皇派平台

某医院HIS系统断连的运维案例

一、事件背景

2019-04-20 13点半医院信息中心发现HIS系统连不上,大约断联1个半小时后,自动恢复连接,通过部署我们的系统进行故障分析。

二、医院基本情况

断连服务器为公司内部的一台HIS服务器,服务器地址为172.16.1.138。

用户经过用户汇聚-核心-防火墙-服务器汇聚,达到HIS系统服务器。

具体网络环境如下图:

image.png

网络关系与流程梳理

1、通过系统的NCD图,可以清晰的看到网络的逻辑联系关系。用户请求经虚拟数据库-中间服务/提取数据-HIS数据库基础的业务流程有了很清晰的了解。

 image.png

2、发现异常点。有169.254.122.78-169.254.205.119有数据交互,且数据交互量比较大,需要进一步分析。

 image.png

四、事件分析

1、数据库业务状态分析

1) 查看ORACLE数据库业务综合分析,查看故障前时间段,可以看到172.16.1.138成功率为0,172.16.1.56和172.16.1.55成功率均很高,属于正常的业务状态。

 image.png

2) 当出现问题时ORACLE访问连接状态,我们可以看到详细的ORACLE访问记录。以172.16.31.112为访问对象,在13:33直接访问172.16.1.138是连接失败的,但是访问172.16.1.138的三个请求分布负载分流到了172.16.1.56和172.16.1.55上,且登录是成功的。

 image.png

3) 故障为下午15点以后恢复,我们再看14:42-14:52的数据,在这个时刻我们可以发现还有很多登陆成功172.16.1.56和172.16.1.55的访问记录。

 image.png

4) 继续深入分析该时间段172.16.1.56和172.16.1.55的访问记录。以172.16.1.55为分析对象,查看故障时间段登陆状态,可以看到有用户去访问成功的,也有入口平台访问成功的,还有中间服务器登陆访问成功的。同时以172.16.1.56也是一样的。

 image.png

5) 继续深入分析该时间段172.16.1.193(入口平台)和172.16.1.138的访问记录。也都是访问失败的。

 image.png

 

2、流量分析

1) 网络故障点前后连接数状态分析,通过分析我们看到在故障出现的时间点前后连接数均出现名称明显波动。

 image.png

2) 进一步分析导致连接趋势波动异常的分析,主要是169.254.122.78-169.254.205.119所致。至20日下午15:00左右趋势开始直降。

 image.png


 image.png


 image.png


3) 查看169.254.122.78-169.254.205.119会话信息,同时获取相关端口、MAC地址信息,方便后续溯源查证。

 

    image.png


五、分析结论

1. 当出现问题时,用户侧访问登陆虚拟数据库是正常的,但是通过虚拟数据库去访问HIS系统是不正常的,导致访问失败;

2. 在故障出现期间,有异常流量突发,主要是169.254.122.78-169.254.205.119交换流量;

3. 问题节点出现在虚拟数据库与HIS系统数据交换区间,原因应该是异常流量突发造成网络资源拥塞所致。


皇派平台 官网

地 址:长沙市岳麓区潇湘南路368号中盈广场D栋406-407

邮政编码:410200

电 话:+86-0731-89578690

邮 箱:szxwkj@stpetersburgball.com

招聘邮箱:szxwkj@stpetersburgball.com

久发体育手机版官网_WWW.JIUFA365.COM 五大联赛下注_WWW.JY431.COM 乐鱼体育_WWW.LEYU.COM 好彩客_WWW.1055.COM BOB综合APP_WWW.BOB68.APP 永乐国际_WWW.PK1117.COM 最大体育平台_WWW.HTH.COM BG视讯_WWW.2811.COM