【论文精选】基于电子病历大数据的可视化病症分析
1 电子病历大数据可视化分析概述
传统纸本病历数据缺乏有系统的整理,更无法和其他病历数据产生连动性,缺乏查询的便利性。电子病历则是利用电子设备保存、管理、传输和重现的数字化病人医疗记录。如果将数十万甚至数百万的电子病历数据汇集在一起,再运用大数据分析技术加以分析,将具有难以估计的价值。
电子病历大数据分析技术帮助医生迅速了解隐藏在病历数据中的病情信息和治疗方案,通过有效的大数据可视化技术将病历数据与病症关系以图形图像形式清晰展示给医生,方便医生探索其中的医学诊断规则和模式,从而辅助其进行疾病诊断,对现有的HIS进行改进和完善。电子病历大数据可视化分析对经验较为欠缺的医生格外重要,即使病患的病情超出医生经验范围,仍可透过电子病历的大数据分析结果,更有针对性地看诊,和病患的沟通也更加方便快捷,大大节省医生询问时间。同时,通过电子病历大数据可视化分析,不仅病患所有健康情况一目了然,医院的咨询服务工作也会更加轻松,尤其慢性病患者的用药及照护,更需要透过大数据分析建立完整的关联性,避免提供错误资讯或错过需要注意的现象。
2 构建“疾病网络图”的电子病历大数据结构化处理方法
在可视化分析之前,需要将庞大的电子病历数据资源处理成结构化的可用数据。首先,将电子病历中涉及到的主要病情分成16大类,分别为:血液病、循环系统疾病、消化系统疾病、泌尿生殖系统疾病、免疫系统疾病、感染性疾病、受伤或中毒类疾病、心理疾病、骨骼肌肉类疾病、神经系统疾病、孕期疾病、呼吸系统疾病、感觉器官类疾病、皮肤病、肿瘤以及其他未分类疾病。其次,在病历中针对各大类疾病中的主要关键词,分成各副类别的疾病。例如,在血液病中,抽取两个关键词缺铁和贫血作为副类别疾病。再次,将电子病历中涉及到的各种症状或词汇提取出来,例如:头晕、疲倦、胃灼热、肠绞痛等。最后,利用这些提取出来的数据,构成一个M*M矩阵的数组结构,方便后续进行的可视化分析。表1展示了提取的矩阵结构,所有疾病大类、副类、症状及词汇都作为此方形矩阵的节点,存储在数组nodes中。每个节点中包含两个元素:节点名称name和节点半径R(根据病历中的出现频次确定)。节点与节点间的关系存储在edges数组中,wij用来表示节点间的关联程度。
表1 M*M矩阵结构
3 构建“疾病网络图”
用节点表示对象,用线(或边)表示关系的节点-链接布局是最自然的可视化布局表达。它容易被用户接受,帮助其快速建立事物间的联系,显示表达事物间的关系。节点-链接布局主要包括力引导布局和基于距离的多维尺度分析布局两种。
本研究选择力导向图与D3.js技术结合,D3.js技术来自开源js框架,可以不连接互联网使用,保证数据及信息安全。力导向图是在二维或三维空间里配置节点,节点间用线连接,称为连线。各连线的长度相近且尽可能不相交。节点和连线都被施加力的作用,以此为据来计算节点和连线间的运动轨迹。力引导布局易于理解、容易实现,可用大多数网络数据集,且实现的效果具有较好的对称性和局部聚合性,因此比较美观、交互性好,整个布局结果更容易被接受。
3.1 力导向图布局 力导向图的布局是将初始化的数据转换成画图可用的标准化数据。电子病历的数据被整理成格式化数据:数组nodes和edges,这两个数组构成初始数据。在利用D3.js作图前,需要将其转化成可用的标准化力导向图布局数据。
3.2 力导向图绘制 在完成力导向图布局后,利用D3.js提供的标准接口,完成“疾病网络图”的绘制。
3.2.1 绘制节点 在绘制节点时,预先绑定nodes数组。绘图时根据nodes数组中的节点个数,动态添加力导向图的节点数目。在绘制过程中,使用统一的CSS3样式,赋予相同大类的节点同类别的颜色。图上的每个节点半径R,为nodes数组中的R元素对应的值。
3.2.2 绘制连线 在绘制连线时,同样需要预先绑定布局后的数组edges。根据edges数组中的连线条数,动态添加力导向图的连线数目。利用统一的CSS3样式,控制连线的展示效果。连线上的权重形成节点之间力的大小。
3.2.3 可交互设计 基于D3.js进行数据可视化分析优势在于能够实现图形的可交互式操作。为清晰展示“疾病网络图”中节点之间的关系,当鼠标点击某个节点时,只显示与当前节点相关的其他节点,以及连线上的权重关系。
4 讨论
在“疾病网络图”分析前,医学领域已开始对疾病之间存在关联关系达成共识。但具体哪几种疾病之间存在关联,关联程度的强弱程度是多少,疾病之间是否存在隐性联系等问题仍然没有形成清晰的认识。“疾病网络图”通过对MIT环境学院收集的匿名电子病历数据进行大数据结构化处理,构建了疾病间的力导向关系图,对疾病间的关联关系给出详细的分析结果,为医生了解疾病间的关联关系提供新的方法。
图1 疾病网络图全局
图1展示了基于百万份电子病历的“疾病网络图”全局图,在这幅全局图中,16种不同颜色代表了16大类疾病。副类疾病和疾病关键词分别用图中的节点来表示,节点的半径大小显示了关键词在电子病历中出现的次数。全局图中,节点间的连线是透明显示的,允许交叉。
图2 胃灼热与相关症状关联图
在图2中展示了胃灼热与相关症状关联图。在此关联图中,与胃灼热看似关系不大的膝关节疼,却成为与其相关度最近的关键词。这种分析结果超出了医生的常识性认知,为全面了解疾病之间的关联性提供了更加科学的理性判断方法。
5 结语
通过构建“疾病网络图”分析了百万份电子医疗大数据内各种病症与关键词出现频次以及疾病之间隐藏的关联关系,以力导向图的方式呈现分析结果。这种大数据可视化技术分析电子病历的方法帮助医生分析和获取隐藏在电子病历中大数据的信息和规律,帮助医生综合分析和利用这些病历数据,为病患进行有效的诊断和治疗,充分利用电子病历大数据的巨大价值。
(来源:《中国数字医学》杂志2016年第8期,作者:杨旭 赵韡,单位:中国医学科学院阜外医院信息中心)