面对海量数据,医院信息系统如何分析处理垃圾数据?
大数据、云计算等先进概念和技术的发展让数据迸发出前所未有的魅力和价值,医院的海量数据蕴藏着巨大潜力。但由于长期以来对医疗数据质量缺乏重视,垃圾数据导致的数据质量问题已对医疗数据分析利用产生了巨大影响,成为医疗数据的深入分析和挖掘利用过程中最大的阻碍。目前,事前规避、过程环节监控和事后及时反馈已成为防范和应对医院信息系统垃圾数据所造成的数据质量问题的主要方法和途经。
1 垃圾数据产生的原因
1.1 主观因素 管理层对数据质量重视不足,导致缺乏相关的管理制度、管理指标等,数据质量长期处于无人监管、无据可依的境地。
缺乏数据质量责任意识。数据质量管理的相关制度、培训的缺乏和软件系统本身对数据产品质量忽视等导致操作人员无法产生良好的数据质量责任意识,只是单纯的录入数据和完成操作,对数据录入的准确性等质量要求无法产生主动管理意识,更不会积极参与数据质量的管理。
各种信息系统建设和验收重点过于强调快速和功能,忽视系统数据的质量监管,缺乏数据质量验收的概念和标准。
过于依赖和信任电脑,忽视人员主观因素,缺乏专门的培训体系和监管体制。
1.2 客观因素
1.2.1 数据库设计缺陷 数据质量的概念产生于海量数据再应用,在医院信息系统建设初期对数据质量没有深刻认识。数据库开发人员在设计数据库时难以全面深入的对可能的垃圾数据等具备周全的考虑和准备。这也是医院信息系统建设过程中难以回避的阶段。
1.2.2 应用系统程序设计缺陷 系统提供商关心利润,提供产品力求周期短、见效快,对于数据质量管理没有原动力。很多信息系统缺乏数据的完整性约束和质量管理功能,有些甚至可能直接修改基础数据字典,对数据质量造成极大的隐患。
1.2.3 缺乏专门工具、团队和机制 医疗数据是医疗行为的最终总结和信息载体,管理的复杂度并不亚于医疗过程的质量管理。但目前各大医院的质量管理重点多在于医疗质量管理,对于医疗数据质量管理尚未形成专门团队和体系,也缺乏完备的管理机制。
2 信息系统数据质量层次和问题分类
只有从对垃圾数据产生的路径和影响因素入手进行分类管理,制定针对性的对策,才能快速、有效的防止和纠治垃圾数据。
2.1 医疗数据质量层次划分 各种医疗操作时刻都在产生和影响业务数据。对信息系统内医疗数据的产生和变动因素进行分析,将各种医疗数据划分为数据基线路径和业务数据两大类,细分五个区域,如图1所示。
图1 信息系统医疗数据的不同操作领域
图中箭头连线表示数据的产生路径或影响路径。实线箭头表示客观可控的数据流,但会受到主观操作影响;虚线箭头表示主观的必须进行严格管控的数据流,是管理中的重点和难点。
2.2 垃圾数据导致的数据质量问题分类 数据质量问题通常表现为某个数据应具备的质量属性问题。一般而言,可分为缺漏、错误或不合规范、时效性、逻辑不一致、唯一性等问题。除数据缺漏可以完全通过程序的完整性约束来解决外,其他必须结合人工管理措施进行纠治。各类数据问题纠治的自动化程度如图2所示。
图2 不同数据质量问题对自动化和人工措施的依赖程度
数据缺漏:如患者姓名未录入等;数据错误或不合规范:如手机项目录入了固定电话号码等;数据时效性问题:如按照医院规定应当出院后24小时完成首页填写但未及时填写;数据逻辑不一致:如年龄<10岁但婚姻状况录入为已婚等;唯一性问题:如同一患者具有两个ID号等。
3 对策和建议
3.1 责任意识培养和全员参与模式的构建 良好的数据质量必须基于良好的数据责任意识和全员参与。必须从制度保证、部门和人员团队建设,带有数据质量管理思维的软件开发模式以及先进的信息反馈工具三方面入手。
3.1.1 医疗数据质量管理制度体系 良好的质量源于严格的制度。医疗数据质量管理制度体系是整个医疗数据质量控制工作中各种具体业务流程操作和人员行为的依据和标准。包括总体制度、人员架构安排、各类业务数据操作规定、各类业务数据质量规范、人员岗位操作规范与职责、信息系统和软件数据质量验收标准、医疗数据质量管理指标集以及人员奖惩制度和人员质量档案登记制度等。
3.1.2 部门、人员团队建设 建立专门的医疗数据质量管理委员会,作为数据质量管理的最高决策机构;质量管理科是医疗数据行政管理部门,负责相关规定的制定和监督落实;信息科和统计室作为医疗数据质量管理的技术支持部门,负责相关工具的开发和对医疗数据质量的深入分析和监控支持;各业务部门建立专门的医疗数据质量监督小组和联络员,负责数据源头的监控、人员培训以及相关事宜的联络等。
3.1.3 完备的评价指标体系 建立科学、合理的指标体系进行评价,通过对指标体系内不同的评价指标赋予权重来突出管理重点,通过综合得分来量化考评。一般由统计部门协同相关业务科室共同制定。
3.1.4 专门工具的研发和应用 先进的信息化工具是医疗数据质量管理必不可少的辅助,应当具备以下几方面的功能。
3.1.4.1 信息的录入、分发和反馈 监管人员和责任人员之间及时有效的互动沟通是质量管理的核心,直接制约管理效率和效果。这就要求系统工具必须具有便捷的信息录入、分发和互动反馈功能。录入环节一般由监管部门录入和按用户权限分发所发现的需要修正的数据质量问题信息,及时提醒和帮助各部门各人员了解和定位相关的数据质量问题。反馈主要是指让监管部门及时、随时了解数据质量问题所处的状态,如待修改还是已修改,便于进行监管复核,并提示责任人跟进。
3.1.4.2 数据问题修正 系统工具应提供数据修改接口,方便各级各部门的人员根据自己的用户权限进行数据修正。对技术支持人员提供有限制的底层数据访问功能,以便对已经无法由前台进行修正的数据质量问题进行修正。
3.1.4.3 统计报表 报表功能主要用于对医疗数据质量管理相关指标和信息进行汇总和可视化的展示。便于帮助各级管理人员直观了解和讲评,定位本部门的重点问题和管理方向,制定改进措施。
3.2 基准数据领域的质量管理 基准数据领域中的数据是其他医疗数据产生的基线,包括基本字典、业务字典等。这部分数据的稳定和准确从基础上影响数据质量。如身份字典的垃圾数据可能会影响到每个患者实例数据。对于这部分数据的质量管理应定期审计,包括标准的审查和变更管理、每日定时比对、数据变更审查以及跟踪记录、报警等。
3.3 应用程序的质量管理 应用程序对其产生的数据质量缺乏约束,造成大量数据缺陷,如关键字段不录入也可保存数据等。在开发或引进软件程序时,必须要求程序提供商提供数据质量约束标准等文档,在软件上线使用前院方应安排专门人员进行数据质量的测评,包括录入环节的完整性约束与提示、产出数据的质量评价以及回溯修正功能等。
3.4 人员主观因素的管理 必须依靠完备、严格的管理和奖惩制度以及长期坚持不懈的培训。培养树立人员的医疗数据质量责任意识,明确岗位职责,严格落实操作规范。监管部门定时进行监控和评价,结果直接和个人绩效、晋升考评等挂钩。
3.5 业务数据领域的质量管理 业务数据作为联机在线分析业务(OLAP)和决策支持(DSS)数据的数据源,具有一定的静态性和不可变性,是数据质量管理的终末环节。由于前述原因,很多垃圾数据一直流入到业务数据领域才被发现,此时基本不可能使用业务程序进行回溯无痕修改,只能弥补性的终末修改和反馈。如患者已由系统入院但本人实际未入院时,应由护士站取消入科后通知住院登记处将该患者待入科信息删除,但实际大都直接出院操作了事,导致系统中出现一条无效的住院记录,只能直接由工程师从后台数据库删除。
3.6 静态数据的质量管理 静态数据主要用于决策支持(DSS)业务,如数据仓库、BI应用等。应保持严格的静态性,业务数据进入该领域之前必须经过严格的清洗,一旦进入则不能修改。确实需要修改的需专业数据管理人员和工程师进行数据影响评价后进行。现在业界主流的做法都是在做系统集成的过程中将业务数据中的垃圾数据修正完毕,然后才进行静态数据的导入和生成,好处是可以基本保持业务数据和静态数据的一致,但需要投入大量成本。
(来源:《中国数字医学》杂志2016年第9期 作者:刘琛玺 彭传薇 周民伟等 单位:广州军区广州总医院)
标签:   广州军区广州总医院