医疗大数据是从无到有的探索之旅

2017-03-31 14:01:28 爱德腕带 阅读

著名未来学家阿尔文•托夫勒在《第三次浪潮》中,将大数据赞颂为“第三次浪潮的华彩乐章”。


  大数据(Big Data)不仅是单纯的新技术,而是继移动互联网、云计算之后IT产业的又一次颠覆性的技术革新。大数据最重要的是思维上的更新。


  从数据上讲,随着信息技术的发展,数据的规模和种类急剧增长,数据呈指数级增长态势,据麦肯锡预测,2020年产生的数据量将是2009年的44倍,接近35ZB。


  从思维上讲,对整体的近似把握往往比对少量个体的精确把握更加有价值,不以随机样本代替整体,不追求少量个体的精确度。


  从技术上讲,大数据是一次技术革新,对大数据的整合、存储、挖掘、检索、决策生成都是传统的数据处理技术无法顺利完成的。


1

医院大数据的挖掘现状


大数据是一步一步实践出来的,有量大、多样、快速、高值四大特点。HIT人一直在想办法用大数据的思维和方法研究医疗数据


  从上看,大型医院每年新增医疗数据约50~100T;一张CT图像约150M,一个病理高清图接近5G,长年累月,一个医院累积的数据量就可达数TB甚至PB之多,但和大数据发源地互联网和电信数据相比,其数据量并不算很大。


  从样式上看,医院大数据有异构和多样性——图像、视频、机器数据等文本多样;无模式或者模式不明显;不连贯的语法或句义居多。


  从速度上看,需要实时分析而非批量式分析,立竿见影而非事后见效。


  从价值上看,尽管医疗数据很重要,但也存在大量的不相关低价值信息;对于未来趋势与模式的可预测分析性;机器学习、人工智能分析的复杂性而言,也客观存在。



所以,从大数据的特点看,医院当前有没有完全意义上的大数据,从复杂性和多维度角度看,大数据特征也可见倪端,但仁者见仁智者见智。



  目前,医院数据主要产生方式有两种:一是医务人员在医疗过程中书写;二是从检查仪器与设备中采集。而医院数据主要还是来自医疗过程的记录,比如,患者建档基本信息、住出院登记记录、医生看诊医嘱与病历、手术与麻醉记录、检查报告图像、检验结果、用药记录、护士执行记录、病案分类编目、医疗费用记录等。同时,医疗信息化也从门急诊/住院系统、医技业务系统、医政业务系统、药品库房系统等各方面带来数据。


  北京大学肿瘤医院的临床数据特点有二:一是患者复诊率高,治疗周期记录完整;二是随访数据完善。要将医疗大数据利用好,可以从以下几点入手:


(1)整合医疗数据,推动业务协同;

(2)智能一体科研,加速医学研究;

(3)临床辅助决策,提升质量安全;

(4)智能肿瘤筛查和患者管理,探索分级医疗。


  医院用好大数据将带来三大优势:


(1)速度提升。在检索速度上,Hadoop与传统的关系型数据库相比,速度至少有百倍以上的提高,达到毫秒级; 

(2)从量变到质变。基于机器学习的自然语言处理技术,可实现对自由文本分词,从而可实现对数据结构化利用。

(3)多维度分析。对多种类型的医疗数据进行分析,包括结构化、半结构化、非结构化的数据。


2

大数据的科研应用


用大数据的思维和方法研究医疗数据,能产出过去传统思维、方法、技术无法完成的任务,解决过去无法解决的问题。以科研为切入点的大数据应用,就是在用大家忽略的数据解决问题。


  科研应用是医院当前的一大痛点(临床医生忙于门诊、手术、患者管理、病历书写、教学、文献检索,还要不得不分身科研数据整理)。对于临床数据而言,虽然经过医院信息化30余年的发展,临床所需的单一患者数据基本能满足,但其应用由于数据质量、数据标准、数据挖掘等问题,科研数据自动获取还处于试验阶段,无法规模化应用于临床。


  近年来随着医院科研任务及需求的迅猛增加,对科研数据获取的准确性及效率要求越来越高,传统的手工或半手工获取科研数据的方式已不能满足要求,在医院业务系统逐步互联互通的发展趋势下,通过大数据技术实现科研数据的归集和应用,解决医院科研数据问题,成为医院IT人员的重要任务。


  科研应用对数据的要求较高,一方面,科研数据质量是严谨的,数据可溯源,这是科研数据的基准和基石;另一方面,科研需要结构化数据,表格化数据,否则无法分析。


  当前,科研应用在临床研究和药物临床试验上有很大需求,也存在着巨大的问题:


(1)二次录入数据效率低,容易造成错误; 

(2)通过结构化病历收集数据,易增加临床医生负担,书写效率低导致使用率低;

(3)临床医学科研各项目数据分散采集,每个课题独立建立CRF(CaseReportForm),分散收集CRF中的数据,课题结束后数据不再延续。


3

临床科研的探索路径


经过多年的实践,北京大学肿瘤医院临床科研的探索路径有六。


1

筛选入组患者后进行二次录入的手工模式

这种模式在大多数医院一直存在,客观上讲是主要模式。它存在着的问题是收集效率低下、数据准确性差,这种情形下,临床医生希望是否想通过结构化病历搜集数据来解决上述问题呢?

2

结构化电子病历模式

病历模板结构化采集数据是业内共识,然而易增加临床医生负担,且后期利用仍需要临床医生进行二次整理,书写效率低导致使用率低,无法满足临床科研采集的需要,这条路径走着有些艰难。记得2012年进行结构化病历阶段遇阻时,曾经找电子病历厂商老总讨论,你能否将医生自然语言书写的病历进行后结构化(当时提出的名词)处理,自动抽取出医生需要的结构化数据呢?那位老总无奈地说,我做不到,真的做不到呀!2012年是大数据才初有概念,更无自然语言、分词技术等概念。无奈,在临床少有科室适用和使用结构化病历的情况下,大家不得不又回到了第一种路径。那么是不是还没有其他路径呢?

3

临床科研一体化病历书写与采集模式

坚持结构化数据采集,同时以医师为视角,提升临床书写效率,以电子病历为平台,建立临床科研一体化病历书写与采集体系,实现科研数据收集的同时,不增加日常工作量。上述文字的目的很简单,但是实现起来的确要下一番功夫。这还需要临床主任参与,对自身业务系统进行专科化改造,建立和医务病历平行的诊疗概览——自动提取和医生手工编辑和确认相结合,记录患者结构化诊疗信息。分离医政病历时效管理的束缚,让医生能从容记录科研结构化信息。这个路径确实在我们医院得到了很好的落实,但是在推广过程中,由于病种差异,各临床科室主任的管理力度不一,真正能落实的科室也是有局限性的。不过该模式很好地实现了基于前瞻性研究的科研数据搜集,但还有一个问题:回顾性研究数据如何解决?

4

基于CDR的科研数据采集模式

CDR(临床数据中心)集合临床各种数据,CRF表单对应模式,填报人(医生或科研护士)进行确认填写表单(机器对应自动填写),同时基于传统SQL的人工分析思路,做后结构化病理报告等关键数据,极大提高了数据采集质量和效率。但是类似病史、手术记录、出院小节等大片段的非结构化文本无法进行结构化,而这些数据在临床是很重要的组成部分。显然这种方式尽管提高了效率,也存在传统技术无法解决的瓶颈,那么是否有更好的方式呢?

5

基于大数据技术的后结构化数据采集模式

通过利用大数据技术方式(NLP自然语言学习、分词技术、HADOOP技术)对历史数据进行后结构化,保持医生书写习惯和思考逻辑的基础上,实现对既往病历(包括上述病史、手术记录等)的结构化处理,使大量沉睡的历史数据得以激活并呈现出来,满足科研数据采集和快速检索需求,特别是速度方面,数千万份的病历数据可以毫秒级检索出结果,而且同时有分类和统计。这是过去传统数据库SQL检索方式无法或者难以实现。但是这个方式可能更多的是解决临床回顾性研究,在数据源头如果缺少数据,仅仅根据历史病历的数据挖掘是不够的,数据质量的提高也是存在瓶颈。而且机器仅仅学习历史数据病历,缺乏医师校准,其学习效果和智能水平也是难以大幅度提高。那么如何在做回顾性研究的同时兼顾前瞻性呢?如何提高计算机自我学习的能力,提高数据采集、分词、标准化的质量呢?

6

大数据技术转化临床应用的临床科研一体化模式

在上述第五条路径中,自然语言学习能否及早让病历书写医师参与呢?我们设想这样一个场景,让医生按照各自的习惯书写病历(无论是结构化还是半结构化,还是复制粘贴),在他提交病历的时候,数据在后台根据NLP算法自动解析和分解,同时呈现给医师电子病历分页,该医师第一时间对解析的数据进行审核和校对和提交。那么对于NLP来说,它不再是跟病历数据学习,而是跟临床医生面对面地学习,其数据算法能及时得到校正和提升。也就是这是一种科研临床一体化的大数据应用模式,我认为无论对软件提供商还是数据管理者和使用者都是有益的,有着值得期待和落地的前景。



我想举一个实际案例:我和医院某科室主任合作了一个课题(某癌症的前期筛查),就是说用利用当前信息系统存在的简单数据,结合数学计算和大数据的方法,对比健康人群和疾患者群队列,找出特异性指标,寻求一个简单可行的肿瘤筛查模型。这个项目正在进行中,而且已经找到了从自然人群发病率十万分之二十五,可以用大数据模型提高数十倍的筛查准确性。


  所以,我相信使用新的技术在传统的医学领域是能有建树的,而且是有价值的,网传的“一滴血验癌”其实并不遥远了。


  大数据在医院的应用和发展是个循序渐进的过程,不同医院有着不同的实践方法和路径,基于大数据技术的数据挖掘数据价值,不仅限于解析清洗出临床数据,而且是数据价值临床、科研、产业的转化,所以很有必要自己来开拓,而不是找人代工。未来,医疗大数据不仅在临床数据分析上应用,还可在临床决策支持、医学影像智能识别辅助诊断、基因组学分析上发力。



                                                                                                                                                                                                                                                                                                             ——来源e医疗


标签:   业界咨询
点击这里给我发消息
点击这里给我发消息