您的位置:健客网 > 新闻频道 > 政策解读 > 聚焦医改 > 汪鹏:从临床中来,到临床中去——探寻医疗大数据发展之路

汪鹏:从临床中来,到临床中去——探寻医疗大数据发展之路

摘要:医院信息化经过20年的快速发展,已经进入一个高度信息化、数据化的时代。然而,我们的临床医生看病与20年前又有什么本质区别呢?——从手写到用键盘取而代之,甚至“忘了”手写,这似乎是为数不多的变化。

  2017年7月28日,“2017医疗IT创新研讨会暨医疗大数据发展论坛”在云南省肿瘤医院召开。陆军军医大学西南医院信息科汪鹏主任围绕医疗大数据临床应用发表了精彩演讲,从“医疗大数据正逢其时、百家争鸣之灵感触动、临床辅诊之探幽索胜、医学智能之未来简史”这四个方面,全面阐述了医疗大数据的基本内涵、创新需求、发展现状、建设实践和未来动向,以期为我国医疗大数据的研发应用提供些许借鉴。

  汪鹏

  陆军军医大学第一附属医院

  (重庆西南医院)

  如何跳出传统IT思维,去推动和辅助临床信息化创新?这是新一代医疗IT建设者们需要思考的问题。

  医院信息化经过20年的快速发展,已经进入一个高度信息化、数据化的时代。然而,我们的临床医生看病与20年前又有什么本质区别呢?——从手写到用键盘取而代之,甚至“忘了”手写,这似乎是为数不多的变化。

  能否利用最新科技改变传统诊疗模式,给医生和患者提供更多智能和帮助呢?我认为,医疗大数据是迈向“智能医学”的必经之路。传统医学模式正在加速向5P医学模式转变,即预防性(Preventive)、预测性(Predictive)、个体化(Personalized)、参与性(Participatory)、精准医疗(PrecisionMedicine)——整个医疗服务领域已经步入数据驱动时代,医疗大数据就是精准诊疗、智能诊疗的基础。

  1

  医疗大数据正逢其时

  概念逐步落地

  需求蓬勃发展

  政府强力引导

  2008年,Nature杂志出版专刊BigData,“大数据”一词正式登上科学舞台,并迅速成为各领域研究热点。

  资料卡:定义大数据

  国际数据公司IDC对大数据定义如下:一种新一代的数据集及其技术和架构,具备高效的捕捉、发现和分析能力,能够经济地从类型复杂、数量庞大的数据中挖掘出价值。

  然而,至今仍然有很多人认为大数据是炒作居多,仍沉浸在传统思维中。特别是健康医疗大数据,常被“诟病”为“不够多、不够大,根本谈不上什么大数据,更鲜少成熟应用”。这主要是因为没有看清传统方法对新需求的力不从心,没有看清健康医疗大数据发展的巨大潜力和创造力。

  对于大数据的标准,国家统计局给出的最新特征是“6V+1C”(见图1),大数据是指无法以传统方法进行抓取、管理、处理和利用的数据集合。来源于临床病历、健康档案、基础知识库、临床知识库、参考文献、个人健康数据、基因与组学数据的医疗场景数据和大数据相关技术深度结合,使新模式、新价值得以产生。

  数据种类丰富、结构复杂是医疗数据的显著特点(图2),有学者测算,电子健康档案(EHRs)中有80%的数据是以非结构化形式存储的,通常都是自然语言处理/录入。因此,需要对自然语言进行语义分析和数据特征提取。目前,这仍然是较难的一个技术点,特别是中文。

  同时需要注意的是,生物医学大数据的增长规模和复杂程度超出想象——来看一组数据。

  资料卡:大数据有多大

  2015年,生命科学和医学研究产出科学数据保守估计已经超过EB量级,相当于五百万个国家图书馆的信息量;

  单个个体相关的组学数据和临床数据总和已经超过400G,相当于2000个国家图书馆的信息量。

  生物医学大数据正以前所未有的方式推动生命科学与生物技术的进步,生命科学进入信息时代,通过数据链整合产业技术创新链已经成为国际竞争新的技术制高点。

  大数据需求蓬勃增长,应用前景广阔,以下简单归纳了一些面向不同对象的医疗大数据应用需求。

  面向医生

  提供不良反应与差错分析提醒、智能临床辅助诊疗与治疗、单病种大宗病例统计分析、治疗方法与疗效对比、最小有效治疗分析、精准诊疗与个性化治疗、医学影像学智能标注与分析等。

  面向患者

  提供全生命周期的健康档案、自我健康管理、健康状态的预测与预警等。

  面向研究人员

  提供科研数据采集与分析、科研选题与科研发现、用药分析与药物研发等。

  面向管理者

  提供精细化管理决策支持、基于数据的模拟分析、病种与疾病谱分析、疾病与疫情监测等。

  虽然需求非常旺盛,但到目前为止,还鲜见能够非常成熟的去实现这些需求,特别是投入临床应用的、让医生和患者都满意的信息化产品。因此,我们信息人还有很多工作要做!

  图3医疗大数据应用促进诊疗模式的变革

  医疗大数据应用将有利于促进诊疗模式的变革。20年前,医生主要靠手写;20年来,医生逐渐摆脱纸笔,利用电脑开处方、写病历;5-10年后,我预测,医生不再孤独地“战斗”,在他们的背后会有大数据、人工智能、云计算等IT资源提供强有力的知识外挂组件。

  我国政府也越来越关注大数据的布局——

  2015年,国务院印发《促进大数据发展行动纲要的通知》

  2016年,发布《十三五规划纲要》,实施国家大数据战略

  2016年,国务院办公厅再发《关于促进和规范健康医疗大数据应用发展指导意见》——从战略到具体实施,国家从各个层面来指导健康医疗大数据的发展和实施。

  2017年7月20日,国务院印发了《新一代人工智能发展规划》,其中有两点涉及到了大健康产业:一是关于智能医疗的;二是关于智能健康和养老的。规划对全行业人工智能的发展进行了阐述,明确了我国新一代人工智能发展的“三步走”战略目标,提出到2030年中国要达到国际领先地位。

  国家这些政策和利好对企业来说是商机,对我们医疗IT建设者来说是方向和指导。因此,健康医疗大数据的产业热度会保持很长一段时间,有望向新兴的人工智能产业迈出坚实的一步。

  2

  百家争鸣之灵感触动

  一枝独秀不是春

  百花齐放春满园

  资料卡:本节提及的企业/研究机构

  Google、微软、法国高速基因组测序分析平台、飞利浦、HealthNucleus、IBM、威斯康星大学麦迪逊威丝曼中心、中国科学院北京基因组研究所生命与健康大数据中心、清华大学数据科学研究院医疗健康大数据研究中心、电子科技大学的健康大数据研究所、高血压大数据联合实验室、春雨·中国科学院大学健康大数据联合实验室、贵州省大数据精准医学实验室、上海精准医疗大数据中心、中华精准医学中心、医渡云、柯林布瑞、乐九医疗、Airdoc、同济CT“阿尔法狗”、华大基因、华西-希氏医学人工智能研发中心

  (作者备注:以下资料均来自互联网业界报道,部分资料为本人与相关厂商交流获悉。)

  首先来看一组全球医疗大数据临床应用方面的具体实践

  GoogleFluView

  专攻搜索引擎的一些公司在掌握大数据资源方面具有得天独厚的优势,他们可以基于这些数据挖掘很多应用,如关注热点、消费习惯等。Google公司的FluView,是一个基于大数据分析的跟踪工具,对流感预测是非常好的一个案例,也是较早广泛报道成功案例。FluView能够接收并处理来自搜索用户、医生、医院以及CDC实验室的大量数据,为流感疫情的蔓延提供一个清晰的图像,进而帮助阻止流感疫情的蔓延。

  微软Azure云平台

  微软Azure云平台推广大型、开放的基因组数据集1000基因组,为研究人员提供帮助,并与很多基因公司合作,打造基因组大数据分析平台。

  法国高速基因组测序分析平台

  法国开建2个高速基因组测序分析平台,主攻癌症、糖尿病、罕见病,平均每年能够实现对1.8万个基因组的测序和解读。同时,启动基因组和个体化医疗项目,以提高国家医疗诊断和疾病预防能力为整体目标,预计在全国范围内建立12个基因测序平台,2个国家数据中心。

  飞利浦

  飞利浦联合威彻斯特医学中心启动精准医疗计划,IntelliSpace基因组学解决方案无缝衔接了来自多个数据源的数据,将基因组学分析与患者临床数据相整合。

  HealthNucleus

  HealthNucleus的全基因组健康管理服务提供全基因组测序、微生物组测序、代谢组学分析、临床检查和影像服务,可通过用户基因组与人类参考基因组进行比较,评估用户的基因组。

  IBMWatsonHealth

  广受关注的IBMWatsonHealth的认知系统能不断地学习、训练、产生知识,与理解的对象产生互动。整个方案包括Watsonforoncology(肿瘤,lung,breast,colon/rectal等的治疗方案)、Watsonclinicaltrialmatching(临床方案匹配,识别患者相适应的临床方案)、Watsondiscoveryadvisor(医学发现,从海量医学文献获得洞察力)、Watsongenomicsadvisor(基因,从DNA序列中获得洞察力)、Analysisofmedicalimages(医学影像分析)。

  IBMWatson要做的不是“占有”数据,而是通过提供平台鼓励用户自己训练Watson——我认为这个思路是正确的。基于IBMWatson的医疗助理每秒可以阅读数亿页资料,帮助医务人员获取数据,这在之前是做不到的。

  GoogleAI

  GoogleAI进军医疗,在一些类型的乳腺癌的病理识别准确率上超过了医生——病理学家花了整整30个小时,仔细分析了130张切片,准确率为73.3%,而谷歌AI交出的答卷则是88.5%。

  类似的基于图像识别的应用还很多,例如基于脑部MRI的白质高信号灶分割、基于皮肤镜照片的皮肤癌分类诊断、基于数字病理切片的乳腺癌淋巴结转移检测、基于眼底照片的糖尿病性视网膜病变检测等等。这些基于影像的分析诊断能够成功,主要是因为影像学提供了足够的规则,因此很容易做出大数据判别。

  威斯康星大学麦迪逊威丝曼中心和威斯康星发现研究院

  基于录音也可以进行大数据诊断,这非常新颖。根据威斯康星大学麦迪逊威丝曼中心和威斯康星发现研究院的新研究,依靠5min的录音就足以判断某个人是否容易罹患与基因相关的遗传性疾病。目前已经可以准确地识别个体的突变前期的脆弱的X染色体。

  达芬奇手术机器人

  可以辅助医生做手术的手术机器人也是重要的一部分,它可以利用各种知识库可以实现精准诊疗。达芬奇手术机器人已经成为全球最成功和应用最广的手术机器人。

  国内在大数据、精准诊疗方向上也有很多布局和应用

  中国科学院北京基因组研究所生命与健康大数据中心

  中国科学院北京基因组研究所生命与健康大数据中心建立了海量生物组学大数据储存与分析体系,建设组学大数据应用与共享平台,已完成整合全球1700多个生物数据库,国内首个原始组学数据归档库正式上线,目前正开展人群精准医学信息库、原始组学数据的共享平台。

  清华大学数据科学研究院医疗健康大数据研究中心

  清华大学数据科学研究院医疗健康大数据研究中心整合海量医疗健康大数据,为公众健康、临床决策、政府决策提供支持;对临床表型与生命组学数据进行整合分析,实现对肿瘤、慢性病、罕见病等高危疾病实现精准预防、诊断和治疗。

  电子科技大学健康大数据研究所

  电子科技大学健康大数据研究所已经完成大数据分级诊疗监测评估系统,目前承担着基于健康云的老年健康管理服务、面向医疗保险的大数据分析应用、医学数字影像唯一身份识别等科研任务。

  高血压大数据联合实验室

  高血压大数据联合实验室由中国科学技术信息研究所、北京同仁医院、科学技术文献出版社共同成立,正在打通院内数据,形成产、学、研融合的高血压数据平台、管理平台,后期将面向全国形成高血压数据共享、应用、发布的数据支撑平台。

  春雨·中国科学院大学健康大数据联合实验室

  春雨·中国科学院大学健康大数据联合实验室是国内专注于健康大数据的专业实验室,目标是实现智能和自动化的慢病管理,根据用户线上问诊数据,实现初步的智能化疾病诊断,目前已成型使用,正开展分析健康消费数据,增加用户用药和治疗经济性,降低医保赔付率。

  贵州省大数据精准医学实验室

  贵州省大数据精准医学实验室由贵州省医牵头成立,通过医学影像大数据,形成人工智能医疗体系,正在开展3D医学影像,以让医学生更加熟悉人体构造,同时将影像设备结合大数据分析提供出了更精准的诊断方式。

  上海精准医疗大数据中心

  上海精准医疗大数据中心由复旦大学、复旦大学各个附属医院、上海张江转化医学研发中心组成,已开展生物大数据开发与利用研究,建立标准化的食管癌患者临床信息管理系统,搭建了精准医疗临床决策支持系统。

  中华精准医学中心

  中华精准医学中心由复旦大学附属中山医院和华大基因联合成立;通过基因大数据,建立覆盖生育健康、肿瘤预防、心脑血管、遗传及感染等领域具有国际水平的基因组学研究和应用中心。

  医渡云、柯林布瑞、乐九医疗等国内医疗大数据企业

  国内的医渡云、柯林布瑞、乐九医疗等医疗大数据企业率先在医院推广全数据搜索引擎,把医院积累的海量数据资源盘活,使得临床资料的精确查找达到秒级水平。基于性能卓越的医疗大数据平台,医渡云等企业还在与医院合作,利用其积累深厚的NLP和大数据平台构建技术,共同探索面向临床的知识推荐服务系统。

  Airdoc

  人工智能企业Airdoc的辅助诊断模型可以识别百万级甚至更高数量级的医学影像。如能够通过多维度数据分析辅助诊断及疾病预测,通过对文本、影像等多模态海量数据的综合挖掘,建立预测分析模型,进一步探索疾病分布演化规律;如医学影像识别,已经针对大脑、心血管、肺部、肝脏、骨骼健康领域研发出多个模型。

  同济CT“阿尔法狗”

  还有同济CT“阿尔法狗”,据称5秒读结果,阅片水平已经接近主治医师,对于三毫米以内的小病灶,人肉眼很容易遗漏掉,但是它却能够识别出来,对肺结节的发现准确率更是高达90%。

  华大基因

  华大基因通过基因测序预测破解疾病,通过搭建生物信息云平台进行超大规模的全基因组关联分析,可以进行母体肿瘤早期筛查,研究遗传病的分子流行病的突变点频谱分布。

  华西-希氏医学人工智能研发中心

  就在7月27日,四川华西医院的华西-希氏医学人工智能研发中心经过3个月研发,已经实现了人工智能对消化内镜图片的秒级诊断,诊断准确率达90%以上,有望于未来2-3年临床应用。

  据报道显示,该人工智能技术的研发过程分为数据筛选、消化病变归类、AI模型数据训练和深度学习、模型测试调整及再训练等4阶段,目前已对20万份病例数据进行了深度学习,对息肉、肿瘤、静脉曲张的初期诊断准确率分别达到了92.7%、93.9%和96.8%。

  以上这些案例并不足以完整描绘整个医疗大数据发展现状,但足以看出,无论是在国内还是国外,大数据、精准诊疗、人工智能都是一个重要的风口上,这将是信息化发展到一定阶段后产生质变的关键时期,我们应该迎难而上,随着潮流来做一些有意义、能落地的工作。

  3

  临床辅诊之探幽索胜

  所有的理论法则都依赖于实践法则

  ——德国哲学家费希特

  依托于西南医院丰富的数据,我们结合医院实际情况做了一些肤浅的工作。

  资料卡:西南医院的大数据有多大

  以2016年为例,西南医院门诊量近400万,20几年来已经积累了海量数据,为大数据分析提供了基础。目前医院包括影像系统在内有600T以上的丰富数据储备,其中包含4123万条医疗就诊记录,253万份电子病历文档资料,80万份标准化存储的生物样本,110万份与沙区共享的居民电子健康档案。

  目前,我院开展了临床数据中心与搜索引擎、遗传基因检测运算、临床医师评价体系、CDSS研究、生物样本库、结构化电子病历智能检索、辅助管理决策支持、临床专科病种数据库等八个方面的医疗数据研究与应用。

  利用医学超算平台进行大数据研究

  图4西南医院肿瘤遗传与基因组中心专家利用超算平台系统,该图为基因在人类染色体上的位置

  2015年,我院依托生物遗传中心、肿瘤遗传与基因组中心、感染科等,结合中科院重庆绿色智能技术研究院超级高性能计算平台,以及中科院软件所大数据分析技术,通过基因数据分析、跟踪、对比研究,建立了大数据基因测序平台,服务于个体健康和人类基因组数据应用。中科院曙光5000A超算平台能满足300万亿次浮点计算能力,完全能够满足各科室需求。经过两年多的应用实践,共处理、分析两万余份生物样本,使用超算CPU超过近10000机时,为西南医院的科研和临床应用提供了重要支撑。

  基于Hadoop架构的医院医疗大数据基础服务平台

  图5基于Hadoop架构的医院医疗大数据基础服务平台

  该平台可完成数据收集、数据存储、数据清洗等工作,医院HIS、EMRS、LIS、PACS等医疗信息子系统的数据通过ETL、收集、清洗、归一化等处理,为上层应用服务提供准确的基础数据支撑。

  以乳腺癌治疗为突破口的CDSS研究

  图6以乳腺癌治疗为突破口进行CDSS的研究

  根据近十年来乳腺癌临床治疗的发展和变化,我院乳腺中心姜军教授提出一个创新理论,即最小有效治疗,认为由于患者年龄、身体状况、临床分期、组织类型、分子分型等等不同,应更多地进行个体化治疗,减少盲目和不合理的治疗。

  这种“最小有效治疗”理论能减少过度治疗带来的盲目诊疗、缩短住院时间,对患者而言,不良反应和并发症相对较少,也更加经济。而这需要对疾病诊疗的知识特征进行分析,以尽量贴近医生思考、判别的思维方式,因此需要构建依托医疗大数据的精准诊疗方案智能指导系统,即临床诊疗决策支持系统。依托于该系统能够辅助实施精准诊疗,辅助医生进行知识学习更新和临床诊疗。该系统目前也已经针对患者开发了信息采集、病情分析和诊疗决策功能,并提供了病例查询和统计分析等功能。

  医院专享“百度”

  如何才能充分挖掘医院积累的千百万份病历数据?

  如何才能提高医生录入科研及随访数据的效率?

  如何形成以学科、病种为主题的医学科研数据库?

  如何才能把临床大数据转化成临床询证知识系统?

  如何把医院数据转化为有价值、可促进学科发展的资产?

  图7西南医院临床大数据医学科研搜索引擎

  我们开发了基于科研数据中心的临床科研信息系统;开发了临床科研信息平台,尝试着将历史积累的病例数据转化为支撑学科长期发展的战略信息资源;开发了医院临床大数据医学科研搜索引擎,输入关键字后,三秒内可以遍历全院临床资料,显示搜索结果;开发了单病种科研随访系统;我们还尝试着开展临床询证知识推送系统研究,与门诊医生站、住院工作站、个人/科室科研数据库集成融合,让临床医生在诊疗过程中即时使用医院积累的数据知识,在临床诊疗过程中做科研。

  图8正在开发中的医生站临床询证知识推送系统

  在我们与一批大数据公司的合作规划中,将逐步完成诊疗线索、临床知识库、智能文献助手、智能决策四期工程。整体设计思路是与医生站紧密结合,以便通过医生站即可获取临床辅助决策信息。我们力争形成这样的大数据产品:工具化、产品化,与医生的日常工作平台紧密嵌入,具备高度的实时性和方便性,具备自主学习和智能化能力。

  4

  医学智能之未来简史

  医疗大数据与医学人工智能

  是一场事关人类健康与生存的知识革命

  最近有一部畅销书叫《未来简史》,我参照该书目录的提法,描述一下医疗大数据的"未来简史"。

  第一章悠长的过往

  1996年以前的漫长时期,医院信息化绝大部分以财务系统为主,从DOS到桌面,从单机到网络,从同轴电缆到双绞线,一切都是为了把钱收准、把账管好。

  第二章全面信息化简史

  从1997-2012年是医院信息化发展非常快的阶段,围绕电子病历、质量与效率管理等的各大系统陆续上线,并改变了医生传统的工作方式。

  第三章传统方式的终结

  从2013年-2016年,随着医院数据积累越来越大、系统间的接口越来越多,传统信息不断堆砌的方法走向终结,医院信息系统在交互性、标准化等方面迫切需要更好的规划设计和调整。

  第四章未来第一次浪潮:从ESB、CDR走向开放互联

  从2015年-2020年,我们迎来了“未来第一次浪潮”,医院信息化建设从ESB、CDR走向标准化的开放互联,将为大数据发展奠定基础。

  第五章未来第二次浪潮:基于云端大数据的临床辅诊

  从2017年-2025年,我们将迎来“未来第二次浪潮”,基于云端大数据的辅助诊疗系统将在临床工作中越来越深入的应用。

  第六章未来第三次浪潮:医学人工智能的革命

  从2020年-2030年,在“未来第三次浪潮”中,我们将迎来医学人工智能的革命,计算机真的能代替医生的很多工作。

  第七章中国将如何

  如果说从工业革命到信息革命,中国都处于落后与被动局面,那么在人工智能研发应用领域,我们与国外基本是在一个起跑线上。我们必须抓住机遇,加大基础研究和应用研发,10-15年后争取成为人工智能研发与应用的大国、强国。

  在谈医学人工智能之前,让我们再回顾一下人工智能的前世今生。

  人工智能这一概念是在1956年的达特莫斯(Dartmouth)会议上首次提出的,这一学科的研究领域现在包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能的发展经历了上世纪50-60年代的形成期、上世纪70年代的暗淡期、上世纪80-90年代的应用期,在21世纪进入突飞猛进期,人工智能在语音、语义、图像等方面的应用日益广泛成熟,引起了各国各大研究机构的关注,纷纷布局人工智能医疗研究领域。

  依托于计算机视觉技术、自然语言处理技术、语音识别技术、机器人技术、机器深度学习技术这五大人工智能核心技术,在医学人工智能领域,知识共享、更快的分析、更智能的学习、更聪明的机器人、更自然的互动,将是未来的发展趋势。

  在今后一段时间,我个人判断,融合人工智能技术的医疗大数据应用将深度嵌入临床诊疗过程,主要有以下几个方面的趋势。

  医疗大数据应用从当前的科研数据利用层面逐步进入到临床诊疗过程辅助层面;

  循证医学数据、临床指南、医学文献等丰富数据资源将共同服务于临床诊疗过程;

  医生工作站平台将会外挂越来越来的医学知识库为诊疗过程提供智能化支持;

  基于大数据分析的人工智能有望取代如影像科、病理科等大部分单一识别性与分析性工作;

  医院管理可实现全时段、全领域、全维度“数据型优化”。

  在具体应用层面,可辅助诊断疾病的虚拟助理、可辅助医生看片的医学影像人工智能、可大幅度降低药物研发成本的虚拟药物筛选及挖掘、以意念控制芯片的康复医疗、可识别和降低疾病风险的健康管理、可优化医疗服务流程和资源配置的医院管理等等,都是未来值得关注的发展方向。

  不过,在医疗的AI研究领域,长期以来的一个困难是缺乏高质量干净的有临床标注的数据。同时,医学的复杂性也使得寻找一个完美的训练集非常不容易。从大数据到AI,除了“有数”以外,还得锻炼“庖丁解牛”的精湛技艺与方法体系。目前人工智能在医疗领域的应用尚处于比较浅显的阶段,人工智能可取代医生的重复性体力劳动工作,提升医生的职业专业程度,但是从更深一步的诊断决策和治疗尚有缺陷。

  最后,我想引用作者尤瓦尔·赫拉利在《未来简史》中的两句话:

  ①人类之所以不愿意改变,是因为害怕未知。但历史唯一不变的事实,就是一切都会改变。

  ②全球经济导向已经从物质经济转变为知识经济,过去主要的财富来源是物质资产,比如金矿、麦田、油井,现在的主要财富来源则是知识。

  为此,在可见的未来,我可以大胆地预测,医疗大数据与医学人工智能将是一场事关人类健康与生存的知识革命!

  同道们,让我们一起改变,一起投入到这场伟大的人类健康革命中去吧!

  -end-

看本篇文章的人在健客购买了以下产品 更多>
有健康问题?医生在线免费帮您解答!去提问>>
健客微信
健客药房