【2018慢性病与信息大会】中国信通院赵阳光：人工智能在健康行业中的应用_大数据资讯

2018年4月27日-28日，由中国疾控中心、中国信息通信研究院主办，中国疾控中心慢病中心、中国信息通信研究院云计算与大数据云研究所、中国通信标准化协会慢性病防控信息技术委员会承办、CloudBest和大健康派协办的"第四届中国慢性病与信息大会"在北京盛大召开。

4月28日，“健康智能终端发展与应用”分论坛正式召开，中国信息通信研究院业务主管赵阳光在现场进行《人工智能在健康行业中的应用》精彩分享。

赵阳光

中国信息通信研究院业务主管赵阳光

演讲内容如下：

赵阳光：各位领导、专家，大家上午好！

今天很荣幸代表中国信通院代表人工智能在医疗健康领域的应用。今天这个汇报分以下的思路，聚焦到医疗的行业，AI如何赋能和改变传统医疗行业中存在的弊端，最终面对未来这个产业发展的问题与挑战，我们通过对数据、标准和合作模式、通过技术创新和标准完善、产业融合等角度给出行业发展的建议和分析。

我们觉得人工智能本身的发展，人工智能这个技术本身并不是新鲜的概念，早在上世纪50年代的概念就出现了，一直到阿尔法狗的问世，才让我们感受到人工智能有一个非常好的应用，我们认为背后有三大因素推动人工智能高速进入应用的发展，它的算法、算力和数据这几个方面。

关于算法，现在像卷积神经网络应用在图像识别等等领域已经取得非常好的效果，国外很多竞赛，这种算法在图像识别的应用已经接近于人眼的水平。其实我们知道有潜能的神经网络，在那时处理比较简单的问题，现在在各个行业的复杂度不断增加，在医疗行业需要在大的片子当中非常微小的区域，以前神经网络不够用了，需要深层的神经网络去逐层的分析图片的边界特征，最终给出整个的判断。

关于算力，现在来讲，在机器学习领域和传统基于CPU的逻辑运算，基于GPU支持高并发、高并行的架构进行过渡，现在有很多专注于神经网络的芯片问世，很好的支撑了关于算力的基础。

关于数据这方面，在数据方面不论从数据量还是从数据的市场规模，包括数据的种类，有大量的关于图像、文本和视频等等非结构化的数据也可以形成公开的数据集来做训练，这是数据方面提供非常好的基础。

我们聚焦一下医疗的行业，医疗行业传统存在一些问题，我们知道国家一直在推动基层的首诊、双层的转诊，这项国策推动了很久，但还没有完全达到预期，其中比较大的原因是优质的医师资源难以下沉，实际上大家人满为患的挤在三甲医院看疾病，80%的疾病可以放在基层医疗机构去看的，20%的疑难杂症有必要在三甲医院看的。在基层医院现在无法应对这个问题，比较大的原因有两方面，一个是关于基层医生的水平有待提升，基层比较需要全科的医师。第二个是设备的短缺，糖尿病、视网膜病变的疾病，专业的设备，达到十几万，进口达到几十万，基层医疗服务机构来说采用这种设备比较紧张。通过AI来改变这些问题，能够通过影像机通过图像的分析，捕捉到一些病灶的区域，再给上级医生复诊，起到早期筛查的作用。人工智能帮助其他医疗数据价值的方面，像放射科医生每天工作量是非常大的，同时对于他们来讲，片子是主观和经验的知识，容易发生漏诊和误诊的现象，我们信通院跟国家卫计委领导沟通当中得到数据指标，误诊和漏诊的概率加在一起达到40%，这是非常大的隐患，利用图像识别的技术完成早期的筛查，在后面也会详细给大家进行探讨。

关于电子病历，电子病历蕴含着大量的专业知识，疾病病征以及指导方式，传统的数据挖掘方式需要人工的来进行抄阅，现在有自然语言的技术，把非结构化的数据进行结构化的处理进行数据的分析。医疗人工智能的场景比较多，从就医层面，诊前、诊中、诊后，对医院的医生、对体检的机构，从不同医疗行业角度分析，降低医疗成本，提高整个医疗效率。

我们具体看看这个场景，首先可以看看健康助手，指的是利用自然语言处理的技术将用户的文本输入或者语言的输入进行理解，反馈给用户自问诊、导诊的指导，医疗健康领域的助手，还不像通用领域的助手，完全实现自由问诊的输入，医疗领域用语通常来说比较专业，普通用户描述的不太明确，所以在现在产业的基本上选择的形式与用户进行沟通。在语音识别这一块，科大讯飞的例子，他们的机器人在多个医院的大厅进行导诊了，语音识别的技术能够帮助医生做这些事儿，尤其口腔科的医师，工作的时候双手无法腾出来书写病历，通过语音识别的技术，同时去配合专用的麦克风去除环境的杂声，根据诊断的记录、患者的基本信息形成结构化的电子病历。

第二个应用，我们看到在影像领域的应用，我们感觉到过程当中非常重要的作用，能够实现影像的早期筛查，早期筛查这件事儿是非常具有意义。我们看到食管癌为例，早期诊疗是一个关键，早五年的诊疗生存率超过95%，晚五年的生存率低于15%，我们看到整个技术原理是指，首先要获取设备上的数据，对数据利用一些图像设备人工智能的方法，去灶、平滑等等这些方法去去除掉脂肪、肌肉等等干扰因素，诸多有特征的因素，拿到这部分数据给专业医师人工标记，配合专业的标记工具把病灶区域和大小、位置形成坐标的信息，形成一套数据为模型做分类的学习，当输入新的影像的时候帮你判断这种肿瘤是良性还是恶性的。

除了刚才食管癌的例子，在影像当中还有别的例子，像肺癌等等这样一些疾病。在正负样本不均的情况下单纯讨论准确率意义不大，我们讨论一下未来的发展趋势，关于肺结节的检出，基本上2厘米以上恶性概率非常高了，技术领域来讲，4到6毫米微小结节的检出是技术上的分水岭，结节除了大小的因素之外还有很多别的因素，包括它的边缘特征、是否有分叶和毛刺和密度的特征等等这样一些因素都能够左右最终的判断和关键性的因素，这一块也依赖于医师标注程度的延伸。

还有病理，病理在我国专业医师是非常稀缺的，能够达到十万级以上的人才缺口，培养病理医生的周期还是非常长，短期之内这个问题难以解决，也是卫计委非常关心的事情。利用AI技术可以实现很好的补充，AI利用病理来讲有比较大的难度，我们看到对病理的诊断，除了要诊断细胞学的特征还要诊断组织学的特征，从病毒感染到异常增生、到最终的癌变，表皮细胞逐渐往下，这些行为也要进行分析，包括细胞学的特征，都是要学习的因素，对AI技术来讲也是比较大的挑战。

关于在电子病历当中的应用，以知识引擎，类似爬虫的方式对海量的临床数据和医学文献进行爬取，按照这些基本信息和指标构建医疗知识图谱，根据医疗知识图谱支撑上层的应用，临床辅助决策支撑帮助医生完成鉴别和诊断、用药的禁忌。在这里有几个步骤，关于医学文献当中的中文词语的分词和医学词语的识别等等这样一些因素，传统是基于统计学的方法，参照权威的词典来做这件事情，一是效率比较低下，二是对于近似词的处理以及未出现在词库中的词语理解能力比较下，像二级糖尿病的词语，传统方法来讲存在一些问题，现在来讲人工智能很多神经网络的模型，CRF这样一些新模型能够自主的学习，针对这个问题是比较大的。

关于在医药领域的研发应用，传统的制药来讲存在比较大的痛点，平均成功研制一款药需要十年的时间超过10亿美元长的成本，并且它的成功率比较低，现在借助于人工智能的计算机模拟的技术，就能够比较高效的筛选出稳定的化合物。

最后，跟大家探讨一下医疗人工智能的机遇和发展，首先是关于数据，数据的质量对人工智能来讲是比较关键的，现在在产业界当中大家都在做肺结节的检出，国外公开的数据集可以进行学习，但是那部分数据集存在的问题，基本上是参照国外的人体模型，在移植到国内用的时候还需要重新训练的过程。现在来讲，医疗健康的AI产品还存在一个问题，我们现在基本做的都是二分类的模型，帮助医生来看有没有肺癌，一般可以看到，但是有没有肺炎和肺结核等其他疾病还需要医生看一张片子，这一块需要未来提到的地方。

第二个，数据维度的问题，AI的产品不只要就图论图，图像的分析还更多结合临床的信息、患者的基本信息、病史、性别都是影响因素，基因、病理、随访都纳入进来作为权重因子。

第三个，关于标准，数据采集的质控，硬件采集数据的时候它的厂商、它的机型也是很关键的因素，像CT在主流的市场上有6到7种，机型达到上百种，每套模型参照一套模型来做的，希望更广泛的积累移植到更广泛的应用。

关于操作的规范性，我们头先进还是脚先进等等都是一些影响因素，这些需要保持它的一致性。

关于数据的格式，影像还比较好，但是病理芯片等等这样一些领域硬件厂商是比较私有化的格式，在产业这方面的发展需要各界互相的配合和协同，比这种私有格式进行开放，把训练的方式向通用格式进行转化。

我们看一下关于模式的问题，因为医疗健康领域去应用人工智能，未来一定要建立比较成熟的商业模式，我们现在想如果直接去将这种产品去销售给医疗机构，这种模式现在不论从资质还是从合作方的意愿来看，都会比较难以直接的实现。未来比较好的模式是帮助医院一些医疗机构完成一些科研的工作，包括去帮助一些政府服务于基层医疗机构的项目，这样的角度来切入。

关于制度的问题，未来医疗发展一定要明确医疗主体，以及医疗的范围，国家非常重视这方面的事情，尤其关于新的医疗器械分类目录当中明确提出，属于三类的，应用AI给出诊断意见的医疗软件，一定要经过临床的测试，也是表达了国家对这方面的重视，这就是我们对这方面的分析和探讨。

今天我的演讲包括这样一些内容，希望大家更多的批评和指正。谢谢！

【中国IDC圈原创，未经授权禁止转载】