大数据的增长让人们做了一些不可思议的事情。采用大数据,机器学习可以预测财产损失和检测欺诈,甚至预测未来的天气事件。然而,这些算法最令人难以置信的应用可能是在医疗保健领域。
拯救生命的预测
通过提供另一个视角,数据驱动的机器学习算法可以提供关键的二次反馈,并有助于早期检测。例如,中国的研究人员已经开始使用机器学习算法来预测患者从昏迷中醒来的可能性。在一些情况下,该算法正确地预测了医护人员不在时患者是否会醒来。尽管有时算法是错误的,医生的判断是正确的,但人工智能仍然足够准确,可以为临床诊断提供宝贵的第二种意见。
医疗健康的图像数据对于机器学习尤其有价值。例如,当由眼科医生进行评估时,深度学习算法通过学习数千张视网膜照片,对糖尿病性视网膜病变具有超过90%的特异性和敏感性得以判断分析。在皮肤病的研究中,当在输入130,000张患者图像之后,机器学习的一种算法在识别皮肤癌方面和皮肤科医生一样准确。虽然提供不受人为错误影响的第二种意见无疑是有帮助的,但这些算法正在提供医生已经提供的诊断服务。这带来了一个问题:机器学习是否可以在医生无法提供帮助的领域提供帮助?
大数据和精准医学
新兴的精准医学科学使用患者数据来提供医生无法提供的个性化医疗见解。在过去的几年中,已经证明基因及其变异表达(表观遗传学)和微生物(肠道细菌)在健康中起着重要作用。例如,当在患者基因的背景下分析时,一些药物可能完全无效或甚至适得其反。通过全面的基因组筛查,可根据患者的独特记录量身定制药物,以提供更好的结果。
然而,由于医生对每位患者的诊疗时间通常很短,他们根本没有足够的精力用于这种级别的个性化护理。大多数美国人在等候室花费过长的时间。而一个完整的患者记录包含大约6TB的数据时,该系统如何才能获得更全面的患者记录?虽然医生可能无法利用这一大量数据,但研究人员已经证明,机器学习算法可以快速预测患者基因组谱采用的最佳药物治疗方法。
应用和挑战
由于每位患者都有大量的潜在数据,因此医疗保健系统必须成为基于云计算的系统,以便能够使这些令人难以置信的技术成为主流应用。然而,首席信息官和其他医疗保健主管必须解决许多困难,才能实现这一目标。许多机器学习算法只能与给定的数据一样好,而为它们收集大量的医疗保健数据是一个很高的要求。
众所周知,医疗保健系统是分布式的,当病人的记录被转发时,经常会出现延误。即使是患者的初级保健提供者也常常没有完整的电子健康记录(EHR)。
虽然确实有可能创建可访问的数据集,使精确医学的好处得以实现,但由于缺乏认识和严格的HIPAA法律限制数据共享,因此广泛采用的目标变得复杂。很少有文件像病历那样敏感。如果每个医疗机构开始使用完整的电子健康记录(EHR)进行精准医疗,那么灾难性数据泄漏的机会将大大增加。
每个持有患者记录的数据中心都需要每次都安全地进行保护和退役。尽管人们在网络安全方面取得了很大的飞跃,但医疗保健数据泄漏的数量却在逐年增加。
值得庆幸的是,用于训练算法的患者记录可以匿名化,以减少数据丢失为代价,这至少可以降低初始数据库下游的风险。除了保留初始数据上游泄漏的风险之外,许多人还认为发布甚至匿名的患者数据是对其隐私的一种侵犯。在人们努力实现技术与医疗保健之间建立一种更加共生的关系时,需要解决这些问题。
【中国IDC圈编译 未经授权禁止转载】
相关阅读: