数据湖,顾名思义就是一个存储了大量各种不同数据的地方,而且这些数据通常都非常原始,而且易于读取和分析。在医疗健康行业,数据湖的价值在于能够支持快速有效的分析和产生洞察,释放出医疗数据巨大的商业价值。
其实长期以来,医疗行业的各种机构就在思考如何充分的挖掘出医疗健康大数据的巨大价值,而这背后首先需要解决的就是需要构建一个灵活的数据架构,否则数据就依然是孤岛,无法体现出其意义。
在医疗领域,一个最常见和最迫切需要解决的挑战,就是把截然不同的各种来源的医疗数据整合到一起,形成一个中央型的数据存储。哈佛商业评论最近的一个调查就发现,一个典型的医疗机构通常会有至少5种以上的数据来源,更多的情况是超过15种数据来源。这些不同来源格式迥异的数据,如果没有一个有效的方式组织和存放,就会形成数据沼泽--数据像垃圾一样无序的堆放,无法读取,无法整合,无法有效分析。
正是基于这样的需求和挑战,基于云计算的数据湖应运而生。全球知名的云计算厂家都在开发和推广自己的数据湖方案,而医疗行业是最有希望从中获益的一个行业。据分析,医疗行业的数据湖需求将在接下来的2年内持续增长,而且毫无放缓的迹象。
数据湖不同于传统的数据仓库。
数据湖存储的是原始数据,而数据仓库存储的则是历史和当前的组织数据。 数据仓库适合分析结构性数据,又快又准,用于管理和法规等场景。而数据湖则主要是为组织内部实验和分析构建,组织可以调用多种来源的多样数据随时进行各种分析。 企业或组织可以根据需要使用数据湖或者数据仓库,倒不是说谁比谁更好,关键还是在于理解什么样的方案最符合自己。
越来越多的医疗设备以及机器学习的广泛应用,推动了医疗行业对数据湖的期望和极大兴趣。
要开发数据湖,目前还是需要专业的帮助,尤其是要找到有经验的医疗信息化专家。总体上来说,有三个重要因素是需要首先考虑的:
1)能够有效的吸收不同来源不同格式的数据。
2)有安全可靠的权限控制。
3)数据质量得到保持。