大数据还没走多远，AI小数据时代就要来了？_大数据技术

近日全球AI和机器学习领域权威学者、前百度公司首席科学家吴恩达教授在谈到其对AI下一步的发展趋势时说，“不要相信那种（基于海量数据的AI优势）炒作。”

我们都知道，AI的发展离不开大量的数据。大数据和大模型构成了AI的两条腿，缺一不可。一提到AI，就会说训练模型的数据量有多大，到目前为止顶尖AI训练模型的数据参数规模已经到了万亿级别，不可谓不大，可以说是真的大数据了。

然后AI却不一定是数据越多，模型越大就是好的，在很多场景下，尤其是在传统行业，基于公开数据进行预训练的大模型好像就不灵了。很多时候，并不需要那么多的数据，数据量大反而会裹挟很多用不到的数据，影响运算效率和最终的产出。

随着各国的数据和隐私安全法规的纷纷落地，能拿到的公开数据量或者能够合法使用的数据量，已经不能跟前几年同日而语，AI的大数据红利期已经过去。

根据Gartner的报告，到2025年，70%的组织将被迫将重点从大数据转移到小数据和泛数据，并减少AI对数据的需求。但这并不意味着大数据以及AI的发展会止步不前。

以往的大数据一味地追求数据参数规模大，对数据质量的把控比较薄弱，在数据应用方面也不够普遍。反而小数据和泛数据更符合国内企业的实际，可以根据具体的场景构建特定的数据模型，从而生成商业洞察和实现自动化决策。

而目前，小数据的处理方案也是多种多样，常见的有少样本学习、知识图谱、迁移学习、自监督学习、合成数据等。

大数据固然好，但小数据才是常态，尤其是在各国陆续出台针对个人数据保护的政策法规之后，大规模收集个人相关的数据收集开始变得很难。但即使这样，通过科学的数据采集、数据治理，小数据也一样可以发挥大作用。

光点科技自主研发的GI大数据中台系统，就是帮助客户把海量分散且异构的数据建立数据标准，统一口径后采集存储起来，再通过大数据、机器学习等方式进行价值提炼，形成企业数据资产，为政企单位的商业洞察和自动化决策提供支持，赋能前端业务。

数据无疑已经成为了这个时代最重要的生产要素，作为政企单位重要的战略资源，那些优质的小数据，即使参数量级不大，潜力也不容小觑，在不远的未来必将发挥更大的价值。