人工智能里面有一部分算法是需要数据的,首先要进去数据,然后才能学习。
比如一个大数据库叫ImageNet,有十几亿张图片,用了这么大量的图片,我们才能训练我们的深度神经网络去做图片中猫猫、狗狗、车辆的识别。
如果没有这些海量的数据,很多机器学习算法是不能用的,像我们现在看视频网站它是面向百亿特征,千亿参数,万亿样本,你没有万亿样本就支撑不了百亿特征,你可能要有一个亿的样本才有可能支撑百万特征,而且深度学习是需要海量特征做特征工程的,所以这个时候大数据实际是很多机器学习算法得以能够发展的基础,但是发展到一定程度,有些算法它又突然脱离数据了,比如说我们做增强学习,像早期的阿法狗(AlphaGo),它学了几十万专业棋手之间的对局,它是大师,那它就下得很好,后来的阿法Zero(AlphaZero),它是自己和自己下棋,反正有规则,所以它的数据实际不是真的数据,是生成出来的,它没有用真实数据,但是它用了增强学习,所以说它最后下得比阿法狗还强。
我觉得从大的范畴来说,大数据人工智能肯定是互相增益的,没有人工智能很多数据发挥不了价值,更多时候我们需要人工智能算法才能挖掘大数据的价值,相当于一个是矿,一个是挖掘和提炼矿的这样一个设备和工厂,人工智能是后者,很大程度上有了数据我们才能开发出数据相关的人工智能算法,但是有些算法和数据无关,大体是这样的关系。