招聘广告的数量能一定程度上反应每一种软件的流行程度,并从中预测出哪一种在将来会更加流行。以美国大的招聘网站Indeed.com为统计平台,通过对某一天数据科学职位的招聘数量进行统计分析,得出数据科学软件的变化趋势。
为了公平,本文采用了一种专门的方法,用来在数据科学职位范围内统计每种软件的招聘数量,文中所有的图片也都是在这个前提下取得的,统计日期为2017年2月24日。
正文
各种软件招聘量见下图。其中最多的是SQL,将近18000,然后分别是Python和JAVA(13000左右),Hadoop(10000左右),R,C系列和SAS(这是R首次在在数据科学职位报告中超过SAS),Apache Spark,Tableau(5000左右,限数据科学职位),Apache Hive(3900左右),Scala,SAP,MATLAB,SPSS。其中Scala,SAP,MATLAB,SPSS均为2500左右。
招聘量小于250的软件列在了下图中,分别是:Alteryx(240),Microsoft(Azure Machine Learning and Microsoft Cognitive Toolkit,157),Julia,FORTRAN,Apache Flink(125),H2O(100)。以操作容易为卖点的SAS Enterprise Miner、RapidMiner和KNIME招聘量都是90左右,大概是因为各公司认为没有必要聘请专家?SPSS模块也是同样类型的接口,但却只有50个职位。开源的MXNet深度学习框架有34个职位,而Tensorflow是它的12倍,但是两者都很年轻,有足够大的潜力在未来快速发展。
下面我们先来看一下R是如何超过SAS的。从下图可以看出,在2012年到2017年2月28日这个时间段,SAS的职位需求一直都很稳定,而R则稳定增长并最终在2016年早期超过了SAS。另外根据blog post所述,R于2015年就已经在学术出版物中超过SAS。
再来看一下Python和R。Python和R谁更流行的争论是由来已久,但是从来都没有多少数据支持。但是单从招聘职位上来看,Python于2013年就已经超过了R(如下图)。当然我们要清楚,R只是单纯用来进行数据分析,而Python在数据科学领域用途更广泛。