备好数据后，数据科学家还要做什么？_大数据技术

在这个数据科学越来越火的时代，数据科学家的工作到底是怎样的呢?

数据科学越来越火，很多人都想转行入坑数据科学家，这当然是好事。可是很多人都以为数据科学、机器学习等等流行词对应的工作，就是把数据塞进Sckit-Learn这个算法库里而已。

事实远远没有那么简单，下面我带大家走进真实的数据科学世界。

让我们从数据搜集完成后开始讲起。

问题阐述

“数据消耗”反映了特定服务类别数据的下载和上传量，比如社交网络，音频等等。我们来看一个具体的例子。假设我们研究的是一个计数器，利用该计数器可以查看与亚马逊网络服务(Amazon Web Service，简称为AWS)连接的机器数量。

如果我们直接对原始数据进行分类，我们会得到如下结果：

我们可以注意到，这是对数据进行线性判别分析(Linear discriminant analysis，简称为LDA)后的二维示意图。理论上讲，LDA的结果可以体现出原数据的 ± 90%;虽然不是100%，但是这里我们可以看出，直接对数据进行分类完全没有意义。有人建议我换别的算法或者调整超参数，但是其实，把算法直接套在原数据上的想法糟透了。

理解数据

现在，我们来挖掘一番。数据到底长什么样?我强烈建议初学者多花些时间观察理解数据，而不要急着输入“from sklearn.cluster import KMeans”这样的代码行。这里我们研究一下这个例子的一个数据特征，但是请注意，大多数数据特征都是相似的。

下面是AWS计数器的结果(其实不是，但是我们就假定它是吧)