关于大数据,依然有很多朋友在不断提问,什么是大数据?其实有时候我也说不清楚所问之题,所以特地整理如下的QA,方便学习:
什么是大数据?
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的单位有哪些?
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大数据有哪些特征?
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
大数据主要技术是哪些?
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据的国家政策是什么?
2015年9月,国务院印发《促进大数据发展行动纲要》,明确到2020年,形成一批具有国际竞争力的大数据处理、分析、可视化软件和硬件支撑平台等产品,培育10家国际领先的大数据核心龙头企业,500家大数据应用、服务和产品制造企业。
大数据的市场规模有多大?
研究机构IDC预测,全球大数据(Big Data)与分析市场规模将由2015年的1220亿美元,在5年间成长超过50%,并在2019年底达到1870亿美元的规模。中国信息通信研究院日前发布的《中国大数据发展调查报告(2017)》称,2016年中国大数据市场规模达168亿元,预计2017年~2020年仍将保持30%以上的增长。调查显示,目前近六成企业已成立数据分析相关部门,超过1/3的企业已经应用大数据。大数据应用为企业带来最明显的效果是实现了智能决策和提升了运营效率。
你必须知道的十个大数据案例是哪些?
1. 梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。
3. 沃尔玛的搜索。这家零售业寡头为其网站Walmart.com自行设计了最新的搜索引擎Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。“对沃尔玛来说,这就意味着数十亿美元的金额。”Laney说。
4. 快餐业的视频分析(Laney没有说出这家公司的名字)。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。
5. Morton牛排店的品牌认知。当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton就开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。也许,这听起来过于离奇,但是你必须审视自己:“我是否有能力做到这个程度?”Laney说。
6. PredPol Inc.。PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。
7. Tesco PLC(特易购)和运营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。
8. American Express(美国运通,AmEx)和商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。
9. Express Scripts Holding Co.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。因此,他们开发了一个新产品:会响铃的药品盖和自动的电话呼叫,以此提醒患者按时服药。
10. Infinity Property & Casualty Corp.的黑暗数据(dark data)。Laney对于黑暗数据的定义是,那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。在特定情况下,这些数据可以用作其他用途。该公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。
十大数据挖掘领域的经典算法
1. C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
3. Support vector machines
支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。
4. The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
5. 大期望(EM)算法
在统计计算中,大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。
6. PageRank
PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。
7. AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
8. kNN: k-nearest neighbor classification
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
9. Naive Bayes
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。
10. CART: 分类与回归树
CART, Classification and Regression Trees。 在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。
大数据泡沫有哪些?
(1)这几年社会上关于大数据的宣传,媒体人的引进和炒作,有部分内容是在误导大家,主要原因还是很多人在盲人摸象,少有系统的研究和理解。
(2)只知其然不知其所以然,导致对大数据应用的期望太高,大数据技术不是万金油,在新的技术泛型和技术生态下,现阶段技术的稳定性、成熟性和有效性还待进一步发展。
(3)关注重点有问题,导致目前的很多大数据应用并未涉及到核心业务和计算模型,多是数据的采集和存储管理,这也是造成行业整体门槛还不够高,同质化竞争激烈,没有发挥出应有价值的原因。大数据泡沫显然是客观存在的,但其长期的应用价值却不容小觑,泡沫不代表没有价值,就像2000年的互联网泡沫,泡沫破灭之后的涅磐,让人类真正跨入了互联网时代。大数据泡沫的价值就是让全民认识到大数据时代数据分析和数据决策的重要性,这波泡沫过去,也许我们能正式跨入人工智能时代。
大数据需要哪些人才?
大数据主要职位:首席数据官,数据规划师,数据工程师,数据架构师,数据分析师,数据应用师,数据科学家
素质要求:专业技能,业务理解能力,学习能力,数据信仰,创新精神
企业要活用大数据,需要3种人才:第一是数据的IT专家;其二是分析数据的资料分析人员;其叁是活用数据的经理人。
什么数据科学家?
数据科学家是运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。
数据科学家有哪几种类别?
理论数据科学家致力于数据科学的理论研究,为其他的数据科学家创造框架和工具。本质上是将统计数据、数据存储和计算机科学在理论层面应用于大数据的学者。
应用数据科学家对于如何运用大数据有更好的理解。科学需要严谨,我认为数据应用植根于学术严谨,但是在应用层面工作。应用数据科学家的工作是先进行架设,再用大数据进行验证。每个人都会受惠于他们的研究发现和工具。
行业数据科学家用应用数据科学地解决某个具体的市场问题、行业、生意,实现利益大化的单一目的。行业数据科学家得擅长沟通,能够让他们的发现应用于商业。将工商、经济和会计方面的经验应用在商业领域是他的价值所在。与商业分析师和商业顾问的角色有点相似。
要成为一名数据科学家,需要掌握哪些核心技能?
作为一名数据科学家,一般需要编程和数据库、数学&统计、交流和可视化、领导力和软技能:四个方面的技能。
1、编程和数据库
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景,掌握对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。一般能利用python熟练的获取数据,整理数据,并会使用matplotlib展现数据。
2、数学、统计和数据挖掘
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境「R」最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。
3、数据可视化
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
4、领导力和软技能
数据科学家不仅要具有黑客的头脑,对数据有好奇心,还要对商业有热情,是有影响力、有创造力,能解决问题的人。
2017年大数据版图