人们应该知道的大数据术语_大数据技术

Apache软件基金会(ASF)：提供了许多大数据的开源项目，目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中，所发行的软件产品都遵循Apache许可证。

Apache Kafka：以着名的捷克作家命名的Apache Kafka用于构建实时数据流管道和流媒体应用程序。为什么这么受欢迎?因为它能够以容错的方式存储，管理和处理数据流，并且十分快速。鉴于社交网络环境处理数据流，Kafka目前非常受欢迎。

人们应该知道的大数据术语

ApacheMahout：Mahout提供了一个用于机器学习和数据挖掘的预制算法库，也是创建更多算法的环境。换句话说，是一个机器学习的天堂环境。

ApacheOozie：在任何编程环境中，需要一些工作流程系统来以预定义的方式和定义的依赖关系来安排和运行工作。Oozie提供的大数据工作以Apachepig，MapReduce和Hive等语言编写。

Apache Drill，Apache Impala，Apache Spark SQL：所有这些都提供了快速和交互式的SQL，如与Apachehadoop数据的交互。如果你已经知道SQL，并处理以大数据格式(即HBase或HDFS)存储的数据，这些功能将非常有用。

ApacheHive：知道SQL?然后采用Hive握手。Hive便于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。

ApachePig：Pig是在大型分布式数据集上创建查询执行例程的平台。所使用的脚本语言叫做PigLatin。据说Pig很容易理解和学习。但问题是有多少人能从Pig学到什么?

Apach eSqoop：用于将数据从Hadoop移动到非Hadoop数据存储(如数据仓库和关系数据库)的工具。

Apache Storm：一个免费的开源实时分布式计算系统。它使得使用Hadoop进行批处理的瞬时处理可以更容易地处理非结构化数据。

人工智能(AI)：人们可能会问，为什么在这里会有人工智能?人工智能不是一个单独的领域，所有这些趋势技术都是如此相关，人工智能开发智能机器和软件的方式，使得硬件和软件的这种组合能够感知环境，在需要时采取必要的措施，并继续学习这些操作。

行为分析：有没有想过谷歌如何为人们需要的产品/服务提供广告?行为分析侧重于理解消费者和应用程序所做的事情，以及如何以及为什么它们以某种方式起作用。它是关于了解人们的网上冲浪模式，社交媒体互动，电子商务行动(购物车等)，并连接这些无关的数据点，并试图预测结果。

Brontobytes：10的27次幂，这是数字宇宙的大小。在这里，可以了解TB字节，PB字节，EB字节，ZB字节，YB字节，以及Brontobyte。人们今后会更多地了解这些术语。

商业智能(BI)：在这里引用调研机构Gartner对商业智能的定义。商业智能(BI)是一个总括的术语，其中包括应用程序，基础设施和工具以及最佳实践，可以访问和分析信息，以改善和优化决策和绩效。

生物特征：这就是JamesBondish技术与分析技术相结合，通过一个或多个物理特征识别人，如面部识别，虹膜识别，指纹识别等。

点击流分析：用于分析用户在网络上浏览的在线点击。曾经想过为什么某些Google广告还会继续关注你，即使切换网站等?因为知道你在点击什么。

聚类分析：试图识别数据中的结构的探索性分析。聚类分析也称为分割分析或分类分析。更具体地说，它试图确定同一组案例，即观察者，参与者，回答者。如果分组不是先前已知的，则使用聚类分析来识别病例组。因为它是探索性的，它确定了依赖变量和独立变量之间的区别。SPSS提供的不同的聚类分析方法可以处理二进制，名义，顺序和比例(间隔或比率)数据。

比较分析：大数据的核心在分析中。顾名思义，比较分析是使用诸如模式分析，过滤和决策树分析之类的统计技术来比较多个进程，数据集或其他对象。人们知道它的技术性很差，但不能完全避开这个术语。比较分析可用于医疗保健，比较大量的医疗记录，文件，图像等更有效和更准确的医疗诊断。

连接分析：你一定已经看到这些像蜘蛛网一样的网络图表连接主题等，以识别某些主题的影响者。连接分析是有助于发现网络中人员，产品和系统之间的这些相互关联的连接和影响，甚至组合来自多个网络的数据的分析。

数据分析师：数据分析师是一个非常重要和受欢迎的工作职位，除了准备报告之外，它还负责收集，操纵和分析数据。

数据清理：这有点不言自明，它涉及从数据库中检测和纠正或删除不准确的数据或记录。还记得“脏数据”吗?那么，使用人工和自动化工具和算法的组合，数据分析人员可以纠正和丰富数据以提高其质量。记住，肮脏的数据会导致错误的分析和错误的决策。

DaaS：你有SaaS，PaaS和DaaS为代表的数据即服务吗?通过向客户提供按需访问云托管数据，DaaS提供商可以帮助快速获取高质量的数据。

数据虚拟化：这是数据管理的一种方法，允许应用程序检索和操作数据，而不需要其存储位置及其格式等的技术细节。例如，社交网络将人们的照片存储在他们的网络中。

脏数据：现在，大数据变得很流行，人们开始在数据中添加形容词，产生新的术语，如暗数据、脏数据、小数据，现在是智能数据。肮脏的数据就是不干净的数据，换句话说，是不准确、重复的，以及不一致的数据。显然，企业不希望与脏数据关联。

模糊逻辑：人们对100%这样的事物有多少把握?非常罕见。人类的大脑将数据聚合成部分真理，然后再抽象成某种阈值，来决定我们的反应。模糊逻辑是一种通过模仿部分真理来模仿人脑的运算，而不是像布尔代数的其余部分那样的“0”和“1”这样的绝对真理。模糊逻辑在自然语言处理中得到了广泛的应用，并已发展成为其他与数据相关的学科。

游戏化：在一个典型的游戏中，有人们喜欢的得分要素，与他人竞争，某些游戏规则等元素。大数据中的游戏化是使用这些概念来收集数据或分析数据或通常激励用户。

图形数据库：图形数据库使用的概念，如节点和边界代表人员/企业和他们的相互关系，从社交媒体挖掘数据。曾经想过，亚马逊如何告诉你在购买产品时，别人买了什么?是的，图形数据库!

Hadoop用户体验(Hue)：Hue是一个开放源代码界面，使Apache Hadoop变得更加容易。它是一个基于Web的应用程序，并且具有用于HDFS的文件浏览器，MapReduce的作业设计器，用于制作协调器和工作流程的Oozie应用程序，Shell，Impala和HiveUI以及一组HadoopAPI。

HANA：高性能分析应用程序，来自SAP的软件/硬件内存中平台，专为大量数据交易和分析而设计。

HBase：一个分布式，面向列的数据库。它使用HDFS作为其底层存储，并支持使用MapReduce和事务交互的批量计算。

负载平衡：跨多台计算机或服务器分布工作负载，以实现系统的最佳结果和利用率。

元数据：元数据是描述其他数据的数据。元数据总结了有关数据的基本信息，可以使查找和处理特定数据实例更容易。例如，作者，创建日期和日期修改以及文件大小是非常基本的文档元数据。除文档文件外，元数据也用于图像，视频，电子表格和网页。

Mongo DB：一个跨平台的开源数据库，它使用面向文档的数据模型，而不是传统的基于关系数据库的表结构。这种类型的数据库结构旨在使结构化和非结构化数据在某些类型的应用程序中更加容易和快速地集成。

Mashup：幸运的是，这个术语对于我们在日常生活中了解mashup的定义类似。基本上，Mashup是将不同数据集合并为单个应用程序的一种方法(示例：将房地产清单与人口统计数据或地理数据相结合)。这是一个非常好的可视化。

多维数据库：针对数据在线分析处理(OLAP)应用程序和数据仓库进行优化的数据库。它只不过是数据多个数据源的中央存储库。

多值数据库：它们是一种直接了解三维数据的NoSQL和多维数据库。它们直接用于直接操作HTML和XML字符串。

自然语言处理：为使计算机更精确地理解日常人类语言而设计的软件算法，使人们能够更自然、更有效地与之交互。

神经网络：神经网络是一个美丽的生物学启发的编程范例，使计算机能够从观测数据中学习。有人称编程范例很美，本质上，人工神经网络是由现实生活中大脑的生物学启发的模型。与这种神经网络密切相关的是深度学习。深入学习则是一套功能强大的神经网络学习技术。

模式识别：当一个算法在大数据集或不同的数据集中定位递归或规律时，就会出现模式识别。它紧密相连，甚至被认为是机器学习和数据挖掘的代名词。这种可见性可以帮助研究人员发现见解或得出结论，否则会被掩盖。

RFID-射频识别：一种使用无线非接触式射频电磁场传输数据的传感器。随着物联网革命，RFID标签可以嵌入到每一个可能的“东西”中，以产生需要分析的巨大数据量。

SaaS：软件即服务，使供应商能够托管应用程序并通过互联网使其可用。SaaS提供商通过云计算提供服务。

半结构化数据：半结构化数据是指以常规方式未被捕获或格式化的数据，例如与传统数据库字段或公共数据模型相关联的数据。它也不是原始的或完全非结构化的，并且可能包含一些数据表，标签或其他结构元素。图形和表格，XML文档和电子邮件是半结构化数据的示例，它在万维网上是非常普遍的，通常在面向对象的数据库中。

情绪分析：情绪分析涉及捕捉和跟踪消费者在各种交互或文件(包括社交媒体，客户服务代表呼叫，调查等)中表达的意见，情绪或感受。文本分析和自然语言处理是情绪分析过程中的典型活动。目标是确定或评估对公司，产品，服务，人员或事件表达的情绪或态度。

空间分析：指分析地理数据或拓扑数据的空间数据，以识别和理解分布在地理空间中的数据内的模式和规律。

流处理：流处理旨在通过“连续”查询对实时和流数据进行操作。随着从社交网络不断流出的数据，流处理和流分析的确需要在这些流中不间断地计算数学或统计分析，以便实时处理大量的数据。

智能数据：智能数据据称是在通过算法进行的一些过滤之后，其数据是有用的和可操作的。

TB字节：一个相对较大的数字数据单元，一T字节(TB)等于1000GB字节。据估计，10T字节可以容纳美国国会图书馆的全部印刷品，而1T字节可以容纳1000份百科全书。

可视化：通过正确的可视化，原始数据可以投入使用。当然可视化并不意味着普通的图形或饼图。它们是指可以包含许多数据变量的复杂图形，同时仍然可以理解和可读

Yabyabytes：约1000ZB，或2500亿张的DVD容量。如今的整个数字宇宙是1 Yabyabytes，这将每18个月翻一番。

Zettabytes：大约1000EB字节或10亿TB字节。