中国IDC圈4月8日报道,在2010年,没有人知道什么是Hadoop,但是今天,房间里的大象这个标志已经成为了大数据的宠儿。根据Wikibon, Hadoop市场在2012年,供应商的收入已经有256美元,预计2017年底增加到17亿、程序员、架构师、系统管理员和数据仓库员都在千方百计地学习存储和处理大数据集的Hadoop。开始一个Hadoop管理员面试将会成为一个单调枯燥的工作,如果你没有花足够的时间来准备。
专业人士正在尝试为hadoop开发者和管理者工作,不仅仅是要努力准备hadoop管理者的面试题。当人们处在hadoop开发者的位置,可以自由的准备与管理相关的hadoop面试问题,这对于那些正在准备进入hadoop管理者的角色的人们是很重要的,获得hadoop管理者面试问题的细节。在我之前的TOP100的帖子里的面试问题及答案和TOP50的Hadoop的面试问题,我们列出了所有可能对Hadoop开发面试者问的问题。本文列举了顶级Hadoop管理员的面试问题及答案,这些问题和答案在hadoop管理工作面试时很可能会被问到的。
计算机研究发现Hadoop的技能差距是整个大数据范围内大的。在大数据的空间里,Hadoop被各行业应用,Hadoop管理的重要性是不容忽视的。无数的行业招聘Hadoop管理人员,确保他们的大数据系统可以在最复杂和动态的环境下被选中。从金融业到政府部门,各行业招聘hadoop管理人员来管理他们的大数据平台。Hadoop管理专业人才的需求量正不断上升,以满足专业人才的缺乏。
如何准备一个Hadoop管理者面试?
Hadoop管理员面试,围绕Hadoop软件安装,配置和维护,测试一个考生的知识范围,一个Hadoop管理员需要基于利益相关者的需求研究实现特定的平台大数据解决方案。这是一个面试者为Hadoop管理员面试所必要的,精通大型数据管理的概念。为了证明自己是一位合格的Hadoop管理员的候选人,确保对于处理Hadoop项目的知识和管理能力,展示特定领域的兴趣和专业知识,具有多任务处理能力和领导能力。
如果你已经申请了Hadoop的管理员工作,那么它值得你花一些时间去回顾这些列在下面的面试问题,当你准备面试时——
Hadoop管理员面试问题与回答
1、 解释不同的配置文件以及它们位于何处
配置文件位于conf子目录。Hadoop有3个不同的配置文件,hdfs-site.xml, core-site.xml 和 mapred-site.xml。
2、 要求运行Hadoop集群的进程是什么
Namenode,DataNode,TaskTracker和JobTracker
3、 你将如何重新启动节点?
最简单的做法是运行停止运行命令shell脚本,即点击stop-all.sh。一旦这样做了,重启NameNode点击start-all.sh。
4、 解释在Hadoop上的不同的调度程序。
FIFO调度——调度系统中不考虑系统中的异质性,但命令工作是基于排队达到的时间。
COSHH——这个计划考虑工作量,调度决策的聚类和用户异质性。
公平分享——Hadoop调度为每个用户定义。这个地方包含一个资源地图以及减少资源上的狭缝。每个用户都可以使用自己的资源去执行这个作业。
5、 列出几个用于执行复制操作的Hadoop命令
fs –put
fs –copyToLocal
fs –copyFromLocal
6、 什么是指挥用的JPS?
JPS命令用于验证程序,这种程序运行Hadoop集群是否工作。它命令显示输出者的NameNode的现状,Secondary NameNode, DataNode, TaskTracker 和 JobTracker。
7、 当Hadoop部署生产环境时,什么重要的硬件因素应该考虑?
基于应用程序的工作服务和管理服务之间的内存系统的内存需求会有所不同。
操作系统——一个64位操作系统,避免了任何限制,可用于在工作节点上的内存量。
存储——好是通过移动计算活动数据实现可扩展性和高性能的Hadoop平台设计。
容量——大形的因子磁盘(3.5”)磁盘的成本比较低,相比比较小的形式因素磁盘允许存储更多内容。
网络——两个TOR网络交换机提供了较好的冗余。
计算能力可以在Hadoop集群的Mapreduce槽可用的数量节点决定。
8、 有多少节点可以运行在一个单一的Hadoop集群?
只有一个
9、 当Hadoop集群上的节点下来会发生什么呢?
文件系统脱机时,Namenode下来了。
10、 什么是hadoop-env.sh下的文件和在文件应设置为Hadoop的工作上的变量?
这个文件提供hadoop的运行环境,包括以下variables-hadoop_classpath,java_home和hadoop_log_dir。java_home变量应为Hadoop运行。
11)除了利用JPS的命令还有任何其他什么方法,你可以检查是否它是工作。
使用命令/ etc / init.d/hadoop-0.20-namenode状态。
12)在一个MapReduce系统,如果HDFS块大小为64 MB,有3个文件的大小127mb,64K和65mb与fileinputformat。在这种情况下,有多少输入将很可能是由Hadoop框架组成。
2个分别为127 MB和65 MB的文件或者一个是64KB的文件。
13)该命令是检验HDFS是否被破坏?
hadoop fsck(文件系统检查)命令用于检查丢失块。
14)列出了一些使用Hadoop生态系统的案例
文本挖掘,图分析,语义分析,情感分析,推荐系统。
15)你怎样让一个Hadoop不工作
Hadoop的工作–清除工作ID。
16)我想看到所有的工作在Hadoop集群上运行。你该怎么做?
使用命令–Hadoop作业–列表,给出了在Hadoop集群上运行的工作列表。
17)是否可以在多个集群中复制文件?如果是,你怎么能做到这一项呢?
是的,它可能的复制文件到多个Hadoop集群,这可以使用分布式复制实现。distcp命令用于内部或跨集群复制。
18)什么是好的运行Hadoop操作系统?
Ubuntu和Linux是首选的运行Hadoop的操作系统。虽然Windows操作系统也可以用来运行Hadoop的但它会导致一些问题,所以并不推荐。
19)运行Hadoop的网络要求是什么?
SSH是需要运行启动服务器进程从属节点。
一个密码需要更少的SSH在主人,机器,和所有的苦工之间的连接。
20)将mapred.output.compress属性设置为true,以确保所有的输出文件压缩在高效的空间使用Hadoop集群上。在特定情况下,如果群集用户不需要对工作进行压缩数据。你建议他做什么?
如果用户不想压缩数据的一个特定的工作就应该创建自己的配置文件并且设置mapred.output.compress属性为false。这个配置文件之后作为一个资源加载到相关工作。
21)什么是实施一次最佳实践的NameNode?
它始终是在一个单独的独立的机器更好地部署第二个Namenode。当次级节点部署在一个单独的机器不受主节点干扰的操作。
22)应该多长时间给NameNode重新格式化吗?
Namenode不能格式化。这样做会导致数据完全的丢失。NameNode是一次格式化开始之后,它创造了整个文件系统的元数据和命名空间ID目录结构。
23)如果Hadoop产生了100个任务工作,并且其中一个任务失败。Hadoop该怎么做呢?
任务将再次开始一个新的TaskTracker,并且默认设置逾期不超过4次,(默认值是可以改变的),工作将会失败。
24)你如何添加和删除节点的Hadoop集群?
在HDFS集群中添加新节点,主机名应该被添加到文件然后在DataNode和TaskTracker开始在新的节点。
删除或退役从HDFS集群的节点,主机名应该是从slaves–refreshnodes删除文件执行。
25)您增加复制级别,但注意到该数据已复制。什么原因导致错误?
其实没有任何错误,如果有大量的数据,因为数据复制通常需要在时间的基础上的数据大小作为集群进行数据复制,它可能需要几个小时。
Hadoop管理面试题
1、当你第一次Hadoop集群启动安装过程,你会怎样设置安装程序?
2、你将如何安装新组件或添加到现有的Hadoop集群服务?
3、如果Hive的元数据服务在下降,那么将对Hadoop集群有什么影响?
4、当你建立一个Hadoop集群,你将如何决集群的大小?
5、你怎么在同一集群运行Hadoop和实时进程?
6、如果你得到一个拒绝连接的案例-当登录到一台机器上的集群,可能是什么原因?你将如何解决这个问题?
7、你如何识别和解决长期运行的工作?
8、你怎么决定一个NameNode和Hadoop服务的堆内存的限制?
9、如果Hadoop服务在Hadoop集群上运行缓慢,什么是它的根源,你将如何鉴别呢?
10、有多少数据节点可以运行在一个单一的Hadoop集群?
11、在Hadoop2.0和Hadoop 1.0配置
12、在高可用性的情况下,如果连接待机和活跃节点丢失。这种Hadoop集群将如何影响?
13、ZooKeeper服务在Hadoop 2和Hadoop1所需的最小数目是多少?
14、如果一个Hadoop集群的一些机器硬件质量很低。如何影响集群的性能和整体性能?
15、如何确定一个特定的节点,节点是死的吗?
16、解释“黑名单节点”和“死区节点”之间的区别。
17、你怎么增加NameNode的内存?
18、在Hadoop的调度配置能力。
19、重新启动后的集群之后,如果MapReduce之前的工作现在没有实现,当重新开始的时候可能会出什么错误?
20、说明添加和删除一个节点的Hadoop集群的步骤。
21、在一个大且繁忙的Hadoop集群,如何识别长期运行的工作?
22、当Namenode关闭时,JobTracker做什么?
23、当手动配置Hadoop,这属性文件的修改应配置槽?
24、如何将新用户添加到集群中?
25、推测执行的优势是什么?在什么情况下,推测执行可能不会是有益的?
开放的Hadoop管理员面试题
这些面试题是以个案为基础的,根据——你在哪里申请这个Hadoop管理员角色,你在这个角色是否有一些经验 。请在下面的评论中分享你的Hadoop管理员面试经验。
1、你目前的Hadoop工作符合你目前的项目角色和责任描述吗?
2、哪些工具用在你的项目监测的hadoop集群和节点?
3、你认为在一个集群中会出现多少个节点?
4、你在任何组织中致力于go-live工程吗?
5、哪一种MapReduce版本适合配置你的Hadoop集群?
6、说明在公司任何明显的Hadoop案例情况,有助于大限度地提高其盈利能力?
7、你怎么从无到有建立Hadoop集群?
8、你遵从什么标准程序部署Hadoop?
9、你将如何管理一个Hadoop系统?
10、你会更喜欢使用哪种工具监控Hadoop和HBase的集群?
上面的列表只是对Hadoop管理员的不同类型的面试问题的概述。然而,Hadoop管理员面试问题基于你的工作经验,来自的业务领域的不同而完全不同。你是否担心没有经验,如果你清楚你的基础以及Hadoop项目的工作经验,公司是愿意雇佣你的。开始最重要的事情,是准备在hadoop管理中准备一个伟大的职业生涯,并且你一定可以成功的掌控一个hadoop管理员面试。为追求卓越和成功努力吧。