大数据新手入门：给刚玩Hadoop的朋友一些建议_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

中国IDC圈1月28日报道：随着两会中间央视新闻天天说大数据，很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了，我现在创业，遇到很多传统数据行业往Hadoop上面去转型的公司和个人，提了很多问题，大多数问题还都是差不多的。所以我想整理一些，也可能是很多人都关注的问题。

关于Hadoop版本的选择？

目前为止，作为半只脚迈进Hadoop大门的人，我建议大家还是选择Hadoop 1.x用。可能很多人会说，Hadoop都出到2.4，为啥还用1.x呢，说这话一听就没玩过hadoop。

理由一： Hadoop 1.x和2.x是完全两个不同的东西，并不是像说单机的webserver从1.0升级到2.0那么简单的事情。也不是说我现在用的mysql 5.0，只要编译一个新版本就直接无缝迁移到5.5的事情。Hadoop从1.0过度到2.0是整个架构体系全部推翻重写的。从实现方式到用户接口完全是两个完全不同的东西，不要简单的认为那不过就像nginx从0.8升级到1.4一样。所以我给的建议是，生产环境用1.x，实验环境部署2.x作为熟悉使用。

理由二：依然是，Hadoop不是webserver，分布式系统尽管Hadoop实现出来了，但是他仍然是非常复杂的一套体系，单说HDFS存储，以前Hadoop 0.20.2想升级到0.20.203，首先你需要在所有节点部署上新版的Hadoop，然后停止整个集群的所有服务，做好元数据备份，然后做HDFS升级，还不能保证HDFS一定能升级成功。这样升级一次的代价是很大的，停服务不说，万一升级不成功能不能保证元数据完整无误都是不可预知的。远比你想象的麻烦的多得多得多。千万不要以为有了Cloudera Manager或者其他管理软件你就真的可以自动化运维了，部署Hadoop只是万里长征的第一步而已。

理由三： Hadoop 2.x目前很不稳定，Bug比较多，更新迭代速度太快，如果你想选择2.x，想清楚再做决定，这玩意不是说你选择新的版本就万无一失了，Openssl多少年了，还出现了心脏滴血的漏洞，何况刚出来才不到一年的Hadoop2，要知道，Hadoop升级到1.0用了差不多7，8年的时间，而且经过了无数大公司包括Yahoo，Facebook，BAT这样的公司不停的更新，修补，才稳定下来。Hadoop2才出现不到一年，根本没有经过长期稳定的测试和运行，看最近Hadoop从2.3升级到2.4只用了一个半月，就修复了400多个bug。

所以，不建议大家现在直接在生产集群就上2.x，再等等看吧，等稳定了再上也不迟。如果大家关注Apache JIRA的话，可以看到Hadoop 3.0已经开始内部bug跟踪了。

关于Hadoop的人才？

我觉得企业需要从两个方面来考虑hadoop的人才问题，一个是开发人才，一个是维护人才。

开发人才目前比较匮乏，基本都集中在互联网，但这个是一个在相对短时间内能解决的事情，随着Hadoop培训的普及和传播。以及Hadoop本身在接口方面的完善，这样的人才会越来越多。

维护人才我觉得互联网外的行业一段时间内基本不用考虑，不是太多了，而是根本没有。Hadoop和云计算最后拼的就是运维，大规模分布式系统的运维人才极难培养。特别是DevOps，本身DevOps就很稀缺，而在稀缺人才中大部分又是用puppet, fabric去搞web运维的，转向分布式系统运维难度还是有的。所以这种人才很难招聘，也很难培养。参看左耳朵耗子的InfoQ访谈 http://www.infoq.com/cn/articles/chenhao-on-cloud。

然后你需要明确自己想要的开发人才类型，打个比方Hadoop就好象是windows或者linux操作系统，在这个操作系统上，既可以用photoshop画图，又可以用3dmax做动画，也可以用Office处理表格，但是应用软件所实现的目的是不一样的。这还是需要CTO，CIO对大数据和Hadoop及周边应用有个起码的了解。不要把Hadoop跟mysql php或者传统的J2EE做类比，认为没什么难的，大不了外包。完全不是这么回事。

关于Hadoop的培训内容？

经过几家企业的Hadoop内部培训，我发现刚转型企业都有一个问题是贪多。想做一次培训把hadoop和周边所有东西都了解透了，比较典型的是我最近去上海培训的一个公司，从Hadoop到HBase到Mahout到分词到Spark Storm全要听。然后培训机构就只能找几个老师分别讲不同的内容，我觉得这种培训对企业的意义不大，顶多就是给员工一个扎堆睡午觉的机会。

第一、Hadoop就不是一两次讲课就能搞明白的东西，除了理论知识，还需要大量的实践经验的支持。

1/2 1 2 下一页尾页