Hadoop开源启示录

三、 关于开源及未来

9、事实上,人们对开源还有困惑,很多中国团队的想要致力于开源,你们有什么建议给那些想要参与进来的人?

道克:第一件事是找到一个恰当的领域,现在的开源项目不是那么容易做好,首先要确保你的产品是有用的。

提问:这个领域是什么?

道克:这个很难去做预测,每个细分行业都有不同的现实情况,但相信大家是可以找发掘的。第二点,明确领域后,我们要建立对应的大数据系统;第三点,系统做出来之后我们需要有更多的参与者,需要让大家意识到这个系统的价值,并愿意投入去改进你现在做的系统,愿意加入这个的社区团队。这就是我们讲到的开源文化。

这三步做到之后,你的项目规模自然而然就会增长,就会吸引更多的人参与,而且在这个过程中,所有参与项目的人需要非常开放,乐于帮助,更多这样的人加入才会促使这件事成功。反之,如果我们做的是非常狭隘的一个领域,并希望它控制在一个什么样的范围内,通常这样的项目就难以成功。

迈克:在成为Cloudera的Leader之前,我曾是一个开发人员,做伯克利的数据库。在我的经验中,社区是最重要的。并不是说一个开源社区做出来就是为了免费,关键是有更多人参与。现在中国的团队不只是参与到既有的项目中,有的已经开始去创造自己的新项目。比如说来ebay中国的一群人创造了麒麟这个项目,这个项目现在已经变成了Apache的一个典型项目。所以我非常乐于见到更多来自中国的技术可以贡献在全球。

王建民:现在中国有非常好的开源文化,很多年轻一代都非常热情,愿意去做这件事情,但苦于我们没有找到正确的门路和方法。清华正在做这方面的努力,清华数科院和Cloudera的战略合作,其中非常重要的部分就是如何帮助中国开源社区的成长,我们也希望通过这样的方式,培养更多的中国本土的Leader,将来他们可以去创建多样化的开源社区,去领导更多的项目。

道克:需要强调一下,开源并不是一件容易的事情,它意味着我们需要投入更多的努力。我们需要有大量来自全球的有关需求的沟通,可能你的团队在中国,你的需求来自于英国或者是美国,语言障碍会带来挑战。此外,选择做开源,选择一个更多人可以用的东西,一定意味着需要有更多付出。

举一个例子,我和我孩子做饭,可以选择我自己做,让我的孩子做,或者教我的孩子做。让我做饭很简单,但是让我的孩子做饭一定是个灾难。如果让我选择,教我的孩子如何做饭,虽然培养的过程需要花很多的精力,但最终当孩子学会做饭之后,就能一劳永逸。

开源社区也是这样,开始阶段需要投入比我们现有项目更多的努力,但是一旦我们很好的建立一个社区和社区文化,这个项目就会有一种自我生长、自我繁殖的能力。

10、中国另一个现状就是天赋的缺失,你们有什么建议?

道克:这个的确很难,因为现在大数据技术的变化演进非常快,如果你希望成为一个大数据人才,就必须有非常强的学习新技术的能力。技术变化太快了,只有最好的人才能做到。真正能够解决的方式只有自我不断的学习,以及可以有第三方提供的培训来帮助大家。Cloudera提供了一些课程出来,这个课程对大学是免费的。

王建民:为了解决大数据人才的问题,中国已经有很多大学开设了大数据教育的课程,清华数科院就有相关的硕士计划,第一届已经有150名以上的学生,来自清华不同院系的师资支持这个课程,但是这个课程到底应该怎么去上呢?

参与授课的学生基本上可以分成三类,第一类是有很强的IT背景,可以做很多数据工程的事情;第二类来自社会信息学的领域,在他的工作中有很大部分就是在处理数据。第三类人是来自传统行业,比如像机械工程这样的领域,他们以前没有足够的IT知识和处理数据的技能。

我们在去年的授课过程中也在不断的调整课程,我们认为更好的解决方法,是理论和实践结合,让大家在学习理论课程的同时有更多的实践机会,能够更好的去解决技能问题。Cloudera提供的这些免费课程将会被引进到清华大数据硕士教育的计划中。

11、大数据技术在中国未来会怎样发展?

王建民:第一点,大数据在中国的进步会非常好,数据来源会非常多,中国有越来越多的人、越来越多的机器、越来越多的在线交易,都在产生大量的数据。但是在这个过程中我们要改变现在的文化,让决策听从数据驱动。第二点,不要把大数据神化,认为大数据可以做更多的事情,要有耐心把大数据和我们的业务更好的结合起来。第三点,我们需要更多的注意安全和隐私,我们会有越来越多的数据,数据安全实际上是这个发展的前提。第四点,要更多发展中国自己的技术。