4、为什么大数据和机器智能结合的未来一定会到来?
其实在工业革命之前(1820 年),世界人均 GDP 在 1800 年前的两三千年里基本没有变化,而从 1820 年到 2001 年的 180 年里,世界人均 GDP 从原来的 667 美元增长到 6049 美元。由此足见,工业革命带来的收入增长的确是翻天覆地的。这里面发生了什么,大家可以去思考一下。但人类的进步并没有停止或者说稳步增长,在发明了电力,电脑,互联网,移动互联网,全球年 GDP 增长从万分之 5 到 2%,信息也是在急剧增长,根据计算,最近两年的信息量是之前 30 年的总和,最近 10 年是远超人类所有之前累计信息量之和。在计算机时代,有个著名的摩尔定律,就是说同样成本每隔 18 个月晶体管数量会翻倍,反过来同样数量晶体管成本会减半,这个规律已经很好的 match 了最近 30 年的发展,并且可以衍生到很多类似的领域:存储、功耗、带宽、像素。
冯诺伊曼是 20 世纪最重要的数学家之一,在现代计算机、博弈论和核武器等诸多领域内有杰出建树的最伟大的科学全才之一。他提出(技术)将会逼近人类历史上的某种本质的奇点,在那之后 全部人类行为都不可能以我们熟悉的面貌继续存在。这就是著名的奇点理论。目前会越来越快指数性增长,美国未来学家 Ray Kurzweil 称人类能够在 2045 年实现数字化永生,他自己也创办奇点大学,相信随着信息技术、无线网、生物、物理等领域的指数级增长,将在 2029 年实现人工智能,人的寿命也将会在未来 15 年得到大幅延长。
5、国外值得关注的大数据公司都有哪些?国内又有哪些?
这是 2014 年总结的 Big Data 公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如 Hadoop,Mahout,HBase,Cassandra,我在下面也会涵盖。我可以举几个例子,在分析这一块,cloudera,hortonworks,mapr 作为 Hadoop 的三剑客,一些运维领域,mangodb,couchbase 都是 nosql 的代表,作为服务领域 AWS 和 Google BigQuery 剑拔弩张,在传统数据库,Oracle 收购了 MySQL,DB2 老牌银行专用,Teradata 做了多年数据仓库。上面的 Apps 更多,比如社交消费领域 Google, Amazon, Netflix, Twitter, 商业智能:SAP,GoodData,一些在广告媒体领域:TURN,Rocketfuel,做智能运维 sumologic 等等。去年的新星 Databricks 伴随着 Spark 的浪潮震撼 Hadoop 的生态系统。
对于迅速成长的中国市场,大公司也意味着大数据,BAT 三家都是对大数据的投入也是不惜余力。
我 5 年前在百度的时候,就提出框计算的东东,最近两年他们成立了硅谷研究院,挖来 Andrew Ng 作为首席科学家,研究项目就是百度大脑,在语音、图片识别大幅提高精确度和召回率,最近还做了个无人自行车,非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟,自己研发了 C++ 平台的海量存储系统。淘宝去年双十一主战场,2 分钟突破 10 亿,交易额突破 571 亿,背后是有很多故事,当年在百度做 Pyramid(按 Google 三辆马车打造的金字塔三层分布式系统)的有志之士,继续在 OceanBase 创造神话。而阿里云当年备受争议,马云也怀疑是不是被王坚忽悠,最后经历了双十一的洗礼证明了阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增长,另一方面存储带宽都是巨大成本,没价值就会破产。
6、Hadoop是现今最流行的大数据技术,在它出现的当时,是什么造成了Hadoop的流行?当时Hadoop具有哪些设计上的优势?
看 Hadoop 从哪里开始的,不得不提 Google 的先进性,在 10 多年前,Google 出了 3 篇 paper 论述分布式系统的做法,分别是 GFS, MapReduce, BigTable, 非常 NB 的系统,但没人见过,在工业界很多人痒痒的就想按其思想去仿作,当时 Apache Nutch Lucene 的作者 Doug Cutting 也是其中之一,后来他们被 Yahoo 收购,专门成立 Team 去投入做,就是 Hadoop 的开始和大规模发展的地方,之后随着 Yahoo 的牛人去了 Facebook, Google, 也有成立了 Cloudera, Hortonworks 等大数据公司,把 Hadoop 的实践带到各个硅谷公司。而 Google 还没有停止,又出了新的三辆马车,Pregel, Caffeine, Dremel, 后来又有很多步入后尘,开始新一轮开源大战。
为啥 Hadoop 就比较适合做大数据呢?首先扩展很好,直接通过加节点就可以把系统能力提高,它有个重要思想是移动计算而不是移动数据,因为数据的移动是很大的成本需要网络带宽。其次它提出的目标就是利用廉价的普通计算机(硬盘),这样虽然可能不稳定(磁盘坏的几率),但通过系统级别上的容错和冗余达到高可靠性。并且非常灵活,可以使用各种 data,二进制,文档型,记录型。使用各种形式(结构化,半结构化,非结构化所谓的 schemaless),在按需计算上也是个技巧。