纽约时报:大数据时代的数据收集与分析

导读:《纽约时报》网站近日刊载文章称,在数据收集和分析这一正在繁荣发展的行业中,吉拉德-艾尔贝兹可能是最具影响力的投资者,他试图找出世界上的每一个事实,并将这些事实都容纳在被他称为Factual的公司中。自2008年创办以来,Factual已经吸收了大量的事实,其计划是为相互之间联系紧密的数千个超计算云建立全球范围内最主要的参照点。以下是这篇文章的全文。

  在数据收集和分析这一正在繁荣发展的行业中,Factual创始人、此外还对其他30多家创业公司进行投资的吉拉德-艾尔贝兹(Gilad Elbaz)可能是最具影响力的投资者。

  在7岁大时,艾尔贝兹曾写道:“我希望成为一名富裕的、非常聪明的数学家。”原因是,那将帮助他“发明时间机器、机器人和能回答任何问题的机器之类的东西”。

  此后的34年时间里,艾尔贝兹已经完成了许多的目标,他已创造了能穿越网络的软件机器人、为谷歌回答了一些非常重大的问题,并在这一过程中获得了远远超过百万富翁的财富。

  但是,他的时间机器计划则已被抛弃,原因是其发现了更加重要的事情,那就是试图找出世界上的每一个事实,并将这些事实都容纳在被他称为Factual的公司中。

  “世界是一个大数据的问题。”艾尔贝兹在这家公司的总部中说道,这是一间安静的办公室,比洛杉矶乡村俱乐部高14层楼。他身形纤瘦,说话温和,当有什么想法让他感到激动时,他会在椅子中不停地摇动身体。“如果能在一写下错误的东西时就能马上发现,那将会怎样的一种情况?Factual肯定会是改变商界的新事物,对计算来说也是一种宝贵的新工具。”

  在“大数据”蓬勃发展的这个年代里,曾经是难以想象的数量庞大的信息正在汇聚起来,从而创造出足以改变世界的发明。而在这一领域中,艾尔贝兹可能是最具影响力的发明者和投资者。除了Factual以外,他还对30家创业公司进行了投资,其中包括旧金山的一个致力于“大数据”的企业孵化器。Factual的总部位于星光大道的一幢高楼中,艾尔贝兹在这里主持召开研讨会,希望在洛杉矶地区培育一个数据社区。

  艾尔贝兹还是其母校加州理工学院理事会的一员,同时还是X Prize Foundation基金的成员,这个基金会向在太空飞行、医药和基因科学等领域克服难题的团队提供现金奖金。艾尔贝兹出售给谷歌的公司Applied Semantics是谷歌旗下AdSense业务的基础,这项业务每年都能给谷歌带来接近100亿美元的营收。

  虽然艾尔贝兹的投资额十分庞大,而且对前景的展望也很有价值,但他仍相对鲜为人知。他是如此的不爱出风头,以至于当最近他在参加一次有3000名数据科学家参加的会议时,仅有他投资的一家公司的几名职员认识他。他与曾经是联邦检察官的妻子和三名子女住在西好莱坞的一座乡间别墅中,一家人过着安静的生活。在个人兴趣方面,他喜欢在当地的一家运动俱乐部中打篮球。

  艾尔贝兹说道,他的精神和金融资产就像是他需要分配的礼物,从而让世界变得更加美好。

  “如果所有的数据都明晰无误,那么从世界扣掉价值的人就会减少很多,”他说道,“而为世界增添价值的人就会增加很多。”

  创造明确的、可靠的数据还能让Factual成为一家规模很大的公司。

  “艾尔贝兹远远领先于我们其他人,对于这位企业家所说的每件事情,我都要过几分钟才能理解。”通过麾下公司Andreessen Horowitz为Factual提供支持的风险资本家本-霍洛维茨(Ben Horowitz)说道。“在三年以前,他认为Factual是改变世界的最大机会。而随着时间的推移,世界已经朝着他所预料的方向发生了变化。”

  自2008年创办以来,Factual已经吸收了大量的事实,用艾尔贝兹的话来说,就是“我们已经收集了数百上千亿的个体事实”。

  Factual不仅向大公司提供数据,同时也面向规模较小的软件开发商,这些数据中包括可用的政府数据、以兆兆字节为计量单位的公司数据、以及全球50个国家的6000多个地方的信息,每一条信息都有17到40条的相关描述。Factual用30种不同的方式对80多万个餐馆加以描述,其中包括地址、所有权以及食客和卫生组织的评价等。此外,这些数据还包括5亿个网页的信息、一份美国高中列表以及美国180万名医疗保健专家的办公室所在地、特长和保险偏好等,还包括1.4万种葡萄酒的列表、从1950年到1974年的军用飞机事故、以及大型庆典活动的参加人数等。艾尔贝兹指出,即使是奇特的事实也会有用处。

  在靠近Factual总部的地方,艾尔贝兹储存着500兆兆字节的数据,这大致相当于整个国会图书馆所需数据量的两倍。在亚马逊庞大的计算机云内部,他还存储着更多的数据。他领导下的统计员们对大量的数据进行了收集和清理,用来说明很多事情,比如说卫生部门在对卫生设施进行评分时的差异性、“中学”这个词汇在某个特别的镇上意味着两年还是三年的时间、以及原始数据及其副本之间是否存在修正等。

  Factual的计划是,为相互之间联系紧密的数千个超计算云建立全球范围内最主要的参照点。到今年底为止,数字世界的数据总量预计将会达到2.7泽字节(一泽字节相当于一万亿GB),大约相当于7000亿张DVD的数据容量。Factual目前的员工总数为50人,当世界开始增长,以及这些数据库开始互的情况下,这家公司的价值将被证明是极其庞大的。

  Factual按浮动价格向公司和独立软件开发商出售数据,其依据是有多少信息被使用。小规模的数据提供是免费的,而最大型客户需要支付的费用则会达到成百上千万美元。在有些时候,Factual还会与其他公司进行数据交易,目的是扩大自身所占有的资源。

  就目前而言,某些客户使用Factual的数据是为了向手机地图加入餐厅地址等信息,或者是为了规划销售战略等。但Factual的真实目的则要更加广泛,直指当前时代一项重大业务的核心,那就是利用所有基于云的数据和算法,来找到自然和社会的模式,供科学家加以观察,同时供商界加以开拓。

  “数据一直都仅被视为计算的副作用,一种当你工作时用来查阅的东西。”艾尔贝兹说道。“而我们将其视为一个完全独立的层面,是每个人在希望解决问题时都不得不去挖掘数据的层面,但你自己可能没有所需的完全可靠的数据。”

  举例来说,一个餐饮连锁运营商可利用Factual来找出一个新的选址是否靠近竞争对手,以及当地人在社交点评网站Yelp上如何谈论这个地方。查阅餐厅附近的加油站数据可以知道有多少辆汽车会从高速公路上开下来,运营商还可利用Factual来看看自己的餐厅在网络上的哪些地方被提及,或是纠正其他人所说的有关餐厅的情况。

  Factual拥有来自于多名硅谷明星级人物的2700万美元融资,目前仍是一家封闭式持股的公司,但却已经有了成千上万的客户。Facebook、CitySearch、AT&T及其他一些公司都会使用Factual来获得有关某些地方的信息,《新闻周刊》则使用数据库来为美国最绿色的公司进行评级。

  其他一些公司则利用Factual的数据来执行产品规划和客户关怀等任务。这家公司还没能实现盈利,艾尔贝兹正在聘用更多人才和建立更多数据集等领域进行投资,公司团队已经包括高级数学家、来自于LinkedIn和谷歌的数据科学家、以及至少一名精通罗马后期考古学的专业人士。

  在这个新兴的行业中,Factual的竞争对手包括微软等公司,后者称其Windows Azure Marketplace拥有“数万亿个数据点”和一个语言翻译器。此外,人们也可以向Azure出售数据集。Infochimps提供地理和社交数据,Gnip和Datasift等公司提供来自于Twitter及其他社交网站的深度数据,由另一名数学家创立的Wolfram Alpha则拥有苹果Siri所使用的数据和计算。

  一家名为ClearStory的年轻公司则正试图把所有这些公司都绑在一起,这家同样由Andreessen Horowitz提供融资的创业公司希望提供的是能让普通人使用的所谓“数据集市”。

  其他几名数据专家(主要来自于谷歌)也已辞去了原来的工作,用新的方式来争夺大量的信息。原谷歌产品经理大卫-弗里德伯格(David Friedberg)开创了Climate Corporation,这家公司利用有关天气、土壤孔隙度以及小麦和大豆根部结构的政府数据来制作农作物保险合同。

  艾尔贝兹还是Kaggle的投资者,这家公司为找到数据模式的人提供现金奖励。举例来说,NASA(美国国家航空航天局)利用它来找到更好的方式去测量星系的形状;在竞赛开始的第一个周,一名专业为冰川绘图的博士生就发现了超过NASA的算法。艾尔贝兹还向ZestCash注入了资金,这家公司以低于行业平均值的利率提供发薪日贷款,通过电话账单及申请者如何解读ZestCash网站等要素来判断风险。