英特尔人类学家Genevieve Bell分享了她针对大数据(big data)所做的研究,她深刻思考了大数据对未来可能激起的改变,并探讨了在许多不同情境下,这些大数据现象实际上所蕴涵的意义。
“对我来说,在这份工作中,数据本身并不是让我最感兴趣的地方,因为所有的一切事物都会产生数据,真正有趣之处在于如何开发更能善加运用这些数据的算法之类,”她解释道。
今天,我们使用数据的方法,并非都能直观地展现出数据本身的意义,
Bell在英特尔公司的正式头衔是英特尔实验室互动暨体验研究总监,她负责的工作与英特尔其他科学家和工程师截然不同,涉及的层面涵盖了所有最近在业界掀起热烈讨论的数据海啸(data tsunami)、云计算、设备扩散(device proliferation),以及更强大的服务器在内。“大数据”,正是Bell的下一个主要研究专案。
“问题是该从何处着手?对于我们想要讨论的主题,我们仍处在试着想像这个主题的轮廓及其规模的阶段,”Bell在稍早前英特尔的伦敦Xeon E5处理器发布会上表示。“而今天,所有已达爆满边缘的数据库,只不过是个开端而已。”
接下来,Bell表示,这个世界必须去思考,我们想怎样过滤这些数据?这会对传统线上数据库带来哪些改变?既有的数据世界是否会开始失序,甚至面临崩解而后再建设的局面?
而在这一切的转变过程中,Bell表示,至少我们已经开始明白,所有的一切都会朝着建立一种数据追踪法则的方向发展,包括模拟和数字数据在内,而且,我们还必须有能力管理所有数据。
“对我来说,在这份工作中,数据本身并不是让我最感兴趣的地方,因为所有的一切事物都会产生数据,真正有趣之处在于如何开发更能善加运用这些数据的算法之类,”她解释道。
今天,我们使用数据的方法,并非都能直观地展现出数据本身的意义,Bell说,特别是演算法──要让所有的数据都能善加运用,就必须深入了解数据本身的正确性,而这又和最初的数据填写者有着密切关联。
“所有我们试图用来让数据使用更加合理的想法,都会在一开始被就放在最优先的位置,”她说。事实上,她也点出了当我们开始在单一一种数据模式内找寻数据间的固定模式、因果关系和关联时,实际上都早已落入固有的偏见之中。
“对我而言,大数据分析最迷人之处不仅在于汇聚了来自各个领域的广泛数据,更重要的是你可以拿它们来做些什么,”Bell表示,我们愈来愈依赖数据分析,某种层面来说,这也代表着文化脚本(cultural script)正在跨入崭新的水平。
这类有关数据分析的想法,也推动数据朝“拟人化”(anthropomorphizing)的方向发展。Bell指出,在开始讨论到“数据的秘密生活”(the secret life of data)之际,所有这些数据都将是必要的。而这些讨论也将进一步推动大数据和云计算等应用的扩展。
Bell表示,所有的数据实际上都拥有它自己的特性,这正是使它与其他所有数据有所差异化之处,因此,在分析数据以前,最好先厘清所有数据的特性。
云计算的物理特性和“野性”数据概念
Bell认为数据本身属性即具备繁殖(ferality)或复制(reproductive)能力。“数据并不会永远依照算法或输入时的顺序整齐排列,在经过云计算和其他控制机制后,数据会产生何种变化才是重点所在,因为我们都会尝试着去控制这些本身即具备“野性”(feral)的数据,”Bell说。
事实上,Bell举例道,将同一类型的数据全都放在同一种类别中,像是将兔子或其他繁殖力极强的动物放在一起,或许能做出初步有的有效分类。她也指出,由于数据可以很容易地在各个类别间转移,或是完全转移到另一种类别,因此上下文(contexts)也可以很容易地转移,这或许能让人们试着去管理数据,或是减少这些数据的增殖情况。“在数据世界中,去思考这些策略,是相当有趣的一件事,”她若有所思地表示。
数据的另一个特性在于,尽管数据大多具有明确概念(conceptually),但却也难以捉摸。例如,“云端”事实上仍需要许多实体建设。“云计算最终都会有一个实体机房。云计算数据中心必须是一个实体建筑,其中设有服务器,”Bell强调了实体建设的重要性。
Bell同时强调,云计算并不是特殊的概念。“我们思考的不只是单一的云端系统,我们在想的是许许多多的云,以及成千上万的实体设备,包括进行数据分析的数据中心(server farm)在内,对我来说,所有这些实体设备,都是研究大数据过程中的关键部份,”她表示。
而这也对大数据的研究提出了诸多问题,包括最终数据是否会无处不在?数据中心该设置在何处?这些数据该由何地的何种法律来管辖?采用何种网络运作?以及如何提供和将提供何种服务?
同时,这也让人们开始思考,是否每件事或每个人都会产生数据,抑或是像William Gibson对网路空间(cyberspace)所下的注解:“未来已然来临,只是还未广为人知。”(future was already here but unevenly distributed)
Bell认为,数据将会在各种地方以不同的方式出现,但并非所有情况下的数据都是有用的。“你可以轻松地和苹果(Apple)的Siri对话,看起来这个语音管家似乎颇具智能性,但基本上我只觉得那是一连串毫无意义的对谈,”她说。
再者便是如何处理旧设备和旧数据,这些数据可能尚未数字化,如何处理它们并以新型态来呈现都会是一大问题。
“愈来愈大量的数据不断地产生出来,但这些数据并不一定出自人类之手,”她指出,即使静态数据有可能经过处理转变为动态资讯,但在相反情况下却不一定会出现同样的结果。
在全球各地,物联网(Internet of things, IoT)应用模式都正在发酵,从交通号志灯到汽车、冰箱、除草机,到固定电话、平板电脑、笔电和电视,所有的装置都会产生数据,但将来这些数据未必会适合每一个独立的使用者,Bell说。
例如,有些家庭会共用电话;一些家庭成员在白天工作时使用自己的平板电脑,但夜间或周末时则让给他们的孩子使用。“我们要如何排序数据,才能得知有多少使用者共用一部设备?”Bell表示,这让数据排序成为更艰难的任务。
人类数据的特征──不确定性
然而,开发演算法的噩梦还不仅限于要从这么多独立使用者和个别设备中对数据进行排序,Bell表示,更重要的是,你必须牢记,有些数据根本就不是真实的。
她以一份在美国进行的研究为例指出,在该研究的调查对象中,几乎100%在个人数据中都谎报了约会地点。那么,如何对这些虚构的数据进行排序,而且让结果呈现出非常人性化的观点呢?
“因此,目前人类和机器设备们都会建构数据,但我们会需要演算法来协助建构更有用的数据,”她表示。
“数据基本上只是由0与1组成的字串,这很容易想像,而你所要做的,只是找到适合的工具,尽可能去发挥这些数据的作用。但如果我们停止思考,那么数据将成为一堆难以想像数位符号。所以,我们要开始想像数据的轮廓,去想像经过处理后,它将会呈现出什么样的结果,”她说。“我们正试着以这些数据集为基础提出建议,但我们却无法假设所有数据都100%是真实的。”
此外,Bell指出,随着数据使用者的数量不断增加,他们对数据的期望也愈来愈高,这些人会希望每一个故事、每一个当下、每一个所产生的数据,都能得到相应的处理。
另一个问题,则是这些数据是否需要被打理得很好,关联性很强?或是能以散乱型态呈现?
随着设备、服务、应用程序迅速增加,我们处理数据的经验也快速累积,同时,随着云计算系统不停增加,大数据的概念也正不断成长,Bell说,这也意味着在数据量持续增长的同时,我们将面对一系列崭新的挑战。
但所有这些问题都能得到妥善答覆吗?或是目前我们仍然未能触及问题核心?Bell表示,大数据代表了“令人难以置信的庞大商机”,它不仅仅是字面上极庞大的数字,它还将对今天的系统架构师、工程师、设备制造商和使用者带来深远的影响。