K.K在纪录片《Google and the World Brain》中提到,他在谷歌创业初期问Larry Page,现在已经有了一个性能不错的搜索引擎,为什么还要做一个?Larry Page解释说,不是要开发新的搜索引擎,我们要做的是人工智能。搜索引擎是我们的主动意识与互联网世界之间最重要的连接方式,并且在长期数据积累、存储技术、云服务、超级计算和机器学习等方面具有独特优势,或许它们将成为最接近人工智能的互联网应用。
从目前看来,谷歌创始人当初的愿望实现了——谷歌成为了全世界在人工智能方面最有建树的互联网公司。国内搜索巨头百度,也在上两周的技术开放日详细介绍了“大数据引擎”计划,里面提到数据挖掘和机器学习等技术、大数据的具体应用、以及对未来趋势的把握,同样令人兴奋。
一、脑机界面的雏形——搜索引擎
脑机界面(Brain-Computer Interface,也称脑机接口)主要研究我们如何通过思维与外部机器进行直接交互,通过建立一个将大脑与机器联系起来的统一准则,实现“用意念来控制机器”的终极梦想,是人工智能的重要技术支持。电影《黑客帝国》和《阿凡达》中用意识来控制虚拟世界中“化身”;俄罗斯“Global Future 2045”预测科学家将于2020年通过脑机接口来实现用意识控制机器人;Ray Kurzweil认为30年后人类能够将自己的意识上传到电脑实现“数字永生”;这些终极人工智能都是通过脑机接口来实现的。
那些梦幻版的目标还离我们太过遥远,对于广大互联网用户来说,离我们最近的脑机界面类应用就是搜索引擎,脑机界面在本质上是为我们提供了一种主动意识与外部环境进行交互的方式,从意识的源头——大脑出发,与外界实现了最直接的联系和互动。搜索引擎与脑机界面的共同点主要体现在两个方面。
1、意识向外界的主动连接
脑机界面将我们最初的意识动机——神经冲动传递给外界并获得反馈。而当我们使用搜索引擎时,同样是先产生意识,然后转化成关键词输入到搜索引擎,后者通过搜索将我们的意识与外界信息进行匹配,在多次反复调试后,为我们找到准确答案。所以,搜索引擎承载了我们主动联系外部世界的意愿,通过有价值的反馈解决了我们提出的问题,充分体现了我们的意识主动性。
这可能也是搜索工具与其他互联网服务的本质区别,我们在浏览网页、观看视频或者查看社交工具时,都是处在一种被动的信息接收者的地位,我们看到的内容其实全部取决于对方展示了什么。而使用搜索工具却是一种主动行为,我们需要大脑思考和手动输入,还需要根据得到的信息进行调整,直到最终的搜索结果符合我们的原始动机。我们可以在不动脑筋的情况下使用其他互联网服务,却无法在不懂脑筋的情况下进行网络搜索,当我们将关键词输入到搜索框这一行为发生时,就已经体现了我们的主动意识。也正因如此,比起其他互联网工具,搜索引擎需要我们更多的“动脑”和“动手”,而这些相对繁琐的操作其实就是我们的意识在行为中的转化。
2、信息传输和互动的过程
脑机界面以掌握大脑原理为基础,在大脑和外部对象之间建立了统一的交互规则,使得大脑与外界完美对接,其最终目的还是为信息传输提供一个最理想化的管道。我们的神经系统也可以看成是一个通过生物电交流信息的“计算机”结构。相互连接神经元通过电信号交流,通过神经递质传递信息,构成了多层的、不同功能的神经回路和电子回路。因此,电信号成为被大脑和外部智能机器所共同接受并进行交流的沟通介质。
对于搜索来说,关键词就充当了我们与搜索工具之间的这种沟通介质,借助关键词这个“编译器”,我们实现了自我意识与搜索引擎之间的交流,形成了一个意识产生、关键词转化、搜索、信息获取、动机满足的信息闭环。
总之,搜索工具体现了我们的意识主动性,也为我们创造了与外界进行信息交互的有效途径,在这方面与脑机界面并无二致。虽然它是在技术和效率上还与理想中的脑机界面存在巨大差距,但已经在为我们充当了智能助手的角色。所以,我们可以将目前广泛使用的搜索引擎看成是未来高级脑机界面的雏形或是初级状态,换句话说,目前的搜索引擎是目前最有希望进化成脑机界面、实现人工智能的互联网服务形态。
二、搜索引擎向人工智能演变的必要因素
与人机界面相似的搜索引擎具备天然优势,但如果想在机器学习和人工智能的道路上走的更远还需具备以下条件。
1、重视战略数据而非“大数据”
如果把将要实现的人工智能比作大脑的话,那互联网就是人体头部的血管,一个抵达各部位的网状系统,而数据和信息便是最重要的、能够为大脑活动提供能量的血液,它们也是进行机器学习所必需的的输入量和研究基础。百度“大数据引擎”结构中最底层的 “开放云”服务就是在实现这个功能。
在数据获取方面,不能漫无目的追求大而全的数据,因为大数据追求的“N=所有”的全样本是无法实现的,同时大数据样本非但不能解决样本偏差问题,反而引发了大量的小数据问题。搜索引擎应该更加重视筛选过的、有价值的战略数据。例如,不久前的MIT大数据挑战就是以波士顿交通为主题;谷歌的大数据功能是从预测流感开始;而百度的“大数据引擎”也首先选择了医疗、交通和金融领域为大数据战略的具体应用方向。搜索引擎在PC端已经有了足够的积累,随着手机和其他可穿戴智能设备的爆发,搜索引擎将获得更多有战略意义的、细分化和情景化的数据。“百度迁徙”、“景点舒适度预测”和“城市旅游预测”就是百度以细分化的战略数据为切入点的成功案例。
2、搜索引擎的数据挖掘优势
当信息爆炸时代来临,是否拥有信息已经不再重要,重要的是如何能够快速的找到所需信息,而搜索引擎在这方面有着天然优势,也是解决信息数量和信息(有价值的)获取效率之间矛盾的唯一途径,而搜索引擎的数据挖掘将产生更加明显的效果。例如,在智力节目中击败人类的沃森就是因为“海量数据加搜索匹配”而产生了学习能力。
互联网搜索的惊人效率与传统的信息搜索方式形成了鲜明对比,因此每个理性的人在获取信息时都会优先使用互联网搜索工具,在享受搜索带来的高效率时贡献出个人信息,促使搜索工具对我们更加了解,从而在下次为我们提供更有效率、更准确、更个性化的搜索服务,随着信息获取速度和准确率的提高,我们也将更加频繁的使用搜索工具从而贡献出更多的个人数据……这便形成了Jeff Bezos提出的那个“飞轮模型”,一个封闭的良性循环过程。
这个良性循环为搜索工具带来了持续增长的用户习惯和数据量,更重要的是当数据积累到一定程度,搜索引擎将掌握足够多的用户个人标签和行业标签,在多维度的信息整合后对用户和行业形成准确定义,从而通过自身的数据积累和挖掘为用户和行业提供更加智能的信息服务。而这个过程应该就是李彦宏在“大数据引擎”会议上提到的“技术变革的临界点”,也是副总裁王劲口中那个“百度多年深厚技术积累的一次质变过程”。定义个人的各种标签是一个个标准的数据元,这个把所有用户都贴上标准化的标签进行统计分析的过程就是会上提到的“量化自我”。而百度“大数据引擎”的相关负责人也提到除了搜索工具在PC端的积累,手机、可穿戴智能设备的增长也加速了数据量的增长,这将贡献可以“量化自我”的更多数字标签。
因此,搜索引擎在数据挖掘方面的优势不仅体现在自身算法和计算能力,更是体现在对用户信息的量化分析和数据挖掘,并以此基础上提供的更加智能的信息服务。值得一提的是,这些有价值的标签只有经过长时间积累和长期用户沉淀才能取得,就像人与人只有在长期交流沟通后才能深入了解对方,机器对用户的了解也是建立在长期的、无数次交互的基础之上,而对用户的了解程度又决定了机器学习的核心算法。因此,已经在市场上占据领导地位的搜索引擎在这方面的优势会较为明显。
3、技术奇点的出现
在搜索引擎收集战略数据并进行数据挖掘之后,接下来将是实现人工智能的最后一个阶段——机器深度学习。搜索引擎实现从传统搜索到人工智能的过渡,不仅是因为自身积累的数据量达到了质变的水平,还因为硬件存储、云计算、超级计算、模拟神经网络等相关技术的成熟。
搜索引擎可以凭借自身的独特优势成为此次技术变革中的领导者,并且他们也已经开始了相关的准备工作。谷歌很早就通过自主研发和收购的方式来汇集实现人工智能的必要技术,包括利用1.6万个处理器构建的模拟人脑神经系统的且具备学习功能的Google Brain;将收购的Deepmind的机器学习技术应用于声音和文本搜索以更好的读懂人类自然语言;将机器深度学习领军人物Geoffrey Hinton招致麾下。而百度也是国内第一家提出机器学习(百度大脑)和组建相关研究机构(IDL,百度深度学习研究院)的互联网公司;提出“少帅计划”招揽青年科学家;拥有了超越天河二号的超级计算能力;组建起了世界上最大的拥有200亿个参数的深度神经网络。这些技术都将与搜索引擎自身积累的数据优势一起成为他们率先进入人工智能领域的重要推动力。
4、正确的机器学习之路
在此前的文章《潜伏的强大暗流:终极智能的群组进化路径》中曾提过通往终极人工智能有两条道路,一是从理论研究出发,在完全掌握人类的智力原理后再通过技术进行复制;二是从基础技术和具体应用出发,结合人脑各阶段的研究成果来得到相应水平的人工智能,再通过漫长的技术进化提高智能水平。
如果采取第一种途径,在没有完全弄清大脑原理之前,只对大脑结构进行模拟是没有任何实际意义的。因此,这种方式不适合要向用户持续提供服务的搜索引擎公司。加利福尼亚斯坦福大学的Andrew Ng完成了世界上最大的拥有110亿神经连接的人工大脑,但谷歌大脑工程的两位研究者指出这个神经网络计算机甚至都没达到老鼠的智力水平。
长达十年且耗资数十亿欧元的欧盟人脑计划也没有把目标定为完全掌握人脑原理并对其进行模拟,而是一直在强调每个阶段的研究成果都要付诸实践,通过模仿部分人脑原理来创造出一些类人脑功能(Human-like)的智能系统或应用。而对于一直面向用户的搜索引擎来说更是如此,它们应该选择第二种自下而上的、分布式的智力实现方式,每一次技术的智能化革新都是从用户的实际需求出发,每一次技术进步都代表着机器智能的进一步发展。谷歌在收购Deepmind之后明确表示不会首先将其应用在机器人部门,而是先从基础的语义识别开始。而百度也是将深度学习技术应用在了具体的用户服务方面,比如说降低语音技术的相对错误率,提高中文语音识别率、完善图像识别能力、全球首个全网人脸搜索引擎等。
上文提到,搜索引擎构建了人与信息的意识主动化的连接,而且用户与搜索引擎的每次交互都是一种相互了解、共同成长的过程。与其他互联网服务不同,用户在使用搜索引擎时也是在作为一个“开发者”参与其中,这也就是在百度“大数据引擎”开放日上北航校长讲到的,“一种超越众包的、融合计算机与人群”的软件开发新思路。
5、基于人脑神经网络的机器学习
人脑与计算机最大的区别就在于它是一种双向联系,可以不停地把新信息反馈回去,加固已有东西,这就是我们的学习功能。我们大脑的层级并非生而有之,与生俱来的是毫无关联的模块,相互之间没有形成任何模式,所有模块之间的连接和增强都是通过后天学习来实现的。
我们大脑的学习和推理能力符合贝叶斯数学原则,推理是基于由经验而来的概率,我们在遇到新情况时,总是要追溯自己的已有记忆和经验,然后再根据新情况进行调整,最后得出一个概率相对较高的应对策略,所以我们才学会了如何应对这个或然的世界。我们在执行“贝叶斯原则”进行学习时,首先将遇到的新情况在此前的记忆和经验库中进行搜索和匹配,找到成功概率较高的决策付诸实践,然后再根据现实反馈进行调整,再重复上述过程,直到找到最佳方案。经过这样一次次的贝叶斯行动,我们构成了特定的自我,也形成了那种重要的学习能力。
而目前先进的计算机技术可以使贝叶斯计算方法能够更加有效地执行,《最有人性的“人”》作者克里斯蒂安认为计算机将一改非1即0、非真即假的科学逻辑,能够理解和使用贝叶斯概率推理。在认识到人脑的学习原理之后,借助数字化“神经网络”来模拟大脑并独立的收集和反馈信息已经成为深度学习领域的一个突破性进展,例如,机器人专家Hod Lipson研发出的机器人在观察和触摸钟摆一整天之后,通过学习推算出了F=ma,而人类花费了几千年才得出这个公式。
而搜索引擎的那种“关键词输入、数据库搜索、信息匹配、多次调整、返回结果”不恰恰也是完全符合贝叶斯学习原则吗?所以,我们有理由相信,搜索引擎通过构建模拟神经网络已经可以获得人类一定程度上的学习能力,例如,目前“百度大脑”已经达到2岁儿童的智力水平。美国儿科学会的《育儿百科》中将儿童称为“恐怖的2岁”,他的词汇量开始丰富;能够在心里想象出事物、行为和概念的图像;他开始理解物体之间的关系;他开始将不同的活动串联在一起形成一个逻辑关系;当他意识到社会希望他遵循某些规则后,他会开始培养起一定程度的自控能力。虽然“百度大脑”可能无法与这些智力表现形式一一匹配,但我们还是从中感觉出机器智能的巨大进步。
6、更加开放的搜索引擎平台
对于机器学习和人工智能这类研究周期长、学科跨度大的研究课题,必须保持开放的心态和积极合作的意愿。欧盟人脑计划就一直在强调开放式平台的建立、开发接口的开放和多学科的融合等等。对于搜索引擎来说,开放一直是其独特优势,其几乎可以覆盖所有的用户和行业。但机器学习和人工智能这个长期目标还需要搜索引擎保持持续开放,我们也可以从百度的“大数据引擎”战略中看出其对开放和合作的重视程度,它将大数据存储、分析和智能化处理等一整套核心能力通过平台化、接口化的方式对外开放,以吸引更多的合作方;与北京航空航天大学共同进行科学研究;与交通、金融、医疗行业的深度合作等。平台的开放不仅可以使现有的机器学习功能发挥更加广泛的价值,还能通过更多的应用和外部资源的引入来对现有的机器学习模型进行验证和完善。
三、搜索引擎过渡到人工智能的忧虑
1、个人数据隐私
我们可以对实验室中的人工智能漠不关心,因为无论它的研究进展到何种程度,都不会与我们产生直接关系。但我们对每天都在使用的搜索引擎智能化的态度则完全不同,搜索引擎人工智能化的动因是我们与其之间进行的无数次交互,我们对其智能化的定义是它能更快、更准确的帮我们找到所需信息,它之所以如此智能是因为更加了解我们的需求,而它对我们的了解是基于我们给它提供的个人信息越来越多,这当然就意味着我们的隐私越来越少。
搜索引擎知道我们的出行路线、地理位置、工作信息、日常行为模式和交际圈子,它比任何保险公司或银行都了解我们的风险状况,随着可穿戴智能设备的兴起,它也可能比医生更了解我们自身的身体状况。或者说,搜索引擎将变得比我们自己更了解自己。
这是信息时代独特的背景,对于效率的追求使我们不可避免的享受互联网搜索引擎等服务带给我们的信息服务,同时也不可避免的享受个人信息外泄的苦恼。我们观察到越来越智能化和人性化的信息服务带来的世界的改变,带给我们效率的提升,却忽视了随着我们个人信息的越发公开,我们的一举一动正在被人察觉。搜索引擎的机器学习势必需要越来越多的用户信息,这与我们的隐私权存在本质上的冲突。或许,我们已经意识到这一点,但在效率面前对此无能为力。
2、我们把记忆交给了搜索引擎
《浅薄》里提到,互联网正在塑造着我们的大脑,无时无刻不在改变着我们,而搜索引擎则首当其冲抢占了我们的记忆。几千年来,人类都依赖彼此记忆日常生活的细枝末节。现在,我们依赖的是电子设备和“云”,它们正在改变我们感知和记忆周围世界的方式。互联网不仅可能取代了“他人”这种外援式的记忆资源,也取代了我们本身的认知官能。互联网不仅消除了我们与同伴分享信息的需要,也瓦解了将即时习得的重要信息,存储进生物式记忆系统的冲动。这就是所谓的“搜索引擎效应”。
如果把我们的记忆看做数据库,我们的每次记忆存储是为了将来在某个时刻得到所需要的信息,我们的每次回忆也是在这个数据库进行一次搜索。试想一下,如果更加智能的搜索引擎对我们了如指掌,当我们通过互联网搜索信息的速度比从大脑的记忆中搜索更快、更准确时,我们当然会毫不犹豫的选择前者,全然在乎这部分“记忆”是存在于外部的互联网,还是存在于自己的大脑中。
对于这种结果的优劣依然也存在争论,一种观点认为,我们将一部分记忆分摊给搜索引擎之后,他们开始认为比以往任何人都懂得多;但事实上,对搜索引擎的依赖恰恰说明他们对周围世界的认识少之又少,我们完全将谷歌算法的产物当做了自己“知道”的东西。而另一种对立观点则认为,在我们成为“互联脑”(Inter-mind)一员的同时,会发展出一种不再依赖我们大脑中本地记忆的新型智力。当我们从记忆日常事实的需求中解放,就可以利用空余出来的这部分脑力资源,去实现个人的雄心。这种进化之中的“互联脑”,或许可以将人类个体的创造力与互联网上丰沛的知识结合在一起,使我们有能力突破一些自己制造的困境。
3、终极智力的移交
虽然意识之谜仍然未解,但至少我们已经知道,我们的意识和思考源于我们的神经连接,在神经元之间进行传递的神经递质所携带的信息构成了我们自身,就像Sebastian Seung所说“我是我的连接体”。神经科学的出现正在抹杀“灵魂”,在任何一个人中并不存在一个所谓的真正自我,我们所拥有的只有自己的大脑,这意味着我们只是大脑在特定时间中所呈现的状态而已,而这种状态完全可以通过信息来体现。当然,我们也可以像Hinton一样把大脑的神经网络看作一个运行在多层面上的软件。或者说,我们的神经活动在本质上也是一种信息传输和计算。《黑客帝国》中有段台词对此做了最为精辟的概括:“什么是真实?该怎么定义?如果真实指的是触觉、嗅觉、味觉和视觉等,这些其实都是大脑接受的信号和信息。”
当体现我们意识的各种互联网行为被搜索引擎量化、统计和重新组合时,这是否就意味着他们可以从中掌握那些原本属于我们自身的智力?它们通过机器学习模拟出我们的智力,再结合它们生来就优于人类的强大功能,甚至可以解答出人类自身永远无法企及的难题。百度的“大数据引擎”除了提到大数据和机器学习在许多重点行业的应用,还提到可以“利用机器学习重新认识外部世界,发现我们没有发现过的自然规律”。如果这种情况出现,我们人类最伟大的职业哲学家、科学家和艺术家可能都要让位于搜索引擎了。
搜索引擎通过机器学习掌握人类智力虽然不是此消彼长的掠夺,但可能会是一次关于控制权的移交。我们从自然进化过渡到技术进化,科技带来超人类主义。搜索引擎等互联网服务让我们变为了Cyborg(电子人),而其进化的方向——人工智能则模糊了人脑与机器间的界限,我们可以借此超越人类自身的认知极限,但这种改变并不意味着我们从此陷入失去自我的危机,相反,我们是与逐步走向智能的搜索引擎建立起了强大的史无前例的联系——我们只是将自我融入了一个更伟大的事物之中。
微信公众号:机器之心 微信个人号:zhaoyunfeng1984