这里有个问题值得琢磨:声、光、电传感技术早于计算机而出现,比如留声机、照相机和雷达。为什么直到现在,它们才开始引起产业界的重视?
纵观技术历史,总是声学先行,光学和电学次之。所以,我们不妨以声学领域的麦克风技术为例展开探讨。
计算机和手机很早就配置了麦克风,但直到 Amazon 推出一款麦克风阵列的 Echo,产业界对这类产品忽然变得极度关注并争相模仿。究其原因,除了这款产品在计算和通信方面的能力有所提高,更主要的原因是场景发生了变化。
在 Echo 出现之前,麦克风解决的一直都是近场问题。近场语音交互要求人类适应机器,一定程度上掩盖了技术的不足,是典型的由于技术限制而刻意回避场景的案例。但实际上,人类之间的语音交互都会拉开一定距离。所以,现在我们开始需要机器适应人类的远场语音交互。
机器适应人类,这可以说是计算机技术的一个巨大进步,也是人工智能得以实现的核心要素之一。
这并非声学领域特有的问题,当汽车安装摄像头和雷达,以及自行车安装 GPS 时,场景变化带来的技术挑战才会凸显出来,因为真实场景所需要的技术并非是简单升级而是颠覆性创新。这也是当前技术型创业公司被青睐的主要原因。
然而,单一传感方式所带来的影响总是有限,不足以推动整个技术和社会的变革。例如,麦克风阵列可以采集人类自然对话的语音信息,从而逐渐演化、理解人类语言。这意味着将来机器可以读懂我们的思想,十分可怕。但这种理解其实还比较片面,缺乏图像、位置等其他传感信息的支持。
从这个层面来说,人工智能必须融合多种传感方式,而非局限于声、光、电、热、力、磁,再加上强大的计算和存储能力,才能在某些领域超越人类,从而看懂世界,推动更多新商业模式的诞生。
当机器获取的融合数据足以覆盖人类产生的数据的十分之一时,大多时候,人类只需要说一说、看一看或者想一想,机器就能捕捉到背后的思想。