未来智能家居时代 语音交互或将派上大用场

  如果你同时保留着看电视和听广播这两个习惯——或者,看视频网站的同时会去找些播客节目听听,那么你一定会注意到一个显着的区别:视频节目的丰富程度和制作上的复杂度远高于音频节目。例如,《新闻联播》的片头20多年换了四五次,体现了电视技术的最新进步,但片头音乐一直不变,人们也能接受。电视节目的摄影棚几年就得来一次大翻新,但现在的广播电台依然可以使用十几年前的音频制作系统来播出节目,直播间里的时光仿佛停滞一般。

智能家居

  人类在同一时刻用眼睛可以接收的信息量远高于用耳朵能接收到的,视觉可以判别空间位置、形状和颜色叠加起来的丰富信息,比听觉高了不止一个维度。在看到人说话的时候,我们接收到的不只是话语内容,还包括人的面部特征和表情的细微变动,这都对氛围和情绪有着潜移默化的影响。相应的,听觉接收到的话语内容可以用手语或者字幕替代,但视觉附加的更多信息却难以转化回音频。

  历史上,图书和报纸已经给了人们在视觉信息接收方面的训练,人们将排版经验延伸到电影和电视上。尽管留声机和电影技术几乎处于同一时代,但人们却宁愿忍受很多年没有同期声的无声电影时代,宁愿用随便什么音乐放一下做背景了事。可见,人们习惯上对图像比对声音重视得多。

  同样,信息时代的到来也毫不例外的优先偏爱图像。90年代电脑同时具备独立的显卡和声卡,技术进步之后,人们对声卡抱着无所谓的态度,却追求独立显卡和屏幕的画质,以至于追求手机摄像头的精度。在交互方面,大家非常注重GUI(图形用户界面),而对于声音的设计处理一般比较马虎,还停留在很多年前的水平。

  随着iPhone带来的趋势,一块巨大的触屏成为人们交互的全部载体,跑在上面的应用也随着一股奇怪的扁平化风潮而变得越来越样式单一,设计师为了与众不同又好用的界面而绞尽脑汁。对于音频而言,它终于迎来了走出冷宫的机会。人机交互的下一波趋势,将很可能在声音——而不是图像——方面迎来突破。

  声音不重要,还是人们没发现它的重要?

  “在汽车出现之前,人们都以为自己想要一台更快的马车。”这句话大家也许都很熟悉。在iOS 7和微软Metro界面出现之后,一夜之间各种UI设计都趋向于扁平,而流行多年的拟物化设计很快就退潮了。这表明,人们的审美态度是可以因为外界的强力驱动而受到很大的改变的,并不是一成不变。所以对音频交互也是如此:并不是说声音相对于图像而言不重要,而是需求没有得到很好的引导。

  声音有什么好处?它是否有足够潜力成为不可替代的载体呢(为什么我们获得的是相反的信号,比如交通广播电台即将被打车软件的抢单声埋葬)?

  首先,习惯声音交互可以让我们的感觉器官均衡利用,换句话说就是保护眼睛。长期使用手机,比如在地铁盯着屏幕或者睡觉之前刷屏,会出现很多健康问题,其实不仅限于眼睛,手持阅读介质的姿势不同,全身都可能受影响。

  而且,作为必须全神贯注进行的活动,阅读(包括观看视频)需要完全沉浸进去,和外界隔离,引发的心理问题也不容忽视。不管是阅读长文还是碎片化消息,眼睛接受的信息量通常过大,人们接受了过量的信息,以至于形成信息过载而不自觉。

  使用声音可以让人们强制减少信息摄入量,并更自如的利用碎片时间。对孩子而言,声音(不使用耳机)也是一种亲切自然的交互方式,有助于让孩子早期就接触电脑,而不用担心用眼,孤独等副作用。

  此外,随着我们使用智能设备的“户外场景”增多,就像这个年头智能手表终于迎来了春天一样,为短信息和免提式交互量身定制的声音也会派上更大用场。户外场景其实主要就是开车或者是提着东西走路。在这种情况下,显然眼睛就只是拿来看路才更合适。

  一个例子是,交通电台提交路况信息,从原来的短信平台改为用微信公众号发送语音,电台会直接播出上传的语音。这样,司机可以不停车,用蓝牙耳机播报路况,让整个交流过程更像是真正的无线电台一样。