手势识别开启下一场科技战争

      在被3D打印、Google Glass和智能手表等各种未来技术和未来设备轮番轰炸之后,我们又迎来了一波新的热潮--手势识别。简单地说,这项技术是利用各类传感器对手部/手持工具的形态、位移等进行持续采集,每隔一段时间完成一次建模,形成一个模型信息的序列帧,再将这些信息序列转换为对应的指令,用来控制实现某些操作。随着各项技术的成熟和传感器的发展,手势识别已经进入可用性阶段,各类产品和解决方案也开始涌现。

  目前最火热的当属把这个概念带入消费市场的Leap Motion。它的最大频率是每秒钟290帧,即每秒钟建立290个手部的3D模型,这保证了其能够顺畅且细致地实现手势到指令的转换(有开发者指出在USB2.0下实际工作在115帧左右)。同时,根据介绍,它可以追踪到传感器上方25 mm~ 600 mm范围内,150度视角中精确到0.01毫米的动作(不过有已经入手的开发者表示,其实际操作范围要比文档中描述的更小,类似于一个倒四棱锥体)。随后,我们看识别范围更广且只需够结合普通摄像头进行识别的Pebbles,利用生物电来实现手势识别的MYO臂环,微软也将在Kinect for Windows中也将引入手势操作和3D扫描技术……而在前几天,一个类Leap Motion的解决方案DUO也登陆了KickStarter,不同的是,这个由NUIgroup发起的项目是一个开源的产品--提供开放的硬件设计方案、驱动代码和SDK,这使得开发者们更容易将这个项目整合到自己的产品之中。

  看到这一系列的产品和解决方案,我心开始思考两个问题:一、它们的使用场景有哪些?二、在这个新领域的竞争中谁将取得胜利?

  对于第一个问题,我想还是应该从这些方案的实现原理中找答案。如前文所述,手势识别技术实现了手部信息的捕捉和手部信息到命令的转换,它引发了两个改变:空间信息采集方式的改变和交互模式的改变。所以我认为它主要有三方面的应用场景:

  1.对物体进行静态/动态捕捉。最基础的就是类似于3D扫描的技术--可以轻松复制实物的3D数字模型,用于3D打印。当然,它也可以是动态的,尤其是当能够做到从手势到人的延伸,那么通过电脑精准的模拟一个人的运动状态将对电影、游戏产业起到重大的影响。

  2. 替代原有的交互模式。由于对交互模式的颠覆,Leap Motion最初带给人们的幻想是来自于对键盘、鼠标的替代。当然,实际上它可以引发更多的变革:全新的游戏操控方式,用手指完成绘画、在空中演奏音乐,设计师、建筑师等也可以对以上所说的3D模型进行设计、拆解……就像我们常常在科幻电影里看到的那样。

  3.改变信息的输入和传达方式。时至今日,键盘输入已经在很大程度上取代了笔作为输入的工具,但信息最主要的呈现方式却没有改变--文本。语音虽然也在崛起,但实际上它也需要通过的文本进行转化和呈现(所以我一直认为信息皆文本)。那么,在语音识别之后,随着图形、图像识别精度的提高,把手势转换为文本也成为了可能。我想到了两个比较有意思的场景:一个是将聋哑人手语转化为文字/语音,另一个是也许可以用它发明一套全新的编码。

  正因为手势识别(延伸到动态图像识别)拥有广阔的想象空间,可以延伸出无数的产品,所以这个领域的争夺也会十分激烈。前文提到的各类产品都有各自的优势:Leap Motion识别精度高、Pebbles范围更广、DUO是开源可定制的、MYO伴随人体且反应更迅速……我相信还会有一批各有千秋的产品/解决方案出现,但它们能否独占鳌头的决定性因素还是在于其是否能够建立一个完善的应用生态系统。