颜水成:现在还是有不少这种纯视觉的APP的,比如美图秀秀、FaceU,这些就是典型的视觉。我个人觉得视觉这个领域的话,因为它经常可以有不同的创新,比如说今年非常典型的热点就是短视频的生产和聚合,各大创业公司(以今日头条为代表),以及传统的IT公司(比如360、百度、腾讯),都在推动短视频,这些东西跟传统的纯粹图像分析不一样。短视频兴起后,你的计算模型的efficiency,推荐算法等,都会跟以前完全不一样。比如图文的时候,可以用surrounding text做一些事情,那么短视频出现之后的话,可能就没有什么太多的caption(字幕)或者title(标题)的东西,这个时候主要依赖的是视觉的东西。无论是学术界工业界,其实对短视频的分析的投入和研发的力度是加强了的。虽然声音还在里面,但是可能对于文本的依赖性变弱了。从视觉维度来说的话,深度学习和大数据结合红利又一波又要来了,而不是到了瓶颈期。
山世光:就是视频的结构化、符号化和后端的搜索、应用的连接。
李航:这是个挺好的例子,其实刚才我们提到的语音,俞凯老师做的东西跟语言相关,只不过是从语音对话的角度去看这个东西,其实语音和语言比较容易自然的结合在一起,现在已经变成一个相对比较大的领域。我对未来的预测是,真正做语音识别的人会越来越少,而做语音对话的人会越来越多,这是一个整体的大的领域,而语音识别是其中一部分。
颜水成:对于语音对话这块,我个人的观点有点不一样,对话非常依赖于语料,这样的话,只有两类公司比较适合做这个事情。一类的话就是有search engine的公司,还有一类就是以腾讯、微软为代表的,有instant message产品的公司,比如微信、Skype。这些公司有天然的优势。
李航:我们俩说的其实不矛盾,这个领域有这样的应用,那么自然就需要将语音、语言的处理技术融合起来。相对来说,传统的语音识别和语言处理的人会越来越少,而在更大的应用背景下,更大的技术范围内,人会越来越多,这是我的预测。
俞凯:其实是这样,对话也分很多种类,刚才所说的open domain(开放领域),其实只是其中的一小类,而且是离商业化最远的一类。
颜水成:但是老百姓最期待的可能是这个玩意。
俞凯:其实不是,从投资的角度、以及技术的角度来讲的话,最集中的就是垂直领域的任务性对话,这个是一定的。
颜水成:对,这是落地性非常好的,但是我们看到的科幻片,或者老百姓他不能区分什么是task,什么是open domain。他们想的是,可能会有一个新的机器人出现,它可以安慰我,给我提供各种各样的信息,但是我们现在真正能够提供的,还是像Alexa Skills这样的东西。
俞凯:从这个角度来讲,其实那些比较open的语料,对于研究来说是有一定价值的,对于未来畅想也很有意思,但是从实际落地和真正的研究语义区分角度来讲,其实大公司并没有优势,原因非常简单,就是在机器学习的范式上,它不再是一个基于离线语料的学习,尤其是对话决策这一类,机器学习是需要在线和环境交互,才能真正去学的,而这样一类事情,全世界都才开始做。所以我觉得,细分下来的话,在对话的领域里面,至少有聊天、问答、任务性对话三个比较难的课题。我把open domain看成是特殊的聊天。
这三种用的技术都不一样,而它的商业化模式区别也比较大。所以我会有一个感觉,可能细分能让大家把这件事看的更具体一点。回答刚才山世光老师提到的关于图像商业化这个问题,我也再说一个观点:不解决痛点,只解决痒点。什么意思呢?就是我一天不上微信,我简直就不行,我昨天两点钟到了宾馆,我睡觉之前一定要看微信,因为在飞机上没法看,那个是痛点,真的很痛,我如果忘了这个,比如说李老师给我发了微信,我如果不知道,这后面就麻烦了,但是如果我不打开那个对话APP,这是没事的,所以这是痒点,这一点特别关键,它到底是疼的还是痒的。而从视觉的角度上讲,其实我的感觉是有很多痛点的,而且比以前还痛,这就是为什么,虽然现在语音的发展潜力非常大,但是从现实的情况上来看,整体上视觉公司估值已经比语音这边高,而整个核心的应用是一个什么东西呢?安防。安防这件事情是非常清晰的应用。刚才提到的好几类,包括说这个APP的问题,第一要区分你做这个APP的性质是什么,到底是工具性,还是社交性的,如果连这个都不区分的话,你的方向就不清楚,你就不知道,技术在里面占多大比例,工具性的占的比例高一点,但是社交性的、游戏性的技术比例可能很低很低。而在安防领域,其实图像是完全dominant的。