各位大佬 别再拿人工智能当春药了

“机器学习模型依靠左右互搏,可以迅速达到很高的智能水准。”(说他们智商低,是因为这一点他们真信了。)

“人工智能毁灭人类的奇点即将来到!”(我认为机器早就能毁灭人类了,不过这跟人工智能并没有关系。)

“只有人工智能才能拯救人类!”(潜台词是:只有我这样人工智能的使者才能拯救你们!)

“我们的产品融合了大数据和人工智能技术。”(其实多数情况下不过是用hadoop跑了个脚本。)

作为一个知识分子,我是不太擅长骂人的。咱们还是先讲讲道理,看看深度学习到底解决了什么,还有哪些挑战。

实际上,到今天为止,无论什么样的机器学习,本质上都是在统计数据,从中归纳出模型。实际上,很早以前大家就认识到,深层的神经网络比起浅层的模型,在参数数量相同的情形下,深层模型具有更强的表达能力。这个概念说起来也好理解:用同样的面积的铁皮,做个桶比做个盘子盛的水要多一些。对此,马三立大师早有论述:碗比盘深,盆比碗深,缸比盆深,最浅的是碟子,最深的是缸。而盘子或桶里的水,则类比于模型可以接纳并总结的数据:太浅层的模型,其实很容易自满,即使有大量的数据灌进去,也并没有什么卵用。

既然很早就知道深层模型的表达能力更强,那么为什么近年来深度学习才大放异彩呢?那是因为桶虽然盛水多,我们以前却没有掌握将它高效率地灌满的办法。也就是说,以前对深度神经网络,没有太有效的工程优化方法。

一个大桶摆在那儿,却只能用耳挖勺一勺勺往里灌水,多怎才能灌满啊?直到本世纪,Geoffrey Hilton和他的学生发明了用GPU来优化深度神经网络的工程方法,这就好比灌水时发明了水管,极大地提高了效率。这样的工程方法产生后,深度神经网络才变成工业界实用的武器,并且在若干领域都带来了里程碑式的变化。

桶有了,水管也有了,还缺什么呢?当然就是水了。对深度学习模型而言,水就是海量的数据。比方说原来用浅层的模型做人脸识别,训练样本到了一定的规模,再多就没有用了,因为盘子已经灌满了,再灌就盛不了了。

可是,改用深度学习,再加上有了水管以后,数据一直往里面灌,模型还是可以继续学习和提高。就拿机器识别物体这样的任务来说,通过数百万副图片的训练,深度学习模型甚至可以超过人的肉眼的识别能力,这确实是人工智能在感知类问题上重要的里程碑。

然而,上面的例子提醒我们:人工智能和人的智能,还真的不是一回事。几岁的小孩子,大人给他指过一次猫,下次他十有八九就能认出来。然而不论是多强的人工智能模型,也不可能看几张猫的图片,就能准确地认识猫。也就是说,深度神经网络的“智能”,是建立在海量数据基础之上的,因此,深度学习与大数据,有着非常紧密的内在联系。

关于深度学习,还有一个有趣的现象。就目前情况来看,深度学习技术在互联网应用(例如广告、推荐等)上取得的提高,没有语音图像这些领域那样显著。这里面有什么规律性的解释么?

个人认为,自然现象的数据处理,例如语音识别,我们完全可以通过主动的语料采集,让各个phoneme甚至biphone、triphone都挺有充分的覆盖;而互联网收集的社会行为,例如广告点击、新闻阅读这些数据,Ground truth并不清晰:即使对于同一个人、同一则广告、同一个广告位,点击与否也是个很不确定的事件,而这样的不确定性即使引入再多的上下文信息,也不可能消除。

而引入了大量的上下文信息(即模型需要的feature)后,在每个片段上的数据实际上非常稀少,并不能满足深度学习模型彻底进化的需要。怎么解决这个问题呢?最近爆火的Alphago采用的deep reinforcement learning方法论,或有是个启发。