牛津计划还包括哪些新的人工智能技术?
洪小文:牛津计划是我们的一个系列或品牌,我们在今年推出一部分,到明年年初还会有更新的技术。这些技术主要包括:
语音识别。语音的应用范围很广,包括物联网等。目前不仅微软的平台,像中国也有很多公司做自己的语音技术平台等等。
语言理解智能服务(LUIS)。这里面主要是自然语言处理技术,比如我们的微软学术搜索就实现了从关键词搜索到自然语言搜索的技术飞跃,还没有输入完搜索内容机器就可以猜测出你想要搜索的内容。同时,该服务还可以对知识按照不同领域和范围进行分类。例如,有开发人员想要做一个自然语言搜索的应用,那么他可以通过利用牛津所提供的自然语言API来实施。
图像(计算机视觉和人脸识别)。该技术可以帮助用户在上千个物种当中搜索到既定目标,比如说在必应上面进行图片搜索,可以找到十亿以上或百亿以上数量级的资源。
此外,还有可视化技术(visualization)。也就是做大数据分析,我们通过表格把数据可视化,这些都是智能云里面非常重要的项目。微软最近的产品不仅仅代表了研究院的技术,也预示着更加深入和广阔的发展前景。我们现在推出的产品只是一部分,未来可以做的东西还非常多。
过去一年人工智能的进展有没有让您感觉到很兴奋的?
洪小文:业界、学术界的许多人在谈人工智能、机器学习或大数据,我认为在很大程度上这三样是一件事。因为人工智能有很多不同的领域,但是今天的人工智能百分之八九十是收集数据之后去进行机器学习。
可以说我们人类文明的进展都是大数据。先从科学的角度来看待这个问题。当代的科学之父伽利略通过观察发现运动跟物质的大小无关,发现地球不是宇宙的中心,可能是太阳。这样的结论在当时受到了很多人的挑战。
这就叫大数据,有了移动互联网之后,大数据飞速发展。有了互联网,内容就变成数字化,利用移动互联网,可以很快地让用户帮我们做实验。比如新一代互联网创新就是把一个想法先让用户体验来看用户的反馈,根据反馈确定修改的方向,再来改进。科学家、互联网公司、任何人都可以通过这种方法达到最优的状态。人工智能、机器学习都是这种运作的方式。我们做实验或做产品,会有一个假设,我们会收集资料、数据来验证假设。收集资料之后发现假设需要修改,或发现需要再做一个实验,或要修改实验部分的内容再循环一次。这是一种闭环反馈或者试错。现在很多电视剧,也是每天写剧本,根据观众的反应再进行修改。许多过程都是这样的循环,通过每一个循环可以慢慢进步。农业、工业也是这样。
这就造就了数据为王的时代,反馈回路越快到达,就相当于可以在相同时间里做更多的实验,也就可以取得胜利。以前很多人要一年、十年或一个世纪才能得到反馈,现在可以得到反馈很快地去改善,可以预见未来会更快。现在有一个新的称呼是数据科学家(Data Scientist),每天通过看大量数据,看用户反愧脉动等等,包括市场调查等,利用数据去解决问题。
在这个过程中,如何能够不遗漏数据,让数据为我所用,微软投入了许多心血。不仅是对人工智能、机器学习、大数据,包括里面传统的数据库、系统、网络上都使用了大数据技术。其中,速度很重要。大数据的搜集是一方面,数据处理的速度如果没有,那数据就没有意义。
更深入一点是跟技术有关的。比如一个人博学多闻,意思是这个人知道很多数据、很聪明。但是另外一方面,有时他因为信息不够而难以决定,这并不代表这个人很笨。更何况许多事情牵涉到商业机密、国家机密或个人隐私,正常人是没有办法知道的。回到人工助手的问题,我的人工助手知道我喜欢坐哪班飞机、坐哪个位置,如果突然换一个人工助手可能就不知道我的偏好了,因为它还没收集到我的数据。因此我认为凭借数据量的大小来判断一个机器是否智能是值得商榷的。
讲到人工智能,一般人工智能是做算法,但是信息多了之后的确是会比较聪明。我认为未来一个大的方向,是如何通过机器和人的结合使得人类变成「超人」。因为人善于思考,但是人会忘事,计算有时也可能算错,可能看不清所有的东西,但是机器可以,机器看东西可以通过扫描,但是要用人的算法去提取知识。假设,我是做证券交易的,我希望看到今天所有公司与股票有关的数据。机器可以扫描比人眼看到更多的数据,但是扫描之后还是识别不出涨跌,就需要用到人类的算法。人类如果能够和机器结合,就可以做出最好的证券交易或推荐。这就是未来的兵家必争之地。