看着上面的图片人类可以很容易的描述出“这是一个正在骑摩托车的人”、“三条狗在草地上奔跑”,但如果想让电脑“看”完图片之后能自动给出一段这样的概述就不是一件容易事了,而现在Google却已经做到了。
按照Google的说法,通过自行开发的机器学习系统,它们现在已经可以用自动化的方式来为图片添加自然语言描述。这项技术不但有望让那些对颜色不敏感的人群可以快速理解图片中的内容,也可以在网络状况不好的情况下用文本来暂时替代图片显示;当然,更重要的是它还可以让Google的图片搜索功能更强大。
在以前,业界在用计算机对图片进行自然语言描述时基本使用的都是计算机视觉和自然语言处理技术;但现在得益于机器翻译技术的进步,通过递归神经网络(RNN)转换,机器可以先把法语转换成一个矢量,接着另外一个RNN用户就可以通过这个矢量把法语转换成德语;这样Google只要能用另外一种具备图片识别能力的神经网络(卷积神经网络,CNN)替换掉第一个RNN就可以得到一句能描述图片的自然语言了。
所以整个自然语言的生成过程就是由读取视觉的神经网络CNN到产生语言的神经网络RNN,进而最终得到一句自然语言。Google方面的测试显示,这项技术的整体效果表现还不错。当然,我们从第一张图中也可以看到这其中是会出现一些小错误甚至完全不准确的情况,不过随着数据集的增加和成熟,整体的精确度会越来越高。
其实,早在今年6月份时,Google就发过一篇博客阐述它们是如何让用户可以根据图片中的内容来搜索;在9月份时,Google又更新了它们在图像中物体识别、分类和标记方面的进展。如今到了11月,Google在这方面的技术又有了新的突破。不难看出,最终机器将会更了解图片,而人们也会更容易找到自己想要的图片。