说起人工智能(AI),尽管很容易又让人它的威胁,但是该技术确实能够在很多方面让我们的生活变得更美好。AI算法是为了帮助我们与朋友联系、查找信息,甚至带我们感知物理世界。
国外媒体报道,Facebook即将发布一款新型屏幕阅读工具,能对图片上的内容进行自动描述,从而让盲人或视觉障碍患者“看到”图片。 据悉,用户在iOS设备上使用这款屏幕阅读器时,该工具可对照片进行自动文本处理,从而让用户听到照片上的内容描述,如“有三个人,面带微笑,站在户外”等。
为了提高AI的文本识别准确度,开发者对算法模型基于100种不同类型的对象进行了集中训练,所以目前该算法仅能够识别人类、披萨、棒球等等。随着研究地不断推进,算法的识别将能够越来越广泛和复杂。
视觉障碍人士上网时往往依赖于屏幕阅读器,然而,屏幕阅读器只有一样好,那就是它们只能读好给定的文本内容。如果文本缺失,它们什么也读不出来。虽然网页标准规定,图片需要有一个叫“alt text”的字段,以防网页上的图片因为某种原因不能被显示时能够出现相应的替代文字。不过,Facebook上的大多数图片里唯一可度的文本就是随状态一起发出的文字。
通过应用人工智能算法,Facebook能够扫描每个图像,并整理出相应的信息描述。如果某人的帖子是一张披萨图,算法能够自动将“披萨”这个词添加到图片的替代文字中,那么屏幕阅读器就能够将图片也读出来告诉用户了。
具体来说,Facebook想要利用这个机会来使得其技术研究更加大众化。该公司的“无障碍倡议”项目(Accessibility team)和人工智能团队直接将从用户那里获得反馈利用到进一步的研究当中。3月份,Facebook与康奈尔大学共同发表了一项探索盲人如何使用Facebook的研究,希望做一个能够满足这些群体需要的产品。
“研究的过程应该是以用户的需要来驱动研究,而不是用我们的研究来产生需要。反馈让我们进行更多有用的研究。”
挑战识别并描述图片是人工智能领域里一个杰出的研究项目。新的技术和硬件支持深度学习——利用人工神经网络层级或者模拟大脑神经元的微型数学方程式 集群,来整理数据和寻找计算模式。这些技术可以应用于图像、音频、文本等几乎任何类型的数据。
单个对象的话很简单。但当存在对象相互作用,或上下文联系的情况时,计算就变得困难了,因为机器需要真正了解物理世界,并且知道客观对象之间的关系。对于一台纯粹的机器来说,它们不会有重心、家庭关系和爱。它们有的只是数据。
所以说,如果要识别出图片“父亲与女儿在散步”等信息,机器首先要学习现实世界。
而这正是Facebook Accessibility团队需要实现的。现在,他们将这些被识别的对象称为标签。一只猫是一个标签,一张床是一个标签,一个人是一个标签……有了这些信息,算法就可以说出“照片中四个人在吃冰淇淋或者披萨”等描述了。
然而,在许多方面来说,这只是一个起点。该团队不仅梦想实现更多基于上下文的对象识别,同时也希望这些识别行为更加富有互动性。Facebook的计算机视觉研究负责人Manohar Paluri曾表示,它们或许还将开发出新的功能,可以让算法描述图片的特定局部。
但在Facebook的研究中,精确度是首要的任务。Facebook、Instagram、Messenger和Whatsapp上,每天有超过20亿张图片被分享,所以,即使百分之一的误差都可能意味着数以百万计的错误。因此,工程师每次对大约100算个法可以检测的概念进行手动调整。举例来说,关于性别等信息,算法需要更多的准确性支持。据悉,大多数机器可以理解的概念是关于人们和客观事物。它知道眼镜、棒球,甚至自拍照。当然,还有一些研究员未加入数据库的图片,这通常都是一些动物,比如照片角落里有一个猫爪子。
一个猫爪出现在照片的一角,算不算一张“猫片”呢?这个问题没有标准答案
目前的人工智能,尤其在图片识别领域,很可能触碰到政治雷区,比如前阵子谷歌识图把黑人的照片辨认成了大猩猩。为了避免这种状况,Paluri 说:“我们要有足够的自信,并不断收到积极的反馈”。
“一个猫爪出现在照片的一角,算不算一张‘猫片’呢?这个问题没有标准答案”,他说,“也许这只是一张‘猫爪照片’,这就是有趣的地方”。
人工智能的研究方向还有很多,甚至可以研究笑点。但总而言之,人工智能的研究基本等同于算法的研究,人工智能的任何提升都是算法在背后起作用。人工智能的研究者们承诺将使人类的生活更简单,更美好。我们把一部分的思考外包给机器,让机器的智慧增强人类,世界将运行的更好。
现在,这项功能已经可以在 iOS 的 Facebook app 里面启用了,其他平台及英语之外的其他语言也将陆续提供支持。