科学家成功建立计算机网络,模拟人类大脑识别物体

在过去的几十年,神经科学家一直在努力设计能够模拟人类大脑精确和迅速完成的视觉技巧,例如识别物体的计算机网络。在此之前没有任何一个计算机模型可以匹配类人猿大脑在短暂一瞥后对视觉物体的识别能力。而现在,美国麻省理工学院神经科学家进行的最新研究发现了最新一代所谓的“深层神经网络”之一能够与灵长类动物大脑相匹配。

由于这些网络是基于神经科学家目前对大脑如何进行物体识别的理解,因此最新网络的成功表明神经科学家已经对物体识别的基本原理有了较为精确的把握,研究高级作者、麻省理工学院大脑与认知科学学院院长、神经科学教授詹姆斯·狄卡罗(James DiCarlo)这样说道。这项研究被发表在12月11日的期刊《公共科学图书馆·计算机生物学》上。

“这些模型能够预测神经反应和神经群体空间里的物体距离,这表明这些模型囊括了我们目前对大脑这一神秘部分的最好理解,”MIT麦克戈文大脑研究所的成员狄卡罗这样表示。

对灵长类动物大脑工作原理的更好理解将促进人工智能的开发,以及有朝一日修复视觉功能紊乱的新方法,研究首席作者、麦克戈文大脑研究所的博士后查尔斯·卡迪厄(Charles Cadieu)补充说道。文章其它合作作者包括研究生洪哈(Ha Hong)和蒂亚戈·阿迪拉(Diego Ardila)、研究科学家丹尼尔·亚敏斯(Daniel Yamins)、前MIT研究生尼古拉斯·品托(Nicolas Pinto)、前MIT本科生伊桑·所罗门(Ethan Solomon),以及研究员纳吉布·马贾杰(Najib Majaj)。

受到大脑的启发

早在20世纪70年代科学家们就开始建立神经网络,希望能够模拟大脑处理视觉信息、识别言语以及理解语言的能力。对于基于视觉的神经网络,科学家们受到了大脑视觉信息层次表示的启发。随着视觉输入从视网膜依次进入初级视皮层和颞下(IT)皮层,视觉输入在每一个层面上都被处理,变得越来越明确,直到物体最终被确定。

为了模拟这个过程,神经网络设计者在计算机模型里创造了多个计算层。每一层执行一个数学操作,例如线性点产品。在每一个层面上,视觉物体的表示变得越来越复杂,而无关紧要的信息,例如物体的位置或者移动则被抛弃。

“每一个单独元素一般都是一个简单的数学表达,”卡迪厄说道。“当你将上百千万个这样的数学表达相结合时,就能实现将原始信号通过复杂的转化变成非常适合物体识别的表现。”在这项研究里,科研人员首次测量了大脑的物体识别能力。洪和马贾杰带领进行的研究在颞下皮层和V4区——连接颞下皮层的视觉系统的一部分——植入电极阵列。这使得他们能够观察到动物看到每一个物体时所产生的神经表现,也就是做出反应的神经元数量。

随后研究人员将这些神经表现与深层神经网络产生的神经表现进行对比,后者包含系统里每一个计算元素所产生的数字矩阵。每一张图片会产生不同的数字阵列。这一模型的精确性是由它是否能够将相似物体组织形成神经表现里的相似群集所决定的。

“通过每一个这样的计算变换,通过这个网络的每一层,特定的物体或者图片会逐渐靠近,而其它物体会距离越来越远。”卡迪厄说道。最合适的网络是由美国纽约大学的研究人员研发的,这一网络将物体和短尾猿大脑进行分类。

更强大的处理能力

近期发现的这一成功的神经网络取决于两个重要因素。其中一个是计算机处理能力的重大飞跃。研究人员一直利用图形处理单元(GPUs),一种高性能处理视频游戏所需的巨大视觉内容的小芯片。第二个因素是研究人员现在能够使用并向大型数据集输入算法从而“训练”它们。这些数据集包含上百万张图片,每一张图片都是由人们从不同鉴别层面进行注解。例如一张狗的图片可以被注解为动物、犬类动物、家养狗或者狗的品种。

最初,神经网络并不擅长鉴别这些图片,但随着它们看到越来越多图片,并在发现自己出错后,会逐渐改进它们的计算,直到最后能够更加精确的鉴别物体。卡迪厄表示研究人员并不知道什么导致这些神经网络能够区分不同物体。