本篇主题: 层次模型 (Hierarchical Model)
视觉皮层是第一个被现代神经解剖学就定义的功能皮层区域,其解剖特征和功能特征都是高度的结构化的。同时,视觉皮层占有的皮层表面积/体积又很大,这客观上方便了视觉皮层的解剖结构和认知功能的研究。因此,不难理解地,视觉皮层和视觉功能是我们在神经科学方面研究最为深入、理解最为透彻的。
人脑的视觉信号传导通路,在进入大脑皮层之前是高度的结构化的、分工明确的。而且一般认为,视觉信息在进入大脑皮层前,人脑几乎被把它做任何实质意义上的处理,也不从中提取有用的信息 [1]。
视觉信息一旦进入大脑皮层(从Primary Visual Cortex初级视觉皮层进入),就体现出其结构化的特征。视觉信息的空间位置跟初级视觉皮层的位置对应起来,总体上表现为空间相邻的位置对应的初级视觉皮层位置也相邻,这种拓扑结构的对应被称为视网膜拓扑映射(Retinotopy)[2]. 信息经由初级视觉皮层处理之后,其发出方向就变得复杂起来,总体上分出两个主要的层次结构流:腹侧通路(Ventral Pathway)和背侧通路(Dorsal Pathway),前者的损伤导致人的物体识别功能受损,因此被也被称为"What"通路,后者的损失导致人的空间判别和视觉注意能力受损,因此也被称为"Where"通路 [3]。
特别地,根据猕猴(Macaque Monkey)视皮层的解剖结果,人们重建了其各个视皮层之间的分级结构[4]:
在比较低级的视觉皮层区域,还发现其中的神经元对特定的模式刺激放电频率增加,这种模式可能是物体的视角 [5],也可能是熟悉物体的形状 [6]。这些发现为理解大脑物体识别的层次模式提供了越来越全面的信息,从而,我们逐渐理解了人脑物体识别的分级结构模型:
从初级到更高级的视觉皮层,视觉信息逐级传递。人脑理解的内容越来越复杂化、抽象化,由“模式”变成具体的"物",再到物的特性和物与物之间的关系。进入到初级视觉皮层的信号是非常的繁杂和全面的,显然地,人脑并不需要所有的这些信号,而是只需要提取其中的有用信号就可以了 , 否则会给大脑的视觉理解带来太大的压力,基于层次结构特征,人脑发展出了视觉编码压缩方式,把通过视觉通路传递过来的信号,跟自己的经验比对,比照经验中的常见图像模式,经过比对之后,找到最为匹配的模式(线、角、圆……;斑马线,转角……),并以该模式取代实际的事物。这就好比给视觉信号做了一次编码,以人脑的内禀信号取代实际信号对视觉图像做了极大的压缩,并为后续的快速处理做好了基础。另外,在整个层次模型的处理过程中,信息流在层级间几乎完全表现为“前馈”式 [7]。这为计算机模拟方法的可行性和快速性提供了基础。
上面提到的无疑是人脑的通用物体识别架构,基于这些知识设计了模拟大脑皮层结构的层次物体识别模型 ( Hierarchical Models of Object Recognition in/and Cortex, HMAX)[8]:
<fig, model="" hmax="">
可见这实际上是一种早期形式的深度神经网络,它的每一层也是需要根据具体的任务情况进行训练。
在人脸识别任务中,由于结构较浅,而底层的模型又过于简单[9](网络设计为从简特征到复杂特征),这使得模型在较高层中识别的feature仍然是接近于“线”、“角”这样的易于描述的基础性特征 [10, 11]: