图 1:时域神经网络(Time Domain Neural Network)
为了追求其在物联网和大数据分析领域的未来,东芝公司正在开发一种时域神经网络(TDNN/Time Domain Neural Network),采用了超低功耗的神经形态半导体电路,可用于执行深度学习的运算。TDNN 由大量使用了东芝自家的模拟技术的微型处理单元构成,这让它和传统的数字处理器不一样。TDNN 在 11 月 8 日的 A-SSCC 2016(2016 年亚洲固态电路会议)上报告了出来——这是由 IEEE 赞助的一个在日本举办的国际性半导体电路技术会议。
深度学习需要大量的计算,所以通常需要在高功率的高性能处理上运行。但是,如果要将深度学习和物联网边缘设备(IoT edge device)(如传感器和智能手机)结合起来,就需要非常高能效的 IC(集成电路)——它可以执行大量所需的运算,同时仅需消耗极少的能量。
在冯诺依曼型的计算机架构中,大部分能量都消耗在了将数据在片上或片外存储设备与处理单元之间的传递之中。减少数据移动的一种最有效的方式是使用大量处理单元,其中每一个都仅处理与其接近的一个数据。这些数据点在将输入信号(比如猫的照片)转换成输出信号(比如识别照片中有猫)的过程中会有一个权重。数据点离目标输出越近,其获得的权重就越高。该权重是自动化引导深度学习过程的一个参数。
生物大脑也有相似的架构。在生物大脑中,神经元之间的耦合强度(权重数据)内建于突触(处理单元)之中。在大脑里面,突触是神经元之间的连接,每一个都有不同的强度。这些强度(权重)决定了通过该连接的信号。突触可以通过这种方式执行某种形式的计算处理。这种架构被称作是完全空间展开架构(fully spatially unrolled architecture);它很有吸引力,但也有一个明显的缺点——将其复制到芯片上需要大量的算术电路(arithmetic circuits),而且会很快变大到难以承受的程度。
东芝的 TDNN 从 2013 年开始开发,使用了时域的模拟和数字混合的信号处理(TDAMS/time-domain analog and digital mixed signal processing)技术,可以实现处理单元的小型化。在 TDAMS 中,比如加法这样的算术运算可以通过使用像模拟信号一样的数字信号通过逻辑门的延迟时间来有效地执行。使用这项技术,用于深度学习的处理单元可以仅有完全空间展开架构的 3 个逻辑门和 1 bit 内存即可。东芝已经制造出了一款用于概念验证的芯片,其使用了 SRAM(静态随机存取存储器)单元作为内存,并且已经证明能够用来识别手写数字。其每条指令的能量消耗是 20.6 fJ,仅有之前一场顶级会议上报道的成绩的 1/6.
东芝计划将 TDNN 开发成一种电阻式随机存取存储器(ReRAM/resistive random access memory),以进一步提升能量和数据的效率。其目标是得到一款能够在边缘设备上实现高性能深度学习技术的 IC。