苹果发布首份人工智能报告(全文):瞄准AI视觉

图11: NYU手势数据库的精细测试图像示例。左图为真实图像实像,右图上为合成图像,右图下为来自苹果生成对抗网络的相应精细化输出图像。 实际图像中的主要噪声源是非平滑的边缘噪声。 学习网络能够学习模拟真实图像中存在的噪声,重要的是不需要任何标记和注释。

定量分析:

我们采用一种类似于Stacked Hourglass人体姿态算法的CNN仿真算法应用于真实图像、合成图像以及精细化合成图像处理,与NYU手势数据库中的测试样本进行对比。通过对其中14个手关节变换进行算法训练。为了避免偏差,我们用单层神经网络来分析算法对合成图像的改进效果。图12和表4显示了关于算法对手势数据库进行处理的定量结果。其中由SimGAN输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%,其中仿真 模拟输出的注释成本为零。同时要注意的是,3X代表图像训练选取了所有角度。

图12:手势估计的定量结果,关于NYU手势测试集的真实深度图像。 图表显示图像与背景之间函数的累积曲线。可见,SimGAN输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%。 重要的是,我们的学习网络不需要对真实图像进行标记。

表4:通过训练生成各种手势图像的相似度。Synthetic Data为一般网络训练产生的合成图像,Real Data为真实图像,Refined Synthetic Data为生成对抗网络SimGAN输出的精细化合成图像。3X表示对真实图像进行多角度模拟。

实现细节:关于手势图像判别的架构与眼睛图像相同,但输入图像分辨率为224*224,滤波器大小为7*7,残差网络值为10。判别网络D如下:(1)Conv7x7,

stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。

首先,我们会对R网络进行自我规则化训练500次,随后引入D网络训练200次;随后,每更新一次D网络,就相应将R网络进行两次更新。在手势估计中,我们采用Stacked Hourglass Net人体姿态算法输出大小为64*64的热点图。我们在网络学习中引入[-20,20]的随机数据集来对不同角度的图像进行训练。直至验证误差有效收敛时,网络训练结束。

3.3对抗训练的修正分析

首先我们比较了本地化对抗训练以及全局对抗训练的图像偏差。在全局对抗中,判别网络使用了完全连接层,从而使整个图像相对于更加精细。而本地化对抗训练则使得生成的图像更为真实,如图8所示。

图8:左为全局对抗训练结果,右为本地化对抗训练结果。显示了全局对抗训练与本地化对抗训练的结果偏差。左图生成的图像更精细但不真实,右图生成的图像相对真实度更高。

接下来,在图9中,显示了使用反复训练的历史精细化图像对判别网络进行更新,并将其与标准对抗生成的合成图像进行比较的结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影,譬如在标准对抗训练中,眼睛角落里没有阴影。

图9:使用历史精细图像对判别网络进行更新的结果。左图: 标准合成图像;中图:使用历史数据对判别网络进行更新后的图像结果;右图:使用近期历史数据对判别网络进行更新的图像结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影。

4结论以及下一步工作

在文中,我们提出了一种“模拟+无监督”的机器学习方法,能够有效提高模拟图像的真实感。我们描述了一种新的生成对抗网络SimGAN,并将其应用于未经标注的真实图像,获得了最好的结果。下一步,我们将继续探索为合成图像建立更为逼真的精细图像,同时研究如何对视频进行处理。