深度学习vs大数据:神经网络权值的版权属于谁?

解决方案:ImageNet决定公开提供数据集中图像的源链接,这样人们就可以不必从一个大学托管的服务器上来下载这些图像了。ImageNet仅提供图像的缩略图和一个版权侵犯删除声明。只有当使用者签署协议,保证不将数据商业化使用之后,数据集组织者才提供完整的数据集。ImageNet具有下述的声明条款(获取日期:2015年5月5日):

ImageNet不拥有图像的版权。ImageNet会以一种图像搜索引擎的方式,仅提供缩略图和图像的URL。也就是说,ImageNet针对每个同义词集编译了一个精确的网络图片列表。对于希望将图片用于非商业化研究和/或教育目的的研究人员和教育工作者来说,在同意我们的一定条件和条款的情况下,我们可以提供通过我们的网站来进行访问的方式。

2.Caffe:无使用限制的深度学习模式

现在,比较明确的是,我们知道哪里可以下载到可视化大数据以及它们适用的条款,我们再将目光转向另一个方面:深度学习训练过程的输出结果。我们看一下Caffe,一个非常流行的深度学习库,它可以用来处理类似于ImageNet的数据。Caffe提供了一个共享模式的生态系统(动物园模型),并且已经成为计算机视觉研究者必不可少的工具。Caffe是伯克利视觉和学习中心研发的,并贡献给了开源社区——它是开源的。

“使用Caffe自己动手搭建深度学习计算机视觉”中的一页幻灯片

问题:作为一个在大学启动的项目,Caffe旨在成为创建、训练和分享深度学习模型的事实标准。分享的模型最初是用于非商业用途,但问题是一波新的初创企业都使用了这些技术。所以必须有一个许可协议,允许高校、大型企业和初创公司来探索同一套预训练模型。

解决方案:Caffe的当前模型许可是无使用限制的。对于大量的黑客、科学家和工程师们来说这是非常伟大的一件事。需要分享的模型需遵守一项非商业使用条款。下面是全部的Caffe的模型条款(获取日期:2015年5月5日):

Caffe模型是BVLC的附属软件,它没有使用的限制。

这些模型利用了ImageNet项目的数据进行训练,这些训练数据包括了一些从网上获取的照片,而这些照片可能受到版权保护。

作为研究者,我们目前的理解是:对于这些公开发布的训练过的模型权值,其使用不应受到什么限制,因为这里面没有包含任何原始图像的全部或者部分。对于现在兴起的一种说法,‘权值系由原始图像训练所得,其版权应归属原始图像版权所有者’,加州大学伯克利分校没有做过任何声明说什么样的使用是被允许的,而是基于大学使命来对待我们的模型,以尽可能不受限制的方式来传播知识和工具。

3.Vision.ai:在家里生成和训练的数据集

深度学习能够学习输入数据的概要。但是如果另一个不同的模型记住了训练数据的详细细节会怎样呢?更重要的是如果模型记住的内容中有你不想对外分享的内容会怎样呢?为了研究这种情况,我们来看Vision.ai,他们设计的实时计算机视觉服务器用于模拟产生一个数据集并且学习一个对象的外观。Vision.ai软件能够从视频和直播的网络摄像头流中实时训练。

不同于从互联网上的图像中收集可视化大数据(如ImageNet),vision.ai的训练过程基于一个人在网络摄像头面前挥舞一个感兴趣的对象。用户自力更生的学习过程一开始有一个初始边界框,算法会在不用干预的情况下持续学习。在算法学习过程中,它会存储它以前见到的部分历史信息,从而有效地创建自己的数据集。因为Vision.ai使用了卷积神经网络来检测物体(图像中目标仅占据很少的一部分),所以收集到的数据集中还保持了大量的背景数据。当训练过程结束后,你同时得到了Caffe类型的信息(学习过的权值)和ImageNet类型的信息(收集的图像)。那么如果现在进行分享模型,会发生什么呢?

用户使用vision.ai的实时检测器训练接口来训练茶杯检测器

问题:在家里的训练意味着潜在的私人信息和敏感信息以背景的形式被采集到图像中。如果你在自己家里训练模型,然后对公众开放它,那你在分享的时候就需要三思而后行了。同样的,你如果从有版权保护的视频/图像中训练了一个物体检测器,那么当你分享/出售这个模型的时候,也需要考虑其中存在的问题。