深度学习vs大数据:神经网络权值的版权属于谁?

解决方案:当你把一个Vision.ai模型保存到磁盘上的时候,你能获取到编译模型和完整模型。编译模型是不包含图像的完整模型(因此小的多)。这就允许你在自己的电脑上保留完整的可编辑模型,而只需要分享编译模型即可(特别是只发布训练过的权值),这就避免了别人来偷窥你的生活空间。Vision.ai的计算机视觉服务器称为VMX,它既能够运行完整模型,也能够运行编译模型;然而,只有非编译模型能够编辑和扩展。另外,Vision.ai提供的是视觉服务器的独立安装模式,因此训练图像和计算结果可以保留在本地计算机上。简而言之,Vision.ai的解决方案允许你选择在本机运行还是在云上运行,并且允许你选择是发布完整模型(具有背景图像)还是编译模型(仅有需要检测的对象)。当需要分享训练模型和/或产生数据集的时候,你就能够自由的选择自己的许可协议。

4.授权基于内存的机器学习模型的开放问题

深度学习方法并不是物体识别的唯一可用技术。如果我们的模型是使用原始RGB像素的最近邻分类器(Nearest Neighbor Classifier )会怎样?最近邻分类器是基于内存的分类,它记忆所有的训练数据——模型就是训练数据。如果对同一数据集使用不同的许可,将会产生矛盾,因为某天它可能作为训练数据,而其他的时候又可能是做为学习算法的输出数据了。我不知道是否有一种方法可以调和那种来自ImageNet的非商业使用限制许可和来自Caffe深度学习模型的完全不受限制许可。是否有可能有一个黑客友好的数据模型/许可协议来统一所有的情况?

结论

如果将来神经网络升级成为你的操作系统的一部分,不要感到惊讶。当我们从数据经济(共享图片)向知识经济(共享神经网络)过渡的时候,法律/所有权问题就成为了一个需要考虑的问题了。我希望今天描述的三种场景(可视化大数据、共享深度学习模型、家中训练)可以在你想要分享知识的时候,帮助你思考这里面的法律问题。当AI开始生成自己的艺术(可能通过重新合成老照片),法律问题会出现。当你的竞争对手出售你的模型和/或数据的时候,法律问题再次出现。如果MIT协议、GPL协议和Apache协议针对预训练深度学习模型开始展开争论的时候,也不要感到吃惊。谁知道呢,或许AI法将是接下来的大事件呢。

参考文献:

[1] Deep Speech: Accurate Speech Recognition with GPU-Accelerated Deep Learning

[2]Text Understanding from Scratch

[3]ImageNet Classification with Deep Convolutional Neural Networks

[4]A Large-Scale Hierarchical Image Database

原文链接:Deep Learning vs Big Data: Who owns what?(翻译/Fashionxu 责编/周建丁)