谷歌开源大规模语言建模库,10亿+数据,探索RNN极限

出于这一目的,我们把自己的模型和训练内容进行开源。

我们聚焦在一个著名的大型LM 基准:One Billion Word Benchmark 数据集。这一数据集比PTB要大很多,同时挑战也多很多。与计算机视觉领域的Imagenet类似,我们认为,在大型数据集上研究,并且在清晰的基准上进行建模将能提上语言建模。

我们工作的贡献主要有以下几个:

  • 我们探索、扩展并尝试在大规模LM上整合当下的一些研究;
  • 具体地,我们设计了一个Softmax loss,基于特性水平的CNN,在训练上效率很高,在准确度上与完整的Softmax一致,而完整版的要求更多维的参数;
  • 我们的研究提升了当下最著名的大规模LM任务:单一模型的 从51.3降到了30.0,同时,参数的系数减少了20;
  • 我们证明了,几个不同模型的组合能把这一任务的 perplexity 降到23.7,这是一个显著的提升。

在论文的第二部分,我们将会对语言建模中的重要概念和前人研究进行综述。第三部分,我们会提出对神经语言建模这一领域的贡献,重点在大规模递归神经网络的训练。第4和第5部分的目的是尽可能地描述我们的经验和对项目的理解,同时把我们的工作与其他相关的研究方法进行对比。

评价及讨论

Reddit、HN 和 Twitter 上的反响都挺好,不过也有人指出了这项研究的一些缺点。根据 shortscience.org 上的留言;