谷歌开源大规模语言建模库,10亿+数据,探索RNN极限

  • TensorFlow GraphDef proto buffer 文本文件
  • TensorFlow 预训练 checkpoint shards
  • 评估预训练模型的代码
  • 词汇表
  • LM-1B 评估测试

代码支持 4 种评估模式:

  • 提供数据库,计算模型的 perplexity
  • 提供前缀,预测后面一个单词
  • softmax 嵌入项,字符级别的 CNN 单词嵌入项
  • 输入句子,将转存 LSTM 状态的嵌入项

结果

谷歌开源大规模语言建模库,10亿+数据,探索RNN极限
 

更多信息请访问:https://github.com/tensorflow/models/tree/master/lm_1b