谷歌今天宣布开源大规模语言建模模型库,这项名为“探索RNN极限”的研究今年2月发表时就引发激论,如今姗姗来迟的开源更加引人瞩目。研究测试取得了极好的成绩,另外开源的数据库含有大约10亿英语单词,词汇有80万,大部分是新闻数据。这是典型的产业研究,只有在谷歌这样的大公司才做得出来。这次开源也应该会像作者希望的那样,在机器翻译、语音识别等领域起到推进作用。
开源说明
根据谷歌大脑团队在 Github 发布的消息,他们这次发布开源了一个在英语语料库> 在此基础上,作者在论文描述了一个模型,混合了字符CNN(character CNN)、大规模深度 LSTM,以及一个专门的 Softmanx 架构,最终得到的结果可以说是迄今最好的。
代码发布
开源部分包括: