在图上可以看到,Chris Dyer 有一条非常明显的上升曲线。其他过去五年来一直保持增长的作者:Preslav Nakov、Alessandro Moschitti、Yoshua Bengio 和 Anders Søgaard。
最后,我也决定做一张关于主题建模(topic modeling)的论文的图。首先,我提取了所有论文的纯文本,将其表征化和小写化,并移除了 stopword。接着,我使用 LDA 对其进行了处理以发现 10 个隐主题(latent topic)。然后我使用 t-SNE 可视化了最靠前的作者,并基于它们的隐主题相似度将其做成了一张二维图。最后,我手动为每一个聚类标注了一个词(根据 LDA 找到的排名最高的术语)。下面是前 50 位作者的可视化图: