机器学习年度 20 大开源项目花落谁家?(Python 版)

提交: 984    贡献: 31    Github URL: PyBrain

第十六名:Fuel

Fuel主要用于算法与输入数据之间的衔接。它将被Blocks and Pylearn2这两个Python库使用。

提交: 1053    贡献: 29    Github URL: Fuel

第十七名: PyMVPA 

PyMVPA 适用于大规模的数据集,具有扩展性能好优点,提供多种算法(分类、回归、特征选择、数据导入、数据导出等)接口。

提交: 9258    贡献: 26    Github URL: PyMVPA

第十八名:Annoy

Annoy是一个Python可调用的C++库,主要用来对给定数据进行搜索。它可以生成大量的基于文档的可读数据结构,这种数据结构与内存相对应,从而使数据被共享。

提交: 365    贡献: 24    Github URL: Annoy

第十九名:Deap

Deap是一款新的计算框架,它使得算法实现与数据结构变得简单明了。它采用的是并行处理机制。

提交: 1854    贡献: 21    Github URL: Deap

第二十名:Pattern

Pattern是一款web信息挖掘工具,它集成了各种工具。这些工具可以用来进行数据挖掘、自然语言处理、机器学习、网络分析。

提交: 943    贡献: 20    Github URL: Pattern

如下图所示,PyMVPA的社区贡献率最高,而排名第一的Scikit-learn社区贡献率却很低,究其原因是PyMVPA是还是一个比较新的开源项目,还有一些地方需要完善、修复。而Scikit-learn则是一个相对来说比较成熟的项目,需要修改、完善的地方比较少。

机器学习年度 20 大开源项目花落谁家?(Python 版)

当我们对2015与2016的结果进行对比(下图),我们发现Pattern, PyBrain and Pylearn2这三个项目的贡献人数与提交数均没有变化。贡献的人增加了,提交的次数也才跟着增加,这就是开源社区的神奇所在。这些新增的贡献者与其提交内容导致了新的思想、新的软件的产生。

机器学习年度 20 大开源项目花落谁家?(Python 版)

基于2016年20大机器学习开源项目的贡献人数与提交数,以上是雷锋网整理的简单分析。不知道到明年的评选上,又有怎样的开源平台会登上这个榜单呢?