提交: 984 贡献: 31 Github URL: PyBrain
第十六名:Fuel
Fuel主要用于算法与输入数据之间的衔接。它将被Blocks and Pylearn2这两个Python库使用。
提交: 1053 贡献: 29 Github URL: Fuel
第十七名: PyMVPA
PyMVPA 适用于大规模的数据集,具有扩展性能好优点,提供多种算法(分类、回归、特征选择、数据导入、数据导出等)接口。
提交: 9258 贡献: 26 Github URL: PyMVPA
第十八名:Annoy
Annoy是一个Python可调用的C++库,主要用来对给定数据进行搜索。它可以生成大量的基于文档的可读数据结构,这种数据结构与内存相对应,从而使数据被共享。
提交: 365 贡献: 24 Github URL: Annoy
第十九名:Deap
Deap是一款新的计算框架,它使得算法实现与数据结构变得简单明了。它采用的是并行处理机制。
提交: 1854 贡献: 21 Github URL: Deap
第二十名:Pattern
Pattern是一款web信息挖掘工具,它集成了各种工具。这些工具可以用来进行数据挖掘、自然语言处理、机器学习、网络分析。
提交: 943 贡献: 20 Github URL: Pattern
如下图所示,PyMVPA的社区贡献率最高,而排名第一的Scikit-learn社区贡献率却很低,究其原因是PyMVPA是还是一个比较新的开源项目,还有一些地方需要完善、修复。而Scikit-learn则是一个相对来说比较成熟的项目,需要修改、完善的地方比较少。
当我们对2015与2016的结果进行对比(下图),我们发现Pattern, PyBrain and Pylearn2这三个项目的贡献人数与提交数均没有变化。贡献的人增加了,提交的次数也才跟着增加,这就是开源社区的神奇所在。这些新增的贡献者与其提交内容导致了新的思想、新的软件的产生。
基于2016年20大机器学习开源项目的贡献人数与提交数,以上是雷锋网整理的简单分析。不知道到明年的评选上,又有怎样的开源平台会登上这个榜单呢?