优秀大数据GitHub项目一览

mLoss网站上列出的软件中较为流行的有:

dlib ml:机器学习算法的C++库

R-Cran-Caret:分类和回归训练库

Shogun:为SVM所设计的机器学习工具箱,适用于Python、Matlab、Octave和R

Armadillo:一个线性代数C++库

MLPY:以NumPy和SciPY为基础构建的Python机器学习库

MyMediaLite:一个推荐器算法库

mLoss网站: http://mloss.org/

6.Julia

Julia是为技术计算所设计的一门动态高级语言。虽然它的语法和其他技术计算环境的语法差不多,但Julia现在的使用范围还比较窄。Julia支持分布式并行计算还有着完备的高精度数学函数库。

JuliaStats是一个机器学习和统计工具的合集,目的是帮助Julia用户创建可扩展且高效的应用。下面列出了JuliaStats中包括的一些程序:

StatsBase:从名字我们就能看出StatsBase提供的是统计学相关的基本功能,比如描述统计、统计动差、样本函数、计数、排序、互相关、自相关以及加权统计等。

DataArrays: 一个允许数据为空的数组类型,对重复数据的计算进行了优化。

DataFrames: 表数据类型,提供包括索引、合并以及公式等操作。

Distribution:用于计算分布的库,功能包括一元分布、多元分布、概率密度函数、累积分布函数以及最大似然估计。

Multivariate Stats:为多元统计分析所设计,功能包括降维、线性回归、线性判别分析以及多维标度。

MLBase:包括数据预处理、模型选择以及交叉验证等机器学习算法。

Clustering:包括聚类分析所用到的算法如k-means、k-medoids以及多种评估方法。

这里我们只列出了一部分数据分析和机器学习相关的库,其他库包括假设检验、核密度估计、非负矩阵分解NMF、广义线性模型GLM、马尔科夫链蒙特卡洛方法MCMC以及时序分析等。所有库的源码都可以在GitHub上找到。

Julia GitHub地址: https://github.com/JuliaStats

7.Scikit-Learn

Scikit-Learn是为机器学习所设计的开源Python库。它基于SciPy、NumPy和Matplotlib开发,称得上是一款数据分析和数据挖掘的利器。Scikit-Learn的授权协议允许个人和商业用户使用。

Scikit-Learn主要用于:

聚类:识别数据中的不同类别。算法包括最邻近搜索、支持向量机和随机森林,可以用于图像识别和垃圾邮件识别等应用。

回归:用于连续变量的预测。算法包括岭回归、支持向量回归、套索回归等。应用包括股票价格、天气以及电力负载的预测。

降维:用于减少随机变量的个数。算法包括主成分分析、特征选择、乔里斯基分解和矩阵分解。

数据处理:特征提取与数据预处理功能可以将原始数据转换成有利于机器学习应用处理的格式。

Scikit-Learn GitHub地址: https://github.com/scikit-learn/scikit-learn

本文中我们列出的这些GitHub项目应用颇为流行,而且这些工具和软件已经被用于解决实际中的大数据问题,希望本文能够对大家的大数据分析之路有所启发。