Spark有一个机器学习库叫MLLib,充分利用了Spark快速内存计算,迭代效率高的优势开发机器学习应用程序。它可用于Java,Scala,Python或R,包括分类和回归,以及通过超参数调整构建机器学习管道的能力。
总结
所以,到底是选Hadoop还是Spark呢?两者都是Apache的顶级项目,经常一起使用,并且有相似之处,但Spark并不是离不开Hadoop,目前已有超过20%的Spark独立于Hadoop运行,并且这一比例还在增加。从性能、成本、高可用性、易用性、安全性和机器学习诸多方面参考,Spark都略胜一筹!
或许,Hadoop确实老了,大数据世界应该出现更年轻的统治者。