随着对机器学习的兴趣的加深,它的定义已经扩展到包括自动化知识和模式一整套技术以及从最新数据获得的发现模式。
数据科学家是利用最合适的工具和方法来完成他们的工作的专业人士。最好的数据科学家利用成套涉及统计分析的“知识-图案-发现”的方法去揭示其本身。
我们应该如何参考数据科学技术?通常情况下,它们在长期集中在“高级分析”。这句话是故意含糊的,因为它的目标是作为一个包罗万象的一切,从统计分析和数据挖掘预测模型、自然语言处理、支持向量机等。
在大众心目中,这一领域的大部分被称为“数据挖掘”,并往往带有贬义的意味,因为其专注于侵犯隐私和监控应用。在我看来,这是一个有点像把每一个种鸟类称之为“秃鹫”。其原因是,数据挖掘只应用到结构化数据,并且通常涉及特定技术,如回归分析和决策树,被分析的内容是非结构化的时候,通常是不使用它的。
逐渐的,“机器学习”一词也开始获得一个包罗万象的地位。或者,最起码,机器学习已经成为今天的数据科学家用来指用来从大部分非结构化的最新数据获取自动化知识和发现模式的一系列领先的技术的代名词。人们对机器学习工作定义似乎蔓延到更广泛、模糊的领土。
最近读的一篇文章“学习和教授机器学习:一个个人的旅程”,给我留下了一些印象。在这里面,在圣迭戈州立大学的作者约瑟夫?R?巴尔和真方位分析讨论机器学习的历史和自己的教育话题。他说,“把机器学习、数据挖掘、预测分析和高级分析作为同义词是可以的。”
我不确定该结块机器学习与所有这些技术是不是有意义的。如上所述,机器学习主要适用于非结构化数据,而数据挖掘是特定于结构化数据集。此外,机器学习,像数据挖掘,主要涉及寻找不同模式的历史数据,而预测分析特别侧重于寻找那些能够通过在未来的新数据聚合中进行测试的预测模式。而机器学习、数据挖掘和预测分析都是狭义的范围,高级分析是一个更广泛的范围,包括它们所有。
在我看来,机器学习的一只脚站在数据科学红,另一只脚站在计算机科学中。这就是我理解的为什么巴尔这么说:“机器学习成长于几个不必然相交的数学科目之间,其中值得注意的是数理统计、计算和算法、信息理论和数学优化….在古代,机器学习和下面大部分主题捆绑在一起,包括概率、组合、凸性和优化、统计、信息和计算。我会给这个名单添加三个额外的维度:启发,经验和应用。
路漫漫其修远兮!由于这种讨论表明,机器学习有着强大的学习曲线,因为在大学中几年的教室和实验室工作,可能被证明是必不可少的。而这其实是巴尔的文章的症结所在:他自己的机器学习学校教育作为一个专业的数据科学家,再加上他现在面临的挑战,将给未来的数据科学家确定合适的机器学习课程。
在定义上的范围蔓延困扰着机器学习反映了这些挑战。这把伞下的不同学科将继续以创新的方式相互支持,这将舒展每一个数据科学家的思维,以及他们用来定义机器学习的术语。
英语原文:
What’s machine learning? It depends on who you ask
As interest in machine learning has grown, its definition has expanded to include a panoply of techniques for automating knowledge and pattern discovery from fresh data
Data scientists are professionals who use the most appropriate tools and methodologies to get their jobs done. The best data scientists avail themselves of the complete set of knowledge- and pattern-discovery approaches that involve statistical analysis.
How should we refer to the sum total of data science techniques? Often, they are lumped under the term “advanced analytics.” This phrase is deliberately vague in that it is intended as a catch-all for everything from statistical analysis and data mining to predictive modeling, natural language processing, support vector machines, and so on.
n the popular mind, most of this scope is known as “data mining,” often with a pejorative spin that focuses on privacy violation and surveillance applications. To my mind, that’s a bit like calling every species of bird a “vulture.” The reason is that data mining is applied to structured data only and typically involves specific techniques, such as regression analysis and decision trees, that are not typically used when the content being analyzed is unstructured.