数据科学是对大数据或物联网(IoT)环境进行的任何分析练习的核心。数据科学涉及广泛的技术,业务和机器学习算法。数据科学的目的不仅是做机器学习或统计分析,而且还可以从没有统计知识的用户理解的数据中得出洞察。
在诸如大数据和物联网等快节奏的环境中,数据类型可能随时间而变化,变得难以每次都维护和重新建立模型。这个差距需要一种自动化的方式来管理这些环境中的数据科学算法。数据科学的兴起旨在将我们从基于规则的系统转移到机器自身学习规则的系统中。机器学习使数据科学固有地部分自动化。需要手动干预的数据科学的一半仍然是自动化的。然而,这些领域涉及到人们的经验和智慧:数据科学家,商业专家,软件开发人员,数据集成商,目前有助于使数据科学项目运作的人。这使得数据科学的各个方面都难以实现自动化。但是,我们可以将数据科学自动化视为两级架构,其中:
不同的数据科学学科/组件是自动化的
所有单独的自动化组件都是互连的,以形成一个连贯的数据科学系统
我们可以将数据科学系统视为自动化,只要它们足够能够在我们抛出数据集时解决我们的问题。此外,应该足够聪明地向我们提供我们可以理解的语言中的所有可能的解决方案。
数据准备,机器学习,领域知识和结果解释是成功执行数据科学项目所需的四个主要任务。所有这些任务都必须转换为自动化模块,以创建一个自动化的数据科学系统(图1)。
数据准备自动化
数据准备是每次创建模型时必须完成的重复任务。数据提取,数据清理和数据转换(例如估算空值和算法特定转换)是属于此类别的一些任务。许多组织将这些任务自动化,并将引擎标记为数据科学自动化工具。但是,大多数这些工具使用基于规则的逻辑来自动执行数据预处理任务。这是正确的做法吗?我们是否需要基于规则的系统来自动化数据科学,这是终止基于规则的系统诞生的?不,我们需要通过机器学习自动进行数据预处理。例如,关于什么预处理功能必须应用于问题的数据的决定是由机器本身做出的。
特征工程是需要自动化的另一个数据准备领域。特征工程是将原始数据转换为属性/预测变量的技术,可提高机器学习项目的准确性。特征工程自动化仍处于初级阶段,也是一个积极的研究领域。麻省理工学院的数据科学家正在开发一种能够从原始数据生成特征的“深度特征综合”算法取得了令人难以置信的进步。
自动机器学习/统计
这是统计程序自动化的数据科学自动化领域。系统根据提供的数据集执行最佳算法。它隐藏了用户的复杂性和算法的数学复杂性,使其向群众提供。用户需要向自动统计学家提供数据。它了解数据,创建不同的数学模型,并根据最能说明数据的模型返回结果。自动统计学家是一个复杂的科学,因为它需要系统学习输入数据模式,找到最佳拟合值,并使用几种统计和机器学习算法自我优化其参数。这需要各种算法约束的推广和巨大的计算能力。
通过利用基于云的服务器来管理高计算能力的需求,自动机器学习逐渐成熟。创建数据产品的组织逐渐包括诸如元学习的功能,基于数据集的元数据自动选择合适的机器学习算法的过程。像H2O.ai这样的组织通过引入几个内置功能来推广模型构建过程,并提供了许多模型调整选项,可以更好地控制算法。此外,他们已经将超参数调优作为几乎所有算法的特征,使数据科学家免于使用不同参数测试模型的繁琐过程。超参数调整是使机器学习模型重新运行多次的自动化尝试和错误的过程,以确定数据集上的模型的适当参数。
洞察产生自动化
数据科学项目的结果直到和除非业务用户或没有统计知识的观众理解它才有用。数据科学活动的奶油是讲故事的部分,数据科学家以全面透明的方式向人们解释结果。自动化此任务需要从统计学家友好的结果自动生成用户友好的文本。自然语言生成(NLG)是当前的前沿框架,可以帮助将语言翻译成自然语言。 Nlgserv和simplenlg是我们可以用于此任务的两个NLG框架。此外,我们可以使用马尔科夫链自动生成句子和制作故事。