数据谱系 – 数据是从哪里来的? 是有效的来源吗? 当使用内部系统的时候数据谱系没有那么重要,因为数据来源是众所周知的, 但是许多机器学习系统会从公共源来获取数据。 或者潜在的从互联网上的许多设备上获取. 来源于人群的数据 (例如Waze, 一个手机GPS 应用) 要求作出额外的努力来确保你可以信任你所使用的的数据。想象一种新型的网络攻击, 给你机器学习系统以错误的数据而影响你的结果。还记得微软的人工聊天机器人 AI Chatbot Tay被引导为一个种族主义者的麻烦事情吗?
没有技术能够否定好的设计和规划的需要
毫无疑问:机器学习技术具有惊人的潜力,无论是在医疗保健诊断阿尔茨海默氏病还是在曾经只出现于科幻小说中的自动驾驶汽车上。 没有技术能够否定好的设计和规划的需要。 机器学习也不例外。 作为技术专家,确保已作出适当的努力尽可能为机器学习的实现提供最好的资源,这是我们的职责。 了解这些系统的质量,体积,时效性和谱系的需要,可以帮助我们进入这个机器学习的新世界, 引领我们走向成功的执行,并最终为企业提供价值。