关键是在项目的初期让具有很强数据分析背景的主题专家与数据科学家合作来界定问题。
以下是益博睿公司的大数据分析方案的一个例子。当制定分析解决方案来打击身份欺诈时,所面临的挑战可能是评估各项个人身份信息(PII)是否合法,例如姓名、地址和社会保险号码等。或者面临的另一个挑战可能是当一个客户使用一组身份信息申请贷款,评估该客户是否是那些身份信息的合法所有者。或者这两种挑战可能同时存在。
第一个挑战是“伪造身份”问题,这需要建立一个分析模型来评估在客户或个人身份信息级别开发的伪造身份的风险,Xiong说道。第二个挑战是申请欺诈问题,欺诈风险评估分数需要在应用程序层面开发出来。益博睿公司不得不将这些问题理解为不同的问题,尽管这些问题可能在最初被看作是同一个问题,只是以不同方式陈述,然后创建正确的模型,进行分析来解决这些问题。
当一组个人身份信息提交给两家金融机构来申请贷款时,通常是返回两个相同的综合风险分数,但通常这不是申请欺诈评分的必要特征,Xiong说道。
正确的算法必须应用于正确的数据,以获取商业智能并进行准确的预测。在建模过程中收集和包含相关数据集几乎总是比微调机器学习算法更重要,因此数据工作应该被视为首要任务。
4.建立一个数据湖,不要吝啬带宽
正如大数据的含义,其涉及海量的数据。在过去,很少有组织可以存储这么多的数据,更不用说来整理和分析数据了。但当今,高性能存储技术和大规模并行处理在云端和通过组织内部系统来部署得到广泛使用。
但是,存储本身还是不够的。您需要一种方法来处理不同类型的数据,将这些数据输入给大数据分析工具。这就是Apache Hadoop的卓越功能,它允许对海量的不同类型的数据集进行存储和映射。这些存储库通常被称为数据湖。一个真正的湖泊通常是由多条溪流汇聚形成,它包含许多种植物、鱼类和其他动物。而一个数据湖通常由多个数据源提供数据,并且包含许多类型的数据。
但数据湖不应该是数据的垃圾场。亚利桑那州立大学研究计算主管Jay Etchings说,您需要考虑如何聚合数据,以有意义的方式扩展属性。数据可能是不同的,但是如何使用可靠的数据架构来利用MapReduce和Apache Spark等工具对数据进行转换用于分析。
创建一个数据湖,在数据湖中进行数据获取,数据索引和数据规范化,这些都是大数据策略的精心规划的组件。Etchings表示,如果没有清晰明确的蓝图,大多数数据密集型方案将注定失败。
同样,拥有足够的带宽至关重要,否则数据将不会从各种来源汇聚到数据湖中,并且商业用户拥有足够的带宽是非常有益的。Etchings说,为了实现拥有海量数据资源的承诺,不仅需要配备可实现每秒读取数百万次(IOPS)的快速磁盘,而且还需要配备可以在数据生成时轻松访问数据的互连节点和处理引擎。
从社交媒体趋势到流量路由,速度对于实时分析尤其重要。所以在最快速的互联网络中创建你的数据湖。
5.在大数据的各个方面规划安全措施
计算基础设施组件的高度异质性大大增加了组织机构从数据中获取洞察力的能力。但是有一个缺点:Etchings说,系统的管理和安全性变得更加复杂。伴随着海量的数据和多数大数据分析系统上运行的任务日益重要,在保护系统和数据方面未能采取足够的预防措施,这在很大程度上是在自找麻烦。
公司收集、存储、分析和共享的大部分数据都是客户信息,其中一些是个人身份信息和可识别的信息。如果这些数据落入不法分子的手中,结果是可预测的:法律诉讼导致金钱损失和可能引发的监管处罚,引起品牌和声誉受损,以及客户的不满。
您的安全措施应包括部署基本的企业工具:尽可能实行数据加密,身份和访问管理以及网络安全。但是,您的安全措施还应包括策略执行以及有关正确访问和使用数据的培训。
6.把数据管理和质量列为头等大事
确保良好的数据管理和质量应该是所有大数据分析项目的特征,否则失败的可能性就会更大。
您需要对其进行控制,以确保数据及时更新、并能准确且及时地传送。作为GoDaddy公司大数据方案的一部分,当数据更新失败或运行迟缓时,该公司预警机制会通知管理员。此外,GoDaddy公司已经开始对关键指标进行了数据质量检查,当这些指标不符合预期时会发出警报。