随着越来越多的企业致力于以数据为驱动进行发展,开发移动应用程序并将大数据分析整合进产品或服务中是的商业模式日渐流行。企业规模扩大伴随用户基数增多,如何应对移动应用程序带来的数据井喷成为重要问题。
使用范围越来越广的虚拟架构正是用以管理移动应用所产生的大量数据,而解决数据井喷问题的最佳方案应当使企业的注意力集中在藏于数据背后的有价值信息上,而非数据基础架构问题,如数据基础架构的成本、存储容量和灵活性。许多机构已经采用云端技术来规避这些问题。
对于如何构建大数据驱动型云终端以支撑移动应用程序架构,这里列出三条重要建议:
一、大量投资以构建复杂数据处理平台,而非数据管理基础构架
像 Ola Cabs 和 MyFitnessPal 这样移动应用开发的企业正不断深化数据分析研究并催生了最近的数据存储空间扩容热潮,因此这类企业也有着新的需求:构建一个可以处理大量数据的 IT 基础架构。其中最大的挑战是如何在最小化数据管理成本的同时满足不断增长的数据分析性能要求。
企业应当仔细考虑自行构建和维护数据基础架构。或者,他们可以利用亚马逊云端计算(AWS)、微软云(Microsoft Azure)和谷歌计算引擎(Google Compute Engine)等云服务优化数据管理。云技术不仅有助于降低资金成本,更重要的是,它还可以降低产品风险并减少关键项目耗时。
另外,对于任何大数据项目,为适应数据集大小的变化,数据库存储容量必须快速扩容,同时计算性能要能够在数据规模上升和下降时都快速给出精确结果。云服务提供了一个解决这些问题的便捷方法,同时它允许对所使用的数据分析模型按需付费,因此企业只需要为他们实际使用的服务进行付费,灵活性大大提高。
大数据项目的另外一个挑战是寻找创新的技术解决方案,该方案可以解决传统数据库和现有的可扩展架构忽略的问题。移动应用程序收集到的数据来自于多个不同系统,我们需要把它们转化为一种通用的格式,以便进一步分析利用。例如,企业应该考虑利用 Hive 来打开数据集中的原始 JSON 格式数据。Hive 可使用柱状格式存储的数据,比如 RCFile 和 ORC格式的数据,这使使用者减少分析查询时的读取操作且使数据集中每列变量可以被独立地访问。通过组织数据使其可读性更强并更易访问,企业将能专注于已收集到的数据而非花大量精力处理从移动应用程序中搜集到的原始数据。
二、利用实时查询技术维持竞争优势
移动应用程序使数据获取更便捷,使数据使用分析更具即时性更频繁。为了分析这些稳定的大数据流,企业可以对拍字节(PB)的数据源使用查询引擎技术来最优化即席交互查询功能。
大数据刚起步时,开源 Hadoop 的早期采用者通过对海量的复合结构数据进行分析得到有巨大应用价值的深层次信息从而取得竞争优势。如今,由于 SQL-on-Hadoop 技术(如云服务中的 Presto-as-a-Service)的快速发展,下一个竞争热点是实时数据查询技术。实时查询软件使企业获得更多利润,因为它能帮助决策者比竞争对手更快地获得可利用的有价值信息,并做出更好的决策。此外,通过与定位工具结合的实时查询技术,企业可以追踪消费者的位置信息,与之互动并施加影响,在提升用户体验的同时促升产品销量增长——而这一切都是实时完成的。
实时查询技术可以通过互动和累积的过程帮助使用者更快地提高获取有价值信息。通过允许用户把包含各种细节信息的原始数据集直接倒进 Hadoop 中,它使得用户避免了冗杂而缓慢的传统数据预处理和精炼过程。有必要指出的是, Hadoop 中分析的元数据被所有进程共享。这意味着,如果用户通过实时查询指令从数据中提取出附加信息,那么系统中的其他进程也可以获取到这些信息。结果是,挖掘信息的过程也加速了,且所有的部门(如市场部和运营部)都可以看到并使用这些数据,并合理使用在自己的专业领域中。
另外,Hadoop 的实时查询技术允许机构进行数据的全保真度分析,弥补了单纯的深入分析和易于搜索性所带来的缺陷。实时查询软件在既提供摘要信息又提供细节信息的同时给分析员提供了易于解决未预料到的特别问题的灵活性。因为该软件具有循环处理海量的结构化、半结构化和非结构化数据的能力,终端用户不仅可以看到隐藏在原始数据背后的趋势、关系和模式,还可以看到所有的细节信息。