D. 数据规约
数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量,主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。数据规约技术可以用来得到数据集的规约表示,使得数据集变小,但同时仍然近于保持原数据的完整性。也就是说,在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。
▋Part3.大数据存储
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,以便管理和调用。大数据存储技术路线最典型的共有三种:
A. MPP架构的新型数据库集群
采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本 PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。
B. 基于Hadoop的技术扩展和封装
基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。
C. 大数据一体机
这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。
▋Part4.大数据分析挖掘
数据的分析与挖掘主要目的是把隐藏在一大批看来杂乱无章的数据中的信息集中起来,进行萃取、提炼,以找出潜在有用的信息和所研究对象的内在规律的过程。主要从可视化分析、数据挖掘算法、预测性分析、语义引擎以及数据质量和数据管理五大方面进行着重分析。
A. 可视化分析
数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。主要应用于海量数据关联分析,由于所涉及到的信息比较分散、数据结构有可能不统一,借助功能强大的可视化数据分析平台,可辅助人工操作将数据进行关联分析,并做出完整的分析图表,简单明了、清晰直观,更易于接受。
B. 数据挖掘算法
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建该模型,算法将首先分析用户提供的数据,针对特定类型的模式和趋势进行查找。并使用分析结果定义用于创建挖掘模型的最佳参数,将这些参数应用于整个数据集,以便提取可行模式和详细统计信息。
大数据分析的理论核心就是数据挖掘算法,数据挖掘的算法多种多样,不同的算法基于不同的数据类型和格式会呈现出数据所具备的不同特点。各类统计方法都能深入数据内部,挖掘出数据的价值。
C. 预测性分析
大数据分析最重要的应用领域之一就是预测性分析,预测性分析结合了多种高级分析功能,包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等,从而对未来,或其他不确定的事件进行预测。
从纷繁的数据中挖掘出其特点,可以帮助我们了解目前状况以及确定下一步的行动方案,从依靠猜测进行决策转变为依靠预测进行决策。它可帮助分析用户的结构化和非结构化数据中的趋势、模式和关系,运用这些指标来洞察预测将来事件,并作出相应的措施。
D. 语义引擎
语义引擎是是把已有的数据加上语义,可以把它想象成在现有结构化或者非结构化的数据库上的一个语义叠加层。它语义技术最直接的应用,可以将人们从繁琐的搜索条目中解放出来,让用户更快、更准确、更全面地获得所需信息,提高用户的互联网体验。
E. 数据质量管理