码说MapReduce_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

　　setup方法在类调用起始阶段运行，可以实现初始阶段对于参数读取和变量赋值的操作。在app应用识别案例中，我们在setup阶段实现对于平台DPI文件的读取操作，以在之后的map阶段实现MapJoin操作，代码如下：

　　其中DPIMap是需要在主类中定义的HashMap变量，在map阶段将使用HashMap实现快速查找。

　　map方法是实现Mapper类的核心方法，map阶段主要逻辑都需要在map方法中实现。map方法参数定义包括输入< key，value >和上下文对象context声明。Context对象负责在MapReduce执行过程中平台配置和Job配置的传递。Job执行过程中，写入的业务逻辑会对每一条数据进行操作，并将中间结果< key，value >值通过context对象写入后台进行之后的shuffle和reduce操作。

　　例如我需要将业务数据中的host字段与DPI数据的host字段进行等值连接，统计出使用app的次数。我们可以在map方法中实现如下：

　　在此默认输入数据为ORC格式，代码中涉及对ORC文件读取方法。

　　Reduce实现

　　同Mapper类类似，扩展Reducer类需要实现reduce方法。继续以统计app次数为例，Reducer类扩展实现为：

　　其中reduce方法实现的逻辑为对依据key值group之后的value值集合进行加和，并写入HDFS。

　　在reduce方法中，接收到的value集合通过Iterable接口实现，我们可以通过iterator对象提供的API实现对value值集合的遍历。Reduce的输出我们最终写为ORC格式。

　　程序主入口main()方法

　　通过在主类中定义main()方法作为程序的入口，我们需要在此完成对程序参数传递、输入输出配置和HDFS平台配置声明等工作，以app应用识别为例，代码如下：

　　此例main()方法主要完成了对输入输出类型和路径的配置、任务执行队列和资源配置的定义。main()方法主要完成对程序接口的定义和资源调配，以上代码展示了一个最基本main()方法的定义。如果任务需要，我们还可以完成诸如自定义Group Comparator、Sort Comparator、Partitoner等对象的定义，并在main()方法中声明，作为MapReduce程序的comparator。

　　在我们平台的日常任务中，我们放弃使用占用空间较大的Text和Sequence文件格式，完全使用ORC文件格式作为数据存储格式。这样可以实现自定义MapReduce程序与Hive平台的无缝结合，更重要的是，可以为平台节省十倍的存储空间。

　　ORC存储方法

　　ORC File是Optimized Row Columnar (ORC) file的简称，它基于RCFile格式进行了优化。ORC文件格式的设计初衷是为了提高Hive数据读写以及数据处理能力，由于其实现了一定的数据压缩，可以占用更小的数据存储。

　　我们使用ORC格式作为MapReduce和Hive工具的统一存储格式，可以节省平台大量的存储空间，同时也实现了MapReduce程序与Hive的更好结合。

　　经过我们平台日常任务的实测积累，ORC文件格式可以为Hive提供稳定快速的数据读写，并且与Text文件存储相比，可以节省十倍的存储空间，可以大幅提升平台数据存储和处理能力。对于MapReduce程序读写ORC文件，无法像未压缩的Text文件一样直接读写，还需要做关于表数据结构声明等工作。

　　读ORC文件

　　仍然以app应用识别为例，主类中需要定义变量SCHEMA，声明读入表结构：

　　读取ORC文件格式的代码如下：

　　首先，需要将读入的value值强制类型转换为OrcStruct，然后根据表结构实例化StructObjectInspector对象为inspector，最后使用StructObjectInspector类提供的API对字段进行读取。

2/3 首页上一页 1 2 3 下一页尾页