大数据技术之争：PIG对Hive_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

Apache PIG提供一套高级语言平台，用于对结构化与非结构化数据集进行操作与分析。这种语言被称为Pig Latin，其属于一种脚本形式，可直接立足于PIG shell执行或者通过Pig Server进行触发。用户所创建的脚本会在初始阶段由Pig Latin处理引擎进行语义有效性解析，而后被转换为包含整体执行初始逻辑的定向非循环图(简称DAG)。另外，这套处理引擎亦可接受DAG并在内部执行计划优化——具体优化方式包括PIG程序方法以及惰性计算。

为了理解这一优化机制的原理，我们假定用户编写了一套脚本，该脚本对两套数据集进行一项连接操作，而后是一条过滤标准。PIG优化器能够验证过滤操作是否能够在连接之前进行，从而保证连接负载最小化。如果可以，则其将据此进行逻辑规划设计。如此一来，用户即可专注于最终结果，而非将精力分散在性能保障身上。

只有在经过完全优化的逻辑规划准备就绪之后，编译才会生效。其负责生成物理规划，即为最终驻留于HDFS中的数据分配与之交互的执行引擎。

总结：

Pig与Hive无疑已经成为大数据世界中的重要组成部分。二者皆提供出色的灵活性以及可扩展性，用于实现各类定制化功能。另外，二者也拥有自己的明确角色定位，因此其具体优劣完全取决于您在项目当中的实际要求。

7/8 首页上一页 5 6 7 8 下一页尾页