与此同时,IBM公司对ApacheHadoop发布版BigInsights采用分析型战略,以保持其广泛的销售商业智能和先进的分析工具一致。IBM公司提供不同的附加价值与企业级功能模块,这是BigInsights的一部分,其中包括独立的分析师和数据科学家模块。其分析模块提供了联合SQL访问Hadoop和其他大数据源的SQL。BigSheets是分析师模块的一部分,允许用户浏览,转换和存储在Hadoop的大数据集,使用直观的电子表格的界面实现可视化。BigInsights数据科学家模块包括一个R语言版本,文本分析,SystemML机器学习库。
而其云平台是亚马逊AWS的主要电子名片,它也提供了用于监控和管理集群工具,使其成为应用和集群互操作性Hadoop的服务的一部分。
亚马逊电子病历收集用于跟踪进度和衡量集群的健康指标。集群健康指标可以通过命令行界面,软件开发工具包或API来访问,并且可以通过电子病历的管理控制台来查看。此外,亚马逊的CloudWatch的监控服务可以一起使用,其实施了Apache神经节性能监控组件的检查集群,并设置了这些指标触发的事件警报。
底线:选择一个供应商,提供作为其企业订阅的一部分增值组件可能意味着致力于一个长期的合作关系。尤其是这些组件是与其标准协议栈紧密集成的。如果你担心厂商锁定,请考虑参与OPDi的厂商。
3.Hadoop供应商产品的安全和保护
尽管扩大了使用开源软件的企业级应用,但人们对其生产使用的安全和保护方面仍然存在着怀疑,Hadoop的一些厂商已经采取措施来减轻一些这方面的焦虑。
例如,Hortonworks已经与其他供应商和客户联手推出针对Hadoop的数据治理计划,最初的重点是阿特拉斯管理共享元数据的新的Apache项目、数据分类、审计、安全和策略管理数据保护。它还致力于整合阿特拉斯与Ranger,一个用于执行数据访问策略的开放源码的安全工具Cloudera提供工具,让用户能够管理数据安全和CDH平台治理,支持一个组织的需要,满足法律和法规要求。
此外,Cloudera,Hortonworks,MAPR和IBM都提供数据加密的功能。其中Hortonworks和Cloudera支持静止数据加密。MAPR提供集群内部的数据传输加密功能,IBM公司提供的InfoSphereGuardium产品,可以执行数据隐私以及提供加密和保密数据屏蔽。
底线:Hadoop供应商提供不同的身份验证方法,其中包括基于角色的访问控制、安全策略管理、数据加密。仔细指定你的安全和保护要求,以及审查每个供应商如何解决这些需求的办法。
4.为顶级的Hadoop发行版支持订阅
开源软件模型的基本价值主张是系统部署的捆绑和简化,支持和服务。部署Hadoop需要下载的一种替代源代码来自开放源代码库中的每个组件,然后构建和所有部件集成在一起。这需要技巧和努力,而且很可能是一个反复的过程。开源厂商已经进行了很大的改进,提供预先配置的发布版,并维护了最新的整合堆栈。
Hadoop发行版产品哪个最能满足组织的需求?
供应商的区别在很大程度上是他们的支持模式。Hortonworks公司提供几种模式,其企业版提供全天候支持和更短的响应时间,这取决于问题的严重程度。Cloudera的提供与企业许可证持有者一小时和全天候支持选项的支持订阅。它还提供了Flex或数据中心版的许可证,其中包括一个为组织提供关键问题的高级支持的15分钟的响应时间。
所有AWS账户包括基本的支持,提供全天候的客户服务,获得了社区论坛和文档,以及访问AWS值得信赖的顾问应用。开发者支持包括对于严重的问题的一小时响应,对于大多数问题,则提供12或24小时的响应时间。企业级支持提供全天候电子邮件访问云支持工程师,以及根据严重程度缩短响应时间。企业级对于关键问题的支持增加了不到15分钟的响应时间,以及专门的技术客户经理服务,再加上额外的启动和运行支持的好处。
MAPR提供高级支持服务,增加了Web和电子邮件支持,自定义门户,培训,紧急的缺陷修复,后续的太阳支持和全天候电话支持的优先问题。该公司的高级支持增加了门票和接触支持单点的优先级队列,并提供现场或远程专用支持选项IBM提供支持的组织购买授权的组件,也被称为价值添加模块,扩展其开放平台的ApacheHadoop。
底线:如果支持服务是来自供应商的附加价值的来源,则不同支持订阅的成本应与顾客期望相一致。订阅提供一小时甚至15分钟的响应时间,而在基于网络的界面的业务时间方面,专门的支持人员将花费了超过24小时的响应时间。