我们再总结一下困难和特点,首先是任务重,周期紧,我们看到七天的测试周期里,包括措施系统的安装,平台的安装,数据的生成,包括我们审核其它的举证,我们看到terasort中位执行时间是3小时,HBase任务中位执行时间是29,54,50,39分钟,另外是覆盖性,覆盖了业务系统里面的典型的一些任务。
第二,我们从来没在国内或者是国外看到类似的32台集群规模的配置,使用上BT的数据规模的公开的业界的测试。所以我们处于业界比较领先的认证。我们审核的这些取证的这些图,测试过程是非常的严格,我们宁可多减一些,宁可多省一些。另外,评审也是的严格,行业客户和业界专家倾听、质疑、答辩。
我们做陈鹤的评测和任何的认证都是存在不足的,我们也承认还有一些局限性的地方,比如说我们现在做的是单向机制,却说对混合负载的情况。因为你不可能单跑SQL的任务,肯定是多种场景混跑,这些事情我们是缺少的。另外,我们承认现场人员的前期准备,平时的积累和现场的发挥对测试结果有一定的影响,就像高考一样,肯定是有一些临场发挥和机会在里面的。
另外也和企业的投入资源有关系,有的企业可能人不多,但是全部砸到这个项目上,有的且可能厉害的人很多,但是没有派出来,这都是有可能的。
再一个,由于数据生成的限制,我们采用的工具大多数是开源的工具,我们一直以来都想做场景化的,行业化的尝试,这块我们未来会逐步跟厂商和客户再去进一步的推进场景化的。
还有周期的限制,我们无法进一步的对稳定性作出考量,一个系统在一个月高负载下的情况。另外是机器学习的数据量略小。
下一步我们的计划,我们会引入一些数据流可视化,统一考虑权限管理,还有数据管理功能,流计算。还有性能,支持跟SQL更紧密兼容性。我们一直以来是想以任务为导向,寻找行业的性能评测,我们现在已经在做评测的标准,第四批会加入MPP数据库的评测。这是下一步的计划。
认证报名马上要启动第四批了,10月8日到12月31日会做第四批基础能力和性能专项。包括Hadoop与MPP数据库产品。总之,这是我们一直会坚持做下去的事情,我们也希望成为中国的比较权威,或者是比较领先的大数据技术产品的评测机构。也会以此为我们的愿景,一直践行这些事情,帮助大家选型也罢,评估不同的开源技术,这是我们的愿景。
未来的规划,Hadoop和Spark已经做了,MPP下一批也有了,数据管理的功能,我们会慢慢的在这些平台上见到。还有一些BI和算法。这是我们的愿景规划图。今天我的分享就到此结束。谢谢。