大数据平台计算中心的关键技术包括分布式运行引擎和协同计算功能,搭建分布式运行集群化环境,研发统一的资源管理功能,既能满足流计算、内存计算、批量计算和查询计算的功能,还能满足多租户不同计算模式下的资源分配与隔离。
大数据平台分析中心的关键技术包括研究数据模型映射转换业务语义、数据挖掘等,研发业务语义设计器、自助式分析足迹、数据挖掘等,形成自助式分析工具集。大致可分为三部分:自助式分析组件,业务语义设计器和数据挖掘组件。
大数据平台服务中心应包括数据服务、计算服务和可视化管理服务等,其中数据服务主要包括数据融合访问模型建立,研发数据路由和数据网关,形成数据服务组件,支持对各类数据的标准SQL操作、安全权限控制和数据缓存,支持各类应用统一访问各类数据源。其中计算服务主要包括研制计算任务规范、研发多模式计算任务管理、计算流程配置等功能,提供各类计算任务的上传、发布、调度和管理能力,支持用户自定义计算任务和通过配置获取结果的通用计算任务。
大数据平台的服务中心还要制定标准化的组件调用和数据交互接口规范,融合各类展现控件,集成包括GIS以及各类图像图形展示软件,形成大数据可视化组件库,支撑可视化应用构建。
各个领域在依托现有资源基础上,构建形成大数据应用服务平台应遵循问题和需求导向原则,从逻辑上构建大平台、微应用入手、组件化的原则,采用面向对象的建 模技术,结合范式建模方法,完善公共信息模型,形成标准,形成一体化业务数据模型,使之覆盖所有业务链服务链的各个业务领域,实现横向业务关联与纵向业务 模型贯通,并可进一步挖掘数据价值。
围绕大数据应用服务平台建设,当前在大数据关键技术研究中,应进一步关注如下问题:一是多源数据采集技术,包括结构化数据采集、实时数据采集、文件数据采集、消息队列采集等。二是海量异构数据存储技术,包括分布式文件系统、列式存储数据库、非关系型数据 库、关系型数据库等。三是多模式计算技术,包括分布式批量计算、流计算、内存计算等。数据挖掘分析技术,包括数据挖掘算法、分析模型构建、R语言等。四是大数据安全技术,包括数据加密、访问控制、数据审计等。五是重点领域的全业务链的统一数据模型的研发,包括标准、视图等。
在大数据平台研发中还要关注以下几点:数据整合组件,数据管理组件和作业调度组件,资源调度组件和集群管理组件、安全管理组件等。
大数据关键技术需要进一步在以下几点创新:集中式和分布式混合架构的大数据平台,多源异构数据融合模型及其统一数据网关;进一步研发各领域一体化业务数据,实现横向与纵向业务协同贯通;进一步研发可兼容多种计算模式的资源动态分配与隔离组件,实现计算任务合理化调度;进一步研究颗粒度更加细化的业务行为特征分析模型;进一步研制细分行业和地域部门的预测监测模型。