摘要:通过对数据处理阶段性发展的解析,分析大数据、人工智能技术的发展趋势。结合实际生产需求,验证了基于容器云架构的新一代大数据与人工智能平台在数据分析、处理、挖掘等方面的强大优势。
关键词:大数据 人工智能 云计算 Docker 基础能力 多租户
Abstract:Through analyzing the staged development of data processing, this paper analyzes the development trend of big data and AI technology. According to the requirement of customers, the new generation of big data and AI platform based>
▲图1 企业数据处理转型的阶段变化
在第一阶段,大数据技术发展的早期,为了打破数据孤岛,将各类数据向大数据平台汇集,形成数据湖的概念,作为多源、异构的数据的数据归集,在此基础上进行数据标准化,建立企业数据的汇聚中心。在这个阶段,对非结构化数据处理以存储检索为主,对结构化数据处理提供各类API和少量SQL支持,使海量的以SQL实现为主的业务难以迁移到大数据平台,新业务开发使用门槛高,大数据技术的推广受到阻碍。
在第二阶段,企业客户的需求集中表现为,如何更好地处理结构化数据以及将老的IT架构迁移到分布式架构中。各大数据平台厂商开始在SQL>
▲图2 迁移前后数据集市业务场景500并发测试性能对比
基于容器云的大数据与机器学习平台的全面应用
基于TOS实现的多租户新模式,将大数据与机器学习平台组件完全容器化实现,并在TOS提供能力服务。集团统一部署企业内部云平台,对邮政各个租户(集团、省分、市局等)动态分配存储、计算、网络等资源,并实现完整的资源隔离,使得各个租户数据分析人员和业务人员获得相对独立的资源环境,赋能业务创新,同时可动态调配资源,实现资源的共享优势。
集团、省分、市局各级人员通过多租户平台,实现资源发布、申请,使用及应用开发、成果推广。通过项目立项申请审批后,省分项目组人员在租户空间内,接入访问数据资源,使用平台服务资源,大数据分析工具及机器学习挖掘工具展开数据分析挖掘工作,具体开展数据处理、模型开发、算法应用、应用发布等,在审批验收之后,将成果推广到数据湖上部署对全集团提供数据应用服务。
通过TOS+TDH搭架厚平台、薄应用的微服务架构,实现租户之间的异构性、独立测试与部署、资源按需伸缩、高性能计算能力、租户间错误问题隔离、团队全功能化。实现数据资产化管理。面对集团数据多样、海量、跨板块、跨专业的需求,集团对数据进行了全面梳理,创新集成各版块、专业数据,创建数据资产目录便于快速检索获取资产,管控治理资产,让数据即资产从理论阶段上升到实现阶段。
结语
随着企业数据处理与服务需求的不断发展,由大数据的汇聚,分布式技术释放计算能力开始,技术不断延伸发展,大数据、人工智能与云计算的边界越来越模糊,三者技术的发展不断互相影响与融合,这是发展与需求产生的自然趋势。在“后大数据时代”,基础大数据与人工智能云平台的形成与落地会越来越多,真正实现科技赋能业务,为企业提升效率与发展提供更强的心脏。同时,未来可以看到,企业可能会将其基于基础能力平台的应用体系也上架到平台的应用市场中,充分利用云平台的优势能力,资源共享,统一管理。