以上就是在360典型的几种应用的场景,数据驱动安全、360搜索、360云盘、各种各样产品和数据的分析。
前面是360内部我们通过五六年的时间构建起来的几万台的大数据平台,为我们360自己的产品和业务提供服务。从去年开始我们在想能不能把我们这种大数据平台的能力和大数据平台的技术能够输出到企业和政府的客户那边去,所以说我们后面提出了360安全大数据平台这样一个产品,我们也正在不断的研发和改进过程中。
我们产品的架构其实也比较简单,分为四大块,中间这一大块是核心的大数据平台,包括底层分布式的存储和分布式的计算,这个不用说,基本上都是开源的东西,大家看一看就好了。在中间有一层分析层,这是给我们数据的分析人员,或者是数据分了软件对接使用的。包括结构化的SQL分析,复杂关联数据的分析,还有在大量的数据里面去做快速的搜索,还有我们能够进行大规模的机器学习、深度学习,这是四个数据分析的组件或者是产品。最上层的可能是一些大数据的应用,刚才我已经介绍了一些了,这里还有很多的应用。还有包括刚才我讲到公司里面各种产品的数据分析和统计,这也是一大类的应用,还有一些产品可以提供出来,这是核心的平台。
最左边是我们数据的接入,你的数据怎么接入到大数据平台,这本身也是一个问题,包括流失数据的接入,包括数据的导入等等。最右边是大数据管理,大数据平台要用好的话其实并不是特别容易,面临两个方面的问题,包括我怎么去管理这个大数据的平台,这个我们有一个产品系统的去管理我们的平台,还有一个就是我的数据分析师能够使用大数据做一些分析。大数据的安全在开源的产品里面刚开始考虑不太多,假设是在一个封闭的内网环境里面,安全的问题可能没有那么突出,我们要对大数据平台的安全进行加固,这也是我们360做安全的一个强项,这是我们360安全平台的架构。
360大数据平台的三个特点:第一是有超大规模海量数据成熟的实战经验。刚才我也介绍了,基本上我们的服务器是4万台,数据达到EB,这个在全球应该也是Top10的,超过EB级数据量的公司应该没有几家。在这几万台服务器上我们一直稳定了五六年,不停的改进,不停的维护。在这几年中,为360各种各样的业务提供服务,包括要求非常高的在线的毫秒级的实时访问,还有离线的非常多数据批处理的数据,还有更多的智能机器学习的算法,一些数据挖掘的算法等等。最关键的是我们通过这几年的积累,建立起来了一支一流的大数据研发团队。
第二360大数据的平台是基于开放的技术,硬件采用开放的X86的服务器,软件是基于开源的大数据一些系统进行定制,保证API,有更多的第三方厂商在上面开发应用,这是一个特别的版本。
第三安全和专业。我们认为大数据平台有它的通用性,但是也有专业性,我们更擅长的是在存储、处理安全数据的大平台,我们是一个安全数据的专业平台。为什么这样说?因为安全数据本身就不应该跟其他数据混在一起,我们建议是采用独立的方式去存储它,它有独立的要求,因为十月这些安全数据的人和普通的业务数据不一样,他访问的模式也不一样,也需要不一样的应用去使用这些数据。这种安全数据本身防护的等级也需要加强,所以说我们要对大数据平台进行安全体系的加固。
BigSQL,做结构化数据的分析,不管在企业还是在政府那边,结构化的数据是非常多的,但是结构化数据越来越多的时候,达到TB级、PB级的时候数据库不一定好用了,这个时候需要大数据来解决,我们提供了一系列BigSQL结构化数据分析的方案,能够快速的去分析结构化的数据。
BigGraph,其实SQL是典型的表结构的数据,很规整的数据。而实际在现实生活中,很多数据并不一定有那么规整,而且数据与数据之间的关联关系非常强,比如人和人之间的关系,在图里面就是点和边,在一个计算机网络里面,两个机器之间要通信,就形成一条边,这是一个非常通用的模型,大数据还没有很成熟的技术,在这一块我们也是提前做投入。这一块将来我们的目标是能够支持到百亿节点的大图,用这样的一个图的技术,我们可以解决很多像网络安全、国家安全、知识图谱、社交图谱方面的一些问题。
BigSearch,在数据越来越大的时候,前些年我们可能用Spark算一些东西就满足要求了,现在越来越看到交互式数据分析的能力,能不能从大量的数据当中快速找到我想要的数据,所以说我们需要对大数据具备快速的检索能力,这是BigSearch做的事情。