【现场报道】技术驱动 直击人心

谢谢刚才毛总、何总、陈总从不同层面上,为大家诠释的云计算的概念和未来的方向。现在把我对于云计算的概念想法跟大家共享。

 除了ISSA和PSSA还有SSSA三种云计算模式之外,其实云计算也分公有云和私有云,在国内的企业内,私有云应用更多一些,国内企业都是从数据中心往私有云上转换,然后又从私有云向公有云上转换,像英特尔、万网等,就是基础提供商的服务不断的提升和创新是分不开的。

我跟大家分享的是,对于像我们这样的企业来讲,为什么会需要云计算的平台?而且目前从数据中心往私有云上转换,私有云往公有云上转换,会历经什么过程,是细节的介绍。

首先我介绍一下我们的公司,悠易互通在中国是比较领先的受众网络和数字营销的公司,这个名词很专业,用我们刘总的话来讲,我们是一个“卖人”的公司,对于中国互联网广告来讲,大多数公司都在“卖媒体”,按照媒体的属性去为大家铺设广告,对于悠易,我们想做的是完全不同的,我们要Cover每个人的兴趣是什么样,对什么样的广告感兴趣,对什么内容感兴趣,在互联网上有什么行为,对悠易来讲,这是最核心的价值。悠易是2007年成立的公司,现在已经是500人的规模,大概是这样的情况。

我会分三个层面为大家介绍,第一个层面,是我们的用户行为定向的概念,由概念引出像我们这样的企业,对云计算和大型平台的需求;第二个层面,介绍私有云目前的状况,以及数据累积量的展示和扩展的应用。

大家知道,在互联网广告投放的时候,其实定向已经说了很多年了,最早的用户行为定向其实是雅虎提出来的,就是在雅虎Sales那边很早就听到过,而更早的概念,用户行为定向概念和互联网同时产生的,为什么一直没有人做好,或者说在近几年才能有快速的发展,是和大型计算平台产生分不开的。

传统的互联网广告在投放的时候,我们区别于传媒广告,我们可以做到地域定向、时间定向、客户端环境的定向,以及网址的定向和其他基础数据,包括简单的关键词定向等等,但是这些定向并不能Cover到人,我们只是定向到北京,但是北京可能有一千七百多万的网民,他们每一个人对什么感兴趣,其实我们不知道,而现在的市场需求,随着品牌的广告主以及效果类的广告主,互联网投放规模快速增长,对数据要求以及人群选择要求,有更高的标准。所以我们需要更加精准的定向手段。

那么竞争广告的定向趋势,比如我们Cover很多人群的时候,我们需要对人群进行一个分类做投放,这个分类其实是一个很恐怖的数字,据现在的统计,中国现在活跃的网民每天在4.5到4.5亿之间,有可能比这个数字更大,但是这些网民每天在互联网上会产生巨量的数据,他们每天看什么网页,在什么网站购买什么产品,消费能力是什么,他们玩什么游戏,使用什么客户端,甚至他们对什么广告有什么样的行为,这些行为在每天会产生非常大量的数据,这个数据是在以前的计算平台业务模式底下不可想象的,我们要做的竞争广告定向,就是建立在这些数据之上,也是为什么我们需要一个非常海量存储,并且能够对海量数据进行运算平台的原因。

而用户行为定向的特点,其实可以分析每一个互联网受众的行为,判断他们的兴趣和心理的预期,并且有针对性的进行广告投放,除了对海量数据存储和分析之外,我们还要求服务的实时性,就是每一个用户看网页的时候,这个网页想播放广告的时候,就必须得实时从后台的以亿为级别的库里实时抽取属性出来,并且要做广告的匹配,得需要非常实时的,有大的选项能力平台的支持,那么这是对计算平台第二方面的要求。

而用户行为定向的优势,对于不同的用户来讲有不同的优势,对于广告主来讲,可以把广告主投放给真正感兴趣的人,对于代理商来讲,可以减少无效曝光,节省代理商的媒体资源,对于媒体来讲,可以提升媒体价值,因为定向的广告可以卖的更贵,并且可以提升用户对媒体的用户体验,在媒体上始终能看到感兴趣的广告,不是跟兴趣完全相悖甚至反感的广告,对媒体用户来讲,也是好的事情。

对于受众,因为广告一般都是被迫行为,受众接受自己喜欢广告的内容,比接受自己反感的广告内容,会有更好的感觉。这是悠易的多维立体的概念,我简单介绍一下。

首先,我们会判断每一个用户浏览兴趣关键词,以及他们对电子商务的购买行为,以及他们对广告的交互行为,把数据通过建模形成每一个用户的兴趣,我们把用户分成22个大类,230个小类,进行用户分析,每一个用户对每一个兴趣的属性,都是通过一系列的周围数据计算出来的,有一个非常复杂的数学模型在里面。

以上这些点,其实说明了,我们其实要处理的就是基于互联网4.6亿网民的,每一个用户的很多种信息的集合,我们每天都会接受以TB为单位的数据,并且要对数据进行分析,把用户进行计算和分类,不是一个小的计算机群,或者单个计算中心满足的应用,所以我们构建了私有云的模式。实际上用户行为分析定向,技术难点是存在几个方面的。

第一个方面,是用户行为数据的分析,对于悠易互通来讲,我们和很多的媒体会有合作,包括四大门户,包括垂直行业内网站各TOP20的网站,我们会收集到非常丰富媒体流量资源,每一个媒体的流量资源,可以为我们带来每一个Cookie,就是在浏览什么样的网页的数据,这是一个数据基础。第二个,要有非常海量的数据存储,因为首先有海量数据之后,第一个要解决的问题就是存储的问题,已经超过单台的Server或者是盘阵,或者存储模式所能够解决的范畴,比如我们一个月的数据可能要超过20TB,数据是非常巨大的。第三个,我们拿到这些数据以后,解决存储的问题,我们还要对数据进行不断的分析,校正,进行建模、归类,并且对计算结果进行验证,就需要非常庞大的计算平台,能够对数据做非常实时的处理,并且按照我们的需求,对计算的模式做改变。

在以上的计算和存储问题解决之后,接下来我们要对计算出来的数据做应用上的验证,这个就需要我们结合业务部门的配合,业务模式的配合,判断数据在真正广告应用当中的表现,就涉及到刚刚提到的实时为广告应用提供服务的计算能力。

对四个难点,我们介绍分别解决的方法,第一个方法,就是用户收集原理,首先我们会收集每个用户不同页面浏览的行为,用户对于广告的交互行为,因为我们是投户媒体广告的,对什么广告完整播放完了,会有重播,并且有连续的点击行为,我们算做广告交互行为,来判断兴趣。第三方面,是电子商务的交互行为,我们有很多电子商务合作伙伴,他们在电子商务网站上形成什么样的购买,买了什么产品,消费能力大概什么样,三方面的数据会形成用户行为的数据主体。会通过我们的用户行为分析的模块形成悠易互通用户属性库,是我们具有价值的部分,通过实时定向的API为广告的服务提供支持。

在这套系统当中,我们还有一套基础的支持系统,就是我们的负荷搜索系统,因为对于用户浏览行为的分析,我们是基于所浏览页面的正文做分析的,如果拿到这些数据,并且应用计算的话,我们后台有负荷的搜索系统做支持的,比较类似于百度或者谷歌的搜索引擎。同样也是要求实时性非常高,并且要求海量存储和海量数据计算的平台。

这是我们负荷搜索系统的原理图,我们会抓取我们所合作媒体的所有的内容,并且解析出他们的正文区域,最终形成分析的结果,存在我们的互动区,而用户的浏览行为结合搜索的数据库进行数据分析的。

目前,我们所收录页面信息已经超过20亿条,接下来我会介绍用户数据的信息。为了解决以上的问题,我们构建了这样的架构,首先构建自己的分布式存储系统,就是HDFS系统,谷歌、百度,包括大型的私有云公司,包括淘宝,他们都会构建自己的存储系统,我们用的是HDFS,这个是开元的,和雅虎、Facebook所用的都是一样的。同时,我们基于HDFS构建了Map平台,是比较细节的底层的技术,我会简单介绍一下。Map  redios的概念,其实就是相当于把一个计算任务分布在不同的计算机上,同一整个集群为一个任务做服务,这是私有云计算基础的概念,或者是最基础的技术方法,这是一个实例图,我们把不同的任务分发到不同的机器,用不同的机器进行计算完成之后,再由一个汇总的调度任务,最终汇总出计算结果。

我们自己的Map  redios计算,分为不同的业务类型做服务,包括广告业务数据的分析,广告优化数据的分析,以及用户行为的挖掘部分应用,我们经过了几百的改动,最早做得是数据中心的概念,后来发现传统的数据中心的概念,会有很多的弊端,比如说资源应用不平衡,虚拟化实现并不好,而且应用的调度、拓展性并不是特别理想,我们逐渐往私有云结构上做转换。

在这个平台上,还做了一些选型的工作,包括Low  sql的数据库的选型等。对Low搜索,像HDfs或者是传统的开放云计算支撑的底层来讲,我们还有很多后续的研究。这是我们的一个系统的架构图,是一个非常复杂的应用计算的模式。在今年我们又重新升级了我们的架构,更像一个云计算的计算平台,我们使用了Mai  sql内存Cash等等,一些新的技术加入进来,使云计算的平台结构会更加的完整。

接下来我介绍一下我们的受众行为的建模过程,我们对每一个用户会从四个维度上做建模,一个是近期浏览页面的关键词,长期以来所积累的,在用户身上的关键词,用户感兴趣的兴趣行业,还有用户兴趣的产品类别,来自广告交互行为和电商网站上的具体行为,我们会通过属性分析建模,将用户分成22个大类,230个小类,并且为广告定向服务以及广告分析服务做基础的数据支撑,这是一个完整的数据画像的过程。在这之上,我们有具体的基础分析支持系统,包括基于道学习的分析系统,就是SNM技术,以及用户兴趣的分类算法。

并且我们在现有的模式底下,还在开展人口统计学的分析研究,我们会不断往每一个用户身上加入不同的标签,要求扩展性非常强的计算,或者是应用服务的模式。目前我们通过私有云的架构,已经为我们的企业,为超过400家广告主提供了广告定向服务,并且在广告直接反映效果点击率上有50%到150%的提升,峰值我们可以通过这项技术提升280%。这是我们数据量积累的应用,就是截止到6月末,我们可以用于用户行为定向,活跃的固定样本,概念就是在一个月之内可以Cover十次,抓到十次以上行为的用户,我们已经存储了2.6亿个,就是说可能在座的诸位,你们的电脑可能50%都在我们的数据库当中,我们知道你们对什么感兴趣,我们知道你们看过什么样的网页。

我们收集用户访问记录以及其他用户情况这种数据条目,已经超过了206亿条,正是有这两个数据的概念,这不是一个简单的计算模式能够解决的问题,必须依靠云计算的概念。

我们会基于这些数据,为所有的用户提供受众的群体属性分析报告,他们对什么感兴趣,对什么媒体感兴趣,他们活跃的时间、地域等,这份报告是我们在业内唯一能够拿出来的。

以上就是对这块的介绍,其实在接下来,我们在私有云的构建方面,是一个很简单的介绍,我希望通过和各大IDC厂商以及云计算方案提供商能够合作,因为我们下一步的计划其实是往公有云上做转换,这个方面希望之后能够得到大家的帮助和关注,完成整个过程,谢谢大家!

(演讲者:北京悠易互通网络广告公司CTO   赵征)