图为商派公司CEO李钟伟演讲
李钟伟:各位下午好!谢谢《商业价值》给这个机会,在这里和大家分享在电子商务领域我们在数字挖掘上的体验。其实电子商务有一个比较大的特征,它的数据积累和数据库相比别的行业先天来讲会稍微简单一点,由此产生的应用的是非常多的,但实际上执行的时候,如果没有很好的方法那你对数据的积累严格意义上也是灾难,下面我们就在这个环节上讨论一下。
一、什么是商派理解的大数据?作为一个电商本身在IT的驱动之下,任何一个过程,所有的一切我们都可以理解为数据结点,但是你以什么样的方式保存并且以什么样的数字切片看它?这对整个电商来讲,如果在这个领域理解不深刻的,你的数据将来是不可用的。商品是一家电子商务软件公司,我们目前累计服务的客户总量超过133万家企业,平均每天产生的日均订单量60万单,双十一会超过1000万单的规模。他大概会产生的这样一个数据积累,如果说在今天放到全球的变动之上,虽然是非常小的,但即便如此,对一个企业的运算能力也是一个极大的挑战。
这些数据我们把它分解成属性来看,对我们电子商务来讲,本身的系统是由应用本身积累下来的,最天然的形成的数据切片乃至数据的存储方式是不太容易被应用的,这很可能导致后期的数据可用性衰退非常厉害。做大数据第一间事情是建立你的切片维度,比如说浏览行为、交易行为、支付行为、沟通行为、社交行为、反馈行为以及必要的各类技术指标,一个应用系统往往可能在多个尺度同时反应数据,所以对数据切片的理解,这是在你大数据应用的时候首先要建立的核心思想。
我们在做大数据应用的时候,基本上建立的思想维度还是比较简单,第一数据的采集与存储,第二数据的组织与管理,第三数据的分析与呈现,特别要强调的就是在刚才的表述当中,我们比较多的也是商派在历史上付出过学费,当你对这个没有清晰的定义,或者定义中有一些缺失的话,历史积累的数据往往具有不可用性,数据挖掘及可用性是非常困难的,包括原始数字定义、最小颗粒度等等,如果做得不好,数据几乎没有可用性。本质上来讲,在一个社会化的环境中,无论是支付系统还是外部的开放系统,或者是整个物流体系,一个企业本质上是能够获得一系列这种数据积淀的。
互联网带来的开发特性对用户行为的数据乃至整个交流互动的数据也有极大的积淀,所以今天我们所理解的数据已经完全不是从企业内部单纯的经营行为或者本身企业内部的积淀,而是整个社会的环境当中进行数据的积存。另外一个优势,在这些年中大数据挖掘的技术相对比较成熟,我们在看大数据的时候,商派在看大数据的时候,我们会理解为数据的应用的供应方和使用方关注的焦点是不一致的,从最终用户使用的维度来讲,在电子商务领域我们目前能够看到的就是它在目前阶段比较多的是依赖于以数据指导运营,在一个可视化的环境下驱动他业务。
我们目前可以看到,常见的在一个数据分析维度中,客户可能会交流订单的获取、二次销售、页面回访、签单成本等等转化比例,这通常是一些运营指标,它们的可视化可以帮助企业提升业务能力。这些运营指标的数据来源是需要在前面做好数字切片的。所以我们推出了一些应用系统,比如说ECAE、Betternow的可视化仪表盘,目前基本上服务于两个方向,客户系统稳定性和运行效率,通过数据的时时监控建立一个可视化的环境,同时在这个环境中进一步呈现面向消费者层面提升交易客单价以及商品推荐精准度,尤其是在商品数据当中,往往这个数据并不具备单维度的匹配,因为那样的话做出决策是相对困难的,在相当多的时候,我们在进行消费者交易匹配的时候,我们一定要考虑到外界广泛的供应体系,目前来看,通常一款商品在市场上的供应商家,比如说一个手机产品你很容易找到上千个供应商,同类比的供应品质也能找到3-5家,在这样的环境中怎样保障你的交易转化率,这要通过时时监控来完成。