我们未来希望能够用智能做数据的自动关联,希望把几十个来源不同的数据源、不同格式的扔进去,就可以很快地把数据关系梳理清楚,相似、相同的数据下表达方式不同的也能够迅速聚集在一起。
在这个方面我们已经做了很多工作,比如在android的和包方面用了深度学习技术、文本技术,把各种技术集合在一起来判断多个不同的包是不是属于一个应用。
让我们来畅想一下未来,前面提到了在大数据上孕育了非常多的智能奇迹。如果在把这些智能运用在驾驭数据,可以形成非常好的正循环,使得数据科学发展变得越来越快的加速螺旋上升的过程,为我们创造更好的未来。
Q&A
Q1:如何访问talking data的沙箱?
张夏天:目前访问TalkingData的数据沙箱需要向TalkingData提出申请,明确使用数据范围,用途, 并签订NDA以后(如果涉及商业用途还需要签订商业合同)后,TalkingData会为申请者提供访问帐号。
Q2:也就是一个新版的mllib?
张夏天:可以这么认为。我们在实际使用中,发现MLLib的问题还是比较多的,无论是训练速度还是精度都不能满足我们的需要。因此我们自己实现了一些Spark上的机器学习算法。
Q3:大数据应用的最新挑战是什么?
张夏天:目前来说我们认为最新的挑战是把数据处理流程如何智能化。现在大数据应用最大的一个短板就在于应用的成本很高,而很大一块以成本就在于基础的数据处理过程,需要投入大量的人力来完成,限制了大数据应用的规模化快速复制。因此我们认为未来应该应用数据科学,人工智能的先进技术和方法来解决数据处理过程过于繁琐和笨重的问题,降低大数据应用的成本。
Q4:fetegata基于spark实现的,他是如何做到性能比spark高很多倍。另外我们用它不需要调整参数就可以得到很好的效果,具体是怎么做到的?
张夏天:最根本的原因就是提高了算法的收敛速度和稳定性,使得在一般情况下,只需要扫描一次数据,极大降低IO开销。关于Fregata是如何做到这点的,大家可以耐心等待几周,我们很快将把Fregata开源出来,同时会在arxiv网站上publish相关论文,届时欢迎到家试用和批评指正。
Q5:lib库的一个特点是根据内存大小,自动调整维度么?
张夏天:是的。因为Spark平台本身的限制,参数并行很困难,因此单个节点的内存大小就限制了模型的大小。在面对超大维度问题时,通过稀疏正则化可以降低模型的规模,使得能够在单个节点的内存中存储。但是一般的稀疏正则化方法的稀疏度是依赖于L1正则化项的系数的,并不能精确控制模型的稀疏度。我们在很多实践中发现,做模型稀疏度越高其精度也会越低,所以我们希望算法能够把模型的规模降到内存刚好装下的规模,取得精度和效率之间最好的平衡。
Q6:您好,fregata的功能确实很强悍,目前是开源的吗,普通用户怎么能够体验到?
张夏天:10月份之内会开源,到时候会发布到Github上,所有人都能使用。我们将采用Apache 2.0的License。
Q7:在优化过程中,模型平均是否受数据分布倾斜的影响,比梯度平均较大?你们工作中,比spark的梯度平均好的原因,是不是因为你们的数据分布较均衡?这是不是算是极端情形,而不能看做一般情形?
张夏天:应该不是。我们的测试不仅是基于我们自己的数据,我们还测试了很多公开数据集。有大数据集,也有小数据集,有低维度密集数据,也有高维度系数数据。测试的结果都是类似的。