3)Instance Selection在很多情况下至关重要,数据不是越多越好,是合适的数据越多越好。很多数据本身不是噪声,但和我们要分析的问题不是很相关,在这种情况下需要做合理的数据裁剪。其实,说到大数据的“大”字有不少误解。大是个相对的概念,有很多应用,只是单位时间内要处理的数据量超过了现有的计算能力。比如说,高频交易,我们可能需要在一毫秒处理1M的数据。1M并不大,但问题是时间要求realtime。
4)在建模之前还需要了解数据的特性,比如噪声度,稀疏度,和数据的分布。这就象医生在选取治疗手段之前必须要了解病人的病症。
最后,我想说的是,人生就是个数据挖掘过程。人整个的一生由几个关键点组成,在每个关键点,我们都需要根据自己掌握的信息进行决策。
互动内容:
Q1:数据去伪存真,在数据挖掘中是不是工作占比很高?经验是不是分析能力的决定因素?
A:这个问题好。我们现在各行各业都在拼命收集数据,很多的是垃圾数据,现在数据的单位价值密度在不断下降。数据挖掘就象医生给病人看病,SAS的病人和普通感冒的病人有很多共同病症,我们的任务是要找出可以帮助我们区分的特征。
关于未来,我提出一个概念叫做信息阶级论。因为大数据意识和数据挖掘技术的普及,会造成人类社会更大的信息不对称。未来阶层(贫富差距)很大一部分因素是因为对信息资源掌握的不同造成的。在很多领域,对信息资源的掌握可以造成高维打低维的局面。就好象有武器代差的二战,勇敢的波兰骑兵对德国坦克集群,会是简单的屠杀。
Q2:怎么鉴别什么数据是真数据什么数据是伪数据呢? By 刘东华
A:和具体应用相关,比如,做具体的市场预测问题,你可能有很多数据,来源不同,质量不同,我的经验是,当数据量充分的时候,质量不高的数据宁可舍弃不用。
Q3:在中国,传统制造企业占比很高,也是重要经济支柱,数据挖掘对传统制造业会有什么大的价值牵引?熊老师有什么好的建议? By 邢艳凯:
A:人类整个的历史发展都在追求标准化,标准化可以提高生产效率,对传统制造业供应链管理是数据挖掘可以大力帮助的领域。题外化,人类在追求标准化,任何被标准化的行业都被夕阳化,工作机会就会减少
@邢艳凯:认同熊老师的观点,中国制造业最缺乏的就是标准!
@柚子:还有经济预测领域
A:经济预测是个好例子,表面看很多数据都可以用来预测经济,但对中国的数据,可能只有发电量,钢产量,铁路运输等少量指标是质量可靠的数据,所以用克强指数看经济更靠谱。
大数据的发展还带来了人类解决问题方式的重心转移。东方长期以归纳法为见长,也就是一种BOTTOM-UP的解决问题方式,西方长期以演绎推理见长,是一种TOP-DOWN的方式。在近代至现代,演绎推理占了上风,所以西方文明高度发展。但是数据驱动解决问题方式的产生,让归纳法思维又有机会走在前面。
Q4: 国内哪些组织在数据挖掘方面比较强? By赵国栋
A:数据挖掘充满dynamics,目前中国的暴富机会还是比美国多不少,随着以后制度越来越完善,中国的暴富机会越来越少。很多的暴富都是因为信息不对称造成的。中国现阶段存在很多制度性信息不对称,每一次制度的制定或变化,都催生出一批暴富的点子和机会。美国更多是技术性信息不对称,就是通过数据挖掘的手段形成信息不对称,从而在竞争中产生势能差,可以形成以绝对优势打击绝对劣势的局面。当然,中国在朝技术性信息不对称大步前进。
因为信息平台和信息意识的城乡差别,农村的孩子在信息化这块被甩开大了,在竞争中的劣势越来越大,最可怕的是农村的信息意识完全没跟上。所以未来的阶层客观上会是由于对信息资源的掌握不同而造成的。所以,在教育层面应该努力缩小城乡的信息鸿沟。
未来社会的发展趋势在加快,财富轮转速度在加快,从富到贫,从贫到富,从弱到强,从强到弱都比以前更快速转化。会是一种螺旋式上升,后面新城代谢越来越加速,hold不住的都会被甩出去。富过三代的一定要培养好的家族信息制度。
评论:现在是企业信息重置的时代,挖掘运营数据水平的高低将拉开企业的差距,而且一旦有了大哥,可能就会变成独生子!By 邢艳凯: