白话大数据:大数据的常见误区和核心思想


 
当然,这三个因素其实都有不稳定性,例如凯文-史派西也曾拍过只被评了4.2分的《弗雷德圣诞老人》,大卫-芬奇首次执导的《异形3》也成系列中口碑最差的一部。但是从概率上来说,这三个成功因素都包括的剧集更靠谱。
 
另外国政通推出的“同名同姓”应用,虽然看起来比较偏娱乐化实用性不强,但是这背后的那些身份数据是可以进行各种二次利用。每次看到类似应用,我总会把前同事“操瑞士”的奇葩名字输进去,现在只有这款应用准确的找到了全国只有1个操瑞士,并且是安徽人。呼叫瑞士大使馆迅速锁定他的位置吧!
 
所以大数据的核心并不是拥有数据,而是拿数据去做了什么。也就是说你不能仅仅占有人家的身子,也要占据人家的心灵。
 
2.对数据的容错性更强,来源更加多样化
 
一个500M的用户数据excel表算不算大数据?曾经在做某款产品的用户筛选时,这么一个excel成功拖死我电脑三次,我当时愤怒的说:“KAO,这SB大数据!”现在想起来,我冤枉了大数据君,您受苦了。
 
真正的大数据,应该是从不同维度,不同途径过来的各种格式数据碎片,并不限于文字/视频/声音/位置/图片等。只有将不同维度的数据放在一起判断,得出来的趋势才有可能更真实。雷同的数据积累的再多,超过某一个限度之后,我们再从新样本上获得的有用信息就越来越少,就如同经济学上的边际效应递减一样。而用简单点儿的话解释就是如果你已经交往过五个IT码农,那么第六个其实也不会新鲜到哪里去,倒不如重新调整方向,换个高富帅找点儿不同的刺激。
 
多样化的来源同样可以避免陷在一个死胡同里出不来。例如以前经常说的“三年自然灾害”,如果仅仅去查询这三年的天气状况和死亡人数的关系。那么可能最后得出结论是“晴朗天气比阴天更容易致人死亡”。但实际上如果去结合《人民日报》亩产十万斤的相关翔实公正报道再加上那些年中国粮食对外进出口情况,那么就会得出更有建设性的结论。在一90后妹子的追问下,只说了四个数字。1958年,中国出口粮食288.34万吨,进口22.35万吨。困难时期第一年,1959年,中国出口415.75万吨,进口0.20万吨,那年,听说大家都好饿。别不多说,免得喝茶。
 
再举个例子,这两天淘宝首页给我推送的个性化广告除了情趣用品就是“花花公子”服饰大优惠,我不就是为了找素材和配图搜了一下“情趣用品”么?你们没完没了的给我推送这个,节操何在?如果你们能拿到我小学老师的评语,初中老师的评语和操行评定,高中老师的评语和操行评定,通过对多个来源不同的数据源分析,那么你们给我推送的一定会是《钢铁是怎么炼成的》《雷锋日记》等好书。(大学老师的评语就算了,那厮打CS被我蹂躏了太久容易怀恨在心。)
 
3.拥有大数据的身,也要有大数据的心
 
以往的数据分析,更多的是精确的样本/深度的数据挖掘,“精确”就是其代名词。不符合规格的样本过滤掉,然后再深度挖掘数据字段间的关系,得出几个精确无比数字去做PPT,或者从一系列数据里精准的找到某个正一脸猥琐偷拍姑娘的人。
 
但是大数据更多的是通过对各种数据分析得出某种趋势,这种趋势不必过于精确,但是能让相关决策人有底气去做某项决定。大数据不重要,重要的是使用大数据的人。
 
因为哪怕面向完全相同的数据源,不同的人得出的结论或者决定也可能是截然不同的。三国赤壁大战,当庞统献计“若以大船小船各皆配搭,或三十为一排,或五十为一排,首尾用铁环连锁,上铺阔板,休言人可渡,马亦可走矣”时,同时听到这话的两个人,曹操下席而谢,“非先生良谋,安能破东吴耶!”,而徐庶却私下里扯住庞统“你好大胆,只恐烧不尽绝。”由此可见,“以人为本”是多么精辟的一句废话啊!
 
无论你NB还是SB,数据总在那里,不离不弃。
 
4.强调趋势和未来
 
大数据,更多的应该是分析过去,提醒现在,展望未来。无法用到实践中去的大数据都是耍流氓,无论这个结果是造福了全人类,还是帮助网站提高1%转化率,这都是有用的。
 
上图这充满着暴力气息的玩意是当年冷战期间美国和苏联研发的高速列车,他们将轰炸机上的涡轮直接装在了火车顶上。其中美国的M-497号在1966年俄亥俄州的铁轨上跑出了295.54公里/小时。虽然几十年后,才有了现代高速铁路,但是如果没有最初的这种野蛮实验,恐怕现在自主研发的高铁也没有那么充足的底气。

更多详细信息,请您微信关注“计算网”公众号: