从底层到应用,那些数据人的必备技能

大部分不落地的分析都是伪分析,有一些探索性的可行性研究可以不考虑落地,但是其他的特定业务需求的分析都需要考虑落地,然后通过实践来反推你的作用,如此反复,才能慢慢的给你价值的肯定,同时提升你的分析技能,也只有这样才能证明你作为分析师、数据落地者的价值。

5、数据挖掘/算法

这块的话,经过这三年的摸爬滚打,感触蛮多的。体会比较深的吐槽主要有以下几点:

一个规则搞定了,还用什么算法。

·你的准确率怎么这么低?!

·你的准确率可以到99%吗?

·你的推荐有价值吗?你不推荐客人也会下那个产品的订单的。

·帮我做个大数据预测他想要什么?

很多时候,不同的场景对准确率的要求是不同的,所以在一定合理的场景下和业务进行据理力争是必要,不要害怕让业务吐槽,更多的时候管理好他们的预期。

有些场景下,推荐的价值在于『长期复购率』,所以不要每次都盯着ABTest的转化率来说事,让客人的费力度降低也是很有前途和前景的。一个智能的产品会让客人用起来爱不释手,虽然在这一次的转化中没有明显的差别,但是观察长期复购率才能体现价值。特别是要区分:高频和低频产品。频次比较低的产品就特别难体现出短期价值。

对于这个岗位的技能要求来说,没有要求你一定要从零开始实现所有的算法,现在有很多现成的算法包进行调用。最基本的要求是,你要知道每个场景会用到哪个算法,比如分类场景,常用的分类算法就有LR/RF/Xgboost/ET等等,此外,你还要知道每个算法的有效优化参数是什么、模型效果不好的时候怎么优化。还需要有算法的实现能力,语言方面可以用Scala/python/R/Java等。我们常说:工具不重要,重要的是你玩工具,不是工具玩你。

另外针对有监督式学习算法,算法工程师最好有很好的业务sense,这样在feature设计的时候才能更有针对性,设计的feature才有可能有很好的先验性。

6、深度学习(NLP,CNN,语音识别)

这块我没具体商用过,只是动手实践过。个人感觉商业化是重点吧,特别是大家都在观望说你的chatbot很有用啊,可是siri做了这么久,最后反响也一般。

现在客服机器人又很火,大家又在一通吐槽说,这个上下文理解的太差了,机器人的语义识别做的怎么这么差。谁做谁知道,对于中文的语义识别,难度比国外的难多了,因为中文的一种否定说法有太多种变体,你不知道我们会说哪种。

另外,常常有人吐槽说,你这个CNN这么复杂,我线上需要满足100ms内返回,搞的这么复杂,实时调用怎么整,肯定来不及了,最后只能考虑offline预测了。常常说这话的人,是不会自己写底层代码的,很多时候我觉得:不是你没有解决问题的办法,而是你没有去思考怎么解决问题,心智决定了你的产出。

整体来说,这块对个人的综合素质要求是很高的。如果你只是想简单利用现成的Model,提取中间层的特征,然后再套用其他的机器学习模型进行预测的话,倒也能很好的解决一些现实中的公司应用,比如yelp的图片分类。

不过,严格来说,这个不算是做深度学习的人,因为真正玩DL的人,是需要自己动手建模型,调参数,改symbol的,所以他们的编程能力是很强的,这点上,我一直都高山仰止。特别是一些创业公司,对于这个岗位的编程能力要求很高。如果你面试创业公司后没有下文了那就表示:你很优秀,但是不一定适合我们公司,因为我们要找的编程能力很强的人。

这块我不专业,所以就点到为止,不说太多。个人认为,在这块上需要有比较强的算法改造和优化能力,尽量的提高算法预测的速度,同时不断的提高算法的外延性提高精度,目前整个行业也都是朝着好的方向在发展。如果有很多人看到这块行业开出来的高工资,记得和招聘上的要求核对一下,自己哪块技能需要补充。这样你才能成为人中之凤。

对于未来,一片光明,对于未来,甚是期待,对于未来,一切可能。

做个总结:

以上说了这么多,唠叨了这么多,其实核心就是:如何用数据创造价值,如果你没有用数据创造价值的能力,那么就只能等着被数据淹没,被数据拍死在职场上,早早到达职业的天花板。