下一个问题,我们到底怎么才能判断大数据真的对金融或者征信行业提供了帮助?
我说一个故事,我们招人的时候,我们对于在机器学习上有没有过硬背景是非常看重的,但这不是我们唯一考虑的因素。我们曾面试了好几个美国最好的学校出来的博士生,我们给他们一组数据,让他们在规定的时间返回结果,但不告诉他应该返回什么结果,相反,我们让他们自己定义到底什么样的结果才是他们满意的,为什么定义这样的指标。
事实上,十个里面有八九个都会用“准确率”来作为衡量算法是否准确的唯一标识,但是,这样的判断标准在征信领域是正确的吗?我既然这么问,显然答案是不对的。
征信的场景中,有哪些事情是我们看重的?
我举个例子,有个人说他(放贷)批了10个人,有9个证明是好的,只有一个是坏的,他说他的准确率90%,你听完后觉得他的算法是好的吗?
那么我会告诉你,这个答案不是简单的是或者而不是,他有一件事没有告诉你,真正的申请者可能有100个,其中99个是好人,只有1个坏人,而他把那唯一的一个坏人放到了批准名单里。从这个角度,虽然他批准的10个人中准确率是90%,但我们还能说这个结果还是好的吗?算法是好的吗?