当我们预测概率时,我们预测的是什么?
·1 天前很久之前参加过一次面试,面试题目让我记忆犹新。当时的面试过程大体是这样的:
面试官:你知道Logistic回归吗?
我:当然知道,很常用。
面试官:那么你觉着Logistic回归预测的概率该怎么解释?是某个个体成功的概率吗?
我:当然不是。如果只有一次观测,个体概率是估计不出来的。应该解释为,给定N个具有相同特征的个体,成功的比率等于估计出来的概率。
嗯,当时面试官不置可否,当然最后的面试结果是我被刷了(可能归功于我的经济学而非统计、计算机背景)
也许你觉着我上面说的有点拗口,也很难理解,当我们估计Logistic回归的时候,我们估计出的:
难道不该解释为个体成功的概率吗?
我想这种说法是有些问题的。
当我们说单独某个人成功的概率,应该是同一个人在相同的条件下重复100次,平均而言成功了多少次。如果记t为某个人尝试的次数,那么我们理想的模型(数据生成过程)应该是这样的:
然而,alternatively,现实的数据生成过程可能是这样的:
两者的差别,,可以理解为个体的不可观测的、与X独立的特征。
比如,如果D代表我来咖啡馆是点卡布奇诺(D=1)还是摩卡(D=0),X是我的性别,那么可能是我本身对卡布奇诺和摩卡的偏好。我的可能特别高,使得我每次来咖啡馆都点卡布奇诺而非摩卡,但是总会有另外的人喜欢摩卡而非卡布奇诺。
所以,当我们没有重复的观测到一个人的选择的时候,我们估计的误差项实际上是,因为与X不相关,所以跨个体估计时,我们相当于在每个分组平均了这个效应。
但是具体到个体,由于是不随着时间、选择次数变化而变化的,所以个体的概率并不等于其所在组的概率。
换句话说,也许男性(X=1)点卡布奇诺的概率是0.5,但是对我来说,这个概率可能是0.9。是因为有了大量的男性,有的人概率为0.9,有的人概率为0.1,平均起来使得我们的分组变成了0.5,而不是意味着我点卡布的概率就是0.5。
那么,搞清楚这个问题有啥意义呢?
意义在于,只有我们需要决策的个体足够多时,使用Logistic得到的概率才有意义。这个概率得到的更多的是跨个体的,而非针对个体的。
比如,如果我有一百万个客户需要进行决策,那么使用Logistic得到的概率进行决策,多数情况下是没有问题的。但是如果我有一百万个数据,但是针对十个客户进行决策,那么这个概率的意义就没有那么大了:我们并不知道这十个客户的个体异质性,样本太小以至于我们不能跨个体把风险平均掉。
比如,我有一百万个数据来评测个人贷款违约的概率。如果我有一百万个客户,那么基于Logistic的结果可能是没有问题的;但是如果我只有十个客户呢?平均而言问题也不大,但是由于的存在,实际上扩大了风险。