当我们预测概率时，我们预测的是什么？_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

当我们预测概率时，我们预测的是什么？

慧航 ·1 天前

很久之前参加过一次面试，面试题目让我记忆犹新。当时的面试过程大体是这样的：

面试官：你知道Logistic回归吗？
我：当然知道，很常用。
面试官：那么你觉着Logistic回归预测的概率该怎么解释？是某个个体成功的概率吗？
我：当然不是。如果只有一次观测，个体概率是估计不出来的。应该解释为，给定N个具有相同特征的个体，成功的比率等于估计出来的概率。

嗯，当时面试官不置可否，当然最后的面试结果是我被刷了（可能归功于我的经济学而非统计、计算机背景）

也许你觉着我上面说的有点拗口，也很难理解，当我们估计Logistic回归的时候，我们估计出的：

P(d_i=1|X_i)

难道不该解释为个体成功的概率吗？

我想这种说法是有些问题的。

当我们说单独某个人成功的概率，应该是同一个人在相同的条件下重复100次，平均而言成功了多少次。如果记t为某个人尝试的次数，那么我们理想的模型（数据生成过程）应该是这样的：

$P(D_{it}=1|X_i)=F(X_i'\beta+u_{it})$

然而，alternatively，现实的数据生成过程可能是这样的：

$P(D_{it}=1|X_i)=F(X_i'\beta+\alpha_i+u_{it})$

两者的差别， $\alpha_i$ ，可以理解为个体的不可观测的、与X独立的特征。

比如，如果D代表我来咖啡馆是点卡布奇诺（D=1）还是摩卡（D=0），X是我的性别，那么 $\alpha_i$ 可能是我本身对卡布奇诺和摩卡的偏好。我的 $\alpha_i$ 可能特别高，使得我每次来咖啡馆都点卡布奇诺而非摩卡，但是总会有另外的人喜欢摩卡而非卡布奇诺。

所以，当我们没有重复的观测到一个人的选择的时候，我们估计的误差项实际上是 $v_i=\alpha_i+u_{i0}$ ，因为 $\alpha_i$ 与X不相关，所以跨个体估计时，我们相当于在每个分组平均了这个效应。

但是具体到个体，由于 $\alpha_i$ 是不随着时间、选择次数变化而变化的，所以个体的概率并不等于其所在组的概率。

换句话说，也许男性（X=1）点卡布奇诺的概率是0.5，但是对我来说，这个概率可能是0.9。是因为有了大量的男性，有的人概率为0.9，有的人概率为0.1，平均起来使得我们的分组变成了0.5，而不是意味着我点卡布的概率就是0.5。

那么，搞清楚这个问题有啥意义呢？

意义在于，只有我们需要决策的个体足够多时，使用Logistic得到的概率才有意义。这个概率得到的更多的是跨个体的，而非针对个体的。

比如，如果我有一百万个客户需要进行决策，那么使用Logistic得到的概率进行决策，多数情况下是没有问题的。但是如果我有一百万个数据，但是针对十个客户进行决策，那么这个概率的意义就没有那么大了：我们并不知道这十个客户的个体异质性，样本太小以至于我们不能跨个体把风险平均掉。

比如，我有一百万个数据来评测个人贷款违约的概率。如果我有一百万个客户，那么基于Logistic的结果可能是没有问题的；但是如果我只有十个客户呢？平均而言问题也不大，但是由于 $\alpha_i$ 的存在，实际上扩大了风险。