如何理解工具变量回归中的局部均值

来源:知乎。

改变基本原理zcw

假设你想看当兵对你未来工作收入的影响,但这里面有内生性,所以你想找一个iv,影响当兵的选择,但不直接影响收入。

你发现越战的时候,美国是抽签决定谁去当兵的。抽签的标准是出生日期。如果你被抽中了,恭喜你,政府让你去当兵。如果你没有被抽中,政府也不会强迫你去当兵。

因为抽奖是随机的,不直接影响收益,但确实影响你是不是军人,所以是个合适的工具变量。

但抽签只能说明当兵的一部分行为。想象世界上有四种人:

1,坚定的爱国者:如果被抽中,自然会义无反顾地去参军;不会画,没条件创造条件也要去。

2.坚定反战:打不赢就不当兵;我中了彩票,宁愿坐牢也不愿当兵。

3、普通人:被抽中了就去当兵;打不赢就不去当兵。

4.疯子:如果赢了,宁愿坐牢也不当兵;打不赢就算死也要去当兵。

这样看来,抽签对是否当兵的影响是异质的。在这种情况下,我们的iv的估计器就晚了。

例如,考虑一个中了彩票并参军的人。这个时候,我们不知道他是一个普通人,还是一个坚定的爱国者,也不知道如果他没有中彩票,他会选择什么。同样,考虑一个没有中彩票也没有去当兵的人。这个时候,我们不知道他是一个普通人,还是一个坚定的反战者。我不知道如果他中了彩票他会选择什么。

假设一个军人的收入是Y(1),一个非军人的收入是Y(0),那么不抽签的时候,四个人的收入是:

1、y(1)

2、y(0)

3、y(0)

4、y(1)

在抽签中,四个人的收入分别是:

1、y(1)

2、y(0)

3、y(1)

4、y(0)

也就是说,抽签和被处理之间并不存在一一对应的关系,是异质的。这时候如果直接从彩票的零钱中减去,发现对于1和2,直接截掉。

那么剩下的就是我们感兴趣的加工效果了?对于3,y(1)-y(0)为真,但对于4,则为y(0)-y(1)。如果我们得到一个平均数,也就是3和4的人数加权,我发现加权数可以是任意数,正数,负数,零,即使3的平均处理效果真的是正数。

我们假设没有疯子。

也就是说,对于一个正向激励,人们总是在激励后比激励前更有可能去做。于是第四种人没了,我们减法得到的是第三种人的y(1)-y(0)。这确实是我们感兴趣的加工效果,但只是第三种人的加工效果,所以晚了。