询问样本选择偏差。
但是,如果选取的样本不是随机的,那么由这些样本数据估计的参数就不能准确地反映所研究的总体性质的分布,无论样本量有多大。但在不同事件的研究中,大部分样本都不是随机的,因为事件的总体总会相当大,甚至是没有边界的。因此,大多数抽样只能在研究者选择的限定范围和规则内进行,这就可能导致抽样选择的偏差,或者相关变量没有被纳入抽样,或者无关变量被纳入抽样。
比如研究一个地区劳动妇女的工资情况。这一领域的所有学龄妇女(包括就业和非就业妇女)构成了整体研究。在研究中,一般不可能获得这些女性的全部信息,只能获得一些就业女性的相关信息。提供信息的这部分被调查女性构成了研究的样本。
现在,研究的目的是通过样本中接受调查的女性提供的劳动数据,分析所有学龄女性(总体而言)如果就业的工资水平的一些决定因素。被调查的女性可以从人群中随机抽取,但只有就业女性能够提供其薪酬水平的信息,所以只能研究就业女性的样本数据。就业与不就业可以看作是个人的决定。如果女性的这种决定不依赖于要研究的劳动工资的决定因素,那么即使只研究就业女性的数据,我们也可以把样本看作是随机的。因为从理论上讲,决定女性是否就业的因素是外生的,并不影响所要研究的问题。
然而,妇女对就业和不就业的选择往往不是外生的,而是部分由所研究的问题决定的。比如工资的高低,工作环境的好坏,显然会影响女性的就业选择。这样,以就业女性为研究样本就不再是随机的,而是部分由研究问题的某些因素决定的,也就是说,研究的某些问题影响了样本的选取。按照传统的方法,由此样本估计的参数不能很好地反映总体的性质,会有偏差。另一方面,如果能够通过调查获得决定女性就业与非就业选择的因素或信息,那么在传统的分析方法中加入相关变量就可以解决样本选择偏差的问题。当这些信息不可用时,传统方法很难处理。赫克曼发明的方法可以简单方便地处理这个问题。因为导致统计推断出现偏差的样本的非随机性是由被研究对象(本例中为女性)的个人决定引起的,所以这个问题也叫自我选择问题。样本选择偏差也可能来自研究者的一些决策或数据处理。
问题解决
“赫克曼的两阶段模型”或者说赫尔希的方法就是解决偏差和自我选择的问题。
可以说,在各种社会科学研究中,选择偏差和自我选择的问题是最常见和不可避免的。因为在大多数社会科学的实证研究中,很难保证所得样本数据的随机性。我们可以以赫克曼首先研究的职业女性的工资决定为例来说明这一点。
19年70年代中期,赫克曼在研究美国劳动力供给的过程中遇到了选择性样本的问题,促使他提出了所谓的赫克曼修正法(或称两阶段法、赫尔希法、赫克特法)。这种方法简单适用,不仅在微观经济学中得到了广泛的应用,在其他社会科学的实证研究中也得到了广泛的应用。
在经济学领域,赫克曼方法的著名应用包括李在1978中所做的加入工会对工人相对工资影响的研究。这个问题涉及到自我选择,因为工人是否加入是一个选择性的决定,而不是任意的。决定工人是否加入工会的因素很多,其中一些是不可观察的。另一个著名的应用是威利斯和罗森进行的关于教育如何提高工资收入的研究。是否接受教育也是一个自我选择的问题。