工具变量估计中有许多内生变量和虚拟变量。如何输入它们？

在计量经济学中，如果我们有大量高质量的数据，那么如果所有变量都不违反经典假设。得到的估计参数在大样本下将是无偏的和一致的。我们来看看经典的假设:ols1:模型相对于待估计的参数是线性的。Ols2:模型的数据源。对于一般的横截面数据，是独立同分布的。ols3:E(uX)=0 .没有内生假设。ols 4:x之间不存在完全的多重* * *线性关系ols 5:var(UX)= A ^ 2(A为常数)。Ols6:残差服从独立且相同的正态分布。其中，OLS 1-OLS 4是为了保证估计的参数一致。第三个假设是内生假设。现实描述:在计量经济学中，我们需要估计偏差效应。也就是说，自变量对因变量的影响。如果这个自变量与随机误差无关，那么我们得到的ols的估计参数将是一致的，可以说效果是好的。但现实中并非如此。现实中的变量一般都是内生变量，也就是说两个变量不是单方面决定的，而是相互决定的。所以一般来说，只要我们有误差或者缺失变量，就可能存在内生问题，也就是无法得到一致的估计。代理变量和工具变量:什么是代理变量？-缺失变量的解决方案。在一个等式中，假设:y = B0+b1 * x1+...+bn * xn+u .方程中的变量X与随机误差无关，或者说我们可以容忍一定程度的相关，那么我们可以说对参数的ols估计是满意的，但是如果我们可以知道U中的某些变量与X有关，并且这个缺失变量更重要，那么如何才能得到参数的更好的估计呢？如果我们能在U中找到一个与缺失变量Q相关的变量，而这个变量与X无关，那么我们就可以把这个缺失变量加到方程中进行回归。假设我们找到一个能在一定程度上反映Q的变量，或者一组变量Z，那么我们就可以把这个Z代入方程做ols。获得的参数的估计值优于原始值。但这里有一个问题，就是z永远不是q，所以某种程度上没有办法完全代表q。这样也会导致估计的参数有些不一致，但总比没有z的情况下估计的原始参数好，但在一定情况下，我们可以知道是高估还是低估。因为q = A0+A1 * X1+A2 * X2...+安* XN+C1 * Z65438+C2 * Z2...+CK * ZK。将此方程带入原方程(y = B0+B1 * x1+...+BN * XN+C * Q+U)。那么我们可以得到bi的估计值是bi+ai。其实这个估计也是有偏差的。事实上，参数估计值的偏差取决于两个因素。首先省略变量Q和Z之间的关系，即协方差是正还是负。第二:要看q和y的关系If: cov(q，z)>0和cov (q，y)>；0，向上偏置。If: cov(q，z)>0且cov (q，y) < 0，向下偏置。If cov (q，z)；0，向下偏置。cov(q，z)& lt；0且cov (q，y) < 0，向上偏置。工具变量法:工具变量法和代理变量法是不一样的，一定要注意这个区别，概念也是不一样的。总的来说，工具变量法可以解决变量缺失和测量误差的问题。现在来说一下测量误差的解决方法:比如在一次回归中，我们认为其中一个变量xi存在测量误差，这个测量误差与u有关，这时我们需要找到一个满足两个条件的变量Z:1，cov(xi，Z)>0，2、cov(z，u)=0 .当这两个条件都满足时，我们使用2sls方法进行回归。首先，xi对X(不包括xi)和工具变量集合(工具变量可能不是一个，也可能有十个以上，所以工具变量可能是一个集合)进行回归，通过回归得到一个拟合的xi。此时做y对x(其中xi被刚才回归得到的拟和值代替)。此时所做的回归是一致的。现在讨论隐变量问题:如何借助工具变量解决隐变量问题？一般来说，隐变量的问题可以通过上面提到的代理变量来解决，但结果是有偏差的，不一致的。虽然比没用的时候好，但是如果条件允许，那么我们可以用工具变量的方法，得到一个比代理变量更好的结果。这个条件是:如果我们知道隐变量Q无法精确测量或者没有公认的评价标准，那么我们可以用与Q相关的其他指标来进行工具变量，但是必须有两个相关的可测量的观测值，并且这两个观测值不能有测量误差。这时候我们随便把一个观测指标带入方程，就可以得到一个有测量误差的回归模型。这时问题就像测量误差的求解一样解决了，假设Q1和Q2是不同的指标。然后我们可以做Q 1对X和q2的回归，得到拟和。2.我们在做Y到X和q1的拟和回归。这时你得到的是一致估计量。