随机抽样的分类
纯随机抽样的具体方法如下:①抽签。将整个种群中的所有单位逐一签字,搅拌均匀后提取。②随机数表法。对总体中的所有单元进行编号,然后从随机数表中的任意起点(任意行或列)从左到右或从右到左、向上或向下抽取,直到达到所需的样本量。
纯随机抽样必须有一个完整的抽样框,即整个总体中所有单位的列表。当群体过大时,制作这样一个取样盒的工作量是巨大的,而且情况很多,导致群体名单无法获得。所以纯随机抽样很少用于大规模的社会调查。首先根据一个或几个特征将整个种群分成若干子种群,每个子种群称为一层;然后从每层中随机选择一个子样本,这些子样本合起来就是总样本。确定各层样本数的方法有三种:①分层比。也就是说,每层中的样本数与该层的总数之比是相等的。比如样本量n=50,总体N=500,那么n/N=0.1就是样本比,每层的样本数就是根据这个比确定的。②奈曼法。也就是说,每层中要采样的样本数与该层的总数及其标准差的乘积成正比。③非比例分配法。当某一水平的病例数在总数中过少时,为了使该水平的特征在样本中得到充分反映,可以人为地适当增加该水平的样本数在总样本中的比例。但这样做会增加推理的复杂度。
对人口进行分层的变量是分层变量,理想的分层变量是调查中要测量的变量或与它们高度相关的变量。分层的原则是增加层内的同质性和层间的异质性。常见的分层变量有性别、年龄、教育和职业。分层随机抽样在实际抽样调查中被广泛使用。在相同的样本量下,比单纯的随机抽样具有更高的准确性,而且管理方便,成本更低,效果更好。也称为等距采样。这是纯粹随机抽样的一个变种。系统抽样时,从1 ~ n开始对总体进行编号,计算抽样距离K=N/n。其中n是单位总数,n是样本大小。然后从1 ~ K中抽取一个随机数k1作为样本的第一个单位,再取K1+K,K1+2k...直到画出足够的N个单位。
系统抽样应防止周期性偏差,因为它会降低样本的代表性。比如军人的名单通常是按班排的,每个班10人,班长排1。如果抽样距离也是65,438+00,则样本完全由士兵或班长组成。
举个简单的例子:100人中,要抽出10人。现在分别从1到100编号,再分为1-10,11-20,26438。。。。。。91到100。10组中,第一组抽3号(其实你可以从1到10中任意选一个号)。然后第二组抽13,第三组抽23,第四组抽33。。。10组抽取93号。也称为多级采样。前四种抽样方法都是从总体中一次性直接抽样,称为单阶段抽样。多阶段抽样是将抽样过程分为几个阶段,并结合上述两种或两种以上的方法。比如用整群抽样的方法从北京某中学抽取样本学校,然后用整群抽样的方法从样本学校抽取样本班级,最后用系统或纯随机抽样的方法从样本班级抽取样本学生。当整体研究广泛而分散时,往往采用多阶段抽样来降低调查成本。但由于每一级抽样都会产生误差,多级抽样产生的样本误差也会相应增加。