生物统计学取样

为了估计总体的参数(如均值、率、标准差等。),从中抽取一些个体进行分析的样本称为抽样。抽样方法应能防止主客观因素造成的偏倚(即系统误差),保证样本对总体的代表性。简单随机抽样是通过抽签或等效方式从总体中抽取个体样本。要点是:总体而言,每个人都必须有平等的机会被抽到。系统抽样是将种群分成时间或空间顺序相等的10个部分,然后从每个部分机械地抽取第一个个体形成样本,一次性随机抽取。比如要抽查十分之一的学生成绩,可以从0到9的10个整数中随机选取一个数字。如果是3,将选择最后一个数字是3的所有学生。分层抽样是将人群分为不同的层次(如地区、年龄、性别等。)事先,然后从每一级按适当比例取样。用这种方法,可以从层间差异大的总体中获得一个有代表性的样本。整群抽样是以群体为基础的抽样,对抽取的所有单位进行全面调查。这种方法容易实现,但抽样误差较大,不能用基于简单随机抽样的通用公式计算抽样误差。另外,上述方法也可以分阶段使用,也可以混合使用。如两阶段抽样、多阶段抽样、分层整群抽样、多阶段等概率抽样等等。

用样本统计量估计总体参数时不可避免地会存在抽样误差,其大小与个体变异(标准差)的大小成正比;与样品含量的平方根成反比。表示抽样误差的统计指标是标准差[1434-01]或用统计量[1434-02] (7)代替,相当于把每个样本(假设同一总体有多个样本)的均值(或比率)看作一个个体时的标准差,反映了来自同一总体的差异。其他抽样方法的公式比较复杂。

两组或两组数据差异的显著性,总会有或大或小的差异。问题是,这种差异仅仅是抽样误差的反映还是因为他们来自不同的人群?有实质性的区别吗?用统计学术语来说,就是判断数据之间的差异是否“显著”。用统计方法来推断差异的性质,称为差异的显著性检验。显著性检验的方法有很多种,基本步骤如下:首先假设数据全部来自同一总体,即假设待比较的数据之间没有实质性差异,称为零假设;根据原始数据计算这种因采样误差而产生的程度差异的概率;如果很小,则根据“小概率事件实际上不太可能发生”的原则否定零假设,认为“差异显著”,即这种差异从统计学角度来看是有意义的;另一方面,如果不是太小,也不会否定零假设,认为差异不显著,即不能排除抽样误差范围内的波动。正确应用显著性检验,可以使实验或调查的结论建立在更加科学可靠的基础上,避免简单化和绝对化。

显著水平的概率只能是相对的,在生物数据的差异显著性检验中习惯用=0.05作为小概率的上限。有时候为了严格,规定=0.01。它被称为显著性水平,即当零假设是正确的(I型错误)时,错误地否定零假设的概率。但也不是越小越好。如果零假设是错误的但不能被否定,那么它的概率(II型错误)会随着规定的变小而增加。增加样本量可以降低I类或II类错误的概率。

比较两个计数数据最简单的差异显著性检验是在零假设系统下比较“来自同一总体”的两个计数之和。

【1434-03】(8)服从标准正态分布。换句话说,>概率1.96 < 0.05(表1【标准正态分布的尾部概率汇总】)。

比如“714”治疗喘息性支气管炎,与氨茶碱对比:每位患者交替使用这两种药物治疗一个疗程。一半的病人先吃A药,另一半先吃B药。结果氨茶碱在16(= 16)患者中效果较好,在5例“714”(= 5)患者中效果较好。

将上述结果代入等式(8)

[1434-03a]因为>:1.96,& lt0.05,所以否定了零假设,所以可以认为两种药物疗效不一样,即“714”疗效不如氨茶碱。

任何具有标准正态分布统计量的显著性检验都可以称为检验。

也可以对两个平均值进行比较测试:

[1434-04] (9)其中和分别代表第1个样本的平均标准和含量,以此类推。对于总体方差,通常是未知的,所以经常使用右边的近似公式。当两个样品的含量+=

该测试是基于统计的概率分布(称为分布,见表2[喷洒后净增加长度(cm)])的显著性测试。当比较两个平均值时,

[1434-05] (10)其中是组合方差,即

[1434-06]

[1434-07] (11),其中表示1样本中的数据和第二个样本中的数据,其他符号的含义与前面的自由度=±2相同,用[tav]表示显著性水平和自由度的临界值,可从表3中查到。如果(10)计算的绝对值大于[tav],那么<有显著差异。

例如,在一个小区田间,选择20袋生长均匀的幼苗进行试验,其中随机选择10袋用粗制“920”溶液喷洒,其余用水喷洒作为对照。三天后,测量幼苗的净增长长度,结果见表2[喷洒后幼苗的净增长长度(cm)]。

通过(11)

将[1434-08]代入公式(10)

[1434-09]查找表3[值表]值表" class = image & gt当= 0.01,= 10+10-2 = 18,0.01,18 = 2.88;这个例子= 4.55 & gt2.88,& lt0.01,差异显著。

结论:920粗品能促进水稻幼苗的生长。

两个比率的比较当样本很大,使得两个样本的正负数都大于5时,可以使用该检验:

[1434-10] (12),和,分别代表1组的正率、负率和含量,以此类推。如果不能满足应用测试的上述条件,可以使用更接近的测试:

[1434-11](13)其中[p-1]=(1+1)(+2),1是第65438个。自由度=+-2。

比如A组=23,其中两个呈“+”反应,B组=77,都是“-”反应。现在,让我们来测试差异的显著性。[p-1]=(2+1)/(23+2)= 0.120,[q-1]= 1-0.120 = 0.880;[p-2]=(0+1)/(77+2)= 0.013,[q-2]= 1-0.013 = 0.987 .代入(13)公式=1.65,=23+77-2=98,接近100。从表3【值表】值表" class = image >;知道[1435-33],> 0.05,所以没有显著差异。

置信限是以样本来估计总体的,不可避免地会存在抽样误差,从而导致统计量的可信程度和可信范围的问题。如果我们把统计量(或)看成一个个体,整体的均值为,标准差为=/[1435-0];而无论分布是否正态,只要不是很小,就是近似正态分布,即=(-)/近似标准正态分布。所以下面的公式

[1435-01] (14)成立的概率为0.95。替换为,并稍作变换,即样本统计量之和估计总体参数的区间(范围):

区间[1435-02] (15)的实际计算值因样本而异,但它们覆盖[u1] ──称为置信水平──的概率为95%,因此公式(15)称为95%置信区间,这是上限。

例如,根据表4中的数据【161 7岁男生身高的频率分布】,可以计算出0 7岁男生的平均身高为161 (cm),标准差=4.63,标准误差。根据公式(15),7岁男孩整体平均身高的95%置信限为[114.95,115.73]。

两个总体均值之间差异的置信限可计算如下:

[1435-04] (16)中的符号含义与上一公式中的符号含义相同。当置信水平(1-)为95%时,= 0.05;=1+2-2;因此,[tav]的值可以从表2[喷涂后净增加长度(cm)]中找到。

方差分析也是基本的统计分析方法之一,常用于分析实验数据。用于检验各组均值差异的显著性,以及多个因素的个体效应和交互效应的显著性。基本思路:正态分布数据的变异可分为两部分:不可控的、无法解释的“误差”和来源明确、解释清楚的“影响”。后者又可进一步分为各种因素及其相互作用所造成的影响。

按因素的不同级别分组的数据结构;

观察值=平均效应+本水平(组)效应+误差(17)检验各组数据差异的显著性时,零假设相当于“所有组效应均为零”;当零假设被拒绝时,替代假设相当于“至少一个处理(水平)的效果不为零”。

一般来说,数据间的方差是用与均方偏差之和(记为)来衡量的,然后除以自由度(记为=/),自由度反映的是方差的平均程度。让每个组都有数据,那么* * *组就有=。它们的全变差[1435-05]代表第一组的第一个数据;组间方差[1435-06]为第一组均值;组内变化(即误差)[1435-07]。它们之间存在以下关系:

=+ (18)也可以增加它们的自由度:

(-1)=(-1)+(-)(19)组间均方与组内均方之比=/(-1)。

=/ (20)可用于检验组间差异的显著性。的边界值可从值表中找到。用于方差分析的软件可以打印出包含和相应尾部概率值的表格(表6[表5中的ANOVA数据表])。

例如,30名收缩压约为200毫米汞柱的高血压患者被随机分为三组,每组使用一种药物,一个疗程后测量他们的血压。结果如表5所示[三组患者用药后的血压(mmHg)]。

由现成的计算机软件打印的结果如表6所示[表5中的ANOVA数据表]。

按两个因素分组的数据结构:

观察值=平均值+行效应+列效应

+交互效应+误差(21),其中“均值”指平均效应,行效应指按1因子分组的组效应,列效应指按第二因子分组的组效应。交互影响的含义:当数据按两个或两个以上的因素分组时,如果这些因素的作用不是相互独立的,即一个因素的作用随另一个因素的水平而变化,则称这两个因素之间存在交互影响。

比如三种疾病的患者尝试四种药物后的血压变化,见表7【原始数据】。每个数据代表一个病人的药物治疗结果。

表8【ANOVA表】是计算机给出的结果。

从数值上可以看出,三种疾病类型之间无显著差异;药物之间有显著差异;药物和疾病类型之间没有明显的相互作用。“均值”一般是显著的,即不为零,除非它来自成对数据之间的差异或两个均值之间的差异。

只有经过反复实验,即两个因素在不同水平上的搭配有两个以上的数据,才有可能计算出交互影响项的变化量。这是设计的时候应该想到的。

以上内容不难推广到三个以上因素的方差分析。

理论的验证──实验生物学注重实验和调查。归纳理论和演绎假说必须经过实践的验证。因为个体差异是生物数据的固有特性,所以这种验证只能是统计学上的。