作者/风仕
在上一期我们主要讲了统计分析中的统计描述指标,这期开始讲统计推断,首先讲的是常用的t检验,而在我们行t检验时,常会涉及z检验,那我们应该怎样进行区别与选择?
参数和非参数检验
参数检验
参数检验,是在总体分布已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。最常见的参数检验包括回归系数检验、比较检验和相关性检验。参数检验的方法有T检验、Z检验、F检验、方差分析(ANOVA)、二项分布总体的假设检验、皮尔森的相关性等,这些检验都是假设样本来自于正态分布的总体,将总体的数字特征看做未知的参数,通过样本的数据特征对其总体进行统计推断。
非参数检验
由于种种原因,人们往往无法对总体分布形态做简单假定,此时参数检验方法就不适用了。非参数检验,是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。非参数检验推断过程中不涉及有关总体分布的参数。常用的非参数检验的方法有两个独立样本的K-S检验、W-W检验、U检验、Spearman相关性等,多个独立样本的H检验、中位数检验等,卡方检验,二项分布检验、拟合优度检验等。
参数检验和非参数检验主要的区别
1.参数检验是针对参数做的假设;非参数检验是针对总体分布情况做的假设,这是区分的一个重要特征;
2.根本区别在于,参数检验要利用到总体的信息(总体的分布、总体的一些参数特征,如方差),以总体分布和样本信息对总体参数做出推断;
非参数检验不需要利用总体信息,直接以样本信息对总体分布做出推断;
3.正态分布用参数检验,非正态分布用非参数检验。
如何选择参数和非参数检验
在参数测试和非参数检验之间进行选择取决于几个因素,例如:
数据分布:如果数据呈正态分布,则参数检验更合适,因为它们具有更强的统计能力(更擅长检测显着影响)。如果数据不是正态分布的,则应使用非参数检验,因为它们对数据的假设较少。
样本大小:当样本大小较小时,非参数检验更适合,因为它们对样本分布的假设更少。当样本大小较大时,参数检验更可靠。这是因为非参数检验对违反假设的敏感性较低,而这种情况更可能发生在小样本中。
等方差:参数检验假定各组之间的方差相等。如果数据不是等方差的,则应改用非参数测试。数据分布的偏斜程度:如果数据分布严重偏斜,则非参数检验可能更可靠,因为它们对分布的假设更少。
检验目的:如果需要检验的是中位数、百分位数、比例等非参数统计量,那么非参数检验更适合。如果需要检验均值、标准差等参数统计量,那么参数检验更可靠。
z(U)检验
什么是Z检验?
Z检验,即是U检验,用来判断样本均值是否与总体均值具有显著性差异的方法。通过正态分布理论来推断差异发生的概率,从而比较两个均值的差异是否显著。
应用条件:
1.非正态总体或总体分布类型不明,但样本量较大n≥30;
2.正态分布总体,小样本、总体标准差σ已知。
适用场景:
当样本量大(一般规则是样本量大于30)且总体方差已知时,Z检验用于比较样本均值与总体均值,或者比较两个样本均值的差异。Z检验假设数据遵循正态分布。
应用:
评估一个大学毕业生的平均起薪是否与全国平均水平有显著差异,假设全国平均起薪的方差是已知的。
t检验
什么是T检验?
T检验,又称t test,用于样本量较小(n<30)且总体标准差σ未知的正态分布。它是使用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
为什么小样本用t检验?
从抽样研究所得的样本均数特点来看,只要样本量>30,(无论总体是否服从正态分布)抽样研究的样本均数服从或者近似服从正态分布;而如果样本量较小(参考样本量<30),抽样分布随着样本量的减小,与正态分布的差别越来越大。此时需要用小样本理论来解释样本均数的分布,而t分布就是小样本理论的代表。因此,小样本的检验需要用到t检验。
t′检验
当服从正态分布的两个小样本总体方差不齐时,可采用近似t检验即t′检验。t′检验有三种方法,即Sstterhwaite法、Welch法和Cochran&Cox法。其中Cochran&Cox法是对临界值进行校正,而Sstterhwaite法和Welch法是对自由度进行校正。
应用条件:
1.随机样本,即数据的独立性。
2.来自正态分布的总体,即各样本所代表的总体呈正态分布。若不满足则可以利用一些变换(对数、开根号、倒数等)将其转换为服从正态分布的数据;若还是不满足,只能利用非参数检验方法。
3.各样本所代表的总体方差齐。
4.只有1个或2个样本,没有多个样本
但是在实际应用时与上述条件略有偏离,只要其分布为单封,并且近似对称分布,对结果影响不大。在软件上作图可以看到来判断。
适用场景:
当样本量小(少于30)且总体方差未知时,用t检验来比较样本均值与总体均值(单样本t检验),或比较两个独立样本的均值(独立样本t检验),或比较同一组个体在不同条件下的均值(配对样本t检验)。
应用:
评估两个不同教学方法对学生成绩的影响是否有显著差异。
SPSS主要在分析下拉菜单中的比较均值项进行t检验:
所包含的具体统计过程如下:
1.均值:该过程实际上更倾向对样本进行描述,它可以对需要比较的各组进行统计描述,进行检验前的预分析。
2.单样本t检验:进行样本均数与已知总体均数的比较。
3.独立样本t检验(成组设计的两样本均数比较):进行两样本均数差别的比较,即通常所说的两组资料t检验。
4.配对样本t检验:进行配对资料的均数比较,即配对t检验。
5.单因素AN0VA:进行多组样本均数的比较,即成组设计的方差分析。
F检验
什么是F检验?
F检验,又叫方差比率检验、方差齐性检验、方差分析ANOVA,是一种在零假设下统计服从F分布的检验。用于判断两个及以上的样本的方差是否有差别的显著性检验。
t检验就需要F检验来验证是否方差齐,只有方差齐了,t检验的结果才反应两组数据是否有差异;如果方差不齐,就会把组内差异也考虑进去。同时,t检验只适合一个或两个样本的检验,而F检验适用于两个或多个样本的检验。
F检验的原理认为不同处理组的均数间的差别来源两个:
一是不同的处理造成的差异,称为组间差异,用变量在各组的均值与总均值之偏差的平方和的总和表示,即为SSA,其中组间自由度dfb=组数-1;
二是随机误差,如个体间的差异等等,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记为SSE,其中组内自由度dfw=样本总数-组数。
同时,用均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,方差分析就是用组间均方除以组内均方的差,再与F检验标准值比较;若F接近标准值则说明各组均值间差异没有统计学意义,若F远大于标准值,则说明各组均值间的差异有统计学意义。检验统计量F=组间均方/组内均方=(组间离差平方和/组间自由度)/(组内离差平方和/组内自由度) 。
应用条件:
1.总体均值未知
2.样本来自于正态总体
适用场景:
主要用于比较两个或多个样本的方差是否相等,或在方差分析(ANOVA)中比较三个或更多组的均值。F检验是了解不同组之间是否存在显著差异的第一步。
应用:
评估三种不同营销策略对销售额的影响是否存在显著差异。
z检验和t检验的区别
t检验和z检验都是常用的统计方法,是用于检验样本数据是否能代表总体数据达到一定置信度水平的方法。
需要注意的是,z检验在实践中不常使用,因为它需要知道总体标准差,而这很少是已知的。标准差是统计度量,量化了数据围绕均值的分布(或变异性)。相比之下,t检验使用样本估计的标准差。z检验通常用于演示假设检验的统计理论。另一个关键区别是z检验使用正态分布来推导检验的临界值,而t检验使用t分布。t分布是推断统计学中另一种常见的概率分布,其关键特征是随着样本大小的变化而变化。
具体需要根据以下因素判断:
①样本容量:t检验在样本容量较小(少于30)的情况下使用效果更好,z检验在样本容量较大(一般规则是样本量大于30)的情况下使用效果更好。
②总体方差已知或未知:当样本属于正态分布且方差已知时,对于均值 μ 的检验使用 z检验。当总体方差已知时,z检验更为适用;当总体方差未知时,使用t检验更为合适。总体方差未知时,可以从样本方差近似估计总体方差。
③置信区间:在进行假设检验的过程中,t检验使用t分布来计算置信区间,而Z检验则使用标准正态分布的分位数。
④精度:t检验受到样本容量和样本方差的影响,因此不够精确。在样本容量足够大、样本方差接近总体方差时,z检验更加精确。
z检验:z检验是以z分布(标准正态分布)为基础,以z值为检验统计量,统计量z值与Zα/2(双侧)界值相比较,判断概率P值,做出推断结论。
z检验、t检验和F检验的关联
1.t检验和z检验在相似性上较为接近,但它们的适用场景不同。例如,一个基本的区别是当样本量小于30个单位时,适用t检验,而当样本量超过30个单位时,通常进行z检验。另外,z检验还要求总体的方差已知,这个条件一般难以满足
2.z检验用于大样本且总体标准差已知的情况,t检验用于小样本或总体标准差未知的情况,而F检验则用于比较两组以上的方差或多个群体的均值差异。
欢迎关注我,让你身边多一位熟悉统计分析方法的帮手,有以下付费视频或服务可供选购:
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。
本文暂时没有评论,来添加一个吧(●'◡'●)