名不正则言不顺。理论与实践中准确命名不仅有助于明确概念与内涵,而且为各方沟通提供了共同语言。如果术语定义不清或名称随意,则容易导致理解混乱、方法偏差和应用失误,从而影响整体工作的科学性和效率。准确命名可以帮助我们清晰区分不同概念,确保理论体系严谨,同时在实践中指导操作和决策,真正实现知识与应用的有效衔接。
中华人民共和国建政以来,本土人才与苏联引进的理工基础以及欧美的科学体系在实践中不断融合,形成了独特而复杂的知识结构。尤其在学术译名问题上,新华社与外交部分别发展出两大译名流派,使得同一原文往往存在音译、新华社译和英译等多种表达。这样的多方杂糅现象,从中国科学史角度来看,对理论体系的统一和应用方法的学习都带来了极大困扰,增加了跨学科、跨领域沟通和深入理解的难度。
以非参数统计为例,陈希孺先生的教材中有若干方法采用了俄文原文命名,在新版本中则采用了音译的方式;而在华东师范大学的其他版本著作中则广泛使用了新华社的标准译名。进一步的,在1990年后,各专著广泛采用了英文命名方法。然而众所周知,现代著作的理论描述对入门的帮助非常有限,因此本文将以英文命名为基础,并附上各种非参数统计方法的原名称(如有)、汉译名;最后将主要应用范围、理论基础与使用方法等一一说明,并附上维基百科的链接。以便非数学/统计学的朋友们使用。
Jacob Wolfowitz(雅各布·伏尔福维茨)首次将“非参数统计”这一概念引入中国,但彼时所用的原意为“分布自由的检验”,广泛适用于类型量表和次序量表的样本分析。
Section1 Kolmogorov-Smirnov test
1.1 原名与译名
·Колмогоров-Смирнов тест
·柯尔莫哥洛夫-斯米尔诺夫检验
1.2 主要应用范围
一种基于累计分布函数的非参数检验,用以检验两个样本分布是否相同或一个样本分布与另一个理想分布的异同:
检验两个样本是否来自同一分布(双样本 K-S 检验);
检验样本是否来自给定的参考概率分布(单样本 K-S 检验)。
其中,以前者更为常用。
1.3 理论基础
K-S检验的理论基础是经验分布函数(Empirical Distribution Function, EDF),基于经验分布函数确定统计量,这个统计量与如下两个因素有关:
参数分布的绝对位置,可以类比为秩次(绝对频数);
绝对位置在其所属样本中的相对位置,该样本中的相对位置即为经验分布函数(累积频数/样本总数)
基于两个分布之间的绝对偏差构造的差异函数,并计算差异函数的范围分布进行假设检验。
1.4 操作步骤
可参照《数理统计在教育研究中的应用: 非参数方法( 华东师范大学出版社, 1986)》Page108例1、Page110例2;
简要总结,柯尔莫哥洛夫-斯米尔诺夫用于评估评估数据是否符合某个理论分布(单样本KS检验),比较两个独立样本的分布是否相同(双样本KS检验)。
wiki链接:
https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Section2 McNemar's test
2.1 原文及译文
·McNemar's test
·麦克尼马尔检验
2.2 主要应用范围
麦克尼马尔检验是用于配对类别数据的非参数检验,用于检验两组相关样本在两分类变量上的分布是否存在显著差异,专门适用2×2的列联表。
在该检验中,假设研究对象在两个不同条件(如前后测量)下的响应是配对的,并且关注那些发生变化的配对(即从A变到B或从B变到A的个体)。一方面,参数的分布应当有且仅有两个水平,即需要归纳为“是”、“否”。即使连续采样也需要结合数据的物理/实际意义进行分类;另一方面,“配对”的含义在于采用特定的处理手段,麦克尼马尔检验可以用统计学方法论证该手段的有效性。
2.3 理论基础
其以卡方检验(χ²检验)为理论基础,专门用于处理配对四格表(2×2表)的数据。对于每对观察值,关注的是在两个相关条件下分类状态的变化,其中设b为从状态A转为状态B的样本数,c为从状态B转为状态A的样本数。检验的原假设为这两种变化的概率相等,即b==c。基于这一原理,构造的检验统计量为:
2.4 操作步骤
为了使用麦克尼马尔检验,一般将数据综合列入2×2的表格:
以原状态有效、新状态有效的频数定义为a;
以原状态有效、新状态无效的频数定义为b;
以原状态无效、新状态有效的频数定义为c;
以原状态无效、新状态无效的频数定义为d。
当b+c≤20时,取T2=min{b,c};
当b+c>20时,取理论基础中的公式作为检验统计量。
具体可以参照《数理统计在教育研究中的应用: 非参数方法( 华东师范大学出版社, 1986)》Page42~45的两道例题。
wiki链接
https://en.wikipedia.org/wiki/McNemar%27s_test
Section3 Mann–Whitney U test
3.1 原文及译文
·Mann–Whitney U test
·曼-惠特尼U检验
3.2 别名
曼-惠特尼检验、曼-惠特尼秩和检验、Mann-Whitney U 检验、Wilcoxon–Mann–Whitney 检验(WMW 检验)、Wilcoxon 秩和检验、威尔克逊检验等。
鉴于曼-惠特尼U检验(秩和检验)在非参数统计中的基础性与广泛性,因此关于该方法的应用范围、理论基础及操作步骤暂略。
3.3 概念辨析
鉴于Wilcoxon 秩和检验和 Mann–Whitney U 检验经常成对出现,在部分教材中经常混淆,故在这里进行简要说明:
二者的相同之处在于:Wilcoxon 秩和检验和 Mann–Whitney U 检验均属于非参数检验,其基本思想都是将两个独立样本合并后进行排序,然后比较两个样本在秩次上的分布。它们检验的原假设是两组数据来自同一总体分布,即不存在系统性差异。两者均适用于比较两个独立样本,特别是在数据不满足正态分布假设或数据为顺序数据时使用。无论是样本量较小还是较大,都可通过精确或渐近方法进行检验。通常,当数据为连续或有序时,这两种检验均能提供可靠的结果。
Wilcoxon 检验是基于秩和统计量,而 Mann–Whitney U 检验则是通过计数比较一组样本中有多少次其观测值小于另一组样本的观测值;具体而言,前者将两个样本数据合并后按大小排序,赋予秩次,然后计算其中一组(通常是较小样本组)的秩和。该秩和统计量与其理论分布比较,判断两组是否存在显著差异;后者考察所有可能的一对样本(一个来自第一组,一个来自第二组),统计第一组观测值小于第二组观测值的次数,即 U 统计量。
简而言之,两种方法在数学上是完全等价的,只是统计量的构造过程略有不同。Mann–Whitney中的U统计量与秩次满足如下关系:
其中W为秩和,n_1对应的样本量。
因此,两种检验原假设时得出的 p 值和结论是等效的。
附录·若干核心的非参数统计著作
Sheskin D J. Handbook of parametric and nonparametric statistical procedures[M]. Chapman and hall/CRC, 2003.
Richardson A. Nonparametric statistics for non‐statisticians: A step‐by‐step approach by Gregory W. Corder, dale I. foreman[J]. 2010.
Mendenhall W M, Sincich T L, Boudreau N S. Statistics for engineering and the sciences student solutions manual[M]. Chapman and Hall/CRC, 2016.
陈希孺. 非参数统计[M]. Zhong guo ke xue ji shu da xue chu ban she, 2012.
陈希孺. 柴根象[J]. 非参数统计教程 IM]. 上海: 华东师范大学出版社, 1989.
柳向东. 非参数统计: 基于 R 语言案例分析[M]. 暨南大学出版社, 2015.
Grabar? MI, Krasni︠a︡nskai︠a︡ K A. 数理统计在教育研究中的应用: 非参数方法[M]. 华东师范大学出版社, 1986.
贾俊平. 统计学[M]. 清华大学出版社有限公司, 2006.
统计学 基于R 第3版 by 贾俊平。