立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 887|回复: 5

[分享] 假设检验的逻辑是是什么?

[复制链接]
发表于 2025-3-14 10:38 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-3-14 10:39 | 显示全部楼层
打算尝试通俗易懂的解锁一下这个问题。我不习惯公式推导,还是喜欢通过好理解的方式去解释问题,所以肯定产生诸多不严谨,大神们轻喷。。。
一、前导知识
要理解假设检验,就要从概率分布图讲起。因为,如果你稍微翻一翻假设检验相关的文章,就会发现,里面用的最多的就是它——概率分布图:


这个图如何理解呢?
它的横轴是样本的取值,它的纵轴是相应取值出现的概率。
比如最简单的:扔骰子,它的概率分布图就是6个高度一样的点,因为1点到6点它们出现的概率都一样,都是16.7%(100%/6)。


这是一个最简单的概率分布图。
下面介绍一个复杂一些的概率分布图:正态分布的分布图。也就是最开始的那张图:


可以看出,正态分布的分布图特征很明显,中间最高,两边越来越低。

最高的地方就是取值的均值的地方。以投飞镖为例,如果你投了100次,对这100次投飞镖的环数取一个平均值,这个平均值比如说是5环,那么图中正中间的均值 就是5环。 的左边就是4环,3环,2环…… 的右边就是6环,7环,8环……而纵轴就对应着你投中相应环数的可能性。画出的概率分布图,就是这个样子:


可以看出,投中5环的可能性最高(概率的最高峰在中间 的位置):


这个事情很好理解,因为在“正常状态”下,如果均值是5环,说明你投飞镖的水平就是5环左右,所以投100次飞镖,肯定多数情况投在5环或者附近,所以投中5环的概率最高,而投在5环附近(比如4环、6环)的概率会比5环低一些,而脱靶或者正中把心的概率肯定更低了。
所以这个图形是均值处最高,而越往两边越低的一个“小山”一样的图形。
注意刚才说的“正常状态”,如果是“非常态”,比如一个飞镖冠军投飞镖,镖镖正中把心,那这个图就不是这样一个小山状的图形了。那它的图形什么样呢?对啦,那就是横轴在10环取值处,纵轴100%处的一个点(因为100%击中10环)。
这也是为什么,我们会把这种小山状的图形称作“正态”分布图,或者,“常态”分布图。

好了,从上面,我们可以看出正态分布图里“均值 ”很关键,因为它表明了正态分布图的山顶所处的位置。那还有没有什么其他因素会影响正态分布图呢?有,那就是这100次投标环数的“标准差”。
先了解一下“标准差”,标准差公式如下:


从公式可以看出,标准差计算方法为,这100次投标中,每次投飞镖的环数与均值之差平方,求得一个数值,再将所有这些数值求期望(简单理解为求平均),再开方。
“变量值与变量均值之差” 是什么呢?就是每次投飞镖偏离均值的幅度: =6.2-5


那为何要对它做平方呢?因为有时候环数与均值相减是个负数,比如上图中 =4.2-5是个负数,平方后,就可以把负号消除了。
这样在后面求平均时,每一项数值才不会被正负抵消掉,最后求出的平均值再开方就体现出“每次投飞镖偏离均值”的情况:



标准差比较大



标准差比较小

那么,标准差的大小是如何影响正态分布图的呢?


我们发现如果标准差比较小(上面左图),那么所有点更加集中在均值附近,想象一下,那是不是飞镖基本都打在了均值5环的周围?于是5环和附近的4环、6环被投中的概率增加,而更远处的2环、9环几乎没有打中的概率。于是正态分布图的高峰会变得更高,而山体变的更苗条了。
反之,想象一下,如果标准差比较大(上面右图),那么打中2环、3环、7环、8环等比较偏的地方的概率就上涨了,于是正态分布图的山体变胖,高峰也会随之变矮,因为投中5环和附近的4环、6环的概率变低了。下图很好的解释了这一点:




总结一下:


讲到这里还没有结束,at last but not least:正态分布有一个最最重要的特性,就是取值落在均值两边1倍标准差内的概率是个定值,是68.3%。
举上面的例子来说,如果你投飞镖均值是5环:
如果标准差是1,那么你投的飞镖落在4环(5-1)和6环(5+1)之间的概率就是68.3%;
如果标准差是2.2,那么你投的飞镖落在2.8环(5-2.2)和7.2环(5+2.2)之间的概率也是68.3%;
这个也好理解,我们来分析一下:
在概率图上,飞镖落在4环和6环之间的概率是什么?对了,就是图中4环至6环间的面积。


还记得刚才讲过,当标准差变大时,这个山峰会变矮变胖么?于是你会发现,当标准差由1变为2.2时,山峰变矮变胖,靠近均值处的山峰面积变小了,所以为了得到同样68.3%的概率,环数的范围就要变大,因为只有这样,山体变胖导致面积变大的部分才可以和山峰变矮导致面积变小的部分抵消掉(见下图),确保总面积仍然是68.3%。而这个环数变大的倍数,刚好就是标准差变大的倍数。


上面这个结论是可以推导出来的,这里咱们就简单记下这个结论就好了:正态分布下,无论 怎么变, 的概率都是68%。
另外,这个结论还可以不断引申:
正态分布下,    的概率是95%,   的概率是99%……
这也就是开篇那个图的含义了:


二、假设检验
好了,有了上面的知识,下面介绍假设检验就驾轻就熟了。
先说一下假设检验的基本逻辑。简单说,假设检验的思路是:
通过“小概率事件在少量实验中是几乎不可能出现的”这一结论,去证明假设是错误的,从而反证假设的另一面很可能是正确的。
首先解释一下为何要反证:
以上面投飞镖的例子,如果假设你是“百发百中”,那要把你投的每一次成绩进行统计,并且证明每一次投的都射中靶面了。这显然操作难度很大,因为如果你投了成千上万次,这是一个极大的工作量。但如果去证明你不是“百发百中”,就简单多了,只要有一次没上靶的案例,你就不是“百发百中”了。

所以一般的假设检验中,
原假设,也叫零假设,一般用 来表示,一般是一个正命题,你要做的就是找到一个反例去否定它。而原假设的反面,叫做备择假设,一般用 来表示,如果拒绝了原假设,也就证明了备择假设是正确的。

下面举个例子:
我们取一个人历史的投标成绩,假设这个人投飞镖时均处于一种正常状态,比如:当天他精神状态正常、靶子正常(不是移动靶之类的)、天气正常(没有风干扰)等等,并且,所取到的样本也足够的多。
拿他历史投出飞镖样本,就应该能算出一个 ,一个 ,并能够画出一个“正态分布”的概率分布图(因为均是在一种常态下投的飞镖)。


好了,那么这个由样本计算出的 正不正确呢?就要用到假设检验了。
咱们把原假设 定为:假设一个人,他的投飞镖成绩均值是
备择假设 设定为:他的成绩均值不是
下面是关键,就是要找一个反例去否定 ,这就要用到概率分布图了。
如果我让这个人立刻投一次飞镖,如果飞镖的环数落在了这个位置:


或者这个位置:


很显然,上面两个位置偏离均值 非常远,而且已经在 以外了,也就是说,这个情况都没有落在99%可能性内(回忆一下前导知识里,正态分布下飞镖落在 内的概率是99%),那就是在另外1%可能性下出现的事情,那就是一个非常小概率的事件了。
如果这个人只投了一次,这一次还出现了1%可能性出现的情景,那咱们就拒绝均值为 这一“原假设”,而接受均值不是 这一“备择假设”。
这就是假设检验的基本逻辑。
这也是为何,一开篇要用大量的篇幅介绍正态分布,因为正态分布下,通过 可以很快的确定出概率~

思路理解后,我们来看看假设检验的实际操作是怎么样的:
一般假设检验采用“置信区间法”或者“检验统计量”去检验。
1)采用“置信区间”:其实上面的例子就使用的“置信区间”进行检验。但在实际使用中,会先确定一个小概率事件的概率范围。比如,上面例子中,我把“小概率”定义为1%;我也可以把“小概率”定义为2%、 5%、10%。那相应也就越来越容易拒绝原假设了:



如果“小概率”是1%,那么落在红色的区域拒绝,拒绝难度比较大。



如果“小概率”是5%,那么红色的区域变大了,落在红色区域的可能性也变大了,更容易拒绝原假设了。

这个人为定的“小概率”,我们给起了一个名字叫做“显著性水平”。而红色区域有个名字,叫做“拒绝域”。
“拒绝域”没有覆盖到的区域,叫做“置信区间”,它其实是抛去“拒绝域”概率所剩的概率,如果“拒绝域”的概率是5%,那么“置信区间”的概率就是95%(如上图红色区域和白色区域)。可以简单理解为95%的情况下,我都相信原假设成立(所以95%是“置信”区间),一旦出现那5%的小概率事件,我就认为原假设不成立。
2)采用“检验统计量”:
检验统计量(又叫:标准化统计量)的公式为:


“点估计量”就是这个人再一次投出的环数,“假设值”就是我们从样本算出的环数均值 ,因为目前我们不能确定由样本算出的均值就是 ,所以它就是一个“假设值”(就是原假设 的假设值嘛 )。下面的“点估计量的抽样标准差”就是从样本算出的标准差
公式变形一下:
点估计量(我这一次投出的环数)= +检验统计量
这个公式等号右边看着很眼熟啊!
或者 超级像,有没有?!
所以你现在明白了吧,其实“检验统计量”就是一个倍数,这个倍数乘以标准差 再加均值 ,就是我投出的环数。
而采用 “检验统计量”去判断这一次投出的环数是否是小概率事件,实际上就是拿这个“检验统计量”与1.96、2.58去比较。
如果“检验统计量”大于1.96,那我这次投出的环数就落在下面图中的红色区域:


如果“检验统计量”大于2.58,那我这次投出的环数就落在下面图中更小的红色区域:


所以,其实采用“标准量”与采用“置信区间”是类似的原理,只不过观察的对象变化了。采用“置信区间”是观察我这次投出的环数,落在了概率图的哪个位置。采用“标准量”则是观察我投出的环数是偏离均值几倍的标准差,再拿这个倍数与1.96、2.58去比较。但其实最终原理都是一样的,都是判断是否存在小概率事件的过程。

三、其他
假设检验的逻辑基本讲完了。最后你可能要问,概率分布图有没有可能是别的样子?完全有可能。比如:


咱们举正态分布的例子,主要还是因为正态分布可以比较直观的看出 与概率的关系。但大自然是奇妙的,很多时候也并不是正态分布。那落在哪里算是小概率事件就全看你的统计学功底了~
最后,还是说一下,本文主要为了通俗易懂,一些概念不够严谨,你可以看完本文后再去看看课本,也许会豁然开朗~
(完)
回复 支持 反对

使用道具 举报

发表于 2025-3-14 10:39 | 显示全部楼层
假设检验简单来说,就是下面4步的推理逻辑:


为了你更容易理解,我还是从一个生活中的例子开始聊起。
这个例子里举王宝强和马蓉的例子并没有恶意,只是想说明假设检验的背后逻辑,而这个例子更容易让你理解清楚。

有一天,宝强怀疑妻子有可能出轨,但是自己逻辑能力太弱,于是就请了我这个侦探来帮他破案。
于是,我就拿出了自己的杀手锏武器,也就是破案的套路:假设检验。

第1步,我需要明确问题是什么。
问题:宝强要检验马蓉是否出轨
根据这个问题我提出来下面两个互为相反的假设。
零假设:马蓉没有出轨
备选假设:马蓉出轨了


为什么要提出两个假设呢?
因为从逻辑学来看,如果我们能够证明某个零假设不成立,那么其对立假设(也就是备选假设)肯定为真。
零假设和对立假设在逻辑方面是互补的,也就是说,如果其中一个假设为真,则另一个假设为假;如果我们推翻了其中一个假设,那就必须承认另一个假设。

对应这个例子里,如果我能找到足够强的证据来否定零假设(也就是马蓉没有出轨),那么我就能有效的说明零假设不成立,那么备选假设成立。

好了,接下来的问题就是:如何找到证据了。下面图片我们看下第2步

第2步:证据是什么?
根据中心极限定理,我们知道,合理足够多的样本可以代表总体。所以我要找到马蓉合理的样本数据来做证据。

接下来,我随机调查了马蓉这几年的样本数据,包括上网,开房,财务等。
根据这些样本数据显示出来的证据,我利用自己的统计概率知识,计算出了,在零假设成立的前提下,马蓉没有出轨的概率。


不算不知道,一算吓一跳。在零假设成立的前提下,样本数据计算出马蓉没有出轨的概率是0.01%

这个概率值在统计概率中有个专门的术语叫p值。也就是,在零假设成立的前提下,得到样本观察结果出现的概率。

在这里p值就是在零假设成立的前提下(马蓉没有出轨),用样本证据计算出的马蓉没有出轨的概率,p=0.01%

现在我们来看第3步:判断标准是什么
我不能说有了证据就立马说明人家马蓉出轨,错误的判断会造成宝强家庭的毁灭性破坏。
所以,提前制定好一个定罪的标准,有助于我能做到:绝不能冤枉一个好人,但也不可放过一个坏人。

因为我定的零假设是:马蓉没有出轨。所以这里定的标准是,如果马蓉没有出轨的概率<=5%,那么就直接否定了零假设,也就是马蓉没有出轨不成立。

这里比较拗口,马蓉没有出轨的概率<=5%,反面就是马蓉出轨的概率大于95%,所以马蓉有很大概率出轨,因此把零假设:马蓉没有出轨否定了。

这里用于做出决策的标准5%,在假设检验里叫做“显著水平”,用符号α:Significance Level (Alpha)表示,是一个概率值。


第4步:做出结论
那么,马蓉到底有没有出轨呢?

我们将样本证据计算出的p值与判断标准α比较下就可以了:
如果p< =α,那么拒绝零假设,也就是备选假设成立。
如果p>α,那么零假设成立

这代表什么意思呢?
α是判断标准,也就是小于这个值就表示零假设不成立。
p值在零假设成立前提下,用样本证据得出的概率,在这里表示有样本证据得出马蓉没有出轨的概率。

通过比较这两个值,我们发现:p远远小于α。

马蓉小姐姐,样本证据对你大大不利啊。本想零假设证明你没有出轨的,但是样本数据给出的证据,也就是你没有出轨的概率只有0.01%,这个概率远远小于判断标准5%

所以,我可以大胆的拒绝零假设。

回到我们一开始提出的假设:如果零假设不成立,那么预备假设成立。
现在样本数据显示零假设不成立,所以预备假设成立,也就是马蓉出轨了。

我将这个毫无破绽的推理过程告诉宝强后,宝强顺藤摸瓜发现名下财产也被马蓉卷跑。最后再考虑各种解决方法后,选择了求助于法律手段。并在微博上公布了这件事情,求助于舆论的压力。



福尔摩斯说:一旦排除所有的不可能,剩下的不管多么难以置信,一定就是真相。
在唐人街探案中,刘昊然和王宝强破案时,也引用了这句话


总结
最后,我们总结下假设检验的逻辑套路,你就更清楚了。


第1步:问题是什么?
确定你要研究的问题是什么。
根据这个问题我提出来下面两个互为相反的假设。
零假设:马蓉没有出轨
备选假设:马蓉出轨了

第2步:证据是什么?
在零假设成立的前提下,我们认为手头已有的数据是从零假设为真的总体中随机抽样得到的一个样本,但是这个可能性是多少?所以我们需要计算出这个概率,就是p值。
在例子中就,我们得出的证据显示,马蓉没有出轨的概率p=0.01%

第3步:判断标准是什么?
需要建立判断标准来检验证据是否有效。
假设检验常用的判断标准是与0.1%,1%,5%,在假设检验里叫做“显著水平”,用符号α,
它是一个概率值,用于表示不可能发生和可能发生的临界值。

第4步: 做出结论
根据你找到证据,和自己的标准,你做出了正确的结论。这是一种使用数据和概率来做决策的过程。

我们将样本证据计算出的p值与判断标准α比较下就可以了:
如果p< =α,那么零假设不成立,也就是预备假设成立。
也就是如果得到样本平均值的概率p值小于显著水平(5%或者1%或者0.1%),那么通常被视为不太可能发生,拒绝零假设。

在前面的例子中,p值是指在零假设成立前提下,用样本证据得出的概率,在这里表示有样本证据得出马蓉没有出轨的概率。

如果p>α,那么零假设成立

通过比较这两个值,我们发现:p远远小于α。
从而证明零假设不成立,备选假设成立,也就是马蓉出轨了。

假设检验这个过程,虽然套上了统计概率的外衣,但是说白了,底层思想其实很简单,就是:一种逻辑推理的套路。
这个逻辑推理,其实我们每天都在用。我们平常说某个人心思细腻,逻辑严谨。其实你也可以做到,那就是掌握今天的逻辑推理套路:假设检验。

更多推论统计知识可以看这个视频,通俗易懂:人人都能看懂的统计分析(Python实现)


<hr/>参考资料:科普中国专家猴子作品合集
《Excel数据分析和数据思维》视频
《Power BI数据分析》视频
《SQL从入门到进阶》视频
《Python数据分析从入门到进阶》视频
回复 支持 反对

使用道具 举报

发表于 2025-3-14 10:40 | 显示全部楼层
举个栗子。
我说我射击特别厉害,平均能打到8环,那么如何验证我是不是在吹牛逼呢,那就让我做几次射击看看我水平到底怎么样。
首先你选择相信我,假设我没吹牛,我的成绩在8环附近(这就是原假设)。
我作为一个8环水平的选手,射中的环数应该服从一个平均值为8的高斯分布。
但是事先说好我的原则:
1、可能我当天没吃饱饭呀、或者心情不好呀,而且也就只让我射击几次,我可能发挥不好等等的,所以你不能轻易怀疑我,如果我打7环、6环甚至4环你也不能怀疑我在吹牛
2、但是毕竟作为一个8环水平的选手,基本功还应该是在的,如果我只打出了2环,你就会怀疑我是不是在吹牛了,请注意,作为一个8环水平的选手,打出2环可是概率极低的事情
那么根据这个规则我们设置一个阈值比如3.6环(这个阈值就是临界值),如果我的成绩为2环(我的成绩是观察值),那我就是在吹牛。注意作为一个8环选手,打出小于这个阈值的概率是极低的(这个概率就是显著性水平)。
还有一种判断我是不是在吹牛的方法是,我已经打完了,计算打出小于我这个成绩的概率(这个概率是p值),如果这个概率小于显著性水平,则说明我的成绩小于于临界值,则说明我在吹牛;反之则我没吹牛。(这个部分结合下面那个图来理解)
用统计的说法就是:
1、不轻易拒绝原假设。原假设即使真的成立,而观察的样本由于数量较少,观察值存在一定的波动。所以我们要给原假设一定范围的容忍度,这个容忍度要尽可能大,观察值出现在这个范围内都是可以容忍的。
2、小概率事件发生不正常。如果小概率事件还是发生了,那么就说明原假设有问题。
结合这两点,我们设置一个随机变量的区域,这个区域是偏离原假设的,并且发生在这个区域的概率很小,如果实际观察到的值还是出现在这个不太可能出现的范围内,那么我们可以拒绝原假设。


两种决定是否接受原假设的方法:
1、给定发生偏离原假设极端情况的概率(这就是显著性水平alpha),可以计算得到对应的临界值(参照图1,偏离原假设的阴影部分面积表示显著性水平,对应的坐标表示临界值)。若观察值在临界值范围内,表示出现这种现象都是比较正常的,则可接受原假设;若观察值超出临界值范围,则表示在原假设条件下出现了不太可能的现象,那么我们就怀疑原假设的成立性,则拒绝原假设。
2、给定发生偏离原假设极端情况的概率。计算出现观察值及比观察值还要偏离原假设的概率(这就是p值)。(参照下面这个图来理解)若p>alpha,则表示观察值在临界值范围内,则可接受原假设(如图1);若p<alpha,则表示观察值在临界值范围之外,则拒绝原假设(如图2)。p值是一个人工定义的东西,它其实还是通过判断观察值是否在临界值范围内来决定是否接受原假设。



总结下:
对于一个假设,我不知道它是否成立,而且实际测试过程中也存在许多非确定性因素可能导致我的测试过程不准确,那么我给出一个出现错误的容忍度(也就是显著性水平alpha),根据这个容忍度可以得到相应临界值(若观察值在这个范围内都是正常的,否则不正常),然后将观察值和这个值比较。
但是有些情况下观察值不太好看出来,我们可以计算出发生观察情况以及更坏情况的值(也就是p值)。若p值比alpha值大,则表明观察值在临界值范围内,可接受原假设(如图1);若p值比alpha值小,则表明观察值在临界值范围外,则决绝原假设(如图2)。
回复 支持 反对

使用道具 举报

发表于 2025-3-14 10:40 | 显示全部楼层
Lady tasting teaIn a famous example of hypothesis testing, known as the Lady tasting tea example,  a female colleague of Fisher claimed to be able to tell whether the tea  or the milk was added first to a cup. Fisher proposed to give her eight  cups, four of each variety, in random order. One could then ask what  the probability was for her getting the number she got correct, but just  by chance. The null hypothesis was that the Lady had no such ability.  The test statistic was a simple count of the number of successes in  selecting the 4 cups. The critical region was the single case of 4  successes of 4 possible based on a conventional probability criterion  (< 5%; 1 of 70 ≈ 1.4%). Fisher asserted that no alternative  hypothesis was (ever) required. The lady correctly identified every cup which would be considered a statistically significant result.
copy自wiki:
http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Example
可能没有很好的回答lz的问题,不过可以和其他的回答参照一下。
回复 支持 反对

使用道具 举报

发表于 2025-3-14 10:40 | 显示全部楼层
假设检验的假设是关于总体的一个普遍性论断,这个检验是看从样本得出的结论能否推论到总体。@张小腾 的例子是完全的误导,把假设检验用到判断个案上去了,这是错的。
我这里不打算介绍假设检验的具体内容,只说它的基本逻辑。假设检验的基本逻辑是基于科学哲学的一个重要论点:全称命题只能被否证而不能被证明。这个道理很简单,个案当然不足以证明一个全称命题,但是却可以否定全称命题。
研究时,我们当然不希望否证自己的研究假设,所以我们就搞个和研究假设相反的虚无假设。如果我们否证了虚无假设,就相当于我们证明了研究假设。所以假设检验就是要试图否证虚无假设,或者说拒绝虚无假设。这是第一层道理。
第二层道理和抽样分布有关。由于抽样的原因,样本并不可能绝对地否证虚无假设。在个案中,小概率事件可以等同于不可能发生的事件。我们在这个意义上去在一定的事先约定的概率水平上去拒绝虚无假设。
话说一般的写统计书的人也未必真正理解,所以这个解释你一般看不到哦。
先说这么多吧。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表