1.2 独立性检验的基本思想及其初步应用
自主预习·探新知
情景引入
饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人,人的身体健康状况与饮用水的质量之间有关系吗?
新知导学
1.分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的__不同类别__,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的__频数表__称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
|
y1
|
y2
|
总计
|
x1
|
a
|
b
|
a+b
|
x2
|
c
|
d
|
c+d
|
总计
|
a+c
|
b+d
|
a+b+c+d
|
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否__相互影响__,常用等高条形图表示列联表数据的__频率特征__.
(2)观察等高条形图发现____和____相差很大,就判断两个分类变量之间有关系.
3.独立性检验
定义
|
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
|
公式
|
K2=,其中n=__a+b+c+d__
|
具体
步骤
|
①确定α,根据实际问题的需要,确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定__临界值K0__.
②计算K2,利用公式计算随机变量K2的__观测值k__.
③下结论,如果__k≥K0__,就推断“X与Y有关系”,这种推断__犯错误的概率__不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中__没有发现足够证据__支持结论“X与Y有关系”
|
预习自测
1.如下是一个2×2列联表,则表中m,n的值分别为( B )
|
y1
|
y2
|
总计
|
x1
|
a
|
35
|
45
|
x2
|
7
|
b
|
n
|
总计
|
m
|
73
|
s
|
A.10,38 B.17,45
C.10,45 D.17,38
[解析] 由题意,根据2×2列联表可知:a+35=45,解得a=10,则m=a+7=10+7=17,又由35+b=73,解得b=38,则n=7+38=45,故选B.
2.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( C )
A.0.25 B.0.75
C.0.025 D.0.975
[解析] 通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.