统计案例
了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.
1. 2 2 列联表
设 X,Y 为两个变量,它们的取值分别为 1 2{ }x x, 和 1 2{ }y y, ,其样本频数列联表( 2 2 列联表)如下:
1y 2y 总计
1x a b a+b
2x c d c+d
总计 a+c b+d
a b c d
2.独立性检验
利用随机变量 2K (也可表示为 2 )
2( )
( )( )( )( )
n ad bc
a b c d a c b d
(其中 n a b c d 为样本容量)来
判断“两个变量有关系”的方法称为独立性检验.
3.独立性检验的一般步骤
(1)根据样本数据列出 2 2 列联表;
(2)计算随机变量 2K 的观测值 k,查下表确定临界值 k0:
2
0( )P K k
0.50 0.40 0.25 0.15
0.100 0.050 0.025 0.010
0.005 0.001
0k
0.455 0.708 1.323 2.072 2.706
3.841
5.024
6.635
7.879 10.828
(3)如果 0k k ,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 2
0P K k ;否则,就认为在犯
错误的概率不超过 2
0P K k 的前提下不能推断“X 与 Y 有关系”.
【注意】(1)通常认为 2.706k 时,样本数据就没有充分的证据显示“X 与 Y 有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,
因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对
统计计算的结果作出错误的解释.学%科网
(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
考向一 两类变量相关性的判断
已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算 2K ,然后作出判断.
典例 1 利用独立性检验来考查两个分类变量 X 和Y 是否有关系时,通过查阅下表来确定“ X 和Y 有关系”
的可信度.如果 5.024k ,那么就有把握认为“ X 和Y 有关系”的百分比为
2P K k
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
K 0.455 0.708 1.323 2.072 2.706 3.84 5.024 6.635 7.879 10.828
A. 25% B. 75%
C. 2.5% D.97.5%
【答案】D
【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据
进行比较,而在观测值表中对应于 5.024 的是 0.025,从而得到结果.
典例 2 有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:
附表:
2P K k 0.05 0.025 0.010
0.005 0.001
K
3.84 5.024
6.635
7.879 10.828
则认为多看手机与人冷漠有关系的把握大约为
A.99.9% B.97.5%
C.95% D.90%
【答案】A
【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给
的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得
到所求的值大于 10.828,得到有 99.9%的把握认为看电视与人变冷漠有关系.
1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取 60 名高中生做问卷调查,得到
以下数据:
作文成绩优秀 作文成绩一般 总计
课外阅读量较大 22 10 32
课外阅读量一般 8 20 28
总计 30 30 60
由以上数据,计算得到 2K 的观测值 9.643k ,根据临界值表,以下说法正确的是
附:
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.05 0.010 0.005
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879
A.在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”
B.在犯错误的概率不超过 0.001 的前提下,认为作文成绩优秀与课外阅读量大有关
C.在犯错误的概率不超过 0.05 的前提下,认为作文成绩优秀与课外阅读量大有关
D.在犯错误的概率不超过 0.005 的前提下,认为作文成绩优秀与课外阅读量大有关
考向二 独立性检验与概率统计的综合
独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档
题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作
出判断,再根据概率统计的相关知识求解问题.学&科网
典例 3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”
的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的
测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平
均成绩(均取整数)如下表所示:
现规定平均成绩在 80 分以上(不含 80 分)的为优秀.
(1)试分别估计两个班级的优秀率;
(2)由以上统计数据填写下面 2 2 列联表,并问是否有 75% 的把握认为“加强‘语文阅读理解’训练对提高
‘数学应用题’得分率”有帮助?
参考公式及数据:
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
,其中 n a b c d .
2
0( )P K k 0.40 0.25 0.15
0.100 0.050 0.025 0.010
0k
0.708 1.323 2.072 2.706
3.841
5.024
6.635
【答案】(1)甲、乙两班的优秀率分别为 60% 和50% ;(2)列联表见解析,没有 75% 的把握认为“加强‘语
文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
(2) 2 2 列联表如下:
因为
2
2 100 (30 25 20 25) 100 1.010 1.32350 50 55 45 99K
,学科.网
所以由参考数据知,没有 75% 的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,
从中国某城市的高中生中随机抽取了 55 人,从美国某城市的高中生中随机抽取了 45 人进行答题.中国高
中生答题情况是:选择家的占 2
5
、朋友聚集的地方占 3
10
、个人空间占 3
10
.美国高中生答题情况是:朋友
聚集的地方占 3
5
、家占 1
5
、个人空间占 1
5 .如下表:
在家里最幸福 在其他场所幸福 合计
中国高中生
美国高中生
合计
(1)请将 2 2 列联表补充完整,试判断能否有 95% 的把握认为“恋家”与否与国别有关;
(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出 4 人接受进一步调查,再从 4 人中随机
抽取 2 人到中国交流学习,求 2 人中含有在“个人空间”感到幸福的学生的概率.
附:
2
2 n ad bck a b c d a c b d
,其中 n a b c d .
2
0P k k
0.050 0.025 0.010 0.001
0k 3.841 5.024 6.635 10.828
1.观察如图所示的等高条形图,其中最有把握认为两个分类变量 x,y 之间有关系的是
A. B.
C. D.
2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,
并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是
A.100 个心脏病患者中至少有 99 人打酣
B.1 个人患心脏病,那么这个人有 99%的概率打酣
C.在 100 个心脏病患者中一定有打酣的人
D.在 100 个心脏病患者中可能一个打酣的人都没有
3.已知两个统计案例如下:
①为了探究患肺炎与吸烟的关系,调查了339 名50 岁以上的人,调查结果如下表:
患肺炎 未患肺炎 总计
吸烟 43 162 205
不吸烟 13 121 134
总计 56 283 339
②为了解某地母亲与女儿身高的关系,随机测得 10 对母女的身高如下表:
母亲身高(cm) 159 160 160 163 159 154 159 158 159 157
女儿身高(cm) 158 159 160 161 161 155 162 157 162 156
则对这些数据的处理所应用的统计方法是
A.①回归分析,②取平均值 B.①独立性检验,②回归分析
C.①回归分析,②独立性检验 D.①独立性检验,②取平均值
4.某村庄对该村内 50 名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检 每年未体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各 25 名.则完成上面的列联表数据错误的是
A. 18a B. 19b
C. 50c d D. 1f e
5.为了解某班学生喜爱打篮球是否与性别有关,对本班 50人进行了问卷调查得到了下表:
喜爱打篮球 不喜爱打篮球 合计
男生 25 10 35
女生 5 10 15
合计 30 20 50
参考公式:
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
,其中 n a b c d .
临界值表:
2
0( )P K k
0.100 0.050 0.025 0.010 0.005 0.001
0k 2.706 3.841 5.024 6.635
7.879 10.828
根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是
A.97.5% B.99%
C.99.5% D.99.9%
6.为了普及环保知识,增强环保意识,某大学从理工类专业的 A 班和文史类专业的 B 班各抽取 20 名同学
参加环保知识测试.统计得到成绩与专业的列联表:
优秀 非优秀 总计
A 班 14 6 20
B 班 7 13 20
总计 21 19 40
附:参考公式及数据:
(1)统计量:
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
,其中 n a b c d .
(2)独立性检验的临界值表:
P(K2≥k0) 0.050 0.010
k0 3.841 6.635
则下列说法正确的是
A.有 99%的把握认为环保知识测试成绩与专业有关
B.有 99%的把握认为环保知识测试成绩与专业无关
C.有 95%的把握认为环保知识测试成绩与专业有关
D.有 95%的把握认为环保知识测试成绩与专业无关
7.假设有两个分类变量 X 和Y 的 2 2 列联表为:
X Y 1y 2y 总计
1x 5 b 5 b
2x 15 d 15 d
总计 20 40 60
对同一样本,以下数据能说明 X 与Y 有关系的可能性最大的一组为
A. 5, 35b d B. 15, 25b d
C. 20, 20b d D. 30, 10b d
参考公式:
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
,其中 n a b c d .
8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取 50 名学生,得到如下 2 2 列联表:
理科 文科 合计
男 13 10 23
女 7 20 27
合计 20 30 50
根 据 表 中 数 据 得 到 2
2 50 13 20 10 7 4.84423 27 20 30K
, 已 知 2 3.841 0.05P K ,
2 5.024 0.025P K .现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为
A.97.5% B.95%
C. 2.5% D.5%
9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了
问卷调查.根据从中随机抽取的 50 份调查问卷,得到了如下的列联表:
同意限定区域停车 不同意限定区域停车 合计
男 20 5 25
女 10 15 25
合计 30 20 50
则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________.
附:
2
2 n ad bcK a b c d a c b d
,其中 n a b c d .
2
0P K k 0.50 0.40 0.25 0.15 0.10
0k 0.455 0.708 1.323 2.072 2.706
2
0P K k 0.05 0.025 0.010 0.005 0.001
0k 3.841 5.024 6.635 7.879 10.828
10.已知下列命题:
①在线性回归模型中,相关指数 2R 表示解释变量 x 对于预报变量 y 的贡献率, 2R 越接近于 1,表示回
归效果越好;
②两个变量相关性越强,则相关系数的绝对值就越接近于 1;
③在回归直线方程 0.5 2y x
中,当解释变量 x 每增加一个单位时,预报变量 y
平均减少 0.5 个单
位;
④对分类变量 X 与Y ,它们的随机变量 2K 的观测值 k 来说, k 越小,“ X 与Y 有关系”的把握程度越
大.
其中正确命题的序号是__________.
11.一则“清华大学要求从 2017 级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了
巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解
高一学生喜欢游泳是否与性别有关,该学校对 100 名高一新生进行了问卷调查,得到如下 2 2 列联表:
喜欢游泳 不喜欢游泳 合计
男生 40
女生 30
合计
已知在这 100 人中随机抽取 1 人,抽到喜欢游泳的学生的概率为 3
5 .
(1)请将上述列联表 2 2 补充完整,并判断是否可以在犯错误的概率不超过 0.001 的前提下认为喜欢
游泳与性别有关.
(2)已知在被调查的学生中有 6 名来自高一(1)班,其中 4 名喜欢游泳,现从这 6 名学生中随机抽取 2
人,求恰有 1 人喜欢游泳的概率.
附:
2
2 = n ad bcK a b c d a c b d
2
0P K k 0.10 0.050 0.025 0.010 0.005 0.001
0k 2.706 3.841 5.024 6.635 7.879 10.828
12.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解
共享单车在 A 市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了 200
人进行抽样分析,得到表格:(单位:人)
经常使用 偶尔或不用 合计
30 岁及以下 70 30 100
30 岁以上 60 40 100
合计 130 70 200
(1)根据以上数据,能否在犯错误的概率不超过 0.15 的前提下认为 A 市使用共享单车情况与年龄有
关?
(2)现从所抽取的 30 岁以上的网友中利用分层抽样的方法再抽取 5 人.
(i)分别求这 5 人中经常使用、偶尔或不用共享单车的人数;
(ii)从这 5 人中,再随机选出 2 人赠送一件礼品,求选出的 2 人中至少有 1 人经常使用共享单车的概
率.
参考公式:
2
2 n ad bcK a b c d a c b d
,其中 n a b c d .
参考数据:
2
0P K k
0.15 0.10 0.05 0.025 0.010
0k 2.072 2.706 3.841 5.024 6.635
1.(2017 年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽
取了 100 个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:
(1)记 A 表示事件“旧养殖法的箱产量低于 50 kg”,估计 A 的概率;
(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg 箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P( ) 0.050 0.010 0.001
k 3.841 6.635 10.828
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
.
2.(2018 年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种
新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人.第一组
工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)
绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求 40 名工人完成生产任务所需时间的中位数 m ,并将完成生产任务所需时间超过 m 和不超过 m
的工人数填入下面的列联表:
超过 m 不超过 m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?
附:
2
2 n ad bcK a b c d a c b d
,
2P K k≥ 0.050 0.010 0.001
k 3.841 6.635 10.828
变式拓展
1.【答案】D
【解析】因为根据临界值表,9.643>7.879,所以在犯错误的概率不超过 0.005 的前提下,认为作文成绩
优秀与课外阅读量大有关.故选 D.
【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可.
2.【答案】(1)见解析;(2) 1
2 .
【解析】(1)由已知得:
在家里最幸福 在其他场所幸福 合计
中国高中生 22 33 55
美国高中生 9 36 45
合计 31 69 100
∴ 2
2 100 22 36 9 33
31 69 55 45K
100 11 3 4.628 3.84131 23
,
∴有95% 的把握认为“恋家”与否与国别有关.
【思路点拨】(1)根据题意填写列联表,计算观测值 2K ,对照临界值表得出结论;
(2)用分层抽样方法抽出 4 人,其中在“朋友聚焦的地方”感到幸福的有 3 人,在“个人空间”感到幸福的
有 1 人,分别设为 1 2 3, , ,a a a b ,再设“含有在‘个人空间’感到幸福的学生”为事件 A ,求出基本事件数,
即可求得概率值.学&科网
考点冲关
1.【答案】D
【解析】在等高条形图中,x1,x2 所占比例相差越大,分类变量 x,y 有关系的把握越大.
故答案为 D
【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识
的掌握水平和分析推理能力.
(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大.
2.【答案】D
【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯
定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,
否则就可能对统计计算的结果作出错误的解释.
3.【答案】B
【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变
量的相关程度,综上可知选 B.
4.【答案】D
【解析】因为 7 25,6 25, 6 ,7 , 50, 50a c b d a e b f c d e f ,
所以 18, 19, 50, 24, 26, 2a b c d e f f e .
故选 D.
【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得 a,b,c,d,e,f 再
判断各选项.
5.【答案】A
【解析】由已知可得
2 2
2 ( ) 50 (25 10 10 5) 6.3492( )( )( )( ) 35 15 30 20
n ad bcK a b c d a c b d
,
由临界值表可知 2( 5.024) 0.025P K ,所以根据表中的数据可以认为喜爱打篮球与性别之间有关系
的把握是97.5%,故选 A.
6.【答案】C
【解析】因为
2
2 40 (14 13 7 6)
20 20 21 4.9119 2K ,所以 3.841