课后限时集训(六十一) 变量间的相关关系、统计案例
建议用时:40 分钟
一、选择题
1.(多选)如图所示,5 个(x,y)数据,去掉 D(3,10)后,下列说法正确的是
( )
A.相关系数 r 变大
B.残差平方和变大
C.相关指数 R2 变小
D.解释变量 x 与预报变量 y 的相关性变强
AD [由散点图知,去掉离群点 D 后,x 与 y 的相关性变强,且为正相关,所以相关系
数 r 的值变大,相关指数 R2 的值变大,残差平方和变小.
故选 AD.]
2.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率 y 和温度 x(单
位:℃)的关系,在 20 个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,
20)得到下面的散点图:
由此散点图,在 10 ℃至 40 ℃之间,下面四个回归方程类型中最适宜作为发芽率 y 和
温度 x 的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
D [根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除 A,
B,C,故选 D.]
3.为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的关系,从该班随机抽
取 10 名学生,根据测量数据的散点图可以看出 y 与 x 之间有线性相关关系.设其回归直线方
程为y^=b^x+a^.已知 ∑
10
i=1 xi=225, ∑
10
i=1yi=1 600,b^=4.该班某学生的脚长为 24,据此估计其
身高为( )
A.160 cm B.163 cm
C.166 cm D.170 cm
C [∵ ∑
10
i=1xi=225,∴ x =
1
10
∑
10
i=1xi=22.5.
∵ ∑
10
i=1yi=1 600,∴ y =
1
10
∑
10
i=1yi=160.
又b^=4,∴a^= y -b^ x =160-4×22.5=70.
∴回归直线方程为y^=4x+70.
将 x=24 代入上式得y^=4×24+70=166.故选 C.]
4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一
份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列哪个统计结论是不正确的( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
D [由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意
愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿
的学生数量,故选 D.]
5.(多选)通过随机询问 110 名不同性别的大学生是否爱好某项运动,得到如下的 2×2
列联表:
男 女
爱好 40 20
不爱好 20 30
由 K2=
n ad-bc 2
a+b c+d a+c b+d
算得 K2=
110× 40×30-20×20 2
60×50×60×50
≈
7.8,
参照附表,以下不正确的有( )
附表:
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
A.在犯错误的概率不超过 1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过 1%的前提下,认为“爱好该项运动与性别无关”
C.有 99.9%以上的把握认为“爱好该项运动与性别有关”
D.有 99.9%以上的把握认为“爱好该项运动与性别无关”
BCD [由列联表计算 K2=
110× 40×30-20×20 2
60×50×60×50
≈7.8,
参照附表知,10.828>7.8>6.635,
所以在犯错误的概率不超过 1%的前提下,认为“爱好该项运动与性别有关”,A 正确,
B 错误;
即有 99%以上的把握认为“爱好该项运动与性别有关”,
且没有 99.9%以上的把握认为“爱好该项运动与性别有关”,
也没有 99.9%以上的把握认为“爱好该项运动与性别无关”,所以 C、D 错误.
故选 BCD.]
二、填空题
6.对具有线性相关关系的变量 x,y 有一组观测数据(xi,yi)(i=1,2,…,8),其线性回
归方程是y^=
1
3
x+a^,且 x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数a^的值为
________.
1
8
[依题意可知样本点的中心为
3
4
,
3
8 ,则
3
8
=
1
3
×
3
4
+a^,解得a^=
1
8
.]
7.甲、乙、丙、丁四位同学各自对 A,B 两个变量的线性相关性做试验,并用回归分析
方法分别求得相关系数 r 与残差平方和 m,如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则________同学的试验结果体现 A,B 两变量有更强的线性相关性.
丁 [r 越大,m 越小,线性相关性越强.]
8.某医疗研究所为了检验某种血清预防感冒的作用,把 500 名使用血清的人与另外 500
名未使用血清的人一年中的感冒记录作比较,提出假设 H0:“这种血清不能起到预防感冒的作
用”,利用 2×2 列联表计算得 K2≈3.918,经查临界值表知 P(K2≥3.841)≈0.05.则下列结论中,
正确结论的序号是________.
①有 95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那
么他在一年中有 95%的可能性得感冒;③这种血清预防感冒的有效率为 95%;④这种血清预
防感冒的有效率为 5%.
① [K2≈3.918>3.841,而 P(K2≥3.841)≈0.05,所以有 95%的把握认为“这种血清能
起到预防感冒的作用”.要注意我们检验的假设是否成立和该血清预防感冒的有效率是没有关
系的,不是同一个问题,不要混淆.]
三、解答题
9.某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了 80 人,结
果如下表:
满意 不满意
男用户 30 10
女用户 20 20
(1)根据上表,现用分层抽样的方法抽取对产品满意的用户 5 人,在这 5 人中任选 2 人,
求被选中的恰好是男、女用户各 1 人的概率;
(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.
P(K2≥k) 0.100 0.050 0.025 0.010
k 2.706 3.841 5.024 6.635
注:K2=
n ad-bc 2
a+b c+d a+c b+d
,n=a+b+c+d.
[解] (1)用分层抽样的方法在满意产品的用户中抽取 5 人,则抽取比例为
5
50
=
1
10
.
所以在满意产品的用户中应抽取女用户 20×
1
10
=2(人),男用户 30×
1
10
=3(人).
抽取的 5 人中,三名男用户记为 a,b,c,两名女用户记为 r,s,则从这 5 人中任选 2
人,共有 10 种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.
其中恰好是男、女用户各 1 人的有 6 种情况:ar,as,br,bs,cr,cs.
故所求的概率为 P=
6
10
=0.6.
(2)由题意,得 K2 的观测值为
k=
80× 30×20-20×10 2
30+20× 10+20× 30+10× 20+20
≈5.333>5.024.
又 P(K2≥5.024)=0.025.
故有 97.5%的把握认为“产品用户是否满意与性别有关”.
10.调查某公司的五名推销员,其工作年限与年推销金额如下表:
推销员 A B C D E
工作年限 x(年) 2 3 5 7 8
年推销金额 y(万元) 3 3.5 4 6.5 8
(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销
金额之间关系的一般规律;
(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;
(3)利用(2)中的回归方程,预测工作年限为 10 年的推销员的年推销金额.
附:b^=
∑
n
i=1 xi- x yi- y
∑
n
i=1 xi- x 2
,a^= y -b^ x .
[解] (1)年推销金额关于工作年限的散点图如图:
从散点图可以看出,各点散布在从左下角到右上角的区域里,因此,工作年限与年推销
金额正相关,即工作年限越长,年推销金额越大.
(2)由表中数据可得:
x =
1
5
×(2+3+5+7+8)=5,
y =
1
5
×(3+3.5+4+6.5+8)=5,
b^=
∑
n
i=1 xi- x yi- y
∑
n
i=1 xi- x 2
=
-3× -2 + -2× -1.5 +0+2×1.5+3×3
9+4+0+4+9
=
21
26
,
a^= y -b^ x =5-
21
26
×5=
25
26
,
∴年推销金额关于工作年限的回归直线方程为
y^=
21
26
x+
25
26
.
(3)当 x=10 时,y^ =
21
26
×10+
25
26
=
235
26
,
∴预测工作年限为 10 年的推销员的年推销金额为
235
26
万元.
1.(多选)2020 年 3 月 15 日,某市物价部门对 5 家商场的某商品一天的销售量及其价格
进行调查,5 家商场的售价 x(元)和销售量 y(件)之间的一组数据如表所示:
价格 x 9 9.5 10 10.5 11
销售量 y 11 10 8 6 5
按公式计算,y 与 x 的回归直线方程是:y^=-3.2x+a^,相关系数|r|=0.986,则下列说
法正确的有( )
A.变量 x,y 线性负相关且相关性较强
B.a^=40
C.当 x=8.5 时,y 的估计值为 12.8
D.相应于点(10.5,6)的残差约为 0.4
ABC [对 A,由表可知 y 随 x 增大而减少,可认为变量 x,y 线性负相关,且相关性强,
故 A 正确.
对 B,价格平均数 10,销售量平均数为 8.故回归直线恒过定点(10,8),故a^=8+3.2×10
=40,故 B 正确.
对 C,当 x=8.5 时,y=-3.2×8.5+40=12.8,故 C 正确.
对 D,相应于点(10.5,6)的残差约为e^=6-(-3.2×10.5+40)=-0.4,故 D 不正确.
故选 ABC.]
2.(多选)已知由样本数据点集合{(xi,yi)|i=1,2,…,n},求得的回归直线方程为y^=1.5x
+0.5, x =3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直线
l 的斜率为 1.2,则( )
A.变量 x 与 y 具有正相关关系
B.去除后的回归方程为y^=1.2x+1.4
C.去除后 y 的估计值增加速度变快
D.去除后,当 x=4 时,y 的估计值为 6.2
ABD [由样本数据点集合{(xi,yi)|i=1,2,…,n},求得的回归直线方程为y^=1.5x+0.5,
x =3,所以 y =1.5×3+0.5=5,
因为重新求得的回归直线 l 的斜率为 1.2,是正相关,
设新的数据所有横坐标的平均值 x′ ,则(n-2) x′ =n x -(1.2+4.8)=3n-6=3(n-
2),故 x′ =3,
纵坐标的平均数为 y′ ,则(n-2) y′ =n y -(2.2+7.8)=n y -10=5n-10=5(n-
2), y′ =5,
设新的线性回归方程为 y=1.2x+b,把(3,5)代入得 5=1.2×3+b,b=1.4,
所以新的线性回归方程为 y=1.2x+1.4.
所以 A,B 正确,
因为斜率为 1.2<1.5,所以 y 的估计值增长速度变慢,C 错误;
把 x=4 代入,得 y=1.2×4+1.4=6.2,所以 D 正确.
故选 ABD.]
3.针对时下的“游戏热”,某校团委对“学生性别和喜欢打游戏是否有关”作了一次调
查,其中女生人数是男生人数的
1
3
,女生喜欢打游戏的人数占女生人数的
1
6
,男生喜欢打游戏
的人数占男生人数的
2
3
.若有 95%的把握认为是否喜欢打游戏和性别有关,则男生至少有
________人.
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
18 [设男生人数为 x,由题意可得列联表如下:
喜欢打游戏 不喜欢打游戏 总计
女生
x
18
5
18
x
x
3
男生
2
3
x
x
3
x
总计
13
18
x
11
18
x
4x
3
若有 95%的把握认为是否喜欢打游戏和性别有关,
则 k≥3.841,即 k=
4x
3
x
18
·
x
3
-
5x
18
·
2x
3 2
x·
x
3
·
13x
18
·
11x
18
=
36x
143
≥3.841,
解得 x≥15.257.
因为各部分人数均为整数,所以 x 是 18 的倍数,所以若有 95%的把握认为是否喜欢打
游戏和性别有关,则男生至少有 18 人.]
4.手机厂商推出一款 6 寸大屏手机,现对 500 名该手机使用者(200 名女性、300 名男
性)进行调查,对手机进行评分,评分的频数分布表如下:
女性
用户
分值
区间
[50,60) [60,70) [70,80) [80,90) [90,100]
频数 20 40 80 50 10
男性
用户
分值
区间
[50,60) [60,70) [70,80) [80,90) [90,100]
频数 45 75 90 60 30
(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体
值,给出结论即可);
女性用户 男性用户
(2)把评分不低于 70 分的用户称为“评分良好用户”,能否有 90%的把握认为是否是评
分良好用户与性别有关?
参考公式及数据:K2=
n ad-bc 2
a+b c+d a+c b+d
,其中 n=a+b+c+d.
P(K2≥k) 0.10 0.05 0.01 0.001
k 2.706 3.841 6.635 10.828
[解] (1)女性用户和男性用户的频率分布直方图分别如图所示:
女性用户 男性用户
由图可得女性用户的波动小,男性用户的波动大.
(2)由题可得 2×2 列联表如下:
女性用户 男性用户 合计
评分良好用户 140 180 320
不是评分良好用户 60 120 180
合计 200 300 500
则 K2=
500× 140×120-180×60 2
200×300×320×180
≈5.208>2.706,
所以有 90%的把握认为是否是评分良好用户与性别有关.
某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量 x(单位:亿元)对年
销售额 y(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y
=α+βx2,②y=eλx+t,其中α,β,λ,t 均为常数,e 为自然对数的底数.
现该公司收集了近 12 年的年研发资金投入量 xi 和年销售额 yi 的数据,i=1,2,…,12,
并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.
令 ui=x2
i ,vi=ln yi(i=1,2,…,12),经计算得如下数据:
x y ∑
12
i=1 (xi- x )2 ∑
12
i=1 (yi- y )2 u v
20 66 770 200 460 4.20
∑
12
i=1 (ui- u )2
∑
12
i=1 (ui- u )·
(yi- y )
∑
12
i=1 (vi- v )2
∑
12
i=1 (xi- x )·
(vi- v )
3 125 000 21 500 0.308 14
(1)设{ui}和{yi}的相关系数为 r1,{xi}和{vi}的相关系数为 r2,请从相关系数的角度,选择
一个拟合程度更好的模型;
(2)(ⅰ)根据(1)的选择及表中数据,建立 y 关于 x 的回归方程(系数精确到 0.01);
(ⅱ)若下一年销售额 y 需达到 90 亿元,预测下一年的研发资金投入量 x 是多少亿元.
附:①相关系数 r=错误!,
回归直线y^=a^+b^x 中斜率和截距的最小二乘估计公式分别为:b^=错误!,a^= y--b^ x-;
②参考数据:308=4×77, 90≈9.486 8,e4.499 8≈90.
[解] (1)由题意,r1=错误!=
21 500
3 125 000×200
=
21 500
25 000
=
43
50
=0.86,r2=错误!=
14
770×0.308
=
14
77×0.2
=
10
11
≈0.91,
则|r1|