2017高考第二轮复习:(理数)专题十八统计与统计案例
时间:2020-11-26 12:31:07 来源:勤学考试网 本文已影响 人
PAGE / NUMPAGES
2017年高考第二轮复习
(理数)专题十八 统计与统计案例
1.(2016·山东,3,易)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20, 22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
1.D [考向2]由频率分布直方图可知,每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,所以每周的自习时间不少于22.5小时的人数是200×0.7=140.
2.(2016·课标Ⅲ,4,易)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
2.D 平均最高气温高于20 ℃的为七、八月份,∴D错.
3.(2013·安徽,5,易)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是( )
A.这种抽样方法是一种分层抽样
B.这种抽样方法是一种系统抽样
C.这五名男生成绩的方差大于这五名女生成绩的方差
D.该班男生成绩的平均数小于该班女生成绩的平均数
3.C [考向1,3]五名男生成绩的平均数是eq \o(x,\s\up6(-))男=eq \f(86+94+88+92+90,5)=90,
五名女生成绩的平均数是eq \o(x,\s\up6(-))女=eq \f(88+93+93+88+93,5)=91,
五名男生成绩的方差是seq \o\al(2,男)=eq \f(1,5)(16+16+4+4+0)=8,
五名女生成绩的方差是seq \o\al(2,女)=eq \f(1,5)(9+4+4+9+4)=6,
由seq \o\al(2,男)>seq \o\al(2,女)知应该选C.
4.(2014·山东,7,中)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
4.C [考向2]由题图可知,第一组和第二组的频率之和为(0.24+0.16)×1=0.40,故该试验共选取志愿者eq \f(20,0.40)=50(人).所以第三组共有50×0.36=18(人),其中有疗效的人数为18-6=12.
5.(2014·天津,9,易)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
5.[考向1]【解析】 一年级本科生人数占总人数的比例为eq \f(4,4+5+5+6)=eq \f(4,20)=eq \f(1,5),所以应从一年级本科生中抽取的学生数为300×eq \f(1,5)=60.
【答案】 60
6.(2015·湖南,12,易)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.
6.[考向1,2]【解析】 根据系统抽样原理,应将数据按照顺序分成7组,每组5人.区间[139,151]恰好包含第3组到第6组的数据,所以应该从中抽取4人.
【答案】 4
7.(2014·江苏,6,易)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.
7.[考向2]【解析】 由频率分布直方图可知,在抽测的60株树木中,底部周长小于100 cm的频率是(0.015+0.025)×10=0.4,
所以底部周长小于100 cm的株数是60×0.4=24.
【答案】 24
8.(2016·四川,16,12分,中)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
8.[考向2]解:(1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,
解得a=0.30.
(2)由(1),100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为
0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85.
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,
所以2.5≤x<3,由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
9.(2015·广东,17,12分,中)某工厂36名工人的年龄数据如下表.
工人编号
年龄
工人编号
年龄
工人编号
年龄
工人编号
年龄
1
4
34
2
44
1
3
4
43
4
41
8
5
33
14
43
23
34
32
42
6
4
53
7
45
16
39
25
37
34
37
8
42
17
38
26
44
35
49
9
43
9
(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
(2)计算(1)中样本的平均值eq \o(x,\s\up6(-))和方差s2;
(3)36名工人中年龄在eq \o(x,\s\up6(-))-s与eq \o(x,\s\up6(-))+s之间有多少人?所占的百分比是多少(精确到0.01%)?
9.[考向3]解:(1)依题意所抽样本编号是一个首项为2,公差为4的等差数列,故其所有样本编号依次为2,6,10,14,18,22,26,30,34,对应样本的年龄数据依次为44,40,36,43,36,37,44,43,37.
(2)由(1)可得其样本的平均值为
eq \o(x,\s\up6(-))=eq \f(44+40+36+43+36+37+44+43+37,9)=40,
方差为s2=eq \f(1,9)[(44-40)2+(40-40)2+(36-40)2+(43-40)2+(36-40)2+(37-40)2+(44-40)2+(43-40)2+(37-40)2]
=eq \f(1,9)[42+02+(-4)2+32+(-4)2+(-3)2+42+32+(-3)2]=eq \f(100,9).
(3)由(2)知s=eq \f(10,3),
∴eq \o(x,\s\up6(-))-s=36eq \f(2,3),
eq \o(x,\s\up6(-))+s=43eq \f(1,3),
∴年龄在eq \o(x,\s\up6(-))-s与eq \o(x,\s\up6(-))+s之间共有23人,所占百分比为eq \f(23,36)≈63.89%.
10.(2015·课标Ⅱ,18,12分,中)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53 76 78 86 95 66 97 78 88 82 76 89
B地区:73 83 62 51 91 46 53 73 64 82 93 48 65 81 74 56 54 76 65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分
低于70分
70分至89分
不低于90分
满意度等级
不满意
满意
非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
10.[考向2,3]解:(1)两地区用户满意度评分的茎叶图如下:
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”,
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,C=(CB1CA1)∪(CB2CA2).
P(C)=P((CB1CA1)∪(CB2CA2))
=P(CB1CA1)+P(CB2CA2)
=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为eq \f(16,20),eq \f(4,20),eq \f(10,20),eq \f(8,20),故
P(CA1)=eq \f(16,20),P(CA2)=eq \f(4,20),
P(CB1)=eq \f(10,20),P(CB2)=eq \f(8,20),
P(C)=eq \f(10,20)×eq \f(16,20)+eq \f(8,20)×eq \f(4,20)=0.48.
高考中以考查分层抽样和系统抽样为主,一般以选择题或填空题的形式出现,难度较小,为容易题,分值为5分.
对于分层抽样,主要考查各组中样本数的计算,即样本容量与总体容量成比例的特性;系统抽样则主要考查分组数和由第一组中抽取的样本推算其他各组应抽取的样本,即等距离的特性.
1(1)(2012·山东,4)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )
A.7 B.9 C.10 D.15
(2)(2014·广东,6)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20 B.100,20 C.200,10 D.100,10
【解析】 (1)由题意,可知系统抽样中每一组的样本数为eq \f(960,32)=30,因为第一组抽取的样本号码为9,所以第k组抽取的号码为9+30×(k-1).由451≤9+30×(k-1)≤750,得16≤k≤25(k∈Z),所以k=16,17,…,25,共10个,即应该有10人做问卷B.
(2)由题意知,该地区中小学生共有10 000名,故样本容量为10 000×2%=200.由分层抽样知应抽取的高中生人数为200×eq \f(2 000,10 000)=40,其中近视人数为40×50%=20.
【答案】 (1)C (2)A
解题(1)的关键是掌握系统抽样的原理及步骤;
题(2)在扇形统计图中,根据抽取的比例计算样本容量,根据条形统计图计算抽取的高中生近视人数.
1.(2013·陕西,4)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )
A.11 B.12 C.13 D.14
1.B 由系统抽样原理,应分成42组,第一组1-20,第二组21-40,…,第42组821-840.区间[481,720]包含481-500,501-520,…,701-720共12组,所以抽取的42人中,编号在该区间内的共有12人.
2.(2016·重庆巴蜀一模,5)一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是( )
A.12,24,15,9 B.9,12,12,7
C.8,15,12,5 D.8,16,10,6
2.D 因为eq \f(40,800)=eq \f(1,20),故各层中依次抽取的人数分别为160×eq \f(1,20)=8,320×eq \f(1,20)=16,200×eq \f(1,20)=10,120×eq \f(1,20)=6.,
分层抽样和系统抽样中的计算
(1)系统抽样
总体容量为N,样本容量为n,则要将总体均分成n组,每组eq \f(N,n)个(有零头时要先去掉).
若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+eq \f(N,n),…,k+(n-1)eq \f(N,n).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
统计图表是高考考查的重点之一,考查频率最高的是频率分布直方图,其次是茎叶图.主要考查形式有:
①画出(或补全)频率分布直方图或茎叶图;
②利用频率分布直方图或茎叶图中的数据进行某些计算,如求频率、频数、平均值、众数、中位数、概率等.
选择题、填空题、解答题各种题型都有可能出现,难度一般不大,属容易题或中档题.
2(2014·广东,17,13分)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.
根据上述数据得到样本的频率分布表如下:
(1)确定样本频率分布表中n1,n2,f1和f2的值;
(2)根据上述频率分布表,画出样本频率分布直方图;
(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.
【解析】 (1)由所给数据知,落在区间(40,45]内的有7个,落在(45,50]内的有2个,故n1=7,n2=2,所以f1=eq \f(7,25)=0.28,f2=eq \f(2,25)=0.08.
(2)频率分布直方图如图所示:
(3)工人们日加工零件数落在区间(30,35]的概率为0.2,设日加工零件数落在区间(30,35]的人数为随机变量ξ,则ξ~B(4,0.2),故4人中,至少有1人的日加工零件数落在区间(30,35]的概率为:1-Ceq \o\al(0,4)(0.2)0(0.8)4=1-0.409 6=0.590 4.
第(1)问,统计日加工零件数落在区间(40,45]和(45,50]的频数n1和n2,f1,f2由n1,n2计算得出;
第(2)问根据eq \f(频率,组距)算出频率分布直方图中每一个小长方形的高,完成频率分布直方图;
第(3)问,可用独立重复试验公式进行计算,由于情况较多,可先计算其对立事件的概率.
1.(2015·重庆,3)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:
则这组数据的中位数是( )
A.19 B.20 C.21.5 D.23
1.B 由茎叶图知,平均气温在20℃以下的有5个月,在20℃以上的也有5个月,恰好是20℃的有2个月,由中位数的定义知,这组数据的中位数为20.选B.
2.(2016·广东惠州调研,4)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均值为eq \o(x,\s\up6(-)),则( )
A.me=m0=eq \o(x,\s\up6(-)) B.me=m0<eq \o(x,\s\up6(-))
C.me<m0<eq \o(x,\s\up6(-)) D.m0<me<eq \o(x,\s\up6(-))
2.D 由图可知,30名学生的得分情况依次为:2个人得3分,3个人得4分,10个人得5分,6个人得6分,3个人得7分,2个人得8分,2个人得9分,2个人得10分.中位数为第15,16个数(分别为5,6)的平均数,即me=5.5,5出现的次数最多,故众数m0=5.平均数eq \o(x,\s\up6(-))=eq \f(1,30)×(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97,即m0<me<eq \o(x,\s\up6(-)),故选D.,
提取频率分布直方图中的数据
(1)组距、频率:频率分布直方图中每个矩形的宽表示组距,高表示eq \f(频率,组距),面积表示该组数据的频率,各个矩形的面积之和为1;
(2)众数:最高小长方形底边中点的横坐标;
(3)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;
(4)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和;
(5)参数:若纵轴上存在参数,则根据所有小长方形的面积之和为1,列方程即可求得参数值.
用样本的数字特征估计总体涉及到的量有频数、频率、平均数、方差、标准差、众数、中位数、极差等.其中高考考查较多的是频率、平均数和方差,主要形式有:
(1)用样本的频率、平均数或方差估计总体的相关特征;
(2)计算样本的平均数和方差,对数据做出合理的解释.
选择题、填空题、解答题中均有可能出现,难度不大,为中低档题.
3(1)(2015·湖北,2)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.134石 B.169石
C.338石 D.1 365石
(2)(2014·陕西,9)设样本数据x1,x2,…,x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为( )
A.1+a,4 B.1+a,4+a
C.1,4 D.1,4+a
【解析】 (1)由条件可知,夹谷所占比例约为eq \f(28,254),所以米内夹谷约为1 534×eq \f(28,254)≈169(石).
(2)方法一:eq \o(y,\s\up6(-))=eq \f(1,10)(y1+y2+…+y10)=eq \f(1,10)(x1+x2+…+x10+10a)=eq \f(1,10)(x1+x2+…+x10)+a=1+a,
s2=eq \f(1,10)[(y1-eq \o(y,\s\up6(-)))2+…+(y10-eq \o(y,\s\up6(-)))2]=eq \f(1,10)[(x1-1)2+…+(x10-1)2]=eq \f(1,10)[(x1-eq \o(x,\s\up6(-)))2+…+(x10-eq \o(x,\s\up6(-)))2]=4.
方法二:由数据平移的性质,可知eq \o(y,\s\up6(-))=eq \o(x,\s\up6(-))+a=1+a,
由D(aX+b)=a2DX,可知s2=12×4=4.
【答案】 (1)B (2)A
1.(2015·安徽,6)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15 C.16 D.32
1.C 若x1,x2,…,xn的标准差为s,则ax1+b,ax2+b,…,axn+b的标准差为as,由题意知s=8,则所求标准差为2×8=16.
2.(2013·辽宁,16)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
2.【解析】 设yi=xi-7,i=1,2,3,4,5,则y1+y2+…+y5=0,yeq \o\al(2,1)+yeq \o\al(2,2)+…+yeq \o\al(2,5)=20.
不妨设x1<x2<…<x5,则y1<y2<…<y5,由此可知-4≤y1<0<y5≤4.
当y5=4时,yeq \o\al(2,1)+yeq \o\al(2,2)+yeq \o\al(2,3)+yeq \o\al(2,4)=4,无解;
当y5=3时,yeq \o\al(2,1)+yeq \o\al(2,2)+yeq \o\al(2,3)+yeq \o\al(2,4)=11,y1=-3,y2=-1,y3=0,y4=1,符合要求,此时x5=10.
所以样本数据中的最大值是10.
【答案】 10,
与平均数和方差有关的结论
(1)若x1,x2,…,xn的平均数为eq \o(x,\s\up6(-)),那么mx1+a,mx2+a,…,mxn+a的平均数为meq \o(x,\s\up6(-))+a;
(2)数据x1,x2,…,xn与数据x′1=x1+a,x′2=x2+a,…,x′n=xn+a的方差相等,即数据经过平移后方差不变;
(3)若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2;
(4)s2=eq \f(1,n)eq \o(∑,\s\up6(n),\s\do4(i=1)) (xi-eq \o(x,\s\up6(-)))2=eq \f(1,n)eq \o(∑,\s\up6(n),\s\do4(i=1))xeq \o\al(2,i)-eq \o(x,\s\up6(-))2,即各数平方的平均数减去平均数的平方.
求s2时,可根据题目的具体情况,结合题目给出的参考数据,灵活选用公式形式.
1.(2016·湖南常德一模,5)将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003,这600名学生分住在三个营区.从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为( )
A.25,17,8 B.25,16,9
C.26,16,8 D.24,17,9
1.A [考向1]总体数为600,样本的容量是50,600÷50=12.因此,每隔12个号码能抽到一名,由于随机抽得第一个号码为003,按照系统抽样的操作步骤在第Ⅰ营区应抽到25人,第Ⅱ营区应抽到17人,第Ⅲ营区应抽到8人.故选A.
2.(2015·湖北武汉第二次调研,8)如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( )
A.0.04 B.0.06 C.0.2 D.0.3
2.C [考向2]由频率分布直方图知,年龄在[20,30)的频率为(0.01+0.07)×5=0.4.设年龄在[30,35),[35,40),[40,45)的网民出现的频率为x,y,z,则eq \b\lc\{(\a\vs4\al\co1(x+z=2y,,x+y+z=1-0.4,))解得y=0.2,即年龄在[35,40)的频率为0.2,故选C.
3.(2015·山东滨州一模,13)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).
篮球组
书画组
乐器组
高一
45
30
a
高二
15
10
20
学校要对这三个小组的活动效果进行抽样调查,用分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.
3.[考向1]【解析】 三个小组的人数分别是60,40,a+20,总人数为a+120.根据分层抽样的原理,得eq \f(60,a+120)=eq \f(12,30),解得a=30.
【答案】 30
4.(2015·江西南昌一模,13)一所中学共有4 000名学生,为了引导学生树立正确的消费观,需抽样调查学生每天使用零花钱的数量(取整数元)情况,分层抽取容量为300的样本,作出频率分布直方图如图所示,请估计在全校所有学生中,一天使用零花钱在6元~14元的学生大约有________人.
4.[考向2]【解析】 由频率分布直方图知,一天使用零花钱在[6,14)的频率为1-(0.02+2×0.03)×4=0.68.根据用样本估计总体的原理,估计在全校所有学生中,一天使用零钱在6元~14元的学生大约有4 000×0.68=2 720人.
【答案】 2 720
5.(2016·北京东城区模拟,17,12分)汽车的碳排放量比较大,某地规定,从2014年开始,将对二氧化碳排放量超过130 g/km的轻型汽车进行惩罚性征税.检测单位对甲、乙两品牌轻型汽车各抽取5辆进行二氧化碳排放量检测,记录如下(单位:g/km).
甲
8
50
乙
100
120
x
100
160
经测算得乙品牌轻型汽车二氧化碳排放量的平均值为eq \o(x,\s\up6(-))乙=120 g/km.
(1)从被检测的5辆甲品牌轻型汽车中任取2辆,则至少有一辆二氧化碳排放量超过130 g/km的概率是多少?
(2)求表中x的值,并比较甲、乙两品牌轻型汽车二氧化碳排放量的稳定性.
5.[考向3]解:(1)“至少有一辆二氧化碳排放量超过130 g/km”的对立事件是“2辆车的二氧化碳排放量都不超过130 g/km”,所以“至少有一辆二氧化碳排放量超过130 g/km”的概率是P=1-eq \f(Ceq \o\al(2,3),Ceq \o\al(2,5))=1-eq \f(3,10)=eq \f(7,10).
(2)由eq \f(100+120+x+100+160,5)=120,得x=120.
所以seq \o\al(2,乙)=eq \f(1,5)[(100-120)2+(120-120)2+(120-120)2+(100-120)2+(160-120)2]=480.
又eq \o(x,\s\up6(-))甲=120,
seq \o\al(2,甲)=eq \f(1,5)[(80-120)2+(110-120)2+(120-120)2+(140-120)2+(150-120)2]=600.
∵eq \o(x,\s\up6(-))甲=eq \o(x,\s\up6(-))乙=120,seq \o\al(2,甲)>seq \o\al(2,乙),
∴乙品牌轻型汽车二氧化碳的排放量稳定.
6.(2016·云南昆明二模,18,12分)某校高三(1)班全体女生的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如图①②所示,据此解答如下问题:
(1)求高三(1)班全体女生的人数;
(2)求分数在[80,90)之间的女生人数,并计算频率分布直方图中[80,90)之间的矩形的高;
(3)若要从分数在[80,100)之间的试卷中任取两份分析女生失分情况,在抽取的试卷中,求至少有一份分数在[90,100)之间的概率.
6.[考向2]解:(1)由茎叶图知,分数在[50,60)之间的频数为2,由频率分布直方图知,分数在[50,60)之间的频率为0.008×10=0.08,所以全班人数为eq \f(2,0.08)=25(人).
(2)茎叶图中可见部分共有21人,所以[80,90)之间的女生人数为25-21=4,∴分数在[80,90)之间的频率为eq \f(4,25)=0.16,
∴频率分布直方图中[80,90)间的矩形的高为eq \f(0.16,10)=0.016.
(3)在[80,100)之间的试卷共有6份,任取两份的取法种数为Ceq \o\al(2,6)=15,至少有一份分数在[90,100)之间的取法种数为Ceq \o\al(2,2)+Ceq \o\al(1,2)Ceq \o\al(1,4)=9,所以所求的概率为P=eq \f(9,15)=eq \f(3,5).
1.(2015·福建,4,易)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))x+eq \o(a,\s\up6(^)),其中eq \o(b,\s\up6(^))=0.76,eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-)).据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
1.B 由题意知,
eq \o(x,\s\up6(-))=eq \f(8.2+8.6+10.0+11.3+11.9,5)=10,
eq \o(y,\s\up6(-))=eq \f(6.2+7.5+8.0+8.5+9.8,5)=8.
又∵eq \o(b,\s\up6(^))=0.76,∴eq \o(a,\s\up6(^))=0.4,
∴eq \o(y,\s\up6(^))=0.76x+0.4,
∴当x=15时,eq \o(y,\s\up6(^))=11.8.
2.(2014·湖北,4,易)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为eq \o(y,\s\up6(^))=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
2.B 如图,画出散点图,知a>0,b<0.
3.(2014·江西,6,中)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力 C.智商 D.阅读量
3.D 分别依据表1~表4计算K2得
eq \b\lc\(\rc\)(\a\vs4\al\co1(以下式中a=\f(52,20×32×16×36))).
Keq \o\al(2,1)=eq \f(52×(6×22-10×14)2,20×32×16×36)=82a,
Keq \o\al(2,2)=eq \f(52×(4×20-12×16)2,20×32×16×36)=1122a,
Keq \o\al(2,3)=eq \f(52×(8×24-8×12)2,20×32×16×36)=962a,
Keq \o\al(2,4)=eq \f(52×(14×30-2×6)2,20×32×16×36)=4082a,
其中最大的是Keq \o\al(2,4),所以根据独立性检验原理可知,阅读量与性别有关联的可能性最大.
4.(2013·福建,11,中)已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))x+eq \o(a,\s\up6(^)),若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )
A.eq \o(b,\s\up6(^))>b′,eq \o(a,\s\up6(^))>a′ B.eq \o(b,\s\up6(^))>b′,eq \o(a,\s\up6(^))<a′
C.eq \o(b,\s\up6(^))<b′,eq \o(a,\s\up6(^))>a′ D.eq \o(b,\s\up6(^))<b′,eq \o(a,\s\up6(^))<a′
4.C 计算得eq \o(x,\s\up6(-))=3.5,eq \o(y,\s\up6(-))=eq \f(13,6),画出散点图,并根据各个点和回归中心画出回归直线的大体图形.由图易知eq \o(b,\s\up6(^))<b′,eq \o(a,\s\up6(^))>a′,所以选C.
5.(2012·湖南,4,中)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为eq \o(y,\s\up6(^))=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(eq \o(x,\s\up6(-)),eq \o(y,\s\up6(-)))
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
5.D ∵0.85>0,∴y与x正相关,∴A正确;∵线性回归方程经过样本点的中心(eq \o(x,\s\up6(-)),eq \o(y,\s\up6(-))),∴B正确;∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确;体重58.79 kg为估计值,故选D.
6.(2016·课标Ⅲ,18,12分,中)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:参考数据:eq \o(∑,\s\up6(7),\s\do4(i=1))yi=9.32,eq \o(∑,\s\up6(7),\s\do4(i=1))tiyi=40.17,eq \r(\o(∑,\s\up6(7),\s\do4(i=1)) (yi-\o(y,\s\up6(-)))2)=0.55,eq \r(7)≈2.646.
参考公式:相关系数r=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up6(n),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))2\o(∑,\s\up6(n),\s\do4(i=1)) (yi-\o(y,\s\up6(-)))2)),
回归方程eq \o(y,\s\up6(^))=eq \o(a,\s\up6(^))+eq \o(b,\s\up6(^))t中斜率和截距的最小二乘估计公式分别为:
eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))2),eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(t,\s\up6(-)).
6.解:(1)由折线图中数据和附注中参考数据得eq \o(t,\s\up6(-))=4,eq \o(∑,\s\up6(7),\s\do4(i=1)) (ti-eq \o(t,\s\up6(-)))2=28,eq \r(\o(∑,\s\up6(7),\s\do4(i=1)) (yi-\o(y,\s\up6(-)))2)=0.55,
eq \o(∑,\s\up6(7),\s\do4(i=1)) (ti-eq \o(t,\s\up6(-)))(yi-eq \o(y,\s\up6(-)))=eq \o(∑,\s\up6(7),\s\do4(i=1))tiyi-eq \o(t,\s\up6(-))eq \o(∑,\s\up6(7),\s\do4(i=1))yi=40.17-4×9.32=2.89,
r≈eq \f(2.89,0.55×2×2.646)≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由eq \o(y,\s\up6(-))=eq \f(9.32,7)≈1.331及(1)得eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(7),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(7),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))2)=eq \f(2.89,28)≈=0.103,
eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(t,\s\up6(-))≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为eq \o(y,\s\up6(^))=0.92+0.10t.
所以将2016年对应的t=9代入回归方程得:eq \o(y,\s\up6(^))=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
7.(2015·课标Ⅰ,19,12分,中)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
eq \o(x,\s\up6(-))
eq \o(y,\s\up6(-))
eq \o(w,\s\up6(-))
eq \o(∑,\s\up6(8),\s\do4(i=1)) (xi-eq \o(x,\s\up6(-)))2
eq \o(∑,\s\up6(8),\s\do4(i=1)) (wi-eq \o(w,\s\up6(-)))2
eq \o(∑,\s\up6(8),\s\do4(i=1)) (xi-eq \o(x,\s\up6(-)))(yi-eq \o(y,\s\up6(-)))
eq \o(∑,\s\up6(8),\s\do4(i=1)) (wi-eq \o(w,\s\up6(-)))·(yi-eq \o(y,\s\up6(-)))
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=eq \r(xi),eq \o(w,\s\up6(-))=eq \f(1,8)eq \o(∑,\s\up6(8),\s\do4(i=1))wi.
(1)根据散点图判断,y=a+bx与y=c+deq \r(x)哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
eq \o(β,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (ui-\o(u,\s\up6(-)))(vi-\o(v,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1)) (ui-\o(u,\s\up6(-)))2),eq \o(α,\s\up6(^))=eq \o(v,\s\up6(-))-eq \o(β,\s\up6(^)) eq \o(u,\s\up6(-)) .
7.解:(1)由散点图可以判断,y=c+deq \r(x)适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=eq \r(x),先建立y关于w的线性回归方程.由于
eq \o(d,\s\up6(^))=eq \f(\o(∑,\s\up6(8),\s\do4(i=1)) (wi-\o(w,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(8),\s\do4(i=1)) (wi-\o(w,\s\up6(-)))2)=eq \f(108.8,1.6)=68,
eq \o(c,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(d,\s\up6(^))eq \o(w,\s\up6(-))=563-68×6.8=100.6,
所以y关于w的线性回归方程为eq \o(y,\s\up6(^))=100.6+68w,因此y关于x的回归方程为eq \o(y,\s\up6(^))=100.6+68eq \r(x).
(3)①由(2)知,当x=49时,年销售量y的预报值eq \o(y,\s\up6(^))=100.6+68eq \r(49)=576.6,
年利润z的预报值eq \o(z,\s\up6(^))=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
eq \o(z,\s\up6(^))=0.2(100.6+68eq \r(x))-x=-x+13.6eq \r(x)+20.12.
所以当eq \r(x)=eq \f(13.6,2)=6.8,即x=46.24时,eq \o(z,\s\up6(^))取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
本考向在高考中灵活性不强,主要考查点有:
(1)线性回归方程中系数的计算.公式不要求记忆,试卷会给出公式,会用即可;
(2)正相关、负相关与系数b(斜率)的关系,有时也会涉及截距;
(3)根据线性回归方程进行预测.注意:预测值是估计值,而不是精确值;
(4)画散点图或根据散点图判断数据的相关性;
(5)回归直线一定经过回归中心(eq \o(x,\s\up6(-)),eq \o(y,\s\up6(-))).
题目难度一般为容易题或中档题,各种题型都会出现.
1(2014·课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份
2
2
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))2),eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(t,\s\up6(-)).
【解析】 (1)由所给数据计算得
eq \o(t,\s\up6(-))=eq \f(1,7)(1+2+3+4+5+6+7)=4,
eq \o(y,\s\up6(-))=eq \f(1,7)(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
eq \o(∑,\s\up6(7),\s\do4(i=1)) (ti-eq \o(t,\s\up6(-)))2=9+4+1+0+1+4+9=28,
eq \o(∑,\s\up6(7),\s\do4(i=1)) (ti-eq \o(t,\s\up6(-)))(yi-eq \o(y,\s\up6(-)))=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(7),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(7),\s\do4(i=1)) (ti-\o(t,\s\up6(-)))2)=eq \f(14,28)=0.5,
eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^)) eq \a\vs4\al(\o(t,\s\up6(-)) )=4.3-0.5×4=2.3.
所求回归方程为eq \o(y,\s\up6(^))=0.5t+2.3.
(2)由(1)知,eq \o(b,\s\up6(^))=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得eq \o(y,\s\up6(^))=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
(1)根据回归方程的定义求出回归方程;
(2)将待预测的t代入(1)中回归方程,得预测结果.
求线性回归