[推荐学习]2018-2019学年高中数学人教A版选修1-2教学案:复习课(一) 统计案例-含答案

[k12] 复习课(一) 统计案例 回归分析 (1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求 解回归方程并进行预报估计,题型多为解答题,有时也有小题出现. (2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型 转化为线性回归分析求解问题. [考点精要] 1.一个重要方程 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其线性回归直线方 ^ ^ ^ 程为 y = b x+ a .

^ 其中 b =

i=1

? ?xi- x ??yi- y ? ? ?xi- x ?2
n

n

^ ^ ,a = y - b x .

i=1

2.重要参数 相关指数 R2 是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的 拟合效果越好. 3.两种重要图形 (1)散点图: 散点图是进行线性回归分析的主要手段,其作用如下: 一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个 变量有较好的线性相关关系; 二是判断样本中是否存在异常. (2)残差图: 残差图可以用来判断模型的拟合效果,其作用如下: 一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回 归方程的预报精度越高. 二是确认样本点在采集中是否有人为的错误. [典例] (全国卷Ⅲ)如图是我国 2008 年到 2014 年生活垃圾无害化处理量(单位:亿吨) 的折线图.

最新 K12

[k12]

(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理 量. 附注: 参考数据: ?yi=9.32, ?tiyi=40.17,
i=1 i=1 7 7

i=1

? ?yi- y ?2=0.55, 7≈2.646.

7

i=1

? ?ti- t ??yi- y ?


n

参考公式:相关系数 r=
i=1

? ?ti- t ? ? ?yi- y ?
2 i=1

n

n

2

^ ^ ^ ^ 回归方程 y = a + b t 中斜率和截距的最小二乘估计公式分别为:b =

i=1

? ?ti- t ??yi- y ?

i=1

n

? ?ti- t ?

n

2

^ ^ a = y -b t . [解] (1)由折线图中数据和附注中参考数据得 t =4, ? (ti- t )2=28,
i=1 7

? ?yi- y ?2=0.55,
i=1

7

? (ti- t )(yi- y )= ?tiyi- t ?yi=40.17-4×9.32=2.89,
i=1 i=1 i=1

7

7

7

r≈

2.89 ≈0.99. 2×2.646×0.55

因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用 线性回归模型拟合 y 与 t 的关系. 9.32 (2)由 y = ≈1.331 及(1)得 7 最新 K12

[k12]
7

? ?ti- t ??yi- y ?
^ b=
i=1

? ?ti- t ?2
i=1

7

2.89 = ≈0.103, 28

^ ^ a = y -b t ≈1.331-0.103×4≈0.92. ^ 所以 y 关于 t 的回归方程为 y =0.92+0.10t. 将 2016 年对应的 t=9 代入回归方程得 ^ y =0.92+0.10×9=1.82. 所以预测 2016 年我国生活垃圾无害化处理量将约为 1.82 亿吨. [类题通法] 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤是先画出 散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从 而建立较好的回归方程, 并且用该方程对变量值进行分析; 有时回归模型可能会有多种选择 (如非线性回归模型),此时可通过残差分析或利用相关指数 R2 来检查模型的拟合效果,从 而得到最佳模型. [题组训练] 1.变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5); 变量 U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1 表示变 量 Y 与 X 之间的线性相关系数,r2 表示变量 V 与 U 之间的线性相关系数,则( A.r2<r1<0 C.r2<0<r1 B.0<r2<r1 D.r2=r1 )

解析:选 C 画散点图,由散点图可知 X 与 Y 是正相关,则相关系数 r1>0,U 与 V 是 负相关,相关系数 r2<0,故选 C. 2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友 转发,下表是发帖后一段时间收到帖子的人数统计: 天数 x 人数 y 1 7 2 11 3 21 4 24 5 66 6 115 7 325

(1)作出散点图,并猜测 x 与 y 之间的关系. 最新 K12

[k12] (2)建立 x 与 y 的关系, 预报回归模型. (3)如果此人打算在帖子传播 10 天时进行募捐活动, 根据上述回归模型, 估计可去多 少人. 解:(1)画出散点图如图所示.

从散点图可以看出 x 与 y 不具有线性相关关系, 同时可发现样本点分布在某一个函数 曲线 y=kemx 的周围, 其中 k, m 是参数. (2)对 y=kemx 两边取对数,把指数关系变成线性关系. 令 z=ln y,则变换后的样本点 分布在直线 z=bx+a(a=ln k, b=m)的周围, 这样就可以利用线性回归模型来建立 x 与 y 之间的非线性回归方程了, 数据可以转化为: 天数 x 人数的 对数 z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 1 2 3 4 5 6 7

^ 求得回归直线方程为 z =0.620x+1.133, ^ 所以 y =e0.620x+1.133. ^ × (3)当 x=10, 此时 y =e0.620 10+1.133≈1 530(人). 所以估计可去 1 530 人. 独立性检验

(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般 为容易题,多与概率、统计等内容综合命题. (2)独立性检验的基本思想类似于数学中的反证法, 要确认“两个分类变量有关系” 这 一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量 K2 应该很小,如果由观测数据计算得到的 K2 的观测值 k 很 大 , 则 在 一 定 程 度 上 说 明 假 设 不 合 理 , 根 据 随 机 变 量 K2 的 含 义 , 可 以 通 过 概 率 最新 K12

[k12] P(K2≥6.635)≈0.01 来评价该假设不合理的程度,由实际计算出的 k>6.635,说明该假 设不合理的程度约为 99% ,即“两个分类变量有关系” 这一结论成立的可信程度约为 99%. [考点精要] 在实际问题中常用的几个数值 (1)K2≥6.635 表示认为“X 与 Y 有关系”犯错误的概率不超过 0.01. (2)K2≥3.841 表示认为“X 与 Y 有关系”犯错误的概率不超过 0.05. (3)K2≥2.706 表示认为“X 与 Y 有关系”犯错误的概率不超过 0.1. [典例] 某学生对其亲属 30 人的饮食习惯进行了一次调查, 并用茎叶图表示 30 人的饮 食指数,如图所示.(说明:图中饮食指数低于 70 的人,饮食以蔬菜为主;饮食指数高于 70 的人,饮食为肉类为主.)

(1)根据茎叶图,帮助这位同学说明其亲属 30 人的饮食习惯. (2)根据以上数据完成如表所示的 2×2 列联表. 主食蔬菜 50 岁以下 50 岁以上 总计 主食肉类 总计

(3)在犯错误的概率不超过 0.01 的前提下,是否能认为“其亲属的饮食习惯与年龄有 关”? [解] (1)30 位亲属中 50 岁以上的人多以食蔬菜为主,50 岁以下的人多以食肉类为主. (2)2×2 列联表如表所示: 主食蔬菜 50 岁以下 50 岁以上 4 16 主食肉类 8 2 总计 12 18

最新 K12

[k12] 总计 (3)随机变量 K2 的观测值 k= 20 10 30

30×?8-128?2 30×120×120 = =10>6.635, 12×18×20×10 12×18×20×10

故在犯错误的概率不超过 0.01 的前提下认为“其亲属的饮食习惯与年龄有关”. [类题通法] 独立性检验问题的求解策略 (1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变 量的相关性. (2)K2 统计量法:通过公式 n?ad-bc?2 K2= ?a+b??c+d??a+c??b+d? 先计算观测值 k,再与临界值表作比较,最后得出结论. [题组训练] 1.下表是某地区的一种传染病与饮用水的调查表: 得病 干净水 不干净水 总计 52 94 146 不得病 466 218 684 总计 518 312 830

(1)能否在犯错误概率不超过 0. 01 的前提下认为这种传染病与饮用水的卫生程度有关, 请说明理由. (2)若饮用干净水得病的有 5 人,不得病的有 50 人,饮用不干净水得病的有 9 人,不得 病的有 22 人.按此样本数据分析能否在犯错误概率不超过 0.025 的前提下认为这种疾病 与饮用水有关. 解:(1)把表中的数据代入公式得 830×?52×218-466×94?2 K 的观测值 k= ≈54.21. 146×684×518×312
2

∵54.21>6.635, 所以在犯错误的概率不超过 0. 01 的前提下, 认为该地区这种传染病与饮用水不干净有 关. (2)依题意得 2×2 列联表: 最新 K12

[k12] 得病 干净水 不干净水 总计 5 9 14 不得病 50 22 72 总计 55 31 86

86×?5×22-50×9?2 此时,K2 的观测值 k= ≈5.785. 14×72×55×31 因为 5.785>5.024, 所以能在犯错误概率不超过 0.025 的前提下认为该种疾病与饮用水不干净有关. 2.2016 年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意 提供志愿者服务,用简单随机抽样方法从该校调查了 60 人,结果如下: 是否愿意提供志愿者服务性别 男生 女生 愿意 20 10 不愿意 10 20

(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取 6 人, 其中男生抽取多少 人? (2)在(1)中抽取的 6 人中任选 2 人, 求恰有一名女生的概率. (3)你能否在犯错误的概率不超过 0.01 的前提下认为该校高中生是否愿意提供志愿者 服务与性别有关? 下面的临界值表供参考:

P(K2≥k0) k0

0.15 2.072

0.10 2.706

0.05 3.841

0.025 5.024

0.010 6.635

0.005 7.879

0.001 10.828

独立性检验统计量 K2=

n?ad-bc?2 ,其中 n=a+b+c+d. ?a+b??c+d??a+c??b+d?

20 10 解:(1)由题意,男生抽取 6× =4(人),女生抽取 6× =2(人). 20+10 20+10
1 C1 8 4C2 (2)在(1)中抽取的 6 人中任选 2 人,恰有一名女生的概率 P= 2 = . C6 15

60×?20×20-10×10?2 (3)K = ≈6.667,由于 6.667>6.635,所以能在犯错误的概率 30×30×30×30
2

最新 K12

[k12] 不超过 0.01 的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.

1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效 果与教学措施( ) 优、良、中 实验班 对比班 总计 A.有关 C.关系不明确
2

差 2 12 14

总计 50 50 100

48 38 86 B.无关

D.以上都不正确

100×?48×12-38×2?2 解析:选 A 随机变量 K 的观测值 k= ≈8.306>6.635,则有 50×50×86×14 99%的把握认为“实验效果与教学措施有关”. 2.下列说法中正确的有:( )

①若 r>0,则 x 增大时,y 也相应增大; ②若 r<0,则 x 增大时,y 也相应增大; ③若 r=1 或 r=-1,则 x 与 y 的关系完全对应(有函数关系),在散点图上各个散点均 在一条直线上. A.①② C.①③ B.②③ D.①②③

解析: 选 C 若 r>0, 表示两个相关变量正相关, x 增大时, y 也相应增大, 故①正确. r<0, 表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r|越接近 1,表示两个变量相关性 越高,|r|=1 表示两个变量有确定的关系(即函数关系),故③正确. 3.有下列数据( ) x y 1 3 2 5.99 3 12.01

下列四个函数中,模拟效果最好的为( A.y=3×2 C.y=3x
x-1

) B.y=log2x D.y=x2

解析:选 A 分别把 x=1,2,3,代入求值,求最接近 y 的值.即为模拟效果最好,故选 A. 最新 K12

[k12]
n

4.若两个变量的残差平方和是 325, ? (yi- y )2=923,则随机误差对预报变量的贡
i=1

献率约为(

) B.60% D.40%

A.64.8% C.35.2%

325 解析:选 C 由题意可知随机误差对预报变量的贡献率约为 ≈0.352. 923 5.已知 x 与 y 之间的几组数据如下表: x y 1 0 2 2 3 1 4 3 5 3 6 4

^ ^ ^ 假设根据上表数据所得线性回归直线方程为 y = b x+ a ,若某同学根据上表中的前两组 数据(1,0)和(2,2)求得的直线方程为 y′=b′x+a′,则以下结论正确的是( ^ ^ A. b >b′,a >a′ ^ ^ C. b < b′, a >a′ ^ ^ B. b >b′, a <a′ ^ ^ D. b <b′, a <a′ )

解析:选 C 过(1,0)和(2,2)的直线方程为 y=2x-2,画出六点的散点图,回归直线的大 ^ ^ 概位置如图所示,显然b <b′,a >a′. 故选 C.

6.收集一只棉铃虫的产卵数 y 与温度 x 的几组数据后发现两个变量有相关关系,并按 不同的曲线来拟合 y 与 x 之间的回归方程,并算出了对应相关指数 R2 如下表:

拟合曲线 y 与 x 回归方程 相关指数 R2

直线 ^ y =19.8x- 463.7 0.746

指数曲线 ^ 0 27x-3 84 y =e . . 0.996 )

抛物线 ^ y =0.367x2- 202 0.902

二次曲线 ^ y= ?x-0.78?2-1 0.002

则这组数据模型的回归方程的最好选择应是( ^ ^ - A. y =19.8x-463.7 B. y =e0.27x 3.84 ^ ^ C. y =0.367x2-202 D. y = ?x-0.78?2-1

解析:选 B 用相关指数 R2 来刻画回归效果,R2 的值越大,说明模型的拟合效果越好.

最新 K12

[k12] 7.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据: 选 男 女 总计 405 230 635 未选 45 220 265 总计 450 450 900

那么,认为选修《人与自然》与性别有关的把握是________. 解析:K = ?a+b??c+d??a+c??b+d?
2

n?ad-bc?2

=163.794>10.828,即有 99.9%的把握认为选修《人与自然》与性别有关. 答案:99.9% 8. 某车间为了规定工时定额, 需要确定加工零件所花费的时间, 为此进行了 5 次试验. 根 ^ 据收集到的数据(如下表),由最小二乘法求得回归方程 y =0.67x+54.9. 零件数 x(个) 加工时间 y(min) 10 62 20 30 75 40 81 50 89

现发现表中有一个数据模糊看不清,请你推断出该数据的值为________. 1 解析: 由表知 x = 30 ,设模糊不清的数据为 m ,则 y = (62 + m + 75 + 81 + 89) = 5 307+m ,因为 y =0.67 x +54.9, 5 即 307+m =0.67×30+54.9,解得 m=68. 5

答案:68 9.变量 U 与 V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述 样本数据得到 U 与 V 的线性回归分析,R2 表示解释变量对于预报变量变化的贡献率,则 R2=______. 解析:在线性回归中,相关指数 R2 等于相关系数,由 x1=1,x2=2,x3=3,x4=4 得: x =2.5,y1=1.4,y2=2.2,y3=3,y4=3.8 得: y =2.6,

最新 K12

[k12]
4

? ?xi- x ??yi- y ?
所以相关系数 r=
4 i=1 4

? ?xi- x ?2
i=1 = =

? ?yi- y ?2
i=1

1.5×1.2+0.5×0.4+0.5×0.4+1.5×1.2 ?-1.5? +?-0.5?2+0.52+1.52· ?-1.2?2+?-0.4?2+0.42+1.22 4 4 = =1. 5× 3.2 4
2

故 R2=1. 答案:1 10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针 对高三文科学生的调查所得的数据, 试问: 文科学生总成绩不好与数学成绩不好有关系吗? 总成绩情况 数学成绩情况 数学成绩好 数学成绩不好 总计 总成绩好 478 399 877 总成绩不好 12 24 36 总计 490 423 913

解:根据题意,计算随机变量的观测值: 913×?478×24-399×12?2 K2= ≈6.233>5.024, 490×423×877×36 因此有 97.5%的把握认为“文科学生总成绩不好与数学成绩不好有关系”. 11.某班主任对全班 50 名学生的学习积极性和对待班级工作的态度进行了调查,统计 数据如表所示: 积极参加 班级工作 学习积极性高 学习积极性一般 总计 18 19 50 12 , 25 不太主动 参加班级工作 总计

(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是 请完成上面的 2×2 列联表. 最新 K12

[k12] (2)在(1)的条件下,试运用独立性检验的思想方法分析:在犯错误概率不超过 0.1%的 情况下判断学生的学习积极性与对待班级工作的态度是否有关?并说明理由. P(K2≥k0) k0 0.010 6.635 0.005 7.879 0.001 10.828

解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是

12 , 25

所以积极参加班级工作的学生有 24 人,由此可以算出学习积极性一般且积极参加班级工作 的人数为 6, 不太主动参加班级工作的人数为 26, 学习积极性高但不太主动参加班级工作的 人数为 7,学习积极性高的人数为 25,学习积极性一般的人数为 25,得到: 积极参加 班级工作 学习积极性高 学习积极性一般 总计 18 6 24 不太主动 参加班级工作 7 19 26

总计

25 25 50

50×?18×19-6×7?2 (2)K2= ≈11.538, 25×25×24×26 因为 11.538>10.828,所以在犯错误的概率不超过 0.001 的前提下可以认为学习积 极性与对待班级工作的态度有关系. 12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了 100 名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直 方图:

将日均收看该体育节目时间不低于 40 分钟的观众称为“体育迷”,已知“体育迷”中 有 10 名女性. (1)根据已知条件完成下面的 2×2 列联表, 并据此资料你是否认为“体育迷”与性别有 最新 K12

[k12] 关? 非体育迷 男 女 总计 10 55 体育迷 总计

(2)将日均收看该体育节目不低于 50 分钟的观众称为“超级体育迷”, 已知“超级体育 迷”中有 2 名女性.若从“超级体育迷”中任意选取 2 人,求至少有 1 名女性观众的概率. 附:K2= n?ad-bc?2 . ?a+b??c+d??a+c??b+d? P(K2≥k0) k0 0.05 3.841 0.01 6.635

解:(1)由频率分布直方图可知,在抽取的 100 人中,“体育迷”有 25 人,从而 2×2 列联表如下: 非体育迷 男 女 总计 30 45 75 体育迷 15 10 25 总计 45 55 100

将 2×2 列联表中的数据代入公式计算,得 n?ad-bc?2 K2= ?a+b??c+d??a+c??b+d? 100×?30×10-45×15?2 100 = = ≈3.030. 33 75×25×45×55 因为 3.030<3.841,所以没有理由认为“体育迷”与性别有关. (2)由频率分布直方图可知,“超级体育迷”为 5 人,从而一切可能结果所组成的基本 事件空间为 Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3, b2),(b1,b2)}.

最新 K12

[k12] 其中 ai 表示男性,i=1,2,3.bj 表示女性,j=1,2. Ω 由 10 个基本事件组成,而且这些基本事件的出现是等可能的. 用 A 表示“任选 2 人中,至少有 1 人是女性”这一事件,则 A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}, 7 事件 A 由 7 个基本事件组成,因而 P(A)= . 10

最新 K12


相关文档

  • 2018-2019年高中数学重庆高三开学考试汇编试卷
  • 【师说】2015高考数学(理)一轮复习课后练习:1.
  • 【优化方案】2014届高考数学8.4 直线与圆锥曲线
  • 【优化方案】2014届高考数学7.2 两条直线的位置
  • 江苏省常州市西夏墅中学高中数学《函数的最值导
  • 【优化方案】2014届高考数学7.5 圆及直线与圆的
  • 【优化方案】2014届高考数学7.2 两条直线的位置
  • 【师说】2015高考数学(理)一轮复习课后练习:1.
  • 福建省2012届厦门双十中学高三数学(理)热身卷
  • 【优化方案】2014届高考数学7.5 圆及直线与圆的
  • 【步步高】2015年高考数学(苏教版,理)一轮题库
  • 电脑版