迴歸分析的基本思想及其初步應用知識點整理

要求:通過典型案例的探究,進一步瞭解迴歸分析的基本思想、方法及初步應用.

迴歸分析的基本思想及其初步應用知識點整理

重點:瞭解評價迴歸效果的三個統計量:總偏差平方和、殘差平方和、迴歸平方和.

教學難點:瞭解評價迴歸效果的三個統計量:總偏差平方和、殘差平方和、迴歸平方和.

教學過程:

一、複習準備:

1.由例1知,預報變量(體重)的值受解釋變量(身高)或隨機誤差的影響.

2.爲了刻畫預報變量(體重)的變化在多大程度上與解釋變量(身高)有關?在多大程度上與隨機誤差有關?我們引入了評價迴歸效果的三個統計量:總偏差平方和、殘差平方和、迴歸平方和.

二、講授新課:

1. 教學總偏差平方和、殘差平方和、迴歸平方和:

(1)總偏差平方和:所有單個樣本值與樣本均值差的平方和,即 .

殘差平方和:迴歸值與樣本值差的平方和,即 .

迴歸平方和:相應迴歸值與樣本均值差的平方和,即 .

(2)學習要領:①注意 、 、 的區別;②預報變量的變化程度可以分解爲由解釋變量引起的變化程度與殘差變量的變化程度之和,即 ;③當總偏差平方和相對固定時,殘差平方和越小,則迴歸平方和越大,此時模型的擬合效果越好;④對於多個不同的模型,我們還可以引入相關指數 來刻畫迴歸的效果,它表示解釋變量對預報變量變化的貢獻率. 的值越大,說明殘差平方和越小,也就是說模型擬合的效果越好.

2. 教學例題:

例2 關於 與 有如下數據:

2 4 5 6 8

30 40 605070

爲了對 、 兩個變量進行統計分析,現有以下兩種線性模型: , ,試比較哪一個模型擬合的效果更好.

用樣本的頻率分佈估計總體的分佈學案

M

學案4 用樣本的頻率分佈估計總體的分佈

【課標導航】

(1) 通過實例體會分佈的意義和作用.

(2)在表示樣本數據的過程中,學會列頻率分佈表,畫頻率分佈直方圖、頻率折線圖和莖葉圖.

(3)通過實例體會頻率分佈直方圖、頻率折線圖、莖葉圖的各自特徵,從而恰當地選擇上述方法分析樣本的分佈,準確地做出總體估計.

重點:會列頻率分佈表,畫頻率分佈直方圖、頻率折線圖和莖葉圖.

難點:能通過樣本的頻率分佈估計總體的分佈.

【知識導引】

在NBA的2011賽季中,甲、乙兩名籃球運動員每場比賽得分的原始記錄如下?

甲運動員得分?12,15,20,25,31,31,36,36,37,39,44,49,50

乙運動員得分?8,13,14,16,23,26,28,38,39,51,31,29,33

請問從上面的數據中你能否看出甲,乙兩名運動員哪一位發揮比較穩定?

如何根據這些數據作出正確的判斷呢?

【自學導撥】

1.頻率分佈表

當總體很大或不便獲得時,可以用樣本的頻率分佈估計總體的頻率分佈,我們把反映 的表格稱爲頻率分佈表.

2.繪製頻率分佈直方圖的一般步驟爲:

(1)計算 ,即一組數據中最大值與最小值的差;

(2)決定 ;

○1組距與組數的確定沒有確切的標準,將數據分組時組數應力求合適,以使數據的發佈規律能較清楚地呈現出來.

○2組數與樣本容量有關,一般樣本容量越大,分的組數也越多,當樣本容量爲100時,常分8~12組.

○3組距的選擇.組距= ,組距的選擇力求取整,如果極差不利於分組(不能被組數整除)可適當增大極差,如在左右兩端各增加適當的範圍(儘量使兩端增加的量相同).

(3)決定 ;

(4)列 ;一般爲四列:分組、個數累計、頻數、頻率最後一行是合計,其中頻數合計應是 ,頻率合計是

(5)繪製頻率分佈直方圖.爲將頻率分佈直方圖中的結果直觀形象的表示出來,畫圖時,應以橫軸表示分組,縱軸表示 ,其相應組距上的頻率等於該組上的長方形的面積,即每個 ,且各小長方形的面積的總和等於 ..

3.頻率分佈折線圖

連接頻率分佈直方圖中 的中點,就得到頻率分佈折線圖.

4.總體密度曲線

隨着樣本容量的增加,作圖時所分的組數也在增加,組距減小,相應的 圖會越來越接近於一條 ,統計中稱之爲總體密度曲線,它反映了總體在各個範圍內取值的百分比.

5.莖葉圖

當樣本數據 時,用莖葉圖表示數據效果較好,它不但可以便於記錄,而且統計圖上沒有原始數據的損失,所有的數據都可以從莖葉圖中得到.

畫莖葉圖的步驟:(1)將數據分爲“莖”(高位)和 “葉”(低位)兩部分.

(2)將最小莖和最大莖之間的數按大小次序排成一列.

(3)將數據的“葉”按大小次序寫在其莖右(左)側.

6.幾種表示頻率分佈的方法的優點與不足:

(1)頻率分佈表在數量表示上比較確切,但不夠直觀、形象,分析數據分佈的總體態勢不太方便.

(2)頻率分佈直方圖能夠很容易地表示大量數據,非常直觀地表明分佈的形狀,使我們能夠看到在分佈表中看不清楚的數據模式.但從直方圖本身得不出原始的數據內容,也就是說,把數據表示成直方圖後,原有的具體數據信息就被抹掉了.

(3)頻率分佈折線圖的優點是它反映了數據的變化趨勢,如果樣本容量不斷增大,分組的組距不斷縮小,那麼折線圖就趨向於總體分佈的密度曲線.

(4)用莖葉圖的優點是原有信息不會被抹掉,能夠展示數據的分佈情況,但當樣本數據較多或數據位數較多時,莖葉圖就顯得不太方便了.

【教材導學】

【例1】:從某校高一年級的1002名新生中用系統抽樣的方法抽取一個容量爲100的身高的樣本,數據如下(單位:cm).試作出該樣本的頻率分佈表.

168165171167170165 170 152 175 174

165 170168 169 171 166 164 155 164 158

170 155 166 158 155 160 160 164 156 162

160 170 168 164 174 171 165 179 163 172

180 174 173 159 163 172 167 160 164 169

151 168 158 168 176 155 165 165 169 162

177158 175 165 169 151 163 166 163 167

178 165 158 170 169 159 155 163 153 155

167 163 164 158 168 167 161 162 167 168

161 165 174 156 167 166 162 161 164 166

【點撥】:確定組距與組數是解決“樣本中的個體取不同值較多”這類問題的出發點.本題需根據繪製頻率分佈直方圖的步驟完成.

【解析】:最大值=180,最小值=151,

極差=29,決定分爲10組;

則需將全距調整爲30,組距爲3,既每個小區間的長度爲3,組距=全距/組數.

可取區間[150.5, 180.5]

分組 頻數 頻率

[150.5,153.5) 4 0.04

[153.5,156.5) 8 0.08

[156.5,159.5) 8 0.08

[159.5,162.5) 11 0.11

[162.5,165.5) 22 0.22

[165.5,168.5) 19 0.19

[168.5,171.5) 14 0.14

[171.5,174.5) 7 0.07

[174.5,177.5) 4 0.04

[177.5,180.5) 3 0.03

合計 100 1

頻率分佈直方圖爲:

【反思】:在列頻率分佈表時,先求極差再分組,注意分組不能太多也不能太少,往往把第1小組的起點稍微減小一點,同時要牢固掌握列頻率分佈表及繪製頻率分佈直方圖是步驟與方法.

【變式練習一】:下表給出了某校500名12歲男孩中用隨機抽樣得出的120人的身高

(單位cm)

(1)列出樣本頻率分佈表?

(2)一畫出頻率分佈直方圖;

(3)估計身高小於134cm的人數佔總人數的百分比..

【例2】:從全校參加科技知識競賽的學生試卷中,抽取一個樣本,考察競賽的成績分佈.將樣本分成5組,繪成頻率分佈直方圖(如圖),圖中從左到右各小組的小長方形的高的比是1∶3∶6∶4∶2,最後邊一組的頻數是6.請結合頻率分佈直方圖提供的信息,解答下列問題:

(1)樣本的容量是多少?

(2)列出頻率分佈表;

(3)成績落在哪個範圍內的人數最多?並求該小組的頻數、頻率;

(4)估計這次競賽中,成績不低於60分的學生佔總人數的百分比.

【點撥】:本題主要考察頻率分佈直方圖的應用,考察識圖、用圖的能力,運用頻率分佈直方圖的知識解答.

【解析】:(1)由於各組的組距相等,所以各組的頻率與各小長方形的高成正比且各組頻率的和等於1,那麼各組的頻率分別爲116,316,616,416,216.設該樣本容量爲n,則6n=216,所以樣本容量爲n=48.

(2)由以上得頻率分佈表如下:

成績頻數頻率

[50.5,60.5)3116

[60.5,70.5)9316

[70.5,80.5)18616

[80.5,90.5)12416

[90.5,100.5)6216

合計481

(3)成績落在[70.5,80.5)之間的人數最多,該組的頻數和頻率分別是18和38.

(4)不低於60分的學生佔總人數的百分比約爲

1-116×100%≈94%.

【反思】:(1)頻率分佈直方圖中, ,所以各小長方形的面積表示相應各組的頻率,各小長方形的面積的總和等於 .

(2)樣本容量= .

【變式練習二】: 某校爲了瞭解高一年級學生的體能情況,抽調了一部分學生進行一分鐘跳繩測試,將測試成績整理後作出如下統計圖,甲同學計算出前兩組的頻率和是0.12,乙同學計算出跳繩次數不少於100次的同學佔96%,丙同學計算出從左至右第二、三、四組的頻數比爲4:17:15,結合統計圖回答下列問題:

(1)這次共抽調了多少人?

(2)若跳繩次數不少於130次爲優秀,則這次測試成績的優秀率是多少?

【例3】:某中學高一(1)班甲、乙兩名同學自高中以來每場數學考試成績如下:

甲的'得分:95,81,75,91,86,89,71,65,76,88,94,110,107;

乙的得分:83,86,93,99,88,103,98,114,98,79,101.

畫出兩人數學成績莖葉圖,請根據莖葉圖對兩人的成績進行比較.

【點撥】:用中間的數字表示兩位同學得分的十位數和百位數,兩邊的數字分別表示兩人每場數學考試成績的個位數.

【解析】:甲、乙兩人數學成績的莖葉圖如圖所示:

甲 乙

從這個莖葉圖可以看出,乙同學的得分情況是大致對稱的,中位數是99;甲同學的得分情況除一個特殊得分外,也大致對稱,中位數是89.因此乙同學發揮比較穩定,總體得分情況比甲同學好.

【反思】:莖葉圖由“莖”和“葉”兩部分構成,繪製莖葉圖的關鍵是設計好樹莖,通常是以該組數據的高位數值作爲樹莖,樹莖一經確定,樹葉就自然地長在相應的樹莖上了.

【變式練習三】:

在某電腦雜誌的一篇文章中,每個句子的字數如下:

10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17.

在某報紙的一篇文章中,每個句子的字數如下:

27,39,33,24,28,19,32,41,33,27,36,23,36,41,27,13,22,23,18,46,32,22.

(1)將這兩組數據用莖葉圖表示.

(2)將這兩組數據進行比較分析,得到什麼結論?

【思悟小結

(由學生完成)

【基礎導測】

1.將一個容量爲n的樣本分成若干組,已知某組的頻數和頻率分別爲40和0.125,則n的值爲

(A)640(B)320(C)240(D)160

2.下面給出4個莖葉圖

則數據6,23,12,13,27,35,37,38,51可以由圖 ______表示

3.一個容量爲32的樣本,已知某組樣本的頻率爲0.0625,則該組樣本的頻數爲

A 2 B.4 C.6 D.8

4.爲了瞭解某地區高三學生的身體發育情況,抽查了該地區100名年齡爲17.5歲~18歲的男生體重(kg),得到頻率分佈直方圖,如圖,據圖可得這100名學生中體重在[56.5,64.5) kg的學生人數是( )

(A)20(B)30(C)40(D)50

5.(2010福建文) 將容量爲n的樣本中的數據分成6組,繪製頻率分佈直方圖.若第一組至第六組數據的頻率之比爲2:3:4:6:4:1,且前三組數據的頻數之和等於27,則n等於 .

6.(2010江蘇卷)某棉紡廠爲了瞭解一批棉花的質量,從中隨機抽取了100根棉花纖維的長度(棉花纖維的長度是棉花質量的重要指標),所得數據都在區間[5,40]中,其頻率分佈直方圖如圖所示,則其抽樣的100根中,有____根在棉花纖維的長度小於20mm.

7.(2010?福州高一檢測)甲、乙兩個小組各10名學生的英語口語測試成績如下(單位:分):

甲組:76 90 84 86 81 87 86 82 85 83

乙組:82 84 85 89 79 80 91 89 79 74

用莖葉圖表示兩個小組的成績,並判斷哪個小組的成績更整齊一些.

8. 觀察下面表格:

(1)完成表中的頻率分佈表;

(2)根據表格,畫出頻率分佈直方圖;

(3)估計數據落在[10.95,11.35)範圍內的概率約爲多少?

分組頻數頻率

[10.75,10.85)3

[10.85,10.95)9

[10.95,11.05)13

[11.05,11.15)16

[11.15,11.25)26

[11.25,11.35)20

[11.35,11.45)7

[11.45,11.55)4

[11.55,11.65)2

合計100

【知能提升】

1. 對於樣本頻率分佈折線圖與總體密度曲線的關係,下列說法正確的是( )

A.頻率分佈折線圖與總體密度曲線無關

B. 頻率分佈折線圖就是總體密度曲線

C.樣本容量很大的頻率分佈折線圖就是總體密度曲線

D如果樣本容量無限增大,分組的組距無限減小,那麼頻率分佈折線圖就會無限接近於總體密度曲線

2.爲了解一片經濟林的生長情況,隨機測量了其中100

株樹木的底部周長(單位:cm).根據所得數據畫

出樣本的頻率分佈直方圖(如右圖),那麼在這100

株樹木中,底部周長小於110cm的株數是( )

A.30 B.60 C.70 D.80

3.某班50名學生在一次百米測試中,成績全部介於13秒與19秒之間,將測試結果按如下方式分成六組:第一組,成績大於等於13秒且小於14秒;第二組,成績大於等於14秒且小於15秒;……;第六組,成績大於等於18秒且小於等於19秒.如圖是按上述分組方法得到的頻率分佈直方圖.設成績小於17秒的學生人數佔全班總人數的百分比爲x,成績大於等於15秒且小於17秒的學生人數爲y,則從頻率分佈直方圖中可分析出x和y分別爲( )

(A)0.9,35(B)0.9,45

(C)0.1,35(D)0.1,45

4.某商場在國慶黃金週的促銷活動中,對10月2日9時至14時的銷售額進行統計,其頻率分佈直方圖如圖1所示,已知9時至10時的銷售額爲2.5萬元 ,則11時至12時的銷售額爲

A. 6萬元 B. 8萬元

C. 10萬元 D. 12萬元

5.甲、乙兩個班級各隨機選出15名同學進行測驗,成績的

莖葉圖如圖所示.則甲、乙兩班的最高成績分別是 ______,

______.從圖中看 ______班的平均成績較高.

6. (2010北京理)從某國小隨機抽取100名同學,將他們的身高(單位:釐米)數據繪製成頻率分佈直方圖(如圖).由圖中數據可知a= .若要從身高在[ 120 , 130),[130 ,140) , [140 , 150]三組內的學生中,用分層抽樣的方法選取18人蔘加一項活動,則從身高在[140 ,150]內的學生中選取的人數應爲 .

7.從高一學生中抽取50名同學參加數學競賽,成績的分組及各組的頻數如下(單位:分):

[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100],8.

(1)列出樣本的頻率分佈表;

(2)畫出頻率分佈直方圖;

(3)估計成績在[60,90)分的學生比例;

(4)估計成績在85分以下的學生比例.

8.50輛汽車經過某一段公路的時速記錄如圖所示:

將其分成7組.

(1)列出樣本的頻率分佈表;

(2)畫出頻率分佈直方圖以及頻率分佈折線圖;

(3)根據上述結果,估計汽車時速在哪組的機率最大?

9. 在育民中學舉行的電腦知識競賽中,將高一兩個班參賽的學生成績(得分均爲整數)進行整理後分成五組,繪製如圖所示的頻率分佈直方圖.已知圖中從左到右的第一、第三、第四、第五小組的頻率分別是0.30,0.15,0.10,0.05,第二小組的頻數是40.

(1)求第二小組的頻率,並補全這個頻率分佈直方圖;

(2)求這兩個班參賽的學生人數是多少?

(3)這兩個班參賽學生的成績的中位數應落在第幾小組內?(不必說明理由)

【數學探究】

(2010湖北文)爲了瞭解一個小水庫中養殖的魚有關情況,從這個水庫中多個不同位置捕撈出100條魚,稱得每條魚的質量(單位:千克),並將所得數據分組,畫出頻率分佈直方圖(如圖所示)

(Ⅰ)求出各組相應的頻率;

(Ⅱ)估計數據落在[1.15,1.30)中的百分比爲多少;

(Ⅲ)將上面捕撈的100條魚分別作一記號後再放回水庫,幾天後再從水庫的多處不同位置捕撈出120條魚,其中帶有記號的魚有6條,請根據這一情況來估計該水庫中魚的總條數.