統計學知識要點有哪些你知道嗎?你對統計學的知識要點了解嗎?下面是本站小編為大家帶來的統計學知識要點彙總的知識,歡迎閱讀。
一、主成分和因子分析
1.(1)概念:在研究實際問題時,往往需要收集多個變數。但這樣會使多個變數間存在較強的相關關係,即這些變數間存在較多的資訊重複,直接利用它們進行分析,不但模型複雜,還會因為變數間存在多重共線性而引起較大的誤差。為能夠充分利用資料,通常希望用較少的新變數代替原來較多的舊變數,同時要求這些新變數儘可能反映原變數的資訊。主成分分析和因子分子正是解決這類問題的有效方法。它們能夠提取資訊,使變數簡化降維,從而使問題更加簡單直觀
(2)主成分分析:研究如何通過少數幾個主成分(principal component)來解釋多個變數間的內部結構。即從原始變數中匯出少數幾個主分量,使它們儘可能多地保留原始變數的資訊,且彼此間互不相關
主成分分析的目的:資料的壓縮;資料的解釋。常被用來尋找判斷事物或現象的綜合指標,並對綜合指標所包含的資訊進行適當的解釋。(主成分所代表的原始變數的資訊用其方差來表示,一般要求所選主成分的方差總和佔全部方差的80%以上就可以了。如果原來的變數之間的相關程度高,降維的效果就會好一些,所選的主成分就會少一些。特徵根反映了主成分對原始變數的影響程度,表示引入該主成分後可以解釋原始變數的資訊。特徵根又叫方差,某個特徵根佔總特徵根的比例稱為主成分方差貢獻率。一般情況下,當特徵根小於1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變數解的釋力度大。)
(3)因子分析:與主成分分析類似,它們都是要找出少數幾個新的變數來代替原始變數。
不同之處:主成分分析中的主成分個數與原始變數個數是一樣的,即有幾個變數就有幾個主成分,只不過最後我們確定了少數幾個主成分而已。而因子分析則需要事先確定要找幾個成分,也稱為因子(factor),然後將原始變數綜合為少數的幾個因子,以再現原始變數與因子之間的關係,一般來說,因子的個數會遠遠少於原始變數的個數。
因子分析可以看作是主成分分析的推廣和擴充套件,但它對問題的研究更深入、更細緻一些。實際上,主成分分析可以看作是因子分析的一個特例
簡言之,因子分析是通過對變數之間關係的研究,找出能綜合原始變數的少數幾個因子,使得少數因子能夠反映原始變數的絕大部分資訊,然後根據相關性的大小將原始變數分組,使得組內的變數之間相關性較高,而不同組的變數之間相關性較低。因此,因子分析屬於多元統計中處理降維的一種統計方法,其目的就是要減少變數的個數,用少數因子代表多個原始變數
(4)因子數量的確定
用公因子方差貢獻率提取:與主成分分析類似,一般累計方差貢獻率達到80%以上的前幾個因子可以作為最後的公因子
用特徵根提取:一般要求因子對應的特徵根要大於1,因為特徵根小於1說明該共因子的解釋力度太弱,還不如使用原始變數的解釋力度大
實際應用中,因子的提取要結合具體問題而定,在某種程度上,取決於研究者自身的知識和經驗
(5)主成分分析和因子分析都是多元分析中處理降維的兩種統計方法。只有當原始資料中的變數之間具有較強的相關關係時,降維的效果才會明顯,否則不適合進行主成分分析和因子分析
主成分和因子的選擇標準應結合具體問題而定。在某種程度上取決於研究者的知識和經驗,而不是方法本身
即使得到了滿意的主成分或因子,在運用它們對實際問題進行評價、排序等分析時,仍然要保持謹慎,因為主成分和因子畢竟是高度抽象的量,無論如何,它們的含義都不如原始變數清晰
因子分析可以看作是主成分分析的推廣和擴充套件,而主成分分析則可以看作是因子分析的一個特例。目前因子分析在實際中被廣泛應用,而主成分分析通常只作為大型統計分析的中間步驟,幾乎不再單獨使用
二、多元迴歸
1.多重共線性
迴歸模型中兩個或兩個以上的自變數彼此相關
多重共線性帶來的問題有
可能會使迴歸的結果造成混亂,甚至會把分析引入歧途
可能對引數估計值的正負號產生影響,特別是各回歸係數的正負號有可能同我們預期的正負號相反
2.多重共線性的識別
檢測多重共線性的最簡單的一種辦法是計算模型中各對自變數之間的相關係數,並對各相關係數進行顯著性檢驗
若有一個或多個相關係數顯著,就表示模型中所用的自變數之間相關,存在著多重共線性
如果出現下列情況,暗示存在多重共線性
模型中各對自變數之間顯著相關。
當模型的線性關係檢驗(F檢驗)顯著時,幾乎所有迴歸係數的t檢驗卻不顯著
迴歸係數的正負號與預期的相反。
3.變數選則過程
在建立迴歸模型時,對自變數進行篩選
選擇自變數的原則是對統計量進行顯著性檢驗
將一個或一個以上的自變數引入到迴歸模型中時,是否使得殘差平方和(SSE)有顯著地減少。如果增加一個自變數使SSE的減少是顯著的,則說明有必要將這個自變數引入迴歸模型,否則,就沒有必要將這個自變數引入迴歸模型
確定引入自變數是否使SSE有顯著減少的方法,就是使用F統計量的值作為一個標準,以此來確定是在模型中增加一個自變數,還是從模型中剔除一個自變數
變數選擇的方法主要有:向前選擇、向後剔除、逐步迴歸、最優子集等
4.向前選擇
從模型中沒有自變數開始
對k個自變數分別擬合對因變數的一元線性迴歸模型,共有k個,然後找出F統計量的值最高的模型及其自變數(P值最小的),並將其首先引入模型
分別擬合引入模型外的k-1個自變數的線性迴歸模型
如此反覆進行,直至模型外的自變數均無統計顯著性為止
5.向後剔除
先對因變數擬合包括所有k個自變數的迴歸模型。然後考察p(p
考察p-1個再去掉一個自變數的模型(這些模型中每一個都有k-2個的自變數),使模型的SSE值減小最少的自變數被挑選出來並從模型中剔除
如此反覆進行,一直將自變數從模型中剔除,直至剔除一個自變數不會使SSE顯著減小為止
6.逐步迴歸
將向前選擇和向後剔除兩種方法結合起來篩選自變數
在增加了一個自變數後,它會對模型中所有的變數進行考察,看看有沒有可能剔除某個自變數。如果在增加了一個自變數後,前面增加的某個自變數對模型的貢獻變得不顯著,這個變數就會被剔除
按照方法不停地增加變數並考慮剔除以前增加的變數的可能性,直至增加變數已經不能導致SSE顯著減少
在前面步驟中增加的自變數在後面的步驟中有可能被剔除,而在前面步驟中剔除的自變數在後面的步驟中也可能重新進入到模型中
7.虛擬自變數
用數字程式碼表示的定性自變數
虛擬自變數可有不同的水平
只有兩個水平的虛擬自變數。比如,性別(男,女)
有兩個以上水平的虛擬自變數,貸款企業的型別(家電,醫藥,其他)
虛擬變數的取值為0,1
迴歸模型中使用虛擬自變數時,稱為虛擬自變數的迴歸
當虛擬自變數只有兩個水平時,可在迴歸中引入一個虛擬變數,比如,性別
一般而言,如果定性自變數有k個水平,需要在迴歸中模型中引進k-1個虛擬變數
例:引進虛擬變數時,迴歸方程可寫:
E(y) =b0+ b1x1+ b2x2
女( x2=0):E(y|女性) =b0 +b1x1
男(x2=1):E(y|男性) =(b0 + b2 ) +b1x1
b0的含義表示:女性職工的期望月工資收入
(b0+ b2)的含義表示:男性職工的期望月工資收入
b1含義表示:工作年限每增加1年,男性或女性工資的平均增加值
b2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值 (b0+ b2) - b0= b2
三、簡單迴歸
1.相關分析:對兩個變數之間線性關係的描述與度量,它要解決的問題包括
§ 變數之間是否存在關係?
§ 如果存在關係,它們之間是什麼樣的關係?
§ 變數之間的強度如何?
§ 樣本所反映的變數之間的關係能否代表總體變數之間的關係?
2.迴歸分析:從一組樣本資料出發,確定變數之間的數學關係式;對這些關係式的可信程度進行各種統計檢驗,並從影響某一特定變數的諸多變數中找出哪些變數的影響顯著,哪些不顯著;利用所求的關係式,根據一個或幾個變數的取值來預測或控制另一個特定變數的取值,並給出這種預測或控制的精確程度
3.迴歸分析與相關分析的區別
相關分析中,變數 x 變數 y 處於平等的地位;迴歸分析中,變數 y 稱為因變數,處在被解釋的地位,x 稱為自變數,用於預測因變數的變化
相關分析中所涉及的變數 x 和 y 都是隨機變數;迴歸分析中,因變數 y 是隨機變數,自變數 x 可以是隨機變數,也可以是非隨機的確定變數
相關分析主要是描述兩個變數之間線性關係的密切程度;迴歸分析不僅可以揭示變數 x 對變數 y 的影響大小,還可以由迴歸方程進行預測和控制
4.一元線性迴歸模型
描述因變數 y 如何依賴於自變數 x 和誤差項e 的方程稱為迴歸模型
一元線性迴歸模型可表示為
y = b0 +b1 x + e
y 是 x 的線性函式(部分)加上誤差項
線性部分反映了由於 x 的變化而引起的 y 的變化
誤差項 e 是隨機變數
l 反映了除 x 和 y 之間的線性關係之外的隨機因素對 y 的影響
l 是不能由 x 和 y 之間的線性關係所解釋的變異性
b0 和 b1 稱為模型的引數
5.利用迴歸方程預測時應注意
1. 在利用迴歸方程進行估計或預測時,不要用樣本資料之外的x值去預測相對應的y值
2. 因為在一元線性迴歸分析中,總是假定因變數y與自變數x之間的關係用線性模型表達是正確的。但實際應用中,它們之間的關係可能是某種曲線
3. 此時我們總是要假定這條曲線只有一小段位於x測量值的範圍之內。如果x的取值範圍是在xL和xU之間,那麼可以用所求出的利用迴歸方程對處於xL和xU之間的值來估計E(y)和預測y。如果用xL和xU之間以外的值得出的估計值和預測值就會很差
6.離差平方和
總平方和(SST)
反映因變數的 n 個觀察值與其均值的總離差
迴歸平方和(SSR)
反映自變數 x 的變化對因變數 y 取值變化的影響,或者說,是由於 x 與 y 之間的線性關係引起的 y 的取值變化,也稱為可解釋的平方和
殘差平方和(SSE)
反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩餘平方和
7.估計標準誤差
實際觀察值與迴歸估計值離差平方和的均方根(自由度n-2)
反映實際觀察值在迴歸直線周圍的分散狀況
對誤差項e的標準差s的估計,是在排除了x對y的線性影響後,y隨機波動大小的一個估計量
反映用估計的迴歸方程預測y時預測誤差的大小