回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。通過數據間相關性分析的研究,進一步建立自變量Xi(i=1,2,3,…)與因變量Y之間的回歸函數關系,即回歸分析模型,從而預測數據的發展趨勢。
按照自變量與因變量之間的關系類型,可以分為線性回歸與非線性回歸。因此我們可以理解為,線性回歸只是回歸分析所用方法之一,體現出的是變量之間的線性關系。
線性回歸的表達式為:Y=b*X+a(a為誤差服從均值為0的正態分布)
其中線性回歸分析按照涉及自變量的多少,分為一元線性回歸分析和多元線性回歸分析。
一元線性回歸分析
只包括單個自變量和一個因變量,且二者的關系可用一條直線近似表示。它主要研究單個自變量X對因變量Y是否有影響。
比如,身高(X)與體重(Y)的影響。
多元線性回歸分析
包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系。它主要研究多個自變量X1、X2….Xn對因變量Y是否有影響。
比如,身高(X1)、飲食情況(X2)…運動量(Xn)等因素對體重(Y)的影響。
用Excel研究回歸分析的主要問題有四個:
1、確定Y與X間的定量關系表達式,這種表達式稱為回歸方程;
2、對求得的回歸方程的可信度進行檢驗;
3、判斷自變量X對因變量Y有無影響;
4、利用所求得的回歸方程進行預測和控制。
1、置信度
95%置信區間指的是某個總體參數的真實值有95%的概率會落在測量結果的區間內。
例如:通過測量某班級學生的考試成績,得到有95%的置信水平該班成績的置信區間在60分到80分之間。
那么可以說:在多次抽樣后,由95%的樣本得到的區間會包含該班學生考試的平均成績的真值。
置信區間在頻率學派中間使用,其在貝葉斯統計中的對應概念是可信區間。兩者建立在不同的概念基礎上的,貝葉斯統計將分布的位置參數視為隨機變量,并對給定觀測到的數據之后未知參數的后驗分布進行描述。
故無論對隨機樣本還是已觀測數據,構造出來的可信區間,其可信水平都是一個合法的概率;而置信區間的置信水平,只在考慮隨機樣本時可以被理解為一個概率。
2、R(Multiple R)
回歸分析中r值表示相關系數,相關系數r值度量兩變量之間的線性相關性。r值取值范圍為【-1,+1】。相關系數為-1,表示完全負相關;相關系數為+1,表示完全正相關。相關系數為0表示兩變量之間無線性相關性。
3、可決系數(R-squared)
都知道可決系數表示解釋變量對被解釋變量的解釋貢獻,其實質就是看(y尖-y均)與(y=y均)的一致程度。y尖為y的估計值,y均為y的總體均值。
4、調整后的可決系數(Adjusted R Square)
即經自由度修正后的可決系數,從計算公式可知調整后的可決系數小于可決系數,并且可決系數可能為負,此時說明模型極不可靠。
5、P值(P-value)
P值為理論T值超越樣本T值的概率,應該聯系顯著性水平α相比,α表示原假設成立的前提下,理論T值超過樣本T值的概率,當P值<α值,說明這種結果實際出現的概率的概率比在原假設成立的前提下這種結果出現的可能性還小但它偏偏出現了,因此拒絕接受原假設。
6、回歸方程怎么寫
回歸方程要根據回歸分析的結果中的系數(Coefficients)去寫,也分一元線性回歸方程和多元線性回歸方程。
下面李海博客以一元線性回歸方程為例講一下寫法:
根據分析結果中的系數(Coefficients),一元線性回歸方程寫法為 Y=0.868171X-25.535。
多元線性回歸方程寫法為 Y=系數1*X1+系數2*X2+系數3*X3-截距(Intercept)。
以上就是李海博客總結的用做回歸分析時常見的一些問題,包括置信度,R,R-Square,P,回歸方程等。