SCI 期刊影響因子信息查詢系統

 
咨詢熱線400-820-3901
 
  醫界要問
  ● 學術講座
  ● 他山之石
  ● 醫學美文
  ● 智庫資源
  ● 基金信息
  ● 精選病例
  ● 醫界新聞
  ● 新聞中心
醫界要聞內容

解決SCI論文中有關統計疑難雜癥

 

簡單線性回歸


    前面我們介紹了兩變量之間的關聯性分析,它重點在于研究兩變量之間線性關系及方向,兩變量為同時測得的結果變量,不分主次。但是在實際研究中,我們常需要通過可測或易測的變量對未知或難測的變量進行估計,達到預測的目的。我們把被估計或被預測的變量稱為因變量,或者反應變量,常用Y表示;Y所依存的變量稱為自變量,或者解釋變量,用X表示,回歸分析常被用來研究一個變量如何隨另一些變量變化的常用方法。本節先介紹兩個連續變量之間的線性依存變化關系的統計方法,即簡單線性回歸。線性回歸的模型為:μY|X=α+Βx,但是研究者一般只能獲取一定量的樣本數據,用樣本數據建立的有關Y依賴X變化的線性表達式,記為:Y=a+bX,其中Y是由自變量X推算應變量Y的估計值,a是回歸直線在Y軸上的截距,b為樣本的回歸系數,a,b為參數α,β的估計值。使用線性回歸分析時,要先滿足以下幾個條件:





  1. 因變量和自變量之間存在線性關系

  2. 每個個體觀測值相互獨立

  3. 在一定范圍內,任意給定X,其對應的隨機變量Y均服從正態分布

  4. 一定范圍內,不同的X值所對應的隨機變量Y的方差相等

這四個條件,我們一般可以簡稱“LINE”,即線性,獨立性,正態性以及方差齊性四個關鍵詞的首寫字母組合在一起的。


1
判斷因變量和自變量之間是否存在線性關系,一般是采用散點圖法,如果散點趨向構成一條直線,那么因變量和自變量之間存在線性關系,在SPSS上的操作如下:



從上文的結果散點圖可以看出來,體重和基礎代謝之間存在線性關系,基礎代謝隨著體重的增長而增長。

2
殘差分析可以深入了解實際資料是否符合正態性和方差齊性等條件,具體的SPSS操作如下:




3
 前面我們已經介紹過正態性檢驗的方法,從正態P-P圖可以看出來標準化殘差近似正態分布,因此可以認為回歸符合正態分布的條件。


    標準化殘差圖中散點的分布,大部分在±2倍標準差之間,以0參考線的上下隨機且均勻的散布時,可以認為方差齊性,在±2倍標準差以外,±3倍標準差以內出現的點隨對應的原始數據可能為離群值。從上述散點圖可以看出各點均勻分布,在±2倍標準差之間,因此,我們認為該回歸符合等方差的條件。

4
前面已經介紹了如何判斷樣本是否滿足線性回歸模型的適用條件,接下來建立線性回歸方程及解釋其中參數代表的含義:


R方是指決定系數,它反映了回歸貢獻的相對程度,即因變量Y的總變異中X和Y的回歸關系所能解釋的比例。圖中R方為0.778,即自變量(體重)可以解釋93%的因變量(基礎代謝)變異。

當P<0.05時,說明回歸模型具有統計學意義,由上圖可知:F(1,12)=158.361,P小于0.05,所以該回歸模型有統計學意義。

    由上圖可知,該模型的截距為1106.788,斜率為61.423,表示體重每增加1千克,基礎代謝平均增加61.423kJ/d,斜率的P值小于0.05,即斜率值與0的差異與統計學意義,說明因變量和自變量之間存在線性關系,。將系數帶入回歸方程,得:Y=1106.788+61.423X

?如何判斷資料個體觀察值之間相互獨立條件是否滿足

    細心的朋友一定發現了,上面我講述了如何判斷資料是否滿足線性,正態性和方差齊性要求,但是沒有說該如何判斷資料是否滿足獨立性要求。我們一般是采用DW(Durbin-Watson)檢驗,它屬于是自相關性檢驗,在SPSS上的操作步驟是分析-回歸-線性-統計量- Durbin-Watson(勾上),DW值在0-4之間,愈接近2,觀察值愈不相關;愈接近0,觀察值正相關愈強;愈接近4,觀察值負相關愈強。



多重線性回歸


   

     研究兩個連續變量之間的線性依存關系的統計學方法是簡單線性回歸,當涉及多個自變量的回歸時,就需要通過多重線性回歸來分析了。其數學模型為:μY=β0+β1X1+β2X2+…+βPXP, μY表示自變量取固定值時相應因變量Y的總體均數;P為自變量個數;β0為常數項,也叫做截距;βP為XP的偏回歸系數,表示當其他自變量表示不變時,自變量XP變化一個單位,因變量Y的平均值變化βP個單位。由樣本估計的到的多重線性回歸方程為:Y=b0+b1X1+b2X2+…+bPXP;由于自變量至少為2個,多重線性回歸模型適用的條件除了要滿足上面的“LINE”條件外,還得滿足自變量間不存在多重共線性的條件。下面我們通過SPSS操作來描述資料是否符合多重線性回歸要求,及如何判斷的:


1
散點圖判斷線性關系



上圖可以看出,因變量(空腹血糖)與每個自變量(胰島素,糖化血紅蛋白)都有線性關系。

2
共線性,獨立性的判斷


按分析-回歸-線性步驟操作SPSS,然后:

Durbin-Waston值為1.4,在2左右,說明殘差獨立性較好。

    容差和VIF都是用來判斷共線性的指標,容差小于0.1,VIF大于10,是提示數據存在共線性。兩個指標判斷其中一個就可以了,從上圖可以看出所有的VIF都小于10,說明自變量之間不存在共線性。

3
正態性,方差齊性判斷



    從上面的正態概率圖(p-p圖)可以看出,散點基本圍繞在一條直線周圍分布,從而可以判斷殘差服從正態分布。

從上面的散點圖可以看出,標準化殘差的散點波動范圍基本保持穩定,不隨標準化預測值的變化而變化,可以認為基本滿足方差齊性的要求。

4
模型結果解讀


    圖中R代表復相關系數,其值為0.692,反映所有的自變量X和因變量Y之間的線性相關程度,越大說明線性相關越密切。R方為決定系數,其值是0.479,說明空腹血糖變異的47.9%可由胰島素,糖化血紅蛋白來解釋。

    上面第一個圖是是模型總體檢驗的結果,F(4,95)=11.026,P<0.05,說明所擬合的多重線性回歸具有統計學意義。第二個圖是偏回歸系數的檢驗結果,從圖中可以看出,胰島素的偏回歸系數為-0.276,代表在糖化血紅蛋白含量不變的情況下,胰島素每增加一個單位,空腹血糖就平均降低0.276mmol;糖化血紅蛋白的偏回歸系數為0.795,代表在胰島素含量不變的情況下,糖化血紅蛋白每增加一個單位,空腹血糖就平均增加0.795mmol。胰島素和糖化血紅蛋白的偏回歸系數的P值分別為0.036,0.004,都小于0.05,都有統計學意義,均可納入到最終的回歸模型。注意:我們不能通過比較偏回歸系數的大小來比較各因變量對自變量的作用的大小,而是通過標準化偏回歸系數?;貧w模型如下:Y=6.378+-0.276X1+0.795X2




曲線直線化


    當資料不滿足線性要求時,我們就要對資料進行非線性分析,我們先觀察兩個變量的散點圖,如果散點圖分布的形狀接近我們常見的函數曲線時,我們可以采用變量變換的方法,使變換后的兩個變量之間呈直線關系,求出直線回歸方程,再將變量還原,得到曲線回歸方程。下面以一個例子來介紹關于曲線直化的非線性回歸分析的SPSS操作:



    從上面的散點圖,我們可以發現散點分布呈現非線性趨勢,類似于對數函數曲線分布,我們可以先對對自變量進行對數變換。