首頁 > 實驗技術方法 > 醫學統計學 > 統計學基礎 > 統計第五課:Logistic 回歸分析——被冷落的「皇妃」

統計第五課:Logistic 回歸分析——被冷落的「皇妃」

2元彩票中500万的 www.chmhhq.tw 關鍵詞: Logistic回歸分析 師兄講統計 2015-06-23 09:40 來源:互聯網 點擊次數:25145

Logistic 回歸:實際上屬于判別分析,因擁有很差的判別效率而不常用。

1. 應用范圍:

①???? 適用于流行病學資料的危險因素分析

②???? 實驗室中藥物的劑量-反應關系

③???? 臨床試驗評價

④???? 疾病的預后因素分析

2. Logistic 回歸的分類:

①???? 按因變量的資料類型分:

??????? 二分類

?? ? ? 多分類

其中二分較為常用

②???? 按研究方法分:

?????? 條件 Logistic 回歸

????? 非條件 Logistic 回歸

兩者針對的資料類型不一樣,后者針對成組研究,前者針對配對或配伍研究。

3.Logistic 回歸的應用條件是:

①???? 獨立性。各觀測對象間是相互獨立的;

②???? LogitP 與自變量是線性關系;

③???? 樣本量。經驗值是病例對照各 50 例以上或為自變量的 5-10 倍(以 10 倍為宜),不過隨著統計技術和軟件的發展,樣本量較小或不能進行似然估計的情況下可采用精確 logistic 回歸分析,此時要求分析變量不能太多,且變量分類不能太多;

④???? 當隊列資料進行 logistic 回歸分析時,觀察時間應該相同,否則需考慮觀察時間的影響(建議用 Poisson 回歸)。

4.??? 擬和 logistic 回歸方程的步驟:

①???? 對每一個變量進行量化,并進行單因素分析;

②???? 數據的離散化,對于連續性變量在分析過程中常常需要進行離散變成等級資料??剎捎玫姆椒ㄓ幸讕菥榻欣肷?,或是按照四分、五分位數法來確定等級,也可采用聚類方法將計量資料聚為二類或多類,變為離散變量。

③???? 對性質相近的一些自變量進行部分多因素分析,并探討各自變量(等級變量,數值變量)納入模型時的適宜尺度,及對自變量進行必要的變量變換;

④???? 在單變量分析和相關自變量分析的基礎上,對 P ≤α(常取 0.2,0.15 或 0.3)的變量,以及專業上認為重要的變量進行多因素的逐步篩??;模型程序每擬合一個模型將給出多個指標值,供用戶判斷模型優劣和篩選變量??梢圓捎盟?篩選技術:a 進入變量的篩選用 score 統計量或 G 統計量或 LRS(似然比統計量),用戶確定 P 值臨界值如:0.05、0.1 或 0.2,選擇統計量顯著且最大的變量進入模型;b 剔除變量的選擇用 Z 統計量 (Wald 統計量),用戶確定其 P 值顯著性水平,當變量不顯者,從模型中予以剔除。這樣,選入和剔除反復循環,直至無變量選入,也無變量刪除為止,選入或剔除的顯著界值的確定要依具體的問 題和變量的多寡而定,一般地,當納入模型的變量偏多,可提高選入界值或降低剔除標準,反之,則降低選入界值、提高刪除標準。但篩選標準的不同會影響分析結 果,這在與他人結果比較時應當注意。

⑤???? 在多因素篩選模型的基礎上,考慮有無必要納入變量的交互作用項;兩變量間的交互作用為一級交互作用,可推廣到二級或多級交互作用,但在實際應用中,各變量最好相互獨立 (也是模型本身的要求),不必研究交互作用,最多是研究少量的一級交互作用。

⑥???? 對專業上認為重要但未選入回歸方程的要查明原因。

5.??? 回歸方程擬合優劣的判斷(為線性回歸方程判斷依據,可用于 logistic 回歸分析)

①???? 決定系數 (R2) 和校正決定系數 ( Logistic 回歸分析簡介 - 初學乍練 - 教學科研 ),可以用來評價回歸方程的優劣。R2 隨著自變量個數的增加而增加,所以需要校正;校正決定系數 (Logistic 回歸分析簡介 - 初學乍練 - 教學科研 ) 越大,方程越優。但亦有研究指出 R2 是多元線性回歸中經常用到的一個指標,表示的是因變量的變動中由模型中自變量所解釋的百分比,并不涉及預測值與觀測值之間差別的問題,因此在 logistic 回歸中不適合。

②???? Cp 選擇法:選擇 Cp 最接近 p 或 p+1 的方程(不同學者解釋不同)。Cp 無法用 SPSS 直接計算,可能需要手工。1964 年 CL Mallows 提出:


Cp 接近(p+1)的模型為最佳,其中 p 為方程中自變量的個數,m 為自變量總個數。

③???? AIC 準則:1973 年由日本學者赤池提出 AIC 計算準則,AIC 越小擬合的方程越好。

?

在 logistic 回歸中,評價模型擬合優度的指標主要有 Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指標、Akaike 信息準則 (AIC)、SC 指標等。Pearson χ2、偏差 (deviance) 主要用于自變量不多且為分類變量的情況,當自變量增多且含有連續型變量時,用 HL 指標則更為恰當。Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指標值均服從χ2 分布,χ2 檢驗無統計學意義 (P>0.05) 表示模型擬合的較好,χ2 檢驗有統計學意義 (P ≤ 0.05) 則表示模型擬合的較差。AIC 和 SC 指標還可用于比較模型的優劣,當擬合多個模型時,可以將不同模型按其 AIC 和 SC 指標值排序,AIC 和 SC 值較小者一般認為擬合得更好。

6.??? 擬合方程的注意事項:

①???? 進行方程擬合對自變量篩選采用逐步選擇法 [前進法(forward)、后退法(backward)、逐步回歸法(stepwise)] 時,引入變量的檢驗水準要小于或等于剔除變量的檢驗水準;

②???? 小樣本檢驗水準α定為 0.10 或 0.15,大樣本把α定為 0.05。值越小說明自變量選取的標準越嚴;

③???? 在逐步回歸的時可根據需要放寬或限制進入方程的標準,或硬性將最感興趣的研究變量選入方程;

④???? 強影響點記錄的選擇:從理論上講,每一個樣本點對回歸模型的影響應該是同等的,實際并非如此。有些樣本點(記錄)對回歸模型影響很大。對由過失或錯誤造成的點應刪去,沒有錯誤的強影響點可能和自變量與應變量的相關有關,不可輕易刪除。

⑤???? 多重共線性的診斷(SPSS 中的指標):a 容許度:越近似于 0,共線性越強;b 特征根:越近似于 0,共線性越強;c 條件指數:越大,共線性越強;

⑥???? 異常點的檢查:主要包括特異點 (outher)、高杠桿點 (high leverage points) 以及強影響點 (influential points)。

特異點是指殘差較其他各點大得多的點;高杠桿點是指距離其他樣品較遠的點;強影響點是指對模型有較大影響的點,模型中包含該點與不包含該 點會使求得的回歸系數相差很大。單獨的特異點或高杠桿點不一定會影響回歸系數的估計,但如果既是特異點又是高杠桿點則很可能是一個影響回歸方程的「有害」 點。

對特異點、高杠桿點、強影響點診斷的指標有 Pearson 殘差、Deviance 殘差、杠桿度統計量 H(hat matrix diagnosis)、Cook 距離、DFBETA、Score 檢驗統計量等。這五個指標中,Pearson 殘差、Deviance 殘差可用來檢查特異點,如果某觀測值的殘差值>2,則可認為是一個特異點。杠桿度統計量 H 可用來發現高杠桿點, H 值大的樣品說明距離其他樣品較遠,可認為是一個高杠桿點。Cook 距離、DFBETA 指標可用來度量特異點或高杠桿點對回歸模型的影響程度。

Cook 距離是標準化殘差和杠桿度兩者的合成指標,其值越大,表明所對應的觀測值的影響越大。DFBETA 指標值反映了某個樣品被刪除后 logistic 回歸系數的變化,變化越大 (即 DFBETA 指標值越大),表明該觀測值的影響越大。如果模型中檢查出有特異點、高杠桿點或強影響點,首先應根據專業知識、數據收集的情況,分析其產生原因后酌情處 理。如來自測量或記錄錯誤,應剔除或校正,否則處置就必須持慎重態度,考慮是否采用新的模型,而不能只是簡單地刪除就算完事。因為在許多場合,異常點的出 現恰好是我們探測某些事先不清楚的或許更為重要因素的線索。

7.??? 回歸系數符號反常與主要變量選不進方程的原因:

①???? 存在多元共線性;

②???? 有重要影響的因素未包括在內;

③???? 某些變量個體間的差異很大;

④???? 樣本內突出點上數據誤差大;

⑤???? 變量的變化范圍較??;

⑥???? 樣本數太少。

8.??? 參數意義

①???? Logistic 回歸中的常數項(b0)表示,在不接觸任何潛在危險/?;ひ蛩靨跫?,效應指標發生與不發生事件的概率之比的對數值。

②???? Logistic 回歸中的回歸系數(bi)表示,其它所有自變量固定不變,某一因素改變一個單位時,效應指標發生與不發生事件的概率之比的對數變化值,即 OR 或 RR 的對數值。需要指出的是,回歸系數β的大小并不反映變量對疾病發生的重要性,那么哪種因素對模型貢獻最大即與疾病聯系最強呢? (InL(t-1)-InL(t)) 三種方法結果基本一致。

③???? 存在因素間交互作用時,Logistic 回歸系數的解釋變得更為復雜,應特別小心。

④???? 模型估計出 OR,當發病率較低時,OR≈RR,因此發病率高的疾病資料不適合使用該模型。另外,Logistic 模型不能利用隨訪研究中的時間信息,不考慮發病時間上的差異,因而只適于隨訪期較短的資料,否則隨著隨訪期的延長,回歸系數變得不穩定,標準誤增加。

9.??? 統計軟件

能夠進行 logistic 回歸分析的軟件非常多,常用的有 SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package) 等。
?

最方便的實驗干貨查詢工具

微信掃碼進入「丁香實驗」小程序

編輯: wch吳春暉

查看全部

相關實驗方法

版權聲明

本網站所有注明“來源:丁香園”的文字、圖片和音視頻資料,版權均屬于丁香園所有,非經授權,任何媒體、網站或個人不得轉載,授權轉載時須注明“來源:丁香園”。本網所有轉載文章系出于傳遞更多信息之目的,且明確注明來源和作者,不希望被轉載的媒體或個人可與我們聯系,我們將立即進行刪除處理。

2元彩票中500万的
丁香實驗小程序

微信關注
丁香實驗

意見反饋

最方便的實驗干貨查詢工具

微信掃碼進入「丁香實驗」

知道了