啞變量主要針對的是原始變量本身即為分類變量的情況,不管是無序多分類還是有序多分類變量,在引入模型時可以按照統計需要轉化為啞變量引入模型,并且通過SPSS即可實現對啞變量進行0或1的編碼。
對于連續型變量,在引入回歸模型時往往要考慮實際的臨床意義,若直接帶入原始的連續型變量,每變化一個單位水平所引起的因變量的變化效應是很微弱的。同時當我們無法很好地確定自變量和因變量之間的線性變化關系時,也需要考慮將連續型變量離散化,轉化為啞變量帶入模型。
那么提到連續型變量,應該如何有效的進行分組,將其轉化為啞變量的形式呢?今天我們就來跟大家細數一下,在回歸模型中連續型變量轉化為啞變量的多種變化形式。
1、二分類分組
嚴格意義上,提到啞變量通常是指轉化為多分類的變量,但在這里我們首先介紹二分類分組,將連續型變量按照某個切點轉化為二分類變量,是因為二分類變量在某種意義上也是一種最為簡單的啞變量形式。二分類變量有2個分類屬性,我們選擇其中一個分類作為參照(通常設置變量=0),則另一個分類自動作為比較組(通常設置變量=1)。
那么如何確定二分類分組的切點呢?通常情況下,為了保證以切點劃分的兩組研究對象,在樣本量上能夠盡量保持一致,我們可以以該自變量的中位數為切點進行分組,即按照中位水平分為高、低兩組來進行比較;或者也可以按照臨床實踐中具有某種特殊意義的診斷切點作為分組標準,將研究人群分為有無此類疾病特點的兩組來進行比較。
例如JACC期刊2016年發表的一篇文章[1],作者在構建多因素Cox回歸模型時,將膽固醇外流能力(Cholesterol efflux)按照中位數水平為切點,轉化為二分類變量帶入到模型進行分析。結果顯示,膽固醇外流能力高的人群與膽固醇外流能力低的人群相比,動脈粥樣硬化性心血管疾病(ASCVD)的發生風險降低了65%(HR=0.35,95% CI為0.23-0.54)。
而對于另一個指標,冠狀動脈鈣化積分(CAC) ,作者以0作為分組切點,是從臨床意義的角度考慮而進行的劃分。在臨床中,CAC=0表明冠狀動脈沒有發生鈣化,CAC>0則表明發生鈣化,CAC積分越高,鈣化程度就越嚴重。因此在本例研究中,結果顯示冠狀動脈鈣化 (CAC>0) 的人群與沒有發生鈣化(CAC=0)的人群相比,動脈粥樣硬化性心血管疾病(ASCVD)的發生風險增加了1.19倍(HR=2.19,95% CI為1.22-3.93)。
![]()
2、等分位分組
將連續型變量進行二分類分組,這種方法固然簡單易行,也便于理解,但是在有些情況下,比如我們想要更多地觀察自變量與因變量之間復雜的變化關系,此時若僅分為二組,則會遺漏很多重要的信息,使得數據本身的價值沒有得到更充分的利用。
因此,在借鑒二分類分組思想的基礎上,我們可以對連續型變量進一步離散化,根據樣本量和分析的需要,通常可以按照該變量的三分位、四分位或者五分位等切點來進行分組。
進行等分位分組,其優點在于不僅可以保證每一組的研究人群在樣本量上能夠保持相對一致,而且可以較為直觀的反映自變量與因變量之間復雜的變化關系,為進一步探討兩者之間的關聯性提供了一定的依據。
例如Am J Clin Nutr期刊2015年發表的一篇文章[2],研究人員將不同的營養素按照其攝入水平的5分位進行分組,并以攝入水平最低的1組作為參照。結果顯示,隨著水果纖維攝入水平的升高, 2型糖尿病發生的相對風險RR值分別為1、0.93、0.91、0.82、0.73(Model 1),RR值的變化呈現一種逐漸下降的趨勢 (P-trend<0.0001),提示隨著水果纖維攝入量的升高,研究對象發生2型糖尿病的風險逐漸降低。
![]()
3、等距分組
在進行等分位分組時,研究對象被均勻分組,基本上每一組研究人群的樣本量大致相同,但是組與組之間的間距卻很難保證是一致的。例如上述研究中,研究人員對水果纖維攝入水平進行5分位分組,每一組的中位數分別為1.45、2.55、3.55、4.69、6.68,相鄰兩組之間的間距是不相等的。
當我們需要探討某個連續型自變量,在每增加固定間距的單位水平時,引起的因變量的變化效應,就可以將該自變量以一個設定好的固定間距,對其進行分組,然后再引入到模型中進行分析。
這樣分組轉換的好處在于,在實際的臨床應用中,分析結果的臨床意義易于解釋和理解。等分位分組時,切點的選擇是依賴于當前的研究人群,如果研究人群發生了變化,其分組的切點也會跟著發生變化;但是如果以固定的單位間距作為切點去分組,在進行臨床解釋時則更加便于病人理解和接受。
采用等距分組的方式進行轉換,實際上并不會改變該自變量對因變量的作用大小,只是相當于放大了效應值本身的數值,從而使得結果更為好看和直觀。
我們再來看一個實例,同樣是JACC期刊2015年發表的文章[3],研究人員在進行統計分析時,將研究對象的年齡進行了分組轉換,以60歲為起點,每間隔10歲為一組,分為<60、61-70、71-80、≥80歲共4組。結果顯示隨著年齡分組的增大,10年死亡率呈現逐漸上升的趨勢,從9.3%增加到66.7%。研究人員也同時進一步檢驗了年齡每增加10歲,10年死亡率風險可增加3.43倍,OR=4.43,95% CI為3.63-5.41。
![]()
4、臨床界值分組
對連續型變量進行等分位分組或等距分組時,它們對于數據本身的依賴性較強,主要適用于那些較新的研究指標,這些指標往往是探索性的,還沒有或者即將應用的臨床實踐中,此時可以利用等分位或等距法作為分組切點的依據。
但是對于那些已經在臨床中得到廣泛應用的指標,指南對其已經推薦了明確的診斷切點,為了更好的用于臨床解釋,我們可以直接將指南推薦的診斷切點作為分組的依據來進行劃分。
例如低密度脂蛋白膽固醇(LDL-C)這個指標,《中國成人血脂異常防治指南(2016年修訂版)》[4]中已經明確推薦,在中國動脈粥樣硬化性心血管疾病一級預防人群中,LDL-C的分層標準為:理想水平(<100mg/dl)、合適水平(100-130 mg/dl)、邊緣升高(130-160 mg/dl)、升高(≥160 mg/dl),因此我們在對LDL-C進行分組轉換的時候,就可以參考這個切點進行劃分,做到分組的切點有理有據,才能使得自己的結果更加有說服力,更加有臨床意義。
再例如在Lancet Diabetes Endocrinol期刊2017年發表的一篇文章中[5],對于維生素D這個主要研究指標,研究人員同樣按照臨床參考范圍將維生素D劃分為3組,分別為重度缺乏 (<25nmol/L) 、輕度缺乏(25-50 nmol/L)及充足水平(≥50 nmol/L),并以維生素D水平充足的一組作為參照,轉化為啞變量后再帶入到多重線性回歸中進行比較。
![]()
5、“Free Style”分組
當然,除了按照上述分組的切點原則,將連續型變量轉換為啞變量的形式外,你也可以有自己的Free Style。
對于較新穎的、非常規的指標,臨床上并沒有給定參考的界值,此時你可以根據自身數據的特點和分析的需要,自行設置合理的分組切點,可以嘗試不同的切點分組方法,只要你的分組切點有理有據,能夠說服大家,結果能夠被重復出來,我們都認為這樣的切點是合理的,因為真理總是在不斷的嘗試中才能逐漸顯現出來。
就像是在制定指南的過程中,對于推薦合理的臨床界值這一關鍵問題,專家們肯定也是進行了很多次的嘗試,劃分了很多切點來不停探索,最終才找出來最適宜臨床應用和推廣的切點值。
但是需要注意的是,當我們在嘗試不同的分組切點時,如果忽然發現按照某一組的切點劃分后能夠得出陽性結果,P<0.05,此時也不要高興的太早,也要考慮假陽性出現的可能性,以及結果的外推性。
切點劃分的前提一定是要具有合理性,如果某種暴露/處理因素與結局之間存在一定的劑量反應關系,那么理論上這種關聯性的變化趨勢,即使在不同的切點分組下也是可以被重復出來的,因此我們不能為了發表一篇論文,或者為了追求P<0.05的陽性結果,就忽略了分組的合理性和實際的臨床意義,Free Style切不可盲目地不斷試錯。
本文介紹了多種連續型變量轉化為啞變量的分組形式,希望能夠幫助大家更好地利用手中現有的數據,豐富自己的結果。
參考文獻:
[1] J Am Coll Cardiol. 2016 May 31;67(21):2480-7
[2] Am J Clin Nutr. 2015 Dec;102(6):1543-53
[3] J Am Coll Cardiol. 2015 Aug 4;66(5):511-20
[4]《中國成人血脂異常防治指南(2016年修訂版)》
[5] Lancet Diabetes Endocrinol. 2017 May;5(5):367-376
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.