加載中........
×

醫學統計中流傳的“似乎正確”的錯誤,你聽說過幾個?

2019-8-8 作者:小白學統計   來源:小白學統計 我要評論1
Tags: 醫學人文  

這個題目聽起來似乎有點別扭,什么意思呢?就是說,有些話在醫學統計中流傳了很多年,不少醫學生甚至有的流行病學、衛生統計學的老師或學生也這么說,但實際上,卻偏偏是錯誤的說法。本文主要列舉幾個:

1、分類資料又稱計數資料

在比較早的版本中,這種說法存在。現在的很多醫學論文中,依然都這么說。然而分類資料與計數資料并不是一回事。

其實他們的區別很容易,分類資料(categorical data)是類似于像性別、職業、血型等名義型,它們的值都是無實際意義的,只是個標識而已。例如性別的男和女分別用1和2標識,這里你絕不能說2大于1。也就是說,在分類資料中,數值無所謂大小,只是個標志,你可以用1和2標識,也可以用5和98標識,只不過實際分析中沒必要搞得那么復雜,所以都盡量簡單地用1和2標識。

什么是計數資料(count data),顧名思義是可以清點計數的。比較典型的如咳嗽次數、疼痛次數、轉移部位的個數等等。它們的值是有實際意義的,比如疼痛次數可能是1、2、3等,這里就可以說2大于1,4大于3等,因為3次就是大于2次,沒什么可說的。這里的數值大小是起作用的。

如果從統計學角度來說,分類資料通常服從二項分布或多項分布,而計數資料通常服從Poisson分布或負二項分布。

現在還有不少文章在統計學方法中都提到“計數資料的比較采用卡方檢驗”,個人認為,嚴謹來說,應該是“分類資料的比較采用卡方檢驗”。

目前國內教材尚未嚴格區分這兩個概念。我也查了很多文獻和資料,很少有人清楚地闡述過這個問題,國內沒有,國外也很少,但有的國外論壇中能看出大家對這兩種資料的態度,肯定不是一回事,分析方法也不一樣。維基百科(英文)對categorical data和count data是分別定義的,不是一回事。大家感興趣的可以搜一下看看。

2、分類資料和等級資料的關系研究分析應該用秩和檢驗

這句話欺騙了很多人,讓人覺得,凡是二維列聯表中有一個是等級資料的,一定要用秩和檢驗。然而真相如何呢?我們舉例說明一下:


這兩個例子中,都是一個二分類資料,一個等級資料,那他們都要用秩和檢驗嗎?非也。

關鍵的問題在哪兒呢?一定要區分:分組變量和分析變量。分析變量也就是結局可以看做因變量;分組變量也就是組別,可以看做自變量。

只有分析變量是等級資料的時候,才用秩和檢驗。分組變量是不是等級,無關緊要,不影響方法選擇。記住:只看分析變量就行了。

例1中,分析變量(結局)是療效,作為等級資料,所以比較的時候需要采用秩和檢驗。例2中,分析變量(結局)是二分類資料,不是等級資料,所以不用秩和檢驗,用卡方檢驗即可。至于例2中的年齡是等級資料,并不影響卡方檢驗的使用。當然,分組變量是等級資料,你可以進一步做趨勢檢驗。

3、樣本量大于30數據就服從正態分布了

再說這個問題之前,我們先看一下下面這個圖形,這是1650人的數據分布,大家看一下像是正態分布嗎?



很明顯,這怎么也稱不上正態。所以問題是很明確的,關鍵是為什么大家會這么認為?

其實主要原因是:所謂的“30例以上服從正態分布”這種說法,是指從任意的一個分布中進行抽樣,如果每一次抽樣樣本的例數都大于30,那么,每個樣本的統計量(如均數)其分布接近正態。這也就是“中心極限定理”說的意思,但它不是說,一次抽樣樣本的數據大于30,這份數據就服從正態分布。千萬不要搞混了,中心極限定理不是說原始數據的,而是說的抽樣分布。具體解釋可參見前文。

4、凡是率的比較都可以用卡方檢驗

這又是一個被誤解的典型錯誤說法,關鍵在于對“率”的定義。普通意義上的率,是指像二分類(如陽性和陰性、發病和不發病、有效和無效等)中的陽性率、發病率、有效率等。這類資料用卡方檢驗比較無可厚非。

然而還有一種率不能用卡方檢驗比較。比如變化率,假定有試驗組和對照組,每組的觀察對象都在第一個周測量了血糖值,第二周又測了一次,計算第二周相對第一周的變化率,這種率的計算方式通常是“(第二周-第一周)/第一周”,得到的也是“率”,然而這種率確是一個實實在在的連續資料,具有連續資料的一切特征,這時候如果你要比較兩組的變化率有無差異,那就要按連續資料的方法,如t檢驗、秩和檢驗等。

有的人可能會有點糊涂,其實很好區分。典型的發病率、感染率等的“率”,是基于一群人只能計算出一個率,比如100人中感染40人,那100人的感染率就是40%。而作為連續資料的率,每個人都有一個率的值,比如,第一個人有一個變化率(如2.3%),第二個人也有一個變化率(如-0.6%)。

以前我曾見過這樣的文章,明明是變化率,但卻寫的是用卡方檢驗,我一直很好奇,這么多的率,你是怎么放到軟件里的?不覺得軟件里沒法放這些變量嗎?

5、秩和檢驗效率遠不如t檢驗(或方差分析等)

有的人把秩和檢驗看做“兵者,不祥之器”,不到萬不得已不用。這也是不少人的一種偏見。我見過不少醫學工作者,一看到數據不服從正態分布,立刻感覺整個天空都陰暗了。

我有時會說,可以用秩和檢驗,然而他們的回答是,不是說秩和檢驗不好嗎?說實話,我一直不知道這些流言到底從何而來,源頭到底在哪兒?似乎它就一直就存在了。是因為教材編排的原因嗎?把它排在后面以至于不少人想當然就認為它是參數檢驗的備胎?還是其它原因?

秩和檢驗的效率并不是像很多人想象的那樣低。事實上,從很久以前到現在的統計學家都做過不少模擬驗證,即使數據符合正態分布,秩和檢驗的效果也不比t檢驗、方差分析等這些參數檢驗查,模擬的結果提示,這種情況下,秩和檢驗的效率大約是參數檢驗的95%。而一旦數據偏離正態分布,秩和檢驗的效率將遠遠優于參數檢驗。

暫時先想到了這幾個問題,如果后面還有想到的,再另文撰寫。希望本文能都對各位朋友有一定的啟發和幫助。



小提示:78%用戶已下載梅斯醫學APP,更方便閱讀和交流,請掃描二維碼直接下載APP

只有APP中用戶,且經認證才能發表評論!馬上下載

132****5832暫無昵稱

寫得好

(來自:梅斯醫學APP)

2019-10-22 12:06:33 回復

web對話
四人麻将软件
阶梯倍投方案 ag让我赢了一个月一天输光 1飞禽走兽 陕西11选5开奖直播 北京pk10双面盘计划稳定版 排列五200期走图 梦幻西游能赚钱的游戏 宁夏十一选五基本走势图 福彩3d大小玩法技巧 辽宁体彩11选5计划 cfpls14全明星赛视频 快3计划群靠谱吗 河南十一选五大少走势图 bat365娱乐网址 fc越野机车攻略 破解网络棋牌输赢规律