醫學統計學之概率分佈的概念

衆所周知,統計分析可以分爲描述性統計分析 (descriptive statistics)和推斷性統計分析 (inferential statistics)。下面是yjbys小編爲大家帶來的關於醫學統計學的知識,歡迎閱讀。

醫學統計學之概率分佈的概念

對於推斷性統計分析來說,要抓住其本質,就必須對其背後最根本的概率分佈(probability distribution)有個清楚的理解。概率分佈是很多統計推斷方法的基礎,最典型的例子就是正態分佈,很多統計檢驗方法都會涉及到正態分佈。而有些統計檢驗則是直接建立在統計量值服從某種概率分佈的基礎上的,比如t檢驗的t值服從t分佈,方差分析的F值服從F分佈,卡方檢驗的卡方值服從卡方分佈等。因此在展開推斷性統計分析或統計檢驗之前,先和大家一起熟悉一下概率分佈。

首先簡單介紹一下幾個常見的概念:

  1、Random variable (隨機變量):

假設我們擲硬幣,那麼出現的結果有兩種:正面或反面。我們換個角度,把正面和反面的結果與數字聯繫起來,將結果數量化,比如我們擲10次硬幣,出現5正5反。這時我們就把擲硬幣的結果 (正或反)與出現正或反結果的數字聯繫起來了。而隨機變量就是一種function,它把每一種結果都與一個唯一的數值聯繫起來。對於隨機變量的定義,版本有很多,我們來看一下其中的一個定義:一個隨機試驗的可能結果(稱爲基本事件)的全體組成一個基本空間Ω 。 隨機變量X是定義在基本空間Ω上的取值爲實數的函數,即基本空間Ω中每一個點,也就是每個基本事件都有實軸上的點與之對應。

隨機變量一般可分爲離散型隨機變量(discrete)和連續性隨機變量(continuous)。

所謂離散型隨機變量是指隨機變量X的取值是有限個或可列無限個。比如我們擲硬幣,我們定義隨機變量是正面的次數,那麼我們擲10次,那麼X的取值只能是0,1,2,3,4,5,6,7,8,9,10,這時我們就稱X是個離散型隨機變量。

所謂連續性隨機變是指X可以取某一區間的所有值。比如,我們定義X爲收縮壓血壓值,理論上來說X可以取任意非負值,此時X就是個連續性隨機變量。

瞭解了什麼是隨機變量,接下來我們開始看一下什麼是概率分佈。。

  2. 概率分佈(probability distribution)

The probability distribution associated with the random variable X describes the likelihood of obtaining certain values or ranges of values of the random variable

概率分佈是描述隨機變量取某個特定的值或取某一區間範圍內值的概率。

對應着概率分佈的定義,取某個特定的值或取某一區間內的值,或者說對應着離散型變量或連續性變量,概率分佈可以分爲離散型概率分佈和連續性概率分佈。

常見的離散型概率分佈有二項分佈(Binomial Distribution)和泊松分佈(Poission Distribution )。

常見的連續性概率分佈,我們一般稱爲Probability Density Function,包括正態分佈(Normal Distribution)、t分佈 (t Distribution)、卡方分佈 (Chi-Square Distribution)、F分佈(F Distribution)等。

一提到概率分佈,我們一般第一想到的便是正態分佈,有人說沒有正態分佈就沒有統計,由此正態分佈的普遍性和重要性不言而喻。

那麼爲什麼正態分佈如此普遍和重要呢?

首先,很多情況下,自然界很多東西都是自然呈正態分佈的,而更重要的原因在於中心極限定理(central limit theorem)的應用。所謂中心極限定理是指當樣本量足夠大時,無論其總體分佈如何,其樣本均數趨於正態分佈。中心極限定理爲正態分佈的普遍應用提供了最爲堅實的'理論基礎。而對於上則幾百例病人的臨牀試驗來說,正態分佈更是找到了其適合生長的最好土壤。另外,我們常用的一些統計方法都是依賴於正態分佈的:

(1) 一些統計方法如t檢驗和方差分析,其應用的前提條件就是要求數據服從正態分佈

(2) 而對於一些統計模型來說,比如線性模型,往往要求其殘差服從正態分佈。

關於正態分佈在統計模型中的應用,下邊有一段論述很有意思,小胖摘抄下來供大家參考:

正態分佈對統計學家從某種角度來說是“垃圾的分佈”。

當向一個統計學家問什麼是正態分佈時,他會回答:當一個變量有多個、解釋不清的因素決定,而且每個因素的作用都不強,於是變量就呈現正態分佈。

一個隨機變量中有兩種成分,一是非隨機成分,一是隨機成分分。建模把非隨機部分用模型(函數形式)來表達,純隨機的成分就成了殘差。

迴歸不論線性與否,殘差是正態,說明模型不能表達的成分確實是“垃圾”,不能再處理的。

但是,我們把數據饋入模型,結果發現殘差非正態(或並非白噪音),怎麼辦,最理想的辦法是修改模型,使其符合正態假設。迴歸其實就是在雜亂的信息中,把有規律的信息用模型表達出來,而無規律的白噪聲濾掉。