統計學基礎知識之基礎概念與知識點

統計學是通過搜索、整理、分析數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。其中用到了大量的數學及其它學科的專業知識,它的使用範圍幾乎覆蓋了社會科學和自然科學的各個領域。下面是yjbys小編爲大家帶來的統計學基礎知識,歡迎閱讀。

統計學基礎知識之基礎概念與知識點

  統計學基礎知識

總體:是根據研究目的確定的同質的觀察單位的全體,更確切的說,是同質的所有觀察單位某種觀察值(變量值)的集合。可分爲有限總體和無限總體。總體中的所有單位都能夠標識者爲有限總體,反之爲無限總體。

樣本:從總體中隨機抽取部分觀察單位,其實測值的集合稱爲樣本。

隨機抽樣:是指按照隨機化的原則,從總體中抽取部分觀察單位的過程。隨機抽樣是樣本具有代表性的保證。

隨機化原則:總體中每一個觀察單位都有同等的機會被選入到樣本中。

抽樣誤差:由於個體差異的存在,即使在同一整體中隨機抽取若干樣本,各樣本的統計量往往不等,統計量與參數也會有所不同。這種因抽樣研究引起的差異稱抽樣誤差。

同質:一個總體中有許多個體,它們之所以共同成爲人們研究的對象,必定存在共性,所謂一些個體處於同一總體,就是指他們大同小異,具有同質性。

變異:在自然狀態下,個體間測量結果的差異稱爲變異。變異是生物醫學研究領域普遍存在的現象。嚴格的說,在自然狀態下,任何兩個患者或研究羣體間都存在差異,表現爲各種生理測量值的參差不齊。

變量:確定總體之後,研究者對每個觀察單位的某項特徵進行測量和觀察,這種特徵稱爲變量。

變量值:對變量的測得值稱爲變量值,或者觀察值。它可以是定量的,也可以是定性的。

定量資料:又稱數值變量。其變量值是定量的,表現爲數值的大小,一般有度量衡單位。

分類資料:也稱定性資料,其觀察值是定性的,表現爲互不相容的類別或者屬性。有無序分類和有序分類兩種情況。

統計描述:用統計指標、統計圖、統計表等方法,對資料的數量特徵及分佈規律進行客觀的描述和表達。

統計推斷:在一定的置信度和概率保證下,用樣本信息推斷總體特徵:①參數

估計:用樣本的指標去推斷總體相應的指標;②假設檢驗:由樣本的差異推斷總體之間是否可能存在的差異。

計量資料:對每個觀察單位用定量的方法測定某項指標量的大小,所得的資料稱爲計量資料。計量資料亦稱定量資料、測量資料。其變量值是定量的,表現爲數值大小,一般有度量衡單位。

計數資料:將觀察單位按某種屬性或類別分組,所得的觀察單位數稱爲計數資料。計數資料亦稱定性資料或分類資料。其觀察值是定性的,表現爲互不相容的類別或屬性。

等級資料:將觀察單位按測量結果的某種屬性的不同程度分組,所得各組的觀察單位數,稱爲等級資料。

概率:又稱機率,是度量某一隨機事件A發生可能性大小的一個數值,記爲P(A),P(A)越大,說明A事件發生的可能性越大。

頻率:在相同的條件下,獨立重複做n次試驗,事件A出現了m次,則比值m/n稱爲隨機事件A在n次試驗中出現的頻率。當試驗重複很多次時P(A)=m/n。

隨機誤差:又稱偶然誤差,是指排除了系統誤差後尚存的誤差。它受多種因素的影響,使觀察值不按方向性和系統性而隨機的變化。誤差變量一般服從正態分佈。隨機誤差可以通過統計處理來估計。

系統誤差:是指由於儀器未校正、測量者感官的某種偏差、醫生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值的兩側,而是有方向性、系統性或週期性地偏離真值。系統誤差可以通過實驗設計和完善技術措施來消除或使之減少。

隨機變量:指變量的值無法預先確定僅以一定的可能性(概率)取值的量。隨機變量的具體內容雖然是各式各樣的,但共同的特點是不能用一個常數來表示,而且,理論上講,每個變量的取值服從特定的概率分佈。

參數:是指總體的統計指標,如:總體均數、總體率等。總體參數是固定的常數。多數情況下,總體參數是不易知道的,但可通過隨機抽樣抽取有代表性的樣本,用算得的樣本統計量估計未知的總體參數。

統計量:是指樣本的統計指標,如樣本均數、樣本率等。樣本統計量可用來估計總體參數。總體參數是固定的常數,統計量是在總體參數附近波動的隨機變量。

算術均數:描述一組數據在數量上的平均水平。總體均數用μ表示,樣本均數用X表示。

幾何均數:用以描述對數正態分佈或數據呈倍數變化資料的水平。記爲G。

中位數:將一組觀察值由小到大排列,n爲奇數時取位次居中的變量值;爲偶數時,取位次居中的兩個變量的平均值。反映一批觀察值在位次上的平均水平。

極差:亦稱全距,即最大值與最小值之差,用於資料的粗略分析,其計算簡便但穩定性較差。

百分位數:是將n個觀察值從小到大依次排列,再把它們的位次依次轉化爲百分位。百分位數的另一個重要用途是確定醫學參考值範圍。

四分位數間距:是由第三四分位數和第一四分位數相減計算而得,常與中位數一起使用,描述偏態分佈資料的分佈特徵,較極差穩定。

方差:方差表示一組數據的平均離散水平,由離均差的平方和除以樣本個數得到。

標準差:是樣本平均數的平均距離,用來考察樣本數據分散程度的大小。

變異係數:用於觀察指標單位不同或均數相差較大時兩組資料變異程度的比較。用CV表示。計算:CV=標準差/均數×100%

可信區間:是按預先給定的概率1-α所確定的包含未知總體參數的一個範圍。從固定樣本含量的已知總體中進行重複隨機抽樣試驗,根據每個樣本可算得一個可信區間,則平均有1-α的可信區間包含了總體參數,而不是總體參數落在該範圍的可能性爲1-α。

參數估計:指用樣本指標值(統計量)估計總體指標值(參數)。

假設檢驗中P的含義:指從H0規定的總體隨機抽得等於及大於(或等於及小於)現有樣本獲得的檢驗統計量值的概率。

假設檢驗:亦稱顯著性檢驗,其基本思想是先對總體的參數或分佈做出某種假設,如設總體均數爲一定值,兩總體均數相等,總體服從正態分佈或兩分佈相同等,然後根據樣本信息選用適當的方法,推斷此假設應當拒絕或不拒絕。

I型錯誤:指拒絕了實際上成立的H0,這類“棄真”的錯誤稱爲I型錯誤,其概率大小用α表示。

II型錯誤:指接受了實際上不成立的H0,這類“存僞”的誤稱爲II型錯誤,其概率大小用β表示。

正態性檢驗:用均數和標準差描述資料的分佈特徵,對例數n較小的樣本進行t檢驗時,首先要求樣本取自正態分佈的總體。

檢驗效能:1-β稱爲檢驗效能,它是指當兩總體確有差別,按規定的檢驗水準α所能發現該差異的能力。

率:又稱頻率指標,說明一定時期內某現象發生的頻率或強度。計算公式爲:率=發生某現象的觀察單位數/可能發生某現象的觀察單位總數×100%,表示方式有:百分率(%)、千分率(‰)等。

構成比:又稱構成指標,說明某一事物內部各組成部分所佔的比重或分佈。計算公式爲:構成比=某一組成部分的觀察單位數/同一事物各組成部分的觀察單位總數×100%,表示方式有:百分數等。

比:又稱相對比,是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾。計算公式爲:A/B,表示方式有:倍數或分數等。

非參數統計:針對某些資料的總體分佈難以用某種函數式來表達,或者資料的總體分佈的函數式是未知的,只知道總體分佈是連續型的或離散型的`,用於解決這類問題的一種不依賴總體分佈的具體形式的統計分析方法。

參數統計:通常要求樣本來自總體分佈型是已知的(如正態分佈),在這種假設的基礎上,對總體參數(如總體均數)進行估計和檢驗,稱爲參數統計。

秩次:變量值按照從小到大順序所編的秩序號稱爲秩次。

秩和:各組秩次的合計稱爲秩和,是非參數檢驗的基本統計量。

直線迴歸:建立一個描述應變量依自變量變化而變化的直線方程,並要求各點與該直線縱向距離的平方和爲最小。直線迴歸是迴歸分析中最基本、最簡單的一種,故又稱簡單迴歸。

迴歸係數:即直線的斜率,在直線迴歸方程中用b表示,b的統計意義爲X每增(或減)一個單位時,Y平均改變b個單位。

相關係數r:用以描述兩個隨機變量之間線性相關關係的密切程度與相關方向的統計指標。

t檢驗:常用於整體標準差未知且樣本含量較小時樣本均數與總體均數的比較,應用條件爲n≤50,樣本來自正態分佈的總體,兩樣本均數比較時要求兩樣本總體方差相等。

u檢驗:用檢驗統計量u來命名的,用於樣本含量n足夠大,或n雖小但總體標準差已知的樣本均數與總體均數的比較、成組設計兩樣本均數的比較。

觀察性研究:是指在沒有任何干預措施的條件下,客觀的觀察和記錄研究對象的現狀及其相關特徵。

病例對照研究:是一種分析流行病學研究方法,主要應用於探索疾病的危險因素和病因。病例對照研究方法是對臨牀醫療和各種基礎研究中形成的病因假設,進行初步驗證。是選擇一組患某病的病人,再選擇一組不患該病的對象,比較兩組人羣之間在疾病發生之前有關可疑因素的暴露情況,如果兩組的暴露率卻有差別,則可認爲所研究疾病與因素之間存在着關聯。

隊列研究:又稱前瞻性研究,是將特定的人羣分爲暴露於某因素與非暴露於某因素的兩種人羣或不同暴露水平的幾個亞羣,追蹤觀察其各自的結局,比較兩組或各組某結局的發生率,從而判定暴露因素與結局有無因果關聯及關聯程度大小的一種觀察性研究方法。

完全隨機設計:又稱簡單隨機分組設計,是採用完全隨機化分組方法將同質的實驗單位分配到各處理組,各組分別接受不同的處理。各組樣本含量可以相等,稱平衡設計;也可不等,稱非平衡設計。

配對設計:是將實驗單位按一定條件配成對子,再將每對中的兩個實驗單位隨機分配到不同處理組。

隨機區組設計:是將實驗單位組設計或配伍組設計,實際上是配對設計的擴展,是先將實驗單位按性質相同或相近者組成區組,再分別將各區組內的實驗單位隨機分配到各處理組或對照組。

析因設計:爲安排析因實驗的設計,是將兩個或兩個以上處理因素的各水平進行組合,對各種可能的組合都進行實驗,又稱完全交叉分組實驗設計。

方差分析:也叫F檢驗,是統計檢驗的一種,其基本思想是:按研究目的和設計類型,將總變異中的離均差平方和和自由度分別分解成相應的若干部分,然後求得各相應部分的變異;由於其中的組內變異主要反應個體差異或抽樣誤差,其他各部分的變異與之比較得出統計量F值,根據F值得大小確定P值,並作出推斷。

秩和檢驗:即先將數值變量從小到大,或等級從弱到強轉換成秩後,再計算檢驗統計量的一種方法。

流行病學:研究人羣中疾病與健康狀況的分佈及其影響因素,並研究防制疾病及促進健康的策略和措施的科學,是研究人羣中事件或者結局的分佈及其影響因素,並研究防止或者促進其發生的策略和措施的科學。

暴露:暴露是指研究對象(人)曾經接觸(或不接觸)某因素,或者具備某些特徵,或者處於某種狀態,這些研究者所關心的因素、特徵、或狀態即爲暴露因素;暴露是指可能影響研究對象最後成爲(病例或非病例研究者關心的結局=)某種結局的機會。

臨牀試驗:以臨牀患者的爲研究對象,採用隨機原則將其分爲試驗組與對照組,試驗組人爲地給予某種干預措施,即某種新藥或某種療法,而對照組不給予研究的新藥或給傳統的醫療措施或給安慰劑,經過一段時間的觀察後,評價實驗藥物的效果或不良反應。

病因:那些能使人羣發病概率增加的因素,就可以認爲是疾病的病因,其中某個或多個不存在時,人羣疾病發生頻率就會下降。

危險因素:在複雜病因所致疾病或未明確病因時,相關致病因素常被稱爲危險因素。

診斷試驗:是指運用物理學的、生物化學的、血清免疫學的檢查,臨牀檢查和醫療器械檢查對病人的疾病和健康狀況做出診斷的試驗。

機遇:又稱隨機誤差,是由於多種不能控制及不能預測的因素引起的一類表現不恆定、隨機變化的誤差。

偏倚:又稱系統誤差,是指研究過程中,一些已知活可控制的因素引起的使研究結果或理論系統抵偏離真實情況。