正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

在數據分析過程中,往往需要數據服從正態分布,正態分布,也稱“常態分布”,又名高斯分布,在求二項分布的漸近公式中得到 。很多方法都需要數據滿足正態分布,比如方差分析、獨立t檢驗、線性回歸分析(因變量)等 。如果說沒有這個前提可能會導致分析不嚴謹等等 。所以進行數據正態性檢驗很重要 。那么如何進行正態性檢驗?接下來進行說明 。

一、檢驗方法
SPSSAU共提供三種正態性檢驗的方法,分別是描述法、正態性檢驗以及圖示法,其中圖示法包括直方圖以及P-P/Q-Q圖 。

正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
1.1描述法
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
理論上講,標準正態分布偏度和峰度均為0,但現實中數據無法滿足標準正態分布,因而如果峰度絕對值小于10并且偏度絕對值小于3,則說明數據雖然不是絕對正態,但基本可接受為正態分布 。從上表可以看出例子中峰度為1.160絕對值小于10,偏度為-1.084絕對值小于3 。說明數據基本可以接受為正態分布 。
1.2 正態性檢驗
SPSSAU的正態性檢驗包括三種:正態性shapro-WiIk檢驗、正態性Kolmogorov-Smirnov檢驗和Jarque-Bera檢驗 。
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
背景簡單描述:調查一個班級的53名學生的身高,判斷搜集的數據是否滿足μ=140.79,σ=8.6的正態分布 。
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
由于n>50,所以檢驗方法選擇K-S檢驗或者J-B檢驗 。如果利用K-S檢驗進行證明,步驟如下:
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
H0:x服從μ=140.79,σ=8.6的正態分布
H1:x不服從μ=140.79,σ=8.6的正態分布
附表如下:
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
(圖片來源于:網絡侵刪)
因為樣本超過35,并且α=0.05,所以D約為1.36/
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
≈0.187;
相應指標
首先計算K-S檢驗中的D統計量,計算公式如下:
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
【D=maxleft{D^{+}, D^{-}ight}】
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
【D^{+}=left|F_{n}left(x_{(k)}ight)-F_{0}left(x_{(k)}ight)ight|】
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
【D^{-}=left|F_{n}left(x_{(k)}ight)-F_{0}left(x_{(k-1)}ight)ight|】
首先將數據按從小到大進行排序,用x進行描述,k代表次序,然后計算其標準化的數據,標準化公式為:
【x^{prime}=rac{x-mu}{sigma}】
接著算出每個數據的頻次,并記錄好累積頻次,然后計算
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
【F_{n}left(x_{(k)}ight)】,
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
(N為累積頻次),n為樣本量即例子中的53 。
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
【F_{0}left(x_{(k)}ight)】為給定的累計分布可以利用excel自行算出,函數為:‘=NORM.DIST(x,mean,sd,TRUE)mean和sd就為mu和sigma 。進而可以求出
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖

正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
;各個步驟的計算如下:
【正態分布期望和方差的計算公式 檢驗正態分布方法的匯總】
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
所以可以算出D為0.218,D大于0.187,所以拒絕原假設,接受備擇假設所以不滿足 。
同時可以使用SPSSAU進行檢驗更為方便,數據格式如下:
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
將數據上傳到SPSSAU進行分析,操作如下:
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
分析結果如下:
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
從上述結果得到,樣本量大于50,所以選擇K-S檢驗,發現統計量D為0.218(和計算的一樣),p值小于0.05,所以模型顯著,拒絕原假設,數據不服從正態分布 。
同時SPSSAU還提供了JB檢驗:
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
Jarque-Bera檢驗中,p值小于0.05,所以模型顯著,拒絕原假設,數據不服從正態分布(針對SPSSAU提供統計量為卡方值的原因:有證明顯示在正態性假定下,JB統計量漸近地服從自由度為2的卡方分布) 。
1.3 圖示法
直方圖
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
直方圖若呈現‘中間高,兩邊低,左右基本對稱的鐘形圖’則基本服從正態分析,但是數據量過少等也可能影響結果導致很難呈現出標準的正態分布,如果是這種情況如果看見‘鐘形’也可以可以接受的 。上圖可以看出,數據呈現的分布并不對稱,但是也出現近似‘鐘形’曲線,所以也可以勉強接受 。
P-P圖
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
P-P圖是將觀察累積概率作為X軸,將正態累積概率作為Y軸,作散點圖,反映實際累積概率與理論累積概率的符合程度 。如果散點分布近似‘對角線’則可以認為正態分布,從圖中可以看出數據散點分布不是很滿足要求,但是也近似為‘對角線’所以勉強接受 。
Q-Q圖
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
Q-Q圖和P-P圖功能一致,分析上大致沒有區別 。
二、如何進行正態性檢驗
SPSSAU分析位置
(1)通用方法板塊
SPSSAU【通用方法】→描述/SPSSAU【通用方法】→正態性檢驗;
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
(2)可視化板塊
SPSSAU【可視化】→直方圖/SPSSAU【可視化】→p-p/q-q圖;
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
三、其它學習資料
正態性檢驗視頻學習資料:https://www.bilibili.com/video/av69017119/
直方圖分析方法視須解瀆:https://www.bilibili.com/video/av69465913/
P-P/Q-Q圖分析方法視頻解讀:https://www.bilibili.com/video/av69468707/
四、非正態數據怎么辦
針對上述幾種方法,正態性檢驗最為嚴謹,但是實際數據由于樣本量較少等原因,即使數據總體正態但統計檢驗出來也顯示非正態,實用性沒有圖示法直觀且接受性沒有圖示法高,所以在分析中常常圖示法應用的比較多,如果在分析中數據嚴重不正態應該怎么辦呢?接下來進行說明 。
(1)將數據取對數處理
注意:原數據需要數據大于0,如果不滿足也可以取lg(x+k)等 。
(2)開根號
(3)取倒數
當數據波動較大時可以優先考慮
(4)Johnson轉換
(5) 計量經濟學中常用的BOX-COX變換
(6)移除可能異常值
通常情況下,數據經過處理會變得相對“正態”一些;此步可使用SPSSAU的“生成變量”功能即可完成 。
正態分布期望和方差的計算公式 檢驗正態分布方法的匯總

文章插圖
或者嚴重不符合正態分布無法進行分析也可以使用其他分析方法,比如非參數檢驗等 。

    推薦閱讀