首先我們容易犯的就是第一類錯誤,就是原假設為真時拒絕了原假設,說白了就是過來就是2個版本無差異時候,我們錯誤 的認為他們有差異(從統計學角度講也叫棄真錯誤)這個錯誤的后果非常嚴重,所以我們把這它的標準設一個值0.05, 它其實就是一個概率, 這個概率就是我們容許自己出錯的概率。
這個就是5%就是在統計學里稱作 α , 它代表著我們這個試驗結果的置信水平。與這個置信水平相對應的就是置信區間的置信度,由 1- α 得出,所以你在這里看到如果 α 是0.05,那置信度就是0.95,也就是說,如果我們容許自己出錯的幾率是5%,那我們將得到一個有 95% 的可能性包含真實的總體均值區間范圍,如果你把這個 α 調整成0.07,那你的置信區間的置信度將變成93%。
由于 α 是我們自己設置的,那么當然需要通過數據去驗證一下,這個通過計算出來的值就是 p-value , p 的定義就是,如果兩個版本無差異的前提下,我們得到這個試驗數據的概率。
p-value 是計算出的, α 是我們自己設定的。
p <= α 則意味著我們的測試得到了統計顯著的結果, 因為只有我們得到的這個 p 的概率越小,我就可以越有信心的地根據小概率事件不會發生的判斷依據,從而推翻原假設,接受備擇假設。(假設 p 值0.04 那么意味著如果原假設為真,我們通過抽樣得到這樣一個樣本數據的可能性只有 4%。則我可以認為此次試驗發生了小概率事件。根據小概率事件不會發生的判斷依據,我們可以反證認為原假設不成立,接受備擇假設的事實。)
p 值核算涉及樣本均值,樣本數量,和標準差。