本文轉(zhuǎn)自徐飛翔的“概率學(xué)派和貝葉斯學(xué)派的區(qū)別”
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。
對于一個問題,從概率派和貝葉斯派看起來是完全不一樣的,其最主要的區(qū)別就是對于一個問題中模型參數(shù)的“信仰”:
對于頻率派學(xué)者來說,一個模型中的參數(shù)是“固定”的,而數(shù)據(jù)是在分布中隨機采樣的。我們要重點理解這個固定,這里指的固定意思是
對于一個模型或者也可說一個分布中的參數(shù),我們相信它是固定不變的,而我們觀察(采樣)到的數(shù)據(jù)是這個分布中的一個獨立同分布樣本。也就是說,我們相信這個分布的參數(shù)不管你怎么采樣,根據(jù)參數(shù)對其的估計都應(yīng)該是不會變的,They remain constant!如果根據(jù)數(shù)據(jù)估計出來的參數(shù)和真實模型不符合,只可能是引入了噪聲而已。在這個觀點中,模型參數(shù)才是上帝,數(shù)據(jù)為之服務(wù)。
對于貝葉斯派學(xué)者來說,我們觀察到的數(shù)據(jù)才是“固定”的,而我們的模型的參數(shù)才是在一直變化的。我們不停地觀察數(shù)據(jù),估計出來的模型參數(shù)就可能一直的變化。不僅如此,我們對于這個模型的參數(shù)可能會有一個最初始的信仰,稱之為先驗假設(shè),一旦設(shè)置后了之后,我們就可以聽由觀察到的數(shù)據(jù)指導(dǎo)模型參數(shù)更新了。在這種觀點中,我們的模型參數(shù)不再是一個參數(shù),而是一個分布了。一般來說,對于貝葉斯派,有公式:
其中稱為后驗概率,指的是由觀察數(shù)據(jù)和先驗假設(shè)推測出來的參數(shù)分布,而
稱之為先驗分布,指的是對于參數(shù)的專家知識或者假設(shè)而引入的知識,可以指導(dǎo)參數(shù)
的學(xué)習(xí),而
稱之為似然函數(shù),指的就是由于觀察數(shù)據(jù)導(dǎo)致的參數(shù)更新。
我們舉個投硬幣的例子也說明下這兩者區(qū)別:
Question:現(xiàn)在我們有一個硬幣,假設(shè)朝向正面的幾率為 ,朝向反面的幾率為
,這個
是未知的,現(xiàn)在為了估計
,投擲了14次,其中有10次朝向正面,問再投擲兩次,都朝向正向的概率為多少。
在傳統(tǒng)的概率派解答中,因為相信這個模型的參數(shù)是固定的,所以很容易知道 ,因此在后面投擲兩次的過程中,假設(shè)都是獨立過程,那么
而在貝葉斯派眼中,問題就沒有那么簡單了,我們相信參數(shù)不是簡單的一個參數(shù),而應(yīng)該是一個隨機變量,服從一個分布,那么我們就需要用觀察到了的數(shù)據(jù)
去估計這個參數(shù)
的分布,利用貝葉斯公式有:
因為在已知觀察中,
是固定的,所以
是一個常數(shù),不妨忽略它,有:
有:
參數(shù)可以忽略,現(xiàn)在對于先驗假設(shè)
進行假設(shè),一般來說,我們希望這個假設(shè)是一個共軛先驗(conjugate prior)1。這里用Beta分布作為硬幣參數(shù)的先驗假設(shè),
其中伽馬函數(shù)
定義為:
Beta分布有兩個控制參數(shù)a和b,不同的a和b其CDF的形狀差別很大:
在這個先驗假設(shè)下,我們有:
同樣的,因為 是常數(shù)項,忽略所以有:KaTeX parse error: No such environment: align at position 8: \begin{?a?l?i?g?n?}? P\{p|data\} &\…
為了讓
需要拼湊系數(shù),可知道系數(shù)為(這里不是特別懂)
其中為Beta函數(shù),
于是最終有參數(shù) 的概率分布為:
如果我們對 毫無先驗可言,那么可以令
,這個時候的計算結(jié)果就和頻率學(xué)派的一模一樣,但是如果我們自認為對這個硬幣的參數(shù)
有所了解,但是又不是完全了解,比如說我們知道這個先驗應(yīng)該是一個均勻分布的(也就是正面和反面都應(yīng)該是0.5的,這個應(yīng)該是最樸素和直觀的假設(shè)了。),而均勻分布是Beta分布的一個特例,我們可以令
,這個時候有:
圖像如:
可以看到因為引入了這個樸素的假設(shè),使得 變成了一個中心在
附近的鐘形分布,這個時候就發(fā)現(xiàn)了和頻率派的區(qū)別:我們的參數(shù)p是一個分布,而不只是一個數(shù)值而已。
有了 ,我們回歸原問題,求:
這里用積分的原因很簡單,就是因為我們的p是一個分布,其值從0到1,因此需要用積分。這里進行兩個假設(shè):
投擲硬幣每一次都是獨立無關(guān)的。 在這接下來的兩個投擲過程中我們不更新
所以有:
所以有:
所以有:KaTeX parse error: No such environment: align at position 8: \begin{?a?l?i?g?n?}? P\{HH|data\} &…
同樣假設(shè)則有
,從這里就看出了頻率學(xué)派和貝葉斯學(xué)派的區(qū)別。
總結(jié)
頻率學(xué)派和貝葉斯學(xué)派的方法優(yōu)缺點概況:
頻率學(xué)派是目前深度學(xué)習(xí)中最常使用的指導(dǎo)思想,但是要想其效果好,必須基于數(shù)據(jù)量巨大的情況下,否則很難估計出一個好的參數(shù)。(因為其不引入任何先驗假設(shè),只能從大數(shù)據(jù)中學(xué)習(xí)得到。) 貝葉斯學(xué)派的方法可以應(yīng)用在數(shù)據(jù)量小的情況下,而且方便引入各種專家知識和先驗知識,有些場景中表現(xiàn)更為優(yōu)越。
實際上,頻率學(xué)派和貝葉斯學(xué)派有著千絲萬縷的關(guān)系,不可割裂看待,也沒有孰優(yōu)孰劣。
Reference
- Bishop 《Pattern Recognize and Machine Learning, PRML》
- 《Are you a Bayesian or a Frequentist? (Or Bayesian Statistics 101)》
- 《Bayesian and frequentist reasoning in plain English》
- 《先驗概率、后驗概率以及共軛先驗》