機率的公理系統
機率的公理系統,主要有比較簡單的《初等機率測度》,以及比較周延的《Kolmogorov 機率測度》公理系統等兩套。
本文主要在檢視《初等機率測度》與《Kolmogorov 機率測度》之間的差異!
機率公理系統 1 (初等機率測度)
一般人學習數學的時候都是從直覺概念開始的,例如我們小學的時候透過算幾個蘋果學到加法,然後用好幾排的蘋果學到乘法,接著就會背誦九九乘法表,然後在中學的時候導入變數的觀念,於是學會了聯立方程式的解法。
但是數學家們看數學往往是從公理系統開始的,透過公理系統進行推論以建立定理,然後推論出整個數學體系。讓我們學習一下數學家的想法,先來看看機率的公理系統有何特色。
以下三條法則是機率的基本公理:(初等機率測度)
公理 (1). $P(S) = 1$
公理 (2). $P(A) \ge 0$
公理 (3). $P(A1 \cup A2) = P(A1) + P(A2) ; ; ; if ; A1 \cap A2 = \emptyset$
機率公理系統 2 (Kolmogorov 機率測度)
維基百科的公理系統中所撰寫的機率公理系統,是比較強大的 Kolmogorov 機率測度公理,其定義如下:
第一公理 對於任意一個集合 $E\in \mathfrak{F}$ , 即對於任意的事件 $P(E)\in [0,1]$ 。即,任一事件的機率都可以用0到1區間上的一個實數來表示。
第二公理 $P(\Omega) = 1$ 。即,整體樣本集合中的某個基本事件發生的機率為1。更加明確地說,在樣本集合之外已經不存在基本事件了。
第三公理 任意兩兩不相交事件 $E_1, E_2, …$ 的可數序列滿足 $P(E_1 \cup E_2 \cup \cdots) = \sum P(E_i)$ 。即,不相交子集的並的事件集合的機率為那些子集的機率的和。這也被稱為是σ可加性。如果存在子集間的重疊,這一關係不成立。
兩個公理系統的差異
上述兩個公理系統之間,其實只有第三條有差異,但問題是:『為何 Kolmogorov 要提出一個比較複雜的公理系統』來取代原本的『初等機率測度』公理系統呢?
關於這個問題,其實非常困難,屬於高等數學的一部分,我們得請教真正的數學家了!
首先讓我這個不夠專業的人,試圖證明幾件事好了,這幾個證明會展示出一般人的思考方式。
疑問一 :
針對這個公理系統,我同學提出一個論證,認為這個公理系統是錯的,因為維基百科裏的公理系統和這個不一樣。請問您認為上述公理系統是否與維基百科等價呢? 若認為是請證明等價性,若認為不是請說明兩者為何不等價。
維基百科的公理系統 (Kolmogorov 機率測度) 如下:
第一公理 對於任意一個集合 $E\in \mathfrak{F}$ , 即對於任意的事件 $P(E)\in [0,1]$ 。即,任一事件的機率都可以用0到1區間上的一個實數來表示。
第二公理 $P(\Omega) = 1$ 。即,整體樣本集合中的某個基本事件發生的機率為1。更加明確地說,在樣本集合之外已經不存在基本事件了。
第三公理 任意兩兩不相交事件 $E_1, E_2, …$ 的可數序列滿足 $P(E_1 \cup E_2 \cup \cdots) = \sum P(E_i)$ 。即,不相交子集的並的事件集合的機率為那些子集的機率的和。這也被稱為是σ可加性。如果存在子集間的重疊,這一關係不成立。
我的想法與證明:
問題重新描述:兩個系統的前兩條公理相同,只是符號不同,其中 $\Omega=S$ , 事件我們用 A 維基百科用 E,因此只要證明第三條相等即可:
公理 1.3: $P(A1 \cup A2) = P(A1) + P(A2) ; ; ; if ; A1 \cap A2 = \emptyset$ 公理 2.3: $P(E_1 \cup E_2 \cup \cdots) = \sum P(E_i)$
請用公理系統 1 與集合論定理證明公理 2.3。
證明:
當 $A_i \cap A_j=\emptyset ; i \neq j$ 時,根據公理 1.3 $P(A_i \cup A_j) = P(A_i) + P(A_j)$ ,
於是可套用公理 1.3 並令 $A1=E_1, A2=(E_2 \cup E_3 \cdots)$ 推論如下:
$P(E_1 \cup E_2 \cup E_3 \cdots) = P(E_1 \cup (E_2 \cup E_3 \cdots))=P(E_1)+P(E_2 \cup E_3 \cdots)$ ;
$=P(E_1)+P(E_2)+P(E_3 \cdots) = … = \sum P(E_i)$ ;
證明完畢!
疑問二 :
針對這個公理系統,我同學提出一個論證,認為本書公理系統有問題,特別是第三條公理,不過其論述卻是按著維基的第三條進行的,該論述如下所示。
假如有個系統的樣本空間 S 為可數無限多 (例如有理數 Q) (就是分數), 那麼每個有理數的機率將會是 $1/\infty = 0$ ,於是會得到 $\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} P(i/j) = 0+0+0+…. = 0 \ne 1 = P(Q)$
於是就會造成所有元素的機率總和不等於樣本空間機率的問題,也就不符合第三條公理了。
請問您如何看待以上論述。
我的看法:
$1/\infty = 0$ 其實並不是零,在我所知道的數學裏、無限大甚至不是一個數字,而是一種辯證法。濫用無限大會造成很多詭論,例如:
所有奇數的數量是無限大,所有偶數的數量也是無限大,於是自然數數量等於=奇數數量+偶數數量,結果導致推論:
$\infty=\infty+\infty$ 於是可推論 $0=\infty-\infty=\infty+\infty-\infty=\infty$ ,這就產生了零等於無限大的詭論。
所以、上述的論點說 $\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} P(i/j) = 0 \ne 1 = P(Q)$ 其實是有問題的,問題在 P(i/j) 並非是零,而是無限大分之一,但是我們不能直接寫 $1/\infty$ ,因為無限大其實不是一個數字,我們必須用極限的方式來論證。
$\lim_{n\to \infty} \lim_{m\to\infty} \sum_{i=1}^{n} \sum_{j=1}^{m} P(i/j) = \lim_{n\to \infty} \lim_{m\to\infty} n * m * \frac{1}{n * m} = 1 = P(Q)$
於是就破解了上述的疑問。
疑問三 :
問題是上述的《初等機率測度》和《Kolmogorov 機率測度》兩套公理系統是否等價呢?
這個問題其實很深,在離散的情況下,兩者基本上沒有甚麼差異,但是在連續的實數空間中,甚至是包含無窮數列的空間中,那兩者就有一些涵蓋性上的差異了。
有關這個問題,已經超越我的能力範圍了,請參考 《蔡聰明》教授 的解說:
- 《機率論為何要建立在機率空間上面?》 (PDF) – 蔡聰明