機率的公理系統

機率的公理系統，主要有比較簡單的《初等機率測度》，以及比較周延的《Kolmogorov 機率測度》公理系統等兩套。

本文主要在檢視《初等機率測度》與《Kolmogorov 機率測度》之間的差異！

機率公理系統 1 (初等機率測度)

一般人學習數學的時候都是從直覺概念開始的，例如我們小學的時候透過算幾個蘋果學到加法，然後用好幾排的蘋果學到乘法，接著就會背誦九九乘法表，然後在中學的時候導入變數的觀念，於是學會了聯立方程式的解法。

但是數學家們看數學往往是從公理系統開始的，透過公理系統進行推論以建立定理，然後推論出整個數學體系。讓我們學習一下數學家的想法，先來看看機率的公理系統有何特色。

以下三條法則是機率的基本公理：(初等機率測度)

公理 (1). $P(S) = 1$
公理 (2). $P(A) \ge 0$
公理 (3). $P(A1 \cup A2) = P(A1) + P(A2) ; ; ; if ; A1 \cap A2 = \emptyset$

機率公理系統 2 (Kolmogorov 機率測度)

維基百科的公理系統中所撰寫的機率公理系統，是比較強大的 Kolmogorov 機率測度公理，其定義如下：

第一公理對於任意一個集合 $E\in \mathfrak{F}$ ，即對於任意的事件 $P(E)\in [0,1]$ 。即，任一事件的機率都可以用0到1區間上的一個實數來表示。
第二公理 $P(\Omega) = 1$ 。即，整體樣本集合中的某個基本事件發生的機率為1。更加明確地說，在樣本集合之外已經不存在基本事件了。
第三公理任意兩兩不相交事件 $E_1, E_2, …$ 的可數序列滿足 $P(E_1 \cup E_2 \cup \cdots) = \sum P(E_i)$ 。即，不相交子集的並的事件集合的機率為那些子集的機率的和。這也被稱為是σ可加性。如果存在子集間的重疊，這一關係不成立。

兩個公理系統的差異

上述兩個公理系統之間，其實只有第三條有差異，但問題是：『為何 Kolmogorov 要提出一個比較複雜的公理系統』來取代原本的『初等機率測度』公理系統呢？

關於這個問題，其實非常困難，屬於高等數學的一部分，我們得請教真正的數學家了！

首先讓我這個不夠專業的人，試圖證明幾件事好了，這幾個證明會展示出一般人的思考方式。

疑問一 :

針對這個公理系統，我同學提出一個論證，認為這個公理系統是錯的，因為維基百科裏的公理系統和這個不一樣。請問您認為上述公理系統是否與維基百科等價呢？若認為是請證明等價性，若認為不是請說明兩者為何不等價。

維基百科的公理系統 (Kolmogorov 機率測度) 如下：

第一公理對於任意一個集合 $E\in \mathfrak{F}$ ，即對於任意的事件 $P(E)\in [0,1]$ 。即，任一事件的機率都可以用0到1區間上的一個實數來表示。
第二公理 $P(\Omega) = 1$ 。即，整體樣本集合中的某個基本事件發生的機率為1。更加明確地說，在樣本集合之外已經不存在基本事件了。
第三公理任意兩兩不相交事件 $E_1, E_2, …$ 的可數序列滿足 $P(E_1 \cup E_2 \cup \cdots) = \sum P(E_i)$ 。即，不相交子集的並的事件集合的機率為那些子集的機率的和。這也被稱為是σ可加性。如果存在子集間的重疊，這一關係不成立。

我的想法與證明：

問題重新描述：兩個系統的前兩條公理相同，只是符號不同，其中 $\Omega=S$ ，事件我們用 A 維基百科用 E，因此只要證明第三條相等即可：
公理 1.3: $P(A1 \cup A2) = P(A1) + P(A2) ; ; ; if ; A1 \cap A2 = \emptyset$ 公理 2.3: $P(E_1 \cup E_2 \cup \cdots) = \sum P(E_i)$
請用公理系統 1 與集合論定理證明公理 2.3。

證明：

當 $A_i \cap A_j=\emptyset ; i \neq j$ 時，根據公理 1.3 $P(A_i \cup A_j) = P(A_i) + P(A_j)$ ，
於是可套用公理 1.3 並令 $A1=E_1, A2=(E_2 \cup E_3 \cdots)$ 推論如下：
$P(E_1 \cup E_2 \cup E_3 \cdots) = P(E_1 \cup (E_2 \cup E_3 \cdots))=P(E_1)+P(E_2 \cup E_3 \cdots)$ ;
$=P(E_1)+P(E_2)+P(E_3 \cdots) = … = \sum P(E_i)$ ;
證明完畢!

疑問二 :

針對這個公理系統，我同學提出一個論證，認為本書公理系統有問題，特別是第三條公理，不過其論述卻是按著維基的第三條進行的，該論述如下所示。

假如有個系統的樣本空間 S 為可數無限多 (例如有理數 Q) (就是分數)，那麼每個有理數的機率將會是 $1/\infty = 0$ ，於是會得到 $\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} P(i/j) = 0+0+0+…. = 0 \ne 1 = P(Q)$
於是就會造成所有元素的機率總和不等於樣本空間機率的問題，也就不符合第三條公理了。
請問您如何看待以上論述。

我的看法：

$1/\infty = 0$ 其實並不是零，在我所知道的數學裏、無限大甚至不是一個數字，而是一種辯證法。濫用無限大會造成很多詭論，例如：
所有奇數的數量是無限大，所有偶數的數量也是無限大，於是自然數數量等於=奇數數量+偶數數量，結果導致推論：
$\infty=\infty+\infty$ 於是可推論 $0=\infty-\infty=\infty+\infty-\infty=\infty$ ，這就產生了零等於無限大的詭論。
所以、上述的論點說 $\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} P(i/j) = 0 \ne 1 = P(Q)$ 其實是有問題的，問題在 P(i/j) 並非是零，而是無限大分之一，但是我們不能直接寫 $1/\infty$ ，因為無限大其實不是一個數字，我們必須用極限的方式來論證。
$\lim_{n\to \infty} \lim_{m\to\infty} \sum_{i=1}^{n} \sum_{j=1}^{m} P(i/j) = \lim_{n\to \infty} \lim_{m\to\infty} n * m * \frac{1}{n * m} = 1 = P(Q)$
於是就破解了上述的疑問。

疑問三 :

問題是上述的《初等機率測度》和《Kolmogorov 機率測度》兩套公理系統是否等價呢？

這個問題其實很深，在離散的情況下，兩者基本上沒有甚麼差異，但是在連續的實數空間中，甚至是包含無窮數列的空間中，那兩者就有一些涵蓋性上的差異了。

有關這個問題，已經超越我的能力範圍了，請參考《蔡聰明》教授的解說：

《機率論為何要建立在機率空間上面?》 (PDF) – 蔡聰明

Edit on GitHub