事件频率与事件概率的关系

Relation between frequency and probability of an event

Posted by Trees' Blog on February 1, 2022

事件的概率是指某个时间发生的可能性,而时间的频率是指进行若干次独立重复实验得到的结果中事件发生的次数占比,这二者似乎是有些联系的。从直觉来看,当我们进行的独立重复实验趋近于无穷的时候,事件发生的频率应当趋近于事件发生的概率。接下来我们从理论的角度来推导一下二者的关系。

设随机变量 $X$ 共有 $K$ 个取值,且记 $\mathbb{P}(X=x_k)=p_k$,进行 $N$ 次独立试验,设事件 $X=x_k$ 发生的次数为 $m_k$ ,那么关于 $p_k$ 的似然函数可以写作

\[L=\prod_{k=1}^{K}p_k^{m_k}\]

其对数似然函数为

\[\ln{L}=\sum_{k=1}^{K}m_k\ln{p_k}\]

在条件 \(\sum_k p_k=1\) 的约束下最大化似然函数可以用 Lagrange 乘子法求解,代价函数为

\[J(p,\lambda)=\sum_{k=1}^{K}m_k\ln{p_k}+\lambda({1-\sum_{k=1}^{K}p_k})\]

对 $p$ 和 $\lambda$ 求偏导得到

\[\begin{cases} \frac{\partial{J}}{\partial{p_i}}=\frac{m_i}{p_i}-\lambda=0 \\ \frac{\partial{J}}{\partial{\lambda}}=1-\sum_k p_k=0 \end{cases}\]

联立两式可得 $\lambda=1/N$ ,于是 $p_i=m_i/N,\quad i=1,…,K$。可以看到,事件发生的频率是事件发生概率的最大似然估计。