概率论

自然界与社会生活中的两类现象

  • 确定性现象:结果确定
  • 不确定性现象:结果不确定

概率论与数理统计是研究随机现象统计规律的数学学科

随机事件的关系即运算

随机现象是在个别实验中结果呈现不确定性,但在大量重复试验中,其结果又具有统计规律的现象。

为了研究随机现象,就要对客观事件进行观察。观察随机现象的过程称为随机试验,简称试验

随机试验的特点

  1. 在相同的条件下,试验可以重复进行。
  2. 每一次试验的可能的结果不止一个(至少两个,也可以是无穷多个),并且能事先明确试验的所有可能结果。
  3. 在每次试验之前不能确定哪一个结果会出现。

样本空间:随机试验 EE 的所有可能的结果组成的集合。记为 SS(或 Ω\Omega

样本点:样本空间的元素,即 EE 的每一个结果。

随机试验 EE 的样本空间 SS 的子集 AA 称为 EE随机事件,简称事件

AA 中某一个样本点出现时,就说事件 AA 发生了。

由一个样本点 ee 组成的单点集 {e}\{e\} 称为基本事件

由若干个基本事件组合而成的事件称为复合事件

样本空间 SS 包含了试验的所有样本点,在每次试验中它总会发生,称 SS必然事件

  • 事件的包含:事件 AA 的发生必然导致事件 BB 发生,即属于 AA 的样本点也属于 BB
    • 称事件 BB 包含事件 AA,或称事件 AA 包含于 BB,记作 BAB \supset AABA \subset B

对任何事件 AA,都有 AS\varnothing \subset A \subset S

  • 事件的相等:如果事件 AA 包含事件 BBABA \supset B),事件 BB 包含事件 AAABA \subset B),即 AABB 有相同的样本点。
    • 称事件 AA 与事件 BB 相等,记作 A=BA=B

事件的并(和)可以推广到有限或可列个事件。

nn 个事件 A1,A2,,AnA_1, A_2, \ldots, A_n 中至少有一个发生的事件称为这些事件的和事件

记作 A1A2An=k=1nAkA_1 \cup A_2 \cup \ldots \cup A_n=\bigcup_{k=1}^n A_kA1+A2++An=k=1nAkA_1+A_2+\ldots+A_n=\sum_{k=1}^n A_k

可列个事件 A1,A2,,An,A_1, A_2, \ldots, A_n, \ldots 中至少有一个发生的事件称为这些事件的和事件

记作 k=1Ak\bigcup_{k=1}^{\infty} A_kk=1Ak\sum_{k=1}^{\infty} A_k

  • 事件的交(积):两个事件 AABB 同时发生的事件。
    • 称事件 AA 与事件 BB 的交(积),记作 ABA \cap BABAB
    • AB={xxAA \cap B=\{x \mid x \in AxB}x \in B\}

事件的交(积)可以推广到有限或可列个事件。

nn 个事件A1,A2,,AnA_1, A_2, \ldots, A_n 中同时发生的事件称为这些事件的积事件

记作 A1A2An=k=1nAkA_1 \cap A_2 \cap \ldots \cap A_n=\bigcap_{k=1}^n A_kA1A2AnA_1 A_2 \cdots A_n

可列个事件 A1,A2,,An,A_1, A_2, \ldots, A_n, \ldots 中同时发生的的事件称为这些事件的积事件

记作 k=1Ak\bigcap_{k=1}^{\infty} A_k

  • 对立事件/互逆事件:事件 AA 与事件 BB 必有一个发生,但又不能同时发生。

    • 称事件 AA 与事件 BB对立事件,也称 AABB互逆
    • 事件 AA 的对立事件(逆事件)叫”AA 逆,非 AA”,记作 Aˉ\bar{A}
    • Aˉ={xSxA}\bar{A}=\{x \in S \mid x \notin A\}
  • 事件的差:事件 AA 发生,而事件 BB 不发生的事件。

    • 称为事件 AA 与事件 BB 的差,记作 ABA-B
    • AB={xxAA-B=\{x \mid x \in AxB}x \notin B\}
  • 互不相容事件/互斥事件:事件 AA 与事件 BB 不能同时发生。

    • 称事件 AA 与事件 BB互不相容事件,也称 AABB互斥
    • AB=A B=\varnothing

完备事件组:如果事件 A1,,AnA_1, \ldots, A_n 两两互不相容,并且 A1An=SA_1 \cup \ldots \cup A_n=S,则称 A1,,AnA_1, \ldots, A_n 是一个完备事件组。

事件的运算本质就是集合的运算。

A,B,CA, B, C 为事件,则有:

  1. 交换律

    1. AB=BAA \cup B=B \cup AA+B=B+AA+B=B+A
    2. AB=BAA \cap B=B \cap AAB=BAA B=B A
  2. 结合律

    1. A(BC)=(AB)C=ABCA \cup(B \cup C)=(A \cup B) \cup C=A \cup B \cup CA+(B+C)=(A+B)+C=A+B+CA+(B+C)=(A+B)+C=A+B+C
    2. A(BC)=(AB)C=ABCA \cap(B \cap C)=(A \cap B) \cap C=A \cap B \cap CA(BC)=(AB)C=ABCA(B C)=(A B) C=A B C
  3. 分配率

    1. A(BC)=(AB)(AC)A \cup(B \cap C)=(A \cup B) \cap(A \cup C)A+BC=(A+B)(A+C)A+B C=(A+B)(A+C)
    2. A(BC)=(AB)(AC)A \cap(B \cup C)=(A \cap B) \cup(A \cap C)A(B+C)=AB+ACA(B+C)=A B+A C
  4. 德摩根律

    1. AB=AˉBˉ\overline{A \cup B}=\bar{A} \cap \bar{B}A+B=AˉBˉ\overline{A+B}=\bar{A} \bar{B}
    2. AB=AˉBˉ\overline{A \cap B}=\bar{A} \cup \bar{B}AB=Aˉ+Bˉ\overline{A B}=\bar{A}+\bar{B}

    可以推广到有限个和可列个事件。

    iIAiiIAi\overline{\bigcup_{i \in I} A_i} \equiv \bigcap_{i \in I} \overline{A_i}
    iIAiiIAi\overline{\bigcap_{i \in I} A_i} \equiv \bigcup_{i \in I} \overline{A_i}

  5. 其他运算律

    1. 等幂律:AA=AA \cup A=A A+A=A\quad A +A=A AA=AAA=A\quad A \cap A=A \quad A A=A
    2. 0-1律:AS=SA+S=SAS=AAS=AA=AA+=AA=A=\begin{array}{ll}A \cup S=S & A+S=S \\ A \cap S=A & A S=A \\ A \cup \varnothing=A & A+\varnothing=A \\ A \cap \varnothing=\varnothing & A \varnothing=\varnothing\end{array}
    3. 吸收律:若ABA \subset B,则AB=BA \cup B=BAB=A\quad A \cap B=A
    4. 互补律:AAˉ=AAˉ=A \cap \bar{A}=A \bar{A}=\varnothing$ \quad A \cup \bar{A}=A+\bar{A}=S$
    5. 双重否定律:Aˉˉ=A\bar{\bar{A}}=A

概率的定义即性质

(一)频率

​ 概率论研究的是随机现象的统计规律性。因此,仅仅知道试验中可能出现哪些事件是不够的,还必须对事件发生的可能性大小进行量的描述,也就是用一个实数来描述某个事件在一次试验中发生的可能性大小。

频率是描述事件发生的频繁程度的一个量。

  • 随机事件在一次试验中是否发生是不确定的,但在大量重复的试验中,该事件的发生往往具有统计规律性。所以,我们可以用大量重复试验来研究该事件发生的可能性大小。
  • 仅从事件出现的次数不能确切地描述该事件出现的可能性的大小,还应该考虑该事件出现次数在试验总次数中所占的百分比。

设在相同的条件下,进行了 nn 次试验,在这 nn 次试验中,事件 AA 发生的次数称为事件 AA 发生的频数,记作 n(A)n(A)。比值 n(A)/nn(A) / n 称为事件 AA频率,记作 fn(A)f_n(A)。即 fn(A)=n(A)nf_n(A)=\frac{n(A)}{n}

基本性质

  • 非负性:0fn(A)10 \leq f_n(A) \leq 1

  • 规范性:fn()=0f_n(\varnothing)=0fn(S)=1f_n(S)=1

  • 可加性:设 AABB 互不相容,则 fn(AB)=fn(A)+fn(B)f_n(A \cup B)=f_n(A)+f_n(B)

    A1,A2,,AkA_1, A_2, \ldots, A_k 互不相容,则 fn(A1A2Ak)=fn(A1)+fn(A2)++fn(Ak)f_n\left(A_1 \cup A_2 \cup \ldots \cup A_k\right)=f_n\left(A_1\right)+f_n\left(A_2\right)+\ldots+f_n\left(A_k\right)

(二)概率

随着 nn 的增大,事件 AA 的频率 fn(A)f_n(A) 呈现出稳定性。即频率会逐渐稳定与一个介于 0011 之间的常数。因此,我们可以让重复试验次数 nn 增大,观察频率 fn(A)f_n(A) 的稳定值,并用这个值来表征事件 AA 发生的可能性的大小:概率的统计定义。

概率的统计定义:事件 AA 发生的频率的稳定值 pp 称为 AA 的统计概率,记作 P(A)P(A),即 P(A)=pP(A)=p

当试验次数 nn 相当大时,可以用频率作为概率的近似值:P(A)fn(A)=n(A)nP(A) \approx f_n(A)=\frac{n(A)}{n}

但是在实际问题中,我们不可能对每一个事件都通过做大量的试验来求得事件的频率,并用来表示该事件发生可能性的大小。同时,为了理论研究的需要,我们需要将事件发生的可能性给出一个数学上的定义。为此,我们从频率的稳定性和频率的性质得到启发,给出表征事件发生可能性大小的概率的定义:概率的公理化定义。

概率的公理化定义:设 EE 是随机试验,SS 是它的样本空间。对 EE 的每一个事件 AA 赋予一个实数,记作 P(A)P(A),称为事件 AA 的公理化概率。

函数 P(A)P(A) 满足下列条件:

  1. 非负性:对每一个事件 AA,有 P(A)0P(A)≥0
  2. 规范性:对于必然事件 SS,有 P(S)=1P(S)=1
  3. 可列可加性:对于两两互不相容的事件 A1,A2,A_1, A_2, \ldots,有 P(A1A2)=P(A1)+P(A2)+P\left(A_1 \cup A_2 \cup \ldots\right)=P\left(A_1\right)+P\left(A_2\right)+\ldots,即 P(i=1Ai)=i=1P(Ai)P\left(\bigcup_{i=1}^{\infty} A_i\right)=\sum_{i=1}^{\infty} P\left(A_i\right)

==概率的本质:概率PP是定义在事件集合上的满足以上三个条件的实函数:P:{P:\{ 事件 }R\} \rightarrow R==

(三)概率的性质

  1. P()=0P(\varnothing)=0
  2. 有限可加性, 设 A1,A2,,AnA_1, A_2, \ldots, A_n 是两两互不相容的事件, 则有 P(A1A2An)=P(A1)+P(A2)++P(An)P\left(A_1 \cup A_2 \cup \ldots \cup A_n\right)=P\left(A_1\right)+P\left(A_2\right)+\ldots+P\left(A_n\right)
  3. 设事件 AABB满足 ABA \subset B,则
    1. 单调性:P(A)P(B)P(A) \leq P(B)
    2. 减法公式:P(BA)=P(B)P(A)P(B-A)=P(B)-P(A)
  4. 对任何事件 AA,有 0P(A)10 \leq P(A) \leq 1(任何事件都概率都介于 0011 之间)
  5. 逆事件的概率,对任何事件 AA,有 P(A)+P(Aˉ)=1P(A)+P(\bar{A})=1P(Aˉ)=1P(A)P(\bar{A})=1-P(A)
  6. 加法公式,对于任意两个事件 AABB,有 P(AB)=P(A)+P(B)P(AB)P(A \cup B)=P(A)+P(B)-P(A B)

古典概型与几何概型

古典概型

  1. 试验的样本空间包含有限个元素
  2. 试验中每个基本事件发生的可能性相同

具有以上两个特点的试验大量存在。这种试验称为等可能概型。它在概率论发展初期曾经是主要研究对象,所以也称为古典概型

EE 是一个有 nn 个基本事件的等可能概型:S={e1,e2,,en}S=\left\{e_1, e_2, \ldots, e_n\right\},由于在试验中每一个基本事件 eie_i
发生的可能性(概率)相同:

P({ei})=1n(i=1,2,,n)P\left(\left\{e_i\right\}\right)=\frac{1}{n}(i=1,2, \ldots, n)

设事件AAkk个基本事件组成:A={ei1,ei2,,eik}A=\left\{e_{i_1}, e_{i_2}, \ldots, e_{i_k}\right\},则 AA 的概率:

P(A)=P\left(\left\{e_{i_1}, e_{i_2}, \ldots, e_{i_k}\right\}=P\left(\left\{e_{i_1}\right\} \cup\left\{e_{i_2}\right\} \cup \ldots \cup\left\{e_{i_k}\right\}\right)\right.=P\left(\left\{e_{i_1}\right\}\right)+P\left\{\left\{e_{i_2}\right\}\right\}+\ldots+P\left(\left\{e_{i_k}\right\}\right)=\frac{1}{n}+\frac{1}{n}+\ldots+\frac{1}{n}=\frac{k}{n}$​

几何概型:设试验的样本空间为一几何区域,其测度(长度、面积或体积等) 为有限值,若任意事件发生的概率与的测度成正比,则称该试验为几何概型

条件概率与乘法公式

AABB 是两个事件,且 p(A)>0p(A)>0,称 P(AB)P(A)\frac{P(A B)}{P(A)} 为在事件 AA 发生的条件下事件 BB 发生的条件概率,记作 P(BA)P(B \mid A),即P(BA)=P(AB)P(A)P(B \mid A)=\frac{P(A B)}{P(A)}.

  1. 非负性,对任何事件 BBP(BA)=P(AB)P(A)0P(B \mid A)=\frac{P(A B)}{P(A)} \geq 0
  2. 规范性,对必然事件 SSP(SA)=P(AS)P(A)=P(A)P(A)=1P(S \mid A)=\frac{P(A S)}{P(A)}=\frac{P(A)}{P(A)}=1
  3. 可列可加性,设 B1,B2,B_1, B_2, \ldots 两两互不相容

P(i=1BiA)=P[A(i=1Bi)]P(A)=P(i=1ABi)P(A)=i=1P(ABi)P(A)=i=1P(ABi)P(A)=i=1P(BiA)P\left(\bigcup_{i=1}^{\infty} B_i \mid A\right)=\frac{P\left[A\left(\bigcup_{i=1}^{\infty} B_i\right)\right]}{P(A)}=\frac{P\left(\bigcup_{i=1}^{\infty} A B_i\right)}{P(A)}=\frac{\sum_{i=1}^{\infty} P\left(A B_i\right)}{P(A)}=\sum_{i=1}^{\infty} \frac{P\left(A B_i\right)}{P(A)}=\sum_{i=1}^{\infty} P\left(B_i \mid A\right)

乘法公式P(AB)=P(A)P(BA)(P(A)>0)P(A B)=P(A) P(B \mid A) \quad(P(A)>0)

推广:P(ABC)=P(A)P(BA)P(CAB)(P(AB)>0)P(A B C)=P(A) P(B \mid A) P(C \mid A B) \quad(P(A B)>0)

更加一般的:

P(A1A2A3An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1A2An1)(P(A1A2An1An)>0)\begin{aligned} P\left(A_1 A_2 A_3 \cdots A_n\right)=P\left(A_1\right) & P\left(A_2 \mid A_1\right) P\left(A_3 \mid A_1 A_2\right) \cdots P\left(A_n \mid A_1 A_2 \cdots A_{n-1}\right) & \left(P\left(A_1 A_2 \cdots A_{n-1} A_n\right)>0\right)\end{aligned}

全概率公式与贝叶斯公式

【定理】设试验 EE 的样本空间为 B1,B2,,BnB_1, B_2, \ldots, B_n,为 SS 的一个划分(完备事件组),且 P(Bi)>0P\left(B_i\right)>0i=1,2,,ni=1,2, \ldots, n),AAEE 的一个事件,则

P(A)=P(B1)P(AB1)+P(B2)P(AB2)++P(Bn)P(ABn))=i=1nP(Bi)P(ABi)\begin{aligned} P(A)= & P\left(B_1\right) P\left(A \mid B_1\right)+P\left(B_2\right) P\left(A \mid B_2\right) \left.+\ldots+P\left(B_n\right) P\left(A \mid B_n\right)\right)=\sum_{i=1}^n P\left(B_i\right) P\left(A \mid B_i\right)\end{aligned}

意义:事件 AA 的发生有各种可能的原因 BiB_ii=1,...ni=1,...n)。如果 AA 是由原因BiB_i引起,则 AA 发生的概率为 P(ABi)=P(Bi)P(ABi)P\left(A B_i\right)=P\left(B_i\right) P\left(A \mid B_i\right)。每一个原因都可能导致 AA 发生,故 AA 发生的概率是全部原因引起 AA 发生的概率的总和,即为全概率公式。

由此可以形象地把全概率公式看成是“==由原因推结果==”的公式。

【定理】设试验 EE 的样本空间为 SSB1,B2...BnB_1, B_2...B_nSS 的一个划分(完备事件组)且 P(Bi)>0P(B_i)>0i=1,2,..ni=1,2,..n),AAEE 的一个事件,且 P(A)>0P(A)>0,则

P(BiA)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)(i=1,2,,n)P\left(B_i \mid A\right)=\frac{P\left(B_i\right) P\left(A \mid B_i\right)}{\sum_{j=1}^n P\left(B_j\right) P\left(A \mid B_j\right)}(i=1,2, \ldots, n)

意义:在事件 AA 已经发生的条件下,贝叶斯公式可用来寻找导致 AA 发生各种原因 BiB_i 的概率。

由此可以形象地把贝叶斯公式看成是“==由结果推原因==”的公式。

事件的独立性

AABB 是两个事件,如果它们满足等式 P(AB)=P(A)P(B)P(AB)=P(A)P(B) 则称事件 AABB相互独立,简称AABB 独立

一维随机变量

一维随机变量:随机变量 XX 定义在随机试验样本空间 S={e}S=\{e\} 上的单实值函数,记为

X=X(e)X=X(e)

一维离散型随机变量

一维离散型随机变量:随机变量的全部可能取值是有限个或可列无限个。可列无限个是指能与自然数一一对应上。

一维离散型随机变量的分布律:设离散型随机变量 XX 的所有可能取值为 xk (k=1,2,)x_k \ (k=1,2,\cdots)XX 取到各个可能值的概率 P(X=xk)=pk (k=1,2,3,)P\left(X=x_k\right)=p_k \ (k=1,2,3, \cdots),称为随机变量 XX 的概率分布。

Xx1x2x3xnpkp1p2p3pn\begin{array}{l|l|l|l|l|l|l} X & x_1 & x_2 & x_3 & \cdots & x_n & \ldots \\ \hline p_k & p_1 & p_2 & p_3 & \cdots & p_n & \cdots \end{array}

  1. pk0,(k=1,2,)p_k \geq 0,(k=1,2, \cdots)
  2. k=1+pk=1\sum_{k=1}^{+\infty} p_k=1

常见的一维离散型随机变量:

010-1 分布:随机试验的结果只有两个,一维离散随机变量 XX 的取值是 0011,对应的分布律

X01pk1pp\begin{array}{c|c|c} X & 0 & 1 \\ \hline p_k & 1-p & p \end{array}

二项分布:只有两个结果的随机试验称为伯努利试验,观察 AA 发生或 AA 不发生,试验进行 nn 次,称为 nn 重伯努利试验。随机变量 XX 的取值是 nn 重伯努利试验中 AA 发生的次数。假设单独一次试验 AA 发生的概率为 p(0<p<1)p(0<p<1)AA 不发生的概率为 q(q=1p)q(q=1-p),则 nn 次试验中 AA 发生 kk 次的概率为:

P(X=k)=Cnkpkqnk(k=0,1,2,)P(X=k)=C_n^k p^k q^{n-k} \quad (k=0,1,2, \cdots)

记为 XB(n,p)X \sim B(n,p)

泊松分布:对应的分布律

P(X=k)=λkeλk!(k=0,1,2,)P(X=k)=\frac{\lambda^k e^{-\lambda}}{k !} \quad (k=0,1,2, \cdots)

λ>0\lambda >0,表示单位时间(空间)内随机事件发生的平均次数。

记为 XP(λ)X \sim P(\lambda)

泊松定理:设 λ>0\lambda >0nn 是任意正整数,设 npn=λnp_n=\lambda,则对任一固定的非负整数 kk,有

limnCnkpnk(1pn)nk=λkeλk!\lim _{n \rightarrow \infty} C_n^k p_n^k\left(1-p_n\right)^{n-k}=\frac{\lambda^k e^{-\lambda}}{k !}

如果 XB(n,p)X \sim B(n,p),且 nn 很大,pp 很小时,XP(λ=np)X \sim P(\lambda=np)

P(X=k)=Cnkpk(1p)nk(np)kenk!P(X=k)=C_n^k p^k(1-p)^{n-k} \approx \frac{(n p)^k e^{-n}}{k !}

一维随机变量的分布函数:设 XX 是随机变量,xx 是任意实数,F(x)F(x) 记为 XX 的分布函数。满足

F(x)=P(Xx)<x<+F(x)=P(X \leq x) \quad -\infty<x<+\infty

注:

  1. F(x)F(x) 是一个不减函数
  2. P(a<Xb)=F(b)F(a)P(a<X \leq b)=F(b)-F(a)
  3. 0F(x)1,F()=0,F(+)=10 \leq F(x) \leq 1, F(-\infty)=0, F(+\infty)=1
  4. F(x)F(x) 右连续

一维连续型随机变量

一维连续型随机变量:设 XX 是随机变量,xx 是任意实数,F(x)F(x)XX 的分布函数,存在非负可积函数 f(x)f(x) ,使对于任意实数 xx

F(x)=xf(t)dtF(x)=\int_{-\infty}^x f(t) d t

则称 XX一维连续型随机变量f(x)f(x)XX概率密度函数

注:

  1. f(x)0f(x) \geqslant 0
  2. +f(x)dx=1\int_{-\infty}^{+\infty} f(x) d x=1
  3. P(x1<Xx2)=F(x2)F(x1)=x1x2f(x)dxP\left(x_1<X \leq x_2\right)=F\left(x_2\right)-F\left(x_1\right)=\int_{x_1}^{x_2} f(x) d x
  4. P(x1<Xx2)=P(x1Xx2)=P(x1X<x2)=P(x1<X<x2)P\left(x_1<X \leq x_2\right)=P\left(x_1 \leq X \leq x_2\right)=P\left(x_1 \leq X<x_2\right)=P\left(x_1<X<x_2\right)
  5. f(x)f(x) 在点 xx 出连续,则有 F(x)=f(x)F^{\prime}(x)=f(x)

常见的一维连续型随机变量:

均匀分布:若一维连续型随机变量 XX 具有概率密度

f(x)={1ba,a<x<b0, 其他 f(x)=\left\{\begin{array}{cc} \frac{1}{b-a}, & a<x<b \\ 0, & \text { 其他 } \end{array}\right.

则称 XX 在区间 (a,b)(a,b) 上服从均匀分布,记为 XU(a,b)X \sim U(a, b)

XX 的分布函数 F(x)F(x)

F(x)={0,x<axaba,ax<b1,xbF(x)=\left\{\begin{array}{cc} 0, & x<a \\ \frac{x-a}{b-a}, & a \leq x<b \\ 1, & x \geq b \end{array}\right.

指数分布:若一维连续型随机变量 XX 具有概率密度

f(x)={λeλx,x>00, 其他 f(x)=\left\{\begin{array}{cc} \lambda e^{-\lambda x}, & x>0 \\ 0, & \text { 其他 } \end{array}\right.

其中 λ>0\lambda>0,则称 XX 在服从参数为 λ\lambda 的指数分布,记为 XE(λ)X \sim E(\lambda)

XX 的分布函数 F(x)F(x)

F(x)={1eλx,x>00, 其他 F(x)=\left\{\begin{array}{cc} 1-e^{-\lambda x}, & x>0 \\ 0, & \text { 其他 } \end{array}\right.

指数分布的无记忆性:对于任意的 s,t>0s, t>0,有 P(X>s+tX>s)=P(X>t)P(X>s+t \mid X>s)=P(X>t)

正态分布/常态分布/高斯分布:若一维连续型随机变量 XX 具有概率密度

φ(x)=12πσe(xμ)22σ2(<x<+)\varphi(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} \quad \left(-\infty<x<+\infty\right)

其中 μ,σ(σ>0)\mu, \sigma(\sigma>0),则称 XX 在服从参数为 μ\muσ\sigma 的正态分布,记为 XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right)

 

标准正态分布XN(0,1)X \sim N\left(0, 1\right)

f(x)=12πex22<x<+f(x)=\frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} \quad -\infty<x<+\infty

注:

  1. 概率密度 f(x)f(x) 关于 x=0x=0 对称
  2. 分布函数 Φ(x)=1Φ(x)\Phi(-x)=1-\Phi(x)
  3. XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right),则 Z=XμσN(0,1)Z=\frac{X-\mu}{\sigma} \sim N(0,1)

F(x)=P(Xx)=P(Xμσxμσ)=P(Zxμσ)=Φ(xμσ)F(x)=P(X \leq x)=P\left(\frac{X-\mu}{\sigma} \leq \frac{x-\mu}{\sigma}\right)=P\left(Z \leq \frac{x-\mu}{\sigma}\right)=\Phi\left(\frac{x-\mu}{\sigma}\right)

P(x1<X<x2)=P(x1μσ<Xμσx2μσ)=Φ(x2μσ)Φ(x1μσ)P\left(x_1<X<x_2\right)=P\left(\frac{x_1-\mu}{\sigma}<\frac{X-\mu}{\sigma} \leq \frac{x_2-\mu}{\sigma}\right)=\Phi\left(\frac{x_2-\mu}{\sigma}\right)-\Phi\left(\frac{x_1-\mu}{\sigma}\right)

P(Xx)=1P(X<x)=1P(Xμσ<xμσ)=1Φ(xμσ)P(X \geq x)=1-P(X<x)=1-P\left(\frac{X-\mu}{\sigma}<\frac{x-\mu}{\sigma}\right)=1-\Phi\left(\frac{x-\mu}{\sigma}\right)

一维随机变量函数的分布

二维随机变量

二维离散型随机变量

二维随机变量:设 EE 是一个随机试验,其样本空间为 S={e}S=\{e\},设 X=X(e)X=X(e)Y=Y(e)Y=Y(e) 是定义在样本空间上的随机变量,则由它们构成的向量 (X,Y)(X,Y),称二维随机向量,或二维随机变量。

二维离散型随机变量:对应

  • 联合分布律

P{X=xi,Y=yj}=pi(i,j=1,2,)P\left\{X=x_i, Y=y_j\right\}=p_i \quad (i, j=1,2, \cdots)

注:

  1. pij0p_{i j} \geq 0
  2. ijpij=1\sum_i \sum_j p_{i j}=1
  • 联合分布函数

F(x,y)=P{Xx,Yy}=xix,yyypy(i,j=1,2,)F(x, y)=P\{X \leq x, Y \leq y\}=\sum_{x_i \leq x, y \leq y} \sum_y p_y \quad (i, j=1,2, \cdots)

边缘分布:单独考虑随机变量 XX 或随机变量 YY 的分布情况

  • 随机变量 XX 的边缘分布

Pi=jpi(j=1,2,)P_{i \cdot}=\sum_j p_i \quad (j=1,2, \cdots)

FX(x)=P{Xx}F_X(x)=P\{X \leq x\}

  • 随机变量 YY 的边缘分布

Pj=ipj(i=1,2,)P_{\cdot j}=\sum_i p_j \quad (i=1,2, \cdots)

FY(y)=P{Yy}F_Y(y)=P\{Y \leq y\}

条件分布

独立性:关心两个随机变量之间是否存在某种依赖关系。对于二维随机变量 XXYY 相互独立

\Leftrightarrow Pij=Pi×Pj(i,j=1,2,)P_{i j}=P_{i \cdot} \times P_{\cdot j} \quad (i, j=1,2, \cdots)

\Leftrightarrow F(x,y)=FX(x)FY(y)F(x, y)=F_X(x) \cdot F_Y(y)

二维连续型随机变量

联合概率密度f(x,y)f(x,y)

联合概率分布函数F(x,y)F(x,y)

F(x,y)=P{Xx,Yy}=yxf(u,v)dudvF(x, y)=P\{X \leq x, Y \leq y\}=\int_{-\infty}^y \int_{-\infty}^x f(u, v) d u d v

注:

  1. f(x,y)0f(x, y) \geq 0
  2. ++f(x,y)dxdy=F(+,+)=1\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) d x d y=F(+\infty,+\infty)=1
  3. GGxOyxOy 平面上的区域,则点 X,YX,Y 落在 GG 内的概率:

Gf(x,y)dxdy\iint_G f(x, y) d x d y

P{a<x<b,c<y<d}=cdabf(x,y)dxdyP\{a<x<b, c<y<d\}=\int_c^d \int_a^b f(x, y) d x d y

  1. f(x,y)f(x,y) 在点 (x,y)(x,y) 处连续,则有 2F(x,y)xy=f(x,y)\frac{\partial^2 F(x, y)}{\partial x \partial y}=f(x, y)

边缘分布:单独考虑随机变量 XX 或随机变量 YY 的分布情况

  • 随机变量 XX 的边缘分布

fX(x)=[FX(x)]=+f(x,y)dyf_X(x)=\left[F_X(x)\right]^{\prime}=\int_{-\infty}^{+\infty} f(x, y) d y

FX(x)=F(x,+)=x[+f(x,y)dy]dxF_X(x)=F(x,+\infty)=\int_{-\infty}^x\left[\int_{-\infty}^{+\infty} f(x, y) d y\right] d x

  • 随机变量 YY 的边缘分布

fY(y)=[FY(y)]=+f(x,y)dxf_Y(y)=\left[F_Y(y)\right]^{\prime}=\int_{-\infty}^{+\infty} f(x, y) d x

FY(y)=F(+,y)=y[+f(x,y)dx]dyF_Y(y)=F(+\infty, y)=\int_{-\infty}^y\left[\int_{-\infty}^{+\infty} f(x, y) d x\right] d y

条件分布

对于 fY(y)>0f_Y(y)>0

fXY(X=xY=y)=f(x,y)fY(y)f_{X \mid Y}(X=x \mid Y=y)=\frac{f(x, y)}{f_Y(y)}

对于 fX(x)>0f_X(x)>0

fYX(Y=yX=x)=f(x,y)fX(x)f_{Y \mid X}(Y=y \mid X=x)=\frac{f(x, y)}{f_X(x)}

独立性:关心两个随机变量之间是否存在某种依赖关系。对于二维随机变量 XXYY 相互独立

f(x,y)=fX(x)fY(y)f(x, y)=f_X(x) \cdot f_Y(y)

常用的二维连续型随机变量分布:

二维连续型随机变量均匀分布:若二维连续型随机变量 (X,Y)(X,Y) 具有概率密度

f(x,y)={1A,(x,y)G0, 其他 f(x, y)=\left\{\begin{array}{cc} \frac{1}{A}, & (x, y) \in G \\ 0, & \text { 其他 } \end{array}\right.

则称 XX 在平面有界区域 GGGG 的面积为 AA) 上服从二维均匀分布

二维连续型随机变量正态分布:若二维连续型随机变量 (X,Y)(X,Y) 具有概率密度

f(x,y)=12πσ1σ21ρ2exp{12(1ρ2)[(xμ1)2σ122ρ(xμ1)(yμ2)σ1σ2+(yμ2)2σ22]}f(x, y)=\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp \left\{-\frac{1}{2\left(1-\rho^2\right)}\left[\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\}

其中 (<x,y<+)(-\infty<x, y<+\infty),且 σ1>0\sigma_1>0σ2>0\sigma_2>01<ρ<1-1<\rho<1,则称 (X,Y)(X,Y) 服从参数为 σ1,σ2,μ1,μ2,ρ\sigma_1, \sigma_2, \mu_1, \mu_2, \rho 的正态分布,记为 (X,Y)N(μ1,σ12;μ1,σ22;,ρ)(X, Y) \sim N\left(\mu_1, \sigma_1^2 ; \mu_1, \sigma_2^2 ;, \rho\right)

特别地,当 μ1=0\mu_1=0μ2=0\mu_2=0σ1=1\sigma_1=1σ2=1\sigma_2=1 时,称 (X,Y)(X,Y) 服从标准正态分布。

二维随机变量函数的分布

二维离散型随机变量函数的分布(忽略 \cdots

二维连续型随机变量函数的分布:设二维连续型随机变量 (X,Y)(X, Y),则 Z=g(X,Y)Z=g(X, Y)

FZ(z)=P{Zz}=g(x,y)zf(x,y)dxdyF_Z(z)=P\{Z \leq z\}=\iint_{g(x, y) \leq z} f(x, y) d x d y

fz(z)=Fz(z)f_z(z)=F_z^{\prime}(z)

特殊类型:

  • Z=X+YZ=X+Y

fZ(z)=+f(x,zx)dx=+f(zy,y)dyf_Z(z)=\int_{-\infty}^{+\infty} f(x, z-x) d x=\int_{-\infty}^{+\infty} f(z-y, y) d y

特别地,当 XXYY 相互独立时,有

fZ(z)=+fX(x)fY(zx)dx=+fX(zy)fY(y)dy,f_Z(z)=\int_{-\infty}^{+\infty} f_X(x) f_Y(z-x) d x=\int_{-\infty}^{+\infty} f_X(z-y) f_Y(y) d y,

  • YX\frac{Y}{X}XY\frac{X}{Y}

fZ(z)=+xf(x,xz)dx=+yf(yz,y)dyf_Z(z)=\int_{-\infty}^{+\infty}|x| f(x, x z) d x=\int_{-\infty}^{+\infty}|y| f(y z, y) d y

特别地,当 XXYY 相互独立时,有

fZ(z)=+xfX(x)fY(xz)dx=+yfX(yz)fY(y)dyf_Z(z)=\int_{-\infty}^{+\infty}|x| f_X(x) f_Y(x z) d x=\int_{-\infty}^{+\infty}|y| f_X(y z) f_Y(y) d y

  • Z=XYZ=XY

fZ(z)=+1xf(x,zx)dx.f_Z(z)=\int_{-\infty}^{+\infty} \frac{1}{|x|} f\left(x, \frac{z}{x}\right) d x .

特别地,当 XXYY 相互独立时,有

fZ(z)=+1xfX(x)fY(zx)dxf_Z(z)=\int_{-\infty}^{+\infty} \frac{1}{|x|} f_X(x) f_Y\left(\frac{z}{x}\right) d x

  • Z=max(X,Y)Z=\max(X,Y)Z=min(X,Y)Z=\min(X,Y)

数学期望

随机变量的数学期望:随机变量有对应概率加权后的平均值。

  • (一维)离散型随机变量的数学期望:设离散型随机变量 XX 的分布律为 P{X=xi}=pi(i=1,2)P\left\{X=x_i\right\}=p_i(i=1,2 \cdots),若级数 i=1xipi\sum_{i=1}^{\infty} x_i p_i 绝对收敛,则称 i=1xipi\sum_{i=1}^{\infty} x_i p_i 为离散型随机变量 XX 的数学期望,记为 E(X)E(X),即 E(X)=i=1xipiE(X)=\sum_{i=1}^{\infty} x_i p_i

  • (一维)连续型随机变量的数学期望:设连续型随机变量 XX 的概率密度为 f(x)f(x),若积分 +xf(x)dx\int_{-\infty}^{+\infty} x f(x) d x 绝对收敛,则称 +xf(x)dx\int_{-\infty}^{+\infty} x f(x) d xXX 的数学期望,记为 E(X)E(X),即 +xf(x)dx\int_{-\infty}^{+\infty} x f(x) d x

相关性质:设 CC 为常数

  1. E(C)=CE(C)=C
  2. E(CX)=CE(X)E(CX)=CE(X)
  3. E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)
  4. E(aX±bY)=aE(X)±bE(Y)E(a X \pm b Y)=a E(X) \pm b E(Y)
  5. XXYY 相互独立,E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)(反之不成立)

随机变量函数的数学期望

  • 一维随机变量函数的数学期望:设 XX 是一个随机变量,g(x)g(x) 为连续实函数,令 Y=g(X)Y=g(X)

    • XX 是一维离散型随机变量,分布律为 P{X=xi}=pi(i=1,2)P\left\{X=x_i\right\}=p_i(i=1,2 \cdots),若级数 i=1g(xi)pi\sum_{i=1}^{\infty} g\left(x_i\right) p_i 绝对收敛,则称一维离散型随机变量 Y=g(X)Y=g(X) 的期望存在,且 E(Y)=i=1g(xi)piE(Y)=\sum_{i=1}^{\infty} g\left(x_i\right) p_i
    • XX 是一维连续型随机变量,概率密度为 f(x)f(x),若积分 +g(x)fX(x)dx\int_{-\infty}^{+\infty} g(x) f_X(x) d x 绝对收敛,则称一维连续型随机变量 Y=g(X)Y=g(X) 的期望存在,且 E(Y)=+g(x)fX(x)dxE(Y)=\int_{-\infty}^{+\infty} g(x) f_X(x) d x
  • 二维随机变量函数的数学期望:设 (X,Y)(X,Y) 为二维变量,g(x,y)g(x,y) 为二元连续实函数,令 Z=g(X,Y)Z=g(X,Y)

    • (X,Y)(X,Y) 是二维离散型随机变量,联合分布律为 P{X=xi,Y=yj}=py,i,j=1,2P\left\{X=x_i, Y=y_j\right\}=p_y, i, j=1,2 \cdots,若级数 i=1j=1g(xi,yi)py\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} g\left(x_i, y_i\right) p_y 绝对收敛,则称二维离散型随机变量 Z=g(X,Y)Z=g(X,Y) 的期望存在,且 E(Z)=E[g(X,Y)]=i=1j=1g(xi,yj)pijE(Z)=E[g(X, Y)]=\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} g\left(x_i, y_j\right) p_{i j}
    • (X,Y)(X,Y) 是二维连续型随机变量,联合密度为 f(x,y)f(x,y),若积分 ++g(x,y)f(x,y)dxdy\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) d x d y 绝对收敛,则称二维连续型随机变量 Z=g(X,Y)Z=g(X,Y) 的期望存在,且 E(Z)=E[g(X,Y)]=++g(x,y)f(x,y)dxdyE(Z)=E[g(X, Y)]=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) d x d y

方差

方差:衡量随机变量平均偏离程度。

XX 是一个随机变量,如果 E{[XE(X)]2}E\left\{\left[X-E(X)\right]^2\right\} 存在,则称 E{[XE(X)]2}E\left\{\left[X-E(X)\right]^2\right\}XX 的方差,记作 D(X)D(X),即

D(X)=E{[XE(X)]2}D(X)=E\left\{\left[X-E(X)\right]^2\right\}

D(X)\sqrt{D(X)}标准差均方差

D(X)=E(X2)[E(X)]2D(X)=E\left(X^2\right)-[E(X)]^2

相关性质:设 CC 为常数

  1. D(C)=0D(C)=0
  2. D(CX)=C2D(X)D(CX)=C^2D(X)
  3. D(X+C)=D(X)D(X+C)=D(X)
  4. XXYY 相互独立,
    1. D(X±Y)=D(X)+D(Y)D(X \pm Y)=D(X)+D(Y)
    2. D(aX±bY)=a2D(X)+b2D(Y)D(a X \pm b Y)=a^2 D(X) + b^2 D(Y)

常用随机变量数学期望和方差

分布 参数 分布律/概率密度 数学期望 方差
010-1 分布 pp P{x=k}=pk(1p)1k(k=0,1)P\{x=k\}=p^k(1-p)^{1-k} \quad (k=0,1) pp p(1p)p(1-p)
二项分布 B(n,p)B(n,p) n,pn,p P{x=k}=Cnkpk(1p)1k(k=0,1,,n)P\{x=k\}=C_n^k p^k(1-p)^{1-k} \quad (k=0,1,\cdots,n) npnp np(1p)np(1-p)
泊松分布 P(λ)P(\lambda) λ\lambda P{x=k}=λkeλk!P\{x=k\}=\frac{\lambda^k e^{-\lambda}}{k !} λ\lambda λ\lambda
均匀分布 U(a,b)U(a,b) a<ba<b f(x)=1ba,(a<x<b)f(x)=\frac{1}{b-a},(a<x<b) a+b2\frac{a+b}{2} (ba)212\frac{(b-a)^2}{12}
正态分布 N(μ,σ2)N\left(\mu, \sigma^2\right) μ,σ\mu, \sigma f(x)=12πσe(xμ)22σ2f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} μ\mu σ2\sigma^2
指数分布 e(λ)e(\lambda) λ\lambda f(x)={λeλx,x>00, 其他 f(x)=\left\{\begin{array}{cc}\lambda e^{-\lambda x}, & x>0 \\ 0, & \text { 其他 }\end{array}\right. 1λ\frac{1}{\lambda} 1λ2\frac{1}{\lambda^2}

协方差

协方差:设 (X,Y)(X,Y) 是二维随机变量,且 E(X)E(X)E(Y)E(Y) 都存在,如果 E[(XE(X))(YE(Y))]E[(X-E(X))(Y-E(Y))] 存在,则称 E[(XE(X))(YE(Y))]E[(X-E(X))(Y-E(Y))]XXYY 的协方差,记作 Cov(X,Y)\operatorname{Cov}(X,Y),即

Cov(X,Y)=E[(XE(X))(YE(Y))]\operatorname{Cov}(X, Y)=E[(X-E(X))(Y-E(Y))]

Cov(X,Y)=E(XY)E(X)E(Y)\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)

相关性质:设 CC 为常数

  1. Cov(X,Y)=Cov(Y,X)\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X)
  2. Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)\operatorname{Cov}(X, Y+Z)=\operatorname{Cov}(X, Y)+\operatorname{Cov}(X, Z)
  3. Cov(aX,bY)=abCov(X,Y)\operatorname{Cov}(a X, b Y)=a b \operatorname{Cov}(X, Y)
  4. Cov(aX1±bX2,Y)=aCov(X1,Y)±bCov(X2,Y)\operatorname{Cov}\left(a X_1 \pm b X_2, Y\right)=a \operatorname{Cov}\left(X_1, Y\right) \pm b \operatorname{Cov}\left(X_2, Y\right)
  5. Cov(C,X)=0\operatorname{Cov}(C, X)=0
  6. D(X±Y)=D(X)+D(Y)±2Cov(X,Y)D(X \pm Y)=D(X)+D(Y) \pm 2\operatorname{Cov}(X, Y)
  7. XXYY 相互独立,Cov(X,Y)=0\operatorname{Cov}(X, Y)=0

相关系数

相关系数:设 (X,Y)(X,Y) 是二维随机变量,且 D(X)D(X)D(Y)D(Y) 都存在,且都不为零,则称 ρXY=cov(X,Y)DXDY\rho_{X Y}=\frac{\operatorname{cov}(X, Y)}{\sqrt{D X} \sqrt{D Y}}XXYY 的相关系数。

相关性质:设 CC 为常数

  1. ρXY1\left|\rho_{X Y}\right| \leq 1
  2. ρXY=0\left|\rho_{X Y}\right|=0,称 XXYY 不相关
  3. XXYY 相互独立则 XXYY 不相关,反之不一定

大数定理及中心极限定理

切比雪夫不等式:设随机变量 XX,其 E(X)=μE(X)=\muD(X)=σ2D(X)=\sigma^2 都存在,则对于任意 ε>0\varepsilon>0 均有:

P{XE(X)ε}D(X)ε2P\{|X-E(X)| \geq \varepsilon\} \leq \frac{D(X)}{\varepsilon^2}

P{XE(X)<ε}1D(X)ε2P\{|X-E(X)|<\varepsilon\} \geq 1-\frac{D(X)}{\varepsilon^2}

大数定律依概率收敛指有 X1,X2,Xn,X_1, X_2, \cdots X_n, \cdots 随机变量序列,aa 是常数,如果对于任意给定的正数 ε\varepsilon,有:

limnP{Xna<ε}=1\lim _{n \rightarrow \infty} P\left\{X_n-a \mid<\varepsilon\right\}=1

则称随机变量序列 X1,X2,Xn,X_1, X_2, \cdots X_n, \cdots 依概率收敛于 aa,记为 XnPaX_n \stackrel{P}{\longrightarrow} a

切比雪夫大数定理:设 X1,X2,Xn,X_1, X_2, \cdots X_n, \cdots 随机变量序列互不相干,且数学期望存在,又存在常数 C>0C>0,使 D(Xi)C(i=1,2,)D\left(X_i\right) \leq C(i=1,2, \cdots),则对任意 ε>0\varepsilon>0,有:

limnP{1ni=1nXi1ni=1nE(Xi)<ε}=1\lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right|<\varepsilon\right\}=1

在定理条件下,有:

1ni=1nXi1ni=1nE(Xi)P0\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right) \stackrel{P}{\longrightarrow} 0

辛钦大数定律:设 X1,X2,Xn,X_1, X_2, \cdots X_n, \cdots 随机变量序列独立同分布,且数学期望存在,则对任意 ε>0\varepsilon>0,有:

limnP{1ni=1nXiμ<ε}=1\lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i-\mu\right|<\varepsilon\right\}=1

在定理条件下,有:

1ni=1nXiμ\frac{1}{n} \sum_{i=1}^n X_i \rightarrow \mu

伯努利大数定理:设 μn\mu_nnn 次独立试验中事件 AA 发生的次数,pp 是事件 AA 在每次试验中发生的概率,则对任意 ε>0\varepsilon>0,有:

limnP{μnnp<ε}=1\lim _{n \rightarrow \infty} P\left\{\left|\frac{\mu_n}{n}-p\right|<\varepsilon\right\}=1

事件 AA 发生的频率依概率收敛于事件 AA 发生的概率:

μnnpp\frac{\mu_n}{n} \stackrel{p}{\longrightarrow} p

中心极限定理

林德伯格-莱维中心极限定理:设 X1,X2,Xn,X_1, X_2, \cdots X_n, \cdots 随机变量序列独立同分布,且期望和方差均存在,即 E(Xk)=μE\left(X_k\right)=\muD(Xk)=σ2>0(k=1,2,3,)D\left(X_k\right)=\sigma^2>0 \quad (k=1,2,3, \cdots) ,则随机变量之和 i=1nXk\sum_{i=1}^n X_k 的标准化变量:

Yn=k=1nXkE(k=1nXk)D(k=1nXk)=k=1nXknμnσY_n=\frac{\sum_{k=1}^n X_k-E\left(\sum_{k=1}^n X_k\right)}{\sqrt{D\left(\sum_{k=1}^n X_k\right)}}=\frac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma}

的分布函数 Fn(x)F_n(x) 对于任意 xx 满足:

limnFn(x)=limnP{k=1nXknμnσx}=x12πer22dt=Φ(x)\lim _{n \rightarrow \infty} F_n(x)=\lim _{n \rightarrow \infty} P\left\{\frac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma} \leq x\right\}=\int_{-\infty}^x \frac{1}{\sqrt{2 \pi}} e^{-\frac{r^2}{2}} d t=\Phi(x)

迪莫夫-拉普拉斯中心极限定理:设 X1,X2,Xn,X_1, X_2, \cdots X_n, \cdots 随机变量序列独立同分布,且都服从 010-1 分布,即 P(Xk=1)=pP\left(X_k=1\right)=pP(Xk=0)=1p(0<p<1,k=1,2,3,)P\left(X_k=0\right)=1-p \quad (0<p<1, k=1,2,3, \cdots),则随机变量之和 i=1nXk\sum_{i=1}^n X_k 的分布函数 Fn(x)F_n(x) 对于任意 xx 满足:

limnFn(x)=limnP{k=1nXknpnp(1p)x}=x12πet22dt=Φ(x)\lim _{n \rightarrow \infty} F_n(x)=\lim _{n \rightarrow \infty} P\left\{\frac{\sum_{k=1}^n X_k-n p}{\sqrt{n p(1-p)}} \leq x\right\}=\int_{-\infty}^x \frac{1}{\sqrt{2 \pi}} e^{\frac{t^2}{2}} d t=\Phi(x)

数理统计

科学研究有两种逻辑思维:

演绎法(deduction):从一条公理触发进行推演分析。

归纳法(induction):从大量经验事实中总结出最接近本质的原理。

数理统计工作分类:

  1. 收集整理数据资料,并展示数据(描述统计)
  2. 对数据进行分析,从而对观察对象的性质特点做出推断(统计推断)

抽样分布

总体:试验的全部可能观察值。

个体:每一个可能的观察值。

总体容量:总体中包含的个体数量。

抽样调查:从总体中随机抽取一部分个体观测结果。

随机样本/样本:设 XX 是具有分布函数 FF 的随机变量,若 X1,X2,,XnX_1, X_2, \cdots, X_n 是与 XX 具有同一分布函数 FF 且相互独立的随机变量,则称 X1,X2,,XnX_1, X_2, \cdots, X_n 为从总体 XX 得到的容量为 nn 的简单随机样本,简称样本,观测值 x1,x2,,xnx_1, x_2, \cdots, x_n 称为样本值。

统计量:设 X1,X2,,XnX_1, X_2, \cdots, X_n 是来自总体 XX 的一个样本, g(X1,X2,,Xn)g\left(X_1, X_2, \cdots, X_n\right)X1,X2,,XnX_1, X_2, \cdots, X_n 的函数, 若 gg 中不含有未知的参数, 则称 g(X1,X2,,Xn)g\left(X_1, X_2, \cdots, X_n\right) 是一个统计量。

常用统计量

名称 定义
样本均值 Xˉ=1n(X1+X2++Xn)=1ni=1nXi\bar{X}=\frac{1}{n}\left(X_1+X_2+\cdots+X_n\right)=\frac{1}{n} \sum_{i=1}^n X_i 样本均值的期望等于总体均值;样本均值的方差等于总体的方差除以样本个数
样本方差 S2=1n1i=1n(XiXˉ)2=1n1(i=1nXi2nXˉ2)S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2=\frac{1}{n-1}\left(\sum_{i=1}^n X_i^2-n \bar{X}^2\right) 样本方差的期望等于总体的方差
样本标准差 S=1n1i=1n(XiXˉ)2S=\sqrt{\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2}
样本 kk 阶原点矩 Ak=1ni=1nXik,(k=1,2,)A_k=\frac{1}{n} \sum_{i=1}^n X_i^k,(k=1,2, \cdots)
样本 kk 阶中心矩 Bk=1ni=1n(XiXˉ)k,(k=2,3,)B_k=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^k,(k=2,3, \cdots)

常见的来自正态总体的统计量的分布:

  • χ2\chi^2 分布:设 X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立且均来自总体 XN(0,1)X \sim N(0,1),则称统计量

χ2=X12+X22++Xn2\chi^2=X_1^2+X_2^2+\cdots+X_n^2

服从自由度为 nnχ2\chi^2 分布,记为 χ2χ2(n)\chi^2 \sim \chi^2(n)

  • tt 分布:设 XN(0,1)X \sim N(0,1)Yχ2(n)Y \sim \chi^2(n), 且 X,YX, Y 相互独立,,则称统计量

T=XY/nT=\frac{X}{\sqrt{Y / n}}

服从自由度为 nntt 分布,记为 tt(n)t \sim t(n)

  • FF 分布:设 Uχ2(n1)U \sim \chi^2\left(n_1\right)Vχ2(n2)V \sim \chi^2\left(n_2\right),且 UUVV 相互独立,则称统计量

F=U/n1V/n2F=\frac{U / n_1}{V / n_2}

服从自由度为 (n1,n2)(n_1,n_2)FF 分布,记为 FF(n1,n2)F \sim F\left(n_1, n_2\right)

正态分布常用结论

X1,X2,,XnX_1, X_2, \cdots, X_n 是来自正态总体 XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right) 的样本, Xˉ\bar{X} 是样本均值,S2S^2 是样本方差,

  1. XˉN(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)
  2. Xˉμσ/nN(0,1)\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)
  3. (n1)S2σ2χ2(n1)\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1)
  4. XˉμS/nt(n1)\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)
  5. Xˉ\bar{X}S2S^2 相互独立

参数估计

点估计

点估计:设总体 XX 的分布函数 F(x;θ)F(x ; \theta) 的形式已知,θ\theta 是待估参数,X1,X2,,XnX_1, X_2, \cdots, X_nXX 的一个样本,x1,x2,,xnx_1, x_2, \cdots, x_n 是相应的一个样本值点估计问题就是要构造一个适当的统计量 θ^(X1,X2,,Xn)\hat{\theta}\left(X_1, X_2, \cdots, X_n\right),用它的观察值 θ^(x1,x2,,xn)\hat{\theta}\left(x_1, x_2, \cdots, x_n\right) 作为未知参数 θ\theta 的近似值。

  • θ^(X1,X2,,Xn)\hat{\theta}\left(X_1, X_2, \cdots, X_n\right)θ\theta估计量
  • θ^(x1,x2,,xn)\hat{\theta}\left(x_1, x_2, \cdots, x_n\right)θ\theta估计值

矩估计:用样本矩估计总体矩。

最大似然估计

一次试验的结果 AA 发生了,有理由相信 AA 发生的概率最大。求解参数取何值时,样本出现的概率最大,用该值作为参数的估计值。

离散型总体未知参数的最大似然估计

离散型总体 XX 的分布律 P{X=x}=p(x,θ)P\{X=x\}=p(x, \theta)θΘ\theta \in \Theta,其中 Θ\Theta 为未知参数,设 x1,x2,,xnx_1, x_2, \cdots, x_n 是一组样本观测值,求 θ\theta 的最大似然估计值:

  1. 计算似然函数

L(θ)=i=1np(xi,θ)L(\theta)=\prod_{i=1}^n p\left(x_i, \theta\right)

  1. 取对数

lnL(θ)=i=1nlnp(xi,θ)\ln L(\theta)=\sum_{i=1}^n \ln p\left(x_i, \theta\right)

  1. θ\theta 进行求导,并令 ddθlnL(θ)=0\frac{d}{d \theta} \ln L(\theta)=0,解出最大似然估计值 θ^\hat{\theta}
连续型总体未知参数的极大似然估计

连续型总体 XX 的概率密度 f(x,θ)f(x, \theta)θΘ\theta \in \Theta,其中 Θ\Theta 为未知参数,设 x1,x2,,xnx_1, x_2, \cdots, x_n 是一组样本观测值,求 θ\theta 的最大似然估计值:

  1. 计算似然函数

L(θ)=i=1nf(xi,θ)L(\theta)=\prod_{i=1}^n f\left(x_i, \theta\right)

  1. 取对数

lnL(θ)=i=1nlnf(xi,θ)\ln L(\theta)=\sum_{i=1}^n \ln f\left(x_i, \theta\right)

  1. θ\theta 进行求导,并令 ddθlnL(θ)=0\frac{d}{d \theta} \ln L(\theta)=0,解出最大似然估计值 θ^\hat{\theta}

无偏估计

若未知参数 θ\theta 的估计量 θ^\hat{\theta} 期望值 E(θ^)=θE(\hat{\theta})=\theta,则称 θ^\hat{\theta}θ\theta 的无偏估计量。

区间估计

双侧区间估计:设总体 XX 的分布函数是 F(x,θ)F(x, \theta),其中 θ\theta 是未知参数。对于给定 α(0<α<1)\alpha(0<\alpha<1),若有样本 X1,X2,XnX_1, X_2, \cdots X_n 确定的两个统计量 θ(X1,X2,Xn)\underline{\theta}\left(X_1, X_2, \cdots X_n\right)θˉ(X1,X2,Xn)\bar{\theta}\left(X_1, X_2, \cdots X_n\right) 满足 P{θ<θ<θˉ}1αP\{\theta<\theta<\bar{\theta}\} \geq 1-\alpha,则称随机区间 (θ,θˉ)(\theta, \bar{\theta}) 是参数 θ\theta 的置信度为 1α1-\alpha 的置信区间, 其中 θ\underline{\theta} 称为置信下限,θˉ\bar{\theta} 称为置信上限,1α1-\alpha 称为置信度或置信水平

假设检验

原假设:关于总体的假设。

备择假设:与原假设相对立的假设。

检验统计量:检验中用到的统计量。

拒绝域:检验统计量把样本空间分成两个区域,使 H0H_0 被拒绝的样本观察值所组成的区域为拒绝域。

显著水平:检验统计量落入拒绝域的概率是给定的小概率 α\alpha