Skip to content

第二章 随机变量及其分布


1. 随机变量

定义:设随机试验的样本空间为\(S=\{e\}\),若\(X=X(e)\)为定义在样本空间S上的实值单值函数,则称\(X=X(e)\)随机变量.

  • 一般采用大写英文字母\(X,Y,Z\)来表示随机变量
  • 引入随机变量的目的是用来描述随机现象

随机变量分为离散型随机变量和连续型随机变量

2. 离散型随机变量

定义:取值至多可数的随机变量为离散型的随机变量

概率分布律为

\(X\) \(x_1\) \(x_2\) \(\cdots\) \(x_i\) \(\cdots\)
\(P\) \(p_1\) \(p_2\) \(\cdots\) \(p_i\) \(\cdots\)
  • 概率分布律性质:\(p_i\geq 0,\sum_{i=1}^{\infty}p_i=1\)

几个重要的离散型随机变量分布:

2.1. 两点分布

\(X\)的分布律为:

\(X\) \(0\) \(1\)
\(P\) \(q\) \(p\)

\((p+q=1,p>0,q>0)\)

则称\(X\)服从参数为\(p\)0-1分布,或两点分布,记为\(X\)~0-1\((p)\)\(B(1,p)\)

  • 伯努利实验:只有两个可能结果的试验,称为伯努利试验。
  • e.g:抛1次硬币,只有两个可能的结果

2.2. 二项分布

  • n重伯努利实验:在\(n\)独立重复试验中,每次只有\(A\)\(\overline A\)两种结果,且概率不变,则这一系列试验为\(n\)重伯努利试验.
  • e.g:独立重复地抛n次硬币,每次只有两个可能的结果

定义:设\(A\)\(n\)重贝努利试验中发生\(X\)次,则\(P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\cdots,n\)并称\(X\)服从参数为\(n,p\)二项分布,

\(X\sim B(n,p)\)

2.3. 泊松分布

若随机变量\(X\)的概率分布律为\(P(X=k)=\frac{\lambda^{k}e^{-\lambda}}{k!},k=0,1,2,\cdots ,\lambda>0\)

则称\(X\)服从参数为\(\lambda\)泊松分布,记\(X\sim P(\lambda)\)

  • \(n\)足够大(一般\(n>10\)),\(p\)充分小(一般\(p<0.1\)),且\(np\)保持适当大小时,参数为\((n,p)\)二项分布可以用泊松分布近似描述,其中\(\lambda=np\),即:\(C_n^kp^k(1-p)^{n-k}\sim\frac{e^{-\lambda}\lambda ^k}{k!} \ \ (n \rightarrow \infty,p<\varepsilon,\lambda=np)\)
  • e.g:某地区一个月内成年人患某种疾病的患病率为1/200,设各人是否患病相互独立。若该地区一社区有1000个成年人,求某月内该社区至少有3人患病的概率。

2.4. 超几何分布

定义:若随机变量\(X\)的概率分布律为\(P(X=k)=\frac{C_a^kC_b^{n-k}}{C_N^n},k=l_1,l_1+1,l_1+2,\cdots,l_2,\)其中,\(l_1=max(0,n-b),l_2=min(a,n).\)则称\(X\)服从超几何分布.

e.g:一袋中有a个白球,b个红球,a+b=N,从中不放回地取n个球,设每次取到各球的概率相等,以X表示取到的白球数,则X服从超几何分布。

2.5. 几何分布

定义:若随机变量\(X\)的概率分布律为\(P(X=k)=p(1-p)^{k-1},k=1,2,3,\cdots,\ \ 0<p<1.\)则称\(X\)服从参数\(p\)几何分布.

e.g:从生产线上随机抽产品进行检测,设产品的次品率为p,0<p<1,若查到一只次品就得停机检修,设停机时已检测到X只产品,则X服从参数p的几何分布。

2.6. 巴斯卡分布

定义:若随机变量\(X\)的概率分布律为\(P(X=k)=C_{k-1}^{r-1}p^r(1-p)^{k-r},k=r,r+1,r+2,\cdots,\)其中\(r\)为正整数,\(0<p<1.\)

则称\(X\)服从参数为\((r,p)\)巴斯卡分布

e.g:一盒中有2个红球4个白球,采用放回抽样取球,直到取到3个红球为止,V表示取球次数。

3. 分布函数

定义:随机变量\(X\),若对任意实数\(x\),函数\(F(x)=P(X \leq x)\)称为\(X\)分布函数.

关于\(F(x)\):

  • \(0 \leq F(x) \le 1;\)
  • \(F(x)\)单调不减,且\(F(-\infty)=0,F(+\infty)=1\)
  • \(F(x)\)右连续,即\(F(x+0)=F(x);\)
  • \(F(x)-F(x-0)=P(X=x).\)

4. 连续型随机变量

定义:对于随机变量\(X\)的分布函数\(F(x)\)若存在非负的函数\(f(x)\)使对于任意实数\(x\)有:

\[F(x)=\int_{-\infty}^xf(t)dt\]

则称\(X\)连续型随机变量,其中\(f(x)\)称为\(X\)概率密度函数,简称密度函数.

关于\(f(x)\):

  • \(f(x) \ge 0,\)

  • \(\int_{-\infty}^{+\infty}f(x)dx=1,\)

  • 对于任意的实数\(x_1,x_2(x_2>x_1),P\{x_1<X<x_2\}=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(t)dt\)

\(\Rightarrow P(X=a)=0.\)

  • \(f(x)\)连续点\(x\),\(F'(x)=f(x)\)

几个重要的连续型随机变量分布:

4.1. 均匀分布

定义:设随机变量\(X\)具有概率密度函数:

\[f(x) = \begin{cases} \frac{1}{b-a}, & x\in(a,b), \\ 0, & 其他. \end{cases}\]

则称\(X\)服从区间\((a,b)\)上的均匀分布,并记为\(X \sim U(a,b)\).

分布函数:

\[F(x) = \begin{cases} 0, & x\le a, \\ \frac{x-a}{b-a}, & a<x<b,\\ 1, & x\ge b. \end{cases}\]

image-20230204163738516

image-20230204163752283

4.2. 正态分布

定义:设\(X\)的概率密度函数为

\[f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma ^2}},-\infty<x<+\infty\]

其中\(-\infty < \mu < \infty ,\sigma > 0\)为常数,称\(X\)服从参数为\(\mu,\sigma\)正态分布(Gauss分布),记为\(X\sim N(\mu,\sigma^ 2)\).

分布函数:

\[f(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(t-\mu)^2}{2\sigma ^2}}dt\]
  • 当固定μ时,σ越大,曲线的峰越低,落在μ附近的概率越小,取值就越分散,即σ是反映X的取值分散性的一个指标。

  • 特别地,当\(\mu=0,\sigma=1\)时,如果记此时的正态变量为\(Z\),即\(Z\sim N(0,1)\)则它服从标准正态分布.其密度函数为

\[\phi(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{-x^2}{2}},|x|<+\infty\]
  • 对应的分布函数为:
\[\Phi(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt\]

4.3. 指数分布

定义:设\(X\)的密度函数为

\[f(x) = \begin{cases} \lambda e^{-\lambda x}, & x>0, \\ 0, & x \le 0. \end{cases}\]

其中\(\lambda >0\)为常数,则称\(X\)服从参数为\(\lambda\)指数分布.记为\(X\sim E(\lambda)\)\(X\sim Exp(\lambda).\)

\(X\)的分布函数为:

\[F(x) = \begin{cases} 1- e^{-\lambda x}, & x>0, \\ 0, & x \le 0. \end{cases}\]
  • \(X\)具有无记忆性 (如果X表示等待时间,那么无记忆性说明只要还没等到,那么剩余等待时间仍然服从参数为λ的指数分布.)

5. 随机变量的函数

  • 一般,若已知\(X\)概率分布,\(Y=g(X)\)\(Y\)的概率分布的过程为:
  • \(Y\)为离散型随机变量,则先写出\(Y\)的可能取值\(Y_1, Y_2,\dots,Y_j,\cdots,\)再找出\((Y=y_j)\)的等价事件\((X\in D_j)\)\(P(Y=y_i)=P(X\in D_j)\);
  • \(Y\)为连续型随机变量,则先写出\(Y\)的概率密度函数:\(F_Y(y)=P(Y\le y)\),再找出\((Y\le y)\)的等价事件\((X\in D_y)\)\(F_Y(y)=P(X\in D_j)\);再求出\(Y\)的概率密度函数\(f_y(Y).\)

  • 如果:

  • \(X\)为连续型随机变量,且其密度函数\(f_X(x)\);

  • 随机变量\(Y=g(X)\);
  • 函数\(y=g(x)\)为一严格单调可微函数

则记\(y=g(x)\)的反函数为\(x=h(y)\),得到\(Y\)的密度函数为:

\[f_Y(y) = \begin{cases} f_X(h(y))\cdot |h'(y)|, & y\in D, \\ 0, & y \notin D. \end{cases}\]

其中\(D\)\(y=g(x)\)的值域.


  • \(X\sim N(\mu,\sigma^2)\),则\(Y=aX+b\sim N(a\mu+b,a^2\sigma^2)\).