第二章随机变量及其分布

1. 随机变量

定义:设随机试验的样本空间为\(S=\{e\}\),若\(X=X(e)\)为定义在样本空间S上的实值单值函数,则称\(X=X(e)\)为随机变量.

一般采用大写英文字母\(X,Y,Z\)来表示随机变量
引入随机变量的目的是用来描述随机现象

随机变量分为离散型随机变量和连续型随机变量

2. 离散型随机变量

定义：取值至多可数的随机变量为离散型的随机变量。

概率分布律为

\(X\)	\(x_1\)	\(x_2\)	\(\cdots\)	\(x_i\)	\(\cdots\)
\(P\)	\(p_1\)	\(p_2\)	\(\cdots\)	\(p_i\)	\(\cdots\)

概率分布律性质:\(p_i\geq 0,\sum_{i=1}^{\infty}p_i=1\)

几个重要的离散型随机变量分布:

2.1. 两点分布

若\(X\)的分布律为:

\(X\)	\(0\)	\(1\)
\(P\)	\(q\)	\(p\)

\((p+q=1,p>0,q>0)\)

则称\(X\)服从参数为\(p\)的0-1分布,或两点分布,记为\(X\)~0-1\((p)\)或\(B(1,p)\)

伯努利实验:只有两个可能结果的试验，称为伯努利试验。
e.g:抛1次硬币,只有两个可能的结果

2.2. 二项分布

n重伯努利实验:在\(n\)次独立重复试验中,每次只有\(A\)和\(\overline A\)两种结果，且概率不变，则这一系列试验为\(n\)重伯努利试验.
e.g:独立重复地抛n次硬币,每次只有两个可能的结果

定义:设\(A\)在\(n\)重贝努利试验中发生\(X\)次，则\(P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\cdots,n\)并称\(X\)服从参数为\(n,p\)的二项分布,

记\(X\sim B(n,p)\)

2.3. 泊松分布

若随机变量\(X\)的概率分布律为\(P(X=k)=\frac{\lambda^{k}e^{-\lambda}}{k!},k=0,1,2,\cdots ,\lambda>0\)

则称\(X\)服从参数为\(\lambda\)为泊松分布,记\(X\sim P(\lambda)\)

当\(n\)足够大(一般\(n>10\)),\(p\)充分小(一般\(p<0.1\)),且\(np\)保持适当大小时,参数为\((n,p)\)的二项分布可以用泊松分布近似描述,其中\(\lambda=np\),即:\(C_n^kp^k(1-p)^{n-k}\sim\frac{e^{-\lambda}\lambda ^k}{k!} \ \ (n \rightarrow \infty,p<\varepsilon,\lambda=np)\)
e.g:某地区一个月内成年人患某种疾病的患病率为1/200，设各人是否患病相互独立。若该地区一社区有1000个成年人，求某月内该社区至少有3人患病的概率。

2.4. 超几何分布

定义:若随机变量\(X\)的概率分布律为\(P(X=k)=\frac{C_a^kC_b^{n-k}}{C_N^n},k=l_1,l_1+1,l_1+2,\cdots,l_2,\)其中,\(l_1=max(0,n-b),l_2=min(a,n).\)则称\(X\)服从超几何分布.

e.g:一袋中有a个白球，b个红球，a+b=N,从中不放回地取n个球，设每次取到各球的概率相等，以X表示取到的白球数，则X服从超几何分布。

2.5. 几何分布

定义:若随机变量\(X\)的概率分布律为\(P(X=k)=p(1-p)^{k-1},k=1,2,3,\cdots,\ \ 0<p<1.\)则称\(X\)服从参数\(p\)的几何分布.

e.g:从生产线上随机抽产品进行检测，设产品的次品率为p，0<p<1，若查到一只次品就得停机检修，设停机时已检测到X只产品，则X服从参数p的几何分布。

2.6. 巴斯卡分布

定义:若随机变量\(X\)的概率分布律为\(P(X=k)=C_{k-1}^{r-1}p^r(1-p)^{k-r},k=r,r+1,r+2,\cdots,\)其中\(r\)为正整数,\(0<p<1.\)

则称\(X\)服从参数为\((r,p)\)的巴斯卡分布

e.g:一盒中有2个红球4个白球,采用放回抽样取球，直到取到3个红球为止，V表示取球次数。

3. 分布函数

定义:随机变量\(X\)，若对任意实数\(x\)，函数\(F(x)=P(X \leq x)\)称为\(X\)的分布函数.

关于\(F(x)\):

\(0 \leq F(x) \le 1;\)
\(F(x)\)单调不减,且\(F(-\infty)=0,F(+\infty)=1\)
\(F(x)\)右连续,即\(F(x+0)=F(x);\)
\(F(x)-F(x-0)=P(X=x).\)

4. 连续型随机变量

定义:对于随机变量\(X\)的分布函数\(F(x)\)若存在非负的函数\(f(x)\)使对于任意实数\(x\)有：

\[F(x)=\int_{-\infty}^xf(t)dt\]

则称\(X\)为连续型随机变量,其中\(f(x)\)称为\(X\)的概率密度函数，简称密度函数.

关于\(f(x)\):

\(f(x) \ge 0,\)
\(\int_{-\infty}^{+\infty}f(x)dx=1,\)
对于任意的实数\(x_1,x_2(x_2>x_1),P\{x_1<X<x_2\}=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(t)dt\)

\(\Rightarrow P(X=a)=0.\)

在\(f(x)\)连续点\(x\),\(F'(x)=f(x)\)

几个重要的连续型随机变量分布:

4.1. 均匀分布

定义:设随机变量\(X\)具有概率密度函数:

\[f(x) = \begin{cases} \frac{1}{b-a}, & x\in(a,b), \\ 0, & 其他. \end{cases}\]

则称\(X\)服从区间\((a,b)\)上的均匀分布,并记为\(X \sim U(a,b)\).

分布函数:

\[F(x) = \begin{cases} 0, & x\le a, \\ \frac{x-a}{b-a}, & a<x<b,\\ 1, & x\ge b. \end{cases}\]

4.2. 正态分布

定义:设\(X\)的概率密度函数为

\[f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma ^2}},-\infty<x<+\infty\]

其中\(-\infty < \mu < \infty ,\sigma > 0\)为常数,称\(X\)服从参数为\(\mu,\sigma\)的正态分布(Gauss分布),记为\(X\sim N(\mu,\sigma^ 2)\).

分布函数:

\[f(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(t-\mu)^2}{2\sigma ^2}}dt\]

当固定μ时，σ越大，曲线的峰越低，落在μ附近的概率越小，取值就越分散，即σ是反映X的取值分散性的一个指标。
特别地,当\(\mu=0,\sigma=1\)时,如果记此时的正态变量为\(Z\),即\(Z\sim N(0,1)\)则它服从标准正态分布.其密度函数为

\[\phi(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{-x^2}{2}},|x|<+\infty\]

对应的分布函数为:

\[\Phi(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt\]

标准正态分布表
当\(X\sim N(\mu,\sigma^2)\)时\(\frac{X-\mu}{\sigma}\sim N(0,1)\)

4.3. 指数分布

定义：设\(X\)的密度函数为

\[f(x) = \begin{cases} \lambda e^{-\lambda x}, & x>0, \\ 0, & x \le 0. \end{cases}\]

其中\(\lambda >0\)为常数,则称\(X\)服从参数为\(\lambda\)的指数分布.记为\(X\sim E(\lambda)\)或\(X\sim Exp(\lambda).\)

\(X\)的分布函数为:

\[F(x) = \begin{cases} 1- e^{-\lambda x}, & x>0, \\ 0, & x \le 0. \end{cases}\]

\(X\)具有无记忆性 (如果X表示等待时间，那么无记忆性说明只要还没等到，那么剩余等待时间仍然服从参数为λ的指数分布.)

5. 随机变量的函数

一般,若已知\(X\)概率分布,\(Y=g(X)\)求\(Y\)的概率分布的过程为:
若\(Y\)为离散型随机变量,则先写出\(Y\)的可能取值\(Y_1, Y_2,\dots,Y_j,\cdots,\)再找出\((Y=y_j)\)的等价事件\((X\in D_j)\)得\(P(Y=y_i)=P(X\in D_j)\);
若\(Y\)为连续型随机变量,则先写出\(Y\)的概率密度函数:\(F_Y(y)=P(Y\le y)\),再找出\((Y\le y)\)的等价事件\((X\in D_y)\)得\(F_Y(y)=P(X\in D_j)\);再求出\(Y\)的概率密度函数\(f_y(Y).\)
如果:
\(X\)为连续型随机变量,且其密度函数为\(f_X(x)\);
随机变量\(Y=g(X)\);
函数\(y=g(x)\)为一严格单调可微函数

则记\(y=g(x)\)的反函数为\(x=h(y)\),得到\(Y\)的密度函数为:

\[f_Y(y) = \begin{cases} f_X(h(y))\cdot |h'(y)|, & y\in D, \\ 0, & y \notin D. \end{cases}\]

其中\(D\)为\(y=g(x)\)的值域.

若\(X\sim N(\mu,\sigma^2)\),则\(Y=aX+b\sim N(a\mu+b,a^2\sigma^2)\).

第二章 随机变量及其分布