第二章 随机变量及其分布
1. 随机变量
定义:设随机试验的样本空间为\(S=\{e\}\),若\(X=X(e)\)为定义在样本空间S上的实值单值函数,则称\(X=X(e)\)为随机变量.
- 一般采用大写英文字母\(X,Y,Z\)来表示随机变量
- 引入随机变量的目的是用来描述随机现象
随机变量分为离散型随机变量和连续型随机变量
2. 离散型随机变量
定义:取值至多可数的随机变量为离散型的随机变量。
概率分布律为
\(X\) | \(x_1\) | \(x_2\) | \(\cdots\) | \(x_i\) | \(\cdots\) |
---|---|---|---|---|---|
\(P\) | \(p_1\) | \(p_2\) | \(\cdots\) | \(p_i\) | \(\cdots\) |
- 概率分布律性质:\(p_i\geq 0,\sum_{i=1}^{\infty}p_i=1\)
几个重要的离散型随机变量分布:
2.1. 两点分布
若\(X\)的分布律为:
\(X\) | \(0\) | \(1\) |
---|---|---|
\(P\) | \(q\) | \(p\) |
\((p+q=1,p>0,q>0)\)
则称\(X\)服从参数为\(p\)的0-1分布,或两点分布,记为\(X\)~0-1\((p)\)或\(B(1,p)\)
- 伯努利实验:只有两个可能结果的试验,称为伯努利试验。
- e.g:抛1次硬币,只有两个可能的结果
2.2. 二项分布
- n重伯努利实验:在\(n\)次独立重复试验中,每次只有\(A\)和\(\overline A\)两种结果,且概率不变,则这一系列试验为\(n\)重伯努利试验.
- e.g:独立重复地抛n次硬币,每次只有两个可能的结果
定义:设\(A\)在\(n\)重贝努利试验中发生\(X\)次,则\(P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\cdots,n\)并称\(X\)服从参数为\(n,p\)的二项分布,
记\(X\sim B(n,p)\)
2.3. 泊松分布
若随机变量\(X\)的概率分布律为\(P(X=k)=\frac{\lambda^{k}e^{-\lambda}}{k!},k=0,1,2,\cdots ,\lambda>0\)
则称\(X\)服从参数为\(\lambda\)为泊松分布,记\(X\sim P(\lambda)\)
- 当\(n\)足够大(一般\(n>10\)),\(p\)充分小(一般\(p<0.1\)),且\(np\)保持适当大小时,参数为\((n,p)\)的二项分布可以用泊松分布近似描述,其中\(\lambda=np\),即:\(C_n^kp^k(1-p)^{n-k}\sim\frac{e^{-\lambda}\lambda ^k}{k!} \ \ (n \rightarrow \infty,p<\varepsilon,\lambda=np)\)
- e.g:某地区一个月内成年人患某种疾病的患病率为1/200,设各人是否患病相互独立。若该地区一社区有1000个成年人,求某月内该社区至少有3人患病的概率。
2.4. 超几何分布
定义:若随机变量\(X\)的概率分布律为\(P(X=k)=\frac{C_a^kC_b^{n-k}}{C_N^n},k=l_1,l_1+1,l_1+2,\cdots,l_2,\)其中,\(l_1=max(0,n-b),l_2=min(a,n).\)则称\(X\)服从超几何分布.
e.g:一袋中有a个白球,b个红球,a+b=N,从中不放回地取n个球,设每次取到各球的概率相等,以X表示取到的白球数,则X服从超几何分布。
2.5. 几何分布
定义:若随机变量\(X\)的概率分布律为\(P(X=k)=p(1-p)^{k-1},k=1,2,3,\cdots,\ \ 0<p<1.\)则称\(X\)服从参数\(p\)的几何分布.
e.g:从生产线上随机抽产品进行检测,设产品的次品率为p,0<p<1,若查到一只次品就得停机检修,设停机时已检测到X只产品,则X服从参数p的几何分布。
2.6. 巴斯卡分布
定义:若随机变量\(X\)的概率分布律为\(P(X=k)=C_{k-1}^{r-1}p^r(1-p)^{k-r},k=r,r+1,r+2,\cdots,\)其中\(r\)为正整数,\(0<p<1.\)
则称\(X\)服从参数为\((r,p)\)的巴斯卡分布
e.g:一盒中有2个红球4个白球,采用放回抽样取球,直到取到3个红球为止,V表示取球次数。
3. 分布函数
定义:随机变量\(X\),若对任意实数\(x\),函数\(F(x)=P(X \leq x)\)称为\(X\)的分布函数.
关于\(F(x)\):
- \(0 \leq F(x) \le 1;\)
- \(F(x)\)单调不减,且\(F(-\infty)=0,F(+\infty)=1\)
- \(F(x)\)右连续,即\(F(x+0)=F(x);\)
- \(F(x)-F(x-0)=P(X=x).\)
4. 连续型随机变量
定义:对于随机变量\(X\)的分布函数\(F(x)\)若存在非负的函数\(f(x)\)使对于任意实数\(x\)有:
则称\(X\)为连续型随机变量,其中\(f(x)\)称为\(X\)的概率密度函数,简称密度函数.
关于\(f(x)\):
-
\(f(x) \ge 0,\)
-
\(\int_{-\infty}^{+\infty}f(x)dx=1,\)
-
对于任意的实数\(x_1,x_2(x_2>x_1),P\{x_1<X<x_2\}=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(t)dt\)
\(\Rightarrow P(X=a)=0.\)
- 在\(f(x)\)连续点\(x\),\(F'(x)=f(x)\)
几个重要的连续型随机变量分布:
4.1. 均匀分布
定义:设随机变量\(X\)具有概率密度函数:
则称\(X\)服从区间\((a,b)\)上的均匀分布,并记为\(X \sim U(a,b)\).
分布函数:
4.2. 正态分布
定义:设\(X\)的概率密度函数为
其中\(-\infty < \mu < \infty ,\sigma > 0\)为常数,称\(X\)服从参数为\(\mu,\sigma\)的正态分布(Gauss分布),记为\(X\sim N(\mu,\sigma^ 2)\).
分布函数:
-
当固定μ时,σ越大,曲线的峰越低,落在μ附近的概率越小,取值就越分散,即σ是反映X的取值分散性的一个指标。
-
特别地,当\(\mu=0,\sigma=1\)时,如果记此时的正态变量为\(Z\),即\(Z\sim N(0,1)\)则它服从标准正态分布.其密度函数为
- 对应的分布函数为:
-
当\(X\sim N(\mu,\sigma^2)\)时\(\frac{X-\mu}{\sigma}\sim N(0,1)\)
4.3. 指数分布
定义:设\(X\)的密度函数为
其中\(\lambda >0\)为常数,则称\(X\)服从参数为\(\lambda\)的指数分布.记为\(X\sim E(\lambda)\)或\(X\sim Exp(\lambda).\)
\(X\)的分布函数为:
- \(X\)具有无记忆性 (如果X表示等待时间,那么无记忆性说明只要还没等到,那么剩余等待时间仍然服从参数为λ的指数分布.)
5. 随机变量的函数
- 一般,若已知\(X\)概率分布,\(Y=g(X)\)求\(Y\)的概率分布的过程为:
- 若\(Y\)为离散型随机变量,则先写出\(Y\)的可能取值\(Y_1, Y_2,\dots,Y_j,\cdots,\)再找出\((Y=y_j)\)的等价事件\((X\in D_j)\)得\(P(Y=y_i)=P(X\in D_j)\);
-
若\(Y\)为连续型随机变量,则先写出\(Y\)的概率密度函数:\(F_Y(y)=P(Y\le y)\),再找出\((Y\le y)\)的等价事件\((X\in D_y)\)得\(F_Y(y)=P(X\in D_j)\);再求出\(Y\)的概率密度函数\(f_y(Y).\)
-
如果:
-
\(X\)为连续型随机变量,且其密度函数为\(f_X(x)\);
- 随机变量\(Y=g(X)\);
- 函数\(y=g(x)\)为一严格单调可微函数
则记\(y=g(x)\)的反函数为\(x=h(y)\),得到\(Y\)的密度函数为:
其中\(D\)为\(y=g(x)\)的值域.
- 若\(X\sim N(\mu,\sigma^2)\),则\(Y=aX+b\sim N(a\mu+b,a^2\sigma^2)\).