期望

随机变量的期望

期望通常记为 \(\mu\)。

离散型随机变量期望

设 \(X\) 是满足频率函数为 \(p(x)\) 的随机变量，若 \(\sum_i |x_i|p(x_i)<\infty\)，那么 \(X\) 的期望

\[E(x) = \sum_i x_i p(x_i)
\]

连续型随机变量期望

定义类似，设 \(X\) 是满足密度函数为 \(f(x)\) 的随机变量，若 \(\int |x|f(x)dx<\infty\)，那么 \(X\) 的期望

\[E(x) = \int x f(x)dx
\]

积分发散时无定义，同理上述离散型中和式发散时无定义。

柯西密度

柯西分布 \(f(x) = \frac{1}{\pi(x^2+1)}\)，看似 \(E(X)=0\)，但因为 \(\int_{-\infty}^{\infty}\frac{|x|}{\pi(x^2+1)}dx\) 是发散的，因此不存在期望。

马尔可夫不等式

如果随机变量 \(X\) 满足 \(P(X\geq 0) = 1\)，则有 \(P(X\geq t)\leq \frac{E(X)}{t}\)。

证明（离散形式）：

\[\begin{aligned}
E(X) &= \sum_{x<t}xp(x) + \sum_{x\geq t}xp(x)\\
&\geq \sum_{x\geq t}xp(x)\\
&\geq \sum_{x\geq t}tp(x)\\
&=tP(X\geq t)
\end{aligned}
\]

连续形式类似。

随机变量函数的期望

设 \(Y=g(X)\)。

离散形式：\(E(Y) = \sum g(x)p(x)\)

连续形式：\(E(Y) = \int g(x)f(x) dx\)

对离散形式的证明：

约定 \(A_i\) 表示满足 \(g(x) = y_i\) 的 \(x\) 构成的集合。

\[\begin{aligned}
E(Y) &= \sum y p_Y(y)\\
&= \sum_i y_i \sum_{x\in{A_i}}p(x) \\
&= \sum g(x)p(x)
\end{aligned}
\]

推广：

设 \(Z=g(X, Y)\)，如果 \(\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} |g(x, y)|f(x, y)dxdy < \infty\)，那么有 \(E(Z) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y)f(x, y)dxdy\)

随机变量线性组合的期望

若 \(X_i\) 是具有期望 \(E(X_i)\) 的联合分布随机变量，\(Y\) 是 \(X_i\) 的线性函数，\(Y=a+\sum_{i=1}^n b_iX_i\)，则

\[E(Y) = a+\sum_{i=1}^n b_iE(X_i)
\]

上述定理的应用

直接计算二项频率函数的期望 \(E(Y)\) 是复杂的，我们将 \(Y\) 拆成伯努利随机变量 \(X_i\) 的和，\(X_i\) 代表第 \(i\) 个试验成功与否（成功取 \(1\)，反之取 \(0\)）。

那么 \(E(Y) = \sum_{i=1}^n E(X_i) = np\)。

方差和标准差

随机变量的期望可以看作是密度或频率函数的中心。而标准差描述关于中心的发散程度。

方差 & 标准差定义

如果随机变量 \(X\) 具有期望 \(E(X)\)，那么方差为：

\[Var(X) = E\{[X-E(X)]^2\} = E[(X-\mu)^2]
\]

\(X\) 的标准差为方差的平方根。

方差通常记为 \(\sigma ^ 2\)，标准差记为 \(\sigma\)。

方差离散形式：\(Var(X) = \sum_i p(x_i)(x_i-\mu)^2\)

方差连续形式：\(Var(X) = \int f(x)(x-\mu)^2dx\)

定理

若 \(E(X)\) 存在， \(Y=b+aX\)，那么 \(Var(Y) = a^2 Var(X)\)。

证明：

\[\begin{aligned}
Var(Y) &= E[(Y-E(Y))^2] \\
&= E[(b+aX-E(b+aX))^2] \\
&= E[(b+aX-aE(X)-b)^2] \\
&= a^2 E[(X-E(X))^2] \\
&= a^2 Var(X)
\end{aligned}
\]

若 \(E(X)\) 存在，\(Var(X) = E(X^2) – [E(X)]^2\)，即 \(Var(X) = E(X^2) – \mu^2\)。

证明：

\[\begin{aligned}
Var(X) &= E[(X-\mu)^2]=E(X^2 – 2\mu X + \mu ^2) \\
&= E(X^2) – 2\mu E(X) + \mu^2 \\
&= E(X^2)-\mu^2
\end{aligned}
\]

（切比雪夫不等式）令 \(X\) 是均值为 \(\mu\) 方差为 \(\sigma^2\) 的随机变量，则 \(\forall t>0\)，有

\[P(|X-\mu|>t) \leq \frac{\sigma^2}{t^2}
\]

证明：

\(Y = (X-\mu)^2\)，那么 \(E(Y) = \sigma^2\)，只需证明 \(P(Y > t^2) \leq \frac{E(Y)}{t^2}\)，这正是马尔可夫不等式。

协方差 & 相关系数

方差是随机变量变异性的度量，两个随机变量的协方差是它们联合变异性的度量。

协方差定义

如果 \(X,Y\) 是分别具有期望 \(\mu_X,\mu_Y\) 的随机变量，则 \(X,Y\) 的协方差是：

\[Cov(X, Y) = E[(X-\mu_X)(Y-\mu_Y)]
\]

另一种表述形式是

\[Cov(X, Y) = E(XY)-E(X)E(Y)
\]

推导：

\[\begin{aligned}
Cov(X, Y) &= E[(X-\mu_X)(Y-\mu_Y)] \\
&= E(XY – \mu_XY-X\mu_Y + \mu_X\mu_Y) \\
&= E(XY) – \mu_Y E(X) – \mu_XE(Y) + \mu_X\mu_Y \\
& = E(XY)-E(X)E(Y)
\end{aligned}
\]

如果 \(X,Y\) 独立，我们有 \(E(XY) = E(X)E(Y)\)，因此 \(Cov(X,Y)=0\)，但是反过来却不一定成立。

另外，我们有 \(Var(X+Y) = Var(X) + Var(Y) + 2Cov(X, Y)\)。

推导：

\[\begin{aligned}
Var(X+Y) &= E[((X+Y)-E(X+Y))^2] \\
&= E\{[(X-\mu_X) + (Y-\mu_Y)]^2\} \\
&= Var(X) + Var(Y) +2Cov(X, Y)
\end{aligned}
\]

从这个结论中可知，当 \(X,Y\) 独立时，\(Var(X+Y) = Var(X) + Var(Y)\)

协方差性质

均可由期望的性质简单地推出。

\(\forall a,b\)，有 \(Cov(aX, bY) = abCov(X, Y)\)。

\(Cov(X_1+X_2,Y) = Cov(X_1, Y) + Cov(X_2, Y)\)

X,Y 不相关意味着 \(Cov(X,Y) = 0.\)

条件期望

定义

在给定 \(X = x\) 的条件下，\(Y\) 的条件期望是：

\[E(Y|X=x) = \sum_y yp_{Y|X}(y|x)
\]

连续情形：

\[E(Y|X=x) = \int yf_{Y|X}(y|x)dx
\]

\(h(y)\) 相应的条件期望为：

\[E(h(Y)|X=x) = \sum_y h(y)p_{Y|X}(y|x)
\]

假设对于 \(X\) 范围内的任意 \(X=x\) 时 \(Y\) 的期望均存在，那么它（条件期望）是 \(X\) 的函数，因此它是随机变量。只要相应的和式/积分收敛，那么它就具有期望 \(E[E(Y|X)]\) 和方差。

定理

\(E(Y) = E[E(Y|X)]\)

这个定理告诉我们求 \(Y\) 的期望值可以通过先以 \(X\) 为条件，计算出 \(E(Y|X)\)，再将其关于 \(X\) 求平均值（期望）得到。

证明：

我们需要得到 \(E(Y) = \sum_x E(Y|X=x)p(x)\)。

\(E(Y|X=x) = \sum_y yp_Y(y|x)\)，

因此 \(\sum_x E(Y|X=x)p(x) = \sum_y y \sum_x p_{Y|X}(y|x)p_X(x)\)

利用全概率公式 \(p_Y(y) = p_{Y|X}(y|x)p_{X}(x)\)

故有 \(\sum_x E(Y|X=x)p(x) = \sum_y y \sum_x p_{Y|X}(y|x)p_X(x) = \sum_y yp_Y(y) = E(Y)\)

\(Var(Y) = Var(E(Y|X)) + E(Var(Y|X))\)。（证明待补）