随机变量数字特征
 期望
 方差
 定义
 离散随机变量的方差
 连续随机变量的方差
 标准差
 定义
 总体标准差
 协方差 Covariance
定义
 性质
 相关系数
 皮尔逊积矩相关系数 Pearson's
总体相关系数
 样本相关系数
 斯皮尔曼等级相关系数 Spearman's
Kendall 等级相关系数
 矩和协方差矩阵

随机变量数字特征 [Top]

期望 [Top]

如果 $\displaystyle X$ 是在概率空间 $\displaystyle (\Omega ,F,P)$ 中的随机变量, 那么它的期望值 $\displaystyle \operatorname {E} (X)$ 的定义是: $\displaystyle \operatorname {E} (X)=\int {\Omega }X\,\mathrm {d} P$ , 并不是每一个随机变量都有期望值的, 因为有的时候上述积分不存在.

如果两个随机变量的分布相同, 则它们的期望值也相同.

如果 $X$ 是离散的随机变量, 输出值为 $x_{1},x_{2},\ldots$ , 和输出值相应的概率为 $p_{1},p_{2},\ldots$ (概率和为1).

若级数 $\sum _{i}p_{i}x_{i}$ 绝对收敛, 那么期望值 $\displaystyle \operatorname {E} (X)$ 是一个无限数列的和: $\displaystyle \operatorname {E} (X)=\sum _{i}p_{i}x_{i}$ .

如果 $X$ 是连续的随机变量, 存在一个相应的概率密度函数 $\displaystyle f(x)$ , 若积分 $\displaystyle \int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x$ 绝对收敛, 那么 $X$ 的期望值可以计算为:

$\displaystyle \operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x$

是针对于连续的随机变量的, 与离散随机变量的期望值的算法同出一辙, 由于输出值是连续的, 所以把求和改成了积分.

方差 [Top]

定义 [Top]

方差 (Variance) , 应用数学里的专有名词. 在概率论和统计学中, 一个随机变量的方差描述的是它的离散程度, 也就是该变量离其期望值的距离. 这里把复杂说白了, 就是各个误差将之平方 (而非取绝对值, 使之肯定为正数) , 相加之后再除以总数, 透过这样的方式来算出各个数据分布、零散 (相对中心点) 的程度. 继续延伸的话, 方差的正平方根称为该随机变量的标准差 (此为相对各个数据点间) .

设 $X$ 为服从分布 $F$ 的随机变量, 如果 $E[X]$ 是随机变量 $X$ 的期望值. 随机变量 $X$ 或者分布 $F$ 的方差为 (均值 $\mu=E[X]$ ):

$\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]$

这个定义涵盖了连续、离散、或两者都有的随机变数. 方差亦可当作是随机变数与自己本身的共变异数(或协方差):

$\displaystyle \operatorname {Var} (X)=\operatorname {Cov} (X,X)$

离散随机变量的方差 [Top]

如果随机变数X是具有机率质量函数的离散机率分布 $x_1 \rightarrow p_1, ..., x_n \rightarrow p_n$ , 则:

$\displaystyle \operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2 = \sum_{i=1}^n (p_i\cdot x_i^2) - \mu^2$

$\mu$ 是其期望值: $\displaystyle \mu =\sum _{i=1}^{n}p_{i}\cdot x_{i}$

连续随机变量的方差 [Top]

如果随机变量 $X$ 是连续分布, 并对应至概率密度函数 $f(x)$ , 则其方差为:

$\operatorname {Var} (X)=\sigma ^{2}=\int (x-\mu )^{2}\,f(x)\,dx\,=\int x^{2}\,f(x)\,dx\,-\mu ^{2}$

$\mu$ 是其期望值: $\mu =\int x\,f(x)\,dx\,$

[1] wikipedia/方差

标准差 [Top]

定义 [Top]

标准差 (又称标准偏差、均方差, 英语: Standard Deviation, 缩写SD) , 数学符号 $\sigma$ (sigma) , 在概率统计中最常使用作为测量一组数值的离散程度之用. 标准差定义: 为方差开算术平方根, 反映组内个体间的离散程度；标准差与期望值之比为标准离差率. 测量到分布程度的结果, 原则上具有两种性质:

为非负数值 (因为开平方后再做平方根) ；
与测量资料具有相同单位 (这样才能比对) .

一个总体的标准差或一个随机变量的标准差, 及一个子集合样本数的标准差之间, 有所差别.

总体标准差 [Top]

$\displaystyle SD= \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}$

上述公式可以如下代换而简化:

${\displaystyle {\begin{aligned}\sum _{i=1}^{N}(X_{i}-\mu )^{2}&={}\sum _{i=1}^{N}(X_{i}^{2}-2X_{i}\mu +\mu ^{2})\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-\left(2\mu \sum _{i=1}^{N}X_{i}\right)+N\mu ^{2}\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-2\mu (N\mu )+N\mu ^{2}\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-2N\mu ^{2}+N\mu ^{2}\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-N\mu ^{2}\end{aligned}}}$

所以:

$\begin{array}{c} \sigma = {\sqrt {{\frac {1}{N}}\sum _{i = 1}^{N}(X_{i}-\mu )^{2}}} = \sqrt{\frac{1}{N} \left(\sum_{i = 1}^N X_i^2\right) - \frac{1}{N}N\mu^2} = {\sqrt {{\frac {1}{N}}\left(\sum _{i = 1}^{N}X_{i}^{2}\right)-{\frac {1}{N}}N\mu ^{2}}} \end{array}$

根号里面, 亦即变异数 $\sigma^2$ 的简易口诀为: 平方和的平均减去平均的平方.

[1] https://zh.wikipedia.org/wiki/標準差

协方差 Covariance [Top]

定义 [Top]

协方差表示的是两个变量的总体的误差, 这与只表示一个变量误差的方差不同. 如果两个变量的变化趋势一致, 也就是说如果其中一个大于自身的期望值, 另外一个也大于自身的期望值, 那么两个变量之间的协方差就是正值. 如果两个变量的变化趋势相反, 即其中一个大于自身的期望值, 另外一个却小于自身的期望值, 那么两个变量之间的协方差就是负值.