多元正态的条件分布与 Hotelling's T square 统计量

本文最后更新于 2022年3月29日 晚上

这篇文章来源于一次作业,本文介绍了多元正态的条件分布,介绍了 Hotelling’s T2T^2 检验与 似然比检验 (Likelihood ratio test) 的 等价性。

多元正态的条件分布

X=(X1,X2)N(μ,Σ)X=(X_1,X_2)'\sim N(\mu,\Sigma), 其中

Σ=(Σ11Σ12Σ21Σ22), \Sigma=\begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix},

Σij=Cov(Xi,Xj)\Sigma_{ij}=\operatorname{Cov}(X_i,X_j) for i,j=1,2i,j=1,2.

则有

X2X1N(μ2+Σ21Σ111(X1μ1),Σ221),X_2|X_1\sim N(\mu_2+\Sigma_{21}\Sigma_{11}^{-1}(X_1-\mu_1), \Sigma_{22\cdot1}),

其中 μ1=E(X1)\mu_1=E(X_1)Σ221=Σ22Σ21Σ111Σ12\Sigma_{22\cdot1}=\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}


证明

下面证明这个结论,证明过程参考了知乎的 回归分析|笔记整理(4)——多元正态分布理论(中). 主要思路是对方差进行变形(对角化)

首先,我们有

Σ=(Σ11Σ12Σ21Σ22)r2Σ21Σ111r1(Σ11Σ12OΣ22Σ21Σ111Σ12)c2c1Σ111Σ12(Σ11OOΣ221)Λ\Sigma=\begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} \xrightarrow{r_2-\Sigma_{21}\Sigma_{11}^{-1} r_1} \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ O & \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \end{pmatrix} \xrightarrow{c_2-c_1\Sigma_{11}^{-1}\Sigma_{12}} \begin{pmatrix} \Sigma_{11} & O \\ O & \Sigma_{22\cdot1} \end{pmatrix}\equiv\Lambda

由于初等行变换相当于左乘一个初等矩阵,初等列变换相当于右乘一个初等矩阵,因此有

Λ=(Σ11OOΣ221)=(IOΣ21Σ111I)Σ(IΣ111Σ12OI)AΣA\Lambda =\begin{pmatrix} \Sigma_{11} & O \\ O & \Sigma_{22\cdot1} \end{pmatrix}= \begin{pmatrix} I & O \\ -\Sigma_{21}\Sigma_{11}^{-1} & I \end{pmatrix} \Sigma \begin{pmatrix} I & -\Sigma_{11}^{-1}\Sigma_{12} \\ O & I \end{pmatrix} \equiv A\Sigma A'

因此, Σ1=AΛ1A\Sigma^{-1}=A'\Lambda^{-1}A.

对于 XX 的 pdf, 有

f(X)=(2π)n2Σ12e12(Xμ)Σ1(Xμ),f(X)=(2\pi)^{-\frac{n}{2}}|\Sigma|^{-\frac{1}{2}}e^{-\frac{1}{2}(X-\mu)'\Sigma^{-1}(X-\mu)},

但是,我们只关心指数部分

(Xμ)Σ1(Xμ)=(X1μ1X2μ2)AΛ1A(X1μ1X2μ2)=(X1μ1(Σ21Σ111(X1μ1)+X2μ2))Λ(X1μ1Σ21Σ111(X1μ1)+X2μ2)=(X1μ1)Σ111(X1μ1)+(Σ21Σ111(X1μ1)+X2μ2)Σ2211(Σ21Σ111(X1μ1)+X2μ2)\begin{aligned} &(X-\mu)'\Sigma^{-1}(X-\mu) \\ =& \begin{pmatrix} X_1'-\mu_1' & X_2'-\mu_2' \end{pmatrix}A'\Lambda^{-1}A \begin{pmatrix} X_1-\mu_1 \\ X_2-\mu_2 \end{pmatrix} \\ =&\begin{pmatrix} X_1'-\mu_1' & -(\Sigma_{21}\Sigma_{11}^{-1}(X_1-\mu_1)+X_2-\mu_2)' \end{pmatrix} \Lambda \begin{pmatrix} X_1-\mu_1 \\ -\Sigma_{21}\Sigma_{11}^{-1}(X_1-\mu_1)+X_2-\mu_2 \end{pmatrix} \\ =&(X_1-\mu_1)'\Sigma^{-1}_{11}(X_1-\mu_1) \\ &+(-\Sigma_{21}\Sigma_{11}^{-1}(X_1-\mu_1)+X_2-\mu_2)'\Sigma_{22\cdot 1}^{-1}(-\Sigma_{21}\Sigma_{11}^{-1}(X_1-\mu_1)+X_2-\mu_2) \end{aligned}

因此,从方差跟均值可以看出结论了

X2X1N(μ2+Σ21Σ111(X1μ1),Σ221)X_2|X_1\sim N(\mu_2+\Sigma_{21}\Sigma_{11}^{-1}(X_1-\mu_1), \Sigma_{22\cdot1})

Hotelling T2T^2

本节参考维基百科 Hotelling’s T-squared distribution, 与 Wishart distribution.

Wishart 分布

首先介绍 Wishart 分布。 Wishart 分布是 χ2\chi^2 分布在多元正态情况下的推广。其定义为

GG 为一个 p×np\times n 的矩阵, 其每一列 GiG_i为来自于多元正态 Np(0,V)N_p(0,V) 的相互独立的随机向量。则定义

W=GG=i=1nGiGiWp(V,n)W=GG'=\sum_{i=1}^n G_iG_i' \sim W_p(V,n)

其中 Wp(V,n)W_p(V,n) 就是 Wishart 分布,其中 nn 叫做自由度,V 是缩放矩阵。当 p=1p=1, V=1V=1 的时候就是一元的 χ2\chi^2 分布。

Hotelling’s T2T^2

Hotelling’s T2T^2, 顾名思义,就是 tt 分布在多元正态情况下的推广。其定义为

dNp(0,I)d\sim N_p(0,I), MM 是一个 p×pp\times p 的矩阵,与 dd 独立,且 MWp(I,m)M \sim W_p(I,m),则如下的二次型

X=mdM1dT2(p,m)X=md'M^{-1}d \sim T^2(p,m)

服从参数为 ppmm 的 Hotelling T2T^2 分布。

注意到 X=d(M/m)1dX=d'(M/m)^{-1}d, 可以看出 Hotelling’s T2T^2 分布是 tt 分布 t=Z/(χ2/n)t=Z/(\chi^2/n)在多元条件下的推广(t2t^2).

tt 分布与 FF 分布有关系 t2(n)=F(1,n)t^2(n)=F(1,n), Hotelling’s T2T^2 也与 FF 分布有关系

T2T2(p,n1)=p(n1)npF(p,np)T^2 \sim T^2(p,n-1) =\frac{p(n-1)}{n-p}F(p,n-p)

Hotelling’s t2t^2 统计量

xix_i, i=1,2,,ni=1,2,\cdots,n 为独立同分布来自于多元正态 Np(μ,Σ)N_p(\mu,\Sigma) 的随机向量,样本均值为

xˉ=1ni=1nxi\bar x=\frac{1}{n}\sum_{i=1}^nx_i

样本方差为:

S=1n1i=1n(xixˉ)(xixˉ)S=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar x)(x_i-\bar x)’

则有 xˉ\bar xSS 独立,且

t2=(xˉμ)S1(xˉμ)T2(p,n1)t^2=(\bar x-\mu)'S^{-1}(\bar x-\mu) \sim T^2(p,n-1)

Hotelling’s T2T^2 检验与 似然比检验的等价性。

本部分参考 https://www.stat.ncsu.edu/people/bloomfield/courses/st784/twa-05-1.pdf

注意到上述的 t2t^2 统计量可以用于检验总体均值是否为 μ\mu.

假设 xix_i, i=1,,ni=1,\cdots,n 为独立同分布来自于 Np(μ,Σ)N_p(\mu, \Sigma) 的随机样本,我们要检验

H0:μ=μ0vs.H1:μμ0H_0: \mu=\mu_0\qquad \text{vs.} \qquad H_1:\mu\neq \mu_0

我们可以使用似然比检验或者 T2T^2 检验,这两者是等价的。

T2T^2 检验

统计量为

t2=(xˉμ0)S1(xˉμ0)T2(p,n1)t^2=(\bar x-\mu_0)'S^{-1}(\bar x-\mu_0) \sim T^2(p,n-1)

似然比检验 (Likelihood ratio test)

似然函数为

L(μ,Σ)=i=1nf(xi)=(2πΣ)n2exp{12i=1n(xiμ)Σ1(xμ)}L(\mu,\Sigma)=\prod_{i=1}^nf(x_i)=(2\pi|\Sigma|)^{-\frac{n}{2}}\exp\{-\frac{1}{2}\sum_{i=1}^n (x_i-\mu)'\Sigma^{-1}(x-\mu)\}

Λ=maxΣL(μ0,Σ)maxμ,ΣL(μ,Σ)\Lambda=\frac{\max_{\Sigma}L(\mu_0,\Sigma)}{\max_{\mu,\Sigma}L(\mu,\Sigma)}

H0H_0 成立的条件下, 对于 L(μ0,Σ)L(\mu_0,\Sigma), 有

Σ^ω=1ni=1n(xiμ0)(xiμ0)\hat \Sigma_{\omega}=\frac{1}{n}\sum_{i=1}^n(x_i-\mu_0)(x_i-\mu_0)'

从而 L(μ0,Σ^ω)L(\mu_0,\hat \Sigma_{\omega}) 的指数部分为(忽略常系数)

D=i=1n(xiμ0)Σ^ω1(xiμ0)=tr(D)=tr(i=1nΣ^ω1(xiμ0)(xiμ0))=tr(Σ^ω1i=1n(xiμ0)(xiμ0))=tr(n[i=1n(xiμ0)(xiμ0)]1[i=1n(xiμ0)(xiμ0)])=tr(nIp)=np\begin{aligned} D=&\sum_{i=1}^n(x_i-\mu_0)'\hat\Sigma^{-1}_{\omega}(x_i-\mu_0)\\ =&\operatorname{tr}(D)\\ =&\operatorname{tr}\left(\sum_{i=1}^n\hat\Sigma_{\omega}^{-1}(x_i-\mu_0)(x_i-\mu_0)'\right)\\ =&\operatorname{tr}\left(\hat\Sigma_{\omega}^{-1}\sum_{i=1}^n(x_i-\mu_0)(x_i-\mu_0)'\right)\\ =&\operatorname{tr}\left(n\left[\sum_{i=1}^n(x_i-\mu_0)(x_i-\mu_0)'\right]^{-1}\left[\sum_{i=1}^n(x_i-\mu_0)(x_i-\mu_0)'\right]\right)\\ =&\operatorname{tr}\left(nI_{p}\right)\\ =&np \end{aligned}

第二个等号是因为注意到 DD 是一个数,所以 D=tr(D)D=\operatorname{tr}(D),第三个等号是因为注意到 tr(AB)=tr(BA)\operatorname{tr(AB)}=\operatorname{tr(BA)}, 对于任意的 A,BA,B 矩阵成立(只要可以相乘),再令

A=(xiμ0)A=(x_i-\mu_0)', B=Σ^ω1(xiμ0)B=\hat\Sigma^{-1}_{\omega}(x_i-\mu_0).

因此

L(μ0,Σ^ω)=(2πΣ^ω)n2exp(pn2)L(\mu_0,\hat \Sigma_{\omega})=(2\pi|\hat\Sigma_{\omega}|)^{-\frac{n}{2}} \exp(-\frac{pn}{2})

同理, L(μ,Σ)L(\mu,\Sigma)的参数估计为 μ^=xˉ\hat \mu=\bar x,

Σ^=1ni=1n(xixˉ)(xixˉ)\hat \Sigma=\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(x_i-\bar x)'

并且

L(xˉ,Σ^)=(2πΣ^)n2exp(pn2)L(\bar x,\hat \Sigma)=(2\pi|\hat\Sigma|)^{-\frac{n}{2}} \exp(-\frac{pn}{2})

因而有

Λ=L(μ0,Σ^ω)L(xˉ,Σ^)=Σ^ωn2Σ^n2=Σ^n2Σ^ωn2\Lambda=\frac{L(\mu_0,\hat\Sigma_{\omega})}{L(\bar x,\hat \Sigma)} =\frac{|\hat \Sigma_{\omega}|^{-\frac{n}{2}}}{|\hat \Sigma|^{-\frac{n}{2}}}=\frac{|\hat \Sigma|^{\frac{n}{2}}}{|\hat \Sigma_{\omega}|^{\frac{n}{2}}}

从而,有(注意到我们丢掉了系数 1n\frac1n

Λ2n=Σ^Σ^ω=i=1n(xixˉ)(xixˉ)i=1n(xiμ0)(xiμ0)\Lambda^{\frac{2}{n}}=\frac{|\hat \Sigma|}{|\hat\Sigma_{\omega}|}=\frac{|\sum_{i=1}^n(x_i-\bar x)(x_i-\bar x)'|}{|\sum_{i=1}^n(x_i-\mu_0)(x_i-\mu_0)'|}

注意到

i=1n(xiμ0)(xiμ0)=i=1n(xixˉ+xˉμ0)(xixˉ+xˉμ0)=i=1n(xixˉ)(xixˉ)+n(xˉμ0)(xˉμ0)=(n1)S+n(xˉμ0)(xˉμ0)=(n1)S[Ip+[(n1)S]1n(xˉμ0)(xˉμ0)]\begin{aligned} &\sum_{i=1}^n(x_i-\mu_0)(x_i-\mu_0)'\\ =&\sum_{i=1}^n(x_i-\bar x+\bar x-\mu_0)(x_i-\bar x+\bar x-\mu_0)'\\ =& \sum_{i=1}^n(x_i-\bar x)(x_i-\bar x)'+n(\bar x-\mu_0)(\bar x-\mu_0)'\\ =&(n-1)S+n(\bar x-\mu_0)(\bar x-\mu_0)'\\ =&(n-1)S\left[I_p+[(n-1)S]^{-1}n(\bar x-\mu_0)(\bar x-\mu_0)'\right] \end{aligned}

根据 Weinstein–Aronszajn identity,

det(Im+AB)=det(In+BA)\begin{equation} \operatorname{det}\left(I_{m}+A B\right)=\operatorname{det}\left(I_{n}+B A\right) \end{equation}

这个等式的证明过程跟我们证明多元正态的条件分布时候对角化方差的过程基本一致。构造辅助矩阵

M=(ImABIn)\begin{equation} M=\left(\begin{array}{cc} I_{m} & -A \\ B & I_{n} \end{array}\right) \end{equation}

然后通过两种方式算 MM 的行列式,一种是把 BB 所在位置化成0, 另一种是把 AA 所在位置化成0。

下面回到我们的证明,令 A=[(n1)S]1n(xˉμ0)A=[(n-1)S]^{-1}n(\bar x-\mu_0), B=(xˉμ0)B=(\bar x-\mu_0)', 有

Ip+[(n1)S]1n(xˉμ0)(xˉμ0)=1+(xˉμ0)[(n1)S]1n(xˉμ0)=1+T2(n1)|I_p+[(n-1)S]^{-1}n(\bar x-\mu_0)(\bar x-\mu_0)'|=|1+(\bar x-\mu_0)'[(n-1)S]^{-1}n(\bar x-\mu_0)|=1+\frac{T^2}{(n-1)}

我们有

Λ2n=i=1n(xixˉ)(xixˉ)i=1n(xiμ0)(xiμ0)=(n1)S(n1)SIp+[(n1)S]1n(xˉμ0)(xˉμ0)=1Ip+[(n1)S]1n(xˉμ0)(xˉμ0)=11+T2(n1)\begin{aligned} \Lambda^{\frac{2}{n}} =&\frac{|\sum_{i=1}^n(x_i-\bar x)(x_i-\bar x)'|}{|\sum_{i=1}^n(x_i-\mu_0)(x_i-\mu_0)'|}\\ =&\frac{|(n-1)S|}{|(n-1)S||I_p+[(n-1)S]^{-1}n(\bar x-\mu_0)(\bar x-\mu_0)'|}\\ =&\frac{1}{|I_p+[(n-1)S]^{-1}n(\bar x-\mu_0)(\bar x-\mu_0)'|}\\ =&\frac{1}{1+\frac{T^2}{(n-1)}} \end{aligned}

到这里,我们的结论就证明完了,这两种检验确实互相等价。整理一下,有

Λ2n=1+T2n1\Lambda^{-\frac{2}{n}}=1+\frac{T^2}{n-1}


多元正态的条件分布与 Hotelling's T square 统计量
https://blog.askk.cc/2021/10/28/multivariate normal and hotelling's T square/
作者
sukanka
发布于
2021年10月28日
许可协议