[통계] $t$ 분포

2024. 1. 28. 14:02통계

$X_1,...,X_n$이 정규모집단 $N(\mu,\sigma^2)$으로부터의 확률표본일 때. 표본평균 $\overline{X}$에 대해서

$$\overline{X} \sim N(\mu,\frac{\sigma^2}{n}) , \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$$

이 성립하는데 $\mu$에 관한 통계적 추론에서 $\sigma$가 미지인 경우에는 $\sigma$ 대신에 표본표준편차 $S=\sqrt{\sum_{i=1}^{n}(X_i-\overline{X})^2/(n-1)}$을 대입하여 스튜던트화(studentized)된 확률변수

$$\frac{\overline{X}-\mu}{S/\sqrt{n}}$$

의 분포를 필요로 하는 경우가 많다. 위와 같은 확률변수의 분포를 $t$ 분포라고 한다.

 

$t$ 분포의 정의: 표본정규분포 $N(0,1)을 따르는 확률변수를 $Z$라 하고 이와는 독립이며 자유도 $k$인 카이제곱분포를 따르는 확률변수를 $V$ 라고 하면,

$$T=\frac{Z}{\sqrt{V/k}}$$

의 분포를 자유도 $k$인 $t$분포라고 한다. 이 때 기호로서

$$T \sim t(k)$$ 로 나타난다.  해당 분포는 정규모집단에서 표본의 크기가 작을 때 특히 유용하게 쓰이는 분포다.

 

$t$ 분포 그래프

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy.stats import t


x=np.arange(-3,3,0.001)
fig, ax = plt.subplots(figsize=(15,8))
ax.plot(x,norm.pdf(x,loc=0,scale=1),color='red',label='N(0,1)')
ax.plot(x,t(5).pdf(x),color='green',label='t')
ax.legend()
ax.set_xlabel("$x$")
ax.set_ylabel("$f(x)$")
ax.set_title("Standard Normal Distrbution & $t$ Distribution")
ax.grid()

 

자유도가 5인 $t$분포와 표준정규분포의 모양을 비교한 그래프로, $t$분포도 표준정규분포와 마찬가지로 0을 중심으로 좌우대칭형이지만, 표준정규분포에 비하여 두터운 꼬리를 갖는 것이 특징이다.