[통계] 처음부터 다시하기 - 표본분포

2024. 1. 12. 15:01통계

최근 통계에 대해 수업을 들으면서 많은 것을 잊었다는 것을 알았습니다. 그래서 예전 전공 통계책을 꺼내서 다시 한번 정리하는 시간을 가지려고 합니다.

 

1. 확률표본(random sample)

 

- 모집단의 분포와 확률표본

a) 미지인 모집단의 분포는 확률밀도함수 $f(x)$ 로 나타낸다.

b) 모집단 $f(x)$로부터의 확률표본$X_1,...,X_n$이란 $f(x)$를 확률밀도함수로 갖는 서로 독립인 확률변수들을 뜻한다.

 

즉 어떤 회사에서 생산하는 전구의 수명시간에 대해 알기 위해, 100개의 전구를 표본으로 택해서 수명시간을 기록했다. 이 때 전구의 생산량이 무수히 많다고 가정한다면, 100개의 전구 표본은 모집단의 분포를 가지고, 분포에 대한 미지의 확률분포를 결정할 수 있다. 또한 100개의 샘플은 서로간에 아무런 영향을 미치지 않기 때문에 독립적이다.

 

2. 통계량과 표본평균

 

통계량 : 통계량이란 관측 가능한 확률표본의 함수이다.(ex. min,max etc..)

표본평균: $\overline{X} =  \sum_{i=1}^n X_i/n$

표본분산:$S^2= \sum_{i=1}^n (X_i- \overline{X} )^2/(n-1)$

표본분포: 통계량의 확률분포를 표본분포라고 한다.

 

위의 정의에서 통계량은 확률변수임을 알 수 있습니다.예를 들어 표본평균 $\overline{X}$는 여러가지 관측값 $\overline{x}$를 택할 수 있는 확률변수이다.

모집단의 분포가 위와 같을때, 이 모집단에서 크기 2인 확률표본 $X_1$,$X_2$를 추출하려고 할 때, 표본평균 $\overline{X}=(X_1+X_2)/2$의 확률 분포를 구한다고 하면 우리는 $X_1$,$X_2$의 모든 결합 확률분포를 구할 수 있다.

$\overline{X}=(X_1+X_2)/2$의 확률분포를 구하기 위해서는 먼저 $\overline{x}$ 가 택할 가능한 값들을 찾고 이들의 확률을 구해야한다 예를들어 ($X_1$,$X_2$)=(0,3),(1,2),(2,1),(3,0)인 경우 $\overline{x}=1.5$이므로

$$P{ \overline{x}=1.5}=0.03+0.08+0.08+0.03=0.22$$

와 같이 구할 수 있다. 이렇게 $\overline{X}=(X_1+X_2)/2$가 가질 수 있는 모든 분포를 구하면 다음과 같이 확률분포를 구할 수 있다.

일반적으로 통계량의 확률 분포를 표본분포라고 한다.