8. 두 모집단 모수의 가설검정

8.1 두 모평균 가설검정

두 모집단의 평균을 비교하는 문제들은 우리 주변에 아주 많이 있는데 다음과 같은 예를 들 수 있다.

– 금년도 대졸 사원의 초임이 남녀별로 차이가 있을까?

– 두 생산라인에서 생산되는 제품들의 무게에 차이가 있을까?

– 타자속도를 증가시키기 위하여 타자수에게 실시한 특별교육이 과연 타자속도의 증가를 가져 왔을까?

이와 같이 두 모집단의 평균(${\rm \mu}_{1}$과 ${\rm \mu}_{2}$)에 대한 비교는 모평균의 차 ${\rm \mu}_{1}-{\rm \mu}_{2}$가 0 보다 큰가, 작은가, 같은가 하는 가설을 검정함으로써 가능하다. 이러한 두 모평균의 비교는 각 모집단에서 추출된 표본들이 서로 독립적으로 추출되었을 경우와 아닌 경우(대응비교라 함)에 따라 검정방법이 다르다.

8.1.1 독립표본

일반적으로 두 모평균에 대한 가설검정은 대립가설의 형태에 따라 다음의 세 가지로 나눌 수 있다.

1)$H_{0}\colon\mu_{1}-\mu_{2}=D_{0}$

   ${H}_{1}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}{>}{D}_{0}$

2)$H_{0}\colon\mu_{1}-\mu_{2}=D_{0}$

   ${H}_{1}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}{<}{D}_{0}$

3)$H_{0}\colon\mu_{1}-\mu_{2}=D_{0}$

   ${H}_{1}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}\ne{D}_{0}$

여기서 $D_{0}$는 모평균 차이에 대한 값을 의미한다. 모집단에서 서로 독립적으로 표본을 추출하였을 때 모평균의 차 ${\rm \mu}_{1}-{\rm \mu}_{2}$의 추정량은 표본평균의 차 ${\bar X}_{1}-{\bar X}_{2}$이며, 모든 가능한 표본평균의 차는 표본이 충분히 클 경우 근사적으로 평균이 ${\rm \mu}_{1}-{\rm \mu}_{2}$이고 분산이 ${\rm \sigma}_{1}^{2}/n_{1}+{\rm \sigma}_{2}^{2}/n_{2}$인 정규분포를 따르게 된다.

두 모집단의 분산 ${\rm \sigma}_{1}^{2}$과 ${\sigma}_{2}^{2}$은 대개 알려져 있지 않으므로 분산의 추정치를 이용하여 검정을 하여야 하는데, 두 모분산이 같은 경우와 두 모분산이 다른 경우 검정방법이 약간 차이가 난다. 두 모집단이 정규분포를 따르고 모분산들이 같다는 가정 하에 두 모평균의 차이가  $D_{0}$라는 가설검정은 다음과 같은 통계량을 사용한다.

 ${{({\bar X}_{1}-{\bar X}_{2})-D_{0}}\over{\sqrt{{{s_{p}^{2}}\over{n_{1}}}+{{s_{p}^{2}}\over{n_{2}}}}}}$ 여기서 $s_{p}^{2}={{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}\over{n_{1}+n_{2}-2}}$  (8-1)

$s_{p}^{2}$은 모분산의 추정량으로 $s_{1}^{2}$과 $s_{2}^{2}$의 표본의 크기에 가중치를 주어 모분산을 추정한 것으로 공통분산(pooled variance)이라 한다. 즉, 공통분산은 두 모집단의 분산이 같다고 가정했으므로 두 분산의 표본크기에 비례한 가중평균이다. 위의 통계량은 자유도가  ${n}_{1}{+}{n}_{2}{-}{2}$인 $t$분포를 하는데 이를 이용하여 두 모평균의 차이에 대한 검정을 다음과 같이 할 수 있다.

표 8.1.1 두 모평균의 가설검정

– 표본이 독립이고, 두 모집단이 정규분포를 따르고, 두 모분산이 같은 경우

가설의 종류

선택 기준

1) ${H}_{0}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}{=}{D}_{0}$ 

    ${H}_{1}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}{>}{D}_{0}$

 $\frac{\left({{\bar{X}}_{1}{-}{\bar{X}}_{2}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각

2) ${H}_{0}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}{=}{D}_{0}$

    ${H}_{1}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}{<}{D}_{0}$

 $\frac{\left({{\bar{X}}_{1}{-}{\bar{X}}_{2}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{<}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}}$이면 ${H}_{0}$기각

3) ${H}_{0}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}{=}{D}_{0}$

    ${H}_{1}\colon{\mathit{\mu}}_{1}{-}{\mathit{\mu}}_{2}\ne{D}_{0}$

 $\frac{\left({{\bar{X}}_{1}{-}{\bar{X}}_{2}}\right)}{\sqrt{\frac{{s}_{p}^{2}}{{n}_{1}}{+}\frac{{s}_{p}^{2}}{{n}_{2}}}}{>}{t}_{{n}_{1}{+}{n}_{2}{-}{2}{;}\mathit{\alpha}{/}{2}}$이면 ${H}_{0}$기각

※ 표본의 크기가 충분히 크면 (${n}_{1}{>}{30}{, }{n}_{2}{>}{30}$) $t$분포는 표준정규분포에 근사하므로, 이 경우 위의 선택기준은 표준정규분포를 사용하여도 된다.

[예 8.1.1] 어느 공장에서 두 기계가 한 과자를 생산하는데 포장된 과자의 정량은 270g이다. 두 기계에서 생산 포장된 과자의 무게를 조사하기 위하여 각각 표본을 추출하였다. 기계1에서 추출된 15개 과자의 무게 평균은 275g, 표준편차는 12g이었고, 기계2에서 추출된 14개 과자의 무게 평균은 269g, 표준편차는 10g 이었다. 두 기계에서 생산된 과자의 무게가 차이가 있는지 1% 유의수준으로 검정하라. 검정결과를 『eStatU』를 이용하여 확인하라.

<풀이>

이 문제의 가설은  ${H}_{0}{:}{\mu}_{1}{=}{\mu}_{2}{,}{H}_{1}{:}{\mu}_{1}\ne{\mathit{\mu}}_{2}$이다. 따라서 선택기준은 다음과 같다.

$\left|{{{({\bar X}_{{\it 1}}-{\bar X}_{{\it 2}})-D_{0}}\over{\sqrt{{{s_{p}^{2}}\over{n_{1}}}+{{s_{p}^{2}}\over{n_{2}}}}}}}\right|>t_{n_{1}+n_{2}-2\ ;\ {\rm \alpha}/2}$이면 ${H}_{0}$ 기각, 아니면 ${H}_{0}$ 채택

문제에서 주어진 정보를 정리하면 다음과 같다.

$n_{1}=15,\ {\bar X}_{1}=275,\ s_{1}=12,$

$n_{2}=14,\ {\bar X}_{2}=269,\ s_{2}=10$

따라서

${s_{p}^{2}={{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}\over{n_{1}+n_{2}-2}}}$

      $={{(15-1)12^{2}+(14-1)10^{2}}\over{15+14-2}}=122.815$

$\left|{{{275-269}\over{\sqrt{{{122.815}\over{15}}+{{122.815}\over{14}}}}}}\right|=1.457$

$t_{15+14-2\ ;\ 0.01/2}=t_{27\ ;\ 0.005}=2.7707$

그러므로  $1.457<2.7707$이므로, 가설 ${H}_{0}$는 기각할 수 없다.

『eStatU』에서 ‘가설검정 : ${\rm \mu}_{1},\ {\rm \mu}_{2}$’를 선택하여 나타나는 <그림 8.1.1>과 같은 창에서 분산을 동분산으로 체크하고, 유의수준을 1%, 독립표본을 체크한 후, 표본크기 $n_{1},\ n_{2}$, 표본평균 ${\bar x}_{1},\ {\bar x}_{2}$, 표본분산 $s_{1}^{2},\ s_{2}^{2}$을 다음과 같이 입력한다.

<그림 8.1.1> 『eStatU』의 두 모평균 가설검정

‘실행’ 버튼을 클릭하면 <그림 8.1.2>와 같은 『eStatU』가설검정 결과가 나타난다.

<그림 8.1.2> 『eStatU』의 두 모평균 가설검정 – 분산이 같은 경우

만일에 두 모집단의 분산이 다를 경우 모집단이 정규분포를 따르더라도 검정통계량

 ${{\bar{X_{1}}-\bar{X_{2}}}\over{\sqrt{{{s_{1}^{2}}\over{n_{1}}}+{{s_{2}^{2}}\over{n_{2}}}}}}$(8-2)

은 $t$분포를 따르지 않는다. 두 모집단의 분산이 다른 경우 두 모평균의 가설검정을 Behrens-Fisher 문제라고 한다. 이 문제를 해결하기 위한 여러 가지 방법이 연구되었는데, 표 8.1.1의 선택기준에서 대개 근사적으로 자유도 ${\rm \phi}$인 $t$분포를 이용하여 가설검정을 하는 Satterthwaite 방법을 사용한다. 여기서 자유도 ${\rm \phi}$는 다음과 같이 계산한다.

$\phi={{{\left[{{{s_{1}^{2}}\over{n_{1}}}+{{s_{2}^{2}}\over{n_{2}}}}\right]}^{2}}\over{{{{\left({{{s_{1}^{2}}\over{n_{1}}}}\right)}^{2}}\over{n_{1}-1}}+{{{\left({{{s_{2}^{2}}\over{n_{2}}}}\right)}^{2}}\over{n_{2}-1}}}}$(8-3)

[예 8.1.2] [예 8.1.1]에서 두 모분산이 서로 다를 경우에 기계1과 기계2에서 생산된 과자의 무게가 차이가 있는지 1% 유의수준으로 검정하라. 검정결과를 『eStatU』를 이용하여 확인하라.

<풀이>

모분산이 다르므로 $t$분포의 자유도 ${\rm \phi}$를 계산하면

${\rm \phi}={{{\left[{{{12^{2}}\over{15}}+{{10^{2}}\over{14}}}\right]}^{2}}\over{{{{\left({{{12^{2}}\over{15}}}\right)}^{2}}\over{15-1}}+{{{\left({{{10^{2}}\over{14}}}\right)}^{2}}\over{14-1}}}}=26.67$

$t_{26.7\ ;\ 0.01/2}=2.773$

따라서  $1.457<2.773$이므로, 가설 $H_{0}$는 채택된다.

『eStatU』를 이용하여 실습하기 위해서는 <그림 8.1.1>의 창에서 이분산 가정 을 선택하고 실행버튼을 클릭하면 <그림 8.1.3>과 같은 결과가 나타난다.

<그림 8.1.3> 『eStatU』의 두 모평균 가설검정 – 분산이 다른 경우

[예 8.1.3] (『eStat』실습) 금년도 대졸 취업자의 남녀 모집단에서 각각 10명씩 표본을 추출하여 월평균 임금을 조사하니 다음과 같다. (단위 만원)

남자 272 255 278 282 296 312 356 296 302 312

여자 276 280 369 285 303 317 290 250 313 307

1) 모분산이 같다고 가정하는 경우 남녀 월평균 임금이 같은지 유의수준 5%로 가설검정 하라.

2) 모분산이 다르다고 가정하는 경우 남녀 월평균 임금이 같은지 유의수준 5%로 가설검정 하라.

<풀이>

1)『eStat』에서 시트에 <그림 8.1.4>와 같이 두 개의 변량에 성별과 임금을 입력한다. 이와 같은 데이터 입력은 대부분의 통계패키지와 유사한 형태이다. 데이터를 입력한 후 두 모평균 가설검정 아이콘 을 클릭하여 나타나는 변량선택박스에서 ‘분석변량’을 V2, ‘by 그룹’ 변량을 V1으로 선택하면 두 모집단의 표본평균을 비교할 수 있는 신뢰구간 그래프가 나타난다(<그림 8.1.5>).

<그림 8.1.4> 데이터 입력

<그림 8.1.5> 두 모평균의 가설검정의 점그래프와 각 그룹별 평균-신뢰구간 그래프

래프 창 밑의 <그림 8.1.6>과 같은 선택사항창에서 원하는 검정을 위한 평균차 $D=0$을 입력하고 분산가정을 ${\rm \sigma}_{1}^{2}={\rm \sigma}_{2}^{2}$을 선택하고, 유의수준 5%를 선택한 후 ‘$t$검정’ 버튼을 누르면 <그림 8.1.7>과 같은 두 모평균 가설검정 결과 그래프와 <그림 8.1.8>과 같은 검정결과가 나타난다.

<그림 8.1.6> 두 모평균의 가설검정을 위한 선택사항

<그림 8.1.7> 두 모평균의 가설검정 결과 그래프

<그림 8.1.8> 두 모평균의 가설검정 결과 – 모분산이 같다고 가정한 경우

2) 그래프 밑의 선택사항에서 ${\rm \sigma}_{1}^{2}\ne{\rm \sigma}_{2}^{2}$을 선택하고 ‘$t$검정’ 버튼을 누르면 <그림 8.1.9> 및 <그림 8.1.10>과 같은 가설검정 그래프와 검정 결과가 나타난다.

<그림 8.1.9> 모분산이 다른 경우의 두 모평균 가설검정의 결과

<그림 8.1.10> 모분산이 다른 경우의 두 모평균 가설검정의 결과

실습

 

8.1.2 대응표본

두 모평균을 비교하는 지금까지의 가설검정에서는 두 표본이 서로 독립적으로 추출된 경우를 다루었지만 어느 경우에는 두 표본을 독립적으로 추출하기가 힘들거나, 독립적으로 추출하였을 때 각 표본개체의 특성이 너무 차이가 나서 결과분석이 무의미할 때가 있다. 예를 들면, 타자수에게 타자속도를 증가시키기 위한 특수교육을 시킨 후 과연 이 교육이 타자속도 증가에 효과가 있었는가 알아보고 싶다고 하자. 이 때 교육 전과 교육 후에 서로 다른 표본을 추출하면 개인의 차가 심하기 때문에 교육의 효과를 측정하기가 어렵다. 이러한 경우 교육 전에 표본추출되어 속도를 측정한 타자수에 대하여, 교육 후에 속도를 측정하여 비교하면 특수교육의 효과를 잘 알아 낼 수가 있다. 이렇게 한번 추출된 표본에 유사한 실험을 하는 대응표본으로 사용하여 두 모집단의 평균을 비교하는 가설검정을 대응비교(paired comparison)라고 한다.

대응비교일 때는 먼저 표 8.1.2와 같이 관찰된 $n$쌍(pair)의 차이($d_{i}$)를 계산해서 평균($\bar d$)과 표준편차($s_{d}$)를 구한다.

표 8.1.2 대응비교를 위한 데이터와 통계량

모집단 1의 표본($x_{i1}$)

모집단 2의 표본($x_{i2}$)

차이 $d_{i}=x_{i1}-x_{i2}$

$x_{11}$

$x_{21}$

$\cdots$

$x_{n1}$

$x_{12}$

$x_{22}$

$\cdots$

$x_{n2}$

$d_{1}=x_{11}-x_{12}$

$d_{2}=x_{21}-x_{22}$

$\cdots$

$d_{n}=x_{n1}-x_{n2}$

응비교 통계량

$d_{i}$의 평균

$d_{i}$의 분산

$\bar d=\sum{d_{i}/n}$

$s_{d}^{2}={\sum{\left({d_{i}-\bar d}\right)}}^{2}/\left({n-1}\right)$

두 모집단이 평균이 같은 정규분포일 때  $\bar d/(s_{d}/\sqrt{n})$는 자유도가 ($n-1$)인 $t$분포를 따르는데 이를 이용하여 대응비교인 경우 두 모평균의 차이에 대한 검정을 다음과 같이 할 수 있다.

표 8.1.3 두 모평균의 가설검정 (대응비교)

– 모집단이 정규분포이고 두 표본이 쌍(종속적)으로 추출되었을 경우

가설의 종류

선택 기준

1) $H_{0}\ :\ \mu_{1}-\mu_{2}=D_{0}$

$H_{1}\ :\ \mu_{1}-\mu_{2}{>} D_{0}$

이면 $H_{0}$기각

2) $H_{0}\ :\ \mu_{1}-\mu_{2}=D_{0}$

$$H_{1}\ :\ \mu_{1}-\mu_{2}{<} D_{0}$$

이면 $H_{0}$기각

3) $H_{0}\ :\ \mu_{1}-\mu_{2}=D_{0}$

$H_{1}\ :\ \mu_{1}-\mu_{2}\ne D_{0}$

이면 $H_{0}$기각

[예 8.1.4] 한글 타자속도를 빠르게 하기 위한 교육을 8명의 타자수에게 실시하여 교육전과 후의 타자속도를 조사하였더니 아래와 같다. 타자교육이 속도를 증가시켰는지 5% 유의수준으로 검정하라. 단, 타자속도는 정규분포라고 가정하자. 검정 결과를 『eStat』와 『eStatU』를 이용하여 확인하라.

번호

교육 전

교육 후

1

2

3

4

5

6

7

8

52

60

63

43

46

56

62

50

58

62

62

48

50

55

68

57

<풀이>

이 문제는 교육 전 타자속도를 모집단 1, 교육 후 타자속도를 모집단 2로 보았을 때 가설 $H_{0}\ :\ {\rm \mu}_{1}-{\rm \mu}_{2}=0$,$H_{1}\ :\ {\rm \mu}_{1}-{\rm \mu}_{2}<0$를 검정 하는 것이다. 따라서 선택기준은 다음과 같다.

이면 $H_{0}$ 기각, 아니면 $H_{0}$ 채택이다.

교육 전과 교육 후의 차이($d_{i}$)와 평균($\bar d$) 및 표준편차($s_{d}$)를 계산하면 다음과 같다.

번호

교육 전

교육 후

차 $d_{i}$

1

2

3

4

5

6

7

8

52

60

63

43

46

56

62

50

58

62

62

48

50

55

68

57

-6

-2

1

-5

-4

1

-6

-7

평균 $\bar d=-3.5$

표준편차 $s_{d}=3.16$

따라서 검정통계량은 다음과 같다.

${{\bar d-D_{o}}\over{{{s_{d}}\over{\sqrt{n}}}}}={{-3.5}\over{{{3.16}\over{\sqrt{8}}}}}=-3.13$

$-t_{n-1\ ;\ {\rm \alpha}}=-t_{8-1\ ;\ 0.05}=-t_{7\ ;\ 0.05}=-1.8946$

그러므로 가설 $H_{0}$는 기각되고 타자교육이 속도를 증가시켰다고 할 수 있다.

『eStatU』에서 ‘가설검정 : ${\rm \mu}_{1},\ {\rm \mu}_{2}$’를 선택하여 나타나는 <그림 8.1.11>의 창에서 [검정형태]를 ‘대응표본’으로 선택하고 유의수준 5%를 체크한 후 [예 8.1.4]의 데이터를 입력한다.

<그림 8.1.11> 『eStatU』의 가설검정 모평균 – 대응표본

실행 버튼을 클릭하면 표본평균차이 ${\bar x}_{d}$와 데이터 차이의 표본분산 $s_{d}^{2}$이 계산되고 <그림 8.1.12>와 같은 대응표본의『eStatU』가설검정 결과가 나타난다.

<그림 8.1.12> 『eStatU』를 두 모평균 가설검정 – 대응표본

『eStat』에서 대응표본 데이터는 <그림 8.1.13>과 같이 두 열에 입력한다. 두 모평균 가설검정 아이콘을 클릭하고 ‘분석변량’을 V2, ‘by 그룹’ 으로 V1을 선택하면 교육 전과 교육 후 데이터의 차이에 대한 점그래프와 신뢰구간을 보여준다(<그림 8.1.14>).

<그림 8.1.13> 대응표본 데이터 입력

<그림 8.1.14> 대응표본 차이 데이터의 점그래프

그래프 창 밑의 선택사항에서 원하는 검정을 위한 평균차 $D=0$을 입력하고 유의수준 5%를 선택한 후 ‘$t$검정’ 버튼을 누르면 <그림 8.1.15> 및 <그림 8.1.16>과 같은 대응표본 가설검정 결과가 나타난다.

<그림 8.1.15> 『eStat』의 대응표본 가설검정 결과 그래프

<그림 8.1.16> 『eStat』의 대응표본 가설검정 결과

실습

 

8.2 두 모분산 가설검정

두 모분산의 비교를 하는 아래의 예를 살펴보자.

1) 앞 절에서 두 모평균을 비교할 경우 표본의 크기가 작다면 두 모분산이 같은지 다른지에 따라 가설검정의 선택기준이 다른 것을 알았다. 그러면 현실적으로 미지의 두 모분산이 같은지 어떻게 검정할 수 있나?

2) 자동차 조립에 쓰이는 볼트의 품질은 그 직경에 대한 규격을 엄격하게 지키느냐에 달려 있다. 두 회사에서 이 볼트를 납품하는데 직경의 평균은 같다고 한다. 따라서, 분산이 더 작은 제품이 우수하다고 볼 수 있는데 분산에 대한 비교를 어떻게 할 수 있나?

이러한 두 모집단의 분산(${\rm \sigma}_{1}^{2}$과${\rm \sigma}_{2}^{2}$)을 비교하는 경우에는 분산의 차이를 비교하지 않고 분산의 비(${\rm \sigma}_{1}^{2}/{\rm \sigma}_{2}^{2}$)를 계산한다. 이 분산비가 1 보다 큰가, 작은가, 같은 가를 알아보면 ${\rm \sigma}_{1}^{2}$이${\rm \sigma}_{2}^{2}$ 보다 큰가, 작은가, 같은가를 알 수 있다. 분산의 차이대신 분산비를 이용하는 이유는 표본분산비에 대한 분포를 수학적으로 찾아내기가 용이하기 때문이다. 즉, 통계량

 ${{\left({{{S_{1}^{2}}\over{\sigma_{1}^{2}}}}\right)}\over{\left({{{S_{2}^{2}}\over{\sigma_{2}^{2}}}}\right)}}$(8-4)

은 두 모집단이 각각 정규분포를 따를 경우 분자자유도 $n_{1}-1$, 분모자유도  $n_{2}-1$인 $F$분포($F$ distribution)를 따르는데 이 사실을 이용하여 모분산비에 대한 가설검정을 한다.

$F$분포는 비대칭인 분포군으로 분모자유도, 분자자유도에 따라 서로 다른 분포를 갖는다. <그림 8.2.1>은 여러 가지 자유도에 따른 $F$분포의 그림이다.

<그림 8.2.1> 여러 가지 자유도에 따른 $F$분포의 그림

두 모분산의 가설검정은 $F$분포를 이용하여 다음과 같이 할 수 있다.

표 8.2.1 두 모분산의 가설검정 – 두 모집단이 정규분포인 경우 –

가설의 종류

선택 기준

1) $H_{0}\ :\ \sigma_{1}^{2}=\sigma_{2}^{2}$

$H_{1}\ :\ \sigma_{1}^{2}{>}\sigma_{2}^{2}$

 ${{S_{1}^{2}}\over{S_{2}^{2}}}{>} F_{n_{1}-1,\ n_{2}-1\ ;\ \alpha}$이면 $H_{0}$기각

2) $H_{0}\ :\ \sigma_{1}^{2}=\sigma_{2}^{2}$

$H_{1}\ :\ \sigma_{1}^{2}{<}\sigma_{2}^{2}$

${{S_{1}^{2}}\over{S_{2}^{2}}}{<} F_{n_{1}-1,\ n_{2}-1\ ;\ \alpha}$이면 $H_{0}$기각

3) $H_{0}\ :\ \sigma_{1}^{2}=\sigma_{2}^{2}$

$H_{1}\ :\ \sigma_{1}^{2}\ne\sigma_{2}^{2}$

${{S_{1}^{2}}\over{S_{2}^{2}}}{<} F_{n_{1}-1,\ n_{2}-1\ ;{1-}\ \alpha /2}$ 이거나 ${{S_{1}^{2}}\over{S_{2}^{2}}}{>} F_{n_{1}-1,\ n_{2}-1\ ;\ \alpha /2}$ 이면 $H_{0}$기각

[예 8.2.1] 한 볼트를 생산하는 회사가 두 공장을 가지고 있다. 어느 날 공장 1에서 생산되는 볼트에서 10개를 표본 추출하여 직경의 분산을 측정하였더니 $0.11^{2}$이었고, 공장2의 제품에서 표본 추출된 볼트 12개 직경의 분산은 $0.13^{2}$이었다. 두 회사 볼트의 분산이 같은지 유의수준 5%로서 검정하라. 검정 결과를 『eStatU』를 이용하여 확인하라.

<풀이>

이 문제의 가설은 $H_{0}\ :\ {\rm \sigma}_{{\rm 1}}^{{\rm 2}}={\rm \sigma}_{{\rm 2}}^{{\rm 2}}$  $H_{1}\ :\ {\rm \sigma}_{{\rm 1}}^{{\rm 2}}\ne{\rm \sigma}_{{\rm 2}}^{{\rm 2}}$이다. 따라서 선택기준은 다음과 같다.

‘${{S_{1}^{2}}\over{S_{2}^{2}}}{<} F_{n_{1}-1,\ n_{2}-1\ ;{1-}\ \alpha /2}$이거나 ${{S_{1}^{2}}\over{S_{2}^{2}}}>F_{n_{1}-1,\ n_{2}-1\ ;\ {\rm \alpha}/2}$이면 $H_{0}$기각’

측정된 표본분산 $s_{1}^{2},\ s_{2}^{2}$을 이용한 검정통계량과 $F$분포 백분위수는 다음과 같다.

${{s_{1}^{2}}\over{s_{2}^{2}}}={{0.0121}\over{0.0169}}=0.716$

$F_{n_{1-1},\ n_{2}-1\ ;\ 1-\alpha /2}=F_{11,9\ ;\ 0.975}=0.279$

$F_{n_{1-1},\ n_{2}-1\ ;\ \alpha /2}=F_{11,9\ ;\ 0.025}=3.912$

그러므로, 가정 $H_{0}$는 채택이 된다. 즉, 두 모분산은 같다고 볼 수 있다.

eStatU』에서 ‘두 모분산 가설검정’을 선택하여 나타나는 <그림 8.2.2>와 같은 창에서 $n_{1}=12$, $n_{2}=10$, $s_{1}^{2}=0.0121$, $s_{2}^{2}=0.0169$를 입력한다.

<그림 8.2.2> 『eStatU』의 두 모분산 가설검정 데이터 입력

실행 버튼을 클릭하면 <그림 8.2.3>과 같은 가설검정 결과가 나타난다.

<그림 8.2.3> 『eStatU』를 이용한 두 모분산 검정

[예 8.2.2] (『eStat』실습 [예 8.1.3] 데이터) 금년도 대졸 취업자의 남녀 모집단에서 각각 10명씩 표본을 추출하여 월평균 임금을 조사하니 다음과 같다. (단위 만원) 두 모집단의 분산이 같은지 검정하라.

남자 272 255 278 282 296 312 356 296 302 312

여자 276 280 369 285 303 317 290 250 313 307

<풀이>

『eStat』에서 시트에 <그림 8.2.4>와 같이 두 개의 변량에 성별과 임금을 입력한다. 이와 같은 데이터 입력은 대부분의 통계패키지와 유사한 형태이다. 데이터를 입력한 후 두 모분산 가설검정 아이콘 을 클릭하고 변량선택박스에서 ‘분석변랑’을 V2, ‘by 그룹’을 V1 선택하고 <그림 8.2.5>와 같은 각 그룹별 평균-표준편차 그래프가 나타난다.

<그림 8.2.4> 데이터 입력

<그림 8.2.5> 그룹별 평균-표준편차 그래프

그래프 밑의 선택사항창에서 ‘$F$검정’ 버튼을 누르면 <그림 8.2.6> 및 <그림 8.2.7>과 같은 검정결과 그래프가 나타나고 로그창에는 결과표가 나타난다.

<그림 8.2.6> 두 모분산의 가설검정 결과 그래프

<그림 8.2.7> 두 모분산의 가설검정 결과

실습

 

8.3 두 모비율 가설검정

두 모비율을 비교하는 아래의 예를 살펴보자.

1) 금년도 대통령 선거에서 특정후보에 대한 지지율에 유권자의 성별에 따른 차이가 있는가?

2) 어느 공장에서 제품을 만들어 내는 두 대의 기계가 있는데 두 기계의 불량률이 서로 다른가?

이러한 두 모집단의 모비율($p_{1}$과 $p_{2}$) 비교는, 모평균과 유사하게 두 모비율의 차($p_{1}-p_{2}$)를 검정함으로써 가능하다. 두 모집단에서 서로 독립적으로 추출한 표본비율의 차 ${\hat p}_{1}-{\hat p}_{2}$는 표본의 크기가 충분히 클 때 평균이 $p_{1}-p_{2}$, 분산이 $p_{1}(1-p_{1})/n_{1}+p_{2}(1-p_{2})/n_{2}$인 정규분포를 따른다. 여기서 분산의 추정을 위해서는 $p_{1}$과 $p_{2}$를 모르므로 두 표본비율(${\hat p}_{1}$과 ${\hat p}_{2}$)에 대해 표본의 크기를 가중값으로 취한 가중평균 $\bar p$를 사용한다.

$\bar p={{n_{1}{\hat p}_{1}+n_{2}{\hat p}_{2}}\over{n_{1}+n_{2}}}$   (8-5)

두 모비율의 차에 대한 검정은 통계량

${{{\hat p}_{1}-{\hat p}_{2}}\over{\sqrt{{{\bar p(1-\bar p)}\over{n_{1}}}+{{\bar p(1-\bar p)}\over{n_{2}}}}}}$   (8-6)

을 이용하여 다음과 같이 한다.

표 8.3.1 모비율의 가설검정 – 대표본이고, 표본이 서로 독립적으로 추출되었을 경우 –

가설의 종류

선택 기준

1) $H_{0}\ :\ p_{1}=p_{2}$

$H_{0}\ :\ p_{1}{>} p_{2}$

이면 $H_{0}$기각, 아니면 $H_{0}$채택

2) $H_{0}\ :\ p_{1}=p_{2}$

$H_{0}\ :\ p_{1}{<} p_{2}$

 이면 $H_{0}$기각, 아니면 $H_{0}$채택

3) $H_{0}\ :\ p_{1}=p_{2}$

$$H_{0}\ :\ p_{1}\ne p_{2}$$

 이면 $H_{0}$기각, 아니면 $H_{0}$ 채택

[예 8.3.1] 금년도 대통령 선거에서 특정후보의 지지율에 대해 남녀별로 독립적으로 표본을 추출해 조사하였더니 남자 225명 중 54명이 지지를 하였고, 여자 175명 중 52명이 지지를 하였다. 남녀의 지지율에 차이가 있다고 할 수 있는지 5% 유의수준으로 검정하라. 결과를 『eStatU』를 이용하여 확인하라.

<풀이>

이 문제의 가설은 $H_{0}\ :\ p_{1}=p_{2}$ , $H_{1}\ :\ p_{1}\ne p_{2}$이므로 선택기준은 다음과 같다.

$\left|{{{{\hat p}_{1}-{\hat p}_{2}}\over{\sqrt{{{\bar p(1-\bar p)}\over{n_{1}}}+{{\bar p(1-\bar p)}\over{n_{2}}}}}}}\right|{>}$ $z_{{\rm \alpha}/2}$ 이면 $H_{0}$기각, 아니면 $H_{0}$채택

${\hat p}_{1}=54/225=0.240$, ${\hat p}_{2}=52/175=0.297$이므로 $\bar p$와 검정통계량은 다음과 같다.

$\bar p=(54+52)/(225+175)=106/400=0.265$

$\left|{{{{\hat p}_{1}-{\hat p}_{2}}\over{\sqrt{{{\bar p(1-\bar p)}\over{n_{1}}}+{{\bar p(1-\bar p)}\over{n_{2}}}}}}}\right|=\left|{{{0.240-0.297}\over{\sqrt{{{0.265(1-0.265)}\over{225}}+{{0.265(1-0.265)}\over{175}}}}}}\right|=1.28$

$z_{{\rm \alpha}/2}=z_{0.05/2}=z_{0.025}=1.96$

그러므로, 가설 $H_{0}$는 채택이 된다. 즉, 남녀별 특정후보의 지지율이 다르다고 할 만한 충분한 증거가 없다.

『eStatU』에서 ‘가설검정 $p_{1},\ p_{2}$’를 선택하여 나타나는 <그림 8.3.1>과 같은 창에서 $n_{1}=225$, ${\hat p}_{1}=0.240$, $n_{2}=175$, ${\hat p}_{2}=0.297$을 입력한다. ’실행‘ 버튼을 클릭하면 <그림 8.3.2>와 같은 가설검정 결과가 나타난다.

<그림 8.3.1> 『eStatU』의 두 모비율 가설검정 데이터 입력

<그림 8.3.2> 『eStatU』를 이용한 두 모비율 가설검정

[예 8.3.2] 1985년 전국에서 15세부터 29세까지의 사람 중 1,000명을 단순임의추출하여 결혼 상태를 조사하였더니 미혼 상태인 사람이 63.5%이었다. 1995년에 다시 1,000명을 독립적으로 단순임의추출하여 조사하였더니 미혼 상태인 사람이 69.8%이었다. 이 사실로부터 최근 들어 결혼을 늦게 하는 경향이 있다고 할 수 있는가? 즉, 1995년에 15세-29세의 인구 중 미혼상태인 인구의 구성비가 1985년에 비해 더 높아졌다고 할 수 있는가를 유의수준 5%에서 검정하라. $p\scriptstyle{-}$값은 얼마인가?

<풀이>

이 문제의 가설은 $H_{0}\ :\ p_{1}=p_{2}$, $H_{1}\ :\ p_{1}<p_{2}$이므로 선택기준은 다음과 같다.

‘${{{\hat p}_{1}-{\hat p}_{2}}\over{\sqrt{{{\bar p(1-\bar p)}\over{n_{1}}}+{{\bar p(1-\bar p)}\over{n_{2}}}}}}<-z_{{\rm \alpha}}$이면 $H_{0}$기각, 아니면 $H_{0}$ 채택’

${\hat p}_{1}=0.635$, ${\hat p}_{2}=0.698$이므로 $\bar p$와 통계량의 계산은 다음과 같다.

$\bar p={{1000\times 0.635+1000\times 0.698}\over{1000+1000}}={{0.635+0.698}\over{2}}=0.667$

${{{\hat p}_{1}-{\hat p}_{2}}\over{\sqrt{{{\bar p(1-\bar p)}\over{n_{1}}}+{{\bar p(1-\bar p)}\over{n_{2}}}}}}={{0.635-0.698}\over{\sqrt{{{0.667\left({1-0.667}\right)}\over{1000}}+{{0.667\left({1-0.667}\right)}\over{1000}}}}}=-2.989$

$-z_{{\rm \alpha}}=-z_{0.05}=-1.645$

그러므로, 가설 $H_{0}$는 기각된다. 즉, 미혼상태 인구의 구성비가 1985년에 비해 1995년에 더 높아졌다고 할 수 있다. 그리고 $p\scriptstyle{-}$값은 다음과 같다.

$p\scriptstyle{-}{\rm 값}=P(Z<-2.989)=0.0014$

두 모비율을 비교하는 앞의 두 예제에서 두 표본비율은 각각 독립적인 표본에서 계산되었다. 지지율을 추정하기 위해 추출한 남자 표본과 여자 표본, 미혼상태인 인구의 구성비를 추정하기 위해 1985년에 추출한 표본과 1995년에 추출한 표본은 각각 독립이다. 그런데, 만약 어떤 지역구에 갑, 을, 병 세 후보가 출마하였고, 이 중 갑 후보와 을 후보의 지지율에 차이가 있는지를 검정하기 위해 1,000명을 추출하였다고 하자. 이 때 표본으로부터 구한 두 후보의 지지율 $p_{1}$와 $p_{2}$는, 앞의 두 예제와는 달리, 하나의 표본에서 계산되어지는 값이므로 독립적이지 않다. 그래서 검정방법도 달라져야 한다. 두 후보의 지지율에 차이가 있나를 검정하기 위한 통계량은 다음과 같다.

${{{\hat p}_{1}-{\hat p}_{2}}\over{\sigma_{{\hat p}_{1}-{\hat p}_{2}}\ }}$, 여기서 ${\rm \sigma}_{{\hat p}_{1}-{\hat p}_{2}}=\sqrt{{{p_{1}(1-p_{1})+p_{2}(1-p_{2})+2{_{p_{1}}}_{p_{2}}}\over{n}}}$는 ${\hat p}_{1}-{\hat p}_{2}$의 표준오차

(8-7)

두 모비율 $p_{1},\ p_{2}$가 같다는 가정 하에 ${\rm \sigma}_{{\hat p}_{1}-{\hat p}_{2}}$ 의 추정값으로

$s_{{\hat p}_{1}-{\hat p}_{2}}=\sqrt{{{2\bar p}\over{n}}},\ \ \bar p=({\hat p}_{1}+{\hat p}_{2})/2$  (8-8)

를 사용한다. 대표본이면 검정통계량의 분포는 표준정규분포가 되는데, 이 사실을 이용하여 대립가설의 형태에 따라 적절한 가설검정을 할 수 있다. 이와 같이 두 모비율을 비교하는 문제에서 독립표본을 추출한 경우와 그렇지 않은 경우를 구별하는 것이 중요하다.