Category Archives: 미분류

5장_Custom Css

5.1 확률의 정의

우리의 생활주변에는 비슷한 사건이 반복해서 자주 발생하거나 실행되는 경우가 많이 있다.

– 어느 생산공장에서 한 기계가 제품을 반복 생산하고 있다. 제품은 정상품 또는 불량품중 하나지만 무엇이 될지는 알 수 없다.
– 매주 일요일에 집에서 피자를 주문한다. 피자가 집에 배달되는데 걸리는 시간은 대개 30분이내지만 정확히 알 수는 없다.

이 예들의 공통점은 제품을 생산한다든가 피자를 배달하는 ‘① 비슷한 사건의 반복이다’. 그리고 제품생산시 불량품 또는 우량품이 될 가능성이 있고, 피자배달은 1분, 2분, 3분 30초 … 등의 ‘② 여러 가지 가능한 결과는 알 수 있다’. 그러나 ‘③정확히 무슨 결과가 발생할지는 모른다’. 이러한 세 가지 특성을 갖는 사건들이 바로 통계학의 연구 및 응용대상이 된다. 여러 가지 가능한 경우들 중에서 특정한 경우가 발생되는 것이 우연(chance)에 의해서 결정되는 실험을 통계적 실험(statistical experiment)이라고 한다. 통계적 실험에서 결과는 우연에 의해 결정되므로 불확실성을 담보로 한 실험이다. 예를 들어, 동전을 던졌을 때 앞면 또는 뒷면이 나올 수 있으나 앞면이 나올지 뒷면이 나올지는 우연에 의해 결정되므로 동전을 던져 앞면 또는 뒷면을 관찰하는 실험은 통계적 실험이다. 생산공장에서 같은 설비에서 생산된 개별 제품이 불량품일지 아닐지, 또는 피자 배달에 30분 이상 걸릴지도 우연에 의해 결정된다고 보면 이들로 통계적 실험이다.

통계적 실험의 모든 가능한 결과의 집합을 표본공간(sample space)이라 하고, 이 표본공간의 한 부분집합을 사건(event)이라 한다. 표본공간은 대개 S로 표시하고, 사건은 영어 대문자 A, B, C … 등을 사용한다. 위의 예 1)에서, ‘한 기계가 제품을 생산하는’ 통계적 실험에서 표본공간은 S = {불량품, 우량품} 이고, 한 결과 {불량품}이 발생하는 것을 사건이라 한다. 이와 같이 표본공간의 원소의 개수가 유한개(finite)이거나 또는 무한하나 셀 수 있을(countably infinite) 때 이를 이산형 표본공간(discrete sample space)이라 한다. 예 2)의 ‘피자가 집에 배달되는데 걸리는 시간’을 알아보는 통계적 실험의 표본공간은 0 보다 큰 모든 실수, 즉, S = {(0,∞)}이고, 배달이 20분 이내에 되는 것(집합표시로 {(0,20)})을 하나의 사건이라 한다. 이와 같이 표본공간의 원소의 개수가 무한하면서 셀 수 없을(uncountably infinite) 때 이를 연속형 표본공간(continuous sample space)이라 한다.

통계적 실험에서 한 사건이 발생하는 가능성을 나타내기 위해 확률이란 개념을 사용한다. 확률(probability)이란 바로 ‘어떤 사건이 일어날 가능성을 0 과 1 사이의 실수로 표시’ 하는 것인데, 한 사건이 발생할 가능성이 높으면 확률은 1 에 가까운 수로 표시하고, 반대로 발생할 가능성이 적으면 확률을 0 에 가까운 수로 표시한다. 어느 사건이 반드시 발생하면 확률은 1 로 정하고, 전혀 발생하지 않으면 확률은 0 으로 정한다. 구체적으로 ‘어느 사건의 확률을 0과 1사이의 어떤 값으로 정하느냐’ 하는 방법에는 여러 가지가 있는데, 여기서는 확률의 고전적 정의와 상대도수를 이용한 정의 두 가지를 소개하고 이를 이용하여 확률을 계산하는 예를 살펴보자.

확률의 고전적 정의
표본공간의 모든 원소가 일어날 가능성이 같다고 하자. 사건 A가 발생할 확률($\mathrm{P(A)}$로 표시)은 이산형 표본공간의 경우에

${P}\left({A}\right){=}\frac{사건A에 속하는 원소의 개수}{표본공간의 전체원소의 개수}$

연속형 표본공간의 경우에

${P}\left({A}\right){=}\frac{사건A에 속하는 원소에대한측도}{표본공간의 전체원소에대한 개수}$

로 정의한다. 여기서 측도란 길이, 면적, 부피 등을 뜻한다.

[예 5.1.1] 한 회사원이 어느 도시에 출장을 갔는데 숙소 근처에 2개의 식당 (식당 1, 식당 2)이 있다. 어느 식당을 갈 것인지 망설이다가 주사위를 던져 윗면에 나타나는 점의 수를 세어 홀수가 나오면 식당1, 짝수이면 식당2로 간다고 할 때 식당1이 뽑힐 확률은?
[풀이]

주사위를 던져 윗면에 나타나는 점의 수를 세어보는 통계적 실험의 표본공간은 {1, 2, 3, 4, 5, 6}이고, 홀수가 나올 사건은 {1, 3, 5}이므로 원소수가 3개이다. 따라서 식당1이 뽑힐 확률은 3/6 = 1/2 이다.

[예 5.1.2] 매주 일요일에 집에서 피자를 주문한다. 피자가 집에 배달되는데 걸리는 시간은 10분에서 30분까지 어느 시간이나 같은 가능성을 갖는다(소수이하 자리수 가능). 피자배달이 20분에서 25분 사이에 배달될 확률은?
[풀이]

이 예의 표본공간은 10에서 30분까지의 모든 실수(집합표시로 {(10,30)})이고, 피자가 20분에서 25분 사이에 배달되는 사건은 {(20,25)}이다. 따라서 이 사건의 확률은 구간의 거리를 측도로 하여 (25-20)/(30-10) = 0.25 이다.

확률의 고전적 정의는 대개의 현실문제 확률계산에 큰 문제점이 없다. 그러나 고전적 정의에서 표본공간의 모든 원소가 발생할 가능성이 같다는 가정은 성립이 안되는 경우가 있을 수 있다. 예를 들면, 동전을 던지면 ‘앞’과 ‘뒤’가 나오는 것이 보통이지만 아주 드물게 ‘모서리’로 서는 경우도 있을 수 있다. 이것을 고려해 표본공간을 {‘앞’, ‘뒤’, ‘모서리’}라 하면 이때는 표본공간의 각 원소가 발생할 가능성이 같다는 가정은 맞지 않는다. 이러한 문제를 해결하기 위한 것이 확률의 상대도수적 정의이다.

확률의 상대도수적 정의
사건 A가 발생할 확률($\mathrm{P(A)}$로 표시)은 같은 조건하에서 통계적 실험을 수없이 많이 반복시행하였을 때 사건 A가 발생하는 비율 즉, 상대도수이다.

이 정의를 이용하면 동전던지기 예에서 ‘모서리’로 서는 경우도 설명이 가능하다. 즉, 동전을 1만번 던졌을 때 ‘앞’이 4980번, ‘뒤’가 5018번, ‘모서리’가 2번 나왔다면 P(‘앞’) = 4980/10000, P(‘뒤’) = 5018/10000, P(‘모서리’)= 2/10000 로 정의된다. 반복시행을 더욱 많이 하면 상대도수를 이용한 확률의 정의는 고전적 정의에 의한 확률값에 거의 근사하게 된다. <그림 5.1.1>은 『eStatU』를 이용한 동전던지기 실험의 시뮬레이션이다. 동전의 겉이 나오는 확률이 동전을 많이 던졌을 때 1/2에 수렴하는 것을 대수의 법칙(law of large number)이라한다.

[그림 5.1.1] 『eStatU』대수의 법칙 시뮬레이션

5.2 확률의 계산

이산형 표본공간의 경우 어느 사건의 확률을 구하기 위해서는 표본공간의 원소수와 이 사건에 포함되는 원소수를 세어야 한다. 표본공간의 모든 가능한 결과가 많지 않을 때는 간단히 확률을 계산할 수 있지만 일반적으로는 가능한 결과의 수를 세는 것이 쉽지 않다. 여러 가지 복잡한 경우의 수를 세는 효과적 방법에는 순열 및 조합이 있다.

순 열
n개의 사물 중 r개를 선택해 순서를 고려해 나열하는 방법의 수를 순열(permutation)이라 하고 다음과 같이 계산된다.

${}_{n}{\mathit{P}}_{r}{=}{n}\left({{n}{-}{1}}\right)\left({{n}{-}{2}}\right)\cdots\left({{n}{-}{r}{+}{1}}\right){=}\frac{n!}{\left({{n}{-}{r}}\right){!}}$

그러므로 n개를 모두 나열하는 방법의 수는 다음과 같다.

${}_{n}{\mathit{P}}_{n}{=}{n}\left({{n}{-}{1}}\right)\left({{n}{-}{2}}\right)\cdots{2}\cdot{1}{=}{n}{!}$

참고: ${0}{!}{=}{1}$ 로 정의한다.

조 합
n개의 사물 중 r개를 순서를 고려치 않고 추출하는 방법의 수를 조합 (combination)이라 하고 다음과 같이 계산된다.

${}_{n}{C}_{r}{=}\frac{{}_{n}{\mathit{\rho}}_{r}}{r!}{=}\frac{n!}{{r}{!}\left({{n}{-}{r}}\right){!}}$

[예 5.2.1] 네 사람 A, B, C, D를 나란히 있는 네 개의 의자에 배치시키려고 한다. 네 사람을 배치시키는 전체 경우의 수와, 이 중 A가 제일 왼쪽에 배치될 경우의 수를 구하라. A가 제일 왼쪽에 배치되는 확률은 얼마인가?
[풀이]

이 문제에서 표본공간의 원소수는 다음과 같다.(제일 왼쪽에 배치될 수 있는 사람의 수)
× (왼쪽을 제외하고 두번째 자리에 배치될 수 있는 사람의 수)
× (왼쪽 두 사람을 제외하고 세번째 자리에 배치될 수 있는 사람의 수)
× (왼쪽 세 사람을 제외하고 오른쪽에 배치될 수 있는 사람의 수)
= 4 × 3 × 2 × 1 = 4! = 24A가 왼쪽에 배치되는 사건은 A를 제외하고 나머지 3사람을 두 번째, 세 번째, 오른쪽 자리에 배치되는 수이므로 3×2×1 = 3! 이다. 그러므로, A가 제일 왼쪽에 배치될 확률은 3! / 4! = 6/24 = 0.25 이다.

[예 5.2.2] 어느 회사에 경비원이 4명(A, B, C, D)있다. 매일 아침 이들 경비원 중 두 사람을 임의로 뽑아 둘 중 한사람은 정문, 다른 사람은 후문경비로 배치한다. 4명을 정문과 후문에 배치시키는 전체 경우의 수와 이중 A가 정문에 배치되는 경우의 수를 구하라. A가 정문에 배치될 확률은?
[풀이]

이 문제에서 표본공간의 원소수는 다음과 같다.(정문에 배치될 수 있는 사람의 수)
× (정문에 배치된 사람을 제외하고 후문에 배치될 수 있는 사람의 수)
= 4 × 3 =${}_{4}{\mathit{P}}_{2}$ = 12A가 정문에 배치될 사건의 원소수는 A를 정문에 배치하고 나머지 세 사람 중 한 명을 후문에 배치하면 되므로 ${}_{3}{\mathit{P}}_{1}=3$ = 3 이 된다. 즉, 어느 날 A가 정문에 배치될 확률은 다음과 같다.

$\frac{\begin{array}{c}{{}_{3}{\mathit{P}}_{1}}\end{array}}{\begin{array}{c}{{}_{4}{\mathit{P}}_{2}}\end{array}}{=}\frac{{3}\times{1}}{{4}\times{3}}{=}\frac{1}{4}$

순열과 조합이외에 복잡한 확률의 계산에는 몇 가지 계산법칙이 있는데 아래의 예를 이용하여 알아보자.

[예 5.2.3] 이번 학기에 통계학과 2학년 학생 40명 중 경제학을 수강하는 학생이 25명, 정치학을 듣는 학생이 30명, 두 과목을 모두 수강하는 학생이 20명이었다. 통계학과 2학년 학생 한사람을 만났을 때 이 학생이 경제학 또는 정치학을(즉, 둘 중 한 과목이나 두 과목 모두) 수강할 확률은?
[풀이]

두 과목 모두 수강하는 사람이 20명이므로 경제학만 수강하는 사람은 25 – 20 = 5명, 정치학만 수강하는 사람은 30 – 20 = 10명이다. 따라서 <그림 5.2.1>과 같이 경제학 또는 정치학을 수강하는 학생수는 5 + 10 + 20 = 35명이다. 그러므로 경제학 또는 정치학을 듣는 학생들의 확률은 35/40가 된다.

[그림 5.2.1] 경제학 또는 정치학을 수강하는 학생

학생이 경제학을 수강하는 사건을 A, 정치학을 수강하는 사건을 B라고 하자. 두 과목 모두 수강하는 사건을 A ∩ B 로 표시하고 A와 B의 공통집합(intersection set)이라 부른다. <그림 5.2.2>는 사건 A ∩ B 의 그림이다.

[그림 5.2.2] 사건 A ∩ B의 그림

학생이 경제학 또는 정치학을 수강(둘 중 한 과목이나 두 과목 모두)하는 사건을 A ∪ B 로 표시하고 A와 B의 합집합(union set)이라 부른다. <그림 5.2.3>은 사건 A ∪ B 의 그림이다.

[그림 5.2.3] 사건 A ∪ B의 그림

이 사건들의 확률은 문제에 주어진 조건에서 다음과 같다.

P(A) = 25/40 P(B) = 30/40
P(A ∩ B) = 20/40 P(A ∪ B) = 35/40

여기에서 P(A ∪ B)의 확률 35/40 는 그림을 잘 살펴보면 다음과 같음을 알 수 있다.

P(A ∪ B) = P(A) + P(B) - P(A ∪ B)
= 25/40 + 30/40 - 20/40 = 35/40

즉, 경제학을 수강할 확률과 정치학을 수강할 확률은 두 과목 모두 수강할 확률을 각각 포함하고 있으므로, A ∪ B 의 확률을 구할 때 두 확률을 더한 후 두 과목 모두 수강할 확률을 한번 빼야 한다.

위 예와 같은 확률 계산법칙을 덧셈법칙이라 한다.

확률의 덧셈법칙

${P}{(}{A}\cup{B}{)}{=}{P}{(}{A}{)}{+}{P}{(}{B}{)}{-}{P}{(}{A}\cap{B}{)}$

만일 ${A}\cap{B}{=}\varnothing$ 일 때는

${P}{(}{A}\cup{B}{)}{=}{P}{(}{A}{)}{+}{P}{(}{B}{)}$

이고, 사건 A, B를 서로 배반사건(mutually exclusive events)이라 한다.

[예 5.2.4] [예 5.2.3]에서 경제학을 수강하는 학생이 10명, 정치학을 듣는 학생이 20명, 두 과목을 모두 수강하는 학생이 없다면 한 학생을 만났을 때 경제학 또는 정치학을 수강할 확률은?
[풀이]

이 경우에는 두 과목 모두 수강하는 학생이 없으므로 경제학을 수강하는 사건(A)과 정치학을 수강하는 사건(B)은 서로 배반이다. 따라서 경제학 또는 정치학을 수강할 사건 (A U B)의 확률은 다음과 같다.

P(A U B) = P(A) + P(B) = 10/40 + 20/40 = 0.75

그밖에 많이 이용되는 확률의 곱셈법칙을 아래의 예를 이용하여 알아보자.

[예 5.2.5] 통계학과 2학년 학생 30명 중 남학생이 10명, 여학생이 20명인데, 남학생 중 1명, 여학생 중 5명이 지방출신이라고 한다.

1) 한 학생을 뽑았을 때 이 학생이 지방출신일 확률은?
2) 한 학생을 뽑았더니 여자였다. 이 학생이 지방출신일 확률은?
3) 한 학생을 뽑았더니 지방출신이었다. 이 학생이 남자일 확률은?
4) 한 학생을 뽑았을 때 남자이며 서울출신일 확률은?

[풀이]

이 문제를 풀기 위해서는 주어진 정보를 아래와 같은 분할표로 정리하면 편리하다.

서울출신 지방출신
남자 —– 1 10
여자 —– 5 20
—– —– 30

따라서 빈칸을 계산하여 넣으면 아래와 같다.

서울출신 지방출신
남자(M) 9 1 10
여자(F) 15 5 20
24 6 30

여기서 한 학생을 뽑았을 때 남자일 사건을 M, 여자일 사건을 F, 서울출신일 사건을 S, 지방출신일 사건을 C라고 하자. 그러면 문 1)은 P(C) = 6/30 이다. 문 2)는 여학생중 지방출신의 확률이므로 5/20 가 된다. 이 확률을 P(C∣F)로 표시하고 조건부확률(conditional probability)이라 부른다. 문 3)은 지방출신중 남자의 확률이므로 P(M∣C) = 1/6 이 된다. 문 4)는 P(M ∩ S)로서 분할표를 보면 답이 9/30 임을 금방 알 수 있다. 다른 방법으로는 먼저 전체 학생 중 남자일 확률을 구한 후(10/30), 남자 중 서울출신의 조건부확률(P(S∣M) = 9/10)을 곱해도 된다. 즉,

P(M ∩ S) = P(M) P(S∣M) = (10/30) × (9/10) = 9/30

이 표현은 조건부확률 P(S∣M)은 P(M ∩ S) 를 P(M)으로 나누어도 계산할 수 있음을 보여준다.

${P}{(}{S}\shortmid{M}{)}{=}\frac{{P}\left({{M}\cap{S}}\right)}{{P}\left({M}\right)}{=}\frac{9/30}{10/30}{=}\frac{9}{10}$

또, 확률 P(M ∩ S)는 먼저 서울출신일 확률(P(S)=24/30)을 구한 후, 서울출신 중 남자일 확률(P(M∣S) = 9/24)을 곱해도 된다.

P(M ∩ S) = P(S) P(M∣S) = (24/30) × (9/24)

조건부확률을 일반적으로 정의하면 다음과 같다.

조건부확률

${P}\left({A|B}\right){=}\frac{{P}\left({{A}\cap{B}}\right)}{{P}\left({B}\right)}$

단, $P(B)\ne0$일 경우에만 정의된다.

위 예에서 공통집합의 확률을 다른 확률의 곱으로 표시하였는데 이것을 확률의 곱셈법칙이라고 한다. 정리하여 보면 다음과 같다.

확률의 곱셈법칙

P(A ∩ B) = P(A) P(B|A) = P(B) P(A|B)

만일 P(B|A) = P(B)이면 사건 A와 B를 서로 독립사건(independent event)이라고 한다. 이 때는

P(A ∩ B) = P(A) P(B)

로 쓸 수 있다.

[예 5.2.6] 프로야구 호랑이팀이 최근 사자팀을 이길 확률이 0.7이라 하자. 오늘 저녁 두 팀이 2게임 연속 시합을 했을 때 호랑이팀이 모두 이길 확률은? 단, 한 게임을 이긴 것이 다음 게임을 이기는 데는 영향이 없다고 가정하자.
[풀이]

게임에서 호랑이팀이 이기는 사건을 A, 둘째 게임에서 호랑이팀이 이기는 사건을 B라 하면, 두 게임 모두 호랑이팀이 이길 확률은 A와 B가 서로 독립이므로 다음과 같다.

P(A ∩ B) = P(A) P(B) = 0.7 × 0.7 = 0.49

[예 5.2.7] 통계학과 2학년 학생 30명의 남녀별, 출신지역별 분할표가 다음과 같다.

서울출신(S) 지방출신(C)
남자(M) 5 5 10
여자(F) 10 10 20
15 15 30

한 학생을 뽑았을 때 남자일 사건과 서울출신일 사건이 서로 독립인가?

[풀이]

한 학생을 뽑았을 때 남자일 사건을 M, 여자일 사건을 F, 서울출신일 사건을 S, 지방출신일 사건을 C라 하자. 그러면

P(M ∩ S) = 5/30, P(M) = 10/30, P(S) = 15/30

이므로 다음 관계를 만족한다.

P(M ∩ S) = P(M) P(S)

따라서 남자일 사건과 서울출신일 사건은 서로 독립이다. P(M∣S) = 5/15 = 1/3, P(M)=10/30 이므로, P(M∣S) = P(M) 이 됨을 주목하라. 이 문제의 경우는 M과 C, F와 S, F와 C 모든 항목이 서로 독립이 된다. 이러한 경우에 두 가지 속성, 즉, ‘남녀별 분류’와 ‘출신지역별 분류’는 서로 독립이라고 한다. [예 5.2.5]에서는 남자인 경우 서울출신이 아주 많기 때문에 서로 독립이 되지 않는다.

다음은 여사건의 확률 계산법칙을 설명하기 위한 예이다.

[예 5.2.8] 6개의 제품이 들어있는 상자가 있는데 이중 2개가 불량품이라고 하자. 제품검사를 위해 3개를 추출하였을 때 적어도 1개의 불량품이 발견될 확률은? 검사를 위해 한번 추출한 제품은 다시 넣지 않는 비복원추출이라고 가정하자.
[풀이]

3개의 제품검사에서 한 개의 불량품이 발견될 확률은 (${}_{4}C_{2}$ × ${}_{2}C_{1}$) / ${}_{6}C_{3}$ = 3/5 이었다. 또 두 개의 불량품이 발견될 확률은 (${}_{4}C_{1}$ × ${}_{2}C_{2}$) / ${}_{6}C_{3}$= 4/20 = 1/5 이다. 따라서 적어도 1개의 불량품이 발견될 확률은 3/5 + 1/5 = 4/5 이다.
이 확률을 구하는 다른 방법은 불량품이 하나도 없을 사건(이것을 적어도 1개의 불량품이 발견될 사건의 여사건이라고 함)의 확률을 구한 다음 1 에서 빼 주는 것이다. 즉, 적어도 1개의 불량품이 발견될 확률은 다음과 같다.

1 - (${}_{4}C_{3}$ / ${}_{6}C_{3}$) = 1 – (4/20) = 4/5

위 예에서 사용한 방법을 여사건(complement event)을 이용한 확률계산이라 하며 ‘적어도’라는 말이 들어있는 확률을 구할 때 많이 이용된다. <그림 5.2.4>가 여사건의 그림이다.

여사건을 이용한 확률계산
$A^{c}$를 사건 $A$의 여사건(나머지 사건)이라 할 때

$P\left({A^{c}}\right)=1-P(A)$


[그림 5.2.4] 여사건 $A^c$그림

 

5.3 이산형 확률변량

우리 주변에서 자주 관찰되는 통계적인 실험에 관해서는 비슷한 확률계산 규칙을 가진 경우가 많다. 예를 들어, 동전을 여러 번 던져 앞이 몇 번 나오는지 살펴보는 문제는 공장의 제품생산라인에서 추출된 제품 중에 불량품의 개수가 몇 개 있는지 세는 것과 유사하다. 또 이 문제는 유권자 중에서 특정후보를 지지하는 사람의 수를 세는 문제와 유사하다. 이 절에서는 이와 같은 확률계산 중 이산형 표본공간에서 많이 나타나는 확률계산에 대하여 알아보자.

동전 두개를 반복해서 던지는 통계적 실험을 생각하여 보자. 동전들이 이상적일 경우에 이 실험의 표본공간은 {‘뒤뒤’, ‘앞뒤’, ‘뒤앞’, ‘앞앞’}이고, 표본공간의 각 원소가 나오는 사건의 확률은 고전적 정의에 의해 1/4 이다. 대개 이러한 예에서 우리가 관심을 갖는 사실은 앞 또는 뒤가 나오는 회수일 것이다. X를 ‘앞이 나오는 회수’라고 정의하면, X의 가능한 값은 0, 1 또는 2 가 될 수 있다. 이와 같이 표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 함수를 확률변량(random variable)라 한다. (표 5.3.1 참조).

확률변량은 표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 함수

[표 5.3.1] 확률변량 X = ‘동전을 2개 던졌을 때 {앞}이 나오는 회수’

표본공간 X={앞}이 나오는 회수
‘뒤뒤’ 0
‘앞뒤’ 1
‘뒤앞’ 1
‘앞앞’ 2

특히 위의 예처럼 확률변량의 가능한 값들이 유한개(finite) 또는 무한개이나 셀 수 있을(countably infinite) 때 이것을 이산형 확률변량(discrete random variable)라 한다. 확률변량의 가능한 값들이 무한개이며 셀 수 없을(uncountably infinite) 때 이를 연속형 확률변량(continuous random variable)이라 하는데 5.4절에서 자세히 알아본다.
위의 확률변량 X가 0 이 될 확률은 {‘뒤뒤’}가 될 사건의 확률이므로 1/4이고, X 가 1이 될 확률은 {‘앞뒤’, ‘뒤앞’}인 사건의 확률이므로 2/4, X가 2가 될 확률은 {‘앞앞’} 인 사건의 확률이므로 1/4이 된다. 이러한 확률변량 X의 값에 대한 확률을 표 5.3.2처럼 정리하여 놓은 것을 확률분포함수(probability distribution function)라 하고 대개 f(x)로 표시한다. <그림 5.3.1>은 f(x)의 그림이다.

[표 5.3.2] X=’동전을 2개 던졌을 때 {앞}이 나오는 회수’의 확률분포함수

1) 테이블 형태 표시 2) 함수 형태 표시
${X}{=}{x}$ ${P}{(}{X}{=}{x}{)}$
0 1/4
1 2/4
2 1/4
1
${{f}{(}{x}{)}{=}{1}{/}{4}{,}\hspace{0.33em}{x}{=}{0}}\\{{=}{2}{/}{4}{,}\hspace{0.33em}{x}{=}{1}}\\{{=}{1}{/}{4}{,}\hspace{0.33em}{x}{=}{2}}$


[그림 5.3.1] 확률변량 X = ‘{앞}이 나오는 회수’의 분포함수 그림

확률변량 X의 값이 증가하는 데에 따른 누적확률 즉, P(X ≤ x)의 값을 누적 확률분포함수(cumulative distribution function)라 하고 F(x) 로 나타낸다. 앞의 예에서 확률변량 X=‘동전을 2개 던졌을 때 {앞}이 나오는 회수’의 누적 확률분포함수는 표 5.3.3과 같다.

[표 5.3.3] X=’동전을 2개 던졌을 때 {앞}이 나오는 회수’의 누적 확률분포함수

1) 테이블 형태 표시 2) 함수 형태 표시
${X}{=}{x}$ ${P}{(}{X}{=}{x}{)}$
0 1/4
1 2/4
2 1/4
1
${{f}{(}{x}{)}{=}{0}{,}\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}{x}{<}{0}}\\{{=}{1}{/}{4}{,}\hspace{0.33em}\hspace{0.33em}{0}\leq{x}{<}{1}}\\{{=}{3}{/}{4}{,}\hspace{0.33em}\hspace{0.33em}{1}\leq{x}{<}{2}}\\{{=}{1}{,}\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}{2}\leq{x}}$


[그림 5.3.2] 동전을 2개 던졌을 때 {앞}이 나오는 회수의 누적확률분포함수

[예 5.3.1] 한 동네에 200가구가 살고 있다. 각 가구가 지난 일년동안 병원을 찾는 회수를 조사하여 보니 아래와 같다. 확률변량을 X = ‘병원방문회수’로 하여 확률분포함수와 누적 확률분포함수를 구하라.

병원방문회수 0 1 2 3 4
가 구 수 74 80 30 10 6
[풀이]

확률분포함수 누적 확률분포함수
${X}{=}{x}$ ${P}{(}{X}{=}{x}{)}$ ${X}{=}{x}$ ${P}{(}{X}{\leq}{x}{)}$
0 0.37 0 0.37
1 0.40 1 0.77
2 0.15 2 0.92
3 0.05 3 0.97
4 0.03 4 1.00
1.00

이산형 확률변량 X의 가능한 값이 $x_{1},x_{2},\cdots,x_{n}$ 일 때 이 값의 분포경향을 살펴보는데 사용하는 측도에 역시 평균과 분산이 사용된다. 평균을 기대값이라고도 부르며 E(X) 또는 $\mu$로 표시하고, 분산은 V(X) 또는 $\sigma^2$으로 표시하는데 그 계산공식은 다음과 같다. 표준편차 $\sigma$는 분산 $\sigma^2$의 제곱근이다.

${E}\left({X}\right){=}\mathit{\mu}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}P}\left({{X}{=}{x}_{i}}\right)$
${V}\left({X}\right){=}{\mathit{\sigma}}^{2}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{\left({{x}_{i}{-}\mathit{\mu}}\right)}^{2}}\hspace{0.33em}{P}\left({{X}{=}{x}_{i}}\right){=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}^{2}P}\left({{X}{=}{x}_{i}}\right){-}{\mathit{\mu}}^{2}$

 

[예 5.3.2] 앞에서 언급한 확률변량 X = ‘동전을 2개 던졌을 때 {앞}이 나오는 회수’의 기대값과 분산을 구하라.
[풀이]

확률변량 X 의 기댓값과 분산은 다음과 같다.
${\mathrm{E}}{(}{X}{)}{=}\mu{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}{\mathrm{P}}{(}{X}{=}{x}_{i}{)}}{=}{0}\times\frac{1}{4}{+}{1}\times\frac{2}{4}{+}{2}\times\frac{1}{4}{=}{1}$
${\mathrm{V}}{(}{X}{)}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{n}{{x}_{i}^{2}{\mathrm{P}}{(}{X}{=}{x}_{i}{)}{-}{\mu}^{2}}{=}{0}^{2}\times\frac{1}{4}{+}{1}^{2}\times\frac{2}{4}{+}{2}^{2}\times\frac{1}{4}{-}{1}^{2}{=}\frac{1}{2}$

확률변량 X의 기대값 E(X)와 분산 V(X)를 알 때, X의 상수곱 $a\mathrm{X}$나 상수를 합한 X +$b$의 기대값과 분산을 구하여야 할 필요가 자주 있다. 일반적으로 새로운 확률변량 $a\mathrm{X}+\textit{b}$의 기대값과 분산은 다음과 같다. 이러한 공식은 연속형 확률변량에도 똑같이 적용된다.

${\bf a}{\bf X}{\bf +b}$의 평균과 분산
$E\left({aX+b}\right)=aE\left({X}\right)+b$
$V\left({aX+b}\right)=a^{2}V\left({X}\right)$
여기서 $a$와 $b$는 임의의 상수
[예 5.3.3] 어느 학급의 통계학 중간고사 성적의 평균이 60점, 분산이 100 이었다. 점수를 상향조정하기 위해 다음 대안을 생각하고 있다. 각 대안의 평균과 분산을 구하라.
1) 각 학생의 점수에 20점씩 더한다.
2) 각 학생의 점수에 1.4를 곱한다.
3) 각 학생의 점수에 1.2를 곱한 후 10점을 더한다.
[풀이]

확률변량 X = ‘통계학 중간고사 성적’의 평균은 E(X) = 60, 분산은 V(X) = 100 이므로 문 1)은 새로운 확률변량 X + 20 의 평균과 분산을 구하는 것이다.
E(X + 20) = E(X) + 20 = 60 + 20
V(X + 20) = V(X) = 100
즉, 20점씩 더해주면 평균만 20점 오르고 분산에는 변동이 없다.
문 2)는 새 확률변량 1.4X 의 평균과 분산을 구하는 것이다.
E(1.4X) = 1.4 E(X) = 1.4 × 60 = 84
V(1.4X) = 1.42 V(X) = 1.96 × 100 = 196
즉, 1.4를 곱하면 평균은 1.4배, 분산은 1.42 배만큼 오른다.
문 3)은 확률변량 1.2X + 10 의 평균과 분산을 구하는 것이다.
E(1.2X + 10) = 1.2 E(X) + 10 = 1.2 × 60 + 10 = 82
V(1.2X + 10) = 1.22 V(X) = 1.44 × 100 = 144
즉, 1.2를 곱한 후 10점을 더하면 평균은 1.2배 더하기 10점, 분산은 1.22 배만큼 오른다. 점수를 더할 경우 평균은 변하지만 분산은 변하지 않음에 유의하라.

확률변량 X의 평균이 $\mu$, 표준편차 $\sigma$ 라 하자. 그러면 $(X-\mu{)}/\sigma$는 평균은 0, 분산은 1 인 확률변량이다. 이러한 변량을 표준화 확률변량(standardized random variable)라 한다.

표준화 변환
평균이 $\mu$, 표준편차가 $\sigma$인 확률변량 $X$가 있을 때 다음을 표준화 변환이라 한다.
${Z}{=}\frac{{X}{-}\mathit{\mu}}{\mathit{\sigma}}$
Z를 표준화 확률변량이라 부르는데 Z는 평균이 0, 분산이 1 이다.

이산형 확률분포로서 많이 이용되는 이항분포, 포아송분포, 기하분포, 초기하분포에 대하여 알아보자

5.3.1 이항분포

동전을 던져 앞이 몇 회나 나오는지 조사하는 실험과 매우 유사한 예들은 우리 주변에서 아주 많이 관찰된다. 다음의 예를 살펴보자.

– 공장에서 생산된 제품을 검사하여 불량품인지 양호품인지 분류한다.
– 한 유권자에게 특정후보에 대한 찬반을 물어본다.

이러한 예들은 각각의 실험이 결과는 무엇이 될지 모르지만, 모든 가능한 결과가 두 가지이고(표본공간이 {불량품, 양호품}, {찬성, 반대}), 이 실험이 반복된다는 것이다. 하지만 각 실험에서 결과가 나올 확률은 서로 다르다. 이러한 실험들을 특별히 베르누이 시행(Bernoulli trial)이라고 하는데, 흔히 두 가지 결과 중 관심 있는 결과를 ‘성공’으로 나머지 결과를 ‘실패’라 부른다. 대개 이러한 베르누이 시행은 다음과 같이 여러 번 반복되어 ‘성공’의 회수를 알아보는 경우가 많다.

– 동전을 5번 던져 앞이 나오는 회수를 조사한다.
– 공장에서 생산된 제품 100개를 검사하여 불량품의 개수를 세어본다.
– 유권자 50명 중 특정후보에 찬성하는 사람 수를 세어본다.

과학관에 가면 공을 위에서 떨어뜨려 한 곳에 부딪치면 1/2 확률로 좌측(0점) 또는 우측(1점)으로 떨어지게 하는 기구가 있다. 떨어진 공은 다시 1/2 확률로 좌측 우측으로 떨어진다. 100개의 공을 떨어뜨렸을 때 전체 점수의 합계를 조사해본다.


[그림 5.3.3] 『eStatU』의 이항분표 시뮬레이션

이와 같이 동일한 성공의 확률을 가진 베르누이 시행을 독립적으로 반복하여 실시할 때의 ‘성공의 회수’를 이항확률변량(binomial random variable)라고 하며, 그 분포를 이항분포(binomial distribution)라고 한다. 이러한 이항분포의 확률계산을 아래의 예를 통해 알아보자.

[예 5.3.4] 프로야구팀 ‘호랑이’가 올해 시즌에 ‘곰’팀과 앞으로 더 치르어야 할 게임수는 네 게임이다. 만일 호랑이팀이 매 게임 승리할 확률이 60%라면 호랑이팀이
1) 모두 질 확률은? 2) 한 번 이길 확률은?
4) 세 번 이길 확률은? 5) 네 번 모두 이길 확률은?
6) 확률변량 X = ‘호랑이가 승리하는 게임수’ 의 확률분포를 구하라.
[풀이]

이 문제는 매 게임이 ‘승’과 ‘패’의 베르누이 시행이다. 이 베르누이 시행을 네 번 반복한다. 표본공간은 네 게임의 승패에 관한 모든 가능성으로 모두 $2^4=16$개의 원소가 있다. 승을 O, 패를 X로 표시하여 표본공간을 적어보면 다음과 같다.S = {‘XXXX’,‘OXXX’,‘XOXX’,‘XXOX’,‘XXXO’,‘OOXX’,‘OXOX’,‘OXXO’,
‘XOOX’,‘XOXO’,‘XXOO’,‘OOOX’,‘OOXO’,‘OXOO’,‘XOOO’,‘OOOO’}따라서 문 1)은 호랑이가 모두 질 사건 {‘XXXX’}의 확률이므로 (0.4)×(0.4)×(0.4)×(0.4) = $(0.4)^4$ 가 된다.문 2)에서 호랑이가 한 번 이기고 세 번 질 확률은 (0.6)×(0.4)×(0.4)×(0.4) 이다. 호랑이가 한 번 이길 사건은 네 가지 경우 {‘OXXX’, ‘XOXX’, ‘XXOX’, ‘XXXO’}가 있다. 이 네 가지라는 것은 네 개의 자리가 있을 때 한 자리에 O 를 앉게 하는 경우의 수 $\mathrm{}_{4}C_{1}$과 같다. 그러므로 호랑이가 한 번 이길 확률은 $\mathrm{}_{4}C_{1}(0.6)(0.4)^3$ 이다.문 3)에서 호랑이가 두 번 이기고 두 번 질 확률은 (0.6)×(0.6)×(0.4)×(0.4) 이다. 그러나 호랑이가 두 번 이길 사건은 여섯 가지 경우 {‘OOXX’, ‘OXOX’, ‘OXXO’, ‘XOOX’, ‘XOXO’, ‘XXOO’}가 있다. 이 여섯 가지라는 것은 네 개의 자리가 있을 때 두 자리에 O를 앉게 하는 경우의 수 $\mathrm{}_{4}C_{2}$와 같다. 그러므로 호랑이가 두 번 이길 확률은 $\mathrm{}_{4}C_{2}(0.6)^2(0.4)^2$ 이다.문 4)에서 호랑이가 세 번 이기고 한 번 질 확률은 (0.6)×(0.6)×(0.6)×(0.4) 이다. 그러나 호랑이가 세 번 이길 사건은 네 가지 경우 {‘OOOX’, ‘OOXO’, ‘OXOO’, ‘XOOO’}가 있다. 이 네 가지라는 것은 네 개의 자리가 있을 때 세 자리에 O을 앉게 하는 경우의 수 $\mathrm{}_{4}C_{3}$과 같다. 그러므로 호랑이가 세 번 이길 확률은 $\mathrm{}_{4}C_{3}(0.6)^3(0.4)$이다.문 5)에서 호랑이가 네 번 이길 확률은 사건 {‘OOOO’}의 확률이므로 (0.6)×(0.6)×(0.6)×(0.6) 이다.문 6)의 확률변량 X = ‘호랑이가 승리하는 게임수’ 의 확률분포는 위의 사실을 정리한 것으로 아래와 같다.

$x$ $P(X=x)$
0 $\mathrm{}_{4}C_{0}(0.4)^4$ = 0.0256
1 $\mathrm{}_{4}C_{1}(0.6)(0.4)^3$ = 0.1536
2 $\mathrm{}_{4}C_{2}(0.6)^2(0.4)^2$ = 0.3456
3 $\mathrm{}_{4}C_{3}(0.6)^3(0.4)$ = 0.3456
4 $\mathrm{}_{4}C_{4}(0.6)^4$ = 0.1296
[예 5.3.5] 『eStatU』를 이용하여 [예 5.3.4]의 확률과 확률분포를 구하라.
[풀이]

『eStatU』의 주메뉴에서 이항분포를 선택하고 n = 4, p = 0.6을 입력하고 ‘실행’ 버튼을 누르면 <그림 5.3.4>와 같은 이항분포함수 그래프가 나타난다. 표 5.3.4는 ‘이항분포표’ 버튼을 클릭하였을 때 나타나는 표이다. 이 표를 이용하면 [예 5.3.4]의 이항분포 확률을 쉽게 구할 수 있다.


[그림 5.3.4] 『eStatU』를 이용한 n = 4, p = 0.6 이항분포 그래프

[표 5.3.4]  $n=4,p=0.6$ 일 때의 『eStatU』이항분포표

$n=4$ $p=0.600$
$x$ $P(X=x)$ $P(X\leq{x})$ $P(X\ge{x})$
0 0.0256 0.0256 1.0000
1 0.1536 0.1792 0.9744
2 0.3456 0.5248 0.8208
3 0.3456 0.8704 0.4752
4 0.1296 1.0000 0.1296

일반적으로 베르누이 시행을 $n$번 시행하였을 때 성공의 회수의 확률, 즉, 이항분포의 확률계산은 다음과 같다.

이항분포(Binomial Distribution)
성공의 확률이 $p$ 인 베르누이 실험을 $n$ 번 독립적으로 반복 시행하였을 때 ‘성공의 회수( $X$ )’가 $x$일 확률을 이항분포로 $B\left({n,p}\right)$로 표시한다.
$f\left({x}\right)={}_{n}C{}_{x}\ p^{x}\ {\left({1-p}\right)}^{n-x}\ ,\ \ x=0,1,2,\ldots ,n$
이항분포의 평균은 $E\left({X}\right)=np$이고, 분산은 $V\left({X}\right)=np\left({1-p}\right)$이다.

 

[예 5.3.6] 어느 보험회사의 영업사원이 고객을 만나 그 사람을 보험에 가입하게 할 확률은 과거의 경험으로 보아 20%이다. 오늘 아침 영업사원이 10명의 고객을 만날 예정이다. 다음 확률을 직접 계산한 후『eStatU』를 이용하여 확인하라
1) 세 사람이 보험에 가입할 확률은?
2) 두 사람 이상(≥)이 보험에 가입할 확률은?
3) 평균 몇 사람이 가입하겠는가? 또 그 표준편차는?
[풀이] 

n = 10, p = 0.2 인 이항분포이므로 문 1)의 세 사람이 가입할 확률은 다음과 같다.
P(X=3) = $_{10}C_{3}(0.2)^3(1-0.2)^10-3$ = 0.2013
문 2)는 두 사람 이상이므로 여사건의 확률을 이용하는 것이 좋다.
P(X ≥ 2) = 1 – P(X=0) – P(X=1)
= 1 – $_{10}C_{0}(0.2)^0(1-0.2)^10$ – $_{10}C_{1}(0.2)^1(1-0.2)^10-1$
= 1 – 0.1074 – 0.2684 = 0.6242
문 3)은 다음과 같다.
E(X) = np = 10 × 0.2 = 2
V(X) = np(1-p) = 10 × 0.2 × 0.8 = 1.6
표준편차 = $\sqrt{1.6}$ = 1.265
『eStatU』의 ‘이항분포’에서 n=10, p=0.2를 선택하고 ‘실행’ 버튼을 클릭하면 <그림 5.3.6>과 같은 그래프가 나타난다. ‘확률표시’를 선택하면 이항분포 확률이 각 막대에 표시되는데 문 1)의 값을 확인할 수 있다.

[그림 5.3.6] 『eStatU』의 , 인 이항분포
‘이항분포표’ 버튼을 누르면 표 5.3.5와 같은 이항분포표가 나타난다. 여기서 문 2)의 P(X ≥ 2) = 0.6242임을 확인할 수 있다.
[표 5.3.5] $n=10,p=0.2$ 일 때의 『eStatU』이항분포표

$n=10$ $p=0.200$
$x$ $P(X=x)$ $P(X\leq{x})$ $P(X\ge{x})$
0 0.1074 0.1074 1.0000
1 0.2684 0.3758 0.8926
2 0.3020 0.6778 0.6242
3 0.2013 0.8791 0.3222
4 0.0881 0.9672 0.1209
5 0.0264 0.9936 0.0328
6 0.0055 0.9991 0.0064
7 0.0008 0.9999 0.0009
8 0.0001 1.0000 0.0001
9 0.0000 1.0000 0.0000
10 0.0000 1.0000 0.0000

이항분포 함수 $f(x)$에서 $n$과 $p$를 이항분포의 모수(parameter)라 한다. <그림 5.3.5>는 여러 가지 시행회수($n$)와 성공확률($p$)에 대해 이항분포를 그려본 것이다.

[그림 5.3.5] 여러 가지 $n$, $p$값에 대한 이항분포

$n$의 값이 커지면 계산기를 이용하여도 이항분포의 확률을 계산하기가 쉽지 않다. 『eStatU』패키지에서는 $n\le{100}$인 경우의 확률을 쉽게 구할 수 있다.

[예 5.3.7] 한 공장에서 생산되는 전자 부품의 불량률이 5%이다. 이 부품을 50개 담은 상자가 있을 때 『eStatU』를 이용하여 다음 확률을 구하라.
1) 불량품이 없을 확률은?
2) 불량품이 1개에서 3개가 있을 확률은?
3) 3개 이상(≥) 있을 확률은?
[풀이]

『eStatU』의 ‘이항분포’에서 n=50, p=0.05를 선택하고 ‘실행’ 버튼을 클릭하면 <그림 5.3.7>과 같은 그래프가 나타나고 이때 ‘이항분포표’를 선택하면 표 5.3.6이 나타난다. 이 표에서 문 1)은 P(X=0) = 0.0769 임을 쉽게 알 수 있다.

[그림 5.3.7] 『eStatU』의 , 인 이항분포

[표 5.3.6] $n=50,p=0.05$ 일 때의 『eStatU』이항분포표

$n=50$ $p=0.050$
$x$ $P(X=x)$ $P(X\leq{x})$ $P(X\ge{x})$
0 0.0769 0.0769 1.0000
1 0.2025 0.2794 0.9231
2 0.2611 0.5405 0.7206
3 0.2199 0.7604 0.4595
4 0.1360 0.8964 0.2396
$\cdots$  $\cdots$ $\cdots$ $\cdots$

문 2)는 P( 1 $\le$ X $\le$ 3) 이므로 다음과 같이 계산할 수 있다.
P( 1 $\le$ X $\le$ 3) = P( X $\le$ 3) – P( X $\le$ 0)
= 0.7604 – 0.0769 = 0.6835
이 경우에는 P(X=1) + P(X=2) + P(X=3) 로 구해도 된다.
문 3)은 표 5.3.6을 이용하면 쉽게 P(X $\ge$ 3) = 0.4595임을 알 수 있다. 다음과 같이 여사건의 확률을 이용할 수도 있다.
P(X $\ge$ 3) = 1 – P( X $\le$ 2) = 1 – 0.5405 = 0.4595

이항분포의 $n$이 100보다 큰 경우에 확률계산은 『eStatU』를 이용하여도 구할 수 없다. 이러한 경우에는 평균이 $np$, 분산이 $np(1-p)$인 정규분포를 이용하여 근사적으로 구할 수 있는데 5.4.2절에서 살펴보자.

5.3.2 포아송분포

우리 주변에서 자주 관찰되는 다음과 같은 사건의 예를 생각하여 보자.

– 어느 대학 통계학과 사무실에 오전 9시에서 10시 사이에 걸려오는 전화의 수를 매일 조사하여 본다.
– 어느 교차로에서 발생하는 1일 교통사고의 수를 1년 동안 조사한다.
– 옷감의 단위 길이 당 발생하는 불량품의 수를 조사한다.

이러한 통계적 실험의 공통점은 단위시간 또는 단위면적, 단위시간당 발생하는 한 사건(‘전화가 걸려옴’, ‘교통사고가 발생’, ‘기계가 고장’)의 수를 조사하는 것이다. 이러한 ‘단위시간당 발생하는 사건의 회수’를 나타내는 확률변량을 포아송 확률변량(Poisson random variable)이라고 하며, 그 분포를 포아송분포(Poisson distribution) 라고 한다.

포아송분포는 여러 분야에 걸쳐 이용되고 있는데 몇 가지를 예를 적어보면 다음과 같다.

– 어느 가게에서 매일 팔리는 한 상품 수요
– 한 책에서 각 쪽에 발생하는 오자의 수
– 한 공장에서 일주일 동안 발생하는 사고의 수
– 옷감의 단위 길이 당 발생하는 불량품의 수
– 방사능 물질의 방사능 입자 방출 수

이러한 포아송분포의 확률계산은 다음과 같은 분포함수 식을 이용하여 계산할 수 있다.

포아송분포(Poisson Distribution)
단위시간당 ‘성공의 회수’가 평균 $m$ 이라고 할 때 포아송 확률변량 X=’단위시간당 성공의 회수’의 분포는 다음과 같다.
${f}\left({x}\right){=}\frac{{e}^{{-}{m}}{m}^{x}}{x!}\hspace{0.33em}{,}\hspace{0.33em}\hspace{0.33em}{X}{=}{0}{,}{1}{,}{2}{,}\ldots$
이 분포의 평균은 $E(X)=m$, 분산은 $V(X)=m$ 이다.

포아송 분포함수에서 평균성공회수 $m$을 포아송분포의 모수라 한다. 포아송분포의 평균과 분산이 $m$으로 같음에 유의하라. <그림 5.3.8>은 여러 가지 $m$ 값에 대한 포아송분포를 『eStatU』로 그린 것이다.

[그림 5.3.8-1] $m=0.4$ 포아송분포

<그림 5.3.8-2> $m = 1.0$ 포아송분포

[그림 5.3.8-3] $m=1.5$ 포아송분포

<그림 5.3.8-4> $m = 2.0$ 포아송분포

이항분포와 포아송분포는 매우 밀접한 관계가 있다. 수학적으로 $n$ 이 매우 크고 $p$가 아주 작으면 이항분포함수는 포아송분포함수가 됨을 보일 수가 있는데 자세한 증명에 관심이 있는 사람은 수리통계학 교재를 참조하기 바란다.

[예 5.3.8] 출근시간에 어느 고속도로 요금계산소에 1분동안 도착하는 차의 수가 평균 5대인 포아송분포를 한다고 하자. 어느날 출근시간에 1분간 조사하였을 때, 다음 확률을 계산하라.
1) 차가 한 대도 도착하지 않을 확률은?
2) 차 5대가 도착할 확률은?
3) 차 2대 이상(≥) 도착할 확률은?
[풀이] 

X를 $m$ = 5인 포아송 확률변량이라 할 때,
1) P(X = 0) = f(0) = $\frac{e^{-5}5^0}0!$ = 0.0067
2) P(X = 5) = f(5) = $\frac{e^-55^5}5!$ = 0.1755
3) P(X ≥ 2) = 1 – P(X ≤ 1)
= 1 – P(X=0) – P(X=1)
= 1 – 0.0067 – 0.0337 = 0.9596

[예 5.3.9] 우리나라 남부지역에 한 해 동안 태풍이 지나가는 수는 평균 $m$=2.5 회인 포아송분포를 한다고 하자. 다음 확률을 『eStatU』를 이용하여 확인하라.

1) 올해 태풍이 한 번 지나갈 확률은?
2) 올해 태풍이 두 번 또는 네 번 지나갈 확률은?
3) 올해 태풍이 두 번 이상(≥) 지나갈 확률은?

[풀이] 

『eStatU』메뉴에서 ‘포아송분포’를 선택하고 $m$ = 2.5를 선택한 후 ‘실행’ 버튼을 클릭하면 <그림 5.3.9>와 같은 그래프가 나타나고 이때 ‘포아송분포표’를 선택하면 표 5.3.7이 나타난다.

[그림 5.3.9] 『eStatU』의 인 포아송분포

[표 5.3.7] $m=2.5$ 인 포아송분포표의 일부

$m=2.5$
$x$ $P(X=x)$ $P(X\leq{x})$ $P(X\ge{x})$
0 0.0821 0.0821 1.0000
1 0.2052 0.2873 0.9179
2 0.2565 0.5438 0.7127
3 0.2138 0.7576 0.4562
4 0.1336 0.8912 0.2424
$\cdots$ $\cdots$ $\cdots$ $\cdots$

이 표에서 문 1)은 P(X=3) = 0.0821 임을 쉽게 알 수 있다.
문 2)는 P( 2 $\le$ X $\le$ 4) 이므로 다음과 같이 계산할 수 있다.
P( 2 $\le$ X $\le$ 4) = P( X $\le$ 4) – P( X $\le$ 1)
= 0.8912 – 0.2873 = 0.6039
이 경우에는 P(X=2) + P(X=3) + P(X=4) 로 구해도 된다.
문 3)은 표 5.3.7을 이용하면 쉽게 P(X $\ge$ 2) = 0.7127임을 알 수 있다. 다음과 같이 여사건의 확률을 이용할 수도 있다.
P(X $\ge$ 2) = 1 – P( X $\le$ 1) = 1 – 0.2873 = 0.7127

5.3.3 기하분포

이항분포는 동전을 $n$번 던졌을 때 앞면이 몇 회나 나오는지에 대한 확률분포이다. 이와는 달리 동전을 앞면이 나타날 때까지 던지는 회수가 관심의 대상이 될 수도 있다. 다음의 예를 살펴보자.

– 한 선거에서 어느 후보의 지지율이 40%라고 한다. 이 후보를 반대하는 사람의 의견을 듣기위해 유권자를 면접하였을 때 5번 만에 반대하는 사람을 찾을 확률은?
– 한 공장에서 생산된 제품에서 불량률은 약 5%라고 한다. 불량품의 원인을 조사하기 위해 불량품을 찾을 때까지 계속 제품을 검사할 때 10번 만에 불량품을 찾을 확률은?

이러한 예들은 이항분포와 마찬가지로 각각의 실험이 결과는 무엇이 될지 모르지만 모든 가능한 결과가 두 가지이고(즉, 표본공간이 {찬성, 반대}, {불량품, 양호품}) 이 실험이 반복되는 베르누이 시행(Bernoulli trial)이다. 각 실험에서 결과가 나올 확률은 서로 다른데 두 가지 결과 중 관심 있는 결과를 ‘성공’으로 나머지 결과를 ‘실패’라 부른다. 베르누이 시행에서 ‘성공이 나타날 때까지 실험의 수’에 대한 확률분포를 기하분포(geometric distribution)라 부른다.

기하분포에서 ‘성공의 확률’ $p$를 기하분포의 모수라고 한다. 이러한 기하분포의 분포함수 식은 다음과 같다.

기하분포(Geometric Distribution)
베르누이 시행에서 ‘성공‘의 확률이 $p$ 일 때 ’성공‘이 나타날 때까지의 베르누이 시행회수를 확률변량 X라 할 때 이 분포는 다음과 같다.
${f}\left({x}\right){=}{\left({{1}{-}{p}}\right)}^{{x}{-}{1}}{p}{,}\hspace{0.33em}{X}{=}{1}{,}{2}{,}\ldots$
이 분포의 평균은 E(X) = $\frac{1}{p}$ , 분산은 V(X) = $\frac{{1}{-}{p}}{{p}^{2}}$이다.

<그림 5.3.10>은 여러 가지 $p$값에 대한 기하분포를 그린 것이다.

[그림 5.3.10-1] $p=0.2$ 기하분포

[그림 5.3.10-2] $p=0.5$ 기하분포

[그림 5.3.10-3] $p=0.8$ 기하분포

[예 5.3.10] 한 선거에서 어느 후보의 지지율이 40%라고 한다. 이 후보를 반대하는 사람의 의견을 듣기위해 유권자를 면접하였을 때 다음 확률을 구하라.
1) 1번 만에 반대하는 사람을 찾을 확률은?
2) 5번째에 반대하는 사람을 찾을 확률은?
[풀이] 

X를 $p$ = 0.4인 기하 확률변량이라 할 때,
1) P(X = 1) = f(1) = $(1-0.4)^{1-1}0.4$ = 0.4
2) P(X = 5) = f(5) = $(1-0.4)^{5-1}0.4$ = 0.0518

[예 5.3.11] 한 공장에서 생산된 제품에서 불량률은 약 5%라고 한다. 불량품의 원인을 조사하기 위해 불량품을 찾을 때까지 계속 제품을 검사할 때 『eStatU』를 이용하여 다음 확률을 구하라.
1) 3번 만에 불량품을 찾을 확률은
2) 3번 이상에 불량품을 찾을 확률은?
[풀이] 

『eStatU』메뉴에서 ‘기하분포’를 선택하고 모수 $p$ = 0.05를 선택한 후 ‘실행’ 버튼을 클릭하면 <그림 5.3.11>과 같은 그래프가 나타나고, ‘기하분포표’를 선택하면 표 5.3.8이 나타난다.

[그림 5.3.11] $p=0.05$ 기하분포

[표 5.3.8] $p=0.05$인 기하분포표의 일부

$p=0.05$
$x$ $P(X={x})$ $P(X\le{x})$ $P(X\ge{x})$
1 0.0500 0.0500 1.0000
2 0.0475 0.0975 0.9500
3 0.0451 0.1426 0.9025
4 0.0429 0.1855 0.8574
5 0.0407 0.2262 0.8145
$\cdots$ $\cdots$ $\cdots$ $\cdots$

이 표에서 문 1)은 P(X=3) = 0.0451 임을 쉽게 알 수 있다.
문 2)는 P(X $\ge$ 3) = 0.9025임을 알 수 있다. 다음과 같이 여사건의 확률을 이용할 수도 있다.

P(X $\ge$ 3) = 1 – P( X $\le$ 2) = 1 – 0.0975 = 0.9025

5.3.4 초기하분포

공장에서 생산된 제품을 검사하여 불량품인지 아닌지를 조사하는 통계적 실험을 생각하여 보자. 예를 들어, 20개의 제품(불량품 15개, 우량품 5개)중 3개를 추출하였을 때 이중 불량품이 한 개 들어 있을 확률은 제3장에서 배운 조합을 이용하여 다음과 같이 계산된다.

$\frac{_{15}C_{1}\times_{5}C_{2}}{_{20}C_{3}}$
이와 같이 유한개의 모집단에서 불량품의 수(‘성공의 회수’)를 세는 확률변량을 초기하 확률변량(hypergeometric random variable)이라 하고, 그 분포를 초기하분포(hypergeometric distribution)라 한다. 이러한 초기하분포의 확률계산은 일반적으로 다음과 같이 할 수 있다.

 

초기하분포(Hypergeometric Distribution)
크기 $N$인 모집단(속성이 ‘성공’인 것이 $D$개, 아닌 것이 $(N-D)$개)에서 $n$개를 추출할 때
‘성공의 회수(X)’가 x일 확률은 다음과 같다.
${f}\left({x}\right){=}\frac{{}_{D}{C}_{x}\hspace{0.33em}\hspace{0.33em}{}_{{N}{-}{D}}{C}_{{n}{-}{x}}}{{}_{N}{C}_{n}}$
$p=D/N$라 할 때, 초기하분포의 평균은 $E(X)=np$, 분산은 $V(X)=np(N-n)/(N-1)$이다.

초기하분포 함수식에서 $N$, $D$, $n$ 을 초기하분포의 모수라 한다. <그림 5.3.12>는 여러 가지 $N$, $D$, $n$ 에 대해 초기하분포를 그려본 것이다.

[그림 5.3.12-1] $N=30$, $D=5$, $n=10$ 초기하분포

[그림 5.3.12-2] $N=100,n=10$, 초기하분포

[그림 5.3.12-3] $N=30,D=5,n=20$, 초기하분포

만일에 전체 제품의 수가 아주 많거나 제품을 $n$개 복원추출하였을 때 불량품의 수는 이항분포를 따름에 주의하라. 전체 제품의 수가 유한개이고 제품을 비복원추출하면 불량률이 바뀌기 때문에 초기하분포가 적용되어야 한다.

[예 5.3.12] 20개의 담배제품(우량품 15개, 불량품 5개)이 들어 있는 상자에서 3개를 추출하였을 때 이중 불량품이 한 개, 두 개, 세 개 들어 있을 확률은?
[풀이] 

이러한 확률계산은 이미 5.1절에서 조합을 이용하여 배웠다. $N$ = 20, $D$=15, $n$=3 인 초기하분포이므로 다음과 같다.
${P}{(}{X}{=}{1}{)}{=}\frac{{}_{15}{C}_{2}\times{}_{5}{C}_{1}}{{}_{20}{C}_{3}}{=}\frac{{15}\times{40}}{1140}{=}{0}{.}{460}$
${P}{(}{X}{=}{2}{)}{=}\frac{{}_{15}{C}_{1}\times{}_{5}{C}_{2}}{{}_{20}{C}_{3}}{=}\frac{{105}\times{5}}{1140}{=}{0}{.}{132}$
${P}{(}{X}{=}{3}{)}{=}\frac{{}_{15}{C}_{0}\times{}_{5}{C}_{3}}{{}_{20}{C}_{3}}{=}\frac{{455}\times{1}}{1140}{=}{0}{.}{099}$

[에제 5.3.13] [예 5.3.12]의 확률을 『eStatU』를 이용하여 구하라.
[풀이] 

『eStatU』의 메뉴에서 ‘초기하분포’을 선택하고 $N$ = 20, $D$=5, $n$=3을 선택하고 ‘실행’ 버튼을 클릭하면 <그림 5.3.13>과 같은 그래프가 나타나고 이때 ‘초기하분포표’를 선택하면 표 5.3.9가 나타난다. 이 표에는 P(X=0), P(X=1), P(X=2), P(X-2), P(X=3) 의 확률이 나타나있다.

[그림 5.3.13] 『eStatU』의 $N=20,D=5,n=3$ 초기하분포

[표 5.3.9] $N=20,D=5,n=3$ 초기하분포표의 일부

$N=20$ $D=5$ $n=3$
$X)$ $P(X={x})$ $P(X\le{x})$ $P(X\ge{x})$
0 0.3991 0.3991 1.0000
1 0.4605 0.8596 0.6009
2 0.1316 0.9912 0.1404
3 0.0088 1.0000 0.0088

5.4 연속형 확률변량

한 회사원이 집에서 회사까지 출근에 걸리는 시간을 측정하는 통계적 실험을 생각하여 보자. 과거의 경험으로 보아 교통이 혼잡하지 않다면 대개 회사까지 30분 정도가 걸린다. 이러한 실험의 결과는 대개 30분 근처의 임의의 실수가 되겠지만 일반적으로 표본공간은 0 보다 큰 모든 실수로 가정하고, 확률변량 X를 ‘출근에 걸리는 시간’ 이라고 정의하자. 이와 같이 확률변량의 가능한 값들이 무한개이며 셀 수 없을 때 이를 연속형 확률변량(continuous random variable)이라 한다.
연속형 확률변량에서는 가능한 값이 무한개이므로 각 점에서의 확률계산은 무의미하여 한 점에서의 확률은 0으로 간주한다. 한 점의 확률 대신 ‘출근에 걸리는 시간이 25분에서 35분 사이가 될 확률이 얼마인가?’ 와 같이 구간의 확률을 관심의 대상이 된다. 이와 같은 확률을 구하기 위해 표 5.4.1은 회사원이 100일 동안 출근에 걸리는 시간을 조사한 후 여러 개의 구간을 나누어 각각의 도수와 확률을 계산한 것이다. <그림 5.4.1>은 이 표의 히스토그램이다.

[표 5.4.1] X = ‘출근에 걸리는 시간’의 도수분포표

구간 ${(}{a}\leq{X}{<}{b}{)}$ 도수 확률
${10}\leq{X}{<}{30}$ 분 5일 5/100
${30}\leq{X}{<}{50}$ 분 30일 30/100
${50}\leq{X}{<}{60}$ 분 40일 40/100
${60}\leq{X}{<}{70}$ 분 20일 20/100
${70}\leq{X}{<}{90}$ 분 5일 5/100
합계 100일 1

[그림 5.4.1] 확률변량 X=‘출근에 걸리는 시간’의 히스토그램
이 도수분포표를 이용하면 ‘출근시간이 30분에서 60분사이일 확률’의 계산은 다음과 같다.
P( 30 ≤ X < 60) = 30/100 + 40/100 = 70/100
하지만 이 표를 이용하면 ‘출근시간이 25분에서 35분사이일 확률’의 계산은 할 수 없다. 이 확률 계산을 위해서는 좀 더 많은 데이터를 구하여 구간의 너비가 좁은 <그림 5.4.2>와 같은 히스토그램이 필요할 것이다. 데이터의 수를 더울 늘이고 구간의 너비를 0에 가깝게 하면 이 히스토그램은 <그림 5.4.3>과 같이 연속함수에 근사하게 될 것이다. 이 함수를 연속형 확률변량의 확률분포함수라고 한다. 현실 데이터에서는 이 그림과 같이 종을 엎어 놓은 모양으로 평균 근처에 데이터가 많이 몰려있고 평균을 중심으로 대칭형인 형태가 많이 관찰되는데 이를 정규분포(normal distribution)라 부른다.

[그림 5.4.2] 많은 데이터를 이용한 히스토그램

[그림 5.4.3] 연속형 확률변량의 확률분포함수
위와 같은 연속형 확률변량의 확률분포함수를 수학적 함수 f(x)로 표현할 수 있다

면 굳이 도수분포표와 히스토그램을 그리지 않고 원하는 확률을 구할 수 있다. 이 함수 f(x)는 전체 확률을 더했을 때 1이 되므로 함수의 면적이 1 이 되어야 한다. 즉,
$P(-\infty{<X<}\infty{)}=\int_{-\infty{}}^{\infty{}}{}f(x)dx=1$
그리고 확률변량 X가 구간 (a, b)에 있을 확률 P(a < X < b)는 f(x)의 (a, b) 사이의 면적인 정적분으로 구할 수 있다. (<그림 5.4.4>).
$P(a<X<b)=\int_{a}^{b}{}f(x)dx$


[그림 5.4.4] 연속형 확률변량 $X$가 구간 $(a,b)$에 있을 확률
이러한 적분은 일반적으로 구하기가 힘들다. 정규분포인 경우에는 표를 만든 후 이를 이용하여 확률계산을 하는데 5.4.1절에서 살펴본다. 다음 예는 연속형 확률변량으로 확률을 쉽게 구할 수 있는 균등분포(uniform distribution)를 이용한 것이다.

[예 5.4.1] 피자를 주문해서 집에 도착할 때까지 걸리는 시간이 10분에서 30분까지 어느 시간이나 같은 가능성을 갖는다. 확률변량을 X = ‘피자 배달에 걸리는 시간’이라고 할 때, X의 확률분포함수를 구하고 그림을 그려라. 또 15분에서 20분 사이에 배달될 확률을 구하라.
[풀이] 

X 는 10에서 30사이의 어느 수나 같은 가능성을 가지므로 확률분포함수는
$f(x)=\begin{cases}1/(30-10),&10<x<30 \\ 0,&기타\end{cases}$
이고 그 그림은 <그림 5.4.5>와 같다. 이를 10에서 30까지의 균등분포라고 한다.
15분에서 20분 사이에 배달될 확률을 그림으로 그리면 다음과 같으므로 확률(면적)의 계산은 (20-15) × (1/20) = 0.25 이다.

[그림 5.4.5] 균등분포(10,30) P(15<X<20) 에서 확률

5.4.1 정규분포
현실에서 많이 나타나는 연속형 데이터는 <그림 5.4.3>과 같이 종을 엎어 놓은 모양으로 평균 근처에 데이터가 많이 몰려있고, 평균에서 멀어질수록 자료들의 수가 적으며, 평균을 중심으로 대칭형인 형태이다. 이와 같은 형태의 데이터를 정규분포(normal distribution)라 부른다. 신장, 체중, 볼트의 길이 등 측정을 해서 얻어지는 데이터는 정규분포 형태가 많다. <그림 5.4.6>은 평균이 0, 분산이 1인 정규분포 모양의 시뮬레이션이다.

[그림 5.4.6] 『eStatU』의 정규분포 시뮬레이션
이와 같은 정규분포 형태의 데이터에 대한 확률계산을 쉽게 할 수 있도록 많은 수학자들이 이 분포 형태를 묘사할 수 있는 함수를 찾으려고 노력했다. 드 므와브르(Abraham de Moivre(1667-1754))가 이와 같은 함수를 처음 발견되었고, 그 후 독일의 수학자 가우스(Carl Friedrich Gauss(1777-1855))에 의해 물리학과 천문학 등에 폭 넓게 응용되었다. 이 함수를 정규분포함수(normal distribution function) 또는 가우스분포함수(Gaussian distribution function)라고 부르는데 그 함수식은 다음과 같다.
${f}{(}{x}{)}{=}\frac{1}{\sqrt{{2}\mathit{\pi}}\sigma}\exp\left[{{-}\frac{{(}{x}{-}\mathit{\mu}{)}^{2}}{2{\mathit{\sigma}}^{2}}}\right]\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}{-}\infty{<}{x}{<}\infty$
이 분포함수는 두개의 모수 $\mu$와 $\sigma$를 가지고 있는데, 각각 이 함수의 평균과 표준편차를 의미한다. 확률변량 X가 평균 $\mu$, 표준편차 $\sigma$인 정규분포를 따를 때 기호로 X ~ N($\mu$,$\sigma^2$)으로 표시하기도 한다. <그림 5.4.7>은 세 정규분포 N(-2,0.25), N(0,1), N(2,4)를 같이 그려본 것이다.

[그림 5.4.7] 세 정규분포 $N(-2,0.25),N(0,1),N(2,4)$의 그림
정규분포의 특징을 요약하면 다음과 같다.
1) 종모양의 연속함수이다.
2) 평균 $\mu$에 관해 서로 대칭이다. 따라서 평균의 왼쪽과 오른쪽의 확률은 각각 0.5이다.
3) $\mu$나 $\sigma$의 값에 따라 정규분포는 무한히 많이 있을 수 있다,
4) x축의 구간 [$\mu$ - $\sigma$, $\mu$ + $\sigma$]의 확률은 0.68, 구간 [$\mu$ - 2$\sigma$,$\mu$ + 2$\sigma$]의 확률은 0.95, 구간 [$\mu$ - 3$\sigma$, $\mu$ + 3$\sigma$]의 확률은 0.997 이 된다. 즉, 정규확률변량은 평균주위에 대부분의 값을 가지며, 평균에서 좌우로 표준편차의 3배 이상 떨어진 값은 거의 없다.
가. 정규분포에서의 확률계산
정규분포는 통계학에서 제일 많이 이용되는 분포함수인데 확률변량 X의 구간 $[a,b]$의 확률계산을 많이 필요로 하게 된다. 앞에서 설명하였듯이 X가 N($\mu$,$\sigma^2$)인 정규확률변량일 때 구간 $[a,b]$의 확률 $P(a≤X≤b)$는 <그림 5.4.8>의 검게 칠하여진 부분과 같이 x축과 $a$와 $b$사이로 둘러싸이는 f(x)의 면적이다.

[그림 5.4.8] 정규분포에서의 확률 $P(a\leq{X}\leq{b})$

수학적으로 이 면적은 다음과 같은 정적분을 구하여야 하는데 컴퓨터를 이용하여야 가능하다.

${P}{(}{a}\leq{X}\leq{b}{)}{=}\mathop{\int}\nolimits_{a}\nolimits^{b}{\frac{1}{\sqrt{{2}\pi}\sigma}}\exp\left[{{-}\frac{{(}{x}{-}\mu{)}^{2}}{2{\sigma}^{2}}}\right]{dx}$

일반적인 정규확률변량 X가 N($\mu$,$\sigma^2$)일 때 Z = (X – $\mu$) / $\sigma$ 변환을 취하면, Z는 평균이 0 이고, 표준편차가 1인 정규분포 N(0,1)을 따르게 된다. 이 사실은 N(0,1) 인 분포의 모든 확률을 구할 수 있다면, 임의의 정규분포도 확률을 구할 수 있음을 뜻한다. 그래서 N(0,1)을 특히 표준정규분포(standard normal distribution) 또는 Z 분포라 한다. 그리고 임의의 정규확률변량 X를 표준 정규확률변량 Z로 바꾸어 주는 변환 Z = (X-$\mu$)/$\sigma$ 를 표준화 변환(standardization)이라고 부른다.

 

X 가 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포 $N(\mu,\sigma^2)$ 일 때 표준화 변환
${Z}{=}\frac{\mathit{\chi}{-}\mathit{\mu}}{\mathit{\sigma}}$
는 평균이 0 이고, 표준편차가 1인 정규분포 $N(0,1)$을 따른다.

표준정규분포함수 N(0,1)인 경우, 여러 가지 실수값 z에 대해 왼쪽 끝부분에서 z까지의 면적인 확률 P(Z < z)를 구하여 표를 만들어 놓았는데 이를 표준정규분포표라 한다. 표 5.4.2는 『eStatU』를 이용하여 구한 표준정규분포표의 일부이다.

[표 5.4.2] 『eStatU』의 표준정규분포표

『eStatU』에서는 <그림 5.4.9>와 같이 어떠한 정규분포 확률변량의 구간 [a,b]에 대한 P(a < X < b) 확률계산과, 주어진 확률 p에 대한 백분위수(즉, P( X < x) = p 가 되는 x), 양쪽형 백분위수를 쉽게 계산할 수 있다.

『eStatU』에서 구간의 확률은 $\mu{-}4\sigma$에서 $\mu{+}4\sigma$까지 계산할 수 있다. X가 $\mu{-}4\sigma$보다 적든지 $\mu{+}4\sigma$보다 큰 경우에 확률은 0.0000이 된다. 표 5.4.3은 『eStatU』표준정규분포의 백분위수표이다.

[그림 5.4.9] 『eStatU』에서 정규분포 확률계산

[표 5.4.3] 『eStatU』의 표준정규분포 백분위수표

[예 5.4.2] Z 가 표준정규확률변량일 때 표준정규분포표를 이용하여 다음의 확률을 구하라. 그리고 『eStatU』를 이용하여 확률을 구하라.
1) P(Z < 1.96) 2) P(-1.96 < Z < 1.96) 3) P(Z > 1.96)
[풀이] 

1) 표준정규분포표에서 이 확률은 0.975 임을 알 수 있다
2) P(-1.96 < Z < 1.96) = P(Z < 1.96) – P(Z < -1.96) = 0.975 – 0.025 = 0.95 3) P(Z > 1.96) = 1 – P(Z < 1.96) = 1 – 0.975 = 0.025
『eStatU』를 이용하면 문 1)은 그래프 화면 밑의 선택사항 첫 번째에서 구간을 –4, 1.96을 입력한 후 ‘실행’ 버튼을 클릭한다.
같은 방법으로 문 2)는 구간 1.96, 1.96을 입력하여 계산하고, 문 3)은 1.96과 4.0을 입력하여 계산한다.

[예 5.4.3] Z 가 표준정규확률변량일 때 다음 식을 만족하는 x 를 구하라. 그리고 『eStatU』를 이용하여 확률을 구하라.
1) P(Z < x) = 0.90 2) P(-x < Z < x) = 0.99 3) P(Z > x) = 0.05
[풀이] 

1) 표준정규분포표에서 이 x 는 대략 1.28 임을 알 수 있다.
2) 양쪽 끝이 0.005 가 되는 x 는 2.575 이다.
3) P(Z < x) = 0.95 인 문제와 같으므로 표에서 x 는 1.645 이다.『eStatU』를 이용하면 문 1)은 그래프 화면 밑의 선택사항 두 번째에서 오른쪽 박스에 p = 0.90을 입력한 후 ‘실행’ 버튼을 클릭한다. 정확한 90% 분위수가 1.2818임을 알 수 있다.
2)는 그래프 화면 밑의 선택사항 세 번째에서 오른쪽 박스에 p = 0.99를 입력한 후 ‘실행’ 버튼을 클릭한다. 정확한 양쪽형 분위수가 –2.5758과 2.5758임을 알 수 있다
3)은 P(Z < x) = 0.95와 같은 문제이므로 그래프 화면 밑의 선택사항 두 번째에서 오른쪽 박스에 p = 0.95을 입력한 후 ‘실행’ 버튼을 클릭한다. 정확한 95% 분위수가 1.6449임을 알 수 있다.

자주 이용되는 표준정규분포의 구간 확률 몇 가지는 기억을 하는 것이 좋다. <그림 5.4.10>은 표준정규분포의 왼쪽 끝에서부터 누적확률이 95%, 97.5%, 99.5% 되는 백분위수를 보여 주고 있고, <그림 5.4.11>은 양쪽 끝 부분을 똑 같이 제외하였을 때 확률이 95%, 99%되는 값을 보여 주고 있다.

[그림 5.4.10] 표준정규분포에서 누적확률이 95%, 97.5%, 99.5% 되는 값, 즉 $P(Z<1.645)=0.95, P(Z<1.96)=0.975, P(Z<2.575)=0.995$

[그림 5.4.11] 표준정규분포에서 양쪽 끝을 제외한 확률이 95%, 99%되는 값. 즉 $P(-1.96<Z<1.96)=0.95, P(-2.575<Z<2.575)=0.99$

표준정규분포표를 이용하면 일반적인 정규분포의 확률을 구할 수 있다. X가 평균이 $\mu$, 분산이 $\sigma^2$인 정규 확률변량일 때, $\mathrm{(}X-\mu)/\sigma$는 표준정규분포를 따른다. 따라서 X의 구간 $[a,b]$의 확률 P($a$< X <$b$)는 표준정규분포에서 구간 $\mathrm{[}{(ita-\mu{)}}/\sigma{,}{(itb-\mu)}/\sigma{]}$ 확률을 구하면 된다.

X 가 평균이 , 분산이 인 정규 확률변량이라면 구간 의 확률은 다음과 같다.
${P}\left({{a}{<}{X}{<}{b}}\right){=}{p}\left({\frac{{a}{-}\mathit{\mu}}{\mathit{\sigma}}{<}{Z}{<}\frac{{b}{-}\mathit{\mu}}{\mathit{\sigma}}}\right)$

 

[예 5.4.4] 통계학 중간시험 성적 X가 평균이 70점, 표준편차가 10인 정규분포를 따를 때 다음의 확률을 구하라. 『eStatU』를 이용하여 계산한 값을 확인하라.
1) P(X < 94.3) 2) P(X > 57.7) 3) P(57.7 < X < 94.3)
[풀이] 

각 문제의 확률 계산은 다음과 같다.
1) $\mathrm{P}(X<94.3)=P(\frac{X-70}{10}<\frac{94.3-70}{10})=P(Z<2.43)=0.9925$
2) $\mathrm{P}(X>57.7)=P(\frac{X-70}{10}>\frac{57.7-70}{10})=P(Z>-1.23)=0.8907$
3) $\mathrm{P}(57.7<X<94.3)=P(\frac{57.7-70}{10}<\frac{X-70}{10}<\frac{94.3-70}{10})$
$=\mathrm{P}(-1.23<Z<2.43)=0.8832$
『eStatU』를 이용하여 일반적인 정규분포 확률을 구하려면 <그림 5.4.12>의 화면에서 먼저 평균을 70, 표준편차를 10으로 입력한다. 문 1)은 그래프 화면 밑의 선택사항 첫 번째에서 구간을 이 정규분포의 작은 값 30(=평균 – 4*표준편차)과 원하는 구간값 94.3을 입력한 후 ‘실행’ 버튼을 클릭한다.

유사한 방법으로 문 2)는 구간을 [57.7, 110]으로 하여 계산하고 문 3)은 구간을 [57.7, 94.3]으로 입력한 후 실행 버튼을 클릭한다.

[그림 5.4.12] 일반적인 정규분포에서 확률 계산

[예 5.4.5] [예 5.4.4]에서 다음 백분위수를 구하라. 그리고 『eStatU』를 이용하여 백분위수를 구하라.
1) 중간시험 성적의 95% 백분위수는?
2) 중간시험 성적의 양쪽형 95% 백분위수는?
[풀이] 

1) 표준정규분포에서 $\mathrm{P}(Z<?)=0.95$인 백분위수는 1.645이므로 $N(70,10^2)$인 정규분포의 백분위수는 70 + 1.645 × 10 = 86.45이다.2) 양쪽형 95% 백분위수는 양 끝이 5%이므로 왼쪽 끝에서부터의 97.5% 백분위수를 먼저 구하면 된다. 표준정규분포에서 $\mathrm{P}(?<Z<?)=0.95$인 양쪽형 백분위수는 1.960이므로 $N(70,10^2)$인 정규분포의 양쪽형 95% 백분위수 구간 [70 – 1.96 × 10, 70 + 1.96 × 10] 즉, [50.4, 89.6] 이 된다.『eStatU』를 이용하여 일반적인 정규분포의 백분위수를 구하려면 <그림 5.4.13>의 화면에서 먼저 평균을 70, 표준편차를 10으로 입력한다. 문 1)은 그래프 화면 밑의 선택사항 두 번째의 오른쪽 박스에 0.95를 입력하고 ‘실행’ 버튼을 누르면 95% 백분위수 86.4485가 나타난다.문 2)는 그래프 화면 밑의 선택사항 세 번째의 오른쪽 박스에 0.95를 입력하고 ‘실행’ 버튼을 누르면 양쪽형 95% 백분위수 [50.4004, 89.5996]이 나타난다.

[그림 5.4.13] 일반적인 정규분포에서 백분위수 계산

나. 이항분포의 정규분포 근사
이항분포에서 n 이 큰 경우에(대략 30이상) 확률계산은 부록의 표나 『eStatU』를 이용하여도 구할 수 없다. 이러한 경우에는 평균이 np, 분산이 np(1-p)인 정규분포를 이용하여 근사적으로 구할 수 있는데 다음 예를 살펴보자.

[예 5.4.6] 한 공장에서 생산되는 제품의 불량률이 5%라고 한다. 어느 날 제품 100개를 표본 추출하였을 때 이 중에 불량품이 2개 이하일 확률은
1) 불량품이 2개 이하일 확률은?
2) 3개에서 7개일 확률은?
[풀이] 

불량품의 개수를 X라 하면 X는 n = 100, p = 0.05 인 이항분포이다. 이렇게 n이 큰 경우에는 정규분포를 이용하여 근사적으로 확률계산을 한다. 이 이항분포의 평균은 np = 100×0.05 = 5 이고, 분산은 np(1-p) = 100×0.05×(1-0.05) = 4.75 이다. 따라서 정규분포 N(5,4.75)를 이용하여 확률 계산을 하면 다음과 같다.
1) $\mathrm{P}(X\leq{2})=P(Z\leq\frac{(2-5)}{\sqrt{4.75}})=P(Z\leq{-1.376})=$0.0845
2) $\mathrm{P}(3\leq{X}\leq{7})=P(\frac{(3-5)}{\sqrt{4.75}}\leq{Z}\leq\frac{(7-5)}{\sqrt{4.75}})$
$\mathrm{=}P(-0.918\leq{Z}\leq{0.918})=0.642$

5.4.2 지수분포

현실에서 얻어지는 연속형 데이터의 대부분은 정규분포를 따르지만 그렇지 않은 경우도 있다. 다음의 예를 살펴보자.

– 한 사무실에 오전 9시에서 10시 사이에 걸려오는 전화들의 시간 간격을 조사하여 본다.
– 공장에서 한 불량품이 나타나고 다음 불량품이 나타날 때까지의 시간 간격을 조사하여 본다.

이러한 예들은 주어진 시간에 사건들이 동일한 비율로 발생할 때(예를 들면, 시간당 걸려오는 전화가 3통 등) 이 사건들 사이의 시간을 조사하였을 때 나타나는 데이터이다. 만일 단위 시간당 발생하는 평균 사건수를 $\lambda$라 했을 때 확률변량 X를 발생하는 사건들 사이의 시간이라고 하면 X는 다음과 같은 지수분포(Exponential Distribution) 모형을 적용할 수 있다. $\lambda$는 지수분포의 모수이고 지수분포함수 식은 다음과 같다.

지수분포(Exponential Distribution)
단위 시간당 발생하는 평균 사건수를 라 했을 때 했을 때 확률변량 X를 발생하는 사건들 사이의 시간이라고 하면 분포함수는 다음과 같다.
${f}\left({x}\right){=}\mathit{\lambda}\exp\left({{-}\mathit{\lambda}{x}}\right)\hspace{0.33em}{,}\hspace{0.33em}\hspace{0.33em}\hspace{0.33em}{X}{=}{1}{,}{2}{,}\ldots$
이 분포의 평균은 ${E}\left({X}\right){=}\frac{1}{\mathit{\lambda}}$, 분산은 ${V}\left({X}\right){=}\frac{1}{{\mathit{\lambda}}^{2}}$ 이다

지수분포는 이산형 확률분포의 기하분포와 유사하다. <그림 5.4.14>는 여러 가지 모수에 대한 지수분포함수 그림이다.

[그림 5.4.14-1] 지수분포함수 $\lambda=1.0$

[그림 5.4.14-2] 지수분포함수 $\lambda=5.0$

『eStatU』는 지수분포의 여러 가지 $\lambda$ 값에 대하여 확률 계산을 쉽게 할 수 있다.

[예 5.4.7] 한 제품의 평균 수명은 10시간이며 지수분포를 따른다. 『eStatU』를 이용하여 다음 확률을 구하라.
1) 제품의 수명이 5분 이하일 확률은?
2) 제품의 수명이 10분 이상일 확률은?
[풀이] 

『eStatU』의 ‘지수분포’에서 $\lambda$ = 10을 선택하고 ‘실행’ 버튼을 클릭하면 [그림 5.4.15]와 같은 그래프가 나타난다.

[그림 5.4.15] 지수분포함수 $\lambda=10.0$
문제 1)은 첫 번째 확률계산 박스에 0과 5를 입력한다.

문제 2)는 첫 번째 확률계산 박스에 10과 큰 값 50을 입력한다.

1. 데이터과학과 『eStat』

1.1 데이터과학이란?
1946년 미국 펜실베니아대학의 존 에커트와 존 모클리에 의해 처음 개발되었던 현대 디지털 컴퓨터는 1960년대 이후 현실에 응용되기 시작하여 지난 반세기 동안 엄청난 발전을 이룩하고 우리 사회의 많은 변화를 가져왔다. 특히 1980년대 이후 컴퓨터와 컴퓨터의 연결이 시작되고, 개인용 컴퓨터가 활성화되고, 유무선 정보통신 기술이 발전되면서 최근에는 전 세계의 거의 모든 컴퓨터가 유무선 인터넷을 통하여 연결되어 있다. 2000년대 이후에는 성능이 우수한 컴퓨터가 소형화 되면서 전화기와 연결한 스마트폰이 탄생되어 우리 사회에 많은 변화를 가져왔다.

이와 같은 컴퓨터와 정보통신 기술의 발전은 최근에 더욱 심화되어 알파고와 같은 인간의 지능을 능가하는 인공지능(artificial intelligence; AI)을 만들어내고 있다. 또한 모든 전자기기를 인터넷으로 컴퓨터에 연결시키는 사물인터넷(internet of things; IoT) 시대를 준비하고 있다. 자동운행 차, 로봇 의사, 로봇 선생님 등 현재와는 획기적으로 다른 사회가 예견되는데 이를 4차 산업혁명 기술사회로 부른다.

이러한 기술의 발전은 과거에는 상상도 할 수 없었던 크기의 빅데이터(big data)를 생성하였다. 빅데이터의 대표적인 예로는 전 세계인이 많이 사용하고 있는 구글의 검색기록 데이터, 스마트폰의 소셜미디어 데이터, 인터넷의 웹로그(web log) 데이터, 글로벌 통신회사의 통화기록 데이터 등이 있다. 향후 4차 산업혁명이 진행되면서 빅데이터는 점점 더 커지고 많아질 전망이고 이 빅데이터를 효율적으로 활용하여 과거에는 불가능했던 미래에 대한 초예측(hyper-forecasting)이 가능할 전망이다. 4차 산업혁명 사회에서는 어떻게 빅데이터를 유효적절하게 만들고 이를 사용하느냐에 따라 각 개인, 단체, 기업, 나아가 국가의 성패가 달려 있다.

문자 및 숫자 등으로 이루어지는 데이터는 인류가 문자를 발명하여 역사를 기록하면서 생겨났다고 볼 수 있다. 고대의 이집트, 그리스 로마 등에서는 인구수, 농지 면적 등의 데이터를 만들어 국가 경영에 사용한 기록이 있다. 이러한 단순한 데이터 활용은 17세기이후 수학의 확률론 발전에 힘입어 통계학(statistics)이란 학문으로 발전하였다. 현대통계학은 데이터를 효율적으로 수집하고, 이를 정리, 요약한 후 분석을 하여 불확실한 상황의 의사결정에 대해 여러 가지 확률적 모형을 이용하여 과학적인 판단을 내릴 수 있도록 도움을 주는 학문이다.

4차 산업혁명 사회에서도 현실의 불확실한 상황에 대한 의사결정을 할 때 전통적인 통계학의 기법이 주를 이룬다. 하지만 금세기에 출현한 빅데이터의 분석은 데이터의 양도 엄청나고 다양해 단지 통계학적인 접근만으로 그 활용을 모두 할 수는 없다. 이러한 빅데이터의 분석을 위해서는 전통적인 통계학의 이론과 수학의 최근 이론, 컴퓨터 과학, 그리고 분석된 결과를 효율적으로 활용하기 위해서는 경영학 등 관련 학문도 같이 적용되어야 한다. 이와 같이 여러 학문 분야가 융합하여 금세기에 출현한 빅데이터를 분석해 현실에 응용하는 학문을 데이터과학(data science)이라 부른다.

데이터과학(data science)은 금세기에 출현한 빅데이터를 분석하여 현실에 활용하기 위해 통계학, 수학, 컴퓨터과학 등이 융합된 학문 분야이다.

 

빅데이터를 분석하여 현실에 응용하는 데이터과학이 활용된 예는 많이 있다.

– 구글의 검색 엔진에 자동차 구입에 관한 질문을 조사하여 다음 달 미국서 판매되는 자동차 모델의 수를 예측하였다.

– 구글 검색 엔진에 감기약을 검색한 결과를 분석하여 올해 미국서 유행하는 감기의 전파 경로를 지도에 표시하였다. 이를 구글 플루라 부르는데 미국 정부의 질병관리본부보다 앞서서 감기의 전파경로를 예측하여 세상을 놀라게 하였다.

– 베네수엘라의 한 식품체인 회사는 분산되었던 각 지점의 데이터를 통합 분석하여 재고관리 개선과 이에 맞는 상품 판매 전략을 수립하여 매출이 30%나 증가하는 성과를 이루었다.

– 한 온라인 쇼핑몰은 웹로그를 분석하여, 회원 고객이 어떤 취향을 가지고 어떤 제품에 관심이 있는지 파악하여 고객 개개인에 맞는 맞춤형 광고를 하여 매출이 증가하였다.

– 한 원유 탐사회사에서 테라바이트 규모의 지질학 데이터를 분석해 원유 시추의 성공률을 높였다.

– 남아프리카의 어느 보험회사에서 기존 보험금 청구 빅데이터를 분석하여 보험사기 가능성이 있는 사건을 찾을 수 있는 알고리즘을 구현하였다. 이를 활용하여 많은 보험사기를 적발하였고 심지어 대형 보험사기 조직을 적발하기도 하였다.

– 미국의 한 대학에서 온라인 수업에서 학생들이 시스템에 클릭하는 정보를 분석하여 학생 개개인의 학습 성과를 모니터링하고 학생의 이해도에 맞춘 수준별 수업 내용을 제안하고, 향후 수강할 과목 등을 학생별로 제안하였다. 이 결과 전공별 학위 취득률이 많이 향상되었다.

 

덴마크의 한 풍력발전 회사는 기존 발전기에서 축적된 페타바이트 규모의 데이터를 분석하여 풍력발전기에 대한 날씨와 위치의 영향을 정확히 파악하고 이를 바탕으로 풍력발전기의 부지 선정 및 운영을 효율적으로 할 수 있게 되었다.

데이터과학은 여러 학문의 융합이어서 데이터과학을 연구하기 이해서는 여러 학문 분야를 두루 많이 알아야 한다. 구체적으로 최근 빅데이터의 분석에 많이 사용되는 기법은 통계학의 가설검정, 다변량분석, 선형모형 등의 전통적인 이론과 함께 수학에서 발전한 신경망(neural network), 지지벡터기계(support vector machine), 컴퓨터 과학의 데이터베이스(database), 분산컴퓨팅(distributed computing), 기계학습(machine learning), 인공지능(artificial intelligence) 등이다.

여러 학문의 융합인 데이터과학을 공부하는 것은 쉽지 않다. 잘못하면 이 분야도 많이 알지 못하고 저 분야도 제대로 많이 모를 위험이 있다. 그러나 데이터과학을 잘 공부한 사람은 21세기가 필요로 하는 인재가 될 것임이 틀림없다.

이 책에서는 데이터과학에 입문하는 초보자를 위해 데이터과학의 기초인 데이터 시각화와 데이터 정리 방법을 소개하고, 표본을 이용한 모집단의 특성을 추론하는 통계적 의사결정 모형을 소개하고자 한다. 표 1.1은 이 책의 구성을 보여준다.

표 1.1.1 이 책의 구성
1장 데이터과학과 『eStat』
2장 범주형 데이터 시각화 7장 한 모집단 가설검정
3장 연속형 데이터 시각화 8장 두 모집단 가설검정
4장 표/측도를 이용한 데이터 정리 9장 여러 모집단 가설검정
5장 데이터의 확률분포 모형 10장 비모수적 가설검정
6장 표본 통계량의 분포와 추정 11장 범주형 데이터 가설검정
12장 상관 및 회귀분석

2장은 막대, 원, 띠, 꺾은선 그래프 등의 범주형 데이터 시각화를 다룬다. 3장은 히스토그램, 줄기와 잎 그림, 산점도 등의 연속형 데이터 시각화를 다룬다. 4장은 표/측도를 이용한 데이터 정리를 소개한다.

5장은 데이터에 대한 확률분포 모형을 소개하고, 6장은 표본과 모집단의 관계에 대해서 살펴보고 표본통계량에 대한 분포와 이를 바탕으로 모집단 모수에 대한 추정을 설명한다.

7장에서 9장까지는 연속형 변량에 대한 모수적 가설검정을 설명하고, 10장에서는 연속형 변량의 비모수적 가설검정, 11장은 범주형 변량에 대한 가설검정을 설명한다. 12장은 두 변량에 대한 상관 및 회귀분석을 설명한다.
 

1.2 데이터의 구분
데이터는 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 관찰하거나 측정한 값들이다. 이러한 사물이나 사건의 속성을 변수 또는 변량(variable)이라고 한다. 예를 들어, 어느 대학 재학생의 성별과 신장을 측정하였다면 여기에는 두개의 변량(성별, 신장)이 있다. 성별에 대한 측정값은 ‘남’, ‘여’, ‘여’, ‘남’, …. 과 같은 형태이고, 신장에 대한 측정값은 180cm, 165cm, 158cm, 175cm, … 와 같은 형태일 것이다.

‘성별’과 같은 변량의 데이터를 이산형 데이터(discrete data), 신장과 같은 변량의 데이터를 연속형 데이터(continuous data)로 구분한다. 성별과 같은 이산형 변량은 모든 가능한 측정값이 유한개 또는 셀 수 있는 변량을 뜻하며, 각각의 값에 대한 도수분포가 의미 있다. 이산형 데이터 중 유한개의 범주 형태를 갖는 경우를 범주형 데이터(categorical data)라고 한다.

데이터를 구분하는 이유는 데이터의 종류의 따라 처리하는 방법과 분석 방법이 다르기 때문이다. 이 책의 2장은 범주형 데이터의 시각화를 다루고, 3장은 연속형 데이터의 시각화를 다룬다. 4장에서는 범주형 데이터의 요약인 도수분포표와 교차표를 다루고, 표 및 측도를 이용한 연속형 데이터 정리를 설명한다. 5장에서 10장 그리고 12장은 연속형 데이터의 통계 분석 이론을 설명한다. 11장은 범주형 데이터의 분석 이론을 설명한다.

소프트웨어를 이용한 데이터 분석을 위해 범주형 데이터는 원시 데이터(raw data)와 요약 데이터로 구분한다. 예를 들어, 어느 초등학교 한 학급 학생 10명의 성별을 남, 여, 남, … 등으로 조사하여 다음과 같이 엑셀 시트에 정리하였다면 이를 원시 데이터라 한다. 여기서 변량의 이름 ‘성별’을 변량명(variable name), ‘남’ 또는 ‘여’와 같은 값을 변량값(variable value)이라 부른다.

표 1.2.1  성별을 조사하여 엑셀에 정리한 원시 데이터
성별

표 2.1의 한 학급 성별 데이터는 ‘남’이 6명이고 ‘여’가 4명이다. 이렇게 빈도수를 정리한 데이터를 요약 데이터(summary data), 또는 성별의 도수분포표(frequency table)라고도 부른다. 엑셀에서는 일반적으로 다음과 같이 정리한 데이터를 이용한다.

표 1.2.2  한 학급의 성별을 정리 요약한 데이터. 또는 성별 도수분포표
성별 학생수
6
4

 

1.3 『eStat』 데이터 분석
데이터 분석을 위해서는 소프트웨어의 도움이 필수적이다. 특히 빅데이터 분석을 위해서는 전문적인 통계분석 모듈을 많이 가지고 있는 통계 패키지(statistical package)가 반드시 필요하다. 현재 빅데이터 분석을 위해서는 SAS, SPSS, R과 같은 통계패키지가 많이 사용되고 있다.

하지만 이들 통계패키지들은 초보자가 배우기는 쉽지 않고, SAS와 SPSS는 상업용이어서 엄청난 고가이다. 그리고 이러한 통계패키지는 빅데이터 분석의 핵심인 통계학 교육에 필요한 모듈의 기능은 거의 없다고 할 수 있다. 통계학 교육을 위해서는 일부 개인들이 부분적인 기능의 소프트웨어를 만들고 있으나 초중·고·대·일반인들이 모두 사용할 수 있는 종합적인 통계교육용 소프트웨어는 아직 없었다.

『eStat』은 데이터과학을 초등생부터 대학 및 일반인까지 쉽게 교육하기 위하여 만든 통계패키지 + 교육용소프트웨어이다. 데이터가 주어지면 단지 마우스 클릭만으로 그래프를 그릴 수 있고, 동적인 데이터 시각화를 경험할 수 있으며, 데이터에 대한 통계 분석 및 처리 실습까지 가능하다.

『eStat』은 통계패키지와 같이 데이터 처리가 가능하며, 통계학 이론에 대한 이해를 돕기 위한 다양한 시뮬레이션 모듈을 포함하고 있다. 이항분포와 정규분포가 무엇인지 보여주는 시뮬레이션, 대수의 법칙, 중심극한정리, 구간추정의 의미를 보여주는 시뮬레이션, 회귀분석의 이상값의 영향을 관찰할 수 있는 시뮬레이션 등이다.

『eStat』은 각급 교과서에 있는 많은 예를 포함하고 있으며, 웹 기반이어서 사용자들은 언제 어디서나 PC, 태블릿, 또는 스마트폰으로 이용할 수 있다. 『eStat』은 무료로 서비스하고 있고 다국적 언어를 지원하며 현재 한국어, 영어, 일본어, 중국어, 불어, 독어, 스페인어, 베트남어, 인도네시아 등 10개 언어가 가능하다.

3.1절에서는 『eStat』의 기본 운용에 대해서 살펴본다. 『eStat』에 대한 자세한 설명과 동영상은 다음 링크를 참조하라.

이 책의 2장서부터는 각 장마다 적절한 예를 이용하여 어떻게 『eStat』으로 현실 데이터를 분석할 수 있는지 소개한다.

  1.3.1 『eStat』 기본 운용
가. 시스템 들어가기

『eStat』 시스템은 HTML5, CSS3, JavaScript로 만든 웹 소프트웨어라서 반드시 웹브라우저가 필요하다. 현재 통용되는 많은 웹브라우저 중에서 HTML5 표준을 100% 잘 지키는 것은 구글(Google)사의 크롬(Chrome)이어서 가능하면 크롬 이용을 권장한다. MS 엣지(Edge)와 같은 브라우저에서도 『eStat』이 작동은 되나 일부 기능이 안 될 수 있다.

모니터에서 크롬 아이콘 을 클릭한 후 나타나는 주소창에 estat.me를 입력하면 <그림 1.3.1>과 같은 『eStat』의 주화면이 나타난다.

<그림 1.3.1> 『eStat』의 주화면

주화면 윗부분에는 여러 가지 아이콘들이 있다. 일반적인 소프트웨어에서 많이 사용하는 드롭다운 방식의 메뉴를 사용하지 않고 아이콘들을 펼쳐 놓은 것은 사용자들이 한 눈에 『eStat』에서 할 수 있는 작업을 보기 쉽게 한 것이다. 다만 고등학교 수준이나 대학 수준은 여러 가지 메뉴가 있을 수 있어 별도의 아이콘『eStatH』 와 『eStatU』 을 만들었는데 이것을 클릭하면 세부 메뉴를 새로운 윈도우창에 띄워준다.

주화면의 왼쪽은 데이터 입력을 위한 시트창이다. 시트창 위에는 각 분석별로 필요한 ‘분석변량’이나 ‘by 그룹’을 선택하는 창이 있다. 주화면 가운데는 데이터 분석를 보여주는 그래프창, 오른쪽은 저장이 필요한 그래프나 표를 보관해 놓는 분석결과 로그(log)창이 있다.

 

나. 데이터 입력 / 저장 / 불러오기

『eStat』에서 데이터 만들기

– 주화면 좌측에 있는 시트에 데이터를 입력한다. 이 시트에서 행(row)은 관찰 대상, 열(column)은 변량을 나타낸다. 마우스로 1행 1열을 클릭하면 이 셀에 대한 행과 열이 다른 부분과 달리 진한 색으로 표시되고, 셀에는 직사각형 형태의 외곽선이 생기는데 이를 커서(cursor)라 한다. 이는 커서가 위치하여 있는 1행1열에 데이터를 입력받을 준비가 되어 있다는 것을 의미한다. 이 커서(cursor)는 화살표키 󰎼 󰎽 󰎾 󰎿 나 󰎺 󰎻 를 사용하면 셀에서 셀로 또는 페이지 단위로 커서를 이동시킬 수 있다.

<그림 1.3.2> 『eStat』의 데이터 입력을 위한 시트

-『eStat』에서 허용하는 데이터의 최대수는 9999개, 변량의 최대수는 20개이다. 데이터의 입력은 왼쪽 위의 1행 1열(관찰대상1, 변량1)서부터 데이터를 입력한 후, 아래 방향 화살표키(󰎿) (또는 󰎠키)를 이용하여 커서를 밑(2행 1열)으로 이동시켜 다음 데이터를 입력한다. 같은 방법으로 화살표키(󰎼, 󰎽, 󰎾, 󰎿)를 이용하여 커서를 이동하면서 모든 데이터를 각 셀에 입력하면 된다.

– <그림 1.3.3>은 두 학급의 남 여 학생수를 입력한 예이다. 각 셀에는 데이터로 문자나 숫자를 입력할 수 있다.

<그림 1.3.3> 『eStat』의 데이터 입력

– 막대, 원, 띠그래프는 문자 데이터을 이용해서 그래프를 그릴 수 있으나. 점그래프, 히스토그램, 줄기와 잎 그림은 반드시 숫자 데이터를 이용하여야 한다. 단 그룹변량은 문자 데이터를 이용할 수 있다.

– <그림 1.3.3>에서는 데이터가 시트 화면에 모두 보인다. 만일 데이터가 커서 시트 화면에 일부만 나타날 경우에는 󰎺, 󰎻 키를 사용하여 위․아래로 한 화면씩 이동하여 볼 수 있고, 󰍭키와 화살표키(󰎾, 󰎿, 󰎼, 󰎽)를 같이 눌러 데이터의 위/아래/왼쪽/오른쪽 끝으로 쉽게 이동할 수 있다.

변량명 및 변량값명의 입력

– 데이터의 입력이 끝난 후 『eStat』를 이용하여 데이터 처리를 하면 결과 출력은 변량이름으로 변량1(또는 V1), 변량2(또는 V2), 변량3(또는 V3) … 라는 고유 이름이 나타난다. 이러한 고유 이름 대신 변량의 실제이름이나 그 변량 값에 대한 설명을 데이터처리 전에 입력하면 결과를 분석하기가 쉽다.

– <그림 1.3.3>에서 변량명의 입력은 데이터 입력 후에 ‘변량편집’ 버튼을 클릭하여 나타나는 <그림 1.3.4>의 대화상자창에서 변량명 V1 대신 ‘성별’을 입력하고, 콤보박스에서 V2를 선택한 후 ‘5-1반’, V3를 선택한 후 ‘5-2반’을 입력하면 된다.

실습

 

 

<그림 1.3.4> 변량편집 대화상자

– 원시 데이터인 경우 변량편집 창을 이용하면 변량값에 대한 변량값명을 지정할 수 있다.

 

데이터의 수정

– 만일 한 셀에 입력된 데이터를 모두 수정하고 싶으면, 원하는 셀에 커서를 위치한 후 새 데이터를 입력하면 된다. 만일 한 셀에 입력된 데이터의 일부분만 수정하고 싶다면 원하는 셀을 마우스로 두 번 누른 후 화살표키(󰎼, 󰎽)를 이용하여 글자 사이를 이동하면서 수정을 하면 된다.

데이터의 저장

– 시트에서의 데이터 입력은 컴퓨터의 주기억장치(main memory)를 이용하기 때문에 전원이 끊어지게 되면 이 기억장치에 들어 있는 내용은 모두 없어진다. 그러므로 데이터를 모두 입력한 후에는 이를 반드시 하드 디스크나 USB와 같은 보조 기억장치에 저장하여야 한다.

-『eStat』에서는 파일이름 박스에 파일명을 입력하고 CSV 저장 아이콘 을 클릭하면 변량명과 데이터를 엑셀의 CSV 형식으로 저장한다. 이때 파일명의 확장자는 csv여야 한다.

– 만일 변량값명까지 지정하였다면 JSON 저장 아이콘 을 클릭하여 JSON 형식으로 저장한다. 이때 파일명의 확장자는 json이다. 파일이 저장되는 지점은 시스템의 ‘download’ 폴더가 된다.

 

저장된 파일 불러오기

– 내 컴퓨터에 저장된 CSV 형식으로 저장된 파일은 CSV 불러오기 아이콘 을 이용하여 불러올 수 있다.

– 다른 서버 컴퓨터에 저장된 CSV 형식으로 저장된 파일은 www 불러오기 아이콘 을 이용하여 불러올 수 있다.

– 내 컴퓨터에 저장된 JSON 형식으로 저장된 파일은 JSON 불러오기 아이콘 을 이용하여 불러올 수 있다.

 

다. 데이터 분석

요약 데이터의 분석

– <그림 1.3.3>과 같은 데이터를 범주형 요약 데이터라 부른다. 시트에서 마우스로 변량명 ‘성별’과 ‘5-1반’ ‘5-2반’을 차례로 클릭하면 선택변량 박스에 ‘V1 V2 V3’ 가 나타나고 기본적으로 선택된 <그림 1.3.5>와 같은 남녀별 학생수에 대한 수직형 막대그래프( )가 나타난다. 시트위의 변량선택 박스에서 ‘분석변량’을 ‘성별’ ‘by 그룹’ 변량을 ‘5-1반’ ‘5-2반’을 차례로 선택하여도 된다.

<그림 1.3.5> 5-1반과 5-2반의 남녀 학생수의 막대그래프

– 그래프의 제목은 원하는 내용으로 수정할 수 있다. 그래프창 위의 편집 아이콘 을 클릭하면 그래프 하단에 다음과 같은 편집 대화상자가 나타난다. 여기에서 주제목, y축제목, x축제목을 바꾼 후 ‘수정’ 버튼을 클릭한다.

 

<그림 1.3.6> 그래프 제목 편집 대화상자

원시 데이터의 분석

– 표 1.3.1과 같은 원시데이터의 처리도 유사하다. 시트의 V1열에 데이터 입력을 한다. 변량명의 입력은 시트 위의 ‘변량편집’을 클릭한 후 변량명 박스에 V1대신 ‘성별’을 입력한다.

표 1.3.1  한 학급의 성별을 조사하여 엑셀에 정리한 원시 데이터
성별

– 마우스로 변량명 ‘성별’을 클릭하면 선택변량 박스에 첫 번째 변량의 선택을 의미하는 ‘V1’이 나타나고 기본적으로 선택된 수직형 막대그래프 ( ) 가 <그림 1.3.7>과 같이 그려진다. 원시 데이터의 남·여 학생수를 세어서 막대그래프를 그린 것이다.

<그림 1.3.7> 성별 막대그래프

– 현재 성별 변량이 선택된 상태에서 아이콘 을 클릭하면 원그래프가 나타나고, 을 클릭하면 띠그래프, 을 클릭하면 꺾은선그래프가 나타난다.

실습

 

라. 분석결과 저장 및 인쇄

『eStat』에서 그래프창에 표시된 분석 결과를 저장하려면 그래프창 위의 저장 아이콘 을 클릭한다. 그러면 그래프가 png 파일로 저장되는데 주화면 왼쪽 밑에 와 같이 표시된다. 저장되는 위치는 컴퓨터 시스템에서 지정된 다운로드(download) 폴더이다. 이어서 다른 그래프를 저장하면 다운로드 폴더에 eStatGraph(1).png 등과 같이 괄호 안의 번호가 증가되면서 저장된다.

그래프창의 결과를 인쇄하려면 그래프창 위의 인쇄 아이콘 을 클릭한다. 그러면 <그림 3.8>과 같은 윈도우에서 제공하는 인쇄를 위한 화면이 나타나고 여기서 ‘인쇄’ 버튼을 클릭하면 프린터에 그래프창 결과가 인쇄된다.

그래프창의 결과는 필요시 오른쪽의 로그창으로 이동한 후 필요시 인쇄할 수 있다. 그래프창 위의 이동 아이콘 을 누르면 현재 그래프창에 있는 내용이 로그창으로 이동한다.

로그창에 있는 내용을 저장하려면 로그창 위의 저장 아이콘 을 클릭한다. 그러면 로그창의 내용이 html 파일로 저장되는데 주화면 왼쪽 밑에 와 같이 표시된다. 저장되는 위치는 역시 컴퓨터 시스템에서 지정된 다운로드(download) 폴더이다. 저장된 html 파일은 MS Word나 ᄒᆞᆫ글에서 불러올 수 있다.

로그창의 결과를 인쇄하려면 로그창 위의 인쇄 아이콘 을 클릭한다. 그러면 윈도우에서 제공하는 인쇄를 위한 화면이 나타나고 여기서 ‘인쇄’ 버튼을 클릭하면 프린터에 로그창 결과가 인쇄된다.

 

마. 시스템 나오기

『eStat』시스템을 끝내려면 브라우저를 종료하면 된다. 즉, 브라우저 오른쪽 위의 ☒ 버튼을 클릭한다.