4. 표/측도를 이용한 데이터 요약

4.1 도수분포표

도수분포표(frequency table)는 데이터 정리에 제일 많이 이용된다. 범주형 데이터의 도수분포표는 단지 측정값이 나타나는 빈도수(frequency, 간략히 도수라고도 함)를 정리하여 놓은 것이다. 이 때 빈도수를 전체 데이터의 숫자로 나눈 값(즉, 백분율)인 상대도수(relative frequency)도 보여주고, 이를 측정값 순서대로 누적한 누적상대도수(cumulative relative frequency)도 같이 보여주기도 한다. 이와 같은 도수분포표를 근거로 하여 막대그래프과 원그림을 그린다.

도수분포표는 범주형 데이터에 대해서 작성하는 것이지만 연속형 데이터의 경우 구간을 나누어 각 구간의 빈도수를 조사해 도수분포표를 작성할 수도 있다.

도수분포표는 데이터가 특정한 분포를 따르는지 살펴볼 수 있는데 이를 적합성검정이라 한다. 11장에서 자세히 알아보기로 한다.

 

4.1.1 범주형 데이터의 도수분포표

[예 4.1.1] (범주형 데이터의 도수분포표) [예 2.3.1]에서 아래 표와 같은 성별(1:남자, 2:여자) 데이터의 막대그래프 등을 그려보았다. 이와 같은 그래프는 남자와 여자의 빈도수, 즉, 도수분포를 이용하여 그린 것이다. 『eStat』을 이용하여 이 성별 데이터의 도수분포표를 작성하여 보자.

표 4.1.1 성별 데이터

성별

1

2

1

2

1

1

1

2

1

2

<풀이>

『eStat』에 성별 데이터를 입력한다(<그림 4.1.1>). ‘변량편집’을 이용하여 변량명 ‘성별’을 입력하고 변량값 1과 2에 대한 변량값명 ‘남’ ‘여’를 입력한다(<그림 4.1.2>). 이와 같이 변량값명에 대한 편집을 한 데이터는 JSON 형식으로 저장(아이콘 클릭)하여야 정보를 잃어버리지 않게 된다. 다시 불러올 때도 JSON 형식으로 불러오는 아이콘 을 클릭하여야 한다.

<그림 4.1.1> 데이터 입력

<그림 4.1.2> 변량편집

<그림 4.1.1>과 같이 변량선택박스에서 ‘분석변량’으로 성별을 선택하면 <그림 4.1.3>과 같은 성별의 막대그래프가 그려지고 여기서 마우스로 도수분포표 아이콘 을 선택하면 <그림 4.1.4>와 같은 남녀별 학생수에 대한 도수분포표가 로그창에 나타난다.

<그림 4.1.3> 성별의 막대그래프

[그림 4.1.4] 성별 도수분포표(1:남자, 2:여자)

막대그래프나 원그래프는 이 도수분포를 이용하여 그린 것이다.

풀이

[『eStat』실습 4.1.1] 한 초등학교 학급의 성별(1:남자, 2:여자)과 좋아하는 야채(1:상추, 2:시금치, 3:호박, 4:가지)를 조사한 데이터가 『eStat』의 ⇨ 01Korean ⇨ 026원시_성별좋아하는야채.csv에 저장되어 있다. 좋아하는 야채의 도수분포표를 작성해보라.

 

4.1.2 연속형 데이터의 도수분포표

연속형 데이터에 대한 도수분포표는 구간을 나누어 각 구간에 속하는 데이터의 빈도수를 조사하여 작성한다. 일반적으로 동일한 간격을 갖고, 서로 중복되지 않는 계급구간(class interval)을 여러 개 설정해 각 구간에 속하는 데이터의 개수를 도수분포표에 나타낸다. 이를 위해 먼저 최댓값과 최솟값을 구하여 데이터의 범위를 알아본 다음 구간의 개수를 결정한다. ‘몇 개의 구간을 할 것인가?’는 분석자의 선택인데 일반적으로 데이터의 수에 따라 5개에서 10개 사이의 구간의 수가 많이 이용된다. 구간의 개수가 정해지면 데이터값의 범위(=최댓값-최솟값)를 구간의 개수로 나누어 구간의 너비를 계산한다. 각 구간의 시작점과 끝점은 대개 ‘~ 이상()에서 ~ 미만()’으로 정한다.

[예 4.1.2] (연속형 데이터의 도수분포표) [예 3.2.1]의 수달의 길이(『eStat』의 ⇨ 01Korean ⇨ 031연속_수달의길이.csv) 데이터의 히스토그램과 도수분포표를 『eStat』을 이용하여 구하라.

<풀이>

『eStat』에서 ⇨ 01Korean ⇨ 031연속_수달의 길이.csv를 불러온다(<그림 4.1.5>). 마우스로 히스토그램 아이콘 을 클릭하고 변량명 ‘수달의길이’를 선택하면 <그림 4.1.6>과 같은 히스토그램이 그려진다.

<그림 4.1.5> 수달길이 데이터

<그림 4.1.6> 수달길이의 히스토그램

그래프 밑의 선택창에서(<그림 4.1.7>) ‘도수분포표’를 클릭하면 <그림 4.1.8>과 같은 구간별 도수분포표가 로그창에 나타난다.

<그림 4.1.7> 히스토그램의 선택사항
<그림 4.1.8> 수달 길이의 구간별 도수분포표

만일 히스토그램 구간을 60kg에서 5kg간격으로 재조정하기 위해서는 그래프 선택사항에서 ‘구간시작’을 60, 구간너비를 5로 설정한 후 ‘새구간으로 실행’ 버튼을 누르면 <그림 4.1.9>와 같은 히스토그램이 나타난다. 선택사항의 ‘도수분포표’를 클릭하면 <그림 4.1.10>의 도수분포표가 나타난다.

<그림 4.1.9> 구간 조정된 히스토그램

<그림 4.1.10> 구간 조정된 도수분포표

[『eStat』실습 4.1.2] 다음은 한 도서관을 오전에 방문한 사람 30명의 나이를 조사한 데이터이다. 『eStat』을 이용하여 히스토그램을 그리고 각 구간의 도수분포표를 구하라

28 55 26 35 43 47 47 17 35 36 48 47 34 28 43

20 30 53 27 32 34 43 18 38 29 44 67 48 45 43 (단위: 년)

풀이

4.2 교차표(Cross Table)

교차표(cross table 또는 contingency table)는 두 개의 범주형 변량을 요약하여 그 연관된 특성을 연구하는데 매우 효과적인 도표로서 한 변량의 도수분포표와 유사하다. 교차표는 두 변량의 가능한 변량값을 행과 열로 나누어 행변량의 속성과 열변량의 속성이 교차하는 부분에 셀(cell)을 만든 후, 각 데이터마다 행변량과 열변량의 데이터값을 조사하여 해당되는 셀에 속하는 데이터의 빈도수를 조사한다. 분석을 위해 각 셀의 빈도수 밑에 행의 합에 대한 백분율, 열의 합에 대한 백분율, 그리고 전체 백분율을 표시하기도 한다.

교차표는 범주형 데이터에 대해서 작성하는 것이지만 연속형 데이터의 경우 구간을 나누어 범주형 데이터로 만들어 교차표를 작성할 수도 있다.

교차표를 작성하여 분포를 살펴보면 대략 두 변량 사이의 관련성을 알 수 있다. 이를 좀 더 자세히 알아보기 위해서는 행변량와 열변량의 독립성검정, 또는 동질성검정 등의 통계분석을 할 수 있는데, 11장에서 자세히 알아보기로 한다.

4.2.1 범주형 데이터의 교차표

[예 4.2.1] (두 범주형 데이터)

[예 2.2.3]의 인구조사에서 성별(1:남자, 2:여자)과 함께 결혼여부(1:미혼, 2:결혼, 3:기타)를 조사한 데이터가 다음 표와 같다. 성별 결혼여부에 대한 교차표를 구하라.

표 4.2.1 성별 결혼여부 데이터

성별

결혼여부

1

1

2

2

1

1

2

1

1

2

1

1

1

1

2

2

1

3

2

1

<풀이>

『eStat』에 성별과 결혼여부 데이터를 입력한다(<그림 4.2.1>). ‘변량편집’을 이용하여 변량명 ‘성별’을 입력하고 변량값 1과 2에 대한 변량값명 ‘남자’, ‘여자’를 입력한다. 같은 방법으로 변량명 ‘결혼여부’를 입력하고 변량값 1, 2, 3에 대한 변량값명 ‘미혼’, ‘기혼’, ‘기타’를 입력한다. 이와 같이 변량값명에 대한 편집을 한 데이터는 JSON 형식으로 저장(아이콘 클릭)한다. 다시 불러올 때도 JSON 형식으로 불러오는 아이콘 을 클릭하여야 한다.

<그림 4.2.1> 성별 결혼여부 데이터 입력

마우스로 첫째 변량(‘분석변량’) ‘결혼여부’와, 둘째 변량(‘by 그룹’) ‘성별’의 변량명을 차례로 클릭하면 기본적으로 선택되어있는 <그림 4.2.2>와 같은 성별 결혼여부의 막대그래프가 나타난다. 이때 도수분포표 아이콘 을 클릭하면 성별 결혼여부의 교차표가 로그창에 표시된다(<그림 4.2.3>). 교차표에서는 행변량이 그룹변량이 되고 열변량이 분석변량이 된다. 이 교차표를 이용하여 성별 결혼여부에 대한 막대그래프가 그려진 것이다.

<그림 4.2.2> 성별 결혼여부의 막대그래프
<그림 4.2.3> 성별 결혼여부에 대한 교차표

[『eStat』실습 4.2.1] 초등학교 학급의 성별(1:남자, 2:여자)과 좋아하는 야채(1:상추, 2:시금치, 3:호박, 4:가지)를 조사한 데이터가 『eStat』의 ⇨ 01Korean ⇨ 026원시_성별좋아하는야채.csv에 저장되어 있다. 성별 좋아하는 야채의 교차표를 구하라.

 

4.2.2 연속형 데이터의 교차표

연속형 변량에 대한 교차표를 만들기 위해서는 도수분포표를 만들 때와 같이 구간을 나누어 빈도수를 조사한 다음 교차표를 만들면 된다. 두 변량이 모두 연속형 변량일 경우 교차표를 구하려면 구간별 데이터 변환 작업이 필요한데 이 경우는 엑셀 또는 R, SPSS 등과 소프트웨어를 사용하는 것이 바람직하다. 만일 한 변량이 범주형 그룹변량이고 다른 변량이 연속형 변량이라면 『eStat』 히스토그램의 ‘도수분포표’를 이용하여 교차표를 만들 수 있다. 다음 예를 살펴보자.

[예 4.2.2] (나이 – 두 그룹 연속형 데이터) 한 중학교 선생님의 성별과 나이를 조사한 데이터가 ⇨ 01Korean ⇨ 032연속_선생님성별나이.csv에 저장되어 있다.『eStat』을 이용하여 성별에 대한 나이의 교차표를 작성해 보자.

<풀이>

『eStat』에서 ⇨ 01Korean ⇨ 032연속_선생님성별나이.csv를 불러온다(<그림 4.2.4>). 마우스로 히스토그램 아이콘 을 클릭한 후 첫째 변량(‘분석변량’) ‘나이’와 둘째 변량(‘by 그룹’) ‘성별’을 선택하면 한 후 <그림 4.2.5>와 같은 성별 히스토그램이 나타난다. 그래프 밑의 선택창에서(<그림 4.2.6>) ‘도수분포표’를 클릭하면 <그림 4.2.7>과 같은 구간별 도수분포표가 로그창에 나타난다.

<그림 4.2.4> 성별 나이 데이터

<그림 4.2.5> 성별 나이의 히스토그램

<그림 4.2.6> 히스토그램의 선택사항

<그림 4.2.7> 성별 나이의 교차표

만일 히스토그램 구간을 20세에서 시작해서 10세 간격으로 재조정하기 위해서는 그래프 선택사항에서 ‘구간시작’을 20, 구간너비를 10으로 설정한 후 ‘새구간으로 실행’ 버튼을 누르면 <그림 4.2.8>과 같은 히스토그램이 나타난다. 선택사항의 ‘도수분포표’를 클릭하면 <그림 4.2.9>와 같은 구간조정된 도수분포표가 나타난다.

<그림 4.2.8> 구간조정된 히스토그램

<그림 4.2.9> 구간조정된 교차표

풀이

[『eStat』실습 4.2.2] 칫솔질 방법(1:바스법, 2:회전법)에 따른 구강청결도 점수 데이터가 ⇨ 01Korean ⇨ 033연속_칫솔질방법과구강청결도.csv에 저장되어 있다. 칫솔질 방법에 따른 구강청결도의 교차표를 작성하라.

4.3 측도를 이용한 데이터 요약

연속형 데이터는 데이터의 중심 위치, 산포도 등에 관한 측도를 이용하여 데이터의 전반적인 형태를 요약한다.

4.3.1 중심위치의 측도

중심위치의 측도(measure of central tendency)에는 평균, 중앙값, 최빈값 등이 있는데 이 중 가장 많이 사용되는 것이 평균(mean)이다.(이것을 산술평균이라고도 한다.) 관측한 개 데이터의 값들을 (은 데이터의 수) 이라 표기할 때 평균은 다음과 같이 정의된다.

(4-1)

평균은 데이터를 대표하는 일종의 무게중심으로 볼 수 있다. 따라서 각각의 데이터에서 평균을 뺀 편차들의 합은 0 이다. 즉,

(4-2)

주어진 데이터가 모집단일 때의 평균을 모평균(population mean)이라 하고 보통 (그리스 문자로 ‘뮤’라고 읽음)로 표시한다. 또한, 주어진 데이터가 표본일 때의 평균을 표본평균(sample mean)이라 하고 (‘엑스 바아’라고 읽음)로 표시한다. 평균은 어느 한 데이터값이 아주 크거나 작은 극단점의 영향을 많이 받는다. 하지만 표본평균은 모평균을 예측하기 위한 좋은 성질을 가지고 있어서 데이터 분석에 자주 사용된다.

중앙값(median)은 데이터를 크기 순서로 나열할 때 중앙에 놓이는 값으로 데이터가 표본일 경우 , 모집단일 경우 으로 표시한다. 즉, 데이터의 수를 이라 할 때, 이 홀수이면 번째의 값을 중앙값으로, 이 짝수이면 번째와 번째 데이터값의 평균을 중앙값으로 정의한다.

(4-3)

중앙값은 극단점이 있는 경우에도 민감하지 않아 극단점이 있는 경우에는 평균보다 중심위치의 측도로 더 자주 쓰인다.

최빈값(mode)은 데이터 중 가장 빈도가 많은 값이다.

최빈값 = 데이터 중 가장 빈도가 많은 값 (4-4)

하지만 연속형 데이터일 경우 거의 대부분의 데이터값들이 한번만 나타나기 때문에 단순히 빈도수가 많은 값을 최빈값으로 정하는 것은 불합리하다. 이런 경우 연속형 데이터를 몇 개의 계급구간으로 나누어서 각 구간에 대한 도수분포표로 정리한 후 가장 도수가 높은 구간의 중간값을 최빈값으로 정하기도 한다.

[예 4.3.1] (평균과 중앙값) 데이터과학 클래스의 7명 표본 학생을 대상으로 10점 만점인 퀴즈를 본 결과 5, 6, 3, 7, 9, 4, 8점 이었다. 이 데이터의 표본평균과 표본중앙값을 구하라. 『eStat』을 이용하여 표본평균과 표본중앙값을 구하여 비교하라.

<풀이>

이 데이터는 표본 데이터이므로 표본평균은 다음과 같다.

앙값은 먼저 데이터를 순서대로 정리한 후 (3, 4, 5, 6, 7, 8, 9) 그 중앙에 위치한 번째 값을 찾는다. 즉, 표본중앙값은 이다.

『eStat』을 이용하여 평균과 중앙값을 구하려면 시트의 V1열에 데이터를 입력한 후 기초통계량 아이콘 을 클릭한다. 그러면 로그창에 <그림 4.3.1>과 같은 결과가 나타난다. 평균, 중앙값과 함께 표준편차, 최솟값, 최댓값을 계산하여 준다.

<그림 4.3.1> 『eStat』의 평균, 표준편차, 최솟값, 중앙값 및 최댓값

풀이

[『eStat』실습 4.3.1] 천연기념물 수달 30마리의 길이(단위 cm)를 측정한 자료가 ⇨ 01Korean ⇨ 031연속_수달의길이.csv에 저장되어 있다. 『eStat』을 이용하여 평균과 최솟값, 중앙값, 최댓값을 구하라.

 

[예 4.3.2] (최빈값) 어느 날 한 도서관 방문자 나이에 대한 구간별 도수분포표가 표 4.3.1과 같을 때 최빈값을 구하라.

표 4.3.1 도서관 방문자 나이의 구간별 도수분포표

구간 (나이)

도수 (%)

[20.00, 30.00)

2 (6.7%)

[30.00, 40.00)

7 (23.3%)

[40.00, 50.00)

7 (23.3%)

[50.00, 60.00)

9 (30.0%)

[60.00, 70.00)

3 (10.0%)

[70.00, 80.00)

2 (6.7%)

합계

30 (100%)

<풀이>

나이 구간 ‘50-60’의 도수가 9로 가장 많으므로 이 구간의 중간값 55세가 최빈값이다.

단순한 평균의 단점을 보완하기 위한 여러 가지 변형형태가 있는데 그 중 한 가지가 절사평균(trimmed mean)이다. 이것은 데이터를 순서대로 나열한 후 극단점을 제거하기 위해 데이터 중 큰 값과 작은 값 각각 일정한 개수를 제외하고 평균을 내는 것이다. 이 절사평균은 올림픽에서 체조, 피겨스케이팅 등의 종목에서 심판의 편파적인 판정을 방지하기 위해 많이 사용된다. 극단점이 많은 경우 최댓값 대신에 상위 몇% 데이터, 최솟값 대신에 하위 몇% 데이터를 제거하고 절사평균을 구할 수도 있다

평균의 다른 변형형태로 많이 사용되는 것에 각 측정값에 일정한 가중치를 곱하여 평균을 구하는 가중평균(weighted mean)이 있다. 대학생의 성적에 대한 평점평균(grade point average)은 학점을 가중치로 하여 구하는 것이 가중평균의 예이다. 물가지수는 해당되는 물품의 총 유통량을 가중치를 사용하여 구한다. 데이터의 측정값을 이라하고 각각의 가중치를 이라 할 때 가중평균은 다음과 같이 정의된다.

(4-5)

풀이

[예 4.3.3] (절사평균) 올림픽 체조경기에서 한 선수에 대해 8명의 심판이 판정한 결과가 아래와 같다. 이 데이터의 평균과 중앙값을 구하라. 또 최댓값과 최솟값을 제외한 절사평균을 구한 후 비교하라.

9.0 9.5 9.3 7.2 10.0 9.1 9.4 9.0

<풀이>

이 데이터는 표본이 아니라 8명의 모집단이다. 평균은 다음과 같다.

중앙값은 이 짝수이므로 먼저 데이터를 순서대로 정리한다.

7.2 9.0 9.0 9.1 9.3 9.4 9.5 10.0

그 중앙에 위치한 번째 숫자번째 숫자의 평균이다. 즉, 중앙값은 이다.

절사평균은 최솟값 7.2와 최댓값 10.0 을 제외한 나머지 숫자의 평균이다.

이 데이터에서는 중앙값이나 절사평균이 산술평균보다 데이터의 대표성을 잘 나타내고 있다.

[예 4.3.4] (가중평균) 한 학생이 이번 학기에 국어(2학점), 수학(4학점), 영어(3학점) 세 과목을 수강하였는데 국어는 A학점, 수학은 B학점, 영어는 C학점을 받았다. A는 평점이 4점, B는 3점, C는 2점일 때 평점의 산술평균을 구하라. 또 학점을 가중치로한 가중평균을 구하여 비교하라.

<풀이>

가중평균이 산술평균보다 적은데 그 이유는 학점수가 낮은 국어(2학점)를 잘했지만 학점수가 큰 영어(3학점)를 상대적으로 못했기 때문이다.

풀이

4.3.2 산포도의 측도

어느 체조시합에서 ‘갑’선수의 경기에 대한 네 심판의 채점이 3, 4, 6, 7점이었다. 또 ‘을’선수의 경기에 대한 채점은 2, 4, 6, 8점이었다. 두 선수 모두 평균은 5점이지만 ‘을’은 ‘갑’에 비해 점수의 편차가 크다는 것을 쉽게 알 수 있다. 데이터가 흩어진 정도를 수치로 측정하는 것을 산포도의 측도(measure of dispersion)라 한다. 많이 쓰이는 산포도의 측도는 분산 또는 표준편차이고, 그밖에 평균절대편차, 범위, 사분위수범위 등이 있다.

분산(variance)이란 각 데이터값과 평균과의 거리를 제곱하여 합을 구한 후 이를 데이터의 수로 나눈 것이다. 따라서 데이터가 평균을 중심으로 많이 흩어져 있으면 분산이 커지고, 데이터가 평균주위에 몰려 있으면 분산이 작게 된다. 모집단의 분산을 모분산(population variance)이라 부르며 (시그마 제곱)으로 표시하고, 표본의 분산을 표본분산(sample variance)이라 부르며 로 표시한다. 모분산과 표본분산의 계산공식은 아래와 같이 약간의 차이가 있다.

모분산 : 모집단 데이터수) (4-6)

표본분산 : 표본 데이터수) (4-7)

표본분산을 계산할 때 대신 을 사용하는 데에는 중요한 이유가 있는데, 이는 6장에서 설명하기로 한다. 분산은 평균에서 각 측정값까지의 거리를 제곱하여 합을 구한 후 그 평균을 구한 것이다. 즉, 거리제곱의 평균이다. 이러한 분산공식의 의미는 <그림 4.3.2>의 두 그림을 비교하면 알 수 있다. 그림에서 * 표시가 각각의 데이터값을 나타내는데 두 데이터 모두 평균은 5 이다. 그러나 아래 그림의 데이터들이 평균으로부터의 거리가 더 멀리 떨어져 있는 것이 많아 분산이 더 크다.

<그림 4.3.2> 분산의 의미와 계산

표준편차(standard deviation)는 분산의 제곱근으로 정의한다. 모집단의 표준편차를 모표준편차라고 부르며 로 표시하고, 표본의 표준편차를 표본표준편차라고 부르며 로 표시한다. 분산은 제곱거리의 평균이어서 현실적인 해석이 쉽지 않으나 표준편차는 분산의 제곱근이어서 각 값과 평균과의 평균거리의 측도로 해석이 가능하다.

모표준편차 (4-8)

표본표준편차 (4-9)

[예 4.3.5] [예 4.3.1]의 표본 데이터 5, 6, 3, 7, 9, 4, 8 에서 표본분산, 표본표준편차를 구하라.

<풀이>

이 데이터는 표본이므로 평균은 이고 표본분산은 다음과 같다.

표준편차는 이다. 표 4.3.1의 표준편차값과 일치한다. 즉, 『eStat』에서는 표본표준편차를 계산하여준다.

만일에 두 개 이상의 데이터에 대한 표준편차를 비교할 때에는 데이터의 개수나, 측정단위가 서로 달라서 두 표준편차를 비교하는 것이 무의미하다. 이러한 경우에 사용하는 측도가 표준편차를 평균으로 나눈 변이계수(coefficient of variation)이다.

변이계수(모집단) (단위 %) (4-10)

변이계수(표본) (단위 %) (4-11)

풀이

[예 4.3.6] 어느 회사의 지난해 주별 매출실적의 평균이 1.36억원, 표준편차가 0.28억원이었다. 같은 데이터를 월별 매출액으로 하였을 때 평균이 5.44억원, 표준편차가 0.5억원이었다. 각 경우의 변이계수를 구하여 비교하라.

<풀이>

주별 매출액의 변이계수는 이고, 월별 매출액의 변이계수는 이다. 따라서 월별 매출액의 변화가 주별 매출액의 변화보다 더 작은 것을 알 수 있다.

범위(range)는 데이터의 최댓값에서 최솟값을 뺀 차이를 나타낸다. 범위는 계산하기가 간편하나 극단점이 있을 경우 올바른 산포의 측도가 되지 못한다.

범위 = 최댓값 – 최솟값 (4-12)

범위의 단점을 보완한 것이 사분위수범위인데 이것을 알기 위해서 먼저 백분위수를 살펴보자. 백분위수(percentile)는 데이터를 작은 것부터 큰 것까지 순서대로 늘어놓았을 때 대략 번째 데이터를 뜻하는데 정확한 정의는 다음과 같다.

백분위수 = 자기값 이하(값포함)로 적어도 의 관측값이 있고, (4-13)

자기값 이상(값 포함)으로 적어도 의 관측값이 있는 수

이 정의에 의하면 데이터가 적을 경우 한 관측값이 여러 개의 백분위수에 해당될 수도 있다. 백분위수 중 25% 백분위수를 일사분위수(1st quartile, Q1으로 표시), 50% 백분위수를 이사분위수(2nd quartile, Q2로 표시) 또는 중앙값(으로 표시), 75% 백분위수를 삼사분위수(3rd quartile, Q3로 표시)라고 부른다. 사분위수범위(interquartile range, IQR로 표시)는 삼사분위수에서 일사분위수를 뺀 값 즉, Q3 – Q1 이다.

사분위수범위(IQR) = Q3 – Q1 (4-14)

풀이

[예 4.3.7] 데이터 5, 6, 3, 7, 9 에 대해 범위, 사분위수범위를 구하라.

<풀이>

범위는 데이터중 최댓값(9)에서 최솟값(3)을 뺀 6이다. 사분위수를 구하려면 먼저 데이터를 올림차순으로 정리한다. (3, 5, 6, 7, 9) 데이터가 5개이므로 간단히 3은 20% 백분위수, 5는 40% 백분위수, 6은 60% 백분위수, 7은 80% 백분위수, 9는 100% 백분위수라고 생각할 수 있다. 하지만 위의 백분위수 정의에 의하면 3은 0%에서 20%까지의 어떠한 백분위수가 될 수가 있고, 5는 20%에서 40%까지의 어떠한 백분위수도 될 수 있다. <그림 4.3.3>에서 순서대로 나열한 데이터의 누적백분율 그림을 보면 이를 잘 알 수 있다. 따라서 일사분위수는 Q1 = 5, 이사분위수는 Q2 = 6, 삼사분위수는 Q3 = 7 이 되고 따라서 사분위수 범위는 IQR = Q3 – Q1 = 7 – 5 = 2 가 된다.

상자그래프(box-whisker plot)는 이러한 사분위수에 관한 데이터의 정보를 그림으로 나타낸 것으로 최근에 많이 사용되기 시작한 데이터정리 방법이다. 상자그래프는 먼저 일사분위수()와 삼사분위수()를 네모상자로 연결한 다음 중앙값()을 상자 안에 표시한다. 이내인 값 중에서 최솟값과 의 이내의 최댓값을 상자와 선으로 연결한다(<그림 4.3.4> 참조). 상자그래프를 이용하면 데이터분포의 대칭성, 데이터의 중심위치, 산포의 정도 등을 잘 알아볼 수 있다. 극단점이 있을 경우 의 선을 넘는 데이터는 극단점으로 간주하기도 한다. 통계패키지에서는 상자그래프의 좌측선을 max(최솟값, , 우측선을 min(최댓값, 으로 표시하기도 한다.

풀이

[예 4.3.8] 한 중학교에 재직하는 선생님의 성별과 나이 데이터가 『eStat』의 ⇨ 01Korean ⇨ 032연속_선생님성별나이.csv에 저장되어 있다. 『eStat』을 이용하여

1) 나이에 대한 상자그래프를 그리고 평균, 중앙값, 표준편차, 범위, 사분위수를 구하라.

2) 성별로 나이에 대한 상자그래프를 그리고 평균, 중앙값, 표준편차, 범위, 사분위수를 구하여 비교하라.

<풀이>

1) 『eStat』으로 데이터를 불러온 후 상자그래프 아이콘 을 클릭한다.

‘나이’ 변량을 클릭하면 <그림 4.3.5-1>과 같은 수평형 상자그래프가 나타난다. 그래프 밑의 선택사항에서 수직형을 선택하면 <그림 4.3.5-2>와 같은 수직형 상자그래프가 나타난다. 중앙값을 기준으로 위쪽의 값이 더 흩어져 있음을 알 수 있다.

<그림 4.3.5-1> 나이의 수평형 상자그래프

<그림 4.3.5-2> 나이의 수직형 상자그래프

그래프 선택사항에서 ‘기초통계량’ 버튼을 클릭하면 <그림 4.3.6>과 같은 나이의 기초통계량이 로그창에 표시된다.

<그림 4.3.6> 나이의 기초통계량

2) ‘나이’ 변량을 선택한 상태에서 ‘성별’ 변량을 클릭하면 <그림 4.3.7-1>과 같은 성별 수평형 상자그래프가 나타난다. 그래프 밑의 선택사항에서 수직형을 선택하면 <그림 4.3.7-2>와 같은 성별 수직형 상자그래프가 나타난다. 여자 선생님 나이의 산포가 남자 선생님보다 많음을 관찰할 수 있다.

<그림 4.3.7-1> 성별 나이의 수평형 상자그래프

<그림 4.3.7-2> 성별 나이의 수직형 상자그래프

그래프 선택사항에서 ‘기초통계량’ 버튼을 클릭하면 <그림 4.3.8>과 같은 성별 나이의 기초통계량이 로그창에 표시된다.

<그림 4.3.8> 성별 선생님 나이의 기초통계량

[『eStat』실습 4.3.2] 천연기념물 수달 30마리의 길이(단위 cm)를 측정한 자료가 ⇨ 01Korean ⇨ 031연속_수달의길이.csv에 저장되어 있다. 『eStat』을 이용하여 상자그래프를 그리고 기초통계량을 구하라.

Leave a Reply

Your email address will not be published. Required fields are marked *