4.1 도수분포표

범주형 데이터 시각화 강의
2장과 3장에서는 그래프를 이용한 데이터 시각화에 대해 알아보았다. 데이터의 수가 많고 복잡할 때 그래프를 이용한 데이터 시각화를 하면 내포된 정보를 쉽고 빠르게 살펴볼 수 있다. 하지만 좀 더 자세한 정보를 얻고 싶을 때는 표나 측도를 구하여 살펴보는 것이 좋다. 4.1절에서는 한 범주형 변량에 대한 데이터 요약 방법으로서 도수분포표를 소개하고, 4.2절에서는 두 범주형 변량에 대한 데이터 요약 방법으로 교차표를 알아본다. 4.3절에서는 연속형 데이터에 대하여 측도를 이용한 데이터 요약 방법을 알아본다.

 

4.1 도수분포표

도수분포표(frequency table)는 데이터 정리에 제일 많이 이용된다. 범주형 데이터의 도수분포표는 단지 측정값이 나타나는 빈도수(frequency, 간략히 도수라고도 함)를 정리하여 놓은 것이다. 이 때 빈도수를 전체 데이터의 숫자로 나눈 값(즉, 백분율)인 상대도수(relative frequency)도 보여주고, 이를 측정값 순서대로 누적한 누적상대도수(cumulative relative frequency)도 같이 보여주기도 한다. 이와 같은 도수분포표를 근거로 하여 막대그래프과 원그림을 그린다.
도수분포표는 범주형 데이터에 대해서 그리는 것이지만 연속형 데이터의 경우 범주형 데이터로 만들어 도수분포표를 작성할 수도 있다.
도수분포표는 데이터가 특정한 분포를 따르는지 살펴볼 수 있는데 이를 적합성 검정이라 한다. 10장에서 자세히 알아보기로 한다.

 

4.1.1 범주형 데이터의 도수분포표

[예 4.1.1] (범주형 데이터의 도수분포표)
[예 2.3.1]에서 <그림 4.1.1>과 같은 성별(1:남자, 2:여자) 데이터의 막대그래프 등을 그려보았다. 이와 같은 그래프는 남자와 여자의 빈도수, 즉 도수분포를 이용하여 그린 것이다. 『eStat』을 이용하여 이 성별 데이터의 도수분포표를 작성하여 보자.

성별
1
2
1
2
1
1
1
2
1
2

 

풀이

 

[실습 4.1.1] 한 초등학교 학급의 성별(1:남자, 2:여자)과 좋아하는 야채(1:상추, 2:시금치, 3:호박, 4:가지)를 조사한 데이터가 『eStat』의 EX 아이콘 > 22원시_성별좋아하는야채.csv에 저장되어 있다. 좋아하는 야채의 도수분포표를 그려보라.

 

4.1.2 연속형 데이터의 도수분포표

연속형 데이터에 대한 도수분포표는 대개 동일한 간격을 갖고, 서로 중복되지 않는 계급구간(class interval)을 여러 개 설정해 각 구간에 속하는 데이터의 개수를 도수분포표에 나타낸다. 이러한 도수분포표를 만들기 위해서는 먼저 최대값과 최소값을 찾아 데이터의 범위를 알아본 다음 구간의 개수를 결정한다. 이 때 ‘몇 개의 구간을 설정하는가?’라는 문제는 데이터의 양에 따라 달라지지만, 일반적으로 5개에서 10개 사이로 정한다. 구간의 개수가 정해지면 데이터값의 범위(=최대값-최소값)를 구간의 개수로 나누어 구간의 너비를 계산한다. 각 구간의 너비(interval width)는 대개 같게 하는데 양쪽 끝의 구간은 데이터를 살펴본 후 ‘– 미만’ 또는 ‘– 이상’으로 놓기도 한다.

[예 4.1.2] (연속형 데이터의 도수분포표)
다음은 한 도서관을 오전에 방문한 사람 30명의 나이를 조사한 데이터이다. 『eStat』을 이용하여 히스토그램을 그리고 각 구간의 도수분포표를 구하라
28 55 26 35 43 47 47 17 35 36 48 47 34 28 43
20 30 53 27 32 34 43 18 38 29 44 67 48 45 43 (단위 세)

 

풀이

 

[실습 4.1.2] 천연기념물 수달의 길이(단위 cm)를 측정한 데이터가 아이콘 EX > 31연속_수달의길이.csv에 저장되어 있다. 이 데이터의 구간별 도수분포표를 구하라.

Leave a Reply

Your email address will not be published. Required fields are marked *

CAPTCHA