1.3 데이터의 구분

데이터는 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 관찰 또는 측정한 값들이다. 이러한 사물이나 사건의 속성을 변수 또는 변량(variable)이라고 한다. 예를 들어 어느 대학 재학생의 성별과 신장을 측정하였다면 여기에는 두개의 변량(성별, 신장)이 있다. 성별에 대한 측정값은 ‘남’,‘여’,‘여’,‘남’, …. 과 같은 형태이고, 신장에 대한 측정값은 180cm, 165cm, 158cm, 175cm, … 와 같은 형태일 것이다.

‘성별’과 같은 변량의 데이터를 이산형 데이터(discrete data), 신장과 같은 변량의 데이터를 연속형 데이터(continuous data)로 구분한다. 성별과 같은 이산형 변량은 모든 가능한 측정값이 유한개 또는 셀 수 있는 변량를 뜻하며, 각각의 값에 대한 도수분포가 의미 있다. 일반적으로 이산형 변량 중 유한개의 범주 형태를 갖는 경우를 범주형 데이터(categorical data)라고 한다.

데이터를 구분하는 이유는 데이터의 종류의 따라 처리하는 방법과 분석 방법이 다르기 때문이다. 이 책의 2장은 범주형 데이터의 시각화를 다루고, 3장은 연속형 데이터의 시각화를 다룬다. 4장에서는 범주형 데이터의 요약인 도수분포표와 교차표를 다루고 표측도를 이용한 연속형 데이터 요약을 연구한다. 5장에서 9장 그리고 11장은 연속형 데이터의 통계 분석 이론을 연구한다. 10장은 범주형 데이터의 분석 이론을 연구한다.

소프트웨어를 이용한 데이터 분석을 위해 범주형 데이터는 원시 데이터(raw data)와 요약 데이터로 구분한다. 예를 들어 어느 초등학교 한 학급 학생 10명의 성별을 남, 여, 남, … 등으로 조사하여 다음과 같이 엑셀 시트에 정리하였다면 이를 원시 데이터라 한다. 여기서 데이터의 이름 ‘성별’을 변량명(variable name), ‘남’ 또는 ‘여’와 같은 값을 변량값(variable value)이라 부른다.

 

성별

<그림 1.3.1> 한 학급의 성별을 조사하여 엑셀에 정리한 원시 데이터

 

<그림 1.3.1>의 한 학급 성별 데이터는 ‘남’이 6명이고 ‘여’가 4명이다. 이렇게 빈도수를 정리한 데이터를 요약 데이터(summary data), 또는 성별의 도수분포표(frequency table)라고도 부른다. 엑셀에서는 일반적으로 다음과 같이 정리한다.

 

성별 학생수
6
4

<그림 1.3.2> 한 학급의 성별을 정리 요약한 데이터. 또는 성별 도수분포표

 

Leave a Reply

Your email address will not be published. Required fields are marked *