3.1 연속형 데이터 시각화를 위한 그래프

신장, 체중과 같이 가능한 값이 실수인 형태를 연속형 데이터라 한다. 연속형 데이터 시각화에는 점그래프, 히스토그램, 줄기와 잎 그림 등이 이용된다. 두 변량의 연속형 데이터, 예를 들면 신장과 체중을 2차원 공간에 x축, y축으로 하여 산점도로 나타내기도 한다.

점그래프(dot graph)는 데이터의 개수가 작은 연속형 데이터를 정리하는데 많이 사용된다. 먼저 수평선을 그리고 모든 데이터가 표시될 수 있도록 눈금을 정한 후에 각각의 데이터값을 점으로서 표시한다. 이러한 점그림을 그리면 쉽게 데이터의 분포형태, 이상점들을 잘 알 수 있다.

두 그룹이 있는 경우 평균을 표시하여 그룹의 비교에 많이 이용된다.

월수입과 같은 연속형 데이터는 값의 종류가 너무 많아 막대그래프을 그리면 무의미하다. 대개의 경우 여러 개의 계급구간을 나누어 도수분포표를 작성한 후 이에 대한 막대그래프(막대사이에 간격이 없는)을 그리는데 이를 히스토그램(histogram)이라고 부른다.

계급구간의 수를 몇 개로 하는 것이 좋은가?’라는 문제가 생기는데 일반적으로 (데이터 수의 제곱근)+1 이라는 공식을 많이 이용한다. 하지만 분석자의 판단에 따라 이 구간의 수는 조절할 수 있다. 데이터가 많더라도 너무 많은 구간의 수를 하면 분석하기가 힘들다. 히스토그램에도 수직형과 수평형의 변형된 형태가 있다. 도수분포다각형은 히스토그램의 각 막대를 연결하여 자료의 형태를 관찰하기위한 그래프이다.

줄기와 잎 그림(stem and leaf graph)은 연속형 데이터를 정리할 때 많이 쓰이는 그림으로 관측값의 범위, 분포의 모양, 집중도 등을 쉽게 알 수 있다. 글자 그대로 데이터를 줄기(stem)와 잎(leaf)의 형태로 보여주는 것인데, 데이터값들의 자리수를 고려하여 처음 몇 개의 자리수를 줄기라 정하고 나머지 자리수를 잎으로 결정한다. 그리고 각각의 데이터에 대해 어느 줄기에 속하는지 알아본 후 그 데이터의 잎에 해당하는 숫자를 해당줄기 오른쪽에 적는다. 모든 데이터를 이와 같이 정리한 후 각 줄기에서 잎의 값을 크기순으로 다시 배열한다. 줄기잎그림은 연속형 데이터에 대한 도수분포와 막대그래프을 같이 보여주는 것으로서 최근에 많이 이용되고 있다.

산점도(scatter plot)는 한 변량를 X축 다른 변량를 Y축으로 하여 각각의 관찰값을 XY 평면상의 좌표값으로 하여 점으로 나타낸다. 두 변량의 관계를 분석하는 그림인데 두 개의 연속형 데이터의 관계를 분석하는데 매우 효율적이다. 두 연속형 변량의 분포형태, 상관성, 이상점들을 관찰할 수 있다.

이 장에서는 연속형 데이터를 그룹이 없는 경우와 있는 경우로 구분하여 데이터 시각화에 대해서 살펴본다. 이와 같은 연속형 데이터의 구분 방법은 향후 7장 – 9장에서 연구할 통계적 방법에서도 적용된다. 그룹이 없는 한 변량 연속형 데이터의 추정 및 검정은 7장, 두 그룹의 연속형 데이터의 검정은 8장, 세 그룹 이상의 연속형 데이터의 검정은 9장에서 연구한다.

Leave a Reply

Your email address will not be published. Required fields are marked *