3. 연속형 데이터 시각화

3.1 연속형 데이터의 그래프

신장, 체중과 같이 가능한 값이 실수인 형태를 연속형 데이터라 한다. 연속형 데이터 시각화에는 점그래프, 히스토그램, 줄기와 잎 그림 등이 이용된다. 신장과 체중 같은 두 변량 연속형 데이터는 각 변량을 2차원 공간에 x축, y축으로 하여 산점도로 나타내기도 한다.

점그래프(dot graph)는 데이터의 개수가 적은 연속형 데이터를 정리하는데 많이 사용된다. 먼저 수평선을 그리고 모든 데이터가 표시될 수 있도록 눈금을 정한 후에 각각의 데이터 값을 점으로 표시한다. 이러한 점그래프를 그리면 쉽게 데이터의 분포형태, 이상점들을 잘 알 수 있다.

월수입과 같은 연속형 데이터는 값의 종류가 너무 많아 막대그래프을 그리면 무의미하다. 이런 경우 여러 개의 계급구간을 나누어 각 구간의 도수분포표를 구한 후 이에 대한 막대그래프(막대사이에 간격이 없는)를 그리는데 이를 히스토그램(histogram)이라고 부른다. ‘계급구간의 수를 몇 개로 하는 것이 좋은가?’라는 의문이 생기는데 일반적으로 데이터 수가 적은 경우는 5 2 개의 구간, 많은 경우는 (데이터 수의 제곱근)+1 이라는 공식을 많이 이용한다. 하지만 분석자의 판단에 따라 구간의 수는 조절할 수 있다. 데이터가 많더라도 너무 많은 구간의 수를 가지면 분석하기가 힘들다.

줄기와 잎 그림(stem-and-leaf plot)은 연속형 데이터를 정리할 때 많이 쓰이는 그림으로 관측값의 범위, 분포의 모양, 집중도 등을 쉽게 알 수 있다. 이름 그대로 데이터를 줄기(stem)와 잎(leaf)의 형태로 보여주는 것인데, 데이터 값들의 자리수를 고려하여 처음 몇 개의 자리수를 줄기라 정하고 나머지 자리수를 잎으로 결정한다. 『eStat』에서는 마지막 자리수를 잎으로 하고 그 앞의 숫자들을 줄기로 하여 그래프를 그린다. 각각의 데이터에 대해 어느 줄기에 속하는지 조사한 후 그 데이터의 잎에 해당하는 숫자를 해당줄기 오른쪽에 적는다. 모든 데이터를 이와 같이 정리한 후 각 줄기에서 잎의 값을 크기순으로 다시 배열한다. 줄기와 잎 그림은 연속형 데이터에 대한 구간별 도수분포와 히스토그램을 같이 보여주는 것으로서 최근에 많이 이용되고 있다.

산점도(scatter plot)는 한 변량를 X축 다른 변량를 Y축으로 하여 각각의 관찰값을 XY 평면상의 좌표값으로 하여 점으로 나타낸다. 두 변량의 관계를 분석하는 그림인데 두 개의 연속형 데이터의 관계를 분석하는데 매우 효율적이다.

이 장에서는 연속형 데이터를 그룹이 없는 경우와 있는 경우로 구분하여 데이터 시각화에 대해서 살펴본다. 이와 같은 연속형 데이터의 시각화는 향후 7장에서 12장에 걸쳐 설명할 통계적 분석 방법의 기본 분석이 된다. 그룹이 없는 한 변량 연속형 데이터의 추정 및 검정은 7장, 두 그룹의 연속형 데이터의 검정은 8장, 세 그룹 이상의 연속형 데이터의 검정은 9장에서 설명한다.

 

 

3.2 한 변량 연속형 데이터의 시각화

연속형 데이터는 원시 데이터를 직접 이용하여 시각화 그래프를 그린다. 한 변량인 경우 그룹이 없는 경우와 있는 경우로 나누어 데이터 시각화를 알아보자.

 

3.2.1 그룹이 없는 경우 연속형 데이터의 시각화

데이터가 모집단에서 추출된 표본이라면 그룹이 없는 경우 연속형 데이터 시각화는 6장과 7장의 한 모집단 모수의 추정 및 검정의 기초 분석으로 활용된다.

 

[예 3.2.1] (수달의 길이 – 한 변량 연속형 데이터)

천연기념물 수달 30마리의 길이를 조사한 자료가 다음과 같다. 『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.

<풀이>

『eStat』시스템에서 시트의 V1에 30개의 데이터를 모두 입력하고 변량편집으로 V1의 변량명을 ‘수달길이’로 지정한다. 이 데이터는 『eStat』의 ⇨ 01Korean ⇨ 031연속_수달의 길이.csv로 저장되어 있다.

점그래프 아이콘 을 클릭한 후 마우스로 첫째 변량 ‘수달길이’를 선택하면 <그림 2.1-1>과 같은 수달의 길이에 대한 점그래프가 그려진다. 분석변량 선택 박스에서 ‘수달길이’를 선택해도 된다. 그래프 밑의 선택사항에서 ‘평균/표준편차’를 체크하면 <그림 3.2.1-2>와 같이 데이터의 평균과 (평균) (표준편차) 구간을 같이 관찰 할 수 있다, 수달의 길이가 평균 근처에 데이터가 많고, 평균을 중심으로 대칭으로 분포되어 있음을 알 수 있다.

<그림 3.2.1-1> 수달길이의 점그래프 <그림 3.2.1-2> 평균/표준편차 점그래프

 

 

히스토그램 아이콘 을 클릭하면 <그림 2.2-1>과 같은 그래프가 나타난다. 그래프 밑의 선택사항에서 평균, 도수표시, 도수분포다각형을 체크하면 <그림 3.2.2-2>와 같이 히스토그램 위에 도수분포다각형이 표시된다. 히스토그램을 살펴보면 역시 평균 근처에 많은 데이터가 몰려 있고, 평균을 중심으로 거의 대칭 형태로 분포되어 있음을 관찰할 수 있다.

<그림 3.2.2-1> 수달길이의 히스토그램 <그림 3.2.2-2> 도수분포다각형

 

 

‘도수분포표’ 버튼을 클릭하면 <그림 2.3>과 같이 로그창에 현재 그려진 히스토그램의 각 구간별 도수분포표가 출력된다.

<그림 3.2.3> 히스토그램의 도수분포표

히스토그램에서 구간의 수와 구간의 너비는 『eStat』시스템이 자동적으로 계산하는데 사용자가 그래프 밑의 선택사항(<그림 2.4>에서 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

<그림 3.2.4> 히스토그램의 선택사항

줄기와 잎 그림 아이콘 을 클릭하면 <그림 2.5>와 같은 그래프가 나타난다. 이 그래프는 히스토그램의 변형 형태로서 여기서는 구간 [60, 61), [61, 62), … [78, 79)에 속하는 데이터를 찾아낸 후 각 구간의 한 자릿수를 줄기로 하고 이 구간에 속하는 데이터의 소숫점 이하 자릿수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다.

<그림 3.2.5> 수달길이의 줄기와 잎 그림

[예 3.2.1 풀이 끝]

 

[『eStat』실습 3.2.1] (서울의 자전거 도로 – 한 변량 연속형 데이터)

다음은 2016년 현재 서울의 25개 행정구별 자전거 전용 도로 길이에 대한 데이터이다. 『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.


 

3.2.2 그룹별 연속형 데이터의 시각화

그룹이 있는 연속형 데이터는 원시 데이터를 직접 이용하여 그룹간의 비교를 위한 시각화 그래프를 그린다. 데이터가 모집단에서 추출된 표본이라면 두 개의 그룹이 있을 경우 8장의 두 모집단의 비교를 가설검정의 기초 분석으로 활용된다. 세 개 이상의 그룹일 경우 9장의 여러 모집단의 비교를 위한 가설검정의 기초 분석으로 활용할 수 있다.

 

[예 3.2.2] (나이 – 두 그룹 연속형 데이터)

한 중학교 선생님의 성별과 나이를 조사한 데이터가 ⇨ 01Korean ⇨ 032연속_선생님성별나이.csv에 저장되어 있다.『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.

 

<풀이>

『eStat』시스템에서 ⇨ 01Korean ⇨ 032연속_선생님성별나이.csv를 불러온다.

점그래프 아이콘 을 클릭한 후 마우스로 변량 ‘나이’와 ‘성별’을 선택하면 <그림 2.6-1>과 같은 남녀별 나이의 점그래프가 그려진다. ‘분석변량’ 선택박스에서 ‘나이’를, ‘by 그룹’ 선택박스에서 ‘성별’을 선택하여도 된다. 그래프 밑의 선택사항에서 ’평균/표준편차‘를 체크하면 <그림 3.2.6-2>와 같이 평균선과 (평균) (표준편차) 구간이 점그래프위에 표시된다.

<그림 3.2.6-1> 성별 나이의 점그래프 <그림 3.2.6-2> 평균/표준편차 점그래프

성별 선생님 나이를 살펴보면 여자 선생님의 나이 평균이 더 높음을 알 수 있다. 과연 이와 같은 차이가 의미가 있는지 연구하는 두 그룹에 대한 통계적인 비교 분석은 8장에서 자세히 살펴본다.

히스토그램 아이콘 을 클릭하면 <그림 2.7-1>과 같은 그래프가 나타난다. 그래프 밑의 선택사항을 이용하면 히스토그램 위에 평균, 도수표시, 도수분포다각형을 그릴 수 있으며(<그림 3.2.7-2>), 각 구간에 대한 도수분포표(<그림 3.2.8>)를 로그창에 나타낼 수 있다.

 
<그림 3.2.7-1> 성별 나이의 히스토그램 <그림 3.2.7-2> 성별 도수분포다각형

<그림 3.2.8> 선생님의 성별 나이의 히스토그램에 대한 구간별 도수분포표

히스토그램에서 구간의 수와 구간의 너비는 자동적으로 계산하는데 사용자가 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

줄기와 잎 그림 아이콘 을 클릭하면 <그림 2.9-1>과 같은 그래프가 나타난다. 이 그래프는 히스토그램의 변형 형태로 여기서는 각 그룹별로 구간 [20, 30), [30, 40), … [60, 69)에 속하는 데이터를 조사하여 각 구간의 십자리수를 줄기로 하고 그 구간에 속하는 데이터의 끝자리 수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다. 그룹이 두 개일 경우에는 부아이콘 을 클릭하면 <그림 3.2.9-2>와 같은 양쪽형 줄기와 잎 그림을 그릴 수도 있다.

 
<그림 3.2.9-1> 성별 나이의 줄기와 잎 그림 <그림 3.2.9-2> 성별 나이의 양쪽형 줄기와 잎 그림,

[예 3.2.2 풀이 끝]

 

[『eStat』실습 3.2.2] 칫솔질 방법(1:바스법, 2:회전법)에 따른 구강청결도 점수 데이터가 ⇨ 01Korean ⇨ 033연속_칫솔질방법과구강청결도.csv에 저장되어 있다. 이 데이터의 점그래프, 히스토그램, 줄기와 잎 그림을 그려보라.

 

[예 3.2.3] (핫도그 칼로리 비교 – 세 그룹 연속형 데이터)

세 가지 재료(1:소고기, 2:돼지고기, 3:닭고기)로 만든 핫도그의 칼로리를 조사한 데이터가 ⇨ 01Korean ⇨ 034연속_핫도그영양평가.csv 에 저장되어 있다. 『eStat』을 이용하여 점그래프, 히스토그램을 이용하여 세 재료의 칼로리를 비교하라.

 

<풀이>

『eStat』시스템에서는 ⇨ 01Korean ⇨ 034연속_핫도그영양평가.csv을 선택하여 데이터를 불러온다.

점그래프 아이콘 을 클릭한 후 마우스로 변량 ‘칼로리’와 ‘핫도그종류’를 차례로 선택하면 <그림 2.10-1>과 같은 핫도그종류에 따른 칼로리의 점그래프가 그려진다. ‘분석변량’ 선택박스에서 ‘칼로리’를, ‘by 그룹’ 선택박스에서 ’핫도그종류‘를 선택하여도 된다. 그래프 밑의 선택사항에서 ’평균/표준편차‘를 체크하면 <그림 3.2.10-2>와 같이 평균선과 (평균) (표준편차) 구간이 점그래프위에 표시된다.

 
<그림 3.2.10-1> 핫도그 칼로리의 점그래프 <그림 3.2.10-2> 평균/표준편차 점그래프

핫도그 칼로리 점그래프를 살펴보면 소고기와 돼지고기로 만든 핫도그의 칼로리보다 닭고기로 만든 핫도그의 칼로리가 낮다. 이와 같은 여러 그룹의 비교는 분산분석을 이용하여 통계적인 분석을 할 수 있는데 9장에서 자세히 살펴본다.

히스토그램 아이콘 을 클릭하면 <그림 2.11-1>과 같은 그래프가 나타난다. 그래프 밑의 선택사항에서 평균, 도수표시, 도수분포다각형을 그릴 수 있으며(<그림 3.2.11-2>), 각 구간에 대한 도수분포표(<그림 3.2.12>)를 로그창에 나타낼 수 있다.

 
<그림 3.2.11-1> 세 가지 핫도그 종류에 따른 칼로리의 히스토그램 <그림 3.2.11-2> 핫도그 종류에 따른 칼로리의 도수분포다각형

<그림 3.2.12> 히스토그램에 대한 도수분포표

 

히스토그램에서 구간의 수와 구간의 너비는 자동적으로 계산하는데 사용자가 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

줄기와 잎 그림 아이콘 을 클릭하면 <그림 2.12>와 같은 그래프가 나타난다. 이 그래프는 히스토그램의 변형 형태로서 여기서는 각 그룹별로 구간 [80, 90), [90, 100), … [190, 200)에 속하는 데이터를 조사하여 각 구간의 백자릿수와 십자리수를 줄기로 하고 그 구간에 속하는 데이터의 끝자리 수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다. 그룹이 많아지면 <그림 3.2.13>과 같이 그래프를 그리는 화면이 넘칠 수도 있으니(여기서는 두 그룹만 보임) 주의하여야 한다.

<그림 3.2.13> 세 가지 핫도그 종류에 따른 칼로리의 줄기와 잎 그림. 그룹3이 안보임

[예 3.2.3 풀이 끝]

 

[『eStat』실습 3.2.3] ⇨ 01Korean ⇨ 040혼합_여론조사.csv를 이용하여 교육정도별 월수입의 점그래프, 히스토그램, 줄기와 잎 그림을 그려보라.

 

3.3 두 연속형 변량 데이터의 시각화

일반적으로 한 관찰대상에 대해 데이터를 수집할 경우 하나 이상의 변량에 대한 정보를 수집한다. 예를 들어, 한 초등학교 학생에 대해서는 성별과 함께 신장 및 체중을 같이 조사할 수 있다. 즉, 한 개의 범주형 변량과 두 연속형 변량을 측정하는 경우이다.

이와 같이 두 개의 연속형 변량을 측정한 데이터는 산점도(scatter plot)를 이용하여 두 변량의 관련성 등을 분석할 수 있다. 산점도는 한 변량의 값을 x축, 다른 변량의 값을 y축으로 하여 2차원 평면위에 각각의 데이터를 표시한 것이다. 만일 성별과 같은 범주형 변량을 같이 측정하여 그룹으로 하였다면 각 그룹의 색을 구분하여 산점도를 그릴 수 있다.

  • 두 연속형 변량에 대한 상관 및 회귀분석은 12장에서 자세히 살펴본다.

 

[예 3.3.1] (신장 및 체중 – 두 연속형 변량)

한 초등학교 학급 10명의 성별, 신장, 체중을 조사한 데이터가 ⇨ 01Korean ⇨ 40연속_성별신장체중.csv에 저장되어 있다.

1) 『eStat』을 이용하여 신장과 체중의 산점도를 그려라.

2) 『eStat』을 이용하여 성별 신장과 체중의 산점도를 그려라.

 

<풀이>

『eStat』시스템에서는 ⇨ 01Korean ⇨ 035연속_성별신장체중.csv를 불러온다.

산점도 아이콘 을 클릭한 후 마우스로 ‘체중’과 ‘신장’ 을 클릭하면 <그림 3.1-1>과 같은 체중을 y축(첫 번째 선택된 변량), 신장을 x축(두 번째 선택된 변량)으로 한 산점도가 그려진다. ‘Y변량’ 선택박스에서 ‘체중’을, ‘by X변량’ 선택박스에서 ‘신장’을 선택하여도 된다. 그래프 밑의 선택사항에서 ‘회귀선’을 체크하면 체중과 신장과의 관계를 나타내는 회귀선이 <그림 3.3.1-2>와과 같이 표시된다. 산점도를 살펴보면 신장이 클수록 체중도 상대적으로 많이 나가는 것을 관찰할 수 있다. 회귀선에 대한 자세한 내용은 12장을 참조하기 바란다.

<그림 3.3.1-1> 신장 및 체중의 산점도 <그림 3.3.1-2> 신장 및 체중의 회귀선

 

성별로 그룹이 표시된 산점도를 그리려면 선택사항의 ‘그룹’ 박스에서 ‘성별’을 선택하면 <그림 3.2-1>과 같이 성별이 다른 색으로 표시된 그림이 나타난다. 선택사항에서 ‘회귀선’을 체크하면 <그림 3.3.2-2>와 같이 각 그룹별 회귀선이 이 표시된다.

 
<그림 3.3.2-1> 성별 신장 및 체중의 산점도 <그림 3.3.2-2> 성별 신장 및 체중의 산점도 및 회귀선

선택사항에서 ‘크기변량’을 선택하면 이 변량의 크기에 비례한 원들로 표시된 <그림 3.3>과 같은 산점도가 나타난다.

<그림 3.3.3> 체중의 크기에 비례하게 점을 그린 성별 신장 및 체중의 산점도

[예 3.3.1 풀이 끝]

 

[『eStat』실습 3.3.1] 성별(1:남자, 2:여자)에 따른 나이와 월수입 조사 데이터가 아이콘 Ex ⇨ ⇨ n ⇨ 036연속_나이월수입조사.csv에 저장되어 있다. 나이와 월수입의 산점도를 그려라. 성별에 따른 나이와 월수입의 산점도를 그려보라.

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *