3.2 한 변량 연속형 데이터의 시각화

연속형 데이터는 일반적으로 원시 데이터를 직접 이용하여 시각화 그래프를 그린다. 한 변량인 경우 그룹이 없는 경우와 있는 경우로 나누어 데이터 시각화를 알아보자.

데이터가 모집단에서 추출된 표본이라면 이 연속형 데이터 시각화는 6장에서 9장까지 연구할 추정 및 검정의 기초 분석으로 활용된다.

 

3.2.1 그룹이 없는 경우 연속형 데이터의 시각화

[예 3.2.1] (수달의 길이 – 한 변량 연속형 데이터)

천연기념물 수달 30마리의 길이를 조사한 자료가 다음과 같다. 『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.

63.2 65.3 67.6 68.7 69.7 60.7 72.4 75.2 64.4 76.5
68.3 69.3 70.2 71.3 74.2 63.6 66.1 67.9 68.7 70.5
72.3 72.8 77.6 78.1 69.7 69.4 68.6 68.2 67.2 61.7 (단위 cm)

eStat 그래프

(풀이)

‘eStat 그래프’ 버튼을 클릭하면 수달 길이의 점그래프가 나타난다.

수달길이 데이터의 점그래프를 살펴보면 평균 근처에 데이터가 많고, 평균을 중심으로 대칭으로 분포되어 있음을 알 수 있다.

히스토그램 아이콘을 클릭하면 역시 평균근처에 많은 데이터가 몰려 있고, 평균을 중심으로 거의 대칭 형태로 분포되어 있음을 관찰할 수 있다. 선택사항으로 히스토그램 위에 평균, 도수표시, 도수분포다각형을 그릴 수 있으며, 각 구간에 대한 도수분포표를 로그창에 나타낼 수 있다.

히스토그램에서 구간의 수와 구간의 너비는 자동적으로 계산하는데 사용자가 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

줄기와 잎 그림은 히스토그램의 변형 형태로서 여기서는 구간 [60, 61), [61, 62), … [78, 79)를 줄기로 하고 이 구간에 속하는 데이터의 소숫점 이하 자리수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다.

(『eStat』에서 데이터 처리 방법)

데이터를 『eStat』로 처리하기 위해서는 시트의 V1에 30개의 데이터를 모두 입력한다. 그리고 변량편집으로 V1의 변량명을 ‘수달길이’로 지정한다. 이 데이터의 경우는 『eStat』의 아이콘 EX > 31연속_수달의길이.csv로 불러올 수 있다.

마우스로 첫째 변량 ‘수달길이’를 선택한 후 점그래프 아이콘 을 클릭하면 수달길이의 점그래프가 그려진다. 이 그래프에서는 평균과 표준편차를 체크해서 같이 관찰 할 수 있다,

[실습 3.2.1] (서울의 자전거 도로 – 한 변량 연속형 데이터)

다음은 2016년 현재 서울의 25개 행정구별 자전거 전용 도로 길이에 대한 데이터이다. 『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.

0.0 0.0 1.5 0.6 0.0 1.4 3.1 0.3 0.1 0.7 0.8 0.0 0.4 2.8 16.1
8.1 1.5 3.8 4.6 0.0 2.9 0.0 4.4 18.4 3.3

(단위 km, 출처 서울통계정보시스템)

 

3.2.2 그룹이 있는 경우 연속형 데이터의 시각화

그룹이 있는 연속형 데이터는 원시 데이터를 직접 이용하여 그룹간의 비교를 위한 시각화 그래프를 그린다.

데이터가 모집단에서 추출된 표본이라면 두 개의 그룹이 있을 경우 두 모집단의 비교를 추정 및 검정의 기초 분석으로 활용된다. 8장에서 자세히 살펴본다. 세 개이상의 모집단의 경우 9장의 분산분석에서 자세히 살펴본다.

[예 3.2.2] (나이 – 두 그룹 연속형 데이터)

한 중학교 선생님의 성별과 나이를 조사한 데이터가 아이콘 EX > 32연속_선생님성별나이.csv에 저장되어 있다.『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.

선생님 성별과 나이 조사

번호 성별 나이
1 1 26
2 1 34
3 2 28
4 2 39
5 1 32
6 1 36
7 2 41
8 2 42
9
30 2 51

‘Ex’ 아이콘 폴더의 ’32연속_선생님성별나이.csv’

eStat 그래프

(풀이)

‘eStat 그래프’ 버튼을 클릭하면 남녀 선생님 나이의 점그래프가 나타난다.

성별 선생님 나이 데이터의 점그래프를 살펴보면 여자 선생님의 나이 평균이 더 높음을 알 수 있다. 이와 같은 두 그룹에 대한 통계적인 비교 분석은 8장에서 자세히 살펴 본다.

히스토그램 아이콘을 클릭하면 점그래프와 유사한 것을 관찰할 수 있다. 선택사항으로 히스토그램 위에 평균, 도수표시, 도수분포다각형을 그릴 수 있으며, 각 구간에 대한 도수분포표를 로그창에 나타낼 수 있다.

히스토그램에서 구간의 수와 구간의 너비는 자동적으로 계산하는데 사용자가 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

줄기와 잎 그림은 히스토그램의 변형 형태로서 여기서는 구간 [20, 30), [30, 40), … [60, 69)을 줄기로 하고 이 구간에 속하는 데이터의 끝자리 수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다.

(『eStat』에서 데이터 처리 방법)

아이콘 EX > 32연속_선생님성별나이.csv를 불러온다. 마우스로 첫째 변량 ‘성별과 둘째변량 나이를 선택한 후 점그래프 아이콘 을 클릭하면 <그림>와 같은 남녀별 나이의 점그래프가 그려진다. 이 그래프에서는 평균과 표준편차를 체크해서 같이 관찰 할 수 있다,

[실습 3.2.2]

칫솔질 방법(1:바스법, 2:회전법)에 따른 구강청결도 점수 데이터가 아이콘 EX > 30연속_칫솔질방법과구강청결도.csv에 저장되어 있다. 이 데이터의 점그래프, 히스토그램, 줄기와 잎 그림을 그려보라.

[예 3.2.3] (핫도그 칼로리 비교 – 세 그룹 연속형 데이터)

세 가지 재료(1:소고기, 2:돼지고기, 3:닭고기)로 만든 핫도그의 칼로리를 조사한 데이터가 EX 아이콘 > 33연속_핫도그영양평가.csv 에 저장되어 있다. 『eStat』을 이용하여 점그래프, 히스토그램을 이용하여 세 재료의 칼로리를 비교하라.

eStat 그래프

(풀이)

‘eStat 그래프’ 버튼을 클릭하면 세 가지 재료별 핫도그의 칼포리 점그래프가 나타난다.

핫도그 칼로리 점그래프를 살펴보면 소고기와 돼지고기로 만든 핫도그의 칼로리보다 닭고기로 만든 핫도그의 칼로리가 낮다. 이와 같은 여러 그룹의 비교는 분산분석을 이용하여 통계적인 분석을 할 수 있는데 9장에서 자세히 살펴본다.

히스토그램을 클릭하면 점그래프와 유사한 결과를 관찰할 수 있다. 선택사항으로 히스토그램 위에 평균, 도수표시, 도수분포다각형을 그릴 수 있으며, 각 구간에 대한 도수분포표를 로그창에 나타낼 수 있다.

히스토그램에서 구간의 수와 구간의 너비는 자동적으로 계산하는데 사용자가 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

(『eStat』에서 데이터 처리 방법)

EX 아이콘 > 33연속_핫도그영양평가.csv을 선택하여 데이터를 불러온다.

마우스로 첫째 변량 ‘핫도그종류’를 선택한 후 점그래프 아이콘 을 클릭하면 <그림>와 같은 핫도그종류에 따른 칼로리의 점그래프가 그려진다. 이 그래프에서는 평균과 표준편차를 체크해서 같이 관찰 할 수 있다,

[실습 3.2.3]

EX 아이콘 > 51혼합_여론조사.csv를 이용하여 교육정도별 월수입의 점그래프와 히스토그램을 그려보라.

Leave a Reply

Your email address will not be published. Required fields are marked *