2. 범주형 데이터 시각화

2.1 범주형 데이터의 그래프

한 학급의 남녀 학생이 몇 명인지 또는 한 회사의 사원 중에서 미혼자와 기혼자가 몇 명인지 등을 조사한 데이터를 범주형 데이터라 한다. 범주형 데이터 시각화에는 막대그래프, 원그래프, 띠그래프, 꺾은선그래프 등이 이용된다.

막대그래프(bar graph)는 각 범주별 데이터의 값의 빈도수를 비교할 수 있도록 각 범주의 빈도수를 막대의 높이로 나타낸 것이다. 범주형 데이터라는 것을 강조하기 위하여 막대사이의 간격을 띄어 놓는다. 일반적으로 막대를 상하로 그리는 수직형 막대그래프가 많이 이용되나 데이터에 따라서는 막대를 좌우로 그리는 수평형 막대그래프가 이용되기도 한다.

한 범주형 변량의 빈도수를 성별과 같은 다른 변량(그룹 변량이라 부름)으로 세분하여 그래프를 그릴 수 있다. 이 경우 각 그룹별로 막대그래프를 그리는 분리형, 한 그룹의 막대위에 다른 그룹의 막대를 올려놓는 쌓는형, 전체 그룹의 데이터에 대한 각 그룹의 비율로 막대를 분할해서 그리는 비율형, 각 그룹의 막대를 비교하기 좋게 옆으로 위치해 놓는 나란형, 그룹이 두 개일 경우 막대를 좌우로 그리는 양쪽형 등 다양한 변형 형태가 있다.

원그래프(pie chart)는 각 범주의 빈도수가 전체 데이터에서 차지하는 비율을 원조각으로 나누어 표시한 그래프이다. 비율의 비교를 잘 할 수 있도록 시계 방향으로 가장 큰 범주의 원조각부터 순서대로 차례로 그린다. 원그래프의 경우 원의 가운데를 비워놓은 도넛그래프(doughnut graph)도 많이 이용된다.

띠그래프(band graph)는 원그래프의 변형 형태로 각 범주의 빈도수가 전체 데이터 중에서 차지하는 비율을 사각형 조각으로 나누어 표시한 그래프이다. 범주의 값이 가장 큰 순서부터 정렬할 수도 있으나 원그래프와 구별하기 위하여 데이터의 범주 순서대로 사각형 조각을 그린다.

꺾은선그래프(line graph)는 각 범주의 값에 연관하여 관찰된 다른 변량이 있을 때 X축을 범주값, 다른 변량의 값을 Y값으로 하여 XY평면에 점으로 표시한 후 이를 선으로 연결한 것이다. 막대그래프와 유사하나, 연도별 수출액 등의 경우에는 시간에 따른 데이터의 변화를 관찰할 수 있다.

이 장에서는 범주형 데이터를 요약 데이터와 원시 데이터로 구분하여 어떻게 『eStat』으로 데이터 시각화를 하는지 살펴본다.

 

2.2 요약 범주형 데이터 시각화

2.2.1 한 그룹 요약 데이터

한 학급 학생들의 성별을 조사하여 ‘남’, ‘여’, ‘남’, … 등으로 기록한 것을 원시 데이터(raw data)라 부르고 이를 표 2.1과 같이 도수분포표 형태로 정리한 것을 요약 데이터(summary data)라 부른다. 데이터의 수가 많아지면 원시 데이터를 요약 데이터로 정리하는 것도 일반인에게는 쉬운 일이 아니다. 통계패키지의 주요 기능 중의 하나가 원시 데이터를 요약 데이터로 정리하여 주는 것이다. 대개 교과서나 공공기관은 요약 데이터의 형태로 일반인에게 정보를 제공한다.

 

표 2.2.1 한 학급의 성별을 정리한 요약 데이터
성별 학생수
6
4

요약 데이터는 엑셀시트를 이용하여 많이 정리한다. 통계청을 비롯한 공공기관은 생산되는 통계에 관한 정보를 엑셀 파일로 다운받을 수 있게 하여준다. 예를 들어, 우리나라에서 매 5년마다 전 국민을 대상으로 인구 총조사(census)를 실시하여 구해지는 인구데이터는 통계청(http://kostat.go.kr) 통계포탈(KOSIS) 국내통계 인구가구 사이트에서 엑셀 파일로 다운로드 받을 수 있다. 통계청의 인구 데이터는 대개 남녀별 인구, 지역별 인구, 연령대별 인구 또는 지역별 남녀별 인구 등의 범주로 정리 요약하여 공표한다.

모든 엑셀 파일은 CSV 형식으로 저장이 가능한데 『eStat』에서는 CSV 형식의 엑셀파일을 불러와서 데이터 처리 및 분석을 할 수 있다. 이 절에서는 이와 같이 교과서나 공공기관 공표에 많이 이용되는 범주형 요약 데이터의 분석에 대해 살펴본다.

[예 2.2.1] (우리나라 시도별 인구 – 한 그룹 요약 데이터) 2015년 우리나라의 17개 시도별 인구가 표 2.2.2와 같다. 이 데이터는 『eStat』에서 아이콘 ⇨ 01Korean ⇨ 023요약_2015년남녀별인구.csv에 저장되어 있다. 『eStat』을 이용하여 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 그 특징을 알아보자.

표 2.2.2 시도별 인구수 (출처: 통계청 단위: 만명)
시도 인구수
서울 990
부산 345
대구 247
인천 289
광주 150
대전 154
울산 117
세종 20
경기 1248
강원 152
충북 159
충남 211
전북 183
전남 180
경북 268
경남 333
제주 61

<풀이>

『eStat』시스템에서 ⇨ 01Korean ⇨ 023요약_2015년남녀별인구.csv를 선택하고 마우스로 첫째 변량 ‘시도’와 둘째 변량 ‘인구수’ 변량명을 차례로 클릭하여 변량을 선택한다. 선택된 변량은 시트 위의 ‘선택변량’ 박스에 나타난다. <그림 2.1>과 같이 변량선택박스에서 ‘분석변량’ ‘by 그룹’ 박스에서 선택하여도 ‘선택변량’ 박스에 동일한 결과가 나타난다.

<그림 2.2.1> 데이터의 변량선택박스

 

변량이 선택되면 기본 그래프인 <그림 2.2-1>과 같은 시도별 인구의 수직형 막대그래프가 그려진다. 막대그래프를 보면 경기도와 서울시의 인구가 압도적으로 많음을 볼 수 있다. 그래프 밑의 선택사항에서 내림차순을 이용하면 <그림 2.2.2-2>와 같이 인구의 내림차순으로 막대가 정렬되어 나타난다. 경기, 서울 다음으로는 부산 경남 인천 순서임을 잘 살펴볼 수 있다.

<그림 2.2.2-1> 시도별 인구 수직형 막대그래프
<그림 2.2.2-2> 시도별 인구 내림차순 정렬 막대그래프

막대그래프는 막대를 위아래로 그리는 수직형이 일반적이나, 범주의 개수가 많은 경우 왼쪽/오른쪽으로 그리는 수평형 형태의 막대그래프가 이용된다. 『eStat』에서 을 클릭하면 <그림 2.2-3>의 좌측 하단과 같은 수평형 막대그래프가 나타난다. 이때 도수표시 버튼을 클릭하면 각 막대의 빈도수가 표시된다(<그림 2.2.2-4>).

<그림 2.2.2-3> 시도별 인구 수평형 막대그래프
<그림 2.2.2-4> 시도별 인구수 표시된 수평형 막대그래프

『eStat』에서 클릭하면 시도별 원그래프가 나타난다(<그림 2.3>). 원그래프를 보면 서울과 경기 인천의 인구수가 전체 인구의 50% 가까운 수도권 집중현상을 쉽게 관찰할 수 있다. 『eStat』에서 을 클릭하면 원그래프에서 가운데 작은 원을 잘라낸 도넛그래프(doughnut graph)가 나타난다.

<그림 2.2.3> 시도별 인구의 원그래프

『eStat』에서 클릭하면 띠그래프가 나타난다(<그림 2.4>). 띠그래프는 원그래프의 변형 형태로 각 범주의 값이 전체 데이터 중에서 차지하는 비율을 사각형 조각으로 나누어 표시한 그래프이다. 범주의 값이 큰 순서부터 정렬할 수도 있으나 원그래프와 구별하기 위하여 『eStat』에서는 데이터의 범주 순서대로 사각형 조각을 그렸다. 여러 개 붙여놓은 사각형이 띠 같아 띠그래프라고 부른다.

<그림 2.2.4> 시도별 인구의 띠그래프

『eStat』에서 을 클릭하면 꺾은선그래프(line graph)가 나타난다(<그림 2.5>). 범주형 데이터의 각 범주의 값을 X값, 그룹 변량의 값을 Y값으로 하여 XY평면에 점으로 표시한 후 이를 선으로 연결한 것이다. 위와 같은 인구 데이터의 경우에는 막대그래프와 유사하나, 연도별 수출액/수입액 등 시간에 관련되어 수집된 데이터의 경우에는 시간에 따른 데이터의 변화를 관찰할 수 있어 많이 이용된다.

<그림 2.2.5> 시도별 인구의 꺾은선그래프
실습

 

[예 2.2.1 풀이 끝] [『eStat』실습 2.2.1] 초등학생 희망직업에 대한 데이터(『eStat』에서  ⇨ 01Example_Korean ⇨ 022요약_초등학생희망직업.csv)에 대한 막대 / 원 / 띠 / 꺾은선그래프를 그려보라.

 

2.2.2 여러 그룹 요약 데이터

[예 2.2.2] (연령대별 남녀 인구 – 두 그룹 요약 데이터) 2015년 우리나라의 연령대별 남녀 인구가 표 2.2.3과 같다. 이 데이터를 이용하여 남녀별 연령대 인구의 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 그 특징을 알아보자.

표 2.2.3  2015년 연령구간별 남녀별 인구수 (출처: 통계청, 단위: 만명)
연령구간 2015남자 2015여자
00 – 04세 115 109
05 – 09세 116 109
10 – 14세 126 116
15 – 19세 166 151
20 – 24세 181 158
25 – 29세 158 145
30 – 34세 185 176
35 – 39세 193 186
40 – 44세 214 207
45 – 49세 215 212
50 – 54세 209 205
55 – 59세 192 194
60 – 64세 134 141
65 – 69세 102 110
70 – 74세 79 97
75 – 79세 55 80
80 – 84세 28 54
85세이상 13 39

 

<풀이>

『eStat』시스템에서  ⇨ 01Korean ⇨ 023요약_2015년남녀별인구.csv를 선택하고 마우스로 첫째 변량 ‘연령구간’과, 둘째 변량 ‘2015남자’, 셋째 변량 ‘2015여자’의 변량명을 차례로 클릭한다. <그림 2.6>과 같이 ‘분석변량’ 박스에서 ‘연령구간’ ‘by 그룹’ 박스에서 ‘2015남자’ ‘2015여자’ 변량을 차례로 선택해도 된다. 변량이 선택되면 <그림 2.2.7>과 같이 기본적으로 선택되어 있는 연령구간별 남녀 인구가 분리된 수직형 막대그래프가 나타난다.

<그림 2.2.6> 분석변량 선택박스
<그림 2.2.7> 2015년 연령구간별 남녀 인구의 분리형 세로 막대그래프

이와 같이 그룹이 있는 막대그래프는 다른 변형 형태가 가능하다. 주 아이콘 밑에 있는 부 아이콘 리스트( )를 이용하여 10가지의 막대그래프를 그릴 수 있다. 수직형 막대그래프의 ‘쌓는형’(<그림 2.8-1>), ‘비율형’(<그림 2.2.8-2>), ‘나란형’(<그림 2.2.8-3>), ‘양쪽형’(<그림 2.2.8-4>)이고, 수평형 막대그래프로서 ‘분리형’(<그림 2.2.9-1>), ‘쌓는형’(<그림 2.2.9-2>), ‘비율형’(<그림 2.2.9-3>), ‘나란형’(<그림 2.2.9-4>), ‘양쪽형’(<그림 2.2.9-5>) 이다.

<그림 2.2.8-1> 2015년 연령구간별 남녀 인구의 쌓는형 세로 막대그래프
<그림 2.2.8-2> 2015년 연령구간별 남녀 인구의 비율형 세로 막대그래프
<그림 2.2.8-3> 2015년 연령구간별 남녀 인구의 나란형 세로 막대그래프
<그림 2.2.8-4> 2015년 연령구간별 남녀 인구의 양쪽형 세로 막대그래프
<그림 2.2.9-1> 2015년 연령구간별 남녀 인구의 분리형 수평 막대그래프
<그림 2.2.9-2> 2015년 연령구간별 남녀 인구의 쌓는형 수평 막대그래프
<그림 2.2.9-3> 2015년 연령구간별 남녀 인구의 비율형 수평 막대그래프
<그림 2.2.9-4> 2015년 연령구간별 남녀 인구의 나란형 수평 막대그래프
<그림 2.2.9-5> 2015년 연령구간별 남녀 인구의 양쪽형 수평 막대그래프

<그림 2.9-5>의 양쪽형 수평 막대그래프는 연령대별 남녀별 인구 피라미드라고 부른다. 현재 우리나라는 항아리 형태의 연령별 인구 구조를 가지고 있다. 즉, 현재 40세에서 50세의 장년층의 인구가 많고 노령 인구가 향후 점점 증가하며, 출생아의 수는 점차로 줄어든다. 경제 생활인구가 줄어들며 노년층의 건강, 보험 문제가 향후 예견된다.

『eStat』에서 아이콘 을 클릭하면 남녀별 원그래프(<그림 2.10>), 띠그래프(<그림 2.2.11>), 꺾은선그래프(<그림 2.2.12>)가 나타난다. 꺾은선그래프를 살펴보면 54세까지는 각 연령대별로 남자의 인구가 여자의 인구보다 많지만 그 이후에는 여자의 인구가 더 많음을 관찰할 수 있다.

<그림 2.2.10> 남녀 그룹별 원그래프
<그림 2.2.11> 남녀 그룹별 띠그래프
<그림 2.2.12> 남녀의 꺾은선그래프

그룹이 있을 경우 원이나 띠그래프를 그려보면 그룹별 각 범주의 값의 차이를 비교할 수 있다. 꺾은선그래프를 선택하면 각 그룹별 꺾은선이 한 그래프에 나타나게 된다. 두 개의 그룹을 같은 스케일에서 비교할 수 있다. 이와 같이 그룹이 있는 경우 각각의 그래프는 데이터가 가지는 특성을 서로 다른 형태로 관찰할 수 있기 때문에 여러 가지 그래프를 모두 그려 관찰하는 것이 좋다.

실습

 

[예 2.2.2 풀이 끝]

 

[『eStat』실습 2.2.2] (시도별 남녀 인구 – 두 그룹 요약 데이터)

2015년 시도별 남녀 인구가 표 2.2.4와 같다(  ⇨ 01Korean ⇨ 023인구_시도별인구_2015.csv). 이 데이터를 이용하여 각 시도별 남녀인구에 대한 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 그 특징을 알아보라.

표 2.2.4  시도별 남녀 인구수 (출처: 통계청, 단위: 만명)
시도 남자 여자
서울 486 504
부산 170 175
대구 123 124
인천 146 144
광주 75 75
대전 77 77
울산 61 56
세종 10 10
경기 631 617
강원 77 75
충북 81 78
충남 108 103
전북 92 92
전남 90 90
경북 135 133
경남 170 164
제주 30 30

 

[예 2.2.3] (계절별 평균기온 – 네 그룹 요약 데이터 ) 1973년 이후 우리나라의 봄, 여름, 가을, 겨울 그리고 연 평균기온이  ⇨ 01Korean ⇨ 024요약_계절별온도.csv 에 저장되어 있다. 꺾은선그래프를 이용하여 온도변화의 특징을 알아보자.

 

<풀이>

『eStat』시스템에서  ⇨ 01Korean ⇨ 024요약_계절별온도.csv 파일을 불러온 후 꺾은선그래프 아이콘 을 클릭하고, 마우스로 ‘연도’, ‘봄’, ‘여름’, ‘가을’, ‘겨울’의 변량명을 차례로 누르면 <그림 2.13>과 같은 사계절 온도의 꺾은선그래프가 그려진다.

<그림 2.2.13> 1973년 이후 우리나라의 계절별 평균기온의 변화

그래프를 살펴보면 우리나라의 평균 기온이 점차로 올라가고 있음을 알 수 있다. 특히 겨울의 최근 몇 년 평균 기온이 과거와는 다르게 많이 올라갔음을 관찰할 수 있다.

이러한 연도별 데이터의 경우에는 꺾은선그래프가 데이터의 변화를 관찰하기 쉽다. 하지만 막대그래프도 사용될 수 있다.

실습

 

[예 2.2.3 풀이 끝] [『eStat』실습 2.2.3] OECD 국가의 국민소득이  ⇨ OECD ⇨ 011OECD_NationalIncome_2017.csv 와 같다. 2000년도, 2005년도, 2010년도, 2015년도의 각 국가별 국민소득에 관한 꺾은선그래프를 그려 비교하여 보라.

 

2.3 원시 범주형 데이터 시각화

2절에서는 요약 범주형 데이터의 시각화에 대해서 살펴보았다. 이 절에서는 원시 데이터를 이용한 데이터 시각화 방법에 대해서 설명한다. 원시 데이터는 요약 데이터 형태로 가공한 후 시각화를 하게 되는데 이것이 통계패키지의 주요 기능이고 『eStat』은 이와 같은 통계패키지의 분석 기능을 수행할 수 있다.

그룹이 없는 경우와 그룹이 있는 경우로 나누어 원시 데이터의 시각화를 살펴보자.

 

2.3.1 한 그룹 원시 데이터

[예 2.3.1] (인구조사 – 한 그룹 원시 데이터) 인구조사의 경우 성별 데이터는 표 2.3.1과 같이 코드(1: 남자, 2: 여자)를 주어 정리한다. 이와 같은 데이터를 원시 데이터라 부른다. 『eStat』을 이용하여 막대그래프, 원그래프, 띠그래프를 그려 그 특징을 알아보자.

표 2.3.1 성별 조사 (1:남자, 2:여자)
성별
1
2
1
2
1
1
1
2
1
2

<풀이>

『eStat』시스템에서 시트에 성별 데이터를 입력한다. ‘변량편집’을 이용하여 <그림 3.1>과 같이 변량명 ‘성별’을 입력하고 변량값 1과 2에 대한 변량값명을 입력한다. 이와 같이 변량값명에 대한 편집을 한 데이터는 JSON 형식으로 저장(아이콘 클릭)하여야 정보를 잃어버리지 않게 된다. 다시 불러올 때도 JSON 형식으로 불러오는 아이콘 을 클릭하여야 한다.

<그림 2.3.1>『eStat』의 변량편집을 이용한 변량명, 변량값명 입력

마우스로 변량명 ‘성별’을 클릭선택한 후 막대그래프 아이콘 을 클릭하면 <그림 3.2-1>과 같은 인구의 수직형 막대그래프가 그려진다. 막대그래프를 보면 성별 변량의 빈도수 즉, 남자 6명, 여자 4명임을 조사하여 이에 따른 막대그래프를 그렸음을 알 수 있다. 이렇게 원시 데이터에서 도수 분포를 조사하여 그래프를 그리는 것이 통계패키지의 기본 기능이다.

<그림 2.3.2-1> 성별 수직형 막대그래프
<그림 2.3.2-2> 성별 수평형 막대그래프

막대그래프는 막대를 위아래로 그리는 수직형이 일반적이나, 범주의 개수가 많은 경우 <그림 3.2-2>와 같은 수평형 형태의 막대그래프가 이용된다. (『eStat』에서  클릭)

『eStat』에서 아이콘 을 클릭하면 도수분포에 대한 원그래프(<그림 3.3>)와 띠그래프(<그림 2.3.4>)가 나타난다. 를 클릭하면 도넛그래프가 그려진다.

<그림 2.3.3> 성별 원그래프
<그림 2.3.4> 성별 띠그래프

 

실습

 

[예 2.3.1 풀이 끝]

 

[『eStat』실습 2.3.1] 한 초등학교 학급의 성별(1:남자, 2:여자)과 수학선호도(1:좋음, 2:보통, 3:싫음)를 조사한 데이터가 『eStat』의  ⇨ 01Korean ⇨ 025원시_수학선호도조사.csv에 저장되어 있다. 수학 선호도의 막대 / 원 / 띠그래프를 그려보라.

 

2.3.2 그룹 있는 원시 데이터

[예 2.3.2] (인구조사 – 그룹 있는 원시 데이터) [예 2.3.1]의 인구조사에서 성별(1:남자, 2:여자)과 함께 결혼여부(1:미혼, 2:결혼, 3:기타)를 조사한 데이터가 표 2.3.2와 같다. 이 데이터에서 남자 여자별로 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 두 그룹의 특징을 비교하여 보자.

표 2.3.2 성별 결혼여부 조사
성별 (1:남자, 2:여자) 결혼여부 (1:미혼, 2:기혼, 3:기타)
1 1
2 2
1 1
2 1
1 2
1 1
1 1
2 2
1 3
2 1

<풀이>

『eStat』시스템에서 시트에 성별과 결혼여부 데이터를 입력한다. ‘변량편집’을 이용하여 변량명 ‘성별’을 입력하고, 변량값 1과 2에 대한 변량값명 ‘남자’와 ‘여자’를 입력한다. 같은 방법으로 변량명 ‘결혼여부’를 입력하고 변량값 1, 2, 3에 대한 변량값명 ‘미혼’, ‘기혼’, ‘기타’를 입력한다. 이와 같이 변량값명에 대한 편집을 한 데이터는 JSON 형식으로 저장(아이콘 클릭)하여야 정보를 잃어버리지 않게 된다. 다시 불러올 때도 JSON 형식으로 불러오는 아이콘 을 클릭하여야 한다. 마우스로 ‘결혼여부’와 ‘성별’ 변량명을 차례로 클릭하면 <그림 3.5>와 같은 남녀별 결혼여부의 막대그래프가 같은 화면에 그려진다.

<그림 2.3.5> 인구조사의 성별, 결혼여부에 대한 막대그래프 데이터 예

이와 같이 그룹이 있는 막대그래프는 다른 변형 형태가 가능하다. 주 아이콘 밑에 있는 부 아이콘 리스트( )를 이용하여 10가지의 막대그래프를 그릴 수 있다. <그림 3.6>은 왼쪽 상단부터 수직형 막대그래프의 ‘쌓는형’, ‘비율형’, ‘나란형’, ‘양쪽형’이고 <그림 2.3.7>은 수평형 막대그래프로 왼쪽 상단부터 ‘분리형’, ‘쌓는형’, ‘비율형’, ‘나란형’, ‘양쪽형’ 이다.

<그림 2.3.6-1> 성별 결혼여부의 쌓는형 수직 막대그래프
<그림 2.3.6-2> 성별 결혼여부의 비율형 수직 막대그래프
<그림 2.3.6-3> 성별 결혼여부의 나란형 수직 막대그래프
<그림 2.3.6-4> 성별 결혼여부의 양쪽형 수직 막대그래프
<그림 2.2.7-1> 성별 결혼여부의 분리형 수평 막대그래프
<그림 2.3.7-2> 성별 결혼여부의 쌓는형 수평 막대그래프
<그림 2.3.7-3> 성별 결혼여부의 비율형 수평 막대그래프
<그림 2.3.7-4> 성별 결혼여부의 나란형 수평 막대그래프
<그림 2.3.7-5> 성별 결혼여부의 양쪽형 수평 막대그래프

『eStat』에서 아이콘 을 클릭하면 남녀별 원그래프(<그림 3.8>), 띠그래프(<그림 2.3.9>)가 나타난다. 각 그룹에서 어느 범주의 값이 전체 데이터 중에서 차지하는 비율이 많은지 쉽게 관찰할 수 있다.

<그림 2.3.8> 성별 결혼여부의 원그래프
<그림 2.3.9> 성별 결혼여부의 띠그래프
실습

 

[예 2.3.2 풀이 끝]

 

 

[『eStat』실습 2.3.2] 한 초등학교 학급의 성별(1:남자, 2:여자)과 수학선호도(1:좋음, 2:보통, 3:싫음)를 조사한 데이터가 『eStat』의  ⇨ 01Korean ⇨ 025원시_수학선호도조사.csv에 저장되어 있다. 성별 수학 선호도의 막대 / 원 / 띠그래프를 그려보라

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다