2.2 요약 데이터의 시각화

2.2.1 한 그룹 요약 데이터의 시각화

1.4절에서 설명하였듯이 한 학급 학생들의 성별을 조사하여 ‘남’, ‘여’, ‘남’, … 등으로 기록한 것을 원시 데이터라 부르고 이를 다음과 같이 도수분포표 형태로 정리한 것을 요약 데이터라 부른다. 데이터의 수가 많아지면 원시 데이터를 요약 데이터로 정리하는 것도 일반인에게는 쉬운 일이 아니다. 그래서 대개 교과서나 공공기관은 요약 데이터의 형태로 일반인에게 정보를 제공한다.

성별 학생수
남자 6
여자 4

<그림 2.2.1> 한 학급의 성별을 정리한 요약 데이터

이와 같은 요약 데이터는 대개 엑셀시트를 이용하여 정리한다. 공공기관의 통계 데이터는 엑셀 파일로 다운받을 수 있게 하여준다. 예를 들어 우리나라에서 매 5년마다 전 국민을 대상으로 인구 총조사(census)를 실시하여 구해지는 인구데이터는 통계청(http://kostat.go.kr) > 통계포탈(KOSIS) > 국내통계 > 인구·가구 사이트에서 엑셀 파일로 다운로드 받을 수 있다. 통계청의 인구 데이터는 대개 남녀별 인구, 지역별 인구, 연령대별 인구 또는 지역별 남녀별 인구 등의 범주로 정리 요약하여 공표한다.

모든 엑셀 파일은 CSV 형식으로 저장이 가능한데 『eStat』에서 CSV 형식의 엑셀파일을 불러와서 데이터 처리 및 분석을 할 수 있다. 이 절에서는 이와 같이 교과서나 공공기관 공표에 많이 이용되는 범주형 요약 데이터의 분석에 대해 살펴 본다.

[예 2.2.1]> (인구 – 한 그룹 요약 데이터)

2015년 우리나라의 17개 시도별 인구가 다음 표와 같다. 이 데이터를 이용하여 막대그래프, 원그래프, 띠그래프, 꺽은선그래프를 그려 그 특징을 알아보자.

시도 인구수

(만명)

서울 990
부산 345
대구 247
인천 289
광주 150
대전 154
울산 117
세종 20
경기 1248
강원 152
충북 159
충남 211
전북 183
전남 180
경북 268
경남 333
제주 61

<그림 2.2.2> 2015년 시도별 인구수 (출처: 통계청)

(풀이)

– ‘eStat 그래프’ 버튼을 누르면 시도별 인구의 수직형 막대그래프가 그려진다.

– 막대그래프는 막대를 위아래로 그리는 세로형이 일반적이나, 범주의 개수가 많은 경우 왼쪽/오른쪽으로 그리는 가로형 막대그래프가 이용된다. 『eStat』에서 클릭.

– 세로형 라디오버튼을 누르면 세로형 막대그래프가 나타나고, 내림차순 라디오버튼을 클릭하면 막대가 큰 것부터 작은 것으로 정렬된다.

– 이어서 원그래프, 띠그래프, 꺽은선그래프 아이콘을 클릭하면 해당 그래프가 나타난다.

시도별 인구 데이터의 그래프를 보면 경기도와 서울시의 인구가 압도적으로 많음을 볼 수 있다. 정렬 기능 중에서 내림차순을 이용하면 서울, 경기 다음으로는 부산 경남 인천 순서임을 잘 살펴볼 수 있다. 원그래프를 보면 서울과 경기 인천의 인구수가 전체 인구의 50% 가까운 수도권 집중현상을 쉽게 관찰할 수 있다.

(『eStat』에서 데이터 처리 방법)

– 『eStat』에서 EX 아이콘 > 1Example_Korean > 13인구_시도별인구_2015.csv를 선택한다.

– 마우스로 첫째 변량 ‘시도’와 둘째 변량 ‘인구수’를 변량명을 차례로 클릭하여 변량를 선택한 후 막대그래프 아이콘을 클릭하면 <그림 2.2.3>과 같은 시도별 인구의 수직형 막대그래프가 그려진다.

<그림 2.2.3> 『eStat』의 2015년 우리나라 시도별 인구의 막대그래프

– 윗쪽의 원그래프, 도넛그래프, 띠그래프, 꺽은선그래프 아이콘을 클릭하면 해당 그래프가 나타난다.

[실습 2.2.1]

우리나라의 성씨 상위 20개에 대한 막대 / 원 / 띠 / 꺽은선그래프를 그려보라. (『eStat』에서 EX 아이콘 > 1Example_Korean > 14인구_성씨상위20개_2015.csv)

 

2.2.2. 여러 그룹 요약 데이터

[예 2.2.2] (인구 – 두 그룹 요약 데이터)

[예 2.2.1]은 2015년 우리나라의 17개 시도별 전체 인구에 대한 시각화 그래프이다. 다음 표는 2015년 각 시도별 남녀 인구 데이터이다. 이 데이터를 이용하여 각 시도별 남녀인구에 대한 막대그래프, 원그래프, 띠그래프, 꺽은선그래프를 그려 그 특징을 알아보자.

시도 남자 여자
서울 486 504
부산 170 175
대구 123 124
인천 146 144
광주 75 75
대전 77 77
울산 61 56
세종 10 10
경기 631 617
강원 77 75
충북 81 78
충남 108 103
전북 92 92
전남 90 90
경북 135 133
경남 170 164
제주 30 30

<그림 2.2.4> 2015년 시도별 남녀 인구수(출처: 통계청)

(풀이)

‘eStat 그래프’ 버튼을 클릭하면 우측에 수평형 막대그래프가 나타난다. 그래프를 살펴보면 서울 및 부산의 경우 여자수가 많고 경기 및 기타 지역은 남자수가 많거나 남녀 비슷한 형태를 보인다.

그룹별 막대그래프는 여러 가지 형태로 쉽게 변형할 수 있다. 각 그룹별 별도의 그래프를 같은 스케일로 그려 비교할 수 있는 분리형 먁대그래프(수직형 , 수평형 ) 각 그룹의 범주별 값을 같이 한 막대에 보여주는 쌓는형 막대그래프(수직형 , 수평형 ), 각 그룹의 범주별 값의 비율로 사각형을 분할한 비율형 막대그래프(수직형 , 수평형 ), 각 그룹의 범주별 값을 비교하기 좋게 나란히 옆으로 배치한 나란형(수직형 , 수평형 ), 그리고 두 개의 그룹만 있는 경우 위의 그래프와 같이 각 그룹의 범주별 값을 마주보게 하는 양쪽형(수직형 , 수평형 ) 등의 막대그래프가 있다.

그룹이 있을 경우 원그래프나 도넛그래프를 선택하면 각 그룹별 그래프가 그려진다. 각 그룹에서 어느 범주의 값이 전체 데이터 중에서 차지하는 비율이 많은지 쉽게 관찰할 수 있다.

그룹이 있을 경우 띠그래프를 선택하면 각 그룹별 그래프가 그려진다. 그룹별 각 범주의 값의 차이를 비교할 수 있다.

그룹이 있을 경우 꺽은선그래프를 선택하면 각 그룹별 꺽은선이 한 그래프에 나타나게 된다. 두 개의 그룹을 쉽게 같은 스케일에서 비교할 수 있다.

(『eStat』에서 데이터 처리 방법)

『eStat』에서 EX 아이콘 > 1Example_Korean > 13인구_시도별인구_2015.csv를 선택한다.

마우스로 첫째 변량 ‘시도’과, 셋째 변량 ‘남자’, 넷째 변량 ‘여자’의 변량명을 차례로 클릭하여 변량를 선택한 후 수직 나란형 막대그래프 아이콘 을 클릭하면 <그림 2.2.5>와 같은시도별 인구의 막대그래프가 그려진다. 나란형 막대그래프는 두 그룹(이 경우 남자 및 여자)의 비교가 용이하다. 요약 데이터인 경우 첫 번째 변량은 범주를 의미하는 변량이 되며, 둘째 및 셋째 변량이 각 그룹을 의미한다. 여러 개의 그룹이 있으면 넷째, 다섯째 … 등으로 변량이 늘어나게 된다.

 <그림 2.2.5> 『eStat』을 이용한 우리나라 연령별 남녀별 인구피라미드

[실습 2.2.2]

1930년 이후 우리나라의 연도별 인구수, 남자수, 여자수가 EX 아이콘 > 1Example_Korean > 11인구_연도별출생인구.csv에 저장되어 있다. 이 데이터를 이용하여 연도별 남녀 인구수에 대한 막대그래프, 꺽은선그래프를 그려라.

[예 2.2.3] (인구 – 두 그룹 요약 데이터)

2015년 우리나라의 연령대별 남녀 인구가 다음 표와 같다. 이 데이터를 이용하여 남녀별 연령대별 막대그래프, 원그래프, 띠그래프, 꺽은선그래프를 그려 그 특징을 알아보자.

 

연령구간 남자 여자
00 – 04세 115 109
05 – 09세 116 109
10 – 14세 126 116
15 – 19세 166 151
20 – 24세 181 158
25 – 29세 158 145
30 – 34세 185 176
35 – 39세 193 186
40 – 44세 214 207
45 – 49세 215 212
50 – 54세 209 205
55 – 59세 192 194
60 – 64세 134 141
65 – 69세 102 110
70 – 74세 79 97
75 – 79세 55 80
80 – 84세 28 54
85세이상 13 39

<그림 2.2.6> 2015년 연령대별 남녀 인구수(출처: 통계청)

eStat 그래프

(풀이)

‘eStat 그래프’ 버튼을 클릭하면 우측에 수평 양쪽형 막대그래프가 나타난다. 이와 같은 그래프를 인구피라미드라고 부른다.

그래프를 살펴보면 현재 우리나라는 항아리 형태의 연령별 인구 구조를 가지고 있다. 즉 현재 40세에서 50세의 장년층의 인구가 많고 노령 인구가 향후 점점 증가하며, 출생아의 수는 점차로 줄어든다. 경제 생활인구가 줄어들며 노년층의 건강, 보험 문제가 향후 예견된다.

그룹별 막대그래프는 여러 가지 형태로 쉽게 변형할 수 있다. 각 그룹별 별도의 그래프를 같은 스케일로 그려 비교할 수 있는 분리형 먁대그래프(수직형 , 수평형 ) 각 그룹의 범주별 값을 같이 한 막대에 보여주는 쌓는형 막대그래프(수직형 , 수평형 ), 각 그룹의 범주별 값의 비율로 사각형을 분할한 비율형 막대그래프(수직형 , 수평형 ), 각 그룹의 범주별 값을 비교하기 좋게 나란히 옆으로 배치한 나란형(수직형 , 수평형 ), 그리고 두 개의 그룹만 있는 경우 위의 그래프와 같이 각 그룹의 범주별 값을 마주보게 하는 양쪽형(수직형 , 수평형 ) 등의 막대그래프가 있다.

(『eStat』에서 데이터 처리 방법)

『eStat』에서 EX 아이콘 > 1Example_Korean > 12인구_연령대별남녀별인구_2015.csv를 선택한다.

마우스로 첫째 변량 ‘연령구간’과, 둘째 변량 ‘2015남자’, 셋째 변량 ‘2015여자’의 변량명을 차례로 클릭하여 변량를 선택한 후 양쪽형 수평 막대그래프 아이콘 을 클릭하면 <그림 2.2.7>과 같은 연령대별 인구피라미드의 막대그래프가 그려진다. 요약데이터인 경우 첫 번째 변량는 범주를 의미하는 변량이 되며, 둘째 및 셋째 변량이 각 그룹의 범주값을 의미한다. 여러 개의 그룹이 있으면 넷째, 다섯째 … 등으로 변량이 늘어나게 된다.

 <그림 2.2.7> 『eStat』을 이용한 우리나라 연령별 남녀별 인구피라미드

[실습 2.2.3] (건강 – 두 그룹 요약 데이터)

2015년 우리나라의 남녀별 사망원인이 다음 표와 같다. 이 데이터를 이용하여 막대그래프, 원그래프, 띠그래프, 꺽은선그래프를 그려 그 특징을 알아보자.

 

사망원인 남자 여자
48428 29853
순환계 28199 31345
질병이환 19600 9184
호흡계 15507 12299
이상증상 10562 13834
소화계 7428 4280

<그림 2.2.8> 2015년 남녀별 사망원인(출처: 통계청)

[예 2.2.4] (기후 – 네 그룹 요약 데이터)
1973년 이후 우리나라의 봄, 여름, 가을, 겨울 그리고 연 평균기온이 EX 아이콘 > 13요약_계절별온도.csv 에 저장되어 있다. 꺽은선그래프를 이용하여 온도변화의 특징을 알아보자.

eStat 그래프

(풀이)
‘eStat 그래프’ 버튼을 클릭하면 우측에 각 계절별 평균온도의 막대그래프가 나타난다.

그래프를 살펴보면 우리나라의 평균 기온이 점차로 올라가고 있음을 알 수 있다. 특히 겨울의 최근 몇 년 평균 기온이 과거와는 다르게 많이 올라갔음을 관찰할 수 있다.

이러한 연도별 데이터의 경우에는 꺽은선그래프가 데이터의 변화를 관찰하기 쉽다.

(『eStat』에서 데이터 처리 방법)
EX 아이콘 > 13요약_계절별온도.csv 파일을 불러온다.

마우스로 ‘연도’, ‘봄’, ‘여름’, ‘가을’, ‘겨울’의 변량명을 차례로 클릭하여 변량를 선택한 후 막대그래프 아이콘을 클릭하면 <그림 2.2.9>와 같은 사계절 온도의 막대그래프가 그려진다.

<그림 2.2.9> 1973년 이후 우리나라의 계절별 평균기온의 변화

[실습 2.2.4]

세계 주요도시의 1990년도 최고, 최저 온도가 EX 아이콘 > 2Example_English> WORLD_CityTemperature_1990.csv 와 같다. 꺽은선 그래프를 그려 비교하여 보라.

[예 2.2.5] (경제 – 두 그룹 요약 데이터)

2000년 이후 우리나라의 수출액과 수입액이 EX 아이콘 > 1Example_Korean > 22경제_수출입총괄_2016.csv에 저장되어 있다. 꺽은선그래프를 이용하여 수출/수입액의 특징을 알아보자.

eStat 그래프

(풀이)
‘eStat 그래프’ 버튼을 클릭하면 우측에 각 계절별 평균온도의 가로형 막대그래프가 나타난다.

그래프를 살펴보면 우리나라는 지난 10여년간 수출액이 수입액보다 훨씬 많음을 알 수 있다. 하지만 최근 몇 년간 수출 및 수입이 동시에 감소하고 있는 경기 둔화의 흐름도 관찰된다.

이러한 연도별 데이터의 경우에는 꺽은선그래프가 데이터의 변화를 관찰하기 쉽다. 하지만 막대그래프도 사용할 수도 있다. 수출/수입액에 대한 수직 나란형 막대그래프를 그려보자.

(『eStat』에서 데이터 처리 방법)
EX 아이콘 > 1Example_Korean > 22경제_수출입총괄_2016.csv 파일을 불러온다.

마우스로 ‘기간’, ‘수출(억불)’, ‘수입(억불)’의 변량명을 차례로 클릭하여 변량를 선택한 후 꺽은선그래프 아이콘을 클릭하면 꺽은선그래프가 그려진다.

[실습 2.2.5]

2017년도 OECD 국가별 수출/수입액이 EX 아이콘 > 2Example_English> OECD_ExportImport_2017.csv 와 같다. 막대그래프, 꺽은선 그래프를 그려 비교하여 보라.

Leave a Reply

Your email address will not be published. Required fields are marked *