Category Archives: Data Science

1. 데이터과학과 『eStat』

1.1 데이터과학이란?

1946년 미국 펜실베니아대학의 존 에커트와 존 모클리에 의해 처음 개발되었던 현대 디지털 컴퓨터는 1960년대 이후 현실에 응용되기 시작하여 지난 반세기 동안 엄청난 발전을 이룩하고 우리 사회의 많은 변화를 가져왔다. 특히 1980년대 이후 컴퓨터와 컴퓨터의 연결이 시작되고, 개인용 컴퓨터가 활성화되고, 유무선 정보통신 기술이 발전되면서 최근에는 전 세계의 거의 모든 컴퓨터가 유무선 인터넷을 통하여 연결되어 있다. 2000년대 이후에는 성능이 우수한 컴퓨터가 소형화 되면서 전화기와 연결한 스마트폰이 탄생되어 우리 사회에 많은 변화를 가져왔다.

이와 같은 컴퓨터와 정보통신 기술의 발전은 최근에 더욱 심화되어 알파고와 같은 인간의 지능을 능가하는 인공지능(artificial intelligence; AI)을 만들어내고 있다. 또한 모든 전자기기를 인터넷으로 컴퓨터에 연결시키는 사물인터넷(internet of things; IoT) 시대를 준비하고 있다. 자동운행 차, 로봇 의사, 로봇 선생님 등 현재와는 획기적으로 다른 사회가 예견되는데 이를 4차 산업혁명 기술사회로 부른다.

이러한 기술의 발전은 과거에는 상상도 할 수 없었던 크기의 빅데이터(big data)를 생성하였다. 빅데이터의 대표적인 예로는 전 세계인이 많이 사용하고 있는 구글의 검색기록 데이터, 스마트폰의 소셜미디어 데이터, 인터넷의 웹로그(web log) 데이터, 글로벌 통신회사의 통화기록 데이터 등이 있다. 향후 4차 산업혁명이 진행되면서 빅데이터는 점점 더 커지고 많아질 전망이고 이 빅데이터를 효율적으로 활용하여 과거에는 불가능했던 미래에 대한 초예측(hyper-forecasting)이 가능할 전망이다. 4차 산업혁명 사회에서는 어떻게 빅데이터를 유효적절하게 만들고 이를 사용하느냐에 따라 각 개인, 단체, 기업, 나아가 국가의 성패가 달려 있다.

문자 및 숫자 등으로 이루어지는 데이터는 인류가 문자를 발명하여 역사를 기록하면서 생겨났다고 볼 수 있다. 고대의 이집트, 그리스 로마 등에서는 인구수, 농지 면적 등의 데이터를 만들어 국가 경영에 사용한 기록이 있다. 이러한 단순한 데이터 활용은 17세기이후 수학의 확률론 발전에 힘입어 통계학(statistics)이란 학문으로 발전하였다. 현대통계학은 데이터를 효율적으로 수집하고, 이를 정리, 요약한 후 분석을 하여 불확실한 상황의 의사결정에 대해 여러 가지 확률적 모형을 이용하여 과학적인 판단을 내릴 수 있도록 도움을 주는 학문이다.

4차 산업혁명 사회에서도 현실의 불확실한 상황에 대한 의사결정을 할 때 전통적인 통계학의 기법이 주를 이룬다. 하지만 금세기에 출현한 빅데이터의 분석은 데이터의 양도 엄청나고 다양해 단지 통계학적인 접근만으로 그 활용을 모두 할 수는 없다. 이러한 빅데이터의 분석을 위해서는 전통적인 통계학의 이론과 수학의 최근 이론, 컴퓨터 과학, 그리고 분석된 결과를 효율적으로 활용하기 위해서는 경영학 등 관련 학문도 같이 적용되어야 한다. 이와 같이 여러 학문 분야가 융합하여 금세기에 출현한 빅데이터를 분석해 현실에 응용하는 학문을 데이터과학(data science)이라 부른다.

데이터과학(data science)은 금세기에 출현한 빅데이터를 분석하여 현실에 활용하기 위해 통계학, 수학, 컴퓨터과학 등이 융합된 학문 분야이다.

 

빅데이터를 분석하여 현실에 응용하는 데이터과학이 활용된 예는 많이 있다.

– 구글의 검색 엔진에 자동차 구입에 관한 질문을 조사하여 다음 달 미국서 판매되는 자동차 모델의 수를 예측하였다.

– 구글 검색 엔진에 감기약을 검색한 결과를 분석하여 올해 미국서 유행하는 감기의 전파 경로를 지도에 표시하였다. 이를 구글 플루라 부르는데 미국 정부의 질병관리본부보다 앞서서 감기의 전파경로를 예측하여 세상을 놀라게 하였다.

– 베네수엘라의 한 식품체인 회사는 분산되었던 각 지점의 데이터를 통합 분석하여 재고관리 개선과 이에 맞는 상품 판매 전략을 수립하여 매출이 30%나 증가하는 성과를 이루었다.

– 한 온라인 쇼핑몰은 웹로그를 분석하여, 회원 고객이 어떤 취향을 가지고 어떤 제품에 관심이 있는지 파악하여 고객 개개인에 맞는 맞춤형 광고를 하여 매출이 증가하였다.

– 한 원유 탐사회사에서 테라바이트 규모의 지질학 데이터를 분석해 원유 시추의 성공률을 높였다.

– 남아프리카의 어느 보험회사에서 기존 보험금 청구 빅데이터를 분석하여 보험사기 가능성이 있는 사건을 찾을 수 있는 알고리즘을 구현하였다. 이를 활용하여 많은 보험사기를 적발하였고 심지어 대형 보험사기 조직을 적발하기도 하였다.

– 미국의 한 대학에서 온라인 수업에서 학생들이 시스템에 클릭하는 정보를 분석하여 학생 개개인의 학습 성과를 모니터링하고 학생의 이해도에 맞춘 수준별 수업 내용을 제안하고, 향후 수강할 과목 등을 학생별로 제안하였다. 이 결과 전공별 학위 취득률이 많이 향상되었다.

 

덴마크의 한 풍력발전 회사는 기존 발전기에서 축적된 페타바이트 규모의 데이터를 분석하여 풍력발전기에 대한 날씨와 위치의 영향을 정확히 파악하고 이를 바탕으로 풍력발전기의 부지 선정 및 운영을 효율적으로 할 수 있게 되었다.

데이터과학은 여러 학문의 융합이어서 데이터과학을 연구하기 이해서는 여러 학문 분야를 두루 많이 알아야 한다. 구체적으로 최근 빅데이터의 분석에 많이 사용되는 기법은 통계학의 가설검정, 다변량분석, 선형모형 등의 전통적인 이론과 함께 수학에서 발전한 신경망(neural network), 지지벡터기계(support vector machine), 컴퓨터 과학의 데이터베이스(database), 분산컴퓨팅(distributed computing), 기계학습(machine learning), 인공지능(artificial intelligence) 등이다.

여러 학문의 융합인 데이터과학을 공부하는 것은 쉽지 않다. 잘못하면 이 분야도 많이 알지 못하고 저 분야도 제대로 많이 모를 위험이 있다. 그러나 데이터과학을 잘 공부한 사람은 21세기가 필요로 하는 인재가 될 것임이 틀림없다.

이 책에서는 데이터과학에 입문하는 초보자를 위해 데이터과학의 기초인 데이터 시각화와 데이터 정리 방법을 소개하고, 표본을 이용한 모집단의 특성을 추론하는 통계적 의사결정 모형을 소개하고자 한다. 표 1.1은 이 책의 구성을 보여준다.

표 1.1.1 이 책의 구성
1장 데이터과학과 『eStat』
2장 범주형 데이터 시각화 7장 한 모집단 가설검정
3장 연속형 데이터 시각화 8장 두 모집단 가설검정
4장 표/측도를 이용한 데이터 정리 9장 여러 모집단 가설검정
5장 데이터의 확률분포 모형 10장 비모수적 가설검정
6장 표본 통계량의 분포와 추정 11장 범주형 데이터 가설검정
12장 상관 및 회귀분석

2장은 막대, 원, 띠, 꺾은선 그래프 등의 범주형 데이터 시각화를 다룬다. 3장은 히스토그램, 줄기와 잎 그림, 산점도 등의 연속형 데이터 시각화를 다룬다. 4장은 표/측도를 이용한 데이터 정리를 소개한다.

5장은 데이터에 대한 확률분포 모형을 소개하고, 6장은 표본과 모집단의 관계에 대해서 살펴보고 표본통계량에 대한 분포와 이를 바탕으로 모집단 모수에 대한 추정을 설명한다.

7장에서 9장까지는 연속형 변량에 대한 모수적 가설검정을 설명하고, 10장에서는 연속형 변량의 비모수적 가설검정, 11장은 범주형 변량에 대한 가설검정을 설명한다. 12장은 두 변량에 대한 상관 및 회귀분석을 설명한다.

 

1.2 데이터의 구분

데이터는 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 관찰하거나 측정한 값들이다. 이러한 사물이나 사건의 속성을 변수 또는 변량(variable)이라고 한다. 예를 들어, 어느 대학 재학생의 성별과 신장을 측정하였다면 여기에는 두개의 변량(성별, 신장)이 있다. 성별에 대한 측정값은 ‘남’, ‘여’, ‘여’, ‘남’, …. 과 같은 형태이고, 신장에 대한 측정값은 180cm, 165cm, 158cm, 175cm, … 와 같은 형태일 것이다.

‘성별’과 같은 변량의 데이터를 이산형 데이터(discrete data), 신장과 같은 변량의 데이터를 연속형 데이터(continuous data)로 구분한다. 성별과 같은 이산형 변량은 모든 가능한 측정값이 유한개 또는 셀 수 있는 변량을 뜻하며, 각각의 값에 대한 도수분포가 의미 있다. 이산형 데이터 중 유한개의 범주 형태를 갖는 경우를 범주형 데이터(categorical data)라고 한다.

데이터를 구분하는 이유는 데이터의 종류의 따라 처리하는 방법과 분석 방법이 다르기 때문이다. 이 책의 2장은 범주형 데이터의 시각화를 다루고, 3장은 연속형 데이터의 시각화를 다룬다. 4장에서는 범주형 데이터의 요약인 도수분포표와 교차표를 다루고, 표 및 측도를 이용한 연속형 데이터 정리를 설명한다. 5장에서 10장 그리고 12장은 연속형 데이터의 통계 분석 이론을 설명한다. 11장은 범주형 데이터의 분석 이론을 설명한다.

소프트웨어를 이용한 데이터 분석을 위해 범주형 데이터는 원시 데이터(raw data)와 요약 데이터로 구분한다. 예를 들어, 어느 초등학교 한 학급 학생 10명의 성별을 남, 여, 남, … 등으로 조사하여 다음과 같이 엑셀 시트에 정리하였다면 이를 원시 데이터라 한다. 여기서 변량의 이름 ‘성별’을 변량명(variable name), ‘남’ 또는 ‘여’와 같은 값을 변량값(variable value)이라 부른다.

표 1.2.1  성별을 조사하여 엑셀에 정리한 원시 데이터
성별

표 2.1의 한 학급 성별 데이터는 ‘남’이 6명이고 ‘여’가 4명이다. 이렇게 빈도수를 정리한 데이터를 요약 데이터(summary data), 또는 성별의 도수분포표(frequency table)라고도 부른다. 엑셀에서는 일반적으로 다음과 같이 정리한 데이터를 이용한다.

표 1.2.2  한 학급의 성별을 정리 요약한 데이터. 또는 성별 도수분포표
성별 학생수
6
4

 

1.3 『eStat』 데이터 분석

데이터 분석을 위해서는 소프트웨어의 도움이 필수적이다. 특히 빅데이터 분석을 위해서는 전문적인 통계분석 모듈을 많이 가지고 있는 통계 패키지(statistical package)가 반드시 필요하다. 현재 빅데이터 분석을 위해서는 SAS, SPSS, R과 같은 통계패키지가 많이 사용되고 있다.

하지만 이들 통계패키지들은 초보자가 배우기는 쉽지 않고, SAS와 SPSS는 상업용이어서 엄청난 고가이다. 그리고 이러한 통계패키지는 빅데이터 분석의 핵심인 통계학 교육에 필요한 모듈의 기능은 거의 없다고 할 수 있다. 통계학 교육을 위해서는 일부 개인들이 부분적인 기능의 소프트웨어를 만들고 있으나 초중·고·대·일반인들이 모두 사용할 수 있는 종합적인 통계교육용 소프트웨어는 아직 없었다.

『eStat』은 데이터과학을 초등생부터 대학 및 일반인까지 쉽게 교육하기 위하여 만든 통계패키지 + 교육용소프트웨어이다. 데이터가 주어지면 단지 마우스 클릭만으로 그래프를 그릴 수 있고, 동적인 데이터 시각화를 경험할 수 있으며, 데이터에 대한 통계 분석 및 처리 실습까지 가능하다.

『eStat』은 통계패키지와 같이 데이터 처리가 가능하며, 통계학 이론에 대한 이해를 돕기 위한 다양한 시뮬레이션 모듈을 포함하고 있다. 이항분포와 정규분포가 무엇인지 보여주는 시뮬레이션, 대수의 법칙, 중심극한정리, 구간추정의 의미를 보여주는 시뮬레이션, 회귀분석의 이상값의 영향을 관찰할 수 있는 시뮬레이션 등이다.

『eStat』은 각급 교과서에 있는 많은 예를 포함하고 있으며, 웹 기반이어서 사용자들은 언제 어디서나 PC, 태블릿, 또는 스마트폰으로 이용할 수 있다. 『eStat』은 무료로 서비스하고 있고 다국적 언어를 지원하며 현재 한국어, 영어, 일본어, 중국어, 불어, 독어, 스페인어, 베트남어, 인도네시아 등 10개 언어가 가능하다.

3.1절에서는 『eStat』의 기본 운용에 대해서 살펴본다. 『eStat』에 대한 자세한 설명과 동영상은 다음 링크를 참조하라.

이 책의 2장서부터는 각 장마다 적절한 예를 이용하여 어떻게 『eStat』으로 현실 데이터를 분석할 수 있는지 소개한다.

 

1.3.1 『eStat』 기본 운용

가. 시스템 들어가기

『eStat』 시스템은 HTML5, CSS3, JavaScript로 만든 웹 소프트웨어라서 반드시 웹브라우저가 필요하다. 현재 통용되는 많은 웹브라우저 중에서 HTML5 표준을 100% 잘 지키는 것은 구글(Google)사의 크롬(Chrome)이어서 가능하면 크롬 이용을 권장한다. MS 엣지(Edge)와 같은 브라우저에서도 『eStat』이 작동은 되나 일부 기능이 안 될 수 있다.

모니터에서 크롬 아이콘 을 클릭한 후 나타나는 주소창에 estat.me를 입력하면 <그림 1.3.1>과 같은 『eStat』의 주화면이 나타난다.

<그림 1.3.1> 『eStat』의 주화면

주화면 윗부분에는 여러 가지 아이콘들이 있다. 일반적인 소프트웨어에서 많이 사용하는 드롭다운 방식의 메뉴를 사용하지 않고 아이콘들을 펼쳐 놓은 것은 사용자들이 한 눈에 『eStat』에서 할 수 있는 작업을 보기 쉽게 한 것이다. 다만 고등학교 수준이나 대학 수준은 여러 가지 메뉴가 있을 수 있어 별도의 아이콘『eStatH』 와 『eStatU』 을 만들었는데 이것을 클릭하면 세부 메뉴를 새로운 윈도우창에 띄워준다.

주화면의 왼쪽은 데이터 입력을 위한 시트창이다. 시트창 위에는 각 분석별로 필요한 ‘분석변량’이나 ‘by 그룹’을 선택하는 창이 있다. 주화면 가운데는 데이터 분석를 보여주는 그래프창, 오른쪽은 저장이 필요한 그래프나 표를 보관해 놓는 분석결과 로그(log)창이 있다.

 

나. 데이터 입력 / 저장 / 불러오기

『eStat』에서 데이터 만들기

– 주화면 좌측에 있는 시트에 데이터를 입력한다. 이 시트에서 행(row)은 관찰 대상, 열(column)은 변량을 나타낸다. 마우스로 1행 1열을 클릭하면 이 셀에 대한 행과 열이 다른 부분과 달리 진한 색으로 표시되고, 셀에는 직사각형 형태의 외곽선이 생기는데 이를 커서(cursor)라 한다. 이는 커서가 위치하여 있는 1행1열에 데이터를 입력받을 준비가 되어 있다는 것을 의미한다. 이 커서(cursor)는 화살표키 󰎼 󰎽 󰎾 󰎿 나 󰎺 󰎻 를 사용하면 셀에서 셀로 또는 페이지 단위로 커서를 이동시킬 수 있다.

<그림 1.3.2> 『eStat』의 데이터 입력을 위한 시트

-『eStat』에서 허용하는 데이터의 최대수는 9999개, 변량의 최대수는 20개이다. 데이터의 입력은 왼쪽 위의 1행 1열(관찰대상1, 변량1)서부터 데이터를 입력한 후, 아래 방향 화살표키(󰎿) (또는 󰎠키)를 이용하여 커서를 밑(2행 1열)으로 이동시켜 다음 데이터를 입력한다. 같은 방법으로 화살표키(󰎼, 󰎽, 󰎾, 󰎿)를 이용하여 커서를 이동하면서 모든 데이터를 각 셀에 입력하면 된다.

– <그림 1.3.3>은 두 학급의 남 여 학생수를 입력한 예이다. 각 셀에는 데이터로 문자나 숫자를 입력할 수 있다.

<그림 1.3.3> 『eStat』의 데이터 입력

– 막대, 원, 띠그래프는 문자 데이터을 이용해서 그래프를 그릴 수 있으나. 점그래프, 히스토그램, 줄기와 잎 그림은 반드시 숫자 데이터를 이용하여야 한다. 단 그룹변량은 문자 데이터를 이용할 수 있다.

– <그림 1.3.3>에서는 데이터가 시트 화면에 모두 보인다. 만일 데이터가 커서 시트 화면에 일부만 나타날 경우에는 󰎺, 󰎻 키를 사용하여 위․아래로 한 화면씩 이동하여 볼 수 있고, 󰍭키와 화살표키(󰎾, 󰎿, 󰎼, 󰎽)를 같이 눌러 데이터의 위/아래/왼쪽/오른쪽 끝으로 쉽게 이동할 수 있다.

변량명 및 변량값명의 입력

– 데이터의 입력이 끝난 후 『eStat』를 이용하여 데이터 처리를 하면 결과 출력은 변량이름으로 변량1(또는 V1), 변량2(또는 V2), 변량3(또는 V3) … 라는 고유 이름이 나타난다. 이러한 고유 이름 대신 변량의 실제이름이나 그 변량 값에 대한 설명을 데이터처리 전에 입력하면 결과를 분석하기가 쉽다.

– <그림 1.3.3>에서 변량명의 입력은 데이터 입력 후에 ‘변량편집’ 버튼을 클릭하여 나타나는 <그림 1.3.4>의 대화상자창에서 변량명 V1 대신 ‘성별’을 입력하고, 콤보박스에서 V2를 선택한 후 ‘5-1반’, V3를 선택한 후 ‘5-2반’을 입력하면 된다.

 

<그림 1.3.4> 변량편집 대화상자

– 원시 데이터인 경우 변량편집 창을 이용하면 변량값에 대한 변량값명을 지정할 수 있다.

 

데이터의 수정

– 만일 한 셀에 입력된 데이터를 모두 수정하고 싶으면, 원하는 셀에 커서를 위치한 후 새 데이터를 입력하면 된다. 만일 한 셀에 입력된 데이터의 일부분만 수정하고 싶다면 원하는 셀을 마우스로 두 번 누른 후 화살표키(󰎼, 󰎽)를 이용하여 글자 사이를 이동하면서 수정을 하면 된다.

데이터의 저장

– 시트에서의 데이터 입력은 컴퓨터의 주기억장치(main memory)를 이용하기 때문에 전원이 끊어지게 되면 이 기억장치에 들어 있는 내용은 모두 없어진다. 그러므로 데이터를 모두 입력한 후에는 이를 반드시 하드 디스크나 USB와 같은 보조 기억장치에 저장하여야 한다.

-『eStat』에서는 파일이름 박스에 파일명을 입력하고 CSV 저장 아이콘 을 클릭하면 변량명과 데이터를 엑셀의 CSV 형식으로 저장한다. 이때 파일명의 확장자는 csv여야 한다.

– 만일 변량값명까지 지정하였다면 JSON 저장 아이콘 을 클릭하여 JSON 형식으로 저장한다. 이때 파일명의 확장자는 json이다. 파일이 저장되는 지점은 시스템의 ‘download’ 폴더가 된다.

 

저장된 파일 불러오기

– 내 컴퓨터에 저장된 CSV 형식으로 저장된 파일은 CSV 불러오기 아이콘 을 이용하여 불러올 수 있다.

– 다른 서버 컴퓨터에 저장된 CSV 형식으로 저장된 파일은 www 불러오기 아이콘 을 이용하여 불러올 수 있다.

– 내 컴퓨터에 저장된 JSON 형식으로 저장된 파일은 JSON 불러오기 아이콘 을 이용하여 불러올 수 있다.

 

다. 데이터 분석

요약 데이터의 분석

– <그림 1.3.3>과 같은 데이터를 범주형 요약 데이터라 부른다. 시트에서 마우스로 변량명 ‘성별’과 ‘5-1반’ ‘5-2반’을 차례로 클릭하면 선택변량 박스에 ‘V1 V2 V3’ 가 나타나고 기본적으로 선택된 <그림 1.3.5>와 같은 남녀별 학생수에 대한 수직형 막대그래프( )가 나타난다. 시트위의 변량선택 박스에서 ‘분석변량’을 ‘성별’ ‘by 그룹’ 변량을 ‘5-1반’ ‘5-2반’을 차례로 선택하여도 된다.

<그림 1.3.5> 5-1반과 5-2반의 남녀 학생수의 막대그래프

– 그래프의 제목은 원하는 내용으로 수정할 수 있다. 그래프창 위의 편집 아이콘 을 클릭하면 그래프 하단에 다음과 같은 편집 대화상자가 나타난다. 여기에서 주제목, y축제목, x축제목을 바꾼 후 ‘수정’ 버튼을 클릭한다.

 

<그림 1.3.6> 그래프 제목 편집 대화상자

원시 데이터의 분석

– 표 1.3.1과 같은 원시데이터의 처리도 유사하다. 시트의 V1열에 데이터 입력을 한다. 변량명의 입력은 시트 위의 ‘변량편집’을 클릭한 후 변량명 박스에 V1대신 ‘성별’을 입력한다.

표 1.3.1  한 학급의 성별을 조사하여 엑셀에 정리한 원시 데이터
성별

– 마우스로 변량명 ‘성별’을 클릭하면 선택변량 박스에 첫 번째 변량의 선택을 의미하는 ‘V1’이 나타나고 기본적으로 선택된 수직형 막대그래프 ( ) 가 <그림 1.3.7>과 같이 그려진다. 원시 데이터의 남·여 학생수를 세어서 막대그래프를 그린 것이다.

<그림 1.3.7> 성별 막대그래프

– 현재 성별 변량이 선택된 상태에서 아이콘 을 클릭하면 원그래프가 나타나고, 을 클릭하면 띠그래프, 을 클릭하면 꺾은선그래프가 나타난다.

 

라. 분석결과 저장 및 인쇄

『eStat』에서 그래프창에 표시된 분석 결과를 저장하려면 그래프창 위의 저장 아이콘 을 클릭한다. 그러면 그래프가 png 파일로 저장되는데 주화면 왼쪽 밑에 와 같이 표시된다. 저장되는 위치는 컴퓨터 시스템에서 지정된 다운로드(download) 폴더이다. 이어서 다른 그래프를 저장하면 다운로드 폴더에 eStatGraph(1).png 등과 같이 괄호 안의 번호가 증가되면서 저장된다.

그래프창의 결과를 인쇄하려면 그래프창 위의 인쇄 아이콘 을 클릭한다. 그러면 <그림 3.8>과 같은 윈도우에서 제공하는 인쇄를 위한 화면이 나타나고 여기서 ‘인쇄’ 버튼을 클릭하면 프린터에 그래프창 결과가 인쇄된다.

그래프창의 결과는 필요시 오른쪽의 로그창으로 이동한 후 필요시 인쇄할 수 있다. 그래프창 위의 이동 아이콘 을 누르면 현재 그래프창에 있는 내용이 로그창으로 이동한다.

로그창에 있는 내용을 저장하려면 로그창 위의 저장 아이콘 을 클릭한다. 그러면 로그창의 내용이 html 파일로 저장되는데 주화면 왼쪽 밑에 와 같이 표시된다. 저장되는 위치는 역시 컴퓨터 시스템에서 지정된 다운로드(download) 폴더이다. 저장된 html 파일은 MS Word나 ᄒᆞᆫ글에서 불러올 수 있다.

로그창의 결과를 인쇄하려면 로그창 위의 인쇄 아이콘 을 클릭한다. 그러면 윈도우에서 제공하는 인쇄를 위한 화면이 나타나고 여기서 ‘인쇄’ 버튼을 클릭하면 프린터에 로그창 결과가 인쇄된다.

 

마. 시스템 나오기

『eStat』시스템을 끝내려면 브라우저를 종료하면 된다. 즉, 브라우저 오른쪽 위의 ☒ 버튼을 클릭한다.

2. 범주형 데이터 시각화

2.1 범주형 데이터의 그래프

한 학급의 남녀 학생이 몇 명인지 또는 한 회사의 사원 중에서 미혼자와 기혼자가 몇 명인지 등을 조사한 데이터를 범주형 데이터라 한다. 범주형 데이터 시각화에는 막대그래프, 원그래프, 띠그래프, 꺾은선그래프 등이 이용된다.

막대그래프(bar graph)는 각 범주별 데이터의 값의 빈도수를 비교할 수 있도록 각 범주의 빈도수를 막대의 높이로 나타낸 것이다. 범주형 데이터라는 것을 강조하기 위하여 막대사이의 간격을 띄어 놓는다. 일반적으로 막대를 상하로 그리는 수직형 막대그래프가 많이 이용되나 데이터에 따라서는 막대를 좌우로 그리는 수평형 막대그래프가 이용되기도 한다.

한 범주형 변량의 빈도수를 성별과 같은 다른 변량(그룹 변량이라 부름)으로 세분하여 그래프를 그릴 수 있다. 이 경우 각 그룹별로 막대그래프를 그리는 분리형, 한 그룹의 막대위에 다른 그룹의 막대를 올려놓는 쌓는형, 전체 그룹의 데이터에 대한 각 그룹의 비율로 막대를 분할해서 그리는 비율형, 각 그룹의 막대를 비교하기 좋게 옆으로 위치해 놓는 나란형, 그룹이 두 개일 경우 막대를 좌우로 그리는 양쪽형 등 다양한 변형 형태가 있다.

원그래프(pie chart)는 각 범주의 빈도수가 전체 데이터에서 차지하는 비율을 원조각으로 나누어 표시한 그래프이다. 비율의 비교를 잘 할 수 있도록 시계 방향으로 가장 큰 범주의 원조각부터 순서대로 차례로 그린다. 원그래프의 경우 원의 가운데를 비워놓은 도넛그래프(doughnut graph)도 많이 이용된다.

띠그래프(band graph)는 원그래프의 변형 형태로 각 범주의 빈도수가 전체 데이터 중에서 차지하는 비율을 사각형 조각으로 나누어 표시한 그래프이다. 범주의 값이 가장 큰 순서부터 정렬할 수도 있으나 원그래프와 구별하기 위하여 데이터의 범주 순서대로 사각형 조각을 그린다.

꺾은선그래프(line graph)는 각 범주의 값에 연관하여 관찰된 다른 변량이 있을 때 X축을 범주값, 다른 변량의 값을 Y값으로 하여 XY평면에 점으로 표시한 후 이를 선으로 연결한 것이다. 막대그래프와 유사하나, 연도별 수출액 등의 경우에는 시간에 따른 데이터의 변화를 관찰할 수 있다.

이 장에서는 범주형 데이터를 요약 데이터와 원시 데이터로 구분하여 어떻게 『eStat』으로 데이터 시각화를 하는지 살펴본다.

 

2.2 요약 범주형 데이터 시각화

2.2.1 한 그룹 요약 데이터

한 학급 학생들의 성별을 조사하여 ‘남’, ‘여’, ‘남’, … 등으로 기록한 것을 원시 데이터(raw data)라 부르고 이를 표 2.1과 같이 도수분포표 형태로 정리한 것을 요약 데이터(summary data)라 부른다. 데이터의 수가 많아지면 원시 데이터를 요약 데이터로 정리하는 것도 일반인에게는 쉬운 일이 아니다. 통계패키지의 주요 기능 중의 하나가 원시 데이터를 요약 데이터로 정리하여 주는 것이다. 대개 교과서나 공공기관은 요약 데이터의 형태로 일반인에게 정보를 제공한다.

표 2.2.1 한 학급의 성별을 정리한 요약 데이터
성별 학생수
6
4

요약 데이터는 엑셀시트를 이용하여 많이 정리한다. 통계청을 비롯한 공공기관은 생산되는 통계에 관한 정보를 엑셀 파일로 다운받을 수 있게 하여준다. 예를 들어, 우리나라에서 매 5년마다 전 국민을 대상으로 인구 총조사(census)를 실시하여 구해지는 인구데이터는 통계청(http://kostat.go.kr) 통계포탈(KOSIS) 국내통계 인구가구 사이트에서 엑셀 파일로 다운로드 받을 수 있다. 통계청의 인구 데이터는 대개 남녀별 인구, 지역별 인구, 연령대별 인구 또는 지역별 남녀별 인구 등의 범주로 정리 요약하여 공표한다.

모든 엑셀 파일은 CSV 형식으로 저장이 가능한데 『eStat』에서는 CSV 형식의 엑셀파일을 불러와서 데이터 처리 및 분석을 할 수 있다. 이 절에서는 이와 같이 교과서나 공공기관 공표에 많이 이용되는 범주형 요약 데이터의 분석에 대해 살펴본다.

 

[예 2.2.1] (우리나라 시도별 인구 – 한 그룹 요약 데이터)

2015년 우리나라의 17개 시도별 인구가 표 2.2.2와 같다. 이 데이터는 『eStat』에서 아이콘 ⇨ 01Korean ⇨ 023요약_2015년남녀별인구.csv에 저장되어 있다. 『eStat』을 이용하여 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 그 특징을 알아보자.

표 2.2.2 시도별 인구수 (출처: 통계청 단위: 만명)
시도 인구수
서울 990
부산 345
대구 247
인천 289
광주 150
대전 154
울산 117
세종 20
경기 1248
강원 152
충북 159
충남 211
전북 183
전남 180
경북 268
경남 333
제주 61

<풀이>

『eStat』시스템에서 ⇨ 01Korean ⇨ 023요약_2015년남녀별인구.csv를 선택하고 마우스로 첫째 변량 ‘시도’와 둘째 변량 ‘인구수’ 변량명을 차례로 클릭하여 변량을 선택한다. 선택된 변량은 시트 위의 ‘선택변량’ 박스에 나타난다. <그림 2.1>과 같이 변량선택박스에서 ‘분석변량’ ‘by 그룹’ 박스에서 선택하여도 ‘선택변량’ 박스에 동일한 결과가 나타난다.

<그림 2.2.1> 데이터의 변량선택박스

변량이 선택되면 기본 그래프인 <그림 2.2-1>과 같은 시도별 인구의 수직형 막대그래프가 그려진다. 막대그래프를 보면 경기도와 서울시의 인구가 압도적으로 많음을 볼 수 있다. 그래프 밑의 선택사항에서 내림차순을 이용하면 <그림 2.2.2-2>와 같이 인구의 내림차순으로 막대가 정렬되어 나타난다. 경기, 서울 다음으로는 부산 경남 인천 순서임을 잘 살펴볼 수 있다.

<그림 2.2.2-1> 시도별 인구 – 수직형 막대그래프 <그림 2.2.2-2> 시도별 인구 – 내림차순 정렬 막대그래프

막대그래프는 막대를 위아래로 그리는 수직형이 일반적이나, 범주의 개수가 많은 경우 왼쪽/오른쪽으로 그리는 수평형 형태의 막대그래프가 이용된다. 『eStat』에서 을 클릭하면 <그림 2.2-3>의 좌측 하단과 같은 수평형 막대그래프가 나타난다. 이때 도수표시 버튼을 클릭하면 각 막대의 빈도수가 표시된다(<그림 2.2.2-4>).

<그림 2.2.2-3> 시도별 인구 – 수평형 막대그래프 <그림 2.2.2-4> 시도별 인구 – 도수표시된 수평형 막대그래프

『eStat』에서 클릭하면 시도별 원그래프가 나타난다(<그림 2.3>). 원그래프를 보면 서울과 경기 인천의 인구수가 전체 인구의 50% 가까운 수도권 집중현상을 쉽게 관찰할 수 있다. 『eStat』에서 을 클릭하면 원그래프에서 가운데 작은 원을 잘라낸 도넛그래프(doughnut graph)가 나타난다.

<그림 2.2.3> 시도별 인구의 원그래프

『eStat』에서 클릭하면 띠그래프가 나타난다(<그림 2.4>). 띠그래프는 원그래프의 변형 형태로 각 범주의 값이 전체 데이터 중에서 차지하는 비율을 사각형 조각으로 나누어 표시한 그래프이다. 범주의 값이 큰 순서부터 정렬할 수도 있으나 원그래프와 구별하기 위하여 『eStat』에서는 데이터의 범주 순서대로 사각형 조각을 그렸다. 여러 개 붙여놓은 사각형이 띠 같아 띠그래프라고 부른다.

<그림 2.2.4> 시도별 인구의 띠그래프

『eStat』에서 을 클릭하면 꺾은선그래프(line graph)가 나타난다(<그림 2.5>). 범주형 데이터의 각 범주의 값을 X값, 그룹 변량의 값을 Y값으로 하여 XY평면에 점으로 표시한 후 이를 선으로 연결한 것이다. 위와 같은 인구 데이터의 경우에는 막대그래프와 유사하나, 연도별 수출액/수입액 등 시간에 관련되어 수집된 데이터의 경우에는 시간에 따른 데이터의 변화를 관찰할 수 있어 많이 이용된다.

<그림 2.2.5> 시도별 인구의 꺾은선그래프

[예 2.2.1 풀이 끝]

[『eStat』실습 2.2.1] 초등학생 희망직업에 대한 데이터(『eStat』에서 ⇨ 01Example_Korean ⇨ 022요약_초등학생희망직업.csv)에 대한 막대 / 원 / 띠 / 꺾은선그래프를 그려보라.

 

2.2.2 여러 그룹 요약 데이터

[예 2.2.2] (연령대별 남녀 인구 – 두 그룹 요약 데이터)

2015년 우리나라의 연령대별 남녀 인구가 표 2.2.3과 같다. 이 데이터를 이용하여 남녀별 연령대 인구의 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 그 특징을 알아보자.

표 2.2.3  2015년 연령구간별 남녀별 인구수 (출처: 통계청, 단위: 만명)
연령구간 2015남자 2015여자
00 – 04세 115 109
05 – 09세 116 109
10 – 14세 126 116
15 – 19세 166 151
20 – 24세 181 158
25 – 29세 158 145
30 – 34세 185 176
35 – 39세 193 186
40 – 44세 214 207
45 – 49세 215 212
50 – 54세 209 205
55 – 59세 192 194
60 – 64세 134 141
65 – 69세 102 110
70 – 74세 79 97
75 – 79세 55 80
80 – 84세 28 54
85세이상 13 39

 

<풀이>

『eStat』시스템에서 ⇨ 01Korean ⇨ 023요약_2015년남녀별인구.csv를 선택하고 마우스로 첫째 변량 ‘연령구간’과, 둘째 변량 ‘2015남자’, 셋째 변량 ‘2015여자’의 변량명을 차례로 클릭한다. <그림 2.6>과 같이 ‘분석변량’ 박스에서 ‘연령구간’ ‘by 그룹’ 박스에서 ‘2015남자’ ‘2015여자’ 변량을 차례로 선택해도 된다. 변량이 선택되면 <그림 2.2.7>과 같이 기본적으로 선택되어 있는 연령구간별 남녀 인구가 분리된 수직형 막대그래프가 나타난다.

<그림 2.2.6> 분석변량 선택박스

<그림 2.2.7> 2015년 연령구간별 남녀 인구의 분리형 세로 막대그래프

이와 같이 그룹이 있는 막대그래프는 다른 변형 형태가 가능하다. 주 아이콘 밑에 있는 부 아이콘 리스트( )를 이용하여 10가지의 막대그래프를 그릴 수 있다. 수직형 막대그래프의 ‘쌓는형’(<그림 2.8-1>), ‘비율형’(<그림 2.2.8-2>), ‘나란형’(<그림 2.2.8-3>), ‘양쪽형’(<그림 2.2.8-4>)이고, 수평형 막대그래프로서 ‘분리형’(<그림 2.2.9-1>), ‘쌓는형’(<그림 2.2.9-2>), ‘비율형’(<그림 2.2.9-3>), ‘나란형’(<그림 2.2.9-4>), ‘양쪽형’(<그림 2.2.9-5>) 이다.

<그림 2.2.8-1> 2015년 연령구간별 남녀 인구의 쌓는형 세로 막대그래프 <그림 2.2.8-2> 2015년 연령구간별 남녀 인구의 비율형 세로 막대그래프
<그림 2.2.8-3> 2015년 연령구간별 남녀 인구의 나란형 세로 막대그래프 <그림 2.2.8-4> 2015년 연령구간별 남녀 인구의 양쪽형 세로 막대그래프
<그림 2.2.9-1> 2015년 연령구간별 남녀 인구의 분리형 수평 막대그래프 <그림 2.2.9-2> 2015년 연령구간별 남녀 인구의 쌓는형 수평 막대그래프
<그림 2.2.9-3> 2015년 연령구간별 남녀 인구의 비율형 수평 막대그래프 <그림 2.2.9-4> 2015년 연령구간별 남녀 인구의나란형 수평 막대그래프
<그림 2.2.9-5> 2015년 연령구간별 남녀 인구의 양쪽형 수평 막대그래프

<그림 2.9-5>의 양쪽형 수평 막대그래프는 연령대별 남녀별 인구 피라미드라고 부른다. 현재 우리나라는 항아리 형태의 연령별 인구 구조를 가지고 있다. 즉, 현재 40세에서 50세의 장년층의 인구가 많고 노령 인구가 향후 점점 증가하며, 출생아의 수는 점차로 줄어든다. 경제 생활인구가 줄어들며 노년층의 건강, 보험 문제가 향후 예견된다.

『eStat』에서 아이콘 을 클릭하면 남녀별 원그래프(<그림 2.10>), 띠그래프(<그림 2.2.11>), 꺾은선그래프(<그림 2.2.12>)가 나타난다. 꺾은선그래프를 살펴보면 54세까지는 각 연령대별로 남자의 인구가 여자의 인구보다 많지만 그 이후에는 여자의 인구가 더 많음을 관찰할 수 있다.

<그림 2.2.10> 남녀 그룹별 원그래프 <그림 2.2.11> 남녀 그룹별 띠그래프

<그림 2.2.12> 남녀의 꺾은선그래프

그룹이 있을 경우 원이나 띠그래프를 그려보면 그룹별 각 범주의 값의 차이를 비교할 수 있다. 꺾은선그래프를 선택하면 각 그룹별 꺾은선이 한 그래프에 나타나게 된다. 두 개의 그룹을 같은 스케일에서 비교할 수 있다. 이와 같이 그룹이 있는 경우 각각의 그래프는 데이터가 가지는 특성을 서로 다른 형태로 관찰할 수 있기 때문에 여러 가지 그래프를 모두 그려 관찰하는 것이 좋다.

[예 2.2.2 풀이 끝]

 

[『eStat』실습 2.2.2] (시도별 남녀 인구 – 두 그룹 요약 데이터)

2015년 시도별 남녀 인구가 표 2.2.4와 같다( ⇨ 01Korean ⇨ 023인구_시도별인구_2015.csv). 이 데이터를 이용하여 각 시도별 남녀인구에 대한 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 그 특징을 알아보라.

표 2.2.4  시도별 남녀 인구수 (출처: 통계청, 단위: 만명)
시도 남자 여자
서울 486 504
부산 170 175
대구 123 124
인천 146 144
광주 75 75
대전 77 77
울산 61 56
세종 10 10
경기 631 617
강원 77 75
충북 81 78
충남 108 103
전북 92 92
전남 90 90
경북 135 133
경남 170 164
제주 30 30

 

[예 2.2.3] (계절별 평균기온 – 네 그룹 요약 데이터 )

1973년 이후 우리나라의 봄, 여름, 가을, 겨울 그리고 연 평균기온이 ⇨ 01Korean ⇨ 024요약_계절별온도.csv 에 저장되어 있다. 꺾은선그래프를 이용하여 온도변화의 특징을 알아보자.

 

<풀이>

『eStat』시스템에서 ⇨ 01Korean ⇨ 024요약_계절별온도.csv 파일을 불러온 후 꺾은선그래프 아이콘 을 클릭하고, 마우스로 ‘연도’, ‘봄’, ‘여름’, ‘가을’, ‘겨울’의 변량명을 차례로 누르면 <그림 2.13>과 같은 사계절 온도의 꺾은선그래프가 그려진다.

<그림 2.2.13> 1973년 이후 우리나라의 계절별 평균기온의 변화

그래프를 살펴보면 우리나라의 평균 기온이 점차로 올라가고 있음을 알 수 있다. 특히 겨울의 최근 몇 년 평균 기온이 과거와는 다르게 많이 올라갔음을 관찰할 수 있다.

이러한 연도별 데이터의 경우에는 꺾은선그래프가 데이터의 변화를 관찰하기 쉽다. 하지만 막대그래프도 사용될 수 있다.

[예 2.2.3 풀이 끝]

[『eStat』실습 2.2.3] OECD 국가의 국민소득이 ⇨ OECD ⇨ 011OECD_NationalIncome_2017.csv 와 같다. 2000년도, 2005년도, 2010년도, 2015년도의 각 국가별 국민소득에 관한 꺾은선그래프를 그려 비교하여 보라.

 

2.3 원시 범주형 데이터 시각화

2절에서는 요약 범주형 데이터의 시각화에 대해서 살펴보았다. 이 절에서는 원시 데이터를 이용한 데이터 시각화 방법에 대해서 설명한다. 원시 데이터는 요약 데이터 형태로 가공한 후 시각화를 하게 되는데 이것이 통계패키지의 주요 기능이고 『eStat』은 이와 같은 통계패키지의 분석 기능을 수행할 수 있다.

그룹이 없는 경우와 그룹이 있는 경우로 나누어 원시 데이터의 시각화를 살펴보자.

 

2.3.1 한 그룹 원시 데이터

[예 2.3.1] (인구조사 – 한 그룹 원시 데이터)

인구조사의 경우 성별 데이터는 표 2.3.1과 같이 코드(1: 남자, 2: 여자)를 주어 정리한다. 이와 같은 데이터를 원시 데이터라 부른다. 『eStat』을 이용하여 막대그래프, 원그래프, 띠그래프를 그려 그 특징을 알아보자.

표 2.3.1 성별 조사 (1:남자, 2:여자)
성별
1
2
1
2
1
1
1
2
1
2

<풀이>

『eStat』시스템에서 시트에 성별 데이터를 입력한다. ‘변량편집’을 이용하여 <그림 3.1>과 같이 변량명 ‘성별’을 입력하고 변량값 1과 2에 대한 변량값명을 입력한다. 이와 같이 변량값명에 대한 편집을 한 데이터는 JSON 형식으로 저장(아이콘 클릭)하여야 정보를 잃어버리지 않게 된다. 다시 불러올 때도 JSON 형식으로 불러오는 아이콘 을 클릭하여야 한다.

<그림 2.3.1>『eStat』의 변량편집을 이용한 변량명, 변량값명 입력

마우스로 변량명 ‘성별’을 클릭선택한 후 막대그래프 아이콘 을 클릭하면 <그림 3.2-1>과 같은 인구의 수직형 막대그래프가 그려진다. 막대그래프를 보면 성별 변량의 빈도수 즉, 남자 6명, 여자 4명임을 조사하여 이에 따른 막대그래프를 그렸음을 알 수 있다. 이렇게 원시 데이터에서 도수 분포를 조사하여 그래프를 그리는 것이 통계패키지의 기본 기능이다.

<그림 2.3.2-1> 성별 수직형 막대그래프 <그림 2.3.2-2> 성별 수평형 막대그래프

막대그래프는 막대를 위아래로 그리는 수직형이 일반적이나, 범주의 개수가 많은 경우 <그림 3.2-2>와 같은 수평형 형태의 막대그래프가 이용된다. (『eStat』에서 클릭)

『eStat』에서 아이콘 을 클릭하면 도수분포에 대한 원그래프(<그림 3.3>)와 띠그래프(<그림 2.3.4>)가 나타난다. 를 클릭하면 도넛그래프가 그려진다.

<그림 2.3.3> 성별 원그래프 <그림 2.3.4> 성별 수직형 막대그래프

 

[예 2.3.1 풀이 끝]

 

[『eStat』실습 2.3.1] 한 초등학교 학급의 성별(1:남자, 2:여자)과 수학선호도(1:좋음, 2:보통, 3:싫음)를 조사한 데이터가 『eStat』의 ⇨ 01Korean ⇨ 025원시_수학선호도조사.csv에 저장되어 있다. 수학 선호도의 막대 / 원 / 띠그래프를 그려보라.

 

2.3.2 그룹 있는 원시 데이터

[예 2.3.2] (인구조사 – 그룹 있는 원시 데이터)

[예 2.3.1]의 인구조사에서 성별(1:남자, 2:여자)과 함께 결혼여부(1:미혼, 2:결혼, 3:기타)를 조사한 데이터가 표 2.3.2와 같다. 이 데이터에서 남자 여자별로 막대그래프, 원그래프, 띠그래프, 꺾은선그래프를 그려 두 그룹의 특징을 비교하여 보자.

표 2.3.2 성별 결혼여부 조사
성별 결혼여부
(1:남자, 2:여자) (1:미혼, 2:기혼, 3:기타)
1 1
2 2
1 1
2 1
1 2
1 1
1 1
2 2
1 3
2 1

<풀이>

『eStat』시스템에서 시트에 성별과 결혼여부 데이터를 입력한다. ‘변량편집’을 이용하여 변량명 ‘성별’을 입력하고, 변량값 1과 2에 대한 변량값명 ‘남자’와 ‘여자’를 입력한다. 같은 방법으로 변량명 ‘결혼여부’를 입력하고 변량값 1, 2, 3에 대한 변량값명 ‘미혼’, ‘기혼’, ‘기타’를 입력한다. 이와 같이 변량값명에 대한 편집을 한 데이터는 JSON 형식으로 저장(아이콘 클릭)하여야 정보를 잃어버리지 않게 된다. 다시 불러올 때도 JSON 형식으로 불러오는 아이콘 을 클릭하여야 한다. 마우스로 ‘결혼여부’와 ‘성별’ 변량명을 차례로 클릭하면 <그림 3.5>와 같은 남녀별 결혼여부의 막대그래프가 같은 화면에 그려진다.

<그림 2.3.5> 인구조사의 성별, 결혼여부에 대한 막대그래프 데이터 예

이와 같이 그룹이 있는 막대그래프는 다른 변형 형태가 가능하다. 주 아이콘 밑에 있는 부 아이콘 리스트( )를 이용하여 10가지의 막대그래프를 그릴 수 있다. <그림 3.6>은 왼쪽 상단부터 수직형 막대그래프의 ‘쌓는형’, ‘비율형’, ‘나란형’, ‘양쪽형’이고 <그림 2.3.7>은 수평형 막대그래프로 왼쪽 상단부터 ‘분리형’, ‘쌓는형’, ‘비율형’, ‘나란형’, ‘양쪽형’ 이다.

<그림 2.3.6-1> 성별 결혼여부의 쌓는형 수직 막대그래프 <그림 2.3.6-2> 성별 결혼여부의 비율형 수직 막대그래프
<그림 2.3.6-3> 성별 결혼여부의 나란형 수직 막대그래프 <그림 2.3.6-4> 성별 결혼여부의 양쪽형 수직 막대그래프
<그림 2.3.7-1> 성별 결혼여부의 분리형 수평 막대그래프 <그림 2.3.7-2> 성별 결혼여부의 쌓는형 수평 막대그래프
<그림 2.3.7-3> 성별 결혼여부의 비율형 수평 막대그래프 <그림 2.3.7-4> 성별 결혼여부의 나란형 수평 막대그래프
<그림 2.3.7-5> 성별 결혼여부의 양쪽형 수평 막대그래프

『eStat』에서 아이콘 을 클릭하면 남녀별 원그래프(<그림 3.8>), 띠그래프(<그림 2.3.9>)가 나타난다. 각 그룹에서 어느 범주의 값이 전체 데이터 중에서 차지하는 비율이 많은지 쉽게 관찰할 수 있다.

<그림 2.3.8> 성별 결혼여부의 원그래프 <그림 2.3.9> 성별 결혼여부의 띠그래프

[예 2.3.2 풀이 끝]

 

 

[『eStat』실습 2.3.2] 한 초등학교 학급의 성별(1:남자, 2:여자)과 수학선호도(1:좋음, 2:보통, 3:싫음)를 조사한 데이터가 『eStat』의 ⇨ 01Korean ⇨ 025원시_수학선호도조사.csv에 저장되어 있다. 성별 수학 선호도의 막대 / 원 / 띠그래프를 그려보라

3. 연속형 데이터 시각화

3.1 연속형 데이터의 그래프

신장, 체중과 같이 가능한 값이 실수인 형태를 연속형 데이터라 한다. 연속형 데이터 시각화에는 점그래프, 히스토그램, 줄기와 잎 그림 등이 이용된다. 신장과 체중 같은 두 변량 연속형 데이터는 각 변량을 2차원 공간에 x축, y축으로 하여 산점도로 나타내기도 한다.

점그래프(dot graph)는 데이터의 개수가 적은 연속형 데이터를 정리하는데 많이 사용된다. 먼저 수평선을 그리고 모든 데이터가 표시될 수 있도록 눈금을 정한 후에 각각의 데이터 값을 점으로 표시한다. 이러한 점그래프를 그리면 쉽게 데이터의 분포형태, 이상점들을 잘 알 수 있다.

월수입과 같은 연속형 데이터는 값의 종류가 너무 많아 막대그래프을 그리면 무의미하다. 이런 경우 여러 개의 계급구간을 나누어 각 구간의 도수분포표를 구한 후 이에 대한 막대그래프(막대사이에 간격이 없는)를 그리는데 이를 히스토그램(histogram)이라고 부른다. ‘계급구간의 수를 몇 개로 하는 것이 좋은가?’라는 의문이 생기는데 일반적으로 데이터 수가 적은 경우는 5 2 개의 구간, 많은 경우는 (데이터 수의 제곱근)+1 이라는 공식을 많이 이용한다. 하지만 분석자의 판단에 따라 구간의 수는 조절할 수 있다. 데이터가 많더라도 너무 많은 구간의 수를 가지면 분석하기가 힘들다.

줄기와 잎 그림(stem-and-leaf plot)은 연속형 데이터를 정리할 때 많이 쓰이는 그림으로 관측값의 범위, 분포의 모양, 집중도 등을 쉽게 알 수 있다. 이름 그대로 데이터를 줄기(stem)와 잎(leaf)의 형태로 보여주는 것인데, 데이터 값들의 자리수를 고려하여 처음 몇 개의 자리수를 줄기라 정하고 나머지 자리수를 잎으로 결정한다. 『eStat』에서는 마지막 자리수를 잎으로 하고 그 앞의 숫자들을 줄기로 하여 그래프를 그린다. 각각의 데이터에 대해 어느 줄기에 속하는지 조사한 후 그 데이터의 잎에 해당하는 숫자를 해당줄기 오른쪽에 적는다. 모든 데이터를 이와 같이 정리한 후 각 줄기에서 잎의 값을 크기순으로 다시 배열한다. 줄기와 잎 그림은 연속형 데이터에 대한 구간별 도수분포와 히스토그램을 같이 보여주는 것으로서 최근에 많이 이용되고 있다.

산점도(scatter plot)는 한 변량를 X축 다른 변량를 Y축으로 하여 각각의 관찰값을 XY 평면상의 좌표값으로 하여 점으로 나타낸다. 두 변량의 관계를 분석하는 그림인데 두 개의 연속형 데이터의 관계를 분석하는데 매우 효율적이다.

이 장에서는 연속형 데이터를 그룹이 없는 경우와 있는 경우로 구분하여 데이터 시각화에 대해서 살펴본다. 이와 같은 연속형 데이터의 시각화는 향후 7장에서 12장에 걸쳐 설명할 통계적 분석 방법의 기본 분석이 된다. 그룹이 없는 한 변량 연속형 데이터의 추정 및 검정은 7장, 두 그룹의 연속형 데이터의 검정은 8장, 세 그룹 이상의 연속형 데이터의 검정은 9장에서 설명한다.

 

 

3.2 한 변량 연속형 데이터의 시각화

연속형 데이터는 원시 데이터를 직접 이용하여 시각화 그래프를 그린다. 한 변량인 경우 그룹이 없는 경우와 있는 경우로 나누어 데이터 시각화를 알아보자.

 

3.2.1 그룹이 없는 경우 연속형 데이터의 시각화

데이터가 모집단에서 추출된 표본이라면 그룹이 없는 경우 연속형 데이터 시각화는 6장과 7장의 한 모집단 모수의 추정 및 검정의 기초 분석으로 활용된다.

 

[예 3.2.1] (수달의 길이 – 한 변량 연속형 데이터)

천연기념물 수달 30마리의 길이를 조사한 자료가 다음과 같다. 『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.

<풀이>

『eStat』시스템에서 시트의 V1에 30개의 데이터를 모두 입력하고 변량편집으로 V1의 변량명을 ‘수달길이’로 지정한다. 이 데이터는 『eStat』의 ⇨ 01Korean ⇨ 031연속_수달의 길이.csv로 저장되어 있다.

점그래프 아이콘 을 클릭한 후 마우스로 첫째 변량 ‘수달길이’를 선택하면 <그림 2.1-1>과 같은 수달의 길이에 대한 점그래프가 그려진다. 분석변량 선택 박스에서 ‘수달길이’를 선택해도 된다. 그래프 밑의 선택사항에서 ‘평균/표준편차’를 체크하면 <그림 3.2.1-2>와 같이 데이터의 평균과 (평균) (표준편차) 구간을 같이 관찰 할 수 있다, 수달의 길이가 평균 근처에 데이터가 많고, 평균을 중심으로 대칭으로 분포되어 있음을 알 수 있다.

<그림 3.2.1-1> 수달길이의 점그래프 <그림 3.2.1-2> 평균/표준편차 점그래프

 

 

히스토그램 아이콘 을 클릭하면 <그림 2.2-1>과 같은 그래프가 나타난다. 그래프 밑의 선택사항에서 평균, 도수표시, 도수분포다각형을 체크하면 <그림 3.2.2-2>와 같이 히스토그램 위에 도수분포다각형이 표시된다. 히스토그램을 살펴보면 역시 평균 근처에 많은 데이터가 몰려 있고, 평균을 중심으로 거의 대칭 형태로 분포되어 있음을 관찰할 수 있다.

<그림 3.2.2-1> 수달길이의 히스토그램 <그림 3.2.2-2> 도수분포다각형

 

 

‘도수분포표’ 버튼을 클릭하면 <그림 2.3>과 같이 로그창에 현재 그려진 히스토그램의 각 구간별 도수분포표가 출력된다.

<그림 3.2.3> 히스토그램의 도수분포표

히스토그램에서 구간의 수와 구간의 너비는 『eStat』시스템이 자동적으로 계산하는데 사용자가 그래프 밑의 선택사항(<그림 2.4>에서 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

<그림 3.2.4> 히스토그램의 선택사항

줄기와 잎 그림 아이콘 을 클릭하면 <그림 2.5>와 같은 그래프가 나타난다. 이 그래프는 히스토그램의 변형 형태로서 여기서는 구간 [60, 61), [61, 62), … [78, 79)에 속하는 데이터를 찾아낸 후 각 구간의 한 자릿수를 줄기로 하고 이 구간에 속하는 데이터의 소숫점 이하 자릿수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다.

<그림 3.2.5> 수달길이의 줄기와 잎 그림

[예 3.2.1 풀이 끝]

 

[『eStat』실습 3.2.1] (서울의 자전거 도로 – 한 변량 연속형 데이터)

다음은 2016년 현재 서울의 25개 행정구별 자전거 전용 도로 길이에 대한 데이터이다. 『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.


 

3.2.2 그룹별 연속형 데이터의 시각화

그룹이 있는 연속형 데이터는 원시 데이터를 직접 이용하여 그룹간의 비교를 위한 시각화 그래프를 그린다. 데이터가 모집단에서 추출된 표본이라면 두 개의 그룹이 있을 경우 8장의 두 모집단의 비교를 가설검정의 기초 분석으로 활용된다. 세 개 이상의 그룹일 경우 9장의 여러 모집단의 비교를 위한 가설검정의 기초 분석으로 활용할 수 있다.

 

[예 3.2.2] (나이 – 두 그룹 연속형 데이터)

한 중학교 선생님의 성별과 나이를 조사한 데이터가 ⇨ 01Korean ⇨ 032연속_선생님성별나이.csv에 저장되어 있다.『eStat』을 이용하여 점그래프, 히스토그램, 줄기와 잎 그림 등을 그려 보자.

 

<풀이>

『eStat』시스템에서 ⇨ 01Korean ⇨ 032연속_선생님성별나이.csv를 불러온다.

점그래프 아이콘 을 클릭한 후 마우스로 변량 ‘나이’와 ‘성별’을 선택하면 <그림 2.6-1>과 같은 남녀별 나이의 점그래프가 그려진다. ‘분석변량’ 선택박스에서 ‘나이’를, ‘by 그룹’ 선택박스에서 ‘성별’을 선택하여도 된다. 그래프 밑의 선택사항에서 ’평균/표준편차‘를 체크하면 <그림 3.2.6-2>와 같이 평균선과 (평균) (표준편차) 구간이 점그래프위에 표시된다.

<그림 3.2.6-1> 성별 나이의 점그래프 <그림 3.2.6-2> 평균/표준편차 점그래프

성별 선생님 나이를 살펴보면 여자 선생님의 나이 평균이 더 높음을 알 수 있다. 과연 이와 같은 차이가 의미가 있는지 연구하는 두 그룹에 대한 통계적인 비교 분석은 8장에서 자세히 살펴본다.

히스토그램 아이콘 을 클릭하면 <그림 2.7-1>과 같은 그래프가 나타난다. 그래프 밑의 선택사항을 이용하면 히스토그램 위에 평균, 도수표시, 도수분포다각형을 그릴 수 있으며(<그림 3.2.7-2>), 각 구간에 대한 도수분포표(<그림 3.2.8>)를 로그창에 나타낼 수 있다.

 
<그림 3.2.7-1> 성별 나이의 히스토그램 <그림 3.2.7-2> 성별 도수분포다각형

<그림 3.2.8> 선생님의 성별 나이의 히스토그램에 대한 구간별 도수분포표

히스토그램에서 구간의 수와 구간의 너비는 자동적으로 계산하는데 사용자가 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

줄기와 잎 그림 아이콘 을 클릭하면 <그림 2.9-1>과 같은 그래프가 나타난다. 이 그래프는 히스토그램의 변형 형태로 여기서는 각 그룹별로 구간 [20, 30), [30, 40), … [60, 69)에 속하는 데이터를 조사하여 각 구간의 십자리수를 줄기로 하고 그 구간에 속하는 데이터의 끝자리 수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다. 그룹이 두 개일 경우에는 부아이콘 을 클릭하면 <그림 3.2.9-2>와 같은 양쪽형 줄기와 잎 그림을 그릴 수도 있다.

 
<그림 3.2.9-1> 성별 나이의 줄기와 잎 그림 <그림 3.2.9-2> 성별 나이의 양쪽형 줄기와 잎 그림,

[예 3.2.2 풀이 끝]

 

[『eStat』실습 3.2.2] 칫솔질 방법(1:바스법, 2:회전법)에 따른 구강청결도 점수 데이터가 ⇨ 01Korean ⇨ 033연속_칫솔질방법과구강청결도.csv에 저장되어 있다. 이 데이터의 점그래프, 히스토그램, 줄기와 잎 그림을 그려보라.

 

[예 3.2.3] (핫도그 칼로리 비교 – 세 그룹 연속형 데이터)

세 가지 재료(1:소고기, 2:돼지고기, 3:닭고기)로 만든 핫도그의 칼로리를 조사한 데이터가 ⇨ 01Korean ⇨ 034연속_핫도그영양평가.csv 에 저장되어 있다. 『eStat』을 이용하여 점그래프, 히스토그램을 이용하여 세 재료의 칼로리를 비교하라.

 

<풀이>

『eStat』시스템에서는 ⇨ 01Korean ⇨ 034연속_핫도그영양평가.csv을 선택하여 데이터를 불러온다.

점그래프 아이콘 을 클릭한 후 마우스로 변량 ‘칼로리’와 ‘핫도그종류’를 차례로 선택하면 <그림 2.10-1>과 같은 핫도그종류에 따른 칼로리의 점그래프가 그려진다. ‘분석변량’ 선택박스에서 ‘칼로리’를, ‘by 그룹’ 선택박스에서 ’핫도그종류‘를 선택하여도 된다. 그래프 밑의 선택사항에서 ’평균/표준편차‘를 체크하면 <그림 3.2.10-2>와 같이 평균선과 (평균) (표준편차) 구간이 점그래프위에 표시된다.

 
<그림 3.2.10-1> 핫도그 칼로리의 점그래프 <그림 3.2.10-2> 평균/표준편차 점그래프

핫도그 칼로리 점그래프를 살펴보면 소고기와 돼지고기로 만든 핫도그의 칼로리보다 닭고기로 만든 핫도그의 칼로리가 낮다. 이와 같은 여러 그룹의 비교는 분산분석을 이용하여 통계적인 분석을 할 수 있는데 9장에서 자세히 살펴본다.

히스토그램 아이콘 을 클릭하면 <그림 2.11-1>과 같은 그래프가 나타난다. 그래프 밑의 선택사항에서 평균, 도수표시, 도수분포다각형을 그릴 수 있으며(<그림 3.2.11-2>), 각 구간에 대한 도수분포표(<그림 3.2.12>)를 로그창에 나타낼 수 있다.

 
<그림 3.2.11-1> 세 가지 핫도그 종류에 따른 칼로리의 히스토그램 <그림 3.2.11-2> 핫도그 종류에 따른 칼로리의 도수분포다각형

<그림 3.2.12> 히스토그램에 대한 도수분포표

 

히스토그램에서 구간의 수와 구간의 너비는 자동적으로 계산하는데 사용자가 구간시작과 구간너비를 지정해서 다시 그릴 수도 있다.

줄기와 잎 그림 아이콘 을 클릭하면 <그림 2.12>와 같은 그래프가 나타난다. 이 그래프는 히스토그램의 변형 형태로서 여기서는 각 그룹별로 구간 [80, 90), [90, 100), … [190, 200)에 속하는 데이터를 조사하여 각 구간의 백자릿수와 십자리수를 줄기로 하고 그 구간에 속하는 데이터의 끝자리 수를 잎 형태로 하여 표시한 것이다. 각 구간에 속하는 데이터의 끝자리 수는 작은 값에서 큰 값 순으로 정렬한다. 그룹이 많아지면 <그림 3.2.13>과 같이 그래프를 그리는 화면이 넘칠 수도 있으니(여기서는 두 그룹만 보임) 주의하여야 한다.

<그림 3.2.13> 세 가지 핫도그 종류에 따른 칼로리의 줄기와 잎 그림. 그룹3이 안보임

[예 3.2.3 풀이 끝]

 

[『eStat』실습 3.2.3] ⇨ 01Korean ⇨ 040혼합_여론조사.csv를 이용하여 교육정도별 월수입의 점그래프, 히스토그램, 줄기와 잎 그림을 그려보라.

 

3.3 두 연속형 변량 데이터의 시각화

일반적으로 한 관찰대상에 대해 데이터를 수집할 경우 하나 이상의 변량에 대한 정보를 수집한다. 예를 들어, 한 초등학교 학생에 대해서는 성별과 함께 신장 및 체중을 같이 조사할 수 있다. 즉, 한 개의 범주형 변량과 두 연속형 변량을 측정하는 경우이다.

이와 같이 두 개의 연속형 변량을 측정한 데이터는 산점도(scatter plot)를 이용하여 두 변량의 관련성 등을 분석할 수 있다. 산점도는 한 변량의 값을 x축, 다른 변량의 값을 y축으로 하여 2차원 평면위에 각각의 데이터를 표시한 것이다. 만일 성별과 같은 범주형 변량을 같이 측정하여 그룹으로 하였다면 각 그룹의 색을 구분하여 산점도를 그릴 수 있다.

  • 두 연속형 변량에 대한 상관 및 회귀분석은 12장에서 자세히 살펴본다.

 

[예 3.3.1] (신장 및 체중 – 두 연속형 변량)

한 초등학교 학급 10명의 성별, 신장, 체중을 조사한 데이터가 ⇨ 01Korean ⇨ 40연속_성별신장체중.csv에 저장되어 있다.

1) 『eStat』을 이용하여 신장과 체중의 산점도를 그려라.

2) 『eStat』을 이용하여 성별 신장과 체중의 산점도를 그려라.

 

<풀이>

『eStat』시스템에서는 ⇨ 01Korean ⇨ 035연속_성별신장체중.csv를 불러온다.

산점도 아이콘 을 클릭한 후 마우스로 ‘체중’과 ‘신장’ 을 클릭하면 <그림 3.1-1>과 같은 체중을 y축(첫 번째 선택된 변량), 신장을 x축(두 번째 선택된 변량)으로 한 산점도가 그려진다. ‘Y변량’ 선택박스에서 ‘체중’을, ‘by X변량’ 선택박스에서 ‘신장’을 선택하여도 된다. 그래프 밑의 선택사항에서 ‘회귀선’을 체크하면 체중과 신장과의 관계를 나타내는 회귀선이 <그림 3.3.1-2>와과 같이 표시된다. 산점도를 살펴보면 신장이 클수록 체중도 상대적으로 많이 나가는 것을 관찰할 수 있다. 회귀선에 대한 자세한 내용은 12장을 참조하기 바란다.

<그림 3.3.1-1> 신장 및 체중의 산점도 <그림 3.3.1-2> 신장 및 체중의 회귀선

 

성별로 그룹이 표시된 산점도를 그리려면 선택사항의 ‘그룹’ 박스에서 ‘성별’을 선택하면 <그림 3.2-1>과 같이 성별이 다른 색으로 표시된 그림이 나타난다. 선택사항에서 ‘회귀선’을 체크하면 <그림 3.3.2-2>와 같이 각 그룹별 회귀선이 이 표시된다.

 
<그림 3.3.2-1> 성별 신장 및 체중의 산점도 <그림 3.3.2-2> 성별 신장 및 체중의 산점도 및 회귀선

선택사항에서 ‘크기변량’을 선택하면 이 변량의 크기에 비례한 원들로 표시된 <그림 3.3>과 같은 산점도가 나타난다.

<그림 3.3.3> 체중의 크기에 비례하게 점을 그린 성별 신장 및 체중의 산점도

[예 3.3.1 풀이 끝]

 

[『eStat』실습 3.3.1] 성별(1:남자, 2:여자)에 따른 나이와 월수입 조사 데이터가 아이콘 Ex ⇨ ⇨ n ⇨ 036연속_나이월수입조사.csv에 저장되어 있다. 나이와 월수입의 산점도를 그려라. 성별에 따른 나이와 월수입의 산점도를 그려보라.