1.4 『eStat』을 이용한 데이터 분석

데이터 분석을 위해서는 소프트웨어의 도움이 필수적이다. 특히 빅데이터 분석을 위해서는 전문적인 통계분석 모듈을 많이 가지고 있는 통계 패키지(statistical package)가 반드시 필요하다. 현재 빅데이터분석을 위해서는 SAS, SPSS, R과 같은 통계패키지가 많이 사용되고 있다.

하지만 이들 통계패키지들은 초보자가 배우기는 쉽지 않고, SAS와 SPSS는 상업용이어서 엄청난 고가이다. 그리고 이러한 통계패키지는 빅데이터분석의 핵심인 통계학을 가르치는데 필요한 모듈의 개발은 하지 않고 있다. 통계 교육을 위해서는 일부 개인들이 부분적인 기능의 소프트웨어를 만들고 있으나 초·중·고·대·일반인들이 모두 사용할 수 있는 종합적인 통계교육용 소프트웨어는 아직 없었다.

『eStat』은 데이터과학을 초등생부터 대학 및 일반인까지 쉽게 교육하기 위하여 만든 소프트웨어이다. 데이터가 주어지면 단지 마우스 클릭만으로 쉽게 그래프를 그릴 수 있고, 동적인 데이터 시각화를 경험할 수 있으며, 데이터에 대한 통계 분석 및 처리 실습까지 가능하다.

『eStat』은 고등학교 및 대학교 수준의 통계학 이론에 대한 이해를 돕기위해 다양한 시뮬레이션 모듈을 포함하고 있다. 이항분포와 정규분포가 무엇인지 보여주는 시뮬레이션, 대수의 법칙, 중심극한정리, 구간추정의 의미를 보여주는 시뮬레이션, 회귀분석의 이상값의 영향을 관찰할 수 있는 시뮬레이션 등이다.

『eStat』은 각급 교과서에 있는 많은 예를 포함하고 있으며, 웹 기반이어서 사용자들은 언제 어디서나 PC, 태블릿, 또는 스마트폰으로 이용할 수 있다. 『eStat』은 무료로 서비스하고 있고 다국적 언어를 지원하며 현재 한국어, 영어, 일본어, 중국어가 가능하다.

1.4.1절에서는 『eStat』의 기본 운용에 대해서 살펴보고, 1.4.2절에서는 『eStat』을 이용한 기초적인 데이터 분석을 소개한다.

이 책의 2장서부터는 각 장마다 적절한 예를 이용하여 어떻게 『eStat』으로 현실 데이터를 분석할 수 있는지 소개한다.

 

1.4.1 『eStat』 기본 운용

 

가. 시스템 들어가기

『eStat』 시스템은 HTML5, CSS3, JavaScript를 이용하여 만든 웹 소프트웨어라서 이용하기 위해서는 반드시 브라우저를 사용하여야 한다. 많은 웹브라우저가 있지만 현재 HTML5 표준을 잘 지키는 것은 구글(Google)사의 크롬(Chrome)이니 가능하면 크롬을 이용하여 『eStat』 시스템을 이용하기 바란다. 다른 브라우저에서도 『eStat』이 작동은 되나 여러 가지 세부 기능이 안 되는 경우가 많고, MS 엣지(Edge)에서는 일부 기능을 제외한 대부분 모듈이 작동된다.

모니터에서 아이콘 을 클릭한 후 나타나는 크롬 주소창에 www.estat.me를 입력한 후 [Enter]키를 누르면 <그림 1.4.1>과 같은 『eStat』의 주화면이 나타난다.

『eStat』의 주화면 윗부분에는 여러 가지 아이콘들이 있다. 일반적인 소프트웨어에서 많이 사용하는 드롭다운 방식의 메뉴를 사용하지 않고 아이콘들을 펼쳐 놓은 것은 사용자들이 한 눈에 『eStat』에서 할 수 있는 작업을 보기 쉽게 한 것이다. 다만 고등학교 수준이나 대학 수준은 여러 가지 메뉴가 있을 수 있어 별도의 아이콘 을 만들어 클릭하면 세부 메뉴를 새로운 윈도우창에 띄워준다.

주화면의 왼쪽은 데이터 입력을 위한 시트창이고, 가운데는 데이터 분석를 보여주는 그래프창, 오른쪽은 필요한 공간을 저장해 놓는 로그(log)창으로 구성되어 있다.

<그림 1.4.1> 『eStat』의 주화면

나. 데이터 입력 / 저장 / 불러오기

『eStat』에서 데이터 만들기

– 주화면 좌측에 있는 시트에 데이터를 입력한다. 이 시트에서 행(row)은 관찰 대상, 열(column)은 변량을 나타낸다. 마우스로 1행 1열을 클릭하면 이 셀에 대한 행과 열이 다른 부분과 달리 진한 색으로 표시되어 있고, 1행1열은 직사각형 형태의 외곽선이 생기는데 이를 커서(cursor)라 한다. 이는 시트가 커서가 위치하여 있는 1행1열에 데이터를 입력받을 준비가 되어 있다는 것을 의미한다. 이 커서(cursor)는 화살표키 󰎼 󰎽 󰎾 󰎿 나 󰎺 󰎻 를 사용하면 셀에서 셀로 또는 페이지 단위로 커서를 이동시킬 수 있다.

<그림 1.4.2> 『eStat』의 데이터 입력을 위한 시트

 

-『eStat』에서 허용하는 데이터의 최대수는 1만개, 변량의 최대수는 20개이다. 데이터의 입력은 왼쪽 위의 1행 1열(관찰대상1, 변량1)서부터 데이터를 입력한 후, 아래 방향 화살표키(󰎿) (또는 󰎠키)를 이용하여 커서를 밑(2행 1열)으로 이동시켜 다음 데이터를 입력한다. 같은 방법으로 화살표키(󰎼, 󰎽, 󰎾, 󰎿)를 이용하여 커서를 이동하면서 모든 데이터를 각 셀에 입력하면 된다.

– <그림 1.4.3>은 두 학급의 남 여 학생수를 입력한 예이다.

 

  성별 5-1반 5-2반
1 남자 16 12
2 여자 14 18

 

<그림 1.4.3> 『eStat』의 데이터 입력

변량명 및 변량값명의 입력

– 데이터의 입력이 끝난 후 『eStat』를 이용하여 데이터 처리를 하면 결과 출력은 변량이름으로 변량1(또는 V1), 변량2(또는 V2), 변량3(또는 V3) … 라는 고유 이름을 사용한다. 이러한 고유 이름 대신 변량의 실제이름이나 그 변량 값에 대한 설명을 데이터처리 전에 입력하면 결과를 분석하기가 쉽다.

– <그림 1.4.3>에서 변량명의 입력은 데이터 입력 후에 ‘변량편집’ 버튼을 클릭하여 나타나는 <그림 1.4.4>의 대화상자창에서 변량명 V1 대신 ‘성별’을 입력하고, 콤보박스에서 V2를 선택한 후 ‘5-1반’, V3를 선택한 후 ‘5-2반’을 입력하면 된다.

<그림 1.4.4> 변량편집 대화상자

– 원시 데이터인 경우 변량편집 창을 이용하면 변량값에 대한 변량값명을 지정할 수 있다.

– <그림 1.4.3>에서는 데이터가 화면에 모두 보이나 만일 데이터가 커서 화면에는 데이터의 일부만 나타날 경우에는 󰎺, 󰎻 키를 사용하여 위․아래로 한 화면씩 이동하여 볼 수 있고, 󰍭키와 화살표키(󰎾, 󰎿, 󰎼, 󰎽)를 같이 눌러 데이터의 위/아래/왼쪽/오른쪽 끝으로 쉽게 이동할 수 있다. – 문자나 숫자도 입력할 수 있다. 막대, 원, 띠그래프는 문자 데이터을 이용해서 그래프를 그릴 수 있으나. 점그래프, 히스토그램, 줄기와 잎 그림은 반드시 숫자 데이터를 이용하여야 한다. 단 그룹변량는 문자데이터를 이용할 수 있다.

데이터의 수정

– 만일 한 셀에 입력된 데이터를 모두 수정하고 싶으면, 원하는 셀에 커서를 위치한 후 새 데이터를 입력하면 된다. 만일 한 셀에 입력된 데이터의 일부분만 수정하고 싶다면 원하는 셀을 마우스로 두 번 누른 후 화살표키(󰎼, 󰎽)를 이용하여 글자 사이를 이동하면서 수정을 하면 된다.

『eStat』에서 데이터 저장

– 시트에서의 데이터 입력은 컴퓨터의 주기억장치(main memory)를 이용하기 때문에 전원이 끊어지게 되면 이 기억장치에 들어 있는 내용은 모두 없어진다. 그러므로 데이터를 모두 입력한 후에는 이를 반드시 하드 디스크나 USB와 같은 보조 기억장치에 저장하여야 한다. -『eStat』에서는 파일이름 박스에서 파일명을 입력하고 아이콘 을 클릭하면 변량명과 데이터를 엑셀의 CSV 형식으로 저장한다. 이때 파일명의 확장자는 csv여야 한다. – 만일 변량값명까지 지정하였다면 아이콘 을 클릭하여 JSON 형식으로 저장한다. 이때 파일명의 확자잔는 json이다. 파일이 저장되는 지점은 시스템의 ‘download’ 폴더가 된다.

『eStat』에서 파일 불러오기

– 내 컴퓨터에 저장된 CSV 형식으로 저장된 파일은 아이콘 을 이용하여 불러올 수 있다. – 다른 서버 컴퓨터에 저장된 CSV 형식으로 저장된 파일은 아이콘 을 이용하여 불러올 수 있다. – 내 컴퓨터에 저장딘 JSON 형식으로 저장된 파일은 아이콘 을 이용하여 불러올 수 있다.

다. 데이터 분석

<그림 1.4.3>에서 마우스로 변량명 ‘성별’과 ‘5-1반’ ‘5-2반’을 차례로 클릭하면 선택변량 박스에 ‘1 2 3’ 이 나타난다.

막대그래프 아이콘 을 클릭하면 <그림 1.4.5>와 같은 남 여 학생수에 대한 막대그래프가 그려진다.

<그림 1.4.5> 5-1반과 5-2반의 남녀 학생수의 막대그래프

그래프의 제목은 원하는 내용으로 수정할 수 있다. 그래프창 위의 편집 아이콘 을 클릭하면 다음과 같은 편집 대화상자가 나타난다. 여기에서 주제목 y축 제목, x축제목을 바꾼 후 ‘수정’ 버튼을 클릭한다.

<그림 1.4.6> 그래프 제목 편집 대화상자

라. 분석결과 저장 및 인쇄

『eStat』에서 그래프창에 표시된 분석 결과를 저장하려면 그래프창 위의 저장 아이콘 을 클릭한다. 그러면 그래프가 eStatGraph.png 파일로 저장되는데 주화면 왼쪽 밑에 표시된다. 저장되는 위치는 컴퓨터 시스템에서 지정된 다운로드(Download) 폴더이다. 이어서 다른 그래프를 저장하면 다운로드 폴더에 eStatGraph(1).png 등과 같이 괄호 안의 번호가 증가되면서 저장된다.

그래프창의 결과를 인쇄하려면 그래프창 위의 인쇄 아이콘 을 클릭한다. 그러면 윈도우에서 제공하는 인쇄를 위한 화면이 나타나고 여기서 ‘인쇄’ 버튼을 클릭하면 프린터에 그래프창 결과가 인쇄된다.

<그림 1.4.7> 그래프창의 인쇄

그래프창의 결과는 오른쪽의 로그창으로 이동한 후 필요시 인쇄할 수 있다. 그래프창 위의 이동 아이콘 을 누르면 현재 그래프창에 있는 내용이 로그창으로 이동한다.

로그창에 있는 내용을 저장하려면 로그창 위의 저장 아이콘 을 클릭한다. 그러면 로그창의 내용이 eStatLog.html 파일로 저장되는데 주화면 왼쪽 밑에 와 같이 표시된다. 저장되는 위치는 역시 컴퓨터 시스템에서 지정된 다운로드(Download) 폴더이다. 저장된 html 파일은 MS Word나 ᄒᆞᆫ글에서 불러올 수 있다..

로그창의 결과를 인쇄하려면 로그창 위의 인쇄 아이콘 을 클릭한다. 그러면 윈도우에서 제공하는 인쇄를 위한 화면이 나타나고 여기서 ‘인쇄’ 버튼을 클릭하면 프린터에 로그창 결과가 인쇄된다.

마. 시스템 나오기

『eStat』시스템을 끝내려면 브라우저를 종료하면 된다. 즉 브라우저 오른쪽 위의 ☒ 버튼을 클릭한다.

 

 

1.4.2 『eStat』의 데이터 분석

 

가. 범주형 데이터의 『eStat』 분석

범주형 데이터의 분석에는 막대그래프, 원그래프, 띠그래프가 이용된다. 자세한 그래프의 이용은 2장에서 살펴본다.

범주형 테이터는 다시 원시 데이터와 요약 데이터로 구별할 수 있는데 다음 예를 통해 여러 가지 경우에 『eStat』을 이용한 범주형 데이터의 분석에 대해 알아 보자.

 

[예 1.4.1] (범주형: 원시 데이터 : 그룹 없는 경우)

현실에서 데이터는 다양한 형태로 수집되는데 분석을 위해서는 일반적으로 엑셀의 행과 열로 구분된 셀에 넣을 수 있는 형태로 정리한다. 여기서 행은 관찰 대상, 열은 그 대상의 속성(변량 또는 변량이라고도 부름)을 의미한다. 예를 들어 어느 초등학교 한 학급 학생 10명의 성별을 남, 여, 남, … 등으로 조사하였다면 이 데이터를 다음과 같이 엑셀 시트에 정리한다.

 

성별

 

<그림 1.4.8> 한 학급의 성별을 조사하여 엑셀에 정리한 원시 데이터

이와 같은 데이터를 원시(raw) 데이터라 부른다. 첫 행은 대개 변량명(이 경우에는 ‘성별’)을 표시한다. ‘남’ 또는 ‘여’와 같은 값을 변량값이라 부른다. 『eStat』을 이용하여 이 데이터의 막대그래프를 그려보자.

 

<풀이>

『eStat』의 시트에 변량명 ‘성별’을 제외하고 <그림 1.4.8>과 같이 데이터를 입력한다.

변량명의 입력은 시트 위의 ‘변량편집’을 클릭한 후 변량명 박스에 V1대신 ‘성별’을 입력한다.

마우스로 변량명 ‘성별’을 클릭하면 선택변량 박스에 첫 번째 변량의 선택을 의미하는 ‘1’이 나타난다.

막대그래프 아이콘 을 클릭하면 <그림 1.4.9>와 같은 남 여 학생수에 대한 막대그래프가 그려진다.

<그림 1.4.9> 성별 막대그래프

 

이어서 아이콘 을 클릭하면 원그래프가 나타나고, 을 클릭하면 띠그래프, 을 클릭하면 선그래프가 나타난다.

 

[예 1.4.2] (범주형: 요약 데이터 : 그룹 없는 경우)

<그림 1.4.8>의 한 학급 성별 데이터는 ‘남’이 6명이고 ‘여’가 4명이고 막대그래프는 이 도수를 막대의 길이로 나타낸 것이다. 이렇게 도수를 요약(summary)한 데이터는 다음과 같이 엑셀 형태로 많이 저장한다. 첫 행은 성별과 학생수라는 속성명을 주었다. 이러한 요약 데이터를 성별의 도수분포표(frequency table)라고도 부른다.

 

성별 학생수
6
4

 

<그림 1.4.10>> 한 학급의 성별을 정리 요약한 데이터. 또는 성별 도수분포표

『eStat』을 이용하여 이 요약 데이터의 막대그래프를 그려보자.

 

<풀이>

<그림 1.4.10>의 데이터에서 첫 행을 제외하고 eStat의 시트에 입력한다.

변량명의 입력은 시트 위의 ‘변량편집’을 클릭한 후 변량명 박스에 V1대신 ‘성별’, V2 대신 ‘학생수’를 입력한다.

마우스로 변량명 ‘성별’과 ‘학생수’를 클릭하면 선택변량 박스에 ‘1 2’ 가 나타난다.

막대그래프 아이콘 을 클릭하면 <그림 1.4.9>와 같은 남 여 학생수에 대한 막대그래프가 그려진다.

 

[예 1.4.3] (범주형: 원시 데이터 – 그룹 있음) 어느 초등학교 한 학급 10명에 대하여 성별과 함께 수학 선호도를 같이 조사한 데이터가 다음과 같다. 여기서 성별 변량의 ‘1’은 남자이고 ‘2’는 여자이다. 수학선호 변량의 ‘1’은 좋음, ‘2’는 보통, ‘3’은 싫음을 의미한다. 많은 양의 데이터를 처리할 때는 이와 같이 변량값을 코드(code)화 하는 것이 편리하다. 이 데이터를 각 성별 수학선호도의 막대그래프, 원그래프, 띠그래프, 꺽은선그래프를 그려보자.

 

성별 수학선호
1 3
2 1
1 3
2 1
1 3
1 1
1 2
2 2
2 3
1 2

 

<그림 1.4.11> 수학선호도 조사 – 원시 데이터

<풀이>

『eStat』의 시트에 첫 행 ‘성별’과 ‘수학선호’를 제외하고 <그림 1.4.11>과 같이 데이터를 입력한다.

변량명의 입력은 시트 위의 ‘변량편집’을 클릭한 후 변량명 박스에 V1대신 ‘성별’, V2에 ‘수학선호’를 입력한다.

마우스로 변량명 ‘성별’과 ‘수학선호’를 클릭하면 선택변량 박스에 ‘1 2’가 나타난다.

막대그래프 아이콘 을 클릭하면 다음과 같은 남 여 학생수에 대한 막대그래프가 그려진다.

이어서 아이콘 을 클릭하면 원그래프가 나타나고, 을 클릭하면 띠그래프, 을 클릭하면 선그래프가 나타난다.

 

나. 연속형 데이터의 『eStat』 분석

연속형 데이터의 분석에는 점그래프, 히스토그램, 줄기와 잎 그래프, 산점도 등이 이용된다. 자세한 연속형 그래프의 응용은 3장에서 살펴본다. 연속형 데이터는 추정, 검정 등의 통계분석을 할 수 있는데 7장에서 9장에 걸쳐 연구하게 된다.

Leave a Reply

Your email address will not be published. Required fields are marked *