1.2 책의 구성

1.1절에서 데이터과학의 대략적인 의미를 살펴보았다. 데이터과학은 여러 학문의 융합이어서 데이터과학을 연구하는 것은 여러 학문 분야를 모두 연구하는 것이다. 구체적으로 빅데이터의 분석에 많이 사용되는 기법은 통계학의 가설검정, 다변량분석, 선형모형 등의 전통적인 이론과 함께 수학에서 발전한 신경망(Neural Network), 지지벡터기계(Support Vector Machine), 컴퓨터 과학의 데이터베이스(Database), 분산처리, 기계학습(Machine Learning), 인공지능(Artificial Intelligence) 등이다.

이러한 여러 학문 융합형 데이터과학을 공부하는 것은 쉽지 않다. 잘못하면 이분야도 많이 알지 못하고 저 분야도 제대로 많이 모를 위험이 있다. 그러나 데이터과학을 잘 공부한 사람은 21세기가 필요로하는 인재가 될 것임이 틀림없다.

이 책은 초보자가 데이터과학에 입문하는 사람들을 위해 빅데이터 분석의 기초인 데이터 시각화와 데이터 요약 방법을 소개하고, 표본을 이용한 모집단의 특성을 추론하는 통계적 의사결정 모형을 소개하고자 한다. <그림 1.2.1>은 이 책의 구성이다.

<그림 1.2.1>

2장은 초등학교 교과서에 나오는 막대, 원, 띠, 꺽은석 그래프 등의 범주형 데이터 시각화를 다룬다. 3장은 중학교 교과서에 나오는 히스토그램, 줄기와 잎 그림, 산점도 등의 연속형 데이터 시각화를 다룬다. 4장은 중학교 교과과정에 나오는 표/측도를 이용한 데이터 요약을 소개한다.

5장은 데이터에 대한 확률분포 모형, 6장은 표본통계량에 대한 이론과 추정을 설명한다. 표본평균의 분포와 모평균의 추정은 고등학교 교과과정에서 다루는 내용이다.

7장에서 9장까지는 연속형 변량에 대한 가설검정, 10장은 범주형 데이터에 대한 가설검정, 11장은 두변량에 대한 상관 및 회귀분석(11장)을 소개한다. 7장 가설검정 이후는 대학의 기초통계학 수준이다.

Leave a Reply

Your email address will not be published. Required fields are marked *