1.1 데이터과학이란?

1946년 미국 펜실베니아대학의 존 에커트와 존 모클리에 의해 처음 개발되었던 현대 디지털 컴퓨터는 1960년대 이후 현실에 응용되기 시작하여 지난 반세기 동안 엄청난 발전을 이룩하고 우리 사회의 많은 변화를 가져왔다. 특히 1980년대 이후 컴퓨터와 컴퓨터의 연결이 시작되고, 개인용 컴퓨터가 활성화되고, 유무선 정보통신 기술이 발전되면서 최근에는 전 세계의 거의 모든 컴퓨터가 유무선 인터넷을 통하여 연결되어 있다. 2000년대 이후에는 성능이 우수한 컴퓨터가 소형화 되면서 전화기와 연결한 스마트폰이 탄생되어 우리 사회에 획기적인 변화를 가져왔다.
이러한 컴퓨터와 정보통신 기술의 발전은 과거에는 상상도 할 수 없었던 크기의 빅데이터(Big Data)가 만들어졌다. 빅데이터라는 용어는 단어의 의미 자체보다는 과거에는 볼 수 없었던 최근 생성되는 데이터에 대한 상징적인 용어이다. 예를 들면 구글의 검색엔진 데이터, 스마트폰의 소셜미디어 데이터, 인터넷의 웹로그(web log) 데이터, 글로벌 통신회사의 통화기록 데이터 등이다. 향후 4차 산업혁명이 진행되면서 이러한 빅데이터는 점점 더 커지고 많아질 전망이다. 기능이 다양해지고 복잡화하면서 신속히 움직이는 현대 정보화 사회에서는 데이터의 홍수 속에서 어떻게 정보를 유효적절하게 만들고 이를 사용하느냐에 따라 각 개인, 단체, 기업, 나아가 국가의 성패가 달려 있다.

문자 및 숫자 등으로 이루어지는 데이터는 인류가 문자를 발명하여 역사를 기록하면서 생겨났다고 볼 수 있다. 고대의 이집트, 그리스 로마 등에서는 인구수, 농지 면적 등의 데이터를 만들어 국가 경영에 사용한 기록이 있다. 이러한 단순한 데이터 활용은 17세기이후 수학의 확률론 발전에 힘입어 통계학(Statistics)이란 학문으로 발전하였다. 통계학은 고대의 단순한 데이터 활용을, 현실의 불확실한 상황에서의 의사결정을 과학적인 판단으로 내릴 수 있게 데이터 활용의 차원을 높였다.

통계학(Statistics)이란 다양하고 복잡한 정보화 사회에서 데이터를 효율적으로 수집하고, 이를 정리, 요약하거나, 현실의 불확실한 사실에 대해 의사결정을 내릴 때 여러 가지 확률적 모형을 이용하여 과학적인 판단을 내릴 수 있도록 도움을 주는 학문이다.
데이터 분석의 핵심은 데이터가 가지고 있는 특징을 살펴보고 이에 근거한 모형을 수립하여 현실의 불확실한 상황에 대한 의사결정을 하는 것으로 전통적인 통계학의 기법이 많이 이용된다. 하지만 금세기에 출현한 빅데이터의 분석은 데이터의 양도 엄청나고 다양해 단지 통계학적인 접근만으로 그 활용을 모두 할 수는 없다. 이러한 빅데이터의 분석을 위해서는 전통적인 통계학의 이론과 수학의 최근 이론, 컴퓨터 과학, 그리고 분석된 결과를 효율적으로 활용하기 위해서는 경영학 등 관련 학문도 같이 적용되어야 한다. 이와 같이 여러 학문 분야가 융합하여 금세기에 출현한 빅데이터를 분석해 현실에 응용하는 학문을 데이터과학(Data Science)이라 부른다.

데이터과학(Data Science)은 금세기에 출현한 빅데이터를 분석하여 현실에 활용하기 위해 통계학, 수학, 컴퓨터과학 등이 융합된 학문 분야이다. 빅데이터를 분석하여 현실에 응용하는 데이터과학이 활용된 예는 많이 있다.

– 구글의 검색 엔진에 자동차 구입에 관한 질문을 조사하여 다음 달 미국서 판매되는 자동차 모델의 수를 예측하였다.
– 구글 검색 엔진에 감기약을 검색한 결과를 분석하여 올해 미국서 유행하는 감기의 전파 경로를 지도에 표시하였다. 이를 구글 플루라 부르는데 미국 정부의 질병관리본부보다 앞서서 감기의 전파경로를 예측하여 세상을 놀라게 하였다.
– 한 베네수엘라 식품체인 회사는 분산되었던 각 지점의 데이터를 통합 분석하여 재고관리 개선과 이에 맞는 상품 판매 전략을 수립하여 매출이 30%나 증가하는 성과를 이루었다.
– 한 온라인 쇼핑몰은 웹로그를 분석하여, 회원 고객이 어떤 취향을 가지고 어떤 제품에 관심이 있는지 파악하여 고객 개개인에 맞는 맞춤형 광고를 하여 매출이 증가하였다.
– 한 원유 탐사회사에서 테라바이트 규모의 지질학 데이터를 분석해 원유 시추의 성공률을 높였다.
– 한 남아프리카 보험회사에서 기존 보험금 청구 빅데이터를 분석하여 보험사기 가능성이 있는 사건을 찾을 수 있는 알고리즘을 구현하였다. 이를 활용하여 많은 보험사기를 적발하였고 심지어 대형 보험사기 조직을 적발하기도 하였다.
– 한 미국의 대학에서 온라인 수업에서 학생들이 시스템에 클릭하는 정보를 분석하여 학생 개개인의 학습 성과를 모니터링하고 학생의 이해도에 맞춘 수준별 수업 내용을 제안하고, 향후 수강할 과목 등을 학생별로 제안하였다. 이 결과 전공별 학위 취득률이 많이 향상되었다.
– 한 덴마크의 풍력발전 회사는 기존 발전기에서 축적된 페타바이트 규모의 데이터를 분석하여 풍력발전기에 대한 날씨와 위치의 영향을 정확히 파악하고 이를 바탕으로 풍력발전기의 부지 선정 및 운영을 효율적으로 할 수 있게 되었다.

Leave a Reply

Your email address will not be published. Required fields are marked *

CAPTCHA