데이터 사이언스

위키백과, 우리 모두의 백과사전.

데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과정에서 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야다.[1]

데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하며 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.

데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계학, 컴퓨터 과학, 정보공학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련이 있다. 데이터 과학을 연구하는 사람을 데이터 과학자(data scienctist)라고 하는데 대개 데이터의 특정 추세를 분석하거나 시각화 작업을 중점적으로 다루는 데이터 분석가(data analyst)와 비교하여 전문적인 코딩 및 수학적 모델링 지식을 갖추고 알고리즘을 활용한 분석이나 예측 모델 개발을 주로 하는 전문가들을 일컫는 경우가 많다.

튜링상을 수상한 짐 그레이(Jim Gray)는 데이터 과학은 과학의 네번째 패러다임으로 정의하고 과학(경험, 이론, 계산, 그리고 이제 데이터)에 관한 모든 것이 바뀌고 있는데 이유는 정보기술과 데이터 범람(data deluge) 때문이라고 주장했다.

데이터 과학은 생물학, 의학, 공학, 사회학, 인문과학 등의 여러 분야에 응용되고 있다.

각주[편집]