빅 데이터
빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 데이터 수집·저장·관리·분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합[1] 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술[2]을 의미한다.
다양한 종류의 대규모 데이터의 생성·수집·분석·표현을 그 특징으로 하는 빅 데이터 기술의 발전은, 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고, 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공·관리·분석 가능케 하며, 과거에는 불가능 했던 기술을 실현시키기도 한다.
이같이 빅 데이터는 정치·사회·경제·문화·과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공하며, 그 중요성 또한 부각되고 있다.
세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술에 선정[3]하였으며, 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정[4]하는 등, 최근 세계는 빅 데이터를 주목하고 있다.
목차 |
개념 [편집]
기존 빅 데이터의 개념은 단순히 데이터의 양이 많은 것을 의미했다면, 최근의 일반적인 빅 데이터의 개념은 기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터 집합을 의미한다. 빅 데이터의 정의에 합의된 바는 없지만, 맥킨지와 IDC는 데이터 베이스의 규모와 업무수행에 초점을 맞춰, 빅 데이터를 다음과 같이 정의하였다.
데이터 베이스의 규모에 초점을 맞춘 정의 (McKinsey, 2011) [편집]
- 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터[1]
데이터 베이스가 아닌 업무수행에 초점을 맞춘 정의 (IDC, 2011) [편집]
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 (데이터의) 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 [2]
출현 배경 [편집]
기존 소셜 네트워크 서비스로 대표되는 소셜 미디어의 성장과, 최근 스마트 폰으로 대변되는 모바일 장치의 확산이 결합되어, 일상 속에서 다양한 종류의 대규모 데이터가 급속히 생성, 유통, 저장되고 있다. 또한 RFID와 같이 정보를 감지하는 센서 장비의 이용 확대와 이러한 정보를 수집하는 클라우드 컴퓨팅 기술의 확산은, 물류의 이동 및 재고의 변화뿐만이 아닌 개별 소비자들의 개인정보 및 소비행태와 같은 모든 일상에 대한 디지털 기록을 가능케 하고 있다. 기업 및 사회는 이러한 수집된 데이터를 기반으로 예측 분석을 하기 위하여, 다양한 종류의 대규모 데이터 처리, 분석 및 활용 기술을 필요로 하고 있다. 대량의 다양한 데이터 생산 기술의 진보와, 이에 필요한 데이터 저장·관리·분석 기술의 발전 속에서 빅 데이터가 출현하게 된다.
특징 [편집]
빅 데이터는 TB(테라바이트)단위의 데이터량으로 정의되거나 데이터 수집 및 분석에 장기적인 시간을 요하므로, 데이터 양의 증가를 그 특징으로 하는 것이 명확해 보인다. 그러나 단순한 데이터 양의 증가를 넘어서서, 빅 데이터는 크게 데이터 양(volume), 데이터 속도(velocity), 그리고 데이터 다양성(variety) 등 세 가지 요소의 복합적인 변화를 그 특징으로 한다. [5]
데이터 양(volume) [편집]
단순 저장되는 물리적 데이터 양의 증가 뿐만이 아닌, 이를 분석 및 처리하는 데 어려움이 따르는 네트워크 데이터의 급속한 증가는 빅데이터의 가장 기본적인 특징이다.
데이터 속도(velocity) [편집]
빅 데이터는 데이터의 실시간 처리 및 장기적 접근을 요구한다. 데이터 생산 및 유통, 수집 및 분석 속도의 증가와 이에 대한 실시간 처리 및, 장기간에 걸쳐 데이터를 수집·분석 하는 장기적 접근이 빅데이터의 속도적 특성이다.
데이터 다양성(variety) [편집]
기존 예측 분석에서 데이터 분석은, 기업 내부에서 발생하는 운영 데이터인 ERP(전사적 자원 관리), SCM(공급망 관리), MES(Manufacturing execution system), CRM(고객 관계 관리) 등의 시스템에 저장되어 있으며, 잘 정제되어 있고, 의미도 명확한 RDBMS(관계형 데이터베이스) 기반의 정형 데이터를 통해 이뤄졌다.[6] 최근 빅 데이터를 이용한 데이터 분석은, 고정된 시스템에 저장되어 있지 않은 XML, HTML 등과 같이 데이터베이스 스키마를 포함하는 반정형 데이터를 이용한 분석뿐만이 아닌, 사진•오디오•비디오 형식의 소셜 미디어 데이터나 로그파일(Database log) 같이 비정형 데이터도 처리할 수 있는 능력을 요구한다. 즉 빅 데이터의 성장이란 단순히 데이터의 양이 증가하는 것을 넘어서서, 다양한 형태의 데이터 양이 증가하는 것을 의미하는 것이다.
빅 데이터 분석 기법 [편집]
상기 특징을 가진 빅 데이터의 분석·활용을 위한 빅 데이터 처리 기법은 크게 분석 기술, 표현 기술로 나뉜다.
빅 데이터 분석 기술 [편집]
대부분의 빅 데이터 분석하는 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다.[7] 특히 최근 소셜 미디어등 비정형 데이터의 증가로 인해, 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목을 받고 있다.[8]
- Text Mining(Text mining) : 텍스트 마이닝은 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.
- 평판 분석 (Opinion mining) : 오피니언 마이닝은 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별하는 기술이다.
- 소셜 네트워크 분석 (Social network analysis) : 소셜 네트워크 분석은 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하는 기술이다.
- 군집 분석 (Cluster Analysis) : 군집 분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군을 발굴하는데 사용된다.
대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인 분석 인프라로 하둡이 있으며, 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다. [8]
빅 데이터 표현 기술 [편집]
빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로서, R (프로그래밍 언어)이 대표적이다.[8]
활용사례 및 의의 [편집]
빅 데이터 기술의 발전은, 다변화된 현대 사회를 보다 정확하게 예측하고 효율적으로 작동하도록 정보를 제공하며, 개인화된 현대 사회 구성원들에게 있어서 맞춤형 정보를 제공·관리·분석 가능케 하며, 과거에는 불가능 했던 기술을 진일보 시킨다. 이에 빅 데이터는 정치·사회·경제·문화·과학기술과 같은 전 영역에 걸쳐 그 중요성이 부각되고 있다.
정치 및 사회 [편집]
2008년 미국 대통령 선거 [편집]
2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석·활용한 '유권자 맞춤형 선거 전략'을 전개했다. 당시 오바마 캠프는 인종·종교·나이·가구형태·소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어서서, 과거 투표 여부·구독하는 잡지·마시는 음료 등 유권자 성향까지 전화나 개별 방문을 또는 소셜 미디어를 통해 유권자 정보를 수집하였다. 수집된 데이터는 오바마 캠프 본부로 전송되어, 유권자 데이터베이스를 온라인으로 통합관리하는 '보트빌더(VoteBuilder.com)’시스템의 도움으로 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대한 예측을 해나갔다. 이를 바탕으로‘유권자 지도’를 작성한 뒤, '유권자 맞춤형 선거 전략'을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다.
대한민국 제19대 총선 [편집]
중앙선거관리위원회는 대한민국 제19대 총선부터 소셜 네트워크 등 인터넷 상의 선거 운동을 상시 허용하였다.[9] 이에 소셜 미디어 상에서 선거 관련 데이터는 증폭되었으며, 2010년 대한민국 제5회 지방 선거 및 2011년 대한민국 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들 또한 SNS 역량 지수를 공천 심사에 반영하는 등[10] 소셜 네트워크 활용에 주목했다. 이 가운데 여론 조사 기관들은, 기존 여론조사 방식으로 예측한 2010년 제5회 지방 선거 및 2011년 재보궐선거의 여론조사 결과와 실제 투표 결과와의 큰 차이를 보완하고자, 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했다. 그러나 SNS 이용자의 대다수가 수도권·20~30대에 쏠려 있기에[11], 빅 데이터를 이용한 대한민국 제19대 총선에 대한 SNS 분석은 수도권으로 한정되어 일치하는 한계를 드러내기도 했다.
경제 및 경영 [편집]
아마존닷컴의 추천 상품 표시 / 구글 및 페이스북의 맞춤형 광고 [편집]
아마존닷컴은 모든 고객들의 구매 내역을 데이터베이스에 기록하고, 이 기록을 분석해 소비자의 소비 취향과 관심사를 파악한다.[12] 이런 빅 데이터의 활용을 통해 아마존은 고객별로 '추천 상품(레코멘데이션)'을 표시한다. 고객 한사람 한사람의 취미나 독서 경향을 찾아 그와 일치한다고 생각되는 상품을 메일, 홈 페이지상에서 중점적으로 고객 한사람 한사람에게 자동적으로 제시하는 것이다.[13] 아마존닷컴의 추천 상품 표시와 같은 방식으로 구글 및 페이스북도 이용자의 검색 조건, 나아가 사진과 동영상 같은 비정형 데이터 사용을 즉각 처리하여, 이용자에게 맞춤형 광고를 제공하는 등 빅 데이터의 활용을 증대시키고 있다.
문화 [편집]
MLB (메이저 리그 베이스볼)의 머니볼 이론 및 데이터 야구 [편집]
머니볼 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다. [14] 이는 미국 메이저 리그 베이스볼 오클랜드 어슬레틱스의 구단장 빌리 빈이 리그 전체 25위에 해당하는 낮은 구단 지원금 속에서도 최소비용으로 최대효과를 거둔 상황에서 유래되었다. 빌리 빈은 하버드대에서 경제학을 전공한 폴 데포데스터를 영입하여, 타율·타점·홈런 등 흥행 요소만을 중시하던 야구계에서 출루율·장타율·사사구 비율이 승부와 관련되있음을 간파하고 데이터를 수집, 분석, 활용하였다. 이를 통해 빈은 좋은 선수를 발굴하고 이들을 적재적소에 배치해, 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저리그 최초로 20연승이라는 신기록을 세우도록 탈바꿈 시켰다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워렌 버핏, 앨런 그린스펀과 함께 빌리 빈을 선정[15]하는 등, 머니볼 이론은 경영, 금융 분야에서도 주목받았다. 최근 들어서 과학기술 및 카메라 기술의 발달로 더욱 정교한 데이터의 수집이 가능해졌으며, 투구의 궤적 및 투수의 그립, 타구 방향, 야수의 움직임까지 잡아낼 수 있게 되었다.[16] 이처럼 기존의 정형 데이터뿐만 아닌 비정형 데이터의 수집과 분석, 활용을 통해 최근 야구경기에서 빅 데이터의 중요성은 더욱 커지고 있다.
과학기술 및 활용 [편집]
통계학 [편집]
데이터 마이닝이란 기존 데이터베이스 관리도구의 데이터 수집·저장·관리·분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술로 수집되는 ‘빅 데이터’를 보완, 마케팅, 시청률조사, 경영 등으로부터 체계화돼 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다. [17][18]
대한민국에서는 2000년부터 정보통신부의 산하단체로 사단법인 한국BI데이터마이닝학회가 설립되어 데이터 마이닝에 관한 학술과 기술을 발전, 보급, 응용하고 있다. 또한 국내ㆍ외 통계분야에서 서서히 빅 데이터 활용에 대한 관심과 필요성이 커지고 있는 가운데 국가통계 업무를 계획하고 방대한 통계자료를 처리하는 국가기관인 통계청이 빅 데이터를 연구하고 활용방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였다. [19] 하지만 업계에 따르면, 미국과 영국, 일본 등 선진국들은 이미 빅 데이터를 다각적으로 분석해 조직의 전략방향을 제시하는 데이터과학자 양성에 사활을 걸고 있다. 그러나 한국은 정부와 일부 기업이 데이터과학자 양성을 위한 프로그램을 진행중에 있어 아직 걸음마 단계인 것으로 알려져 있다.[20]
생물정보학 [편집]
최근 생물학에서 DNA·RNA·단백질 서열 및 유전자들의 발현과 조절에 대한 데이터의 양이 급격히 증가했고, 이에 따라 이 빅 데이터를 활용한 생명의 이해에 관한 논의가 진행되고 있다.
의료 [편집]
빅 데이터를 활용하면 미국 의료부문은 연간 3,300 억 달러(미 정부 의료 예산의 약 8%에 해당하는 규모)의 직·간접적인 비용 절감 효과를 보일 것으로 전망된다.[21] 특히 임상분야에서는 의료기관 별 진료방법·효능·비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고, 환자 데이터의 온라인 플랫폼화하여 의료협회 간 데이터 공유로 치료 효과를 제고하며, 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다.[22]
기업 경영 [편집]
대규모의 다양한 데이터를 활용한 '빅데이터 경영'이 주목받으면서 데이터 품질을 높이고 방대한 데이터의 처리를 돕는 데이터 통합(Data Integration)의 중요성이 부각되고 있다.
데이터 통합(DI)은 데이터의 추출·변환·적재를 위한 ETL 솔루션이 핵심인데, ETL 솔루션을 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있는 단계까지 진입되었다.
한편 비즈니스 인텔리전스(Business Intelligence, BI)보다 진일보한 빅데이터 분석 방법이 비즈니스 애널리틱스(Business analytics , BA)인데 고급분석 범주에 있는 BA는 기본적으로 BI를 포함하면서도 미래 예측 기능과 통계분석, 확률 분석 등을 포함해 최적의 데이터 기반 의사결정을 가능케 하는 것으로 평가받고 있기도 하다. [23]
마케팅 [편집]
인터넷으로 시작해서 인터넷으로 마감하는 생활, 스마트폰을 이용해 정보를 검색하고, 쇼핑도하고, SNS를 이용해서 실시간으로 글을 남기는 등의 다양하게 인터넷을 이용하는 동안 남는 흔적같은 모인 데이터들을 분석하면 개인의 생활 패턴, 소비성향 등을 예측할 수 있고 기업들은 이런 데이터를 통해서 소비자가 원하는 것들을 미리 예측할 수 있다. 빅 데이터가 마케팅 자료로 활용되는 사례이다. [23]
기상정보 [편집]
한반도 전역의 기상관측정보를 활용해 일기예보와 각종 기상특보 등 국가 기상서비스를 제공하고 있는 기상청은, 정밀한 기상예측을 위한 분석 과정에서 발생하는 데이터 폭증에 대응하고자 빅데이터 저장시스템의 도입을 추진하였다.
대다수 스토리지 기업들의 솔루션을 검토한 끝에 한국 IBM의 고성능 대용량 파일공유시스템(General Parallel File System, 이하 GPFS)을 적용한 스토리지 시스템을 선택하였다고 밝혔다.
한국IBM이 기상청에 제공한 GPFS 기반의 빅데이터 저장시스템은 IBM 시스템 스토리지 제품군, 시스템 x서버 제품군과 고속 네트워킹 랙스위치(RackSwitch) 등이 통합돼 있는 시스템이다. [23]
보안관리 [편집]
보안관리는 빅데이터 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로 분리한다. 클라우드·모바일 환경으로 접어들면서 물리·가상화 IT 시스템의 복잡성이 더욱 높아지고 있어 유무선 네트워크, 프라이빗·퍼블릭 클라우드, 모바일 애플리케이션과 기기관리 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 막대한 양의 보안관리가 중요한 요소로 현실화되고 있다. [24]
구글 번역 [편집]
자동 번역 프로그램인 구글 번역에서 또한 빅 데이터가 활용된다. 지난 40년 간 컴퓨터 회사 IBM의 자동 번역 프로그램 개발은, 컴퓨터가 명사·형용사·동사 등 단어와 어문의 문법적 구조를 인식하여 번역하는 방식으로 이뤄졌다. 이와 달리 2006년 구글은 수억 건의 문장과 번역문을 데이터베이스화하여, 번역시 유사한 문장과 어구를 데이터베이스에서 추론해나가는 통계적 기법을 개발하였다. 캐나다 의회의 '수백만 건'의 문서를 활용하여 영어-불어 자동번역 시스템개발을 시도한 IBM의 자동 번역 프로그램은 실패한 반면, 구글은 '수억 건'의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였다. 즉 엄청난 양의 빅 데이터 차이가 두 기업의 자동 번역 프로그램의 번역의 질과 정확도, 그리고 프로젝트의 성패를 좌우한 것이다.[23]
같이 보기 [편집]
- 하둡(Hadoop)
참고 문헌 [편집]
- ↑ 가 나 James Manyika & Michael Chui, << Big data: The next frontier for innovation, competition, and productivity >>, McKinsey Global Institute, (2011년 05월), Pg.1.[1]
- ↑ 가 나 John Gantz & David Reinsel, << Extracting Value from Chaos >>, IDC IVIEW June, (2011년), p.6.[2]
- ↑ Global Agenda Council on Emerging Technologies, << The top 10 emerging technologies for 2012 >>, World Economic Forum, Feb 15th 2012.
- ↑ "융합․스마트시대 IT산업 주도를 위한 잰걸음", <<지식경제부 보도자료>>, (2012년 4월 5일), 2쪽, 24쪽.
- ↑ Philip Russom(2011), << Big Data Analytics >>, TDWI Research Fourth Quarter, p.6.
- ↑ 정병권 외 2명, <<미래사회와 빅 데이터(Big data) 기술>>, IT기획시리즈, 정보통신산업진흥원, (2012년), 13쪽 ~ 14쪽
- ↑ Ibid., 20쪽 ~ 21쪽.
- ↑ 가 나 다 조성우, << Big Data 시대의 기술 >>, KT종합기술원, (2011년 10월 05일), 5쪽 ~ 7쪽.
- ↑ "선관위, 인터넷 선거운동 상시 허용 결정(종합2보)", <<연합뉴스>>, (2012년 01월 13일)
http://www.yonhapnews.co.kr/politics/2012/01/13/0502000000AKR20120113116600001.HTML - ↑ "새누리 `SNS 역량지수' 주중 공천위 전달", <<연합뉴스>>, 2012.02.21.
http://www.yonhapnews.co.kr/bulletin/2012/02/21/0200000000AKR20120221198700001.HTML?sns - ↑ "소셜 여론의 총선 예측 실패는 이용자 수도권 집중 때문", <<경향신문>>, (2012년 04월 24일).
http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201204242003055&code=210100 - ↑ 장영재,'아마존닷컴, 현대의 서점 아저씨', <<경영학 콘서트>>, 비즈니스북스, (2012년), 119쪽.
- ↑ <<글로벌 전자책시장 실태와 관련 산업 동향(급성장하는 MID 단말 시장)>>, 데이코산업연구소, (2010년), 118쪽.
- ↑ '머니볼(Moneyball) 이론', "에듀윌 정보통신/오늘의 일반상식", 평생교육 No.1 에듀윌, (2012년 01월 11일). http://blog.eduwill.net/1079#comment_area
- ↑ <<Those Who Influence The Markets Most>>, The Wall Street Journal, (November 10, 2003). [3]
- ↑ '데이터 야구', 위키백과. http://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%95%BC%EA%B5%AC
- ↑ (한국어)통계청 안내 참조
- ↑ (한국어)사회조사분석사 안내 참조
- ↑ 강동식 기자, “통계청 `빅 데이터 연구회` 발족, 통계정보국 직원 중심 자체 결성… 동향 분석ㆍ활용방안 모색”, 《디지털타임스》, 2012년 11월 8일 작성. 2013년 3월 20일 확인.
- ↑ 이완재 기자, ““빅테이터가 기업미래 좌우””, 《CNB저널》, 2013년 2월 12일 작성. 2013년 3월 20일 확인.
- ↑ James Manyika & Michael Chui, op.cit., p.36
- ↑ 이성춘,임양수, << Big Data, 미래를 여는 열쇠 >>, KT경제경영연구소, (2011년), 12쪽.
- ↑ 가 나 다 라 연합뉴스 기획취재팀, “빅데이터 사회”, 《연합뉴스(월간마이더스)》, 2013년 3월 11일 작성. 2013년 3월 20일 확인.
- ↑ 김선애 기자, “빅데이터·보안관리, 밀접하게 연계되며 기술 발전 견인”, 《데이터넷》, 2013년 3월 11일 작성. 2013년 3월 20일 확인.