빅 데이터

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

빅 데이터(영어: big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합[1] 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술[2]을 의미한다.

위키백과의 편집 현황의 시각화 자료(IBM 작성). 수 테라바이트의 용량을 지닌 위키백과의 텍스트 및 이미지 자료는 빅 데이터의 고전적 사례에 속한다.
전세계 저장 매체 용량의 증가 및 디지털화.(출처: 워싱턴 포스트)

다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다.

이같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.

하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면에 자리하고 있다. 빅데이터는 수많은 개인들의 수많은 정보의 집합이다. 그렇기에 빅데이터를 수집,분석할 때에 개인들의 사적인 정보까지 수집하여 관리하는 빅브라더의 모습이 될 수도 있는 것이다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람들의 정보가 유출되는 것이기에 큰 문제가 될 수 있다.

세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정[3]했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정[4]하는 등 최근 세계는 빅 데이터를 주목하고 있다.

정의[편집]

빅 데이터는 통상적으로 사용되는 데이터 수집 및 관리, 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다.[5] 빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다.

메타그룹(현재 가트너)의 애널리스트 더그 레이니(Doug Laney)는 2001년 그의 연구 보고서[6]와 관련 강의에서 데이터의 급성장에 따른 이슈와 기회를 데이터의 양(volume), 데이터 입출력의 속도(velocity), 데이터 종류의 다양성(variety)이라는 세 개의 차원으로 정의하였다. 이 “3V” 모델은 이후 가장 널리 사용되는 빅 데이터의 정의가 되었다.[7] 2012년 가트너는 기존의 정의를 다음과 같이 개정하였다: “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.”[8] 이에 더해, IBM은 진실성(Veracity)이라는 요소를 더해 4V를 정의하였고,[9] 브라이언 홉킨스(Brian Hopkins) 등은 가변성(Variability)을 추가하여 4V를 정의하였다.[10]

가트너의 3V 정의가 여전히 널리 사용되고 있는 가운데, 데이터와 그것의 사용 방법에 있어서 빅 데이터와 경영정보학의 차이가 점차 더 뚜렷하게 구분되고 있다.

  • 경영정보학은 대상을 측정하고 경향을 예측하는 등의 일을 하기 위해 고밀도의 데이터로 구성된 기술적 통계를 활용한다.
  • 빅 데이터는 큰 데이터 집합으로부터 일정한 법칙을 추론하여 결과 및 행동을 예측하기 위해 통계적 추론과 비선형 시스템 식별(nonlinear system identification)[11]의 일부 개념을 활용한다.[11][12]

분석 기법[편집]

상기 특징을 가진 빅 데이터의 분석, 활용을 위한 빅 데이터 처리 기법은 크게 분석 기술, 표현 기술로 나뉜다.

분석 기술[편집]

대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다.[13] 특히 최근 소셜 미디어등 비정형 데이터의 증가로 인해 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목을 받고 있다.[14]

  • 텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공
  • 오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
  • 소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
  • 군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴

대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인 분석 인프라로 하둡이 있으며 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다.[14]

표현 기술[편집]

빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로 대표적인 것으로는 R (프로그래밍 언어)이 있다.[14]

활용사례 및 의의[편집]

정치 및 사회[편집]

2008년 미국 대통령 선거[편집]

2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략'을 전개했다. 당시 오바마 캠프는 인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어서서 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화나 개별 방문을 또는 소셜 미디어를 통해 유권자 정보를 수집하였다. 수집된 데이터는 오바마 캠프 본부로 전송되어 유권자 데이터베이스를 온라인으로 통합관리하는 ‘보트빌더(VoteBuilder.com)’시스템의 도움으로 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대한 예측을 해나갔다. 이를 바탕으로‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다.

대한민국 제19대 총선[편집]

중앙선거관리위원회는 대한민국 제19대 총선부터 소셜 네트워크 등 인터넷 상의 선거 운동을 상시 허용하였다.[15] 이에 소셜 미디어 상에서 선거 관련 데이터는 증폭되었으며, 2010년 대한민국 제5회 지방 선거2011년 대한민국 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들 또한 SNS 역량 지수를 공천 심사에 반영하는 등[16] 소셜 네트워크 활용에 주목했다. 이 가운데 여론 조사 기관들은 기존 여론조사 방식으로 예측한 2010년 제5회 지방 선거 및 2011년 재보궐선거의 여론조사 결과와 실제 투표 결과와의 큰 차이를 보완하고자 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했다. 그러나 SNS 이용자의 대다수가 수도권 20~30대에 쏠려 있기에[17], 빅 데이터를 이용한 대한민국 제19대 총선에 대한 SNS 분석은 수도권으로 한정되어 일치하는 한계를 드러내기도 했다.

경제 및 경영[편집]

아마존닷컴의 추천 상품 표시 / 구글페이스북의 맞춤형 광고[편집]

아마존닷컴은 모든 고객들의 구매 내역을 데이터베이스에 기록하고, 이 기록을 분석해 소비자의 소비 취향과 관심사를 파악한다.[18] 이런 빅 데이터의 활용을 통해 아마존은 고객별로 '추천 상품(레코멘데이션)'을 표시한다. 고객 한사람 한사람의 취미나 독서 경향을 찾아 그와 일치한다고 생각되는 상품을 메일, 홈 페이지상에서 중점적으로 고객 한사람 한사람에게 자동적으로 제시하는 것이다.[19] 아마존닷컴의 추천 상품 표시와 같은 방식으로 구글페이스북도 이용자의 검색 조건, 나아가 사진과 동영상 같은 비정형 데이터 사용을 즉각 처리하여 이용자에게 맞춤형 광고를 제공하는 등 빅 데이터의 활용을 증대시키고 있다.

문화[편집]

MLB (메이저 리그 베이스볼)머니볼 이론 및 데이터 야구[편집]

머니볼 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다. [20] 이는 미국 메이저 리그 베이스볼 오클랜드 어슬레틱스의 구단장 빌리 빈이 리그 전체 25위에 해당하는 낮은 구단 지원금 속에서도 최소비용으로 최대효과를 거둔 상황에서 유래되었다. 빌리 빈은 하버드대에서 경제학을 전공한 폴 데포데스터를 영입하여 타율, 타점, 홈런 등 흥행 요소만을 중시하던 야구계에서 출루율, 장타율, 사사구 비율이 승부와 관련되있음을 간파하고 데이터를 수집, 분석, 활용하였다. 이를 통해 빈은 좋은 선수를 발굴하고 이들을 적재적소에 배치해 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저리그 최초로 20연승이라는 신기록을 세우도록 탈바꿈 시켰다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워렌 버핏, 앨런 그린스펀과 함께 빌리 빈을 선정[21]하는 등 머니볼 이론은 경영, 금융 분야에서도 주목받았다. 최근 들어서 과학기술 및 카메라 기술의 발달로 더욱 정교한 데이터의 수집이 가능해졌으며 투구의 궤적 및 투수의 그립, 타구 방향, 야수의 움직임까지 잡아낼 수 있게 되었다.[출처 필요] 이처럼 기존의 정형 데이터뿐만 아닌 비정형 데이터의 수집과 분석, 활용을 통해 최근 야구경기에서 빅 데이터의 중요성은 더욱 커지고 있다.

'프로파일링'과 '빅데이터' 기법을 활용한 프로그램 MBC <프로파일링>[22][편집]

방송에는 19세 소년의 살인 심리를 파헤친 '용인살인사건의 재구성', 강남 3구 초등학교 85곳의 학업성취도평가 성적과 주변 아파트 매매가의 상관관계를 빅데이터(디지털 환경에서 발생한 방대한 규모의 데이터)를 통해 분석한 '강남, 부자일수록 공부를 잘할까'

과학기술 및 활용[편집]

통계학[편집]

데이터 마이닝이란 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술로 수집되는 ‘빅 데이터’를 보완하고 마케팅, 시청률조사, 경영 등으로부터 체계화돼 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다. [23][24]

대한민국에서는 2000년부터 정보통신부의 산하단체로 사단법인 한국BI데이터마이닝학회가 설립되어 데이터 마이닝에 관한 학술과 기술을 발전, 보급, 응용하고 있다. ‎또한 국내ㆍ외 통계분야에서 서서히 빅 데이터 활용에 대한 관심과 필요성이 커지고 있는 가운데 국가통계 업무를 계획하고 방대한 통계자료를 처리하는 국가기관인 통계청이 빅 데이터를 연구하고 활용방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였다. [25] 하지만 업계에 따르면, 미국영국, 일본 등 선진국들은 이미 빅 데이터를 다각적으로 분석해 조직의 전략방향을 제시하는 데이터과학자 양성에 사활을 걸고 있다. 그러나 한국은 정부와 일부 기업이 데이터과학자 양성을 위한 프로그램을 진행 중에 있어 아직 걸음마 단계인 것으로 알려져 있다.[26]

생물정보학[편집]

최근 생물학에서 DNA, RNA, 단백질 서열 및 유전자들의 발현과 조절에 대한 데이터의 양이 급격히 증가했고 이에 따라 이 빅 데이터를 활용한 생명의 이해에 관한 논의가 진행되고 있다.

의료[편집]

빅 데이터를 활용하면 미국 의료부문은 연간 3,300 억 달러(미 정부 의료 예산의 약 8%에 해당하는 규모)의 직간접적인 비용 절감 효과를 보일 것으로 전망된다.[27] 특히 임상분야에서는 의료기관 별 진료방법, 효능, 비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고 환자 데이터의 온라인 플랫폼화하여 의료협회 간 데이터 공유로 치료 효과를 제고하며 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다.[28]


"창조경제 핵심 빅 데이터와 의료정보" 최청희 변호사(법무법인 세승) [29]

최근 누구나 할 것 없이 ICT(정보통신기술)를 외친다. 다름 아닌 창조경제의 핵심이라는 것이다. 이러한 ICT의 중심에는 빅 데이터가 있다. ICT 주도권이 데이터로 이동하면서 빅 데이터가 미래 경쟁력과 가치창출의 원천이라는 점에서 그 경제적 가치에 주목하고 있기 때문이다. 의료는 어떠한가. 빅 데이터 열풍은 의료라 하여 예외는 아니다. 미국 국립암연구소는 암 환자에 대한 빅 데이터를 분석해 암 발생의 원인을 밝혔다고 한다. 또한 환자의 상태와 가족력 등을 분석하여 이를 고려한 식단, 운동, 치료가 가능한 이른바 맞춤형 의료가 가능할 것이라고 한다. 빅 데이터와 같은 ICT가 의료 분야에 응용되면서 의료의 패러다임이 바뀌고 있다는 것이다. 그 동안 의료는 병에 걸리면 치료를 한다는 ‘치료’의 개념이 강했다.

하지만 빅 데이터에 의하면 질병의 원천적 차단이라는 ‘예방’ 의료가 가능하다. 이를 두고 혹자는 ‘의료 혁명시대의 도래’로 평가하기도 한다. 이처럼 의료 분야에서도 빅 데이터의 위력은 막강하다. 하지만 이러한 빅 데이터를 마냥 기뻐만 할 수 있는가. 빅 데이터의 위력은 논리필연적으로 많은 량의 데이터 수집을 전제로 한다. 그런데 의료정보는 개인정보 중에서도 민감정보에 해당한다. 환자의 진료기록 등이 포함되어 있기 때문이다.

따라서 의료정보를 수집하거나 활용하기 위해서는 개인정보보호법상 원칙적으로 환자 개개인의 사전 동의가 필요하다. 하지만 우리의 현실은 어떠한가. 의료정보의 보호에 대한 인식 및 그 관리가 부족하기만 하다. 최근 모 대학병원의 서버가 해킹되면서 환자의 진료기록 등 의료정보가 대량 유출된 사고가 이를 말해 준다. 빅 데이터도 마찬가지다. 빅 데이터의 유용성에만 주목한 나머지 자칫 무분별한 의료정보의 수집 및 활용이라는 의료정보의 침해 문제가 발생할 수 있다.

향후 빅 데이터의 활용은 무궁무진할 것이라는 평가가 지배적이다. 반면 의료정보의 보호도 헌법상 보장된 사생활 침해의 금지라는 측면에서 결코 물러설 수 없다. 아니 더욱 더 보호되어야 할 것이다. 환자의 진료기록 등 민감정보가 포함되어 있어 다른 정보에 비해 그 위험성이 크기 때문이다. 이를 반영하듯 정부의 정책도 의료정보의 보호를 강화하는 추세이다.결국, 정부는 빅 데이터의 육성, 의료정보의 보호라는 두 마리 토끼를 잡아야 만 할 것이다. 그렇다면, 모순되어 보이는 위 두 관계의 접점을 찾기 위한 가이드라인의 마련이 시급할 것으로 생각된다.

기업 경영[편집]

대규모의 다양한 데이터를 활용한 '빅데이터 경영'이 주목받으면서 데이터 품질을 높이고 방대한 데이터의 처리를 돕는 데이터 통합(Data Integration)의 중요성이 부각되고 있다.

데이터 통합(DI)은 데이터의 추출, 변환, 적재를 위한 ETL 솔루션이 핵심인데 ETL 솔루션을 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있는 단계까지 진입되었다.

한편 비즈니스 인텔리전스(Business Intelligence, BI)보다 진일보한 빅데이터 분석 방법이 비즈니스 애널리틱스(Business analytics, BA)인데 고급분석 범주에 있는 BA는 기본적으로 BI를 포함하면서도 미래 예측 기능과 통계분석, 확률 분석 등을 포함해 최적의 데이터 기반 의사결정을 가능케 하는 것으로 평가받고 있기도 하다. [30]

마케팅[편집]

인터넷으로 시작해서 인터넷으로 마감하는 생활, 스마트폰을 이용해 정보를 검색하고 쇼핑도하고 SNS를 이용해서 실시간으로 글을 남기는 등의 다양하게 인터넷을 이용하는 동안 남는 흔적같은 모인 데이터들을 분석하면 개인의 생활 패턴, 소비성향 등을 예측할 수 있고 기업들은 이런 데이터를 통해서 소비자가 원하는 것들을 미리 예측할 수 있다. 빅 데이터가 마케팅 자료로 활용되는 사례이다. [30]

기상정보[편집]

한반도 전역의 기상관측정보를 활용해 일기예보와 각종 기상특보 등 국가 기상서비스를 제공하고 있는 기상청은 정밀한 기상예측을 위한 분석 과정에서 발생하는 데이터 폭증에 대응하고자 빅데이터 저장시스템의 도입을 추진하였다.

대다수 스토리지 기업들의 솔루션을 검토한 끝에 한국 IBM의 고성능 대용량 파일공유시스템(General Parallel File System, 이하 GPFS)을 적용한 스토리지 시스템을 선택하였다고 밝혔다.

한국IBM이 기상청에 제공한 GPFS 기반의 빅데이터 저장시스템은 IBM 시스템 스토리지 제품군, 시스템 x서버 제품군과 고속 네트워킹 랙스위치(RackSwitch) 등이 통합돼 있는 시스템이다. [30]

보안관리[편집]

보안관리는 빅데이터 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로 분리한다. 클라우드 및 모바일 환경으로 접어들면서 물리/가상화 IT 시스템의 복잡성이 더욱 높아지고 있어 유무선 네트워크, 프라이빗/퍼블릭 클라우드, 모바일 애플리케이션과 기기관리 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 막대한 양의 보안관리가 중요한 요소로 현실화되고 있다. [31]

구글 번역[편집]

구글에서 제공하는 자동 번역 서비스인 구글 번역은 빅 데이터를 활용한다. 지난 40년 간 컴퓨터 회사 IBM의 자동 번역 프로그램 개발은 컴퓨터가 명사, 형용사, 동사 등 단어와 어문의 문법적 구조를 인식하여 번역하는 방식으로 이뤄졌다. 이와 달리 2006년 구글은 수억 건의 문장과 번역문을 데이터베이스화하여 번역시 유사한 문장과 어구를 기존에 축적된 데이터를 바탕으로 추론해 나가는 통계적 기법을 개발하였다. 캐나다 의회의 수백만 건의 문서를 활용하여 영어-불어 자동번역 시스템개발을 시도한 IBM의 자동 번역 프로그램은 실패한 반면 구글은 수억 건의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였다. 이러한 사례로 미루어 볼 때, 데이터 양의 측면에서의 엄청난 차이가 두 기업의 자동 번역 프로그램의 번역의 질과 정확도를 결정했으며, 나아가 프로젝트의 성패를 좌우했다고 볼 수 있다.[30]

비판[편집]

2012년 미국 대통령 선거에서 오바마 캠프 CTO였던 하퍼 리드(Harper Reed)는 빅 데이터란 단어가 엉뚱하게 남용되고 있으며, 그로 인해 빅 데이터란 말을 쓰기에 적합한 양이나 성격도 가지지 않은 데이터를 가진 사람들이 투자를 꺼리는 등 많은 오해가 생기고 있다고 비판했다. 실제로 국내외 IT 업계에선 CRM, 소셜분석, 통계분석, 검색기술 등이 빅 데이터란 단어로 포장되어 혼란을 주고 있다.[32]

같이 보기[편집]

참고 문헌[편집]

  1. James Manyika & Michael Chui, << Big data: The next frontier for innovation, competition, and productivity >>, McKinsey Global Institute, (2011년 05월), Pg.1.[1]
  2. John Gantz & David Reinsel, << Extracting Value from Chaos >>, IDC IVIEW June, (2011년), p.6.[2]
  3. Global Agenda Council on Emerging Technologies, << The top 10 emerging technologies for 2012 >>, World Economic Forum, Feb 15th 2012.
  4. "융합스마트시대 IT산업 주도를 위한 잰걸음", <<지식경제부 보도자료>>, (2012년 4월 5일), 2쪽, 24쪽.
  5. (영어) Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  6. (영어) Laney, Douglas. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. 2001년 2월 6일에 확인.
  7. (영어) Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. 2011년 7월 10일에 보존된 문서. 2011년 7월 13일에 확인.
  8. Laney, Douglas. The Importance of 'Big Data': A Definition. Gartner. 21 June 2012에 확인.
  9. (영어) What is Big Data?. Villanova University.
  10. Brian Hopkins; Boris Evelson (2011). Expand Your Digital Horizon With Big Data. Forrester Research Inc. 2013년 12월 17일에 확인.
  11. (영어) Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  12. (영어) Delort P., Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-com
  13. Ibid., 20쪽 ~ 21쪽.
  14. 조성우, << Big Data 시대의 기술 >>, KT종합기술원, (2011년 10월 05일), 5~7쪽.
  15. "선관위, 인터넷 선거운동 상시 허용 결정(종합2보)", <<연합뉴스>>, (2012년 01월 13일)
    http://www.yonhapnews.co.kr/politics/2012/01/13/0502000000AKR20120113116600001.HTML
  16. "새누리 `SNS 역량지수' 주중 공천위 전달", <<연합뉴스>>, 2012.02.21.
    http://www.yonhapnews.co.kr/bulletin/2012/02/21/0200000000AKR20120221198700001.HTML?sns
  17. "소셜 여론의 총선 예측 실패는 이용자 수도권 집중 때문", <<경향신문>>, (2012년 04월 24일).
    http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201204242003055&code=210100
  18. 장영재, '아마존닷컴, 현대의 서점 아저씨', <<경영학 콘서트>>, 비즈니스북스, (2012년), 119쪽.
  19. <<글로벌 전자책시장 실태와 관련 산업 동향(급성장하는 MID 단말 시장)>>, 데이코산업연구소, (2010년), 118쪽.
  20. '머니볼(Moneyball) 이론', "에듀윌 정보통신/오늘의 일반상식", 평생교육 No.1 에듀윌, (2012년 01월 11일). http://blog.eduwill.net/1079#comment_area
  21. <<Those Who Influence The Markets Most>>, The Wall Street Journal, (November 10, 2003). [3]
  22. http://star.ohmynews.com/NWS_Web/OhmyStar/at_pg.aspx?CNTN_CD=A0001916266
  23. (한국어)통계청 안내 참조
  24. (한국어)사회조사분석사 안내 참조
  25. 강동식 기자, "통계청 `빅 데이터 연구회` 발족, 통계정보국 직원 중심 자체 결성… 동향 분석ㆍ활용방안 모색", 《디지털타임스》, 2012년 11월 8일 작성. 2013년 3월 20일 확인.
  26. 이완재 기자, "“빅테이터가 기업미래 좌우”", 《CNB저널》, 2013년 2월 12일 작성. 2013년 3월 20일 확인.
  27. James Manyika & Michael Chui, op.cit., p.36
  28. 이성춘, 임양수, << Big Data, 미래를 여는 열쇠 >>, KT경제경영연구소, (2011년), 12쪽.
  29. http://www.dailymedi.com/news/view.html?no=771314&section=176
  30. 연합뉴스 기획취재팀, "빅데이터 사회", 《연합뉴스(월간마이더스)》, 2013년 3월 11일 작성. 2013년 3월 20일 확인.
  31. 김선애 기자, "빅데이터·보안관리, 밀접하게 연계되며 기술 발전 견인", 《데이터넷》, 2013년 3월 11일 작성. 2013년 3월 20일 확인.
  32. 오바마 대선캠프 CTO "빅데이터는 헛소리" ZDNet Korea, 2013년 5월 29일

바깥 고리[편집]