데이터 레이크

데이터 레이크(data lake)는 일반적으로 개체 Blob 또는 파일과 같은 자연(natural)/원시(raw) 형식으로 저장된 데이터의 시스템 또는 저장소이다. 데이터 레이크는 일반적으로 소스 시스템 데이터, 센서 데이터, 소셜 데이터 등의 원시 복사본과 보고, 시각화, 고급 분석 및 기계 학습과 같은 작업에 사용되는 변환된 데이터를 포함하는 단일 데이터 저장소이다. 데이터 레이크에는 관계형 데이터베이스(행 및 열), 반정형 데이터(CSV, 로그, XML, JSON), 비정형 데이터(이메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)의 정형 데이터가 포함될 수 있다. 데이터 레이크는 "온프레미스"(조직의 데이터 센터 내) 또는 "클라우드"(아마존 (기업), 마이크로소프트, 오라클 클라우드 또는 구글과 같은 공급업체의 클라우드 서비스 사용)에 구축될 수 있다.

배경

당시 펜타호(Pentaho)의 최고 기술 책임자였던 제임스 딕슨은 원시 데이터에서 파생된 흥미로운 속성을 저장하는 소규모 저장소인 데이터 마트와 대조하기 위해 2011년에 이 용어를 만들었다. 데이터 레이크를 홍보하면서 그는 데이터 마트에는 정보 사일로화와 같은 몇 가지 고유한 문제가 있다고 주장했다. 프라이스워터하우스쿠퍼스(PwC)는 데이터 레이크가 "데이터 사일로를 종식시킬 수 있다"고 말했다. 데이터 레이크에 대한 연구에서 그들은 기업이 "분석을 위한 데이터를 추출하여 단일 하둡 기반 저장소에 배치하기 시작했다"고 언급했다.

예

많은 기업에서는 구글 클라우드 스토리지 및 아마존 S3와 같은 클라우드 스토리지 서비스나 아파치 하둡 분산 파일 시스템(HDFS)과 같은 분산 파일 시스템을 사용한다. 데이터 레이크 개념에 대한 학문적 관심이 점차 높아지고 있다. 예를 들어 카디프 대학의 퍼스널 데이터레이크(Personal DataLake)는 개인 데이터를 수집, 정리, 공유하는 단일 지점을 제공하여 개별 사용자의 빅 데이터를 관리하는 것을 목표로 하는 새로운 유형의 데이터 레이크이다.

이전 데이터 레이크(Hadoop 1.0)는 배치 중심 처리(맵리듀스) 기능이 제한되어 있었고 이와 관련된 유일한 처리 패러다임이었다. 데이터 레이크와 상호 작용하려면 지도 축소 및 아파치 피그, 아파치 스파크 및 아파치 하이브(원래는 배치 지향적임)와 같은 상위 수준 도구를 사용하여 자바에 대한 전문 지식이 있어야 했다.