데이터 랭글링

위키백과, 우리 모두의 백과사전.

데이터 랭글링(Data Wrangling) 혹은 데이터 먼징(Data Munging)이라고 불리는 이것은 원자료(raw data)를 보다 쉽게 접근하고 분석할 수 있도록 데이터를 정리하고 통합하는 과정이다.[1] 이를 통해서 반자동화 도구의 도움으로 데이터를 좀 더 편리하게 소비한다. 데이터 랭글링에는 먼징(munging), 데이터 시각화, 데이터 집합, 통계 모형 학습 뿐만 아니라 많은 다른 잠재적 용도도 포함된다.

일반적으로 데이터 먼징은 일반적인 단계를 따르는데 데이터 원천(Data Source)으로부터 원래 최초 형태로 자료를 추출하는 것으로 시작한다. 알고리듬(예로, 정렬)을 사용해서 원자료를 "먼징(munging"하거나 사전 정의된 자료구조로 데이터를 파싱(parsing)한다. 그리고 나서 마지막으로 저장이나 미래 사용을 위해서 작업 완료한 콘텐츠를 데이터 싱크(data sink)에 놓아둔다. 인터넷의 급격한 확산으로 이러한 기술이 가용한 데이터 양이 증가하고 있는 기관에서는 점점 중요해지고 있다.

데이터 랭글러(Data Wrangler)는 랭글링을 수행하는 사람이다.