데이터 랭글링

위키백과, 우리 모두의 백과사전.

데이터 랭글링(Data Wrangling) 혹은 데이터 먼징(Data Munging)은 원자료(raw data)를 또다른 형태로 수작업으로 전환하거나 매핑하는 과정이다. 이를 통해서 반자동화 도구의 도움으로 데이터를 좀더 편리하게 소비한다. 데이터 랭글링에는 먼징(munging), 데이터 시각화, 데이터 집합, 통계모형 학습 뿐만 아니라 많은 다른 잠재적 용도도 포함된다.

일반적으로 데이터 먼징은 일반적인 단계를 따르는데 데이터 원천(Data Source)으로부터 원래 최초 형태로 자료를 추출하는 것으로 시작한다. 알고리듬(예로, 정렬)을 사용해서 원자료를 "먼징(munging"하거나 사전 정의된 자료구조로 데이터를 파싱(parsing)한다. 그리고 나서 마지막으로 저장이나 미래 사용을 위해서 작업완료한 콘텐츠를 데이터 싱크(data sink)에 놓아둔다. 인터넷의 급격한 확산으로 이러한 기술이 가용한 데이터 양이 증가하고 있는 기관에서는 점점 중요해지고 있다.

데이터 랭글러(Data Wrangler)는 랭글링을 수행하는 사람이다.