데이터 전처리

위키백과, 우리 모두의 백과사전.

데이터 전처리(Data preprocessing)는 데이터를 분석하기 전에 데이터를 조작, 필터링 또는 확대하는 것을 의미할 수 있으며[1] 데이터 마이닝 프로세스에서 중요한 단계인 경우가 많다. 데이터 수집 방법은 느슨하게 제어되는 경우가 많으며, 이로 인해 범위를 벗어난 값, 불가능한 데이터 조합, 값 누락 등의 문제가 발생한다.

사용되는 전처리 파이프라인은 다운스트림 분석에서 도출된 결론에 큰 영향을 미칠 수 있는 경우가 많다. 따라서 분석을 실행하기 전에 데이터의 표현과 품질이 필요하다.[2] 데이터 전처리는 기계 학습 프로젝트, 특히 계산생물학에서 가장 중요한 단계인 경우가 많다.[3] 관련성이 없고 중복된 정보가 존재하거나 시끄럽고 신뢰할 수 없는 데이터의 비율이 높으면 훈련 단계에서 지식 발견이 더 어려울 수 있다. 데이터 준비 및 필터링 단계에는 상당한 처리 시간이 걸릴 수 있다. 데이터 전처리에 사용되는 방법의 예로는 정제, 인스턴스 선택, 정규화, 원-핫 인코딩, 데이터 변환, 특징 추출특징 선택이 있다.

각주[편집]

  1. “Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data”. 《Tableau》 (미국 영어). 2021년 10월 17일에 확인함. 
  2. Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  3. Chicco D (December 2017). “Ten quick tips for machine learning in computational biology”. 《BioData Mining》 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465. 

외부 링크[편집]