데이터 전처리

데이터 전처리(Data preprocessing)는 데이터를 분석하기 전에 데이터를 조작, 필터링 또는 확대하는 것을 의미할 수 있으며^[1] 데이터 마이닝 프로세스에서 중요한 단계인 경우가 많다. 데이터 수집 방법은 느슨하게 제어되는 경우가 많으며, 이로 인해 범위를 벗어난 값, 불가능한 데이터 조합, 값 누락 등의 문제가 발생한다.

사용되는 전처리 파이프라인은 다운스트림 분석에서 도출된 결론에 큰 영향을 미칠 수 있는 경우가 많다. 따라서 분석을 실행하기 전에 데이터의 표현과 품질이 필요하다.^[2] 데이터 전처리는 기계 학습 프로젝트, 특히 계산생물학에서 가장 중요한 단계인 경우가 많다.^[3] 관련성이 없고 중복된 정보가 존재하거나 시끄럽고 신뢰할 수 없는 데이터의 비율이 높으면 훈련 단계에서 지식 발견이 더 어려울 수 있다. 데이터 준비 및 필터링 단계에는 상당한 처리 시간이 걸릴 수 있다. 데이터 전처리에 사용되는 방법의 예로는 정제, 인스턴스 선택, 정규화, 원-핫 인코딩, 데이터 변환, 특징 추출 및 특징 선택이 있다.

각주[편집]

↑ “Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data”. 《Tableau》 (미국 영어). 2021년 10월 17일에 확인함.
↑ Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
↑ Chicco D (December 2017). “Ten quick tips for machine learning in computational biology”. 《BioData Mining》 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.

외부 링크[편집]

[1] “Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data”. 《Tableau》 (미국 영어). 2021년 10월 17일에 확인함.

[2] Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.

[3] Chicco D (December 2017). “Ten quick tips for machine learning in computational biology”. 《BioData Mining》 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.

[1]

[2]

[3]