[데이터 분석] 데이터 정제

데이터 정제

데이터 정제의 정의

데이터 정제는 데이터 셋 내에서 부정확한/손상된/형식이 잘못된/중복된/불완전한 데이터를 수정하거나 제거하는 과정이다.

데이터 정제 과정

  1. 중복되거나 관련성이 없는 관측값 제거하기
  2. 구조적 오류 수정하기
    • 잘못된 명명 규칙, 오타, 대문자화 수정
    • 잘못 지정된 범주 수정
    • 예: “N/A”와 “Not Applicable”는 동일한 의미를 갖기 때문에 동일한 범주로 분석해야한다.
  3. 원치않는 이상치 걸러내기
    • 이상치가 분석과 관련이 없거나 실수인 경우 제거하는 것이 좋다.
  4. 누락된 데이터 처리하기
    • 값이 누락된 관측값을 제거한다. 이는 데이터가 손실될 수 있다.
    • 다른 관측값을 기반으로 누락된 값을 입력한다. 이는 데이터의 무결성을 잃을 수 있다.
    • null 값을 효과적으로 탐색하기 위해 데이터가 이용되는 방법을 변경할 수 있다.
  5. 유효성 검증
    • 데이터 정제 프로세스가 끝난 이후 유효성 검증을 위해 다음 질문들의 답할 수 있는지를 확인한다.
    1. 데이터가 의미 있는가?
    2. 데이터가 해당 영역에 적합한 규칙을 따르는가?
    3. 작업 이론을 증명, 반증 또는 어떠한 인사이트를 가져올 수 있는가?
    4. 다음 이론을 형성할 수 있는 데이터 추세를 찾을 수 있는가?
    5. 그렇지 않다면 데이터 품질 문제 때문인가? - 잘못된 결론은 부정확한 또는 “불량” 데이터는 잘못된 비즈니스 전략과 의사 결정을 만들 수 있다.

데이터 품질 결정 요소

  1. 유효성 Validity : 데이터가 정의된 비즈니스 규칙 또는 제약 조건을 준수하는 정도
  2. 정확성 Accuracy : 데이터가 실제 값에 근접하는지 여부 확인
  3. 완전성 Completeness : 필요한 모든 데이터가 알려진 정도
  4. 일관성 Consistency : 동일한 데이터셋 내에 존재하는 데이터들은 일관적인지 여부 확인
  5. 통일성 Uniformity : 동일한 단위를 사용하는 데이터의 정도

데이터 정제의 이점

  • 여러 데이터 소스를 사용할 때 중복을 제거한다.
  • 오류 발생빈도를 줄인다.
  • 다양한 함수와 데이터를 매핑할 수 있다.
  • 오류를 모니터링하고 오류가 발생한 위치를 확인하여 향후 응용 프로그램에서 부정확하거나 손상된 데이터를 쉽게 수정할 수 있다.
  • 데이터 정제 도구를 사용하여 효율적인 비즈니스 관행과 빠른 의사 결정을 만들 수 있다.

참고

Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data

You might also enjoy