🤔 결측치(Missing Value)란?
결측치는 데이터셋 내에 값이 없는, 즉 누락된 데이터를 의미한다. 이는 조사 대상이 응답을 거부하거나, 데이터 수집 과정에서 오류가 발생하거나, 데이터를 잃어버리는 등 다양한 이유로 발생할 수 있다. 결측치는 숫자 데이터셋에서는 보통 NaN
(Not a Number)이나 NULL
로 표시되며, 범주형 데이터셋에서는 빈 문자열이나 특정 표시('?'
, 'NA'
등)로 나타날 수 있다.
📌 결측치 처리가 중요한 이유
- 데이터의 정확성과 품질 향상: 결측치를 적절히 처리함으로써 데이터의 정확성을 보장하고, 분석의 품질을 향상시킬 수 있다. 결측치를 무시하고 분석을 진행할 경우, 잘못된 결론이나 오류가 발생할 수 있다.
- 모델 성능 개선: 대부분의 머신러닝 알고리즘은 결측치가 있는 데이터를 처리할 수 없다. 따라서, 결측치를 적절하게 처리하는 것은 모델의 성능을 최적화하는 데 중요하다. 결측치를 처리함으로써 보다 정확하고 신뢰할 수 있는 예측 모델을 구축할 수 있다.
- 데이터의 완전성 확보: 결측치 처리를 통해 데이터의 완전성을 확보하고, 분석 가능한 데이터의 양을 최대화할 수 있다. 이는 특히 데이터가 부족한 상황에서 중요한 의미를 갖는다.
- 의사 결정 지원: 결측치 처리를 통해 얻은 정확하고 완전한 데이터는 의사 결정 과정에서 더 나은 통찰력과 근거를 제공한다. 이는 비즈니스 전략 수립, 위험 관리, 고객 이해도 향상 등 다양한 영역에서 중요한 역할을 한다.
✍️ 결측치 처리 방법
결측치 처리 방법은 데이터의 특성, 결측치가 발생한 원인, 그리고 분석의 목적에 따라 달라질 수 있다. 몇 가지 대표적인 결측치 처리 방법을 알아보고, 각 알고리즘들의 특징들을 살펴보자.
1. 삭제(Listwise Deletion): 결측치가 있는 행이나 열을 데이터셋에서 제거
- 장점: 가장 간단하고 쉬운 방법이다.
- 단점: 많은 데이터를 잃을 수 있으며, 남은 데이터가 편향될 위험이 있다.
- 적합한 상황: 결측치가 매우 적은 경우, 또는 결측치가 완전히 무작위로 발생한 경우.
2. 평균/중앙값/최빈값 대체: 결측치를 해당 열의 평균값, 중앙값, 또는 최빈값으로 대체
- 장점: 데이터를 유지할 수 있으며, 구현이 쉽다.
- 단점: 데이터의 분산을 줄이고, 실제 분포를 왜곡할 수 있다.
- 적합한 상황: 결측치가 무작위로 발생하고, 결측치의 비율이 낮은 경우. 연속형 변수에서는 평균 또는 중앙값, 범주형 변수에서는 최빈값 대체가 적합하다.