🤔 이상치(Outlier)란 무엇인가?
이상치는 나머지 데이터와 현저하게 다른 값을 가지는 데이터 포인트를 의미한다. 이상치는 데이터 분석, 통계 모델링, 머신러닝 등 다양한 분야에서 중요한 개념으로, 데이터 세트의 전반적인 패턴에서 벗어나는 드문 경우나 측정 오류로 인해 발생할 수 있다.
📌 이상치의 주요 특징
- 극단적인 값: 이상치는 데이터 세트 내에서 극단적인 최대값 또는 최소값으로 나타날 수 있다.
- 데이터의 왜곡: 이상치는 평균, 중앙값, 표준편차와 같은 통계적 측정치를 왜곡시킬 수 있어, 데이터 분석 결과를 오도할 수 있다.
- 원인 다양성: 이상치는 다양한 원인에 의해 발생할 수 있으며, 이에는 측정 오류, 실험 오류, 데이터 처리 과정에서의 실수, 실제 변동성 등이 포함된다.
- 중요성: 이상치는 때로는 중요한 정보를 담고 있을 수 있으며, 예를 들어 부정 행위 감지, 결함 제품 감지, 금융에서의 급격한 시장 변동 등을 탐지하는 데 유용할 수 있다.
✍️ 이상치 탐지 방법
이상치를 탐지하는 방법에는 여러 가지가 있으며, 그 중 일부는 다음과 같다:
- 통계적 방법: 평균과 표준편차, IQR(Interquartile Range)을 사용한 방법 등이 있다.
- 시각화: 박스 플롯(Box Plot), 산점도(Scatter Plot) 등을 사용하여 데이터를 시각적으로 검사할 수 있다.
- 머신러닝 기반 방법: 클러스터링(예: k-means), 이상치 탐지 알고리즘(예: Isolation Forest, DBSCAN)을 사용할 수 있다.
이상치를 다룰 때는 데이터의 특성과 분석의 목적을 고려해야 하며, 이상치가 실제로 오류인지, 아니면 중요한 정보를 포함하고 있는지를 판단하는 과정이 필요하다.
1. 통계적 이상치 판단 방법
통계적 이상치 판단 방법은 데이터의 분포를 기반으로 이상치를 식별한다. 대표적인 방법으로는 Z-점수(Z-Score) 방법과 IQR(Interquartile Range) 방법이 있다.
- Z-점수(Z-Score): 데이터 포인트의 값이 데이터 세트의 평균으로부터 얼마나 멀리 떨어져 있는지를 측정한다. Z-점수가 높은 데이터 포인트(예: 절대값이 3 이상)는 이상치로 간주될 수 있다.
- IQR(Interquartile Range) 방법: IQR은 제3사분위수(Q3)와 제1사분위수(Q1)의 차이다. Q1 - 1.5 * IQR보다 작거나 Q3 + 1.5 * IQR보다 큰 데이터 포인트는 이상치로 간주된다.