🤔 이상치(Outlier)란 무엇인가?

이상치는 나머지 데이터와 현저하게 다른 값을 가지는 데이터 포인트를 의미한다. 이상치는 데이터 분석, 통계 모델링, 머신러닝 등 다양한 분야에서 중요한 개념으로, 데이터 세트의 전반적인 패턴에서 벗어나는 드문 경우나 측정 오류로 인해 발생할 수 있다.

📌 이상치의 주요 특징

✍️ 이상치 탐지 방법

이상치를 탐지하는 방법에는 여러 가지가 있으며, 그 중 일부는 다음과 같다:

이상치를 다룰 때는 데이터의 특성과 분석의 목적을 고려해야 하며, 이상치가 실제로 오류인지, 아니면 중요한 정보를 포함하고 있는지를 판단하는 과정이 필요하다.

1. 통계적 이상치 판단 방법

통계적 이상치 판단 방법은 데이터의 분포를 기반으로 이상치를 식별한다. 대표적인 방법으로는 Z-점수(Z-Score) 방법과 IQR(Interquartile Range) 방법이 있다.