🤔 교차분석 (카이제곱 검정)
교차분석은 두 범주형 변수 간의 관계를 분석하는 통계적 방법이다. 교차분석을 통해 두 변수 사이에 통계적으로 유의미한 관계가 있는지 확인할 수 있다. 주로 두개의 변수가 질적인 명목척도일 때, 두 변수 각각의 범주에 따라 데이터를 분류하여 표(교차표) 형태로 정리한 다음, 관찰된 빈도와 기대된 빈도 사이의 차이를 검정한다.
📌 교차분석의 주요 개념
- 교차표(Cross-tabulation Table): 두 범주형 변수의 분포를 나타내는 표로, 한 변수의 범주를 행으로, 다른 변수의 범주를 열로 배열하여 각 셀에 해당하는 빈도수를 기록
- 기대빈도(Expected Frequency): 두 변수가 서로 독립일 경우 각 셀에 기대되는 빈도수로, 전체 표본 크기와 각 행과 열의 합계를 바탕으로 계산된다.
- 카이제곱 검정(Chi-square Test): 관찰된 빈도와 기대된 빈도 사이의 차이를 검정하기 위해 사용되는 통계적 방법이다. 카이제곱 통계량($\chi^2$)을 계산하여 두 변수 간의 독립성을 검정
📌 카이제곱 통계량의 계산
카이제곱 통계량은 다음과 같다
$$
\chi^2 = \sum \frac{(O-E)^2}{E}
$$
$O$는 교차 분석 후 교차표에 나타난 관찰된 빈도, $E$는 두 변수간의 통계적 연관성이 없다는 가정하에 기대되는 빈도이다. 이 통계량을 사용하여, 계산된 카이제곱 값이 카이제곱 분포표에서 주어진 자유도와 유의수준에 대응하는 임계값을 초과하는지 확인한다. 초과한다면, 두 변수 간에는 통계적으로 유의미한 관계가 있다고 결론지을 수 있다.
📌 유의수준과 자유도
- 유의수준($\alpha$): 가설검정에서 사용되는 임계값으로, 일반적으로 0.05 또는 0.01을 사용합니다. 이 값 이하일 경우 귀무가설을 기각한다.
- 자유도(Degrees of Freedom, df): 카이제곱 분포를 결정할 때 필요한 값으로, 일반적으로 (행의수−1)×(열의수−1)로 구한다.
📌 가설검정
- 귀무가설($H_0$): 두 변수 사이에는 관련이 없다. (독립적이다)
- 대립가설($H_1$): 두 변수 사이에는 관련이 있다. (종속적이다)