카이제곱 검정의 정의와 원리 쉽게 이해하기

카이제곱 검정은 관찰된 데이터와 기대되는 데이터의 차이를 분석하여 두 범주형 변수 사이에 통계적으로 유의미한 관계가 있는지 평가하는 통계 기법입다.
실생활에서는 다음과 같은 상황에서 자주 활용됩니다.

특정 약물의 효과가 성별에 따라 달라지는지 확인할 때
회사 제품의 판매가 지역별로 차이가 있는지 분석할 때
혈액형 분포가 예상과 실제 간에 차이가 있는지 비교할 때

카이제곱 검정이 필요한 이유와 실제로 어떻게 적용되는지 궁금한 독자라면, 이 글에서 쉽게 이해할 수 있습니다.

카이제곱 검정이란?

정의

카이제곱 검정은 범주형 데이터에서 변수 간의 관계나 분포의 적합도를 평가하는 통계적 방법입니다. 이 검정은 관찰된 빈도와 기대되는 빈도 사이의 차이가 우연에 의한 것인지, 아니면 실제로 통계적으로 의미 있는 차이가 있는지 판단합니다. 예를 들어, 성별에 따라 특정 제품의 선호도가 차이가 있는지, 지역별로 질병 발생률이 다른지 분석할 때 활용됩니다.

카이제곱 검정은 명목척도 또는 서열척도와 같이 범주형 자료에 적합합니다. 연속형 자료의 평균 차이를 검정하는 t-검정이나 ANOVA와 달리, 빈도 기반으로 변수 간 독립성이나 적합도를 평가합니다. 아래 표는 주요 통계적 검정 방법의 차이를 보여줍니다.

검정 방법	자료 유형	검정 대상	주요 가정	사용 목적
카이제곱 검정	명목척도(범주형)	빈도 기반 변수 간 독립성/적합도	없음(비모수 검정)	변수 간 연관성, 비율 적합도 검정
t-검정	연속형 자료	두 집단 평균 차이	정규분포, 등분산성	두 집단 평균 차이 검정
ANOVA(분산분석)	연속형 자료	세 집단 이상 평균 차이	정규분포, 등분산성	세 집단 이상 평균 차이 검정

원리

카이제곱 검정의 수학적 원리는 관측값과 기대값의 차이를 표준화하여 통계량을 산출하는 데 있습니다. 검정 절차는 다음과 같다.

관측된 빈도(O_i)와 기대되는 빈도(E_i)를 비교합니다.
각 범주별로 피어슨 잔차를 계산합니다:
$R = \\frac{O\_i - E\_i}{\\sqrt{E\_i}}$
카이제곱 통계량(χ²)은 잔차의 제곱합으로 정의된다:
$X^2 = \\sum\_{i=1}^k \\frac{(O\_i - E\_i)^2}{E\_i}$
기대값(E_i)은 전체 표본 크기와 기대되는 비율에 따라 산출합니다..
자유도(df)는 범주의 수(k)에서 1을 뺀 값으로 결정합니다.
산출된 통계량은 카이제곱 분포를 따르며, 자유도에 따라 임계값과 비교하여 귀무가설을 기각할지 결정합니다.

카이제곱 검정은 변수 간 독립성 검정, 적합도 검정, 동질성 검정 등 다양한 형태로 활용됩니다. 변수 간 관계의 유의미성을 통계적으로 판단할 수 있어, 데이터 분석에서 feature selection에도 자주 사용됩니다.

FineBI와 같은 FanRuan의 데이터 분석 솔루션은 카이제곱 검정과 같은 통계적 방법을 손쉽게 적용할 수 있도록 지원합니다. 사용자는 다양한 데이터 소스에서 범주형 데이터를 통합하고, 드래그 앤 드롭 방식으로 교차표를 생성하여 카이제곱 검정을 빠르게 수행할 수 있습니다. FineBI는 결과를 시각적으로 제공하며, 통계적 유의성 판단을 쉽게 할 수 있도록 도와줍니다.

카이제곱 검정의 종류

카이제곱 검정은 데이터 분석에서 세 가지 주요 유형으로 나뉜다. 각각의 검정은 분석 목적과 적용 상황이 다르다. 아래에서 각 검정의 특징과 차이점을 살펴봅니다.

적합도 검정

적합도 검정은 한 범주형 변수의 분포가 특정 이론적 분포와 얼마나 일치하는지 평가합니다. 예를 들어, 주사위를 60번 던졌을 때 각 면이 10번씩 나오는 것이 이론적으로 기대됩니다. 실제 결과가 이 기대와 얼마나 차이가 있는지 확인할 때 적합도 검정을 사용합니다. 이 검정은 한 변수의 분포 적합성을 확인하는 데 초점을 둡니다.

독립성 검정

독립성 검정은 두 범주형 변수 사이에 관계가 있는지 평가합니다. 예를 들어, 성별과 흡연 여부가 서로 독립적인지, 즉 한 변수의 값이 다른 변수에 영향을 주지 않는지 확인할 수 있습니다. 독립성 검정은 두 변수 간의 관련성 또는 독립성을 검증하는 데 사용됩니다.

FineBI를 활용하면 실제로 직원 건강검진 데이터를 분석할 수 있습니다. 약 3년간 700건의 건강검진 데이터를 바탕으로 연령대, 부서, 질환 여부 등 범주형 변수에 대해 카이제곱 검정을 수행합니다. 부서별 업무 환경이 고혈압 발생에 영향을 미치는지 독립성 검정을 통해 검증할 수 있습니다.

분석 과정에서는 귀무가설(부서와 고혈압은 독립적)과 대립가설(부서에 따라 고혈압 발생률이 다름)을 설정합니다. FineBI의 드래그 앤 드롭 기능을 활용하면 교차표를 쉽게 만들고, 카이제곱 검정 결과를 시각적으로 확인할 수 있습니다.

카이제곱 검정

동질성 검정

동질성 검정은 두 개 이상의 집단에서 특정 범주형 변수의 비율이 동일한지 평가합니다. 예를 들어, 두 학교의 흡연율이 같은지 비교할 때 동질성 검정을 사용합니다. 이 검정은 여러 집단 간 비율의 차이가 통계적으로 유의미한지 판단합니다.

구분	내용
동질성 검정 정의	두 개 이상의 집단에서 특정 범주형 변수의 비율이 동일한지 검정하는 통계적 방법. 2x2 분할표에서 이표본 비율검정과 동일한 개념으로 수행됨.
적용 예시	두 집단의 흡연율 차이를 비교할 때 사용. 카이제곱 검정을 통해 p값 산출 후 비율 차이의 통계적 유의성 판단.
관련 검정	카이제곱 검정의 한 형태이며, 2x2 분할표에서 두 표본 비율을 비교하는 이표본 비율검정과 동일함.

카이제곱 검정의 각 유형은 분석 목적에 따라 선택됩니다.. 적합도 검정은 한 변수의 분포 적합성, 독립성 검정은 두 변수 간의 관계, 동질성 검정은 여러 집단 간 비율 비교에 적합하다.

카이제곱 검정 적용 조건과 절차

데이터 조건

카이제곱 검정은 반드시 범주형 데이터에 적용합니다. 명목형이나 순서형과 같이 카테고리로 구분된 변수에 적합하다. 연속형 데이터에는 사용할 수 없습다.
적용을 위해서는 다음과 같은 조건을 충족해야 합니다.

데이터는 무작위로 선택되어야 합니다.
각 셀의 기대 빈도는 5 이상이어야 합니다.
표본 크기가 충분히 커야 합니다.

조건 및 특징	내용
데이터 유형	범주형 데이터(명목형, 순서형)
적용 불가 데이터	연속형 데이터
전제조건	무작위 표본, 기대 빈도 5 이상
분석 목적	독립성, 동질성, 적합도 검정

FineBI는 다양한 데이터 소스에서 범주형 데이터를 손쉽게 불러오고, 데이터 정제와 교차표 생성을 지원합니다. 사용자는 드래그 앤 드롭 방식으로 데이터를 준비할 수 있어, 데이터 조건을 빠르게 확인하고 분석에 적합한 형태로 변환할 수 있습니다.

검정 절차

카이제곱 검정의 표준 절차는 다음과 같이 진행됩니다..

가설과 유의수준 설정
- 귀무가설과 대립가설을 명확히 정합니다.
- 예시: "성별과 제품 선호도는 독립적입니다."
- 유의수준(α)은 보통 0.05로 설정합니다.
검정 통계량 산출
- 관찰빈도와 기대빈도를 계산합니다.
- 기대빈도 공식:
  기대빈도 = (해당 행의 합 × 해당 열의 합) / 전체 표본 크기
기각역 및 자유도 결정
- 자유도는 (행의 수 - 1) × (열의 수 - 1)로 계산합니다.
- 자유도가 커질수록 카이제곱 분포는 정규분포에 가까워집니다.
카이제곱 통계량 계산
- 각 셀에 대해 (관찰빈도 - 기대빈도)² / 기대빈도를 계산하고 모두 더합니다.
통계적 의사결정
- 산출된 카이제곱 통계량과 임계값을 비교합니다.
- p-value가 유의수준보다 작으면 귀무가설을 기각합니다.

FineBI는 교차표와 자동 계산 기능을 제공합니다. 사용자는 복잡한 수식 없이도 카이제곱 통계량, 자유도, p-value를 쉽게 산출할 수 있습니다. 분석 결과는 대시보드와 그래프 형태로 시각화되어, 누구나 결과를 직관적으로 이해할 수 있습니다.

결과 해석

카이제곱 검정 결과를 해석할 때는 p-value, 임계값, 자유도에 주목해야 합니다.

p-value는 귀무가설이 참일 때 관찰된 데이터가 나올 확률입니다. p-value가 유의수준(예: 0.05)보다 작으면 귀무가설을 기각합니다.
임계값은 자유도와 유의수준에 따라 결정됩니다.. 카이제곱 통계량이 임계값보다 크면 귀무가설을 기각합니다.
자유도는 표의 크기에 따라 달라지며, 검정 결과의 해석에 중요한 역할을합니다.

예시를 통해 살펴보면, 연령대별로 SNS 선호도를 조사한 결과, 카이제곱 통계량이 519.610, p-value가 0.00000, 자유도 8로 나타났다면 두 변수는 독립이 아니며 관련성이 매우 높다고 해석합니다.
반대로 카이제곱 값이 임계값보다 작고 p-value가 유의수준보다 크면 귀무가설을 기각하지 않는다.

FineBI는 교차표와 막대 그래프 등 다양한 시각화 도구를 제공합니다. 사용자는 분석 결과를 표와 그래프로 한눈에 파악할 수 있습니다. 또한, 주요 영향 요인을 자동으로 분석해 결과 해석을 돕는다.

카이제곱 검정에서는 제1종 오류(귀무가설이 참인데 기각)와 제2종 오류(귀무가설이 거짓인데 기각하지 않음)도 고려해야 합니다. 유의수준은 제1종 오류를 허용하는 최대 확률입다. 표본이 너무 작거나 기대빈도가 낮으면 오류 가능성이 높아집다.

카이제곱 검정은 범주형 데이터의 관측 빈도와 기대 빈도 차이를 비교해 변수 간 관계나 분포의 차이를 평가하는 데 사용합니다.
아래 표는 카이제곱 검정의 정의, 원리, 종류, 적용 방법, 해석을 한눈에 정리합니다.

구분	내용 요약
정의	범주형 데이터의 관측 빈도와 기대 빈도 차이를 검정하는 통계적 방법
원리	관측값과 기대값의 차이로 카이제곱 통계량 계산
종류	독립성, 동질성, 적합도 검정
적용 방법	문제 설정, 데이터 수집, 기대 빈도 계산, 통계량 계산, 결론 도출
해석	p-value가 유의수준보다 작으면 귀무가설 기각

예를 들어, 학교별로 급식 선호도를 비교하거나, 지역별로 질병 발생률 차이를 분석할 때 카이제곱 검정이 널리 쓰인다. 이 글을 통해 독자는 카이제곱 검정의 정의부터 해석까지 한 번에 이해할 수 있습니다.