fanruan glossaryfanruan glossary

카이제곱 검정

Sean, 산업 편집자

2025년 8월 26일

카이제곱 검정의 정의와 원리 쉽게 이해하기

카이제곱 검정은 관찰된 데이터와 기대되는 데이터의 차이를 분석하여 두 범주형 변수 사이에 통계적으로 유의미한 관계가 있는지 평가하는 통계 기법이다.
실생활에서는 다음과 같은 상황에서 자주 활용된다.

  • 특정 약물의 효과가 성별에 따라 달라지는지 확인할 때
  • 회사 제품의 판매가 지역별로 차이가 있는지 분석할 때
  • 혈액형 분포가 예상과 실제 간에 차이가 있는지 비교할 때

카이제곱 검정이 필요한 이유와 실제로 어떻게 적용되는지 궁금한 독자라면, 이 글에서 쉽게 이해할 수 있다.

카이제곱 검정이란?

카이제곱 검정이란?

정의

카이제곱 검정은 범주형 데이터에서 변수 간의 관계나 분포의 적합도를 평가하는 통계적 방법이다. 이 검정은 관찰된 빈도와 기대되는 빈도 사이의 차이가 우연에 의한 것인지, 아니면 실제로 통계적으로 의미 있는 차이가 있는지 판단한다. 예를 들어, 성별에 따라 특정 제품의 선호도가 차이가 있는지, 지역별로 질병 발생률이 다른지 분석할 때 활용된다.

카이제곱 검정은 명목척도 또는 서열척도와 같이 범주형 자료에 적합하다. 연속형 자료의 평균 차이를 검정하는 t-검정이나 ANOVA와 달리, 빈도 기반으로 변수 간 독립성이나 적합도를 평가한다. 아래 표는 주요 통계적 검정 방법의 차이를 보여준다.

검정 방법자료 유형검정 대상주요 가정사용 목적
카이제곱 검정명목척도(범주형)빈도 기반 변수 간 독립성/적합도없음(비모수 검정)변수 간 연관성, 비율 적합도 검정
t-검정연속형 자료두 집단 평균 차이정규분포, 등분산성두 집단 평균 차이 검정
ANOVA(분산분석)연속형 자료세 집단 이상 평균 차이정규분포, 등분산성세 집단 이상 평균 차이 검정

원리

카이제곱 검정의 수학적 원리는 관측값과 기대값의 차이를 표준화하여 통계량을 산출하는 데 있다. 검정 절차는 다음과 같다.

  1. 관측된 빈도(O_i)와 기대되는 빈도(E_i)를 비교한다.
  2. 각 범주별로 피어슨 잔차를 계산한다:
    R=fracO_iE_isqrtE_iR = \\frac{O\_i - E\_i}{\\sqrt{E\_i}}
  3. 카이제곱 통계량(χ²)은 잔차의 제곱합으로 정의된다:
    X2=sum_i=1kfrac(O_iE_i)2E_iX^2 = \\sum\_{i=1}^k \\frac{(O\_i - E\_i)^2}{E\_i}
  4. 기대값(E_i)은 전체 표본 크기와 기대되는 비율에 따라 산출한다.
  5. 자유도(df)는 범주의 수(k)에서 1을 뺀 값으로 결정한다.
  6. 산출된 통계량은 카이제곱 분포를 따르며, 자유도에 따라 임계값과 비교하여 귀무가설을 기각할지 결정한다.

카이제곱 검정은 변수 간 독립성 검정, 적합도 검정, 동질성 검정 등 다양한 형태로 활용된다. 변수 간 관계의 유의미성을 통계적으로 판단할 수 있어, 데이터 분석에서 feature selection에도 자주 사용된다.

FineBI와 같은 FanRuan의 데이터 분석 솔루션은 카이제곱 검정과 같은 통계적 방법을 손쉽게 적용할 수 있도록 지원한다. 사용자는 다양한 데이터 소스에서 범주형 데이터를 통합하고, 드래그 앤 드롭 방식으로 교차표를 생성하여 카이제곱 검정을 빠르게 수행할 수 있다. FineBI는 결과를 시각적으로 제공하며, 통계적 유의성 판단을 쉽게 할 수 있도록 도와준다.

카이제곱 검정의 종류

카이제곱 검정은 데이터 분석에서 세 가지 주요 유형으로 나뉜다. 각각의 검정은 분석 목적과 적용 상황이 다르다. 아래에서 각 검정의 특징과 차이점을 살펴본다.

적합도 검정

적합도 검정은 한 범주형 변수의 분포가 특정 이론적 분포와 얼마나 일치하는지 평가한다. 예를 들어, 주사위를 60번 던졌을 때 각 면이 10번씩 나오는 것이 이론적으로 기대된다. 실제 결과가 이 기대와 얼마나 차이가 있는지 확인할 때 적합도 검정을 사용한다. 이 검정은 한 변수의 분포 적합성을 확인하는 데 초점을 둔다.

독립성 검정

독립성 검정은 두 범주형 변수 사이에 관계가 있는지 평가한다. 예를 들어, 성별과 흡연 여부가 서로 독립적인지, 즉 한 변수의 값이 다른 변수에 영향을 주지 않는지 확인할 수 있다. 독립성 검정은 두 변수 간의 관련성 또는 독립성을 검증하는 데 사용된다.

FineBI를 활용하면 실제로 직원 건강검진 데이터를 분석할 수 있다. 약 3년간 700건의 건강검진 데이터를 바탕으로 연령대, 부서, 질환 여부 등 범주형 변수에 대해 카이제곱 검정을 수행한다. 부서별 업무 환경이 고혈압 발생에 영향을 미치는지 독립성 검정을 통해 검증할 수 있다.

분석 과정에서는 귀무가설(부서와 고혈압은 독립적)과 대립가설(부서에 따라 고혈압 발생률이 다름)을 설정한다. FineBI의 드래그 앤 드롭 기능을 활용하면 교차표를 쉽게 만들고, 카이제곱 검정 결과를 시각적으로 확인할 수 있다.

동질성 검정

동질성 검정은 두 개 이상의 집단에서 특정 범주형 변수의 비율이 동일한지 평가한다. 예를 들어, 두 학교의 흡연율이 같은지 비교할 때 동질성 검정을 사용한다. 이 검정은 여러 집단 간 비율의 차이가 통계적으로 유의미한지 판단한다.

구분내용
동질성 검정 정의두 개 이상의 집단에서 특정 범주형 변수의 비율이 동일한지 검정하는 통계적 방법. 2x2 분할표에서 이표본 비율검정과 동일한 개념으로 수행됨.
적용 예시두 집단의 흡연율 차이를 비교할 때 사용. 카이제곱 검정을 통해 p값 산출 후 비율 차이의 통계적 유의성 판단.
관련 검정카이제곱 검정의 한 형태이며, 2x2 분할표에서 두 표본 비율을 비교하는 이표본 비율검정과 동일함.

카이제곱 검정의 각 유형은 분석 목적에 따라 선택된다. 적합도 검정은 한 변수의 분포 적합성, 독립성 검정은 두 변수 간의 관계, 동질성 검정은 여러 집단 간 비율 비교에 적합하다.

카이제곱 검정 적용 조건과 절차

카이제곱 검정 적용 조건과 절차

데이터 조건

카이제곱 검정은 반드시 범주형 데이터에 적용한다. 명목형이나 순서형과 같이 카테고리로 구분된 변수에 적합하다. 연속형 데이터에는 사용할 수 없다.
적용을 위해서는 다음과 같은 조건을 충족해야 한다.

  • 데이터는 무작위로 선택되어야 한다.
  • 각 셀의 기대 빈도는 5 이상이어야 한다.
  • 표본 크기가 충분히 커야 한다.
조건 및 특징내용
데이터 유형범주형 데이터(명목형, 순서형)
적용 불가 데이터연속형 데이터
전제조건무작위 표본, 기대 빈도 5 이상
분석 목적독립성, 동질성, 적합도 검정

FineBI는 다양한 데이터 소스에서 범주형 데이터를 손쉽게 불러오고, 데이터 정제와 교차표 생성을 지원한다. 사용자는 드래그 앤 드롭 방식으로 데이터를 준비할 수 있어, 데이터 조건을 빠르게 확인하고 분석에 적합한 형태로 변환할 수 있다.

검정 절차

카이제곱 검정의 표준 절차는 다음과 같이 진행된다.

  1. 가설과 유의수준 설정
    • 귀무가설과 대립가설을 명확히 정한다.
    • 예시: "성별과 제품 선호도는 독립적이다."
    • 유의수준(α)은 보통 0.05로 설정한다.
  2. 검정 통계량 산출
    • 관찰빈도와 기대빈도를 계산한다.
    • 기대빈도 공식:
      기대빈도 = (해당 행의 합 × 해당 열의 합) / 전체 표본 크기
  3. 기각역 및 자유도 결정
    • 자유도는 (행의 수 - 1) × (열의 수 - 1)로 계산한다.
    • 자유도가 커질수록 카이제곱 분포는 정규분포에 가까워진다.
  4. 카이제곱 통계량 계산
    • 각 셀에 대해 (관찰빈도 - 기대빈도)² / 기대빈도를 계산하고 모두 더한다.
  5. 통계적 의사결정

FineBI는 교차표와 자동 계산 기능을 제공한다. 사용자는 복잡한 수식 없이도 카이제곱 통계량, 자유도, p-value를 쉽게 산출할 수 있다. 분석 결과는 대시보드와 그래프 형태로 시각화되어, 누구나 결과를 직관적으로 이해할 수 있다.

결과 해석

카이제곱 검정 결과를 해석할 때는 p-value, 임계값, 자유도에 주목해야 한다.

  • p-value는 귀무가설이 참일 때 관찰된 데이터가 나올 확률이다. p-value가 유의수준(예: 0.05)보다 작으면 귀무가설을 기각한다.
  • 임계값은 자유도와 유의수준에 따라 결정된다. 카이제곱 통계량이 임계값보다 크면 귀무가설을 기각한다.
  • 자유도는 표의 크기에 따라 달라지며, 검정 결과의 해석에 중요한 역할을 한다.

예시를 통해 살펴보면, 연령대별로 SNS 선호도를 조사한 결과, 카이제곱 통계량이 519.610, p-value가 0.00000, 자유도 8로 나타났다면 두 변수는 독립이 아니며 관련성이 매우 높다고 해석한다.
반대로 카이제곱 값이 임계값보다 작고 p-value가 유의수준보다 크면 귀무가설을 기각하지 않는다.

FineBI교차표와 막대 그래프 등 다양한 시각화 도구를 제공한다. 사용자는 분석 결과를 표와 그래프로 한눈에 파악할 수 있다. 또한, 주요 영향 요인을 자동으로 분석해 결과 해석을 돕는다.

카이제곱 검정에서는 제1종 오류(귀무가설이 참인데 기각)와 제2종 오류(귀무가설이 거짓인데 기각하지 않음)도 고려해야 한다. 유의수준은 제1종 오류를 허용하는 최대 확률이다. 표본이 너무 작거나 기대빈도가 낮으면 오류 가능성이 높아진다.

카이제곱 검정은 범주형 데이터의 관측 빈도와 기대 빈도 차이를 비교해 변수 간 관계나 분포의 차이를 평가하는 데 사용한다.
아래 표는 카이제곱 검정의 정의, 원리, 종류, 적용 방법, 해석을 한눈에 정리한다.

구분내용 요약
정의범주형 데이터의 관측 빈도와 기대 빈도 차이를 검정하는 통계적 방법
원리관측값과 기대값의 차이로 카이제곱 통계량 계산
종류독립성, 동질성, 적합도 검정
적용 방법문제 설정, 데이터 수집, 기대 빈도 계산, 통계량 계산, 결론 도출
해석p-value가 유의수준보다 작으면 귀무가설 기각

예를 들어, 학교별로 급식 선호도를 비교하거나, 지역별로 질병 발생률 차이를 분석할 때 카이제곱 검정이 널리 쓰인다. 이 글을 통해 독자는 카이제곱 검정의 정의부터 해석까지 한 번에 이해할 수 있다.

FanRuan

https://www.fanruan.com/ko-kr/blog

FanRuan은 FineReport의 유연한 리포팅, FineBI의 셀프서비스 분석, FineDataLink의 데이터 통합 기능을 바탕으로 전 산업 분야에 걸쳐 강력한 BI 솔루션을 제공합니다. FanRuan의 올인원 플랫폼은 조직이 원시 데이터를 실행 가능한 인사이트로 전환하여 비즈니스 성장을 실현할 수 있도록 강력하게 지원합니다.

FAQ

카이제곱 검정은 어떤 데이터에 사용할 수 있나요?

카이제곱 검정은 범주형 데이터에 적합하다. 예를 들어, 성별, 지역, 제품 종류와 같이 구분이 명확한 데이터에 사용한다. 연속형 데이터에는 적용하지 않는다.

기대빈도가 5 미만인 경우 어떻게 해야 하나요?

기대빈도가 5 미만인 셀이 많으면 검정 결과가 부정확해진다. 이 경우 데이터를 합치거나 피셔의 정확 검정과 같은 다른 방법을 고려한다.

FineBI에서 카이제곱 검정을 어떻게 적용할 수 있나요?

FineBI는 교차표와 드래그 앤 드롭 기능을 제공한다. 사용자는 데이터를 선택하고 교차표를 만든 후, 자동으로 카이제곱 검정 결과와 시각화 자료를 확인할 수 있다.

p-value가 0.05보다 크면 어떤 의미인가요?

p-value가 0.05보다 크면 귀무가설을 기각하지 않는다. 즉, 변수 간에 통계적으로 유의미한 차이나 관계가 없다고 해석한다.

카이제곱 검정 결과를 시각적으로 볼 수 있나요?

FineBI는 막대 그래프, 교차표 등 다양한 시각화 도구를 제공한다. 사용자는 분석 결과를 한눈에 파악할 수 있다.

더 빠르고 스마트한 분석으로 경쟁에서 앞서세요

오늘부터 데이터 문제를 해결하세요!

fanruanfanruan