블로그

데이터 분석

분산 공식 한눈에 정리: 중3 통계식부터 V(X)=E(X²)-[E(X)]²까지

fanruan blog avatar

Seongbin

2026년 4월 26일

통계와 확률을 공부하다 보면 가장 자주 만나게 되는 개념 중 하나가 바로 분산 공식입니다. 중학교 3학년에서는 자료가 얼마나 퍼져 있는지를 계산하는 기본 도구로 배우고, 고등 과정에서는 확률변수의 분산을 V(X)=E(X²)-[E(X)]² 형태로 정리해 더 빠르게 계산하게 됩니다.

처음에는 공식이 여러 개처럼 보여 헷갈리기 쉽지만, 사실 핵심은 하나입니다. 평균에서 얼마나 떨어져 있는지를 수치로 나타내는 것입니다. 이 글에서는 중3 수준의 계산 절차부터 확률변수의 분산 공식, 그리고 표본분산과 모분산의 차이까지 자연스럽게 이어서 정리해 보겠습니다.

분산 공식, 먼저 큰 그림부터 이해하기

분산 공식의 출발점은 아주 단순합니다. 분산은 자료가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 수입니다.

예를 들어 평균이 같은 두 자료가 있다고 해도, 하나는 값들이 평균 근처에 모여 있고 다른 하나는 멀리 흩어져 있을 수 있습니다. 이때 평균만 보면 두 자료가 비슷해 보이지만, 실제 모습은 전혀 다릅니다. 바로 이 차이를 읽어 주는 값이 분산입니다.

평균 주변에 모인 자료와 넓게 퍼진 자료를 비교하는 통계 개념 일러스트

분산 공식을 이해할 때 가장 먼저 떠오르는 질문은 이것입니다.

  • 왜 평균과의 차이를 보나?
  • 왜 그냥 더하지 않고 제곱하나?
  • 왜 그 값을 평균 내나?

하나씩 보면 어렵지 않습니다.

먼저 각 자료에서 평균을 빼면, 그 자료가 중심에서 얼마나 떨어져 있는지 알 수 있습니다. 이를 편차라고 합니다. 그런데 편차는 평균보다 작은 값이면 음수, 큰 값이면 양수가 됩니다. 그래서 그대로 더하면 서로 상쇄되어 버립니다. 실제로 편차의 합은 항상 0이 됩니다.

그래서 음수와 양수가 서로 지워지지 않도록 제곱을 합니다. 제곱하면 모두 0 이상이 되어 퍼진 정도를 제대로 합칠 수 있습니다. 그리고 자료 개수로 나누어 평균을 내면, 전체 자료의 흩어진 정도를 대표하는 하나의 수가 됩니다. 이것이 분산 공식의 핵심 구조입니다.

즉, 중학교 수준의 분산 공식은 다음 의미로 읽으면 됩니다.

분산 = 평균에서 떨어진 정도를 제곱해서 구한 값들의 평균

여기서 함께 알아두면 좋은 것이 **표준편차**입니다. 표준편차는 분산에 제곱근을 씌운 값입니다. 분산은 제곱된 값이라 해석이 다소 멀게 느껴질 수 있지만, 표준편차는 원래 자료와 같은 감각으로 읽기 더 쉽습니다. 그래서 실제 데이터 분석에서는 분산 공식과 표준편차를 함께 보는 경우가 많습니다.

데이터를 시각적으로 분석할 때는 이런 산포를 그래프로 확인하는 일이 많은데, 기업 현장에서는 FineBI 같은 BI 도구를 통해 평균, 분산, 표준편차를 한 화면에서 비교하며 이상치나 변동성을 빠르게 파악하기도 합니다. 수학 개념으로 배운 분산 공식이 실제 분석 업무와도 자연스럽게 연결된다는 점을 기억해 두면 좋습니다. FineBI는 통계 개념을 실제 데이터 분석에 바로 연결해주는 도구입니다. 분산과 표준편차 같은 개념을 단순 계산으로 끝내지 않고, 히스토그램, 박스 플롯, 산점도 등으로 시각화하여 데이터의 분포와 변동성을 직관적으로 파악할 수 있습니다. 엑셀에서 수작업으로 하던 통계 계산과 차트 작성을 FineBI가 자동화해주니, 진짜 인사이트 도출에만 집중하세요.

중3에서 배우는 분산 계산 절차: 분산 공식의 기본 형태

중3에서 배우는 분산 공식은 복잡한 기호보다 순서가 중요합니다. 계산 흐름만 정확히 익히면 거의 모든 문제가 정리됩니다.

자료의 평균부터 구하기

분산 공식을 쓰기 전에 가장 먼저 해야 할 일은 평균 구하기입니다.

왜 평균부터 구할까요? 분산은 자료가 어떤 중심에서 얼마나 떨어져 있는지를 보는 값이기 때문입니다. 중심이 정해지지 않으면 떨어진 정도도 계산할 수 없습니다. 여기서 중심 역할을 하는 것이 평균입니다.

예를 들어 자료가 다음과 같다고 해 보겠습니다.

  • 2, 4, 6, 8, 10

평균은 다음과 같습니다.

  • (2 + 4 + 6 + 8 + 10) ÷ 5 = 6

이제 모든 자료를 6을 기준으로 비교할 수 있습니다.

편차와 편차의 제곱 구하기

평균을 구했다면 각 자료에서 평균을 빼서 편차를 구합니다.

위 자료의 평균이 6이므로 편차는 다음과 같습니다.

  • 2 - 6 = -4
  • 4 - 6 = -2
  • 6 - 6 = 0
  • 8 - 6 = 2
  • 10 - 6 = 4

편차를 모두 더하면 0입니다.

  • -4 + (-2) + 0 + 2 + 4 = 0

그래서 분산 공식에서는 편차를 그대로 쓰지 않고 편차의 제곱을 사용합니다.

  • (-4)² = 16
  • (-2)² = 4
  • 0² = 0
  • 2² = 4
  • 4² = 16

편차를 제곱하는 이유는 두 가지로 정리할 수 있습니다.

  • 음수와 양수가 상쇄되지 않게 하기 위해
  • 평균에서 멀수록 더 크게 반영하기 위해

이 점이 분산 공식의 가장 중요한 아이디어입니다.

분산과 표준편차까지 한 번에 구하기

이제 편차제곱의 평균을 구하면 분산이 됩니다.

편차제곱의 합은

  • 16 + 4 + 0 + 4 + 16 = 40

자료 수는 5개이므로 분산은

  • 40 ÷ 5 = 8

따라서 분산 = 8입니다.

표준편차는 분산에 제곱근을 씌운 값이므로

입니다.

중3 과정의 분산 공식 흐름은 다음 한 줄로 외우면 좋습니다.

  1. 평균 구하기
  2. 편차 구하기
  3. 편차 제곱 구하기
  4. 편차제곱의 평균 구하기
  5. 필요하면 제곱근을 씌워 표준편차 구하기

중학교 통계에서 평균 편차 분산 표준편차 계산 순서를 보여주는 학습 도식

이 순서를 머릿속에 넣어 두면, 식이 조금 길어져도 흔들리지 않습니다.

분산 공식과 표준편차를 함께 이해하는 핵심 포인트

분산 공식을 제대로 이해하려면 숫자 계산에서 끝나지 않고 값의 의미를 읽어야 합니다.

먼저, 분산이 크다는 것은 자료가 평균 주변에 빽빽하게 모여 있지 않고 넓게 퍼져 있다는 뜻입니다. 반대로 분산이 작으면 값들이 평균 근처에 모여 있다고 볼 수 있습니다.

예를 들어 두 자료를 비교해 보겠습니다.

  • A: 9, 10, 10, 10, 11
  • B: 2, 6, 10, 14, 18

두 자료의 평균은 모두 10입니다. 하지만 A는 대부분 10 근처에 있고, B는 10에서 멀리 떨어진 값이 많습니다. 따라서 B의 분산이 훨씬 큽니다.

이처럼 같은 평균이라도 분산 공식으로 계산한 값이 다르면 자료의 생김새가 달라집니다. 평균은 중심을 보여 주고, 분산은 퍼짐을 보여 줍니다. 그래서 통계에서는 둘을 함께 봐야 합니다.

또 하나 중요한 점은 표준편차가 더 직관적이라는 것입니다. 분산은 편차를 제곱한 뒤 평균낸 값이라 단위 감각이 다소 멀어집니다. 반면 표준편차는 분산에 제곱근을 취했기 때문에 원래 자료와 더 가까운 감각으로 해석할 수 있습니다.

예를 들어 시험 점수의 분산이 25라면, 표준편차는 5입니다. 점수라는 기준으로 보면 “평균에서 대략 5점 정도 떨어져 있구나”라고 읽는 쪽이 훨씬 자연스럽습니다.

실제 교육 데이터나 성적 데이터처럼 여러 집단을 비교할 때는 단순 평균만 보면 오해하기 쉽습니다. 이런 경우 FineBI로 반별 평균과 함께 분산, 표준편차시각화하면 “평균은 비슷하지만 어느 반의 점수 분포가 더 고른가” 같은 질문에 빠르게 답할 수 있습니다. 즉, 분산 공식은 시험 문제를 풀기 위한 도구이면서 동시에 데이터를 해석하는 눈을 키워 주는 개념입니다. 이처럼 여러 집단을 비교할 때는 평균만으로는 부족하고, 분산과 표준편차까지 함께 봐야 합니다. FineBI는 그룹별 비교, 기간별 비교, 조건별 필터링을 드래그 앤 드롭만으로 즉시 시각화해 줍니다. 통계 지식이 많지 않은 실무자도 FineBI의 인터랙티브한 대시보드 환경에서 데이터의 패턴을 빠르게 발견할 수 있습니다.

핵심만 다시 정리하면 다음과 같습니다.

  • 평균은 중심
  • 분산은 퍼진 정도
  • 표준편차는 퍼진 정도를 더 직관적으로 읽게 해 주는 값

확률변수에서의 분산 공식 정리: V(X)=E(X²)-[E(X)]²까지

중학교에서는 실제 자료를 가지고 분산 공식을 계산했다면, 고등 확률과 통계에서는 확률변수에 대해 같은 생각을 확장합니다.

이산확률변수의 분산 정의

확률변수에서는 각 값이 단순히 한 번씩 나타나는 것이 아니라, 각 값에 대응하는 확률이 있습니다. 그래서 평균도 그냥 산술평균이 아니라 기댓값으로 구합니다.

이산확률변수 (X)가 값 (x_1, x_2, \dots, x_n)을 확률 (p_1, p_2, \dots, p_n)으로 가질 때 기댓값은

  • (E(X)=\sum x_i p_i)

입니다.

분산 공식도 같은 구조를 따릅니다. 평균 대신 기댓값을 기준으로 하여

  • (V(X)=E[(X-E(X))^2])

로 정의합니다.

이 식은 말 그대로
확률을 반영한 편차제곱의 평균입니다.

즉, 중학교 자료분산과 확률변수의 분산은 본질적으로 같습니다.

  • 둘 다 중심에서 얼마나 떨어지는지 본다
  • 둘 다 그 차이를 제곱한다
  • 둘 다 평균 개념을 쓴다

차이점은 다음과 같습니다.

  • 자료분산은 실제 관측값들로 계산
  • 확률변수 분산은 각 값의 확률을 반영해 계산

V(X)=E(X²)-[E(X)]² 공식의 의미

확률변수에서 분산 공식을 직접 정의대로 계산하면 매번 ((X-E(X))^2)를 전개해야 하므로 번거롭습니다. 그래서 자주 쓰는 변형식이 바로

  • (V(X)=E(X^2)-[E(X)]^2)

입니다.

이 공식이 왜 나오는지 간단히 보겠습니다.

분산의 정의식에서 시작하면

  • (V(X)=E[(X-E(X))^2])

이고, 제곱을 전개하면

  • (=E[X^2-2XE(X)+{E(X)}^2])

여기서 (E(X))는 상수처럼 다룰 수 있으므로

  • (=E(X^2)-2E(X)\cdot E(X)+{E(X)}^2)

가 됩니다. 따라서

  • (V(X)=E(X^2)-[E(X)]^2)

로 정리됩니다.

이 변형식의 장점은 분명합니다.

  • 먼저 (E(X))를 구한다
  • 다음 (E(X^2))를 구한다
  • 마지막으로 (E(X^2)-[E(X)]^2) 계산한다

즉, 편차를 일일이 만들지 않고도 분산 공식을 빠르게 계산할 수 있습니다.

확률변수의 분산이 정의식에서 V(X)=E(X²)-[E(X)]²로 변형되는 수식 개념 이미지

공식을 적용하는 간단한 예시

확률변수 (X)의 확률분포가 다음과 같다고 해 보겠습니다.

  • (X=1, 2, 3)
  • (P(X=1)=\frac14,; P(X=2)=\frac12,; P(X=3)=\frac14)

먼저 기댓값을 구합니다.

  • (E(X)=1\cdot \frac14 + 2\cdot \frac12 + 3\cdot \frac14)
  • (=\frac14 + 1 + \frac34 = 2)

다음으로 (E(X^2))를 구합니다.

  • (E(X^2)=1^2\cdot \frac14 + 2^2\cdot \frac12 + 3^2\cdot \frac14)
  • (=\frac14 + 2 + \frac94 = \frac184=\frac92)

이제 분산 공식에 대입합니다.

  • (V(X)=E(X^2)-[E(X)]^2)
  • (=\frac92 - 2^2)
  • (=\frac92 - 4 = \frac12)

따라서 분산은

  • (V(X)=\frac12)

입니다.

이때 많이 하는 실수는 다음과 같습니다.

  • (E(X^2))를 구할 때 (x)를 제곱하지 않고 확률만 곱하는 실수
  • ([E(X)]^2)를 (E(X^2))와 혼동하는 실수
  • 분수 계산 과정에서 통분을 놓치는 실수

확률변수 문제에서는 계산보다도 어떤 항을 제곱해야 하는지를 정확히 구분하는 것이 중요합니다.

표본분산과 모분산은 어떻게 다를까: 분산 공식의 적용 범위

분산 공식을 배우다 보면 어느 순간 식이 두 가지처럼 보입니다. 어떤 때는 (n)으로 나누고, 어떤 때는 (n-1)로 나누기 때문입니다. 이 차이는 모분산표본분산의 차이에서 나옵니다.

먼저 모분산은 모집단 전체를 다 알고 있을 때 구하는 분산입니다. 예를 들어 한 학년 전체 학생의 키 데이터를 모두 알고 있다면, 그 전체 자료로 계산한 분산이 모분산입니다.

반면 표본분산은 모집단의 일부만 뽑아서 전체의 성질을 추정할 때 사용합니다. 예를 들어 전국 학생 전체 키를 다 조사할 수 없어서 일부 학생만 뽑았다면, 그 표본으로 분산을 계산하게 됩니다.

여기서 계산 방식이 달라집니다.

  • 모분산: 편차제곱합을 n으로 나눔
  • 표본분산: 편차제곱합을 n-1로 나눔

왜 표본분산은 (n-1)로 나눌까요? 직관적으로 말하면, 표본은 이미 그 안에서 평균을 계산하는 과정에서 정보 하나를 사용했기 때문입니다. 즉, 표본평균이 정해지고 나면 편차들의 합이 0이 되어 마지막 하나는 자유롭게 정할 수 없습니다. 그래서 실제로 독립적으로 움직일 수 있는 정보 수가 (n)이 아니라 (n-1)개가 되는 셈입니다.

시험에서는 이 이유를 깊게 유도하기보다 다음처럼 정리하면 충분한 경우가 많습니다.

  • 전체 자료를 다 안다 → 모분산
  • 일부 자료로 전체를 추정한다 → 표본분산

문제풀이에서 무엇을 써야 할지 헷갈릴 때는 문장을 잘 보면 됩니다.

  • “모집단”, “전체”, “전수조사”가 보이면 모분산
  • “표본”, “추출”, “추정”이 보이면 표본분산

실무 데이터 분석에서도 이 구분은 중요합니다. 예를 들어 제조 공정에서 생산된 전체 제품이 아니라 일부 샘플만 검사하는 경우가 많기 때문에, 통계 리포트를 만들 때 어떤 분산 공식을 적용했는지 명확해야 합니다. 이런 보고서를 자동화할 때는 FineReport 같은 리포팅 도구를 활용하면 표본 기준 통계와 전체 기준 통계를 구분해 정리하기 편합니다. 교육에서 배우는 분산 공식이 현업 문서 작성과도 연결되는 지점입니다. 이미 글에서도 소개했듯이, FineReport는 통계 분석 결과를 정기 보고서, 경영 보고서, 부서별 양식에 맞춰 자동으로 출력해주는 리포팅 도구입니다. 표본분산과 모분산을 구분한 통계표, 그룹별 평균과 표준편차 요약, 이상치 탐지 결과까지 FineReport 하나로 자동화된 보고서로 만들 수 있습니다. 엑셀에서 매일 반복하던 통계 보고서 작성, 이제 FineReport로 자동화해보세요.

자주 하는 실수와 빠르게 점검하는 방법: 분산 공식 체크리스트

분산 공식은 개념 자체는 어렵지 않지만, 계산 과정이 여러 단계라 실수가 자주 납니다. 시험장에서 시간을 아끼려면 틀리는 지점을 미리 알고 있어야 합니다.

가장 흔한 실수는 평균을 잘못 구하는 것입니다. 평균이 틀리면 편차, 편차제곱, 분산, 표준편차까지 전부 연쇄적으로 틀어집니다. 그래서 분산 문제는 시작할 때 평균을 꼭 한 번 더 확인해야 합니다.

두 번째 실수는 제곱의 순서 혼동입니다. 분산 공식은
편차를 구한 뒤 제곱해서 평균내는 것입니다.
그런데 계산하다 보면

  • 제곱 후 평균
  • 평균 후 제곱

을 섞어 버리는 경우가 많습니다.

특히 확률변수에서는

  • (E(X^2))
  • ([E(X)]^2)

를 다르게 계산해야 합니다. 이름이 비슷해서 헷갈리지만 전혀 같은 값이 아닙니다.

세 번째는 분산과 표준편차의 단위를 섞는 실수입니다. 분산은 제곱된 단위의 감각을 가지므로 해석이 직접적이지 않을 수 있고, 표준편차는 원래 자료의 크기와 가까운 감각으로 읽습니다. 문제에서 무엇을 묻는지 보고 마지막 답을 분산으로 쓸지, 표준편차로 쓸지 분명히 해야 합니다.

아래 체크리스트를 기억하면 문제풀이 속도가 빨라집니다.

  • 평균을 정확히 구했는가
  • 편차의 합이 0이 되는지 점검했는가
  • 편차를 먼저 구하고 제곱했는가
  • 분산인지 표준편차인지 마지막 요구를 확인했는가
  • 확률변수에서는 (E(X))와 (E(X^2))를 구분했는가
  • 표본분산인지 모분산인지 분모를 확인했는가

마지막으로 분산 공식은 암기보다 의미를 이해할수록 오래 갑니다.
“평균에서 얼마나 떨어졌는가”라는 질문 하나만 놓치지 않으면, 중3 통계식이든 (V(X)=E(X^2)-[E(X)]^2)이든 같은 원리로 이어집니다.

분산 공식을 한 문장으로 다시 정리하면 이렇습니다.

분산 공식은 평균을 기준으로 자료가 얼마나 퍼져 있는지를 편차제곱의 평균으로 나타내는 방법이다.

이 한 줄을 중심에 두고 연습하면, 계산 문제도 훨씬 덜 헷갈리게 풀 수 있습니다.

FAQs

편차를 그대로 더하면 음수와 양수가 서로 상쇄되어 항상 0이 되기 때문입니다. 제곱하면 모두 양수가 되어 평균에서 얼마나 떨어졌는지를 제대로 반영할 수 있습니다.

먼저 평균을 구한 뒤 각 값의 편차를 계산하고, 그 편차를 제곱해 평균을 내면 분산이 됩니다. 마지막으로 분산에 제곱근을 씌우면 표준편차를 구할 수 있습니다.

분산이 크다는 것은 자료가 평균 주변에 모여 있지 않고 더 넓게 퍼져 있다는 뜻입니다. 반대로 분산이 작으면 값들이 평균 근처에 상대적으로 가깝게 모여 있다고 볼 수 있습니다.

확률변수의 분산을 빠르게 계산할 때 자주 사용합니다. 정의식인 V(X)=E[(X-E(X))²]와 같은 뜻이지만, 기댓값과 제곱의 기댓값만 구하면 되어 계산이 더 간단합니다.

표본분산은 모집단의 분산을 추정하기 위해 쓰이므로 표본평균을 사용하면서 생기는 차이를 보정해야 합니다. 그래서 표본에서는 보통 n-1로 나누는 공식을 사용합니다.

fanruan blog author avatar

작성자

Seongbin

FanRuan에서 재직하는 고급 데이터 분석가

관련 기사

fanruan blog img
데이터 분석

고객 생애 가치(CLV)란? LTV와의 차이, 계산법, 실무 해석까지 한 번에 정리

고객을 많이 모으는 것과 가치 있는 고객을 오래 유지하는 것 은 다릅니다. 이 차이를 숫자로 보여주는 대표 지표가 바로 고객 생애 가치 입니다. 광고 성과가 좋아 보여도 실제로 남는 이익이 적을 수 있고, 반대로 첫 구매 전환율은 낮아도 장기적으로 높은 수익을 가져오는 고객군이 있을 수 있습니다. 그래서 실무에서는 단기 $1보다 고객과의 전체 관계에서 발생하는 가치 를 함께 봐야 합니다. 이

fanruan blog avatar

Seongbin

2026년 4월 29일

fanruan blog img
데이터 분석

YTD 뜻 총정리: 연초누계 의미, 연초대비 해석, 수익률 보는 법 3가지

경제 기사나 증권 앱을 보다 보면 YTD 라는 표현이 정말 자주 나옵니다. 그런데 막상 읽다 보면 “이게 연초누계라는 뜻인지, 연초대비 수익률이라는 뜻인지” 헷갈릴 때가 많습니다. 이번 글에서는 ytd 뜻 을 가장 쉽게 정리하고, 연초누계와 연초대비의 차이 , 그리고 YTD 수익률 보는 법 3가지 까지 한 번에 이해할 수 있도록 설명하겠습니다. YTD 뜻 먼저 이해하기: 연초누계와 연초대비의

fanruan blog avatar

Seongbin

2026년 4월 29일

fanruan blog img
데이터 분석

YTD vs YoY vs QoQ vs MoM: 헷갈리는 지표 차이와 사용 시점 총정리

실적 기사나 투자 리포트를 보다 보면 YTD, YoY, QoQ, MoM 같은 약어가 반복해서 등장합니다. 문제는 숫자는 익숙한데, 막상 읽을 때 무엇과 무엇을 비교한 것인지 헷갈리기 쉽다는 점입니다. 같은 “10% 증가”라도 YTD인지, YoY인지에 따라 의미는 완전히 달라집니다. 이 글에서는 ytd를 중심으로 YoY·QoQ·MoM과의 차이를 쉽게 정리하고, 언제 어떤 지표를 써야 하는지 ,

fanruan blog avatar

Seongbin

2026년 4월 29일