블로그

데이터 시각화

상자그림이란? 쉽게 이해하는 데이터 시각화 기법

fanruan blog avatar

Seongbin

2025년 7월 22일

데이터 분석을 하다 보면 평균이나 합계만으로는 놓치기 쉬운 데이터의 분포와 이상치를 파악하는 것이 중요합니다. 이럴 때 유용하게 쓰이는 것이 바로 상자 그림(Box Plot)입니다. 상자 그림은 데이터의 중앙값, 사분위수, 최대·최소값, 그리고 이상치를 한눈에 보여주는 시각화 도구로, 통계적 특성을 빠르게 파악하는 데 효과적입니다.
이번 글에서는 상자 그림이 무엇인지부터 시작해, 실제로 어떻게 만들어 활용할 수 있는지까지 쉽게 설명해드립니다. 데이터 시각화에 익숙하지 않더라도 걱정 마세요—차근차근 따라오시면 누구나 이해할 수 있습니다.

상자그림 기본 이해

상자그림

상자그림 정의

상자그림은 데이터를 다섯 가지 요약 통계량으로 한눈에 보여주는 시각화 도구입니다. 여러분은 상자그림을 통해 데이터의 분포, 중심, 그리고 이상치까지 빠르게 파악할 수 있습니다. 상자그림을 그릴 때는 다음과 같은 순서로 진행합니다.

  1. 데이터에서 1사분위수(Q1), 중앙값(Q2), 3사분위수(Q3)를 계산합니다.
  2. Q1과 Q3를 밑변으로 하는 직사각형(상자)을 그립니다.
  3. IQR(사분위수 범위, Q3 - Q1)을 구합니다.
  4. Q1 - 1.5IQR보다 크거나 Q3 + 1.5IQR보다 작은 값까지 선(수염)을 연결합니다.
  5. 이 범위를 벗어나는 값은 이상치로 별도 표시합니다.

상자그림은 연속형 변수의 분포를 시각화할 때 매우 유용합니다. BI 도구에서는 상자그림을 활용해 여러 부서나 팀의 데이터 분포를 한눈에 비교할 수 있습니다. 복잡한 수치를 일일이 확인하지 않아도, 상자그림 하나로 데이터의 중심과 퍼짐, 특이값까지 쉽게 파악할 수 있습니다.

상자그림은 통계학과 데이터 분석 분야에서 가장 널리 인정받는 공식적 시각화 방법입니다. 여러분은 이 그래프를 통해 데이터의 전체적인 흐름과 특이점을 빠르게 이해할 수 있습니다.

구성 요소

상자그림은 여러 가지 중요한 구성 요소로 이루어집니다. 각 요소는 데이터 해석에 핵심적인 역할을 합니다.

요약 수치정의 및 의미계산법 및 예시
최소값데이터 중 가장 작은 값Q1 - 1.5 * IQR (예: 15 - 15 = 0)
제1사분위수 (Q1)하위 25%에 해당하는 값예: 15
중앙값 (Q2)데이터의 중간값 (50%)예: 20
제3사분위수 (Q3)상위 25%에 해당하는 값예: 25
최대값데이터 중 가장 큰 값Q3 + 1.5 * IQR (예: 25 + 15 = 40)
이상치최대값보다 크거나 최소값보다 작은 값예: 45, 50 (최댓값 40 초과)

상자(박스)는 Q1에서 Q3까지의 범위를 나타내며, 데이터의 중앙 50%가 어디에 분포하는지 보여줍니다. 상자 안의 선은 중앙값(Q2)으로, 데이터의 중심 위치를 알려줍니다. 수염(whisker)은 최소값과 최대값까지의 범위를 연결해 데이터 전체의 퍼짐 정도를 시각화합니다. 수염 밖에 점으로 표시된 값은 이상치로, 데이터에서 특이하거나 오류일 가능성이 있는 값을 쉽게 찾을 수 있습니다.

아래 그림을 보면 상자그림의 각 구성 요소가 어떻게 시각적으로 표현되는지 알 수 있습니다.

상자그림

상자그림 장점과 한계

장점

상자그림은 데이터 분석에서 매우 유용한 도구입니다. 여러분은 이 그래프를 통해 데이터의 중심값과 퍼짐 정도를 한눈에 확인할 수 있습니다. 상자그림은 특히 대규모 데이터셋을 다룰 때 강점을 보입니다. 여러 그룹의 상자그림을 나란히 배치하면, 서로 다른 데이터군의 분포와 차이점을 쉽게 비교할 수 있습니다. 상자그림은 다음과 같은 장점을 가집니다.

  • 데이터의 중심 경향(중앙값)과 변동성을 명확하게 보여줍니다.
  • 이상치가 어디에 있는지 시각적으로 쉽게 찾을 수 있습니다.
  • 최소값, 1사분위수(Q1), 중위수, 3사분위수(Q3), 최대값 등 주요 통계값을 한 번에 확인할 수 있습니다.
  • 여러 데이터군을 비교할 때 차이점과 유사점을 빠르게 파악할 수 있습니다.

탐색적 자료분석(EDA) 과정에서 상자그림을 사용하면, 데이터의 분포 특성과 이상치를 신속하게 확인할 수 있습니다.

상자그림은 복잡한 수치를 일일이 계산하지 않아도, 데이터의 전체적인 흐름을 빠르게 파악할 수 있게 도와줍니다.

한계와 대체 방법

상자그림은 데이터의 전체적인 분포를 요약해서 보여주지만, 세부적인 분포 모양이나 빈도 정보는 제공하지 못합니다. 아래 표를 보면 상자그림의 장점과 한계를 쉽게 비교할 수 있습니다.

구분내용
상자그림의 장점중앙값, 사분위수, 이상치 시각화로 데이터 분포 개략 파악 가능
상자그림의 한계데이터의 세부 분포 형태(빈도, 분포 모양) 파악에 부적합
권장 대안히스토그램, 커널 밀도 추정 등 세부 분포 확인용 시각화 병행 필요

여러분이 데이터의 세부 분포까지 알고 싶다면, 히스토그램이나 바이올린 플롯 같은 시각화 방법을 함께 사용하는 것이 좋습니다. 바이올린 플롯은 상자그림의 장점에 더해, 데이터가 어디에 많이 몰려 있는지(밀도)를 곡선 형태로 보여줍니다. 히스토그램은 데이터가 어떤 값에 얼마나 분포하는지 막대그래프로 나타내어, 분포의 모양을 더 자세히 알 수 있습니다.

Tip: 상자그림으로 전체적인 분포와 이상치를 먼저 확인하고, 필요하다면 바이올린 플롯이나 히스토그램으로 세부 분포까지 분석해 보세요.

상자그림 해석

데이터 분포 읽기

상자그림을 보면 데이터가 어떻게 퍼져 있는지 한눈에 알 수 있습니다. 상자 안의 선은 중앙값을 나타냅니다. 이 선이 상자의 가운데에 있으면 데이터가 대칭적으로 분포합니다. 만약 선이 한쪽으로 치우쳐 있다면, 데이터가 한쪽으로 몰려 있다는 뜻입니다. 상자의 크기는 데이터가 얼마나 퍼져 있는지 보여줍니다. 상자가 크면 데이터의 차이가 크고, 상자가 작으면 데이터가 비슷한 값에 모여 있습니다. 수염(whisker)은 데이터의 전체 범위를 나타냅니다. 수염이 양쪽으로 비슷하게 뻗어 있으면 데이터가 균형 있게 분포합니다. 한쪽 수염이 길면, 그 방향으로 특이한 값이 있다는 신호입니다.

상자그림 구성 요소설명 및 해석 방법
중앙값 (중앙선)데이터의 중간값을 나타냅니다. 선이 상자 중앙에 있으면 대칭, 치우치면 비대칭(왜도)입니다.
사분위 범위 (IQR)Q3와 Q1 사이의 거리로, 데이터가 얼마나 퍼져 있는지 보여줍니다.
수염 (whiskers)IQR의 1.5배 이내 범위로 설정합니다. 좌우 수염 길이로 대칭성 판단이 가능합니다.
이상치수염 밖에 위치한 점들로, 특이값을 쉽게 찾을 수 있습니다.
여러 그룹 비교상자와 수염의 위치, 크기 차이로 그룹 간 분포와 대칭성을 비교할 수 있습니다.

여러 그룹의 상자그림을 나란히 놓으면, 각 그룹의 데이터 분포와 차이를 쉽게 비교할 수 있습니다. 예를 들어, 지역별 매출 데이터를 상자그림으로 나타내면 어느 지역이 매출이 높고, 어디에 이상치가 많은지 한눈에 파악할 수 있습니다. FineBI에서는 이런 비교를 클릭 한 번으로 할 수 있습니다. 여러 부서나 팀의 데이터를 동시에 시각화하면, 데이터의 중심과 퍼짐, 특이값까지 빠르게 확인할 수 있습니다.

상자그림

Tip: 상자그림을 활용하면 복잡한 수치를 일일이 계산하지 않아도 데이터의 전체적인 흐름과 특이점을 빠르게 파악할 수 있습니다.

이상치 판별

상자그림에서 이상치는 데이터의 일반적인 범위를 벗어난 값입니다. 이상치는 데이터 입력 오류, 측정 실수, 특수한 상황 등 다양한 이유로 발생할 수 있습니다. 이상치를 판별하는 공식적인 기준은 다음과 같습니다.

  1. Q1(제1사분위수)와 Q3(제3사분위수)를 구합니다.
  2. IQR(사분위 범위)을 계산합니다. IQR = Q3 - Q1입니다.
  3. 하한선은 Q1 - 1.5 * IQR로 계산합니다. 이보다 작은 값은 이상치입니다.
  4. 상한선은 Q3 + 1.5 * IQR로 계산합니다. 이보다 큰 값도 이상치입니다.
  5. 수염(whisker)은 이 범위 내의 최솟값과 최댓값을 연결합니다. 범위를 벗어난 값은 점으로 표시되어 이상치임을 알 수 있습니다.

FineBI는 이런 통계적 기준을 바탕으로 이상치를 자동으로 탐지합니다. 상자그림을 만들면 이상치가 색상이나 점으로 명확하게 표시되어, 데이터 분석 과정에서 실수나 특이값을 쉽게 확인할 수 있습니다. 이상치는 분석 결과에 큰 영향을 줄 수 있습니다. 예를 들어, 한 회사의 직원 연봉 데이터에서 대부분이 4000~6000만원인데, 2억 원이 포함되어 있다면 평균 연봉이 실제보다 높게 나올 수 있습니다. 이런 경우, 이상치를 시각적으로 확인하고 필요에 따라 별도로 분석하거나 제거할 수 있습니다.

이상치 영향설명예시
통계값 왜곡이상치는 평균, 분산 등 통계값에 큰 영향을 미칩니다.고액 연봉 포함 시 평균 연봉 왜곡
신뢰성 저하이상치로 인해 예측 모델의 정확도가 떨어집니다.머신러닝 모델 성능 저하
시각화 문제이상치가 있으면 전체 분포 이해가 어려워집니다.데이터 분포 파악 어려움
처리 필요성분석 목적에 따라 이상치를 제거하거나 별도 분석해야 합니다.데이터 전처리 단계에서 이상치 대응

FineBI의 이상치 탐지 기능은 상자그림을 통해 데이터의 특이값을 자동으로 식별하고, 시각적으로 구분해줍니다. 이를 통해 데이터의 신뢰성을 높이고, 분석 결과의 품질을 향상시킬 수 있습니다.

FineBI로 상자그림 제작

FineBI 기능

상자그림

FineBI에서는 여러 부서나 팀이 데이터를 쉽게 비교하고 분석할 수 있습니다. 예를 들어, 영업팀과 마케팅팀이 각자의 실적 데이터를 상자그림으로 시각화하면, 두 팀의 성과 분포와 이상치를 한눈에 확인할 수 있습니다. FineBI는 상자 수염 차트(Box Plot)를 기본으로 지원합니다. 이 차트는 데이터의 분포, 중앙값, 이상치, 평균값까지 다양한 정보를 한 번에 보여줍니다.

또한, 바이올린 차트, 히스토그램, 밀도 분포 차트 등 다양한 시각화 도구도 함께 제공합니다. 바이올린 차트는 데이터가 어디에 많이 몰려 있는지 곡선으로 보여주고, 히스토그램은 값의 빈도를 막대그래프로 나타냅니다. FineBI의 실시간 분석 기능을 활용하면, 데이터가 바뀔 때마다 상자그림도 자동으로 업데이트됩니다. 여러 사용자가 동시에 대시보드를 보고, 의견을 나누며 협업할 수 있습니다.

Tip: FineBI에서는 상자그림의 내부 요소(윗수염, 아래수염, 이상치, 평균값 등)를 세밀하게 조정할 수 있어, 데이터의 특성을 더 정확하게 파악할 수 있습니다.

제작 과정

FineBI에서 상자그림을 만들 때는 몇 가지 단계를 따라야 합니다.

이상치 표시하지 않은 경우

데이터 준비

1. 시스템에 관리자 권한으로 로그인한 후, My Analysis 메뉴를 클릭합니다. 폴더를 선택한 뒤, 아래 그림과 같이 New Subject 버튼을 클릭하세요.

상자그림

2. Local Excel 을 클릭한 다음, 아래 그림처럼 Upload Data 를 클릭하세요.

상자그림

3. 업로드가 완료되면 Time 필드의 타입을 Text 로 설정한 후, 아래 그림처럼 OK 를 클릭하세요.

상자그림
컴포넌트 생성

1. Component를 클릭하세요.

상자그림

2. 차트 유형으로 Box Chart를 선택한 후, State를 가로 축에, Sales를 세로 축에, CityFine-grained에 드래그하세요.

상자그림
컴포넌트 사용자 지정

1. CityColor에 드래그하여 색상 구분을 추가하세요.

상자그림
효과 보여주기
상자그림

이상치 표시한 경우

데이터 준비

1. 위 참조

컴포넌트 생성

1. Component를 클릭하세요.

상자그림

2. 차트 유형으로 Custom Chart를 선택한 후, Contract Type을 가로 축에, Product를 세로 축에 두 번 드래그하세요. Graphic Properties에서 두 개의 Product 지표를 각각 box plotpoint로 설정하세요.

상자그림

3. Graphic PropertiesAll 항목에서 Customer IDFine-grained에 드래그하세요.

상자그림
컴포넌트 사용자 지정

1. 포인트 크기 조절: Chart Properties에서 포인트로 설정한 지표 필드를 클릭하여 열고, Size 항목에서 Radius(이 경우 포인트의 크기)를 조절하세요.

상자그림

2. 최대값 조정: 세로 축에 드래그한 필드 위에 커서를 올리고, 삼각형을 클릭한 후 Set Value Axis (Left-value Axis)를 선택하세요. Display Range에서 Custom을 선택하고 최대값을 60으로 설정하세요.

상자그림
효과 보여주기
상자그림

상자그림을 만들 때 주의할 점도 있습니다.

  • 표본이 너무 작으면 상자그림이 제대로 보이지 않을 수 있습니다.
  • 이상치 감지 기준(1.5×IQR)이 모든 데이터에 항상 맞지는 않으니, 데이터의 특성을 고려해야 합니다.
  • 상자그림만으로는 데이터의 세부 분포를 모두 알 수 없으니, 필요하면 바이올린 플롯이나 히스토그램도 함께 사용하세요.

FineBI는 협업 기능이 뛰어납니다. 여러 사용자가 같은 대시보드에서 데이터를 분석하고, 결과를 공유할 수 있습니다. 실시간으로 데이터가 바뀌면 차트도 즉시 반영되어, 빠른 의사결정이 가능합니다. 여러 부서가 함께 데이터를 분석할 때, FineBI의 다양한 차트와 실시간 협업 기능을 활용하면 데이터의 분포와 이상치를 빠르게 파악할 수 있습니다.

실무에서 데이터 분포와 이상치를 빠르게 파악하고 싶다면, 다양한 분야에서 널리 쓰이는 시각화 기법을 활용하세요. 통계 분석, 품질 관리, 마케팅 데이터 평가 등에서 데이터의 중심 경향과 변동성을 쉽게 이해할 수 있습니다. FineBI를 사용하면 여러 팀이 실시간으로 데이터를 비교하고, 중요한 인사이트를 빠르게 얻을 수 있습니다. 직접 데이터를 분석할 때 이 방법을 적용해 보세요.

상자그림

상자그림 제작과 관련된 그래프 디자인 정보 더 알아보기

비율 분석의 핵심, 파이차트의 기본 개념과 제작법 알아보기

트리맵, 어디에 활용되고 어떻게 만들까?

히트맵, 색으로 데이터를 읽다: 개념부터 제작까지 완벽 정리

그래프 디자인 초보자를 위한 10가지 유형별 시각화 가이드

막대그래프 그리는 사이트 추천과 활용법

IT 도움 없이, 단 3번 클릭으로 데이터 분석

FAQ

상자그림은 어떤 데이터에 가장 적합한가요?
상자그림은 연속형 숫자 데이터에 가장 잘 어울립니다. 예를 들어, 시험 점수, 키, 연봉 등 수치로 표현되는 데이터를 시각화할 때 효과적입니다.
여러 명이 동시에 대시보드를 편집할 수 있나요?
FineBI는 협업 기능을 지원합니다.여러 사용자가 하나의 대시보드를 함께 편집하고, 분석 결과를 실시간으로 공유할 수 있습니다.팀원과 효율적으로 소통하며 데이터 분석을 진행할 수 있습니다.
FineBI에서 상자그림을 만들려면 특별한 기술이 필요한가요?
FineBI는 드래그 앤 드롭 방식으로 상자그림을 쉽게 만들 수 있습니다. 복잡한 코딩이나 통계 지식이 없어도 누구나 차트를 완성할 수 있습니다.
모바일에서도 상자그림을 볼 수 있나요?
네, FineBI는 모바일 앱을 지원합니다.스마트폰이나 태블릿에서 언제든지 대시보드와 그래프를 확인할 수 있습니다.
fanruan blog author avatar

작성자

Seongbin

FanRuan에서 재직하는 고급 데이터 분석가