블로그

데이터 분석

탐색적 데이터 분석(EDA)이란 무엇인가?

fanruan blog avatar

Lewis

2024년 8월 04일

이 기사에서는 탐색적 데이터 분석이 무엇인지 설명하고, 세 가지 유형의 EDA와 그 방법을 소개합니다! 이 완전한 가이드를 함께 배워봅시다!

탐색적 데이터 분석이란?

탐색적 데이터 분석(EDA)은 데이터 분석 과정에서 중요한 단계로, 공식적인 모델링이나 가설 테스트를 수행하기 전에 데이터를 조사하고 이해하는 과정을 포함합니다. EDA 기법은 1970년대에 미국 수학자 존 터키에 의해 처음 개발되었으며, 데이터 발견 과정에서 계속해서 널리 사용되는 방법입니다. 원하는 답을 얻기 위해 데이터 소스를 가장 잘 조작하는 방법을 결정하는 데 도움이 되어 데이터 과학자들이 패턴을 찾고, 이상 징후를 파악하고, 가설을 테스트하거나, 가정을 조사하는 데 더 용이합니다. 또한 데이터 분석을 위해 고려되는 통계적 기법이 적합한지 여부를 결정하는 데 도움이 될 수 있습니다.

데이터 분석

탐색적 데이터 분석: 데이터 과학에서의 중요성

탐색적 데이터 분석(EDA)의 주요 목적은 어떤 가정을 하기 전에 데이터를 조사하는 것을 돕는 것입니다. 데이터의 특성, 분포, 잠재적 관계에 대한 철저한 이해를 가능하게 하는 동시에 숨겨진 패턴과 이상 징후를 발견하여 후속 모델링 및 가설 테스트를 위한 귀중한 지원을 제공합니다. 데이터 과학자는 탐색적 분석을 사용하여 결과가 원하는 비즈니스 결과와 목표에 효과적이고 적용 가능한지 확인할 수 있습니다. 탐색적 데이터 분석(EDA)는 또한 표준 편차, 범주형 변수 및 신뢰 구간과 관련된 질문에 답하는 데 도움을 줍니다. 탐색적 데이터 분석(EDA)가 완료되고 통찰력이 확보되면 그 결과는 기계 학습을 포함하여 더 복잡한 데이터 분석 또는 모델링에 사용될 수 있습니다.

탐색적 데이터 분석의 유형

다음으로 세 가지 유형의 탐색적 데이터 분석(EDA)에 대해 논의하겠습니다.

  • 일변량: 일변량 분석에서는 분포와 통계적 특성을 연구하기 위해 단일 변수(또는 특성)에 초점을 둡니다.
  • 이변량: 이변량 EDA는 두 변수 간의 관계를 조사하여 두 변수 간의 상관 관계나 연관성을 관찰할 수 있도록 합니다.
  • 다변량: 다변량 분석에서 탐색에는 일반적으로 세 개 이상의 변수 간의 관계가 포함됩니다.

이 세 가지 유형의 탐색적 데이터 분석(EDA)는 그래픽 및 비그래픽 방법을 모두 포함합니다. 그래픽 방법은 차트, 그래프 및 상자 그림, 줄기 및 잎 그림 및 산점도와 같은 기타 시각화를 사용하여 데이터를 연구합니다. 반면에 비그래픽 방법은 통계 기술을 사용하여 데이터를 분석하고 중심 경향, 분산, 왜도, 첨도 및 기타 특성에 대한 통찰력을 얻습니다.

일변량 비그래픽:

이것은 시각화와 무관하게 통계적 기법과 수학적 방법을 사용하여 단일 변수의 특성을 연구하는 가장 간단한 형태의 데이터 분석입니다. 일반적인 일변량 비그래픽 방법은 다음과 같습니다:

  • 기술통계량 : 평균, 중위수, 분산, 표준편차 등을 계산하여 데이터 특성을 요약하고 기술합니다.
  • 백분위수 및 사분위수: 극단적인 값과 데이터 분포를 이해합니다.
  • 왜도와 첨도 : 자료분포와 첨도의 대칭성을 측정합니다.

일변량 그래픽:

일변량 그래픽 탐색적 데이터 분석(EDA)는 개별 변수를 탐색하기 위해 차트와 그래프를 만드는 것을 포함합니다. 이러한 시각화는 데이터 분포에 대한 직관적인 이해를 제공하고 이상치를 식별하는 데 도움이 됩니다. 일반적인 유형은 다음과 같습니다:

  • 히스토그램: 데이터의 빈도 분포를 간격으로 나누어 막대 모양으로 표시합니다.
  • 상자 그림: 5개 숫자 요약(최소, 1분위, 중위수, 3분위, 최대)을 제시하여 이상치와 데이터 산포를 식별합니다.
  • 커널 밀도 추정 그림: 데이터 분포를 보여주기 위해 매끄러운 곡선으로 확률 밀도 함수를 추정합니다.
  • 막대 차트: 막대를 사용하여 범주형 데이터의 빈도 또는 비율을 나타냅니다.

다변량 비그래픽:

다변량 데이터는 여러 변수를 포함합니다. 다변량 비그래픽 EDA 기법은 종종 회귀 분석이나 교차 표를 통해 두 개 이상의 변수 간의 관계를 보여줍니다. 일반적인 분석 방법은 다음과 같습니다:

  • 상관관계 분석 : 두 수치변수 간의 선형 상관관계 측정.
  • 회귀 분석: 하나 이상의 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 예측합니다.
  • 주성분 분석(PCA): 여러 상관 변수 중 차원성을 줄이고 주요 성분을 발견합니다.

다변량 그래픽:

다변량 그래픽 탐색적 데이터 분석(EDA)는 그래프를 사용하여 두 개 이상의 데이터 그룹 간의 관계를 표시합니다. 일반적인 그래픽 유형은 다음과 같습니다:

  • 산점도: 두 수치 변수 간의 관계를 나타내며, 각 데이터 점은 관측치를 나타냅니다.
  • 히트맵: 색상을 사용하여 두 범주형 변수 간의 연관성을 인코딩합니다.
  • 버블 차트: 2D 그림에 여러 개의 원을 표시하며, 세 개의 수치 변수 간의 관계를 표시하는 데 자주 사용됩니다.

이러한 분석 방법은 여러 변수 간의 복잡한 관계와 패턴을 더 깊이 이해할 수 있도록 도와줌으로써 데이터 분석 및 의사 결정에 보다 포괄적이고 통찰력 있는 통찰력을 제공합니다. 다변량 그래픽 및 비그래픽 분석은 데이터 내의 복잡성과 관계를 드러내기 위해 종종 결합되어 사용된다는 점에 주목할 필요가 있습니다.

탐색적 데이터 분석 단계  

탐색적 데이터 분석(EDA)은 공식적인 모델링이나 가설 테스트가 수행되기 전에 데이터를 조사하고 이해하는 것을 포함하는 데이터 분석 프로세스의 중추적인 단계입니다. 탐색적 데이터 분석(EDA)를 수행하는 데 관련된 일반적인 단계는 다음과 같습니다:

데이터 수집

데이터는 이제 의료, 스포츠, 제조, 관광 등 인간 생활의 다양한 측면에 걸쳐 방대한 양과 다양한 형태로 특징지어집니다. 다양한 출처에서 데이터를 수집하고 그 가치를 활용하는 것이 합의가 되었습니다. 데이터베이스, 파일, API 또는 웹 스크래핑에서 필요한 데이터를 수집할 수 있습니다. 데이터가 구조화된 형식으로 적절하게 구성되었는지 확인합니다.

FineBI는 기업에서 여러 비즈니스 플랫폼, 다양한 데이터베이스 및 다양한 데이터 인터페이스가 제기하는 문제를 해결합니다. 이는 포괄적인 데이터 액세스 기능을 제공하여 데이터베이스, 텍스트 데이터 소스, 프로그램 데이터 소스 등 다양한 형태의 데이터 소스를 FineBI에 통합하여 분석할 수 있도록 합니다.

데이터 분석

데이터 정리

다음 단계는 데이터셋을 청소하는 것입니다. 이 과정은 누락된 값, 중복, 이상 징후 및 불일치를 제거하여 데이터에 원하는 관점에서 관련되고 중요한 값만 포함되도록 합니다. 데이터를 청소하면 분석에 영향을 미칠 수 있는 오류가 없는 고품질 데이터를 확보할 수 있습니다.

여기서는 FineBI의 데이터 정리 기능을 사용하여 필드에 특정 문자열이 포함되어 있는지 검사하고 그에 따라 필드를 그룹화합니다. 예를 들어, 필드에 'A'가 포함되어 있으면 'A'를 표시하고, 'B'가 포함되어 있으면 'B'를 표시합니다. 예를 들어, 다음 그림과 같이 "Province"가 포함된 "Province or City"가 1로 표시됩니다.

데이터 분석

우리의 접근 방식은 필드 내의 값의 존재를 확인하기 위해 Find 함수를 사용하고 조건부 결정을 위해 IF 함수를 사용하는 것입니다. 구체적인 단계는 다음과 같습니다:

데모 데이터 "지역 데이터 분석"을 사용합니다.아래와 같이 셀프 서비스 데이터셋을 만들고 모든 데이터를 선택합니다.

데이터 분석

그런 다음 새 열을 추가합니다. 새 반환 값 열 "Test" 필드에 "Province"가 포함된 경우 1을 반환한 다음 IF 함수 논리 값 true에서 "Province, Province 또는 City"를 찾으십시오. 조건부 판단의 경우 "1"에 대한 표시를 포함하고, 그렇지 않으면 "0"에 대한 표시를 포함합니다.

데이터 분석

이러한 방식으로, 우리는 데이터를 정리하는 동안 필드를 확인하고 그룹화하는 기능을 달성했습니다. 물론, 파인비는 여러분의 탐험을 기다리는 더 많은 기능을 가지고 있습니다!

데이터 분석

변수 식별

분석을 시작할 때 모든 변수를 파악하고 논리적으로 이해합니다. 이렇게 계속 변화하는 데이터는 서로 다른 정보를 나타냅니다. 먼저 기본적인 이해를 위해 데이터 크기, 데이터 유형, 처음 몇 행을 확인하는 것부터 시작합니다. 그런 다음 서로 다른 변수 간의 관계를 파악하고 특정 변수가 어떻게 상호 연관되어 있는지를 밝힙니다. 이 단계는 예상되는 분석 결과에 매우 중요합니다.

요약 통계량 및 분석

탐색적 데이터 분석(EDA)에서는 올바른 통계 방법을 선택하고 요약 통계를 수행하는 것이 중요합니다. 주요 변수를 식별한 후 데이터 유형을 고려하고 평균과 빈도와 같은 측정값을 사용하여 데이터 분포와 중심 성향을 파악합니다. 상관 관계를 분석하는 경우 상관 계수 행렬을 사용하여 변수 연관 관계를 탐지합니다.

데이터 시각화 및 분석

그런 다음 다양한 플롯과 차트를 사용하여 시각적 표현을 생성하는 시각화 기법을 데이터에 적용해야 합니다. 일반적인 플롯에는 히스토그램, 상자 플롯, 산점도, 막대 차트 등이 포함됩니다. 데이터 분석가는 강력한 분석 기술, 분석 기법에 대한 전문 지식 및 시각화된 결과를 정확하게 해석하고 특정 영역에 적용할 수 있는 능력을 보유해야 합니다.

여기서는 50개 이상의 기본 차트 유형을 제공하는 FineBI를 사용해보고 기본 및 고급 차트를 커버하며 다양한 기술 통계 및 분석을 지원할 것을 강력하게 권장합니다. 또한 동적 효과와 강력한 인터랙티브 경험을 자랑하여 탁월한 데이터 분석 경험을 제공합니다.

데이터 시각화

EDA는 반복적인 과정이라는 것을 기억하세요. 새로운 통찰력이 드러나거나 새로운 질문이 제기되면 특정 단계를 다시 살펴볼 수 있습니다. 주요 목표는 데이터를 깊이 이해하고 데이터 분석 또는 모델링 과정에서 후속 단계를 안내하는 것입니다.

韩文BI.png

탐색적 데이터 분석에 활용되는 도구

탐색적 데이터 분석(EDA)은 데이터를 효과적으로 시각화하고 분석하기 위해 다양한 도구를 사용하는 것을 포함합니다. 다음은 EDA에 일반적으로 사용되는 몇 가지 인기 있는 도구입니다:

Python 라이브러리:

  • Panda: 데이터 읽기, 청소, 변환 등의 데이터 조작 기능을 제공합니다.
  • NumPy: 배열 및 행렬을 처리하기 위한 수치 계산 기능을 제공합니다.
  • 매트플롯립: 정적, 대화형 및 애니메이션 시각화를 만드는 데 널리 사용되는 플롯 라이브러리입니다.
  • Seaborn: Matplotlib 위에 구축되어 매력적인 통계 그래픽을 만들기 위한 상위 수준의 인터페이스를 제공합니다.
Python

R 언어:

  • RStudio: R 프로그래밍 언어용 통합 개발 환경(IDE)입니다.
  • ggplot2: 우아하고 표현력 있는 데이터 시각화를 만들기 위한 인기 있는 패키지입니다.
  • dplyr: 필터링, 요약, 조인 등의 데이터 조작 작업을 위한 일련의 기능을 제공합니다.
  • reshape2: 특정 분석 요구사항에 맞게 데이터를 재구성하고 변환할 수 있습니다.
R 언어

FineBI:

FineBI는 드래그 앤 드롭 기능을 통해 상호 작용하고 직관적인 데이터 탐색이 가능한 강력한 데이터 분석 도구입니다. 대시보드 생성, 분석 보고서 작성, 탐색적 데이터 분석(EDA) 수행 등에 일반적으로 사용됩니다.

데이터 분석
  • FineBI의 사용자 친화적인 인터페이스를 통해 다양한 데이터 소스에 쉽게 연결하고 원시 데이터를 의미 있는 인사이트로 변환할 수 있습니다.
  • 이 도구는 차트, 그래프 및 기타 시각적 요소를 포함한 다양한 시각화 옵션을 제공하며 변수 간의 관계를 탐색하고 이상치를 식별하며 데이터 분포를 시각화하는 데 도움이 됩니다.
  • FineBI의 기능을 사용하여 여러 시각화 및 분석 구성 요소를 하나의 뷰로 결합하여 대화형 대시보드를 설계할 수 있습니다. 데이터와 실시간 탐색 및 상호 작용할 수 있도록 동적 필터와 매개 변수를 만들 수 있습니다.
  • FineBI를 활용하여 통계 검정, 가설 검정 및 기타 고급 분석을 수행하여 가정을 검증하고 데이터에서 의미 있는 결론을 도출합니다.
데이터 분석

FineBI를 사용하여 탐색적 데이터 분석을 통해 데이터를 효율적으로 시각화, 탐색 및 이해하고 숨겨진 패턴과 관계를 파악하고 추가 분석 및 의사 결정을 위한 통찰력을 제공할 수 있습니다.

韩文BI.png

Microsoft Excel:

Excel은 다른 도구만큼 전문화되지 않을 수 있지만 광범위한 접근성을 갖추고 있으며 데이터 정리, 간단한 시각화 및 요약 통계와 같은 기본 EDA 작업에 자주 사용됩니다.

데이터 분석

도구의 선택은 데이터 크기, 복잡성 및 특정 분석 요구 사항과 같은 요소에 달려 있습니다. 파이썬과 R은 풍부한 라이브러리와 유연성으로 인해 데이터 과학자들 사이에서 특히 인기가 있는 반면, 파인비는 사용자 친화적인 인터페이스와 대화형 기능으로 비즈니스 환경에서 널리 사용되고 있습니다. 사용되는 도구에 관계없이 주요 목표는 데이터에서 통찰력을 추출하고 결과를 효과적으로 전달하는 것입니다.

탐색적 데이터 분석: 요약 및 결론

요약하자면, 탐색적 데이터 분석(EDA)은 데이터 분석 과정에서 중요한 단계로 데이터 분석에 대한 가치 있는 통찰력과 더 깊은 이해를 제공합니다. 탐색적 데이터 분석(EDA)는 숨겨진 패턴을 찾고, 이상 징후를 감지하고, 관계를 드러냄으로써 정보에 입각한 의사 결정과 통찰력 있는 분석의 강력한 전조 역할을 합니다.

탐색적 데이터 분석(EDA) 여정을 가장 효율적이고 효율적으로 시작하려면 강력하고 사용자 친화적인 데이터 분석 도구인 FineBI의 기능을 활용하는 것을 고려해 보십시오. FineBI는 직관적인 드래그 앤 드롭 인터페이스를 통해 데이터를 원활하게 탐색하고 상호 작용하여 발견한 내용을 웅변적으로 전달하는 동적 대시보드 및 보고서를 만들 수 있도록 지원합니다.

데이터만 분석하는 것이 아니라 FineBI를 시각적인 걸작으로 변화시켜 데이터셋의 복잡성을 전에 없이 탐구할 수 있도록 지원합니다. 탐색적 데이터 분석(EDA) 작업에 FineBI를 포함하여 통찰력 있는 탐색과 최첨단 기술 간의 역동적인 상호 작용을 수용하십시오. 지금부터 여행을 시작하여 데이터에 숨겨진 미개척 잠재력을 전례 없는 방식으로 방출하십시오.

韩文BI.png

데이터 분석 관련 정보 확인하기

빅데이터 분석 도구: 소프트웨어 분류, 기능 및 활용 사례

디지털 시대의 시장 분석: 대용량 데이터 분석에 대응하는 비결!(사례 포함)

금융 분석 이해하기

데이터 분석 입문: 파이썬(Python)과 엑셀(Excel)을 활용한 데이터 분석

데이터 분석 방법 쉽게 배우기

AARRR(AARRR Funnel) 모델 실전 예제

 

fanruan blog author avatar

작성자

Lewis

FanRuan의 선임 데이터 분석가