[패스트 캠퍼스] 데이터 분석 부트캠프 16기/학습일지

[패스트캠퍼스] 데이터분석 부트캠프 (2주 차)

루루23 2024. 8. 30. 20:33
반응형

 

데이터 분석 과정과 EDA

✤1 데이터 분석의 과정

  1. 데이터 분석 기획
    • 비즈니스 이해 및 목표 설정 : 어떤 것을 이루고자 하는지
    • 프로젝트 정의 : 어떤 데이터를 바탕으로 무엇을 예측/측정할 것인지
  2. 데이터 수집 및 정제
    • 분석에 필요한 데이터 수집 방법
    • 데이터 전처리 : 수집된 데이터의 정합성, 무결성 등 검증
  3. 데이터 분석 모델링
    • 탐색적 데이터 분석(EDA) : 통계량 및 시각화를 통한 데이터의 특성 파악
    • 모델링 : 예측을 위한 수학적, 통계적 모델링
  4. 평가 및 결론 도출
    • 모델링을 통해 생성된 결과를 활용한 결론 도출
    • 성능 평가 : 도메인, 비즈니스 요구에 맞는 성능 기준에 따라 위의 과정을 수정하며 성능 개선
  5. 분석 결과의 활용
    • 시스템 구현, 서비스에 활용
    • 비즈니스 인사이트

 

✤2 탐색적 데이터 분석(Exploratory Data Analysis, EDA)

  • 의미 : 데이터를 분석하기 전에 수치 요약과 시각화를 사용하여 데이터의 분포, 특성, 관계 등을 탐색하고 이해하는 과정
  • 목적 : 데이터의 특성과 패턴을 이해하고, 이상치나 결측치를 파악하며, 변수 간의 관계를 분석하여 향후 분석 및 모델링을 위한 인사이트를 도출하는 것
  • 내용
    • 기초 통계 분석: 평균, 중앙값, 최빈값, 표준편차 등 기본적인 통계량 확인
    • 결측치와 이상치 탐색: 결측값의 분포와 이상치를 식별
    • 데이터 분포 시각화: 히스토그램, 박스플롯 등의 차트를 통한 분포 확인
    • 변수 간 관계 분석: 산점도, 상관계수 등으로 변수 간의 관계 탐색

 

✤3 엑셀 실습

  • Titanic Dataset - 피벗차트/피벗테이블, 상자수염차트

Pclass/성별에 따른 생존율 ❘ Pclass 별 요금 분포

 
  • Iris Dataset
PetalLength - PetalWidth 산점도

 

기초 통계 개념

✤1 고등학교 통계 내용

  • 정규분포
    • 정규분포 : 평균 µ 와 표준편차 σ 에 대해 평균을 중심으로 좌우대칭의 종모양을 가지는 확률분포중심
    • 중심극한정리 : 독립적인 확률변수들의 평균은 항상 정규분포에 가까워진다는 것을 증명
    • 표준정규분포 : 평균이 0, 표준편차가 1인 정규분포
    • 표준화 : 정규분포를 표준정규분포로 변환하는 방법
  • 추론통계 : 통계량을 바탕으로 모수를 추정하는 것
    • 모집단 : 조사 대상이 되는 전체 집합
    • 모수 : 모집단에 대한 요약된 수치, 값에 대한 평균이나 비율 등
    • 표본 : 모집단을 대표하는 모집단의 일부
    • 통계량 : 표본에 대한 수치적 요약
    • 모평균 µ / 모분산 σ2 : 모집단의 평균/분산
    • 표본평균 ¯X / 표본분산 s2 : 표본에 대한 평균/분산
      • 모분산은 n, 표본분산은 n-1의 자료수로 나누는 차이 있음
  • 표본 추출
    • 신뢰도 : 어떤 값이 모평균이라고 믿을 수 있는 정도 (주로 95%, 99%)
    • 신뢰구간 : 모평균의 추정 구간

 

✤2 기술통계

  • 기술 통계와 추론 통계
    • 기술 통계 (Descriptive Statistics) : 데이터의 간결한 요약 정보, 수치적인 통계량 또는 시각화, 데이터의 특징 파악
    • 추론 통계 (Inferential Statistics) : 표본을 이용한 모집단에 대한 추론이 목적, 모집단에 대한 가설을 검정
  • 기초통계량
    • 중심경향성 : 데이터 분포의 중심을 보여주는 값
      • 최빈값 (Mode) : 범주형 자료의 대표값으로 적합
      • 중앙값 (Median) : 순서형 자료의 대표값으로 적합, 이상치 영향 적음
      • 산술평균 (Arithmetic Mean) : 주로 연속형 자료에 사용, 이상치 영향 클 수 있음
      • 가중평균 (Weighted Mean) : 자료의 중요도에 따라 가중치 부여한 평균
      • 기하평균 (Geometric Mean) : 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용 (e.g., CAGR, 주가상승률)
    • 퍼짐정도 : 자료가 얼마나 흩어져 있는지
      • 분산 (Variance) : 편차 제곱의 평균
      • 표준편차 (Standard Deviation) : 분산의 제곱근
      • 범위 (Range) : 최댓값 - 최솟값, 계산이 쉽지만 분포에 대한 정보 없음
      • IQR (InterQuartile Range) : 제3사분위수 - 제1사분위수, 한쪽으로 치우친 분포의 퍼짐 정도 확인할 때 주로 사용
    • 첨도 : 분포의 뾰족한 정도
    • 왜도 : 분포의 좌우 비대칭성 정도

 

✤3 상관관계

  • 회귀분석 : 독립변수와 종속변수의 관계를 추정하기 위한 분석 방법, 독립변수의 영향력 판단 가능, 인과관계를 설명할 수는 없음
  • 공분산 : 두 변수의 관계를 나타내는 개념, 두 변수의 변동이 어떻게 함께 변화하는지를 측정하는데 사용
    • Cov(X,Y) > 0 : 양의 상관관계, Cov(X,Y) < 0 : 음의 상관관계
    • Cov(X,Y) = 0 : 상관관계 없음. 공분산이 0이라고 해서 독립은 아님
  • 상관계수 : 공분산을 각 변량의 표준편차의 곱으로 나눈 것으로, 공분산을 표준화한 것 ( -1과 1사이의 값 )

 

 

기술 통계

✤1 데이터 분포 파악 - Titanic

  • Fare 기술 통계량

함수 직접 입력 ❘ 데이터 분석 도구 이용

 

 

  • 피벗차트 5단위
 

 

✤2 이상치 탐지

  • IQR 활용
    • Q1 - 1.5 * IQR (a) 보다 작거나 Q3 + 1.5 * IQR (b) 보다 큰 값
    • 정규 분포가 아닌 (한쪽으로 치우친) 자료
    • IF(OR(데이터<(a),데이터>(b)),1,0) 처럼 이용
  • 정규분포 활용
    • z=(x-m)/s= +-3 일 때의 x값 찾고, 그 범위 벗어난 데이터를 이상치로 판단
    • z값이 +-3 범위 밖에 있는 데이터를 이상치로 판단
  • Box-plot 이용

 

 

추론 통계

✤1 평균/분산/표준편차

- 모분산/모표준편차 : VAR.P() , STDEV.P() 이용

- 표본분산/표본표준편차 : VAR.S() , STDEV.S() 이용

 

✤2 정규분포 관련 함수

  • NORM.DIST(x, mean, standard_dev, cumulative) : 주어진 값이 정규 분포를 따를 때, 해당 값의 누적 분포 함수 또는 확률 밀도 함수 값을 계산
  • NORM.S.DIST(x, cumulative) = NORM.DIST(x, 0, 1, cumulative)
  • t분포
    • 표본의 개수가 30개보다 작을 때 사용
    • 자유도가 커짐에 따라(30 이상) t분포는 정규분포에 가까워짐

 

✤3 상관관계 분석 - Iris

  • 산점도, 회귀선(추세선)
  • 공분산 / 상관계수

 

 

 

✤4 회귀 분석

  • 단순 선형 회귀
    • 결정 계수 R : 이 모형은 전체 데이터의 약 40%를 설명한다
    • 분산분석
      • 귀무가설(H₀): 모든 독립변수들의 회귀계수가 0이다. 즉, 독립변수들이 종속변수에 영향을 미치지 않는다.
      • 대립가설(H₁): 적어도 하나의 독립변수의 회귀계수가 0이 아니다. 즉, 독립변수들 중 적어도 하나가 종속변수에 영향을 미친다.
      • 유의한 F 값이 0.05 보다 작으므로 귀무가설을 기각 - 독립변수가 종속변수에 영향을 미친다고 할 수 있다.
    • 회귀식 : y = 6.747x + 26205924.531
  • 다중 선형 회귀
    • 조정된 결정 계수 사용 : 변수가 추가될 때마다 R²가 증가하는 문제를 보완하기 위해
    • 회귀식을 만들 때 p-value가 낮은 변수를 유지하고, 높은 변수를 제거할 수 있음
    • 주의사항 : 다중공선성, p-value의 한계 (p-value는 통계적 유의성만을 나타내고 실제 효과의 크기를 반영하지 않음 = p-value가 낮다고 해서 그 변수가 실질적으로 매우 중요한 변수는 아닐 수 있음)

 

✤5 시계열 분석

  • 시간의 흐름에 따라 수집된 데이터를 분석
  • FORECAST.ETS : 지수 평활법을 기반으로 시계열 데이터를 예측, 주로 데이터에 계절성이 존재하는 경우에 사용
    • FORECAST.ETS(target_date, values, timeline, [seasonality], [data_completion], [aggregation])

 

#데이터분석 #데이터분석부트캠프 #패스트캠퍼스 #패스트캠퍼스부트캠프 #패스트캠퍼스데이터분석부트캠프

 

 

반응형