[패스트 캠퍼스] 데이터 분석 부트캠프 16기/학습일지

[패스트캠퍼스] 데이터분석 부트캠프 (1주 차)

루루23 2024. 8. 23. 15:42
반응형

[1일 차] 빅데이터 이해 및 데이터 리터러시 함양

#1

전반적으로 데이터의 가치와 가능성, 그리고 이를 잘 활용하기 위한 역량 등에 관한 수업이었다.

산업 전반에서, 그리고 기업 내부의 다양한 분야에서 데이터를 이용한 의사결정(Data Driven)이 점점 더 강조되고 있고, 빅데이터와 이를 분석할 수 있는 기술이 성장함에 따라 데이터를 잘 활용할 수 있는 능력이 요구된다. 특히, 단순한 분석이 아닌 그를 통한 새로운 가치를 창출하는 데에 그 요점이 있다.

 

Data Driven 경영 사례 예시 : 마켓컬리

마켓컬리는 '샛별배송'이라는 신선식품 새벽배송 서비스를 통해 유통 업계에 혁신을 가져왔다. 데이터는 마켓컬리의 비즈니스 전반에서 의사결정의 중심에 있으며, 경쟁력을 유지할 수 있게 하는 핵심적인 요소이다.

  • 상품 추천 : 소비자 데이터를 분석하여 고객 맞춤형 상품 추천을 제공한다. 소비자의 구매 패턴, 선호도, 장바구니 내역 등을 분석하여 각 고객에게 최적화된 상품을 큐레이션하는 방식이다.
  • 재고 관리 : 신선식품의 경우 유통기한이 짧기 때문에 정확한 수요 예측이 중요하다. 마켓컬리는 데이터 기반의 수요 예측 모델을 통해 불필요한 재고를 최소화하고 폐기물의 양을 줄이고 있다.
  • 물류 개선 : 고객 주문 데이터를 기반으로 배송 경로를 최적화하고, 가장 효율적인 배송 루트를 설계한다. 이를 통해 배송 시간을 단축하고 비용을 절감할 수 있다.

 

컬리는 이와 같이 데이터를 다방면에서 이용하고 있다. 마켓컬리 기술 블로그에서 상품 추천과 관련된 글을 읽고 흥미로워서 같이 적는다.

 

함께 구매하면 좋은 상품이에요! - 장바구니 추천 개발기 1부

보완재 추천 모델을 적용하고 성과를 거둔 사례 소개

helloworld.kurly.com

고객이 결제로 넘어가기 직전 함께 구매할 만한 상품을 제안하는 추천 시스템을 개발하는 내용이다. 구매 결정 단계에 있는 사용자들에게 대체재보다 보완재를 추천하는 것이 지불 용의가 더 높다는 행동 경제학 연구 결과를 바탕으로 가설을 세우고 개발을 진행한다. 장바구니 내 모든 상품 반영, 실시간 처리 등의 요구 조건을 만족하는 모델로 BERT4Rec을 선택했다. 구매 패턴에서 의미 있는 보완재 관계를 찾기위해 NPMI 라는 지표를 활용하는데, 카테고리쌍별로 이 지표가 클수록 서로 같이 구매되는 카레고리이면서 동시에 다른 카테고리와는 구매되지 않음을 의미한다. 오프라인 지표로 HR@5(사용자가 관심 가질만한 항목이 추천 리스트의 상위 k개 항목에 포함되어 있는지), MRR@5(처음으로 등장하는 선호 아이템이 몇 번째에 위치하는지)를 사용했다. 사내 인원을 대상으로 정성 평가를 진행한 결과 특정 카테고리에 추천 상품이 편중된다는 문제점을 발견했고, Spotify의 셔플링 알고리즘을 참고하여 후처리 진행했다. 이후 A/B테스트를 진행한 결과 유의미한 수치를 확인하였고 서비스에 적용하였다.

 

나의 얕은 통계지식이 이 글을 읽는 데에 살짝 도움을 주긴 했지만 알고리즘 등의 내용을 잘 모르다보니 100퍼센트 이해는 못하겠다. 그런데도 전체적으로 가설을 세우고 검정하는 과정이 실제로 적용된 사례를 읽는 게 처음이라 재밌었다.

 

#2

데이터 분석가란 데이터를 통해 문제를 정의하고, 기술을 접목하여 문제를 해결하는 사람을 말한다. 프로그래밍과 통계 지식, 분석 역량 등 하드스킬뿐만 아니라 커뮤니케이션, 스토리텔링과 같은 소프트 스킬 역시 중요하다. 사업 영역과 회사 규모에 따라 다음과 같은 직군으로 표현되기도 한다.

  1. Product Analyst : 유저 행동 로그 데이터를 분석하여 고객이 제품을 어떻게 사용하고 있는지, 어떻게 개선할 수 있을지에 초점을 맞춘다. 쿼리 능력과 더불어 제품에 대한 높은 이해도가 필요하다.
  2. Business Analyst : PA와 비슷하나, 재무 지표를 이용하여 매출, 비용 등 사업의 가치에 집중한다.
  3. Performance/CRM Marketer : 광고 효과를 극대화하기 위한 광고 최적화 업무를 담당한다.
  4. Data Scientist : 여러 기술을 활용해 비즈니스 문제를 해결한다. 위의 예시들보다 높은 기술적 숙련도를 요구하는 경우가 많고, 컨설팅 역량 역시 중요하다.

느낀 점 : 데이터 분석가라는 직업을 막연하게 생각하고 있었는데, 이번 강의가 이를 조금 더 구체적으로 생각해 보는 계기가 되었다. 특히 이 분야가 배워야 할 것이 무한하기 때문에 커리어를 준비할 때 선택과 집중이 중요하다고 거듭 강조하셔서 이 부분에 대해서 더 고민해 봐야 할 것 같다. 그리고 1. 기업들의 기술 블로그 보기 2. 주기적으로 관련 채용 공고 확인하기 3. 뉴스 볼 때 데이터에 집중화기(이 서비스를 위해 어떤 데이터들이 필요할까?) 등 일상적으로 관련 이야기를 꾸준히 접하려는 노력이 필요하다는 말씀도 해주셔서 노력해 볼 예정.

 

 

[2일 차 ~ 4일 차] 엑셀 기초와 데이터 탐색

# 함수 정리

COUNT(범위)  범위에서 숫자 데이터가 들어가 있는 셀의 개수 
COUNTA(범위) 범위에서 데이터가 들어가 있는 셀의 개수
COUNTBLANK(범위) 범위에서 비어있는 셀의 개수
COUNTIFS(범위1, 조건1, [범위2], [조건2], ...) 범위n에서 조건n을 모두 만족하는 셀의 개수
IF(조건, 값1, 값2) 조건을 만족하면 값1, 만족하지 않으면 값2를 표시
VLOOKUP(검색할 값, 범위, 인덱스열번호, [검색범위]) 검색할 값을 기준으로 원본 데이터 범위에서 찾고 싶은 열의 값 반환
[검색수준] 0은 정확히 일치할 때만, 1은 근사치여도 표시 (1이 기본값)
* 검색할 값은 범위와의 공통 기준열에 있는 값
* 범위는 공통 기준열에서부터 시작해야 함
* 공통 기준열에는 중복된 데이터가 없어야 함
MATCH(찾고 싶은 값, 범위, [일치유형]) 찾고 싶은 값이 범위 내에 몇번째에 있는지 숫자로 반환
SUMIFS(범위, 조건범위1, 조건1, [조건범위2], [조건2], ...) 조건범위n내에서 조건n을 만족하는 범위 내의 값들의 합
SUMPRODUCT(배열1, [배열2],...) 배열끼리 곱한 값들의 합
* 논리곱 활용하여 조건에 맞는 합계 산출 가능
IFERROR(값, 대체값) 값이 오류 값이면 대체값를 출력
FIND(찾을 내용, 긴 텍스트) 긴 텍스트 내에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력

 

# 그 외

✤ 피벗테이블, 슬라이서 (*필터 대신 이용)

✤ 텍스트 나누기

✤ 중복된 항목 제거

✤ 필터와 고급필터

✤ 데이터 유효성 검사

✤ 차트 만들기

✤ 조건부 서식

 

# 탐색적 데이터 분석

✤ 이상치와 결측치 

  • 결측치 : COUNTBLANK()로 파악 가능
  • 결측치 처리 방법
    1. 단순 삭제
    2. 치환 : 대표값으로 대체 (평균, 중앙값, 최빈값 등) - 엑셀에서 if 함수로 처리
    3. 모델 기반 처리
  • 이상치 판단하는 방법
    1. 정규분포로부터 3표준편차 이상 떨어져 있는 값
    2. 사분위수 이용(상자 수염 차트) : Q1 - 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 값들 (IQR = Q3 - Q1) 

✤ 상관 분석과 산점도

    • 상관계수 : 두 변수 사이의 상관성을 나타내며 -1 ≤ r ≤ 1 범위 가짐
    • 주의 > 상관 관계를 가지고 있다고 해서 인과 관계가 있다는 것은 아님
    • 데이터탭 - 데이터 분석 - Correlation

공공 데이터를 이용한 상관분석 실습

  • 산점도 : 분산형 차트로 산점도 그릴 수 있음. 분산형 그래프는 x-y 순서로 변수가 있어야 함 > 순서가 반대로 되어 있을 때 빈 셀에서 차트 먼저 선택 후 데이터 원본 선택하기.

 

 

 

반응형