파이썬으로 데이터 분석하기 Ⅰ

TIL/내일배움캠프

파이썬으로 데이터 분석하기 Ⅰ

Kou_ 2026. 5. 19. 20:11

[내일배움캠프] QA/QC 6기 - 7일차

TIL
- 데이터 리터러시를 통해 문제 정의 및 결론 도출까지 일련의 과정에 대해 배웠다.
- 파이썬의 기본적인 문법을 학습했다.
To-Do List
1. Python 기초 탄탄 라이브 세션 1회차 수강
2. 데이터 분석 파이썬 종합반 1~3주차 수강
3. 데이터 리터러시 강의 1주차 수강

파이썬으로 데이터 분석하기

파이썬 (Python)

Python을 사용하는 이유
- 가장 많은 엔지니어가 사용하는 프로그래밍 언어 ▶
- 상대적으로 쉬운 언어
- 확장성이 매우 좋은 언어
  - 다양한 라이브러리 : 데이터 분석, 시각화, 머신러닝, 통계 등
  - 다른 언어와 연동 가능 : C, C++, JAVA 등과 Cython, Jpype 등을 활용해 확장 모듈 생성, 외부 기능 활용 가능
  - 다양한 개발 분야에 활용 가능 : 게임, 웹개발, DB 프로그래밍, IoT 등

Python 공부 방법

상향식 공부법
: 파이썬 문법 → 데이터 분석 → 프로젝트 (새로운 지식을 기초부터 점진적 학습 방법)
하향식 공부법
: 프로젝트 목적 설정 → 데이터 분석 방법론 정의 → 파이썬을 통한 분석 공부 (목적 설정 후 필요한 기능을 배우는 학습 방법)
두 방법을 병행하며 하는 것이 효과적일 가능성이 크다.
참고할만한 공부 컨텐츠 : 파이썬 자습서, 위키독스(점프 투 파이썬, 초보자를 위한 파이썬 300제), 유튜브 조코딩, 코드업 문제집 등

Python 개발환경 설정

IDE (Integrated Develop Environment, 통합 개발 환경)
- 프로젝트용 (파일명.py) : VS코드, 파이참 등
- 데이터 분석 및 시각화용 (파일명.ipynb) :
  - 주피터 노트북 → 주피터 랩 (폴더/파일을 drag&drop 가능)
  - 코랩 (인터넷 환경에서 간단하게 데이터 분석 가능)

변수 / 사칙연산

변수(Variable) : 특정값을 저장하는 기호

사칙연산

연산자	설명	수식 예시 (단, a > b )	결과 (a = 10, b = 3)
+	덧셈	a + b	13
-	뺄셈	a - b	7
*	곱셈	*a b**	30
/	나눗셈	a / b	3.333…
//	몫(정수 나눗셈)	a // b	3
%	mod(나머지)	a % b	1
**	거듭제곱	a b**	1000

자료형

모든 프로그래밍 언어를 다룰 때 처음에 정의하는 것 중 하나이며, 변수 하나의 값이 어떤 종류(int, float, str, bool 등)인지 표기
파이썬 자료형 (Python Data Types)
- 숫자형(numbers) : int, float, complex
- 불린형(Bool) : True, False
- 시퀀스(Sequence) : string, list, turple
- 매핑(Mapping) : dict
- 집합(Sets) : set, frozenset
가장 많이 사용하는 자료형은 list [ ], string ' ', " ", dictionary { : }
데이터 타입으로 데이터를 저장하고 조작하는 방식을 결정하고, 어떤 작업이 가능한지 정의한다.

문자열

정의 방법 : ' ' 혹은 " "
변수 할당 : a_list=[1,2,3,4,5] 라고 한다면 a_list라는 변수명에 list 타입으로 1, 2, 3, 4, 5를 할당한 것
인덱싱과 슬라이싱
- 인덱스(index) : 자료형을 구성하는 순번
  ex) a_list[1] #2
  - 첫번째는 0, 마지막은 -1로 인덱스
  - 인덱스 -3은 뒤에서 3번째를 추출 → 3
- 슬라이싱(slicing) : 자료형의 일부를 추출할 수 있음
  ex) a_list[1:4] #2,3,4
  - a:b에서 b는 포함하지 않고 직전에서 정지

숫자열

정수(int), 실수(float) 형태의 숫자열은 변수에 바로 할당
숫자열 변수끼리 사칙연산 가능
숫자열에는 다양한 함수와 메서드가 내장 → abs() #절댓값 반환, round() #반올림 값 반환
정수형과 실수형의 차이점
- 정수형 (Integer) : 소수점 이하가 없으며, int 형으로 표현되는 숫자 그리고 항상 정수의 연산 결과를 가짐
- 실수형 (Float) : 소수점 이하의 숫자를 포함하며, float 형으로 표현되는 숫자 또한 연산 결과도 실수

불리언 (Boolean)

논리연산자 : True (참) 또는 False (거짓)
조건식을 평가하는데 매우 중요하며, 데이터 분석에서도 자주 활용

결측값 (NaN)

NaN (Not a Number)은 데이터에서 결측치(missing value)를 나타내는 특수한 값
주로 수치형 데이터에서 발생하며, 특히 데이터 과학이나 머신러닝 분야에서 데이터 정제 및 처리 과정에서 자주 다룸
NaN은 정의할 수 없는 수치값 → 0으로 나누는 연산자 (무한대는 정의 불가), 유효하지 않은 수학적 연산 결과 등
데이터프레임과 같은 데이터 구조에서는 결측치 표현으로 NaN 사용

입력문 (input)

input() 함수는 사용자로부터 키보드로 입력을 받는 함수
이 함수를 사용하면 사용자와 상호작용하여 동작하는 프로그래밍 가능
사용자가 숫자를 입력하면 문자열 형태로 입력 받음
이후 int() 함수를 사용해 문자열을 정수로 변환한 뒤 사칙연산하고 출력 가능

리스트 (List)

리스트 : 파이썬에서 가장 자주 사용되는 데이터 구조 중 하나이고, 여러 항목을 담을 수 있는 가변(mutable)한 시퀀스(sequence)다.
리스트의 기본 구조 : my_list=[1,2,3,4,5] #출력 [1,2,3,4,5] → 각 값은 쉼표로 구분되고, 순서(인덱스)가 존재한다.
리스트의 다양한 methods (리스트, 슬라이싱, 튜플 모두 적용 가능, 수정이나 반환 기능은 튜플에서 사용 불가)
- append() : 리스트에 항목을 추가
- extend() : 리스트에 다른 리스트의 모든 항목을 추가
- insert(index,element) : 리스트의 특정 위치(index)에 항목(element, 값)을 삽입
- remove() : 리스트에서 특정 값을 삭제
- pop() : 리스트에서 특정 위치의 값을 제거하고 반환
- index() : 리스트에서 특정 값의 인덱스를 찾음
- count() : 리스트에서 특정 값의 개수를 셈
- sort() : 리스트의 항목들을 정렬
- reverse() : 리스트의 항목들을 역순으로 뒤집기
- '반환'이란 함수의 결과 값을 바깥으로 추출하는 것을 의미
리스트 값 삭제
- del list_name[index] : index 위치 값을 삭제
- list_name.clear() : 리스트 내 값들의 모든 항목 제거
리스트 값 변경
- 리스트명 [index]=element #element는 문자열의 경우 '문자열', 숫자열의 경우 숫자 로 입력
중첩된 리스트에서 인덱싱하기
- 두 개 이상의 중첩된 리스트에서 인덱싱은 list_name[index_1][index_2]
  #index_1은 제일 바깥 리스트에서 위치, index_2는 중첩된 내부 리스트에서의 위치를 뜻함

튜플 (Tupel)

튜플 : 변경할 수 없는(immutable) 시퀀스(sequence) 자료형으로, 여러개의 요소를 저장하는 컨테이너
리스트와 유사하지만 한 번 생성된 이후에는 요소를 추가·삭제·수정할 수 없음 → 데이터 보호용으로 주로 사용
튜플은 소괄호()를 사용해 생성하며, 각 요소는 쉼표로 구분
tuple_name=(1,2,3,'hello','world')
튜플과 리스트의 차이
- 요소의 변경(추가, 삭제, 수정)이 불가
- 튜플을 합치거나 새로운 튜플 생성 가능
- 튜플은 데이터 불변성(immutable)을 보장 → 변경할 수 없는 상태를 뜻함 (↔ mutable (가변성))
튜플 ↔ 리스트 변경
- list(tuple_name) : 튜프 → 리스트 변경
- tuple(list_name) : 리스트 → 튜플 변경

딕셔너리 (Dictionary)

딕셔너리 : Key(키) - Value(값) 쌍의 데이터를 저장하는 자료구조,
dict_name={
'key_1:'value_1',
'key_2:'value_2',
'key_3:'value_3'
}
딕셔너리는 다양한 용도로 사용 가능 (학생 이름-키, 과목명-평균점수 등의 key-value couple 가능)
딕셔너리에서 자주 사용되는 methods
- keys() : 모든 키를 dict_keys 객체로 반환
- values() : 모든 값을 dict_values 객체로 반환
- items() : 모든 키 값 쌍을 ( key , value ) 튜플로 구성된 dict_items 객체로 반환
- get() : 지정된 키에 대한 값을 반환하고, 키가 존재하지 않으면 기본값을 반환
- pop() : 지정된 키와 해당 값을 딕셔너리에서 제거하고 값을 반환
- popitem() : 딕셔너리에서 마지막 키 값 쌍을 제거하고 반환

데이터 리터러시

데이터 리터러시란?

데이터를 읽고, 이해하고, 비판적으로 분석하는 능력
결과를 의사소통에 활용할 수 잇는 능력
데이터 수집과 원천을 이해하는 것
주어진 데이터에 대한 다양한 활용법을 이해하는 것
데이터를 통한 핵심지표를 이해하는 것
즉, 데이터 리터러시는 올바른 질문을 던질 수 있게 해준다.

데이터 분석에 대한 착각

SQL, Python, Tableau 등 툴을 학습하려고 하지만 막상 데이터 분석을 하려고 시도하면 잘 되지 않는다.
데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각한다.
데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각한다.
분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각한다.

데이터 해석 오류 사례

심슨의 역설 (Simpson's Paradox)
- '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우
- 예시) 영국 공공보건국 2021년 8월 코로나 변이 바이러스에 대한 브리핑 자료
  - 백신 미접종자의 치명률이 0.17%, 백신 2차 접종 완료자의 치명률이 0.86%
  - 백신 접종 완료자의 치명률이 미접종자 대비 약 5배 이상 높게 나타나는 의문스러운 결과
  - 하지만, 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되지 않는다
  - 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안된다.
시각화를 활용한 왜곡
- 자료의 표현 방법에 따라 해석의 오류 여지가 존재
- 예시) 매해 노동자와 자본가가 버는 시간당 액수의 증가를 나타낸 3가지 방식 -《The Economist》의 자료
  - 좌측 그래프에서는 노동자의 임금이 자본가 대비 현저하게 낮은 것을 확인할 수 있음
  - 중앙 그래프는 노동자들의 임금 증가가 자본가 대비 급격하게 이루어졌다고 해석될 여지가 있음
  - 우측 그래프는 노동자들의 임금 증가가 자본가의 수입 증가를 훨씬 능가하나다고 해석될 여지가 있음
샘플링 편향 (Sampling Bias)
- 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생하는 것
- 예시) 1936년 미국 대통령 선거에서 Literary Digest 잡지사가 천만 명에게 우편물로 대규모 여론조사 실시한 사례
  - 240만 명의 응답을 받았고 랜던이 선거에서 57% 득표를 얻을 것이라고 높은 신뢰도로 예측 했지만, 루즈벡트가 62% 득표로 당선
  - 문제는 Literary Digest의 샘플링 방법에 있었다.
    1. 여론 조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용했는데, 이런 명부는 모두 공화당(랜던 측)에 투표할 가능성이 높은 부유층에 편중된 경향성 존재
    2. 우편물 수신자 중 25% 미만의 사람이 응답했으나, 이는 정치에 관심이 없는 사람, Literary Digest를 싫어하는 사람과 다른 중요한 그룹을 제외시켜 표본을 편향되게함
  - 표본의 편향으로 실제와 다른 해석이 가능해진다.
상관관계와 인과관계
- 상관관계
  - 두 변수가 얼마나 상호 의존적인지를 파악하는 것
  - 한 변수의 증가에 따른 다른 변수의 증가/감소 추이를 통해 파악
- 인과관계
  - 실질적으로 하나의 요인에 의해 다른 요인의 수치가 변하는 형태
  - 원인과 결과가 명확한 것
- 예시) 1940년대 보건 전문가의 소아마비와 아이스크림 섭취 간의 연구결과
  - 당시 보건 전문가는 소아마비와 아이스크림의 섭취량에 상관관계가 있는 것을 발견해 전국 소아마비 예방을 위해 아이스크림 섭취량 감소를 권고
  - 소아마비는 주로 여름에 많이 발생하고, 여름에는 아이스크림의 판매량이 급증했기 때문에 여름이라는 계절, 날씨로 인해 공통으로 영향을 받은 것
- 상관관계 ≠ 인과관계 → 항상 유의

데이터 분석에 대한 접근법

데이터 분석에 대한 접근법
1. 문제 및 가설정의 (생각)
2. 데이터 분석 (작업)
3. 결과 해석 및 액션 도출 (생각)
'생각'이 주요한 단계에서 데이터 리터러시가 필요하다.
데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 한다.

문제 정의

문제 정의에 대해

문제 정의란?
- 데이터 분석 프로젝트의 성공을 위한 초석
- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
- 프로젝트의 목표를 설정하고 분석 방향을 결정
문제 정의 사례
- 상황 : 패션 플랫폼 A, 매출 증가가 목표
- (Bad) 문제 정의 : 매출을 어떻게 늘릴 수 있을까?
  - 문제 정의가 모호하고 구체적이지 않으며, 어떤 고객층과 제품에 초점을 맞출지에 대한 명확한 지침이 없다.
- (Good) 문제 정의 : 지난 6개월 간 25~35세 여성 고객층의 구매 전환율이 급격히 감소했다. 이 고객층의 전환율을 2%인 현재에서 5%로 끌어올리기 위해 어떤 마케팅 전략을 적용할 수 있을까?\
문제 정의 예제
- 상황 : 3개월 전부터 자사 제품의 사용자 수가 감소하고 있다. 사용자 수를 늘리기 위한 포인트 이벤트를 진행하고 있지만 효과가 없어 보인다. 또한 자사 제품 내 서비스 중 A보다 B가 더 안좋은 상황이다. 사용자가 줄었기 때문에, 수입도 감소하고 있다.
- 문제 정의
  1. 사용자 수 감소 → 결과가 아닌 매출 감소의 원인
  2. 이벤트 효과가 없음 → 이로인해 발생한는 문제가 근복적인 사용자 수 감소와 이어지지 않음
  3. A보다 B가 상황이 안좋아진 이유를 확인 → 확인할 필요는 있으나 이것이 근본적인 문제라고 하긴 어려움
  4. 수입이 감소한 것이 문제 → 매우 중요한 문제로 판단되나 더 명확할 필요가 있음 (수입이 의미하는 것이 무엇인지)

문제 정의 방법론

MECE (Mutually Exclusive, Collectively Exhaustive)
- 문제 해결과 분석에서 널리 사용되는 접근 방식
- 문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
- MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있다.
- 잘못된 MECE 예시
  - 사람 : 남성, 여성, 아저씨 (남성과 아저씨의 중복)
  - 영화 장르 : 액션, 스릴러, 공포 (멜로, 코미디 등의 누락 장르 존재)
  - 자동차 : SUV, 세단, 쿠페, 현기차 (분류 기준이 다른 것이 존재, 종류 vs 브랜드)
  - 3학년 3반 학급원 : 영어 우수 학생, 수학 우수 학생 (불명확한 분류 기준, 중복·누락된 정보 존재 가능성)
로직 트리 (Logic Tree)
- MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
- 상위 문제로부터 시작해 하위 문제로 계층적 접근
- 예시) 로직 트리를 활용하여 문제 정의 해보기
  - 수입 = 매출액으로 정의하고 구조화
  - 사용자 수 감소에서 A, B 서비스를 구분해 생각
  - 포인트 이벤트는 해결 방안 중 하나이고, 문제가 되는 것은 아니다.
  - B 서비스를 더 세분화해 A 서비스와 비교해서 다른 점이 무엇인지 찾아볼 수 있도록 구조화
- 로직 트리는 정해진 답이 없고, 사용자의 기준에 따라 그 깊이와 넓이가 달라진다.
- 인과 관계의 순서 : 작은 가지 → 큰 가지
- 로직 트리 Cheat Sheet
  - NesCafe의 로직트리 자료, 산업군, 기업 규모 등 상황에 따라 가공하여 사용 가능

문제 정의를 해야하는 이유

문제 정의는 풀고자 하는 것을 명확하게 정의하고, 이것을 해결하기 위한 데이터 분석의 방향성을 결정하고, 결과를 정리하고 해석하여 더 나아지기 위한 새로운 액션 플랜을 수립하기 위해 필요하다.
문제 정의의 핵심
- So what?
  - 수집한 정보와 소재에서 '결국 어떻다는 것인지'를 알아 내는 작업
  - 그래서, 따라서, 이렇듯 앞에 오는 정보나 소재에서 과제의 답변에 맞는 중요한 핵심을 추출하는 작업
  - 나타난 현상을 바탕으로 과제에 비추어 내용의 핵심을 추출하는 작업
- Why So?
  - 왜 그렇게 말할 수 있는지
  - 구체적으로 무슨 뜻인지를 검증하고 확인하는 작업
  - 이 요소의 타당성을 자료 전체 혹은 그룹핑한 요소로 증명할 수 있다는 사실을 검증하는 작업
문제 정의 팁
- 결과를 공유하고자 하는 사람이 누구인지 정의하기
- 결과를 통해 원하는 변화를 생각하기
- 회사 소속이라면, 경영자의 입장에서 보려고 노력하기
- 많은 사람들과 의견을 나눠보는 것도 방법
- 반드시 혼자서 오래 고민해보는 시간을 가질 것

데이터의 유형

정성적·정량적 데이터

정성적 데이터 (Qualitative Data)
- 비수치적 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함
- 대부분 텍스트, 비디오, 오디오 형태로 존재
- 정형되지 않고 구조화 되어있지 않다.
- 데이터를 구조화하기 어렵다.
- 새로운 현상이나 개념에 대한 이해를 심화하는데 사용
정량적 데이터 (Quantitative Data)
- 수치적으로 표현되는 정보, 양적 측정과 분석을 통해 얻을 수 있다.
- 데이터가 숫자 형태로 존재해 통계적 분석이 용이
- 개인의 해석, 주관이 적게 적용하는 객관성을 가진다.
- 지표로 만들기 용이
- 설문조사, 실험, 인구 통계, 지표 분석 등에서 활용
비즈니스 목표를 위해 두 가지 데이터 유형을 적절하게 활용하는 것이 필요

정량적 데이터의 활용

정량적 데이터의 활용 예시
- 정량적 데이터는 객관적이고 측정 가능한 지표 제작에 적합
- 일일 활성 사용자수(DAU, Daily Active User), 재방문 비율(Retention) 등 서비스 건강 상태를 나타내는 중요 지표 확인
통계적 분석 적용
- 분포, 평균, 중앙값 등을 계산해 데이터의 경향성과 패턴을 파악
- 해당 내용을 근거로 의사결정 과정에서 중요한 판단을 내린다.
다양한 데이터 분석 방법 적용
- 비즈니스 분석, 예측 모델링, 추세 분석을 포함한 머신러닝과 같은 현대적 데이터 분석 기법에 활용 가능
- 이를 통해 미래 예측, 효율적 자원 배분, 시장 변화에 대한 적응이 가능해진다.

이런 특성들을 바탕으로 우리는 다음과 같은 질문에 대답할 수 있다.

한 달간 회사가 벌어들이는 매출은 얼마인가?
우리 플랫폼의 DAU는?
지난달 방문 유저 중 얼마나 다시 이용 했는가?

지표 설정

지표에 대해서

지표
- 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
- 목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공
- 정의한 문제에 대해 정확하게 파악하기 위해 필요
문제 정의와 지표 설정
- 문제 정의를 통해 '어떤 문제를 풀고자 하는가?'를 정의했다면, 지표는 '어떤 결과를 기대하는가?'에 대한 정량화된 기준을 정의

주요 지표 이해하기

Active User (AU, 활성유저)
- 서비스에 유입되는 모든 유저 X
- AU에 대한 정의에 따라 전략과 방향성이 달라진다.
- AU에 대한 정의로 '이탈 유저'가 정의
- 투자를 위한 서비스 지표에서 중요한 역할
우리 서비스만의 AU를 찾기 위해서
- 어디까지 경험한 유저가 우리의 AU일까?
- 일반 유저와 AU를 나누는 기준은?
- 유저는 어디서 우리 서비스의 효용성을 느낄까?
- 우리가 핸들링 가능한 유저의 사이즈는?

그 외 주요 지표 정리

지표	정의
전체 Active User	앱 접속 이력이 있는 유저
서비스별 Active User	서비스별 서브메인 이하 추가 액션이 있는 유저
DAU / WAU / MAU	Daily / Weekly / Monthly Active User
이탈유저 (이탈율)	전체 DAU로 집계됐지만, 각 서비스의 DAU로 집계되지 않은 유저 (비율)
CVR (Conversion Rate)	특정 행동 이후 전환된 비율
CTR (Click Through Rate)	어떤 페이지에 접근 후 특정 요소를 클릭한 비율

Retention Ratio (재방문율)
- 서비스를 사용한 사람이 다시 서비스를 사용하는 비율 (%)
- 높은 리텐션은 흭득 비용에 투자한 비용을 빠르게 회수 가능
- 서비스(특히 앱서비스) 성장에 있어서 매우 중요한 지표
- 리텐션 측정 방법
  - N-Day 리텐션
    - 최소 사용일로부터 N일 후 재방문한 AU의 비율 (일반적으로 사용하는 리텐션 지표)
    - 게임, 소셜 등 습관적·반복적 사용 또는 행동 유도 제품에 적합 (매일 사용하는 제품)
  - Unbounded 리텐션 (이탈률의 반대 개념)
    - 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율 (방문 이전 날짜는 방문했다고 취급)
    - 특정일을 포함하여 그 이후에 한 번이라도 재방문한 유저의 비율
    - 유저가 비정기적으로 방문하는 서비스에 적합 (사용 빈도가 낮은 서비스)
    - 채용 사이트, 쇼핑몰 등의 사용 주기가 긴 서비스에 N-day 리텐션 적용 시 불필요한 할인, 푸시 메시지 발송 등의 잘못된 액션을 할 가능성 존재
    - 다만, 지속적으로 접속하지 않던 유저의 접속으로 인해 이전에 집계된 리텐션 값들이 전부 변동하는 상황 발생 가능
      → 해당 지표는 절대적인 수치보다 지표의 변화 트랜드를 보는 용도로 활용하는 것을 권장
  - Bracket 리텐션
    - 설정한 특정 기간을 기반으로 재방문율을 측정하는 것
    - N-day 리텐션 확장 개념 (일/주/월 단위가 아닌 지정 구간으로 나눔)
    - AU가 특정 활동을 위해 각 Bracket 내 서비스 재방문시 잔존 유저로 해석
    - 서비스 사용 주기가 길거나 주기적인 경우 사용하기 적합한 지표 (식료품 배달 서비스, 세차 서비스 등)
- 리텐션에 대한 이해
  - 리텐션이 높은 세그먼트 발굴 작업 필요 → 이에 따른 행동 유도 가능
  - 서비스 사용 주기에 따라 리텐션 조회 기간을 늘려야 한다.
  - 사후 분석 시 용이
Funnel (퍼널)
- 퍼널의 역할
  - 유저들이 어디서 이탈하는지를 확인하기 위한 구조화
  - 잠재 고객을 유입시키며 최종적인 목표 액션을 달성할 때 까지의 과정
  - 모든 서비스와 비즈니스는 각 단계로 갈수록 이용자 수가 감소
  - 각 단계의 전환율 또는 첫 유입 대비 전환율을 측정
- AARRR
  - 디지털 마케팅 시 퍼널을 활용하는 프레임 워크
  - 단계별 전환율을 지표화 하여 서비스 보완 지점 확인
LTV (Life Time Value, 고객 평생 가치)
- LTV의 역할
  - 해당 유저가 우리에게 평생 주는 이익은 얼마?
  - 고객 생애 주기 : 한 명의 유저가 서비스를 사용하기 시작하여 이탈할 때 까지의 기간
  - LTV는 유저와의 관계를 측정하고, 이를 사업적 이익으로 가져가는데 중요한 지표
  - LTV가 높다는 것은 해당 서비스와 관계가 좋고, 충성도 높은 고객이 많다는 것
- LTV 산출 방법
  - 이익 × Life Time × 할인율 (미래 비용에 대한 현재 가치)
  - 연간 거래액 × 수익률 × 고객 지속 연수
  - 고객의 평균 구매 단가 × 평균 구매 횟수
  - (매출액 - 매출 원가) × 구매자 수
  - (평균 구매 단가 ×구매 빈도 × 구매기간) - (신규 흭득 비용 + 고객 유지 비용)
  - 월 평균 객단가 / 월 가중 평균 잔존율
  - 매우 다양한 방법으로 산출 가능하며, 서비스·관점마다 다르기 때문에 다각도로 고민이 필요
- LTV 정리
  - 자사 서비스에 딱 맞는 LTV를 산출하는 것은 매우 어려운 일
  - 사용 주기, 변수, 객단가 등 여러가지 고려 필요
  - LTV 향상 방안 → 객단가 상승, 구매 빈도 상승, 이탈률 감소, 이용 시간 증가 등
  - LTV는 가정을 베이스로 하는 지표이기에 꾸준한 모니터링이 필수
  - LTV에 관심이 간다면 읽어보기 좋은 자료들
    - PAP Excel로 Retention 변화에 따른 LTV 시뮬레이션 하기
    - 토스 - 무한한 사업 전략의 세계로 건너가는 법

북극성 지표

북극성 지표란?
- 제품/서비스의 '성공'을 정의
- 제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
- 장기 성장을 위한 필수적 모니터링 요소
좋은 북극성 지표의 특징
- 제품/서비스 전략의 핵심
- 유저/고객이 제품/서비스에서 느끼는 가치
- 회사의 사업 목표를 나타내는 선행지표
좋은 북극성 지표를 위한 체크 리스트
- 유저가 목적을 달성하는 시기
- 해당하는 유저
- 측정 가능한 지표 여부
- 적절한 측정 주기
- 외부 요인에 의해 영향을 받는지
- 북극성 지표의 성장이 사업의 성장과 동반하는지
- AARRR 퍼널 전 과정이 북극성 지표에 영향을 주는지
- 북극성 지표의 변화가 적어도 매주 관찰 가능한지
좋지 않은 북극성 지표의 예
- 외부 요인의 영향을 많이 받는 지표
- 유저/고객의 전체 여정을 반영하지 않는 지표
- 유저/고객이 직접 가치를 못느끼는 지표
- 측정 불가 또는 기간 성정이 불가능한 지표
- 상황에 따라 위 지표들도 북극성 지표가 될 수 있음

북극성 지표 유형

북극성 지표	수익 모델	서비스 유형	서비스 예시
사용 시간	광고, 사용료	SNS, 플랫폼, 스트리밍	유튜브, 인스타, 넷플릭스
거래량	판매액, 수수료	커머스, 매칭 서비스	쿠팡, 에어비앤비, 크몽
효용	사용료	생산성 도구, 헬스 케어 앱	Slack, Zoom, 지라

북극성 지표의 대표 사례

기업명	북극성 지표	전략
에어비앤비	예약 완료 수	예약 완료 수 증가
인스타	DAU	유저 사용성 최적화
넷플릭스	월간 시청 시간 중앙값	사용 품질 개선

북극성 지표가 중요한 이유
- 제품, 사업, 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는 지에 대한 방향 제시
- 진척과 가치 창출을 전사에 제시 → 지원 조직의 적극적인 협력, 제품 개발 액션 속도 향상 등
- 제품/서비스 조직이 결과에 책임 부여 → 비즈니스 임팩트에 따른 평가 가능
- 효율 증대 : 전 직원에게 일관된 목표 제시로 집중도, 효율성↑ (서로 상반된 목표 집중, 중복 업무 방지)
북극성 지표의 구조

결론 도출

결과와 결론의 차이

결과 → 무엇을
- 데이터 처리, 분석, 모델링 후 얻어진 구체적인 데이터의 출력
- 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
- 예시) '고객 설문 조사 데이터 분석 결과, 고객 만족도와 구매 빈도 사이 강한 상관관계가 있음을 보여준다.'
- 계산과 분석을 통해 얻어진 결과물
결론 → 그것이 왜 중요한가
- 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
- 데이터 기반 해석, 추론 또는 권고 사항을 포함
- 예시) '고객 만족도와 구매 빈도 사이 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있다.'
- 목적에 대해 어떤 의미가 있는지 설명하는 것
결과 → 결론 도출 시 스토리텔링이 필요하나, 필요 이상의 자기 해석을 융합하면 노이즈가 발생하거나 편향이 발생할 수 있어 데이터로 알 수 있는 범위에서만 생각하는 것이 중요

결론을 잘 정리하는 법

앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리하고, 결론을 공유할 대상이 누구이며, 어떻게 변화라길 원하는지 생각

단순하고 쉽게 전달
- 핵심 지표 위주로 먼저 공유
- 기표 해석 방법에 대해서도 설명
- 해당 지표에 오너십이 있는 조직에서 활용할만한 포인트 제안
- 액션 아이템을 제안하는 것이 핵심
흥미 유발
- 모든 내용을 담지 않고 흥미로운 부분 위주로 공유 → 집중력 유지
- 상대가 궁금해할만할 내용에 대한 고민을 하고 필터링 하기
- 세부사항은 별도 문서로 정리해 요청하면 따로 공유
대상자 관점에서의 접근
- 대상자(공유 받는 사람)의 시선에서 이해하기 쉽도록 정리
- 지식의 저주(내가 아는것을 상대도 알고 있다고 여기는 착각)에 빠지지 않고 논지를 뒷받침 해줄 자료 첨부
- 대상자의 허들이 낮은 시각화 활용
시각화 팁
- 화려한 그래프보다는 대상이 직관적으로 이해할 수 있도록 구성
- 보통 선, 막대 그래프만으로 거의 대부분의 리포팅이 가능
- 각 그래프의 범례와 단위 표기
결론 보고서에 쓰면 좋은 플로우
- 전체 내용을 한 문장으로 정리하는 요약
- 해당 보고서의 메인 주제
- 해당 보고서를 쓴 이유와 원하는 변화
- 문제 정의 단계
- 핵심 내용 전개
- 결론 및 액션 아이템
정리
- 앞선 문제 정의, 지표 설정 당시의 목적을 상기하며 정리
- 결론 공유 대상이 누구이며, 변화의 방향성을 생각하기

결국 데이터 리터러시란?

눈 앞의 데이터에 의존하지 않고 스스로 목적과 문제를 정의하는 것
목적 달성에 필요한 데이터와 자료를 설정하는 것
문제의 정보를 효과적으로 얻을 수 있는 데이터 보는 방법을 분석하는 것
단순히 데이터를 보는 방식이나 분석 방법론, 통계 지식에 매몰되지 않고 항상 '왜?'를 생각하기
데이터 리터러시 관련 도서 추천
- 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력 / 저자 : 카시와기 요시키
- 로지컬 씽킹 / 저자 : 데루야 하나코, 오카다 게이코

출처
내일배움캠프 자료

'TIL > 내일배움캠프' 카테고리의 다른 글

파이썬으로 데이터 분석하기 Ⅲ (0)	2026.05.21
파이썬으로 데이터 분석하기 Ⅱ (0)	2026.05.20
반도체 도메인에서 데이터 기반 품질관리 직무란? Ⅰ (0)	2026.05.18
히트맵으로 시각화하기 (0)	2026.05.15
막대 그래프를 다양하게 시각화하기 (0)	2026.05.14

현재글파이썬으로 데이터 분석하기 Ⅰ

밤에만

TIL

품질관리, 프롬프트, sql, ADsP, 직무, AI, 내일배움캠프, 자격증, 데이터분석준전문가,

Today :
Yesterday :

밤에만

파이썬으로 데이터 분석하기 Ⅰ

[내일배움캠프] QA/QC 6기 - 7일차

파이썬으로 데이터 분석하기

파이썬 (Python)

Python 공부 방법

Python 개발환경 설정

변수 / 사칙연산

자료형

문자열

숫자열

불리언 (Boolean)

결측값 (NaN)

입력문 (input)

리스트 (List)

튜플 (Tupel)

딕셔너리 (Dictionary)

데이터 리터러시

데이터 리터러시란?

데이터 분석에 대한 착각

데이터 해석 오류 사례

데이터 분석에 대한 접근법

문제 정의

문제 정의에 대해

문제 정의 방법론

문제 정의를 해야하는 이유

데이터의 유형

정성적·정량적 데이터

정량적 데이터의 활용

지표 설정

지표에 대해서

결론 도출

결과와 결론의 차이

결론을 잘 정리하는 법

결국 데이터 리터러시란?

'TIL > 내일배움캠프' 카테고리의 다른 글

'TIL/내일배움캠프'의 다른글

티스토리툴바

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

파이썬으로 데이터 분석하기 Ⅰ

[내일배움캠프] QA/QC 6기 - 7일차

파이썬으로 데이터 분석하기

파이썬 (Python)

Python 공부 방법

Python 개발환경 설정

변수 / 사칙연산

자료형

문자열

숫자열

불리언 (Boolean)

결측값 (NaN)

입력문 (input)

리스트 (List)

튜플 (Tupel)

딕셔너리 (Dictionary)

데이터 리터러시

데이터 리터러시란?

데이터 분석에 대한 착각

데이터 해석 오류 사례

데이터 분석에 대한 접근법

문제 정의

문제 정의에 대해

문제 정의 방법론

문제 정의를 해야하는 이유

데이터의 유형

정성적·정량적 데이터

정량적 데이터의 활용

지표 설정

지표에 대해서

결론 도출

결과와 결론의 차이

결론을 잘 정리하는 법

결국 데이터 리터러시란?

'TIL > 내일배움캠프' 카테고리의 다른 글

'TIL/내일배움캠프'의 다른글

관련글

티스토리툴바