ADsP
Chap 3. 데이터 분석 기획
분석 기획의 정의와 특징
- 분석 기획의 정의
- 실제 분석 수행 전, 분석 수행 과제의 정의 및 결과 도출을 위해 관리 방안을 사전 계획하는 작업
- 어떤 목표(What) 달성을 위해 어떤 데이터를 가지고 어떤 방식(How)의 수행에 대한 계획을 수립하는 중요한 사전작업
- 분석 대상과 방법에 따른 4가지 분석 주제
발견 : 분석 대상 자체를 새롭게 도출분석 대상(What) Known Un-known 분석 방법
(How)Known 최적화
(Optimization)통찰력
(Insight)Un-known 해결책
(Solution)발견
(Discovery) - 목표 시점별 분석 기획
- 과제 중심적 접근 방식 : 빠르게 해결 목표
- 장기적 마스터플랜 방식 : 지속적인 분석 내재화 목표
당면한 분석 주제의 해결
(과제 단위)지속적 분석 문화 내재화
(마스터 플랜 단위)1차 목표 Speed & Test Accuracy & Deploy 과제 유형 Quick & Win Long Term View 접근 방식 Problem Solving
(문제 해결을 위한 단기적 접근 방식)Problem Definition
(분석 과제 정의를 위한
중장기 마스터플랜 접근 방식)
분석 기획 시 고려사항
- 가용 데이터 고려 (Available Data)
- 분석의 기본이 되는 데이터가 확보 될 수 있는지 고려 필요
- 분석을 위한 데이터 확보가 우선, 데이터 유형에 따라 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야함
- 적절한 활용 방안과 유스케이스의 탐색 (Proper Buisiness Use Case)
- 기존의 잘 구현되어 활용되는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요
- 장애 요소에 대한 사전 계획 수립 (Low Barrier Of Excution)
- 분석 수행 시 발생 가능한 장애 요소에 대한 사전 계획 수립 필요
- 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리(Change Management)가 고려되어야 함
분석 방법론 개요
- 데이터 분석 프로젝트는 개인의 역량 혹은 우연한 성공에 기이내서는 안되며, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야함
- 방법론은 ① 상세한 절차 (Procudure), ② 방법 (Methods), ③ 도구와 기법 (Tools&Techniques), ④ 템플릿과 산출물 (Templates&Outputs)으로 구성
- 기업의 합리적인 의사 결정을 가로막는 방해요소 3가지
- 고정 관념 (Stereotype)
- 편향된 생각 (Bias)
- 프레이밍 효과 (Framing Effect) : 동일한 사건·상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상
ex) 물컵에 물이 반이나 있다 / 반밖에 없다
- 분석 방법론의 생성 과정
- 개인의 암묵지가 조직의 형식지로 발전 (형식화)
- 형식지를 체계화하여 문서화한 최적화된 형식지로 전개함으로써 방법론 제작
- 만들어진 방법론은 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐 암묵지로 발전

- 분석 방법론이 적용되는 업무 특성에 따른 모델
- 폭포수 모델
- 이전 단계 완료 후 다음 단계로 진행 가능한 하향식 단계를 거쳐 순차적으로 진행되는 방법
- 문제 및 개선사항 발견 시 바로 이전 단계로 돌아가 피드백 과정을 수행
- 프로토타입 모델
- 폭포수 모델의 단점 보완을 위해 점진적으로 시스템 개발하는 접근 방식
- 고객의 요구를 완전히 이해하지 못하는 경우 적용
- 일부분을 먼저 개발하여 사용자에게 제공 후 사용자의 요구를 분석, 정당성 점검, 성능 평가로 얻은 결과를 통해 개선 작업 시행
나선형 모델
- 반복을 통해 점진적으로 개발
- 프로토타입 모델과 유사하지만 사용자의 요구보다 위험요소의 사전제거에 초점
- 처음 시도하는 프로젝트에 적용 용이, 효과적인 관리 체계를 갖추지 못하면 복잡도↑
계층적 프로세스 모델
- 일반적으로 분석 방법론은 이 형태로 구성
- 최상위 계층인 수 단계 안에 여러 테스크, 테스크 내의 여러 스텝으로 구성 (보통 5단계 사용)
- 단계 (Phase) : 프로세스 그룹을 통해 완성된 단계적 산출물 생성
- 테스크 (Task) : 물리적·논리적 단위로 품질 검토의 항목이 될 수 있음
- 스텝 (Step) : WBS (Work Breakdown Structure)의 워크패키지에 해당, '입력 자료, 처리 및 도구, 출력'으로 구성된 단위 프로세스
- 폭포수 모델
전통적 분석 방법론 2가지
- KDD (Knowledge Discovery in Database) 분석 방법론
- 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용 가능하도록 체계적으로 정리한 데이터 마이닝 프로세스
(데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조) - KDD 분석 방법론 프로세스
- 데이터셋 선택
- 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수
- 필요한 데이터를 선택 (타깃 데이터 생성)
- 데이터 전처리
- 추출된 분석 대상용 데이터 셋에 포함된 잡음(Noise), 이상치(Outlier), 결측치(Missing value)를 파악하여 제거하거나 의미 있는 데이터로 재가공
- 추가로 요구되는 데이터셋이 있다면 1단계 재실행
- 데이터 변환
- 데이터 전처리 과정을 통해 정제된 데이터의 분석 목적에 맞게 변수 생성, 선택하고 데이터의 차원을 축소
- 데이터마이닝 프로세스 진행을 위해 데이터셋 변경
- 데이터 마이닝
- 학습용 데이터를 이용 → 분석 목적에 맞는 데이터 마이닝 기법을 선택, 적절한 알고리즘 적용하여 데이터 마이닝 작업을 실행
- 필요에 따라 데이터 전처리 프로세스 추가 실행
- 해석과 평가
- 결과에 대한 해석과 평가, 그리고 분석 목적와의 일치성 확인
- 필요에 따라 1~4단계 반복 수행
- 데이터셋 선택
- 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용 가능하도록 체계적으로 정리한 데이터 마이닝 프로세스
- CRISP-DM (Cross Industry Standard Process for Data Mining) 분석 방법론
- CRISP-DM은 KDD와 비슷하나 조금 더 세분화되어 있다는 차이점 존재
- 단계, 테스크, 스텝으로 3단계로 구성된 일반적인 계층적 프로세스 모델과는 달리 단계 - 일반화 테스크 - 세분화 테스크 - 프로세스 실행의 4개의 레벨, 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 구성
- 각 단계는 단방향 구성이 아닌 단계 간 피드백을 통해 완성도 상승이 가능
: 업무 이해 ⇔ 데이터 이해, 데이터 준비 ⇔ 모델링 사이 단계 피드백 가능 - CRISP-DM 분석방법론 프로세스
- 업무 이해 : 업무 목적·상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
- 데이터 이해 : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
- 데이터 준비 : 분석용 데이터셋 선택 및 편성, 데이터 정제·통합·포맷팅
- 모델링 : 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성 및 평가
- 평가 : 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개 : 완성된 모델을 실무에 적용하기 위한 계획 수립 단계, 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성 및 리뷰
빅데이터 분석 방법론
- 빅데이터 분석 방법론 개요 : 계층적 프로세스 모델
- 빅데이터 분석 방법론 5단계 플로우
- 분석 기획 : 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획 수립 단계
- 데이터 준비 : 데이터 분석에 필요한 원천 데이터 정의하고 준비, 데이터 수집 및 정합성 체크
- 데이터 분석 : 분석용 데이터셋 편성, 다양한 분석 기법과 알고리즘 이용해 데이터 분석, 모델링 및 모델 평가
- 시스템 구현 : 설계 및 구현, 분석 기획에 맞는 모델 도출하고 운영중인 가동 시스템에 적용, 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현
- 평가 및 전개 : 프로젝트 평가 및 보고, 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트 종료하는 단계
- 빅데이터 분석 방법론 단계별 수행 프로세스
( 단계 - 테스크 )- 분석 기획
- 비즈니스 이해 및 범위설정
- 프로세스/도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
- 입력 자료 : 업무 매뉴얼, 전문 지식 등
- 출력 자료 : 비즈니스 이해 및 도메인 문제점, 프로젝트 범위 정의서 (SOW, Statement Of Work)
- 프로젝트 정의 및 계획 수립
- 프로세스/도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계, 프로젝트 수행 계획 작성, WBS 작성 도구, 일정계획 수립 도구
- 입력 자료 : SOW, 빅데이터 분석 프로젝트 지시서, 모델 운영 이미지 설계서, 모델 평가 기준
- 출력 자료 : 프로젝트 정의서, 모델운영 이미지 설계서, 프로젝트 수행 계획서, WBS
- 프로젝트 위험계획 수립
- 프로세스/도구 : 위험 식별 절차, 위험 영향도 및 발생 가능성 분석, 위험 우선순위 판단, 위험 정량적·정성적 분석
- 입력 자료 : SOW, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료, 식별된 위험 목록
- 출력 자료 : 식별된 위험 목록, 위험관리 계획서
- 비즈니스 이해 및 범위설정
- 데이터 준비
- 필요 데이터 정의
- 프로세스/도구 : 분석에 필요한 내·외부 데이터 정의, 정형·비정형·반정형 데이터 정의, 데이터 획득 방안 수립
- 입력 자료 : 프로젝트 수행 계획서, ERD, 메타데이터 정의서, 데이터 정의서
- 출력 자료 : 데이터 정의서, 데이터 획득 계획서
- (정형·비정형) 데이터 스토어 (DS) 설계
- 프로세스/도구 : DB 논리·물리 설계, 데이터 매핑, 비정형·반정형 데이터 논리·물리 설계
- 입력 자료 : 데이터 정의서, 데이터 획득 계획서
- 출력 자료 : 정형·비정형 DS 설계서, 데이터 매핑 정의서
- 데이터 수집 (저장) 및 정합성 점검
- 프로세스/도구 : 데이터 크롤링 및 ETL 도구, 데이터 수집 스크립트, 데이터 품질 확인, 정합성 점검 리스트
- 입력 자료 : 데이터 정의서, 데이터 획득 계획서, DS 설계서
- 출력 자료 : 수집된 분석용 데이터, 데이터 정합성 점검 보고서
- 필요 데이터 정의
- 데이터 분석
- 분석용 데이터 준비
- 프로세스/도구 : 프로젝트 목표 확인, 비즈니스 룰 확인, 데이터 선정 및 변환, ETL (Extract, Transform, Load) 도구
- 입력 자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, DS
- 출력 자료 : 비즈니스 룰, 분석에 필요한 데이터 범위, 분석용 데이터셋
- 텍스트 (비정형 데이터) 분석
- 프로세스/도구 : 분석용 텍스트 데이터 확인 및 추출, 분류체계 설계, 형태소 분석, 키워드 도출, 감정분석 등
- 입력 자료 : 비정형 DS, 분석용 텍스트 데이터, 용어사전
- 출력 자료 : 분석용 텍스트 데이터, 텍스트 분석 보고서
- 탐색적 분석
- 프로세스/도구 : 탐색적데이터분석(EDA, Exploratory Data Analysis) 도구, 통꼐분석, 연관성 분석, 데이터 분포 확인, 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
- 입력 자료 : 분석용 데이터셋
- 출력 자료 : 데이터 탐색 보고서 및 시각화 보고서
- 모델링
- 프로세스/도구 : 데이터 분할 패키지, 통계 모델링 기법, 기계학습, 모델 테스트, 모니터링 방안 수립, 알고리즘 설명서 작성
- 입력 자료 : 분석용 데이터셋, 모델링 결과 보고서
- 출력 자료 : 훈련용·테스트용 데이터 (데이터 과적합 방지), 모델링 결과 보고서, 알고리즘 설명서, 의사코드, 모니터링 방안
- 모델 평가 및 검증
- 프로세스/도구 : 모델 평가·품질관리·개선작업·검증
- 입력 자료 : 모델링 결과 보고서, 평가용 데이터, 검증용 데이터
- 출력 자료 : 모델 평가 보고서, 모델 검증 보고서
- 분석용 데이터 준비
- 시스템 구현
- 설계 및 구현
- 프로세스/도구 : 정보시스템 개발 방법론, 시스템 통합 개발 도구, 프로그램 언어, 패키지
- 입력 자료 : 알고리즘 설명서, 운영중인 시스템 설계서, 시스템 분석 및 설계서
- 출력 자료 : 시스템 분석 및 설계서, 구현 시스템
- 시스템 테스트 및 운영
- 프로세스/도구 : 품질관리 활동, 운영계획 수립, 운영자 및 사용자 교육
- 입력 자료 : 구현 시스템, 시스템 테스트 계획서, 시스템 분석 및 설계서
- 출력 자료 : 시스템 테스트 결과 보고서, 운영자 및 사용자 매뉴얼, 시스템 운영 계획서
- 설계 및 구현
- 평가 및 전개
- 모델 발전 계획 수립
- 프로세스/도구 : 모델 발전 계획 수립
- 입력 자료 : 구현 시스템, 프로젝트 산출물
- 출력 자료 : 모델 발전 계획서
- 프로젝트 평가 및 보고
- 프로세스/도구 : 프로젝트 평가기준, 정량적·정성적 평가, 프로젝트 지식 자산화 작업, 프로젝트 종료
- 입력 자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서
- 출력 자료 : 프로젝트 성과 평가서, 프로젝트 최종 보고서
- 모델 발전 계획 수립
- 분석 기획
분석 과제 발굴 개요
- 분석 과제 발굴

- 하향식 접근법 : 문제가 주어진 상태에서 답을 구함
→ 전통적으로 수행되던 분석 과제 발굴 방식 - 상향식 접근법 : 문제가 무엇인지 모르는 상태
→ 대규모 데이터 및 빠른 기업 환경 변화에서는 문제 정의가 어려워지고 있음 - 실제 의사결정 시에는 두 방법을 혼용, 상호 보완 관계일 때 최적의 의사결정이 가능
- 하향식 접근법 : 문제가 주어진 상태에서 답을 구함
- 하향식 접근법
- 1단계 : 문제 탐색
- 2단계 : 문제 정의
- 3단계 : 해결 방안 탐색
- 4단계 : 타당성 평가
출처
전용문, 박현민 지음, 2026 ADsP 데이터분석 준전문가, 위키북스
내일배움캠프 교육 자료