[내일배움캠프] QA/QC_6기 - 사전캠프 10일차
- TIL
- 개인 미니 프로젝트
- To-Do List
- 미션6 : 개인 미니 프로젝트
- ADsP 강의 수강 (Chap11~14)
미션 6
개인 미니 프로젝트
- 주제 선정 및 데이터 찾기
- Kaggle 또는 UCI Repository에서 선정한 주제에 맞는 데이터셋을 선택
- GPT로 분석 계획 세우기 (프롬프트)
너는 제조업 데이터 분석 전문가야.
데이터셋 이름: semiconductor_wafer_defect_dataset
분석 질문: defect_label 컬럼에서 1로 표기된 불량 웨이퍼들이 어떤 단계에서 불량이 발생했고, 어떤 부분에서 불량을 만들었는지
분석 데이터 컬럼 목록: wafer_id temperature_c pressure_torr gas_flow_sccm etch_rate_nm_min voltage_v current_ma process_step defect_label
데이터 샘플 (5행): 1 457.4507123 747.2872095 113.2150527 93.85261427 5.139314499 20.34174706 Deposition 0 2 447.9260355 746.3975767 116.9450054 94.73875277 5.113329437 20.02451086 Lithography 0 3 459.7153281 706.1307048 114.0261894 95.51435903 4.625392062 19.13768987 Deposition 0 4 472.8454478 750.0972942 121.1041805 102.5748917 5.231833689 19.99494668 Deposition 0 5 446.4876994 781.9848725 131.9717853 89.02226153 4.40396693 20.98168325 Deposition 0
이 데이터로 내 질문에 답하기 위해 어떤 순서로 분석을 진행하면 좋은지 단계별 계획을 짜줘.
각 단계에서 사용할 pandas 함수나 시각화 방법도 같이 알려줘.- 데이터 불러오기 및 기본 구조 확인
- 전체 및 불량 웨이퍼 수, 정상/불량 비율, 결측치 여부, 수치형 컬럼 범위
- 정상 웨이퍼와 불량 웨이퍼 분리
- 이 단계에서 불량 데이터 수가 너무 적으면 이후 분석 결과 해석 시 통계적으로 조심해야함
- 공정 단계별 불량 발생 수 확인
- 공정 단계별 불량률 계산
- 정상/불량 공정 조건 비교
- 공정 단계별 정상/불량 조건 비교
- 변수별 분포 비교
- 공정 단계별 변수 분포 시각화
- 상관관계 분석
- 상관관계는 원인이라고 단정 금지 → 우선 점검해야 할 후보 변수
- 불량 발생 조건 구간 분석
- 공정단계 - 변수 구간별 불량률 분석
- 간단한 모델로 중요 변수 확인
- 최종 분석 결과 정리
- 데이터 불러오기 및 기본 구조 확인
- 결과물 정리 및 현장 연결하기
- 데이터셋 : semiconductor_wafer_defect_dataset
- 분석 질문
- 어떤 공정단계에서 주로 불량이 발생했는가
- 정상 웨이퍼와 비교했을 때 어떤 공정 조건 차이가 있었는가
- 어떤 변수가 불량 발생에 가장 큰 영향을 준 것으로 보이는가
- 분석 방법 요약
- 공정 단계별 불량 개수와 불량률을 비교하여 불량이 집중된 공정을 확인하였다.
- 이후 정상 웨이퍼와 불량 웨이퍼의 공정 조건을 boxplot, histogram, 구간별 불량률 그래프로 비교하였다.
- 마지막으로 상관관계 분석과 Decision Tree 모델을 활용하여 주요 원인 후보 변수를 확인하였다.
- 주요 인사이트
- 불량은 Deposition이 아니라, CMP, Lithography, Oxidation 중심으로 발생
- 불량 웨이퍼는 공통적으로 낮은 압력 조건에서 발생
- 고온·저압·높은 식각속도 구간에서 불량률이 급격히 증가시각화 첨부
- 시각화 첨부
- 공정 단계별 불량 갯수 및 불량률

- 정상/불량 웨이퍼의 공정 조건 비교

- 공정 단계별 정상/불량 조건 비교



- 변수 구간별 불량류 분석


- 간단한 모델을 통한 불량 분류 테스트

- Decision Tree Feature Importance

- 공정 단계별 불량 갯수 및 불량률
- QA/QC 현장 연결
- 압력 조건 관리가 가장 우선적인 관리 포인트
불량 웨이퍼는 모든 공정에서 정상보다 낮은 압력 조건에서 발생했다. 따라서 실제 현장에서 챔버 압력 제어장치, 압력 센서, 진공라인, 벨브 상태, 레시피 설정값 이탈 여부를 우선 점검 해야한다. - 공정 조건의 단일 평균값보다 위험 구간 관리가 중요
전체 평균만 보면 불량률이 매우 낮아 보이지만, 온도 487℃ 이상, 압력 686 torr 이하, etch rate 117.5 nm/min 이상 구간에서 불량률이 급격히 증가하였다. 따라서 QA/QC 관점에선느 단순 평균 관리보다 관리 상한선과 하한선을 설정하고, 특정 위험 구간 진입 시 알람을 울리는 등의 방식이 필요할 것으로 보인다. - 공정별 관리 포인트를 다르게 설정
CMP에서는 낮은 압력과 높은 etch rate, Lithography에서는 높은 etch rate와 voltage/current 상승, Oxidation에서는 고온·저압·저유량 조건을 중점적으로 점검해야한다. 즉, 전체 공정에 동일 기준을 적용하기 보다 공정 단계별 주요 변수와 위험 조건을 구분하여 관리하는 것이 적절하다.
- 압력 조건 관리가 가장 우선적인 관리 포인트
- 가장 어려웠던 부분
불량 데이터 수가 전체 데이터에 비해 너무 적었음 (전체 5000개 데이터 중 7개의 불량 데이터)
이로 인해서 전체 불량률의 과소평가 또는 특정 구간에서의 불량률의 과대 평가가 일어날 수 있기 때문에 각 구간의 전체 샘플 수와 불량 갯수를 함께 확인해야 한다. 또한 적은 불량 데이터 수 때문에 상관관계 분석에서는 모든 변수의 상관계수가 낮게 나타났다. 하나의 분석 결과로 판단하지 않고 여러 결과를 종합적으로 해석해야하는 것이 매우 중요하다고 느꼈다. 또한 해석한 결과를 섣불리 단정짓지 말아야한다. - 다음에 더 해보고 싶은 분석
- 특정 구간별 불량률과 샘플수도 함께 확인해서 통계적 신뢰도 향상
- 공정 단계별 위험 조건을 조합해서 분석
현재는 단일 변수에 대한 불량을 각각 분석했지만, 2가지 이상의 변수를 조합한 환경에서 어떻게 변하는지를 확인 - 불량 데이터수가 더 많은 데이터셋을 사용하여 불량 예측 모델의 고도화
GPT가 제시하는 코딩이 정확히 어떤 의미를 가지는지 알 수 없지만, 단계별로 해석하는 과정을 통해 하나씩 내것으로 만들고 싶다. - 더 다양한 컬럼 변수를 통해 정밀한 원인 분석 (작업자, 장비, 생산 라인 등)
'TIL > 내일배움캠프' 카테고리의 다른 글
| 엑셀로 데이터 분석 기초 맛보기 (0) | 2026.05.11 |
|---|---|
| 배터리 불량 원인 데이터로 파악하기 (0) | 2026.05.08 |
| 파이썬 시작하기 Ⅱ (0) | 2026.05.04 |
| 파이썬 시작하기 Ⅰ (0) | 2026.04.30 |
| 쿼리로 데이터 전처리 (0) | 2026.04.28 |