파이썬 데이터 분석
Keywords
python, 전처리, 통계, 기계학습, 회귀, 분류, 군집
들어가기
기계학습으로 데이터를 분석한다. 분석 도구는 파이썬으로 데이터 전처리, 통계 분석, 기계학습 모델링 및 평가까지 코드 중심으로 구성된다. 실무에 필요한 내용을 정리하여 이론적, 학문적으로 미흡한 부분이 있다. 부족한 부분은 향후 성능 개선과 향상된 알고리즘 등으로 수정키로 한다.
파이썬 버전은 3.12 기반으로 numpy, pandas, sklearn, scipy, stats와 같은 기본적인 라이브러리를 사용한다.
전체 목차는 다음과 같다.
1부. 데이터 전처리 & 분포 이해
1.1 데이터 로드 및 구조 점검
- 데이터 로드 (CSV, Excel, SQL)
- 데이터 구조 및 타입 확인
1.2 탐색적 데이터 분석(EDA)
- 기술통계량 요약
- 분포 시각화 (히스토그램, KDE, 박스플롯)
- 상관관계 탐색
1.3 데이터 분포 이해
- 연속형·이산형 데이터 분포
- 왜도와 첨도
- 분포 해석을 통한 전처리 전략
1.4 결측치 처리
- 결측치 탐지 및 요약
- 단순 대치 기법
- 고급 대치 기법 (KNN, Iterative)
1.5 이상치 탐지
- 정규분포 기반 이상치
- IQR 기반 이상치
- 밀도 기반 이상치 (LOF, DBSCAN)
- 트리 기반 이상치 (IsolationForest)
1.6 스케일링
- 정규화 (Min-Max)
- 표준화 (Standard, Robust, MaxAbs)
1.7 데이터 분포 변환
- 로그 변환
- Box-Cox 변환
- Yeo-Johnson 변환
- 분위수 변환
- 변환 전·후 분포 비교
1.8 범주형 데이터 처리
- 명목형 인코딩
- 순서형 인코딩
1.9 연속형 데이터 범주화
- 구간 분할 (cut, qcut, KBins)
1.10 불균형 데이터 처리
- 오버샘플링
- 언더샘플링
1.11 피처 엔지니어링
- 다항 특성 생성
- 집계 및 롤링 특성
2부. 통계 기반 데이터 분석 & 가설검정
2.1 확률분포와 표본
- 연속형 확률분포
- 이산형 확률분포
- 표본 분포 개념
2.2 정규성 검정
- Shapiro-Wilk 검정
- Kolmogorov-Smirnov 검정
- Anderson-Darling 검정
- Q-Q plot 해석
2.3 등분산성 검정
- Levene 검정
- Bartlett 검정
- Fligner-Killeen 검정
2.4 적합성 검정 & 독립성 검정
- 카이제곱 적합성 검정
- 분포 적합성 검정
- 카이제곱 독립성 검정
- F 검정 (분산 비교)
2.5 평균 비교 검정
- 단일 표본 t-검정
- 독립 표본 t-검정
- 대응 표본 t-검정
2.6 분산분석
- 일원 분산 분석 (One-way ANOVA)
- 이원 분산 분석 (Two-way ANOVA)
- 사후 검정
2.7 비모수 검정
- Mann-Whitney U 검정
- Wilcoxon 순위합 검정
- Kruskal-Wallis 검정
- Friedman 검정
2.8 상관 분석
- Pearson 상관 분석
- Spearman 순위 상관
3부. 머신러닝 모델링 & 평가
3.1 데이터 분할 및 검증
- 학습·검증·테스트 분할
- 교차 검증 기법
3.2 특성 선택
- 필터 방법
- 래퍼 방법
- 임베디드 방법
3.3 차원 축소
- 선형 차원 축소 (PCA)
- 비선형 차원 축소 (t-SNE, UMAP)
3.4 회귀 모델
- 선형 회귀
- 정규화 회귀 (Ridge, Lasso, ElasticNet)
3.5 분류 모델
- 선형 분류 모델
- 거리 기반 모델
- 트리 및 앙상블 모델
3.6 서포트 벡터 머신
- SVM 분류
3.7 군집 분석
- 분할 기반 군집
- 밀도 기반 군집
- 혼합 모델 군집
3.8 모델 성능 평가
- 분류 성능 평가
- 회귀 성능 평가
3.9 파이프라인 & 자동화
- 파이프라인 구성
- 하이퍼파라미터 최적화
3.10 모델 해석
- 특성 중요도
- SHAP 기반 모델 해석