[Data Mining_3] 데이터 전처리와 시각화

Theory/IE

[Data Mining_3] 데이터 전처리와 시각화

zzzzzooooo0000099999 2025. 4. 7. 18:50

1. 데이터 전처리의 중요성

데이터마이닝과 머신러닝에서 전처리는 전체 과정의 70~80%를 차지할 정도로 중요하다. “쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)”라는 말처럼, 정제되지 않은 데이터로는 좋은 분석 결과를 기대하기 어렵다.

2. 결측치 처리 (Missing Value Handling)

- 결측치란?

- 데이터가 누락된 상태 (예 : `NaN`, 공백, NULL 등)

- 처리 방법

방법	설명	사용 예
제거	해당 행 또는 열 삭제	결측치 비율이 작을 경우
대체	평균, 중앙값, 최빈값 등으로 채움	수치형 변수
예측	다른 변수 기반으로 결측값 예측	머신러닝 기반 보간

- 예 (Pandas)

df.dropna()                     # 결측 행 제거
df.fillna(df['age'].mean())     # 평균으로 대체

3. 이상치 탐지 (Outlier Detection)

- 이상치란?

- 데이터 분포에서 현저하게 벗어난 값

- 탐지 방법

방법	설명
통계 기반	평균 ± 3×표준편차, 사분위 범위(IQR)
시각화 기반	boxplot, scatterplot 등
모델 기반	Isolation Forest, One-Class SVM 등

- 예 (IQR 방식)

Q1 = df['salary'].quantile(0.25)
Q3 = df['salary'].quantile(0.75)
IQR = Q3 - Q1
df_filtered = df[(df['salary'] >= Q1 - 1.5 * IQR) & (df['salary'] <= Q3 + 1.5 * IQR)]

4. 변수 탐색 (Feature Exploration)

- 목적

- 변수 간 관계 파악

- 분포와 스케일 확인

- 중복 정보, 상관관계, 중요 변수 식별

- 탐색 기법

기법	설명
기술 통계	평균, 분산, 빈도 등 요약 지표 확인
상관 분석	피어슨 상관계수, 히트맵
카테고리 분석	그룹별 평균, 교차표 등
차원 축소	PCA, t-SNE 등을 통해 시각적으로 구조 파악

5. 데이터 시각화 기법

시각화는 데이터의 패턴, 트렌드, 관계를 직관적으로 파악할 수 있게 해 준다.

- 기본 시각화

차트 유형	설명	사용 예
히스토그램	수치형 데이터의 분포	연령 분포
박스플롯(Boxplot)	이상치 탐지 및 비교	연봉 분포
막대그래프	범주형 비교	제품별 매출
산점도(Scatter Plot)	두 변수 간 관계	키-몸무게, 광고비-매출
히트맵(Heatmap)	상관관계 시각화	변수 간 관계 요약

- 고급 시각화 (예시 : 시계열, 지리 정보)

- 선형 그래프 (시간 변화 추이)

- 트리맵 (계층적 구조)

- 지도 시각화 (위치 기반 데이터)

- Python 예 (matplotlib / seaborn)

import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x='gender', y='income', data=df)
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.show()

6. 결론

- 결측치 처리와 이상치 제거는 데이터 신뢰성을 확보하는 핵심 작업이다.
- 변수 탐색은 분석 방향을 설계하고, 시각화는 숨겨진 패턴을 드러낸다.
- 좋은 분석은 깨끗한 데이터와 명확한 시각화에서 출발한다.

보이지 않던 통찰도, 전처리와 시각화를 통해 명확해진다.

'Theory > IE' 카테고리의 다른 글

[Data Mining_6] 다중 선형 회귀 (0)	2025.04.14
[Data Mining_5] 예측 성능 평가 (0)	2025.04.07
[Data Mining_4] 차원 축소 기법 (0)	2025.04.07
[Data Mining_2] 데이터마이닝 프로세스 개요 (0)	2025.04.07
[Data Mining_1] 데이터 기반 의사결정의 시작 (0)	2025.04.07

현재글[Data Mining_3] 데이터 전처리와 시각화

zzzzzooooo0000099999