Theory/IE

[Data Mining_3] 데이터 전처리와 시각화

zzzzzooooo0000099999 2025. 4. 7. 18:50

1. 데이터 전처리의 중요성

  데이터마이닝과 머신러닝에서 전처리는 전체 과정의 70~80%를 차지할 정도로 중요하다. “쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)”라는 말처럼, 정제되지 않은 데이터로는 좋은 분석 결과를 기대하기 어렵다.

 

2. 결측치 처리 (Missing Value Handling)

- 결측치란?

  - 데이터가 누락된 상태 (예 : `NaN`, 공백, NULL 등)

 

- 처리 방법

방법 설명 사용 예
제거 해당 행 또는 열 삭제 결측치 비율이 작을 경우
대체 평균, 중앙값, 최빈값 등으로 채움 수치형 변수
예측 다른 변수 기반으로 결측값 예측 머신러닝 기반 보간

 

- 예 (Pandas)

df.dropna()                     # 결측 행 제거
df.fillna(df['age'].mean())     # 평균으로 대체

 

3. 이상치 탐지 (Outlier Detection)

- 이상치란?

  - 데이터 분포에서 현저하게 벗어난 값

 

- 탐지 방법

방법 설명
통계 기반 평균 ± 3×표준편차, 사분위 범위(IQR)
시각화 기반 boxplot, scatterplot 등
모델 기반 Isolation Forest, One-Class SVM 등

 

- 예 (IQR 방식)

Q1 = df['salary'].quantile(0.25)
Q3 = df['salary'].quantile(0.75)
IQR = Q3 - Q1
df_filtered = df[(df['salary'] >= Q1 - 1.5 * IQR) & (df['salary'] <= Q3 + 1.5 * IQR)]

 

4. 변수 탐색 (Feature Exploration)

- 목적

  - 변수 간 관계 파악

  - 분포와 스케일 확인

  - 중복 정보, 상관관계, 중요 변수 식별

 

- 탐색 기법

기법 설명
기술 통계 평균, 분산, 빈도 등 요약 지표 확인
상관 분석 피어슨 상관계수, 히트맵
카테고리 분석 그룹별 평균, 교차표 등
차원 축소 PCA, t-SNE 등을 통해 시각적으로 구조 파악

 

5. 데이터 시각화 기법

  시각화는 데이터의 패턴, 트렌드, 관계를 직관적으로 파악할 수 있게 해 준다.

 

- 기본 시각화

차트 유형 설명 사용 예
히스토그램 수치형 데이터의 분포 연령 분포
박스플롯(Boxplot) 이상치 탐지 및 비교 연봉 분포
막대그래프 범주형 비교 제품별 매출
산점도(Scatter Plot) 두 변수 간 관계 키-몸무게, 광고비-매출
히트맵(Heatmap) 상관관계 시각화 변수 간 관계 요약

 

- 고급 시각화 (예시 : 시계열, 지리 정보)

  - 선형 그래프 (시간 변화 추이)

  - 트리맵 (계층적 구조)

  - 지도 시각화 (위치 기반 데이터)

 

- Python 예 (matplotlib / seaborn)

import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x='gender', y='income', data=df)
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.show()

 

6. 결론

- 결측치 처리와 이상치 제거는 데이터 신뢰성을 확보하는 핵심 작업이다.
- 변수 탐색은 분석 방향을 설계하고, 시각화는 숨겨진 패턴을 드러낸다.
- 좋은 분석은 깨끗한 데이터와 명확한 시각화에서 출발한다.

 

 

보이지 않던 통찰도, 전처리와 시각화를 통해 명확해진다.