1. 데이터 전처리의 중요성
데이터마이닝과 머신러닝에서 전처리는 전체 과정의 70~80%를 차지할 정도로 중요하다. “쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)”라는 말처럼, 정제되지 않은 데이터로는 좋은 분석 결과를 기대하기 어렵다.
2. 결측치 처리 (Missing Value Handling)
- 결측치란?
- 데이터가 누락된 상태 (예 : `NaN`, 공백, NULL 등)
- 처리 방법
방법 | 설명 | 사용 예 |
제거 | 해당 행 또는 열 삭제 | 결측치 비율이 작을 경우 |
대체 | 평균, 중앙값, 최빈값 등으로 채움 | 수치형 변수 |
예측 | 다른 변수 기반으로 결측값 예측 | 머신러닝 기반 보간 |
- 예 (Pandas)
df.dropna() # 결측 행 제거
df.fillna(df['age'].mean()) # 평균으로 대체
3. 이상치 탐지 (Outlier Detection)
- 이상치란?
- 데이터 분포에서 현저하게 벗어난 값
- 탐지 방법
방법 | 설명 |
통계 기반 | 평균 ± 3×표준편차, 사분위 범위(IQR) |
시각화 기반 | boxplot, scatterplot 등 |
모델 기반 | Isolation Forest, One-Class SVM 등 |
- 예 (IQR 방식)
Q1 = df['salary'].quantile(0.25)
Q3 = df['salary'].quantile(0.75)
IQR = Q3 - Q1
df_filtered = df[(df['salary'] >= Q1 - 1.5 * IQR) & (df['salary'] <= Q3 + 1.5 * IQR)]
4. 변수 탐색 (Feature Exploration)
- 목적
- 변수 간 관계 파악
- 분포와 스케일 확인
- 중복 정보, 상관관계, 중요 변수 식별
- 탐색 기법
기법 | 설명 |
기술 통계 | 평균, 분산, 빈도 등 요약 지표 확인 |
상관 분석 | 피어슨 상관계수, 히트맵 |
카테고리 분석 | 그룹별 평균, 교차표 등 |
차원 축소 | PCA, t-SNE 등을 통해 시각적으로 구조 파악 |
5. 데이터 시각화 기법
시각화는 데이터의 패턴, 트렌드, 관계를 직관적으로 파악할 수 있게 해 준다.
- 기본 시각화
차트 유형 | 설명 | 사용 예 |
히스토그램 | 수치형 데이터의 분포 | 연령 분포 |
박스플롯(Boxplot) | 이상치 탐지 및 비교 | 연봉 분포 |
막대그래프 | 범주형 비교 | 제품별 매출 |
산점도(Scatter Plot) | 두 변수 간 관계 | 키-몸무게, 광고비-매출 |
히트맵(Heatmap) | 상관관계 시각화 | 변수 간 관계 요약 |
- 고급 시각화 (예시 : 시계열, 지리 정보)
- 선형 그래프 (시간 변화 추이)
- 트리맵 (계층적 구조)
- 지도 시각화 (위치 기반 데이터)
- Python 예 (matplotlib / seaborn)
import seaborn as sns
import matplotlib.pyplot as plt
sns.boxplot(x='gender', y='income', data=df)
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.show()
6. 결론
- 결측치 처리와 이상치 제거는 데이터 신뢰성을 확보하는 핵심 작업이다.
- 변수 탐색은 분석 방향을 설계하고, 시각화는 숨겨진 패턴을 드러낸다.
- 좋은 분석은 깨끗한 데이터와 명확한 시각화에서 출발한다.
보이지 않던 통찰도, 전처리와 시각화를 통해 명확해진다.
'Theory > IE' 카테고리의 다른 글
[Data Mining_6] 다중 선형 회귀 (0) | 2025.04.14 |
---|---|
[Data Mining_5] 예측 성능 평가 (0) | 2025.04.07 |
[Data Mining_4] 차원 축소 기법 (0) | 2025.04.07 |
[Data Mining_2] 데이터마이닝 프로세스 개요 (0) | 2025.04.07 |
[Data Mining_1] 데이터 기반 의사결정의 시작 (0) | 2025.04.07 |