Theory/IE

[Data Mining_7] 로지스틱 회귀 분석

zzzzzooooo0000099999 2025. 4. 14. 23:10

1. 개요

  로지스틱 회귀(Logistic Regression)는 결과가 범주형(분류형)일 때 사용하는 회귀 분석이다.

 

- 특히, 결과가 "성공 vs 실패", "yes vs no", "1 vs 0"처럼 두 가지 값(이항)인 경우에 적합하다.
- 선형 회귀와 달리 예측값이 확률(0~1 사이)로 출력된다.

 

2. 로지스틱 회귀의 종류

종류 설명 예시
이항 로지스틱 회귀 두 개의 범주 중 하나를 예측 스팸 메일 여부, 합격 여부
다항 로지스틱 회귀 세 개 이상 범주 중 하나를 예측 교통수단 선택 (버스/지하철/택시)

 

3. 로지스틱 회귀의 핵심 : 오즈비(Odds Ratio)

- 오즈란?

  - 어떤 일이 일어날 확률과 일어나지 않을 확률의 비율

  - 예 : 어떤 질병에 걸릴 확률이 0.8이라면, → 오즈 = 0.8 / 0.2 = 4 (= 걸릴 확률이 안 걸릴 확률보다 4배 높다)

 

- 오즈비(Odds Ratio, OR)

  - 한 변수의 변화가 결과의 오즈(발생 가능성)에 얼마나 영향을 주는지를 나타낸다.

  - OR > 1 → 결과 발생 가능성 증가

  - OR < 1 → 결과 발생 가능성 감소

  - OR = 1 → 영향 없음

 

- 해석 예시

  - "운동을 한 사람은 운동하지 않은 사람보다 질병에 걸릴 확률이 0.5배이다" → 오즈비 = 0.5 → 운동이 질병 예방에 효과가 있다는 의미

 

4. 모델 적합도 평가

  로지스틱 회귀는 선형 회귀처럼 R²를 사용하지 않고, 다음과 같은 기준으로 모델의 적합도를 평가한다.

지표 설명
정확도 (Accuracy) 예측 결과 중 정답의 비율
혼동 행렬 실제 vs 예측 결과를 비교한 표
AUC / ROC Curve 모델의 분류 능력 (곡선 아래 면적이 클수록 좋음)
-2 로그 우도 (-2 Log Likelihood) 값이 작을수록 모델 적합도 우수
AIC / BIC 모델 비교 지표 (작을수록 더 좋은 모델)
Pseudo R² 설명력 추정 지표 (선형 회귀의 R²와 유사한 해석)

 

5. 다항 로지스틱 회귀 (Multinomial Logistic Regression)

- 결과가 세 개 이상의 범주로 나뉘는 경우 사용한다.
- 이항 로지스틱 회귀를 범주별로 나누어 각각 계산하는 방식 (baseline class 지정)

- 예 : 교통수단 예측 → (택시 vs 버스), (지하철 vs 버스)

 

6. Python 예제 (이항 로지스틱)

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, roc_auc_score

model = LogisticRegression()
model.fit(X_train, y_train)

preds = model.predict(X_test)
probs = model.predict_proba(X_test)[:, 1]

print("정확도:", model.score(X_test, y_test))
print("AUC:", roc_auc_score(y_test, probs))
print("혼동 행렬:\n", confusion_matrix(y_test, preds))

 

7. 결론

- 로지스틱 회귀는 분류 문제에 매우 유용하며, 결과를 확률 형태로 해석할 수 있는 강력한 도구이다.
- 오즈비를 통해 변수의 영향력을 직관적으로 파악할 수 있고, 다항 로지스틱 회귀를 통해 다중 범주도 처리할 수 있다.
- 모델의 적합도는 정확도, AUC, 로그 우도 등 다양한 지표로 종합적으로 평가해야 한다.

 

 

로지스틱 회귀는 범주형 결과를 예측하고, 오즈비를 통해 변수의 영향력을 해석하는 데 특화된 통계적 기법이다.

'Theory > IE' 카테고리의 다른 글

[Data Mining_9] E-NN 알고리즘  (0) 2025.04.15
[Data Mining_8] 분류 회귀 트리  (0) 2025.04.15
[Data Mining_6] 다중 선형 회귀  (0) 2025.04.14
[Data Mining_5] 예측 성능 평가  (0) 2025.04.07
[Data Mining_4] 차원 축소 기법  (0) 2025.04.07