전체 글 46

[Data Mining_5] 예측 성능 평가

1. 분류(Classification) 성능 평가  (1) 혼동 행렬 (Confusion Matrix)- 실제 값과 예측 값을 비교해 맞고 틀린 횟수를 요약한 표 예측 Positive예측 Negative실제 PositiveTP (True Positive)FN (False Negative)실제 NegativeFP (False Positive)TN (True Negative)   (2) 주요 지표지표정의수식정확도(Accuracy)전체 예측 중 맞춘 비율(TP + TN) / (TP + TN + FP + FN)정밀도(Precision)Positive 예측 중 실제 Positive 비율TP / (TP + FP)재현율(Recall)실제 Positive 중 예측에 성공한 비율TP / (TP + FN)F1 점수정밀도와..

Theory/IE 2025.04.07

[Data Mining_4] 차원 축소 기법

1. 차원 축소란?  차원 축소는 고차원의 데이터를 저차원으로 변환하여, 데이터의 핵심 정보를 유지하면서 불필요한 노이즈나 중복을 제거하는 과정이다. - 고차원 데이터 → 시각화 어려움, 연산량 증가, 과적합 가능성 ↑   - 차원 축소를 통해 속도 개선, 시각화 용이성, 모델 일반화 능력 향상 가능 2. 차원 축소 방법 분류구분설명예시변수 선택 (Feature Selection)기존 변수 중 중요한 것만 선택상관관계 기반 선택, 정보 이득변수 추출 (Feature Extraction)기존 변수들을 조합하여 새로운 축을 생성PCA, t-SNE, MDS 등 3. 주성분 분석 (PCA : Principal Component Analysis)- 개념  - 고차원 데이터를 분산이 가장 큰 축을 따라 회전시켜 저..

Theory/IE 2025.04.07

[Data Mining_3] 데이터 전처리와 시각화

1. 데이터 전처리의 중요성  데이터마이닝과 머신러닝에서 전처리는 전체 과정의 70~80%를 차지할 정도로 중요하다. “쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)”라는 말처럼, 정제되지 않은 데이터로는 좋은 분석 결과를 기대하기 어렵다. 2. 결측치 처리 (Missing Value Handling)- 결측치란?  - 데이터가 누락된 상태 (예 : `NaN`, 공백, NULL 등) - 처리 방법방법설명사용 예제거해당 행 또는 열 삭제결측치 비율이 작을 경우대체평균, 중앙값, 최빈값 등으로 채움수치형 변수예측다른 변수 기반으로 결측값 예측머신러닝 기반 보간 - 예 (Pandas)df.dropna() # 결측 행 제거df.fillna(df[..

Theory/IE 2025.04.07

[Data Mining_2] 데이터마이닝 프로세스 개요

1. KDD(Knowledge Discovery in Databases) 프로세스  KDD는 데이터베이스에서 유용한 지식을 발견하기 위한 전반적인 프로세스이다. - KDD 절차 단계단계설명1. 데이터 선택분석에 필요한 데이터 추출2. 전처리(Preprocessing)결측값, 이상치 제거 등 데이터 정제3. 변환(Transformation)속성 선택, 정규화 등 데이터 가공4. 데이터마이닝분류, 군집, 연관 분석 등 핵심 알고리즘 적용5. 해석 및 평가결과를 이해하고 의미 있는 지식으로 해석- KDD는 전체적인 지식 발굴 과정을 강조하며, 데이터마이닝은 그 중 하나의 단계이다. 2. CRISP-DM (Cross Industry Standard Process for Data Mining)  다양한 산업에 적..

Theory/IE 2025.04.07

[Data Mining_1] 데이터 기반 의사결정의 시작

1. 데이터마이닝의 정의와 중요성  데이터마이닝(Data Mining)은 대규모 데이터 속에서 숨겨진 패턴, 규칙, 의미 있는 정보를 발견하여 의사결정에 활용할 수 있도록 분석하는 과정이다. 데이터마이닝은 단순 통계 분석을 넘어 머신러닝, 인공지능, 패턴 인식 등의 기법을 활용하여 예측(Prediction), 분류(Classification),군집화(Clustering), 연관성 분석(Association) 등을 수행한다. - 왜 중요한가?영역활용 예시비즈니스고객 세분화, 상품 추천, 이탈 예측의료질병 조기 예측, 유전체 분석금융이상 거래 탐지, 신용 평가마케팅타겟 광고, 구매 패턴 분석- 핵심은 "데이터 속에 숨어 있는 지식(Knowledge)"을 발견하여, 보다 정확하고 전략적인 의사결정을 가능하게 ..

Theory/IE 2025.04.07

[Data Structures_41] 정보 처리 윤리 및 데이터 보안

1. 정보 처리 윤리란?  정보 처리 윤리(Information Ethics)는 정보를 생성, 저장, 이용, 공유하는 과정에서 지켜야 할 도덕적·법적 기준을 말한다. - 핵심 원칙원칙설명정당성(Legitimacy)정보를 올바른 방식으로 수집·이용해야 함정확성(Accuracy)정보를 사실에 기반하여 정확하게 관리책임성(Accountability)정보 사용에 대한 책임을 져야 함공정성(Fairness)특정 개인·집단에게 불이익이 없도록 사용사생활 보호(Privacy)개인 정보는 동의 없이 수집·공개하지 않음 2. 데이터 보안(Data Security)이란?  데이터 보안은 정보 자산을 무단 접근, 손상, 유출 등으로부터 보호하기 위한 모든 기술적·관리적 활동이다. - 3대 핵심 요소 (CIA Triad)요소..

Theory/CS 2025.04.07

[Data Structures_40] 알고리즘 설명을 위한 가상 언어 SPARKS 개념

1. SPARKS란?  SPARKS는 알고리즘과 자료구조를 설명하고 가르치기 위한 가상 교육용 언어이다.> 실제 실행 가능한 언어가 아닌, 의사 코드(Pseudocode) 스타일의 문법을 가진 교육 중심 설명 도구이다. - 목적  - 알고리즘의 핵심 로직을 명확히 표현  - 실제 프로그래밍 언어에 구애받지 않고 개념 중심 설명  - 초보자도 직관적으로 이해할 수 있도록 설계 2. SPARKS의 특징특징설명간결성복잡한 문법 없이 핵심 알고리즘 로직에 집중가독성영어 기반 직관적 키워드 사용 (`IF`, `WHILE`, `RETURN`, 등)언어 독립성어떤 프로그래밍 언어로도 변환 가능구조화절차적 구조, 들여쓰기 기반 블록 구성 3. 기본 문법 예시- 변수 선언SET total TO 0SET name TO "..

Theory/CS 2025.04.07

[Data Structures_39] 색인 파일

1. 색인 파일(Indexing File)이란?> 색인 파일(Indexing File)은 데이터 파일에서 원하는 레코드를 빠르게 검색하기 위해 생성된 별도의 파일이다.   > 마치 책의 목차처럼, 키 값을 기준으로 데이터의 위치를 저장하여 빠르게 찾아갈 수 있도록 한다. - 목적  - 직접적인 검색 속도 향상  - 대용량 데이터에서 순차 검색의 비효율성 해결 2. 색인 파일 구조  색인 파일은 보통 다음과 같은 쌍(Key, 주소) 형태로 구성된다 :키(Key)주소(Address)10010x000010020x002010030x0040> 이 정보를 이용해 데이터 파일의 정확한 위치로 빠르게 이동 가능하다. 3. 색인 파일 구성 방식  (1) 단일 레벨 색인 (Single-Level Index)- 모든 키를 ..

Theory/CS 2025.04.07

[Data Structures_38] 파일 탐색 알고리즘

1. 순차 탐색 (Sequential Search)- 개념  - 파일의 처음부터 끝까지 차례대로 검색  - 정렬 여부와 상관없이 사용 가능 - 특징항목설명시간 복잡도O(n)장점구현 간단단점비효율적, 데이터가 많을수록 느림 - 사용 예시  - 로그 파일에서 특정 키워드 찾기  - 라인 수가 적은 텍스트 파일 검색 2. 이진 탐색 (Binary Search)- 개념  - 정렬된 파일에서만 사용 가능  - 중간 값을 기준으로 절반씩 탐색 범위 줄이기 - 특징항목설명전제 조건정렬된 파일시간 복잡도O(log n)장점빠른 탐색단점정렬 필요, 고정 길이 레코드일 때 효율적 - 사용 예시  - 학번 순 정렬된 학생 레코드 검색  - 인덱스 파일 탐색 3. 인덱스 탐색 (Indexed Search)- 개념  - 인덱스 ..

Theory/CS 2025.04.07

[Data Structures_37] 파일 구조와 저장 방법

1. 파일 구조란?> 파일 구조(File Structure)는 파일 내부에 데이터가 어떻게 구성되고 저장되는지를 정의한 것- 사용 목적에 따라 다양한 구조 존재 - 데이터를 빠르게 검색하거나 정렬, 삽입, 삭제하기 위해 적절한 구조 선택이 중요 2. 주요 파일 구조의 종류파일 구조특징순차 파일(Sequential File)데이터를 순서대로 저장인덱스 파일(Indexed File)별도의 인덱스를 통해 검색 속도 향상해시 파일(Hash File)해시 함수를 통해 직접 위치 지정클러스터 파일(Clustered File)논리적으로 연결된 레코드를 물리적으로도 가깝게 저장 3. 주요 저장 방식  (1) 순차 저장 방식 (Sequential File Organization)- 데이터를 일정한 순서로 연속 저장 - ..

Theory/CS 2025.04.07