누락 데이터(결측값) 처리

결측값 처리는 데이터 전처리 단계에서 매우 중요합니다. 대표적인 접근 방식은 다음과 같습니다.

접근 방식	개념	장점	단점 및 주의사항
삭제 (Drop)	결측값이 포함된 행(row) 또는 열(column)을 제거하는 방법	- 구현이 매우 간단함 - 잡음 제거 효과가 있음	- 데이터 양이 감소하여 정보 손실 발생 - 중요한 변수(컬럼)를 잃을 수 있음
대체 (Impute)	결측 위치를 추정값으로 채워 넣는 방법	- 데이터 손실을 최소화 - 대부분의 모델에서 성능이 향상됨(데이터 보존)	- 노이즈나 편향 유입 가능성 존재 - 대체 방식 선택에 따라 결과가 달라질 수 있음

결측치 처리에는 완벽한 정답이 없으며, 각 방법마다 장단점이 분명합니다.

주요 대체 기법

핵심 메시지

B) 2. 피처 스케일링 (Feature Scaling)

서로 다른 범위·분포를 가진 피처들을 공통 스케일로 맞추어 모델 학습 안정성·속도·성능을 높이는 과정.

기법	수식	특징	사용 시점·주의
정규화 (Min-Max Scaling)	$Z = \frac{x - x _{m i n}}{x _{m a x} - x _{m i n}}$ → [0, 1] 범위	- 분포 형태는 유지 - 값이 0-1로 압축돼 직관적	- 극단값(outlier)에 민감 - 트리류 모델에는 영향 적음
표준화 (Z-score Scaling)	$Z = \frac{x - μ}{σ}$ → 평균 0, 표준편차 1	- 정규분포 가정 모델(선형회귀, 로지스틱, SVM 등)에 적합 - outlier 영향 상대적으로 작음	- 결과 해석 직관성 ↓ (단위가 사라짐)

For categorical features, we replace infrequent features (min_count=10) with a default “OOV” token. min_count=2 도 사용하기도 한다.

숫자 데이터를 단순히 정규화하는 대신 다음과 같이 이산화(discretize)할 수 있습니다.

x^{'} = {⌊ lo g_{2} (x)⌋ 1 if x > 2 otherwise

즉, $x > 2$ 이면 $⌊ lo g_{2} (x)⌋$ 로 변환하고,그 외에는 모두 1로 처리합니다.