Bias

bias 는 데이터 내에 있는 모든 정보를 고려하지 않음으로 인해, 지속적으로 잘못된 것들을 학습하는 경향을 말한다.

어떤 모델을 학습시켰을 경우, 그 모델이 예측한 값과 실제 정답이 얼마나 멀리있는지를 나타내는가 생각해보면 된다. 너무 멀리있으면 (오답이 크면) high bias(underfitting), 가까이 있으면 (예측이 정확하면) low bias 이다.

B) Solution for High Bias

Bigger Network (모델에 complexity 를 추가)
Train Longer
NN architecture search (또 다른 신경망 구조를 탐색 및 시도)
High bias 상태에서 데이터를 추가하는 것은 아무 도움을 주지 않는다.

C) Bias in point Estimation

bias (\hat{θ}_{m}) = E (\hat{θ}_{m}) - θ

$\hat{θ}_{m} = g (x^{(1)}, \dots, x^{(m)})$ 는 $m$ 개의 데이터로 추정한 parameter

C.1) Example: Estimators of the Variance of a Gaussian Distribution

$\overset{σ}{^}_{m}^{2} = \frac{1}{m} i = 1 \sum m (x^{(i)} - \overset{μ}{^}_{m})^{2}$ 으로 sample variance 를 추정하는 경우의 bias 는 다음과 같이 계산된다.

$bias (\overset{σ}{^}_{m}^{2}) = E [\overset{σ}{^}_{m}^{2}] - σ^{2}$
$E [\overset{σ}{^}_{m}^{2}] = E [\frac{1}{m} i = 1 \sum m (x^{(i)} - \overset{μ}{^}_{m})^{2}] = \frac{m - 1}{m} σ^{2}$ 즉, bias 는 $- σ^{2} / m - σ^{2} / m$ 으로, 위의 추정은 biased estimator 이다.

위 variance 추정 식 대신, $\tilde{σ}_{m}^{2} = \frac{1}{m - 1} \sum_{i = 1}^{m} (x^{(i)} - \overset{μ}{^}_{m})^{2}$ 를 사용하면 unbiased 하게 나온다 (i.e. $bias (\overset{σ}{^}_{m}^{2}) = 0$ ). 하지만 unbased estimator 가 언제나 best 인것은 아니다.

D) Bias in Linear Model

RSS 가 다음과 같을 때,

RSS = i = 1 \sum n (y_{i} - β_{0} - j = 1 \sum p β_{j} x_{ij})^{2}

bias(intercept) 는 $x_{i 1} = x_{i 2} = \dots = x_{i p} = 0$ 일 때 $y$ 의 expected value 를 의미한다.

Zzong's Notes

탐색기

bias

Bias

B) Solution for High Bias

C) Bias in point Estimation

C.1) Example: Estimators of the Variance of a Gaussian Distribution

D) Bias in Linear Model

F) References

링크된 언급

목차

탐색기

bias

Bias

B) Solution for High Bias

C) Bias in point Estimation

C.1) Example: Estimators of the Variance of a Gaussian Distribution

D) Bias in Linear Model

E) Related

F) References

링크된 언급

함께 보면 좋은 글

목차