Cost Function

2. Cost Function 을 최소화 한다는 것의 직관적 이해

linear regression 의 Cost Function $J (θ_{0}, θ_{1})$

θ_{0}, θ_{1} minimi z e J (θ_{0}, θ_{1}) = \frac{1}{2 m} i = 1 \sum m (h_{θ} (x^{(i)}) - y^{(i)})^{2}

$(x^{(i)}, y^{(i)})$ 형식으로 $i$ 번째 training 데이터를 표현
$m$ 은 training 데이터의 개수 (# of training examples)
수식을 $2$ 로 나누는 것은 gradient descent 계산 시, 미분 term 을 구하는데 편리해지기 때문
- The mean is halved $(\frac{1}{2})$ as a convenience for the computation of the gradient descent, as the derivative term of the square function will cancel out the $(\frac{1}{2})$ term.

$J (θ_{0}, θ_{1})$ 를 간소화해서 $θ_{0}$ 을 $0$ 이라 하자. 즉, $J (θ_{1})$ 을 최소화하는 문제로 바꿔보자:

J (θ_{1}) = \frac{1}{2 m} i = 1 \sum m (h_{θ} (x^{(i)}) - y^{(i)})^{2} = \frac{1}{2 m} i = 1 \sum m (θ_{1} x^{(i)} - y^{(i)})^{2}

아래의 왼쪽 그림은 예측 모델 $h_{θ} (x) = θ_{1} x$ 그리고 오른쪽은 비용 함수 $J (θ_{1})$ 이다.

  - 학습 데이터는 $\theta_1=1$일 때의 모델 $h$와 정확하게 직선상에 일치하고, 오른쪽 그림에 $(\theta_1,J(\theta_1))$은 $(1,0)$으로 표기된다.

이후 계속 $J (θ_{1})$ 를 그려보면 다음과 같다.
- - 비용 함수를 최소화 하는 것이 목적이므로, $θ_{1} = 1$ 을 선택하고, 이를 global minimum 이라 부른다.
이제 $θ_{0} = 0$ 이었던, $θ_{0}$ 를 다시 사용해보자.
- 더 이상 $J (θ_{0}, θ_{1})$ 은 일반적인 선 그래프로 표현하기 힘들다.
- 두 개의 features( $θ_{0}, θ_{1}$ ) 를 사용하는 경우, 등고선 (contour plot) 을 사용한다.

모델 $h_{θ} (x)$ 가 학습 데이터에 더욱 적합해질수록, $J (θ_{0}, θ_{1})$ 값은 등고선의 중심에 다가간다.

L = i = 1 \sum n ∣ y_{i} - f (x_{i}) ∣

L2 Loss
- $L = i = 1 \sum n (y_{i} - f (x_{i}))^{2}$
L2 Loss 는 outlier 의 변화에 민감하다. 반면 L1 Loss 는 outlier 에 대해서 상대적으로 안정된 값을 보여준다. 아마 그 이유는 차이를 제곱 (square) 하기 때문이 아닐까 생각해본다.