MLE
모수적인 데이터 밀도 추정 방법으로써, 파라미터 으로 구성된 어떤 확률밀도함수 에서 관측된 표본 데이터 집합을 이라 할 때, 이 표본들에서 파라미터 를 추정하는 방법이다.
여기서 likelihood (가능도) 란, 지금 얻은 데이터 가 라는 parameter 로 구성된 분포로부터 나왔을 확률 을 의미한다.

수치적으로 likelihood 를 계산하기 위해서는 각 데이터 샘플에서 후보 분포에 대한 높이 (즉, likelihood 기여도) 를 계산해서 다 곱한 것을 이용할 수 있을 것이다.
B) Computation of MLE
확률 분포마다 MLE 구하는 방식이 다르지만, 일반적인 절차는 다음과 같다.
- 확률 분포를 theta 에 대한 함수로 표현: 일반적으로 각 확률 (likelihood) 이 i.i.d. 하다는 가정하에 모두 곱해줌
- 모두 곱한 값에, 다루기 쉬우려고 자연 로그를 붙임
- 이후 parameter 에 대해서 미분하고 이되는 값을 찾으면, 해당 값이 MLE solution 이 된다.
C) Application
- Uniform Distribution: Indicator function 이 사용되서 이해하기 어려웠음
- Exponential Distribution: 쉬운것 같은데 의미를 모르겠음
D) MLE for Linear Regression
linear regression model 은 다음과 같은 Gaussian distribution 를 모델링하는데 표현될 수 있다
- 여기서 는 모델의 모든 parameter 를 의미한다. 통계학에서는 일반적으로 를 로 표현한다.
는 고정되어 있다 가정하고, 를 찾는데 집중해보자. 해당 모델의 negative log likelihood 값은 다음과 같다.
위 식에서 필요없는 additive 한 상수들을 제거하고 나면, residual sum of squares 값이 나온다
- 은 번째 잔차를 의미한다.
또한, RSS 를 example 개수 으로 나누게 된다면 mean squared error 가 된다.
- 추가로 MSE 에 루트를 씌우면 RMSE 가 된다
즉, MLE 를 수행함으로써 NLL, RSS, MSE 또는 RMSE 를 최소화하는 것이나 다름없다. 모든 결과는 동일하다.
RSS 를 에 대해 미분하여 이 되는 값 () 을 찾으면, ordinary least squares 의 결과를 얻을 수 있다.