Probit Model
probit model 은 regression 의 종류 중 하나로, 출력값 (dependent variable) 이 binary 형식을 띄는 모델을 의미한다.
logistic regression 과 동일한 문제를 푸는것이며, GLM 입장에서는 probit link function 을 사용하는 모델이 될 것이다.
B) 개념
출력값 는 binary 이고, 입력값 (predictor variable) 이 벡터 인 경우, 다음과 같이 모델을 표현할 수 있다.
- 여기서 는 표준 정규 분포 의 CDF 를 의미한다.
- 표준 정규 분포를 쓰는 이유는 임의의 평균과 표준 편차에 대해 generality 를 잃지 않기 위함이다.
- 여기서 parameter 는 일반적으로 MLE 를 통해 추정한다.
그런데 왜 CDF 인가?
probit model 을 다음과 같은 latent variable model 를 통해 표현해보자.
이제 위 모델을 통해 CDF 모델을 유도할 수 있다.
\
# Model Estimation ## Using MLE 다음과 같이 $n$ 개의 독립적인 data set $\left\{y_{i}, x_{i}\right\}_{i=1}^{n}$ 을 입력받은 경우, single observation 에 대해 확률값을 다음과 같이 계산할 수 있다.\begin{aligned}
&\operatorname{Pr}\left(y_{i}=1 \mid x_{i}\right)=\Phi\left(x_{i}^{\prime} \beta\right) \
&\operatorname{Pr}\left(y_{i}=0 \mid x_{i}\right)=1-\Phi\left(x_{i}^{\prime} \beta\right)
\end{aligned}
\- 여기서 는 크기를 가지는 vector 이다.
단일 observation 에 대한 likelihood 값은 이므로, 전체 sample 에 대한 joint likelihood 값은 다음과 같다.
아래는 Log-likelihood 버전이다.
여기서 위 Likelihood 식을 더 짧게 만들 수 있다. 대칭인 표준 정규 분포의 경우 를 만족하고, 를 응용하면 다음과 같이 표현이 가능하다.
C) Some Notes
여기서 probit 은 probability + unit 의 합성어이다.