Sequential Logistic Regression

Bayesian 형식으로 표현된 logistic regression 의 likelihood 는 다음과 같다.

P (s ∣ pa, θ) = g ((2 s - 1) j \sum θ_{j} x_{j})

$g (\cdot)$ 은 sigmoid function: $g (x) = (1 + e^{- x})^{- 1}$
$s$ 는 binary response variable (0 은 노출 그리고 1 은 클릭)
$pa = {x_{1}, \dots, x_{n}}$ : context vector

parameter $θ$ 의 prior distribution 는 Gaussian pdf $N (μ, Σ)$ 를 따른다고 한다면, posterior 는 다음과 같이 계산된다.

P (s ∣ pa) = \int P (s ∣ pa, θ) P (θ) d θ

Sequential Logisitc Regression 은 매 time step $n$ 마다 example ${x_{n}, s_{n}}$ 들을 입력받는다고 할때, Gaussian posterior 확률 분포 $P (θ ∣ D^{1}, \dots, D^{T})$ 를 계산하는 것이 목적이다 (여기서 $D^{t} = {s^{t}, x_{1}^{t}, \dots, x_{n}^{t}}$ 는 $t$ time step 에 받은 context 및 reward)

학습 방안

Logistic regression 은 non-linear 하기 때문에 true posterior 를 계산하는 것은 analytically not feasible 하다. 그래서 아래와 같은 방법들로 posterior 를 approximate 하는 접근 방법을 택한다.

Laplace Approximation

Laplace approximation 은 S-L approximation 으로 표현되며, prior mean ( $μ$ ) 을 중심으로 하는 log-likelihood 를 local quadratic approximation 으로 표현한다. 그리고 해당 Log-likelihood 의 solution 을 Newton-Raphson method > Second-order method 방식을 통해 찾아낸다.

이 방식은 adjustable 한 parameter 가 없기 때문에 variational 한 방식보다 간단하지만, posterior 추정에 덜 정확한 결과를 낸다는 실험적인 내용이 있다.

Update Equation (ver. 1)

Σ_{post}^{- 1} = Σ^{- 1} + \overset{p}{^} (1 - \overset{p}{^}) x x^{⊤} μ_{post} = μ + (s - \overset{p}{^}) Σ_{post} x

$\overset{p}{^} = g (μ^{T} x)$

위의 식 유도는 다음을 참고할 것: generalized linear model - Why using Newton’s method for logistic regression optimization is called iterative re-weighted least squares? - Cross Validated

Update Equation (ver. 2)

\overset{ˉ}{Σ} = Σ - (\frac{p ˇ ( 1 - p ˇ )}{1 + p ˇ ( 1 - p ˇ ) σ ^{2}}) (Σ t) (Σ t)^{⊤} \overset{p}{ˇ} = P (\hat{Z}_{t} = 1 ∣ μ) = g (μ^{T} x) σ^{2} = t^{'} Σ t \tilde{μ} = μ + (z - \overset{p}{ˇ}) \overset{ˉ}{Σ} t

첫번째 식에 Sherman–Morrison formula 를 적용하면 두번째 식을 얻을 수 있다.

Variational Approximation

$P (s ∣ pa, θ)$ 를 varitional approximation 으로 치환하여 posterior 의 parameter 는 Gaussian 으로 남기고, posterior 계산은 각 observations 을 통해 evidence 를 순차적으로 계산함으로써 계산할 수 있다.

우선 variational transformation 은 다음과 같이 이루어진다

P (s ∣ pa, θ) = g (X_{s}) \geq g (ξ) exp {(X_{s} - ξ) /2 + λ (ξ) (X_{s}^{2} - ξ^{2})} = P (s ∣ pa, θ, ξ)

$X_{s} = (2 s - 1) \sum_{j} θ_{j} x_{j}$ 이고, $λ (ξ) = [1/2 - g (ξ)] /2 ξ$ 이다.
$ξ$ 는 variational parameter 이다.

Update Equations

Σ_{post}^{- 1} = Σ^{- 1} + 2∣ λ (ξ) ∣ x x^{T} μ_{post} = Σ_{post} [Σ^{- 1} μ + (s - 1/2) x]

$x = [x_{1} \dots x_{n}]^{T}$ 는 context vector
$λ (ξ) = [1/2 - g (ξ)] /2 ξ$

$ξ$ (크시) 의 경우 다음과 같이 업데이트 할 수 있다.

ξ^{2} = E ⎩ ⎨ ⎧ (j \sum θ_{j} x_{j})^{2} ⎭ ⎬ ⎫ = x^{T} Σ_{p os t} x + (x^{T} μ_{p os t})^{2}

a multivariate normal approximation to the posterior density
어떤 posterior 를 mean $\tilde{μ}$ 이고 covariance matrix $\overset{ˉ}{Σ}$ 이 Gaussian approximation 으로 보이면 다음과 같음
$σ^{2} = t^{'} Σ t$ 는 $θ (t, α) = α^{'} t$ 의 prior variance 라고 한다.
$\overset{p}{ˇ}$ 는 direct estimate 로, 다음과 같이 계산된다

\overset{p}{ˇ} = \overset{p}{ˇ} (Z = 1 ∣ x_{pa (v)}) = e^{'} / (1 + e^{'})

References

Sequential Updating of Conditional Probabilities on Directed Graphical Structures
Sequential Bayesian computation of logistic regression models
A variational approach to Bayesian logistic regression models and their extensions
- 개인적으로 가장 잘 정리된 내용인것 같음
Dynamic Logistic Regression
https://stats.stackexchange.com/questions/81740/recursive-online-regularised-least-squares-algorithm

Zzong's Notes

탐색기

Sequential logistic regression

Sequential Logistic Regression

학습 방안

Laplace Approximation

Update Equation (ver. 1)

Update Equation (ver. 2)

Variational Approximation

Update Equations

어떤 posterior 를 mean $\tilde{μ}$ 이고 covariance matrix $\overset{ˉ}{Σ}$ 이 Gaussian approximation 으로 보이면 다음과 같음

References

링크된 언급

목차

탐색기

Sequential logistic regression

Sequential Logistic Regression

학습 방안

Laplace Approximation

Update Equation (ver. 1)

Update Equation (ver. 2)

Variational Approximation

Update Equations

어떤 posterior 를 mean μ~​ 이고 covariance matrix Σˉ 이 Gaussian approximation 으로 보이면 다음과 같음

Related

References

링크된 언급

함께 보면 좋은 글

목차

어떤 posterior 를 mean $\tilde{μ}$ 이고 covariance matrix $\overset{ˉ}{Σ}$ 이 Gaussian approximation 으로 보이면 다음과 같음