Sigmoid Function
A.1) 미분값
A.2) Figure
약 -4.5 이하로는 무조건 0 을, 4.5 이상으로는 무조건 1 의 값을 가진다.

1 min read
...x)+(W^{[2]}b^{[1]}+b^{[2]})\\&=W& 039;(x)+b& 039;\end{aligned} a^{[2]} 는 하나의 layer 의 계산과 다를바가 없다. sigmoid function and tanh function sigmoid function 함수와 tanh function 함수의 단점 입력 데이터 x 의 크기가 매우 크거나 작을 때, sigmoid funct...
...&h {\theta}(x)<0.5 \rightarrow y=0 \end{aligned} h \theta(x)\ge0.5 라는 의미를 해석해보자. h \theta(x) 는 sigmoid function g(z) 를 사용하기 때문에, h \theta(x)\ge0.5 라는 의미는 z\geq0 와 같다. 왜 z\ge0 인가? 그 이유는 식 g(z)=\dfrac{1}{1+e^{ z}} 에...
...), update gate \Gamma {u} 와 relevance gate \Gamma {r} 를 추가하여 vanishing gradients 문제를 완화시킨다. 두 gate 모두 sigmoid function \sigma 를 사용하여 항상 0 과 1 사이의 값을 가진다. B) II. Forward Propagation \tilde{c}^{<t>}=\tanh\left(W {c}\...
...xponential family 분포를 따른다. \mu 는 mean function 그리고 \theta\in\mathbb{R}^{d} 가 모델 parameters. 여기서 \mu 는 sigmoid function 인 경우 logistic regression 으로 해석할 수 있다. A.1) Likelihood \mathcal{D}=\left\{\left(x {\ell},y {\ell}\righ...
... 것이다. 근데 0 이 value function 에서 최댓값인 이유는 log 함수를 그려보면 알 수 있다. D 는 확률을 예측하기 때문에 반드시 0 에서 1 사이의 값을 출력한다 (sigmoid function). 1 보다 낮은 값을 log 로 계산하게 되면 음의 값이 나오므로, 0 이 value function 에서 가능한 최댓값이다. Generator 입장에서 value function...
...tion \hat{y} 로 표현할 수 있다 : p\left(i\succ {c}j\right):=\sigma(\hat{y}(i\midc) \hat{y}(j\midc)) \sigma 는 sigmoid function 목적은 다음과 같은 올바른 preference 순서에 대한 likelihood 를 최대화 하는 것 : \displaystyle\underset{\Theta}{\operatorname...
Link Function inverse of activation function 을 의미한다. 예를 들어 logit 은 sigmoid 함수의 inverse 이고, probit 은 가우시안 분포의 CDF 함수의 inverse 를 의미한다. B) Related C) References logistic What is the d...
...t(\theta^{T} x\right) \\ &z=\theta^{T} x \\ &g(z)=\frac{1}{1+e^{ z}} \end{aligned} 여기서 g(z) 는 sigmoid function 이다. logistic regression 모델이 출력하는 값의 범위 (0\le h \theta(x)\le1) 를 보고 생각해보면, h \theta(x) 는 입력에 대한 최종 예측이...
...hreshold } 는 bias 로, 얼만큼 output 이 1 이 될 확률이 높은지 표현하는 정도이다. 예를 들어 b 가 매우 높다면 output 은 거의 항상 1 이 될것이다. A.1) Sigmoid Neuron perceptron 과 비슷하지만, output 에 sigmoid 를 씌운 모델이다. perceptron 은 output 에 step function 을 씌운 모델로 생각할 수...
... activation function 은 tanh function 또는 ReLU function 그리고 y^{<t>} 에서 사용하는 activation function 은 sigmoid function 또는 softmax function A.2.1) RNN forward 식의 Simplification a^{<t>}=g\left(W {aa}a^{<t>}+W {...