NN with a Hidden Layer
hidden layer 가 한개 있는 neural network 를 살펴보자.

입력 units 은 세개이고, activation function 이 사용된다.
만약, hidden layer 의 유닛 개수가 네개라면, matrix 의 크기는 이 된다. 그리고 의 크기는 이 된다. 그리고 bias 의 크기는 이다.
1 min read
Non Linear Activation(비 선형 함수) 의 사용 이유 activation function 을 사용하지 않는다면, neural network 에 아무리 많은 layer 들을 사용해도, 그냥 입,출력 레이어만 붙어있는 네트워크와 다를바가 없기 때문이다. 예시: 다음과 같이 비 선형 함수를 사용하지 않는 신경망이 있다고 가정하...
...back propagation 에는 총 4 가지 핵심 수식들이 존재한다. 역전파 알고리즘에 포함되어 있는 총 네가지 수식들을 정리해보자. (1) cost function C 에 대해서 neural network 의 마지막 L 번째 layer 의 error \delta^L 은 다음과 같이 정의된다. \delta^{L}=\nabla {a} C \odot \sigma^{\prime}\left(z^...
Batch Normalization BN 은 neural network 학습 시간을 줄여주고 generalization 을 향상시킨다. B) Basics of Batch Normalization x 는 normalization 하기 원하는 network ...
...radients 보다 항상 장점만 있는것도 아닌것이, inverse Hessian matrix M 을 기억하기 위해 O\left(n^{2}\right) 만큼의 메모리를 사용해야 한다. neural network 의 경우 백만개의 parameters 가 있다는 점을 고려하면 이를 효율적으로 사용하는 것은 거의 불가능에 가깝다. B) L BFGS L BFGS 는 BFGS 의 Limited Mem...
...assifier (logistic regression, linear SVM) Kernel Machines (kernel trick 을 사용한 SVMs) deep learning 계열의 neural network Decision Tree 와 ensemble 기반의 tree (random forest, GBM) KNN 또는 Naïve Bayes 와 같은 Naive 한 기술들 E) Related ...
...ing 알고리즘 DQN 은 state s 가 주어졌을 때, action values 로 구성된 vector Q(s, \cdot ; \boldsymbol{\theta}) 를 반환하는 다중 레이어 신경망을 의미한다 (여기서 \boldsymbol{\theta} 는 신경망의 parameter). DQN 은 n 차원 state space 를 m 개의 actions 이 포함된 action space ...
Dropout Dropout 방식은 neural network 의 overfitting 문제를 완화하기 위해, 사용자 정의된 확률에 기반하여 각 레이어의 일부 노드들을 계산에 포함시키지 않는 방법을 의미한다. B) Example 코드 형식으로 d...
...를 추정하려는 predicted score s {i}=f\left(x {i}\right) 가 출력값으로 있다. 이 score 를 계산하기 위해 일반적으로 Decision Tree 또는 neural network 등 을 활용한다. D.3) Loss Function D.3.1) Pointwise Methods 각 document d i 에 정의된 loss term 의 합을 계산하는 방식으로, l...
...방법이다. B) Apply Regularization to Model Regularization 을 logistic regression 에 적용하기 위해서 L2 norm 을 사용하고, neural network 에는 Frobenius norm 을 적용한다. B.1) Logistic Regression 의 경우 Regularization term 이 붙은 cost function J 는 다음과...
...d z\right)\right] 를 계산할 때, q 로 z 를 sampling 한 뒤에 \log p {\theta}\left(x^{(i)} \mid z\right) 를 계산한다. 이 계산 방식을 NN 에서 푸는 경우 feed forward 계산에서는 아무 문제가 없지만, backpropagation 에서는 문제가 있다. 왜냐하면 sampling 은 미분 가능한 연산이 아니기 때문이다. 즉, ...