정의

GRU 는 Recurrent Neural Network unit 을 하나의 (memory) cell 로 인식하고 (), update gate relevance gate 를 추가하여 vanishing gradients 문제를 완화시킨다.

두 gate 모두 sigmoid function 를 사용하여 항상 0 과 1 사이의 값을 가진다.

B) II. Forward Propagation

는 element-wise multiplication 을 의미한다.

C) III. Two Gates of GRU

  • 는 update gate 이다.
    • activation function 으로 sigmoid function 을 사용하며, 이전 cell 의 내용에 기반하여 현재 내용을 기억할지 말지 결정한다.
    • vanishing gradients 문제를 완화하는데 큰 도움을 준다.
      • 극단적인 예로, 인 경우, 인데, 이렇게 되면 back-propagation 을 진행하는 길이가 훨씬 짧아진다.
  • 는 relevance gate 이다.
    • 마찬가지로 sigmoid function 을 사용하며, 이전 cell 의 내용이 현재 cell 과 얼마나 관련이 있는지를 수치화하여, 현재 cell 값 () 을 계산할 때 이전 cell 의 내용이 얼마나 들어갈지를 결정하게 된다.

D) IV. The Figure of GRU

RNN, T|500

위 그림에서 는 update gate 를 의미하고, 는 relevance 또는 reset gate 을 의미한다.

그림의 는 식의 와 동일함

E) Related

Long Short-Term Memory