Hierarchical Softmax
Hierarchical Softmax 는 softmax function 를 전체로 계산하기 보다는 Tree 구조로 Hierarchical 하게 Softmax 를 계산하는 방법이다.

1 min read
Hierarchical Softmax 는 softmax function 를 전체로 계산하기 보다는 Tree 구조로 Hierarchical 하게 Softmax 를 계산하는 방법이다.

...licit feedback을 이용하여 모델을 학습하고 있음 비디오를 끝까지 보면 해당 비디오에 대해서 positive 할 것임 Efficient Extreme Multiclass hierarchical softmax 보다는 negative sampling 방식이 더 효과가 좋았음 Model Architecture continuous bag of words language models 로 부터...
... 제안함으로써 학습 속도와 vector quality 상승을 보였다. How? subsampling of the frequent words negative sampling 제안 (hierarchical softmax 의 alternative) A.1) 기존 방식의 문제점 단어 순서를 고려하지 못하고, 관용 (idiomatic) 어구에 대한 표현이 불가능 A.1.1) 예시 “Canada” 그리...
...{\sum {j=1}^{V}f\left(w {j}\right)^{3/4}} f(w i) 는 해당 단어에 대한 사전 또는 corpus 에서의 빈도수를 의미한다. D) Related hierarchical softmax E) References
...그리고 V 는 단어의 총 개수다. 일반적으로 V 는 매우 큰 편이라, 매번 확률 vector 를 계산할 때 많은 계산량이 요구된다. softmax 의 계산량 이슈를 해소하기 위해 hierarchical softmax 그리고 negative sampling 가 제시되었다 (주로 negative sampling 이 많이 이용된다). E) Related F) References ratsgo.git...
...put Layer 에서 모든 단어에 대한 Softmax 계산을 해야하기 때문에, 이에 따른 연산량이 막대하다. 이 부분의 계산량을 줄이기 위한 방법이 두가지 제안되었는데, 하나는 hierarchical softmax 고, 다른 하나는 negative sampling 이다. hierarchical softmax 와 negative sampling 은 확률 값 계산의 계산량을 줄이기 위한 방법으...