dot product

attention function

B.1.1.1) Why Scaled? dₖ 가 커질수록 dot products 의 값이 커지기 때문에 softmax 에서 gradient 값이 매우 작아지게 된다. 이러한 현상을 막기 위해서 scale 값을 적용했다고 한다. B.1.1.2) Example Fig...

Cauchy–Schwarz inequality

Cauchy–Schwarz Inequality 만약, 두 벡터가 서로 선형 독립 하지 않다면, 위 식의 양쪽은 서로 같다. Related References

chain rule (calculus)

Chain Rule (calculus) Scalar case y=g(x) 그리고 z=f(g(x))=f(y) 인 경우 chain rule 은 다음과 같다. Vector case 위 식은 Jacobian matrix 로 표현이 가능하다. 해당 행렬은 fᵢ 를 gᵢ 에 대하여 가능한 모든 조합과 gᵢ 를 xᵢ 에 대하여 가능한 모든 조합을 포함하고 있다. 예시 Related References

CTR prediction

...junctions 이라고도 불림) 은 분류 성능을 향상시키기 위한 핵심 재료다. Factorization Machines 은 pairwise feature interaction 을 잡아내기 위해 내적 을 활용했다. D) Related

directional derivative

여기서 gradient 가 왜 가장 가파르게 올라가는 방향임을 알 수 있는데, 방향도함수가 최대가 되기 위해서는 gradient 와 vector 간 방향이 동일해야 하기 때문이다 (내적이므로).

Embarrassingly Shallow Autoencoders for Sparse Data

Abstract 이 논문에서는 추천 시스템에서 sparse data 를 linear model 로 학습하는 방안을 제시했다. 학습에 사용한 training objective 는 closed-form solution 으로 표현될 수 있다. 실험 결과 SOTA CF 방식보다 더 나은 ranking accuracy 를 보였다. 여기서 CF 방식은 deep non-linear model 도 포함한다...

Gram matrix

Gram Matrix B) Related C) References wiki: en.wikipedia.org/wiki/Grammatrᵢx

Information Noise-Contrastive Estimation

여기서 유사도는 dot product 나 cosine similarity 같은 간단한 식을 사용한다. B) References

law of cosines

Law of Cosines B) Proofs dot product 를 활용한 증명

MUVERA

이제 이 두 FDE 벡터의 내적을 계산하면, q1, q2와 p1, p3가 Zone 11에서 상호작용하고, p2는 Zone 10에서 홀로 남아 점수에 기여하지 못하게 됩니다. 이는 다중 벡터 간의 복잡한 유사도 관계를 단일 벡터...

Zzong's Notes

탐색기

dot product

Dot Product

B) References

링크된 언급

목차

탐색기

dot product

Dot Product

B) References

링크된 언급

함께 보면 좋은 글

목차