Semantic Textual Similarity

STS 는 텍스트가 서로 유사한지를 구하는 task 이다.

저는 어거스트 러쉬라는 영화를 가장 좋아합니다. 제가 제일 재미있게 본 영화는 어거스트 러쉬입니다.

위의 두가지 문장은 다르지만, 유사하다. 이러한 유사도를 판별해 내는 것이 바로 STS 의 목적이다.

STS 데이터는 두 개의 문장 쌍과 이 두 문장 사이의 유사도 점수로 구성되어 있으며, 이를 학습하여 문장과 문장간 서로 얼마나 유사한지를 예측하게 된다. 아래는 KLUE-STS 데이터셋의 예시이다.

0000 (id) 5.000 (score, 유사도) 안전모를 가진 한 남자가 춤을 추고 있다. (sentence1) 안전모를 쓴 한 남자가 춤을 추고 있다. (sentence2)

References

링크된 언급

Qwen3 Embedding

Qwen3 Embedding Qwen3 Embedding은 Qwen3 계열 foundation model을 기반으로 만든 dense embedding model이다. 검색, STS, classification, bitext mining처럼 서로 다른 similarity task를 하나의 embedding model로 다루기 위해 대규모 synthetic pair data...

Zzong's Notes

탐색기

Semantic Textual Similarity

Semantic Textual Similarity

References

링크된 언급

목차

탐색기

Semantic Textual Similarity

Semantic Textual Similarity

References

링크된 언급

함께 보면 좋은 글

목차