Semantic Textual Similarity

STS 는 텍스트가 서로 유사한지를 구하는 task 이다.

저는 어거스트 러쉬라는 영화를 가장 좋아합니다. 제가 제일 재미있게 본 영화는 어거스트 러쉬입니다.

위의 두가지 문장은 다르지만, 유사하다. 이러한 유사도를 판별해 내는 것이 바로 STS 의 목적이다.

STS 데이터는 두 개의 문장 쌍과 이 두 문장 사이의 유사도 점수로 구성되어 있으며, 이를 학습하여 문장과 문장간 서로 얼마나 유사한지를 예측하게 된다. 아래는 KLUE-STS 데이터셋의 예시이다.

0000 (id) 5.000 (score, 유사도) 안전모를 가진 한 남자가 춤을 추고 있다. (sentence1) 안전모를 쓴 한 남자가 춤을 추고 있다. (sentence2)

References