SentencePiece

링크된 언급

2

... 부분 단어 (subword) 로 나누는 방식입니다. 예를 들어, refactoring 같은 단어는 re, factor, ing 와 같은 subword 로 나눌 수 있습니다. BPE, SentencePiece 등 B) Special Tokens Tokenizers(huggingface) 에서는 token 들을 종류별로 나눈다.

unigram lanugage model

... 유니그램은 각 토큰에 대한 확률값을 가지고 있기때문에, 실제로 토크나이징 할때 가장 높은 확률을 가진 토큰화 결과를 출력한다. (그런데 여기서 높은 확률은 무엇인지..?) 일반적으로 SentencePiece 라이브러리에서 사용된다. B) Related C) References