1 min read
.... 예를 들어, c, a, r 에서 ca 가 가장 많이 나온다고하면, c, a, r, ca 로 총 4 개 크기의 단어집이 구성된다. 이 작업을 특정 크기가 될때까지 반복한다. 이후 out of vocabulary 단어가 등장하는 경우에도, 가장 작은 단위로 나눠서 빈도수가 높은 단어는 매칭을 시키고 나머지는 unknown [UNK] 토큰을 붙여준다. 예를 들어, card 를 토크나이징하면,...
... grams with n>=3 and n<=6 worked best. 영어보다는 러시안, 독일어, 아랍어 등에 도움이 되었다고 한다. E) Pros and Cons E.1) Pros OOV 단어에 대한 임베딩을 생성할 수 있다. 발생 빈도수가 낮은 단어에 대해서도 보다 좋은 단어 임베딩을 생성할 수 있다. E.2) Cons it takes longer to generate fas...
...rs(huggingface) 에서는 token 들을 종류별로 나눈다. bos token: 문장의 시작을 알리는 토큰 eos token: 문장의 끝을 알리는 토큰 unk token: out of vocabulary 토큰을 나타내는 특수 토큰 sep token: 같은 입력 내 서로 다른 두 문장의 분리를 나타내는 토큰 pad token: batch 목적으로 array 들의 구분을 나타내는 토큰...