KoRean Based Bert Pre-trained
Tokenizer
- BERT 에서 사용하는 일반적인 WordPiece 방식을 사용하거나 양방향 WordPiece 방식을 사용하여 실험
- 그리고 문자 단위인지 sub- 문자 단위인지에 따라서 실험
- 여기서 문자 단위는
춥다를춥#다로 바꾸고, sub- 문자 단위는춥#ㅂ다로 바꾼다. - 문자 단위가 BERT 에서 사용하는 토크나이저
- 여기서 문자 단위는
- 실험 결과는 문자 단위의 양방향 WordPiece (BidirectionalWordPiece Tokenizer) 를 사용하는 것이 성능이 가장 좋다고 한다.
학습데이터
- documents: 20 million (2 천만)
- words: 233 million (2.33 억)
Discussion
실험 결과를 보면 양방향 방식이 항상 모든 task 에 대해서 가장 좋은 성능을 보이는 것은 아니고, 점수 차이가 그렇게 큰편은 아니다.
그리고 오히려 토크나이징 시간이 늘어나서 인퍼런스 시간에서 감점이 있을 것으로 예상된다.