Roberta

Pretrained model on English language using a masked language modeling (MLM) objective.

B) Vs. BERT

BERT 와 차이점

매 epoch 마다 각 training instance 에서 같은 mask 를 사용하는 것을 피하기 위해서 epoch 마다 다른 masking 사용한다.

예를 들어 data 를 10 개 복제하여 각 sequence 가 40 epoch 에 걸쳐 10 가지 방법으로 masking 되도록 처리한다면, 학습 중 동일한 mask 는 4 번만 보게 된다.