GPT-2 Let’s reproduce GPT-2 (124M) - YouTube B) Questions dropout 은 왜 softmax 이후에 적용하는 걸까? GPT 모델에서 cheating 방지를 위해 masking 하는 방식은 아직도 이해를 잘 못하겠음. C) Related D) References