Zzong's Notes

Home

❯

machine_learning

❯

generative_ai

❯

LLM

❯

GPT-2

GPT-2

2026년 6월 14일1 min read

GPT-2

Let’s reproduce GPT-2 (124M) - YouTube

B) Questions

  • dropout 은 왜 softmax 이후에 적용하는 걸까?
  • GPT 모델에서 cheating 방지를 위해 masking 하는 방식은 아직도 이해를 잘 못하겠음.

C) Related

D) References


  • GPT-2
  • B) Questions
  • C) Related
  • D) References