배경
Qwen2.5 의 72b 급 대용량 모델을 학습하는 방법에 대해 조사해보자.
deepspeed Bucket 크기 조정
모델 병렬화 필요성:
- ZeRO-3 는 모델 병렬화가 아닌 데이터 병렬화 방식으로 설계됨. 따라서 모델 병렬화를 활용하는 것이 권장됨.
B) Trials
- bucket_size 조절
allgather_bucket_size및reduce_bucket_size값을2e8로 낮추는 방법이 제안됨- 별 효과 없음
offload_optimizer옵션 키기: 별 효과가 없음