GRPO 대신 DAPO: RL 최적화로 LLM 추론 능력 끌어올리기


서론: 문제점과 제안

이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 강화 학습(RL)으로 향상시키는 방안을 탐구합니다. 하지만 기존의 최첨단(SotA) 추론 LLM들(예: OpenAI o1, DeepSeek R1)은 핵심 기술을 비공개로 유지하여, 연구 커뮤니티에서 그 성능을 재현하기 어렵다는 문제점을 지적합니다.

이러한 문제를 해결하고자, 저자들은 다음을 제안하고 관련 자원을 공개합니다:

  • DAPO (Decoupled Clip and Dynamic sampling Policy Optimization) 알고리즘: 기존 RL 방법(PPO, GRPO 등)의 한계를 극복하도록 설계된 새로운 최적화 알고리즘입니다.
  • 완전한 오픈소스 RL 시스템:
    • 알고리즘: DAPO의 상세 구현 공개.
    • 훈련 코드: verl 프레임워크 기반의 훈련 코드 공개 (GitHub 링크 제공).
    • 데이터셋: 신중하게 선별하고 처리한 DAPO-Math-17K 데이터셋 공개.

DAPO: 4가지 핵심 기술

논문은 성공적인 대규모 LLM RL 훈련을 위한 4가지 핵심 기술 요소를 제안합니다.

1. Clip-Higher: 탐색 촉진 및 엔트로피 붕괴 방지

  • 목표: RL 훈련 중 모델의 다양성이 급격히 줄어드는 엔트로피 붕괴(entropy collapse) 현상을 방지하고, 더 넓은 탐색을 유도합니다.
  • 방법: 기존 PPO/GRPO 클리핑 메커니즘의 상한(upper clip) 값을 높여, 확률이 낮은 토큰의 확률도 쉽게 증가할 수 있도록 허용합니다. 이는 모델이 다양한 응답을 생성하도록 장려합니다.

2. Dynamic Sampling: 훈련 효율성 및 안정성 향상

  • 목표: 불필요한 계산을 줄여 훈련 효율성을 높이고, 훈련 과정의 안정성을 개선합니다.
  • 방법: 학습에 기여하지 못하는 샘플(advantage 값이 0인 경우, 즉 보상과 예측 가치가 동일한 경우)을 필터링합니다. 대신, 유의미한 그래디언트를 생성하는 샘플을 더 많이 포함시켜 배치를 구성함으로써 학습 효율을 높입니다.

3. Token-Level Policy Gradient Loss: 긴 추론 학습 강화

Figure 4

  • 기존 샘플 수준 손실의 문제점:
    • 예시:
      • 답변 A: 짧고 정답 (10 토큰, 보상 +1)
      • 답변 B: 길고 복잡한 추론 끝에 정답 (500 토큰, 보상 +1)
    • 기존 방식(GRPO 등)은 답변 전체(샘플)에 대해 하나의 손실 값을 계산하고 평균냅니다.
    • 이 경우, 긴 답변 B의 각 토큰이 받는 학습 신호(크레딧)는 짧은 답변 A의 토큰보다 훨씬 약해집니다. 즉, 500개 토큰 전체에 분산된 총 학습 신호량이 10개 토큰에 분산된 총량과 비슷해져, 개별 토큰의 기여도가 희석됩니다.
  • 문제점 요약:
    • 긴 추론 학습 저해: 성공적인 긴 추론 과정에 기여한 개별 토큰들이 충분한 긍정적 신호를 받지 못해 학습이 더뎌집니다.
    • 나쁜 패턴 처벌 비효율: 반대로, 매우 길지만 오답이거나 무의미한 반복(gibberish)을 포함하는 답변(보상 -1)의 경우, 페널티가 다수 토큰에 걸쳐 분산되어 나쁜 패턴을 효과적으로 억제하기 어렵습니다.
  • DAPO의 해결책 (토큰 수준 손실):
    • 계산 방식: 각 토큰별로 손실을 계산한 후 평균냅니다.
    • 효과: 긴 답변 속 개별 토큰들도 적절한 학습 신호를 받게 되어 긴 추론 학습이 촉진됩니다. 또한, 불필하게 길거나 반복적인 패턴을 포함하는 답변에 대해 각 토큰 수준에서 효과적으로 페널티를 부과하여 이런 패턴 생성을 억제할 수 있습니다. (Overlong Reward Shaping과 결합 시 효과 증대)

4. Overlong Reward Shaping: 과도한 길이 생성 제어

  • 배경: RL 훈련 시 계산 효율 등을 위해 생성 답변의 최대 길이(예: 20480 토큰)를 제한하며, 이 길이를 초과하면 답변이 잘립니다(truncated).
  • 단순 접근법의 문제: 초과 길이 샘플에 무조건 페널티(예: 보상 -1)를 부여하면, 잘리기 전까지 올바른 추론을 했더라도 벌점을 받아 학습에 노이즈가 발생하고 훈련이 불안정해질 수 있습니다.
  • DAPO의 해결책:
    • 1단계 시도 (Overlong Filtering):
      • 방식: 잘린 샘플은 손실 계산에서 제외(마스킹).
      • 효과: 노이즈 제거로 훈련 안정화 및 성능 향상(Figure 5). 하지만 모델이 길게 생성하는 것을 능동적으로 막지는 못함.
    • 최종 채택 (Soft Overlong Punishment):
      • 방식:
        1. 최대 길이(L_max) 이전에 “처벌 구간”(L_cache) 설정 (예: L_max=20480, L_cache=4096이면 16384~20480 토큰 구간).
        2. 생성된 답변 길이 |y|가 처벌 구간 내(L_max - L_cache < |y| < L_max)에 있으면, L_max에 가까워질수록 점진적으로 증가하는 페널티(-1에 가까워짐) 부여.
        3. |y|L_max를 초과하면 최대 페널티(-1) 부여.
        4. |y|가 처벌 구간보다 짧으면(|y| <= L_max - L_cache), 길이 페널티는 0.
      • 효과: 하드 제한에 도달하기 전에 모델에게 “너무 길어지니 간결하게 하라”는 부드러운 신호를 제공합니다. 이를 통해 노이즈 문제를 해결(Overlong Filtering 장점)하면서 동시에 과도한 길이 생성을 능동적으로 억제(Soft Overlong Punishment 장점)합니다.

실험 결과

Figure 1

  • 성능 달성: Qwen2.5-32B 기반 모델에 DAPO를 적용하여 AIME 2024 벤치마크에서 50점을 기록했습니다.
  • 효율성: 이는 이전 SotA(DeepSeek-R1-Zero-Qwen-32B, 47점)를 능가하는 성능이며, 훈련 스텝은 50%만 사용했습니다(Figure 1).
  • 기술 기여도 분석 (Table 1): 각 기술 요소(Overlong Filtering, Clip-Higher, Soft Overlong Punishment, Token-level Loss, Dynamic Sampling)가 성능 향상에 개별적으로 기여함을 점진적 분석(ablative study)을 통해 입증했습니다.

기술 요소별 성능 기여도 (Table 1 분석)

Table 1

Table 1은 DAPO의 각 기술 요소가 Qwen2.5-32B 모델의 AIME 2024 avg@32 정확도에 미치는 영향을 보여줍니다.

  • Naive GRPO (Baseline): 30점
    • 가장 기본적인 GRPO 알고리즘만 사용. DAPO 개선 사항 미적용.
    • SotA(47점) 대비 현저히 낮아, 기존 RL 알고리즘만으로는 높은 추론 성능 달성이 어려움을 시사.
  • + Overlong Filtering: 36점 (+6점)
    • 길이 초과 샘플 필터링 추가. 보상 노이즈 감소 및 훈련 안정성 향상으로 6점 상승.
  • + Clip-Higher: 38점 (+2점)
    • Clip-Higher 추가. 탐색 능력 강화 및 엔트로피 붕괴 방지로 2점 추가 상승.
  • + Soft Overlong Punishment: 41점 (+3점)
    • Overlong Filtering 대신 Soft Overlong Punishment 적용. 노이즈 감소와 길이 생성 억제 효과로 3점 추가 상승.
  • + Token-level Loss: 42점 (+1점)
    • 토큰 수준 손실 계산 추가. 긴 추론 학습 신호 분배 개선 및 나쁜 패턴 억제로 1점 추가 상승. 점수 향상은 작지만 훈련 안정성 및 응답 길이 조절에 긍정적 효과.
  • + Dynamic Sampling (최종 DAPO): 50점 (+8점)
    • 동적 샘플링 추가로 DAPO 완성. 비효율적 샘플 필터링으로 훈련 효율 극대화, 8점 대폭 상승하여 최종 50점 달성.

결론 (Table 1): DAPO의 각 기술 요소는 성능 향상에 명확히 기여합니다. 특히 동적 샘플링(+8점), 초과 길이 보상 조절(+3점), 초기 필터링(+6점)의 기여가 큽니다. 이는 LLM RL에서 훈련 안정성, 효율성, 탐색 균형 조절의 중요성을 강조합니다.

새로운 추론 패턴의 점진적 학습 (Table 2, Case Study)

Table 2

RL 훈련은 단순히 좋은 답변의 확률을 높이는 것을 넘어, 모델이 스스로 새로운 추론 방식과 행동 패턴을 학습하고 발전시키는 질적 변화를 가져옵니다.

  • 관찰 내용:
    • 훈련 초기: 모델은 직선적으로 답변을 생성하며, 중간에 막히거나 잘못된 길로 가도 되돌아보거나 수정하려는 시도가 거의 없습니다.
    • 훈련 진행 후 (Table 2 예시): “However, wait a moment, let’s rethink about…” 와 같은 표현을 사용하며, 자신의 이전 추론 단계를 반성(reflection)하고 다른 접근법을 시도하거나(백트래킹, backtracking), 문제 해결 전략을 수정하는 모습을 보입니다. Table 2는 수학 문제 해결 중 초기 접근(좌표/거리 공식)에서 다른 방식(평면/기하학)으로 전환하는 예를 보여줍니다.
  • 의미 및 중요성:
    • RL의 탐색/발견 능력: RL이 정해진 답만 강화하는 것이 아니라, 더 나은 해결책을 탐색하며 효과적인 새 전략(자기 반성, 대안 탐색 등)을 “발견”하고 강화할 수 있음을 시사합니다.
    • 고급 추론 능력 발현: 자기 수정, 계획 수정 등 인간의 문제 해결 능력과 유사한 능력을 LLM이 RL 훈련을 통해 스스로 학습할 가능성을 보여줍니다.

훈련 모니터링의 중요성

LLM에 RL을 적용하는 것은 여러 하위 시스템(모델, 보상 함수, 샘플링 전략 등)이 복잡하게 얽힌 엔지니어링 문제입니다. 작은 변화가 예상치 못한 결과를 낳거나, 이론적으로 좋은 변경이 실제 성능을 악화시킬 수 있습니다.

따라서 훈련 중 핵심 지표(metric)들의 동적 변화를 실시간으로 관찰하는 것이 필수적입니다. 이를 통해 문제를 신속히 진단하고 시스템을 개선할 수 있습니다. Figure 7은 DAPO 훈련 중 관찰된 주요 지표 변화와 모니터링의 필요성을 보여줍니다.

Figure 7

Figure 7a: 평균 응답 길이 (Mean Response Length)

  • 의미: 생성된 답변의 평균 토큰 길이.
  • 관찰: 훈련 진행에 따라 증가 경향. 긴 답변은 더 복잡한 Chain-of-Thought 학습 가능성을 의미.
  • 모니터링 중요성:
    • 긍정 신호: 꾸준한 증가는 복잡한 추론 능력 학습을 시사할 수 있음.
    • 경고 신호: 무한정 증가는 좋지 않음. 특정 시점 이후 정체/감소는 훈련 악화 신호일 수 있음. 불필요한 반복이나 관련 없는 내용(gibberish) 포함 가능성.
  • 판단: 길이 변화는 검증 정확도(Validation Accuracy)와 함께 보며 실제 성능 향상으로 이어지는지 확인해야 함.

Figure 7b: 보상 점수 (Reward Score)

  • 의미: 훈련 데이터셋 답변에 대한 평균 보상 점수 (주로 정답 +1, 오답 -1).
  • 관찰: 훈련 초기에 빠르게 증가 후 안정화. 모델이 보상 신호에 맞춰 학습함을 보여줌.
  • 모니터링 중요성:
    • 기본 확인: 보상 증가는 정상 학습의 기본 신호.
    • 과적합(Overfitting) 경고: 매우 중요. 훈련 보상 점수는 검증 정확도와 상관관계가 낮을 수 있음. 즉, 훈련 데이터에 과적합되어 보상은 높지만 일반화 성능(검증 정확도)은 낮을 수 있음.
  • 판단: 훈련 보상만으로 성능 판단은 금물. 반드시 검증 정확도와 함께 확인하여 과적합 여부 판단 필요.

Figure 7c: 생성 엔트로피 / Figure 7d: 평균 확률

  • 의미:
    • 엔트로피: 다음 토큰 예측 시 확률 분포의 불확실성/무작위성 정도. 높으면 탐색적, 낮으면 결정론적 생성.
    • 평균 확률: 실제로 선택된 토큰에 부여된 평균 확률값 (엔트로피와 반비례 경향).
  • 관찰:
    • 초기: 엔트로피 감소, 평균 확률 증가 (쉬운 패턴 학습 및 확신 증가 단계).
    • Clip-Higher 적용 후: 엔트로피 증가, 평균 확률 감소 (의도된 탐색 촉진 및 다양성 증가).
    • 이후: 느린 엔트로피 증가 및 평균 확률 감소 추세가 성능 향상에 도움.
  • 모니터링 중요성:
    • 탐색 vs 활용 균형: 엔트로피는 탐색(exploration)활용(exploitation) 균형의 핵심 지표.
    • 엔트로피 붕괴 경고: 엔트로피가 너무 낮아지면(초기 감소세 지속 시) 새로운 해법 탐색 불가 → 성능 저하 (Clip-Higher로 해결).
    • 과도한 탐색 경고: 엔트로피가 너무 높으면 무작위적/무의미한 생성 가능.
  • 판단: 엔트로피를 적절 범위 내 유지 또는 성능 향상 방향(예: 느린 증가)으로 유도 필요. 이 역시 검증 정확도와 함께 최적점 탐색.

요약 및 결론

이 논문은 최신 LLM 추론 능력 향상을 위한 RL 적용 시 기술 비공개 문제를 해결하고자, 새로운 DAPO 알고리즘과 완전한 오픈소스 RL 시스템(코드, 데이터셋 포함)을 제안했습니다. 4가지 핵심 기술(Clip-Higher, Dynamic Sampling, Token-Level Loss, Overlong Reward Shaping)을 통해 기존 방식의 한계를 극복하고, Qwen2.5-32B 모델로 AIME 2024 벤치마크에서 SotA 성능을 달성했습니다. 본 연구는 LLM RL 분야의 투명성과 재현성을 높이는 데 중요한 기여를 합니다.

참고 자료 (Reference)

  • paper: https://arxiv.org/pdf/2503.14476
  • github: https://dapo-sia.github.io/



    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • Deepseek-R1 모델
  • 학습할때 메모리가 터진다고? Cut Your Losses!
  • DeepSeek-V3 기술 요약
  • python accelerate 라이브러리 함수 조사기
  • Multi-Head Latent Attention