Paper page - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

RLVR의 역설

  • 배경: LLM의 추론 능력을 향상시키기 위해 **RLVR(검증 가능한 보상을 이용한 강화학습)**이라는 기술이 주목받고 있습니다. 이 기술은 모델이 생성한 답이 맞았는지 틀렸는지를 알려주고, 이를 통해 모델이 스스로 학습하게 하는 방식입니다.
  • 역설적 현상: 그런데 RLVR로 튜닝한 모델의 성능을 기존 평가 지표인 Pass@K로 측정했더니, 여러 번의 시도(K가 클 때)에서는 오히려 튜닝 전 기본 모델보다 성능이 떨어지는 현상이 발견되었습니다.
  • 기존 가설: 이 때문에 “RLVR은 새로운 추론 능력을 가르치는 것이 아니라, 원래 모델이 알던 몇몇 정답 경로만 집중적으로 학습시켜 추론의 다양성을 해치는 부작용이 있다”는 비판이 제기되었습니다.

B) 2. 문제의 재정의: “평가 지표가 잘못되었다”

  • 핵심 주장: 이 논문의 저자들은 RLVR 기술이 문제가 아니라, 기존 평가 지표인 Pass@K가 추론 능력을 제대로 측정하지 못하는 근본적인 결함이 있다고 주장합니다.
  • Pass@K의 맹점: 이 지표는 최종 **‘정답’**만 맞으면 점수를 줍니다. 따라서 중간 풀이 과정이 논리적으로 엉망이거나 우연히 답을 맞힌 경우(spurious guess)도 ‘성공’으로 처리하는 허점이 있었습니다.

C) 3. 새로운 해결책: CoT-Pass@K와 LLM 판정관

  • 새로운 평가 지표 CoT-Pass@K: 저자들은 이 문제를 해결하기 위해 새로운 평가 지표를 제안합니다. 이 지표는 ① 중간 추론 과정(Chain of Thought, CoT)이 논리적으로 타당하고, ② 최종 정답도 정확해야만 ‘성공’으로 인정합니다.
  • 검증 방법 (LLM-as-a-CoT-Judge):
    • 수많은 추론 과정을 사람이 일일이 검토하는 것은 불가능하므로, 또 다른 강력한 LLM(DeepSeek-R1-0528-Qwen3-8B)을 ‘판정관’으로 사용하여 추론 과정의 논리적 오류, 개념적 오류, 계산 실수 등을 자동으로 검증했습니다.
    • 판정관의 오류 가능성을 보완하기 위해, 하나의 풀이 과정을 **여러 번 검증(any-correct, all-correct, majority-correct)**하여 평가의 신뢰도를 높였습니다.

D) 4. 실험 결과 및 발견

  • RLVR의 진정한 효과 입증: 새로운 CoT-Pass@K 지표로 다시 평가하자, RLVR로 튜닝된 모델이 모든 K값에서 기본 모델보다 월등히 높은 성능을 보였습니다. 이는 RLVR이 엉터리 풀이를 줄이고, 논리적으로 올바른 추론 능력을 실질적으로 향상시킨다는 강력한 증거입니다.
  • 훈련 과정 분석: RLVR 훈련을 시작하자마자 초기 단계부터 올바른 추론을 장려하는 효과가 나타나며, 이 능력은 훈련이 진행됨에 따라 꾸준히 향상되고 새로운 문제에도 잘 일반화되었습니다.
  • 이론적 기반 제시: 저자들은 RLVR이 단순히 정답을 맞히는 것을 넘어, ‘올바른 추론은 올바른 답으로 이어질 확률이 높다(Logical Coherence)‘는 암묵적 가정을 통해 논리적으로 타당한 추론 경로 자체의 확률을 높이는 방향으로 작동함을 이론적으로 공식화했습니다.

E) 5. 결론 및 기여

  • RLVR에 대한 오해 해소: 이 연구는 RLVR이 추론 다양성을 해친다는 기존의 오해를 바로잡고, 오히려 기계의 올바른 추론 능력을 근본적으로 향상시키는 매우 효과적인 패러다임임을 명확히 밝혔습니다.
  • 새로운 평가 관점 제시: LLM의 진정한 추론 능력을 평가하려면 최종 결과뿐만 아니라 **‘추론 과정의 질’**을 반드시 함께 평가해야 한다는 중요한 관점을 제시하고, 그 구체적인 방법론(CoT-Pass@K와 LLM 판정관)을 제안했습니다.
  • 향후 연구 방향: 이 연구는 앞으로 LLM이 단순히 지식을 암기하는 것을 넘어, 인간처럼 논리적으로 사고하고 문제를 해결하는 능력을 갖추기 위해 RLVR과 같은 ‘경험을 통한 학습’이 핵심적인 역할을 할 것임을 시사합니다.

요약하자면, 이 논문은 **“평가의 기준을 바꾸니, 기술의 진정한 가치가 보였다”**는 이야기입니다. 잘못된 잣대로 인해 저평가받던 RLVR 기술의 명예를 회복시키고, AI의 추론 능력을 한 단계 더 발전시키기 위한 중요한 방향을 제시한 연구라고 할 수 있습니다.