Zzong's Notes

❯

❯

❯

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

2026년 6월 14일7 min read

Paper page - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

RLVR의 역설

배경: LLM의 추론 능력을 향상시키기 위해 **RLVR(검증 가능한 보상을 이용한 강화학습)**이라는 기술이 주목받고 있습니다. 이 기술은 모델이 생성한 답이 맞았는지 틀렸는지를 알려주고, 이를 통해 모델이 스스로 학습하게 하는 방식입니다.
역설적 현상: 그런데 RLVR로 튜닝한 모델의 성능을 기존 평가 지표인 Pass@K로 측정했더니, 여러 번의 시도(K가 클 때)에서는 오히려 튜닝 전 기본 모델보다 성능이 떨어지는 현상이 발견되었습니다.
기존 가설: 이 때문에 “RLVR은 새로운 추론 능력을 가르치는 것이 아니라, 원래 모델이 알던 몇몇 정답 경로만 집중적으로 학습시켜 추론의 다양성을 해치는 부작용이 있다”는 비판이 제기되었습니다.

B) 2. 문제의 재정의: “평가 지표가 잘못되었다”

핵심 주장: 이 논문의 저자들은 RLVR 기술이 문제가 아니라, 기존 평가 지표인 Pass@K가 추론 능력을 제대로 측정하지 못하는 근본적인 결함이 있다고 주장합니다.
Pass@K의 맹점: 이 지표는 최종 **‘정답’**만 맞으면 점수를 줍니다. 따라서 중간 풀이 과정이 논리적으로 엉망이거나 우연히 답을 맞힌 경우(spurious guess)도 ‘성공’으로 처리하는 허점이 있었습니다.

C) 3. 새로운 해결책: CoT-Pass@K와 LLM 판정관

새로운 평가 지표 CoT-Pass@K: 저자들은 이 문제를 해결하기 위해 새로운 평가 지표를 제안합니다. 이 지표는 ① 중간 추론 과정(Chain of Thought, CoT)이 논리적으로 타당하고, ② 최종 정답도 정확해야만 ‘성공’으로 인정합니다.
검증 방법 (LLM-as-a-CoT-Judge):
- 수많은 추론 과정을 사람이 일일이 검토하는 것은 불가능하므로, 또 다른 강력한 LLM(DeepSeek-R1-0528-Qwen3-8B)을 ‘판정관’으로 사용하여 추론 과정의 논리적 오류, 개념적 오류, 계산 실수 등을 자동으로 검증했습니다.
- 판정관의 오류 가능성을 보완하기 위해, 하나의 풀이 과정을 **여러 번 검증(any-correct, all-correct, majority-correct)**하여 평가의 신뢰도를 높였습니다.

D) 4. 실험 결과 및 발견

RLVR의 진정한 효과 입증: 새로운 CoT-Pass@K 지표로 다시 평가하자, RLVR로 튜닝된 모델이 모든 K값에서 기본 모델보다 월등히 높은 성능을 보였습니다. 이는 RLVR이 엉터리 풀이를 줄이고, 논리적으로 올바른 추론 능력을 실질적으로 향상시킨다는 강력한 증거입니다.
훈련 과정 분석: RLVR 훈련을 시작하자마자 초기 단계부터 올바른 추론을 장려하는 효과가 나타나며, 이 능력은 훈련이 진행됨에 따라 꾸준히 향상되고 새로운 문제에도 잘 일반화되었습니다.
이론적 기반 제시: 저자들은 RLVR이 단순히 정답을 맞히는 것을 넘어, ‘올바른 추론은 올바른 답으로 이어질 확률이 높다(Logical Coherence)‘는 암묵적 가정을 통해 논리적으로 타당한 추론 경로 자체의 확률을 높이는 방향으로 작동함을 이론적으로 공식화했습니다.

E) 5. 결론 및 기여

RLVR에 대한 오해 해소: 이 연구는 RLVR이 추론 다양성을 해친다는 기존의 오해를 바로잡고, 오히려 기계의 올바른 추론 능력을 근본적으로 향상시키는 매우 효과적인 패러다임임을 명확히 밝혔습니다.
새로운 평가 관점 제시: LLM의 진정한 추론 능력을 평가하려면 최종 결과뿐만 아니라 **‘추론 과정의 질’**을 반드시 함께 평가해야 한다는 중요한 관점을 제시하고, 그 구체적인 방법론(CoT-Pass@K와 LLM 판정관)을 제안했습니다.
향후 연구 방향: 이 연구는 앞으로 LLM이 단순히 지식을 암기하는 것을 넘어, 인간처럼 논리적으로 사고하고 문제를 해결하는 능력을 갖추기 위해 RLVR과 같은 ‘경험을 통한 학습’이 핵심적인 역할을 할 것임을 시사합니다.

요약하자면, 이 논문은 **“평가의 기준을 바꾸니, 기술의 진정한 가치가 보였다”**는 이야기입니다. 잘못된 잣대로 인해 저평가받던 RLVR 기술의 명예를 회복시키고, AI의 추론 능력을 한 단계 더 발전시키기 위한 중요한 방향을 제시한 연구라고 할 수 있습니다.

함께 보면 좋은 글

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

논문 핵심 요약 (Executive Summary) 이 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위해 강화학습(RL)을 사용하는 기존 연구들이 주로 수학과 코드라는 좁은 영역에만 집중하는 한계를 지적합니다.

Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning

Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning Discussion Q-learning based offline 학습 방식이고, 모델도 무겁고.

One Token to Fool LLM-as-a-Judge

대형 언어모델(LLM)을 ‘심판’으로 쓸 때 발생하는 치명적 허점과 해결책 A.1) LLM 심판이 쉽게 속는 이유 ‘LLM-as-a-Judge’(생성형 보상 모델)란 무엇인가?...

Reinforcement Learning for Slate-based Recommender Systems - A Tractable Decomposition and Practical Methodology

Empirical Evaluation: Live Experiments YouTube 에 SARSA-TS 알고리즘을 실험 candidate -> ranker 를 거치게 되는데, ranker 의 scoring 함수에서 사용하는 myopic(근시안적) engagement 측정값을 LTV estimate 로 변경함...

DRN - A Deep Reinforcement Learning Framework for News Recommendation

Abstract 뉴스 추천을 위한 딥러닝 기반의 강화 학습 프레임워크를 제안한다. news feature 들과 user 의 preferences 의 변동성 (dynamic) 을 설명하는 것은 상당히 어렵다.

Deep reinforcement learning for search, recommendation, and online advertising - a survey

Deep Reinforcement Learning for Search, Recommendation, and Online Advertising - a Survey Paper link arxiv.org/abs/1812.07127 .

Exploring compact reinforcement-learning representations with linear regression

paper Link: arxiv.org/pdf/1205.2606.pdf Exploring Compact Reinforcement-learning Representations with Linear Regression KWIK Linear Regression KWIK (Knows What It Knows) is a...

Exploration by Random Network Distillation

Exploration by Random Network Distillation RL methods work by maximizing the expected return of a policy.

Deep Exploration via Bootstrapped DQN

Abstract 해결하려는 문제: 강화학습에서의 효율적인 exploration Randomized value functions offer a promising approach to efficient exploration with generalization, but existing algorithms are not...

LREF

한줄 요약 LLM을 이용한 E-commerce Query-Product Relevance 판단 프레임워크.

RLVR의 역설
B) 2. 문제의 재정의: “평가 지표가 잘못되었다”
C) 3. 새로운 해결책: CoT-Pass@K와 LLM 판정관
D) 4. 실험 결과 및 발견
E) 5. 결론 및 기여