논문 핵심 요약 (Executive Summary)

이 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위해 강화학습(RL)을 사용하는 기존 연구들이 주로 수학과 코드라는 좁은 영역에만 집중하는 한계를 지적합니다. 연구팀은 이러한 편향된 접근이 RL의 작동 원리에 대한 편협한 이해를 낳고, 범용 추론 모델 개발을 저해한다고 주장합니다.

이 문제를 해결하기 위해, 연구팀은 GURU라는 이름의 방대하고 검증된 멀티-도메인 RL 추론 데이터셋을 구축했습니다. GURU는 수학, 코드, 과학, 논리, 시뮬레이션, 테이블 등 6개의 다양한 추론 영역에 걸쳐 9만 2천 개의 검증 가능한 예시를 포함합니다.

GURU 데이터셋을 기반으로 한 실험을 통해, 연구팀은 RL의 효과가 도메인에 따라 매우 다르게 나타난다는 핵심적인 사실을 발견했습니다.

  • 지식 유도 (Knowledge Elicitation): LLM이 사전 훈련 과정에서 많이 접한 수학, 코드, 과학 영역은 다른 도메인의 데이터로 RL 훈련을 해도 성능이 쉽게 향상되었습니다. 이는 RL이 모델 내부에 이미 존재하는 지식을 효과적으로 “깨우는” 역할을 한다는 것을 시사합니다.

  • 기술 습득 (Skill Acquisition): 반면, 사전 훈련에서 생소한 논리, 시뮬레이션, 테이블 영역은 반드시 해당 도메인의 데이터로 훈련해야만 의미 있는 성능 향상을 보였습니다. 이는 RL이 모델에게 새로운 추론 기술을 “가르치는” 역할을 할 수 있음을 의미합니다.

이러한 발견을 바탕으로, 연구팀은 GURU 데이터셋으로 훈련한 GURU-7B 및 GURU-32B 모델을 개발했으며, 이 모델들은 공개된 데이터로 훈련된 오픈소스 모델 중 최고의 범용 추론 성능(SOTA)을 달성했습니다. 논문은 데이터셋, 모델, 코드를 모두 공개하여 범용 추론 연구의 발전을 도모하고자 합니다.

B) GURU: 새로운 멀티-도메인 RL 추론 데이터셋

이러한 한계를 극복하기 위해 연구팀은 6개 핵심 추론 영역을 포괄하는 GURU 데이터셋을 구축했습니다. 구축 과정은 다음과 같은 체계적인 파이프라인을 따릅니다.

  1. 데이터 소싱 및 합성 (Data Sourcing & Synthesis):

    • 6개 도메인: 수학, 코드, 과학, 논리, 시뮬레이션, 테이블.

    • 기존의 고품질 데이터셋(예: AIME, LeetCode, WebInstruct)을 수집하고, ‘Zebra Puzzle’이나 ‘Ordering Puzzles’ 같은 새로운 논리 문제를 직접 합성하여 다양성을 확보했습니다.

  2. 데이터 중복 제거 (Data Deduplication):

    • 특히 수학과 코드 데이터셋은 여러 소스에서 중복된 문제가 많아, 엄격한 중복 제거 기준(한 질문이 다른 질문의 완전한 부분 문자열인 경우 제거)을 적용하여 데이터의 순수성을 높였습니다.
  3. 보상 설계 (Reward Design):

    • 규칙 기반 검증 (Rule-Based): 수학, 논리, 테이블 문제처럼 정답 형식이 정해진 경우, 정규화된 텍스트를 엄격하게 비교하여 보상을 부여합니다.

    • 실행 기반 검증 (Execution-Based): 코드 문제의 경우, 생성된 코드를 테스트 케이스에 실행하여 모두 통과하면 보상을 부여합니다.

    • 모델 기반 검증 (Model-Based): 과학 문제처럼 정답이 개방형인 경우, 별도의 검증용 모델(Verifier Model)을 사용해 생성된 답변과 정답 간의 의미적 일치도를 평가하여 보상을 결정합니다.

  4. 데이터 필터링 (Heuristic & Difficulty Filtering):

    • 너무 쉽거나, 너무 어렵거나, 노이즈가 있는(예: 정답 자체가 틀린) 샘플을 제거하기 위해 두 단계의 필터링을 거칩니다.

    • 특히 난이도 필터링에서는 약한 모델(M_weak)과 강한 모델(M_strong)의 정답률(P_weak, P_strong)을 비교하여, 약한 모델은 풀지 못하지만 강한 모델은 풀 수 있는, 즉 학습 잠재력이 높은 문제들을 선별했습니다.

이를 통해 최종적으로 9만 2천 개의 고품질 RL 훈련 데이터를 구축했습니다.

C) 교차-도메인 RL 분석: 주요 발견

연구팀은 GURU 데이터셋의 일부(18K)를 사용하여 RL 훈련이 도메인 간에 어떤 영향을 미치는지 분석했습니다.

  • 발견 1: 차별적 전이성 (Differential Transferability)

    • LLM이 사전 훈련에서 많이 접한 수학, 코드, 과학은 다른 도메인 데이터로 훈련해도 성능이 잘 올랐습니다. 이는 RL이 모델 내 잠재된 지식을 “유도(eliciting)“하는 역할을 하기 때문입니다. (Figure 1 좌측 참고)

    • 반면, 논리, 시뮬레이션, 테이블처럼 생소한 도메인은 반드시 해당 도메인의 데이터로 훈련해야만 성능이 올랐습니다. 이는 RL이 새로운 능력을 “습득(acquiring)“하도록 돕는다는 것을 보여줍니다.

    • 이 논문에서 말하는 ‘생소한 도메인에서의 훈련’은 단순 RL(Reinforcement Learning)을 의미합니다. SFT(Supervised Fine-Tuning)가 아닙니다.

  • 발견 2: 보상과 응답 길이의 관계

    • RL 훈련이 항상 모델의 답변을 길게 만든다는 통념과 달리, 이 또한 도메인에 따라 달랐습니다.

    • 코드, 논리, 테이블은 훈련이 진행될수록 답변 길이가 짧아졌고, 수학, 과학은 길어졌습니다. 이는 각 도메인의 최적 해답 형태를 학습하기 때문입니다. (Figure 4 참고)

  • 발견 3: 훈련 데이터 난이도의 영향

    • 어려운 데이터만으로 훈련하면 해당 도메인의 어려운 문제 해결 능력은 향상되지만, 다른 도메인의 쉬운 문제에 대한 성능은 오히려 떨어지는 **부정적 전이(negative transfer)**가 발생할 수 있습니다.

    • 따라서 범용 모델을 만들려면 다양한 난이도의 데이터를 균형 있게 섞는 것이 중요합니다. (Table 2 참고)

D) Links

2506.14965