[논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

notdecidedyet 2025. 2. 4. 18:01

2025. 2. 4. 18:01

TLDR

기존 모델들은 SFT의 높은 의존성 -> RL만으로 reasoning 학습할 수 있는지 탐구
RL만으로 reasoning성공.
여러 단계 학습 파이프라인 개발
- BaseModel -> RL -> Zero
- Curate Reasoning Dataset -> SFT -> RL -> DeepSeek-R1
Distillation 소형 모델의 Reasoning능력 강화
R1은 o1과 동등한 성능 기록
실패한 것
- PRMs, MCTS로 성능을 높이는 것 실패

Abstract

DeepSeek-R1-Zero와 DeepSeek-R1을 소개

DeepSeek-R1-Zero는 RL을 통해 훈련된 모델
- RL을 통해 DeepSeek-R1-Zero는 흥미로운 추론 행동을 스스로 습득함
- 그러나 이 모델은 가독성이 낮고, 언어를 혼용해서 쓰는등의 문제가 있음.
- 이러한 문제를 해결하고자 DeepSeek-R1을 도입
DeepSeek-R1
- 멀티-스테이지 훈련과 Cold-Start 데이터를 RL 전에 적용하여 성능을 개선
- OpenAI-o1-1217 모델과 성능이 유사
공개 : DeepSeek-R1-Zero, DeepSeek-R1, 그리고 DeepSeek-R1에서 증류된 1.5B, 7B, 8B, 14B, 32B, 70B 크기의 6개의 Dense Models을 오픈소스로 제공

1. Introduction

Post Training의 중요성
- 추론 성능을 향상, 인간 친화적인 답변을 하도록 훈련
- 많은 이점이 있는 반면 pre train에 비해 상대적으로 자원이 적게 들어간다.
o1 현황
- o1시리즈들은 처음으로 inference-time-scaling을 도입하여 CoT reasoning 과정을 길게 생성하는 방법을 활용하여 많은 영역에서 높은 성능을 달성했다. 허나, 효과적으로 Test-time scaling하는 부분은 극복하지 못하였다.
과거 연구 : ReasoningModel을 만들기 위한 노력들
- Process based Reward Models, RL, MCTS, BeamSearch, Search Algorithm
- 허나 이러한 연구들은 o1에 근접한 reasoning성능을 달성하지 못하였음.
연구 목표
- 첫 번째. SFT없이 LLM이 reasoning능력을 스스로 기를수 있는지 탐구하는지확인 -> Zero
  - BaseModel : DeepSeek-V3-Base
  - Loss : Group Relative Policy Optimization
  - 결과 : reasoning행동을 스스로 학습.
    일반적인 Actor Critic구조를 따르지 않는데, reasoning행동을 스스로 학습을 했다는 부분이 좀 놀라움.
  - 부족한 부분 : 가독성 부족, 언어 혼합 현상이 있었음.
    -> 극복을 위해서 DeepSeek-R1을 도입
- 두 번째. DeepSeek-R1
  - Cold-Start Data, Multi-Stage Training Pipeline결합하여 정제된 reasoning기능을 부여함.
  - 방법
    1. (데이터)수천 개의 Cold-Start Data를 수집
    2. (훈련)DeepSeek-V3-Base 파인튜닝
    3. (훈련)DeepSeek-R1-Zero에서 사용한 RL과 유사한 방법을 적용
    4. (데이터)RL이 수렴할 때, Rejection Sampling을 활용하여 새로운 SFT Data를 생성.
    5. (데이터)DeepSeek-V3-Base가 (Writing, Factual QA, Self-cognition)관해 SFT Data생성
    6. (훈련)4,5번에서 얻은 데이터로 DeepSeek-V3-Base를 다시 학습함 (SFT, RL)
- 세 번째. 작은 모델로 reasoning distill하는 방법 연구
  - ~~사실 이 방법은 다른 연구들에서도 성공한 방법임. (STILL-2, ...)~~
  - BaseModel : Qwen2.5-32B
  - 결론 : 대형 BaseModel에서 학습된 reasoning 패턴이 작은 모델에서도 reasoning능력을 향상시키는데 중요한 역할을 함을 시사함.
    14B모델은 QwQ32B-Preview를 큰 폭으로 아웃퍼폼함.

1.1 Contributions

Post-Training : Large-Scale Reinforcement Learning on the Base Model
- SFT을 사전에 사용하지 않고 Base Model에 RL을 직접 적용. (일반적으로 SFT후에 RL로 Optimizing함)
- 이를 통해 모델 스스로 CoT하여 복잡한 문제를 해결할 수 있도록 자연스럽게 추론 능력을 개발
  - DeepSeek-R1-Zero : 자기 검증(self-verification), 반성(reflection), 긴 CoT 생성과 같은 능력을 발휘
  - LLM의 추론 능력은 SFT 없이도 RL을 통해 향상될 수 있음을 입증한 첫 번째 연구이다.
Distillation : Smaller Models Can Be Powerfull Too
- 대형 모델에서 발견된 추론 패턴(데이터)를 작은 모델로 증류(distill)가능성을 입증. 작은 모델에서도 강력한 성능을 발휘할 수 있다는 것을 보여주는 사례. RL을 직접 작은 모델에 적용하는 것보다 더 나은 성능을 보임
- 여러 Dense모델을 파인튜닝함.
  - Distilled smaller dense models가 기존 오픈소스 모델들을 크게 초과하는 성과를 보임

1.2 생략

2. Approach

2.1 Overview

과거 LLM성능 향상을 위해서 대규모 Supervised Data에 의존함.
허나 이 연구에서는 RL만을 사용하여 LLM의 추론 능력을 향상시킬 수 있음을 보여주고자 함.
이 섹션에서 다루는 부분
1. DeepSeek-R1 Zero훈련 : RL만으로 학습 - CoT를 자연스럽게 습득함.
2. DeepSeek-R1 : Cold Start, Multi-stage훈련 방법을 사용해 모델의 추론 성능을 향상

2.2 DeepSeek-R1-Zero : Reinforcement Learning on the Base Model

이 논문 연구자들의 과거 연구에서도 입증했다싶이 RL은 추론 작업에서 효과가 좋다. 허나, Long Reasoning Chain of Thought데이터가 필요하기에 데이터를 준비하는 비용 및 시간이 많이 들어간다. 따라서 Supervised Data없이 Reasoning능력을 부여하는 것을 연구함.

2.2.1 Reinforcement Learning Algorithm (Reinforcement Learning 알고리즘)

Group Relative Policy Optimization

먼저 A에 대해서 이해를 해보자.
- 사전 정의를 하자면, 하나의 질문에서 Old Policy모델은 여러개의 답변을 생성함. 이때 이 여러개의 갯수는 G임.
- $r_i$ : 여러개가 생성된 답변들을 reward로 계산하고, 모든 reward값들을 normalize하는 수식으로 보인다.
- 이때 reward의 값은 두가지로 결정이 되는데, 이것은 추후에 다룬다.

목적 : GRPO를 maximize하는것이 목적임. 이 함수는 DeepSeekMath라는 논문에서도 사용했었음.
먼저 term들을 살펴보자
- P(Q) : 질문 데이터셋에서 q를 하나 샘플링 한다는 의미
- $π_{theta_{old}}$ : Policy모델인 LLM(DeepSeek-V3)를 Iteration하면서 새롭게 Weight들이 업데이트가 되는데. 현재 모델보다 과거 모델을 의미함.
- ${{o_i}^G_{i=1}}$ : Old Policy모델에서 하나의 질문당 여러개의 답변을 생성함.
(1)번 수식을 살펴보자
- G개의 답변을 생성하기 때문에, G로 나눈 것으로 보임. (평균)
- min부분을 살펴보자 : GRPO가 최대화가 되는것이 좋으니, min값이 최대값이 나오면 좋음.
  - $π_{theta}(o_i|q)$ : 새로운 Policy모델에서 해당 질문에 대해서 $o_i$를 생성할 확률 (likelihood)
  - $π_{theta_{old}}(o_i|q)$ : Old Policy모델에서 해당 질문에 대해서 $o_i$를 생성할 확률
    - 정리하자면, 새로운 Policy모델이 더 높은 확률이 나오게 학습이 되면 좋겠다.
      $π_{theta}(o_i|q)$ 값이 커질수록 학습이 잘된 것
  - clip부분을 살펴보자
    - 앞부분 : 위와 같음
    - 뒷부분 : 1-e, 1+e로 제한을 주었는데 너무 많이 바뀌는것을 방지하기 위해서 넣어준 term으로 보인다. weight들이 steping을 하면서 update이 될텐데 그 부분이 너무 크게 steping하지 않도록 제약조건을 넣은 것으로보임.
      - 정리하면, 새로운 Policy모델이 너무 급격하게 변하면 학습이 불안정해질 수 있음 따라서 이를 방지하기 위해 step-by-step으로 학습이 진행되도록 제한함.
  - $A_i$ : reward가 낮으면 가중치를 덜 주기 위해서 넣은 term으로 보인다. 즉 잘 맞추면 가중치를 크게 주고, 덜 맞추면 가중치를 덜 주는 방식을 채용함.
(2)번 수식을 살펴보자
- 원래 KL Div : $D_{KL}(P||Q) =\sum\P(x)log(\frac{P(x)}{Q(x)})$ : P가 Q와 얼마나 다른가. P의 분포에서 Q의 분포를 따라가기 어렵다면 큰 값이 나옴.
- 추측 :
  - ref와 new policy의 확률값이 같게 나온다면, (2)번식의 첫번째 텀과 마지막 텀의 (-1)이 사라짐. 따라서 -1을 하는 이유는 ref와 new policy의 차이만을 반영하기 위해서 넣은 수식으로 추측이 된다.
  - 원래 잘 알려진 KL Div와는 좀 다른 것으로 보임.
  - 하나씩 뜯어보자
    - 첫번째 항목 :
      - New Policy가 Old보다 확률이 높으면 이 값이 1보다 작음.
      - New Policy가 Old보다 확률이 낮으면 이 값이 1보다 큼.
      - 둘 값이 같으면 1임.
      - 결론 : ref대비 new policy가 얼마나 큰 값을 주고 있는지 선형적인 비교를 하기 위함
    - 두번째 항목 :
      - KL Div와 비슷함. (-)음수 텀을 log안으로 넣게 되면, 첫번째 항목과 반대되는 얼마나 다른가를 측정하게됨.
    - 세번째 항목 :
      - 두개의 분포가 같을 경우 0이 되도록 조정하는 텀
    - 결론 : Ref모델과 New모델이 너무 많이 벌어지지 않도록 조정하는 부분이라고 생각하면 된다.
- ref 모델 : DeepSeek-V3-Base
- 이 형태로 Reward를 계산하면 Critic Model없이도 RL을 수행할 수 있음.
  - Critic Model : 행동에 대한 평가 모델
- 미분가능성
- 더보기
  첫번째 텀 :
  앞부분, Policy모델 모두 LLM, softmax확률 통해 계산되어 미분 가능함.
  뒷부분, Clipping때문에 애매함.
  - 범위를 넘어서면 강제로 상수가 되어 버림 -> 이 부분에서 기울기가 0이 됨 -> 실수 한 부분에서 미분 불가능하나 큰 영향이 없다고 함.
  - 찾아보니 PPO도 동일한 clipping기법을 사용하나, 실제로는 gradient descent시 크게 영향을 받지 않는다고 함.
  
  나머지 텀들은 다 미분 가능함.

2.2.2 Reward Modeling

규칙 기반의 reward modeling을 제안함

Accuracy Rewards
- 응답이 정확한지 평가함.
  - 예를들어, 수학문제의 경우 정답을 Box내부에 젝오하도록 요구하여, 규칙 기반으로 정확성 검증이 가능하도록 설계함
  - LeetCode의 경우 Compiler를 사용하여 테스트 케이스 기반으로 정답 여부를 판단함.
Format Reward
- 특정 형식에 맞춰 출력을 생성하도록 유도함.
- 모델이 추론과정을 <think></think> 태그 내부에 작성하도록 강요하고, 최종 답변을 <answer></answer>태그 내부에 포함하도록 강제하였음.
신경망 기반 reward를 사용하지 않은 이유는 : 대규모 RL과정에서 Neural Reward Model은 보상 시스템을 악용하는 현상이 많이 발견되는데, 이게 학습의 복잡도를 매우 높이기 때문에 사용하지 않았다.

2.2.3 Training Template

매우 간단한 Template사용

2.2.4 Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

Performance of DeepSeek-R1-Zero :
- RL이 진행됨에 따라 성능이 지속적으로 향상됨. (Figure2). RL이 reasoning모델의 성능을 지속적으로 최적화하는데 효과적임을 입증
- o1과 성능이 비슷
- 결론 : RL을 통해 강력한 reasoning능력을 획득할 수 있음을 보임.
Self-Evolution Process of DeepSeek-R1-Zero(figure3)
- Base모델은 SFT로 학습을 하였으나, RL 훈련에서 추가적인 SFT나, Base모델에 사용된 데이터를 사용하지 않았음. 따라서, RL로 reasoning 능력이 어떻게 향상되는지 관찰할 수 있었다.\
- Zero는 reasoning task를 해결하기 위해 점차적으로 긴 Reasoning sequence를 생성하는 방법을 스스로 학습함
  - 이 과정에서 주목할 것은, 점차적으로 고급 reasoning전략을 발견하였다.
  - 특히, reflection, alternative approach 과 같은 방법을 발견함.

Aha Moment of DeepSeek-R1-Zero(Table 3)
- 모델이 reasoning task를 해결하는 과정에서 특정 순간에 reasoning 방식을 스스로 변경하는 현상을 발견
  -> 이 현상을 Aha Moment라고 부른다.
- 훈련 도중에 중간급 모델에서 발생하였으며, 이때부터 문제를 해결하기 위해 더 많은 Thinking Time을 할당하는 방법을 학습함.
  - reasoning능력 향상을 넘어서, 자기반성을 수행하는 방식을 자연스럽게 학습할 수 있음을 의미함.
- 결론 : 특정 문제 해결 방법을 직접 가르치지 않더라도, 올바른 인센티브(보상)을 제공하면 모델 스스로 reasoning 전략을 개발할 수 있음을 확인함.
Drawback of DeepSeek-R1-Zero
- 다음과 같은 문제점이 있다.
  - 가독성 부족 : 응답이 지나치게 길거나, 비정형적 서식(출력 형식이 일정하지 않음, 예측할 수 없는 형식)을 따르는 경우가 많음. 사용자가 쉽게 이해할 수 있도록 개선이 필요
  - 언어 혼합 : 특정 Reasoning 과정에서 다른언어를 섞어 사용하는 현상이 발생. 보다 일관된 언어 출력을 생성하도록 해야함.
- 해결 : R1모델을 개발

2.3 DeepSeek-R1 : Reinforcement Learning with Cold Start

Zero의 성과를 기반으로 두가지 질문을 하게 되었다.

Cold Start 데이터를 소량 도입하면 추론성능을 더 향상시키거나 RL의 수렴 속도를 가속화 할 수 있나?
더 명확, 일관적, 가독성이 높은 CoT 데이터를 생성하면서도, 좋은 추론 능력을 갖추며, 사용자 친화적인 모델을 만들 수 있나?

이를 해결하기 위해 R1을 위한 훈련 파이프라인을 설계함. 이때 파이프라인은 4가지로 구성되어있음.

2.3.1 Cold Start

R1에서 훈련 초반의 불안정한 Cold Start문제를 방지하기 위해 소량의 고품질 Long CoT데이터를 수집하여 BaseModel을 fine-tune한 후 RL을 시작함.

DeepSeek-R1-Zero을 활용해, Few-shot prompting을 사용하여 Long CoT 예제를 생성,
이때 답변들은, Reflection 및 Verification을 포함한 상세한 답변을 생성하였음.
다만 단점인 가독성 및 언어 문제를 -> 더 가독성이 좋은 형식으로 변환하고
Human annotator를 활용하여 결과를 후처리하여 정제
최종적으로 수천개의 Cold-Start데이터를 수집해 DeepSeek-V3-Base를 fine-tuning함.

콜드 스타트 데이터를 도입한 장점은 이것임.

가독성 개선
- DeepSeek-R1에서는 Cold-Start 데이터를 구축할 때, 응답이 읽기 쉬운 형식을 따르도록 디자인하였으며, 각 응답의 끝에 요약을 포함하도록 설계함
- 모델의 출력 형식을 |special_token|<reasoning_process>|special_token|<summary> 형태로 정의함.
  - reasoning_process는 주어진 질문에 대한 Chain-of-Thought(CoT) reasoning을 포함
  - summary는 reasoning 과정을 요약한 내용을 포함하여, 응답을 보다 직관적으로 이해할 수 있도록 설계
추론 성능 향상 가능성
- Cold-Start 데이터가 RL의 초기 Actor(=PolicyModel) 모델의 품질을 높이는 역할을 할 수 있음을 실험을 통해 확인
- RL이 더 빠르게 수렴(converge)할 가능성이 높아졌으며, 최종 reasoning 성능도 향상됨을 확인

2.3.2 Reasoning-oriented Reinforcement Learning

2.3.1에서 학습한 DeepSeek-V3-Base를 기반으로, Zero를 훈련할때 했던 RL을 수행함.
명확한 정답이 존재하는 데이터셋에 초점을 둠
- 수학, 코딩, 과학, 논리적 추론 등
훈련 과정에서 CoT가 여러 언어로 혼합되는 문제가 발생하는 경우가 있음.
- 원인 : RL과정에서 다양한 언어로 된 Prompt가 입력되었을 때 발생하는 현상
- 해결 : 언어 일관성 보상을 추가함
  - CoT에서 목표 언어의 단어 비율을 계산하여 보상으로 활용
  - 이를 통해 모델이 혼합 언어 출력을 줄이고, 특정 언어에 더 집중할 수 있도록 유도
- 결과 : 가독성을 개선하는데 기여했으나, 일부 성능 저하가 발생함.
결론 : Object function으로 Reasoning Task의 정확도 및 언어 일관성 보상을 합산하여 최종 보상을 구상하였음.
사견
- 더보기
  정확도 비율 = $frac{target language token수}{전체 token 수}$
  
  object function = lambda * 정확도 비율
  
  lambda = 1 when 정확도 비율 > threshold_1
  lambda = 0 when threshold_2 < 정확도 비율 < threshold_1
  lambda = -1 when 정확도 비율 < threshold_2

2.3.3 Rejection Sampling and Supervised Fine-Tuning

Reasoning RL이 수렴한 이후, 해당 체크포인트를 활용하여 SFT 데이터 수집. 이전에는 Rule-Based Reward를 사용하여 평가 가능한 데이터만을 사용하였지만, 이번에는 보다 넓은 데이터셋을 구축하고 모델의 전반적인 성능향상을 위해 새로운 방법 도입.
Reasoning Data
- Reasoning Prompt를 수집하고, RL수렴한 모델에서, 다수의 응답을 생성한뒤, Reject Sampling을 통해 최적의 Reasoning Trajectory선택
- 추가적인 데이터 확보를위해 Generative Reward Model을 활용
  - 정답과 모델의 예측값을 DeepSeek-V3에 입력하여 judgment수행(LLM as judge)
  - 올바른 CoT reasoning을 포함한 응답만 선별
- 필터링 :
  - 혼합언어 필터링
  - 과도한 길이 필터링
  - 코드 블록 정제 : 불필요하거나 정답과 무관한 코드 블록 포함한 응답을 제외함
Non-Reasoning Data
- Reasoning 성능 외에도 비추론 테스크의 성능향상을 위해서 추가적으로 데이터 수집
  - Writing, Factual QA, Self-Cognition, Translation
- 비추론 데이터 수집
  - DeepSeek-V3의 기존 SFT 데이터셋을 활용하여 데이터셋 구축
  - 일부 태스크에선 CoT reasoning을 추가하여 모델의 논리적 응답 품질 향상
  - 간단한 질문(안녕하세요)와 같은 기본적인 상호작용에 대해서는 CoT를 생성하지 않음.
- 총 200K의 비추론 데이터를 수집
reasoning 600K와 합하여 총 800K에 대해서 SFT 2epoch수행

2.3.4 Reinforcement Learning for all Scenarios

사용자 선호, reasoning 성능을 지속적으로 향상시키기 위해, 보상신호 및 다양한 프롬프트 분포를 결합한 2차 RL을 수행함

Reasoning Data RL
- Zero를 학습하는 방법과 동일하게, 규칙기반 보상을 활용해 (수학, 코딩, 논리적 reasoning과) 같이 명확한 정답이 존재하는 도메인에서 학습을 진행함
일반 데이터에서 RL
- 복잡하고, 미묘한 상황에서 인간의 선호를 반영할 수 있도록 reward model을 사용함
- DeepSeek-V3의 파이프라인을 기반으로 선호 쌍(preference pairs)와 학습 프롬프트(prompt distribution)의 분포를 유지하며 RL을 수행
도움이 되는 응답을 위한 RL :
- 유용성을 평가할때는 모델이 생성한 응답의 최종 요약부만을 사용해 평가함
  - LLM 평가 방식에서 발생할 수 있는 길이 편향을 방지하기 위함임. (길이가 길면 맞는 것으로 판단하는 경향이 있음)
- 목적 : reasoning과정에는 영향을 주지 않으면서, 사용자가 더욱 유용한 답변을 얻을 수 있도록 모델을 조정하는 목적이 있음
안전성 강화를 위한 RL :
- 안전성 RL 평가에서는 모델의 전체 응답을 평가 대상으로 삼았다.
- 목적 : 잠재적인 위험요소, 편향, 유해한 콘텐츠가 포함될 가능성을 탐지하고 제거함.

2.4 Distillation: Empower Small Models with Reasoning Capability

작은 모델이 DeepSeek-R1과 같은 능력을 갖출 수 있도록, Qwen, Llama등을 파인튜닝하였음.

2.3.3에서 얻은 800K 데이터셋을 활용해 모델을 학습. Distillation만으로도 많은 성능 변화가 있었음.

결과 : 단순한 distillation 기법만응로도 작은 모델의 reasoning 능력이 크게 향상됨을 볼 수 있었음.

3. Experiments

3.1 DeepSeek-R1 Evaluation

다양한 벤치 데이터셋에서 OpenAI o1모델의 성능과 비등한 모습을 보임.

3.2 Distilled Model Evaluation

DeepSeek-R1의 출력을(Distillation이라 명명하고) 전이함으로써, DeepSeek-R1-Distill-Qwen-7B는 reasoning 능력을 갖추지 않은 모델(GPT-4o-0513)보다 전반적으로 더 나은 성능을 보이는 것을 확인할 수 있다.

DeepSeek-R1-14B는 QwQ-32B-Preview보다 모든 평가 지표에서 더 높은 성능을 기록
DeepSeek-R1-32B 및 DeepSeek-R1-70B는 대부분의 벤치마크에서 OpenAI-o1-mini 모델을 outperform함.

결론 : 단순하게 SFT기반으로 Distill하는 것만으로도 기존에 있었던 non reasoning model들의 성능을 뛰어넘으며, reasoning역량을 갖춰진다.

추가 발견 : Distilled 모델에 Reinforcement Learning(RL)을 적용할 경우 성능이 더 큰 폭으로 향상됨을 발견함. 향후 연구에서 Distilled 모델에 RL을 적용하는 방법을 심층적으로 탐구할 필요가 있음을 제안한다.

4. Discussion

4.1 Distillation vs Reinforcement Learning

3.2에서 distill한 작은 모델로 뛰어난 reasoning 성능을 달성할 수 있음을 확인함. 허나 하나의 의문이 들었음.

Distillation없이 대규모 RL만으로도 작은 모델이 동등한 성능을 달성할 수 있나?
- 이를 확인하기 위해 Qwen-32B-Base모델을 사용해 대규모 RL훈련을 수행함. 구체적으로 (수학, 코딩, STEM) 데이터로 10,000 스텝 이상의 RL을 진행하였고 이를 DeepSeek-R1-Zero-Qwen-32B라고 명명함
- Table6을 살펴보면, RL을 적용한 32B모델이 기존 QwQ32B모델과 비슷한 성능을 보이나, R1-Distill-Qwen-32B보다는 성능이 낮음.
- 즉 Distillation을 통해 DeepSeek-R1에서 학습한 Reasoning패턴을 그대로 전이한 모델이 RL을 적용한 작은 모델보다 더 높은 성능을 달성함
  ~~(이는 STILL-2, SkyThought등과 같은 다른 논문에서도 언급한 부분임.)~~
- 여기서 두가지를 도출할 수 있다.
  1. Distillation을 활용하는 것이 작은 모델을 훈련하는데 있어 더 효율적인 전략일 수 있음.
  2. 그러나 Distillation을 넘어서는 지능을 개발하기 위해서는, 더 강력한 BaseModel과 더 큰 규모의 RL이 필요할 수 있다.

4.2 Unsuccessful Attempts

실패한 경험들에 공유

Process Reward Model : 문제를 해결하는 과정 자체를 평가하는 보상 모델. 수학문제를 풀 때, 중간 계산 과정이 논리적으로 타당한지 확인.
- 어려웠던 부분
  1. reasoning task에서 세부적인 reasoning 단계를 명확히 정의하는 것은 매우 어려움
    - 수학 문제처럼 논리적 전개가 뚜렷한 경우에는 reasoning 단계별 피드백을 제공할 수 있지만, 일반적인 자연어 처리(NLP) task에서는 reasoning 단계를 명확히 구분하기 어렵다.
    - 결과적으로, 모델이 PRM을 통해 reasoning을 제대로 개선하는 것이 불가능
  2. 각 reasoning 과정의 중간 단계가 올바른지 판별하는 것은 매우 어려운 문제
    - 단순한 정답 평가와 달리, 중간 reasoning 과정이 타당한지를 평가하려면 고도로 정밀한 분석이 필요
    - 자동화된 평가(AI 모델을 활용한 평가)는 만족스러운 결과를 내지 못했으며, Human Annotator를 활용하는 것은 비용이 너무 많이 들었다.
    - 이로 인해, PRM을 대규모로 적용하는 것이 현실적으로 어렵다는 결론을 내림
  3. PRM을 Neural Reward Model과 함께 사용하면, 모델이 보상을 조작(Reward Hacking)하려는 경향이 나타났다.
    - 보상을 최대화할 수 있는 특정 응답 패턴을 학습하여 성능이 왜곡되는 현상(Reward Overoptimization)이 발생
    - 보상 모델을 지속적으로 재학습해야 했으며, 이 과정에서 추가적인 훈련 비용과 리소스가 필요
    - PRM은 reasoning task의 상위 N개의 응답을 재정렬(Reranking)하거나, Guided Search를 수행하는 용도로는 적절할 수 있지만, 대규모 Reinforcement Learning에 직접 적용하는 것은 현실적으로 어려운 접근법이라는 결론을 내림
MTCS : 알파고, 알파제로 성공사례를 LLM Test time compute scalability 개선을 위해 MTCS 활용해보려 함.
- 과정 : 예상 - reasoning 과정을 더 체계적으로 확장할 수 있도록 도와줄 것이라 예상
  - 모델이 응답을 단일 문장 또는 작은 reasoning 블록으로 생성하도록 유도
  - 각 reasoning 블록을 "노드(Node)"로 간주하고, 여러 후보 경로를 생성
  - 사전 훈련된 Value Model을 사용하여 각 경로를 평가하고, 가장 가능성이 높은 경로를 선택하여 탐색을 확장
- 문제 발생 :
  - 토큰 단위의 생성은 체스나 바둑보다 훨씬 더 방대한 탐색 공간을 요구한다.
    - 체스나 바둑은 각 턴에서 유한한 개수의 선택지만 존재하나, 자연어는 무한에 가까운 경우의수가 존재함
    - 탐색 공간을 제한하기 위해, 각 노드의 최대 확장 개수를 사전에 설정하였으나, Local Optima에 빠지는 문제를 해결하지 못함.
  - Value Model의 성능이 MCTS과정의 품질을 결정함
    - 알파고등은 Value Model을 지속적으로 학습하면서 성능을 향상시켰으나, 이 실험에서는 Value Model을 학습하는 과정이 너무 어려웠고, Fine-grained평가가 어려워 성능 개선이 제한적이었다.
    - 결과적으로 MCTS를 통해 reasoning을 향상시키는 것은 현실적으로 불가능했다.
  - Self-Search를 통한 reasoning 성능 개선이 이루어지지 않았음.
    - MCTS의 궁극적인 목표는 모델이 스스로 최적의 reasoning 경로를 탐색하는 것이나, 기존 RL방식보다 reasoning 성능이 개선되지 않았음.
    - 탐색 알고리즘 자체는 Reasoning task의 test-time 성능을 향상시키는데 유용할 수 있으나, 모델 자체의 학습을 향상시키는 방법으로는 적절하지 않았음.

5. Conclusion, Limitations, and Future Work

Limitation만 정리하자면

General Capability
- R1은 V3보다 function calling, multi-turn대화, 복잡한 role-playing, json output생성등이 약하다.
- Long CoT reasoning task에 집중적으로 학습되었기 때문에 보인다.
Language Mixing issue
- R1은 중국어와 영어를 최적화 대상으로 설정하기 때문에, 다른 언어를 포함하는 프롬프트에 대해서는 혼합언어 출력을 생성하는 경향이 있다.
Prompt Sensitivity
- R1은 프롬프트의 작은 변화에도 성능이 영향을 받는 경향이 있다.
- 특히, Few-shot prompting을 적용했을 떄 오히려 성능이 저하되는 현상이 관찰되었다.
Software Engineering Tasks
- R1은 수학 및 코딩 알고리즘 문제에서는 뛰어난 성능을 보였으나, 소프트웨어 엔지니어링 태스크에서는 V3와 비교해 큰 성능 향상을 보이지 못함.
- 소프트웨어 엔지니어링 테스크의 평가 과정이 매우 오래걸려 RL을 적용하는데 어려움이 있기 때문이다.

'DeepLearing > NLP(Reasoning)' 카테고리의 다른 글

[논문리뷰](25.02) s1: Simple test-time scaling (0)	2025.03.02
[논문리뷰](24.05) MAmmoTH2: Scaling Instructions from the Web (0)	2025.03.02
[논문리뷰] (25.02)Demystifying Long Chain-of-Thought Reasoning in LLMs (0)	2025.02.27
[논문리뷰] (작성중)QLASS- Boosting Language Agent Inference via Q-Guided Stepwise Search (1)	2025.02.07
[논문리뷰] (24.12)Imitate, Explore, and Self-Improve: A ReproductionReport on Slow-thinking Reasoning Systems (0)	2025.01.27
[OpenSourceModel] (25.01) SkyThought Preview블로그 리뷰 (0)	2025.01.26
[OpenSourceModel] (25.01) SkyThought Flash블로그 리뷰 (0)	2025.01.24
[논문리뷰] (24.1) Enhancing LLM Reasoning with Reward-guided Tree Search (0)	2025.01.23

notdecidedyet