[논문리뷰] (24.12)Imitate, Explore, and Self-Improve: A ReproductionReport on Slow-thinking Reasoning Systems

DeepLearing/NLP(Reasoning)

[논문리뷰] (24.12)Imitate, Explore, and Self-Improve: A ReproductionReport on Slow-thinking Reasoning Systems

notdecidedyet 2025. 1. 27. 18:12

Abstract

최근 Slow-thinking Reasoning Systems(o1),은 복잡한 Reasoning Tasks를 해결하는 데 있어서 놀라운 성능을 보여주고 있다.
이 연구는 o1과 유사한 Reasoning Systems를 구현하는 방법에 대한 재현 보고서를 제공한다.
Reasoning Model을 훈련시키기 위해 “Imitate, Explore, Self-Improve” Framework인 STILL-2를 소개한다
- 1. Distilled Long-form Thought Data를 사용하여 Reasoning Model을 Fine-tuning하여 Slow-thinking Mode를 활성화한다.
- 2. Challenging Problems를 탐색하며 여러 Rollouts를 생성하도록 하며
  -> 올바른 답에 가까운, 점점 더 높은 품질의 Trajectory를 생성하게 된다.
- 3. 모델은 Training Dataset을 반복적으로 개선하며 Self-Improvement 과정을 거친다
실험 결과, Benchmarks에서 Industry-level Reasoning Systems에 필적하는 성능을 달성함
https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

1. Introduction

최근, OpenAI의 o1과 같은 Slow-thinking Reasoning Systems는 성능이 크게 개선되며 복잡한 작업을 해결하는 데 있어 큰 진전을 이루었다. 이전의 Reasoning 접근법과 달리, 이러한 시스템은 Test-time Scaling을 사용하여 응답하기 전에 더 많은 시간을 사용한다.
-> 이는 내부의 긴 Reasoning Step 체인을 생성하여 적합한 솔루션을 발견한다. 생성된 Thought Data를 살펴보면, LLM들이 사용한 다양하고 복잡한 Reasoning Behavior(Planning, Divide-and-Conquer, Self-refinement, Summarization, Backtracking)를 관찰할 수 있다.
최근 연구들의 약점
- o1과 유사한 시스템을 재현하기 위한 다양한 접근법을 조사하고 있다. 그러나, 이러한 연구는 특정 도메인(수학적 도메인)에 제한되거나, 크기가 작은 Base Models를 사용하여 개발된 경우가 많아, 구현된 시스템이 o1과 같은 Industry Systems에 비해 성능이 크게 떨어진다.
- 이 연구 저자들은, 수학적 문제를 해결하기 위한 Reasoning Framework 기술 보고서를 지난 11월에 발표함(STILL-1)
- 하지만, 제안한 접근법이 o1과 같은 시스템과 비슷한지 의문점을 갖었다
  - 세 가지 주요 도전 과제를 발견했는데,
    - 첫째, Domain-specific Reward Model은 다른 도메인에서 잘 일반화되지 않음
    - 둘째, 추론 단계에서 Tree Search를 수행하는 것은 매우 시간이 많이 들어가며, 실질적으로 프로덕타이제이션 하기에는 부적합하다.
    - 셋째, Test-time Scaling은 작동하지만, 여전히 Train-time Scaling을 통해 모델 성능을 개선하는 데는 실패함.
  - 이러한 것들로 o1과 유사한 Reasoning Systems를 만드는 기술적 접근을 재검토하게 되었다.
두 가지 주요 최신 연구 방향에서 영감을 받았다
- 첫째, DeepSeek 및 Qwen은 o1과 유사한 시스템이며, API 또는 체크포인트를 공개하였다.
  이를 통해 실제 Thought Process를 요약된 버전이 아니라 전체 데이터를 조사할 수 있었다.
  -> response데이터를 보고 힌트를 많이 얻은 것으로 보임
- 둘째, 소량의 Long Chain-of-Thought Data를 통해 Fine-tuning을 하면 -> 복잡한 Reasoning Tasks에서 모델 성능이 크게 향상되었다. o1또한 복잡한 Reward Model이나 명시적인 Tree Search Algorithm 없이 Internal Thought와 최종 솔루션을 포함하는 One-pass Decoding Process를 구현했을 가능성이 있다고 추측했고, STILL-1와 다른 접근 방법을 연구하게 되었다.
구체적으로... imitate, explore, self-improve과정이 있음.
- imitate : LLM으로 하여 internal Thought를 생성하고, 이후 솔루션을 생성하는 방법을 배움
  - 이 방법은 일반적인 response와 다르기 때문에, 추가적인 demonstration data가 필요(ICL일 것으로 생각함)
  - 이 단계의 목적
    - 생성하는 형식을 배우는 것 : Slow thinking response format에 맞게 대답
    - 능력을 활성화 : Slow thinking형태로 생성하는것
- Exploration : Demonstration data를 통해 유발된 능력을 확장. (아마도 beam search, rollout과 같은 것..?)
- Self-improve : Exploration을 통한 성공적인 Trajectory를 활용해 더욱 높은 품질의 Training Data확보
  - 모델 자체가 갖고 있는 역량보다 더 좋은 데이터를 생성하기 힘드나, Exploration, Search Methods를 사용하면 가능
이 외에도,
- 여러 데이터를 혼합하는 것 연구함.
- SFT, DPO 접근 방법을 시도
- Search Strategies를 찾아봄.
- 소량의 데이터만으로도 유망향 결과를 보여줌.

2. Method

2.1 Overview

훈련이 완료된 후에는, 과거에 사용하는 방법들과 동일하게 Prompt방법으로 한번에 답변을 생성한다. 다만 다른 부분은 Reasoning Process와 Solution을 생성한다.(과거에는 Solution만 생성하는 경향이 강함)

Imitate :

최종적으로 - 내부 Thought Process와 최종 Solution을 하나의 응답에서 생성해야 함
따라서,
- 특정 Formatting Tokens을 사용하여 모델이 이러한 출력을 생성하도록 가이드 함.
- 소량의 Long-form Thought Data만으로도 쉽게 o1-like Output Formats를 따를 수 있다고 이 논문은 주장한다.
- 이 논문은 가설을 생각함.
  - 1. 전체 Thought Process는 복잡하더라도 LLM이 개별 단계(예: Planning, Self-refinement, Verification)를 효과적으로 처리할 수 있다
  - 2. Format-following을 사용하면, LLM이 이러한 단계들을 매끄럽게 관리할 수 있다.
- 이 가설이 맞다면, 다음과 같은 이점이 있다.
  - 형식 준수를 위한 많은 데이터가 필요하지 않다 : 명확한 형식을 따르는 몇가지 예시만 제공해도 모델이 쉽게 학습할 수 있다. 따라서 대용량의 데이터가 필요하지 않다.
  - 다양한 도메인에 쉽게 일반화될 수 있다 : 한 도메인에서 배운 사고과정을 다른 도메인에서도 사용할 수 있다.

Explore :

imitation을 통해 LLM이 o1처럼 생성할 수 있게 되었으나, 이러한 방식만으로는 LLM이 Long-form Thought를 사용하여 복잡한 작업을 해결하는 능력을 완벽히 마스터하지 못한다.
이를 해결하기 위해
- 모델이 자체적으로, 그리고 점진적으로 더 나은 훈련 데이터를 생성하도록 탐구(Exploration)을 포함하는 것이 중요하다고 생각하였다. Reasoning Model혼자서는 복잡한 작업에 대해 올바른 솔루션을 생성하기 불가능에 가깝기 때문에, Search 전략을 사용하여 여러 후보 Solution을 생성하는 것이 필요했었고, 이를 통해 올바른 Trajectory를 발견할 가능성을 높일 수 있었다.
- 허나, 이러한 Trajectory의 정확성을 평가하는 것은 Reward Model, 그리고 시뮬레이션 환경이 필요하기 때문에 적용하기 어렵다
- 이 연구에서는 모델의 출력물을 Ground-truth Answer와 직접 비교하는 단순화한 방법을 적용하였다
- 수집된 문제의 대부분에서 Rollouts의 수를 늘리는 것이 올바른 Trajectory를 생성할수 있는 방법이었다.

Self-Improve :

점진적으로 개선된 Trajectory Data를 활용하여 Reasoning Model의 능력을 더욱 강화하는것을 목적으로 한다. 고품질의 Demonstrations를 제공하는 것으로 Reasoning능력을 효과적으로 강화할 수 있다. 일반적으로 고품질 샘플을 학습에 사용하는 Rejection Sampling(여러 데이터를 생성하고 이중에 고품질 데이터만 선별하여 학습에 사용), 품질별 Trajectory를 비교하며 학습하는 DPO등을 사용할 수 있다.

이 방법을 사용해 STILL-2를 제안하고(o1과 유사항 Reasoning System을 구현) Challenging Reasoning Task에서 좋은 결과를 달성하였다. o1과 비슷한 API에서 소량의 Slow-thinking Responses를 수집하여 Demonstration Data로 사용하였고, 이를 기반으로 Base Model을 파인튜닝하였다. 이러한 간단한 방법으로 LLM의 slow thinking능력을 이끌어내고, Thought와 솔루션을 포함한 출력 형태에 적합하다는 것을 발견함.

이 외에
- Demonstration Dataset구성
  - 도메인 간 문제와 다양한 난이도의 Solution을 혼합하여 데이터셋을 구성.
  - 어려운 문제에 중점을 두어, 고품질의 Thought와 Solution이 포함된 Trajectories를 확보.
  - 간단한 Search Strategies를 활용하여 Fine-tuned Model이 단일 Rollout에서 얻기 어려운 정답 Trajectories를 생성.
- Self-Improvement 구현 : 고품질 데이터를 통해 SFT, DPO로 모델 성능 개선

2.2 Imitation Learning for Slow-Thinking Reasoning

Long-form Thought를 생성할 수 있도록 Imitation Learning을 사용할 것을 제안함. 이 섹션에서는 imitation Learning을 위한 Long-form Thought Dataset을 구성하는 방법 및 Long-form Thought Dataset을 기반으로하는 파인튜닝 방법을 소개한다.

2.2.1 Long-form Thought Dataset Construction

DataCollection :
- Long form Thought Data를 구축하는 방법은 세가지 방법이 있다.
  - 1. 인간이 생성
  - 2. LLM을 MCTS와 함께 사용해 Long form Thought Data를 생성
  - 3. o1과 유사한 Reasoning Systems에서 데이터를 생성하는 것
    - 본 논문에서는 3번의 방법을 택함.
    - DeepSeek-R1-Light-Preview, QwQ-32B-preview에서 데이터를 생성함.
      - Distilled Data를 얻기 위해, 특정 문제를 두 모델에 입력하고 여러번 Rollouts를 수행해 다양한 답변 세트를 생성하였다. 그리고 자동화된 라벨링을 통해 각 솔루션이 정답인지 확인하고 라벨을 부여함.

Format Unification
- 답변 유형(Figure 2)
  - DeepSeekR1 : Thinking과 Solution을 명확하게 구분하는 반면
  - QwQ : Thinking이후 바로 정답을 작성하는 스타일을 갖고 있다.
- 해결 방법 :
  - R1처럼 포멧이 나오길 원해서 응답을 “begin_of_thought/end_of_thought” 및 begin_of_solution/end_of_solution”으로 나누었음.
  - QwQ의 답변은 명시적이기 않기 때문에 여러번 rollout해서 포멧팅을 완성하였음.
  - 결과적으로, 이런 형태로 훈련된 모델은 Thought와 Solution을 명확하게 구분한 포맷으로 응답을 생성하는데 성공함.

Data Mixing
- 다양한 도메인에서 일반화되게 응답하는 LLMs를 개발하는 것이 목적
  - 이를 위해, 여러 도메인에서 수집된 Demonstration Instances(문제와 그에 대한 Distilled Responses를 짝지은 것)을 혼합하는 것으로 시작했다
  - 수학, 코딩, 과학, 퍼즐과 같은 도메인에서 데이터를 수집했다.
    - 세 가지 도메인에 집중한 이유는, Long-form Reasoning 능력이 이 도메인 간에 쉽게 전이될 수 있을 것이라는 가설을 세웠기 때문이다.
- Demonstration Instances의 난이도를 고려함.
  - 상대적으로 간단한 문제를 해결하는 데 굳이 Long-form Reasoning을 적용할 이유는 없음. 따라서, 선택한 도메인에서 보다 어려운 문제를 수집하는 데 집중했다.
    - 구체적으로, 수학 도메인에서는 NuminaMATH데이터셋의 Math, Olympiads, AIME 문제들을 AOPS 웹사이트에서 1983년부터 2023년까지 수집하였다.
    - 코딩 도메인에서는LeetCode에서 "Hard"로 분류된 문제들을 사용했다.
    - 과학 도메인에서는 대학 입시 문제 및Camel-AI에서 물리, 화학, 생물학과 같은 다양한 과학 분야의 질문을 수집하였다.
    - 퍼즐 도메인에서는RiddleSense에서 퍼즐 문제들을 선택
Pre-processing Demonstration Data
- 수집한 Labeled Data의 품질을 보장하기 위해 추가적인 전처리를 수행하였다. 중복 제거, 필터링이 포함된다.
- 기존 모델들이 Long-form Thought를 생성할 때, 반복, 비분, 영어와 중국어가 섞인 경우 등의 문제가 발생할 가능성이 있다. 이를 해결하기 위해, 정규식 매칭 및 n-gram 매칭과 같은 규칙기반 방법을 사용해 이러한 문제를 가진 샘플을 제거함.
- 답변 생성 길이에 대한 분석을 한 결과, 긴 Thought Instances가 더 좋은 성능을 이끌어낸다는 점을 확인할 수 있었다.
  -> 따라서, 우리는 비교적 짧은 응답들을 필터링하여 제거하였다.
- 이러한 과정을 통해, Fine-tuning을 위한 Cleaned Demonstration Dataset을 구축할 수 있었다.

2.2.2 Long-form Thought Instruction Tuning

Data수집 후, 모델이 Slow-thinking 모드에서 Thought를 생성하도록 하기 위해 Fine-tuning을 수행
- 구체적으로, 각 도메인에서 데이터 비율을 실험적으로 실험해보고 결정함(3.3에서 서술), 이를 바탕으로 Supervised Fine-Tuning (SFT) 방식으로 최적화했다.
- 구체적인 파라미터는
  - Learning rate = 1e-5
  - Batch size = 96
  - 모델 = Qwen2.5-32B-Instruct
- 데이터 :
  - Distilled Instruction Data를 대량으로 수집하였지만, Fine-tuning과정에서는 몇 천 개의 Demonstration Instances만 사용하였음. 이 연구의 목적은 소량의 고품질 데이터를 사용하여 Self-Improvement Learning의 효과를 입증하는 것이기 때문에, 전체 데이터를 사용하지 않음.
  - 결과 (추가적인 결과는 3.3에서 다룸):
    - 이미 충분한 능력을 갖춘 LLMs는 Long-form Thinking을 비교적 쉽게 학습한다.
    - 이 능력은 특정 도메인에 국한되지 않고 여러 도메인으로 전이될 수 있다.

2.3 Exploration and Self-Improvement

많은 데이터를 Distillation, Annotation으로 생성하는것은 한계점이 있다.
- Annotation : 사람이 직접 데이터를 주석하는 것은 비용이 많이 들고, 시간이 오래 걸린다.
- Distillation : 기존 모델에서 생성된 데이터를 그대로 사용하면 한정된 패턴만 학습하게 되어 일반화 능력이 부족할 수 있다.
따라서 LLM이 스스로 탐색하고(Exploration), 점진적으로 더 나은 데이터를 생성하며(Self-Improvement), 이를 학습에 활용하는 방법을 제안한다.

2.3.1 Exploration on Hard Problems

핵심 내용(목표) : Thought와 Solution을 포함하는 올바른 Trajectory를 수집하여 Reasoning Model을 훈련하는 것
- Trainable Reward Model을 이 연구에서 포함하지 않기에, Ground-truth Answer가 존재하는 다양한 문제를 수집하는 것에 집중함.
  - 구체적으로, 각 문제에 여러 번 Rollouts를 수행하여 후보 Trajectory들을 생성한다. 이 과정은 올바른 답을 포함하는 Solution이 생성될 때까지 반복된다.
  - Rollouts의 수를 증가켜 더 많은 문제를 풀 수 있고 -> 더욱 정제된 훈련 데이터를 확보할 수 있다.
  - 이 과정이 반복적으로 진행될수록, 탐색된 Trajectory의 품질이 점점 향상된다.
  - 이는 자기 개선(Self-Improvement)을 위한 핵심적인 요소이다.
- 어려운 문제 풀기위해 더 긴 사고 과정이 필요하며, 이러한 데이터가 모델 성능 향상에 특히 중요한 역할을 한다는 것을 발견함.
- 반대로, 단순한 문제는 Slow-thinking Reasoning의 필요성이 낮기 때문에, 모델 성능 개선에 상대적으로 덜 기여함 또는 성능을 저하시킬 수 있음.
- Long-form Thinking이 특정 도메인에서만 적용되는 것이 아니라, 다른 도메인에서도 자연스럽게 확장될 수 있음을 관찰함.
  - 예를 들어, 수학 문제만으로 학습시켜도, 과학이나 퍼즐 같은 도메인에서도 Slow-thinking Mode를 유지하며 Reasoning을 수행
- 그러나, 어려운 문제의 수가 적기 때문에, 사용할 수 있는 훈련 데이터의 규모는 상대적으로 작음.

2.3.2 Iteratively Refined Training Data

반복적 학습을 통해 Slow-thinking 능력을 더욱 강화하는 방식을 제안함.
- 핵심 아이디어
  - 점진적으로 더욱 정제된 훈련 데이터를 생성하는 것(1,2 반복)
    - 1. 더 많은 올바른 Trajectories를 포함하여 훈련 데이터셋을 확보하는 것.
    - 2. 향상된 Reasoning Model이 생성한 더욱 고품질의 Trajectories를 추가하는 방법
  - 구체적으로는...
    - 1. $D_0$ : R1, QwQ에서 Distilled된 Trajectories 데이터
      - 이 데이터를 갖고 초기 훈련을 진행
    - 2. 이후 훈련된 모델을 사용하여 추가적인 Exploration수행 -> 새로운 Trajectories생성
    - 3. 새롭게 확보한 데이터를 $D_0$에 추가하여 새로운 훈련 데이터셋 D_1을 생성
    - 이 과정을 반복, $D_2, D_3, ...$ 등 점점 정제된 데이터셋을 구축
  - 각 Iteration에서, 저품질 Trajectories(짧거나, 오류가 많거나, 비효율적인 사고과정)을 포함하는 데이터에 대해서 엄격한 전처리 과정을 수행한다. 또한 Perplexity 메트릭을 사용하는데, 모델이 얼마나 Reasoning 답을 만들어내는지 어려움을 느끼는지 평가하는 지표로 사용한다. (높은 Perplexity -> 모델이 해당 문장을 예측하기 어려워함.)
- 허나 여기에서도 한계점이 있음. Ground Truth가 있는 어려운 문제는 한정적이기 때문에 빠르게 소진될 가능성이 있음.

2.3.3 Optimization for Self-Improvement

모델을 효과적으로 개선하는 최적화 방법을 논하자. 이 논문의 목적은 Exploration을 통해서 Reasoning Model의 추론 능력을 강화하는 방법을 연구하는 것이다. 여기서 두가지 전략을 사용한다.(SFT, DPO)

SFT : 먼저 SFT를 사용하여 모델을 학습한다.
- 모델이 수행한 Rollouts중에서 높은 품질의 Trajectories만을 선별해 학습 데이터로 사용한다
  ~~-> 여기서 높은 품질의 Trajectories만을 어떻게 선별한 것일까?~~
  - RejectSampling과 유사한 방식으로 작동
- 모델 : Qwen2.5-32B-Instruct를 선택하고 이를 $M_0$로 정의함.
- 각 Iteration에서 $M_0$를 $D_{t-1}$에서 훈련하여 4M_t$를 생성
- 이 과정을 여러번 수행하여 모델을 개선함.
DPO :
- 올바른 Trajectory중에서 Perplexity Score가 높은 것을 Positive Instance
  - Perplexity는 낮을 수록 모델이 잘 예측했다는 것임. 근데 논문에서 이렇게 설정한 이유는, 높은 Perplexity는 모델이 어려운 문제를 해결하기 위해 더 많은 사고 과정을 거쳤다는 것을 의미함 -> 모델이 잘못된 답을 도출한것이 아니고, 논리적인 사고를 거쳐 정답을 도출했다는 증거이지 않을까라고 생각함.
    ~~다시말해서, 정답인데 Perplexity가 높다라는 것은, 중간 reasoning이 많이 들어있을 가능성이 있는 데이터이다.~~
- 잘못된 Trajectory중에서 Perplexity Score가 낮은 것을 Negative Instance로 설정해서 Constrastive Learning을 수행
이 논문에서는 DPO Training과 SFT를 결합하여 안정성을 높였다고 말한다.
- ~~어떻게??~~
Thought만을 학습할지, Thought+Solution을 함께 학습할지 실험을 진행.
RL을 진행할 수 있지만, 계산비용이 크기 때문에 향후 연구 과제로 남겨 두었다.

3. Experiments

3.1 Evaluation Setup

실험 데이터 : MATH-OAI, AIME2024, GPQA
- 수학 데이터를 주요 평가 영역으로 설정함.
대상 모델 : Qwen2.5-32B-Instruct - 기본적으로 좋은 능력, Reasoning Process를 수행하는데 적합함
비교 대상 : o1-preview, DeepSeek-R1-Lite-Preview, QwQ-32B-preview, GPT-4o, 3.5 Sonnet
추론 설정 : Greedy Search, MaxToken=32,000

3.2 Main Results

여러가지 중요 패턴을 발견

o1과 같은 산업 수준 Slow-thinking Reasoning System은 성능이 좋음.
- o1은 모든 도메인에서 좋은 성능을 보이나, R1, QwQ는 수학도메인에서 좋은 성능을 보임.
- Slow thinking방식이 복잡한 Reasoning 능력을 향상시키는데 효과적임.
Distillation기반 접근 방식은 좋은 성능을 보임.
- R1, QwQ에서 추출한 3900개의 데이터를 활용한 방법에서 90.2%의 정확도, 46.7%의 정확도를 달성함.
- 고품질 Demonstration Data를 선별 및 조합하는것이 성능 향상에 중요한 역할을 하는것임을 확인
  - 1100개의 데이터를 사용한 모델보다 3900의 데이터를 사용한 모델이 더 좋은 성능을 보임.
Exploration과 Self-Improvement를 포함한 방법이 성능 향상에 기여함.
- SFT기준으로 Exploration, Self-Improvement를 추가한 모델의 AIME정확도는 33.3 -> 40 -> 46.7로 증가함.
  -> 허나, 사견이지만, Exploration이 더 많은 1.8k부분에서는 (AIME)오히려 성능이 하락함, 허나 GPQA에서는 증가함. Exploration이 성능 향상에 기여한다는 부분은 부정할 수는 없음. 허나 선형적으로 성능 향상이 있는 것은 아님.
- 요약하자면, 모델 스스로 탐색하고, 해결하는 과정에서 Reasoning 능력을 강화할 수 있음을 의미함. 또한 Self-Improvement를 통해 모델이 점진적으로 더 정제된 Reasoning Trajectories를 학습할 수 있음을 확인하였음.
Exploration의 한계점 발견
- 너무 쉬운 난이도의 데이터는 Reasoning 기능을 부여하는데 큰 도움이 안될 수 있다.
  -> 다양한 Trajectory를 배워야 하는데, 너무 쉬운 난이도의 데이터는 한정적인 Trajectory를 갖을 수 밖에 없다. 따라서 같은 문제라도 다양한 Trajectory를 배울수 있는 데이터가 필요함.
- 탐색시간이 제한되면 -> Exploration을 수행하지 못하여 성능 향상이 둔화되는 것을 발견함.
  -> 향후 연구에서는 더 긴 탐색 시간을 부여하거나, 다양한 도메인의 Trajectory를 추가로 넣는 방법을 고려
Distillation 기반 접근 방식(3,900개 Instances 사용)이 모든 실험에서 가장 우수한 성능을 달성
- SOTA 수준의 Reasoning System과 유사항 성능을 기록
- Self-Improvement을 활용한 방법에서도 상당한 성능 향상이 있으며, 어려운 문제에서 효과적이었음.
- 다만, 초반 몇번의 Iteration이후 성능 향상 속도가 둔화되는 것을 발견함.
  - 모델이 탐색한 데이터셋이 일정 수준 이상의 품질을 확보한 경우, 추가적인 향상이 점점 어려워지는 것으로 보임.
    -> 또한 STILL-1에서 밝힌대로 더 큰 모델에서의 Distillation이 효과가 있지, 비슷한 크기의 모델에서의 Distillation은 큰 효과가 없는 것으로 밝힘. Self-Improvement가 얼마나 큰 도움이 될지는 모르겠음.
  - 향후 연구에서는 더 높은 난이도의 문제를 지속적으로 추가하거나, Exploration을 더욱 정교화 하는 방법을 연구

3.3 Futher Analysis Data Mixture

SFT에서 다양한 도메인에서 수집한 데이터, 난이도 혼합해서 데이터셋을 구성하는 방법을 고민. 구체적으로 어떤 유형의 데이터를 조합해야 하는지에 대해서 고민함( 어려운 수학문제, 일반적인 수학문제, 기타 도메인문제 )
결과 :
- 어려운 수학문제를 포함하지 않는 경우, 성능이 급감함.
  -> 어려운 문제들이 Reasoning능력을 향상시키는데 중요한 역할을 함
  -> 어려운 문제를 제거할 경우, 더 깊은 사고 과정을 학습할 기회가 줄어들어 성능이 저하됨을 확인함.
- 다른 도메인의 데이터를 포함하지 않고 수학문제만 학습한 경우 -> 모든 벤치마크에서 높은 성능을 보임.
  -> 오직 수학만 학습했음에도 과학 및 퍼즐에서도 강한 성능을 보임.
  -> Reasoning이 특정 도메인에 국한되지 않고 다양한 도메인으로 전이 될 수 있음을 의미함
- 수학 문제와 기타 도메인 문제를 혼합한 경우 -> 균형잡힌 성능을 보임.

3.4 Further Analysis of DPO Training

DPO학습을 적용하는데 다음과 같은 실험을 진행
- Thought Solution 모두 학습, Thought만 학습
- Thought Solution 모두 학습하는 경우
  - 장점 : 모델은 사고 과정과 해결책을 동시에 처리할 수 있게 된다. 따라서 더 정확한 문제 해결이 가능하며, 전체적인 성능 향상이 이루어 질 수 있음.
  - 단점 : 고급 Reasoning을 동시에 학습해야 하여, 더 많은 계산과 시간이 소요됨
- Thought만 학습
  - 장점 : 보다 빠르고 효율적인 학습이 가능.
  - 단점 : 솔루션과 사고 과정간의 연계가 약할 수 있음.
- 결과 : DPO에서는 Thought만 학습하는 경우가 더 좋은 성능을 보임.
  - Thought만 학습하는 경우 :
    - 상대적으로 높은 성능을 보였으며, 모델이 사고 과정만을 학습하는 데 있어 효과적
    - 사고 과정이 정확히 학습될 때, 모델이 더 예측 가능한 솔루션을 도출할 수 있다는 점을 시사
  - Thought Solution모두 학습
    - 자원 소비가 많음.
    - 문제 해결 과정에서 Solution이 이미 학습된 경우, 이 방식의 장점이 더 뚜렷하게 나타남.