• Synthetic Dataset은 Policy보다 더 좋은 모델로 진행해야함.
  • Reasoning모델이 아닌 LLaMA3.1로 reasoning format으로 finetuning하였을 때, reasoning성능을 어느정도 확보할 수 있는 것으로 보임.(이 논문에서 Policy Model을 LLaMA3.1로 설정)
  • reward모델에서 duplicated dataset제거 및 bias없이 설정하는것이 중요하다.

 

Abstract

  • 테스트 타임 스케일링은 최근 큰 주목을 받고 있는 연구 주제이다.
    • 관련한 연구들도 블로그 업로드 예정
      • (The Surprising Effectiveness of Test-Time Training for Abstract Reasoning)
      • (Test-Time Training with Self-Supervision for Generalization under Distribution Shifts)
    • 추론 단계에서 계산 리소스를 더 많이 할당하면, 대규모 언어 모델(LLM)은 더 정확한 응답을 생성할 수 있다.
    • 그러나, o1과 같은 추론 방식 개발은 어려움.
  • 이 논문에서는 reward-guided tree search 알고리즘을 통해 LLM의 추론 능력을 향상시키는 방법을 제안한다.
    • 제안된 프레임워크는 정책 모델, 보상 모델, 검색 알고리즘을 포함
    • 트리 탐색 알고리즘을 중심으로 구성되며, 정책 모델은 보상 모델에 의해 동적으로 확장되는 트리를 탐색
    • 구현된 프레임워크는 STILL-1 (Slow Thinking with LLMs) 이라고 명명함.
  • 결과적으로, 제안된 방법을 통해 LLM의 추론 능력을 크게 향상

 

1. Introduction

LLM은 잘하고 있으나, 복잡한 추론이 필요한 테스크에서는 아직 제한적인 모습을 보임. 더 좋은 성능을 보이기 위해 훈련 & 테스트 단계에서 최적화를 하는 방법들이 제안되어 왔음.

  • 훈련에서는 : 선별된 데이터, 훈련 전략을 최적화 하는 방식등 다양
    • Task-specific fine tuning, Curriculum Learning(간단한 문제에서 복잡한 문제로 점진적 학습)
    • Curated Dataset사용(데이터 선별, 생성)
  • 테스트 타임 스케일링에서는 : CoT, self-consistnecy등을 생성하여 추론 공간을 확장하는 방법들이 나왔다. 
    • 더 많은 추론을 하여 넓은 범위의 정답 공간을 찾고, MCTS와 같은 기술등과 결합하여 정답을 찾는 경우가 많음.
    • CoT, Self-Consistency(여러 해결책 생성 후 가장 많이 나온 답 선택)
  • 최근 연구는 LLM의 복잡한 reasoning 능력을 향상시키는 비밀을 밝혀내는 데 집중하고 있다. -> AlphaGo(또는 그 확장 버전인 AlphaZero)의 알고리즘을 모방하고, policy model, reward model, search algorithm의 세 가지 주요 구성 요소를 포함하는 search-based reasoning 프레임워크를 제안한다.
    • policy model은 reasoning 단계(또는 thoughts)를 생성하며 search algorithm이 이를 안내하고, reward model이 성능을 더욱 세부적으로 조정 및 최적화한다. (허나 o1을 뛰어 넘지 못함)
  • 본 논문에서는..
    • LLM reasoning 개선을 위한 reward-guided tree search 프레임워크에 대한 기술 보고서를 제시
    • tree search 알고리즘을 중심으로 구축되었으며, policy model이 훈련된 reward model의 안내를 받아 동적으로 확장되는 tree를 탐색
    • STILL-1이라고 명명 (Slow Thinking LLMs)
  • 주요 시도
    • Policy Model:
      • Search tree 구조에서 정의된 reasoning 형식에 모델을 적응시키는 방법을 탐구
      • Reward Model의 안내 하에 & 훈련 데이터를 사용하여 preference optimization을 수행하는 방법을 설명
    • Reward Model:
      • Discriminative 또는 generative 형태, outcome 또는 process에 따른 supervised training, ranking 또는 score 기반 최적화 선택 등 몇 가지 주요 설계 고려 사항을 조사
      • 훈련 세부사항을 제공하고, 또한 policy model과 iterative mutual refinement를 수행하는 방법을 탐구
    • Tree Search:
      • Reward Model의 안내를 받아 policy model reasoning을 지원하는 MCTS 유사 알고리즘을 구현
      • 수학적 reasoning task에 적합하도록 효과성과 효율성을 모두 향상시키는 방법을 탐구

2. Method

이 연구에서는 텍스트로 서술된 수학적 문제를 다루는 것을 중점으로 하고, LLM의 reasoning 능력을 향상시키기 위해 reward-guided tree search 프레임워크, STILL-1, 을 구현한다. 이 프레임워크는 세가지 구성요소를 갖고 있다 : Policy Model, Reward Model, Search Algorithm

  • Policy Model : search tree의 특정 경로를 따라 부분적인 solution prefix를 기반으로 새로운 reasoning 단계를 생성
    • search tree : 문제를 해결하기 위한 다양한 경로를 의미함(reasoning path)
    • prefix인 현 상태까지의 reasoning path를 바탕으로 다음 step들을 여러개 생성
  • Search Algorithm : MCTS, Beam Search, DFS와 같은 방법들이라고 생각
  • Reward Model : PolicyModel이 생성한 다음 step에서 좋은 정답인지 강도를 평가

2.1 Policy model

instruction tuning, preference optimization으로 구성됨

 

2.1.1 Instruction Tuning for Reasoning Format Adaptation

Tree 구조의 search 알고리즘을 사용하여 reasoning을 수행하기 때문에, Policy Model의 reasoning 형식을 이에 맞게 조정해야 한다.

그렇다면 여기서 말하는 Reasoning 형식은 무엇인가?

  • Reasoning 형식 정의 : 이 연구에서는 reasoning 단계를 세분화 하기 위해 각 노드가 어떻게 표현되는지 설정한다. 
    • 노드 설정 기준 중요한 이유 : 예를들어 단어 하나하나를 Reasoning단계로 볼것인가, 문장을 하나의 Reasoning 단게로 볼 것인가? Reasoning을 너무 세부적으로 나누면 효율성이 떨어질 수 있고, 반면 너무 큰 단위로 묶으면 모델이 논리를 제대로 학습하기 어려울 수 있다. 허나 수학적 문제에서는 논리적으로 완전한 단계는 여러 문장으로 구성될 수 있으므로 문장 이상으로 reasoning단계를 정의해야 한다.
    • Multi step reasoning : 문제를 한번에 해결하는 것이 아니라 점진적으로 해결한다. 이때 Tree구조로 표현하는 이유는 한 문제를 해결하는 다양한 방법이 존재하기 때문이다. 
  • 지도학습 형식 :
    • Prompt 템플릿처럼, 이 연구의 Reasoning 형식은 LLM이 문제를 완전히 이해하는 것으로 시작, 개별적인 단계의 순서로 진행
    • reasoning 형태에 맞게 Policy Model을 훈련하기 위해 NuminaMath데이터를 사용해 Qwen2.5-Math-72B-Instruct에서 one-shot in-context learning으로 NuminaMath 솔루션을 생성하게 함.
    • 틀린 정답을 제거하고, Policy Model에 대해서 SFT를 진행.

2.1.2 Preference Optimization for Policy Improvement

2.1.1을 통해 훈련 하면, PolicyModel과 원하는 형태의 reasoning format을 생성하여 reasoning process를 더 효과적으로 제어할 수 있다. 이후 Reward Model에서 제공하는 피드백을 사용해 Policy Model에서 Preference Optimization을 수행해 Policy를 더욱 개선한다.

  • Training Data Construction :
    • 세 가지 단계로 훈련 데이터를 생성(by Qwen2.5).
      • 1. Policy Model 에서 각 데이터에 대해 여러개의 Solution을 생성한다. 
        • 문제 집합 $Q = {{<q_i, s_i>}}^N_{i=1}$에서 reasoning 형식에 맞게 적용된 Policy모델을 사용해 문제 $q_i$를 해결한다. 다양한 경로를 탐색하기 위해, temperature를 증가시켜 다양한 solution 경로 ${{s_{i,j}}}^k_{j=0}$을 얻는다.
      • 2. 저품질 Solution을 필터링한다.
        • garbled context, reasoning 형식에서 벗어난 샘플 제거하기 위해 룰베이스 접근 방식을 적용함.
        • 문제 풀이중에서, 옳바르게 푼 solution 및 틀리게 푼 solution을 모두 갖고 있는 데이터만을 남긴다
          -> Preference Optimization을 위해 남기는 것 같음. DPO와 같은 알고리즘에서는 Preference Dataset이 필요함.
      • 3. Reward Model(LLaMA3.1)의 점수와 annotated label으로 부터 긍, 부정 데이터 세트를 생성한다.
        • Reward Model로 각 샘플 데이터를 평가하여 점수를 계산, 초기에는 solution의 최종 결과를 기준으로 정답 여부를 평가. 정답 샘플은 높은 점수를, 잘못된 정답은 낮은 점수를 부여함
        • 이때 positive들 중에서 가장 높은 점수를 획득한 데이터와, negative들 중에서 가장 높은 점수를 획득한 데이터를 pair하여 데이터를 구성함.
        • 1,2,3을 반복하면서 Reward모델이 학습이 될 것이고, 사소한 차이가 있는 데이터에 대해서도 세밀하게 평가할 수 있게 된다.
  • Preference Optimization
    • 훈련 데이터를 얻은후, chat template 및 prompt에 맞게 변형시키고 DPO 알고리즘을 사용해서 Policy Model P에 대해 Preference Optimization을 수행함.
    • 이떄, Reference model은 Qwen2.5 freeze이고, Policy Model P는 Qwen2.5 learnable임.
    • 여기서는 싱글턴 훈련 과정을 설명했으나, 다중 턴을 통한 최적화가 가능하다(DataConstruction -> DataGen -> Reward -> Policy Model update ...)

2.2 Reward Model

2.2.1 Key Design Considerations in Reward Modeling

Reward Model은 search 프레임워크 내에서 Policy Model의 reasoning을 안내하는 피드백 신호를 제공하므로, LLM의 reasoning 프로세스에서 중요한 역할을 한다. 일반적으로 Reward Model은 다양한 머신러닝 모델을 사용해 구현될 수 있으나, 본 연구에서는 LLM을 Reward Model의 백본(backbone) 모델로 사용하는 데 중점을 둔다. 효과적인 RM을 설계하기 위해 세 가지 주요 요소에 집중한다.

  • Discriminative RM vs Generative RM
    • 과거 연구들에서는 Discriminative RM이 많이 사용되었으며, hidden state을 점수로 변환하여 피드백 신호로 제공하였다.
    • 반면, Gen RM은 평가를 위한 특정 프롬프트를 제공하고, 이를 기반으로 solution의 품질에 대한 평가를 생성하고, 이를 통한 점수를 제공한다. 
    • Gen RM이 더 많은 이점이 있다고 논문에서는 주장하는데,
      • Discriminative의 경우 hidden state을 점수로 변환해야 하기 때문에 새로운 구조를 추가해야한다. 따라서 사전 학습 능력을 온전하게 사용하지 못할 가능성이 있다.
      • Gen RM은 텍스트 형태로 평가 결과를 생성할 수 있어, 품질관리까지 가능하다. 또한 파인튜닝과의 호환성도 매우 높다.
  • Outcome-supervised RM vs Process-supervised RM.
    • 두가지 유형의 RM을 개발하기 위해서는 다른 라벨링 데이터가 필요하다.
      • Outcome-supervised RM : 정답의 정확성을 평가. Ground Truth답변이 있는 경우 얻기 쉬움.
      • Process-supervised RM : reasoning 중간 단계의 정확성을 평가. Step level라벨을 얻기는 매우 어려움.
        • Math-Shepherd의 rollout기반을 방법들을 통해 자동으로 얻을 수 있음. 시간 소요가 큼
      • 이 논문에서는 outcome-level supervision을 선택하였으나, solution-level로 학습하여도 reward model이 step-level 정확성을 평가하는데 잠재력을 갖고 있음을 발견함.
  • Ranking-based RM vs Scoring Based RM
    • Reward모델을 학습할 때, Ranking Based혹은 Scoring Based 최적화 중에서 선택할 수 있다.
      • Ranking : 후보 응답 중에서 가장 좋은 것을 식별하는데 초점을 맞춤(상대평가). (r1 > r3 > r2)
      • Scoring : 하나의 답변만 보고 절대적인 Reward점수를 할당(절대평가). (Score(r) = 0.8)
    • 이 논문에서는 Scoring Based를 선택함.

2.2.2 Training Data Construction

Reward모델을 잘 학습하기 위해서, 학습 데이터를 정리하고 필터링 해야 하는데 이를 룰 베이스 방법을 사용하여 고품질 데이터 셋을 구성한다.

  • Data Collection
    • Policy Model에서 생성된 데이터를 활용해 학습 데이터를 구성. 각 문제에 대해 여러개의 solution을 생성 ${{s_{i,j}, ..., s_{i,k}}}$. 다양한 Solution을 생성하기 위해 temperature 및 top_p등의 파라미터 조정한다. 생성된 solution은 ground truth 답변과 비교하여 라벨링(correct, incorrect)한다.
  • Data Cleaning
    • 생성된 Solution은 일부는 지나치게 유사할 수 있다. 지나치게 유사한 데이터의 경우, Reward model이 Overfitting될 수 있음.
      • Reward Model의 Overfitting : 학습 데이터의 중복 및 다양성 부족에서 발생함. 모델이 다양한 range의 점수를 보고 학습을 해야, 점수 변별성을 갖출수 있기 때문이다.
    • 유사 데이터 제거
      • n-gram 유사성이 높은 응답들을 제거
      • 각 문제별로 생성된 Solution의 Correct와 Incorrect solution 수를 균형있게 맞춰 데이터 편향을 줄임.

2.2.3 Reward Model Training

데이터셋을 만들고 reward model R을 훈련시킴 -> outcome level absolute score이 도출됨

  • Domain Adaptation
    • Reward Model의 백본으로 LLaMA-3.1-8B-Instruct를 사용하고, 수학적 데이터에 더 잘 작동하게 하기 위해, 수학 데이터로 instruction fine-tuning을 진행한다.
    • Policy Model 파인튜닝 과정과 유사하게, NuminaMath데이터에서 무작위 샘플링하고, Qwen2.5를 통해 문제에 대한 Solution을 생성하여 학습 데이터의 품질을 향상시킨다. 잘못된 solution은 훈련 세트에서 제거하여 고품질의 데이터로만 학습에 사용한다.

  • Generative Training
    • 위처럼 Prompt 템플릿을 설계하여 주어진 문제와 solution평가를 NLP로 생성한다. 
    • 리워드 모델의 웨이트 업데이트는 아래와 같은 식을 통해 진행된다.
      • $q_k$ : 질문
      • $s_k$ : candidate solution
      • $l_k$ : generated answer from reward model
      • $g(l_k)$ : with prompt template
    • 왜 템플릿에 맞게 하여 loss를 구하는지는 잘 모르겠다. 단답으로 나오지 않게 하려는 것인지...?

  • Active Learning
    • Reward Model의 성능을 더욱 향상시키기 위해, 학습 과정에서 Active Learning 기법을 사용한다. 이를 통해 고품질 및 어려운데이터를 선택하여 Reward Model 학습을 고도화 한다.
    • 과정
      • 1. 초기 Reward Model 생성 : 앞에서 소개한 학습 방법을 사용하여 초기 Reward Model을 생성한다.
      • 2. Reward 점수 기반 평가 및 순위 매기기: Reward Model을 사용해 원래 학습 데이터셋 $D_O$에서 생성된 solution에 점수를 생성한다. 그런 다음, Reward 점수를 기준으로 solution을 내림차순으로 정렬한다.
      • 3. 정답과 오답 세트 분리: 각 문제에 대해 solution을 정답과 오답 세트로 나눈다. 두 세트 각각에서 Reward 점수가 높은 응답을 추린다.
        • 정답에서 : 높은 점수는 높은 품질의 정답 데이터를 의미한다.
        • 오답에서 : 높은 점수는 기존 Reward Model이 판별하지 못한 어려운 샘플들을 의미한다. 이 샘플들은 Reward Model 학습하기 어렵게 만든다. -> 일반화가 더 잘되겠지?
      •  4. 유사한 solution 제거:
        선택된 샘플에서 유사성이 높은 solution은 제거하여 데이터셋의 다양성을 유지(Overfit 막는 역할도함)
      • 5. 균형 조정: 정답 응답과 오답 응답의 수를 균등하게 맞춰 데이터셋의 bias 방지
      • 6. Active Learning 데이터셋 구성 : 위 과정을 통해 선택된 샘플들로 새로운 Active Learning 데이터셋 $D_A$를 구
      • 7. Reward Model 개선: $D_A$를 사용해 백본 모델을 학습하고, 개선된 Reward Model 얻음.
  • Reward Normalization
    • 은 문제와 solution을 평가할 때 "Yes"와 "No" 둘중에 하나를 생성한다.
    • 아래와 같이 0~1 사이로 정규화를 진행.

 

2.2.4 Iterative Training for Mutual Evolution

프레임워크 내에서, Policy Model과 Reward Model은 상호 긴밀히 연결된 구성 요소이다.

  • 1. 각자의 학습은 서로가 생성하거나 선택한 데이터를 사용
  • 2. 최종 solution에 도달하기 위해 reasoning 프로세스를 같이 수행한다.

이에 따라 두 구성 요소의 상호 향상을 위한 가능성을 탐구하고, 모델 역량을 반복적으로 개선

  1. 초기 Policy Model $P_0$와 Reward Model$R_0$를 준비함 (형식 및 도메인 적응 후).
  2. i-번째 반복에서, Policy Model $P_{i−1}$은 학습 데이터셋의 문제를 기반으로 후보 solution을 생성
  3. 이 생성된 solution과 문제는 Reward Model $R_{i-1}$ 학습 데이터셋을 구성하며, 이를 통해 향상된 Reward Model $R_i$
  4. 새로운 Reward Model $R_i$는 원래 학습 데이터셋을 평가하고, Policy Model $P_{i-1}$의 Preference Optimization을 수행해 향상된 Policy Model $P_i$을 얻음

2.3 Searh Algorithm

2.3.1 Overall Process

일정한 수의 search step을 실행하여 검색 프로세스를 수행한다. 각 search step은 다음의 네 가지 주요 작업으로 구성된다:

Selection, Expansion, Simulation, Backpropagation.

  • Selection : MCTS(Monte Carlo Tree Search) 알고리즘을 사용
    • 루트 노드에서 시작하여, UCB(Upper Confidence Bound) 값을 기반으로 자식 노드를 선택하며 트리를 탐색함.
    • 노드 $s_t$에서, 자식 노드의 UCB 값은 다음 두 가지 변수에 의해 결정:
      • $V(s_{t+1})$ : Reward Model R이 제공한 candidate 자식 노드의 reward 값.
      • $N(s_t)$: 노드 $s_t$의 방문 빈도.
    • 각 단계에서 UCB 값이 가장 높은 자식 노드가 선택. 이 과정은 leaf 노드에 도달할 때까지 반복된다. c : constant that determines the level of exploration

  • MCTS는 현재 노드의 자식 노드 중에서 선택하는 로컬(local) 선택을 수행하는데, globally 선택하는 방법을 설계함($MCTS_G$).
    • 현재 search tree의 모든 leaf 노드를 수집하고, 이들의 reward 값 평균(µ)과 표준편차(δ)를 계산
    • 이후, µ와 δ를 기반으로 동적으로 threshold p를 계산
    • reward 값 Vp를 초과하는 노드가 선택

  • Expansion
    • 선택된 leaf 노드가 최종 상태가 아니라면(즉, 최종 답변이 생성되지 않았다면), 노드는 깊이 방향으로 k개의 자식 노드 {s_c}를 추가하여 확장한다. 이 새롭게 확장된 자식 노드의 초기 값(MCTS값)은 다음 시뮬레이션 작업을 통해 결정된다.
  • Simulation
    • rollout이라는 것을 통해서 확장된 childe node $s_c$를 평가함.
      • 이때 rollout은 현재 노드(예: $s_c$)에서 출발하여, Policy Model을 사용해 solution을 가상으로 끝까지 생성해보는 것이다. 이렇게 해서 solution $tau^(i)$를 생성한다.
    •  그리고 reward model R을 통해서 rollout trajectory를 scalar value로 측정함.
    • 이 시뮬레이션을 여러번 시도하고 평균적인 값을 구한다.

  • Backprogation
    • child node의 처음 reward 값들이 계산되면, tree root까지 전달된다. visit count N과 state value V와 같은 것들이 업데이트 된다.
    • formula 정리
      • k : 이번에 확장된 child의 node 수
      • $V(s_c)$ : 10번 식, simulation을 통한 rollout trajectory value
      • $V(s_t)$ : 부모 노드$s_t$의 reward value
      • $N(s_t$ : 부모 노드 방문 횟수

더보기

 

  • 기존 상태:
    • 부모 노드 sV(s_t)=5.0, N(s_t)=2
  • 새로운 자식 노드:
    • 두 개의 자식 노드 s(1)s(2)의 보상 값이 각각 6, 7이라고 가정.
    • k=2 (자식 노드의 개수).
  • 업데이트:
    V(s_t) <- [2*5+(6.0+7.0)] / (2+2) = 5.75

 

  • Pre-expansion
    • 검색 프로세스의 첫 단계에서 초기 노드 탐색을 매우 높일 수 있는 pre-expansion을 시행함.(MCTS, MCTSG와는 다른 것임)
    • 가장 유망한 leaf 노드를 선택해 확장하는 대신, 처음 레이어의 모든 노드를 확장하여 답이 될 수 있는 모든 노드를 생성함.
    • 이 확장 후에, Selection, expansion, simulation, backpropagation 작업이 진행된다.
    • 사견이지만, 아마도 초기 node 분기가 매우 중요하기 때문이지 않을까 생각한다.
  • Discussion on Search Algorithms

 

2.3.2 Performance Optimization

  • Self-consistency Enhancement with Rollout Samples
    • Tree를 생성해가면서, Rollout을 하게되면 끝까지 정답을 만들어보게 되는데, 이때 만들어진 정답을 갖고 Reward 점수를 고도화 할 수 있지 않을까 생각한 것으로 보임.
    • 구체적으로, 각 샘플 $tau^{(i)}$에 대한 Reward를 계산할 때, 기존 rollout 샘플들의 정답 비율에서 도출된 SelfConsistency 점수를 Reward Model 점수와 결합한다.
      • self consistency가 정의되어 있지 않지만, 추론하자면 rollout되었을 때 $tau^(i)$들의 reward 점수 평균, 혹은 최빈 답변의 빈도(%)이지 않을까 싶다.
      • 더보기
        1. 빈도 계산 (Majority Voting):
          • 1095(정답): 3번 생성됨
          • 1085: 1번 생성됨
          • 1100 1번 생성됨
          가장 자주 생성된 답변은 1095 이를 Self-consistent answer로 선택

        2. Self-consistency 점수 계산:
          모든 Rollout 결과 중 1095가 차지하는 비율 (SC)을 계산:SC(1095)=0.6

        3. Reward 결합:
          R+(1095) = (1-0.5) * 0.8 + 0.5 * 0.6      ( R(1095) = 0.8 가정 )

         

        이런식으로 답변별로 reward를 고도화 할 수 있음.

    • SC는 질문의 난이도가 비교적 낮을 때 ground-truth 정답을 정확하게 예측한다는 것을 발견
    • 전반적으로, 이는 후보 정답의 정확성을 평가하기 위한 유용한 지표로 사용할 수 있다.

 

  • Tool Manipulation
    • 문제를 해결하는 각 단계에서, Policy Model은 계산 오류가 있을 수 있음. 논리적 오류와 달리, 이러한 계산 오류는 Reward Model 및 self-consistency 점검에서 발견되지 않을 가능성이 높다.
    • 이를 해결하기 위해, 프레임워크에 Calculator Tool을 통합하여 단계별 계산 결과의 정확성을 확인한다.
    • 각 생성된 단계에서 방정식을 추출한 후, SymPy 라이브러리를 사용하여 이 표현식을 다시 계산하여 정확한 답변을 얻음.
    • 이를 통해 생성된 단계에서의 결과와 일치 여부를 나타내는 과정을 추가함.

 

3. Experiment

3.1 Evaluation Setup

  • Backbone model : LLaMA-3.1-8B-Instruct (Policy, Reward)
    • Preference Optimization for Policy Improvement 여기에서는 policy model을 qwen2.5를 사용했다고 했는데...
      사견으로는 Qwen2.5-Math-72B-Instruct으로는 데이터 생성 및 형식화 (데이터셋 준비용) LLaMA-3.1-8B-Instruct은 Policy Model로 최종 실험에 사용한것이 아닐까 싶다.

3.2 Main Results : 두번의 iteration을 한 것의 결과

 

  • Reward Model의 Selection이 Random보다 좋았으며
  • RM Selection에서는 iteration이 증가할 떄 더 좋아졌음을 확인할 수 있음.

3.3 Further Analysis of Policy Model Training

3.3.1 Effect of Data Synthesis Model

  • LLaMA-3.1-8B-Instruct, Qwen2.5-72B-Instruct, Qwen2.5-Math-72B-Instruct의 세 가지 데이터 생성 모델을 비교
  • Policy Model은 LLaMA-3.1-8B였음. Synthetic Dataset은 더 좋은 모델로 생성하고 Policy를 훈련해야 더 좋은 결과가 나옴을 보여줌. 즉 자기 자신이 만든 데이터로 다시 훈련을 한들 크게 성능변화는 없을 수 있다를 의미함.

 

3.3.2 Effect of Training Data Scaling

  • x 축이 데이터 양인데, 초기 부분에서는 성능향상이 있는 것으로 보이나, 많은 데이터양이 꼭 성능향상과 연관성이 있는 것은 아니였음.
  • 아마도 비슷한 데이터 셋들을 생성하기 때문에 Overfitting이 되었을 것이라 의심.

 

3.3.3 Performance Improvement on Self-consistency

  • SC 전략은 충분한 수의 rollout을 사용할 때 매우 효과적이었음.
  • 제안한 학습 방법으로 최적화된 Policy Model과 그렇지 않은 초기 상태의 Policy Model 성능을 비교
  • 샘플링 예산(rollout 수)을 조정하여 SC 전략의 성능 변화를 분석

  • SC 전략의 개선 효과:
    • 제안한 학습 방법은 Policy Model의 기본 성능을 크게 향상
    • SC 전략과 함께 사용할 때 더 나은 성능을 달성
  • SC 전략만의 성능 한계:
    • SC 전략은 매우 강력함. 충분한 rollout 수를 사용할 때 높은 성능을 기록 -> w/training + SC의 0 completion token와도 비슷한 수치를 보임.
    • 그러나 SC 전략만으로는 여전히 reasoning 프레임워크(STILL-1)의 전체적인 성능에 미치지 못함
  • 샘플링의 중요성 : 
    • SC 전략의 성능은 rollout 샘플 수에 따라 크게 좌우된다.
    • 더 많은 샘플을 사용할수록 모델이 더 정확한 정답을 포함하는 solution을 생성할 가능성이 높아짐.

 

3.4 Futher Analysis of Reward Model Training

3.4.1 Effect of Model Adaptation Strategies

  • Domain Adaptation
    • table4에 의하면 도메인 데이터를 포함한 경우 BoN-N(with N Best candidates)에서 N이 증가할 수록 더 높은 성능을 보임.
    • 수학적 도메인 지식을 포함시키는 것이 모델이 더 정확한 보상을 할당하고 평가 정확도를 향상시키는 데 도움을 준다는 것을 시사
  •  Format Adaptation
    • Policy Model에서 reasoning format을 한 것과 같이 Reward도 그렇게 했을 경우 좋은 성능을 보일까?
    • N이 커질수록 일관적인 성능 향상은 있지 않았음

3.4.2 Effect of Data Selection Strategies

  • DataCleaning : 중복 및 편향을 줄이는 것이 중요함

  • Data Selection : Positive와 Negative 샘플 모두 점수를 기준으로 내림차순으로 선택했을 때 가장 좋은 성능을 달성, Negative 샘플에서 높은 점수의 데이터를 선택하는 것이 유리하며, 이는 더 어려운 샘플을 포함함으로써 모델의 학습에 더 어려운 문제를 주며 성능 향상이 있지 않았을까 한다.

 

3.4.3 Effect of Model Design and Training ( Reward )

  • Objective Function : Generative Reward Model을 최종적으로 채택했지만, 다양한 목표 함수를 사용하여 Discriminative Reward Model의 성능도 검토. 결론적으로, Ranking-Based 함수는 특정 상황(예: 많은 후보가 있을 때)에서 뛰어난 성능을 보일 수 있지만, generative Reward Model은 기존의 모든 학습 방식과 더 잘 맞으며, 절대 점수와 상대적 평가 모두를 제공할 수 있는 장점이 있다.
  • Backbone Model :
    • 모델 크기를 증가시키면 평가 능력이 향상
    • Math-specific LLM은 Large-scale LLM보다 더 높은 성능을 보였으며, 수학적 reasoning에 대한 백본 모델의 전문성이 중요함을 강조

 

3.4.4 Performance of Reward Model on Process-supervised Tasks

2.2.1의 Outcome-supervisedRM으로 훈련해도 Process-supervised로 훈련한것에서 기대한 바를 어느정도 볼 수 있음.

 

3.5 Futher Analysis of Search Algorithm

3.5.1 Comparison of Different Search Algorithms

  • Search Algorithm은 LLM이 더 넓은 reasoning 공간을 탐색할 수 있도록 도와주며, 이를 통해 작업 성능을 개선하는데,
  • 본 실험에서는 프레임워크와 통합된 세 가지 Search Algorithm의 성능을 비교한다: MCTS (Monte Carlo Tree Search), MCTSG (Monte Carlo Tree Search with Global Selection),Beam Search.
  • MCTS와 MCTSG에서 자식 노드의 확장 수는 3으로 설정되었으며, Beam Search에서도 Beam Size를 3으로 설정
  • 세 가지 Search Algorithm 모두에서 각 시뮬레이션 단계의 Rollout 수는 5로 고정

  • 결과
    • MCTSg가 가장 좋았음
      • BS의 경우 Forward만 수행을하여 tajectory의 수정이 불가능함->이게 성능 하락의 요인으로 보였음.
    • Pre-expansion 없이(Depth = 0) 시작하는 경우와, Depth = 1, 2로 Pre-expansion 레이어 수를 조정한 경우를 비교
      • 확장 후에는 일반적인 Selection, Expansion, Simulation, 그리고 Backpropagation 작업이 수행
      • 초기 트리의 탐색 공간을 넓혀 더 적합한 경로를 식별할 가능성을 높였기 때문
      • 초기 확장을 통해 계산 비용을 최소화하면서도 충분한 탐색 공간을 확보한 결과

 

 

 

+ Recent posts