이 논문은 Reasoning능력에 대한 분석 논문임. 발견에 집중해서 빠르게 스크리닝하는것을 추천함.

결론만 말하자면, base model도 이미 문제를 푸는 방법은 알 고 있으나 RL로는 그 성능을 극대화하지 못하는게 골자인 것으로 보임.

 

Introduction

배경:

  • 추론 LLM -> (수학, 프로그래밍) 같은 복잡한 과제를 해결하는데 좋음 <- RLVR(Reinforcement  Learning with Verifiable Rewards)덕분임
  • RLVR은 모델이 자율적으로 행동하도록하여, 자가 진화 하는 LLM으로 널리 알려져있음.

RLVR은 진짜 자가 진화에 기여하나?

  • 이 논문은 RLVR이 새로운 추론 능력을 제공하는지 의문을 표함.

 

  • 회색: sampling될 가능성이 낮은 경로
  • 검은색: 높은 확률
  • 녹색: positive reward를 갖는 올바른 경로
  • 핵심 발견: Base모델을 여러번 시행할 경우, 올바른 경로를 뽑아낼 수 있음.
    -> 즉 이미 base모델은 그 능력을 갖고 있음.
    -> 다만 RLVR은 모델은 첫번째 시도에서 맞출 가능성이 높도록 bias하게 훈련되어 있음.

다음과 같은 질문을 논문에서 함.

  • Does RLVR really bring novel reasoning capabilities to LLMs? If so, what does the model learn from RLVR training?
  • RLVR-trained models perform worse than base models in pass@k at large k values.
  • RLVR boosts sampling efficiency but reduces the scope of reasoning capacity.
  • RLVR algorithms perform similarly and remain far from optimal.
  • RLVR and distillation are fundamentally different.

Base모델을 여러번 실행할 경우, 더 잘맞춤.

 

2. Preliminaries

ReinforcementLearning with Verifiable Rewards

더보기
  • Verifiable Rewards:
    • LLM이 프롬프트 x에 y를 생성
    • Verifier V가 리워드 r ∈ {0, 1} 판단 (정답일 때만 r=1)
    • RL의 목표: 보상 $J(θ) = E_{x∼D}[E_{y∼π}(·|x)[r]]$ 최대화
  • RLVR 알고리즘:
    • Critic: PPO, LCLIP
    • Critic free: GRPO, RLOO
  • Policy Gradient: 온-폴리시 샘플에서만 학습, 올바른 답변의 로그 가능성 최대화, 잘못된 답변의 가능성 최소화
  • Zero RL Training: SFT없이 RL로만 훈련

Metrics for LLM Reasoning Capacity Boundary

더보기
  • Pass@k 메트릭:k개 샘플 중 하나라도 맞으면 1, 아니면 0
  • Unbiased Estimation 방법: 문제 xi에 대해 n개 샘플 생성, 올바른 샘플 수 ci 계산
  • CoT정확성 검증: 
    • 코딩: 단위 테스트로 정확성 확인
    • 수학: hacking 발생 가능성 있음.
      • 해결: 쉽게 해킹 될 수 있는 문제 필터링 + CoT 수동 검증

 

 

3. RLVR’s Effect on Reasoning Capacity Boundary

RLVR's Effect on Reasoning Capacity Boundary(table1으로 실험 진행, figure 10은 temperature에 따른 성능)

더보기

 

  • 목표: RLVR이 언어 모델의 추론 능력에 미치는 영향 분석.
  • 실험: 수학, 코드 생성, 시각적 추론 세 가지 대표적인 도메인에서 기본 모델과 RLVR 모델을 광범위하게 비교 평가.
  • 평가:
    • 기본 모델 평가 시 few-shot제외하여 in-context영향을 배제 공정한 비교를 도모함.
    • 기본 모델과 RLVR 모델 모두 동일한 zero-shot 프롬프트 또는 벤치마크 기본 프롬프트 사용.
    • 충분한 샘플링을 통해 기본 모델도 형식에 맞는 출력을 생성하고 복잡한 문제를 해결할 수 있음을 관찰함.

 

 

 

2.2 DataCurating: RLM을 통해 CI를 통합한 데이터셋 생성.

2.3 Loss function, Reward function: 특별할 것은 없음.
- Process Reward처럼 만들었으면 어떠했을까 싶음.

 

3.2 - Cold-start의 효과: 40.9%로 텍스트 기반 RL과 유사한 성능을 보임. tool 사용 패턴 데이터의 효과성 포착
- tool 사용법만 배워도 성능이 올라가네: Reasoning model + tool의 잠재성이 높을 것으로 예상

 

 

github: https://retool-rl.github.io

 

ReTool

In this work, we embrace the RL paradigm and introduce ReTool, a Tool-augmented Reinforcement learning framework explicitly designed to guide LLMs towards optimal strategies for leveraging external computational tools during reasoning. Our comprehensive ex

retool-rl.github.io

 

Abstract

  • 기존의 문제:
    • RL로 훈련된 추론 모델(DeepSeek R1 등)은 텍스트 추론은 뛰어나나, 구조화된 문제 해결(기하학적 추론, 정확한 계산, 복잡한 방정식)에 어려움 겪음
    • 구조화 문제에서는 코드 인터프리터(CI) 같은 도구가 좋은 성능 보임
  • 제안하는 방법:
    • 자연어 추론 과정중에 코드 실행 가능하도록 함.
    • 다중 턴 코드 실행을 통해 모델이 tool을 언제 호출할 지 학습하는 RL 프레임워크
  • 방법론
    • cold start데이터 생성, 베이스 모델 fine tuning
    • RL훈련으로  도구 사용 전략을 세분화함. 인간의 지식 없이 최적의 도구 사용 패턴을 자율적으로 학습
  • 결과
    • 32B모델 - AIME 67%정확도 (기존 텍스트 RLM보다 27%높은 정확도)
    • Extended 설정에서는 32B모델이 o1-preview성능 능가.
    • aha moment발견

 

1. Introduction

  • 강화학습은 LLM이 추론능력을 갖추기 위한 인기있는 방법으로 떠오름.
    허나, 기하학적 추론, 정확한 수치 계산에서는 한계점이 있음. 
    -> CI(Code interpreter)와 같은 것을 사용하면 정확한 계산을 수행할 수 있음. 이는 기존 LLM이 갖고 있던 약점을 보완할 수 있음.
  • 기존 접근: prompting, SFT
    • 한계: 데이터 분포를 모방, 보지 못한 패턴을 일반화, 외부 도구를 이해하는데 어려움을 갖고있음.
    • 극복: RL은 이러한 한계점을 극복하는데 유용할 수 있음.
      -> 도구를 잘못 실행시 자체적으로 수정, 추론 과정 중 언제 도구를 사용할 것인지 등
  • ReTool 프레임워크 제안
    • 외부 Tool을 사용하는데 최적의 전략을 사용하도록하는 Tool-augmented Reinforcement Learning프레임워크임.
    • 구성:
      • 데이터 파이프라인 개발: :코드 인터프리터를 언제 호출할지 명시적으로 작성된 cold-start데이터셋을 큐레이션하기 위한 파이프라인
      • 결과 기반 보상으로 최적의 tool사용 전략을 사용하는 RL 

 

2. Methodology

2.1 Overview

Cold-start SFT, Rollout RL두개 파트로 구성.

 

2.2 Cold-start for Tool-Integrated Reasoning Foundation

 

  • 데이터 수집:
    • 다양한 출처에서 수학 추론 데이터 수집(OpenThought, etc)
      • 필터링: 인간과 Deepseek-R1를 사용해서 유효하지 않은 데이터를 필터링
    • $D_{init}$: 고품질 추론 데이터셋 수집

  • 코드 추가한 추론 데이터셋 구축:
    • 구조화된 prompt 템플릿으로 자연어 풀이를 -> 자연어 + 코드 + 실행 결과로 대체(Figure 8)
      -> 어떤 모델을 사용했는지에 대해서는 나와있지 않음
      • input: query, original thinking process를 input
      • output: reasoning responses with code usage
    • 데이터 검증: 포맷 검증과 답변 검증
      • 포멧 검증: 가독성 향상, 일관된 구문을 보장 -> 강화학습시 tool 호출을 쉽게 추출할 수 있음
      • 답변 검증: 수학 문제 답변과 정확하게 일치하는 데이터셋만 남김.
        -> $D_{CI} 수집$

 

2.3 ReTool: Reinforcement Learning for Strategic Tool Use

2.3.1 Training Algorithm

 

 

PPO알고리즘을 기반으로 훈련함.

  • $(q,a)~D$: query, answer데이터 추출
  • $o<=t$: old policy가 만들어낸 답변 과정
  • $π_{θ}$: 정책모델(LLM)
  • $π_{θ_{old}}$: 참조모델(old model)
  • 더보기
    정리: Old Policy가 t까지 만들어낸 Token들을 기반으로, New Policy가 업데이트 되도록 하고 싶음. t-1까지의 Token들로 T토큰을 예측. 잘못보면 Old policy를 따라가도록 훈련하는거 아니야? 라고 생각할 수 있으나, 그부분은 A^ 부분에서 결정된다.

    Old Policy가 잘하고 있었다면 따라가는게 맞는데, 잘못하고 있어서 New policy가 더 잘해야 해서 분포가 달라지면 min안에 있는 식 기준으로는 분자의 값이 분모보다 작아지지만, A^부분이 커질 수 있다.

    또한, 문제가 주어지면 정답까지 생성하고, 그리고 Loss를 계산함. (Next token prediction과 다름)
  • $q, o<t, CI$: query, t미만의 token들, CI
  • Clip부분: Old policy에서 너무 많이 바뀌지 않도록 함.
  • A^: 이 부분은 정확하게 나와 있지 않으나 Reward라고 간주해야 할 것 같음. (github살펴봐야 할 것 같음...)

 

Reward Design:

  • 규칙기반 정확도 보상을 구현함. boxed안에 최종 답변을 작성하도록 하여, 규칙 기반 검증이 가능함.
    • 규칙기반을 한 이유: 리워드 해킹을 예방하기 위함, 결과만 측정하여 더 다양한 행동을 하도록 장려하기 위해서 단순화함.

 

Rollout with Interleaves Code Execution:

롤아웃을 하는데, NLP로만 하는것이 아닌 CI와 함께 Interact하는 롤아웃을 한다.

 

 

2.3.2 Training Details

  • Cold-start & RL:
    • 더보기
      훈련을 위해 VeRL 프레임워크를 사용. RL 방법으로는 PPO 사용.
      cold-start 데이터로 2에포크 동안 모델을 훈련.
      AdamW 옵티마이저: 초기 학습률 1e-6
      예상 최대 시퀀스 길이: 16384 토큰
      미니 배치 크기는 512로 설정
      KL 계수는 0.0으로 설정
    • Backbone model: Qwen2.5-32B-Instruct를 사용
  • Interpreter Feedback Mask:
    • Loss계산시 <interpreter></interpreter> 피드백 출력을 마스킹.
    • interpreter는 CI가 생성한 출력물, 에러에 해당함. 이건 모델이 생성한 답변이 아니기에, 이를 손실에 포함시키면 모델 훈련에 부정적인 영향을 끼침.
  • KV-Cache Reuse:
    • rollout 중 메모리 비용을 줄이기 위해, 코드 종료 트리거(</code>)가 감지될 때마다 코드 실행 전의 모든 KV-cache를 캐싱하고 인터프리터 피드백(<interpreter></interpreter>)의 KV-cache만 계산하여 추가함. 이는 각 rollout에 필요한 KV-cache를 크게 줄인다. -> 기존의 KV-cache와 같은말을 하는것 같음. 다만 CI와 통합되었을 때 어떻게 하는지 작성되었을 뿐인 것 같음.
  • Sandbox Construction
    • 여러 스레드에 걸쳐 병렬로 계산해 RL 훈련을 가속화

 

3. Experiment

3.1 Evaluation Setup

  • 더보기
    안정적인 평가를 보장하기 위해: AIME2024, AIME2025 평가 세트를 32회 평가 -> 평균 정확도(pass@1) 측정
    추론 하이퍼파라미터: temperature 1.0, top-p 0.7
    비교 모델들:
    • 비교할 모델: Qwen2.5-Math-72B-Instruct, Sky-T1, OpenAI o1-preview, DeepSeek-R1-Zero-Qwen-32B 등
    • 같은 모델로 비교: Tool없는 텍스트 기반 RL(Qwen2.5-32B-Instruct)과 비교

3.2 Main Results

  • ReTool 성능: Good. Qwen2.5-32B-Instruct에서 400step훈련만으로 AIME24에서 67%. 반면 텍스트기반 RL(w/o tool)은 1000+ step에서 40%달성.
  • 다른 백본 모델 사용: R1 Distill모델로 진행할 경우 2024에서 72.5%달성. s1-32B, o1-preview보다 10%이상 우수
  • Cold-start의 효과: 40.9%로 텍스트 기반 RL과 유사한 성능을 보임. tool 사용 패턴 데이터의 효과성 포착

 

 

 

3.3 Cognitive Analysis

(1) RL 과정 전반에 걸친 코드 인터프리터(CI) 관련 행동, (2) 자체 수정 능력 개화, (3) RL 전후의 코드 차이, (4) CI 기반, 텍스트 기반 추론 간의 차이

 

  • CI-related Behavior Evolution
    • 더보기
      Response Length(a): 훈련 초기에는 길이가 줄어드는데, 복잡한 서술과정을 코드로 단순화 하기 떄문에 줄어든 것으로 생각함. 다시 늘어나는 이유는 RL훈련동안 더 다양하고 복잡한 코드 행동이 생성된 것으로 간주함.

      Code Ratio(b): 훈련이 진행될 수록 모든 풀이과정에서 코드 Tool을 사용하는 것을 확인함.

      Code Lines(c): 생성된 코드의 라인 수는 복잡성을 반영함. -> 더 복잡한 코드 생성 전략을 학습했음을 의미함.

      Total Test Set Correct Code Counts(d): 생략

      Code Pass Rate(e): Y축 - LLM이 생성한 풀이 과정중에 코드를 작성하는데, 생성 초반에 에러가 포함되게 코드를 작성할 수 있으나, Log를 보고 재수정함. 이때 몇번만에 코드를 실행시켰냐를 의미함. 맞춘 정답들을 보니, 중간 풀이과정에서 한번에 코드를 생성하더라 라는 것을 말하고자함. 코드 실행 가능성이 추론 과정 및 결과에 영향을 미친다는 것을 시사함.

      Code Invocation Timing(f): Y축 - (코드의시작위치/응답의총길이): 훈련이 진행되면 될수록 코드 호출 타이밍이 앞당겨짐.

 

  • Aha Moment of Code Self-correction
    • 코드 수정을 위한 데이터셋이 없음에도, 실행 불가능한 코드를 자체적으로 수정하는 능력이 개화하는 것을 발견함. 그림4에서 정의되지 않은 함수 greedy()로 인해 실행 실패한 코드를 생성함. 그러나 오류를 인식하고 'Oops, the functions ...'와 같은 Self reflection을 진행함. 그 뒤에 모델은 실행 가능한 코드를 작성함.

 

 

  • Code Purpose Analysis
    • 훈련 전후의 코드의 목적을 분석함. RL훈련 후 코드를 작성하는 목적이 매우 다양해졌으며 이는 tool선택의 메타인지 발전을 보여주고 광범위한 문제로의 일반화를 의미함.

  • CI-powered Reasoning vs. Text-based Reasoning
    • 복잡한 계산과정을 코드로 간단화 하는것을 볼 수 있음.
    • 또한 외부 코드 인터프리터의 도움으로 계산 정확성을 보장함. 
      -> 전체적인 추론 전략에 더 효과적으로 집중할 수 있게함.

 

 

 

Rollout Template

 

(25.01) Agent-R: Training Language Model Agents toReflect via Iterative Self-Training

  • Monte Carlo Tree Search(MCTS)를 활용하여 다양한 궤적(좋은 궤적/나쁜 궤적)을 탐색하고 수집
  • 액터 모델이 나쁜 궤적 내 첫 번째 오류를 식별한 후, 해당 지점에서 좋은 궤적과 연결하는 모델 가이드 수정 궤적(revision trajectory)을 구성
  • 이렇게 구성된 수정 궤적을 사용하여 모델을 반복적으로 훈련시킴으로써, 에이전트가 오류를 실시간으로 감지하고 자체 반영하는 능력을 향상시킴
더보기
  • Loss:
    • 윗줄에 있는 텀: 궤적 데이터 - SFT - 좋은 궤적은 다 학습하고, 수정 궤적은 수정 이후의 궤적만 학습함.
      -> 수정 궤적의 앞부분은 틀린 정보를 포함할 수 있기 때문에 학습하지 않는 것으로 보임.
    • 밑줄에 있는 텀: ShareGPT데이터 셋

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • Monte Carlo Tree Search(MCTS)를 활용하여 다양한 궤적(좋은 궤적/나쁜 궤적)을 탐색하고 수집
  • 액터 모델이 나쁜 궤적 내 첫 번째 오류를 식별한 후, 해당 지점에서 좋은 궤적과 연결하는 모델 가이드 수정 궤적(revision trajectory)을 구성
  • 이렇게 구성된 수정 궤적을 사용하여 모델을 반복적으로 훈련시킴으로써, 에이전트가 오류를 실시간으로 감지하고 자체 반영하는 능력을 향상시

 

 

더보기
  • Loss:
    • 윗줄에 있는 텀: 궤적 데이터 - SFT - 좋은 궤적은 다 학습하고, 수정 궤적은 수정 이후의 궤적만 학습함.
      -> 수정 궤적의 앞부분은 틀린 정보를 포함할 수 있기 때문에 학습하지 않는 것으로 보임.
    • 밑줄에 있는 텀: ShareGPT데이터 셋

 

 

 

Abstract

배경:

  • LLM 에이전트들은 상호작용적 환경에서 중요한 역할을 하지만, 기존 연구들은 스스로 오류 회복하는 능력 부족함
  • 이를 획득하기 위한 step-level critique 데이터는 수집하기 어렵고 비용이 많이 듦

논문 제안:

  • Agent-R: LLM이 Reflect할 수 있는 반복적 훈련 프레임워크 제안
    • MCTS를 활용하여 틀린 궤적에서 올바른 궤적으로 훈련 데이터 구성
    • 핵심 내용: 롤아웃의 끝까지 가지 않고 중간에 수정하는 능력을 갖춤.
      • 이를 위해 model guide critique 메너니즘 도입: 액터 모델이 틀린 궤적에서 오류를 식별하고 올바른 경로와 연결

Intropduction

기존 연구 및 한계:

더보기
- LLM 에이전트들은 자율적 의사 결정, 오류 수정, 작업 최적화 능력이 필요한 환경에서 활용됨
- 기존 방법들은 강력한 전문가(human/ai)의 행동을 따라하나, 이는 실제 환경에서 실패하기 쉬움
  • 주요 문제: 오류 감지와 동적 궤적 수정 능력 부족

기존 접근법의 한계:

더보기

기존 연구의 한계를 극복하기 위해, 명시적 오류 신호나 보상 함수에 의존하는 방법들을 사용함.
-> 허나 코드 수정, 수학 추론과 같은 single 턴 시나리오에만 초점
-> 상호작용 환경에서 제안한 연구는 없음
-> 또한 상호작용 환경은 긴 추론이 필요한데, 높은 품질의 보상 함수를 설계하는것은 어려움.

제안하는 해결책 - Agent-R:

  • 틀림을 인지하는 즉시 개선하는 동적 자체 훈련 프레임워크 제안
    • MCTS를 활용하여 잘못된 궤적에서 올바른 궤적으로 복구하는 프로세스
    • 가장 적합한 수정 단계를 식별하고 올바른 궤적과 연결하여 실시간 복구

 

Preliminary

2.1 Task Formulation

더보기
  • term
    • $π_θ$: LLM
    • $τ_t$: trajectories = (a1, o1, ..., at, ot)
    • $a, o$: action, observation. observation is obtained after executing action
    • $a_{t+1}$: ~$π_θ(.|τ_t, u)$: trajectory와 query(u)로 부터 action을 생성함.
  • 이 논문에서는 ReACT 방법론을 사용해서 행동 전에 근거를 생성함.
  • 최대 라운드, 혹은 성공적으로 완료하면 종료됨.
  • 최종 보상이 [0,1]로 주어짐.

  • 전체 trajectory를 위와같이 수식화 할 수 있는데, 간단하게 - 매 action 생성시 greedy하게 action을 생성한다

2.2 MCTS

더보기
  • process
    • 선택(Selection): UCT 전략으로 확장할 다음 노드 선택
    • 확장(Expansion): 선택된 노드를 기반으로 새 노드 생성 및 트리에 추가
    • 시뮬레이션(Simulation): 새 노드에서 최종 노드까지 다중 롤아웃 수행
    • 역전파(Backpropagation): 시뮬레이션 결과 기반으로 노드 값 업데이트

 

3. Method

  • 두가지로 구성
    • Phase I: Model-Guided Reflection Trajectory Generation - MCTS사용해서 틀린 궤적을 수정된 궤적으로 변환
    • Phase II: Iterative Self-Training with Revision Trajectories - 에이전트는 수정 궤적에 대해 반복적으로 훈련

 

3.1 Phase I: Model-Guided Reflection Trajectory Generation

  • Reflection Trajectory Definition
    • Initial Trajectory: $τ^i = (a^i_1, o^i_1, ..., a^i_t, o^i_t)$
    • Bad Trajectory: $τ^b = (τ^i, a^b_{t+1}, o^b_{t+1}, ..., a^b_{T_b}, o^b_{T_b})$ - 오류가 있거나 낮은 보상 궤정
    • Good Trajectory: $τ^g = (τ^i, a^g_{t+1}, o^g_{t+1}, ..., a^g_{T_g}, o^g_{T_g})$ - 최적 또는 높은 보상이 있는 궤적
    • Revision Trajectory: $τ^r = (τ^i, a^b_{t+1}, o^b_{t+1}, ..., a^b_{t'}, o^b_{t'}, rs, a^g_{t+1}, o^g_{t+1}, ..., a^g_{T_g}, o^g_{T_g})$ - 중간에 rs가 들어감.
      • rs: 전환을 표시하는 special prompt - 에이전트가 과거 행동에 대해 반영할 수 있도록 하는 Assistant: [reflection on the error] \n Human: OK.와 같은 간단한 통신 프롬프트
    • 상호작용은 궤적이 종료된 후 최종 보상을 제공.
      • $r(τ^b) < β < r(τ^g) ≤ 1, α < r(τ^g) = r(τ^r)$
        • β: 나쁜 궤적과 좋은 궤적의 보상을 구분하는 임계값
        • α: 고품질 궤적의 하한선
          예) $r(τ^g) = 1 - 최적의 궤적을 의미함$
    • 사실, 논문에서는 보상에 대한 부분을 정확하게 서술하지 않음.
      - 추측이나, 데이터셋에 따라 다르게 설정할 수 있을 것 같음. 정확도와 같은것으로 하거나, LLM as judge를 사용할 수도 있음.
      - 부록 A
  • Trajectory Collection with MCTS
    • MCTS를 사용해 수정된 궤적을 수집. query u에 해당하는 초기 노드 $s_0$부터 선택,확장,시뮬레이션,역전파를 반복적 수행
    • Figure 2와 같이 미래 행동을 롤아웃으로 샘플링함.
    • Selection:
      • $UCT(s) = Q(s) + c_{uct} \sqrt(\frac{log N_p(s)}{N(s)})$
        • Q(s): 상태 s의 평균 보상
        • N(s): 상태 s를 방문한 횟수
        • $N_p(s)$: s의 부모 노드 총 방문횟수
        • $c_{uct}$: 탐색 활용 균형 제어하는 상수
      • 종료 조건에 도달하면 reward를 계산함. 다양한 궤적을 구하는데, 좋은 궤적 및 나쁜 궤적은 앞에 일정 부분의 궤적을 공유
    •  수정 궤적: rs에 대해 10가지 다른 수정 생각을 수동으로 작성 - 10개 다른 프롬프트를 준비 - 임의로 하나가 샘플링되어 전환지점에 추가됨.
  • Transition Point Determination with Actor Model
    • 논문에서는 길게 서술했으나, 그냥 간단하게 - LLM보고 어디 지점이 처음으로 실수를 하는지 식별하게 함.(Appendix A)
    • 잘못된 행동 $a_t$를 식별하면, 전환지점은 t로 설정되고 뒤에 생긴 나쁜 지점은 좋은 지점의 뒷부분을 insert함.

 

3.2 Phase II: Iterative Self-Training with Revision Trajectories

목표: MCTS를 통해 수집된 자체 생성 수정 궤적을 사용하여 언어 에이전트를 훈련

  • 수정 궤적으로만 훈련: 초기 올바른 궤적 식별하는 능력이 떨어짐, 콜드 스타트 문제가 있음.
  • 해결책: 단계적 난이도 조절
    • 초기 단계 - 궤적 혼합 전략
      • 훈련 중 수정 궤적 및 "좋은 궤적"(완전 최적은 아니지만 높은 보상을 받는 궤적)을 함께 사용
      • 낮은 초기 임계값: 초기에는 "좋은 궤적"으로 인정받기 위한 임계값(α)을 낮게 설정(논문에서 첫 훈련에 α = 0.5로 설정).
        -> 초기에 더 많은 다양한 성공 사례를 학습할 수 있음
    • 중간 단계 - 점진적 품질 향상
      • 임계값 점진적 증가: 훈련이 진행됨에 따라 α 값을 점진적으로 증가(2차 반복에서 α = 0.7, 3차 반복에서 α = 1.0).
        -> 임계값이 높아짐에 따라 "좋은 궤적"의 품질 기준이 높아져, 점차 최적 궤적에 가까워짐.
      • 반복적 개선: 각 반복마다 현재 모델을 사용해 새로운 수정 궤적을 생성, 이를 다시 훈련 데이터로 활용
    • 전체 과정 - 일반화 능력 강화
      • 범용 데이터셋 통합: 수집한 궤적 데이터셋(revision, good)과 일반 대화 데이터셋을 섞어서 훈련함(AgentTuning 전략)
      • 혼합 비율 η: 손실 함수에서 η는 에이전트 특화 데이터와 일반 데이터 간의 비율을 조절(논문에서 η = 0.2로 설정).
    • 반복 과정 - 훈련된 모델로 다시 궤적 데이터를 생성, α 조절 등을 함.
  •  Loss:
    • 윗줄에 있는 텀: 궤적 데이터 - SFT - 좋은 궤적은 다 학습하고, 수정 궤적은 수정 이후의 궤적만 학습함.
      -> 수정 궤적의 앞부분은 틀린 정보를 포함할 수 있기 때문에 학습하지 않는 것으로 보임.
    • 밑줄에 있는 텀: ShareGPT데이터 셋

 

 

4. Experiment

4.1 Interactive and Agentic Environments

4.2 Experiment Setting

더보기

데이터

- WebShop 300개, SciWorld 200개, TextCraft 200개 시뮬레이션으로 MCTS 수행

- 나쁜/좋은 궤적 구분 위한 임계값 β = 0.2 설정

- 반복적 훈련: 1차(α=0.5) → 2차(α=0.7) → 3차(α=1.0)로 점진적 향상

 

MCTS

- 8회 롤아웃 샘플링

- 깊이 20으로 설정

- 각 깊이에서 4개 후보 생성

- 탐색/활용 균형을 위한 UCT 계수 cuct = 0.25

 

모델:

- 주요 모델: Llama-3.1-8B-Instruction

- 비교 대상: GPT 계열, Claude 3, AgentLM, Agent-Flan, ETO 등

 

 

4.3 Main Result

4.4 Findings with analysis

더보기
  • 수정 궤적의 우수성
    • Agent-R의 수정 궤적이 최적 궤적만 사용하는 것보다 더 효과적
    • 반복적 자체 훈련으로 모델 능력 점진적 향상
    • 수정 궤적과 최적 궤적 혼합이 성능 크게 향상시킴
    • 최적 궤적에 단순히 좋은 궤적만 추가하면 오히려 성능 저하 (노이즈 발생)

 

  • 자체 반영 능력
    • Agent-R로 훈련된 모델은 실패 궤적 주어질 때 효과적으로 수정 가능
    • direct-revision 방법보다 높은 자체 수정 성능 보임
    • SFT나 DPO로 훈련된 모델들은 기본 성능은 높으나 자체 반영 능력 부족
    • GPT-4o는 테스트 세트에서는 성능이 낮으나 자체 반영 능력은 뛰어남

 

  • 오류 식별 능력
    • Agent-R 훈련 모델은 궤적 내 오류를 더 빠르게 인식
    • 평균 수정 길이가 짧아짐 = 오류를 더 빨리 발견함
    • 액터 모델의 향상된 반영 능력이 다른 모델 지원에도 활용 가능

 

  • 회피 능력
    • 최적 궤적만으로 훈련 시 반복적인 루프에 갇히는 문제 발생
    • Agent-R 궤적으로 훈련 시 데드 루프 발생 크게 감소
    • 수정 궤적 훈련 모델은 새로운 행동 탐색 능력과 루프 회피 능력 향상

 

 

(25.04)ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

  • 학습 Process
    • 코드 인터프리터를 효과적으로 활용하기 위한 고품질 cold-start 데이터셋을 구축하여 supervised fine-tuning 진행
    • PPO 알고리즘 기반 RL 과정에서 코드를 생성하면 실시간으로 실행하고 그 결과를 다시 모델에 피드백하는 interleaved code execution rollout 메커니즘 사용
    • 결과 기반 보상만 사용하고, 코드쪽 부분은 학습되지 않도록 마스킹
  • https://jihoonjung.tistory.com/193

 

 

(25.03)B-STAR: MONITORING AND BALANCINGEXPLORATION AND EXPLOITATION IN SELF-TAUGHTREASONERS

  • 모델 스스로의 힘으로 성장하기 위해선 exploration, exploitation의 balance가 중요함.
  • 이를 측정하기 위한 balance score를 제안. 매 n iteration마다 bs를 계산해서 configuration( temperature, reward model's threshold)를 재조정하여, 이 configuration으로 일정 iteration을 학습함
  • 학습 process: 
    • 데이터에서 몇백개의 데이터 추출
    • Policy모델로 여러 답변을 생성(32)
    • Balance Score계산
    • Temperature, threshold 선택
    • 모든 데이터에 대해서 해당 Configuration으로 답변 생성
    • RM로 좋은 품질의 데이터셋 선별
    • Policy Model SFT로 학습
  • https://jihoonjung.tistory.com/187

 

 

 

+ Recent posts