3.4 정확한 trajectory만 있다면 reasoning 모델을 만들 수 있음.

-> 결과의 정확성보다 인지적 행동의 존재가 더 중요하다는 것을 시사

 

github : https://github.com/kanishkg/cognitive-behaviors

 

데이터 생성하는 방법도 참고해 볼 수 있음.

 

Abstract

  • Test Time Compute으로 성능 향상을 이루었음(인지적 행동을 보임). 인지적 행동은 네가지로 나뉨.
    • 검증(verification)
    • 백트래킹(backtracking)
    • 하위 목표 설정(subgoal setting)
    • 역방향 연쇄(backward chaining)
  • TTC는 강화학습으로 달성하나, 일부 모델은 잘 작동안함.
    • Qwen은 추론 행동을 보이는 반면, Llama는 그렇지 아니함.
  • 허나 적절한 추론 패턴을 포함한 데이터셋을 기폭재로 제공하면 Llama도 Qwen에 버금가게 개선이 가능하다는 것을 발견함.

 

1. Introduction

  • 인간은 어려운 문제를 해결할 때 심사숙고함 -> RL로 훈련한 언어 모델도 유사한 추론 행동을 보임.
  • 연구 목적: 언어 모델이 자기 개선을 하는 이유 및 핵심 인지적 행동에 초점을 맞추는 것을 목적으로 함.
  • 연구 내용 : 
    • Qwen2.5-3B, Llama-3.2-3B Countdown에서 강화학습으로 훈련해 비교 분석함.
      Qwen상당히 좋아짐 반면 Llama는 제한적인 성과를 보임.
    • 문제 해결에 유용한 인지적 행동을 분석하는 프레임워크 개발
      • 검증, 백트래킹, 하위 목표 설정, 역방향 연쇄(backward chaining)
  • 실험 결과 : 
    • Llama 모델에 백트래킹을 포함한 합성 추론 궤적유도하여 강화학습 훈련 시 성능 개선 확인.
    • 잘못된 해결책(틀린 답)으로 유도된 경우에도 적절한 추론 패턴을 보이면서 성능 개선이 지속됨을 확인.
    • OpenWebMath에서 추론 행동을 강조하는 데이터를 선별하여 Llama 모델의 성능 개선 유도.

Figure 1. Llama는 훈련이 진행되도 Reasoning pattern을 보이지 않음.

 

2. Related Work

 

추론을 강화하기 위한 방법으로 아래와 같은 연구들이 있었음.

  1. 외부 검색
    • 추론 궤적 search, 병렬 샘플링, PRMS
      -> 일반적으로 중복 탐색으로 효율성이 나쁨.
  2. In-Context Search and Self-Improvement
    • ICL, finetuning on linearized search trace, training on self-correction examples
      -> 자기 수정과 백트래킹처럼 원하는 행동을 취하기 위해 훈련 데이터를 잘 엔지니어링이 해야하는 경우가 많음.
  3. 강화학습
    • On-policy, off-policy -> 추론 궤적에서 신용 할당(credit assignment)에 대한 접근 방식에 차이가 있음.
    • R1에서 GRPO만으로도 추론 능력을 보임.
      -> 그러나 왜 일부 모델은 RL을 통해 성공적으로 학습하는 반면 다른 모델은 개선에 실패하는지 답을 한 연구는 없음.

 

3. Method

3.1 Initial Investigation: A tale of two models

  • 실험 설정 : 
    • 데이터: Countdown 게임을 테스트베드로 사용 (수학 퍼즐: 주어진 숫자와 연산으로 목표 숫자 만들기).
    • 모델 : Qwen-2.5-3B, Llama-3.2-3B
    • Object : PPO -> 더 안정적이라 선택 (GROP, REINFORCE로 해도 비슷한 결과)
      • PPO 알고리즘으로 250단계 훈련 (프롬프트당 4개의 trajectory 샘플링).
    • 구현 : VERL 라이브러리 및 TinyZero 구현을 활용하여 강화 학습 실험 수행.
  • 결과: 
    • Qwen은 30단계 이후 급격한 성능 향상보임, 반면 Llama는 성능향상 미비(Figure1)
    • Qwen은 훈련 후반에 명시적 검증에서 암묵적 해결책 확인으로 전환하는 행동 변화를 보임
      명시적 검증 예) 8*35는 280이고 너무 높습니다.
      암묵적 해결 예) 단어를 사용하지 않고 올바른 답을 찾을 때까지 순차적으로 다른 해결책을 시도함
  • Question : 
    • 성공적인 추론 기반 개선을 가능하게 하는 기본적인 능력은 무엇인가?
    • 인지적 행동을 분석하기 위한 체계적인 프레임워크가 필요하다.

 

3.2 A Framework for Analyzing Cognitive Behaviors

  • 먼저 인지적 행동을 정의함 : 정의함으로서 모델 출력에서 인지적 행동을 식별할 수 있음.
    • 4가지
      • 백트랙킹 : 오류 감지 시 풀이 과정을 명시적으로 수정함
      • 검증 : 중간 결과 확인
      • 하위 목표 설정 : 복잡한 문제를 여러 단계로 분할
      • 역방향 chain: 결과에서 입력으로 역으로 추적함 (75에 도달하기 위해, 나눌 수 있는 숫자 필요)
    • GPT-4o-mini를 사용해 모델 출력에서 이러한 패턴을 식별하는 파이프라인 개발

3.3 The Role of Initial Behaviors in Self-Improvement

  • Qwen의 성능 향상은 검증 및 백트래킹을 중심으로 발현됨. (그림1의 중간 밑 부분)
  • 반면 Llama는 없었음.
  • 훈련 전 모델로 비교
    • Qwen-2.5-3B: 네 가지 행동 모두 비율이 Llama 변형보다 높음 (그림 4).
    • Llama-3.1-70B: Llama-3.2-3B보다 행동 활성화 증가, 하지만 불균등 (특히 백트래킹은 제한적).

 

3.4 Intervening on initial behaviors

인지적인 행동이 중요한 것은 알았음. 근데 그러면 인지적 행동이 발생하지 않는 모델을 어떻게 하면 행동이 발생할 수 있게 하나?

  • 데이터셋 준비 : Cluade-3.5-Sonnet으로 CountDown문제 추론 과정 생성
    • 모든 전략 결합(검증, 백트래킹, 하위 목표 설정, 역방향 연쇄 모두 포함)
    • 백트래킹만 포함
    • 백트래킹 + 검증 포함
    • 백트래킹 + 하위 목표 설정 포함
    • 백트래킹 + 역방향 연쇄 포함
    • 빈 chain of thought(아무 인지적 행동 없음)
    • 길이가 일치하는 의미 없는 토큰으로 채워진 chain-of-thought
  • 추가 실험
    • 인지적 행동 패턴을 보이는 데이터를 만들지만, 정답이 틀린 데이터셋도 생성
      -> 행동 패턴과, 정확성 중 어느 것이 더 중요한것인지 확인하기 위해서
  • 실험 과정
    • 파인튜닝 : 각 데이터셋으로 각 모델을 파인튜닝(SFT - Appendix B.Priming)
    • 강화학습 : 파인튜닝 모델들을 PPO 알고리즘을 적용해, CountDown문제 해결 능력 향상시킴.
  •  결과 : 
    • Priming with different behaviors: Llama, Qwen파인튜닝후 RL하면 상당한 개선을 보임(Figure 2). 프라이밍을 하게 되면 유용한 행동을 증폭하고, 다른 행동을 억제하는 것을 보임(Figure 3).
      -> 모든 전략 결합한 데이터에서는 백트래킹과 검증은 유지하고 강화하는 반면 역방향 연쇄와 하위 목표 설정은 훈련이 진행될 수록 감소. 억제된 행동(역방향 연쇄와 하위 목표 설정)은 백트래킹과만 짝을 이루었을 때 훈련 전반에 걸쳐 지속

 

  • Testing Behavioral Necessity: empty CoT로 SFT후 훈련 후 결과는 그림5와 같은데, 모델 성능은 Llma기준 30~35%임.
    -> 인지적 행동 없이 추가 토큰을 할당하는 것만으로는 테스트 시간 계산을 효과적으로 사용할 수 없다는 것을 보여줌

  • Behaviors versus Correctness: 올바른 행동이지만 정답이 틀린 모델로 훈련된 모델과, 정확한 해결책이 있는 데이터셋으로 훈련된 모델과 동일한 성능을 달성함(그림 6).
    -> 인지적 행동의 존재가 강화 학습을 통한 성공적인 자기 개선을 가능하게 하는 중요한 요소라는 것을 시사함.
    (손상된 추론 궤적에서 학습하는 것을 보여주는 이전 연구(Li et al., 2025)를 확장)
    -> 결과의 정확성보다 인지적 행동의 존재가 더 중요하다는 것을 시사

 

 

+ Recent posts