(25.01) Agent-R: Training Language Model Agents toReflect via Iterative Self-Training

  • Monte Carlo Tree Search(MCTS)를 활용하여 다양한 궤적(좋은 궤적/나쁜 궤적)을 탐색하고 수집
  • 액터 모델이 나쁜 궤적 내 첫 번째 오류를 식별한 후, 해당 지점에서 좋은 궤적과 연결하는 모델 가이드 수정 궤적(revision trajectory)을 구성
  • 이렇게 구성된 수정 궤적을 사용하여 모델을 반복적으로 훈련시킴으로써, 에이전트가 오류를 실시간으로 감지하고 자체 반영하는 능력을 향상시킴
더보기
  • Loss:
    • 윗줄에 있는 텀: 궤적 데이터 - SFT - 좋은 궤적은 다 학습하고, 수정 궤적은 수정 이후의 궤적만 학습함.
      -> 수정 궤적의 앞부분은 틀린 정보를 포함할 수 있기 때문에 학습하지 않는 것으로 보임.
    • 밑줄에 있는 텀: ShareGPT데이터 셋

 

 

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts