(25.04)ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

  • 학습 Process
    • 코드 인터프리터를 효과적으로 활용하기 위한 고품질 cold-start 데이터셋을 구축하여 supervised fine-tuning 진행
    • PPO 알고리즘 기반 RL 과정에서 코드를 생성하면 실시간으로 실행하고 그 결과를 다시 모델에 피드백하는 interleaved code execution rollout 메커니즘 사용
    • 결과 기반 보상만 사용하고, 코드쪽 부분은 학습되지 않도록 마스킹
  • https://jihoonjung.tistory.com/193

 

 

(25.03)B-STAR: MONITORING AND BALANCINGEXPLORATION AND EXPLOITATION IN SELF-TAUGHTREASONERS

  • 모델 스스로의 힘으로 성장하기 위해선 exploration, exploitation의 balance가 중요함.
  • 이를 측정하기 위한 balance score를 제안. 매 n iteration마다 bs를 계산해서 configuration( temperature, reward model's threshold)를 재조정하여, 이 configuration으로 일정 iteration을 학습함
  • 학습 process: 
    • 데이터에서 몇백개의 데이터 추출
    • Policy모델로 여러 답변을 생성(32)
    • Balance Score계산
    • Temperature, threshold 선택
    • 모든 데이터에 대해서 해당 Configuration으로 답변 생성
    • RM로 좋은 품질의 데이터셋 선별
    • Policy Model SFT로 학습
  • https://jihoonjung.tistory.com/187

 

 

 

+ Recent posts