(25.04)ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
- 학습 Process
- 코드 인터프리터를 효과적으로 활용하기 위한 고품질 cold-start 데이터셋을 구축하여 supervised fine-tuning 진행
- PPO 알고리즘 기반 RL 과정에서 코드를 생성하면 실시간으로 실행하고 그 결과를 다시 모델에 피드백하는 interleaved code execution rollout 메커니즘 사용
- 결과 기반 보상만 사용하고, 코드쪽 부분은 학습되지 않도록 마스킹
- https://jihoonjung.tistory.com/193
(25.03)B-STAR: MONITORING AND BALANCINGEXPLORATION AND EXPLOITATION IN SELF-TAUGHTREASONERS
- 모델 스스로의 힘으로 성장하기 위해선 exploration, exploitation의 balance가 중요함.
- 이를 측정하기 위한 balance score를 제안. 매 n iteration마다 bs를 계산해서 configuration( temperature, reward model's threshold)를 재조정하여, 이 configuration으로 일정 iteration을 학습함
- 학습 process:
- 데이터에서 몇백개의 데이터 추출
- Policy모델로 여러 답변을 생성(32)
- Balance Score계산
- Temperature, threshold 선택
- 모든 데이터에 대해서 해당 Configuration으로 답변 생성
- RM로 좋은 품질의 데이터셋 선별
- Policy Model SFT로 학습
- https://jihoonjung.tistory.com/187