(25.04) TTRL: Test-Time Reinforcement Learning
- Process: 테스트 중(infer) 웨이트를 업데이트하여 OOD에 강건하게 움직임.
- 레이블이 없는 테스트 데이터에서 모델이 다양한 답변을 생성한 후 majority voting으로 pseudo-label을 생성함
- 생성된 pseudo-label을 기준으로 다른 출력들에 대한 보상 신호를 계산 (일치하면 1, 불일치하면 0)
- 이 보상 신호를 통해 RL 알고리즘(GRPO)으로 모델을 테스트 타임에 미세조정하여 자체 진화 유도
- https://jihoonjung.tistory.com/196
(25.04)ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
- 학습 Process
- 코드 인터프리터를 효과적으로 활용하기 위한 고품질 cold-start 데이터셋을 구축하여 supervised fine-tuning 진행
- PPO 알고리즘 기반 RL 과정에서 코드를 생성하면 실시간으로 실행하고 그 결과를 다시 모델에 피드백하는 interleaved code execution rollout 메커니즘 사용
- 결과 기반 보상만 사용하고, 코드쪽 부분은 학습되지 않도록 마스킹
- https://jihoonjung.tistory.com/193
(25.03)B-STAR: MONITORING AND BALANCINGEXPLORATION AND EXPLOITATION IN SELF-TAUGHTREASONERS
- 모델 스스로의 힘으로 성장하기 위해선 exploration, exploitation의 balance가 중요함.
- 이를 측정하기 위한 balance score를 제안. 매 n iteration마다 bs를 계산해서 configuration( temperature, reward model's threshold)를 재조정하여, 이 configuration으로 일정 iteration을 학습함
- 학습 process:
- 데이터에서 몇백개의 데이터 추출
- Policy모델로 여러 답변을 생성(32)
- Balance Score계산
- Temperature, threshold 선택
- 모든 데이터에 대해서 해당 Configuration으로 답변 생성
- RM로 좋은 품질의 데이터셋 선별
- Policy Model SFT로 학습
- https://jihoonjung.tistory.com/187