[ShortCut] Reasoning Models :: notdecidedyet

[ShortCut] Reasoning Models

notdecidedyet 2025. 4. 18. 23:14

2025. 4. 18. 23:14

(25.04) TTRL: Test-Time Reinforcement Learning

Process: 테스트 중(infer) 웨이트를 업데이트하여 OOD에 강건하게 움직임.
- 레이블이 없는 테스트 데이터에서 모델이 다양한 답변을 생성한 후 majority voting으로 pseudo-label을 생성함
- 생성된 pseudo-label을 기준으로 다른 출력들에 대한 보상 신호를 계산 (일치하면 1, 불일치하면 0)
- 이 보상 신호를 통해 RL 알고리즘(GRPO)으로 모델을 테스트 타임에 미세조정하여 자체 진화 유도
https://jihoonjung.tistory.com/196

(25.04)ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

학습 Process
- 코드 인터프리터를 효과적으로 활용하기 위한 고품질 cold-start 데이터셋을 구축하여 supervised fine-tuning 진행
- PPO 알고리즘 기반 RL 과정에서 코드를 생성하면 실시간으로 실행하고 그 결과를 다시 모델에 피드백하는 interleaved code execution rollout 메커니즘 사용
- 결과 기반 보상만 사용하고, 코드쪽 부분은 학습되지 않도록 마스킹
https://jihoonjung.tistory.com/193

(25.03)B-STAR: MONITORING AND BALANCINGEXPLORATION AND EXPLOITATION IN SELF-TAUGHTREASONERS

모델 스스로의 힘으로 성장하기 위해선 exploration, exploitation의 balance가 중요함.
이를 측정하기 위한 balance score를 제안. 매 n iteration마다 bs를 계산해서 configuration( temperature, reward model's threshold)를 재조정하여, 이 configuration으로 일정 iteration을 학습함
학습 process:
- 데이터에서 몇백개의 데이터 추출
- Policy모델로 여러 답변을 생성(32)
- Balance Score계산
- Temperature, threshold 선택
- 모든 데이터에 대해서 해당 Configuration으로 답변 생성
- RM로 좋은 품질의 데이터셋 선별
- Policy Model SFT로 학습
https://jihoonjung.tistory.com/187

'DeepLearing > NLP(Reasoning)' 카테고리의 다른 글

[논문리뷰](25.04)TTRL: Test-Time Reinforcement Learning (0)	2025.05.05
[논문리뷰](25.04)(미완)Does Reinforcement Learning Really Incentivize ReasoningCapacity in LLMs Beyond the Base Model? (0)	2025.04.25
[논문리뷰](25.04)ReTool: Reinforcement Learning for Strategic Tool Use in LLMs (0)	2025.04.23
[논문리뷰](25.03)B-STAR: MONITORING AND BALANCINGEXPLORATION AND EXPLOITATION IN SELF-TAUGHTREASONERS (0)	2025.04.18
[논문리뷰](25.03)R1-VL: Learning to Reason with Multimodal Large Language Models viaStep-wise Group Relative Policy Optimization (0)	2025.04.10
[논문리뷰] (25.03)L1: Controlling How Long A Reasoning Model ThinksWith Reinforcement Learning (0)	2025.04.06
[논문리뷰](25.03)KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS (0)	2025.03.29
[논문리뷰](25.03)Light-R1: Curriculum SFT, DPO and RL for LongCOT from Scratch and Beyond (0)	2025.03.29

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바