(25.01) Agent-R: Training Language Model Agents toReflect via Iterative Self-Training
- Monte Carlo Tree Search(MCTS)를 활용하여 다양한 궤적(좋은 궤적/나쁜 궤적)을 탐색하고 수집
- 액터 모델이 나쁜 궤적 내 첫 번째 오류를 식별한 후, 해당 지점에서 좋은 궤적과 연결하는 모델 가이드 수정 궤적(revision trajectory)을 구성
- 이렇게 구성된 수정 궤적을 사용하여 모델을 반복적으로 훈련시킴으로써, 에이전트가 오류를 실시간으로 감지하고 자체 반영하는 능력을 향상시킴
더보기
- Loss:
- 윗줄에 있는 텀: 궤적 데이터 - SFT - 좋은 궤적은 다 학습하고, 수정 궤적은 수정 이후의 궤적만 학습함.
-> 수정 궤적의 앞부분은 틀린 정보를 포함할 수 있기 때문에 학습하지 않는 것으로 보임. - 밑줄에 있는 텀: ShareGPT데이터 셋
- 윗줄에 있는 텀: 궤적 데이터 - SFT - 좋은 궤적은 다 학습하고, 수정 궤적은 수정 이후의 궤적만 학습함.
'DeepLearing > NLP(Agent)' 카테고리의 다른 글
[논문리뷰](25.01) Agent-R: Training Language Model Agents toReflect via Iterative Self-Training (1) | 2025.04.19 |
---|---|
[논문리뷰](25.01)Search-o1: Agentic Search-EnhancedLarge Reasoning Models (0) | 2025.03.21 |
[논문리뷰](25.03)ReasonFlux Hierarchical LLM Reasoning via Scaling Thought Templates (0) | 2025.03.17 |
[논문리뷰]MemGPT: Towards LLMs as Operating Systems (2) | 2024.11.05 |
[블로그 리뷰] What's LLM Agent (6) | 2024.11.04 |