[Agent] ShortCut :: notdecidedyet

[Agent] ShortCut

notdecidedyet 2025. 4. 19. 14:21

2025. 4. 19. 14:21

(25.01) Agent-R: Training Language Model Agents toReflect via Iterative Self-Training

Monte Carlo Tree Search(MCTS)를 활용하여 다양한 궤적(좋은 궤적/나쁜 궤적)을 탐색하고 수집
액터 모델이 나쁜 궤적 내 첫 번째 오류를 식별한 후, 해당 지점에서 좋은 궤적과 연결하는 모델 가이드 수정 궤적(revision trajectory)을 구성
이렇게 구성된 수정 궤적을 사용하여 모델을 반복적으로 훈련시킴으로써, 에이전트가 오류를 실시간으로 감지하고 자체 반영하는 능력을 향상시킴

Loss:
- 윗줄에 있는 텀: 궤적 데이터 - SFT - 좋은 궤적은 다 학습하고, 수정 궤적은 수정 이후의 궤적만 학습함.
  -> 수정 궤적의 앞부분은 틀린 정보를 포함할 수 있기 때문에 학습하지 않는 것으로 보임.
- 밑줄에 있는 텀: ShareGPT데이터 셋

'DeepLearing > NLP(Agent)' 카테고리의 다른 글

[논문리뷰](25.01) Agent-R: Training Language Model Agents toReflect via Iterative Self-Training (1)	2025.04.19
[논문리뷰](25.01)Search-o1: Agentic Search-EnhancedLarge Reasoning Models (0)	2025.03.21
[논문리뷰](25.03)ReasonFlux Hierarchical LLM Reasoning via Scaling Thought Templates (0)	2025.03.17
[논문리뷰]MemGPT: Towards LLMs as Operating Systems (2)	2024.11.05
[블로그 리뷰] What's LLM Agent (6)	2024.11.04

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바