카테고리 없음

[논문리뷰](25.03)SOLAR: Scalable Optimization of Large-scaleArchitecture for Reasoning

notdecidedyet 2025. 3. 17. 14:28

총평 : CoT,ToT,GoT에 대한 토폴로지에 대해 논하고 있으면서 어떤식으로 Prompt를 작성했는지 논문에 나와있지 않음.
따라서 소스코드가 공개되는게 아닌이상... 읽어보는 것은 비추한다.

 

1. Introduction - Contribution: TAG개발: 합성 추론 데이터셋의 생성 및 주석 처리를 자동화하는 방벙

-> 근데 어떤식으로 했는지 구체적으로 작성되지 않음.

 

3.2.2 난이도를 데이터별 나누는 방법:

-> L에 적용해보면 어떠할까?

 

3.3 훈련방법 : Qwen7B를 LoRA를 통한 미세조정, NextTokenPrediction수행

Abstract

  • 문제점: LLM은 뛰어나나, CoT제약이 있어 위상학적 추론이 필요한 작업에서 어려움을 겪음.
  • 해결책: 트리 및 그래프를 포함한 추론 토폴로지를 최적화하는 프레임워크 제시
    • Topological-Annotation-Generation (TAG): 위상학적 데이터셋 생성 및 세분화를 자동화하여 사후 훈련 및 평가 개선.
    • Topological-Scaling: 훈련과 추론을 정렬하는 보상 기반 프레임워크로, LLM에 작업 인식 추론 능력 부여

 

1. Introduction

1.1 Observations on LLMs Reasoning Patterns

  • LLM은 주로 CoT 추론을 기본으로 사용하며, 명시적인 프롬프팅 없이는 tree-of-thought(ToT)나 graph-of-thought(GoT)와 같은 더 정교한 추론 토폴로지를 거의 생성하지 않음.
  • 두 그룹 매칭 문제, 외판원 문제(TSP), 다단계 로봇 조작과 같은 특정 복잡한 문제들은 기본적인 CoT 추론으로 어려움을 겪음

1.2 Our Approach

 

 

  • 가설: 문제의 종류에 따라 가장 효과적인 추론 방식다를 수 있다고 가정.
    -> 어떤 문제는 순서대로 논리를 따라가는 것이 좋고, 어떤 문제는 여러 아이디어를 떠올리고 연결하는 것이 더 정확한 답을 찾는 데 도움이 될 수 있다.
    -> 이 가설을 검증하고 LLM의 추론 성능을 향상시키기 위해 다단계 파이프라인을 개발했습니다.
  • EDA : MATH, GSM8K에서 CoT, ToT, GoT수행
    • 문제별로 선호하는 위상이 다르며, 각 방법론은 각자의 고유 장점이 있었음.
    • ToT와 GoT의 전반적인 정확도는 CoT와 비슷하게 유지된다.
      • 덜 자주 생성되는 토폴로지가 성능 면에서 일부 데이터에서는 더 좋을 수 있음.
      • 모델들이 이러한 복잡한 토폴로지를 효과적으로 활용할 수 있는 능력이 이미 내재되어 있으나, 단지 현재 훈련 방식과 사용 패턴이 이를 충분히 활용하지 못하고 있다는 의미
  • Synthetic Topological Data Infrastructure:
    • 다양한 위상학적 구조를 가진 추론 데이터셋을 생성, 주석을 달기 위한 자동화된 시스템을 개발
      • 시스템이 자동으로 다양한 추론 방법을 문제를 풀고, 각 방법의 성공률에 기반하여 문제의 난이도를 객관적으로 분류함. 이를 통해 어려움, 중간, 쉬움과 같은 카테고리로 분류한다
  • Topological-Scaling Framework
    • 경쟁적 선택 과정: 여러 추론(CoT, ToT, GoT) 방법을 적용하고, 그 중 가장 좋은 결과를 내는 방법을 선택
    • 계층적 파이프라인:
      • 사후 훈련: 모델이 다양한 추론 방법을 학습
      • 추론 시간 보상 및 최적화: 실제 문제 해결 과정에서 가장 효과적인 방법을 선택하는 단계
    • Topological Tuning:
      • 방법: 기존 언어모델을 파인튜닝해 다양한 추론 방법을 생성하는 방법을 훈련
      • 훈련-스케일린 접근: 모델 훈련 과정에서 적용되는 방법으로, 모델이 실제 문제를 풀기 전에, 다양한 추론 방식을 내재화 함.
    • Topological Rewarding:
      • 여러 응답중 좋은 응답을 선택하기 위한 보상 메커니즘 도입함.
      • 훈련된 RewardModel(M-TRM)을 바탕으로 최적의 추론을 선택함.
  • Contribution
    • 위상학적 추론에 대한 실험
    • TAG개발: 합성 추론 데이터셋의 생성 및 주석 처리를 자동화하는 방벙
    • 계층적 Topological-Scaling프레임워크

 

2. Related Work

더보기
  • 2.1 Reward Models in LLMs Reasoning
    • Outcome Reward Model(ORM): 최종 결과에만 집중.
    • Process Reward Model(PRM): 추론 과정의 중간 단계 평가.
    • 최근 동향: PRM은 추론 모델에서 주목을 받았음.
  • 2.2 Scaling Laws in Large Language Models
  • 2.3 Advances in Topological Reasoning: 위상학 추론은 문제를 해결할 때 사고 구조를 의미함.
    • CoT, ToT, GoT등이 있음
    • 단점: 문제 해결에 사용할 추론 토폴로지를 휴리스틱하게 미리 정의함. 각 문제별 최적의 추론 구조가 다를 수 있다는 점을 간과함. 동적으로 최적의 토폴로지를 학습하고 적용하는 매커니즘 부족함.
  • 2.4 Curriculum Learning for Structured Reasoning: 커리큘럼 학습-모델에게 점진적으로 복잡해지는 데이터를 훈련함.
    • 난이도 기반 구성, 점진적 노출, 강화 메커니즘 등

3. Methodology

3.1 Hypothesis Validation and Evaluation Methods

3.1.1 Observations and Hypothesis

  • LLM의 추론 패턴을 분석하는 것으로 시작함. 
    • 분석 결과: CoT추론을 주로 생성하고, ToT, GoT구조는 채택하지 않음.
  • 분석에 기초해, 두가지 가설을 제안함.
    • 가설1: 문제별 최상의 해결책을 생성하는 추론 토폴로지가 필요함
    • 가설2: 최적의 토폴로지로, 문제를 해결하면 성능이 크게 좋아질 것임.

3.1.2 Validating Hypothesis 1: Topological Annotation and Evaluation

  • 가설1을 검증하기 위해 TAG를 개발함(3.2.1에서 설명)
    -> 자동화된 데이터 생성 및 주석 시스템 설계
  • TAG는 다음을 합성 데이터를 구축
    1. 문제-답 Pair
    2. CoT, ToT, GoT를 포함한 여러 추론 토폴로지
    3. 자동으로 주석이 달린 계층적 라벨링 시스템
      Topo Label: 질문에 대한 정확한 답변을 생설할 확률 0~1사이
      Hard Label: 생성된 답변이 정확한지 여부를 나타내는 이진값 0,1
  • 토폴로지 평가:
    • 정확도: 각 토폴로지를 사용해 생성된 정확한 답변의 비율
    • Win Rate: 모든 질문에서 각 토폴로지가 최고 성능일 확률

3.1.3 Validating Hypothesis 2: Performance Boost With Topological Scaling

  • Topological scaling이라는 계층적, 적응형 보상 프레임워크 설계
  • 두가지 접근법 사용
    • 훈련 스케일링 : 모델 직접 최적화
    • 추론 스케일링 : 추론 과정을 최적화
  • 실험4에서 상당한 성능 향상 보여주며, 가설2를 뒷바침함.

 

3.2 Synthetic Topological Data Infrastructure

3.2.1 Topological-Annotation-Generation System (TAG)

  • 데이터: GSM8K, MATH -> 훈련, 테스트로 분할
  • 데이터 생성: 
    • 생성 모델: Qwen-VL-7B-Instruct
    • 생성 토폴로지 유형 : CoT, ToT, GoT
    • 토폴로지 생성 자유도: 최대 깊이 다양화, 자식 노드 수 다양화, 이웃 노드 수 다양화
    • 자동 라벨링:
      • Topo Label: 특정 토폴로지가 주어진 문제를 얼마나 효과적으로 해결하는지 0~1사이 나타내는 값. 식(2)
        -> 질문별로, 어떤 토폴로지가 문제를 잘 해결하는지 알 수 있음.
        - q:질문, T:토폴로지유형, Ncorrect:토폴로지T를 사용해 질문 q에 대해 생성된 정확한 응답 수, Ntotal:토폴로지T를 사용해 q에 대해 생성된 응답 수
      • Hard Label: 응답 수준 라벨, 0 혹은 1 값 식(3)
    • 생성 방법: 
      • 각 데이터마다 세가지 토폴로지를 사용해 여러 응답 생성
      • 생성된 응답에 Hard Label할당(정확도)
      • 각 문제-토폴로지 쌍에 대한 정확도 계산
      • 각 문제에 Topo Label할당
    • 위로 구축된 데이터로 훈련 및 평가에 활용

3.2.2 Problems Difficulty Segmentation

더보기
  • 문제의 난이도를 쉬움, 중간, 어려움으로 나눔
    • 예를들어 어떤 문제에 대해서 CoT, ToT, GoT모두 30%미만의 topo label을 기록하면, 그 문제는 어려운 문제로 분류된다.
  • 객관적인 난이도를 분류하여 추후 연구에 사용함(?)

 

3.3 Topological Scaling for Enhanced Reasoning

  • Topological Tuning :
    • 다양하게 샘플링: 난이도별 문제들을 균등하게 샘플링
    • 정확한 답변 필터링: 하드 라벨이 있는 정확한 답만 선택
    • Rejection Sampling: 토폴로지 보상 모델을 사용해 품질이 낮은 샘플 제거
    • 훈련방법: Qwen7B를 LoRA를 통한 미세조정, NextTokenPrediction수행
  • Topological Rewarding : 
    • 목적: 추론시 서로 다른 토폴로지로 생성된 응답 중 최상의 것을 선택하는 방법
    • 훈련된 M-TRM(토폴로지 보상모델)사용하여 최적의 답 식별
      -> 논문에서 어떻게 훈련했는지 나오지는 않았지만, LLM에 분류 헤들르 추가하고, 어떤 토폴로지가 적절한지 예측하는 모델을 훈련하지 않았을까 싶음.  --------- 토폴로지 적절성은 Topo label로 하지 않았나?
  • Hybrid Scaling
    • Topology Tuning, Rewarding둘다 사용