[논문리뷰](25.03)SOLAR: Scalable Optimization of Large-scaleArchitecture for Reasoning

카테고리 없음

[논문리뷰](25.03)SOLAR: Scalable Optimization of Large-scaleArchitecture for Reasoning

notdecidedyet 2025. 3. 17. 14:28

총평 : CoT,ToT,GoT에 대한 토폴로지에 대해 논하고 있으면서 어떤식으로 Prompt를 작성했는지 논문에 나와있지 않음.
따라서 소스코드가 공개되는게 아닌이상... 읽어보는 것은 비추한다.

1. Introduction - Contribution: TAG개발: 합성 추론 데이터셋의 생성 및 주석 처리를 자동화하는 방벙

-> 근데 어떤식으로 했는지 구체적으로 작성되지 않음.

3.2.2 난이도를 데이터별 나누는 방법:

-> L에 적용해보면 어떠할까?

3.3 훈련방법 : Qwen7B를 LoRA를 통한 미세조정, NextTokenPrediction수행

Abstract

문제점: LLM은 뛰어나나, CoT제약이 있어 위상학적 추론이 필요한 작업에서 어려움을 겪음.
해결책: 트리 및 그래프를 포함한 추론 토폴로지를 최적화하는 프레임워크 제시
- Topological-Annotation-Generation (TAG): 위상학적 데이터셋 생성 및 세분화를 자동화하여 사후 훈련 및 평가 개선.
- Topological-Scaling: 훈련과 추론을 정렬하는 보상 기반 프레임워크로, LLM에 작업 인식 추론 능력 부여

1. Introduction

1.1 Observations on LLMs Reasoning Patterns

LLM은 주로 CoT 추론을 기본으로 사용하며, 명시적인 프롬프팅 없이는 tree-of-thought(ToT)나 graph-of-thought(GoT)와 같은 더 정교한 추론 토폴로지를 거의 생성하지 않음.
두 그룹 매칭 문제, 외판원 문제(TSP), 다단계 로봇 조작과 같은 특정 복잡한 문제들은 기본적인 CoT 추론으로 어려움을 겪음

1.2 Our Approach

가설: 문제의 종류에 따라 가장 효과적인 추론 방식이 다를 수 있다고 가정.
-> 어떤 문제는 순서대로 논리를 따라가는 것이 좋고, 어떤 문제는 여러 아이디어를 떠올리고 연결하는 것이 더 정확한 답을 찾는 데 도움이 될 수 있다.
-> 이 가설을 검증하고 LLM의 추론 성능을 향상시키기 위해 다단계 파이프라인을 개발했습니다.
EDA : MATH, GSM8K에서 CoT, ToT, GoT수행
- 문제별로 선호하는 위상이 다르며, 각 방법론은 각자의 고유 장점이 있었음.
- ToT와 GoT의 전반적인 정확도는 CoT와 비슷하게 유지된다.
  - 덜 자주 생성되는 토폴로지가 성능 면에서 일부 데이터에서는 더 좋을 수 있음.
  - 모델들이 이러한 복잡한 토폴로지를 효과적으로 활용할 수 있는 능력이 이미 내재되어 있으나, 단지 현재 훈련 방식과 사용 패턴이 이를 충분히 활용하지 못하고 있다는 의미
Synthetic Topological Data Infrastructure:
- 다양한 위상학적 구조를 가진 추론 데이터셋을 생성, 주석을 달기 위한 자동화된 시스템을 개발
  - 시스템이 자동으로 다양한 추론 방법을 문제를 풀고, 각 방법의 성공률에 기반하여 문제의 난이도를 객관적으로 분류함. 이를 통해 어려움, 중간, 쉬움과 같은 카테고리로 분류한다
Topological-Scaling Framework
- 경쟁적 선택 과정: 여러 추론(CoT, ToT, GoT) 방법을 적용하고, 그 중 가장 좋은 결과를 내는 방법을 선택
- 계층적 파이프라인:
  - 사후 훈련: 모델이 다양한 추론 방법을 학습
  - 추론 시간 보상 및 최적화: 실제 문제 해결 과정에서 가장 효과적인 방법을 선택하는 단계
- Topological Tuning:
  - 방법: 기존 언어모델을 파인튜닝해 다양한 추론 방법을 생성하는 방법을 훈련
  - 훈련-스케일린 접근: 모델 훈련 과정에서 적용되는 방법으로, 모델이 실제 문제를 풀기 전에, 다양한 추론 방식을 내재화 함.
- Topological Rewarding:
  - 여러 응답중 좋은 응답을 선택하기 위한 보상 메커니즘 도입함.
  - 훈련된 RewardModel(M-TRM)을 바탕으로 최적의 추론을 선택함.
Contribution
- 위상학적 추론에 대한 실험
- TAG개발: 합성 추론 데이터셋의 생성 및 주석 처리를 자동화하는 방벙
- 계층적 Topological-Scaling프레임워크

2. Related Work

2.1 Reward Models in LLMs Reasoning
- Outcome Reward Model(ORM): 최종 결과에만 집중.
- Process Reward Model(PRM): 추론 과정의 중간 단계 평가.
- 최근 동향: PRM은 추론 모델에서 주목을 받았음.
2.2 Scaling Laws in Large Language Models
2.3 Advances in Topological Reasoning: 위상학 추론은 문제를 해결할 때 사고 구조를 의미함.
- CoT, ToT, GoT등이 있음
- 단점: 문제 해결에 사용할 추론 토폴로지를 휴리스틱하게 미리 정의함. 각 문제별 최적의 추론 구조가 다를 수 있다는 점을 간과함. 동적으로 최적의 토폴로지를 학습하고 적용하는 매커니즘 부족함.
2.4 Curriculum Learning for Structured Reasoning: 커리큘럼 학습-모델에게 점진적으로 복잡해지는 데이터를 훈련함.
- 난이도 기반 구성, 점진적 노출, 강화 메커니즘 등

3. Methodology

3.1 Hypothesis Validation and Evaluation Methods

3.1.1 Observations and Hypothesis

LLM의 추론 패턴을 분석하는 것으로 시작함.
- 분석 결과: CoT추론을 주로 생성하고, ToT, GoT구조는 채택하지 않음.
분석에 기초해, 두가지 가설을 제안함.
- 가설1: 문제별 최상의 해결책을 생성하는 추론 토폴로지가 필요함
- 가설2: 최적의 토폴로지로, 문제를 해결하면 성능이 크게 좋아질 것임.

3.1.2 Validating Hypothesis 1: Topological Annotation and Evaluation

가설1을 검증하기 위해 TAG를 개발함(3.2.1에서 설명)
-> 자동화된 데이터 생성 및 주석 시스템 설계
TAG는 다음을 합성 데이터를 구축
1. 문제-답 Pair
2. CoT, ToT, GoT를 포함한 여러 추론 토폴로지
3. 자동으로 주석이 달린 계층적 라벨링 시스템
  Topo Label: 질문에 대한 정확한 답변을 생설할 확률 0~1사이
  Hard Label: 생성된 답변이 정확한지 여부를 나타내는 이진값 0,1
토폴로지 평가:
- 정확도: 각 토폴로지를 사용해 생성된 정확한 답변의 비율
- Win Rate: 모든 질문에서 각 토폴로지가 최고 성능일 확률

3.1.3 Validating Hypothesis 2: Performance Boost With Topological Scaling

Topological scaling이라는 계층적, 적응형 보상 프레임워크 설계
두가지 접근법 사용
- 훈련 스케일링 : 모델 직접 최적화
- 추론 스케일링 : 추론 과정을 최적화
실험4에서 상당한 성능 향상 보여주며, 가설2를 뒷바침함.

3.2 Synthetic Topological Data Infrastructure

3.2.1 Topological-Annotation-Generation System (TAG)

데이터: GSM8K, MATH -> 훈련, 테스트로 분할
데이터 생성:
- 생성 모델: Qwen-VL-7B-Instruct
- 생성 토폴로지 유형 : CoT, ToT, GoT
- 토폴로지 생성 자유도: 최대 깊이 다양화, 자식 노드 수 다양화, 이웃 노드 수 다양화
- 자동 라벨링:
  - Topo Label: 특정 토폴로지가 주어진 문제를 얼마나 효과적으로 해결하는지 0~1사이 나타내는 값. 식(2)
    -> 질문별로, 어떤 토폴로지가 문제를 잘 해결하는지 알 수 있음.
    - q:질문, T:토폴로지유형, Ncorrect:토폴로지T를 사용해 질문 q에 대해 생성된 정확한 응답 수, Ntotal:토폴로지T를 사용해 q에 대해 생성된 응답 수
  - Hard Label: 응답 수준 라벨, 0 혹은 1 값 식(3)
- 생성 방법:
  - 각 데이터마다 세가지 토폴로지를 사용해 여러 응답 생성
  - 생성된 응답에 Hard Label할당(정확도)
  - 각 문제-토폴로지 쌍에 대한 정확도 계산
  - 각 문제에 Topo Label할당
- 위로 구축된 데이터로 훈련 및 평가에 활용

3.2.2 Problems Difficulty Segmentation

문제의 난이도를 쉬움, 중간, 어려움으로 나눔
- 예를들어 어떤 문제에 대해서 CoT, ToT, GoT모두 30%미만의 topo label을 기록하면, 그 문제는 어려운 문제로 분류된다.
객관적인 난이도를 분류하여 추후 연구에 사용함(?)

3.3 Topological Scaling for Enhanced Reasoning

Topological Tuning :
- 다양하게 샘플링: 난이도별 문제들을 균등하게 샘플링
- 정확한 답변 필터링: 하드 라벨이 있는 정확한 답만 선택
- Rejection Sampling: 토폴로지 보상 모델을 사용해 품질이 낮은 샘플 제거
- 훈련방법: Qwen7B를 LoRA를 통한 미세조정, NextTokenPrediction수행
Topological Rewarding :
- 목적: 추론시 서로 다른 토폴로지로 생성된 응답 중 최상의 것을 선택하는 방법
- 훈련된 M-TRM(토폴로지 보상모델)사용하여 최적의 답 식별
  -> 논문에서 어떻게 훈련했는지 나오지는 않았지만, LLM에 분류 헤들르 추가하고, 어떤 토폴로지가 적절한지 예측하는 모델을 훈련하지 않았을까 싶음. --------- 토폴로지 적절성은 Topo label로 하지 않았나?
Hybrid Scaling
- Topology Tuning, Rewarding둘다 사용