https://jihoonjung.tistory.com/156

파인튜닝시 고려할 부분

- SliCK프레임워크의 Known, Unknow knowledge

   - Partialy Known데이터 파인튜닝에 사용, Unknown knowledge필터링

- IDK 방법론 

- EarlyStopping 고려할 것

Abstract

 

LLM이 SFT을 통해 사람 친화적으로 훈련될 때, pretrain단게에서 습득하지 못한 새로운 사실을 접할 수 있다. 이 과정에서 모델은 기존 지식에 기반하지 않은 사실을 생성하도록 훈련되고, 이로 인해 할루시네이션을 학습할 가능성이 있다는 가설이 자주 있었다.

이 연구 결과에서는 파인튜닝을 통해 새로운 정보를 효과적으로 학습하지 못하며, 모델의 기존 지식과 일치하는 예제는 훨씬 빠르게 학습된다는 사실을 발견함. 새로운 지식을 학습하면서 모델은 기존 지식과 관련하여 할루시네이션의 경향이 선형적으로 증가한다는 부분도 확인함. 결론적으로 새로운 사실은 파인튜닝을 통해 도입하는 것은 리스크가 따른다. 이 연구는, LLM은 사전학습에서 대부분의 지식을 습득하고, 이를 효율적으로 사용하는 방법을 파인튜닝에 사용하는 관점에 지지한다.

 

Introduction

  •  LLM은 사전 학습(Pre-training)을 통해 많은 지식을 내재화하고, fine-tuning을 통해 새로운 지식을 학습하거나 기존 지식을 활용하도록 조정된다.
  • 새로운 지식을 도입하는 fine-tuning은 기존 지식 기반의 hallucination(잘못된 정보 생성) 가능성을 증가시킬 수 있다.
  • 새로운 지식을 학습하는 과정이, 할루시네이션에 어떤 영향을 끼치는지 탐구하며 아래와 같은 가설을 설정함.
    • 새로운 지식의 노출은 기존 지식과 관련된 응답을 생성하는 모델의 경향성을 변화시킬 가능성이 있음.
  • 파인튜닝 데이터 예제를 모델이 아는지 모르는지 판단하기 위해 Sampling-based Categorization of Knowledge라는 네가지 지식 구조를 제안함.
    • Known : HighlyKnown, MaybeKnown, WeeklyKnown
    • Unknown

 

 

 

 

 

분류한 데이터셋을 다양한 비율로 조정하여 실험해봄

  • 연구 결과
    • Unknown fine-tuning예제를 학습하는 것은 모델이 기존 지식과 관련된 hallucination을 일으키는 경향과 선형적으로 관련성이 있음을 보임. 반대로 Known 예제를 학습하는 것은 모델의 기존 지식을 더 잘 활용하는 것과 관련성이 있음.
    • LLM이 Unknown finetuning 예제를 Known 예제보다 훨씬 느리게 학습한다는 것을 발견함(Figure 1). Finetuning중 새로운 지식을 통합하는데 어려움을 겪고, 대신 Known예제를 활용하여 기존 지식을 활용하는 경향이 있음을 나타냄
      • early stopping, Unknown예제 필터링 하는 경우 성능 저하 없이 과적합 위험을 크게 줄일 수 있음.

 

 

 

2. Study Setup

    • $D$ : 주어진 Fine-tuning 데이터셋
    • $LLM M$ : 사전학습된 LLM
    • $M_D$ : D로 M을 finetuning한 모델
      • D를 여러 방법으로 변형하여 $M_D$를 실험함.
  • 데이터셋 구성
    • D를 구성할때 instruction tuning작업을 반영하며 실험적 편리성을 위해 데이터셋을 다음과 같이 구성함
    • query : (주체, 관계, 객체) Triplets로 구조화될 수 있는 지식을 선별하여 폐쇄형 질문 응답 데이터셋으로 변환함.
      예) q : where is Paris located? -> a : France
    • EntityQuestions데이터셋 사용
      • train데이터를 서브 샘플링하여 다양한 D들을 생성.
      • 해당 데이터 셋에 12개의 관계를 주로 선별하였고, 추가적으로 7개의 관계를 OOD으로 선정하였음.
        관계 예) "Where is [E] located?"
      • OOD를 설정할때 새로운 관계를 포함하도록 설정함. 
        • 예를 들어, 학습 데이터에서 “Where is [E] located?” 관계만 학습했다면, OOD 테스트는 “Who is the author of [E]?”와 같은 새로운 유형의 질문을 포함.
        • OOD인지 판단 하는 방법은 바로 아래 부분 Known, Unknown을 구분하는 방법론을 포함하여 판단.
  • 모델 : PaLM 2-s base model
  • 평가지표 : Exact Match
  • 데이터 조합 : 아래와 같이 분류하여 다양한 D를 생성하고 분석을 진행.
    • Known : HighlyKnown, MaybeKnown, WeeklyKnown
    • Unknown

3. Quantifying Knowledge in LLMs

fine-tuning 데이터 D에 포함된 새로운 지식이 모델의 성능에 미치는 영향을 평가하려면, 의 각 질문-정답 쌍 (q,a)에 대해 Mq에 대한 정답으로 a를 알고 있는지를 판단할 수 있어야 한다. 이를 위해, 의 출력 샘플을 기반으로 모델이 에 대해 를 생성할 가능성을 추정하는 PCorrect라는 연속적인 측정값을 정의하고, 이를 사용해 쌍을 네 가지 범주로 분류한다. 이 접근 방식을 SliCK (Sampling-based Categorization of Knowledge)라 명명한다.

  • PCorrect : q를 입력받았을 때 a를 생성하는지를 측정
    • base M모델에서 in-context learning, few-shot exemplars를 사용해 q에 답변하도록 함.
      • q와 의미적 유사성을 갖는 예시를 선택해 모델에 제시함.
      • PCorrect(q, a; M, T) : q에 대해 a를 생성할 가능성을 의미함.
        여기서 T는 decoding temperature임.
    • 실험에서는,
      • T = 0
        • $N_{ex} = 10$ 10개의 랜덤한 4-shot예시를 생성하고, 모델 M이 각 예시에 대해 q에 대해 생성하는 greedy prediction을 계산함. 여기서 PCorrect = $\frac{Correct Greedy Answer}{N_{ex}}$로 계산
      • T > 0
        • T = 0.5로 설정하고, $N_{sample} = 16$개의 샘플을 생성
        • PCorrect = $\frac{Correct Sampled Answer}{N_{ex}N_{sample}}$
    • PCorrect 값을 기반으로 (q,a)(q, a)를 네 가지 지식 범주로 분류:
      • Unknown:
        PCorrect=0 : 모델이 어떤 샘플링 방식에서도 q에 대해 a를 정답으로 생성하지 못할 경우.
      • HighlyKnown:
        PCorrect=1 : Greedy decoding에서 항상 정답을 생성할 경우.
      • MaybeKnown:
        PCorrect∈(0,1) : Greedy decoding에서 가끔씩만 정답을 생성할 경우.
      • WeaklyKnown:
        PCorrect=0 : Greedy decoding에서는 정답을 생성하지 않지만, temperature sampling에서 가끔 정답 생성할 경우.

 

4. How Harmful are Unknown Examples?

FineTuning 데이터셋 D에 얼마나 많은 Unknown 데이터가 되어있을 떄 모델에 얼만큼의 영향을 끼치는지 연구함. D에서 Unknown 예제의 비율을 다양하게 조정하면서 실험을 진행. D의 갯수는 고정한 상태에서 Unknown예제의 비율을 X% Known을 (100-X%)로 설정하여 다양한 데이터셋을 생성하여 분석함. 

 

4.1 Higher Unknown Ratio is Proportional to Performance Degradation

  • 위 그림에서 볼 수 있듯, Unknown 비율이 높을 수록 성능이 저하되었음. 
  • dev set기준으로 early stopping을 적용했을 때 가장 좋은 성능을 보이며, 더 많은 epoch동안 학습하면 성능이 감소함.
  • 여기서 평가되는 데이터는 Dev Set으로, 보지 못한 데이터셋임. Unknown데이터 D에 학습되면 학습될수록 일반화 성능이 떨어지며 갖고있던 지식도 잊어버림.

4.2 Unknown Examples: Harmful or Neutral?

  • 가 고정되어 있는 상황에서 Unknown 예제의 비율이 증가할 경우, Known 예제의 수가 감소하기 때문에 성능 저하가 데이터 수 감소로 인한 것인지, 아니면 Unknown 예제가 본질적으로 해로운 것인지 불명확함.
  • 이를 해결하기 위해 모든 Unknown 예제를 제거한 새로운 데이터셋 $D_{\text{Known}}$을 생성. 에서 Unknown 예제를 필터링한 데이터셋이다.
  • Figure 3b가 결과물인데, D데이터에서 Early Stopping한것과 $D_{known}$과 성능이 비슷하다고 한다.
    -> Figure가 잘못된 것인지 그래프 범례와 안맞음.
    • EARLY_STOP 조건에서는 모델이 대부분의 Known 예제를 학습한 반면, Unknown 예제는 학습되지 않았음을 의미함.
    • EARLY_STOP에서 Unknown 예제는 모델의 성능에 중립적인 영향을 미친 것으로 해석된다
  • CONVERGENCE 조건에서의 결과
    • fine-tuning이 지속되면서 D의 성능이 $D_{\text{Known}}$보다 더 낮아짐
    • Unknown 예제가 fine-tuning 후반부에서 부정적 영향을 미쳤음을 나타낸다. 모델이 더 많은 Unknown 예제를 학습하면서 기존 지식 기반 성능이 저하되고, hallucination 경향이 증가했음을 보여준다.

4.3 Unknown Examples are Fitted Slower than Known Examples

  • fine-tuning 각 단계에서 모델이 DKnownUnknown 예제를 얼마나 학습했는지 분석함.
    • Unknown 예제는 Known 예제보다 학습 속도가 훨씬 느림.
    • EARLY_STOP 단계에서는 모델이 Known 예제 대부분을 학습했지만, Unknown 예제는 거의 학습하지 못함.
    • 이는 EARLY_STOP에서 Unknown 예제가 성능에 중립적인 영향을 미친 이유를 설명한다. 이 시점에서 모델은 Unknown 예제를 학습하지 않았기 때문이다.
    • Unknown 예제는 주로 새로운 지식이 들어있는데, 느린 학습 속도는 LLM이 fine-tuning을 통해 새로운 지식을 통합하는 데 어려움을 겪고 있음을 보여준다. 대신, LLM은 Known 예제를 통해 기존 지식을 더 잘 사용하는 방법을 배움.

4.4 The Influence of Unknown vs Known on Accuracy: A Linear Model Perspective

  • 개발 세트 성능이 EARLY_STOP에서 최고점을 찍은 후, 모델이 더 많은 Unknown 예제를 학습하면서 성능이 점차 저하된다. 이를 더 정확히 설명하기 위해, KnownUnknown 예제가 테스트 정확도에 미치는 영향을 선형 모델을 통해 분석함.
  • $Accuracy = \beta_0 + \beta_{kn}\frac{N_{kn}}{|D|} + \beta_{unk}\frac{N_{unk}}{|D|}$
  • 결과 :
    • $\beta_{\text{kn}}$ > 0 : Known 예제를 학습하는 것은 테스트 성능을 향상시킴.
    • $\beta_{\text{unk}}$ < 0 : Unknown 예제를 학습하는 것은 테스트 성능을 저하시킴.
    • $\beta_{\text{unk}}| \approx |\beta_{\text{kn}}$ : Unknown 예제의 부정적 영향은 Known 예제의 긍정적 효과와 유사한 크기를 가짐.
    • 이 결과는 Unknown 예제를 학습하는 것이 성능 저하로 이어지며, 특히 Unknown 비율이 높은 데이터셋에서는 더 뚜렷한 영향을 미친다는 것을 보여준다.

4.5 Generalization to New Relations

  • FineTuning과정에서 학습하지 않은 새로운 관계로 구성된 OOD테스트 세트에서 모델의 일반화 성능을 평가함.
  • 결과
    • Unknown 예제 비율이 높아질수록, OOD 테스트 성능이 감소. 이는 모델이 새로운 관계에서도 불완전하거나 잘못된 답변을 생성할 가능성을 증가시킴.
    • Unknown 예제를 학습한 모델은 OOD 테스트 세트에서 더욱 뚜렷한 성능 저하를 보임. 그러나 EARLY_STOP(최적 성능 지점에서 학습 중단)을 적용하면 이러한 부정적 영향을 완화할 수 있음.

 

5. Understanding Knowledge Types: Their Value and Impact

  • Q1: 각 범주의 fine-tuning 예제가 테스트 성능에 어떤 영향을 미치는가?
    • 여기서 범주는 HighlyKnow, ... , Unknown을 의미
    • 모든 fine-tuning 데이터가 특정 범주(CAT)의 예제로만 구성된 데이터셋 **$D_{\text{CAT}}$**를 생성
    • 참고를 위해 ENTITYQUESTIONS 데이터셋의 분포를 반영한 데이터셋 **$D_{\text{Natural}}$**도 포함
  •  Q2: 모델이 각 범주에서 테스트 예제를 얼마나 잘 수행하는가?

표 해석 : index는 Train한 데이터의 종류이며, 이때 발생한 성능들을 Column별로 나타내고 있다.
예) D_HighlyKnown데이터에서 학습한 것은 Full DataSet에서는 40.5의 성능을 보였고, Hkn 범주에서는 98.7, Mkn에서는 60.1 Wkn 범주에서는 9, Unk범주에서는 0.6을 기록함.

 

MaybeKnown Examples are Essential

  • Unknown 예제가 해롭다는 점에서, HighlyKnown 예제만으로 fine-tuning을 수행하는 것이 가장 좋은 결과를 낼 것 같았다.
  • 허나, $D_{\text{HighlyKnown}}$은 HighlyKnown 테스트 예제에서는 뛰어난 성능을 보이나, 다른 범주에서는 성능이 떨어진다.
  • 반면, $D_{\text{MaybeKnown}}$은 전반적으로 가장 높은 성능을 보임
    • MaybeKnown 예제가 fine-tuning 데이터셋에 포함될 경우, 테스트 시 모델이 이러한 예제를 더 잘 처리할 수 있도록 돕는다는 것을 보임.

Limited Knowledge Enhances Overfitting.

 

 

  • §4.2에서는 Unknown 예제가 과적합 위험을 증가시킨다는 점을 논의함.
  • 이번 분석에서는 WeaklyKnown 예제에서도 비슷한 효과를 관찰함.
  • 특히, 과적합 단계(CONVERGENCE)에서는 $D_{\text{WeaklyKnown}}$과 $D_{\text{Unknown}}$ 모두 성능이 크게 감소 (39.2 → 35.4 및 37.5 → 25.8).
  • 학습이 진행될수록 WeaklyKnownUnknown 범주에서 약간의 성능 향상이 있었지만, HighlyKnownMaybeKnown 범주에서는 성능이 크게 저하함.
  • 성능 저하가 hallucination 비율 증가로 연결됨을 반증함.
  • Natural 관찰 : 
    • Early Stopping에서 : $D_{\text{Natural}}$은 EARLY_STOP 단계에서는 $D_{\text{MaybeKnown}}$와 동등한 성능을 보임. 이는 MaybeKnown예제가 데이터셋에 포함되어 있으면, 모델의 전반적인 성능과 안정성을 높이는데 기여함.
      • HighlyKnown 예제는 이미 잘 알고 있는 지식만을 강화하는 반면, MaybeKnown 예제는 모델이 부족한 지식의 공백을 메우도록 학습을 유도
      • HighlyKnown 예제만으로 학습하면 모델이 이미 잘 알고 있는 것만 강화하여 새로운 상황에 유연하게 대처하기 어려울 수 있음.
      • 반면, MaybeKnown 예제는 모델이 기존 지식을 더 잘 활용하도록 학습하면서도, 새로운 질문 유형에 대한 일반화 능력을 향상
    • Convergence : $D_{\text{Natural}}$ 성능이 $D_{\text{MaybeKnown}}$보다 크게 감소함. 이는 WeaklyKnownUnknown 예제의 존재로 인해 과적합이 발생했기 때문임.

 

6 SliCK Knowledge Categories Analysis

  • LLM의이 갖고있는 지식을 평가하는 것은 모델이 실제로 무엇을 알고 있는지에 대한 명확한 기준이 없다는 점에서 그 평가가 어렵다.
  • SliCK 프레임워크를 제안하여 LLM의 지식을 네 가지 카테고리로 분류
  • 네가지로 분류한게 타당하다는 것에서 논하고 있음.(생략)

 

 

7. Fine-tuning to Abstain on Unknown Examples

  • 이 섹션에서는 또 다른 접근법으로, 모델이 Unknown 예제에 대해 "I don’t know"라는 응답을 학습하도록 fine-tuning하는 방법을 탐구. 구체적으로, Unknown fine-tuning 예제의 레이블을 "I don’t know"로 대체하고, 이러한 전략이 과적합을 완화할 수 있는지 테스트해봄

 

  • %Answered : I don't know대신 실제로 정답을 시도함.
  • Unknown 데이터를 "I don’t know"로 대체하면, 모델이 확신을 가지고 답변한 질문(willingly answered)에 대한 정확도가 기존보다 개선
  • 모델이 무작정 잘못된 답변을 시도하기보다는, 확실하지 않은 질문에 대해 "모른다"고 응답하도록 학습되었을 때 더 나은 결과를 보임.
  • $D_{IDK}$ 데이터셋의 경우, Early-Stopping과 Convergence 모두 정확도가 61.8%로 유지되었으며, 이는 과적합 위험이 감소했음을 시사함.

 

8. Discussion

  • Hallucination 위험: Fine-tuning을 통한 새로운 지식 학습은 기존 지식 기반의 hallucination 위험과 강하게 연관됨.
  • Unknown 예제의 학습 속도: Known 예제보다 느리게 학습되며, 이러한 부정적 효과는 overfitting으로 나타남.
  • Early Stopping의 필요성
  • Fine-tuning 데이터 정렬: 새로운 지식을 추가하지 않고, 모델의 기존 지식과 fine-tuning 데이터를 align하여 Unknown 예제를 필터링하는 것이 효과적.
  • Unknown 데이터 활용: Unknown 데이터를 단순히 제거하는 대신, "I don’t know"와 같은 불확실성 표현으로 학습시키는 것이 부정적 효과를 완화하는 데 유용.

Superficial Alignment Hypothesis

  • Pre-training 중심 지식: LLM의 지식과 능력은 주로 pre-training에서 학습되며, fine-tuning은 스타일 또는 형식을 조정하는 역할로 제한될 수 있음.
  • Fine-tuning 데이터의 중요성:
    • LLM은 Unknown 예제를 학습하는 데 어려움을 겪으며, 주로 기존 지식을 더 잘 활용하는 법만 학습.
    • HighlyKnown 예제만 사용한 fine-tuning은 기존 지식을 최적으로 활용하지 못하며, 데이터 구성의 균형이 중요함.

 

9. Related Work

10. Conclusion

11. Limitations

 

이 논문에서 얻어진 결과물로 FineTuning에 활용할 수 있는 방법은?

-> generalization, memorizaiton 어디 부분에 포커싱을 할 것인지 결정.

 

0 abstract

  • In-context Learning(ICL): Transformer 모델은 context 내의 새로운 정보를 사용할 수 있는 능력을 보임.
  • ICL의 출현 조건:
    • 모델이 다양한 task 데이터로 학습될 때 ICL이 나타남.
    • Task diversity가 증가하면 memorization에서 generalization으로의 급격한 전환이 관찰됨.
  • generalization의 기존 해석: 네트워크의 제한된 용량으로 generalization으로 발전함.
  • 이 연구 목적 : 작은 transformer 모델을 사용하여 ICL을 이론 및 실험적으로 분석.
    • 주요 발견:
      • MemorizationGeneralization을 담당하는 하위 회로(sub-circuits)는 대체로 독립적.
      • 하위 회로의 상대적 학습 속도가 memorization에서 generalization으로의 전환을 주도.
      • Capacity constraints(용량 제한)은 핵심 요인이 아님.
  • Scaling Law 발견:
    • Task diversity threshold에서 generalization을 시작하는 지점을 결정하는 memorization scaling law를 도출.

 

1. Introduction

  • 큰 transformer 모델은 좋은 일반화 능력을 보여주었음.
  • 이 중에서도 가장 주목할 만한 특징은 in-context learning (ICL)이다.
    • 추가적인 가중치 업데이트 없이, 주어진 문맥에서 정보를 이용해 과제를 해결하는 능력을 말한다. 
  • LLM에서 ICL이 나타난다는 것은, 실시간으로 학습할 수 있는 것과 동일한 이야기이다.
    문맥에 새로운 정보를 제공하면 해당 정보를 바탕으로 문제를 해결해나감.
  • 그렇다면 ICL은 어떻게 나타나는 것일까?
    • 이 논문에서는 두가지 ICL 특성에 초점을 맞춰 살펴본다
      • 데이터 분포 특성 : 데이터 분포의 특성이 ICL을 진행할지, 암기(in weight learning)를 할지 결정한다. 훈련 데이터 task의 다양성이 증가하면 IWL에서 ICL로 전환이 급격하게 이루어진다. (한정적인 웨이트로 인해 일반화가 급격하게 진행).
      • ICL은 일반적으로 attention heads와 MLP를 포함하는 비선형 구간에서 발생.

Contribution and outline

  • Sharp transition 재현: 간단한 one-layer transformer 모델로 memorization에서 generalization으로의 급격한 전환 현상을 재현.
  • ICL원인 분석 : ICL(일반화) 습득과 IWL(암기) 간의 경쟁을 정량적으로 설명하는 분석적 이론 제시. 학습이 진행됨에 따라 ICL이 사라지는 이유를 L2 regularization과 학습 속도의 차이로 설명.

 

  • a) Capacity-constrained 모델 : 
    - 네트워크의 용량 제한이 ICL 획득에 중요한 역할을 한다고 가정
    - Task diversity(과제 다양성)가 증가하면, 네트워크가 데이터셋을 암기(memorize)할 수 있는 용량이 부족해지므로, 자연스럽게 일반화(generalization)를 선호
  • b) Differential learning kinetics 모델 : 
    - memorization과 generalization을 담당하는 하위 회로(sub-circuits)가 독립적으로 작동한다고 가정
    - 두 하위 회로의 학습 속도의 차이 : ICL(일반화)은 더 빠르게 학습되며 초기 손실을 줄입
    - IWL(암기)은 상대적으로 느리게 학습되며 시간이 지남에 따라 점차 훈련 데이터셋을 암기
    - Task diversity가 높아질수록 IWL이 더 느려져, 네트워크가 ICL을 먼저 습득
    - 그러나 시간이 지나면 IWL이 활성화되면서 네트워크가 훈련 데이터셋을 점차 암기하고, 결국 ICL 능력을 잃게 된다.

 

 

 

 

 

2. Task Formulation

  • ICL과 IWL성능을 분리하여 평가할 수 있는 방법을 채택(FIgure 2a)
    • 학습 전, 개의 아이템-레이블 쌍(item-label pairs)을 포함하는 데이터셋 D를 생성
      • $D = \{(x_1, \ell_1), (x_2, \ell_2), \dots, (x_K, \ell_K)\}$
        • $x_i$ : D차원의 랜덤 벡터, $x_i N(0,1/D)$에서 샘플링 됨
        • $l_i$ : 레이블 $l_i$ : {-1, +1} 중에 무작위로 지정
    •  네트워크는 N+1개의 토큰으로 이루어진 시퀀스를 입력으로 받음. 각 토큰 $t_j$는 아이템과 레이블을 결합한 것으로 정의됨.
      • $t_j = x_j \oplus \ell_j$
      • 여기서 $\oplus \el$는 아이템 레이블의 결합(concatenation)을 의미함.
      • 처음 N개의 토큰은 아이템과 레이블이 포함된 데이터로 구성된다. 마지막 N+1번째 토큰은 예측할 대상이며 이 토큰의 레이블은 비워진 상태이며 이를 맞추는 태스크를 신경망이 진행해야 함.
        • 더보기
          예)
          N=3인 경우
          (x1, l1)
          (x2, l2)
          (x3, l3)
          xt는 x1, x2, x3중에 하나로 선택되고, 이때 lt를 예측해야함. 허나 xt는 이미 sequence안에 포함되어 있으므로 lt를 유추할 수 있음.
        • 이를 통해 ICL의 성능을 유추할 수 있음.
      • 네트워크는 binary cross entropy loss를 통해 최적화가 진행됨.
    • 데이터셋 DD가 유한하기 때문에 네트워크는 두 가지 방식으로 학습할 수 있습니다:
      • 각 항목의 레이블을 기억하는 방식(IWL).
      • 문맥 내에서 주어진 예제를 사용해 타겟 레이블을 예측하는 방식(ICL).
    • ICL측정을 위해 : 새로운 아이템-레이블 쌍으로 구성된 테스트 데이터셋 $D_test$를 생성(데이터 포멧은 똑같으나 새로운 데이터를 제공하여 암기하지 못한 데이터 셋으로 진행)
    • IWL측정을 위해 : 타겟 토큰이 시퀀스에 없는 경우만 샘플링하여 평가.(암기를 했는지 평가)

3. Results 

3.1 A ONE-LAYER TRANSFORMER MODEL RECAPITULATES ICL PHENOMENOLOGY

  • 핵심 의도 : K에 따라 ICL, IWL이 달라짐. 초기 학습에서 ICL 성능이 정체하다 특정시점에 급격히 증가하는 특징을 보임. 학습 시간이 지나면서 ICL성능이 감소하고 이는 IWL로 전환을 의미함.
  • 모델 : 
    • attention mechanism과 multi-layer perceptron (MLP)으로 구성된 one-layer 네트워크로 실험을 시작
    • 주어진 시퀀스 $에서 각 토큰에 대해 LayerNorm을 적용, attention 연산과 MLP를 통해 최종 logits을 계산
  • ICL 측정 : 
    • Task Diversity K를 변화 시켜보며 학습을 진행함
      • Task Diversity K가 작을 때는 모델이 데이터 셋을 단순히 암기 하려고 함.
      • 반면 K가 충분히 클 때는 모델이 일반화 능력을 보여줌.
        여기서 K는 아이템-label 페어의 수임.
    • (Figure 2b,c) 참고 : K = K* 근처에서 이중적인 분포를 보였으며, 초기에서는 ICL이 학습되었으나 다른 초기에서는 IWL만 학습되었음. 
      • K* : threshold
      • K << K*에서는 IWL하는데 집중하여 새로운 데이터를 학습하지 못함. 
      • K >> K*에서는 새로운 데이터를 학습하고 일반화를 수행함.
      • K == K*에서는 seed에 따라 ICL을 학습하거나, IWL만 학습하는 결과가 나옴.
    • (Figure 2d) : ICL의 정확도가 낮은것에서 완벽으로 급격하게 변한다.
    • (Figure 2e)허나, 과거의 연구에서 보인것과 같이 훈련이 계속 진행됨에 따라 점차 0으로 정확도가 수렴함.
      • 단 이 현상은 attention head의 파라미터가 MLP파라미터보다 더 강하게 정규화 될 경우에만 나타남.
      • 이러한 현상을 transience로 명명하는데 이를 뒤에서 풀어나감.

3.2 DISENTANGLING ICL AND IWL IN A MINIMAL MODEL

  • 핵심 의도 : 최소 모델을 설계하여, ICL, IWL의 독립적인 학습을 정략적으로 분석할 수 있게함.
  • one layer transformer로도 memorization에서 generalization으로 전환 task diversity의 현상을 잘 포착함(Figure2)
  • 허나, 이 모델 또한 비선형 attention, MLP간의 상호작용으로 분석의 어려움이 존재함.
    • 최소 모델을 설계 : 정량적 예측을 가능하게 함.

  • ICL측정 : 기존의 트렌스포머 모델과 비슷하나 target lable의 self attention을 계산하지 않음. $K^TQ$를 살펴보면 오른쪽 밑에 항목은 0임을 볼 수 있음. -> 이를 통해 ICL을 측정.  (여기서 $beta$와 w는 learnable param인데, transformer와 비슷하게 projection을 위한 파라미터임)
  • IWL측정 : 3 Layer MLP ReLU네트워크 구현. -> weight으로 데이터 저장능력을 살펴보려함.

3.3 THE LOSS LANDSCAPE OF THE MINIMAL MODEL

  • ICL과 IWL의 학습 과정과 전환 조건을 수학적으로 설명

3.4 THE DYNAMICS OF ICL ACQUISITION

  • 식 3을 기반으로..
    • 일 때 ICL이 습득된다고 보며
    • 일 때, 네트워크가 ICL을 습득하는 데 걸리는 시간을 계산하는 것이 이번 섹션의 목표임.
    • Minimal Model에서의 Loss Function은 매우 복잡한데 이를 아래와 같이 간소화 할 수 있음.

  • 첫번째 항 : MLP의 역할을 의미하며 IWL이 얼마나 잘 수행되고 있는지 확인하는 term
    • MLP가 출력한 로짓 : 이 값이 클수록 손실이 작아짐.
    • log(1+e) : sigmoid함수의 변형 binary cross entropy와 유사
  • 두번째 항 : Attention head의 역할 ICL의 학습을 나타냄
    • $c_1$ : MLP가 예측한 확률의 평균 : MLP가 데이터를 얼마나 잘 예측하고 있는지 나타냄. 예측이 잘되면 c1이 감소하게 되고, 이로 인해 학습이 느려짐.
    • N : context 길이
    • β : attention강도를 나타내는 파라미터
    • w : attention가중치를 나타내는 파라미터. 주어진 문맥에서 특정 토큰에 얼마나 주의를 기울일지 결정.
    • c2 : MLP관련 상수
  • ICL이 습득되는 초기 상태는 $e^\beta - 1 \
      • w의 변화율 : 
        •  $\frac{dw}{dt}=\frac{c_1}{N}(e^{\beta}-c_2w)$
          • $e^{\beta}$ ICL의 학습을 가속화시키는 요인
          • $c_2w$ : 학습이 진행회면서 w의 증가를 제한시키는 요인
          • β가 커지면 $e^β$의 값이 기하급수적으로 커져 w의 증가를 가속화 하는데, 뒤에 있는 Term으로 제약을 주어, w가 빠르게 증가하지 못하게 만든다
      • beta의 변화율 
        • $\frac{d\beta}{dt} = \frac{c_1}{N}(we^{\beta})$
          •  $\frac{c_1}{N}$ : $\beta$의 증가 속도를 조절함
            • c1 : MLP의 학습 상태에 따라 다르고, 학습이 잘되면 c1이 작아지고 beta의 증가 속도도 느려짐
            • N : context가 길어지면 beta가 천천히 증가함.
          • $we^{\beta}$ : $\beta$의 증가를 가속화 하는 항이다.
            • w : attention 가중치인 w가 커질수록 Beta가 빨리 증가함.
            • 이 항은 beta가 커질수록 더 큰 영향을 끼치며 학습 후반부에 beta가 급격하게 증가하도록 만든다.
      • 지금까지 복잡하게 무엇인가를 설명한 것처럼 보이나,, 그래서 뭔 말을 하고자 하는건데?
        • $e^{\beta}$ : beta와 w의 증가를 빠르게 만들고
        • $c_2w$ : 학습의 브레이크 역할로 w가 지나치게 커지는 것을 방지
        • 이 두항의 상호작용으로 학습 속도를 결정하여, 학습 초반에는 느리나, 중간에는 급격히 빨라졌다 후반에는 안정화가 된다.

3.5 EXPONENTIAL DEPENDENCE OF $t_ICL$ ON INITIAL CONDITIONS

  • 이 섹션에서 말하고자 하는 바는, ICL은 모델의 초기 설정값이 잘못되면 학습이 매우 느리게 진행되거나 실패할 가능성이 매우 높기에, 초기에 어떻게 설정하느냐에 따라 ICL학습 성능을 좌우할 수 있다.

3.6 MEMORIZATION SCALING LAWS AND THE TRANSITION FROM MEMORIZATION TO GENERALIZATION

 

  • ICL의 일시적 특성(transience)의 원인:
    • ICL은 초기 학습 단계에서 먼저 학습되지만, 시간이 지나면서 점차 감소하거나 사라지는 경향이 있음
      -> attention head의 regularization(정규화) 강도와 MLP의 데이터 암기 속도 차이 때문
  • ICL 감소 메커니즘:
    • 학습이 진행되면서 MLP는 데이터를 점점 더 많이 암기(IWL)하게 된다.
    • MLP가 데이터셋을 충분히 암기하면 attention head의 ICL 기여도가 감소하고, 결국 ICL이 소멸
    • Regularization이 적용된 경우, attention head의 파라미터 가 줄어들어 ICL 능력이 더 빨리 감소한다.

  • Y : MLP가 모든 데이터셋의 모든 Item-label 쌍을 암기하는데 걸리는 시간을 나타냄. 이 값이 클수록 MLP가 데이터를 암기하는데 더 오랜 시간이 걸리며 ICL을 할 가능성이 높아짐.
  • X : K는 데이터셋의 다양성을 타나냄. 모델이 학습해야하는 Item-label쌍 수를 의미함
  • Scaling Law : $I_k(\infty) ~ K^v$의 식을 따르며 여기서 v는 0.7임.
    K가 커질수록 Y값이 비선형적으로 증가함을 의미함.
  • 이 식을 통해 ICL이 효과적으로 학습될 수 있는 데이터 다양성의 기준을 제시하고, 모델 학습을 설계할 때 중요한 지표로 활용할 수 있음.

 

 

3.7 SLOW IWL EXPLAINS TRANSIENT ICL

 

  • ICL의 일시적 특성(transience)은 MLP 암기와 regularization의 상호작용으로 인해 발생.
    • MLP가 데이터를 암기하면 attention head의 역할이 줄어들어 ICL이 약화
    • Regularization 강도가 클수록 ICL 감소가 빨라짐.
      • 정규화가 너무 강하면 w값이 감소하면서 ICL학습이 약화되거나, 능력이 소멸할 수 있음.
  • ICL 학습이 지속 가능하려면 regularization을 조정하고 데이터 분포 설계를 신중히 해야 한다는 점을 강조
    • 학습 데이터 분포가 균등하거나 특정 레이블 비율에 강한 제약을 가지면, ICL 학습이 더 어렵거나 실패할 가능성이 높짐
    • 예) 컨텍스트 내 레이블 비율이 항상 균등한 경우, ICL 학습은 매우 느려지고 모델이 데이터를 암기(IWL)하는 경향이 강해짐
      -> 패턴을 찾지 못하기 때문일 것으로 생각됨.

 

 

4. EMPIRICAL VALIDATION

위에서는 이론적으로 ICL, IWL의 특성, 식을 유도하였으나 이번 섹션에서는 실험적으로 검증을 진행함.

 

 

결론 : 

 

  • 이론적부분을 실험적으로 검증:
    • ICL과 IWL의 학습 특성, scaling law, bimodal behavior, 그리고 손실 간 관계가 실험적으로 검증
  • Task Diversity와 Context Length의 중요성:
    • Task diversity와 context 길이는 ICL 학습의 성공 여부와 효율성에 중요한 영향을 미친다.
    • 실험 결과 ICL에 도달하는 시간은 context 길이 에 선형적으로 비례.
  • ICL 학습의 불확실성:
    • 초기화 조건 및 데이터 분포가 ICL 학습에 큰 영향을 미치며, 잘못된 설정은 학습이 실패할 수 있음.
    • 각 N에 대해 100번의 실험을 진행한 결과 $t_{ICL}은$긴 꼬리 분포를 갖음.
  • ICL 학습 설계:
    • ICL을 학습하려면 적절한 데이터 다양성, 레이블 분포, 초기화 전략이 필요
      • K가 충분히 크다면 ICL을 하게 됨
        • 이상적인 $K* : N^{\frac{1}{v}}e^{\frac{-\beta_0}{v}}$
          -> Finetuning시 : Prompt가 같으면 한개의 K로 보는 것이 맞을것으로 생각됨.
      • 불균형 데이터 문제 해결 : 
        • 데이터셋이 특정 패턴에 편향되지 않도록 다양한 Task및 레이블 조합을 포함하도록 함. (+1, -1 비율이 완전히 같거나 극단적으로 다르게 하는 경우를 피해야 함.)
        • 다양한 예제 제공.
          -> 컨텍스트 안에 동일한 유형의 데이터 포함하지 않고, 다양한 속성(길이, 구조, 도메인)을 갖는 데이터를 제공
      • 초기 파라미터 세팅 : 
        • Attention 매트릭스(w,β)의 초기값을 너무 작게 설정하면 학습이 느려지거나 실패할 수 있으니,적절한 값으로 초기화.
        • 대부분 wβ를 정규 분포(예: N(0,0.02))나 균등 분포에서 무작위로 초기화하는데, N(0, 0.1)과 같이 샘플링해서 더 큰 가중치를 부여하도록 조정할 수 있음.

 

 

 

Abstract 

  • 기존의 문제점: 현재 대부분의 연구는 사전 설계된 프롬프트에 크게 의존하며, 이는 인간의 편향이 개입될 수 있고, 모델의 본질적인 추론 능력을 평가하기 어렵게 만든다.
  • 새로운 접근법: 디코딩 프로세스를 수정하여 모델의 내부에 이미 존재하는 추론 경로를 탐색함으로써 프롬프트 없이도 CoT reasoning을 가능하게 한다. greedy decoding을 대신하여 Top-k 방법을 활용. 이러한 CoT경로가 본래 모델 내에 존재함을 확인함. 또한 CoT경로가 디코딩 경로에 포함되면 모델이 생성한 답변의 신뢰도가 높아지는 것을 발견함.
  • 성과: 다양한 reasoning task에서 CoT-Decoding 방식이 성능을 크게 향상시키며, 모델이 본래 가지고 있는 추론 능력을 더 잘 보여준다.

1. Introduction

  • LLM은 다양한 추론 데이터에서 뛰어난 성능을 보임.
  • 이러한 추론 능력은 일반적으로 프롬프트를 통해 유도된다. 
    • Few shot prompting을 사용하여 중간 단계의 예시를 포함하거나, 중간 단계를 요청하는 zero shot prompting방법으로 구현되고, CoT와 같은 방법으로 reasoning 데이터를 대량으로 사용해 모델을 훈련하거나 Instruction tuning을 수행하는 방법등이 있다.

  • 이 연구는 새로운 관점을 제시한다 : LLM은 프롬프트 없이 효과적으로 추론할 수 있는가? 그리고 어느정도 수준까지 추론이 가능한가?
    • 사전 학습된 LLM에서는 디코딩 절차를 단순히 변경하는 것만으로도 CoT 추론이 가능하다는 사실을 발견했다.
    • 그림 1에서 보듯이, reasoning 질문에 대해 표준 greedy decoding은 잘못된 답변을 생성하지만, top-k 토큰을 살펴보면 CoT 경로(예: decoding paths 2 및 4)가 존재하며, 이 경로들은 정확한 답변을 한다. 이러한 디코딩은 프롬프트를 우회하고, 완전히 모델 튜닝 없이 좋은 성능을 보인다.
    • 좀 더 자세히 설명하면, QA형식으로 구성한다.
      • 예) Q: 사과가 3개 있고, 아빠는 저보다 2개 더 많은 사과를 가지고 있습니다. 우리 둘이 총 몇 개의 사과를 가지고 있나요? A:
      • 언어 모델은 이에 대해서 디코딩을 시작하며 Figure 1과 같이 다양한 가능성을 생성할 수 있다.
      • greedy decoding을 계속 진행할 경우, 모델은 "5 apples"와 같은 답변으로 끝날 가능성이 높으나 Top-k 대안을 살펴보면, 모델은 실제로 2,4번과 같은 Chain-of-Thought(CoT) 경로를 포함할 수 있다.
      • 이 접근법은 프롬프트 없이도 CoT reasoning 경로를 자연스럽게 추출할 수 있음을 보이며, 디코딩 경로에 CoT reasoning이 포함될 경우, 모델의 답변에 대한 신뢰도가 현저히 높아지는 현상을 관찰함.
  • Greedy Decoding의 한계:
    • 기존 연구에 따르면, LLM은 greedy decoding을 사용할 경우 질문-답변(QA)에서 추론 능력을 제대로 발휘하지 못함.
    • 모델이 최상위(top-1) 토큰만 사용하는 greedy decoding 경로에 의존하면 복잡한 추론 문제를 해결하는 데 어려움을 겪음.
  • Top-K Decoding
    • Top-k 토큰 중 대안 경로를 탐색하면, 모델의 디코딩 경로에서 CoT reasoning 패턴이 자연스럽게 드러남. 이를 통해 모델의 내재적 추론 능력이 기존 방식으로는 관찰되지 않던 방식으로 활성화됨.
  • CoT경로의 높은 신뢰도:
    • 디코딩 경로에 CoT reasoning이 포함될 경우, 모델은 최종 답변에 대해 더 높은 신뢰도를 나타냄.
    • 예: Figure 1에서 경로 2와 4는 올바른 답변인 "8"에 대해 높은 확신을 보여주지만, 잘못된 답변인 "5"를 생성하는 경로는 불확실성을 보임.
  •  CoT-Decoding의 제안:
    • 모델의 디코딩 경로 중에서 Top-k 대안을 탐색하고 신뢰도 기반으로 가장 신뢰할 수 있는 경로를 선택하는 CoT-Decoding 방법을 개발.
    • 이 접근법은 모델의 reasoning 성능을 효과적으로 향상시키는 데 활용 가능.

 

기여 부분 : 

  1. 프롬프트 없이 모델의 추론을 가능하게 하는 방법 발견
    단순히 디코딩 방식을 변경하는 것만으로 LLM이 추론할 수 있다는 새로운 사실을 제시함. 이전 연구들이 모델에서 추론을 유도하기 위해 프롬프트를 정교화하는 데 초점을 맞췄던 것과 달리, 이 연구는 간단한 디코딩 변화를 통해 추론 과정을 이끌어낼 수 있음을 보인다. 특히, LLM이 프롬프트 없이 효과적으로 추론할 수 없다는 기존 문헌의 통념에 도전한다. 대안적 디코딩 경로를 탐색함으로써 모델의 추론 경로를 드러낼 수 있음을 입증한다.
  2. 인간의 개입 없이 모델의 내재적 추론 능력 이해
    복잡한 프롬프트 기술은 인간의 선입견을 도입하여 모델의 독립적인 추론 능력과 인간의 영향을 구분하기 어렵게 만든다. 이 연구는 사전 훈련된 언어 모델이 내재적 추론 능력을 이미 보유하고 있음을 밝히며, 기존 프롬프트 접근법은 이러한 내재적 추론 경로를 최상위 디코딩 경로로 끌어올리는 역할을 할 뿐임을 보여준다.
  3. 높은 신뢰도의 CoT 경로를 선택하는 CoT-Decoding 제안
    디코딩 경로에 CoT가 존재할 때 모델의 최종 답변에 대한 신뢰도가 증가한다는 사실을 발견함. 이를 활용하여, 우리는 CoT-Decoding이라는 새로운 방법을 제안하고, 더 신뢰할 수 있는 디코딩 경로를 선택함으로써 모델의 추론 성능을 크게 개선할 수 있음을 실증적으로 증명함.

 

2. Chain-of-Though (CoT) Decoding

2.1 Pre-trained Language Models Can Reason without Prompting

  • Pre-trained Language Models(LLM)이 명시적인 프롬프트나 인간의 개입 없이도 내재적 추론 능력을 가지고 있는지 조사함
  • 예를 들어, 수학 문제(GSM8K)와 상식 추론(year parity)을 대상으로 PaLM-2 모델을 사용하여 greedy decoding과 대체 decoding 경로(top-k, k > 0)를 비교함.

  • Greedy Decoding의 한계: Greedy Decoding에서는 LLM이 문제를 직접적으로 해결하려는 경향이 강해, CoT 경로가 잘 나타나지 않았다. 사전 학습 데이터에서 단순한 문제를 다루는 비중이 높기 때문에 발생하는 경향이다.
  • Top-k Alternative Decoding의 효과: k > 0인 대체적인 디코딩 경로를 탐색한 결과, 많은 경우에서 CoT 경로가 자연스럽게 나타났다. 예를 들어, GSM8K 문제에서는 k=9에서 정확한 CoT 경로를 확인할 수 있었고, Year Parity 문제에서는 k=3과 k=7에서 CoT 경로가 나타났다.

2.2 CoT-Decoding for Extracting CoT Paths

이 부분에서는, 디코딩 과정 중 CoT를 신뢰성 있게 추출할 수 있는 방법을 설명한다. 연구 결과, CoT 경로(정답인 경로)는 모델이 답변한 것의 확률을 측정했을 때, 항상 상위에 있는 것은 아니였으며, 종종 낮은 확률값에서 정답이 나오기도 한다. 이는 self-consistency와 같은 방법을 적용하기 어렵게 만든다.

- self-consistency : 모델이 여러 디코딩 경로를 생성한 뒤 가장 빈번하게 나타나는 답변을 선택하는 방법

 

뒷 부분을 더 나아가기 전에 presence of CoT Path에 대해서 논한다. 논문에서는 이 Term에 대한 정의를 명확하게 하지 않아, 추측을 해보았다.

Presence of CoT Path는 논리적 흐름, 추론의 명시성이 있어야 하는 것으로 받아들여졌다.

  • 논리적 흐름 : 답변을 생성하기 위해 모델이 수행하는 사고 과정이 명시적이고, 논리적인 순서로 전개되어야 함.
  • 추론의 명시성 : 단순하게 최종 답변만 하는 것이 아니고, 그 과정에서 필요한 추론 단계들을 명확하게 표현해야 한다.

다만, 정답을 맞추냐 못맞추냐와는 다른 이야기이다. 위 두가지를 만족하면 presence of CoT Path가 성립된다.

 

이어서 진행하자면,

논문에서는 CoT경로의 존재는 최종 답변을 디코딩할 떄 높은 신뢰도를 보여주는 경향이 있음을 발견했다. CoT경로가 있는 것들에서는 아래와 같은 식으로 신뢰도 측정을 진행함.

CoT경로가 있는 것에서, 답변 부분에서 한정하여 t token을 예측할 떄 가장 높은 토큰의 확률값과 2번쨰로 높은 확률값의 차이를 더한것을 신뢰도 측정의 지표로 산정하였고, 이를 Delta라 명명하였음. Table1에서 파란색으로 표시된 소숫점들이 이 지표의 결과에 해당함. CoT경로가 있는 답변의 경우 매우 높은 값이 산출됨을 볼 수 있음.

 

Comparing different CoT-path extraction approaches

자 그러면 위에서 제안한 방법으로 path를 선정하는 것과, 과거에 Naive하게 막연하게 생각한 신뢰도로 측정해보자. 아래의 결과들은 정확도임. CoT-decoding with 제안한 메트릭으로 하였을 경우, 가장 높은 정확도를 보임.

  • 일반적으로 CoT경로는 더 긴 디코딩 경로에 존재할 것 같았으나, 항상 더 긴 경로로 나타나는 것은 아님.
    • Year Parity테스크에 대해서 이해할 필요가 있는데, 이는 어떤 유명한 사람이 어떤 작업을 짝수년도에 했는지 아닌지를 묻는 질문이다. (Nicolas Cage는 짝수 해에 태어났나 아니면 홀수 해에 태어났나). 이때 모델의 reasoning과 정보 추론 능력을 평가함. 다만 이는 매우 짧은 CoT를 요구하며, 경로의 길이와 CoT 경로의 존재 여부 사이에는 명확한 상관관계가 없음을 보여줌.

Identify the answer spans.

위에서 선정한 지표를 계산하기 위해선 답변 부분을 산출할 수 있어야함. 논문에서는 LLM으로 하여금 'so the answer is'와 같은 방법으로 답변 하는 부분을 제한 하였고, 이렇게 제한한 답변에서 위 지표를 계산할 수 있다고 함.

 

Sampling under the standard QA format.

CoT-decoding은 첫 번째 디코딩 단계에서 대체 토큰(alternative tokens)을 탐색한다.

근데, 그럼 샘플링도 비슷하게 찾을 수 있는거 아니야? 라고 생각할 수 있음.

  • 연구 결과, 샘플링은 few-shot CoT prompting과 함께 사용할 경우에는 잘 작동하지만, 프롬프트가 없는 상황에서는 잘 작동 안하는 것을 발견함.
    • 다시말해, QA 형식에서 샘플링만으로는 CoT-decoding와 다르게 CoT reasoning 경로를 발견하기 어렵다.
    • 이유는, 모델의 경우 리즈닝 경로를 찾기보다는, 즉각적으로 답변을 하는 것을 선호함. 따라서 다양한 길을 찾기보다는 제한된 경로만을 살피게 됨
    • 샘플링 방법으로 찾는 것은 CoT Prompt를 작성하는경우 어느정도 성능을 보이긴 함.

 

 

Branching at other decoding steps.

의문 : 그럼 초기 디코딩 단계에서의 가지 분기와, 중간단계에서 가지분기가 있을 경우 어떤게 더 중요할까?

결론 : 초기 단계에서 분기하는것이 다양항 경로를 탐색할 수 있는 중요한 역할인 것으로 나타남.

- 왼쪽 그림을 기준으로 top-1이 5인 경우 경로를 수정할 가능성이 적음.

허나 중간 단계에서 분기가 의미가 없는 것은 아님.

 

Aggregation of the decoding paths.

여러개의 디코딩 경로가 있을 경우, 여러개의 디코딩 경로에서 나온 답을 결합하여 더 정확하고 일관성 있는 최종 답을 도출하는 방법에 대해서 논하자.

여러 경로들이 도출되었더라도, 이들의 답은 중복될 가능성이 높다. 각각의 경로의 Delta를 계산한뒤, 같은 답을 도출한 것들끼리의 Delta합을 구하고 가장 높은 답을 선택함.

빈도수가 많은 답변이 정답으로 선택될 확률이 높으나 델타를 사용해 이 부분을 상쇄하고자 한것으로 보임.

더보기

예를들어)

문제: "3+5-2는 얼마인가?"

모델이 다섯 개의 경로를 디코딩했다고 가정.

  1. 경로 1: 3 + 5 = 8, 8 - 2 = 6
    (델타: 0.8)
  2. 경로 2: 3 + 5 = 8, 8 - 2 = 7
    (델타: 0.5)
  3. 경로 3: 3 + 5 = 8, 8 - 2 = 5
    (델타: 0.6)
  4. 경로 4: 3 + 5 = 9, 9 - 2 = 7
    (델타: 0.3)
  5. 경로 5: 3 + 5 = 8, 8 - 2 = 6
    (델타: 0.9)

6이 나온 경로는 경로 1, 경로 3, 경로 5이다

  • 경로 1의 델타 : 0.8
  • 경로 3의 델타 : 0.6
  • 경로 5의 델타 : 0.9
  • 총합: 0.8 + 0.6 + 0.9 = 2.3

7이 나온 경로는 경로 2, 경로 4이다.

  • 경로 2의 델타: 0.5
  • 경로 4의 델타: 0.3
  • 총합: 0.5 + 0.3 = 0.8

따라서 6을 선택함.

3. Experiments

  • Experiment Setup
    • 모든 실험에서 QA형식으로 설정되어 있음.
      • 여기서 질문은 접두사로 들어가게 되며, 해당 접두사 이후 모델이 출력하도록 한다. 
    • 디코딩에서는
      • 첫번째 디코팅 위치에서 top-10을 탐색하고, 이후에는 greedy decoding을 계속 수행함.
  • Datasets
    • 수학적 추론 : GSM8k, MultiArith
    • 상식 추론 : Year Parity
    • 상징적 추론 : Big-Bench-Hard
  • Models : PaLM-2, Mistral-7B, Gemma-7B

3.1 CoT-Decoding Effectively Elilcits Reasoning from Language Models

CoT-decoding is the only decoding strategy that effectively improves language model reasoning.

 

지금까지 CoT-Decoding은 추론 능력을 효과적으로 이끌어내는 유일한 전략이였음. Table4는 Mistral-7B 사전 학습 모델을 대상으로 다양한 디코딩 기법 결과를 보여줌.

 

왼쪽 표를 보면 알 수 있듯, (가장 아래 행)CoT decoding은 모델의 추론 능력을 실질적으로 향상시키는 유일한 디코딩 전략임. 다른 디코딩 방법 중 일부는 모델의 추론 성능을 감소시키는 반면, CoT Decoding은 성능을 두배 이상 개선한다.

 

CoT-decoding effectively elicits reasoning across language models.

Figure 3은 PaLM-2, Mistral, Gemma와 같은 다양한 언어 모델 계열에서 CoT-Decoding이 어떻게 추론 능력을 효과적으로 이끌어내는지를 보임. 수학 및 상식 추론 작업에서 CoT Decoding은 일관된 향상을 보임.

 

CoT-decoding elicits reasoning across model scales

Figure 4는 PaLM-2 모델 계열의 다양한 크기에서 CoT-Decoding이 추론 성능을 어떻게 향상시키는지를 보여줌. GSM8K 벤치마크에서는 CoT-Decoding이 모델 크기와 관계없이 10-30% 이상의 정확도 향상을 보여줌. 특히, year parity 작업에서는 greedy decoding으로는 모델 크기가 커져도 성능이 향상되지 않았지만, CoT-Decoding을 통해 CoT 경로를 생성하여 큰 모델에서는 거의 완벽한 정확도를 달성.

CoT-decoding partially closes the reasoning gap between pre-trained and instruction-tuned models, without using any supervised data.

CoT-Decoding은 사전 학습 모델(pre-trained model)이 instruction-tuned 모델과 유사한 성능을 보이도록 한다. Figure 4에서는 PaLM-2 Large 사전 학습 모델에서 CoT-Decoding이 63.2%의 정확도를 달성했으며, 이는 동일한 크기의 instruction-tuned 모델의 성능(67.8%)에 근접한 결과임.

-> CoT 데이터를 활용한 instruction-tuning 없이도, CoT-Decoding이 사전 학습 모델에서 추론 성능을 개선할 수 있음을 보여준다.

-> 요즘 나온 논문들을 사렾보면 instruction tuning, finetuning에 대한 부정적인 시각이 있음. 다만 여기서 의의가 있을 수 있는게, instruction tuning으로 pretraine에서 보았던 정보들을 더 잘 활용되게 작동하는 부분이 있는데, 튜닝 없이 CoT Decoding만으로 달성할 수 있다는 부분은 놀라운 부분이긴 하다.

 

신기한 것은 CoT-Decoding이 instruction-tuned모델을 더 개선시킬 수 있다. CoT로 모델을 finetuning시 모델은 기본적으로 추론 작업을 할 때 CoT경로를 생성할 것으로 기대한다. 그러나 구체적으로 살펴보니, Instruction tuning이후에도 모델이 자주 질문에 즉각적인 답을 하려는 경향을 보임을 발견하였다. 이에 비해 CoT Decoding은 CoT를 우선적으로 적용하여 대체할 수 있는 경로를 더 탐색하여 정확한 답변을 생성할 수 있게 한다.

 

 

Choice of k

𝑘의 선택이 모델의 전체 정확도에 어떤 영향을 미치는지 보여준다. 전체적으로, 𝑘 값이 높을수록 모델 성능이 향상되는 경향이 있다.

-> 많은 경우 올바른 CoT 경로가 실제로 존재하나, 모델의 디코딩 과정에서 낮은 순위로 배치되어 우리가 보지 못하는 것을 의미함.

 

반면, instruction-tuned 모델에서는 𝑘의 효과가 덜 중요한 것으로 나타보인다. 이는 instruction-tuning 과정이 대부분의 CoT 경로를 초기 디코딩 경로로 자연스럽게 가져오도록 하여, 𝑘 값이 크더라도 성능 향상이 크게 나타나지 않음을 의미한다.

 

(왼) PaLM의 모델 크기별로 성능 -> x축인 k를 높일 수록 모든 모델에서 성능이 높아짐.

(오) d : 문제 난이도, I : instruction tuning의 모델 버전을(?) 의미함.

 

3.2 CoT-decoding Enables a Better Understanding of Model’s Intrinsic Reasoning Abilities

기존 모델의 추론 능력을 향상 시키기 위해 인간이 설계한 프롬프트에 의존함. 허나 이는 모델 혼자 얼마나 추론할 수 있는지 측정할 수 없음.

반면, CoT-decoding은 모델 자체만의 역량으로 추론 경로를 탐색하여 모델의 내재된 추론 능력을 더 명확하게 평가 할 수 있음.

 

The presence of correct CoT paths depends on the task difficulty levels and correlates with task prominence in the pre-training distribution.

연구 결과, CoT 경로는 작업이 간단할수록 더 잘 찾고, 작업이 복잡해질수록 CoT 경로를 잘 못찾는 경향을 발견하였다.

특히, 사전 학습에서 보았던 데이터는 더 쉽게 CoT를 생성하는 경향이 있다. <- 거꾸로 말해서, path들을 만들어서 사전학습에서 진행하면 Reasoning기능이 있는 모델을 만들 수 있겠다 라고 생각할 수 있겠네. 그래서 최신 모델들이 이런방식으로 훈련을 진행했나?

이는 모델이 훈련 중에 학습한 문제 분포에 따라 성능 차이가 나며, 더 어려운 문제에서는 외부 프롬프트나 추가적인 학습이 필요할 수 있다는 점을 알려준다.

 

CoT-decoding unveils model’s intrinsic vulnerabilities in reasoning.

CoT decoding을 하는 과정중에서, 모델의 내재적인 취약점을 보여주기도한다. Coin Flip이나 Web of Lies와 같은 작업에서는 모델이 각 단계를 추론하는 데 성공하더라도, 복잡한 상태 추적을 할 때 오류를 범하는 경향이 있다. 작업의 복잡도가 증가할수록 모델이 상태 추적을 제대로 하지 못하거나, 중간 단계에서 문제를 놓치는 경우가 많았다. 이를 바탕으로 모델 사전학습시 어떤 부분을 극복해야 하는지 간접적으로 파악할 수 있을 것으로 기대함.


Combining CoT-decoding with CoT-Prompting

CoT-Prompting과 결합했을 때 성능이 더욱 향상될 수 있다.

 

4. Related Work

Chain-of-thought reasoning in large language models : 기존 연구는 더 좋은 CoT추론 경로를 이끌어내는 프롬프트 전략을 제안하는데 집중함. (<- 사람의 주관이 개입). 프롬프트 기법은 모델의 어휘 posterior 분포를 미묘하게 변경하여 문제를 divide and conquer할 수 있게 하나, 이게 모델에 얼마나 영향을 끼치는지 알기 힘들다. 

step-by-step verification, process-based feedback, self-evaluation guided beam search, PathFinder등의 방법들은 프롬프트로 Path를 생성하고, 중간 단계에서 verifiaction을 하여 신뢰도를 얻어가는 연구였음.

 

Instruction-tuning to elicit CoTs in language models.

모델이 instruction tuning을 통해 학습하여, 프롬프트 없이도 CoT경로를 생성할 수 있는 연구들도 있음. 허나 이는 대규모 CoT데이터가 필요함.

 

Decoding algorithms for language models.

greedy decoding, temperature sampling, Top-k sampling, nucleus sampling, minimum Bayes risk decoding, typical decoding, diverse beam search등 방법들이 있음.

 

Decoding algorithms for efficiency 생략

 

5. Conclusion and Discussion 생략

 

 

0 Abstract

  • 기존: LLM이 한 번에 하나의 다음 토큰만 예측 (next-token prediction)
  • 제안: 한 번에 여러 개의 미래 토큰을 동시에 예측 (multi-token prediction)
    • 언어 모델을 훈련할 때 한 번에 여러 개의 토큰을 예측하도록 하는 것이 효율성이 높다.(코스트, 수렴 속도 등)
    • Shared model trunk와 n개의 독립적인 output heads 사용
  • 성능 : 모델 크기가 클수록 더 효과적이며, 코딩과 같은 생성적 벤치마크에서 더 효과적임.
    • next-token 모델보다 HumanEval에서 12% 더 많은 문제를, MBPP에서 17% 더 많은 문제를 해결

 

1. Introduction

 

  • 현 시점의 LLM은 next token prediction으로 LLM을 훈련하여, 엄청난 양의 지식과 기본적인 reasoning capabilities를 학습
  • 허나, next token prediction으로 지식 및 Reasoning capabilities를 얻기까지는 매우 비효율적인 과정이 들어가있음.
    • 예) teacher forcing과 next-token prediction은 지역적 패턴에 집착하고 hard decisions를 간과하여, 인간과 동일한 수준에 도달하려면 수십배 더 많은 데이터가 필요함.
  • LLMs를 multiple tokens를 한번에 예측하도록 훈련하면, 더 나은 sample efficiency로 이끌 것이라고 생각함. Figure 1 처럼, multi-token prediction은 LLM이 n개의 미래 토큰을 모두 한번에 그리고 병렬로 예측하도록 한다.

 

 

 

 

 

 

 

기여점: Multi-token prediction이 이전 문헌(Qi et al., 2020)에서 연구되었지만, 이 연구는 다음과 같은 기여를 한다.

  1. 훈련 시간이나 메모리 오버헤드가 없는 간단한 multi-token prediction 아키텍처를 제안(Section 2).
  2. 이 훈련 패러다임이 대규모에서 유익하다는 실험적 증거를 제공하며, 13B 파라미터까지의 모델이 평균적으로 약 15% 더 많은 코드 문제를 해결(Section 3).
  3. Multi-token prediction은 self-speculative decoding을 가능하게 하여, 다양한 batch-sizes에서 inference 시간을 최대 3배까지 더 빠르게 만든다(Section 3.2).

 

2. Method

  • 기존 Next token prediction Loss function : minimize $L_1$ loss (CrossEntropy)
    • $L_1 = -\sum_t \log P_\theta(x_{t+1} | x_{t:1})$
      • $P_\theta$ : LLM
      • 목표 : 과거 토큰들 $x_{t:1} = x_t, ..., x_1$이 주어졌을 때 다음 토큰 $x_{t+1}$의 확률을 최대화하도록 학습
  • 제안 : 위 방식을 일반화하여 Multi-token prediction task 구현, 모델은 한번에 n개의 미래 토큰을 예측하도록 지시함.
    • $L_n = -\sum_t \log P_\theta(x_{t+n:t+1} | x_{t:1})$
    • 이를 실용적으로 하기 위해 다음을 한다.
      • 관찰된 컨텍스트 $x_{t:1}$의 잠재 표현 $z_{t:1}$을 생성하는 공유 trunk
      • n개의 미래 토큰을 병렬로 예측하기 위한 n개의 독립적인 heads
    • 위 정보를 바탕으로 multi-token prediction cross-entropy loss를 다음과 같이 유도함.
      • $L_n = \logP_\theta(x_{t+n:t+1}|z_{t:1}) \cdot P_\theta(z_{t:1} | x_{t:1})$
      • $L_n = -\sum_t \sum_{i=1}^n \log P_\theta(x_{t+i}| z_{t:1}) \cdot P_\theta(z_{t:1} | x_{t:1})$
    • 실제로 아키텍처는 다음과 같이 구성:
      • $f_s$ : 관찰된 컨텍스트 $x_{t:1}$에서 hidden representation $z_{t:1}$을 생성하는 shared transformer trunk
      • $f_{h_i}$ : transformer 레이어로 구현된 n개의 독립적인 output heads
      • $f_u$ : 공유 unembedding matrix
    • n개의 미래 토큰을 예측하기 위해 다음을 계산:
      • $P_\theta(x_{t+i}| x_{t:1}) = \text{softmax}(f_u(f_{h_i}(f_s(x_{t:1}))))$
        • $i = 1, ..., n$
        • 예) $P_\theta(x_{t+1} | x_{t:1})$는 next-token prediction head

Memory-efficient implementation

  • Multi-token predictor 훈련의 큰 도전 과제는 GPU 메모리 사용량 감소
  • Vocabulary 크기 V가 latent representation의 차원 d보다 훨씬 크기 때문에 logit 벡터가 GPU 메모리 사용의 병목점이 됨
    • Llama3의 경우 V의 경우 약 128,000(?)으로 기억함. 반면 Latent representation 약 16,000
    • 16000 -> 128,000 맵핑하는 곳에서 병목이 있음
  • $(n, V)$ 모양의 모든 logit과 그 그래디언트를 구체화하는 단순한 구현은 허용 가능한 batch 크기와 평균 GPU 메모리 사용률을 심각하게 제한
  • 이러한 이유로, forward와 backward 연산의 순서를 신중하게 조정하는 아키텍처를 제안

  • 특히 shared trunk $f_s$를 통한 forward pass 후, 각 독립적인 output head $f_i$의 forward와 backward pass를 순차적으로 계산하며 trunk에서 그래디언트를 누적
  • output head $f_i$에 대한 logit(과 그 그래디언트)를 생성하는 동안, 다음 output head $f_{i+1}$로 진행하기 전에 이를 해제
  • 결과적으로 피크 GPU 메모리 사용량을 $O(nV + d)$에서 $O(V + d)$로 감소시켰으며, 런타임에는 영향이 없음
  • 추론시 : 가장 기본적인 사용은 next-token prediction head $P_\theta(x_{t+1} | x_{t:1})$를 사용한 일반적인 자기회귀 예측이며, 다른 heads는 무시한다. 허나, 추가 output heads는 blockwise parallel decoding이나 Medusa-like tree attention과 같은 self-speculative decoding 방법을 통해 디코딩 속도를 향상시키는 데 활용될 수 있음

 

3. Experiments on real data

  • next token predictord와 N-token predictor의 공평한 비교를위해 항상 동일한 양의 파라미터로 비교를 진행. 
    • 4개의 token predictor를 갖고 있고, shared truck의 layer가 32개라면, 32-(4-1)을 하여 29개의 layer만으로 진행

3.1 Benefits scale with model size

 

  • 모델 크기가 커질수록 multi-token prediction의 이점이 더욱 커짐
  • MBPP와 HumanEval에서의 평가 결과, 더 나은 성능을 달성
  • multi-token prediction은 큰모델에서 유용한 방법으로 보임. -> 따라서 지금까지 유용하지 않은 것처럼 보일 수 있었음.

3.2 Faster inference

  • XFormers를 사용하여 heterogeneous batch sizes로 greedy self-speculative decoding 구현
    • Self-speculative decoding : 모델이 t+1 토큰을 예측하며 동시에 그 다음 t+n 토큰들도 예측을 시도
      (구체적인것은 2018논문 찾아볼것)
  • 훈련 중에 보지 않은 코드와 자연어 테스트 데이터셋에서 디코딩 속도 측정, 코드에서 3개 제안 중 평균 2.5개가 수용되어 3.0배 속도 향상, 텍스트에서 2.7배 속도 향상

3.3 Learning global patterns with multi-byte prediction

  • Next-token prediction 작업이 지역적 패턴에 집중한다는 것을 보여주기 위해 byte-level tokenization의 극단적 케이스 실험
  • 314B 바이트(약 116B 토큰에 해당)에 대해 7B 파라미터 byte-level transformer 훈련
    • 8-byte(약 3개 토큰) prediction 모델이 next-byte prediction에 비하여 높은 성능 향상 달성:
      • MBPP pass@1에서 67% 더 많은 문제 해결
      • HumanEval pass@1에서 20% 더 많은 문제 해결
    • 문장을 읽을 때, 한 글자씩 읽는 것이 아니라 여러 글자를 한번에 보고 이해하는 것과 유사한 개념. 이렇게 함으로써 모델이 더 넓은 문맥을 한번에 이해하고 처리할 수 있게 된다.

3.4 Searching for the optimal n

  • 200B 토큰의 코드로 훈련된 7B 모델에 대해 실험을 진행( n = 1, 2, 4, 6, 8)
  • 4 token으로 훈련한것이 일관적으로 높은 성능을 달성하나, APPS데이터에서는 6일경우 좋은 성능을 보임
    • 데이터 분포에  따라 최적의 N이 달라질 수 있음.

3.5 Training for multiple epochs

Multi-token training은 동일한 데이터에 대해 여러 에포크를 훈련할 때도 next-token prediction에 비해 우위를 유지. 단, 성능 향상 폭은 줄어들긴 함.

 

3.6 Finetuning multi-token predictors(Appendix F)

  • Multi-token prediction loss로 사전학습된 모델들은 파인튜닝에서도 next-token 모델들보다 더 나은 성능을 보임.
    • Section 3.3의 7B 파라미터 모델들을 CodeContests 데이터셋에서 파인튜닝하여 실험
      • 4-token prediction 모델과 next-token prediction 베이스라인을 비교, 4-token prediction 모델에서 추가 prediction heads를 제거하고 classical next-token prediction target으로 파인튜닝하는 설정도 포함
      • 결과 : 4-token prediction 모델을 파인튜닝하는 두 방식 모두 모든 pass@k 메트릭에서 next-token prediction 모델보다 더 나은 성능을 보임
        • 여기서 두 방식이란
          • n' = 4 : 4 token prediction으로 학습하고 4Token prediction로 파인튜닝
          • n' = 1 : 4 token prediction으로 사전학습된 모델에서 prediction heads를 제거하고 classical next-token prediction(즉, 1-token prediction)으로 파인튜닝
      • 4-token prediction 사전학습 하고 next-token prediction 파인튜닝을 하는 것이 가장 좋은 방법으로 보이며, 보조 태스크로 사전학습한 후 태스크별 파인튜닝을 하는 전통적인 방법들과 일치함. (자세한 내용은 Appendix F)

3.7 Multi-token prediction on natural language

  • 200B 토큰의 자연어로 4-token, 2-token, next-token prediction loss를 각각 사용하여 7B 파라미터 모델들을 훈련
  • 6가지 데이터 셋에 대해서 실험을 진행하였음 (대부분 Multiple choice 문제)
    • 2-future token prediction 모델이 next-token prediction 베이스라인과 비슷한 성능을 보임.
    • 6개 데이터 셋은 주로 multiple choice 형식의 문제나 likelihood 기반의 평가를 사용하나, 논문의 저자들은 이러한 평가 방식이 언어 모델의 생성 능력을 효과적으로 측정하기에는 적합하지 않다고 판단
      -> 추가로 요약 테스크와, 수학문제 해결 능력 평가하는 실험을 진행

  • 요약 태스크의 경우:
    • 8개의 벤치마크에서 ground-truth 요약에 대한 ROUGE 메트릭으로 평가.
    • 각 벤치마크의 훈련 데이터셋에서 3 에포크 동안 각 사전학습 모델을 파인튜닝
    • 검증 데이터셋에서 가장 높은 ROUGE-L F1 점수를 가진 체크포인트 선택
    • n = 2와 n = 4 모두 훈련 데이터셋 크기와 관계없이 next-token 베이스라인보다 ROUGE-L F1 점수가 향상됨
    • 큰 데이터셋 크기에서는 성능 격차가 줄어듦
  • 수학의 경우:
    • GSM8K 벤치마크에서 8-shot 모드로 사전학습 모델 평가
    • Chain-of-thought로 유도된 최종 답변의 정확도 측정
    • 코드 평가와 같이 답변의 다양성과 정확성을 정량화하기 위해 pass@k 메트릭 사용
    • 200B 토큰 후에는 2-token prediction 모델이 next-token 베이스라인보다 명확한 우위
    • 500B 토큰 후에는 순서가 역전됨 (next-token이 우수)
    • 4-token prediction 모델은 전반적으로 성능이 좋지 않음

4. Ablations on synthetic data

  • "multi-token prediction이 성능을 향상시킨다"는 결과가 정확히 왜, 어떻게 발생하는지 이해하기 위한 실험을 진행
  1. 작은 크기의 모델에서의 발견:
    • Induction capability(이전에 나온 패턴을 기억하고 활용하는 능력)가 크게 향상됨
    • 일반적인 next-token 방식으로는 이런 능력이 잘 생기지 않았지만, multi-token 방식에서는 이 능력이 잘 형성됨
  2.  수학 문제 해결에서의 발견:
    • Multi-token prediction을 사용하면 수학 문제 해결 능력이 향상됨
    • 이 향상 정도는 모델의 크기를 3배 늘렸을 때보다도 더 컸음
    • 즉, 단순히 모델을 크게 만드는 것보다 multi-token 방식을 사용하는 것이 더 효과적이었다는 의미

4.1 Induction capability

  • Induction : 간단한 추론 패턴을 의미함.
    • 예시) 문장에 "AB"가 포함되어 있고 나중에 "A"가 언급되면, induction은 다음에 "B"가 올 것이라고 예측하는 것
  • 실험 :
    • 모델 : 1M ~ 1B까지 임베딩 모델이 없는 작은 모델들
    • 데이터 : child 이야기 데이터셋
    • 테스트 : 원본 테스트셋에서 100개 선택해서 이름 수정
      • 이름 수정 : 원래 이름 "John" → 무작위 생성된 "Token1 Token2"
    • 실험 방법 : 이름이 최소 한 번 언급된 후 각 이름의 두 번째 토큰을 예측하는 것은 순수한 induction 태스크로 볼 수 있음
      • 이름이 최소 한 번 이상 문장에서 등장한 후에만 측정, 모델이 이전에 본 패턴을 기억하고 재현할 수 있는지를 테스트
    • 실험에서는 최대 90 에포크까지 훈련하고 테스트 메트릭에 대해 early stopping을 수행
  • 결과 : 
    • 작은 모델(30M 파라미터 이하): multi-token prediction이 매우 효과적, 큰 모델(100M 파라미터 이상): 이점이 감소
    • Multi-token prediction은 모델이 단어들의 위치 간의 관계를 학습하게 촉진하는 것으로 보임.
      • induction heads와 다른 in-context learning 메커니즘의 형성에 도움이 됨
      • 허나, induction capability가 일단 형성되면, 이러한 학습된 특징들은 induction을 현재 토큰에서 해결할 수 있게됨
        -> 이 시점부터는 multi-token prediction이 실제로 이 제한된 벤치마크에서 성능을 저하시킬 수 있음
      • 허나, 이는 3.1의 결과와는 상반됨
        -> 3.1의 결과에서는multi-token prediciton이 더 기여할 수 있는, 좀더 고차원적인 in-context reasoning이 있다고 추측한다.

4.2 Algorithmic reasoning

  • induction보다 더 복잡한 형태의 In context reasoning을 측정하기 위해 algorithmic reasoning task 수행.
  • 결론 : 

 

  • 다중 토큰 예측으로 훈련하면 작업의 난이도에 관계없이 정확도가 증가
  • 도메인 외 일반화 성능을 상당히 개선시키지만, 여전히 성능 낮음

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 허나, 모델 크기를 세배로 늘리는 것보다, 다중 토큰을 사용하는 것이 효과가 더 좋음.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5. Why does it work? Some speculation

직관적으로 설명하면, 훈련-평가 불일치(mismatch)를 완화함으로서 성능 향상을 일으킴. 불일치의 원인으로는 훈련에서는 Teacher forcing을 진행하는데반에 추론에서는 autoregressive한 생성을 진행하기 때문이다. 

 

5.1 Lookahead reinforces choice points

텍스트 생성에서 모든 토큰들이 중요한 것은 아님. 일부 토큰은 약간 바뀌어도 문장의 내용에 큰 영향을 끼치지 않는다. 반면, 선택 지점(choice points)으로 불리는 특정 토큰은 문맥, 흐름에 중요한 영향을 끼침. 

multi token prediction 훈련은 각 토큰이 후속 토큰과 얼마나 연관이 있는지에 따라 중요한지 판단하여, 중요한 토큰에 더 많은 학습 비중(가중치)를 둔다.

 

예를 들어, 특정 토큰이 예측하기 어려운 부분이라고 하자. 특정 토큰의 순서가 예측하기 어렵기에, 당연하게도 이후에 결과들 또한 예측이 불가하다. 허나 다중 토큰 예측 손실은 이러한 분기점에 더 많은 학습 비중을 두어 모델이 해당 지점을 잘 처리하도록 학습되었다.

 

쉽게 말해, 다중 토큰 예측은 모델이 이러한 중요한 선택 지점을 더 잘 다룰 수 있도록 학습을 강화한다.

 

 

 

 

 

 

 

 

5.2. Information-theoretic argument

정보이론적으로 설명하였는데 생략함.

 

6. Related Work

Language modeling losses

Multi-token prediction in language modelling

 

 

Self-speculative decoding

Multi-target prediction

 

 

+ Recent posts