이 논문에서 얻어진 결과물로 FineTuning에 활용할 수 있는 방법은?

-> generalization, memorizaiton 어디 부분에 포커싱을 할 것인지 결정.

 

0 abstract

  • In-context Learning(ICL): Transformer 모델은 context 내의 새로운 정보를 사용할 수 있는 능력을 보임.
  • ICL의 출현 조건:
    • 모델이 다양한 task 데이터로 학습될 때 ICL이 나타남.
    • Task diversity가 증가하면 memorization에서 generalization으로의 급격한 전환이 관찰됨.
  • generalization의 기존 해석: 네트워크의 제한된 용량으로 generalization으로 발전함.
  • 이 연구 목적 : 작은 transformer 모델을 사용하여 ICL을 이론 및 실험적으로 분석.
    • 주요 발견:
      • MemorizationGeneralization을 담당하는 하위 회로(sub-circuits)는 대체로 독립적.
      • 하위 회로의 상대적 학습 속도가 memorization에서 generalization으로의 전환을 주도.
      • Capacity constraints(용량 제한)은 핵심 요인이 아님.
  • Scaling Law 발견:
    • Task diversity threshold에서 generalization을 시작하는 지점을 결정하는 memorization scaling law를 도출.

 

1. Introduction

  • 큰 transformer 모델은 좋은 일반화 능력을 보여주었음.
  • 이 중에서도 가장 주목할 만한 특징은 in-context learning (ICL)이다.
    • 추가적인 가중치 업데이트 없이, 주어진 문맥에서 정보를 이용해 과제를 해결하는 능력을 말한다. 
  • LLM에서 ICL이 나타난다는 것은, 실시간으로 학습할 수 있는 것과 동일한 이야기이다.
    문맥에 새로운 정보를 제공하면 해당 정보를 바탕으로 문제를 해결해나감.
  • 그렇다면 ICL은 어떻게 나타나는 것일까?
    • 이 논문에서는 두가지 ICL 특성에 초점을 맞춰 살펴본다
      • 데이터 분포 특성 : 데이터 분포의 특성이 ICL을 진행할지, 암기(in weight learning)를 할지 결정한다. 훈련 데이터 task의 다양성이 증가하면 IWL에서 ICL로 전환이 급격하게 이루어진다. (한정적인 웨이트로 인해 일반화가 급격하게 진행).
      • ICL은 일반적으로 attention heads와 MLP를 포함하는 비선형 구간에서 발생.

Contribution and outline

  • Sharp transition 재현: 간단한 one-layer transformer 모델로 memorization에서 generalization으로의 급격한 전환 현상을 재현.
  • ICL원인 분석 : ICL(일반화) 습득과 IWL(암기) 간의 경쟁을 정량적으로 설명하는 분석적 이론 제시. 학습이 진행됨에 따라 ICL이 사라지는 이유를 L2 regularization과 학습 속도의 차이로 설명.

 

  • a) Capacity-constrained 모델 : 
    - 네트워크의 용량 제한이 ICL 획득에 중요한 역할을 한다고 가정
    - Task diversity(과제 다양성)가 증가하면, 네트워크가 데이터셋을 암기(memorize)할 수 있는 용량이 부족해지므로, 자연스럽게 일반화(generalization)를 선호
  • b) Differential learning kinetics 모델 : 
    - memorization과 generalization을 담당하는 하위 회로(sub-circuits)가 독립적으로 작동한다고 가정
    - 두 하위 회로의 학습 속도의 차이 : ICL(일반화)은 더 빠르게 학습되며 초기 손실을 줄입
    - IWL(암기)은 상대적으로 느리게 학습되며 시간이 지남에 따라 점차 훈련 데이터셋을 암기
    - Task diversity가 높아질수록 IWL이 더 느려져, 네트워크가 ICL을 먼저 습득
    - 그러나 시간이 지나면 IWL이 활성화되면서 네트워크가 훈련 데이터셋을 점차 암기하고, 결국 ICL 능력을 잃게 된다.

 

 

 

 

 

2. Task Formulation

  • ICL과 IWL성능을 분리하여 평가할 수 있는 방법을 채택(FIgure 2a)
    • 학습 전, 개의 아이템-레이블 쌍(item-label pairs)을 포함하는 데이터셋 D를 생성
      • $D = \{(x_1, \ell_1), (x_2, \ell_2), \dots, (x_K, \ell_K)\}$
        • $x_i$ : D차원의 랜덤 벡터, $x_i N(0,1/D)$에서 샘플링 됨
        • $l_i$ : 레이블 $l_i$ : {-1, +1} 중에 무작위로 지정
    •  네트워크는 N+1개의 토큰으로 이루어진 시퀀스를 입력으로 받음. 각 토큰 $t_j$는 아이템과 레이블을 결합한 것으로 정의됨.
      • $t_j = x_j \oplus \ell_j$
      • 여기서 $\oplus \el$는 아이템 레이블의 결합(concatenation)을 의미함.
      • 처음 N개의 토큰은 아이템과 레이블이 포함된 데이터로 구성된다. 마지막 N+1번째 토큰은 예측할 대상이며 이 토큰의 레이블은 비워진 상태이며 이를 맞추는 태스크를 신경망이 진행해야 함.
        • 더보기
          예)
          N=3인 경우
          (x1, l1)
          (x2, l2)
          (x3, l3)
          xt는 x1, x2, x3중에 하나로 선택되고, 이때 lt를 예측해야함. 허나 xt는 이미 sequence안에 포함되어 있으므로 lt를 유추할 수 있음.
        • 이를 통해 ICL의 성능을 유추할 수 있음.
      • 네트워크는 binary cross entropy loss를 통해 최적화가 진행됨.
    • 데이터셋 DD가 유한하기 때문에 네트워크는 두 가지 방식으로 학습할 수 있습니다:
      • 각 항목의 레이블을 기억하는 방식(IWL).
      • 문맥 내에서 주어진 예제를 사용해 타겟 레이블을 예측하는 방식(ICL).
    • ICL측정을 위해 : 새로운 아이템-레이블 쌍으로 구성된 테스트 데이터셋 $D_test$를 생성(데이터 포멧은 똑같으나 새로운 데이터를 제공하여 암기하지 못한 데이터 셋으로 진행)
    • IWL측정을 위해 : 타겟 토큰이 시퀀스에 없는 경우만 샘플링하여 평가.(암기를 했는지 평가)

3. Results 

3.1 A ONE-LAYER TRANSFORMER MODEL RECAPITULATES ICL PHENOMENOLOGY

  • 핵심 의도 : K에 따라 ICL, IWL이 달라짐. 초기 학습에서 ICL 성능이 정체하다 특정시점에 급격히 증가하는 특징을 보임. 학습 시간이 지나면서 ICL성능이 감소하고 이는 IWL로 전환을 의미함.
  • 모델 : 
    • attention mechanism과 multi-layer perceptron (MLP)으로 구성된 one-layer 네트워크로 실험을 시작
    • 주어진 시퀀스 $에서 각 토큰에 대해 LayerNorm을 적용, attention 연산과 MLP를 통해 최종 logits을 계산
  • ICL 측정 : 
    • Task Diversity K를 변화 시켜보며 학습을 진행함
      • Task Diversity K가 작을 때는 모델이 데이터 셋을 단순히 암기 하려고 함.
      • 반면 K가 충분히 클 때는 모델이 일반화 능력을 보여줌.
        여기서 K는 아이템-label 페어의 수임.
    • (Figure 2b,c) 참고 : K = K* 근처에서 이중적인 분포를 보였으며, 초기에서는 ICL이 학습되었으나 다른 초기에서는 IWL만 학습되었음. 
      • K* : threshold
      • K << K*에서는 IWL하는데 집중하여 새로운 데이터를 학습하지 못함. 
      • K >> K*에서는 새로운 데이터를 학습하고 일반화를 수행함.
      • K == K*에서는 seed에 따라 ICL을 학습하거나, IWL만 학습하는 결과가 나옴.
    • (Figure 2d) : ICL의 정확도가 낮은것에서 완벽으로 급격하게 변한다.
    • (Figure 2e)허나, 과거의 연구에서 보인것과 같이 훈련이 계속 진행됨에 따라 점차 0으로 정확도가 수렴함.
      • 단 이 현상은 attention head의 파라미터가 MLP파라미터보다 더 강하게 정규화 될 경우에만 나타남.
      • 이러한 현상을 transience로 명명하는데 이를 뒤에서 풀어나감.

3.2 DISENTANGLING ICL AND IWL IN A MINIMAL MODEL

  • 핵심 의도 : 최소 모델을 설계하여, ICL, IWL의 독립적인 학습을 정략적으로 분석할 수 있게함.
  • one layer transformer로도 memorization에서 generalization으로 전환 task diversity의 현상을 잘 포착함(Figure2)
  • 허나, 이 모델 또한 비선형 attention, MLP간의 상호작용으로 분석의 어려움이 존재함.
    • 최소 모델을 설계 : 정량적 예측을 가능하게 함.

  • ICL측정 : 기존의 트렌스포머 모델과 비슷하나 target lable의 self attention을 계산하지 않음. $K^TQ$를 살펴보면 오른쪽 밑에 항목은 0임을 볼 수 있음. -> 이를 통해 ICL을 측정.  (여기서 $beta$와 w는 learnable param인데, transformer와 비슷하게 projection을 위한 파라미터임)
  • IWL측정 : 3 Layer MLP ReLU네트워크 구현. -> weight으로 데이터 저장능력을 살펴보려함.

3.3 THE LOSS LANDSCAPE OF THE MINIMAL MODEL

  • ICL과 IWL의 학습 과정과 전환 조건을 수학적으로 설명

3.4 THE DYNAMICS OF ICL ACQUISITION

  • 식 3을 기반으로..
    • 일 때 ICL이 습득된다고 보며
    • 일 때, 네트워크가 ICL을 습득하는 데 걸리는 시간을 계산하는 것이 이번 섹션의 목표임.
    • Minimal Model에서의 Loss Function은 매우 복잡한데 이를 아래와 같이 간소화 할 수 있음.

  • 첫번째 항 : MLP의 역할을 의미하며 IWL이 얼마나 잘 수행되고 있는지 확인하는 term
    • MLP가 출력한 로짓 : 이 값이 클수록 손실이 작아짐.
    • log(1+e) : sigmoid함수의 변형 binary cross entropy와 유사
  • 두번째 항 : Attention head의 역할 ICL의 학습을 나타냄
    • $c_1$ : MLP가 예측한 확률의 평균 : MLP가 데이터를 얼마나 잘 예측하고 있는지 나타냄. 예측이 잘되면 c1이 감소하게 되고, 이로 인해 학습이 느려짐.
    • N : context 길이
    • β : attention강도를 나타내는 파라미터
    • w : attention가중치를 나타내는 파라미터. 주어진 문맥에서 특정 토큰에 얼마나 주의를 기울일지 결정.
    • c2 : MLP관련 상수
  • ICL이 습득되는 초기 상태는 $e^\beta - 1 \
      • w의 변화율 : 
        •  $\frac{dw}{dt}=\frac{c_1}{N}(e^{\beta}-c_2w)$
          • $e^{\beta}$ ICL의 학습을 가속화시키는 요인
          • $c_2w$ : 학습이 진행회면서 w의 증가를 제한시키는 요인
          • β가 커지면 $e^β$의 값이 기하급수적으로 커져 w의 증가를 가속화 하는데, 뒤에 있는 Term으로 제약을 주어, w가 빠르게 증가하지 못하게 만든다
      • beta의 변화율 
        • $\frac{d\beta}{dt} = \frac{c_1}{N}(we^{\beta})$
          •  $\frac{c_1}{N}$ : $\beta$의 증가 속도를 조절함
            • c1 : MLP의 학습 상태에 따라 다르고, 학습이 잘되면 c1이 작아지고 beta의 증가 속도도 느려짐
            • N : context가 길어지면 beta가 천천히 증가함.
          • $we^{\beta}$ : $\beta$의 증가를 가속화 하는 항이다.
            • w : attention 가중치인 w가 커질수록 Beta가 빨리 증가함.
            • 이 항은 beta가 커질수록 더 큰 영향을 끼치며 학습 후반부에 beta가 급격하게 증가하도록 만든다.
      • 지금까지 복잡하게 무엇인가를 설명한 것처럼 보이나,, 그래서 뭔 말을 하고자 하는건데?
        • $e^{\beta}$ : beta와 w의 증가를 빠르게 만들고
        • $c_2w$ : 학습의 브레이크 역할로 w가 지나치게 커지는 것을 방지
        • 이 두항의 상호작용으로 학습 속도를 결정하여, 학습 초반에는 느리나, 중간에는 급격히 빨라졌다 후반에는 안정화가 된다.

3.5 EXPONENTIAL DEPENDENCE OF $t_ICL$ ON INITIAL CONDITIONS

  • 이 섹션에서 말하고자 하는 바는, ICL은 모델의 초기 설정값이 잘못되면 학습이 매우 느리게 진행되거나 실패할 가능성이 매우 높기에, 초기에 어떻게 설정하느냐에 따라 ICL학습 성능을 좌우할 수 있다.

3.6 MEMORIZATION SCALING LAWS AND THE TRANSITION FROM MEMORIZATION TO GENERALIZATION

 

  • ICL의 일시적 특성(transience)의 원인:
    • ICL은 초기 학습 단계에서 먼저 학습되지만, 시간이 지나면서 점차 감소하거나 사라지는 경향이 있음
      -> attention head의 regularization(정규화) 강도와 MLP의 데이터 암기 속도 차이 때문
  • ICL 감소 메커니즘:
    • 학습이 진행되면서 MLP는 데이터를 점점 더 많이 암기(IWL)하게 된다.
    • MLP가 데이터셋을 충분히 암기하면 attention head의 ICL 기여도가 감소하고, 결국 ICL이 소멸
    • Regularization이 적용된 경우, attention head의 파라미터 가 줄어들어 ICL 능력이 더 빨리 감소한다.

  • Y : MLP가 모든 데이터셋의 모든 Item-label 쌍을 암기하는데 걸리는 시간을 나타냄. 이 값이 클수록 MLP가 데이터를 암기하는데 더 오랜 시간이 걸리며 ICL을 할 가능성이 높아짐.
  • X : K는 데이터셋의 다양성을 타나냄. 모델이 학습해야하는 Item-label쌍 수를 의미함
  • Scaling Law : $I_k(\infty) ~ K^v$의 식을 따르며 여기서 v는 0.7임.
    K가 커질수록 Y값이 비선형적으로 증가함을 의미함.
  • 이 식을 통해 ICL이 효과적으로 학습될 수 있는 데이터 다양성의 기준을 제시하고, 모델 학습을 설계할 때 중요한 지표로 활용할 수 있음.

 

 

3.7 SLOW IWL EXPLAINS TRANSIENT ICL

 

  • ICL의 일시적 특성(transience)은 MLP 암기와 regularization의 상호작용으로 인해 발생.
    • MLP가 데이터를 암기하면 attention head의 역할이 줄어들어 ICL이 약화
    • Regularization 강도가 클수록 ICL 감소가 빨라짐.
      • 정규화가 너무 강하면 w값이 감소하면서 ICL학습이 약화되거나, 능력이 소멸할 수 있음.
  • ICL 학습이 지속 가능하려면 regularization을 조정하고 데이터 분포 설계를 신중히 해야 한다는 점을 강조
    • 학습 데이터 분포가 균등하거나 특정 레이블 비율에 강한 제약을 가지면, ICL 학습이 더 어렵거나 실패할 가능성이 높짐
    • 예) 컨텍스트 내 레이블 비율이 항상 균등한 경우, ICL 학습은 매우 느려지고 모델이 데이터를 암기(IWL)하는 경향이 강해짐
      -> 패턴을 찾지 못하기 때문일 것으로 생각됨.

 

 

4. EMPIRICAL VALIDATION

위에서는 이론적으로 ICL, IWL의 특성, 식을 유도하였으나 이번 섹션에서는 실험적으로 검증을 진행함.

 

 

결론 : 

 

  • 이론적부분을 실험적으로 검증:
    • ICL과 IWL의 학습 특성, scaling law, bimodal behavior, 그리고 손실 간 관계가 실험적으로 검증
  • Task Diversity와 Context Length의 중요성:
    • Task diversity와 context 길이는 ICL 학습의 성공 여부와 효율성에 중요한 영향을 미친다.
    • 실험 결과 ICL에 도달하는 시간은 context 길이 에 선형적으로 비례.
  • ICL 학습의 불확실성:
    • 초기화 조건 및 데이터 분포가 ICL 학습에 큰 영향을 미치며, 잘못된 설정은 학습이 실패할 수 있음.
    • 각 N에 대해 100번의 실험을 진행한 결과 $t_{ICL}은$긴 꼬리 분포를 갖음.
  • ICL 학습 설계:
    • ICL을 학습하려면 적절한 데이터 다양성, 레이블 분포, 초기화 전략이 필요
      • K가 충분히 크다면 ICL을 하게 됨
        • 이상적인 $K* : N^{\frac{1}{v}}e^{\frac{-\beta_0}{v}}$
          -> Finetuning시 : Prompt가 같으면 한개의 K로 보는 것이 맞을것으로 생각됨.
      • 불균형 데이터 문제 해결 : 
        • 데이터셋이 특정 패턴에 편향되지 않도록 다양한 Task및 레이블 조합을 포함하도록 함. (+1, -1 비율이 완전히 같거나 극단적으로 다르게 하는 경우를 피해야 함.)
        • 다양한 예제 제공.
          -> 컨텍스트 안에 동일한 유형의 데이터 포함하지 않고, 다양한 속성(길이, 구조, 도메인)을 갖는 데이터를 제공
      • 초기 파라미터 세팅 : 
        • Attention 매트릭스(w,β)의 초기값을 너무 작게 설정하면 학습이 느려지거나 실패할 수 있으니,적절한 값으로 초기화.
        • 대부분 wβ를 정규 분포(예: N(0,0.02))나 균등 분포에서 무작위로 초기화하는데, N(0, 0.1)과 같이 샘플링해서 더 큰 가중치를 부여하도록 조정할 수 있음.

 

 

+ Recent posts