3.2. 성능 저하 없는 LoRA finetuning(표1): LongCoT를 증류하는 것이 효과적인지 조사함. 과거 연구에 따르면 LoRA는 full finetuning보다 성능이 떨어진다고 하였으나, LoRA fine-tuning이 수학 및 코딩 벤치마크 전반에 full SFT와 비슷하거나 더 우수한 성능을 보임.
-> LongCoT의 능력은 지식 습득에 의존하기보다, 구조화된 추론 패턴을 학습하는데 의존할 수 있음.
-> 따라서 LoRA에서 작동을 잘함.
-> LoRA를 통해 새로운 지식을 배우는것은 효과적이지 않다고 알려져있음.
4.1 Wrong or Corrupted Local Content: 로컬 내용의 오류는 모델 성능에 미미한 영향을 끼침
4.2
최종 솔루션만 제공하는 것으로는 강한 추론 능력 학습 불가
단계 간 논리적 연속성이 중요함. 단순한 단계 증가는 효과 없음.
5.1 SFT+LoRA할 경우 Catastrophic forgetting피할 수 있음.
5.4 Best-of-N에서 제대로 된것을 선택할 수 있다면, 엄청 강력하네...
Abstract
- Long CoT는 reflection, backtracking, self-validation을 포함하나, 어떻게 효과적으로 학습시키는지 어떤 데이터가 필요한지 명확하게 이해되지 않았음.
- 발견1: LLM이 적은 데이터 및 LoRA로 LongCoT를 배울 수 있음을 발견함.
- Qwen2.5-32B-Instruct + 17K 학습후 AIME 56.7%성능 달성
- 발견2: 구조가 내용보다 중요하다는 것을 발견.
- 잘못된 답변이 포함된 샘플로 훈련해도 성능 하락이 미미함(3.2%)
- 숫자를 무작위로 바꾸거나 추론 키워드를 제거해도 성능에 큰 영향이 없음.
- 추론 단계 순서를 섞거나 단계를 삭제하면 성능이 크게 하락함
Introduction
- LRM들은 Long CoT를 통해 복잡한 추론 문제를 해결, 그러나 기존 방법은 공개되지 않거나 비쌈.
-> Long CoT능력을 개발하는 방법은 아직 불명확함 - 적은 데이터 및 적은 웨이트만 학습해도 추론 능력을 크게 향상시킬 수 있음을 보여줌.
- LoRA fine-tuning을 통해 5% 미만의 파라미터를 업데이트하여 o1-preview의 성능을 달성할 수 있다. 모델이 중간 생각을 반영하고 수정하는 것을 성공적으로 배우고(예: "Alternatively"와 "Wait, but"와 같은 추론 키워드를 자주 사용) 어려운 문제를 해결하기 위해 길고 일관된 CoTs를 사용하는 것을 보여준다(그림 1)
Related Work
- Test Time Scaling for Large Language Models:
- Single Long CoT: 모델이 하나의 긴 CoT를 생성하도록 훈련
- 모델: o1, R1, QwQ
- 작동방식: in context reflection, backtracking통한 추론
- Repeatedly Sampled CoT: 모델에서 여러번 응답 생성해 최적의 답을 선택하는것
- 방법: BoN, MCTS 등. 검색 및 Reward모델로 다수 응답 생성
- Single Long CoT: 모델이 하나의 긴 CoT를 생성하도록 훈련
- Training to Improve Reasoning Capabilities of LLMs:
- 직접적인 훈련을 통해 LLM의 추론 능력을 향상 시키는 방법
- 방법: 모델이 스스로의 출력을 개선하도록 훈련. (강화학습)
- 논문: Tulu-3, PRIME, R1
- 직접적인 훈련을 통해 LLM의 추론 능력을 향상 시키는 방법
- Distillation
Simple Distillation is effective
소량의 데이터 및 LoRA만으로 추론 능력을 효과적으로 향상시킬 수 있음을 보여줌
3.1 Experiments Setup
- R1, QwQ-32B-Preview로 증류 데이터 생성.
- 데이터: AIME, Math등에서 어려운 문제들을 선별
-> GPT-4o-mini사용하여 선별.
-> 수학 문제의 경우 정확한 매칭을 통해, 코딩 문제의 경우 코드 실행을 통해 정답과 대조함.
-> 총 12k의 수학문제, 5k의 코딩 문제를 QwQ의 정확한 응답으로 데이터 구성
-> 또 다른 데이터로, 공개된 R1-17k reasoning데이터셋 사용 - 모델: Qwen2.5-32B-Instruct
- Object Function: NextTokenPrediction
- 실험: 전체 파라미터 튜닝, LoRA파인튜닝.
3.2 Key Insights
- 적은 양의 데이터로 충분: 그림1(b)에서 17k(R1) 데이터로 파인튜닝 성능을 보여주는데, SFT, LoRA모두 LongCoT를 배우고, 단 16k 훈련 샘플만으로 모든 벤치마크에서 크게 향상됨.
- 성능 저하 없는 LoRA finetuning(표1): LongCoT를 증류하는 것이 효과적인지 조사함. 과거 연구에 따르면 LoRA는 full finetuning보다 성능이 떨어진다고 하였으나, LoRA fine-tuning이 수학 및 코딩 벤치마크 전반에 full SFT와 비슷하거나 더 우수한 성능을 보임.
-> LongCoT의 능력은 지식 습득에 의존하기보다, 구조화된 추론 패턴을 학습하는데 의존할 수 있음.
-> 따라서 LoRA에서 작동을 잘함.- 7k의 QwQ샘플 + LoRA 모델이 17k QwQ distilled샘플로 훈련된 모델과 비슷함. 그림 1a에서 보듯, LoRA fine-tuned모델은 reflection, self-verification을 통해 LongCoT응답을 생성하는 방법을 쉽게 배움.
4. Long CoT: Structure Is The Key
적은 수의 데이터로 추론 성능이 크게 향상되는 이유를 조사한다.
- local content : 최종 답변의 정확성, 수학 도출에서 숫자의 중요성, 추론 키워드들의 중요성
-> 검증: 이에 해당하는 내용들을 변형. (1+1=3과 같이 틀린 내용으로 변형) - global reasoning : reflection, self-verification, backtracking을 포함하는 구조
-> 검증: 추론 구조를 수정. 셔플링, 삽입, 삭제 등 - 결론: local content에는 관대하나, global reasoning에는 매우 민감함.
4.1 Wrong or Corrupted Local Content: 로컬 내용의 오류는 모델 성능에 미미한 영향을 끼침
- 정답이 틀린 샘플로 훈련: 정확한 샘플 대비 -3.2%하락(엄청 큰 하락은 아니였음)
- 수학 풀이 과정의 숫자 무작위로 대체: 70%의 숫자 손상 62%정확도 -4.3%. 100%의 숫자 손상 2.7%정확도
-> 일부 풀이 과정이 손상되는것은 큰 영향이없다. - 추론 키워드 제거: Wait, Alternatively제거 -> 모든 키워드 제거해도 63%의 정확도 달성
4.2 Corrupted Global Reasoning Structure(fig 3)
- 추론 단계 삭제: 추론단계의 33%, 67%, 100% 삭제
- 결과: 삭제 비율에 따라 선응이 꾸준히 감소함.
- 결론: 최종 솔루션만 제공하는 것으로는 강한 추론 능력 학습 불가
- 추론 단계 삽입: 원래 추론 단계를 다른 문제의 추론 단계로 33%, 67%, 100% 대체
- 결과: 응답 길이와 키워드 사용은 증가했으나, 정확도는 하락함. 각 단계는 개별적으로 일관성이 있으나 전체적인 논리 연결이 부재함. 존재하지 않는 이전 단계를 참조하거나, 일관성이 없는 케이스 열거 등 문제가 발생함.
- 결론: 단계 간 논리적 연속성이 중요함. 단순한 단계 증가는 효과 없음.
- 추론 단계 셔플: 추론 단계의 순서를 무작위로 재배열 (33%, 67%, 100%)
- 결과: 응답 길이, 키워드 사용 증가하나 정확도는 크게 하락함. 92% 이상의 응답이 이전 맥락 없이 Alternatively, Wait으로 시작함. 이전에 언급되지 않은 계산이나 케이스 참조 현상 발생
- 결론: 단계간 논리적 흐름 필수
5. Ablation
5.1 Performance on Non-Reasoning Benchmarks: Long CoT 데이터로 fine-tuning을 하면 비추론 작업에서 성능이 저하되나?
QwQ는 비추론 데이터셋에서 성능하락이 보임
반면 SFT+LoRA할 경우 모든 데이터셋에서 큰 성능 하락이 없음.
SFT+LoRA할 경우 Catastrophic forgetting피할 수 있음.
5.2 Effect on Different Student Models:
모델 8개중 7개가 퍼포먼스가 향상됨. 허나 Qwen2.5-32B만큼의 성능 향상이 있지는 않음.
5.3 Comparison to Best-of-N: BoN에서 생성된 데이터에서 적절하게 잘 선택할 수 있다면 매우 강력함.
BoN으로 성능향상이 큰 모델의 경우, LongCoT로 파인튜닝한 모델의 성능도 성능향상이 컸다.
Llama3.1 8B의 경우 Best-of-8을 해도 10% 미만의 정확도를 보임
-> LongCoT를 해도 성능 향상이 낮음.