0 Abstract
- LLM을 통해 자동 평가 방법은 여전히 어려운 과제.
- ROUGE와 같은 전통적인 메트릭은 실제 인간의 판단과 약한 상관관계를 보임.
-> LLM의 판단과 사람의 판단이 일치하지 않음. - (위 한계를 극복하고자)LLM 기반 방법인 G-Eval이 연구되었음.
GPT-4를 사용하여 뉴스 도메인에서 인간 판단과 0.5 이상의 상관 계수를 보임.- 허나, 현재의 LLM 기반 자동 평가 방법이 여전히 정확한 평가에 미치지 못한다고 생각함.
- 평가 파이프라인과 평가 차원에서 아쉬운 부분이 있음.
- 현재, 충실성, 일관성, 관련성과 같은 평가는 요약 수준에서 평가되어 각 요약에 대한 리커트 척도 점수를 산출.
-> 구체적인 평가 정의가 없음. - 이러한 리커트 척도 채점 방식은 생성된 요약의 오류에 대한 세부 정보가 부족함.
- 예를 들어, 품질 문제가 있는 요약 문장의 수나 각 문장에 존재하는 오류 유형을 명시하지 않음
- 현재, 충실성, 일관성, 관련성과 같은 평가는 요약 수준에서 평가되어 각 요약에 대한 리커트 척도 점수를 산출.
- 제안 :
- 세밀한 평가기인 FineSure 도입
- Faithfulness, completeness, conciseness 측면
- 문장 수준의 세밀한 측정 (fact checking, alignment)
- 세밀한 평가기인 FineSure 도입
1. Introduction
- 텍스트 요약의 정의 : 텍스트의 핵심 정보를 유지하며, 압축된 요약을 생성하는 것을 목표로함.
- 다만, LLM이 좋은 성능을 갖더라도, 자동으로 평가하는 방법은 어려움.
- ROUGE와 같은 전통적인 메트릭은, 인간이 평가한 지표와 상관성이 너무 낮음.
-> 이로인해 자동화된 메트릭을 사용하지 못하고, 비용이 많이 들어가는 사람 평가에 의존
- 자동화된 평가의 필요성 대두 :
- 다양한 연구들이 있었으나, 최신 LLM평가 방법인 G-Eval은 뉴스 도메인 요약에서 (자동화된 지표와, 인간의 점수)와 0.5이상의 상관 계수를 보임.
-> 비용 집약적임.
- 다양한 연구들이 있었으나, 최신 LLM평가 방법인 G-Eval은 뉴스 도메인 요약에서 (자동화된 지표와, 인간의 점수)와 0.5이상의 상관 계수를 보임.
- 허나, 이러한 발전에도 LLM 기반 자동 평가 방법들이 여전히 정확한 평가를 달성하지 못하고 있다고 주장
- 이유 : 주관적이며, 구체성이 없음 - 주로 평가 파이프라인이 coarse-grained(대략적)이며 평가 차원의 모호성 때문
- 구체적으로 coarse-grained 평가의 경우, faithfulness, coherence, relevance와 같은 평가 차원들이 주로 요약 수준에서 평가되어 각 요약에 대해 Likert-scale(int 1-5) 점수를 산출
(예, 품질 문제가 있는 요약 문장의 수, 어느 문장이 문제가 있는지, 구체적인 문제이유 등)
- FinSurE제안 : 자동화 메트릭
- 평가 지표 :
- faithfulness : factuality오류를 최소화
- completeness : 원본 글에서 keyfact를 얼마나 포함하는지
- conciseness : 불필요한 세부 사항을 얼마나 사용하지 않았는지
- (figure 1) fact checking : 각 요약 문장에 존재하는 특정 factuality 오류 식별
-> faithfulness - (figure 1) keyfact alignment : 각 keyfact와 요약 문장과 연결하는데 중점을 둠.
-> completeness, conciseness
- 평가 지표 :
2. Related Work
- Similarity-based Evaluator : 인간 평가와 상관성 낮음.
- ROGUE, BLEU, METEOR : n-gram
- BERTScore, MoverScore, BARTScore : Semantic simliarity
- NLI-based Evaluator : faithfulness 평가에만 중점
- 입력 텍스트에서 관련 증거들을 검색해서 사실 확인, 생성된 텍스트의 주장 검증
- DAE, SummaC
(구체적인 방법론은 모르겠음.)
- QA-based Evaluator : 질문과 답변 생성을 위한 모델 훈련이 필요
- reference 텍스트에서 질문 생성, 생성된 텍스트를 기반으로 답변 평가
- QAGS, QAFactEval -> Faithfulness
- UniEval : Faithfulness, coherence, relevance, fluency
- LLM-Based Evaluator : 세밀한 평가 부족, Faithfulness에만 중점.
- edited text, atomic facts, 외부 KB사용
3. FineSurE Framework
3.1 Evaluation Dimensions
- LLM은 hallucination, 정보 누락, 장황함(verbosity)의 문제를 겪고 있어 평가 메트릭을 고심함.
- Faithfulness: 원본 문서의 정보만을 갖고 요약을 생성했는지
-> LLM이 갖고 있는 지식을 사용하지 않았는지
-> 7가지 factuality (Out of context, predicate, entity, circumstance, coreference, discourse link, grammatical)
-> 2가지 other error, no error 추가 - Completeness: 모델이 원본 문서의 모든 keyfact를 요약문에 포함하도록 보장하는 것
-> 필요한 말들을 다 포함하는지 체크 - Conciseness: 모델이 출력에서 keyfact 외의 정보를 포함하지 않고, 간결하고 집중된 요약을 유지하는 것
-> 이상한 말을 하지 않는지 체크
- Faithfulness: 원본 문서의 정보만을 갖고 요약을 생성했는지
3.2 Evaluation Pipeline
- LLM을 fact checking과 keyfact alignment 작업을 수행하도록 함.(Figure3,4)
- 3.2.1 Fact Checking :
- 7가지 factuality오류 확인 (Out of context, predicate, entity, circumstance, coreference, discourse link, grammatical)
- 2가지 other error, no error 추가 확인
- 9개 카테고리중 하나로 분류된 오류 유형을 출력
- 3.2.2 Keyfact Alignment :
- 각 keyfact가 요약본에서 확인할 수 있는지 확인. 확인이 된다면 요약본 몇번째 라인인지 확인
- keyfact의 정의 : 원본에서 확인할 수 있는 entity 2-3개로 문장 재구성 (다 문항으로 재구성)
- 3.2.3 Parsing Scoring :
- $Faithfulness(D, S) = |S_{fact}|/|S|$
- $D$ : 문서
- $S = {s_1, ..., s_N}$ : N개의 문장의 요약
- $S_{fact} \subseteq S$ : no error라고 판별된 부분집합
- $Completeness(K, S) = |{k|(k, s) \in E}|/|K|$
- $K = {k_1, ..., k_M}$ : M개의 keyfact 목록 (원본에서 keyfact 추출 생성)
- $E = {(k, s) : k → s | k \in K \wedge s \in S}$ : keyfact와 요약문이 align되는 집합들
- completeness를 쉽게 설명하자면, (keyfact와 요약문이 align되는 수) / (Keyfact수)
- $Conciseness(K, S) = |{s|(k, s) \in E}|/|S|$
- conciseness 쉬운 설명 : (keyfact와 요약문이 align되는 수) / (요약문 수)
- $Faithfulness(D, S) = |S_{fact}|/|S|$
3.3 Prompt Engineering
- 시도한 방법 :
- Basic Prompt: "요약 문장이 transcript에 의해 뒷받침되는가?"와 같은 일반 텍스트의 기본적인 질문 프롬프트
- Instruction: "Instruction:"을 사용하여 단계별 지침으로 제공되는 프롬프트
- Categorization: 대상 카테고리를 제공하여 분류 작업을 수행하는 프롬프트
- Reasoning: chain-of-thought 접근 방식을 사용하여 추론 단계를 포함하는 프롬프트
- Evidence Mapping: LLM이 내린 결정을 확인하기 위해 입력에서 정확한 인용을 요청하는 프롬프트
- 정리 : 모든 기술을 결합한것이 좋은 성능을 가져온 것은 아님. faithfulness의 경우, instruction, categorization, reasoning을 결합한 것이 좋았으며, completeness, conciseness는 Instruction만 사용한 것이 좋았음.
3.4 Keyfact Extraction
- completeness와 conciseness를 평가하기 위해서는 keyfact가 필요
- 인간이 keyfact를 생성하는데 가장 좋으나,
(현실적으로 불가능하기에)LLM을 사용해 자동으로 keyfact 추출 - 한계점 : 문장의 길이와 무관하게 16개의 Keyfact만을 추출하게 하였음.
4. Evaluation
- Dataset :
- FRANK : factuality오류 유형에 대한 주석이 있음.
- REALSumm : 인간의 keyfact와, keyfact와 요약에 존재하는지 주석이 있음.
- LLMs as Evaluators : GPT4, Mixtral, Phi-2, Llama2,3, GPT3.5, GPT4o
- Baselines : ROGUE1,2,L, BERTScore, BARTScore, CummaC-Conv, UniEVAL, QAFactEval, G-Eval
- Performance : 인간의 평가를 ground-truth로 놓고, LLM의 평가와 상관성을 측정
4.1 Main Results : Evaluators Comparison
4.1.1 Faithfulness : factuality확인
- 데이터셋에는 요약마다 오류가 있는지 없는지 label이 있음
-> recall, precision을 계산할 수 있고, bAcc(=(recall+precision)/2)지표 계산 - 86.4%의 정확도로 인간과 일치도를 보여줌.
- Faithfulness는 7가지 faculty오류를 분류하는데,Table2와 같이 zeroshot추론에서 위와 같은 정확도 성능을 보임.
- 허나 정확한 오류 유형을 식별하는데 있어 많은 실수가 있긴 함.
4.1.2 Completeness, Conciseness
- FineSurE의 성능이 좋음. 인간과 매우 높은 일치 보임.
- G-Eval과 같은 LLM 방법으로는 달성할 수 없는, 요약에서 중요한 정보를 검증하는데 keyfact alignment가 필수적임.
- FineSurE+는 자동화된 keyfact extraction으로 타 메트릭보다 높은 성능을 보임
4.1.3 Stability in Evaluation Results
- temperature가 0이더라도 LLM의 무작위성으로 안정성이 우려됨
- G-Eval과 같이 리커트 점수를 사용하는 경우 변동성이 있음
- FineSurE는 세번의 서로 다른 실험에서 요약 수준 평가 ㅈ머수에서 높은 일치도를 유지함.
IAA(답변 쌍이 일치하는지 확인)
4.2 LLMs as Evaluators Comparison : 다양한 LLM에서 실험 - 생략
4.3 Evaluation using FineSurE
- GPT의 다양한 버전을 포함한 proprietary LLM은 오픈소스 대응 모델들과 비교하여 높은 품질의 요약을 생성
- GPT-4-omni는 Tables 5-6에서 자동 평가자로서 인간과 가장 높은 일치도를 보여주지만, faithfulness와 completeness 점수는 GPT-3.5-turbo보다도 상당히 낮음.
- 결과적으로, GPT-4-omni는 요약 생성에서 더 많은 hallucination을 포함. 많은 중요한 keyfact를 놓칠 가능성이 높음.
일반화 해서 말할 수 있는 것인가?