[논문리뷰] FineSurE : Fine-Grained Summarization Evaluation Using LLMs

notdecidedyet 2024. 11. 14. 20:18

2024. 11. 14. 20:18

0 Abstract

LLM을 통해 자동 평가 방법은 여전히 어려운 과제.
ROUGE와 같은 전통적인 메트릭은 실제 인간의 판단과 약한 상관관계를 보임.
-> LLM의 판단과 사람의 판단이 일치하지 않음.
(위 한계를 극복하고자)LLM 기반 방법인 G-Eval이 연구되었음.
GPT-4를 사용하여 뉴스 도메인에서 인간 판단과 0.5 이상의 상관 계수를 보임.
- 허나, 현재의 LLM 기반 자동 평가 방법이 여전히 정확한 평가에 미치지 못한다고 생각함.
- 평가 파이프라인과 평가 차원에서 아쉬운 부분이 있음.
  - 현재, 충실성, 일관성, 관련성과 같은 평가는 요약 수준에서 평가되어 각 요약에 대한 리커트 척도 점수를 산출.
    -> 구체적인 평가 정의가 없음.
  - 이러한 리커트 척도 채점 방식은 생성된 요약의 오류에 대한 세부 정보가 부족함.
  - 예를 들어, 품질 문제가 있는 요약 문장의 수나 각 문장에 존재하는 오류 유형을 명시하지 않음
제안 :
- 세밀한 평가기인 FineSure 도입
  - Faithfulness, completeness, conciseness 측면
  - 문장 수준의 세밀한 측정 (fact checking, alignment)

1. Introduction

텍스트 요약의 정의 : 텍스트의 핵심 정보를 유지하며, 압축된 요약을 생성하는 것을 목표로함.
- 다만, LLM이 좋은 성능을 갖더라도, 자동으로 평가하는 방법은 어려움.
- ROUGE와 같은 전통적인 메트릭은, 인간이 평가한 지표와 상관성이 너무 낮음.
  -> 이로인해 자동화된 메트릭을 사용하지 못하고, 비용이 많이 들어가는 사람 평가에 의존
자동화된 평가의 필요성 대두 :
- 다양한 연구들이 있었으나, 최신 LLM평가 방법인 G-Eval은 뉴스 도메인 요약에서 (자동화된 지표와, 인간의 점수)와 0.5이상의 상관 계수를 보임.
  -> 비용 집약적임.
허나, 이러한 발전에도 LLM 기반 자동 평가 방법들이 여전히 정확한 평가를 달성하지 못하고 있다고 주장
- 이유 : 주관적이며, 구체성이 없음 - 주로 평가 파이프라인이 coarse-grained(대략적)이며 평가 차원의 모호성 때문
- 구체적으로 coarse-grained 평가의 경우, faithfulness, coherence, relevance와 같은 평가 차원들이 주로 요약 수준에서 평가되어 각 요약에 대해 Likert-scale(int 1-5) 점수를 산출
  (예, 품질 문제가 있는 요약 문장의 수, 어느 문장이 문제가 있는지, 구체적인 문제이유 등)

FinSurE제안 : 자동화 메트릭
- 평가 지표 :
  - faithfulness : factuality오류를 최소화
  - completeness : 원본 글에서 keyfact를 얼마나 포함하는지
  - conciseness : 불필요한 세부 사항을 얼마나 사용하지 않았는지
- (figure 1) fact checking : 각 요약 문장에 존재하는 특정 factuality 오류 식별
  -> faithfulness
- (figure 1) keyfact alignment : 각 keyfact와 요약 문장과 연결하는데 중점을 둠.
  -> completeness, conciseness

2. Related Work

Similarity-based Evaluator : 인간 평가와 상관성 낮음.
- ROGUE, BLEU, METEOR : n-gram
- BERTScore, MoverScore, BARTScore : Semantic simliarity
NLI-based Evaluator : faithfulness 평가에만 중점
- 입력 텍스트에서 관련 증거들을 검색해서 사실 확인, 생성된 텍스트의 주장 검증
- DAE, SummaC ~~(구체적인 방법론은 모르겠음.)~~
QA-based Evaluator : 질문과 답변 생성을 위한 모델 훈련이 필요
- reference 텍스트에서 질문 생성, 생성된 텍스트를 기반으로 답변 평가
- QAGS, QAFactEval -> Faithfulness
- UniEval : Faithfulness, coherence, relevance, fluency
LLM-Based Evaluator : 세밀한 평가 부족, Faithfulness에만 중점.
- edited text, atomic facts, 외부 KB사용

3. FineSurE Framework

3.1 Evaluation Dimensions

LLM은 hallucination, 정보 누락, 장황함(verbosity)의 문제를 겪고 있어 평가 메트릭을 고심함.
- Faithfulness: 원본 문서의 정보만을 갖고 요약을 생성했는지
  -> LLM이 갖고 있는 지식을 사용하지 않았는지
  -> 7가지 factuality (Out of context, predicate, entity, circumstance, coreference, discourse link, grammatical)
  -> 2가지 other error, no error 추가
- Completeness: 모델이 원본 문서의 모든 keyfact를 요약문에 포함하도록 보장하는 것
  -> 필요한 말들을 다 포함하는지 체크
- Conciseness: 모델이 출력에서 keyfact 외의 정보를 포함하지 않고, 간결하고 집중된 요약을 유지하는 것
  -> 이상한 말을 하지 않는지 체크

3.2 Evaluation Pipeline

LLM을 fact checking과 keyfact alignment 작업을 수행하도록 함.(Figure3,4)

3.2.1 Fact Checking :
- 7가지 factuality오류 확인 (Out of context, predicate, entity, circumstance, coreference, discourse link, grammatical)
- 2가지 other error, no error 추가 확인
- 9개 카테고리중 하나로 분류된 오류 유형을 출력
3.2.2 Keyfact Alignment :
- 각 keyfact가 요약본에서 확인할 수 있는지 확인. 확인이 된다면 요약본 몇번째 라인인지 확인
- keyfact의 정의 : 원본에서 확인할 수 있는 entity 2-3개로 문장 재구성 (다 문항으로 재구성)
3.2.3 Parsing Scoring :
- $Faithfulness(D, S) = |S_{fact}|/|S|$
  - $D$ : 문서
  - $S = {s_1, ..., s_N}$ : N개의 문장의 요약
  - $S_{fact} \subseteq S$ : no error라고 판별된 부분집합
- $Completeness(K, S) = |{k|(k, s) \in E}|/|K|$
  - $K = {k_1, ..., k_M}$ : M개의 keyfact 목록 (원본에서 keyfact 추출 생성)
  - $E = {(k, s) : k → s | k \in K \wedge s \in S}$ : keyfact와 요약문이 align되는 집합들
  - completeness를 쉽게 설명하자면, (keyfact와 요약문이 align되는 수) / (Keyfact수)
- $Conciseness(K, S) = |{s|(k, s) \in E}|/|S|$
  - conciseness 쉬운 설명 : (keyfact와 요약문이 align되는 수) / (요약문 수)

3.3 Prompt Engineering

시도한 방법 :
- Basic Prompt: "요약 문장이 transcript에 의해 뒷받침되는가?"와 같은 일반 텍스트의 기본적인 질문 프롬프트
- Instruction: "Instruction:"을 사용하여 단계별 지침으로 제공되는 프롬프트
- Categorization: 대상 카테고리를 제공하여 분류 작업을 수행하는 프롬프트
- Reasoning: chain-of-thought 접근 방식을 사용하여 추론 단계를 포함하는 프롬프트
- Evidence Mapping: LLM이 내린 결정을 확인하기 위해 입력에서 정확한 인용을 요청하는 프롬프트
정리 : 모든 기술을 결합한것이 좋은 성능을 가져온 것은 아님. faithfulness의 경우, instruction, categorization, reasoning을 결합한 것이 좋았으며, completeness, conciseness는 Instruction만 사용한 것이 좋았음.

3.4 Keyfact Extraction

completeness와 conciseness를 평가하기 위해서는 keyfact가 필요
인간이 keyfact를 생성하는데 가장 좋으나, ~~(현실적으로 불가능하기에)~~ LLM을 사용해 자동으로 keyfact 추출
한계점 : 문장의 길이와 무관하게 16개의 Keyfact만을 추출하게 하였음.

4. Evaluation

Dataset :
- FRANK : factuality오류 유형에 대한 주석이 있음.
- REALSumm : 인간의 keyfact와, keyfact와 요약에 존재하는지 주석이 있음.
LLMs as Evaluators : GPT4, Mixtral, Phi-2, Llama2,3, GPT3.5, GPT4o
Baselines : ROGUE1,2,L, BERTScore, BARTScore, CummaC-Conv, UniEVAL, QAFactEval, G-Eval
Performance : 인간의 평가를 ground-truth로 놓고, LLM의 평가와 상관성을 측정

4.1 Main Results : Evaluators Comparison

4.1.1 Faithfulness : factuality확인

데이터셋에는 요약마다 오류가 있는지 없는지 label이 있음
-> recall, precision을 계산할 수 있고, bAcc(=(recall+precision)/2)지표 계산
86.4%의 정확도로 인간과 일치도를 보여줌.

Faithfulness는 7가지 faculty오류를 분류하는데,Table2와 같이 zeroshot추론에서 위와 같은 정확도 성능을 보임.
허나 정확한 오류 유형을 식별하는데 있어 많은 실수가 있긴 함.

4.1.2 Completeness, Conciseness

FineSurE의 성능이 좋음. 인간과 매우 높은 일치 보임.
G-Eval과 같은 LLM 방법으로는 달성할 수 없는, 요약에서 중요한 정보를 검증하는데 keyfact alignment가 필수적임.
FineSurE+는 자동화된 keyfact extraction으로 타 메트릭보다 높은 성능을 보임

4.1.3 Stability in Evaluation Results

temperature가 0이더라도 LLM의 무작위성으로 안정성이 우려됨
G-Eval과 같이 리커트 점수를 사용하는 경우 변동성이 있음
FineSurE는 세번의 서로 다른 실험에서 요약 수준 평가 ㅈ머수에서 높은 일치도를 유지함.
IAA(답변 쌍이 일치하는지 확인)

4.2 LLMs as Evaluators Comparison : 다양한 LLM에서 실험 - 생략

4.3 Evaluation using FineSurE

GPT의 다양한 버전을 포함한 proprietary LLM은 오픈소스 대응 모델들과 비교하여 높은 품질의 요약을 생성
GPT-4-omni는 Tables 5-6에서 자동 평가자로서 인간과 가장 높은 일치도를 보여주지만, faithfulness와 completeness 점수는 GPT-3.5-turbo보다도 상당히 낮음.
결과적으로, GPT-4-omni는 요약 생성에서 더 많은 hallucination을 포함. 많은 중요한 keyfact를 놓칠 가능성이 높음.
~~일반화 해서 말할 수 있는 것인가?~~

'DeepLearing > NLP(LLM)' 카테고리의 다른 글

[논문리뷰] THINK-ON-GRAPH 2.0: DEEP AND FAITHFUL LARGELANGUAGE MODEL REASONING WITH KNOWLEDGEGUIDED RETRIEVAL AUGMENTED GENERATION (0)	2024.11.26
[논문리뷰]Think-on-Graph DEEP AND RESPONSIBLE REASONING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH (0)	2024.11.18
[논문리뷰] Speculative RAG- Enhancing Retrieval Augmented Generation through Drafting (4)	2024.11.12
[논문리뷰] Late Chunking : Contextual Chunk Embeddings Using Long-Context Embedding Models (1)	2024.11.10
[논문리뷰] LightRAG: Enhancing Language Models with Graph-Structured Retrieval (4)	2024.11.06
[논문리뷰] GNN-RAG : Graph Neural Retrieval for Large Language Model Reasoning (3)	2024.11.05
[논문리뷰] RepoCoder:Repository-Level Code Completion Through Iterative Retrieval and Generation (1)	2024.10.08
[논문리뷰] AGENT WORKFLOW MEMORY (2)	2024.10.08

notdecidedyet