0 Abstract
๐ ๊ธฐ์กด RAG ์์คํ ์ ํ๊ณ:
- ํ๋ฉด์ ๋ฐ์ดํฐ ํํ ์ฌ์ฉ, ๋งฅ๋ฝ ์ธ์ ๋ถ์กฑ, ๋ณต์กํ ์ํธ์์กด์ฑ ํฌ์ฐฉ ์คํจ, ๋จํธ์ ์ธ ๋ต๋ณ ์์ฑ
๐ ์ ์ํ๋ ํด๊ฒฐ์ฑ : LightRAG
- ์ฃผ์ ํน์ง:
- ๊ทธ๋ํ ๊ตฌ์กฐ๋ฅผ ํ ์คํธ ์์ธ๊ณผ ๊ฒ์ ํ๋ก์ธ์ค์ ํตํฉ
- Dual-level ๊ฒ์ ์์คํ
๋์
- Low-level
- High-level
- ํต์ฌ ๊ธฐ์ :
- ๊ทธ๋ํ ๊ตฌ์กฐ์ ๋ฒกํฐ ํํ ํตํฉ
- ํจ์จ์ ์ธ ์ํฐํฐ ๋ฐ ๊ด๊ณ ๊ฒ์
- ์ฆ๋ถ ์ ๋ฐ์ดํธ ์๊ณ ๋ฆฌ์ฆ ๊ตฌํ
1 Instruction
๊ธฐ์กด RAG์์คํ ์ ํ๊ณ๊ฐ ์๋ค
- ์ฒซ์งธ, ๋ง์ ๋ฐฉ๋ฒ๋ค์ด ์ํฐํฐ ๊ฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ์ดํดํ๊ณ ๊ฒ์ํ๋ ๋ฅ๋ ฅ์ ์ ํํ๋ ํ๋ฉด์ ์ธ ๋ฐ์ดํฐ ํํ์ ์์กด
- ๋์งธ, ์ด๋ฌํ ์์คํ ๋ค์ ์ข ์ข ๋ค์ํ ์ํฐํฐ์ ๊ทธ๋ค์ ์ํธ ๊ด๊ณ์ ๊ฑธ์น ๋งฅ๋ฝ ์ธ์์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์, ์ฌ์ฉ์ ์ฟผ๋ฆฌ์ ๋ต๋ณ์ ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์์. ์ฌ์ฉ์๋ ์ด๋ฌํ ์ฃผ์ ๋ค ๊ฐ์ ๋ณต์กํ ์ํธ ์์กด์ฑ์ ์ ์ ํ ํฌ์ฐฉํ์ง ๋ชปํ๋ ๋จํธ์ ์ธ ๋ต๋ณ์ ๋ฐ์ ์ ์๋ค.
- ๋๋ณด๊ธฐ
์๋ฅผ ๋ค์ด์ฌ์ฉ์๊ฐ "์ ๊ธฐ ์๋์ฐจ์ ์ฆ๊ฐ๊ฐ ๋์ ๋๊ธฐ์ง๊ณผ ๋์ค๊ตํต ์ธํ๋ผ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์?"๋ผ๊ณ ๋ฌผ์ผ๋ฉด,
๊ธฐ์กด RAG ๋ฐฉ๋ฒ๋ค์ ์ ๊ธฐ ์๋์ฐจ, ๋๊ธฐ ์ค์ผ, ๋์ค๊ตํต ๋ฌธ์ ์ ๋ํ ๋ณ๋์ ๋ฌธ์๋ค์ ๊ฒ์ํ ์ ์์ง๋ง,
์ผ๊ด๋ ์๋ต์ผ๋ก ์ข ํฉํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ ์ ์๋ค
์ ๊ธฐ ์๋์ฐจ ์ฑํ์ด ๋๊ธฐ์ง์ ์ด๋ป๊ฒ ๊ฐ์ ํ ์ ์๋์ง, ์ด๊ฒ์ด ๋ค์ ๋์ค๊ตํต ๊ณํ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น ์ ์๋์ง๋ฅผ ์ค๋ช ํ์ง ๋ชปํ ์ ์๋ค
๐ ์ ์ํ๋ ํด๊ฒฐ๋ฐฉ์ : ๊ทธ๋ํ ๊ตฌ์กฐ ํตํฉ
- ์ํฐํฐ ๊ฐ ์ํธ์์กด์ฑ ํจ๊ณผ์ ํํ
- ๊ด๊ณ์ ๋ํ ๋ฏธ๋ฌํ ์ดํด ๊ฐ๋ฅ
- ๋ค์ค ์์ค ์ ๋ณด์ ์ผ๊ด๋ ํตํฉ
- ๋งฅ๋ฝ์ด ํ๋ถํ ์๋ต ์์ฑ
LightRAG์ ์ฃผ์ ํน์ง
- ๊ทธ๋ํ ๊ธฐ๋ฐ ํ ์คํธ ์์ธ ํจ๋ฌ๋ค์
- Dual-level ๊ฒ์ ํ๋ ์์ํฌ
- Low-level: ํน์ ์ํฐํฐ์ ๊ด๊ณ์ ๋ํ ์ ํํ ์ ๋ณด
- High-level: ๋ ๋์ ์ฃผ์ ์ ํ ๋ง ํฌ๊ด
- ๊ทธ๋ํ ๊ตฌ์กฐ์ ๋ฒกํฐ ํํ ํตํฉ
๐ ํด๊ฒฐํด์ผ ํ ์ฃผ์ ๊ณผ์
- ํฌ๊ด์ ์ธ ์ ๋ณด ๊ฒ์
- ์ํธ ์์กด์ ์ํฐํฐ์ ์ ์ฒด ๋งฅ๋ฝ ํฌ์ฐฉ
- ๋ชจ๋ ๋ฌธ์์์์ ํจ๊ณผ์ ์ธ ์ ๋ณด ์ถ์ถ
- ํฅ์๋ ๊ฒ์ ํจ์จ์ฑ
- ๊ทธ๋ํ ๊ธฐ๋ฐ ์ง์ ๊ตฌ์กฐ ๊ฒ์ ๊ฐ์
- (์๋ต ์๊ฐ ๋จ์ถ)
- ์๋ก์ด ๋ฐ์ดํฐ ์ ์
- ๋์ ํ๊ฒฝ์์์ ์์คํ ๊ด๋ จ์ฑ ์ ์ง
- ๋น ๋ฅธ ๋ฐ์ดํฐ ์ ๋ฐ์ดํธ ์ฒ๋ฆฌ
2. RETRIEVAL-AUGMENTED GENERATION
์ฃผ์ ๊ตฌ์ฑ์์:
- Retrieval Component (๊ฒ์ ๊ตฌ์ฑ์์)
- Generation Component (์์ฑ ๊ตฌ์ฑ์์)
์ํ์ ์ ์ :
- $M = \{G, R = (\phi, \psi)\}$
- $M(q; D) = G(q, \psi(q; \hat{D}))$
- $\hat{D} = \phi(D)$
- $G$: ์์ฑ ๋ชจ๋
- $R$: ๊ฒ์ ๋ชจ๋
- $q$: ์ ๋ ฅ ์ฟผ๋ฆฌ
- $D$: ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค
- $\phi$: ๋ฐ์ดํฐ ์ธ๋ฑ์ : ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค D๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํน์ ๋ฐ์ดํฐ ๊ตฌ์กฐ $\hat{D}$๋ฅผ ๊ตฌ์ถํ๋ ์์ ์ ํฌํจํจ
- $\psi$: ๋ฐ์ดํฐ ๊ฒ์๊ธฐ : ์ธ๋ฑ์ฑ๋ ๋ฐ์ดํฐ์ ์ฟผ๋ฆฌ๋ฅผ ๋น๊ตํ์ฌ ๊ด๋ จ ๋ฌธ์๋ฅผ ์ป์ผ๋ฉฐ, ์ด๋ฅผ "๊ด๋ จ ๋ฌธ์"๋ผ๊ณ ํจ
- ψ(·)๋ฅผ ํตํด ๊ฒ์๋ ์ ๋ณด์ ์ด๊ธฐ ์ฟผ๋ฆฌ q๋ฅผ ํ์ฉํ์ฌ ๊ธ๋ก๋ฒ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ถ์ถ, ์์ฑ ๋ชจ๋ธ G(·)๋ ๋งฅ๋ฝ์ ์ผ๋ก ๊ด๋ จ๋ ์๋ต์ ์์ฑ
3. THE LIGHTRAG ARCHITECTURE
3.1 GRAPH-BASED TEXT INDEXING
Graph-Enhanced Entity and Relationship Extraction :
- ๋ฌธ์๋ฅผ ๋ ์์ ์กฐ๊ฐ์ผ๋ก ๋ถํ ํจ์ผ๋ก์จ ๊ฒ์ ์์คํ
์ ํฅ์(๊ด๋ฆฌํ๊ธฐ ์ฌ์์ง)
-> ์ ์ฒด ๋ฌธ์๋ฅผ ๋ถ์ํ ํ์ ์์ด ๊ด๋ จ ์ ๋ณด๋ฅผ ๋น ๋ฅด๊ฒ ์๋ณํ๊ณ ์ ๊ทผํ ์ ์๊ฒ ํจ. - LLM์ ํ์ฉํ์ฌ ๋ค์ํ ์ํฐํฐ(์: ์ด๋ฆ, ๋ ์ง, ์์น, ์ด๋ฒคํธ)์ ์ด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ์๋ณํ๊ณ ์ถ์ถ
-> ํฌ๊ด์ ์ธ ์ง์ ๊ทธ๋ํ๋ฅผ ๋ง๋๋ ๋ฐ ์ฌ์ฉ - ์ด ๊ทธ๋ํ ์์ฑ ๋ชจ๋์ ๊ณต์์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ํํ:
- $\hat{D} = (\hat{V}, \hat{E}) = Dedupe \circ Prof(V, E)\ \ \ \ V, E = \cup_{D_i \in D} Recog(D_i)$
- $\hat{V}$ : ์ค๋ณต ์ ๊ฑฐ๋ ๋ ธ๋ ์งํฉ
- $\hat{E}$ : ์ค๋ณต ์ ๊ฑฐ๋ ์ฃ์ง ์งํฉ
- Dedupe : Deduplicate
- Prof(V, E) : ์ถ์ถ๋ ์ํฐํฐ์ ๊ด๊ณ์ ๋ํ ์์ธ ์ ๋ณด ์์ฑ
- Recog : ๊ฐ ๋ฌธ์์์ ์ํฐํฐ์ ๊ด๊ณ๋ฅผ ์ธ์ํ๋ ํจ์ - ์ฒ๋ฆฌ ์์ :
1. Recog($D_i$) : ๊ฐ ๋ฌธ์์์ ์ํฐํฐ์ ๊ด๊ณ ์ถ์ถ
2. U : ๋ชจ๋ ์ถ์ถ ๊ฒฐ๊ณผ ํตํฉ
3. Prof : ํตํฉ๋ ๊ฒฐ๊ณผ์ ๋ํ ํ๋กํ์ผ๋ง
4. Dedupe : ์ค๋ณต ์ ๊ฑฐ
5. ์ต์ข ๊ฒฐ๊ณผ : $\hat{D} = (\hat{V}, \hat{E})$ - $\hat{D}$๋ ์์ฑ๋ ์ง์ ๊ทธ๋ํ๋ฅผ ๋ํ๋.
์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ ์ํด, ํ ์คํธ ๋ฌธ์ $D_i$์ ์ธ ๊ฐ์ง ์ฃผ์ ์ฒ๋ฆฌ ๋จ๊ณ๋ฅผ ์ ์ฉ(LLM์ ์ฌ์ฉ)- ์ํฐํฐ ๋ฐ ๊ด๊ณ ์ถ์ถ R(·) - Recog: LLM์ ์ฌ์ฉํ์ฌ ํ
์คํธ ๋ฐ์ดํฐ ๋ด์ ์ํฐํฐ(๋
ธ๋)์ ๊ทธ๋ค์ ๊ด๊ณ(์ฃ์ง)๋ฅผ ์ถ์ถ
- ๋๋ณด๊ธฐ
- ์ ๋ ฅ ํ ์คํธ: "์ฌ์ฅ์ ๋ฌธ์ ๊น์ฒ ์ ๊ต์๋ ์์ธ๋ํ๊ต๋ณ์์์ ์ฌ์ฅ๋ณ ํ์๋ค์ ์ง๋ฃํ๊ณ ์๋ค."
์ถ์ถ๋๋ ์ ๋ณด:
1) ์ํฐํฐ:
- ์ฌ๋: "๊น์ฒ ์" (์ง์ : ์ฌ์ฅ์ ๋ฌธ์, ์ง์: ๊ต์)
- ์กฐ์ง: "์์ธ๋ํ๊ต๋ณ์"
- ์๋ฃ์กฐ๊ฑด: "์ฌ์ฅ๋ณ"
2) ๊ด๊ณ:
- "๊น์ฒ ์ - ๊ทผ๋ฌด - ์์ธ๋ํ๊ต๋ณ์"
- "๊น์ฒ ์ - ์ง๋ฃ - ์ฌ์ฅ๋ณ ํ์"
- ๋๋ณด๊ธฐ
- LLM Profiling์ ํตํ Key-Value ์ ์์ฑ. P(·): LLM ๊ธฐ๋ฐ ํ๋กํ์ผ๋ง ํจ์ P(·)๋ฅผ ์ฌ์ฉํ์ฌ V์ ๊ฐ ์ํฐํฐ ๋
ธ๋์ E์ ๊ด๊ณ ์ฃ์ง์ ๋ํ ํ
์คํธ key-value ์ (K, V)๋ฅผ ์์ฑ.
- ๊ฐ ์ธ๋ฑ์ค ํค๋ ํจ์จ์ ์ธ ๊ฒ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋จ์ด๋ ์งง์ ๊ตฌ๋ฌธ์ด๋ฉฐ, ํด๋นํ๋ ๊ฐ์ ํ ์คํธ ์์ฑ์ ๋๊ธฐ ์ํด ์ธ๋ถ ๋ฐ์ดํฐ์์ ๊ด๋ จ๋ ์ค๋ํซ์ ์์ฝํ ํ ์คํธ ๋จ๋ฝ
- ์ํฐํฐ๋ ์ด๋ฆ์ ์ ์ผํ ์ธ๋ฑ์ค ํค๋ก ์ฌ์ฉํ๋ ๋ฐ๋ฉด, ๊ด๊ณ๋ ์ฌ๋ฌ ์ธ๋ฑ์ค ํค๋ฅผ ๊ฐ์ง ์ ์๋ค.
-
๋๋ณด๊ธฐ์ํฐํฐ์ ๋ํ Key-Value ์์ฑ
1) ์ํฐํฐ: ์ผ์ฑ์ ์
Key: "์ผ์ฑ์ ์"
Value: "ํ๊ตญ์ ๋ํ์ ์ธ ์ ์๊ธฐ์ ์ผ๋ก, ์ค๋งํธํฐ, ๊ฐ์ ์ ํ ๋ฑ์ ์์ฐํ๋ ๊ธ๋ก๋ฒ ๊ธฐ์ .
๊ฐค๋ญ์ ์๋ฆฌ์ฆ๋ฅผ ํตํด ์ค๋งํธํฐ ์์ฅ์์ ์ ๋์ ์์น๋ฅผ ์ฐจ์งํ๊ณ ์์."
2) ์ํฐํฐ: ๊ฐค๋ญ์
Key: "๊ฐค๋ญ์"
Value: "์ผ์ฑ์ ์์ ๋ํ์ ์ธ ์ค๋งํธํฐ ๋ธ๋๋๋ก, 2024๋ ์ ํ ๋ชจ๋ธ์ด ์ถ์๋์ด
์์ฅ์์ ๋์ ์ฑ๊ณผ๋ฅผ ๊ธฐ๋ก. ํ์ ์ ์ธ ๊ธฐ์ ๊ณผ ๋์์ธ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๋ ์ ํ๊ตฐ."
3) ์ํฐํฐ: ์ค๋งํธํฐ ์์ฅ
Key: "์ค๋งํธํฐ_์์ฅ"
Value: "๋ชจ๋ฐ์ผ ๊ธฐ๊ธฐ ์ฐ์ ์ ํต์ฌ ์์ฅ์ผ๋ก, ๋ค์ํ ์ ์กฐ์ฌ๋ค์ด ๊ฒฝ์ํ๋ ๋ถ์ผ.
๊ธฐ์ ํ์ ๊ณผ ์๋น์ ์ ํธ๋์ ๋ฐ๋ผ ๋น ๋ฅด๊ฒ ๋ณํํ๋ ํน์ฑ์ ๊ฐ์ง."
๊ด๊ณ์ ๋ํ Key-Value ์์ฑ
1) ๊ด๊ณ: ์ผ์ฑ์ ์์ ๊ฐค๋ญ์ ์ถ์
Keys: ["์ผ์ฑ_์ ์ ํ", "๊ฐค๋ญ์_์ถ์", "์ค๋งํธํฐ_๋ฐ์นญ"]
Value: "์ผ์ฑ์ ์๊ฐ 2024๋ ์ ํ ๊ฐค๋ญ์ ์ค๋งํธํฐ์ ์ถ์ํ์ฌ ์์ฅ์ ์ ๋ณด์.
์ ์ ํ์ ์ต์ ๊ธฐ์ ๊ณผ ํ์ ์ ๊ธฐ๋ฅ์ ํ์ฌํ์ฌ ์ฃผ๋ชฉ์ ๋ฐ์."
2) ๊ด๊ณ: ๊ฐค๋ญ์์ ์์ฅ ์ฑ๊ณผ
Keys: ["๊ฐค๋ญ์_์ค์ ", "์ค๋งํธํฐ_๋งค์ถ", "์์ฅ_์ฑ๊ณผ"]
Value: "์ ํ ๊ฐค๋ญ์๋ ์ค๋งํธํฐ ์์ฅ์์ ๋์ ๋งค์ถ์ ๊ธฐ๋กํ๋ฉฐ ์ฑ๊ณต์ ์ธ ์์ฅ ๋ฐ์์ ์ป์.
์ ํ์ ํ์ ์ฑ๊ณผ ๋ธ๋๋ ๊ฐ์น๊ฐ ์ฑ๊ณผ์ ๊ธฐ์ฌ."
์ค์ ์ฌ์ฉ ์์
์ง๋ฌธ: "2024๋ ๊ฐค๋ญ์์ ์์ฅ ์ฑ๊ณผ๋ ์ด๋ ๋์?"
ํ๋ก์ธ์ค:
1. "๊ฐค๋ญ์_์ค์ ", "์ค๋งํธํฐ_๋งค์ถ" ๋ฑ์ ํค๋ฅผ ํตํด ๊ด๋ จ ์ ๋ณด ๊ฒ์
2. ๊ด๋ จ๋ Value๋ค์ ๊ฒฐํฉํ์ฌ ๋ต๋ณ ์์ฑ
3. ํ์์ ์ํฐํฐ ์ ๋ณด(์ผ์ฑ์ ์, ๊ฐค๋ญ์)๋ฅผ ์ถ๊ฐํ์ฌ ๋งฅ๋ฝ ๋ณด์ - ๊ทธ๋ํ ์ฐ์ฐ ์ต์ ํ๋ฅผ ์ํ ์ค๋ณต ์ ๊ฑฐ. D(·): ์์ฒ ํ ์คํธ $D_i$์ ์๋ก ๋ค๋ฅธ ์ธ๊ทธ๋จผํธ์์ ๋์ผํ ์ํฐํฐ์ ๊ด๊ณ๋ฅผ ์๋ณํ๊ณ ๋ณํฉํ๋ ์ค๋ณต ์ ๊ฑฐ ํจ์ D(·)๋ฅผ ๊ตฌํ(๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ๋ํด์๋ ์์ ํ์ง ์์)
- ์ํฐํฐ ๋ฐ ๊ด๊ณ ์ถ์ถ R(·) - Recog: LLM์ ์ฌ์ฉํ์ฌ ํ
์คํธ ๋ฐ์ดํฐ ๋ด์ ์ํฐํฐ(๋
ธ๋)์ ๊ทธ๋ค์ ๊ด๊ณ(์ฃ์ง)๋ฅผ ์ถ์ถ
- $\hat{D} = (\hat{V}, \hat{E}) = Dedupe \circ Prof(V, E)\ \ \ \ V, E = \cup_{D_i \in D} Recog(D_i)$
3.2 DUAL-LEVEL RETRIEVAL PARADIGM
์์ธํ ๋ ๋ฒจ๊ณผ ์ถ์ ๋ ๋ฒจ ๋ชจ๋์์ ์ฟผ๋ฆฌ ํค๋ฅผ ์์ฑ(Profiling ๋จ๊ณ์์ ์์ฑ)
- ์์ธํ ์ฟผ๋ฆฌ: ์ธ๋ถ์ฌํญ์ ๋ฌป๋ ์ฟผ๋ฆฌ, ํน์ ๋ ธ๋๋ ์ฃ์ง์ ๊ด๋ จ๋ ์ ๋ณด์ ์ ํํ ๊ฒ์์ด ํ์ (์"'์ค๋ง๊ณผ ํธ๊ฒฌ'์ ๋๊ฐ ์ผ๋์?")
- ์ถ์ ์ฟผ๋ฆฌ: ๋ ๊ฐ๋ ์ ์ด๋ฉฐ, ๋ ๋์ ์ฃผ์ , ์์ฝ, ๋๋ ์ ๋ฐ์ ์ธ ํ ๋ง๋ฅผ ํฌ๊ด. (์ "์ธ๊ณต์ง๋ฅ์ด ํ๋ ๊ต์ก์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์?")
๋ ๊ฐ์ง ๊ตฌ๋ถ๋ ๊ฒ์ ์ ๋ต์ ์ฌ์ฉ : ๋ค์ํ ์ฟผ๋ฆฌ ์ ํ์ ์์ฉํ๊ธฐ ์ํด
- Low-Level ๊ฒ์: ์ฃผ๋ก ํน์ ์ํฐํฐ์ ๊ทธ๋ค์ ๊ด๋ จ ์์ฑ์ด๋ ๊ด๊ณ๋ฅผ ๊ฒ์ํ๋ ๋ฐ ์ค์ . (์ธ๋ถ์ฌํญ ์งํฅ์ )
- High-Level ๊ฒ์: ๋ ๋์ ์ฃผ์ ์ ์ ๋ฐ์ ์ธ ํ ๋ง๋ฅผ ๋ค๋ฃฌ๋ค. ์ด ๋ ๋ฒจ์ ์ฟผ๋ฆฌ๋ ์ฌ๋ฌ ๊ด๋ จ ์ํฐํฐ์ ๊ด๊ณ์ ๊ฑธ์ณ ์ ๋ณด๋ฅผ ์ง๊ณํ์ฌ, ํน์ ์ธ๋ถ์ฌํญ๋ณด๋ค๋ ๊ณ ์ฐจ์์ ๊ฐ๋ ๊ณผ ์์ฝ์ ๋ํ ํต์ฐฐ์ ์ ๊ณต
-
๋๋ณด๊ธฐ์) Query : ์ ๊ธฐ ์๋์ฐจ์ ์ฆ๊ฐ๊ฐ ๋์ ๋๊ธฐ์ง๊ณผ ๋์ค๊ตํต ์ธํ๋ผ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์?
-> ์ํฐํฐ, ๊ด๊ณ ์ถ์ถ
-> ์ํฐํฐ(์ ๊ธฐ์๋์ฐจ, ๋๊ธฐ์ง, ๋์ค๊ตํต, ๋ฑ...)
-> ๊ด๊ณ(์ ๊ธฐ์๋์ฐจ๊ฐ ๋๊ธฐ์ง์ ๋ฏธ์น๋ ์ํฅ, ...)
ํค์๋ ์์ฑ :
Low-level : ์ ๊ธฐ์๋์ฐจ, ๋๊ธฐ์ง, ๋์ค๊ตํต
High-level : ํ๊ฒฝ ์ํฅ, ๋์ ๊ณํ, ๊ณต์ค ๋ณด๊ฑด, ์ง์๊ฐ๋ฅ์ฑ, ๋ฑ..
ํจ์จ์ ์ธ ๊ฒ์์ ์ํ ๊ทธ๋ํ์ ๋ฒกํฐ ํตํฉ : ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ด ๋ก์ปฌ ๋ฐ ๊ธ๋ก๋ฒ ํค์๋๋ฅผ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๊ฒ ํ์ฌ ์ฑ๋ฅ ๋์์ง
- (i) ์ฟผ๋ฆฌ ํค์๋ ์ถ์ถ: ์ฃผ์ด์ง ์ฟผ๋ฆฌ q์ ๋ํด, ๋ก์ปฌ ์ฟผ๋ฆฌ ํค์๋ $k^{(l)}$์ ๊ธ๋ก๋ฒ ์ฟผ๋ฆฌ ํค์๋ $k^{(g)}$ ๋ชจ๋๋ฅผ ์ถ์ถ.
- (ii) ํค์๋ ๋งค์นญ: ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ์ฌ ๋ก์ปฌ ์ฟผ๋ฆฌ ํค์๋๋ฅผ ํ๋ณด ์ํฐํฐ์ ๋งค์นญํ๊ณ , ๊ธ๋ก๋ฒ ์ฟผ๋ฆฌ ํค์๋๋ฅผ ๊ธ๋ก๋ฒ ํค์ ์ฐ๊ฒฐ๋ ๊ด๊ณ์ ๋งค์นญ
-> ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก ๋ณด์ - V,E,D๋ฑ์ ๋ฒกํฐํ ํ ๊ฒ์ผ๋ก ์ถ์ธก - (iii) ๋์ ๊ด๋ จ์ฑ ํตํฉ: ๊ฒ์๋ ๊ทธ๋ํ ์์๋ค์ ๋ก์ปฌ ์๋ธ๊ทธ๋ํ ๋ด์ ์ด์ ๋
ธ๋๋ค์ ์ถ๊ฐ๋ก ์์ง. ์ด ํ๋ก์ธ์ค๋ ์งํฉ ${v_i|v_i \in V \wedge (v_i \in N_v \vee v_i \in N_e)}$๋ฅผ ํฌํจํ๋ฉฐ, ์ฌ๊ธฐ์ $N_v$์ $N_e$๋ ๊ฐ๊ฐ ๊ฒ์๋ ๋
ธ๋ v์ ์ฃ์ง e์ ์-ํ ์ด์ ๋
ธ๋๋ค์ ๋ํ๋ธ๋ค.
( ๋ ผ๋ฌธ์ ์ํ๋ฉด 1 hop๋ง ํ๋๊ฒ์ผ๋ก ๋ณด์)
๋๋ณด๊ธฐ- V : ์ ์ฒด ๊ทธ๋ํ์ ๋ชจ๋ ๋ ธ๋ ์งํฉ
- v_i : V์ ๊ฐ ๊ฐ๋ณ ๋ ธ๋
- ∧ : "V์ ์ํ๋ฉด์"๋ผ๋ ์กฐ๊ฑด
- N_v, N_e : Neighbor_v, Neighbor_e๋ฅผ ์๋ฏธ,
[์ ์ฒด ๊ทธ๋ํ ๊ตฌ์กฐ] : ๊ณ ํ์์ด ์ฒซ ๋ ธ๋์ธ ๊ฒฝ์ฐ.
์ด๋
↓
[์๋ฐฉ]
↓
๋ํต ←[์ฆ์]--- ๊ณ ํ์ ---[์ฆ์]→ ์ด์ง๋ฌ์
|
[์น๋ฃ]
↓
ํ์์ฝ
|
[๊ด๋ฆฌ]
|
์ ์ผ์
- $N_v$ (์ง์ ์ด์):
- ๊ณ ํ์ ๋ ธ๋์ ์ง์ ์ฐ๊ฒฐ๋ ๋ ธ๋๋ค
- ๊ฒฐ๊ณผ: {๋ํต, ์ด์ง๋ฌ์, ํ์์ฝ}
- $N_e$ (๊ด๊ณ/์ฃ์ง๋ก ์ฐ๊ฒฐ๋ ์ด์):
- "์๋ฐฉ", "๊ด๋ฆฌ" ๋ฑ์ ๊ด๊ณ๋ฅผ ํตํด ์ฐ๊ฒฐ๋ ๋ ธ๋๋ค
- ๊ฒฐ๊ณผ: {์ด๋, ์ ์ผ์}
์ด dual-level ๊ฒ์ ํจ๋ฌ๋ค์์ ํค์๋ ๋งค์นญ์ ํตํด ๊ด๋ จ ์ํฐํฐ์ ๊ด๊ณ๋ฅผ ํจ์จ์ ์ผ๋ก ๊ฒ์ํ ๋ฟ๋ง ์๋๋ผ, ๊ตฌ์ฑ๋ ์ง์ ๊ทธ๋ํ์์ ๊ด๋ จ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ๊ฒฐ๊ณผ์ ํฌ๊ด์ฑ์ ํฅ์.
3.3 RETRIEVAL-AUGMENTED ANSWER GENERATION
- 3.1, 3.2, 3.3 ์ ๋ฆฌ
1. ๊ทธ๋ํ ๊ตฌ์ถ (3.1์ )
โโโ ํ ์คํธ๋ฅผ ๊ทธ๋ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก ๋ณํ ($\hat{D}$ ์์ฑ)
โโโ ์ํฐํฐ ์ถ์ถ
โโโ ๊ด๊ณ ์ถ์ถ
โโโ ์ค๋ณต ์ ๊ฑฐ ๋ฐ ์ต์ ํ
2. ๊ฒ์ ํ๋ก์ธ์ค (3.2์ )
โโโ ์ฟผ๋ฆฌ ์ฒ๋ฆฌ ๋ฐ ๊ด๋ จ ์ ๋ณด ๊ฒ์
โโโ Low-level ๊ฒ์ (specific entities)
โโโ High-level ๊ฒ์ (broader themes)
โโโ ๊ทธ๋ํ-๋ฒกํฐ ํตํฉ ๊ฒ์
3. ๋ต๋ณ ์์ฑ (3.3์ )
โโโ ์ต์ข ์๋ต ์์ฑ ํ๋ก์ธ์ค
โโโ ๊ฒ์๋ ์ ๋ณด ๊ตฌ์กฐํ
โโโ LLM ๊ธฐ๋ฐ ์๋ต ์์ฑ - ๊ฒ์๋ ์ ๋ณด์ ํ์ฉ:
- ๊ฒ์๋ ์ ๋ณด ψ(q; $\hat{D}$)๊ณผ LLM์ ์ฌ์ฉ,
- ์ด ๋ฐ์ดํฐ๋ ํ๋กํ์ผ๋ง ํจ์ P(·)์ ์ํด ์์ฑ๋ ๊ด๋ จ ์ํฐํฐ์ ๊ด๊ณ๋ก๋ถํฐ์ ์ฐ๊ฒฐ๋ ๊ฐ V๋ก ๊ตฌ์ฑ.
- ์ฌ๊ธฐ์๋ ์ํฐํฐ์ ๊ด๊ณ์ ์ด๋ฆ, ์ค๋ช , ๊ทธ๋ฆฌ๊ณ ์๋ณธ ํ ์คํธ์ ๋ฐ์ท๋ฌธ์ด ํฌํจ.(์๋ ์์ ์ฐธ๊ณ )
-
๋๋ณด๊ธฐ# ์์ ์ฟผ๋ฆฌ: "์์จ์ฃผํ ์๋์ฐจ์ ์์ ์์คํ ์ ์ด๋ป๊ฒ ์๋ํ๋์?"
# ์๋ณธ ํ ์คํธ ์์:
"ํ ์ฌ๋ผ์ ์์จ์ฃผํ ์์คํ ์ 8๊ฐ์ ์นด๋ฉ๋ผ์ 12๊ฐ์ ์ด์ํ ์ผ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๋ผ์ด๋ค ์ผ์๋ ๋ฌผ์ฒด๊น์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
์์จ์ฃผํ ์ฐจ๋์ AI ๊ธฐ๋ฐ ์ถฉ๋ ๋ฐฉ์ง ์์คํ ์ ํตํด ๋ณดํ์๋ฅผ ๊ฐ์งํฉ๋๋ค..."
# 3.1 ๊ทธ๋ํ ๊ตฌ์ถ : ์ํฐํฐ ์ถ์ถ
# ์ํฐํฐ ์ถ์ถ:
- Entity1: ์์จ์ฃผํ ์์คํ
์์ฑ: {์ ํ: "๊ธฐ์ ", ๋ชฉ์ : "์ฐจ๋ ์ ์ด"}
- Entity2: ์ผ์
์์ฑ: {์ข ๋ฅ: ["์นด๋ฉ๋ผ", "์ด์ํ", "๋ผ์ด๋ค"]}
- Entity3: ์ถฉ๋ ๋ฐฉ์ง ์์คํ
์์ฑ: {์ ํ: "์์ ", ๊ธฐ์ : "AI"}
# ๊ด๊ณ ์ถ์ถ:
- Relation1: (์์จ์ฃผํ ์์คํ ) -[์ฌ์ฉ]-> (์ผ์)
- Relation2: (์ผ์) -[๊ฐ์ง]-> (๋ฌผ์ฒด/๋ณดํ์)
- Relation3: (์ถฉ๋ ๋ฐฉ์ง ์์คํ ) -[ํฌํจ]-> (์์จ์ฃผํ ์์คํ )
# 3.2 ๊ฒ์ ํ๋ก์ธ์ค :
# ์ฟผ๋ฆฌ์์ ํค์๋ ์ถ์ถ:
- Low-level ํค์๋: ["์์จ์ฃผํ", "์์ ", "์์คํ "]
- High-level ํค์๋: ["์ฐจ๋ ์์ ", "์ผ์ ๊ธฐ์ "]
# ๊ฒ์ ๊ฒฐ๊ณผ:
- Low-level ๊ฒ์:
* ์์จ์ฃผํ ์์คํ
* ์ผ์
* ์ถฉ๋ ๋ฐฉ์ง ์์คํ
- High-level ๊ฒ์:
* ์์ ๊ด๋ จ ์์คํ ๊ฐ ๊ด๊ณ
* ์ผ์-์์ ์ฐ๊ด ์ ๋ณด
# 3.3 ๋ต๋ณ ์์ฑ : ๊ตฌ์กฐํ
# ๊ตฌ์กฐํ๋ ์ ๋ณด:
{
"core_systems": {
"sensors": ["์นด๋ฉ๋ผ", "์ด์ํ", "๋ผ์ด๋ค"],
"processing": "AI ๊ธฐ๋ฐ ์ฒ๋ฆฌ",
"safety_features": ["์ถฉ๋ ๋ฐฉ์ง", "๋ฌผ์ฒด ๊ฐ์ง"]
},
"relationships": {
"sensor_safety": "์ผ์ ๋ฐ์ดํฐ → AI ์ฒ๋ฆฌ → ์์ ๊ธฐ๋ฅ ์๋",
"system_hierarchy": "์์จ์ฃผํ ์์คํ > ์ถฉ๋ ๋ฐฉ์ง > ์ผ์ ์๋"
}
}
# ํ๋กํ์ผ๋ง ํจ์ P(·)๊ฐ ์ํํ๋ ์์ :
1. ์ํฐํฐ ๋ถ๋ฅ ๋ฐ ๊ทธ๋ฃนํ
- ํ๋์จ์ด ์์ (sensors)
- ์ฒ๋ฆฌ ์์ (processing)
- ๊ธฐ๋ฅ์ ์์ (safety_features)
2. ๊ด๊ณ ๋ถ์ ๋ฐ ๊ณ์ธตํ
- ์์คํ ๊ฐ ์ํธ์์ฉ
- ์๋ ์์ ๋ฐ ์์กด์ฑ
๋งฅ๋ฝ ํตํฉ๊ณผ ๋ต๋ณ ์์ฑ: retreiveํ ์ํฐํฐ๋ค, ๊ด๊ณ๋ค, ์๋ณธ ํ ์คํธ๋ฅผ ๋ชจ์ LLM์ผ๋ก ํ์ฌ๊ธ ์ข ํฉ์ ์ธ ๋ต๋ณ ์์ฑ.
3.4 COMPLEXITY ANALYSIS OF THE LIGHTRAG FRAMEWORK(์๋ต)
4. Evaluation
- (RQ1): ์์ฑ ์ฑ๋ฅ ์ธก๋ฉด์์ LightRAG๋ ๊ธฐ์กด RAG ๊ธฐ์ค์ ๋ฐฉ๋ฒ๋ค๊ณผ ์ด๋ป๊ฒ ๋น๊ต๋๋๊ฐ?
- (RQ2): dual-level ๊ฒ์๊ณผ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ธ๋ฑ์ฑ์ ์ด๋ป๊ฒ LightRAG์ ์์ฑ ํ์ง์ ํฅ์์ํค๋๊ฐ?
- (RQ3): LightRAG๋ ๋ค์ํ ์๋๋ฆฌ์ค์์ ์ด๋ค ๊ตฌ์ฒด์ ์ธ ์ฅ์ ์ ๋ณด์ฌ์ฃผ๋๊ฐ?
- (RQ4): LightRAG์ ๊ด๋ จ๋ ๋น์ฉ์ ๋ฌด์์ด๋ฉฐ, ๋ฐ์ดํฐ ๋ณํ์ ๋ํ ์ ์์ฑ์ ์ด๋ ํ๊ฐ?
4.1 ์คํ ์ค์
ํ๊ฐ ๋ฐ์ดํฐ ์ : Agriculture, Legal, CS, Mixed
๋น๊ต๊ตฐ :
- Naive RAG (Gao et al., 2023): ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ๊ฐ์ฅ ๋์ ํ ์คํธ ์ฒญํฌ ๊ฒ์
- RQ-RAG (Chan et al., 2024): LLM์ ํ์ฉํ์ฌ ์ ๋ ฅ ์ฟผ๋ฆฌ๋ฅผ ์ฌ๋ฌ ํ์ ์ฟผ๋ฆฌ๋ก ๋ถํด, ํ์ ์ฟผ๋ฆฌ๋ค์ ์ฌ์์ฑ, ๋ถํด, ๋ชจํธ์ฑ ํด์์ ๊ฐ์ ๋ช ์์ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๊ฒ์ ์ ํ๋๋ฅผ ํฅ์
- HyDE (Gao et al., 2022): ์ ๋ ฅ ์ฟผ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์์ ๋ฌธ์๋ฅผ ์์ฑํ๊ธฐ ์ํด LLM์ ์ฌ์ฉ. ์ด ์์ฑ๋ ๋ฌธ์๋ ๊ด๋ จ ํ ์คํธ ์ฒญํฌ๋ฅผ ๊ฒ์ํ๋ ๋ฐ ์ฌ์ฉ๋๋ฉฐ, ์ดํ ์ต์ข ๋ต๋ณ์ ๊ณต์ํํ๋ ๋ฐ ํ์ฉ
- GraphRAG (Edge et al., 2024): LLM์ ์ฌ์ฉํ์ฌ ํ ์คํธ์์ ์ํฐํฐ์ ๊ด๊ณ๋ฅผ ์ถ์ถํ์ฌ ๋ ธ๋์ ์ฃ์ง๋ก ํํ.
ํ๊ฐ ๋ฐฉ๋ฒ(7.3.4) - GraphRag ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ฐจ์ฉ :
- i) ํฌ๊ด์ฑ: ๋ต๋ณ์ด ์ง๋ฌธ์ ๋ชจ๋ ์ธก๋ฉด๊ณผ ์ธ๋ถ์ฌํญ์ ์ผ๋ง๋ ์ฒ ์ ํ๊ฒ ๋ค๋ฃจ๋๊ฐ?
- ii) ๋ค์์ฑ: ์ง๋ฌธ๊ณผ ๊ด๋ จ๋ ์๋ก ๋ค๋ฅธ ๊ด์ ๊ณผ ํต์ฐฐ์ ์ ๊ณตํ๋ ๋ฐ ์์ด ๋ต๋ณ์ด ์ผ๋ง๋ ๋ค์ํ๊ณ ํ๋ถํ๊ฐ?
- iii) ์ํ์๋จผํธ: ๋ต๋ณ์ด ๋ ์๊ฐ ์ฃผ์ ๋ฅผ ์ดํดํ๊ณ ์ ๋ณด์ ์ ๊ฐํ ํ๋จ์ ๋ด๋ฆฌ๋ ๊ฒ์ ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ๊ฐ๋ฅํ๊ฒ ํ๋๊ฐ?
- iv) ์ ๋ฐ์ : ์ด ์ฐจ์์ ์์ ์ธ ๊ฐ์ง ๊ธฐ์ค์ ๊ฑธ์น ๋์ ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ข์ ๋ต๋ณ์ ์๋ณ
- Pairwise ํ๊ฐ : ๋ ๋ต๋ณ์ ์ง์ ๋น๊ตํ๊ณ ๊ฐ ๊ธฐ์ค์ ๋ํด ์ฐ์ํ ์๋ต์ ์ ํ
4.2 Comparison of LightRAG with existing RAG Methods (RQ1)
- ๋๊ท๋ชจ ์ฝํผ์ค์์ ์ฐ์ํจ : LightRAG์ GraphRAG ๊ฐ์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์์คํ
์ด ๊ธฐ์กด ์ฒญํฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์
๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ๋ ์ฆ๊ฐ - ๋ค์์ฑ ์ธก๋ฉด : Diversity ๋ฉํธ๋ฆญ์์ LightRAG๊ฐ ํ์ ํ ์ฐ์
Dual-level ๊ฒ์ ํจ๋ฌ๋ค์ ๋๋ถ์ ๋ ํฌ๊ด์ ์ธ ์ ๋ณด ๊ฒ์ ๊ฐ๋ฅ - GraphRAG์์ ๋น๊ต :
๋ ๋ค ๊ทธ๋ํ ๊ธฐ๋ฐ์ด์ง๋ง LightRAG๊ฐ ์ผ๊ด๋๊ฒ ์ฐ์(๋ณต์กํ ์ธ์ด ๋งฅ๋ฝ ์ฒ๋ฆฌ์์ ๋ ํจ๊ณผ์ )
4.3 Ablation Studies(RQ2)
- Dual-Level ๊ฒ์ ํจ๋ฌ๋ค์ ํจ๊ณผ์ฑ : ๊ฐ๊ฐ ํ๋์ ๋ชจ๋์ ์ ๊ฑฐํ๋ค ํ๊ฐ
- Low-level๋ก๋ง ๊ฒ์(-High) :
- ๊ฑฐ์ ๋ชจ๋ ๋ฐ์ดํฐ์ , ๋ฉํธ๋ฆญ์์ ์๋นํ ์ฑ๋ฅ ํ๋ฝ ์์.
- ์ถ์ธก : ํน์ ์ ๋ณด(์ํฐํฐ)์ ๋ํด ๊ณผ๋ํ๊ฒ ์ง์คํ์ฌ ๊ทธ๋ฐ๊ฒ์ผ๋ก ์ถ์ธก. ํฌ๊ด์ ์ธ ํต์ฐฐ์ด ํ์ํ ๋ถ๋ถ์์ ์ ๋ณด ์์ง์ด ์ด๋ ค์ด ๊ฒ์ผ๋ก ๋ณด์
- High-level๋ก๋ง ๊ฒ์(-Low) :
- ํน์ ์ํฐํฐ๋ฅผ ์ฌ๋ ์๊ฒ ์กฐ์ฌํ๋ ๋ฅ๋ ฅ์ด ๊ฐ์ํ์ฌ, ์์ธํ ๋ต๋ณ ๋ถ๊ฐ
- ์๋ณธ ํ
์คํธ ์ ๊ฑฐ (-Origin) : ๊ทธ๋ํ ๊ตฌ์กฐ์์ ์ถ์ถ๋ ์ ๋ณด๋ง ์ฌ์ฉ
- ๊ทธ๋ํ ๊ธฐ๋ฐ ์ธ๋ฑ์ฑ ํ๋ก์ธ์ค ๋ง์ผ๋ก๋ ํต์ฌ ์ ๋ณด ์ ๋ฌ ๊ฐ๋ฅ(์ฟผ๋ฆฌ์ ๋ต๋ณํ๊ธฐ์ ์ถฉ๋ถํ ๋งฅ๋ฝ ์ ๊ณต)
- ์๋ณธ ํ ์คํธ๋ ๋ ธ์ด์ฆ๋ฅผ ์ ๋ฐํ ์ ์๋ ๊ด๋ จ ์๋ ์ ๋ณด ํฌํจ.
- Low-level๋ก๋ง ๊ฒ์(-High) :
4.4 CaseStudy(RQ3) (์๋ต)
4.5 Model Cost and Adaptability Analysis (RQ4) (์๋ต)
5. Related Work ์๋ต
LightRAG์์
Graph ์์ฑ ์์
Keyword ์ถ์ถ ์์
RAG Evaluation ์์