Evaluating Chunking Strategies for Retrieval | Chroma Research
๐ ๊ฐ์: AI ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํ ์๋ก์ด ๊ฒ์ ํ๊ฐ์ ํ์์ฑ
AI ์ ํ๋ฆฌ์ผ์ด์ , ํนํ ๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG)์์ ๋ฌธ์ ์ฒญํน์ ํต์ฌ ์ ์ฒ๋ฆฌ ๋จ๊ณ์ ๋๋ค. ํ์ง๋ง ๊ธฐ์กด ์ ๋ณด ๊ฒ์(IR) ๋ฒค์น๋งํฌ๋ ๋ฌธ์ ์ ์ฒด์ ์์๋ ๊ด๋ จ์ฑ์ ์ด์ ์ ๋ง์ถฐ, LLM์ด ์ค์ ๋ก ์ค์ํ๊ฒ ์ฌ๊ธฐ๋ ํ ํฐ ์์ค์ ํจ์จ์ฑ์ ์ธก์ ํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. LLM์ ์ปจํ ์คํธ ์ฐฝ ๋ด์์ ๊ด๋ จ ์ ๋ณด์ ์์น์ ๋ฏผ๊ฐํ์ง ์์ผ๋ฉฐ, ๊ด๋ จ ์ ๋ณด๊ฐ ์ฌ๋ฌ ๋ฌธ์์ ํฉ์ด์ ธ ์์ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด ๋ณด๊ณ ์๋ ํ ํฐ ์์ค์์ ๊ฒ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
B) ๐งช ์๋ก์ด ํ๊ฐ ํ๋ ์์ํฌ ๋ฐ ์งํ
์ด ์ฐ๊ตฌ๋ AI ์์ฉ ํ๊ฒฝ์ ํนํ๋ ์๋ก์ด ๊ฒ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ์์ฑํ ํ๊ฐ ๋ฐ์ดํฐ์ : LLM์ ํ์ฉํ์ฌ ์ฃผ์ด์ง ๋ฌธ์ ์ฝํผ์ค์์ ์ฌ์ค ๊ธฐ๋ฐ์ ์ฟผ๋ฆฌ์ ๊ด๋ จ ์๋ฌธ ๋ฐ์ท๋ฌธ์ ์์ฑํฉ๋๋ค. ์ด ๋ฐฉ์์ ํน์ ๋๋ฉ์ธ์ ๋ง๋ ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์์ฑํ ์ ์๊ฒ ํด์ฃผ๋ฉฐ, ์์ฑ๋ ๋ฐ์ดํฐ๋ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋์ง ์์ ํธํฅ์ ๋ฐฉ์งํฉ๋๋ค.
- ๋ฐ์ดํฐ ํํฐ๋ง: ์์ฑ๋ ๋ฐ์ดํฐ์ ํ์ง์ ๋์ด๊ธฐ ์ํด ๋ ๋จ๊ณ์ ํํฐ๋ง์ ๊ฑฐ์นฉ๋๋ค. ๋จผ์ , ์ฟผ๋ฆฌ๋ค์ ์๋ฒ ๋ฉํ์ฌ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ๋์ ์ค๋ณต ์ฟผ๋ฆฌ๋ฅผ ์ ๊ฑฐํฉ๋๋ค. ๋ค์์ผ๋ก, ์ฟผ๋ฆฌ์ ๊ด๋ จ ๋ฐ์ท๋ฌธ ๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ์ฌ ๊ด๋ จ์ฑ์ด ๋ฎ์ ์์ ์ ๊ฑฐํฉ๋๋ค.
- ํ ํฐ ๋จ์ ํ๊ฐ ์งํ:
- IoU (Intersection over Union): ๊ฒ์๋ ํ ํฐ๊ณผ ์ค์ ๊ด๋ จ ํ ํฐ์ ์ค์ฒฉ ์ ๋๋ฅผ ์ธก์ ํ๋ ์งํ๋ก, ์์นด๋ ์ ์ฌ๋(Jaccard similarity)์ ๊ธฐ๋ฐํฉ๋๋ค. ์ด๋ ๊ฒ์์ ํจ์จ์ฑ์ ๋ํ๋ ๋๋ค.
- ์ ๋ฐ๋(Precision): ๊ฒ์๋ ํ ํฐ ์ค ๊ด๋ จ ํ ํฐ์ ๋น์จ์ ๋๋ค.
- ์ฌํ์จ(Recall): ์ ์ฒด ๊ด๋ จ ํ ํฐ ์ค ๊ฒ์๋ ํ ํฐ์ ๋น์จ์ ๋๋ค.
- Precisionฮฉ: ๋ชจ๋ ๊ด๋ จ ์ฒญํฌ๊ฐ ๊ฒ์๋์๋ค๊ณ ๊ฐ์ ํ์ ๋์ ์ด๋ก ์ ์ธ ์ต๋ ์ ๋ฐ๋๋ก, ์๋ฒฝํ ์ฌํ์จ ํ์์์ ํ ํฐ ํจ์จ์ฑ ์ํ์ ์ ๋ณด์ฌ์ค๋๋ค.
C) ๐ ํ๊ฐ์ ์ฌ์ฉ๋ ์ฝํผ์ค
ํ๊ฐ๋ ๋ค์ํ ๋๋ฉ์ธ๊ณผ ๋ฐ์ดํฐ ์ ์ ์์ค์ ๊ฐ์ง 5๊ฐ์ ์ฝํผ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์งํ๋์์ผ๋ฉฐ, ์ด 328,208๊ฐ์ ํ ํฐ๊ณผ 472๊ฐ์ ์ฟผ๋ฆฌ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
| ์ฝํผ์ค | ํ ํฐ ์ | ํน์ง |
|---|---|---|
| State of the Union 2024 | 10,444 | ๊ตฌ์กฐ๊ฐ ์ ์ง์ธ ๋ช ํํ ์ฐ์ค๋ฌธ |
| Wikitext | 26,649 | ์ํคํผ๋์์ ๊ฒ์ฆ๋ ์ฐ์ ๋ฌธ์ |
| Chatlogs | 7,727 | ChatGPT ๋ํ ์๋ฌธ (JSON ํ์ ํฌํจ) |
| Finance | 166,177 | ๊ธ์ต ๋ณด๊ณ ์ ๊ธฐ๋ฐ์ ์ง์์๋ต ๋ฐ์ดํฐ |
| Pubmed | 117,211 | ์๋ช ๊ณผํ ๋ฐ ๋ฐ์ด์ค๋ฉ๋์ปฌ ๋ถ์ผ์ ๋ ผ๋ฌธ |
D) ๐งฉ ํ๊ฐ๋ ์ฒญํน ์๊ณ ๋ฆฌ์ฆ
์ด ๋ณด๊ณ ์๋ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ฒญํน ์๊ณ ๋ฆฌ์ฆ๊ณผ ํจ๊ป ์ด ์ฐ๊ตฌ์์ ์๋กญ๊ฒ ์ ์ํ๋ ์๊ณ ๋ฆฌ์ฆ๋ค์ ํ๊ฐํฉ๋๋ค. โ ๋ ์ด ์ฐ๊ตฌ์์ ๊ฐ๋ฐํ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ์๋ฏธํฉ๋๋ค.
| ์๊ณ ๋ฆฌ์ฆ | ๋ฐฉ์ | ํน์ง |
|---|---|---|
RecursiveCharacterTextSplitter | ๋ฌธ์ ๊ธฐ๋ฐ ๋ถํ | ๊ตฌ๋ถ์(\n\n, ., ๋ฑ)๋ฅผ ์ฌ์ฉํด ์ฌ๊ท์ ์ผ๋ก ๋ถํ ํ๋ ํด๋ฆฌ์คํฑ ๋ฐฉ์์
๋๋ค. |
TokenTextSplitter | ๊ณ ์ ๊ธธ์ด ๋ถํ | ์๋ฏธ๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ์ง์ ๋ ํ ํฐ ์๋ก ํ ์คํธ๋ฅผ ๋ถํ ํฉ๋๋ค. |
KamradtSemanticChunker | ์๋ฏธ ๊ธฐ๋ฐ ๋ถํ | ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ ๋ถ์ฐ์์ฑ์ ๊ฐ์งํ์ฌ ์ฒญํฌ ๊ฒฝ๊ณ๋ฅผ ์ค์ ํฉ๋๋ค. |
โ
KamradtModifiedChunker | Kamradt ๋ฐฉ์ ๊ฐ์ | ์ฌ์ฉ์๊ฐ ์ต๋ ์ฒญํฌ ๊ธธ์ด๋ฅผ ์ง์ ์ค์ ํ ์ ์๋๋ก ์ด์ง ํ์์ผ๋ก ์๊ณ๊ฐ์ ์กฐ์ ํฉ๋๋ค. |
โ
ClusterSemanticChunker | ์๋ฏธ ์ ์ฌ์ฑ ์ต์ ํ | ๋์ ํ๋ก๊ทธ๋๋ฐ์ ์ฌ์ฉํด ์ฒญํฌ ๋ด ์กฐ๊ฐ๋ค์ ์ฝ์ฌ์ธ ์ ์ฌ๋ ํฉ์ ์ ์ญ์ ์ผ๋ก ์ต๋ํํฉ๋๋ค. |
โ
LLMSemanticChunker | LLM ์ง์ ํ๋กฌํํ | LLM์๊ฒ ์ง์ ํ ์คํธ๋ฅผ ๋ถํ ํ๊ณ ๋ถํ ํ ์์น์ ์ธ๋ฑ์ค๋ฅผ ๋ฐํํ๋๋ก ์์ฒญํฉ๋๋ค. |
E) ๐ ์ฃผ์ ์คํ ๊ฒฐ๊ณผ ์์ฝ
์คํ์ OpenAI text-embedding-3-large ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ 5๊ฐ์ ์ฒญํฌ๋ฅผ ๊ฒ์ํ์ ๋์ ํ๊ท ์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก ํฉ๋๋ค.
RecursiveCharacterTextSplitter(์ฒญํฌ ํฌ๊ธฐ 200, ์ค๋ฒ๋ฉ ์์)๋ ์ฌํ์จ์ ์ต๊ณ ์์ค์ด ์๋์์ง๋ง, ์ ๋ฐ๋(7.0%)์ IoU(6.9%)์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ์ ๋ฐ์ ์ผ๋ก ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.- OpenAI ๊ธฐ๋ณธ ์ค์ (
TokenTextSplitter, ์ฒญํฌ 800, ์ค๋ฒ๋ฉ 400)์ ์ฌํ์จ์ ํ๊ท ์ดํ์๊ณ , ๋ค๋ฅธ ๋ชจ๋ ์งํ์์๋ ์ตํ์ ์์ค์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. - โ
**
ClusterSemanticChunker**๋ ์ฒญํฌ ํฌ๊ธฐ 400์์ ๋ ๋ฒ์งธ๋ก ๋์ ์ฌํ์จ(91.3%)์ ๊ธฐ๋กํ๊ณ , ์ฒญํฌ ํฌ๊ธฐ 200์์๋ ๊ฐ์ฅ ๋์ ์ ๋ฐ๋(8.0%)์ IoU(8.0%)๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. - โ
**
LLMSemanticChunker**๋ ๊ฐ์ฅ ๋์ ์ฌํ์จ(91.9%)์ ๊ธฐ๋กํ์ง๋ง, ๋ค๋ฅธ ์งํ๋ ํ๊ท ์์ค์ด์์ต๋๋ค. KamradtSemanticChunker์ ๊ธฐ๋ณธ ์ค์ ์ ํ๊ท ์ดํ์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ์์ ๋ โ **KamradtModifiedChunker**๋ ์ฌํ์จ๊ณผ ๋ค๋ฅธ ์งํ ๋ชจ๋์์ ์ฑ๋ฅ์ด ํฅ์๋์์ต๋๋ค.
F) โ ๏ธ ํ๊ณ ๋ฐ ํฅํ ๊ณผ์
- ๋ฐ์ดํฐ์ ํ๊ณ: LLM์ด ์์ฑํ๋ ์ง๋ฌธ ์คํ์ผ์ด ๋จ์กฐ๋ก์ธ ์ ์์ผ๋ฉฐ, ํ๊ฐ ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ์ ๋๋ฉ์ธ ๋ค์์ฑ์ด ๋ถ์กฑํฉ๋๋ค.
- ์๊ฐ ๋ฐ ๋น์ฉ ๋ฏธ๋ฐ์:
LLMSemanticChunker์ ๊ฐ์ด ์คํ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฝ์ฐ, ์ค์ ์ ์ฉ ์ ์๊ฐ ๋น์ฉ์ ๊ณ ๋ คํด์ผ ํ์ง๋ง ์ด ์ฐ๊ตฌ์์๋ ๋ค๋ฃจ์ง ์์์ต๋๋ค. - ๊ด๋ จ ๋ฐ์ท๋ฌธ ๋๋ฝ ๊ฐ๋ฅ์ฑ: LLM์ด ์์ฑํ์ง ์์ ๋ค๋ฅธ ๊ด๋ จ ๋ฐ์ท๋ฌธ์ด ์ฝํผ์ค์ ์กด์ฌํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๊ณ ๋ คํ์ง ์์์ต๋๋ค.
G) ๐ง ๊ฒฐ๋ก
์ด ๋ณด๊ณ ์๋ AI ์ ํ๋ฆฌ์ผ์ด์
ํ๊ฒฝ์ ๋ง๋ ์๋ก์ด ๊ฒ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ์ฒญํน ์ ๋ต์ด ๊ฒ์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ ๋์ ์ผ๋ก ๋ถ์ํ์ต๋๋ค. ํนํ, ์๋กญ๊ฒ ์ ์๋ ClusterSemanticChunker์ LLMSemanticChunker๋ ์๋ฏธ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ํตํด ๋์ ์ฌํ์จ์ ๋ฌ์ฑํ๋ฉฐ ์ฐ์ํ ์ฑ๋ฅ์ ์
์ฆํ์ต๋๋ค. ์ ์ฒด ์ฝ๋๋ GitHub์ ๊ณต๊ฐ๋์ด ์์ด ์ฌํ์ฑ๊ณผ ์ถ๊ฐ ์ฐ๊ตฌ๋ฅผ ์ํ ํ์ฅ์ฑ์ ์ ๊ณตํฉ๋๋ค.
H) QnA
H.1) Precision, Recall, IoU ์ธก์ ๋ฐฉ์ (์์ ํฌํจ)
์ด ๋ณด๊ณ ์์์ ์ฌ์ฉ๋ Precision, Recall, IoU ๋ฑ์ ์งํ๋ ํ ํฐ ์์ค์์ ๊ณ์ฐ๋ฉ๋๋ค. ์ฆ, ๋ฌธ์ ์ ์ฒด๋ ๋ฌธ๋จ์ด ์๋, ๊ฐ๋ณ ํ ํฐ ํ๋ํ๋์ ์ผ์น ์ฌ๋ถ๋ฅผ ๋ฐ์ง๋๋ค.
ํต์ฌ ์์ด๋์ด: LLM์ด ์์ฑํ โ์ ๋ตโ (๊ด๋ จ ๋ฐ์ท๋ฌธ์ ํฌํจ๋ ๊ด๋ จ ํ ํฐ๋ค)๊ณผ, ์ฒญํน ํ ๊ฒ์ ์์คํ ์ด ๋ฐํํ โ๊ฒฐ๊ณผโ (๊ฒ์๋ ์ฒญํฌ์์ ๋์จ ํ ํฐ๋ค)๋ฅผ ๋น๊ตํฉ๋๋ค.
๊ฐ์ :
- ๊ด๋ จ ํ ํฐ ์งํฉ (te): ์ฟผ๋ฆฌ์ ๋ํด โ์ ๋ตโ์ด๋ผ๊ณ ํ๋จ๋๋ ํ ํฐ๋ค์ ์งํฉ์ ๋๋ค. (์: โAtlanta์ ํจ์ ์ ์ฌ์ฉ๋ ๊ฐ์ท์ ์ฃผ์ ํน์ง์ ๋ฌด์์ด์์ต๋๊น?โ ๋ผ๋ ์ฟผ๋ฆฌ์ ๋ํ ์ ๋ต ๋ฐ์ท๋ฌธ์์ โAtlantaโ, โ๊ฐ์ทโ, โ์ฃผ์ ํน์งโ, โ3์ธ์นโ, โ๋๊บผ์ ๋คโ ๋ฑ์ ์๋ฏธ๋ฅผ ๋ด๊ณ ์๋ ํ ํฐ๋ค)
- ๊ฒ์๋ ํ ํฐ ์งํฉ (tr): ์ฒญํน๋ ๋ฌธ์๋ฅผ ๊ฒ์ํ์ ๋, ์์คํ ์ด ๋ฐํํ ์ฒญํฌ๋ค์์ ๋์จ ํ ํฐ๋ค์ ์งํฉ์ ๋๋ค. (์: ๊ฒ์ ์์คํ ์ด ๋ฐํํ ์ฒญํฌ์ โAtlantaโs hull received two inches of armorโ ์ ๊ฐ์ ๋ด์ฉ์ด ์๋ค๋ฉด, ์ด ๋ฌธ์ฅ์ ํ ํฐ๋ค)
์ธก์ ๋ฐฉ๋ฒ (์์):
๋ฌธ์ ์ฝํผ์ค: โThe battleship Atlantaโs hull armor was 3 inches thick. It was backed by oak. The upper portion of Atlantaโs hull received two inches of armor.โ ์ฟผ๋ฆฌ: โWhat were the main characteristics of the armor used on the ship Atlanta?โ
-
LLM์ ํตํ โ์ ๋ตโ ์์ฑ:
- LLM์ด ์ ๋ฌธ์์ ์ฟผ๋ฆฌ๋ฅผ ๋ณด๊ณ , โAtlantaโ, โํจ์ โ, โ๊ฐ์ทโ, โ์ฃผ์ ํน์งโ, โ3์ธ์นโ, โ๋๊บผ์ ๋คโ, โ์๋จ ๋ถ๋ถโ ๋ฑ์ ํ ํฐ์ ํฌํจํ๋ ๊ด๋ จ ๋ฐ์ท๋ฌธ์ ์์ฑํฉ๋๋ค.
- ์ด ๋ฐ์ท๋ฌธ์์ **๊ด๋ จ ํ ํฐ ์งํฉ (te)**์ ์ถ์ถํฉ๋๋ค. (๊ฐ๋จํ๋ฅผ ์ํด ์ฌ๊ธฐ์๋ โAtlantaโ, โํจ์ โ, โ๊ฐ์ทโ, โ์ฃผ์โ, โํน์งโ, โ3์ธ์นโ, โ๋๊บผ์ ๋คโ, โ์๋จโ, โ๋ถ๋ถโ ์ด๋ผ๊ณ ๊ฐ์ ํ๊ฒ ์ต๋๋ค. ์ค์ ๋ก๋ ๋ ๋ง์ ํ ํฐ์ด ๋ ๊ฒ์ ๋๋ค.)
te = {"Atlanta", "ํจ์ ", "๊ฐ์ท", "์ฃผ์", "ํน์ง", "3์ธ์น", "๋๊บผ์ ๋ค", "์๋จ", "๋ถ๋ถ"}(์ด 9๊ฐ ํ ํฐ)
-
์ฒญํน ํ ๊ฒ์ ์์คํ ์ โ๊ฒฐ๊ณผโ ์์ฑ:
- ๋ง์ฝ ์ฒญํน ๋ฐฉ์์ด ๋ฌธ์ฅ์ ๋จ์๋ก ๋๋๊ณ , ๊ฒ์ ์์คํ ์ด ์ฒซ ๋ฒ์งธ ๋ฌธ์ฅ๊ณผ ์ธ ๋ฒ์งธ ๋ฌธ์ฅ์ ๋ฐํํ๋ค๊ณ ๊ฐ์ ํด ๋ด ์๋ค.
- ๊ฒ์๋ ์ฒญํฌ: โThe battleship Atlantaโs hull armor was 3 inches thick.โ (A) + โThe upper portion of Atlantaโs hull received two inches of armor.โ (B)
- ์ด ์ฒญํฌ๋ค์์ ๊ฒ์๋ ํ ํฐ ์งํฉ (tr) ์ ์ถ์ถํฉ๋๋ค. (๊ฐ๋จํ๋ฅผ ์ํด โAtlantaโ, โํจ์ โ, โ๊ฐ์ทโ, โ3์ธ์นโ, โ๋๊บผ์ ๋คโ, โ์๋จโ, โ๋ถ๋ถโ, โ2์ธ์นโ ๋ผ๊ณ ๊ฐ์ ํ๊ฒ ์ต๋๋ค.)
tr = {"Atlanta", "ํจ์ ", "๊ฐ์ท", "3์ธ์น", "๋๊บผ์ ๋ค", "์๋จ", "๋ถ๋ถ", "2์ธ์น"}(์ด 8๊ฐ ํ ํฐ)
-
์งํ ๊ณ์ฐ:
- ๊ต์งํฉ (te โฉ tr): ๋ ์งํฉ์ ๋ชจ๋ ์๋ ํ ํฐ๋ค
te โฉ tr = {"Atlanta", "ํจ์ ", "๊ฐ์ท", "3์ธ์น", "๋๊บผ์ ๋ค", "์๋จ", "๋ถ๋ถ"}(์ด 7๊ฐ ํ ํฐ)
- ํฉ์งํฉ (te โช tr): ๋ ์งํฉ์ ์๋ ๋ชจ๋ ํ ํฐ๋ค
te โช tr = {"Atlanta", "ํจ์ ", "๊ฐ์ท", "์ฃผ์", "ํน์ง", "3์ธ์น", "๋๊บผ์ ๋ค", "์๋จ", "๋ถ๋ถ", "2์ธ์น"}(์ด 10๊ฐ ํ ํฐ)
- Precision (์ ๋ฐ๋):
|te โฉ tr| / |tr|7 / 8 = 0.875- ํด์: ๊ฒ์๋ 8๊ฐ์ ํ ํฐ ์ค 7๊ฐ๊ฐ ์ค์ ๊ด๋ จ ํ ํฐ์ด์์ต๋๋ค. (87.5%์ ์ ํ๋)
- Recall (์ฌํ์จ):
|te โฉ tr| / |te|7 / 9 = 0.778- ํด์: ์ค์ ๊ด๋ จ ํ ํฐ 9๊ฐ ์ค 7๊ฐ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ฐพ์๋์ต๋๋ค. (77.8%์ ์ฌํ์จ)
- IoU (Intersection over Union):
|te โฉ tr| / |te โช tr|7 / 10 = 0.7- ํด์: ์ ์ฒด ๊ด๋ จ ํ ํฐ๊ณผ ๊ฒ์๋ ํ ํฐ์ ํฉ์งํฉ ์ค์์ ๊ฒน์น๋ ๋ถ๋ถ์ด 70%์
๋๋ค. ์ด๋ ๊ฒ์ ๊ฒฐ๊ณผ์ ์ ๋ฐ์ ์ธ ์ผ์น๋๋ฅผ ๋ณด์ฌ์ค๋๋ค. (๋ถ๋ชจ๋ฅผ
|te| + |tr| - |te โฉ tr|๋ก ๊ณ์ฐํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ฉฐ, ์ด๋|te โช tr|๊ณผ ๊ฐ์ต๋๋ค.)
- F1 Score:
2 * (Precision * Recall) / (Precision + Recall)2 * (0.875 * 0.778) / (0.875 + 0.778) โ 0.824- ํด์: Precision๊ณผ Recall์ ์กฐํ ํ๊ท ์ผ๋ก, ๋ ์งํ๋ฅผ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํฉ๋๋ค.
- ๊ต์งํฉ (te โฉ tr): ๋ ์งํฉ์ ๋ชจ๋ ์๋ ํ ํฐ๋ค
์ด์ฒ๋ผ ๊ฐ ํ ํฐ์ ์กด์ฌ ์ฌ๋ถ๋ฅผ ์ ํํ ํ์ ํ์ฌ ์งํ๋ฅผ ๊ณ์ฐํจ์ผ๋ก์จ, LLM์ด ์ ๋ณด๋ฅผ ์ผ๋ง๋ ์ ํํ๊ณ ํจ์จ์ ์ผ๋ก ์ถ์ถํ๋์ง๋ฅผ ํ ํฐ ์์ค์์ ํ๊ฐํฉ๋๋ค.
H.2) KamradtModifiedChunker vs. ClusterSemanticChunker: ๋ฌด์์ด ๋ค๋ฅธ๊ฐ?
์ด ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ ์๋ฏธ ๊ธฐ๋ฐ ์ฒญํน์ ์๋ํ์ง๋ง, ์ ๊ทผ ๋ฐฉ์๊ณผ ์ต์ ํ ๋ชฉํ์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
KamradtSemanticChunker(๊ธฐ๋ณธ):- ๋ฐฉ์: ๋จผ์ ๋ฌธ์ฅ์ผ๋ก ํ ์คํธ๋ฅผ ๋ถํ ํ ํ, ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ์๋์ฐ๋ฅผ ์ด๋ํ๋ฉด์ ๊ฐ ์๋์ฐ(์ฒญํฌ ์กฐ๊ฐ)์ ์๋ฒ ๋ฉ๊ณผ ๋ค์ ์๋์ฐ ์๋ฒ ๋ฉ ๊ฐ์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด ๊ฑฐ๋ฆฌ๊ฐ ํน์ ์๊ณ๊ฐ(๋์ ๊ฑฐ๋ฆฌ)์ ๋์ด์๋ ์ง์ ์ ์ฒญํฌ ๊ฒฝ๊ณ๋ก ํ๋จํฉ๋๋ค.
- ํน์ง: ํ์์ (Greedy) ์ ๊ทผ ๋ฐฉ์์ ๋๋ค. ์ฆ, ๊ฐ ๋จ๊ณ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฒฝ๊ณ๋ฅผ ์ฐพ์ผ๋ ค๊ณ ํฉ๋๋ค. ์ด๋ ๊ตฌํ์ด ๋น๊ต์ ๊ฐ๋จํ์ง๋ง, ๊ตญ์์ ์ธ ์ต์ ํด์ ๋น ์ง ์ ์์ต๋๋ค.
- ํ๊ณ: ๊ธฐ๋ณธ ์ค์ ์์ ์๊ณ๊ฐ์ด ๋๋ฌด ๋๊ฑฐ๋ ๋ฎ์ผ๋ฉด ์ฒญํฌ๊ฐ ๋๋ฌด ํฌ๊ฑฐ๋ ์์์ง ์ ์์ต๋๋ค.
- โ
KamradtModifiedChunker(์์ ๋ฒ์ ):- ๊ฐ์ ์ :
KamradtSemanticChunker์ ํ์์ ๋ฐฉ์์ ๊ทธ๋๋ก ์ ์งํ๋, ์ฌ์ฉ์๊ฐ ์ํ๋ ์ต๋ ์ฒญํฌ ๊ธธ์ด๋ฅผ ์ง์ ์ง์ ํ ์ ์๋๋ก ํ์ต๋๋ค. - ์๋ ๋ฐฉ์:
KamradtSemanticChunker์ ์๊ณ๊ฐ ํ์ง ๋ฐฉ์์ ์ฌ์ฉํ์ง๋ง, ํ์ง๋ ๊ฒฝ๊ณ๊ฐ ์ต๋ ๊ธธ์ด๋ฅผ ๋์ผ๋ฉด ์ด์ง ํ์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์๊ณ๊ฐ์ ์กฐ์ ํฉ๋๋ค. ๋ชฉํ๋ ์๋ฏธ์ ๊ฒฝ๊ณ๋ฅผ ์ต๋ํ ์ ์งํ๋ฉด์๋ ์ง์ ๋ ์ต๋ ๊ธธ์ด๋ฅผ ๋์ง ์๋ ๊ฒ์ ๋๋ค. - ํต์ฌ: ์ฌ์ฉ์ ์ ์ด๋ ฅ ๊ฐํ. ์๋ฏธ ๊ธฐ๋ฐ ๋ถํ ์ ์ฅ์ ์ ์ด๋ฆฌ๋ฉด์๋, ๊ธธ์ด ์ ์ฝ์ ํตํด RAG ์์คํ ์ ์ ๋ ฅ ์ ํ์ ๋ง์ถ๊ธฐ ์ฉ์ดํฉ๋๋ค.
- ๊ฐ์ ์ :
- โ
ClusterSemanticChunker(์๋ก์ด ์ ์):- ๋ชฉํ:
Kamradt๋ฐฉ์์ ํ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ์๋ฏธ์ ์ ์ฌ์ฑ์ ์ ์ญ์ ์ผ๋ก ์ต์ ํํ๋ ๊ฒ์ ๋๋ค. - ๋ฐฉ์:
- ์๋ณธ ํ ์คํธ๋ฅผ ์์ ์กฐ๊ฐ(์: 50 ํ ํฐ ๋จ์)์ผ๋ก ๋จผ์ ๋ถํ ํ๊ณ ๊ฐ ์กฐ๊ฐ์ ์๋ฒ ๋ฉ์ ๊ณ์ฐํฉ๋๋ค.
- ์ด ์กฐ๊ฐ๋ค์ ์ฌ์ฉํ์ฌ ๋์ ํ๋ก๊ทธ๋๋ฐ(Dynamic Programming) ๊ธฐ๋ฒ์ ์ ์ฉํฉ๋๋ค.
- ๋์ ํ๋ก๊ทธ๋๋ฐ์ ํ ์คํธ๋ฅผ ์ผ๋ จ์ ์ฒญํฌ๋ก ๋ถํ ํ ๋, ๋ชจ๋ ์ฒญํฌ ๋ด์ ์กฐ๊ฐ๋ค ๊ฐ ์ฝ์ฌ์ธ ์ ์ฌ๋ ํฉ์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ์ต์ ์ ๋ถํ ์ง์ ์ ์ฐพ์ต๋๋ค.
- ํต์ฌ: ์ ์ญ ์ต์ ํ. ์ ์ฒด ๋ฌธ์๋ฅผ ๋ณด๊ณ ๊ฐ์ฅ ์๋ฏธ์ ์ผ๋ก ๋ญ์ณ์๋ ์ฒญํฌ๋ค์ ๋ง๋ค์ด๋ ๋๋ค. ์ด๋ โ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ์๋ฏธ ๋จ์โ๋ฅผ ์ฐพ์ผ๋ ค๋ ์๋์ ๋๋ค.
- ๋จ์ : ์ ์ฒด ์ฝํผ์ค์ ํต๊ณ๋ฅผ ๋ฐํ์ผ๋ก ์ต์ ํ๋ฅผ ์ํํ๋ฏ๋ก, ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋๋ฉด ์ฒญํฌ๋ฅผ ๋ค์ ๊ณ์ฐํด์ผ ํ๋ ๋ถ๋ด์ด ์์ต๋๋ค.
KamradtModifiedChunker๋ณด๋ค ๊ณ์ฐ ๋น์ฉ์ด ๋์ ์ ์์ต๋๋ค.
- ๋ชฉํ:
๊ฐ๋จํ ๋งํด:
- Kamradt Modified: โ์๋ฏธ๊ฐ ๋์ด์ง๋ ๊ณณ์ ์ฐพ๊ณ , ๋๋ฌด ๊ธธ์ด์ง์ง ์๊ฒ ์กฐ์ ํ์.โ (์ฌ์ฉ์ ์ ์ ๊ธธ์ด ์ ์ฝ + ์๋ฏธ ๊ธฐ๋ฐ)
- Cluster Semantic: โ๋ฌธ์ ์ ์ฒด์์ ๊ฐ์ฅ ์๋ฏธ์ ์ผ๋ก ๋๋ ๋ญ์ณ ์๋ ๋ฉ์ด๋ฆฌ๋ค์ ๋ง๋ค์.โ (์ ์ญ ์ต์ ํ + ์๋ฏธ ๊ธฐ๋ฐ)
H.3) ์ผ๋ฐ์ ์ผ๋ก ์ฒญํฌ๋ฅผ ์ด๋ป๊ฒ ํ๋ฉด ์ข์๊น? (์ฐ๊ตฌ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ)
์ด ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํด ๋ณผ ๋, โ์ ๋ตโ์ ์์ง๋ง ๋ช ๊ฐ์ง ๊ฒฝํฅ๊ณผ ์ถ์ฒ ์ฌํญ์ ๋์ถํ ์ ์์ต๋๋ค.
-
๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ ์ธ์ง:
TokenTextSplitter(๊ณ ์ ๊ธธ์ด, OpenAI ๊ธฐ๋ณธ๊ฐ)๋ ์์ธ๋ก ์ฑ๋ฅ์ด ๋ฎ์์ต๋๋ค. ์ด๋ ์๋ฏธ๋ ๊ตฌ์กฐ๋ฅผ ์ ํ ๊ณ ๋ คํ์ง ์๊ธฐ ๋๋ฌธ์ผ๋ก ๋ณด์ ๋๋ค.RecursiveCharacterTextSplitter์ ๊ธฐ๋ณธ ๊ตฌ๋ถ์(\n\n,\n,๋ฑ)๋ง์ผ๋ก๋ ์งง๊ณ ๊ด๋ จ ์๋ ์ฒญํฌ๊ฐ ์์ฑ๋์ด ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด.?!๋ฑ์ ์ถ๊ฐํ๋ ๊ฒ์ด ์ข์ต๋๋ค.
-
์๋ฏธ ๊ธฐ๋ฐ ์ฒญํน์ ์ค์์ฑ:
Kamradt,ClusterSemantic,LLMChunker์ ๊ฐ์ด ์๋ฏธ๋ฅผ ๊ณ ๋ คํ๋ ์ ๋ต๋ค์ด ์ ๋ฐ์ ์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. LLM์ ๋ฌธ๋งฅ์ ์ดํดํ๋ ๋ฐ ๋ฐ์ด๋๋ฏ๋ก, ์๋ฏธ ๋จ์๋ก ์ ๋๋ ์ ๋ณด๋ฅผ ์ ๊ณตํ ๋ ๋ ํจ์จ์ ์ ๋๋ค.
-
์คํ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ ์ถ์ฒ:
RecursiveCharacterTextSplitter(๊ฐ์ ๋ ๊ตฌ๋ถ์ ์ฌ์ฉ): ์ ์ ํ ์ฒญํฌ ํฌ๊ธฐ(์ฐ๊ตฌ์์๋ 200 ํ ํฐ)์ ์ค๋ฒ๋ฉ ์์ ์ค์ ์์ ์์ ์ ์ด๊ณ ์ค์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๊ตฌํ์ด ๊ฐ๋จํ๊ณ ๋น ๋ฅด๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.ClusterSemanticChunker: ์๋ฏธ์ ์ ์ฌ์ฑ์ ์ ์ญ์ ์ผ๋ก ์ต์ ํํ์ฌ ๋งค์ฐ ๋์ Precisionฮฉ์ IoU๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์๋ฏธ์ ์์ง์ฑ์ด ์ค์ํ ๊ฒฝ์ฐ ์ข์ ์ ํ์ด ๋ ์ ์์ต๋๋ค. ์ฒญํฌ ํฌ๊ธฐ 200์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.LLMSemanticChunker: ๊ฐ์ฅ ๋์ ์ฌํ์จ์ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ๊ด๋ จ ์ ๋ณด๊ฐ ํฉ์ด์ ธ ์๋๋ผ๋ ์ต๋ํ ๋ง์ด ์ฐพ์๋ด๋ ค๋ ๊ฒฝ์ฐ ์ ๋ฆฌํฉ๋๋ค. LLM์๊ฒ ์ง์ ๋งก๊ธฐ๋ ๋ฐฉ์์ ๊ฐ๋ ์ ์ผ๋ก ํฅ๋ฏธ๋กญ์ง๋ง, ๋น์ฉ์ด๋ ์๋ ์ด์๋ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.
-
๊ณ ๋ ค ์ฌํญ:
- ์ฒญํฌ ํฌ๊ธฐ: ๋๋ฌด ์์ผ๋ฉด ๊ด๋ จ ์ ๋ณด๊ฐ ์ชผ๊ฐ์ ธ์ ๊ฒ์ ํจ์จ์ด ๋จ์ด์ง๊ณ , ๋๋ฌด ํฌ๋ฉด ํ๋์ ์ฒญํฌ ์์ ๋๋ฌด ๋ง์ ๋ถํ์ํ ์ ๋ณด๊ฐ ํฌํจ๋์ด ๋น์ฉ์ด๋ ์ ํ๋์ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์์๋ 200 ~ 400 ํ ํฐ ๋ฒ์๊ฐ ์ฌ๋ฌ ์ ๋ต์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- ์ค๋ฒ๋ฉ(Overlap): ์ฒญํฌ ๊ฐ์ ์ผ๋ถ ํ ์คํธ๋ฅผ ๊ฒน์น๊ฒ ํ๋ฉด, ์๋ฏธ๊ฐ ์ฒญํฌ ๊ฒฝ๊ณ์ ๊ฑธ์ณ ์์ ๋ ์ ๋ณด๋ฅผ ๋์น๋ ๊ฒ์ ๋ฐฉ์งํ ์ ์์ต๋๋ค. ์ด ์ฐ๊ตฌ์์๋ ์ค๋ฒ๋ฉ ์์ด๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์์ง๋ง, ์ค์ ์ ์ฉ ์์๋ ์ํฉ์ ๋ฐ๋ผ ์ค๋ฒ๋ฉ์ ์ถ๊ฐํ๋ ๊ฒ์ ๊ณ ๋ คํ ์ ์์ต๋๋ค.
- ๋๋ฉ์ธ ํน์ฑ: ๊ธ์ต, ์๋ฃ ๋ฑ ํน์ ๋๋ฉ์ธ์์๋ ๊ณ ์ ์ ์ฉ์ด๋ ๊ตฌ์กฐ๊ฐ ์์ ์ ์์ผ๋ฏ๋ก, ํด๋น ๋๋ฉ์ธ์ ํนํ๋ ์ฒญํน ์ ๋ต์ด ํ์ํ ์ ์์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, โ๊ฐ์ฅ ์ข์โ ์ฒญํน ์ ๋ต์ ์์ต๋๋ค. ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ก๋ ClusterSemanticChunker๋ LLMSemanticChunker๊ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, RecursiveCharacterTextSplitter ๋ํ ๊ฐ์ ๋ ์ค์ ํ์์ ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ค์ ์ ์ฉ ์์๋ ๋ฐ์ดํฐ ํน์ฑ, RAG ์์คํ
์ ์๊ตฌ์ฌํญ(์ ๋ฐ๋ vs. ์ฌํ์จ), ๊ทธ๋ฆฌ๊ณ ๊ณ์ฐ ๋น์ฉ ๋ฑ์ ์ข
ํฉ์ ์ผ๋ก ๊ณ ๋ คํ์ฌ ์ ํํด์ผ ํฉ๋๋ค.
H.4) ํ๊ฐ ๋ฐ์ดํฐ์ ์์ฑ ์ Corpus ์ ์ฒด๋ฅผ ๋ด์ผ ํ๋๊ฐ?
๋ค, ์ผ๋ฐ์ ์ผ๋ก ํ๊ฐ ๋ฐ์ดํฐ์ ์ ์์ฑํ๋ ค๋ฉด ํด๋น ํ๊ฐ์ ๊ธฐ๋ฐ์ด ๋๋ Corpus ์ ์ฒด๋ฅผ ์ดํดํ๊ณ ํ์ฉํด์ผ ํฉ๋๋ค.
๊ทธ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- LLM์ ์ ๋ณด ์์ฑ ๋ฒ์: LLM์ด ์ฟผ๋ฆฌ์ ๊ด๋ จ ๋ฐ์ท๋ฌธ์ ์์ฑํ ๋, ์ฃผ์ด์ง Corpus์ ๋ชจ๋ ์ ๋ณด๋ฅผ ์ฐธ์กฐํ ์ ์์ด์ผ ํฉ๋๋ค. ๋ง์ฝ Corpus์ ์ผ๋ถ๋ง LLM์๊ฒ ์ ๊ณตํ๋ค๋ฉด, LLM์ ํด๋น ๋ถ๋ถ์๋ง ๊ตญํ๋ ์ฟผ๋ฆฌ๋ ๋ฐ์ท๋ฌธ๋ง ์์ฑํ๊ฒ ๋์ด ํ๊ฐ์ ๋ํ์ฑ์ ์๊ฒ ๋ฉ๋๋ค.
- ๋ฐ์ท๋ฌธ์ ์ ํ์ฑ ๋ณด์ฅ: LLM์ ์ ๊ณต๋ Corpus ๋ด์ ํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ํํ ์ผ์นํ๋ ๋ฐ์ท๋ฌธ์ ์์ฑํด์ผ ํฉ๋๋ค. Corpus ์ ์ฒด๋ฅผ ๋ด์ผ LLM์ด โ์ฌ์ค ๊ธฐ๋ฐโ์ด๊ณ โ์๋ณธ๊ณผ ์ผ์นํ๋โ ๋ฐ์ท๋ฌธ์ ์ ๋๋ก ์ฐพ์๋ผ ์ ์์ต๋๋ค.
- ๋ค์ํ ์ฟผ๋ฆฌ ์์ฑ: Corpus ์ ์ฒด๋ฅผ ํ์ด๋ณด๋ฉด์ LLM์ ๋ ๋ค์ํ๊ณ ๋ณต์กํ ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋ฌ ์น์ ์ ๊ฑธ์ณ ์๋ ์ ๋ณด์ ๋ํ ์ฟผ๋ฆฌ, ํน์ ์ฌ๊ฑด์ ์์ธ๊ณผ ๊ฒฐ๊ณผ์ ๋ํ ์ฟผ๋ฆฌ ๋ฑ์ด ๊ฐ๋ฅํด์ง๋๋ค.
- ํํฐ๋ง์ ์ ํ์ฑ: ์์ฑ๋ ์ฟผ๋ฆฌ์ ๋ฐ์ท๋ฌธ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ์ฌ ํํฐ๋งํ๋ ๊ณผ์ ์์๋ Corpus ์ ์ฒด์ ๋งฅ๋ฝ์ ์ดํดํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
ํ์ง๋ง, โ๋ชจ๋ Corpus๋ฅผ ๋ค ๋ณธ๋คโ๋ ๊ฒ์ด ๋ฐ๋์ โ๋์์ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํ๋คโ๋ ๋ป์ ์๋๋๋ค.
- Chunking & Sampling: ์ค์ ๋ก LLM์๊ฒ Corpus ์ ์ฒด๋ฅผ ํ ๋ฒ์ ์ ๊ณตํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ Corpus๋ฅผ ์์ ์ฒญํฌ๋ก ๋ถํ ํ๊ฑฐ๋, LLM์๊ฒ ์ฟผ๋ฆฌ์ ๋ฐ์ท๋ฌธ ์์ฑ์ ์ง์ํ ๋ Corpus ๋ด์ ์ฌ๋ฌ ๋ถ๋ถ์ ์ํ๋งํ์ฌ ์ ๊ณตํ๋ ๋ฐฉ์์ผ๋ก ์งํ๋ ์ ์์ต๋๋ค.
- Prompt Engineering: LLM์๊ฒ ์ ๊ณตํ๋ ํ๋กฌํํธ์ โ๋ค์ ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํ์ฌโฆโ ์ ๊ฐ์ด ๋ช ํํ๊ฒ ์ง์ํ๊ณ , ํ์ํ ๊ฒฝ์ฐ ๋ฌธ์์ ํน์ ๋ถ๋ถ์ ๋ฐ์ทํ์ฌ ํจ๊ป ์ ๊ณตํ๋ ๋ฐฉ์์ผ๋ก Corpus ์ ์ฒด์ ์ ๋ณด๋ฅผ ํ์ฉํ๊ฒ ํฉ๋๋ค.
์ด ์ฐ๊ตฌ์์๋ โLLM์๊ฒ ๋ฌธ์ ์ฝํผ์ค๋ฅผ ์ ๊ณตํ๊ณ โฆโ ๋ผ๊ณ ๋ช ์๋์ด ์์ผ๋ฉฐ, ์ด ์ฝํผ์ค๊ฐ ํ๊ฐ ๋ฐ์ดํฐ์ ์์ฑ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ํ๊ฐ ํ๋ ์์ํฌ์ ์์์ ์ผ๋ก์ Corpus ์ ์ฒด์ ์ ๋ณด๊ฐ LLM์๊ฒ ๊ฐ์ฉํด์ผ ํ๋ค๋ ์๋ฏธ๋ก ์ดํดํ์๋ฉด ๋ฉ๋๋ค.