2503.07891

๐Ÿ—๏ธ ๋ชจ๋ธ ๊ตฌ์กฐ

  • ์ž…๋ ฅ ์ฒ˜๋ฆฌ: ์ž…๋ ฅ ํ…์ŠคํŠธ๋ฅผ Gemini ๊ธฐ๋ฐ˜ Transformer๋กœ ์ฒ˜๋ฆฌ
  • Pooling: Mean pooling์„ ์‚ฌ์šฉํ•ด ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ์š”์•ฝ
  • ํˆฌ์˜: ์„ ํ˜• ํˆฌ์˜์ธต์„ ํ†ตํ•ด ์›ํ•˜๋Š” ์ฐจ์›์˜ ์ž„๋ฒ ๋”ฉ ์ƒ์„ฑ (์ตœ๋Œ€ 3072์ฐจ์›)

A.1) ๐ŸŽฏ ํ•™์Šต ๋ฐฉ์‹

  • Loss Function: Noise-Contrastive Estimation (NCE) ๊ธฐ๋ฐ˜

    • Query, Positive, Hard Negative๋ฅผ ํฌํ•จํ•œ contrastive learning
    • ๋‹ค์–‘ํ•œ ์ž„๋ฒ ๋”ฉ ์ฐจ์›์— ๋Œ€ํ•ด MRL(Multi-loss Representation Learning) ์ ์šฉ
  • ํ•™์Šต ๋‹จ๊ณ„:

    1. Pre-finetuning: ๋Œ€๊ทœ๋ชจ noisy ๋ฐ์ดํ„ฐ๋กœ ์ดˆ๊ธฐ ์ ์‘
    2. Finetuning: ๋‹ค์–‘ํ•œ ์ž‘์—…๋ณ„ ๋ฐ์ดํ„ฐ๋กœ ์„ธ๋ฐ€ํ•œ ์กฐ์ •
    3. Model Soup: ์—ฌ๋Ÿฌ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํ‰๊ท ํ™”ํ•ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ

A.2) ๐Ÿงช ํ‰๊ฐ€ ๊ฒฐ๊ณผ

  • ๋ฒค์น˜๋งˆํฌ: MMTEB, MTEB(Eng), MTEB(Code), XOR-Retrieve, XTREME-UP ๋“ฑ
  • ์„ฑ๊ณผ:
    • ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ์—์„œ 1์œ„ ์„ฑ๋Šฅ ๊ธฐ๋ก
    • ํŠนํžˆ ๋ถ„๋ฅ˜, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ๊ฒ€์ƒ‰ ์ž‘์—…์—์„œ ๋‘๋“œ๋Ÿฌ์ง„ ์„ฑ๋Šฅ ํ–ฅ์ƒ
    • ์ €์ž์› ์–ธ์–ด(์˜ˆ: Assamese, Hindi)์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ

A.3) ๐Ÿงฌ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ํ–ฅ์ƒ ์ „๋žต

  • Synthetic Data Generation: Gemini๋ฅผ ํ™œ์šฉํ•ด ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ
  • Data Filtering: Gemini๋กœ ์ž˜๋ชป๋œ ์˜ˆ์‹œ ์ œ๊ฑฐ
  • Hard Negative Mining: Gemini ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋กœ ํšจ๊ณผ์ ์ธ ๋ถ€์ • ์˜ˆ์‹œ ์„ ํƒ

A.4) ๐Ÿ” Ablation Study ์š”์•ฝ

  • ์˜์–ด ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ๋‹ค๊ตญ์–ด ์ž‘์—…์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ ๋ฐœํœ˜
  • ์ž‘์—… ๋‹ค์–‘์„ฑ์ด ์–ธ์–ด ๋‹ค์–‘์„ฑ๋ณด๋‹ค ๋” ์ค‘์š”ํ•œ ์š”์†Œ๋กœ ์ž‘์šฉ
  • Synthetic ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ ์‹œ ์„ฑ๋Šฅ์ด ์ตœ๋Œ€ +17.6 ํ–ฅ์ƒ๋จ

A.4.1) Hard Negative Mining

  • Gemini๋ฅผ ํ™œ์šฉํ•ด retrieval ์ž‘์—…์—์„œ ์–ด๋ ค์šด ๋ถ€์ • ์˜ˆ์‹œ๋ฅผ ์„ ํƒ
  • ์ ์ ˆํ•œ ์ˆ˜์˜ hard negative๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ, ๊ณผ๋„ํ•œ ์ˆ˜๋Š” ์˜คํžˆ๋ ค ์„ฑ๋Šฅ ์ €ํ•˜

A.5) Pre-finetuning์ด๋ž€?

  • Pre-finetuning์€ ๋ณธ๊ฒฉ์ ์ธ ํ•™์Šต(finetuning)์— ๋“ค์–ด๊ฐ€๊ธฐ ์ „์—, ๋ชจ๋ธ์„ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์— ๋จผ์ € ์ ์‘์‹œํ‚ค๋Š” ๋‹จ๊ณ„์˜ˆ์š”.
  • ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๊ณ  ์ •์ œ๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด์„œ ๋ชจ๋ธ์ด โ€œํ…์ŠคํŠธ๋ฅผ ์ž„๋ฒ ๋”ฉํ•˜๋Š” ๋ฐฉ์‹โ€์— ์ต์ˆ™ํ•ด์ง€๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  • ํŠนํžˆ Gemini๋Š” ์›๋ž˜ ์ƒ์„ฑํ˜• ๋ชจ๋ธ์ด๋ผ์„œ, ์ž„๋ฒ ๋”ฉ์ฒ˜๋Ÿผ ์ธ์ฝ”๋”ฉ ์ค‘์‹ฌ์˜ ์ž‘์—…์— ์ ์‘์‹œํ‚ค๋ ค๋ฉด ์ด ๋‹จ๊ณ„๊ฐ€ ๊ผญ ํ•„์š”ํ•ด์š”.

A.5.1) ๐Ÿ“Œ ํŠน์ง• ์š”์•ฝ

ํ•ญ๋ชฉ์„ค๋ช…
๋ชฉ์ Gemini์˜ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ์ž„๋ฒ ๋”ฉ ์ž‘์—…์— ๋งž๊ฒŒ ์กฐ์ •
๋ฐ์ดํ„ฐ์›น์—์„œ ์ˆ˜์ง‘ํ•œ (query, passage) ์Œ ๋“ฑ ๋Œ€๊ทœ๋ชจ noisy ๋ฐ์ดํ„ฐ
๋ฐฉ์‹contrastive learning (positive๋งŒ ์‚ฌ์šฉ, hard negative ์—†์Œ)
ํšจ๊ณผ๋ชจ๋ธ์ด ์•ˆ์ •์ ์œผ๋กœ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ธฐ๋ฐ˜ ๋งˆ๋ จ

A.6) ๐Ÿงช ์™œ ์ค‘์š”ํ•œ๊ฐ€?

  • Pre-finetuning ์—†์ด ๋ฐ”๋กœ ํ•™์Šตํ•˜๋ฉด ์„ฑ๋Šฅ์ด 30~40์ ๋Œ€๋กœ ๋งค์šฐ ๋‚ฎ๊ฒŒ ๋‚˜์™€์š”.
  • Pre-finetuning๋งŒ ํ•ด๋„ ์„ฑ๋Šฅ์ด 50์ ๋Œ€ ์ด์ƒ์œผ๋กœ ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ.
  • ์ดํ›„ ์ •์ œ๋œ ๋ฐ์ดํ„ฐ๋กœ finetuning์„ ํ•˜๋ฉด 70์ ๋Œ€ ์ด์ƒ๊นŒ์ง€ ์˜ฌ๋ผ๊ฐ€์š”.

์š”์•ฝํ•˜์ž๋ฉด, Gemini Embedding์€ Gemini ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งŒ๋“ค์–ด์กŒ๊ณ , ๊ทธ๊ฑธ ์ž„๋ฒ ๋”ฉ ์ „์šฉ์œผ๋กœ ์ž˜ ์ž‘๋™ํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด pre-finetuning์ด๋ผ๋Š” ์ ์‘ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์นœ ๊ฑฐ์˜ˆ์š”. ์ด๊ฒŒ ์—†์œผ๋ฉด ๋ชจ๋ธ์ด ์ž„๋ฒ ๋”ฉ์„ ์ œ๋Œ€๋กœ ๋ชป ๋ฝ‘๋Š”๋‹ค๊ณ  ๋ด๋„ ๋ฌด๋ฐฉํ•ด์š”.

A.7) ๐Ÿง  ํ•™์Šต ๋ฐฉ์‹: 3๋‹จ๊ณ„ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ

A.7.1) ์ดˆ๊ธฐํ™” (Initialization)

  • ๊ธฐ๋ฐ˜ ๋ชจ๋ธ: Gemini LLM์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์™€์„œ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ๊ฐ’์œผ๋กœ ์‚ฌ์šฉ
  • ์ด ๋‹จ๊ณ„๋Š” ์‚ฌ์‹ค์ƒ โ€œ์‚ฌ์ „ ํ›ˆ๋ จ(pre-training)โ€œ์œผ๋กœ ๊ฐ„์ฃผ๋จ
  • Gemini์˜ ๋‹ค๊ตญ์–ด, ์ฝ”๋“œ ์ดํ•ด ๋Šฅ๋ ฅ์„ ๊ทธ๋Œ€๋กœ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์— ์ด์‹

A.7.2) Pre-finetuning

  • ๋ชฉ์ : Gemini์˜ ์ƒ์„ฑ ์ค‘์‹ฌ ๊ตฌ์กฐ๋ฅผ ์ž„๋ฒ ๋”ฉ ์ค‘์‹ฌ ๊ตฌ์กฐ๋กœ ์ ์‘์‹œํ‚ค๊ธฐ
  • ๋ฐ์ดํ„ฐ: ์›น ๊ธฐ๋ฐ˜์˜ ๋Œ€๊ทœ๋ชจ noisy (query, passage) ์Œ
  • ํŠน์ง•:
    • Hard negative ์—†์ด positive๋งŒ ์‚ฌ์šฉ
    • ๋งค์šฐ ํฐ ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ ์‚ฌ์šฉ โ†’ ์•ˆ์ •์ ์ธ gradient ํ™•๋ณด
    • ๋งŽ์€ ํ•™์Šต ์Šคํ… ์ˆ˜ํ–‰ โ†’ ๋ชจ๋ธ์ด โ€œ์ธ์ฝ”๋”ฉโ€์— ์ต์ˆ™ํ•ด์ง€๋„๋ก

A.7.3) Fine-tuning

  • ๋ชฉ์ : ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์ •๋ฐ€ ์กฐ์ •
  • ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ:
    • Task ๋‹ค์–‘์„ฑ: ๋ถ„๋ฅ˜, ๊ฒ€์ƒ‰, ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋“ฑ
    • ์–ธ์–ด ๋‹ค์–‘์„ฑ: ๋‹ค๊ตญ์–ด ํฌํ•จ
    • ์ฝ”๋“œ ์ž‘์—…: CodeSearchNet ๋“ฑ
  • ๊ธฐ๋ฒ•:
    • Hard negative ํฌํ•จํ•œ contrastive learning
    • ๊ฐ ๋ฐฐ์น˜๋Š” ํ•˜๋‚˜์˜ ์ž‘์—… ๋ฐ์ดํ„ฐ์…‹๋งŒ ํฌํ•จ โ†’ ๋” ๊ฐ•ํ•œ ํ•™์Šต ์‹ ํ˜ธ
    • ๋‹ค์–‘ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐํ•ฉ์œผ๋กœ ์ฒดํฌํฌ์ธํŠธ ์ƒ์„ฑ

A.7.4) Model Soup

  • ์—ฌ๋Ÿฌ fine-tuning ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํ‰๊ท ํ™”ํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ
  • ๋‹ค์–‘ํ•œ ์กฐํ•ฉ ์‹คํ—˜ ํ›„ ์ตœ์ข… ๋ชจ๋ธ ๊ตฌ์„ฑ

A.8) ๐Ÿงฉ Masking ๊ธฐ๋ฒ•์ด๋ž€?

  • ์ด masking์€ loss ๊ณ„์‚ฐ ์‹œ false negative๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ํŠนํžˆ classification ์ž‘์—…์—์„œ ๊ฐ™์€ query๋‚˜ ๊ฐ™์€ label์ด ๋ฐ˜๋ณต๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ž˜๋ชป๋œ ์Œ์„ฑ ์˜ˆ์‹œ(negative)๋ฅผ ์ œ๊ฑฐํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

A.8.1) ๐Ÿ” ์ˆ˜์‹์—์„œ์˜ ์—ญํ• 

math

mask(i, j) = 
  0 \quad \text{if } q_i = q_j \text{ or } p^+_i = p^+_j \\
  1 \quad \text{otherwise}
  • ์ฆ‰, ๊ฐ™์€ query๋‚˜ ๊ฐ™์€ positive target์„ ๊ฐ€์ง„ ๊ฒฝ์šฐ์—๋Š” denominator์—์„œ ์ œ์™ธ์‹œ์ผœ์„œ ์ž˜๋ชป๋œ ๋น„๊ต๊ฐ€ ์ผ์–ด๋‚˜์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋กœ ์ธํ•ด false negative๋กœ ์ธํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ์–ด์š”.

A.9) ๐Ÿ’ก ์™œ ์ค‘์š”ํ•œ๊ฐ€?

  • ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์€ ์œ ์‚ฌ๋„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต๋˜๊ธฐ ๋•Œ๋ฌธ์—, ์ž˜๋ชป๋œ ์Œ์„ฑ ์˜ˆ์‹œ๊ฐ€ ๋“ค์–ด๊ฐ€๋ฉด ๋ชจ๋ธ์ด ํ˜ผ๋ž€์„ ๊ฒช์Šต๋‹ˆ๋‹ค.
  • ํŠนํžˆ ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ๋Š” label ์ˆ˜๊ฐ€ ์ ๊ณ  ์ค‘๋ณต์ด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์—, ์ด masking์ด ์—†์œผ๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์–ด์š”.

A.9.1) Hard Negative Mining

  • Gemini๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ฒ€์ƒ‰(retrieval) ์ž‘์—…์—์„œ ๋ชจ๋ธ์ด ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ถ€์ • ์˜ˆ์‹œ(hard negative)๋ฅผ ์„ ๋ณ„ํ•ฉ๋‹ˆ๋‹ค.
  • ์ ์ ˆํ•œ ์ˆ˜์˜ hard negative๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์ง€๋งŒ, ๋„ˆ๋ฌด ๋งŽ์„ ๊ฒฝ์šฐ ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

A.9.2) ์ดˆ๊ธฐํ™” (Initialization)

  • ๊ธฐ๋ฐ˜ ๋ชจ๋ธ: ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ๊ฐ’์œผ๋กœ Gemini LLM์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.
  • ์ด ๋‹จ๊ณ„๋Š” ์‚ฌ์‹ค์ƒ ์‚ฌ์ „ ํ›ˆ๋ จ(pre-training)๊ณผ ์œ ์‚ฌํ•˜๋ฉฐ,
  • Gemini๊ฐ€ ๊ฐ€์ง„ ๋‹ค๊ตญ์–ด ๋ฐ ์ฝ”๋“œ ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์— ํšจ๊ณผ์ ์œผ๋กœ ์ด์‹ํ•ฉ๋‹ˆ๋‹ค.

A.9.3) Pre-finetuning

  • ๋ชฉ์ : Gemini์˜ ์ฃผ ์ƒ์„ฑ(generative) ๊ตฌ์กฐ๋ฅผ ์ž„๋ฒ ๋”ฉ ์ค‘์‹ฌ ๊ตฌ์กฐ๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ „ํ™˜์‹œํ‚ค๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ์›น์—์„œ ์ˆ˜์ง‘ํ•œ ๋Œ€๊ทœ๋ชจ noisy (query, passage) ์Œ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ํŠน์ง•:
    • Hard negative ์—†์ด positive ์Œ๋งŒ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋งค์šฐ ํฐ ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ๋ฅผ ์ ์šฉํ•ด ์•ˆ์ •์ ์ธ gradient ํ๋ฆ„์„ ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค.
    • ์ถฉ๋ถ„ํ•œ ํ•™์Šต ์Šคํ…์„ ํ†ตํ•ด, ๋ชจ๋ธ์ด โ€œ์ธ์ฝ”๋”ฉโ€ ๋ฐฉ์‹์— ์ต์ˆ™ํ•ด์ง€๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

A.9.4) Fine-tuning

  • ๋ชฉ์ : ๋‹ค์–‘ํ•œ ์‹ค์ œ ์ž‘์—…(task)์— ๋งž์ถฐ ์ •๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ:
    • ์ž‘์—… ๋‹ค์–‘์„ฑ: ๋ถ„๋ฅ˜, ๊ฒ€์ƒ‰, ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋“ฑ ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ํƒœ์Šคํฌ ํฌํ•จ
    • ์–ธ์–ด ๋‹ค์–‘์„ฑ: ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ ๋ฐ˜์˜
    • ์ฝ”๋“œ ๊ด€๋ จ ์ž‘์—…: CodeSearchNet ๋“ฑ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ์…‹๋„ ํฌํ•จ
  • ํ•™์Šต ๊ธฐ๋ฒ•:
    • Hard negative๊ฐ€ ํฌํ•จ๋œ contrastive learning ๋ฐฉ๋ฒ• ์ ์šฉ
    • ๊ฐ ๋ฐฐ์น˜์—๋Š” ํ•˜๋‚˜์˜ ์ž‘์—… ๋ฐ์ดํ„ฐ์…‹๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ•ํ•œ ํ•™์Šต ์‹ ํ˜ธ ์ œ๊ณต
    • ๋‹ค์–‘ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐํ•ฉ์œผ๋กœ ์—ฌ๋Ÿฌ ์ฒดํฌํฌ์ธํŠธ ์ƒ์„ฑ

A.9.5) Model Soup

  • ์—ฌ๋Ÿฌ fine-tuning ์ฒดํฌํฌ์ธํŠธ๋“ค์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ‰๊ท ๋‚ด์–ด ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ ์กฐํ•ฉ ์‹คํ—˜์„ ๊ฑฐ์ณ ์ตœ์ข… ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

A.10) ๐Ÿงฉ Masking ๊ธฐ๋ฒ•์ด๋ž€?

Masking ๊ธฐ๋ฒ•์€ loss ๊ณ„์‚ฐ ์‹œ ์ž˜๋ชป๋œ ์Œ์„ฑ ์˜ˆ์‹œ(false negative)๊ฐ€ ํฌํ•จ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

ํŠนํžˆ classification ์ž‘์—…์—์„œ๋Š” ๋™์ผํ•œ query๋‚˜ label์ด ๋ฐ˜๋ณตํ•ด์„œ ๋“ฑ์žฅํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋Ÿฐ ๊ฒฝ์šฐ์—๋Š” ์Œ์„ฑ ์˜ˆ์‹œ๋กœ ์ž˜๋ชป ์ธ์‹๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ œ์™ธํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.


A.10.1) ๐Ÿ” ์ˆ˜์‹์—์„œ์˜ ์—ญํ• 

์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

์ฆ‰, ๊ฐ™์€ query ๋˜๋Š” ๊ฐ™์€ positive target์„ ๊ฐ–๋Š” ๊ฒฝ์šฐ์—๋Š” denominator(๋ถ„๋ชจ)์—์„œ ์ œ์™ธํ•˜์—ฌ ์ž˜๋ชป๋œ ๋น„๊ต๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด false negative๋กœ ์ธํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ง‰์•„์ค๋‹ˆ๋‹ค.


A.11) ๐Ÿ’ก ์™œ ์ค‘์š”ํ•œ๊ฐ€?

์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์€ ์œ ์‚ฌ๋„(similarity)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต๋˜๊ธฐ ๋•Œ๋ฌธ์—, ์ž˜๋ชป๋œ ์Œ์„ฑ ์˜ˆ์‹œ๊ฐ€ ๋“ค์–ด๊ฐˆ ๊ฒฝ์šฐ ๋ชจ๋ธ์˜ ํ˜ผ๋™๊ณผ ์„ฑ๋Šฅ ์ €ํ•˜๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ ๋ถ„๋ฅ˜(classification) ์ž‘์—…์ฒ˜๋Ÿผ label ์ข…๋ฅ˜๊ฐ€ ์ ๊ณ  ์ค‘๋ณต ๋นˆ๋„๊ฐ€ ๋†’์€ ์ƒํ™ฉ์—์„œ๋Š” masking ๊ธฐ๋ฒ• ์—†์ด๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๊ฐ€ ์‹ฌ๊ฐํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.