Language Models are Few-Shot Learners

Language Models are Few-Shot Learners

  • Link: https://arxiv.org/abs/2005.14165

πŸ’‘ 핡심 아이디어가 뭐야?

NLP의 흐름이 κ³Όκ±°μ—λŠ” μž‘μ—…λ³„λ‘œ ν‘œν˜„μ„ ν•™μŠ΅ν•˜κ³  λͺ¨λΈ ꡬ쑰λ₯Ό μ„€κ³„ν–ˆμ§€λ§Œ, μ΄μ œλŠ” μž‘μ—…κ³Ό λ¬΄κ΄€ν•œ 사전 ν•™μŠ΅κ³Ό ꡬ쑰 μ„€κ³„λ‘œ λ³€ν™”ν•˜μ˜€μŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ μ—¬μ „νžˆ μ΅œμ’… λ‹¨κ³„μ—μ„œ μž‘μ—…μ— λ§žλŠ” λ―Έμ„Έ μ‘°μ •( Fine-Tuning)이 ν•„μš”ν–ˆμŠ΅λ‹ˆλ‹€.

GPT-2λŠ” 이 λ―Έμ„Έ μ‘°μ • 없이 λ‹€μ–‘ν•œ NLP μž‘μ—…μ„ μˆ˜ν–‰ν•  수 μžˆλŠ” zero-shot ν•™μŠ΅μ„ λ³΄μ—¬μ£Όμ—ˆμœΌλ‚˜, μ„±λŠ₯은 baseline에도 λ―ΈμΉ˜μ§€ λͺ»ν–ˆμŠ΅λ‹ˆλ‹€.

image

GPT-3μ—μ„œλŠ” λͺ¨λΈμ˜ 크기λ₯Ό 10λ°° 이상 ν‚€μ› μŠ΅λ‹ˆλ‹€. κ·Έλž¬λ”λ‹ˆ few-shot λΆ„μ•Όμ—μ„œ 쒋은 μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

  • zero-shot: 아무 μ˜ˆμ‹œλ„ 없이 νƒœμŠ€ν¬ μˆ˜ν–‰
  • ont-shot: ν•˜λ‚˜μ˜ μ˜ˆμ‹œλ₯Ό 보여주고 νƒœμŠ€ν¬ μˆ˜ν–‰
  • few-shot: λͺ‡ 개의 μ˜ˆμ‹œλ₯Ό 보여주고 νƒœμŠ€ν¬ μˆ˜ν–‰

λͺ¨λΈμ˜ 크기가 컀질수둝 더 λ›°μ–΄λ‚œ few-shot λŠ₯λ ₯을 보인닀고 ν•˜λ„€μš”.

Categories:

Updated:

Leave a comment