Language Models are Few-Shot Learners
Language Models are Few-Shot Learners
- Link: https://arxiv.org/abs/2005.14165
π‘ ν΅μ¬ μμ΄λμ΄κ° λμΌ?
NLPμ νλ¦μ΄ κ³Όκ±°μλ μμ λ³λ‘ ννμ νμ΅νκ³ λͺ¨λΈ ꡬ쑰λ₯Ό μ€κ³νμ§λ§, μ΄μ λ μμ κ³Ό 무κ΄ν μ¬μ νμ΅κ³Ό ꡬ쑰 μ€κ³λ‘ λ³ννμμ΅λλ€. νμ§λ§ μ¬μ ν μ΅μ’ λ¨κ³μμ μμ μ λ§λ λ―ΈμΈ μ‘°μ ( Fine-Tuning)μ΄ νμνμ΅λλ€.
GPT-2λ μ΄ λ―ΈμΈ μ‘°μ μμ΄ λ€μν NLP μμ μ μνν μ μλ zero-shot νμ΅μ 보μ¬μ£ΌμμΌλ, μ±λ₯μ baselineμλ λ―ΈμΉμ§ λͺ»νμ΅λλ€.
GPT-3μμλ λͺ¨λΈμ ν¬κΈ°λ₯Ό 10λ°° μ΄μ ν€μ μ΅λλ€. κ·Έλ¬λλ few-shot λΆμΌμμ μ’μ μ±λ₯μ 보μμ΅λλ€.
- zero-shot: μ무 μμλ μμ΄ νμ€ν¬ μν
- ont-shot: νλμ μμλ₯Ό 보μ¬μ£Όκ³ νμ€ν¬ μν
- few-shot: λͺ κ°μ μμλ₯Ό 보μ¬μ£Όκ³ νμ€ν¬ μν
λͺ¨λΈμ ν¬κΈ°κ° 컀μ§μλ‘ λ λ°μ΄λ few-shot λ₯λ ₯μ 보μΈλ€κ³ νλ€μ.
Leave a comment