Language Models are Unsupervised Multitask Learners
Language Models are Unsupervised Multitask Learners
- Link : https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
๐ก ๊ธฐ์กด ๋ฌธ์ ๋ ๋ญ์ผ?
๊ธฐ์กด ์์คํ ์ ์ ๋ฅํ ์ ๋๋ด๋ฆฌ์คํธ๋ณด๋ค ํน์ ํ ์คํฌ์ ํนํ๋ ์ ๋ฌธ๊ฐ๋ฅผ ๋ง๋๋ ๊ฒ์ผ๋ก ๋น์ ํ ์ ์๋ค.
๐ก ํต์ฌ ์์ด๋์ด๊ฐ ๋ญ์ผ?
Language Models are Unsupervised Multitask Learners(2019)์์๋ OpenAI์ GPT-2 ๋ชจ๋ธ์ ์๊ฐํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ํฐ ๋ชจ๋ธ์, ํฌ๊ณ ๋ค์ํ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ๋ฉด ๋ง์ ๋๋ฉ์ธ์์ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๋ ๊ฒ์ด๋ค. GPT-2๋ GPT-1๊ณผ ๊ตฌ์กฐ๊ฐ ๊ฑฐ์ ๋์ผํ๋ฉฐ ๋์ฑ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , Transformer ๋ ์ด์ด๊ฐ ๋ ๋ง์ด ์์ธ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
Pretraining์์๋ GPT-1๊ณผ ๋์ผํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง๋ง, ํจ์ฌ ๋ง์ ๋ฐ์ดํฐ์ ํ๋ฆฌํฐ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ์ฌ ์์ง์ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค.
Multitask Learning as Question Answering. GPT-2์์๋ ์ถ๊ฐ์ Fine-tuning์์ด zero-shot ์ธํ ์ผ๋ก ์ฌ๋ฌ NLP task๋ค์ ์ํํ๊ธฐ ์ํด task๋ฅผ QA์ ํํ๋ก ๋ณํํ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์์ฝ๋ฌธ์ ๋ฅผ โ(๊ธ), ์ด ๊ธ์ ์์ฝํ๋ฉด?โ, ๋ฒ์ญ๋ฌธ์ ๋ฅผ (๋ฌธ์ฅ), ์ด ๋ฌธ์ฅ์ ์์ด๋ก ๋ฒ์ญํ๋ฉด?โ๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋ง์ด์ฃ .
- Summarization : TL;DR text๋ฅผ article์ ๋ง์ง๋ง์ ์ฃผ๊ณ , TL;DR์ด ๋์ค๋ฉด ์์ ๋์จ ๊ธ์ ์์ฝํ๋ ํ ์คํฌ ์ํ โ Fine-tuning์์ด zero-shot setting์์ ์์ฝ์ ์ํํ ์ ์๊ฒํจ.
- Transaltion : ๋ฌธ์ฅ ๋์ โthey say in French:โ์ ๊ฐ์ ์ด๊ตฌ(context of example pairs of the format : English sentence = French sentence)๋ฅผ ๋ถ์ฌ ๋ฒ์ญ ํ ์คํฌ๋ฅผ ์ํ
์ด๋ฐ ๋ฐฉ์์ ํตํด ์ถ๊ฐ ํ์ต ์์ด ์ฌ๋ฌ task๋ฅผ ์ํํ ์ ์์์ต๋๋ค. ๋ฌผ๋ก ํน์ task๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ํ์ตํ๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ง๋ง, ์ถ๊ฐ ํ์ต์ด ์์ด ์ํํ ์ ์๋ค๋ ๊ฒ์ ํน์ task๋ฅผ ์ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ ํ์๊ฐ ์๋ค๋ ๋ป์ด๊ธฐ์ ๋ง์ ์๊ฐ๊ณผ ๋น์ฉ์ ์๋ ์ ์์ต๋๋ค.
Leave a comment