Improving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-Training
- Link : https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
Abstract
์์ฐ์ด๋ฅผ ์ดํดํ๋ ๊ฒ์ textual entailment, question answering(์ง์์๋ต), semantic similarity assessment(์๋ฏธ ์ ์ฌ๋ ํ๊ฐ), document classification(๋ฌธ์ ๋ถ๋ฅ)์ ๊ฐ์ ์ฌ๋ฌ task๋ฅผ ํฌํจํ๋ค.
ํ์ง๋ง, unlabeled๋ ๋ฐ์ดํฐ๋ ์ถฉ๋ถํด๋, ํน์ task๋ฅผ ์ํ labeled ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ์ฌ ํ๋ณ ๋ชจ๋ธ์ ์ถฉ๋ถํ ํ์ตํ๊ธฐ์๋ ์ด๋ ค์์ด ์๋ค. ๊ฐ๋ น ์ธํฐ๋ท ๊ธฐ์ฌ๋ค์ ๋ง์ง๋ง, ์ธํฐ๋ท ๊ธฐ์ฌ๋ค์ ์ฃผ์ ๋ณ๋ก ๋ถ๋ฅํ ๋ฐ์ดํฐ๋ฅผ ์ฐพ๊ธฐ๋ ์ฝ์ง ์์, ์ธํฐ๋ท ๊ธฐ์ฌ๋ฅผ ์ฃผ์ ๋ณ๋ก ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ์ ์ด๋ ค์์ ๊ฒช๋๋ค.
์ด ์ฐ๊ตฌ์์๋ ์ธ์ด ๋ชจ๋ธ์ unlabeled text๋ฅผ ์ด์ฉํด generative pre-trainingํ ํ, ๊ฐ task์ ๋ง๊ฒ discriminative fine-tuning์ ํ๋ ๋ฐฉ์์ ํตํด ์ฌ๋ฌ task์์ ํฐ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์์์ ๋ณด์ธ๋ค
์ฆ, NLP ์์์์ ์ฌ๋ฌ ์ธ๋ถ task๋ค, ์๋ฅผ ๋ค์ด ์๋ฏธ ์ ์ฌ๋๋ฅผ ํ๊ฐํ๋ task๋ง์ ์ํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ๋ณด๋ค ๋ค์ํ text ๋ฐ์ดํฐ๋ค์ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ ํ์ตํ ํ, ์ธ๋ถ task์ ๋ง๊ฒ fine-tuning์ ๊ฑฐ์ณ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ธ๋ค.
Large Language Model์ ์์ด GPT-1์ ๊ดํ ๋ ผ๋ฌธ์ด๋ค.
1. Introduction
NLP์์ raw text๋ก๋ถํฐ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ ๋ฅ๋ ฅ์, supervised learning์ ์์กด๋๋ฅผ ๋ฎ์ถ ์ ์๊ธฐ์ ํต์ฌ ๋ฅ๋ ฅ์ด๋ผ ํ ์ ์๋ค.
๋๋ถ๋ถ์ deep leaerning ๋ฐฉ์์ labeled๋ ๋ฐ์ดํฐ๊ฐ ์๋นํ ํ์ํ๋ฐ, ํ์ค์์๋ labeled๋ ๋ฐ์ดํฐ๋ค์ด ๋ถ์กฑํ๊ธฐ์ ๋ชจ๋ธ์ ๋ค๋ฅธ ๋๋ฉ์ธ์ ์ ์ฉํ๊ธฐ์๋ ์ ์ฝ์ด ์๊ธด๋ค.
๋ง์ฝ, ๋ชจ๋ธ์ด unlabeled ๋ฐ์ดํฐ์ ์ธ์ด ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๋ค๋ฉด, ์๊ฐ๊ณผ ๋น์ฉ์ ์ก์๋จน๋ ๋ฐ์ดํฐ์ label์ ํ๋ํ๋ ๋ฐฉ๋ฒ์ ๋์์ด ๋ ์ ์๋ค.
๋ํ supervision์ด ๊ฐ๋ฅํ ๊ฒฝ์ฐ์๋, unsupervised ๋ฐฉ์์ผ๋ก ์ข์ representation์ ํ์ตํ๋ ๊ฒ์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ ์ ์๋ค.
ํ์ง๋ง, unlabeled๋ text์์ word-level ์ด์์ ์ ๋ณด๋ฅผ ํ์ฉํ๊ธฐ๋ ์ด๋ ต๋ค.
๋จผ์ , ์ด๋ค ์ต์ ํ ํจ์๊ฐ transfer task์ ํจ๊ณผ์ ์ธ text representations์ ํ์ตํ๊ธฐ์ ์ ํฉํ์ง ๋ถํ์คํ๋ค.
๋ ๋ฒ์งธ, ํ์ตํ representations๋ฅผ target task์ ๋ง๊ฒ ์ด๋ป๊ฒ transferํ๋๊ฒ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ์ง ๋ถํ์คํ๋ค.
์ด๋ฌํ ๋ถํ์ค์ฑ์ผ๋ก ์ธํด language processing์ ์ํ ํจ๊ณผ์ ์ธ semi-supervised learning approaches๋ฅผ ์ฐพ๊ธฐ ์ด๋ ค์ ๋ค.
์ด ๋ ผ๋ฌธ์์๋, unsupervised pre-training๊ณผ supervised fine-tuning์ ์กฐํฉํ์ฌ language understanding tasks๋ฅผ ์ํ semi-supervised approach๋ฅผ ํ์ํด๋ณธ๋ค. ์ด ์ฐ๊ตฌ์ ๋ชฉํ๋ ๊ด๋ฒ์ํ ๊ณผ์ ์ ์ฝ๊ฐ์ ์ ์๋ง์ผ๋ก task์ ๋ง๊ฒ ๋ณํ์ํฌ ์ ์๋ ๋ณดํธ์ ์ธ ํํ(universal representation)์ ํ์ตํ๋ ๊ฒ์ด๋ค.
3 Framework
ํ๋ จ ๊ณผ์ ์ ๋ ๋จ๊ณ๋ก ์ด๋ฃจ์์ง๋ค. ์ฒซ ๋จ๊ณ๋ ๊ฑฐ๋ํ text ์๋ฃ๋ฅผ ๊ฐ์ง๊ณ ๋์ฉ๋ ์ธ์ด ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ด๋ค. ๊ทธ ํ fine-tuning ๋จ๊ณ์์ labeled data๋ฅผ ์ด์ฉํ discriminative task์ ๋ชจ๋ธ์ ์ ์ฉ์ํจ๋ค.
3.1 Unsupervised pre-training
์ผ๋ฐ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ฒ๋ผ $k$๊ฐ์ ์ด์ ํ ํฐ๋ค์ด ์ฃผ์์ก์ ๋, ํ์ฌ ํ ํฐ์ด ๋์ฌ ํ๋ฅ ์ ๊ตฌํ๋ likelihood ํจ์๋ฅผ ์ต๋ํํ๋๋ก ํ๋ค.
$L_1(U)=\sum_i log\ P(u_i | u_{i-k},โฆ,u_{i-1};\Theta)$ |
์ฌ๊ธฐ์ $k$๋ context window์ ํฌ๊ธฐ์ด๊ณ , ์กฐ๊ฑด๋ถํ๋ฅ $P$๋ parameters $\Theta$๋ฅผ ๊ฐ์ง๋ neural network๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ๋ง๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด parameters๋ SGD(Stochastic Gradient Descent)๋ฅผ ํตํด ํ์ต๋๋ค. ๊ฐ๋ น $k$๊ฐ์ด 4์ด๋ฉด, ํ์ฌ ์ฐ๋ฆฌ๊ฐ ์์ธกํ๊ณ ์ ํ๋ ํ ํฐ $u_i$ ์ด์ 4๊ฐ์ ํ ํฐ $u_{i-4}, u_{i-3}, u_{i-2}, u_{i-1}$๊ฐ ์ฃผ์์ก์ ๋, ๋ค์์ผ๋ก $u_i$๊ฐ ๋์ฌ ํ๋ฅ ์ ์ต๋ํํ๋๋ก ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
์ด ์ฐ๊ตฌ์์๋ ์ธ์ด ๋ชจ๋ธ๋ก multi-layer Transformer decoder๋ฅผ ์ฌ์ฉํ๋ค.
Pre-training ๊ณผ์ ์ ์ด๋ ๋ค.
$h_0=UW_e+Wp$
- input ํ ํฐ U์ ๋ํด token embedding๊ณผ position embedding์ ์ํํด $h_0$๋ฅผ ๊ตฌํ๋ค.
$h_l=$ transformer_block$(h_{l-1})\forall i \in [1,n]$
- hidden state๋ฅผ transformer block์ ๋ฃ๊ณ ํ์ต์ํค๋ ๊ณผ์ ์ n๊ฐ์ layer์ ๋ฐ๋ณตํ๋ค.
$P(u) =$ softmax$(h_nW_e^T)$
- ์ต์ข ์ ์ผ๋ก ๊ตฌํ hidden state๋ฅผ ์ด์ฉํด ํ๋ฅ ์ ๊ตฌํ๋ค.
3.2 Supervised fine-tuning
์ธ์ด ๋ชจ๋ธ์ ํ์ตํ ํ, ๋ชจ๋ธ์ parameters๋ฅผ supervised target task์ ๋ง๊ฒ ์กฐ์ ํ๋ค.
ํ ํฐ $x^1,โฆ,x^m$์ผ๋ก ์ด๋ค์ง ๋ฌธ์ฅ๊ณผ ์ฐ๋ฆฌ๊ฐ ๊ตฌํ๊ณ ์ ํ๋ label $y$๊ฐ ์์ ๋, ๋จผ์ input ๋ฐ์ดํฐ๋ฅผ ์ธ์ด ๋ชจ๋ธ์ ๋ฃ์ด ์ต์ข transformer ๋ธ๋ก์ activation $h_l^m$์ ๊ตฌํ๋ค. ๊ทธ ํ $W_y$๋ฅผ parameters๋ก ๊ฐ๋ ์ถ๊ฐ์ ์ธ linear output layer์ ๋ฃ์ด $y$๋ฅผ ์์ธกํ๋ค.
$P(y | x^1,โฆ,x^m)=softmax(h_l^mW_y)$ |
๊ทธ๋ฆฌ๊ณ ๋ค์๊ณผ ๊ฐ์ likelihood ํจ์๋ฅผ maximizeํ๋๋ก ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
$L_2(C)=\sum_{(x,y)}logP(y | x^1,โฆ,x^m)$ |
์ด ์ฐ๊ตฌ์์๋ ์ถ๊ฐ์ ์ผ๋ก ์ธ์ด ๋ชจ๋ธ์ ํ์ตํ ๋ ์ฌ์ฉํ $L_1(U)$ ํจ์๋ฅผ $L_2(C)$์ ๊ฐ์ด ์ฌ์ฉํ์๋๋, supervised model์ ์ผ๋ฐํ๋ฅผ ๊ฐ์ ํ ์ ์์๊ณ , ๋ชจ๋ธ์ ์๋ ด์ ๊ฐ์ํํจ์ ๋ฐ๊ฒฌํ๋ค.
๋ฐ๋ผ์ $L_3(C)=L_2(C)+\lambda*L_1(c)$๋ฅผ ์ต๋ํํ๋๋ก fine-tuning ํ์ต์ ์งํํ๋ค.
3.3 Task-specific input transformations
๊ฐ task์ ๋ง๊ฒ input ๊ตฌ์กฐ๋ฅผ ๋ค๋ฅด๊ฒ ํ์ฌ fine-tuning ํ์ต์ ์งํํ๋ค.
- Classification : text ๊ทธ๋๋ก input์ผ๋ก ๋ฃ๋๋ค.
- Textual Entailment : premise(์ ์ )์ hypothesis(๊ฐ์ค)๋ฅผ ๊ฒฐํฉํ๊ณ , ๊ทธ ์ฌ์ด๋ฅผ delimiter ํ ํฐ($)์ผ๋ก ๊ตฌ๋ณํ์ฌ input์ผ๋ก ๋ฃ๋๋ค.
- Similarity : ์ ์ฌ๋๋ฅผ ๊ตฌํ ๋ ๋ฌธ์ฅ์ ๊ฒนํฉํ๊ณ , ๋ง์ฐฌ๊ฐ์ง๋ก delimiter ํ ํฐ์ผ๋ก ๊ตฌ๋ณํ์ฌ input์ผ๋ก ๋ฃ๋๋ค. ๋ฌธ์ฅ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ตฌํ ๋ ๋ด์ ๋ ordering์ ๋ฐฐ์ ํ๊ธฐ ์ํด, ๋ ๋ฌธ์ฅ์ ์์๋ฅผ ๋ฐ๊ฟ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค. ๊ทธ ํ output์ softmax layer๋ฅผ ํตํด ์ ๊ทํํ์ฌ ๊ฐ์ฅ ์ ์ ํ ๋ต๋ณ์ ๊ตฌํ๋ค.
- Question Answering and Commonsense Reasoning : context ๋ฌธ์ $z$์ question $q$๋ฅผ ๊ฐ๋ฅํ ๊ฐ๋ฅํ ๋ต๋ณ $\left{ a_k \right}$์ ๊ฐ๊ฐ ๊ฒฐํฉํ์ฌ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ ํ, softmax layer๋ก normalizeํ์ฌ ๊ฐ๋ฅํ ๋ต๋ณ๋ค์ ๋ํด output distribution์ ์์ฑํ๋ค.
Conclusion
GPT๋ unlabeled ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ unsupervised pre-training์ ์งํํ๊ณ , ๊ทธ ํ ํน์ task์ ๋ง๊ฒ labeled ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ supervised fine-tuning์ ์งํํ์๊ณ , ์ด๋ฅผ ํตํด ๊ฐ๊ฐ์ ๋ชฉ์ ์ ๋ง๊ฒ task๋ฅผ ์ํํ ์ ์๋๋ก ๋ง๋ค์ด์ง ๋ชจ๋ธ์ด๋ค.
ํน์ ๊ณผ์ ์ ์ ํฉํ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ฐฉ์์ด ์๋, semi-supervised learning์ ํตํด Language Model์ ํ์ต์ํจ ํ, fine-tuning์ ํตํด ๊ฐ task๋ฅผ ์ํํ ์ ์๋๋ก ๋ชจ๋ธ์ ํ์ต์ํจ ์ ์ด ์ธ์์ ์ด์๋ค.
Leave a comment