BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Link : https://arxiv.org/abs/1810.04805
๐ก ํต์ฌ ์์ด๋์ด๊ฐ ๋ญ์ผ?
- BERT(Bidirectional Encoder Representations from Transformers)๋ ์ ๋ ฅ๋ ๋ฌธ์ฅ์์ ๊ฐ ๋จ์ด์ ๋ฌธ๋งฅ์ ์๋ฐฉํฅ์ผ๋ก ์ดํดํ๊ธฐ ์ํด multi-layer bidirectional Transformer encoder๋ฅผ MLM(Masked Language Model)๊ณผ NSP(Next Sentence Prediction) ๋ฐฉ์์ ์ด์ฉํด ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ํค๊ณ , ํ์ต๋ ๋ชจ๋ธ์ fine-tuningํ์ฌ ๋ค์ํ ์ธ์ด task์ ์ฌ์ฉํ ์ ์๋ค.
- unlabeled text๋ฅผ ์ด์ฉํด deep bidirectional representations์ ์ฌ์ ์ ํ์ตํ๊ณ , ํ์ตํ ๋ชจ๋ธ์ fine-tuningํ์ฌ ๋ค์ํ ์ธ์ด tasks์์ SOTA๋ฅผ ๊ธฐ๋กํ๋ค.
BERT๋ ํฌ๊ฒ 4๊ฐ์ง ์ธก๋ฉด์์ ์ดํด๋ณผ ์ ์๋ค.
Model Architecture
- BERT๋ multi-layer bidirectional Transformer encoder๋ฅผ ๋ฒ ์ด์ค๋ก ํ๋ค.
- BERT์ Transformer๋ bidirectional self-attention์ ์ฌ์ฉํ์ง๋ง, GPT Transformer๋ constrained self-attention์ ์ฌ์ฉํ๋ค. ๊ทธ๋์ GPT Transformer๋ ๊ฐ ํ ํฐ์ ์ผ์ชฝ ๋ฌธ๋งฅ๋ง์ ๊ณ ๋ คํ ์ ์๋ค.
Input/Output Representations
- BERT์ input embeddings์ 3๊ฐ์ง embedding vector์ธ Token Embedding, Segment Embeddings, Position Embeddings์ ํฉ์ด๋ค.
- ๋ชจ๋ input sequence์ ์ฒซ๋ฒ์งธ ํ ํฐ์ classification token์ธ [CLS]์ด๋ฉฐ, [CLS] ํ ํฐ์ ์ต์ข hidden state๋ classification task๋ฅผ ์ํ ์ข ํฉ sequence representation์ด๋ค.
- Token Embeddings์ WordPiece embedding์ ์ฌ์ฉํ๋ค.
- WordPiece embedding์ด๋? : ๊ธฐ์กด์ ๋จ์ด ์๋ฒ ๋ฉ ๊ธฐ๋ฒ์ ๋จ์ด ๋จ์๋ก ์๋ฒ ๋ฉ์ ์์ฑํ๋ค. ์ด๋ฐ ๋ฐฉ์์ ์ฌ์ ์ ์๋ ๋จ์ด(OOV, Out Of Vocabulary)๊ฐ ๋ฑ์ฅํ ๋ ์ฒ๋ฆฌ๊ฐ ์ด๋ ต๊ณ , ์ธ์ด์๋ ๋๋ฌด ๋ง์ ๋จ์ด๊ฐ ์กด์ฌํ๊ธฐ์ ๋ชจ๋ ๋จ์ด๋ฅผ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ํํํ๊ธฐ๋ ์ด๋ ต๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, WordPiece Embedding์ ๋จ์ด๋ฅผ subword ๋จ์๋ก, ์ฐ๋ฆฌ๋ง๋ก ํ๋ฉด ํํ์ ๋จ์๋ก, ๋จ์ด๋ฅผ ๋ถํดํ๋ค. ์๋ฅผ ๋ค์ด, โunhappinessโ๋ผ๋ ๋จ์ด๋ โunโ, โhappiโ, โnessโ์ ๊ฐ์ด ๋๋ ์ ์๋ค. ์ด๋ ๊ฒ ํ์ตํ๋ฉด, ์๋ก ๋ฑ์ฅํ ๋จ์ด๋ subword์ ์กฐํฉ์ผ๋ก ํํํ ์ ์๊ณ , ๊ณต๊ฐ์ ํจ์จ์ฑ์ด ๋์์ง๊ณ , ๋ค์ํ ์ ๋์ฌ, ์ ๋ฏธ์ฌ ๋ฑ์ ์ฒ๋ฆฌํ๊ธฐ ์ข๋ค.
- ๋ํ input sequence๋ ํ ์์ ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑ๋๋๋ฐ, ๊ฐ ๋ฌธ์ฅ์ [SEP] ํ ํฐ์ผ๋ก ๋ถ๋ฆฌ๋๋ค. ์ด๋, ๋ถ๋ฆฌ๋ ๊ฐ ๋ฌธ์ฅ์ ๊ตฌ๋ถํ๊ธฐ ์ํด Segment Embeddings๋ฅผ ์ฌ์ฉํ๋ค. ์๋ฅผ ๋ค์ด, A ๋ฌธ์ฅ์ ํ ํฐ์ $E_A$๋ก ์๋ฒ ๋ฉํ๊ณ , B ๋ฌธ์ฅ์ ํ ํฐ์ $E_B$๋ก ์๋ฒ ๋ฉํ๋ ์์ด๋ค.
- Position Embeddings๋ ๋จ์ด์ ์์๋ฅผ ๋ถ์ฌํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค. Transformer์ attention์ ๋ฌธ์ฅ ๋ด ๋จ์ด์ ์์๋ฅผ ๊ณ ๋ คํ์ง ์๊ธฐ์, ๋จ์ด์ ์์๋ฅผ ๋ถ์ฌํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค. ๋งจ์ฒ์ ํ ํฐ๋ถํฐ $E_0, E_1,E_2โฆ$์์ผ๋ก ๋ถ์ฌํ๋ค.
Pre-Training
Masked Language Model, MLM
- ์
๋ ฅ ๋ฌธ์ฅ์์ ์ ์ฒด ๋จ์ด์ 15%๋ฅผ ๋๋คํ๊ฒ ์ ํํด [MASK] ํ ํฐ์ผ๋ก ๋ง์คํนํ๊ณ , ๋ง์คํน๋ ํ ํฐ์ ์์ธกํ๋๋ก ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
- ์๋ฅผ ๋ค์ด, โI donโt think that I like herโ์ด๋ผ๋ ๋ฌธ์ฅ์ด ์ฃผ์์ง๋ฉด, โI dont [MASK] that I like herโ๊ณผ ๊ฐ์ด ๋ณํํ๋ค.
- Self-attention์ ํตํด [MASK] ํ ํฐ๊ณผ ๋ค๋ฅธ ํ ํฐ๊ณผ์ ์ฐ๊ด์ฑ์ ๊ณ์ฐํด [MASK] ํ ํฐ์ ์์ธกํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ๋ฌธ์ฅ์ ์ข์ฐ ๋ฌธ๋งฅ์ ๊ณ ๋ คํ ์ ์๋๋ก deep bidirectional Transformer๋ฅผ ํ์ต์ํฌ ์ ์๋ค.
- ํ์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ฌ์ ํ์ตํ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ downstream task๋ฅผ ์ํํ ๋(fine-tuning์)๋ ์ฌ์ ํ์ต๋์๋ ๋ฌ๋ฆฌ input sequence์ [MASK] ํ ํฐ์ด ์กด์ฌํ์ง ์๋๋ค. ๋ฐ๋ผ์, ํ ํฐ์ [MASK] ํ ํฐ์ผ๋ก ๋ฐ๊พธ๋(80%๋งํผ) ๊ฒ๋ง์ด ์๋, ๋๋คํ ํ ํฐ์ผ๋ก ๋ฐ๊พธ๊ฑฐ๋(10%๋งํผ), ํ ํฐ์ ๋ฐ๊พธ์ง ์๊ธฐ๋(10%๋งํผ) ํ๋ค.
Next Sentence Prediction, NSP
- ์ถ๊ฐ์ ์ผ๋ก, ๋ฌธ์ฅ ๊ฐ ๊ด๊ณ๋ฅผ ์ดํดํ๊ธฐ ์ํด Next Sentence Prediction์ ํ์ตํ๋ค.
- ์ง์์๋ต(Question Answering, QA)๋ ์์ฐ์ด ์ถ๋ก (Natural Language Inference, NLI)์ ๊ฐ์ task๋ ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ดํดํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- ๋ฐ๋ผ์ ๋ชจ๋ธ์ด ๋ฌธ์ฅ ๊ฐ์ ๋จ์ด๋ฅผ ํ์ตํ ์ ์๋๋ก ์ฌ์ ํ์ต ์, ๋ฌธ์ฅ A์ ์ด์ด์ง ๋ฌธ์ฅ B๋ฅผ ๋ฌ๋ฆฌ ํ์ฌ ํ์ตํ๋ค. ๋ฌธ์ฅ B๊ฐ ์ค์ ๋ก ๋ฌธ์ฅ A ๋ค์ ์ด์ด์ง๋ ๋ฌธ์ฅ(labeled as IsNext)์ธ์ง 50%, ์ด์ด์ง์ง ์๋ ๋ฌธ์ฅ(labeled as NotNext)์ธ์ง 50%๋ก ๊ตฌ์ฑํ์ฌ ํ์ตํ๋ค.
Fine-tuning
-
์ํํ๊ณ ์ ํ๋ downstream task์ ๋ฐ๋ผ input์ ๋ฃ์ด fine-tuning์ ํ๋ค.
1) Paraphrasing : sentence pairs
2) Entailment : Hypothesis-Premise pairs
3) Question Answering Question-Passage pairs
4) Text Classification or Sequence Tagging : None pair
-
๋ํ, task์ ๋ฐ๋ผ output layer์ ๋ฃ์ด์ค output์ด ๋ค๋ฅด๋ค.
1) for token level tasks such as sequence tagging or question answering : token representations
2) for classification such as entailment or sentiment analysis : [CLS] representation
๐ก ๊ธฐ์กด ์์ด๋์ด์์ ์ฐจ์ด๋ ๋ญ์ผ?
- โI donโt OOOOO that I like herโ์ด๋ผ๋ ๋ฌธ์ฅ์์ 00000์ ๋ค์ด๊ฐ ๋จ์ด๋ฅผ ์์ธกํ๊ณ ์ ํ ๋, ์ฐ๋ฆฌ๋ OOOOO ๋จ์ด ์ข์ฐ ๋ฌธ๋งฅ ๋ชจ๋๋ฅผ ๊ณ ๋ คํด์ ๋จ์ด๋ฅผ ์์ธกํ๊ณ ๋ ํ๋ค. ์ง๊ด์ ์ผ๋ก ์๊ฐํด๋ณผ ๋, ๋จ์ด์ ์ข์ฐ ๋ฌธ๋งฅ์ ๋ชจ๋ ๊ณ ๋ คํ๋ ๊ฒ์ด ๋ ์ ํํ ์์ธกํ๋๋ฐ ๋์์ด ๋ ๊ฒ์ด๋ค.
- ๊ธฐ์กด bidirectionalํ ํ์ต์ RNN์ด๋ LSTM์์๋ ์ฌ์ฉ๋์๋๋ฐ, ์ด ๋ชจ๋ธ๋ค์์๋ forward(left-to-right)์ backward(right-to-left)๋ฅผ ๋ณ๋๋ก ํ์ตํ์ฌ, ๋ ๋ฐฉํฅ์ ์ถ๋ ฅ์ ํฉ์ณ ๋จ์ด์ ํํ์ ๋ง๋ค์๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๊ฐ ๋ฐฉํฅ์์ ๋ฐ๋ ๋ฐฉํฅ์ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ๋ชปํ๋ ๋จ์ ์ด ์๋ค. ์๋ฅผ ๋ค์ด ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ๋จ์ด๋ฅผ ์ดํดํด๊ฐ๊ธฐ์, ๋จ์ด์ ์ค๋ฅธ์ชฝ์ ์๋ ๋ฌธ๋งฅ์ ๊ฐ์ด ๊ณ ๋ คํ์ง๋ ๋ชปํ๋ค. ๋ํ์ ์ผ๋ก ์ด ๋ ผ๋ฌธ์์๋ ์ธ๊ธํ๋ ELMo์ ๊ฐ์ ๋ชจ๋ธ์ด ๊ทธ๋ฌํ๋ค.
- BERT๋ ๊ธฐ์กด RNN์ด๋ LSTM๊ณผ ๊ฐ์ด ์์ฐจ์ ์ธ ์๋ฐฉํฅ ์ฒ๋ฆฌ๋ฅผ ํ๋ ๊ฒ์ด ์๋, ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ํ ๋ฒ์ ์ ๋ ฅ๋ฐ๊ณ , ๋ง์คํน๋ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ฌธ์ฅ ๋ด ๋ชจ๋ ๋จ์ด์ ์ํธ ๊ด๊ณ๋ฅผ ํ์ตํ๋ค.
- Transformer์ Self-Attention ๋ฉ์ปค๋์ฆ์ ํตํด ๋ฌธ์ฅ ๋ด ๋จ์ด๊ฐ ๋ฌธ์ฅ ์ ์ฒด์์ ๋ค๋ฅธ ๋จ์ด๋ค๊ณผ์ ์ฐ๊ด์ฑ์ ๊ณ์ฐํ ์ ์๋ค. ์ฆ ๋จ์ด ๊ฐ์ forward์ backward๋ฌธ๋งฅ ๋ชจ๋๋ฅผ ๊ณ ๋ คํ ์ ์๋ค.
- ์๋ฅผ ๋ค์ด, โThe way that you love meโ๋ผ๋ ๋ฌธ์ฅ์์ โyouโ๋ผ๋ ๋จ์ด๋ ๋ฌธ์ฅ ๋ด์ ๋ชจ๋ ๋จ์ด๋ฅผ ์ฐธ๊ณ ํด ๋ฌธ๋งฅ์ ์ดํดํ ์ ์๋ค. ์ฆ, โyouโ๋ผ๋ ๋จ์ด์ ์ข์ธก ๋ฌธ๋งฅ โThe way thatโ๊ณผ ์ฐ์ธก ๋ฌธ๋งฅ โlove meโ ๋ชจ๋๋ฅผ ๊ณ ๋ คํ ์ ์๋ค.
๐ก ๊ทธ๋ผ GPT-1์? ๊ทธ๊ฒ๋ Transformer๋ฅผ ์ฌ์ฉํ์ง ์์?
- GPT-1์์ ๋ํ transformer์ self-attention์ ์ฌ์ฉํ์ง๋ง, GPT-1์์๋ ์์ธกํ๊ณ ์ ํ๋ ํ ํฐ์ ์ข์ธก ํ ํฐ๋ค๋ง์ ์ด์ฉํด ์์ธก์ ์ํํ๋ค. ์ด๋ฅผ ํตํด ํ ์คํธ๋ฅผ ์์ฑํ ๋ ์์ฐ์ค๋ฌ์ด ์์๋ฅผ ์ ์งํ ์ ์์ง๋ง, ํน์ ๋จ์ด๋ฅผ ์์ธกํ ๋๋ ํ์ชฝ ๋ฐฉํฅ์ ๋ฌธ๋งฅ๋ง์ ์ฌ์ฉํ ์ ์์๋ค.
GPT-1, Improving Language Understanding by Generative Pre-Training
Experiments
SQuAD v1.1, SQuAD v2.0
SQuAD๋ MRC task๋ฅผ ๋ํํ๋ ๋ฐ์ดํฐ์ ์ด๋ค. SQuAD v1.1์ ๋ฌด์กฐ๊ฑด ๋ต์ด ์๋ ๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ ธ์๊ณ , v2.2๋ ๋ต์ด ์๋ ๋ฐ์ดํฐ๋ ํฌํจ๋์ด ์๋ค.
๐ก MRC๊ฐ ๋ญ์ผ?
- MRC๋ Machine Reading Comprehension์ ์ฝ์๋ก, ๊ธฐ๊ณ ๋ ํด๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ ์ง์์๋ต task์ด๋ค. ์ง๋ฌธ๊ณผ ๋ต์ด ํฌํจ๋ ๋ฌธ์๋ฅผ ์ ๊ณตํ๊ณ , ๊ทธ ์์์ ๋ต์ ์ฐพ๋๋ค.
BERT๊ฐ MRC task๋ฅผ ์ํํ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ง๋ฌธ๊ณผ ์ฃผ์ด์ง ๋ฌธ๋จ์ [SEP] ํ ํฐ์ ์ด์ฉํด ํ๋์ sequence๋ก ์ด์ด ๋ถ์ธ๋ค.
- BERT ๋ชจ๋ธ์ด sequence์ ๊ฐ ํ ํฐ๋ค์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ๊ตฌํ๊ณ , ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์์๊ณผ ๋ ์์น๋ฅผ ์์ธกํ๋ค.
SWAG
SWAG์ ํ๋ณด ๋ฌธ์ฅ๋ค ์ค ์ฃผ์ด์ง ๋ฌธ์ฅ๊ณผ ์ด์ด์ง ๋ฌธ์ฅ์ ๊ณ ๋ฅด๋ ๋ฐ์ดํฐ์ ์ด๋ค.
BERT๋ ์ฃผ์ด์ง ๋ฌธ์ฅ๊ณผ ํ๋ณด ๋ฌธ์ฅ๋ค์ ๊ฐ๊ฐ ํ๋์ sequence๋ก ์ด์ด๋ถ์ธ๋ค. ๊ทธ ํ, ๊ฐ sequence๋ค์ BERT์ ๋ฃ์ด [CLS] ํ ํฐ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ๊ตฌํ๊ณ , ๊ตฌํด์ง ๊ฐ๋ค์ softmax layer์ ๋ฃ์ด ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ์ ํ์ง๋ฅผ ๊ณ ๋ฅธ๋ค.
Ablation Study
Ablation studys๋ ์ฐ๊ตฌ์์ ์ ์ํ ์์ด๋์ด๊ฐ ๋ชจ๋ธ์ ์ด๋ ํ ์ํฅ์ ๋ฏธ์น๋์ง ํ์ธํ๊ณ ์ถ์ ๋, ์์ด๋์ด๊ฐ ์ ์ฉ๋ ๋ชจ๋ธ๊ณผ ํด๋น ์์ด๋์ด๋ง ์ ๊ฑฐํ ๋ชจ๋ธ์ ๋น๊ตํ๋ ๊ฒ์ ๋งํ๋ค.
NSP์ ๊ดํ ablation
model size์ ๋ํ ablation
Leave a comment