Sun, Zijun, et al. "Self-explaining structures improve nlp models." arXiv preprint arXiv:2012.01786 (2020).
ํ์ฌ ์์ฐ์ด ์ถ๋ก ๋ถ๋ถ์์ ์์ ๋ถ๋ถ์ ์ฐจ์งํ๊ณ ์๋ ๋ ผ๋ฌธ์ด๋ค.
์ฒ์ Pre-print๋ผ๋ ๊ฒ์ ํ์ธํ์ ๋ ๊ผฌ๋ฆํ๊ฑธ ์์์ฐจ๋ ธ์ด์ผํ๋๋ฐ,
์ฌ๋ฌ ๋ํ์์๋ ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ๋ฐฉ๋ฒ๋ ๋ง๊ณ , ์ ์๋ ๋๊ฒ๋์์ ์ข์ ๋ฐฉ๋ฒ์ด๊ตฌ๋ ํ์๋ค.
ํํ์ ๋ฑ๋ก ์๋๊ฑธ ๋ฌด์ํ๋ฉด ์๋์๋ค.. ๋ ผ๋ฌธ ๊ทธ๋๋ก ์ง์ ๊ตฌํํด๋ณด๋ Base ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์์ข๋ค.
์ด ๊ธฐ์ ์ฌ์ฉํ๋ค๊ณ ๋ช์ฃผ๋ ๋ฆฐ์ง ๋ชจ๋ฅด๊ฒ ๋ค.. ๋ถ๋ค..
๋ด๊ฐ ์๋ชปํ๊ฑด์ง, ๋ ผ๋ฌธ์์ ๊ตฌ๋ผ์น๊ฑด์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง... ๊ผฌ๋ฆํ์ ์ด ํ๋์ด ์๋๋ค.
์ผ๋จ ์๋ก ์ ์ฌ๊ธฐ๊น์งํ๊ณ
Abstract
<๊ธฐ์กด ๋ฐฉ์๋ค์ ์ฃผ์ ๋จ์ >
1. ๊ธฐ๋ณธ ๋ชจ๋ธ๊ณผ ์ค๋ช ๋ชจ๋ธ์ด ๋ถ๋ฆฌ๋๋ค.
=์ถ๋ก ํ๋ ์ผ๋ฐ์ ์ธ ์ธ์ด ๋ชจ๋ธ๊ณผ, ์ ์ด๋ ๊ฒ ๋์๋์ง ๋ถ์ํ๋ ๊ธฐ์ ์ด ๋ฐ๋ก์๋ค.
(๋ธ๋๋ฐ์ค๋๋์ด๋ผ ์ด๋ ํ Cues๋ฅผ ์ฌ์ฉํด์ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ฑ๋์ง ๋ชจ๋ฆ)
2. ๊ฐ๋ณ ๋จ์ด์์ ํ์ ์ฑ ์ ์๋ฅผ ๊ณ์ฐํ์ฌ, ๋ฎ์ ์์ค์์ ๋ชจ๋ธ์ ์์ธก์ ์ค๋ช ํ ์ ์์.
but, ๊ตฌ์ ์ด๋ ๋ฌธ์ฅ, ๋จ๋ฝ๊ฐ์ ๋์ ์์ค์์์ ํ ์คํธ ๋จ์์์ ์์ธก์ ์ค๋ช ํ๋๊ฑด ์ํฌ๋ฆ.
์ด ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ด ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ.
๊ธฐ์กด Pretrained language model์ธ NLP๋ชจ๋ธ ์์ ํด์๊ณ์ธต์ ์ถ๊ฐํ์ฌ, ๊ฐ ํ ์คํธ ๋ฒ์์ ๋ํด ์ ๋ณด๋ฅผ ์ง๊ณํด์ softmax๋ฅผ ์งํํ๋ ๋ฐฉ์.
์ด๋ก์จ ๊ฐ์ง ์ ์๋ ์ฅ์
1. ๋ชจ๋ธ์ ์์ฒด์ ์ผ๋ก ์ค๋ช ํ ์ ์๊ณ , ํด์์ ์ํ ์ถ๊ฐ์ ์ธ ๋ชจ๋ธ์ด ํ์์์.
2. ์ ์๋ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ(๊ธ๋ก๋ฒํ) ์ ์ฉ๋ฐฉ์ ์ด๋ผ์, ์๋ฌด PLM ๊ตฌ์กฐ์๋ค๊ฐ ์ฝ๊ฒ ์ ์ฉ์ํฌ ์ ์์.
3. ์์ ์์ค ํ ์คํธ ๋จ์์ ๋ํด ์ค์๋ ์ ์๋ฅผ ์ ๊ณตํด์ค.
๋ ผ๋ฌธ์์ ์ ์ํ๋ ํต์ฌ ์์ด๋์ด
์ฆ, ์ฝ๊ฒ๋งํด์ ๊ธฐ์กด PLM ๋ชจ๋ธ(BERT, RoBERTa, AlBERT ๋ฑ๋ฑ)์ classification์ ์งํํ๊ธฐ์ํด CLS ํ ํฐ์ ์ถ๊ฐํด์ ํ์ต์ ์งํํ๊ณ , ์ฌ๊ธฐ์ ๋์จ CLS ํ ํฐ์ ์ ๋ ฅ๋ ํ ํฐ๋ค์ ๋ํด ๋ชจ๋ ์ ๋ณด๋ฅผ ์ง๊ณํ๊ณ ์์ผ๋ ์ด๋ฅผ Classifer Head์ ๋ฃ์ด์ ๋ถ๋ฅํ๋ ๊ฑด๋ฐ..
๋ณธ ๋ ผ๋ฌธ์์๋ CLS ํ ํฐ์ด ์๋, ๋๋จธ์ง Token๋ค์ ๊ฐ์ง๊ณ ์๋ค๋ค์ ์กฐํฉํด์ Classification์ ์งํํ์๋ ์๊ธฐ์ด๋ค.
Intermediate Layer๋ ๋ง ๊ทธ๋๋ก ์ค๊ฐ๊ณ์ธต. ์ผ๋ฐ์ ์ธ PLM๋ชจ๋ธ์ ๋ปํ๋๊ฑฐ๊ณ ,
๊ธฐ์กด๋ฐฉ์์ผ๋ก ํ๋ฉด ํ ํฐ๋ค ๋ฃ์ผ๋ฉด ๊ฐ ํ ํฐ๋ค์ ๋ํ Hidden State๊ฐ ๋์ค๋, ์ด ๋ค์ ์กฐํฉํ ๋ค์ representation h๊ฐ์ ์ป๊ณ ์๋ฅผ Softmaxํด์ ์์ธกํ์๋ ๋ง.
์ด๋ ๊ฒํ๋ฉด ๋ญ์ ์ง์คํ๋์ง๋ ์ ์ ์๊ณ , ์ ์๋ ๋ ์๋์จ๋ค๊ณ ์จ์์๋ค.
์ผ๋จ ํ๋๋๊ฑฐ + ๊ผฌ๋ฆํ ์
1. ํ๊ฒฝ ์ ํ ํ๊ณ Git์ ์๋๊ฑฐ ๊ทธ๋๋ก ๊ฐ์ ธ์จ ๋ค์์, ์๋๋๊ฑฐ ๋ค ๊ณ ์ณ์ฃผ๊ณ , ์๋ ํจํค์ง์์ ์์ฑ๋๊ฑฐ ๋ค์ ์ ๋ฐ์ดํธํด์ฃผ๊ณ ๋ฑ๋ฑ ํ๊ฒฝ ๊ตฌ์ถ๋ถํฐ ์๊ฐํฌ์ ๋นก์ .
2. ์ผ๋ฐ์ ์ธ ์ธ์ฝ๋ฉ, ์๋ฒ ๋ฉ ๋ฐฉ์์ด ๋ค๋ฆ. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ ๊ธฐ์ ์ ์ฌ์ฉํ ๋ ค๋ฉด ์ผ๋ฐ์ ์ธ ํ ํฌ๋์ด์ ๋ฅผ ์ฌ์ฉํ์ง ๋ชปํ๊ณ , ์ง์ ์ผ์ผ์ด ๋ง์ถฐ์ค์ผํจ. ํ๊น ํ์ด์ค ๊ทธ๋ฆฝ์ต๋๋ค..
3. ๋ ผ๋ฌธ์ ์ ์๋ ์ค๊ตญ์ธ์ธ๊ฒ ๊ฐ๊ณ , Github ๊ด๋ฆฌ ๊พธ์คํ ํ๋๊ฑฐ ๊ฐ์๋ฐ, ์ด ๋ ผ๋ฌธ์ ๋ํด์๋ ์ผ์ ๊ด๋ฆฌ์ํจ. ์ฌ๋๋ค์ด issue๋ ์ง๋ฌธํ๋๊ฑฐ ๋จ ํ๋๋ ๋ต๋ณ์ํด์ค. ์ฌ๊ธฐ์๋ถํฐ ๊ผฌ๋ฆํ๋๋ฐ, ๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ฐฉ๋ฒ ์จ๋ ๊ทธ ์ ์ ์๋์จ๋ค๊ณ ๋งํ๋ ์ฌ๋์ด ์์๊ณ , ๊ตฌ์ฒด์ ์ผ๋ก ํด๋น SOTA ์ ์๋์จ ๋ชจ๋ธ ๊ฐ์ค์น, ํ๋ผ๋ฏธํฐ ์ผ์ ๊ณต๊ฐ ์ํจ. ๋ชจ๋ธ save ์ํ์๋ฆฌ ์๊ณ , ๋ญ๊ฐ ๋ฌธ์ ์์.
4. ๋ ผ๋ฌธ์์๋ CrossEntropy Loss + Regularizer Loss ๋ผ๊ณ ํ์๋๋ฐ, ์ฝ๋์์์ ๋ณด๋ CrossEntropy Loss - Regularizer Loss ์์. ํํ.. ์ฌ๊ธฐ์ ์ํจ์ ํ ๋๊ปด๋ถ๋ ค์ฐ
์ผ๋จ ๊ตฌํํด ๋ดค๋๋ฐ,
๋ณธ ๋ ผ๋ฌธ์ ๋์จ๋๋ก, SNLI ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ต ์งํํ์ ๋, ์ด๋ ๊ฒ ๋์จ๋ค๊ณ ํ์. ์ฝ 1% ํฅ์๋จ.
๊ทธ๋์ ๊ตฌํํ ๋ค์ ํ ์คํธ ํด๋ดค๋๋ฐ,
์๋ฌด๋๋ ํ ํฐํ ๋ฐฉ์์ด ๋ฌ๋ผ์ Intermediate Model์์ ๋์จ ๊ฐ์ ๊ด์ฐฎ์์ง ๋ฝ์๋ดค๋๋ฐ
RoBERTa ์ ๊ฒฐ๊ณผ๋ ์ ๋์์.
๊ทธ๋์
1. ๋ ผ๋ฌธ์์ ์ ์ํ CrossEntropy Loss + Regularizer Loss
2. ๋ ผ๋ฌธ๊ณต์ Github์ ์ฌ์ฉ๋ CrossEntropy Loss - Regularizer Loss
์ด ๋ ๋ฐฉ์์ ๋๋ค ๊ตฌํํด ๋ดค๋๋ฐ
๋ ๋ค ์ ์๊ฐ ์ฒ์ฐธํจ. ์คํ๋ ค Git์ ์ฌ๋ผ์จ ๊ฒ์ด ์ ์๊ฐ ์ฝ๊ฐ ๋ ๋์. ๊ทผ๋ฐ๋ ์ผ๋ฐ RoBERTa ๋ชจ๋ธ๋ณด๋ค ์ ์๊ฐ ๋ฎ์.
๋ ผ๋ฌธ์์๋ ๋๋ค๊ฐ์ ๋ฐ๋ผ์ ์ฑ๋ฅ์ด ๋ค๋ฅด๋ค๊ณ ํด์ ์ด๊ฒ๋ ์คํํด๋ด.
๊ฒ์ฆ๋ ํํ์์ ๋์จ ๋ ผ๋ฌธ์ ์ฝ์.
์ด๊ฑฐ ๊น๋ ๋ ผ๋ฌธ์ ์ ์ํด์ผํ๋..
๊ทผ๋ฐ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ ์ ์๋ณด๋ค, ๋ณธ ๋ ผ๋ฌธ + ๋ด ์์ด๋์ด ์ถ๊ฐํ๊ฒ ์ ์ ๋ ์ ๋์์ ์ด๊ฑฐ๊ฐ์ง๊ณ ๋ ผ๋ฌธ ์งํ์ ํ ์ง, ๋ค๋ฅธ๊ฑธ๋ก ๋ ์ฐ๊ตฌํ ์ง ์๊ฐ ์ค์ด๋ค,,