์ค๋์ ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋ ๋ถ๋ถ์ ์ฝ๊ฒ ์ค๋ช ํ๊ณ ์ํจ.
๋ง์ ์ฌ๋๋ค์ด ํธ๋์คํฌ๋จธ์ ๊ธฐ๋ฒ์ ๋ํด์ ๋ฌผ์ด๋ณด๋ฉด "Self-attention ๊ธฐ๋ฒ ์ฌ์ฉ... ํน์ ๋จ์ด์ ํฌ์ปค์ฑ.." ํน์ "Q,K,V ์ฌ์ฉํด์...์กฐํฉํด์ ๊ฐ์ค์น์ฃผ๋ ๊ธฐ๋ฒ..." ์ ๋๋ก๋ง ๋๋ตํจ.
์ค์ ์ด๋ค ์์ผ๋ก ๋์๊ฐ๋์ง ์ฝ๊ณ ์์ธํ๊ฒ ์ค๋ช ํ๊ธฐ ์ํด ๋ณธ ํฌ์คํ ์ ์งํํจ.
์ ๋งคํ๊ฒ ์๋ ๋ถ ํ์
ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋ ๋ ์ด์ด๋ ๊ทธ๋ฆผ์์ ๋ณด์ด๋ค ์ถ์ด ํฌ๊ฒ 3๊ฐ์ง๋ก ๋๋ ๋ณผ ์ ์์.
- ๋ฉํฐํค๋ ์ ํ์ดํ ์
- ํฌ์ง์ ๋ ์์ด์ฆ ํผ๋ํฌ์๋ ๋ด๋ด๋คํธ์ํฌ
- ์๋์ ์ค ๋ ์ด์ด ๋ ธ๋ง๋ฆฌ์ ์ด์
ํ๊ธ๋ก ์ฐ๋ ํํธ์์ด ๋ณด์ด๊ธด ํ์ง๋ง ๊ทธ๋ฅ ๋์ด๊ฐ๊ฒ ์.
์ผ๋จ ์ ๋ ฅ ๋ฌธ์ฅ์ด ๋ชจ๋ธ์ ์ ๋ ฅ๋๋ฉด > ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ์ ํต๊ณผ > ๋ฒกํฐํ(๊ฐ ๋จ์ด์ ์์น์ ๋ณด๊ฐ ํฌํจ)๋ ์ ๋ ฅ ๋ฌธ์ฅ์ด ๋ค์ด์ด.
์ด ๋ฒกํฐ๊ฐ์ ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋๋ก ๋ค์ด์ด.
๊ทธ๋ฌ๋ฉด ๊ทธ๋ฆผ์ ๊ฐ์ฅ ์ข์ธก์ฒ๋ผ ์ ๋ ฅ๊ฐ์ด ํ๋๋ ๋ฐ๋ก Add&Norm์ผ๋ก ๊ฐ๊ณ , ํ๋๋ 3๊ฐ๋ก ๋๋ ์ ธ์ Multi-head self attention ์๋ธ๋ ์ด์ด๋ก ๋ค์ด๊ฐ. ์ด ์๋ธ๋ ์ด์ด๋ฅผ ํต๊ณผํ๋ ๋ค์ ํ๋์ ์ถ๋ ฅ๊ฐ์ผ๋ก ๋ณํ๊ณ , ๊ณง๋ฐ๋ก Add&Norm์ผ๋ก ๊ฐ๋ ์ ๋ ฅ๊ฐ๊ณผ ๋ฉํฐํค๋์ ํ์ดํ ์ ์๋ธ๋ ์ด์ด์์ ๋์จ ์ถ๋ ฅ๊ฐ์ด ๋ํด์ง๊ณ ์ผ๋ฐํ๋จ. ์ด ๊ฐ์ ๋ ๋๋ก ๋๋ ์ ํ๋๋ ๋ค์ด๋ ํธ๋ก ๊ฐ๊ณ ํ๋๋ Position-wise FFNN ์๋ธ๋ ์ด์ด๋ฅผ ๊ฐ๋ค๊ฐ ๋ ํฉ์ณ์ง. ์ด๊ฒ ํธ๋์คํฌ๋จธ์ Encoder ๋์.
์ด์ ํ๋์ฉ ์ค๋ช ํ๊ฒ ์.
๋จผ์ Attention์ด ๋ญ์ง๋ถํฐ ์์์ผํจ.
์ดํ ์ (Attention)์ด๋ ๊ฐ ๋ฌธ์ฅ์์ ๊ฐ๊ฐ์ ๋จ์ด๊ฐ ์๋ก ์ด๋ค ์ฐ๊ด์ฑ์ ๊ฐ์ง๊ณ ์๋์ง์ ๋ํ ์ ๋ณด์ธ๋ฐ, ์ฝ๊ฒ๋งํด์ ํน์ ๋จ์ด์ ์ง์คํ๋ ๊ฑฐ์. ์ด๋ผ? It์ด ๋ญ ๋ปํ๋ ๊ฑฐ์ง? ์, The Monkey ํน์ that banana์ ์ง์คํ๊ณ ์๊ตฌ๋. ์ด๋ฐ ๋๋.
์ด Attention ๊ธฐ์ ์ ์ ์ฉํ๋ฉด ์ ๋ฐ์ ์ธ ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํด ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์์.
Transformer์ ์ดํ ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋๋ฐ, ์ ์์ Self-attention์ด๋ผ๊ณ ํ๋๋ฉด, ํ๋์ ๋ฌธ์ฅ ๋ด์์ ์ดํ ์ ์ ์ทจํ๊ณ ์๋๊ฑฐ๋ผ์ ์์ ์ ํ๊ฐ ๋ถ์. ์ฆ, ๊ฐ๊ฐ์ ๋ฌธ์ฅ๊ฐ์ ์ง์ค์ด ์๋, ํ๋์ ๋ฌธ์ฅ ๋ด์์ ๊ฐ ๋จ์ด๊ฐ ๋ญ์ ์ง์คํ๋์ง๋ฅผ ๋ณด๋๊ฑฐ์.
์ด๋ฐ ์ ํ ์ดํ ์ ์ ๋ค๋ฅธ๋ง๋ก (Scaled dot product Attention)์ด๋ผ๊ณ ๋งํจ.
์, ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ ๋ ฅ ๋ฌธ์ฅ์ด ๋ฒกํฐํ ๋๊ณ ๊ฐ์ฅ ๋จผ์ ๊ฐ๋ ์๋ธ๋ ์ด์ด๋ Multi-Head Attention ๋ ์ด์ด์.
์ด๋ฅผ ํฌ๊ฒ๋ณด๋ฉด ๊ฐ์ด๋ฐ ๊ทธ๋ฆผ์ฒ๋ผ ๋๊ณ , ์ฌ๊ธฐ์ Scaled Dot product attention (=Self-Attention) ๋ ์ด์ด๋ฅผ ํ๋ํด๋ณด๋ฉด ์ข์ธก์ ๊ทธ๋ฆผ์ฒ๋ผ ํํํ ์ ์์.
๋จผ์ ์ฉ์ด๋ถํฐ ๊ฐ๋จํ ์ค๋ช ํ ๊ฒ์.
์ข์ธก ๊ทธ๋ฆผ ์ํ๋จ์ ๋ณด๋ฉด MatMul์ด๋ผ๊ณ ์๋๋ฐ, ์ด๊ฑด Matrix Multiplication์ ์ฝ์๋ก ํ๊ตญ์ด๋ "ํ๋ ฌ๊ณฑ์ "์.
Scale์ ์ค์ผ์ผ๋ง(Scailing)ํ๋๊ฑด๋ฐ, ์ด๊ฒ ํ๋ ฌ๊ณฑ์ ํ๋ฉด์ ๋ฒกํฐ๊ฐ์ด ์ ์ ์ปค์ง๋๋ฐ ์ด๊ฒ ๊ทธ ์์ Softmax๋ฅผ ํต๊ณผํ ๋ ๋ฌธ์ ๊ฐ ๋. ์ด๊ฒ ๋ฒกํฐ๊ฐ์ด ํฌ๋ฉด ์ถ๋ ฅ๊ฐ์ด Gradient Vanishing(๊ฐ์ค์น ์์ค) ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๊ธฐ ๋๋ฌธ์ ์ ๊ธฐ Scale ์๋ธ๋ ์ด์ด์์๋ Scale Factor๋ผ๋ ํน์ ๊ฐ์ ๋ฒกํฐ์ ๊ณฑํด์ ์ ๋ ฅ๊ฐ์ ์๊ฒ๋ง๋ค์ด์ค. ์ด๋ฌ๋ฉด ์ํํธ๋งฅ์ค ํจ์ ์ถ๋ ฅ๊ฐ์ด ์์ ์ ์ด๊ฒ ๋.
์ดํด์๋์๋ค๋ฉด ์ด๋ฐ ๋ ์ฝ๊ฒ ์ค๋ช ํ ํ ๋ ์ผ๋จ ํจ์ค
์ ๊ฐ๊ฐ์ ์๋ธ๋ ์ด์ด๋ฅผ ํ๋์ฉ ์์ธํ๊ฒ ๋ด๋ด ์๋ค.
๋ ผ๋ฌธ์์ ๋ชจ๋ธ์ ์ ๋ ฅ์ฐจ์์ 512๋ก ์ค์ ํ์๊ณ , num_head๋ 8๋ก ์ ํ์ด์.
์ด๋ง์ด ๋ญ๋, ์ฝ๊ฒ ์ค๋ช ํ์๋ฉด ์ ๋ ฅ๋ ๋ฌธ์ฅ์์ ํ๋์ ๋จ์ด๋ฅผ ํ๋์ ๋ฒกํฐ๋ผ๊ณ ์๊ฐํ์ ๋, ๊ฐ ๋ฒกํฐ์ ๊ธธ์ด๊ฐ 512๋ผ๋ ์๊ธฐ์ ๋๋ค. ์ฆ, Student๋ผ๋ ๋จ์ด๋ 512๊ฐ์ ๊ธธ์ด๋ฅผ ๊ฐ์ง ๋ฒกํฐ๋ก ์นํ๋๋ค ์๊ฐํ๋ฉด ๊ตณ.
num_head๋ ๊ฐ๊ฐ์ ์ด ์ ํ ์ดํ ์ ์ ์ด ๋ช๊ฐ๋ฅผ ๋ณ๋ ฌ๋ก ๊ณ์ฐํ ๊ฑฐ๋ ๋ผ๋ ๊ฐ์ธ๋ฐ, ๋ ผ๋ฌธ์์๋ ํ๋ฒ์ 8๊ฐ๊ฐ ๋์์ ๋ณ๋ ฌ์ ์ผ๋ก ๊ณ์ฐ๋๋๋ก ์ค์ ํ์์.
512 ์ฐจ์์ ๋จ์ด๋ฒกํฐ๋ฅผ [๋ชจ๋ธ์ dimension, ๋ชจ๋ธ์ dimension/numhead]๊ฐ์ธ [512,512/8] = [512, 64]์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ ๊ฐ์ค์น ํ๋ ฌ์ ๋ง๋ค์ด์ ์ด๋ฅผ ๊ณฑํด์ค์ Q,K,V๋ฅผ ๋ง๋ฌ.
์ด๊ฒ ๋ค๋ฅธ ์ค๋ช
๊ฐ์๋ฐ์ ๋ณด๋ฉด ๊ฐ์ค์น ํ๋ ฌ์ ์๋ ๊ฐ์ ๊ณฑํด์ ๋ง๋ ๋ค ์ ๋๋ก๋ง ์ค๋ช
ํ๋๋ฐ ๋ ์ฝ๊ฒ ์ดํดํ ๋ ค๋ฉด ๋ค์๊ณผ ๊ฐ์.
๊ทธ๋ฆผ ์๋์ ์๋ ์ฝ๋์ฒ๋ผ, 512์ฐจ์์ ์
๋ ฅ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ผ๋ฉด 64์ฐจ์์ผ๋ก ๋์ค๋๋ก ํ๋ ๊ฒ์.
์ผ๋ผ์ค ํ
์ํ๋ก์ฐ์์๋ ์ผ๋ฐ์ ์ธ Dense์ธต์ผ๋ก ์๊ฐํ๋ฉด๋.
๊ฐ๊ฐ์ Linear ๋ ์ด์ด๋ฅผ ๋ง๋ค์ด์ 64์ฐจ์์ Query, Key, Value ๋ฒกํฐ๊ฐ์ ๋ง๋๋๊ฒ ๋์.
๊ทธ๋ฆผ์ ์์๋ก ๋ณด๋ฉด [1,512] ์ง๋ฆฌ ๋ฒกํฐ (=Student) ๊ฐ ๊ฐ ๋ ์ด์ด ํต๊ณผํด์ ์๋ก ๋ค๋ฅธ [1,64] ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ ๋ฒกํฐ๊ฐ 3๊ฐ ๋ง๋ค์ด์ง๋๊ฑฐ์.
๋ฐฉ๊ธ ์ ์๋ 1๊ฐ์ ๋จ์ด ๋ฒกํฐ์ ๋ํด์ ์๊ธฐํ๊ฑฐ๊ณ , ์ค์ ๋ฉํฐํค๋์ดํ ์ ์ ๋ชจ๋ ์ ๋ ฅ์ ๋ํด ๋ณ๋ ฌ์ ์ผ๋ก ๋์์ ์งํํจ.
๋๊ฐ์ ์๋ฆฌ๋ก ํ๋์ ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํด 512์ฐจ์์ ๊ฐ๊ฐ ๋ค๋ฅธ 64์ฐจ์ ๋ฒกํฐ๋ก ๋์ค๊ฒ ํ๋ฉด ์ด ์๋ธ๋ ์ด์ด์ ์ญํ ์ ๋์.
Q,K,V๊ฐ ๋ง๋ค์ด์ก์ผ๋ฉด ์ด ๊ฐ๋ค์ Scaled Dot Product Attention, ์ฆ Self Attention ๋ ์ด์ด๋ก ๋ค์ด๊ฐ.
์ด ์
ํ์ดํ
์
๋ ์ด์ด๋ ์ผ์ชฝ์ ๊ทธ๋ฆผ์ฒ๋ผ ๊ตฌ์ฑ๋์ด ์์.
๋จผ์ Q,K๊ฐ์ด MatMul(ํ๋ ฌ๊ณฑ์
)์ ์งํํจ.
์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ ๋ณด๋ฉด ์๊น ๋ง๋ Q์ K๋ฅผ ํ๋ ฌ๊ณฑํด์ [64,64] ํฌ๊ธฐ๋ฅผ ๊ฐ์ ์ดํ
์
์ค์ฝ์ด ๋งคํธ๋ฆญ์ค๋ฅผ ๋ง๋ฌ
๊ทธ๋ฆผ๋ง ๋ณด๋ฉด [2,4] * [4,2] = [4,4]์ด๋ผ์ ํท๊ฐ๋ฆฐ๋ค๊ณ ์๊ฐํ ์ ์๋๋ฐ,
์๊น ์์์๋ 4๊ฐ์ ๋จ์ด I am a student์์ ๊ฐ๊ฐ์ ๋จ์ด๋ 512๊ฐ์ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋ ๋ฒกํฐ์๊ณ , Q,K,V์์ 64๋ก ์ค์์ผ๋ ํ๋์ ๋จ์ด๋ ์ง๊ธ ๊ธธ์ด๊ฐ 64์ธ ๋ฒกํฐ๋ผ๊ณ ์๊ฐํ๋ฉด๋.
๊ทธ๋ฐ๋ค์ ์ด ์ดํ
์
์ค์ฝ์ด ๋ฉํธ๋ฆญ์ค๋ฅผ ์ค์ผ์ผ๋ง์ ํจ.
์ด์ ๋ ์๊น ๋งํ ๊ฒ์ฒ๋ผ > ํ๋ ฌ๊ณฑ์
ํ๋ฉด์ ๋ฒกํฐ๊ฐ์ด ์ปค์ง๋๋ฐ Softmax๋ฅผ ์ทจํ ๋ ๋ฐฑํฐ๊ฐ์ด ํฌ๋ฉด ์ถ๋ ฅ๊ฐ์ด 0 or 1๊ฐ์ด ๋ง์์ง๊ธฐ ๋๋ฌธ์ Gradient Vanishing(๊ฐ์ค์น ์์ค) or Exploding(ํญ๋ฐ) ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๊ณ , Scale Factor๋ฅผ ๊ณฑํด์ ์
๋ ฅ๊ฐ์ ์๊ฒ๋ง๋ค์ด์ Softmax ํจ์์ ์ถ๋ ฅ ๊ฐ์ ์์ ์ ์ผ๋ก ๋ง๋ค์ด์ค.
์ ์์ ๊ทธ๋ํ๊ฐ Softmax function์ธ๋ฐ ๋ณด๋ค์ถ์ด ์ ๋ ฅ๊ฐ์ด ๊ณ์ ๊ณฑํด์ง๋ฉด์ ๊ฐ์ด ์ปค์ง๋ฉด 1์ ๊ทผ์ ํ ์ถ๋ ฅ๊ฐ๋ง ๋์ค๊ณ ์์์ง๋ฉด 0์ ๊ทผ์ ํ ์ถ๋ ฅ๊ฐ์ด ๋์ค๊ฒ ์ฃ ?
๊ทธ๋์ Q๋ K๋ ํ๋ ฌ๊ณฑ ํ๋ค์์ ๋๋ ์ฃผ๋๊ฑฐ์.
๋ง์คํฌ๋ ๊ฑด๋ ๋ฐ์๋๋ฐ, ์์ ์ต์
์ด๋ผ๊ณ ๋ถ์ด์๋๋ฐ, padding์ ๋ณดํต Max len์ ์ ํด๋์๋ ์
๋ ฅ ๋ฌธ์ฅ์ด ์ด๋ณด๋ค ์์ ๋ ์ต๋ ๊ธธ์ด๋ฅผ ๋ง์ถฐ์ฃผ๊ธฐ ์ํด ์์ฃผ ์์ ์์๊ฐ์ ์ฃผ๋ ๊ฒ์.
๊ต์ฅํ ์์ ์์๊ฐ์ ์ฃผ๊ฒ๋๋ฉด ์ํํธ ๋งฅ์ค๋ฅผ ์ง๋๋ฉด 0์ ๊ฐ๊น๊ฒ ๋๊ธฐ ๋๋ฌธ์ ์ดํ
์
ํ์ต์ด ์๋.
ํ์ฌ ์์์์๋ ํจ๋ฉ์ด ํ์์๊ธฐ์ ๋์ด๊ฐ๋๋ค.
์ ๋จ๊ณ์์ ์ค์ผ์ผ๋ง ํ ๊ฐ์ ์ํํธ ๋งฅ์ค ๋ ์ด์ด์ ๋ฃ์ด์ ์ด ํฉ์ด 1์ธ ํ๋ฅ ๊ฐ ๋งคํธ๋ฆญ์ค, ์ค์ฝ์ด ๋ฉํธ๋ฆญ์ค๋ก ๋ง๋ค์ด์ค.
์ฆ, [0.2, 0.1, 0.3, 0.4] ์ฒ๋ผ ๋ง๋๋๊ฑฐ์.
๊ทธ๋ฌ๊ณ ๋์ Score Metrix๋ฅผ ์ ์ฉํ๊ธฐ ์ํด Value ๋ฒกํฐ๊ฐ๊ณผ ๊ณฑํด์ Attention Value Metrix์ ๋ง๋ฌ.
์ด๊ฒ ๊ทธ๋ฆผ ๋งจ์์์๋ ์ดํ
์
์์์ ์ ๋ถ ์ค๋ช
ํ๊ฑฐ์.
์ค์ผ์ผ ๋ท ํ๋ก๋ํธ ์ดํ
์
์ ์ด๋ ๊ฒ ๋์ด ๋ฌ์ง๋ง, ๊ทธ๋ฆผ์ h๋ผ๊ณ ํ์๋ Num Head ์๋งํผ ๋ณ๋ ฌ์ ์ผ๋ก ๋์์ ์งํํ๊ธฐ ๋๋ฌธ์ ์ด 8๊ฐ์ ์ดํ
์
๋ฒจ๋ฅ ๋ฉํธ๋ฆญ์ค๊ฐ ๋์ด.
์ด๋ฅผ Concat์ ํจ.
Concat์ ํ๋ฉด [4,64]์๋ ์ดํ ์ ๋ฒจ๋ฅ ๋ฉํธ๋ฆญ์ค๊ฐ 8๊ฐ๊ฐ ๋ถ์ด [4,512]์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ ํ๋์ ํ ์๊ฐ์ ์ป์.
์ด ๊ฐ์ ๋ฆฌ๋์ด ๋ ์ด์ด์ ๊ทธ๋๋ก ๋ฃ์ด์ Representation์ ํจ.
๋ฅ๋ฌ๋์์ "Representation"๋, ์
๋ ฅ ๋ฐ์ดํฐ์ ์๋ฏธ ์๋ ํํ์ ํ์ตํ๋ ๊ฒ์ ์๋ฏธํจ.
์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฒฝ๋ง์ ์ฃผ์
ํ๋ฉด, ์ ๊ฒฝ๋ง์ด ์ด๋ฅผ ๋ถ์ํ์ฌ ๊ฐ ์
๋ ฅ์ ๋ํ ์ ์ ํ ํํ์ ์ถ์ถํ๋ ๊ฒ์
์๊น๋ ๋๊ฐ์ด ์
์ถ๋ ฅ ํฌ๊ธฐ๊ฐ ๊ฐ์ Linear ๋ ์ด์ด์ ๋ฒกํฐ๊ฐ์ ๋ฃ๋๊ฑฐ์. (ํ
์ํ๋ก๋ก ์ค๋ช
ํ์๋ฉด ์
์ถ๋ ฅํฌ๊ธฐ๊ฐ ๊ฐ์ Dense ๋ ์ด์ด)์ด ๊ฐ์ ๋ฆฌ๋์ด ๋ ์ด์ด์ ๊ทธ๋๋ก ๋ฃ์ด์ Representation์ ํจ.
๋ฅ๋ฌ๋์์ "Representation"๋, ์
๋ ฅ ๋ฐ์ดํฐ์ ์๋ฏธ ์๋ ํํ์ ํ์ตํ๋ ๊ฒ์ ์๋ฏธํจ.
์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฒฝ๋ง์ ์ฃผ์
ํ๋ฉด, ์ ๊ฒฝ๋ง์ด ์ด๋ฅผ ๋ถ์ํ์ฌ ๊ฐ ์
๋ ฅ์ ๋ํ ์ ์ ํ ํํ์ ์ถ์ถํ๋ ๊ฒ์
์๊น๋ ๋๊ฐ์ด ์
์ถ๋ ฅ ํฌ๊ธฐ๊ฐ ๊ฐ์ Linear ๋ ์ด์ด์ ๋ฒกํฐ๊ฐ์ ๋ฃ๋๊ฑฐ์. (ํ
์ํ๋ก๋ก ์ค๋ช
ํ์๋ฉด ์
์ถ๋ ฅํฌ๊ธฐ๊ฐ ๊ฐ์ Dense ๋ ์ด์ด)
๋ฉํฐํค๋ ์ดํ
์
์ ๋๋ฌ๊ณ ,
๊ทธ๋ฆผ์ ๋ณด๋ฉด ์
๋ ฅ๋ฌธ์ฅ ์๋ฒ ๋ฉ๊ฐ๊ณผ ๋ฉํฐํค๋์ดํ
์
์์ ๋์จ ์ถ๋ ฅ๊ฐ์ด Addition & Layer Normalization๋ก ๊ฐ.
์ผ๋จ ์
๋ ฅ๊ณผ ๋ฉํฐํค๋์ดํ
์
์ถ๋ ฅ์ ๋์ผํ ์ฐจ์์ ๊ฐ๊ณ ์์.
Addition & Layer Normalization์ ๋ง๊ทธ๋๋ก ๋ํ๊ณ ๋ ์ด์ด ๋
ธ๋ง๋ฆฌ์ ์ด์
์ ํตํด ์ผ๋ฐํ ํ๋ ์๋ธ ๋ ์ด์ด์.
์
์ถ๋ ฅ์ด ๊ฐ์ ์ฐจ์์ ๊ฐ์ง๋ ๋ํ ์ ์์.
์์ฐจ ์ฐ๊ฒฐ(residual connection)์ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ์์ ๋ฐ์ํ ์ ์๋ ๊ฐ์ค์น ์์ค(gradient vanishing) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ํ์ต ์๋๋ฅผ ํฅ์์ํค๋ ์ฅ์ ์ด ์์.
๋คํธ์ํฌ๊ฐ ๊น์ด์ง์๋ก ์ญ์ ํ ํ๋ฉด ๊ทธ๋๋์ธํธ ๊ฐ์ด ์์์ ธ ์ฌ๋ผ์ง ์ ์๊ธฐ ๋๋ฌธ์, ์๋ธ๋ ์ด์ด์ ๋ค์ด๊ฐ๊ธฐ ์ ์ ๊ฐ์ ์ถ๋ ฅ๊ฐ๊ณผ ๋ํด์ ์ํ์ํด.
์ด ์๋ธ๋ ์ด์ด๋ฅผ ์ฝ๋๋ก ์ค๋ช
ํ์๋ฉด ๋ ์ง๋์ผ ์ปค๋ฅ์
์์ํ์ ๋ ์ด์ด ๋
ธ๋ง๋ฆฌ์ ์ด์
ํ๊ณ ๋๋์์ํ๋ ๊ฒ ๋์
์ฐธ๊ณ ๋ก ์ Layer Norm์ ํ๋? Batch Norm์?? ๋ผ๊ณ ๋ฌผ์ด๋ณธ๋ค๋ฉด,
Batch Norm๊ณผ ๋์ผํ์ง๋ง ์ ์ฉ๋๋ Dimension์ด ๋ค๋ฆ. ์์ฐ์ด๋ ์ด๋ฏธ์ง์ ๋ฌ๋ฆฌ ์
๋ ฅ ์ํ์ค๊ฐ ๋งค๋ฒ ๋ค๋ฅด๊ธฐ์ Padding์ ๋ฃ์ด์ฃผ๋๋ฐ, ์ด๋ฌํ ํน์ฑ๋๋ฌธ์ Batch normalization์ผ๋ก Layer Norm์ด ์ ํฉํจ. ๋ ์์ธํ๊ณ ๊น๊ฒ ๋ฐฐ์ธ๋ ค๋ฉด ๊ฒ์ ใฑใฑ
๋ ์ง๋์ผ ์ปค๋ฅ์
์์ํ ๊ฐ์ ๋๊ฐ์ด Addition & Layer Normalization๊ณผ Feed Forward๋ก ๊ฐ.
์ฌ๊ธด ์ฝ๋๋ก ์ค๋ช ํ๋๊ฒ ๋ ์ฌ์๋ณด์.
๊ทธ ๋ฒกํฐ๊ฐ์ด ์ง๊ธ 512์ฐจ์์ด๋, ์ด๋ฅผ 4๋ฐฐ ๋๋ ธ๋ค๊ฐ ๋ค์ 4๋ฐฐ ์ค์ด๋ ๋ ์ด์ด์.
์ ๋๋ ธ๋ค ์ค์ฌ! ๋ผ๊ณ ํ๋ฉด,
4๋ฐฐ ๋๋ฆฐ๋ค : ๋ฐ์ดํฐ๋ฅผ ๋ ๋์ ๊ณต๊ฐ์์ ํํํด๋ณธ๋ค.
4๋ฐฐ ์ค์ธ๋ค: ๋์ ๊ณต๊ฐ์์ ํํํ ๋ฐ์ดํฐ ์ค์ ๋ ์ค์ํ ํน์ง๋ค์ ์ ํํ๊ณ ํ์ตํ๋๋ก ํ๋ค.
์ฆ, Representation ํ๋๊ฑฐ์.
์ด๋ฌ๋ฉด ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋ ๋ถ๋ถ ์ค๋ช ๋์!
์ด ํฌ์คํ ์ด ๋์์ด ๋์์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค.
๋ค์ ์ฐ๊ตฌํ๋ฌ ๊ฐ๊ฒ ์ต๋๋ค