Kim, Taewoon, and Piek Vossen. "Emoberta: Speaker-aware emotion recognition in conversation with roberta." arXiv preprint arXiv:2108.12009 (2021).
introduction
๊ฐ์ ์ธ์์ ๋ฒ์๋ ํ์ , ์์ฑ,ํ
์คํธ ๋ฑ ๋งค์ฐ ๋์.
๋ณธ ๋
ผ๋ฌธ์์๋ ๊ฐ์ ์ธ์์ ํ์ ๋ถ์ผ์ธ ๋ํ์์ ๊ฐ์ ์ธ์( ERC)์ ์ค์ ์ ๋ .
ERC๋ ํ์ฌ๋ ๋๋ ๊ทธ ์ด์์ ์ฌ๋๊ณผ ๋ํ์ ์ฐธ์ฌํ๋ ํ์ฌ ํ์์ ๊ฐ์ ์ ์์ธกํ๋ ๊ฒ
๊ฐ์ ์ ์ธ์ํ๋ ๊ฒ์ ๊ฐ์ฑ ์ปดํจํ
๋ฐ ์ธ๊ฐ-๋ก๋ด ํต์ ๊ณผ ๊ฐ์ ๋ถ์ผ์์ ์ค์.
์ธ๊ฐ์ ๋ํ(์๊ฐ, ์์ฑ ๋ฑ)์ ํ๊ธฐ์ํด ์ฌ๋ฌ ๊ฐ๊ฐ ์
๋ ฅ์ ์ฌ์ฉํจ
๋ฐ๋ผ์ ERC ์์
์๋ ์ฌ๋ฌ ์์(์๊ฐ, ์ค๋์ค, ํ
์คํธ ๋ฑ)์ด ํฌํจ๋ ๋ฉํฐ๋ชจ๋ฌ์ด ํ์
๋ณธ ๋
ผ๋ฌธ์์๋ ์ฌ๋ฌ ์์์ ํฅํ ์ฐ๊ตฌ์์ ํ๊ณ ๋จผ์ ํ
์คํธ์์๋ง ์คํํจ
ERC๋ ์ํ์ค ๋ชจ๋ธ๋ง์ ํน๋ณํ ๊ฒฝ์ฐ์. ์๋ํ๋ฉด ๊ฐ์ ์ด ๋ชจ๋ ์์์์ ์ ํ ์ฌ๊ฑด์ ์ํด ์ด๋ฐ๋ ๊ฒ์ผ๋ก ์์๋๊ธฐ ๋๋ฌธ์.
ERC์ ๋ํ ๋ณธ ๋
ผ๋ฌธ์ ์ ๊ทผ ๋ฐฉ์์ ์ฌ๋ฌ ๋ฐํ์ ๊ฑธ์น ์ํ์ค ์ ๋ณด์ ํ์ ์ ์ฒด์ฑ์ ํฌํจ์ํค๋ฉด์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ํ๋ถํ๊ฒํจ.
RoBERTa ์ํ์ค ํํ์ ์ ์ฉํด์ ์ธ๊ธฐ์๋ ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์์ SOTA ๊ฐ์ ํจ.
Related Work
CNN RNN ํธ๋์คํฌ๋จธ ๋ฑ๋ฑ ์ ๊ทผ๋ฒ์ ๋จ์ ์ ๋ชจ๋ธ์ ๊ฐ ๋ถ๋ถ์ด ์์ ์ ํน์ง์ ์ถ์ถํ๋ ์ฑ
์์ด ์๋ค๋ ๊ฒ.
์ด๋ฐ ์ถ์ถ๋ ๊ธฐ๋ฅ์ ๋ชจ๋ธ์ ๋ค๋ฅธ ๋ถ๋ถ์ ์ด์์ ์ด์ง ์์ ์ ์์.
์ด๋ฐ ๋ชจ๋ธ๋ค์ ํ์ ๋ชจ๋ธ๋ค์ ์กฐํฉ์ด๊ธฐ์ ๊ฐ ํ์ ๋ชจ๋ธ๋ค์ด ๋ฌด์์ ๊ธฐ์ฌํ๊ณ ์๋์ง, ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ด๋ป๊ฒ ๊ฐ์ ํด์ผํ๋์ง ์ดํดํ๊ธฐ ์ด๋ ค์.
์ผ๋ถ ์ ๊ทผ๋ฒ์ ์ํ์ค๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ์ํด RNN๊ณ์ด์ ๊ธฐ๋ฐ์ผ๋ก ํ๋๋ฐ, ์ฌ๊ธฐ์ ๋ฌธ์ ๋ ๋จ์ด ์๋ฒ ๋ฉ ์ถ์ถ๊ณผ ์ํ์ค ๋ชจ๋ธ๋ง์ ๋ณธ์ง์ ์ผ๋ก ๋ถ๋ฆฌํจ.
๊ทผ๋ฐ BERT ๊ณ์ด์ ๋ชจ๋ธ์ ์ด๋ฅผ ํ๋ฒ์ ํด๊ฒฐํ๊ธฐ์ ๋๋ฌธ์ ์ข
์ข
๋ ๋์ ์ฑ๋ฅ์ผ๋ก ์ด์ด์ง.
๋ํ ์ธ๋ถ ๋์ฝ ํ
์คํธํ๋ ๋จ์ด ์๋ฒ ๋ฉ ์ถ์ถ๊ธฐ (GloVe, word2vec)์ ์์กดํด์ผํจ.
๋ํ ์๊ฐ์ ํตํ ์ญ์ ํ๋ ์ํ์ค์ ๋ง์ง๋ง ์
๋ ฅ์ด ์ฒ๋ฆฌ๋ ๋๊น์ง ๊ธฐ๋ค๋ ค์ผ ํ๊ธฐ ๋๋ฌธ์ RNN์ ํ๋ จํ๋๊ฑด ๋งค์ฐ ๋นํจ์จ์ ์
๋ณธ ๋
ผ๋ฌธ๊ณผ ๋ฐ์ ํ ์ ๊ทผ๋ฒ์ HiTrans์ DialogXL์.
HiTrans๋ ํ๋์ ์
๋ ฅ ์ํ์ค์ ์ถ๊ฐ๋ CLS ํ ํฐ์ผ๋ก ์ฌ๋ฌ ๋ฐํ๋ฅผ ์์ธกํจ.
DialogXL์ XLNet์ ๊ธฐ๋ฐ์ผ๋ก ํจ.
๋ณธ ๋
ผ๋ฌธ์ RoBERTa๋ฅผ ์ฌ์ฉํด์ ์ฌ๋ฌ ๋ฐํ๋ก ํ์ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํจ.
Methodology
EmoBERTa๋ Pretrained RoBERTa-large์์ ์์ํจ.
๋ณธ Task ๋ ๊ธฐ๋ณธ์ ์ผ๋ก Classification Sequence Task์.
์ฆ, ๋ง์ง๋ง ์ถ๋ ฅ ๊ณ์ธต์ CLS ํ ํฐ์ ํด๋นํ๋ Hidden state vector์ Classifier Head๋ฅผ ์ถ๊ฐํ๋ฉด ๋จ.
์ RoBERTa๋ฅผ ์ผ๋๋ฉด, ๋๊ฐ ์ด์์ Segments๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ธฐ ๋๋ฌธ์.
RoBERTa ์ ์๋ ๋จ์ํ ๋๊ฐ์ </s> ํ ํฐ์ [SEP]ํ ํฐ์ผ๋ก ์ฐ์์ ์ผ๋ก ์ฌ์ฉํด์ ์ฒซ๋ฒ์งธ์ ๋๋ฒ์งธ Segments(๋ถํ )๋ฅผ ์ฒ๋ฆฌํ์๋๋ฐ, ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ๋ ๊ฐ ์ด์์ Segments์ ๋ํด ํ๋ จํ์ง ์์๋ค๋ง EmoBERTa๋ ์
๋ ฅ ์ํ์ค๋น ์ธ ๊ฐ์ Segments๋ก ์ผ๋ฐํ ๋ ์ ์์์ ๋ณด์ฌ์ค.
์ฌ๊ธฐ์ ์ฒซ๋ฒ์งธ Segment๋ ๊ณผ๊ฑฐ ๋ฐํ, ๋๋ฒ์งธ Segment๋ ํ์ฌ ๋ฐํ, ์ธ ๋ฒ์งธ Segment๋ ๋ฏธ๋ ๋ฐํ ๋ฅผ ํฌํจํจ.
๊ฐ ๋ฐํ์๋ ํ์์ ์ด๋ฆ์ด ์์ ๋ถ์ด์ ๋ชจ๋ธ์ด ์ด๋ค ๋ฐํ๊ฐ ๋๊ตฌ์ ์ํด ๋ฐํํ๋์ง ์ธ์ํจ.
์ฌ๊ธฐ์ ๋ชฉํ๋ ํ์ฌ ๋ฐ์ธ์ ๊ฐ์ ์ ์์ธกํ๋ ๊ฒ์.
Loss→ Cross-entropy + L2 weight Decay
Optimizer → Adagrad(adaptive gradient descent)
Scheduler → gradual linear warmup learning rate scheduling
์ต๊ณ LR๋ Optuna ์ด์ฉํ์ฌ ๊ฒฐ์ → Optuna๋ ์ต์ ํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์์ฃผ๋ ํ๋ ์์ํฌ์.
Mixed floating point precisionํ์ฌ ํ๋ จ์๊ฐ ์ค์ด๊ณ ๋ฐฐ์นํฌ๊ธฐ ๋๋ฆผ. → ํผํฉ ์ ๋ฐ๋ ์ฐ์ . ๋จ์ผ ์ฐ์ฐ์์ ๋ค์ํ ๋๋น์ ์ซ์๋ฅผ ์ฌ์ฉํ๋ ๋ถ๋ ์์์ ์ฐ์ ์ ํํ
Experiments
์ฒซ๋ฒ์งธ ํ
์ด๋ธ : ๋ํ ์(๋ฐํ ์)
๋๋ฒ์งธ ํ
์ด๋ธ : ๋ํ๋น ๋ฐ์ธ ์ ํ๊ท (ํ์คํธ์ฐจ)
MELD๋ ๋ฉํฐ๋ชจ๋ฌ(์ด๋ฏธ์ง, ์ค๋์ค, ํ
์คํธ) ๋ฐ ๋ฉํฐ ํํฐ(๋ํ์์ ๋ ๋ช
์ด์์ ๋ํ์) Dataset
TV ์๋ฆฌ์ฆ Friends์์ ์์ง๋์์.
7๊ฐ์ ๊ฐ์ ์ ์ค๋ฆฝ, ๊ธฐ์จ, ๋ถ๋
ธ, ๋๋ผ์, ์ฌํ, ํ์ค, ๋๋ ค์
์ด ๋ฐ์ดํฐ์
์ ํด๋์ค ๋ถํฌ๊ฐ ๋งค์ฐ ๋ถ๊ท ํ ํ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์งํ๋ก weighted f1 score์ฌ์ฉํจ.
IEMOCAP์ ๋ฉํฐ๋ชจ๋ฌ(์ด๋ฏธ์ง, ์ค๋์ค, ํ
์คํธ) ๋ฐ dyadic(๋ํ์์ ๋จ ๋๋ช
์ ํ์)๋ํ Dataset
10๋ช
์ ๋ฐฐ์ฐ๊ฐ ๋ฐ์ดํฐ ์์ง์ ์ฐธ์ฌํจ.
11๊ฐ์ ๊ฐ์ ์ด ์์ผ๋ 6๊ฐ(์ค๋ฆฝ, ์ข์ , ์ฌํ, ๋ถ๋
ธ, ํฅ๋ถ, ํ๋ณต)๋ง ํ๊ฐ์ ์ฌ์ฉํจ.
์ด๋ํ ํด๋์ค ๋ถํฌ๊ฐ ๋งค์ฐ ๋ถ๊ท ํํ๊ธฐ ๋๋ฌธ์ Weighted f1 score ์ฌ์ฉํจ.
MELD์ ๋ฌ๋ฆฌ IEMOCAP์ ๊ณต์์ ์ผ๋ก ํ์์ ์ด๋ฆ์ ๊ฐ์ง๊ณ ์์ง ์์์ ๋ฌด์์๋ก ์ด๋ฆ์ ์ง์ด์ค.
Results and Analysis
1. ๊ณผ๊ฑฐ์ ๋ฏธ๋์ ๋ฐํ๋ฅผ ๋ฃ์ง ์์์๋
2. ๊ณผ์ ๋ฐํ๋ง ๋ฃ์์ ๋
3. ๋ฏธ๋ ๋ฐํ๋ง ๋ฃ์์ ๋
4. ๊ณผ๊ฑฐ์ ๋ฏธ๋์ ๋ฐํ๋ฅผ ๋ฃ์์ ๋
1. ๋ฐํ์์ ์ด๋ฆ์ ๋ฃ์ง ์์์ ๋
MELD์์๋ ๋ชจ๋ D๋ฅผ ์ฑํํ์ ๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์.
IEMOCAP์์๋ B๋ฅผ ์ฑํํ์ ๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์. → MELD๋ณด๋ค ๋ ๋ง์ ๋ฐํ๋ง์ ์ฌ์ฉํ๋ ๊ฒ ๋๋ฌธ์ผ ๋ฏํจ. ๊ณผ๊ฑฐ์ ๋ฐ์ธ์ด ๋ฏธ๋ ๋ฐ์ธ์ ํ์ตํ๋ ๊ฒ ๋ณด๋ค ๋ ์ ์ฉํ๋ค๊ณ ํจ.
๊ฐ ํ
์คํธ ๋ถํ ์์ ์ฌ๋ฐ๋ฅธ 10๊ฐ์ ๋ฌด์์ ์ํ๊ณผ ํ๋ฆฐ 10๊ฐ์ ๋ฌด์์ ์ํ์ ๋ฝ์์ ์ ์ฑ์ ๋ถ์ ์งํํจ.
์๋ ๊ฒ์ฌ๋ฅผ ํตํด, ๋ชจ๋ธ์ด ๋ฐํ์ ํ ํฐ์ด ๋ํ ์๋ ํ ํฐ์ ์ฃผ์ํ๊ธฐ ๋๋ฌธ์ ์์๊ณ์ธต์์ ๋ํ ์๋ ํ ํฐ์ ์ญํ ์ ํ์ตํ๋ ค๊ณ ์๋ํ๋ ๊ฒ์ ํ์ธํ๋ค๊ณ ํ๋ค.
๋ง์ง๋ง ๋ ์ด์ด์ <s>ํ ํฐ์ ๋ฐํ์ ํ ํฐ์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์์ผ๋, ์๋ชป ๋ถ๋ฅ๋ ์ํ์ ๊ฒฝ์ฐ 60%๋ง ์ฃผ์๋ฅผ ๊ธฐ์ธ์. → ์ด๋ฅผํตํด ํ ํฐ์ด ์์ ๊ณ์ธต์ผ๋ก ๊ฐ์๋ก ๋ฐํ์ ํ ํฐ์ด ์ ์ ์ค์ํ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์์์ ํ์ธํจ.
๋ง์ง๋ง ๊ณ์ธต์ <s>ํ ํฐ์ด ํ์ฌ ์ํ์ ๋ฐํ์ ๋ฐ์ธ์ ์ด์ ์ ๋ง์ถ๊ธฐ์, ์ด ํ ํฐ์ด ๋ชจ๋ธ์ ์ต์ข
์์ธก์ ํ๋๋ฐ ๊ฐ์ฅ ์ ์ฉํ๊ฒ ์ฐ์ธ๋ค๊ณ ํ๋จํจ.
์๋ชป ๋ถ๋ฅ๋ ์์์์๋ ๋ง์ง๋ง ๊ณ์ธต์ <s>ํ ํฐ์ด ๋ฐํ์์ ์ด์ ๋ง์ถ์ง ์๊ณ ๋ํ ๋ด๋ด ์ผ๋ถ ๋ฌด์์ ๋ฌธ์ฅ ๋ถํธ์ ์ด์ ์ ๋ง์ท์.
๋
น์์ ๋ชจ๋ธ์ ์์ ๊ณ์ธต์์ ํ์ฌ ๋ฐํ์(joy)๊ฐ ๊ฐ์ฅ ๋ง์ด ์ฐธ์ฌํ๋ ํ ํฐ ์ค ์์ 10๊ฐ
๋
ธ๋์์ ๋ง์ง๋ง ๊ณ์ธต์์ <CLS>ํ ํฐ(<s>ํ ํฐ์ด๋ผ๊ณ ํ๋ค์)์ ๊ฐ์ฅ ๋ง์ด ์ฐธ์ฌํ๋ ํ ํฐ ์ค ์์ 10๊ฐ
Conclusion
EmoBERTa๊ฐ ERC ์์
์์ ๋ค๋ฅธ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํจ์ ๋ณด์ฌ์ค.
EmoBERTa๋ ์
๋ ฅ ํ ํฐ๊ณผ ๋ํ์๋ ์ด๋ฆ์ ์ง์ ์ฐธ์ฌ ๊ฐ๋ฅํ๊ธฐ์, ๋ชจ๋ธ์ด ์ต์ข
๋ถ๋ฅํ๋๋ฐ ๊ฐ์ฅ ์ค์ํ ๋ํ ๋ถ๋ถ์ ํ์ธํ๊ธฐ ์ํด ์ดํ
์
coefficients(๊ณ์)๋ฅผ ์ฝ๊ฒ ๊ด์ฐฐ ๊ฐ๋ฅํจ.