[논문리뷰]Generative Question Refinement with Deep Reinforcement

2022. 2. 20. 20:45Artificial_Intelligence/Reinforcement Learning

Generative Question Refinement with Deep Reinforcement

Liu, Ye, et al. "Generative question refinement with deep reinforcement learning in retrieval-based QA system." Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019.

 

Abstract

실제 QA 시스템에서 잘못된 단어, 잘못된 단어 순서, 노이즈 같은 잘못된 형식의 질문들이 일반적이여서 QA 시스템이 이를 정확하게 이해하고 답변을 던지지 못하게 만듬.

이러한 잘못된 형식의 질문을 효과적으로 제거하기 위해서 질문 정제 작업에 접근하고, 잘못된 형식의 질문을 잘 구성된 형식의 질문으로 세분화하는 모든 과정을 통합하는 QREFINE이라는 모델을 제안했음.

기본 모델은 Seq2Seq 모델임.

생성된 질문의 품질 및 검색 성능을 향상하기 위해 두가지를 내놓았는데

잘못된 형식의 질문의 의미를 더 잘 인코딩하기위해 단어 임베딩 외에 문자 임베딩 등 BERT와 같이 상황별 단어 임베딩으로 질문의 표현을 풍부하게 한다고함.

또한 원하는 질문을 생성할 수 있도록 생성하면서 적절한 표현하면 즉각적인 보상으로 간주하고, 생성된 질문과 답변 간의 상관관계를 시간대비 장기 보상으로 간주하는 심층 강화 학습으로 모델을 훈련한다고함.

이렇게 만들어낸 방법이 기존보다 정교한 답변 및 검색의 정확성을 크게 향상시킨다고함.

 

논문 내용

기존 QA 시스템 -> 잘못된 단어 순서 및 노이즈 표현 등 잘못된 질문이 많아서 성능 안좋음
기본아이디어 -> Seq2Seq 모델 학습해서 원래 질문에서 새로운 질문 생성
1. 질문의 의미를 더 잘 인코딩하기위해 Bert같은 문자임베딩과 컨텍스트 단어 임베딩으로 질문 표현을 풍부하게 만듬
2. 생성된 질문과 답변간의 상관관계를 시간 대비 장기 보상을 고려한 DQL 모델 훈련

 

기존에 사용하는 WikiAnswer Dataset을 확인해보면 전체 데이터중 약 68%가 질문 형식이 잘못되어있다고 함.

WikiAnswers 데이터 세트에서의 잘못된 형식의 대표적인 유형들

 

이 논문들을 보면, 첫번째 논문은 잘못된 단어 구문 수정하기 위한 문법 오류 수정에만 중점을 두었고,

두번째 논문은 복잡하고 어려운 질문들을 분할하고 일반화 단순화해서 DQL 썼는데 별로라고함.

바닐라 Seq2Seq 모델도 본 논문에서 써봤는데 이 모델은 잘 안돌아간다고 함.
1. 잘못되거나 노이즈 많은 단어가 많이 포함되어 잘못된 형식의 질문에 대한 좋은 표현 학습불가능
2. 최대 가능성 목표가 목표와 일치하지 않음

이렇게 두가지로 이 모델을 안쓰고, 이러한 문제를 해결하기 위해 QREFINE이라는 Seq2Seq2 기반 질문 재구축 모델을 개발함.

 

얘네같은 컨텍스트 프리 모델은 단어 간의 상관관계를 고려할 수 없음.
어휘의 각 단어에 대해 단일 단어 임베딩 표현을 생성하기에 같은 단어라도 다른 의미의 단어를 동일하게 보고 학습함.
따라서 BERT같은 컨텍스트 모델로 돌림

제안한 QREFINE 모델의 아키텍처을 보여줬는데,

에이전트 쪽에서는 인코더가 잘못된 형식의 질문을 읽고, 디코더는 한 번에 하나의 단어/구문 으로 구성된 올바른 형식의 질문을 생성함.

잘 형성이 된 질문들을 만들어 내면 이를 사전 훈련된 Reward 쪽으로 전송해서, 단어 수준 LM과 BERT 보상에서 단어 수준 단어 보상과 QA 유사성에서 질문/답변 상관 관계 보상을 계산한다고함.

세번째 PPO에서는 보상을 최대화하는 목표로 에이전트 생성 정책을 업데이트함.

YahooCSU 데이터셋을 사용하여 성능 지표를 작성함.


 

맞춤법 오류, 단어 순서 등 하위 작업을 포함한 잘못된 형식의 질문을 수정하는 것을 목표로 하여, 이러한 하위 작업을 별도로 처리하지 않고 Seq2Seq2 기반 통합 모델 개발해서 데이터 기반 방식으로 처리함.
BERT의 문자 임베딩 및 컨텍스트 단어 임베딩을 통합해 질문 표현을 개선하고 이를 DQL과 결합함.

 

역 강화학습을 사용하여 잘못된 형식의 질문이 주어지면 이를 다시 수정할 수 있게 하면 좋을 듯 함.
질문 재검토 결과를 활용해 질문 이해, 질문 답변 추천 등을 만들면 어떨까 함.

 

728x90