스켈터랩스가 JaQuAD 데이터셋을 GitHub을 통해 공개합니다. CC-BY-SA 3.0 라이센스에 따라 누구나 활용하실 수 있습니다.
안녕하세요, 스켈터랩스의 대화형 AI 기술 중 MRC를 맡고있는 소프트웨어 엔지니어, 소병훈입니다.
지난 2월 7일 스켈터랩스는 JaQuAD(Japanese Question Answering Dataset, 일본어 질의응답 데이터셋)를 공개했습니다.
(데이터셋 확인하기 - GitHub / HuggingFace, 논문 확인하기)
MRC 모델에게 대규모 질의응답 데이터셋이란 훈련을 위한 학습 자료이자 성능 검증 및 평가를 위한 시험 문항에 해당합니다. 스켈터랩스는 일본어 MRC 기술개발을 위해 대규모 일본어 질의응답 데이터셋 JaQuAD를 직접 만들어 공개했습니다.
JaQuAD는 일본어 위키백과에 등재된 901개의 문서로부터 사람들이 직접 만든 39,696개의 지문/질문/답변 데이터(질의응답 쌍)로 구성되어 있습니다. 그 중 31,748개의 질의응답 쌍을 모델의 학습을 위한 training set, 3,939개의 질의응답 쌍을 모델의 검증을 위한 development set으로 나누어 이번에 공개한 것인데요. 질의응답 데이터셋마다 문서의 길이와 구조, 출제 유형, 답변 불가능한 질문 포함 여부 등이 다르고 그에 따라 MRC 모델에 요구되는 성능이 다르기 때문에, JaQuAD는 KorQuAD 1.0과 유사하지만 상대적으로 조금 어려운 유형의 질문이 많이 포함되도록 데이터셋을 구축하였습니다. 예시 문제를 함께 살펴볼까요?
JaQuAD 예시 문제
[지문] … 同年に行われた第1国会の選挙は、労働者にも選挙権を与えていたものの、土地所有者の1票が都市民2票・農民15票・労働者45票に相当するという極めて不平等な選挙制度であった。
(... 같은 해에 행해진 제1국회의 선거는, 노동자에게도 선거권을 주고 있었지만, 토지 소유자의 1표가 도시민 2표·농민 15표·노동자 45표에 해당하는 매우 불평등한 선거제도였다.)
[질문] 第1国会の選挙でどんな1票の影響力が最も小さかったのは、どんな人々だったの?
(제1국회의 선거에서 1표의 영향력이 가장 적은 사람은?)
[정답] 労働者 (노동자)
예시 문제와 같이 JaQuAD는 이미지나 표 등을 제외한 문장으로만 이루어진 지문, 지문 내에서 정답을 찾을 수 있는 질문 그리고 단답형의 정답으로 구성됩니다. 추가로 분석에 도움을 줄 수 있도록 모든 질의응답 쌍에 질문 출제 유형과 정답의 유형을 표시했답니다.
JaQuAD 데이터셋은 스켈터랩스 GitHub 계정을 통해 공개되어 CC-BY-SA 3.0 라이센스에 따라 누구나 활용하실 수 있습니다. HuggingFace transformers library를 이용하여 쉽게 사용할 수 있도록 스켈터랩스 Huggingface 계정을 통해 데이터셋과 예시 모델을 제공하고 있고, 해당 예시 모델 학습에 사용된 코드 또한 Github에 공개되어 있습니다. 데이터셋 구축 원칙 등 자세한 사항은 아카이브 논문에 설명하였답니다. 많은 관심 부탁드려요!