KorQuAD
The Korean Question Answering Dataset
github site: https://korquad.github.io/
KorQuAD 2.0 은 KorQuAD 1.0 에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다.
B) How Hard to Beat the KorQuAD 2.0?
KorQuAD 1.0 과는 다르게 1~2 문단이 아닌 Wikipedia article 전체에서 답을 찾아야 합니다. 매우 긴 문서들이 있기 때문에 탐색 시간에 대한 고려가 필요할 것 입니다.
또한 표와 리스트도 포함되어 있기 때문에 HTML tag 를 통한 문서의 구조 이해도 필요합니다.
이 데이터셋을 통해서 다양한 형태와 길이의 문서들에서도 기계독해가 가능해질 것 입니다.