MS MARCO

  • 简介:人工生成的机器阅读理解数据集,来自微软,2016。
  • 论文:https://arxiv.org/abs/1611.09268
  • 数据:http://www.msmarco.org/

NewsQA

  • 简介:Maluuba 的机器理解数据集,2016。
  • 论文:https://arxiv.org/abs/1611.09830
  • 数据:https://github.com/Maluuba/newsqa

SQuAD

  • 简介:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016。
  • 论文:https://arxiv.org/abs/1606.05250
  • 数据:https://rajpurkar.github.io/SQuAD-explorer/

CNN-DailyMail

  • 简介:用于训练机器进行阅读理解任务的数据集,2015。
  • 论文:https://arxiv.org/abs/1506.03340
  • 代码:https://github.com/deepmind/rc-data
  • 数据:http://cs.nyu.edu/~kcho/DMQA/

SimpleQuestions

  • 简介:大量使用记忆网络的简单问答数据,2015。
  • 论文:https://arxiv.org/pdf/1506.02075.pdf
  • 数据:https://research.fb.com/downloads/babi/

WikiQA

  • 简介:一个开放问题与回答的挑战数据集,由微软推出,2015。
  • 论文:https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/
  • 数据:https://www.microsoft.com/en-us/download/details.aspx?id=52419

Ubuntu Dialogue Corpus

  • 简介:一个用于非结构化多回路对话系统研究的大型数据集,2015。
  • 论文:https://arxiv.org/abs/1506.08909
  • 数据:https://github.com/rkadlec/ubuntu-ranking-dataset-creator

Dialog State Tracking Challenge 2 & 3:

  • 简介:对话状态跟踪挑战(Dialog State Tracking Challenge)2 和 3,2013。
  • 论文:http://camdial.org/~mh521/dstc/downloads/handbook.pdf
  • 数据:http://camdial.org/~mh521/dstc/