数学建模社区-数学中国

标题: 中文问题分类数据集 [打印本页]

作者: 习惯优你    时间: 2014-4-27 14:31
标题: 中文问题分类数据集
中文问题分类数据集
介绍
问题分类在开放领域问题回答(QA)系统中有着非常重要作用。
问句可以根据问题形式和答案类型进行归类。问题形式可以帮助问答系统确定处理方式。比如TREC QA中将问题分为事实类、枚举类和其他类。不同类别的问题需要用不同的处理方法和流程来处理。答案类型则是帮助后续处理模块(比如答案抽取)以更好产生答案。
而目前问题分类语料主要是针对事实类问题进行答案类型的标注,这样对于很多非事实类问题会产生错误的分类结果。
本数据集参考HOWNET建立问题分类的分类体系,使用主动学习的方法从问题形式和答案类型两方面同时进行数据挑选,并人工标注中文问题类别。
我们从百度知道、搜搜问问两个社区问答平台中娱乐类问题中下载问题并进行人工标注。将所有的问题根据问题的类型和问题所需的答案类型作为分类依据。经过两人标注,一人校对的方式进行人工标注。修改两人不同的结果以及去掉重复的问题。
下载地址
中文问题分类数据集1.0版 http://fudannlp.googlecode.com/files/FudanQuestionBank.zip
本数据集使用LGPL3.0许可证。
使用本数据请注明数据来源 "FudanQuestionBank: http://code.google.com/p/fudannlp/w/edit/QuestionClassification"





欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5