QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1883|回复: 0
打印 上一主题 下一主题

中文问题分类数据集

[复制链接]
字体大小: 正常 放大

38

主题

7

听众

74

积分

  • TA的每日心情
    奋斗
    2014-5-24 09:33
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    自我介绍
    新者上路
    跳转到指定楼层
    1#
    发表于 2014-4-27 14:31 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    中文问题分类数据集
    介绍
    问题分类在开放领域问题回答(QA)系统中有着非常重要作用。
    问句可以根据问题形式和答案类型进行归类。问题形式可以帮助问答系统确定处理方式。比如TREC QA中将问题分为事实类、枚举类和其他类。不同类别的问题需要用不同的处理方法和流程来处理。答案类型则是帮助后续处理模块(比如答案抽取)以更好产生答案。
    而目前问题分类语料主要是针对事实类问题进行答案类型的标注,这样对于很多非事实类问题会产生错误的分类结果。
    本数据集参考HOWNET建立问题分类的分类体系,使用主动学习的方法从问题形式和答案类型两方面同时进行数据挑选,并人工标注中文问题类别。
    我们从百度知道、搜搜问问两个社区问答平台中娱乐类问题中下载问题并进行人工标注。将所有的问题根据问题的类型和问题所需的答案类型作为分类依据。经过两人标注,一人校对的方式进行人工标注。修改两人不同的结果以及去掉重复的问题。
    下载地址
    中文问题分类数据集1.0版 http://fudannlp.googlecode.com/files/FudanQuestionBank.zip
    本数据集使用LGPL3.0许可证。
    使用本数据请注明数据来源 "FudanQuestionBank: http://code.google.com/p/fudannlp/w/edit/QuestionClassification"
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 02:04 , Processed in 0.363122 second(s), 54 queries .

    回顶部