QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1750|回复: 0
打印 上一主题 下一主题

中文新闻分类语料库

[复制链接]
字体大小: 正常 放大

38

主题

7

听众

74

积分

  • TA的每日心情
    奋斗
    2014-5-24 09:33
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    自我介绍
    新者上路
    跳转到指定楼层
    1#
    发表于 2014-4-26 15:05 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    语料库下载地址: http://download.cnblogs.com/finallyliuyu/corpus.rar自然语言处理与信息检索共享平台 `;
    首先说明一下,(1)本语料库是可用的。本语料库 最初公布在我的个人博客里,我本人以及一些网友都下载并使用过这份语料库进行文本分类聚类的实验。更多信息可以参考我的博客主页http://www.cnblogs.com/finallyliuyu/

    2)本语料库由完整的新闻内容组成,由我个人利用业余时间搜集和整理。新闻网页的解析算法主要依据于我本科毕业设计中实现的算法,又适当予以改进(算法相关的内容可参考《新闻网页正文提取》)。
    免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心等新闻门户网站提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。
    说明:
    1、此语料库非职务作品,由本人在业余时间搜集整理,免费提供给对NLP狂热的业余爱好者学习研究使用;本人是自然语言处理的业余爱好者,可能在新闻类别定义等方面都可能存在一些欠缺,欢迎大家提出宝贵意见和建议;
    2、下载地址提供的是MS SQL2000数据库文件(MSSQL2005也可以使用)。使用此数据库,您需要安装 MS SQL2000 server(或MSSQL2005Server),然后将CNewsCorpusliuyu解压并直接附加到数据库即可。压缩包大小为113M,共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面;
        需要特别注意的是,有的新闻在开头处有大量空白,因此在查询数据库ArticleText字段中有大片空白的,不是空新闻,是整个新闻体截断显示的缘故。另外,本语料库中有少量的空新闻,大家可以自行整理一下。
        如果您使用这份语料库进行实验,或者二次传播此份资料,请您标明作者和出处。也算是对我个人劳动成果的一点尊重,尽管这份劳动成果尚存在很多不足之处。语料库作者: 刘禹 中国科学院自动化研究所综合信息中心 电子邮件y.liu@ia.ac.cn
    下载地址:http://download.cnblogs.com/finallyliuyu/corpus.rar

    信息来源: http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-1 23:48 , Processed in 0.383465 second(s), 53 queries .

    回顶部