QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1411|回复: 0
打印 上一主题 下一主题

NLPIR 500万条twitter内容语料库

[复制链接]
字体大小: 正常 放大

38

主题

7

听众

74

积分

  • TA的每日心情
    奋斗
    2014-5-24 09:33
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    自我介绍
    新者上路
    跳转到指定楼层
    1#
    发表于 2014-4-27 14:34 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    NLPIR twitter内容语料库说明1.NLPIR twitter内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集抽取从twitter中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(www.nlpir.org)予以公开共享其中的500万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器信息)
    2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士
    kevinzhang@bit.edu.cn予以删除,对给您造成的困扰表示抱歉,并希望谅解;
    3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR twitter内容语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。
    4.字段格式说明:
    语料为mongodb导出的json格式,大约500万条Twitter数据(其中过滤了部分敏感的Twitter状态,占7%左右),每行为一个json对象,对象中一共有三个字段,分别是

    4WHG!me_%ws74657
    user_id      用户的id,我们对语料包中Twitter的用户名进行隐藏操作,取而代之的则是一个标记用户的int值id
    text         这条Twitter状态的内容
    created_at   此条Twitter状态所发布的时间,为距离格林尼治时间1970年1月1日0时开始所经过的秒数

    1EE:A!Y9U!l3l74657
    可以运行以下命令,直接使用mongodb自带的导入程序导入到mongodb
    mongoimport -d <数据库名> -c tweets tweets.utf8

    T74657
    下载地址:http://vdisk.weibo.com/s/yW3j3   (解压缩密码,请关注微博 NLPIR官方微博 http://weibo.com/bigdatasearch,私信获取。)
    自然语言处理与信息检索共享平台
    展示:
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-7-19 12:24 , Processed in 0.439635 second(s), 53 queries .

    回顶部