QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2382|回复: 1
打印 上一主题 下一主题

有关查重我来说几句(转)

[复制链接]
字体大小: 正常 放大
淡妆        

1287

主题

22

听众

2011

积分

  • TA的每日心情
    难过
    2016-1-19 01:03
  • 签到天数: 51 天

    [LV.5]常住居民I

    自我介绍
    吃饭睡觉打豆豆

    邮箱绑定达人

    群组2016护航培训(基础+强

    群组2016护航培训(基础)

    群组2016美赛护航培训强化

    群组2016美赛冲刺培训

    群组2016美赛冬令营

    跳转到指定楼层
    1#
    发表于 2015-9-28 17:35 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    我们老师说,过几天全国组委会将进行一次整体的查重,这个应该会等到所有的赛区结果出来以后才会进行。


    大家自己在大雅相似度查询的重复率应该是没用什么用的,更确切的说,是你的重复率低了没什么用,如果很高,那可以直接玩完了,不用看下面的文字了。


    大雅相似度应该有一个库内查询的功能,也就是我们所有参赛者的文章进行比较。


    我曾经用大雅相似度查了自己的学年论文,相似度1%,然而我自己估测的相似度应该是在70-80%左右,虽然我是自己写的文章,但是框架是用的其他文章里的。


    也就是说,大雅相似度查询实际上数据库覆盖不是很广。


    但是,如果把我们所有参赛者的文章拿一起来比较就很不一样了,我们很可能是涵盖了所有中文中有关影子猜地点的文章。


    如果说你照搬了一段叙述性的文字,大雅原本的库里没有,但是有其他队伍和你们队伍一样照搬了,那相似度就出来了。


    据我估计,70%以上的队伍会因为这个事情受到影响。


    但是不用担心,根据现在已有的消息判断,组委会重点追查的应该是雷同卷。详细点说——首先,本论文与不同论文之间相似度的累加应该不是大问题(细追究下去可能会有大问题,毕竟这么多奖项已经公布了)。其次,相似度大概达到95%以上,且结构一致的文章才会被拿来开刀。最后,你们关心的代码查重,这个应该来说是不会的,一来代码都在支撑文件里(规则上这次不需要放到附录),全部拿来查重,这可是O(n^2)的复杂度,二来没说代码不能重复,算法什么的不需要原创。


    代码只能是论文被查出来之后再去验证一下代码是否一样,罪加一等,不会用它来做线索抓你们的。


    最后说一句,MD5码和几乎查重没毛关系,正常情况下,除非内容完完全全一样,才能活动相同的MD5码。我们采用MD5码主要是为了方便8:00之前网络较卡的同学上传上MD5码,hash一下文章,防止8点之后再改。(然而这只是美好的愿望,他们没有想到这么多人挤着交不上,租个专业服务器就好了嘛,非要自己搞)



    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    fox 实名认证       

    2133

    主题

    84

    听众

    7761

    积分

  • TA的每日心情
    奋斗
    2025-7-30 07:14
  • 签到天数: 405 天

    [LV.9]以坛为家II

    自我介绍
    青春永驻,友谊长存

    社区QQ达人 邮箱绑定达人 新人进步奖

    群组2015国赛优秀论文解析

    群组2018乐考无忧考研培训

    群组乐考无忧试听课

    群组2017年SAS数据分析赛前

    群组荣光医院

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-1 15:29 , Processed in 0.357853 second(s), 56 queries .

    回顶部