数学建模社区-数学中国
标题:
有关查重我来说几句(转)
[打印本页]
作者:
淡妆
时间:
2015-9-28 17:35
标题:
有关查重我来说几句(转)
我们老师说,过几天全国组委会将进行一次整体的查重,这个应该会等到所有的赛区结果出来以后才会进行。
大家自己在大雅相似度查询的重复率应该是没用什么用的,更确切的说,是你的重复率低了没什么用,如果很高,那可以直接玩完了,不用看下面的文字了。
大雅相似度应该有一个库内查询的功能,也就是我们所有参赛者的文章进行比较。
我曾经用大雅相似度查了自己的学年论文,相似度1%,然而我自己估测的相似度应该是在70-80%左右,虽然我是自己写的文章,但是框架是用的其他文章里的。
也就是说,大雅相似度查询实际上数据库覆盖不是很广。
但是,如果把我们所有参赛者的文章拿一起来比较就很不一样了,我们很可能是涵盖了所有中文中有关影子猜地点的文章。
如果说你照搬了一段叙述性的文字,大雅原本的库里没有,但是有其他队伍和你们队伍一样照搬了,那相似度就出来了。
据我估计,70%以上的队伍会因为这个事情受到影响。
但是不用担心,根据现在已有的消息判断,组委会重点追查的应该是雷同卷。详细点说——首先,本论文与不同论文之间相似度的累加应该不是大问题(细追究下去可能会有大问题,毕竟这么多奖项已经公布了)。其次,相似度大概达到95%以上,且结构一致的文章才会被拿来开刀。最后,你们关心的代码查重,这个应该来说是不会的,一来代码都在支撑文件里(规则上这次不需要放到附录),全部拿来查重,这可是O(n^2)的复杂度,二来没说代码不能重复,算法什么的不需要原创。
代码只能是论文被查出来之后再去验证一下代码是否一样,罪加一等,不会用它来做线索抓你们的。
最后说一句,MD5码和几乎查重没毛关系,正常情况下,除非内容完完全全一样,才能活动相同的MD5码。我们采用MD5码主要是为了方便8:00之前网络较卡的同学上传上MD5码,hash一下文章,防止8点之后再改。(然而这只是美好的愿望,他们没有想到这么多人挤着交不上,租个专业服务器就好了嘛,非要自己搞)
作者:
fox
时间:
2015-9-29 08:52
恩恩,了解了,明年多多注意啦
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5