论文查重的检测规则

作者:学术盒子时间:2022-06-13 15:19:43

 知网查重的规则是连续出现13个字符类似就判断为重复部分,并将重复的内容计算到论文的重复率之中。论文查重系统会对内容进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。用户将论文上传至查重系统后,系统自动对论文进行检测,待查重完毕后即可提供用户一份查重报告单。

一、查重阈值是多少?「查重阈值 5%」是真的吗? 

查重阈值确实存在,但具体是多少,有很多种说法,0.5%、1%、5%……但即使知道了也没多大意义,所以不必纠结这个。 

比如假设阈值是 1%,知网查重会分段落(按章节或随机分),如果一个段落 10000 字,那么理论上单篇抄袭 100 字不会标红。那么实际操作是这样的,你先假定一个阈值(可能是错的),看每个章节字数(系统可能不按章节分),算出单篇可抄袭字数(最多也就一小段),找多篇文献每篇抄一小段(某些文献可借鉴的很多,而有些文献一段也用不上),最后你得确保除了抄袭的这段,其他内容不会和这些文献重复(有时自己写的也判定重复),以上条件都满足,抄袭而不标红的「阴谋」才能得逞,太累了…… 

当然你每篇抄得越少,被查出来的概率就越低,这是肯定的。  至于「越少」是多少,没人说得清。 

二、那知网到底怎么查重? 

知网采用模糊算法,分段进行查重(识别出章节就按章节分段)。 统计每个段落文字/关键词并与论文库里的文献进行对比,达到一定比率,就把连续重复多的地方标红。 

看到这里,你是不是很蒙,完全不知道怎么对症下药。  你只需要知道的是,系统没有那么智能,不会对比论文表达的意思,它只是一堆很死的代码、算法,按字词的相似比率来判断抄袭,你要做的是尽量改得和别人不同,观点一样没关系,用词、表达方式一定要变。

立即查重

相关问答

热门推荐