学术查重多少个字符算重复

作者：学术盒子时间：2021-07-22 13:45:38

13个字符，学术查重是按照连续出现13个字符类似就会判为重复的标准计算论文重复率。如果学生抄袭了他人论文中的句子或者段落，学术查重系统在对其进行查重时，就会识别出重复部分，并计算到论文的总重复率之中。因此建议学生在写作论文时不可出现抄袭等学术不端行为，防止因为出现过多重复部分从而使论文总重复率上升很多。

一、查重阈值是多少？「查重阈值 5%」是真的吗？

查重阈值确实存在，但具体是多少，有很多种说法，0.5%、1%、5%……但即使知道了也没多大意义，所以不必纠结这个。

比如假设阈值是 1%，学术查重会分段落（按章节或随机分），如果一个段落 10000 字，那么理论上单篇抄袭 100 字不会标红。那么实际操作是这样的，你先假定一个阈值（可能是错的），看每个章节字数（系统可能不按章节分），算出单篇可抄袭字数（最多也就一小段），找多篇文献每篇抄一小段（某些文献可借鉴的很多，而有些文献一段也用不上），最后你得确保除了抄袭的这段，其他内容不会和这些文献重复（有时自己写的也判定重复），以上条件都满足，抄袭而不标红的「阴谋」才能得逞，太累了……

当然你每篇抄得越少，被查出来的概率就越低，这是肯定的。至于「越少」是多少，没人说得清。

二、那学术到底怎么查重？

学术采用模糊算法，分段进行查重（识别出章节就按章节分段）。统计每个段落文字/关键词并与论文库里的文献进行对比，达到一定比率，就把连续重复多的地方标红。

看到这里，你是不是很蒙，完全不知道怎么对症下药。你只需要知道的是，系统没有那么智能，不会对比论文表达的意思，它只是一堆很死的代码、算法，按字词的相似比率来判断抄袭，你要做的是尽量改得和别人不同，观点一样没关系，用词、表达方式一定要变。