学术大专查重中的基本原理和规则部分是什么呢

作者：学术盒子时间：2023-05-18 10:29:35

学术查重首先会对论文内容进行分段检测，获得每一章节的复制比，其次由于查重系统设置了5%阀值，如果对应章节复制比大于5%，就会按照连续出现13个字符类似判断为重复部分的规则，将重复内容计算到论文的重复率之中，如果低于5%，则不会对其计算重复率，最后待查重完毕后，系统会自动计算总重复率、引用率、总字数等查重指标，并自动标注在论文查重报告单中。

查重原理 1：句群语义模糊算法

当学术论文查重系统发现你论文中有一句话有抄袭嫌疑，然后系统会自动对这句话的前后进行模糊识别，这个算法是非常严格的，仅仅通过加一些副词也是能够被检测出来，例如「了、着、的、可以」等虚词的修改并不会降低重复率，虽然查重报告左右两边红色部分内容并不完全一致，但是系统会智能判定为语句重复。只有自己重新修改重复内容，或者大量修改重复部分，这时候才不会被检测出重复。

查重原理 2：划分章节分别检测，阈值 5%

整篇论文上传后，系统会自动根据文章生成的目录检测该论文的章节信息，然后系统会将论文分章节检测，可以获得每一单章节的复制比，同时目录显灰色不参与正文检测；否则会自动分段按照 1 万字符左右检测，同时，目录有可能被当成正文检测，重复就会标红。

学术系统将灵敏度的阈值设定在5%，用段落来计算。比如在5000字被检测的大段落里，引用的一片文献内容少于250字，如此便不会被判定为重复。所以，同学们后续论文降重的时候，最好不用重复引用一篇文献，可以应用几篇文献，每篇的内容只选择积聚，那么就能不被检测到。

查重原理 3：疑似部分二次检测

查重系统最厉害的地方就是这个功能，即它会对疑似的部分进行二次检测。以下面这段文字为例：我曾经看过一段文字，它是这么说的：「生而为人，我很抱歉」。我认为这有点悲观。「生而为人，我很抱歉」这句话是很容易被发现重复的，如果第一次被系统判定为疑似重复，那么系统就会加强这句话和相关的讨论作品、影视作品中的文字或者网络文章进行对比，并且前后文也会加强检测。