学术研究生查重系统的机制原理是什么

作者：学术盒子时间：2023-06-01 09:40:36

论文上传至系统之后，系统会根据上传的文字生成目录，自动检测出论文章节信息，以章节来进行分段检测，每段都会有一个重复率，如果连续出现13个字符类似就判断为重复部分，并将重复内容计算到论文的重复率之中，在查重完毕之后，查重系统会将重复率、引用率、总字数等论文指标都自动标注在论文查重报告单中，这一整个过程就是论文查重的原理。

查重原理 1：句群语义模糊算法

当学术论文查重系统发现你论文中有一句话有抄袭嫌疑，然后系统会自动对这句话的前后进行模糊识别，这个算法是非常严格的，仅仅通过加一些副词也是能够被检测出来，例如「了、着、的、可以」等虚词的修改并不会降低重复率，虽然查重报告左右两边红色部分内容并不完全一致，但是系统会智能判定为语句重复。只有自己重新修改重复内容，或者大量修改重复部分，这时候才不会被检测出重复。

查重原理 2：划分章节分别检测，阈值 5%

整篇论文上传后，系统会自动根据文章生成的目录检测该论文的章节信息，然后系统会将论文分章节检测，可以获得每一单章节的复制比，同时目录显灰色不参与正文检测；否则会自动分段按照 1 万字符左右检测，同时，目录有可能被当成正文检测，重复就会标红。

学术系统将灵敏度的阈值设定在5%，用段落来计算。比如在5000字被检测的大段落里，引用的一片文献内容少于250字，如此便不会被判定为重复。所以，同学们后续论文降重的时候，最好不用重复引用一篇文献，可以应用几篇文献，每篇的内容只选择积聚，那么就能不被检测到。

查重原理 3：疑似部分二次检测

查重系统最厉害的地方就是这个功能，即它会对疑似的部分进行二次检测。以下面这段文字为例：我曾经看过一段文字，它是这么说的：「生而为人，我很抱歉」。我认为这有点悲观。「生而为人，我很抱歉」这句话是很容易被发现重复的，如果第一次被系统判定为疑似重复，那么系统就会加强这句话和相关的讨论作品、影视作品中的文字或者网络文章进行对比，并且前后文也会加强检测。

查重原理 4：自动识别参考文献

学术检测系统会自动识别出参考文献，参考文献不参与正文检测，并且进行剔除，在学术检测报告中参考文献显示灰色字体，说明并没有参与检测。当然这是在参考文献格式完全正确规范的情况下才会自动排除不会标红，否则参考文献会当成正文来进行检测导致参考文献全部标红，结果增高！同样目录也是一样的原理。

查重原理 5：对比库分析

查重系统会将论文全部放入学术论文联合对比库中，如果是硕士论文，会将论文放入硕士联合对比库中，如果是本科论文，会将论文放入本科联合对比库中，之后会将论文内容和对比库中收录的内容进行比较，以此查看是否有抄袭行为。