编码中心
欢迎来稿
当前位置首页 > 科技新闻 > 正文

一场技术的博弈:查重系统vs过关“妙招”

2018-04-04 08:37 来源:科技日报

  视觉中国

实习记者 翟冬冬

  又是一年毕业季,“论文月”也随之到来。经过开题、中期检查之后,为了遏制论文造假,不少高校会借助文献检测系统来判断论文是否涉嫌抄袭。

  为了帮助毕业生顺利“过关”,一些声称可降低重复率的“锦囊妙计”也在网上流传。日前,微信公众号“毕业有道”推出《了解知网查重原理,论文重复率3%以下也很容易》一文,其中介绍了变化措辞、翻译替代、图片变换等“降重”方法。

  那么,这些“偏方”真的管用吗?

  “偏方”会被系统迭代掉

  随着计算机技术与互联网技术的发展,越来越多的文献信息被数字化。这些电子资料为工作、学习带来巨大便利的同时,也为抄袭、剽窃等行为提供了“方便”。

  当前,论文相似性检测系统是反剽窃最有效的技术手段之一。国内的论文检测系统众多,其中中国知网(以下简称“知网”)的学术不端文献检测系统、北京万方数据股份有限公司(以下简称“万方”)的论文相似性检测系统和重庆维普资讯有限公司(以下简称“维普”)的论文检测系统是市场占有率较高的三大检测系统。

  谈及这些系统的检测原理,中国科学技术信息研究所副研究员张英杰告诉科技日报记者,虽然各家的检测系统在细节设计上有所不同,但均基于相同的技术原理。它们都是将论文进行分解,而后对比资源库,并利用相关算法进行匹配度检测。

  “匹配度检测也可称为文本片段比对,简单来说就是检测论文内容是不是与资源库中的内容重复。”武汉大学信息管理学院副教授胡吉明说,论文上传系统后,系统一般会根据文章目录把文章“切”成几大段,之后再将大段“切”成小段,将其与资源库中的文本内容进行比对。如果这一小段内容和数据库中的某个文本重复,那这部分内容就会被判定为涉嫌抄袭。

  维普相关工作人员告诉科技日报记者,各家检测系统在设计上都尽可能仿照人的阅读方式,实现以机器代替人工,以求提升检测的精准度。

  针对网上流传的“偏方”,多名业内人士向科技日报记者表示,系统设计的初衷是贴近人的阅读方式,以这个目标为设计出发点,随着系统升级,“偏方”自然会被迭代掉。据维普相关工作人员介绍,在算法上他们采用了多重防护机制,从而杜绝用“偏方”蒙混过关的情况出现;同时他们提供了“格式分析报告”,详细列出了送检文档中“图片”“空格”的数量,可供指导教师进行人工审查。

  算法差异致反馈结果不同

  当前,针对不同学历阶段,高校对毕业生论文的重复率要求也不同。本科生毕业论文的重复率一般要求在30%或20%以下,硕士毕业论文则提至15%,博士研究生则规定要在10%甚至5%以下才算合格。现阶段论文检测一般由学校或学院组织,专业机构提供论文检测服务,相关检测数据或结果将会在系统前端呈现给学校。目前知网尚未开通个人检测服务,而万方、维普已开设个人检测窗口。

  在送审前,不少应届生都会进行“自检”,依照学校对重复率的要求做进一步修改。在“自检”时不少学生会困惑,为何在两家机构检测出来的相似度一个是15%,一个是20%?

  维普相关工作人员向科技日报记者介绍,由于各家运用了不同的算法模型、基于不同的开发平台,因而造成相似度数值的差异。

  各家的差别有多大呢?他打了个比方,如同苹果iOS系统和安卓系统一样,它们是按照不同思路设计出来的,各家的算法没法做同类对比。目前这方面没有相应的国家标准,各家根据自身的产品设计思路和原理模型提出了检测方法,于是就有了一定的差异。

  目前,市场上存在多种检测技术,如基于字符串比较的方法和基于词频统计的方法等。“各家公司在技术上差距不大。”万方相关人员向科技日报记者介绍,不同算法可理解为不同的重复率判断方式。比如说,一篇文章中的某段话算不算抄袭,可能A算法认为80%的一致率是抄袭,B算法则规定70%的一致率是抄袭。“当然每种算法都有很复杂的计算模型,并没有例子中说的这么简单。”万方相关工作人员说。

  “资源库也很重要。”张英杰表示,作为一个论文相似性检测系统,其资源库收录资源类型是否齐全、学科是否齐全、年限是否足够长、资源数量是否足够大等因素,都会对检测结果产生影响。从学科上来看,三家检测机构都已做到全学科收录;从收录文章的种类和数量来看,知网更具优势,万方在一些学科如医学领域有独家收录的文章,维普则在中文期刊数据库建设方面起步较早。

  抄袭判定标准有待更新

  对于抄袭的定义,随着检测技术的发展也在改变。

  南京大学信息管理学院教授苏新宁介绍,现在的抄袭可分为两种,一种是文字的抄袭,另一种是内容的抄袭。在论文检测技术发展的早期,一些作者会通过变换他人文章中词语的方式躲避检测,“这在早期的软件中不容易被查出来。”苏新宁说,但随着内容检测技术的发展,这种做法已经不灵了。

  现在的内容检测并不是对文章进行逐字逐句的检测,而是用文章中出现的关键词和资源库中文章的词语作对比。如果这个词和资源库某篇文章的词大量相同,虽然顺序不同,但在检测系统中还是会被认定为相似。苏新宁举例说,如“我评价了这个问题”和“我对这个问题进行了评价”这两句话,如果后面的内容也都是这样颠倒语句,同样会被认定为是相似。也就是说,现在的检测系统除了对文章语法层面的词汇、句法结构进行分析,也会在一定程度上进行语义层面的检测。

  说到相似和抄袭的不同,苏新宁坦言,现在的检测系统确实还存在一些局限。比如,对于一些公理性质的文字,系统也会判定为重复。如“一带一路”这类词如果在文章中多次出现,是否该被判定为抄袭,这值得商榷。

  谈及对外文文献的比对检测,多位专家认为,我国目前在外文检测技术方面还比较薄弱。苏新宁介绍,一方面是因为外文文献数量大、种类多,相关资源库的建设工作尚处起步阶段。另一方面,中文和外文在语法和语义方面都存在较大差异,如何判定为抄袭也是个问题。但现在多数的期刊评审专家,一般都阅读过大量自己领域内的外文文献,对于送审论文是否抄袭了外文文献,会有自己的判断。

(责任编辑:王蔚)

热点推荐

SpaceX今年第7次发射  共向国际空间站运2.63吨物资

SpaceX今年第7次发射 共向国际空间站运2.63吨物资

据国外媒体报道,美国当地时间4月2日,SpaceX已成...

携手世界 为破解人类科学难题贡献中国智慧

携手世界 为破解人类科学难题贡献中国智慧

在蔚蓝的大海中,国际大洋钻探计划正在钻探地球的...

苹果允许用户彻底删除ID 重隐私者得天下

苹果允许用户彻底删除ID 重隐私者得天下

北京时间3月30日,据彭博社报道,苹果公司表示将在...

eSIM时代,运营商的末日还是新生

eSIM时代,运营商的末日还是新生

自近日中国联通宣布在国内首发Apple Watch Series ...

首枚会变色的“心脏芯片”问世

首枚会变色的“心脏芯片”问世

东南大学生物医学工程学院生物电子学国家重点实验...

“科学”号调查麦哲伦海山

“科学”号调查麦哲伦海山

海山是世界海洋生物多样性研究的热点地区。在国家...

别了,“天宫” 你是永远的“一号”

别了,“天宫” 你是永远的“一号”

2011年9月29日,你乘坐长征二号F运载火箭离我们而...