丛立先：相似度检测的学术、版权与社会意义-学术博客的专栏

丛立先：相似度检测的学术、版权与社会意义

2019-08-21 00:35:03栏目：默认栏目 IP属地：IP未知

作者：丛立先

来源：中国出版

摘要
相似度检测已成为网站、数据库的一项重要商业服务，又是学术、出版机构广为推行的论文审核事项。从其学术意义来看，相似度检测具有一定积极作用，但不能作为衡量学术评价的决定性标准。从其版权意义来看，可能成为发现版权侵权的线索，也可能作为版权侵权的认定证据，但绝不能成为认定侵权的结论性依据。从其社会意义来看，提供服务的数据库制作者应基于公共利益的需要承担必要的社会责任，防止垄断行为并建立合理的版权利用机制。

原文刊登于2019年15期

原题为《相似度检测的学术、版权与社会意义》

相似度检测，是指通过一定方式检测学术论文或专业文章在内容上的重合或相似程度，一般通过软件检测自动完成，可形成包含引用率、复制比、自写率及不正常引用内容标示等信息的检测报告，又被称为文章查重、相似率检测、重合度检测、复制比检测、重复率检测、学术不端检测、学术抄袭检测，等等。相似度检测是随着互联网的兴起而发展起来的现象，互联网内容尤其是论文文章的集聚、数据库的不断发展完善、受众群体的大量需求，是相似度检测产生的三大决定性因素。这三个因素不但为相似度检测提供了可行的基础条件，也为其提供了发展壮大的市场条件。一方面，高校、科研院所、学术期刊出版单位将相似度检测作为论文审核的必备事项，有的论文即因相似度过高而被否定，而有的创作者为求顺利达标则提前自行购买相似度检测服务。另一方面，开展相似度检测的网站、数据库等公司主动迎合上述单位和个人的相似度检测需求，将相似度检测当成高盈利的生意来做。实际上，相似度检测的大行其道，在带来积极效果的同时，亦引发了很多问题，非常值得我们从其学术意义、版权意义和社会意义三个角度加以审视。

相似度检测的学术意义

时下，我国高校基本上都对本校的毕业论文提出了论文相似度检测的要求，有的高校规定为不超过30%，有的高校规定为不超过20%，还有的高校规定为不超过15%，个别高校甚至规定为10%以下。与此相似，学术期刊出版单位通常也有论文相似度检测的要求，要求的标准也是不一而足。应该说，从学术意义的角度看，相似度检测具有相当的积极性，有助于创作者学术素养、能力和水平的提升，有助于学位论文、期刊论文等研究成果的质量提升，有助于学术成果信息环境的创建和改善。但同时，相似度检测的消极意义亦不容忽视，主要体现为检测系统不可避免的技术缺陷会降低学术成果信息、学术素养的控制效果，检测结果过于依赖复制比的不合理应用降低学术成果信息质量的管控力度，检测机构的管理不到位和检测监管不严加深检测系统缺陷及检测结果不当使用的负面影响。[1]并且，在实践过程中，部分学术和出版机构对于相似度检测的理解陷入了误区，过于依赖相似度检测，甚至认为检测出来的相似度越低，论文质量越高，将检测结果报告中标明的相似内容或重合内容径行认定为学术失范、学术不端或抄袭。

学术失范、学术不端、抄袭之间的关系

实际上，学术失范和学术不端的概念界定、包含的具体行为都非常宽泛，而抄袭则是一种确定的学术概念或法律概念，是一种具体的行为类型。有学者认为：从语义上分析，学术不端重于学术失范，学术失范主要指学者违背学术规范所犯下的技术性过失，学术不端主要指学者涉及抄袭、剽窃的不良行为，也指学者恶意的一稿多投行为。[2]简而言之，学术失范是应予纠正的不规范行为，学术不端是需要预防和惩治的错误或违法行为，一般体现为伪造、篡改、抄袭等各种行为。而抄袭则是学术不端当中的一种性质较为严重并须承担学术和版权责任的具体行为类型，抄袭认定问题将在下文相似度检测的版权意义中详述。

关于学术不端与抄袭的关系，可以从教育部《高等学校预防与处理学术不端行为办法》第二十七条所列举规定的学术不端的具体类型看出端倪：“下列行为之一应当认定为构成学术不端行为：（一）剽窃、抄袭、侵占他人学术成果；（二）篡改他人研究成果；（三）伪造科研数据、资料、文献、注释，或者捏造事实、编造虚假研究成果；（四）未参加研究或创作而在研究成果、学术论文上署名，未经他人许可而不当使用他人署名，虚构合作者共同署名，或者多人共同完成研究而在成果中未注明他人工作、贡献；（五）在申报课题、成果、奖励和职务评审评定、申请学位等过程中提供虚假学术信息；（六）买卖论文、由他人代写或者为他人代写论文；（七）其他根据高等学校或者有关学术组织、相关科研管理机构制定的规则，属于学术不端的行为。”而中国科学院《关于加强科研行为规范建设的意见》将科学不端行为概括为6项行为：编造数据或虚假陈述等学术科研造假、抄袭或侵害他人著作权、一稿多投或改头换面发表、骗取经费或隐瞒滥用科研信息资源等违反社会道德、非法利用他人学术研究信息、故意干扰或妨碍他人的研究活动。

相似度检测对于学术评价的实际意义

由上可知，学术失范、学术不端和抄袭各有不同的界定和指向，可能都和相似度检测有关系，但都不能简单地以相似度检测作为界定和衡量的唯一标准或决定性标准。我们并不能否定相似度检测在学术失范、学术不端和抄袭认定当中的实际作用，一些低级抄袭、明显的学术失范和学术不端行为，相似度检测不但能发挥及时发现的作用，也能作为认定的事实依据。但是，一些相对复杂的学术失范和学术不端行为，例如改头换面式的高级抄袭，或者一些与前期成果有着共同话题和关键词的创新成果，相似度检测往往无法做出准确的检测，甚至出现检测结果的误判。相似度检测的工作原理其实就是将被检测作品与基础数据库进行内容复制比对和分析，基础数据库的数据资料翔实与否，比对和分析的方法科学与否，是制约相似度检测科学性的两大核心要素。我们可以以中国知网生成的文本复制检测报告的参数指标来具体分析基础数据库与比对分析方法。从基础数据库来看，相似度检测的数据来源一般可能收纳学术期刊论文或期刊文章网络版数据库、博士硕士等学位论文全文数据库、会议论文全文数据库、报纸全文数据库、专利文书全文数据库、外文文献全文数据库、互联网文档资源、图书资源等。但是，囿于授权渠道和版权问题等因素所限，外文资料、图书资源不能有效保证大数量的纳入，互联网文档资料的可靠性也无法保证，因此基础数据库的完备程度尚需客观理性评价。从比对和分析的方法来看，通过软件的程序和算法，将被检测作品与基础数据库内容进行比对和分析后，得出总文字复制比（被检测文章总重合字数在总字数中所占的比例）、去除引用文献复制比（去除系统识别为引用的文献后，计算出来的重合字数在总字数中所占的比例）、去除本人已发表文献复制比（去除作者本人已发表文献后，计算出来的重合字数在总字数中所占的比例）等指标。上述指标一般是由各检测机构的软件系统根据自身设定的不端行为界定标准自动生成，存在的问题是软件系统往往很难将处于公有领域的内容有效排除，对于关键词和基本表述相同、但思想的表达又有实质区别的内容会误判为复制，关于复制比的设置不合理，没有分门别类针对不同的文章类型进行特定化比对和分析，比如小说类虚拟作品和说明书式的文字作品的比对和分析方法应该是完全不同的。所以，我们不但要对相似度检测的学术意义加以客观对待，相似度检测机构还应结合上述问题和缺陷不断改进和完善软件系统。总的来看，我们在选择论文相似度检测工具的比对数据类型时，可以遵循“全面建设、重点保障”的原则。一方面，不断丰富比对数据类型，全方位预防学术不端行为；另一方面，重点收录引用或非典型性引用甚至可能的抄袭出现频率较高的文献类型，对其进行重点防治。[3]

相似度检测的版权意义

相似度检测结果对于学术评价具有一定作用，但由于其并没有形成确定性的评价标准，因此，对于学术评价真正起作用的相似度检测结果，还要与版权责任的认定联系起来。从版权责任的角度看，相似度检测虽然会标识出来具体重合或相似的内容，但并不能按照版权法的需要科学性地甄别有版权保护和无版权保护的内容，通常只是简单地以内容重合或相似的数量来计算出重合率或相似率，这在版权责任的认定上有着明显缺陷或瑕疵。

相似度检测对于版权责任认定的不足

由于相似度检测系统设计的局限性，很多情况会造成误判，将公共领域的知识和信息作为版权保护的私权禁止他人利用，动辄冠以复制、抄袭之名。并且，由于没有细分科技期刊的学科门类，导致不同学科之间用一种尺度来衡量时出现误判以致得出比较荒谬的结论。另外，作者通过比对系统替换同义词、近义词、改变句式结构等手法规避雷同，检测系统却无能为力。[4]实际上，在目前的技术水平和基础条件下，软件系统自动完成的相似度检测结果可能会成为发现版权侵权的线索，也可能会作为版权侵权的认定证据被使用，但绝不能成为认定侵权的结论性依据。一些相似度检测机构出具的检测报告上关于疑似抄袭或剽窃的指标只能作为版权责任认定的参考因素而不能作为版权责任认定的事实和法律依据。另外，在对待相似度检测的重合率或相似率时，还要把握好重合或相似内容的剽窃认定与合理借鉴再创作的关系，重合率或相似率高并不一定是剽窃，亦有可能是合理借鉴之下的再创作。究竟是构成剽窃的版权侵权还是学术不端或学术失范，认定程序和责任后果均应由司法机构、行政机构或其他有职权的专业机构基于专业人工分析比对作出判断，这里所说的其他有职权的专业机构一般指被指控对象的任职单位、学位颁发单位组织成立的学术评价机构。

相似度检测用于版权责任认定的实践

在版权法意义上，相似度检测可能关联的版权侵权责任一般包括抄袭和剽窃的版权责任、非法改编的版权责任。关于抄袭和剽窃，中文语义下前者侧重于形式的窃取，而后者侧重于思想的窃取。西方语义下抄袭和剽窃都表达为“plagiarism”，此概念主要来源于拉丁语“plagiare”，意思是“诱拐”。[5]我国《著作权法》最初将两个名词均写入立法中，后来在实践中认为抄袭和剽窃的著作权法含义应该是相同的，对此国家版权局在1999 年发布的《关于如何认定抄袭行为的答复》中作了规定：“著作权法所称抄袭、剽窃是同一概念，指将他人作品或者作品的片段窃为己有发表。从抄袭的形式看，有原封不动或者基本原封不动地复制他人作品的行为，也有经改头换面后将他人受著作权保护的独创成分窃为己有的行为，前者在著作权执法领域被称为低级抄袭，后者被称为高级抄袭。” 相较于低级抄袭，高级抄袭的认定要更为复杂。但无论如何，相似度检测结果的复制比和重合字数对于版权法上的剽窃侵权认定来说并不是决定性的。剽窃的认定，是具有认定职权的机构以内容重合或构成实质性相似来进行认定。判断两个作品是否构成实质性相似，司法实践中一般以“抽象过滤分析”结合“综合比对”来进行专业判断，这方面的司法实践案例及经验分析很多，对此不予赘述。并且，版权法上所指的内容重合或实质性相似是指两个作者的两个作品的情况。由此，即便是相似度检测出来的复制比为100%的情况，也就是一篇文章与另一篇文章内容完全重复，也不能径行认定为剽窃。从版权责任的角度看，这种情况下也有极端的例外情况不需要承担版权责任，那就是版权法规制的只是剽窃他人作品的行为，而抄袭自己的行为并不在版权法规制的范围内，即通常所说的“抄自己不算抄”。当然，这种现象因不是版权法的规制对象从而没有版权责任，并不代表其没有不利后果，其作为学术不端情况中的一种，需要承担学术不端的惩戒后果。关于非法改编的版权责任，是指未经原作品权利人的许可而改变原作品并创作出具有独创性的新作品从而引起的版权责任，非法改编的情况下只承担民事责任，而且只承担著作财产权的侵权责任，一般不承担赔礼道歉等著作人身权的侵权责任。这与剽窃的版权责任有所不同，剽窃的版权责任是一般情况下需要承担停止侵权、消除影响、赔礼道歉、赔偿损失的全面弥补人身权和财产权损害的民事责任，在抄袭的同时并大量复制、发行、信息网络传播等特殊情况下，还可能会引起行政责任和刑事责任。

相似度检测的社会意义

本文所说的相似度检测的社会意义，是指提供相似度检测服务的数据库制作者（数据库权利持有者）基于公共利益的需要应该承担必要的社会责任。相似度检测服务的立身之本是数据库，对于数据库的权益保护，一般有版权保护、反不正当竞争法保护及特殊权利保护三种方式。我国和世界上提供数据库权益保护的多数国家，都采取了前两种保护方式，欧盟及其成员国则提供了上述三种方式的保护，即欧盟通过《数据保护指令》为数据库设定了一种特殊权利加以保护。

相似度检测的社会公共服务属性

相似度检测服务不只是一种商业服务，更是一种社会公共服务。用于相似度检测的数据库，不只是一种具有私权利益的数据库，更是一种公共知识资源数据库。此种社会公共服务属性很强的公共资源数据库，其形成往往借助于公共机构的助力，其产品具有较强的社会公共属性，其服务对象具有社会广泛性，其价值也包含了较强的社会价值。因此，对于相似度检测及其基础数据库，我们并不能等同于一般的数据资源服务，给予过度的私权利保护。过度的权利保护可能带来权利滥用。数据库制作者滥用权利的垄断行为可被归为两种类型：订立“独家授权协议”的限制竞争性协议和滥用市场支配地位。订立“独家授权协议”是将数据库中收录的作品通过版权协议形式进行独占利用，以达到排除市场竞争的目的。滥用市场支配地位主要包括：不正当的确定、改变或维持价格；附加不合理交易条件；不正当地干涉其使用者的正常经营活动；在相同的交易情形下，不公正地对交易当事人给予不同的交易条件。[6]在线学术资源的商业垄断，本质上是出版商利用网络平台垄断性经营科学知识产品，而论文发表过程中版权的转移则是形成这种垄断的重要条件。[7]

相似度检测数据库的垄断行为规制

研究表明，数据库商（即上文所述数据库制作者、数据库权利持有者）通过期刊收录锁定了作者和期刊出版者。数据库商通过数据库购买锁定了科研机构和公共图书馆。数据库商通过学术不端检测锁定了期刊出版者，尤其是权威性较低的或新办的期刊。这一结论说明期刊数据库发展仅依靠市场机制不但不能消除垄断，反而还会加强其垄断地位。要治理数据库商的垄断行为，政府产业政策的干预是必要的: 要抑制期刊的“独家授权”；要鼓励高校的自办期刊转向开放获取，推进第三方平台整合资源；由政府出资建立专题期刊公共数据库，降低商业数据库的期刊版权拥有量。[8]这其中，构建科学合理、良性健康的版权利用机制是核心和关键。

用于相似度检测的基础数据库的构建及其后续版权资源的获取应该按照版权法要求的授权许可模式来进行。期刊文章、期刊论文、学位论文、会议论文、报纸文章、受保护的文书、外文文献、受保护的互联网文档、图书、内部资料等版权资源的有效获取，不但是前期数据库构建的保证，也是后期数据库建设的保障。我国部分知识资源数据库在前期构建时，并没有完全按照版权授权的规范模式进行操作，这种版权原罪因历史和客观因素一定程度上可以被谅解，但不能再成为今后进一步发展的版权罪孽。

数据库利用中版权商业利益与社会利益的兼顾非常重要。即便是普通的出版者，一以贯之的一项重要原则就是经济效益和社会效益的兼顾，更何况社会服务属性很强的知识资源数据库制作者。具体说来，数据库制作者除了基于版权保护、反不正当竞争法保护享有权益，不应从事反垄断法上禁止的通过独家授权协议方式限制竞争、滥用市场支配地位行为，以保证社会公众作为数据库使用者的权益。并且，数据库制作者不得侵犯数据库中作品权利人的权利，保证数据库中的作品著作权人获得充分、及时、有效的版权利益。也就是说，数据库制作者不但要建立构建数据库取得作品版权授权的渠道和链条，还应建立数据库产生收益后的版权利益分配渠道和链条。这其中，各种作品的出版者和收集者扮演着十分重要的角色。作品的出版者和收集者应将自身权益与作者紧密捆绑从而完成价值实现，而不是为了小利益而通过稿件采纳格式条款迫使作者一定程度放弃版权权利从而为数据库收录创造不对等的便利。而且从长远看，要鼓励知识资源数据库的市场化竞争发展，鼓励学术知识资源数据库的开放获取和利用，从根本上消除少数数据库制作者垄断网络学术知识资源服务的不利局面，消除知识传播阻碍，营造开放进步的知识资源版权利用环境。

结语

互联网技术快速发展带动的数字化作品的聚合、数据库的不断完善、算法软件的不断进步，为相似度检测提供了现实基础。社会对于原创知识成果检验的需求，为相似度检测提供了蓬勃发展的市场条件。应运而生的相似度检测由此成为了一种较为热门的社会服务。现阶段的相似度检测，囿于基础数据库内容资源的有限性、比对与分析方法的局限性，其检测结果并不能作为学术评价的决定性标准，更不能作为版权责任认定的结论性依据。当然，相似度检测并非毫无意义，其可以作为学术评价的参考，可以作为发现版权侵权的线索，可以作为版权责任认定的证据。

说到底，相似度检测仍然是人类的工具和可控的机器，检测结果是否具有实际意义的最终决定权仍要由“人本”来决定。人类的科学利用和规范使用，会使得相似度检测服务发挥积极意义和实际作用，而盲目夸大其作用并过度依赖其自动生成的检测结果，则会带来适得其反的不利后果。所以，我们不但要警惕相似度检测的学术评价能力，还要清醒认识相似度检测的版权责任意义，并要从公共利益的角度深刻理解相似度检测数据库的社会服务。版权作为知识产权的一种重要类型，同样有着公共利益属性，版权资源利用不当的话，亦有可能产生权利滥用的现象。相似度检测数据库作为知识资源数据库，除了实现商业利益的目的，还应该承担必要的社会公共服务职能，因此，应从制度和规则上促使相似度检测服务健全良性版权利用机制，避免形成危害社会公共利益的垄断现象。

注释

[1]叶磊，娄策群.论文检测对学术成果信息生态系统健康的影响及优化策略[J].现代情报，2017(6)
[2]曹树基.学术不端行为：概念及惩治[J].社会科学论坛，2005(3)
[3]蒋勇青，刘芳，于洋.学术文献相似性检测比对资源应用分析与建设策略探究[J].数字图书馆论坛，2017(12)
[4]陈燕，丁岚.学术不端检测系统缺陷分析[J].中国出版，2014(8)
[5]Shukla A， Maurya SK. Plagiarism Detection and Avoidance Consequences in Academic World[J].J Adv Res Lib Inform Sci 2017，4(4)
[6]冯伟.数据库特殊权利滥用的反垄断法规制[J].电子知识产权，2003(6)
[7]丁大尉.场域理论视角下数字知识资源的垄断与反垄断[J].自然辩证法研究，2019(1)
[8]雷兵，钟镇.社会福利视角下中文期刊数据库定价机制分析与策略建议[J].中国科技期刊研究，2018(10)

作者简介

丛立先

华东政法大学知识产权学院教授，博士生导师，副院长。武汉大学法学博士，中南财经政法大学法学博士后，美国华盛顿大学法学院访问学者。曾任北京外国语大学法学院教授，博士生导师，书记兼执行院长，校学术委员会委员，校学位委员会委员。兼任中国国际经济贸易仲裁委员会仲裁员，中国知识产权法学研究会常务理事，中国国际私法学研究会常务理事，中国科学技术法学研究会常务理事。入选教育部新世纪优秀人才支持计划、上海青年法学法律人才库，被评为全国知识产权领军人才、国家知识产权专家库专家。主要研究领域为知识产权法、出版传媒法制、互联网法制，出版专著3部，发表论文100余篇，主持完成国家社科基金等20余项科研项目，获得哲学社会科学奖等20余项科研奖励。