職稱論文檢測報告的技術修正

才智咖人氣：9.72K

2011年浙江省率先在職稱評定方面新增了參評文章的學術不端檢測要求，並規定一般由該市較權威的高校圖書館負責第三方檢測。[1]檢測系統為以北大方正開發的cnki學術不端檢測系統，擁有幾個埠，分類依據為文章型別：學位論文抄襲檢測系統、科技期刊抄襲檢測系統、社科期刊抄襲檢測系統、大學生論文抄襲檢測系統等。[2]現在檢測系統還專門開發了一個全新的埠———“已發論文檢測”，目前是收費埠，只有被cnki稽核通過的機構才有權進行已發論文檢測，用這個通行證嚴控職稱論文檢測者的檢測權，以保證檢測的公平合理性。從上面的介紹可以看出來，學術不端檢測系統既可以按照學科進行分類，也可以按照論文是否發表分為已發論文檢測系統和未發論文檢測系統。

一、職稱論文檢測系統的檢測原理

將待評審的職稱論文進行學術不端檢測是cnki學術不端檢測系統的一大新應用，其檢測原理是和未發論文檢測系統的原理相同，只是檢測手段稍有不同。

(一)檢測原理———“文字比對”20世紀90年代後，隨著網際網路技術的發展，資訊內容迅速增多，複製貼上變得越來越容易與普遍。文字複製(抄襲)是學術不端文獻的重要特徵。隨著內容管理與版權保護的需要，文字複製的檢測研究也得到進一步發展，陸續提出數字指紋、VSM等檢測方法。[3]筆者通過對檢測原理的深入研究發現，目前國內外的學術不端檢測系統都是以“文字比對”———提供文字複製比率為基本原理，也就是說出現了初級的文字複製型別的抄襲，系統可以輕易地識別。以這種“文字比對”為識別基礎的學術不端檢測系統採用的是“外形”對比以及針對文字、字母與數字的排列組合進行形式上的比對，如果被比對的兩段文字的句式、用詞、排列順序相同，就可以被檢測出來。但如果是意義抄襲就比較隱蔽，系統基本無法檢測出來。

(二)檢測手段的改進將一篇待檢測的職稱論文放在未發論文檢測系統中會發現全篇皆紅，系統會提示這篇論文和該作者的已發表的論文重複率為100%，也就是說未發論文檢測系統是沒有辦法對已經發表的論文進行檢測的，主要是因為該系統缺少一個時間模組判定功能，即自動刪除該文章發表時間以及以後的“相似”論文。基於此，已發論文檢測系統特別設定了論文發表時間功能，並要求委託人提供論文的發表時間。據此時間，去除了發表時間在所測論文發表時間之後(含發表時間在同一天)的“相似”論文，最終獲得由系統自動生成的“文字複製比”結論。這個結論雖然不包含所測論文發表時間之後(含發表時間在同一天)的抄襲結果判定報告，但是對該文章發表之前，它是否存在抄襲的現象是可以檢測的，這部分的功能和未發論文檢測系統是一致的，所以我們可以適當借用未發論文檢測系統部分適用的研究成果來探討對檢測結果的判斷。

二、抄襲判斷的量化指標

由上面的分析可知，檢測方只負責提供第三方檢測報告，真正使用報告的是各校的負責職稱評定的人事部門，到目前為止，筆者尚未見到各人事部門有關於對檢測系統結果統一、公開的量化標準。因此我們可以借用較為通行的未發論文的量的檢測標準，這個畢竟是通過大量的檢測最終被實踐證明的較為合理的標準。通常情況下，對於待發論文檢測來說，各期刊社和圖書出版社根據自己的具體情況有不同的規定。有的編輯部認為，論文中超過10%的重複率即視為抄襲，而有的編輯部規定“雷同比例達20%為抄襲”，還有的放寬到了30%，對有爭議的結果大部分都採取個別處理的方式，沒有制定出可以適用的行業標準，基本上各編輯部根據投稿論文的平均水平制定適合本部門的比例。對於學位論文檢測來說，高校將這個重合比的限度定為25%-30%。若檢測發現超過這個比率，論文就會被提交至該校學術委員會來判定是否存在抄襲行為。[4]例如中南大學為了保證檢測結果的公正性，會將檢測結果公示，對有異議的結果和超出規定值的論文檢測結果，組成相應學科的專家評議組，對檢測系統所得出結果做進一步的分析和審議。[5]總體來說，使用機構對檢測結果判定方面較為通行的.數字方面的標準為，“一篇論文與資料庫的文字重合率大於或等於10%，屬於句子抄襲;30%到50%之間屬於段落抄襲;50%以上則被判斷為整體抄襲。”[6]綜上所述，這個可以借用的標準看似操作簡單方便，標準明確，但實際還有一些值得探討的部分，如果不具體問題辯證分析，只是以最終檢測資料為唯一判斷文章是否抄襲的標準，恐怕是有失公允，特別對像職稱評定這樣對人生有重大意義的事情，還需慎重，當然人事部門還有一個專家評議環節，但是對部分可能面臨在前面關卡就被槍斃的稿件存在一定的不公平。在筆者長期的檢測工作中，發現即便檢測者並不瞭解一篇檢測文章是否抄襲，用筆者總結出來的一些經驗仍然可以對結果進行科學修正，但首要條件是搞清楚影響已發論文檢測結果存在哪些因素。

三、影響職稱論文檢測結果的因素

(一)提供的待檢測文件的型別及出處Cnki期刊學術不端文獻檢測系統目前以“中國學術期刊網路出版總庫”為全文比對資料庫，當前，可對DOC、 TXT、CAJ、KDH、NH、PDF等多種格式的檔案進行比對，從詞、句子到段落等方面，可檢測抄襲、偽造、一稿多投、篡改、不正當署名、一個成果多篇發表等多種學術不端行為。[6]同時，職稱評審檔案中規定：優先從圖書館“中國知網CNKI資料庫”中下載CAJ或PDF格式電子版論文(專著、譯著、教材及外文刊物上發表的論文除外)。如未在該資料庫中檢索到提交論文，可以從圖書館其他資料庫中繼續查詢並下載PDF格式電子版論文，如仍然沒有，方可提供 WORD文件。提交論文原件和完整論文的電子版(須PDF格式，著作、教材除外)。[7]經過筆者的瞭解，在實際操作中，也是按照這個檔案的規定做的，待檢測文獻的電子文件，並沒有一定要求使用PDF格式，只要提供的電子文件能夠正常地從中複製出文字來，PDF、DOC、CAJ(及其系列文件型別)、 RTF及DOCX都可以。首先是從cnki學術網路中下載，可是受技術水平的限制，很多早期的文章是以PDF照片———圖片的形式存在的，不能複製文字，還有部分編輯部提供的原稿採用了密碼或版權保護也不能複製，另外一種情況是由於編輯部新發論文上網需要一定週期，新發論文也沒有原始文件，只能向送檢人索要編輯部的修改文件，當然，非cnki下載所得的文件，所有的文件型別要在檢測彙總表中予以說明。由以上的複雜情況來看，不同型別、不同情況下提供的電子文件，在檢測中會出現檢測比例的不同。如一位研究者反映，他在《航空學報》個人比對庫中的一篇文章(格式，為作者提交的錄用定稿)已經在中國期刊網上釋出(具體採用的比對檔案格式未知)，新提交的一篇稿件被檢測出與這2篇文章有文字重合的問題，但檢測結果中該稿與個人對比庫中的稿件間的文字複製比為46%，而與同一篇文章在中國期刊網中的版本的文字複製比為26%，不同的格式竟然造成檢測結果間20個百分點的差別。[8]可見不同的文件形式會對檢測結果產生較大的影響，這種現象需被重視。

TAGS：檢測技術職稱論文報告