TWI444838B

TWI444838B - 中文數位反抄襲偵測比對系統與方法

Info

Publication number: TWI444838B
Application number: TW100136908A
Authority: TW
Inventors: Chun Ching Yang
Original assignee: Chun Ching Yang
Priority date: 2011-10-12
Filing date: 2011-10-12
Publication date: 2014-07-11
Also published as: TW201316186A; CN103049467A

Description

中文數位反抄襲偵測比對系統與方法

本發明係關於中文數位反抄襲偵測比對系統與方法，尤指一種利用搜尋引擎的功能，將要比對的文章以拆解字句演算法拆解分句後各別拿去搜尋，當搜尋結果的總結吻合搜尋的句子時，就把搜尋結果的網頁載下來進行全文比對，即可快速判斷是否有從此網站抄襲之中文數位反抄襲偵測比對系統與方法。

近年來網路發達，也改變了學生寫作業的習慣，從過去鼓勵學生多查閱網路資料，到現在必須防堵學生使用網路資料，而網路使用也確實造成了大量抄襲的風，網際網路營造出高度抄襲因情境，讓在情境與時間的壓力下，容易產生抄襲行為；其次社會瀰漫「走捷徑」取巧的心理，學生只關心寫作業的效率而不重視作業品質，學術界也重視論文的出版量，而較少關注內容品質，社會瀰漫取巧的心態；再者，抄襲的偏差行為已成常態，代寫服務更讓整個學術環境惡化，抄襲不誠實行為已惡化為學術欺騙的嚴重犯行。

有鑑於學生抄襲行為日益嚴重，尤其是抄襲自網路資料或將網路資料再二次加工，重新拼貼與排列組合的大雜燴文章，國外的營利企業發展了數位抄襲偵測軟體進行防範，經過長時間的運作與測試，確實能降低抄襲行為的發生率，抑制學生想要僥倖投機的行為，惟多數偵測系統的測驗報告與相關文獻幾乎係以英語系國家為主，各種累積的知識僅止於英文環境，無法移植到中文語系，由於中文語體不管是書結構、字詞組合、文字斷句(segmentation)、標點符號的使用等，都與英文環境有極大差異，因此中文化界面的數位抄襲比對系統與方法仍需要開發，以適合華語教育界使用。

按習知之中文抄襲文章比對系統與方法，如臺灣發明專利公告第I262402號「特徵擷取、資料解密方法以及抄襲文章搜尋的系統與方法」，係對已植入浮水印的文章10進行特徵擷取，以取得文件特徵20，根據所取得的詞彙輸入搜尋引擎30，並且比對索引資料庫40以搜尋網際網路上可能抄襲之文章50；接著將搜尋所得的文章50與原文比對，根據比對結果取得之句子執行浮水印解析；最後，將所取得的浮水印資訊60與原來的浮水印比對，然後根據比對結果判斷該搜尋所得之文章是否為抄襲文章，若比對結果大於一臨界值，則表示其為抄襲文章70。

而該習知發明之特徵擷取方法係將自植入浮水印的文章取得之句子、詞彙予以斷詞及詞性標注，然後根據文章中浮水印植入的詞與句型，利用同義詞庫與同義句型庫，針對文章的內文產生其語意層面的特徵，即將內容中藏有浮水印之句子與詞彙取出。然後以詞彙以及詞性作為查詢定義的依據，在同義詞資料庫中進行搜尋，以取得可作為該文章之特徵的詞彙。然後以該詞彙為關鍵字，利用搜尋引擎進行網路搜尋，以獲得相關可能的抄襲文章。

然而，該種習知之抄襲文章搜尋系統與方法由於必需過將文章植入浮水印、將植入浮水印的文章進行特徵擷取、根據所取得的詞彙輸入搜尋引擎30、比對索引資料庫40以搜尋網際網路上可能抄襲之文章50、將搜尋所得的文章50與原文比對、根據比對結果取得之句子執行浮水印解析、將所取得的浮水印資訊60與原來的浮水印比對、及根據比對結果判斷該搜尋所得之文章是否為抄襲文章等繁雜的步驟，雖然可比對出改變同義詞與同義句的部分，但對於比對一般論文或長篇文章而言，如此大量複雜的步驟對電腦伺服器會造成很大的負荷，進而影響文章比對的速度，而降低使用的效率。

其次，因為比對系統所搜尋到相同的部分可能是「參考書目」或合乎視範圍的「直接引用」，故再精確的比對系統也很難直接判斷一文章是否為抄襲文章；最後，「抄襲」一詞仍未有客觀明確之界定，雷同字數多寡亦為判斷抄襲與否重要參考因素，而浮水印範圍之設定，並無法讓使用者根據自己主觀界定或客觀學術環境作彈性調整。

因此，為更有效率的判斷一文章是否為抄襲文章，首先必需加快文章比對的速度，並利用抄襲比對系統之比對結果做為輔助判斷是否為抄襲文章的依據，最後再以人工檢視方法做進一步查驗即可有效的判斷一文章是否為抄襲文章；其次，使用者可以透過本身所處之學術環境或需求對於「抄襲」字數之定義作彈性調整，亦符合使用者之需求。所以，如何加快文章比對的速度，以及讓審查者可清楚且快速得知比對文章中涉嫌抄襲部分與搜尋部分之差異，與對於抄襲字數定義作為彈性調整，則為該習知抄襲文章搜尋系統所欠缺考量者。

為此，本發明者基於多年相關系統開發與方法研究之經驗，特針對目前中文數位反抄襲偵測比對系統與方法加以研究，乃發明本案。

本發明之目的，乃在提供一種中文數位反抄襲偵測比對方法，使用者可將比對文章上傳至中心伺服器以進行資料存取，並將對比對文章透過系統程式所設定之拆解規則進行拆解，而得到固定字數之拆解文句，再利用搜尋引擎將拆解文章一句一句搜尋後，即可獲得多筆與拆解文句雷同的網頁或文章，再將雷同的網頁或文章與比對文章進行全文比對，以比對文章與雷同的網頁或文章雷同的部分進行標記及分析，即可獲得比對結果，該比對結果可供審查者進行人工查驗，並判斷比對文章是否為抄襲文章。

本發明之中文數位反抄襲偵測比對系統，其中文章存取機制設首頁元件以提供使用者進入中文數位反抄襲偵測比對系統之管道，並設有上傳元件與資料庫元件；文章拆解機制在開始偵測上傳比對文章時，將該比對文章以拆解字句演算法，將每篇比對文章先以換行方式拆成複數段落，再依自訂之拆解字數，以固定字數將每個段落拆解成固定長度之最小偵測句子，並將各最小偵測句子之標點符號刪除，再依自訂之搜尋比對字數，以固定字數做為門檻篩選符合搜尋比對條件之最小偵測句子，最後即可將前述各符合搜尋比對條件之最小偵測句子登錄編號，以提供搜尋比對機制進行偵測抄襲之用；搜尋比對機制設比對元件、判定元件及抄襲來源比對元件，利用比對元件及判定元件可獲得與拆解文章部分雷同的網頁或文章，並以抄襲來源比對元件連結並下載與比對文章相似之雷同的網頁或文章，即可將比對文章與雷同的網頁或文章以比對元件及判定元件進行全文比對；評估報告機制是在前述比對文章進行全文比對、判定後，即可針對每一份上傳的比對文章做出分析，並獲得比對結果。

本發明之中文數位反抄襲偵測比對系統與方法，乃在中文數位反抄襲偵測比對系統之中心伺服器設有複數個運算主機，經由中心伺服器將各使用者上傳之比對文章分派給各運算主機，利用運算主機進行文章拆解、下載多筆與文章拆解部分雷同的網頁或文章、及全文比對，以獲得比對結果，並將比對結果回傳至中心伺服器，再經由中心伺服器傳送至使用者。

如此，為使　貴審查員得以充分了解本發明之特徵，茲依附圖示解說如下：如第1圖所示，係為本發明之數位抄襲比對方法之步驟流程圖。首先，使用者可將比對文章10上傳至中心伺服器11以進行資料存取，並將比對文章10以拆解字句演算法進行拆解而得到拆解文章12，利用搜尋引擎13將拆解文章12之最小偵測句子一句一句上傳搜尋後，即可獲得多筆與拆解文章12部分雷同的網頁或文章14，並將該雷同的網頁或文章14下載，並將比對文章10與雷同的網頁或文章14進行全文比對15，以比對文章10與雷同的網頁或文章14相同的部分進行標記及分析，即可獲得比對結果16，該比對結果16可供審查者進行人工查驗，以進一步判斷比對文章是否為抄襲文章。

再者，本發明之中文數位反抄襲偵測比對系統至少包含：文章存取機制2，設首頁元件20以提供使用者進入中文數位反抄襲偵測比對系統之管道，包括網站首頁、使用者帳號與密碼之鑑別、使用者帳號密碼遺忘重領之機制等；並可將使用者身份區分為系統管理者、教師、學生與參觀者，以方便使用者之管理與設定使用權限。

前述文章存取機制2設上傳元件21，以提供網站頁面供使用者上傳比對文章10至中心伺服器11，此上傳元件21將會判別上傳比對文章10之格式(Word或PDF)是否符合系統需求；上傳元件21會把上傳比對文章10儲存併入中心伺服器11之資料庫元件22之中，並監控使用者在期限之內可以重新上傳比對文章10。

前述文章存取機制2設資料庫元件22，主要是隨時在網際網路上蒐集各類型之數位資料，並加以儲存，以增加比對時之資料來源。

文章拆解機制3，前述文章拆解機制3在開始偵測上傳比對文章10時，將該比對文章10以拆解字句演算法30，將每篇比對文章10先以換行方式31拆成複數段落310，再依自訂之拆解字數32，以固定字數將每個段落310拆解成固定長度之最小偵測句子320，並將各最小偵測句子320之標點符號刪除，再依自訂之搜尋比對字數33，以固定字數做為門檻篩選符合搜尋比對條件之最小偵測句子320，若一刪除標點符號後之最小偵測句子320所剩餘的字數少於所設定之搜尋比對字數33時，即不搜尋比對該句子；如此，利用拆解字句演算法30即可解決比對文章10拆解後的句子太短無搜尋意義，或比對文章10拆解後的句子太長不易搜尋之問題；最後即可將前述各符合搜尋比對條件之最小偵測句子320登錄編號，以提供搜尋比對機制4進行偵測抄襲之用。

關於前述拆解字句演算法30，例如某一比對文章10以換行方式31拆成之段落310為：『他慢慢蹲下來，好了一點，好了一點。從略微的仰角，他看到街對面有個手拿氣球的奇怪女人正抬頭仰望天空，她像發現幽浮似地，嘴不由自主地張開來。』；若自訂之拆解字數32為15個字，即可將該段落310拆解成固定長度之最小偵測句子320為：『(他慢慢蹲下來，好了一點，好了一)(點。從略微的仰角，他看到街對面)(有個手拿氣球的奇怪女人正抬頭仰)(望天空，她像發現幽浮似地，嘴不)(由自主地張開來。)』；之後再將各最小偵測句子320刪除標點符號，可得到不含標點符號之最小偵測句子320為：『(他慢慢蹲下來好了一點好了一)(點從略微的仰角他看到街對面)(有個手拿氣球的奇怪女人正抬頭仰)(望天空她像發現幽浮似地嘴不)(由自主地張開來)』；若自訂之搜尋比對字數33為8個字，其中該句「(由自主地張開來)」只有7個字，不符合篩選門檻，因此最後可登錄編號及上傳搜尋比對之最小偵測句子320為：『(他慢慢蹲下來好了一點好了一)(點從略微的仰角他看到街對面)(有個手拿氣球的奇怪女人正抬頭仰)(望天空她像發現幽浮似地嘴不)』；共4句。

搜尋比對機制4設比對元件40，前述比對元件40可透過網際網路搜尋引擎13(如Google搜尋引擎或YAHOO搜尋引擎等)、或各式電子文章資料庫、或其他學生的文章等加以登錄比對前述經篩選過之最小偵測句子320，或將比對文章10與雷同的網頁或文章14進行全文比對15。

前述搜尋比對機制4設判定元件41，此判定元件41之功能在於根據前述比對元件40之比對結果，針對比對文章10中的每一句、每一段落做出是否抄襲的判斷，並以百分比來呈現其抄襲可能性；或將比對文章10與雷同的網頁或文章14進行全文比對15之抄襲比例也做出評估判定。前述搜尋比對機制4設抄襲來源比對元件42，主要是建立抄襲文字與抄襲來源間之連結工作，以連結並下載與比對文章10相似之雷同的網頁或文章14進行全文比對15。

本發明之獲得與比對文章10相似之雷同的網頁或文章14之方法，是利用搜尋比對機制4之搜尋引擎13、比對元件40及判定元件41，將經過拆解字句演算法30篩選過之最小偵測句子320一句一句各別進行搜尋比對，而搜尋後所得到的搜尋比對結果，根據拿去搜尋的句子和搜尋比對結果之總結，計算兩者共同子序列的比例，並設定一門檻值，若共同子序列的比例超過該門檻值時，即以抄襲來源比對元件42連結並下載該網頁或文章，即可獲得與拆解文章12部分雷同的網頁或文章14，以進行後續全文比對15之程序。

本發明之全文比對15之方法，是利用利用搜尋比對機制4之比對元件40，將比對文章10與雷同的網頁或文章14直接以無意義字元接在一起，利用詞尾陣列(Suffix Array)的資料結構處理過，再利用資料分割(Data Partitioning，簡稱DP)的技巧，即可得到所有在比對文章10中局部最長且有出現在雷同的網頁或文章14的句子，之後再以搜尋比對機制4之判定元件41，將全文比對15後之抄襲比例做出評估判定；因為比對相同的部分可能是「參考書目」或合乎規範的「直接引用」，為方便審查者進行人工查驗，該比對文章10與雷同網相14之比對相同部分，搜尋比對機制4會各別以反黃方式標記於比對文章10及雷同的網頁或文章14中。

評估報告機制5，是所有偵測工作的最後一項，亦即在前述比對文章10與雷同的網頁或文章14進行全文比對、判定後，利用評估報告機制5即可針對每一份上傳的比對文章10做出分析，並獲得比對結果16。

如圖2所示，係為本發明之中文數位反抄襲偵測比對系統之實施例，各使用者6將比對文章10經由文章存取機制2上傳至中心伺服器11以進行資料存取後，中心伺服器11即會將各使用者6上傳之比對文章10分派給各運算主機110，該運算主機110利用文章拆解機制3對比對文章10進行拆解而得到拆解文章12，並以搜尋比對機制4利用搜尋引擎13將拆解文章12一句一句各別上傳搜尋比對後，即可將與拆解文章12部分雷同的網頁或文章14下載回傳至運算主機110，以進行比對文章10與雷同的網頁或文章14之全文比對15，利用評估報告機制5即可針對每一份上傳的比對文章10做出分析，並於產生比對結果16後，將此一比對結果16回傳至中心伺服器11，因此使用者6即可觀看比對結果16。

如此，本發明利用中心伺服器11與運算主機110之分工機制可提升中文數位反抄襲偵測比對系統之搜尋比對速度，且本發明之中文數位反抄襲偵測比對系統利用文章拆解機制3及搜尋比對機制4可加快比對文章10比對的速度，並於比對文章10與雷同網相14之相同部分以反黃方式各別標記於文章及網頁中，使該使用者6可快速獲得比對文章10之比對結果16，並利用比對結果16進行人工查驗，以判斷比對文章是否為抄襲文章，為本案之組成。

10．．．比對文章

11．．．中心伺服器

12．．．拆解文章

13．．．搜尋引擎

14．．．雷同的網頁或文章

15．．．全文比對

16．．．比對結果

2．．．文章存取機制

20．．．首頁元件

21．．．上傳元件

22．．．資料庫元件

3．．．文章拆解機制

30．．．拆解字句演算法

310．．．段落

32．．．拆解字數

320．．．最小偵測句子

33．．．搜尋比對字數

4．．．搜尋比對機制

40．．．比對元件

41．．．判定元件

42．．．抄襲來源比對元件

5．．．評估報告機制

6．．．使用者

110．．．運算主機

圖1是本發明之中文數位反抄襲偵測比對方法之步驟流程圖。

圖2是本發明之實施例。