TWI552103B

TWI552103B - File classification system and file classification method and file classification program

Info

Publication number: TWI552103B
Application number: TW104102961A
Authority: TW
Inventors: Masahiro Morimoto; Yoshikatsu Shirai; Hideki Takeda; Kazumi Hasuko
Original assignee: Ubic Inc
Priority date: 2012-03-30
Filing date: 2013-04-01
Publication date: 2016-10-01
Also published as: US20160098478A1; US9171074B2; JP5530476B2; US9495445B2; US20150169745A1; TW201519150A; WO2013147304A1; JP2013214152A; TW201349162A; TWI532001B

Description

文件分類系統及文件分類方法以及文件分類程式

本發明係關於一種文件分類系統及文件分類方法以及文件分類程式，特別是關於一種關於訴訟之文件資訊的文件分類系統及文件分類方法以及文件分類程式。

以往提出了產生不正當存取或機密資訊洩漏等關於電腦的犯罪或法律上的紛爭之際，追究原因或搜查所需的機器或收集分析資料、電子式的記錄，查明其法律上的證據性之手段或技術。

特別是在美國民事訴訟中被要求eDiscovery(電子證據公開)等，該訴訟的原告及被告都要承擔提出全部相關的數位資訊作為證據的責任。因此，必須提出記錄於電腦或伺服器的數位資訊作為證據。

另一方面，伴隨IT的迅速發展與普及，在現代的商務世界中都以電腦製作大部分的資訊，所以即使是同一企業內也是許多的數位資訊充斥著。

因此，在進行用於向法庭提出證據資料的準備作業之過程中，容易產生連與該訴訟未必相關的機密性數位資訊都包含作為證據資料的失誤。此外，提出與該訴訟無關的機密性文件資訊成為問題。

近幾年，專利文獻1至專利文獻3上提出了關於法庭(forensic)體系的文件資訊之技術。專利文獻1上揭示了一種法庭體系：從利用者資訊中所含的至少一人以上的利用者中指定特定者，基於關於所指定之特定者的存取履歷資訊，僅擷取特定者存取的數位文件資訊，設定顯示所擷取的數位文件資訊之各文件檔案是否與訴訟相關的附帶資訊，基於附帶資訊，輸出與訴訟相關的文件檔案。

此外，專利文獻2上揭示了一種法庭體系：顯示所記錄的數位資訊，複數個各文件檔案都設定顯示與利用者資訊中所含的利用者之中與哪個利用者相關的利用者特定資訊，並設定成在記憶部內記錄該所設定的利用者特定資訊，指定至少一人以上的利用者，檢索設定有對應於所指定之利用者的利用者特定資訊之文件檔案，經由顯示部而設定顯示所檢索的文件檔案是否與訴訟相關的附帶資訊，基於附帶資訊，輸出與訴訟相關的文件檔案。

再者，專利文獻3上揭示了一種法庭體系：受理數位文件資訊中所含的至少一個以上的文件檔案的指定，受理將所指定的文件檔案翻譯成哪種語言的指定，將受理指定的文件檔案翻譯成受理指定的語言，從記錄於記憶部的數位文件資訊中擷取顯示和所指定的文件檔案同一內容的共通文件檔案，生成顯示藉由引用所翻譯的文件檔案之翻譯內容而翻譯所擷取的共通文件檔案之翻譯相關資訊，基於翻譯相關資訊，輸出與訴訟相關的文件檔案。

【先前技術文獻】【專利文獻】

【專利文獻1】特開2011-209930號公報

【專利文獻2】特開2011-209931號公報

【專利文獻3】特開2012-32859號公報

然而，在例如專利文獻1至專利文獻3之類的法庭體系方面，要收集利用複數個電腦及伺服器之利用者的龐大文件資訊。

進行以此種經數位化的龐大文件資訊為訴訟的證據資料是否妥當的分類之作業需要稱為檢閱者的使用者利用目視確認，一個一個逐漸分類該文件資訊，有需要很大的勞力與費用的問題。

因此，本發明有鑑於上述情況，其目的在於提供一種於收集經數位化的文件資訊後，對於該文件資訊，藉由自動給予分類碼，可減輕利用於訴訟的文件資訊分類作業的負擔之文件分類系統及文件分類方法以及文件分類程式。

本發明之文件分類系統，係取得記錄於複數個電腦或伺服器的數位資訊，分析該取得的數位資訊中所含的由複數個文件構成的文件資訊，給予文件表示和訴訟相關度的分類碼，以便容易利用於訴訟之文件分類系統，其中具備：關鍵字資料庫，其係記錄特定的分類碼、給予該特定的分類碼之文件中所記述的關鍵字、及表示該特定的分類碼與該關鍵字之對應關係的關鍵字對應資訊；相關用語資料庫，其係記錄預定的分類碼、在給予該預定的分類碼之文件中由出現頻率高的單字構成的相關用語、及表示該預定的分類碼與前述相關用語之對應關係的相關用語對應資訊；第1分類部，其係從文件資訊中擷取包含記錄於該關鍵字資料庫的關鍵字之文件，對於該擷取的文件，基於該關鍵字對應資訊而給予該特定的分類碼；第2分類部，其係從在該第1分類部未給予該特定的分類碼之文件資訊中擷取包含記錄於該相關用語資料庫的相關用語之文件，基於該擷取的文件中所含的相關用語之評估值及該相關用語之數量而計算分數，對於包含該相關用語的文件之中該分數超過一定值的文件，基於該分數及前述相關用語對應資訊而給予該預定的分類碼；及分類碼受理部，其係對於在第2分類部未給予該特定的分類碼之文件，受理來自使用者的分類碼的給予。

所稱「分類碼」，係指分類文件之際所使用的識別碼，係指表示和訴訟的相關度者，以便容易利用於訴訟。例如，也可以在訴訟中利用文件資訊作為證據之際，按照證據的種類而給予。

所稱「文件」，係指包含一個以上的單字的資料。作為「文件」的一例，可舉電子郵件、提交資料、試算表資料、協商資料、契約書、組織圖、事業計劃書等。

所稱「單字」，係指具有意義的最少字串的連貫。例如，在「所稱文件，係指包含一個以上的單字的資料。」的文章中，包含「文件」「一個」「以上」「單字」「指」的單字。

所稱「關鍵字」，係指一個或組合複數個「單字」的關鍵字。具體而言，具有和特定的分類碼緊密連接的關係，若文件中含有關鍵字，則也可以是指將分類碼定為一個意義者。例如，在產生了侵犯專利訴訟時，作為給予和該訴訟相關度高的文件重要這種分類碼時的「關鍵字」，可舉「專利公報的號碼」、「代理人」、「侵犯者」等。

此外，所稱「關鍵字對應資訊」，係指表示關鍵字和特定的分類碼之對應關係者。例如，在訴訟中表示重要的文件的「重要」這種分類碼具有和「侵犯者」這種關鍵字緊密連接的關係時，「關鍵字對應資訊」也可以是指結合分類碼「重要」和關鍵字「侵犯者」而管理的資訊。

所稱「相關用語」，係指給予有預定的分類碼之文件共通且出現頻率高的單字之中評估值為一定值以上者。例如，出現頻率係指一個文件中出現的單字總數之中相關用語出現的比例。

此外，「評估值」係指各單字在某文件中發揮的資訊量。「評估值」也可以以傳送資訊量為基準而算出。例如，給予預定的商品名稱作為分類碼時，「相關用語」也可以是指該商品所屬的技術領域的名稱、該商品的銷售國、該商品的類似商品名稱等。具體而言，給予進行影像編碼處理之裝置的商品名稱作為分類碼時的「相關用語」可舉「編碼處理」、「日本」、「編碼器」等。

所稱「相關用語對應資訊」，係指表示相關用語和分類碼之對應關係者。例如，關於訴訟的商品名稱即「製品A」這種分類碼具有製品A的功能即「影像編碼」這種相關用語時，「相關用語對應資訊」也可以是指結合分類碼「製品A」和相關用語「影像編碼」而管理的資訊。

所稱「分數」，係指在某文件中，定量評估和特定的分類碼相結合的強度者。例如，「分數」也可以按照文件中出現的單字與各單字具有的評估值而算出分數。

此外，本發明之文件分類系統也可以擷取在使用者給予的分類碼為共通的文件中頻繁出現的單字，依各文件分析各文件中所含的該擷取的單字的種類、各單字具有的評估值及出現數量的傾向資訊，對於未由分類碼受理部受理分類碼的文件之中具有和前述分析的傾向資訊相同傾向的文件，進行共通的分類碼的給予。

所稱「傾向資訊」，係指表示和被給予有各文件具有的分類碼之文件類似的程度者，以和基於各文件含有的單字種類、出現數量、單字評估值之預定的分類碼之相關度表示。例如，各文件在被給予有預定的分類碼之文件和該預定的分類碼之相關度為類似時，稱為該兩個文件具有相同的傾向資訊。此外，關於所含的單字種類雖然不同但以相同的出現數量含有評估值相同的單字之文件，也可以作為具有相同傾向之文件。

此外，本發明之文件分類系統也可以進一步具備品質檢查部，其係對於使用者給予分類碼的文件，基於分析的傾向資訊而決定應給予的分類碼，比較該決定的分類碼與使用者給予的分類碼，驗證妥當性。

此外，關於本發明之文件分類系統的第1分類部也可以對於包含複數個關鍵字之文件，基於該關鍵字具有的評估值及出現數量選擇給予的分類碼。

此外，關於本發明之文件分類系統的第2分類部也可以使用算出的分數再計算相關用語的評估值，對在前述分數超過一定值的文件中頻繁出現之相關用語的評估值進行加權。

本發明之文件分類方法，係取得記錄於複數個電腦或伺服器的數位資訊，分析該取得的數位資訊中所含的由複數個文件構成的文件資訊，給予文件表示和訴訟相關度的分類碼，以便容易利用於訴訟之文件分類方法，其中當具有記錄特定的分類碼、給予該特定的分類碼之文件中所記述的關鍵字、及表示特定的分類碼與關鍵字之對應關係的關鍵字對應資訊之關鍵字資料庫，及記錄預定的分類碼、在給予預定的分類碼之文件中由出現頻率高的單字構成的相關用語、及表示該預定的分類碼與相關用語之對應關係的相關用語對應資訊之相關用語資料庫之際，電腦實現以下功能：從文件資訊中擷取包含該記錄的關鍵字之文件，對於該擷取的文件，基於關鍵字對應資訊而給予特定的分類碼，從未給予該特定的分類碼之文件資訊中擷取包含記錄的相關用語之文件，基於該擷取的文件中所含的相關用語之評估值及該相關用語之數量而計算分數，對於包含相關用語的文件之中該分數超過一定值的文件，基於分數及前述相關用語對應資訊而給予該預定的分類碼，對於未給予該預定的分類碼之文件，受理來自使用者的分類碼的給予。

本發明之文件分類程式，係取得記錄於複數個電腦或伺服器的數位資訊，分析該取得的數位資訊中所含的由複數個文件構成的文件資訊，給予文件表示和訴訟相關度的分類碼，以便容易利用於訴訟之文件分類程式，其中使電腦實現以下功能：記錄特定的分類碼、給予該特定的分類碼之文件中所記述的關鍵字、及表示該特定的分類碼與該關鍵字之對應關係的關鍵字對應資訊；記錄預定的分類碼、在給予該預定的分類碼之文件中由出現頻率高的單字構成的相關用語、及表示該預定的分類碼與該相關用語之對應關係的相關用語對應資訊；從文件資訊中擷取包含該記錄的關鍵字之文件，對於該擷取的文件，基於該關鍵字對應資訊而給予該特定的分類碼；從未給予該特定的分類碼之文件資訊中擷取包含該記錄的相關用語之文件，基於該擷取的文件中所含的相關用語之評估值及該相關用語之數量而計算分數，對於包含該相關用語的文件之中該分數超過一定值的文件，基於該分數及相關用語對應資訊而給予該預定的分類碼；及對於未給予該預定的分類碼之文件，受理來自使用者的分類碼的給予。

關於本發明之文件分類系統及文件分類方法以及文件分類程式藉由具備：第1分類部，其係從文件資訊中擷取包含記錄於關鍵字資料庫的關鍵字之文件，對於該擷取的文件，基於各關鍵字具有的關鍵字對應資訊而給予特定的分類碼；及第2分類部，其係從在第1分類部未給予特定的分類碼之文件資訊中擷取包含記錄於相關用語資料庫的相關用語之文件，基於該擷取的文件中所含的相關用語之評估值及該相關用語之數量而計算分數，對於包含相關用語的文件之中該分數超過一定值的文件，基於分數及相關用語對應資訊而給予預定的分類碼；可謀求檢閱者分類作業勞力的削減。

此外，本發明之文件分類系統具備受理來自使用者的分類碼的給予之分類碼受理部，具備擷取在使用者給予的分類碼為共通的文件中頻繁出現的單字，依各文件分析各文件中所含的該擷取的單字的種類、各單字具有的評估值及出現數量的傾向資訊之功能，在對於未由分類碼受理部受理分類碼的文件之中具有和該分析的傾向資訊相同傾向的文件，進行共通的分類碼的給予之際，依據檢閱者分類的規則性，可自動給予分類碼。

此外，本發明在具備對於使用者給予分類碼的文件，基於分析的傾向資訊而決定應給予的分類碼，比較該決定的分類碼與使用者給予的分類碼，驗證妥當性之品質檢查部之際，可檢測使用者給予分類碼的錯誤。

此外，本發明於在第2分類部中具備使用算出的分數再計算相關用語之評估值，進行在分數超過一定值的文件中頻繁出現之相關用語之評估值的加權的功能之際，文件分類系統每次實施分類處理都可謀求分類精度的提高。

1,91‧‧‧文件分類系統

201,291‧‧‧第1分類部

301,391‧‧‧第2分類部

401,491‧‧‧第3分類部

402,492‧‧‧文件擷取部

403,493‧‧‧分類碼受理部

404,494‧‧‧分析部

405,495‧‧‧自動分類部

501,591‧‧‧品質檢查部

601,691‧‧‧顯示部

101,191‧‧‧關鍵字資料庫

102,192‧‧‧相關用語資料庫

11‧‧‧文件顯示畫面

第1圖為關於本發明第1實施形態之文件分類系統的構造圖；第2圖為關於本發明第2實施形態之文件分類系統的構造圖；第3圖為顯示本發明實施形態之各階段處理流程的圖表；第4圖為顯示本發明實施形態之關鍵字資料庫處理流程的圖表；第5圖為顯示本發明實施形態之相關用語資料庫處理流程的圖表；第6圖為顯示本發明實施形態之第1分類部處理流程的圖表；第7圖為顯示本發明實施形態之第2分類部處理流程的圖表；第8圖為顯示本發明實施形態之分類碼受理部處理流程的圖表；第9圖為顯示本發明實施形態之分析部處理流程的圖表；第10圖為顯示本發明實施形態之分析部分析結果的圖形；第11圖為顯示本發明第1實施形態之自動分類部處理流程的圖表；第12圖為顯示本發明第2實施形態之自動分類部處理流程的圖表；第13圖為顯示本發明實施形態之品質檢查部處理流程的圖表；以及第14圖為本發明實施形態的文件顯示畫面。

〔第1實施形態〕

以下，根據附圖說明本發明之實施形態。第1圖中顯示關於第1實施形態之文件分類系統的構造圖。

關於本發明之文件分類系統1為了取得記錄於複數個電腦或伺服器的數位資訊，分析該取得的數位資訊中所含的由複數個文件構成的文件資訊，給予文件表示和訴訟相關度的分類碼，以便容易利用於訴訟，而具備：關鍵字資料庫101，其係記錄特定的分類碼、給予該特定的分類碼之文件中所記述的關鍵字、及表示特定的分類碼與關鍵字之對應關係的關鍵字對應資訊；相關用語資料庫102，其係記錄預定的分類碼、在給予該預定的分類碼之文件中由出現頻率高的單字構成的相關用語、及表示該預定的分類碼與相關用語之對應關係的相關用語對應資訊；第1分類部201，其係從文件資訊中擷取包含記錄於關鍵字資料庫101的關鍵字之文件，對於該擷取的文件，基於前述關鍵字對應資訊而給予前述特定的分類碼；第2分類部301，其係從在第1分類部201未給予特定的分類碼之文件資訊中擷取包含記錄於相關用語資料庫102的相關用語之文件，基於該擷取的文件中所含的相關用語之評估值及該相關用語之數量而計算分數，對於包含相關用語的文件之中該分數超過一定值的文件，基於該分數及該相關用語對應資訊而給予該預定的分類碼；及分類碼受理部403，其係對於在第2分類部301未給予該特定的分類碼之文件，受理來自使用者的分類碼的給予。

在第1實施形態中，關於本發明之文件分類系統1係由關鍵字資料庫101、相關用語資料庫102、第1分類部201、第2分類部301、第3分類部401、及品質檢查部501所構成。

在第1實施形態中，關於本發明之文件分類系統1在系統內未具備顯示部601，但是也可以構成為包含於系統內者。

此外，第3分類部401係由文件擷取部402、分類碼受理部403、分析部404、及自動分類部405所構成。

分類碼受理部403係以從鍵盤或滑鼠輸入的方式受理由使用者給予文件資訊的分類碼。

關鍵字資料庫101及相關用語資料庫102係在電子媒體上記錄資料的記錄裝置，在第1實施形態中，設置於文件分類系統1內。作為其他的實施例，關鍵字資料庫101及相關用語資料庫102也可以作為儲存裝置而設置於文件分類系統1的外部。

文件分類系統1為電腦或伺服器，基於各種輸入而CPU執行記錄於ROM的程式，藉此作為各種功能部而進行動作。此外，顯示部601具有顯示器、監視器、平板PC等顯示功能，係使用者操作，確認文件資訊，利用於給予分類碼的裝置。

文件分類系統1及顯示部601係經由有線或無線的網路而連接。也可以用雲端運算(Cloud Computing)的形態加以利用。

在第1實施形態中，係以對應於侵犯專利訴訟的 eDiscovery(電子證據公開)之際，分類處理關於嫌疑製品即製品A及製品B的文件的情況為例而進行說明。

此處，製品A為對於影像的類比資料進行編碼的壓縮處理之影像編碼裝置，具有「影像編碼功能」、「文字重疊功能」、「聲音編碼功能」。此外，製品B為對於由製品A所編碼的影像流進行解碼處理，回到原來的類比資料之影像解碼裝置，具有「解碼功能」、「聲音解碼功能」。對於用於編碼及解碼的技術，被質疑侵犯他人的專利。

以製品A的類似製品為製品a，以製品B的類似製品為製品b。

分類碼係指分類文件之際所使用的識別碼。在訴訟中利用文件資訊作為證據之際，也可以按照證據的種類或和訴訟的相關度而給予。在第1實施形態中，作為分類碼，具備表示和訴訟的相關度極高、具備重要證據能力的文件之「重要」，表示和製品A特別有關的文件之「製品A」、及表示和製品B特別有關的文件之「製品B」的3個分類碼。

此處所稱的文件係在訴訟中提出作為證據的數位資訊，係指含有一個以上的單字之資料。例如為電子郵件、提交資料、試算表資料、協商資料、契約書、組織圖、事業計劃書等。此外，也可以操作掃描資料作為文件。此情況，也可以在文件分類系統內具備OCR(Optical Character Reader；光學字元閱讀器)裝置，以便可將掃描資料轉換為文字資料。利用OCR裝置變更為文字資料，可從掃描資料中分析或擷取關鍵字及相關用語。

此外，單字係指在某語言中具有意義的最少字串的連貫。例如，在「所稱文件，係指包含一個以上的單字之資料。」的文章中，包含「文件」「一個」「以上」「單字」「包含」「資料」「指」的單字。

關鍵字係指一個或組合複數個單字的關鍵字。特別是指和特定的分類碼具有緊密連接的關係，若文件中含有關鍵字，則將分類碼定為一個意義者。在第1實施形態中，「重要」此一分類碼的關鍵字係示意其文件為應按照eDiscovery(電子證據公開)而提出的文件。具體而言，可舉「專利公報的號碼」、「代理人」、「侵犯者」等。含有此等關鍵字，該文件就在第1實施形態的侵犯專利訴訟中具有非常高的證據能力。

此外，關鍵字對應資訊係指表示關鍵字和分類碼之對應關係者。例如，在第1實施形態中，係指結合具有緊密連接關係的「重要」此一分類碼和「侵犯者」此一關鍵字的兩個資訊而管理的資訊。具體而言，和「重要」此一分類碼具有緊密連接關係的關鍵字及和「製品A」此一分類碼具有緊密連接關係的關鍵字分別在關鍵字資料庫101中，被管理於各分類碼用的管理表格上。關鍵字對應資訊係指記錄於該管理表格的一個記錄。

相關用語係指給予有預定的分類碼之文件共通且出現頻率高的單字之中評估值為一定值以上者。在第1實施形態中，出現頻率係指一個文件中出現的單字總數之中相關用語所占的比例。此外，評估值係指在某文件中所發揮的各單字的資訊量，也可以使用傳送資訊量算出。

在第1實施形態中，擷取給予分類碼「製品A」的文件時，相關用語係製品A所屬的技術領域的名稱、該商品的銷售國、該商品的類似商品名稱等，具體而言，可舉「編碼處理」、「日本」、「製品a」等。此外，擷取給予分類碼「製品B」的文件時，相關用語同樣地可舉「解碼」、「日本」、「製品b」等。

相關用語對應資訊係指表示相關用語和分類碼之對應關係者。例如，在第1實施形態中，「製品A」此一分類碼的相關用語之一為「編碼處理」，所以相關用語對應資訊係指結合此兩個資訊而管理的資訊。具體而言，「製品A」此一分類碼和「編碼處理」此一相關用語在相關用語資料庫102中，被管理於管理表格上。相關用語對應資訊係指記錄於該各管理表格的一個記錄。

此外，分數係指在某文件中，定量評估和特定的分類碼相結合的強度者。在第1實施形態中，分數係使用以下的算式(1)，依據文件中出現的單字與各單字具有的評估值而算出：

Scr：文件的分數

m _i：第i個關鍵字或相關用語的出現頻率

：第i個關鍵字或相關用語的加權

在第1實施形態中，關鍵字資料庫101係由對於「重要」、「製品A」及「製品B」此三個分類碼之分別不同的管理表格所構成。對應於各分類碼的關鍵字和關鍵字對應資訊共同被記錄於各管理表格。

在第1實施形態中，相關用語資料庫102係由對於「重要」、「製品A」及「製品B」此三個分類碼之分別不同的管理表格所構成。對應於各分類碼的相關用語及臨界值和相關用語對應資訊共同被記錄於各管理表格。在以相關用語為基礎所算出的分數超過該臨界值之際，該文件被給予對應的分類碼。

在第1實施形態中，按照如第3圖所示的流程圖，以五個階段進行分類處理。

在第一階段，使用過去分類處理的結果進行關鍵字和相關用語的事前記錄(STEP100)。此時，關鍵字及相關用語和與分類碼的對應資訊共同被記錄。

在第二階段，從全部文件資訊中擷取包含在第一階段記錄的關鍵字之文件，一發現該文件，就參照在第一階段記錄的關鍵字對應資訊，給予對應於該關鍵字的分類碼(STEP200)。

在第三階段，從在第二階段未被給予分類碼的文件資訊中擷取包含在第一階段記錄的相關用語之文件，計算包含該相關用語的文件之分數。參照該算出的分數與在第一階段記錄的相關用語對應資訊，進行分類碼的給予(STEP300)。

在第四階段，對於到第三階段為止未被給予分類碼的文件資訊，受理使用者給予的分類碼。擷取在該使用者給予的分類碼為共通的文件中頻繁出現的單字，依各文件分析各文件中所含的擷取的單字的種類、各單字具有的評估值及出現數量的傾向資訊，對於具有和該傾向資訊相同傾向的文件，進行共通的分類碼的給予(STEP400)。

在第五階段，對於在第四階段使用者給予分類碼的文件，基於分析的傾向資訊而決定應給予的分類碼，比較該決定的分類碼與使用者給予的分類碼，進行分類處理的妥當性的驗證(STEP500)。

傾向資訊係指表示和給予有各文件具有的分類碼之文件類似的程度者，係指依據各文件含有的單字的種類、出現數量、單字的評估值者。例如，各文件在被給予有預定的分類碼之文件和該預定的分類碼之相關度為類似時，稱為該兩個文件具有相同的傾向資訊。此外，關於所含的單字的種類雖然不同但以相同的出現數量含有評估值相同的單字之文件，也可以作為具有相同傾向之文件。

以下說明在各階段的詳細處理流程。

<第一階段(STEP100)>

茲使用第4圖說明在第一階段的關鍵字資料庫101的詳細處理流程。

關鍵字資料庫101根據在過去的訴訟中分類文件的結果，依各分類碼製作管理用的表格，特別指定對應於各分類碼的關鍵字(STEP111)。在第1實施形態中，此特別指定係分析給予有各分類碼的文件，使用該文件中的各關鍵字的出現數量及評估值而進行，但也可以使用關鍵字具有的傳送資訊量的方法或使用者以手動選擇的方法等。

在第1實施形態中，例如特別指定「侵犯」及「代理人」的關鍵字作為分類碼「重要」的關鍵字時，製作表示「侵犯」及「代理人」為和分類碼「重要」具有緊密連接關係的關鍵字之關鍵字對應資訊(STEP1 12)，記錄於分類碼「重要」的管理表格(STEP113)。

茲使用第5圖說明相關用語資料庫102的詳細處理流程。相關用語資料庫102根據在過去的訴訟中分類文件的結果，依各分類碼製作管理用的表格，記錄對應於各分類碼的相關用語(STEP121)。在第1實施形態中，例如記錄「編碼處理」及「製品a」作為「製品A」的相關用語以及記錄「解碼」及「製品b」作為「製品B」的相關用語。

製作表示記錄的各相關用語對應於哪個分類碼的相關用語對應資訊(STEP122)，記錄於各管理表格(STEP123)。此時，各相關用語具有的評估值及成為決定分類碼所需的分數之臨界值也一併被記錄於相關用語對應資訊。

<第二階段(STEP200)>

茲使用第6圖說明在第二階段的第1分類部201的詳細處理流程。在第1實施形態中，在第二階段係利用第1分類部201進行給予文件分類碼「重要」的處理。

在第1分類部201，從文件資訊中擷取包含在第一階段(STEP100)記錄於關鍵字資料庫101的關鍵字「侵犯」及「代理人」之文件(STEP211)。對於該擷取的文件，從關鍵字對應資訊參照記錄有該關鍵字的管理表格(STEP212)，給予「重要」的分類碼(STEP213)。

<第三階段(STEP300)>

茲使用第7圖說明在第三階段的第2分類部301的詳細處理流程。

在第1實施形態中，在第2分類部301係對於在第二階段(STEP200)未給予分類碼的文件資訊，進行給予「製品A」及「製品B」的分類碼的處理。

第2分類部301從該文件資訊中擷取包含在第一階段記錄於相關用語資料庫102的相關用語「編碼處理」、「製品a」、「解碼」及「製品b」之文件(STEP311)。對於該擷取的文件，依據記錄的四個相關用語的出現頻率、評估值，利用算式(1)計算分數(STEP312)。該分數係表示各文件與分類碼「製品A」及「製品B」的相關度。

該分數超過臨界值時，參照相關用語對應資訊(STEP313)，給予適當的分類碼(STEP314)。

例如，在某文件方面，當相關用語「編碼處理」及「製品a」的出現頻率以及相關用語「編碼處理」具有的評估值高、表示和分類碼「製品A」的相關度的分數超過臨界值之際，分類碼「製品A」被給予該文件。

此時，在該文件中相關用語「製品b」的出現頻率也高、表示和分類碼「製品B」的相關度的分數超過臨界值時，「製品B」也和分類碼「製品A」同時被給予該文件。另一方面，在該文件中相關用語「製品b」的出現頻率低、表示和分類碼「製品B」的相關度的分數未超過臨界值時，僅分類碼「製品A」被給予該文件。

在第2分類部301，使用在第四階段的STEP432所算出的分數，利用以下所示的算式(2)再計算相關用語的評估值，進行該評估值的加權(STEP315)。

wgt _i,0：學習前的第i個選定關鍵字的加權(初始值)

wgt _i,L：第L次學習後的第i個選定關鍵字的加權

γ _L：第L次學習的學習參數

：學習效果的臨界值

例如，「解碼」的出現頻率非常高但分數低得超過一定值此種文件產生一定數量以上時，降低相關用語「解碼」的評估值而再度記錄於相關用語對應資訊。

<第四階段(STEP400)>

在第四階段，對於在到第三階段為止的處理未給予分類碼的文件資訊進行分類處理。在第1實施形態中，對於該文件資訊，在第四階段進行給予「重要」、「製品A」及「製品B」的分類碼的處理。

茲使用第8圖說明在第四階段的分類碼受理部403的詳細處理流程。從在第四階段成為處理對象的文件資訊中，首先文件擷取部402隨機抽取文件樣品，顯示在顯示部601上。在第1實施形態中，隨機擷取成為處理對象的文件資訊之中兩成的文件，作為檢閱者的分類對象。抽樣也可以進行按文件的製作日期和時間順序或名稱順序排列文件，從上面選擇三成的文件這種擷取的做法。

使用者閱覽顯示於顯示部601上的第14圖所示的顯示用畫面11，對於各文件選擇給予的分類碼。分類碼受理部403受理該使用者選擇的分類碼(STEP411)，依據所給予的分類碼進行分類(STEP412)。

其次，使用第9圖說明分析部404的詳細處理流程。在分析部404擷取在分類碼受理部403依各分類碼所分類的文件共通且頻繁出現的單字(STEP421)。利用算式(2)分析擷取的共通的單字之評估值(STEP422)，分析該共通的單字之文件中的出現頻率(STEP423)。

再者，根據利用STEP422及STEP423分析的結果，分析給予有「重要」此一分類碼之文件的傾向資訊(STEP424)。第10圖為利用STEP424分析給予有「重要」此一分類碼之文件共通頻繁出現的單字之結果的圖形。

在第10圖中，縱軸R_hot表示包含由使用者給予有分類碼「重要」的全部文件之中被選定作為結合於分類碼「重要」的單字之單字且給予有分類碼「重要」的文件之比例。橫軸表示包含使用者實施分類處理的全部文件之中利用分類碼受理部403以STEP421擷取之單字的文件之比例。

在第1實施形態中，在分類碼受理部403擷取標繪於比直線R_hot=R_all更上部之類的單字作為分類碼「重要」的共通單字。

對於給予有「製品A」及「製品B」的分類碼之文件也執行STEP421至STEP424的處理，分析該文件的傾向資訊。

其次，使用第11圖說明自動分類部405的詳細處理流程。在自動分類部405，對於在第四階段之處理對象的文件資訊之中在STEP411未利用分類碼受理部403受理分類碼給予之文件進行處理。在自動分類部405，從此種文件中擷取以STEP424分析的給予有分類碼「重要」、「製品A」及「製品B」之文件的傾向資訊和具有相同傾向資訊之文件(STEP431)，對於擷取的文件，以傾向資訊為基礎使用算式(1)計算分數(STEP432)。此外，對於以STEP431擷取的文件，依據傾向資訊而給予適當的分類碼(STEP433)。

在自動分類部405，進一步使用以STEP432算出的分數，將分類結果反映於各資料庫(STEP434)。具體而言，進行降低分數低的文件中所含的關鍵字及相關用語之評估值、提高分數高的文件中所含的關鍵字及相關用語之評估值的處理。

<第五階段(STEP500)>

茲使用第13圖說明在第五階段的品質檢查部501的詳細處理流程。在品質檢查部501，對於分類碼受理部403以STEP411受理的文件，依據分析部404以STEP424分析的傾向資訊，決定應被給予的分類碼(STEP511)。

比較分類碼受理部403受理的分類碼與以STEP511決定的分類碼(STEP512)，驗證以STEP411受理的分類碼之妥當性(STEP513)。

〔第2實施形態〕

以下，根據附圖說明本發明之實施形態。第2圖中顯示關於第2實施形態之文件分類系統的構造圖。

在第2實施形態中，關於本發明之文件分類系統91係由關鍵字資料庫191、相關用語資料庫192、第1分類部291、第2分類部391、第3分類部491、文件擷取部492、分類碼受理部493、分析部494、自動分類部495及品質檢查部591等所構成。

在第2實施形態中，關於本發明之文件分類系統91在系統內未具備顯示部691，但是也可以構成為包含於系統內者。

關鍵字資料庫191及相關用語資料庫192係在電子媒體上記錄資料的記錄裝置，在第2實施形態中，設置於文件分類系統91內。作為其他的實施例，關鍵字資料庫191及相關用語資料庫192也可以作為儲存裝置而設置於文件分類系統91的外部。

文件分類系統91為電腦或伺服器，基於各種輸入而CPU執行記錄於ROM的程式，藉此作為各種功能部而進行動作。此外，顯示部691具有顯示器、監視器、平板PC等顯示功能，係使用者操作，確認文件資訊，利用於給予分類碼的裝置。

文件分類系統91及顯示部691經由有線或無線的網路而連接。也可以用雲端運算(Cloud Computing)的形態加以利用。

在對應於違反反托拉斯法的文件提出命令之際，第2實施形態為分類處理需要提出的文件時的實施例。

在第2實施形態中，作為分類碼，具備表示在這次訴訟中不具有證據能力之文件的「無關係」、表示和訴訟的相關度極高並具備重要證據能力之文件的「重要」之兩個分類碼。

此處所稱的文件和第1實施形態同樣，係在訴訟中提出作為證據的數位資訊，係指含有一個以上的單字之資料。例如為電子郵件、提交資料、試算表資料、協商資料、契約書、組織圖、事業計劃書等。此外，也可以操作掃描資料作為文件。此情況，也可以在文件分類系統內具備OCR(Optical Character Reader；光學字元閱讀器)裝置，以便可將掃描資料轉換為文字資料。利用OCR裝置變更為文字資料，可從掃描資料中分析或擷取關鍵字及相關用語。

此外，單字和第1實施形態同樣，係指在某語言中具有意義的最少字串的連貫。例如，在「所稱文件，係指包含一個以上的單字之資料。」的文章中，包含「文件」「一個」「以上」「單字」「包含」「資料」「指」的單字。

關鍵字和第1實施形態同樣，係指一個或組合複數個單字的關鍵字。特別是指和特定的分類碼具有緊密連接的關係，若文件中含有關鍵字，則將分類碼定為一個意義者。在第2實施形態中，「重要」此一分類碼的關鍵字係示意其文件必須按照eDiscovery(電子證據公開)而提出者。具體而言，可舉「卡特爾(cartel)」、「商議」等。含有此等關鍵字，在第2實施形態中該文件就具有非常高的證據能力。

此外，關鍵字對應資訊和第1實施形態同樣，係指表示關鍵字和分類碼之對應關係者。例如，在第2實施形態中，係指結合具有緊密連接關係的「重要」此一分類碼和「商議」此一關鍵字的兩個資訊而管理的資訊。具體而言，和「重要」此一分類碼具有緊密連接關係的關鍵字在關鍵字資料庫191中，被管理於管理表格上。關鍵字對應資訊係指記錄於該各管理表格的一個記錄。

相關用語和第1實施形態同樣，係指給予有預定的分類碼之文件共通且出現頻率高的單字之中評估值為一定值以上者。在第2實施形態中，出現頻率係指一個文件中出現的單字總數之中相關用語所占的比例。此外，評估值係指在某文件中所發揮的各單字的資訊量，也可以使用傳送資訊量算出。

在第2實施形態中，擷取給予分類碼「重要」之文件時，相關用語可舉被認為有違反反托拉斯法的交易的負責人、客戶的企業名稱等，具體而言，負責人名稱即「負責人A」、客戶即「企業B」等。

相關用語對應資訊和第1實施形態同樣，係指表示相關用語和分類碼之對應關係者。例如，在第2實施形態中，「重要」此一分類碼的相關用語之一為「負責人A」，所以相關用語對應資訊係指結合此兩個資訊而管理的資訊。具體而言，「重要」此一分類碼與「負責人A」此一相關用語在相關用語資料庫192中，被管理於管理表格上。相關用語對應資訊係指記錄於該各管理表格的一個記錄。

此外，分數和第1實施形態同樣，係指在某文件中，定量評估和特定的分類碼相結合的強度者。在第2實施形態中，分數和第1實施形態同樣，係使用算式(1)，依據文件中出現的單字與各單字具有的評估值而算出。

在第2實施形態中，關鍵字資料庫191係對於「重要」此一分類碼分別由不同的管理表格所構成。對應於各分類碼的關鍵字和關鍵字對應資訊共同被記錄於管理表格。

在第2實施形態中，相關用語資料庫192係由關於「重要」此一分類碼的管理表格所構成。對應於該分類碼的相關用語及臨界值和相關用語對應資訊共同被記錄於該管理表格。在以相關用語為基礎所算出的分數超過該臨界值之際，該文件被給予對應的分類碼。

在第2實施形態中，和第1實施形態同樣，按照如第3圖所示的流程圖，以五個階段進行分類處理。

在第一階段，使用過去分類處理的結果進行關鍵字和相關用語的事前記錄(STEP100)。此時，關鍵字及相關用語和與分類碼的對應關係結合而被記錄。

傾向資訊和第1實施形態同樣，係指表示和給予有各文件具有的分類碼之文件類似的程度者，係指依據各文件含有的單字的種類、出現數量、單字的評估值者。例如，各文件在被給予有預定的分類碼之文件和該預定的分類碼之相關度為類似時，稱為該兩個文件具有相同的傾向資訊。此外，關於所含的單字的種類雖然不同但以相同的出現數量含有評估值相同的單字之文件，也可以作為具有相同傾向之文件。

以下說明在各階段的詳細處理流程。

<第一階段(STEP100)>

茲使用第4圖說明在第一階段的關鍵字資料庫191的詳細處理流程。

關鍵字資料庫191根據在過去的分類處理中分類文件的結果，依各分類碼製作管理用的表格，特別指定對應於分類碼的關鍵字(STEP111)。在第2實施形態中，例如特別指定「商議」及「卡特爾(cartel)」的關鍵字作為分類碼「重要」的關鍵字。此情況，製作表示「商議」及「卡特爾(cartel)」為和分類碼「重要」具有緊密連接關係的關鍵字之關鍵字對應資訊(STEP112)，記錄於分類碼「重要」的管理表格(STEP113)。

茲使用第5圖說明相關用語資料庫192的詳細處理流程。相關用語資料庫192根據在過去的訴訟中分類文件的結果，依各分類碼製作管理用的表格，記錄對應於各分類碼的相關用語(STEP121)。在第2實施形態中，例如記錄「負責人A」及「企業B」作為分類碼「重要」的相關用語。

製作表示記錄的各相關用語對應於哪個分類碼的相關用語對應資訊(STEP122)，記錄於管理表格(STEP123)。此時，相關用語具有的評估值及決定分類碼所需的分數即臨界值也同時被記錄於相關用語對應資訊。

<第二階段(STEP200)>

茲使用第12圖說明在第二階段的第1分類部291的詳細處理流程。在第2實施形態中，在第二階段利用第1分類部291進行給予文件分類碼「重要」的處理。

在第1分類部291，將在第一階段(STEP100)記錄於關鍵字資料庫191的關鍵字「商議」及「卡特爾(cartel)」作為引數而交給文件擷取部492，從文件資訊中擷取含有該關鍵字的文件。對於該使其擷取的文件，將關鍵字對應資訊作為引數而交給自動分類部495(STEP441：關鍵字對應資訊)，使其參照記錄有該關鍵字的管理表格，使其給予「重要」的分類碼(STEP446)。

<第三階段(STEP300)>

茲使用第12圖說明在第三階段的第2分類部391的詳細處理流程。

在第2實施形態中，在第2分類部391對於在第二階段(STEP200)未給予分類碼的文件資訊，使用相關用語進行給予「重要」的分類碼的處理。

第2分類部391從該文件資訊中將在第一階段記錄於相關用語資料庫192的相關用語「負責人A」、「企業B」作為引數而交給文件擷取部492，使其擷取含有該相關用語的文件。對於該擷取的文件，將相關用語對應資訊作為引數而交給自動分類部495(STEP441：關鍵字對應資訊)，使其進行處理。具體而言，第2分類部391對於將相關用語對應資訊作為引數而收到的自動分類部495，依據該兩個相關用語的出現頻率、評估值，利用算式(1)使其計算分數(STEP447)。該分數係表示各文件和分類碼「重要」的相關度。

該分數超過一定值時，第2分類部391對於自動分類部495，從作為引數而給予的相關用語對應資訊中使其給予適當的分類碼(STEP448)。

在第2分類部391，使用在第四階段的STEP447所計算的分數，和第1實施形態同樣，利用算式(2)再計算相關用語的評估值，進行該評估值的加權。

例如，「企業B」的出現頻率非常高但分數低得超過一定值此種文件產生一定數量以上時，第2分類部391降低相關用語「企業B」的評估值而再度記錄於相關用語對應資訊。

<第四階段(STEP400)>

在第四階段，在到第三階段為止的處理中，對於未給予分類碼的文件資訊進行分類處理。在第2實施形態中，對於該文件資訊，在第四階段進行給予「重要」的分類碼的處理。

茲使用第8圖說明在第四階段的分類碼受理部493的詳細處理流程。從在第四階段成為處理對象的文件資訊中，首先文件擷取部492隨機抽取文件樣品，顯示在顯示部691上。使用者閱覽顯示於顯示部691上的第14圖所示的文件顯示畫面11，對於各文件選擇給予的分類碼。分類碼受理部493受理該使用者選擇的分類碼(STEP411)，依據所給予的分類碼進行分類(STEP412)

其次，使用第9圖說明分析部494的詳細處理流程。擷取在分類碼受理部493依各分類碼所分類的各文件共通且頻繁出現的單字(STEP421)。利用算式(2)分析擷取的共通的單字之評估值(STEP422)。然後，分析該共通的單字之文件中的出現頻率(STEP423)。

根據利用STEP422及STEP423分析的結果，分析給予有「重要」此一分類碼之文件的傾向資訊(STEP424)。

其次，使用第12圖說明自動分類部495的詳細處理流程。在自動分類部495，對於在第四階段之處理對象的文件資訊之中在STEP411未利用分類碼受理部493受理分類碼給予之文件進行處理。在自動分類部495，未給予引數時(STEP441：無)，從該文件中擷取以STEP424分析的給予有分類碼「重要」之文件的傾向資訊和具有相同傾向資訊之文件(STEP442)，對於擷取的文件，以傾向資訊為基礎使用算式(1)計算分數(STEP443)。此外，對於以STEP442擷取的文件，依據傾向資訊而給予適當的分類碼(STEP444)。

在自動分類部495，進一步使用以STEP443算出的分數，將分類結果反映於各資料庫(STEP445)。具體而言，進行降低分數低的文件中所含的關鍵字及相關用語之評估值、另一方面提高分數高的文件中所含的關鍵字及相關用語之評估值的處理。

<第五階段(STEP500)>

茲使用第13圖說明在第五階段的品質檢查部591的詳細處理流程。在品質檢查部591，對於分類碼受理部493以STEP411受理的文件，依據分析部494以STEP424分析的傾向資訊，決定應被給予的分類碼(STEP511)。

比較分類碼受理部493受理的分類碼與以STEP511決定的分類碼(STEP512)，驗證分類碼受理部493受理的分類碼之妥當性(STEP513)。

此外，本發明於具備對於使用者給予分類碼的文件，基於分析的傾向資訊而決定應給予的分類碼，比較該決定的分類碼與使用者給予的分類碼，驗證妥當性之品質檢查部之際，可檢測使用者給予分類碼的錯誤。

此外，本發明於在第2分類部中具備使用算出的分數再計算相關用語之評估值，進行在分數超過一定值的文件中頻繁出現的相關用語之評估值加權的功能之際，每次實施分類處理都可謀求分類精度的提高。

1‧‧‧文件分類系統

201‧‧‧第1分類部

301‧‧‧第2分類部

401‧‧‧第3分類部

402‧‧‧文件擷取部

403‧‧‧分類碼受理部

404‧‧‧分析部

405‧‧‧自動分類部

501‧‧‧品質檢查部

601‧‧‧顯示部

101‧‧‧關鍵字資料庫

102‧‧‧相關用語資料庫

Claims

一種文件分類系統，其中具備：文件擷取部，其係藉由從具有多個文件的文件資訊中抽取預定數量的文件的樣品，而擷取該預定數量的文件作為利用者的分類對象，以作為欲分類未給予分類的該文件之際使用的分類符號；顯示部，其係使文件顯示畫面顯示，該文件顯示畫面係將前述所擷取的文件與該分類符號出示給前述利用者；分類符號受理部，其係對於前述所顯示的文件，受理前述利用者給予的分類符號，以及基於被給予分類的該分類符號對該文件進行分類；資料庫，其係記錄經前述分類符號分類的文件所含的關鍵字；及分數計算部，其係基於前述所記錄的關鍵字而計算從多個該文件間未給予該分類符號之經評估文件與前述分類符號的相結合強度的分數。
如請求項1所述之文件分類系統，其中進一步具備分類部，其係依據前述利用者分類前述所擷取的文件的規則性，將前述分類符號給予前述文件資訊所含的文件。
如請求項2所述之文件分類系統，其中前述分類部係從前述文件資訊中擷取包含前述所記錄的關鍵字的文件，對於該所擷取的文件，給予特定的分類符號。
如請求項3所述之文件分類系統，其中前述分類部係從未給予前述特定的分類符號的文件中擷取包含預定的相關用語的文件，基於使用該所擷取的文件所含的相關用語所計算出的分數，給予預定的分類符號。
如請求項2至4中任一項所述之文件分類系統，其中前述所計算出的分數超過預定的臨界值時，前述分類部給予前述分類符號。
如請求項1所述之文件分類系統，其中前述分數計算部係基於前述關鍵字出現於前述文件中的頻率與該關鍵字的權重而計算前述分數。
一種文件分類方法，其包含：文件擷取步驟，其係藉由從具有多個文件的文件資訊中抽取預定數量的文件的樣品，而擷取該預定數量的文件作為利用者的分類對象，以作為欲分類未給予分類的該文件之際使用的分類符號；顯示步驟，其係使文件顯示畫面顯示，該文件顯示畫面係將前述擷取的文件與該分類符號出示給前述利用者；分類符號受理步驟，其係對於前述顯示的文件，受理前述利用者給予的分類符號，以及基於被給予分類的該分類符號對該文件進行分類；及分數計算步驟，其係參照記錄經給予前述分類符號的文件所含的關鍵字的資料庫，基於該所記錄的關鍵字而計算從多個該文件間未給予該分類符號之經評估文件與前述分類符號的相結合強度的分數。
一種電腦程式產品，其執行：文件擷取命令，其係藉由從具有多個文件的文件資訊中抽取預定數量的文件的樣品，而擷取該預定數量的文件作為利用者的分類對象，以作為欲分類未給予分類的該文件之際使用的分類符號；顯示命令，其係使文件顯示畫面顯示，該文件顯示畫面係將前述所擷取的文件與該分類符號出示給前述利用者；分類符號受理命令，其係對於前述所顯示的文件，受理前述利用者給予的分類符號，以及基於被給予分類的該分類符號對該文件進行分類；及分數計算命令，其係參照記錄經給予前述分類符號的文件所含的關鍵字的關鍵字資料庫，基於該所記錄的關鍵字而計算從多個該文件間未給予該分類符號之經評估文件與前述分類符號的相結合強度的分數。