TWI518532B - 文件分析系統、文件分析方法、以及文件分析程式 - Google Patents

文件分析系統、文件分析方法、以及文件分析程式 Download PDF

Info

Publication number
TWI518532B
TWI518532B TW104103843A TW104103843A TWI518532B TW I518532 B TWI518532 B TW I518532B TW 104103843 A TW104103843 A TW 104103843A TW 104103843 A TW104103843 A TW 104103843A TW I518532 B TWI518532 B TW I518532B
Authority
TW
Taiwan
Prior art keywords
file
score
unit
period
message
Prior art date
Application number
TW104103843A
Other languages
English (en)
Other versions
TW201539215A (zh
Inventor
守本正宏
白井喜勝
武田秀樹
蓮子和巳
花谷彰晃
Original Assignee
Ubic股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic股份有限公司 filed Critical Ubic股份有限公司
Publication of TW201539215A publication Critical patent/TW201539215A/zh
Application granted granted Critical
Publication of TWI518532B publication Critical patent/TWI518532B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

文件分析系統、文件分析方法、以及文件分析程式
本發明係有關於一種文件分析系統等等,用以分析被記錄在預定電腦或伺服器之中的文件訊息。
例如,就以訴訟案件或不實行為調査案件作為調査案件的情況時,說明本發明之背景技術。習知地,在發生不實存取或機密訊息洩漏等等與電腦有關的犯罪或法律糾紛之際,有關於用以收集.分析釐清原因或蒐察所必須的機器或資料、電子的記錄,而闡明其法律上之證據性的方法或技術係被提出。
特別地,在美國民事訴訟過程中,現被要求提出eDiscovery(電子情報開示)等等,而該訴訟之原告及被告的任一方皆負有將關聯的數位訊息當作全部的證據加以提出之責任。因此,必須將被記錄在電腦或伺服器之中的數位訊息當作證據加以提出。
另一方面,隨著IT產業之快速的發展與普及,於目前的商業界,由於幾乎全部的訊息現在由電腦所製作,故即使於同一企業內,甚多的數位訊息也正氾濫著。
因此,在為了向法院提出證據資料之準備作業的進行過程中,易發生連與該訴訟未必有關聯之機密的數位訊息也未料到地被含於當作證據資料之中的失誤。又,變成了與該訴訟無關之機密的文件訊息意外地被提出的問題。
近年來,關於鑑識系統之中的文件訊息的技術係於專利文獻1至專利文獻3之中被提出。然而,例如,於專利文獻1至專利文獻3之所敘述的鑑識系統中,變成收集利用了複數之電腦及伺服器的利用者之龐大的文件訊息之情事。
將如此數位化之龐大的文件訊息當作訴訟之證據資料、而判斷其是否妥當的作業係由,被稱為覆查者的使用者藉由目視加以確認,而必須逐一地分辨著該等文件訊息,這將有花費大量的勞力與經費的問題。
於專利文獻4之中,提出著為了解決上述問題的文件分類系統。於專利文獻4中,揭露了於收集被記錄在複數之電腦或伺服器之中的數位訊息、而分析該收集到的數位訊息之中所含的文件訊息、而使其供訴訟之利用變成容易之分類用的文件分類系統,其具備取出部,取出包含來自預定數量之文件的上述文件訊息之資料組的文件群組、文件呈現部,將上述取出的文件群組顯示於畫面上、分類碼受理部,對於上述顯示出的文件群組,而受理由使用者基於與上述訴訟的關聯性所賦予了的分類碼、選定部,基於上述分類碼,而以每一分類碼將上述取出的文件群組分類,進而於該被分類了的文件群組中,分析而選定共通出現的關鍵字、資料庫,記錄上述選定了的關鍵字、搜尋部,從上述文件訊息搜尋被記錄在上述資料庫之中的關鍵字、評分計算部,利用上述搜尋部的搜尋結果與上述選定部的分析結果,計算代表分類碼與文件之關聯性的評分、及自動分類部,基於上述評分的結 果而自動地賦予分類碼。
又,於專利文獻5之中,揭露了按時序的預測裝置,其特徵在於具備特徵收集工具,從過去之時序的資料收集該按時序的特徵、製作工具,基於由上述特徵收集工具所收集到的特徵量而製作迴歸樹、到目前為止的按時序的特徵收集工具,利用與上述特徵收集工具相同的運算法而從到目前為止的時序的資料收集特徵量、及預測工具,利用由上述到目前為止的按時序的特徵收集工具所收集到的特徵量,與由上述製作工具所製作了的迴歸樹而估算出將來的預測值。
(先前技術文獻)
(專利文獻1)日本專利公開公報第2011-209930號
(專利文獻2)日本專利公開公報第2011-209931號
(專利文獻3)日本專利公開公報第2012-32859號
(專利文獻4)日本專利公開公報第2013-182338號
(專利文獻5)日本專利公開公報第2001-175735號
然而,於訴訟被提起了的階段時,由於專利文獻4之中所揭露了的文件分類系統係用於分析過去的事件,故無法藉由預測從目前起可能發生的事件、而得以採取防止其演變成,例如,訴訟等等於未然的預防措施。又,如專利文獻5之所敘述的按時序的預測裝置並非以便於吾人對訴訟中所用之文件訊息進行分析當作目的。
有鑑於上述之課題,本發明因而被研發出,其一目的在於提供一種文件分析系統、文件分析方法、以及文件分析程式,藉由分析現存的資料,而預測將來可能發生的事 件。
為了解決上述課題,本發明係提供一種文件分析系統,收集被記錄在指定的電腦或伺服器之中的訊息,而分析該收集到的訊息之中所含的複數之文件所構成的文件訊息,包括:一評分計算部,用以計算,使從上述文件訊息所取出的文件、與代表上述文件訊息和訴訟或不實行為調査之關聯性的分類碼互相關聯之強度的評分;一時期(phase)辨識部,基於由上述評分計算部所計算出的評分而辨識,根據指定的行為之進行而將可成為上述訴訟或不實行為調査之原因分類的時期;以及一轉變估測部,基於上述時期之時間性的變遷而估測,由上述時期辨識部所辨識出的時期之轉變。
又,上述文件分析系統更包括:一評分移動平均值計算部,計算由上述評分計算部所計算出的評分之移動平均值,其中上述轉變估測部係藉由計算,由上述評分移動平均值計算部所計算出的移動平均值、與指定的模式之相互關係而估測上述時期之轉變。
又,上述文件分析系統也可更包括:一呈現部,係將由上述轉變估測部所估測出的時期之轉變令使用者得以掌握地加以顯示。
又,上述文件分析系統也可更包括:一分類碼賦予部,利用上述文件訊息之中所含的關鍵字及/或文件,而對上述複數之文件的每一個賦予上述分類碼。
又,為了解決上述課題,本發明係提供一種文件分析方法,收集被記錄在指定的電腦或伺服器之中的訊息,而分析該收集到的訊息之中所含的複數之文件所構成的文件訊息,包括以下步驟:一評分計算步驟,計算,使上述文件訊息所取出的文件、與代表上述文件訊息和訴訟或不實行為調査之關聯性的分類碼互相關聯之強度的評分;一時期辨識 步驟,基於由上述評分計算部所計算出的評分而辨識,根據指定的行為之進行而將可成為上述訴訟或不實行為調査之原因分類的時期;以及一轉變估測步驟,基於上述時期之時間性的變遷而估測,由上述時期辨識部所辨識出的時期之轉變。
又,為了解決上述課題,本發明係提供一種文件分析程式,收集被記錄在指定的電腦或伺服器之中的訊息,而分析該收集到的訊息之中所含的複數之文件所構成的文件訊息,包括使電腦執行以下功能:一評分計算功能,計算,使上述文件訊息所取出的文件、與代表上述文件訊息和訴訟或不實行為調査之關聯性的分類碼互相關聯之強度的評分;一時期辨識功能,基於由上述評分計算部所計算出的評分而辨識,根據指定的行為之進行而將可成為上述訴訟或不實行為調査之原因分類的時期;以及一轉變估測功能,基於上述時期之時間性的變遷而估測,由上述時期辨識部所辨識出的時期之轉變。
藉著本發明之文件分析系統、文件分析方法、及文件分析程式,藉由分析現存的資料,而可預測將來可能發生的事件。因此,藉著上述文件分析系統等等,例如,令吾人可採取防止演變成訴訟等等不良之局面於未然的措施。
1‧‧‧文件分析系統
201‧‧‧第1自動分類部
301‧‧‧第2自動分類部
401‧‧‧第3自動分類部
501‧‧‧品質審査部
601‧‧‧學習部
701‧‧‧報導製作部
100‧‧‧資料儲存部
101‧‧‧數位訊息儲存區域
103‧‧‧調査基礎資料庫
104‧‧‧關鍵字資料庫
105‧‧‧關聯術語資料庫
106‧‧‧評分計算資料庫
107‧‧‧報導製作資料庫
109‧‧‧資料庫管理部
112‧‧‧文件取出部
114‧‧‧字詞搜尋部
116‧‧‧評分計算部
118‧‧‧文件分析部
120‧‧‧轉變估測部
122‧‧‧時期辨識部
124‧‧‧趨勢訊息生成部
130‧‧‧呈現部
131‧‧‧分類碼受理賦予部
133‧‧‧律師覆查受理部
140‧‧‧評分移動平均值計算部
142‧‧‧評分差分移動平均值計算部
11‧‧‧文件顯示畫面
圖1繪示出關於本發明之一實施樣態的文件分析系統之組成例的方塊圖。
圖2概要性地繪示出藉由轉變估測部所執行的估測(預測)的曲線圖。
圖3繪示出藉由呈現部所顯示之代表時期有轉變的樣態 之一例子的示意圖。
圖4繪示出上述文件分析系統中所執行的處理之一例子的流程圖。
圖5繪示出關於本發明之一實施樣態的文件分析方法中成為調査對象之文件案件1與案件2的歸屬度之表格。
圖6繪示出上述文件分析方法之中的評分與送件日之關係的圖形。
圖7繪示出上述文件分析方法之中的評分之移動平均值與送件日之關係的圖形。
圖8繪示出上述文件分析方法之中的評分之差分移動平均值與送件日之關係的圖形。
圖9繪示出評分之移動平均值的差分(DMA)、送件日期、重要的(上升)邊緣、及「進(IN)」之關係的表格。
圖10繪示出實施樣態之中的各階段之處理的流程之圖式。
圖11繪示出實施樣態之中的關鍵字資料庫之處理流程的圖式。
圖12繪示出本實施樣態之中的關聯術語資料庫之處理流程的圖式。
圖13繪示出本實施樣態之中的第1自動分類部之處理流程的圖式。
圖14繪示出本實施樣態之中的第2自動分類部之處理流程的圖式。
圖15繪示出本實施樣態之中的分類碼受理賦予部之處理流程的圖式。
圖16繪示出本實施樣態之中的分類碼賦予文件分析部之處理流程的圖式。
圖17繪示出在本實施樣態中的文件分析部之中的分析結 果之圖式。
圖18繪示出本實施樣態之一實施樣態之中的第3自動分類部之處理流程的圖式。
圖19繪示出本實施樣態之另一實施樣態之中的第3自動分類部之處理流程的圖式。
圖20繪示出本實施樣態之中的品質審查部之處理流程的圖式。
圖21本實施樣態之中的文件顯示畫面。
〔文件分析系統1的組成〕
關於本發明之一實施樣態的文件分析系統1係一種分析系統,其收集被記錄在複數之電腦或伺服器之中的大量的數位訊息(巨量資料(Big Data)),而按時序地分析該收集到的數位訊息之中所含的複數之文件所構成的文件訊息。在此,例如,選擇關於訴訟、不實行為調査、金融事件、天氣事件、或病症之診斷與治療的案件,而當作調査案件。
圖1為顯示文件分析系統1之組成例的方塊圖。如圖1所示,文件分析系統1由資料儲存部100(數位訊息儲存區域101、調査基礎資料庫103、關鍵字資料庫104、關聯術語資料庫105、評分計算資料庫106、報導製作資料庫107)、資料庫管理部109、文件取出部112、字詞搜尋部114、評分計算部116、時期(phase)辨識部122、轉變估測部120、評分移動平均值計算部140、評分差分移動平均值計算部142、第1自動分類部201、第2自動分類部301、呈現部130、分類碼受理賦予部131、文件分析部118、及第3自動分類部401所構成。又,文件分析系統1也可更具備趨勢訊息生成部 124、品質審查部501、學習部601、報導製作部701、律師覆查受理部133、語言判斷部(未圖示)、翻譯部(未圖示)、評分轉變偵測部(未圖示)、及評分轉變判斷部(未圖示)。
(資料儲存部100)
為了供訴訟或不實行為調査之分析的利用,資料儲存部100乃將從複數之電腦或伺服器收集到的數位訊息儲存於數位訊息儲存區域101。又,資料儲存部100包括調査基礎資料庫103、關鍵字資料庫104、關聯術語資料庫105、評分計算資料庫106、及報導製作資料庫107。此外,如圖1所示,資料儲存部100為文件分析系統1的內部之中所具有的記錄媒體、或是與該文件分析系統1連接而可進行通信之外部的記錄媒體。
調査基礎資料庫103係保有:代表是否屬於,包括例如反壟斷、專利、海外賄賂禁止法(Foreign Corrupt Practices Act,FCPA)、產品責任(Products Liability,PL)等等的訴訟案件,及/或包括洩漏秘密、虛假索賠等等的不實行為調査之任一範疇的範疇歸屬度、公司名稱、承辦者、機密文件保管者(Custodian)、以及調査或分類輸入畫面的結構。
關鍵字資料庫104係保有:收集到的數位訊息之中所含的文件之特定的分類碼、與該特定的分類碼有密切之關聯的關鍵字、以及代表該特定的分類碼與該關鍵字之對應關係的關鍵字對應訊息。
關聯術語資料庫105係保有:預定之分類碼、於被賦予該預定之分類碼的文件中,由出現次數高的單字所構成的關聯術語、以及代表該預定之分類碼與關聯術語之對應關係的關聯術語對應訊息。
評分計算資料庫106係保有:為了計算出代表文 件與分類碼之互相關聯之強度的評分、於該文件之中所含的字詞之權值。
報導製作資料庫107係保有:根據由範疇、機密文件保管者、分類作業的內容所定之報導文的格式。
(資料庫管理部109)
資料庫管理部109係管理調査基礎資料庫103、關鍵字資料庫104、關聯術語資料庫105、評分計算資料庫106、以及報導製作資料庫107等等之資料內容的更新。資料庫管理部109也可以是經由專用之連接線或網際網路線路901而連接於訊息儲存裝置902。又,在此情況時,資料庫管理部109也可基於儲存於訊息儲存裝置902之中的資料的內容而更新調査基礎資料庫103、關鍵字資料庫104、關聯術語資料庫105、評分計算資料庫106、以及報導製作資料庫107等等之資料內容。
(文件取出部112)
文件取出部112係從文件訊息中,取出複數之文件。
(字詞搜尋部114)
字詞搜尋部114係從文件訊息中,搜尋被記錄在資料庫之中的關鍵字或關聯術語。
(評分計算部116)
評分計算部116係計算:使從文件訊息中所取出的文件、與代表文件訊息和訴訟或不實行為調査之關聯性的分類碼互相關聯之強度的評分。評分計算部116也可依時序地計算上述評分。又,評分計算部116也可就將成為上述訴訟或不實行為調査之原因的指定的行為、依據該指定的行為之進行而分類出的每一時期而分別計算上述評分。此外,關於上述評分的計算方法,以下將詳細說明之。
(時期辨識部122)
時期辨識部122係藉著由評分計算部116所計算出的評分而辨識,根據指定的行為之進行而將可成為上述訴訟或不實行為調査之原因分類的時期。
在此,上述指定的行為可以是,例如,與反壟斷、專利、海外賄賂禁止、產品責任、洩漏秘密、虛假索賠等等不實之行為(例如,參加和競爭同業的價格調整會議等等)有關聯的行為。又,上述時期係代表上述指定的行為之進行的各階段之指標。例如,所謂之「Relationship Building」(關係建構)的時期為,在稱作Competition(競爭)之時期的前提下之所謂的顧客.競爭同業之關係的建構的階段。又,所謂之「Preparation」(準備)的時期為,稱為與競爭同業(即使是第三者亦可)之Competition有關的訊息交流階段,而所謂之「Competition」(競爭同業)的時期為,稱作向顧客提出報價、獲得回應、與該回應聯結而和競爭同業取得聯結的階段。因此,例如,所謂之「來自顧客的詢問」之指定的行為係屬於「Relationship Building」(關係建構)的時期。所謂之「競爭同業之生產情況的獲得」之指定的行為係屬於「Preparation」(準備)的時期。
時期辨識部122係基於由評分計算部116所計算出的評分,而辨識「目前處於何種時期」。具體而言,對應於上述時期的評分係藉由評分計算部116分別地被計算出、而時期辨識部122則根據分別對上述評分進行比較了的結果,辨識出上述時期(例如,採上述評分為最大值時的時期)。
或者,於各個時期正被對應到評分之值的範圍的情況時,時期辨識部122也可是辨識對應於上述評分的時期。又,時期辨識部122也可是辨識:將代表由預定之行為實體(由一個或多數人所構成的組織)所造成之上述指定的行為之過程的模型(觀察過程、概似度函數)之概似度(依各個 時期而當作上述評分所被計算出的值)極大化的時期(最概似時期)。
(轉變估測部120)
轉變估測部120係基於時期之時間性的變遷,而估測由時期辨識部122所辨識出的時期之轉變。具體而言,例如,所謂「Relationship Building」(關係建構)的時期為,在經過了所謂「Preparation」(準備)的時期,而演變成所謂「競爭」(競爭同業)的時期之所稱之一連串的變遷係,(例如,藉由保有代表時期之時間性的序列之時序訊息等等)在明顯的情況時,現在的時期為在「Preparation」(準備)的時期中且藉由時期辨識部122所辨識出的情況時,轉變估測部120則估測接著將演變成所謂「Competition」(競爭同業)的時期。
或者,轉變估測部120也可藉由對評分移動平均值計算部140所計算出的移動平均值與預定之模式的相互關係進行計算而估測時期的轉變。在此,上述的預定之模式也可以是:從不同於該訴訟或不實行為調査之其他的訴訟或不實行為調査之中所計算出的評分之隨著期間的經過而轉變之模式。
例如,在過去被提起了的訴訟中,為了提出證據訊息,故使與該訴訟連結並加以分析,而在上述評分之移動平均值被算出了的情況時,轉變估測部120就將該移動平均值當作上述預定之模式,而就對於本次被分析的文件訊息之評分的移動平均值與該預定之模式之間的相互關係加以計算。換言之,轉變估測部120係一面推移經過了的期間及/或評分,一面計算兩者之一致性(相互關係)。在兩者之相互關係變高的情況時,本次的評分在將來中將與上述預定之模式呈相互連動般地,轉變估測部120將採用相同的值並加以估測。因此,可藉由時期辨識部122而基於將來可能的評 分辨識出將來的時期。
圖2為一曲線圖,其概要性地顯示出:藉由轉變估測部120所執行的估測(預測)。該曲線圖的縱軸係代表評分的大小,横軸則代表經過了的期間。如圖2所示,在本次所計算出的評分(其移動平均值)較過去所計算出的評分(其移動平均值,預定之模式)之一致性(相互關係)為高的情況時,為了假設尚未算出之將來的評分也會有一致性較高之故,故與過去的評分呈相互連動般地,轉變估測部120係估測將來的評分。
(評分移動平均值計算部140)
評分移動平均值計算部140係計算:由評分計算部116所計算出的評分之移動平均值。
(評分差分移動平均值計算部142)
評分差分移動平均值計算部142係從上述評分的短期移動平均值與長期移動平均值而計算上述評分的差分移動平均值。
(第1自動分類部201)
在藉由字詞搜尋部114搜尋了儲存在關鍵字資料庫104之中的關鍵字,且藉由文件取出部112從文件訊息之中取出了包括有該關鍵字之文件的情況時,第1自動分類部201係基於關鍵字對應訊息而對該取出的文件自動地賦予特定之分類碼。
(第2自動分類部301)
在從文件訊息之中取出包括有儲存在關聯術語資料庫之中的關聯術語之文件,且基於該取出的文件之中所含的關聯術語的評估值、與該關聯術語的數量,而計算出評分的情況時,在包括有上述關聯術語的文件之中,第2自動分類部301係基於該評分與關聯術語的對應訊息而對該評分超過了固定 值的文件自動地賦予預定的分類碼。
(呈現部130)
呈現部130係令使用者得以掌握地顯示:由上述轉變估測部120所估測出的時期之轉變。
圖3為一示意圖,其顯示出:由呈現部130所顯示出之代表時期之轉變的樣態之一例子。如圖3所示,由時期辨識部122所辨識出的現在之時期、及由轉變估測部120所估測出的時期之從此之後轉變下去的樣態,係顯示成令使用者得以掌握者(可視化)。於圖3所示之例子中,縱軸係代表時期(範疇、類別),横軸則代表經過了的期間。又,圓形的大小也可代表分析了的文件的數目,而顏色的種類或濃度也可代表概似度的大小。在以點線繪製圓形的情況時,該圓形也可代表著預測(估測)出的結果,而該圓形的大小則也可代表著預測的文件數目,且顏色也可代表著預測的可信度。此外,呈現部130也可在畫面上顯示出從文件訊息所取出的複數之文件。
(分類碼受理賦予部131)
對於從文件訊息之中取出的尚未被賦予分類碼的複數之文件,分類碼受理賦予部131係基於使用者之與訴訟的關聯性而接受賦予了的分類碼,並賦予該分類碼。
(文件分析部118)
文件分析部118係分析被分類碼受理賦予部131賦予了分類碼之文件。又,除了基於與訴訟的關聯性而對接受來自使用者、並被其賦予了分類碼之文件以外,於第1自動分類部201與第2自動分類部301之中,文件分析部118還可以是:基於關鍵字、關聯術語、評分而自動地分析被賦予了分類碼的文件,並整合接受來自使用者、並被其賦予了分類碼之上述文件與自動地被賦予了分類碼之上述文件,而獲得綜 合的分析結果。在此情況中,第3自動分類部401係能夠基於該綜合的分析結果,而自動地賦予分類碼。
此外,在分類及調査作業的進行方式中,將有經由字詞搜尋而進行的自動分類、經由使用者而進行的分類及調査的受理、利用評分而進行的自動分類及調査、將學習過程***而進行的自動分類及調査、將品質確認***而進行的自動分類及調査等等之各種各樣的進行方式。上述各種各樣的分類及調査作業也可是:將代表以怎樣的順序、怎樣地被組合而進行了的進行履歴、連同由文件分析部118對被賦予了分類碼的複數之文件進行分析,而由下述的報導製作部701將該分析了的結果加以報導者。
(第3自動分類部401)
第3自動分類部401係基於文件分析部118對被分類碼受理賦予部131賦予了分類碼之文件的分析結果,而自動地對從文件訊息取出的複數之文件賦予分類碼。
(趨勢訊息生成部124)
為了文件分析部118的分析,趨勢訊息生成部124係基於各個文件所含之單字的種類、出現次數、單字的評估值而生成代表各個文件所具有之分類碼與其被賦予了的文件之間的類似之程度的趨勢訊息。
(品質審查部501)
品質審查部501係比較由分類碼受理賦予部131所受理的分類碼、與由文件分析部118根據趨勢訊息而被賦予了的分類碼,並驗證由分類碼受理賦予部131所受理了的分類碼之正確性。
(學習部601)
學習部601係基於對文件進行分類處理了的結果,而進行各關鍵字或關聯術語之權值的學習。學習部601係基於第1 至第4之處理結果(後述),而根據式(2)學習各關鍵字或關聯術語之權值。學習部601也可將該學習結果反應於關鍵字資料庫104、關聯術語資料庫105、或評分計算資料庫106之中。
(報導製作部701)
報導製作部701係基於對文件進行分類處理了的結果,而依據訴訟案件或不實行為調査之調査種類,而產生最佳的調査報告。此外,如上所述,就訴訟案件而言,例如,包括反壟斷、專利、海外賄賂禁止(FCPA)、產品責任(PL)等等。又,就不實行為調査而言,例如,包括洩漏秘密、虛假索賠等等。
(律師覆查受理部133)
為了提高分類調査與報導的品質、及釐清分類調査與報導的責任,律師覆查受理部133係受理主任律師或主任專利師的覆查。
(其他的結構)
語言判斷部(未圖示)係判斷取出了的文件之語言的種類。
翻譯部(未圖示)係接受使用者的指示、或自動地翻譯取出了的文件。在此,為了能夠處理同一文件中具多種語言的多語言,故較佳地使語言判斷部之中的語言之定義符比同一文件為小。又,就語言的判斷而言,可採用預測式編碼、字元編碼的任一種、或也可採用兩者。進一步地,也可進行將HTML(超文件標記語言,Hyper Text Markup Language)之標題等等排除於翻譯之對象的處理。
評分轉變偵測部(未圖示)係偵測由評分計算部116所計算出的評分之時序的轉變。
評分轉變判斷部(未圖示)係從由評分轉變偵測 部120所偵測出的評分之時序的轉變,而判斷調査案件與所取出了的文件之間的關聯性。
〔術語的說明〕
「分類碼」是為了對文件進行分類而被使用的識別子,且是為了使文件在訴訟之中便於使用、而作為代表與該訴訟之關聯性的識別子。例如,於訴訟之中,將文件訊息當作證據使用的情況時,也可根據證據的種類而對其賦予分類碼。
「文件」是包括一個以上之單字的資料,例如,也可是電子郵件、簡報資料、表計算資料、事前協議資料、契約書、組織圖、事業計畫書等等。
「單字」是具有涵義之最少的文字列之一整體。例如,在「所謂之文件,為包括一個以上之單字的資料。」的文章之中,係包含「文件」、「一個」、「以上」、「單字」、「包括」、「資料」、「所謂之」的單字。
「關鍵字」是在某種語言中,具有固定之涵義的文字列之一整體。例如,如果從「將文件分類」的文章之中選擇關鍵字的話,則可以將「文件」、「分類」當作關鍵字。在本實施樣態中,優先地選擇出「侵權」、「訴訟」、或者「專利公報第○○號」等等之關鍵字。此外,上述「關鍵字」也可包括詞素。
「關鍵字對應訊息」是代表關鍵字與特定之分類碼的對應關係之訊息。例如,於訴訟中,代表重要之文件的所謂之「重要」的分類碼在與所謂之「侵權者」的關鍵字具有密切之關聯的情況時,上述「關鍵字對應訊息」也可是將分類碼「重要」與關鍵字「侵權者」聯結而加以管理的訊息。
「關聯術語」是:在被賦予了的預定之分類碼的文件之中皆共同地出現之次數較高之單字之中,其評估值為固定值以上的術語。在此,出現次數也可是,例如,在一個 文件之中出現之單字的總數目之中,關聯術語之出現的比例。
於一具有各單字之文件中,「評估值」係代表顯現之訊息量的值。「評估值」也可以傳輸訊息量為基準地加以計算。例如,將預定之商品名稱當作分類碼加以賦予的情況時,上述「關聯術語」也可指該商品所屬之技術領域的名稱、該商品的銷售國家、該商品之類似的商品名稱等等。具體而言,將加以執行影像編碼化處理之裝置的商品名稱當作分類碼加以賦予的情況時,「關聯術語」將例如是「編碼化處理」、「日本」、「編碼器」等等。
「關聯術語對應訊息」係所謂:代表關聯術語與分類碼之對應關係的訊息。例如,在與訴訟有關之商品名稱的「產品A」之分類碼之中,具有所謂之產品A的功能之「影像編碼化」的關聯術語的情況時,「關聯術語對應訊息」也可是將分類碼「產品A」與關聯術語「影像編碼化」聯結而加以管理的訊息。
「評分」係所謂:對某一文件而言,定量地就其與特定之分類碼之互相關聯的強度所評估出的值。在本發明之各實施樣態之中,例如,利用以下之式(1),藉由文件之中出現的單字與各單字所具有之評估值,而將評分計算出來。
Scr:文件的評分
mi:第i個關鍵字或關聯術語的出現次數
:第i個關鍵字或關聯術語的權值
文件分析系統1也可取出:由使用者對其賦予了分類碼之共同的文件之中所頻繁出現的單字。因此,也可就 每一文件分析:每一文件之中所含之該取出的單字之種類、各單字所具有之評估值、及出現次數之趨勢訊息,且也可就未受理到由分類碼受理賦予部131而來的分類碼之文件當中,針對分析出的趨勢訊息與具有相同之趨勢的文件,賦予共同的分類碼。
在此,「趨勢訊息」為:各個文件所具有之代表與被賦予了分類碼之文件的類似之程度的訊息,且為:基於各個文件所包含之單字的種類、出現次數、單字的評估值,而藉由其與預定之分類碼的關聯性而被顯現出之訊息。例如,就被賦予了預定分類碼之文件與該預定分類碼與關聯性而言,在各個文件呈類似的情況時,該二文件係稱為具有相同的趨勢訊息。又,即使其所含之單字的種類相異,如果其為包括有以相同的出現次數出現之評估值為相同的單字之文件的話,則也可將其當作具有相同之趨勢的文件。
〔在文件分析系統1之中被執行的處理〕
圖4係代表(根據本發明之一實施樣態的文件分析方法之)在文件分析系統1之中被執行的處理之一例子的流程圖。此外,在以下的說明之中,括號的「~步驟」係代表上述文件分析方法(文件分析系統1的控制方法)之中所含的各步驟。
首先,評分計算部116係計算:從文件訊息所取出的文件、與代表該文件訊息和訴訟或不實行為調査之間的關聯性之分類碼互相關聯之強度的評分(S11,評分計算步驟)。接著,時期辨識部122將上述訴訟或不實行為調査之原因的指定之行為,而基於在評分計算部116之中所計算出的評分,俾辨識依據該指定之行為的進行而分類出的時期(S12,時期特定步驟)。因此,轉變估測部120係基於上述時期之時間性的變遷,而估測在時期辨識部122之中所辨識 出的時期之轉變(S13,轉變估測步驟)。
〔在文件分析系統1之中被執行的處理之細節〕
以下進一步說明根據本發明之一實施樣態的文件分析方法。圖5係代表:在根據本發明之一實施樣態的文件分類調査方法之中,將成為調査對象之文件案件1與案件2之間的歸屬度藉由表格加以表示者。
案件1與案件2的文件係藉由電子郵件等等之任一種所構成者。案件1與案件2的文件也可當作用以最佳化預測編碼(特別在此當中,例如,取樣、檔案歸類等等)而被使用的案例。權值與評分係基於與「有關聯(Responsive)」之文件有關智訊息而被算出者。此外,在本發明之一實施樣態中,案件1之電子郵件文件係大部分以英文被寫成,而案件2之電子郵件文件則是以日文及英文的兩種被寫成。案件1與案件2之電子郵件文件係可以當作部分集合加以利用。
又,在本發明之一實施樣態之中,係採用從2000年4月1日到2013年3月31日者當作案件2之電子郵件文件使用。
以案件2之文件為例,以下將說明評分之時序的分析。一開始,請一面對照圖6,其就有關於案件2之機密文件保管者1的電子郵件文件而言,係顯示出評分與送件日期之關係的一例子。
接著,以評分為基礎地,求出評分的移動平均值,且就藉由分析該移動平均值而得到的特徵與趨勢加以說明。在此,移動平均值(Moving Average,MA)為: 。在此,SMAM為,{ScrM、ScrM-1、…、ScrM-(n-1)}之簡單移動平均值。又,ScrM為電子郵件文件M的評分。
與各個文件(電子郵件)M有關地,簡單移動平均值SMA係:基於其評分ScrM與將電子郵件M之送件日之前的指定天數當作送件日之電子郵件的評分{ScrM-1、…、ScrM-(n-1)}而被計算出者。可適當地決定指定天數,而在本實施樣態之中,係將7日間定為短期、將30日間定為中期、及將90日間定為長期。
藉由利用簡單移動平均值SMA,可以使原評分值之大幅的變動變得平緩。
圖7係顯示評分之移動平均值與送件日期之關係的圖形。評分之移動平均值的指定天數為,例如,如上述般地定為短期(7日間)、中期(30日間)、長期(90日間),而分別就其移動平均值加以計算,俾如圖6所示般地。此外,在圖7中,「熱(HOT)」的點僅顯示出送件日期。在此,就短期的移動平均值而言,在數值有大幅變動的位置處,可將該位置推定成與「熱(HOT)」電子郵件有相互關係。
接著,就差分移動平均值的計算加以說明。移動平均值的差分(DMA)係表示成:〔數學式3〕△MAM12=△MAM1-△MAM2。在此, MAM1為:移動平均值1(較短期間:例如,短期(7日間))
MAM2為:移動平均值2(較長期間:例如,中期(30日間))。
在差分移動平均值△MAM12的值變成「正」(+)的情況時,則在當前的期間(亦即,短期間)之中,其代表著:評分的值曾較大過,且在該短期間中,有進行相對較多的「熱(HOT)」電子郵件的送付等等,而推定成發生了應該加以調査的轉變。因此,經由差分移動平均值,關於電子郵件文件,將可能收集到藉由評分的簡單之比較所無法得到之特徵與趨勢。在此所謂之特徵與趨勢的轉變為,例如,就差分移動平均值曲線的相交加以偵測。
圖8係顯示:從2004年4月1日到2006年3月31日之間的評分之移動平均值的差分(DMA)與送件日期之關係的圖形。縱軸的移動平均值之差分(DMA)係藉由移動平均值加以標準化。
圖9係顯示:評分之移動平均值的差分(DMA)、送件日期、重要的(上升)邊緣(EDGE)、與「進(IN)」之關係的表格。以下就「熱(HOT)」電子郵件與移動平均值的差分(DMA)之間的相互關係加以說明。又,也將就朝著差分移動平均值(DMA)曲線之重要的(上升)邊緣之臨近性加以說明。
所謂之重要的(上升)邊緣(EDGE),係指:移動平均值的差分(DMA)從「負」(-)轉變成「正」(+)的位置,亦即,移動平均值的差分(DMA)曲線與水平軸的相交點。
「進(IN)」係代表著:移動平均值的差分(DMA)為「正」(+)的區域。
就機密文件保管者1的「熱(HOT)」電子郵件文件而言,例如,就同一日期及同一評分值之重複了的電子郵件之存在與否加以說明。藉由刪除重複了的電子郵件文件,將可使「熱(HOT)」電子郵件文件的數目從98件電子 郵件減少成86件電子郵件。由於相異的位址而無法辨識其送件人之電子郵件的數目將為4件電子郵件,故就數目而言,幾乎不存在。
就機密文件保管者1之「熱(HOT)」電子郵件而言,雖然大部分的評分並非較大的數值,但這些在送件了的日期之中,其「邊緣(EDGE)」或「進(IN)」將被偵測出來。
2012年11月及之後所送件了的電子郵件文件即不具有「邊緣(EDGE)」、也不具有「進(IN)」。因此,將該些電子郵件推定成:其係關於與機密文件保管者1具有相同之網域的特定人士之間所進行了的極頻繁之通信。
以下將就時序的資料加以敘述。移動平均值(MA)與移動平均值的差分(DMA)係:在時序的資料之中,有利於用以找出基本的特徵與趨勢之指標。
移動平均值的差分(DMA)之「邊緣(EDGE)」係不僅得以使對評分之趨勢的轉變點之偵測成為可能,也得以成為顯示出「熱(HOT)」電子郵件之存在的指標。
利用評分值之移動平均值(MA)或移動平均值的差分(DMA)的分析為偵測出時序的資料之中的特定之特徵的可能性(例如,有可能性「熱(HOT)」)。藉此,將可能就特定之機密文件保管者或機密文件保管者之特定的組群進行選擇性的訊息提供(Selective Dissemination of Information;SDI)。
以下將敘述時序的資料之分析的執行步驟之一例子。
根據本發明之一實施樣態,時序的資料之分析,例如,使其與文件的分類互相連結,而在文件的分類處理之中加以執行。以下將敘述文件的分類處理之一例子。在文件 的分類處理中,係依照如圖10所示之流程圖,在第1階段到第5階段之中,藉由登錄處理、分類處理、及查核處理而加以執行。
在第1階段之中,利用過去的分類處理之結果,而預先地進行關鍵字與關聯術語之更新登錄(步驟100)。此時,關鍵字及關聯術語係連同:屬於分類碼與關鍵字或關聯術語之對應訊息的關鍵字對應訊息及關聯術語對應訊息一起被更新登錄。
在第2階段之中,從全部的文件訊息之中取出含有在第1階段之中被更新登錄了的關鍵字之文件,且如果發現了該文件,就對照在第1階段中所記錄了的更新之關鍵字對應訊息,並進行賦予對應於該關鍵字之分類碼的第1分類處理(步驟200)。
在第3階段之中,將含有在第1階段之中更新登錄了的關聯術語之文件,從在第2階段之中未被賦予了分類碼的文件訊息之中取出,並計算含有該關聯術語之文件的評分。對照該計算出的評分與在第1階段之中更新登錄了的關聯術語之對應訊息,而進行用以執行分類碼之賦予的第2分類處理(步驟300)。
在第4階段之中,對到第3階段為止尚未被賦予了分類碼的文件訊息,進行接受由使用者所賦予了的分類碼,並對該文件訊息賦予從使用者所接受到的分類碼。接著,就被賦予了從使用者所接受到的分類碼之文件訊息加以分析,且基於分析結果,取出未被賦予了分類碼的文件,並對取出了的文件進行對其賦予分類碼之第3分類處理。例如,從由該使用者皆共同地賦予了的分類碼之文件之中,取出在其中頻繁出現的用語,並就每個文件分析:全部的文件之中所含之取出了的單字的種類、各單字所具有之評估值及出現 次數的趨勢訊息,對於與該趨勢訊息有相同之趨勢的文件,進行共同之分類碼的賦予(步驟400)。
在第5階段之中,對於在第4階段之中、由使用者賦予了分類碼的文件,基於分析出的趨勢訊息而決定所應賦予之分類碼,並比較該決定出的分類碼與使用者所賦予了的分類碼,且進行分類處理之正確性的驗證(步驟500)。又,可依照所需,也可進行基於文件分類處理之結果的學習處理。
在第4階段與第5階段的處理之中所使用的趨勢訊息係所謂:代表各個文件所具有之與被賦予了分類碼的文件之類似的程度者,也是所謂基於各個文件所含之單字的種類、出現次數、單字的評估值者。例如,在被賦予了預定分類碼的文件與該預定分類碼之關聯性之中,在各個文件呈類似的情況時,即將該二文件稱為具有相同的趨勢訊息。又,即使所含之單字的種類相異,但就含有評估值相同的單字、並以相同的出現次數在其中出現的文件而言,也可將其稱為具有相同之趨勢的文件。
以下將說明從第1階段到第5階段之各階段之中的詳細之處理流程。
<第1階段(步驟100)>
利用圖11說明第1階段之中的關鍵字資料庫104之詳細的處理流程。
關鍵字資料庫104係依據過去的訴訟之中就文件分類出的結果,而針對每一分類碼製作用以管理每一分類碼所需的表格,並辨識對應於各分類碼的關鍵字(步驟111)。在本發明之一實施樣態中,此辨識雖然藉由分析被賦予了各分類碼的文件、並利用該文件之中的各關鍵字之出現次數及評估值而加以執行,但也可利用關鍵字所具有之傳輸訊息量的方法、或也可利用由使用者以手動的方式加以選擇的方法。
在本發明之一實施樣態之中,在當作分類碼「重要」的關鍵字,例如,「侵權」及「專利師」所謂之關鍵字,被辨識出的情況時,則製作代表「侵權」及「專利師」與分類碼「重要」有密切的關聯之關鍵字的關鍵字對應訊息(步驟112)。因此,將辨識出的關鍵字在關鍵字資料庫104之中登錄。在此,將辨識出的關鍵字與關鍵字對應訊息記錄在使其相關聯之關鍵字資料庫104的分類碼「重要」之管理表格之中(步驟113)。
接著,利用圖12說明關聯術語資料庫105之詳細的處理流程。關聯術語資料庫105係依據過去的訴訟之中就文件分類出的結果,而針對每一分類碼製作用以管理每一分類碼所需的表格,並將與各分類碼對應的關聯術語加以登錄(步驟121)。在本發明之一實施樣態之中,例如,將「編碼化處理」當作「產品A」的關聯術語、且將「解碼化」及「產品b」當作「產品a」以及「產品B」的關聯術語加以登錄。
製作可表示出登錄了的分類的關聯術語係與哪個分類碼對應的關聯術語對應訊息(步驟122),並將其記錄在各管理表格之中(步驟123)。此時,在關聯術語對應訊息之中,也一併將用以決定各關聯術語所具有之評估值及分類碼所必須的評分當作門檻值而加以記錄。
實際上,在進行分類作業之前,將關鍵字與關鍵字對應訊息、及關聯術語與關聯術語對應訊息更新登錄成最新的資料(步驟113、步驟123)。
<第2階段(步驟200)>
以下利用圖13說明第2階段之中的第1自動分類部201之詳細的處理流程。在本發明之一實施樣態之中,在第2階段中,藉由第1自動分類部201進行將分類碼「重要」賦予 給文件的處理。
在第1自動分類部201之中,從文件訊息之中取出其中含有在第1階段(步驟100)時登錄在關鍵字資料庫104之中的關鍵字「侵權」及「專利師」的文件(步驟211)。對於該取出了的文件,則從關鍵字對應訊息開始,藉由對照記錄了該關鍵字的管理表格(步驟212),而將稱為「重要」之分類碼賦予給該取出了的文件(步驟213)。
<第3階段(步驟300)>
以下利用圖14說明第3階段之中的第2自動分類部301之詳細的處理流程。
在本發明之一實施樣態之中,在第2自動分類部301中,對在第2階段(步驟200)時未被賦予了分類碼的文件訊息進行稱為「產品A」及「產品B」之分類碼的賦予處理。
第2自動分類部301係從該文件訊息之中取出:含有在第1階段時、在關聯術語資料庫105之中記錄了的關聯術語「編碼化處理」、「產品a」、「解碼化」及「產品b」之文件(步驟311)。對於該取出了的文件,則基於記錄了的四個關聯術語的出現次數、評估值,並利用式(1),而藉由評分計算部116計算該取出了的文件之評分(步驟312)。該評分係代表著各個文件與分類碼「產品A」及「產品B」之間的關聯性。
在該評分超過了門檻值的情況時,就對照關聯術語對應訊息(步驟313),而賦予適當的分類碼(步驟314)。
例如,在某個文件之中,關聯術語「編碼化處理」及「產品a」的出現次數以及關聯術語「編碼化處理」所具有之評估值變大,且代表與分類碼「產品A」之關聯性的評分超過了門檻值之時,該文件將被賦予分類碼「產品A」。
此時,如果在該文件之中,關聯術語「產品b」的出現次數也變多,且代表與分類碼「產品B」之關聯性的評分超過了門檻值的情況時,就連同分類碼「產品A」、也將「產品B」賦予給該文件。另一方面,在該文件之中,關聯術語「產品b」的出現次數變少,且代表與分類碼「產品B」之關聯性的評分並未超過門檻值的情況時,就僅將分類碼「產品A」賦予給該文件。
在第2自動分類部301中,利用在第4階段的步驟432中所計算出的評分,並藉由下記的式(2),重新計算關聯術語的評估值,而進行該評估值之加權處理(步驟315)。
wgti,0:學習之前的第i個選擇關鍵字的權值(初始值)
wgti,L:第L次之學習後的第i個選擇關鍵字的權值
γL:於第L次之學習中的學習參數
θ:學習效果的門檻值
例如,即使「解碼化」的出現次數是非常地多,但如果評分是低於某固定值或更低、且此種文件是出現了一定次數或更多次的情況時,就再次地降低關聯術語「解碼化」的評估值,並記錄到關聯術語對應訊息之中。
<第4階段(步驟400)>
在第4階段之中,如圖15所示般地,針對到第3階段為止的處理中、尚未被賦予了分類碼的文件訊息之中所取出的固定之比例的文件訊息,接受由覆查者所賦予的分類碼,並將接受到的分類碼賦予給該文件訊息。接著,如圖16所示般地,分析被賦予了從覆查者所接受到的分類碼之文件訊息, 並基於該分析結果,而賦予分類碼給未被賦予分類碼的文件訊息。此外,在本發明之一實施樣態之中,在第4階段中,對該文件訊息進行,例如,稱為「重要」、「產品A」及「產品B」之分類碼的賦予處理。就第4階段而言,以下有進一步的敘述。
以下利用圖15說明第4階段之分類碼受理賦予部131之詳細的處理流程。由作為第4階段之處理對象的文件訊息開始,首先,文件取出部112係隨機地對文件進行取樣,並將其顯示在文件呈現部130之上。在本發明之一實施樣態之中,隨機地取出當作處理對象之文件訊息之中的兩成的文件,並依覆查者之決定而作為分類對象。取樣也可以是以下之取出的方式:即依文件的製作日期時間順序、名稱順序等等將文件加以排序,而選出前面三成的文件。
使用者係閱覽在文件呈現部130之上、所顯示出之如圖21所示之文件顯示畫面11,並選擇將賦予給各個文件的分類碼。分類碼受理賦予部131係接受由該使用者所選擇了的分類碼(步驟411),並基於被賦予的分類碼而加以分類(步驟412)。
接著,以下利用圖16說明文件分析部118之詳細的處理流程。在文件分析部118中,以分類碼受理賦予部131取出在依每分類碼而被分類了的文件中共同地頻繁出現的單字(步驟421)。藉由式(2)分析取出了的共同之單字的評估值(步驟422),並分析該共同之單字在文件之中的出現次數(步驟423)。
進一步地,依據經過步驟422及步驟423所分析出的結果,就被賦予了稱為「重要」之分類碼的文件之趨勢訊息加以分析(步驟424)。
圖17為,經由步驟424,而對被賦予了稱為「重 要」之分類碼的文件之中共同地頻繁出現的單字進行分析了的結果之圖形。
在圖17中,縱軸R_hot為:在由使用者賦予了分類碼「重要」之全部的文件當中,含有當作與分類碼「重要」聯結之單字而被選定了的單字,且顯示著被賦予了分類碼「重要」之文件的比例。横軸為:在由使用者對其施加了分類處理的全部的文件當中,顯示著其中含有藉由分類碼受理賦予部131在步驟421時取出了的單字之文件的比例。
在本發明之一實施樣態之中,在分類碼受理賦予部131中,將被繪於直線R_hot=R_all之更上方處的單字,當作在分類碼「重要」之中的共同之單字加以取出。
在步驟421至步驟424的處理,即使對稱為「產品A」及「產品B」之所謂被賦予分類碼的文件加以執行,而分析該文件之趨勢訊息。
接著,以下利用圖18說明第3自動分類部401之詳細的處理流程。在第3自動分類部401中,於第4階段時的處理對象之文件訊息當中,對於在步驟411中之未接受了來自分類碼受理賦予部131之分類碼的賦予的文件進行處理。在第3自動分類部401之中,從這樣的文件開始,將被賦予了在步驟424時所分析了的分類碼「重要」、「產品A」及「產品B」之文件的趨勢訊息,與具有相同之趨勢訊息的文件加以取出(步驟431),而就取出了的文件,則基於趨勢訊息而利用式(1)計算評分(步驟432)。又,基於趨勢訊息,而對在步驟431中所取出了的文件賦予適當的分類碼(步驟433)。
在第3自動分類部401中,進一步地,利用在步驟432中所計算出的評分,將分類結果反應於各資料庫之中(步驟434)。具體而言,也可以對評分較低的文件之中所含 著的關鍵字及關聯術語的評估值進行降低處理、並對評分較高的文件之中所含著的關鍵字及關聯術語的評估值進行提高處理。
進一步地,以下利用圖19說明第3自動分類部401之詳細的處理流程的一例子。在第3自動分類部401中,在第4階段時的處理對象之文件訊息當中,也可對在步驟411時、未接受到來自分類碼受理賦予部131之分類碼的賦予之文件進行分類處理。在第3自動分類部401中,於未被給與了自變數的情況時(步驟441:無),從該文件開始,將被賦予了在步驟424時所分析了的分類碼「重要」之文件的趨勢訊息,與具有相同之趨勢訊息的文件加以取出(步驟442),而就取出了的文件,則基於趨勢訊息而利用式(1)計算評分(步驟443)。又,基於趨勢訊息,而對在步驟442中所取出了的文件賦予適當的分類碼(步驟444)。
在第3自動分類部401中,進一步地,利用在步驟443中所計算出的評分,將分類結果反應於各資料庫之中(步驟445)。具體而言,對評分較低的文件之中所含的關鍵字及關聯術語之評估值進行降低處理,另一方面,評分較高的文件之中所含的關鍵字及關聯術語之評估值進行提高處理。
如上述般地,在第2自動分類部301與第3自動分類部401的兩者之中皆進行評分計算,而在評分計算的次數變多的情況時,也可將用於評分計算所需的資料全部儲存於評分計算資料庫106之中。
<第5階段(步驟500)>
以下利用圖20說明第5階段之中的品質審查部501之詳細的處理流程。在品質審查部501中,分類碼受理賦予部131係基於文件分析部118在步驟424時分析了的趨勢訊息、而 決定應該賦予給在步驟411時所接受到之文件的分類碼(步驟511)。
分類碼受理賦予部131係就接受到的分類碼與在步驟511時決定了的分類碼加以比較(步驟512),並驗證在步驟411時接受到的分類碼之正確性(步驟513)。
〔文件分析系統1可達成的效果〕
根據文件分析系統1,藉由分析現存的資料,而可預測將來可能發生的事件。因此,根據文件分析系統1,例如,令吾人可採取防止演變成訴訟等等不良之局面於未然的措施。
〔補充事項〕
文件分析系統1的控制方塊也可藉由積體電路(IC晶片)等等所形成的邏輯電路(硬體)而加以實現,又,亦可利用CPU(中央處理單元,Central Processing Unit)而藉由軟體加以實現。在後者的情況時,文件分析系統1係具備CPU,其執行藉以實現各功能之軟體的程式(控制程式)之命令、ROM(Read Only Memory)或記憶裝置(在此將該等稱為「記錄媒體」),供上述程式及各種資料可由電腦(或CPU)讀取地被記錄在其中、RAM(隨機存取記憶體,Random Access Memory),藉以展開上述程式、及等等。因此,藉由電腦(或CPU)從上述記錄媒體讀取上述程式而加以執行,將可達成本發明之目的。就上述記錄媒體而言,係「非暫時性的實體之媒體」,例如可利用磁帶、碟片、插卡、半導體記憶體、可程式化的邏輯電路等等。又,上述程式也可經由能傳送該程式之任一傳送手段(通信網絡、無線播送訊號等)而提供給上述電腦。本發明也可能藉由以下樣態加以實現:即嵌埋於藉由將上述程式以電子形式之傳送而被具體實施成的傳輸訊號之中的資料信號。
雖然已藉由上述之各實施樣態說明本發明,然其 並非用以限制本發明,本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之組合、更動與潤飾而得以構成新的技術特徵,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
一種文件分類調査系統,收集被記錄在複數之電腦或伺服器之中的數位訊息,並分析該收集到的數位訊息之中所含的複數之文件所構成的文件訊息,且為了達成調査案件時的使用方便,故透過將代表與調査案件之關聯性的分類碼賦予給文件而就調査案件與文件之間的關聯性進行調査,其特徵在於包括:一評分計算部,從上述文件訊息取出文件,而就所取出的文件,按時序地計算代表文件與分類碼之間互相關聯之強度的評分、一評分轉變偵測部,從計算出的評分偵測評分之時序的轉變、及一評分轉變判斷部,從偵測出的評分之時序的轉變而調査判斷調査案件與取出的文件之間的關聯性。
一種文件分類調査系統,其中前述評分轉變偵測部之特徵在於包括:一評分移動平均值計算部,計算評分的移動平均值、及一評分差分移動平均值計算部,從評分的短期移動平均值與長期移動平均值計算出評分的差分移動平均值。
一種文件分類調査系統,其中前述評分轉變判斷部之特徵在於:從不同的移動平均值之差分的正負符號有轉變的點開始、或從不同的移動平均值之差分為正的區域開始,調査判斷調査案件與取出的文件之間的關聯性。
一種文件分類調査方法,收集被記錄在複數之電腦或伺服器之中的數位訊息,並分析該收集到的數位訊息之中所含的複數之文件所構成的文件訊息,且為了達成調査案件時的使用方便,故透過將代表與調査案件之關聯性的分類 碼賦予給文件而就調査案件與文件之間的關聯性進行調査,其特徵在於:由電腦從上述文件訊息取出文件,而就所取出的文件,按時序地計算代表文件與分類碼之間互相關聯之強度的評分、並從計算出的評分偵測評分之時序的轉變、及從偵測出的評分之時序的轉變而對調査案件與取出的文件之間的關聯性進行調査。
一種文件分類調査方法,其特徵在於:藉由計算評分的移動平均值,而計算評分的短期移動平均值與長期移動平均值、及藉由從前述之評分的短期移動平均值與長期移動平均值算出評分的差分移動平均值,而偵測出評分之時序的轉變。
一種文件分類調査方法,其特徵在於:從不同的移動平均值之差分的正負符號有轉變的點開始、或從不同的移動平均值之差分為正的區域開始,調査判斷調査案件與取出的文件之間的關聯性。
一種文件分類調査程式,收集被記錄在複數之電腦或伺服器之中的數位訊息,並分析該收集到的數位訊息之中所含的複數之文件所構成的文件訊息,且為了達成調査案件時的使用方便,故透過將代表與調査案件之關聯性的分類碼賦予給文件而就調査案件與文件之間的關聯性進行調査,其特徵在於在電腦之中執行以下功能:從上述文件訊息取出文件,而就所取出的文件,按時序地計算代表文件與分類碼之間互相關聯之強度的評分之功能、從計算出的評分偵測評分之時序的轉變之功能、及從偵測出的評分之時序的轉變而調査判斷調査案件與取出的文件之間的關聯性之功能。
雖然本發明已用具體實施樣態揭露如上,然其並非用以限制本發明,本發明所屬技術區域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與 潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

Claims (6)

  1. 一種文件分析系統,收集被記錄在指定的電腦或伺服器之中的訊息,而分析該收集到的訊息之中所含的複數之文件所構成的文件訊息,包括:一評分計算部,用以計算評分,該評分係顯示從上述文件訊息所取出的文件、與代表上述文件訊息和訴訟或不實行為調査之關聯性的分類碼互相關聯之強度;一時期(phase)辨識部,基於由上述評分計算部所計算出的評分而辨識,根據指定的行為之進行而將成為上述訴訟或不實行為調査之原因分類的時期;以及一轉變估測部,基於上述時期之時間性的變遷而估測,由上述時期辨識部所辨識出的時期之轉變。
  2. 如申請專利範圍第1項所述之文件分析系統,更包括:一評分移動平均值計算部,計算由上述評分計算部所計算出的評分之移動平均值,其中上述轉變估測部係藉由計算由上述評分移動平均值計算部所計算出的移動平均值、與指定的模式之相互關係而估測上述時期之轉變。
  3. 如申請專利範圍第1或2項所述之文件分析系統,更包括:一呈現部,係令使用者得以掌握地呈現由上述轉變估測部所估測出的時期之轉變。
  4. 如申請專利範圍第1項所述之文件分析系統,更包括:一分類碼賦予部,利用上述文件訊息之中所含的關鍵字及 /或文件,而對上述複數之文件的每一個賦予上述分類碼。
  5. 一種文件分析方法,收集被記錄在指定的電腦或伺服器之中的訊息,而分析該收集到的訊息之中所含的複數之文件所構成的文件訊息,包括以下步驟:一評分計算步驟,計算評分,該評分係顯示上述文件訊息所取出的文件、與代表上述文件訊息和訴訟或不實行為調査之關聯性的分類碼互相關聯之強度;一時期辨識步驟,基於由上述評分計算部所計算出的評分而辨識,根據指定的行為之進行而將成為上述訴訟或不實行為調査之原因分類的時期;以及一轉變估測步驟,基於上述時期之時間性的變遷而估測,由上述時期辨識部所辨識出的時期之轉變。
  6. 一種文件分析程式,收集被記錄在指定的電腦或伺服器之中的訊息,而分析該收集到的訊息之中所含的複數之文件所構成的文件訊息,包括使電腦執行以下功能:一評分計算功能,計算評分,該評分係顯示上述文件訊息所取出的文件、與代表上述文件訊息和訴訟或不實行為調査之關聯性的分類碼互相關聯之強度;一時期辨識功能,基於由上述評分計算部所計算出的評分而辨識,根據指定的行為之進行而將成為上述訴訟或不實行為調査之原因分類的時期;以及一轉變估測功能,基於上述時期之時間性的變遷而估測,由上述時期辨識部所辨識出的時期之轉變。
TW104103843A 2014-02-04 2015-02-04 文件分析系統、文件分析方法、以及文件分析程式 TWI518532B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052578 WO2015118616A1 (ja) 2014-02-04 2014-02-04 文書分析システム、文書分析方法、および、文書分析プログラム

Publications (2)

Publication Number Publication Date
TW201539215A TW201539215A (zh) 2015-10-16
TWI518532B true TWI518532B (zh) 2016-01-21

Family

ID=53777453

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104103843A TWI518532B (zh) 2014-02-04 2015-02-04 文件分析系統、文件分析方法、以及文件分析程式

Country Status (4)

Country Link
US (1) US20170011479A1 (zh)
JP (1) JP5622969B1 (zh)
TW (1) TWI518532B (zh)
WO (1) WO2015118616A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016120955A1 (ja) * 2015-01-26 2016-08-04 株式会社Ubic 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム
WO2016203652A1 (ja) * 2015-06-19 2016-12-22 株式会社Ubic データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
US10410168B2 (en) * 2015-11-24 2019-09-10 Bank Of America Corporation Preventing restricted trades using physical documents
JP6611091B2 (ja) * 2017-05-11 2019-11-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
US10891338B1 (en) * 2017-07-31 2021-01-12 Palantir Technologies Inc. Systems and methods for providing information

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234772A (ja) * 2004-02-18 2005-09-02 Fuji Xerox Co Ltd 文書管理装置および方法
US20090070101A1 (en) * 2005-04-25 2009-03-12 Intellectual Property Bank Corp. Device for automatically creating information analysis report, program for automatically creating information analysis report, and method for automatically creating information analysis report
US7849030B2 (en) * 2006-05-31 2010-12-07 Hartford Fire Insurance Company Method and system for classifying documents
JP5551187B2 (ja) * 2009-02-02 2014-07-16 エルジー エレクトロニクス インコーポレイティド 文献分析システム
US8635223B2 (en) * 2009-07-28 2014-01-21 Fti Consulting, Inc. System and method for providing a classification suggestion for electronically stored information
JP5077711B2 (ja) * 2009-10-05 2012-11-21 Necビッグローブ株式会社 時系列分析装置、時系列分析方法、及びプログラム
JP4868191B2 (ja) * 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012053716A (ja) * 2010-09-01 2012-03-15 Research Institute For Diversity Ltd 思考モデルの作成方法、思考モデルの作成装置及び思考モデルの作成プログラム
WO2012060532A1 (ko) * 2010-11-02 2012-05-10 (주)광개토연구소 특허 평가 모델 생성 방법, 특허 평가 방법, 특허 분쟁 예측 모델 생성 방법, 특허 분쟁 예측 정보 생성 방법, 특허 라이센싱 예측 정보 생성 방법, 특허 리스크 헤징 정보 생성 방법 및 시스템
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
US20120191748A1 (en) * 2011-01-20 2012-07-26 John Nicholas Gross System & Method For Facilitating Sequential Review of Restructured Protected Data
US20140012803A1 (en) * 2011-03-23 2014-01-09 Nec Corporation Event analysis apparatus, event analysis method, and computer-readable recording medium
US20140025372A1 (en) * 2011-03-28 2014-01-23 Nec Corporation Text analyzing device, problematic behavior extraction method, and problematic behavior extraction program
JP5534280B2 (ja) * 2011-04-27 2014-06-25 日本電気株式会社 テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
JP5530476B2 (ja) * 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US9122681B2 (en) * 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US10275516B2 (en) * 2013-07-17 2019-04-30 President And Fellows Of Harvard College Systems and methods for keyword determination and document classification from unstructured text

Also Published As

Publication number Publication date
JP5622969B1 (ja) 2014-11-12
US20170011479A1 (en) 2017-01-12
JPWO2015118616A1 (ja) 2017-03-23
WO2015118616A1 (ja) 2015-08-13
TW201539215A (zh) 2015-10-16

Similar Documents

Publication Publication Date Title
TWI518532B (zh) 文件分析系統、文件分析方法、以及文件分析程式
TWI552103B (zh) File classification system and file classification method and file classification program
US9171072B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
TW201539216A (zh) 文件分析系統、文件分析方法、及文件分析程式
TW201415264A (zh) 取證系統、取證方法及取證程式
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
TW201421414A (zh) 文件管理系統及文件管理方法以及文件管理程式
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
US9977825B2 (en) Document analysis system, document analysis method, and document analysis program
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
TWI518631B (zh) File classification survey system, document classification survey method and file classification survey program
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
TW201539217A (zh) 文件分析系統、文件分析方法、以及文件分析程式
CN112699949B (zh) 一种基于社交平台数据的***识别方法及装置
CN115936748A (zh) 一种商业大数据分析方法及***
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
WO2016056095A1 (ja) データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP7061328B1 (ja) 情報処理装置、情報処理システムおよびプログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP7182819B1 (ja) 情報処理装置、情報処理システムおよびプログラム
JP2023021119A (ja) 情報処理装置、情報処理システムおよびプログラム
Karmakar et al. Enhanced Review Detection and Recognition: A Platform-Agnostic Approach with Application to Online Commerce
CN118070805A (zh) 信息判别方法、装置、计算机设备及存储介质
WO2016016974A1 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees