JP2021077256A - 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム - Google Patents

文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム Download PDF

Info

Publication number
JP2021077256A
JP2021077256A JP2019205267A JP2019205267A JP2021077256A JP 2021077256 A JP2021077256 A JP 2021077256A JP 2019205267 A JP2019205267 A JP 2019205267A JP 2019205267 A JP2019205267 A JP 2019205267A JP 2021077256 A JP2021077256 A JP 2021077256A
Authority
JP
Japan
Prior art keywords
document
documents
classification
group
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019205267A
Other languages
English (en)
Inventor
貴文 清政
Takafumi Kiyomasa
貴文 清政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fronteo Inc
Original Assignee
Fronteo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fronteo Inc filed Critical Fronteo Inc
Priority to JP2019205267A priority Critical patent/JP2021077256A/ja
Priority to US17/094,907 priority patent/US11609957B2/en
Publication of JP2021077256A publication Critical patent/JP2021077256A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】検出精度を落とすことなく準重複する文書群の検出速度を向上させる。【解決手段】文書処理装置は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。【選択図】図1

Description

本開示は、文書処理装置等に関する。
非特許文献1は、準重複する文書群を検出する手法を紹介している。
Bassma S. Alsulami、外2名、"Near Duplicate Document Detection Survey"、[online]、International Journal of Computer Science & Communication Networks, Vol 2(2), 147-151、[2019年10月25日検索]、インターネット〈URL:https://pdfs.semanticscholar.org/c7f5/ec814301fdaad5c78e27e7a8a9b4560aae8b.pdf〉
非特許文献1に記載の従来技術は、2つの文書の同一性に応じて準重複する文書群を検出する技術ではないため、当該検出の速度が遅くなる場合があった。そこで、本開示の一態様は、例えば、検出精度を落とすことなく準重複する文書群の検出速度を向上させる文書処理装置等を実現することを目的とする。
本開示の一態様に係る文書処理装置は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。
本開示の一態様に係る文書レビューシステムは、文書処理装置と、レビュアが用いるユーザ端末とを含み、前記文書処理装置は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。
本開示の一態様に係る文書処理装置の制御方法は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類ステップと、前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定ステップとを含み、前記文書分類ステップにおいて、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。
本開示の一態様に係る文書レビューシステムの構成例を示す模式図である。 本開示の一態様に係る文書処理装置のハードウェア構成の一例を示す図である。 上記文書処理装置が備えた制御部の機能的構成の一例を示す機能ブロック図である。 上記文書処理装置が準重複する文書を検出する処理の概略の一例を示す概略図である。 上記文書処理装置が準重複する文書を検出する処理の概略の一例を示す概略図である。 上記文書処理装置が、準重複する文書を検出する処理の一例を示すフローチャートである。 上記文書処理装置が実行するフィルタ1の処理の一例を示すフローチャートである。 上記文書処理装置が実行するフィルタ2の処理の一例を示すフローチャートである。 上記文書処理装置が実行するフィルタ3の処理の一例を示すフローチャートである。 上記文書処理装置が実行するフィルタ4の処理の一例を示すフローチャートである。
図1〜図9に基づいて、本開示の一態様を説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。
(文書レビューシステム100の構成)
図1は、文書レビューシステム100の構成例を示す模式図である。文書レビューシステム100は、文書をレビュアに効率よくレビューさせる(文書の内容を検討させる)システムである。図1に例示されるように、文書レビューシステム100は、文書処理装置110とユーザ端末120〜122とを含む。
文書処理装置110は、文書レビューシステム100を統合的に動作させる装置であり、例えば、文書が事象に関連する度合いを評価する機能を持つ。各文書は、少なくとも一部に文字・数字・記号などを含む任意の形式の電子データであってよく、例えば、文書データ(例えば、電子メール、議事録、仕様書、取扱説明書、各種技術文書、各種報告書、契約書、営業資料、事業計画書、電子カルテ、ウェブページなど)、プレゼンテーションデータ、表計算用データ、文字が映り込んだ画像・映像などである。また、事象は、レビュアが各文書との関連性を判断する任意の対象であってよく、例えば、訴訟、情報漏洩、コンプライアンス違反、ハラスメント、その他の不正、離職、事故、病気などである。
さらに、ユーザ端末120〜122は、複数のレビュアが文書をレビューするためにそれぞれ用いる端末であり、文書処理装置110と通信可能に接続されている。なお、図1はユーザ端末が3台ある例を示しているが、ユーザ端末の数は3つに限定されず、1または複数であってよい。各レビュアは、ユーザ端末120〜122に表示された文書が上記事象に関連しているか否かを、当該事象に応じて設定された所定の基準に則ってレビューし、当該レビューした結果をユーザ端末120〜122に入力する。
上記事象が米国訴訟である場合を一例に、文書レビューシステム100を用いてレビュアに文書をレビューさせる手順を説明する。米国で訴訟が提起された場合、訴訟当事者はディスカバリ(証拠開示)の手続きが求められる場合がある。すなわち、当事者は訴訟に関連する文書を法廷に提出し、審理のために当該文書を開示しなければならない。このとき、訴訟に関連しうる多数の文書を、訴訟に関連する文書と関連しない文書とに分類し、関連する文書のみを提出する必要がある。
そのため、レビュアが訴訟に関連する可能性のある文書(以下「母集団」と称する)をレビューし、各文書に対して、例えば「訴訟に関連する」または「訴訟に関連しない」などの判断を下さなければならない。母集団は大きい(例えば、数万〜数百万の文書を含む場合がある)ため、上記レビューに関する一連の作業を効率化することが求められる。
文書レビューシステム100が、上記作業を効率化する方法の一例を説明する。まず、文書処理装置110は、例えば、母集団から少数の文書(例えば、100〜200の文書)をランダムに抽出し、当該少数の文書をユーザ端末120〜122に送信する。そして、ユーザ端末120〜122は、当該抽出された少数の文書をレビュアに提示する。
レビュアは、上記提示された少数の文書をレビューし(以下「事前レビュー」と称する)、各文書が訴訟に関係するか否かを判断した結果をユーザ端末120〜122に入力する。例えば、レビュアは、ある文書を事前レビューした結果、当該文書が訴訟に関連すると判断した場合、当該文書に対して関連することを示す関連(relevant)ラベルを付与する。逆に、関連しないと判断した場合、当該文書に対して関連しないことを示す非関連(not-relevant)ラベルを付与する。
レビュアは、関連ラベルまたは非関連ラベルを上記少数の文書にそれぞれ付与し、ユーザ端末120〜122は、ラベル付与の結果を事前レビューの結果として文書処理装置110に送信する。その後、文書処理装置110は、事前レビューの結果に基づいて文書を識別する識別モデルを学習させる。なお、当該識別モデルは、文書を識別可能なモデルであれば何でもよく、その種類は限定されない。
次に、文書処理装置110は、上記識別モデルを用いて、母集団に含まれるすべての文書にそれぞれスコアを付与する。スコアは、文書が訴訟に関連する度合いを示す任意の指標であってよく、例えば、1〜10000の範囲に収まる数値、強・中・弱などである。文書処理装置110は、当該度合いが大きいほど文書に大きなスコアを付与し、小さいほど小さなスコアを付与する。すなわち、文書処理装置110は、文書が訴訟に関連する度合いを、学習済みの識別モデルを用いて算出されたスコアにより評価する。
これにより、文書処理装置110は、例えば、大きいスコアが付与された文書からレビュアに順次レビューさせたり、スコアが所定の値より小さい文書をレビュー対象から除外したりすることができる。すなわち、文書レビューシステム100は、文書処理装置110によって付与されたスコアに応じて軽重を付けたレビューを、レビュアに行わせることができる。したがって、文書レビューシステム100は、多数の文書をレビュアにレビューさせる場合の効率を高めることができる。
なお、事象が米国の訴訟である場合をここで説明したが、訴訟以外の事象であっても、文書レビューシステム100は同様の手順に則ってレビューの効率を高められる。
(文書処理装置110のハードウェア構成)
図2は、文書処理装置110のハードウェア構成の一例を示す図である。図2に例示されるように、文書処理装置110は、制御部200、記憶部210、通信部220、インターフェース部230などを備えている。
制御部200は、文書処理装置110の各種機能を統括的に制御する機能を持ち、例えば、CPU(Central Processing Unit)などのプロセッサによって実現される。制御部200は、記憶部210に格納された制御プログラムにしたがって、制御部200に含まれる各部(図3を参照して後述する)を機能させる。
記憶部210は、任意の情報を格納可能な記憶機器であり、例えば、ハードディスク、SSD(Silicon State Drive)、半導体メモリ、DVDなどで構成される。記憶部210は、例えば、制御部200を機能させる制御プログラム、制御部200を機能させるために必要となるデータ、レビュアにレビューさせる文書、文書を識別する識別モデルなどを記憶している。なお、図2は文書処理装置110が記憶部210を備えた構成を例示しているが、当該構成に限定されない。例えば、文書処理装置110は記憶部210を備えず、文書処理装置110は、当該文書処理装置110の外部に設けられた外部記憶装置(例えば、クラウドストレージなど)を用いてよい。
通信部220は、ユーザ端末120〜122と文書などの任意のデータを送受信する。なお、通信部220は、例えば、所定の通信方式にしたがうネットワークを介して外部と通信可能なハードウェアである。外部の機器との通信を実現する本質的な機能を備えていればよく、通信回線、通信方式、通信媒体などは限定されない。
インターフェース部230は、任意の入出力機器を接続可能な接続用インターフェースである。インターフェース部230は、例えば、USB端子、HDMI(登録商標)端子、音声出力端子などである。文書処理装置110のユーザは、例えば、USB端子にキーボード・マウスなどを接続することによって、当該文書処理装置110に入力情報を与えることができる。また、ユーザは、例えば、HDMI(登録商標)端子にディスプレイを接続することによって、当該文書処理装置110が出力する映像情報を表示させることができる。
(制御部200の機能的構成)
図3は、文書処理装置110が備えた制御部200の機能的構成の一例を示す機能ブロック図である。図3に例示されるように、制御部200は、文書分類部301、分類判定部302、特徴抽出部303、検出部304、通信制御部305、スコア付与部306などを含む。
文書分類部301は、複数の文書に対して、フィルタ1〜4(複数の分類方法)を所定の順序で順次適用し、母集団(複数の文書)を複数のグループに分類する。ここで、当該所定の順序は、フィルタ1〜4の各計算量が小さい順序である。ここで、フィルタ1〜4は、いずれも、上記2以上の文書が含まれると判定されたグループを細分類する方法であってよい。なお、各フィルタの具体例は、図5〜図9を参照して後述する。
また、文書分類部301は、フィルタ1〜4に含まれる1つのフィルタ(先行の分類方法、例えば、フィルタ1)を適用した後、分類判定部302によって2以上の文書が含まれると判定されたグループごとに、当該2以上の文書に対してフィルタ1〜4に含まれる他のフィルタ(後続の分類方法、例えば、フィルタ1の次に適用されるフィルタ2)をさらに適用する。
分類判定部302は、フィルタ1〜4に含まれる1つのフィルタが適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する。逆に言えば、分類判定部302は、フィルタ1〜4に含まれる1つのフィルタが適用されるたびに、文書の数が1であるグループが存在するか否かを判定する。存在する場合、当該グループに属する1つの文書は、準重複する文書が存在する可能性がないと判定し、分類判定部302は、当該文書を後続のフィルタの適用対象から除外する。なお、分類判定部302による判定処理の詳細は、図5〜図9を参照して後述する。
特徴抽出部303は、フィルタ1〜4がそれぞれ適用される過程において、当該フィルタ1〜4に応じた共通の特徴を、上記分類の対象となる文書から抽出してよい。なお、文書から抽出される特徴の具体例は、図5〜図9を参照して後述する。
検出部304は、上記2以上の文書に対してフィルタ4(最後の分類方法)を適用した後、同じグループに属する複数の文書(例えば、文書A〜D、文書E〜G、文書H〜I)を、互いに重複または類似する(準重複する)文書群として検出してよい。なお、準重複する文書群を検出する処理の詳細は、図5〜図9を参照して後述する。
通信制御部305は、各レビュアにレビューさせる文書をユーザ端末120〜122に送信し、当該ユーザ端末120〜122に当該文書を各レビュアに提示させる。また、レビュアによってレビューされた結果をユーザ端末120〜122から受信し、当該結果を記憶部210に格納する。
スコア付与部306は、所定の識別モデルを用いて、事象(例えば、訴訟など)に関連する度合いを示すスコアを母集団に含まれる複数の文書に付与する。具体的には、スコア付与部306は、識別モデルを用いて、母集団に含まれるすべての文書に対し、事象に関連する度合いが大きいほど大きいスコアを、小さいほど小さいスコアを付与する。
(準重複する文書群を検出する処理)
図4Aおよび図4Bは、文書処理装置110が準重複する文書群を検出する処理の概略の一例を示す概略図である。準重複(Near Duplication)は、例えば、2つの文書に含まれる文字または内容の少なくとも一部が互いに重複または類似することを意味する。
例えば、文書Aの文字数がN、文書Bの文字数がMであるとき(N、Mはいずれも自然数)、両文書で同一の文字の数が|N−M|≦nを満たす場合、文書処理装置110は、文書Aおよび文書Bを準重複する文書群とみなしてよい。なお、nは任意に設定可能な自然数であり、例えば、文書の種類に応じて異なる値を設定してよい。
また、例えば、文書Aおよび文書Bがいずれも10頁の文書であるとき、(a)9頁分の内容および順序が一致する場合、(b)10頁分の内容および順序は一致するが各ページに1文字分の差異がある場合なども、文書処理装置110は、文書Aおよび文書Bを準重複する文書群とみなしてよい。
ここで、文書処理装置110が準重複する文書群を検出する目的を説明する。ある文書が事象に関連するとレビュアが判断したとき、当該文書に類似する文書も当該事象に関連する可能性が高いと推測できる。例えば、ある電子メールが訴訟に関連すると判断された場合、当該電子メールの内容を引用しながら返信された電子メールも訴訟に関連すると判断される。当該返信された電子メールは、元の電子メールの内容を含むからである。当該返信された電子メールの内容を引用しながらさらに返信された電子メールも、同様に訴訟に関連する。
これら3通の電子メールが準重複する文書群であると検出できれば、当該3通の電子メールのうちの1通の電子メールをレビュアがレビューするだけで、当該レビューの結果と同じレビューの結果を残り2通の電子メールに援用できる。この場合、文書処理装置110は、レビューの効率を3倍に高めることができる。このように、文書処理装置110が準重複する文書群を検出する実益は大きい。
図4Aおよび図4Bに例示されるように、文書処理装置110は、各文書にフィルタ1(1次グループ分割)、フィルタ2(2次グループ分割)、フィルタ3(3次グループ分割)、フィルタ4(4次グループ分割)を順次適用し、母集団を複数のグループに分割(細分類)する処理を繰り返す。そして、フィルタ4を適用した時点で同じグループに複数の文書が属していた場合、当該複数の文書を互いに準重複する文書群として検出する。
逆に、あるグループに含まれる文書の数が1つであることは、当該文書と準重複する文書が存在しないことを意味する。したがって、文書処理装置110は、複数のフィルタを多段階に適用する過程において、あるグループに含まれる文書の数が1つになった時点で、それ以降から当該文書にフィルタを適用しない。
図5は、文書処理装置110が、準重複する文書を検出する処理の一例を示すフローチャートである。図5に例示されるように、文書処理装置110は、母集団に含まれる各文書に対してフィルタ1〜4の処理を順次実行し(S501〜S504)、最後に準重複する文書群を検出する(S505)。
まず、文書処理装置110は、母集団に含まれるすべての文書にフィルタ1を適用する(S501)。具体的には、文書分類部301が、特徴抽出部303によって抽出された特徴を用いて母集団をN1(N1は自然数)個のグループに分類する(S501)。そして、分類判定部302は、あるグループに含まれる文書が1つである場合、当該文書をフィルタ2の適用対象から除外する。
次に、文書処理装置110は、除外されなかった残りの文書にフィルタ2を適用する(S502)。具体的には、文書分類部301は、特徴抽出部303によって抽出された特徴を用いて、フィルタ2の適用対象となった文書をN2(N2は自然数)個のグループに分類する(S502)。そして、分類判定部302は、あるグループに含まれる文書が1つである場合、当該文書をフィルタ3の適用対象から除外する。
次に、文書処理装置110は、除外されなかった残りの文書にフィルタ3を適用する(S503)。具体的には、文書分類部301は、特徴抽出部303によって抽出された特徴を用いて、フィルタ3の適用対象となった文書をN3(N3は自然数)個のグループに分類する(S503)。そして、分類判定部302は、あるグループに含まれる文書が1つである場合、当該文書をフィルタ4の適用対象から除外する。
最後に、文書処理装置110は、除外されなかった残りの文書にフィルタ4を適用する(S504)。具体的には、文書分類部301は、特徴抽出部303によって抽出された特徴を用いて、フィルタ4の適用対象となった文書をN4(N4は自然数)個のグループに分類する(S504)。そして、検出部304は、フィルタ4を適用した後、同じ分類に属する2以上の文書を、準重複する文書群として検出する(S505)。
このように、文書処理装置110は、各文書にフィルタ1〜4を順次適用し、準重複する文書が存在しないと判明した文書をフィルタの適用対象から除外していく。そして、フィルタ4を適用した後も複数の文書が1つのグループにまとまる場合、文書処理装置110は、当該複数の文書は準重複する文書群であると判定する。
以下から、図6〜図9を参照し、各フィルタで実行される処理を詳細に説明する。
(フィルタ1の処理)
図6は、文書処理装置110が実行するフィルタ1の処理の一例を示すフローチャートである。なお、図6に含まれるS601〜S603の各処理が、図5に例示されるS501に含まれる。
最初に、特徴抽出部303は、文書の文字数を所定の文字数(例えば、500文字)で割った商を計算し、当該商の小数点以下を切り捨てた値を、当該文書に含まれる特徴として抽出する。次に、文書分類部301は、当該特徴に基づいて当該文書にグループIDを割り当てる。例えば、ある文書の文字数が1001文字である場合、特徴抽出部303は1001÷500=2.002を計算し、文書分類部301は、当該文書にグループIDとして2を割り当てる。
特徴抽出部303は、母集団に含まれるすべての文書に対して同様の計算を実行し、文書分類部301は、各文書にグループIDを割り当てる(S601)。次に、分類判定部302は、文書の数が1であるグループが存在するか否かを判定する(S602)。存在する場合(S602においてYES)、当該グループに属する1つの文書は、準重複する文書が存在する可能性がないと判定し、当該文書をフィルタ2の適用対象から除外する(S603)。
すなわち、フィルタ1は、文書の文字数をカウントし、当該文字数の分布に基づいて当該文書を分類する分類方法であってよい。これにより、文書処理装置110は、文字数が類似する文書はその内容も類似するという傾向に基づいて文書を分類できる。
なお、特徴抽出部303は、上記所定の文字数を一定の範囲で増減させてよい。このとき、文書分類部301は、各文書に複数のグループIDを割り当てる。例えば、特徴抽出部303が所定の文字数を496〜505の間で増減させると、文書分類部301は、文字数が1001である文書にグループIDとして1(502〜505のとき)および2(496〜500のとき)を割り当てる。これにより、文書処理装置110は、グループIDの割り当てに柔軟性を持たせることができるため、分類の精度を高めることができる。
(フィルタ2の処理)
図7は、文書処理装置110が実行するフィルタ2の処理の一例を示すフローチャートである。なお、図7に含まれるS701〜S707の各処理が、図5に例示されるS502に含まれる。
最初に、特徴抽出部303は、フィルタ2の適用対象となった文書の頻度ベクトルを計算し、当該頻度ベクトルを当該文書に含まれる特徴として抽出する(S701)。頻度ベクトルは、例えば、文書に現れる文字の種類ごとの文字数を各次元に格納したベクトルである。
例えば、ある文書に、ひらがなが250文字、カタカナが140文字、漢字が200文字、アルファベットが340文字、数字が30文字、記号が10文字含まれていた場合、当該文書の頻度ベクトルは、(250, 140, 200, 340, 30, 10)となる。なお、頻度ベクトルの次元数は、文字の種類の定義に応じて変化してよい。例えば、上記6種類に加えて、簡体字、繁体字、ハングルなどが含まれる場合、頻度ベクトルの次元数は9以上となる。
次に、文書分類部301は、フィルタ1で生成されたグループ1〜N1のそれぞれにおいて、文字数が最多となる文書を「親文書」として特定し(S702)、あるグループに属する親文書の頻度ベクトルと、当該グループと同じグループに属する親文書以外の文書(子文書)の頻度ベクトルとの類似度を算出する(S703)。そして、当該類似度が所定の範囲に収まる場合(S704においてYES)、子文書を親文書と同じグループに分類する(S705)。
例えば、グループ1に属する文書A〜Zのなかで文書Aの文字数が最多である場合、文書処理装置110は、文書Aを親文書とし、親文書Aの頻度ベクトルと、グループ1に属する子文書B〜Zの頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Aと子文書B〜Rとの類似度がいずれも所定の範囲に収まる場合、文書A〜Rをグループ1−1に分類する。
なお、文書分類部301は、例えば、2つの頻度ベクトルの距離(例えば、マンハッタン距離、ユークリッド距離など)を測ることにより、類似度を算出する。ただし、類似度を算出する方法は、2つの頻度ベクトルの距離を測る以外の方法であってもよい。
次に、文書分類部301は、グループ1〜N1のそれぞれにおいて、親文書と同じグループに分類されなかった残りの子文書のなかで文字数が最多となる文書を新たな親文書とし、残りの子文書との類似度に基づいて、当該親文書と当該子文書とを同じグループに分類する。
例えば、グループ1に属する残りの文書S〜Zのなかで文書Sの文字数が最多である場合、文書分類部301は、文書Sを新たな親文書とし、親文書Sの頻度ベクトルと、子文書T〜Zの頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Sと子文書T〜Vとの類似度がいずれも所定の範囲に収まる場合、文書S〜Vをグループ1−2に分類する。
文書分類部301は、グループ1〜N1のそれぞれにおいて、上記の分類処理ができなくなるまで当該分類処理を繰り返す(S706においてYES)。分類処理ができなくなった場合(S706においてNO)、分類判定部302は、残りの文書は準重複する文書が存在する可能性がないと判定し、フィルタ3の適用対象から除外する(S707)。
例えば、グループ1に属する残りの文書W〜Zのなかで、文書Wの文字数が最多である場合、文書分類部301は、文書Wを新たな親文書とし(S702)、親文書Wの頻度ベクトルと、子文書X〜Zの頻度ベクトルとの類似度をそれぞれ算出する(S703)。そして、親文書Wと子文書Xとの類似度が所定の範囲に収まる場合、文書WおよびXをグループ1−3に分類する(S705)。
一方で、グループ1に属する残りの文書YおよびZのいずれを親文書として類似度を算出しても、当該類似度は所定の範囲に収まらない場合(S704においてNO)、文書分類部301は、母集団をこれ以上細かいグループに分割できないと判定する(S706においてNO)。この場合、分類判定部302は、文書YおよびZをフィルタ3の適用対象から除外する(S707)。文書処理装置110は、グループ1〜N1のそれぞれにおいて上記の計算を実行し、フィルタ1で生成されたグループをさらに分割することにより、文書を細分類する。
すなわち、フィルタ2は、準重複する文書が存在する可能性があると判定された2以上の文書にそれぞれ含まれる文字の種類の出現数を当該種類ごとに求め、当該出現数の分布に基づいて当該2以上の文書を分類する分類方法であってよい。これにより、文書処理装置110は、同じ種類の文字が類似の頻度で出現する文書はその内容も類似するという傾向に基づいて文書をさらに分類できる。
(フィルタ3の処理)
図8は、文書処理装置110が実行するフィルタ3の処理の一例を示すフローチャートである。なお、図8に含まれるS801〜S807の各処理が、図5に例示されるS503に含まれる。
最初に、特徴抽出部303は、フィルタ3の適用対象となった文書の行頻度ベクトルを計算し、当該行頻度ベクトルを当該文書に含まれる特徴として抽出する(S801)。行頻度ベクトルは、例えば、改行で区切られた1行を各次元に格納したベクトルである。例えば、ある文書に「This document(改行)is important.」と記載されていた場合、文書処理装置110は、行頻度ベクトルの1次元目に「This document」を格納し、2次元目に「is important.」を格納する。
次に、文書分類部301は、フィルタ2で生成されたグループ1〜N2のそれぞれにおいて、行数が最多となる文書を「親文書」として特定し(S802)、あるグループに属する親文書の行頻度ベクトルと、当該グループと同じグループに属する親文書以外の文書(子文書)の行頻度ベクトルとの類似度を算出する(S803)。そして、当該類似度が所定の範囲に収まる場合(S804においてYES)、子文書を親文書と同じグループに分類する(S805)。
例えば、グループ1−1に属する文書A〜Rのなかで文書Aの行数が最多である場合、文書分類部301は、文書Aを親文書とし、親文書Aの行頻度ベクトルと、グループ1−1に属する子文書B〜Rの行頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Aと子文書B〜Kとの類似度がいずれも所定の範囲に収まる場合、文書A〜Kをグループ1−1−1に分類する。
次に、文書分類部301は、グループ1〜N2のそれぞれにおいて、親文書と同じグループに分類されなかった残りの文書のなかで行数が最多となる文書を新たな親文書とし、残りの子文書との類似度に基づいて、当該親文書と当該子文書とを同じグループにさらに分類する。
例えば、グループ1−1に属する残りの文書L〜Rのなかで文書Lの行数が最多である場合、文書分類部301は、文書Lを新たな親文書とし、親文書Lの行頻度ベクトルと、子文書M〜Rの行頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Lと子文書MおよびNとの類似度がいずれも所定の範囲に収まる場合、文書L〜Nをグループ1−1−2に分類する。
文書分類部301は、グループ1〜N2のそれぞれにおいて、上記の分類処理ができなくなるまで当該分類処理を繰り返す(S806においてYES)。分類処理ができなくなった場合(S806においてNO)、分類判定部302は、残りの文書は準重複する文書が存在する可能性がないと判定し、フィルタ4の適用対象から除外する(S807)。
例えば、グループ1−1に属する残りの文書O〜Rのなかで、文書Oの文字数が最多である場合、文書分類部301は、文書Oを新たな親文書とし(S802)、親文書Oの行頻度ベクトルと、子文書P〜Rの行頻度ベクトルとの類似度をそれぞれ算出する(S803)。そして、親文書Oと子文書Pとの類似度が所定の範囲に収まる場合、文書OおよびPをグループ1−1−3に分類する(S805)。
一方で、グループ1−1に属する残りの文書QおよびRのいずれを親文書として類似度を算出しても、当該類似度は所定の範囲に収まらない場合(S804においてNO)、文書分類部301は、母集団をこれ以上細かいグループに分割できないと判定する(S806においてNO)。この場合、分類判定部302は、文書QおよびRをフィルタ4の適用対象から除外する(S807)。文書処理装置110は、グループ1〜N2のそれぞれにおいて上記の計算を実行し、フィルタ2で生成されたグループをさらに分割することにより、文書を細分類する。
すなわち、フィルタ3は、準重複する文書が存在する可能性があると判定された2以上の文書の各行にそれぞれ含まれる文字列を、当該2以上の文書に含まれる2つの文書間で比較した結果に基づいて、当該2以上の文書を分類する方法であってよい。これにより、文書処理装置110は、各行が類似する文書はその内容も類似するという傾向に基づいて文書をさらに分類できる。
(フィルタ4の処理)
図9は、文書処理装置110が実行するフィルタ4の処理の一例を示すフローチャートである。なお、図9に含まれるS901〜S908の各処理が、図5に例示されるS504に含まれ、S909の処理がS505の処理に対応する。
最初に、特徴抽出部303は、フィルタ4の適用対象となった文書を、2種類のハッシュ関数を用いてハッシュ値に変換し、当該変換した2つのハッシュ値を当該文書に含まれる特徴として抽出する(S901)。
ここで、第1ハッシュ関数は、例えば、5文字の文字コードを入力として0〜3のハッシュ値を返す関数であり、第2ハッシュ関数は、例えば、5文字の文字コードを入力として4〜7のハッシュ値を返す関数である。なお、各ハッシュ関数に入力する文字コードの文字数は任意に変更可能である。また、ハッシュ関数の数、各ハッシュ関数が返す値、およびその値域も、それぞれ任意に変更可能である。
例えば、特徴抽出部303は、文書の1文字目から5文字分の文字コードを、第1ハッシュ関数および第2ハッシュ関数にそれぞれ入力し、2つのハッシュ値を得る。次に、特徴抽出部303は、文書の2文字目から5文字分の文字コードを、第1ハッシュ関数および第2ハッシュ関数にそれぞれ入力し、2つのハッシュ値を得る。
以下同様に、特徴抽出部303は、文書の1文字目から1文字分だけ順次ずらしながら、5文字分の文字コードを2種類のハッシュ関数にそれぞれ入力し、順次2つのハッシュ値を得る。したがって、文書の文字数をnとすると、2×(n−4)個のハッシュ値が得られる。
次に、特徴抽出部303は、8種類のハッシュ値の頻度を文書ごとに計算してハッシュ頻度ベクトルを生成し(S902)、当該ハッシュ頻度ベクトルを当該文書に含まれる特徴として抽出する。ハッシュ頻度ベクトルは、m次元目にハッシュ値(m−1)の頻度を格納したベクトルである。
次に、文書分類部301は、全種類のハッシュ値の頻度を合算した総頻度を計算する(S903)。そして、文書分類部301は、フィルタ3で生成されたグループ1〜N3のそれぞれにおいて、総頻度が最高となる文書を「親文書」として特定し(S904)、あるグループに属する親文書のハッシュ頻度ベクトルと、当該グループと同じグループに属する親文書以外の文書(子文書)のハッシュ頻度ベクトルとの類似度を算出する(S905)。そして、当該類似度が所定の範囲に収まる場合(S906においてYES)、子文書を親文書と同じグループに分類する(S907)。
例えば、グループ1−1−1に属する文書A〜Kのなかで文書Aの総頻度が最高である場合、文書分類部301は、文書Aを親文書とし、親文書Aのハッシュ頻度ベクトルと、グループ1−1−1に属する子文書B〜Kのハッシュ頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Aと子文書B〜Dとの類似度が所定の範囲に収まる場合、文書A〜Dをグループ1−1−1−1に分類する。
次に、文書分類部301は、グループ1〜N3のそれぞれにおいて、親文書と同じグループに分類されなかった残りの文書のなかで総頻度が最高となる文書を新たな親文書とし、残りの子文書との類似度に基づいて、当該親文書と当該子文書とを同じグループにさらに分類する。
例えば、グループ1−1−1に属する残りの文書E〜Kのなかで文書Eの総頻度が最高である場合、文書分類部301は、文書Eを新たな親文書とし、親文書Eのハッシュ頻度ベクトルと、子文書F〜Kのハッシュ頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Eと子文書FおよびGとの類似度がいずれも所定の範囲に収まる場合、文書E〜Gをグループ1−1−1−2に分類する。
文書分類部301は、グループ1〜N3のそれぞれにおいて、上記の分類処理ができなくなるまで当該分類処理を繰り返す(S908においてYES)。分類処理ができなくなった場合(S908においてNO)、検出部304は、分類されたグループ1〜N4(N4は自然数)のうち、複数の文書を含むグループを準重複する文書群として検出する(S909)。
例えば、グループ1−1−1に属する残りの文書H〜Kのなかで、文書Hの総頻度が最高である場合、文書分類部301は、文書Hを新たな親文書とし(S904)、親文書Hのハッシュ頻度ベクトルと、子文書I〜Kのハッシュ頻度ベクトルとの類似度をそれぞれ算出する(S905)。そして、親文書Hと子文書Iとの類似度が所定の範囲に収まる場合、文書HおよびIをグループ1−1−1−3に分類する(S907)。
一方で、グループ1−1−1に属する残りの文書JおよびKのいずれを親文書として類似度を算出しても、当該類似度は所定の範囲に収まらない場合(S906においてNO)、文書分類部301は、母集団をこれ以上細かいグループに分割できないと判定する(S908においてNO)。この場合、検出部304は、文書A〜D、文書E〜G、および文書H〜Iのそれぞれを、準重複する文書群として検出する(S909)。
文書処理装置110は、グループ1〜N3のそれぞれにおいて上記の計算を実行し、フィルタ3で生成されたグループをさらに分割することにより、文書を細分類する。これにより、文書処理装置110は、ハッシュ値の頻度が類似する文書はその内容も類似するという傾向に基づいて文書をさらに分類できる。そして、文書処理装置110は、フィルタ4によって分類されたグループ1〜N4のうち、複数の文書を含むグループを準重複する文書群として検出する。
すなわち、フィルタ4は、準重複する文書が存在する可能性があると判定された2以上の文書にそれぞれ含まれる文字を所定の関数を用いて数値に変換し、当該数値の出現数を当該数値ごとに求め、当該出現数の分布に基づいて当該2以上の文書を分類する分類方法であってよい。
以上、図6〜図9を参照して詳細に説明したとおり、文書処理装置110は、各文書にフィルタ1〜4を順次適用することによって、準重複する文書群を検出できる。これにより、文書処理装置110は、準重複する文書をレビュアにすべてレビューさせなくとも、準重複するすべての文書に対してレビュー結果を得ることができる。
(各フィルタの計算量)
文書処理装置110が、文書にフィルタ1〜4(複数の分類方法)をそれぞれ適用するために必要となる計算量について説明する。
図6〜図9を参照して前述したとおり、特徴抽出部303は文書を分類する過程で、フィルタ1〜4に応じた下記特徴(1)〜(4)の特徴を、分類の対象となる文書から抽出する。
(1)文書の文字数を所定の文字数で割った商の小数点以下を切り捨てた値
(2)文書に現れる文字の種類ごとの文字数を各次元に格納した頻度ベクトル
(3)改行で区切られた1行を各次元に格納した行頻度ベクトル
(4)文書ごとのハッシュ値の頻度を各次元に格納したハッシュ頻度ベクトル
そして、文書分類部301が、上記特徴を用いたフィルタ1〜4を文書に適用することにより、当該文書を分類する。
すなわち、各フィルタの計算量は、文書から特徴を抽出するための計算量と、当該文書を分類するための計算量との和で概算できる。そして、各フィルタの計算量は、フィルタ4よりフィルタ3の方が小さく、フィルタ3よりフィルタ2の方が小さく、フィルタ2よりフィルタ1の方が小さい。言い換えれば、文書分類部301は、計算量が小さい順に複数のフィルタを順次適用する。
一方で、分類判定部302が、準重複する文書が存在する可能性が低い文書ほど、計算量が小さいフィルタが適用された段階で除外するため、フィルタの計算量が大きいほど、当該フィルタを適用する文書の数は少なくなる。
したがって、準重複する文書群を検出する全体の処理(図5を参照)を実行するために必要な計算量は、従来技術を用いた場合のそれより少なくなる。すなわち、文書処理装置110は、従来技術よりも高速に準重複する文書群を検出できる。
文書処理装置110が、準重複する文書群を高速に検出できる原理を、具体例を用いて説明する。例えば、母集団のなかで1つだけ突出して多くの文字を含む文書は、フィルタ1が適用された段階でフィルタ2の適用対象から除外される。
また、例えば、2つの文書の文字数が同じである場合でも、当該2つの文書からそれぞれ得られる頻度ベクトルの類似度が小さい場合(すなわち、両文書に現れる文字の種類の分布が異なる場合)、両者は異なるグループにそれぞれ分類され、いずれかのグループに属する文書が1つしかなければ、当該文書はフィルタ2が適用された段階でフィルタ3の適用対象から除外される。
このように、文書処理装置110は、複数のフィルタを計算量が小さいフィルタから各文書に順次適用する。そのため、準重複する文書が存在する可能性が低い文書ほど、計算量の小さいフィルタを用いた早い段階で、後続のフィルタの適用対象から除外できる。したがって、文書処理装置110は、各文書に単一の分類方法を一律に適用する従来技術より、準重複する文書群を高速に検出できる。
なお、本実施の形態では、フィルタ1〜4を用いる例を具体的に説明した。しかし、計算量が異なる複数のフィルタを、当該計算量が小さい順に、母集団に対して順次適用して分類し、当該複数のフィルタのうちの1つのフィルタが適用されるたびに、当該分類した結果に基づいて、当該母集団に含まれる2以上の文書が類似する可能性があるか否かを判定し、先行のフィルタを適用した後、当該可能性があると判定された当該2以上の文書に対して、後続のフィルタをさらに適用するというアプローチでありさえすれば、各フィルタで実行する具体的な処理、フィルタの数などは、当該例に限定されない。
また、準重複する文書群を検出する精度は、従来技術を用いた場合のそれと同等、またはそれより高い。前述したように、上記アプローチでありさえすれば、各フィルタで実行される具体的な処理は問わないため、例えば、従来技術で用いられているフィルタを転用できる。この場合、検出精度は少なくとも落ちない。
したがって、文書処理装置110は、検出精度を落とすことなく準重複する文書群の検出速度を向上させることができる。そして、前述したとおり、準重複する文書群を検出することでレビュー効率を向上させることができる。そのため、文書レビューシステム100は、多数の文書をレビュアにレビューさせる場合の効率をさらに高めることができる。
(付記事項)
本開示の一態様は、上述した実施の形態及び変形例に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
文書処理装置110は、例えば、第1の分類方法を用いて複数の文書を複数のグループに分類する文書分類部と、前記複数のグループのそれぞれに2以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、第1の分類方法を適用した後、前記2以上の文書が含まれていると判定されたグループごとに、前記第1の分類方法とは異なる第2の分類方法を用いて、前記2以上の文書をさらに分類し、前記第1の分類方法は、前記第2の分類方法より計算量が小さい文書処理装置であるとも言える。
または、文書処理装置110は、例えば、計算量が異なる複数の分類方法を、前記計算量が小さい順に、複数の文書に対して順次適用し、前記複数の文書を分類する文書分類部と、前記複数の分類方法のうちの1つの分類方法が適用されるたびに、前記分類した結果に基づいて、前記複数の文書に含まれる2以上の文書が類似する可能性があるか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記可能性があると判定された前記2以上の文書に対して、後続の分類方法をさらに適用する文書処理装置であるとも言える。
文書処理装置の制御方法は、例えば、複数の文書に第1の分類方法を適用し、前記複数の文書を複数のグループに分類する分類ステップと、前記第1の分類方法を適用した後、2以上の文書を含むグループを前記複数のグループから特定する特定ステップと、前記2以上の文書を含むと特定されたグループごとに、前記2以上の文書に対して第2の分類方法をさらに適用する細分類ステップとを含み、前記特定ステップにおいて、第k(kは自然数)の分類方法を適用した後、前記2以上の文書を含むグループを前記複数のグループから特定し、前記細分類ステップにおいて、前記2以上の文書を含むと特定されたグループごとに、前記2以上の文書に対して第(k+1)の分類方法をさらに適用し、前記第kの分類方法は、前記第(k+1)の分類方法より計算量が小さいとも言える。
(ソフトウェアによる実現例)
文書処理装置110が備えた制御ブロック(特に、制御部200に含まれる各部)は、CPU(Central Processing Unit)などのコントローラ(プロセッサ)を用いてソフトウェアによって実現してもよい。すなわち、文書処理装置110は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、当該制御プログラム、および各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本開示の一態様に係る目的の一例が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本開示の一態様は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記制御プログラムは、任意のプログラミング言語で実装できる。例えば、当該制御プログラムは、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、当該制御プログラムによって実現される各機能を実現する各部を備えた情報処理端末(例えば、スマートフォン、パーソナルコンピュータ)と、上記各機能とは異なる残りの機能を実現する各部を備えた文書処理装置も、本開示の範疇に入る。
100:文書レビューシステム、110:文書処理装置、120〜122:ユーザ端末、200:制御部、210:記憶部、220:通信部、230:インターフェース部、301:文書分類部、302:分類判定部、303:特徴抽出部、304:検出部、305:通信制御部、306:スコア付与部

Claims (12)

  1. 複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、
    前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定部とを備え、
    前記文書分類部は、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、
    前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である文書処理装置。
  2. 前記2以上の文書に対して最後の分類方法を適用した後、同じグループに属する複数の文書を、互いに類似する文書群として検出する検出部をさらに備えた請求項1に記載の文書処理装置。
  3. 前記複数の分類方法がそれぞれ適用される過程において、前記複数の分類方法に応じた共通の特徴を、前記分類の対象となる文書から抽出する特徴抽出部をさらに備えた請求項1または2に記載の文書処理装置。
  4. 前記文書分類部は、前記2以上の文書が含まれると判定されたグループを細分類する方法を、前記複数の分類方法の1つとして前記複数の文書を分類する請求項1から3のいずれか一項に記載の文書処理装置。
  5. 前記文書分類部は、前記複数の文書の文字数をそれぞれカウントし、前記文字数の分布に基づいて前記複数の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から4のいずれか一項に記載の文書処理装置。
  6. 前記文書分類部は、前記2以上の文書にそれぞれ含まれる文字の種類の出現数を前記種類ごとに求め、前記出現数の分布に基づいて前記2以上の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から5のいずれか一項に記載の文書処理装置。
  7. 前記文書分類部は、前記2以上の文書の各行にそれぞれ含まれる文字列を、前記2以上の文書に含まれる2つの文書間で比較した結果に基づいて、前記2以上の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から6のいずれか一項に記載の文書処理装置。
  8. 前記文書分類部は、前記2以上の文書にそれぞれ含まれる文字を所定の関数を用いて数値に変換し、前記数値の出現数を前記数値ごとに求め、前記出現数の分布に基づいて前記2以上の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から7のいずれか一項に記載の文書処理装置。
  9. 文書処理装置と、
    レビュアが用いるユーザ端末とを含み、
    前記文書処理装置は、
    複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、
    前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定部とを備え、
    前記文書分類部は、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、
    前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である
    文書レビューシステム。
  10. 複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類ステップと、
    前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定ステップとを含み、
    前記文書分類ステップにおいて、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、
    前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である文書処理装置の制御方法。
  11. 請求項1から8のいずれか一項に記載の文書処理装置を用いて、文書レビューサービスを提供する方法。
  12. 請求項1から8のいずれか一項に記載の文書処理装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを前記各部として機能させるための制御プログラム。

JP2019205267A 2019-11-13 2019-11-13 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム Pending JP2021077256A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019205267A JP2021077256A (ja) 2019-11-13 2019-11-13 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム
US17/094,907 US11609957B2 (en) 2019-11-13 2020-11-11 Document processing device, method of controlling document processing device, and non-transitory computer-readable recording medium containing control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019205267A JP2021077256A (ja) 2019-11-13 2019-11-13 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム

Publications (1)

Publication Number Publication Date
JP2021077256A true JP2021077256A (ja) 2021-05-20

Family

ID=75847779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019205267A Pending JP2021077256A (ja) 2019-11-13 2019-11-13 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム

Country Status (2)

Country Link
US (1) US11609957B2 (ja)
JP (1) JP2021077256A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198683A (ja) * 1997-01-07 1998-07-31 Ricoh Co Ltd 文書画像分類方法
JP2009083265A (ja) * 2007-09-28 2009-04-23 Konica Minolta Business Technologies Inc 画像形成方法及び画像形成装置
JP2010009577A (ja) * 2008-05-28 2010-01-14 Ricoh Co Ltd 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20150206007A1 (en) * 2014-01-20 2015-07-23 Array Technology, LLC System and method for document grouping and user interface
JP2016004560A (ja) * 2014-06-19 2016-01-12 株式会社日立システムズ メール修正支援システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US8180773B2 (en) * 2009-05-27 2012-05-15 International Business Machines Corporation Detecting duplicate documents using classification
EP2471009A1 (en) * 2009-08-24 2012-07-04 FTI Technology LLC Generating a reference set for use during document review
US9183173B2 (en) * 2010-03-02 2015-11-10 Microsoft Technology Licensing, Llc Learning element weighting for similarity measures
US9760548B2 (en) * 2011-11-30 2017-09-12 The University Of Surrey System, process and method for the detection of common content in multiple documents in an electronic system
US10467252B1 (en) * 2012-01-30 2019-11-05 DiscoverReady LLC Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis
JP5567049B2 (ja) * 2012-02-29 2014-08-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US11663254B2 (en) * 2016-01-29 2023-05-30 Thomson Reuters Enterprise Centre Gmbh System and engine for seeded clustering of news events

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198683A (ja) * 1997-01-07 1998-07-31 Ricoh Co Ltd 文書画像分類方法
JP2009083265A (ja) * 2007-09-28 2009-04-23 Konica Minolta Business Technologies Inc 画像形成方法及び画像形成装置
JP2010009577A (ja) * 2008-05-28 2010-01-14 Ricoh Co Ltd 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20150206007A1 (en) * 2014-01-20 2015-07-23 Array Technology, LLC System and method for document grouping and user interface
JP2016004560A (ja) * 2014-06-19 2016-01-12 株式会社日立システムズ メール修正支援システム

Also Published As

Publication number Publication date
US20210141841A1 (en) 2021-05-13
US11609957B2 (en) 2023-03-21

Similar Documents

Publication Publication Date Title
Dani et al. Sentiment informed cyberbullying detection in social media
Yadav et al. Twitter sentiment analysis using supervised machine learning
JP2017224184A (ja) 機械学習装置
US20220230089A1 (en) Classifier assistance using domain-trained embedding
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
US10796095B2 (en) Prediction of tone of interpersonal text communications
US11354345B2 (en) Clustering topics for data visualization
US11481734B2 (en) Machine learning model for predicting litigation risk on construction and engineering projects
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN112052451A (zh) 一种webshell检测方法和装置
CN112949476A (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
Rajput et al. Sentiment analysis using latent dirichlet allocation for aspect term extraction
US10614100B2 (en) Semantic merge of arguments
US10296527B2 (en) Determining an object referenced within informal online communications
CN110544166A (zh) 样本生成方法、装置及存储介质
JP2021077256A (ja) 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム
US11593569B2 (en) Enhanced input for text analytics
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质
CN113190679A (zh) 关系确定方法、装置、电子设备和存储介质
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质
CN113656393B (zh) 数据处理方法、装置、电子设备以及存储介质
US11386310B2 (en) Systems for font replacement in print workflows
Wong et al. Language independent models for COVID-19 fake news detection: Black box versus white box models
US12001486B2 (en) Identifying reference data in a source data set

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240611