JP2021077256A

JP2021077256A - 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム

Info

Publication number: JP2021077256A
Application number: JP2019205267A
Authority: JP
Inventors: 貴文清政; Takafumi Kiyomasa
Original assignee: Fronteo Inc
Current assignee: Fronteo Inc
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2021-05-20
Also published as: US20210141841A1; US11609957B2

Abstract

【課題】検出精度を落とすことなく準重複する文書群の検出速度を向上させる。【解決手段】文書処理装置は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、前記複数の分類方法に含まれる１つの分類方法が適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記２以上の文書が含まれると判定されたグループごとに、前記２以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。【選択図】図１

Description

本開示は、文書処理装置等に関する。

非特許文献１は、準重複する文書群を検出する手法を紹介している。

Bassma S. Alsulami、外２名、"Near Duplicate Document Detection Survey"、［online］、International Journal of Computer Science & Communication Networks, Vol 2(2), 147-151、［2019年10月25日検索］、インターネット〈URL：https://pdfs.semanticscholar.org/c7f5/ec814301fdaad5c78e27e7a8a9b4560aae8b.pdf〉

非特許文献１に記載の従来技術は、２つの文書の同一性に応じて準重複する文書群を検出する技術ではないため、当該検出の速度が遅くなる場合があった。そこで、本開示の一態様は、例えば、検出精度を落とすことなく準重複する文書群の検出速度を向上させる文書処理装置等を実現することを目的とする。

本開示の一態様に係る文書処理装置は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、前記複数の分類方法に含まれる１つの分類方法が適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記２以上の文書が含まれると判定されたグループごとに、前記２以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。

本開示の一態様に係る文書レビューシステムは、文書処理装置と、レビュアが用いるユーザ端末とを含み、前記文書処理装置は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、前記複数の分類方法に含まれる１つの分類方法が適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記２以上の文書が含まれると判定されたグループごとに、前記２以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。

本開示の一態様に係る文書処理装置の制御方法は、複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類ステップと、前記複数の分類方法に含まれる１つの分類方法が適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する分類判定ステップとを含み、前記文書分類ステップにおいて、先行の分類方法を適用した後、前記２以上の文書が含まれると判定されたグループごとに、前記２以上の文書に対して後続の分類方法をさらに適用し、前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である。

本開示の一態様に係る文書レビューシステムの構成例を示す模式図である。本開示の一態様に係る文書処理装置のハードウェア構成の一例を示す図である。上記文書処理装置が備えた制御部の機能的構成の一例を示す機能ブロック図である。上記文書処理装置が準重複する文書を検出する処理の概略の一例を示す概略図である。上記文書処理装置が準重複する文書を検出する処理の概略の一例を示す概略図である。上記文書処理装置が、準重複する文書を検出する処理の一例を示すフローチャートである。上記文書処理装置が実行するフィルタ１の処理の一例を示すフローチャートである。上記文書処理装置が実行するフィルタ２の処理の一例を示すフローチャートである。上記文書処理装置が実行するフィルタ３の処理の一例を示すフローチャートである。上記文書処理装置が実行するフィルタ４の処理の一例を示すフローチャートである。

図１〜図９に基づいて、本開示の一態様を説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。

（文書レビューシステム１００の構成）
図１は、文書レビューシステム１００の構成例を示す模式図である。文書レビューシステム１００は、文書をレビュアに効率よくレビューさせる（文書の内容を検討させる）システムである。図１に例示されるように、文書レビューシステム１００は、文書処理装置１１０とユーザ端末１２０〜１２２とを含む。

文書処理装置１１０は、文書レビューシステム１００を統合的に動作させる装置であり、例えば、文書が事象に関連する度合いを評価する機能を持つ。各文書は、少なくとも一部に文字・数字・記号などを含む任意の形式の電子データであってよく、例えば、文書データ（例えば、電子メール、議事録、仕様書、取扱説明書、各種技術文書、各種報告書、契約書、営業資料、事業計画書、電子カルテ、ウェブページなど）、プレゼンテーションデータ、表計算用データ、文字が映り込んだ画像・映像などである。また、事象は、レビュアが各文書との関連性を判断する任意の対象であってよく、例えば、訴訟、情報漏洩、コンプライアンス違反、ハラスメント、その他の不正、離職、事故、病気などである。

さらに、ユーザ端末１２０〜１２２は、複数のレビュアが文書をレビューするためにそれぞれ用いる端末であり、文書処理装置１１０と通信可能に接続されている。なお、図１はユーザ端末が３台ある例を示しているが、ユーザ端末の数は３つに限定されず、１または複数であってよい。各レビュアは、ユーザ端末１２０〜１２２に表示された文書が上記事象に関連しているか否かを、当該事象に応じて設定された所定の基準に則ってレビューし、当該レビューした結果をユーザ端末１２０〜１２２に入力する。

上記事象が米国訴訟である場合を一例に、文書レビューシステム１００を用いてレビュアに文書をレビューさせる手順を説明する。米国で訴訟が提起された場合、訴訟当事者はディスカバリ（証拠開示）の手続きが求められる場合がある。すなわち、当事者は訴訟に関連する文書を法廷に提出し、審理のために当該文書を開示しなければならない。このとき、訴訟に関連しうる多数の文書を、訴訟に関連する文書と関連しない文書とに分類し、関連する文書のみを提出する必要がある。

そのため、レビュアが訴訟に関連する可能性のある文書（以下「母集団」と称する）をレビューし、各文書に対して、例えば「訴訟に関連する」または「訴訟に関連しない」などの判断を下さなければならない。母集団は大きい（例えば、数万〜数百万の文書を含む場合がある）ため、上記レビューに関する一連の作業を効率化することが求められる。

文書レビューシステム１００が、上記作業を効率化する方法の一例を説明する。まず、文書処理装置１１０は、例えば、母集団から少数の文書（例えば、１００〜２００の文書）をランダムに抽出し、当該少数の文書をユーザ端末１２０〜１２２に送信する。そして、ユーザ端末１２０〜１２２は、当該抽出された少数の文書をレビュアに提示する。

レビュアは、上記提示された少数の文書をレビューし（以下「事前レビュー」と称する）、各文書が訴訟に関係するか否かを判断した結果をユーザ端末１２０〜１２２に入力する。例えば、レビュアは、ある文書を事前レビューした結果、当該文書が訴訟に関連すると判断した場合、当該文書に対して関連することを示す関連（relevant）ラベルを付与する。逆に、関連しないと判断した場合、当該文書に対して関連しないことを示す非関連（not-relevant）ラベルを付与する。

レビュアは、関連ラベルまたは非関連ラベルを上記少数の文書にそれぞれ付与し、ユーザ端末１２０〜１２２は、ラベル付与の結果を事前レビューの結果として文書処理装置１１０に送信する。その後、文書処理装置１１０は、事前レビューの結果に基づいて文書を識別する識別モデルを学習させる。なお、当該識別モデルは、文書を識別可能なモデルであれば何でもよく、その種類は限定されない。

次に、文書処理装置１１０は、上記識別モデルを用いて、母集団に含まれるすべての文書にそれぞれスコアを付与する。スコアは、文書が訴訟に関連する度合いを示す任意の指標であってよく、例えば、１〜１００００の範囲に収まる数値、強・中・弱などである。文書処理装置１１０は、当該度合いが大きいほど文書に大きなスコアを付与し、小さいほど小さなスコアを付与する。すなわち、文書処理装置１１０は、文書が訴訟に関連する度合いを、学習済みの識別モデルを用いて算出されたスコアにより評価する。

これにより、文書処理装置１１０は、例えば、大きいスコアが付与された文書からレビュアに順次レビューさせたり、スコアが所定の値より小さい文書をレビュー対象から除外したりすることができる。すなわち、文書レビューシステム１００は、文書処理装置１１０によって付与されたスコアに応じて軽重を付けたレビューを、レビュアに行わせることができる。したがって、文書レビューシステム１００は、多数の文書をレビュアにレビューさせる場合の効率を高めることができる。

なお、事象が米国の訴訟である場合をここで説明したが、訴訟以外の事象であっても、文書レビューシステム１００は同様の手順に則ってレビューの効率を高められる。

（文書処理装置１１０のハードウェア構成）
図２は、文書処理装置１１０のハードウェア構成の一例を示す図である。図２に例示されるように、文書処理装置１１０は、制御部２００、記憶部２１０、通信部２２０、インターフェース部２３０などを備えている。

制御部２００は、文書処理装置１１０の各種機能を統括的に制御する機能を持ち、例えば、ＣＰＵ（Central Processing Unit）などのプロセッサによって実現される。制御部２００は、記憶部２１０に格納された制御プログラムにしたがって、制御部２００に含まれる各部（図３を参照して後述する）を機能させる。

記憶部２１０は、任意の情報を格納可能な記憶機器であり、例えば、ハードディスク、ＳＳＤ（Silicon State Drive）、半導体メモリ、ＤＶＤなどで構成される。記憶部２１０は、例えば、制御部２００を機能させる制御プログラム、制御部２００を機能させるために必要となるデータ、レビュアにレビューさせる文書、文書を識別する識別モデルなどを記憶している。なお、図２は文書処理装置１１０が記憶部２１０を備えた構成を例示しているが、当該構成に限定されない。例えば、文書処理装置１１０は記憶部２１０を備えず、文書処理装置１１０は、当該文書処理装置１１０の外部に設けられた外部記憶装置（例えば、クラウドストレージなど）を用いてよい。

通信部２２０は、ユーザ端末１２０〜１２２と文書などの任意のデータを送受信する。なお、通信部２２０は、例えば、所定の通信方式にしたがうネットワークを介して外部と通信可能なハードウェアである。外部の機器との通信を実現する本質的な機能を備えていればよく、通信回線、通信方式、通信媒体などは限定されない。

インターフェース部２３０は、任意の入出力機器を接続可能な接続用インターフェースである。インターフェース部２３０は、例えば、ＵＳＢ端子、ＨＤＭＩ（登録商標）端子、音声出力端子などである。文書処理装置１１０のユーザは、例えば、ＵＳＢ端子にキーボード・マウスなどを接続することによって、当該文書処理装置１１０に入力情報を与えることができる。また、ユーザは、例えば、ＨＤＭＩ（登録商標）端子にディスプレイを接続することによって、当該文書処理装置１１０が出力する映像情報を表示させることができる。

（制御部２００の機能的構成）
図３は、文書処理装置１１０が備えた制御部２００の機能的構成の一例を示す機能ブロック図である。図３に例示されるように、制御部２００は、文書分類部３０１、分類判定部３０２、特徴抽出部３０３、検出部３０４、通信制御部３０５、スコア付与部３０６などを含む。

文書分類部３０１は、複数の文書に対して、フィルタ１〜４（複数の分類方法）を所定の順序で順次適用し、母集団（複数の文書）を複数のグループに分類する。ここで、当該所定の順序は、フィルタ１〜４の各計算量が小さい順序である。ここで、フィルタ１〜４は、いずれも、上記２以上の文書が含まれると判定されたグループを細分類する方法であってよい。なお、各フィルタの具体例は、図５〜図９を参照して後述する。

また、文書分類部３０１は、フィルタ１〜４に含まれる１つのフィルタ（先行の分類方法、例えば、フィルタ１）を適用した後、分類判定部３０２によって２以上の文書が含まれると判定されたグループごとに、当該２以上の文書に対してフィルタ１〜４に含まれる他のフィルタ（後続の分類方法、例えば、フィルタ１の次に適用されるフィルタ２）をさらに適用する。

分類判定部３０２は、フィルタ１〜４に含まれる１つのフィルタが適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する。逆に言えば、分類判定部３０２は、フィルタ１〜４に含まれる１つのフィルタが適用されるたびに、文書の数が１であるグループが存在するか否かを判定する。存在する場合、当該グループに属する１つの文書は、準重複する文書が存在する可能性がないと判定し、分類判定部３０２は、当該文書を後続のフィルタの適用対象から除外する。なお、分類判定部３０２による判定処理の詳細は、図５〜図９を参照して後述する。

特徴抽出部３０３は、フィルタ１〜４がそれぞれ適用される過程において、当該フィルタ１〜４に応じた共通の特徴を、上記分類の対象となる文書から抽出してよい。なお、文書から抽出される特徴の具体例は、図５〜図９を参照して後述する。

検出部３０４は、上記２以上の文書に対してフィルタ４（最後の分類方法）を適用した後、同じグループに属する複数の文書（例えば、文書Ａ〜Ｄ、文書Ｅ〜Ｇ、文書Ｈ〜Ｉ）を、互いに重複または類似する（準重複する）文書群として検出してよい。なお、準重複する文書群を検出する処理の詳細は、図５〜図９を参照して後述する。

通信制御部３０５は、各レビュアにレビューさせる文書をユーザ端末１２０〜１２２に送信し、当該ユーザ端末１２０〜１２２に当該文書を各レビュアに提示させる。また、レビュアによってレビューされた結果をユーザ端末１２０〜１２２から受信し、当該結果を記憶部２１０に格納する。

スコア付与部３０６は、所定の識別モデルを用いて、事象（例えば、訴訟など）に関連する度合いを示すスコアを母集団に含まれる複数の文書に付与する。具体的には、スコア付与部３０６は、識別モデルを用いて、母集団に含まれるすべての文書に対し、事象に関連する度合いが大きいほど大きいスコアを、小さいほど小さいスコアを付与する。

（準重複する文書群を検出する処理）
図４Ａおよび図４Ｂは、文書処理装置１１０が準重複する文書群を検出する処理の概略の一例を示す概略図である。準重複（Near Duplication）は、例えば、２つの文書に含まれる文字または内容の少なくとも一部が互いに重複または類似することを意味する。

例えば、文書Ａの文字数がＮ、文書Ｂの文字数がＭであるとき（Ｎ、Ｍはいずれも自然数）、両文書で同一の文字の数が｜Ｎ−Ｍ｜≦ｎを満たす場合、文書処理装置１１０は、文書Ａおよび文書Ｂを準重複する文書群とみなしてよい。なお、ｎは任意に設定可能な自然数であり、例えば、文書の種類に応じて異なる値を設定してよい。

また、例えば、文書Ａおよび文書Ｂがいずれも１０頁の文書であるとき、（ａ）９頁分の内容および順序が一致する場合、（ｂ）１０頁分の内容および順序は一致するが各ページに１文字分の差異がある場合なども、文書処理装置１１０は、文書Ａおよび文書Ｂを準重複する文書群とみなしてよい。

ここで、文書処理装置１１０が準重複する文書群を検出する目的を説明する。ある文書が事象に関連するとレビュアが判断したとき、当該文書に類似する文書も当該事象に関連する可能性が高いと推測できる。例えば、ある電子メールが訴訟に関連すると判断された場合、当該電子メールの内容を引用しながら返信された電子メールも訴訟に関連すると判断される。当該返信された電子メールは、元の電子メールの内容を含むからである。当該返信された電子メールの内容を引用しながらさらに返信された電子メールも、同様に訴訟に関連する。

これら３通の電子メールが準重複する文書群であると検出できれば、当該３通の電子メールのうちの１通の電子メールをレビュアがレビューするだけで、当該レビューの結果と同じレビューの結果を残り２通の電子メールに援用できる。この場合、文書処理装置１１０は、レビューの効率を３倍に高めることができる。このように、文書処理装置１１０が準重複する文書群を検出する実益は大きい。

図４Ａおよび図４Ｂに例示されるように、文書処理装置１１０は、各文書にフィルタ１（１次グループ分割）、フィルタ２（２次グループ分割）、フィルタ３（３次グループ分割）、フィルタ４（４次グループ分割）を順次適用し、母集団を複数のグループに分割（細分類）する処理を繰り返す。そして、フィルタ４を適用した時点で同じグループに複数の文書が属していた場合、当該複数の文書を互いに準重複する文書群として検出する。

逆に、あるグループに含まれる文書の数が１つであることは、当該文書と準重複する文書が存在しないことを意味する。したがって、文書処理装置１１０は、複数のフィルタを多段階に適用する過程において、あるグループに含まれる文書の数が１つになった時点で、それ以降から当該文書にフィルタを適用しない。

図５は、文書処理装置１１０が、準重複する文書を検出する処理の一例を示すフローチャートである。図５に例示されるように、文書処理装置１１０は、母集団に含まれる各文書に対してフィルタ１〜４の処理を順次実行し（Ｓ５０１〜Ｓ５０４）、最後に準重複する文書群を検出する（Ｓ５０５）。

まず、文書処理装置１１０は、母集団に含まれるすべての文書にフィルタ１を適用する（Ｓ５０１）。具体的には、文書分類部３０１が、特徴抽出部３０３によって抽出された特徴を用いて母集団をＮ１（Ｎ１は自然数）個のグループに分類する（Ｓ５０１）。そして、分類判定部３０２は、あるグループに含まれる文書が１つである場合、当該文書をフィルタ２の適用対象から除外する。

次に、文書処理装置１１０は、除外されなかった残りの文書にフィルタ２を適用する（Ｓ５０２）。具体的には、文書分類部３０１は、特徴抽出部３０３によって抽出された特徴を用いて、フィルタ２の適用対象となった文書をＮ２（Ｎ２は自然数）個のグループに分類する（Ｓ５０２）。そして、分類判定部３０２は、あるグループに含まれる文書が１つである場合、当該文書をフィルタ３の適用対象から除外する。

次に、文書処理装置１１０は、除外されなかった残りの文書にフィルタ３を適用する（Ｓ５０３）。具体的には、文書分類部３０１は、特徴抽出部３０３によって抽出された特徴を用いて、フィルタ３の適用対象となった文書をＮ３（Ｎ３は自然数）個のグループに分類する（Ｓ５０３）。そして、分類判定部３０２は、あるグループに含まれる文書が１つである場合、当該文書をフィルタ４の適用対象から除外する。

最後に、文書処理装置１１０は、除外されなかった残りの文書にフィルタ４を適用する（Ｓ５０４）。具体的には、文書分類部３０１は、特徴抽出部３０３によって抽出された特徴を用いて、フィルタ４の適用対象となった文書をＮ４（Ｎ４は自然数）個のグループに分類する（Ｓ５０４）。そして、検出部３０４は、フィルタ４を適用した後、同じ分類に属する２以上の文書を、準重複する文書群として検出する（Ｓ５０５）。

このように、文書処理装置１１０は、各文書にフィルタ１〜４を順次適用し、準重複する文書が存在しないと判明した文書をフィルタの適用対象から除外していく。そして、フィルタ４を適用した後も複数の文書が１つのグループにまとまる場合、文書処理装置１１０は、当該複数の文書は準重複する文書群であると判定する。

以下から、図６〜図９を参照し、各フィルタで実行される処理を詳細に説明する。

（フィルタ１の処理）
図６は、文書処理装置１１０が実行するフィルタ１の処理の一例を示すフローチャートである。なお、図６に含まれるＳ６０１〜Ｓ６０３の各処理が、図５に例示されるＳ５０１に含まれる。

最初に、特徴抽出部３０３は、文書の文字数を所定の文字数（例えば、５００文字）で割った商を計算し、当該商の小数点以下を切り捨てた値を、当該文書に含まれる特徴として抽出する。次に、文書分類部３０１は、当該特徴に基づいて当該文書にグループＩＤを割り当てる。例えば、ある文書の文字数が1001文字である場合、特徴抽出部３０３は1001÷500＝2.002を計算し、文書分類部３０１は、当該文書にグループＩＤとして２を割り当てる。

特徴抽出部３０３は、母集団に含まれるすべての文書に対して同様の計算を実行し、文書分類部３０１は、各文書にグループＩＤを割り当てる（Ｓ６０１）。次に、分類判定部３０２は、文書の数が１であるグループが存在するか否かを判定する（Ｓ６０２）。存在する場合（Ｓ６０２においてＹＥＳ）、当該グループに属する１つの文書は、準重複する文書が存在する可能性がないと判定し、当該文書をフィルタ２の適用対象から除外する（Ｓ６０３）。

すなわち、フィルタ１は、文書の文字数をカウントし、当該文字数の分布に基づいて当該文書を分類する分類方法であってよい。これにより、文書処理装置１１０は、文字数が類似する文書はその内容も類似するという傾向に基づいて文書を分類できる。

なお、特徴抽出部３０３は、上記所定の文字数を一定の範囲で増減させてよい。このとき、文書分類部３０１は、各文書に複数のグループＩＤを割り当てる。例えば、特徴抽出部３０３が所定の文字数を496〜505の間で増減させると、文書分類部３０１は、文字数が1001である文書にグループＩＤとして１（502〜505のとき）および２（496〜500のとき）を割り当てる。これにより、文書処理装置１１０は、グループＩＤの割り当てに柔軟性を持たせることができるため、分類の精度を高めることができる。

（フィルタ２の処理）
図７は、文書処理装置１１０が実行するフィルタ２の処理の一例を示すフローチャートである。なお、図７に含まれるＳ７０１〜Ｓ７０７の各処理が、図５に例示されるＳ５０２に含まれる。

最初に、特徴抽出部３０３は、フィルタ２の適用対象となった文書の頻度ベクトルを計算し、当該頻度ベクトルを当該文書に含まれる特徴として抽出する（Ｓ７０１）。頻度ベクトルは、例えば、文書に現れる文字の種類ごとの文字数を各次元に格納したベクトルである。

例えば、ある文書に、ひらがなが250文字、カタカナが140文字、漢字が200文字、アルファベットが340文字、数字が30文字、記号が10文字含まれていた場合、当該文書の頻度ベクトルは、（250, 140, 200, 340, 30, 10）となる。なお、頻度ベクトルの次元数は、文字の種類の定義に応じて変化してよい。例えば、上記６種類に加えて、簡体字、繁体字、ハングルなどが含まれる場合、頻度ベクトルの次元数は９以上となる。

次に、文書分類部３０１は、フィルタ１で生成されたグループ１〜Ｎ１のそれぞれにおいて、文字数が最多となる文書を「親文書」として特定し（Ｓ７０２）、あるグループに属する親文書の頻度ベクトルと、当該グループと同じグループに属する親文書以外の文書（子文書）の頻度ベクトルとの類似度を算出する（Ｓ７０３）。そして、当該類似度が所定の範囲に収まる場合（Ｓ７０４においてＹＥＳ）、子文書を親文書と同じグループに分類する（Ｓ７０５）。

例えば、グループ１に属する文書Ａ〜Ｚのなかで文書Ａの文字数が最多である場合、文書処理装置１１０は、文書Ａを親文書とし、親文書Ａの頻度ベクトルと、グループ１に属する子文書Ｂ〜Ｚの頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Ａと子文書Ｂ〜Ｒとの類似度がいずれも所定の範囲に収まる場合、文書Ａ〜Ｒをグループ１−１に分類する。

なお、文書分類部３０１は、例えば、２つの頻度ベクトルの距離（例えば、マンハッタン距離、ユークリッド距離など）を測ることにより、類似度を算出する。ただし、類似度を算出する方法は、２つの頻度ベクトルの距離を測る以外の方法であってもよい。

次に、文書分類部３０１は、グループ１〜Ｎ１のそれぞれにおいて、親文書と同じグループに分類されなかった残りの子文書のなかで文字数が最多となる文書を新たな親文書とし、残りの子文書との類似度に基づいて、当該親文書と当該子文書とを同じグループに分類する。

例えば、グループ１に属する残りの文書Ｓ〜Ｚのなかで文書Ｓの文字数が最多である場合、文書分類部３０１は、文書Ｓを新たな親文書とし、親文書Ｓの頻度ベクトルと、子文書Ｔ〜Ｚの頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Ｓと子文書Ｔ〜Ｖとの類似度がいずれも所定の範囲に収まる場合、文書Ｓ〜Ｖをグループ１−２に分類する。

文書分類部３０１は、グループ１〜Ｎ１のそれぞれにおいて、上記の分類処理ができなくなるまで当該分類処理を繰り返す（Ｓ７０６においてＹＥＳ）。分類処理ができなくなった場合（Ｓ７０６においてＮＯ）、分類判定部３０２は、残りの文書は準重複する文書が存在する可能性がないと判定し、フィルタ３の適用対象から除外する（Ｓ７０７）。

例えば、グループ１に属する残りの文書Ｗ〜Ｚのなかで、文書Ｗの文字数が最多である場合、文書分類部３０１は、文書Ｗを新たな親文書とし（Ｓ７０２）、親文書Ｗの頻度ベクトルと、子文書Ｘ〜Ｚの頻度ベクトルとの類似度をそれぞれ算出する（Ｓ７０３）。そして、親文書Ｗと子文書Ｘとの類似度が所定の範囲に収まる場合、文書ＷおよびＸをグループ１−３に分類する（Ｓ７０５）。

一方で、グループ１に属する残りの文書ＹおよびＺのいずれを親文書として類似度を算出しても、当該類似度は所定の範囲に収まらない場合（Ｓ７０４においてＮＯ）、文書分類部３０１は、母集団をこれ以上細かいグループに分割できないと判定する（Ｓ７０６においてＮＯ）。この場合、分類判定部３０２は、文書ＹおよびＺをフィルタ３の適用対象から除外する（Ｓ７０７）。文書処理装置１１０は、グループ１〜Ｎ１のそれぞれにおいて上記の計算を実行し、フィルタ１で生成されたグループをさらに分割することにより、文書を細分類する。

すなわち、フィルタ２は、準重複する文書が存在する可能性があると判定された２以上の文書にそれぞれ含まれる文字の種類の出現数を当該種類ごとに求め、当該出現数の分布に基づいて当該２以上の文書を分類する分類方法であってよい。これにより、文書処理装置１１０は、同じ種類の文字が類似の頻度で出現する文書はその内容も類似するという傾向に基づいて文書をさらに分類できる。

（フィルタ３の処理）
図８は、文書処理装置１１０が実行するフィルタ３の処理の一例を示すフローチャートである。なお、図８に含まれるＳ８０１〜Ｓ８０７の各処理が、図５に例示されるＳ５０３に含まれる。

最初に、特徴抽出部３０３は、フィルタ３の適用対象となった文書の行頻度ベクトルを計算し、当該行頻度ベクトルを当該文書に含まれる特徴として抽出する（Ｓ８０１）。行頻度ベクトルは、例えば、改行で区切られた１行を各次元に格納したベクトルである。例えば、ある文書に「This document（改行）is important.」と記載されていた場合、文書処理装置１１０は、行頻度ベクトルの１次元目に「This document」を格納し、２次元目に「is important.」を格納する。

次に、文書分類部３０１は、フィルタ２で生成されたグループ１〜Ｎ２のそれぞれにおいて、行数が最多となる文書を「親文書」として特定し（Ｓ８０２）、あるグループに属する親文書の行頻度ベクトルと、当該グループと同じグループに属する親文書以外の文書（子文書）の行頻度ベクトルとの類似度を算出する（Ｓ８０３）。そして、当該類似度が所定の範囲に収まる場合（Ｓ８０４においてＹＥＳ）、子文書を親文書と同じグループに分類する（Ｓ８０５）。

例えば、グループ１−１に属する文書Ａ〜Ｒのなかで文書Ａの行数が最多である場合、文書分類部３０１は、文書Ａを親文書とし、親文書Ａの行頻度ベクトルと、グループ１−１に属する子文書Ｂ〜Ｒの行頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Ａと子文書Ｂ〜Ｋとの類似度がいずれも所定の範囲に収まる場合、文書Ａ〜Ｋをグループ１−１−１に分類する。

次に、文書分類部３０１は、グループ１〜Ｎ２のそれぞれにおいて、親文書と同じグループに分類されなかった残りの文書のなかで行数が最多となる文書を新たな親文書とし、残りの子文書との類似度に基づいて、当該親文書と当該子文書とを同じグループにさらに分類する。

例えば、グループ１−１に属する残りの文書Ｌ〜Ｒのなかで文書Ｌの行数が最多である場合、文書分類部３０１は、文書Ｌを新たな親文書とし、親文書Ｌの行頻度ベクトルと、子文書Ｍ〜Ｒの行頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Ｌと子文書ＭおよびＮとの類似度がいずれも所定の範囲に収まる場合、文書Ｌ〜Ｎをグループ１−１−２に分類する。

文書分類部３０１は、グループ１〜Ｎ２のそれぞれにおいて、上記の分類処理ができなくなるまで当該分類処理を繰り返す（Ｓ８０６においてＹＥＳ）。分類処理ができなくなった場合（Ｓ８０６においてＮＯ）、分類判定部３０２は、残りの文書は準重複する文書が存在する可能性がないと判定し、フィルタ４の適用対象から除外する（Ｓ８０７）。

例えば、グループ１−１に属する残りの文書Ｏ〜Ｒのなかで、文書Ｏの文字数が最多である場合、文書分類部３０１は、文書Ｏを新たな親文書とし（Ｓ８０２）、親文書Ｏの行頻度ベクトルと、子文書Ｐ〜Ｒの行頻度ベクトルとの類似度をそれぞれ算出する（Ｓ８０３）。そして、親文書Ｏと子文書Ｐとの類似度が所定の範囲に収まる場合、文書ＯおよびＰをグループ１−１−３に分類する（Ｓ８０５）。

一方で、グループ１−１に属する残りの文書ＱおよびＲのいずれを親文書として類似度を算出しても、当該類似度は所定の範囲に収まらない場合（Ｓ８０４においてＮＯ）、文書分類部３０１は、母集団をこれ以上細かいグループに分割できないと判定する（Ｓ８０６においてＮＯ）。この場合、分類判定部３０２は、文書ＱおよびＲをフィルタ４の適用対象から除外する（Ｓ８０７）。文書処理装置１１０は、グループ１〜Ｎ２のそれぞれにおいて上記の計算を実行し、フィルタ２で生成されたグループをさらに分割することにより、文書を細分類する。

すなわち、フィルタ３は、準重複する文書が存在する可能性があると判定された２以上の文書の各行にそれぞれ含まれる文字列を、当該２以上の文書に含まれる２つの文書間で比較した結果に基づいて、当該２以上の文書を分類する方法であってよい。これにより、文書処理装置１１０は、各行が類似する文書はその内容も類似するという傾向に基づいて文書をさらに分類できる。

（フィルタ４の処理）
図９は、文書処理装置１１０が実行するフィルタ４の処理の一例を示すフローチャートである。なお、図９に含まれるＳ９０１〜Ｓ９０８の各処理が、図５に例示されるＳ５０４に含まれ、Ｓ９０９の処理がＳ５０５の処理に対応する。

最初に、特徴抽出部３０３は、フィルタ４の適用対象となった文書を、２種類のハッシュ関数を用いてハッシュ値に変換し、当該変換した２つのハッシュ値を当該文書に含まれる特徴として抽出する（Ｓ９０１）。

ここで、第１ハッシュ関数は、例えば、５文字の文字コードを入力として０〜３のハッシュ値を返す関数であり、第２ハッシュ関数は、例えば、５文字の文字コードを入力として４〜７のハッシュ値を返す関数である。なお、各ハッシュ関数に入力する文字コードの文字数は任意に変更可能である。また、ハッシュ関数の数、各ハッシュ関数が返す値、およびその値域も、それぞれ任意に変更可能である。

例えば、特徴抽出部３０３は、文書の１文字目から５文字分の文字コードを、第１ハッシュ関数および第２ハッシュ関数にそれぞれ入力し、２つのハッシュ値を得る。次に、特徴抽出部３０３は、文書の２文字目から５文字分の文字コードを、第１ハッシュ関数および第２ハッシュ関数にそれぞれ入力し、２つのハッシュ値を得る。

以下同様に、特徴抽出部３０３は、文書の１文字目から１文字分だけ順次ずらしながら、５文字分の文字コードを２種類のハッシュ関数にそれぞれ入力し、順次２つのハッシュ値を得る。したがって、文書の文字数をｎとすると、２×（ｎ−４）個のハッシュ値が得られる。

次に、特徴抽出部３０３は、８種類のハッシュ値の頻度を文書ごとに計算してハッシュ頻度ベクトルを生成し（Ｓ９０２）、当該ハッシュ頻度ベクトルを当該文書に含まれる特徴として抽出する。ハッシュ頻度ベクトルは、ｍ次元目にハッシュ値（ｍ−１）の頻度を格納したベクトルである。

次に、文書分類部３０１は、全種類のハッシュ値の頻度を合算した総頻度を計算する（Ｓ９０３）。そして、文書分類部３０１は、フィルタ３で生成されたグループ１〜Ｎ３のそれぞれにおいて、総頻度が最高となる文書を「親文書」として特定し（Ｓ９０４）、あるグループに属する親文書のハッシュ頻度ベクトルと、当該グループと同じグループに属する親文書以外の文書（子文書）のハッシュ頻度ベクトルとの類似度を算出する（Ｓ９０５）。そして、当該類似度が所定の範囲に収まる場合（Ｓ９０６においてＹＥＳ）、子文書を親文書と同じグループに分類する（Ｓ９０７）。

例えば、グループ１−１−１に属する文書Ａ〜Ｋのなかで文書Ａの総頻度が最高である場合、文書分類部３０１は、文書Ａを親文書とし、親文書Ａのハッシュ頻度ベクトルと、グループ１−１−１に属する子文書Ｂ〜Ｋのハッシュ頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Ａと子文書Ｂ〜Ｄとの類似度が所定の範囲に収まる場合、文書Ａ〜Ｄをグループ１−１−１−１に分類する。

次に、文書分類部３０１は、グループ１〜Ｎ３のそれぞれにおいて、親文書と同じグループに分類されなかった残りの文書のなかで総頻度が最高となる文書を新たな親文書とし、残りの子文書との類似度に基づいて、当該親文書と当該子文書とを同じグループにさらに分類する。

例えば、グループ１−１−１に属する残りの文書Ｅ〜Ｋのなかで文書Ｅの総頻度が最高である場合、文書分類部３０１は、文書Ｅを新たな親文書とし、親文書Ｅのハッシュ頻度ベクトルと、子文書Ｆ〜Ｋのハッシュ頻度ベクトルとの類似度をそれぞれ算出する。そして、親文書Ｅと子文書ＦおよびＧとの類似度がいずれも所定の範囲に収まる場合、文書Ｅ〜Ｇをグループ１−１−１−２に分類する。

文書分類部３０１は、グループ１〜Ｎ３のそれぞれにおいて、上記の分類処理ができなくなるまで当該分類処理を繰り返す（Ｓ９０８においてＹＥＳ）。分類処理ができなくなった場合（Ｓ９０８においてＮＯ）、検出部３０４は、分類されたグループ１〜Ｎ４（Ｎ４は自然数）のうち、複数の文書を含むグループを準重複する文書群として検出する（Ｓ９０９）。

例えば、グループ１−１−１に属する残りの文書Ｈ〜Ｋのなかで、文書Ｈの総頻度が最高である場合、文書分類部３０１は、文書Ｈを新たな親文書とし（Ｓ９０４）、親文書Ｈのハッシュ頻度ベクトルと、子文書Ｉ〜Ｋのハッシュ頻度ベクトルとの類似度をそれぞれ算出する（Ｓ９０５）。そして、親文書Ｈと子文書Ｉとの類似度が所定の範囲に収まる場合、文書ＨおよびＩをグループ１−１−１−３に分類する（Ｓ９０７）。

一方で、グループ１−１−１に属する残りの文書ＪおよびＫのいずれを親文書として類似度を算出しても、当該類似度は所定の範囲に収まらない場合（Ｓ９０６においてＮＯ）、文書分類部３０１は、母集団をこれ以上細かいグループに分割できないと判定する（Ｓ９０８においてＮＯ）。この場合、検出部３０４は、文書Ａ〜Ｄ、文書Ｅ〜Ｇ、および文書Ｈ〜Ｉのそれぞれを、準重複する文書群として検出する（Ｓ９０９）。

文書処理装置１１０は、グループ１〜Ｎ３のそれぞれにおいて上記の計算を実行し、フィルタ３で生成されたグループをさらに分割することにより、文書を細分類する。これにより、文書処理装置１１０は、ハッシュ値の頻度が類似する文書はその内容も類似するという傾向に基づいて文書をさらに分類できる。そして、文書処理装置１１０は、フィルタ４によって分類されたグループ１〜Ｎ４のうち、複数の文書を含むグループを準重複する文書群として検出する。

すなわち、フィルタ４は、準重複する文書が存在する可能性があると判定された２以上の文書にそれぞれ含まれる文字を所定の関数を用いて数値に変換し、当該数値の出現数を当該数値ごとに求め、当該出現数の分布に基づいて当該２以上の文書を分類する分類方法であってよい。

以上、図６〜図９を参照して詳細に説明したとおり、文書処理装置１１０は、各文書にフィルタ１〜４を順次適用することによって、準重複する文書群を検出できる。これにより、文書処理装置１１０は、準重複する文書をレビュアにすべてレビューさせなくとも、準重複するすべての文書に対してレビュー結果を得ることができる。

（各フィルタの計算量）
文書処理装置１１０が、文書にフィルタ１〜４（複数の分類方法）をそれぞれ適用するために必要となる計算量について説明する。

図６〜図９を参照して前述したとおり、特徴抽出部３０３は文書を分類する過程で、フィルタ１〜４に応じた下記特徴（１）〜（４）の特徴を、分類の対象となる文書から抽出する。
（１）文書の文字数を所定の文字数で割った商の小数点以下を切り捨てた値
（２）文書に現れる文字の種類ごとの文字数を各次元に格納した頻度ベクトル
（３）改行で区切られた１行を各次元に格納した行頻度ベクトル
（４）文書ごとのハッシュ値の頻度を各次元に格納したハッシュ頻度ベクトル

そして、文書分類部３０１が、上記特徴を用いたフィルタ１〜４を文書に適用することにより、当該文書を分類する。

すなわち、各フィルタの計算量は、文書から特徴を抽出するための計算量と、当該文書を分類するための計算量との和で概算できる。そして、各フィルタの計算量は、フィルタ４よりフィルタ３の方が小さく、フィルタ３よりフィルタ２の方が小さく、フィルタ２よりフィルタ１の方が小さい。言い換えれば、文書分類部３０１は、計算量が小さい順に複数のフィルタを順次適用する。

一方で、分類判定部３０２が、準重複する文書が存在する可能性が低い文書ほど、計算量が小さいフィルタが適用された段階で除外するため、フィルタの計算量が大きいほど、当該フィルタを適用する文書の数は少なくなる。

したがって、準重複する文書群を検出する全体の処理（図５を参照）を実行するために必要な計算量は、従来技術を用いた場合のそれより少なくなる。すなわち、文書処理装置１１０は、従来技術よりも高速に準重複する文書群を検出できる。

文書処理装置１１０が、準重複する文書群を高速に検出できる原理を、具体例を用いて説明する。例えば、母集団のなかで１つだけ突出して多くの文字を含む文書は、フィルタ１が適用された段階でフィルタ２の適用対象から除外される。

また、例えば、２つの文書の文字数が同じである場合でも、当該２つの文書からそれぞれ得られる頻度ベクトルの類似度が小さい場合（すなわち、両文書に現れる文字の種類の分布が異なる場合）、両者は異なるグループにそれぞれ分類され、いずれかのグループに属する文書が１つしかなければ、当該文書はフィルタ２が適用された段階でフィルタ３の適用対象から除外される。

このように、文書処理装置１１０は、複数のフィルタを計算量が小さいフィルタから各文書に順次適用する。そのため、準重複する文書が存在する可能性が低い文書ほど、計算量の小さいフィルタを用いた早い段階で、後続のフィルタの適用対象から除外できる。したがって、文書処理装置１１０は、各文書に単一の分類方法を一律に適用する従来技術より、準重複する文書群を高速に検出できる。

なお、本実施の形態では、フィルタ１〜４を用いる例を具体的に説明した。しかし、計算量が異なる複数のフィルタを、当該計算量が小さい順に、母集団に対して順次適用して分類し、当該複数のフィルタのうちの１つのフィルタが適用されるたびに、当該分類した結果に基づいて、当該母集団に含まれる２以上の文書が類似する可能性があるか否かを判定し、先行のフィルタを適用した後、当該可能性があると判定された当該２以上の文書に対して、後続のフィルタをさらに適用するというアプローチでありさえすれば、各フィルタで実行する具体的な処理、フィルタの数などは、当該例に限定されない。

また、準重複する文書群を検出する精度は、従来技術を用いた場合のそれと同等、またはそれより高い。前述したように、上記アプローチでありさえすれば、各フィルタで実行される具体的な処理は問わないため、例えば、従来技術で用いられているフィルタを転用できる。この場合、検出精度は少なくとも落ちない。

したがって、文書処理装置１１０は、検出精度を落とすことなく準重複する文書群の検出速度を向上させることができる。そして、前述したとおり、準重複する文書群を検出することでレビュー効率を向上させることができる。そのため、文書レビューシステム１００は、多数の文書をレビュアにレビューさせる場合の効率をさらに高めることができる。

（付記事項）
本開示の一態様は、上述した実施の形態及び変形例に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。

文書処理装置１１０は、例えば、第１の分類方法を用いて複数の文書を複数のグループに分類する文書分類部と、前記複数のグループのそれぞれに２以上の文書が含まれているか否かを判定する分類判定部とを備え、前記文書分類部は、第１の分類方法を適用した後、前記２以上の文書が含まれていると判定されたグループごとに、前記第１の分類方法とは異なる第２の分類方法を用いて、前記２以上の文書をさらに分類し、前記第１の分類方法は、前記第２の分類方法より計算量が小さい文書処理装置であるとも言える。

または、文書処理装置１１０は、例えば、計算量が異なる複数の分類方法を、前記計算量が小さい順に、複数の文書に対して順次適用し、前記複数の文書を分類する文書分類部と、前記複数の分類方法のうちの１つの分類方法が適用されるたびに、前記分類した結果に基づいて、前記複数の文書に含まれる２以上の文書が類似する可能性があるか否かを判定する分類判定部とを備え、前記文書分類部は、先行の分類方法を適用した後、前記可能性があると判定された前記２以上の文書に対して、後続の分類方法をさらに適用する文書処理装置であるとも言える。

文書処理装置の制御方法は、例えば、複数の文書に第１の分類方法を適用し、前記複数の文書を複数のグループに分類する分類ステップと、前記第１の分類方法を適用した後、２以上の文書を含むグループを前記複数のグループから特定する特定ステップと、前記２以上の文書を含むと特定されたグループごとに、前記２以上の文書に対して第２の分類方法をさらに適用する細分類ステップとを含み、前記特定ステップにおいて、第ｋ（ｋは自然数）の分類方法を適用した後、前記２以上の文書を含むグループを前記複数のグループから特定し、前記細分類ステップにおいて、前記２以上の文書を含むと特定されたグループごとに、前記２以上の文書に対して第（ｋ＋１）の分類方法をさらに適用し、前記第ｋの分類方法は、前記第（ｋ＋１）の分類方法より計算量が小さいとも言える。

（ソフトウェアによる実現例）
文書処理装置１１０が備えた制御ブロック（特に、制御部２００に含まれる各部）は、ＣＰＵ（Central Processing Unit）などのコントローラ（プロセッサ）を用いてソフトウェアによって実現してもよい。すなわち、文書処理装置１１０は、各機能を実現するソフトウェアである制御プログラムの命令を実行するＣＰＵ、当該制御プログラム、および各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、当該制御プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記制御プログラムを上記記録媒体から読み取って実行することにより、本開示の一態様に係る目的の一例が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本開示の一態様は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

なお、上記制御プログラムは、任意のプログラミング言語で実装できる。例えば、当該制御プログラムは、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、当該制御プログラムによって実現される各機能を実現する各部を備えた情報処理端末（例えば、スマートフォン、パーソナルコンピュータ）と、上記各機能とは異なる残りの機能を実現する各部を備えた文書処理装置も、本開示の範疇に入る。

１００：文書レビューシステム、１１０：文書処理装置、１２０〜１２２：ユーザ端末、２００：制御部、２１０：記憶部、２２０：通信部、２３０：インターフェース部、３０１：文書分類部、３０２：分類判定部、３０３：特徴抽出部、３０４：検出部、３０５：通信制御部、３０６：スコア付与部

Claims

複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、
前記複数の分類方法に含まれる１つの分類方法が適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する分類判定部とを備え、
前記文書分類部は、先行の分類方法を適用した後、前記２以上の文書が含まれると判定されたグループごとに、前記２以上の文書に対して後続の分類方法をさらに適用し、
前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である文書処理装置。
前記２以上の文書に対して最後の分類方法を適用した後、同じグループに属する複数の文書を、互いに類似する文書群として検出する検出部をさらに備えた請求項１に記載の文書処理装置。
前記複数の分類方法がそれぞれ適用される過程において、前記複数の分類方法に応じた共通の特徴を、前記分類の対象となる文書から抽出する特徴抽出部をさらに備えた請求項１または２に記載の文書処理装置。
前記文書分類部は、前記２以上の文書が含まれると判定されたグループを細分類する方法を、前記複数の分類方法の１つとして前記複数の文書を分類する請求項１から３のいずれか一項に記載の文書処理装置。
前記文書分類部は、前記複数の文書の文字数をそれぞれカウントし、前記文字数の分布に基づいて前記複数の文書を分類する方法を、前記複数の分類方法の１つとして用いる請求項１から４のいずれか一項に記載の文書処理装置。
前記文書分類部は、前記２以上の文書にそれぞれ含まれる文字の種類の出現数を前記種類ごとに求め、前記出現数の分布に基づいて前記２以上の文書を分類する方法を、前記複数の分類方法の１つとして用いる請求項１から５のいずれか一項に記載の文書処理装置。
前記文書分類部は、前記２以上の文書の各行にそれぞれ含まれる文字列を、前記２以上の文書に含まれる２つの文書間で比較した結果に基づいて、前記２以上の文書を分類する方法を、前記複数の分類方法の１つとして用いる請求項１から６のいずれか一項に記載の文書処理装置。
前記文書分類部は、前記２以上の文書にそれぞれ含まれる文字を所定の関数を用いて数値に変換し、前記数値の出現数を前記数値ごとに求め、前記出現数の分布に基づいて前記２以上の文書を分類する方法を、前記複数の分類方法の１つとして用いる請求項１から７のいずれか一項に記載の文書処理装置。
文書処理装置と、
レビュアが用いるユーザ端末とを含み、
前記文書処理装置は、
複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、
前記複数の分類方法に含まれる１つの分類方法が適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する分類判定部とを備え、
前記文書分類部は、先行の分類方法を適用した後、前記２以上の文書が含まれると判定されたグループごとに、前記２以上の文書に対して後続の分類方法をさらに適用し、
前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である
文書レビューシステム。
複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類ステップと、
前記複数の分類方法に含まれる１つの分類方法が適用されるたびに、各グループに２以上の文書が含まれているか否かを判定する分類判定ステップとを含み、
前記文書分類ステップにおいて、先行の分類方法を適用した後、前記２以上の文書が含まれると判定されたグループごとに、前記２以上の文書に対して後続の分類方法をさらに適用し、
前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である文書処理装置の制御方法。
請求項１から８のいずれか一項に記載の文書処理装置を用いて、文書レビューサービスを提供する方法。
請求項１から８のいずれか一項に記載の文書処理装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを前記各部として機能させるための制御プログラム。