JP5596213B1

JP5596213B1 - 文書分析システム及び文書分析方法並びに文書分析プログラム

Info

Publication number: JP5596213B1
Application number: JP2013184152A
Authority: JP
Inventors: 正宏守本; 秀樹武田; 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2013-09-05
Filing date: 2013-09-05
Publication date: 2014-09-24
Anticipated expiration: 2033-09-05
Also published as: TW201510914A; US20160170981A1; JP2015052841A; WO2015033606A1

Abstract

【課題】訴訟に利用する文書情報の分析を容易にする。
【解決手段】本発明の文書分析システムは、訴訟又は不正調査に関連する情報を記憶する調査基礎データベースと、訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付部と、調査カテゴリ入力受付部が受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、調査基礎データベースから、必要な情報の種類を抽出する調査種類判定部とを備える。
【選択図】図３

Description

本発明は、文書分析システム及び文書分析方法並びに文書分析プログラムに関する。

従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、利用者情報に含まれる少なくとも１人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報

しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。

このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。

本発明は、訴訟に利用する文書情報の分析を容易にするための文書分析システム及び文書分析方法並びに文書分析プログラムを提供することを目的とするものである。

本発明の文書分析システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析システムであって、訴訟又は不正調査に関連する情報を記憶する調査基礎データベースと、訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付部と、調査カテゴリ入力受付部が受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、調査基礎データベースから、必要な情報の種類を抽出する調査種類判定部とを備えることを特徴とする。

上記文書分析システムは、さらに、ユーザに対し、調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部を備えることができる。

上記文書分析システムは、さらに、表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付部を備えることができる。

上記文書分析システムは、さらに、調査基礎データベースから、調査種類判定部が抽出した情報の種類に対応した、キーワードおよび／または文章を抽出する情報抽出部を備えることができる。

上記文書分析システムは、さらに、キーワードおよび／または文章を、文書の中から検索する検索部を備えることができる。

上記文書分析システムは、さらに、文書に対して自動で分別符号を付与する自動分別符号付与部を備え、キーワードおよび／または文章は、分別符号の付与に利用されることができる。

本発明の文書分析方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析方法であって、訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付ステップと、調査カテゴリ入力受付ステップが受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定ステップとを備えることを特徴とする。

本発明の文書分析プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析プログラムであって、コンピュータに、訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付機能と、調査カテゴリ入力受付機能により受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定機能とを実現させることを特徴とする。

本発明の文書分析システム、文書分析方法、および、文書分析プロラムによれば、訴訟に利用する文書情報の分析を容易にすることができる。

本発明の実施形態に係る文書判別システムの構成図本発明の実施形態に係る文書分析方法における処理の流れを示すチャート本発明の実施形態に係る文書分析方法における調査種類に応じた調査及び分別処理の流れを示すチャート本発明の実施形態に係る文書分析方法における調査種類に応じたプレディクティブコーディングの流れを示すチャート実施形態における段階ごとの処理の流れを示したチャート実施形態におけるキーワードデータベースの処理フローを示すチャート本実施形態における関連用語データベースの処理フローを示したチャート本実施形態における第１自動分別部の処理フローを示したチャート本実施形態における第２自動分別部の処理フローを示したチャート本実施形態における分別符号受付付与部の処理フローを示したチャート本実施形態における文書解析部の処理フローを示したチャート本実施形態における文書解析部での解析結果を示したグラフ本実施形態の１実施例における第３自動分別部の処理フローを示したチャート本実施形態の他の実施例における第３自動分別部の処理フローを示したチャート本実施形態における品質検査部の処理フローを示したチャート本実施形態における文書表示画面

本発明の文書分析システムについて、説明する。
本発明の文書分析システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析システムである。

上記文書分析システムは、調査基礎データベースと、調査カテゴリ入力受付部と、調査種類判定部とを備える。

上記調査基礎データベースは、訴訟又は不正調査に関連する情報記憶する。

上記調査カテゴリ入力受付部は、訴訟又は不正調査のカテゴリの入力を受け付ける。

上記調査種類判定部は、調査カテゴリ入力受付部が受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、調査基礎データベースから、必要な情報の種類を抽出する。

この場合、上記文書分析システムは、さらに、表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付部を備えることができる。

続いて、本発明の文書分析システムの詳細について、図面を参照しながら具体的に説明する。なお、以下に説明する例は一例であって、この例に限定されるものではない。

図１は、本発明の実施形態に係る文書分析システムの構成の例を示す。

図１に示すように、本実施形態に係る文書分析システム１は、情報及びデータを格納するデータ格納部１００を有することができる。該データ格納部１００は、訴訟又は不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報をデジタル情報格納領域１０１に格納する。

そして、データ格納部１００は、例えば、反トラスト、特許、ＦＣＰＡ、ＰＬを含む訴訟案件又は情報漏洩、架空請求を含む不正調査のいずれのカテゴリに属するか示すカテゴリ属性、会社名、担当者、カストディアン、及び調査又は分別入力画面の構成を格納する調査基礎データベース１０３と、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース１０４と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース１０５と、文書と分別符号との結びつきの強さを示すスコアを算出するために該文書に含まれるワードの重みづけを登録するスコア算出データベース１０６とを格納する。

更に、データ格納部１００は、カテゴリ、カストディアン、分別作業の内容に応じて定められる報告書の形式を登録する報告作成データベース１０７を格納する。このデータ格納部１００は、図１に示されるように、文書分析システム１内に設置されても良く、別個のストレージ装置として文書分析システム１の外部に設置されても良い。

本発明の実施形態に係る文書分析システム１は、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、及び報告作成データベース１０７のデータ内容の更新を管理するデータベース管理部１０９を備える。

データベース管理部１０９は、専用接続線又はインターネット回線９０１を経由して情報格納装置９０２に接続されることができる。そして、データベース管理部１０９は、情報格納装置９０２に記憶されるデータの内容に基づいて、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、及び報告作成データベース１０７のデータ内容を更新することができる。

本発明の実施形態に係る文書分析システム１は、文書情報から複数の文書を抽出する文書抽出部１１２と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部１１４と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部１１６とを備えることができる。

本発明の実施形態に係る文書分析システム１は、ワード検索部１１４によりキーワードデータベース１０４に記録したキーワードを検索し、キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第１自動分別部２０１と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第２自動分別部３０１を有することができる。

更に、実施形態に係る文書分析システム１は、文書情報から抽出された複数の文書を画面上に表示する文書表示部１３０と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部１３１と、分別符号受付付与部１３１により分別符号を付与された文書を解析する文書解析部１１８と、文書情報から抽出された複数の文書に対して、分別符号受付付与部１３１により分別符号を付与された文書を文書解析部１１８により解析した解析結果に基づいて、分別符号を自動的に付与する第３自動分別部４０１を備えることができる。

また、本発明の実施形態に係る文書分析システム１は、抽出した文書の言語の種類を判定する言語判定部１２０と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部１２２とを備えても良い。１文多言語の複合言語にも対応できるように、言語判定部１２０における言語の区切りを１文より小さくする。更に、ＨＴＭＬのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。

また、本発明の実施形態に係る文書分析システム１は、文書解析部１１８による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部１２４を備えても良い。

また、本発明の実施形態に係る文書分析システム１は、分別符号受付付与部１３１が受け付けた分別符号と文書解析部１１８において傾向情報により付与された分別符号を比較し、分別符号受付付与部１３１が受け付けた分別符号の妥当性を検証する品質検査部５０１を備えても良い。

更に、本発明の実施形態に係る文書分析システムは、文書分析処理の結果をもとに、各キーワード又は関連用語の重みづけを学習する学習部６０１を備えても良い。

本発明の実施形態に係る文書分析システム１は、文書分析処理の結果をもとに、訴訟案件又は不正調査の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部７０１を備えることができる。訴訟案件には、例えば、反トラスト（カルテル）、特許、海外賄賂禁止（ＦＣＰＡ）、又は製造物責任（ＰＬ）が含まれる。また、不正調査には、例えば、情報漏洩、架空請求が含まれる。

本発明の実施形態に係る文書分析システム１は、分別調査と報告の質を向上するために、例えば、主任弁護士又は主任弁理士のレビューを受け付ける弁護士レビュー受付部１３３を備えることができる。

本発明の実施形態に係る文書分析システム１の理解を容易とするために、実施形態に特有な用語について以下に記載する。

「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。

「文書」とは、１つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。

「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」などとすることができる。実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。

本実施形態においては、キーワードには、形態素が含まれるものとする。

また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。

「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。

また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。

「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品Ａ」という分別符号が製品Ａの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。

「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式（１）を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。

また、本発明の文書分析システム１はユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部１３１により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。

ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

次に、本発明の文書分析方法について説明する。
本発明の文書分析方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析方法であって、訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付ステップと、調査カテゴリ入力受付ステップが受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定ステップとを備えることを特徴とする。

続いて、本発明の文書分析方法の詳細について、図面を参照しながら具体的に説明する。なお、以下に説明する例は一例であって、この例に限定されるものではない。

図２は、本発明の実施形態に係る文書分析方法のフローチャートを示す。図２を参照して、本発明の実施形態に係る文書分析方法について以下に記載する。

表示部の表示画面の表示に応じてユーザから引数の指定を受け付けて、例えば、反トラスト、特許、ＦＣＰＡ、ＰＬを含む訴訟案件、又は情報漏洩、架空請求を含む不正調査から対応するカテゴリを特定することができる（Ｓ１１）。

特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースを特定することができる（Ｓ１２）。

使用データベースが最新のものかどうか確認するために、最新データベースを格納する情報格納装置にアクセスすることができる。情報格納装置は、分別を実施する組織の内部に設置される場合と、組織の外部に設置される場合がある。情報格納装置が組織の外部に設置される場合として、例えば、提携する法律事務所又は特許事務所に設置される場合がある。

情報格納装置にアクセスする場合には、セキュリティーを保持するために、ＩＤ及びパスワードによる認証が行われることができる。（Ｓ１３）

認証が行われた後に、情報格納装置にアクセスすることが許可され、調査基礎データベース、文書分析データベース等の使用データベースが指針のデータベースに更新されることができる（Ｓ１４）。

更新された調査基礎データベースを検索し（Ｓ１５）、表示装置の画面に会社名、担当者、カストディアンの名前が提示されることができる（Ｓ１６）。

表示装置の画面に表示される担当者とカストディアンの名前が実際の担当者とカストディアンの名前と異なる場合は、ユーザは表示装置の画面で担当者とカストディアンの名前を修正する。文書分析装置は、ユーザの修正入力を受け付けて、実際の担当者とカストディアンの名前を特定することができる（Ｓ１７）。

次に、文書分析作業を実施するために、デジタル文書情報を抽出することができる（Ｓ１８）。

更新された文書分析データベースとして、更新されたキーワードデータベース、関連用語データベース、及びスコア算出データベースを検索して（Ｓ１９）、抽出文書情報に分別符号を付与することができる（Ｓ２０）。

また、レビュアーによる分別符号を受け付けて、抽出文書情報に分別符号を付与することができる（Ｓ２１）。

分別結果を教師データとして、データベースを検索し、抽出文書情報に分別符号を付与することができる（Ｓ２２）。

主任弁護士又は弁理士によるレビューを受け付けることができる（Ｓ２３）。これにより、調査の質を向上させることができる。

ユーザの引数指定によりカテゴリを特定し（Ｓ２４）、特定されたカテゴリに応じて報告作成データベースを特定することができる（Ｓ２５）。特定された報告作成データベースにより、報告書の形式を定め、報告書を自動出力することができる（Ｓ２６）。

図３は、本発明の実施形態に係る文書分析方法における調査種類に応じた調査及び分別処理の流れを示すチャートである。

最初に、調査種類を入力することができる（Ｓ３１）。すなわち、表示画面の表示に応じて、ユーザが、例えば、反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）を含む訴訟案件又は情報漏洩、架空請求を含む不正調査から実施しようとする調査及び分別作業と対応するカテゴリを入力する。文書分析システムは、ユーザのカテゴリの入力を受け付けて、調査対象となるカテゴリを特定することができる。

特定されたカテゴリに応じて、調査及び文書分析処理の種類と使用するデータベースの種類を判定することができる（Ｓ３２）。

特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースに記憶された情報のストックにアクセスしてもよい（Ｓ３３）。

特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各キーワード入力画面を表示することができる（Ｓ３４）。

特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各文章入力画面を表示することができる（Ｓ３５）。

特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じてキーワードもしくは文書を抽出することができる（Ｓ３６）。

上述の処理をすることにより、自動分別符号付与（プレディクティブコーディング）の教師データに重み付けを追加して行うことができる（Ｓ３７）。

文書分析データベースをキーワード検索することにより、抽出文書及び情報の絞り込みを行うことができる（Ｓ３８）。

図４は、本発明の実施形態に係る文書分析方法における調査種類に応じたプレディクティブコーディングの流れを示すチャートである。

本発明の実施形態に係る文書分析方法では、最初に、文書分析システムが調査の種類に応じてユーザに入力を求め、それに対するユーザの入力を受け付けることができる。例えば、反トラスト法と関連してカルテルについて、対象製品、関係者（氏名とメールアドレス）、関係組織（名称と部門）及び時期について、ユーザの入力を求め、それに対するユーザの入力を受け付けることができる。その他に、関係組織については、競争相手企業と顧客企業に関してユーザの入力を求め、それに対するユーザの入力を受け付けることができる（Ｓ５１）。

次に、入力キーワードによって、分別符号付与に対する重み付けを行うことができる（Ｓ５２）。そして、プレディクティブコーディングを行うことができる（Ｓ５３）。

本発明の実施形態では、一例として、図５に示すようなフローチャートに従い、第１段階〜第５段階で、登録処理、分別処理、及び検査処理を行う。

第１段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う（ＳＴＥＰ１００）。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。

第２段階では、第１段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第１分別処理を行う（ＳＴＥＰ２００）。

第３段階では、第１段階で更新登録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第２分別処理を行う（ＳＴＥＰ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第３分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（ＳＴＥＰ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（ＳＴＥＰ５００）。また、必要に応じて、文書分析処理の結果に基づいて学習処理を行っても良い。

第４段階及び第５段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

第１段階から第５段階の各段階における詳細な処理フローを以下で説明する。
＜第１段階（ＳＴＥＰ１００）＞
第１段階におけるキーワードデータベース１０４の詳細な処理フローを図６を用いて説明する。

キーワードデータベース１０４は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（ＳＴＥＰ１１１）。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する（ＳＴＥＰ１１２）。そして、特定されたキーワードをキーワードデータベース１０４に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース１０４の分別符号「重要」の管理テーブルに記録する（ＳＴＥＰ１１３）。

次に、関連用語データベース１０５の詳細な処理フローを図７を用いて説明する。関連用語データベース１０５は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する（ＳＴＥＰ１２１）。本発明の実施形態においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を登録する。

登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（ＳＴＥＰ１２２）、各管理テーブルに記録する（ＳＴＥＰ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する（ＳＴＥＰ１１３、ＳＴＥＰ１２３）。

＜第２段階（ＳＴＥＰ２００）＞
第２段階における第１自動分別部２０１の詳細な処理フローを、図８を用いて説明する。本発明の実施形態において、第２段階では、第１自動分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１自動分別部２０１では、第１段階（ＳＴＥＰ１００）でキーワードデータベース１０４に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（ＳＴＥＰ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、（ＳＴＥＰ２１２）、「重要」という分別符号を付与する（ＳＴＥＰ２１３）。

＜第３段階（ＳＴＥＰ３００）＞
第３段階における第２自動分別部３０１の詳細な処理フローを、図９を用いて説明する。
本発明の実施形態において、第２自動分別部３０１では、第２段階（ＳＴＥＰ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２自動分別部３０１は、該文書情報から、第１段階で関連用語データベース１０５に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（ＳＴＥＰ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）を用いて、スコア算出部１１６によりスコアを算出する（ＳＴＥＰ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（ＳＴＥＰ３１３）、適切な分別符号を付与する（ＳＴＥＰ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２自動分別部３０１では、第４段階のＳＴＥＰ４３２において算出されるスコアを用いて以下に示す式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う（ＳＴＥＰ３１５）。

例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（ＳＴＥＰ４００）＞
第４段階では、図１０に示すように、第３段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図１１に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第４段階では、例えば、「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。第４段階について、更に以下に記載する。

第４段階における分別符号受付付与部１３１の詳細な処理フローを、図１０を用いて説明する。第４段階での処理対象となる文書情報からまず文書抽出部１１２が、ランダムに文書をサンプリングし、文書表示部１３０上で表示する。本発明の実施形態では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは文書表示部１３０上に表示される図１６に示す表示用画面１１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部１３１は、該ユーザが選択した分別符号を受け付け（ＳＴＥＰ４１１）、付与された分別符号に基づいて分別する（ＳＴＥＰ４１２）。

次に、文書解析部１１８の詳細な処理フローを、図１１を用いて説明する。文書解析部１１８では、分別符号受付付与部１３１で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（ＳＴＥＰ４２１）。抽出した共通の単語の評価値を式（２）により解析し（ＳＴＥＰ４２２）、該共通の単語の文書中の出現頻度を解析する（ＳＴＥＰ４２３）。

さらに、ＳＴＥＰ４２２及びＳＴＥＰ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（ＳＴＥＰ４２４）。
図１２は、ＳＴＥＰ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１２において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部１３１によってＳＴＥＰ４２１で抽出された単語を含む文書の割合を示している。

本発明の実施形態において、分別符号受付付与部１３１では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

ＳＴＥＰ４２１乃至ＳＴＥＰ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、第３自動分別部４０１の詳細な処理フローを、図１３を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第３自動分別部４０１では、このような文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４３１）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４３２）。また、ＳＴＥＰ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４３３）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。

更に、第３自動分別部４０１の詳細な処理フローの１例を、図１４を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第３自動分別部４０１では、引数が与えられなかった場合には（ＳＴＥＰ４４１：なし）、該文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４４３）。また、ＳＴＥＰ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４４４）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

上述のように第２自動分別部３０１と第３自動分別部４０１の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース１０６に一括して格納しても良い。

＜第５段階（ＳＴＥＰ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図１５を用いて説明する。品質検査部５０１では、分別符号受付付与部１３１が、ＳＴＥＰ４１１で受け付けた文書に対して、文書解析部１１８がＳＴＥＰ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（ＳＴＥＰ５１１）。

分別符号受付付与部１３１が受け付けた分別符号とＳＴＥＰ５１１で決定した分別符号とを比較し（ＳＴＥＰ５１２）、ＳＴＥＰ４１１で受け付けた分別符号の妥当性を検証する（ＳＴＥＰ５１３）。

本発明の実施形態に係る文書分析システム１は、学習部６０１を備えても良い。学習部６０１では、第１から第４の処理結果をもとに、各キーワード又は関連用語の重みづけを式（２）により学習する。該学習結果をキーワードデータベース１０４、関連用語データベース１０５、又はスコア算出データベース１０６に反映しても良い。

本発明の実施形態に係る文書分析システムは、文書分析処理の結果をもとに、訴訟案件（例えば、訴訟であればカルテル・特許・FCPA・PLなど）、又は不正調査（例えば、情報漏洩、架空請求など）の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部７０１を備えることができる。

調査種類によって、調査する内容は異なる。
例えば、カルテル案件であれば、
１．競合の担当者がカルテルに関連する意思疎通（価格の調整）を、いつ・どのように取ったか？
２．関係者はどの組織の誰か？
がポイントになる。

また、特許侵害であれば、
１．侵害の対象になっている技術と内容が同じか？
２．誰が、いつ、どのような意図をもって（持たずに）侵害したか、もしくはしていないか？
といったことがポイントになる。

本発明の実施形態の他の実施例について以下に記載する。
本発明の実施形態の他の実施例では、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する方法を用いる。
類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。
本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。
本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。これにより、本発明の実施形態の他の実施例では、これにより、迅速で的確な分別符号の付与を可能とすると共に、分別作業に伴う負担を軽減することができる。

上記調査カテゴリ入力受付機能は、上記調査カテゴリ入力受付部により実現されることができる。詳細については上述した通りである。

上記調査種類判定機能は、上記調査種類判定部により実現されることができる。詳細については上述した通りである。

本発明の実施形態は、訴訟案件又は不正調査案件のカテゴリについてユーザの入力を受け付けることにより、カテゴリに応じて自動的にデータベースを更新する。これにより担当者、カストディアンの氏名等を入力する事務作業の負担が軽減される。また、カテゴリに応じて自動的に更新されたデータベースにより検索ワードを調整し、調整された検索ワードを用いて当該文書情報に対して分別符号を自動で付与する。これにより、訴訟又は不正調査案件に利用する文書情報の分別作業の負担が軽減される。

すなわち、本発明により、訴訟に利用する文書情報の分析が容易になる。

１文書分析システム
２０１第１自動分別部
３０１第２自動分別部
４０１第３自動分別部
５０１品質検査部
６０１学習部
７０１報告作成部
１００データ格納部
１０１デジタル情報格納領域
１０３調査基礎データベース
１０４キーワードデータベース
１０５関連用語データベース
１０６スコア算出データベース
１０７報告作成データベース
１０９データベース管理部
１１２文書抽出部
１１４ワード検索部
１１６スコア算出部
１１８文書解析部
１２０言語判定部
１２２翻訳部
１２４傾向情報生成部
１３０文書表示部
１３１分別符号受付付与部
１３３弁護士レビュー受付部
１１文書表示画面

Claims

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析および表示部を介して表示し、訴訟又は不正調査への利用を容易にする文書分析システムであって、
前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースと、
前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付部と、
前記調査カテゴリ入力受付部が受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記調査基礎データベースから、前記判定されたカテゴリに応じて、前記表示部に表示すべき、必要な情報の種類を抽出する調査種類判定部と、
前記調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部と、
前記表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付部と、
前記キーワードおよび／または文書に対して、前記判定された調査カテゴリに応じて、自動で分別符号を付与する自動分別符号付与部とを備える文書分析システム。
前記文書分析システムは、さらに、
前記訴訟または不正調査にあわせた調査レポートを出力する報告作成部とを備えることを特徴とする請求項１記載の文書分析システム。
前記文書分析システムは、メタデータの共通性により、原文書、原文書の返信文書に共通の分別符号を付与することを特徴とする請求項１または２に記載の文書分析システム。
前記文書分析システムは、さらに、
前記調査基礎データベースから、前記調査種類判定部が抽出した情報の種類に対応した、キーワードおよび／または文章を抽出する情報抽出部を備えることを特徴とする請求項１乃至３いずれか１項記載の文書分析システム。
前記文書分析システムは、さらに、
前記キーワードおよび／または文章を、前記文書の中から検索する検索部を備えることを特徴とする請求項１乃至４いずれか１項記載の文書分析システム。
前記文書分析システムは、さらに、
前記キーワードおよび／または文章は、前記分別符号の付与に利用されることを特徴とする請求項３〜５のいずれか一項に記載の文書分析システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析および表示部を介して表示し、訴訟又は不正調査への利用を容易にする文書分析システムの文書分析方法であって、
前記文書分析システムが、
前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付ステップと、
前記調査カテゴリ入力受付ステップが受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、前記判定されたカテゴリに応じて、前記表示部に表示すべき、必要な情報の種類を抽出する調査種類判定ステップと、
前記調査種類判定ステップの際に抽出した情報の種類を提示する表示画面を制御する表示画面制御ステップと、
前記表示画面制御ステップの際に提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付ステップと、
前記キーワードおよび／または文書に対して、前記判定された調査カテゴリに応じて、自動で分別符号を付与する自動分別符号付与ステップを有する文書分析方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析および表示部を介して表示し、訴訟又は不正調査への利用を容易にする文書分析プログラムであって、
コンピュータに、
前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付機能と、
前記調査カテゴリ入力受付機能により受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、前記判定されたカテゴリに応じて、前記表示部に表示すべき、必要な情報の種類を抽出する調査種類判定機能と、
前記調査種類判定機能において抽出した情報の種類を提示する表示画面を制御する表示画面制御機能と、
前記表示画面制御機能において提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付機能と、
前記キーワードおよび／または文書に対して、前記判定された調査カテゴリに応じて、自動で分別符号を付与する自動分別符号付与機能を実現させるための文書分析プログラム。