JP5853090B2 - デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム - Google Patents

デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム Download PDF

Info

Publication number
JP5853090B2
JP5853090B2 JP2014249088A JP2014249088A JP5853090B2 JP 5853090 B2 JP5853090 B2 JP 5853090B2 JP 2014249088 A JP2014249088 A JP 2014249088A JP 2014249088 A JP2014249088 A JP 2014249088A JP 5853090 B2 JP5853090 B2 JP 5853090B2
Authority
JP
Japan
Prior art keywords
digital information
unit
combination
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014249088A
Other languages
English (en)
Other versions
JP2015046196A (ja
JP2015046196A5 (ja
Inventor
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
ハルスコウ ヤコブ
ハルスコウ ヤコブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to JP2014249088A priority Critical patent/JP5853090B2/ja
Publication of JP2015046196A publication Critical patent/JP2015046196A/ja
Publication of JP2015046196A5 publication Critical patent/JP2015046196A5/ja
Application granted granted Critical
Publication of JP5853090B2 publication Critical patent/JP5853090B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムに関する。特に、本発明は、デジタル情報に含まれる複数の単語の関連性に基づいて当該デジタル情報を分析するデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムに関する。
従来、記録されたデジタル情報を表示し、複数の文書ファイルごとに、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するシステムが知られている(例えば、特許文献1参照。)。特許文献1に記載のシステムによれば、特定の者に関係するデジタル文書情報のみを抽出し、訴訟の証拠資料作成のための作業負荷の軽減を図ることができる。
特開2012−181851号公報
特許文献1に記載されているようなシステムにおいて、一の単語だけでなく、複数の単語に基づいて共起形態素を選定することで、更なる作業負荷の軽減を図ることができると考えられる。
したがって、本発明の目的は、複数の単語の関連性に基づいてデジタル情報を分析するデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムを提供することにある。
本発明は、上記目的を達成するため、情報処理装置に格納されている調査対象の対象デジタル情報を選択する対象選択部と、予め定められた特定事項と関連性を有する複数の単語の組合せそれぞれを格納する組合せ格納部と、対象選択部において選択された対象デジタル情報内に、組合せ格納部が格納している複数の単語の組合せが含まれているか否か検索する検索部と、対象デジタル情報内に組合せ格納部が格納している複数の単語の組合せの少なくとも1つが含まれている場合、形態素解析の結果に基づいて対象デジタル情報の予め定められた特定事項との関連性を判断する関連性判断部と、関連性判断部の判断結果を対象デジタル情報に対応づける判断結果設定部とを備えるデジタル情報分析システムが提供される。
また、上記デジタル情報分析システムにおいて、判断結果設定部が複数の対象デジタル情報のそれぞれに対応づけた判断結果に基づいて、予め定められた特定情報に関連する対象デジタル情報を出力する出力部を更に備えることもできる。
また、上記デジタル情報分析システムは、対象選択部が、情報処理装置から複数の対象デジタル情報を選択し、検索部が、複数の対象デジタル情報のそれぞれに複数の単語の組合せが含まれているか否かを検索し、関連性判断部が、複数の単語の組合せのそれぞれについて関連性を判断し、判断結果設定部が、判断結果を複数の対象デジタル情報のそれぞれに対応づけることもできる。
また、上記デジタル情報分析システムは、関連性判断部が、対象デジタル情報を形態素解析する解析部と、解析部の解析結果に基づいて、単語の組合せを構成する一の単語と他の単語とのそれぞれに対象デジタル情報が示す文章内における位置情報を付与する位置情報付与部と、位置情報付与部が付与した一の単語の位置情報と他の単語の位置情報との間の距離を算出する距離算出部と、距離に基づいて、関連性を判断する判断部とを有することもできる。
また、上記デジタル情報分析システムは、関連性判断部が、対象デジタル情報を形態素解析する解析部と、解析部の解析結果から得られる単語の組合せを構成する一の単語と他の単語との語順に基づいて、関連性を判断する語順判断部とを有することもできる。
また、上記デジタル情報分析システムは、関連性判断部が、対象デジタル情報を形態素解析する解析部と、解析部の解析結果から得られる単語の組合せを構成する一の単語と他の単語とが同一文中に存在するか否かを示す情報に基づいて関連性を判断するセンテンス判断部とを有することもできる。
また、上記デジタル情報分析システムは、予め定められた特定事項が、訴訟に関係することを示す情報であってもよい。
また、上記デジタル情報分析システムは、関連性判断部の判断結果を外部からの指示に応じて修正する修正部を更に備えることもできる。
また、本発明は、上記目的を達成するため、情報処理装置に格納されている調査対象の対象デジタル情報を選択する対象選択段階と、対象選択部において選択された対象デジタル情報内に、予め定められた特定事項と関連性を有する複数の単語の組合せそれぞれを格納する組合せ格納部が格納している複数の単語の組合せが含まれているか否か検索する検索段階と、対象デジタル情報内に組合せ格納部が格納している複数の単語の組合せの少なくとも1つが含まれている場合、形態素解析の結果に基づいて対象デジタル情報の予め定められた特定事項との関連性を判断する関連性判断段階と、関連性判断段階における判断結果を対象デジタル情報に対応づける判断結果設定段階とを備えるデジタル情報分析方法が提供される。
また、本発明は、上記目的を達成するため、デジタル情報分析プログラムであって、コンピュータに、情報処理装置に格納されている調査対象の対象デジタル情報を選択する対象選択機能と、対象選択機能が選択した対象デジタル情報内に、予め定められた特定事項と関連性を有する複数の単語の組合せのそれぞれを格納する組合せ格納部に格納されている複数の単語の組合せが含まれているか否か検索する検索機能と、対象デジタル情報内に組合せ格納部が格納している複数の単語の組合せの少なくとも1つが含まれている場合、形態素解析の結果に基づいて対象デジタル情報の予め定められた特定事項との関連性を判断する関連性判断機能と、関連性判断機能における判断結果を対象デジタル情報に対応づける判断結果設定機能とを実現させるデジタル情報分析プログラムが提供される。
本発明に係るデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムによれば、複数の単語の関連性に基づいてデジタル情報を分析するデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムを提供できる。
本実施の形態に係るデジタル情報分析システムの機能構成ブロック図である。 情報処理装置の機能構成ブロック図である。 本実施の形態に係るデジタル情報分析システムが備える関連性判断部の機能構成ブロック図である。 本実施の形態に係る組合せ格納部のデータ構成図である。 本発明の実施の形態に係るデジタル情報分析システムの処理のフロー図である。 本実施の形態に係るデジタル情報分析システムのハードウェア構成図である。
[実施の形態]
図1は、本実施の形態に係るデジタル情報分析システムの機能構成ブロックの一例を示す。
(デジタル情報分析システム1の概要)
本実施の形態に係るデジタル情報分析システム1は、ユーザー端末若しくはサーバー等の情報処理装置2に格納されている複数のデジタル情報から予め定められた特定事項に関連性のあるデジタル情報を自動的に抽出するシステムである。ここで、予め定められた特定事項は、例えば、訴訟に関連することを示す情報である。そして、本実施の形態に係るデジタル情報分析システム1は、一例として、不正アクセスや機密情報漏洩等のコンピュータに関する犯罪や法的紛争が生じた場合に、犯罪や紛争の原因究明や捜査に要する電子的記録であるデジタル情報を収集及び分析し、その法的な証拠性を明らかにする技術であるフォレンジックに適用できる。
デジタル情報分析システム1は、予め定められた特定事項に関連する複数の単語の組合せに、予め定められた特定事項との関連性の高低を示すスコアを対応づけて格納する辞書としての組合せ格納部14を備える。そして、デジタル情報分析システム1は、情報処理装置2に格納されている任意のファイルが選択された場合に、形態素解析に基づいて当該ファイル内の文章を解析し、組合せ格納部14に格納されている複数の単語の組合せが選択されたファイルに含まれているか否かを判断する。
デジタル情報分析システム1は、組合せ格納部14に格納されている単語の組合せが、選択されたファイルに含まれていると判断した場合、複数の単語それぞれの間の距離、複数の単語の語順、及び/又は複数の単語が同一文章に含まれているか否かに基づいて、予め定められた特定事項に対する当該ファイルの関連性の高低を判断する。そして、デジタル情報分析システム1は、判断結果を示す情報(すなわち、予め定められた特定事項に対する関連性の高低を示す情報)を選択されたファイルに対応づける。
例えば、デジタル情報分析システム1は、複数の単語が2つの単語を含む場合、一方の単語と他方の単語との文章中における距離が予め定められた距離以下の場合であって当該単語の組合せに所定の有意性がある場合に、選択されたファイルの予め定められた特定事項との関連性が高いと判断する。また、デジタル情報分析システム1は、一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合であって当該単語の組合せに所定の有意性がある場合に、選択されたファイルの予め定められた特定事項との関連性が高いと判断する。更に、デジタル情報分析システム1は、一方の単語と他方の単語との距離が予め定められた距離以下の場合であっても、両単語が互いに異なる文中に存在する場合よりも両単語が同一文中に存在する場合に、当該単語の組合せに所定の有意性があると判断し、当該単語の組合せを含むファイルの予め定められた特定事項との関連性が高いと判断する。そして、デジタル情報分析システム1は、判断結果を示す情報を選択されたファイルに対応づける。
デジタル情報分析システム1は、同様の処理を情報処理装置2に格納されている他の複数のファイルに対しても実行する。次に、外部からの指示に応じ、デジタル情報分析システム1は、予め定められた特定事項に対する関連性の高いファイル、又は関連性の低いファイルを自動的に情報処理装置2から抽出する。そして、デジタル情報分析システム1は、抽出したファイルをユーザーに知覚可能に出力する。これにより、デジタル情報分析システム1は、予め定められた特定情報に関連性のある複数のファイルを、自動的に抽出及び出力することができる。
なお、本実施の形態においてサーバーは、1つ以上のサーバーであって、複数のサーバーを含んで構成することもできる。例えば、サーバーは、メールサーバー、ファイルサーバー、又は文書管理サーバー等のデジタル情報を格納可能なサーバーを含む。また、ユーザー端末は、1つ以上のユーザー端末であって、複数のユーザー端末を含んで構成することもできる。例えば、ユーザー端末は、パーソナルコンピュータ、ノートパソコン、タブレットPC、又は携帯電話等の携帯通信端末等を含む。
(デジタル情報分析システム1の詳細)
図2は、情報処理装置の機能構成ブロックの一例を示し、図3は、本実施の形態に係るデジタル情報分析システムが備える関連性判断部の機能構成ブロックの一例を示す。また、図4は、本実施の形態に係る組合せ格納部のデータ構成の一例を示す。
デジタル情報分析システム1は、情報処理装置2に格納されている調査対象のデジタル情報である対象デジタル情報を選択する指示を外部から受け付ける入力部10と、入力部10が受け付けた指示に応じて情報処理装置2から対象デジタル情報を選択して取得する対象選択部12と、予め定められた特定事項との関連性を有する複数の単語の組合せのそれぞれを格納する組合せ格納部14とを備える。
また、デジタル情報分析システム1は、対象選択部12において選択された対象デジタル情報内に組合せ格納部14が格納している複数の単語の組合せが含まれているか否か検索する検索部16と、組合せ格納部14が格納している複数の単語の組合せの少なくとも1つが対象デジタル情報内に含まれている場合、形態素解析の結果に基づいて、予め定められた特定事項と対象デジタル情報との関連性を判断する関連性判断部18と、関連性判断部18の判断結果を対象デジタル情報に対応づける判断結果設定部20とを備える。
更に、デジタル情報分析システム1は、判断結果設定部20からの情報を格納する設定情報格納部22と、判断結果設定部20の設定、又は設定情報格納部22が格納している設定情報に基づいて、対象デジタル情報を出力する出力部24と、判断結果設定部20の設定結果を修正可能な修正部26とを備える。また、デジタル情報分析システム1は、複数のデジタル情報のそれぞれに含まれる複数の単語の組合せを抽出する抽出部28と、抽出部28において抽出された複数の単語の組合せのそれぞれに、予め定められた特定事項との関連性に応じたスコアを対応づけるスコア部30とを備えることもできる。
(情報処理装置2)
情報処理装置2は、複数のデジタル情報を格納するデジタル情報格納部200と、デジタル情報を外部に出力する情報出力部210とを有する。デジタル情報格納部200は、文章情報を含む文書ファイル、テキストファイル、又は電子メール等の複数のデジタル情報を格納する。デジタル情報格納部200は、対象選択部12又は抽出部28からの働きかけに応じ、所定のデジタル情報を情報出力部210に供給する。情報出力部210は、デジタル情報格納部200が格納しているデジタル情報を対象選択部12又は抽出部28に供給する。なお、デジタル情報分析システム1と情報処理装置2とは、インターネット等の通信ネットワーク、又はLAN等の有線若しくは無線のネットワーク等により相互に通信可能に接続される。また、デジタル情報分析システム1は、情報処理装置2が有する機能及び構成の一部又は全部を備えることもできる。
(入力部10)
入力部10は、情報処理装置2のデジタル情報格納部200に格納されている対象デジタル情報を選択する指示を外部から受け付ける。また、入力部10は、判断結果設定部20の判断結果を修正する指示を受け付けることもできる。更に入力部10は、予め定められた特定情報に関連する電子ファイルの出力指示を受け付ける。入力部10は、例えば、キーボード、マウス、タッチパネル、マイク等を介し、ユーザーからの指示を受け付ける。入力部10は、受け付けた対象デジタル情報を選択する指示を対象選択部12に供給する。また、入力部10は、受け付けた修正する指示を修正部26に供給する。
(対象選択部12)
対象選択部12は、入力部10から受け付けた指示に応じ、デジタル情報格納部200に格納されている対象デジタル情報を選択すると共に選択した対象デジタル情報をデジタル情報格納部200から取得する。ここで、入力部10が受け付ける指示には、対象デジタル情報を特定する情報が含まれる。例えば、対象選択部12は、入力部10から対象デジタル情報を識別するファイル名、対象デジタル情報の作成日付、対象デジタル情報の更新日付、対象デジタル情報のファイルサイズ等を指定する情報を受け付ける。そして、対象選択部12は、当該指定する情報に合致する対象デジタル情報をデジタル情報格納部200から選択して取得する。また、対象選択部12は、情報処理装置2のデジタル情報格納部200から複数の対象デジタル情報を選択することもできる。対象選択部12は、取得した対象デジタル情報を検索部16に供給する。
(組合せ格納部14)
組合せ格納部14は、予め定められた特定事項と関連性を有する複数の単語の組合せ、若しくは予め定められた特定事項と共に予め定められた特定事項との関連性に応じたスコアが対応づけられた複数の単語の組合せのそれぞれを格納する。ここで、単語とは、文法上、特定の意味及び機能を有する最小の言語単位である。また、複数の単語は、2つ以上の単語である。そして、スコアとは、複数の単語の組合せが予め定められた特定事項との関連性において、関連性の高低を示す数値である。数値が大きいほど、関連性が高いことを示す。
例えば、組合せ格納部14は、第1の単語と第2の単語との組合せに対応づけてスコアを格納する。図4の例においては、予め定められた特定事項が「侵害」に関連する情報である例を示す。この場合、組合せ格納部14に、第1の単語としての「デジタルカメラ」と第2の単語としての「侵害」との組合せに対応づけてスコア「5」が格納されている。また、組合せ格納部14に、第1の単語としての「急ピッチ」と第2の単語としての「予定」との組合せに対応づけてスコア「1」が格納されている。この場合、「デジタルカメラ」と「侵害」との単語の組合せの方が、「急ピッチ」と「予定」との単語の組合せよりも侵害に対する関連性が高いことを示す。
組合せ格納部14は、検索部16からの働きかけに応じ、当該働きかけに対応する単語の組合せを検索部16に供給する。また、組合せ格納部14は、スコア部30から供給される単語の組合せと当該単語の組合せのスコアとを受け取って格納する。
(検索部16)
検索部16は、対象選択部12において選択された対象デジタル情報内に、組合せ格納部14が格納している複数の単語の組合せが含まれているか否か検索する。具体的に、検索部16は、対象デジタル情報としての電子ファイル内に、組合せ格納部14が格納している複数の単語の組合せを構成する各単語が含まれているか否か検索する。例えば、一の単語の組合せが第1の単語と第2の単語とで構成されている場合、検索部16は、第1の単語と第2の単語との双方が、電子ファイル内に含まれているか否か検索する。
検索部16は、組合せ格納部14に格納されている複数の単語の組合せのうち少なくとも1つの単語の組合せが電子ファイルに含まれている場合、当該単語の組合せを含む電子ファイルを関連性判断部18に供給する。また、検索部16は、組合せ格納部14に格納されている複数の単語の組合せのいずれもが電子ファイルに含まれていない場合も、当該電子ファイルを関連性判断部18に供給することができる。
なお、検索部16は、対象選択部12から複数の対象デジタル情報を受け取った場合、複数の対象デジタル情報のそれぞれに複数の単語の組合せが含まれているか否かを検索することもできる。また、検索部16は、対象デジタル情報が電子メールである場合、電子メールのヘッダー情報を除く情報に複数の単語の組合せが含まれているか否かを検索することもできる。これにより、デジタル情報分析システム1は、予め定められた特定事項に関連することが実質的にはない情報(すなわち、ノイズになる情報)を排除できる。また、検索部16は、組合せ格納部14が格納しているスコアの値が予め定められた値以上のスコアに対応する単語の組合せに基づいて、対象デジタル情報内に含まれている単語の組合せを検索することもできる。
(関連性判断部18)
関連性判断部18は、検索部16から受け取った電子ファイルに含まれている少なくとも1つの単語の組合せ、若しくは複数の単語の組合せのそれぞれを分析する。そして、関連性判断部18は、形態素解析に基づいて電子ファイルの予め定められた特定事項との関連性、すなわち、当該電子ファイルが予め定められた特定事項に関連するか否かを判断する。そして、関連性判断部18は、判断結果を示す情報を判断結果設定部20に供給する。
具体的に、関連性判断部18は、対象デジタル情報を形態素解析する解析部180と、解析部180の解析結果に基づいて、単語の組合せを構成する一の単語と他の単語とのそれぞれに対象デジタル情報が示す文章内における位置情報を付与する位置情報付与部181と、位置情報付与部181が付与した一の単語の位置情報と他の単語の位置情報との間の文章内における距離を算出する距離算出部182と、距離算出部182が算出した距離に基づいて関連性を判断する判断部183とを有する。
より具体的に、解析部180は、形態素解析に用いる文法ルールの集合体、及び品詞に関する情報を含む単語リスト等を含む解析用辞書を有する。そして、解析部180は、解析用辞書を用いて対象デジタル情報としての電子ファイルに含まれている文章を解析することで、当該文章を形態素ごとに分割する。解析部180は、解析結果を示す情報及び電子ファイルを位置情報付与部181、語順判断部184、及びセンテンス判断部185に供給する。なお、解析部180は、日本語、英語等の多言語に対応した解析用辞書を有することができる。
続いて、位置情報付与部181は、解析部180が分割した各形態素に対し、各形態素の文章中における位置情報を付与する。例えば、解析部180が、一の文章を第1の形態素mと第2の形態素nとに分割した場合、位置情報付与部181は、第1の形態素mに位置情報としてPを付与し、第2の形態素に位置情報としてPを付与する。位置情報付与部181は、位置情報を付与した複数の形態素それぞれを示す情報を距離算出部182、語順判断部184、及びセンテンス判断部185に供給する。
距離算出部182は、位置情報が付与された形態素を示す情報に基づいて、各形態素間の文章中における距離を算出する。距離算出部182は、各形態素に付与された位置情報の差分を算出することで距離を算出する。例えば、距離算出部182は、第1の形態素の位置情報Pと第2の形態素の位置情報Pとの差分の絶対値を距離dmnとして算出する。すなわち、距離算出部182は、式dmn=|P−P|を用いて距離を算出する。距離算出部182は、電子ファイル内の複数の単語の組合せのそれぞれについて距離を算出し、算出した距離を示す複数の情報を判断部183に供給する。
判断部183は、電子ファイルが複数の同一の単語の組合せを含んでいる場合、距離算出部182から受け取った複数の距離のうち、最短距離を示す単語の組合せを共起形態素として選定する。そして、判断部183は、選定した単語の組合せの有意性を、形態素の出現頻度が出現頻度の期待値からどの程度、乖離しているかを算出して評価する。具体的に判断部183は以下の式に基づいて評価値を算出する。
Figure 0005853090
ただし、Tm,nは、共起形態素の評価値であるT Scoreである。CTFm,nは、共起形態素の電子ファイル内における出現頻度である。E(CTFm,n)はCTFm,nの期待値である。TFm(n)は、形態素の出現頻度である。Nは、電子ファイル内の動名詞の総数である。
そして、判断部183は、複数の電子ファイルごとに予め定められた特定事項に対する関連性の高低を判断する。すなわち、判断部183は、上記式により得られる評価値の大きさに応じ、電子ファイルが、予め定められた特定事項に関連しているか、予め定められた特定事項に関連する可能性があるか、若しくは予め定められた特定事項に関連する可能性がないかを判断する。
例えば、判断部183は、評価値が予め定められた値以上の値である場合に、共起形態素として選定した単語の組合せの有意性が高いと判断する。一例として、判断部183は、Tmnが「2」以上の場合に、有意性が高いと判断する。次に、判断部183は、有意性が高いと判断した単語の組合せを含む電子ファイルを、予め定められた特定事項に関連する電子ファイルであると判断する。そして、判断部183は、判断結果を示す情報を判断結果設定部20に供給する。
同様に、判断部183は、評価値が予め定められた値の範囲内である場合に、共起形態素として選定した単語の組合せの有意性が中程度であると判断する。そして、判断部183は、有意性が中程度であると判断した単語の組合せを含む電子ファイルを、予め定められた特定事項に関連する可能性がある電子ファイルであると判断する。また、判断部183は、評価値が予め定められた値より小さい値である場合に、共起形態素として選定した単語の組合せの有意性が低いと判断する。そして、判断部183は、有意性が低いと判断した単語の組合せを含む電子ファイルを、予め定められた特定事項に関連する可能性がない電子ファイルであると判断する。
また、判断部183は、複数の単語の組合せのそれぞれに対応する複数の距離を比較して、距離の長さに応じて複数の単語について序列を対応づけることもできる。例えば、判断部183は、単語間の距離が最も短い単語の組合せを共起形態素として選定することができる。更に、判断部183は、距離算出部182から受け取った距離と距離について予め定められた閾値とを比較して、閾値以下若しくは閾値を超える距離に対応する単語の組合せを共起形態素として選定することもできる。例えば、判断部183は、閾値以下の距離に対応する単語の組合せを共起形態素として選定することができる。
また、関連性判断部18は、解析部180の形態素解析の結果から得られる複数の単語の組合せを構成する一の単語と他の単語との語順及び/又は一の単語の品詞と他の単語の品詞との語順に基づいて、関連性を判断する語順判断部184を有する。例えば、語順判断部184は、複数の単語のそれぞれが一般名詞であるかサ変名詞であるかを判断すると共に、判断した結果得られる一般名詞Gとサ変接続Vとの位置関係を判断する。一例として、複数の単語の組合せのそれぞれが2つの単語を含み、一方の単語が一般名詞であり、他方の単語がサ変接続である場合を説明する。
この場合、語順判断部184は、複数の単語の組合せのそれぞれについて、文章中における一般名詞の位置PVnとサ変接続の位置PGnとを比較する。そして、語順判断部184は、一般名詞がサ変接続に比べて文章中の先の方に位置する場合(すなわち、PVn<PGnの場合)より、文章中における一般名詞の位置PVnがサ変接続の位置PGnより後に位置する場合(すなわち、PVn>PGnの場合)に、一般名詞の位置PVnがサ変接続の位置PGnより後に位置する単語の組合せを共起形態素として選定する。これにより、関連性判断部18は、日本語の主語と動詞との組合せ、及び目的語と動詞との組合せに応じて単語の組合せを共起形態素として選定できる。
また、関連性判断部18は、解析部180の形態素解析の結果から得られる単語の組合せを構成する一の単語と他の単語とが同一文中に存在するか否かを示す情報に基づいて関連性を判断するセンテンス判断部185を有する。まず、センテンス判断部185は、電子ファイルに含まれている文章を、文の単位(すなわち、区切り)を検出することで、複数の文に分割する。例えば、センテンス判断部185は、全文検索機能(例えば、lucene−gosenで実現される機能(以下、「lucene−gosen機能」という。))を有する。センテンス判断部185は、lucene−gosen機能の文頭フラグを利用して、電子ファイルに含まれている文章を複数の文に分割する。
続いて、センテンス判断部185は、単語の組合せを構成する各単語が、同一文中に存在するか否かを判断する。そして、センテンス判断部185は、同一文中に存在する単語の組合せを共起形態素として選択する。なお、センテンス判断部185が有するlucene−gosen機能は、文頭フラグとして句点又は読点を用いることができる。
(判断結果設定部20)
判断結果設定部20は、関連性判断部18の判断結果を電子ファイルに対応づける。判断結果設定部20は、判断結果を複数の電子ファイルのそれぞれに対応づけることができる。例えば、判断結果設定部20は、予め定められた特定事項に関連する電子ファイルであると関連性判断部18が判断した判断結果を受け取った場合に「Hot」、予め定められた特定事項に関連する可能性があるという判断結果を受け取った場合に「Responsive」、予め定められた特定事項と関連する可能性がないという判断結果を受け取った場合に「Not Responsive」を示すタグを電子ファイルに付与する。判断結果設定部20は、判断結果を示すタグを付与した電子ファイルを設定情報格納部22及び/又は出力部24に供給する。
(設定情報格納部22)
設定情報格納部22は、電子ファイルを一意に識別する電子ファイル識別子に対応づけて、電子ファイルに対応づけられた判断結果設定部20の判断結果を示すタグを格納する。設定情報格納部22は、電子ファイル識別子に対応づけられているタグを出力部24に供給する。なお、設定情報格納部22は、電子ファイル識別子に対応づけて電子ファイルを格納してもよい。
(出力部24)
出力部24は、判断結果設定部20が複数の対象デジタル情報としての電子ファイルのそれぞれに対応づけた判断結果に基づいて、予め定められた特定情報に関連する対象デジタル情報を出力する。例えば、出力部24は、外部からの指示に応じ、予め定められた特定情報に関連する電子ファイルをユーザーに知覚可能に出力する。また、出力部24は、設定情報格納部22が格納している電子ファイル識別子に対応づけられているタグを出力することもできる。更に、出力部24は、入力部10が外部から予め定められた特定情報に関連する電子ファイルの出力指示を受け取った場合、当該特定情報に関連することを示すタグが対応づけられた複数の電子ファイルを出力する。
なお、出力部24は、デジタル情報を表示可能なディスプレイ等の表示装置、及び/又はデジタル情報を所定の媒体に出力するプリンター等の出力装置である。更に、出力部24は、出力する情報を磁気記録媒体、光学記録媒体等の記録媒体に記録することで出力することもできる。
(修正部26)
修正部26は、入力部10が外部から受け付けた修正指示を示す情報に応じ、関連性判断部18の判断結果を修正する。関連性判断部18は、修正部26による修正を施した判断結果を示す情報を判断結果設定部20に供給する。
(抽出部28)
抽出部28は、複数のサンプルファイルとしての複数のデジタル情報のそれぞれに含まれる複数の単語の組合せを抽出する。抽出部28は、抽出した複数の単語の組合せをスコア部30に供給する。なお、サンプルファイルとしては、例えば、特定の事件に依存している特定事項(一例として、特定の訴訟)と関連性が高いことが予め判明している電子ファイルが挙げられる。また、サンプルファイルとしては、特定の事件に依存しない特定事項(一例として、知財訴訟一般)と関連性が高いことが予め判明している電子ファイルも挙げられる。
(スコア部30)
スコア部30は、抽出部28において抽出された複数の単語の組合せのそれぞれに、予め定められた特定事項との関連性に応じたスコアを対応づける。例えば、スコア部30は、予め定められた特定事項が「訴訟」である場合、「訴訟」に関連性の高い単語の組合せの電子ファイル内における出現頻度に応じ、当該電子ファイルにスコアを対応づける。スコア部30は、スコアを対応づけた単語の組合せを組合せ格納部14に供給して格納させる。
(デジタル情報分析方法の概要)
図5は、本発明の実施の形態に係るデジタル情報分析システムの処理の流れの一例を示す。
まず、対象選択部12は、情報処理装置2に格納されている複数の対象デジタル情報から、入力部10からの指示に対応する対象デジタル情報を選択して取得する(ステップ10。以下、ステップを「S」と表す。)。対象選択部12は、取得した対象デジタル情報を検索部16に供給する。検索部16は、対象選択部12から受け取った対象デジタル情報に含まれる文章に組合せ格納部14に格納されている単語の組合せが存在しているか否か検索する(S15)。検索部16は、検索結果を関連性判断部18に供給する。
関連性判断部18は、検索部16が検索した結果を検索部16から受け取り、対象デジタル情報に含まれる少なくとも一組の単語の組合せについて解析する。そして、関連性判断部18は、当該対象デジタル情報と予め定められた特定事項との関連性の高低を判断する(S20)。関連性判断部18は、判断結果を示す情報を判断結果設定部20に供給する。判断結果設定部20は、当該対象デジタル情報に関連性判断部18が判断した結果を示すタグとしての判断結果を対応づける(S25)。判断結果設定部20は、タグを対応づけた対象デジタル情報、又はタグを対応づけた対象デジタル情報を識別する識別子を出力部24に供給する。出力部24は、外部からの働きかけに応じ、所定のタグが対応づけられている対象デジタル情報を外部に出力する(S30)。
図6は、本発明の実施の形態に係るデジタル情報分析システムのハードウェア構成の一例を示す。
本実施の形態に係るデジタル情報分析システム1は、CPU1500と、グラフィックコントローラ1520と、RandomAccessMemory(RAM)、Read−OnlyMemory(ROM)及び/又はフラッシュROM等のメモリ1530と、データを記憶する記憶装置1540と、記録媒体からデータを読み込み及び/又は記録媒体にデータを書き込む読込み/書込み装置1545と、データを入力する入力装置1560と、外部の通信機器とデータを送受信する通信インターフェース1550と、CPU1500とグラフィックコントローラ1520とメモリ1530と記憶装置1540と読込み/書込み装置1545と入力装置1560と通信インターフェース1550とを互いに通信可能に接続するチップセット1510とを備える。
チップセット1510は、メモリ1530と、メモリ1530にアクセスして所定の処理を実行するCPU1500と、外部の表示装置の表示を制御するグラフィックコントローラ1520とを相互に接続することにより、各構成要素間のデータの受渡しを実行する。CPU1500は、メモリ1530に格納されたプログラムに基づいて動作して、各構成要素を制御する。グラフィックコントローラ1520は、メモリ1530内に設けられたバッファ上に一時的に蓄えられた画像データに基づいて、画像を所定の表示装置に表示させる。
また、チップセット1510は、記憶装置1540と、読込み/書込み装置1545と、通信インターフェース1550とを接続する。記憶装置1540は、デジタル情報分析システム1のCPU1500が使用するプログラムとデータとを格納する。記憶装置1540は、例えば、フラッシュメモリである。読込み/書込み装置1545は、プログラム及び/又はデータを記憶している記憶媒体からプログラム及び/又はデータを読み取って、読み取ったプログラム及び/又はデータを記憶装置1540に格納する。読込み/書込み装置1545は、例えば、通信インターフェース1550を介し、インターネット上のサーバーから所定のプログラムを取得して、取得したプログラムを記憶装置1540に格納する。
通信インターフェース1550は、通信ネットワークを介して外部の装置とデータの送受信を実行する。また、通信インターフェース1550は、通信ネットワークが不通の場合、通信ネットワークを介さずに外部の装置とデータの送受信を実行することもできる。そして、キーボード、タブレット、マウス等の入力装置1560は、所定のインターフェースを介してチップセット1510と接続する。
記憶装置1540に格納されるデジタル情報分析システム1用のデジタル情報分析プログラムは、インターネット等の通信ネットワーク、又は磁気記録媒体、光学記録媒体等の記録媒体を介して記憶装置1540に提供される。そして、記憶装置1540に格納されたデジタル情報分析システム1用のプログラムは、CPU1500により実行される。
本実施の形態に係るデジタル情報分析システム1により実行されるデジタル情報分析プログラムは、CPU1500に働きかけて、デジタル情報分析システム1を、図1から図5にかけて説明した入力部10、対象選択部12、組合せ格納部14、検索部16、関連性判断部18、判断結果設定部20、設定情報格納部22、出力部24、修正部26、抽出部28、スコア部30、解析部180、位置情報付与部181、距離算出部182、判断部183、語順判断部184、及びセンテンス判断部185として機能させる。
(実施の形態の効果)
本実施の形態に係るデジタル情報分析システム1は、対象デジタル情報としての電子ファイルに含まれる共起形態素を、予め定められた特定事項に対する関連性の高い一の単語と他の単語との組合せだけでなく、電子ファイルに含まれる一の単語と他の単語との間の距離、語順、及び同一文中に存在するか否かに基づいて選定できる。そして、デジタル情報分析システム1は、選定した単語の組合せを用いて、情報処理装置2に格納されている複数の電子ファイルの中から、予め定められた特定事項に関連する電子ファイルを容易に選別できる。したがって、デジタル情報分析システム1は、予め定められた特定事項に関連する複数の電子ファイルを、確度よく自動的に抽出することができる。
以上、本発明の実施の形態を説明したが、上記に記載した実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。更に、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されるようにすることもできる。
1 デジタル情報分析システム
2 情報処理装置
10 入力部
12 対象選択部
14 組合せ格納部
16 検索部
18 関連性判断部
20 判断結果設定部
22 設定情報格納部
24 出力部
26 修正部
28 抽出部
30 スコア部
180 解析部
181 位置情報付与部
182 距離算出部
183 判断部
184 語順判断部
185 センテンス判断部
200 デジタル情報格納部
210 情報出力部
1500 CPU
1510 チップセット
1520 グラフィックコントローラ
1530 メモリ
1540 記憶装置
1545 読込み/書込み装置
1550 通信インターフェース
1560 入力装置

Claims (6)

  1. 複数の単語の組合せそれぞれを格納する組合せ格納部と、
    前記組合せ格納部が格納している前記複数の単語の組合せが、対象デジタル情報内に含まれているか否か検索する検索部と、
    前記複数の単語のうちの一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合に、前記複数の単語の組合せが前記対象デジタル情報内に出現する頻度を用いて、当該複数の単語の組合せを評価する判断部と、
    前記判断部の評価結果に基づいて、前記対象デジタル情報と予め定められた特定事項との関連性を判断する関連性判断部と、
    前記関連性判断部の判断結果を前記対象デジタル情報に対応づける判断結果設定部と
    を備えたデジタル情報分析システム。
  2. 前記一方の単語は、一般名詞であり、
    前記他方の単語は、サ変接続の動詞であり、
    前記関連性判断部は、前記一方の単語と他方の単語との位置関係に応じて、日本語の主語と動詞との組合せ、または目的語と動詞との組合せを選定する
    ことを特徴とする請求項に記載のデジタル情報分析システム。
  3. 前記単語の組合せを構成する一の単語と他の単語とが同一文中に存在するか否かを判断し、当該同一文中に存在する単語の組合せを共起形態素として選択するセンテンス判断部
    をさらに備えたことを特徴とする請求項1又は請求項2に記載のデジタル情報分析システム。
  4. 前記判断結果設定部が前記複数の対象デジタル情報のそれぞれに対応づけた前記判断結果に基づいて、前記予め定められた特定事項に関連する前記対象デジタル情報を出力する出力部
    をさらに備えたことを特徴とする請求項1からのいずれか一項に記載のデジタル情報分析システム。
  5. コンピュータが、
    複数の単語の組合せそれぞれを所定の記憶装置に格納する組合せ格納ステップと、
    記組合せ格納ステップにおいて格納された前記複数の単語の組合せが、象デジタル情報内に含まれているか否か検索する検索ステップと、
    前記複数の単語のうちの一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合に、前記複数の単語の組合せが前記対象デジタル情報内に出現する頻度を用いて、当該複数の単語の組合せを評価する判断ステップと、
    前記判断ステップにおける評価結果に基づいて、前記対象デジタル情報と予め定められた特定事項との関連性を判断する関連性判断ステップと、
    前記関連性判断ステップにおける判断結果を前記対象デジタル情報に対応づける判断結果設定ステップと
    実行するデジタル情報分析方法。
  6. コンピュータに、
    複数の単語の組合せそれぞれを所定の記憶装置に格納する組合せ格納機能と、
    前記組合せ格納機能により格納された前記複数の単語の組合せが、対象デジタル情報内に含まれているか否か検索する検索機能と、
    前記複数の単語のうちの一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合に、前記複数の単語の組合せが前記対象デジタル情報内に出現する頻度を用いて、当該複数の単語の組合せを評価する判断機能と、
    前記判断機能による評価結果に基づいて、前記対象デジタル情報と予め定められた特定事項との関連性を判断する関連性判断ステップと、
    前記関連性判断機能による判断結果を前記対象デジタル情報に対応づける判断結果設定機能と
    を実現させデジタル情報分析プログラム。
JP2014249088A 2014-12-09 2014-12-09 デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム Active JP5853090B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014249088A JP5853090B2 (ja) 2014-12-09 2014-12-09 デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014249088A JP5853090B2 (ja) 2014-12-09 2014-12-09 デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013130766A Division JP5687312B2 (ja) 2013-06-21 2013-06-21 デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム

Publications (3)

Publication Number Publication Date
JP2015046196A JP2015046196A (ja) 2015-03-12
JP2015046196A5 JP2015046196A5 (ja) 2015-08-20
JP5853090B2 true JP5853090B2 (ja) 2016-02-09

Family

ID=52671579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014249088A Active JP5853090B2 (ja) 2014-12-09 2014-12-09 デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム

Country Status (1)

Country Link
JP (1) JP5853090B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3960530B2 (ja) * 2002-06-19 2007-08-15 株式会社日立製作所 テキストマイニングプログラム、方法、及び装置
JP5477910B2 (ja) * 2010-08-20 2014-04-23 Kddi株式会社 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法

Also Published As

Publication number Publication date
JP2015046196A (ja) 2015-03-12

Similar Documents

Publication Publication Date Title
CN109783796B (zh) 预测文本内容中的样式破坏
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
CN102955773B (zh) 用于在中文文档中识别化学名称的方法及***
JP2007058605A5 (ja)
US9542474B2 (en) Forensic system, forensic method, and forensic program
US8676791B2 (en) Apparatus and methods for providing assistance in detecting mistranslation
JP2015106340A (ja) 情報処理装置及び情報処理プログラム
JP2009271659A (ja) 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2009266045A (ja) テスト仕様作成支援プログラム及びテスト仕様作成支援方法
JP5853090B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5153390B2 (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
US20150363383A1 (en) Input support system, input support method and input support program
JP2011054006A (ja) 画像のキーワード決定システム
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2010102570A (ja) 情報解析システム、端末装置、サーバ装置、情報解析方法、及びプログラム
JP5876144B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2017117109A (ja) 情報処理装置、情報処理システム、情報検索方法、及びプログラム
JP5686085B2 (ja) 文例辞書生成プログラム、文例辞書生成装置、及び文例辞書生成方法
JP2008242515A (ja) 文書作成支援装置
CN113111155A (zh) 信息展示方法、装置、设备及存储介质
CN113407684A (zh) 文章原创检查方法、装置及存储介质
JP2018180844A (ja) 文献検索システム
JP2007323250A (ja) 仮名漢字変換用辞書登録システム、仮名漢字変換用辞書登録処理方法及び仮名漢字変換用辞書登録プログラム
JP2017059191A (ja) 照応解析プログラム、照応解析方法および照応解析装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150706

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150706

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20151002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151207

R150 Certificate of patent or registration of utility model

Ref document number: 5853090

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250