JP5387577B2 - 情報分析装置、情報分析方法、及びプログラム - Google Patents

情報分析装置、情報分析方法、及びプログラム Download PDF

Info

Publication number
JP5387577B2
JP5387577B2 JP2010530706A JP2010530706A JP5387577B2 JP 5387577 B2 JP5387577 B2 JP 5387577B2 JP 2010530706 A JP2010530706 A JP 2010530706A JP 2010530706 A JP2010530706 A JP 2010530706A JP 5387577 B2 JP5387577 B2 JP 5387577B2
Authority
JP
Japan
Prior art keywords
link
time
language expression
information
electronic documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010530706A
Other languages
English (en)
Other versions
JPWO2010035412A1 (ja
Inventor
剛巨 河合
聡 中澤
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010530706A priority Critical patent/JP5387577B2/ja
Publication of JPWO2010035412A1 publication Critical patent/JPWO2010035412A1/ja
Application granted granted Critical
Publication of JP5387577B2 publication Critical patent/JP5387577B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報分析装置、情報分析方法、及びプログラムに関し、特には、時間情報に基づいて言語表現間の関係を分析する情報分析装置、情報分析方法、及びプログラムに関する。
本願は、2008年9月25日に、日本に出願された特願2008−245162号に基づき優先権を主張し、その内容をここに援用する。
近年、インターネットの急速な発展により、インターネット上のWebページや、電子掲示板、ブログ等を介して、大量の情報が、世の中に流通し続けている。そして、流通する情報が大量であるが故に、情報の利用者にとっては、インターネット上の情報の中から着目する情報を見つけ出すためのコストが増加しており、適切な情報分析の技術が求められている。
また、昨今、インターネット上では、Webページの中で注目されているキーワードや、人気のあるキーワード等の種々のキーワードに関する情報を提供するサービスが行われている。例えば、このようなサービスの一つとして、ある注目されているキーワードが存在する場合に、このキーワードが注目されている理由を知るための手がかりを提示するサービスが挙げられる(例えば、特許文献1を参照)。
特許文献1に開示されたサービスでは、利用者が知りたい情報と相関性を有する情報を検出し、これを提示する技術が利用される。具体的には、特許文献1では、先ず、ある時点で注目されるキーワードと高頻度に共起し、且つ、それと出現時刻の近いキーワードが検出される。そして、注目されているキーワードと検出されたキーワードとが表示される、共起グラフが生成される。利用者は、この共起グラフを分析することで、注目されているキーワードが注目されている理由を知ることができる。
しかしながら、特許文献1に開示された技術を用いて、利用者が知りたい情報と相関性を有する情報を検出する場合では、偶発的な原因によって相関性が認められた情報までもが、検出されてしまうことがある。
これは、特許文献1に開示された技術では、ある指定した時点で注目されるキーワードと高頻度に共起することに加え、指定された時点に出現時刻が近いことも相関性の判断の条件とされ、指定された時点からの近さの影響が判断に強くでるためである。このように、特許文献1に開示された技術を利用した場合は、偶発的な原因によって相関性が認められた情報を排除できないとう問題がある。
また、例えば、インターネット上のWebページでは、重要な事象に関する記述や意見等の言語表現は、あるイベントなどによって想起され、たまたま述べられるということが多々ある。このことは、元々相関性を持たない情報同士の間で、誤って相関性が認められる原因となる。
一方、意味的に強い相関を有する言語表現同士は度々継続して用いられることが多いが、通常、複数の言語表現が、強い相関性に起因して近い時間に出現しているのか、偶発的に近い時間に出現しているのか、判断することは困難である。
なお、本明細書では、単語からなるキーワードのみならず、テキスト中の特定の名詞や話題、意見、事物などを表す記述を「言語表現」と称する。「言語表現」は、テキスト中に出現する文字列そのものであっても良いし、テキストを形態素解析や構文解析、係り受け解析、同義語処理等の既存の自然言語処理技術を用いて解析した結果、得られるものであっても良い。
具体的には、例えば、「タバコ」、「健康」等はそれぞれ1単語からなる言語表現である。また、「タバコは健康にとって有害です」、「タバコは有害である」等のテキストを係り受け解析して得られた「タバコ→有害」のような単語間の係り受け解析結果も、1つのまとまった意味を表す言語表現である。
特開2006−164045号公報
本発明の目的は、上記問題を解消し、偶発的な原因に影響されることなく、分析対象となる複数の言語表現の間の相関性を適切に評価し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一態様における情報分析装置は、複数の言語表現を分析対象とする情報分析装置であって、
リンク情報生成部と、相関値算出部とを備え、
前記リンク情報生成部は、前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出し、更に、抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
前記相関値算出部は、前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、ことを特徴とする。
また、上記目的を達成するため、本発明の一態様における情報分析方法は、複数の言語表現を分析対象とする情報分析方法であって、
(a)前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
(b)前記(a)のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
(c)前記(b)のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを有する、ことを特徴とする。
更に、上記目的を達成するため、本発明の一態様におけるプログラムは、
複数の言語表現を分析対象とする情報分析をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
(a)前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
(b)前記(a)のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
(c)前記(b)のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを実行させる、ことを特徴とする。
以上の特徴により、本発明によれば、偶発的な原因に影響されることなく、分析対象となる複数の言語表現の間の相関性は、適切に評価されることとなる。
図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。 図2は、図1に示す記憶装置に格納されている情報の一例を示す図である。 図3は、本発明の実施の形態1で生成されるリンク情報の一例を示す図である。 図4は、本発明の実施の形態1で生成されるリンク情報の他の例を示す図である。 図5は、本発明の実施の形態1における情報分析方法における処理の流れを示すフロー図である。 図6は、図1に示す情報分析装置1を実現可能なコンピュータ装置を示す図である。 図7は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。 図8は、本発明の実施の形態2における情報分析方法における処理の流れを示すフロー図である。
(実施の形態1)
以下、本発明の実施の形態1における情報分析装置、情報分析方法、及びプログラムについて、図1〜図6を参照しながら説明する。最初に、本実施の形態1における情報分析装置の構成について図1〜図4を用いて説明する。図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。図2は、図1に示す記憶装置に格納されている情報の一例を示す図である。図3は、本発明の実施の形態1で生成されるリンク情報の一例を示す図である。図4は、本発明の実施の形態1で生成されるリンク情報の他の例を示す図である。
図1に示す情報分析装置1は、複数の言語表現を分析対象とする装置であり、一の言語表現と他の一の言語表現との間の相関性を分析するために用いられる。図1に示すように、情報分析装置1は、リンク情報を生成するリンク情報生成部3と、言語表現間の相関値を算出する相関値算出部4とを備えている。
リンク情報生成部3は、先ず、複数の言語表現のいずれかを少なくとも含む複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する。また、リンク情報生成部3は、抽出した時間情報と電子文書間の関係とに基づいて、複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及びリンクの出現時間を検出し、そして、検出されたリンク及びリンクの出現時間を特定するリンク情報を生成する。
相関値算出部4は、リンク情報から、一の言語表現と他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定する。そして、相関値算出部4は、特定されたリンクの出現数及び各リンクの出現時間を用いて、一の言語表現と他の一の言語表現との間の相関値を、リンクが継続して出現する度合いに応じて算出する。ここで、「リンクが継続して出現する度合い」とは、リンクが長期間にわたって継続的に存在するかどうかの強さを表わす度合いである。
このように、情報分析装置1では、言語表現間のリンクは、言語表現に関係する時間情報だけでなく、各言語表現を含む文書間の関係も考慮して、検出されている。更に、このようなリンクを用いて相関値が算出され、そして、相関性が判断される。このため、情報分析装置1によれば、偶発的な原因によって相関値が高くなり、相関性の判断に誤りが生じてしまう事態が回避される。
続いて、情報分析装置1の構成について更に具体的に説明する。また、以下においては、2つの言語表現X及びYが分析対象となる場合について説明する。図1に示すように、本実施の形態1では、情報分析装置1は、更に、分析対象となる言語表現の入力を受け付ける入力部2を備えている。また、情報分析装置1には、記憶装置10、入力装置12及び出力装置13が接続されている。
入力装置12は、外部から情報分析装置1の入力部2に接続され、これに、分析対象となる言語表現等の情報を入力する。入力装置12の具体例としては、キーボードや、マウス等が挙げられる。出力装置13は、分析結果を出力するための装置である。出力装置13の具体例としては、液晶ディスプレイ等の表示装置や、プリンタ等が挙げられる。また、入力装置12及び出力装置13は、情報分析装置1にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。
記憶装置10は、記憶領域に文書記憶部11を有し、リンク情報生成部3によるリンク情報の生成に利用される。具体的には、記憶装置10は、ハードディスク(磁気ディスク記憶装置)等の記憶装置に、データファイルを格納することによって、又はデータファイルが格納された記録媒体を読取装置に搭載することによって実現できる。また、記憶装置10は、情報分析装置1に直接接続されていても良いし、情報分析装置1にネットワークを介して接続された別のコンピュータ装置に備えられていても良い。
図2に示すように、文書記憶部11は、多数の電子文書を格納している。また、図2においては、文書記憶部11として機能する記憶装置10の記憶領域は、模式的に表形式で表現されているが、記憶領域の表現は別の形式で行うこともできる。
図2において、水平方向の行は、それぞれ、文書記憶部11に格納された1つの電子文書を表わしている。文書記憶部11は、各電子文書について、その文書内容に加え、各電子文書の識別子(文書ID)と、時間情報と、参照文書IDとを格納している。これらの情報は、電子文書毎に、対応付けられ、一つの組データとして格納されている。
図2に示すように、本実施の形態1では、時間情報として、年月日が特定される日付情報が格納されている。例えば、文書ID「10001」の文書は、「2004/4/15」で表わされた年月日と関連付けられた状態で格納されている。なお、図2の例では、時間情報として、年月日のみが用いられているが、本実施の形態1は、この例に限定されるものではない。例えば、年、月、日に加え、時分秒までも特定する時間情報が用いられていても良い。また、ある時点を基準にして、秒単位等の単位時間を積算して得られる時間を時間情報として用いても良い。
参照文書IDは、本実施の形態1では、格納されている電子文書間の参照関係から設定されている。具体的には、電子文書が、インターネット上のWebページから抽出されている場合は、参照文書IDはハイパーリンク情報から取得される。つまり、元のWebページに記述されているリンク先のWebページから抽出された電子文書の文書IDが用いられる。また、電子文書がHTML形式で記述されている場合は、文書ID及び参照IDは、URLで表されていても良い。
その他、本実施の形態1では、参照文書IDは、格納されている電子文書間の論理的関係から設定されていても良い。電子文書間の論理的関係としては、類似関係や対立関係などを採用することができる。例えば、参照文書IDは、格納されている電子文書間の類似関係から設定されていても良いし、格納されている電子文書間の対立関係から設定されていても良い。前者の場合は、内容が意味的に類似する他の電子文書の文書IDが、参照文書IDとして格納される。
また、前者の場合、内容が意味的に類似するかどうかの判定は、例えば、各電子文書から、形態素を単位とする文書ベクトルを抽出し、文書ベクトルを用いて電子文書間のコサイン類似度を算出することによって行うことが可能である。そして、例えば、予め設定された閾値を超える電子文書が類似する電子文書とされても良いし、類似度上位の幾つかの電子文書が類似する電子文書とされても良い。
後者の場合は、先ず、例えば、電子文書中の特徴的な言語表現に否定表現を加え、この言語表現に対立する言語表現が生成される。そして、この対立する言語表現を含む電子文書の抽出が行われ、抽出された電子文書IDが、参照文書IDとして格納される。なお、論理的関係にある電子文書の抽出方法は、上述の例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲において、種々なる態様で実施することができる。
リンク情報生成部3は、本実施の形態1では、先ず、入力部2から分析対象となる言語表現が入力されると、記憶装置10の文書記憶部11にアクセスし、入力された言語表現を含む電子文書を検索する。
具体的には、「耐震ジェルは有効である」という言語表現Xと、「地震が発生した」という言語表現Yとが入力部2に入力されているとする。この場合は、検索の結果、図2に示す文書記憶部11から、言語表現Xを含む文書ID「10001」及び「11003」の電子文書と、言語表現Yを含む文書ID「10102」及び文「12004」の電子文書とが特定される。
また、このとき、本実施の形態1では、リンク情報生成部2は、単に文字列として一致する言語表現だけでなく、意味的に同じ内容を有する同義の言語表現(同義表現)を含む電子文書も検索することができる。同義表現としては、入力された言語表現と構文構造の点で一致する言語表現や、入力された言語表現の一部を同義語で言いかえて得られる言語表現等が挙げられる。
次に、リンク情報生成部3は、検索が終了すると、検索によって特定された複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する。本実施の形態1では、リンク情報生成部3は、電子文書間の関係としては、図2に示した参照文書IDを抽出する。具体的には、検索によって特定された文書ID「10001」、「10102」、「11003」及び「12004」の電子文書それぞれの時間情報と、参照文書IDとが抽出される。
続いて、リンク情報生成部3は、抽出した時間情報と参照文書IDとに基づいて、言語表現Xと言語表現Yとの間のリンクを検出する。また、本実施の形態1では、後述する相関値の精度を高めるため、リンク情報生成部3は、リンクの検出時において、検出されたリンクに加え、そのリンクの出現時間も特定する。
具体的には、図2の例では、検索によって特定された文書ID「10102」の参照文書IDとして、同じく検索によって特定された文書ID「10001」が記述されている。この場合、リンク情報生成部3は、文書ID「10001」及び「10102」から、言語表現Xと言語表現Yとの間のリンクを一つ検出する。また、この場合、文書ID「10001」の電子文書の時間情報と、文書ID「10102」の電子文書の時間情報とを、互いに関連付け、リンクの出現時間として検出する。
同様に、リンク情報生成部3は、文書ID「11003」及び「12004」からも、言語表現Xと言語表現Yとの間のリンクを一つ検出する。そして、文書ID「11003」の電子文書の時間情報と、文書ID「12004」の電子文書の時間情報とについても、互いに関連付け、これらに含まれる時間をリンクの出現時間として検出する。
その後、リンク情報生成部3は、検出したリンクと、各リンクの出現時間とを特定するリンク情報を生成する。具体的には、本実施の形態1では、図3に示すように、リンク情報生成部3は、言語表現Xと言語表現Yとの間のリンク情報を生成する。なお、図3においては、言語表現Xと言語表現Yとの間のリンク情報は、模式的に表形式で表現されているが、リンク情報の表現は別の形式で行うこともできる。
図3の例では、水平方向の各行は、それぞれ1つのリンクを表わしており、リンクの出現数はNである(n及びNは、n<Nを満たす任意の自然数である)。また、図3の例では、各リンクが言語表現の何時の時点で出現しているかを示す出現時間が、言語表現毎に、各リンクに関連付けられている。この出現時間は、各言語表現を含む電子文書の時間情報に含まれる時間に対応している。
例えば、図3のNO.1のリンクは、文書ID「10001」の電子文書と文書ID「10102」の電子文書とのリンクを表している。このリンクの言語表現Xにおけるリンクの出現時間は、文書ID「10001」の電子文書の時間情報に含まれる時間と一致し、言語表現Yにおけるリンクの出現時間は、文書ID「10102」の電子文書の時間情報に含まれる時間と一致する。
なお、図3の例では、時間情報のみが関連付けられているが、例えば、リンクが方向性を有する場合は、どちらの言語表現からどちらの言語表現へのリンクであるかを示す情報(リンク元とリンク先を示す情報)が関連付けてられていても良い。
また、図3の例では、各リンクは、言語表現毎に出現時間と関連付けられているが、いずれか一方の言語表現の出現時間のみと関連付けられていても良い。更に、図4に示すように、リンク情報生成部3は、一方の言語表現の出現時間と他方の言語表現の出現時間との中間の時間等の代表時間を求めることができる。この場合、求められた代表時間をリンクの出現時間とし、リンクに関連付けることもできる。このように、一つのリンクに、一つの出現時間(代表時間)を関連付けるようにした場合は、リンク情報生成部3における処理速度の向上が図られる。
また、本実施の形態1では、参照文書IDは、格納されている電子文書間の類似関係から設定することもできるし、格納されている電子文書間の対立関係から設定することもできる。前者の場合は、リンク情報生成部3は、電子文書間の意味的な類似関係を抽出し、これに基づいて、言語表現間のリンクを抽出する。また、後者の場合は、リンク情報生成部3は、電子文書間の意味的な対立関係を抽出し、これに基づいて、言語表現間のリンクを抽出する。前者及び後者のいずれにおいても、電子文書間に直接の参照関係が無い場合に言語表現間のリンク情報を生成できる。
また、相関値算出部4は、本実施の形態1では、図3に示したリンク情報から、リンクの出現数Nを特定するとともに、各リンクの出現時間も特定する。そして、相関値算出部4は、リンクの出現数Nと各リンクの出現時間とを用い、リンクが継続して出現する度合いに応じて、言語表現間の相関値Rを算出する。具体的には、相関値算出部4は、下記の式(1)を用いて、言語表現間の相関値Rを算出することができる。
Figure 0005387577
上記式(1)において、f(N)は、算出に用いられる出現数Nの値に応じて増加する関数である。具体的には、f(N)としては、数式「f(N)=log(N)」を用いることができる。その他、f(N)としては、数式「f(N)=α×log(N)」を用いることもできる。なお、αは重み係数であり、例えば、αとしては、算出に用いられるリンクの出現数の最大値であるNによって正規化された値を用いることができる。このようにして得られたαは、f(N)の相関値に対する影響を補正する。
また、上記式(1)において、dtmaxは、最新のリンクの出現時間と最初のリンクの出現時間との差を表わしている。そして、g(dtmax)は、dtmaxの値に応じて増加する関数であり、リンクが継続して出現する度合いを考慮している。例えば、数式「g(dtmax)=log(1+dtmax)」を用いることができる。
また、相関値算出部4は、下記の式(2)を用いて、言語表現間の相関値Rを算出することもできる。
Figure 0005387577
上記式(2)におけるf(N)は、上記式(1)で用いたf(N)と同様の関数である。βは0(ゼロ)ではない定数の補正値である。また、Vは、リンクが継続して出現する度合いを、隣り合うリンク間の時間間隔や、リンクの出現密度に関する分散を用いて表した値である。例えば下記の式(3)または、下記の式(4)によって得ることができる。下記の式(3)は、リンク間の出現時間の時間間隔に関する分散である。
Figure 0005387577
上記式(3)において、dTは、リンク情報から得られる各リンクの出現時間(代表値)を時系列に並べ、隣り合うリンク間の時間間隔を平均化して得られる平均値を表している。また、dtは、n番目のリンクの出現時間とn+1番目のリンクの出現時間との差を表している。
上記式(3)において、「V」は、Vの平方根を計算して、標準偏差として置き換えても良い。また「V」は、ある所定時間間隔におけるリンクの出現密度に関する分散を用いて、下記の式(4)によっても得ることができる。
Figure 0005387577
上記式(4)におけるmは、計算の対象となる言語表現間の最初のリンクの出現時間から最新のリンクの出現時間までの間を、所定の時間間隔で区切ったときに、得られた区間に付される番号を示している。Mは、区間の数を表す。dqは、m番目の区間におけるリンク数を表す。つまり、dqはリンクの出現密度を示している。
また、上記式(4)において、dQは、dqを平均化して得られる平均値を表している。つまり、dQは、リンクの出現密度の平均値を表す。上記式(4)によれば、リンク数NがMよりも著しく大きい場合に、処理速度の向上を図ることができる。また、上記式(4)を用いれば、隣り合うリンク間の時間間隔が、区間の時間間隔に比べて著しく小さいことによる影響を、上記式(3)を用いた場合よりも、抑えることができる。なお、上記式(4)においても、「V」は、Vの平方根を計算して、標準偏差として置き換えても良い。
なお、上記式(2)は、リンクの分布の偏りによる影響を弱める効果を有している。例えば、着目する言語表現と突発的に発生する言語表現とのリンクを考えた場合、隣接するリンク同士の間の時間間隔は著しく大きく変動し、時間間隔の最大値と最小値との差は大きな値となる。このような言語表現間に、上記式(2)を適用して相関値Rを算出すれば、相関値Rは低い値となる。このことから、上記式(2)は、重要な関係にある言語表現間のリンクのみを重視したい場合に有効となる。
更に、相関値算出部4は、下記の式(5)を用いて、言語表現間の相関値Rを算出することもできる。
Figure 0005387577
上記式(5)におけるf(N)は、上記式(1)で用いたf(N)と同様の関数である。βは0(ゼロ)ではない定数の補正値である。また、H(P)は、言語表現間のリンクの確率分布Pのエントロピーであり、下記の式(6)によって得ることができる。
Figure 0005387577
上記式(6)において、mは、計算の対象となる言語表現間の最初のリンクの出現時間から最新のリンクの出現時間までの間を、所定の時間間隔で区切り、得られた区間に付された番号を示している。Mは区間の数を表している。Pは、m番目の区間におけるリンクの存在確率を表す。Pは、計算の対象とする言語表現間のリンクの出現数Nと、m番目の区間で出現しているリンクの出現数Nとを用いて、P=N/Nから算出される。
なお、m番目の区間で出現しているリンクの出現数Nは、例えば、一つのリンクについて二つの出現時間が特定されている場合は、早い方の出現時間に着目し、m番目の区間内に出現するリンクの数をカウントすることによって求めることができる。また、二つの出現時間について、これらの中間の時間といった代表時間が定められている場合は、早い方の出現時間に着目する代わりに、代表時間に着目して、リンクの数をカウントしても良い。
上記式(5)は、言語表現間Aと言語表現間Bとのそれぞれについて相関値を求め、更に、言語表現間Aと言語表現間Bとの間の相関性を求める場合に有効である。例えば、言語表現間A及び言語表現間Bが、リンク数、全てのリンク間の時間間隔から算出した分散において、同一であるとする。この場合、上記式(5)によれば、各言語表現間における相関値の算出において、リンクの分布の偏りが考慮されるので、言語表現間の相関性が正確に求められる。
また、本実施の形態1では、電子文書の意味内容が重視される場合は、各リンクに関連している電子文書間の意味的な類似性を基に算出した後述の類似度Sを重みとして、相関値R’を以下の式(7)を用いて算出することができる。
Figure 0005387577
上記式(7)において、Rは上記式(1)、(2)、及び(5)の相関値Rである。上記式(7)における類似度Sは、例えば、以下の式(8)を用いて算出することができる。
Figure 0005387577
上記式(8)は、言語表現Xと言語表現Yとのn番目のリンクに関連する、電子文書間の意味的な類似度関数sim(DX、DY)を計算した結果についての相加平均を表している。
上記式(8)において、類似度関数sim(DX、DY)は、ベクトル空間モデルに基づいて計算することができる。例えば、DXをn番目のリンクにおける言語表現Xに関する文書の特徴ベクトルとし、DYをn番目のリンクにおける言語表現Yに関する文書の特徴ベクトルとする。この場合、類似度関数sim(DX、DY)は、各々の特徴ベクトルがなす角の余弦を用いることで計算することができる。
具体的には、特徴ベクトルDXの構成要素としては、言語表現Xを含む電子文書内の単語を採用でき、また特徴ベクトルDYの構成要素としては、言語表現Yを含む電子文書内の単語を採用することができる。また、特徴ベクトルDX及び特徴ベクトルDYは、各単語の電子文書内における出現頻度tf(Term Frequency)や、全ての対象となる電子文書内における出現頻度の逆数idf(inverse Document Frequency)を重みとして用いた値をベクトル要素に持つようにしても良い。
なお、類似度関数sim(DX、DY)は、公知の文書間の類似度尺度を用いて計算することができる。本実施の形態1において、上記式(8)や、類似度関数sim(DX、DY)の計算方法は、上述した方法に限定されものではない。
また、上記式(7)ではなく、m番目の区間において類似度を算出して、上記式(4)や(6)に用いても良い。例えば、m番目の区間における類似度Sは、以下の式(9)を用いて算出することができる。
Figure 0005387577
上記式(9)のNは、m番目の区間で出現しているリンクの出現数である。kは、m番目の区間で出現しているリンクの順番を表す。類似度関数sim(DX、DY)は、上記式(8)と同様に算出すれば良い。
また、上記式(9)を上記式(4)に適用する場合は、例えば上記式(4)におけるdqを以下の式(10)によって算出すれば良い。
Figure 0005387577
また、上記式(9)を上記式(6)に適用する場合は、例えば、上記式(6)におけるPの代わりにP=P×Sとすれば良い。あるいは、上記式(6)のPを以下の式(11)によって算出すれば良い。
Figure 0005387577
上記式(7)、(9)、(10)、及び(11)を用いることにより、リンクで結ばれる両電子文書の内容が意味的に関係のない場合では、リンクが言語表現間の相関値に与える影響が弱められる。一方、リンクで結ばれる両電子文書の内容が類似する場合は、リンクが相関値に与える影響は強められる。このため、上記式(7)、(9)、(10)、及び(11)が用いられる場合は、一時期の偶発的な関係に影響されることなく意味的に強い相関を評価することが可能となる。
例えば、参照文書ID(図2参照)が、Webページのハイパーリンク情報から取得されている場合を考える。一般的には、ハイパーリンク情報で結ばれたWebページ間には、何らかの相関があるため、電子文書間には相関性が存在すると考えられる。しかし、Webページ内の主要な内容とは関係のないリンクが含まれる場合がある。
このような場合に、上記式(7)、(9)、(10)、及び(11)を用いれば、Webページ間の内容が意味的に関係のない時のリンクの影響が弱められ、Webページ間の内容が意味的に類似する時のリンクの影響がより重視され、よりいっそう、適切な相関値の算出が可能となる。
次に、本発明の実施の形態1における情報分析方法について、図5を用いて説明する。図5は、本発明の実施の形態1における情報分析方法における処理の流れを示すフロー図である。本実施の形態1における情報分析法は、図1に示した本実施の形態1における情報分析装置1を動作させることによって実施される。このため、以下の説明は、適宜図1を参酌しながら、情報分析装置1の動作と共に説明する。
図5に示すように、先ず、入力部2が、分析対象となる複数の言語表現の入力を受け付ける(ステップA1)。本実施の形態1では、入力部2は、言語表現Xと言語表現Yとの入力を受け付け、これらをリンク情報生成部3に入力する。
次に、リンク情報生成部3は、言語表現が入力されると、記憶装置10の文書記憶部11にアクセスし、入力された言語表現を含む電子文書を検索する(ステップA2)。本実施の形態では、言語表現X及び言語表現Yのいずれかを少なくとも含む電子文書の検索が行われる。
次に、検索が終了すると、リンク情報生成部3は、検索によって特定された複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する(ステップA3)。本実施の形態1では、電子文書間の関係として、電子文書間の参照関係から予め設定された参照ID(図2参照)が抽出される。
次に、リンク情報生成部3は、ステップA3で抽出した時間情報と電子文書間の関係とに基づいて言語表現間のリンクを検出し、リンク情報を生成する(ステップA4)。本実施の形態1では、言語表現Xと言語表現Yとの間のリンクが検出され、更に、リンクの出現時間も検出される。そして、検出されたリンクと、その出現時間とを特定するリンク情報が生成される(図3及び図4参照)。リンク情報生成部3は、リンク情報を相関値算出部4に入力する。
次に、相関値算出部4は、ステップA4で生成されたリンク情報から、言語表現間のリンクの出現数を特定し、リンクの出現数を用いて相関値Rを算出する(ステップA5)。本実施の形態1では、リンクの出現数に加えて、各リンクの出現時間も用いて、相関値が算出される。また、相関値Rの算出は、上述した式(1)、(2)、(5)、及び(7)のうちのいずれか、又は幾つかの組み合わせを用いて行われる。
その後、相関値算出部4が、算出した相関値Rを出力装置13に出力すると、情報分析装置1における処理は終了する。情報分析装置1は、次の言語表現が入力されるまで停止した状態となる。
このように、本実施の形態1における情報分析方法によれば、言語表現間のリンクは、言語表現に関係する時間情報だけでなく、各言語表現を含む文書間の関係も考慮して、検出され、このようなリンクを用いて相関値が算出される。よって、相関値の信頼性は高くなり、偶発的な原因により、相関性の判断に誤りが生じてしまう事態は回避される。
また、本実施の形態1における情報分析装置1は、コンピュータに、図5に示すステップA1〜A5を実行させ得るプログラムをインストールし、このプログラムを実行することによって、実現することができる。この点について図6を用いて説明する。
図6は、図1に示す情報分析装置1を実現可能なコンピュータ装置を示す図である。図6に示すように、コンピュータ装置20は、CPU(central processing unit)21、RAM(Random Access Memory)22、ROM(Read Only Memory)23、インターフェイス回路(I/F)24、光磁気ディスク記憶装置(ハードディスク)25、読取装置26、及びビデオカード27を備えている。
図6の例では、インターフェイス回路24が入力部2として機能する。また、入力装置(図1参照)としてはキーボード28が用いられ、キーボード28はインターフェイス回路24に接続されている。また、出力装置(図1参照)としては表示装置29が用いられ、表示装置29はビデオカード27に接続されている。
また、図6の例では、磁気ディスク記憶装置25の一部の記憶領域が、文書記憶部11(図1参照)として利用されている。この一部の記憶領域には、多数の電子文書が格納されている。更に、図5に示すステップA1〜A5をコンピュータ装置20に実行させるプログラムは、記録媒体30に格納されている。
そして、記録媒体30に格納されているプログラムは、光ディスク装置等で構成された読取装置26を介して、コンピュータ装置20にインストールされる。インストールされたプログラムを実行すると、CPU21は、リンク情報生成部3及び相関値算出部4として機能し、情報分析装置1が具現化される。
なお、図6の例において、文書記憶部11(図1参照)は、多数の電子文書が格納された記録媒体を読取装置26に搭載することによっても実現できる。更に、文書記憶部11は、コンピュータ装置20にネットワークを介して接続された別のコンピュータ装置に構築されていても良い。
(実施の形態2)
次に本発明の実施の形態2における情報分析装置、情報分析方法、及びプログラムについて、図7及び図8を参照しながら説明する。最初に、図7を用いて、本発明の実施の形態2における情報分析装置の構成について説明する。図7は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。
図7に示すように、本実施の形態2における情報分析装置5は、言語表現生成部6を備えており、この点で、実施の形態1における情報分析装置1(図1参照)と異なっている。以下に、本実施の形態2における情報分析装置5と、実施の形態1における情報分析装置1との相違点について更に具体的に説明する。
本実施の形態2においては、入力部2は、分析対象となる一対の言語表現のうち、一方の言語表現の入力を受け付ける。そして、入力部2と、入力を受け付けた言語表現を、リンク情報生成部3に加え、言語表現生成部6にも入力する。なお、以下、入力された言語表現を「入力言語表現」とする。
言語表現生成部6は、入力言語表現に関連する別の言語表現(以下「関連言語表現」とする)を生成する。本実施の形態では、言語表現生成部6は、一つの入力言語表現に対して一つの関連言語表現を生成する。また、言語表現生成部6は、生成した関連言語表現をリンク情報生成部3に入力する。
具体的には、例えば、入力言語表現が、「耐震ジェルは有効である」という言語表現Xであるとする。この場合、言語表現生成部6は、「耐震ジェルは有効である」という言語表現Xに否定表現「ない」を付加し、更に活用形を調整して、「耐震ジェルは有効でない」という関連言語表現を生成することができる。
また、関連言語表現は、上記例に限定されず、言語表現生成部6は、例えば、入力言語表現に対立する言語表現を、関連言語表現として生成することもできる。更に、言語表現生成部6は、文書記憶部11に格納されている電子文書の中から、入力言語表現と共起する言語表現を抽出し、抽出した言語表現を関連言語表現とすることもできる。
リンク情報生成部3は、入力言語表現及び関連言語表現が入力されると、これらを対象としてリンク情報の生成を行う。つまり、リンク情報生成部3は、先ず、入力言語表現及び関連言語表現それぞれを含む電子文書から、電子文書が有する時間情報と、電子文書間の関係とを抽出する。続いて、リンク情報生成部3は、時間情報と電子文書間の関係とに基づいて、入力言語表現と関連言語表現との間のリンクを検出し、そして、検出されたリンクを特定するリンク情報を生成する。
また、相関値算出部4は、本実施の形態では、入力言語表現と関連言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定されたリンクの出現数及び各リンクの出現時間を用いて、入力言語表現と関連言語表現との間の相関値を、リンクが継続して出現する度合いに応じて算出する。
このように、本実施の形態2においては、情報分析装置5は、言語表現生成部6を備える点と、これにより、リンク情報生成部3及び相関値算出部4が関連言語表現を処理対象とする点とで、実施の形態1における情報分析装置1と異なっている。これらの点以外については、情報分析装置5は、情報分析装置1と同様に構成されている。
次に、本発明の実施の形態2における情報分析方法について図8を用いて説明する。図8は、本発明の実施の形態2における情報分析方法における処理の流れを示すフロー図である。本実施の形態2における情報分析法は、図7に示した本実施の形態2における情報分析装置5を動作させることによって実施される。このため、以下の説明は、適宜図7を参酌しながら、情報分析装置5の動作と共に説明する。
図8に示すように、先ず、入力部2が、分析対象となる一対の言語表現のうち、一方の言語表現の入力を受け付ける(ステップB1)。入力が受け付けられた言語表現(入力言語表現)は、リンク情報生成部3及び言語表現生成部6に入力される。なお、ステップB1において、入力が受け付けられる言語表現は、一つに限らず、二以上であっても良い。但し、本実施の形態2では、実施の形態1と異なり、二以上の場合であっても、入力された言語表現同士について相関値は算出されない。
次に、言語表現生成部6が、入力言語表現に基づいて、関連言語表現を生成する(ステップB2)。生成された関連言語表現は、リンク情報生成部3に入力される。続いて、リンク情報生成部3は、関連言語表現及び入力言語表現が入力されると、記憶装置10の文書記憶部11にアクセスし、入力言語表現及び関連言語表現のいずれかを少なくとも含む電子文書を検索する(ステップB3)。本実施の形態では、言語表現X及び言語表現Yのいずれかを少なくとも含む電子文書の検索が行われる。
次に、検索が終了すると、リンク情報生成部3は、検索によって特定された複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する(ステップB4)。
次に、リンク情報生成部3は、ステップB4で抽出した時間情報と電子文書間の関係とに基づいて、入力言語表現と関連言語表現との間のリンク及びリンクの出現時間を検出し、リンク情報を生成する(ステップB5)。
次に、相関値算出部4は、ステップB4で生成されたリンク情報から、入力言語表現と関連言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、リンクの出現数及び各リンクの出現時間を用い、リンクが継続して出現する度合いに応じて相関値Rを算出する(ステップB6)。本実施の形態2においても、相関値Rの算出は、実施の形態1で示した式(1)、(2)、(5)、及び(7)のうちのいずれか、又は幾つかの組み合わせを用いて行われる。
その後、相関値算出部4が、算出した相関値Rを出力装置13に出力すると、情報分析装置5における処理は終了する。情報分析装置5は、次の言語表現が入力されるまで停止した状態となる。
以上のように、本実施の形態2では、言語表現が入力されると、これに関連する言語表現が生成され、これらの間の相関値が算出される。本実施の形態2は、注目されているキーワードに関連するキーワードを取得したい場合に有効である。また、本実施の形態2においても、実施の形態1と同様に、相関値の信頼性は高く、偶発的な原因により、相関性の判断に誤りが生じてしまう事態は回避される。
本発明は、時系列関係を検索条件に用いた情報検索装置や、時系列関係の判定結果を用いた情報分類装置といった用途に適用できる。また、本発明は、分析対象とする言語表現に関する情報発見を目的としたテキストマイニング装置といった用途にも適用可能である。
1 情報分析装置(実施の形態1)
2 入力部
3 リンク情報生成部
4 相関値算出部
5 情報分析装置(実施の形態2)
6 言語表現生成部
10 記憶装置
11 文書記憶部
12 入力装置
13 出力装置
20 コンピュータ装置
21 CPU
22 RAM
23 ROM
24 インターフェイス回路
25 磁気ディスク記憶装置
26 読取装置
27 ビデオカード
28 キーボード
29 表示装置
30 記録媒体

Claims (21)

  1. 複数の言語表現を分析対象とする情報分析装置であって、
    リンク情報生成部と、相関値算出部とを備え、
    前記リンク情報生成部は、前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出し、更に、抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
    前記相関値算出部は、前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、ことを特徴とする情報分析装置。
  2. 前記リンク情報生成部が、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との参照関係を抽出する、請求項1に記載の情報分析装置。
  3. 前記リンク情報生成部が、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との類似関係を抽出する、請求項1に記載の情報分析装置。
  4. 前記リンク情報生成部が、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との対立関係を抽出する、請求項1に記載の情報分析装置。
  5. 前記リンク情報生成部が、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間とのうち、いずれか一方又は両方を前記リンクの出現時間とする、請求項1から4のいずれかに記載の情報分析装置。
  6. 前記リンク情報生成部が、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間との中間の時間を求め、求めた前記中間の時間を前記リンクの出現時間とする、請求項1から5のいずれかに記載の情報分析装置。
  7. 分析対象となる第1の言語表現の入力を受け付ける入力部と、
    前記第1の言語表現に関連する第2の言語表現を生成する言語表現生成部とを、更に、備え、
    前記リンク情報生成部が、前記第1の言語表現及び前記第2の言語表現のいずれか一方を少なくとも含む電子文書から、前記電子文書が有する時間情報と、前記電子文書間の関係とを抽出し、更に、抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記第1の言語表現と前記第2の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
    前記相関値算出部は、前記リンク情報から、前記第1の言語表現と前記第2の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記第1の言語表現と前記第2の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、請求項1〜6のいずれかに記載の情報分析装置。
  8. 複数の言語表現を分析対象とする情報分析方法であって、
    (a)前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
    (b)前記(a)のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
    (c)前記(b)のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを有する、ことを特徴とする情報分析方法。
  9. 前記(a)のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との参照関係を抽出する、請求項8に記載の情報分析方法。
  10. 前記(a)のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との類似関係を抽出する、請求項8に記載の情報分析方法。
  11. 前記(a)のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との対立関係を抽出する、請求項8に記載の情報分析方法。
  12. 前記(b)のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間とのうち、いずれか一方又は両方を前記リンクの出現時間とする、請求項8〜11のいずれかに記載の情報分析方法。
  13. 前記(b)のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間との中間の時間を求め、求めた前記中間の時間を前記リンクの出現時間とする、請求項8〜11のいずれかに記載の情報分析方法。
  14. (d)分析対象となる第1の言語表現の入力を受け付けるステップと、
    (e)前記第1の言語表現に関連する第2の言語表現を生成するステップとを更に有し、
    前記(d)のステップ及び前記(e)のステップは、前記(a)のステップの実行前に実行され、
    前記(a)のステップにおいて、前記第1の言語表現及び前記第2の言語表現のいずれか一方を少なくとも含む電子文書から、前記電子文書が有する時間情報と、前記電子文書間の関係とを抽出し、
    前記(b)のステップにおいて、前記(a)のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記第1の言語表現と前記第2の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
    前記(c)のステップにおいて、前記(b)のステップで生成された前記リンク情報から、前記第1の言語表現と前記第2の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記第1の言語表現と前記第2の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、請求項8〜13のいずれかに記載の情報分析方法。
  15. 複数の言語表現を分析対象とする情報分析をコンピュータに実行させるためのプログラムであって、
    前記コンピュータに、
    (a)前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
    (b)前記(a)のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
    (c)前記(b)のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを実行させる、ことを特徴とするプログラム。
  16. 前記(a)のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との参照関係を抽出する、請求項15に記載のプログラム。
  17. 前記(a)のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との類似関係を抽出する、請求項15に記載のプログラム。
  18. 前記(a)のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との対立関係を抽出する、請求項15に記載のプログラム。
  19. 前記(b)のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間とのうち、いずれか一方又は両方を前記リンクの出現時間とする、請求項15〜18のいずれかに記載のプログラム。
  20. 前記(b)のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間との中間の時間を求め、求めた前記中間の時間を前記リンクの出現時間とする、請求項15〜18のいずれかに記載のプログラム。
  21. (d)分析対象となる第1の言語表現の入力を受け付けるステップと、
    (e)前記第1の言語表現に関連する第2の言語表現を生成するステップとを、前記(a)のステップの実行前に、更に前記コンピュータに実行させ、
    前記(a)のステップにおいて、前記第1の言語表現及び前記第2の言語表現のいずれか一方を少なくとも含む電子文書から、前記電子文書が有する時間情報と、前記電子文書間の関係とを抽出し、
    前記(b)のステップにおいて、前記(a)のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記第1の言語表現と前記第2の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
    前記(c)のステップにおいて、前記(b)のステップで生成された前記リンク情報から、前記第1の言語表現と前記第2の言語表現との間のリンクの出現数及び前記各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記第1の言語表現と前記第2の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、請求項15〜20のいずれかに記載のプログラム。
JP2010530706A 2008-09-25 2009-09-04 情報分析装置、情報分析方法、及びプログラム Active JP5387577B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010530706A JP5387577B2 (ja) 2008-09-25 2009-09-04 情報分析装置、情報分析方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008245162 2008-09-25
JP2008245162 2008-09-25
PCT/JP2009/004399 WO2010035412A1 (ja) 2008-09-25 2009-09-04 情報分析装置、情報分析方法、及びプログラム
JP2010530706A JP5387577B2 (ja) 2008-09-25 2009-09-04 情報分析装置、情報分析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010035412A1 JPWO2010035412A1 (ja) 2012-02-16
JP5387577B2 true JP5387577B2 (ja) 2014-01-15

Family

ID=42059426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010530706A Active JP5387577B2 (ja) 2008-09-25 2009-09-04 情報分析装置、情報分析方法、及びプログラム

Country Status (3)

Country Link
US (1) US8612202B2 (ja)
JP (1) JP5387577B2 (ja)
WO (1) WO2010035412A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013146736A1 (ja) 2012-03-30 2013-10-03 日本電気株式会社 同義関係判定装置、同義関係判定方法、及びそのプログラム
US9313284B2 (en) 2013-03-14 2016-04-12 International Business Machines Corporation Smart posting with data analytics and semantic analysis to improve a message posted to a social media service
JPWO2015072085A1 (ja) * 2013-11-12 2017-03-16 日本電気株式会社 ログ分析システム、ログ分析方法、および、プログラム
JP6326786B2 (ja) * 2013-11-29 2018-05-23 ブラザー工業株式会社 プログラム、情報処理装置、および通信システム
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
JP7100797B2 (ja) * 2017-12-28 2022-07-14 コニカミノルタ株式会社 文書スコアリング装置、プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH11312168A (ja) * 1998-04-28 1999-11-09 Nippon Telegr & Teleph Corp <Ntt> 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体
JP2002063157A (ja) * 2000-05-31 2002-02-28 Ricoh Co Ltd 関連文書付き電子メッセージを作成するための方法、システム及びコンピュータ・プログラム、記録媒体
JP2006039811A (ja) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2007079730A (ja) * 2005-09-12 2007-03-29 Oki Electric Ind Co Ltd 単語類似判断装置、方法及びプログラム
JP2008152634A (ja) * 2006-12-19 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
JP2009238115A (ja) * 2008-03-28 2009-10-15 Toshiba Corp 情報推薦装置および情報推薦方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713598A (ja) 1993-06-24 1995-01-17 Osaka Gas Co Ltd 特定タスク音声データベース生成装置
JPH09153050A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 文書情報収集方法および文書情報収集装置
JPH10143371A (ja) 1996-11-13 1998-05-29 Mitsubishi Electric Corp 事例検索システム及び事例検索方法
JP3634099B2 (ja) * 1997-02-17 2005-03-30 株式会社リコー 文書情報管理システム,媒体用紙情報作成装置および文書情報管理装置
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
JP3600611B2 (ja) * 2002-12-12 2004-12-15 本田技研工業株式会社 情報処理装置および情報処理方法、並びに情報処理プログラム
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US8131702B1 (en) * 2004-03-31 2012-03-06 Google Inc. Systems and methods for browsing historical content
US8335785B2 (en) * 2004-09-28 2012-12-18 Hewlett-Packard Development Company, L.P. Ranking results for network search query
JP4466334B2 (ja) 2004-11-08 2010-05-26 日本電信電話株式会社 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006164045A (ja) 2004-12-09 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 共起グラフ作成方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
JP4806644B2 (ja) * 2007-03-15 2011-11-02 富士通株式会社 ジャンプ先サイト決定プログラム、記録媒体、ジャンプ先サイト決定方法、およびジャンプ先サイト決定装置
KR100881832B1 (ko) * 2007-03-30 2009-02-03 엔에이치엔(주) 최적의 랜딩 페이지 검색을 통한 키워드 광고 노출 방법 및시스템
WO2008136421A1 (ja) * 2007-04-27 2008-11-13 Nec Corporation 情報分析システム、情報分析方法及び情報分析用プログラム
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US20090049018A1 (en) * 2007-08-14 2009-02-19 John Nicholas Gross Temporal Document Sorter and Method Using Semantic Decoding and Prediction
US7962437B2 (en) * 2007-11-16 2011-06-14 International Business Machines Corporation Data comparison using different time periods in data sequences
US7809721B2 (en) * 2007-11-16 2010-10-05 Iac Search & Media, Inc. Ranking of objects using semantic and nonsemantic features in a system and method for conducting a search
WO2009096506A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム
US20100318526A1 (en) * 2008-01-30 2010-12-16 Satoshi Nakazawa Information analysis device, search system, information analysis method, and information analysis program
US8407214B2 (en) * 2008-06-25 2013-03-26 Microsoft Corp. Constructing a classifier for classifying queries

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH11312168A (ja) * 1998-04-28 1999-11-09 Nippon Telegr & Teleph Corp <Ntt> 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体
JP2002063157A (ja) * 2000-05-31 2002-02-28 Ricoh Co Ltd 関連文書付き電子メッセージを作成するための方法、システム及びコンピュータ・プログラム、記録媒体
JP2006039811A (ja) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2008541233A (ja) * 2005-05-04 2008-11-20 グーグル・インコーポレーテッド オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
JP2007079730A (ja) * 2005-09-12 2007-03-29 Oki Electric Ind Co Ltd 単語類似判断装置、方法及びプログラム
JP2008152634A (ja) * 2006-12-19 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体
JP2009238115A (ja) * 2008-03-28 2009-10-15 Toshiba Corp 情報推薦装置および情報推薦方法

Also Published As

Publication number Publication date
US20110137641A1 (en) 2011-06-09
US8612202B2 (en) 2013-12-17
WO2010035412A1 (ja) 2010-04-01
JPWO2010035412A1 (ja) 2012-02-16

Similar Documents

Publication Publication Date Title
US10567329B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
Hassan et al. Beyond DCG: user behavior as a predictor of a successful search
CN108319630A (zh) 信息处理方法、装置、存储介质和计算机设备
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20130218914A1 (en) System and method for providing recommendations based on information extracted from reviewers&#39; comments
JP5387577B2 (ja) 情報分析装置、情報分析方法、及びプログラム
JP2011108053A (ja) ニュース記事評価システム
JP4859779B2 (ja) 有害コンテンツの評価付与装置、プログラム及び方法
JP5136910B2 (ja) 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム
KR20150054300A (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
US10380244B2 (en) Server and method for providing content based on context information
Figueira et al. Detecting Journalistic Relevance on Social Media: A two-case study using automatic surrogate features
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム
CN111177514B (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
Bevendorff et al. The Impact of Online Affiliate Marketing on Web Search
US20100287136A1 (en) Method and system for the recognition and tracking of entities as they become famous
Zammit et al. Exposing knowledge: providing a real-time view of the domain under study for students
Mol et al. A trustworthy model in E-commerce by mining feedback comments
JP5123057B2 (ja) スパム判定方法及び装置及びプログラム
Dalal et al. Aspect term extraction from customer reviews using conditional random fields
Trevisiol et al. Local ranking problem on the browsegraph

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130923

R150 Certificate of patent or registration of utility model

Ref document number: 5387577

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150