JP5435249B2 - イベント分析装置、イベント分析方法、およびプログラム - Google Patents

イベント分析装置、イベント分析方法、およびプログラム Download PDF

Info

Publication number
JP5435249B2
JP5435249B2 JP2013505854A JP2013505854A JP5435249B2 JP 5435249 B2 JP5435249 B2 JP 5435249B2 JP 2013505854 A JP2013505854 A JP 2013505854A JP 2013505854 A JP2013505854 A JP 2013505854A JP 5435249 B2 JP5435249 B2 JP 5435249B2
Authority
JP
Japan
Prior art keywords
degree
expression
event
sharing
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013505854A
Other languages
English (en)
Other versions
JPWO2012127968A1 (ja
Inventor
剛巨 河合
聡 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013505854A priority Critical patent/JP5435249B2/ja
Application granted granted Critical
Publication of JP5435249B2 publication Critical patent/JP5435249B2/ja
Publication of JPWO2012127968A1 publication Critical patent/JPWO2012127968A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、イベント分析装置、特には、世の中で話題となるイベントに関する分析に用いるイベント分析装置に関し、さらには、イベント分析方法およびプログラムに関する。
インターネットの普及に伴い、新聞社やテレビ局などの一部の限られた報道機関によるニュース配信の他に、多くの人々によって様々なイベントについて言及がなされたWeb文書がインターネットに多数公開されている。ここで言うイベント(以下「出来事」とも表記される)とは、世間で起こるさまざまな事柄のことであり、必ずしも事件または事故といった事柄に限定される意味ではない。イベントには、例えば、どこかで開催された催し物、行事、特定箇所で起きた自然現象、および特定の人の行動なども含まれる。
Web文書は、千差万別の事象について記述され、多数発行されている。Web文書の内容は、報道機関によるニュース報道において扱われる内容に限られていない、のが現状である。従って、Web文書には、多くの人にとって無意味な情報も多数含まれることになる。このため、Web文書を用いて世の中で話題となっている、すなわち多数の人が共通に取りあげているイベントについて分析するためには、話題としては適切でない雑多な情報から、世の中で話題となっているイベントに関する情報を抽出する何らかの手段が必要となる。
この要望に対して、非特許文献1は、世の中で話題となっているイベントを分析する従来技術の一例を開示している。この非特許文献1が開示する技術では、まず、ブログおよび電子掲示板等のインターネット上の複数のWeb文書から、キーワードの出現頻度が集計され、ある期間の文書数の急増が評価される。そして、評価に基づいて、その期間での話題の強さを示すバースト度が、キーワードに対して付与される。
そして、非特許文献1に開示された技術では、バースト度が高いキーワードが抽出され、抽出されたキーワードが注目されている話題を示している、と判断される。このように、非特許文献1に開示された技術によれば、ある特定期間に注目された話題に関係している可能性のあるキーワードが1個または複数得られるので、その特定期間に生じたイベントの分析を行えることが期待できる。
藤木稔明、南野朋之、鈴木泰裕、奥村学 著、「document streamにおけるburstの発見」、情報処理学会研究報告 自然言語処理、2004-NL-160-(13) pp.85-92、2004年3月4日
しかしながら、上記非特許文献1に開示された技術においては、各キーワードがある特定期間にバースト的に出現した背景については考慮されていない。このため、上記非特許文献1に開示された技術では、特定期間にあるキーワードの出現頻度が偶然に多くなった場合は、注目されている話題には関係していないキーワードまでもが抽出されてしまう。結果、上記非特許文献1に開示された技術を用いた場合であっても、イベントの分析を精度良く行うことができないという問題が発生する。以下に、具体的に説明する。
例えば、ある朝の1時間の間に、インターネット上のブログ、マイクロブログ、電子掲示板、日記サイト等のWebサイトにおいて、文書群に「電車」または「自動車」といったキーワードが頻出しているとする。
そして、多数の人々にとって通勤および通学等の移動の時間帯であれば、「電車に乗り遅れた」、「乗っている電車が事故にあった」、「私は電車を待っている」、「息子がそろそろ電車に乗る時間」といったように、電車に関する記述が含まれる文書が多様に存在する。
不特定の電車という記述が含まれる文書は、特定の事件または事故といった共通の1つのイベントに起因しているとは限られず、個々人の様々なイベントに起因して記述されていることの方が多いと考えられる。
そのため、非特許文献1に開示された技術を用いて、社会的に多くの人が通勤または通学を行なう時間帯について分析を行った場合は、いつでも「電車」というキーワードが提示されることが起こりえる。しかも、そのキーワードは、注目されている話題に言及しているのではなく、様々なイベントのことを言及している。
つまり、一般に、ニュースとして世の中の関心および注目を集める話題についての各Web文書は、多くの場合、一つの共通のイベントに基づいて書かれている。しかしながら、非特許文献1に開示された技術では、そのような共通のイベントについては一切考慮されていない。即ち、非特許文献1に開示された技術では、ある特定期間に書かれた文書中のキーワードの頻度を計数して用いるだけであり、実際には異なるイベントであっても同じキーワードで表現されていると、バースト度の高いキーワードとして処理されてしまうことになる。
このため、非特許文献1に開示された技術では、異なるイベントについて述べられた複数の文書に偶然同じキーワードが多く含まれていると、そのようなキーワードを全て、話題となっているイベントに関するキーワートと同様に抽出されてしまう。
以上の点から、イベントが複数の人の間で注目されているかどうかを考慮してイベントの分析を行うことが求められている。つまり、入力元の文書群から、話題の情報を抽出する際に、多くの人に共有されている、すなわち、多くの人が共通に取りあげているイベントか、それとも雑多な、それぞれの行動主体も異なる個別のイベントかどうかを考慮して、キーワードの抽出および集計などを行うことが求められている。
[発明の目的]
本発明の目的は、上記問題を解消し、文書を用いたイベントの分析において、イベントが複数人の間で共通に注目されているものかどうかを考慮して分析を行い得る、イベント分析装置、イベント分析方法、およびプログラムを提供することにある。
上記目的を達成するため、本発明の一側面におけるイベント分析装置は、
分析対象となる文書に記述されているイベントの分析を行うための装置であって、
前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、構成要素特定部と、
前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、共有性分析部と、を備えていることを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるイベント分析方法は、
分析対象となる文書に記述されているイベントの分析を行うための方法であって、
(a)前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、ステップと、
(b)前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、ステップと、を有することを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータによって分析対象となる文書に記述されているイベントの分析を行うための、プログラムであって、
前記コンピュータに
(a)前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、ステップと、
(b)前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、ステップと、を実行させる、ことを特徴とする。
以上のように、本発明によれば、文書を用いたイベントの分析において、イベントが複数人の間で共通に注目されているものかどうかを考慮して分析を行うことができる。
図1は、本発明の実施の形態1におけるイベント分析装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態1におけるイベント分析装置の動作を示すフロー図である。 図3は、本発明の実施の形態1において、イベント記述から特定された事態表現とそれに対応する対応表現との一例を示している。 図4は、本発明の実施の形態1において共有度合を求める際に用いられるルールの一例を示す図である。 図5は、本発明の実施の形態2におけるイベント分析装置の概略構成を示すブロック図である。 図6は、本発明の実施の形態2におけるイベント分析装置の動作を示すフロー図である。 図7は、本発明の実施の形態1および2におけるイベント分析装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態1)
以下、本発明の実施の形態1における、イベント分析装置、およびイベント分析方法について、図1〜図4を参照しながら説明する。なお、以下、本発明の実施形態1について説明するが、本発明は、以下に説明する実施の形態1に限定されるものではない。
[装置構成]
最初に、本発明の実施の形態1におけるイベント分析装置の構成について図1を用いて説明する。図1は、本発明の実施の形態1におけるイベント分析装置の概略構成を示すブロック図である。
図1に示す、本実施の形態1におけるイベント分析装置100は、分析対象となる文書に記述されているイベントの分析を行うための装置である。図1に示すように、イベント分析装置100は、構成要素特定部101と、共有性分析部102とを備えている。
構成要素特定部101は、分析対象となる文書を外部から受け取り、当該文書からイベントに関係している記述(以下「イベント記述」という。)を特定する。また、構成要素特定部101は、特定したイベント記述から、事態を表わす事態表現と、この事態表現に対応する表現(以下「対応表現」とする。)とを、イベント記述の構成要素として特定する。
共有性分析部102は、イベント記述から特定された事態表現および対応表現に基づいて、イベント記述が関係するイベントが複数人に共有されている可能性、即ち、イベントの共有性を示す、共有度合を求める。
このように、イベント分析装置100では、文書に記述されているイベントについて、共有度合が得られている。そして、共有度合が高い場合は、対象となったイベントが複数人に共有されている可能性も高くなり、共有度合が低い場合は、対象となったイベントが複数人に共有されている可能性も低くなる。従って、イベント分析装置100によれば、文書を用いたイベントの分析において、イベントが複数人の間で共通に注目されているものかどうかを考慮して分析を行うことができる。
ここで、本実施の形態1におけるイベント分析装置100の構成について更に具体的に説明する。本実施の形態1では、構成要素特定部101は、例えば、イベント記述に含まれる動作、行為または状態を示す部分を、事態表現として特定する。また、構成要素特定部101は、例えば、事態表現に関係し、且つ、時間、場所、主体、および対象のいずれかに該当する表現を、対応表現として特定する。
また、本実施の形態1では、共有性分析部102は、事態表現および対応表現を、設定されたルールに当てはめて、共有度合を求めることができる。この場合、ルールとしては、想定される事態表現と、対応表現として想定される文字列との組み合わせ毎に、共有度合を規定しているルール(図4参照)が挙げられる。
また、ルールは、更に、対応表現として想定される文字列に対して、格を規定していても良い。この場合、共有性分析部102は、対応表現が、ルールによって規定される格に合致する場合に、ルールの当てはめを行う。
さらに、本実施の形態1では、共有性分析部102は、事態表現の対象が複数人に共有されている可能性を示す第1の度合と、対応表現がイベントに関係している可能性を示す第2の度合とをそれぞれ求め、第1の度合と第2の度合とから、共有度合を求めることもできる。
また、図1に示すように、本実施の形態1では、イベント分析装置100は、分析結果出力部103を備えている。分析結果出力部103は、求められた共有度合と、共有度合が求められたイベントに関する情報とを出力する。イベントに関する情報としては、事態表現および対応表現が挙げられる。その他、イベントに関する情報としては、事態表現および対応表現を含む文も挙げられる。
[装置動作]
次に、本発明の実施の形態1におけるイベント分析装置100の動作について図2を用いて説明する。図2は、本発明の実施の形態1におけるイベント分析装置の動作を示すフロー図である。以下の説明においては、適宜図1を参酌する。また、本実施の形態1では、イベント分析装置100を動作させることによって、イベント分析方法が実施される。よって、本実施の形態1におけるイベント分析の説明は、以下のイベント分析装置100の動作説明に代える。
図2に示すように、まず、構成要素特定部101が、分析対象となる文書の入力を受け付ける(ステップA1)。ステップA1で受け付けられた文書が複数ある場合には、以降のステップは、文書毎に実行される。
続いて、構成要素特定部101は、受け付けた文書毎に、各文書中に含まれるイベントに関する記述(イベント記述)を1つ以上特定する(ステップA2)。
次に、構成要素特定部101は、各イベント記述に含まれる構成要素のうち、事態表現となる構成要素を特定し、さらに、イベント記述の中から、この特定した構成要素に対応する構成要素、即ち、対応表現を特定する(ステップA3)。
続いて、共有性分析部102が、イベント記述から特定された事態表現および対応表現に基づいて、イベントの共有性を示す共有度合を求める(ステップA4)。ステップA4の実行により、入力された文書に含まれる各イベントについて、共有度合が求められたことになる。
その後、分析結果出力部103が、イベント毎に、共有性分析部102で求められた共有度合と、イベントに関する情報(例えば、事態表現および対応表現など)とを、イベント共有性分析結果として、外部に出力する(ステップA5)。
[装置動作:具体例]
続いて、上述したステップA1〜A5を、具体例と共に詳細に説明する。また、以下の説明は、図1および図2に加え、図3および図4を参照しながら、ステップ毎に行う。
(ステップA1)
ステップA1では、構成要素特定部101は、分析対象とする文書の入力を受け付ける。この入力される文書は、文書集合であっても良い。また、例えば、Webページの集合が文書集合として入力されても良い。更に、複数の文書が入力された場合は、上述したように、以降のステップA2〜A4は文書毎に実行される。
(ステップA2)
ステップA2では、構成要素特定部101は、入力された文書ごとに、各文書中に含まれるイベント記述を特定する。イベント記述の特定は、例えば、文書中のテキストを形態素解析して得られる品詞および品詞列のパターンに基づいて、事態表現を少なくとも含む記述部分を特定することによって行うことができる。また、事態表現としては、動作、行為、または状態を示す部分が挙げられ、具体的には、動詞、形容動詞、サ変名詞、動詞由来の名詞である動作性名詞などが挙げられる。
(ステップA3)
ステップA3では、構成要素特定部101は、ステップA2で特定されたイベント記述毎に、イベント記述の構成要素として、事態表現を特定し、さらに、イベント記述中から、この事態表現に対応する対応表現を特定する。例えば、事態表現に対応する対応表現としては、事態表現に近接している名詞列が挙げられる。
また、別の例では、構成要素特定部101は、ステップA2において、文書中のテキストを構文解析して、述部に含まれる動詞、形容動詞、動作性名詞などから、動作、行為または状態を示す部分を事態表現として特定しても良い。そして、この場合、構成要素特定部101は、ステップA3において、係り受け関係から、この述部に対応する格要素を抽出し、格要素に含まれる名詞列、固有名詞、固有表現を含む表現を、対応表現として抽出する。
さらに、ステップA3では、構成要素特定部110は、対応表現として特定された構成要素を、場所、主体、対象といった構成要素に仕分けることもできる。図3は、本発明の実施の形態1において、イベント記述から特定された事態表現とそれに対応する対応表現との一例を示している。図3の例では、イベント記述毎に、当該イベント記述から特定された事態表現に加え、それに対応する、場所、主体、対象といった対応表現が例示されている。
また、図3に示すように、1つのイベント記述に対して、1つのイベントIDが付与され、各イベントIDに、場所、主体、対象、事態表現が対応付けられている。さらに、各イベントIDには、文書のメタデータ、記述内容、発信日時などが対応付けられていても良い。また、図3の例では、事態表現は、動詞、形容動詞、動作性名詞などの表記を原形にした状態で示されている。
場所、主体、対象に関する対応表現は、例えば、事態表現に近接する名詞列を含む表現から助詞等を手がかりにすることによって抽出できる。また、場所、主体、対象に関する対応表現は、述部と係り受け関係などの対応関係にある項から、当該項に含まれる、表現、品詞、固有表現などを手がかりにすることによっても抽出できる。
例えば「田中太郎は富士山を登った」というテキストを対象とした場合、構成要素特定部110は、「富士山を」から場所を抽出し、「田中太郎は」から主体を抽出し、さらに「富士山を」から対象を抽出する。この例は、例えば、述語項構造を解析する既存の技術を適用することによって実現できる。具体的には、述語項構造を解析した結果の述語と項とを用いて、述語を事態表現とし、項を対応表現として使うことができる。述語項構造を解析した結果の項は、1個または複数個得られるので、それぞれの項を対応表現として使うことができる。また、主体を特定できなかった場合、主体が「私」など代名詞になっている場合においては、構成要素特定部110は、文書のメタデータから特定される文書の発信者を、主体として特定することもできる。
(ステップA4)
ステップA4では、共有性分析部102は、イベント記述毎に、ステップA3で特定された事態表現と対応表現とに基づいて、イベントの共有性を示す共有度合を求める。例えば、共有性分析部102は、事態表現と、事態表現に対応する対応表現との特定の組み合わせに対して、共有度合を規定したルールを参照して、イベントの共有度合を求める。
図4は、本発明の実施の形態1において共有度合を求める際に用いられるルールの一例を示す図である。具体的には、図4の例では、ルールIDと、事態表現と、事態表現に対応する対応表現のパターンと、共有度合とが、対応付けられ、一つのルールを構成している。また、図4の例においても、事態表現は、図3の例と同様に、品詞の原形の組み合わせで表わされている。事態表現に対応する対応表現は,アスタリスク記号「*」と文字列との組み合わせで表わされている。アスタリスク記号「*」の部分は、任意の語または文字列が入ることを表わしている。
また、各ルールは、更に、対応表現として想定される文字列に対して、格を規定していても良い。つまり、各ルールには、要件として、表層格、深層格といった格情報とマッチするかどうかが含められていても良い。例えば、対応表現の欄に「*(ヲ)」というルールがあるとき、これは日本語の「ヲ格」にマッチするかどうかを表わしているので、共有制分析部102は、対格(accusative case)に該当するかどうかを判定することになる。
また、共有度合とは、上述したように、イベントが複数人に共有されている可能性、即ち、「イベントの共有性」を示す尺度である。図4の例では、共有度合としては、イベントが複数人に共有されている可能性の程度、即ち、イベントの共有性の強さを数値で表わしたスコアが用いられている。共有度合は、例えば、1または0の2値で表現されても良いし、0から1の実数値によって表現されても良い。共有度合を求める際に用いられる各ルールの共有度合の大きさは、各ルールの適用要件とする事態表現および対応表現の辞書情報、または実際の文書コーパス中での使われ方等から、事前に求めておくことができる。
共有度合が2値の場合には,イベントの共有性の有無が表わされる。実数値の場合は、共有度合が1に近いほど、このルールが該当するイベントの共有性が強いことが表され、逆に,共有度合が0に近いほど、同イベントの共有性が弱いことが表わされる。
例えば、文書中に「私は大阪音楽祭へ行った」という記述があるとする。この文書には,動詞「行った」が存在し、これを品詞の原形にすることにより、事態表現として「行く」が特定され、そして、「行く」に関するイベント記述が存在していると判定できる。さらに、この事態表現は、ルールID「3」の事態表現「行く」に該当する。また、「行った」に対応する対応表現として、「私は」と、「大阪音楽祭へ」との2つが特定され、さらに、後者の「大阪音楽祭へ」がルールID「3」の対応構成要素「*音楽祭」に該当する。従って、この事態表現「行く」に関するイベント記述は、ルールID「2」にマッチし、その共有度合は「0.92」であると分析できる。
一方、例えば、文書中に「カレーを食べた」という記述があったとする。この場合、「カレーを」と、「食べた」とが、それぞれルールID「102」の対応表現と事態表現とにマッチするので、共有度合は「0.12」であると分析できる。一般にモノを食べる行為は単独の主体によってなされることが多いことから、共有性が低いと考えることができ、このような行為についての共有度合は0に近い値に設定される。
また、ステップA4での別の具体例について説明する。例えば、ステップA3において図3に示す事態表現および対応表現が得られているとする。この場合において、共有性分析部102は、事態表現の対象が複数人に共有されている可能性を示す第1の度合と、場所、主体、および対象に関する対応表現がイベントに関係している可能性を示す第2の度合とを求め、両者に基づいて、最終的な「共有度合」を求めることもできる。
例えば、共有性分析部102は、場所、主体、対象それぞれについて第2の度合を求め、このうちから、最大値を特定する。そして、共有性分析部102は、第2の度合の最大値と、第1の度合とを乗算し、得られた乗算値を、共有度合として決定することができる。
ここで、第1の度合および第2の度合について具体例を用いて説明する。まず、第1の度合は、例えば、動作、行為、状態を示す事態表現を、予め作成された辞書に照合することによって求めることができる。この場合の辞書は、事態表現毎に、予め、第1の度合となる値を設定することによって、作成できる。
具体的には、「食べる、食う、作る、料理する、買う、寝る、起きる」といった表現は、特定の主体が、他の主体との間で、その行為または状態の対象を共有し難い表現であり、さらに、排他的な性質を有している。従って、このような表現の対象は複数人に共有されている可能性が低いので、辞書において、このような表現に対しては、0に近い値が付与される。
他にも一般的には、個々人の主体の日常生活に関する個人的な行為、およびその行為に伴って対象物(例えば「食べる」場合は、食べ物)が消費・消耗される行為は、複数人に共有されている可能性が低いと言える。
また、共有度合を求める手法としては、実際の文書コーパス中に出現する各行為の表現と、それに関わる主体とを、既存の言語解析技術を用いて対応付けし、各行為に関わる主体の数を計数することで、各行為の共有度合を求める手法が考えられる。また、辞書的な情報から、各表現の用法を求めて、そこから共有度合を推定しても良い。さらには、「開催」「発表」「報道」「参加」など、複数人に共有される可能性が高いイベントの報道、または記述によく使用される表現を手がかり表現として用い、実際の文書コーパスにおけるそれらの手がかり表現との共起または係り受けの頻度から、各表現の共有度合を求めても良い。
一方、「会う、見る、見に行く、参加する、来る、開催する、開かれる、行なわれる、集まる、もてなす」といった表現は、特定の主体が、他の主体との間で、その行為または状態の対象を共有し易い、表現であると考えられる。一般的には、ある主体の視聴に関する表現、および日常的に繰り返される体験でない行為は、共有度合が高いと推定される。よって、このような表現に対しては、1に近い値が付与される。このような表現の共有度合は、実際の文書コーパスにおいて、当該表現と、異なる行為者が係わった同じ対象のイベントを示す表現との共起または係り受けの頻度から、求めても良い。
また、第2の度合も、対応表現を、予め作成された辞書に照合することによって求めることができる。この場合の辞書は、対応表現毎に、予め、第2の度合となる値を設定することによって、作成できる。この第2の度合は、実際の文書コーパスにおいて、当該表現と、同じ対象のイベントを示す表現との共起または係り受けの頻度から、求めても良い。
具体的には、場所、対象に関する対応表現が一般名詞である場合は、対応表現がイベントに関係している可能性が低いと考えられるので、第2の度合は0に設定される。逆に、固有名詞、特定条件が対応表現となっている場合は、対応表現がイベントに関係している可能性高いと考えられるので、第1の度合は1に設定される。
つまり、場所の対応表現が、単語「山」であれば、どの山か特定されておらず一般名詞であるので第2の度合は0に設定される。一方、場所の対応表現が、単語「富士山」であれば、富士山は特定の山であり、複数の主体が特定時間において共有できるので、イベントに関係している可能性高いと考えられ、第2の度合は1に設定される。
また、他にも例えば、場所の対応表現が「日本」および「関東」などのように広いエリアであれば、複数の別個のイベントがそのエリア内で関係していると想定されるため、特定のイベントに関係している可能性が低いと考えられ、第2の度合は0に近い値に設定される。一方、「横浜駅」および「横浜港」など場所が限定された場合は、特定のイベントに関係している可能性が高いと考えられるので、第2の度合は1に近い値に設定される。なお、場所の対応表現の場合には、第2の度合は、その面積または体積に基づいて決定することもできる。
また、対象の対応表現についても同様であり、例えば、「寿司」であれば、誰によって調理されているのか、どのような特徴をもつのかなど、どういった「寿司」であるかが特定されていない。このため、「寿司」は、一般的であり、イベントに関係している可能性が低いと考えられるので、その共有度合は0に近い値に設定される。一方、「タナカ寿司店の寿司」であれば、調理元が限定でき、共有性が強く、イベントに関係している可能性が高いので、第2の度合は1に近い値に設定される。
さらに、主体の対応表現についても同様であり、例えば、1個人であれば、イベントに関係している可能性が低いと考えられるので、第2の度合は0に近い値に設定される。一方、組織、団体など複数の主体が存在しうる表現であれば、イベントに関係している可能性が高いので、第2の度合は1に近い値に設定される。また、「一緒に」、「みんなで」、「グループで」などの、複数人の主体による行為を示唆する手がかり表現がある場合も、対応表現として1に近い値が付与される。
(ステップA5)
ステップA5では、分析結果出力部103は、ステップA4で得られた分析結果、即ち、イベント関する情報と、求めた共有度合とを分析結果として出力する。イベントに関する情報としては、例えば、事態表現と対応表現とが挙げられる。具体的には、分析結果出力部103は、ある文書中の「私は大阪音楽祭へ行った」というイベント記述について、事態表現と、対応表現と、共有度合とを列挙して、例えば、「事態表現:行った、構成要素:大阪音楽祭へ、共有度合:0.92」を出力する。
また、イベントに関する情報としては、事態表現と対応表現とを含む文も挙げられる。例えば、分析結果出力部103は、分析結果として、文と共有度合とを「私は大阪音楽祭へ行った:0.92」のように出力することもできる。
さらに、分析結果出力部103は、共有度合として、共有性の有無を出力することもできる。例えば、分析結果出力部103は、イベントに関する情報となる文(イベント記述)と、共有性の有無とを、分析結果として、「私は大阪音楽祭へ行った:共有性有」のように出力することもできる。
また、分析結果出力部103は、イベントに関する情報として、場所、主体、対象、事態表現、それぞれの内容と共に各項目名を出力することもできる。例えば、分析結果出力部103は、分析結果として、「場所:大阪、主体:私、対象:大阪音楽祭、事態表現:行った、共有度合:0.92」のように、内容と項目名とをセットで列挙して出力することもできる。
さらに、共有度合が1の場合、または共有度合が閾値以上の大きさを持つ場合にのみ、分析結果出力部103は、イベントに関する情報を、分析結果として出力する態様であっても良い。この場合には、共有度合が低いイベントについては、イベントに関する情報が、出力されないこととなる。
[実施の形態1の効果]
以上のように、本実施の形態1では、文書に記述されているイベントについて、それが複数人に共有されている可能性が高いと大きくなり、複数人に共有されている可能性が低いと小さくなる共有度合が求められる。このため、イベント分析装置100によれば、共有度合に基づいて、イベントが複数人の間で注目されているものかどうかを考慮できる。結果、雑多な個々に異なるイベントに関する表現が一致した結果、一見、複数人が共通して取りあげているように見える場合と、複数人が実際にある特定のイベントに関して話題にしている場合とが区別しやすくなるため、イベントの分析を精度良く行うことができる。
(実施の形態2)
次に、本発明の実施の形態2における、イベント分析装置、およびイベント分析方法について、図5および図6を参照しながら説明する。なお、以下、本発明の実施形態2について説明するが、本発明は、以下に説明する実施の形態2に限定されるものではない。
[装置構成]
最初に、本発明の実施の形態2におけるイベント分析装置の構成について図5を用いて説明する。図5は、本発明の実施の形態2におけるイベント分析装置の概略構成を示すブロック図である。
図5に示すように、本実施の形態2におけるイベント分析装置200は、構成要素特定部201と、共有性分析部202と、分析結果出力部203と、文書取得部204と、文書データベース(以下、「文書DB」とする。)205とを備えている。
このうち、文書取得部204は、分析条件の入力を受け付け、予め用意されている文書集合から、入力を受け付けた分析条件に合致する1または2以上の文書を取得する。分析条件として、1つ以上のキーワード、または特定の期間が挙げられる。また、本実施の形態2では、文書集合は、文書DB205に用意されている。
そして、本実施の形態2では、構成要素特定部201は、文書取得部204によって取得された文書を、分析対象とする。但し、構成要素特定部201は、文書取得部204が取得した1つ以上の文書を分析対象とする以外は、図1に示した構成要素特定部101と同様に動作する。よって、構成要素特定部201も、イベント記述を特定し、さらにこれから、事態表現と対応表現とを特定する。
共有性分析部202は、図1に示した共有性分析部102と同様に動作する。つまり、共有性分析部202は、構成要素特定部201が特定した、事態表現および対応表現に基づいて、イベントの共有性を示す共有度合を求める。
分析結果出力部203は、本実施の形態2では、共有度合とイベントに関する情報とに加えて、分析条件も出力する。また、分析結果出力部203は、文書取得部204が入力を受け付けた分析条件によっては、後述するように、共有度合に基づいたランキングを行うこともできる。なお、分析結果出力部203は、図1に示した分析結果出力部103と同様に動作することもできる。
[装置動作]
次に、本発明の実施の形態2におけるイベント分析装置200の動作について図6を用いて説明する。図6は、本発明の実施の形態2におけるイベント分析装置の動作を示すフロー図である。以下の説明においては、適宜図5を参酌する。また、本実施の形態2では、イベント分析装置200を動作させることによって、イベント分析方法が実施される。よって、本実施の形態2おけるイベント分析の説明は、以下のイベント分析装置200の動作説明に代える。
図6に示すように、まず、文書取得部204は、分析条件の入力を受付けると、分析条件に基づいて文書DB205を検索し、分析条件に合致する1または2以上の文書を取得する(ステップB1)。また、文書取得部204は、取得した、1または2以上の文書を構成要素特定部201に入力する。
ステップB1において、分析条件としては、1つ以上のキーワードが挙げられる。この場合、入力されたキーワードは、取得される文書の特徴を表す語(以下「特徴語」ともいう。)となる。そして、文書取得部204は、特徴語毎に、当該特徴語を用いて文書を取得する。
また、ステップB1では、分析条件としては、特定の期間も挙げられる。この場合、文書取得部204は、キーワードの代わりに、対象とする期間を入力として受付ける。つまり、文書取得部204は、発信日時で特定される期間を分析条件として受け付ける。
例えば、文書取得部204は、開始日時から終了日時までを規定する条件、または開始日時と期間の長さとを規定する条件など、を分析条件として受け付ける。そして、文書取得部204は、文書DB205から、指定の期間の条件に合致する文書を取得する。
また、分析条件が特定の期間である場合、文書取得部204は、入力された期間に基づいて、特徴的なキーワードを「特徴語」として1つ以上決定し、決定した特徴語毎に、当該特徴語を用いて、文書DB205から特徴語に関する文書を取得することもできる。
例えば、文書取得部204は、1時間毎など特定の期間に発信された文書集合から、それらに含まれる各単語の頻度、またはtf・idf値などの指標を計算する。そして、文書取得部204は、各単語について、時間的にその前後で出現した単語との比較を行い、指標の差分または増加率等が特定の閾値を越えているかどうか判定する。その後、文書取得部204は、判定の結果、特定の閾値を越えている単語を、急に増加した特徴的なキーワードと判断し、これを特徴語とする。
また、本実施の形態2では、文書DB205において、各文書は発信日時とともに格納されているのが良い。例えば、ニュース、電子掲示板、ブログ、およびマイクロブログ等のWebページが収集されている場合は、これら収集されたWebページは、収集時刻、Webページ中に記述された時間情報などから得られた発信日時が付与された状態で、文書として文書DB205に格納される。
そして、この場合、文書取得部204は、文書を検索する際に、検索結果に加えて、発信日時を取得しても良い。また、文書取得部204は、特定の期間に発信された文書集合に限定して検索を行い、その期間の文書集合だけを対象とした処理を行っても良い。また、文書取得部204は、キーワードと、特定の期間との論理積条件を入力として受付けても良い。
次に、構成要素特定部201は、文書取得部204から、分析条件と、文書取得部204が取得した文書とを受け取り、受け取った文書毎に、各文書中に含まれるイベント記述を1つ以上特定する(ステップB2)。続いて、構成要素特定部01は、各イベント記述から、事態表現と対応表現とを特定する(ステップB3)。ステップB2およびステップB3は、それぞれ、図2に示したステップA2およびステップA3と同様のステップである。
続いて、共有性分析部202は、イベント記述から特定された事態表現および対応表現に基づいて、イベントの共有性を示す共有度合を求める(ステップB4)。ステップB4は、図2に示したステップA4と同様のステップである。
その後、分析結果出力部203は、共有性分析部202から、共有度合と、イベントに関する情報とを受け取り、文書取得部204から分析条件を受け取り、これらを、イベント共有性分析結果として、外部に出力する(ステップB4)。
例えば、「大阪音楽祭」というキーワードが分析条件として入力され、これに対応して、構成要素特定部101が、n個のイベント記述を特定し、共有性分析部202が、イベント記述毎に共有度合を求めたとする。この場合には、分析結果出力部203は、キーワード(特徴語)と、n個のイベント記述に関する情報と、各共有度合とを出力する。つまり、この場合は、分析結果出力部203は、イベント記述毎に、実施の形態1において図2に示したステップA5を実行する。
また、本実施の形態2では、分析結果出力部203は、ステップB1において、特徴語となるキーワードが複数入力されていた場合、または入力された期間から複数の特徴語が決定されている場合は、特徴語毎に、分析結果を出力することもできる。
また、分析結果出力部203は、特徴語が複数存在する場合は、特徴語毎の共有度合に基づいて、特徴語それぞれをランキングし、ランキング結果と各特徴語とを出力することができる。この場合、ランキングは、共有度合に基づいてスコアを計算し、スコアの大きい順に上位となるように決定する。
さらに、分析結果出力部203は、特徴語が複数存在する場合は、特徴語毎の共有度合を合算してスコアを計算し、得られたスコアと各特徴語とを出力することもできる。また、この場合において、分析結果出力部203は、合算する代わりに、共有度合の最大値を特定し、特定した最大値をスコアとしても良い。
[実施の形態2の効果]
以上のように、本実施の形態2では、特定のキーワード、特定の期間が、分析条件として入力され、当該分析条件に関して得られたイベント記述について分析結果が出力される。このため、分析条件との関連において共有性が高いイベントが分析されることになる。また、本実施の形態2によれば、複数の特徴語の間での共有度合を比較することが可能となる。さらに、ランキングを行うことで、共有性が低いイベントおよび特徴語をフィルタリングすることも可能となる。なお、本実施の形態2を用いた場合も、実施の形態1と同様の効果を得ることができる。
(実施の形態におけるプログラム)
続いて、実施の形態1および2におけるプログラムについて説明する。また、図7を用いて、実施の形態1および2におけるプログラムを実行可能なコンピュータについて説明する。図7は、本発明の実施の形態1および2におけるイベント分析装置を実現するコンピュータの一例を示すブロック図である。
図7に示すように、コンピュータ装置300は、CPU(central processing unit)301、RAM(Random Access Memory)302、記憶装置303、入力インターフェイス回路(入力I/F)304、表示コントローラ305、データリーダライタ306、及び、通信インターフェイス回路(通信I/F)307、を備えている。記憶装置303は、例えば、磁気ディスク記憶装置、またはSSD(solid state drive)等の大容量の記憶装置である。
また、図7に示すように、入力インターフェイス回路304に、キーボードおよびマウス等の入力装置400が接続されている。また、通信インターフェイス回路307に通信ネットワークを介して他のコンピュータが接続されている。さらに、表示コントローラ305にディスプレイ装置500が接続されている。データリーダライタ306は、外部の記録媒体600との間で、データの入力および出力を行う。
そして、コンピュータ300に、図2に示すステップA1〜A5をインストールし、実行すると、コンピュータ300により、実施の形態1におけるイベント分析装置100が具現化される。この場合、CPU301は、構成要素特定部101、共有性分析部102、および分析結果出力部103として機能し、処理を行う。
また、コンピュータ300に、図6に示すステップB1〜B5をインストールし、実行すると、コンピュータ300により、実施の形態2におけるイベント分析装置200が具現化される。この場合、CPU301は、構成要素特定部201、共有性分析部202、分析結果出力部203、及び書取得部204として機能し、処理を行う。また、記憶装置303は、文書DB205として機能する。
なお、図7の例において、文書DB205は、多数の電子文書が可能された記録媒体を読取装置600に搭載することによって実現されていても良い。更に、文書DB205は、コンピュータ装置300にネットワークを介して接続された別のコンピュータ装置によって実現されていても良い。
さらに、図2に示すステップA1〜A5をコンピュータ装置300に実行させるプログラム、および図6に示すステップB1〜B5をコンピュータ装置300に実行させるプログラムは、例えば、コンピュータ読み取り可能な記録媒体600に格納されている。この場合、記録媒体600に格納されているプログラムは、光学ドライブ装置等の読取装置であるリーダライタ306を介して、コンピュータ装置300にインストールされる。また、これらプログラムは、通信インターフェイス回路307を介して接続されたインターネット上で流通するものであっても良い。
また、図7の例では、入力インターフェイス回路304および通信インターフェイス回路307は、構成要素特定部101または201に対して、入力手段として機能する。さらに、表示コントローラ305および通信インターフェイス回路307は、分析結果出力部103または203が外部にデータを出力する際の出力手段として機能する。
また、図7の例では、RAM302、記憶装置303の一部の記憶領域は、イベント分析装置100または200で実行される各処理ステップの途中結果などの一時記憶領域として利用される。さらに、RAM302、記憶装置303の一部の記憶領域は、文書DB205のデータ記憶領域として利用されても良い。
また、コンピュータ読み取り可能な記録媒体600の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記30)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
分析対象となる文書に記述されているイベントの分析を行うための装置であって、
前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、構成要素特定部と、
前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、共有性分析部と、
を備えていることを特徴とするイベント分析装置。
(付記2)
前記共有度合と、前記共有度合が求められたイベントに関する情報とを、出力する分析結果出力部を、更に備えている、付記1に記載のイベント分析装置。
(付記3)
前記構成要素特定部が、特定した前記記述に含まれる動作、行為または状態を示す部分を、前記事態表現として特定し、更に、前記事態表現に関係し、且つ、時間、場所、主体、および対象のいずれかに該当する表現を、前記対応する表現として特定する、付記1または2に記載のイベント分析装置。
(付記4)
前記共有性分析部が、前記記述から特定された前記事態表現および前記対応する表現を、設定されたルールに当てはめて、前記共有度合を求め、
前記ルールは、想定される事態表現と、当該事態表現に対応する表現として想定される文字列との組み合わせ毎に、共有度合を規定している、
付記1から3のいずれかに記載のイベント分析装置。
(付記5)
前記ルールが、更に、当該事態表現に対応する表現として想定される文字列に対して、格を規定しており、
前記共有性分析部が、前記対応する表現が、前記ルールが規定する前記格に合致する場合に、前記ルールの当てはめを行う、付記4に記載のイベント分析装置。
(付記6)
前記共有性分析部が、前記事態表現の対象が複数人に共有されている可能性を示す第1の度合と、前記対応する表現が前記イベントに関係している可能性を示す第2の度合とを求め、前記第1の度合と前記第2の度合とから、前記共有度合を求める、
付記1から3のいずれかに記載のイベント分析装置。
(付記7)
前記分析結果出力部が、前記共有度合が求められたイベントに関する情報として、前記事態表現および前記対応する表現、または前記事態表現および前記対応する表現を含む文を出力する、付記2に記載のイベント分析装置。
(付記8)
分析条件の入力を受け付け、予め用意されている文書集合から、入力を受け付けた前記分析条件に合致する1または2以上の文書を取得する、文書取得部を、更に備え、
前記構成要素特定部が、前記文書取得部によって取得された前記文書を、前記分析対象とし、
前記分析結果出力部が、前記共有度合と、前記共有度合が求められたイベントに関する情報とに加えて、前記分析条件を出力する、付記2記載のイベント分析装置。
(付記9)
前記分析条件として、1つ以上のキーワード、または特定の期間が入力される、付記8に記載のイベント分析装置。
(付記10)
前記文書取得部が、入力を受け付けた前記分析条件に基づいて特徴語を決定し、決定した特徴語毎に、前記文書を取得し、
前記共有性分析部が、前記特徴語毎に、前記共有度合を求め、
前記分析結果出力部が、前記特徴語が2以上である場合に、
前記特徴語毎の前記共有度合を合算して得られた値と前記特徴語それぞれとを出力する、または、前記特徴語毎の前記共有度合に基づいて、前記特徴語それぞれをランキングし、ランキング結果と前記特徴語それぞれとを出力する、付記8に記載のイベント分析装置。
(付記11)
分析対象となる文書に記述されているイベントの分析を行うための方法であって、
(a)前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、ステップと、
(b)前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、ステップと、
を有することを特徴とするイベント分析方法。
(付記12)
(c)前記共有度合と、前記共有度合が求められたイベントに関する情報とを、出力するステップを、更に有する、付記11に記載のイベント分析方法。
(付記13)
前記(a)のステップで、特定した前記記述に含まれる動作、行為または状態を示す部分を、前記事態表現として特定し、更に、前記事態表現に関係し、且つ、時間、場所、主体、および対象のいずれかに該当する表現を、前記対応する表現として特定する、付記11または12に記載のイベント分析方法。
(付記14)
前記(b)のステップで、前記記述から特定された前記事態表現および前記対応する表現を、設定されたルールに当てはめて、前記共有度合を求め、
前記ルールは、想定される事態表現と、当該事態表現に対応する表現として想定される文字列との組み合わせ毎に、共有度合を規定している、
付記11から13のいずれかに記載のイベント分析方法。
(付記15)
前記ルールが、更に、当該事態表現に対応する表現として想定される文字列に対して、格を規定しており、
前記(b)のステップで、前記対応する表現が、前記ルールが規定する前記格に合致する場合に、前記ルールの当てはめを行う、付記14に記載のイベント分析方法。
(付記16)
前記(b)のステップで、前記事態表現の対象が複数人に共有されている可能性を示す第1の度合と、前記対応する表現が前記イベントに関係している可能性を示す第2の度合とを求め、前記第1の度合と前記第2の度合とから、前記共有度合を求める、
付記11から13のいずれかに記載のイベント分析方法。
(付記17)
前記(c)のステップで、前記共有度合が求められたイベントに関する情報として、前記事態表現および前記対応する表現、または前記事態表現および前記対応する表現を含む文を出力する、付記12に記載のイベント分析方法。
(付記18)
(d)分析条件の入力を受け付け、予め用意されている文書集合から、入力を受け付けた前記分析条件に合致する1または2以上の文書を取得する、ステップを、更に有し、
前記(a)のステップで、前記(d)のステップで取得された前記文書を、前記分析対象とし、
前記(c)のステップで、前記共有度合と、前記共有度合が求められたイベントに関する情報とに加えて、前記分析条件を出力する、付記12記載のイベント分析方法。
(付記19)
前記(d)のステップにおいて、前記分析条件として、1つ以上のキーワード、または特定の期間の入力を受け付ける、付記18に記載のイベント分析方法。
(付記20)
前記(d)のステップで、入力を受け付けた前記分析条件に基づいて特徴語を決定し、決定した特徴語毎に、前記文書を取得し、
前記(b)のステップで、前記特徴語毎に、前記共有度合を求め、
前記(c)のステップで、前記特徴語が2以上である場合に、
前記特徴語毎の前記共有度合を合算して得られた値と前記特徴語それぞれとを出力する、または、前記特徴語毎の前記共有度合に基づいて、前記特徴語それぞれをランキングし、ランキング結果と前記特徴語それぞれとを出力する、付記18に記載のイベント分析方法。
(付記21)
コンピュータによって分析対象となる文書に記述されているイベントの分析を行うための、プログラムであって、
前記コンピュータに
(a)前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、ステップと、
(b)前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、ステップと、
を実行させる、プログラム。
(付記22)
(c)前記共有度合と、前記共有度合が求められたイベントに関する情報とを、出力するステップを、更に前記コンピュータに実行させる、付記21に記載のプログラム
(付記23)
前記(a)のステップで、特定した前記記述に含まれる動作、行為または状態を示す部分を、前記事態表現として特定し、更に、前記事態表現に関係し、且つ、時間、場所、主体、および対象のいずれかに該当する表現を、前記対応する表現として特定する、付記21または22に記載のプログラム
(付記24)
前記(b)のステップで、前記記述から特定された前記事態表現および前記対応する表現を、設定されたルールに当てはめて、前記共有度合を求め、
前記ルールは、想定される事態表現と、当該事態表現に対応する表現として想定される文字列との組み合わせ毎に、共有度合を規定している、
付記21から23のいずれかに記載のプログラム
(付記25)
前記ルールが、更に、当該事態表現に対応する表現として想定される文字列に対して、格を規定しており、
前記(b)のステップで、前記対応する表現が、前記ルールが規定する前記格に合致する場合に、前記ルールの当てはめを行う、付記24に記載のプログラム
(付記26)
前記(b)のステップで、前記事態表現の対象が複数人に共有されている可能性を示す第1の度合と、前記対応する表現が前記イベントに関係している可能性を示す第2の度合とを求め、前記第1の度合と前記第2の度合とから、前記共有度合を求める、
付記21から23のいずれかに記載のプログラム
(付記27)
前記(c)のステップで、前記共有度合が求められたイベントに関する情報として、前記事態表現および前記対応する表現、または前記事態表現および前記対応する表現を含む文を出力する、付記22に記載のプログラム
(付記28)
(d)分析条件の入力を受け付け、予め用意されている文書集合から、入力を受け付けた前記分析条件に合致する1または2以上の文書を取得する、ステップを、更に前記コンピュータに実行させ、
前記(a)のステップで、前記(d)のステップで取得された前記文書を、前記分析対象とし、
前記(c)のステップで、前記共有度合と、前記共有度合が求められたイベントに関する情報とに加えて、前記分析条件を出力する、付記22記載のプログラム
(付記29)
前記(d)のステップにおいて、前記分析条件として、1つ以上のキーワード、または特定の期間の入力を受け付ける、付記28に記載のプログラム
(付記30)
前記(d)のステップで、入力を受け付けた前記分析条件に基づいて特徴語を決定し、決定した特徴語毎に、前記文書を取得し、
前記(b)のステップで、前記特徴語毎に、前記共有度合を求め、
前記(c)のステップで、前記特徴語が2以上である場合に、
前記特徴語毎の前記共有度合を合算して得られた値と前記特徴語それぞれとを出力する、または、前記特徴語毎の前記共有度合に基づいて、前記特徴語それぞれをランキングし、ランキング結果と前記特徴語それぞれとを出力する、付記28に記載のプログラム
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年3月23日に出願された日本出願特願2011−63766を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上のように、本発明によれば、文書を用いたイベントの分析において、イベントが複数人の間で注目されているかどうかを考慮して分析を行うことができる。本発明は、インターネット上の情報から、イベントに関する情報を抽出するイベント情報抽出装置、抽出したイベントに関する情報の分析を行なうイベント分析装置、および話題となったイベントを検索可能とする情報検索装置、といった用途に適用できる。
また、本発明は、共通するイベント毎に話題をクラスタリングするクラスタリング装置、関連するイベント記述が含まれた文書をクラスタリングするクラスタリング装置、といった用途にも適用できる。このようなクラスタリング装置では、例えば、本発明により判定されたイベント記述中のキーワード、または実施形態2において出力される特徴語が、クラスタリングの素性として用いられる。また、本発明は、このようなクラスタリング装置において、クラスタリングの素性に重みを付与する処理にも適用できる。
100 イベント分析装置(実施の形態1)
101 構成要素特定部(実施の形態1)
102 共有性分析部(実施の形態1)
103 分析結果出力部(実施の形態1)
200 イベント分析装置(実施の形態2)
201 構成要素特定部(実施の形態2)
202 共有性分析部(実施の形態2)
203 分析結果出力部(実施の形態2)
204 文書取得部
205 文書データベース
300 コンピュータ装置
301 CPU
302 RAM
303 記憶装置
304 入力インターフェイス回路(入力I/F)
305 表示コントローラ
306 データリーダライタ
307 通信インターフェイス回路(通信I/F)
400 入力装置
500 ディスプレイ装置
600 記録媒体

Claims (24)

  1. 分析対象となる文書に記述されているイベントの分析を行うための装置であって、
    前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、構成要素特定部と、
    前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、共有性分析部と、
    を備えていることを特徴とするイベント分析装置。
  2. 前記共有度合と、前記共有度合が求められたイベントに関する情報とを、出力する分析結果出力部を、更に備えている、請求項1に記載のイベント分析装置。
  3. 前記構成要素特定部が、特定した前記記述に含まれる動作、行為または状態を示す部分を、前記事態表現として特定し、更に、前記事態表現に関係し、且つ、時間、場所、主体、および対象のいずれかに該当する表現を、前記対応する表現として特定する、請求項1または2に記載のイベント分析装置。
  4. 前記共有性分析部が、前記記述から特定された前記事態表現および前記対応する表現を、設定されたルールに当てはめて、前記共有度合を求め、
    前記ルールは、想定される事態表現と、当該事態表現に対応する表現として想定される文字列との組み合わせ毎に、共有度合を規定している、
    請求項1から3のいずれかに記載のイベント分析装置。
  5. 前記ルールが、更に、当該事態表現に対応する表現として想定される文字列に対して、格を規定しており、
    前記共有性分析部が、前記対応する表現が、前記ルールが規定する前記格に合致する場合に、前記ルールの当てはめを行う、請求項4に記載のイベント分析装置。
  6. 前記共有性分析部が、前記事態表現の対象が複数人に共有されている可能性を示す第1の度合と、前記対応する表現が前記イベントに関係している可能性を示す第2の度合とを求め、前記第1の度合と前記第2の度合とから、前記共有度合を求める、
    請求項1から3のいずれかに記載のイベント分析装置。
  7. 分析条件の入力を受け付け、予め用意されている文書集合から、入力を受け付けた前記分析条件に合致する1または2以上の文書を取得する、文書取得部を、更に備え、
    前記構成要素特定部が、前記文書取得部によって取得された前記文書を、前記分析対象とし、
    前記分析結果出力部が、前記共有度合と、前記共有度合が求められたイベントに関する情報とに加えて、前記分析条件を出力する、請求項2記載のイベント分析装置。
  8. 前記文書取得部が、入力を受け付けた前記分析条件に基づいて特徴語を決定し、決定した特徴語毎に、前記文書を取得し、
    前記共有性分析部が、前記特徴語毎に、前記共有度合を求め、
    前記分析結果出力部が、前記特徴語が2以上である場合に、
    前記特徴語毎の前記共有度合を合算して得られた値と前記特徴語それぞれとを出力する、または、前記特徴語毎の前記共有度合に基づいて、前記特徴語それぞれをランキングし、ランキング結果と前記特徴語それぞれとを出力する、請求項7に記載のイベント分析装置。
  9. 分析対象となる文書に記述されているイベントの分析を行うための方法であって、
    (a)前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、ステップと、
    (b)前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、ステップと、
    を有することを特徴とするイベント分析方法。
  10. (c)前記共有度合と、前記共有度合が求められたイベントに関する情報とを、出力するステップを、更に有する、請求項9に記載のイベント分析方法。
  11. 前記(a)のステップで、特定した前記記述に含まれる動作、行為または状態を示す部分を、前記事態表現として特定し、更に、前記事態表現に関係し、且つ、時間、場所、主体、および対象のいずれかに該当する表現を、前記対応する表現として特定する、請求項9または10に記載のイベント分析方法。
  12. 前記(b)のステップで、前記記述から特定された前記事態表現および前記対応する表現を、設定されたルールに当てはめて、前記共有度合を求め、
    前記ルールは、想定される事態表現と、当該事態表現に対応する表現として想定される文字列との組み合わせ毎に、共有度合を規定している、
    請求項9から11のいずれかに記載のイベント分析方法。
  13. 前記ルールが、更に、当該事態表現に対応する表現として想定される文字列に対して、格を規定しており、
    前記(b)のステップで、前記対応する表現が、前記ルールが規定する前記格に合致する場合に、前記ルールの当てはめを行う、請求項12に記載のイベント分析方法。
  14. 前記(b)のステップで、前記事態表現の対象が複数人に共有されている可能性を示す第1の度合と、前記対応する表現が前記イベントに関係している可能性を示す第2の度合とを求め、前記第1の度合と前記第2の度合とから、前記共有度合を求める、
    請求項9から11のいずれかに記載のイベント分析方法。
  15. (d)分析条件の入力を受け付け、予め用意されている文書集合から、入力を受け付けた前記分析条件に合致する1または2以上の文書を取得する、ステップを、更に有し、
    前記(a)のステップで、前記(d)のステップで取得された前記文書を、前記分析対象とし、
    前記(c)のステップで、前記共有度合と、前記共有度合が求められたイベントに関する情報とに加えて、前記分析条件を出力する、請求項10に記載のイベント分析方法。
  16. 前記(d)のステップで、入力を受け付けた前記分析条件に基づいて特徴語を決定し、決定した特徴語毎に、前記文書を取得し、
    前記(b)のステップで、前記特徴語毎に、前記共有度合を求め、
    前記(c)のステップで、前記特徴語が2以上である場合に、
    前記特徴語毎の前記共有度合を合算して得られた値と前記特徴語それぞれとを出力する、または、前記特徴語毎の前記共有度合に基づいて、前記特徴語それぞれをランキングし、ランキング結果と前記特徴語それぞれとを出力する、請求項15に記載のイベント分析方法。
  17. コンピュータによって分析対象となる文書に記述されているイベントの分析を行うための、プログラムであって、
    前記コンピュータに、
    (a)前記分析対象となる文書からイベントに関係している記述を特定し、特定した記述から、事態を表わす事態表現と、前記事態表現に対応する表現とを特定する、ステップと、
    (b)前記記述から特定された前記事態表現および前記対応する表現に基づいて、前記記述が関係するイベントが複数人に共有されている可能性を示す、共有度合を求める、ステップと、
    を実行させる、プログラム。
  18. (c)前記共有度合と、前記共有度合が求められたイベントに関する情報とを、出力するステップを、更に前記コンピュータに実行させる、請求項17に記載のプログラム。
  19. 前記(a)のステップで、特定した前記記述に含まれる動作、行為または状態を示す部分を、前記事態表現として特定し、更に、前記事態表現に関係し、且つ、時間、場所、主体、および対象のいずれかに該当する表現を、前記対応する表現として特定する、請求項17または18に記載のプログラム。
  20. 前記(b)のステップで、前記記述から特定された前記事態表現および前記対応する表現を、設定されたルールに当てはめて、前記共有度合を求め、
    前記ルールは、想定される事態表現と、当該事態表現に対応する表現として想定される文字列との組み合わせ毎に、共有度合を規定している、
    請求項17から19のいずれかに記載のプログラム。
  21. 前記ルールが、更に、当該事態表現に対応する表現として想定される文字列に対して、格を規定しており、
    前記(b)のステップで、前記対応する表現が、前記ルールが規定する前記格に合致する場合に、前記ルールの当てはめを行う、請求項20に記載のプログラム。
  22. 前記(b)のステップで、前記事態表現の対象が複数人に共有されている可能性を示す第1の度合と、前記対応する表現が前記イベントに関係している可能性を示す第2の度合とを求め、前記第1の度合と前記第2の度合とから、前記共有度合を求める、
    請求項17から19のいずれかに記載のプログラム。
  23. (d)分析条件の入力を受け付け、予め用意されている文書集合から、入力を受け付けた前記分析条件に合致する1または2以上の文書を取得する、ステップを、更に前記コンピュータに実行させ、
    前記(a)のステップで、前記(d)のステップで取得された前記文書を、前記分析対象とし、
    前記(c)のステップで、前記共有度合と、前記共有度合が求められたイベントに関する情報とに加えて、前記分析条件を出力する、請求項18に記載のプログラム。
  24. 前記(d)のステップで、入力を受け付けた前記分析条件に基づいて特徴語を決定し、決定した特徴語毎に、前記文書を取得し、
    前記(b)のステップで、前記特徴語毎に、前記共有度合を求め、
    前記(c)のステップで、前記特徴語が2以上である場合に、
    前記特徴語毎の前記共有度合を合算して得られた値と前記特徴語それぞれとを出力する、または、前記特徴語毎の前記共有度合に基づいて、前記特徴語それぞれをランキングし、ランキング結果と前記特徴語それぞれとを出力する、請求項23に記載のプログラム。
JP2013505854A 2011-03-23 2012-02-22 イベント分析装置、イベント分析方法、およびプログラム Active JP5435249B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013505854A JP5435249B2 (ja) 2011-03-23 2012-02-22 イベント分析装置、イベント分析方法、およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011063766 2011-03-23
JP2011063766 2011-03-23
PCT/JP2012/054222 WO2012127968A1 (ja) 2011-03-23 2012-02-22 イベント分析装置、イベント分析方法、およびコンピュータ読み取り可能な記録媒体
JP2013505854A JP5435249B2 (ja) 2011-03-23 2012-02-22 イベント分析装置、イベント分析方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP5435249B2 true JP5435249B2 (ja) 2014-03-05
JPWO2012127968A1 JPWO2012127968A1 (ja) 2014-07-24

Family

ID=46879130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013505854A Active JP5435249B2 (ja) 2011-03-23 2012-02-22 イベント分析装置、イベント分析方法、およびプログラム

Country Status (3)

Country Link
US (1) US20140012803A1 (ja)
JP (1) JP5435249B2 (ja)
WO (1) WO2012127968A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011479A1 (en) * 2014-02-04 2017-01-12 Ubic, Inc. Document analysis system, document analysis method, and document analysis program
WO2016115175A1 (en) * 2015-01-12 2016-07-21 KYMA Medical Technologies, Inc. Systems, apparatuses and methods for radio frequency-based attachment sensing
US10433184B2 (en) * 2015-12-31 2019-10-01 Motorola Mobility Llc Method and apparatus for directing an antenna beam based on a location of a communication device
US10425837B2 (en) * 2017-10-02 2019-09-24 The Invention Science Fund I, Llc Time reversal beamforming techniques with metamaterial antennas
CN113868381B (zh) * 2021-11-22 2022-03-22 中国矿业大学(北京) 一种煤矿瓦斯***事故信息抽取方法及***
CN114445646A (zh) * 2021-12-31 2022-05-06 深圳云天励飞技术股份有限公司 人员关联度的分析方法、装置、电子设备及存储介质
CN114625804B (zh) * 2022-03-30 2022-11-08 深圳唯爱智云科技有限公司 基于大数据的用户行为数据处理方法、***及云平台

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
JP4462014B2 (ja) * 2004-11-15 2010-05-12 日本電信電話株式会社 話題語結合方法及び装置及びプログラム

Also Published As

Publication number Publication date
WO2012127968A1 (ja) 2012-09-27
US20140012803A1 (en) 2014-01-09
JPWO2012127968A1 (ja) 2014-07-24

Similar Documents

Publication Publication Date Title
Bharti et al. Sarcastic sentiment detection in tweets streamed in real time: a big data approach
Dimitrov et al. Tweetscov19-a knowledge base of semantically annotated tweets about the covid-19 pandemic
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
JP5435249B2 (ja) イベント分析装置、イベント分析方法、およびプログラム
Guellil et al. Social big data mining: A survey focused on opinion mining and sentiments analysis
Gonçalves et al. Comparing and combining sentiment analysis methods
Emmery et al. Current limitations in cyberbullying detection: On evaluation criteria, reproducibility, and data scarcity
US9558267B2 (en) Real-time data mining
US8898163B2 (en) Real-time information mining
Papadouka et al. Agenda setting and active audiences in online coverage of human trafficking
Yıldırım et al. Identifying topics in microblogs using Wikipedia
JP2011108053A (ja) ニュース記事評価システム
Liao et al. Mining micro-blogs: Opportunities and challenges
Mahata et al. From chirps to whistles: discovering event-specific informative content from twitter
Park et al. Measuring the prevalence of anti-social behavior in online communities
WO2016067396A1 (ja) 文の並び替え方法および計算機
JP2014164576A (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
WO2016067334A1 (ja) 文書検索システム、ディベートシステム、文書検索方法
Almquist et al. Towards content expiry date determination: predicting validity periods of sentences
Ng et al. Linguistic characteristics of censorable language on sinaweibo
US10795926B1 (en) Suppressing personally objectionable content in search results
Mokhberi et al. Development of a COVID-19–related anti-Asian tweet data set: Quantitative study
Thakkar Twitter sentiment analysis using hybrid naive Bayes
Yin et al. Research of integrated algorithm establishment of a spam detection system
Guimaraes et al. Analysis and detection of unreliable users in twitter: Two case studies

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131126

R150 Certificate of patent or registration of utility model

Ref document number: 5435249

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150