JP2005190384A - イベント周期性の抽出方法及び装置 - Google Patents

イベント周期性の抽出方法及び装置 Download PDF

Info

Publication number
JP2005190384A
JP2005190384A JP2003433840A JP2003433840A JP2005190384A JP 2005190384 A JP2005190384 A JP 2005190384A JP 2003433840 A JP2003433840 A JP 2003433840A JP 2003433840 A JP2003433840 A JP 2003433840A JP 2005190384 A JP2005190384 A JP 2005190384A
Authority
JP
Japan
Prior art keywords
morpheme
periodicity
event
word
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003433840A
Other languages
English (en)
Inventor
Hiromi Ito
浩美 伊藤
Masao Uchiyama
将夫 内山
Hitoshi Isahara
均 井佐原
Hideko Yamamoto
英子 山本
Yasuyuki Kono
恭之 河野
Masatsugu Kidode
正継 木戸出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2003433840A priority Critical patent/JP2005190384A/ja
Publication of JP2005190384A publication Critical patent/JP2005190384A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】 テキスト中に含まれるイベントの周期性を自動的に抽出する技術を提供すること。
【解決手段】 テキストデータ2を入力手段10で入力した後、形態素解析手段21で形態素解析し、テキストデータ2に含まれる時間的情報から所定の期間毎の得られた単語の出現回数を単語計数部22で計数する。さらに、自己相関関数値算出部23で求めた値のピークから、周期性抽出手段24においてイベント単語とその周期性を抽出し、該イベント単語、周期性、共起する共起単語とを出力手段11から出力する。
【選択図】 図1

Description

本発明は、テキスト中に含まれるイベントの周期性を自動的に抽出する技術に関し、より詳しくはテキストから時間的情報とイベント情報を抽出した上で両者の関係を抽出する技術に関わる。
インターネットの普及に伴い、電子化されたテキストが入手しやすくなっている。WWW(World Wide Web)では電子化されたテキストを効率良く利用するため、様々な技術が研究開発されている。特に、非特許文献1のような、目的を限定し利用できる情報を必要十分な量、組織化して掲載している目的指向型WWWサイトは注目されている。
古関義幸、福島俊一、"新世代検索ポータル技術"、情報学シンポジウム、(2001)
例えば、論文情報を収集し提示しているCiteSeer(非特許文献2)や、いろいろな商品の比較情報を掲載しているMySimon2(非特許文献3)などが有名である。しかし、実際の検索状況を考慮すれば、目的指向型サイトは使いやすいものとは言いがたい。
http://citeseer.nj.nec.com/cs http://www.mysimon.com/
すなわち従来から、WWW情報をより使いやすく、効果的に利用するため、検索結果をタスクに合わせて統合できるタスク型WWW検索システムが必要とされている。このような解決法として、本件出願人らによって、特許文献1に記載されるような情報検索方法を用い、観光コースを作成する観光コース作成支援システムが提案されている。
特開2003−271663
上記発明は、インターネット等のネットワーク上に単数又は複数の情報記憶サーバーを有するときに、ネットワークに接続された情報端末から情報検索を行う方法であり、情報端末において検索キーワードを入力すると、ネットワーク上のサーバーについて情報検索を行うと共に、検索結果から、各結果毎に該情報の時間情報を抽出する。そして、時間情報に基づいて検索結果に重み付けを行い、その重み順位を付けて結果を出力することを提案している。
そして、上記の支援システムは、WWWやMLから観光に関係する情報を収集し、時間情報や地理情報により情報を組織化する。ユーザの要求(旅行期間や趣向)に合わせた観光地候補を提示し、観光コースの作成を支援する事を目指している。
観光コースを作成するタスクにおいて、観光情報を推薦するための知識とそのコースが実現可能か評価することが重要である。推薦のための知識と評価には、観光地で行われるイベント情報とそのイベントが行われる時間情報を利用することが効果的である。
一般に時間情報とは、年月時分を数字で示したものであると考えられる。しかし、実生活の中では、具体的な数字で表される情報よりも、曖昧な言葉で示される情報が数多く存在する。時間情報と曖昧な言葉や単語の関係知識は一般常識として取り扱われることが多い。上記システムにおいて、ユーザの要求に合わせた観光地候補を提示する際には、コンピュータ上に常識知識を構築することは、重要な課題の1つである。
そのため、非特許文献4、5に開示されているような、時間情報を切口に、常識知識を組織化するための研究がなされている。どちらの研究も概念的な時間情報の獲得に有益な考察を行っているが、時間に関連する単語を手動で辞書に登録する必要があるなど、時間情報の自動抽出や利用は困難であった。
小畑陽一、渡部広一、河岡司、"単文の名詞と動詞から時間/季節を判断するメカニズム"、信学技報 AI2000−56、(2001) 溝渕昭二、住友徹、泓田正夫、青江順一、"日本語時間表現の一解釈法"、情報処理学会論文誌、vol.40、No.9、pp.3408−3419、(1999)
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、その目的は、テキスト中に含まれるイベントの周期性を自動的に抽出する技術を提供することである。
本件出願人らは、一般にイベントが周期的に行われること、またある特定の季節に行われる事が多いため、そのイベントに関連する単語は周期的に出現するあるいは、特定の時期に出現する点に着目し、次のようなイベント周期性の抽出方法及び装置を創出するに至った。
すなわち、請求項1に記載の発明は、時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出方法であって、次の各ステップからなる。
(1)入力手段から、テキストデータを入力する入力ステップ
(2)形態素解析手段により、該テキストデータを形態素解析する形態素解析ステップ
(3)単語計数手段により、形態素又は形態素の組み合わせである形態素群について、時間的情報から所定の期間毎の出現回数を計数する計数ステップ
(4)自己相関関数算出手段により、自己相関関数値を求める自己相関関数値算出ステップ
ここで、自己相関関数値は、次式で求められる。
Figure 2005190384
(k=0,1,2,...,N-1、x(n)は形態素又は形態素群の所定の期間n番目における出現回数、Nは該テキストデータに含まれる所定の期間のサンプル数)
(5)周期性抽出手段により、該自己相関関数のKに係るピークを求め、各ピークにおけるKの周期性から当該形態素又は形態素群の周期性を抽出する周期性抽出ステップ
(6)該形態素又は形態素群をイベント単語とし、該イベント単語とその周期性とを記録手段に格納するイベント単語抽出ステップ
(7)共起単語抽出手段により、該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出ステップ
(8)該イベント単語及びその周期性と、共起単語とを出力するイベント単語群出力ステップ。
また、請求項2に記載の発明では、上記の(5)周期性抽出ステップにおける処理が、
(5−1)周期性仮設定手段により、Kが1以上の時に最初に自己相関関数値がピークとなるときのKの値を求めて仮の周期とする周期性仮設定ステップ
(5−2)周期性判定手段により、該仮の周期を定数倍し、そのときに自己相関関数が近傍におけるピークとなっているか否かを判定し、ピークとなっている場合には該仮の周期を当該形態素又は形態素群の周期性として抽出する周期性判定ステップ
から構成されることを特徴とするものである。
さらに、請求項3に記載の発明では、上記の(2)形態素解析ステップにおける処理が、抽出された形態素のうち、名詞のみを抽出すると共に、連続する名詞は1組の形態素群として抽出することを特徴とするものである。
本発明は上記自己相関関数を用いた周期性の抽出の他に、単語(形態素又は形態素の組み合わせである形態素群と時間表現)の共起性に着目したイベント周期性の抽出方法を提供することができる。
すなわち、請求項4に記載の発明は、時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出方法であって、次の各ステップからなる。
(A)入力手段から、テキストデータを入力する入力ステップ
(B)形態素解析手段により、該テキストデータを形態素解析する形態素解析ステップ
(C)出現文書計数手段により、形態素又は形態素の組み合わせである形態素群、及び所定の時間表現の各々について、テキストデータベース中の出現したテキスト数を計数する出現文書計数ステップ
(D)共起頻度算出手段により、上記形態素又は形態素群と、時間表現との共起頻度を対数尤度比から算出する共起頻度算出ステップ
ここで、対数尤度比は、次式で求められる。
Figure 2005190384
(f(v,w)は単語vと単語wとが同時に出現したテキスト数、f(x)は単語xが出現したテキスト数、Fは全テキスト数)
(E)共起頻度が所定値よりも高い形態素又は形態素群と、時間表現について、該形態素又は形態素群をイベント単語とし、それと共起する時間表現を周期性として記録手段に記録するイベント単語抽出ステップ
(F)共起単語抽出手段により、該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出ステップ
(G)該イベント単語及びその周期性と、共起単語とを出力するイベント単語群出力ステップ
また、請求項5の発明は、上記請求項1ないし4の発明の共起単語抽出ステップにおいて、共起単語抽出手段が、前記イベント単語と、前記テキストデータにおける形態素又は形態素群との補完類似度Scを次式に従って算出し、該補完類似度が所定の閾値以上の時に共起単語として抽出することを特徴とする。
Figure 2005190384
本発明は次のようなイベント周期性の抽出装置としても提供することができる。請求項6の発明によれば、時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出装置であって、テキストデータを入力する入力手段と、該テキストデータを形態素解析する形態素解析手段と、形態素又は形態素の組み合わせである形態素群について、時間的情報から所定の期間毎の出現回数を計数する計数手段と、自己相関関数値を求める自己相関関数値算出手段と、該自己相関関数のKに係るピークを求め、各ピークにおけるKの周期性から当該形態素又は形態素群の周期性を抽出する周期性抽出手段と、該形態素又は形態素群をイベント単語とし、該イベント単語とその周期性とを格納する記録手段と、該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出手段と、該イベント単語及びその周期性と、共起単語とを出力する出力手段とを少なくとも有することを特徴とするイベント周期性の抽出装置を提供する。
また、請求項7に記載の発明では、周期性抽出手段がKが1以上の時に最初に自己相関関数値がピークとなるときのKの値を求めて仮の周期とする周期性仮設定手段と、該仮の周期を定数倍し、そのときに自己相関関数が近傍におけるピークとなっているか否かを判定し、ピークとなっている場合には該仮の周期を当該形態素又は形態素群の周期性として抽出する周期性判定手段と、からなるものである。
さらに、請求項8に記載の発明は、前記形態素解析手段において、抽出された形態素のうち、名詞のみを抽出すると共に、連続する名詞は1組の形態素群として抽出するイベント周期性の抽出装置を提供する。
請求項9に記載の発明は、同様の目的を有するイベント周期性の抽出装置であって、テキストデータを入力する入力手段と、該テキストデータを形態素解析する形態素解析手段と、形態素又は形態素の組み合わせである形態素群、及び所定の時間表現の各々について、テキストデータベース中の出現したテキスト数を計数する出現文書計数手段と、上記形態素又は形態素群と、時間表現との共起頻度を対数尤度比から算出する共起頻度算出手段と、共起頻度が所定値よりも高い形態素又は形態素群と、時間表現について、該形態素又は形態素群をイベント単語とし、それと共起する時間表現を周期性として記録する記録手段と、該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出手段と、該イベント単語及びその周期性と、共起単語とを出力する出力手段とを少なくとも有することを特徴とするイベント周期性の抽出装置を提供するものである。
請求項10に係る発明によると、上記請求項6ないし9の発明における共起単語抽出手段が、前記イベント単語と、前記テキストデータにおける形態素又は形態素群との補完類似度Scを算出し、該補完類似度が所定の閾値以上の時に共起単語として抽出する請求項6ないし9に記載のイベント周期性の抽出装置を提供することができる。
以上の手段により次の効果を奏する。すなわち、本発明の請求項1ないし3に記載の発明よると、イベントと時間的情報において自己相関関数値を利用することにより、簡便な方法で、具体的な周期を得ることができる。従来は時間に関連する単語を手動で辞書に登録する必要があり、時間情報の自動抽出や利用は困難であったが、本発明によりこれを自動化し、コンピュータ上に常識知識を構築することにも寄与する。さらに、共起単語を抽出することにより、イベント単語と共起する単語を抽出することで、イベントと関係した開催日時や開催場所を抽出することや、当該単語だけでは周期性のあるイベント単語として抽出できない単語を抽出することができる。
また、請求項4に記載の発明では、単語の共起性に着目することにより、時間表現とイベントとの関係を抽出することができるため、これによってもイベントの周期性を抽出することができる。
請求項5に記載の発明では、補完類似度を用いることにより、簡便で効果的に共起性のある共起単語を抽出する手法を提供することができる。
同様に、本発明の請求項6ないし8に記載の発明によると、イベントと時間的情報において自己相関関数値を利用することにより、具体的な周期を簡便に出力可能なイベントの周期性抽出装置を提供することができる。
また、請求項9に記載の発明では、単語の共起性に着目することにより、時間表現とイベントとの関係を抽出することができるため、この方法を用いたイベントの周期性抽出装置を提供することができる。請求項10に記載の発明では、補完類似度を用いることにより、簡便で効果的に共起性のある共起単語を抽出する手法を提供することができる。
以下、本発明の最良と考えられる実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
本発明は、一般にイベントが周期的に行われること、またある特定の季節に行われる事が多いため、そのイベントに関連する単語は周期的に出現するあるいは、特定の時期に出現する点に着目し、前者においては時間的情報とイベント情報とを少なくとも含むテキストデータベースから自己相関関数を用いて該イベントの周期性を抽出する方法を、後者においては時間表現とイベント情報の単語の共起性から出現する時期を特定し、その周期性を得る方法を、それぞれ開発している。
本発明の実施形態としては、それぞれの技術を備えた別個の装置として提供することもできるし、両者を1つの装置として実装することも望ましいが、説明の便宜のために別個の装置を実施例として説述する。
本発明は、時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出方法であって、最良の実施例1として図1に示すイベント周期性の抽出装置(1)を提供する。本装置は、公知のパーソナルコンピュータなどによって構成することが可能であり、入力手段(10)、出力手段(11)、ROM・RAMのメモリ(12)、ハードディスクなどの外部記憶装置(13)が、CPU部(20)と協働しながら作用している。
本発明ではイベントの周期性を抽出するために、時間的情報とイベント情報を含むテキストデータベース(2)が必要である。ここで該テキストデータベース(2)には、周期性を抽出する対象のイベントに関わる情報を含んだ複数のテキストと共に、それぞれのテキストについての時間的情報を含む必要がある。
時間的情報とは、当該テキストの発行日や更新日などそのテキスト内容と密接な関わりを有する情報である。特に長期の周期性を抽出するためには少なくとも該周期を複数含むだけの期間分についてテキストデータベースが必要である。
該テキストデータベース(2)としては、例えば新聞11年分の記事を利用することが考えられるが、今後のインターネットにおける情報の拡充によってインターネットで流通するテキストデータを該データベース(2)として利用することは十分に考えられる。新聞記事の場合にはすべての発行日を時間的情報としてそのまま利用することができ、Web上のテキストデータの場合には、該テキスト上に記載された発行日や更新日の情報だけでなく、該テキストのファイルの記録情報を参照することもできる。
入力手段(10)としては、本装置(1)に該テキストデータベース(2)を取り込むことができればいかなる装置でもよく、例えば新聞記事データがCD−ROMに記録されている場合には、CD−ROMドライブを用いて読み出すことができる。インターネットから収集する場合には、該入力手段(10)はネットワークアダプタで構成し、ネット上からの情報をCPU部(20)に伝達する。
以下、新聞記事データを用いた場合で説述する。入力された新聞記事データは、CPU部(20)の形態素解析部(21)において形態素解析処理される。形態素解析については公知の技術を用いることができ、例えば非特許文献6に示される「茶筌」を利用する。
形態素解析の際、連続する名詞は1単語として登録すること、数詞のみの名詞は削除するなど、「茶筌」の結果を一部変更して解析結果とした。
松本裕治、北内啓、山下達雄、平野善隆、松田寛、高岡一馬、浅原正幸"日本語形態素解析システム 茶筌 Version2.2.9 使用説明書"、(2002)
形態素解析により、新聞記事データから発行日情報と名詞(及び連続した名詞で成る1単語、以下名詞も含めて単語と呼ぶ。)を抽出する。抽出された発行日情報及び名詞の組は外部記憶装置上に一時的に記録する。発行日情報に関しては、予め所定のフォーマットで新聞記事データ中にある場合にはフォーマットに従って抽出することができる。また、「発行」などの形態素の前後にある日時などを手がかりに抽出してもよい。
そして、単語計数部(22)において、各名詞について、所定の期間毎に出現回数を計数する。所定の期間としては、1年、1月、1週間、1日など任意に定めることができる。
例えば、名詞の出現頻度を大まかな周期性を見るために月毎に算出した。その例を表1に示す。
京都−山鉾巡行の出現頻度
Figure 2005190384
表1において、「山鉾巡行」は、京都で行われる祇園祭の中心的イベントであり、抽出すべき観光イベント単語である。一方、「京都」は観光地ではあるが、イベント単語ではない。
このような出現頻度データを利用し、時間軸(発行日)に対して特徴的な単語を次の自己相関関数算出部(23)の処理を経て抽出する。
なお、11年分の記事から抽出した名詞のうち、11年間の出現数が11回以下(1年に1回以下)の単語は単語計数部(22)から自己相関関数部(23)に引き継がずに削除する。
本発明において最初に注目したように、「山鉾巡行」などのように毎年決まった時期に行われるイベントは、新聞記事でも周期的に現れる可能性がある。単語の出現頻度の周期性を抽出する実験を行った。周期性の検出には、各単語について、11年分132ヵ月分の出現頻度(表1)を入力とし、自己相関関数を利用した。自己相関関数R(k)は、従来から信号の周期の検出に用いられてきた関数であり、例えば非特許文献7に開示されている。
江原義郎、"ユーザズデジタル信号処理"、東京電機大学出版局
自己相関関数算出部(23)では次の数1に従って、自己相関関数値を算出する。
Figure 2005190384
図2は、「京都」及び「山鉾巡行」の自己相関関数値を算出した結果である。なお、グラフは、R(k)の値をR(0)=500となるようにして表示している。図2からわかるように「山鉾巡行」のようなイベント単語は12ヵ月ごとの周期性が見て取れる。それに対して、それぞれのイベントが行われる「京都」の単語は、周期性が全くない。すなわち、本発明が着目しているように、本方法によりイベント単語が有効に抽出できることが分かる。
実際の周期性抽出は、図2のグラフから公知の手法によってピーク値を得てその周期を決定することができるが、例えば本実施例1ではCPU部(20)の周期性抽出部(24)において図3のようにして行う。
すなわち、周期性抽出部(20)内の周期性仮設定部(24a)で、ある単語の自己相関関数の結果において、kが1以上の時のR(k)の最大値を取り、その時のkの値をその単語の仮の周期とする。
さらに、周期性判定部(24b)で、その仮の周期を定数倍した時の自己相関関数の値がピーク値であるか否かを判定する。この際、例えば前後のR(k)の値を走査して変化を調べ、所定の期間の直前直後(例えば一月前、一月後
)だけでなく、ある程度期間をおいた時(例えば三月前、三月後)に大きくR(k)が減少していることでピークか否かを判定してもよい。
ピークであれば、上記の仮の周期を採用して、単語とその周期を抽出する。
以上の処理により、図4に示すようにイベント単語及びその周期性が得られる。該結果において、例えば「ASEAN外相会議」は12ヶ月周期で現れるイベント単語であることが示されている。
さらに、本発明ではCPU部(20)における共起単語抽出部(25)において、テキストデータベース(2)中の抽出されたイベント単語と共起する単語を抽出する。該共起単語抽出部により、周期性のあるイベント単語を軸として、複数の共起する単語との一対多の関係を推定し、その開催日時や開催場所の単語、さらにはその単語単体では周期性を抽出できなかったイベント単語を抽出することを可能にした。
共起単語の抽出方法は、公知の言語処理技術により任意の方法を用いることができるが、本発明では、特に好適な方法として補完類似度を算出し、該補完類似度が所定の閾値以上のものを共起単語として抽出する。
補完類似度は、従来から文字認識の分野で用いられており、劣化印刷文字を高い精度で認識できるように考案された類似度である。補完類似度を用いた文字認識方法は、補完類似度法と呼ばれ、文字を2値化画像特徴として扱い、補完類似度を用いて、そのパターンとテンプレートとする文字のパターンとの類似度を計算し、文字を認識する方法であり、認識精度の高さが知られている。
補完類似度は、2つの事物ベクトルF=f1,f2,・・・fn(fi=0又は1)、T=t1,t2,・・・tn(ti=0又は1)としたときの両者の類似度を測るものであり数2で表される。本発明において、事物ベクトルは、テキストデータベースにおける、同一文章、同一段落、同一記事といった共起性を判断するテキスト単位内において、上記で抽出されたイベント単語が1〜nのテキスト単位に出現するか否かを事物ベクトルFに表すことで適用する。そして、共起性を判断する対象となる形態素又は形態素群についても同様に、1〜nのテキスト単位に出現するか否かを事物ベクトルTに表す。
Figure 2005190384
ここで、パラメータaはイベント単語と、判断対象の単語とが同時に現れるテキスト単位数、bは前者が現れ後者が現れないテキスト単位数、cは後者が現れ、前者は現れないテキスト単位数、dは両者とも現れないテキスト単位数となる。本発明ではテキスト単位を記事としたので、上記テキスト単位数は記事数に相当する。また、明らかなように、a+b+c+dの合計は全テキスト単位数nとなる。
共起単語抽出部(25)において、周期性抽出部(24)で抽出されたイベント単語と、上記形態素解析部(21)で得られた単語の補完類似度を算出する。ここで、テキスト単位やテキストデータベースに含まれる単語の多様性などに応じて予め所定の閾値を設定し、該閾値よりも補完類似度が高い単語を共起単語として抽出する。
最後に、上記で得られたイベント単語と、その周期性、さらに共起単語抽出部(25)で抽出された単語を出力手段(11)より出力する。出力手段(11)としてはモニタなどでの画面表示や、外部記憶装置で構成して保存するようにしてもよい。また本発明は、上述したような観光ルートの検索を支援するために、得られた周期性情報を他の検索サーバー等に送出するようにしてもよく、この場合出力手段(11)としてネットワークアダプタを用いることもできる。
なお、本実施例1の実験結果によると、出現数が11回以上あり、各年に必ず出現しているとして抽出された名詞群10万3千語のうち、周期性のある単語として抽出されたものは約1万5千語あった。その中には、12ヵ月ごとに「お盆休み」「びわ湖毎日マラソン」「日本シリーズ」や48ヵ月ごとに「W杯出場」などがある。さらに、所定の期間を1ヶ月として抽出するだけでなく、同時に1週間の場合、1日の場合などで上記処理を繰り返すことにより、週間単位の周期性を有するイベント、例えば2週間毎に開催されるイベントや、日単位の周期性を有するイベント、例えば3日毎や、毎週月・水曜日などといったイベントを抽出することもできる。
また、共起単語抽出部の作用は、例えばイベント単語として「山鉾巡行」が抽出されたとき、これとの補完類似度の高い共起単語として、「長刀鉾」「先頭」「囃子」「コンチキチン」などが抽出された。これらはイベント単語の説明となる単語であり、上記のように他の検索サーバーに送出する構成では、該イベント単語をより正確に特定することに寄与する。さらに、交通規制に関する単語、開催日を示す語などを抽出することもできる。
本発明の最良と考えられる実施形態の1つとして、実施例2を説述する。実施例2では上記自己相関関数を用いた周期性の抽出の他に、単語(形態素又は形態素の組み合わせである形態素群と時間表現)の共起性に着目したイベント周期性の抽出方法を提供する。該方法を用いたイベント周期性の抽出装置(3)を図5に示す。
イベント情報には、開催地、開催日が含まれるため、1月、2月などの単語と共起して現れる可能性がある点に本発明は着目している。また、イベントの名称には、「春期大会」などと、季節単語を利用したものが多く見られるため、季節単語とも共起して現れる可能性がある。
そこで本発明は、各月(1月、2月、3月などの単語)や、春夏秋冬の4つの季節単語等の時間表現単語の共起頻度の高いイベント単語を抽出し、その周期性と共に出力するものである。
本装置(3)は、上述した装置(1)と構成を共通にしている部分が多く、同一の構成である箇所は同一の符号を用いて指示し、説明は省略する。
テキストデータベース(2)として、新聞11年分の記事を利用し、入力手段(10)から入力した後、形態素解析部(21)において形態素解析を行う。ここで形態素解析を行う際に、本実施例だけの場合には発行日情報を抽出する必要はなく、名詞及び連続した名詞で成る1単語(以下名詞も含めて単語と呼ぶ。)を抽出すれば良い。
抽出された単語を外部記憶装置(13)上に一時的に記録する。そして、出現文書計数部(31)の処理に移る。出現文書計数部(31)では、上記で解析された単語と、所定の時間表現の各々について、テキストデータベース中の出現したテキスト数を計数する。所定の時間表現は、「1月」「2月」「3月」・・などの単語や、「春」「夏」「秋」「冬」など時間、日付、季節などを表す表現を外部記憶装置(13)上に予め蓄積したデータベース(13a)である。
時間表現としては、その他、「月曜日」「火曜日」・・などの曜日や、「大安」「先勝」などの六曜、「文化の日」などの祝日名称など、時間と関連した表現であればどのような表現でも良い。
出現文書計数部(31)では、各単語が出現したテキストの数、各単語と各時間表現単語が同時に出現したテキストの数を、全ての組合せについて計数する。この結果は外部記憶装置(13)に一時記録する。
さらに、本発明の要部である共起頻度算出部(32)において、共起頻度を算出する。
共起頻度は、非特許文献8に開示される公知の対数尤度比の大きいものとした。単語υと単語wの対数尤度比λとは,υとwの2単語が従属とした場合と独立とした場合との最尤推定量による尤度比であり、数3で表される。
Figure 2005190384
ただし、f(υ、w)を単語υとwが同時に出現した文書数f(x)を単語xが出演した文書数、Fを全文書数とする。
T.E.Dunning,"Accurate methods for the statistics of surprise and coincidence",Computational Linguistics,19(1),pp.61−74(1993)
非特許文献9に開示されているように、2単語が従属している度合が強いほど対数尤度比は大きい値を取る。ここで所定の閾値を設定しておき、共起頻度がそれよりも高い単語をイベント単語とし、上述した共起単語抽出部(25)において共起単語を抽出する。
最後に、イベント単語と時間表現単語の組合せ、及び共起単語を出力手段(11)から出力する。このように時間表現単語と共起頻度が高い単語はイベントとして出力することができる。
本実施例2における実験結果の一部を表2に示す。
Figure 2005190384
なお実施例2において、例えば時間表現単語「1月」とイベント単語「大相撲初場所」が共起し、出力されるが、これは「大相撲初場所」が毎年1月に1年の周期性を有していることを意味するので、上記実施例1における方法と統合して結果を利用することができる。このために、共起頻度算出部(32)において、「1月」「大相撲初場所」が算出された際に、1年(12ヶ月)の周期であること付加して出力手段(11)から出力してもよい。
以上、本発明では、観光イベントが周期的に行われること、またある特定の季節に行われる事が多いため、そのイベントに関連する単語は周期的に出現するあるいは、特定の時期に出現すると考えた。つまり、日々更新されるテキストデータから周期的に現れる単語を抽出すれば、イベントに関係する単語を抽出できる可能性がある。さらに、その単語の具体的に出現する日時(テキストの持つ発行日など)を抽出できれば、上記非特許文献5の研究における、時間情報のうち、時点と周期時間を自動抽出するための規則化が可能である。
周期性のあるイベント情報とイベントの行われる時期が抽出できれば、ユーザがシステムを利用している時を基準時点とし、その基準時点と比較を行うことで、将来行われるイベントを推測することも可能となる。この推測により観光コースの推薦が可能となると考える。もちろん、観光イベントには、周期性のないものも存在するが、ここでは、周期性のあるイベント単語を抽出することを目標とした。
さらに、イベント情報には、そのイベントが行われる日付や季節(「冬期オリンピック」や「春季大会」)が共起して現れる場合があると考え、各月(1月,2月といった単語)や季節単語(春、夏、秋、冬)との共起性についても調査し、より正確にイベント単語を抽出することを目指したものである。
本発明の結果として、周期性のある単語の抽出実験においては、興味深い単語が抽出できた。特に、有名な観光イベント単語(だんじり祭、山鉾巡行など)だけでなく、観光日的として曖昧に利用されやすい単語(山開き、桜開花、キンモクセイなどの花の名前など)も抽出できており、イベント単語抽出の一条件として利用できると考える。また、出現頻度の大小にかかわらず、周期性のある単語が抽出できることが分かった。
イベント単語の周期については、自己相関関数を利用する事で、現在は月単位ではあるが、12ヵ月ごとなど、具体的な数値を得る事ができた。しかし、周期性のある単語すべてが、イベント単語ではないので、上述したように他の期間を設定してより詳細な周期性を算出することが好ましい。
共起性のある単語については、季節単語(春、夏、秋、冬)よりも、月単語との共起性がより好ましい周期性の出力結果が得られたが、本発明を用いる際の要求されるイベント等に応じてこれらは適宜設定すべきである。
本実施例では、名詞だけに着目してイベント情報の抽出を試みたが、例えば、「鹿の角切り」や「桜の通り抜け」のような「〜の」による修飾を受けて、ある固有のイベントとして表記されるものや、「食べる会」「歩く会」のように動詞+名詞の組み合わせを利用した言葉を利用したものも含めて形態素解析により抽出してもよい。
本発明の第1の実施例におけるイベント周期性の抽出装置のブロック図である。 自己相関関数値を算出した結果のグラフである。 自己相関関数値から周期性を判定する処理のフローチャートである。 第1の実施例に係る出力結果の例である。 本発明の第2の実施例におけるイベント周期性の抽出装置のブロック図である。
符号の説明
1 イベント周期性の抽出装置
2 テキストデータベース
10 入力手段
11 出力手段
12 メモリ
13 外部記憶装置
20 CPU部
21 形態素解析部
22 単語計数部
23 自己相関関数算出部
24 周期性抽出部

Claims (10)

  1. 時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出方法であって、
    入力手段から、テキストデータを入力する入力ステップ、
    形態素解析手段により、該テキストデータを形態素解析する形態素解析ステップ、
    単語計数手段により、形態素又は形態素の組み合わせである形態素群について、時間的情報から所定の期間毎の出現回数を計数する計数ステップ、
    自己相関関数算出手段により、次式に基づく自己相関関数値を求める自己相関関数値算出ステップ、
    Figure 2005190384
    (k=0,1,2,...,N-1、x(n)は形態素又は形態素群の所定の期間n番目における出現回数、Nは該テキストデータに含まれる所定の期間のサンプル数)
    周期性抽出手段により、該自己相関関数のKに係るピークを求め、各ピークにおけるKの周期性から当該形態素又は形態素群の周期性を抽出する周期性抽出ステップ、
    該形態素又は形態素群をイベント単語とし、該イベント単語とその周期性とを記録手段に格納するイベント単語抽出ステップ、
    共起単語抽出手段により、該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出ステップ、
    該イベント単語及びその周期性と、共起単語とを出力するイベント単語群出力ステップ
    からなることを特徴とするイベント周期性の抽出方法。
  2. 前記周期性抽出ステップにおいて、
    周期性仮設定手段により、Kが1以上の時に最初に自己相関関数値がピークとなるときのKの値を求めて仮の周期とする周期性仮設定ステップ、
    周期性判定手段により、該仮の周期を定数倍し、そのときに自己相関関数が近傍におけるピークとなっているか否かを判定し、ピークとなっている場合には該仮の周期を当該形態素又は形態素群の周期性として抽出する周期性判定ステップ
    を有する請求項1に記載のイベント周期性の抽出方法。
  3. 前記形態素解析ステップにおいて、
    抽出された形態素のうち、名詞のみを抽出すると共に、連続する名詞は1組の形態素群として抽出する
    請求項1又は2に記載のイベントの周期性の抽出方法。
  4. 時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出方法であって、
    入力手段から、テキストデータを入力する入力ステップ、
    形態素解析手段により、該テキストデータを形態素解析する形態素解析ステップ、
    出現文書計数手段により、形態素又は形態素の組み合わせである形態素群、及び所定の時間表現の各々について、テキストデータベース中の出現したテキスト数を計数する出現文書計数ステップ、
    共起頻度算出手段により、上記形態素又は形態素群と、時間表現との共起頻度を次式に基づく対数尤度比から算出する共起頻度算出ステップ
    Figure 2005190384
    (f(v,w)は単語vと単語wとが同時に出現したテキスト数、f(x)は単語xが出現したテキスト数、Fは全テキスト数)
    共起頻度が所定値よりも高い形態素又は形態素群と、時間表現について、該形態素又は形態素群をイベント単語とし、それと共起する時間表現を周期性として記録手段に記録するイベント単語抽出ステップ、
    共起単語抽出手段により、該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出ステップ、
    該イベント単語及びその周期性と、共起単語とを出力するイベント単語群出力ステップ
    からなることを特徴とするイベント周期性の抽出方法。
  5. 前記共起単語抽出ステップにおいて、
    共起単語抽出手段が、前記イベント単語と、前記テキストデータにおける形態素又は形態素群との補完類似度Scを次式に従って算出し、該補完類似度が所定の閾値以上の時に共起単語として抽出する請求項1ないし4に記載のイベント周期性の抽出方法。
    Figure 2005190384
  6. 時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出装置であって、
    テキストデータを入力する入力手段と、
    該テキストデータを形態素解析する形態素解析手段と、
    形態素又は形態素の組み合わせである形態素群について、時間的情報から所定の期間毎の出現回数を計数する計数手段と、
    次式に基づく自己相関関数値を求める自己相関関数値算出手段と、
    Figure 2005190384
    (k=0,1,2,...,N-1、x(n)は形態素又は形態素群の所定の期間n番目における出現回数、Nは該テキストデータに含まれる所定の期間のサンプル数)
    該自己相関関数のKに係るピークを求め、各ピークにおけるKの周期性から当該形態素又は形態素群の周期性を抽出する周期性抽出手段と、
    該形態素又は形態素群をイベント単語とし、該イベント単語とその周期性とを格納する記録手段と、
    該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出手段と、
    該イベント単語及びその周期性と、共起単語とを出力する出力手段と、
    を少なくとも有することを特徴とするイベント周期性の抽出装置。
  7. 前記周期性抽出手段が、
    Kが1以上の時に最初に自己相関関数値がピークとなるときのKの値を求めて仮の周期とする周期性仮設定手段と、
    該仮の周期を定数倍し、そのときに自己相関関数が近傍におけるピークとなっているか否かを判定し、ピークとなっている場合には該仮の周期を当該形態素又は形態素群の周期性として抽出する周期性判定手段と、
    からなる請求項4に記載のイベント周期性の抽出装置。
  8. 前記形態素解析手段において、
    抽出された形態素のうち、名詞のみを抽出すると共に、連続する名詞は1組の形態素群として抽出する
    請求項4又は5に記載のイベントの周期性の抽出装置。
  9. 時間的情報とイベント情報とを少なくとも含むテキストデータベースから該イベントの周期性を抽出するイベント周期性の抽出装置であって、
    テキストデータを入力する入力手段と、
    該テキストデータを形態素解析する形態素解析手段と、
    形態素又は形態素の組み合わせである形態素群、及び所定の時間表現の各々について、テキストデータベース中の出現したテキスト数を計数する出現文書計数手段と、
    上記形態素又は形態素群と、時間表現との共起頻度を次式に基づく対数尤度比から算出する共起頻度算出手段と、
    Figure 2005190384
    (f(v,w)は単語vと単語wとが同時に出現したテキスト数、f(x)は単語xが出現したテキスト数、Fは全テキスト数)
    共起頻度が所定値よりも高い形態素又は形態素群と、時間表現について、該形態素又は形態素群をイベント単語とし、それと共起する時間表現を周期性として記録する記録手段と、
    該テキストデータにおいて該イベント単語と共起する形態素又は形態素群を抽出する共起単語抽出手段と、
    該イベント単語及びその周期性と、共起単語とを出力する出力手段と
    を少なくとも有することを特徴とするイベント周期性の抽出装置。
  10. 共起単語抽出手段が、前記イベント単語と、前記テキストデータにおける形態素又は形態素群との補完類似度Scを次式に従って算出し、該補完類似度が所定の閾値以上の時に共起単語として抽出する請求項6ないし9に記載のイベント周期性の抽出装置。
    Figure 2005190384
JP2003433840A 2003-12-26 2003-12-26 イベント周期性の抽出方法及び装置 Pending JP2005190384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003433840A JP2005190384A (ja) 2003-12-26 2003-12-26 イベント周期性の抽出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003433840A JP2005190384A (ja) 2003-12-26 2003-12-26 イベント周期性の抽出方法及び装置

Publications (1)

Publication Number Publication Date
JP2005190384A true JP2005190384A (ja) 2005-07-14

Family

ID=34791103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003433840A Pending JP2005190384A (ja) 2003-12-26 2003-12-26 イベント周期性の抽出方法及び装置

Country Status (1)

Country Link
JP (1) JP2005190384A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009104296A (ja) * 2007-10-22 2009-05-14 Nippon Telegr & Teleph Corp <Ntt> 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2011086152A (ja) * 2009-10-16 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
JP5067556B2 (ja) * 2005-09-30 2012-11-07 日本電気株式会社 トレンド評価装置と、その方法及びプログラム
JP2013178607A (ja) * 2012-02-28 2013-09-09 Kddi Corp ユーザの行動文から結果イベントを予測する予測プログラム、予測装置及び方法
JP6476395B1 (ja) * 2018-01-22 2019-03-06 データ・サイエンティスト株式会社 検索語の評価装置、評価システム、及び評価方法
JP7083186B2 (ja) 2020-12-22 2022-06-10 株式会社ユピテル 運転支援システム、情報生成方法、運転支援プログラム、及び生成プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5067556B2 (ja) * 2005-09-30 2012-11-07 日本電気株式会社 トレンド評価装置と、その方法及びプログラム
JP2009104296A (ja) * 2007-10-22 2009-05-14 Nippon Telegr & Teleph Corp <Ntt> 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2011086152A (ja) * 2009-10-16 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
JP2013178607A (ja) * 2012-02-28 2013-09-09 Kddi Corp ユーザの行動文から結果イベントを予測する予測プログラム、予測装置及び方法
JP6476395B1 (ja) * 2018-01-22 2019-03-06 データ・サイエンティスト株式会社 検索語の評価装置、評価システム、及び評価方法
JP2019128622A (ja) * 2018-01-22 2019-08-01 データ・サイエンティスト株式会社 検索語の評価装置、評価システム、及び評価方法
JP7083186B2 (ja) 2020-12-22 2022-06-10 株式会社ユピテル 運転支援システム、情報生成方法、運転支援プログラム、及び生成プログラム

Similar Documents

Publication Publication Date Title
US8886661B2 (en) Information extraction system, information extraction method, information extraction program, and information service system
CN100547593C (zh) 在web爬取过程期间给网站排优先级的***和方法
EP2521044A1 (en) Information recommendation method
CN105426514A (zh) 个性化的移动应用app推荐方法
CN101313330A (zh) 选择用于显示的高质量评论
EP1616276A2 (en) System and method for navigating through websites and like information sources
CN113505264A (zh) 用于推荐视频的方法及***
JP4875911B2 (ja) コンテンツ特定方法及び装置
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
Adhinugroho et al. Development of online travel Web scraping for tourism statistics in Indonesia
JPH11224256A (ja) 情報検索方法および情報検索プログラムを記録した記録媒体
CN109308338B (zh) 一种搜索应用程序内信息、显示的方法及设备
Althammer et al. TripJudge: A relevance judgement test collection for TripClick health retrieval
JP2005190384A (ja) イベント周期性の抽出方法及び装置
Cassidy Publishing the trove newspaper corpus
JP4496900B2 (ja) イベント情報抽出装置及びプログラム
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP2004227343A (ja) 意見分析方法、意見分析装置、および意見分析プログラム
KR101132431B1 (ko) 관심 정보 제공 시스템 및 방법
JP6960553B2 (ja) ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム
JP4462014B2 (ja) 話題語結合方法及び装置及びプログラム
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム
JP4977004B2 (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060615

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060811

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061128