JP2018092367A - 関連語抽出装置及びプログラム - Google Patents

関連語抽出装置及びプログラム Download PDF

Info

Publication number
JP2018092367A
JP2018092367A JP2016235181A JP2016235181A JP2018092367A JP 2018092367 A JP2018092367 A JP 2018092367A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2018092367 A JP2018092367 A JP 2018092367A
Authority
JP
Japan
Prior art keywords
time
content
text
unit
related word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016235181A
Other languages
English (en)
Inventor
菊佳 三浦
Kikuka Miura
菊佳 三浦
住吉 英樹
Hideki Sumiyoshi
英樹 住吉
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
後藤 淳
Atsushi Goto
淳 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016235181A priority Critical patent/JP2018092367A/ja
Publication of JP2018092367A publication Critical patent/JP2018092367A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】共起や概念辞書によらずに関連語を抽出する。【解決手段】関連語抽出装置10の時系列テキスト記憶部122は、時刻情報と対応付けられたテキストデータである時系列テキストを記憶し、時系列頻度抽出部124は、時系列テキストに含まれる各文字列の時系列の出現頻度を抽出する。相関値算出部125は、異なる文字列の間の因果関係の強さを定量的に表す値である相関値を、それら異なる文字列のそれぞれについて時系列頻度抽出部124が抽出した時系列の出現頻度を用いて算出し、算出された相関値に基づいてそれら異なる文字列が関連するか否かを判定する。出力部13は、キーワードの文字列に関連すると相関値算出部125により判定された他の文字列を関連語として出力する。【選択図】図1

Description

本発明は、関連語抽出装置及びプログラムに関する。
これまでの一般的な関連語提示技術では、語の共起を元にした指標を用いてある語の関連語を算出していた(例えば、特許文献1参照)。このような語の共起を元にした関連語提示技術には、dice係数、ニューラルネットを用いたword2vecなどもある。この関連語提示技術では、同一文書内に互いの語が出現しないと、指標により表される関連度が高くならない。
一方、概念辞書を用いた関連語提示技術がある(例えば、特許文献2参照)。この関連語提示技術では、予め概念辞書を用意する必要がある。既存の概念辞書には、上位下位関係、因果関係など、なんらかの既知の関係がある語が列挙される。
特許第3598211号公報 特開2015−130111号公報
共起を元にした関連語提示技術では、似た意味の語が関連語として提示されることが多い傾向にある。しかし、実際には「プール」と「朝顔」は意味も分野も違うが、毎年夏に特徴的な語であり、同様に「鏡餅」と「こたつ」は冬に特徴的な語であることから、これらの語の間には関連性があると思われる。共起を元にした関連語提示技術では、同一文書内にこれらの単語同士が出現していないと、関連語として得られなかった。また、このような2語の間には明示的な関係が表現できないものも多く、既存の概念辞書に含まれにくいため、概念辞書を用いた関連語提示技術でも関連語として得られなかった。
時系列を考慮したトピックを基に単語の生起確率を求めるモデルとして、DTM(Dynamic Topic Model)がある。しかし、DTMは、毎年のこの時期、といった周期には対応していないため、離散フーリエ変換などを用いて周期性を特定する必要があった。また、ある語が常に同じ周期で出現するとは限らない。例えば、ある事件が起こり、それ以降は、その事件が起こった時期になると出現が多くなる語や、ある時点で話題の流行が終わり、出現しなくなる語もある。
本発明は、このような事情を考慮してなされたもので、語の共起や概念辞書によらずに関連語を抽出することができる関連語抽出装置及びプログラムを提供する。
本発明の一態様は、テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、所定のキーワードを入力する入力部と、時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、を備えることを特徴する関連語抽出装置である。
この発明によれば、関連語抽出装置は、時刻情報と対応付けられたテキストデータである時系列テキストを参照し、各文字列の時系列の出現頻度を算出する。関連語抽出装置は、算出した時系列の出現頻度を用いて文字列間に因果関係があるか否かを判定し、キーワードと因果関係があると判定した文字列を関連語として出力する。
これより、関連語抽出装置は、語の共起や概念辞書を用いることなく、キーワードと時期を同じくして話題となる語や、キーワードに関する事象と因果関係がある事象に関する語を関連語として提示することができる。
本発明の一態様は、上述する関連語抽出装置であって、コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、前記出力部は、前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、ことを特徴とする。
この発明によれば、関連語抽出装置は、キーワードの関連語を用いてコンテンツを検索し、検索により特定されたコンテンツの情報をユーザに提示する。
本実施形態によれば、関連語抽出装置は、キーワードに関連したコンテンツをユーザに提示することができる。
本発明の一態様は、上述する関連語抽出装置であって、前記記憶部は、インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第1の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第2の時系列テキストとを記憶し、当該関連語抽出装置は、前記第1の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、前記時系列頻度抽出部は、前記第1の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第2の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、前記相関値算出部は、前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、前記出力部は、前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第2の時系列テキストにより特定される前記コンテンツの情報を出力する。
この発明によれば、関連語抽出装置は、インターネットで話題となっている語をキーワードとして抽出し、そのキーワードのインターネット上での時系列の出現頻度と、コンテンツに関する情報から得られた各文字列の時系列の出現頻度とを用いて、コンテンツに関する情報からキーワードの関連語を取得する。関連語抽出装置は、取得した関連語を用いてコンテンツを検索し、関連語により示されるコンテンツのテーマと、その関連語が得られた時系列テキストにより特定されるコンテンツの情報を、ユーザに提示する。
これにより、関連語抽出装置は、インターネット上で話題となっている事象に関連するコンテンツと、そのコンテンツのテーマとをユーザに提示することができる。
本発明の一態様は、コンピュータを、上述したいずれかの関連語抽出装置として機能させるためのプログラムである。
本発明によれば、語の共起や概念辞書によらずに関連語を抽出することができる。
本発明の第1の実施形態による関連語抽出装置の構成を示す機能ブロック図である。 同実施形態による時系列文字列テーブルの例を示す図である。 同実施形態による関連語テーブルの例を示す図である。 同実施形態による関連語抽出装置の動作を示すフローチャートである。 同実施形態による時系列頻度抽出部の時系列文字列テーブル作成処理を示すフローチャートである。 2つの文字列の時系列の頻度の例を表す図である。 第2の実施形態による関連語抽出装置の構成を示す機能ブロック図である。 同実施形態による関連語抽出装置の動作を示すフローチャートである。 第3の実施形態による関連語抽出装置の構成を示す機能ブロック図である。 第4の実施形態による関連語抽出装置の構成を示す機能ブロック図である。 第5の実施形態による関連語抽出装置の構成を示す機能ブロック図である。 同実施形態による関連語抽出装置の動作を示すフローチャートである。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
[第1の実施形態]
本実施形態では、ユーザが指定したキーワードの関連語を抽出する。
図1は、第1の実施形態による関連語抽出装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。関連語抽出装置10は、入力部11と、関連語抽出部12と、出力部13とを備え、関連語抽出部12は、時系列テキスト記憶部122と時系列文字列テーブル記憶部123とを備える。
関連語抽出装置10は、時刻情報と対応付けられたテキストデータである時系列テキストを記憶し、時系列テキストに含まれる各文字列の時系列の出現頻度を抽出する。そして、関連語抽出装置10は、異なる文字列の間の因果関係の強さを定量的に表す値である相関値を、それら異なる文字列のそれぞれについて時系列の出現頻度を用いて算出し、算出された相関値に基づいてそれら異なる文字列が関連するか否かを判定し、関連すると判定された異なる文字列同士を関連語とする。関連語抽出装置10は、所定のキーワードが入力されると、そのキーワードの文字列に関連すると判定された他の文字列を関連語として出力する。
入力部11は、例えば、ネットワークを介して接続される端末からキーワードなどの入力データを受信する。入力部11は、関連語抽出装置10が備えるキーボードなどの入力装置から入力データを受信してもよく、コンピュータ読み取り可能な記憶媒体から入力データを読み出してもよい。
関連語抽出部12は、入力部11が入力を受けたキーワードの関連語を抽出する。関連語抽出部12は、記憶部121と、時系列頻度抽出部124と、相関値算出部125とを備える。
記憶部121は、時系列テキスト記憶部122と、時系列文字列テーブル記憶部123とを備え、各種データを記憶する。なお、関連語抽出装置10とネットワークを介して接続されるサーバ装置などに時系列テキスト記憶部122を備えてもよい。
時系列テキスト記憶部122は、時刻情報と対応付けられたテキストデータを含む文書データである時系列テキストを記憶する。時系列テキストは、例えば、ニュース記事、ウェブテキスト、番組字幕、電子番組表(EPG:Electronic Program Guide)などを含む。例えば、時系列テキストがニュース記事である場合には、テキストデータはニュース記事の内容を含み、時刻情報はニュース記事の内容に含まれる日時の情報、あるいは、ニュース記事の作成日時又は公開日時を含む。また、時系列テキストが、インターネット上のウェブで公開したブログである場合には、テキストデータはブログの投稿内容の文章を含み、時刻情報は、ブログの投稿日時又は公開日時を含む。さらに、時系列テキストが番組字幕の場合には、テキストデータは字幕の内容を含み、時刻情報は、番組の放送開始日時または、字幕の提示時刻としてもよい。また、時系列テキストが電子番組表の場合には、テキストデータは番組名、番組のサブタイトル、番組概要などを含み、時刻情報は番組の放送開始日時を含む。
時系列文字列テーブル記憶部123は、各文字列の時系列の出現頻度(以下、単に「頻度」ともいう。)を示すデータである時系列文字列テーブルを記憶する。頻度は、文字列が出現した時系列テキストの数としてもよく、全時系列テキストにおいて文字列が出現した数としてもよい。いずれを頻度とするかを、ユーザが設定してもよい。
時系列頻度抽出部124は、時系列テキスト記憶部122に記憶される時系列テキストから各文字列の時系列の頻度を算出し、時系列文字列テーブルを作成する。
相関値算出部125は、時系列文字列テーブルが示す各文字列の時系列の頻度に基づいて、文字列同士の相関値を算出する相関値算出処理を行う。ここで、相関値は、文字列間の因果関係の強さを定量的に表す値である。
相関値算出部125は、算出された相関値に基づいて一定以上の相関があると判断した文字列同士を対応づけた関連語テーブルを生成する。相関値算出部125は、入力されたキーワードの関連語を関連語テーブルから抽出する。
出力部13は、ネットワークを介して接続される端末へ相関値算出部125が抽出した関連語などのデータを送信し、表示させる。なお、出力部13は、関連語抽出装置10が備えるディスプレイなどの表示装置に出力データを表示してもよく、コンピュータ読取可能な記憶媒体へ出力データを書き込んでもよい。
図2は、時系列文字列テーブルの例を示す図である。同図に示す時系列文字列テーブルは、n個(nは2以上)の異なる文字列W1、W2、…、Wnの頻度を、2016年1月1日から1日単位で示している。
図3は、関連語テーブルの例を示す図である。関連語テーブルは、文字列と、その文字列に関連する他の文字列である関連語とを対応付けたデータである。文字列及び関連語は、時系列テキスト記憶部122が記憶する時系列テキストに出現する文字列である。
<関連語抽出装置10の動作>
続いて、関連語抽出装置10の動作を説明する。
図4は、関連語抽出装置10の動作を示すフローチャートである。
まず、ステップS105において、関連語抽出装置10の入力部11は、キーワードの入力を受ける。例えば、関連語抽出装置10の入力部11は、ユーザが入力したキーワードを端末から受信し、関連語抽出部12に出力する。
ステップS110において、関連語抽出部12の時系列頻度抽出部124は、図5に示す時系列文字列テーブル作成処理を行う。
図5は、時系列頻度抽出部124の時系列文字列テーブル作成処理を示すフローチャートである。
ステップS205において、時系列頻度抽出部124は、時系列テキスト記憶部122に記憶される時系列テキストのうち、未選択の一つを選択して読み出す。
ステップS210において、時系列頻度抽出部124は、選択した時系列テキストから時刻情報を取得する。
ステップS215において、時系列頻度抽出部124は、取得した時刻情報と対応付けて時系列テキストに記述されているテキストデータを文字列に切り分ける。文字列は、例えば、名詞など所定の品詞の形態素、文字ngram、名詞のペアである。文字列とする名詞のペアは、例えば「夏の風物詩」のように、名詞とその名詞に係る語のペアである。文字列への切り分けには、形態素解析、文字ngram解析等の従来技術を用いることができる。
ステップS220において、時系列頻度抽出部124は、時刻情報と対応付けられたテキストデータを切り分けて得られた文字列が、その時刻情報により示される時刻に出現したものとし、異なる各文字列の頻度を計算する。時系列頻度抽出部124は、時刻情報と対応付けられたテキストデータに1回以上出現する全ての文字列それぞれの頻度を「1」としてもよく、時刻情報と対応付けられたテキストデータに文字列が出現する回数を、その文字列の頻度としてもよい。
時系列頻度抽出部124は、時系列文字列テーブルが作成されていなければ、新たに時系列文字列テーブルを生成し、時系列文字列テーブル記憶部123に書き込む。時系列文字列テーブルに設定する単位時間は予め記憶部121に記憶されており、1か月、1週間、1日、1時間など、ユーザの設定により可変とする。
ステップS225において、時系列頻度抽出部124は、ステップS220において得られた各文字列の頻度に基づいて、時系列文字列テーブル記憶部123に記憶される時系列文字列テーブルを更新する。
具体的には、時系列頻度抽出部124は、ステップS215において得られた文字列のうち、まだ時系列文字列テーブルに登録されていない文字列があれば、追加登録する。時系列頻度抽出部124は、ステップS210において得られた時刻情報が含まれる時間帯に対応して時系列文字列テーブルに設定されている文字列の頻度を、ステップS220において計算したその文字列の頻度を加算した値に更新する。
ステップS230において、時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストであるか否かを判定する。時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストではないと判定した場合(ステップS230:NO)、ステップS205からの処理を繰り返す。そして、時系列頻度抽出部124は、選択した時系列テキストが時系列テキスト記憶部122に記憶される最後の時系列テキストであると判定した場合(ステップS230:NO)、関連語抽出装置10は、図4に示すステップS115からの処理を行う。
図4のステップS115において、時系列頻度抽出部124は、時系列文字列テーブル記憶部123に記憶される時系列文字列テーブルを相関値算出部125に出力する。このとき、相関値算出部125は、時系列文字列テーブルに設定される各文字列の時系列の頻度のうち、条件を満たす文字列の時系列の頻度のみを抽出して相関値算出部125に出力してもよい。例えば、相関値算出部125は、時系列文字列テーブルから、低頻度の文字列についての情報を除く。低頻度は、例えば、所定期間における頻度の合計が所定値以下である、所定期間における頻度の平均が全文字列の頻度の平均以下である、所定期間における頻度の合計が多い順に順位付けしたときの順位が所定以下である、などによって判断される。あるいは、DTM(Dynamic Topic Model)などのトピックモデルを利用し、各トピックの中で確率値が高い上位のm個の文字列についての頻度のみを抽出する、時期により頻度が変動する文字列をバースト検知などで抽出する、などの処理が考えられる。ただし、時系列頻度抽出部124は、ステップS105において入力されたキーワードに一致する文字列の頻度の情報については削除しないようにしてもよい。
ステップS120において、相関値算出部125は、時系列頻度抽出部124から入力した時系列文字列テーブル内に設定される文字列間に因果関係が成立するか否かを判定する相関判定処理を行う。なお、相関値算出部125は、時系列文字列テーブルに設定される全ての文字列の組について相関判定処理を行ってもよく、ステップS105において入力されたキーワードと一致する文字列と、そのキーワードとは異なる全ての文字列のそれぞれとの間の相関判定処理を行ってもよい。
相関値算出部125は、相関判定処理の対象の2つの文字列それぞれの時系列の頻度を用いて、Granger因果性検定を行う。Granger因果性検定は、経済学でよく用いられている既存の手法であり、背景知識を用いずに、売上高の時系列変化などの数値データからのみ、因果関係の有無を判断するために用いられる。例えば、Granger因果性検定を用いることにより、アイスクリームの売り上げが高い→水の事故が増える、などのように、因果関係を時系列データのみで検定できる。因果関係には、2項間の因果関係の向きも含まれる。しかし、アイスクリームと水の事故の本来の意味に因果関係があるわけではない。
文字列Wi(i=1,2,…,n)の時刻tにおける頻度をx、文字列Wj(i≠j、j=1,2,…,n)の時刻tにおける頻度をzとしたときに、以下の式(1)及び式(2)のベクトル自己回帰モデル(VAR)モデルを考える。
=at−1+…+at−p+bt−1+…+bt−p+u1t …(1)
=ct−1+…+ct−p+dt−1+…+dt−p+u2t …(2)
、b、c、d(i=1,2,…,p)は定数であり、u1t,u2tはノイズである。式(1)は、時刻tにおける文字列Wiの頻度xは、過去の文字列Wiの頻度xt−1〜xt−pと、過去の文字列Wjの頻度zt−1〜zt−pで説明されることを表し、b〜bが0の場合は文字列Wiと文字列Wjに因果関係がない。式(2)は、時刻tにおける文字列Wjの頻度zは、過去の文字列Wjの頻度zt−1〜zt−pと、過去の文字列Wiの頻度xt−1〜xt−pで説明されることを表し、c〜cが0の場合は文字列Wjと文字列Wiに因果関係はない。
相関値算出部125は、文字列W1〜Wnから異なる2つの文字列の組を全て生成し、各組の文字列をWi、Wjとして、以下の処理を行う。なお、相関値算出部125は、文字列Wiの時系列の頻度x〜xt−pと、文字列Wjの時系列の頻度z〜zt−pを、時系列文字列テーブルから取得する。
相関値算出部125は、文字列Wi、Wjの時系列の頻度を用いて最小二乗回帰により式(1)を推定し、推定した式(1)の残差平方和USSを求める。さらに、相関値算出部125は、b=…=b=0とし、文字列Wiの頻度を用いて最小二乗回帰により式(1)を推定し、推定した式(1)の残差平方和RSSを算出する。相関値算出部125は、以下の式(3)を検定統計量Fとする。
=((RSS−USS)/p)/(USS/(n−2p)) …(3)
相関値算出部125は、pFをχ(p)の95%点と比較するχ(カイ二乗)検定を行い、pFの方が大きければ、文字列Wjから文字列Wiへの因果関係が存在し、小さければ文字列Wjから文字列Wiへの因果関係が存在しないと判断する。
同様に、相関値算出部125は、文字列Wi、Wjの頻度を用いて最小二乗回帰により式(2)を推定し、推定した式(2)の残差平方和USSを求める。さらに、相関値算出部125は、c=…=c=0とし、文字列Wjの頻度を用いて最小二乗回帰により式(2)を推定し、推定した式(2)の残差平方和RSSを算出する。相関値算出部125は、以下の式(4)を検定統計量Fとする。
=((RSS−USS)/p)/(USS/(n−2p)) …(4)
相関値算出部125は、pFをχ(p)の95%点と比較するχ検定を行い、pFの方が大きければ、文字列Wiから文字列Wjへの因果関係が存在し、小さければ文字列Wiから文字列Wjへの因果関係が存在しないと判断する。
相関値算出部125は、文字列Wiから文字列Wjへの因果関係と、文字列Wjから文字列Wiへの因果関係との少なくとも一方が存在する場合、文字列Wjを文字列Wiの関連語とし、文字列Wiを文字列Wjの関連語とする。なお、上記では、相関値算出部125は、有意水準を95%とし、その水準を満たす文字列ペアを因果関係ありと判断しているが、有意水準は予め記憶部121に記憶され、ユーザにより可変に設定される。
ステップS125において、相関値算出部125は、各文字列について、その文字列と因果関係ありと判断された他の文字列とを対応付けた関連語テーブルを作成する。このとき、相関値算出部125は、文字列の間の因果関係の強さを定量的に表す値である検定統計量F又はFとして表される相関値の情報と、因果関係の向きの情報とを付加して関連語テーブルに関連語を設定する。また、相関値算出部125は、相関値の高い順に関連語を並べて関連語テーブルに設定してもよい。
相関値算出部125は、生成した関連語テーブルから、ステップS105において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、出力部13に出力する。
ステップS130において、出力部13は、相関値算出部125が抽出したキーワード関連語テーブルを提示する。具体的には、出力部13は、キーワードの送信元の端末にキーワード関連語テーブルを送信し、端末は、受信したキーワード関連語テーブルをディスプレイに表示する。
なお、キーワードに代えて、文章等のテキストデータを関連語抽出装置10に入力してもよい。時系列頻度抽出部124又は図示しないキーワード抽出部が、図4のステップS215の処理と同様に、入力されたテキストデータから文字列を取得し、取得した文字列をキーワードとする。
また、キーワードが2つ以上ある場合、出力部13は、関連するキーワードが多い関連語ほど優先度を高くし、優先度の順に関連語を表示させてもよく、優先度が所定よりも高い関連語の色を変えて表示させてもよく、関連するキーワードの数を付加して関連語を表示させてもよい。また、出力部13は、関連語にキーワードとの間の因果関係の向きを表す文字や図形などの情報を付加して表示させてもよい。
また、相関値算出部125は、キーワードとの因果関係の向きが所定方向の関連語のみ関連語テーブルに設定してもよく、関連語テーブルからキーワードとの因果関係の向きが所定方向の関連語のみを抽出してキーワード関連語テーブルに設定してもよい。
なお、異なるキーワードにより図4の処理を繰り返し行う場合、既に時系列文字列テーブルが生成されていることがある。この場合、図5のステップS205において、時系列頻度抽出部124は、前回図4の処理を行った後に時系列テキスト記憶部122に新たに登録された時系列テキストを一つずつ選択し、生成済みの時系列文字列テーブルを更新すればよい。
本実施形態の関連語抽出装置10によれば、同じ時期に話題となる語(文字列)を関連語として抽出することができる。また、関連語抽出装置10は、ある事象に関する語(文字列)と、その事象が起こった結果として時期をずらして発生する事象に関する語(文字列)とを関連語として抽出することができる。これについて、図6を用いて説明する。
図6は、2つの文字列Wi、Wjの時系列の頻度の例を表す図である。文字列Wiが表す事象が発生したことが原因となって、文字列Wjが表わす事象が発生する場合、文字列Wiの頻度と文字列Wjの頻度とは時期をずらしてピークが現れる。例えば、「株価の上昇」がきっかけで景気が回復し、「海外旅行」に行く人が増えた場合、「株価の上昇」と「海外旅行」とは因果関係があるものの、概念的には異なっており、かつ、時期をずらして頻度のピークが発生する。また、頻度のピークが異なっていることから、同一文書に共起する機会も少ないと考えられる。関連語抽出装置10は、Granger因果性検定を用いて因果関係を判定することにより、過去に、キーワードに関する事象に対して、時間をずらして発生したことがある因果関係のある事象に関する語を関連語として得ることができる。
[第2の実施形態]
本実施形態では、第1の実施形態と同様の処理により抽出した関連語を用いて検索したコンテンツをユーザに推薦する。以下では、第1の実施形態との差分を中心に記載する。
図7は、第2の実施形態による関連語抽出装置20の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図1に示す第1の実施形態による関連語抽出装置10と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置20と、図1に示す関連語抽出装置10とが異なる点は、コンテンツ情報記憶部21及びコンテンツ検索部22をさらに備える点である。
コンテンツ情報記憶部21は、ユーザへ紹介する候補となる各コンテンツデータ(以下、「コンテンツ」とも記載する。)のコンテンツIDとコンテンツテキスト情報とを対応付けて記憶する。コンテンツIDは、コンテンツを一意に特定する識別情報であり、コンテンツテキスト情報は、コンテンツに関する情報を示すテキストデータである。例えば、コンテンツテキスト情報は、コンテンツのタイトルや説明などを示すテキストデータでもよく、テキストデータを含むコンテンツデータ自体でもよく、コンテンツデータに含まれるテキストデータの全部又は一部でもよい。
例えば、コンテンツが番組であれば、コンテンツテキスト情報として、番組サブタイトル、番組概要文などが記述されたテキストデータを用いてもよく、番組に含まれる字幕テキストを用いてもよい。また、コンテンツが音楽、電子図書などであれば、コンテンツの紹介や概要などが記述されたテキストデータをコンテンツテキスト情報として用いる。また、コンテンツがテキストデータを含んだウェブページや電子図書などである場合、そのコンテンツデータ自体、又は、そのコンテンツに含まれるテキストデータの全文又は一部をコンテンツテキスト情報として用いてもよい。
コンテンツ情報記憶部21はさらに、コンテンツIDと対応付けてコンテンツ紹介情報を記憶する。コンテンツ紹介情報は、ユーザにコンテンツを紹介するために提示する情報である。例えば、コンテンツが番組の場合、コンテンツ紹介情報は、番組名、放送日時、チャネル、番組概要、サムネイル画像、番組視聴サイトのURL(Universal Resource Locator)などを含む。また、コンテンツが音楽、電子図書などの場合、コンテンツ紹介情報は、例えば、コンテンツのタイトル、紹介文、価格、購入サイト又はダウンロードサイトのURLなどの情報を含み、コンテンツがウェブページの場合、コンテンツ紹介情報はそのウェブページのURLなどの情報を含む。コンテンツテキスト情報の一部又は全部がコンテンツ紹介情報として用いられてもよい。
なお、コンテンツ情報記憶部21は、関連語抽出装置20とネットワークを介して接続されるサーバに備えられてもよい。
<関連語抽出装置20の動作>
図8は、関連語抽出装置20の動作を示すフローチャートである。同図において、図4に示すフローチャートと同一の処理には同一の符号を付し、その説明を省略する。関連語抽出装置20は、図4のステップS105〜ステップS125と同様の処理を行う。
ステップS305において、相関値算出部125は、生成した関連語テーブルから、ステップS105において入力されたキーワードと、そのキーワードに対応した関連語が設定されている部分を抽出してキーワード関連語テーブルを生成し、コンテンツ検索部22に出力する。
ステップS310において、コンテンツ検索部22は、キーワード関連語テーブルからキーワードを取得し、取得したキーワードを検索キーとして用いて、コンテンツ情報記憶部21に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部22は、検索の結果得られたコンテンツテキスト情報と同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部21から読み出す。
続いて、ステップS315において、コンテンツ検索部22は、キーワード関連語テーブルから関連語を取得し、取得した関連語を検索キーとして用いて、コンテンツ情報記憶部21に記憶されるコンテンツテキスト情報を検索する。コンテンツ検索部22は、検索の結果得られたコンテンツテキスト情報と同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部21から読み出す。
コンテンツ検索部22は、ステップS310において読み出したコンテンツ紹介情報と、ステップS315において読み出したコンテンツ紹介情報を出力部13に出力する。
ステップS320において、出力部13は、コンテンツ検索部22から受信したコンテンツ紹介情報を提示する。具体的には、出力部13は、キーワードの送信元の端末にコンテンツ紹介情報を送信し、端末は、受信したコンテンツ紹介情報をディスプレイに表示する。
キーワードが2以上である場合、コンテンツ検索部22は、より多くのキーワードに関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、コンテンツ検索部22は、より多くの関連語に関連するコンテンツほど順位が高くなるように優先度をつけ、優先度の順にコンテンツ提示情報を表示させるようにしてもよい。また、同じ数の関連語と関連するコンテンツが複数ある場合、コンテンツ検索部22は、関連語とキーワードとの相関値を合計又は乗算した結果に基づき優先度を決定してもよい。
本実施形態では、例えば、インターネット上で公開されている膨大な情報などを用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。また、キーワードに関する事象の原因となった事象に関連するコンテンツや、キーワードに関係する事象の次に発生することが予想される事象に関するコンテンツをユーザに推薦することができる。
[第3の実施形態]
第2の実施形態では時系列テキストとコンテンツテキスト情報とが異なるデータであるが、本実施形態では、時系列テキストとコンテンツテキスト情報とが同一のデータである。以下では、第2の実施形態との差分を中心に記載する。
図9は、第3の実施形態による関連語抽出装置30の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図7に示す第2の実施形態による関連語抽出装置20と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置30と、図7に示す関連語抽出装置20とが異なる点は、関連語抽出部12、コンテンツ情報記憶部21及びコンテンツ検索部22に代えて、関連語抽出部32、コンテンツ情報記憶部33及びコンテンツ検索部34を備える点である。
関連語抽出部32が、図7に示す関連語抽出部12と異なる点は、記憶部121に代えて記憶部321を備える点である。記憶部321は、時系列テキスト記憶部322及び時系列文字列テーブル記憶部123を備える。時系列テキスト記憶部322は、コンテンツIDに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。
コンテンツ情報記憶部33は、コンテンツIDに対応付けられたコンテンツ紹介情報を記憶する。コンテンツテキスト情報とコンテンツ紹介情報とが同一の情報である場合、関連語抽出装置30はコンテンツ情報記憶部33を設けなくてもよい。
コンテンツ検索部34は、キーワードに基づく検索対象及び関連語に基づく検索対象を、時系列テキスト記憶部322に記憶される時系列テキスト情報とする以外は第2の実施形態のコンテンツ検索部22と同様の処理を行う。
関連語抽出装置30は、図8に示す処理と同様の処理を行う。ただし、ステップS310において、関連語抽出装置30のコンテンツ検索部34は、キーワード関連語テーブルから取得したキーワードを検索キーとして用いて、時系列テキスト記憶部322に記憶される時系列テキストを検索する。コンテンツ検索部34は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。また、ステップS315において、コンテンツ検索部34は、キーワード関連語テーブルから取得した関連語を検索キーとして用いて、時系列テキスト記憶部322に記憶される時系列テキストを検索する。コンテンツ検索部34は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。ステップS315において、出力部13は、コンテンツ検索部34が読み出したコンテンツ紹介情報を提示する。
本実施形態では、ユーザに紹介可能なコンテンツや、そのコンテンツに関する情報を用いてキーワードの関連語を取得し、コンテンツの推薦に利用することが可能となる。
[第4の実施形態]
本実施形態では、最近話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。以下では、第2の実施形態との差分を中心に記載する。
図10は、第4の実施形態による関連語抽出装置40の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図7に示す第2の実施形態による関連語抽出装置20と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置40と、図7に示す関連語抽出装置20とが異なる点は、時系列テキスト記憶部41と、キーワード抽出部42とをさらに備える点である。なお、関連語抽出装置40を、図9に示す第3の実施形態による関連語抽出装置30に、時系列テキスト記憶部41と、キーワード抽出部42とをさらに備えた構成としてもよい。
時系列テキスト記憶部41は、ユーザが検索対象を行う時刻付近で公開されたウェブテキスト、番組字幕、ニュース記事、ソーシャルネットワークサービスの投稿テキストなどの時系列テキストである。時系列テキスト記憶部41は、例えば、現在時刻から1日、1週間、1ヶ月など、比較的短い期間の時系列テキストを記憶する。期間は、予め記憶部121に記憶され、可変とすることができる。
入力部11により検索開始が入力された場合、キーワード抽出部42は、時系列テキスト記憶部41に記憶される各時系列テキストを、第1の実施形態におけるステップS215と同様の処理により文字列に切り分ける。キーワード抽出部42は、既存の任意のバースト検知処理により時系列テキストからキーワードとなる文字列を抽出する。あるいは、キーワード抽出部42は、頻度が他の文字列よりも所定より高い文字列を抽出してもよく、頻度が過去の平均と比較して所定割合又は所定数だけ高い文字列をキーワードとして抽出してもよい。関連語抽出装置40は、抽出されたキーワードを用いて、図8のステップS110以降の処理を行う。
これにより、関連語抽出装置40は、現在の時期に沿ったキーワードと、そのキーワードの関連語を抽出する。関連語抽出装置40は、抽出したキーワードとその関連語のそれぞれにより検索したコンテンツをユーザに提示することができる。例えば、夏の時期には「プール」、「花火大会」など、少し前から現在にかけて話題となっているキーワードが選択され、これらキーワードと同じような頻度の分布をする(つまり、夏に頻度が高くなる)語に関するコンテンツをユーザに推薦することができる。あるいは、現在「株価の上昇」が話題となっている場合に、過去の実績から将来的に話題となることが予測される「海外旅行」に関するコンテンツをユーザに推薦することができる。
なお、ユーザは、入力部11により時刻の情報を入力してもよい。この場合、時系列テキスト記憶部41に、検索可能な期間の時系列テキストを記憶しておく。キーワード抽出部42は、入力された時刻の情報から1日、1週間、1ヶ月などの比較的短い期間の時系列テキストを時系列テキスト記憶部41から読み出してキーワードを抽出する。この場合、時系列テキスト記憶部41を設けず、キーワード抽出部42は、入力された時刻に基づいて時系列テキスト記憶部122から読み出した時系列テキストを用いてキーワードを抽出してもよい。
[第5の実施形態]
本実施形態では、最近インターネットで話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。
図11は、第5の実施形態による関連語抽出装置50の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図9に示す第3の実施形態による関連語抽出装置30と同一の部分には同一の符号を付し、その説明を省略する。関連語抽出装置50は、入力部11と、キーワード抽出部51と、関連語抽出部52と、コンテンツ情報記憶部33と、コンテンツ検索部54と、出力部13とを備える。関連語抽出部52は、記憶部521−1、521−2と、時系列頻度抽出部524−1、524−2と、相関値算出部525とを備える。記憶部521−1は、時系列テキスト記憶部522−1及び時系列文字列テーブル記憶部523−1を有し、記憶部521−2は、時系列テキスト記憶部522−2及び時系列文字列テーブル記憶部523−2を有する。
キーワード抽出部51は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて、キーワードを抽出する。時系列テキスト記憶部522−1は、インターネット上で時系列テキストとして公開されているブログなどのSNSのウェブページを記憶する。時系列文字列テーブル記憶部523−1は、時系列頻度抽出部524−1により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部524−1は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて抽出されたキーワードの時系列文字列テーブルを作成する。
時系列テキスト記憶部522−2は、コンテンツIDに対応付けられた時系列テキストを記憶する。時系列テキストは、時刻情報が含まれた又は付加されたコンテンツテキスト情報である。例えば、時系列テキスト記憶部522−2は、字幕など番組に関する時系列テキストを記憶する。時系列文字列テーブル記憶部523−2は、時系列頻度抽出部524−2により作成される時系列文字列テーブルを記憶する。時系列頻度抽出部524−2は、時系列テキスト記憶部522−2に記憶される時系列テキストを用いて、図1に示す第1の実施形態の時系列頻度抽出部124と同様の処理により、時系列文字列テーブルを作成する。
相関値算出部525は、時系列頻度抽出部524−1が作成した時系列文字列テーブルに設定されている各キーワードの時系列の頻度と、時系列頻度抽出部524−2に設定されている各文字列の時系列の頻度とを用いてGranger因果性検定を行う。相関値算出部525は、検定結果に基づいて各キーワードの関連語を抽出し、コンテンツ検索部54に出力する。
コンテンツ情報記憶部33は、時系列テキスト記憶部522−2に時系列テキストが蓄積されている番組のコンテンツ紹介情報を記憶する。
コンテンツ検索部54は、関連語が得られた時系列テキストに対応付けられたコンテンツIDを時系列テキスト記憶部522−2から読み出し、読み出したコンテンツIDに対応付けられた番組のコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。コンテンツ検索部54は、読み出したコンテンツ紹介情報と、そのコンテンツ紹介情報と同じコンテンツIDに対応付けられた時系列テキストに含まれる関連語とを関連付けて出力部13に出力する。この関連語は、コンテンツのテーマを表す。
<関連語抽出装置50の動作>
図12は、関連語抽出装置50の動作を示すフローチャートである。
ステップS505において、入力部11により検索開始が入力されると、キーワード抽出部51は、時系列テキスト記憶部522−1に記憶される時系列テキストのうち、現在から1日、1週間、1ヶ月などの比較的期間の時系列テキストを特定する。キーワード抽出部51は、特定した時系列テキストを用いて、第3の実施形態のキーワード抽出部42と同様の処理により、キーワードWa1、Wa2、…、Wam(mは1以上の整数)となる文字列を抽出し、時系列頻度抽出部524−1に出力する。
ステップS510において、時系列頻度抽出部524−1は、時系列テキスト記憶部522−1に記憶される時系列テキストを用いて各キーワードWa1、Wa2、…、Wamの時系列の頻度を算出し、時系列文字列テーブルT1を作成する。
続いて、ステップS515において、時系列頻度抽出部524−2は、時系列テキスト記憶部522−2に記憶される時系列テキストを用いて、図4のステップS115と同様の時系列文字列テーブル作成処理により、文字列Wb1、Wb2、…、Wbn(nは1以上の整数)の時系列の頻度を設定した時系列文字列テーブルT2を作成する。文字列Wb1、Wb2、…、Wbnは、キーワードの関連語候補である。
ステップS520において、相関値算出部525は、時系列文字列テーブルT1に設定される各キーワードWa1、Wa2、…、Wamの時系列の頻度と、時系列文字列テーブルT2に設定される各文字列Wb1、Wb2、…、Wbnの時系列の頻度とを用いて、キーワードWai(i=1,2,…,m)と文字列Wbj(j=1,2,…,n)の全ての組み合わせについてGranger因果性検定を行う。
ステップS525において、相関値算出部525は、検定結果に基づいて、文字列Wb1,Wb2,…,Wbnの中から各キーワードWaiの関連語を抽出する。抽出された関連語をWi1,Wi2,…,Wik(kは1以上n以下の整数)とする。相関値算出部525は、キーワードWai(i=1,2,…,m)と、その関連語Wi1,Wi2,…,Wikとを対応付けた関連語テーブルを生成する。
ステップS530において、相関値算出部525は、生成した関連語テーブルをコンテンツ検索部54に出力する。
ステップS535において、コンテンツ検索部54は、関連語Wik(i=1,2,…,m、k=1,2,…,k)のそれぞれを検索キーとして用いて、時系列テキスト記憶部522−2に記憶される時系列テキストを検索する。コンテンツ検索部54は、検索の結果得られた時系列テキストと同じコンテンツIDに対応付けられたコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。コンテンツ検索部54は、コンテンツ紹介情報が得られたときに検索キーとして用いた関連語Wikをコンテンツのテーマとする。つまり、コンテンツ紹介情報によりユーザに紹介するコンテンツは、関連語Wikをテーマとして扱った過去のコンテンツである。コンテンツ検索部54は、コンテンツ紹介情報と、コンテンツのテーマとを出力部13に出力する。
ステップS540において、出力部13は、コンテンツ紹介情報と、コンテンツのテーマとを提示する。出力部13は、より多くの関連語Wikと対応するコンテンツ紹介情報の優先度を高くして提示してもよい。
なお、コンテンツ検索部54は、キーワードWaiから関連語Wikへの方向へ因果関係がある関連語Wikを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の次に発生すると予想される事象をテーマとしたコンテンツの紹介情報を取得することができる。また、コンテンツ検索部54は、関連語WikからキーワードWaiへの方向へ因果関係がある関連語Wikを用いてコンテンツ紹介情報を検索することにより、現在話題になっている事象の原因であると考えられる事象をテーマとしたコンテンツの紹介情報を取得することができる。
本実施形態によれば、関連語抽出装置50は、最近のSNSにおいて多く出現する文字列の関連語を、テーマとして提示することができる。このとき、関連語抽出装置50そのテーマを扱った過去の番組の情報を同時に提示してもよい。過去のSNSと番組の間の時系列相関を算出することによって、最近のSNSの話題から、次に取り上げるべき番組のテーマを提示することができる。
以上説明した実施形態によれば、関連語抽出装置は、共起や概念辞書によらずに関連語を抽出することができる。
なお、上述の関連語抽出装置10、20、30、40、50は、内部にコンピュータシステムを有している。そして、関連語抽出装置10、20、30、40、50の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
10、20、30、40、50…関連語抽出装置
11…入力部
12、32、52…関連語抽出部
13…出力部
21、33…コンテンツ情報記憶部
22、34、54…コンテンツ検索部
41…時系列テキスト記憶部
42、51…キーワード抽出部
121、321、521−1、521−2…記憶部
122、322、522−1、522−2…時系列テキスト記憶部
123、523−1、523−2…時系列文字列テーブル記憶部
124、524−1、524−2…時系列頻度抽出部
125、525…相関値算出部

Claims (4)

  1. テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、
    所定のキーワードを入力する入力部と、
    時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、
    前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、
    前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、
    前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、
    を備えることを特徴する関連語抽出装置。
  2. 請求項1に記載の関連語抽出装置において、
    コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、
    前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、
    前記出力部は、
    前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、
    ことを特徴とする関連語抽出装置。
  3. 請求項1に記載の関連語抽出装置において、
    前記記憶部は、
    インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第1の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第2の時系列テキストとを記憶し、
    当該関連語抽出装置は、
    前記第1の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、
    前記時系列頻度抽出部は、
    前記第1の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第2の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、
    前記相関値算出部は、
    前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、
    前記出力部は、
    前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第2の時系列テキストにより特定される前記コンテンツの情報を出力する、
    ことを特徴とする関連語抽出装置。
  4. コンピュータを、請求項1から請求項3のいずれか一項に記載の関連語抽出装置として機能させるためのプログラム。
JP2016235181A 2016-12-02 2016-12-02 関連語抽出装置及びプログラム Pending JP2018092367A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016235181A JP2018092367A (ja) 2016-12-02 2016-12-02 関連語抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016235181A JP2018092367A (ja) 2016-12-02 2016-12-02 関連語抽出装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2018092367A true JP2018092367A (ja) 2018-06-14

Family

ID=62566196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016235181A Pending JP2018092367A (ja) 2016-12-02 2016-12-02 関連語抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2018092367A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021051368A (ja) * 2019-09-20 2021-04-01 ヤフー株式会社 提供装置、提供方法及び提供プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092491A (ja) * 2003-09-17 2005-04-07 Fujitsu Ltd サーバ、及び関連語提案方法
JP2007257390A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 新たな複合語を抽出するシステム
WO2008087728A1 (ja) * 2007-01-18 2008-07-24 Fujitsu Limited キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法
WO2009096523A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20120215792A1 (en) * 2011-02-18 2012-08-23 Hon Hai Precision Industry Co., Ltd. Electronic device and method for searching related terms
JP2013254366A (ja) * 2012-06-07 2013-12-19 Ntt Docomo Inc 情報処理装置および関連語判断方法
JP2016197332A (ja) * 2015-04-03 2016-11-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理システム、情報処理方法、およびコンピュータプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092491A (ja) * 2003-09-17 2005-04-07 Fujitsu Ltd サーバ、及び関連語提案方法
JP2007257390A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 新たな複合語を抽出するシステム
WO2008087728A1 (ja) * 2007-01-18 2008-07-24 Fujitsu Limited キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法
WO2009096523A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20120215792A1 (en) * 2011-02-18 2012-08-23 Hon Hai Precision Industry Co., Ltd. Electronic device and method for searching related terms
JP2013254366A (ja) * 2012-06-07 2013-12-19 Ntt Docomo Inc 情報処理装置および関連語判断方法
JP2016197332A (ja) * 2015-04-03 2016-11-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理システム、情報処理方法、およびコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
橋本 隆子、外2名: "ソーシャルメディアにおけるバーストパターンの共起に基づく新概念抽出", 第91回 人工知能基本問題研究会資料, JPN6020032097, 26 November 2013 (2013-11-26), JP, pages 47 - 52, ISSN: 0004458694 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021051368A (ja) * 2019-09-20 2021-04-01 ヤフー株式会社 提供装置、提供方法及び提供プログラム

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109690529B (zh) 按事件将文档编译到时间线中
CN109190049B (zh) 关键词推荐方法、***、电子设备和计算机可读介质
WO2017020451A1 (zh) 信息推送方法和装置
JP6381775B2 (ja) 情報処理システム及び情報処理方法
US9529847B2 (en) Information processing apparatus, information processing method, and program for extracting co-occurrence character strings
US20110099003A1 (en) Information processing apparatus, information processing method, and program
JP5143057B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
Pope et al. An Analysis of Online Twitter Sentiment Surrounding the European Refugee Crisis.
JP5679194B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5068728B2 (ja) 関連ブログ提示装置、方法及びプログラム
KR101606758B1 (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
Ibrahim et al. Scientometric re-ranking approach to improve search results
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP2018092367A (ja) 関連語抽出装置及びプログラム
US9305103B2 (en) Method or system for semantic categorization
KR101132431B1 (ko) 관심 정보 제공 시스템 및 방법
CN112802454B (zh) 一种唤醒词的推荐方法、装置、终端设备及存储介质
JP4938515B2 (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP5411802B2 (ja) 代表語抽出装置、代表語抽出方法および代表語抽出プログラム
JP5844887B2 (ja) 通信ネットワークを通じたビデオ・コンテンツ検索のための支援

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191028

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210309