JP5679194B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP5679194B2
JP5679194B2 JP2011111644A JP2011111644A JP5679194B2 JP 5679194 B2 JP5679194 B2 JP 5679194B2 JP 2011111644 A JP2011111644 A JP 2011111644A JP 2011111644 A JP2011111644 A JP 2011111644A JP 5679194 B2 JP5679194 B2 JP 5679194B2
Authority
JP
Japan
Prior art keywords
topic
search
keyword
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011111644A
Other languages
English (en)
Other versions
JP2012243032A (ja
JP2012243032A5 (ja
Inventor
勝吉 金本
勝吉 金本
宮嵜 充弘
充弘 宮嵜
丈博 萩原
丈博 萩原
隆仁 右田
隆仁 右田
弘之 増田
弘之 増田
拓也 藤田
拓也 藤田
昌裕 森田
昌裕 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011111644A priority Critical patent/JP5679194B2/ja
Priority to US13/468,519 priority patent/US20120330986A1/en
Priority to CN201210147815.3A priority patent/CN102841913B/zh
Publication of JP2012243032A publication Critical patent/JP2012243032A/ja
Publication of JP2012243032A5 publication Critical patent/JP2012243032A5/ja
Application granted granted Critical
Publication of JP5679194B2 publication Critical patent/JP5679194B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、検索キーワードに関連する情報をユーザに提示できるようにした情報処理装置、情報処理方法、およびプログラムに関する。
従来、インターネット上にはwebページ、ブログの他、ツイッタ(Twitter)に代表される各種のSNS(social networking service)を用いた様々な情報が氾濫している。そして、これらの中から、任意のキーワードを含む情報を抽出するシステムが存在する。
具体的には、例えば既存の検索システムを用いることにより、ユーザが任意に設定したキーワードを検索条件として、検索条件を含む情報をユーザに提示することができる。さらに、検索キーワードを含む情報の鮮度や検索頻度に応じて、より新しい情報を提示したり、より頻繁に検索された情報を提示したりすることが可能である。
特開2009−15407号公報
上述したように、従来においても検索キーワードを含む情報を検索することは可能である。しかしながら、検索キーワードに関連する情報(検索キーワードを含まなくてもよい)を提示したり、検索キーワードに関連する情報のうち、世間で話題になっているものを抽出したりする技術は確立されていない。
本開示はこのような状況に鑑みてなされたものであり、世間で話題になっている情報を抽出できるようにするものである。
本開示の一側面である情報処理装置は、検索キーワードを含む検索リクエストを受信する受信部と、データベースに記録されているインターネット上に公開された情報のうち、前記検索キーワードを含む前記情報の間で共通するトピックを抽出する抽出部と、抽出された前記トピックの流行度を判定する流行度判定部と、前記検索キーワードと流行している前記トピックを用いてユーザに関連情報を提供する提供部とを備える。
前記流行度判定部は、測定期間iにおけるサンプリング値xからなる離散系の時系列データとしてデータベースに記録されているインターネット上に公開された情報における前記トピックの頻度を取得し、所定の測定期間t以前の所定の期間に対応するN個のサンプリング値x,xt−1,・・・,xt−N+1の移動平均mに基づく移動偏差vを算出し、測定期間tに対応する移動偏差vと測定期間t−1に対応する移動偏差vt−1とに基づいて、測定期間tにおける前記離散系の時系列データの急激な変化を示す評価値sを算出する評価値算出部を有することができる
前記評価値算出は、前記評価値st=移動偏差vt/移動偏差vt-1を算出することができる。
前記評価値算出部は、連続的な時系列データを測定期間毎に集計して前記離散系の時系列データに変換することができる。
前記評価値算出部は、前記測定期間を時間的に重複して設け、連続的な時系列データを前記測定期間毎に集計して前記離散系の時系列データに変換することができる。
本開示の一側面である情報処理方法は、受信部と、抽出部と、流行度判定部と、提供部とを備える情報処理装置の情報処理方法において、前記受信部による、検索キーワードを含む検索リクエストを受信する受信ステップと、前記抽出部による、データベースに記録されているインターネット上に公開された情報のうち、前記検索キーワードを含む前記情報の間で共通するトピックを抽出する抽出ステップと、流行度判定部による、抽出された前記トピックの流行度を判定する流行度判定ステップと、前記提供部による、前記検索キーワードと流行している前記トピックを用いてユーザに関連情報を提供する提供ステップとを含む。
本開示の一側面であるプログラムは、コンピュータを、検索キーワードを含む検索リクエストを受信する受信部と、データベースに記録されているインターネット上に公開された情報のうち、前記検索キーワードを含む前記情報の間で共通するトピックを抽出する抽出部と、抽出された前記トピックの流行度を判定する流行度判定部と、前記検索キーワードと流行している前記トピックを用いてユーザに関連情報を提供する提供部として機能させる。
本開示の一側面においては、検索キーワードを含む検索リクエストが受信され、データベースに記録されているインターネット上に公開された情報のうち、前記検索キーワードを含む前記情報の間で共通するトピックが抽出され、抽出された前記トピックの流行度が判定され、前記検索キーワードと流行している前記トピックを用いてユーザに関連情報が提供される。
本開示の一側面によれば、世間で話題になっている情報を抽出することができる。
本開示の実施の形態である検索装置の構成例を示すブロック図である。 データベースの詳細な構成を示すブロック図である。 検索装置による関連情報検索処理を説明するフローチャートである。 ノイズ除去を説明するための図である。 トピック抽出処理を説明するフローチャートである。 トピック候補文字列を説明するための図である。 検索装置のユーザインタフェースとなる画面の表示例を示す図である。 検索装置のユーザインタフェースとなる画面の表示例を示す図である。 頻度の測定期間を示す図である。 頻度推移の一例を示す図である。 図10に対応する頻度の移動平均および移動分散を示す図である。 図10に対応する評価値を示す図である。 図10乃至図12を統合した図である。 コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。
<1.実施の形態>
初めに、本開示の情報処理装置を適用した、実施の形態としての検索装置の概要について説明する。この検索装置は、インターネットまたはイントラネット上で公開されている各種文書を検索対象として、検索キーワードを含む文書を検索し、検索した複数の文書に共通して含まれる文字列(以下、共起キーワードまたはトピックと称する)を抽出する。さらに、検索キーワードと共起キーワードとを含むインターネット上の文書のうち、所定の時点において世間で話題になっているもの(流行している話題)を、検索情報に関連する情報として提示するものである。
例えばインターネット上で公開されているツイッタ(Twitter)の各ツイート(ツイッタのユーザがつぶやいた(入力した)140文字以内の短文を指す)を検索対象として、検索キーワードを含むツイートを検索し、検索した複数のツイートに共通して含まれる共起キーワードを抽出する。さらに、抽出した各共起キーワードに対して流行の程度を示す評価値を算出して一覧表示してユーザに選択させ、選択された共起キーワードと検索キーワードとを含むツイートをユーザに提示する。これにより、いま世間で話題になっていることに対するツイートをユーザに提示することができる。
例えば、検索キーワードを「浅草寺」とすれば、共起キーワードとして、例えば、「台東区」、「護国寺」、「が震災」、「浅草に」、「交差点」などが抽出される。抽出されたこれらの各共起キーワードからユーザが「が震災」を選択すると、選択された共起キーワード「が震災」と検索キーワード「浅草寺」とを含むツイートがユーザに提示される。
なお、検索キーワードについては、ユーザが入力する他、ユーザの操作履歴などに基づいて自動的に設定するようにしてもよい。例えば、ユーザによって作成された文書に頻出する文字列、ユーザによって作成されたプレイリストに含まれるアーティスト名や曲名、ユーザが視聴したテレビジョン番組に頻出するタレント名などを抽出し、それらを検索キーワードに設定するようにしてもよい。
また、検索キーワードと対比するための1以上の対照キーワードを設定することも可能である。対照キーワードは、検索キーワードと同様、ユーザが入力する他、自動的に設定できるようにしてもよい。対照キーワードを自動的に設定する場合、設定済みの検索キーワードに基づいて対照キーワードを決定してもよい。例えば、検索キーワードがアーティスト名である場合、インターネット上から同じ出身国の他のアーティストを検索し、そのアーティスト名を対照キーワードに決定したりすればよい。
例えば、検索キーワードとしてAAA、対照キーワードとしてBBBが設定された場合、検索キーワードAAAを含む複数のツイートから共起キーワードが抽出されるが、対照キーワードBBBを含む複数のツイートにおける出現頻度が高いものは除外される。
なお、検索キーワードおよび対照キーワードとして、複数の文字列を設定してAND検索させることもできる。
以下、本開示においては、ツイッタの各ツイートを検索対象とした場合を例として説明する。ただし、実施の形態である検索装置の検索対象はツイッタのツイートに限定されるものではない。
また、検索対象の文書および検索キーワードは、文字列または記号列によって表現されるものであれば、日本語、英語などの自然言語によるものに限定されない。例えば、DNA情報、音素、楽譜情報、量子化して記号列に落とし込んだ実数値の一次元配列で表されるデータ、量子化して記号列に落とし込んだ実数値の多次元配列で表されるデータを一次元化したものなども検索対象の文書および検索キーワードとすることができる。
[検索装置の構成例]
図1は、実施の形態である検索装置に含まれる機能ブロックの構成例を示している。この検索装置10は、キーワード設定部11、文書検索部12、ノイズ除去部13、検索インデックス作成部14、流行度判定部15、トピック抽出部16、トピック出力部17、トピック文書出力部18、およびデータベース20を含む。図2は、データベース(DB)20の詳細を示している。データベース20は、検索文書保存データベース(DB)21、文書検索インデックスデータベース(DB)22、およびトピック保存データベース(DB)23を含む。
キーワード設定部11は、ユーザから入力される文字列を検索キーワードに設定する。また、キーワード設定部11は、ユーザから入力される文字列を対照キーワードに設定する。なお、キーワード設定部11は、検索キーワードまたは対照キーワードの少なくとも一方を自動的に設定することができる。
文書検索部12は、インターネット上に公開されているツイッタの各ツイートを検索対象として、検索キーワードを含むツイートを検索する。また、文書検索部12は、インターネット上に公開されているツイッタの各ツイートを検索対象として、対照キーワードを含むツイートを検索する。なお、検索対象とするツイートの記載日時の期間を、例えば現在から1ヶ月前までなどと制限するようにしてもよい。文書検索部12による検索結果のツイートは、検索キーワードまたは対照キーワードに対応付けて、データベース20の検索文書保存データベース21に保存される。
ノイズ除去部13は、検索結果として得られたツイートから、共起キーワードになり得ない文字列(以下、ノイズと称する)を除去する。具体的には図4を参照して後述する。
検索インデックス作成部14は、検索文書保存データベース20に保存された、検索結果として得られたツイートに対してSuffix Arrayによる検索インデックスを作成する。作成された検索インデックスは、データベース20の文書検索インデックスデータベース22に保存される。ここで検索インデックスが作成されることにより、共起キーワードを抽出する際に必要となる、トピック(共起キーワード)候補文字列の各ツイートにおける出現回数DF(Document Frequency)のカウントを高速に実施することができる。
流行度判定部15は、検索キーワードや対照キーワードを自動的に設定するに際して、それらの候補の流行度を判定する。また、流行度判定部15は、抽出される共起キーワード(トピック)の流行度を判定する。
トピック抽出部16は、ノイズが除去された検索結果の各ツイートから、共起キーワード(トピック)を抽出する。抽出された共起キーワード(トピック)は、データベース20のトピック保存データベース23に保存される。
トピック出力部17は、抽出された共起キーワード(トピック)を出力する。なお、トピック出力部17に、抽出された共起キーワード(トピック)に基づいて自動的にツイートを生成してツイッタに投稿するbot生成機能を持たせるようにしてもよい。
トピック文書出力部18は、抽出された共起キーワード(トピック)を含むツイートを検索文書保存データベース21から取得して出力する。
[動作説明]
次に、検索装置10の動作について説明する。図3は、検索装置10による関連情報検索処理を説明するフローチャートである。
ステップS1において、キーワード設定部11は、ユーザが入力する文字列を検索キーワードに設定する。なお、ユーザによって作成された文書に頻出する文字列、ユーザによって作成されたプレイリストに含まれるアーティスト名や曲名、ユーザが視聴したテレビジョン番組に頻出するタレント名などを抽出し、それらを検索キーワードに設定するようにしてもよい。この場合、抽出したアーティスト名などに対して、後述する流行の評価値を算出し、評価値が所定の閾値以上のものを検索キーワードに採用するようにしてもよい。
さらにステップS1において、キーワード設定部11は、ユーザが入力する文字列、または自動的に決定した文字列を対照キーワードに設定する。なお、対照キーワードの設定は省略してもよい。
ステップS2において、文書検索部12は、インターネット上に公開されているツイッタの各ツイートを検索対象として、検索キーワードを含むツイートを検索する。検索結果のツイートは、検索キーワードに対応付けて検索文書保存データベース21に保存される。また、文書検索部12は、対照キーワードが設定されている場合、インターネット上に公開されているツイッタの各ツイートを検索対象として、対照キーワードを含むツイートを検索する。検索結果のツイートは、対照キーワードに対応付けて検索文書保存データベース21に保存される。
ステップS3において、ノイズ除去部13は、検索結果として得られたツイートから、共起キーワードになり得ないノイズを除去する。
図4は、検索結果の一例であるツイートを示している。同図において下線の設けられている文字列がノイズとしてノイズ除去部13により除去される。すなわち、検索対象がツイートである場合、リツイート(Re Tweet)を意味する「RT」、返信相手を示す先「@ユーザ名」、URLを示す「http://・・・」、ハッシュタグを示す「#・・・」が除去される。
図3に戻る。ステップS4において、検索インデックス作成部14は、検索文書保存データベース20に保存された、検索結果として得られたツイートに対してSuffix Arrayによる検索インデックスを作成する。作成された検索インデックスは文書検索インデックスデータベース22に保存される。
ステップS5において、トピック抽出部16は、ノイズが除去された検索結果の各ツイートから、共起キーワード(トピック)を抽出するトピック抽出処理を行う。抽出された共起キーワード(トピック)は、データベース20のトピック保存データベース23に保存される。
図5はトピック抽出処理を詳細に説明するフローチャートである。
ステップS11において、トピック抽出部16は、ノイズが除去された検索結果のツイート群に出現する全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した文字列群を抽出する。これは、出現回数DFが変化しない範囲で、もっとも長い部分文字列群を抽出することに相当する。この処理はSuffix Arrayによる検索インデックスを用いることによって、高速に処理することが可能である。
以下の文字の種類による規則に則したものをトピック候補文字列から除外し、残ったものをトピック候補文字列として抽出する。
[想定される文字の種類]
文字の種類としては、例えば、スペース(空白)、半角英字、ラテン文字拡張、ひらがな、カタカナ、全角記号、長音記号、半角記号、制御文字、無効文字、漢字、半角数字、句読点、ハングル、タイ文字、アラビア文字、ヘブライ文字、キリル文字、ギリシア文字などが想定される。
[トークンをトピック候補文字列から除外する規則]
トークンの前の文字(前のトークンの最後の文字)が、
長音記号である場合、トピック候補文字列としない。
トークンの初めの文字が、
スペースである場合、トピック候補文字列としない。
全角記号である場合、トピック候補文字列としない。
長音記号である場合、トピック候補文字列としない。
半角記号である場合、トピック候補文字列としない。
制御文字、無効文字である場合、トピック候補文字列としない。
句読点である場合、トピック候補文字列としない。
トークンの後の文字(後のトークンの初めの文字)が、
長音記号である場合、トピック候補文字列としない。
トークンの最後の文字が、
スペースである場合、トピック候補文字列としない。
全角記号である場合、トピック候補文字列としない。
半角記号である場合、トピック候補文字列としない。
制御文字、無効文字である場合、トピック候補文字列としない。
句読点である場合、トピック候補文字列としない。
トークンの前の文字(前のトークンの最後の文字)とトークンの初めの文字の両方、もしくは、トークンの後の文字(後のトークンの初めの文字)とトークンの最後の文字の両方が、
半角英字、ラテン文字拡張である場合、トピック候補文字列としない。
カタカナである場合、トピック候補文字列としない。
半角数字記号である場合、トピック候補文字列としない。
ハングルである場合、トピック候補文字列としない。
キリル文字である場合、トピック候補文字列としない。
例えば、図6に示されるように、ノイズ除去後のツイートが「チョコを買いだめする人は、手を挙げなさい」である場合、まず検索結果のツイート群において、全ての部分文字列のうち、他の部分文字列の一部としてのみ出現する部分文字列を除外した文字列群を抽出する。一例として、「チョ」、「チョコ」、「チョコを」の出現回数DFがそれぞれ10、10、4であった場合、「チョコ」は抽出されるが、「チョ」は抽出されない。その後さらに、トークンをトピック候補文字列から除外する規則を適用し、トピック候補文字列が抽出される。
このように、トピック抽出部16では、出現回数DFの変化点と、文字の種類の違いに基づき、検索対象とする文書の言語に依存することなくトピック候補文字列を抽出することができる。ただし、文書の言語の特徴に基づく形態素解析を利用してトピック候補文字列を抽出するようにしてもよい。
なお、類似した文字列がトピック候補文字列として抽出された場合、それらを一つにまとめるようにしてもよい。ここで類似とは、文字列そのものの類似度が高いことのほかに、出現した文書の類似度が高いことも含む。
ステップS12において、トピック抽出部16は、文書検索インデックスデータベース22に保存されている検索インデックスを用い、ノイズが除去された検索結果のツイートにおける各トピック候補文字列の出現回数DFを算出する。
ステップS13において、トピック抽出部16は、各トピック候補文字列の出現回数DFが所定の条件を満たすものをトピック(共起キーワード)に採用する。すなわち、検索キーワードと対照キーワードの両方が設定されている場合には、検索キーワードによる検索結果のツイートにおける出現回数DFを、対照キーワードによる検索結果のツイートにおける出現回数DFで除算した値が所定の閾値以上であるものをトピックに採用する。検索キーワードのみが設定されている場合には、検索キーワードによる検索結果のツイートにおける出現回数DFが所定の閾値以上であるものをトピックに採用する。
なお、トピックとして採用するか否かの判定に、上述したような出現回数DFの商の代わりに、Information Gain,Mutual Information,Bi-Normal separation,Fold Change,相関係数などを算出して用いるようにしてもよいし、カイ二乗検定などトピックの特異性を測る検定を行ってもよい。
このようにしてトピックが抽出された後、トピック抽出処理が終了されて、図3のステップS6にリターンする。
ステップS6において、流行度判定部15は、ステップS5で抽出された各共起キーワード(トピック)に対して流行の評価値を算出する。この算出方法については、図9乃至図13を参照して後述する。
ステップS7において、トピック出力部17は、抽出された共起キーワード(トピック)とその流行の評価値をユーザに提示する。ただし、ステップS8において検索装置が自動的にトピックを選択する場合、提示する必要は必ずしもない。
提示された共起キーワード(トピック)がユーザによって選択されるか、流行の評価値が閾値以上のものが検索装置によって自動的に選択されると、ステップS8において、トピック文書出力部18は、抽出された共起キーワード(トピック)と検索キーワードを含むツイートを検索文書保存データベース21から取得し、検索キーワードに関連する関連情報としてユーザに提示する。なお、出得した複数のツイートが類似している場合、一つにまとめて提示するようにしてもよい。以上で、関連情報検索処理としての一連の動作が終了される。
[ユーザインタフェースとしての画面の表示例]
図7は、検索装置10のユーザインタフェースとしての画面の表示例を示している。この画面50には、検索キーワード入力欄51、Get Tweetsボタン52、Get Topic Words from Tweetsボタン53、Show Tweetsボタン54、トピック表示欄55、評価値表示欄56、およびツイート表示欄57が設けられている。
ユーザは、検索キーワード入力欄51に検索キーワードを入力することができる。ユーザがGet Tweetsボタン52を操作されると、インターネット上で公開されているツイッタのツイートのうち、検索キーワードを含むものが検索される。
ユーザがGet Topic Words from Tweetsボタン53を操作すると、検索結果のツイートから共起キーワード(トピック)が抽出されて、流行の評価値とともにトピック表示欄55に表示される。ユーザがトピック表示欄55に表示された共起キーワード(トピック)を選択すると、選択された共起キーワード(トピック)に対する流行の評価値の時間的推移が評価値表示欄56に表示される。
さらに、ユーザが共起キーワード(トピック)を選択した状態でShow Tweetsボタン54を操作すると、検索キーワードと、選択された共起キーワード(トピック)を含むツイートがツイート表示欄57に表示される。
例えば、図7に示されるように、ユーザが検索キーワード入力欄51に検索キーワードとして「浅草寺」を入力し、Get Tweetsボタン52を操作すると、検索キーワード「浅草寺」を含むツイートが検索される。ここで、ユーザがGet Topic Words from Tweetsボタン53を操作すると、トピック表示欄55に共起キーワード(トピック)として「台東区」、「護国寺」、「が震災」、「震災発生時刻の午後二時四十六分」、「浅草に」、「交差点」が流行の評価値とともに表示される。
ユーザがトピック表示欄55に表示された共起キーワード(トピック)のうちの「台東区」を選択すると、選択された共起キーワード(トピック)に対する流行の評価値の時間的推移が評価値表示欄56に表示される。
さらに、ユーザが共起キーワード(トピック)「台東区」を選択した状態でShow Tweetsボタン54を操作すると、検索キーワード「浅草寺」と、選択された共起キーワード(トピック)「台東区」を含むツイートがツイート表示欄57に表示される。ただし、同図においては、ツイート表示欄57におけるツイートの文章を*(アスタリスク)で置換して示している。
また例えば、図8に示されるように、ユーザが検索キーワード入力欄51に検索キーワードとして「野菜」を入力し、Get Tweetsボタン52を操作すると、検索キーワード「野菜」を含むツイートが検索される。ここで、ユーザがGet Topic Words from Tweetsボタン53を操作すると、トピック表示欄55に共起キーワード(トピック)として「子どもが」、「の子ども」、「飲ませた」、「を飲ま」、「食べさせた」、「出荷制限の」、「消費者の」などが流行の評価値とともに表示される。
ユーザがトピック表示欄55に表示された共起キーワード(トピック)のうちの「出荷制限の」を選択すると、選択された共起キーワード(トピック)に対する流行の評価値の時間的推移が評価値表示欄56に表示される。
さらに、ユーザが共起キーワード(トピック)「出荷制限の」を選択した状態でShow Tweetsボタン54を操作すると、検索キーワード「野菜」と、選択された共起キーワード(トピック)「出荷制限の」を含むツイートがツイート表示欄57に表示される。ただし、同図においても、ツイート表示欄57におけるツイートの文章を*(アスタリスク)で置換して示している。
以上説明したように、検索装置10によれば、ユーザが興味を持っている話題を含むツイートをトピック毎にまとめて提示することができる。さらに、検索キーワードを自動設定するようにすれば、ユーザが興味を持っていると推定される話題を含むツイートをトピック毎にまとめて提示することができる。
[流行の評価値の算出方法について]
次に、上述した関連情報検索処理のステップS6における、共起キーワードの流行の評価値を算出する方法について説明する。
まず、検索結果のツイートにおける共起キーワードの出現回数DFを、共起キーワードが出現しているツイートの投稿日時に基づいて離散系の時系列データに変換する。具体的には、共起キーワードの出現回数DFを、所定の測定期間(例えば、24時間)における頻度に変換する。
図9は、頻度の測定期間の設定方法を示している。すなわち、同図Aに示されるように、時間軸Tにおいて頻度の測定期間を重複しないように設けてもよいし、同図Bに示されるように、時間軸Tにおいて頻度の測定期間を重複するように設けてもよい。
時間軸Tにおいて頻度の測定期間を重複しないように設けた場合、各測定区間における頻度の総和が出現回数DFとなる。時間軸Tにおいて頻度の測定期間を重複するように設けた場合、短期間に多数の頻度のサンプルを取得することができる。
ある測定期間tにおける頻度をxとした場合、測定期間tにおける流行の評価値sは、測定期間tと基準としてそれ以前のN個の測定期間t,t−1,t−2,・・・,t−N+1における頻度x,xt−1,xt−2,・・・,xt−N+1を用いて算出される。
具体的には、移動平均m、移動偏差v、評価値sの順に算出される。
移動平均m=(Σx)/N ・・・(1)
移動偏差v=√(((Σ(m−x))/N) ・・・(2)
評価値s=v/vt−1 ・・・(3)
なお、Σは、i=tからi=t−N+1に対応するN個の値の総和を意味する。
例えば、離散系の時系列データとしての頻度xが図10に示されるように推移した場合、その移動平均mは図11に太線で示されるように推移し、移動偏差vは図11に太線を中心として細線で示される帯をして推移する。これに対して、評価値sは図12に示されるように推移する。図13は、図10と図12を重ね合わせて示している。
図13から明らかなように、評価値sは頻度xが急激に変化した場合に大きな値を示すことがわかる。したがって、共起キーワードに対して評価値sを算出すれば、これを世間で話題になっているか(流行しているか)否かの指標として利用できる。
なお、評価値sは、測定期間tが短ければ短期的な流行の傾向を示し、測定期間tが長ければ長期的な流行の傾向を示すことになる。そこで、測定期間tを短期(例えば、1日間=24時間)として算出した評価値st(1日間)と、測定期間tを長期(例えば、1ヶ月=30日間)として算出した評価値st(30日間)とを求め、これらの重み付き平均を最終的な評価値として算出するようにしてもよい。算出された最終的な評価値は、世間で話題になっているか(流行しているか)否かの短期的な流行の傾向と長期的な流行の傾向とを兼ね備えた指標として利用することができる。
[評価値の他の利用先について]
上述した評価値Sは、共起キーワードの流行判定の他に様々な利用が考えられる。
例えば、様々な商品の所定期間における各売り上げ数を上記頻度xとみなして評価値Sを算出すれば、売れ筋の商品を判断するための指標に利用できる。
また、検索キーワードによる検索回数を上記頻度xとみなして評価値Sを算出すれば、世間で話題になっているキーワードを判断するための指標に利用できる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、プログラム記録媒体からインストールされる。
図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
10 検索装置, 11 キーワード設定部, 12 文書検索部, 13 ノイズ除去部, 14 検索インデックス作成部, 15 流行度判定部, 16 トピック抽出部, 17 トピック出力部, 18 トピック文書出力部, 20 データベース, 21 検索文書保存データベース, 22 文書検索インデックスデータベース, 23 トピック保存データベース, 100 コンピュータ, 101 CPU

Claims (7)

  1. 検索キーワードを含む検索リクエストを受信する受信部と、
    データベースに記録されているインターネット上に公開された情報のうち、前記検索キーワードを含む前記情報の間で共通するトピックを抽出する抽出部と、
    抽出された前記トピックの流行度を判定する流行度判定部と、
    前記検索キーワードと流行している前記トピックを用いてユーザに関連情報を提供する提供部と
    を備える情報処理装置。
  2. 前記流行度判定部は、
    測定期間iにおけるサンプリング値xからなる離散系の時系列データとしてデータベースに記録されているインターネット上に公開された情報における前記トピックの頻度を取得し、所定の測定期間t以前の所定の期間に対応するN個のサンプリング値x,xt−1,・・・,xt−N+1の移動平均mに基づく移動偏差vを算出し、測定期間tに対応する移動偏差vと測定期間t−1に対応する移動偏差vt−1とに基づいて、測定期間tにおける前記離散系の時系列データの急激な変化を示す評価値sを算出する評価値算出部を有する
    請求項1に記載の情報処理装置。
  3. 前記評価値算出部は、前記評価値s=移動偏差v/移動偏差vt−1を算出する
    請求項に記載の情報処理装置。
  4. 前記評価値算出部は、連続的な時系列データを測定期間毎に集計して前記離散系の時系列データに変換する
    請求項2または3に記載の情報処理装置。
  5. 前記評価値算出部は、前記測定期間を時間的に重複して設け、連続的な時系列データを前記測定期間毎に集計して前記離散系の時系列データに変換する
    請求項に記載の情報処理装置。
  6. 受信部と、
    抽出部と、
    流行度判定部と、
    提供部とを備える情報処理装置の情報処理方法において、
    前記受信部による、検索キーワードを含む検索リクエストを受信する受信ステップと、
    前記抽出部による、データベースに記録されているインターネット上に公開された情報のうち、前記検索キーワードを含む前記情報の間で共通するトピックを抽出する抽出ステップと、
    流行度判定部による、抽出された前記トピックの流行度を判定する流行度判定ステップと、
    前記提供部による、前記検索キーワードと流行している前記トピックを用いてユーザに関連情報を提供する提供ステップと
    を含む情報処理方法。
  7. コンピュータを、
    検索キーワードを含む検索リクエストを受信する受信部と、
    データベースに記録されているインターネット上に公開された情報のうち、前記検索キーワードを含む前記情報の間で共通するトピックを抽出する抽出部と、
    抽出された前記トピックの流行度を判定する流行度判定部と、
    前記検索キーワードと流行している前記トピックを用いてユーザに関連情報を提供する提供部と
    して機能させるプログラム。
JP2011111644A 2011-05-18 2011-05-18 情報処理装置、情報処理方法、およびプログラム Active JP5679194B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011111644A JP5679194B2 (ja) 2011-05-18 2011-05-18 情報処理装置、情報処理方法、およびプログラム
US13/468,519 US20120330986A1 (en) 2011-05-18 2012-05-10 Information processing apparatus, information processing method, and program
CN201210147815.3A CN102841913B (zh) 2011-05-18 2012-05-11 信息处理装置、信息处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011111644A JP5679194B2 (ja) 2011-05-18 2011-05-18 情報処理装置、情報処理方法、およびプログラム

Publications (3)

Publication Number Publication Date
JP2012243032A JP2012243032A (ja) 2012-12-10
JP2012243032A5 JP2012243032A5 (ja) 2014-05-15
JP5679194B2 true JP5679194B2 (ja) 2015-03-04

Family

ID=47362830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011111644A Active JP5679194B2 (ja) 2011-05-18 2011-05-18 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20120330986A1 (ja)
JP (1) JP5679194B2 (ja)
CN (1) CN102841913B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101758555B1 (ko) * 2016-03-08 2017-07-17 아주대학교산학협력단 토픽 표현 추출 방법 및 그 시스템

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477760B2 (en) * 2014-02-12 2016-10-25 Facebook, Inc. Query construction on online social networks
JP6395287B2 (ja) * 2014-06-02 2018-09-26 日本放送協会 イベント検出装置およびプログラム
JP2016099875A (ja) * 2014-11-25 2016-05-30 エコノミックインデックス株式会社 情報処理装置及び方法、並びにプログラム
JP2016110533A (ja) * 2014-12-10 2016-06-20 大日本印刷株式会社 情報処理装置、情報処理システム及びプログラム
US10698959B1 (en) * 2016-09-01 2020-06-30 United Services Automobile Association (Usaa) Social warning system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6853950B1 (en) * 1999-07-20 2005-02-08 Newsedge Corporation System for determining changes in the relative interest of subjects
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
KR100443483B1 (ko) * 2004-04-23 2004-08-09 엔에이치엔(주) 급상승 검색어 검출 방법 및 시스템
US20070073708A1 (en) * 2005-09-28 2007-03-29 Smith Adam D Generation of topical subjects from alert search terms
WO2007043322A1 (ja) * 2005-09-30 2007-04-19 Nec Corporation トレンド評価装置と、その方法及びプログラム
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
CN101059815A (zh) * 2007-05-09 2007-10-24 宋鸣 网络文摘定制搜索引擎
WO2008151148A1 (en) * 2007-06-01 2008-12-11 Getty Images, Inc. Method and system for searching for digital assets
US7860878B2 (en) * 2008-02-25 2010-12-28 Yahoo! Inc. Prioritizing media assets for publication
JP4618325B2 (ja) * 2008-04-28 2011-01-26 ソニー株式会社 情報処理装置及び情報処理方法並びにプログラム
JP5258532B2 (ja) * 2008-06-10 2013-08-07 ヤフー株式会社 評判指数を出力する方法及び評判指数出力装置
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US20110320715A1 (en) * 2010-06-23 2011-12-29 Microsoft Corporation Identifying trending content items using content item histograms

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101758555B1 (ko) * 2016-03-08 2017-07-17 아주대학교산학협력단 토픽 표현 추출 방법 및 그 시스템

Also Published As

Publication number Publication date
JP2012243032A (ja) 2012-12-10
CN102841913B (zh) 2017-03-01
US20120330986A1 (en) 2012-12-27
CN102841913A (zh) 2012-12-26

Similar Documents

Publication Publication Date Title
JP5768492B2 (ja) 情報処理装置、情報処理方法、およびプログラム
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
JP6007088B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
US9122680B2 (en) Information processing apparatus, information processing method, and program
JP5679194B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
US20130054672A1 (en) Systems and methods for contextualizing a toolbar
US20120036144A1 (en) Information and recommendation device, method, and program
JP5143057B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP5541049B2 (ja) データ生成装置、データの生成方法及びデータ生成プログラム
JP5269938B2 (ja) 急上昇ワード関連付け装置及び方法
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
JP2018504686A (ja) 検索データを処理するための方法及び装置
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
CN116508004A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
TWI507902B (zh) A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium
JP5406794B2 (ja) 検索クエリ推薦装置及び検索クエリ推薦プログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP7055764B2 (ja) 対話制御システム、対話制御方法及びプログラム
JP5844887B2 (ja) 通信ネットワークを通じたビデオ・コンテンツ検索のための支援
JP5277090B2 (ja) リンク作成支援装置、リンク作成支援方法およびプログラム
JP2018092367A (ja) 関連語抽出装置及びプログラム
WO2013033445A2 (en) Systems and methods for contextualizing a toolbar, an image and inline mobile banner advertising
JP7191763B2 (ja) 変換装置、変換方法及び変換プログラム
CN111753533B (zh) 标题文本生成方法、装置、计算机存储介质和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141224

R151 Written notification of patent or utility model registration

Ref document number: 5679194

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250