JP2011095905A

JP2011095905A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2011095905A
Application number: JP2009247755A
Authority: JP
Inventors: Masaaki Isotsu; 政明礒津; Tsugutomo Enami; 嗣智榎並
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-10-28
Filing date: 2009-10-28
Publication date: 2011-05-12
Also published as: US20110099003A1; CN102054018A; US9122680B2; CN102054018B

Abstract

【課題】ユーザにとって意外性の高い文章を抽出できるようにする。
【解決手段】カテゴリ分類部８２は、ドキュメントを複数のカテゴリのうちの１以上のカテゴリに分類する。単語抽出部８３は、ドキュメントから１以上の単語を抽出する。単語抽出部８３により抽出された１以上の単語の各々について、単語スコア算出部８４は、１以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する。スコア演算用文章抽出部８５は、ドキュメントの中から１以上の文章を抽出する。スコア演算用文章抽出部８５により抽出された１以上の文章の各々について、文章スコア算出部８は、単語スコアに基づいて文章の意外性の指標となる文章スコアを算出する。本発明は、携帯電話機に適用することができる。
【選択図】図４

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、ユーザにとって意外性の高い文章を抽出できるようにした、情報処理装置および方法、並びにプログラムに関する。

インターネットの普及により、ユーザは、膨大な量のドキュメントを容易に取得できるようになった。しかしながら、ユーザにとって、このような膨大な量のドキュメントの中から、１つのドキュメントを見つけ出すことは容易な作業ではない。ここで、ドキュメントとは、１以上の文章の集合体をいう。

このため、従来より、様々なドキュメントの検索手法が用いられている。例えば、一般的なドキュメントの検索手法として、インターネット上のWebサイトの検索エンジンが、入力されたクエリー語を含むWebページを検索して表示する、という手法が広く知られている。しかしながら、一般的な語句がクエリー語として入力された場合には、検索結果として表示されるドキュメントの数は、ユーザが所望のドキュメントを見つけ出すことできる範囲を遥かに超えてしまう。

そこで、例えば特許文献１には、ドキュメントをさらに絞り込んで検索する手法として、ドキュメントの話題の量や密度に関連した基準でドキュメントを順位付け、所定の順位までのドキュメントを検索結果として表示するという手法が開示されている。かかる手法は、文書ランキング手法と称されている。このような文書ランキング手法を用いることで、検索結果として表示されるドキュメントの数は、ユーザが所望のドキュメントを見つけ出すことできる範囲内まである程度絞られる。

特開２００８−０７７２５２号公報

しかしながら、ユーザが最終的に期待する検索結果は、ドキュメントレベルではなく文章レベルの結果であることが多い。しかも、近年のユーザは、より興味を引く文章を望んでいるため、意外性のある文章を検索結果として提示することが要求されている。

文書ランキング手法では、このような要求に応えることはできない。すなわち、文書ランキング手法は、ドキュメントに対する話題の量や密度を評価基準としてドキュメントが順位付けされるので、ドキュメントを構成する文章自体の一般性や意外性は判断されない。このため、文書ランキング手法を用いた場合には、意外性のある文章を検索することは非常に困難である。

ところで、ドキュメント群の中から、特徴的な単語を抽出する手法として、情報検索の分野では、TF-IDF（Term Frequency,Inverse Document Frequency）が広く用いられている。このTF-IDFを文書ランキング手法に適用して文章を検索することも可能であるが、この場合であっても、意外性のある文章を検索結果として提示するという要求に十分に応えることは困難である。すなわち、IDF値は、単語の一般性／希少性の指標となり得るが、ドキュメント群全体を対象として算出される。このため、TF-IDFを用いて抽出された単語は、たとえ希少な単語であっても意外性のある単語であるとは限らない。したがって、希少な単語を含む文章を単純に検索結果としてユーザに提示しても、ユーザにとって意外性のある文章であるとは限らない。

本発明は、このような状況に鑑みてなされたものであり、ユーザにとって意外性の高い文章を抽出できるようにするものである。

本発明の一側面の情報処理装置は、ドキュメントを、複数のカテゴリのうちの１以上のカテゴリに分類するカテゴリ分類手段と、前記ドキュメントから、１以上の単語を抽出する単語抽出手段と、前記単語抽出手段により前記ドキュメントから抽出された前記１以上の単語の各々について、前記カテゴリ分類手段により前記ドキュメントが分類された前記１以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する単語スコア算出手段と、前記ドキュメントの中から、１以上の文章を抽出する演算用文章抽出手段と、前記演算用文章抽出手段により抽出された前記１以上の文章の各々について、前記単語スコア算出手段により算出された前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する文章スコア算出手段とを備える。

前記カテゴリ分類手段は、前記複数のカテゴリのうち何れかを特定可能な複数のキーワードを含むリストを取得する取得手段と、前記ドキュメントの中に、前記リストに含まれる前記キーワードと一致する単語が存在している場合、前記ドキュメントを、前記単語と一致した前記キーワードにより特定されるカテゴリに分類する分類手段を有することができる。

前記ドキュメントについて、前記文章スコア算出手段により算出された前記１以上の前記文章スコアの一覧を生成する文章スコア一覧生成手段をさらに備えることができる。

前記ドキュメントの一般性が高い場合には、前記文章スコア一覧生成手段により生成された前記文章スコアの一覧に含まれる前記１以上の文章スコアのうち、上位Ｎ（Ｎは１以上の整数値）位までのスコアを有する文章を前記ドキュメントから抽出し、前記ドキュメントの一般性が低い場合には、前記文章スコアの一覧に含まれる前記１以上の文章スコアのうち、下位Ｍ（Ｍは１以上の整数値）位までのスコアを有する文章を前記ドキュメントから抽出する提示用文章抽出手段と、前記提示用文章抽出手段により抽出された前記文章を提示する提示手段をさらに備えることができる。

前記提示用文章抽出手段は、前記提示手段による提示の条件に基づいて、前記Ｎ又は前記Ｍの値を決定することができる。

本発明の一側面の情報処理方法およびプログラムは、上述した本発明の一側面の情報処理装置に対応する方法およびプログラムである。

本発明の一側面の情報処理装置および方法並びにプログラムにおいては、ドキュメントが、複数のカテゴリのうちの１以上のカテゴリに分類され、前記ドキュメントから、１以上の単語が抽出される。前記ドキュメントから抽出された前記１以上の単語の各々について、前記ドキュメントが分類された前記１以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアが算出される。前記ドキュメントの中から、１以上の文章が抽出され、抽出された前記１以上の文章の各々について、前記単語スコアに基づいて、文章の意外性の指標となる文章スコアが算出される。

以上のごとく、本発明によれば、ユーザにとって意外性の高い文章を抽出できる。

本発明の文章抽出システムの構成を示すブロック図である。携帯端末の機能的構成例を示すブロック図である。サーバのハードウエア構成例を示すブロック図である。 CPUの機能的構成例を示すブロック図である。カテゴリ分類部の機能的構成例を示すブロック図である。ユーザ提示用文章抽出部の機能的構成例を示すブロック図である。文章スコア算出処理の一例を説明するフローチャートである。ドキュメントの具体例について説明する図である。カテゴリ分類処理の一例を説明するフローチャートである。カテゴリ分類処理の結果を示す図である。カテゴリ分類処理の他の結果を示す図である。隠れマルコフモデルの確率モデルの例を示す図である。単語抽出処理の結果を示す図である。カテゴリに分類されたドキュメント数の例を示す図である。単語スコア算出処理の結果を示す図である。文章スコアの一覧を示す図である。文章抽出処理の一例を説明するフローチャートである。表示可能文章抽出処理の一例を説明するフローチャートである。携帯端末の表示例について説明する図である。

以下、図面を参照して、本発明の実施の形態について説明する。

[本発明が適用される文章抽出システムの構成例]
図１は、本発明の文章抽出システムの構成例を示すブロック図である。

図１の文章抽出システム１は、携帯端末１２およびサーバ１３がネットワーク１１を介して相互に接続されて構成されている。

情報処理装置としてのサーバ１３は、ネットワーク１１に接続された他の装置に対して、各種サービスを提供する。

携帯端末１２は、例えばユーザが持ち運び自在な携帯電話機等で構成され、ネットワーク１１を介してサーバ１３と通信することで、サーバ１３からサービスの提供を受ける。

なお、ネットワーク１１は、例えば本実施の形態では、インターネットで構成される。ただし、ネットワーク１１は、特にインターネットに限定されず、その他LAN(Loal Area Network)等様々な形態を取ったり、それらを一部に含むことが可能である。

[携帯端末１２の構成例]
図２は、図１の文章抽出システム１のうちの携帯端末１２の機能的構成例を示すブロック図である。

図２の携帯端末１２は、入力部３１、通信部３２、および表示部３３から構成される。

入力部３１は、ボタンやジョグダイヤル等で構成され、所定のキーワードやURL（Uniform Resource Locator）等の文字列を入力するときユーザにより操作される。

通信部３２は、ネットワーク１１を介するサーバ１３との通信を制御する。例えば、通信部３２は、入力部３１に入力された文字列を、ネットワーク１１を介してサーバ１３に送信する。また例えば、通信部３２は、サーバ１３によるサービスの提供に伴い、サーバ１３から送信されてきた文章や画像等の情報をネットワーク１１を介して受信する。

表示部３３は、通信部３２に受信された文章や画像等の情報を表示する。

[サーバ１３の構成例]
図３は、図１の文章抽出システム１のうちのサーバ１３のハードウェア構成例を示すブロック図である。

図３のサーバ１３において、CPU（Central Processing Unit）５１は、ROM（Read Only Memory）５２に記録されているプログラム、または記憶部５８からRAM（Random Access Memory）５３にロードされたプログラムに従って各種の処理を実行する。RAM５３にはまた、CPU５１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

例えば本実施の形態では、後述する図４のドキュメント取得部８１乃至ユーザ提示用文章抽出部８８の各機能を実行するプログラムが、ROM５２や記憶部５８に記憶されている。従って、CPU５１が、このプログラムに従った処理を実行することで、ドキュメント取得部８１乃至ユーザ提示用文章抽出部８８の各機能を実現することができる。

CPU５１、ROM５２、およびRAM５３は、バス５４を介して相互に接続されている。このバス５４にはまた、入出力インタフェース５５も接続されている。

入出力インタフェース５５には、キーボード、マウスなどよりなる入力部５６、ディスプレイなどよりなる出力部５７が接続されている。入出力インタフェース５５にはまた、ハードディスクなどより構成される記憶部５８、および、モデム、ターミナルアダプタなどより構成される通信部５９が接続されている。

記憶部５８には、複数の種類のドキュメント群が記憶されている。１のドキュメント群は、ネットワーク１１上の図示せぬ各種装置から取得された様々なドキュメントのうち、所定の種類の内容を含む１以上のドキュメントから構成されている。たとえば、有名人に関する内容を含む１以上のドキュメントから構成されるドキュメント群が記憶部５８に記憶されている。ドキュメントは、１以上の文章の集合体である。

また、記憶部５８には、キーワードのリストが記憶されている。このキーワードのリストは、図９を参照して後述するドキュメントのカテゴリ分類処理において用いられる。さらに、記憶部５８には、後述する文章スコアの一覧が記憶されている。

提示手段としての通信部５９は、ネットワーク１１を介して携帯端末１２との間で行う通信を制御する。

入出力インタフェース５５にはまた、必要に応じてドライブ６０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア６１が適宜装着される。そして、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部５８にインストールされる。

[CPU５１の構成例]
図４は、図３のサーバ１３のCPU５１の機能的構成例を示すブロック図である。

図４のCPU５１は、ドキュメント取得部８１、カテゴリ分類部８２、単語抽出部８３、単語スコア算出部８４、スコア演算用文章抽出部８５、文章スコア算出部８６、文章スコア一覧生成部８７、およびユーザ提示用文章抽出部８８から構成される。

ドキュメント取得部８１は、例えば通信部５９を制御して、ネットワーク１１に接続された図示せぬ各種装置からWebページ等の複数のドキュメントを受信し、それらの複数のドキュメントをまとめてドキュメント群として取得する。取得されたドキュメント群は、記憶部５８に記憶される。

カテゴリ分類部８２は、ドキュメント取得部８１により取得されたドキュメント群に含まれる複数のドキュメントの各々を、複数のカテゴリのうちの１以上のカテゴリに分類する。

ドキュメント取得部８１は、ドキュメント群のうち、カテゴリ分類部８２によるカテゴリ分類が既に行われたドキュメントの１つを処理対象として選択する。

単語抽出部８３は、ドキュメント取得部８１により選択された処理対象のドキュメントに含まれる複数の単語を抽出する。

単語スコア算出部８４は、単語抽出部８３により抽出された単語毎に単語スコアを算出する。単語スコアとは、その単語の一般性や希少性の指標値となる値である。単語スコアについては、図７のステップＳ５の処理において詳細に説明する。

演算用文章抽出手段としてのスコア演算用文章抽出部８５は、ドキュメント取得部８１により選択された処理対象のドキュメントに含まれる１以上の文章を抽出する。

文章スコア算出部８６は、スコア演算用文章抽出部８５により抽出された１以上の文章毎に文章スコアを算出する。文章スコアとは、その文章の一般性や希少性の指標値となる値である。文章スコアについては、図７のステップＳ７の処理において詳細に説明する。

文章スコア一覧生成部８７は、処理対象のドキュメントに含まれる１以上の文章の各々について、文章スコア算出部８６により算出された文章スコアの一覧を生成する。

ユーザ提示用文章抽出部８８は、ドキュメント群の中から、文章スコア一覧生成部８７により文章スコアの一覧が既に生成されているドキュメントを抽出する。さらに、ユーザ提示用文章抽出部８８は、抽出されたドキュメントの中から、ユーザに提示する文章を抽出する。たとえば、文章スコア一覧生成部８７は、文章スコアの一覧を用いて、希少性または一般性が高い文章を抽出する。なお、ユーザ提示用文章抽出部８８による文章の抽出手法の具体例については、図１７を参照して後述する。

[カテゴリ分類部８２の構成例]
図５は、図４のカテゴリ分類部８２の詳細な機能的構成例を示すブロック図である。

図５のカテゴリ分類部８２は、取得部１０１、選択部１０２、分類部１０３、および判定部１０４から構成される。

取得部１０１は、記憶部５８に記憶されているキーワードのリストを取得する。キーワードのリストとは、所定のカテゴリに予め分類された１以上のキーワードが含まれているリストをいう。なお、キーワードのリストは、図９を参照して後述するドキュメントのカテゴリ分類処理において用いられる。

選択部１０２は、ドキュメント取得部８１により取得されたドキュメント群に含まれる１のドキュメントを、処理対象のドキュメントとして選択する。

分類部１０３は、取得部１０１により取得されたキーワードのリストを用いて、選択部１０２により選択された処理対象のドキュメントを、複数のカテゴリのうちの１以上のカテゴリに分類する。ここで、１以上としたのは、１のドキュメントが、１つのカテゴリに分類されるのみならず、複数のカテゴリに分類される場合もあるからである。

判定部１０４は、ドキュメント群に含まれる全てのドキュメントがカテゴリ分類されたか否かを判定する。カテゴリ分類がなされていないドキュメントが存在すると判定された場合には、そのドキュメントが、選択部１０２により選択されて処理対象となり、分類部１０３によるカテゴリ分類の処理が実行される。

[ユーザ提示用文章抽出部８８の構成例]
図６は、図４のユーザ提示用文章抽出部８８の機能的構成例を示すブロック図である。

図６のユーザ提示用文章抽出部８８は、検索部１２１、抽出部１２２、評価部１２３、記憶制御部１２４、および選択部１２５から構成される。

本実施形態では、ドキュメント群と、文章スコア一覧生成部８７によりドキュメント毎に生成された文章スコアの一覧とが記憶部５８に記憶されている状態で、ユーザが、携帯端末１２を操作して、ドキュメント群の中からドキュメントを検索する指示を出すものとする。

この場合、検索部１２１は、携帯端末１２からのドキュメントの検索の指示にしたがって、ドキュメント群の中から所定のドキュメントを検索する。

提示用文章抽出手段としての抽出部１２２は、検索部１２１により検索されたドキュメント及びその文章スコアの一覧を記憶部５８から抽出する。

評価部１２３は、抽出部１２２により抽出されたドキュメントの一般性を評価する。なお、一般性を評価することは希少性を評価することでもある。或いはまた、評価部１２３は、抽出部１２２により抽出されたドキュメントに関係する出演者の人気を評価する。なお、人気の評価は、知名度の評価と等価である。さらに、評価部１２３は、抽出部１２２により抽出された文章スコアの一覧に基づいて、抽出部１２２により抽出されたドキュメントの各々に含まれる文章を評価する。なお、評価部１２３による評価手法の具体例については、図１７および図１８を用いて後述する。

抽出部１２２は、評価部１２３による評価に基づいて、先に抽出されたドキュメントの中から、ユーザに提示する文章を抽出する。

記憶制御部１２４は、抽出部１２２により抽出された文章を、携帯端末１２に表示する表示候補として、記憶部５８に記憶する。なお、表示候補は、１つの文章であってもよいし、複数の文章であってもよい。

選択部１２５は、記憶制御部１２４によって登録された表示候補の文章の中から、携帯端末１２の表示領域の条件を満たす文章を選択して、通信部５９を介して携帯端末１２に提示する。

[文章スコア算出処理]
本発明の文章抽出システム１においては、サーバ１３が、ドキュメントに含まれる各文章毎に文章スコアを算出して、それらの文章スコアの一覧を生成する文章スコア算出処理が実行される。記憶部５８に記憶されているドキュメント群を構成する各ドキュメント毎に、文章スコア算出処理が繰り返し実行される。その後、図１７以降の図面を参照して後述するように、このようにして記憶部５８に記憶された文章スコアの一覧を用いて、ユーザに意外性の高い文章を提示する処理が実行される。すなわち、文章スコア算出処理は、ユーザに意外性の高い文章を提示するための前処理として実行される。

図７は、サーバ１３による文章スコア算出処理の一例を説明するフローチャートである。

ステップＳ１において、ドキュメント取得部８１は、ドキュメント群を取得する。すなわち、ドキュメント取得部８１は、例えば通信部５９を制御して、ネットワーク１１に接続された図示せぬ各種装置からWebページ等の複数のドキュメントを受信し、それらの複数のドキュメントをまとめてドキュメント群として取得する。取得されたドキュメント群は、記憶部５８に記憶される。

ここで、図８を参照して、ドキュメント群に含まれるドキュメントの具体例について説明する。

図８は、ドキュメントの具体例について説明する図である。

図８に示される例では、有名人に関するドキュメント群に含まれるドキュメントＸ，Ｙ，Ｚの３つが示されている。

なお、ドキュメントＸ，Ｙ，Ｚは日本語によるドキュメントのため、文章は句点により区切られている。

図８Ａに示されるドキュメントＸは、「歌手ｘは、2000年にＡＡ高校を卒業。Ｂのプロデュースによる「ＣＣ」で歌手デビューした。2002年、ＲＷ歌合戦に初出場し、「ＤＤ」を歌った。2003年、写真集発売を記念して、ＥＥ会を開催。2005年、ＦＦグループのイメージキャラクタとなる。」という内容である。

図８Ｂに示されるドキュメントＹは、「俳優ｙは、東京都出身の日本の女優。父親は、元サッカー日本代表のＧＧ選手。2001年にＨＨ音楽大学を卒業し、俳優としてデビューした。2004年には、日本アカデミー賞新人俳優賞を受賞している。2005年には、映画ＩＩにヒロインとして出演、ＪＪの役を演じて話題になった。ピアニストとしても有名であり、2006年にはコンサートでＫＫ協奏曲を演奏した。」という内容である。

図８Ｃに示されるドキュメントＺは、「スポーツ選手ｚは、北海道出身で、ＬＬチームに所属する選手である。2001年、日本代表に初選出され、以後、連続出場記録を更新し続けている。2003年には、歌手としてデビューも果たしている。2004年、3本のテレビＣＭに出演した。」という内容である。

ステップＳ２において、カテゴリ分類部８２は、カテゴリ分類処理を実行する。

ここで、カテゴリ分類処理の詳細例について説明する。

図９は、カテゴリ分類部８２によるカテゴリ分類処理の一例を説明するフローチャートである。

ステップＳ３１において、取得部１０１は、キーワードのリストを取得する。ここで、キーワードのリストとは、所定のカテゴリに予め分類された１以上のキーワードが含まれているリストをいう。例えば、「歌手」のカテゴリに属するキーワードのリストとは、例えば「歌手」のカテゴリに予め分類された「アルバム」、「ＲＷ歌合戦」等のキーワードを含むリストをいう。このようなキーワードのリストは、カテゴリ毎に取得される。例えば本実施形態では、図示はしないが、「歌手」、「ピアニスト」、「俳優」、および「スポーツ選手」といった４つのカテゴリについて、キーワードのリストがそれぞれ取得される。

ステップＳ３２において、選択部１０２は、処理対象のドキュメントを選択する。すなわち、選択部１０２は、ステップＳ１において取得されたドキュメント群の中から１のドキュメントを、処理対象として選択する。

ステップＳ３３において、分類部１０３は、処理対象のドキュメントをキーワードに対応するカテゴリに分類する。すなわち、分類部１０３は、処理対象のドキュメントを構成する単語と一致するキーワードを、キーワードのリストから検索する。キーワードと一致する単語が検索された場合、処理対象のドキュメントは、そのキーワードのリストが属するカテゴリに分類される。

ステップＳ３４において、判定部１０４は、全ドキュメントが処理対象に選択されたか否かを判定する。

ステップＳ３４において、まだ全ドキュメントが処理対象に選択されていないと判定された場合、処理はステップＳ３２に戻され、それ以降の処理が繰り返される。すなわち、ステップＳ１において取得されたドキュメント群に含まれるドキュメントの各々が処理対象に１つずつ選択されて、ステップＳ３２乃至Ｓ３４のループ処理が繰り返されて、カテゴリ分類が行われる。そして、最後のドキュメントに対するステップＳ３３の処理が終了すると、ステップＳ１において取得されたドキュメント群に含まれる全ドキュメントのカテゴリ分類が終了する。そこで、次のステップＳ３４において、全ドキュメントが処理対象に選択されていると判定されて、カテゴリ分類処理は終了する。

なお、上述のカテゴリ分類処理の例では、集合知による人為的なキーワードを利用して、ドキュメントをカテゴリに分類する手法が採用されている。しかしながら、カテゴリ分類の手法については、上述の例に特に限定されず、例えば、機械学習によるカテゴリ分類の手法を採用することもできる。

機械学習によるカテゴリ分類の手法としては、例えばベイズの定理を適用した単純ベイズ分類器を用いることができる。単純ベイズ分類器は、例えば、ドキュメントＤを構成する「各単語」がカテゴリＣに属する確率を算出する。そして、単純ベイズ分類器は、各単語がカテゴリＣに属する確率をまとめて、「ドキュメントＤ」がカテゴリＣに属する確率を算出する。すなわち、ドキュメントＤがカテゴリＣに属する確率P(C|D)は、次の式（１）に従って算出される。

本実施形態では、以上のカテゴリ分類処理の結果、ドキュメントＸ，Ｙ，Ｚは、例えば図１０と図１１に示されるようにカテゴリに分類される。

図１０は、カテゴリ分類処理の結果を示す図であって、カテゴリの視点から見た結果を示す図である。

図１０において、有名人に関するドキュメント群に含まれるドキュメントＸ，Ｙ，Ｚは、「歌手」，「ピアニスト」，「俳優」，「スポーツ選手」の４種類のカテゴリのうちの１以上のカテゴリに分類されている。

図１０Ａに示されるように、「歌手」のカテゴリには、ドキュメントＸとドキュメントＺが含まれる。

図１０Ｂに示されるように、「ピアニスト」のカテゴリには、ドキュメントＹが含まれる。

図１０Ｃに示されるように、「俳優」のカテゴリには、ドキュメントＹが含まれる。

図１０Ｄに示されるように、「スポーツ選手」のカテゴリには、ドキュメントＺが含まれる。

図１１は、カテゴリ分類処理の結果を示す図であって、ドキュメントの視点から見た結果を示す図である。

図１１Ａに示されるように、ドキュメントＸには、分類されたカテゴリを示すタグとして、「歌手」のカテゴリを示すタグが付されている。

図１１Ｂに示されるように、ドキュメントＹには、分類されたカテゴリを示すタグとして、「俳優」と「ピアニスト」のタグが付されている。

図１１Ｃに示されるように、ドキュメントＺには、分類されたカテゴリを示すタグとして、「スポーツ選手」と「歌手」のタグが付されている。

図１０と図１１に示されるように、ドキュメントＹは、「俳優」と「ピアニスト」の２つのカテゴリに分類されている。また、ドキュメントＺは、「スポーツ選手」と「歌手」の２つのカテゴリに分類されている。このように、１つのドキュメントは複数のカテゴリに分類される場合がある。

図７のフローチャートの説明に戻り、以上のステップＳ２のカテゴリ分類処理の後、ステップＳ３において、ドキュメント取得部８１は、処理対象のドキュメントを選択する。すなわち、ドキュメント取得部８１は、カテゴリに分類されたドキュメント群の中から、その１つを処理対象のドキュメントとして選択する。

ステップＳ４において、単語抽出部８３は、処理対象のドキュメントの中から単語を抽出する。

ここで、処理対象のドキュメントの中から単語を抽出する処理（以下、単語抽出処理と称する）の詳細例について説明する。

単語抽出処理の手法として、ドキュメント全体に形態素解析処理を施し、品詞レベルで単語を抽出する手法がある。日本語や英語等の形態素解析で広く用いられている統計的手法として、隠れマルコフモデルがある。隠れマルコフモデルは、入力文から生成できる単語列をすべて列挙して、単語同士が連結して出現する確率にスコアを付与し、文章全体でスコアが最も高くなる品詞列を取り出す手法である。なお、本手法は、各言語向けに様々な形態素解析システムが提供されているので、使用言語に依存しない。

図１２は、隠れマルコフモデルの確率モデルの例を示す図である。

図１２において、入力文が入力される時の初期状態「開始」には、状態Ｍ１の符号が付与されている。入力文から生成できる単語列のそれぞれが円状のノードにより示されており、それぞれのノードには状態Ｍ２乃至状態Ｍ６の符号が付与されている。状態Ｍ１乃至状態Ｍ６のうち第１の状態から第２の状態への状態遷移は、第１の状態から第２の状態へ引かれた矢印により示されており、矢印上の数値は、第１の状態から第２の状態へ遷移する確率を示している。すなわち、矢印上の数値は、第１の状態に示されている単語列と第２の状態に示されている単語列が連結して出現する確率を示している。

具体的には例えば、状態Ｍ１の「開始」から状態Ｍ２の「晴れなので」に遷移する確率は0.6であり、状態Ｍ１から状態Ｍ３の「雨なので」に遷移する確率は0.4である。すなわち、初期状態から状態Ｍ２の単語列「晴れなので」と状態Ｍ３の単語列「雨なので」が連結して出現する確率は、状態Ｍ２の単語列「晴れなので」の方が、状態Ｍ３の単語列「雨なので」よりも高い確率であることが分かる。

次に、状態Ｍ２の「晴れなので」から、状態Ｍ４の「散歩した」に遷移する確率、状態Ｍ５の「買い物した」に遷移する確率、状態Ｍ６の「寝ていた」に遷移する確率は、それぞれ0.5,0.4,0.1である。すなわち、状態Ｍ２の単語列「晴れなので」という単語が入力された場合、次に連結して出現する単語列の確率としては、状態Ｍ４の単語列「散歩した」と状態Ｍ５の単語列「買い物した」の確率が高くなる。これに対して、状態Ｍ２の単語列「晴れなので」という単語が入力された場合、状態Ｍ６の単語列「寝ていた」が連結して出現する確率は低くなる。このため、図１２の例では、状態Ｍ２の単語列「晴れなので」から状態Ｍ４の単語列「散歩した」と状態Ｍ５の単語列「買い物した」が連結して出現する確率は、それぞれ0.5,0.4と高くなっている。また、状態Ｍ２の単語列「晴れなので」から状態Ｍ６の単語列「寝ていた」が連結して出現する確率は、0.1と低くなっている。

同様に、状態Ｍ３の「雨なので」から、状態Ｍ４の「散歩した」に遷移する確率、状態Ｍ５の「買い物した」に遷移する確率、状態Ｍ６の「寝ていた」に遷移する確率は、それぞれ0.1,0.6,0.3である。すなわち、状態Ｍ３の単語列「雨なので」という単語が入力された場合、次に連結して出現する単語列の確率としては、状態Ｍ５の単語列「買い物した」と状態Ｍ６の単語列「寝ていた」の確率が高くなる。これに対して、状態Ｍ３の単語列「雨なので」という単語が入力された場合、状態Ｍ４の単語列「散歩した」が連結して出現する確率は低くなる。このため、図１２の例では、状態Ｍ３の単語列「雨なので」から状態Ｍ５の単語列「買い物した」と状態Ｍ６の「寝ていた」が連結して出現する確率は、それぞれ0.6,0.3と高くなっている。また、状態Ｍ３の単語列「雨なので」から状態Ｍ４の単語列「散歩した」が連結して出現する確率は、0.1と低くなっている。

図１２に示される隠れマルコフの確率モデルを用いた結果、状態Ｍ２の「晴れなので」と状態Ｍ４の「散歩した」が連結して生成される文章「晴れなので散歩した」の文章全体のスコアは0.6×0.5=0.3である。また、状態Ｍ２の「晴れなので」と状態Ｍ５の「買い物した」が連結して生成される文章「晴れなので買い物した」の文章全体のスコアは0.6×0.4=0.24である。また、状態Ｍ２の「晴れなので」と状態Ｍ６の「寝ていた」が連結して生成される文章「晴れなので寝ていた」の文章全体のスコアは0.6×0.1=0.06である。したがって、この３つの文章からスコアが最も高くなる文章「晴れなので散歩した」が選択され、文章中に含まれる品詞列「晴れなので」と「散歩した」が取り出される。

同様に、状態Ｍ３の「雨なので」と状態Ｍ４の「散歩した」が連結して生成される文章「雨なので散歩した」の文章全体のスコアは0.4×0.1=0.04である。また、状態Ｍ３の「雨なので」と状態Ｍ５の「買い物した」が連結して生成される文章「雨なので買い物した」の文章全体のスコアは0.4×0.6=0.24である。また、状態Ｍ３の「雨なので」と状態Ｍ６の「寝ていた」が連結して生成される文章「雨なので寝ていた」の文章全体のスコアは0.4×0.3=0.12である。したがって、この３つの文章からスコアが最も高くなる文章「雨なので買い物した」が選択され、文章中に含まれる品詞列「雨なので」と「買い物した」が取り出される。

本実施形態では、以上説明した隠れマルコフモデルのように、ドキュメント全体に形態素解析処理を施し、品詞レベルで単語を抽出する手法が、上述の単語抽出処理における単語を抽出する手法として採用されている。しかしながら、単語を抽出する手法については、本実施形態の例に特に限定されず、例えば、ハイパーリンクに限定して、リンクが設定されている単語のみを抽出する手法等を採用することもできる。この手法を採用する場合、例えば、特徴のある単語にはリンクが設定されているフリー百科事典「ウィキペディア（Wikipedia）」等の手法を利用することができる。

いずれの単語を抽出する手法を採用した場合であっても、単語抽出処理により抽出される単語としては、ドキュメント内のすべての単語を網羅してもよいし、一定以上の基準を満たした複数の単語でもよい。

以上の単語抽出処理の結果、本実施形態では例えば、図１３に示されるように、ドキュメントＸ，Ｙ，Ｚの中からそれぞれ単語が抽出される。

図１３は、単語抽出処理の結果を示す図である。

図１３Ａに示されるように、ドキュメントＸからは、「卒業」，「プロデュース」，「ＲＷ歌合戦」，「写真集」，「イメージキャラクタ」という単語が抽出されている。

図１３Ｂに示されるように、ドキュメントＹからは、「東京都」，「サッカー日本代表」，「アカデミー賞」，「ヒロイン」，「ピアニスト」という単語が抽出されている。

図１３Ｃに示されるように、ドキュメントＺからは、「北海道」，「日本代表」，「連続出場」，「歌手」，「テレビＣＭ」という単語が抽出されている。

図７のフローチャートの説明に戻り、以上のステップＳ４の単語抽出処理の後、ステップＳ５において、単語スコア算出部８４は、抽出された単語毎に単語スコアを算出する。

ここで、抽出された単語毎に単語スコアを算出する処理（以下、単語スコア算出処理と称する）の詳細例について説明する。

従来のIDF値の算出は、ドキュメント集合全体を対象として算出される。しかしながら、本発明が適用されるサーバ１３においては、単語スコア算出部８４によって、IDF値の算出は、カテゴリを対象として算出される。したがって、単語スコア算出部８４においてカテゴリを対象として算出されるIDF値を、Ｆ値と称する。Ｆ値は、次の式（２）のように示される。

式（２）において、Ｔは、ドキュメントが属するカテゴリ集合を示し、Ｃは、ドキュメントが属するカテゴリを示し、Ｎ_Ｃは、カテゴリＣに属するドキュメントの総数を示し、ｄｆ_ｔ、Ｃは、カテゴリＣに属するドキュメントのうち単語ｔが出現するドキュメントの数を示している。したがって、Ｆ値、すなわち式（２）で表されるＦ_ｔ、Ｃは、カテゴリ内での単語ｔの出現頻度をモデル化したものとみなすことができる。本実施形態では、式（２）を用いて算出されるＦ値が、単語スコアとして用いられる。

例えば、ドキュメントの総数Ｎ_ＣのカテゴリＣにおいて、単語ｔが出現するドキュメントの数ｄｆ_ｔ,Ｃが多くなるほど、その単語ｔは一般性が高い単語であるといえる。ドキュメントの総数Ｎ_ＣのカテゴリＣにおいて、単語ｔが出現するドキュメントの数ｄｆ_ｔ,Ｃが多くなると、式（２）より、Ｆ値である単語スコアは低い値となる。

逆に、ドキュメントの総数Ｎ_ＣのカテゴリＣにおいて、単語ｔが出現するドキュメントの数ｄｆ_ｔ,Ｃが少なくなるほど、その単語ｔは希少性が高い単語であるといえる。ドキュメントの総数Ｎ_ＣのカテゴリＣにおいて、単語ｔが出現するドキュメントの数ｄｆ_ｔ,Ｃが少なくなると、式（２）より、Ｆ値である単語スコアは高い値となる。

このように、単語スコアが高い単語ｔほど希少性が高く、単語スコアが低い単語ｔほど一般性が高いので、単語スコアは、単語ｔの一般性および希少性の指標値となる。

さらに、Ｆ値である単語スコアが高い単語ｔは、そのまま意外性が高い単語であると認識することもできる。すなわち、IDF値を用いる従来においては、カテゴリとは無関係に全ての文章の中で、出現頻度の低い単語が希少性が高いと判断されていた。例えば、あるカテゴリ内では多数登場するが、別のカテゴリではまったく登場しない単語も存在し得る。このような単語は、カテゴリの中では出現頻度が高いが、全ての文章の中では出現頻度が低くなるので、従来、希少性が高いと判断されていた。このような単語は、全ての文章の中では確かに希少性は高いかもしれないが、カテゴリ内の文章に登場することは意外性が高いとは言えない。すなわち、従来においては、出現頻度が低いと判断された単語は、そのまま意外性が高い単語であるとは一概に言えない。

これに対して、式（２）を用いて算出される単語スコアが高い単語ｔは、カテゴリ内での単語の出現頻度を算出していることから、希少性が高いとは、カテゴリ内で出現頻度が低いことを意味し、このことはさらに、カテゴリに属するドキュメント内で登場することは意外であることを意味している。すなわち、単語スコアが高く希少性が高い単語は、そのまま意外性が高い単語であるといえる。

なお、単語スコアは、本実施形態では式（２）により算出されたが、その算出手法は、カテゴリ内での単語の出現頻度をモデル化する手法であれば特に限定されない。例えば、式（２）は、１のカテゴリＣにおける（Ｎ_Ｃ／ｄｆ_ｔ,Ｃ）をスコアと称すると、各スコアの総積に対して常用対数をとったものである。しかしながら、式（２）において常用対数をとるのは、各カテゴリ毎のスコアの不均一をならすためである。したがって、単語スコアを演算する上において、常用対数をとることは特に必須ではない。また例えば、本実施形態のように各スコアの総積ではなく、各スコアの単純総和や、重要なカテゴリに重みを付けた上での各スコアの総積に基づいて、単語スコアを算出するといった手法を採用してもよい。

以下さらに、図１４を参照して、単語スコア算出処理について、具体的に説明する。

図１４は、カテゴリに分類されたドキュメント数の例を示す図である。

図１４に示される例では、ドキュメントが「俳優」,「歌手」,「モデル」,「ピアニスト」の４つのカテゴリに分類されており、それぞれのカテゴリに分類されたドキュメントの数が「全ドキュメント数」として示されている。また、それぞれのカテゴリに分類されたドキュメントの中で「デビュー」,「ショー」,「モーツァルト」の単語を含むドキュメント数が、「「デビュー」を含むドキュメント数」，「「ショー」を含むドキュメント数」，「「モーツァルト」を含むドキュメント数」として示されている。

例えば、上述の図１０や図１１の例にあわせると、ドキュメントＹは、「俳優」と「ピアニスト」の２つのカテゴリに分類されている。このような場合、ドキュメントＹの中に含まれる「デビュー」の単語のＦ値は、式（２）より、log(200/150×30/25)=0.2041となる。

以上のようにして、単語スコア算出処理が実行されると、例えば図１５に示されるような単語スコアが算出される。図１５は、単語スコア算出処理の結果を示す図である。

ここでは、ドキュメントＹが処理対象に選択されている。また、図１５に示される単語スコアは、ドキュメント中に含まれる全ての単語について算出されたものではなく、特徴的な名詞句に限定して算出されたものである。すなわち、ドキュメントＹに含まれる「東京都」，「サッカー」，「日本代表」，「音楽大学」，「デビュー」，「アカデミー賞」，「俳優賞」，「ヒロイン」，「ピアニスト」，「協奏曲」という単語についてＦ値である単語スコアが算出されている。

図１５の例では「東京都」の単語スコアは「1.20」とされ、「サッカー」の単語スコアは「4.80」とされ、「日本代表」の単語スコアは「5.20」とされ、「音楽大学」の単語スコアは「3.50」とされ、「デビュー」の単語スコアは「2.60」とされている。また、「アカデミー賞」の単語スコアは「3.40」とされ、「俳優賞」の単語スコアは「3.80」とされ、「ヒロイン」の単語スコアは「2.70」とされ、「ピアニスト」の単語スコアは「4.90」とされ、「協奏曲」の単語スコアは「4.20」とされている。

図１５に示されるように、「俳優」と「ピアニスト」のカテゴリに分類されるドキュメントＹの中では、最も単語スコアの低い「東京都」が最も一般性が高い単語と認識され、最も単語スコアの高い「日本代表」が最も希少性が高い単語、すなわち、意外性が高い単語と認識される。

図７のフローチャートの説明に戻り、以上のステップＳ５の単語スコア算出処理の後、ステップＳ６において、スコア演算用文章抽出部８５は、処理対象のドキュメントの中から文章を抽出する。具体的には例えば、スコア演算用文章抽出部８５は、句点で終了する文字列を１つの文章として抽出する。また、例えば、スコア演算用文章抽出部８５は、箇条書きとなっているリスト項目を１つの文章として抽出する。なお、抽出される文章は、処理対象のドキュメントに含まれている文章であれば足り、１つであってもよいし、複数であってもよい。ただし、後述するステップＳ７の処理において、抽出された文章に含まれる単語スコアに基づいて文章スコアが算出されるので、同程度の単語数から構成される文章が抽出されるのが好適である。

ステップＳ７において、文章スコア算出部８６は、抽出された文章毎に、文章に含まれる単語の単語スコアを用いて、文章スコアを算出する。なお、以下、ステップＳ７の処理を文章スコア算出処理と称する。

文章スコア算出部８６は、例えば次の式（３）にしたがって文章スコアを算出する。

式（３）において、Scoreは、文章スコアを示しており、Ｎは、文章内の単語スコア算出済みの単語数を示しており、Ｆ_ｉは、式（２）で算出された単語スコアであるＦ値を示している。

式（３）の右辺のルート内の分子から明らかなように、文章に含まれる各単語の単語スコアＦ_ｉが高いほど、文章スコアは高くなる。したがって、単語スコアＦ_ｉが高い単語は、上述の如く、希少性が高く、かつ、意外性が高い単語といえるので、文章スコアが高い文章は、希少性が高く、かつ、意外性が高い文章といえる。

逆に、文章に含まれる各単語の単語スコアＦ_ｉが低いほど、文章スコアは低くなる。したがって、単語スコアＦ_ｉが低い単語は、上述の如く、一般性が高い単語といえるので、文章スコアが低い文章は、一般性が高い文章といえる。

なお、文章スコアの算出手法は、本実施形態では式（３）に示されるように、単語スコアの二乗平均平方根を算出する手法が採用されているが、これに限定されず、例えば、単語スコアの単純相加平均を算出する手法を採用してもよい。

図７のフローチャートの説明に戻り、以上のステップＳ７の文章スコア算出処理の後、ステップＳ８において、文章スコア一覧生成部８７は、処理対象のドキュメントに含まれる各文章についての文章スコアの一覧を生成する。

図１６は、文章スコアの一覧を示す図である。

図１６に示されるように、抽出された文章のそれぞれについて、式（３）を用いて文章スコアが算出されている。抽出された文章には、それぞれ番号が割り振られている。１番の「俳優ｙは、東京都出身の日本の女優。」という文章の文章スコアは、「1.20」とされている。２番の「父親は、元サッカー日本代表のＧＧ選手。」という文章の文章スコアは、「5.00」とされている。３番の「2001年にＨＨ音楽大学を卒業し、俳優としてデビューした。」という文章の文章スコアは、「3.08」とされている。４番の「2004年には、日本アカデミー賞新人俳優賞を受賞している」という文章の文章スコアは、「3.60」とされている。５番の「2005年には、映画ＩＩにヒロインとして出演、ＪＪの役を演じて話題になった。」という文章の文章スコアは、「2.70」とされている。６番の「ピアニストとしても有名であり、2006年にはコンサートでＫＫ協奏曲を演奏した。」という文章の文章スコアは、「4.56」とされている。

図１６に示されるように、１乃至６番の文章の中で、最も文章スコアが低い１番の文章が最も一般性が高い文章であるといえる。また、１乃至６番の文章の中で、最も文章スコアが高い２番の文章が最も希少性が高く、かつ意外性が高い文章であるといえる。

図７のフローチャートの説明に戻り、ステップＳ８において文章スコアの一覧が生成された後、ステップＳ９において、ドキュメント取得部８１は、全ドキュメントが処理対象に選択されたか否かを判定する。

ステップＳ９において、まだ全ドキュメントが処理対象に選択されていないと判定された場合、処理はステップＳ３に戻され、それ以降の処理が繰り返される。すなわち、ステップＳ１において取得されたドキュメント群に含まれるドキュメントの各々が処理対象に１つずつ選択されて、ステップＳ３乃至Ｓ９のループ処理が繰り返されて、文章スコアの算出が行われていく。そして、最後のドキュメントに対するステップＳ８の処理が終了すると、ステップＳ１において取得されたドキュメント群に含まれる全ドキュメントの文章スコアの算出が終了する。そこで、次のステップＳ９において、全ドキュメントが処理対象に選択されていると判定されて、文章スコア算出処理は終了する。

このように、サーバ１３は、文章スコア算出処理によって算出された文章スコアが高い文章を抽出することで、希少性が高く、かつ意外性が高い文章、すなわち、ユーザにとってより一段と興味を引く文章を提示することが可能となる。

そこで、以下、このような文章スコア算出処理によって算出された文章スコアを用いて文章を抽出する処理（以下、文章抽出処理と称する）の例について説明する。以下の例では、ユーザが携帯端末１２を操作してドキュメント等を検索した場合に、サーバ１３が実行する処理である。

[文章抽出処理]
図１７は、サーバ１３のユーザ提示用文章抽出部８８による文章抽出処理の一例を説明するフローチャートである。

ステップＳ６１において、検索部１２１は、ドキュメントの検索の指示を受信する。すなわち、検索部１２１は、携帯端末１２からのドキュメントの検索の指示を通信部５９を介して受信する。

ステップＳ６２において、検索部１２１は、ドキュメントを検索する。すなわち、検索部１２１は、記憶部５８に記憶されているドキュメント群の中から、携帯端末１２からの検索の指示に基づいて、ドキュメントを検索する。

ステップＳ６３において、抽出部１２２は、ドキュメントを抽出する。すなわち、抽出部１２２は、検索部１２１によって検索されたドキュメントを記憶部５８から抽出する。

ステップＳ６４において、抽出部１２２は、ドキュメントの文章スコアの一覧を抽出する。すなわち、抽出部１２２は、ステップＳ６３において抽出したドキュメントの文章スコアの一覧を記憶部５８から抽出する。

ステップＳ６５において、評価部１２３は、ドキュメントの一般性を評価する。なお、一般性を評価することは希少性を評価することでもある。

ここで、ドキュメントの一般性の評価の手法の具体例について幾つか説明する。

ドキュメントの一般性を評価する手法として、例えば、評価対象のドキュメントのWebサイト上での参照数を用いる手法を採用することができる。この手法によれば、評価対象のドキュメントがWebページであった場合は、被リンク数で参照数が算出される。したがって、評価対象のドキュメントの参照数が閾値よりも大きい場合には、一般性が高いドキュメントであると評価され、閾値よりも小さい場合には希少性が高いドキュメントであると評価される。なお、被リンク数は、本実施形態では図７のステップＳ１の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップＳ６５の処理前の時点であれば任意のタイミングでよい。

また、例えば、ドキュメントの一般性を評価する手法として、一般的なインターネット上のWebサイトの検索エンジンを用いて評価対象のドキュメントを検索した場合には、ヒット数を用いる手法を採用できる。この手法によれば、評価対象のドキュメントのヒット数が閾値よりも大きい場合には、一般性が高いドキュメントであると評価され、閾値よりも小さい場合には希少性が高いドキュメントであると評価される。なお、ヒット数は、本実施形態では図７のステップＳ１の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップＳ６５の処理前の時点であれば任意のタイミングでよい。

また、例えば、ドキュメントの一般性を評価する手法として、評価対象のドキュメントがブログサイト内のドキュメントである場合には、ドキュメントの登場数を用いる手法を採用することができる。この手法によれば、所定の期間中に、評価対象のドキュメントに関連する情報がブログサイトに登場した回数が、閾値よりも大きい場合には、一般性が高いドキュメントであると評価され、閾値よりも小さい場合には希少性が高いドキュメントであると評価される。なお、所定の期間中のブログサイトに登場した回数は、本実施形態では図７のステップＳ１の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップＳ６５の処理前の時点であれば任意のタイミングでよい。

これらの手法を用いたドキュメントの一般性の評価結果は、ドキュメント自体の人気を測る指標となる。例えば評価対象のドキュメントが所定の人物に関するドキュメントであるとき、そのドキュメントは一般性が高いという評価結果を得た場合、所定の人物は有名人であると推測することができる。したがって、この場合、ユーザに提示する文章としては、その人物を紹介する広く知られた一般的な文章よりも、希少性が高く意外性が高い文章である方が好適である。有名人に関する広く知られた一般的な文章は、既に知られており、提供する情報としての価値は低いと考えられるからである。そして、意外性が高い文章はあまり知られておらず、提供する情報としての価値が高いと考えられるからである。すなわち、この場合、ユーザに対して、文章スコアが高い文章が提示されると好適である。そこで本実施形態では、次のようなステップＳ６６乃至Ｓ６８の処理が実行される。

ステップＳ６６において、評価部１２３は、評価結果からドキュメントの一般性は高いか否かを判定する。

ステップＳ６６において、ドキュメントの一般性が高いと判定された場合、処理はステップＳ６７に進む。

ステップＳ６７において、抽出部１２２は、希少性が高い文章をドキュメントの中から抽出する。すなわち、抽出部１２２は、ドキュメントの文章スコアの一覧の中で文章スコアが高い文章を、ドキュメントの中から抽出する。

これに対して、ステップＳ６６において、ドキュメントの一般性が高くないと判定された場合、処理はステップＳ６８に進む。

ステップＳ６８において、抽出部１２２は、一般性が高い文章をドキュメントの中から抽出する。すなわち、抽出部１２２は、ドキュメントの文章スコアの一覧の中で文章スコアが低い文章を、ドキュメントの中から抽出する。

例えば、図８に示される俳優ｙに関するドキュメントＹがステップＳ６３の処理で抽出され、俳優ｙが有名人であったため、ステップＳ６５の処理で、ドキュメントＹの一般性が高いという評価されたとする。この場合、ステップＳ６６の処理でＹＥＳであると判定されて、ステップＳ６７の処理として、図１６に示される文章スコアの一覧の中から、文章スコアが最も高い文章、すなわち、２番の文章がドキュメントの中から抽出される。複数の文章が抽出される場合には文章スコアが高い順、すなわち上位Ｎ（Ｎは1以上の整数値）位までの文章スコアを有する文章が抽出される。具体的には例えば、上述の例では、文章スコアが高い番号２，６，４…の文章が順に抽出される。

これに対して、ドキュメントＹの中に記載されている俳優ｙが認知されていない無名の人であったため、ステップＳ６５の処理で、ドキュメントＹの一般性が低いという評価されたとする。この場合、ステップＳ６６の処理でＹＥＳであると判定されて、ステップＳ６８の処理として、図１６に示される文章スコアの一覧の中から、文章スコアが最も低い文章、すなわち１番の文章がドキュメントの中から抽出される。複数の文章が抽出される場合には文章スコアが低い順、すなわち下位Ｍ（Ｍは1以上の整数値）位までの文章スコアを有する文章が抽出される。具体的には例えば、上述の例では、文章スコアが低い番号１，５，３…の文章が順に抽出される。

ステップＳ６９において、通信部５９は、抽出した文章を送信する。すなわち、通信部５９は、ステップＳ６７またはステップＳ６８の処理により抽出された文章を携帯端末１２に送信する。

これにより、文章抽出処理は終了する。

なお、ステップＳ６２の処理で検索されるドキュメントの数は、上述の例では説明の簡略上、１つとされたが、当然ながら複数でもよい。この場合、複数のドキュメントの各々に対して、ステップＳ６３以降の処理が実行される。

このように、ドキュメントの一般性の評価結果に基づいてユーザに提示する文章を変えることにより、ユーザにとって、より興味を引く文章が提示されることになる。すなわち、検索されたドキュメントの一般性が高い場合には、希少性の高い、すなわち意外性の高い文章をユーザに提示することができる。逆に、検索されたドキュメントの一般性が低い場合には、一般性の高い文章をユーザに提示することができる。

次に、ユーザが携帯端末１２でテレビジョン番組を視聴している最中に、テレビジョン番組に出演している所定の出演者に関する情報を表示部３３に表示させる処理について説明する。

この場合、テレビジョン番組の表示を優先させつつ、所定の出演者に関する情報を表示させる必要があるので、文章の表示領域は制限される。したがって、サーバ１３は、所定の出演者に関するドキュメントの中から、ユーザにとってより興味を引く内容の文章を抽出し、さらに携帯端末１２の表示領域の条件を満たす文章を提示する処理（以下、表示可能文章抽出処理と称する）を実行する必要がある。以下、表示可能文章抽出処理について説明する。

[表示可能文章抽出処理]
図１８は、サーバ１３のユーザ提示用文章抽出部８８による表示可能文章抽出処理の一例を説明するフローチャートである。

ステップＳ９１において、検索部１２１は、出演者に関するドキュメントの検索の指示を受信する。すなわち、検索部１２１は、携帯端末１２から指定された所定の出演者に関するドキュメントの検索の指示を通信部５９を介して受信する。

ステップＳ９２において、通信部５９は、携帯端末１２の機器情報を取得する。携帯端末１２の機器情報には、表示領域の条件が含まれる。表示領域の条件には、携帯端末１２の表示部３３に表示可能な文章数、文字数等が含まれる。

ステップＳ９３において、検索部１２１は、出演者に関するドキュメントを検索する。すなわち、検索部１２１は、記憶部５８に記憶されているドキュメント群の中から、検索の指示に基づいて、指定された出演者に関するドキュメントを検索する。

ステップＳ９４において、抽出部１２２は、出演者に関するドキュメントを抽出する。すなわち、抽出部１２２は、検索部１２１によって検索された出演者に関するドキュメントを記憶部５８から抽出する。

ステップＳ９５において、抽出部１２２は、出演者に関するドキュメントの文章スコアの一覧を抽出する。すなわち、抽出部１２２は、ステップＳ９４において抽出した出演者に関するドキュメントの文章スコアの一覧を記憶部５８から抽出する。

ステップＳ９６において、評価部１２３は、出演者の人気を評価する。なお、人気の評価は、知名度の評価と等価である。

出演者の人気を評価する手法として、例えば、インターネット上にある有名人の評価サイトの人気ランキング順位等を用いる手法を採用することができる。この手法によれば、所定の出演者の人気ランキングが閾値よりも大きい場合には、その出演者の人気が高いと評価される。なお、評価サイトの人気ランキング順位等は、本実施形態では図７のステップＳ１の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップＳ９６の処理前の時点であれば任意のタイミングでよい。

ステップＳ９７において、評価部１２３は、出演者の人気は高いか否かを判定する。

ステップＳ９７において、出演者の人気が高いと判定された場合、処理はステップＳ９８に進む。

ステップＳ９８において、抽出部１２２は、希少性が高い文章をドキュメントの中から抽出する。すなわち、抽出部１２２は、ドキュメントの文章スコアの一覧の中で文章スコアが高い文章を、ドキュメントの中から抽出する。複数の文章が抽出される場合には、文章スコアが高い順に文章が抽出される。具体的には例えば、図１６に示される例では、文章スコアが高い番号２，６，４…の文章が順に抽出される。

これに対して、ステップＳ９７において、出演者の人気が高くないと判定された場合、処理はステップＳ９９に進む。

ステップＳ９９において、抽出部１２２は、一般性が高い文章をドキュメントの中から抽出する。すなわち、抽出部１２２は、ドキュメントの文章スコアの一覧の中で文章スコアが低い文章を、ドキュメントの中から抽出する。複数の文章が抽出される場合には、文章スコアが低い順に文章が抽出される。具体的には例えば、図１６に示される例では、文章スコアが低い番号１，５，３…の文章が順に抽出される。

ステップＳ１００において、記憶制御部１２４は、抽出した文章を全て表示候補として登録する。すなわち、記憶制御部１２４は、抽出部１２２により抽出された文章を、携帯端末１２に表示する表示候補として、記憶部５８に記憶する。

ステップＳ１０１において、選択部１２５は、表示候補の文章の中から、表示領域の条件を満たす文章を選択して送信する。すなわち、選択部１２５は、選択した文章を通信部５９を介して携帯端末１２に送信する。例えば、表示領域の条件が表示可能な文章数は２つであるという場合、表示候補として登録された文章数が５つであっても、送信される文章数は２つである。この場合、表示候補の文章の中から、文章スコアが高い順、若しくは低い順に２つの文章が送信される。すなわち、携帯端末１２の表示領域の条件に基づいて、文章スコアの一覧に含まれる文章スコアのうち、上位Ｎ（Ｎは1以上の整数値）位または下位Ｍ（Ｍは１以上の整数値）位までの文章スコアを有する文章が選択されて、送信される。すなわち、ＮまたはＭの値は、携帯端末１２の表示領域の条件に基づいて決定される。

ここで、携帯端末１２の表示例について図１９を参照して説明する。

図１９は、携帯端末１２の表示例について説明する図である。

図１９の例では、携帯端末１２の表示部３３に、テレビジョン番組に出演中の出演者１６１が表示されている。表示部３３の下部の領域１８１，１８２には、ユーザが出演者１６１に関する情報を検索した場合に、出演者１６１に関する文章が表示される。すなわち、図１９に示される例では、携帯端末１２の表示領域の条件である表示可能な文章数は２つである。領域１８１，１８２の右端部にはそれぞれ次ボタン１９１，１９２のアイコンが表示されている。ユーザが次ボタン１９１，１９２を操作すると、領域１８１，１８２に表示される文章が次の順位の文章に切り換えられる。

ここで、出演者１６１は人気が高い俳優ｙであるとする。この場合、ステップＳ１００の処理において表示候補として登録されている文章は、図１６に示される俳優ｙに関するドキュメントＹから、文章スコアが高い順に抽出された文章、すなわち、番号２，６，４…の文章である。したがって、ステップＳ１０１の処理において送信される文章は２番と６番の文章であり、２番の文章が領域１８１に表示され、６番の文章が領域１８２に表示される。

ステップＳ１０２において、選択部１２５は、文章は全て送信されたか否かを判定する。すなわち、選択部１２５は、表示候補として登録された文章が全て送信されたか否かを判定する。

ステップＳ１０２において、表示候補として登録された文章は全て送信されたと判定された場合、処理は終了する。

これに対して、ステップＳ１０２において、表示候補として登録された文章はまだ全て送信されていないと判定された場合、処理はステップＳ１０３に進む。

ステップＳ１０３において、選択部１２５は、次ボタンの指示を受け付けたか否かを判定する。すなわち、選択部１２５は、通信部５９を介して、携帯端末１２から次ボタンの指示を受け付けたか否かを判定する。

ステップＳ１０３において、携帯端末１２からの次ボタンの指示がなかった場合、すなわち、ユーザによって次ボタン１９１若しくは１９２が操作されなかった場合、処理は終了する。

これに対して、ステップＳ１０３において、携帯端末１２から次ボタンの指示を受け付けた場合、すなわち、ユーザによって次ボタン１９１若しくは１９２が操作された場合、処理はステップＳ１０４に進む。

ステップＳ１０４において、選択部１２５は、次の文章を送信する。すなわち、選択部１２５は、表示候補の文章の中から未送信の次の文章を、通信部５９を介して携帯端末１２に送信する。すなわち、例えばユーザによって次ボタン１９２が操作された場合、ステップＳ１０４の処理において送信される文章は、表示候補の文章の中からまだ送信されていない４番の文章である。すると、領域１８２には、６番の文章に換えて４番の文章が表示される。

これにより、表示可能文章抽出処理は終了する。

なお、ステップＳ９３の処理で検索される出演者に関するドキュメントの数は、上述の例では説明の簡略上、１つとされたが、当然ながら複数でもよい。この場合、複数のドキュメントの各々に対して、ステップＳ９３以降の処理が実行される。

上述の表示可能文章抽出処理の例は、携帯端末１２に表示されたテレビジョン番組に出演している所定の出演者に関する情報を表示部３３に表示させる処理である。しかしながら、表示させる情報は、テレビジョン番組に出演している出演者に特に限定されず、例えば、Webサイトや映画に関する情報であってもよい。

このように、出演者の人気の評価結果に基づいてユーザに提示する文章を変えることにより、表示領域の限られた携帯端末に、ユーザにとって、より興味を引く文章が提示されることになる。すなわち、検索された出演者の人気が高い場合には、希少性の高い、すなわち意外性の高い文章をユーザに提示することができる。逆に、人気が低い場合には、一般性が高い文章をユーザに提示することができる。

本発明は、携帯電話機、スマートフォンの他、電子手帳、PDA（Personal Digital Assistant）、ヘッドマウントディスプレイ、携帯型パーソナルコンピュータ等、文章の検索を実行することができる装置に適用することができる。

[本発明のプログラムへの適用]

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図３に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory)，DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（登録商標）(Mini-Disk)を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア６１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM５２や、記憶部５８に含まれるハードディスクなどで構成される。

なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表わすものである。

１文章抽出システム，１１ネットワーク，１２携帯端末，１３サーバ，３１入力部，３２通信部，３３表示部，５１ CPU，５８記憶部，５９通信部，８１ドキュメント取得部，８２カテゴリ分類部，８３単語抽出部，８４単語スコア算出部，８５スコア演算用文章抽出部，８６文章スコア算出部，８７文章スコア一覧生成部，８８ユーザ提示用文章抽出部，１０１取得部，１０２選択部，１０３分類部，１０４判定部，１２１検索部，１２２抽出部，１２３評価部，１２４記憶制御部，１２５選択部，１８１，１８２領域，１９１，１９２次ボタン

Claims

ドキュメントを、複数のカテゴリのうちの１以上のカテゴリに分類するカテゴリ分類手段と、
前記ドキュメントから、１以上の単語を抽出する単語抽出手段と、
前記単語抽出手段により前記ドキュメントから抽出された前記１以上の単語の各々について、前記カテゴリ分類手段により前記ドキュメントが分類された前記１以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する単語スコア算出手段と、
前記ドキュメントの中から、１以上の文章を抽出する演算用文章抽出手段と、
前記演算用文章抽出手段により抽出された前記１以上の文章の各々について、前記単語スコア算出手段により算出された前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する文章スコア算出手段と
を備える情報処理装置。
前記カテゴリ分類手段は、
前記複数のカテゴリのうち何れかを特定可能な複数のキーワードを含むリストを取得する取得手段と、
前記ドキュメントの中に、前記リストに含まれる前記キーワードと一致する単語が存在している場合、前記ドキュメントを、前記単語と一致した前記キーワードにより特定されるカテゴリに分類する分類手段
を有する請求項１に記載の情報処理装置。
前記ドキュメントについて、前記文章スコア算出手段により算出された前記１以上の前記文章スコアの一覧を生成する文章スコア一覧生成手段を
さらに備える請求項２に記載の情報処理装置。
前記ドキュメントの一般性が高い場合には、前記文章スコア一覧生成手段により生成された前記文章スコアの一覧に含まれる前記１以上の文章スコアのうち、上位Ｎ（Ｎは１以上の整数値）位までのスコアを有する文章を前記ドキュメントから抽出し、前記ドキュメントの一般性が低い場合には、前記文章スコアの一覧に含まれる前記１以上の文章スコアのうち、下位Ｍ（Ｍは１以上の整数値）位までのスコアを有する文章を前記ドキュメントから抽出する提示用文章抽出手段と、
前記提示用文章抽出手段により抽出された前記文章を提示する提示手段を
さらに備える請求項３に記載の情報処理装置。
前記提示用文章抽出手段は、前記提示手段による提示の条件に基づいて、前記Ｎ又は前記Ｍの値を決定する
請求項４に記載の情報処理装置。
ドキュメントを、複数のカテゴリのうちの１以上のカテゴリに分類するカテゴリ分類ステップと、
前記ドキュメントから、１以上の単語を抽出する単語抽出ステップと、
前記単語抽出ステップの処理により前記ドキュメントから抽出された前記１以上の単語の各々について、前記カテゴリ分類ステップの処理により前記ドキュメントが分類された前記１以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する単語スコア算出ステップと、
前記ドキュメントの中から、１以上の文章を抽出する演算用文章抽出ステップと、
前記演算用文章抽出ステップの処理により抽出された前記１以上の文章の各々について、前記単語スコア算出ステップの処理により算出された前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する文章スコア算出ステップと
を含む情報処理方法。
ドキュメントを、複数のカテゴリのうちの１以上のカテゴリに分類し、
前記ドキュメントから、１以上の単語を抽出し、
前記ドキュメントから抽出された前記１以上の単語の各々について、前記ドキュメントが分類された前記１以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出し、
前記ドキュメントの中から、１以上の文章を抽出し、
抽出された前記１以上の文章の各々について、前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する
ステップを含む制御処理をコンピュータに実行させるプログラム。