JP2011095905A - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP2011095905A JP2011095905A JP2009247755A JP2009247755A JP2011095905A JP 2011095905 A JP2011095905 A JP 2011095905A JP 2009247755 A JP2009247755 A JP 2009247755A JP 2009247755 A JP2009247755 A JP 2009247755A JP 2011095905 A JP2011095905 A JP 2011095905A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- word
- score
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザにとって意外性の高い文章を抽出できるようにする。
【解決手段】カテゴリ分類部82は、ドキュメントを複数のカテゴリのうちの1以上のカテゴリに分類する。単語抽出部83は、ドキュメントから1以上の単語を抽出する。単語抽出部83により抽出された1以上の単語の各々について、単語スコア算出部84は、1以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する。スコア演算用文章抽出部85は、ドキュメントの中から1以上の文章を抽出する。スコア演算用文章抽出部85により抽出された1以上の文章の各々について、文章スコア算出部8は、単語スコアに基づいて文章の意外性の指標となる文章スコアを算出する。本発明は、携帯電話機に適用することができる。
【選択図】図4
【解決手段】カテゴリ分類部82は、ドキュメントを複数のカテゴリのうちの1以上のカテゴリに分類する。単語抽出部83は、ドキュメントから1以上の単語を抽出する。単語抽出部83により抽出された1以上の単語の各々について、単語スコア算出部84は、1以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する。スコア演算用文章抽出部85は、ドキュメントの中から1以上の文章を抽出する。スコア演算用文章抽出部85により抽出された1以上の文章の各々について、文章スコア算出部8は、単語スコアに基づいて文章の意外性の指標となる文章スコアを算出する。本発明は、携帯電話機に適用することができる。
【選択図】図4
Description
本発明は、情報処理装置および方法、並びにプログラムに関し、特に、ユーザにとって意外性の高い文章を抽出できるようにした、情報処理装置および方法、並びにプログラムに関する。
インターネットの普及により、ユーザは、膨大な量のドキュメントを容易に取得できるようになった。しかしながら、ユーザにとって、このような膨大な量のドキュメントの中から、1つのドキュメントを見つけ出すことは容易な作業ではない。ここで、ドキュメントとは、1以上の文章の集合体をいう。
このため、従来より、様々なドキュメントの検索手法が用いられている。例えば、一般的なドキュメントの検索手法として、インターネット上のWebサイトの検索エンジンが、入力されたクエリー語を含むWebページを検索して表示する、という手法が広く知られている。しかしながら、一般的な語句がクエリー語として入力された場合には、検索結果として表示されるドキュメントの数は、ユーザが所望のドキュメントを見つけ出すことできる範囲を遥かに超えてしまう。
そこで、例えば特許文献1には、ドキュメントをさらに絞り込んで検索する手法として、ドキュメントの話題の量や密度に関連した基準でドキュメントを順位付け、所定の順位までのドキュメントを検索結果として表示するという手法が開示されている。かかる手法は、文書ランキング手法と称されている。このような文書ランキング手法を用いることで、検索結果として表示されるドキュメントの数は、ユーザが所望のドキュメントを見つけ出すことできる範囲内まである程度絞られる。
しかしながら、ユーザが最終的に期待する検索結果は、ドキュメントレベルではなく文章レベルの結果であることが多い。しかも、近年のユーザは、より興味を引く文章を望んでいるため、意外性のある文章を検索結果として提示することが要求されている。
文書ランキング手法では、このような要求に応えることはできない。すなわち、文書ランキング手法は、ドキュメントに対する話題の量や密度を評価基準としてドキュメントが順位付けされるので、ドキュメントを構成する文章自体の一般性や意外性は判断されない。このため、文書ランキング手法を用いた場合には、意外性のある文章を検索することは非常に困難である。
ところで、ドキュメント群の中から、特徴的な単語を抽出する手法として、情報検索の分野では、TF-IDF(Term Frequency,Inverse Document Frequency)が広く用いられている。このTF-IDFを文書ランキング手法に適用して文章を検索することも可能であるが、この場合であっても、意外性のある文章を検索結果として提示するという要求に十分に応えることは困難である。すなわち、IDF値は、単語の一般性/希少性の指標となり得るが、ドキュメント群全体を対象として算出される。このため、TF-IDFを用いて抽出された単語は、たとえ希少な単語であっても意外性のある単語であるとは限らない。したがって、希少な単語を含む文章を単純に検索結果としてユーザに提示しても、ユーザにとって意外性のある文章であるとは限らない。
本発明は、このような状況に鑑みてなされたものであり、ユーザにとって意外性の高い文章を抽出できるようにするものである。
本発明の一側面の情報処理装置は、ドキュメントを、複数のカテゴリのうちの1以上のカテゴリに分類するカテゴリ分類手段と、前記ドキュメントから、1以上の単語を抽出する単語抽出手段と、前記単語抽出手段により前記ドキュメントから抽出された前記1以上の単語の各々について、前記カテゴリ分類手段により前記ドキュメントが分類された前記1以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する単語スコア算出手段と、前記ドキュメントの中から、1以上の文章を抽出する演算用文章抽出手段と、前記演算用文章抽出手段により抽出された前記1以上の文章の各々について、前記単語スコア算出手段により算出された前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する文章スコア算出手段とを備える。
前記カテゴリ分類手段は、前記複数のカテゴリのうち何れかを特定可能な複数のキーワードを含むリストを取得する取得手段と、前記ドキュメントの中に、前記リストに含まれる前記キーワードと一致する単語が存在している場合、前記ドキュメントを、前記単語と一致した前記キーワードにより特定されるカテゴリに分類する分類手段を有することができる。
前記ドキュメントについて、前記文章スコア算出手段により算出された前記1以上の前記文章スコアの一覧を生成する文章スコア一覧生成手段をさらに備えることができる。
前記ドキュメントの一般性が高い場合には、前記文章スコア一覧生成手段により生成された前記文章スコアの一覧に含まれる前記1以上の文章スコアのうち、上位N(Nは1以上の整数値)位までのスコアを有する文章を前記ドキュメントから抽出し、前記ドキュメントの一般性が低い場合には、前記文章スコアの一覧に含まれる前記1以上の文章スコアのうち、下位M(Mは1以上の整数値)位までのスコアを有する文章を前記ドキュメントから抽出する提示用文章抽出手段と、前記提示用文章抽出手段により抽出された前記文章を提示する提示手段をさらに備えることができる。
前記提示用文章抽出手段は、前記提示手段による提示の条件に基づいて、前記N又は前記Mの値を決定することができる。
本発明の一側面の情報処理方法およびプログラムは、上述した本発明の一側面の情報処理装置に対応する方法およびプログラムである。
本発明の一側面の情報処理装置および方法並びにプログラムにおいては、ドキュメントが、複数のカテゴリのうちの1以上のカテゴリに分類され、前記ドキュメントから、1以上の単語が抽出される。前記ドキュメントから抽出された前記1以上の単語の各々について、前記ドキュメントが分類された前記1以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアが算出される。前記ドキュメントの中から、1以上の文章が抽出され、抽出された前記1以上の文章の各々について、前記単語スコアに基づいて、文章の意外性の指標となる文章スコアが算出される。
以上のごとく、本発明によれば、ユーザにとって意外性の高い文章を抽出できる。
以下、図面を参照して、本発明の実施の形態について説明する。
[本発明が適用される文章抽出システムの構成例]
図1は、本発明の文章抽出システムの構成例を示すブロック図である。
図1は、本発明の文章抽出システムの構成例を示すブロック図である。
図1の文章抽出システム1は、携帯端末12およびサーバ13がネットワーク11を介して相互に接続されて構成されている。
情報処理装置としてのサーバ13は、ネットワーク11に接続された他の装置に対して、各種サービスを提供する。
携帯端末12は、例えばユーザが持ち運び自在な携帯電話機等で構成され、ネットワーク11を介してサーバ13と通信することで、サーバ13からサービスの提供を受ける。
なお、ネットワーク11は、例えば本実施の形態では、インターネットで構成される。ただし、ネットワーク11は、特にインターネットに限定されず、その他LAN(Loal Area Network)等様々な形態を取ったり、それらを一部に含むことが可能である。
[携帯端末12の構成例]
図2は、図1の文章抽出システム1のうちの携帯端末12の機能的構成例を示すブロック図である。
図2は、図1の文章抽出システム1のうちの携帯端末12の機能的構成例を示すブロック図である。
図2の携帯端末12は、入力部31、通信部32、および表示部33から構成される。
入力部31は、ボタンやジョグダイヤル等で構成され、所定のキーワードやURL(Uniform Resource Locator)等の文字列を入力するときユーザにより操作される。
通信部32は、ネットワーク11を介するサーバ13との通信を制御する。例えば、通信部32は、入力部31に入力された文字列を、ネットワーク11を介してサーバ13に送信する。また例えば、通信部32は、サーバ13によるサービスの提供に伴い、サーバ13から送信されてきた文章や画像等の情報をネットワーク11を介して受信する。
表示部33は、通信部32に受信された文章や画像等の情報を表示する。
[サーバ13の構成例]
図3は、図1の文章抽出システム1のうちのサーバ13のハードウェア構成例を示すブロック図である。
図3は、図1の文章抽出システム1のうちのサーバ13のハードウェア構成例を示すブロック図である。
図3のサーバ13において、CPU(Central Processing Unit)51は、ROM(Read Only Memory)52に記録されているプログラム、または記憶部58からRAM(Random Access Memory)53にロードされたプログラムに従って各種の処理を実行する。RAM53にはまた、CPU51が各種の処理を実行する上において必要なデータ等も適宜記憶される。
例えば本実施の形態では、後述する図4のドキュメント取得部81乃至ユーザ提示用文章抽出部88の各機能を実行するプログラムが、ROM52や記憶部58に記憶されている。従って、CPU51が、このプログラムに従った処理を実行することで、ドキュメント取得部81乃至ユーザ提示用文章抽出部88の各機能を実現することができる。
CPU51、ROM52、およびRAM53は、バス54を介して相互に接続されている。このバス54にはまた、入出力インタフェース55も接続されている。
入出力インタフェース55には、キーボード、マウスなどよりなる入力部56、ディスプレイなどよりなる出力部57が接続されている。入出力インタフェース55にはまた、ハードディスクなどより構成される記憶部58、および、モデム、ターミナルアダプタなどより構成される通信部59が接続されている。
記憶部58には、複数の種類のドキュメント群が記憶されている。1のドキュメント群は、ネットワーク11上の図示せぬ各種装置から取得された様々なドキュメントのうち、所定の種類の内容を含む1以上のドキュメントから構成されている。たとえば、有名人に関する内容を含む1以上のドキュメントから構成されるドキュメント群が記憶部58に記憶されている。ドキュメントは、1以上の文章の集合体である。
また、記憶部58には、キーワードのリストが記憶されている。このキーワードのリストは、図9を参照して後述するドキュメントのカテゴリ分類処理において用いられる。さらに、記憶部58には、後述する文章スコアの一覧が記憶されている。
提示手段としての通信部59は、ネットワーク11を介して携帯端末12との間で行う通信を制御する。
入出力インタフェース55にはまた、必要に応じてドライブ60が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア61が適宜装着される。そして、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部58にインストールされる。
[CPU51の構成例]
図4は、図3のサーバ13のCPU51の機能的構成例を示すブロック図である。
図4は、図3のサーバ13のCPU51の機能的構成例を示すブロック図である。
図4のCPU51は、ドキュメント取得部81、カテゴリ分類部82、単語抽出部83、単語スコア算出部84、スコア演算用文章抽出部85、文章スコア算出部86、文章スコア一覧生成部87、およびユーザ提示用文章抽出部88から構成される。
ドキュメント取得部81は、例えば通信部59を制御して、ネットワーク11に接続された図示せぬ各種装置からWebページ等の複数のドキュメントを受信し、それらの複数のドキュメントをまとめてドキュメント群として取得する。取得されたドキュメント群は、記憶部58に記憶される。
カテゴリ分類部82は、ドキュメント取得部81により取得されたドキュメント群に含まれる複数のドキュメントの各々を、複数のカテゴリのうちの1以上のカテゴリに分類する。
ドキュメント取得部81は、ドキュメント群のうち、カテゴリ分類部82によるカテゴリ分類が既に行われたドキュメントの1つを処理対象として選択する。
単語抽出部83は、ドキュメント取得部81により選択された処理対象のドキュメントに含まれる複数の単語を抽出する。
単語スコア算出部84は、単語抽出部83により抽出された単語毎に単語スコアを算出する。単語スコアとは、その単語の一般性や希少性の指標値となる値である。単語スコアについては、図7のステップS5の処理において詳細に説明する。
演算用文章抽出手段としてのスコア演算用文章抽出部85は、ドキュメント取得部81により選択された処理対象のドキュメントに含まれる1以上の文章を抽出する。
文章スコア算出部86は、スコア演算用文章抽出部85により抽出された1以上の文章毎に文章スコアを算出する。文章スコアとは、その文章の一般性や希少性の指標値となる値である。文章スコアについては、図7のステップS7の処理において詳細に説明する。
文章スコア一覧生成部87は、処理対象のドキュメントに含まれる1以上の文章の各々について、文章スコア算出部86により算出された文章スコアの一覧を生成する。
ユーザ提示用文章抽出部88は、ドキュメント群の中から、文章スコア一覧生成部87により文章スコアの一覧が既に生成されているドキュメントを抽出する。さらに、ユーザ提示用文章抽出部88は、抽出されたドキュメントの中から、ユーザに提示する文章を抽出する。たとえば、文章スコア一覧生成部87は、文章スコアの一覧を用いて、希少性または一般性が高い文章を抽出する。なお、ユーザ提示用文章抽出部88による文章の抽出手法の具体例については、図17を参照して後述する。
[カテゴリ分類部82の構成例]
図5は、図4のカテゴリ分類部82の詳細な機能的構成例を示すブロック図である。
図5は、図4のカテゴリ分類部82の詳細な機能的構成例を示すブロック図である。
図5のカテゴリ分類部82は、取得部101、選択部102、分類部103、および判定部104から構成される。
取得部101は、記憶部58に記憶されているキーワードのリストを取得する。キーワードのリストとは、所定のカテゴリに予め分類された1以上のキーワードが含まれているリストをいう。なお、キーワードのリストは、図9を参照して後述するドキュメントのカテゴリ分類処理において用いられる。
選択部102は、ドキュメント取得部81により取得されたドキュメント群に含まれる1のドキュメントを、処理対象のドキュメントとして選択する。
分類部103は、取得部101により取得されたキーワードのリストを用いて、選択部102により選択された処理対象のドキュメントを、複数のカテゴリのうちの1以上のカテゴリに分類する。ここで、1以上としたのは、1のドキュメントが、1つのカテゴリに分類されるのみならず、複数のカテゴリに分類される場合もあるからである。
判定部104は、ドキュメント群に含まれる全てのドキュメントがカテゴリ分類されたか否かを判定する。カテゴリ分類がなされていないドキュメントが存在すると判定された場合には、そのドキュメントが、選択部102により選択されて処理対象となり、分類部103によるカテゴリ分類の処理が実行される。
[ユーザ提示用文章抽出部88の構成例]
図6は、図4のユーザ提示用文章抽出部88の機能的構成例を示すブロック図である。
図6は、図4のユーザ提示用文章抽出部88の機能的構成例を示すブロック図である。
図6のユーザ提示用文章抽出部88は、検索部121、抽出部122、評価部123、記憶制御部124、および選択部125から構成される。
本実施形態では、ドキュメント群と、文章スコア一覧生成部87によりドキュメント毎に生成された文章スコアの一覧とが記憶部58に記憶されている状態で、ユーザが、携帯端末12を操作して、ドキュメント群の中からドキュメントを検索する指示を出すものとする。
この場合、検索部121は、携帯端末12からのドキュメントの検索の指示にしたがって、ドキュメント群の中から所定のドキュメントを検索する。
提示用文章抽出手段としての抽出部122は、検索部121により検索されたドキュメント及びその文章スコアの一覧を記憶部58から抽出する。
評価部123は、抽出部122により抽出されたドキュメントの一般性を評価する。なお、一般性を評価することは希少性を評価することでもある。或いはまた、評価部123は、抽出部122により抽出されたドキュメントに関係する出演者の人気を評価する。なお、人気の評価は、知名度の評価と等価である。さらに、評価部123は、抽出部122により抽出された文章スコアの一覧に基づいて、抽出部122により抽出されたドキュメントの各々に含まれる文章を評価する。なお、評価部123による評価手法の具体例については、図17および図18を用いて後述する。
抽出部122は、評価部123による評価に基づいて、先に抽出されたドキュメントの中から、ユーザに提示する文章を抽出する。
記憶制御部124は、抽出部122により抽出された文章を、携帯端末12に表示する表示候補として、記憶部58に記憶する。なお、表示候補は、1つの文章であってもよいし、複数の文章であってもよい。
選択部125は、記憶制御部124によって登録された表示候補の文章の中から、携帯端末12の表示領域の条件を満たす文章を選択して、通信部59を介して携帯端末12に提示する。
[文章スコア算出処理]
本発明の文章抽出システム1においては、サーバ13が、ドキュメントに含まれる各文章毎に文章スコアを算出して、それらの文章スコアの一覧を生成する文章スコア算出処理が実行される。記憶部58に記憶されているドキュメント群を構成する各ドキュメント毎に、文章スコア算出処理が繰り返し実行される。その後、図17以降の図面を参照して後述するように、このようにして記憶部58に記憶された文章スコアの一覧を用いて、ユーザに意外性の高い文章を提示する処理が実行される。すなわち、文章スコア算出処理は、ユーザに意外性の高い文章を提示するための前処理として実行される。
本発明の文章抽出システム1においては、サーバ13が、ドキュメントに含まれる各文章毎に文章スコアを算出して、それらの文章スコアの一覧を生成する文章スコア算出処理が実行される。記憶部58に記憶されているドキュメント群を構成する各ドキュメント毎に、文章スコア算出処理が繰り返し実行される。その後、図17以降の図面を参照して後述するように、このようにして記憶部58に記憶された文章スコアの一覧を用いて、ユーザに意外性の高い文章を提示する処理が実行される。すなわち、文章スコア算出処理は、ユーザに意外性の高い文章を提示するための前処理として実行される。
図7は、サーバ13による文章スコア算出処理の一例を説明するフローチャートである。
ステップS1において、ドキュメント取得部81は、ドキュメント群を取得する。すなわち、ドキュメント取得部81は、例えば通信部59を制御して、ネットワーク11に接続された図示せぬ各種装置からWebページ等の複数のドキュメントを受信し、それらの複数のドキュメントをまとめてドキュメント群として取得する。取得されたドキュメント群は、記憶部58に記憶される。
ここで、図8を参照して、ドキュメント群に含まれるドキュメントの具体例について説明する。
図8は、ドキュメントの具体例について説明する図である。
図8に示される例では、有名人に関するドキュメント群に含まれるドキュメントX,Y,Zの3つが示されている。
なお、ドキュメントX,Y,Zは日本語によるドキュメントのため、文章は句点により区切られている。
図8Aに示されるドキュメントXは、「歌手xは、2000年にAA高校を卒業。Bのプロデュースによる「CC」で歌手デビューした。2002年、RW歌合戦に初出場し、「DD」を歌った。2003年、写真集発売を記念して、EE会を開催。2005年、FFグループのイメージキャラクタとなる。」という内容である。
図8Bに示されるドキュメントYは、「俳優yは、東京都出身の日本の女優。父親は、元サッカー日本代表のGG選手。2001年にHH音楽大学を卒業し、俳優としてデビューした。2004年には、日本アカデミー賞新人俳優賞を受賞している。2005年には、映画IIにヒロインとして出演、JJの役を演じて話題になった。ピアニストとしても有名であり、2006年にはコンサートでKK協奏曲を演奏した。」という内容である。
図8Cに示されるドキュメントZは、「スポーツ選手zは、北海道出身で、LLチームに所属する選手である。2001年、日本代表に初選出され、以後、連続出場記録を更新し続けている。2003年には、歌手としてデビューも果たしている。2004年、3本のテレビCMに出演した。」という内容である。
ステップS2において、カテゴリ分類部82は、カテゴリ分類処理を実行する。
ここで、カテゴリ分類処理の詳細例について説明する。
図9は、カテゴリ分類部82によるカテゴリ分類処理の一例を説明するフローチャートである。
ステップS31において、取得部101は、キーワードのリストを取得する。ここで、キーワードのリストとは、所定のカテゴリに予め分類された1以上のキーワードが含まれているリストをいう。例えば、「歌手」のカテゴリに属するキーワードのリストとは、例えば「歌手」のカテゴリに予め分類された「アルバム」、「RW歌合戦」等のキーワードを含むリストをいう。このようなキーワードのリストは、カテゴリ毎に取得される。例えば本実施形態では、図示はしないが、「歌手」、「ピアニスト」、「俳優」、および「スポーツ選手」といった4つのカテゴリについて、キーワードのリストがそれぞれ取得される。
ステップS32において、選択部102は、処理対象のドキュメントを選択する。すなわち、選択部102は、ステップS1において取得されたドキュメント群の中から1のドキュメントを、処理対象として選択する。
ステップS33において、分類部103は、処理対象のドキュメントをキーワードに対応するカテゴリに分類する。すなわち、分類部103は、処理対象のドキュメントを構成する単語と一致するキーワードを、キーワードのリストから検索する。キーワードと一致する単語が検索された場合、処理対象のドキュメントは、そのキーワードのリストが属するカテゴリに分類される。
ステップS34において、判定部104は、全ドキュメントが処理対象に選択されたか否かを判定する。
ステップS34において、まだ全ドキュメントが処理対象に選択されていないと判定された場合、処理はステップS32に戻され、それ以降の処理が繰り返される。すなわち、ステップS1において取得されたドキュメント群に含まれるドキュメントの各々が処理対象に1つずつ選択されて、ステップS32乃至S34のループ処理が繰り返されて、カテゴリ分類が行われる。そして、最後のドキュメントに対するステップS33の処理が終了すると、ステップS1において取得されたドキュメント群に含まれる全ドキュメントのカテゴリ分類が終了する。そこで、次のステップS34において、全ドキュメントが処理対象に選択されていると判定されて、カテゴリ分類処理は終了する。
なお、上述のカテゴリ分類処理の例では、集合知による人為的なキーワードを利用して、ドキュメントをカテゴリに分類する手法が採用されている。しかしながら、カテゴリ分類の手法については、上述の例に特に限定されず、例えば、機械学習によるカテゴリ分類の手法を採用することもできる。
機械学習によるカテゴリ分類の手法としては、例えばベイズの定理を適用した単純ベイズ分類器を用いることができる。単純ベイズ分類器は、例えば、ドキュメントDを構成する「各単語」がカテゴリCに属する確率を算出する。そして、単純ベイズ分類器は、各単語がカテゴリCに属する確率をまとめて、「ドキュメントD」がカテゴリCに属する確率を算出する。すなわち、ドキュメントDがカテゴリCに属する確率P(C|D)は、次の式(1)に従って算出される。
本実施形態では、以上のカテゴリ分類処理の結果、ドキュメントX,Y,Zは、例えば図10と図11に示されるようにカテゴリに分類される。
図10は、カテゴリ分類処理の結果を示す図であって、カテゴリの視点から見た結果を示す図である。
図10において、有名人に関するドキュメント群に含まれるドキュメントX,Y,Zは、「歌手」,「ピアニスト」,「俳優」,「スポーツ選手」の4種類のカテゴリのうちの1以上のカテゴリに分類されている。
図10Aに示されるように、「歌手」のカテゴリには、ドキュメントXとドキュメントZが含まれる。
図10Bに示されるように、「ピアニスト」のカテゴリには、ドキュメントYが含まれる。
図10Cに示されるように、「俳優」のカテゴリには、ドキュメントYが含まれる。
図10Dに示されるように、「スポーツ選手」のカテゴリには、ドキュメントZが含まれる。
図11は、カテゴリ分類処理の結果を示す図であって、ドキュメントの視点から見た結果を示す図である。
図11Aに示されるように、ドキュメントXには、分類されたカテゴリを示すタグとして、「歌手」のカテゴリを示すタグが付されている。
図11Bに示されるように、ドキュメントYには、分類されたカテゴリを示すタグとして、「俳優」と「ピアニスト」のタグが付されている。
図11Cに示されるように、ドキュメントZには、分類されたカテゴリを示すタグとして、「スポーツ選手」と「歌手」のタグが付されている。
図10と図11に示されるように、ドキュメントYは、「俳優」と「ピアニスト」の2つのカテゴリに分類されている。また、ドキュメントZは、「スポーツ選手」と「歌手」の2つのカテゴリに分類されている。このように、1つのドキュメントは複数のカテゴリに分類される場合がある。
図7のフローチャートの説明に戻り、以上のステップS2のカテゴリ分類処理の後、ステップS3において、ドキュメント取得部81は、処理対象のドキュメントを選択する。すなわち、ドキュメント取得部81は、カテゴリに分類されたドキュメント群の中から、その1つを処理対象のドキュメントとして選択する。
ステップS4において、単語抽出部83は、処理対象のドキュメントの中から単語を抽出する。
ここで、処理対象のドキュメントの中から単語を抽出する処理(以下、単語抽出処理と称する)の詳細例について説明する。
単語抽出処理の手法として、ドキュメント全体に形態素解析処理を施し、品詞レベルで単語を抽出する手法がある。日本語や英語等の形態素解析で広く用いられている統計的手法として、隠れマルコフモデルがある。隠れマルコフモデルは、入力文から生成できる単語列をすべて列挙して、単語同士が連結して出現する確率にスコアを付与し、文章全体でスコアが最も高くなる品詞列を取り出す手法である。なお、本手法は、各言語向けに様々な形態素解析システムが提供されているので、使用言語に依存しない。
図12は、隠れマルコフモデルの確率モデルの例を示す図である。
図12において、入力文が入力される時の初期状態「開始」には、状態M1の符号が付与されている。入力文から生成できる単語列のそれぞれが円状のノードにより示されており、それぞれのノードには状態M2乃至状態M6の符号が付与されている。状態M1乃至状態M6のうち第1の状態から第2の状態への状態遷移は、第1の状態から第2の状態へ引かれた矢印により示されており、矢印上の数値は、第1の状態から第2の状態へ遷移する確率を示している。すなわち、矢印上の数値は、第1の状態に示されている単語列と第2の状態に示されている単語列が連結して出現する確率を示している。
具体的には例えば、状態M1の「開始」から状態M2の「晴れなので」に遷移する確率は0.6であり、状態M1から状態M3の「雨なので」に遷移する確率は0.4である。すなわち、初期状態から状態M2の単語列「晴れなので」と状態M3の単語列「雨なので」が連結して出現する確率は、状態M2の単語列「晴れなので」の方が、状態M3の単語列「雨なので」よりも高い確率であることが分かる。
次に、状態M2の「晴れなので」から、状態M4の「散歩した」に遷移する確率、状態M5の「買い物した」に遷移する確率、状態M6の「寝ていた」に遷移する確率は、それぞれ0.5,0.4,0.1である。すなわち、状態M2の単語列「晴れなので」という単語が入力された場合、次に連結して出現する単語列の確率としては、状態M4の単語列「散歩した」と状態M5の単語列「買い物した」の確率が高くなる。これに対して、状態M2の単語列「晴れなので」という単語が入力された場合、状態M6の単語列「寝ていた」が連結して出現する確率は低くなる。このため、図12の例では、状態M2の単語列「晴れなので」から状態M4の単語列「散歩した」と状態M5の単語列「買い物した」が連結して出現する確率は、それぞれ0.5,0.4と高くなっている。また、状態M2の単語列「晴れなので」から状態M6の単語列「寝ていた」が連結して出現する確率は、0.1と低くなっている。
同様に、状態M3の「雨なので」から、状態M4の「散歩した」に遷移する確率、状態M5の「買い物した」に遷移する確率、状態M6の「寝ていた」に遷移する確率は、それぞれ0.1,0.6,0.3である。すなわち、状態M3の単語列「雨なので」という単語が入力された場合、次に連結して出現する単語列の確率としては、状態M5の単語列「買い物した」と状態M6の単語列「寝ていた」の確率が高くなる。これに対して、状態M3の単語列「雨なので」という単語が入力された場合、状態M4の単語列「散歩した」が連結して出現する確率は低くなる。このため、図12の例では、状態M3の単語列「雨なので」から状態M5の単語列「買い物した」と状態M6の「寝ていた」が連結して出現する確率は、それぞれ0.6,0.3と高くなっている。また、状態M3の単語列「雨なので」から状態M4の単語列「散歩した」が連結して出現する確率は、0.1と低くなっている。
図12に示される隠れマルコフの確率モデルを用いた結果、状態M2の「晴れなので」と状態M4の「散歩した」が連結して生成される文章「晴れなので散歩した」の文章全体のスコアは0.6×0.5=0.3である。また、状態M2の「晴れなので」と状態M5の「買い物した」が連結して生成される文章「晴れなので買い物した」の文章全体のスコアは0.6×0.4=0.24である。また、状態M2の「晴れなので」と状態M6の「寝ていた」が連結して生成される文章「晴れなので寝ていた」の文章全体のスコアは0.6×0.1=0.06である。したがって、この3つの文章からスコアが最も高くなる文章「晴れなので散歩した」が選択され、文章中に含まれる品詞列「晴れなので」と「散歩した」が取り出される。
同様に、状態M3の「雨なので」と状態M4の「散歩した」が連結して生成される文章「雨なので散歩した」の文章全体のスコアは0.4×0.1=0.04である。また、状態M3の「雨なので」と状態M5の「買い物した」が連結して生成される文章「雨なので買い物した」の文章全体のスコアは0.4×0.6=0.24である。また、状態M3の「雨なので」と状態M6の「寝ていた」が連結して生成される文章「雨なので寝ていた」の文章全体のスコアは0.4×0.3=0.12である。したがって、この3つの文章からスコアが最も高くなる文章「雨なので買い物した」が選択され、文章中に含まれる品詞列「雨なので」と「買い物した」が取り出される。
本実施形態では、以上説明した隠れマルコフモデルのように、ドキュメント全体に形態素解析処理を施し、品詞レベルで単語を抽出する手法が、上述の単語抽出処理における単語を抽出する手法として採用されている。しかしながら、単語を抽出する手法については、本実施形態の例に特に限定されず、例えば、ハイパーリンクに限定して、リンクが設定されている単語のみを抽出する手法等を採用することもできる。この手法を採用する場合、例えば、特徴のある単語にはリンクが設定されているフリー百科事典「ウィキペディア(Wikipedia)」等の手法を利用することができる。
いずれの単語を抽出する手法を採用した場合であっても、単語抽出処理により抽出される単語としては、ドキュメント内のすべての単語を網羅してもよいし、一定以上の基準を満たした複数の単語でもよい。
以上の単語抽出処理の結果、本実施形態では例えば、図13に示されるように、ドキュメントX,Y,Zの中からそれぞれ単語が抽出される。
図13は、単語抽出処理の結果を示す図である。
図13Aに示されるように、ドキュメントXからは、「卒業」,「プロデュース」,「RW歌合戦」,「写真集」,「イメージキャラクタ」という単語が抽出されている。
図13Bに示されるように、ドキュメントYからは、「東京都」,「サッカー日本代表」,「アカデミー賞」,「ヒロイン」,「ピアニスト」という単語が抽出されている。
図13Cに示されるように、ドキュメントZからは、「北海道」,「日本代表」,「連続出場」,「歌手」,「テレビCM」という単語が抽出されている。
図7のフローチャートの説明に戻り、以上のステップS4の単語抽出処理の後、ステップS5において、単語スコア算出部84は、抽出された単語毎に単語スコアを算出する。
ここで、抽出された単語毎に単語スコアを算出する処理(以下、単語スコア算出処理と称する)の詳細例について説明する。
従来のIDF値の算出は、ドキュメント集合全体を対象として算出される。しかしながら、本発明が適用されるサーバ13においては、単語スコア算出部84によって、IDF値の算出は、カテゴリを対象として算出される。したがって、単語スコア算出部84においてカテゴリを対象として算出されるIDF値を、F値と称する。F値は、次の式(2)のように示される。
式(2)において、Tは、ドキュメントが属するカテゴリ集合を示し、Cは、ドキュメントが属するカテゴリを示し、NCは、カテゴリCに属するドキュメントの総数を示し、dft、Cは、カテゴリCに属するドキュメントのうち単語tが出現するドキュメントの数を示している。したがって、F値、すなわち式(2)で表されるFt、Cは、カテゴリ内での単語tの出現頻度をモデル化したものとみなすことができる。本実施形態では、式(2)を用いて算出されるF値が、単語スコアとして用いられる。
例えば、ドキュメントの総数NCのカテゴリCにおいて、単語tが出現するドキュメントの数dft,Cが多くなるほど、その単語tは一般性が高い単語であるといえる。ドキュメントの総数NCのカテゴリCにおいて、単語tが出現するドキュメントの数dft,Cが多くなると、式(2)より、F値である単語スコアは低い値となる。
逆に、ドキュメントの総数NCのカテゴリCにおいて、単語tが出現するドキュメントの数dft,Cが少なくなるほど、その単語tは希少性が高い単語であるといえる。ドキュメントの総数NCのカテゴリCにおいて、単語tが出現するドキュメントの数dft,Cが少なくなると、式(2)より、F値である単語スコアは高い値となる。
このように、単語スコアが高い単語tほど希少性が高く、単語スコアが低い単語tほど一般性が高いので、単語スコアは、単語tの一般性および希少性の指標値となる。
さらに、F値である単語スコアが高い単語tは、そのまま意外性が高い単語であると認識することもできる。すなわち、IDF値を用いる従来においては、カテゴリとは無関係に全ての文章の中で、出現頻度の低い単語が希少性が高いと判断されていた。例えば、あるカテゴリ内では多数登場するが、別のカテゴリではまったく登場しない単語も存在し得る。このような単語は、カテゴリの中では出現頻度が高いが、全ての文章の中では出現頻度が低くなるので、従来、希少性が高いと判断されていた。このような単語は、全ての文章の中では確かに希少性は高いかもしれないが、カテゴリ内の文章に登場することは意外性が高いとは言えない。すなわち、従来においては、出現頻度が低いと判断された単語は、そのまま意外性が高い単語であるとは一概に言えない。
これに対して、式(2)を用いて算出される単語スコアが高い単語tは、カテゴリ内での単語の出現頻度を算出していることから、希少性が高いとは、カテゴリ内で出現頻度が低いことを意味し、このことはさらに、カテゴリに属するドキュメント内で登場することは意外であることを意味している。すなわち、単語スコアが高く希少性が高い単語は、そのまま意外性が高い単語であるといえる。
なお、単語スコアは、本実施形態では式(2)により算出されたが、その算出手法は、カテゴリ内での単語の出現頻度をモデル化する手法であれば特に限定されない。例えば、式(2)は、1のカテゴリCにおける(NC/dft,C)をスコアと称すると、各スコアの総積に対して常用対数をとったものである。しかしながら、式(2)において常用対数をとるのは、各カテゴリ毎のスコアの不均一をならすためである。したがって、単語スコアを演算する上において、常用対数をとることは特に必須ではない。また例えば、本実施形態のように各スコアの総積ではなく、各スコアの単純総和や、重要なカテゴリに重みを付けた上での各スコアの総積に基づいて、単語スコアを算出するといった手法を採用してもよい。
以下さらに、図14を参照して、単語スコア算出処理について、具体的に説明する。
図14は、カテゴリに分類されたドキュメント数の例を示す図である。
図14に示される例では、ドキュメントが「俳優」,「歌手」,「モデル」,「ピアニスト」の4つのカテゴリに分類されており、それぞれのカテゴリに分類されたドキュメントの数が「全ドキュメント数」として示されている。また、それぞれのカテゴリに分類されたドキュメントの中で「デビュー」,「ショー」,「モーツァルト」の単語を含むドキュメント数が、「「デビュー」を含むドキュメント数」,「「ショー」を含むドキュメント数」,「「モーツァルト」を含むドキュメント数」として示されている。
例えば、上述の図10や図11の例にあわせると、ドキュメントYは、「俳優」と「ピアニスト」の2つのカテゴリに分類されている。このような場合、ドキュメントYの中に含まれる「デビュー」の単語のF値は、式(2)より、log(200/150×30/25)=0.2041となる。
以上のようにして、単語スコア算出処理が実行されると、例えば図15に示されるような単語スコアが算出される。図15は、単語スコア算出処理の結果を示す図である。
ここでは、ドキュメントYが処理対象に選択されている。また、図15に示される単語スコアは、ドキュメント中に含まれる全ての単語について算出されたものではなく、特徴的な名詞句に限定して算出されたものである。すなわち、ドキュメントYに含まれる「東京都」,「サッカー」,「日本代表」,「音楽大学」,「デビュー」,「アカデミー賞」,「俳優賞」,「ヒロイン」,「ピアニスト」,「協奏曲」という単語についてF値である単語スコアが算出されている。
図15の例では「東京都」の単語スコアは「1.20」とされ、「サッカー」の単語スコアは「4.80」とされ、「日本代表」の単語スコアは「5.20」とされ、「音楽大学」の単語スコアは「3.50」とされ、「デビュー」の単語スコアは「2.60」とされている。また、「アカデミー賞」の単語スコアは「3.40」とされ、「俳優賞」の単語スコアは「3.80」とされ、「ヒロイン」の単語スコアは「2.70」とされ、「ピアニスト」の単語スコアは「4.90」とされ、「協奏曲」の単語スコアは「4.20」とされている。
図15に示されるように、「俳優」と「ピアニスト」のカテゴリに分類されるドキュメントYの中では、最も単語スコアの低い「東京都」が最も一般性が高い単語と認識され、最も単語スコアの高い「日本代表」が最も希少性が高い単語、すなわち、意外性が高い単語と認識される。
図7のフローチャートの説明に戻り、以上のステップS5の単語スコア算出処理の後、ステップS6において、スコア演算用文章抽出部85は、処理対象のドキュメントの中から文章を抽出する。具体的には例えば、スコア演算用文章抽出部85は、句点で終了する文字列を1つの文章として抽出する。また、例えば、スコア演算用文章抽出部85は、箇条書きとなっているリスト項目を1つの文章として抽出する。なお、抽出される文章は、処理対象のドキュメントに含まれている文章であれば足り、1つであってもよいし、複数であってもよい。ただし、後述するステップS7の処理において、抽出された文章に含まれる単語スコアに基づいて文章スコアが算出されるので、同程度の単語数から構成される文章が抽出されるのが好適である。
ステップS7において、文章スコア算出部86は、抽出された文章毎に、文章に含まれる単語の単語スコアを用いて、文章スコアを算出する。なお、以下、ステップS7の処理を文章スコア算出処理と称する。
文章スコア算出部86は、例えば次の式(3)にしたがって文章スコアを算出する。
式(3)において、Scoreは、文章スコアを示しており、Nは、文章内の単語スコア算出済みの単語数を示しており、Fiは、式(2)で算出された単語スコアであるF値を示している。
式(3)の右辺のルート内の分子から明らかなように、文章に含まれる各単語の単語スコアFiが高いほど、文章スコアは高くなる。したがって、単語スコアFiが高い単語は、上述の如く、希少性が高く、かつ、意外性が高い単語といえるので、文章スコアが高い文章は、希少性が高く、かつ、意外性が高い文章といえる。
逆に、文章に含まれる各単語の単語スコアFiが低いほど、文章スコアは低くなる。したがって、単語スコアFiが低い単語は、上述の如く、一般性が高い単語といえるので、文章スコアが低い文章は、一般性が高い文章といえる。
なお、文章スコアの算出手法は、本実施形態では式(3)に示されるように、単語スコアの二乗平均平方根を算出する手法が採用されているが、これに限定されず、例えば、単語スコアの単純相加平均を算出する手法を採用してもよい。
図7のフローチャートの説明に戻り、以上のステップS7の文章スコア算出処理の後、ステップS8において、文章スコア一覧生成部87は、処理対象のドキュメントに含まれる各文章についての文章スコアの一覧を生成する。
図16は、文章スコアの一覧を示す図である。
図16に示されるように、抽出された文章のそれぞれについて、式(3)を用いて文章スコアが算出されている。抽出された文章には、それぞれ番号が割り振られている。1番の「俳優yは、東京都出身の日本の女優。」という文章の文章スコアは、「1.20」とされている。2番の「父親は、元サッカー日本代表のGG選手。」という文章の文章スコアは、「5.00」とされている。3番の「2001年にHH音楽大学を卒業し、俳優としてデビューした。」という文章の文章スコアは、「3.08」とされている。4番の「2004年には、日本アカデミー賞新人俳優賞を受賞している」という文章の文章スコアは、「3.60」とされている。5番の「2005年には、映画IIにヒロインとして出演、JJの役を演じて話題になった。」という文章の文章スコアは、「2.70」とされている。6番の「ピアニストとしても有名であり、2006年にはコンサートでKK協奏曲を演奏した。」という文章の文章スコアは、「4.56」とされている。
図16に示されるように、1乃至6番の文章の中で、最も文章スコアが低い1番の文章が最も一般性が高い文章であるといえる。また、1乃至6番の文章の中で、最も文章スコアが高い2番の文章が最も希少性が高く、かつ意外性が高い文章であるといえる。
図7のフローチャートの説明に戻り、ステップS8において文章スコアの一覧が生成された後、ステップS9において、ドキュメント取得部81は、全ドキュメントが処理対象に選択されたか否かを判定する。
ステップS9において、まだ全ドキュメントが処理対象に選択されていないと判定された場合、処理はステップS3に戻され、それ以降の処理が繰り返される。すなわち、ステップS1において取得されたドキュメント群に含まれるドキュメントの各々が処理対象に1つずつ選択されて、ステップS3乃至S9のループ処理が繰り返されて、文章スコアの算出が行われていく。そして、最後のドキュメントに対するステップS8の処理が終了すると、ステップS1において取得されたドキュメント群に含まれる全ドキュメントの文章スコアの算出が終了する。そこで、次のステップS9において、全ドキュメントが処理対象に選択されていると判定されて、文章スコア算出処理は終了する。
このように、サーバ13は、文章スコア算出処理によって算出された文章スコアが高い文章を抽出することで、希少性が高く、かつ意外性が高い文章、すなわち、ユーザにとってより一段と興味を引く文章を提示することが可能となる。
そこで、以下、このような文章スコア算出処理によって算出された文章スコアを用いて文章を抽出する処理(以下、文章抽出処理と称する)の例について説明する。以下の例では、ユーザが携帯端末12を操作してドキュメント等を検索した場合に、サーバ13が実行する処理である。
[文章抽出処理]
図17は、サーバ13のユーザ提示用文章抽出部88による文章抽出処理の一例を説明するフローチャートである。
図17は、サーバ13のユーザ提示用文章抽出部88による文章抽出処理の一例を説明するフローチャートである。
ステップS61において、検索部121は、ドキュメントの検索の指示を受信する。すなわち、検索部121は、携帯端末12からのドキュメントの検索の指示を通信部59を介して受信する。
ステップS62において、検索部121は、ドキュメントを検索する。すなわち、検索部121は、記憶部58に記憶されているドキュメント群の中から、携帯端末12からの検索の指示に基づいて、ドキュメントを検索する。
ステップS63において、抽出部122は、ドキュメントを抽出する。すなわち、抽出部122は、検索部121によって検索されたドキュメントを記憶部58から抽出する。
ステップS64において、抽出部122は、ドキュメントの文章スコアの一覧を抽出する。すなわち、抽出部122は、ステップS63において抽出したドキュメントの文章スコアの一覧を記憶部58から抽出する。
ステップS65において、評価部123は、ドキュメントの一般性を評価する。なお、一般性を評価することは希少性を評価することでもある。
ここで、ドキュメントの一般性の評価の手法の具体例について幾つか説明する。
ドキュメントの一般性を評価する手法として、例えば、評価対象のドキュメントのWebサイト上での参照数を用いる手法を採用することができる。この手法によれば、評価対象のドキュメントがWebページであった場合は、被リンク数で参照数が算出される。したがって、評価対象のドキュメントの参照数が閾値よりも大きい場合には、一般性が高いドキュメントであると評価され、閾値よりも小さい場合には希少性が高いドキュメントであると評価される。なお、被リンク数は、本実施形態では図7のステップS1の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップS65の処理前の時点であれば任意のタイミングでよい。
また、例えば、ドキュメントの一般性を評価する手法として、一般的なインターネット上のWebサイトの検索エンジンを用いて評価対象のドキュメントを検索した場合には、ヒット数を用いる手法を採用できる。この手法によれば、評価対象のドキュメントのヒット数が閾値よりも大きい場合には、一般性が高いドキュメントであると評価され、閾値よりも小さい場合には希少性が高いドキュメントであると評価される。なお、ヒット数は、本実施形態では図7のステップS1の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップS65の処理前の時点であれば任意のタイミングでよい。
また、例えば、ドキュメントの一般性を評価する手法として、評価対象のドキュメントがブログサイト内のドキュメントである場合には、ドキュメントの登場数を用いる手法を採用することができる。この手法によれば、所定の期間中に、評価対象のドキュメントに関連する情報がブログサイトに登場した回数が、閾値よりも大きい場合には、一般性が高いドキュメントであると評価され、閾値よりも小さい場合には希少性が高いドキュメントであると評価される。なお、所定の期間中のブログサイトに登場した回数は、本実施形態では図7のステップS1の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップS65の処理前の時点であれば任意のタイミングでよい。
これらの手法を用いたドキュメントの一般性の評価結果は、ドキュメント自体の人気を測る指標となる。例えば評価対象のドキュメントが所定の人物に関するドキュメントであるとき、そのドキュメントは一般性が高いという評価結果を得た場合、所定の人物は有名人であると推測することができる。したがって、この場合、ユーザに提示する文章としては、その人物を紹介する広く知られた一般的な文章よりも、希少性が高く意外性が高い文章である方が好適である。有名人に関する広く知られた一般的な文章は、既に知られており、提供する情報としての価値は低いと考えられるからである。そして、意外性が高い文章はあまり知られておらず、提供する情報としての価値が高いと考えられるからである。すなわち、この場合、ユーザに対して、文章スコアが高い文章が提示されると好適である。そこで本実施形態では、次のようなステップS66乃至S68の処理が実行される。
ステップS66において、評価部123は、評価結果からドキュメントの一般性は高いか否かを判定する。
ステップS66において、ドキュメントの一般性が高いと判定された場合、処理はステップS67に進む。
ステップS67において、抽出部122は、希少性が高い文章をドキュメントの中から抽出する。すなわち、抽出部122は、ドキュメントの文章スコアの一覧の中で文章スコアが高い文章を、ドキュメントの中から抽出する。
これに対して、ステップS66において、ドキュメントの一般性が高くないと判定された場合、処理はステップS68に進む。
ステップS68において、抽出部122は、一般性が高い文章をドキュメントの中から抽出する。すなわち、抽出部122は、ドキュメントの文章スコアの一覧の中で文章スコアが低い文章を、ドキュメントの中から抽出する。
例えば、図8に示される俳優yに関するドキュメントYがステップS63の処理で抽出され、俳優yが有名人であったため、ステップS65の処理で、ドキュメントYの一般性が高いという評価されたとする。この場合、ステップS66の処理でYESであると判定されて、ステップS67の処理として、図16に示される文章スコアの一覧の中から、文章スコアが最も高い文章、すなわち、2番の文章がドキュメントの中から抽出される。複数の文章が抽出される場合には文章スコアが高い順、すなわち上位N(Nは1以上の整数値)位までの文章スコアを有する文章が抽出される。具体的には例えば、上述の例では、文章スコアが高い番号2,6,4…の文章が順に抽出される。
これに対して、ドキュメントYの中に記載されている俳優yが認知されていない無名の人であったため、ステップS65の処理で、ドキュメントYの一般性が低いという評価されたとする。この場合、ステップS66の処理でYESであると判定されて、ステップS68の処理として、図16に示される文章スコアの一覧の中から、文章スコアが最も低い文章、すなわち1番の文章がドキュメントの中から抽出される。複数の文章が抽出される場合には文章スコアが低い順、すなわち下位M(Mは1以上の整数値)位までの文章スコアを有する文章が抽出される。具体的には例えば、上述の例では、文章スコアが低い番号1,5,3…の文章が順に抽出される。
ステップS69において、通信部59は、抽出した文章を送信する。すなわち、通信部59は、ステップS67またはステップS68の処理により抽出された文章を携帯端末12に送信する。
これにより、文章抽出処理は終了する。
なお、ステップS62の処理で検索されるドキュメントの数は、上述の例では説明の簡略上、1つとされたが、当然ながら複数でもよい。この場合、複数のドキュメントの各々に対して、ステップS63以降の処理が実行される。
このように、ドキュメントの一般性の評価結果に基づいてユーザに提示する文章を変えることにより、ユーザにとって、より興味を引く文章が提示されることになる。すなわち、検索されたドキュメントの一般性が高い場合には、希少性の高い、すなわち意外性の高い文章をユーザに提示することができる。逆に、検索されたドキュメントの一般性が低い場合には、一般性の高い文章をユーザに提示することができる。
次に、ユーザが携帯端末12でテレビジョン番組を視聴している最中に、テレビジョン番組に出演している所定の出演者に関する情報を表示部33に表示させる処理について説明する。
この場合、テレビジョン番組の表示を優先させつつ、所定の出演者に関する情報を表示させる必要があるので、文章の表示領域は制限される。したがって、サーバ13は、所定の出演者に関するドキュメントの中から、ユーザにとってより興味を引く内容の文章を抽出し、さらに携帯端末12の表示領域の条件を満たす文章を提示する処理(以下、表示可能文章抽出処理と称する)を実行する必要がある。以下、表示可能文章抽出処理について説明する。
[表示可能文章抽出処理]
図18は、サーバ13のユーザ提示用文章抽出部88による表示可能文章抽出処理の一例を説明するフローチャートである。
図18は、サーバ13のユーザ提示用文章抽出部88による表示可能文章抽出処理の一例を説明するフローチャートである。
ステップS91において、検索部121は、出演者に関するドキュメントの検索の指示を受信する。すなわち、検索部121は、携帯端末12から指定された所定の出演者に関するドキュメントの検索の指示を通信部59を介して受信する。
ステップS92において、通信部59は、携帯端末12の機器情報を取得する。携帯端末12の機器情報には、表示領域の条件が含まれる。表示領域の条件には、携帯端末12の表示部33に表示可能な文章数、文字数等が含まれる。
ステップS93において、検索部121は、出演者に関するドキュメントを検索する。すなわち、検索部121は、記憶部58に記憶されているドキュメント群の中から、検索の指示に基づいて、指定された出演者に関するドキュメントを検索する。
ステップS94において、抽出部122は、出演者に関するドキュメントを抽出する。すなわち、抽出部122は、検索部121によって検索された出演者に関するドキュメントを記憶部58から抽出する。
ステップS95において、抽出部122は、出演者に関するドキュメントの文章スコアの一覧を抽出する。すなわち、抽出部122は、ステップS94において抽出した出演者に関するドキュメントの文章スコアの一覧を記憶部58から抽出する。
ステップS96において、評価部123は、出演者の人気を評価する。なお、人気の評価は、知名度の評価と等価である。
出演者の人気を評価する手法として、例えば、インターネット上にある有名人の評価サイトの人気ランキング順位等を用いる手法を採用することができる。この手法によれば、所定の出演者の人気ランキングが閾値よりも大きい場合には、その出演者の人気が高いと評価される。なお、評価サイトの人気ランキング順位等は、本実施形態では図7のステップS1の処理時点で取得されるが、取得されるタイミングは本実施形態の例に特に限定されず、ステップS96の処理前の時点であれば任意のタイミングでよい。
ステップS97において、評価部123は、出演者の人気は高いか否かを判定する。
ステップS97において、出演者の人気が高いと判定された場合、処理はステップS98に進む。
ステップS98において、抽出部122は、希少性が高い文章をドキュメントの中から抽出する。すなわち、抽出部122は、ドキュメントの文章スコアの一覧の中で文章スコアが高い文章を、ドキュメントの中から抽出する。複数の文章が抽出される場合には、文章スコアが高い順に文章が抽出される。具体的には例えば、図16に示される例では、文章スコアが高い番号2,6,4…の文章が順に抽出される。
これに対して、ステップS97において、出演者の人気が高くないと判定された場合、処理はステップS99に進む。
ステップS99において、抽出部122は、一般性が高い文章をドキュメントの中から抽出する。すなわち、抽出部122は、ドキュメントの文章スコアの一覧の中で文章スコアが低い文章を、ドキュメントの中から抽出する。複数の文章が抽出される場合には、文章スコアが低い順に文章が抽出される。具体的には例えば、図16に示される例では、文章スコアが低い番号1,5,3…の文章が順に抽出される。
ステップS100において、記憶制御部124は、抽出した文章を全て表示候補として登録する。すなわち、記憶制御部124は、抽出部122により抽出された文章を、携帯端末12に表示する表示候補として、記憶部58に記憶する。
ステップS101において、選択部125は、表示候補の文章の中から、表示領域の条件を満たす文章を選択して送信する。すなわち、選択部125は、選択した文章を通信部59を介して携帯端末12に送信する。例えば、表示領域の条件が表示可能な文章数は2つであるという場合、表示候補として登録された文章数が5つであっても、送信される文章数は2つである。この場合、表示候補の文章の中から、文章スコアが高い順、若しくは低い順に2つの文章が送信される。すなわち、携帯端末12の表示領域の条件に基づいて、文章スコアの一覧に含まれる文章スコアのうち、上位N(Nは1以上の整数値)位または下位M(Mは1以上の整数値)位までの文章スコアを有する文章が選択されて、送信される。すなわち、NまたはMの値は、携帯端末12の表示領域の条件に基づいて決定される。
ここで、携帯端末12の表示例について図19を参照して説明する。
図19は、携帯端末12の表示例について説明する図である。
図19の例では、携帯端末12の表示部33に、テレビジョン番組に出演中の出演者161が表示されている。表示部33の下部の領域181,182には、ユーザが出演者161に関する情報を検索した場合に、出演者161に関する文章が表示される。すなわち、図19に示される例では、携帯端末12の表示領域の条件である表示可能な文章数は2つである。領域181,182の右端部にはそれぞれ次ボタン191,192のアイコンが表示されている。ユーザが次ボタン191,192を操作すると、領域181,182に表示される文章が次の順位の文章に切り換えられる。
ここで、出演者161は人気が高い俳優yであるとする。この場合、ステップS100の処理において表示候補として登録されている文章は、図16に示される俳優yに関するドキュメントYから、文章スコアが高い順に抽出された文章、すなわち、番号2,6,4…の文章である。したがって、ステップS101の処理において送信される文章は2番と6番の文章であり、2番の文章が領域181に表示され、6番の文章が領域182に表示される。
ステップS102において、選択部125は、文章は全て送信されたか否かを判定する。すなわち、選択部125は、表示候補として登録された文章が全て送信されたか否かを判定する。
ステップS102において、表示候補として登録された文章は全て送信されたと判定された場合、処理は終了する。
これに対して、ステップS102において、表示候補として登録された文章はまだ全て送信されていないと判定された場合、処理はステップS103に進む。
ステップS103において、選択部125は、次ボタンの指示を受け付けたか否かを判定する。すなわち、選択部125は、通信部59を介して、携帯端末12から次ボタンの指示を受け付けたか否かを判定する。
ステップS103において、携帯端末12からの次ボタンの指示がなかった場合、すなわち、ユーザによって次ボタン191若しくは192が操作されなかった場合、処理は終了する。
これに対して、ステップS103において、携帯端末12から次ボタンの指示を受け付けた場合、すなわち、ユーザによって次ボタン191若しくは192が操作された場合、処理はステップS104に進む。
ステップS104において、選択部125は、次の文章を送信する。すなわち、選択部125は、表示候補の文章の中から未送信の次の文章を、通信部59を介して携帯端末12に送信する。すなわち、例えばユーザによって次ボタン192が操作された場合、ステップS104の処理において送信される文章は、表示候補の文章の中からまだ送信されていない4番の文章である。すると、領域182には、6番の文章に換えて4番の文章が表示される。
これにより、表示可能文章抽出処理は終了する。
なお、ステップS93の処理で検索される出演者に関するドキュメントの数は、上述の例では説明の簡略上、1つとされたが、当然ながら複数でもよい。この場合、複数のドキュメントの各々に対して、ステップS93以降の処理が実行される。
上述の表示可能文章抽出処理の例は、携帯端末12に表示されたテレビジョン番組に出演している所定の出演者に関する情報を表示部33に表示させる処理である。しかしながら、表示させる情報は、テレビジョン番組に出演している出演者に特に限定されず、例えば、Webサイトや映画に関する情報であってもよい。
このように、出演者の人気の評価結果に基づいてユーザに提示する文章を変えることにより、表示領域の限られた携帯端末に、ユーザにとって、より興味を引く文章が提示されることになる。すなわち、検索された出演者の人気が高い場合には、希少性の高い、すなわち意外性の高い文章をユーザに提示することができる。逆に、人気が低い場合には、一般性が高い文章をユーザに提示することができる。
本発明は、携帯電話機、スマートフォンの他、電子手帳、PDA(Personal Digital Assistant)、ヘッドマウントディスプレイ、携帯型パーソナルコンピュータ等、文章の検索を実行することができる装置に適用することができる。
[本発明のプログラムへの適用]
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
この記録媒体は、図3に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(登録商標)(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア61により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM52や、記憶部58に含まれるハードディスクなどで構成される。
なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表わすものである。
1 文章抽出システム, 11 ネットワーク, 12 携帯端末, 13 サーバ, 31 入力部, 32 通信部 , 33 表示部, 51 CPU, 58 記憶部, 59 通信部 , 81 ドキュメント取得部, 82 カテゴリ分類部, 83 単語抽出部, 84 単語スコア算出部 , 85 スコア演算用文章抽出部, 86 文章スコア算出部, 87 文章スコア一覧生成部, 88 ユーザ提示用文章抽出部, 101 取得部, 102 選択部, 103 分類部, 104 判定部, 121 検索部, 122 抽出部, 123 評価部, 124 記憶制御部, 125 選択部, 181,182 領域, 191,192 次ボタン
Claims (7)
- ドキュメントを、複数のカテゴリのうちの1以上のカテゴリに分類するカテゴリ分類手段と、
前記ドキュメントから、1以上の単語を抽出する単語抽出手段と、
前記単語抽出手段により前記ドキュメントから抽出された前記1以上の単語の各々について、前記カテゴリ分類手段により前記ドキュメントが分類された前記1以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する単語スコア算出手段と、
前記ドキュメントの中から、1以上の文章を抽出する演算用文章抽出手段と、
前記演算用文章抽出手段により抽出された前記1以上の文章の各々について、前記単語スコア算出手段により算出された前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する文章スコア算出手段と
を備える情報処理装置。 - 前記カテゴリ分類手段は、
前記複数のカテゴリのうち何れかを特定可能な複数のキーワードを含むリストを取得する取得手段と、
前記ドキュメントの中に、前記リストに含まれる前記キーワードと一致する単語が存在している場合、前記ドキュメントを、前記単語と一致した前記キーワードにより特定されるカテゴリに分類する分類手段
を有する請求項1に記載の情報処理装置。 - 前記ドキュメントについて、前記文章スコア算出手段により算出された前記1以上の前記文章スコアの一覧を生成する文章スコア一覧生成手段を
さらに備える請求項2に記載の情報処理装置。 - 前記ドキュメントの一般性が高い場合には、前記文章スコア一覧生成手段により生成された前記文章スコアの一覧に含まれる前記1以上の文章スコアのうち、上位N(Nは1以上の整数値)位までのスコアを有する文章を前記ドキュメントから抽出し、前記ドキュメントの一般性が低い場合には、前記文章スコアの一覧に含まれる前記1以上の文章スコアのうち、下位M(Mは1以上の整数値)位までのスコアを有する文章を前記ドキュメントから抽出する提示用文章抽出手段と、
前記提示用文章抽出手段により抽出された前記文章を提示する提示手段を
さらに備える請求項3に記載の情報処理装置。 - 前記提示用文章抽出手段は、前記提示手段による提示の条件に基づいて、前記N又は前記Mの値を決定する
請求項4に記載の情報処理装置。 - ドキュメントを、複数のカテゴリのうちの1以上のカテゴリに分類するカテゴリ分類ステップと、
前記ドキュメントから、1以上の単語を抽出する単語抽出ステップと、
前記単語抽出ステップの処理により前記ドキュメントから抽出された前記1以上の単語の各々について、前記カテゴリ分類ステップの処理により前記ドキュメントが分類された前記1以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出する単語スコア算出ステップと、
前記ドキュメントの中から、1以上の文章を抽出する演算用文章抽出ステップと、
前記演算用文章抽出ステップの処理により抽出された前記1以上の文章の各々について、前記単語スコア算出ステップの処理により算出された前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する文章スコア算出ステップと
を含む情報処理方法。 - ドキュメントを、複数のカテゴリのうちの1以上のカテゴリに分類し、
前記ドキュメントから、1以上の単語を抽出し、
前記ドキュメントから抽出された前記1以上の単語の各々について、前記ドキュメントが分類された前記1以上のカテゴリ内での各々の出現頻度に基づいて、単語の意外性の指標となる単語スコアを算出し、
前記ドキュメントの中から、1以上の文章を抽出し、
抽出された前記1以上の文章の各々について、前記単語スコアに基づいて、文章の意外性の指標となる文章スコアを算出する
ステップを含む制御処理をコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009247755A JP2011095905A (ja) | 2009-10-28 | 2009-10-28 | 情報処理装置および方法、並びにプログラム |
US12/880,598 US9122680B2 (en) | 2009-10-28 | 2010-09-13 | Information processing apparatus, information processing method, and program |
CN2010105302033A CN102054018B (zh) | 2009-10-28 | 2010-10-21 | 信息处理设备、信息处理方法以及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009247755A JP2011095905A (ja) | 2009-10-28 | 2009-10-28 | 情報処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011095905A true JP2011095905A (ja) | 2011-05-12 |
Family
ID=43899156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009247755A Withdrawn JP2011095905A (ja) | 2009-10-28 | 2009-10-28 | 情報処理装置および方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9122680B2 (ja) |
JP (1) | JP2011095905A (ja) |
CN (1) | CN102054018B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015079382A (ja) * | 2013-10-17 | 2015-04-23 | 日本電信電話株式会社 | 文書分類装置、文書分類方法および文書分類プログラム |
JP2017091270A (ja) * | 2015-11-11 | 2017-05-25 | 大日本印刷株式会社 | 情報処理装置、情報処理システム、及びプログラム |
JP2021056698A (ja) * | 2019-09-30 | 2021-04-08 | Kddi株式会社 | リスク評価装置、リスク評価方法及びリスク評価プログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
CN102355517A (zh) * | 2011-07-01 | 2012-02-15 | 宇龙计算机通信科技(深圳)有限公司 | 信息分类装置、信息分类方法和终端 |
JP5250709B1 (ja) * | 2012-03-12 | 2013-07-31 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体 |
US9348811B2 (en) * | 2012-04-20 | 2016-05-24 | Sap Se | Obtaining data from electronic documents |
US20140289260A1 (en) * | 2013-03-22 | 2014-09-25 | Hewlett-Packard Development Company, L.P. | Keyword Determination |
US9727641B2 (en) * | 2013-04-25 | 2017-08-08 | Entit Software Llc | Generating a summary based on readability |
JP2014241040A (ja) * | 2013-06-11 | 2014-12-25 | 株式会社東芝 | 情報処理装置、方法、及びプログラム |
US10847047B2 (en) * | 2014-11-27 | 2020-11-24 | Sony Corporation | Information processing device, information processing method, and computer program |
CN107533545B (zh) * | 2015-05-11 | 2021-01-12 | 株式会社东芝 | 信息提示装置、信息提示方法及记录介质 |
CN106557460A (zh) * | 2015-09-29 | 2017-04-05 | 株式会社东芝 | 从单文档中提取关键词的装置及方法 |
CN106484139B (zh) * | 2016-10-19 | 2019-01-29 | 北京新美互通科技有限公司 | 表情符号推荐方法及装置 |
CN108470002B (zh) * | 2018-03-19 | 2022-05-03 | 南京邮电大学 | 一种面向Selenium IDE的XML测试脚本质量评判方法 |
US11270078B2 (en) * | 2019-05-18 | 2022-03-08 | Exxonmobil Upstream Research Company | Method and system for generating a surprisingness score for sentences within geoscience text |
US20220036008A1 (en) * | 2020-07-31 | 2022-02-03 | GeoScienceWorld | Method and System for Generating Geological Lithostratigraphic Analogues using Theory-Guided Machine Learning from Unstructured Text |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3598742B2 (ja) * | 1996-11-25 | 2004-12-08 | 富士ゼロックス株式会社 | 文書検索装置及び文書検索方法 |
US8275661B1 (en) * | 1999-03-31 | 2012-09-25 | Verizon Corporate Services Group Inc. | Targeted banner advertisements |
US6924828B1 (en) * | 1999-04-27 | 2005-08-02 | Surfnotes | Method and apparatus for improved information representation |
JP4732593B2 (ja) * | 1999-05-05 | 2011-07-27 | ウエスト パブリッシング カンパニー | ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア |
US7140044B2 (en) * | 2000-11-13 | 2006-11-21 | Digital Doors, Inc. | Data security system and method for separation of user communities |
US7308451B1 (en) * | 2001-09-04 | 2007-12-11 | Stratify, Inc. | Method and system for guided cluster based processing on prototypes |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
JP2004164036A (ja) * | 2002-11-08 | 2004-06-10 | Hewlett Packard Co <Hp> | 文書の共通性評価方法 |
CN1922605A (zh) * | 2003-12-26 | 2007-02-28 | 松下电器产业株式会社 | 辞典制作装置以及辞典制作方法 |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
US8612208B2 (en) * | 2004-04-07 | 2013-12-17 | Oracle Otc Subsidiary Llc | Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query |
US7392474B2 (en) * | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
US20050246333A1 (en) * | 2004-04-30 | 2005-11-03 | Jiang-Liang Hou | Method and apparatus for classifying documents |
JP2006011851A (ja) * | 2004-06-25 | 2006-01-12 | Oki Electric Ind Co Ltd | 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム |
US20060069678A1 (en) * | 2004-09-30 | 2006-03-30 | Wu Chou | Method and apparatus for text classification using minimum classification error to train generalized linear classifier |
US8280719B2 (en) * | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
JP4654780B2 (ja) * | 2005-06-10 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US20070067293A1 (en) * | 2005-06-30 | 2007-03-22 | Hong Yu | System and methods for automatically identifying answerable questions |
US7813919B2 (en) * | 2005-12-20 | 2010-10-12 | Xerox Corporation | Class description generation for clustering and categorization |
US20080126319A1 (en) * | 2006-08-25 | 2008-05-29 | Ohad Lisral Bukai | Automated short free-text scoring method and system |
US8296168B2 (en) * | 2006-09-13 | 2012-10-23 | University Of Maryland | System and method for analysis of an opinion expressed in documents with regard to a particular topic |
JP2008077252A (ja) | 2006-09-19 | 2008-04-03 | Ricoh Co Ltd | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 |
WO2008046104A2 (en) * | 2006-10-13 | 2008-04-17 | Collexis Holding, Inc. | Methods and systems for knowledge discovery |
US20080104506A1 (en) * | 2006-10-30 | 2008-05-01 | Atefeh Farzindar | Method for producing a document summary |
EP2122506A4 (en) * | 2007-01-10 | 2011-11-30 | Sysomos Inc | METHOD AND SYSTEM FOR INFORMATION DISCOVERY AND TEXT ANALYSIS |
US8473279B2 (en) * | 2008-05-30 | 2013-06-25 | Eiman Al-Shammari | Lemmatizing, stemming, and query expansion method and system |
US8606796B2 (en) * | 2008-09-15 | 2013-12-10 | Kilac, LLC | Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files |
KR101005337B1 (ko) * | 2008-09-29 | 2011-01-04 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
CN101408897B (zh) * | 2008-10-10 | 2011-03-30 | 清华大学 | 一种基于协作过滤的个性化查询扩展方法 |
US20100153365A1 (en) * | 2008-12-15 | 2010-06-17 | Hadar Shemtov | Phrase identification using break points |
US8326820B2 (en) * | 2009-09-30 | 2012-12-04 | Microsoft Corporation | Long-query retrieval |
-
2009
- 2009-10-28 JP JP2009247755A patent/JP2011095905A/ja not_active Withdrawn
-
2010
- 2010-09-13 US US12/880,598 patent/US9122680B2/en not_active Expired - Fee Related
- 2010-10-21 CN CN2010105302033A patent/CN102054018B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015079382A (ja) * | 2013-10-17 | 2015-04-23 | 日本電信電話株式会社 | 文書分類装置、文書分類方法および文書分類プログラム |
JP2017091270A (ja) * | 2015-11-11 | 2017-05-25 | 大日本印刷株式会社 | 情報処理装置、情報処理システム、及びプログラム |
JP2021056698A (ja) * | 2019-09-30 | 2021-04-08 | Kddi株式会社 | リスク評価装置、リスク評価方法及びリスク評価プログラム |
JP7096222B2 (ja) | 2019-09-30 | 2022-07-05 | Kddi株式会社 | リスク評価装置、リスク評価方法及びリスク評価プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20110099003A1 (en) | 2011-04-28 |
CN102054018A (zh) | 2011-05-11 |
US9122680B2 (en) | 2015-09-01 |
CN102054018B (zh) | 2013-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011095905A (ja) | 情報処理装置および方法、並びにプログラム | |
US8229949B2 (en) | Apparatus, method and program product for presenting next search keyword | |
US8311997B1 (en) | Generating targeted paid search campaigns | |
US9262527B2 (en) | Optimized ontology based internet search systems and methods | |
KR101171405B1 (ko) | 검색 결과에서 배치 내용 정렬의 맞춤화 | |
CN104885081B (zh) | 搜索***和相应方法 | |
CN101122909A (zh) | 文本信息检索装置以及文本信息检索方法 | |
JP2005322245A (ja) | 要約を使用して表示ページを分類する方法およびシステム | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
KR101355945B1 (ko) | 온라인 문맥기반 광고 장치 및 방법 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
CN111046225A (zh) | 音频资源处理方法、装置、设备及存储介质 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
JP5302614B2 (ja) | 施設関連情報の検索データベース形成方法および施設関連情報検索システム | |
JP5234992B2 (ja) | 回答文書分類装置、回答文書分類方法及びプログラム | |
JP5661719B2 (ja) | 質問応答装置、方法、及びプログラム | |
KR20110038247A (ko) | 키워드 추출 장치 및 방법 | |
CN113657116B (zh) | 基于视觉语义关系的社交媒体流行度预测方法及装置 | |
JP2017134675A (ja) | 情報検索装置及びプログラム | |
US9305103B2 (en) | Method or system for semantic categorization | |
Lau et al. | Mining the web for business intelligence: Homepage analysis in the internet era | |
JP4462014B2 (ja) | 話題語結合方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130108 |