JP5552987B2 - 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム - Google Patents

検索結果出力装置、検索結果出力方法及び検索結果出力プログラム Download PDF

Info

Publication number
JP5552987B2
JP5552987B2 JP2010214198A JP2010214198A JP5552987B2 JP 5552987 B2 JP5552987 B2 JP 5552987B2 JP 2010214198 A JP2010214198 A JP 2010214198A JP 2010214198 A JP2010214198 A JP 2010214198A JP 5552987 B2 JP5552987 B2 JP 5552987B2
Authority
JP
Japan
Prior art keywords
representative image
image
text
search result
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010214198A
Other languages
English (en)
Other versions
JP2012068982A (ja
Inventor
正樹 石原
秋吾 中村
孝之 馬場
進 遠藤
秀一 椎谷
祐介 上原
大器 増本
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010214198A priority Critical patent/JP5552987B2/ja
Publication of JP2012068982A publication Critical patent/JP2012068982A/ja
Application granted granted Critical
Publication of JP5552987B2 publication Critical patent/JP5552987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は検索結果を出力する検索結果出力装置、検索結果出力方法及び検索結果出力プログラムに関する。
近年、シニア層のユーザ(以下、シニアユーザという)のパーソナルコンピュータ(PC)利用ニーズが高まっている。シニアユーザは一般ユーザと異なり、PC利用のリテラシが平均的に低い点や小さい文字が見えない点など、シニア特有の課題がある。
例えばインターネットから「温泉旅行」に関するWebページを調べて、最終的に旅行プランを立てるというタスクを考える。一般的には、図1のような検索プロセスを行うことになる。図1はWebページ検索プロセスの一例のフローチャートである。例えばシニアユーザは「温泉旅行をしたい」という発想が検索のきっかけとなる。
ステップS1において、シニアユーザは検索エンジンに、例えば「温泉旅行」などの検索キーワードを入力する。ステップS2において、PCは図2に示すような検索結果表示画面をディスプレイ装置などに表示する。
図2は検索結果表示画面の一例のイメージ図である。図2の検索結果表示画面は一般的な検索エンジンの検索結果表示画面の一例である。図2に示すように、検索結果表示画面は検索ヒットした(検索キーワードが含まれている)Webページの格納位置と、そのWebページの概要が文字ベースでリスト表示されている。
シニアユーザは図2の検索結果表示画面を吟味してWebページを選択する。ステップS3において、PCはシニアユーザに選択されたWebページをディスプレイ装置などに表示する。シニアユーザはディスプレイ装置などに表示されたWebページを閲覧し、意図と合っているか違っているかを判断する。
意図と合っていれば、シニアユーザは目的を達成し、図1のフローチャートの処理を終了する。意図と合っていなければ、シニアユーザはステップS2において、再び、検索結果表示画面を吟味して他のWebページを選択する。なお、シニアユーザは検索結果表示画面に意図と合っているWebページが含まれていなければステップS1において、検索キーワードの入力からやり直す。
しかし、図2の検索結果表示画面は文字ベースであり、シニアユーザにとって情報過多であることが多い。このため、視力や判断力、記憶力などが衰えていることが多いシニアユーザはステップS2においてWebページの取捨選択を行うことが難しかった。
従来、オートパイロット等により蓄積されたWeb情報を閲覧する際に、Web情報のサムネイルを生成し出力すること、画像のみを出力すること、順次表示することで、簡便にWeb情報が見られるようにする技術は知られている(例えば特許文献1参照)。
特開2000−112856号公報
しかし、オートパイロット等により蓄積されたWeb情報を閲覧する際に、Web情報のサムネイルを生成し出力すること、サムネイルの内容をWeb情報中に含まれる画像のみとすること、Web情報の画像が表示されている部分を順に表示することで、簡便にWeb情報が見られるようにする技術は、上記したWebページの取捨選択を行うことが難しいという課題を解決できるものではない。
例えばWebページのサムネイルや、Webページ中に含まれる画像だけが出力されたとしても、視力や判断力、記憶力などが衰えていることが多いシニアユーザはステップS2においてWebページの取捨選択を行うことが難しかった。
本実施形態は、検索結果を分かり易く出力できる検索結果出力装置、検索結果出力方法及び検索結果出力プログラムを提供することを目的とする。
上記課題を解決するため、本発明の一実施形態は、検索キーワードにより検索されたコンテンツから該コンテンツを代表する代表画像を抽出する画像抽出手段と、前記検索されたコンテンツから前記代表画像に関連する関連テキストを抽出するテキスト抽出手段と、前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として順に出力する検索結果出力手段とを有し、前記検索結果出力手段は、検索結果の出力スピード変更のユーザ操作があると、ユーザ操作に基づいてユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを判断し、前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを関連付けて記録する記録手段からユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストをキー画像及びキーテキストとして選択し、前記キー画像と、前記記録手段に記録されている前記代表画像との類似度を算出し、該類似度の順に出力することを特徴とする。
なお、本発明の一実施形態の構成要素、表現又は構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。
本実施形態によれば、検索結果を分かり易く出力できる検索結果出力装置、検索結果出力方法及び検索結果出力プログラムを提供可能である。
Webページ検索プロセスの一例のフローチャートである。 検索結果表示画面の一例のイメージ図である。 本実施例による検索結果表示画面の一例のイメージ図である。 本実施例のWebページ検索システムの一実施例の構成図である。 コンピュータの一例のハードウェア構成図である。 Webサーバの一実施例の処理ブロック図である。 Webサーバが検索結果をユーザインターフェースに表示させる処理の一例のフローチャートである。 ページ解析部の処理の一例のフローチャートである。 ステップS23の画像抽出処理を表した一例のフローチャートである。 ステップS26の類似画像抽出処理を表した一例のフローチャートである。 ステップS24のテキスト抽出処理を表した一例のフローチャートである。 ステップS27の類似テキスト抽出処理を表した一例のフローチャートである。 合成処理部の処理の一例のフローチャートである。 表示制御部の処理の一例のフローチャートである。 音声合成の処理イメージを表した一例の説明図である。 タイムライン作成及び更新の処理イメージを表した一例の説明図である。 ステップS77〜S79の処理イメージを表した一例の説明図である。 表示制御部の処理イメージを表した一例の説明図である。 再生スピード変更のユーザ操作を受けた表示制御部の処理イメージを表した一例の説明図である。 再生スピード変更のユーザ操作を受けた表示制御部の処理イメージを表した一例の説明図である。 ステップS62〜S65の処理イメージを表した一例の説明図である。
次に、本発明を実施するための形態を、以下の実施例に基づき図面を参照しつつ説明していく。なお、本実施例では情報検索分野におけるブラウジング技術を例とする。本実施例は検索結果を出力する際、その検索結果を示すWebページに、どのような内容が書かれているのかを分かり易く示すものである。Webページは、テキスト及び画像を含むコンテンツ(資源)の一例である。
本実施例では、検索結果の出力方法として、図3に示すように、各Webページを代表する画像と、その画像に関連するテキストとを、紙芝居風にスライド表示する。本実施例の方法は例えばシニアユーザに適していると考えられる。さらに、本実施例では視覚的な情報だけでなく、テキストを読み上げた音声と、Webページの切り替わりを意識させるためのBGMを用いて、聴覚的な情報の提示も同時に行い、より深い理解を促進できる。
図3に示すようなWebページの内容を表現するスライドを作成するためには、Webページから、そのWebページの内容を表す代表的な画像(以下、代表画像という)を取り出し、かつ、その代表画像を説明する短いテキスト(以下、関連テキストという)を取り出す必要がある。
一般的に、Webページ内には、広告バナー等の画像や文字装飾のためのアイコン画像の他、そのWebページ内のテキストを説明するための写真等の画像など、様々な画像が含まれている。
ユーザが検索結果の表示から所望のWebページを取捨選択する際には、Webページを見比べながら、より所望のWebページに近いものを絞り込んでゆく。例えば代表画像及び関連テキストをWebページから取り出すとき、統一的な基準で代表画像及び関連テキストを選ぶことができる。しかし、実際にはユーザによって注目する代表画像及び関連テキストが異なるため、ユーザが関心を示した代表画像と関連テキストとを中心に表示した方がWebページの取捨選択に役立つ。つまり、ユーザが関心を示した代表画像及び関連テキストの対応付け及び抽出が必要となる。
図4は本実施例のWebページ検索システムの一実施例の構成図である。図4のWebページ検索システムは、1つ以上のクライアント1a〜1nと、1つ以上のWebサーバ2a〜2mと、ネットワーク3とを有する。なお、クライアント1a〜1nの何れでもよい場合はクライアント1と総称する。Webサーバ2a〜2mの何れでもよい場合はWebサーバ2と総称する。
クライアント1はネットワーク3を介してWebサーバ2とデータ通信可能に接続されている。クライアント1はユーザが操作する端末である。Webサーバ2はWebページを格納している。また、Webサーバ2の少なくとも1つには、検索エンジンが含まれている。
検索エンジンが含まれるWebサーバ2はクライアント1から検索キーワードを指定した検索要求があると、公開されているWebページを検索キーワードで検索し、その検索結果のWebページをネットワーク3経由でクライアント1に送信する。
また、Webサーバ2はクライアント1からWebページの格納位置を指定したWebページの取得要求があると、取得要求のあったWebページをネットワーク3経由でクライアント1に送信する。なお、Webページの格納位置はURL(Uniform Resource Locator)などで表される。
クライアント1は例えば検索キーワードを指定して、Webサーバ2にWebページの検索要求を行う。また、クライアント1は例えばURLを指定して、Webサーバ2にWebページを要求する。クライアント1はWebブラウザなどを利用し、Webサーバ2から受信したWebページを表示する。
クライアント1及びWebサーバ2は、例えばサーバコンピュータやクライアントコンピュータなどのコンピュータ10により実現される。なお、検索結果出力プログラムがインストールされたコンピュータ10は検索結果出力装置の一例である。
図5はコンピュータの一例のハードウェア構成図である。ここでは、検索結果出力プログラムがインストールされているコンピュータ10のハードウェア構成を説明する。コンピュータ10は、検索結果出力装置と同様の機能を有している検索結果出力プログラムを実行する。
図5のコンピュータ10は、入力装置21、表示装置22、コンピュータ本体23を有している。コンピュータ本体23はバス37で相互に接続された主記憶装置31、演算処理装置32、インターフェース装置33、記録媒体読取装置34及び補助記憶装置35を有する。また、バス37には入力装置21及び表示装置22が接続されている。
バス37で相互に接続されている入力装置21、表示装置22、主記憶装置31、演算処理装置32、インターフェース装置33、記録媒体読取装置34及び補助記憶装置35は、演算処理装置32による管理下で相互にデータの送受を行うことができる。演算処理装置32は、コンピュータ10全体の動作制御を司る中央処理装置である。
インターフェース装置33はネットワーク3等からのデータを受信し、データの内容を演算処理装置32に渡す。インターフェース装置33は演算処理装置32からの指示に応じてネットワーク3等にデータを送信する。
補助記憶装置35には検索結果出力装置と同様の機能をコンピュータ10に発揮させるプログラムの一部として、少なくとも検索結果出力装置における処理をコンピュータ10に実行させる検索結果出力プログラムが記憶されている。そして、演算処理装置32が検索結果出力プログラムを補助記憶装置35から読み出して実行することで、コンピュータ10は検索結果出力装置として機能するようになる。検索結果出力プログラムは、演算処理装置32とアクセス可能な主記憶装置31に格納されていても良い。
入力装置21は演算処理装置32の管理下でデータの入力を受付ける。検索結果出力プログラムは、コンピュータ10が読み取り可能な記録媒体36に記録しておくことができる。
記録媒体36には、磁気記録媒体、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録媒体には、HDD、フレキシブルディスク(FD)、磁気テープ(MT)などがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc − Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。また、光磁気記録媒体には、MO(Magneto − Optical disk)などがある。
検索結果出力プログラムを流通させる場合は例えば検索結果出力プログラムが記録されたDVD、CD−ROMなどの可搬型の記録媒体36を販売することが考えられる。検索結果出力プログラムを実行するコンピュータ10は例えば記録媒体読取装置34が検索結果出力プログラムを記録した記録媒体36から検索結果出力プログラムを読み出す。演算処理装置32は、読み出された検索結果出力プログラムを主記憶装置31若しくは補助記憶装置35に格納する。そして、コンピュータ10は自己の記憶装置である主記憶装置31若しくは補助記憶装置35から検索結果出力プログラムを読み取り、検索結果出力プログラムに従った処理を実行する。つまり、演算処理装置32は検索結果出力プログラムに従って、後述するような各種処理を実現している。
ここでは、検索結果出力装置の一例としてのWebサーバ2について説明する。図6はWebサーバの一実施例の処理ブロック図である。なお、図6の処理ブロック図は一例であって、一部の処理ブロックを他のWebサーバ2やクライアント1に持たせる構成も可能である。
Webサーバ2は検索部41、ページ解析部42、合成処理部43、表示制御部44を有する。なお、図6のユーザインターフェース60は例えばクライアント1及びWebブラウザにより実現される。
検索部41は、例えば検索エンジンである。検索部41はユーザインターフェース60から検索キーワードを指定した検索要求を受信する。検索キーワードは予め登録されているものであってもよいし、ユーザが自由記述したものであってもよい。検索部41は公開されているWebページを検索キーワードで検索し、その検索結果(例えばWebページのURLリスト)を得る。
ページ解析部42はページ取得部51、画像抽出部52、テキスト抽出部53、記録部54を有する。ページ解析部42のページ取得部51は検索部41から検索結果としてのWebページのURLリストを取得する。画像抽出部52はページ取得部51が取得したURLリストのWebページをダウンロードする。
画像抽出部52はダウンロードしたWebページ内の画像(Webページ中に含まれる画像)から後述のように、抽出条件に合致したものを代表画像として抽出する。テキスト抽出部53はダウンロードしたWebページのHTMLを解析し、Webページ内のテキスト(Webページ中に含まれるテキスト)から後述のように、抽出条件に合致したものを関連テキストとして抽出する。記録部54は、URLリストに含まれるWebページのURL、タイトル、代表画像(URL又はファイル)及び関連テキストをデータベースに記録する。
合成処理部43は記録部54のデータベースに記録された関連テキストに対し、音声合成処理を行い、読み上げ音声ファイルを生成する。また、合成処理部43はWebページ毎に音声読み上げ時間と同期した音楽(例えばBGMなど)を生成する。そして、合成処理部43は記録部54のデータベースに記録されたWebページのタイトル、代表画像及び関連テキストを順番に表示すると共に、読み上げ音声ファイル及び音楽を同期して再生するための同期ファイル(タイムライン)を作成する。
表示制御部44は、同期ファイルに従って各Webページをスライド再生する。表示制御部44はユーザ操作に応じてスライドの停止/再生/戻る/進む等の制御を行い、その制御に応じて後述のようにスライド表示順や表示内容を変更する。また、Webページ閲覧の操作を行った際には、WebブラウザにWebページを表示させる制御を行う。
上記したように、図6のWebサーバ2はクライアント1のWebブラウザをユーザインターフェース60として、検索結果の表示を図7のように行う。図7はWebサーバが検索結果をユーザインターフェースに表示させる処理の一例のフローチャートである。
ステップS11において、ページ解析部42は、検索部41から検索結果として取得したURLリストのWebページについて、後述のページ解析処理を行う。合成処理部43はステップS12において、読み上げ音声ファイル及びタイムラインを作成することで記録部54のデータベースに記録されたWebページのタイトル、代表画像及び関連テキストを順番に表示すると共に、読み上げ音声ファイル及び音楽を同期して再生するための後述の合成処理を行う。
ステップS13において、表示制御部44は同期ファイルに従って各Webページをスライド再生すると共に、ユーザ操作に応じてスライドの停止/再生/戻る/進む等の制御を行い、その制御に応じてスライド表示順や表示内容を変更するための後述の表示制御処理を行う。なお、ステップS13の表示制御処理では後述のように、ユーザが関心を示した画像及びテキストがキー画像及びキーテキストに設定されたあと、ステップS11に示したページ解析処理に戻るものとする。
図8はページ解析部の処理の一例のフローチャートである。ステップS21ではページ取得部51がキー画像及びキーテキストの設定あり/なしを判定する。例えばキー画像及びキーテキストは初回起動もしくはユーザ操作の無い場合に設定がない。
キー画像及びキーテキストの設定がないと判定すると、ページ取得部51はステップS22において、検索部41から検索結果としてのWebページのURLリスト(ページリスト)を取得する。
ステップS23において、画像抽出部52はページ取得部51が取得したページリストのWebページをダウンロードする。画像抽出部52はダウンロードしたWebページ内の画像から後述のように、抽出条件に合致したものを代表画像として抽出する。
ステップS24において、テキスト抽出部53はダウンロードしたWebページのHTMLを解析し、Webページ内のテキストから後述のように、抽出条件に合致したものを関連テキストとして抽出する。
一方、ステップS21において、キー画像及びキーテキストの設定があると判定した場合、ページ取得部51はキー画像及びキーテキストの設定がある旨を画像抽出部52及びテキスト抽出部53に通知する。
キー画像及びキーテキストの設定がある旨を通知されると、画像抽出部52はステップS25において、記録部54から記録済みの全代表画像を取得する。キー画像及びキーテキストの設定がある旨を通知されると、テキスト抽出部53は記録部54から記録済みの全関連テキストを取得する。
ステップS26において、画像抽出部52は取得した全代表画像に対し、キー画像を使用して後述のように類似画像抽出処理を行う。ステップS27において、テキスト抽出部53は取得した全関連テキストに対し、キーテキストを使用して後述のように類似テキスト抽出処理を行う。
図9はステップS23の画像抽出処理を表した一例のフローチャートである。ステップS31において、画像抽出部52はダウンロードしたWebページ内に含まれる全画像を取得する。
ステップS32において、画像抽出部52は取得した全画像の種類(アニメーションgif、flash、jpegなど)とリンク属性(HTMLのaタグなど)とをチェックして外部リンクや対象外の画像種類を除外する画像属性フィルタ処理を行う。ステップS33において、画像抽出部52は画像属性フィルタ処理により除外されなかった全画像の画像サイズをチェックして、ある閾値未満の画像サイズの画像を除外する画像サイズフィルタ処理を行う。ステップS33では、例えば60×60pixel未満の画像サイズの画像を除外することでアイコンやロゴ画像などを除外する。
ステップS34において、画像抽出部52は画像属性フィルタ処理、画像サイズフィルタ処理により除外されなかった全画像のアスペクト比(縦横比)をチェックして、ある閾値以上のアスペクト比の画像を除外するアスペクト比フィルタ処理を行う。ステップS34では、例えば1:2以上のアスペクト比の画像を除外することで広告バナー画像などを除外する。
ステップS35において、画像抽出部52は画像属性フィルタ処理、画像サイズフィルタ処理、アスペクト比フィルタ処理により除外されなかった全画像の文字の有無をチェックして、文字が含まれている画像を除外する文字検出フィルタ処理を行う。ステップS35では、文字が含まれている画像を除外することで、キャンペーンや特集などの画像を除外する。なお、文字検出フィルタ処理では検出する文字のサイズを例えば20×20pixel未満などと設定してもよい。
ステップS36において、画像抽出部52は画像属性フィルタ処理、画像サイズフィルタ処理、アスペクト比フィルタ処理、文字検出フィルタ処理により除外されなかった全画像を代表画像として記録部54に記録する。なお、画像抽出部52はWebページ単位の記録順を検索結果のWebページランク(ページリスト)順とし、各Webページ内の代表画像単位での記録順を画像サイズ順とする。
図10はステップS26の類似画像抽出処理を表した一例のフローチャートである。ステップS41において、画像抽出部52は記録部54に記録されている全代表画像を取得する。ステップS42において、画像抽出部52は取得した全代表画像に対してキー画像との類似度を計算する。なお、キー画像との類似度の算出方法は一般的に利用されている色ヒストグラムのユークリッド距離等を利用できる。
また、キー画像との類似度の算出方法の一例として、例えば「鈴木健司, et.al., "情報データベース技術(未来ねっと技術シリーズ)",第3章 マルチメディア情報の蓄積・検索技術, pp.80-136, オーム社, 2000」に記載されている類似画像検索技術を利用できる。
そして、ステップS43において、画像抽出部52はステップS42で算出したキー画像との類似度順に全代表画像を記録部54に記録し直す。
図11はステップS24のテキスト抽出処理を表した一例のフローチャートである。ステップS24のテキスト抽出処理は、例えば「遠藤,指田,増本,長田,棚橋:画像情報とテキスト情報を統合的に利用したインタラクティブなWeb検索システム, 知能情報メディアシンポジウム,第5回知能情報メディアシンポジウム論文集 pp.163-170(1999).」に記載されている既存手法を利用できる。
上記の既存手法では、代表画像に関連する関連テキストを取得する際、テキストの意味内容を解析して取得するのが困難であるため、「画像と近い位置的にあるテキストは画像と内容的に関連していることが多い」「HTMLのタグ構造からも画像とテキストの距離をある程度推測できる」という経験則を用いる。
画像とテキストの近さという点においては、HTMLファイルの内容を解析して、HTMLファイル内のタグ同士の近さを取得すれば、大まかには取得できる。テーブルなどの配置構造をもったタグなどの一部の例外はあるが、一般にHTMLファイル内で近いタグ同士は、表示上も近くに現れる。そこで、画像とテキストの位置的な近さの尺度は間に挟まれる改行数を用いている。これにより、画像とテキストとは間にはさまれる行数が多いほど、距離が遠くなる。
また、HTMLのタグ構造による画像とテキストとの距離は、画像とテキストの間に含まれるタグの種類と数から、表1に示したタグと距離値の関係を用いて算出する。間にタグが多く存在すると、画像とテキストとは距離が大きく離れているとみなす。特に文章の切れ目を表すタグである<P><H1><HR>などがある場合は、画像とテキストとの距離が大きく離れているとみなす。
また、画像とテキストとの距離の特別な場合として、画像を表示するためのタグである<IMG>につけられた画像の代用となるテキストを表すALTアトリビュートに記述されたテキストは、画像との関連性が深いので距離値0を割り当てる。
ステップS51において、テキスト抽出部53はダウンロードしたWebページのHTMLを解析し、HTML内での記録順に代表画像の位置(代表画像を表示するためのタグの位置)を取得する。ステップS52において、テキスト抽出部53はステップS51で取得した各代表画像の位置からタグ単位に取得テキスト範囲を拡大していく。
取得テキスト範囲にテキストが含まれると、ステップS53において、テキスト抽出部53は取得テキスト範囲に含まれるテキストと代表画像との距離値を、表1に示したタグと距離値の関係を用いて算出する。ステップS54において、テキスト抽出部53は算出したテキストと代表画像との距離値が閾値以下であるか否かを判定する。
算出したテキストと代表画像との距離値が閾値以下であれば、テキスト抽出部53はステップS55において、代表画像との距離値が閾値以下であったテキストを、関連テキストとして記録部54に記録する。算出したテキストと代表画像との距離値が閾値以下でなければ、テキスト抽出部53はステップS52において、更に取得テキスト範囲を拡大していく。
また、図12はステップS27の類似テキスト抽出処理を表した一例のフローチャートである。ステップS61において、テキスト抽出部53はダウンロードしたWebページのHTMLを解析し、HTML内での記録順に代表画像の位置を取得する。
ステップS62において、テキスト抽出部53はステップS61で取得した各代表画像の位置から文字単位に取得テキスト範囲を拡大していく。ステップS63において、テキスト抽出部53は取得テキスト範囲に含まれるテキストに対してキーテキストとの類似度を算出する。なお、キーテキストとの類似度の算出方法は一般的に利用されているテキストの類似度を算出する既存手法を利用できる。
ステップS64において、テキスト抽出部53は算出した取得テキスト範囲に含まれるテキストとキーテキストとの類似度が閾値以上であり、且つ、極大値であるか否かを判定する。
算出した取得テキスト範囲に含まれるテキストとキーテキストとの類似度が閾値以上であり、且つ、極大値であれば、テキスト抽出部53はステップS65において、キーテキストとの類似度が閾値以上であり、且つ、極大値であるテキストを、関連テキストとして記録部54に記録し直す(書き換える)。
算出した取得テキスト範囲に含まれるテキストとキーテキストとの類似度が閾値以上でなく、又は、極大値でなければ、テキスト抽出部53はステップS62において、更に取得テキスト範囲を拡大していく。なお、図12のステップS62〜S65の処理については後述する。
図13は合成処理部の処理の一例のフローチャートである。合成処理部43はステップS71において、記録部54に記録された関連テキストを取得する。また、ステップS72において、合成処理部43は取得した関連テキストを音声合成エンジンに入力して音声合成処理を行い、読み上げ音声ファイルを生成する。
ステップS73において、合成処理部43はWebページのサムネイル画像を利用するか否かを判定する。Webページのサムネイル画像を利用しなければ、合成処理部43はステップS74において、初回の合成処理か否かを判定する。初回の合成処理か否かは例えばタイムラインの有無で判定できる。
初回の合成処理であれば、合成処理部43はステップS75において、Webページ毎に音声読み上げ時間と同期した音楽(例えばBGMなど)を生成する。そして、合成処理部43は記録部54に記録されたWebページのタイトル、代表画像及び関連テキストを順番に表示すると共に、読み上げ音声ファイル及び音楽を同期して再生するためのタイムラインを作成する。
初回の合成処理でなければ、合成処理部43はステップS76において、Webページ毎に音声読み上げ時間と同期した音楽を生成する。そして、合成処理部43はタイムラインを更新する。
なお、ステップS73において、Webページのサムネイル画像を利用すると判定した場合、合成処理部43はステップS77において、ユーザのWebブラウザに合わせてレンダリングを行ったWebページのサムネイル画像を作成する。
ステップS78において、合成処理部43はサムネイル画像上の代表画像と関連テキストの位置(座標)を取得する。ステップS79において、合成処理部43は表示画面サイズから拡大率、スクロール量を算出する。合成処理部43はステップS74において、再び初回の合成処理か否かを判定する。ステップS79で算出した拡大率とスクロール量により、表示制御部44はWebページのサムネイル画像上の代表画像と関連テイストとを順番に表示することができるようになる。なお、図13の処理については後述する。
図14は表示制御部の処理の一例のフローチャートである。表示制御部44はステップS80において、タイムラインに沿ってスライド再生を行う。ステップS80で行うスライド再生は、記録部54に記録されたWebページのタイトル、代表画像及び関連テキストを含むWebページ(スライド)をタイムラインに沿って順番に表示すると共に、読み上げ音声ファイル及び音楽を同期して再生するものである。
ステップS81において、表示制御部44は再生スピード変更のユーザ操作(スライドの停止/スピードダウン/戻るなど)があったか否かを判定する。表示制御部44は再生スピード変更のユーザ操作が無ければ、閲覧のユーザ操作があったか否かをステップS82において判定する。
閲覧のユーザ操作が無ければ、表示制御部44はステップS11において、再びページ解析処理を行う。閲覧のユーザ操作があれば、表示制御部44はステップS83においてWebブラウザにWebページを表示するブラウザ表示処理を行う。ステップS83で表示されるWebページは閲覧のユーザ操作があったときにWebブラウザに表示されていたスライドと対応しているWebページであるとする。
ステップS81において、再生スピード変更のユーザ操作があったと判定すると、表示制御部44はステップS84において、ユーザ操作が「戻る」であったかを判定する。表示制御部44はユーザ操作が「戻る」であったと判定すると、ステップS85において直前のスライド上の代表画像及び関連テキストをキー画像及びキーテキストに設定する。
ステップS84において、ユーザ操作が「戻る」でなかったと判定すると、表示制御部44はステップS86において、ユーザ操作が「スピードダウン」又は「停止」であったかを判定する。
また、表示制御部44はユーザ操作が「スピードダウン」又は「停止」であったと判定すると、ステップS87において現在のスライド上の代表画像及び関連テキストをキー画像及びキーテキストに設定する。なお、図14の処理については後述する。
図15は音声合成の処理イメージを表した一例の説明図である。合成処理部43は記録部54に記録された代表画面に関連する関連テキストを取得し、取得した関連テキストを音声合成エンジン100に入力して音声合成処理を行い、読み上げ音声ファイル(図15中の音声ファイル(1)〜(3))を生成する。
図16はタイムライン作成及び更新の処理イメージを表した一例の説明図である。合成処理部43は図16に示すようなタイムラインを作成又は更新する。例えば図16に示すタイムラインは、あるWebページ上の代表画面(1)及び関連テキスト(1)、代表画面(2)及び関連テキスト(2)、代表画面(3)及び関連テキスト(3)を順番に表示することを表している。
さらに、図16に示すタイムラインは、あるWebページ上の代表画面(1)及び関連テキスト(1)と同期して、音声ファイル(1)及び音楽の一例としてのBGM(1)を再生すること、代表画面(2)及び関連テキスト(2)と同期して、音声ファイル(2)及び音楽の一例としてのBGM(1)を再生すること、代表画面(3)及び関連テキスト(3)と同期して、音声ファイル(3)及び音楽の一例としてのBGM(1)を再生することを表している。なお、図16に示すタイムラインではWebページの切り替わりを聴覚的に表現するためにBGM(1)を利用している。
図17はステップS77〜S79の処理イメージを表した一例の説明図である。合成処理部43はユーザのWebブラウザに合わせてレンダリングを行ったWebページのサムネイル画像200を作成する。合成処理部43はサムネイル画像200上の代表画像201〜203と関連テキスト(1)〜(3)の位置を取得する。合成処理部43は表示画面サイズから拡大率、スクロール量を算出する。
算出した拡大率とスクロール量により、表示制御部44はWebページのサムネイル画像200上の代表画像201と関連テキスト(1)の部分、代表画像202と関連テキスト(2)の部分、代表画像203と関連テキスト(3)の部分をズームして順番に表示することができるようになる。
言い換えれば、ステップS77〜S79の処理はオリジナルのWebページのレイアウトを崩すことなく、Webページの取捨選択をするための重要部分だけを素早く確認することができる。
図18は表示制御部の処理イメージを表した一例の説明図である。表示制御部44はタイムラインに沿って図18に示すように、代表画像及び関連テキストを含むWebページであるスライドをタイムラインに沿って順番に表示すると共に、読み上げ音声ファイル及び音楽を同期して再生する。
図19及び図20は再生スピード変更のユーザ操作を受けた表示制御部の処理イメージを表した一例の説明図である。スライドの表示滞留時間は、そのスライドに対するユーザの関心の高さを表すと仮定する。
図19では戻る/進む/停止ボタンで再生スピード変更のユーザ操作を受け付ける例を表している。スライド301、302はユーザが「進む」ボタンを押下して再生スピードを変更している。スライド303はユーザが「停止」ボタンを押下して再生スピードを変更している。
スライド303はユーザが「停止」ボタンを押下したため、ユーザの関心が高いと考えられる。スライド303の次に表示すべきスライドは、現在表示しているスライド303の代表画面及び関連テキストに関連した内容になることが望ましい。そこで、本実施例ではユーザの関心を表す基準として、スライド303の代表画像及び関連テキストをキー画像及びキーテキストとして設定する。
スライド303以降のスライドは、ユーザの関心が高いと考えられるスライド303と類似するスライド304〜306の順番に並び替えて表示する。例えば図20ではスライド303の後に、スライド303との類似度が1位のスライド304が表示され、次にスライド303との類似度が2位のスライド305が表示され、次にスライド303との類似度が3位のスライド306が表示される。なお、ユーザの関心の高いスライドはユーザに直接、選択させてもよい。
図21は、ステップS62〜S65の処理イメージを表した一例の説明図である。図21(A)は検索キーワード「温泉」の検索結果に含まれていたWebページのランキング順を示している。図21(B)は図21(A)のWebページの内容を表現するスライドの表示順を示している。図21(B)は再生スピード変更のユーザ操作を受け付けなければスライド404、405、406、407の順番に表示されることを表している。
ここでは、スライド405が表示されているときに、ユーザが「停止」ボタンを押下して再生スピードを変更したとする。本実施例では、同じ検索キーワード「温泉」の検索結果に含まれていたWebページ同士で類似している画像同士と、その近傍のテキスト同士とが互いに関連する内容(類似する内容)と考える。そこで、スライド405に対応するWebページ402の代表画像P及び関連テキストTをキー画像及びキーテキストとして設定する。
その後、本実施例ではキー画像である代表画像Pと類似しているWebページ403の代表画像を代表画像Pの類似画像として抽出する。次に、本実施例ではWebページ403の代表画像の位置を起点として、関連テキストとして抽出する抽出範囲を決める。抽出範囲は、Webページ403の代表画像を中心に前後のテキストを文字単位で拡大していきながら、キーテキストとの類似度を評価する。この類似度が閾値を超えて、且つ、類似度が極大値となる範囲までを関連テキストとする。
ユーザが「停止」ボタンを押下して再生スピードを変更したスライド405以降のスライドの表示順は、キー画像との類似度順となる。例えば図21(B)ではスライド405の次に表示される予定であったスライド406に替えて、スライド405の代表画像(代表画像Pの類似画像)のスライド407が表示される。
本実施例では、検索結果に含まれていたWebページの内容を代表画像、関連テキスト及び音声でユーザに提示することで、シニアユーザなども簡単にWebページの取捨選択ができるようになる。特に、本実施例ではユーザの関心に応じて、検索結果に含まれていたWebページの内容を考慮した代表画像と関連テキストとが表示されることで、新たに検索条件を再設定することなく、ユーザの所望するWebページに絞り込むことが容易となる。
なお、クライアント1がPCである場合は、例えば関心のある検索キーワードを予め登録しておくことで、例えばテレビを見る感覚で気軽にWebページの検索ができる。スライド再生は例えばスクリーンセーバ等を利用して行ってもよい。クライアント1が携帯電話や携帯情報端末など、表示できる情報量が限られる小画面である場合は、代表画像と関連テキストだけでWebページを閲覧するか否かの判断材料を提供できる。
本発明は、以下に記載する付記のような構成が考えられる。
(付記1)
検索キーワードにより検索されたコンテンツから該コンテンツを代表する代表画像を抽出する画像抽出手段と、
前記検索されたコンテンツから前記代表画像に関連する関連テキストを抽出するテキスト抽出手段と、
前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として出力する検索結果出力手段と
を有することを特徴とする検索結果出力装置。
(付記2)
前記検索結果出力手段は、前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを関連付けて記録する記録手段からユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストをキー画像及びキーテキストとして選択し、前記キー画像と、前記記録手段に記録されている前記代表画像との類似度を算出し、該類似度の順に出力する
ことを特徴とする付記1記載の検索結果出力装置。
(付記3)
コンピュータが実行する検索結果出力方法であって、
検索キーワードにより検索されたコンテンツから該コンテンツを代表する代表画像を抽出し、
前記検索されたコンテンツから前記代表画像に関連する関連テキストを抽出し、
前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として出力する
ことを特徴とする検索結果出力方法。
(付記4)
前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として出力するとき、前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを関連付けて記録する記録手段からユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストをキー画像及びキーテキストとして選択し、
前記キー画像と、前記記録手段に記録されている前記代表画像との類似度を算出し、該類似度の順に出力する
ことを特徴とする付記3記載の検索結果出力方法。
(付記5)
コンピュータに、
検索キーワードにより検索されたコンテンツから該コンテンツを代表する代表画像を抽出し、
前記検索されたコンテンツから前記代表画像に関連する関連テキストを抽出し、
前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として出力する
処理を実行させる検索結果出力プログラム。
(付記6)
前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として出力するとき、前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを関連付けて記録する記録手段からユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストをキー画像及びキーテキストとして選択し、
前記キー画像と、前記記録手段に記録されている前記代表画像との類似度を算出し、該類似度の順に出力する
処理を実行させる付記5記載の検索結果出力プログラム。
なお、本実施例におけるコンテンツ処理プログラムは、パッケージソフトの他、WEBサービス等によっても提供可能である。
なお、特許請求の範囲に記載した画像抽出手段は画像抽出部52に相当し、テキスト抽出手段はテキスト抽出部53に相当し、検索結果出力手段は合成処理部43及び表示制御部44に相当し、記録手段が記録部54に相当する。
1、1a〜1n クライアント
2、2a〜2m Webサーバ
3 ネットワーク
10 コンピュータ
21 入力装置
22 表示装置
23 コンピュータ本体
31 主記憶装置
32 演算処理装置
33 インターフェース装置
34 記録媒体読取装置
35 補助記憶装置
36 記録媒体
37 バス
41 検索部
42 ページ解析部
43 合成処理部
44 表示制御部
51 ページ取得部
52 画像抽出部
53 テキスト抽出部
54 記録部
60 ユーザインターフェース

Claims (3)

  1. 検索キーワードにより検索されたコンテンツから該コンテンツを代表する代表画像を抽出する画像抽出手段と、
    前記検索されたコンテンツから前記代表画像に関連する関連テキストを抽出するテキスト抽出手段と、
    前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として順に出力する検索結果出力手段と
    を有し、
    前記検索結果出力手段は、検索結果の出力スピード変更のユーザ操作があると、ユーザ操作に基づいてユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを判断し、前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを関連付けて記録する記録手段からユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストをキー画像及びキーテキストとして選択し、前記キー画像と、前記記録手段に記録されている前記代表画像との類似度を算出し、該類似度の順に出力する
    ことを特徴とする検索結果出力装置。
  2. コンピュータが実行する検索結果出力方法であって、
    検索キーワードにより検索されたコンテンツから該コンテンツを代表する代表画像を抽出し、
    前記検索されたコンテンツから前記代表画像に関連する関連テキストを抽出し、
    前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として順に出力し、
    検索結果の出力スピード変更のユーザ操作があると、ユーザ操作に基づいてユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを判断し、前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを関連付けて記録する記録手段からユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストをキー画像及びキーテキストとして選択し、前記キー画像と、前記記録手段に記録されている前記代表画像との類似度を算出し、該類似度の順に出力する
    ことを特徴とする検索結果出力方法。
  3. コンピュータに、
    検索キーワードにより検索されたコンテンツから該コンテンツを代表する代表画像を抽出し、
    前記検索されたコンテンツから前記代表画像に関連する関連テキストを抽出し、
    前記抽出した代表画像、及び、前記抽出した前記代表画像に関連する関連テキストを合わせて前記検索キーワードによる検索結果として順に出力し、
    検索結果の出力スピード変更のユーザ操作があると、ユーザ操作に基づいてユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを判断し、前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストを関連付けて記録する記録手段からユーザが関心を持つ前記抽出した代表画像及び前記抽出した前記代表画像に関連する関連テキストをキー画像及びキーテキストとして選択し、前記キー画像と、前記記録手段に記録されている前記代表画像との類似度を算出し、該類似度の順に出力する処理を実行させる検索結果出力プログラム。
JP2010214198A 2010-09-24 2010-09-24 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム Active JP5552987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010214198A JP5552987B2 (ja) 2010-09-24 2010-09-24 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010214198A JP5552987B2 (ja) 2010-09-24 2010-09-24 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム

Publications (2)

Publication Number Publication Date
JP2012068982A JP2012068982A (ja) 2012-04-05
JP5552987B2 true JP5552987B2 (ja) 2014-07-16

Family

ID=46166165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010214198A Active JP5552987B2 (ja) 2010-09-24 2010-09-24 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム

Country Status (1)

Country Link
JP (1) JP5552987B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5580502B1 (ja) * 2013-03-06 2014-08-27 楽天株式会社 画像処理システム、画像処理方法、および画像処理プログラム
US20140351687A1 (en) * 2013-05-24 2014-11-27 Facebook, Inc. Contextual Alternate Text for Images
WO2016043320A1 (ja) * 2014-09-19 2016-03-24 株式会社コティレドン・テクノロジー 縮小画像の生成方法及び装置
CN104504108B (zh) * 2014-12-30 2018-07-13 百度在线网络技术(北京)有限公司 信息搜索方法及装置
JP7061328B1 (ja) 2021-07-30 2022-04-28 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724859B2 (ja) * 1995-10-16 2005-12-07 富士通株式会社 画像表示システム

Also Published As

Publication number Publication date
JP2012068982A (ja) 2012-04-05

Similar Documents

Publication Publication Date Title
US20220229536A1 (en) Information processing apparatus display control method and program
CN102483742B (zh) 用于管理因特网媒体内容的***和方法
US9372926B2 (en) Intelligent video summaries in information access
US7908556B2 (en) Method and system for media landmark identification
US11361015B2 (en) Apparatus and method for clipping and sharing content at a portable terminal
KR102028198B1 (ko) 동영상 장면과 메타데이터 저작 방법
US8166412B2 (en) Visual cue discernment on scattered data
US7873911B2 (en) Methods for providing information services related to visual imagery
US20120209841A1 (en) Bookmarking segments of content
CN104598556A (zh) 搜索方法及装置
CN103124968B (zh) 用于后仰式娱乐的内容转换
US8931002B2 (en) Explanatory-description adding apparatus, computer program product, and explanatory-description adding method
JP5552987B2 (ja) 検索結果出力装置、検索結果出力方法及び検索結果出力プログラム
JP4514671B2 (ja) コンテンツ編集装置、コンピュータ読み取り可能なプログラム及びそれを記録した記録媒体
CN111523069B (zh) 一种基于3d引擎实现电子书播放3d效果的方法及其***
JP2004112379A (ja) 画像検索システム
US20100281046A1 (en) Method and web server of processing a dynamic picture for searching purpose
JP2007088967A (ja) コンテンツ供給システム及びコンテンツ再生端末
JP5525154B2 (ja) コンテンツ表示装置
US20180077362A1 (en) Method, System, and Apparatus for Operating a Kinetic Typography Service
JP2010257266A (ja) コンテンツ出力システム、サーバー装置、コンテンツ出力装置、コンテンツ出力方法、コンテンツ出力プログラム、及びコンテンツ出力プログラムを記憶した記録媒体
JP2008225584A (ja) 物品推薦装置、物品推薦システム、物品推薦方法及び物品推薦プログラム
WO2011021632A1 (ja) 情報提供システム
KR20110042626A (ko) 전자액자의 이미지 표시 방법 및 장치
KR20080006995A (ko) 동영상 검색 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140513

R150 Certificate of patent or registration of utility model

Ref document number: 5552987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150