JP7257010B2

JP7257010B2 - 検索支援サーバ、検索支援方法及びコンピュータプログラム

Info

Publication number: JP7257010B2
Application number: JP2021039267A
Authority: JP
Inventors: 清幸鈴木; 克利大川; 正規中村
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2023-04-13
Anticipated expiration: 2041-03-11
Also published as: JP2022139052A

Description

本発明は、Ｗｅｂサイトにおいてコンテンツ提供者が提供する多数の情報あるいはコンテンツの中から、検索主体であるユーザが、希望する情報あるいはコンテンツを、発話により絞り込むことで迅速にかつ確実に表示することが可能な検索支援サーバ、検索支援方法及びコンピュータプログラムに関する。

Ｗｅｂサイトには様々な情報が存在する。現状では、Ｗｅｂサイトのトップページのアイコンのクリックやクリック可能な言葉による説明、Ｇｏｏｇｌｅ（Ｒ）、Ｙａｈｏｏ（Ｒ）等の検索エンジンを利用した検索窓を使うことで、ユーザが希望する内容を含むと考えられるＷｅｂページへのアドレス、あるいは情報やコンテンツそのものを抽出してユーザが視認可能な表示装置において表示している。

また、ユーザの発話により検索キーの入力を受け付ける場合、Ｇｏｏｇｌｅ（Ｒ）、Ｍｉｃｒｏｓｏｆｔ（Ｒ）等が提供する音声認識エンジンを使用して、ユーザによる発話を認識している。これらの商用の音声認識エンジンは、広汎に発話のデータを収集し、機械学習、あるいは深層学習により生成された汎用型の音声認識エンジンとして提供されている。

したがって、ユーザの発話を音声認識する場合に、コンテンツ提供者がユーザに対して提供を意図する検索キーを正しく認識することができない場合が生じるおそれがあった。そこで、例えば特許文献１には、複数の言語モデルを用いることで音声認識精度を高めている音声理解装置が開示されている。

特開２０１０－１７０１３７

しかし、特許文献１では、複数の音声認識エンジンを用いて並列に処理し、これら複数の認識結果に基づく言語理解エンジンの結果を統合処理している。しかし、複数認識結果及び言語理解処理結果の統合処理に相当の時間を要するばかりでなく、統合処理後の認識結果の確度を保証できないため現実的ではない。したがって、ユーザの発話によって、短時間で正しい検索キーを取得できる保証がないという問題点があった。

本発明は、上記事情に鑑みてなされたものであり、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、全てのガイドデータを発話で絞り込んで表示することが可能なスピーチウィンドウを用いることで、ユーザが自己の目的に応じて絞り込んだガイドデータ通りに発話又は選択する限り、コンテンツ提供者がユーザに提供したいコンテンツの特定部分へ迅速にかつ確実に誘導することが可能な検索支援サーバ、検索支援方法及びコンピュータプログラムを提供することを目的とする。

上記目的を達成するために本発明に係る検索支援サーバは、Ｗｅｂサイト上に公開されるコンテンツの検索を支援する検索支援サーバであって、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させ、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させることを特徴とする。

また、本発明に係る検索支援サーバは、前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。

また、本発明に係る検索支援サーバは、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段を備え、該サーチデータ生成手段は、前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する抽出・表示手段と、表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段と、表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索するポインタ探索手段と、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段と、入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段とを備えることが好ましい。

また、本発明に係る検索支援サーバは、前記抽出・表示手段が、前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力するコンテンツ文字起し手段と、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示するコンテンツ表示手段とを備えることが好ましい。

また、本発明に係る検索支援サーバは、前記ガイドデータが、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。

また、本発明に係る検索支援サーバは、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、ユーザにより発話された音声データの入力を受け付ける発話受付手段と、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段と、入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段とを備え、前記メタタグ音声認識手段及び前記絞り込み音声認識手段を並行して実行することが好ましい。

また、本発明に係る検索支援サーバは、前記メタタグ音声認識手段が、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出し、前記絞り込み音声認識手段が、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込むことが好ましい。

また、本発明に係る検索支援サーバは、前記絞り込み音声認識手段は、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新することが好ましい。

次に、上記目的を達成するために本発明に係る検索支援方法は、Ｗｅｂサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能な検索支援方法であって、前記検索支援サーバが、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させる工程と、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる工程とを実行することを特徴とする。

また、本発明に係る検索支援方法は、前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する工程と、表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付ける工程と、表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索する工程と、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付ける工程と、入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける工程とを実行し、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成することが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力する工程と、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示する工程とを実行することが好ましい。

また、本発明に係る検索支援方法は、前記ガイドデータが、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。

また、本発明に係る検索支援方法は、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を選択するために、前記検索支援サーバが、ユーザにより発話された音声データの入力を受け付ける工程を実行し、前記検索支援サーバが、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示する工程、及び入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する工程を、並行して実行することが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する工程と、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む工程とを実行することが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する工程を実行することが好ましい。

次に、上記目的を達成するために本発明に係るコンピュータプログラムは、Ｗｅｂサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能なコンピュータプログラムであって、前記検索支援サーバを、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させる手段、及び前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる手段として機能させることを特徴とする。

また、本発明に係るコンピュータプログラムは、前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。

また、本発明に係るコンピュータプログラムは、前記検索支援サーバを、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段として機能させ、該サーチデータ生成手段を、前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する抽出・表示手段、表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段、表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索するポインタ探索手段、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段、及び入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段として機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記抽出・表示手段を、前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力するコンテンツ文字起し手段、及び出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示するコンテンツ表示手段として機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記ガイドデータが、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。

また、本発明に係るコンピュータプログラムは、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、前記検索支援サーバを、ユーザにより発話された音声データの入力を受け付ける発話受付手段として機能させ、前記検索支援サーバを、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段、及び入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段として、並行して機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記メタタグ音声認識手段を、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する手段として機能させ、前記絞り込み音声認識手段を、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む手段として機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記絞り込み音声認識手段を、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する手段として機能させることが好ましい。

本発明によれば、Ｗｅｂサイト上に公開されている多数のコンテンツの中から、コンテンツを提供するコンテンツ提供者が、自分のコンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいはキーインすることにより、簡便にしかも迅速にコンテンツ提供者が提供するコンテンツをユーザの意向に沿って表示することが可能となる。

本発明の実施の形態に係る音声検索システムの構成を模式的に示すブロック図である。本発明の実施の形態に係る検索支援サーバの構成を模式的に示すブロック図である。本発明の実施の形態に係る端末装置の構成を模式的に示すブロック図である。本発明の実施の形態に係る検索支援サーバのサーチデータ生成処理の機能ブロック図である。本発明の実施の形態に係る検索支援サーバが、コンテンツ提供者が使用する端末装置に表示させる入力受付画面の例示図である。本発明の実施の形態に係る検索支援サーバで生成されるサーチデータ及びガイドデータの例示図である。本発明の実施の形態に係る検索支援サーバのサーチデータ及びガイドデータの例示図である。本発明の実施の形態に係る検索支援サーバのサーチデータ及びガイドデータの他の例示図である。本発明の実施の形態に係る検索支援サーバが、ユーザが使用する端末装置に表示させるスピーチウィンドウの例示図である。本発明の実施の形態に係る検索支援サーバのＣＰＵのコンテンツ提供者の設定処理手順を示すフローチャートである。本発明の実施の形態に係る検索支援サーバのユーザによる発話の音声認識処理の機能ブロック図である。本発明の実施の形態に係る検索支援サーバのＣＰＵの音声認識処理の手順を示すフローチャートである。

以下、本発明の実施の形態に係る検索支援サーバについて、図面を参照して説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。

また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。

以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した音声検索システムとして説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、全てのガイドデータを発話で絞り込んで表示することが可能なスピーチウィンドウを用いることで、ユーザが自己の目的に応じて絞り込んだガイドデータ通りに発話又は選択する限り、コンテンツ提供者がユーザに提供したいコンテンツの特定部分へ確実に誘導することが可能な検索支援サーバというハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソフトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、ＤＶＤ、ＣＤ、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。

本発明の実施の形態によれば、Ｗｅｂサイト上に公開されている多数のコンテンツの中から、コンテンツを提供するコンテンツ提供者が、自分のコンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいはキーインすることにより、簡便にしかも迅速にコンテンツ提供者が提供するコンテンツをユーザの意向に沿って表示することが可能となる。

図１は、本発明の実施の形態に係る音声検索システムの構成を模式的に示すブロック図である。本実施の形態に係る音声検索システムは、コンテンツ提供者が使用する端末装置１ａと、コンテンツや動画コンテンツを検索するユーザが使用する端末装置１ｂと、端末装置１ａ及び１ｂとデータ通信することが可能にインターネット等のネットワーク網２を介して接続されている検索支援サーバ３とで構成されている。端末装置１ａ、１ｂは、マイクやスピーカを接続してある据え置き型のＰＣに限定されるものではなく、マイクやスピーカを内蔵しているスマートホン、タブレット等の携帯端末であっても良い。

図２は、本発明の実施の形態に係る検索支援サーバ３の構成を模式的に示すブロック図である。本実施の形態に係る検索支援サーバ３は、少なくともＣＰＵ（中央演算装置）３１、メモリ３２、記憶装置３３、Ｉ／Ｏインタフェース３４、ビデオインタフェース３５、可搬型メモリドライブ３６、通信インタフェース３７及び上述したハードウェアを接続する内部バス３８で構成されている。

ＣＰＵ３１は、内部バス３８を介して検索支援サーバ３の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置３３に記憶されているコンピュータプログラム１００に従って、種々のソフトウェア的機能を実行する。メモリ３２は、ＳＲＡＭ、ＳＤＲＡＭ等の揮発性メモリで構成され、コンピュータプログラム１００の実行時にロードモジュールが展開され、コンピュータプログラム１００の実行時に発生する一時的なデータ等を記憶する。

記憶装置３３は、内蔵される固定型記憶装置（ハードディスク）、ＲＯＭ等で構成されている。記憶装置３３に記憶されたコンピュータプログラム１００は、プログラム及びデータ等の情報を記録したＤＶＤ、ＣＤ－ＲＯＭ、ＵＳＢメモリ、ＳＤカード等の可搬型記録媒体９０から、可搬型メモリドライブ３６によりダウンロードされ、実行時には記憶装置３３からメモリ３２へ展開して実行される。もちろん、通信インタフェース３７を介して接続されている外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。

記憶装置３３は、サーチデータ記憶部３３１及びガイドデータ記憶部３３２とを備えている。サーチデータ記憶部３３１は、コンテンツ提供者が、提供するコンテンツに対してユーザがアクセス可能なサーチデータ（コンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報）をポインタ情報（動画コンテンツの場合には、加えてタイムスタンプ情報）に対応付けて記憶する。なお、ポインタ情報とは、コンテンツにアクセスすることが可能なコンテンツの存在位置を示す情報を広く意味している。コンテンツがＷｅｂページである場合にはＵＲＬがポインタ情報に相当し、動画コンテンツである場合には、再生可能なＵＲＬだけではなく、動画コンテンツの再生を開始するタイムスタンプ情報、再生を終了するタイムスタンプ情報もポインタ情報に含まれる。

ガイドデータ記憶部３３２は、ユーザが検索するための発話あるいはクリック、タッチ等の選択操作を促すために、サーチデータに基づいて生成されるガイドデータを記憶する。ガイドデータは、サーチデータの中から、コンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報を抽出して、対応するサーチデータの識別情報に対応付けて生成される。ガイドデータを表示するスピーチウィンドウに一覧表示された状態で、ユーザの発話により表示されるガイドデータが絞り込まれる。ユーザが絞り込まれて表示されているガイドデータの中からいずれかのタグ名称を選択することで、選択されたタグ名称に対応付けられたサーチデータで特定されるコンテンツ（動画コンテンツ含む）を表示（あるいは再生）することができる。

通信インタフェース３７は内部バス３８に接続されており、インターネット、ＬＡＮ、ＷＡＮ等の外部のネットワーク網２に接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。

Ｉ／Ｏインタフェース３４は、入力装置であるキーボード４１、マウス４２と接続され、データの入力を行う。本実施の形態では、実際に音声を入力するのは、コンテンツ提供者又はユーザが使用している端末装置１ａ、１ｂ（スマートフォン、タブレット等）であり、入力された音声データを通信インタフェース３７を介して受信する。もちろん、検索支援サーバ３にマイク、スピーカ等を直接接続していても良い。

ビデオインタフェース３５は、ＣＲＴディスプレイ、液晶ディスプレイ等の表示装置４３と接続されている。本実施の形態では、実際に画像を出力表示するのは、コンテンツ提供者又はユーザが使用している端末装置１ａ、１ｂ（スマートフォン、タブレット等）であり、検索支援サーバ３は、端末装置１ａ、１ｂへ（音声データを含む）画像データ等を通信インタフェース３７を介して送信する。

図３は、本発明の実施の形態に係る端末装置１（１ａ、１ｂ共通）の構成を模式的に示すブロック図である。本実施の形態に係る端末装置１は、少なくともＣＰＵ（中央演算装置）１１、メモリ１２、記憶装置１３、Ｉ／Ｏインタフェース１４、ビデオインタフェース１５、可搬型メモリドライブ１６、通信インタフェース１７及び上述したハードウェアを接続する内部バス１８で構成されている。

ＣＰＵ１１は、内部バス１８を介して端末装置１の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置１３に記憶されているコンピュータプログラム１０１に従って、種々のソフトウェア的機能を実行する。メモリ１２は、ＳＲＡＭ、ＳＤＲＡＭ等の揮発性メモリで構成され、コンピュータプログラム１０１の実行時にロードモジュールが展開され、コンピュータプログラム１０１の実行時に発生する一時的なデータ等を記憶する。

記憶装置１３は、内蔵される固定型記憶装置（ハードディスク）、ＲＯＭ等で構成されている。記憶装置１３に記憶されたコンピュータプログラム１０１は、通信インタフェース１７を介して接続されている外部コンピュータからダウンロードされ、実行時には記憶装置１３からメモリ１２へ展開して実行される。もちろん、プログラム及びデータ等の情報を記録したＳＤカード等の可搬型記録媒体９１から可搬型メモリドライブ１６を介してダウンロードされたコンピュータプログラムであっても良い。

通信インタフェース１７は内部バス１８に接続されており、インターネット、ＬＡＮ、ＷＡＮ等の外部のネットワーク網２に接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。

Ｉ／Ｏインタフェース１４は、キーボード２０３、マウス２０４等の入力装置の他、マイク２０１等の音声入力装置、スピーカ２０２等の音声出力装置と接続され、データの入出力を行う。通信インタフェース１７を介してスマートホン等を接続し、音声入力装置及び音声出力装置を代用しても良い。

ビデオインタフェース１５は、表示装置２０５と接続されており、検索支援サーバ３から送信されてくる入出力用の画像をブラウザ等で表示する。検索されたコンテンツや動画コンテンツは、表示装置２０５に表示しても良いし、別途ネットワーク網を介してデータ通信することが可能に接続されている外部のコンピュータで表示しても良い。

以下、上述した構成の検索支援サーバ３の動作について説明する。

図４は、本発明の実施の形態に係る検索支援サーバ３のサーチデータ生成処理の機能ブロック図である。図４では、コンテンツ提供者がサーチデータを生成し、ガイドデータを生成して、サイネージウィンドウ及び／又はスピーチウィンドウに表示する手順について説明する。

図４において、サーチデータ生成部４０１は、サイネージウィンドウ及び／又はスピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成する。サーチデータ生成部４０１は、抽出・表示部４０２、タグ入力受付部４０３、ポインタ探索部４０４、ポインタ割付受付部４０５、及び属性情報受付部４０６を備えている。

抽出・表示部４０２は、コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応するコンテンツを表示する。より具体的には、抽出・表示部４０２は、コンテンツ文字起し部４０２１と、コンテンツ表示部４０２２とを備えている。

コンテンツ文字起し部４０２１は、対象となるコンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力する。出力されたテキストデータは、Ｗｅｂサイトに含まれている文字列に基づいてタグ名称を生成する参考にすることができる。抽出された単文又は単語群ごとに、ＷｅｂサイトのＵＲＬが対応付けられている。

コンテンツが動画コンテンツの場合には、図示しない音声文字起し部を備えることで、動画コンテンツの音声部分を抽出して、適切な文節ごとのタイムスタンプ情報と対応付けたテキストデータとして出力する。出力されたテキストデータは、動画コンテンツに含まれている音声に基づいてタグ名称を生成する参考にすることができる。

コンテンツ表示部４０２２は、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応するコンテンツの特定部分を表示する。タグ名称の候補の選択を受け付けた場合に、正しいコンテンツが対応付けられているか否かを確認することができる。

以下、コンテンツの特定部分に対応付けられるタグ情報の入力を受け付ける。本実施の形態では、タグ情報とは、少なくともコンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報で構成されている。

タグ入力受付部４０３は、表示出力されたテキストデータ、あるいは動画コンテンツの場合には再生している動画コンテンツの特定部分に基づいて、タグ名称及びタグ名称の内容を示す単文又は単語群の入力を受け付ける。

ポインタ探索部４０４は、表示されたコンテンツの特定部分に基づいて、コンテンツの特定部分を示すポインタ情報を探索する。探索されるポインタ情報は、コンテンツがＷｅｂサイトの場合には既に対応付けられているＵＲＬを結果として出力する。コンテンツが動画コンテンツである場合には、既に対応付けられているＵＲＬだけではなく、再生開始タイミング及び再生終了タイミングに関するタイムスタンプ情報も探索される。

ポインタ割付受付部４０５は、入力を受け付けたタグ名称ごとに、探索されたポインタ情報の割り付けを受け付ける。これにより、タグ名称の選択を受け付けることにより、割り付けられたポインタ情報に従って、コンテンツの特定部分を表示することができる。

属性情報受付部４０６は、入力を受け付けたタグ名称ごとに、検索時に発話可能な属性情報の入力を受け付ける。後述するように属性情報をユーザが発話することにより、タグ名称を絞り込むことができる。

ここで、属性情報としては、例えば「新着」、「動画」、「使い方」、「料金」、「医療」など、コンテンツを絞り込むのに役立つ情報であり、しかも発話しやすい言葉であれば特に限定されるものではない。

このようにタグ名称及びタグ名称の内容を示す単文又は単語群、属性情報の入力を受け付け、タグ情報としてポインタ情報に対応付けてサーチデータを生成する。ガイドデータ生成部４０７は、生成されたサーチデータに含まれるタグ情報を、サーチデータを識別するサーチデータ識別情報と対応付けて、ガイドデータを生成する。

図５は、本発明の実施の形態に係る検索支援サーバ３が、コンテンツ提供者が使用する端末装置１ａに表示させる入力受付画面の例示図である。図５（ａ）は、入力受付画面の初期画面の例示図であり、図５（ｂ）は、タグ情報の入力受付画面の例示図であり、図５（ｃ）は、サイネージウィンドウの表示の例示図である。

図５（ａ）に示す初期画面５０が、コンテンツ提供者の使用する端末装置１ａに、当該Ｗｅｂサイトのトップページの表示とともにポップアップ表示される。コンテンツ文字起し部４０２１において出力されるテキストデータは、初期画面５０の共用ウィンドウ６０に表示される。

コンテンツ提供者は、共用ウィンドウ６０に表示されているテキストデータに基づいて、ユーザに提供したい情報が掲載されているＷｅｂページを探し、共用ウィンドウ６０上に表示されているテキストデータを選択することで、選択されたテキストデータに対応付けられているＷｅｂページへと遷移する。コンテンツ提供者は、ポップアップ表示されている初期画面５０の「タグ入力」ボタン５１を選択する。

コンテンツ提供者による「タグ入力」ボタン５１の選択を受け付けた場合、図５（ｂ）に示すタグ情報の入力受付画面５２が別ウィンドウで表示される。コンテンツ提供者は、タグ名称入力領域５３にユーザが選択しやすいタグ名称を、メタタグ入力領域５４に内容を示す単文又は単語群を入力する。コンテンツ提供者は、属性情報選択ボタン５５により、属性情報を選択する。もちろん、属性情報を任意に入力する領域を設けてキーインしても良い。

コンテンツ提供者が、「マーク」ボタン５６を選択した時点で、検索支援サーバ３は端末装置１ａのブラウザに表示されているＷｅｂサイトのＵＲＬをポインタ情報として探索し、入力されたタグ名称に対応付けてサーチデータとしてサーチデータ記憶部３３１に記憶する。

ガイドデータは、サーチデータのタグ情報部分に、サーチデータを識別する識別情報を対応付けて生成する。図６は、本発明の実施の形態に係る検索支援サーバ３で生成されるサーチデータ及びガイドデータの例示図である。図６（ａ）は、生成されたガイドデータの例示図であり、図６（ｂ）は、生成されたガイドデータの基礎となるサーチデータの例示図である。

図６（ａ）に示すように、ガイドデータは、サーチデータの何番目のタグ名称であるかを示す「番号」で対応付けられており、Ｗｅｂサイトを識別する識別情報である共通のサーチデータＩＤ（図６ではサーチデータＩＤ＝ＹＹＹＹＹＹ）を有している。生成されたガイドデータはガイドデータ記憶部３３２に記憶される。

そして、「ポインタ情報」としてＵＲＬがタグ名称と対応付けて記憶されているのはサーチデータのみである。したがって、図５（ａ）の「ガイドデータ」ボタンを選択することで、サーチデータのタグ情報をコピーし、サーチデータＩＤ（ＹＹＹＹＹＹ）と、サーチデータの何番目のタグ名称であるかを示す「番号」とを対応付けてガイドデータが生成される。図６（ａ）に示すガイドデータの「サーチデータＩＤ」欄が空白なのは、一のサーチデータのみに基づいて生成されたガイドデータであることを意味しており、他のサーチデータに基づいて生成されたガイドデータである場合には、他のサーチデータのサーチデータＩＤが記載される。

図５（ｃ）のサイネージウィンドウ５８には、生成されたガイドデータの中からコンテンツ提供者がユーザに表示したいデータとして選択したガイドデータのタグ名称が表示されることが好ましい。この場合、「ガイドデータ」ボタンの選択を受け付けると「編集」ボタンと「拡張」ボタン（図示せず）が表示される。「編集」ボタンの選択を受け付けた場合、共用ウィンドウ６０内にキーイン等することにより、サイネージウィンドウ５８に表示するタグ名称を設定することができる。「拡張」ボタンの選択を受け付けた場合には、他のサーチデータから生成されたガイドデータを追加することができる。

すなわち、本実施の形態では、コンテンツ提供者ごとにサーチデータを生成しても良いし、同一コンテンツ提供者が複数立ち上げたＷｅｂサイトごとにサーチデータを生成しても良い。例えば、同一の会社のＷｅｂサイトであっても、事業部ごと、商品・サービスごとにＷｅｂサイトを立ち上げる機会が急増しており、コンテンツが日々増加する。これらのコンテンツを迅速にかつ確実に検索できるようにすることは、顧客サービスにおいても重要になる。

本実施の形態では、全てのガイドデータは、基礎となるサーチデータに基づいて生成されている。したがって、一のガイドデータに他のサーチデータに基づいて生成されたガイドデータさえ追加すれば、他のサーチデータに対応付けられているコンテンツ（動画コンテンツ含む）、すなわち他のＷｅｂサイトのコンテンツであっても迅速かつ確実に表示・再生することができるようになる。

図７は、本発明の実施の形態に係る検索支援サーバ３のサーチデータ及びガイドデータの例示図である。図７（ａ）は、一のサーチデータに基づくガイドデータの例示図であり、図７（ｂ）は、追加されたガイドデータの基礎となる他のサーチデータの例示図である。

図６に示すサーチデータ及びガイドデータとの違いは、共通のサーチデータＩＤではなく、異なるサーチデータＩＤを有するガイドデータが含まれている点にある。すなわち、サーチデータ及びガイドデータを生成した時点では、サーチデータＩＤは共通である。本実施の形態では、サーチデータとガイドデータとの二段構造にすることにより、サーチデータＩＤが異なるガイドデータを設定することができる。これにより、サーチデータＩＤが異なるガイドデータの基礎となるサーチデータを読み出すことができ、サーチデータＩＤが異なるサーチデータ、すなわち異なるＷｅｂサイトで提供されるコンテンツの特定部分を表示することが可能となる。

例えば共通のサーチデータＩＤを「ＹＹＹＹＹＹ」とする。そして、共通のサーチデータＩＤが「ＹＹＹＹＹＹ」を基礎として生成されたガイドデータには、他のサーチデータＩＤを基礎としたガイドデータを随時追加することができる。図７（ａ）の例では、サーチデータＩＤが「ＰＰＰＰＰＰ」であるガイドデータが追加されている。つまり、サーチデータＩＤが「ＰＰＰＰＰＰ」であるガイドデータの基礎となるサーチデータを読み出すことができるようになり、当該サーチデータに対応付けられているコンテンツを表示することができるようになる。

つまり、図７（ｂ）に示すサーチデータＩＤが「ＰＰＰＰＰＰ」であるサーチデータを参照することができ、所望のコンテンツのポインタ情報を取得することができる。したがって、ガイドデータを追加するだけで、どのＷｅｂサイトのコンテンツであっても所望のコンテンツを表示することができる。なお、図７（ｂ）において、ガイドデータの「サーチデータＩＤ」欄の空欄は、追加されたガイドデータではなく、サーチデータＩＤが共通のサーチデータＩＤ「ＹＹＹＹＹＹ」であるガイドデータであることを意味している。

図８は、本発明の実施の形態に係る検索支援サーバ３のサーチデータ及びガイドデータの他の例示図である。図８（ａ）は、一のサーチデータに基づくガイドデータの例示図であり、図８（ｂ）は、追加されたガイドデータの基礎となる他のサーチデータの例示図である。

図７に示すサーチデータ及びガイドデータとの違いは、サーチデータのポインタ情報に動画コンテンツのＵＲＬだけでなく、動画コンテンツの再生開始点を示す開始タイムスタンプ及び再生終了点を示す終了タイムスタンプ（タイムスタンプ情報）を含んでいることである。すなわち、動画コンテンツにおいて、コンテンツ提供者がユーザに見せたいシーンだけ再生することができる。

例えば共通のサーチデータＩＤを「ＹＹＹＹＹＹ」とする。そして、サーチデータＩＤが「ＹＹＹＹＹＹ」であるサーチデータを基礎として生成されたガイドデータには、他のサーチデータＩＤを基礎とした動画コンテンツのガイドデータを随時追加することができる。図８（ａ）では、サーチデータＩＤが「ＴＴＴＴＴＴ」であるガイドデータが追加されている。つまり、サーチデータＩＤが「ＴＴＴＴＴＴ」であるガイドデータの基礎となるサーチデータを読み出すことができるようになり、当該サーチデータに対応付けられている動画コンテンツを再生することができるようになる。

つまり、図８（ｂ）に示すサーチデータＩＤが「ＴＴＴＴＴＴ」であるサーチデータを参照することができ、所望のコンテンツのポインタ情報及びタイムスタンプ情報を取得することができる。したがって、ガイドデータを追加するだけで、どのＷｅｂサイトの動画コンテンツであっても所望の動画コンテンツの所望のシーンだけ再生することができる。なお、図８（ｂ）において、ガイドデータの「サーチデータＩＤ」欄の空欄は、追加されたガイドデータではなく、サーチデータＩＤが「ＹＹＹＹＹＹ」であるガイドデータであることを意味している。

図４に戻って、サイネージウィンドウ表示部４０８は、生成されたガイドデータのタグ名称等を、コンテンツ提供者が選択して、ユーザが使用する端末装置１ｂ上でサイネージウィンドウに表示させる。これにより、ユーザに対して、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導することができる。サイネージウィンドウは、検索支援サーバが、コンテンツ提供者が使用する端末装置１ａに、図５（ｃ）に示すような文字列が流れて表示されるような形態で表示されることが好ましい。

具体的には、図５（ｃ）に示すサイネージウィンドウ５７の誘導表示領域５８に、選択されたガイドデータのタグ名称が表示される。図５（ｃ）において、矢印は、文字列がその方向に流れるように移動しながら表示することを意味する。サイネージウィンドウの表示を見たユーザは、コンテンツ提供者がどのような情報の提供を意図しているかを知ることができ、発話内容を工夫することができる。コンテンツ提供者は、ユーザに提供したいコンテンツを示すタグ名称あるいは文字列をサイネージウィンドウ５７に表示することで、ユーザを提供したいコンテンツへと誘導することができる。

また、スピーチウィンドウ表示部４０９は、生成されたガイドデータのタグ名称をすべて、ユーザが使用する端末装置１ｂ上でスピーチウィンドウに表示させる。ユーザが発話することにより、表示されているガイドデータのタグ名称を絞り込むことができる。絞り込むことで、スピーチウィンドウにスクロール等の操作をすることなくタグ名称が表示することができ、クリック、タッチ等の選択操作でタグ名称を選択することにより、対応付けられているコンテンツの特定部分を表示することができる。

図９は、本発明の実施の形態に係る検索支援サーバ３が、ユーザが使用する端末装置１ｂに表示させるスピーチウィンドウの例示図である。図９（ａ）は、本実施の形態に係る検索支援サーバ３が、ユーザが使用する端末装置１ｂに表示させるスピーチウィンドウの例示図であり、図９（ｂ）は、本実施の形態に係る検索支援サーバ３がコンテンツの特定部分を表示させる端末装置１ｂの例示図である。図９（ａ）に示すように、生成されたガイドデータのタグ名称は、スピーチウィンドウ９０１上で選択可能な状態でガイドデータ表示領域９０２にすべて表示される。

ガイドデータ表示領域９０２に表示しきれない場合も、スクロールボタン９０３を操作することですべてのガイドデータのタグ名称を閲覧することができる。ガイドデータ表示領域９０２に表示されているガイドデータのタグ名称の中から、一のタグ名称の選択を受け付ける。これにより、選択を受け付けたタグ名称のガイドデータの基礎となるサーチデータを特定することができるので、サーチデータに対応付けられているコンテンツの特定部分を表示することができる。

図９の例では、スピーチウィンドウ９０１に表示されているタグ名称の選択を受け付けた場合、対応するコンテンツの特定部分を確認できるよう、端末装置１ｂに表示する。ユーザが使用する端末装置１ｂは、図９に示すようにデスクトップ型でも良いし、スマホ、タブレット等の携帯端末であっても良い。

図１０は、本発明の実施の形態に係る検索支援サーバ３のＣＰＵ３１のコンテンツ提供者の設定処理手順を示すフローチャートである。図１０において、検索支援サーバ３のＣＰＵ３１は、コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して（ステップＳ１００１）、抽出された単文又は単語群の選択を受け付けた場合に対応するコンテンツを表示する（ステップＳ１００２）。

ＣＰＵ３１は、表示出力されたテキストデータ、あるいは動画コンテンツの場合には再生している動画コンテンツの特定部分に基づいて、タグ名称及びタグ名称の内容を示す単文又は単語群の入力を受け付ける（ステップＳ１００３）。

ＣＰＵ３１は、表示されたコンテンツの特定部分に基づいて、コンテンツの特定部分を示すポインタ情報を探索する（ステップＳ１００４）。ＣＰＵ３１は、入力を受け付けたタグ名称ごとに、探索されたポインタ情報の割り付けを受け付ける（ステップＳ１００５）。これにより、タグ名称の選択を受け付けることにより、割り付けられたポインタ情報に従って、コンテンツの特定部分を表示することができる。

ＣＰＵ３１は、入力を受け付けたタグ名称ごとに、検索時に発話可能な属性情報の入力を受け付ける（ステップＳ１００６）。後述するように属性情報をユーザが発話することにより、タグ名称を絞り込むことができる。

ＣＰＵ３１は、入力を受け付けたタグ名称及びタグ名称の内容を示す単文又は単語群、属性情報を、ポインタ情報に対応付けてサーチデータを生成する（ステップＳ１００７）。ＣＰＵ３１は、生成されたサーチデータに含まれるタグ情報を、サーチデータを識別するサーチデータ識別情報と対応付けて、ガイドデータを生成する（ステップＳ１００８）。

ＣＰＵ３１は、生成されたガイドデータのタグ名称等を、コンテンツ提供者が選択して、ユーザが使用する端末装置１ｂ上でサイネージウィンドウに表示させ（ステップＳ１００９）、生成されたガイドデータのタグ名称をすべて、ユーザが使用する端末装置１ｂ上でスピーチウィンドウに表示させる（ステップＳ１０１０）。

以下、ユーザが検索処理を実行する手順について説明する。本実施の形態では、コンテンツ提供者がユーザの検索を誘導するサイネージウィンドウ及びスピーチウィンドウを表示させている点に特徴を有している。ただし、それだけではなく、ユーザにとって所望のコンテンツを迅速にかつ確実に検索表示させる工夫として、表示されるガイドデータのタグ名称をユーザが発話することにより絞り込むことができる点が従来の検索システムとの大きな相違点である。

図１１は、本発明の実施の形態に係る検索支援サーバ３のユーザによる発話の音声認識処理の機能ブロック図である。図１１では、ユーザの使用する端末装置１ｂに、図５（ｃ）に示すサイネージウィンドウ及び図９（ａ）に示すスピーチウィンドウが表示されている状態でユーザによる発話を入力として受け付け、正しく音声認識する手順について説明する。

図１１に示すように、発話受付部１１０１は、ユーザにより発話された音声データの入力を受け付ける。具体的には、端末装置１ｂにおいてユーザが発話した音声データを受信することで、音声データを取得する。

前処理部１１０２は、入力を受け付けた音声データに対して雑音除去、発話区間の検出等を実行する。前処理された音声データは、メタタグ音声認識部１１０３及び絞り込み音声認識部１１０８へ渡され、メタタグ音声認識部１１０３及び絞り込み音声認識部１１０８を並行して実行する。

メタタグ音声認識部１１０３は、前処理された音声データを認識してテキストデータに変換し、変換されたテキストデータに基づいて、ガイドデータのタグ名称及びタグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、一致度が所定値より大きい場合にタグ名称に対応するコンテンツの特定部分を表示する。つまり、メタタグ音声認識部１１０３で正しく認識できた場合には、他の音声認識処理と統合する処理等余分な処理を実行することなく認識結果を即座に出力することができる。

すなわち、メタタグ音声認識部１１０３は、テキストデータ変換部１１０４、一致度算出部１１０５、タグ名称特定部１１０６、コンテンツ表示・再生部１１０７を備えている。テキストデータ変換部１１０４は、前処理された音声データを、いわゆるディクテーショングラマーに基づいて認識してテキストデータに変換する。

一致度算出部１１０５は、すべてのタグ名称及びタグ名称の内容を示す単文又は単語群で形成された第一のデータセットを照会して、入力を受け付けた音声データの認識結果との一致度を算出する。

タグ名称特定部１１０６は、算出された一致度が最大であるタグ名称を特定する。一致度が最大であるタグ名称が、最も確からしい認識結果だからである。しかし、一致度が所定の閾値以下である場合には誤認識の可能性も高い。

コンテンツ表示・再生部１１０７は、算出された一致度が所定の閾値より大きいか否かを判断する。所定の閾値以下であると判断した場合には、認識精度が不十分であるとして再度の発話の待ち状態とする。所定の閾値より大きいと判断した場合には、特定されたタグ名称に対応付けられたコンテンツの特定部分を表示あるいは再生して、認識結果が正しいか否かを判断することができる。

絞り込み音声認識部１１０８は、前処理された音声データに基づいて、いわゆるルールグラマーを用いて、ガイドデータのタグ情報のうち、属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積によるガイドデータの絞り込みを行い、絞り込まれたガイドデータのタグ名称及び属性情報を出力する。これにより、メタタグ音声認識部１１０３で妥当な認識結果を得られない場合であっても、次にユーザが発話する内容をさらに絞り込むことができるので、音声認識の成功率を高めることができ、結果として短時間で正しい認識結果を得ることができる。具体的には、絞り込み音声認識部１１０８は、属性抽出部１１０９、絞り込み部１１１０を備えている。

属性抽出部１１０９は、すべてのタグ情報に対応付けられている属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として属性情報を抽出する。絞り込み部１１１０は、抽出された属性情報の論理積としてタグ名称（ガイドデータ）を絞り込む。

絞り込み音声認識部１１０８は、絞り込まれたガイドデータの属性情報により、音声認識フィルタである第二のデータセットを更新する更新部１１１１を備えることが好ましい。第二のデータセットは、属性情報によりガイドデータが絞り込まれる都度更新されるので、ユーザによる次の発話をさらに制限することになり、正しい認識結果を得る確信度を高めることができ、より迅速に正しい認識結果を得ることが可能となる。

図１２は、本発明の実施の形態に係る検索支援サーバ３のＣＰＵ３１の音声認識処理の手順を示すフローチャートである。検索支援サーバ３のＣＰＵ３１は、ユーザにより発話された音声データの入力を受け付ける（ステップＳ１２０１）。具体的には、端末装置１ｂにおいてユーザが発話した音声データを受信することで、音声データを取得する。

ＣＰＵ３１は、入力を受け付けた音声データに対して雑音除去、発話区間の検出等を実行する（ステップＳ１２０２）。前処理された音声データに基づいて、以下の２つの処理（メタタグ音声認識及び絞り込み音声認識）が並行して実行される。

まず、ＣＰＵ３１は、前処理された音声データに基づいて、前処理された音声データを、いわゆるディクテーショングラマーに基づいて認識してテキストデータに変換する（ステップＳ１２０３）。ＣＰＵ３１は、すべてのタグ名称及びタグ名称の内容を示す単文又は単語群で形成された第一のデータセットを照会して、入力を受け付けた音声データとの一致度を算出する（ステップＳ１２０４）。ＣＰＵ３１は、算出された一致度が最大であるタグ名称を特定する（ステップＳ１２０５）。

ＣＰＵ３１は、算出された一致度が所定の閾値より大きいか否かを判断する（ステップＳ１２０６）。ＣＰＵ３１が、所定の閾値以下であると判断した場合（ステップＳ１２０６：ＮＯ）、ＣＰＵ３１は、処理をステップＳ１２０１へ戻して、再度の発話の待ち状態となる。

ＣＰＵ３１が、所定の閾値より大きいと判断した場合（ステップＳ１２０６：ＹＥＳ）、ＣＰＵ３１は、特定されたタグ名称に対応付けられたコンテンツの特定部分を表示あるいは再生する（ステップＳ１２０７）。

一方、ＣＰＵ３１は、前処理された音声データに基づいて、全てのタグ名称に対応付けられている属性情報で形成された第二のデータセットを音声認識フィルタとして用い、認識結果の属性情報を抽出する（ステップＳ１２０８）。ＣＰＵ３１は、抽出された属性情報の論理積としてタグ名称（ガイドデータ）を絞り込む（ステップＳ１２０９）。ＣＰＵ３１は、絞り込まれたガイドデータのタグ名称及び属性情報により、音声認識フィルタである第二のデータセットを更新し（ステップＳ１２１０）、処理をステップＳ１２０１へ戻して、再度の発話の待ち状態となる。

以上のように本実施の形態によれば、Ｗｅｂサイト上に公開されている多数のコンテンツの中から、コンテンツを提供するコンテンツ提供者が、自分のコンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいは選択することにより、迅速にかつ確実にコンテンツ提供者が提供するコンテンツをユーザに対して表示することが可能となる。

また、本実施の形態によれば、メタタグ音声認識処理と絞り込み音声認識処理を並行して実行することにより、メタタグ音声認識が正しい場合にはそのまま認識結果を出力することができ、一方で、認識結果の確からしさが足りない場合には、より絞り込んだガイドデータに基づくタグ名称をスピーチウィンドウに表示することができる。したがって、ユーザは、比較的短時間で所望のコンテンツを表示又は再生することが可能となる。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば属性情報を含むタグ情報の入力方法は、上述した方法に限定されるものではなく、タグ名称を絞り込むことができる文字列を入力可能であれば特に限定されるものではない。

また、ユーザによる発話を認識する場合に、メタタグ音声認識部１１０３と並行に処理を実行する認識処理は、絞り込み音声認識部１１０８に限定されるものではなく、ユーザによる次の発話を限定することができる処理であれば特に限定されるものではない。

また、音声認識に用いるディクテーショングラマー及びルールグラマーは、テキストデータ、ガイドデータ及び外部から取得したテキストデータを教師データとして学習することにより生成することが望ましい。学習方法としては、いわゆる機械学習、深層学習のようにＡＩを用いても良いし、対応テーブルを拡充するような従来の方法であっても良く、特に限定されるものではない。

１、１ａ、１ｂ端末装置
２ネットワーク網
３検索支援サーバ
１１、３１ＣＰＵ
１２、３２メモリ
１３、３３記憶装置
１４、３４Ｉ／Ｏインタフェース
１５、３５ビデオインタフェース
１６、３６可搬型ディスクドライブ
１７、３７通信インタフェース
１８、３８内部バス
９０、９１記憶媒体
１００、１０１コンピュータプログラム
３３１サーチデータ記憶部
３３２ガイドデータ記憶部

Claims

Ｗｅｂサイト上に公開されるコンテンツの検索を支援する検索支援サーバであって、
コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
をデータ通信することが可能に接続されている端末装置に表示させ、
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させることを特徴とする検索支援サーバ。
前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることを特徴とする請求項１に記載の検索支援サーバ。
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段を備え、
該サーチデータ生成手段は、
前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する抽出・表示手段と、
表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段と、
表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索するポインタ探索手段と、
入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段と、
入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段と
を備えることを特徴とする請求項２に記載の検索支援サーバ。
前記抽出・表示手段は、
前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力するコンテンツ文字起し手段と、
出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示するコンテンツ表示手段と
を備えることを特徴とする請求項３に記載の検索支援サーバ。
前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることを特徴とする請求項３又は４に記載の検索支援サーバ。
前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、
ユーザにより発話された音声データの入力を受け付ける発話受付手段と、
入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段と、
入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段と
を備え、前記メタタグ音声認識手段及び前記絞り込み音声認識手段を並行して実行することを特徴とする請求項３乃至５のいずれか一項に記載の検索支援サーバ。
前記メタタグ音声認識手段は、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出し、
前記絞り込み音声認識手段は、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込むことを特徴とする請求項６に記載の検索支援サーバ。
前記絞り込み音声認識手段は、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新することを特徴とする請求項７に記載の検索支援サーバ。
Ｗｅｂサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能な検索支援方法であって、
前記検索支援サーバが、
コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
をデータ通信することが可能に接続されている端末装置に表示させる工程と、
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる工程と
を実行することを特徴とする検索支援方法。
Ｗｅｂサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能なコンピュータプログラムであって、
前記検索支援サーバを、
コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
をデータ通信することが可能に接続されている端末装置に表示させる手段、及び
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる手段
として機能させることを特徴とするコンピュータプログラム。