JP7257010B2 - 検索支援サーバ、検索支援方法及びコンピュータプログラム - Google Patents

検索支援サーバ、検索支援方法及びコンピュータプログラム Download PDF

Info

Publication number
JP7257010B2
JP7257010B2 JP2021039267A JP2021039267A JP7257010B2 JP 7257010 B2 JP7257010 B2 JP 7257010B2 JP 2021039267 A JP2021039267 A JP 2021039267A JP 2021039267 A JP2021039267 A JP 2021039267A JP 7257010 B2 JP7257010 B2 JP 7257010B2
Authority
JP
Japan
Prior art keywords
data
content
tag
search
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021039267A
Other languages
English (en)
Other versions
JP2022139052A5 (ja
JP2022139052A (ja
Inventor
清幸 鈴木
克利 大川
正規 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2021039267A priority Critical patent/JP7257010B2/ja
Publication of JP2022139052A publication Critical patent/JP2022139052A/ja
Publication of JP2022139052A5 publication Critical patent/JP2022139052A5/ja
Application granted granted Critical
Publication of JP7257010B2 publication Critical patent/JP7257010B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Webサイトにおいてコンテンツ提供者が提供する多数の情報あるいはコンテンツの中から、検索主体であるユーザが、希望する情報あるいはコンテンツを、発話により絞り込むことで迅速にかつ確実に表示することが可能な検索支援サーバ、検索支援方法及びコンピュータプログラムに関する。
Webサイトには様々な情報が存在する。現状では、Webサイトのトップページのアイコンのクリックやクリック可能な言葉による説明、Google(R)、Yahoo(R)等の検索エンジンを利用した検索窓を使うことで、ユーザが希望する内容を含むと考えられるWebページへのアドレス、あるいは情報やコンテンツそのものを抽出してユーザが視認可能な表示装置において表示している。
また、ユーザの発話により検索キーの入力を受け付ける場合、Google(R)、Microsoft(R)等が提供する音声認識エンジンを使用して、ユーザによる発話を認識している。これらの商用の音声認識エンジンは、広汎に発話のデータを収集し、機械学習、あるいは深層学習により生成された汎用型の音声認識エンジンとして提供されている。
したがって、ユーザの発話を音声認識する場合に、コンテンツ提供者がユーザに対して提供を意図する検索キーを正しく認識することができない場合が生じるおそれがあった。そこで、例えば特許文献1には、複数の言語モデルを用いることで音声認識精度を高めている音声理解装置が開示されている。
特開2010-170137
しかし、特許文献1では、複数の音声認識エンジンを用いて並列に処理し、これら複数の認識結果に基づく言語理解エンジンの結果を統合処理している。しかし、複数認識結果及び言語理解処理結果の統合処理に相当の時間を要するばかりでなく、統合処理後の認識結果の確度を保証できないため現実的ではない。したがって、ユーザの発話によって、短時間で正しい検索キーを取得できる保証がないという問題点があった。
本発明は、上記事情に鑑みてなされたものであり、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、全てのガイドデータを発話で絞り込んで表示することが可能なスピーチウィンドウを用いることで、ユーザが自己の目的に応じて絞り込んだガイドデータ通りに発話又は選択する限り、コンテンツ提供者がユーザに提供したいコンテンツの特定部分へ迅速にかつ確実に誘導することが可能な検索支援サーバ、検索支援方法及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するために本発明に係る検索支援サーバは、Webサイト上に公開されるコンテンツの検索を支援する検索支援サーバであって、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させ、前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させることを特徴とする。
また、本発明に係る検索支援サーバは、前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。
また、本発明に係る検索支援サーバは、前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段を備え、該サーチデータ生成手段は、前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する抽出・表示手段と、表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段と、表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索するポインタ探索手段と、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段と、入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段とを備えることが好ましい。
また、本発明に係る検索支援サーバは、前記抽出・表示手段が、前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力するコンテンツ文字起し手段と、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示するコンテンツ表示手段とを備えることが好ましい。
また、本発明に係る検索支援サーバは、前記ガイドデータが、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。
また、本発明に係る検索支援サーバは、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、ユーザにより発話された音声データの入力を受け付ける発話受付手段と、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段と、入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段とを備え、前記メタタグ音声認識手段及び前記絞り込み音声認識手段を並行して実行することが好ましい。
また、本発明に係る検索支援サーバは、前記メタタグ音声認識手段が、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出し、前記絞り込み音声認識手段が、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込むことが好ましい。
また、本発明に係る検索支援サーバは、前記絞り込み音声認識手段は、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新することが好ましい。
次に、上記目的を達成するために本発明に係る検索支援方法は、Webサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能な検索支援方法であって、前記検索支援サーバが、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させる工程と、前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる工程とを実行することを特徴とする。
また、本発明に係る検索支援方法は、前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。
また、本発明に係る検索支援方法は、前記検索支援サーバが、前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する工程と、表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付ける工程と、表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索する工程と、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付ける工程と、入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける工程とを実行し、前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成することが好ましい。
また、本発明に係る検索支援方法は、前記検索支援サーバが、前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力する工程と、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示する工程とを実行することが好ましい。
また、本発明に係る検索支援方法は、前記ガイドデータが、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。
また、本発明に係る検索支援方法は、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を選択するために、前記検索支援サーバが、ユーザにより発話された音声データの入力を受け付ける工程を実行し、前記検索支援サーバが、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示する工程、及び入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する工程を、並行して実行することが好ましい。
また、本発明に係る検索支援方法は、前記検索支援サーバが、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する工程と、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む工程とを実行することが好ましい。
また、本発明に係る検索支援方法は、前記検索支援サーバが、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する工程を実行することが好ましい。
次に、上記目的を達成するために本発明に係るコンピュータプログラムは、Webサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能なコンピュータプログラムであって、前記検索支援サーバを、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させる手段、及び前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる手段として機能させることを特徴とする。
また、本発明に係るコンピュータプログラムは、前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。
また、本発明に係るコンピュータプログラムは、前記検索支援サーバを、前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段として機能させ、該サーチデータ生成手段を、前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する抽出・表示手段、表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段、表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索するポインタ探索手段、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段、及び入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段として機能させることが好ましい。
また、本発明に係るコンピュータプログラムは、前記抽出・表示手段を、前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力するコンテンツ文字起し手段、及び出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示するコンテンツ表示手段として機能させることが好ましい。
また、本発明に係るコンピュータプログラムは、前記ガイドデータが、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。
また、本発明に係るコンピュータプログラムは、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、前記検索支援サーバを、ユーザにより発話された音声データの入力を受け付ける発話受付手段として機能させ、前記検索支援サーバを、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段、及び入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段として、並行して機能させることが好ましい。
また、本発明に係るコンピュータプログラムは、前記メタタグ音声認識手段を、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する手段として機能させ、前記絞り込み音声認識手段を、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む手段として機能させることが好ましい。
また、本発明に係るコンピュータプログラムは、前記絞り込み音声認識手段を、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する手段として機能させることが好ましい。
本発明によれば、Webサイト上に公開されている多数のコンテンツの中から、コンテンツを提供するコンテンツ提供者が、自分のコンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいはキーインすることにより、簡便にしかも迅速にコンテンツ提供者が提供するコンテンツをユーザの意向に沿って表示することが可能となる。
本発明の実施の形態に係る音声検索システムの構成を模式的に示すブロック図である。 本発明の実施の形態に係る検索支援サーバの構成を模式的に示すブロック図である。 本発明の実施の形態に係る端末装置の構成を模式的に示すブロック図である。 本発明の実施の形態に係る検索支援サーバのサーチデータ生成処理の機能ブロック図である。 本発明の実施の形態に係る検索支援サーバが、コンテンツ提供者が使用する端末装置に表示させる入力受付画面の例示図である。 本発明の実施の形態に係る検索支援サーバで生成されるサーチデータ及びガイドデータの例示図である。 本発明の実施の形態に係る検索支援サーバのサーチデータ及びガイドデータの例示図である。 本発明の実施の形態に係る検索支援サーバのサーチデータ及びガイドデータの他の例示図である。 本発明の実施の形態に係る検索支援サーバが、ユーザが使用する端末装置に表示させるスピーチウィンドウの例示図である。 本発明の実施の形態に係る検索支援サーバのCPUのコンテンツ提供者の設定処理手順を示すフローチャートである。 本発明の実施の形態に係る検索支援サーバのユーザによる発話の音声認識処理の機能ブロック図である。 本発明の実施の形態に係る検索支援サーバのCPUの音声認識処理の手順を示すフローチャートである。
以下、本発明の実施の形態に係る検索支援サーバについて、図面を参照して説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。
また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。
以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した音声検索システムとして説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、全てのガイドデータを発話で絞り込んで表示することが可能なスピーチウィンドウを用いることで、ユーザが自己の目的に応じて絞り込んだガイドデータ通りに発話又は選択する限り、コンテンツ提供者がユーザに提供したいコンテンツの特定部分へ確実に誘導することが可能な検索支援サーバというハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソフトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。
本発明の実施の形態によれば、Webサイト上に公開されている多数のコンテンツの中から、コンテンツを提供するコンテンツ提供者が、自分のコンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいはキーインすることにより、簡便にしかも迅速にコンテンツ提供者が提供するコンテンツをユーザの意向に沿って表示することが可能となる。
図1は、本発明の実施の形態に係る音声検索システムの構成を模式的に示すブロック図である。本実施の形態に係る音声検索システムは、コンテンツ提供者が使用する端末装置1aと、コンテンツや動画コンテンツを検索するユーザが使用する端末装置1bと、端末装置1a及び1bとデータ通信することが可能にインターネット等のネットワーク網2を介して接続されている検索支援サーバ3とで構成されている。端末装置1a、1bは、マイクやスピーカを接続してある据え置き型のPCに限定されるものではなく、マイクやスピーカを内蔵しているスマートホン、タブレット等の携帯端末であっても良い。
図2は、本発明の実施の形態に係る検索支援サーバ3の構成を模式的に示すブロック図である。本実施の形態に係る検索支援サーバ3は、少なくともCPU(中央演算装置)31、メモリ32、記憶装置33、I/Oインタフェース34、ビデオインタフェース35、可搬型メモリドライブ36、通信インタフェース37及び上述したハードウェアを接続する内部バス38で構成されている。
CPU31は、内部バス38を介して検索支援サーバ3の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置33に記憶されているコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ32は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。
記憶装置33は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶装置33に記憶されたコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CD-ROM、USBメモリ、SDカード等の可搬型記録媒体90から、可搬型メモリドライブ36によりダウンロードされ、実行時には記憶装置33からメモリ32へ展開して実行される。もちろん、通信インタフェース37を介して接続されている外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。
記憶装置33は、サーチデータ記憶部331及びガイドデータ記憶部332とを備えている。サーチデータ記憶部331は、コンテンツ提供者が、提供するコンテンツに対してユーザがアクセス可能なサーチデータ(コンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報)をポインタ情報(動画コンテンツの場合には、加えてタイムスタンプ情報)に対応付けて記憶する。なお、ポインタ情報とは、コンテンツにアクセスすることが可能なコンテンツの存在位置を示す情報を広く意味している。コンテンツがWebページである場合にはURLがポインタ情報に相当し、動画コンテンツである場合には、再生可能なURLだけではなく、動画コンテンツの再生を開始するタイムスタンプ情報、再生を終了するタイムスタンプ情報もポインタ情報に含まれる。
ガイドデータ記憶部332は、ユーザが検索するための発話あるいはクリック、タッチ等の選択操作を促すために、サーチデータに基づいて生成されるガイドデータを記憶する。ガイドデータは、サーチデータの中から、コンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報を抽出して、対応するサーチデータの識別情報に対応付けて生成される。ガイドデータを表示するスピーチウィンドウに一覧表示された状態で、ユーザの発話により表示されるガイドデータが絞り込まれる。ユーザが絞り込まれて表示されているガイドデータの中からいずれかのタグ名称を選択することで、選択されたタグ名称に対応付けられたサーチデータで特定されるコンテンツ(動画コンテンツ含む)を表示(あるいは再生)することができる。
通信インタフェース37は内部バス38に接続されており、インターネット、LAN、WAN等の外部のネットワーク網2に接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。
I/Oインタフェース34は、入力装置であるキーボード41、マウス42と接続され、データの入力を行う。本実施の形態では、実際に音声を入力するのは、コンテンツ提供者又はユーザが使用している端末装置1a、1b(スマートフォン、タブレット等)であり、入力された音声データを通信インタフェース37を介して受信する。もちろん、検索支援サーバ3にマイク、スピーカ等を直接接続していても良い。
ビデオインタフェース35は、CRTディスプレイ、液晶ディスプレイ等の表示装置43と接続されている。本実施の形態では、実際に画像を出力表示するのは、コンテンツ提供者又はユーザが使用している端末装置1a、1b(スマートフォン、タブレット等)であり、検索支援サーバ3は、端末装置1a、1bへ(音声データを含む)画像データ等を通信インタフェース37を介して送信する。
図3は、本発明の実施の形態に係る端末装置1(1a、1b共通)の構成を模式的に示すブロック図である。本実施の形態に係る端末装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、ビデオインタフェース15、可搬型メモリドライブ16、通信インタフェース17及び上述したハードウェアを接続する内部バス18で構成されている。
CPU11は、内部バス18を介して端末装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶されているコンピュータプログラム101に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム101の実行時にロードモジュールが展開され、コンピュータプログラム101の実行時に発生する一時的なデータ等を記憶する。
記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶装置13に記憶されたコンピュータプログラム101は、通信インタフェース17を介して接続されている外部コンピュータからダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、プログラム及びデータ等の情報を記録したSDカード等の可搬型記録媒体91から可搬型メモリドライブ16を介してダウンロードされたコンピュータプログラムであっても良い。
通信インタフェース17は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワーク網2に接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。
I/Oインタフェース14は、キーボード203、マウス204等の入力装置の他、マイク201等の音声入力装置、スピーカ202等の音声出力装置と接続され、データの入出力を行う。通信インタフェース17を介してスマートホン等を接続し、音声入力装置及び音声出力装置を代用しても良い。
ビデオインタフェース15は、表示装置205と接続されており、検索支援サーバ3から送信されてくる入出力用の画像をブラウザ等で表示する。検索されたコンテンツや動画コンテンツは、表示装置205に表示しても良いし、別途ネットワーク網を介してデータ通信することが可能に接続されている外部のコンピュータで表示しても良い。
以下、上述した構成の検索支援サーバ3の動作について説明する。
図4は、本発明の実施の形態に係る検索支援サーバ3のサーチデータ生成処理の機能ブロック図である。図4では、コンテンツ提供者がサーチデータを生成し、ガイドデータを生成して、サイネージウィンドウ及び/又はスピーチウィンドウに表示する手順について説明する。
図4において、サーチデータ生成部401は、サイネージウィンドウ及び/又はスピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成する。サーチデータ生成部401は、抽出・表示部402、タグ入力受付部403、ポインタ探索部404、ポインタ割付受付部405、及び属性情報受付部406を備えている。
抽出・表示部402は、コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応するコンテンツを表示する。より具体的には、抽出・表示部402は、コンテンツ文字起し部4021と、コンテンツ表示部4022とを備えている。
コンテンツ文字起し部4021は、対象となるコンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力する。出力されたテキストデータは、Webサイトに含まれている文字列に基づいてタグ名称を生成する参考にすることができる。抽出された単文又は単語群ごとに、WebサイトのURLが対応付けられている。
コンテンツが動画コンテンツの場合には、図示しない音声文字起し部を備えることで、動画コンテンツの音声部分を抽出して、適切な文節ごとのタイムスタンプ情報と対応付けたテキストデータとして出力する。出力されたテキストデータは、動画コンテンツに含まれている音声に基づいてタグ名称を生成する参考にすることができる。
コンテンツ表示部4022は、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応するコンテンツの特定部分を表示する。タグ名称の候補の選択を受け付けた場合に、正しいコンテンツが対応付けられているか否かを確認することができる。
以下、コンテンツの特定部分に対応付けられるタグ情報の入力を受け付ける。本実施の形態では、タグ情報とは、少なくともコンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報で構成されている。
タグ入力受付部403は、表示出力されたテキストデータ、あるいは動画コンテンツの場合には再生している動画コンテンツの特定部分に基づいて、タグ名称及びタグ名称の内容を示す単文又は単語群の入力を受け付ける。
ポインタ探索部404は、表示されたコンテンツの特定部分に基づいて、コンテンツの特定部分を示すポインタ情報を探索する。探索されるポインタ情報は、コンテンツがWebサイトの場合には既に対応付けられているURLを結果として出力する。コンテンツが動画コンテンツである場合には、既に対応付けられているURLだけではなく、再生開始タイミング及び再生終了タイミングに関するタイムスタンプ情報も探索される。
ポインタ割付受付部405は、入力を受け付けたタグ名称ごとに、探索されたポインタ情報の割り付けを受け付ける。これにより、タグ名称の選択を受け付けることにより、割り付けられたポインタ情報に従って、コンテンツの特定部分を表示することができる。
属性情報受付部406は、入力を受け付けたタグ名称ごとに、検索時に発話可能な属性情報の入力を受け付ける。後述するように属性情報をユーザが発話することにより、タグ名称を絞り込むことができる。
ここで、属性情報としては、例えば「新着」、「動画」、「使い方」、「料金」、「医療」など、コンテンツを絞り込むのに役立つ情報であり、しかも発話しやすい言葉であれば特に限定されるものではない。
このようにタグ名称及びタグ名称の内容を示す単文又は単語群、属性情報の入力を受け付け、タグ情報としてポインタ情報に対応付けてサーチデータを生成する。ガイドデータ生成部407は、生成されたサーチデータに含まれるタグ情報を、サーチデータを識別するサーチデータ識別情報と対応付けて、ガイドデータを生成する。
図5は、本発明の実施の形態に係る検索支援サーバ3が、コンテンツ提供者が使用する端末装置1aに表示させる入力受付画面の例示図である。図5(a)は、入力受付画面の初期画面の例示図であり、図5(b)は、タグ情報の入力受付画面の例示図であり、図5(c)は、サイネージウィンドウの表示の例示図である。
図5(a)に示す初期画面50が、コンテンツ提供者の使用する端末装置1aに、当該Webサイトのトップページの表示とともにポップアップ表示される。コンテンツ文字起し部4021において出力されるテキストデータは、初期画面50の共用ウィンドウ60に表示される。
コンテンツ提供者は、共用ウィンドウ60に表示されているテキストデータに基づいて、ユーザに提供したい情報が掲載されているWebページを探し、共用ウィンドウ60上に表示されているテキストデータを選択することで、選択されたテキストデータに対応付けられているWebページへと遷移する。コンテンツ提供者は、ポップアップ表示されている初期画面50の「タグ入力」ボタン51を選択する。
コンテンツ提供者による「タグ入力」ボタン51の選択を受け付けた場合、図5(b)に示すタグ情報の入力受付画面52が別ウィンドウで表示される。コンテンツ提供者は、タグ名称入力領域53にユーザが選択しやすいタグ名称を、メタタグ入力領域54に内容を示す単文又は単語群を入力する。コンテンツ提供者は、属性情報選択ボタン55により、属性情報を選択する。もちろん、属性情報を任意に入力する領域を設けてキーインしても良い。
コンテンツ提供者が、「マーク」ボタン56を選択した時点で、検索支援サーバ3は端末装置1aのブラウザに表示されているWebサイトのURLをポインタ情報として探索し、入力されたタグ名称に対応付けてサーチデータとしてサーチデータ記憶部331に記憶する。
ガイドデータは、サーチデータのタグ情報部分に、サーチデータを識別する識別情報を対応付けて生成する。図6は、本発明の実施の形態に係る検索支援サーバ3で生成されるサーチデータ及びガイドデータの例示図である。図6(a)は、生成されたガイドデータの例示図であり、図6(b)は、生成されたガイドデータの基礎となるサーチデータの例示図である。
図6(a)に示すように、ガイドデータは、サーチデータの何番目のタグ名称であるかを示す「番号」で対応付けられており、Webサイトを識別する識別情報である共通のサーチデータID(図6ではサーチデータID=YYYYYY)を有している。生成されたガイドデータはガイドデータ記憶部332に記憶される。
そして、「ポインタ情報」としてURLがタグ名称と対応付けて記憶されているのはサーチデータのみである。したがって、図5(a)の「ガイドデータ」ボタンを選択することで、サーチデータのタグ情報をコピーし、サーチデータID(YYYYYY)と、サーチデータの何番目のタグ名称であるかを示す「番号」とを対応付けてガイドデータが生成される。図6(a)に示すガイドデータの「サーチデータID」欄が空白なのは、一のサーチデータのみに基づいて生成されたガイドデータであることを意味しており、他のサーチデータに基づいて生成されたガイドデータである場合には、他のサーチデータのサーチデータIDが記載される。
図5(c)のサイネージウィンドウ58には、生成されたガイドデータの中からコンテンツ提供者がユーザに表示したいデータとして選択したガイドデータのタグ名称が表示されることが好ましい。この場合、「ガイドデータ」ボタンの選択を受け付けると「編集」ボタンと「拡張」ボタン(図示せず)が表示される。「編集」ボタンの選択を受け付けた場合、共用ウィンドウ60内にキーイン等することにより、サイネージウィンドウ58に表示するタグ名称を設定することができる。「拡張」ボタンの選択を受け付けた場合には、他のサーチデータから生成されたガイドデータを追加することができる。
すなわち、本実施の形態では、コンテンツ提供者ごとにサーチデータを生成しても良いし、同一コンテンツ提供者が複数立ち上げたWebサイトごとにサーチデータを生成しても良い。例えば、同一の会社のWebサイトであっても、事業部ごと、商品・サービスごとにWebサイトを立ち上げる機会が急増しており、コンテンツが日々増加する。これらのコンテンツを迅速にかつ確実に検索できるようにすることは、顧客サービスにおいても重要になる。
本実施の形態では、全てのガイドデータは、基礎となるサーチデータに基づいて生成されている。したがって、一のガイドデータに他のサーチデータに基づいて生成されたガイドデータさえ追加すれば、他のサーチデータに対応付けられているコンテンツ(動画コンテンツ含む)、すなわち他のWebサイトのコンテンツであっても迅速かつ確実に表示・再生することができるようになる。
図7は、本発明の実施の形態に係る検索支援サーバ3のサーチデータ及びガイドデータの例示図である。図7(a)は、一のサーチデータに基づくガイドデータの例示図であり、図7(b)は、追加されたガイドデータの基礎となる他のサーチデータの例示図である。
図6に示すサーチデータ及びガイドデータとの違いは、共通のサーチデータIDではなく、異なるサーチデータIDを有するガイドデータが含まれている点にある。すなわち、サーチデータ及びガイドデータを生成した時点では、サーチデータIDは共通である。本実施の形態では、サーチデータとガイドデータとの二段構造にすることにより、サーチデータIDが異なるガイドデータを設定することができる。これにより、サーチデータIDが異なるガイドデータの基礎となるサーチデータを読み出すことができ、サーチデータIDが異なるサーチデータ、すなわち異なるWebサイトで提供されるコンテンツの特定部分を表示することが可能となる。
例えば共通のサーチデータIDを「YYYYYY」とする。そして、共通のサーチデータIDが「YYYYYY」を基礎として生成されたガイドデータには、他のサーチデータIDを基礎としたガイドデータを随時追加することができる。図7(a)の例では、サーチデータIDが「PPPPPP」であるガイドデータが追加されている。つまり、サーチデータIDが「PPPPPP」であるガイドデータの基礎となるサーチデータを読み出すことができるようになり、当該サーチデータに対応付けられているコンテンツを表示することができるようになる。
つまり、図7(b)に示すサーチデータIDが「PPPPPP」であるサーチデータを参照することができ、所望のコンテンツのポインタ情報を取得することができる。したがって、ガイドデータを追加するだけで、どのWebサイトのコンテンツであっても所望のコンテンツを表示することができる。なお、図7(b)において、ガイドデータの「サーチデータID」欄の空欄は、追加されたガイドデータではなく、サーチデータIDが共通のサーチデータID「YYYYYY」であるガイドデータであることを意味している。
図8は、本発明の実施の形態に係る検索支援サーバ3のサーチデータ及びガイドデータの他の例示図である。図8(a)は、一のサーチデータに基づくガイドデータの例示図であり、図8(b)は、追加されたガイドデータの基礎となる他のサーチデータの例示図である。
図7に示すサーチデータ及びガイドデータとの違いは、サーチデータのポインタ情報に動画コンテンツのURLだけでなく、動画コンテンツの再生開始点を示す開始タイムスタンプ及び再生終了点を示す終了タイムスタンプ(タイムスタンプ情報)を含んでいることである。すなわち、動画コンテンツにおいて、コンテンツ提供者がユーザに見せたいシーンだけ再生することができる。
例えば共通のサーチデータIDを「YYYYYY」とする。そして、サーチデータIDが「YYYYYY」であるサーチデータを基礎として生成されたガイドデータには、他のサーチデータIDを基礎とした動画コンテンツのガイドデータを随時追加することができる。図8(a)では、サーチデータIDが「TTTTTT」であるガイドデータが追加されている。つまり、サーチデータIDが「TTTTTT」であるガイドデータの基礎となるサーチデータを読み出すことができるようになり、当該サーチデータに対応付けられている動画コンテンツを再生することができるようになる。
つまり、図8(b)に示すサーチデータIDが「TTTTTT」であるサーチデータを参照することができ、所望のコンテンツのポインタ情報及びタイムスタンプ情報を取得することができる。したがって、ガイドデータを追加するだけで、どのWebサイトの動画コンテンツであっても所望の動画コンテンツの所望のシーンだけ再生することができる。なお、図8(b)において、ガイドデータの「サーチデータID」欄の空欄は、追加されたガイドデータではなく、サーチデータIDが「YYYYYY」であるガイドデータであることを意味している。
図4に戻って、サイネージウィンドウ表示部408は、生成されたガイドデータのタグ名称等を、コンテンツ提供者が選択して、ユーザが使用する端末装置1b上でサイネージウィンドウに表示させる。これにより、ユーザに対して、コンテンツの特定部分を示すタグ情報を選択するための発話を誘導することができる。サイネージウィンドウは、検索支援サーバが、コンテンツ提供者が使用する端末装置1aに、図5(c)に示すような文字列が流れて表示されるような形態で表示されることが好ましい。
具体的には、図5(c)に示すサイネージウィンドウ57の誘導表示領域58に、選択されたガイドデータのタグ名称が表示される。図5(c)において、矢印は、文字列がその方向に流れるように移動しながら表示することを意味する。サイネージウィンドウの表示を見たユーザは、コンテンツ提供者がどのような情報の提供を意図しているかを知ることができ、発話内容を工夫することができる。コンテンツ提供者は、ユーザに提供したいコンテンツを示すタグ名称あるいは文字列をサイネージウィンドウ57に表示することで、ユーザを提供したいコンテンツへと誘導することができる。
また、スピーチウィンドウ表示部409は、生成されたガイドデータのタグ名称をすべて、ユーザが使用する端末装置1b上でスピーチウィンドウに表示させる。ユーザが発話することにより、表示されているガイドデータのタグ名称を絞り込むことができる。絞り込むことで、スピーチウィンドウにスクロール等の操作をすることなくタグ名称が表示することができ、クリック、タッチ等の選択操作でタグ名称を選択することにより、対応付けられているコンテンツの特定部分を表示することができる。
図9は、本発明の実施の形態に係る検索支援サーバ3が、ユーザが使用する端末装置1bに表示させるスピーチウィンドウの例示図である。図9(a)は、本実施の形態に係る検索支援サーバ3が、ユーザが使用する端末装置1bに表示させるスピーチウィンドウの例示図であり、図9(b)は、本実施の形態に係る検索支援サーバ3がコンテンツの特定部分を表示させる端末装置1bの例示図である。図9(a)に示すように、生成されたガイドデータのタグ名称は、スピーチウィンドウ901上で選択可能な状態でガイドデータ表示領域902にすべて表示される。
ガイドデータ表示領域902に表示しきれない場合も、スクロールボタン903を操作することですべてのガイドデータのタグ名称を閲覧することができる。ガイドデータ表示領域902に表示されているガイドデータのタグ名称の中から、一のタグ名称の選択を受け付ける。これにより、選択を受け付けたタグ名称のガイドデータの基礎となるサーチデータを特定することができるので、サーチデータに対応付けられているコンテンツの特定部分を表示することができる。
図9の例では、スピーチウィンドウ901に表示されているタグ名称の選択を受け付けた場合、対応するコンテンツの特定部分を確認できるよう、端末装置1bに表示する。ユーザが使用する端末装置1bは、図9に示すようにデスクトップ型でも良いし、スマホ、タブレット等の携帯端末であっても良い。
図10は、本発明の実施の形態に係る検索支援サーバ3のCPU31のコンテンツ提供者の設定処理手順を示すフローチャートである。図10において、検索支援サーバ3のCPU31は、コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して(ステップS1001)、抽出された単文又は単語群の選択を受け付けた場合に対応するコンテンツを表示する(ステップS1002)。
CPU31は、表示出力されたテキストデータ、あるいは動画コンテンツの場合には再生している動画コンテンツの特定部分に基づいて、タグ名称及びタグ名称の内容を示す単文又は単語群の入力を受け付ける(ステップS1003)。
CPU31は、表示されたコンテンツの特定部分に基づいて、コンテンツの特定部分を示すポインタ情報を探索する(ステップS1004)。CPU31は、入力を受け付けたタグ名称ごとに、探索されたポインタ情報の割り付けを受け付ける(ステップS1005)。これにより、タグ名称の選択を受け付けることにより、割り付けられたポインタ情報に従って、コンテンツの特定部分を表示することができる。
CPU31は、入力を受け付けたタグ名称ごとに、検索時に発話可能な属性情報の入力を受け付ける(ステップS1006)。後述するように属性情報をユーザが発話することにより、タグ名称を絞り込むことができる。
CPU31は、入力を受け付けたタグ名称及びタグ名称の内容を示す単文又は単語群、属性情報を、ポインタ情報に対応付けてサーチデータを生成する(ステップS1007)。CPU31は、生成されたサーチデータに含まれるタグ情報を、サーチデータを識別するサーチデータ識別情報と対応付けて、ガイドデータを生成する(ステップS1008)。
CPU31は、生成されたガイドデータのタグ名称等を、コンテンツ提供者が選択して、ユーザが使用する端末装置1b上でサイネージウィンドウに表示させ(ステップS1009)、生成されたガイドデータのタグ名称をすべて、ユーザが使用する端末装置1b上でスピーチウィンドウに表示させる(ステップS1010)。
以下、ユーザが検索処理を実行する手順について説明する。本実施の形態では、コンテンツ提供者がユーザの検索を誘導するサイネージウィンドウ及びスピーチウィンドウを表示させている点に特徴を有している。ただし、それだけではなく、ユーザにとって所望のコンテンツを迅速にかつ確実に検索表示させる工夫として、表示されるガイドデータのタグ名称をユーザが発話することにより絞り込むことができる点が従来の検索システムとの大きな相違点である。
図11は、本発明の実施の形態に係る検索支援サーバ3のユーザによる発話の音声認識処理の機能ブロック図である。図11では、ユーザの使用する端末装置1bに、図5(c)に示すサイネージウィンドウ及び図9(a)に示すスピーチウィンドウが表示されている状態でユーザによる発話を入力として受け付け、正しく音声認識する手順について説明する。
図11に示すように、発話受付部1101は、ユーザにより発話された音声データの入力を受け付ける。具体的には、端末装置1bにおいてユーザが発話した音声データを受信することで、音声データを取得する。
前処理部1102は、入力を受け付けた音声データに対して雑音除去、発話区間の検出等を実行する。前処理された音声データは、メタタグ音声認識部1103及び絞り込み音声認識部1108へ渡され、メタタグ音声認識部1103及び絞り込み音声認識部1108を並行して実行する。
メタタグ音声認識部1103は、前処理された音声データを認識してテキストデータに変換し、変換されたテキストデータに基づいて、ガイドデータのタグ名称及びタグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、一致度が所定値より大きい場合にタグ名称に対応するコンテンツの特定部分を表示する。つまり、メタタグ音声認識部1103で正しく認識できた場合には、他の音声認識処理と統合する処理等余分な処理を実行することなく認識結果を即座に出力することができる。
すなわち、メタタグ音声認識部1103は、テキストデータ変換部1104、一致度算出部1105、タグ名称特定部1106、コンテンツ表示・再生部1107を備えている。テキストデータ変換部1104は、前処理された音声データを、いわゆるディクテーショングラマーに基づいて認識してテキストデータに変換する。
一致度算出部1105は、すべてのタグ名称及びタグ名称の内容を示す単文又は単語群で形成された第一のデータセットを照会して、入力を受け付けた音声データの認識結果との一致度を算出する。
タグ名称特定部1106は、算出された一致度が最大であるタグ名称を特定する。一致度が最大であるタグ名称が、最も確からしい認識結果だからである。しかし、一致度が所定の閾値以下である場合には誤認識の可能性も高い。
コンテンツ表示・再生部1107は、算出された一致度が所定の閾値より大きいか否かを判断する。所定の閾値以下であると判断した場合には、認識精度が不十分であるとして再度の発話の待ち状態とする。所定の閾値より大きいと判断した場合には、特定されたタグ名称に対応付けられたコンテンツの特定部分を表示あるいは再生して、認識結果が正しいか否かを判断することができる。
絞り込み音声認識部1108は、前処理された音声データに基づいて、いわゆるルールグラマーを用いて、ガイドデータのタグ情報のうち、属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積によるガイドデータの絞り込みを行い、絞り込まれたガイドデータのタグ名称及び属性情報を出力する。これにより、メタタグ音声認識部1103で妥当な認識結果を得られない場合であっても、次にユーザが発話する内容をさらに絞り込むことができるので、音声認識の成功率を高めることができ、結果として短時間で正しい認識結果を得ることができる。具体的には、絞り込み音声認識部1108は、属性抽出部1109、絞り込み部1110を備えている。
属性抽出部1109は、すべてのタグ情報に対応付けられている属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として属性情報を抽出する。絞り込み部1110は、抽出された属性情報の論理積としてタグ名称(ガイドデータ)を絞り込む。
絞り込み音声認識部1108は、絞り込まれたガイドデータの属性情報により、音声認識フィルタである第二のデータセットを更新する更新部1111を備えることが好ましい。第二のデータセットは、属性情報によりガイドデータが絞り込まれる都度更新されるので、ユーザによる次の発話をさらに制限することになり、正しい認識結果を得る確信度を高めることができ、より迅速に正しい認識結果を得ることが可能となる。
図12は、本発明の実施の形態に係る検索支援サーバ3のCPU31の音声認識処理の手順を示すフローチャートである。検索支援サーバ3のCPU31は、ユーザにより発話された音声データの入力を受け付ける(ステップS1201)。具体的には、端末装置1bにおいてユーザが発話した音声データを受信することで、音声データを取得する。
CPU31は、入力を受け付けた音声データに対して雑音除去、発話区間の検出等を実行する(ステップS1202)。前処理された音声データに基づいて、以下の2つの処理(メタタグ音声認識及び絞り込み音声認識)が並行して実行される。
まず、CPU31は、前処理された音声データに基づいて、前処理された音声データを、いわゆるディクテーショングラマーに基づいて認識してテキストデータに変換する(ステップS1203)。CPU31は、すべてのタグ名称及びタグ名称の内容を示す単文又は単語群で形成された第一のデータセットを照会して、入力を受け付けた音声データとの一致度を算出する(ステップS1204)。CPU31は、算出された一致度が最大であるタグ名称を特定する(ステップS1205)。
CPU31は、算出された一致度が所定の閾値より大きいか否かを判断する(ステップS1206)。CPU31が、所定の閾値以下であると判断した場合(ステップS1206:NO)、CPU31は、処理をステップS1201へ戻して、再度の発話の待ち状態となる。
CPU31が、所定の閾値より大きいと判断した場合(ステップS1206:YES)、CPU31は、特定されたタグ名称に対応付けられたコンテンツの特定部分を表示あるいは再生する(ステップS1207)。
一方、CPU31は、前処理された音声データに基づいて、全てのタグ名称に対応付けられている属性情報で形成された第二のデータセットを音声認識フィルタとして用い、認識結果の属性情報を抽出する(ステップS1208)。CPU31は、抽出された属性情報の論理積としてタグ名称(ガイドデータ)を絞り込む(ステップS1209)。CPU31は、絞り込まれたガイドデータのタグ名称及び属性情報により、音声認識フィルタである第二のデータセットを更新し(ステップS1210)、処理をステップS1201へ戻して、再度の発話の待ち状態となる。
以上のように本実施の形態によれば、Webサイト上に公開されている多数のコンテンツの中から、コンテンツを提供するコンテンツ提供者が、自分のコンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいは選択することにより、迅速にかつ確実にコンテンツ提供者が提供するコンテンツをユーザに対して表示することが可能となる。
また、本実施の形態によれば、メタタグ音声認識処理と絞り込み音声認識処理を並行して実行することにより、メタタグ音声認識が正しい場合にはそのまま認識結果を出力することができ、一方で、認識結果の確からしさが足りない場合には、より絞り込んだガイドデータに基づくタグ名称をスピーチウィンドウに表示することができる。したがって、ユーザは、比較的短時間で所望のコンテンツを表示又は再生することが可能となる。
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば属性情報を含むタグ情報の入力方法は、上述した方法に限定されるものではなく、タグ名称を絞り込むことができる文字列を入力可能であれば特に限定されるものではない。
また、ユーザによる発話を認識する場合に、メタタグ音声認識部1103と並行に処理を実行する認識処理は、絞り込み音声認識部1108に限定されるものではなく、ユーザによる次の発話を限定することができる処理であれば特に限定されるものではない。
また、音声認識に用いるディクテーショングラマー及びルールグラマーは、テキストデータ、ガイドデータ及び外部から取得したテキストデータを教師データとして学習することにより生成することが望ましい。学習方法としては、いわゆる機械学習、深層学習のようにAIを用いても良いし、対応テーブルを拡充するような従来の方法であっても良く、特に限定されるものではない。
1、1a、1b 端末装置
2 ネットワーク網
3 検索支援サーバ
11、31 CPU
12、32 メモリ
13、33 記憶装置
14、34 I/Oインタフェース
15、35 ビデオインタフェース
16、36 可搬型ディスクドライブ
17、37 通信インタフェース
18、38 内部バス
90、91 記憶媒体
100、101 コンピュータプログラム
331 サーチデータ記憶部
332 ガイドデータ記憶部

Claims (10)

  1. Webサイト上に公開されるコンテンツの検索を支援する検索支援サーバであって、
    コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
    前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
    をデータ通信することが可能に接続されている端末装置に表示させ、
    前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させることを特徴とする検索支援サーバ。
  2. 前記タグ情報は、少なくとも前記コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることを特徴とする請求項1に記載の検索支援サーバ。
  3. 前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段を備え、
    該サーチデータ生成手段は、
    前記コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記コンテンツを表示する抽出・表示手段と、
    表示された前記コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段と、
    表示された前記コンテンツに基づいて、前記コンテンツの特定部分を示すポインタ情報を探索するポインタ探索手段と、
    入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段と、
    入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段と
    を備えることを特徴とする請求項2に記載の検索支援サーバ。
  4. 前記抽出・表示手段は、
    前記コンテンツを精査して、含まれている文字列を単文又は単語群として抽出してテキストデータとして出力するコンテンツ文字起し手段と、
    出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記コンテンツを表示するコンテンツ表示手段と
    を備えることを特徴とする請求項3に記載の検索支援サーバ。
  5. 前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることを特徴とする請求項3又は4に記載の検索支援サーバ。
  6. 前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、
    ユーザにより発話された音声データの入力を受け付ける発話受付手段と、
    入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段と、
    入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段と
    を備え、前記メタタグ音声認識手段及び前記絞り込み音声認識手段を並行して実行することを特徴とする請求項3乃至5のいずれか一項に記載の検索支援サーバ。
  7. 前記メタタグ音声認識手段は、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出し、
    前記絞り込み音声認識手段は、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込むことを特徴とする請求項6に記載の検索支援サーバ。
  8. 前記絞り込み音声認識手段は、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新することを特徴とする請求項7に記載の検索支援サーバ。
  9. Webサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能な検索支援方法であって、
    前記検索支援サーバが、
    コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
    前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
    をデータ通信することが可能に接続されている端末装置に表示させる工程と、
    前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる工程と
    を実行することを特徴とする検索支援方法。
  10. Webサイト上に公開されるコンテンツの検索を支援する検索支援サーバで実行することが可能なコンピュータプログラムであって、
    前記検索支援サーバを、
    コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
    前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
    をデータ通信することが可能に接続されている端末装置に表示させる手段、及び
    前記サイネージウィンドウ及び/又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記コンテンツの特定部分を前記端末装置に表示させる手段
    として機能させることを特徴とするコンピュータプログラム。
JP2021039267A 2021-03-11 2021-03-11 検索支援サーバ、検索支援方法及びコンピュータプログラム Active JP7257010B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021039267A JP7257010B2 (ja) 2021-03-11 2021-03-11 検索支援サーバ、検索支援方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021039267A JP7257010B2 (ja) 2021-03-11 2021-03-11 検索支援サーバ、検索支援方法及びコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2022139052A JP2022139052A (ja) 2022-09-26
JP2022139052A5 JP2022139052A5 (ja) 2022-11-02
JP7257010B2 true JP7257010B2 (ja) 2023-04-13

Family

ID=83399224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021039267A Active JP7257010B2 (ja) 2021-03-11 2021-03-11 検索支援サーバ、検索支援方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP7257010B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297372A (ja) 2001-03-30 2002-10-11 Seiko Epson Corp ウエブページの音声検索方法、音声検索装置および音声検索プログラム
JP2010181461A (ja) 2009-02-03 2010-08-19 Olympus Corp デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP2019175014A (ja) 2018-03-27 2019-10-10 大日本印刷株式会社 情報処理システム、情報処理方法、表示装置及びプログラム
JP2020079982A (ja) 2018-11-12 2020-05-28 株式会社日本経済新聞社 動画のためのタグ付け装置、方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297372A (ja) 2001-03-30 2002-10-11 Seiko Epson Corp ウエブページの音声検索方法、音声検索装置および音声検索プログラム
JP2010181461A (ja) 2009-02-03 2010-08-19 Olympus Corp デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP2019175014A (ja) 2018-03-27 2019-10-10 大日本印刷株式会社 情報処理システム、情報処理方法、表示装置及びプログラム
JP2020079982A (ja) 2018-11-12 2020-05-28 株式会社日本経済新聞社 動画のためのタグ付け装置、方法、およびプログラム

Also Published As

Publication number Publication date
JP2022139052A (ja) 2022-09-26

Similar Documents

Publication Publication Date Title
US10417344B2 (en) Exemplar-based natural language processing
US11914925B2 (en) Multi-modal input on an electronic device
EP2058800B1 (en) Method and system for recognizing speech for searching a database
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US6973428B2 (en) System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition
KR101359715B1 (ko) 모바일 음성 웹 제공 방법 및 장치
JP3962763B2 (ja) 対話支援装置
EP2477186B1 (en) Information retrieving apparatus, information retrieving method and navigation system
EP3032532A1 (en) Disambiguating heteronyms in speech synthesis
US20150179168A1 (en) Multi-user, Multi-domain Dialog System
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
JP2004310748A (ja) ユーザ入力に基づくデータの提示
JP5221768B2 (ja) 翻訳装置、及びプログラム
US20050256717A1 (en) Dialog system, dialog system execution method, and computer memory product
JP3639776B2 (ja) 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
JP7257010B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
JP7297266B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
US20060149545A1 (en) Method and apparatus of speech template selection for speech recognition
WO2021161908A1 (ja) 情報処理装置及び情報処理方法
JP2002041277A (ja) 情報処理装置およびWebブラウザ制御プログラムを記録した記録媒体
JPWO2005076259A1 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP2022139053A5 (ja)
Jeevitha et al. A study on innovative trends in multimedia library using speech enabled softwares
CN114840168A (zh) 人机交互装置及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221025

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221025

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230324

R150 Certificate of patent or registration of utility model

Ref document number: 7257010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150