JP2022112292A

JP2022112292A - 音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラム

Info

Publication number: JP2022112292A
Application number: JP2021008062A
Authority: JP
Inventors: 大石丸; Masaru Ishimaru; 祐司入江; Yuji Irie
Original assignee: TVS Regza Corp
Current assignee: TVS Regza Corp
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2022-08-02
Also published as: WO2022156246A1

Abstract

【課題】ローカルで処理できる音声コマンドを増やすことのできる音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラムを提供する。
【解決手段】一実施形態に係る音声コマンド処理回路は、音声データを音声認識して認識結果を出力し、装置を制御するための音声コマンドの情報と前記音声コマンドが実行する前記装置内部の制御コマンドであるローカルコマンドの情報とが紐づけられたデータベースに、前記認識結果に相当する前記音声コマンドがあるか否かを判定し、前記判定手段の判定結果に基づいてサーバから前記データベースの情報を取得する。
【選択図】図６

Description

実施形態は、音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラムに関する。

近年、音声認識技術を利用して、人が発した音声コマンドで遠隔制御ができる家電装置が普及している。デジタル放送のテレビ受信装置においては、特定発話パタンなど比較的容易な音声認識をテレビ受信装置の内部（ローカル）で実施し、文法理解や自然言語処理などを要する複雑な任意の発話についてはクラウドサーバなど外部のサーバの音声認識を組み合わせることで高度な音声認識を実現している。

特表２０１５－５３５９５２号公報特表２０１９－１５９５２号公報

しかしながら、ユーザがより自然な言語に近い形で自由に音声コマンドを発するためには、自然言語処理など高度な機能を備えた外部のサーバが常に必要となる。

本発明が解決しようとする課題は、ローカルで処理できる音声コマンドを増やすことのできる音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラムを提供することを目的とする。

一実施形態に係る音声コマンド処理回路は、音声データを音声認識して認識結果を出力し、装置を制御するための音声コマンドの情報と前記音声コマンドが実行する前記装置内部の制御コマンドであるローカルコマンドの情報とが紐づけられたデータベースに、前記認識結果に相当する前記音声コマンドがあるか否かを判定し、前記判定手段の判定結果に基づいてサーバから前記データベースの情報を取得する。

図１は、実施形態に係るシステムの構成例を示す機能ブロック図である。図２は、実施形態に係る受信装置の構成例を示す機能ブロック図である。図３は、実施形態に係る音声コマンド処理部の構成例を示す機能ブロック図である。図４は、実施形態に係るサーバ装置の構成例を示す機能ブロック図である。図５は、第１の実施形態に係る音声コマンド処理部が処理可能な音声コマンドの例を示す図である。図６は、同第１の実施形態に係る音声コマンド処理部による音声信号の処理動作例を示すフローチャートである。図７は、同第１の実施形態に係る受信装置のローカル音声コマンドデータベース部におけるデータベースの一例を示す図である。図８は、同第１の実施形態に係る音声コマンド処理部がローカル音声データを作成する処理動作例を示すフローチャートである。図９は、同第１の実施形態に係る音声コマンド処理部に格納されるローカル音声データの一例である。図１０は、同第１の実施形態に係るサーバ装置による音声データの処理動作例を示すフローチャートである。図１１は、同第１の実施形態に係るサーバ装置に格納されるデータベースの一例である。図１２は、同第１の実施形態に係る音声コマンド処理部が、複数のユーザから受信した音声コマンドを処理するためのデータベースの一例である。図１３は、同第１の実施形態に係る音声コマンド処理部が処理可能な音声コマンドの例を示す図である。図１４は、第２の実施形態に係る音声コマンド処理部に格納されたサーバコマンド情報の例である。図１５は、第３の実施形態に係る音声コマンド処理部に格納されるデータベースの例である。図１６は、同第３の実施形態に係るサーバ装置が、複数のサーバコマンドから選択して音声コマンド処理部にサーバコマンドを送信する際の処理動作例を示すフローチャートである。図１７は、変形例に係るシステムの構成例を示す機能ブロック図である。

以下、実施の形態について図面を参照して説明する。

図１は、実施形態に係るシステムの構成例を示す機能ブロック図である。

受信装置１は、デジタルコンテンツを視聴するための受信装置であり、例えば、２Ｋまたは４Ｋ／８Ｋといった地上波放送、衛星放送などのデジタル放送を受信し視聴可能なテレビの受信装置（テレビ装置、テレビジョン受信装置、放送信号受信装置とも称される）である。デジタル放送から入手したデジタルコンテンツを放送番組と称することもある。

受信装置１は、ＣＰＵやメモリ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などのデジタル信号処理手段を備えていてもよく、音声認識技術を用いた制御が可能である。例えば、ユーザが音声によりコマンドを発すると、音声は受信装置１のマイクロフォン（以降、マイクと称する場合もある）など音声集音機能により受波され、音声コマンド処理部２において、音声認識技術などによりコマンドが取り出され、取り出されたコマンドにより受信装置１の各種機能が制御される。また、本実施形態における受信装置１は、リモートコントローラ１０（以降、リモコン１０と称する場合もある）からの制御も可能であってもよい。具体的には、電源のオンオフなど通常のリモコン機能の他、例えばユーザの音声をリモコン１０に付属のマイクが受波し、リモコン１０が受信装置１に音声データとしてユーザの音声を送信する。受信装置１は、受信した音声データから、例えば音声認識技術によりコマンドを取り出し、受信装置１の各種機能を制御する。本実施形態における受信装置１は、取り出したコマンドに基づいて生成した制御信号を、記録再生部１９へ出力し、記録再生部１９を制御する。

また、受信装置１は、例えばインターネットなどのネットワーク５に接続するための通信機能を備え、ネットワーク５に接続される各種サーバ（クラウドにより構築されたサーバも含んでよい）とデータのやり取りをすることが可能である。例えば、ネットワーク５に接続される図示せぬコンテンツサーバ装置からデジタルコンテンツを入手することもできる。コンテンツサーバ装置から入手したデジタルコンテンツをネットコンテンツと称することもある。

音声コマンド処理部２は、ＣＰＵやメモリ、ＤＳＰなどのデジタル信号処理手段を備えていてもよく、音声認識技術などの機能を備えている。音声コマンド処理部２により、ユーザが発した音声からコマンドを取り出して受信装置１の内部機能を制御することができる。音声コマンドとは、ユーザが受信装置１を制御するために音声により受信装置１に入力するコマンドである。音声コマンドが、受信装置１の機能を制御するため内部コマンド（以降、ローカルコマンドと称する場合もある）と紐づけられていれば、受信装置１が音声コマンドを受信することで、受信装置１の機能を制御することができる。例えば、受信装置１のスピーカが出力する音量を大きくするための「音量上げて」といった音声コマンドが受信装置１のローカルコマンド（例えばｖｏｌｕｍｅ＿ｕｐとする）に紐づけられていると、ユーザが「音量上げて」と受信装置１に向かって発すると、受信装置１はｖｏｌｕｍｅ＿ｕｐを実行し、受信装置１のスピーカの音量が大きくなる。ここで、スピーカの音量を大きくするための音声コマンドとしては、「音量上げて」だけでなく、例えば「音上げて」、「ボリュームアップ」、「ボリューム上げて」など様々なバリエーションが考えられる。本実施形態の音声コマンド処理部２は、こうしたバリエーションを同じローカルコマンド（ｖｏｌｕｍｅ＿ｕｐ）に紐づけるために、自然言語処理を使用することもできる。

なお、図１には受信装置１がネットワーク５に一つのみ接続されている例を示しているが、ネットワーク５に複数の受信装置１が接続されていてもよい。また複数の受信装置１は、それぞれ同一の機能を備えている必要はなく、メーカども限定されることはない。

サーバ装置３は、ネットワーク５上に設置される音声認識が可能なサーバであり、例えばＣＰＵやメモリなどを有したコンピュータを含み、ＤＳＰなどのデジタル信号処理手段などを備えていてもよい。サーバ装置３は、クラウドサーバとして構築されることでもよい。サーバ装置３は、音声認識技術を備えている。サーバ装置３は音声認識が可能であり、受信装置１のマイクなどが受波したユーザの音声のデジタルデータである音声データを、ネットワーク５を介して受信し、ユーザの発した音声を推定もしくは認識し、認識した音声をテキストデータ（認識音声データと称する場合もある）として出力する。音声認識技術については、一般的な技術であり、詳細の説明は省略する。

またサーバ装置３は自然言語処理が可能であり、上記した「音上げて」、「ボリュームアップ」、「ボリューム上げて」などの言葉から、言葉の意味に沿った受信装置１のローカルコマンドを取り出すことができる。すなわちサーバ装置３において自然言語処理を利用することで、ユーザは特定の音声コマンドだけでなく、任意の言葉を音声コマンドとすることができる。例えばユーザは「音上げて」、「ボリュームアップ」、「ボリューム上げて」などの言葉を発することで、サーバ装置３を介して受信装置１のローカルコマンド（ｖｏｌｕｍｅ＿ｕｐ）を実行し、スピーカの音を大きくすることができる。なお、サーバ装置３の機能を受信装置１に備えることも可能であるが、自然言語処理はビッグデータなどの大容量データを利用することで性能改善につながることから、クラウドなどにより構築されたサーバ装置３に備えることが望ましい。

また、サーバ装置３は受信装置１のローカルコマンドなどの情報の他、受信装置１のさまざまな情報の入手が可能である。

ネットワーク５は、受信装置１、サーバ装置３などが接続されて通信可能となるネットワークであり、例えば、インターネットである。また、ネットワーク５はインターネットだけとは限らず、各装置が通信可能であれば、有線無線に関わらず複数の異なるネットワークを含むネットワークでもよい。

リモコン１０は、受信装置１を遠隔制御するためのリモートコントローラである。本実施形態におけるリモコン１０は、例えばユーザが発する音声を受波できるマイクなどの音声集音機能を備えていてよい。また、リモコン１０は、受信した音声データを外部送信するための例えば、ＢｌｕｅＴｏｏｔｈ（登録商標）、ＷｉＦｉ（登録商標）などのインターフェース機能を備えていてもよい。

図２は、実施形態に係る受信装置の構成例を示す機能ブロック図である。
チューナ１１は、アンテナやケーブル放送などから所望の周波数帯の電波を受信し、復調処理などにより放送信号（デジタルデータ）を得て、出力する。

放送信号受信処理部１２は、チューナ１１から受信した放送信号を、デジタル放送の規格に応じ処理し、映像、音声、文字などのコンテンツデータを取得し出力する。例えば、デジタル放送の規格としては、２Ｋデジタル放送にて採用されているＭＰＥＧ２ＴＳ方式や、４Ｋ／８Ｋデジタル放送にて採用されているＭＰＥＧＭｅｄｉａＴｒａｎｐｏｒｔ方式（ＭＭＴ方式）などでもよく、複数のチューナにより双方に対応していてもよい。デジタル放送の規格に応じた処理としては、チューナ１１から入力されるデジタルデータを、映像、音声、文字などのコンテンツデータのデジタルデータストリームに分離するデマルチプレクシング処理、誤り訂正符号復号処理、暗号化されたデータを復号する暗号復号化処理、各コンテンツデータに対して施された符号化（映像符号化、音声符号化、文字符号化など）に対する復号化処理などを含む。

通信部１３は、ネットワーク５に接続されてネットワーク５上の各種サーバ及び装置と通信をする。具体的には、例えばＴＣＰ／ＩＰ、ＵＤＰ／ＩＰといった予め決められた通信規約などに応じた送受信処理によりデジタルデータをやり取りする。

コンテンツ処理部１４は、例えばネットワーク５に接続された図示せぬコンテンツサーバが提供するコンテンツデータを、通信部１３を介して受信する。コンテンツ処理部１４は、通信部１３を介して受信したデータに対して、コンテンツサーバが施した符号化処理に対する復号化処理などを実施し、映像、音声、文字などのコンテンツデータを取得し、出力する。より具体的には、コンテンツ処理部１４は、復号化処理として、例えば、デマルチプレクシング処理（分離処理）、誤り訂正符号復号処理、符号化されたコンテンツデータ（映像、文字、音声など）に対する復号化処理などを実施することでもよい。

提示制御部１５は、放送信号受信処理部１２やコンテンツ処理部１４、また記録再生部１９が出力するコンテンツデータに対して出力タイミング、表示方法などを調整し、出力する。記録再生部１９に記録されるデータ内容によっては、記録再生部１９から出力されるデータに対して、デマルチプレクシング処理（分離処理）、誤り訂正符号復号処理、符号化されたコンテンツデータ（映像、文字、音声など）に対する復号化処理などを施した後に提示制御部１５に入力することでもよい。

提示部１６は、例えば、映像や文字を表示するモニタや音声を出力するスピーカなどである。提示部１６は、提示制御部１５が出力したコンテンツデータを映像、文字、音声などとして出力する。ユーザは、提示部１６が出力する映像、文字、音声などを視聴することにより、放送信号や図示せぬコンテンツサーバによって提供されるデジタルコンテンツを視聴する。

制御部１７は、受信装置１の各機能を制御する。具体的には、制御部１７は、インターフェース部１８や音声コマンド処理部２などから各種コマンド信号を受信し、受信した各種コマンド信号に基づいて受信装置１の各機能を制御するための制御信号を出力する。例えば、ユーザが放送信号によるコンテンツを視聴するか、コンテンツサーバからのコンテンツを視聴するかをリモコン１０から指定した場合に、制御部１７は、インターフェース部１８を介してリモコンからのコマンド信号を受信し、受信装置１の機能を制御し、ユーザが指定した動作をさせる。なお、図２において、制御部１７との間で特に結線をしていない機能ブロックとの間においてもデータのやり取りを行うことにしてもよい。

インターフェース部１８は、リモコン１０などからコマンド信号を受信したり、制御部１７などから外部装置へ制御信号を出力したりするためのインターフェースである。例えば、インターフェース部１８は、受信装置１の図示せぬスイッチやリモコン１０などからコマンド信号を受信し、コマンド信号を受信装置１の制御部１７へ出力する。リモコン１０のかわりに図示せぬスマートフォンなどの端末からコマンド信号を受信するインターフェースを有してもよい。また、インターフェース部１８は外部装置と接続するためのインターフェースを有しており、例えば、受信装置１と外付けの記録再生装置を接続するためのインターフェースであってもよい。

また本実施形態におけるインターフェース部１８は、受信装置１の外部から音声を受波するための例えばマイクを含む。インターフェース部１８は、マイクで受波した音声をＡｎａｌｏｇ―Ｄｉｇｉｔａｌ変換（Ａ／Ｄ変換）などによりデジタル化された音声デジタルデータ（音声データと称する場合もある）として出力してもよい。

記録再生部１９は、例えば、ディスクプレーヤやＨＤＤレコーダであり、例えば放送信号やインターネットなどから受信される音声や映像などのコンテンツ―データを記録して、再生することが可能である。なお、図１に示される記録再生部１９は、受信装置１に内蔵されている例を示すが、受信装置１に接続される外部装置であってもよく、例えばコンテンツデータの録画及び再生ができるＳｅｔＴｏｐＢｏｘ（ＳＴＢ）、音声プレーヤ、ＰＣなどであってもよい。

データ格納部１０１は、例えばメモリであり、各種データを格納するためのデータベースであってもよい。データ格納部１０１は、受信装置１の視聴情報や視聴情報から得られた解析結果や型番や各種機能性能など受信装置１に固有の情報（受信装置データと称する場合もある）を格納する。

音声コマンド処理部２は、インターフェース部１８から受信した音声データをサーバ装置３へ通信部１３を介して出力し、サーバ装置３からローカルコマンドデータに係る情報を受信する。また、本実施形態の音声コマンド処理部２は、サーバ装置３から入手したローカルコマンドデータに係る情報に基づいて制御信号を生成し、生成した制御信号を制御部１７などに出力する。

図３は、実施形態に係る音声コマンド処理部の構成例を示す機能ブロック図である。

音声認識部２１は、インターフェース部１８から入力される音声データから、音声認識を実施し、テキストデータを出力する。音声認識技術においては、通常、ｈｉｄｄｅｎｍａｌｋｏｖｍｏｄｅｌ（ＨＭＭ：隠れマルコフモデル）という方法を用いるが、文章の「文字列」を対象にＨＭＭを適用する特定文字列認識方式と、文章の「１文字」ごとにＨＭＭを適用する文字起こし方式との２つの方式がある。本実施形態においては、双方の方式の適用が可能である。音声認識部２１は、文字起こし方式の場合は任意の文字列の検出が可能であり、特定文字列認識方式の場合は随時その認識対象文字列を変更したり、増やしたりすることが可能である。

判定部２２は、音声認識部２１が出力するテキストデータが、ローカル音声コマンドデータベース部２７に格納されているか否かを確認する。判定部２２は、テキストデータに相当する音声コマンドのデータ（ローカル音声コマンドのデータ）があることを確認した場合、確認したローカル音声コマンドを音声コマンドとみなし、音声コマンドに紐づけられたローカルコマンドを実行させるための制御信号などを制御部１７に出力する。ローカル音声コマンドとは、受信装置１のローカルコマンドに紐づけられて、ローカル音声コマンドデータベース部２７に格納されている音声コマンドである。なお例えば、音声認識を起動させるためのウェイクアップ音声などをローカル音声コマンドとして受信装置１にあらかじめ備えられていてもよい。

ローカルコマンド処理部２３は、判定部２２の制御信号に基づいて、ローカル音声コマンドと紐づいているローカルコマンドや、サーバデータ取得部２４から取得したサーバコマンド情報に紐づいているローカルコマンドなどを制御部１７に出力する。

サーバデータ取得部２４は、サーバ装置３に対してサーバコマンド情報を要求し、サーバ装置３からサーバコマンド情報を受信する。サーバコマンド情報は、ローカル音声コマンドを生成するための情報であり、サーバ装置３が、入力された音声データもしくはその音声データを音声認識して得た音声コマンドに基づいて選択した受信装置１のローカルコマンドを含む。

サーバコマンドデータベース部２５は、例えばメモリであり、サーバ装置３から受信したサーバコマンド情報などを格納するデータベースであってよい。

ローカル音声コマンド生成部２６は、サーバコマンドデータベース部２５に格納されているサーバコマンド情報からローカル音声コマンドの情報を生成する。ローカルコマンド処理部２６は、ローカル音声コマンドを生成する際に、音声コマンドの使用頻度や、コマンド処理の優先度などを考慮することでもよい。音声コマンドの使用頻度は、例えばサーバコマンドデータベース部２５などに登録されている音声コマンドを音声認識部２１が受信もしくは認識する度にカウントされる値としてもよい。

高頻度フィルタ２６１は、ローカル音声コマンド生成部２６がサーバコマンド情報からローカル音声コマンドを生成する際に用いるフィルタである。具体的には、高頻度フィルタ２６１は、例えば音声認識部２１がサーバコマンドデータベース部２５などに登録されている音声コマンドを受信する度に、音声コマンドごとに取得頻度（使用頻度）をカウントする。高頻度フィルタ２６１は、カウント情報をサーバコマンドデータベース部２５もしくはローカル音声コマンドデータベース部２７などに格納保存する。高頻度フィルタ２６１は、カウントした使用頻度に基づいてサーバコマンドデータベース部２５のデータから少なくとも１つのローカル音声コマンドの情報を抽出する。高頻度フィルタ２６１によって抽出された音声コマンドは、ローカル音声コマンドとしてローカルコマンドに紐づけられてローカル音声コマンドデータベース部２７に格納される。

ローカル音声コマンドデータベース部２７は、例えばメモリであり、ローカル音声コマンド生成部２６が出力したローカル音声コマンドや紐づけられたローカルコマンドなどを含む情報が格納されるデータベースであってよい。

図４は、実施形態に係るサーバ装置の構成例を示す機能ブロック図である。

通信部３１は、受信装置１、サーバ装置３などネットワーク５上の装置などとデータ通信をするためのインターフェースであり、例えばＴＣＰ／ＩＰ、ＵＤＰ／ＩＰといったプロトコルを備えている。

制御部３２は、サーバ装置３内の各種機能を制御する。通信部３１を介して外部装置から各種制御信号などの各種データを受信し、必要に応じて解析、加工し、サーバ装置３内部の各機能ブロックに出力する。また、サーバ装置３内部の各機能ブロックから各種データを受信し、必要に応じてデータのブロック化、フォーマット化などを行い、通信部３１へ出力する。

テキスト変換部３３は、例えばユーザが発した音声データを音声認識し、認識した音声をテキストデータ（認識音声データと称する場合もある）として出力する。受信装置１の音声認識部２１と同様の機能であってもよい。

自然言語処理部３４は、テキスト変換部３３から入力されたテキストデータに対して自然言語処理を実施し、テキストデータが意味する処理に相当するサーバコマンド（ローカルコマンドに相当）を生成または選択する。自然言語処理においては、テキストデータの文章の構成や意味が解析され、例えば、サーバ装置３のサーバコマンドデータ格納部３８２などに格納されている音声コマンドや受信装置１のローカルコマンドなどのデータ群からテキストデータに類似のデータを抽出する。

サーバコマンド生成部３５は、テキスト変換部３３が出力するテキストデータ（音声コマンドに相当）と、そのテキストコマンドに対して自然言語処理部３４によって抽出された受信装置１のローカルコマンドとを紐づけたサーバコマンド情報を作成する。自然言語処理部３４によって抽出された受信装置１のローカルコマンドをサーバコマンドと称することもある。

応答音声生成部３６は、入力されたテキストコマンドが、受信装置１のスピーカから音声によってフレーズを出力させるような音声コマンドである場合に、例えば、そのフレーズの音声データを生成することでもよい。音声データを生成するために音声合成などの処理を備えていてもよい。例えば、サーバコマンド生成部３５は、「スピーカから音声を出力させるための受信装置１のローカルコマンド」を抽出した場合に、抽出したローカルコマンドとともに応答音声生成部３６が生成した「フレーズの音声データ」などを含めたサーバコマンド情報を生成することでもよい。受信装置１は、サーバコマンド生成部３５が生成したサーバコマンド情報を受信すると、提示部１６のスピーカから「フレーズの音声データ」が出力され、音声としてユーザに提示されることでもよい。受信装置１は、受信した「スピーカから音声を出力させるための受信装置１のローカルコマンド」とともに、受信した「フレーズの音声データ」を紐づけてローカル音声コマンドデータベース部２７に格納することでもよい。すなわち音声情報である「フレーズの音声データ」をローカルコマンドに紐づけてデータベースに格納する。これにより音声コマンド処理部２は、ユーザから音声コマンドを受信すると、ローカル音声コマンドデータベース部２７にて音声コマンドに紐づけられたローカルコマンド「スピーカからフレーズ１を音声として出力」を実行し、ローカルコマンドに紐づけられたフレーズ１「フレーズの音声データ」を提示部１６のスピーカから出力させることができる。

また、音声合成の機能は受信装置１側に備えることでもよい。この場合、サーバコマンド生成部３５は、抽出した「スピーカから音声を出力させるための受信装置１のローカルコマンド」とともに音声として出力するフレーズのテキストデータを受信装置１に送信する。受信装置１は、受信したフレーズのテキストデータから音声合成などにより音声データを生成し、同時に受信したローカルコマンドに応じた処理を実施する。例えば、受信装置１は、ローカルコマンド「受信したフレーズをスピーカから出力」とともにフレーズのテキストデータ「こんにちは」を受信した場合、「こんにちは」の音声データを生成し、スピーカから出力する。受信装置１は、受信したフレーズのテキストデータをローカルコマンドとともにローカル音声コマンドデータベース部２７に保存することでもよい。これにより音声コマンド処理部２は、ユーザから音声コマンドを受信すると、ローカル音声コマンドデータベース部２７にて音声コマンドに紐づけられたローカルコマンド「スピーカからフレーズ１を音声として出力」を実行し、ローカルコマンドに紐づけられた「フレーズのテキストデータ」を音声合成などにより音声データにして、提示部１６のスピーカから音声として出力させることができる。

また、受信装置１、サーバ装置３ともに音声合成の機能を備えている場合、サーバコマンド生成部３５は、抽出した「スピーカから音声を出力させるための受信装置１のローカルコマンド」とともに音声として出力するフレーズのテキストデータとその音声データとを受信装置１に送信することでもよい。受信装置１は、ローカルコマンド（サーバコマンド）に応じて音声データを処理してもよいし、テキストデータを音声合成などにより音声データにして処理してもよい。

固有データ格納部３７は、例えばメモリであり、受信装置１に関するデータを格納するためのデータベースであってもよい。またネットワーク５に複数の受信装置１が接続されて、サーバ装置３を複数の受信装置１で共有する場合には、固有データ格納部３７には、複数の受信装置１のデータが受信装置１ごとに格納されることでもよい。固有データ格納部３７に格納されるデータは、ネットワーク５を経由して受信装置１から取得されることでもよい。

受信装置データ格納部３７１には、受信装置１から送信された受信装置１に固有情報が格納されており、例えば以下のようなデータが格納されている。
・受信装置１の型番や各種機能性能（録画機能等）
・受信装置１が現在表示中のチャンネル情報（放送番組、録画再生などの外部入力、ネットワーク５などコンテンツの区別も含めてもよい）
・受信装置１が受信可能な放送局の情報（チャンネル番号、放送局名など）
・受信装置１が録画可能な番組の録画予約情報
・受信装置１が録画した録画済みコンテンツ情報
ローカルコマンドデータ格納部３７２には、受信装置１が固有に備えているローカルコマンドの情報が格納されている。ローカルコマンドの情報は、受信装置１から個々にネットワーク５経由で取得して、受信装置１ごとにローカルコマンドデータ格納部３７２格納してもよい。またローカルコマンドの情報は、複数の受信装置１が同一の製品である場合は備えられているローカルコマンドが同じであることから、サーバ装置３の管理者がサーバ装置３に直接入力することでもよい。ネットワーク５に接続されたその受信装置１の製品情報を公開している図示せぬ製品情報サーバなどが設置されている場合は、サーバ装置３が製品情報サーバからネットワーク５経由でローカルコマンドの情報を取得することでもよい。

共通データ格納部３８は、ネットワーク５に複数接続されている受信装置１に共通に使用可能なデータのデータベースであってよい。

共通情報データ格納部３８１には、ネットワーク５に接続されている外部装置などから取得可能なデータのデータベースであってよい。例えば、デジタル放送で視聴可能な番組表の情報などである。番組表などは受信装置１が放送信号から取得可能な場合は、サーバ装置３が受信装置１からネットワーク５経由で番組表を取得することでもよい。

サーバコマンドデータ格納部３８２は、サーバコマンド生成部３５が生成したサーバコマンド情報が格納されているデータベースであってもよい。またサーバコマンド生成部３５が、サーバコマンド情報を生成する際に、参照データとしてサーバコマンドデータ格納部３８２のデータベースを利用することでもよい。

（第１の実施形態）
本実施形態においては、ユーザから受信した音声データに対してサーバ装置３など外部装置の音声認識を用いて得た音声コマンドを受信装置１に蓄積して、蓄積した音声コマンド（ローカル音声コマンド）によって受信装置１のローカルコマンドを実行する例について説明する。

図５は、第１の実施形態に係る音声コマンド処理部が処理可能な音声コマンドの例を示す図であり、行ごとに受信装置１で使用可能な音声コマンド、左の音声コマンドによって実行可能なローカルコマンド、左のローカルコマンドによって受信装置１において実行されるコマンド処理を示している。

例えば、Ｎｏ１の行の例では、音声コマンド「電源を入れて」が音声コマンド処理部２で認識されると、ローカルコマンド「ｐｏｗｅｒ＿ｏｎ」が制御部１７に出力され、制御部１７が「ｐｏｗｅｒ＿ｏｎ」を実行することで、コマンド処理「テレビの電源を付ける」が実行される。従って、ユーザが「電源を入れて」と発声すると、テレビ（受信装置１）の電源がＯＮになる。

本実施形態においては、１つのローカルコマンドに対して複数の音声コマンドを紐づけることができる。例えば、図５のＮｏ２、３、４の音声コマンドはローカルコマンド「ｐｏｗｅｒ＿ｏｎ」に紐づけられており、受信装置１のローカルコマンド「ｐｏｗｅｒ＿ｏｎ」に対して複数の音声コマンドが使用可能である。Ｎｏ５から８の音声コマンドは、ローカルコマンド「ｖｏｌｕｍｅ＿ｕｐ」に紐づけられており、Ｎｏ５から８の音声コマンドをユーザが発することにより、受信装置１においてコマンド処理「テレビのボリュームを上げる」が実行される例である。

以下、図面を用いて、本実施形態の動作を説明する。

図６は、同第１の実施形態に係る音声コマンド処理部による音声信号の処理動作例を示すフローチャートである。

ユーザが音声コマンドを発すると、インターフェース部１８のマイクを通じて、音声データが音声コマンド処理部２に入力される（ステップＳ１０１）。音声データは、音声認識部２１に入力され、音声認識によりテキストデータに変換される（ステップＳ１０２）。テキストデータは判定部２２に入力され、判定部２２は、ローカル音声コマンドデータベース部２７に入力されたテキストデータに相当するローカル音声コマンドがあるかどうかを確認する（ステップＳ１０３）。判定部２２は、ローカル音声コマンドデータベース部２７に入力されたテキストデータに相当するローカル音声コマンドがあると判定した場合、そのローカル音声コマンドに紐づけられているローカルコマンドを制御部１７に出力する（ステップＳ１０３のＹＥＳ）。制御部１７は、入力されたローカルコマンドを実行する（ステップＳ１０４）。ステップＳ１０３において、判定部２２に入力されたテキストデータとローカル音声コマンドデータベース部２７のローカル音声コマンドとが完全に一致した場合をＹＥＳとする条件としてもよいし、多少異なっていてもＹＥＳとしてもよい。ステップＳ１０３における条件はユーザが設定できることでもよい。

一方、判定部２２はテキストデータに相当するローカル音声コマンドがないと判定した場合、テキストデータを取得した音声データとともに音声コマンド認識要求をサーバデータ取得部２４からサーバ装置３に出力する（ステップＳ１０５）。サーバデータ取得部２４はサーバ装置３からサーバコマンド情報を受信する（ステップＳ１０６）。

図７は、同第１の実施形態に係る受信装置のローカル音声コマンドデータベース部におけるデータベースの一例を示す図であり、図７（ａ）は、行ごとに受信装置１が受信した音声コマンド、左の音声コマンドによって実行可能な受信装置１のローカルコマンド、左のローカルコマンドによって受信装置１において実行されるコマンド処理を示している。一番右のＦｌａｇは、サーバ装置３が同行の音声コマンドについて付与するフラグ情報である。例えば、図７（ａ）におけるＦｌａｇは、同じ行の音声コマンドに対して、条件に基づいてサーバ装置が判断した有効（ＯＫ）、無効（ＮＧ）を示している。例えば、図７（ａ）のＮｏ５やＮｏ９は、サーバ装置３でローカルコマンドに紐づけできなかった音声コマンドを示しており、Ｆｌａｇ＝ＮＧとしている。Ｆｌａｇを付与するための条件は、上記に限定されることなく任意であり、またＦｌａｇの値はＯＫ、ＮＧなど２値で表せる値でなくともよい。なお、サーバ装置３が、入力された音声コマンドをＮｏ５やＮｏ９のようにサーバ側で認識できない（対応するローカルコマンドを見つけられなかった）場合、ｒｅｔｒｙに相当するようなローカルコマンド（サーバコマンド）や、「もう一度話してください」などの応答メッセージを提示させるローカルコマンド（サーバコマンド）を受信装置１に返すことでもよい。受信装置１は、受信したサーバコマンドに応じて、処理を実施したり、ユーザによる命令を待ったりすることでもよい。

図６に戻り、ステップＳ１０６においてサーバ装置３から受信するサーバコマンド情報は、図７（ａ）に示す音声コマンド１行分でもよいし、複数行分であってもよい。

例えば、サーバデータ取得部２４が、音声コマンド１行分として図７（ａ）のＮｏ３のみが含められたサーバコマンド情報を受信した場合について説明する。サーバデータ取得部２４は、サーバコマンド情報に含まれるローカルコマンド「ｐｏｗｅｒ＿ｏｎ」を制御部１７に出力して、ローカルコマンド「ｐｏｗｅｒ＿ｏｎ」を実行させる。また同時にサーバデータ取得部２４は、サーバコマンドデータベース部２５にＮｏ３のみを含むサーバコマンド情報を出力する。サーバコマンドデータベース部２５は入力されたサーバコマンド情報をデータベースに格納する（ステップＳ１０７）。ローカル音声コマンド生成部２６は、サーバコマンドデータベース部２５に格納されたサーバコマンド情報に含まれる音声コマンドが、ローカル音声コマンドデータベース部２７にすでに格納されているか否かを確認し、確認されていなければ、サーバコマンド情報に含まれる音声コマンドをローカル音声コマンドとしてローカル音声コマンドデータベース部２７に格納する（ステップＳ１０８のＮＯ、ステップＳ１０９）。

図７（ｂ）は、ローカルコマンドごとに頻度を基準として１つずつ抽出した場合のローカル音声コマンドのデータを示している。図７（ｂ）は、Ｎｏ３のローカルコマンド「ｐｏｗｅｒ＿ｏｎ」に対するローカル音声コマンドとして「テレビが見たい」が選択され、Ｎｏ２のローカルコマンド「ｖｏｌｕｍｅ＿ｕｐ」に対するローカル音声コマンドとして「ボリュームアップ」が選択された例を示している。

また、サーバコマンドデータベース部２５に格納されているデータベースから音声コマンドの使用頻度を利用してローカル音声コマンドデータベース部２７のデータベースを作成することもできる。

図８は、同第１の実施形態に係る音声コマンド処理部がローカル音声データを作成する処理動作例を示すフローチャートである。
図７（ａ）のデータがサーバコマンドデータベース部２５に格納されているものとする。ユーザが音声コマンドを発すると、インターフェース部１８のマイクを通じて、音声データが音声コマンド処理部２に入力される（ステップＳ１２１）。音声データは、音声認識部２１に入力され、音声認識によりテキストデータに変換される（ステップＳ１２２）。テキストデータは高頻度フィルタ２６１に入力され、高頻度フィルタ２６１は、サーバコマンドデータベース部２７に入力されたテキストデータに相当する音声コマンドがあるかどうかを確認する（ステップＳ１２３）。高頻度フィルタ２６１は、テキストデータに相当する音声コマンドをサーバコマンドデータベース部２７に見つけた場合、その音声コマンドに対して使用頻度としてプラス１をカウントする（ステップＳ１２４）。

図９は、同第１の実施形態に係る音声コマンド処理部に格納されるローカル音声データの一例であり、音声コマンドごとに使用頻度を付与したデータの例を示している。例えばＮｏ１の音声コマンド「電源を入れて」の使用頻度は５回であり、Ｎｏ８の音声コマンド「ボリュームアップ」の使用頻度は４５回であることを示している。

図８に戻り、高頻度フィルタ２６１は、使用頻度を基準にして、サーバコマンドデータベース部２７に蓄積された音声コマンドからローカルコマンドごとにローカル音声コマンドを選択する（ステップＳ１２５）。高頻度フィルタ２６１によって抽出された音声コマンドは、ローカル音声コマンドとしてローカル音声コマンドデータベース部２７に格納される（ステップＳ１２６）。ローカル音声コマンドデータベース部２７においてローカル音声コマンドは、図７（ｂ）のように格納されることでもよい。

以上の手順により、ユーザから受信した音声データに対して外部（サーバ装置３）の音声認識を用いて得たサーバコマンド情報を受信装置１に蓄積し、蓄積したサーバコマンド情報から抽出した音声コマンド（ローカル音声コマンド）によって受信装置１のローカルコマンドを実行することができる。

以下、本実施形態におけるサーバ装置３の動作例を示す。

図１０は、同第１の実施形態に係るサーバ装置による音声データの処理動作例を示すフローチャートであり、音声コマンド処理部２の処理である図６のステップＳ１０５、Ｓ１０６の間のサーバ装置３の処理動作例を示す。

音声コマンド処理部２が音声データとともに音声コマンド認識要求を送信する（図６のステップＳ１０５）。サーバ装置３の制御部３２は音声コマンド認識要求を受信すると、同時に受信した音声データをテキスト変換部３３に出力する（ステップＳ１５１）。テキスト変換部３３は、音声データを音声認識し、テキストデータに変換し、自然言語処理部３４に出力する（ステップＳ１５２）。自然言語処理部３４は、入力されたテキストデータに対して自然言語処理を実施し、テキストデータが意味する処理に相当するローカルコマンドがローカルコマンドデータ格納部３７２に格納されているかどうかを確認する（ステップＳ１５３）。

図１１は、同第１の実施形態に係るサーバ装置に格納されるデータベースの一例であり、サーバ装置３のローカルコマンドデータ格納部３７２に格納されている受信装置１のローカルコマンドに関わるデータの例である。図１１のように行ごとに受信装置１の「ローカルコマンド」とそのコマンドが実行する「コマンド処理」が格納されていてもよい。

図１０に戻り、自然言語処理部３４は、入力されたテキストデータから抽出した意味などを図１１のデータと比較して、入力されたテキストデータの意味に近いローカルコマンドを選択する（ステップＳ１５４）。テキストデータに相当するローカルコマンドが見つかった場合、サーバコマンド生成部３５は、Ｆｌａｇに「ＯＫ」を示す例えば１の値を設定し、Ｆｌａｇを含めてサーバコマンド情報を作成する（ステップＳ１５５）。サーバコマンド生成部３５はサーバコマンド情報を通信部３１から受信装置１に送信する（ステップＳ１５６）。受信装置１においては、音声コマンド処理部２がサーバコマンド情報を受信する（図６のステップＳ１０６）。

以上の手順により、音声コマンド処理部２は、受信した音声コマンドに対応できない場合においても、サーバ装置３からサーバコマンド情報を取得することで、音声コマンドを実行することが可能となる。また音声コマンド処理部２は、サーバコマンド情報を自身のメモリなどに蓄積することで、同様の音声コマンドを受信した場合にサーバ装置３を介することなくその音声コマンドを利用できる。

図１２は、同第１の実施形態に係る音声コマンド処理部が、複数のユーザから受信した音声コマンドを処理するためのデータベースの一例であり、１つの受信装置１を複数のユーザが使用する場合のデータベースの例である。本データベースはサーバコマンドデータ格納部３８２に格納されることでもよい。

音声コマンド処理部２において、ローカル音声コマンドの生成に高頻度フィルタ２６１を用いる場合、ユーザを識別しないと、テレビの視聴頻度の高いユーザの音声コマンドのみがローカル音声コマンドとして登録されてしまうことがある。

図１２（ａ）は、受信装置１が音声コマンドを発するユーザを識別できる場合のローカルコマンドに対する音声コマンドのデータベースの例である。本例のように識別したユーザごとに音声コマンドをデータベース化し、それぞれの音声コマンドに対して使用頻度をカウントし、ユーザごとに高頻度フィルタ２６１を適用することで、ユーザごとに使用頻度を考慮したローカル音声コマンドを生成することができる。図１２（ｂ）は、図１２（ａ）の音声コマンドにおける全てのユーザの音声コマンドを合わせた場合のデータベースの一例であり、図９に示した例と同様のデータベースである。

図１３は、同第１の実施形態に係る音声コマンド処理部が処理可能な音声コマンドの例を示す図であり、音声コマンド処理部２で補完ができるローカル音声コマンドの例である。行ごとに音声コマンドの「実行日」、左の実行日に実行された「音声コマンド」、左の音声コマンドによって処理される「サーバコマンド」（受信装置１のローカルコマンドに相当）、左のサーバコマンドによって処理される「コマンド処理」、左のサーバコマンドがキャッシュできる情報か否かを示す「キャッシュ可否」を示す。

なお、「キャッシュ可否」情報には、音声コマンドに対するサーバコマンドが常に固定の応答となるような場合にキャッシュすることを示す情報を設定することでもよい。一方、音声コマンドに対するサーバコマンドが、例えば「今見ている番組の名前を教えて」などのようにその場限りの（例えば日時に依存するような）応答となる場合は、そのサーバコマンドをキャッシュしないことを示す情報を設定することでもよい。また「キャッシュ可否」情報は、図７に示したデータベースにおける「Ｆｌａｇ」としてもよく、その場合は、サーバ装置３がサーバコマンドを「キャッシュする」と判断する場合はＦｌａｇをＴｒｕｅとし、「キャッシュしない」と判断する場合はＦｌａｇをｆａｌｓｅとして示すことでもよい。

Ｎｏ１の行は、ユーザが例えば実行日「１月８日」に、音声コマンド「今日は何月何日か？」を発した場合に、受信装置１において、音声コマンド処理部２が音声コマンド認識要求によりサーバ装置３からサーバコマンド「音声応答「１月８日です」」を受信した場合の例である。音声コマンド処理部２は受信したサーバコマンド（ローカルコマンドでもある）を制御部１７に出力すると、制御部１７はコマンド処理「スピーカから「１月８日です」と音声出力する」を実行し、提示部１６のスピーカから「１月８日です」と音声が出力される。

しかしながら、サーバコマンド「音声応答「１月８日です」」は実行日が変わると応答内容が変わる。すなわちＮｏ１の行のキャッシュ可否を「ＮＧ」としているように、サーバコマンド「音声応答「１月８日です」」はキャッシュができないもしくはキャッシュの意味のない情報であるとみなされることがある。

そこでサーバ装置３は、Ｎｏ２の行のように「音声応答「＄Ｍｏｎｔｈ月＄Ｄａｔｅ日です」」のように変動の可能性のある部分を変数にしてサーバコマンド（変数化されたサーバコマンドと称する）を作成する。なお、サーバコマンドの変数化は、サーバ装置３が実施してもよいし、音声コマンド処理部２が実施してもよい。音声コマンド処理部２が実施する場合は、例えば、Ｎｏ１の行のサーバコマンドを受信した場合、サーバコマンド「音声応答「１月８日です」」をサーバコマンドデータベース部２５に格納し、ローカル音声コマンド生成部２６が、ローカル音声コマンド「今日は何月何日か？」に対するローカルコマンドとして「音声応答「＄Ｍｏｎｔｈ月＄Ｄａｔｅ日です」」を紐づけするようにしてもよい。これにより、Ｎｏ３の行のように、ユーザが実行日「２月１８日」に音声コマンド「今日は何月何日か？」を発した場合に、音声コマンド処理部２は紐づけられたローカルコマンドと「音声応答「＄Ｍｏｎｔｈ月＄Ｄａｔｅ日です」」と放送信号などから得た日付情報とに基づいて、提示部１６のスピーカから「２月１８日です」と音声応答させたり、モニタに表示させたりすることが可能となる。受信装置１または音声コマンド処理部２は、合成音声などの音声を生成することが可能であってもよい。

Ｎｏ２、Ｎｏ３の行の変数化されたサーバコマンドは、実行日に依存しないため、項目「キャッシュ可否」は双方ともに「ＯＫ」としてキャッシュを可能とすることでもよい。なお、図１３には日付に依存するローカルコマンドの例を示したが、本例に限定されず、例えば、日時、季節、前後の文脈などに依存するローカルコマンドについても同様に音声コマンド処理部２で補完が可能である。

以上の手順により、ユーザから受信した音声データに対してサーバ装置３（クラウドサーバなど）の音声認識を用いて認識された音声コマンドとローカルコマンドを紐づけすることで、受信装置１が対応できなかった音声コマンドによって受信装置１のローカルコマンドを実行することができる。

一般的に、クラウドサーバなどによる音声認識は、音量ＵＰ処理を実現するための音声コマンドとして「音量上げて」「音上げて」「ボリュームアップ」「ボリューム上げて」などユーザの発話の揺れを吸収する役目をもっている。しかし、実際には１人のユーザが利用しているときに発話の揺れはあまりなく、一定の表現で発話されることが多い。このような場合、音声コマンドの使用頻度を基準とする高頻度フィルタ２６１により、よく使う発話（音声コマンド）とそれに対応する処理（ローカルコマンド）の組み合わせを特定し、１つのローカルコマンドに複数の音声コマンドをローカル音声コマンドとして設定することで、ユーザごとのローカル音声コマンドが設定可能となる場合がある。この場合、図１２（ａ）のようにユーザごとに区別する必要なく、図９に示した受信装置１ごとに受信した音声コマンドを蓄積し、蓄積した音声コマンドに対して高頻度フィルタ２６１を適用することでユーザ識別もなされる場合がある。また、ローカル音声コマンドやローカルコマンドとの紐づけ情報などを受信装置１もしくは音声コマンド処理部２に設定、蓄積していくことで、受信装置１もしくは音声コマンド処理部２は、よく使う発話を高速に検出して、自然言語処理を使用せずに自然言語処理に相当する処理が可能となり、自律的に目的の処理を行わせることが可能となる。これによりサーバ装置３を介する必要がなくなり、受信装置１もしくは音声コマンド処理部２における音声認識などの処理時間の短縮などにつなげることもできる。さらに、本実施形態による受信装置１もしくは音声コマンド処理部２に設定された発話内容（ローカル音声コマンド）は、その後オフラインでの使用も可能になる。

（第２の実施形態）
本実施形態においては、サーバ装置３が認識（または受信としてもよい）１つの音声コマンドに対して生成したサーバコマンドが、複数のローカルコマンドに関連づけられる場合の例を示す。具体的には、ローカル音声コマンド生成部２６が、条件設定部２６２に設定された優先度に基づいて、１つの音声コマンドに紐づけるローカルコマンドの処理を決定する。

図１４は、第２の実施形態に係る音声コマンド処理部に格納されたサーバコマンド情報の例であり、サーバ装置３が受信した音声コマンド「キリンが見たい」と、音声コマンド「キリンが見たい」に対してサーバコマンド生成部３５が生成または取得したサーバコマンド「番組Ｋを出力」と、サーバコマンド「番組Ｋを出力」に対して受信装置１で可能なローカルコマンドのコマンド処理を４つ示している。さらにコマンド処理ごとにその頻度、優先度を同じ行に示している。

ローカル音声コマンド生成部２６は、優先度に基づいてサーバコマンド「番組Ｋを出力」に対するコマンド処理を決定する。

ローカル音声コマンド生成部２６は、優先度順にコマンド処理を実行するように音声コマンドに紐づけてローカル音声コマンドデータベース部２７に格納することでもよい。例えば図１４において、優先度がＮｏ４、Ｎｏ２、Ｎｏ３、Ｎｏ１の行の順で高く設定されていることから、Ｎｏ４、Ｎｏ２、Ｎｏ３、Ｎｏ１の行の順でコマンド処理を実行する。より具体的には、ユーザが「キリンが見たい」と発すると、音声コマンド処理部は、まずＮｏ４の行のコマンド処理「放送番組Ｋを表示する」の実行をする。もし実行時に放送番組Ｋが放送されていれば、「放送番組Ｋを表示する」ことは可能であるが、放送番組Ｋが放送されていなければ、「放送番組Ｋを表示する」ことはできない。従って、条件によって音声コマンドに紐づけられたコマンド処理が実行できたり、できなかったりする。Ｎｏ４の行のコマンド処理が実行できない場合、次の優先度を持つＮｏ２の行のコマンド処理の実行をする。以下同様に、条件や環境などを考慮して優先度順にコマンド処理を実行していく。コマンド処理に対する優先度などの条件はユーザがリモコンから設定することでもよい。

以上の手順により、受信装置１や受信装置１内部の各種機能部などの条件によってユーザが発した音声コマンドに複数のローカルコマンド（コマンド処理）を紐づけることができる。また紐づけたコマンド処理に優先度を付与し、例えば優先度順にコマンド処理を実行可能にすることによって、ユーザの発した音声コマンドに対して、より最適なコマンド処理が可能となる。なお、優先度順に複数のコマンド処理を実行するのではなく、最も優先度の高い１つのコマンド処理を１つの音声コマンドに紐づけることでもよい。優先度をどのように紐づけに利用するかは、ユーザがリモコンなどから設定できることでもよいし、ネットワーク５に接続された図示せぬサーバから紐づけに関わる情報をダウンロードすることでもよい。また、図１４に示した頻度は、コマンド処理の使用頻度でもよく、例えば制御部１７などがコマンド処理の頻度をカウントしておき、ローカル音声コマンド生成部２６がこの頻度に基づいて優先度を決定することでもよい。

（第３の実施形態）
本実施形態においては、サーバ装置３が１つの音声コマンドに対して複数のサーバコマンドを生成した場合の例を示す。

図１５は、第３の実施形態に係る音声コマンド処理部に格納されるデータベースの例であり、音声コマンド「今の天気は？」に対して、サーバ装置３が３つのサーバコマンドを生成した場合のデータの例である。図１５において、サーバコマンドごとにサーバコマンドによるコマンド処理、頻度、ｅｘｐｉｒｅｄ（期限）を行ごとに示している。

頻度は、サーバコマンドの使用頻度でもよく、受信装置１側で決定してもサーバ装置３側で決定してもよい。サーバ装置３側で決定する場合には、例えば、サーバコマンドデータ格納部３８２のデータベースを利用して複数の受信装置１からの情報を利用して、決定することでもよい。また受信装置１側でカウントしたサーバコマンド（ローカルコマンドに相当）の使用頻度をサーバ装置３に提供することで、サーバ装置３が、複数の受信装置１からの頻度情報に基づいて頻度を決定することができる。複数の受信装置１からの頻度情報を一括して利用するのではなく、受信装置１の頻度を個々に利用して、受信装置１ごとにサーバコマンドまたはローカルコマンドを決定することでもよい。

本実施例においては、頻度の大きさを優先度として利用し、ローカル音声コマンド生成部２６は、基本的には頻度の大きさの順番で受信装置１が実行するコマンド処理を決定するが、ｅｘｐｉｒｅｄという条件をも考慮する。ｅｘｐｉｒｅｄは、コマンド処理の有効期限を示し、例えば、図１５のＮｏ１のｅｘｐｉｒｅｄ「２０２１／１／２０：００」は、Ｎｏ１のサーバコマンドおよびコマンド処理が「２０２１年１月２日の０：００時まで有効である」ということを示す。Ｎｏ１のサーバコマンド「音声応答「晴れのち曇り」」は日時に依存するコマンドであることからｅｘｐｉｒｅｄの条件が付与された例である。なお、「ｅｘｐｉｒｅｄ」は、図７に示したデータベースにおける「Ｆｌａｇ」としてもよく、その場合は、サーバ装置３がサーバコマンドの有効期限「ｅｘｐｉｒｅｄ」を判断し、サーバコマンドが有効期限内である場合はＦｌａｇをＴｒｕｅとし、サーバコマンドが有効期限を外れている場合はＦｌａｇをｆａｌｓｅとして示すことでもよい。

本実施例においては、「２０２１／１／２０：００」より前にユーザが音声コマンド「今の天気は？」を発した場合は、受信装置１においてＮｏ１のコマンド処理が実行される。しかし、「２０２１／１／２０：００」より後にユーザが音声コマンド「今の天気は？」を発した場合は、次に頻度の高いＮｏ３のコマンド処理が実行される。優先度の利用の仕方などは第２の実施形態に示した方法も適用可能である。また、Ｎｏ１のコマンド処理において、「晴れのち曇りです」の部分は、第１の実施形態で示した変数化が可能である。変数化した場合、音声コマンド処理部２は、ユーザから音声コマンド「今の天気は？」を受信した場合、ｅｘｐｉｒｅｄに関わらず、放送信号やネットワーク５上の図示せぬサーバなどから最新の天気情報を参照して、最新の天気情報を提示部１６のスピーカから音声出力させるようにしてもよい。

図１６は、同第３の実施形態に係るサーバ装置が、複数のサーバコマンドから選択して音声コマンド処理部にサーバコマンドを送信する際の処理動作例を示すフローチャートであり、サーバ装置３が受信装置１などの外部装置から得た情報を利用して複数のサーバコマンドからサーバコマンドを選択して音声コマンド処理部に出力する例である。

サーバ装置３の制御部３２は、音声コマンド処理部２が送信した音声コマンド認識要求を受信すると、同時に受信した音声データをテキスト変換部３３に出力する（ステップＳ２５１）。テキスト変換部３３は、音声データを音声認識し、テキストデータに変換し、自然言語処理部３４に出力する（ステップＳ２５２）。自然言語処理部３４は、入力されたテキストデータに対して自然言語処理を実施し、テキストデータが意味する処理に相当するローカルコマンドの情報がローカルコマンドデータ格納部３７２や共通データ格納部３８に格納されているかどうかを確認する。（ステップＳ２５３）。サーバコマンド生成部３５は、自然言語処理部３４により確認されたローカルコマンドの情報を取得する（ステップＳ２５４）。サーバコマンド生成部３５は、取得したローカルコマンドの情報に基づいて、サーバコマンドを生成する。生成したサーバコマンドが複数ある場合、サーバコマンド生成部３５は、固有データ格納部３７から受信装置１の固有情報を取得する（ステップＳ２５５のＹＥＳ、Ｓ２５６）。サーバコマンド生成部３５は、受信装置１の固有情報やに基づいて複数のサーバコマンドから受信装置１に送信するサーバコマンドを選択する（ステップＳ２５７）。例えば、受信装置１の固有情報「音声出力禁止」、「スピーカが無効」などを確認したことにより、図１５のＮｏ１のサーバコマンドを選択しないことでもよい。なお、受信装置１の固有情報だけでなく、番組情報など共通データ格納部３８のデータを利用してもよい。例えば、番組情報から「１時間以内に放送予定の天気番組がない」ことを確認したことにより、図１５のＮｏ２のサーバコマンドを選択しないことでもよい。

サーバコマンド生成部３５は、選択したサーバコマンドや、必要に応じて応答音声生成部３６が作成した応答音声などを含めてサーバコマンド情報を作成し、通信部３１を介して音声コマンド処理部２に出力する。

以上の手順により、サーバ装置３は、入力された音声コマンドに対してサーバ装置３が対応するローカルコマンドを複数確認した場合に、固有データ格納部３７、共通データ格納部３８のデータなどを用いて複数のサーバコマンドから選択して、それらを含めたサーバコマンド情報を音声コマンド処理部２に提供することができる。音声コマンド処理部２は、サーバ装置３から提供されたサーバコマンド情報から得た音声コマンドとそれに紐づけられたサーバコマンド（ローカルコマンドに相当）をローカル音声コマンドデータベース部２７に登録することで、ユーザの発する音声コマンドによって固有データ格納部３７、共通データ格納部３８のデータが考慮されたコマンド処理が受信装置１において実行される。

本実施形態によって、サーバ装置３が固有データ格納部３７、共通データ格納部３８のデータなどを考慮してサーバコマンド情報を生成することで、受信装置１側では番組名や放送局名などの情報を事前に組み込むことなく、ユーザの発する音声コマンドに固有データ格納部３７、共通データ格納部３８の情報を考慮することができる。これによりユーザは本実施形態による受信装置１を利用しているだけで、普段の言葉に近い形（自然言語）で音声コマンドを利用できるようになっていくだけでなく、音声コマンドによるコマンド処理がユーザやユーザの受信装置１の状況に合うように設定されていく。

例えば、ユーザが「番組Ａが見たい」と発すると、サーバ装置３は、番組情報から「未来の土曜日１７時に、デジタル放送のｃｈ５で放送予定もしくはネットワーク５上のコンテンツサーバで配信予定である」ことを確認し、また同時に受信装置固有の情報から「ネットワーク５への接続が不可能である」ことを確認すると、サーバコマンド「予約視聴：土曜日１７時５ｃｈ」を受信装置１に送信する。受信装置１側において音声コマンド処理部２は、受信したサーバコマンドを、ローカルコマンドとして制御部１７に実行させてもよいし、ローカル音声コマンド「番組Ａが見たい」に紐づけてローカル音声コマンドデータベース部２７に格納してもよい。

（変形例）
以上に示した実施形態においては、受信装置１が音声コマンド処理部２を含む構成である場合について示した。本変形例においては、その他の可能な構成について説明する。

図１７は、変形例に係るシステムの構成例を示す機能ブロック図である。

図１７（ａ）は、音声コマンド処理部２を含む音声コマンド処理装置２Ａにより受信装置１Ａを音声コマンドで制御可能にする場合の例である。

受信装置１Ａは、受信装置１から音声コマンド処理部２を取り外した受信装置に相当するが、受信装置１と同様の受信装置でもよい。

音声コマンド処理装置２Ａは、音声コマンド処理部２やマイクの機能を含み、ＣＰＵやメモリを備えたコンピュータであってもよい。音声コマンド処理装置２Ａは、マイクが出力する音声信号を処理するためのＡ／Ｄ変換やＤＳＰなどのデジタル信号処理手段などを備えていてもよい。音声コマンド処理装置２Ａはサーバ装置３と通信をするための図示せぬ通信手段（図２の通信部１３に相当）を備えていてもよい。音声コマンド処理部２のローカルコマンド処理部２３が出力するローカルコマンドは、ネットワーク５を介して受信装置１Ａの制御部１７に入力されることでもよい。

図１７（ａ）による変形例において、ユーザは、音声コマンド処理装置２Ａの図示せぬマイクに向かって音声コマンドを発する。マイクで受波された音声は、Ａ／Ｄ変換などにより音声データに変換された後、音声データが音声コマンド処理部２に入力される。以降の音声コマンド処理部２において図６に示したフローチャートと同様の処理動作をすることで、上記した実施形態による音声コマンド処理と同様な処理が可能となり、同様の作用効果を得ることができる。

図１７（ａ）による変形例によれば、音声コマンド処理装置２Ａからネットワーク５を介して受信装置１Ａを遠隔操作することが可能となる。また、音声コマンド処理部２のサーバコマンドデータベース部２５やローカル音声コマンドデータベース部２７などのデータベースをクラウドサーバに設置することで、ある特定のユーザの受信装置１Ａだけでなく、別のユーザの受信装置１Ａにも同様の音声コマンド処理（音声コマンド処理装置２Ａの共有化）が可能となるばかりでなく、音声コマンド処理装置２Ａを持ち運び容易にすること（ポーターブル化）にもつながる。

図１７（ｂ）は、音声コマンド処理部２を含むリモコン１０Ａにより受信装置１Ａを音声コマンドで制御可能にする場合の例である。

リモコン１０Ａは、リモコン１０に音声コマンド処理部２を備えたリモコンである。リモコン１０Ａはマイクの機能を含み、ＣＰＵやメモリを備えたコンピュータや、マイクが出力する音声信号を処理するためのＡ／Ｄ変換やＤＳＰなどのデジタル信号処理手段などを備えていてもよい。リモコン１０Ａはサーバ装置３と通信をするための図示せぬ通信手段（図２の通信部１３に相当）を備えていてもよい。またリモコン１０Ａは受信装置１Ａと通信が可能なＢｌｕｅＴｏｏｔｈなどの通信手段を備えている場合、受信装置１Ａを介してネットワーク５に接続し、サーバ装置３と通信することでもよい。また、音声コマンド処理部２のローカルコマンド処理部２３が出力するローカルコマンドは、ＢｌｕｅＴｏｏｔｈなどの通信手段を介して受信装置１Ａの制御部１７に入力されることでもよいし、リモコン１０Ａからの赤外線などを用いた通常のリモコン制御信号として受信装置１Ａに出力することでもよい。

図１７（ｂ）による変形例において、ユーザは、リモコン１０Ａの図示せぬマイクに向かって音声コマンドを発する。マイクで受波された音声は、Ａ／Ｄ変換などにより音声データに変換された後、音声データが音声コマンド処理部２に入力される。以降の音声コマンド処理部２において図６に示したフローチャートと同様の処理動作をすることで、上記した実施形態による音声コマンド処理と同様な処理が可能となり、同様の作用効果を得ることができる。

図１７（ｂ）による変形例によれば、ユーザの手元にあるリモコン１０Ａに音声コマンドを発することで、簡単に上記実施形態による作用効果を得ることができる。音声コマンド処理部２のサーバコマンドデータベース部２５やローカル音声コマンドデータベース部２７などのデータベースを受信装置１Ａや図示せぬクラウドサーバなどに設置することでもよい。
以上に述べた少なくとも１つの実施形態によれば、ローカルで処理できる音声コマンドを増やすことのできる音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラムを提供することができる。

なお、図面に示した解析画面などに表示される条件パラメータやそれらに対する選択肢、値、評価指標などの名称や定義、種類などは、本実施形態において一例として示したものであり、本実施形態に示されるものに限定されるものではない。

本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。

また、図面は、説明をより明確にするため、実際の態様に比べて、各部の幅、厚さ、形状等について模式的に表される場合がある。ブロック図においては、結線されていないブロック間もしくは、結線されていても矢印が示されていない方向に対してもデータや信号のやり取りを行う場合もある。フローチャートに示す処理は、ＩＣチップ、デジタル信号処理プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒまたはＤＳＰ）などのハードウェアもしくはマイクロコンピュータを含めたコンピュータなどで動作させるソフトウェア（プログラムなど）またはハードウェアとソフトウェアの組み合わせによって実現してもよい。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。

１…受信装置、２…音声コマンド処理部、３…サーバ装置、５…ネットワーク、１０…リモコン、１１…チューナ、１２…放送信号受信処理部、１３…通信部、１４…コンテンツ処理部、１５…提示制御部、１６…提示部、１７…制御部、１８…インターフェース部、１９…記録再生部、２１…音声認識部、２２…判定部、２３…ローカルコマンド処理部、２４…サーバデータ取得部、２５…サーバコマンドデータベース部、２６…ローカルコマンド生成部、２７…ローカル音声コマンドデータベース部、３１…通信部、３２…制御部、３３…テキスト変換部、３４…自然言語処理部、３５…サーバコマンド生成部、３６…応答音声生成部、３７…固有データ格納部、３８…共通データ格納部、１０１…データ格納部、２６１…高頻度フィルタ、２６２…条件設定部、３７１…受信装置データ格納部、３７２…ローカルコマンドデータ格納部、３８１…共通情報データ格納部、３８２…サーバコマンドデータ格納部。

Claims

音声データを取得する音声データ受信手段と、
前記音声データを音声認識して認識結果を出力する音声認識手段と、
装置を制御するための音声コマンドの情報と前記音声コマンドが実行する前記装置内部の制御コマンドであるローカルコマンドの情報とが紐づけられたデータベースに、前記認識結果に相当する前記音声コマンドがあるか否かを判定する判定手段と、
前記判定手段の判定結果に基づいてサーバから前記データベースの情報を取得することサーバデータ受信手段とを備えることを特徴とする音声コマンド処理回路。
前記判定手段が、前記認識結果に相当する音声コマンドが前記データベースにないと判定した場合、
前記サーバデータ受信手段は、前記音声データをサーバに認識させるための音声認識要求を前記音声データとともに前記サーバに出力し、前記サーバによる前記音声データの音声認識の結果であるサーバ認識結果と前記サーバ認識結果に紐づけられたローカルコマンドとを含むサーバコマンド情報を受信する請求項１に記載の音声コマンド処理回路。
前記判定手段の判定結果に基づいて前記ローカルコマンドの情報を出力するローカルコマンド処理手段とを備える請求項２に記載の音声コマンド処理回路。
前記ローカルコマンドの情報と前記サーバ認識結果とを前記データベースに格納したり、前記データベースからデータを取り出したりするデータベース操作手段を備える請求項３に記載の音声コマンド処理回路。
前記サーバコマンド情報をサーバ情報データベースに格納したり、前記サーバ情報データベースからデータを取り出したりするデータサーバ情報操作手段を備える請求項４に記載の音声コマンド処理回路。
前記サーバ情報データベースにおいて、１つのローカルコマンドに複数のサーバ認識結果が紐づけられている場合に、あらかじめ与えられた抽出条件に基づいて、前記複数のサーバ認識結果から少なくとも１つのサーバ認識結果を選択する抽出手段を備え、
前記データベース操作手段は、前記抽出手段によって選択された少なくとも１つのサーバ認識結果を前記ローカルコマンドと紐づけて前記データベースに格納する請求項５に記載の音声コマンド処理回路。
前記サーバ情報データベースに格納されているサーバ認識結果に相当する音声コマンドの受信回数をカウントする音声コマンド受信カウント手段を備え、
前記抽出条件は、前記音声コマンドの受信回数に基づいて決定される請求項６に記載の音声コマンド処理回路。
前記判定手段の判定結果に基づいて前記ローカルコマンドの情報を出力するローカルコマンド処理手段とを備える請求項７に記載の音声コマンド処理回路。
前記判定手段が前記認識結果に相当する音声コマンドが前記データベースにあると判定した場合、
前記ローカルコマンド処理手段は、前記データベースにある前記音声コマンドに紐づけられたローカルコマンドの情報を出力する音声コマンド処理回路。
デジタル放送信号やネットワークなどからデジタルコンテンツを受信する受信手段と、
ユーザに前記デジタルコンテンツを提示する提示手段と、
ユーザの発話する音声を受波し音声データを出力する音声集音手段と、
請求項８または請求項９のいずれか１項に記載の音声コマンド処理回路と、
前記音声コマンド処理回路が出力するローカルコマンドの情報に基づいて制御対象を動作させる制御手段とを備える受信装置。
自身の固有情報を記憶する固有情報記憶手段と、
サーバとデータ通信をする通信手段とを備え、
前記通信手段は、前記サーバに前記固有情報を出力する請求項１０に記載の受信装置。
音声データと前記音声データを音声認識する要求とを受信する通信手段と、
受信装置内部の制御コマンドであるローカルコマンドの情報が格納された受信装置データ格納手段と、
前記音声認識する要求に従って、前記音声データを音声認識しテキストデータなど認識結果を出力する音声認識処理手段と、
自然言語処理により前記認識結果に相当するローカルコマンドを前記受信装置データ格納手段から特定するローカルコマンド特定手段とを備え、
前記通信手段は、前記特定したローカルコマンドと、前記認識結果を含めたサーバデータ情報を出力するサーバ。
前記通信手段は、固有情報を持つ受信装置から、前記固有情報を受信し、
前記音声コマンド特定手段は、前記固有情報に基づいて前記認識結果に相当するローカルコマンドを特定する請求項１３に記載のサーバ。
請求項９に記載の受信装置と、
請求項１１に記載のサーバとを含む音声コマンドの蓄積システム。
音声データを音声認識して認識結果を出力するステップと、
装置を制御するための音声コマンドの情報と前記音声コマンドが実行する前記装置内部の制御コマンドであるローカルコマンドの情報とが紐づけられたデータベースに、前記認識結果に相当する前記音声コマンドがあるか否かを判定するステップと、
前記判定手段の判定結果に基づいてサーバから前記データベースの情報を取得するステップとを備えた音声コマンドの蓄積方法。
コンピュータが、音声コマンドをデータベースに蓄積するためのプログラムであって、
音声データを音声認識して認識結果を出力する手順と、
装置を制御するための音声コマンドの情報と前記音声コマンドが実行する前記装置内部の制御コマンドであるローカルコマンドの情報とが紐づけられたデータベースに、前記認識結果に相当する前記音声コマンドがあるか否かを判定する手順と、
前記判定手段の判定結果に基づいてサーバから前記データベースの情報を取得する手順を前記コンピュータに実行させるためのプログラム。