JPWO2015098079A1

JPWO2015098079A1 - 音声認識処理装置、音声認識処理方法、および表示装置

Info

Publication number: JPWO2015098079A1
Application number: JP2015554558A
Authority: JP
Inventors: 智弘小金井; 小沼　知浩; 知浩小沼
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2013-12-26
Filing date: 2014-12-22
Publication date: 2017-03-23
Anticipated expiration: 2034-12-22
Also published as: CN105659318A; US9905225B2; JP6244560B2; EP3089157B1; WO2015098079A1; EP3089157A1; US20160210966A1; EP3089157A4; CN105659318B

Abstract

音声操作の操作性を向上する。そのために、音声認識処理装置（１００）において、音声処理部（１０２）は、音声情報をコマンド情報に変換する。音声認識部（５０）は、音声情報を文字列情報に変換する。意図解釈処理部（１０４）は、文字列情報から予約語情報とフリーワード情報とを選別する。記憶部は、コマンド情報、予約語情報、およびフリーワード情報を記憶する。検索処理部（１０７）は、コマンド情報、予約語情報、およびフリーワード情報にもとづく検索処理を実行する。検索処理部（１０７）は、コマンド情報、予約語情報、およびフリーワード情報のうち１つまたは２つの不足情報があれば、その不足情報を記憶部（１７０）から読み出して検索処理を実行する。

Description

本開示は、ユーザが発した音声を認識して動作する音声認識処理装置、音声認識処理方法、および表示装置に関する。

特許文献１は、音声認識機能を有する音声入力装置を開示する。この音声入力装置は、ユーザが発した音声を受信し、受信した音声を解析することによりユーザの音声が示す命令を認識（音声認識）し、音声認識した命令に応じて機器を制御するように構成されている。すなわち、特許文献１の音声入力装置は、ユーザが任意に発した音声を音声認識し、その音声認識した結果である命令（コマンド）に応じて機器を制御することができる。

例えば、この音声入力装置を使用するユーザは、テレビジョン受像機（以下、「テレビ」と記す）やＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などでブラウザを操作しているときに、ブラウザ上に表示されているハイパーテキストの選択を、この音声入力装置の音声認識機能を利用して行うことができる。また、ユーザは、検索サービスを提供するウェブサイト（検索サイト）上での検索を、この音声認識機能を利用して行うこともできる。

日本国特許第４８１２９４１号公報

本開示は、ユーザの操作性を向上する音声認識処理装置および音声認識処理方法を提供する。

本開示における音声認識処理装置は、音声取得部と、第１音声認識部と、第２音声認識部と、選別部と、記憶部と、処理部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第１音声認識部は、音声情報を第１情報に変換するように構成されている。第２音声認識部は、音声情報を第２情報に変換するように構成されている。選別部は、第２情報から第３情報と第４情報とを選別するように構成されている。記憶部は、第１情報、第３情報、および第４情報を記憶するように構成されている。処理部は、第１情報、第３情報、および第４情報にもとづく処理を実行するように構成されている。そして、処理部は、第１情報、第３情報、および第４情報のうち１つまたは２つの不足情報があれば、その不足情報を記憶部に記憶された情報を用いて補完して処理を実行するように構成されている。

本開示における音声認識処理方法は、ユーザが発する音声を取得して音声情報に変換するステップと、音声情報を第１情報に変換するステップと、音声情報を第２情報に変換するステップと、第２情報から第３情報と第４情報とを選別するステップと、第１情報、第３情報、および第４情報を記憶部に記憶するステップと、第１情報、第３情報、および第４情報にもとづく処理を実行するステップと、第１情報、第３情報、および第４情報のうち１つまたは２つの不足情報があれば、記憶部に記憶された情報を用いて補完するステップと、を備える。

本開示における表示装置は、音声取得部と、第１音声認識部と、第２音声認識部と、選別部と、記憶部と、処理部と、表示部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第１音声認識部は、音声情報を第１情報に変換するように構成されている。第２音声認識部は、音声情報を第２情報に変換するように構成されている。選別部は、第２情報から第３情報と第４情報とを選別するように構成されている。記憶部は、第１情報、第３情報、および第４情報を記憶するように構成されている。処理部は、第１情報、第３情報、および第４情報にもとづく処理を実行するように構成されている。表示部は、処理部における処理結果を表示するように構成されている。そして、処理部は、第１情報、第３情報、および第４情報のうち１つまたは２つの不足情報があれば、その不足情報を記憶部に記憶された情報を用いて補完して処理を実行するように構成されている。

本開示における音声認識処理装置は、ユーザが音声操作するときの操作性を向上することができる。

図１は、実施の形態１における音声認識処理システムを概略的に示す図である。図２は、実施の形態１における音声認識処理システムの一構成例を示すブロック図である。図３は、実施の形態１における音声認識処理システムで行うディクテーションの概要を示す図である。図４は、実施の形態１における音声認識処理装置で行うキーワード単一検索処理の一動作例を示すフローチャートである。図５は、実施の形態１における音声認識処理装置で行うキーワード連想検索処理の一動作例を示すフローチャートである。図６は、実施の形態１における音声認識処理装置で行う音声認識解釈処理の一動作例を示すフローチャートである。図７は、実施の形態１における音声認識処理装置の予約語テーブルの一例を概略的に示す図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
以下、図１〜図７を用いて、実施の形態１を説明する。なお、本実施の形態では、音声認識処理装置を備えた表示装置の一例としてテレビジョン受像機（テレビ）１０を挙げているが、表示装置は何らテレビ１０に限定されるものではない。例えば、ＰＣやタブレット端末等であってもよい。

［１−１．構成］
図１は、実施の形態１における音声認識処理システム１１を概略的に示す図である。本実施の形態では、表示装置の一例であるテレビ１０に音声認識処理装置が内蔵されている。

本実施の形態における音声認識処理システム１１は、テレビ１０と、音声認識部５０と、を備える。また、音声認識処理システム１１は、リモートコントローラ（以下、「リモコン」とも記す）２０と携帯端末３０の少なくとも一方を備えていてもよい。

テレビ１０で音声認識処理装置が起動すると、テレビ１０の表示部１４０には、入力映像信号や受信された放送信号等にもとづく映像とともに、音声認識アイコン２０１と、集音されている音声の音量を示すインジケータ２０２と、が表示される。これは、ユーザ７００の音声にもとづくテレビ１０の操作（以下、「音声操作」と記す）が可能な状態になったことをユーザ７００に示すとともに、ユーザ７００に発話を促すためである。

ユーザ７００が音声を発すると、その音声は、ユーザ７００が使用するリモートコントローラ２０や携帯端末３０に内蔵されたマイクで集音され、テレビ１０に転送される。そして、ユーザ７００が発した音声がテレビ１０に内蔵された音声認識処理装置で音声認識される。テレビ１０では、その音声認識の結果に応じてテレビ１０の制御が行われる。

テレビ１０は、内蔵マイク１３０を備えていてもよい。その場合、テレビ１０が備える内蔵マイク１３０に向かってユーザ７００が発話すると、その音声は内蔵マイク１３０で集音され、音声認識処理装置で音声認識される。したがって、音声認識処理システム１１を、リモートコントローラ２０および携帯端末３０を備えない構成にすることも可能である。

また、テレビ１０は、ネットワーク４０を介して音声認識部５０に接続されている。そして、テレビ１０と音声認識部５０との間で通信することができる。

図２は、実施の形態１における音声認識処理システム１１の一構成例を示すブロック図である。

テレビ１０は、音声認識処理装置１００と、表示部１４０と、送受信部１５０と、チューナ１６０と、記憶部１７１と、内蔵マイク１３０と、無線通信部１８０と、を有する。

音声認識処理装置１００は、ユーザ７００が発する音声を取得し、取得した音声を解析するように構成されている。そして、その音声が示すキーワードおよびコマンドを認識し、認識した結果に応じてテレビ１０の制御を行うように構成されている。音声認識処理装置１００の具体的な構成については後述する。

内蔵マイク１３０は、主に表示部１４０の表示面に対向する方向から来る音声を集音するように構成されたマイクである。すなわち、内蔵マイク１３０は、テレビ１０の表示部１４０に対面しているユーザ７００が発する音声を集音できるように集音方向が設定されており、ユーザ７００が発した音声を集音することが可能である。内蔵マイク１３０は、テレビ１０の筐体内に設けられていてもよく、図１に一例を示したようにテレビ１０の筐体外に設置されていてもよい。

リモートコントローラ２０は、テレビ１０をユーザ７００が遠隔操作するためのコントローラである。リモートコントローラ２０は、テレビ１０の遠隔操作に必要な一般的な構成に加え、マイク２１および入力部２２を有する。マイク２１は、ユーザ７００が発した音声を集音し、音声信号を出力するように構成されている。入力部２２は、ユーザ７００が手動で行う入力操作を受け付け、入力操作に応じた入力信号を出力するように構成されている。入力部２２は、例えばタッチパッドであるが、キーボードやボタン等であってもよい。マイク２１で集音された音声により生じる音声信号、または、ユーザ７００が入力部２２に入力操作することで生じる入力信号は、例えば赤外線や電波等によってテレビ１０に無線送信される。

表示部１４０は、例えば液晶ディスプレイであるが、プラズマディスプレイ、または有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等であってもよい。表示部１４０は、表示制御部１０８によって制御され、外部からの入力映像信号やチューナ１６０で受信された放送信号等にもとづく画像が表示される。

送受信部１５０は、ネットワーク４０に接続されており、ネットワーク４０に接続された外部機器（例えば、音声認識部５０）と、ネットワーク４０を通して通信を行うように構成されている。

チューナ１６０は、地上放送や衛星放送のテレビジョン放送信号をアンテナ（図示せず）を介して受信するように構成されている。チューナ１６０は、専用ケーブルを介して送信されるテレビジョン放送信号を受信するように構成されていてもよい。

記憶部１７１は、例えば不揮発性の半導体メモリであるが、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部１７１は、テレビ１０の各部の制御に用いられる情報（データ）やプログラム等を記憶している。

携帯端末３０は、例えばスマートフォンであり、テレビ１０を遠隔操作するためのソフトウエアの動作が可能である。したがって、本実施の形態における音声認識処理システム１１では、そのソフトウエアが動作している携帯端末３０をテレビ１０の遠隔操作に使用することができる。携帯端末３０は、マイク３１および入力部３２を有する。マイク３１は、携帯端末３０に内蔵されたマイクであり、リモートコントローラ２０に備えられたマイク２１と同様に、ユーザ７００が発した音声を集音し、音声信号を出力するように構成されている。入力部３２は、ユーザ７００が手動で行う入力操作を受け付け、入力操作に応じた入力信号を出力するように構成されている。入力部３２は、例えばタッチパネルであるが、キーボードやボタン等であってもよい。そのソフトウエアが動作している携帯端末３０は、リモートコントローラ２０と同様に、マイク３１で集音された音声による音声信号、または、ユーザ７００が入力部３２に入力操作することで生じる入力信号を、例えば赤外線や電波等によってテレビ１０に無線送信する。

テレビ１０と、リモートコントローラ２０または携帯端末３０とは、例えば、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の無線通信により接続されている。

ネットワーク４０は、例えばインターネットであるが、他のネットワークであってもよい。

音声認識部５０は、ネットワーク４０を介してテレビ１０と接続されるサーバ（クラウド上のサーバ）である。音声認識部５０は、テレビ１０から送信されてくる音声情報を受信し、受信した音声情報を文字列に変換する。なお、この文字列は、複数の文字であってもよく、１文字であってもよい。そして、音声認識部５０は、変換後の文字列を示す文字列情報を、音声認識の結果として、ネットワーク４０を介してテレビ１０に送信する。

音声認識処理装置１００は、音声取得部１０１と、音声処理部１０２と、認識結果取得部１０３と、意図解釈処理部１０４と、ワード記憶処理部１０５と、コマンド処理部１０６と、検索処理部１０７と、表示制御部１０８と、操作受付部１１０と、記憶部１７０と、を有する。

記憶部１７０は、例えば不揮発性の半導体メモリであるが、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部１７０は、ワード記憶処理部１０５によって制御され、任意にデータの書き込みと読み出しが可能である。また、記憶部１７０は、音声処理部１０２により参照される情報（例えば、後述する「音声−コマンド」対応情報）等も記憶している。「音声−コマンド」対応情報は、音声情報とコマンドとを対応付けた情報である。なお、記憶部１７０と記憶部１７１とは、一体に構成されていてもよい。

音声取得部１０１は、ユーザ７００が発した音声による音声信号を取得する。音声取得部１０１は、ユーザ７００が発した音声による音声信号を、テレビ１０の内蔵マイク１３０から取得してもよいし、あるいは、リモートコントローラ２０に内蔵されたマイク２１、または携帯端末３０に内蔵されたマイク３１から、無線通信部１８０を介して取得してもよい。そして、音声取得部１０１は、その音声信号を、後段での各種処理に用いることができる音声情報に変換し、音声処理部１０２に出力する。なお、音声取得部１０１は、音声信号がデジタル信号であれば、その音声信号をそのまま音声情報として用いてもよい。

音声処理部１０２は、「第１音声認識部」の一例である。音声処理部１０２は、音声情報を、「第１情報」の一例であるコマンド情報に変換するように構成されている。音声処理部１０２は、「コマンド認識処理」を行う。「コマンド認識処理」とは、音声取得部１０１から取得した音声情報に、予め設定されたコマンドが含まれているかどうかを判断し、含まれている場合はそのコマンドを特定する処理である。具体的には、音声処理部１０２は、音声取得部１０１から取得した音声情報にもとづき、予め記憶部１７０に記憶されている「音声−コマンド」対応情報を参照する。「音声−コマンド」対応情報は、音声情報と、テレビ１０に対する指示情報であるコマンドとが関連付けられた対応表である。コマンドには複数の種類があり、それぞれのコマンドに互いに異なる音声情報が対応付けられている。音声処理部１０２は、「音声−コマンド」対応情報を参照し、音声取得部１０１から取得した音声情報に含まれるコマンドを特定できれば、音声認識の結果として、そのコマンドを表す情報（コマンド情報）を認識結果取得部１０３に出力する。

また、音声処理部１０２は、音声取得部１０１から取得した音声情報を、送受信部１５０からネットワーク４０を介して音声認識部５０に送信する。

音声認識部５０は、「第２音声認識部」の一例である。音声認識部５０は、音声情報を、「第２情報」の一例である文字列情報に変換するように構成されており、「キーワード認識処理」を行う。音声認識部５０は、テレビ１０から送信されてくる音声情報を受信すると、キーワードとキーワード以外（例えば、助詞、等）とを区別するために、その音声情報を文節毎に区切り、各文節をそれぞれ文字列へ変換（以下、「ディクテーション」という）する。そして、音声認識部５０は、ディクテーション後の文字列の情報（文字列情報）を、音声認識の結果としてテレビ１０に送信する。音声認識部５０は、受信した音声情報からコマンド以外の音声情報を取得してもよく、または、受信した音声情報からコマンド以外の音声情報を文字列に変換して返信してもよい。あるいは、テレビ１０から音声認識部５０へコマンドを除く音声情報を送信してもよい。

認識結果取得部１０３は、音声処理部１０２から、音声認識の結果としてのコマンド情報を取得する。また、認識結果取得部１０３は、音声認識部５０から、音声認識の結果としての文字列情報を、ネットワーク４０および送受信部１５０を介して、取得する。

意図解釈処理部１０４は、「選別部」の一例である。意図解釈処理部１０４は、文字列情報から、「第３情報」の一例である予約語情報と、「第４情報」の一例であるフリーワード情報と、を選別するように構成されている。意図解釈処理部１０４は、認識結果取得部１０３からコマンド情報と文字列情報とを取得すると、文字列情報から「フリーワード」と「予約語」を選別する。そして、選別されたフリーワードと予約語、およびコマンド情報にもとづき、ユーザ７００が発話した音声操作の意図を特定するための意図解釈を行う。この動作の詳細は後述する。意図解釈処理部１０４は、意図解釈されたコマンド情報をコマンド処理部１０６に出力する。また、フリーワードを表すフリーワード情報、予約語を表す予約語情報、およびコマンド情報を、ワード記憶処理部１０５へ出力する。意図解釈処理部１０４は、フリーワード情報、および予約語情報をコマンド処理部１０６に出力してもよい。

ワード記憶処理部１０５は、意図解釈処理部１０４から出力されるコマンド情報、フリーワード情報、予約語情報を、記憶部１７０に記憶する。

コマンド処理部１０６は、「処理部」の一例である。コマンド処理部１０６は、コマンド情報、予約語情報、およびフリーワード情報にもとづく処理を実行するように構成されている。コマンド処理部１０６は、意図解釈処理部１０４により意図解釈されたコマンド情報に対応するコマンド処理を行う。また、コマンド処理部１０６は、操作受付部１１０で受け付けられたユーザ操作に対応するコマンド処理を行う。

さらに、コマンド処理部１０６は、ワード記憶処理部１０５により記憶部１７０に記憶されたコマンド情報、フリーワード情報、および予約語情報、の１つまたは２つにもとづく新たなコマンド処理を行うこともある。すなわち、コマンド処理部１０６は、コマンド情報、予約語情報、およびフリーワード情報のうち１つまたは２つの不足情報があれば、その不足情報を記憶部１７０に記憶された情報を用いて補完して、コマンド処理を実行するように構成されている。この詳細は、後述する。

検索処理部１０７は、「処理部」の一例である。検索処理部１０７は、コマンド情報が検索コマンドであれば、予約語情報、およびフリーワード情報にもとづく検索処理を実行するように構成されている。検索処理部１０７は、コマンド情報が、予め設定されたアプリケーションに関連付けられた検索コマンドに対応したものであれば、そのアプリケーションで、フリーワード情報および予約語情報にもとづく検索を行う。

例えば、検索処理部１０７は、コマンド情報が、予め設定されたアプリケーションの一つであるインターネット検索アプリケーションに関連付けられた検索コマンドであれば、そのインターネット検索アプリケーションで、フリーワード情報および予約語情報にもとづく検索を行う。

あるいは、検索処理部１０７は、コマンド情報が、予め設定されたアプリケーションの一つである番組表アプリケーションに関連付けられた検索コマンドであれば、その番組表アプリケーションで、フリーワード情報および予約語情報にもとづく検索を行う。

また、検索処理部１０７は、コマンド情報が、予め設定されたアプリケーションに関連付けられた検索コマンドでなければ、そのフリーワード情報および予約語情報にもとづく検索を行うことができる全てのアプリケーション（検索可能アプリケーション）で、そのフリーワード情報および予約語情報にもとづく検索を行う。

なお、検索処理部１０７は、予約語情報およびフリーワード情報のうち１つまたは２つの不足情報があれば、その不足情報を記憶部１７０に記憶された情報を用いて補完して、検索処理を実行するように構成されている。また、不足情報がコマンド情報であり、直前のコマンド処理が検索処理部１０７における検索処理であれば、検索処理を再度実行する。

表示制御部１０８は、検索処理部１０７における検索の結果を、表示部１４０に表示する。例えば、表示制御部１０８は、インターネット検索アプリケーションでのキーワード検索の結果や、番組表アプリケーションでのキーワード検索の結果、または検索可能アプリケーションでのキーワード検索の結果を、表示部１４０に表示する。

操作受付部１１０は、ユーザ７００がリモートコントローラ２０の入力部２２で行った入力操作により生じる入力信号、または、ユーザ７００が携帯端末３０の入力部３２で行った入力操作による入力信号を、リモートコントローラ２０または携帯端末３０から無線通信部１８０を介して受信する。こうして、操作受付部１１０は、ユーザ７００が行った操作（ユーザ操作）を受け付ける。

［１−２．動作］
次に、本実施の形態におけるテレビ１０の音声認識処理装置１００の動作について説明する。

まず、テレビ１０の音声認識処理装置１００による音声認識処理の開始方法について説明する。音声認識処理の開始方法としては、主に、以下の２つの方法が挙げられる。

１つ目の開始方法は、次の通りである。ユーザ７００は、音声認識処理を開始するために、リモートコントローラ２０に設けられた入力部２２の１つであるマイクボタン（図示せず）を押す。ユーザ７００が、リモートコントローラ２０のマイクボタンを押せば、テレビ１０では、操作受付部１１０が、リモートコントローラ２０のマイクボタンが押されたことを受け付ける。そして、テレビ１０は、テレビ１０のスピーカ（図示せず）の音量を、予め設定された音量に変更する。この音量は、マイク２１による音声認識を妨げない程度の、十分に小さい音量である。そして、テレビ１０のスピーカの音量が予め設定された音量になれば、音声認識処理装置１００は音声認識処理を開始する。このとき、テレビ１０は、スピーカの音量が予め設定された音量以下であれば、上記の音量調整を行う必要はないので、音量をそのままにする。

なお、この方法には、リモートコントローラ２０に代えて、携帯端末３０（例えば、タッチパネルを備えるスマートフォン）を使用することもできる。その場合、ユーザ７００は、携帯端末３０に備えられたソフトウエア（テレビ１０を音声操作するためのソフトウエア）を起動し、そのソフトウエアが動作することでタッチパネルに表示されるマイクボタンを押す。このユーザ動作が、リモートコントローラ２０のマイクボタンを押すユーザ動作に相当する。これにより、音声認識処理装置１００は音声認識処理を開始する。

２つ目の開始方法は、次の通りである。ユーザ７００は、テレビ１０の内蔵マイク１３０に対して、予め設定された音声認識処理を開始するコマンド（開始コマンド）を表す音声（例えば、「音声操作開始」、等）を発話する。内蔵マイク１３０により集音された音声は予め設定された開始コマンドである、と音声認識処理装置１００が認識すれば、テレビ１０は、上述と同様にスピーカの音量を予め設定された音量に変更し、音声認識処理装置１００による音声認識処理が開始される。

なお、上記の方法を組み合わせて、音声認識処理の開始方法としてもよい。

なお、テレビ１０におけるこれらの制御は、テレビ１０の各ブロックを制御する制御部（図示せず）によって行われるものとする。

音声認識処理装置１００による音声認識処理が開始されれば、表示制御部１０８は、ユーザ７００に発話を促すために、音声認識処理が開始されユーザ７００による音声操作が可能になったことを示す音声認識アイコン２０１と、集音されている音声の音量を示すインジケータ２０２とを、表示部１４０の画像表示面に表示する。

なお、表示制御部１０８は、音声認識アイコン２０１に代えて、音声認識処理が開始されたことを示すメッセージを表示部１４０に表示してもよい。あるいは、音声認識処理が開始されたことを示すメッセージをスピーカから音声で出力してもよい。

なお、音声認識アイコン２０１およびインジケータ２０２は、何ら図１に示すデザインに限定されるものではない。目的とする効果が得られるものであれば、どのようなデザインであってもよい。

次に、テレビ１０の音声認識処理装置１００で行う音声認識処理について説明する。

本実施の形態において、音声認識処理装置１００は、２種類の音声認識処理を行う。１つは、予め設定されているコマンドに対応する音声を認識するための音声認識処理（コマンド認識処理）である。もう１つは、予め設定されているコマンド以外のキーワードを認識するための音声認識処理（キーワード認識処理）である。

コマンド認識処理は、上述したように、音声処理部１０２で行われる。音声処理部１０２は、テレビ１０に対してユーザ７００が発した音声にもとづく音声情報を、予め記憶部１７０に記憶された「音声−コマンド」対応情報と比較する。そして、その音声情報に、「音声−コマンド」対応情報に登録されたコマンドがあれば、そのコマンドを特定する。なお、「音声−コマンド」対応情報には、テレビ１０を操作するための様々なコマンドが登録されており、例えば、フリーワード検索の操作コマンド等も登録されている。

キーワード認識処理は、上述したように、ネットワーク４０を介してテレビ１０に接続されている音声認識部５０を利用して行われる。音声認識部５０は、音声情報を、テレビ１０からネットワーク４０を介して取得する。そして、音声認識部５０は、取得した音声情報を文節毎に区切り、キーワードとキーワード以外（例えば、助詞、等）とに分ける。こうして、音声認識部５０はディクテーションを行う。音声認識部５０は、ディクテーションを行う際に、音声情報と文字列（１文字も含む）とを対応付けたデータベースを用いる。音声認識部５０は、取得した音声情報を、そのデータベースと比較することによりキーワードとキーワード以外とに分離し、それぞれを文字列に変換する。

なお、本実施の形態では、音声認識部５０は、音声取得部１０１で取得された全ての音声（音声情報）をテレビ１０から受信し、それら全ての音声情報に対してディクテーションを行い、その結果の全ての文字列情報をテレビ１０へ送信するように構成されている。しかし、テレビ１０の音声処理部１０２は、「音声−コマンド」対応情報によって音声認識されたコマンド以外の音声情報を音声認識部５０に送信するように構成されていてもよい。

次に、図３を用いてキーワード認識処理について説明する。

図３は、実施の形態１における音声認識処理システム１１で行うディクテーションの概要を示す図である。

図３には、テレビ１０の表示部１４０にウェブブラウザが表示された状態を示す。例えば、ユーザ７００がウェブブラウザのインターネット検索アプリケーションでキーワードによる検索（キーワード検索）を行うとき、音声認識処理装置１００で音声認識処理が開始すると、図３に一例として示す画像が表示部１４０に表示される。

入力欄２０３は、ウェブブラウザ上で検索に用いるキーワードを入力するための領域である。入力欄２０３にカーソルが表示されていれば、ユーザ７００は、入力欄２０３にキーワードを入力することができる。

この状態で、ユーザ７００がリモートコントローラ２０または携帯端末３０またはテレビ１０の内蔵マイク１３０に向かって発話すると、その音声による音声信号は、音声取得部１０１に入力され、音声情報に変換される。そして、その音声情報は、テレビ１０から、ネットワーク４０を介して音声認識部５０に送信される。例えば、ユーザ７００が「ＡＢＣ」と発話すれば、その音声にもとづく音声情報が、テレビ１０から音声認識部５０に送信される。

音声認識部５０は、テレビ１０から受信した音声情報を、データベースと比較することで文字列に変換する。そして、音声認識部５０は、受信した音声情報による音声認識の結果として、その文字列の情報（文字列情報）を、ネットワーク４０を介してテレビ１０に送信する。音声認識部５０は、受信した音声情報が「ＡＢＣ」という音声によるものであれば、その音声情報をデータベースと比較して「ＡＢＣ」という文字列に変換し、その文字列情報をテレビ１０に送信する。

テレビ１０は、音声認識部５０から文字列情報を受信すると、その文字列情報にもとづき認識結果取得部１０３、意図解釈処理部１０４、コマンド処理部１０６、表示制御部１０８を動作させて、その文字列情報に対応した文字列を入力欄２０３に表示する。例えば、テレビ１０は、「ＡＢＣ」という文字列に対応した文字列情報を音声認識部５０から受信すると、入力欄２０３に「ＡＢＣ」という文字列を表示する。

そして、テレビ１０の表示部１４０に表示されたウェブブラウザは、入力欄２０３に表示された文字列によるキーワード検索を行う。

次に、本実施の形態の音声認識処理装置１００で行うキーワード単一検索処理とキーワード連想検索処理について、図４〜図７を用いて説明する。

図４は、実施の形態１における音声認識処理装置１００で行うキーワード単一検索処理の一動作例を示すフローチャートである。

図５は、実施の形態１における音声認識処理装置１００で行うキーワード連想検索処理の一動作例を示すフローチャートである。

図６は、実施の形態１における音声認識処理装置１００で行う音声認識解釈処理の一動作例を示すフローチャートである。図６に示すフローチャートは、図４および図５に示した各検索処理における音声認識解釈処理ステップの詳細を示すフローチャートである。

図７は、実施の形態１における音声認識処理装置１００の予約語テーブルの一例を概略的に示す図である。

本実施の形態における音声認識処理装置１００では、図４に示すキーワード単一検索処理の音声認識解釈処理（ステップＳ１０１）と、図５に示すキーワード連想検索処理の音声認識解釈処理（ステップＳ２０１）とで、実質的に同じ処理を行う。まず、この音声認識解釈処理を、図６を用いて説明する。

上述したように、テレビ１０では、ユーザ７００が、例えばリモートコントローラ２０のマイクボタンを押す等することで、音声認識処理装置１００の音声認識処理が開始される。

この状態で、ユーザ７００が発話すると、ユーザ７００の音声は、内蔵マイク１３０、またはリモートコントローラ２０のマイク２１、または携帯端末３０のマイク３１、により音声信号に変換され、その音声信号が音声取得部１０１に入力される。こうして音声取得部１０１はユーザ７００の音声信号を取得する（ステップＳ３０１）。

音声取得部１０１は、取得したユーザ７００の音声信号を、後段での各種処理に用いることができる音声情報に変換する。ユーザ７００が、例えば「ＡＢＣの画像を検索」と発話すれば、音声取得部１０１はその音声に基づく音声情報を出力する。

音声処理部１０２は、音声取得部１０１から出力される音声情報を、予め記憶部１７０に記憶された「音声−コマンド」対応情報と比較する。そして、音声取得部１０１から出力される音声情報に、「音声−コマンド」対応情報に登録されたコマンドに該当するものがあるかどうかを調べる（ステップＳ３０２）。

例えば、音声取得部１０１から出力される音声情報に、ユーザ７００が発した「検索」という言葉にもとづく音声情報が含まれ、「音声−コマンド」対応情報にコマンド情報として「検索」が登録されていれば、音声処理部１０２は、音声情報に「検索」のコマンドが含まれていると判断する。

「音声−コマンド」対応情報には、テレビ１０の動作や、表示部１４０に表示されているアプリケーションの動作、等に必要なコマンドが登録されている。これらのコマンド情報には、例えば、「検索」、「チャンネルアップ」、「音声アップ」、「プレイ」、「ストップ」、「ことば変換」、「文字表示」、等の音声情報に対応するコマンド情報が含まれている。

なお、「音声−コマンド」対応情報は、コマンド情報の追加、削除等による更新が可能である。例えば、ユーザ７００が新たなコマンド情報を「音声−コマンド」対応情報に追加することができる。あるいは、ネットワーク４０を介して新たなコマンド情報を「音声−コマンド」対応情報に追加することもできる。これにより音声認識処理装置１００は、最新の「音声−コマンド」対応情報にもとづく音声認識処理を行うことが可能である。

また、ステップＳ３０２では、音声処理部１０２は、音声取得部１０１から出力される音声情報を、送受信部１５０からネットワーク４０を介して音声認識部５０に送信する。

音声認識部５０は、受信した音声情報を、キーワードとキーワード以外（例えば、助詞、等）とに区切られた文字列に変換する。そのために、音声認識部５０は、受信した音声情報にもとづくディクテーションを行う。

音声認識部５０は、キーワードと文字列とを対応付けたデータベースと、受信した音声情報と、を比較する。データベースに登録されたキーワードが、受信した音声情報に含まれていれば、そのキーワードに対応する文字列（単語も含む）を選択する。このようにして音声認識部５０は、ディクテーションを行い、受信した音声情報を文字列に変換する。例えば、ユーザ７００が発話した「ＡＢＣの画像を検索」という音声にもとづく音声情報を音声認識部５０が受信すれば、音声認識部５０は、ディクテーションによりその音声情報を、「ＡＢＣ」、「の」、「画像」、「を」、「検索」という文字列に変換する。音声認識部５０は、変換された各文字列を表す文字列情報を、ネットワーク４０を介してテレビ１０へ送信する。

このデータベースは、音声認識部５０に備えられているが、ネットワーク４０上の他の場所にあってもよい。また、このデータベースは、定期的または不定期にキーワードの情報が更新されるように構成されていてもよい。

テレビ１０の認識結果取得部１０３は、音声処理部１０２から音声認識の結果として出力されるコマンド情報と、音声認識部５０から音声認識の結果として送信されてくる文字列情報とを取得し、意図解釈処理部１０４へ出力する。

意図解釈処理部１０４は、認識結果取得部１０３から取得したコマンド情報と文字列情報とにもとづき、ユーザ７００が発話した音声操作の意図を特定するための意図解釈を行う（ステップＳ３０３）。

意図解釈処理部１０４は、意図解釈のために文字列情報の選別を行う。この選別の種類には、フリーワード、予約語、コマンド、がある。意図解釈処理部１０４は、文字列情報にコマンド情報と重複するものがあれば、それをコマンドと判断し、選別する。また、図７に一例を示す予約語テーブルにもとづき、文字列情報から予約語を選別する。残った文字列情報から、キーワードに該当しない助詞等の文字列を除くことで、フリーワードを選別する。

意図解釈処理部１０４は、例えば、「ＡＢＣ」、「の」、「画像」、「を」、「検索」、といった文字列情報と、「検索」を表すコマンド情報と、を取得したときは、「ＡＢＣ」をフリーワードに、「画像」を予約語に、「検索」をコマンドに、それぞれ選別する。意図解釈処理部１０４でこのような意図解釈が行われることで、音声認識処理装置１００は、ユーザ７００の意図（ユーザ７００が発話した音声操作の意図）にもとづく動作が可能になる。例えば、音声認識処理装置１００は、予約語「画像」に関して、フリーワード「ＡＢＣ」を用いた、コマンド「検索」、を実行することができる。

なお、意図解釈処理部１０４は、図７に一例として示す予約語テーブルと文字列情報とを比較し、文字列情報の中に予約語テーブルに登録された用語が含まれていれば、その用語を予約語として文字列情報から選別する。予約語は、例えば図７に一例を示すような、「画像」、「動画」、「番組」、「Ｗｅｂ」、等のあらかじめ定められた用語である。しかし、予約語は何らこれらの用語に限定されるものではない。

なお、意図解釈処理部１０４は、文字列情報に含まれる助詞等の文字列を用いて意図解釈を行ってもよい。

このようにして、意図解釈処理部１０４は、音声認識解釈処理（図４に示すステップＳ１０１、および図５に示すステップＳ２０１）を実行する。

次に、本実施の形態におけるキーワード単一検索処理を、図４を用いて説明する。

意図解釈処理部１０４は、ユーザ７００が発した音声にもとづき、図６に示した音声認識解釈処理を実行する（ステップＳ１０１）。重複するので、ステップＳ１０１の詳細な説明は省略する。

意図解釈処理部１０４は、ステップＳ１０１での処理結果にもとづき、文字列情報に予約語情報が含まれているか否かを判断する（ステップＳ１０２）。

ステップＳ１０２において予約語情報は含まれていないと判断されたとき（Ｎｏ）は、ステップＳ１０４へ進む。

ステップＳ１０２において予約語情報が含まれていると判断されたとき（Ｙｅｓ）は、その予約語情報を、ワード記憶処理部１０５が記憶部１７０に記憶する（ステップＳ１０３）。上述した例では、予約語情報の「画像」が記憶部１７０に記憶される。

音声認識処理装置１００は、ステップＳ１０１での処理結果にもとづき、文字列情報にフリーワード情報が含まれているか否かを判断する（ステップＳ１０４）。

ステップＳ１０４においてフリーワード情報は含まれていないと判断されたとき（Ｎｏ）は、ステップＳ１０６へ進む。

ステップＳ１０４においてフリーワード情報が含まれていると判断されたとき（Ｙｅｓ）は、そのフリーワード情報を、ワード記憶処理部１０５が記憶部１７０に記憶する（ステップＳ１０５）。上述した例では、フリーワード情報の「ＡＢＣ」が記憶部１７０に記憶される。

また、ワード記憶処理部１０５は、コマンド情報を記憶部１７０に記憶する。

コマンド処理部１０６は、フリーワード情報、予約語情報、およびコマンド情報にもとづくコマンド処理を実行する（ステップＳ１０６）。

コマンド処理部１０６は、意図解釈処理部１０４からコマンド情報を受け取り、ワード記憶処理部１０５からフリーワード情報および（または）予約語情報を受け取ると、フリーワード情報と予約語情報のそれぞれ、または両方に対して、コマンド情報にもとづく命令（コマンド）を実行する。なお、コマンド処理部１０６は、意図解釈処理部１０４からフリーワード情報と予約語情報を受け取ってもよい。また、ワード記憶処理部１０５からコマンド情報を受け取ってもよい。

なお、コマンド処理部１０６では、主に、検索以外のコマンド処理を行う。このコマンド処理には、例えば、テレビ１０のチャンネル変更や音量変更、等がある。

コマンド情報に「検索」が含まれていれば、検索処理部１０７で検索処理が実行される（ステップＳ１０７）。上述した例では、検索処理部１０７は、予約語情報の「画像」にもとづき検索対象コンテンツを「画像」とし、フリーワード情報の「ＡＢＣ」による画像検索を行う。

ステップＳ１０７における検索結果は、表示制御部１０８により表示部１４０に表示される。こうして、キーワード単一検索処理が終了する。

次に、本実施の形態におけるキーワード連想検索処理を、図５を用いて説明する。

キーワード連想検索処理とは、ユーザ７００が検索処理を連続して実行するときに、前回の検索で入力した内容を再び入力せずとも、前回の入力内容と、新たに入力する内容と、にもとづく新たな検索を実行する処理のことである。なお、本実施の形態では、ユーザ７００が発する音声により入力操作が行われる例を説明するが、リモートコントローラ２０の入力部２２（例えば、タッチパッド）や携帯端末３０の入力部３２（例えば、タッチパネル）を使用した入力操作が行われてもよい。

以下、具体例を示しながらキーワード連想検索処理を説明する。ここでは、ユーザ７００が、まず、「ＡＢＣの画像を検索」と発話し、フリーワード「ＡＢＣ」による「画像」の検索がすでに行われたものとする。

続いて、ユーザ７００は、直前の画像検索に用いたフリーワードと同じフリーワード「ＡＢＣ」で、新たに「動画」の検索を行うものとする。この場合、本実施の形態では、ユーザ７００は、前回の検索と重複するフリーワード「ＡＢＣ」の発話を省略することができる。すなわち、ユーザ７００は、「動画を検索」と発話すればよい。

意図解釈処理部１０４は、ユーザ７００が発した音声にもとづき、図６に示した音声認識解釈処理を実行する（ステップＳ２０１）。重複するので、ステップＳ２０１の詳細な説明は省略する。

ユーザが発した音声にもとづく音声情報（例えば、「動画を検索」）は、音声認識処理装置１００からネットワーク４０を介して音声認識部５０へ送信される。音声認識部５０は、受信した音声情報にもとづく文字列情報を返信する。この文字列情報には予約語情報（例えば、「動画」）およびコマンド情報（例えば、「検索」）が含まれているが、フリーワード情報は含まれていない。返信された文字列情報は、認識結果取得部１０３で受信され、意図解釈処理部１０４へ出力される。

この動作例では、音声認識処理装置１００の音声処理部１０２は、ユーザ７００が発した音声にもとづく音声情報に、コマンド「検索」が含まれていると判断する。そして、音声処理部１０２は、コマンド「検索」に対応するコマンド情報を認識結果取得部１０３に出力する。また、認識結果取得部１０３は、音声認識部５０から文字列「動画」が含まれた文字列情報を受信する。そして、意図解釈処理部１０４は、認識結果取得部１０３から取得する文字列情報に含まれる「動画」を予約語と判断する。また、文字列情報にフリーワード情報は含まれていないので、意図解釈処理部１０４からフリーワード情報は出力されない。

意図解釈処理部１０４は、ステップＳ２０１での処理結果にもとづき、文字列情報に予約語情報が含まれているか否かを判断する（ステップＳ２０２）。

ステップＳ２０２において予約語情報は含まれていないと判断されたとき（Ｎｏ）は、ステップＳ２０５へ進む。ステップＳ２０５以降の動作は後述する。

ステップＳ２０２において予約語情報が含まれていると判断されたとき（Ｙｅｓ）は、ワード記憶処理部１０５は、その予約語情報（例えば、「動画」）を、新たな検索対象コンテンツとして記憶部１７０に記憶する（ステップＳ２０３）。

新たな予約語情報が記憶部１７０に記憶されることで、予約語情報が更新される。上述の例では、前回の予約語情報「画像」が、新たな予約語情報「動画」に切り換えられる（ステップＳ２０４）。

この動作例では、意図解釈処理部１０４からフリーワード情報が出力されないので、ワード記憶処理部１０５は、記憶部１７０に記憶されているフリーワード情報（例えば、「ＡＢＣ」）を読み出して、コマンド処理部１０６に出力する。コマンド処理部１０６は、意図解釈処理部１０４からコマンド情報を受け取り、ワード記憶処理部１０５から、読み出されたフリーワード情報と、新たな予約語情報と、を受け取る。そして、その読み出されたフリーワード情報と新たな予約語情報に対して、コマンド情報に応じたコマンド処理を行う（ステップＳ２０８）。なお、上述したように、コマンド処理部１０６では、主に検索以外のコマンド処理を行う。

コマンド情報に「検索」が含まれていれば、検索処理部１０７で検索処理が実行される（ステップＳ２０９）。上述した例では、検索処理部１０７は、新たな予約語情報の「動画」にもとづき検索対象コンテンツを「動画」とし、記憶部１７０から読み出されたフリーワード情報の「ＡＢＣ」による動画検索を行う。

ステップＳ２０９における検索結果は、表示制御部１０８により表示部１４０に表示される。こうして、キーワード連想検索処理が終了する。

続いて、ステップＳ２０２において予約語情報は含まれていないと判断される（Ｎｏ）ときのキーワード連想検索処理を説明する。

以下、具体例を示しながら説明する。ここでは、ユーザ７００が、まず、「ＡＢＣの画像を検索」と発話し、フリーワード「ＡＢＣ」による「画像」の検索がすでに行われたものとする。

続いて、ユーザ７００は、直前の画像検索に用いたフリーワードと異なるフリーワード「ＸＹＺ」で、「画像」の検索を行うものとする。この場合、本実施の形態では、ユーザ７００は、前回の検索と重複する予約語「画像」とコマンド「検索」の発話を省略することができる。すなわち、ユーザ７００は、「ＸＹＺ」と発話すればよい。

重複するので、ステップＳ２０１、Ｓ２０２の詳細な説明は省略する。

ユーザが発した音声にもとづく音声情報（例えば、「ＸＹＺ」）は、音声認識処理装置１００からネットワーク４０を介して音声認識部５０へ送信される。音声認識部５０は、受信した音声情報にもとづく文字列情報を返信する。この文字列情報にはフリーワード情報（例えば、「ＸＹＺ」）が含まれているが、予約語情報とコマンド情報は含まれていない。返信された文字列情報は、認識結果取得部１０３で受信され、意図解釈処理部１０４へ出力される。

このように、この動作例では、文字列情報に予約語情報は含まれず、音声処理部１０２からコマンド情報は出力されない。したがって、意図解釈処理部１０４から予約語情報およびコマンド情報は出力されない。

これにより、ステップＳ２０２では予約語情報は含まれていないと判断される（Ｎｏ）。意図解釈処理部１０４は、ステップＳ２０１での処理結果にもとづき、文字列情報にフリーワード情報が含まれているか否かを判断する（ステップＳ２０５）。

ステップＳ２０５においてフリーワード情報は含まれていないと判断されたとき（Ｎｏ）は、ステップＳ２０８へ進む。

ステップＳ２０５においてフリーワード情報が含まれていると判断されたとき（Ｙｅｓ）は、ワード記憶処理部１０５は、そのフリーワード情報（例えば、「ＸＹＺ」）を、新たなフリーワード情報として記憶部１７０に記憶する（ステップＳ２０６）。

新たなフリーワード情報が記憶部１７０に記憶されることで、フリーワード情報が更新される。上述の例では、前回のフリーワード情報「ＡＢＣ」が、新たなフリーワード情報「ＸＹＺ」に切り換えられる（ステップＳ２０７）。

この動作例では、意図解釈処理部１０４から予約語情報およびコマンド情報が出力されないので、ワード記憶処理部１０５は、記憶部１７０に記憶されている予約語情報（例えば、「画像」）およびコマンド情報（例えば、「検索」）を読み出して、コマンド処理部１０６に出力する。コマンド処理部１０６は、ワード記憶処理部１０５が記憶部１７０から読み出した予約語情報およびコマンド情報と、新たなフリーワード情報（例えば、「ＸＹＺ」）と、を受け取る。そして、その読み出された予約語情報と新たなフリーワード情報に対して、読み出されたコマンド情報に応じたコマンド処理を行う（ステップＳ２０８）。

記憶部１７０から読み出されたコマンド情報に「検索」が含まれていれば、検索処理部１０７で検索処理が実行される（ステップＳ２０９）。上述した例では、検索処理部１０７は、記憶部１７０から読み出された予約語情報の「画像」にもとづき検索対象コンテンツを「画像」とし、新たなフリーワード情報の「ＸＹＺ」による画像検索を行う。

なお、ステップＳ２０５においてフリーワード情報は含まれていないと判断されたとき（Ｎｏ）は、検索処理部１０７は、ステップＳ２０８に進み通常のコマンド処理または検索処理を行うものとする。

［１−３．効果等］
以上のように、本実施の形態において、音声認識処理装置１００は、音声取得部１０１と、第１音声認識部の一例である音声処理部１０２と、第２音声認識部の一例である音声認識部５０と、選別部の一例である意図解釈処理部１０４と、記憶部１７０と、処理部の一例であるコマンド処理部１０６および検索処理部１０７と、を備えている。音声取得部１０１は、ユーザが発する音声を取得して音声情報を出力するように構成されている。音声処理部１０２は、音声情報を第１情報の一例であるコマンド情報に変換するように構成されている。音声認識部５０は、音声情報を第２情報の一例である文字列情報に変換するように構成されている。意図解釈処理部１０４は、文字列情報から第３情報の一例である予約語情報と第４情報の一例であるフリーワード情報とを選別するように構成されている。記憶部１７０は、コマンド情報、予約語情報、およびフリーワード情報を記憶するように構成されている。コマンド処理部１０６は、コマンド情報、予約語情報、およびフリーワード情報にもとづく処理を実行するように構成されている。そして、コマンド処理部１０６および検索処理部１０７は、コマンド情報、予約語情報、およびフリーワード情報のうち１つまたは２つの不足情報があれば、その不足情報を記憶部１７０に記憶された情報を用いて補完して処理を実行するように構成されている。

検索処理部１０７は、第１情報が検索コマンドであるとき、その検索コマンドと、予約語情報およびフリーワード情報とにもとづく検索処理を実行するように構成されている。

音声認識部５０はネットワーク４０上に設置され、音声認識処理装置１００は、ネットワーク４０を介して音声認識部５０と通信を行うように構成された送受信部１５０を備えていてもよい。

音声処理部１０２は、あらかじめ設定された、複数のコマンド情報と音声情報とを対応付けた「音声−コマンド」対応情報を用いて音声情報をコマンド情報に変換するように構成されていてもよい。

このように構成された音声認識処理装置１００を使用するユーザ７００は、音声操作を連続して行う場合、前回の音声操作で発話した内容を再び発話せずとも、前回の発話内容と、新たに発話する内容と、にもとづく新たな操作を行うことができる。例えば、ユーザ７００は、検索処理を連続して行う場合、前回の検索で音声操作により入力した内容を再び発話せずとも、前回の発話内容と、新たに発話する内容と、にもとづく新たな検索を行うことができる。

具体的な一例としては、ユーザ７００は、「ＡＢＣの画像を検索」と発話してフリーワード「ＡＢＣ」で「画像」を検索し、その後に続けて「ＡＢＣの動画を検索」する場合、前回の検索と重複するフリーワード「ＡＢＣ」の発話を省略し、「動画を検索」と発話するだけでよい。これにより、「ＡＢＣの動画を検索」と発話したときと同じ検索処理を実行することができる。

あるいは、ユーザ７００は、「ＡＢＣの画像を検索」と発話してフリーワード「ＡＢＣ」で「画像」を検索し、その後に続けて「ＸＹＺの画像を検索」する場合、前回の検索と重複する予約語「画像」とコマンド「検索」の発話を省略し、「ＸＹＺ」と発話するだけでよい。これにより、「ＸＹＺの画像を検索」と発話したときと同じ検索処理を実行することができる。

このように、本実施の形態における音声認識処理装置１００は、ユーザ７００が音声操作する際の煩雑さを軽減し、操作性を向上することができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

そこで、以下、他の実施の形態を例示する。

実施の形態１では、コマンド情報が「検索」のときの動作例を説明したが、ここでは、その他のコマンドの例について記す。「音声−コマンド」対応情報には、例えば、「チャンネルアップ」、「音声アップ」、「再生」、「ストップ」、「ことば変更」、「文字表示」、等の音声情報に対応するコマンド情報が登録されていてもよい。

例えば、「光ディスクを再生」とユーザが発話したとする。その場合、音声認識処理装置１００では、フリーワード「光ディスク」、コマンド情報「再生」が音声認識される。これにより、音声認識処理装置１００が搭載された光ディスク再生装置では、光ディスクに記録された映像が再生される。この状態に続けて、ユーザ７００が「ストップ」と発話すると、コマンド情報「ストップ」が音声認識処理装置１００で音声認識され、その光ディスク再生装置では、光ディスクの再生がストップする。これは、ワード記憶処理部１０５により記憶部１７０にフリーワード「光ディスク」が記憶されているため、コマンド処理部１０６は、新たに入力されたコマンド情報「再生」の処理を、記憶部１７０から読み出したフリーワード「光ディスク」に対して実行するためである。すなわち、ユーザ７００は「光ディスクをストップ」と発話しなくとも、単に「ストップ」と発話するだけで、光ディスク再生装置の動作を制御することができる。

また、別の例では、例えば、ユーザ７００が「日本語の文字表示」と発話したとする。その場合、音声認識処理装置１００では、フリーワード情報「日本語」、コマンド情報「文字表示」が音声認識される。これにより、音声認識処理装置１００が搭載されたテレビ１０では、日本語の字幕をテレビ１０の表示部１４０に表示するコマンド「文字表示」が実行される。この状態に続けて、ユーザ７００が「英語」と発話すると、フリーワード情報「英語」が音声認識処理装置１００で音声認識される。そして、テレビ１０は、記憶部１７０からコマンド情報「文字表示」を読み出し、「文字表示」の動作をそのまま継続し、表示部１４０に表示する文字を「日本語」から「英語」に変更する。すなわち、ユーザ７００は、「英語の文字表示」と発話しなくとも、単に「英語」と発話するだけで、テレビ１０の表示文字を「日本語」から「英語」に変更することができる。

このように、音声認識処理装置１００は、音声情報に不足情報があれば、それを記憶部１７０から読み出して補完し、コマンド処理を実行するので、ユーザ７００は、前回の音声操作時と重複する言葉を繰り返し発話する必要が無く、音声操作時の煩雑さが軽減され操作性が向上する。

なお、ここに挙げた２つの例では、ユーザ７００の発話に予約語は含まれていないが、コマンド処理部１０６はそのコマンド処理を実行可能である。このように、予約語またはフリーワードが含まれていなくても実行が可能なコマンド情報であれば、意図解釈処理部１０４は、予約語またはフリーワードが含まれていなくてもよいことをワード記憶処理部１０５およびコマンド処理部１０６（検索処理部１０７）に発信する。したがって、コマンド処理部１０６（検索処理部１０７）は、意図解釈処理部１０４から発信される情報にもとづき、フリーワード情報と予約語情報とコマンド情報との組み合わせでコマンド処理すべきか、フリーワード情報とコマンド情報との組み合わせでコマンド処理すべきか、または、予約語情報とコマンド情報との組み合わせでコマンド処理すべきか、を判断し、コマンド処理を実行することができる。また、ワード記憶処理部１０５では、不要な情報を記憶部１７０から読み出す動作が防止される。上述の例では、音声情報に予約語情報は含まれていないが、予約語情報が不要なので、ワード記憶処理部１０５は予約語情報を記憶部１７０から読み出さない。

なお、「音声−コマンド」対応情報に、コマンド情報に関連付けて、そのコマンド処理には予約語およびフリーワードの両方が必要なのか、それともいずれか一方でよいのか、を示す情報をあらかじめ登録しておいてもよい。そして、音声処理部１０２は、コマンド情報とともにその情報を後段に出力するように動作してもよい。

なお、本実施の形態では、「画像」や「動画」を検索する動作例を説明したが、検索の対象は何ら「画像」や「動画」に限定されるものではなく、番組表や録画番組等を検索の対象としてもよい。

なお、本実施の形態では特に言及していないが、音声認識処理において、ユーザ７００が発した音声に、コマンド情報の「検索」とキーワードとが含まれており、その「検索」の種類がインターネット検索アプリケーションによる検索である場合には、音声認識処理装置１００では、インターネット検索アプリケーションで、そのキーワードによる検索が行われる。例えば、「ＡＢＣをインターネットで検索」とユーザ７００が発話すれば、音声認識処理装置１００は、「インターネットで検索」という音声をインターネット検索アプリケーションによる「検索」であると認識する。このため、ユーザ７００は、その音声を発するだけで、そのキーワードによるインターネット検索をテレビ１０に行わせることができる。

また、音声認識処理において、ユーザ７００が発した音声に、コマンド情報の「検索」とキーワードとが含まれており、その「検索」の種類が番組表アプリケーションによる検索である場合には、音声認識処理装置１００では、番組表アプリケーションで、そのキーワードによる検索が行われる。例えば、「ＡＢＣを番組表で検索」とユーザ７００が発話すれば、音声認識処理装置１００は、「番組表で検索」という音声を番組表アプリケーションによる「検索」であると認識する。このため、ユーザ７００は、その音声を発話するだけで、そのキーワードによる番組表検索をテレビ１０に行わせることができる。

また、音声認識処理において、ユーザ７００が発した音声に、コマンド情報の「検索」とフリーワードとは含まれているが、予約語情報は含まれていないときは、音声認識処理装置１００では、そのフリーワードが含まれる全てのアプリケーションで、そのフリーワードによる「検索」を行い、検索を行った全てのアプリケーションでの検索結果を表示部１４０に表示してもよい。

なお、テレビ１０では、音声認識処理を、上述した方法で開始できる。そのため、音声認識処理が開始されれば、ユーザ７００は、テレビ１０により番組を視聴している途中であっても、上記のような検索を行うことができる。

なお、本実施の形態では、音声認識部５０がネットワーク４０上に配置された例を説明したが、音声認識部５０は音声認識処理装置１００に備えられていてもよい。

なお、本実施の形態では、フリーワード情報を記憶部１７０から読み出してコマンド処理を補完する動作例と、予約語情報およびコマンド情報を記憶部１７０から読み出してコマンド処理を補完する動作例を説明したが、本開示は何らこの構成に限定されない。例えば、予約語情報を記憶部１７０から読み出してコマンド処理を補完してもよく、コマンド情報を記憶部１７０から読み出してコマンド処理を補完してもよい。あるいは、予約語情報およびフリーワード情報を記憶部１７０から読み出してコマンド処理を補完してもよく、フリーワード情報およびコマンド情報を記憶部１７０から読み出してコマンド処理を補完してもよい。

なお、図２に示した各ブロックは、それぞれが独立した回路ブロックとして構成されてもよく、各ブロックの動作を実現するようにプログラムされたソフトウエアをプロセッサで実行する構成であってもよい。

本開示は、ユーザが指示する処理動作を実行する機器に適用可能である。具体的には、携帯端末機器、テレビジョン受像機、パーソナルコンピュータ、セットトップボックス、ビデオレコーダ、ゲーム機、スマートフォン、タブレット端末、等に本開示は適用可能である。

１０テレビジョン受像機
１１音声認識処理システム
２０リモートコントローラ
２１，３１マイク
２２，３２入力部
３０携帯端末
４０ネットワーク
５０音声認識部
１００音声認識処理装置
１０１音声取得部
１０２音声処理部
１０３認識結果取得部
１０４意図解釈処理部
１０５ワード記憶処理部
１０６コマンド処理部
１０７検索処理部
１０８表示制御部
１１０操作受付部
１３０内蔵マイク
１４０表示部
１５０送受信部
１６０チューナ
１７０，１７１記憶部
１８０無線通信部
２０１音声認識アイコン
２０２インジケータ
７００ユーザ

Claims

ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
前記音声情報を第１情報に変換するように構成された第１音声認識部と、
前記音声情報を第２情報に変換するように構成された第２音声認識部と、
前記第２情報から第３情報と第４情報とを選別するように構成された選別部と、
前記第１情報、前記第３情報、および前記第４情報を記憶するように構成された記憶部と、
前記第１情報、前記第３情報、および前記第４情報にもとづく処理を実行するように構成された処理部と、
を備え、
前記処理部は、前記第１情報、前記第３情報、および前記第４情報のうち１つまたは２つの不足情報があれば、前記不足情報を前記記憶部に記憶された情報を用いて補完して処理を実行するように構成された、
音声認識処理装置。
前記処理部は、
前記第１情報が検索コマンドであるとき、
前記検索コマンドにもとづく検索処理を実行するように構成された、
請求項１に記載の音声認識処理装置。
前記第２音声認識部はネットワーク上に設置され、
前記ネットワークを介して、前記第２音声認識部と通信を行うように構成された送受信部を備えた、
請求項１に記載の音声認識処理装置。
前記第１音声認識部は、
あらかじめ設定された複数の第１情報と前記音声情報とを対応付けた情報、を用いて前記音声情報を前記第１情報に変換するように構成された、
請求項１に記載の音声認識処理装置。
ユーザが発する音声を取得して音声情報に変換するステップと、
前記音声情報を第１情報に変換するステップと、
前記音声情報を第２情報に変換するステップと、
前記第２情報から第３情報と第４情報とを選別するステップと、
前記第１情報、前記第３情報、および前記第４情報を記憶部に記憶するステップと、
前記第１情報、前記第３情報、および前記第４情報にもとづく処理を実行するステップと、
前記第１情報、前記第３情報、および前記第４情報のうち１つまたは２つの不足情報があれば、前記記憶部に記憶された情報を用いて補完するステップと、
を備えた音声認識処理方法。
ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
前記音声情報を第１情報に変換するように構成された第１音声認識部と、
前記音声情報を第２情報に変換するように構成された第２音声認識部と、
前記第２情報から第３情報と第４情報とを選別するように構成された選別部と、
前記第１情報、前記第３情報、および前記第４情報を記憶するように構成された記憶部と、
前記第１情報、前記第３情報、および前記第４情報にもとづく処理を実行するように構成された処理部と、
前記処理部における処理結果を表示するように構成された表示部と、
を備え、
前記処理部は、前記第１情報、前記第３情報、および前記第４情報のうち１つまたは２つの不足情報があれば、前記不足情報を前記記憶部に記憶された情報を用いて補完して処理を実行するように構成された、
表示装置。