JP7385635B2

JP7385635B2 - 音声コマンド認識システム、音声コマンド認識方法、及びプログラム

Info

Publication number: JP7385635B2
Application number: JP2021131693A
Authority: JP
Inventors: 武飯野
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-11-22
Anticipated expiration: 2041-08-12
Also published as: JP2023026071A

Description

本発明は、音声コマンド認識システム、音声コマンド認識方法、及びプログラムに関するものである。

近年、ユーザが発話した音声コマンドに従って種々の処理を行う音声エージェント機能を搭載した情報処理装置が提案されている（例えば、特許文献１参照）。

特開２０２０－１３４６２７号公報

従来の音声エージェント機能は、例えば、あいまいな発話パターンを許容していないため、ユーザは意味が明確となるように発話を行う必要があった。例えば、「次」という発話パターンでは、音声エージェント機能は、ユーザが何を意図しているのか解釈できない。このため、例えば、ユーザは「次のニュースを読んで」、「次の曲を再生して」等の冗長的な発話を行い、指示を行う必要があった。このような冗長的な発話は、自然な会話に近い対話の実現を妨げる要因になっていた。

本発明は、このような事情に鑑みてなされたものであって、発話パターンの簡略化を図るとともに、ユーザの意図を反映したコマンド認識を行うことのできる音声コマンド認識システム、音声コマンド認識方法、及びプログラムを提供することを目的とする。

本発明の第１態様は、コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理部と、コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定部と、複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定部と、前記コマンド特定部によって特定された音声コマンドに対応する処理内容を決定する処理決定部とを備え、前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、前記処理決定部は、前記コマンド特定部によって特定された音声コマンドが従属コマンドか否かを判定する判定部と、特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定部と、特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定部とを備える音声コマンド認識システムである。

本発明の第２態様は、コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理工程と、コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定工程と、複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定工程と、前記コマンド特定工程において特定された音声コマンドに対応する処理内容を決定する処理決定工程とをコンピュータが実行し、前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、前記処理決定工程は、前記コマンド特定工程において特定された音声コマンドが従属コマンドか否かを判定する判定工程と、特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定工程と、特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定工程とを含む音声コマンド認識方法である。

本発明の第３態様は、コンピュータを上記記載の音声コマンド認識システムとして機能させるためのプログラムである。

本発明によれば、発話パターンの簡略化を図るとともに、ユーザの意図を反映したコマンド認識を行うことができるという効果を奏する。

本発明の第１実施形態に係る情報処理装置のハードウェア構成の一例を示した概略構成図である。本発明の第１実施形態に係る情報処理装置が備える機能の一例を示した機能ブロック図である。本発明の第１実施形態に係るコマンド定義情報の一例を示した図である。本発明の第１実施形態に係る実行処理定義情報の一例を示した図である。本発明の第１実施形態に係るコマンド認識部が備える機能を示した機能ブロック図である。本発明の第１実施形態に係るコマンド履歴情報の一例を示した図である。本発明の第１実施形態に係るコマンド特定部が行う処理について説明するための図である。本発明の第１実施形態に係るコマンド履歴管理部が行う処理について説明するための図である。本発明の第２実施形態に係るコマンド定義情報の一例を示した図である。本発明の第２実施形態に係るコマンド特定部が行う処理について説明するための図である。本発明の第３実施形態に係るコマンド定義情報の一例を示した図である。本発明の第３実施形態に係る実行処理定義情報の一例を示した図である。本発明の第３実施形態に係るコマンド認識部が有する機能の一例を示した機能ブロック図である。本発明の第３実施形態に係る独立コマンド特定部が行う処理について説明するための図である。

〔第１実施形態〕
以下に、本発明の第１実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムについて、図面を参照して説明する。本実施形態では、音声コマンド認識システムが情報処理装置１に搭載されている場合を例示して説明する。
情報処理装置１の一例として、ノートＰＣ、デスクトップ型ＰＣ、タブレット端末、スマートフォン等が挙げられる。

図１は、本発明の第１実施形態に係る情報処理装置１のハードウェア構成の一例を示した概略構成図である。
図１に示すように、情報処理装置１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、メインメモリ１２、記憶部１３、マイク１４、スピーカ１５、通信部１６、入力部１７、及び表示部１８等を備えている。これら各部は直接的にまたはバスを介して間接的に相互に接続されており互いに連携して各種処理を実行する。

ＣＰＵ１１は、例えば、バスを介して接続された記憶部１３に格納されたＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）により情報処理装置１全体の制御を行うとともに、記憶部１３に格納された各種プログラムを実行することにより各種処理を実行する。

メインメモリ１２は、キャッシュメモリ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の書き込み可能なメモリで構成され、ＣＰＵ１１の実行プログラムの読み出し、実行プログラムによる処理データの書き込み等を行う作業領域として利用される。

記憶部１３は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリ等であり、例えば、Ｗｉｎｄｏｗｓ（登録商標）、ｉＯＳ（登録商標）、Ａｎｄｒｏｉｄ（登録商標）等の情報処理装置１全体の制御を行うためのＯＳ、周辺機器類をハードウェア操作するための各種デバイスドライバ、各種アプリケーションソフトウェア（以下、単に「アプリケーション」という。）、及び各種データやファイル等を格納する。また、記憶部１３には、各種処理を実現するためのプログラムや、各種処理を実現するために必要とされる各種データが格納されている。

マイク１４は、ユーザが発話した音声や環境音を音声信号に変換して出力する。
スピーカ１５は、音声信号を音声に変換して出力する。
通信部１６は、ネットワークに接続するための通信インターフェースを備え、３ＧやＬＴＥ、５Ｇ回線を含むワイヤレスネットワークや、有線／無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等のネットワークに接続し、他のデバイスとの通信を確立させ、情報の相互通信を実現させる。

入力部１７は、例えば、キーボード、マウス、タッチパネル等、ユーザが情報処理装置１に対して指示を与えるためのユーザインタフェースである。
表示部１８は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）等で構成される表示画面を有し、ＣＰＵ１１からの指令に基づいて動作する。

図２は、本実施形態に係る情報処理装置１が備える機能の一例を示した機能ブロック図である。

後述する各種機能を実現するための一連の処理は、一例として、プログラム（例えば、音声コマンド認識プログラム）の形式で記憶部１３に記憶されており、このプログラムをＣＰＵ１１がメインメモリ１２に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。なお、プログラムは、記憶部１３に予めインストールされている形態や、他のコンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等である。

図２に示すように、情報処理装置１は、例えば、コマンド定義データベース２０と、音声エージェント部３０と、連携アプリケーションＡＰとを備えている。コマンド定義データベース２０には、コマンド定義情報ＤＦ１と、実行処理定義情報ＤＦ２とが格納されている。

音声エージェント部３０は、例えば、音声認識部４０と、コマンド認識部５０とを備えている。
そして、本実施形態に係る音声認識システムは、一例として、コマンド定義データベース２０と、音声エージェント部３０に実装されたコマンド認識部５０を備えている。

コマンド定義情報ＤＦ１は、例えば、図３に例示されるように、発話パターンとコマンドＩＤとが関連付けられて登録されている。図３に例示したコマンド定義情報ＤＦ１では、発話パターン「ニュースを読んで」とコマンドＩＤ「ＲｅａｄＮｅｗｓ」とが関連付けられ、発話パターン「次」とコマンドＩＤ「ＮｅｘｔＮｅｗｓ」とが関連付けられ、発話パターン「音楽を再生して」とコマンドＩＤ「ＰｌａｙＭｕｓｉｃ」とが関連付けられ、発話パターン「次」とコマンドＩＤ「ＮｅｘｔＭｕｓｉｃ」とが関連付けられている。

実行処理定義情報ＤＦ２は、例えば、図４に例示されるように、複数の音声コマンドが登録されている。音声コマンドは、例えば、コマンドＩＤと、コマンドグループＩＤ（コマンドグループ情報）と、実行する処理内容とを含んでいる。コマンドグループＩＤは、例えば、情報処理装置１に搭載される連携アプリケーションＡＰに対応して設けられている。例えば、図４に例示した実行処理定義情報ＤＦ２では、コマンドグループＩＤとして、「ニュースグループ」と、「音楽グループ」が示されている。

コマンドグループＩＤ「ニュースグループ」を含む音声コマンドは、ニュースアプリに対する音声コマンドであり、コマンドグループＩＤ「音楽グループ」を含む音声コマンドは、音楽アプリに対する音声コマンドである。
図４に例示した実行処理定義情報ＤＦ２には、コマンドグループＩＤ「ＮｅｗｓＧｒｏｕｐ」に属する音声コマンドとして音声コマンドＣ１、Ｃ２が示され、コマンドグループＩＤ「ＭｕｓｉｃＧｒｏｕｐ」に属する音声コマンドとして音声コマンドＣ３、Ｃ４が示されている。

音声エージェント部３０は、上述したように、音声認識部４０と、コマンド認識部５０を備えている。
音声認識部４０は、例えば、ユーザが発話した音声を音声認識し、音声認識結果を出力する。これにより、例えば、発話内容を示すデータが出力される。なお、音声認識については公知の技術を採用すればよく、ここでの詳細な説明は省略する。
コマンド認識部５０は、音声認識部４０によって認識された発話内容に基づいてユーザが意図したコマンドを認識する。

コマンド認識部５０は、図５に示すように、履歴情報管理部５１と、コマンド候補特定部５２と、コマンド特定部５３とを備えている。

履歴情報管理部５１は、コマンド履歴情報を管理する。コマンド履歴情報は、後述するコマンド特定部５３によって過去に特定された音声コマンドの履歴を示す情報である。例えば、コマンド履歴情報には、過去に特定された音声コマンドのコマンドグループＩＤと時間情報とが関連付けられて登録されている。

図６にコマンド履歴情報の一例を示す。図６に例示するコマンド履歴情報では、コマンドグループＩＤと時間情報に加えて、コマンドＩＤ及び発話パターンが登録されている。また、時間情報として、音声コマンドを特定した時刻であるコマンド認識時刻が登録されている。なお、時間情報は、コマンド認識時刻に限られない。例えば、ユーザの発話を受け付けた時刻から音声コマンドが連携アプリケーションＡＰに出力されるまでの任意のタイミングの時刻を時間情報として採用することが可能である。

履歴情報管理部５１は、後述するコマンド特定部５３によって音声コマンドが特定された場合に、特定された音声コマンドの情報と時間情報とを関連付けてコマンド履歴情報に登録する。また、履歴情報管理部５１は、コマンド認識時刻から所定期間経過した音声コマンドの情報をコマンド履歴情報から削除する。換言すると、履歴情報管理部５１は、現在から所定期間以上前の時間情報を有する音声コマンドの情報をコマンド履歴情報から削除する。

コマンド候補特定部５２は、コマンド定義データベース２０に格納されている定義情報を用いて、ユーザが発話した発話内容と所定の条件を満たす音声コマンドをコマンド候補として特定する。例えば、コマンド候補特定部５２は、音声認識部４０（図２参照）による音声認識結果とコマンド定義情報ＤＦ１とを照合し、音声認識結果に一致する発話パターンと関連付けられたコマンドＩＤを特定する。続いて、特定したコマンドＩＤで識別される音声コマンドをコマンド候補として実行処理定義情報ＤＦ２から特定する。

コマンド特定部５３は、コマンド候補特定部５２によって特定された音声コマンドが一つである場合、そのコマンド候補を処理対象の音声コマンドとして特定する。
また、コマンド特定部５３は、コマンド候補特定部５２によって複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループＩＤと、コマンド履歴情報に登録されているコマンドグループＩＤ及び時間情報を用いて、複数のコマンド候補のいずれかを処理対象の音声コマンドとして特定する。

コマンド特定部５３は、例えば、各コマンド候補のコマンドグループＩＤと一致する音声コマンドの情報のうち、最も新しい時間情報を有する音声コマンドの情報とコマンドグループＩＤが一致する候補コマンドを処理対象の音声コマンドとして特定する。
なお、複数の候補コマンドからいずれか一つの候補コマンドを絞りきれなかった場合、音声コマンドの認識に失敗したと判定する。

例えば、コマンド特定部５３は、コマンド履歴情報から時間情報が新しい順にコマンドグループＩＤを取得し、取得したコマンドグループＩＤとコマンド候補のコマンドグループＩＤとを照合する。そして、最初に照合結果が一致したコマンド候補を処理対象の音声コマンドとして特定する。

コマンド特定部５３によって特定された音声コマンドは、例えば、その音声コマンドに含まれるコマンドグループＩＤで識別される連携アプリケーションＡＰに出力される。これにより、音声コマンドに応じた処理が実行される。

次に、本実施形態に係る音声コマンド認識方法について説明する。以下の説明では、説明の便宜上、図３に示したコマンド定義情報ＤＦ１及び図４に示した実行処理定義情報ＤＦ２がコマンド定義データベース２０に格納され、また、図６に示したコマンド履歴情報が履歴情報管理部５１によって管理されている状態で、ユーザによって「次」という発話が行われた場合を例示して説明する。

まず、ユーザによって発話された「次」との音声は、マイク１４（図１参照）によって音声データに変換され、音声エージェント部３０（図２参照）に入力される。
音声エージェント部３０の音声認識部４０は、音声データに基づいてユーザによる「次」との発話を認識し、音声認識結果をコマンド認識部５０に出力する。

コマンド認識部５０のコマンド候補特定部５２は、例えば、音声認識結果である「次」との発話と、コマンド定義情報ＤＦ１の発話パターンとを照合し、発話「次」と所定の条件を満たす発話パターンを特定し、さらに、特定した発話パターンに関連付けられているコマンドＩＤを特定する。この結果、例えば、図３に示したコマンド定義情報ＤＦ１からコマンドＩＤ「ＮｅｘｔＮｅｗｓ」、「ＮｅｘｔＭｕｓｉｃ」が特定される。続いて、コマンド候補特定部５２は、特定したコマンドＩＤで識別される音声コマンドをコマンド候補として実行処理定義情報ＤＦ２から特定する。この結果、コマンドＩＤ「ＮｅｘｔＮｅｗｓ」に対応する音声コマンドＣ２及びコマンドＩＤ「ＮｅｘｔＭｕｓｉｃ」に対応する音声コマンドＣ４がコマンド候補として特定される。

コマンド特定部５３は、コマンド候補である音声コマンドＣ２、Ｃ４から処理対象の音声コマンドを特定する。例えば、コマンド特定部５３は、図７に例示するように、コマンド候補である音声コマンドＣ２のコマンドグループＩＤ「ＮｅｗｓＧｒｏｕｐ」と、コマンド候補である音声コマンドＣ４のコマンドグループＩＤ「ＭｕｓｉｃＧｒｏｕｐ」と、コマンド履歴情報に登録されているコマンドグループＩＤとを照合する。このとき、コマンド特定部５３は、コマンド履歴情報に登録されている複数のコマンドグループＩＤのうち、コマンド認識時刻が新しいものから順に照合を行い、最初に照合結果が一致したコマンド候補を処理対象の音声コマンドとして特定する。

具体的には、コマンド特定部５３は、コマンド候補である音声コマンドＣ２のコマンドグループＩＤ「ＮｅｗｓＧｒｏｕｐ」、音声コマンドＣ４のコマンドグループＩＤ「ＭｕｓｉｃＧｒｏｕｐ」のそれぞれと、コマンド認識時刻が最も新しいコマンドグループＩＤ「ＮｅｗｓＧｒｏｕｐ」とを照合する。この結果、コマンドグループＩＤ「ＮｅｗｓＧｒｏｕｐ」を有する音声コマンドＣ２が処理対象の音声コマンドとして特定される。

コマンド特定部５３によって特定された音声コマンドＣ２は、その音声コマンドＣ２に含まれるコマンドグループＩＤ「ＮｅｗｓＧｒｏｕｐ」で識別される連携アプリケーションＡＰであるニュースアプリケーションに出力される。これにより、ニュースアプリケーションにおいて音声コマンドＣ２に応じた処理が実行される。

また、履歴情報管理部５１は、コマンド特定部５３によって音声コマンドＣ２が特定されると、特定された音声コマンドＣ２に基づいてコマンド履歴情報を更新する。これにより、図８に示すように、コマンドＩＤ「ＮｅｘｔＮｅｗｓ」で識別される音声コマンドＣ２の情報がコマンド履歴情報に登録されることとなる。
また、履歴情報管理部５１は、コマンド履歴情報に登録してから所定期間が経過した履歴を削除する。

以上説明したように、本実施形態に係る音声コマンド認識システムは、過去に特定された音声コマンドの情報がコマンド認識時刻（時間情報）と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理部５１と、コマンドグループＩＤ（コマンドグループ情報）を含む複数の音声コマンドが定義された定義情報（コマンド定義情報ＤＦ１、実行処理定義情報ＤＦ２）を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定部５２と、複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループＩＤと、コマンド履歴情報に登録されている音声コマンドのコマンドグループＩＤ及びコマンド認識時刻を用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定部５３とを備える。

このように、連続して発話されやすいグループの音声コマンドをグループ化し、音声コマンドを認識する際には、コマンド履歴情報のコマンドグループＩＤとコマンド認識時刻とを用いて、処理対象の音声コマンドを特定する。これにより、例えば、「次」などのように、意味があいまいで、また、複数のアプリケーションに対して共通する簡素化された発話であっても、ユーザの意図を反映したコマンド認識を行うことが可能となる。この結果、ユーザは自然な会話に近い発話内容によって所望の処理を実行させることができる。

また、同じアプリケーションに対する入力指示は連続して行われる可能性が高い。したがって、アプリケーションに対応してコマンドグループＩＤを付与することにより、音声コマンドの認識精度を高めることが可能となる。

また、履歴情報管理部５１は、コマンド認識時刻から所定期間以上経過した履歴をコマンド履歴情報から削除する。これにより、コマンド履歴情報には、過去所定期間内に認識された音声コマンドだけが登録されることとなる。これにより、ユーザが意図しないコマンド解釈を防ぐことが可能となる。

また、音声コマンドにコマンドグループＩＤを付与することにより、音声コマンドをコマンドグループ毎に区分けすることができる。これにより、例えば、アプリケーション間における発話パターンの調整や音声コマンドの調整を行う必要がなく、自由にこれらの定義を行うことができる。

〔第２実施形態〕
次に、本発明の第２実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムについて図面を参照して説明する。
上述した第１実施形態では、音声コマンドにコマンドグループＩＤを含め、コマンドグループＩＤを用いて候補コマンドから処理対象の音声コマンドを特定したが、本実施形態では、コマンドグループＩＤを用いない点が異なる。
以下、上述した第１実施形態と共通する点については説明を省略し、異なる点について主に説明する。

例えば、ユーザがニュースを読んでいる際、「次のニュース」との発話の後に「次」と発話した場合は、この「次」との発話は、その前に行われた「次のニュース」を簡素化した指示であると解釈することができる。
このように、本実施形態では、連続して発話される可能性の高い異なる発話パターンであって、同じ意味を意図している発話パターンを一つのグループとして捉え、これらに共通のコマンドＩＤを付与する。

例えば、図９に示すように、発話パターン「次のニュース」、「次」を一つの連続する発話グループとして捉え、これら発話パターンに共通のコマンドＩＤ「ＮｅｘｔＮｅｗｓ」を関連付けてコマンド定義情報ＤＦ１’に予め登録しておく。

このようなコマンド定義情報ＤＦ１’の作りこみをすることで、上述した第１実施形態のように、コマンドグループＩＤを用いずに処理対象の音声コマンドを特定することが可能となる。以下、本実施形態に係る音声コマンド認識方法について簡単に説明する。
なお、本実施形態に係る実行処理定義情報（図示略）は、図４に示した実行処理定義情報ＤＦ２においてコマンドグループＩＤの情報が省略されたものとされる。また、履歴情報管理部５１によって管理されるコマンド履歴情報には、少なくともコマンドＩＤと時間情報とが関連付けられて登録される。

例えば、ユーザによって「次」との発話が行われた場合、コマンド候補特定部５２によって上述した第１実施形態と同様の処理が行われ、コマンド候補が特定される。これにより、例えば、図１０に示すように、コマンドＩＤ「ＮｅｘｔＮｅｗｓ」、「ＮｅｘｔＭｕｓｉｃ」の音声コマンドＣ２、Ｃ４がコマンド候補として特定される。

続いて、コマンド特定部（図示略）は、コマンド候補である音声コマンドＣ２，Ｃ４のいずれかを処理対象の音声コマンドとして特定する。例えば、コマンド特定部は、図１０に例示するように、コマンド候補である音声コマンドＣ２のコマンドＩＤ「ＮｅｘｔＮｅｗｓ」と、コマンド候補である音声コマンドＣ４のコマンドＩＤ「ＮｅｘｔＭｕｓｉｃ」と、コマンド履歴情報に登録されているコマンドＩＤとを照合する。このとき、コマンド特定部は、コマンド履歴情報に登録されている複数のコマンドＩＤのうち、コマンド認識時刻が新しいコマンドＩＤから順に照合を行う。この結果、図１０に示した例では、コマンドＩＤ「ＮｅｘｔＮｅｗｓ」が互いに一致することとなり、コマンドＩＤ「ＮｅｘｔＮｅｗｓ」の音声コマンドＣ２が処理対象の音声コマンドとして特定される。

本実施形態によれば、連続して発話されやすいグループの発話パターンをグループ化して共通のコマンドＩＤを付与し、音声コマンドを認識する際には、コマンド履歴情報のコマンドＩＤとコマンド認識時刻とを用いて、音声コマンドを特定する。これにより、発話パターンを簡略化することができるとともに、ユーザの意図を反映したコマンド認識を行うことが可能となる。

〔第３実施形態〕
次に、本発明の第３実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムについて図面を参照して説明する。
例えば、上述した「次」との発話の他、ユーザが繰り返し指示を出す可能性のある発話パターンとして「もっと」などがある。この「もっと」という発話は、その前に発話された内容によって意味が変わる。例えば、テレビを視聴しているときに「もっと」と発話された場合、解釈としては、チャンネルを上げる、チャンネルを下げる、音量を上げる、音量を下げる等、判断がつきにくい。しかしながら、「もっと」と発話される前に「チャンネルを上げて」と発話されていた場合、「もっと」という発話は、「チャンネルを上げる」ことを意図していると解釈できる。
本実施形態は、「もっと」等のようなあいまいな発話からユーザが意図するコマンドを認定する点に特徴を有する。
以下、上述した第１実施形態と共通する点については説明を省略し、異なる点について主に説明する。

図１１は、本実施形態に係るコマンド定義情報ＤＦ１の一例を示した図、図１２は、本実施形態に係る実行処理定義情報ＤＦ２の一例を示した図である。
コマンド定義情報ＤＦ１には、第１実施形態で説明した通り、発話パターンとコマンドＩＤとが関連付けられて登録されている。図１１に例示したコマンド定義情報ＤＦ１では、発話パターン「チャンネルを上げて」とコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」とが関連付けられ、発話パターン「チャンネルを下げて」とコマンドＩＤ「ＣｈａｎｎｅｌＤｏｗｎ」とが関連付けられ、発話パターン「もっと」とコマンドＩＤ「Ｍｏｒｅ」とが関連付けられている。

実行処理定義情報ＤＦ２には、第１実施形態で説明した通り、複数の音声コマンドが登録されている。本実施形態において、音声コマンドは、独立コマンドと従属コマンドに区別される。
独立コマンドは、実行処理が定義されたコマンドである。例えば、第１実施形態で説明した音声コマンドは、全て独立コマンドである。
独立コマンドの音声コマンドは、コマンドＩＤ、コマンドグループＩＤ、及び実行する処理内容を含んでいる。

一方、従属コマンドは、従属コマンドだけでは実行する処理内容が決定されず、従属する独立コマンドに応じて実行処理が変化するコマンドである。従属コマンドの音声コマンドは、例えば、コマンドＩＤ、コマンドグループＩＤ、従属する複数の独立コマンドのコマンドＩＤを含んでいる。

図１２に例示した実行処理定義情報ＤＦ２では、独立コマンドとして、音声コマンドＣ１１，Ｃ１２が示されており、従属コマンドとして音声コマンドＣ１３が示されている。具体的には、独立コマンドである音声コマンドＣ１１には、コマンドＩＤ「ＣｈａｎｎｅｌＵｐ」、コマンドグループＩＤ「ＴＶＧｒｏｕｐ」、及び実行処理が登録され、音声コマンドＣ１２には、コマンドＩＤ「ＣｈａｎｎｅｌＤｏｗｎ」、コマンドグループＩＤ「ＴＶＧｒｏｕｐ」、及び実行処理が登録されている。

また、従属コマンドである音声コマンドＣ１３には、コマンドＩＤ「Ｍｏｒｅ」、コマンドグループＩＤ「ＴＶＧｒｏｕｐ」、及び従属する独立コマンドの情報としてコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」、「ＣｈａｎｎｅｌＤｏｗｎ」が登録されている。音声コマンドＣ１３がコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」に従属した場合には、コマンドＩＤ「ＣｈａｎｎｅｌＵｐ」で識別される音声コマンドＣ１１の処理内容とし、コマンドＩＤ「ＣｈａｎｎｅｌＤｏｗｎ」に従属した場合には、コマンドＩＤ「ＣｈａｎｎｅｌＤｏｗｎ」で識別される音声コマンドＣ１２の処理内容とする。

図１３は、本実施形態にコマンド認識部５０ａが有する機能の一例を示した機能ブロック図である。
図１３に示すように、本実施形態に係るコマンド認識部５０ａは、履歴情報管理部５１、コマンド候補特定部５２、コマンド特定部５３、及び処理決定部５４を備えている。
処理決定部５４は、コマンド特定部５３によって特定された音声コマンドの処理内容を決定する。

処理決定部５４は、判定部６１と、独立コマンド特定部６２と、決定部６３とを備えている。
判定部６１は、コマンド特定部５３によって特定された音声コマンドが独立コマンドか従属コマンドか否かを判定する。
判定部６１によって独立コマンドであると判定された場合には、第１実施形態と同様であり、特定した音声コマンドに含まれるコマンドグループＩＤで識別される連携アプリケーションＡＰへ音声コマンドが出力される。これにより、連携アプリケーションＡＰにおいて音声コマンドに応じた処理が実行される。

一方、判定部６１によって従属コマンドであると判定された場合には、独立コマンド特定部６２によって、当該音声コマンドが従属する独立コマンドが特定される。独立コマンド特定部６２は、当該音声コマンドに登録されている独立コマンドのうち、最も直近に認識された独立コマンドをコマンド履歴情報から特定する。

例えば、独立コマンド特定部６２は、コマンド特定部５３によって特定された音声コマンドが図１２に示される音声コマンドＣ１３であった場合、音声コマンドＣ１３から従属する独立コマンドのコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」、「ＣｈａｎｎｅｌＤｏｗｎ」を取得する。そして、取得したコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」、「ＣｈａｎｎｅｌＤｏｗｎ」と、コマンド履歴情報のコマンドＩＤとを照合し、時間情報の最も新しいコマンドＩＤの音声コマンドを当該従属コマンドが従属する独立コマンドとして特定する。

例えば、図１４に示すように、コマンド履歴情報にコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」、「ＣｈａｎｎｅｌＤｏｗｎ」の音声コマンドの情報が登録されていた場合には、独立コマンド特定部６２は、時間情報の新しいコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」の音声コマンドを独立コマンドとして特定する。

決定部６３は、独立コマンド特定部６２によって特定された独立コマンドに基づいて、当該従属コマンドの処理内容を決定する。例えば、独立コマンドとしてコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」の音声コマンドＣ１１が特定された場合には、実行処理定義情報ＤＦ２からコマンドＩＤ「ＣｈａｎｎｅｌＵｐ」の処理内容を取得し、取得した処理内容に基づいて従属コマンドである音声コマンドＣ１３の処理内容を決定する。例えば、特定した独立コマンドの処理内容を当該従属コマンドである音声コマンドＣ１３の処理内容とする。これにより、当該音声コマンドＣ１３は、連携アプリケーションＡＰのテレビアプリケーションに出力され、チャンネルが上げられる。

以上説明してきたように、本実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムによれば、音声コマンドを独立コマンドと従属コマンドとに区分し、従属コマンドの音声コマンドに、従属する独立コマンドの情報を登録する。そして、処理決定部５４は、コマンド特定部５３によって特定された音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドをコマンド履歴情報を用いて特定し、特定した独立コマンドの処理内容に基づいて従属コマンドである当該音声コマンドの処理内容を決定する。

このような構成を備えることにより、「もっと」などの意味があいまいな発話からユーザが意図するコマンドを認識することが可能となる。特に、「もっと」は、先行して発話したコマンドを繰り返し指示する言葉である。本実施形態によれば、ユーザが先行して指示したコマンドを簡素な発話で繰り返し実行させることが可能となる。

以上、本発明について実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更又は改良を加えることができ、該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。また、上記実施形態を適宜組み合わせてもよい。

例えば、第３実施形態では、処理決定部５４が第１実施形態に係るコマンド認識部５０に適用される場合を例示して説明したが、第３実施形態に係る処理決定部５４の適用はこの例に限られない。例えば、第２実施形態に係るコマンド認識部に適用することも可能である。また、公知の音声エージェント機能にも汎用的に適用することが可能である。

また、各実施形態では、情報処理装置１が音声認識システムを搭載している場合を例示して説明したが、この例に限られない。例えば、音声認識システムの一部の構成が他のシステムやサーバに搭載されてもよい。この場合、通信部１６（図１参照）を通じて他の構成と接続し、上述した処理を実現させる。例えば、音声エージェント部３０が備える音声認識部４０は、所定のサーバ上に設けられていてもよい。

１：情報処理装置
１１：ＣＰＵ
１２：メインメモリ
１３：記憶部
１４：マイク
１５：スピーカ
１６：通信部
１７：入力部
１８：表示部
２０：コマンド定義データベース
３０：音声エージェント部
４０：音声認識部
５０：コマンド認識部
５０ａ：コマンド認識部
５１：履歴情報管理部
５２：コマンド候補特定部
５３：コマンド特定部
５４：処理決定部
６１：判定部
６２：独立コマンド特定部
６３：決定部

Claims

コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理部と、
コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定部と、
複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定部と、
前記コマンド特定部によって特定された音声コマンドに対応する処理内容を決定する処理決定部と
を備え、
前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、
前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、
前記処理決定部は、
前記コマンド特定部によって特定された音声コマンドが従属コマンドか否かを判定する判定部と、
特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定部と、
特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定部と
を備える音声コマンド認識システム。
前記コマンド特定部は、各コマンド候補のコマンドグループ情報と一致する音声コマンドの情報のうち、最も新しい時間情報を有する音声コマンドの情報とコマンドグループ情報が一致する候補コマンドを処理対象の音声コマンドとして特定する請求項１に記載の音声コマンド認識システム。
前記コマンドグループ情報は、音声コマンドを実行するアプリケーションに対応して設けられている請求項１又は２に記載の音声コマンド認識システム。
前記履歴情報管理部は、現在から所定期間以上前の時間情報を有する音声コマンドの情報を前記コマンド履歴情報から削除する請求項１から３のいずれかに記載の音声コマンド認識システム。
コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理工程と、
コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定工程と、
複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定工程と、
前記コマンド特定工程において特定された音声コマンドに対応する処理内容を決定する処理決定工程と
をコンピュータが実行し、
前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、
前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、
前記処理決定工程は、
前記コマンド特定工程において特定された音声コマンドが従属コマンドか否かを判定する判定工程と、
特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定工程と、
特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定工程と
を含む音声コマンド認識方法。
コンピュータを請求項１から４のいずれかに記載の音声コマンド認識システムとして機能させるためのプログラム。