JP7385635B2 - 音声コマンド認識システム、音声コマンド認識方法、及びプログラム - Google Patents

音声コマンド認識システム、音声コマンド認識方法、及びプログラム Download PDF

Info

Publication number
JP7385635B2
JP7385635B2 JP2021131693A JP2021131693A JP7385635B2 JP 7385635 B2 JP7385635 B2 JP 7385635B2 JP 2021131693 A JP2021131693 A JP 2021131693A JP 2021131693 A JP2021131693 A JP 2021131693A JP 7385635 B2 JP7385635 B2 JP 7385635B2
Authority
JP
Japan
Prior art keywords
command
voice
information
dependent
voice command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021131693A
Other languages
English (en)
Other versions
JP2023026071A (ja
Inventor
武 飯野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2021131693A priority Critical patent/JP7385635B2/ja
Publication of JP2023026071A publication Critical patent/JP2023026071A/ja
Application granted granted Critical
Publication of JP7385635B2 publication Critical patent/JP7385635B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声コマンド認識システム、音声コマンド認識方法、及びプログラムに関するものである。
近年、ユーザが発話した音声コマンドに従って種々の処理を行う音声エージェント機能を搭載した情報処理装置が提案されている(例えば、特許文献1参照)。
特開2020-134627号公報
従来の音声エージェント機能は、例えば、あいまいな発話パターンを許容していないため、ユーザは意味が明確となるように発話を行う必要があった。例えば、「次」という発話パターンでは、音声エージェント機能は、ユーザが何を意図しているのか解釈できない。このため、例えば、ユーザは「次のニュースを読んで」、「次の曲を再生して」等の冗長的な発話を行い、指示を行う必要があった。このような冗長的な発話は、自然な会話に近い対話の実現を妨げる要因になっていた。
本発明は、このような事情に鑑みてなされたものであって、発話パターンの簡略化を図るとともに、ユーザの意図を反映したコマンド認識を行うことのできる音声コマンド認識システム、音声コマンド認識方法、及びプログラムを提供することを目的とする。
本発明の第1態様は、コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理部と、コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定部と、複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定部と、前記コマンド特定部によって特定された音声コマンドに対応する処理内容を決定する処理決定部とを備え、前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、前記処理決定部は、前記コマンド特定部によって特定された音声コマンドが従属コマンドか否かを判定する判定部と、特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定部と、特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定部とを備える音声コマンド認識システムである。
本発明の第2態様は、コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理工程と、コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定工程と、複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定工程と、前記コマンド特定工程において特定された音声コマンドに対応する処理内容を決定する処理決定工程とをコンピュータが実行し、前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、前記処理決定工程は、前記コマンド特定工程において特定された音声コマンドが従属コマンドか否かを判定する判定工程と、特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定工程と、特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定工程とを含む音声コマンド認識方法である。
本発明の第3態様は、コンピュータを上記記載の音声コマンド認識システムとして機能させるためのプログラムである。
本発明によれば、発話パターンの簡略化を図るとともに、ユーザの意図を反映したコマンド認識を行うことができるという効果を奏する。
本発明の第1実施形態に係る情報処理装置のハードウェア構成の一例を示した概略構成図である。 本発明の第1実施形態に係る情報処理装置が備える機能の一例を示した機能ブロック図である。 本発明の第1実施形態に係るコマンド定義情報の一例を示した図である。 本発明の第1実施形態に係る実行処理定義情報の一例を示した図である。 本発明の第1実施形態に係るコマンド認識部が備える機能を示した機能ブロック図である。 本発明の第1実施形態に係るコマンド履歴情報の一例を示した図である。 本発明の第1実施形態に係るコマンド特定部が行う処理について説明するための図である。 本発明の第1実施形態に係るコマンド履歴管理部が行う処理について説明するための図である。 本発明の第2実施形態に係るコマンド定義情報の一例を示した図である。 本発明の第2実施形態に係るコマンド特定部が行う処理について説明するための図である。 本発明の第3実施形態に係るコマンド定義情報の一例を示した図である。 本発明の第3実施形態に係る実行処理定義情報の一例を示した図である。 本発明の第3実施形態に係るコマンド認識部が有する機能の一例を示した機能ブロック図である。 本発明の第3実施形態に係る独立コマンド特定部が行う処理について説明するための図である。
〔第1実施形態〕
以下に、本発明の第1実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムについて、図面を参照して説明する。本実施形態では、音声コマンド認識システムが情報処理装置1に搭載されている場合を例示して説明する。
情報処理装置1の一例として、ノートPC、デスクトップ型PC、タブレット端末、スマートフォン等が挙げられる。
図1は、本発明の第1実施形態に係る情報処理装置1のハードウェア構成の一例を示した概略構成図である。
図1に示すように、情報処理装置1は、例えば、CPU(Central Processing Unit)11、メインメモリ12、記憶部13、マイク14、スピーカ15、通信部16、入力部17、及び表示部18等を備えている。これら各部は直接的にまたはバスを介して間接的に相互に接続されており互いに連携して各種処理を実行する。
CPU11は、例えば、バスを介して接続された記憶部13に格納されたOS(Operating System)により情報処理装置1全体の制御を行うとともに、記憶部13に格納された各種プログラムを実行することにより各種処理を実行する。
メインメモリ12は、キャッシュメモリ、RAM(Random Access Memory)等の書き込み可能なメモリで構成され、CPU11の実行プログラムの読み出し、実行プログラムによる処理データの書き込み等を行う作業領域として利用される。
記憶部13は、例えば、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等であり、例えば、Windows(登録商標)、iOS(登録商標)、Android(登録商標)等の情報処理装置1全体の制御を行うためのOS、周辺機器類をハードウェア操作するための各種デバイスドライバ、各種アプリケーションソフトウェア(以下、単に「アプリケーション」という。)、及び各種データやファイル等を格納する。また、記憶部13には、各種処理を実現するためのプログラムや、各種処理を実現するために必要とされる各種データが格納されている。
マイク14は、ユーザが発話した音声や環境音を音声信号に変換して出力する。
スピーカ15は、音声信号を音声に変換して出力する。
通信部16は、ネットワークに接続するための通信インターフェースを備え、3GやLTE、5G回線を含むワイヤレスネットワークや、有線/無線LAN、Bluetooth(登録商標)等のネットワークに接続し、他のデバイスとの通信を確立させ、情報の相互通信を実現させる。
入力部17は、例えば、キーボード、マウス、タッチパネル等、ユーザが情報処理装置1に対して指示を与えるためのユーザインタフェースである。
表示部18は、例えば、LCD(Liquid Crystal Display)、有機EL(Electro Luminescence)等で構成される表示画面を有し、CPU11からの指令に基づいて動作する。
図2は、本実施形態に係る情報処理装置1が備える機能の一例を示した機能ブロック図である。
後述する各種機能を実現するための一連の処理は、一例として、プログラム(例えば、音声コマンド認識プログラム)の形式で記憶部13に記憶されており、このプログラムをCPU11がメインメモリ12に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。なお、プログラムは、記憶部13に予めインストールされている形態や、他のコンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
図2に示すように、情報処理装置1は、例えば、コマンド定義データベース20と、音声エージェント部30と、連携アプリケーションAPとを備えている。コマンド定義データベース20には、コマンド定義情報DF1と、実行処理定義情報DF2とが格納されている。
音声エージェント部30は、例えば、音声認識部40と、コマンド認識部50とを備えている。
そして、本実施形態に係る音声認識システムは、一例として、コマンド定義データベース20と、音声エージェント部30に実装されたコマンド認識部50を備えている。
コマンド定義情報DF1は、例えば、図3に例示されるように、発話パターンとコマンドIDとが関連付けられて登録されている。図3に例示したコマンド定義情報DF1では、発話パターン「ニュースを読んで」とコマンドID「ReadNews」とが関連付けられ、発話パターン「次」とコマンドID「NextNews」とが関連付けられ、発話パターン「音楽を再生して」とコマンドID「PlayMusic」とが関連付けられ、発話パターン「次」とコマンドID「NextMusic」とが関連付けられている。
実行処理定義情報DF2は、例えば、図4に例示されるように、複数の音声コマンドが登録されている。音声コマンドは、例えば、コマンドIDと、コマンドグループID(コマンドグループ情報)と、実行する処理内容とを含んでいる。コマンドグループIDは、例えば、情報処理装置1に搭載される連携アプリケーションAPに対応して設けられている。例えば、図4に例示した実行処理定義情報DF2では、コマンドグループIDとして、「ニュースグループ」と、「音楽グループ」が示されている。
コマンドグループID「ニュースグループ」を含む音声コマンドは、ニュースアプリに対する音声コマンドであり、コマンドグループID「音楽グループ」を含む音声コマンドは、音楽アプリに対する音声コマンドである。
図4に例示した実行処理定義情報DF2には、コマンドグループID「NewsGroup」に属する音声コマンドとして音声コマンドC1、C2が示され、コマンドグループID「MusicGroup」に属する音声コマンドとして音声コマンドC3、C4が示されている。
音声エージェント部30は、上述したように、音声認識部40と、コマンド認識部50を備えている。
音声認識部40は、例えば、ユーザが発話した音声を音声認識し、音声認識結果を出力する。これにより、例えば、発話内容を示すデータが出力される。なお、音声認識については公知の技術を採用すればよく、ここでの詳細な説明は省略する。
コマンド認識部50は、音声認識部40によって認識された発話内容に基づいてユーザが意図したコマンドを認識する。
コマンド認識部50は、図5に示すように、履歴情報管理部51と、コマンド候補特定部52と、コマンド特定部53とを備えている。
履歴情報管理部51は、コマンド履歴情報を管理する。コマンド履歴情報は、後述するコマンド特定部53によって過去に特定された音声コマンドの履歴を示す情報である。例えば、コマンド履歴情報には、過去に特定された音声コマンドのコマンドグループIDと時間情報とが関連付けられて登録されている。
図6にコマンド履歴情報の一例を示す。図6に例示するコマンド履歴情報では、コマンドグループIDと時間情報に加えて、コマンドID及び発話パターンが登録されている。また、時間情報として、音声コマンドを特定した時刻であるコマンド認識時刻が登録されている。なお、時間情報は、コマンド認識時刻に限られない。例えば、ユーザの発話を受け付けた時刻から音声コマンドが連携アプリケーションAPに出力されるまでの任意のタイミングの時刻を時間情報として採用することが可能である。
履歴情報管理部51は、後述するコマンド特定部53によって音声コマンドが特定された場合に、特定された音声コマンドの情報と時間情報とを関連付けてコマンド履歴情報に登録する。また、履歴情報管理部51は、コマンド認識時刻から所定期間経過した音声コマンドの情報をコマンド履歴情報から削除する。換言すると、履歴情報管理部51は、現在から所定期間以上前の時間情報を有する音声コマンドの情報をコマンド履歴情報から削除する。
コマンド候補特定部52は、コマンド定義データベース20に格納されている定義情報を用いて、ユーザが発話した発話内容と所定の条件を満たす音声コマンドをコマンド候補として特定する。例えば、コマンド候補特定部52は、音声認識部40(図2参照)による音声認識結果とコマンド定義情報DF1とを照合し、音声認識結果に一致する発話パターンと関連付けられたコマンドIDを特定する。続いて、特定したコマンドIDで識別される音声コマンドをコマンド候補として実行処理定義情報DF2から特定する。
コマンド特定部53は、コマンド候補特定部52によって特定された音声コマンドが一つである場合、そのコマンド候補を処理対象の音声コマンドとして特定する。
また、コマンド特定部53は、コマンド候補特定部52によって複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループIDと、コマンド履歴情報に登録されているコマンドグループID及び時間情報を用いて、複数のコマンド候補のいずれかを処理対象の音声コマンドとして特定する。
コマンド特定部53は、例えば、各コマンド候補のコマンドグループIDと一致する音声コマンドの情報のうち、最も新しい時間情報を有する音声コマンドの情報とコマンドグループIDが一致する候補コマンドを処理対象の音声コマンドとして特定する。
なお、複数の候補コマンドからいずれか一つの候補コマンドを絞りきれなかった場合、音声コマンドの認識に失敗したと判定する。
例えば、コマンド特定部53は、コマンド履歴情報から時間情報が新しい順にコマンドグループIDを取得し、取得したコマンドグループIDとコマンド候補のコマンドグループIDとを照合する。そして、最初に照合結果が一致したコマンド候補を処理対象の音声コマンドとして特定する。
コマンド特定部53によって特定された音声コマンドは、例えば、その音声コマンドに含まれるコマンドグループIDで識別される連携アプリケーションAPに出力される。これにより、音声コマンドに応じた処理が実行される。
次に、本実施形態に係る音声コマンド認識方法について説明する。以下の説明では、説明の便宜上、図3に示したコマンド定義情報DF1及び図4に示した実行処理定義情報DF2がコマンド定義データベース20に格納され、また、図6に示したコマンド履歴情報が履歴情報管理部51によって管理されている状態で、ユーザによって「次」という発話が行われた場合を例示して説明する。
まず、ユーザによって発話された「次」との音声は、マイク14(図1参照)によって音声データに変換され、音声エージェント部30(図2参照)に入力される。
音声エージェント部30の音声認識部40は、音声データに基づいてユーザによる「次」との発話を認識し、音声認識結果をコマンド認識部50に出力する。
コマンド認識部50のコマンド候補特定部52は、例えば、音声認識結果である「次」との発話と、コマンド定義情報DF1の発話パターンとを照合し、発話「次」と所定の条件を満たす発話パターンを特定し、さらに、特定した発話パターンに関連付けられているコマンドIDを特定する。この結果、例えば、図3に示したコマンド定義情報DF1からコマンドID「NextNews」、「NextMusic」が特定される。続いて、コマンド候補特定部52は、特定したコマンドIDで識別される音声コマンドをコマンド候補として実行処理定義情報DF2から特定する。この結果、コマンドID「NextNews」に対応する音声コマンドC2及びコマンドID「NextMusic」に対応する音声コマンドC4がコマンド候補として特定される。
コマンド特定部53は、コマンド候補である音声コマンドC2、C4から処理対象の音声コマンドを特定する。例えば、コマンド特定部53は、図7に例示するように、コマンド候補である音声コマンドC2のコマンドグループID「NewsGroup」と、コマンド候補である音声コマンドC4のコマンドグループID「MusicGroup」と、コマンド履歴情報に登録されているコマンドグループIDとを照合する。このとき、コマンド特定部53は、コマンド履歴情報に登録されている複数のコマンドグループIDのうち、コマンド認識時刻が新しいものから順に照合を行い、最初に照合結果が一致したコマンド候補を処理対象の音声コマンドとして特定する。
具体的には、コマンド特定部53は、コマンド候補である音声コマンドC2のコマンドグループID「NewsGroup」、音声コマンドC4のコマンドグループID「MusicGroup」のそれぞれと、コマンド認識時刻が最も新しいコマンドグループID「NewsGroup」とを照合する。この結果、コマンドグループID「NewsGroup」を有する音声コマンドC2が処理対象の音声コマンドとして特定される。
コマンド特定部53によって特定された音声コマンドC2は、その音声コマンドC2に含まれるコマンドグループID「NewsGroup」で識別される連携アプリケーションAPであるニュースアプリケーションに出力される。これにより、ニュースアプリケーションにおいて音声コマンドC2に応じた処理が実行される。
また、履歴情報管理部51は、コマンド特定部53によって音声コマンドC2が特定されると、特定された音声コマンドC2に基づいてコマンド履歴情報を更新する。これにより、図8に示すように、コマンドID「NextNews」で識別される音声コマンドC2の情報がコマンド履歴情報に登録されることとなる。
また、履歴情報管理部51は、コマンド履歴情報に登録してから所定期間が経過した履歴を削除する。
以上説明したように、本実施形態に係る音声コマンド認識システムは、過去に特定された音声コマンドの情報がコマンド認識時刻(時間情報)と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理部51と、コマンドグループID(コマンドグループ情報)を含む複数の音声コマンドが定義された定義情報(コマンド定義情報DF1、実行処理定義情報DF2)を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定部52と、複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループIDと、コマンド履歴情報に登録されている音声コマンドのコマンドグループID及びコマンド認識時刻を用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定部53とを備える。
このように、連続して発話されやすいグループの音声コマンドをグループ化し、音声コマンドを認識する際には、コマンド履歴情報のコマンドグループIDとコマンド認識時刻とを用いて、処理対象の音声コマンドを特定する。これにより、例えば、「次」などのように、意味があいまいで、また、複数のアプリケーションに対して共通する簡素化された発話であっても、ユーザの意図を反映したコマンド認識を行うことが可能となる。この結果、ユーザは自然な会話に近い発話内容によって所望の処理を実行させることができる。
また、同じアプリケーションに対する入力指示は連続して行われる可能性が高い。したがって、アプリケーションに対応してコマンドグループIDを付与することにより、音声コマンドの認識精度を高めることが可能となる。
また、履歴情報管理部51は、コマンド認識時刻から所定期間以上経過した履歴をコマンド履歴情報から削除する。これにより、コマンド履歴情報には、過去所定期間内に認識された音声コマンドだけが登録されることとなる。これにより、ユーザが意図しないコマンド解釈を防ぐことが可能となる。
また、音声コマンドにコマンドグループIDを付与することにより、音声コマンドをコマンドグループ毎に区分けすることができる。これにより、例えば、アプリケーション間における発話パターンの調整や音声コマンドの調整を行う必要がなく、自由にこれらの定義を行うことができる。
〔第2実施形態〕
次に、本発明の第2実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムについて図面を参照して説明する。
上述した第1実施形態では、音声コマンドにコマンドグループIDを含め、コマンドグループIDを用いて候補コマンドから処理対象の音声コマンドを特定したが、本実施形態では、コマンドグループIDを用いない点が異なる。
以下、上述した第1実施形態と共通する点については説明を省略し、異なる点について主に説明する。
例えば、ユーザがニュースを読んでいる際、「次のニュース」との発話の後に「次」と発話した場合は、この「次」との発話は、その前に行われた「次のニュース」を簡素化した指示であると解釈することができる。
このように、本実施形態では、連続して発話される可能性の高い異なる発話パターンであって、同じ意味を意図している発話パターンを一つのグループとして捉え、これらに共通のコマンドIDを付与する。
例えば、図9に示すように、発話パターン「次のニュース」、「次」を一つの連続する発話グループとして捉え、これら発話パターンに共通のコマンドID「NextNews」を関連付けてコマンド定義情報DF1’に予め登録しておく。
このようなコマンド定義情報DF1’の作りこみをすることで、上述した第1実施形態のように、コマンドグループIDを用いずに処理対象の音声コマンドを特定することが可能となる。以下、本実施形態に係る音声コマンド認識方法について簡単に説明する。
なお、本実施形態に係る実行処理定義情報(図示略)は、図4に示した実行処理定義情報DF2においてコマンドグループIDの情報が省略されたものとされる。また、履歴情報管理部51によって管理されるコマンド履歴情報には、少なくともコマンドIDと時間情報とが関連付けられて登録される。
例えば、ユーザによって「次」との発話が行われた場合、コマンド候補特定部52によって上述した第1実施形態と同様の処理が行われ、コマンド候補が特定される。これにより、例えば、図10に示すように、コマンドID「NextNews」、「NextMusic」の音声コマンドC2、C4がコマンド候補として特定される。
続いて、コマンド特定部(図示略)は、コマンド候補である音声コマンドC2,C4のいずれかを処理対象の音声コマンドとして特定する。例えば、コマンド特定部は、図10に例示するように、コマンド候補である音声コマンドC2のコマンドID「NextNews」と、コマンド候補である音声コマンドC4のコマンドID「NextMusic」と、コマンド履歴情報に登録されているコマンドIDとを照合する。このとき、コマンド特定部は、コマンド履歴情報に登録されている複数のコマンドIDのうち、コマンド認識時刻が新しいコマンドIDから順に照合を行う。この結果、図10に示した例では、コマンドID「NextNews」が互いに一致することとなり、コマンドID「NextNews」の音声コマンドC2が処理対象の音声コマンドとして特定される。
本実施形態によれば、連続して発話されやすいグループの発話パターンをグループ化して共通のコマンドIDを付与し、音声コマンドを認識する際には、コマンド履歴情報のコマンドIDとコマンド認識時刻とを用いて、音声コマンドを特定する。これにより、発話パターンを簡略化することができるとともに、ユーザの意図を反映したコマンド認識を行うことが可能となる。
〔第3実施形態〕
次に、本発明の第3実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムについて図面を参照して説明する。
例えば、上述した「次」との発話の他、ユーザが繰り返し指示を出す可能性のある発話パターンとして「もっと」などがある。この「もっと」という発話は、その前に発話された内容によって意味が変わる。例えば、テレビを視聴しているときに「もっと」と発話された場合、解釈としては、チャンネルを上げる、チャンネルを下げる、音量を上げる、音量を下げる等、判断がつきにくい。しかしながら、「もっと」と発話される前に「チャンネルを上げて」と発話されていた場合、「もっと」という発話は、「チャンネルを上げる」ことを意図していると解釈できる。
本実施形態は、「もっと」等のようなあいまいな発話からユーザが意図するコマンドを認定する点に特徴を有する。
以下、上述した第1実施形態と共通する点については説明を省略し、異なる点について主に説明する。
図11は、本実施形態に係るコマンド定義情報DF1の一例を示した図、図12は、本実施形態に係る実行処理定義情報DF2の一例を示した図である。
コマンド定義情報DF1には、第1実施形態で説明した通り、発話パターンとコマンドIDとが関連付けられて登録されている。図11に例示したコマンド定義情報DF1では、発話パターン「チャンネルを上げて」とコマンドID「ChannelUp」とが関連付けられ、発話パターン「チャンネルを下げて」とコマンドID「ChannelDown」とが関連付けられ、発話パターン「もっと」とコマンドID「More」とが関連付けられている。
実行処理定義情報DF2には、第1実施形態で説明した通り、複数の音声コマンドが登録されている。本実施形態において、音声コマンドは、独立コマンドと従属コマンドに区別される。
独立コマンドは、実行処理が定義されたコマンドである。例えば、第1実施形態で説明した音声コマンドは、全て独立コマンドである。
独立コマンドの音声コマンドは、コマンドID、コマンドグループID、及び実行する処理内容を含んでいる。
一方、従属コマンドは、従属コマンドだけでは実行する処理内容が決定されず、従属する独立コマンドに応じて実行処理が変化するコマンドである。従属コマンドの音声コマンドは、例えば、コマンドID、コマンドグループID、従属する複数の独立コマンドのコマンドIDを含んでいる。
図12に例示した実行処理定義情報DF2では、独立コマンドとして、音声コマンドC11,C12が示されており、従属コマンドとして音声コマンドC13が示されている。具体的には、独立コマンドである音声コマンドC11には、コマンドID「ChannelUp」、コマンドグループID「TVGroup」、及び実行処理が登録され、音声コマンドC12には、コマンドID「ChannelDown」、コマンドグループID「TVGroup」、及び実行処理が登録されている。
また、従属コマンドである音声コマンドC13には、コマンドID「More」、コマンドグループID「TVGroup」、及び従属する独立コマンドの情報としてコマンドID「ChannelUp」、「ChannelDown」が登録されている。音声コマンドC13がコマンドID「ChannelUp」に従属した場合には、コマンドID「ChannelUp」で識別される音声コマンドC11の処理内容とし、コマンドID「ChannelDown」に従属した場合には、コマンドID「ChannelDown」で識別される音声コマンドC12の処理内容とする。
図13は、本実施形態にコマンド認識部50aが有する機能の一例を示した機能ブロック図である。
図13に示すように、本実施形態に係るコマンド認識部50aは、履歴情報管理部51、コマンド候補特定部52、コマンド特定部53、及び処理決定部54を備えている。
処理決定部54は、コマンド特定部53によって特定された音声コマンドの処理内容を決定する。
処理決定部54は、判定部61と、独立コマンド特定部62と、決定部63とを備えている。
判定部61は、コマンド特定部53によって特定された音声コマンドが独立コマンドか従属コマンドか否かを判定する。
判定部61によって独立コマンドであると判定された場合には、第1実施形態と同様であり、特定した音声コマンドに含まれるコマンドグループIDで識別される連携アプリケーションAPへ音声コマンドが出力される。これにより、連携アプリケーションAPにおいて音声コマンドに応じた処理が実行される。
一方、判定部61によって従属コマンドであると判定された場合には、独立コマンド特定部62によって、当該音声コマンドが従属する独立コマンドが特定される。独立コマンド特定部62は、当該音声コマンドに登録されている独立コマンドのうち、最も直近に認識された独立コマンドをコマンド履歴情報から特定する。
例えば、独立コマンド特定部62は、コマンド特定部53によって特定された音声コマンドが図12に示される音声コマンドC13であった場合、音声コマンドC13から従属する独立コマンドのコマンドID「ChannelUp」、「ChannelDown」を取得する。そして、取得したコマンドID「ChannelUp」、「ChannelDown」と、コマンド履歴情報のコマンドIDとを照合し、時間情報の最も新しいコマンドIDの音声コマンドを当該従属コマンドが従属する独立コマンドとして特定する。
例えば、図14に示すように、コマンド履歴情報にコマンドID「ChannelUp」、「ChannelDown」の音声コマンドの情報が登録されていた場合には、独立コマンド特定部62は、時間情報の新しいコマンドID「ChannelUp」の音声コマンドを独立コマンドとして特定する。
決定部63は、独立コマンド特定部62によって特定された独立コマンドに基づいて、当該従属コマンドの処理内容を決定する。例えば、独立コマンドとしてコマンドID「ChannelUp」の音声コマンドC11が特定された場合には、実行処理定義情報DF2からコマンドID「ChannelUp」の処理内容を取得し、取得した処理内容に基づいて従属コマンドである音声コマンドC13の処理内容を決定する。例えば、特定した独立コマンドの処理内容を当該従属コマンドである音声コマンドC13の処理内容とする。これにより、当該音声コマンドC13は、連携アプリケーションAPのテレビアプリケーションに出力され、チャンネルが上げられる。
以上説明してきたように、本実施形態に係る音声コマンド認識システム、音声コマンド認識方法、及びプログラムによれば、音声コマンドを独立コマンドと従属コマンドとに区分し、従属コマンドの音声コマンドに、従属する独立コマンドの情報を登録する。そして、処理決定部54は、コマンド特定部53によって特定された音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドをコマンド履歴情報を用いて特定し、特定した独立コマンドの処理内容に基づいて従属コマンドである当該音声コマンドの処理内容を決定する。
このような構成を備えることにより、「もっと」などの意味があいまいな発話からユーザが意図するコマンドを認識することが可能となる。特に、「もっと」は、先行して発話したコマンドを繰り返し指示する言葉である。本実施形態によれば、ユーザが先行して指示したコマンドを簡素な発話で繰り返し実行させることが可能となる。
以上、本発明について実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更又は改良を加えることができ、該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。また、上記実施形態を適宜組み合わせてもよい。
例えば、第3実施形態では、処理決定部54が第1実施形態に係るコマンド認識部50に適用される場合を例示して説明したが、第3実施形態に係る処理決定部54の適用はこの例に限られない。例えば、第2実施形態に係るコマンド認識部に適用することも可能である。また、公知の音声エージェント機能にも汎用的に適用することが可能である。
また、各実施形態では、情報処理装置1が音声認識システムを搭載している場合を例示して説明したが、この例に限られない。例えば、音声認識システムの一部の構成が他のシステムやサーバに搭載されてもよい。この場合、通信部16(図1参照)を通じて他の構成と接続し、上述した処理を実現させる。例えば、音声エージェント部30が備える音声認識部40は、所定のサーバ上に設けられていてもよい。
1 :情報処理装置
11 :CPU
12 :メインメモリ
13 :記憶部
14 :マイク
15 :スピーカ
16 :通信部
17 :入力部
18 :表示部
20 :コマンド定義データベース
30 :音声エージェント部
40 :音声認識部
50 :コマンド認識部
50a :コマンド認識部
51 :履歴情報管理部
52 :コマンド候補特定部
53 :コマンド特定部
54 :処理決定部
61 :判定部
62 :独立コマンド特定部
63 :決定部

Claims (6)

  1. コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理部と、
    コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定部と、
    複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定部と
    前記コマンド特定部によって特定された音声コマンドに対応する処理内容を決定する処理決定部と
    を備え、
    前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、
    前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、
    前記処理決定部は、
    前記コマンド特定部によって特定された音声コマンドが従属コマンドか否かを判定する判定部と、
    特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定部と、
    特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定部と
    を備える音声コマンド認識システム。
  2. 前記コマンド特定部は、各コマンド候補のコマンドグループ情報と一致する音声コマンドの情報のうち、最も新しい時間情報を有する音声コマンドの情報とコマンドグループ情報が一致する候補コマンドを処理対象の音声コマンドとして特定する請求項1に記載の音声コマンド認識システム。
  3. 前記コマンドグループ情報は、音声コマンドを実行するアプリケーションに対応して設けられている請求項1又は2に記載の音声コマンド認識システム。
  4. 前記履歴情報管理部は、現在から所定期間以上前の時間情報を有する音声コマンドの情報を前記コマンド履歴情報から削除する請求項1から3のいずれかに記載の音声コマンド認識システム。
  5. コマンドグループ情報を含む音声コマンドの情報が時間情報と関連付けられて登録されたコマンド履歴情報を管理する履歴情報管理工程と、
    コマンドグループ情報を含む複数の音声コマンドが定義された定義情報を用いて、ユーザが発話した音声データに対応する音声コマンドをコマンド候補として特定するコマンド候補特定工程と、
    複数のコマンド候補が特定された場合に、コマンド候補のコマンドグループ情報と、前記コマンド履歴情報に登録されている前記音声コマンドのコマンドグループ情報及び時間情報とを用いて、複数のコマンド候補から処理対象の音声コマンドを特定するコマンド特定工程と
    前記コマンド特定工程において特定された音声コマンドに対応する処理内容を決定する処理決定工程と
    をコンピュータが実行し、
    前記音声コマンドは、実行処理が定義された独立コマンドと、従属する独立コマンドに応じて実行処理が変化する従属コマンドとに区分され、
    前記定義情報において、前記従属コマンドの音声コマンドには、従属する複数の独立コマンドの情報が登録されており、
    前記処理決定工程は、
    前記コマンド特定工程において特定された音声コマンドが従属コマンドか否かを判定する判定工程と、
    特定された前記音声コマンドが従属コマンドである場合に、当該音声コマンドが従属する独立コマンドのうち、最も直近に認識された独立コマンドを前記コマンド履歴情報を用いて特定する独立コマンド特定工程と、
    特定した独立コマンドの音声コマンドと従属コマンドである音声コマンドとに基づいて処理内容を決定する決定工程と
    を含む音声コマンド認識方法。
  6. コンピュータを請求項1からのいずれかに記載の音声コマンド認識システムとして機能させるためのプログラム。
JP2021131693A 2021-08-12 2021-08-12 音声コマンド認識システム、音声コマンド認識方法、及びプログラム Active JP7385635B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021131693A JP7385635B2 (ja) 2021-08-12 2021-08-12 音声コマンド認識システム、音声コマンド認識方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021131693A JP7385635B2 (ja) 2021-08-12 2021-08-12 音声コマンド認識システム、音声コマンド認識方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2023026071A JP2023026071A (ja) 2023-02-24
JP7385635B2 true JP7385635B2 (ja) 2023-11-22

Family

ID=85252225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021131693A Active JP7385635B2 (ja) 2021-08-12 2021-08-12 音声コマンド認識システム、音声コマンド認識方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7385635B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258892A (ja) 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
WO2015029379A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法、表示制御方法及び購入決済方法
JP2018207169A (ja) 2017-05-30 2018-12-27 株式会社デンソーテン 機器制御装置及び機器制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258892A (ja) 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
WO2015029379A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法、表示制御方法及び購入決済方法
JP2018207169A (ja) 2017-05-30 2018-12-27 株式会社デンソーテン 機器制御装置及び機器制御方法

Also Published As

Publication number Publication date
JP2023026071A (ja) 2023-02-24

Similar Documents

Publication Publication Date Title
USRE49762E1 (en) Method and device for performing voice recognition using grammar model
EP3195310B1 (en) Keyword detection using speaker-independent keyword models for user-designated keywords
US9336773B2 (en) System and method for standardized speech recognition infrastructure
US7689420B2 (en) Personalizing a context-free grammar using a dictation language model
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
US20190318737A1 (en) Dynamic gazetteers for personalized entity recognition
WO2017166631A1 (zh) 语音信号处理方法、装置和电子设备
US10621983B2 (en) Systems and methods for enhancing responsiveness to utterances having detectable emotion
US12033639B2 (en) Caching scheme for voice recognition engines
JP2023552798A (ja) 部分的仮説に基づくストリーミングアクション遂行
JP2000284795A (ja) テキストの挿入と置換を区別するための方法およびシステム
US20240029742A1 (en) Attentive scoring function for speaker identification
JP7385635B2 (ja) 音声コマンド認識システム、音声コマンド認識方法、及びプログラム
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
JP2009505203A (ja) インタラクションパターン及びアプリケーション機能を紹介する方法
TW201506685A (zh) 以語音辨識來選擇控制客體的裝置及方法
JP2023026072A (ja) 音声コマンド認識システム、音声コマンド認識方法、及びプログラム
KR20180096369A (ko) 차량 제어를 위한 음성 인식 지원 시스템 및 그 방법
JP5500647B2 (ja) 動的音声認識辞書の生成方法及びその生成装置
KR20200053242A (ko) 차량용 음성 인식 시스템 및 그 제어 방법
US12026196B2 (en) Error detection and correction for audio cache
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
JP2022014620A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2009020218A (ja) 音声登録装置及びその制御方法、コンピュータプログラム
JPS59176792A (ja) 話者識別方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231110

R150 Certificate of patent or registration of utility model

Ref document number: 7385635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150