JP2013064777A

JP2013064777A - 端末装置、音声認識プログラム、音声認識方法および音声認識システム

Info

Publication number: JP2013064777A
Application number: JP2011202064A
Authority: JP
Inventors: Kosuke Tsujino; 孝輔辻野; Shinya Iizuka; 真也飯塚; Toshiharu Kurisu; 俊治栗栖; Satoshi Suda; 悟史須田; Kyoko Masuda; 恭子増田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-09-15
Filing date: 2011-09-15
Publication date: 2013-04-11
Anticipated expiration: 2031-09-15
Also published as: JP5658641B2

Abstract

【課題】音声により入力されたコマンドを高速かつ確実に実行する。
【解決手段】本発明に係る端末装置１は、音声信号の入力を受け付ける音声入力部１１と、音声信号に対する音声認識を行う音声認識部１２と、音声信号を音声認識サーバ２に送信する音声送信部１４と、サーバ音声認識結果を受信するサーバ音声認識結果受信部１５と、複数のコマンドが登録されたコマンド辞書１７と、端末内音声認識結果をコマンド辞書１７と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合部１６と、コマンド照合部１６によって特定されたコマンドを実行するコマンド実行部１８と、を備えることを特徴とする。
【選択図】図１

Description

本発明は、音声認識結果を処理する端末装置、音声認識プログラム、音声認識方法および音声認識システムに関する。

マイクから入力された音声の内容を認識し、認識した結果をコマンドとして実行する技術がある。例えば、下記の特許文献１および特許文献２には、端末内音声認識を行い、端末内音声認識の結果をコマンドに変換する技術が開示されている。

特開２００７−３１８３１９号公報特開平７−２１９５８７号公報

しかしながら、上記特許文献１および特許文献２に記載の発明では、以下のような問題がある。すなわち、上記特許文献１および特許文献２に記載の発明では、音声認識の結果がコマンド辞書に登録されていればそのコマンドが実行され、登録されていなければエラーが通知される。端末内音声認識では、認識可能な語彙が限られるため、端末内音声認識の語彙外の単語がコマンドに含まれる場合、コマンドが正しく発話されても端末内の音声認識によって正しく認識されず、そのコマンドが実行されない場合がある。

そこで本発明は、このような問題点を解決するために、音声により入力されたコマンドを高速かつ確実に実行する端末装置、音声認識プログラム、音声認識方法および音声認識システムを提供することを目的とする。

上記課題を解決するため、本発明の端末装置は、音声信号の入力を受け付ける音声入力手段と、音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、複数のコマンドが登録されたコマンド辞書と、音声信号を音声認識サーバに送信する音声送信手段と、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、音声認識手段によって認識された音声認識結果である端末内音声認識結果をコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合手段と、コマンド照合手段によって特定されたコマンドを実行するコマンド実行手段と、を備えることを特徴とする。

また、本発明の音声認識システムは、端末装置と、音声認識サーバと、を含む音声認識システムであって、端末装置は、音声信号の入力を受け付ける音声入力手段と、音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、複数のコマンドが登録されたコマンド辞書と、音声信号を音声認識サーバに送信する音声送信手段と、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、音声認識手段によって認識された音声認識結果である端末内音声認識結果をコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合手段と、コマンド照合手段によって特定されたコマンドを実行するコマンド実行手段と、を備え、音声認識サーバは、音声送信手段から送信された音声信号を受信する音声受信手段と、端末装置よりも多くの語彙を含むサーバ辞書と、音声受信手段によって受信された音声信号を、サーバ辞書に基づいて音声認識するサーバ音声認識手段と、サーバ音声認識結果を端末装置に送信するサーバ音声認識結果送信手段と、を備えることを特徴とする。

本発明によれば、端末内音声認識結果をコマンド辞書と照合し、照合した結果に基づいて端末内音声認識結果およびサーバ音声認識結果のいずれの音声認識結果を利用するか決定することによって、例えば、端末内音声認識結果がコマンドとして受理される場合は、端末内音声認識結果を利用してコマンドの実行を行い、端末内音声認識結果がコマンドとして受理できない場合には、サーバ音声認識結果を利用することができる。すなわち、端末内の語彙で認識可能なコマンドが音声入力された際には、端末内音声認識結果を利用することで高速に応答でき、端末内の語彙で認識不可能なコマンドが音声入力された際には、サーバ音声認識結果を利用することで音声入力されたコマンドを確実に認識し、実行することができる。

また、コマンド照合手段は、端末内音声認識結果をコマンド辞書と照合して、コマンドに該当する可能性を示す確信度を算出し、確信度が所定の閾値以上である場合に、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定することが好ましい。これによれば、端末内音声認識結果の信頼度が低くても正しく音声認識された場合に、端末内音声認識結果を利用することができる。その結果、端末内の語彙で認識可能なコマンドを、端末内音声認識結果の信頼度が低くても高速に実行することが可能となる。

また、コマンド辞書は、複数のコマンドの各々に対して、複数のキーワードと、複数のキーワードに対応付けられたスコアとが登録されたキーワードリストを記憶し、コマンド照合手段は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて確信度を算出することが好ましい。これによれば、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。

また、コマンド照合手段は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに単語の音声認識の信頼度に基づいて、確信度を算出することが好ましい。これによれば、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。

また、コマンド照合手段は、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、サーバ音声認識結果の利用を決定することが好ましい。これによれば、端末内機能の実行を指示するコマンドについては端末内音声認識結果を用いて高速に実行することができ、それ以外のコマンドについてはサーバ音声認識結果を用いて確実に実行することができる。

また、音声送信手段は、音声認識手段によって端末内音声認識結果が得られる前に、音声信号を音声認識サーバに送信することが好ましい。これによれば、サーバ音声認識結果をより早く受信することができる。このため、サーバ音声認識結果を利用することが決定された場合に、高速にコマンドを実行することができる。

また、サーバ音声認識結果受信手段は、コマンド照合手段によって端末内音声認識結果に基づいてコマンドが特定された後にサーバ音声認識結果を受信した場合、サーバ音声認識結果を破棄することが好ましい。これによれば、サーバ音声認識結果の受信を待つことなく、端末内音声認識結果に基づいてコマンドを特定することができる。このため、端末内の語彙で認識可能なコマンドを高速に実行することが可能となる。

ところで、本発明は、上記のように端末装置の発明として記述できる他に、以下のように音声認識プログラムおよび音声認識方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用および効果を奏する。

すなわち、本発明の音声認識プログラムは、音声信号の入力を受け付ける音声入力モジュールと、音声入力モジュールによって受け付けられた音声信号に対する音声認識を行う音声認識モジュールと、音声信号を音声認識サーバに送信する音声送信モジュールと、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信モジュールと、音声認識モジュールによって認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合モジュールと、コマンド照合モジュールによって特定されたコマンドを実行するコマンド実行モジュールと、を備えることを特徴とする。

また、コマンド照合モジュールは、端末内音声認識結果をコマンド辞書と照合して、コマンドに該当する可能性を示す確信度を算出し、確信度が所定の閾値以上である場合に、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定することが好ましい。

また、コマンド辞書は、複数のコマンドの各々に対して、複数のキーワードと、複数のキーワードの各々に対応付けられたスコアとが登録されたキーワードリストを記憶し、コマンド照合モジュールは、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて確信度を算出することが好ましい。

また、コマンド照合モジュールは、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに単語の音声認識の信頼度に基づいて、確信度を算出することが好ましい。

また、コマンド照合モジュールは、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、サーバ音声認識結果の利用を決定することが好ましい。

また、音声送信モジュールは、音声認識モジュールによって端末内音声認識結果が得られる前に、音声信号を音声認識サーバに送信することが好ましい。

サーバ音声認識結果受信モジュールは、コマンド照合モジュールによって端末内音声認識結果に基づいてコマンドが特定された後にサーバ音声認識結果を受信した場合、サーバ音声認識結果を破棄することが好ましい。

また、本発明の音声認識方法は、音声信号の入力を受け付ける音声入力ステップと、音声入力ステップにおいて受け付けられた音声信号に対する音声認識を行う音声認識ステップと、音声信号を音声認識サーバに送信する音声送信ステップと、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信ステップと、音声認識ステップにおいて認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合ステップと、コマンド照合ステップにおいて特定されたコマンドを実行するコマンド実行ステップと、を備えることを特徴とする。

本発明によれば、音声により入力されたコマンドを高速かつ確実に実行することができる。

本発明の実施形態に係る音声認識システムの機能構成を示す図である。図１の端末装置のハードウェア構成を示す図である。図１のコマンド辞書が記憶するキーワードリストの一例を示す図である。図１の音声認識システムにおける確信度の算出方法を説明するための図である。図１の端末装置で実行されるコマンド判別実行処理の一例を説明するためのフローチャートである。図１の端末装置で実行されるコマンド判別実行処理の他の例を説明するためのフローチャートである。図１の端末装置で実行されるコマンド判別実行処理の他の例を説明するためのフローチャートである。図１の音声認識システムにおけるコマンド判別実行処理を説明するための図である。図１の音声認識システムにおけるコマンド判別実行処理を説明するための図である。図１の音声認識システムにおける機能・アプリ判別呼出処理の一例を説明するためのフローチャートである。図１０の続きを示すフローチャートである。図１の音声認識システムにおける機能・アプリ判別呼出処理を説明するための図である。

以下、添付図面を参照して、本発明の実施形態を詳細に説明する。なお、図面の説明において同一または相当要素には同一の符号を付し、重複する説明を省略する。

図１は、本実施形態に係る音声認識システムの機能構成を示す図である。図１に示されるように、音声認識システム１０は、端末装置１に入力された音声信号を、端末内音声認識またはネットワーク型音声認識により音声認識するシステムであって、端末装置１および音声認識サーバ２を含んで構成されている。端末装置１は、マイクなどの音声入力装置から入力された音声信号が示すコマンドに応じて、端末装置１が備える機能の起動および外部からの情報の取得などを実行する装置である。音声認識サーバ２は、端末装置１から送信された音声信号を音声認識してサーバ音声認識結果を取得し、そのサーバ音声認識結果を端末装置１に送信する装置である。なお、端末装置１と音声認識サーバ２とは、ネットワークＮＷを介して通信接続されている。

ここで、端末内音声認識とは、端末装置１内で行われる音声認識を意味し、ネットワークＮＷを介した通信が不要であることから高速に応答できるが、認識対象の語彙が少ないことから正確な音声認識が行えない場合がある。ネットワーク型音声認識とは、音声認識サーバ２によって行われる音声認識を意味し、端末内音声認識よりも認識対象の語彙が多く、音声認識の精度は高いが、ネットワークＮＷを介した通信を行うため、通信遅延等で応答が遅くなる場合がある。

端末装置１は、機能的には、音声入力部１１（音声入力手段）と、音声認識部１２（音声認識手段）と、ユーザ辞書１３と、音声送信部１４（音声送信手段）と、サーバ音声認識結果受信部１５（サーバ音声認識結果受信手段）と、コマンド照合部１６（コマンド照合手段）と、コマンド辞書１７と、コマンド実行部１８（コマンド実行手段）と、を備えている。この端末装置１は、例えば、携帯電話、スマートフォン、ＰＤＡ（Personal Digital Assistants）、カーナビゲーションシステム、ノートＰＣ等の音声入力装置を備える装置であって、図２に示されるハードウェアにより構成される。

図２は、端末装置１のハードウェア構成を示す図である。図２に示されるように、端末装置１は、物理的には、ＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（Random Access Memory）１０２、ＲＯＭ（Read Only Memory）１０３、ハードディスクなどの補助記憶装置１０４、ネットワークカードなどのデータ送受信デバイスである通信モジュール１０５、マイクなどの音声入力デバイスである音声入力装置１０６、キーボードやマウスなどの入力デバイスである入力装置１０７、液晶ディスプレイなどの出力デバイスである出力装置１０８などのハードウェアにより構成されている。図１において説明した端末装置１の各機能は、図２に示すＣＰＵ１０１、ＲＡＭ１０２などのハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで音声入力装置１０６、入力装置１０７、出力装置１０８などを動作させるとともに、ＲＡＭ１０２や補助記憶装置１０４におけるデータの読み出しおよび書き込みを行うことで実現される。

引き続いて、図１を参照して、端末装置１の機能について説明する。音声入力部１１は、音声信号の入力を受け付ける音声入力手段として機能する。具体的には、音声入力部１１は、マイクなどの音声入力装置１０６を介して入力されたユーザの発話内容に基づく音声信号を受け付ける。そして、音声入力部１１は、受け付けた音声信号を音声認識部１２および音声送信部１４に送信する。

音声認識部１２は、音声入力部１１によって受け付けられた音声信号に対する音声認識を行う音声認識手段として機能する。音声認識部１２は、予め記憶された音響モデルおよび言語モデルと、後述のユーザ辞書１３とを参照して、端末装置１の音声認識結果である端末内音声認識結果を取得する。この端末内音声認識結果には、音声信号を音声認識した結果の文字列である、複数の単語から構成される文字列データと、文字列データ全体または文字列データを構成する各単語の認識結果の尤もらしさを示す信頼度とが含まれる。そして、音声認識部１２は、端末内音声認識結果をコマンド照合部１６に送信する。なお、音声認識部１２は、ユーザ辞書１３に登録されていない端末内音声認識の語彙外の単語が発話内容に含まれている場合、正しく音声認識することができない。

ユーザ辞書１３は、認識対象の単語が登録されてリスト化されたものである。このユーザ辞書１３には、一般に用いられる単語の他、端末装置１のユーザ固有の単語が含まれてもよい。例えば、端末装置１の電話帳に登録された氏名、端末装置１内に保存された音楽および動画などのコンテンツ名などはそれぞれ、ユーザ辞書１３に単語として登録されている。なお、地名、駅名、商品名、飲食店名、アプリ名などの固有名詞は、多岐にわたるため、ユーザ辞書１３に登録されていないことがある。

音声送信部１４は、音声信号を音声認識サーバ２に送信する音声送信手段として機能する。具体的には、音声送信部１４は、音声入力部１１によって送信された音声信号を受信し、受信した音声信号をネットワークＮＷを介して音声認識サーバ２に送信する。このとき、音声送信部１４は、音声信号を非圧縮または圧縮して送信する。また、音声送信部１４は、音声入力部１１から受信した音声信号を一時的に記憶しておき、後述のコマンド照合部１６からの指示により音声信号を音声認識サーバ２に送信してもよい。また、音声送信部１４は、コマンド照合部１６の指示を待つことなく、音声入力部１１から受信した音声信号を音声認識サーバ２に送信してもよい。

サーバ音声認識結果受信部１５は、音声認識サーバ２による音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段として機能する。サーバ音声認識結果受信部１５は、ネットワークＮＷを介して音声認識サーバ２からサーバ音声認識結果を受信する。そして、サーバ音声認識結果受信部１５は、受信したサーバ音声認識結果をコマンド照合部１６に送信する。

コマンド照合部１６は、端末内音声認識結果を後述のコマンド辞書１７と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合手段として機能する。具体的に説明すると、コマンド照合部１６は、まず、端末内音声認識結果をコマンド辞書１７と照合して、コマンドに該当する可能性を示す確信度を算出する。この確信度の算出方法については、後述する。

そして、確信度が所定の閾値以上の場合に、コマンド照合部１６は、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定する。一方、確信度が閾値未満である場合、すなわち、端末内音声認識結果をコマンドとして受理できなかった場合、コマンド照合部１６は、サーバ音声認識結果の利用を決定し、音声入力部１１から受信した音声信号を音声認識サーバ２に送信するよう音声送信部１４に対して指示する。なお、閾値は、コマンド照合部１６に予め設定された固定値であって、例えば２．５に設定されている。

コマンド照合部１６は、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、サーバ音声認識結果の利用を決定するようにしてもよい。ここで、端末内機能とは、端末装置１が備える機能（例えば、電話機能、メール機能、カメラ機能、スケジュール機能など）であって、ネットワークＮＷ上の他の装置を利用することなく、端末装置１内で実行可能な機能を意味する。コマンド照合部１６は、例えば後述のキーワードリストに基づいて、端末内機能であるか否かの判断を行ってもよい。この場合、コマンド照合部１６は、端末内機能の実行を指示するコマンドについては端末内音声認識結果を用いて高速に実行することができ、それ以外のコマンドについてはサーバ音声認識結果を用いて確実に実行することができる。

コマンド辞書１７は、端末装置１において使用可能なコマンドをリスト化したものである。このコマンド辞書１７には、端末内機能の実行を指示するためのコマンドの他、外部のサーバ等を利用する端末外機能の実行を指示するためのコマンドが含まれていてもよい。端末内機能の実行を指示するためのコマンドには、例えば、電話をかける、メール機能起動、カメラ起動および端末内アプリ起動などがある。また、端末外機能の実行を指示するためのコマンドには、乗換検索、飲食店検索、ショッピングサイト検索、天気予報閲覧およびアプリ検索などがある。

図３は、コマンド辞書１７が記憶するキーワードリストの一例を示す図である。図３に示されるように、キーワードリストには、「キーワード」と「機能」と「スコア」と「端末内機能」とが対応付けて記憶されている。「キーワード」に記憶される情報は、各機能に対して一定の関連性を有するキーワードを示す情報であって、例えば「電話」、「メール」、「読む」、「買う」などである。「機能」に記憶される情報は、端末装置１が実行可能な機能を示す情報であって、例えば「電話」、「メール」、「カメラ」、「乗換検索」、「ショッピング検索」などである。この機能には、端末内機能の他、端末外機能も含まれる。「スコア」に記憶される情報は、当該情報に対応付けられたキーワードと機能との関連性の高さを示す値（スコア）であって、関連性が高いほど大きな値が割り当てられる。また、スコアは、後述するように確信度の算出に用いられる情報である。「端末内機能」に記憶される情報は、当該情報に対応付けられた機能が端末内機能であるか否かを示す情報である。

例えば、キーワード「電話」には、電話機能、２．０のスコア、端末内機能であることを示す「Ｙｅｓ」が対応付けられている。すなわち、音声認識結果に「電話」という単語が含まれている場合には、電話機能の実行を指示するためのコマンドである可能性が高いと考えられるため、電話機能として２．０のスコアが割り当てられている。

また、人名を示すキーワードには、電話機能およびメール機能が対応付けられている。そして、電話機能に対して０．５のスコア、メール機能に対して０．５のスコアがそれぞれ割り当てられている。このように、一つのキーワードに対して複数の異なる機能が対応付けられることもある。この場合、一つのキーワードに対応付けられた機能が複数存在するため、音声認識結果にこのキーワードが含まれているだけではどの機能の実行を指示するコマンドであるかを特定することができない。したがって、複数の機能と対応付けられるキーワードには小さい値のスコアが割り当てられてもよい。また、複数の機能と対応付けられるキーワードにはスコアが割り当てられないようにしてもよい。なお、人名を示すキーワードには、端末装置１の電話帳機能に登録された氏および名を含めてもよい。また、人名を示すキーワードは、音声認識結果に含まれる品詞などの付加情報に基づいて設定されてもよく、固定の人名辞書に登録された名前を用いてもよい。

コマンド実行部１８は、コマンド照合部１６によって特定されたコマンドを実行するコマンド実行手段として機能する。そして、コマンド照合部１６は、コマンドを実行した結果を、例えば出力装置１０８に出力する。

引き続いて、図１を参照して、音声認識サーバ２の機能について説明する。音声認識サーバ２は、機能的には、音声受信部２１（音声受信手段）と、サーバ音声認識部２２（サーバ音声認識手段）と、大語彙辞書２３（サーバ辞書）と、サーバ音声認識結果送信部２４（サーバ音声認識結果送信手段）と、を備えている。

音声受信部２１は、端末装置１から送信された音声信号を受信する音声受信手段として機能する。具体的には、音声受信部２１は、ネットワークＮＷを介して端末装置１の音声送信部１４から音声信号を受信し、受信した音声信号をサーバ音声認識部２２に送信する。

サーバ音声認識部２２は、音声受信部２１によって受信された音声信号を、大語彙辞書２３に基づいて音声認識するサーバ音声認識手段として機能する。具体的に説明すると、サーバ音声認識部２２は、予め記憶された音響モデルおよび言語モデルと、後述の大語彙辞書２３とを参照して、サーバ音声認識結果を取得する。このサーバ音声認識結果には、音声信号を音声認識した結果の文字列である、複数の単語から構成される文字列データと、文字列データを構成する各単語の信頼度とが含まれる。このサーバ音声認識部２２は、音声認識部１２よりも高精度の音声認識を行うことができる。

大語彙辞書２３は、ユーザ辞書１３よりも多くの語彙を含む。大語彙辞書２３には、地名、駅名、商品名、飲食店名、アプリ名などの固有名詞を含む多岐にわたった単語が登録されてリスト化されている。

サーバ音声認識結果送信部２４は、サーバ音声認識結果を端末装置１に送信するサーバ音声認識結果送信手段として機能する。具体的には、サーバ音声認識結果送信部２４は、音声受信部２１によって受信された音声信号に対するサーバ音声認識結果をサーバ音声認識部２２から受信し、受信したサーバ音声認識結果をネットワークＮＷを介して端末装置１のサーバ音声認識結果受信部１５に送信する。

次に、図４に示す例を用いて確信度の算出方法について説明する。図４は、音声認識結果に基づく確信度の算出方法を説明するための図である。図４に示されるように、ユーザが音声入力装置１０６を使用して発話内容（ａ）「やまださんにでんわをかける」との音声を入力し、音声認識部１２によって端末内音声認識結果（ｂ）「山田さんに電話をかける」が取得されたとする。コマンド照合部１６は、キーワードリストを参照し、端末内音声認識結果（ｂ）の各単語がキーワードリストに登録されたキーワードに一致するか否かを判定する。そして、コマンド照合部１６は、端末内音声認識結果（ｂ）に含まれる単語がキーワードリストに登録されたキーワードに一致する場合、そのキーワードに対応付けられた機能と、その機能に対して割り当てられたスコアとをキーワードリストから取得する。

この場合、「山田」は人名に該当することから、キーワードリストに登録されたキーワードに一致すると判定される。そして、コマンド照合部１６は、キーワードリストに基づいて、電話機能に対して０．５のスコアを取得し、メール機能に対して０．５のスコアを取得する。また、「電話」がキーワードリストに登録されたキーワードに一致することから、コマンド照合部１６は、キーワード「電話」に対応付けられた電話機能に対して２．０のスコアを取得する。さらに、「かける」がキーワードリストに登録されたキーワードに一致することから、コマンド照合部１６は、キーワード「かける」に対応付けられた電話機能に対して０．５のスコアを取得する。

＜第１の確信度算出方法＞
ここで、コマンド照合部１６は、各機能に対して取得したスコアの合計を機能ごとに算出し、そのうち最大の値を、その最大の値を有する機能の実行を指示するコマンドの確信度とする。図４の例では、電話機能のスコアの合計が０．５＋２．０＋０．５＝３．０、メール機能のスコアの合計が０．５であるから、電話機能の実行を指示するためのコマンドの確信度が、３．０と算出される。

＜第２の確信度算出方法＞
コマンド照合部１６は、各機能に対して取得したスコアの合計を機能ごとに算出し、最大の値と２番目に大きい値の差を、最大の値を有する機能の実行を指示するコマンドの確信度とする。図４の例では、電話機能のスコアの合計が３．０、メール機能のスコアの合計が０．５であるから、電話機能の実行を指示するためのコマンドの確信度が、３．０−０．５＝２．５と算出される。

また、単語ごとの音声認識結果の信頼度が得られる場合には、以下の第３の確信度算出方法、または、第４の確信度算出方法を用いてもよい。
＜第３の確信度算出方法＞
コマンド照合部１６は、各機能に対して取得したスコアと、単語ごとの音声認識結果の信頼度とに基づいて、確信度を算出する。例えば、音声認識部１２によって認識された「山田さんに電話をかける」の各単語について、「山田」の信頼度が０．９、「さん」の信頼度が０．８、「に」の信頼度が０．８、「電話」の信頼度が１．０、「を」の信頼度が０．５、「かける」の信頼度が０．５であったとする。なお、この信頼度は、音声認識部１２により取得された端末内音声認識結果に含まれる。この場合、コマンド照合部１６は、端末内音声認識結果の単語がキーワードリストに登録されたキーワードに一致すると判断すると、そのキーワードに対応付けられた機能に割り当てられたスコアに、その単語の信頼度を加える。そして、コマンド照合部１６は、信頼度を加えたスコアの合計を機能ごとに算出し、そのうちの最大の値を、その最大の値を有する機能の実行を指示するコマンドの確信度とする。図４の例では、電話機能に対する信頼度を加えたスコアの合計が０．５＋０．９＋２．０＋１．０＋０．５＋０．５＝５．４、メール機能に対する信頼度を加えたスコアの合計が０．５＋０．９＝１．４であるから、電話機能の実行を指示するためのコマンドの確信度が、５．４と算出される。

＜第４の確信度算出方法＞
コマンド照合部１６は、端末内音声認識結果の単語がキーワードリストに登録されたキーワードに一致した場合に、そのキーワードに割り当てられたスコアに、その単語の信頼度を掛ける。そして、コマンド照合部１６は、信頼度を掛けたスコアの合計を機能ごとに算出し、そのうちの最大値を、その最大の値を有する機能の実行を指示するコマンドの確信度とする。端末内音声認識結果の各単語の信頼度が第３の確信度算出方法において説明したものと同じとすると、図４の例では、電話機能に対する信頼度を掛けたスコアの合計が０．５×０．９＋２．０×１．０＋０．５×０．５＝２．７、メール機能に対する信頼度を掛けたスコアの合計が０．５×０．９＝０．４５であるから、電話機能の実行を指示するためのコマンドの確信度が、２．７と算出される。

続いて、端末装置１で実行されるコマンド判別実行処理（音声認識方法）について説明する。

＜第１のコマンド判別実行処理＞
図５は、端末装置１のコマンド判別実行処理の一例を示すフローチャートである。本処理は、端末装置１のユーザが音声入力装置１０６を介して音声入力することにより開始される。

音声入力部１１は、音声入力装置１０６から音声信号の入力を受け付ける（Ｓ０１，音声入力ステップ）。そして、音声入力部１１は、受け付けた音声信号を音声認識部１２および音声送信部１４に送信する。次に、音声認識部１２は、音声入力部１１によって送信された音声信号を受信し、ユーザ辞書１３を参照して受信した音声信号を音声認識する（Ｓ０２，音声認識ステップ）。音声認識部１２は、音声信号を音声認識した結果の文字列である文字列データ、文字列データを構成する各単語の信頼度情報を含む端末内音声認識結果をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、端末内音声認識結果をコマンド辞書１７と照合する（Ｓ０３，コマンド照合ステップ）。具体的に説明すると、コマンド照合部１６は、コマンド辞書１７に記憶されたキーワードリストを参照し、端末内音声認識結果に含まれる単語のそれぞれがキーワードリストに登録されたキーワードに一致するか否かを判定する。そして、端末内音声認識結果に含まれる単語がキーワードに一致した場合、コマンド照合部１６は、そのキーワードに対応付けられた機能およびその機能に割り当てられたスコアをキーワードリストから取得する。そして、コマンド照合部１６は、上述の確信度算出方法のいずれかによりコマンドの確信度を算出する。

次に、コマンド照合部１６は、端末内音声認識結果がコマンドとして受理されるか否かを判定する（Ｓ０４，コマンド照合ステップ）。すなわち、コマンド照合部１６は、確信度が閾値以上か否かを判定する。端末内音声認識結果がコマンドとして受理されたと判定された場合、すなわち、確信度が閾値以上であると判定された場合（Ｓ０４；Ｙｅｓ）、コマンド照合部１６は、受理されたコマンドが端末内機能の実行を指示するためのコマンドであるか否かを判定する（Ｓ０５）。この判定は、例えばキーワードリストの端末内機能であるか否かを示す情報に基づいて行われる。

受理されたコマンドが端末内機能の実行を指示するためのコマンドであると判定された場合（Ｓ０５；Ｙｅｓ）、コマンド照合部１６は、そのコマンドを音声信号によって示されるコマンドとして特定し、コマンド実行部１８にそのコマンドの実行を指示する。続いて、コマンド実行部１８は、コマンド照合部１６によって特定されたコマンドを実行する（Ｓ０６，コマンド実行ステップ）。そして、端末装置１は、コマンド判別実行処理を終了する。

一方、Ｓ０４の判定において、端末内音声認識結果がコマンドとして受理されなかったと判定された場合、すなわち、確信度が閾値未満であると判定された場合（Ｓ０４；Ｎｏ）、または、Ｓ０５の判定において、受理されたコマンドが端末内機能の実行を指示するためのコマンド以外のコマンドであると判定された場合（Ｓ０５；Ｎｏ）、コマンド照合部１６は、音声送信部１４に対して、音声入力部１１から受信した音声信号を音声認識サーバ２に送信するよう指示する。そして、音声送信部１４は、音声信号を音声認識サーバ２に送信する（Ｓ０７，音声送信ステップ）。

音声認識サーバ２は、音声送信部１４によって送信された音声信号を受信すると、その音声信号に対して音声認識を行いサーバ音声認識結果を取得する。この音声認識は、ユーザ辞書１３よりも大語彙の大語彙辞書２３が用いられるため、音声認識部１２によって行われる端末内音声認識よりも高精度である。そして、音声認識サーバ２は、サーバ音声認識結果を端末装置１に送信する。

その後、サーバ音声認識結果受信部１５は、音声認識サーバ２からサーバ音声認識結果を受信する（Ｓ０８，サーバ音声認識結果受信ステップ）。そして、サーバ音声認識結果受信部１５は、受信したサーバ音声認識結果をコマンド照合部１６に送信する。次に、コマンド照合部１６は、サーバ音声認識結果をコマンド辞書１７と照合する（Ｓ０９）。具体的に説明すると、コマンド照合部１６は、コマンド辞書１７に記憶されたキーワードリストを参照し、サーバ音声認識結果に含まれる単語のそれぞれがキーワードリストに登録されたキーワードに一致するか否かを判定する。そして、サーバ音声認識結果に含まれる単語がキーワードに一致した場合、コマンド照合部１６は、そのキーワードに対応付けられた機能およびその機能に割り当てられたスコアをキーワードリストから取得する。そして、コマンド照合部１６は、上述の確信度算出方法によりコマンドの確信度を算出する。

次に、コマンド照合部１６は、サーバ音声認識結果がコマンドとして受理されるか否かを判定する（Ｓ１０）。すなわち、コマンド照合部１６は、確信度が閾値以上か否かを判定する。確信度が閾値以上であると判定された場合、すなわち、サーバ音声認識結果がコマンドとして受理されたと判定された場合（Ｓ１０；Ｙｅｓ）、コマンド照合部１６は、そのコマンドを音声信号によって示されるコマンドとして特定し、コマンド実行部１８にそのコマンドの実行を指示する。続いて、コマンド実行部１８は、コマンド照合部１６によって特定されたコマンドを実行する（Ｓ０６，コマンド実行ステップ）。そして、端末装置１は、コマンド判別実行処理を終了する。なお、端末内音声認識よりもサーバ音声認識の方が高精度であるため、Ｓ１０の判定における閾値をＳ０４の判定における閾値よりも小さくしてもよい。

一方、Ｓ１０の判定において、確信度が閾値未満であると判定された場合、すなわち、サーバ音声認識結果がコマンドとして受理されなかったと判定された場合（Ｓ１０；Ｎｏ）、端末装置１は、コマンド判別実行処理を終了する。このとき、端末装置１は、音声の再入力を促すメッセージ等を出力装置１０８に表示してもよい。

＜第２のコマンド判別実行処理＞
図６は、端末装置１のコマンド判別実行処理の他の例を示すフローチャートである。本処理は、端末装置１のユーザが音声入力装置１０６を介して音声入力することにより開始される。なお、本処理におけるＳ２１〜Ｓ２９の各ステップはそれぞれ、図５のＳ０１〜Ｓ０９の各ステップと同様であるため、Ｓ２１〜Ｓ２９の説明を省略する。

Ｓ２９の処理後、コマンド照合部１６は、再度、端末内音声認識結果をコマンド辞書１７と照合する（Ｓ３０）。そして、コマンド照合部１６は、Ｓ２９において算出したコマンドの確信度と、Ｓ３０において算出したコマンドの確信度とを比較し、最も確信度の高いコマンドを選択する（Ｓ３１）。そして、コマンド照合部１６は、選択したコマンドを音声信号によって示されるコマンドとして特定し、コマンド実行部１８にそのコマンドの実行を指示する。コマンド実行部１８は、コマンド照合部１６によって特定されたコマンドが存在するか否かを判定する（Ｓ３２）。コマンドが存在すると判定された場合（Ｓ３２；Ｙｅｓ）、コマンド実行部１８は、そのコマンドを実行する（Ｓ２６，コマンド実行ステップ）。そして、端末装置１は、コマンド判別実行処理を終了する。一方、Ｓ３２の判定において、コマンドが存在しないと判定された場合（Ｓ３２；Ｎｏ）、コマンド実行部１８はコマンドの実行を行わない。そして、端末装置１は、コマンド判別実行処理を終了する。このとき、端末装置１は、音声の再入力を促すメッセージ等を出力装置１０８に表示してもよい。

なお、コマンド照合部１６は、Ｓ２９において、サーバ音声認識結果を端末内機能に該当しないコマンド群とのみ照合してもよく、Ｓ３０において、端末内音声認識結果を端末内機能に該当するコマンド群とのみ照合してもよい。また、Ｓ３１において、コマンド照合部１６は、最も確信度の高いコマンドを選択しているが、確信度が閾値以上のコマンドの中で最も確信度が高いコマンドを選択するようにしてもよい。この場合、コマンド照合部１６は、コマンドを受理する基準となる閾値をＳ０４における閾値よりも小さくして照合するのが好ましい。

＜第３のコマンド判別実行処理＞
図７は、端末装置１のコマンド判別実行処理の他の例を示すフローチャートである。本処理は、端末装置１のユーザが音声入力装置１０６を介して音声入力することにより開始される。なお、本処理におけるＳ４１〜Ｓ４７の各ステップはそれぞれ、図５のＳ０１〜Ｓ０７の各ステップと同様であるため、Ｓ４１〜Ｓ４７の説明を省略する。

音声認識サーバ２では、Ｓ４７において送信された音声信号を音声受信部２１が受信すると、サーバ音声認識部２２は、大語彙辞書２３を参照し、音声受信部２１によって受信された音声信号の音声認識を行ってサーバ音声認識結果を取得する。そして、サーバ音声認識部２２は、さらにサーバ音声認識結果を音声認識サーバ２に設けられたコマンド辞書（不図示）と照合する。具体的に説明すると、サーバ音声認識部２２は、コマンド辞書に記憶されたキーワードリストを参照し、サーバ音声認識結果に含まれる単語のそれぞれがキーワードリストに登録されたキーワードに一致するか否かを判定する。

なお、キーワードリストは、コマンド辞書１７に記憶されたキーワードリストよりもさらに多くのコマンドに対応したキーワードを含むものであってもよい。そして、サーバ音声認識結果に含まれる単語がキーワードに一致した場合、サーバ音声認識部２２は、そのキーワードに対応付けられた機能およびその機能に割り当てられたスコアをキーワードリストから取得する。そして、サーバ音声認識部２２は、上述の確信度算出方法のいずれかによりコマンドの確信度を算出する。

次に、サーバ音声認識部２２は、確信度が閾値以上か否かを判定する。確信度が閾値以上であると判定された場合、すなわち、サーバ音声認識結果がコマンドとして受理されたと判定された場合、音声認識サーバ２のサーバ音声認識結果送信部２４は、閾値以上の確信度のコマンドの実行を端末装置１に指示する。そして、サーバ音声認識結果受信部１５は、音声認識サーバ２による指示を受信し（Ｓ４８）、その指示をコマンド実行部１８に送信する。続いて、コマンド実行部１８は、指示されたコマンドを実行する（Ｓ４６，コマンド実行ステップ）。そして、端末装置１は、コマンド判別実行処理を終了する。

上記第１〜第３のコマンド判別実行処理において、音声認識サーバ２への音声送信（Ｓ０７，Ｓ２７，またはＳ４７，音声送信ステップ）は、端末内音声認識（Ｓ０２，Ｓ２２，またはＳ４２，音声認識ステップ）と端末内音声認識結果のコマンド照合（Ｓ０３，Ｓ２３，またはＳ４３，コマンド照合ステップ）の完了後に行われているが、音声認識サーバ２への音声送信は、音声入力後の任意のタイミングで、端末内音声認識や端末内音声認識結果のコマンド照合に先立って、もしくはこれらのステップと並行して行ってもよい。これにより、サーバ音声認識結果受信までの遅延時間を短縮することができる。

続いて、図４、図８、図９を用いて、入力された発話内容に基づいてコマンドが特定され、実行されるまで処理を具体的に説明する。

上述したように、図４に示す例では、まず、ユーザにより音声入力装置１０６を介して、発話内容（ａ）「やまださんにでんわをかける」が入力される。そして、音声入力部１１は、発話内容（ａ）に対応する音声信号を受け付けて、その音声信号を音声認識部１２および音声送信部１４に送信する。次に、音声認識部１２は、ユーザ辞書１３を参照して端末内音声認識を行い、端末内音声認識結果（ｂ）「山田さんに電話をかける」を取得する。音声認識部１２は、端末内音声認識結果（ｂ）をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、端末内音声認識結果（ｂ）をコマンド辞書１７と照合する。コマンド照合部１６は、「山田」を人名であると判断し、キーワードリストのキーワード「＜人名＞」に対応付けられた電話機能およびメール機能に対して、それぞれ０．５のスコアを加算する。また、コマンド照合部１６は、「電話」がキーワードリストのキーワード「電話」に一致することから、キーワード「電話」に対応付けられた電話機能に対して、２．０のスコアを加算する。さらに、コマンド照合部１６は、「かける」がキーワードリストのキーワード「かける」に一致することから、キーワード「かける」に対応付けられた電話機能に対して、０．５のスコアを加算する。そして、コマンド照合部１６は、照合結果に基づいて確信度を算出する。ここで、確信度は、上述の第２の確信度算出方法により算出され、閾値は、２．０に設定されているものとする。この場合、電話機能が最大のスコアを有し、その確信度は３．０−０．５＝２．５である。

そして、コマンド照合部１６は、確信度を閾値と比較し、電話機能を実行するためのコマンドを受理するか否かを判定する。確信度が閾値以上であることから、コマンド照合部１６は、電話機能を実行するためのコマンドを受理する。次に、コマンド照合部１６は、電話機能が端末内機能であるか否かを判断する。電話機能は端末内機能であることから、コマンド照合部１６は、発生内容（ａ）が示すコマンドを電話機能を実行するためのコマンドとして特定し、そのコマンドの実行をコマンド実行部１８に指示する。そして、コマンド実行部１８は、電話機能を実行するためのコマンドを実行する。

図８は、音声認識システム１０におけるコマンド判別実行処理を説明するための一例を示す図である。まず、ユーザにより音声入力装置１０６を介して、発話内容（ａ）「かさをかう」が入力される。そして、音声入力部１１は、発話内容（ａ）に対応する音声信号を受け付けて、その音声信号を音声認識部１２および音声送信部１４に送信する。次に、音声認識部１２は、ユーザ辞書１３を参照して端末内音声認識を行い、端末内音声認識結果（ｂ）「笹尾買う」を取得する。音声認識部１２は、端末内音声認識結果（ｂ）をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、端末内音声認識結果（ｂ）をコマンド辞書１７と照合する。コマンド照合部１６は、「笹尾」を人名であると判断し、キーワードリストのキーワード「＜人名＞」に対応付けられた電話機能およびメール機能に対して、それぞれ０．５のスコアを加算する。さらに、コマンド照合部１６は、「買う」がキーワードリストのキーワードに一致することから、キーワード「買う」に対応付けられたショッピング機能に対して、２．０のスコアを加算する。そして、コマンド照合部１６は、照合結果に基づいて確信度を算出する。ここで、確信度は、上述の第２の確信度算出方法により算出され、閾値は、２．０に設定されているものとする。この場合、ショッピング機能が最大のスコアを有し、その確信度は２．０−０．５＝１．５である。

そして、コマンド照合部１６は、確信度を閾値と比較し、ショッピング機能を実行するためのコマンドを受理するか否かを判定する。確信度が閾値よりも小さいことから、コマンド照合部１６は、ショッピング機能を実行するためのコマンドを受理しない。次に、コマンド照合部１６は、音声送信部１４に発話内容（ａ）に対応する音声信号を音声認識サーバ２に送信するよう指示する。そして、音声送信部１４は、発話内容（ａ）に対応する音声信号を音声認識サーバ２に送信する。その後、サーバ音声認識結果受信部１５は、音声認識サーバ２からサーバ音声認識結果（ｃ）「傘を買う」を受信する。そして、サーバ音声認識結果受信部１５は、サーバ音声認識結果（ｃ）をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、サーバ音声認識結果（ｃ）をコマンド辞書１７と照合する。コマンド照合部１６は、「買う」がキーワードリストのキーワードに一致することから、キーワード「買う」に対応付けられたショッピング機能に対して、２．０のスコアを加算する。コマンド照合部１６は、照合結果に基づいて確信度を算出する。この場合、ショッピング機能が最大のスコアを有し、その確信度は２．０である。そして、コマンド照合部１６は、確信度を閾値と比較し、ショッピング機能を実行するためのコマンドを受理するか否かを判定する。

ここで、閾値は、端末内音声認識結果がコマンドとして受理されるか否かの判定に用いた値と同じであってもよいが、それよりも小さい方が好ましい。ここでは、閾値を０．５とする。コマンド照合部１６は、確信度が閾値以上であることから、ショッピング機能を実行するためのコマンドを受理する。そして、コマンド照合部１６は、発話内容（ａ）が示すコマンドをショッピング機能を実行するためのコマンドとして特定し、そのコマンドの実行をコマンド実行部１８に指示する。そして、コマンド実行部１８は、ショッピング機能を実行するためのコマンドを実行する。

なお、端末内音声認識結果（ｂ）が「傘を買う」であり、端末内音声認識結果（ｂ）がコマンドとして受理されるか否かの判定に用いた閾値を１．５とした場合、端末内音声認識結果（ｂ）の照合結果に基づく確信度が閾値以上となることから、コマンド照合部１６は、ショッピング機能を実行するためのコマンドを受理する。しかし、ショッピング機能は端末内機能に該当しないため、この場合も、コマンド照合部１６は、音声送信部１４に発話内容（ａ）に対応する音声信号を音声認識サーバ２に送信するよう指示することになる。

図９は、音声認識システム１０におけるコマンド判別実行処理を説明するための他の例を示す図である。まず、ユーザにより音声入力装置１０６を介して、発話内容（ａ）「やまださんにかける」が入力される。そして、音声入力部１１は、発話内容（ａ）に対応する音声信号を受け付けて、その音声信号を音声認識部１２および音声送信部１４に送信する。次に、音声認識部１２は、ユーザ辞書１３を参照して端末内音声認識を行い、端末内音声認識結果（ｂ）「山田さんにかける」を取得する。音声認識部１２は、端末内音声認識結果（ｂ）をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、端末内音声認識結果（ｂ）をコマンド辞書１７と照合する。コマンド照合部１６は、「山田」を人名であると判断し、キーワードリストのキーワード「＜人名＞」に対応付けられた電話機能およびメール機能に対して、それぞれ０．５のスコアを加算する。さらに、コマンド照合部１６は、「かける」がキーワードリストのキーワードに一致することから、キーワード「かける」に対応付けられた電話機能に対して、０．５のスコアを加算する。そして、コマンド照合部１６は、照合結果に基づいて確信度を算出する。ここで、確信度は、第２の確信度算出方法により算出され、閾値は、２．０に設定されているものとする。この場合、電話機能が最大のスコアを有し、その確信度は１．０−０．５＝０．５である。

そして、コマンド照合部１６は、確信度を閾値と比較し、電話機能を実行するためのコマンドを受理するか否かを判定する。確信度が閾値よりも小さいことから、コマンド照合部１６は、電話機能を実行するためのコマンドを受理しない。次に、コマンド照合部１６は、音声送信部１４に発話内容（ａ）に対応する音声信号を音声認識サーバ２に送信するよう指示する。そして、音声送信部１４は、発話内容（ａ）に対応する音声信号を音声認識サーバ２に送信する。その後、サーバ音声認識結果受信部１５は、音声認識サーバ２からサーバ音声認識結果（ｃ）「山田さんにかける」を受信する。そして、サーバ音声認識結果受信部１５は、サーバ音声認識結果（ｃ）をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、サーバ音声認識結果（ｃ）をコマンド辞書１７と照合する。コマンド照合部１６は、「山田」を人名であると判断し、キーワードリストのキーワード「＜人名＞」に対応付けられた電話機能およびメール機能に対して、それぞれ０．５のスコアを加算する。さらに、コマンド照合部１６は、「かける」がキーワードリストのキーワードに一致することから、キーワード「かける」に対応付けられた電話機能に対して、０．５のスコアを加算する。そして、コマンド照合部１６は、照合結果に基づいて確信度を算出する。この場合、電話機能が最大のスコアを有し、その確信度は１．０−０．５＝０．５である。そして、コマンド照合部１６は、確信度を閾値と比較し、電話機能を実行するためのコマンドを受理するか否かを判定する。

ここで、閾値は、端末内音声認識結果がコマンドとして受理されるか否かの判定に用いた値よりも小さい値０．５とする。コマンド照合部１６は、確信度が閾値以上であることから、電話機能を実行するためのコマンドを受理する。そして、コマンド照合部１６は、発生内容（ａ）が示すコマンドを電話機能を実行するためのコマンドとして特定し、そのコマンドの実行をコマンド実行部１８に指示する。そして、コマンド実行部１８は、電話機能を実行するためのコマンドを実行する。

以上のように、例えば、ユーザが、端末内機能を実行するためのコマンドを発話した場合、端末内音声認識により正しく音声認識され、サーバ音声認識を行うことなくコマンドが実行される。一方、ユーザが、ネットワークからの情報取得を意図したコマンドを発話した場合、そのコマンド内には地名、駅名、商品名、飲食店名、アプリ名などの固有名詞が含まれることがある。このような場合には、端末内音声認識では正しく音声認識できないため、サーバ音声認識により確実に認識されてコマンドが実行される。

次に、端末装置１のコマンド判別実行処理を、機能・アプリ判別呼出処理に応用した例について説明する。この処理は、ユーザが端末装置１に向けて発話を行うことにより、端末装置１内の機能（電話、メール、スケジューラなど）または端末装置１にインストールされたアプリの呼出を行う処理である。図１０および図１１は、音声認識システム１０における機能・アプリ判別呼出処理の一例を説明するためのフローチャートである。本処理は、端末装置１のユーザが音声入力装置１０６を介して音声入力することにより開始される。なお、本処理におけるＳ５１〜Ｓ５２の各ステップはそれぞれ、図５のＳ０１〜Ｓ０２の各ステップと同様であるため、Ｓ５１〜Ｓ５２の説明を省略する。

Ｓ５２の処理後、音声認識部１２は、Ｓ５２において取得した端末内音声認識結果をコマンド照合部１６に送信する。次に、コマンド照合部１６は、端末内音声認識結果をコマンド辞書１７と照合する（Ｓ５３）。具体的に説明すると、コマンド照合部１６は、コマンド辞書１７に記憶されたキーワードリストを参照し、端末内音声認識結果がキーワードリストに登録されたキーワードに一致するか否かを判定する（Ｓ５４）。なお、キーワードリストには、端末装置１において使用可能なコマンドに加えて、複数のアプリが予め登録されている。また、キーワードリストには、少なくともキーワードを示す情報と、機能またはアプリを示す情報と、が対応付けられて記憶されている。このキーワードとしては、機能名またはアプリ名が登録されている。キーワードリストに登録されたアプリは、端末装置１にインストールされているアプリに限らず、人気アプリなど端末装置１にインストール可能なアプリが含まれる。

Ｓ５４の判定において、端末内音声認識結果がキーワードに一致した場合（Ｓ５４；Ｙｅｓ）、コマンド照合部１６は、そのキーワードに対応付けられた機能またはアプリの呼出であると判断し、出力装置１０８に「（機能名またはアプリ名）でよろしいですか？Ｙｅｓ／他候補」を表示する（Ｓ５５）。そして、コマンド照合部１６は、ユーザによって「Ｙｅｓ」が選択されたか否かを判定する（Ｓ５６）。ユーザによって「他候補」が選択されたと判定された場合（Ｓ５６；Ｎｏ）、コマンド照合部１６は、音声送信部１４に対して、音声入力部１１から受信した音声信号を音声認識サーバ２に送信するよう指示する。また、Ｓ５４の判定において、端末内音声認識結果がキーワードに一致しなかった場合（Ｓ５４；Ｎｏ）も、コマンド照合部１６は、音声送信部１４に対して、音声入力部１１から受信した音声信号を音声認識サーバ２に送信するよう指示する。

そして、音声送信部１４は、音声信号を音声認識サーバ２に送信する（Ｓ５７）。音声認識サーバ２は、Ｓ５７において送信された音声信号を受信すると、音声認識を行って、サーバ音声認識結果を端末装置１に送信する。その後、サーバ音声認識結果受信部１５は、音声認識サーバ２からサーバ音声認識結果を受信する（Ｓ５８）。そして、サーバ音声認識結果受信部１５は、受信したサーバ音声認識結果をコマンド照合部１６に送信する。次に、コマンド照合部１６は、サーバ音声認識結果をコマンド辞書１７と照合する（Ｓ５９）。具体的に説明すると、コマンド照合部１６は、コマンド辞書１７に記憶されたキーワードリストを参照し、サーバ音声認識結果がキーワードリストに登録されたキーワードに一致するか否かを判定する。さらに、コマンド照合部１６は、端末内音声認識結果を再度コマンド辞書１７と照合する（Ｓ６０）。

そして、コマンド照合部１６は、Ｓ５９およびＳ６０における照合の結果、サーバ音声認識結果および端末内音声認識結果と一致したキーワード（機能名またはアプリ名）の一覧を取得する。そして、コマンド照合部１６は、取得した機能名またはアプリ名の一覧を候補として出力装置１０８に表示する（Ｓ６１）。その後、コマンド照合部１６は、ユーザによっていずれかの候補が選択されたか否かを判定する（Ｓ６２）。候補が選択されなかったと判定された場合（Ｓ６２；Ｎｏ）、端末装置１は、機能・アプリ判別呼出処理を終了する。このとき、端末装置１は、音声の再入力を促すメッセージ等を出力装置１０８に表示してもよい。

一方、Ｓ６２の判定において、候補が選択されたと判定された場合（Ｓ６２；Ｙｅｓ）、または、Ｓ５６の判定において、ユーザによって「Ｙｅｓ」が選択されたと判定された場合（Ｓ５６；Ｙｅｓ）、コマンド照合部１６は、選択された候補が機能であるかアプリであるかを、コマンド辞書１７に記憶されたキーワードリストを参照して判定する（Ｓ６３）。選択された候補が機能であると判定された場合（Ｓ６３；機能）、コマンド照合部１６は、当該機能を実行するためのコマンドを音声信号によって示されるコマンドとして特定し、そのコマンドの実行をコマンド実行部１８に指示する。そして、コマンド実行部１８は、選択された機能を実行するためのコマンドを実行し（Ｓ６４）、端末装置１は、機能・アプリ判別呼出処理を終了する。

一方、Ｓ６３の判定において、選択された候補がアプリであると判定された場合（Ｓ６３；アプリ）、コマンド照合部１６は、当該アプリが端末装置１にインストールされているか否かの判定を行う（Ｓ６５）。選択されたアプリがインストールされていると判定された場合には（Ｓ６５；Ｙｅｓ）、コマンド照合部１６は、そのアプリを音声信号によって示されるアプリとして特定し、そのアプリの起動をコマンド実行部１８に指示する。そして、コマンド実行部１８は、選択されたアプリを起動し（Ｓ６６）、端末装置１は、機能・アプリ判別呼出処理を終了する。一方、Ｓ６５の判定において、選択されたアプリがインストールされていないと判定された場合には（Ｓ６５；Ｎｏ）、コマンド照合部１６は、出力装置１０８に「アプリ検索を行いますか？Ｙｅｓ／Ｎｏ」を表示する（Ｓ６７）。

そして、コマンド照合部１６は、ユーザによって「Ｙｅｓ」が選択されたか否かを判定する（Ｓ６８）。ユーザによって「Ｙｅｓ」が選択されたと判定された場合（Ｓ６８；Ｙｅｓ）、コマンド照合部１６は、通信モジュール１０５を介して、インターネット上のアプリ検索サイトであるアプリマーケットにおいて、選択されたアプリの検索を行う（Ｓ６９）。そして、コマンド照合部１６は、検索結果を出力装置１０８に表示することによって、ユーザが当該アプリをインストールできるようにする。そして、端末装置１は、機能・アプリ判別呼出処理を終了する。一方、Ｓ６８の判定において、ユーザによって「Ｎｏ」が選択されたと判定された場合（Ｓ６８；Ｎｏ）、端末装置１は、機能・アプリ判別呼出処理を終了する。

なお、上述のコマンド判別実行処理と同様に、キーワードリストに、キーワードを示す情報と、機能名またはアプリ名を示す情報と、スコアを示す情報と、機能であるかアプリであるかを示す情報と、が対応付けられて記憶されてもよい。この場合、端末内音声認識結果およびサーバ音声認識結果の照合は、上述のコマンド判別実行処理と同様に、音声認識結果に含まれる単語と、キーワードリストに登録されたキーワードとを比較し、上述の確信度算出方法のいずれかにより確信度を算出することによって行われてもよい。

続いて、図１２を用いて、入力された発話内容に基づいてアプリが特定される処理を具体的に説明する。図１２は、音声認識システム１０における機能・アプリ判別呼出処理を説明するための一例を示す図である。

まず、ユーザにより音声入力装置１０６を介して、発話内容（ａ）「ふらっどいっと」が入力される。そして、音声入力部１１は、発話内容（ａ）に対応する音声信号を受け付けて、その音声信号を音声認識部１２および音声送信部１４に送信する。次に、音声認識部１２は、ユーザ辞書１３を参照して端末内音声認識を行い、端末内音声認識結果（ｂ）「風呂糸」を取得する。音声認識部１２は、端末内音声認識結果（ｂ）をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、端末内音声認識結果（ｂ）をコマンド辞書１７と照合する。具体的には、コマンド照合部１６は、端末内音声認識結果（ｂ）がキーワードリストに登録されたキーワード（機能名およびアプリ名）に一致するか否かを判定する。端末内音声認識結果がキーワードに一致しないため、コマンド照合部１６は、音声送信部１４に発話内容（ａ）に対応する音声信号を音声認識サーバ２に送信するよう指示する。そして、音声送信部１４は、発話内容（ａ）に対応する音声信号を音声認識サーバ２に送信する。

音声認識サーバ２では、受信した音声信号に対し、市中のアプリ名などが登録された大語彙辞書２３を用いて音声認識が行われる。その後、サーバ音声認識結果受信部１５は、音声認識サーバ２からサーバ音声認識結果（ｃ）「ｆｌｏｏｄｉｔ」を受信する。そして、サーバ音声認識結果受信部１５は、サーバ音声認識結果（ｃ）をコマンド照合部１６に送信する。

次に、コマンド照合部１６は、サーバ音声認識結果（ｃ）をコマンド辞書１７と照合する。具体的には、コマンド照合部１６は、サーバ音声認識結果（ｃ）がキーワードリストに登録されたキーワード（機能名およびアプリ名）に一致するか否かを判定する。その結果、サーバ音声認識結果（ｃ）がキーワード「Ｆｌｏｏｄ−Ｉｔ」に一致すると判定される。そして、コマンド照合部１６は、「Ｆｌｏｏｄ−Ｉｔ」を候補として出力装置１０８に表示する。その後、コマンド照合部１６は、ユーザによって候補が選択されたか否かを判定し、「Ｆｌｏｏｄ−Ｉｔ」が選択されたと判定する。

続いて、コマンド照合部１６は、選択された候補「Ｆｌｏｏｄ−Ｉｔ」が機能であるか、アプリであるかをキーワードリストを参照して判定する。キーワード「Ｆｌｏｏｄ−Ｉｔ」は、キーワードリストにアプリとして登録されているため、コマンド照合部１６は、アプリであると判定する。そして、コマンド照合部１６は、アプリ「Ｆｌｏｏｄ−Ｉｔ」が端末装置１にインストールされているか否かを判定する。判定の結果、アプリ「Ｆｌｏｏｄ−Ｉｔ」は端末装置１にインストールされていないので、コマンド照合部１６は、出力装置１０８にアプリ検索を行うか否かを表示する。

そして、ユーザによってアプリ検索を行うことが選択された場合、コマンド照合部１６は、通信モジュール１０５を介して、アプリマーケットでアプリ「Ｆｌｏｏｄ−Ｉｔ」の検索を行い、検索結果を出力装置１０８に表示する。そして、ユーザによって当該アプリのインストールが指示されると、端末装置１にアプリ「Ｆｌｏｏｄ−Ｉｔ」がインストールされる。このように、ユーザは、アプリ名の発話、音声認識結果の確認、アプリ検索の指示およびアプリのインストールの指示という簡単な操作だけで、端末装置１に所望のアプリをインストールすることができる。

次に、端末装置１の作用効果について説明する。端末装置１は、音声入力部１１が音声信号の入力を受け付け、音声認識部１２が音声信号に対する音声認識を行う。また、音声送信部１４が音声信号を音声認識サーバ２に送信し、サーバ音声認識結果受信部１５がサーバ音声認識結果を受信する。そして、コマンド照合部１６が、端末内音声認識結果をコマンド辞書１７と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定する。そして、コマンド実行部１８がコマンド照合部１６によって特定されたコマンドを実行する。

これにより、例えば、端末内音声認識結果がコマンドとして受理される場合は、端末内音声認識結果を利用してコマンドの実行を行い、端末内音声認識結果がコマンドとして受理できない場合には、サーバ音声認識結果を利用することができる。すなわち、端末内の語彙で認識可能なコマンドが音声入力された際には、端末内音声認識結果を利用することで高速に応答でき、端末内の語彙で認識不可能なコマンドが音声入力された際には、サーバ音声認識結果を利用することで音声入力されたコマンドを確実に認識し、実行することができる。

また、コマンド照合部１６は、端末内音声認識結果をコマンド辞書１７と照合して、確信度を算出し、確信度が所定の閾値以上である場合に、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定する。

これにより、周囲の雑音などにより端末内音声認識結果の信頼度が低くなったが、正しく音声認識されている場合に、端末内音声認識結果を利用することができる。その結果、端末内の語彙で認識可能なコマンドを、端末内音声認識結果の信頼度が低くても高速に実行することが可能となる。

また、コマンド辞書１７は、複数のコマンドの各々に対して、複数のキーワードと、複数のキーワードに対応付けられたスコアとが登録されたキーワードリストを記憶し、コマンド照合部１６は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて確信度を算出する。これにより、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。

また、コマンド照合部１６は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに単語の音声認識の信頼度に基づいて、確信度を算出することが好ましい。これにより、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。

また、コマンド照合部１６は、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドでない場合には、サーバ音声認識結果の利用を決定する。これにより、端末内機能の実行を指示するコマンドについては端末内音声認識結果を用いて高速に実行することができ、それ以外のコマンドについてはサーバ音声認識結果を用いて確実に実行することができる。

音声送信部１４は、音声認識部１２によって端末内音声認識結果が得られる前に、音声信号を音声認識サーバ２に送信する。これにより、サーバ音声認識結果をより早く受信することができる。このため、サーバ音声認識結果を利用することが決定された場合に、高速にコマンドを実行することができる。

サーバ音声認識結果受信部１５は、コマンド照合部１６によって端末内音声認識結果に基づいてコマンドが特定された後にサーバ音声認識結果を受信した場合、サーバ音声認識結果を破棄する。これにより、サーバ音声認識結果の受信を待つことなく、端末内音声認識結果に基づいてコマンドを特定することができる。このため、端末内の語彙で認識可能なコマンドを高速に実行することが可能となる。

以上のように、端末装置１は、端末内音声認識と音声認識サーバ２を用いたネットワーク型音声認識とを協調させて利用することができる。この端末内音声認識は、ネットワークＮＷを介した通信が不要であることから高速に応答できるが、ユーザ辞書１３に登録されている語彙が少ないことから正確な音声認識が行えない場合がある。一方、ネットワーク型音声認識は、大語彙辞書２３に登録されている語彙がユーザ辞書１３よりも多いことから音声認識の精度は端末内音声認識よりも高いが、ネットワークＮＷを介した通信を行うため、通信遅延等で応答が遅くなる場合がある。したがって、端末装置１に対して端末装置１内の認識対象の語彙（ユーザ依存語彙を含む）で認識可能な音声コマンドが入力された場合には、端末内音声認識により高速な応答を可能とし、端末装置１内の認識対象の語彙では認識不可能な音声コマンドが入力された場合には、音声認識サーバ２を用いたネットワーク型音声認識により大語彙・高精度な音声認識を可能とする。

なお、本実施形態においては、装置として端末装置１を例示したが、これに限るものではなく、例えば、端末装置１における各機能を実行するためのプログラムモジュールとして構成してもよい。すなわち、音声入力部１１に相当する音声入力モジュール、音声認識部１２に相当する音声認識モジュール、音声送信部１４に相当する音声送信モジュール、サーバ音声認識結果受信部１５に相当するサーバ音声認識結果受信モジュール、コマンド照合部１６に相当するコマンド照合モジュール、コマンド実行部１８に相当するコマンド実行モジュールを備えた音声認識プログラムであって、携帯端末などのコンピュータシステムに当該プログラムを読み込ませることにより、上述の端末装置１と同等の機能を実現することができる。なお、上述の音声認識プログラムは、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤもしくはＲＯＭ等の記憶媒体または半導体メモリに格納されて提供される。また、上述の音声認識プログラムは、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されてもよい。

また、音声送信部１４は、音声信号として非圧縮の音声波形または圧縮された音声波形を音声認識サーバ２に送信してもよく、あるいは、音声認識に利用される特徴量を音声認識サーバ２に送信してもよい。

また、音声送信部１４は、音声入力部１１から音声信号を受信後、端末内音声認識結果を利用するか否かの決定がされる前に、音声認識サーバ２に音声信号を送信してもよい。この場合、音声認識部１２による端末内音声認識およびコマンド照合部１６による端末内音声認識結果のコマンド照合と並行して、音声認識サーバ２においてサーバ音声認識を行うことができ、サーバ音声認識結果を早く取得することが可能となる。その結果、コマンド照合部１６によってサーバ音声認識結果の利用が決定された場合の処理時間を短縮することができる。このとき、コマンド照合部１６は、サーバ音声認識結果を端末内音声認識結果よりも先に取得した場合、端末内音声認識結果を待っていずれの音声認識結果を利用するかを決定することが望ましいが、サーバ音声認識結果を優先して利用してもよい。

また、音声送信部１４が端末内音声認識結果を利用するか否かの判断がされる前に音声認識サーバ２に音声信号を送信し、サーバ音声認識結果受信部１５が音声認識サーバ２からサーバ音声認識結果を受信する前に、コマンド照合部１６が端末内音声認識結果を利用することを決定した場合、コマンド照合部１６は、音声送信部１４に対して音声認識サーバ２での音声認識処理を取り消すための信号を音声認識サーバ２に送信するように指示してもよい。このとき、音声送信部１４は、コマンド照合部１６からの指示に基づいて、音声認識サーバ２に音声認識サーバ２での音声認識処理を取り消すための信号を送信してもよい。このように、端末内音声認識により認識可能なコマンドが入力された場合には、音声認識サーバ２からのサーバ音声認識結果を待つことなく、端末内音声認識結果を利用することを決定することで、コマンド実行部１８は高速にコマンドを実行できる。

また、確信度の閾値は、固定値に限られず、端末内音声認識結果に含まれる単語数に対して、所定の割合（例えば０．２）を掛けた値とすることもできる。このようにすることで、単語数に応じて閾値を動的に変更することができ、より正確にコマンドを特定することが可能となる。

また、コマンド照合部１６は、受理されたコマンドが、端末内機能に相当する場合に限られず、例えば、限られた単語しか使われない機能、すなわち音声認識サーバ２による大語彙認識が必要ない機能に相当する場合に、当該コマンドを特定してもよい。

また、コマンド辞書１７は、機能名などのキーワードと、機能とを対応付け、スコアを有しないキーワードリストを記憶してもよい。この場合、コマンド照合部１６は、音声認識結果に含まれる単語または部分文字列が、キーワードリストに登録されたキーワードに一致するか否かを判断し、いずれかのキーワードに一致した場合に、そのキーワードに対応付けられた機能を実行するためのコマンドを、音声信号によって示されるコマンドとして特定してもよい。

１…端末装置、２…音声認識サーバ、１０…音声認識システム、１１…音声入力部（音声入力手段）、１２…音声認識部（音声認識手段）、１３…ユーザ辞書、１４…音声送信部（音声送信手段）、１５…サーバ音声認識結果受信部（サーバ音声認識結果受信手段）、１６…コマンド照合部（コマンド照合手段）、１７…コマンド辞書、１８…コマンド実行部（コマンド実行手段）、２１…音声受信部（音声受信手段）、２２…サーバ音声認識部（サーバ音声認識手段）、２３…大語彙辞書（サーバ辞書）、２４…サーバ音声認識結果送信部（サーバ音声認識結果送信手段）。

Claims

音声信号の入力を受け付ける音声入力手段と、
前記音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、
前記音声信号を音声認識サーバに送信する音声送信手段と、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、
複数のコマンドが登録されたコマンド辞書と、
前記音声認識手段によって認識された音声認識結果である端末内音声認識結果を前記コマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合手段と、
前記コマンド照合手段によって特定された前記コマンドを実行するコマンド実行手段と、
を備えることを特徴とする端末装置。
前記コマンド照合手段は、前記端末内音声認識結果を前記コマンド辞書と照合して、コマンドに該当する可能性を示す確信度を算出し、前記確信度が所定の閾値以上である場合に、前記端末内音声認識結果の利用を決定し、前記閾値以上の前記確信度の前記コマンドを前記音声信号によって示されるコマンドとして特定することを特徴とする請求項１に記載の端末装置。
前記コマンド辞書は、前記複数のコマンドの各々に対して、複数のキーワードと、前記複数のキーワードに対応付けられたスコアとが登録されたキーワードリストを記憶し、
前記コマンド照合手段は、前記端末内音声認識結果に含まれる単語の各々について、前記キーワードリストに登録された前記複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて前記確信度を算出することを特徴とする請求項２に記載の端末装置。
前記コマンド照合手段は、前記端末内音声認識結果に含まれる単語の各々について、前記キーワードリストに登録された前記複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに前記単語の音声認識の信頼度に基づいて、前記確信度を算出することを特徴とする請求項３に記載の端末装置。
前記コマンド照合手段は、前記閾値以上の前記確信度の前記コマンドが、端末内機能の実行を指示するコマンドである場合には、前記端末内音声認識結果の利用を決定し、前記閾値以上の前記確信度の前記コマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、前記サーバ音声認識結果の利用を決定することを特徴とする請求項２〜４のいずれか一項に記載の端末装置。
前記音声送信手段は、前記音声認識手段によって前記端末内音声認識結果が得られる前に、前記音声信号を前記音声認識サーバに送信することを特徴とする請求項１〜５のいずれか一項に記載の端末装置。
前記サーバ音声認識結果受信手段は、前記コマンド照合手段によって前記端末内音声認識結果に基づいてコマンドが特定された後に前記サーバ音声認識結果を受信した場合、前記サーバ音声認識結果を破棄することを特徴とする請求項６に記載の端末装置。
音声信号の入力を受け付ける音声入力モジュール、
前記音声入力モジュールによって受け付けられた音声信号に対する音声認識を行う音声認識モジュール、
前記音声信号を音声認識サーバに送信する音声送信モジュールと、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信モジュールと、
前記音声認識モジュールによって認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合モジュールと、
前記コマンド照合モジュールによって特定された前記コマンドを実行するコマンド実行モジュールと、
を備えることを特徴とする音声認識プログラム。
前記コマンド照合モジュールは、前記端末内音声認識結果を前記コマンド辞書と照合して、コマンドに該当する可能性を示す確信度を算出し、前記確信度が所定の閾値以上である場合に、前記端末内音声認識結果の利用を決定し、前記閾値以上の前記確信度の前記コマンドを前記音声信号によって示されるコマンドとして特定することを特徴とする請求項８に記載の音声認識プログラム。
前記コマンド辞書は、前記複数のコマンドの各々に対して、複数のキーワードと、前記複数のキーワードの各々に対応付けられたスコアとが登録されたキーワードリストを記憶し、
前記コマンド照合モジュールは、前記端末内音声認識結果に含まれる単語の各々について、前記キーワードリストに登録された前記複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて前記確信度を算出することを特徴とする請求項９に記載の音声認識プログラム。
前記コマンド照合モジュールは、前記端末内音声認識結果に含まれる単語の各々について、前記キーワードリストに登録された前記複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに前記単語の音声認識の信頼度に基づいて、前記確信度を算出することを特徴とする請求項１０に記載の音声認識プログラム。
前記コマンド照合モジュールは、前記閾値以上の前記確信度の前記コマンドが、端末内機能の実行を指示するコマンドである場合には、前記端末内音声認識結果の利用を決定し、前記閾値以上の前記確信度の前記コマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、前記サーバ音声認識結果の利用を決定することを特徴とする請求項９〜１１のいずれか一項に記載の音声認識プログラム。
前記音声送信モジュールは、前記音声認識モジュールによって前記端末内音声認識結果が得られる前に、前記音声信号を前記音声認識サーバに送信することを特徴とする請求項８〜１２のいずれか一項に記載の音声認識プログラム。
前記サーバ音声認識結果受信モジュールは、前記コマンド照合モジュールによって前記端末内音声認識結果に基づいてコマンドが特定された後に前記サーバ音声認識結果を受信した場合、前記サーバ音声認識結果を破棄することを特徴とする請求項１３に記載の音声認識プログラム。
音声信号の入力を受け付ける音声入力ステップと、
前記音声入力ステップにおいて受け付けられた音声信号に対する音声認識を行う音声認識ステップと、
前記音声信号を音声認識サーバに送信する音声送信ステップと、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信ステップと、
前記音声認識ステップにおいて認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合ステップと、
前記コマンド照合ステップにおいて特定された前記コマンドを実行するコマンド実行ステップと、
を備えることを特徴とする音声認識方法。
端末装置と、音声認識サーバと、を含む音声認識システムであって、
前記端末装置は、
音声信号の入力を受け付ける音声入力手段と、
前記音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、
複数のコマンドが登録されたコマンド辞書と、
前記音声信号を前記音声認識サーバに送信する音声送信手段と、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、
前記音声認識手段によって認識された音声認識結果である端末内音声認識結果を前記コマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合手段と、
前記コマンド照合手段によって特定された前記コマンドを実行するコマンド実行手段と、
を備え、
前記音声認識サーバは、
前記音声送信手段から送信された前記音声信号を受信する音声受信手段と、
前記端末装置よりも多くの語彙を含むサーバ辞書と、
前記音声受信手段によって受信された前記音声信号を、前記サーバ辞書に基づいて音声認識するサーバ音声認識手段と、
前記サーバ音声認識結果を前記端末装置に送信するサーバ音声認識結果送信手段と、
を備えることを特徴とする音声認識システム。