JP2011075602A

JP2011075602A - 音声認識装置、音声認識方法、及び、音声認識プログラム

Info

Publication number: JP2011075602A
Application number: JP2009223764A
Authority: JP
Inventors: Shuhei Kato; 修平加藤
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-09-29
Filing date: 2009-09-29
Publication date: 2011-04-14

Abstract

【課題】処理の長時間化を回避しつつ、確実に正しく認識対象情報を認識することができる音声認識装置、音声認識方法、及び、音声認識プログラムを提供する。
【解決手段】ステップＳ４００の音声再認識処理により再認識を行う際、タッチパネル２１０で入力済みの正解の単語列と一致する単語列候補が設定されたビーム幅Ｎによる探索範囲の枝刈り対象とならないために、ビーム幅Ｎを順次更新しつつビーム探索を実行する。そしてステップＳ８０において、その更新されたビーム幅Ｎを、ビーム幅履歴データベース記憶エリア１５１に記憶されたビーム幅履歴データベースに格納する。
【選択図】図８

Description

本発明は、発話者の発する発話音声を音声認識する音声認識装置、音声認識方法、及び音声認識プログラムに関する。

発話音声を音声認識する音声認識装置において、認識対象情報の語彙が増えたり、連続音声が認識対象情報であった場合には、正解を得るために極めて大きな処理時間や記憶空間を要することがあり得る。そこで、多数存在する認識対象情報候補の中から正解候補を絞る探索方式として、従来、ビーム探索の手法が知られている（例えば、特許文献１参照）。

この従来技術においては、統計的音響モデル音素の照合部と、ＬＲパーザ部とを備えた、音声認識システムが開示されている。この音声認識システムは、制御関数としてニューラルネットワークを用いる。そして、ニューラルネットワークに回帰係数、ＬＲ解析木の現在の深さ、及び、現在の探索時点における第１位仮説のスコアと直前の探索時点における第１位仮説のスコアとの差を入力し、正解仮説の順位を出力するように学習する。

特開平６−２８２２９５号公報

一般に、ビーム探索では、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。ビーム幅を狭く設定すると処理の高速化を図れるが、複数の認識対象情報候補に含まれていた、認識対象情報と同一の正解を誤って処理途中で枝刈りにより切り捨てるおそれがある。ビーム幅を広く設定すると枝刈りにより正解を切り捨てる可能性は低くなるが処理に膨大な時間を要することとなる。

上記従来技術の手法によれば、効率的に枝刈りなどを行なうことによって探索空間を削減し、ある程度の正解率を確保しつつ、探索時間を短縮することができる。しかしながら、実際は、正解である認識対象情報候補を誤って処理途中で切り捨ててしまうおそれがあった。この結果、認識対象情報を確実に認識することは困難であった。

本発明の目的は、処理の長時間化を回避しつつ、正しく認識対象情報を認識することができる音声認識装置、音声認識方法、及び、音声認識プログラムを提供することにある。

上記目的を達成するために、第１発明の音声認識装置は、統計的音響モデルとビーム探索を用いて音声認識を行う音声認識装置であって、過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶手段に記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手段と、所定の認識対象情報を含むユーザの発話音声を入力するための音声入力手段と、前記音声入力手段を介し入力された前記発話音声により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記音取得手段により取得された音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手段と、前記ユーザの手動操作により前記認識対象情報を入力可能な操作手段と、前記操作手段により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手段により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手段と、前記音声再認識手段により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手段とを有することを特徴とする。

本願第１発明の音声認識装置においては、音声入力手段が認識対象情報を含むユーザの発話音声を入力すると、その入力された発話音声に対応した音情報が音取得手段により取得され、この取得された音情報に対し音声認識が行われる。この音声認識により複数の認識対象情報候補を生成する際、本願第１発明においては、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。

ビーム幅を狭く設定すると処理の高速化を図れるが、複数の認識対象情報候補に含まれていた、認識対象情報と同一の正解を誤って処理途中で枝刈りにより切り捨てるおそれがある。ビーム幅を広く設定すると枝刈りにより正解を切り捨てる可能性は低くなるが処理に膨大な時間を要することとなる。

そこで、本願第１発明においては、音声再認識手段が再認識を行う際、操作手段で入力済みの認識対象情報と一致する認識対象情報候補がビーム幅設定手段により設定されたビーム幅による探索範囲の枝刈り対象とならないために、ビーム幅を順次更新しつつビーム探索を実行する。そして、その更新されたビーム幅を、ビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅が確保される。この結果、前述したように、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅を拡大するので、不必要にビーム幅を広く設定することによる処理の長時間化を回避することができる。

以上のように、本願第１発明の音声認識装置においては、処理の長時間化を回避しつつ、正しく認識対象情報を認識することができる。

第２発明の音声認識装置は、上記第１発明において、前記ビーム幅設定手段により設定された前記ビーム幅をＮとしたとき、前記操作手段により入力された前記認識対象情報と一致する前記認識対象情報候補が、前記順位設定手段により第１位に順位付けられたか、もしくは、枝刈りによって前記認識対象情報候補がＮ位中に残らず順位が不明であるかどうか、を判定する順位判定手段をさらに有し、前記順位判定手段により、前記認識対象情報と一致する前記認識対象情報候補が第２位以下第Ｎ位以上に順位付けられたと判定された場合は、その後、前記音声再認識手段及び前記履歴更新手段による処理を中止する中止制御手段を有することを特徴とする。

順位判定手段で第２位以下第Ｎ位以上に順位付けられた場合、仮にビーム幅をさらに広げて音声認識を行っても、正解である認識対象情報と一致する認識対象情報候補が第１位となる可能性はない。したがって、本願第２発明においては、このような場合にはビーム幅を更新するためのその後の処理を行わないようにする。これにより、効果のない無駄な処理時間を浪費するのを防止することができる。

第３発明の音声認識装置は、上記第１又は第２発明において、前記ビーム幅設定手段は、前記ビーム幅履歴データベースへアクセスし、ビーム幅の履歴値のうちの最大値を、前記ビーム幅の初期値として設定することを特徴とする。

これにより、次回以降の音声認識の際、少なくとも過去のビーム探索と同じビーム探索を行うために必要なビーム幅が確実に設定される。この結果、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。

第４発明の音声認識装置は、上記第１又は第２発明において、前記ビーム幅履歴データベースは、複数の前記認識対象情報と、各認識対象情報に対応する複数のビーム幅の履歴値と、当該複数のビーム幅の履歴値の平均値とを、各認識対象情報ごとに互いに関連付けて記憶しており、前記ビーム幅設定手段は、前記ビーム幅履歴データベースへアクセスし、前記複数の認識対象情報にそれぞれ対応した、複数の前記平均値のうちの最大値を、前記ビーム幅の初期値として設定することを特徴とする。

これにより、次回以降の音声認識の際、過去のビーム探索の実績と概ね同等のビーム探索を行うために必要なビーム幅が設定される。この結果、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。

上記目的を達成するために、第５発明の音声認識方法は、統計的音響モデルとビーム探索を用いて音声認識を行う音声認識方法であって、過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順とを有することを特徴とする。

本願第５発明の音声認識方法においては、認識対象情報を含むユーザの発話音声に対応した音情報に対し音声認識が行われる。この音声認識により複数の認識対象情報候補を生成する際、本願第５発明においては、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。

本願第５発明においては、音声再認識手順で再認識を行う際、ユーザが手動操作入力済みの認識対象情報と一致する認識対象情報候補が、ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、ビーム幅を順次更新しつつビーム探索を実行する。そして、その更新されたビーム幅を、履歴更新手順でビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅が確保される。この結果、前述したように、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅を拡大するので、不必要にビーム幅を広く設定することによる処理の長時間化を回避することができる。

以上のように、本願第５発明の音声認識方法においては、処理の長時間化を回避しつつ、確実に正しく認識対象情報を認識することができる。

上記目的を達成するために、第６発明の音声認識プログラムは、過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順とをコンピュータの演算手段に実行させる。

本願第６発明の音声認識プログラムによれば、コンピュータの演算手段により、認識対象情報を含むユーザの発話音声に対応した音情報に対し音声認識が行われる。この音声認識により複数の認識対象情報候補が生成される際、コンピュータの演算手段は、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りが実行される。

本願第６発明の音声認識プログラムによれば、コンピュータの演算手段は、音声再認識手順で再認識を行う際、ユーザが手動操作入力済みの認識対象情報と一致する認識対象情報候補が、ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、ビーム幅を順次更新しつつビーム探索を実行する。そして、その更新されたビーム幅を、履歴更新手順でビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅が確保される。この結果、前述したように、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅を拡大するので、不必要にビーム幅を広く設定することによる処理の長時間化を回避することができる。

以上のように、本願第６発明の音声認識プログラムによれば、処理の長時間化を回避しつつ、正しく認識対象情報を認識することができる。

本発明によれば、処理の長時間化を回避しつつ、確実に正しく認識対象情報を認識することができる。

本実施形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。受付端末に備えられた、タッチパネル及びマイクの詳細外観構造の一例を表す斜視図である。タッチパネルにおける表示画面の一例を表す図である。受付端末の機能的構成を示す機能ブロック図である。ＤＢサーバの機能的構成を表す機能ブロック図である。ビーム幅履歴データベース記憶エリアの記憶内容を表す図である。ビーム探索の内容の一例を概念的に表す説明図である。受付端末の制御回路部により実行される制御手順を表すフローチャートである。ステップＳ１００の詳細内容を表すフローチャートである。ステップＳ２００の詳細内容を表すフローチャートである。ステップＳ３００の詳細内容を表すフローチャートである。第１位の単語列候補が正解であるか否かの確認をユーザに求める確認画面の一例を表す図である。ユーザが正解である単語列を入力可能な入力画面の一例を表す図である。ステップＳ４００の詳細内容を表すフローチャートである。ビーム探索の内容の一例を概念的に表す説明図である。ビーム幅履歴の平均値を用いる変形例における、ビーム幅履歴データベース記憶エリアの記憶内容を表す図である。ビーム幅履歴の平均値を用いる変形例における、ステップＳ１００Ａの詳細内容を表すフローチャートである。

以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の音声認識装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。

図１を用いて、本実施形態の来訪者受付システム１の全体構成の概略構成を説明する。

図１において、来訪者受付システム１は、受付端末２０と、ＤＢサーバ１０と、複数のＩＰ電話機６０と、ＩｎｔｅｎｅｔＰｒｏｔｏｃｏｌＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ（ＩＰ−ＰＢＸ）５０とを有している。これらは全てルータ４０を介して接続されている。受付端末２０は、統計的音響モデルと後述するビーム探索を用いて音声認識を行う音声認識装置であって、例えば会社の入口付近に設置され、会社への来訪者等であるユーザの発話音声を音声認識する。ＤＢサーバ１０は、周知のパーソナルコンピュータにより構成される。ＩＰ電話機６０は、会社の従業員それぞれに対応して設けられている。ＩＰ−ＰＢＸ５０は、それら複数のＩＰ電話機６０の回線交換を行う周知の交換装置である。

受付端末２０は、端末本体２０Ａと、この端末本体２０Ａに接続された、タッチパネル２１０、アナログ−デジタル変換回路２２７、オペアンプ２１７、スピーカ２０８、及び上記オペアンプ２１７に接続されたマイク２０７を有している。なお、マイク２０７は、特許請求の範囲に記載の音声入力手段に相当し、タッチパネル２１０は、操作手段に相当する。

マイク２０７は、ユーザの発話により入力された発話音声をアナログ信号である音声情報に変換し、オペアンプ２１７へ出力する。オペアンプ２１７は、マイク２０７から入力された音声情報を増幅し、ＡＤＣ２２７へ出力する。ＡＤＣ２２７は、オペアンプ２１７から入力された増幅後の音声情報を、アナログ−デジタル変換処理によりデジタル信号である音声データに変換し、端末本体２０へ出力する。スピーカ２０８は、端末本体２０Ａから入力された音声信号を音声に変換して発声し、ユーザに対し音声ガイダンス等を行う。

図２を用いて、上記受付端末２０に備えられた、タッチパネル２１０及びマイク２０７の外観構造について説明する。

図２において、受付端末２０は、上記タッチパネル２１０及び上記マイク２０７を有している。タッチパネル２１０は、表示される表示画面をユーザが直接画面に触れながら操作することができる。このタッチパネル２１０は、水平に設置されるベース２１２に対してアーム２１１を介し支持されている。そして、このタッチパネル２１０は、表示面のなす方向がユーザの視線の方向に対して直角となるように、当該表示面が斜め上方を向いている。マイク２０７は、ベース２１２に対し先端をユーザ側へ向けるようにして略円弧状に配置されている。

図３を用いて、タッチパネル２１０における表示画面の一例を説明する。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物ＩＭがオフィス風の背景Ｇとともに表示される。また、スピーカ２０８から発話される音声に対応する文章Ｌが併せて表示される。

図４を用いて、受付端末２０の機能的構成を説明する。

図４において、受付端末２０の端末本体２０Ａは、制御回路部２００と、入出力インタフェイス２０４と、ハードディスク装置２０５とを有している。制御回路部２００は、ＣＰＵ２０１と、受付端末２０の基本的な動作に必要なプログラムやそのための設定値を記憶したＲＯＭ２０２と、各種データを一時的に記憶するＲＡＭ２０３とを有している。ＣＰＵ２０１は、ＲＯＭ２０２や、ハードディスク装置２０５に記憶されたプログラムに従って、受付端末２０全体の動作を制御するものであり、特許請求の範囲に記載の演算手段に相当する。

入出力インタフェイス２０４には、上記ＣＰＵ２０１と、上記ハードディスク装置２０５と、上記タッチパネル２１０と、上記ＡＤＣ２２７と、上記オペアンプ２１７と、上記スピーカ２０８と、ネットワークカード２０６とが接続されている。なお、図４では入出力インタフェイス及びネットワークカードを、Ｉ／Ｏインタフェイス及びＮＷカードと略記している。

ハードディスク装置２０５には、音声認識に使用するための言語モデル記憶エリア２５２、単語辞書記憶エリア２５３、来訪者を特定するための音声認識に使用される来訪者辞書記憶エリア２５４、及びプログラム記憶エリア２５６を含む複数の記憶エリアを備えている。

プログラム記憶エリア２５６には、受付端末２０の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末２０の基本的な動作を制御するシステムプログラム、ＤＢサーバ１０との通信を制御する通信プログラム、タッチパネル２１０に表示する画像を生成する描画プログラム、詳細は後述するが、ビーム幅設定手順、順位設定手順、再音声認識手順、及び履歴更新手順を有する音声認識方法（後述の図８乃至図１１、図１４等参照）をＣＰＵ２０１に実行させる音声認識プログラム、ＤＢサーバ１０のデータベースにアクセスし照合を行うためのＤＢ照合プログラム、音声合成プログラム、対話制御プログラム、ＩＰ電話機６０とＩＰ−ＰＢＸ５０との接続に係わる電話接続プログラム等がある。

なお、図示はされていないが、ハードディスク装置２０５には、その他、音声認識処理で一般的に使用される周知の統計的音響モデルや、各種処理で使用される設定値や閾値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、例えば、周波数特性や振幅特性等の音響的特徴と、対応する音素とその発生確率とで表現されている。また、言語モデルは、文章の制約を統計的にモデル化したもので、例えば、Ｎ−ｇｒａｍモデルや記述文法で表現されている。

ネットワークカード２０６は、上記ルータ４０に接続され、ＤＢサーバ１０などとの間でデータの送受信を可能とするための拡張カードである。

図５を用いて、ＤＢサーバ１０の機能的構成を説明する。

図５に示すように、ＤＢサーバ１０は、ＣＰＵ１０１と、ＣＰＵ１０１に各々接続されたＲＯＭ１０２及びＲＡＭ１０３と、ＣＰＵ１０１に接続された入出力インタフェイス１０４と、この入出力インタフェイス１０４にそれぞれ接続された、マウスコントローラ１０６、キーコントローラ１０７、ビデオコントローラ１０８、通信装置１０９、及びハードディスク装置１５０とを有している。

ＲＯＭ１０２は、ＢＩＯＳを含む、ＤＢサーバ１０を動作させるための各種のプログラムを記憶している。ＲＡＭ１０３は、各種データを一時的に記憶する。ＣＰＵ１０１は、ＲＯＭ１０２や、後述するハードディスク装置１５０に記憶されたプログラムに従って、ＤＢサーバ１０の全体の制御を司る。マウスコントローラ１０６、キーコントローラ１０７、及びビデオコントローラ１０８には、それぞれマウス１１６、キーボード１１７、及びディスプレイ１１８が接続されている。通信装置１０９は、ルータ４０に接続され、受付端末２０等、外部機器との間でデータの送受信を行うことを可能とする。

ハードディスク装置１５０は、ビーム幅履歴データベース記憶エリア１５１、及びプログラム記憶エリア１５６を含む複数の記憶エリアを備えている。なお、図５ではデータベースをＤＢと略記している。

図６を用いて、ビーム幅履歴データベース記憶エリア１５１の記憶内容を説明する。

ビーム幅履歴データベース記憶エリア１５１には、過去の音声認識におけるビーム探索でのビーム幅Ｎの履歴値を格納するビーム幅履歴データベースが記憶されている。なお、このビーム幅履歴データベース記憶エリア１５１が記憶手段に相当する。図６に示すように、ビーム幅履歴データベースには、会社への来訪者が過去に発話した単語列と、その音声認識におけるビーム探索でのビーム幅Ｎの履歴値とが、互いに関連付けて記憶されている。なお、例えば同一人物の複数回の来訪等により、過去に同じ発話内容が複数回音声認識されている場合には、その度ごとの複数のビーム幅Ｎの履歴値が記憶されている。図６に示す例では、各単語列について３つのビーム幅Ｎの履歴値が記憶されている。

プログラム記憶エリア１５６には、システムプログラム、通信プログラム等、各種処理をＤＢサーバ１０に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばＣＤ−ＲＯＭに記憶されたものが図示しないＣＤ−ＲＯＭドライブを介してインストールされ、プログラム記憶エリア１５６に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。

以上の構成において、例えば受付端末２０の電源がＯＮされた後、この状態でユーザである来訪者がタッチパネル２１０を操作することで、受付端末２０は来訪者が検出されたと認識して受付処理を開始する。すなわち、端末本体２０Ａからの音声信号に基づき、スピーカ２０８から来訪者に関する所定の質問を所定の順序で発声する。またこのときタッチパネル２１０においても、上記発声に対応した所定の表示を行うようにしてもよい。上記スピーカ２０８の発声やタッチパネル２１０の表示に応じて、来訪者が発話すると、受付端末２０は、対応する音声情報をマイク２０７で入力し、音声認識処理を行う。

本実施形態では、前述の音響モデル、言語モデル、来訪者辞書、単語辞書が、ハードディスク装置２０５の対応する記憶エリアから読み出され、それらを用いて音声認識が行われる。すなわち、来訪者の音情報を音素としての１フレームごとに分析し、特徴量を抽出した後、音響モデルと言語モデルとのマッチングが行われる。その結果、言語モデルで受理可能な各フレーム毎に尤度が求まり、当該尤度の累積値が最も高い単語列候補が認識結果として得られる。

この音声認識処理により複数の単語列候補を生成する際、受付端末２０は、処理の迅速化を図るためにビーム探索を行う。すなわち、受付端末２０は、音声認識により得られる単語列候補の数の上限となるビーム幅Ｎを設定し、音声認識処理の途中で当該ビーム幅Ｎの範囲外となった単語列候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。なお、上記ビーム幅Ｎの設定は、前述のビーム幅履歴データベースに記憶された、過去の音声認識処理におけるビーム探索でのビーム幅Ｎの履歴値を用いて、音声認識処理を行う前に行われる。

そして、受付端末２０は、上記音声認識処理による認識結果をタッチパネル２１０に表示する。来訪者はその結果が正しいか否かを確認し、正しい場合にはその旨を、正しくない場合には正解である単語列をタッチパネル２１０を用いて手動操作により入力する。

その後、受付端末２０は、上記入力結果に応じて、来訪者の来訪対象となる担当者が使用するＩＰ電話機６０にＩＰ−ＰＢＸ５０を介して接続し、担当者への通知処理を行う。担当者は、通知された来訪者の身元に関する情報に応じて、受付端末２０に対して応対を指示する。この指示に応じて、受付端末２０は、来訪者と担当者とが会話できるようにＩＰ電話機６０を接続したり、担当者の代理で来訪者に応対したりする。このようにして、来訪者受付システム１は、会社における受付業務を自動的に行うことができる。

図７を用いて、上記ビーム探索の内容の一例を概念的に説明する。この図７では、ユーザが発話した単語が「東陽町（とうようちょう）」であり、ビーム幅Ｎが「３」に設定されている場合を例示している。またこの図７では、縦軸に尤度、横軸に時間を取っており、横軸の各時間単位ｔ１，ｔ２，・・・は図中に○で示す各フレームに対応している。図７に示すように、受付端末２０は、入力された発話音声に対し音声認識を行って順次フレームを生成する。これにより、複数のフレームが連なって形成される経路が分岐され、複数の単語候補が得られる。この際、受付端末２０は、各フレームごとに１フレーム分の尤度を計算し、それまでの経路に含まれる複数のフレームの尤度を累積して、当該累積値の大きい順に順位付けを行う。この図７に示す例では、時間ｔ４において経路数が４となっている。前述したようにビーム幅Ｎは生成する単語候補の数の上限値、すなわち上記経路の上位からの数の上限値であるため、順位が最下位である「上野（うえの）」に対応する経路については、時間ｔ４において枝刈りが実行され、それ以降の処理が行われない。その結果、最終的には上位より３つの単語である「東陽町（とうようちょう）」、「東京（とうきょう）」、「豊洲（とよす）」が単語候補として得られている。

以上のような構成である本実施形態の最大の特徴は、受付端末２０が、タッチパネル２１０を介しユーザにより入力された正解である単語列と一致する単語列候補が、上記設定されたビーム幅Ｎによる探索範囲の枝刈り対象とならないために、必要なビーム幅Ｎを随時更新しつつビーム探索を実行する再音声認識処理を行うことにある。以下、その詳細を説明する。

図８を用いて、受付端末の制御回路部２００により実行される制御手順を説明する。

ステップＳ１０では、制御回路部２００は、音声認識処理による認識結果が所定の信頼性を満たすか否かを表すフラグＦ（後述の図１１参照）を、信頼性を満たすことを表す０に初期化する。

ステップＳ１００では、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、過去の音声認識におけるビーム探索でのビーム幅Ｎの履歴値を用いて現在のビーム幅Ｎを設定するビーム幅決定処理を実行する。なお、このビーム幅決定処理の詳細内容については後述する。

ステップＳ２０では、制御回路部２００は、マイク２０７、オペアンプ２１７、ＡＤＣ２２７、及び入出力インタフェイス２０４を介し、所定の単語を含むユーザの発話音声を入力する。

ステップＳ３０では、制御回路部２００は、上記ステップＳ２０で入力した発話音声を録音し、当該録音音声データをハードディスク装置２０５の所定の記憶エリアに記憶する。これにより、入力した発話音声に対応する振幅あるいは周波数を含む音情報が取得される。

ステップＳ２００では、制御回路部２００は、取得した音情報に対し統計的音響モデルを用いて音響分析を行うことにより生成した複数の単語列候補について、計算した累積尤度により順位付けし、当該順位が上記ステップＳ１００で設定したビーム幅Ｎの範囲外となった単語列候補については処理対象外とするビーム探索を行う音声認識処理を実行する。なお、この音声認識処理の詳細内容については後述する。

ステップＳ３００では、制御回路部２００は、ユーザがタッチパネル２１０を用いて入力した正解の単語列を取得する正解取得処理を実行する。なお、この正解取得処理の詳細内容については後述する。

ステップＳ４０では、制御回路部２００は、音声認識処理による認識結果が所定の信頼性を満たすか否かを表す上記フラグＦが、信頼性を満たすことを表す０であるか否かを判定する。上記ステップＳ３００の正解取得処理においてフラグＦを１とした場合には（後述の図１１参照）、判定が満たされずに本フローを終了する。一方、フラグＦが０である場合には、判定が満たされてステップＳ５０に移る。

ステップＳ５０では、制御回路部２００は、上記ステップＳ３００でユーザにより入力された正解の単語列と一致する単語列候補が、上記ステップＳ２００の音声認識処理により第２位以下第Ｎ位以上に順位付けられたか否かを判定する。なお、この順位Ｎは上記現在のビーム幅Ｎと同じ値である。正解の単語列と一致する単語列候補が第２位以下第Ｎ位以上に順位付けられている場合には、判定が満たされて本フローを終了する。一方、正解の単語列と一致する単語列候補が第２位以下第Ｎ位以上に順位付けられていない場合、言い換えれば、正解の単語列と一致する単語列候補が第１位に順位付けられたか、もしくは、枝刈りによって単語列候補がＮ位中に残らず順位が不明である場合には、判定が満たされずにステップＳ４００に移る。

なお、上記ステップＳ５０は、正解の単語列と一致する単語列候補が第２位以下第Ｎ位以上に順位付けられている場合、後述の音声再認識処理において仮にビーム幅Ｎをさらに広げて音声認識を行っても、正解と一致する単語列候補が第１位となる可能性はないことから、このような場合にはビーム幅Ｎを更新するためのその後の処理を行わないようにするものである。これにより、効果のない無駄な処理時間を浪費するのを防止することができるようになっている。一方、正解の単語列と一致する単語列候補が第１位に順位付けられている場合には途中何位まで落ちたかを把握するために音声再認識処理を行う必要があり、また、枝刈りによって単語列候補がＮ位中に残らず順位が不明である場合には、ビーム幅Ｎを広げて音声再認識を行うことにより正解と一致する単語列候補が第１位となる可能性があることから、このような場合にはビーム幅Ｎを更新するためのその後の処理を行うようにするものである。

ステップＳ４００では、制御回路部２００は、上記ステップＳ３００でユーザにより入力された正解の単語列と一致する単語列候補が、上記ステップＳ１００で設定したビーム幅Ｎによる探索範囲の枝刈り対象とならないために、必要なビーム幅Ｎを随時更新しつつビーム探索を実行して、再度音声認識を行う再音声認識処理を実行する。なお、この再音声認識処理の詳細内容については後述する。

ステップＳ６０では、制御回路部２００は、上記ステップＳ４００の再音声認識処理において更新したビーム幅Ｎが所定の閾値より大きいか否かを判定する。この閾値は、処理時間が膨大とならないようにビーム幅Ｎの上限を規制する値として予め設定されており、ハードディスク装置２０５の適宜の記憶エリアに記憶されている。ビーム幅Ｎが閾値より大きい場合には、判定が満たされて本フローを終了する。一方、ビーム幅Ｎが閾値以下である場合には、判定が満たされずにステップＳ７０に移る。

ステップＳ７０では、制御回路部２００は、上記ステップＳ３００でユーザにより入力された正解の単語列と一致する単語列候補が、上記ステップＳ４００の音声再認識処理により第１位に順位付けられたか否かを判定する。正解の単語列と一致する単語列候補が第１位に順位付けられていない場合には、判定が満たされずに本フローを終了する。一方、正解の単語列と一致する単語列候補が第１位に順位付けられている場合には、枝刈りによって単語列候補がＮ位中に残らず順位が不明であった単語列候補がビーム幅Ｎを広げて音声再認識を行うことにより第１位となったとみなし、判定が満たされてステップＳ８０に移る。

ステップＳ８０では、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、上記ステップＳ４００の再音声認識処理において更新したビーム幅Ｎをビーム幅履歴値として格納する。以上により、本フローを終了する。

上記において、ステップＳ１００は、特許請求の範囲に記載のビーム幅設定手段として機能すると共に、ビーム幅設定手順に相当し、ステップＳ３０は音取得手段として機能する。またステップＳ４００は音声再認識手段として機能すると共に、音声再認識手順に相当し、ステップＳ８０は、履歴更新手段として機能すると共に、履歴更新手順に相当する。またステップＳ５０は順位判定手段として機能し、ステップＳ５０の判定が満たされてフローを終了する手順が、中止制御手段として機能する。

図９を用いて、上記ステップＳ１００の詳細内容を説明する。

ステップＳ１１０では、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、現在のビーム幅Ｎを１に初期化してデータベースを更新する。

ステップＳ１２０では、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、当該データベースに記憶された、過去の音声認識におけるビーム探索での複数のビーム幅Ｎの履歴値のうちの任意の１つを選択し、取得する。

ステップＳ１３０では、制御回路部２００は、上記ステップＳ１２０で取得したビーム幅履歴値が、現在のビーム幅Ｎよりも大きいか否かを判定する。ビーム幅履歴値が現在のビーム幅Ｎ以下である場合には、判定が満たされずに後述のステップＳ１５０に移る。一方、ビーム幅履歴値が現在のビーム幅Ｎよりも大きい場合には、判定が満たされてステップＳ１４０に移る。

ステップＳ１４０では、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、現在のビーム幅Ｎを上記ステップＳ１２０で取得したビーム幅履歴値に更新する。

ステップＳ１５０では、制御回路部２００は、上記ステップＳ１２０で取得したビーム幅履歴値がビーム幅履歴データベースに記憶された最後の履歴値であるか否か、すなわちビーム幅履歴データベースに記憶された全てのビーム幅履歴値について上記ステップＳ１２０〜ステップＳ１４０の処理を行ったか否かを判定する。最後の履歴値でない場合には、判定が満たされずに先のステップＳ１２０に戻り、同様の手順を繰り返す。一方、最後の履歴値である場合には、判定が満たされて本ルーチンを終了する。

以上のビーム幅決定処理により、ビーム幅履歴データベースに記憶された複数のビーム幅Ｎの履歴値のうちの最大値がビーム幅Ｎとして設定される。すなわち、例えば前述した図６に示す例では、単語列「阿藤です。」の２回目のビーム幅履歴値「２０」が最大値であるためビーム幅Ｎとして設定される。

図１０を用いて、上記ステップＳ２００の詳細内容を説明する。

ステップＳ２１０では、制御回路部２００は、前述のステップＳ３０において録音された録音音声データを、ハードディスク装置２０５の所定の記憶エリアより読み出し取得する。

ステップＳ２２０では、制御回路部２００は、上記ステップＳ２１０で取得した録音音声データの１フレーム分のデータを抽出して周波数特性や振幅特性等の音響的特徴を抽出し、音声認識処理で一般的に使用される周知の統計的音響モデルを用いて音響分析を行う。

ステップＳ２３０では、制御回路部２００は、上記ステップＳ２２０で抽出した１フレーム分の録音音声データに対し、当該フレームの尤度を公知の尤度計算式を用いて計算する。

ステップＳ２４０では、制御回路部２００は、上記ステップＳ２３０で尤度を計算した１フレームが属する経路に含まれる全フレームの尤度の累積値を計算する。

ステップＳ２５０では、制御回路部２００は、上記ステップＳ２４０で計算した尤度の累積値が大きい順に、経路の順位付けを行う。

ステップＳ２６０では、制御回路部２００は、前述したステップＳ１００で設定したビーム幅Ｎよりも順位が大きい経路が存在するか否かを判定する。ビーム幅Ｎよりも順位が大きい経路が存在する場合には、判定が満たされてステップＳ２７０に移り、制御回路部２００は、ビーム幅Ｎよりも順位が大きい経路に対応する単語列候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。そして、ステップＳ２８０に移る。一方、ビーム幅Ｎよりも順位が大きい経路が存在しない場合には、判定が満たされずに直接ステップＳ２８０に移る。

ステップＳ２８０では、制御回路部２００は、上記ステップＳ２２０で抽出したフレームがハードディスク装置２０５に録音された録音音声データの最終フレームであるか否か、すなわち録音音声データの全てのフレームについて上記ステップＳ２２０〜ステップＳ２７０の処理を行ったか否かを判定する。最終フレームでない場合には、判定が満たされずに先のステップＳ２２０に戻り、同様の手順を繰り返す。一方、最終フレームである場合には、判定が満たされてステップＳ２９０に移る。

ステップＳ２９０では、制御回路部２００は、録音音声データの全てのフレームについて上記ステップＳ２２０〜ステップＳ２７０の処理を行った結果得られた単語列候補を、それらの尤度の累積値に基づく順位と対応付けてハードディスク装置２０５の適宜の記憶領域に登録する。そして、本ルーチンを終了する。

上記において、ステップＳ２５０は、特許請求の範囲に記載の順位設定手段として機能すると共に、順位設定手順に相当する。

図１１を用いて、上記ステップＳ３００の詳細内容を説明する。

ステップＳ３１０では、制御回路部２００は、上記ステップＳ２００の音声認識処理により第１位に順位付けられた単語列候補を、ハードディスク装置２０５より読み出す。

ステップＳ３２０では、制御回路部２００は、上記ステップＳ３１０で読み出した単語列候補の尤度の累積値が、所定の閾値よりも大きいか否かを判定する。この閾値は、尤度がこの閾値以下である場合には認識失敗とすべきであるとして予め設定されており、ハードディスク装置２０５の適宜の記憶エリアに記憶されている。尤度の累積値が閾値以下である場合には、ステップＳ３３０に移り、音声認識処理による認識結果が所定の信頼性を満たすか否かを表す前述のフラグＦを、信頼性を満たさないことを表す１とし、後述のステップＳ３７０に移る。一方、尤度の累積値が閾値より大きい場合には、判定が満たされてステップＳ３４０に移る。

ステップＳ３４０では、制御回路部２００は、上記ステップＳ３１０で読み出した第１位の単語列候補が正解であるか否かの確認をユーザに求める確認画面を、タッチパネル２１０に表示する（後述の図１２参照）。

ステップＳ３５０では、制御回路部２００は、上記ステップＳ３４０でタッチパネル２１０に表示した確認画面において、ユーザが第１位の単語列候補が正解である旨の操作を行ったか否かを判定する。第１位の単語列候補が正解である旨の操作が行われた場合、ステップＳ３６０に移る。一方、第１位の単語列候補が不正解である旨の操作が行われた場合、判定が満たされずに後述のステップＳ３７０に移る。

ステップＳ３６０では、制御回路部２００は、第１位の単語列候補を正解として取得し、ハードディスク装置２０５の適宜の記憶領域に登録する。そして、本ルーチンを終了する。

一方、上記ステップＳ３２０で尤度の累積値が閾値以下である場合、及び、ステップＳ３５０で第１位の単語列候補が不正解である旨の操作が行われた場合には、ステップＳ３７０に移る。

ステップＳ３７０では、制御回路部２００は、ユーザが正解である単語列を入力可能な入力画面をタッチパネル２１０に表示する（後述の図１３参照）。

ステップＳ３８０では、制御回路部２００は、上記入力画面においてユーザがタッチパネル２１０を介して入力した単語列を正解として取得し、ハードディスク装置２０５の適宜の記憶領域に登録する。そして、本ルーチンを終了する。

図１２を用いて、上記ステップＳ３４０でタッチパネル２１０に表示される、第１位の単語列候補が正解であるか否かの確認をユーザに求める確認画面の一例を説明する。この図１２に示すように、タッチパネル２１０には第１位の単語列候補が表示されると共に、当該単語列候補が正解である場合にユーザが操作する正解ボタン２１３と、不正解である場合に操作する不正解ボタン２１４とが表示されている。ユーザが正解ボタン２１３を操作した場合には、上記ステップＳ３５０の判定が満たされてステップＳ３６０に移り、ユーザが不正解ボタン２１４を操作した場合には、上記ステップＳ３５０の判定が満たされずにステップＳ３７０に移るようになっている。

図１３を用いて、上記ステップＳ３７０でタッチパネル２１０に表示される、ユーザが正解である単語列を入力可能な入力画面の一例を説明する。この図１３に示すように、タッチパネル２１０の上部には入力内容を確認表示する確認表示部２１５が、下部にはキーボード部２１６が表示されており、ユーザはキーボード部２１６の所望のキーをタッチすることにより、正解である単語列を入力することが可能となっている。

図１４を用いて、上記ステップＳ４００の詳細内容を説明する。

ステップＳ４１０〜ステップＳ４５０は、前述の図１０に示すステップＳ２１０〜ステップＳ２５０と同様である。すなわち、制御回路部２００は、前述のステップＳ３０において録音された録音音声データを読み出し、１フレーム分のデータを抽出して音響分析を行い、統計的音響モデルと言語モデルを用いて当該１フレーム分の録音音声データの尤度を計算する。そして、当該１フレームが属する経路に含まれる全フレームの尤度の累積値を計算する。その後、計算した尤度の累積値が大きい順に、経路の順位付けを行う。

ステップＳ４６０では、制御回路部２００は、前述したステップＳ１００で設定したビーム幅Ｎが、前述したステップＳ３００で取得した正解の単語列と一致する単語列候補の順位より小さいか否かを判定する。ビーム幅Ｎが正解の単語列候補の順位より小さい場合には、判定が満たされてステップＳ４７０に移り、制御回路部２００は、現在のビーム幅Ｎを上記正解の単語列候補の順位に拡大し、当該更新したビーム幅ＮをＤＢサーバ１０のビーム幅履歴データベースに登録する。そして、ステップＳ４８０に移る。一方、ビーム幅Ｎが正解の単語列候補の順位以上である場合には、判定が満たされずに直接ステップＳ４８０に移る。以降は、更新したビーム幅Ｎを用いて最終フレームとなるまでステップＳ４２０〜ステップＳ４８０の処理が繰り返される。

ステップＳ４８０及びステップＳ４９０は、前述の図１０に示すステップＳ２８０及びステップＳ２９０と同様であり、制御回路部２００は、上記ステップＳ４２０で抽出したフレームがハードディスク装置２０５に録音された録音音声データの最終フレームであるか否かを判定し、最終フレームである場合には、録音音声データの全てのフレームについて上記ステップＳ４２０〜ステップＳ４７０の処理を行った結果得られた単語列候補を、それらの尤度の累積値に基づく順位と対応付けてハードディスク装置２０５の適宜の記憶領域に登録する。そして、本ルーチンを終了する。

以上のような制御を行うことにより得られる作用効果を図１５を用いて説明する。なお、この図１５では煩雑防止のため各経路において適宜フレームを間引きして図示している。

この図１５では、ユーザが発話した単語が「えー、シスター工業」であり、ビーム幅Ｎが「４」に設定されている場合を例示している。本例ではユーザが最初に「えー、」と発音したことにより、「えー」の音で始まる単語候補「ＡＣスター株式会社」や「ＡＣ株式会社」、「Ａスター株式会社」、及び「エース株式会社」の尤度が高くなり、正解である単語候補「シスター工業」の尤度が低くなっている。その結果、時間ｔ５において「シスター工業」の順位が５位となり、枝刈りが行われる。これにより、前述の図１０に示すステップＳ２００の音声認識処理が終了した時点では、単語候補は上位より「ＡＣスター株式会社」、「ＡＣ株式会社」、「Ａスター株式会社」、及び「エース株式会社」となり、正しい音声認識結果は得られないことになる。

その後、前述の図１１に示すステップＳ３００の正解取得処理において、ユーザが入力画面で「シスター工業」を入力すると、上記２位から４位の単語候補「ＡＣ株式会社」、「Ａスター株式会社」、及び「エース株式会社」中に正解の単語「シスター工業」は含まれないため、前述の図８に示すステップＳ５０の判定が満たされずに前述の図１４に示すステップＳ４００に移る。このステップＳ４００の音声再認識処理においては、前述したように、ステップＳ３００でユーザにより入力された正解の単語列と一致する単語列候補が、設定したビーム幅Ｎによる探索範囲の枝刈り対象とならないために、必要なビーム幅Ｎを随時更新しつつビーム探索を実行して、再度音声認識を行う。すなわち、時間ｔ５において正解の単語候補の順位５がビーム幅４より大きくなるため、ステップＳ４６０の判定が満たされてステップＳ４７０に移り、ビーム幅Ｎが５に更新される。以降は、更新したビーム幅５を用いて最終フレームとなるまでステップＳ４２０〜ステップＳ４８０の処理が繰り返され、音声認識が行われる。その結果、この図１５に示す例では、正解である単語候補「シスター工業」の尤度が徐々に高くなり、最終的には第１位に順位付けられる。これにより、前述の図８に示すステップＳ７０の判定が満たされ、ステップＳ８０において更新されたビーム幅５がビーム幅履歴値としてビーム幅履歴データベースに格納される。このようにしてビーム幅Ｎが更新される結果、次回以降に例えば同一のユーザにより「えー、シスター工業」という同様の発話が入力されても、前述の図９に示すビーム幅決定処理においてビーム数Ｎが５に設定されることから、正しい音声認識結果が得られることになる。

以上において、単語及び単語列は、例えば氏名、会社名、地名、時間等のユーザに関連する情報を幅広く含むものであり、特許請求の範囲に記載の認識対象情報に相当し、単語候補及び単語列候補は、認識対象情報候補に相当する。

以上説明した本実施形態の受付端末２０においては、マイク２０７を介して所定の単語を含むユーザの発話音声を入力すると、その入力された発話音声に対応した音情報が取得され、この取得された音情報に対し音声認識が行われる。この音声認識により複数の単語列候補を生成する際、本実施形態においては、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅Ｎを設定し、ステップＳ２００の音声認識処理の途中で当該ビーム幅Ｎの範囲外となった単語列候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。

ビーム幅Ｎを狭く設定すると処理の高速化を図れるが、複数の単語列候補に含まれていた正解を誤って処理途中で枝刈りにより切り捨てるおそれがある。ビーム幅Ｎを広く設定すると枝刈りにより正解を切り捨てる可能性は低くなるが、処理に膨大な時間を要することとなる。

そこで、本実施形態においては、ステップＳ４００の音声再認識処理により再認識を行う際、タッチパネル２１０で入力済みの正解の単語列と一致する単語列候補が設定されたビーム幅Ｎによる探索範囲の枝刈り対象とならないために、ビーム幅Ｎを順次更新しつつビーム探索を実行する。そして、ステップＳ８０において、その更新されたビーム幅Ｎを、ビーム幅履歴データベース記憶エリア１５１に記憶されたビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅Ｎが確保される。この結果、前述したように、複数の単語列候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅Ｎを拡大するので、不必要にビーム幅Ｎを広く設定することによる処理の長時間化を回避することができる。以上のように、本実施形態の受付端末２０においては、処理の長時間化を回避しつつ、確実に正しく単語を認識することができる。

また、本実施形態では特に、受付端末２０は、ステップＳ２００の音声認識処理により正解である単語列候補が第２位以下第Ｎ位以上に順位付けられた場合、その後、ステップＳ４００の音声再認識処理及びステップＳ８０におけるビーム幅履歴データベースの更新を中止する。すなわち、このような場合には、仮にビーム幅Ｎをさらに広げて音声認識を行っても、正解と一致する単語列候補が第１位となる可能性はない。したがって、本実施形態においては、このような場合にはビーム幅Ｎを更新するためのその後の処理を行わないようにする。これにより、効果のない無駄な処理時間を浪費するのを防止することができる。

また、本実施形態では特に、受付端末２０は、ビーム幅履歴データベースへアクセスし、ビーム幅Ｎの履歴値のうちの最大値を、ビーム幅Ｎの初期値として設定する。これにより、次回以降の音声認識の際、少なくとも過去のビーム探索と同じビーム探索を行うために必要なビーム幅Ｎが確実に設定される。この結果、複数の単語列候補に含まれる正解を誤って処理途中で切り捨てるのを確実に防止することができる。

なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を説明する。

（１）ビーム幅履歴の平均値を用いる場合
図１６を用いて、本変形例におけるビーム幅履歴データベース記憶エリア１５１の記憶内容を説明する。この図１６に示すように、本変形例のビーム幅履歴データベースには、会社への来訪者が過去に発話した単語列と、その音声認識におけるビーム探索での複数のビーム幅Ｎの履歴値と、これら複数のビーム幅Ｎの履歴値の平均値とが、互いに関連付けて記憶されている。

図１７を用いて、本変形例におけるステップＳ１００Ａのビーム幅決定処理の詳細内容を説明する。

ステップＳ１１０は、前述の図９と同様であり、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、現在のビーム幅Ｎを１に初期化してデータベースを更新する。

ステップＳ１２０Ａでは、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、当該データベースに記憶された、過去の音声認識におけるビーム探索での複数のビーム幅Ｎの履歴値の平均値のうちの任意の１つを選択し、取得する。

ステップＳ１３０Ａでは、制御回路部２００は、上記ステップＳ１２０Ａで取得したビーム幅履歴値の平均値が、現在のビーム幅Ｎよりも大きいか否かを判定する。ビーム幅履歴値の平均値が現在のビーム幅Ｎ以下である場合には、判定が満たされずに後述のステップＳ１５０Ａに移る。一方、ビーム幅履歴値の平均値が現在のビーム幅Ｎよりも大きい場合には、判定が満たされてステップＳ１４０Ａに移る。

ステップＳ１４０Ａでは、制御回路部２００は、ＤＢサーバ１０のビーム幅履歴データベースへアクセスし、現在のビーム幅Ｎを上記ステップＳ１２０Ａで取得したビーム幅履歴値の平均値に更新する。

ステップＳ１５０Ａでは、制御回路部２００は、上記ステップＳ１２０Ａで取得したビーム幅履歴値の平均値がビーム幅履歴データベースに記憶された最後の平均値であるか否か、すなわちビーム幅履歴データベースに記憶された全てのビーム幅履歴値の平均値について上記ステップＳ１２０Ａ〜ステップＳ１４０Ａの処理を行ったか否かを判定する。最後の平均値でない場合には、判定が満たされずに先のステップＳ１２０Ａに戻り、同様の手順を繰り返す。一方、最後の平均値である場合には、判定が満たされて本ルーチンを終了する。

以上のビーム幅決定処理により、ビーム幅履歴データベースに記憶された複数のビーム幅Ｎの履歴値の平均値のうちの最大値がビーム幅Ｎとして設定される。すなわち、例えば前述した図１６に示す例では、単語列「佐藤です。」又は「阿藤です。」に対応するビーム幅履歴値の平均値「１７」がビーム幅Ｎとして設定される。

なお、本変形例の上記以外の制御内容については、前述の実施形態と同様である。また上記において、ステップＳ１００Ａは、特許請求の範囲に記載のビーム幅設定手段として機能すると共に、ビーム幅設定手順に相当する。

本変形例によれば、次回以降の音声認識の際、過去のビーム探索の実績と概ね同等のビーム探索を行うために必要なビーム幅Ｎが設定される。この結果、複数の単語列候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。

（２）その他
以上では、受付端末２０の待ち受け状態におけるタッチパネル２１０の手動操作の有無によって、来訪者の有無を検出するようにしたが、これに限られない。すなわち、例えば、周知の人感センサ又はカメラ等の他の検知手段を用いて来訪者の来訪を検出するようにしてもよい。

また、以上では表示手段と操作手段とを兼ねたタッチパネル２１０を用いたが、これに限られない。すなわち、通常のキーやボタン等の操作手段を用い、これによって来訪者が上記訪問予定日時を操作入力するようにしてもよい。また、通常のディスプレイやランプ等の表示手段を用いるようにしてもよい。

なお、以上において、図４、図５の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。

また、図８乃至図１１、図１４、図１７に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。

また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。

その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。

２０受付端末
１５１ビーム幅履歴データベース記憶エリア（記憶手段）
２０７マイク（音声入力手段）
２１０タッチパネル（操作手段）
Ｎビーム幅

Claims

統計的音響モデルとビーム探索を用いて音声認識を行う音声認識装置であって、
過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶手段に記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手段と、
所定の認識対象情報を含むユーザの発話音声を入力するための音声入力手段と、
前記音声入力手段を介し入力された前記発話音声により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
前記音取得手段により取得された音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手段と、
前記ユーザの手動操作により前記認識対象情報を入力可能な操作手段と、
前記操作手段により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手段により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手段と、
前記音声再認識手段により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手段と
を有することを特徴とする音声認識装置。
前記ビーム幅設定手段により設定された前記ビーム幅をＮとしたとき、前記操作手段により入力された前記認識対象情報と一致する前記認識対象情報候補が、前記順位設定手段により第１位に順位付けられたか、もしくは、枝刈りによって前記認識対象情報候補がＮ位中に残らず順位が不明であるかどうか、を判定する順位判定手段をさらに有し、
前記順位判定手段により、前記認識対象情報と一致する前記認識対象情報候補が第２位以下第Ｎ位以上に順位付けられたと判定された場合は、その後、前記音声再認識手段及び前記履歴更新手段による処理を中止する中止制御手段を有する
ことを特徴とする請求項１記載の音声認識装置。
前記ビーム幅設定手段は、
前記ビーム幅履歴データベースへアクセスし、ビーム幅の履歴値のうちの最大値を、前記ビーム幅の初期値として設定する
ことを特徴とする請求項１又は請求項２記載の音声認識装置。
前記ビーム幅履歴データベースは、
複数の前記認識対象情報と、各認識対象情報に対応する複数のビーム幅の履歴値と、当該複数のビーム幅の履歴値の平均値とを、各認識対象情報ごとに互いに関連付けて記憶しており、
前記ビーム幅設定手段は、
前記ビーム幅履歴データベースへアクセスし、前記複数の認識対象情報にそれぞれ対応した、複数の前記平均値のうちの最大値を、前記ビーム幅の初期値として設定する
ことを特徴とする請求項１又は請求項２記載の音声認識装置。
統計的音響モデルとビーム探索を用いて音声認識を行う音声認識方法であって、
過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、
所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、
ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、
前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順と
を有することを特徴とする音声認識方法。
過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、
所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、
ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、
前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順と
をコンピュータの演算手段に実行させるための音声認識プログラム。