JP2011075602A - 音声認識装置、音声認識方法、及び、音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び、音声認識プログラム Download PDF

Info

Publication number
JP2011075602A
JP2011075602A JP2009223764A JP2009223764A JP2011075602A JP 2011075602 A JP2011075602 A JP 2011075602A JP 2009223764 A JP2009223764 A JP 2009223764A JP 2009223764 A JP2009223764 A JP 2009223764A JP 2011075602 A JP2011075602 A JP 2011075602A
Authority
JP
Japan
Prior art keywords
beam width
recognition
target information
history
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009223764A
Other languages
English (en)
Inventor
Shuhei Kato
修平 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2009223764A priority Critical patent/JP2011075602A/ja
Publication of JP2011075602A publication Critical patent/JP2011075602A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】処理の長時間化を回避しつつ、確実に正しく認識対象情報を認識することができる音声認識装置、音声認識方法、及び、音声認識プログラムを提供する。
【解決手段】ステップS400の音声再認識処理により再認識を行う際、タッチパネル210で入力済みの正解の単語列と一致する単語列候補が設定されたビーム幅Nによる探索範囲の枝刈り対象とならないために、ビーム幅Nを順次更新しつつビーム探索を実行する。そしてステップS80において、その更新されたビーム幅Nを、ビーム幅履歴データベース記憶エリア151に記憶されたビーム幅履歴データベースに格納する。
【選択図】図8

Description

本発明は、発話者の発する発話音声を音声認識する音声認識装置、音声認識方法、及び音声認識プログラムに関する。
発話音声を音声認識する音声認識装置において、認識対象情報の語彙が増えたり、連続音声が認識対象情報であった場合には、正解を得るために極めて大きな処理時間や記憶空間を要することがあり得る。そこで、多数存在する認識対象情報候補の中から正解候補を絞る探索方式として、従来、ビーム探索の手法が知られている(例えば、特許文献1参照)。
この従来技術においては、統計的音響モデル音素の照合部と、LRパーザ部とを備えた、音声認識システムが開示されている。この音声認識システムは、制御関数としてニューラルネットワークを用いる。そして、ニューラルネットワークに回帰係数、LR解析木の現在の深さ、及び、現在の探索時点における第1位仮説のスコアと直前の探索時点における第1位仮説のスコアとの差を入力し、正解仮説の順位を出力するように学習する。
特開平6−282295号公報
一般に、ビーム探索では、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。ビーム幅を狭く設定すると処理の高速化を図れるが、複数の認識対象情報候補に含まれていた、認識対象情報と同一の正解を誤って処理途中で枝刈りにより切り捨てるおそれがある。ビーム幅を広く設定すると枝刈りにより正解を切り捨てる可能性は低くなるが処理に膨大な時間を要することとなる。
上記従来技術の手法によれば、効率的に枝刈りなどを行なうことによって探索空間を削減し、ある程度の正解率を確保しつつ、探索時間を短縮することができる。しかしながら、実際は、正解である認識対象情報候補を誤って処理途中で切り捨ててしまうおそれがあった。この結果、認識対象情報を確実に認識することは困難であった。
本発明の目的は、処理の長時間化を回避しつつ、正しく認識対象情報を認識することができる音声認識装置、音声認識方法、及び、音声認識プログラムを提供することにある。
上記目的を達成するために、第1発明の音声認識装置は、統計的音響モデルとビーム探索を用いて音声認識を行う音声認識装置であって、過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶手段に記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手段と、所定の認識対象情報を含むユーザの発話音声を入力するための音声入力手段と、前記音声入力手段を介し入力された前記発話音声により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記音取得手段により取得された音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手段と、前記ユーザの手動操作により前記認識対象情報を入力可能な操作手段と、前記操作手段により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手段により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手段と、前記音声再認識手段により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手段とを有することを特徴とする。
本願第1発明の音声認識装置においては、音声入力手段が認識対象情報を含むユーザの発話音声を入力すると、その入力された発話音声に対応した音情報が音取得手段により取得され、この取得された音情報に対し音声認識が行われる。この音声認識により複数の認識対象情報候補を生成する際、本願第1発明においては、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。
ビーム幅を狭く設定すると処理の高速化を図れるが、複数の認識対象情報候補に含まれていた、認識対象情報と同一の正解を誤って処理途中で枝刈りにより切り捨てるおそれがある。ビーム幅を広く設定すると枝刈りにより正解を切り捨てる可能性は低くなるが処理に膨大な時間を要することとなる。
そこで、本願第1発明においては、音声再認識手段が再認識を行う際、操作手段で入力済みの認識対象情報と一致する認識対象情報候補がビーム幅設定手段により設定されたビーム幅による探索範囲の枝刈り対象とならないために、ビーム幅を順次更新しつつビーム探索を実行する。そして、その更新されたビーム幅を、ビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅が確保される。この結果、前述したように、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅を拡大するので、不必要にビーム幅を広く設定することによる処理の長時間化を回避することができる。
以上のように、本願第1発明の音声認識装置においては、処理の長時間化を回避しつつ、正しく認識対象情報を認識することができる。
第2発明の音声認識装置は、上記第1発明において、前記ビーム幅設定手段により設定された前記ビーム幅をNとしたとき、前記操作手段により入力された前記認識対象情報と一致する前記認識対象情報候補が、前記順位設定手段により第1位に順位付けられたか、もしくは、枝刈りによって前記認識対象情報候補がN位中に残らず順位が不明であるかどうか、を判定する順位判定手段をさらに有し、前記順位判定手段により、前記認識対象情報と一致する前記認識対象情報候補が第2位以下第N位以上に順位付けられたと判定された場合は、その後、前記音声再認識手段及び前記履歴更新手段による処理を中止する中止制御手段を有することを特徴とする。
順位判定手段で第2位以下第N位以上に順位付けられた場合、仮にビーム幅をさらに広げて音声認識を行っても、正解である認識対象情報と一致する認識対象情報候補が第1位となる可能性はない。したがって、本願第2発明においては、このような場合にはビーム幅を更新するためのその後の処理を行わないようにする。これにより、効果のない無駄な処理時間を浪費するのを防止することができる。
第3発明の音声認識装置は、上記第1又は第2発明において、前記ビーム幅設定手段は、前記ビーム幅履歴データベースへアクセスし、ビーム幅の履歴値のうちの最大値を、前記ビーム幅の初期値として設定することを特徴とする。
これにより、次回以降の音声認識の際、少なくとも過去のビーム探索と同じビーム探索を行うために必要なビーム幅が確実に設定される。この結果、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。
第4発明の音声認識装置は、上記第1又は第2発明において、前記ビーム幅履歴データベースは、複数の前記認識対象情報と、各認識対象情報に対応する複数のビーム幅の履歴値と、当該複数のビーム幅の履歴値の平均値とを、各認識対象情報ごとに互いに関連付けて記憶しており、前記ビーム幅設定手段は、前記ビーム幅履歴データベースへアクセスし、前記複数の認識対象情報にそれぞれ対応した、複数の前記平均値のうちの最大値を、前記ビーム幅の初期値として設定することを特徴とする。
これにより、次回以降の音声認識の際、過去のビーム探索の実績と概ね同等のビーム探索を行うために必要なビーム幅が設定される。この結果、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。
上記目的を達成するために、第5発明の音声認識方法は、統計的音響モデルとビーム探索を用いて音声認識を行う音声認識方法であって、過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順とを有することを特徴とする。
本願第5発明の音声認識方法においては、認識対象情報を含むユーザの発話音声に対応した音情報に対し音声認識が行われる。この音声認識により複数の認識対象情報候補を生成する際、本願第5発明においては、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。
本願第5発明においては、音声再認識手順で再認識を行う際、ユーザが手動操作入力済みの認識対象情報と一致する認識対象情報候補が、ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、ビーム幅を順次更新しつつビーム探索を実行する。そして、その更新されたビーム幅を、履歴更新手順でビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅が確保される。この結果、前述したように、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅を拡大するので、不必要にビーム幅を広く設定することによる処理の長時間化を回避することができる。
以上のように、本願第5発明の音声認識方法においては、処理の長時間化を回避しつつ、確実に正しく認識対象情報を認識することができる。
上記目的を達成するために、第6発明の音声認識プログラムは、過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順とをコンピュータの演算手段に実行させる。
本願第6発明の音声認識プログラムによれば、コンピュータの演算手段により、認識対象情報を含むユーザの発話音声に対応した音情報に対し音声認識が行われる。この音声認識により複数の認識対象情報候補が生成される際、コンピュータの演算手段は、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅を設定し、音声認識処理の途中で当該ビーム幅の範囲外となった認識対象情報候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りが実行される。
本願第6発明の音声認識プログラムによれば、コンピュータの演算手段は、音声再認識手順で再認識を行う際、ユーザが手動操作入力済みの認識対象情報と一致する認識対象情報候補が、ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、ビーム幅を順次更新しつつビーム探索を実行する。そして、その更新されたビーム幅を、履歴更新手順でビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅が確保される。この結果、前述したように、複数の認識対象情報候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅を拡大するので、不必要にビーム幅を広く設定することによる処理の長時間化を回避することができる。
以上のように、本願第6発明の音声認識プログラムによれば、処理の長時間化を回避しつつ、正しく認識対象情報を認識することができる。
本発明によれば、処理の長時間化を回避しつつ、確実に正しく認識対象情報を認識することができる。
本実施形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。 受付端末に備えられた、タッチパネル及びマイクの詳細外観構造の一例を表す斜視図である。 タッチパネルにおける表示画面の一例を表す図である。 受付端末の機能的構成を示す機能ブロック図である。 DBサーバの機能的構成を表す機能ブロック図である。 ビーム幅履歴データベース記憶エリアの記憶内容を表す図である。 ビーム探索の内容の一例を概念的に表す説明図である。 受付端末の制御回路部により実行される制御手順を表すフローチャートである。 ステップS100の詳細内容を表すフローチャートである。 ステップS200の詳細内容を表すフローチャートである。 ステップS300の詳細内容を表すフローチャートである。 第1位の単語列候補が正解であるか否かの確認をユーザに求める確認画面の一例を表す図である。 ユーザが正解である単語列を入力可能な入力画面の一例を表す図である。 ステップS400の詳細内容を表すフローチャートである。 ビーム探索の内容の一例を概念的に表す説明図である。 ビーム幅履歴の平均値を用いる変形例における、ビーム幅履歴データベース記憶エリアの記憶内容を表す図である。 ビーム幅履歴の平均値を用いる変形例における、ステップS100Aの詳細内容を表すフローチャートである。
以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の音声認識装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。
図1を用いて、本実施形態の来訪者受付システム1の全体構成の概略構成を説明する。
図1において、来訪者受付システム1は、受付端末20と、DBサーバ10と、複数のIP電話機60と、Intenet Protocol Private Branch eXchange(IP−PBX)50とを有している。これらは全てルータ40を介して接続されている。受付端末20は、統計的音響モデルと後述するビーム探索を用いて音声認識を行う音声認識装置であって、例えば会社の入口付近に設置され、会社への来訪者等であるユーザの発話音声を音声認識する。DBサーバ10は、周知のパーソナルコンピュータにより構成される。IP電話機60は、会社の従業員それぞれに対応して設けられている。IP−PBX50は、それら複数のIP電話機60の回線交換を行う周知の交換装置である。
受付端末20は、端末本体20Aと、この端末本体20Aに接続された、タッチパネル210、アナログ−デジタル変換回路227、オペアンプ217、スピーカ208、及び上記オペアンプ217に接続されたマイク207を有している。なお、マイク207は、特許請求の範囲に記載の音声入力手段に相当し、タッチパネル210は、操作手段に相当する。
マイク207は、ユーザの発話により入力された発話音声をアナログ信号である音声情報に変換し、オペアンプ217へ出力する。オペアンプ217は、マイク207から入力された音声情報を増幅し、ADC227へ出力する。ADC227は、オペアンプ217から入力された増幅後の音声情報を、アナログ−デジタル変換処理によりデジタル信号である音声データに変換し、端末本体20へ出力する。スピーカ208は、端末本体20Aから入力された音声信号を音声に変換して発声し、ユーザに対し音声ガイダンス等を行う。
図2を用いて、上記受付端末20に備えられた、タッチパネル210及びマイク207の外観構造について説明する。
図2において、受付端末20は、上記タッチパネル210及び上記マイク207を有している。タッチパネル210は、表示される表示画面をユーザが直接画面に触れながら操作することができる。このタッチパネル210は、水平に設置されるベース212に対してアーム211を介し支持されている。そして、このタッチパネル210は、表示面のなす方向がユーザの視線の方向に対して直角となるように、当該表示面が斜め上方を向いている。マイク207は、ベース212に対し先端をユーザ側へ向けるようにして略円弧状に配置されている。
図3を用いて、タッチパネル210における表示画面の一例を説明する。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物IMがオフィス風の背景Gとともに表示される。また、スピーカ208から発話される音声に対応する文章Lが併せて表示される。
図4を用いて、受付端末20の機能的構成を説明する。
図4において、受付端末20の端末本体20Aは、制御回路部200と、入出力インタフェイス204と、ハードディスク装置205とを有している。制御回路部200は、CPU201と、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶したROM202と、各種データを一時的に記憶するRAM203とを有している。CPU201は、ROM202や、ハードディスク装置205に記憶されたプログラムに従って、受付端末20全体の動作を制御するものであり、特許請求の範囲に記載の演算手段に相当する。
入出力インタフェイス204には、上記CPU201と、上記ハードディスク装置205と、上記タッチパネル210と、上記ADC227と、上記オペアンプ217と、上記スピーカ208と、ネットワークカード206とが接続されている。なお、図4では入出力インタフェイス及びネットワークカードを、I/Oインタフェイス及びNWカードと略記している。
ハードディスク装置205には、音声認識に使用するための言語モデル記憶エリア252、単語辞書記憶エリア253、来訪者を特定するための音声認識に使用される来訪者辞書記憶エリア254、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。
プログラム記憶エリア256には、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末20の基本的な動作を制御するシステムプログラム、DBサーバ10との通信を制御する通信プログラム、タッチパネル210に表示する画像を生成する描画プログラム、詳細は後述するが、ビーム幅設定手順、順位設定手順、再音声認識手順、及び履歴更新手順を有する音声認識方法(後述の図8乃至図11、図14等参照)をCPU201に実行させる音声認識プログラム、DBサーバ10のデータベースにアクセスし照合を行うためのDB照合プログラム、音声合成プログラム、対話制御プログラム、IP電話機60とIP−PBX50との接続に係わる電話接続プログラム等がある。
なお、図示はされていないが、ハードディスク装置205には、その他、音声認識処理で一般的に使用される周知の統計的音響モデルや、各種処理で使用される設定値や閾値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、例えば、周波数特性や振幅特性等の音響的特徴と、対応する音素とその発生確率とで表現されている。また、言語モデルは、文章の制約を統計的にモデル化したもので、例えば、N−gramモデルや記述文法で表現されている。
ネットワークカード206は、上記ルータ40に接続され、DBサーバ10などとの間でデータの送受信を可能とするための拡張カードである。
図5を用いて、DBサーバ10の機能的構成を説明する。
図5に示すように、DBサーバ10は、CPU101と、CPU101に各々接続されたROM102及びRAM103と、CPU101に接続された入出力インタフェイス104と、この入出力インタフェイス104にそれぞれ接続された、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及びハードディスク装置150とを有している。
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するハードディスク装置150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行うことを可能とする。
ハードディスク装置150は、ビーム幅履歴データベース記憶エリア151、及びプログラム記憶エリア156を含む複数の記憶エリアを備えている。なお、図5ではデータベースをDBと略記している。
図6を用いて、ビーム幅履歴データベース記憶エリア151の記憶内容を説明する。
ビーム幅履歴データベース記憶エリア151には、過去の音声認識におけるビーム探索でのビーム幅Nの履歴値を格納するビーム幅履歴データベースが記憶されている。なお、このビーム幅履歴データベース記憶エリア151が記憶手段に相当する。図6に示すように、ビーム幅履歴データベースには、会社への来訪者が過去に発話した単語列と、その音声認識におけるビーム探索でのビーム幅Nの履歴値とが、互いに関連付けて記憶されている。なお、例えば同一人物の複数回の来訪等により、過去に同じ発話内容が複数回音声認識されている場合には、その度ごとの複数のビーム幅Nの履歴値が記憶されている。図6に示す例では、各単語列について3つのビーム幅Nの履歴値が記憶されている。
プログラム記憶エリア156には、システムプログラム、通信プログラム等、各種処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものが図示しないCD−ROMドライブを介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
以上の構成において、例えば受付端末20の電源がONされた後、この状態でユーザである来訪者がタッチパネル210を操作することで、受付端末20は来訪者が検出されたと認識して受付処理を開始する。すなわち、端末本体20Aからの音声信号に基づき、スピーカ208から来訪者に関する所定の質問を所定の順序で発声する。またこのときタッチパネル210においても、上記発声に対応した所定の表示を行うようにしてもよい。上記スピーカ208の発声やタッチパネル210の表示に応じて、来訪者が発話すると、受付端末20は、対応する音声情報をマイク207で入力し、音声認識処理を行う。
本実施形態では、前述の音響モデル、言語モデル、来訪者辞書、単語辞書が、ハードディスク装置205の対応する記憶エリアから読み出され、それらを用いて音声認識が行われる。すなわち、来訪者の音情報を音素としての1フレームごとに分析し、特徴量を抽出した後、音響モデルと言語モデルとのマッチングが行われる。その結果、言語モデルで受理可能な各フレーム毎に尤度が求まり、当該尤度の累積値が最も高い単語列候補が認識結果として得られる。
この音声認識処理により複数の単語列候補を生成する際、受付端末20は、処理の迅速化を図るためにビーム探索を行う。すなわち、受付端末20は、音声認識により得られる単語列候補の数の上限となるビーム幅Nを設定し、音声認識処理の途中で当該ビーム幅Nの範囲外となった単語列候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。なお、上記ビーム幅Nの設定は、前述のビーム幅履歴データベースに記憶された、過去の音声認識処理におけるビーム探索でのビーム幅Nの履歴値を用いて、音声認識処理を行う前に行われる。
そして、受付端末20は、上記音声認識処理による認識結果をタッチパネル210に表示する。来訪者はその結果が正しいか否かを確認し、正しい場合にはその旨を、正しくない場合には正解である単語列をタッチパネル210を用いて手動操作により入力する。
その後、受付端末20は、上記入力結果に応じて、来訪者の来訪対象となる担当者が使用するIP電話機60にIP−PBX50を介して接続し、担当者への通知処理を行う。担当者は、通知された来訪者の身元に関する情報に応じて、受付端末20に対して応対を指示する。この指示に応じて、受付端末20は、来訪者と担当者とが会話できるようにIP電話機60を接続したり、担当者の代理で来訪者に応対したりする。このようにして、来訪者受付システム1は、会社における受付業務を自動的に行うことができる。
図7を用いて、上記ビーム探索の内容の一例を概念的に説明する。この図7では、ユーザが発話した単語が「東陽町(とうようちょう)」であり、ビーム幅Nが「3」に設定されている場合を例示している。またこの図7では、縦軸に尤度、横軸に時間を取っており、横軸の各時間単位t1,t2,・・・は図中に○で示す各フレームに対応している。図7に示すように、受付端末20は、入力された発話音声に対し音声認識を行って順次フレームを生成する。これにより、複数のフレームが連なって形成される経路が分岐され、複数の単語候補が得られる。この際、受付端末20は、各フレームごとに1フレーム分の尤度を計算し、それまでの経路に含まれる複数のフレームの尤度を累積して、当該累積値の大きい順に順位付けを行う。この図7に示す例では、時間t4において経路数が4となっている。前述したようにビーム幅Nは生成する単語候補の数の上限値、すなわち上記経路の上位からの数の上限値であるため、順位が最下位である「上野(うえの)」に対応する経路については、時間t4において枝刈りが実行され、それ以降の処理が行われない。その結果、最終的には上位より3つの単語である「東陽町(とうようちょう)」、「東京(とうきょう)」、「豊洲(とよす)」が単語候補として得られている。
以上のような構成である本実施形態の最大の特徴は、受付端末20が、タッチパネル210を介しユーザにより入力された正解である単語列と一致する単語列候補が、上記設定されたビーム幅Nによる探索範囲の枝刈り対象とならないために、必要なビーム幅Nを随時更新しつつビーム探索を実行する再音声認識処理を行うことにある。以下、その詳細を説明する。
図8を用いて、受付端末の制御回路部200により実行される制御手順を説明する。
ステップS10では、制御回路部200は、音声認識処理による認識結果が所定の信頼性を満たすか否かを表すフラグF(後述の図11参照)を、信頼性を満たすことを表す0に初期化する。
ステップS100では、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、過去の音声認識におけるビーム探索でのビーム幅Nの履歴値を用いて現在のビーム幅Nを設定するビーム幅決定処理を実行する。なお、このビーム幅決定処理の詳細内容については後述する。
ステップS20では、制御回路部200は、マイク207、オペアンプ217、ADC227、及び入出力インタフェイス204を介し、所定の単語を含むユーザの発話音声を入力する。
ステップS30では、制御回路部200は、上記ステップS20で入力した発話音声を録音し、当該録音音声データをハードディスク装置205の所定の記憶エリアに記憶する。これにより、入力した発話音声に対応する振幅あるいは周波数を含む音情報が取得される。
ステップS200では、制御回路部200は、取得した音情報に対し統計的音響モデルを用いて音響分析を行うことにより生成した複数の単語列候補について、計算した累積尤度により順位付けし、当該順位が上記ステップS100で設定したビーム幅Nの範囲外となった単語列候補については処理対象外とするビーム探索を行う音声認識処理を実行する。なお、この音声認識処理の詳細内容については後述する。
ステップS300では、制御回路部200は、ユーザがタッチパネル210を用いて入力した正解の単語列を取得する正解取得処理を実行する。なお、この正解取得処理の詳細内容については後述する。
ステップS40では、制御回路部200は、音声認識処理による認識結果が所定の信頼性を満たすか否かを表す上記フラグFが、信頼性を満たすことを表す0であるか否かを判定する。上記ステップS300の正解取得処理においてフラグFを1とした場合には(後述の図11参照)、判定が満たされずに本フローを終了する。一方、フラグFが0である場合には、判定が満たされてステップS50に移る。
ステップS50では、制御回路部200は、上記ステップS300でユーザにより入力された正解の単語列と一致する単語列候補が、上記ステップS200の音声認識処理により第2位以下第N位以上に順位付けられたか否かを判定する。なお、この順位Nは上記現在のビーム幅Nと同じ値である。正解の単語列と一致する単語列候補が第2位以下第N位以上に順位付けられている場合には、判定が満たされて本フローを終了する。一方、正解の単語列と一致する単語列候補が第2位以下第N位以上に順位付けられていない場合、言い換えれば、正解の単語列と一致する単語列候補が第1位に順位付けられたか、もしくは、枝刈りによって単語列候補がN位中に残らず順位が不明である場合には、判定が満たされずにステップS400に移る。
なお、上記ステップS50は、正解の単語列と一致する単語列候補が第2位以下第N位以上に順位付けられている場合、後述の音声再認識処理において仮にビーム幅Nをさらに広げて音声認識を行っても、正解と一致する単語列候補が第1位となる可能性はないことから、このような場合にはビーム幅Nを更新するためのその後の処理を行わないようにするものである。これにより、効果のない無駄な処理時間を浪費するのを防止することができるようになっている。一方、正解の単語列と一致する単語列候補が第1位に順位付けられている場合には途中何位まで落ちたかを把握するために音声再認識処理を行う必要があり、また、枝刈りによって単語列候補がN位中に残らず順位が不明である場合には、ビーム幅Nを広げて音声再認識を行うことにより正解と一致する単語列候補が第1位となる可能性があることから、このような場合にはビーム幅Nを更新するためのその後の処理を行うようにするものである。
ステップS400では、制御回路部200は、上記ステップS300でユーザにより入力された正解の単語列と一致する単語列候補が、上記ステップS100で設定したビーム幅Nによる探索範囲の枝刈り対象とならないために、必要なビーム幅Nを随時更新しつつビーム探索を実行して、再度音声認識を行う再音声認識処理を実行する。なお、この再音声認識処理の詳細内容については後述する。
ステップS60では、制御回路部200は、上記ステップS400の再音声認識処理において更新したビーム幅Nが所定の閾値より大きいか否かを判定する。この閾値は、処理時間が膨大とならないようにビーム幅Nの上限を規制する値として予め設定されており、ハードディスク装置205の適宜の記憶エリアに記憶されている。ビーム幅Nが閾値より大きい場合には、判定が満たされて本フローを終了する。一方、ビーム幅Nが閾値以下である場合には、判定が満たされずにステップS70に移る。
ステップS70では、制御回路部200は、上記ステップS300でユーザにより入力された正解の単語列と一致する単語列候補が、上記ステップS400の音声再認識処理により第1位に順位付けられたか否かを判定する。正解の単語列と一致する単語列候補が第1位に順位付けられていない場合には、判定が満たされずに本フローを終了する。一方、正解の単語列と一致する単語列候補が第1位に順位付けられている場合には、枝刈りによって単語列候補がN位中に残らず順位が不明であった単語列候補がビーム幅Nを広げて音声再認識を行うことにより第1位となったとみなし、判定が満たされてステップS80に移る。
ステップS80では、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、上記ステップS400の再音声認識処理において更新したビーム幅Nをビーム幅履歴値として格納する。以上により、本フローを終了する。
上記において、ステップS100は、特許請求の範囲に記載のビーム幅設定手段として機能すると共に、ビーム幅設定手順に相当し、ステップS30は音取得手段として機能する。またステップS400は音声再認識手段として機能すると共に、音声再認識手順に相当し、ステップS80は、履歴更新手段として機能すると共に、履歴更新手順に相当する。またステップS50は順位判定手段として機能し、ステップS50の判定が満たされてフローを終了する手順が、中止制御手段として機能する。
図9を用いて、上記ステップS100の詳細内容を説明する。
ステップS110では、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、現在のビーム幅Nを1に初期化してデータベースを更新する。
ステップS120では、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、当該データベースに記憶された、過去の音声認識におけるビーム探索での複数のビーム幅Nの履歴値のうちの任意の1つを選択し、取得する。
ステップS130では、制御回路部200は、上記ステップS120で取得したビーム幅履歴値が、現在のビーム幅Nよりも大きいか否かを判定する。ビーム幅履歴値が現在のビーム幅N以下である場合には、判定が満たされずに後述のステップS150に移る。一方、ビーム幅履歴値が現在のビーム幅Nよりも大きい場合には、判定が満たされてステップS140に移る。
ステップS140では、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、現在のビーム幅Nを上記ステップS120で取得したビーム幅履歴値に更新する。
ステップS150では、制御回路部200は、上記ステップS120で取得したビーム幅履歴値がビーム幅履歴データベースに記憶された最後の履歴値であるか否か、すなわちビーム幅履歴データベースに記憶された全てのビーム幅履歴値について上記ステップS120〜ステップS140の処理を行ったか否かを判定する。最後の履歴値でない場合には、判定が満たされずに先のステップS120に戻り、同様の手順を繰り返す。一方、最後の履歴値である場合には、判定が満たされて本ルーチンを終了する。
以上のビーム幅決定処理により、ビーム幅履歴データベースに記憶された複数のビーム幅Nの履歴値のうちの最大値がビーム幅Nとして設定される。すなわち、例えば前述した図6に示す例では、単語列「阿藤です。」の2回目のビーム幅履歴値「20」が最大値であるためビーム幅Nとして設定される。
図10を用いて、上記ステップS200の詳細内容を説明する。
ステップS210では、制御回路部200は、前述のステップS30において録音された録音音声データを、ハードディスク装置205の所定の記憶エリアより読み出し取得する。
ステップS220では、制御回路部200は、上記ステップS210で取得した録音音声データの1フレーム分のデータを抽出して周波数特性や振幅特性等の音響的特徴を抽出し、音声認識処理で一般的に使用される周知の統計的音響モデルを用いて音響分析を行う。
ステップS230では、制御回路部200は、上記ステップS220で抽出した1フレーム分の録音音声データに対し、当該フレームの尤度を公知の尤度計算式を用いて計算する。
ステップS240では、制御回路部200は、上記ステップS230で尤度を計算した1フレームが属する経路に含まれる全フレームの尤度の累積値を計算する。
ステップS250では、制御回路部200は、上記ステップS240で計算した尤度の累積値が大きい順に、経路の順位付けを行う。
ステップS260では、制御回路部200は、前述したステップS100で設定したビーム幅Nよりも順位が大きい経路が存在するか否かを判定する。ビーム幅Nよりも順位が大きい経路が存在する場合には、判定が満たされてステップS270に移り、制御回路部200は、ビーム幅Nよりも順位が大きい経路に対応する単語列候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。そして、ステップS280に移る。一方、ビーム幅Nよりも順位が大きい経路が存在しない場合には、判定が満たされずに直接ステップS280に移る。
ステップS280では、制御回路部200は、上記ステップS220で抽出したフレームがハードディスク装置205に録音された録音音声データの最終フレームであるか否か、すなわち録音音声データの全てのフレームについて上記ステップS220〜ステップS270の処理を行ったか否かを判定する。最終フレームでない場合には、判定が満たされずに先のステップS220に戻り、同様の手順を繰り返す。一方、最終フレームである場合には、判定が満たされてステップS290に移る。
ステップS290では、制御回路部200は、録音音声データの全てのフレームについて上記ステップS220〜ステップS270の処理を行った結果得られた単語列候補を、それらの尤度の累積値に基づく順位と対応付けてハードディスク装置205の適宜の記憶領域に登録する。そして、本ルーチンを終了する。
上記において、ステップS250は、特許請求の範囲に記載の順位設定手段として機能すると共に、順位設定手順に相当する。
図11を用いて、上記ステップS300の詳細内容を説明する。
ステップS310では、制御回路部200は、上記ステップS200の音声認識処理により第1位に順位付けられた単語列候補を、ハードディスク装置205より読み出す。
ステップS320では、制御回路部200は、上記ステップS310で読み出した単語列候補の尤度の累積値が、所定の閾値よりも大きいか否かを判定する。この閾値は、尤度がこの閾値以下である場合には認識失敗とすべきであるとして予め設定されており、ハードディスク装置205の適宜の記憶エリアに記憶されている。尤度の累積値が閾値以下である場合には、ステップS330に移り、音声認識処理による認識結果が所定の信頼性を満たすか否かを表す前述のフラグFを、信頼性を満たさないことを表す1とし、後述のステップS370に移る。一方、尤度の累積値が閾値より大きい場合には、判定が満たされてステップS340に移る。
ステップS340では、制御回路部200は、上記ステップS310で読み出した第1位の単語列候補が正解であるか否かの確認をユーザに求める確認画面を、タッチパネル210に表示する(後述の図12参照)。
ステップS350では、制御回路部200は、上記ステップS340でタッチパネル210に表示した確認画面において、ユーザが第1位の単語列候補が正解である旨の操作を行ったか否かを判定する。第1位の単語列候補が正解である旨の操作が行われた場合、ステップS360に移る。一方、第1位の単語列候補が不正解である旨の操作が行われた場合、判定が満たされずに後述のステップS370に移る。
ステップS360では、制御回路部200は、第1位の単語列候補を正解として取得し、ハードディスク装置205の適宜の記憶領域に登録する。そして、本ルーチンを終了する。
一方、上記ステップS320で尤度の累積値が閾値以下である場合、及び、ステップS350で第1位の単語列候補が不正解である旨の操作が行われた場合には、ステップS370に移る。
ステップS370では、制御回路部200は、ユーザが正解である単語列を入力可能な入力画面をタッチパネル210に表示する(後述の図13参照)。
ステップS380では、制御回路部200は、上記入力画面においてユーザがタッチパネル210を介して入力した単語列を正解として取得し、ハードディスク装置205の適宜の記憶領域に登録する。そして、本ルーチンを終了する。
図12を用いて、上記ステップS340でタッチパネル210に表示される、第1位の単語列候補が正解であるか否かの確認をユーザに求める確認画面の一例を説明する。この図12に示すように、タッチパネル210には第1位の単語列候補が表示されると共に、当該単語列候補が正解である場合にユーザが操作する正解ボタン213と、不正解である場合に操作する不正解ボタン214とが表示されている。ユーザが正解ボタン213を操作した場合には、上記ステップS350の判定が満たされてステップS360に移り、ユーザが不正解ボタン214を操作した場合には、上記ステップS350の判定が満たされずにステップS370に移るようになっている。
図13を用いて、上記ステップS370でタッチパネル210に表示される、ユーザが正解である単語列を入力可能な入力画面の一例を説明する。この図13に示すように、タッチパネル210の上部には入力内容を確認表示する確認表示部215が、下部にはキーボード部216が表示されており、ユーザはキーボード部216の所望のキーをタッチすることにより、正解である単語列を入力することが可能となっている。
図14を用いて、上記ステップS400の詳細内容を説明する。
ステップS410〜ステップS450は、前述の図10に示すステップS210〜ステップS250と同様である。すなわち、制御回路部200は、前述のステップS30において録音された録音音声データを読み出し、1フレーム分のデータを抽出して音響分析を行い、統計的音響モデルと言語モデルを用いて当該1フレーム分の録音音声データの尤度を計算する。そして、当該1フレームが属する経路に含まれる全フレームの尤度の累積値を計算する。その後、計算した尤度の累積値が大きい順に、経路の順位付けを行う。
ステップS460では、制御回路部200は、前述したステップS100で設定したビーム幅Nが、前述したステップS300で取得した正解の単語列と一致する単語列候補の順位より小さいか否かを判定する。ビーム幅Nが正解の単語列候補の順位より小さい場合には、判定が満たされてステップS470に移り、制御回路部200は、現在のビーム幅Nを上記正解の単語列候補の順位に拡大し、当該更新したビーム幅NをDBサーバ10のビーム幅履歴データベースに登録する。そして、ステップS480に移る。一方、ビーム幅Nが正解の単語列候補の順位以上である場合には、判定が満たされずに直接ステップS480に移る。以降は、更新したビーム幅Nを用いて最終フレームとなるまでステップS420〜ステップS480の処理が繰り返される。
ステップS480及びステップS490は、前述の図10に示すステップS280及びステップS290と同様であり、制御回路部200は、上記ステップS420で抽出したフレームがハードディスク装置205に録音された録音音声データの最終フレームであるか否かを判定し、最終フレームである場合には、録音音声データの全てのフレームについて上記ステップS420〜ステップS470の処理を行った結果得られた単語列候補を、それらの尤度の累積値に基づく順位と対応付けてハードディスク装置205の適宜の記憶領域に登録する。そして、本ルーチンを終了する。
以上のような制御を行うことにより得られる作用効果を図15を用いて説明する。なお、この図15では煩雑防止のため各経路において適宜フレームを間引きして図示している。
この図15では、ユーザが発話した単語が「えー、シスター工業」であり、ビーム幅Nが「4」に設定されている場合を例示している。本例ではユーザが最初に「えー、」と発音したことにより、「えー」の音で始まる単語候補「ACスター株式会社」や「AC株式会社」、「Aスター株式会社」、及び「エース株式会社」の尤度が高くなり、正解である単語候補「シスター工業」の尤度が低くなっている。その結果、時間t5において「シスター工業」の順位が5位となり、枝刈りが行われる。これにより、前述の図10に示すステップS200の音声認識処理が終了した時点では、単語候補は上位より「ACスター株式会社」、「AC株式会社」、「Aスター株式会社」、及び「エース株式会社」となり、正しい音声認識結果は得られないことになる。
その後、前述の図11に示すステップS300の正解取得処理において、ユーザが入力画面で「シスター工業」を入力すると、上記2位から4位の単語候補「AC株式会社」、「Aスター株式会社」、及び「エース株式会社」中に正解の単語「シスター工業」は含まれないため、前述の図8に示すステップS50の判定が満たされずに前述の図14に示すステップS400に移る。このステップS400の音声再認識処理においては、前述したように、ステップS300でユーザにより入力された正解の単語列と一致する単語列候補が、設定したビーム幅Nによる探索範囲の枝刈り対象とならないために、必要なビーム幅Nを随時更新しつつビーム探索を実行して、再度音声認識を行う。すなわち、時間t5において正解の単語候補の順位5がビーム幅4より大きくなるため、ステップS460の判定が満たされてステップS470に移り、ビーム幅Nが5に更新される。以降は、更新したビーム幅5を用いて最終フレームとなるまでステップS420〜ステップS480の処理が繰り返され、音声認識が行われる。その結果、この図15に示す例では、正解である単語候補「シスター工業」の尤度が徐々に高くなり、最終的には第1位に順位付けられる。これにより、前述の図8に示すステップS70の判定が満たされ、ステップS80において更新されたビーム幅5がビーム幅履歴値としてビーム幅履歴データベースに格納される。このようにしてビーム幅Nが更新される結果、次回以降に例えば同一のユーザにより「えー、シスター工業」という同様の発話が入力されても、前述の図9に示すビーム幅決定処理においてビーム数Nが5に設定されることから、正しい音声認識結果が得られることになる。
以上において、単語及び単語列は、例えば氏名、会社名、地名、時間等のユーザに関連する情報を幅広く含むものであり、特許請求の範囲に記載の認識対象情報に相当し、単語候補及び単語列候補は、認識対象情報候補に相当する。
以上説明した本実施形態の受付端末20においては、マイク207を介して所定の単語を含むユーザの発話音声を入力すると、その入力された発話音声に対応した音情報が取得され、この取得された音情報に対し音声認識が行われる。この音声認識により複数の単語列候補を生成する際、本実施形態においては、処理の迅速化を図るためにビーム探索を行う。すなわち、ビーム幅Nを設定し、ステップS200の音声認識処理の途中で当該ビーム幅Nの範囲外となった単語列候補については処理対象外とし、それ以降の処理を行わない、いわゆる枝刈りを実行する。
ビーム幅Nを狭く設定すると処理の高速化を図れるが、複数の単語列候補に含まれていた正解を誤って処理途中で枝刈りにより切り捨てるおそれがある。ビーム幅Nを広く設定すると枝刈りにより正解を切り捨てる可能性は低くなるが、処理に膨大な時間を要することとなる。
そこで、本実施形態においては、ステップS400の音声再認識処理により再認識を行う際、タッチパネル210で入力済みの正解の単語列と一致する単語列候補が設定されたビーム幅Nによる探索範囲の枝刈り対象とならないために、ビーム幅Nを順次更新しつつビーム探索を実行する。そして、ステップS80において、その更新されたビーム幅Nを、ビーム幅履歴データベース記憶エリア151に記憶されたビーム幅履歴データベースに格納する。これにより、次回以降の音声認識の際、今回と同様のビーム探索を行うための十分なビーム幅Nが確保される。この結果、前述したように、複数の単語列候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。また、正解に到達するまでの最低順位に対応する形で必要最小限にビーム幅Nを拡大するので、不必要にビーム幅Nを広く設定することによる処理の長時間化を回避することができる。以上のように、本実施形態の受付端末20においては、処理の長時間化を回避しつつ、確実に正しく単語を認識することができる。
また、本実施形態では特に、受付端末20は、ステップS200の音声認識処理により正解である単語列候補が第2位以下第N位以上に順位付けられた場合、その後、ステップS400の音声再認識処理及びステップS80におけるビーム幅履歴データベースの更新を中止する。すなわち、このような場合には、仮にビーム幅Nをさらに広げて音声認識を行っても、正解と一致する単語列候補が第1位となる可能性はない。したがって、本実施形態においては、このような場合にはビーム幅Nを更新するためのその後の処理を行わないようにする。これにより、効果のない無駄な処理時間を浪費するのを防止することができる。
また、本実施形態では特に、受付端末20は、ビーム幅履歴データベースへアクセスし、ビーム幅Nの履歴値のうちの最大値を、ビーム幅Nの初期値として設定する。これにより、次回以降の音声認識の際、少なくとも過去のビーム探索と同じビーム探索を行うために必要なビーム幅Nが確実に設定される。この結果、複数の単語列候補に含まれる正解を誤って処理途中で切り捨てるのを確実に防止することができる。
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を説明する。
(1)ビーム幅履歴の平均値を用いる場合
図16を用いて、本変形例におけるビーム幅履歴データベース記憶エリア151の記憶内容を説明する。この図16に示すように、本変形例のビーム幅履歴データベースには、会社への来訪者が過去に発話した単語列と、その音声認識におけるビーム探索での複数のビーム幅Nの履歴値と、これら複数のビーム幅Nの履歴値の平均値とが、互いに関連付けて記憶されている。
図17を用いて、本変形例におけるステップS100Aのビーム幅決定処理の詳細内容を説明する。
ステップS110は、前述の図9と同様であり、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、現在のビーム幅Nを1に初期化してデータベースを更新する。
ステップS120Aでは、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、当該データベースに記憶された、過去の音声認識におけるビーム探索での複数のビーム幅Nの履歴値の平均値のうちの任意の1つを選択し、取得する。
ステップS130Aでは、制御回路部200は、上記ステップS120Aで取得したビーム幅履歴値の平均値が、現在のビーム幅Nよりも大きいか否かを判定する。ビーム幅履歴値の平均値が現在のビーム幅N以下である場合には、判定が満たされずに後述のステップS150Aに移る。一方、ビーム幅履歴値の平均値が現在のビーム幅Nよりも大きい場合には、判定が満たされてステップS140Aに移る。
ステップS140Aでは、制御回路部200は、DBサーバ10のビーム幅履歴データベースへアクセスし、現在のビーム幅Nを上記ステップS120Aで取得したビーム幅履歴値の平均値に更新する。
ステップS150Aでは、制御回路部200は、上記ステップS120Aで取得したビーム幅履歴値の平均値がビーム幅履歴データベースに記憶された最後の平均値であるか否か、すなわちビーム幅履歴データベースに記憶された全てのビーム幅履歴値の平均値について上記ステップS120A〜ステップS140Aの処理を行ったか否かを判定する。最後の平均値でない場合には、判定が満たされずに先のステップS120Aに戻り、同様の手順を繰り返す。一方、最後の平均値である場合には、判定が満たされて本ルーチンを終了する。
以上のビーム幅決定処理により、ビーム幅履歴データベースに記憶された複数のビーム幅Nの履歴値の平均値のうちの最大値がビーム幅Nとして設定される。すなわち、例えば前述した図16に示す例では、単語列「佐藤です。」又は「阿藤です。」に対応するビーム幅履歴値の平均値「17」がビーム幅Nとして設定される。
なお、本変形例の上記以外の制御内容については、前述の実施形態と同様である。また上記において、ステップS100Aは、特許請求の範囲に記載のビーム幅設定手段として機能すると共に、ビーム幅設定手順に相当する。
本変形例によれば、次回以降の音声認識の際、過去のビーム探索の実績と概ね同等のビーム探索を行うために必要なビーム幅Nが設定される。この結果、複数の単語列候補に含まれる正解を誤って処理途中で切り捨てるのを防止することができる。
(2)その他
以上では、受付端末20の待ち受け状態におけるタッチパネル210の手動操作の有無によって、来訪者の有無を検出するようにしたが、これに限られない。すなわち、例えば、周知の人感センサ又はカメラ等の他の検知手段を用いて来訪者の来訪を検出するようにしてもよい。
また、以上では表示手段と操作手段とを兼ねたタッチパネル210を用いたが、これに限られない。すなわち、通常のキーやボタン等の操作手段を用い、これによって来訪者が上記訪問予定日時を操作入力するようにしてもよい。また、通常のディスプレイやランプ等の表示手段を用いるようにしてもよい。
なお、以上において、図4、図5の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
また、図8乃至図11、図14、図17に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
20 受付端末
151 ビーム幅履歴データベース記憶エリア(記憶手段)
207 マイク(音声入力手段)
210 タッチパネル(操作手段)
N ビーム幅

Claims (6)

  1. 統計的音響モデルとビーム探索を用いて音声認識を行う音声認識装置であって、
    過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶手段に記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手段と、
    所定の認識対象情報を含むユーザの発話音声を入力するための音声入力手段と、
    前記音声入力手段を介し入力された前記発話音声により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
    前記音取得手段により取得された音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手段と、
    前記ユーザの手動操作により前記認識対象情報を入力可能な操作手段と、
    前記操作手段により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手段により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手段と、
    前記音声再認識手段により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手段と
    を有することを特徴とする音声認識装置。
  2. 前記ビーム幅設定手段により設定された前記ビーム幅をNとしたとき、前記操作手段により入力された前記認識対象情報と一致する前記認識対象情報候補が、前記順位設定手段により第1位に順位付けられたか、もしくは、枝刈りによって前記認識対象情報候補がN位中に残らず順位が不明であるかどうか、を判定する順位判定手段をさらに有し、
    前記順位判定手段により、前記認識対象情報と一致する前記認識対象情報候補が第2位以下第N位以上に順位付けられたと判定された場合は、その後、前記音声再認識手段及び前記履歴更新手段による処理を中止する中止制御手段を有する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記ビーム幅設定手段は、
    前記ビーム幅履歴データベースへアクセスし、ビーム幅の履歴値のうちの最大値を、前記ビーム幅の初期値として設定する
    ことを特徴とする請求項1又は請求項2記載の音声認識装置。
  4. 前記ビーム幅履歴データベースは、
    複数の前記認識対象情報と、各認識対象情報に対応する複数のビーム幅の履歴値と、当該複数のビーム幅の履歴値の平均値とを、各認識対象情報ごとに互いに関連付けて記憶しており、
    前記ビーム幅設定手段は、
    前記ビーム幅履歴データベースへアクセスし、前記複数の認識対象情報にそれぞれ対応した、複数の前記平均値のうちの最大値を、前記ビーム幅の初期値として設定する
    ことを特徴とする請求項1又は請求項2記載の音声認識装置。
  5. 統計的音響モデルとビーム探索を用いて音声認識を行う音声認識方法であって、
    過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、
    所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、
    ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、
    前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順と
    を有することを特徴とする音声認識方法。
  6. 過去の音声認識における前記ビーム探索でのビーム幅の履歴値を記憶したビーム幅履歴データベースへアクセスし、前記ビーム幅の前記履歴値を用いてビーム幅を設定するビーム幅設定手順と、
    所定の認識対象情報を含むユーザの発話音声に対応する振幅あるいは周波数を含む音情報に対し、統計的音響モデルを用いて尤度を計算して、複数の認識対象情報候補を尤度により順位付けする順位設定手順と、
    ユーザの手動操作により入力された認識対象情報と一致する前記認識対象情報候補が、前記ビーム幅設定手順により設定されたビーム幅による探索範囲の枝刈り対象とならないために、必要なビーム幅を随時更新しつつビーム探索を実行して、再度音声認識を行う音声再認識手順と、
    前記音声再認識手順により更新されたビーム幅をビーム幅の履歴値として前記ビーム幅履歴データベースに格納する履歴更新手順と
    をコンピュータの演算手段に実行させるための音声認識プログラム。
JP2009223764A 2009-09-29 2009-09-29 音声認識装置、音声認識方法、及び、音声認識プログラム Pending JP2011075602A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009223764A JP2011075602A (ja) 2009-09-29 2009-09-29 音声認識装置、音声認識方法、及び、音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009223764A JP2011075602A (ja) 2009-09-29 2009-09-29 音声認識装置、音声認識方法、及び、音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2011075602A true JP2011075602A (ja) 2011-04-14

Family

ID=44019699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009223764A Pending JP2011075602A (ja) 2009-09-29 2009-09-29 音声認識装置、音声認識方法、及び、音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2011075602A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542162A (zh) * 2020-12-04 2021-03-23 中信银行股份有限公司 语音识别方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542162A (zh) * 2020-12-04 2021-03-23 中信银行股份有限公司 语音识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
WO2015151157A1 (ja) 意図理解装置および方法
JP5089955B2 (ja) 音声対話装置
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
US10636415B2 (en) Method of correcting dictionary, program for correcting dictionary, voice processing apparatus, and robot
JP2003022087A (ja) 音声認識方法
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
JP2010282199A (ja) 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
JP2006351028A (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
KR20060097647A (ko) 음성 인식 방법
JP2010048953A (ja) 対話文生成装置
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP2005227686A (ja) 音声認識装置、音声認識プログラムおよび記録媒体。
JP2008046260A (ja) 音声認識装置
US20170270923A1 (en) Voice processing device and voice processing method
US10789946B2 (en) System and method for speech recognition with decoupling awakening phrase
JP2015038526A (ja) 音声処理装置、及び音声処理方法
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2011075602A (ja) 音声認識装置、音声認識方法、及び、音声認識プログラム
JP2009116075A (ja) 音声認識装置
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20210064640A1 (en) Information processing apparatus and information processing method
JP6325770B2 (ja) 音声認識誤り修正装置及びそのプログラム
JP4635743B2 (ja) 音声対話装置及び音声理解結果生成方法