JPH0883091A

JPH0883091A - 音声認識装置

Info

Publication number: JPH0883091A
Application number: JP6215958A
Authority: JP
Inventors: Kenji Mizutani; 研治水谷; Makoto Hirai; 誠平井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-09-09
Filing date: 1994-09-09
Publication date: 1996-03-26

Abstract

(57)【要約】【目的】認識率の高い音声認識装置を提供すること。【構成】音声を入力として電気信号に変換する音声入
力装置と、音声入力装置が出力する電気信号を入力パタ
ーンとして記録する音声信号記録装置を用いる。入力パ
ターンを認識するための音声の標準パターンを生成する
ために、照合パターン生成装置を用いる。音声信号記録
装置が保持する入力パターン上の音声の終端を確定する
ためにワードスポッティング方式を応用した認識区間確
定装置を用いる。そして、前回の認識終了点から認識区
間確定装置が確定した終了点までの入力パターンと標準
パターンとを照合して一致度を計算し、一致度の高い順
に並べて出力する音声信号照合装置を用いる。誤認識を
防ぐために、パターン認識結果の文脈との整合性を検証
して認識候補の順位を入れ換え、次に入力される音声を
予測して照合パターン生成装置が生成する標準パターン
を制御するために文脈管理装置を用いる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は人間の音声を認識する装
置に関するものであり、特に電子機器の入力装置に関す
るものである。

【０００２】

【従来の技術】近年、電子機器の操作を迅速かつ容易に
するために音声認識に関する研究開発がなされている。
入力される音声は電気信号に変換され、時間軸に対する
電圧の変化として扱われる。音声の認識は、一般にその
入力パターンとあらかじめ統計的に学習されている音声
の標準パターンとの差異を、時間的伸縮を考慮しながら
比較し、最も差異が小さい標準パターンを選択すること
によって行われる（例えば、特開平４−３６２６９
８）。この方式では認識精度を向上させるために、標準
パターンに無音パターンを接続してから入力パターンと
の比較を行っている。

【０００３】

【発明が解決しようとする課題】前述の認識精度向上技
術には２つの問題がある。第１の問題は、入力パターン
と標準パターンの比較をワードスポッティング方式で行
っているために、標準パターンの長さと数に比例して計
算量が爆発的に多くなることである。第２の問題は促音
を含む入力パターンに対しては、促音と無音とを誤認識
して認識率が逆に低下する可能性があることである。

【０００４】本発明では、音声が無音を伴って終了する
ときの、文法によって支配される音韻的特徴に着目し、
ワードスポッティング方式と、認識の開始点と終了点を
あらかじめ確定してから認識を行う従来の音声認識方式
を組み合わせることにより、上記の問題を解決する。

【０００５】

【課題を解決するための手段】音声を入力として電気信
号に変換する音声入力装置と、音声入力装置が出力する
電気信号を入力パターンとして記録する音声信号記録装
置を用意する。入力パターンを認識するための音声の標
準パターンを生成するために、照合パターン生成装置を
用いる。音声信号記録装置が保持する入力パターン上の
音声の終端を確定するために認識区間確定装置を用い
る。そして、前回の認識終了点から認識区間確定装置が
確定した終了点までの入力パターンと標準パターンとを
照合して一致度を計算し、一致度の高い順に標準パター
ンを並べて出力する音声信号照合装置を用いる。誤認識
を防ぐために、パターン認識結果の文脈との整合性を検
証して認識候補の順位を入れ換え、かつ、次に入力され
る音声を予測して照合パターン生成装置が生成する標準
パターンを制御するために文脈管理装置を用いる。

【０００６】音声信号記録装置は、音声入力装置が出力
する音声の電気信号の情報量を圧縮する情報圧縮装置
と、その出力を記録する入力パターン記録装置で構成す
る。

【０００７】照合パターン生成装置は、認識する音声を
構成する単語とその発音を音素表記で記述した語彙情報
格納装置と、単語と発音についてその接続規則を記述し
た文法情報格納装置と、音素のモデルを保持する音素モ
デル格納装置と、無音のモデルを格納する無音モデル格
納装置と、それらが出力する情報を参照して文脈管理装
置が指示する標準パターンを生成する標準パターン生成
装置で構成する。

【０００８】認識区間確定装置は、標準パターンの終端
近傍のパターンを生成する終端パターン生成装置と、入
力パターンの中に終端近傍のパターンの存在を認識する
ワードスポッティング装置で構成する。

【０００９】音声信号照合装置は、ワードスポッティン
グ装置が認識した終端近傍のパターンを含む標準パター
ンだけを選択する照合パターン絞り込み装置と、前回の
認識終了点から今回の認識終了点までの入力パターンを
標準パターンと照合して一致度の高いものから順に並べ
て出力するパターン照合装置で構成する。

【００１０】文脈管理装置は、入力された音声の認識を
開始する時点までの認識結果を記録する発話履歴管理装
置と、音声が発せられる世界に関する知識を格納する対
象世界知識格納装置と、それらに整合する認識候補ほど
高い妥当性を与えて、認識結果の並びを変え、発話履歴
管理装置の内容を更新する認識結果修正装置と、認識履
歴格納装置の内容と対象世界情報格納装置の内容を参照
して次発話を予測するための認識候補生成装置で構成す
る。

【００１１】

【作用】ワードスポッティング方式による音声認識は、
短い音韻列について行っているので、その数が増加して
も計算量の増加は小さい。また、促音を含む音声につい
ては、短い音韻と無音パターンを接続し、認識範囲を確
定してから単語全体の音声認識を行うので、促音を認識
の終了点として誤認識する率が低下する。

【００１２】

【実施例】本発明の一実施例の音声認識装置の全体の構
成を表すブロック図を図１に示す。音声入力装置１０１
は、音声を収音し電気信号に変換する。音声信号記録装
置１０２は、電気信号に変換された音声を記録する。照
合パターン生成装置１０３は入力パターンと照合すべき
音声の標準パターンを出力する。認識区間確定装置１０
４は標準パターンと照合すべき入力パターンの範囲を確
定する。音声信号照合装置１０５は前回の認識終了点か
ら認識区間確定装置１０４が検出した終了点までの入力
パターンを標準パターンと照合し、認識結果を出力す
る。文脈管理装置１０６は得られた認識結果の、これま
での認識結果が作ってきた文脈との整合性を検証し、認
識結果の順位を入れ換え、さらに次発話を予測して照合
パターン生成装置１０５が生成すべき標準パターンに関
する情報を出力する。

【００１３】

【表１】

【００１４】次に本発明の動作例を、（表１）に示す会
社の社内案内の音声対話システムに応用した例をあげて
説明する。ユーザが「営業部の、八田さんは、どちらで
しょうか。」と発声すると、音声入力装置１０１はそれ
を電気信号に変換し、音声信号記録装置１０２はその波
形を有限時間分記録する。図２に音声信号記録装置１０
２の内部構成を表すブロック図を示す。音声入力装置１
０１によって電気信号に変換された音声は情報圧縮装置
２０１に入力され、記録容量を削減するために情報量が
圧縮される。情報量の圧縮には入力された音声を人間が
聞いて判別できる程度に復元可能な近似方法を用いる。
圧縮された音声信号は入力パターンとして情報記録装置
２０２に記録される。

【００１５】照合パターン生成装置１０３は、文脈管理
装置１０６の指示により、あらかじめ認識すべき候補の
標準パターンを生成している。対話の開始時点ではユー
ザは部署と名前を発声することが予測されるので、部署
については「社長室の」「営業部の」「経理部の」、人
名については「川田さんを」などを生成している。図３
に照合パターン生成装置１０３の内部構成を表すブロッ
ク図を示す。語彙情報格納装置３０１は、ユーザが発話
すると想定される語彙とその発音の音素表記を格納す
る。社内案内の場合では、名詞として部署名、姓、名、
役職、性別を、助詞として「が」「の」「を」「は」
「には」を、動詞句として「お願いします」「いらっし
ゃいますか」「どちらでしょうか」などを用意し、それ
ぞれの音素表記を記述する。文法情報格納装置３０２
は、各単語の接続規則と音素の接続規則を格納する。音
素モデル格納装置３０３は音素の音韻モデルを格納す
る。音韻のモデルとしては隠れマルコフモデルを用い
る。無音モデル格納装置３０４は無音の音韻モデルを格
納する。標準パターン生成装置３０５は文脈管理装置１
０６によって指定される認識候補を語彙情報格納装置３
０１、文法情報格納装置３０２、無音モデル格納装置３
０３、音素モデル格納装置３０４を参照して、無音モデ
ルを音韻モデル列の前後に接続した標準パターンを生成
する。

【００１６】認識区間確定装置１０４は、音声信号記録
装置１０２が保持する入力パターン「（無音）えいぎょ
うぶの（無音）はっ（無音）たさんわ（無音）どちらで
しょうか（無音）」の中から、音声信号照合装置１０５
が認識すべき区間を確定する。図４に認識区間確定装置
１０４の内部構成を表すブロック図を示す。照合パター
ン生成装置１０３によって生成された標準パターンはパ
ターン生成装置４０１に入力され、その終端近傍のパタ
ーンが生成される。終端近傍のパターンとしては、助詞
の音韻モデルと無音のモデルを接続した部分を選択す
る。ワードスポッティング装置４０２は、生成された終
端近傍のパターンが入力パターンの各時点に存在する確
率を計算し、音声信号照合装置１０５が認識すべき音声
の終了点を確定する。この例では、ワードスポッティン
グ装置４０２は「の」を終端に持つ標準パターンが「え
いぎょうぶの（無音）」の位置で終了することを示す認
識終了点情報を出力する。

【００１７】音声信号照合装置１０５は前回の認識終了
点から認識区間確定装置１０４が確定した認識終了点ま
でを認識対象として標準パターンとの一致度を計算す
る。図５に音声信号照合装置１０５の内部構成を表すブ
ロック図を示す。照合パターン絞り込み装置５０１は、
認識終了点情報を入力として複数の標準パターンの中か
ら実際に一致度を計算すべきものを選択する。この例で
は、「の」を終端に持つ標準パターン、すなわち、「社
長室の」「営業部の」「経理部の」の音韻モデルの、そ
れぞれの前後に無音の音韻モデルを接続した標準パター
ンが選択される。パターン照合装置５０２は、それらの
標準パターンと認識終了点情報で示される入力パターン
の一部「（無音）えいぎょうぶの（無音）」との一致度
を計算し、一致度の高いものから順に並べて出力する。

【００１８】文脈管理装置１０６は認識結果を文脈を参
照して再順序づけを行い、照合パターン生成装置１０５
に次の認識で使用するために生成すべき語句を指示す
る。図６に文脈管理装置１０６の一実施例の構成を表す
ブロック図を示す。音声信号照合装置１０５によって順
位付けされたパターン認識結果は、認識結果修正装置６
０３が認識履歴格納装置６０１と対象世界情報格納装置
６０２が保持する内容と比較し、一貫性のある認識候補
ほど順位が高く修正される。この例では、対象世界情報
格納装置６０２には、（表１）に示す人事に関する知識
と、受付における標準的な対話手順に関する知識が記述
される。認識結果修正装置６０３は、認識履歴格納装置
６０１を参照し、例えば、すでに部署が認識されている
ときは、部署の認識候補の順位を下げる。修正された認
識結果は認識履歴格納装置６０１に記録され、認識候補
生成装置６０４は、認識履歴格納装置６０１と対象世界
情報格納装置６０２を参照して、次に発話される内容を
予測し、認識候補生成情報を出力する。例えば、部署名
として「営業部の」が認識結果として得られた場合は、
名前の候補として「小川さんを」「淵さんを」「八田さ
んを」「田上さんを」「川田さんを」「三沢さんを」
「鶴田さんを」を標準パターンとして生成するように照
合パターン生成装置１０５に指示を与える。

【００１９】なお、本発明は、ワードスポッティングを
行うべき短い音韻列を、音声認識を行う分野に応じて適
当に設定することで、あらゆる分野で高精度の音声認識
を行うことができる。

【００２０】

【発明の効果】本装置により、多くの単語を認識しなけ
れならない場合でも、計算量の増加が緩やかで、かつ高
い精度で音声認識が可能になる。また、文法的に意味の
ある認識範囲を確定するので語彙情報と文法情報の正則
性が高く、それらの記述量の増加も緩やかになる。

【図面の簡単な説明】

【図１】本発明の一実施例の音声対話型情報検索装置の
全体の構成を表すブロック図

【図２】同じくその図１の音声信号記録装置１０２の内
部構成を表すブロック図

【図３】同じくその図１の照合パターン生成装置１０３
の内部構成を表すブロック図

【図４】同じくその図１の認識区間確定装置１０４の内
部構成を表すブロック図

【図５】同じくその図１の音声信号照合装置１０５の内
部構成を表すブロック図

【図６】同じくその図１の文脈管理装置１０６の内部構
成を表すブロック図

【符号の説明】

１０１音声入力装置１０２音声信号記録装置１０３照合パターン生成装置１０４認識区間確定装置１０５音声信号照合装置１０６文脈管理装置２０１情報圧縮装置２０２入力パターン記録装置３０１語彙情報格納装置３０２文法情報格納装置３０３音素モデル格納装置３０４無音モデル格納装置３０５標準パターン生成装置４０１終端パターン生成装置４０２ワードスポッティング装置５０１照合パターン絞り込み装置５０２パターン照合装置６０１認識履歴格納装置６０２対象世界情報格納装置６０３認識結果修正装置６０４認識候補生成装置

Claims

【特許請求の範囲】

【請求項１】音声を入力として電気信号を出力する音声
入力装置と、前記電気信号を入力パターンとして記録す
る音声信号記録装置と、前記入力パターンと照合するた
めの前記音声の標準パターンを出力する照合パターン生
成装置と、前記標準パターンと前記入力パターンとを入
力として、前記標準パターンと照合すべき前記入力パタ
ーンの区間を確定する認識区間確定装置と、前記認識区
間確定装置が指示する範囲の前記入力パターンと前記標
準パターンとの一致度を計算し、前記一致度の高い順に
並べた前記標準パターンを出力する音声信号照合装置
と、前記一致度の高い順に並べられた前記標準パターン
の順序を対話の文脈との整合性に応じて入れ換えて出力
し、かつ、次に入力される音声を予測して前記照合パタ
ーン生成装置が生成する前記標準パターンを制御する文
脈管理装置を有することを特徴とする音声認識装置。
【請求項２】音声信号記録装置は、音声入力装置が出力
する音声の電気信号の情報量を圧縮する情報圧縮装置
と、前記情報圧縮装置の出力を記録する入力パターン記
録装置を有することを特徴とする請求項１記載の音声認
識装置。
【請求項３】照合パターン生成装置は、認識すべき音声
を構成する単語と前記単語の音素表記を保持する語彙情
報格納装置と、前記単語の接続規則と前記音素の接続規
則とを保持する文法情報格納装置と、前記音素の音韻モ
デルを保持する音素モデル格納装置と、無音の音韻モデ
ルを保持する無音モデル格納装置と、前記語彙情報格納
装置と前記文法情報格納装置と前記音素モデル格納装置
と前記無音モデル格納装置とが出力する情報を参照して
文脈管理装置が指示する標準パターンを出力する標準パ
ターン生成装置を有することを特徴とする請求項１記載
の音声認識装置。
【請求項４】標準パターン生成装置は、文脈管理装置が
生成を指示する語句の音韻モデルの前後に、無音のモデ
ルを接続して標準パターンとして出力することを特徴と
する請求項１記載の音声認識装置。
【請求項５】認識区間確定装置は、標準パターンを入力
として前記標準パターンの終端近傍のパターンを出力す
る終端パターン生成装置と、入力パターンの中に前記標
準パターンの終端近傍のパターンの存在を認識して、前
記終端近傍のパターンの種類と前記入力パターンにおけ
る位置とを認識終了点情報として出力するワードスポッ
ティング装置を有することを特徴とする請求項１記載の
音声認識装置。
【請求項６】終端パターン生成装置は、標準パターンの
終端近傍として、助詞の音韻モデルと無音の音韻モデル
を接続したパターンを生成することを特徴とする請求項
１記載の音声認識装置。
【請求項７】音声信号照合装置は、認識区間確定装置が
出力する認識終了点情報と、照合パターン生成装置が出
力する標準パターンとを入力として、前記認識終了点情
報が示す終端近傍のパターンを持つ前記標準パターンを
選択して出力する照合パターン絞り込み装置と、前記照
合パターン絞り込み装置が出力する前記標準パターンと
音声信号記録装置が出力する入力パターンを入力とし
て、最も最近の認識終了位置から前記認識終了点情報が
示す前記終端近傍のパターンの位置までの前記入力パタ
ーンと、個々の前記標準パターンとの一致度を計算し
て、前記一致度の高い順に前記標準パターンを並べてパ
ターン認識結果として出力するパターン照合装置を有す
ることを特徴とする請求項１記載の音声認識装置。
【請求項８】文脈管理装置は、入力された音声の認識を
開始する時点までの認識結果を記録する認識履歴管理装
置と、前記音声が発せられる世界に関する知識を格納す
る対象世界知識格納装置と、前記認識履歴管理装置の出
力と前記対象世界知識格納装置の出力と音声信号照合装
置が出力するパターン認識結果とを入力として、対話の
文脈と前記対話が対象とする世界に整合する前記パター
ン認識結果の認識候補の順位を上げて出力し、かつ、前
記認識履歴格納装置が保持する内容に、修正した前記パ
ターン認識結果を追記するパターン認識結果修正装置
と、前記認識履歴格納装置の出力と前記対象世界情報格
納装置の出力とを入力として次に入力される音声を予測
して認識候補生成情報を出力する認識候補生成装置を有
することを特徴とする請求項１記載の音声認識装置。