JP3444108B2

JP3444108B2 - 音声認識装置

Info

Publication number: JP3444108B2
Application number: JP25137396A
Authority: JP
Inventors: 知弘岩▲崎▼
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1996-09-24
Filing date: 1996-09-24
Publication date: 2003-09-08
Anticipated expiration: 2016-09-24
Also published as: JPH1097285A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置に関
し、大語彙を単語を対象して認識するものに適用し得
る。

【０００２】

【従来の技術】住所や姓名のような大語彙を対象とする
音声認識装置では、類似する単語が多くなるため認識性
能が低下し、また大語彙とのパターン照合を行うため演
算量が膨大となる問題があり、実現が極めて難しいもの
である。従来、大語彙を対象とするこの種の音声認識装
置として、特開平３−８４６００号公報に開示されたも
のを図９に示す。

【０００３】音響分析部１は入力される音声信号Ｓ１を
一定時間毎に音響分析し、特徴パラメータベクトルＳ２
と音声信号のパワーＳ３に変換し出力する。音声区間検
出部２は音響分析部１から受け取る音声信号のパワーＳ
３の変化により音声信号の音声区間を検出し、音声区間
の検出状況の変化により音声区間検出信号Ｓ４を出力す
る。照合部３は音声区間検出信号Ｓ４の指示に従い、音
響分析部１から受け取る特徴パラメータベクトルＳ２の
時系列のうち音声区間のものと単語辞書記憶部５から読
み出される順番で単語辞書Ｓ５との照合を行い、入力さ
れた音声信号Ｓ１と単語辞書Ｓ６が音響的にどの程度近
いかを示す音響スコアを距離値Ｓ５として順次出力す
る。

【０００４】なお頻度付単語辞書記憶部７は認識対象単
語の読みを表すラベルと使用頻度を表す情報を収め、単
語辞書ソーティング部６は頻度付単語辞書記憶部７の使
用頻度の高い順番に単語情報を並び替え、単語辞書記憶
部５は並び替えた単語情報を記憶する。また図中、Ｓ６
は単語辞書、Ｓ７は単語辞書、Ｓ８は頻度付き単語辞書
である。結果出力部４は音声区間検出信号Ｓ４又は外部
から入力される出力要求信号Ｓ９が入力された時、既に
受け取った距離値Ｓ５のうちまだ出力していないものを
距離値Ｓ５によりソーティングして距離値Ｓ５の小さな
１つ又は複数の単語を認識結果Ｓ１０として出力する。

【０００５】このような構成の音声認識装置の動作につ
いて説明する。認識に先だって単語辞書ソーティング部
６では頻度付単語辞書記憶部７の内容を読み出し、使用
頻度によりソーティングを行い、使用頻度の高い順番に
単語辞書記憶部５に収める。以下、認識時の動作につい
て説明する。認識装置は10ｍ秒程度の時間を単位として
処理が進められる。この単位時間をフレーム呼ぶ。音響
分析部１はフレーム毎に入力された音声信号Ｓ１を音響
分析し、特徴パラメータベクトルＳ２と音声信号のパワ
ーＳ３に変換する動作を繰り返す。音響分析の手法とし
ては、例えばＬＰＣ（Linear Prediction coeffcient）
分析やＦＦＴ（高速フーリエ変換）、フィルタバンクに
よる手法等が用いられる。

【０００６】次に音声区間検出部２の動作を説明する。
音声区間検出部２では音声区間の検出は音声信号のパワ
ーＳ３を監視し、音声信号のパワーＳ３がある閾値を越
えたら音声区間の始端とし、閾値より下回ったら音声区
間の終端候補とし、そのまま閾値以下で一定時間継続す
ると終端候補が正しかったものとして終端確定する。こ
の時間は一般的には 0.3秒程度が適当とされている。
0.3秒以内に再び閾値を越えて立ち上がると、先ほど検
出した終端候補を無効とする。

【０００７】具体的に例をあげて音声区間検出部２の動
作を、図１０を用いて説明する。図１０において「ほっ
た」という発声の音声信号のパワーの変化の一例を示
す。横軸は時間、縦軸は音声信号のパワーの大きさを表
す。フレームＴ１からフレームＴ２までが「ほ」、フレ
ームＴ２からフレームＴ３までが「っ」、フレームＴ３
からフレームＴ４までが「た」の発声区間を想定してい
る。図１０では音声信号のパワーは雑音レベルからフレ
ームＴ１時点で閾値Ｐ１を越えフレームＴ２で下回る。
再びフレームＴ３で閾値Ｐ１を越えフレームＴ４で下回
る。フレームＴ５はフレームＴ４から 0.3秒経過した時
点を指す。「っ」は音響的に促音に分類される。普通の
発声では促音は 0.3秒以下の時間長となるため、この例
でもフレームＴ２とフレームＴ３の間は 0.3秒以下の時
間とする。上述の音声区間検出部２の動作に従えば、フ
レームＴ１からフレームＴ４を音声区間として検出す
る。

【０００８】音声区間検出部２では音声区間検出信号Ｓ
４として始端信号、終端候補信号、終端確定信号の３種
類を送出する。図１０ではフレームＴ１とフレームＴ３
で始端信号を、フレームＴ２とフレームＴ４で終端候補
信号を、フレームＴ５で終端確定信号を送出する。終端
候補信号の後、終端確定信号が送出されずに、始端信号
が送出された場合は、その前の終端候補信号の終端候
補、つまりフレームＴ２を無効とすることを示す。

【０００９】照合部３では音響分析部１から音声区間の
特徴パラメータベクトルＳ２が送られてくるので、音声
区間検出信号Ｓ４で指定される始端信号から終端確定信
号までの間、内部に蓄える。音声区間検出部２から音声
区間検出信号Ｓ４として終端候補信号を受信したならば
パターン照合を開始する。図１０にパターン照合を行う
フレームを斜線で示す。パターン照合の方法はさまざま
あるが、例えばＤＰ（Dynamic Programming ）マッチン
グやＨＭＭ（Hidden Markov Model ）による方法が適用
できる。照合部３は単語辞書記憶部５の単語辞書Ｓ６を
並べられている順番に読み出し、内部に蓄えられている
フレームＴ１からフレームＴ２の区間の特徴パラメータ
ベクトルＳ２に対するパターン照合を行い、距離値Ｓ５
を結果出力部４に送出する。単語辞書記憶部５の中では
単語辞書Ｓ６は頻度の高い順番に並べられているため、
パターン照合は頻度の高い単語から行われることにな
る。

【００１０】続いてフレームＴ３で音声区間検出部２か
ら音声区間検出信号Ｓ４として始端信号を受信した時に
は、フレームＴ１からフレームＴ２までの区間が無効で
あるとしパターン照合を中止する。さらに続いてフレー
ムＴ４で音声区間検出部２から音声区間検出信号Ｓ４と
して終端候補信号を受信した時、内部に蓄えているフレ
ームＴ１からフレームＴ４の区間の特徴パラメータベク
トルＳ２に対するパターン照合を行い、入力された音声
信号Ｓ１と単語辞書Ｓ６がどの程度近いかを示す音響ス
コアとその単語を距離値Ｓ５として順次、結果出力部４
に出力する。

【００１１】結果出力部４では照合部３から送られてく
る距離値Ｓ５に対しその音響スコアにより順次ソーティ
ングを行う。音声区間検出部２からの音声区間検出信号
Ｓ４として始端信号を受けた時、それまでにソーティン
グされた距離値Ｓ５をクリアする。音声区間検出部２か
らの音声区間検出信号Ｓ４として終端確定信号を受けた
時、それまでにソーティングされた距離値Ｓ５のうち上
位から１つ又は複数の認識結果Ｓ１０を出力する。この
出力結果を画面に出力したものを発声者が確認し、正し
い認識結果が含まれていない場合には出力要求信号Ｓ９
を入力する。この出力要求信号Ｓ９が入力された場合に
は、その時点までにソーティングされた距離値Ｓ５のう
ちで、まだ出力していないもののうち上位から１つ又は
複数の単語を認識結果Ｓ１０として出力する。このなか
に認識結果が含まれていない場合には、さらに上記のシ
ーケンスが繰り返される。

【００１２】結果出力部４の処理の流れを図１０を用い
てさらに説明する。フレームＴ１で結果出力部４は内部
のデータをクリアする。フレームＴ２から照合部３から
距離値Ｓ５が転送されてくるので順次その距離値Ｓ５に
よりソーティングを行い内部に蓄える。フレームＴ３で
ソーティングした結果をクリアする。フレームＴ４で再
び照合部３から距離値Ｓ４が転送されてくるので順次そ
の音響スコアによりソーティングを行い内部に蓄える。
フレームＴ５でソーティングされた距離値Ｓ５のうち上
位から１つ又は複数の単語を認識結果Ｓ１０として出力
する。図１０に認識結果Ｓ１０を出力している期間を黒
く塗った長方形で示している。フレームＴ５以降も照合
部３から距離値Ｓ５が転送されてくるので順次ソーティ
ングを行い内部に蓄える。フレームＴ６で外部から出力
要求信号Ｓ９が入力されるので、その時点までソーティ
ングされた距離値Ｓ５のうち上位から１つあるいは複数
の単語を認識結果Ｓ１０として出力する。

【００１３】上記のように、従来の技術による音声認識
装置では、大語彙の単語認識を行う場合に頻度の高い単
語の認識結果は発声終了後 0.3秒で出力される。また、
頻度の低い単語もしばらく後に装置に出力要求信号Ｓ９
を送ることで認識結果を得ることができる。

【００１４】

【発明が解決しようとする課題】ところが従来の音声認
識装置は以上のように構成されているので、どのように
丁寧に発声しても頻度の低い単語は発声終了後 0.3秒以
内では認識できない。また、姓名のように数万単語とい
う大語彙を認識しようとする場合、「大野／小野」、
「佐藤／里」など類似した単語が増加するため、認識率
が低下するという問題があった。図１１に電話回線を通
して収集した姓を発声する音声データに対する従来の音
声認識装置の認識性能を示す。図中縦軸は誤り率、横軸
はパターン照合に用いた頻度の高い単語数を対数（log
）で示す。図中実線で示したものが従来の音声認識装
置による誤り率であり、点線はパターン照合に用いた単
語辞書記憶部５の単語のなかに正解が含まれていなかっ
た割合を示す。

【００１５】日本人の姓の総数は約58,000単語であり、
右に行くほど多くの単語とパターン照合を行っている。
頻度の高い 1,000単語を対象に認識する場合は、正解が
この1,000単語の中に含まれない割合である脱落率が30.
7 唐ニ誤認識の16.5％を合わせて47.2％の発声が不正解
となるが、さらに時間をかけて照合を行い57,711単語を
照合させた場合、 1.3％の脱落と62.1％の誤認識を合わ
せて、63.4％が不正解となることを示している。つま
り、単語数を増やすと極端に認識率が低下し、結果とし
て不正解が増加する問題があった。

【００１６】この発明は上記のような問題点を解消する
ためになされたもので、大語彙の場合でも高い精度で音
声を認識し得る音声認識装置を提供するものである。

【００１７】この発明に係る音声認識装置は、姓名を発
話した音声信号を入力し、一定時間毎に音響分析し、特
徴パラメータベクトルと音声信号のパワーとに順次変換
し出力する音響分析部と、その音響分析部から受け取る
音声信号のパワーの変化により音声信号の音声区間を検
出し、その音声区間の検出状況の変化により音声区間検
出信号を出力する音声区間検出部と、音声区間検出信号
の指示に従い音響分析部から出力される特徴パラメータ
ベクトルの時系列のうち音声区間の部分と単語辞書記憶
部に記憶されている単語辞書との照合を行い、入力され
た音声信号と単語辞書とのパターン照合を行い、距離値
として出力する照合部と、音声区間検出信号により指示
された時、既に受け取った距離値をソーティングして距
離値の小さな１つ又は複数の単語を認識結果として出力
する結果出力部とを有する音声認識装置において、認識
対象単語の標準パターンと予め人口に基づき姓名を表す
単語の使用頻度を表す情報を収める頻度付単語辞書記憶
部と、その頻度付単語辞書記憶部の使用頻度を表す情報
から使用頻度の高いものほど小さな値となる使用頻度ス
コアを計算し、単語辞書記憶部に記憶する使用頻度スコ
ア計算部とを備え、照合部において入力された音声信号
と単語辞書が音響的にどの程度近いかを示す音響スコア
に単語辞書記憶部に記憶されているその単語の使用頻度
スコアを規定の割合で加算して距離値とするものであ
る。

【００１８】また次の発明に係る音声認識装置は、使用
頻度スコア計算部は使用頻度スコアが規定の下限値より
小さくならないように設定するものである。

【００１９】また次の発明に係る音声認識装置は、人口
を含む既存のデータベースから同じふり仮名を持つ姓名
を表す単語の頻度から演算した値を上記単語の使用頻度
とみなす使用頻度推定部を備えるものである。

【００２０】また次の発明に係る音声認識装置は、使用
頻度推定部はふり仮名をローマ字表記したものが「Ｏ
Ｕ」を含む時、規定の割合で「ＯＯ」に置き換えた読み
がされるとし、元の単語の使用頻度を規定の割合で減ず
ると共に、新たに「ＯＵ」を「ＯＯ」で置き換えた単語
を加え、その新たな単語の使用頻度を元の単語の使用頻
度の規定の割合とするものである。

【００２１】また次の発明に係る音声認識装置は、使用
頻度推定部はふり仮名をローマ字表記したものが「Ｅ
Ｉ」を含む時、規定の割合で「ＥＥ」に置き換えた読み
がされるとし、元の単語の使用頻度を規定の割合で減ず
ると共に、新たに「ＥＩ」を「ＥＥ」で置き換えた単語
を加え、その新たな単語の使用頻度を元の単語の使用頻
度の規定の割合とするものである。

【００２２】また次の発明に係る音声認識装置は、使用
頻度推定部は任意の規定の割合で母音及び撥音が長音化
されるものとし、元の単語の使用頻度を規定の割合で減
ずると共に、新たに母音及び撥音を長音化したもので置
き換えた単語を加え、その新たな単語の使用頻度を元の
単語の使用頻度の規定の割合とするものである。

【００２３】また次の発明に係る音声認識装置は、使用
頻度推定部は任意の規定の割合で音節毎に区切られるも
のとし、元の単語の使用頻度を規定の割合で減ずると共
に、音節毎に区切られた単語を加え、その新たな単語の
使用頻度を元の単語の使用頻度の規定の割合とするもの
である。

【００２４】また次の発明に係る音声認識装置は、使用
頻度推定部は任意の規定の割合で促音が「つ」と発声さ
れるものとし、元の単語の使用頻度を規定の割合で減ず
ると共に、促音が「つ」と発声された単語を加え、その
新たな単語の使用頻度を元の単語の使用頻度の規定の割
合とするものである。

【００２５】また次の発明に係る音声認識装置は、使用
頻度推定部は規定の基準においてデータベースの内容を
分類して、それぞれの分類毎に使用頻度を推定し、使用
頻度スコア計算部は分類毎に使用頻度スコアを演算し、
また同じ規定の基準において分類された話者の音声信号
より学習された標準パターンをもって、未知の話者の音
声信号の話者識別を行い話者がどの分類に近いかを示す
話者識別スコアを出力する話者識別部を備え、照合部は
話者識別スコアとその分類における単語の使用頻度スコ
アと単語の音響スコアを任意の規定の割合で加算して照
合結果とするものである。

【００２６】

【発明の実施の形態】以下図面を参照しながら、この発
明の実施の形態を説明する。

【００２７】実施の形態１．図９との対応する部分に同
一符号を付けた図１に、この発明による実施の形態１の
音声認識装置を示す。図９について上述した従来の音声
認識装置と同様に、音響分析部１は入力される音声信号
Ｓ１を一定時間毎に音響分析し、特徴パラメータベクト
ルＳ２と音声信号のパワーＳ３に変換し出力する。音声
区間検出部２は音響分析部１から受け取る音声信号のパ
ワーＳ３の変化により音声信号Ｓ１の音声区間を検出
し、音声区間の検出状況の変化により音声区間検出信号
Ｓ４を出力する。

【００２８】照合部３は音声区間検出信号Ｓ４の指示に
従い音響分析部１から受け取る特徴パラメータベクトル
の時系列のうち音声区間のものと、単語辞書記憶部１０
から読み出される順番でスコア付単語辞書Ｓ１２との照
合を行い、入力された音声信号Ｓ１とスコア付単語辞書
Ｓ１２がどの程度近いかを示す音響スコアと使用頻度ス
コアをある規定の割合で加え距離値Ｓ５として順次出力
する。ここでこの実施の形態１の場合、頻度付単語辞書
記憶部７は認識対象単語の読みを表すラベルと使用頻度
を表す情報を収め、使用頻度スコア計算部１１は頻度付
単語辞書記憶部７の使用頻度を表す情報に従い頻度付き
単語辞書Ｓ８に使用頻度スコアを付加し、使用頻度の高
い順番にスコア付単語辞書Ｓ１１として出力する。単語
辞書記憶部１０は使用頻度の高い順番にスコア付単語辞
書Ｓ１１を記憶する。

【００２９】結果出力部４は音声区間検出信号Ｓ４又は
外部から入力される出力要求信号Ｓ９が入力された時、
既に受け取った距離値Ｓ５のうちまだ出力していないも
のをソーティングして距離値Ｓ５の小さな１つ又は複数
の単語を認識結果Ｓ１０として出力する。

【００３０】この様な構成の音声認識装置の動作につい
て説明する。認識に先立って、使用頻度スコア計算部１
１では頻度付単語辞書記憶部７の内容を読みだし、使用
頻度からスコア付単語辞書Ｓ１１を求め、使用頻度の高
い順番に単語辞書記憶部１０に記憶する。この使用頻度
スコアの与えかたとしては、例えば次式のような演算式
により求める方法がある。

【００３１】

【数１】

【００３２】式（１）においてｗは単語、Ｐ（ｗ）は単
語ｗの使用頻度を確率で表したもの、Ｓ（ｗ）は単語ｗ
の使用頻度スコアである。Ｓ（ｗ）は使用頻度が高い単
語には小さな値、使用頻度の大きな単語には大きな値と
なる。しかし、あまりに使用頻度が小さすぎると使用頻
度スコアが非常に大きな値となり、どんなに丁寧に発声
しても結果出力部４において上位の認識結果として出力
されなくなるため、使用頻度スコアの下限値を設けるこ
とにより、非常に使用頻度の少ない単語でも、音響スコ
アが小さければ認識結果として出力することが可能とな
る構成としても良い。

【００３３】この音声認識装置の認識時の動作について
説明する。音響分析部１、音声区間検出部２、結果出力
部４の動作は、図９〜図１１について説明した従来の音
声認識装置と同様のためここでは説明を省略する。ここ
ではこの実施の形態１の特徴である照合部３の動作につ
いて説明する。照合部３では従来の音声認識装置と同様
に単語辞書記憶部１０のスコア付単語辞書Ｓ１２を順番
に読みだしパターン照合を行うが、次式に示すように音
響スコアＤ（ｗ）に対し使用頻度スコアＳ（ｗ）を重み
Ｒで加える。

【００３４】

【数２】

【００３５】これにより、使用頻度スコアの低い単語は
認識しやすくし、スコアの高い単語は認識しづらくす
る。すなわち、使用頻度の高い単語は認識しやすくし、
使用頻度の低い単語は認識しづらくする効果を与える。
この実施の形態１によれば、図１１について上述した認
識実験と同じ条件による認識実験を行った結果、57,711
単語を認識対象語彙とした時の誤り率を63.4％から32.1
％に改善できた。

【００３６】実施の形態２．上述の実施の形態１では、
使用頻度スコア計算部１１の機能として使用頻度の高い
順番に並べて単語辞書記憶部１０に収めるとして説明を
したが、Ｈ／Ｗが十分に速く全単語候補に対するパター
ン照合が高速に処理可能な場合や、加えて、「孤立単語
音声認識における全探索法・ビームサーチ法・Ａ＊探索
法の比較」（平成８年度春季日本音響学会講演論文集、
２−５−１０、伊田正樹、中川聖一著）に記載されてい
るビームサーチ法や枝刈り法に代表される演算量削減策
を講じることにより、図１０におけるフレームＴ５まで
にパターン照合で全候補の照合結果を得られる場合に
は、従来の音声認識装置のように分割してパターン照合
を行う必要はなく、加えて使用頻度スコア計算部１１の
機能として使用頻度の高い順番に並べて単語辞書記憶部
７に収める必要はない。

【００３７】このような高速にパターン照合の処理が可
能な照合部３を有する音声認識装置を実施の形態２に示
す。この音声認識装置の構成は実施の形態１と同様なの
で、ここでは説明を省略する。このような構成の音声認
識装置の動作について説明する。認識に先立って、使用
頻度スコア計算部１１では頻度付単語辞書記憶部７の内
容を読み出し、使用頻度からスコア付単語辞書Ｓ１１を
求め、単語辞書記憶部１０に記憶する。単語辞書記憶部
１０には使用頻度の高い順番に並べることは必要なくラ
ンダムに並べて良い。この使用頻度スコアの与え方とし
ては、上述した実施の形態１と同様である。

【００３８】音響分析部１、音声区間検出部２の動作
は、図９〜図１１について上述した従来の音声認識装置
と同様であり、ここでは説明を省略する。図２はこの実
施の形態２に基づく音声認識装置の動作を説明するタイ
ミングチャートである。以下この図２を用いて、照合部
３及び結果出力４の動作について説明する。フレームＴ
５より前の処理は従来の音声認識装置と同様である。こ
の実施の形態２による照合部３では十分に処理能力が高
いため、フレームＴ５以前にパターン照合の処理を終了
している。そのためフレームＴ５において、結果出力部
４は音声区間検出部２の音声区間検出信号Ｓ４としての
終端確定信号により、照合部３から転送された距離値Ｓ
５をソーティングして複合スコアの小さい１つ又は複数
の単語の認識結果Ｓ１０として出力する。さらに外部か
らの出力要求信号Ｓ９があった場合には、先に出力した
認識結果Ｓ１０を除いて、さらに距離値Ｓ５の小さい１
つ又は複数の単語を認識結果Ｓ１０として出力する。

【００３９】実施の形態３．上述した実施の形態１、実
施の形態２では単語の終端候補が定まった後、一単語づ
つパターン照合を行う方式の音声認識装置について述べ
てきたが、フレーム同期型パターン照合を行う照合部３
を用いても、同様の効果を実現できる。フレーム同期型
パターン照合は全単語辞書に対するパターン照合を同時
に進めて行く方法である、一単語づつパターン照合を行
う方法に比べ、ワークメモリ量は大きく増加するという
欠点はあるが、音声入力と平行してパターン照合を行え
るため、パターン照合を効率的に行えるという特徴を持
つ。フレーム同期パターンパターン照合は、例えば「フ
レーム同期化、ビームサーチ、ベクトル量子化の統合に
よるＤＰマッチングの高速化」（電子通信学会論文誌
Ｄ、Vol.J71-D,No.9,pp1650-1659、迫江博昭、藤井浩
美、吉田和永、亘理誠夫共著）等に記述されている方法
を用いる。

【００４０】このような音声認識装置の構成は実施の形
態１の構成と同じであり、ここでは説明を省略する。こ
の実施の形態３としての音声認識装置の動作について説
明する。音響分析部１及び音声区間検出部２の動作は実
施の形態２と同じなので、ここでは説明を省略する。照
合部３及び結果出力部４の動作について、図３を用いて
説明する。まず照合部３の動作について、照合部３は音
声区間検出部２からの音声区間検出信号Ｓ４の１つであ
る始端信号によりパターン照合処理を開始し、音声区間
検出信号Ｓ４の１つである終端確定信号により動作を終
了する。

【００４１】距離値Ｓ５は毎フレームにおいて照合部３
から出力される。結果出力部４は音声区間検出信号Ｓ４
の１つである終端候補信号により、終端候補のフレーム
の距離値Ｓ５をソーティングし、音声区間検出信号Ｓ４
の１つである終端確定信号により距離値１１の小さな１
つ又は複数の単語を認識結果Ｓ１０として出力する。図
３には、フレームＴ２、Ｔ４の２つの終端候補信号があ
るが、フレームＴ５において出力するのは、フレームＴ
４において得られた認識結果Ｓ１０である。このように
フレーム同期型のパターン照合を行うことにより、従来
の音声認識装置では演算を行っていなかったフレームＴ
１からフレームＴ２及びフレームＴ３からフレームＴ４
においても照合部３の処理を行うことができ、効率的な
音声認識装置を実現できる。

【００４２】実施の形態４．上述の説明では使用頻度が
既知の単語について述べたが、音声認識装置をある程度
運用すれば、使用頻度が得られる場合があるが、運用初
期の段階では使用頻度を得ることは難しい場合が多い。
しかし、例えば自治体にある住民台帳や企業の持つ顧客
データベースや社員データベースには、住所、姓名、電
話番号、性別、年齢等が記録されている。そのため例え
ば、住民に対する情報サービスシステムなどでは、住民
台帳の内容から単語の使用頻度が推定できる。つまり人
口の割合の多い住所、姓名、電話番号等の単語は使用頻
度は高いと推定する。企業の持つ顧客データベースや社
員データベースに対しても同様の推定が可能である。こ
の実施の形態４では、姓をひとつの例として使用頻度を
推定する音声認識装置について説明する。

【００４３】この実施の形態４による音声認識装置の構
成を図１との対応部分に同一符号を付けて図４に示す。
図４において、音響分析部１、音声区間検出部２、照合
部３、結果出力部４、頻度付単語辞書記憶部７、使用頻
度スコア計算部１１、単語辞書記憶部１０は実施の形態
３と同様なので、ここでは説明を省略する。図におい
て、データベース１２は住民の姓が含まれているデータ
ベースであり、この中には姓に対してかな文字でふり仮
名がふられているものとする。また使用頻度推定部１３
はデータベース１２から名の頻度情報と読みを生成する
ものである。さらにＳ１３は姓情報、Ｓ１４は頻度付き
単語辞書である。

【００４４】頻度付単語辞書記憶部７の推定方法につい
て説明する。まずデータベース１２を検索して、同じふ
り仮名を持つ姓をひとつの単語ｗとして、単語ｗに対す
る人口Ｎ（ｗ）を調べる。異なる漢字であってもふり仮
名が同じであれば同一の単語ｗとして計数する。そして
そのような姓を持つ人が多ければ、その姓の使用頻度も
高いと推定し、使用頻度Ｐ（ｗ）を次式で求める。

【００４５】

【数３】

【００４６】式（３）において、ALLNはそのデータベー
ス１２に含まれる全人口である。単語の読みはデータベ
ース１２に含まれる読みを用いる。その後のスコア付単
語辞書Ｓ１１の作成方法や音響分析部１、音声区間検出
部２、照合部３、結果出力部４の動作は実施の形態３に
等しいのでここでは説明を省略する。

【００４７】実施の形態５．上述した実施の形態４では
頻度付単語辞書記憶部７の単語の読みをデータベース１
２に含まれるふり仮名を用いる例を述べたが、一般的に
データベース１２に含まれるふり仮名は書く時のかな文
字がふられており、音声認識装置に入力される発声とは
一致しない場合がある。例えばデータベース１２におけ
る「佐藤」のかな文字表記は「さとう」であるが、約80
％の人はこれを「さとー」と長音で発声する。残り約15
％の人は文字通り「さとう」と発声する。「さ、と、
う」と区切って発声する人も存在する。これらは全て
「佐藤」と音声認識すべきなので、自動的にこれらの単
語を加え、使用頻度を推定することにより、認識率を向
上させることが可能となる。

【００４８】この実施の形態５の音声認識装置の構成は
実施の形態４の図４に等しいので、ここでは説明を省略
する。ただし、図４の使用頻度推定部１３の動作は実施
の形態４に示したものとは異なり、単語の変形規則を用
いて同じふり仮名に対する異なる読み方の単語を追加す
る機能を持つ。以下この実施の形態５における使用頻度
推定部１３の動作を説明する。図５はこの発明における
使用頻度推定部１３の動作を示す流れ図である。図にお
いて処理は「ＳＴＡＲＴ」から始まり「ＥＮＤ」で終
る。まず図中ステップＳＴ１においてローマ字表記で
「ＯＵ」が含まれる単語に対しては、ステップＳＴ２に
おいて「ＯＵ」を「ＯＯ」に変えた単語を追加する。使
用頻度はもとの単語の値に対し 0.8の倍率を乗ずる。も
との「ＯＵ」を含む単語の使用頻度は 0.2の倍率を乗じ
る。

【００４９】次にステップＳＴ３において、ローマ字表
記で「ＥＩ」が含まれる単語に対しては、ステップＳＴ
４において「ＥＩ」を「ＥＥ」に変えた単語を追加す
る。使用頻度は元の単語の確率に対し 0.7の倍率を乗ず
る。元の「ＥＩ」を含む単語の使用頻度は 0.3の倍率を
乗じる。またステップＳＴ５において、促音を含む単語
であったなら人により促音を「つ」と発声することがあ
るため、ステップＳＴ６において促音を「つ」に変えた
単語を追加する。使用頻度は元の単語の値に対し、0.05
の倍率を乗じる。元の促音を含む単語の使用頻度は、0.
95の倍率を乗じる。

【００５０】次にステップＳＴ７において、全単語に対
し長音化した単語と切断化した単語を追加する。元の単
語の使用頻度に対し長音化した単語は 0.1の倍率を乗
じ、切断化した単語には0.05の倍率を乗じ使用頻度とす
る。元の単語の使用頻度は0.85の倍率を乗じて変更す
る。ただし、母音及び撥音の長音化においては最後の音
節は長音化しない場合もあるため、このような変形規則
を用いても良い。

【００５１】このような構成の音声認識装置による具体
的な処理結果を示す。図６はあるデータベース１２を用
いたときの実施の形態４に示された使用頻度推定部１３
で推定される単語と使用頻度であるとする。これに対
し、この実施の形態５における使用頻度推定部１３では
図７に示す２０個の単語が推定される。図７において、
ハイフン（−）は母音及び撥音が長音化されていること
を示し、点（・）は音節が切断されていることを示す。
母音及び撥音の長音化では、最期の音節は長音化しない
という変形規則を用いている。

【００５２】各単語の使用頻度は、図５の流れに従い規
定の倍率を掛けられている。例えば「あべ」は図５のス
テップＳＴ７の規則を適用されて母音が長音化された
「あーべ」と音節毎に切断された「あ・べ」が追加され
る。使用頻度は元の使用頻度 0.04598に対し「あべ」が
0.85倍、「あーべ」が0.10倍、「あ・べ」が0.05倍され
ている。ただし、「にった」に関しては音節毎に切断さ
れた単語と、もとの単語が同じとなるため、「にった」
の使用頻度が0.90倍されている。

【００５３】このようにこの実施の形態５によれば、デ
ータベース１２のふり仮名から、様々な発声の変形とそ
の使用頻度を推定するため、良好な認識性能を示す音声
認識装置を実現できる。なお上述の倍率の値は任意の調
査結果から経験的に求めたものであるが、これらはデー
タベースに応じて変更しても良い。

【００５４】実施の形態６．データベースの内容におい
て人口に偏りがある場合がある。例えば名前では男性、
女性で人口が異なる。そのため、音声信号が男性か女性
かの情報を追加すればさらに認識性能を高めることがで
きる。この実施の形態６の音声認識装置の構成を図８に
示す。図において、音響分析部１、音声区間検出部２、
照合部３、結果出力部４、頻度付単語辞書記憶部７、使
用頻度スコア計算部１１、単語辞書記憶部１０、データ
ベース１２、使用頻度推定部１３の構成は、上述した実
施の形態５と同様である。

【００５５】図８において話者識別部１４は音声区間検
出部２からの音声区間検出信号Ｓ４に従い、音響分析部
１からの特徴パラメータベクトルＳ２を比較し話者識別
を行うものである。ここでは話者識別の対象を、男性、
女性として、性別により姓名のうち名前を男性、女性で
分類して記憶しておくことを一例として説明する。

【００５６】まず、認識に先立ち使用頻度推定部１３で
は、データベース１２の同じ名前に対し男性、女性に分
けて別の単語として頻度付き単語辞書Ｓ１４を作成す
る。以下、使用頻度スコア計算部１１でも、別々の単語
としてスコアを計算し、単語辞書記憶部１０に格納す
る。これにより、頻度付単語辞書記憶部７、単語辞書記
憶部１０の記憶量は２倍になる。また話者識別部１４に
は話者識別のための標準パターンが入れられる。話者識
別の方法としては多くのものが提案されているが、ここ
ではベクトル量子化を用いる方法を一例として説明す
る。

【００５７】話者識別部１４には男性用を１、女性用を
２としてそれぞれＭ個の標準パターンを用意する。この
標準パターンは男性、女性それぞれの音声信号からＬＢ
Ｇ（Linde Buzo Gray ）アルゴリズム等を用いて学習さ
れる。性別ｉのｍ番目の標準パターンをＭ（ｉ，ｍ）、
フレームｔの特徴パラメータベクトル９をＬ（ｔ）とす
ると、話者識別スコア２７であるＳ２（ｉ）は、次式の
演算式で求められる。

【００５８】

【数４】

【００５９】式（４）において、次式

【００６０】

【数５】

【００６１】は要素Ｘ（ｍ）のｍ＝１、Ｍに関する最小
値を意味する。また、

【００６２】

【数６】

【００６３】はＭ（ｉ，ｍ）とＬ（Ｔ）の距離値を意味
する。式（４）の演算はフレームＴ４においてまとめて
行うことも可能であるし、フレームＴ１からフレーム同
期的に行うことも可能である。フレームＴ１、Ｔ４は音
声区間検出信号Ｓ４として通知される。このようにして
得られた話者識別スコアＳ１５は照合部３においてＲ２
の割合で音響スコアと使用頻度スコアに加えられ、男性
用のものと女性用のものと小さなほうが最終的な照合結
果となる。

【００６４】

【数７】

【００６５】式（７）においてＤ（ｗ）、Ｒは式（２）
で用いたものと同じであり、Ｓ１（ｉ，ｗ）は性別ｉの
単語ｗに対する使用頻度スコアである。

【００６６】上述の説明では話者識別部１４の標準パタ
ーンを単語辞書記憶部１０の標準パターンとは別のもの
として説明したが、男性用、女性用の単語辞書記憶部１
０の標準パターンを持つマルチテンプレートの音声認識
装置では、これを話者識別用に流用することも可能であ
り、このような構成でも上述と同様の効果を実現でき
る。また上述の説明では性別により話者識別を行う例を
述べたが、年齢や日本人名か英語名かの言語などにより
データベース１２を分類して話者識別を行うことも可能
であり、同様に効果を実現できる。

【００６７】

【発明の効果】以上のようにこの発明によれば、単語の
使用頻度から計算した使用頻度スコアを音響スコアに規
定の割合で加えて距離値を得るため、頻度の多い単語の
認識性能を高めることができ、大語彙の場合でも全体と
して認識率を格段的に向上し得る音声認識装置を実現で
きる。

【００６８】また次の発明によれば、非常に使用頻度の
低い単語のスコアの下限値を設けたため、極めて使用頻
度の低い単語でも音響スコアが良好であれば、上位の認
識結果とでき、かくするにつき、大語彙の場合でも全体
として認識率を格段的に向上し得る音声認識装置を実現
できる。

【００６９】また次の発明によれば、既存のデータベー
スから使用頻度を推定できるため、使用頻度が明確でな
い単語に対しても、使用頻度スコアを設定でき、かくす
るにつき、大語彙の場合でも全体として認識率を格段的
に向上し得る音声認識装置を実現できる。

【００７０】また次の発明によれば、既存のデータベー
スのふり仮名にローマ字表記で「ＯＵ」を含む単語があ
る時、これを「ＯＯ」と変更した単語を追加し、使用頻
度を規定の割合で設定するため、ふり仮名とは異なる発
声をされた場合も認識でき、かくするにつき、大語彙の
場合でも全体として認識率を格段的に向上し得る音声認
識装置を実現できる。

【００７１】また次の発明によれば、既存のデータベー
スのふり仮名にローマ字表記で「ＥＩ」を含む単語があ
る時、これを「ＥＥ」と変更した単語を追加し、使用頻
度を規定の割合で設定するため、ふり仮名とは異なる発
声をされた場合も認識でき、かくするにつき、大語彙の
場合でも全体として認識率を格段的に向上し得る音声認
識装置を実現できる。

【００７２】また次の発明によれば、既存のデータベー
スのふり仮名に対し母音を長音化した単語を追加し、使
用頻度を規定の割合で設定するため、ふり仮名とは異な
る発声をされた場合も認識でき、かくするにつき、大語
彙の場合でも全体として認識率を格段的に向上し得る音
声認識装置を実現できる。

【００７３】また次の発明によれば、既存のデータベー
スのふり仮名に対し音節毎に区切られた単語を追加し、
使用頻度を規定の割合で設定するため、ふり仮名とは異
なる発声をされた場合も認識でき、かくするにつき、大
語彙の場合でも全体として認識率を格段的に向上し得る
音声認識装置を実現できる。

【００７４】また次の発明によれば、既存のデータベー
スのふり仮名に促音を含む単語がある時、これを「つ」
と変更した単語を追加し、使用頻度を規定の割合で設定
するため、ふり仮名とは異なる発声をされた場合も認識
でき、かくするにつき、大語彙の場合でも全体として認
識率を格段的に向上し得る音声認識装置を実現できる。

【００７５】また次の発明によれば、規定の基準におい
てデータベースの内容を分類して使用頻度を推定し、認
識時には話者照合を行い、話者照合スコアを使用頻度ス
コアと音響スコアにある割合で加えるため、良好な認識
性能を得ることができ、かくするにつき、大語彙の場合
でも全体として認識率を格段的に向上し得る音声認識装
置を実現できる。

【図面の簡単な説明】

【図１】この発明による音声認識装置の実施の形態１
の構成を示すブロック図である。

【図２】この発明による音声認識装置の実施の形態２
の動作の説明に供するタイミングチャートである。

【図３】この発明による音声認識装置の実施の形態３
の動作の説明に供するタイミングチャートである。

【図４】この発明による音声認識装置の実施の形態４
の構成を示すブロック図である。

【図５】この発明による音声認識装置の実施の形態５
の使用頻度推定部の動作を示すフローチャートである。

【図６】この発明による音声認識装置の実施の形態４
の使用頻度推定部の処理結果の説明に供する図表であ
る。

【図７】この発明による音声認識装置の実施の形態５
の使用頻度推定部の処理結果の説明に供する図表であ
る。

【図８】この発明による音声認識装置の実施の形態６
の構成を示すブロック図である。

【図９】従来の音声認識装置の構成を示すブロック図
である。

【図１０】図９の音声認識装置における音声区間検出
部の動作の説明に供するタイミングチャートである。

【図１１】従来の音声認識装置による認識性能の説明
に供する特性曲線図である。

【符号の説明】

１音響分析部２音声区間検出部３照合部４結果出力部５単語辞書記憶部６単語辞書ソーティング部７頻度付単語辞書記憶部１０単語辞書記憶部１１使用頻度スコア計算部１２データベース１３使用頻度推定部１４話者識別部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/18 G10L 15/10

Claims

(57)【特許請求の範囲】

【請求項１】姓名を発話した音声信号を入力し、一定
時間毎に音響分析し、特徴パラメータベクトルと音声信
号のパワーとに順次変換し出力する音響分析部と、当該
音響分析部から受け取る上記音声信号のパワーの変化に
より上記音声信号の音声区間を検出し、当該音声区間の
検出状況の変化により音声区間検出信号を出力する音声
区間検出部と、上記音声区間検出信号の指示に従い上記
音響分析部から出力される上記特徴パラメータベクトル
の時系列のうち上記音声区間の部分と単語辞書記憶部に
記憶されている単語辞書との照合を行い、入力された上
記音声信号と上記単語辞書とのパターン照合を行い、距
離値として出力する照合部と、上記音声区間検出信号に
より指示された時、既に受け取った上記距離値をソーテ
ィングして上記距離値の小さな１つ又は複数の単語を認
識結果として出力する結果出力部とを有する音声認識装
置において、認識対象単語の標準パターンと予め人口に
基づき姓名を表す単語の使用頻度を表す情報を納める頻
度付単語辞書記憶部と、当該頻度付単語辞書記憶部の使
用頻度を表す情報から使用頻度の高いものほど小さな値
となる使用頻度スコアを計算し、上記単語辞書記憶部に
記憶する使用頻度スコア計算部とを備え、上記照合部に
おいて入力された上記音声信号と単語辞書が音響的にど
の程度近いかを示す音響スコアに上記単語辞書記憶部に
記憶されているその単語の上記使用頻度スコアを規定の
割合で加算して距離値とすることを特徴とする音声認識
装置。
【請求項２】上記使用頻度スコア計算部は上記使用頻
度スコアが規定の下限値より小さくならないように設定
することを特徴とする請求項１に記載の音声認識装置。
【請求項３】人口を含む既存のデータベースから同じ
ふり仮名を持つ姓名を表す単語の頻度から演算した値を
上記単語の使用頻度とみなす使用頻度推定部を備えるこ
とを特徴とする請求項１に記載の音声認識装置。
【請求項４】上記使用頻度推定部はふり仮名をローマ
字表記したものが「ＯＵ」を含む時、規定の割合で「Ｏ
Ｏ」に置き換えた読みがされるとし、元の上記単語の使
用頻度を上記規定の割合で減ずると共に、新たに上記
「ＯＵ」を上記「ＯＯ」で置き換えた単語を加え、当該
新たな単語の使用頻度を元の上記単語の使用頻度の上記
規定の割合とすることを特徴とする請求項３に記載の音
声認識装置。
【請求項５】上記使用頻度推定部はふり仮名をローマ
字表記したものが「ＥＩ」を含む時、規定の割合で「Ｅ
Ｅ」に置き換えた読みがされるとし、元の上記単語の使
用頻度を上記規定の割合で減ずると共に、新たに上記
「ＥＩ」を上記「ＥＥ」で置き換えた単語を加え、当該
新たな単語の使用頻度を元の上記単語の使用頻度の上記
規定の割合とすることを特徴とする請求項３に記載の音
声認識装置。
【請求項６】上記使用頻度推定部は任意の規定の割合
で母音及び撥音が長音化されるものとし、元の上記単語
の使用頻度を上記規定の割合で減ずると共に、新たに上
記母音及び撥音を長音化したもので置き換えた単語を加
え、当該新たな単語の使用頻度を元の上記単語の使用頻
度の規定の割合とすることを特徴とする請求項３に記載
の音声認識装置。
【請求項７】上記使用頻度推定部は任意の規定の割合
で音節毎に区切られるものとし、元の単語の使用頻度を
上記規定の割合で減ずると共に、上記音節毎に区切られ
た単語を加え、当該新たな単語の使用頻度を元の上記単
語の使用頻度の規定の割合とすることを特徴とする請求
項３に記載の音声認識装置。
【請求項８】上記使用頻度推定部は任意の規定の割合
で促音が「つ」と発声されるものとし、元の単語の使用
頻度を上記規定の割合で減ずると共に、促音が「つ」と
発声された単語を加え、当該新たな単語の使用頻度を元
の上記単語の使用頻度の上記規定の割合とすることを特
徴とする請求項３に記載の音声認識装置。
【請求項９】上記使用頻度推定部は規定の基準におい
てデータベースの内容を分類して、それぞれの分類毎に
使用頻度を推定し、上記使用頻度スコア計算部は上記分
類毎に使用頻度スコアを演算し、また同じ規定の基準に
おいて分類された話者の音声信号より学習された標準パ
ターンをもって、未知の話者の音声信号の話者識別を行
い上記話者がどの分類に近いかを示す話者認識別スコア
を出力する話者識別部を備え、上記照合部は上記話者識
別スコアと当該分類における単語の使用頻度スコアと単
語の音響スコアを任意の規定の割合で加算して照合結果
とすることを特徴とする請求項３に記載の音声認識装
置。