JPH1138991A - 装着形マイクロホンを用いた音声認識装置 - Google Patents

装着形マイクロホンを用いた音声認識装置

Info

Publication number
JPH1138991A
JPH1138991A JP9193436A JP19343697A JPH1138991A JP H1138991 A JPH1138991 A JP H1138991A JP 9193436 A JP9193436 A JP 9193436A JP 19343697 A JP19343697 A JP 19343697A JP H1138991 A JPH1138991 A JP H1138991A
Authority
JP
Japan
Prior art keywords
voice
feature parameter
section
sound
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9193436A
Other languages
English (en)
Inventor
Yoshitake Suzuki
義武 鈴木
Yoshio Nakadai
芳夫 中台
Yutaka Nishino
豊 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9193436A priority Critical patent/JPH1138991A/ja
Publication of JPH1138991A publication Critical patent/JPH1138991A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 騒音環境下における音声認識性能を、発声者
の自由度を制限することなく、また装置増大させること
なく達成することである。 【解決手段】 気導マイクロホン201で受音した音響
記号から特徴パラメータを抽出し、骨導マイクロホン2
06で受音した音響信号から音声区間に関する情報を抽
出し、一方あらかじめ別に受音した音響信号からあらか
じめ定めた単位で抽出され音声パターン辞書メモリ21
2に記憶された特徴パラメータと前記気導マイクロホン
201の音響信号から得られた特徴パラメータとの間の
類似度をパターン照合部213で算出して、一番類似度
の高い特徴パラメータに対応するデータを認識結果とし
て出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、騒音環境下でも認
識性能の高い装着形マイクロホンを用いた音声認識装置
に関するものである。
【0002】
【従来の技術】音声認識装置において、入力された音声
信号から音声区間の情報を正確に抽出して利用すること
は、音声認識性能の向上のために重要である。いま、簡
易な単語音声認識装置を例にとれば、発声された音声の
区間(開始点から終了点まで)を正しく検出する必要が
ある。なぜならば音声区間の正しい検出が行われない
と、あらかじめ辞書に音声パターンとして登録されてい
る単語と同一の単語を発声したとしても、語頭あるいは
語尾の欠落等により、同一の音声パターンとしてではな
く、その他の単語の音声パターンとして誤認識されてし
まう可能性が高まるためである。ところで、音声区間検
出精度を低下させる大きな要因として、種々の環境騒音
があげられる。具体的には、空調機のダクトノイズ,ド
アの開閉音など、様々である。この中で、空調機のダク
トノイズは、その音質,パワーともに長時間にわたり変
化が少ない。一方、ドアの開閉音は短時間内で消失する
ため、その間の音質,パワーの変化が大きい。
【0003】従来より、騒音環境下における音声認識性
能を向上させる技術として、音声入力を許可する前に予
め周囲騒音のパワーを測定し、その値を用いてしきい値
を設定しておき、その後に音声入力を許可する方法がと
られていた。その一例として、単語音声認識装置の構成
を図4を用いて説明する。
【0004】図4で、101は音響信号受音用のマイク
ロホン、102はアナログ/デジタル変換部、103は
サンプリングデータバッファ、104は特徴パラメータ
抽出部、105は特徴パラメータバッファ、106はパ
ワー算出部、107は音声区間検出部、108は信号路
切替器、109は音声パターン辞書メモリ、110はパ
ターン照合部、111は認識結果出力部である。
【0005】次に、図4の動作について説明する。動作
を機能的に大きく分けると、音声が未入力の状態での騒
音レベルを測定して、音声区間検出のしきい値を決定す
る「騒音測定」、認識対象とすべき単語を発声し、抽出
された音声パターンを音声パターン辞書メモリに登録す
る「音声登録」、および発声された音声と既登録の辞書
中の音声パターンとを照合し、その結果を出力する「音
声認識」とからなる。
【0006】(1)騒音測定 マイクロホン101で受音されたアナログ信号は、アナ
ログ/デジタル変換部102で適切な周波数でサンプリ
ングされ、デジタル信号に変換される。ここで、適切な
周波数とは、音声認識処理に必要となる音声の特徴を損
なわない周波数であり、通常は8キロヘルツから12キ
ロヘルツに設定される。次に、デジタル信号はサンプリ
ングデータバッファ103に逐次格納される。サンプリ
ングデータバッファ103に記憶されたデータは、20
ないし30ミリ秒毎の単位で逐次処理される。この20
ないし30ミリ秒の期間をフレームと称する。パワー算
出部106では、フレーム毎に音響パワーが算出され、
パワー値が音声区間検出部107に入力される。音声区
間検出部107では、フレーム毎に算出されるパワーを
適切なフレーム数にわたって累積加算し、さらにフレー
ム当たりの平均値を算出する。ここで適切な定数を加算
した値を、音声区間検出のためのしきい値とする。
【0007】(2)音声登録 騒音測定が終了した時点で音声入力が可能となる。マイ
クロホン101で受音されたアナログ信号は、アナログ
/デジタル変換部102でデジタル信号に変換され、サ
ンプリングデータバッファ103に逐次格納される。サ
ンプリングデータバッファ103に20ないし30ミリ
秒分のデータが格納される毎に、すなわちフレーム毎に
パワー算出部106によりデータのパワーが、また特徴
パラメータ抽出部104により特徴パラメータが算出さ
れる。特徴パラメータは、特徴パラメータバッファ10
5に逐次格納される。音声区間検出部107により、パ
ワー値の系列をラベル系列に変換する。ここでしきい値
を複数設定し、よってラベルも複数種類あってもよい。
次に、ラベル系列の遷移状態により、音声の開始フレー
ムおよび終了フレームを検出する。音声登録時には、信
号路切替器108は特徴パラメータバッファ105から
音声パターン辞書メモリ109に接続される。ここで検
出された音声開始フレームから音声終了フレームまでに
相当する特徴パラメータを特徴パラメータバッファ10
5から信号路切替器108を経由して音声パターン辞書
メモリ109に転送することにより、音声パターンとし
て登録することができる。
【0008】なお、上記パワー値は、具体的には16ビ
ット程度のデジタルデータである。ただし音声区間検出
の判定のためには16ビットもの精度は必要ないため、
これをデータの値に応じて数個の数字や記号に変換す
る。「ラベル」とは、変換された数字や記号と同じ意味
である。
【0009】具体的な変換方法の一例を以下に示す。
【0010】 P=パワー値(例えば16ビットのデータ)、 P1=ラベルへ変換するためのしきい値1、 P2=ラベルへ変換するためのしきい値2で、P1<
P、 L0=ラベル0(例えば“0”)、 L1=ラベル1(例えば“1”)、 L2=ラベル2(例えば“2”) としたとき、P<P1ならば、ラベルはL0、P1≦P
<P2ならば、ラベルはL1、P2≦Pならば、ラベル
はL2となる。
【0011】こうすることにより、フレーム毎に算出さ
れるパワー値系列をラベル系列に変換することができ
る。
【0012】(3)音声認識 マイクロホン101から特徴パラメータバッファ105
までの構成は音声登録時と同一であるため、動作も同一
となる。音声認識時には信号路切替器108はパターン
照合部110に接続される。マイクロホン101で受音
されたアナログ信号は、上記(2)音声登録と同一の処
理により、フレーム毎に計算された特徴パラメータ系列
として、特徴パラメータバッファ105に格納される。
また、パワー算出部106でフレーム毎に算出されたパ
ワーの系列に基づいて、音声区間検出部107では音声
開始フレームおよび音声終了フレームが決定される。音
声パターン辞書メモリ109には、上記(2)に述べた
ように、認識対象となる各単語についての音声開始フレ
ームから音声終了フレームまでの特徴パラメータが登録
されている。したがって、パターン照合部110への入
力パターンとして、特徴パラメータバッファ105中の
音声開始フレームから音声終了フレームまでの特徴パラ
メータを与え、参照用パターンとして、音声パターン辞
書メモリ109に格納された音声パラメータを単語毎に
順次与えることにより、両パターンの照合を順次行うこ
とができる。入力パターンと参照パターンとの照合結果
は、距離値により出力される。距離値が大きいほど、両
パターンの相違度が大きいことを意味する。各参照パタ
ーン毎に入力パターンとの距離値を算出し、すべての距
離値の中で最小となる距離値に対応する参照パターン名
が認識結果として出力される。
【0013】
【発明が解決しようとする課題】以上、従来の単語音声
認識装置の構成例を説明したが、あらかじめ測定された
騒音レベルに基づいて決定されるしきい値という判定基
準を用いることにより、音響パワーの絶対値に基づいて
音声区間を判定する必要がなくなるため、周囲騒音を音
声と判定する誤りが減少し、その結果音声区間検出性能
が向上する。ところで、音声測定に基づいて決定したし
きい値を用いた音声区間検出方法では、音声以外の騒音
等のパワーレベルが、検出したい音声のパワーレベルと
同等に近くなるような条件下では、音声入力中であるに
もかかわらず受音される信号のパワーレベルがしきい値
を越えない状態が生じ、その結果、正確な音声区間検出
が困難になる。また、前述の空調ダクトノイズのように
パワーの変化が少ない騒音を測定してしきい値を決定し
た後に、ドアの開閉音のような短時間でパワーの大きく
変化する騒音が入力される場合には、この部分が音声区
間と誤判定されて取り込まれることになり、その結果、
音声認識誤りを誘発することになる。
【0014】騒音下の音声区間検出精度を向上させるた
めの別の技術として、2個のマイクロホンで各々受音し
た音響信号のパワー情報に基づいて、音声区間検出を行
う方法がある。すなわち、音声信号の受音を目的とした
第1のマイクロホンと、騒音の受音を目的とした第2の
マイクロホンを設置し、音声入力のない状態での各々の
騒音パワーを測定し、両者の差分値を求め、この値に適
切な定数を加算した値をしきい値とする。次に、音声入
力可とした時点以降に各受音した音響信号のパワーをフ
レーム毎に測定し、両者の差分値を求め、差分値としき
い値との比較により音声区間を判定する方法である。こ
の方法を用いるための理想的な条件は、双方のマイクロ
ホンにおいて常に等しい騒音が受音され、また、第2の
マイクロホンへは発声者の音声信号の差分は小さくなる
が、同時に音声信号の差分も小さくなる。逆に、2個の
マイクロホンを離して設置すると、音声信号の差分を大
きくすることができるが、同時に騒音信号の差分や音響
的性質の相違も増大する。また、2個のマイクロホンを
離して設置するためには、発声者とマイクロホンとの適
切な位置関係を考える必要があり、設置場所や発声者の
自由度を制限することになる。
【0015】本発明は、騒音環境下における音声認識性
能の向上を、発声者の自由度を制限することなく、また
装置規模を増大させることなく達成することを目的とす
るものである。
【0016】
【課題を解決するための手段】本発明にかかる装着形マ
イクロホンを用いた音声認識装置は、発声者の発する音
声信号のうち、空気中を伝搬する音響信号を受信する第
1の受音手段と、前記発声者の発する音声信号のうち頭
骨を伝搬する音響信号を受音する第2の受音手段と、前
記第1の受音手段により受音した信号から特徴パラメー
タを抽出する特徴パラメータ抽出手段と、前記第2の受
音手段により受音した信号から音声区間に関する情報を
抽出する音声区間検出手段と、抽出された特徴パラメー
タを一時的に記憶する特徴パラメータ記憶手段と、あら
かじめ別に受音した音響信号からあらかじめ定めた単位
で抽出された特徴パラメータを音声辞書として記憶する
音声辞書記憶手段と、前記特徴パラメータ記憶手段に一
時的に記憶された特徴パラメータと、前記音声辞書記憶
手段にあらかじめ音声辞書として記憶された複数の単語
などの特徴パラメータとの間の類似度を算出する類似度
算出手段とを有し、算出された類似度の情報を用いて、
特徴パラメータに対応する単語名などのデータを認識結
果として出力するものである。
【0017】また、第1の受音手段により受音した信号
から音声区間に関する情報を抽出する音声区間検出手段
と、前記第1,第2の受音手段によりそれぞれ抽出した
音声区間に関する情報のうちいずれを使用するかを判定
する判定手段を備えたものである。
【0018】
【発明の実施の形態】そこで本発明では、通常のマイク
ロホン(以下、これを気導マイクロホンと称す)と、骨
導マイクロホンを併用し、両者で受音した信号を用いて
騒音下での音声区間検出精度を向上させ、その結果、認
識性能の高い音声認識装置を構成する。
【0019】以上の構成により、発声者の自由度を制限
することなく、また、装置規模を増大させることなく、
騒音環境下における音声認識性能を向上させる。
【0020】
【実施例】本発明の一実施例として単語音声認識装置の
構成を、図面を用いて説明する。図1は、本発明の一実
施例の構成を示すブロック図であり、201は気導マイ
クロホン(第1の受音手段)、202はアナログ/デジ
タル変換部、203はサンプリングデータバッファ、2
04は特徴パラメータ抽出部(特徴パラメータ抽出手
段)、205は特徴パラメータバッファ(特徴パラメー
タ記憶手段)、206は骨導マイクロホン(第2の受音
手段)、207はアナログ/デジタル変換部、208は
サンプリングデータバッファ、209はパワー算出部、
210は音声区間検出部(音声区間検出手段)、211
は信号路切替器、212は音声パターン辞書メモリ(音
声辞書記憶手段)、213はパターン照合部(類似度算
出手段)、214は認識結果出力部である。
【0021】ここで気導マイクロホン201および骨導
マイクロホン206について説明する。
【0022】気導マイクロホン201および骨導マイク
ロホン206は、例えば『青木茂明,三橋和正,西野
豊.“耐騒音形小形通話ユニットの検討”日本音響学会
平成9年度春季研究発表会講演論文集3−3−15.
P.555〜556.平成9年3月』の文献の図1に示
されるように、外耳に装着可能な一体型の構造として実
現することが可能である。すなわち、マイクロホンユニ
ットの一部を外耳に挿入して装着することにより、骨導
マイクロホン206は、外耳の接触部分から骨導信号を
ピックアップする。一方、ユニットの外側には気導マイ
クロホン201を配置することにより、空間を伝搬する
発声者の音響信号を受音することができる。
【0023】気導マイクロホン201の利点は、広い周
波数帯域にわたって感度が良いことである。このため、
音声認識に必要な8キロヘルツないし12キロヘルツの
帯域の音響信号を大変良好に受音することができる。一
方、音声と同一周波数帯域の騒音信号も音声信号と区別
なく受音するため、高騒音下での音声区間検出が困難に
なるという欠点をもつ。一方、骨導マイクロホン206
には加速度ピックアップを用いているため、周波数帯域
が狭く、音声の高域周波数成分の減衰が大きいため、単
独で音声認識に用いると性能が低下する。その反面、外
部からの空気中を伝搬する騒音成分の影響が小さいとい
う利点を有する。
【0024】次に、図1の本実施例の動作について説明
する。動作を機能的に大きく分けると、図1の例と同様
に、音声が未入力の状態でのレベルを測定して、音声区
間検出のしきい値を決定する「騒音測定」、認識対象と
すべき単語の音声パターンを辞書メモリに登録する「音
声登録」、および、発声されたパターンと既登録の辞書
中の音声パターンとを照合し、その結果を出力する「音
声認識」となる。ここで、図4の従来例との相違は、騒
音測定,音声登録,音声認識の各処理で必要となる音声
パワー算出を、骨導マイクロホン206による受音信号
を用いて行う点である。
【0025】(11)騒音測定 骨導マイクロホン206で受音されたアナログ信号は、
アナログ/デジタル変換部207で適切な周波数でサン
プリングされ、デジタル信号に変換される。ここで、適
切な周波数とは、骨導マイクロホン206により受音可
能な周波数帯域の上限までをカバーする周波数である。
通常、骨導マイクロホン206の受音周波数帯域の上限
は気導マイクロホン201より低いため、従ってサンプ
リング周波数を低減させることができる。次に、デジタ
ル信号はサンプリングデータバッファ208に逐次格納
される。サンプリングバッファ208に20ないし30
ミリ秒、すなわち1フレーム分の信号が格納される毎
に、パワー算出部209において信号パワーが算出され
る。フレーム毎に算出されたパワーを適切なフレーム数
にわたって累積加算し、さらにフレーム当たりの平均値
を計算する。ここで適切なフレーム数とは、通常4ない
し16程度である。算出された平均パワーに適切な定数
を加算することにより、音声区間検出のためのしきい値
とする。
【0026】(12)音声登録 騒音測定が終了した時点で音声入力が可能となる。骨導
マイクロホン206で受音された信号は、アナログ/デ
ジタル変換部207でデジタル信号に変換され、サンプ
リングデータバッファ208に逐次格納される。パワー
算出部209では1フレーム毎に信号のパワーが算出さ
れ、音声区間検出部210に送られる。音声区間検出部
210では、フレーム毎に算出されるパワーと、事前に
設定されたしきい値とを比較することにより、パワー値
の系列を例えばラベル系列に変換する。ここでしきい値
を複数設定し、よってラベルも複数種類あってもよい。
次に、ラベル系列の遷移状態により、音声の開始フレー
ムおよび終了フレームを決定することができる。
【0027】一方、気導マイクロホン201で受音され
たアナログ信号は、アナログ/デジタル変換部202に
おいて適切な周波数でデジタル信号に変換され、サンプ
リングデータバッファ203に逐次格納される。ここ
で、適切な周波数とは、音声認識処理に必要となる音声
の特徴を損なわない周波数であり、通常は8キロヘルツ
から12キロヘルツに設定される。サンプリングデータ
バッファ203に20ないし30ミリ秒分のデータが格
納される毎に、すなわちフレーム毎に、データの特徴パ
ラメータが計算される。特徴パラメータは、特徴パラメ
ータバッファ205に逐次格納される。音声登録時に
は、信号路切替器211は特徴パラメータバッファ20
5から音声パターン辞書メモリ212に接続される。こ
こで、音声区間検出部210で検出された音声開始フレ
ームと音声終了フレーム情報に基づき、当該範囲の音声
特徴パラメータを特徴パラメータバッファ205から信
号路切替器211を経由して音声パターン辞書メモリ2
12に転送することにより、音声パターンとして登録す
ることができる。ここで注意すべきことは、前述の骨導
信号を用いてパワーを算出するフレームと、特徴パラメ
ータを算出するフレームとの間の同期を取ることであ
る。具体的には、アナログ/デジタル変換器202と2
07の双方のサンプリングクロックの同期を取ることに
より、容易に実現することができる。
【0028】(13)音声認識 図1の構成において、気導マイクロホン201から特徴
パラメータバッファ205までの構成は音声登録時と同
一であるため、動作も同一となる。音声認識時には信号
路切替器211はパターン照合部213に接続される。
気導マイクロホン201で受音されたアナログ信号は、
上記(12)音声登録で述べたものと同一の処理によ
り、フレーム毎に算出された特徴パラメータとして特徴
パラメータバッファ205に格納される。また、音声開
始フレームおよび音声終了フレームは、音声区間検出部
210により決定される。一方、音声パターン辞書メモ
リ212には、上記(12)音声登録で述べたように、
認識対象となる各単語の音声開始フレームから音声終了
フレームまでの特徴パラメータが登録されている。した
がってパターン照合部213へのパラメータとして、特
徴パラメータバッファ205中の音声開始フレームから
音声終了フレームまでのパラメータを与え、参照用パタ
ーンとして、音声パターン辞書メモリ212に格納され
た音声パラメータを単語毎に順次与えることにより、両
パターンの照合を行うことができる。その結果、入力パ
ターンと参照パターンとの照合結果が、距離値により出
力される。距離値が大きいほど、両パターンの相違が大
きいことを意味する。各参照パターン毎にパターンとの
距離値を算出し、すべての距離値の中で最小となる距離
値に対応する参照パターン名が認識結果となる。
【0029】次に、本発明の作用効果について以下に説
明する。図3(a)および図3(b)は、気導マイクロ
ホン201、および骨導マイクロホン206で同時に受
音した音声信号からそれぞれ音声区間検出を行った例で
ある。図3(a)は、騒音下で発声された単語音声を気
導マイクロホンで受音し、音声区間を検出した例であ
り、301は音響パワーを示す座標軸(対数座標)、3
02はフレーム信号を示す座標、303はフレーム番
号、304は音声未入力時に測定した音響パワーの値に
基づいてあらかじめ決定したしきい値、305はフレー
ム毎に算出された音響パワーの系列、306は検出され
た音声開始フレーム、307は検出された音声終了フレ
ームを示す。図3(b)は、騒音下で発生された単語音
声を骨導マイクロホンで受音し、音声区間を検出した例
であり、308は音響パワーを示す座標軸(対数座
標)、309はフレーム番号を示す座標軸、310はフ
レーム番号、311は音声未入力時に測定した音響パワ
ーの値に基づいてあらかじめ決定したしきい値、312
はフレーム毎に算出された音響パワーの系列、313は
検出された音声開始フレーム、314は検出された音声
終了フレームを示す。
【0030】図3(a)と図3(b)を比較して明らか
なように、図3(a)では気導マイクロホンで受音した
騒音信号の中に音声信号がほとんど埋もれ、視察では音
声区間の検出が困難であるのに対し、図3(b)では騒
音はほとんど受音されず、その結果、音声信号区間が視
察でもはっきりと区別できる。実際、図3(b)では音
声区間が正しく検出されているのに対し、図3(a)で
は音声の開始区間と終了区間が正しく検出できていな
い。さらに、図3(b)では、しきい値311が多少変
動しても同一の音声区間が検出されるのに対し、図3
(a)では、しきい値304のわずかな変動によっても
検出される音声区間が大きく異なり、場合によっては音
声区間が未検出となることもある。
【0031】次に、騒音下での単語音声認識性能を比較
することにより、骨導マイクロホン206の効果を述べ
る。騒音環境下で、図4に示した従来装置の構成と、図
1に示した本発明装置の構成での単語音声認識性能の比
較を行った。単語は日本人姓の中から、人口順に上位2
0姓を選んだ。発声は、予め定めた騒音環境下で、音声
パターン登録用,認識評価用にそれぞれ1回ずつ発声し
た。ここで、発声毎のばらつきをなくすために、気導マ
イクロホン201と骨導マイクロホン206からは同時
に収録した。男性3名についての音声認識率の平均値
は、騒音が64デシベル(A),74デシベル(A),
84デシベル(A)のピンクノイズをラウドスピーカよ
り発生させた場合に、図4の構成ではそれぞれ65%,
25%,8.3%であったのに対し、図1の構成ではそ
れぞれ93.3%,90.0%,68.3%であった。
両者の性能比較より、図1の効果は明らかである。
【0032】一方、騒音のない環境での同様の実験条件
での音声認識率は、図4の場合では95.0%、図1の
場合では88.3%であった。これは、騒音のない環境
では気導マイクロホン201の音声からも正確に音声区
間検出ができるのに対し、骨導マイクロホン206の音
声では、その周波数帯域の制限により、音声区間開始直
後の子音部分、あるいは音声区間終了部分付近の無声子
音化した部分の検出誤りが生じているためと考えられ
る。騒音のない環境での音声認識性能も併せて向上させ
るためには、騒音測定で得られる騒音パワーの値によ
り、気導マイクロホン201で受音した信号から抽出さ
れた音声区間の情報と、骨導マイクロホン206で受音
した信号から抽出された音声区間の情報を選択的に利用
すればよい。そのような実施例を次に示す。
【0033】図2は、本発明の第2の実施例の構成を示
すブロック図である。この図において、図1の実施例と
相違するところはパワー算出部215,音声区間検出部
(音声区間検出手段)216および判定部(判定手段)
217を追加している点である。この実施例では気導マ
イクロホン201から受音した信号からもパワー算出部
215と音声区間検出部216により音声区間に関する
情報を検出し、判定部217において骨導マイクロホン
206の系統の音声区間検出部210の出力を使用する
か、気導マイクロホン201の系統の音声区間検出部2
16の出力を用いるか判定し、よりよい方を特徴パラメ
ータバッファ205に送る。その後の処理は図1の実施
例の場合と同じであるので、説明は省略する。
【0034】
【発明の効果】以上説明したように、本発明は、発声者
の発する音声信号のうち、空気中を伝搬する音響信号を
受信する第1の受音手段と、前記発声者の発する音声信
号のうち頭骨を伝搬する音響信号を受音する第2の受音
手段と、前記第1の受音手段により受音した信号から特
徴パラメータを抽出する特徴パラメータ抽出手段と、前
記第2の受音手段により受音した信号から音声区間に関
する情報を抽出する音声区間検出手段と、抽出された特
徴パラメータを一時的に記憶する特徴パラメータ記憶手
段と、あらかじめ別に受音した音響信号からあらかじめ
定めた単位で抽出された特徴パラメータを音声辞書とし
て記憶する音声辞書記憶手段と、前記特徴パラメータ記
憶手段に一時的に記憶された特徴パラメータと、前記音
声辞書記憶手段にあらかじめ音声辞書として記憶された
複数の単語などの特徴パラメータとの間の類似度を算出
する類似度算出手段とを有し、算出された類似度の情報
を用いて、特徴パラメータに対応する単語名などのデー
タを認識結果として出力するようにしたので、外耳に装
着可能な一体型の気導マイクロホン・骨導マイクロホン
ユニットにより、騒音環境下での音声認識の向上を、発
声者の自由度を制限することなく、また装置規模を増大
させることなく達成できることが明らかとなった。
【0035】さらに、本発明は前記第1の受音手段によ
り受音した信号から音声区間に関する情報を抽出する音
声区間検出手段と、前記第1,第2の受音手段によりそ
れぞれ抽出した音声区間に関する情報のうちいずれを使
用するかを判定する判定手段を備えたので、音声区間の
情報を選択的に利用することで、より正確な音声認識を
行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の他の実施例の構成を示すブロック図で
ある。
【図3】図3(a)は、騒音下で発声された単語音声を
気導マイクロホンで受音し、音声区間を検出した例を示
す図であり、図3(b)は、騒音下で発声された単語音
声を骨導マイクロホンで受音し、音声区間を検出した例
を示す図である。
【図4】従来の音声認識装置の一例の構成を示すブロッ
ク図である。
【符号の説明】
201 気導マイクロホン 202 アナログ/デジタル変換部 203 サンプリングデータバッファ 204 特徴パラメータ抽出部 205 特徴パラメータバッファ 206 骨導マイクロホン 207 アナログ/デジタル変換部 208 サンプリングデータバッファ 209 パワー算出部 210 音声区間検出部 211 信号路切替器 212 音声パターン辞書メモリ 213 パターン照合部 214 認識結果出力部 215 パワー算出部 216 音声区間検出部 217 判定部 301 座標軸(対数座標) 302 座標軸 303 フレーム番号 304 しきい値 305 音響パワー 306 音声開始フレーム 307 音声終了フレーム 308 座標軸(対数座標) 309 座標 310 フレーム番号 311 しきい値 312 音響パワー 313 音声開始フレーム 314 音声終了フレーム

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 発声者の発する音声信号のうち、空気中
    を伝搬する音響信号を受信する第1の受音手段と、前記
    発声者の発する音声信号のうち頭骨を伝搬する音響信号
    を受音する第2の受音手段と、前記第1の受音手段によ
    り受音した信号から特徴パラメータを抽出する特徴パラ
    メータ抽出手段と、前記第2の受音手段により受音した
    信号から音声区間に関する情報を抽出する音声区間検出
    手段と、抽出された特徴パラメータを一時的に記憶する
    特徴パラメータ記憶手段と、あらかじめ別に受音した音
    響信号からあらかじめ定めた単位で抽出された特徴パラ
    メータを音声辞書として記憶する音声辞書記憶手段と、
    前記特徴パラメータ記憶手段に一時的に記憶された特徴
    パラメータと、前記音声辞書記憶手段にあらかじめ音声
    辞書として記憶された複数の単語などの特徴パラメータ
    との間の類似度を算出する類似度算出手段とを有し、算
    出された類似度の情報を用いて、特徴パラメータに対応
    する単語名などのデータを認識結果として出力すること
    を特徴とする装着形マイクロホンを用いた音声認識装
    置。
  2. 【請求項2】 前記請求項1に記載の音声認識装置にお
    いて、前記第1の受音手段により受音した信号から音声
    区間に関する情報を抽出する音声区間検出手段と、前記
    第1,第2の受音手段によりそれぞれ抽出した音声区間
    に関する情報のうちいずれを使用するかを判定する判定
    手段を備えたことを特徴とする装着形マイクロホンを用
    いた音声認識装置。
JP9193436A 1997-07-18 1997-07-18 装着形マイクロホンを用いた音声認識装置 Pending JPH1138991A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9193436A JPH1138991A (ja) 1997-07-18 1997-07-18 装着形マイクロホンを用いた音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9193436A JPH1138991A (ja) 1997-07-18 1997-07-18 装着形マイクロホンを用いた音声認識装置

Publications (1)

Publication Number Publication Date
JPH1138991A true JPH1138991A (ja) 1999-02-12

Family

ID=16307965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9193436A Pending JPH1138991A (ja) 1997-07-18 1997-07-18 装着形マイクロホンを用いた音声認識装置

Country Status (1)

Country Link
JP (1) JPH1138991A (ja)

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
RU2363994C2 (ru) Система детектирования речи
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US9959886B2 (en) Spectral comb voice activity detection
JPH11511567A (ja) パターン認識
US9786295B2 (en) Voice processing apparatus and voice processing method
US20070198268A1 (en) Method for controlling a speech dialog system and speech dialog system
JP2001075580A (ja) 音声認識方法および音声認識装置
JP6827536B2 (ja) 音声認識装置および音声認識方法
JPS6060080B2 (ja) 音声認識装置
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2000163098A (ja) 音声認識装置
JP3649032B2 (ja) 音声認識方法
JPH1138991A (ja) 装着形マイクロホンを用いた音声認識装置
JP2000250577A (ja) 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体
KR100855592B1 (ko) 발성자 거리 특성에 강인한 음성인식 장치 및 그 방법
JP2882792B2 (ja) 標準パターン作成方式
JP6973652B2 (ja) 音声処理装置、方法およびプログラム
JP3075250B2 (ja) 話者認識方法及び装置
WO2002069324A1 (en) Detection of inconsistent training data in a voice recognition system
JP2870421B2 (ja) 話速変換機能を有する補聴器
JP3533773B2 (ja) 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置
KR101336203B1 (ko) 전자기기에서 음성 검출 방법 및 장치
JP3020999B2 (ja) パターン登録方法
JP3032551B2 (ja) 音声標準パターン登録方法