JP3523382B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JP3523382B2
JP3523382B2 JP20421595A JP20421595A JP3523382B2 JP 3523382 B2 JP3523382 B2 JP 3523382B2 JP 20421595 A JP20421595 A JP 20421595A JP 20421595 A JP20421595 A JP 20421595A JP 3523382 B2 JP3523382 B2 JP 3523382B2
Authority
JP
Japan
Prior art keywords
voice
voiced
section
voice recognition
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20421595A
Other languages
English (en)
Other versions
JPH0950288A (ja
Inventor
哲也 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP20421595A priority Critical patent/JP3523382B2/ja
Publication of JPH0950288A publication Critical patent/JPH0950288A/ja
Application granted granted Critical
Publication of JP3523382B2 publication Critical patent/JP3523382B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続する音声を認
識する音声認識装置に関する。
【0002】
【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が開発されている。このような音声認識装置
では、キーボードの手動操作などを要することなく各種
の情報を取り込むことができるので、例えば、人間が両
手を使用する作業環境でも所望の情報を入力することが
できる。このような音声認識装置を実現したパーソナル
コンピュータでは、人間が特定の音声を発生すると、こ
れを認識して所定の処理動作を実行する。
【0003】人間が単語を一つだけ発声する場合、これ
を音声認識装置が認識することは困難ではないが、人間
の自然な会話では音声は連続しており、そこには単語の
他にも言い淀みや息つぎなどが含まれる。このように連
続する音声から単語を抽出して認識する場合、従来は連
続する音声を最初から最後まで取り込み、この全体で音
声認識を実行していた。しかし、これでは言い淀みや咳
払いなどの不要な音声がノイズとなり、音声認識の所要
時間が無用に増大し、認識精度も低下していた。
【0004】このような課題を解決する手法の一つとし
て提案されたワードスポッティングでは、音声信号から
標準パターンにマッチングする部分のみ認識する。つま
り、音声信号に認識されない部分が存在しても構わない
ので、言い淀みなどの不要な音声の悪影響を解消でき
る。
【0005】
【発明が解決しようとする課題】上述のようなワードス
ポッティングでは、連続する音声信号に不要な音声が存
在しても必要な音声のみ認識することができる。
【0006】しかし、このようなワードスポッティング
でも、連続する音声信号の全体を処理対象とするので、
処理負担が大きく処理を高速に実行することが困難であ
る。また、このようなワードスポッティングも、認識処
理の開始と終了とが適正なタイミングに確定されない
と、予想外の誤認識が発生することがある。
【0007】また、前述のように音声認識装置を利用し
てパーソナルコンピュータを操作することが実用化され
ているが、このような機器を音声により迅速に動作させ
ることは困難である場合が予想される。例えば、“スト
ップ”なる音声を認識すると各種動作を停止するように
機器を設定しても、誤動作を発見した人間が「あれぇ…
変だなぁ…ストップ!」と発声すると、“あれぇ…変だ
なぁ…”の認識処理が終了してから“ストップ”の認識
処理が実行されるので、この認識が遅滞して機器を迅速
に停止させることができない。
【0008】
【課題を解決するための手段】請求項1記載の音声認識
装置は、音声信号が連続的に入力される音声入力手段
と、連続的な音声信号を特徴ベクトルの時系列である音
声パターンに変換する特徴抽出手段と、認識する音声が
含まれることが予想される有音区間を音声パターンから
所定条件に従って検出する有音検出手段と、有音区間で
ワードスポッティングによる音声認識を実行する音声認
識手段とを有する。このため、音声信号が連続でも無音
の部分ではワードスポッティングが実行されない。
た、無音区間で分割された複数の有音区間の各々のパワ
ーを検出するパワー検出手段を設け、音声認識手段は、
パワーが最大の有音区間で最初にワードスポッティング
を実行する。このため、人間が大声で発声した音声が最
初に認識される。なお、本発明で云う有音区間は、連続
的な音声信号中で実際に音声が存在する区間であり、例
えば、音声パワーが閾値以上の部分などと検出される。
【0009】
【0010】
【0011】
【0012】請求項記載の音声認識装置は、音声信号
が連続的に入力される音声入力手段と、連続的な音声信
号を特徴ベクトルの時系列である音声パターンに変換す
る特徴抽出手段と、認識する音声が含まれることが予想
される有音区間を音声パターンから所定条件に従って検
出する有音検出手段と、有音区間でワードスポッティン
グによる音声認識を実行する音声認識手段とを有する。
このため、音声信号が連続でも無音の部分ではワードス
ポッティングが実行されない。また、無音区間で分割さ
れた複数の有音区間の各々のパワーを検出するパワー検
出手段を設け、音声認識手段は、パワーが閾値を超過し
た有音区間でワードスポッティングを優先的に実行す
る。このため、人間が大声で発声した音声が優先的に認
識される。
【0013】
【0014】
【発明の実施の形態】本発明の実施の一形態を図面に基
づいて以下に説明する。まず、ここで例示する音声認識
装置1は、図1に示すように、音声入力手段である音声
入力部2を有しており、この音声入力部2には、特徴抽
出手段である特徴抽出部3、有音検出手段である区間検
出部4、音声認識手段である音声認識部5、結果出力手
段である結果出力部6、が順番に接続されている。
【0015】前記音声入力部2は、ハードウェアとして
マイクロフォンやA/DC(Analog/Digital Converto
r)などを有しており、連続音声をデジタル信号に変換す
る。前記特徴抽出部3は、マイクロコンピュータを有し
ており、音声信号を特徴ベクトルの時系列である音声パ
ターンに変換する。
【0016】このように連続音声をデジタル信号に変換
してから音声パターンに変換することには、既存の各種
手法が利用できるが、ここでは連続音声を16(kHz)で16
(bit)のデジタル信号に変換する。これを窓長256 でシ
フト幅160 の解析条件により十次のLPC(Linear Pred
ictive Coding)ケプストラムに変換するので、連続音声
の特徴ベクトルは10(ms)のフレーム毎に十次元のベクト
ルとして生成される。
【0017】前記区間検出部4は、マイクロコンピュー
タを有しており、認識する音声が含まれることが予想さ
れる有音区間を音声パターンから所定条件に従って検出
する。この条件は音声パワーと閾値との比較に基づいて
設定されており、より詳細には、音声パワーが閾値以上
となると有音区間の開始を検出する。このような区間開
始の検出後に、音声パワーが閾値以下の状態が所定時間
まで連続すると、音声パワーが閾値以下となった時点を
有音区間の終了と検出する。このような処理動作はフレ
ーム単位で実行され、フレーム番号で管理される。
【0018】前記音声認識部5は、マイクロコンピュー
タを有しており、有音区間でワードスポッティングによ
る音声認識を実行する。前記結果出力部6は、インター
フェイスなどを有しており、例えば、音声により操作さ
れる機器などが接続される。なお、上述した各部2〜6
には制御回路が接続されており、この制御回路には開始
スイッチが設けられている。
【0019】このような構成において、上述した音声認
識装置1は、人間が連続的に発声する音声から単語を抽
出して認識する。このような音声認識装置1の音声認識
方法を、図2ないし図4を参照して以下に順次詳述す
る。
【0020】まず、図2及び図4に示すように、開始ス
イッチが操作されると制御回路により各部2〜6が起動
され、音声入力部2が外部から連続に入力される音声を
信号変換し、この連続の音声信号が特徴抽出部3により
LPCケプストラムに変換される。
【0021】区間検出部4は、図3に示すように、音声
パワーと閾値Ptとを比較し、音声パワーが閾値Pt以
上となる最初のフレームを検出する。これは有音区間の
開始フレームとして検出され、そのフレーム番号Isが
記録される。これが完了すると音声パワーと閾値Ptと
が比較され、音声パワーが閾値Pt以下となると、これ
は有音区間の終点候補としてフレーム番号が一時記憶さ
れる。このように音声パワーが閾値Pt以下の状態が所
定時間Ltまで連続するかが判定され、この連続が検出
されると有音区間が終了が検出され、一時記憶されたフ
レーム番号Ieが確定される。
【0022】このように有音区間“Is〜Ie”が検出
されると、音声認識部5は、有音区間でのみワードスポ
ッティングによる音声認識を実行し、この認識結果が結
果出力部6から出力される。
【0023】上述した音声認識装置1では、開始スイッ
チにより音声認識の開始が入力操作されても、認識する
音声が含まれることが予想される有音区間でのみワード
スポッティングによる音声認識が実行され、連続する音
声信号の全体を処理対象とはしないので、処理負担を軽
減して認識処理を高速化することができ、認識処理の開
始と終了とが適正なタイミングに確定されるので、予想
外の誤認識が発生することも防止される。
【0024】なお、本発明は上記した実施の形態に限定
されるものではなく、各種の変形を許容するものであ
る。例えば、上述した音声認識装置1では、音声パワー
を閾値と比較して有音区間を検出することを例示した
が、このような有音区間を前後の少なくとも一方に延長
する区間延長手段を設けることも可能である。
【0025】この場合、有音区間が前後に延長されるの
で、検出ミスによる音声の欠落が解消され、音声認識の
精度が向上する。例えば、有音区間の開始フレーム“I
s”から所定のフレーム数“L1”を減算すれば、有音
区間を前方に延長することができ、有音区間の終了フレ
ーム“Ie”に所定のフレーム数“L2”を加算すれ
ば、有音区間を後方に延長することができる。このよう
な延長は、前方には音の長さである“50(ms)=5フレー
ム”程度、後方には発音の長さである“100(ms)=10フ
レーム”程度、が好ましい。
【0026】また、上述した音声認識装置1では、連続
する音声信号から検出された有音区間の全体をワードス
ポッティングの処理対象とすることを例示したが、図5
に示すように、有音区間“Is〜Ie”から所定時間
“L3”以上の無音区間を検出する無音検出手段と、こ
の無音区間で有音区間を複数に分割する区間分割手段と
を設け、この分割された複数の有音区間の各々でワード
スポッティングを実行することも可能である。
【0027】この場合、有音区間の内部でも無音区間が
排除されるので、さらに処理負担を軽減して認識処理を
高速化することができ、認識処理の開始と終了とを適正
化して認識精度を向上させることができる。なお、音声
認識を単語や音節の単位で実行するならば、ポーズや息
つぎは排除すべき無音区間であり、促音は排除すべきで
ない無音区間である。このような場合、無音区間を検出
する所定時間が促音より長く息つぎなどより短い時間に
は設定すれば良いので、これは“ 300(ms)=30フレー
ム”程度である。
【0028】なお、このように一つの有音区間を無音区
間により複数に分割する場合、上述のように検出した有
音区間を一つに検出してから複数に分割することの他、
分割された複数の有音区間を最初から順番に検出するこ
とも可能である。
【0029】さらに、このように有音区間を複数に分割
する音声認識装置1の結果出力部6に外部機器を接続
し、この外部機器を音声認識装置1の認識結果により操
作することも想定できる。このような場合、無音区間で
分割された複数の有音区間の各々のパワーを検出するパ
ワー検出手段を設け、パワーが最大の有音区間で最初に
ワードスポッティングを実行することが好ましい。
【0030】例えば、音声認識装置1に電子ファイル装
置を接続し、その各種動作を音声制御するならば、“ス
トップ”なる音声により各種動作が停止されるように設
定しておく。このようなシステムにおいて、電子ファイ
ル装置の誤動作を発見した人間が「あれぇ…変だなぁ…
ストップ!」と発声すると、この“ストップ”なる音声
は自然と大声に発声される。この場合、音声認識装置1
は、複数の有音区間を“あれぇ”“変だなぁ”“ストッ
プ”の順番で検出するが、パワーが最大の“ストップ”
を最初に認識するので、電子ファイル装置を迅速に停止
させることができる。
【0031】同様に、無音区間が分割された複数の有音
区間の各々のパワーを検出し、パワーが閾値を超過した
有音区間でワードスポッティングを優先的に実行するこ
とも可能である。この場合、音声認識装置1は、連続す
る音声を人間の発声が大声の順番で認識するので、有用
な音声より大声で無用な音声が発声されても、有用な音
声を迅速に認識することができる。
【0032】
【発明の効果】請求項1記載の音声認識装置では、音声
信号が連続的に入力される音声入力手段と、連続的な音
声信号を特徴ベクトルの時系列である音声パターンに変
換する特徴抽出手段と、認識する音声が含まれることが
予想される有音区間を音声パターンから所定条件に従っ
て検出する有音検出手段と、有音区間でワードスポッテ
ィングによる音声認識を実行する音声認識手段とを有す
ることにより、音声信号が連続的に入力されても、ワー
ドスポッティングによる音声認識が、認識する音声が含
まれることが予想される有音区間でのみ実行され、連続
する音声信号の全体を処理対象とはしないので、処理負
担を軽減して認識処理を高速化することができる。
た、無音区間で分割された複数の有音区間の各々のパワ
ーを検出するパワー検出手段を設け、音声認識手段は、
パワーが最大の有音区間で最初にワードスポッティング
を実行することにより、例えば、ストップなる音声によ
り各種動作が停止されるシステムを形成した場合、誤動
作を発見した人間が「あれぇ…変だなぁ…ストップ!」
などと発声しても、自然と大声に発声されるストップが
最初に認識されるので、システムを迅速に停止させるこ
とができる。
【0033】
【0034】
【0035】
【0036】請求項記載の音声認識装置では、音声信
号が連続的に入力される音声入力手段と、連続的な音声
信号を特徴ベクトルの時系列である音声パターンに変換
する特徴抽出手段と、認識する音声が含まれることが予
想される有音区間を音声パターンから所定条件に従って
検出する有音検出手段と、有音区間でワードスポッティ
ングによる音声認識を実行する音声認識手段とを有する
ことにより、音声信号が連続的に入力されても、ワード
スポッティングによる音声認識が、認識する音声が含ま
れることが予想される有音区間でのみ実行され、連続す
る音声信号の全体を処理対象とはしないので、処理負担
を軽減して認識処理を高速化することができる。また、
無音区間で分割された複数の有音区間の各々のパワーを
検出するパワー検出手段を設け、音声認識手段は、パワ
ーが閾値を超過した有音区間でワードスポッティングを
優先的に実行することにより、例えば、ストップなる音
声により各種動作が停止されるシステムを形成した場
合、誤動作を発見した人間が「あれぇ…変だなぁ…スト
ップ!」などと発声しても、自然と大声に発声されるス
トップが最初に認識されるので、システムを迅速に停止
させることができ、より大声の悲鳴などが発声されて
も、次に大声のストップが迅速に認識される。
【0037】
【図面の簡単な説明】
【図1】本発明の実施の一形態の音声認識装置を示すブ
ロック図。
【図2】音声認識方法を示すフローチャートである。
【図3】区間検出の処理動作を示すフローチャートであ
る。
【図4】音声パターンであるLPCケプストラムを示す
タイムチャートである。
【図5】変形例のLPCケプストラムを示すタイムチャ
ートである。
【符号の説明】
1 音声認識装置 2 音声入力手段 3 特徴抽出手段 4 有音検出手段 5 音声認識手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/20 (56)参考文献 特開 昭63−223798(JP,A) 特開 平6−175677(JP,A) 特開 平6−242792(JP,A) 特開 昭63−173100(JP,A) 特開 平8−54892(JP,A) 特開 平6−222790(JP,A) 特許3460723(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 11/02 G10L 15/00 - 15/28

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声信号が連続的に入力される音声入力
    手段と、連続的な音声信号を特徴ベクトルの時系列であ
    る音声パターンに変換する特徴抽出手段と、認識する音
    声が含まれることが予想される有音区間を音声パターン
    から所定条件に従って検出する有音検出手段と、有音区
    間でワードスポッティングによる音声認識を実行する音
    声認識手段と、無音区間で分割された複数の有音区間の
    各々のパワーを検出するパワー検出手段とを設け、前記
    音声認識手段は、パワーが最大の有音区間で最初にワー
    ドスポッティングを実行することを特徴とする音声認識
    装置。
  2. 【請求項2】 音声信号が連続的に入力される音声入力
    手段と、連続的な音声信号を特徴ベクトルの時系列であ
    る音声パターンに変換する特徴抽出手段と、認識する音
    声が含まれることが予想される有音区間を音声パターン
    から所定条件に従って検出する有音検出手段と、有音区
    間でワードスポッティングによる音声認識を実行する音
    声認識手段と、無音区間で分割された複数の有音区間の
    各々のパワーを検出するパワー検出手段を設け、前記
    音声認識手段は、パワーが閾値を超過した有音区間でワ
    ードスポッティングを優先的に実行することを特徴とす
    る音声認識装置。
JP20421595A 1995-08-10 1995-08-10 音声認識装置及び音声認識方法 Expired - Fee Related JP3523382B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20421595A JP3523382B2 (ja) 1995-08-10 1995-08-10 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20421595A JP3523382B2 (ja) 1995-08-10 1995-08-10 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH0950288A JPH0950288A (ja) 1997-02-18
JP3523382B2 true JP3523382B2 (ja) 2004-04-26

Family

ID=16486749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20421595A Expired - Fee Related JP3523382B2 (ja) 1995-08-10 1995-08-10 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP3523382B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3789246B2 (ja) 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
KR100366057B1 (ko) * 2000-06-26 2002-12-27 한국과학기술원 인간 청각 모델을 이용한 효율적인 음성인식 장치
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2009122598A (ja) * 2007-11-19 2009-06-04 Pioneer Electronic Corp 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
ES2371619B1 (es) 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
JP5342629B2 (ja) * 2011-10-11 2013-11-13 日本電信電話株式会社 男女声識別方法、男女声識別装置及びプログラム
JP5667962B2 (ja) * 2011-11-08 2015-02-12 日本電信電話株式会社 音声認識装置とその方法とプログラム
JP6615952B1 (ja) * 2018-07-13 2019-12-04 株式会社ソケッツ テキスト表示用同期情報生成装置および方法

Also Published As

Publication number Publication date
JPH0950288A (ja) 1997-02-18

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US6553342B1 (en) Tone based speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
EP1701338B1 (en) Speech recognition method
WO2021030918A1 (en) User-defined keyword spotting
JPH05265483A (ja) 複数の出力を与える音声認識法
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JP3069531B2 (ja) 音声認識方法
JP2996019B2 (ja) 音声認識装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
EP0177854B1 (en) Keyword recognition system using template-concatenation model
JP3110025B2 (ja) 発声変形検出装置
JP2798919B2 (ja) 音声区間検出方式
JPH1097269A (ja) 音声検出装置及び方法
JP2001013988A (ja) 音声認識方法及び装置
JP2658426B2 (ja) 音声認識方法
JP2594916B2 (ja) 音声認識装置
JPH05303391A (ja) 音声認識装置
JPS59224900A (ja) 音声認識方法
JPH06324696A (ja) 音声認識装置及び方法
JPS59170894A (ja) 音声区間の切り出し方式
JPS6312000A (ja) 音声認識装置
JPH0554117B2 (ja)
JPS6027000A (ja) パタンマツチング方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees