JPH05210397A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05210397A
JPH05210397A JP4015491A JP1549192A JPH05210397A JP H05210397 A JPH05210397 A JP H05210397A JP 4015491 A JP4015491 A JP 4015491A JP 1549192 A JP1549192 A JP 1549192A JP H05210397 A JPH05210397 A JP H05210397A
Authority
JP
Japan
Prior art keywords
pitch
signal
voice
section
cycle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4015491A
Other languages
English (en)
Other versions
JP3114757B2 (ja
Inventor
Takayuki Fujimoto
教幸 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP04015491A priority Critical patent/JP3114757B2/ja
Publication of JPH05210397A publication Critical patent/JPH05210397A/ja
Application granted granted Critical
Publication of JP3114757B2 publication Critical patent/JP3114757B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】雑音と音声が混在する入力音声において、音声
のみを認識するために、音声特有のピッチ周期を認識処
理の際に考慮することにより、雑音のリジェクト能力を
向上させる音声認識装置を提供することを目的とする。 【構成】入力音声信号から音声部分と推定される信号の
区間の音声認識候補を出力する認識部1と、該入力音声
信号からピッチ周期を抽出するピッチ抽出部2と、前記
認識部1で出力された区間の信号に対する音声認識候補
と前記ピッチ抽出部2における該区間の信号のピッチ抽
出結果から音声認識結果を出力する判定部3で構成され
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力手段によって入力
される音声を認識する音声認識装置に関する。今日で
は、コンピュータへのデータ入力、電話による予約、製
鉄所および自動車工場などにおける作業の進行状況の制
御などに音声認識装置を使用する機会が増えている。
【0002】このため、発声される音声と雑音が混在す
る入力音声から音声のみを認識するために、雑音のリジ
ェクト能力の高い音声認識装置が必要となる。
【0003】
【従来の技術】図3は従来例を示す図である。入力手段
101は、マイクなどの集音装置であり、入力された音
声はアナログ信号に変換され、その後、そのアナログ信
号は、A/D変換部102によってディジタル信号に変
換される。
【0004】特徴抽出部103は、前記ディジタル化さ
れた信号を一定の時間で分割し、さらに、予め設定され
た周波数範囲をいくつかの周波数帯域に分割し、分割さ
れた各時間における各周波数帯域ごとの信号値から特徴
を抽出する。区間検出部104は、予め設定された信号
値に対する閾値を満たす信号の区間を音声として認識す
る処理を行う認識処理区間として検出する。その認識処
理区間を検出する処理の際、信号値が閾値を満たしてい
る状態から閾値を満たさない状態になり、ある時間経過
後再び閾値を満たす状態になったとすると、その閾値を
満たさなかった時間が予め設定された時間内であれば、
その閾値を満たさなかった信号の区間も認識処理区間と
して区間検出される。
【0005】辞書105には予め作成された音声の標準
パターンが格納されており、区間検出部104で検出さ
れた認識処理区間での特徴抽出部103で抽出された信
号の特徴と辞書105に格納されている全ての標準パタ
ーンとの距離計算が照合部106において行われる。こ
の照合部106で行われる距離計算によって求められた
距離のうち、最も距離が小さい標準パターンが区間検出
部104で検出された認識処理区間の信号に対する認識
候補として出力される。
【0006】その後、認識判定部108において前記照
合部106で求められた最小距離が距離閾値記憶部10
7に格納されている、距離に対する閾値を満たしている
かどうか判定され、前記最小距離が閾値を満たしている
と判定されると、区間検出部104で検出された認識処
理区間の信号は音声として認識され、照合部106で出
力された認識候補を認識結果として出力するが、閾値を
満たしていないと判定されると、前記認識処理区間の信
号は雑音としてリジェクトされ、入力手段101へ音声
の再入力となる。
【0007】
【発明が解決しようとする課題】上記のように、認識判
定部108で求められた区間検出部104で検出された
認識処理区間の信号のパターンと照合部106で出力さ
れた認識候補のパターンとの距離が距離閾値記憶部10
7に格納されている距離に対する閾値を満たしていると
判定されると、その認識候補は認識結果として出力さ
れ、閾値を満たしていないと判定されると雑音としてリ
ジェクトされる。
【0008】従って、距離閾値記憶部107に格納され
ている距離に対する閾値の設定によって、区間検出部1
04で検出された認識処理区間の信号を音声として認識
するか、雑音としてリジェクトするかが決定される。そ
の距離閾値記憶部107に格納されている距離に対する
閾値は実験的もしくは経験的によって求められ、該閾値
を低く設定すると、たとえ区間検出された認識処理区間
の信号が雑音だとしても照合部106で求められた最小
距離が距離に対する閾値を満たすため、該照合部106
で求められた認識候補を音声として誤って認識する場合
が生じる。
【0009】また、前記距離に対する閾値を高く設定す
ると、認識処理区間の信号が音声だとしても、照合部1
06で求められた最小距離が距離に対する閾値を満たさ
ないことにより雑音としてリジェクトされる場合が生じ
るため、前記の距離に対する閾値を低く設定した場合の
ことを併せて音声と雑音を完全に振るい分ける閾値を設
定することは不可能である。
【0010】本発明は、雑音と音声が混在する入力にお
いて、音声のみを認識するために音声特有のピッチ周期
を認識処理の際に考慮することにより、雑音のリジェク
ト能力を向上させる音声認識装置を提供することを目的
とする。
【0011】
【課題を解決するための手段】図1は本発明の原理図で
ある。図中、1は認識部であり、入力音声信号から音声
部分と推定される信号の区間の音声認識候補を出力す
る。2はピッチ抽出部であり、前記入力音声信号からピ
ッチ周期を抽出する。
【0012】3は判定部であり、前記認識部1で出力さ
れた区間の信号に対する音声認識候補と前記ピッチ抽出
部2における該区間の信号のピッチ抽出結果から音声認
識結果を出力する。4は周期範囲記憶部であり、ピッチ
抽出部2によって抽出されるピッチ周期に対する周期範
囲を記憶している。
【0013】
【作用】本発明では、従来同様、入力した音声を信号に
変換し、該信号の特徴を抽出し、該信号値が予め設定さ
れた値を満たす区間を認識処理区間として検出し、該認
識処理区間の信号の特徴と辞書に格納されている標準パ
ターンとの距離計算を行い、最小距離の標準パターンを
認識候補として挙げ、該最小距離が距離に対する閾値を
満たすかどうか判定する。
【0014】本発明の請求項1では、併せて、前記区間
検出された認識処理区間の信号から音声を発声したとき
の声帯の振動周期を示すピッチ周期の抽出を行い、その
結果、ピッチ周期が抽出されると前記認識処理区間の信
号は音声候補であると判定し、ピッチ周期が抽出されな
い場合には雑音であると判定する。前記最小距離が距離
に対する閾値を満たすと判断され、かつピッチに関する
処理によって前記認識処理区間の信号が音声候補である
と判定されるならば、前記認識候補は該認識処理区間の
音声認識結果として出力する。
【0015】また、前記最小距離は距離に対する閾値を
満たすが、ピッチに関する処理によって前記認識処理区
間の信号が雑音であると判定されると、該認識処理区間
の信号は雑音であると判断しリジェクトする。従って、
距離に対する閾値を低く設定することにより、区間検出
によって検出された認識処理区間の信号が雑音であって
も、該認識処理区間の信号の特徴と標準パターンとの距
離計算によって求められる最小距離が距離に対する閾値
を満たす場合が増えるが、雑音からは殆どピッチ周期が
抽出されないので該認識処理区間の信号は雑音としてリ
ジェクトされる可能性が大きい。
【0016】本発明の請求項2では、請求項1のピッチ
抽出処理に併せて、そのピッチ抽出処理の結果、ピッチ
周期が抽出され、かつ該ピッチ周期が予め設定されたピ
ッチ周期に対する設定周期範囲内であれば、該認識処理
区間の信号は音声候補であると判定し、ピッチ周期に対
する周期の範囲外であれば雑音であると判定する。前記
最小距離が距離に対する閾値を満たすと判断され、かつ
ピッチに関する処理によって前記認識処理区間の信号が
音声候補であると判定されるならば、前記認識候補は該
認識処理区間の音声認識結果として出力する。
【0017】また、前記最小距離は距離に対する閾値を
満たすが、ピッチに関する処理によって前記認識処理区
間の信号が雑音であると判定されると、該認識処理区間
の信号は雑音であると判断しリジェクトする。従って、
請求項2の手段を用いると、請求項1での区間検出によ
って検出された認識処理区間の信号が雑音であって、該
認識処理区間の信号からピッチ周期が抽出されたとして
も、そのピッチ周期はピッチ周期に対する設定周期範囲
外の場合が多いため、該認識処理区間の信号は雑音とし
てリジェクトされるため、請求項1より更に高精度のリ
ジェクト能力をもつ音声認識装置を実現することができ
る。
【0018】本発明の請求項3では、請求項2において
ピッチ周期を抽出しそのピッチ周期が音声であるか判定
する際に参照されるピッチ周期の設定周期範囲を、音声
入力者の音声のピッチ周期に応じて変更できるようにし
ている。ピッチ周期の分布範囲は音声入力者によって異
なるため、ピッチ周期の設定周期範囲を音声入力者のピ
ッチ周期に設定することにより、特定の入力者の音声の
み認識することが可能となる。
【0019】本発明の請求項4では、請求項2において
ピッチ周期が抽出され、かつ抽出されたピッチ周期が予
め設定されているピッチ周期の設定周期範囲であって
も、抽出されたピッチ周期を中心とするようにピッチ周
期の設定周期範囲を自動的に変更するようにしている。
人間の発声する音声から抽出されるピッチ周期の周期範
囲は限られているが、各音声入力者のピッチ周期範囲は
異なるため、音声入力者が入力した音声での認識処理区
間で抽出されるピッチの周期に対応してピッチ周期の設
定周期範囲を変更することにより、音声入力者に応じた
最適な音声認識処理が可能となる。
【0020】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。まず、第1の実施例について説明する。図2
は本発明の実施例を示す図である。入力手段201によ
る音声の入力およびアナログ信号への変換、A/D変換
部202によるアナログ信号からディジタル信号への変
換、特徴抽出部203による該信号の特徴抽出、区間検
出部204による該信号の認識処理区間の検出、照合部
206による辞書205の標準パターンと該認識処理区
間の信号の特徴との距離計算および該距離計算による最
小距離の標準パターンの認識候補出力は前記従来例のよ
うに行うため、その詳細な説明は省略する。
【0021】図2に示すピッチ抽出部207はA/D変
換部202によって出力される信号のピッチ周期を抽出
する。雑音・音声判定部208は区間検出部204で検
出された認識処理区間において、まず、ピッチ抽出部2
07でピッチ周期が抽出されたかどうか判定する。ピッ
チ周期が抽出されたと判定されると、該ピッチ周期が周
期範囲記憶部209に格納されているピッチ周期に対す
る設定周期範囲内であるかどうか判定する。
【0022】抽出されたピッチ周期が周期範囲記憶部2
09に格納されているピッチ周期に対する設定周期範囲
内である場合には、認識処理区間の信号は音声候補であ
ると判定され、設定周期範囲外である場合には該認識処
理区間の信号は雑音であると判定される。雑音・音声判
定部208で区間検出部204によって検出された認識
処理区間は音声候補であると判定されると、照合部20
6での距離計算によって得られる最小距離が距離閾値記
憶部210に格納されている距離に対する閾値を満たし
ているかどうか認識判定部211で判定され、閾値を満
たしていれば照合部206で出力される認識候補を認識
結果として出力する。
【0023】前記認識判定部211において、前記最小
距離が距離閾値記憶部210に格納されている距離に対
する閾値を満たしていないと判定されると、前記認識処
理区間は雑音であると判定されリジェクトされる。ま
た、前記雑音・音声判定部208によって、ピッチ抽出
部207で認識処理区間においてピッチ周期が抽出され
なかったと判定されると、照合部206で求められた最
小距離が距離閾値記憶部210に格納されている距離に
対する閾値を満たしていると認識判定部211で判定さ
れても、該認識処理区間は雑音であると判定されリジェ
クトされる。
【0024】雑音としてリジェクトされると、従来同
様、入力手段201への再入力となる。次に第2の実施
例について説明する。第2の実施例が第1の実施例と異
なる点は、周期範囲記憶部209の設定周期範囲を変更
可能にした点である。
【0025】前記第1の実施例のように、ピッチ抽出部
207で信号のピッチ周期を抽出した後、区間検出部2
04で検出された認識処理区間でピッチ周期が抽出され
たかどうか雑音・音声判定部208で判定し、該認識処
理区間でピッチ周期が抽出されたと判定されると、さら
に、該認識区間のピッチ周期が周期範囲記憶部209に
格納されているピッチ周期に対する設定周期範囲内であ
るか判定される。
【0026】本実施例では前記周期範囲記憶部209で
設定しているピッチ周期に対する設定周期範囲を変更可
能にし、周期範囲記憶部209に予め設定されているピ
ッチ周期の設定周期範囲を音声入力者のピッチ周期に応
じた設定周期範囲に設定することで特定の音声入力者の
み音声認識処理を行うことを可能とする。次に第3の実
施例について説明する。
【0027】第3の実施例が第1の実施例と異なる点
は、周期範囲記憶部209のピッチ周期に対する設定周
期範囲が入力音声のピッチ周期に応じて変更されるよう
にした点である。尚、第1および第2の実施例と同様の
処理を行うところはその説明を省略する。本実施例では
前記区間検出部204で区間検出された認識処理区間の
信号が雑音・音声判定部208で音声であると判定され
ると、周期範囲記憶部209に予め設定しているピッチ
周期に対する設定周期範囲を該認識処理区間から抽出さ
れるピッチ周期に応じて、周期範囲記憶部209のピッ
チ周期に対する設定周期範囲が変更される。
【0028】
【発明の効果】以上説明したように、本発明によれば、
雑音が混在する入力音声に雑音のリジェクト能力が高い
音声認識処理を行うことができるため、雑音に対して認
識処理が行われ、それにより誤った認識結果を出力して
いたことを減少させることが可能となり、認識結果の正
誤率を向上することができる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】本発明の実施例を示す図である。
【図3】従来例を示す図である。
【符号の説明】
1 認識部 2 ピッチ抽出部 3 判定部 4 周期範囲記憶部 101,201 入力手段 102,202 A/D変換部 103,203 特徴抽出部 104,204 区間検出部 105,205 辞書 106,206 照合部 107,210 距離閾値記憶部 108,211 認識判定部 207 ピッチ抽出部 208 雑音・音声判定部 209 周期範囲記憶部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号から音声部分と推定される
    信号の区間の音声認識候補を出力する認識部(1)と、 該入力音声信号からピッチ周期を抽出するピッチ抽出部
    (2)と、 前記認識部(1)で出力された区間の信号に対する音声
    認識候補と前記ピッチ抽出部(2)における該区間の信
    号のピッチ抽出結果から音声認識結果を出力する判定部
    (3)と、 を有することを特徴とする音声認識装置。
  2. 【請求項2】 前記ピッチ抽出部(2)によって前記区
    間の信号のピッチ周期が抽出され、かつ該ピッチ周期が
    周期範囲記憶部(4)の設定周期範囲内である場合の
    み、前記認識部(1)で出力された区間の信号に対する
    音声認識候補を音声認識結果として出力する判定部
    (3)を有することを特徴とする請求項1記載の音声認
    識装置。
  3. 【請求項3】 前記ピッチ周期に対する設定周期範囲が
    変更可能な周期範囲記憶部(4)を有することを特徴と
    する請求項1及び2記載の音声認識装置。
  4. 【請求項4】 前記ピッチ抽出部(2)で抽出されたピ
    ッチ周期が周期範囲記憶部(4)に予め設定されている
    設定周期範囲内である場合に、該抽出されたピッチ周期
    を基準とする設定周期範囲に変更される周期範囲記憶部
    (4)を有することを特徴とする請求項1及び2記載の
    音声認識装置。
JP04015491A 1992-01-30 1992-01-30 音声認識装置 Expired - Lifetime JP3114757B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04015491A JP3114757B2 (ja) 1992-01-30 1992-01-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04015491A JP3114757B2 (ja) 1992-01-30 1992-01-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPH05210397A true JPH05210397A (ja) 1993-08-20
JP3114757B2 JP3114757B2 (ja) 2000-12-04

Family

ID=11890273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04015491A Expired - Lifetime JP3114757B2 (ja) 1992-01-30 1992-01-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP3114757B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970071462A (ko) * 1996-04-15 1997-11-07 김광호 음성 인식 시스템에서의 인식 결과 거부 방법
JP2002091470A (ja) * 2000-09-20 2002-03-27 Fujitsu Ten Ltd 音声区間検出装置
WO2009034686A1 (ja) 2007-09-11 2009-03-19 Panasonic Corporation 音判定装置、音検知装置及び音判定方法
CN104078051A (zh) * 2013-03-29 2014-10-01 中兴通讯股份有限公司 一种人声提取方法、***以及人声音频播放方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970071462A (ko) * 1996-04-15 1997-11-07 김광호 음성 인식 시스템에서의 인식 결과 거부 방법
JP2002091470A (ja) * 2000-09-20 2002-03-27 Fujitsu Ten Ltd 音声区間検出装置
WO2009034686A1 (ja) 2007-09-11 2009-03-19 Panasonic Corporation 音判定装置、音検知装置及び音判定方法
US8352274B2 (en) 2007-09-11 2013-01-08 Panasonic Corporation Sound determination device, sound detection device, and sound determination method for determining frequency signals of a to-be-extracted sound included in a mixed sound
CN104078051A (zh) * 2013-03-29 2014-10-01 中兴通讯股份有限公司 一种人声提取方法、***以及人声音频播放方法及装置
WO2014153922A1 (zh) * 2013-03-29 2014-10-02 中兴通讯股份有限公司 一种人声提取方法、***以及人声音频播放方法及装置

Also Published As

Publication number Publication date
JP3114757B2 (ja) 2000-12-04

Similar Documents

Publication Publication Date Title
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US6574596B2 (en) Voice recognition rejection scheme
JP2996019B2 (ja) 音声認識装置
JPH0713591A (ja) 音声認識装置および音声認識方法
JPH05210397A (ja) 音声認識装置
JPH05119792A (ja) 音声認識装置
KR100587260B1 (ko) 음향 기기의 음성인식장치
EP1391876A1 (en) Method of determining phonemes in spoken utterances suitable for recognizing emotions using voice quality features
JPH04324499A (ja) 音声認識装置
JPH01321499A (ja) 音声認識装置
KR100246617B1 (ko) 연속 피치 정보를 이용한 음성 검출 방법
JPH0585917B2 (ja)
JPH0619491A (ja) 音声認識装置
JPH0316038B2 (ja)
JPH01222299A (ja) 音声認識装置
JP2844592B2 (ja) 離散単語音声認識装置
JPH05249987A (ja) 音声検出方法および音声検出装置
KR950001067B1 (ko) 음성인식장치
KR20000040572A (ko) 상관관계를 이용한 후처리 음성인식 방법
JPS6193499A (ja) 音声パタ−ン照合方式
JPS59124390A (ja) 候補削減音声認識方式
JPH03155599A (ja) 音声認識装置
JPH06100918B2 (ja) 音声認識装置
JPS6411960B2 (ja)
JPS59124392A (ja) 音声認識方式

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000830

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080929

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080929

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090929

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090929

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100929

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100929

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110929

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120929

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120929

Year of fee payment: 12