JP3091537B2 - 音声パターン作成方法 - Google Patents

音声パターン作成方法

Info

Publication number
JP3091537B2
JP3091537B2 JP03253865A JP25386591A JP3091537B2 JP 3091537 B2 JP3091537 B2 JP 3091537B2 JP 03253865 A JP03253865 A JP 03253865A JP 25386591 A JP25386591 A JP 25386591A JP 3091537 B2 JP3091537 B2 JP 3091537B2
Authority
JP
Japan
Prior art keywords
voice
section
point
points
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03253865A
Other languages
English (en)
Other versions
JPH0594197A (ja
Inventor
正典 宮武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP03253865A priority Critical patent/JP3091537B2/ja
Publication of JPH0594197A publication Critical patent/JPH0594197A/ja
Application granted granted Critical
Publication of JP3091537B2 publication Critical patent/JP3091537B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声パターンの作成に関
し、特に音声認識の性能向上に適した音声パターンを作
成する方法に関する。
【0002】
【従来の技術】図3は一般的な音声認識装置の一例を示
したものである。図中、(1)は分析部で、入力された
音声を分析し特徴量を算出する。(2)は特徴量蓄積部
で、分析部(1)で分析された特徴量を蓄積する。
(3)は端点検出部で、特徴量蓄積部(2)に蓄積され
た特徴量を用いて所望の単位の音声区間の始端および終
端位置を検出する。(4)はパターン作成部で、端点検
出部(3)で検出された始端および終端位置で示される
音声区間に対する音声パターンを特徴量蓄積部(2)に
蓄積された特徴量を基に作成する。(5)は認識部で、
パターン作成部(4)で作成された音声パターンを用い
て入力された音声を判定し、判定結果を図示しない外部
機器へ出力する。
【0003】以下、この装置の動作を説明する。なお音
声の単位としては、単語、音節、音素など種々考えられ
るが、以下では単語を例にする。
【0004】まず分析部(1)では入力信号に対して常
時分析が行われており、単語音声が入力されると、その
特徴量が一定時間、例えば10ミリ秒毎に抽出される。
抽出された特徴量は順次特徴量蓄積部(2)にて蓄積さ
れる。ここで特徴量としては、周波数スペクトル、音声
パワー、自己相関値、ケプストラムあるいはそれらの時
間的な変化量など種々のものが考えられ、端点検出部
(3)での端点検出の方法や認識部(5)での音声認識
の手法に応じて決められる。これらの特徴量について
は、多くの文献によって解説されている(例えば、古井
著「ディジタル音声処理」東海大学出版会、1985年
発行)。以下では、端点検出部(3)では周波数スペク
トル変化量と音声パワーを用い、パターン作成部(4)
では周波数スペクトルを用いるものとして説明する。
【0005】端点検出部(3)では、特徴量蓄積部
(2)にて蓄積された特徴量のうち、音声パワーと周波
数スペクトル変化量とを用いて入力信号中の単語音声区
間の始端および終端の位置を検出し、その結果をパター
ン作成部(4)に送る。パターン作成部(4)では、端
点検出部(3)にて検出された始端および終端の位置情
報を用い、対応する単語音声区間の周波数スペクトルを
特徴量蓄積部(2)から取り出し、所定の手続きにより
音声パターンを作成する。ここで、音声パターンとは、
例えば周波数スペクトルを100Hzの低域から600
0Hzの高域までを16に、単語音声区間を8にそれぞ
れ分割し、16×8の特徴量で表現されるものである。
ここでの分割数はあくまでも一例に過ぎず、また、必ず
しも分割数が常に一定値である必要もない。
【0006】認識部(5)では、パターン作成部(4)
で作成された音声パターンを用い、所定の手法により入
力された単語音声を認識し、認識結果を出力する。ここ
で、単語音声を認識する手法としては種々のものが考え
られるが、従来より広く用いられているDPマッチング
のほかにも、確率的な手法や、近年ではニューラルネッ
トを用いる手法などもあり、これらの手法については多
くの文献で詳しく解説されている(例えば前述の文献、
あるいは中川著「確率モデルによる音声認識」電子情報
通信学会、1988年、など)。
【0007】図2は、前述の端点検出部(3)の構成の
一例を説明するためのものであり、図中、(10)は音
声パワー判定部、(11)は音声パワー微分演算部、
(12)は周波数スペクトル変化判定部で、それぞれ音
声パワー、音声パワーの増減、周波数スペクトル変化量
による単語音声区間判定を試み、その結果を出力する。
(13)は始端候補演算部である。(14)は終端候補
演算部で、音声パワー判定部(10)、音声パワー微分
演算部(11)、周波数スペクトル変化判定部(12)
の出力を用いてそれぞれ単語音声区間の始端および終端
の候補点を選択するための基準値(以下このことを始端
尤度、終端尤度と呼ぶことにする)を算出する。(1
5)は始端判定部(16)は終端判定部で、始端尤
度、終端尤度を用いてそれそれ始端候補点および終端候
補点を決定する。
【0008】ここで、図4の信号波形図を用いて、図2
の端点検出部(3)の動作を具体的に解説する。同図
は、図2に観測点を設けて観測した波形であり、それぞ
れの波形の横軸はすべて時間を表しており、(20)は
単語音声区間を含む入力信号、(21)は音声パワー、
(22)は周波数スペクトル変化量、(23)は始端尤
度、(24)は終端尤度、をそれぞれ表す波形である。
(21)〜(24)については、図2の対応する観測点
に同じ番号を付している。また、(25)(26)はそ
れぞれ第1および第2の始端候補点、(27)(28)
はそれぞれ第1および第2の終端候補点である。
【0009】まず、音声パワー判定部(10)では、入
力信号(20)に対する音声パワー(21)を分析し、
音声パワーが所定のしきい値を超えているか否かを判定
し、判定結果を出力する。ここで所定のしきい値とは、
単語音声区間外すなわち雑音区間のパワーとの比較のた
めに用いられるもので、雑音パワーが時間とともに変化
する場合にはしきい値もこれに応じて変更される。また
音声パワー微分演算部(11)では、音声パワー(2
1)の増減傾向を調べるために、その傾きすなわち微分
値を算出する。一方、周波数スペクトル変化判定部(1
2)では、周波数スペクトル変化量(22)を分析し、
周波数スペクトル変化量が所定のしきい値を超えている
か否かを判定し、判定結果を出力する。ここで所定のし
きい値は、単語音声区間外すなわち雑音区間の周波数ス
ペクトル変化量に応じて変化させることも可能である。
【0010】次に、始端候補演算部(13)、終端候補
演算部(14)では、音声パワー判定部(10)、音声
パワー微分演算部(11)、周波数スペクトル変化判定
部(12)の出力をもとに、それぞれ始端尤度(2
3)、終端尤度(24)を算出する。算出には種々の計
算式が考えられるが、通常は、音声パワーが小さく、お
おむね音声パワーの傾きが大きくかつ始端に対しては増
加、終端に対しては減少方向であり、周波数スペクトル
変化量が大きい点に対して尤度が大きくなるように、そ
れぞれの出力を加重平均して算出する。始端判定部(1
5)では始端尤度(23)を用い、また終端判定部(1
6)では終端尤度(24)を用い、入力された単語音声
の始端および終端の位置を決定する。
【0011】このように音声区間の始端、終端の位置を
正確に検出することは、音声認識の性能を高めるために
重要な技術であるが、発声者の個人差、雑音の混入、複
数の音声区間の結合による変形(いわゆる調音結合)、
その他様々な原因で、音声区間の始端および終端を正確
に判定することはかなり困難である。
【0012】そこで通常は、始端および終端の候補点を
1つ以上選択し、始端と終端の組み合わせによって音声
パターンを作ることが行われている。図4においては、
始端尤度(23)終端尤度(24)それぞれにおいて、
極大点のうち、値の大きいほうから順に候補点を定めた
結果、第1の始端候補点(25)、第2の始端候補点
(26)、第1の終端候補点(28)、第2の始端候補
(27)が決定される。尚、ここでは極大点の値が大
きい順に所定の個数(始端、終端ともそれぞれ2個)だ
け選んだが、尤度にしきい値を設け、その値を超えたも
のをすべて候補点とするなどの方法もある。また、以上
のようにして判定された候補点を基準として、所定の時
間離れた点を1つ以上選び、基準の候補点と合わせて候
補点にする方法も考えられる。
【0013】このようにして端点検出部(3)で検出さ
れた単語音声区間の始端、終端の候補点のうち、少なく
とも一方の候補点が複数存在する場合、始端と終端との
組み合わせが複数組でき、従って入力された単語音声に
対する音声区間の候補も複数できる。パターン作成部
(4)では、これらの複数の音声区間候補に対しそれぞ
れ音声パターンを作成し、認識部(5)では、これらの
音声パターンに対してそれぞれ認識処理を行う。例えば
パターンマッチングによる認識処理ならば、これらの音
声パターンそれぞれについて予め登録された複数の標準
パターンとマッチングさせて距離を求め、距離が最も小
さくなるときの標準パターンに対応した認識結果を出力
する事になる。
【0014】以上に述べたように、始端、終端の位置を
正確に検出することは容易でないので、入力された単語
音声に対し、必要に応じて複数の単語区間候補を求め、
それぞれの区間毎の音声パターンを作ることで、音声認
識での認識精度の向上を図っているのが現状である。
【0015】上述の如き従来の音声パターン作成方法に
於ては、音声区間の始端に対する候補点と終端に対する
候補点の検出において、音声パワーの微分値の正負の違
いなどはあるにしても、本質的な選択基準に差はなく、
始端と終端それぞれに対する候補点はほぼ同じ程度の精
度で検出されていた。この様子をニューラルネットを用
いた単語音声認識における音声区間の始端、終端の位置
の検出誤差を認識率で検証したものが図6と図7に示さ
れている。
【0016】これらの図は、単語音声の始端および終端
を人の目で判定したものを基準にしており、図6は始端
位置だけをずらせた場合、図7は終端位置だけをずらせ
た場合であって、いずれも横軸はずらせた時間、立て軸
はずらせた後の始端、終端を用いて作成した音声パター
ンによる認識実験の結果を認識率で示している。これら
の図から明らかなように、特に始端の位置検出の誤差の
方が終端と比べて認識性能に及ぼす影響が大きいことが
わかり、従来のように、始端と終端を同じ基準で選択し
ていては、認識性能の大幅な改善は望めない。
【0017】
【発明が解決しようとする課題】本発明の音声パターン
作成方法は、音声区間の始端の位置検出の誤差の方が終
端と比べて認識性能に及ぼす影響が大きいことに鑑みて
なされたものであり、音声区間の始端の位置精度を音声
区間の始端のそれより高めた音声区間の検出処理によっ
て、認識性能の優れた音声パターンを作成する事を目的
としている。
【0018】
【課題を解決するための手段】本発明の音声パターン作
成方法は、入力された音声を含む信号から所望の単位の
音声区間の始端および終端に対する候補点をそれぞれ1
つ以上検出し、検出された始端および終端に対する候補
点の組み合わせにより得られる1つ以上の区間候補に対
してそれぞれ特徴量を算出して音声パターンを作成する
ものであって、始端に対する候補点の数を終端に対する
候補点の数より大きく設定したものである。
【0019】
【作用】本発明の音声パターン作成方法によれば、音声
区間の始端に対する候補点の数Nsが終端に対する候補
点の数Neとが、Ns≧Neであるので、終端より始端
を重視した音声区間の候補を見いだすことができる。
【0020】
【実施例】本発明の音声パターン作成方法は、一般的に
図3の如き音声認識装置に用いられるものであって、分
析部(1)、特徴量蓄積部(2)、パターン作成部
(4)並びに認識部(5)の構成動作は、前述の従来装
置の場合と基本的に同じであり、従来装置と異なるとこ
ろは端点検出部(3)にある。
【0021】このような本発明方法を実現するための端
点検出部(3)の構成の一例を図1に示す。
【0022】同図において、(10)〜(15)は前述
した図2で同一符号を付したと同様の「音声パワー判定
部」〜「始端判定部」を示しており、基本的動作もこれ
らと同様である。
【0023】同図の端点検出部(3)の特徴とするとこ
ろは始端候補点カウンター(17)にあり、該カウンタ
ー(17)は、始端判定部(15)で検出された入力音
声の単語音声区間の始端候補点の数を計数するのであ
る。そして、このカウンター(17)での計数結果は、
終端判定部(16)に入力される。従って、終端判定部
(16)は単語の音声区間の終端候補点を検出する際、
始端候補点カウンター(17)で計数された始端候補点
の数が終端候補点の数より大きくなる(等しくても良
い)ように設定するのである。
【0024】具体的には、図4の信号波形図において、
始端尤度(23)の極大点の値の大きいものから順に
(25)と(26)が始端の候補点として検出された場
合、始端候補点カウンター(17)の出力は「2」とな
り、終端判定部(16)では、終端尤度(24)の極大
点の値の大きいものから順に(28)(27)の2点
が終端の候補点として検出された時点で処理が打ち切ら
れる。勿論、終端尤度(24)の極大点が1つしかなけ
れば、その点が終端候補となる。
【0025】本発明の音声パターン作成方法を実現する
ための端点検出部(3)の他の実施例の構成を図5に示
す。尚、図2と同一動作をするものには、図2と同一符
号を付している。
【0026】図5の端点検出部(3)が図2のそれと異
なるところは、始端候補演算部(13)で算出された始
端尤度(23)に1より大きい所定の係数を掛けるため
の始端尤度加重係数(18)を設定した点にある。この
ように、始端尤度を実際より大きく設定することで、始
端尤度の極大点の値が所定のしきい値を超えるものを始
端候補点として検出する始端判定部(15)に於ては、
必然的に始端候補点の数が従来より多く設定される可能
性が高くなるのである。
【0027】以上の説明に於ては、音声認識のための音
声パターンの作成を例にしたが、例えばニューラルネッ
トにおける音声パターンの学習に、ひとつの音声に対し
複数の音声区間を用いることで、認識時の端点検出の誤
差に強くなり、高い認識性能を実現することができる。
【0028】
【発明の効果】以上で述べたように、本発明の音声パタ
ーン作成方法に於ては、終端よりも始端を重視して音声
区間の候補点を検出するので、精度の高い音声認識が実
現できる。
【図面の簡単な説明】
【図1】本発明の音声パターン作成方法に採用される音
声区間の始端検出部の一実施例の構成を示す構成図、
【図2】従来の音声パターン作成方法に採用される音声
区間の始端検出部の一実施例の構成を示す構成図、
【図3】音声認識装置の一般的な概略構成を示す構成
図、
【図4】信号波形図、
【図5】本発明の音声パターン作成方法に採用される音
声区間の始端検出部の他の実施例の構成を示す構成図、
【図6】ニューラルネットを用いた単語音声認識におけ
る音声区間の始端の位置の検出誤差を認識率で検証した
図、
【図7】ニューラルネットを用いた単語音声認識におけ
る音声区間の終端の位置の検出誤差を認識率で検証した
図、
【符号の説明】
(13) 始端候補演算部 (14) 終端候補演算部 (15) 始端判定部 (16) 終端判定部 (17) 始端候補点カウンター (18) 始端尤度加重係数
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 11/02 G10L 15/04 G10L 15/16 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音声を含む信号から所望の単
    位の音声区間の始端および終端に対する候補点をそれぞ
    複数検出し、検出された始端および終端に対する候補
    点の組み合わせにより得られる複数の区間候補に対して
    それぞれ特徴量を算出して音声パターンを作成するもの
    であって、始端に対する候補点の数が終端に対する候補
    点の数を下回らないようにしたことを特徴とする音声パ
    ターン作成方法。
  2. 【請求項2】 上記始端および終端に対する候補点の検
    出にあたっては、端点である度合いを所定の方法で算出
    し、それぞれ度合いの大きなものから順に所定の個数だ
    け始端および終端に対する候補点とすることを特徴とす
    る請求項1記載の音声パターン作成方法。
JP03253865A 1991-10-01 1991-10-01 音声パターン作成方法 Expired - Fee Related JP3091537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03253865A JP3091537B2 (ja) 1991-10-01 1991-10-01 音声パターン作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03253865A JP3091537B2 (ja) 1991-10-01 1991-10-01 音声パターン作成方法

Publications (2)

Publication Number Publication Date
JPH0594197A JPH0594197A (ja) 1993-04-16
JP3091537B2 true JP3091537B2 (ja) 2000-09-25

Family

ID=17257209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03253865A Expired - Fee Related JP3091537B2 (ja) 1991-10-01 1991-10-01 音声パターン作成方法

Country Status (1)

Country Link
JP (1) JP3091537B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111697A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 音声反応装置と音声認識装置
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
JP4265908B2 (ja) 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
JP5047900B2 (ja) * 2008-08-01 2012-10-10 ヤマハ発動機株式会社 発話区間検出装置
JP6648377B2 (ja) * 2015-09-28 2020-02-14 本田技研工業株式会社 音声処理装置及び音声処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(平成3年10月)2−5−10,p.67−68

Also Published As

Publication number Publication date
JPH0594197A (ja) 1993-04-16

Similar Documents

Publication Publication Date Title
EP1083542B1 (en) A method and apparatus for speech detection
JPS62217295A (ja) 音声認識方式
CN110599987A (zh) 基于卷积神经网络的钢琴音符识别算法
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
KR20060072504A (ko) 음성 인식 방법 및 장치
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP3091537B2 (ja) 音声パターン作成方法
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
JPH1185190A (ja) 音声認識装置及び音声認識方法
JPH05119792A (ja) 音声認識装置
JP3493849B2 (ja) 音声認識装置
JP2853418B2 (ja) 音声認識方法
JP2502880B2 (ja) 音声認識方法
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JP2991288B2 (ja) 話者認識装置
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
KR100304665B1 (ko) 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법
JP2001083978A (ja) 音声認識装置
JP2989231B2 (ja) 音声認識装置
JPH1097269A (ja) 音声検出装置及び方法
JPS59149400A (ja) 音声入力装置
JP3049711B2 (ja) 音声処理装置
KR100349656B1 (ko) 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
KR101195742B1 (ko) 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees