JPH0449720B2 - - Google Patents

Info

Publication number
JPH0449720B2
JPH0449720B2 JP58034979A JP3497983A JPH0449720B2 JP H0449720 B2 JPH0449720 B2 JP H0449720B2 JP 58034979 A JP58034979 A JP 58034979A JP 3497983 A JP3497983 A JP 3497983A JP H0449720 B2 JPH0449720 B2 JP H0449720B2
Authority
JP
Japan
Prior art keywords
distance
vector
standard pattern
input
vector sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58034979A
Other languages
English (en)
Other versions
JPS59160199A (ja
Inventor
Fumio Maehara
Juichi Taniguchi
Hisayo Kusuhara
Ryoji Sagara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58034979A priority Critical patent/JPS59160199A/ja
Publication of JPS59160199A publication Critical patent/JPS59160199A/ja
Publication of JPH0449720B2 publication Critical patent/JPH0449720B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は不特定の話者を対象とする音声認識装
置に関する。
従来例の構成とその問題点 従来、音声認識装置では入力音声信号を分析す
ることによつて得られるn次元の特徴ベクトル系
列{a1、a2、……aI}に対し辞書としてあらかじ
め装置内に登録してあるP個の標準パターンベク
トル系列{b1 1、b1 2、……b1 J}……{bp 1、bp 2、……
bp K}の中からこれと距離の最も近いもの、もしく
は最も類似性の大きいものをもつて認識結果とし
ているが、このとき入力ベクトル系列{a1、a2
……、aI}と標準パターンベクトル系列のうちの
1つ、例えば{bl 1、bl 2、……bM}(但しl=1〜
P)の比較に際して{a1、a2、……、aI}の1要
素ベクトルaiと{bl 1、bl 2、……、bl M}の中の1要
素ベクトルbl nの市街距離、もしくはユークリツ
ド距離を計算し、これをもとに2つのベクトル系
列の総距離を、ダイナミツクプログラミングや線
形伸縮などの手法を用いて計算するものが大部分
である。
但し、市街距離、ユークリツド距離は次式で与
えられる。
ai={ai、1、ai2、……、ai、N} bl n={bl n,1、bl n,2、……、bl n,N}とするとき cl,nNr=1 |ai、r−bl n,rr| (市街距離) yl,nNr=1 (ai、r−bl n,r2 (ユークリツド距離) しかし、市街距離や、ユークリツド距離では登
録されている標準パターンを抽出した話者と、実
際に認識しようとする話者が異なる。いわゆる不
特定話者認識の場合に十分な認識率が得られてい
なかつた。これは話者毎のスペクトルの構造の微
細な変動に起因するものである。
音声信号の一区間、例えば10mS程度を切りと
つて、これをフーリエ変換やフイルタバンクなど
の手段によつて周波数分析を行つた時、幾つかの
周波数帯にピークが現われる。これはフオルマン
トと呼ばれ音韻を特徴づける重要なパラメータで
ある。フオルマントとは人間の声道を、ある伝達
関数を持つフイルタとしてとらえた時のフイルタ
の極、すなわち共振点に相当する。このうち共振
周波数の低いものから順に第1フオルマント、第
2フオルマント、……第nフオルマントといい、
特に第1、第2フオルマントを中心に比較的低次
のフオルマントは音韻を特徴ずけるのに非常に重
要な役割をはたすことが一般に知られている。
フオルマント周波数と帯域幅が決定されれば、
音韻はほぼ決定できるが、しかし又、個人によつ
バラツキがありこれが不特定話者認識における認
識率低下の原因となつている。
例えば|a|(「ア」)と発声された音声波形の
一部を切り出してピツチ成分が現われない様な比
較的広帯域なハンドパスフイルタ群で周波数分析
を行うと第1図Aに示すようにkHzを中心に2つ
の山ができる。これが第1、第2フオルマント
(F1,F2)相当する。又、第3フオルマント
(F3)は3とH2付近に現われる。
これに対して|i|(「イ」)ではF1300Hz、
F22.5kHz、F33kHzとなる(第1図B) しかしF1、F2、F3……の値は個人によつて微
妙な差が有る。すなわち同じ|a|と発声された
音でも話者Aと話者Bでは第1図C,Dのように
フオルマントの位置が多少異なる。この話者間に
おけるフオルマント位置のバラツキが従来の音声
認識装置を不特定話者に適用した認識率の低下の
原因となつていた。
発明の目的 本発明は上記欠点に鑑み、フオルマント周波数
の個人差による不特定話者認識における認識率の
低下を改善する音声認識装置を提供することを目
的とする。
発明の構成 本発明は、特徴ベクトルの列を出力する周波数
分析手段と、あらかじめ周波数分析された標準パ
ターンベクトル系列を記憶手段と、前記周波数分
析手段の出力と、前記標準パターンベクトル系列
の各々を比較する比較手段と、前記比較の結果最
小の距離を与える標準パターンベクトルを認識結
果とする判断手段とを備えた音声認識装置であ
り、入力パターンペクトル列の各ベクトルと標準
パターンベクトル列の各ベクトルを隣接周波数ど
うしの組に分け各組毎に平行移動させながら比較
し、その距離が最小となる対応を求め、その時の
距離の総和をもつて2ベクトルの間の距離とする
ことにより分者間のフオルマント位置の個人差を
軽減し、不特定話者認識における認識率の向上を
はかることのできるものである。
実施例の説明 以下、本発明の一実施例について図面を参照し
ながら説明する。
第2図は本発明の一実施例における音声認識装
置のブロツク図である。同図において、1は入力
音声をパラメータ分析してN次元のパラメータベ
クトル列{a1、a2、……、aI}に遂次変換するパ
ラメータ分析部で、フイルタバンク、フーリエ変
換器なの周波数分析器により構成される。2はス
イツチで、標準パターン作成時にはB側に、パタ
ーン比較時にはA側に切り換る。3はパターン記
憶部で、パラメータ分析部1により作成されたN
次元のパラメータベクトルの列を標準パターン
{b1 1、b1 2、……、b1 J}、……、{bp 1、bp 2、……bp K

として記憶する。
4は移相部でK個の移相器より成り、標準パタ
ーンベクトル列に属する1ベクトルbl nを bl n={bl n,1、bl n,2……、bl n,N}とする時、これをK
個の組 に分割してその各々を対応する移相器によみ出し
てシフトする。5は部分距離計算部で、K個の部
分距離計算器より成り、シフトしながら順次出力
される各移相器の出力と、同じくK個の組に分割
された入力パラメータベクトルの1つ ai={ai、1、ai,2、……ai,r} ……{ai,t、ai,t+1……ai,N} の各組について距離を計算する。
6は部分判定部で、K個の部分判定器から成り
順次シフトしながら計算した各移相器出力のうち
最小のものを選択し出力する。7は総合距離計算
部で、部分判定部15より得られたK個の総和を
求めると共に、以上の動作を入力パラメータベク
トル列のi=1〜Iについて行つた結果を順次累
積加算してゆく。8は判定部で、以上の操作を、
標準パターンベクトルのl=1〜Pに対して行い
その結果得られた距離が最小のものをもつて認識
結果として信号線9に出力する。
次に上記のように構成された装置の動作につい
て、標準パターン作成時、パターン比較時とに分
けて各々説明する。
まず標準パターン作成時にはスイツチ2をB側
に接続し入力された音声信号をパラメータ分析部
1よりN次元のパラメータベクトルの列{a1
a2、……、aI}を遂次変換した後、パターン記憶
部3に記憶させる。この動作を9回繰り返すこと
によりパターン記憶部3内に標準パターンベクト
ル列{b1 1、b1 2、……、b1 J}、……{bp 1、bp 2、……

bp K}が記憶される。
次にパターン比較の場合について説明する。パ
ターン比較に際しては、スイツチ2をA側に接続
し、パラメータ分析部1は入力音声を入力パラメ
ータベクトル列{a1、a2、……、aI}に変換し部
分距離計算部5に入力する。一方パターン記憶部
3は標準パターンベクトル列の1つ{bl 1、bl 2、…
…、bl M}の各ベクトルをK個の組に分け移相部
4のK個の移相器に入力する。すなわちベクトル
bl nを{bl 1、bl 2、……、bl M}に層する1ベクトルと
しbl n={bl n,1、bl n,2……bl n,N}とするとき、これを に分割しこれを移相部4の入力とする。
移相部4の各位相器では、次段の部分距離計算
部5で部分距離が計算される毎に、その出力をシ
フトし、同じように組分けされた入力パラメータ
ベクトル列の各ベクトルとの間でパターンをずら
せながら距離計算を行う。
すなわち入力パラメータベクトル列{a1、a2
……、aI}の一ベクトルai(i=1〜I)の各要
素を同じくK個の組に分割する。すなわち この各組を部分距離計算部5の各部分距離計算器
の一方の入力とし、標準パターンベクトルのそれ
を他方の入力とする。この時第1組目の距離を市
街距離で表わした時 c1dSv=1 |ai,v−bl n,(v+d)| ……(1) で表わされる。この時のdが移相部4でのシフト
量となる。以下第K組迄同様にして距離ck,vが定
義できる(k=1〜K)。
部分判定部6では、部分距離計算部5より順次
与えられる距離ck,v(但し、−D1dD2:D1、
D2はシフトの量を示す定数)のうち最小のもの
ck,vnioを判定し、総合距離計算部7に入力する。
総合距離計算部7では部分判定部6から得られる
K個の部分距離の総和を求め、さらに、この総和
を、標準パターンベクトル列 {bl 1、bl 2、……bl n、……bl M}のm=1〜Mにわた
つて累積し、これを入力パターンベクトル列
{a1、a2、……aI}との距離clとして総合判定部
8に出力する。すなわち cl=Mm=1 Kk=1 ck,vnio ……(2) 総合判定部8では以上の動作を標準パターンベク
トル列のl=1〜Pについて行い、その時最小の
距離を与える標準パターンベクトル列をもつて認
識結果として信号線9に出力する。
次に移相部4のシフト動作とパターン比較につ
いて第3図を用いてさらに説明する。
第3図Aは話者甲によつて発せられた入力パタ
ーンベクトル列の1つaiを示し、 ai={ai,1、ai,2、……ai,N}とする。
同図Cは標準パターンベクトル列中の入力パター
ンベクトルに対応するベクトルbl nを示し、 bl n={bl n,1、……、bl n,N} とし、これらをK個のブロツクに分割した各々を
B1〜B4とする。
この時、前述の部分距離 c1dSv=1 |ai,v−bl n,(v+d)|(−D1dD2)を計算
する動作は、第3図Bに示す様に標準パターンの
B1部を左から右に順次1サンプルずつシフトし
てその距離を順次計算してゆくことに他ならな
い。
以上のように本実施例によれば標準パターンベ
クトルをK等分し順次シフトする移相部4、同じ
くK等分された入力パターンと移相部4の出力と
の距離を順次計算する部分距離計算部5とその出
力のうち最小距離のものを判定する部分判定部6
を設けることにより入力パターンに対して標準パ
ターンの各部を平行移動させながら比較すること
により発話者が異なることによるフオルマントの
位置のずれを補正するパターン比較法を実現する
ことができる。
なお本分中式(1)で与えられる市街距離c,dはこ
れをユークリツド距離やLPC距離等他の距離尺
度を用いても同様に実現できる。
又、総合距離計算部において式(2)で与えられる
累積距離clの計算は、線形伸縮やD.P.マツチング
の手法を併用して行うこともできる。
発明の効果 以上のように本発明の音声認識装置は標準パタ
ーン並びに入力パターンをK個の組に分割し、各
組を個別に平行移動させながらその距離が最小と
なる時の距離の総和をもつて2つのパターンの距
離とすることにより、フオルマントの個人差に起
因する距離の誤差を軽減し不特定話者音声認識に
おける認識率の改善を図ることができ、その工業
的価値は大なるものがある。
【図面の簡単な説明】
第1図A〜Dはスペクトル形状の差異を説明す
るための波形図、第2図は本発明の一実施例にお
ける音声認識装置のブロツク図、第3図は同実施
例のパターン比較方法を説明するための波形図で
ある。 1……パラメータ分析部、2……スイツチ、3
……パターン記憶部、4……移相部、5……部分
距離計算部、6……部分判定部、7……総合距離
計算部、8……総合判定部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号を周波数分析し、N次元の特徴
    ベクトル列{a1、a2……、aI}を出力する周波数
    分析手段と、あらかじめ周波数分析されたP組の
    標準パターンベクトル列{b1 1、b1 2、……、b1 J}…
    …、{bp 1、bp 2、……、bp K}を記憶する記憶手段と、
    前記入力特徴ベクトル列{a1、a2、……aI}の一
    要素ベクトルai(i=1〜I)と、前記標準パタ
    ーンベクトル系列{b1 1、b1 2、……、b1 J}……、
    {bp 1、bp 2、……、bp K}の一要素ベクトルbl n(l=1
    〜P)を比較するに際し、bl nの要素{bl n,1、bl n,2
    ……、bl n,N}を隣接周波数どうしの組{bl n,1
    bl n,2、……、bl n,S}……{bnl t、bl n,t+1、……bl n
    ,N

    に分割し、これを同様に分割したaiの該当周波数
    帯域を中心として、各組毎に平行移動し、その距
    離が最小となる対応を求め、その時の各組の距離
    の総和をもつてベクトルaiとbl nの距離とし、この
    尺度によつて前記周波数分析手段の出力{a1
    a2、……、aI}と前記標準パターンベクトル系列
    {b1 1、b1 2、……、b1 J}……、{bp 1、bp 2、……、bp K

    の各々を比較する比較手段と、前記比較の結果最
    小距離を与える標準パターンベクトル{bl 1、bl 2
    ……bl M}をもつて認識結果とする判定手段とを
    具備する音声認識装置。
JP58034979A 1983-03-02 1983-03-02 音声認識装置 Granted JPS59160199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58034979A JPS59160199A (ja) 1983-03-02 1983-03-02 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58034979A JPS59160199A (ja) 1983-03-02 1983-03-02 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59160199A JPS59160199A (ja) 1984-09-10
JPH0449720B2 true JPH0449720B2 (ja) 1992-08-12

Family

ID=12429260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58034979A Granted JPS59160199A (ja) 1983-03-02 1983-03-02 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59160199A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7090953B1 (ja) * 2021-10-05 2022-06-27 HarvestX株式会社 農業支援システム、農業支援装置、農業支援方法及び農業支援プログラム
EP4060555A1 (en) 2021-03-17 2022-09-21 Robovision Improved visual servoing
WO2022194883A2 (en) 2021-03-17 2022-09-22 Robovision Improved visual servoing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4060555A1 (en) 2021-03-17 2022-09-21 Robovision Improved visual servoing
WO2022194883A2 (en) 2021-03-17 2022-09-22 Robovision Improved visual servoing
JP7090953B1 (ja) * 2021-10-05 2022-06-27 HarvestX株式会社 農業支援システム、農業支援装置、農業支援方法及び農業支援プログラム

Also Published As

Publication number Publication date
JPS59160199A (ja) 1984-09-10

Similar Documents

Publication Publication Date Title
US5749073A (en) System for automatically morphing audio information
Watanabe Formant estimation method using inverse-filter control
JP3055691B2 (ja) 音声認識装置
EP0686965A2 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
US4991216A (en) Method for speech recognition
JPH0638199B2 (ja) 音声認識装置
WO2010097870A1 (ja) 音楽検索装置
JPS6128998B2 (ja)
JPH0772900A (ja) 音声合成の感情付与方法
JPH0449720B2 (ja)
JPH09319391A (ja) 音声合成方法
Das Some experiments in discrete utterance recognition
KR101056567B1 (ko) 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및그 방법
Dognin et al. Parameter optimization for vocal tract length normalization
JP2577891B2 (ja) 単語音声予備選択装置
JPS6048040B2 (ja) 音声認識における個人差の学習処理方法
JPH0246960B2 (ja)
KR19990087730A (ko) 불특정 화자에 대한 실시간 음성인식 시스템 및 이것의 방법
JPH0574080B2 (ja)
CN115295014A (zh) 一种提高拼音模糊匹配正确率的拼音相似度计算方法
Clermont Formant contour extraction by a temporally constrained search of the spectral resonance space
JPH05313695A (ja) 音声分析装置
JPH0632010B2 (ja) 音声認識装置
Funada Speech analysis using a time‐varying ARX model for separating the source‐tract coupling of vowels
Mito et al. Real‐time pitch detection with a digital signal processor