JPS61198300A - 音声の標準化の方法および装置 - Google Patents

音声の標準化の方法および装置

Info

Publication number
JPS61198300A
JPS61198300A JP61004417A JP441786A JPS61198300A JP S61198300 A JPS61198300 A JP S61198300A JP 61004417 A JP61004417 A JP 61004417A JP 441786 A JP441786 A JP 441786A JP S61198300 A JPS61198300 A JP S61198300A
Authority
JP
Japan
Prior art keywords
channels
frequency
spectral
signal
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61004417A
Other languages
English (en)
Inventor
ピエール・マチユー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JPS61198300A publication Critical patent/JPS61198300A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声の波形を認識できるように音声の波形の
分類に有用な方法および装置に関し、さらに詳しくは、
このような分析の結果をさらにシステムにより使用でき
る、実質的に同一のフィルター特性係数を有する複数の
帯域通過フィルターを利用する。音声波形の実時間スペ
クトル分析に関する。
従来の技術及び発明が解決しようとする問題声、。
音声を複数の音声の要素または音素に変えることができ
ることは、長い間知られている。音素は周波数の内容の
パターンに基づく認識可能な独特の時間からなることが
発見された。母音の場合において、明確な共鳴が発見さ
れ、そして普通にフォルマントと呼ばれる。広範なデー
タが男性、女性および子供によって発声される母音の音
素の平均のフォルマントの周波数および相対的強さにつ
いて発表されてきている。とくに、母音中に発声するこ
とが観測された最初の3つのフォルマントの周波数を包
含するこのようなデータは入手可能である。また、他の
母音ではない音素の周波数のパターンおよび強度を示す
データを入手することができる。
このような初期の研究に基づいて、人間の音声(s p
 e e c h)を[解読する(decoding)
」汎用なかつ信頼できる方法は長い間探究されてきてい
る。多くの分析技術が考えられかつ用いられてきたが、
いずれも完全には成功していない。従来用いられてきて
いる技術のうちで、すべては2つの広いカテゴリー、す
なわち、時間領域(t ime  domain)分析
および周波数領域(frequency  domai
n)分析、の範囲内に入る。しかしながら1周波数領域
は時間領域のフーリエ変換として数学的に考えることが
できるので、時間領域分析および周波数領域分析の両者
は、同一データを検査する現実において、異るの形態に
あるにかかわらず、データを表わす時間領域信号が周波
数領域において見たすべての信号の、時間の瞬間におけ
る、合計であるようなものである。
時間領域分析をさらに詳しく考察すると、このような技
術は音声の時間変動表示において認識可能な独特の特性
の組が存在するということに頼る。このような独特性が
確立されると、独特の特徴を既知のまたははっきり示さ
れる標準の特徴と音声要素の適当な時間分離において「
パターン合致」させるっことが可能であろう、このよう
な技術は典型的にはある形の周波数を分離して、音声の
データの分析をパターン合致操作において簡素化するこ
とを必要とする。これは、もちろん1分析は時間領域に
おいて純粋ではないことを意味する。パター合致アプロ
ーチを利用するとき、これらの技術は一般に分析装置を
「訓練(train)」して特定の話手による特定の発
声を認識できるようにすることを必要とする。なぜなら
、異る話手は同一の語句を発生するとき、異る周波数の
内容(frequency  content)を生成
するであろうからである。さらに、このような技術は一
般に伝達のため人間が普通に使用する会話的に結合され
た音声よりはむしろ孤立された音声の分析に限定される
伝統的な周波数領域技術は、一般に、主要な分析器具と
して複数の等しい帯域幅を用いてきた。
分析はある期間にわたって実施しなければならないので
、ここでこの分析も周波数領域において一般に純粋では
ない、従来、このような分析もくろみは、また1発せら
れた音声を同定するために周波数領域におけるパターン
の独特性に依存し、このことは分析者が特定の話手の音
声を認識するために「訓練」されることを意味する。こ
のような分析は、また、一般に会話的に結合された音声
を排除するように限定される。
最近開発された分析の第3の型は、線型予測コーディン
グ(Linear  Predictive  Cod
ing)(LPC)として知られており、合致する信号
を入力に発声のそれにシミュレートすることを試みるた
めに内部のシンセサイザーを利用する。このような合致
が達成されたとき、合成の「平均の」声道から、音声要
素を同定することができる。それらの性質により、この
ようなシステムは通常会話的に接続された音声を処理す
ることができず、そして典型的には特定した個人の音声
を理解できるようにするために言葉範囲において「訓練
」を典型的には必要とする。
このような先行のシステムの例は米国特許において見出
され、それらのいくつかを下に簡単に説明する。限定さ
れた帯域幅の能力を有する伝達ラインにわたる音声信号
の伝達を改良するために、帯域内でエネルギーを表示す
るために複数の帯域幅を利用する振幅棟準化技術は、米
国特許第3゜471.648号に記載されている。米国
特許第3.483.325号は1対のフィルターを通す
帯域幅の圧縮を利用する音声処理システムを教示してお
り、前記フィルターの一方は固定された帯域幅を有し、
そして他方は入力音声信号の下位の帯域幅から発生する
複数のパターン中心信号に応答して同調可能である。
音声シンセサイザーは米国特許第3,551゜588号
において教示されており、ここで複数の高い特性係数(
Q)のフィルターを使用して入力信号を試料採取してい
る0次いで、Q係数を次の信号の増分についての準備に
おいてクランピング(c l amp i ng) L
、、てフィルターを排出することによって減少させる。
ディジタル的時間の圧縮は米国特許第3,571,51
5号に教示されている。
二進事象マーカー(binary  eventmar
ker)を提供する並列のアナログチャンネルを利用す
る、音声の認識に対するアナログのアプローチは、米国
特許第3.647.978号に記載されている。この特
許は前もって決定したパターンとの尤度比の比較を用い
てr3頭の入力音声を同定している。米国特許第3,6
62,115号は自動相関関係の技術を開示しており、
この技術を使用して部分的自動相関関係係数の組を展開
することができ、この係数の組を記憶しかつ引続く音声
合致または再生に使用できる。
複合のアプローチは米国特許第3 、755 、627
号により提供され、これによってパワースペクトル密度
および傾斜−強さの積の両者を使用して、記憶された言
葉範囲に対する合致のための有声化された入力の独特の
特性を確立している。記憶された言葉範囲の音声シンセ
サイザーの他の例は、米国特許第3,803,358号
により提供される。
パターン認識システムにおいて使用されるパターン間の
類似性を計算するコンピュータシステムは、米国特許第
3,818,722号に記載されている。特定の話す個
体の同定を可能とするピッチの情報は、米国特許第3.
830.977号に記載される音声シンセサイザーにお
いて利用されている。音声の圧縮および再構成のために
主として意図される。特徴抽出技術を利用するより複雑
なシステムは、米国特許第3,883,850号により
提供される。抽出された特徴の各々は、一般に、特徴抽
出システムの特定のチャンネルの相関関係可能であり、
次いで前記チャンネルは対数的に圧縮され、そして認識
二次的システムにおいて使用される。
特定の時間領域音声認識システムは米国特許第3.94
0.565号に記載されており、ここで−70セツサー
は周波数の群について作用してゼロ交差パターンを発生
させ、試料採取は声門のパルス励起速度において実施さ
れる。繰返して使用できるフィルターを使用するディジ
タル適応線型予測装置は米国特許第4,038,495
号により示唆されており、ここで伝送される信号が生成
されてエラー信号を発生するために第1合成音声信号と
比較される実際の音声の入力の複合体となる。
米国特許第4.038.503号は音声認識システムを
記載しており、ここで音声可聴信号は分析されて発声さ
れた語句に対応する時間の主観的間隔にわたるフォルマ
ント周波数の挙動を決定する。繰返される短い言葉のパ
ワースペクトルは時間間隔の短い下位間隔について発生
される。ビーりのパワースペクトルは平滑であり、そし
て周波数帯域の等化スペクトルの選択された群を既知の
言葉範囲を同定するデータベースと比較する。
速いフーリエ変換(FFT)の分析アプローチを利用す
る連続的音声の認識法は、米国特許第4.227,17
6号により教示されている6次いで、FFTパターンを
キーワードのテンブレー′  トのターゲットパターン
を用いる尤度確率により比較して連続する可聴入力信号
中に存在するキーワードを認識する。速いフーリエ変換
技術は米国特許第4,227,177号に開示されてい
る。
連続基準に基づく音声認識は、米国特許第4゜284.
846号に開示されおり、ここでデルタ変調器は一次標
準化技術として役立ち、これは音素の記憶表との比較を
可能とするディジタル信号を発生する0種々の決定因子
が含まれて、音素を母音および異る型の子音のグループ
に適当にグループ化することにより適切な音素について
のサーチを簡素化する。入力信号をさらに濾波して、入
力信号に基づいて決定を実施して適当な音素のグループ
を同定する。
音声認識のための装置および方法は、米国特許i4.3
43.969号に記載されている。この装置によると1
個人の音声における所定の音の発音を特定の線型フィル
ターの出力として近似させることができる。声道逆転フ
ィルター(i nverse  filter)のバン
ク[各々は音声の波形入力に接続されており、各々の声
道逆転フィルターは特定の音声の音に対応するコンプレ
ックス(complex)フーリエ変換関数を有する]
により、音のライブラリー(l i brary)の1
つを選択する。
予備記憶され分離された語と比較することにより音声を
認識するために線型予測コーディングを用いるシステム
の一例は、米国特許第4,349.700号中に開示さ
れている。米国特許第4゜383.135号は入る音声
信号を2つの別々の周波数成分に分離ごとを開示してお
り、これらの成分の各々を処理して周波数成分の周波数
に比例するDC信号を提供し、かつまた整流して周波数
成分のエンベロープ(envelope)に対応する増
幅信号を生成する0次いで、種々の関係する信号を生成
し、これらの信号を記憶された語句の辞書と尤度比較器
により比較する。音声認識マイクロコンピュータ−シス
テムの他の例は米国特許第4,388,495号中に記
載されており。
このシステムは可変ゼロ交差カウントの限界値(var
iable  zero  crossing  co
unt  threshold)を、記憶された簡素化
された、話手に独立の1選択された言葉範囲と比較する
ために、語認識マイクロコンピューター機能についての
制御信号として利用する。
一般的米国の方言の音素の代表的表は、米国特許第4,
214,125号に記載されている。
以上から、現存するシステムは話手に独立のパラメータ
ーと言葉範囲の大きさとの間の交換(trade−of
f)により制限されるように思われる0話手の独立性、
すなわち、「同一の」事柄を言ういかなる人をも理解す
る能力、は大きい利用可能なW葉範囲を犠牲にして獲得
される0話手の独立性は1通常、多くの人の多くの「同
一の」発声を平均しかつパターン認識装置において得ら
れた平均を合致させることにより達成される。これは通
常達成可能な言葉範囲を比較的小さいものにする。言葉
範囲の大きさよりもさらに基本的なものは、十分に独特
の言葉範囲におけるすべての語句を作ることの必要性で
あり、独特性がないため、独特の音声の認識は存在しえ
ない。
発明が解決しようとする問題点 本発明の主目的は、所定の音素を個々の話手に無関係に
認識できるように発声された音声を受取かつそれらを標
準化することのできる装置を提供することである。
本発明の他の目的は、実時間の速度で音声を認識できる
装置を提供することである。
本発明の他の目的は、音声を受取る速度に無関係に音素
的要素間の分離を認識できる装置を提供することである
本発明の他の目的は、会話的に接続する音声について連
続的基準に基づいて、語または個人の特定の群を認識す
るために装置を訓練しないで、発声された音声を独特の
音素的要素の流れとして標準化しかつ認識する装置を提
供することである。
さらに1本発明の他の目的は1発声された音声の音素の
スペクトル構成要素を区別可能なパターン標準化しかつ
分離するための装置を提供することである。
本発明の更に他の目的は音声の特徴を変更しあるいは変
更しないで、分析後音声を暗号化することができ、前記
暗号化を他の通信システムおよび装置への入力として利
用することができる、発声された音声を標準化しかつ認
識する装置を提供することである。
本発明の他の目的は入力信号を、音声分析器へ供給して
音声を評価し、同定し、認識し、および/または音声シ
ンセサイザーへ供給して特定の話手を模倣し、および/
または、別の装置において、音声対プリントシステムを
支持する働きをすることができる音声の標準化および認
識装置を提供することである。
本発明の他の面において1本発明の目的は、前記装置へ
の入力として供給された発声を表わす出力のコード化信
号を生成できる装置を提供することである。
本発明の他の面において、本発明の目的は、音声の異る
有意の音素的要素を1話手に無関係に、独特に同定する
ことができるように、入力音声を特徴ツけて音声のスペ
クトルのディメンション(spect ral  di
mension)を確立できる方法を記載することであ
る。
問題点を解決するための手段 本発明のこれらのおよび他の目的および利点は、一般に
、マイクロホン、増幅器、増幅等止器、一定時性係数(
Q)の帯域通過フィルターのバンク、各チャンネルがさ
らに整流されかつ低域通過フィルターを通過すること、
マルチプレクシング回路、アナログディジタル変換器、
およびマイクロプロセッサ−に基づく分析器を含む、音
声標準化および認識装置により提供される。
本発明に導いた研究は、人間は、話される語の認識およ
び理解において、多くの変数、例えば。
音の振幅、話される語の受容速度、ピッチ、および調子
について非常に寛大であるとい認識から出発した。この
ことは、人間は広い範囲の音声の特性を有する複数の話
手からの特定の語を、受取られた可聴信号に基づいて識
別標準化を実施する方法により、認識することができる
ことを意味している。これらの固有の標準化法は、とく
にピッチまたは音楽の「キー」に関するものが本発明に
導いた。
システムを要約する前に、ここで開発された分析法を支
持する理論を紹介することは有用であろう0人間はいか
なる所定の日を通じても多数の人が話す語を聞くことが
できることは明瞭であるように思われる。この聞く過程
において、聞く人は一般に男性1女性または子供により
話される同一の語の中から同一の意味を判じる。こうし
て、人間は標準化法の形である機構を有し、これにより
種々の話手の所定の語、または語の群の音は、誰がその
音を発声しようとも、同一の音声コードとして感知され
ることが明らかであるように思われる。
研究により、標準化法は人間の耳および人間の脳との間
の相互作用により明らかに生ずることが示された。所定
の語は一般にその語を発する人、およびまた語が発せら
れる振幅または速度に無関係に聞く人により認識される
ので、音声を標準化するシステムは、このようなシステ
ムが適当な形の振幅の標準化、音声の理解可能な速度に
ついて実時間において作動することができる能力、およ
び話手の間のピッチの差を標準化するための方法を含む
場合、提供されうる。後者は1人間が一般にメロディ−
の音楽のキーにおける変化を感知的に検出できず、種々
の異るキーにおけるメロディ−の反復が時間的に十分に
分離されている場合、なお一般にメロディ−が同一であ
ると認識することができるということを認識することに
より促進されうる。
等しく調律された音階を検査すると、隣接する音符は互
いに一定の百分率で変位されていることが明らかとなる
。言葉を処理するとき、これは一定のQのフィルターの
パラメーターをもつ周波数の分類に等しい、先行の研究
により、耳の周波数感知器官は、また、一定のQの共鳴
子の集合体として機能することが確立された。理解可能
な電話の音声についてのスペクトルの要件の考察から、
約300H2〜約3.000Hzのスペクトル範囲は適
切であることが決定された。
音声の特性づけおよび認識における初期の努力により、
−・般に、音声の音は音素(phoneme)として知
られる個々の音の単位により分類できることが示された
。各音素は特定のスペクトルの特性の組から構成されて
いることがわかった。
発せられた音声の要素、例えば、母音は、一般に1話手
に依存する。基本周波数、およびフォルマントとして知
られる、基本周波数のハーモニクスの共鳴から成るスペ
クトル特性を有する。フォルマントの相対的振幅は、異
る個人について異り、これは聞き手に感知される異る音
質に寄手する。男性1女性および子供について認識可能
な発せられた音のすべての最初の3つのフォルマントの
全範囲を包含しようと欲する場合1合計のスペクト/L
/[囲はほぼ270Hz 〜3.730Hzであるべき
である。いわゆる「無声の(unvoiced)J音素
、例えば、子音、は一般にフォルマントを与えないスペ
クトル特性を有する。ある、例えば、rslの音は、一
般に高い周波数において分布した、低い周波数の内容を
少しもつかあるいはもたない1周波数の連続から木質的
に成るように構成されている。他のものは、低いあるい
は高いあるいは両者の周波数において、互いに分離され
た別々の共鳴をもつ周波数の広い帯域の組み合わせから
成ると決定することができる。なお他のものは、ハーモ
ニクスをもたない、実質的に単一の周波数の共鳴から成
ることを発見することができる。しかしながら、本質的
な特徴は1発声または無声の両者の音素の各々は、話手
ごとに変位する周波数であることがあるスペクトル特性
の独特の組を有するように思われる。
システムが発せれた音素のスペクトルの内容を容易に同
定できるようにするためには、スペクトルを帯域通過フ
ィルターにより複数のチャンネル(channel)に
分割することが望ましい。
フィルター特性(filter  q ua l i 
ty)Qは所望の通過帯域(pass  band)の
中心周波数(center  frequency)F
対通過帯域のフィルターの帯域幅BWの比であると定義
され、方程式(1) %式%(1) 中心周波数は、また1次のように表わすことができる: F= (F1+F2)/2        (2)ここ
でFlおよびF2は所望の通過帯域のトおよび下の周波
数である。
同様に、帯域幅BWは次のように表わすことができる: BW=F2−Fl          (3)等しく調
律された楽譜の隣接する音符の間の周波数の関係は1次
のように表わすことができる二F2=に*F1    
       (4)ここでFlはある任意の音符の周
波数であり;には等しく調律された楽譜についての比例
定数であり;そして F2は楽譜において次の音符の周波数である。
Eの方程式を適当に組み合わせることにより、Kを次の
ようにQにより表わすことができる:に= (2Q+1
)/ (2Q−1)    (5)音楽のオクターブは
周波数の2倍を表わすことがより理解されているので、
比例定数Kを利用して次にように1オクターブ当りのチ
ャンネルの数を確立することができる: に=exp (ln2/N)       (6)方程
式6は、また1等しく調律された楽譜の音符が周波数に
おいて指数関係的に分布することを示す、こうして、音
素の周波数を、また1周波数において指数関係的に分布
させることができ、したがって定数Qのフィルターによ
り標準化することができる。
このようにして入力の音の音素の分析において利用すべ
き帯域通過チャンネルの族を確立することにより、シ<
′)かの発せられたまたは母音の音素についてのスペク
トルのパターンを、1つのフォルマントから他のフォル
マントについて、チャンネルの数により、距離であるべ
き「ディメンション(dimension)Jを確立す
ることにより特徴づけることができる。第1のフォルマ
ントから第2のフォルマントに、第2のフォルマントか
ら第3のフォルマントに、そして第1のフォルマントか
ら第3のフォルマントに3組の距離を利用して、このよ
うなスペクトルのディメンションは5以上に等しいNの
値について独特であることが実験的に決定された。その
丑、所定の母音の音素のスペクトルのディメンションの
パターンはすべての話手について実質的に同一であり、
標憎化を示すことが発見された。男性、女性および子供
の群についてのフォルマントを含有するチャンネルは互
いに異るが、それらは互いの簡単なチャンネルの変位し
た型(s imp le  channel  5hi
fted  versions)であるように思われる
帯域通過チャンネルは、また、いくつかの無声またはf
音の音素の分析において利用することができる。この場
合において、確立されるスペクトルのディメンションは
有意なチャンネルのパターンである。前述のように、こ
のようなチャンネルのパターンは、別々の有意なチャン
ネルをもつかあるいはもたない、チャンネルの広い「連
続(continua)Jを含むことができる。母音の
場合にように、有意なデータを含有するチャンネルの数
は男性、女性および子供について異るが、また互いの簡
単なチャンネルの変位した型であるように思われる。
受取られた発せられた語を定数Qを有する複数の狭い帯
域に分離することにより、各音の認識可能なスペクトル
特性を区別することができる。母音の音の場合において
、このような帯域への分離が適当になされると、所定の
母音の音素の最初の3つのフォルマントについてのフォ
ルマントの情報を有するチャンネル間の間隔は種々の音
声特性を有する話手の中においてほぼ一定であることが
発見され、こうしてこれらの間隔またはスペクトルのデ
ィメンションは極めて類似する母音の音素間を分解する
ことができる。母音でない音素は、フォルマントにより
特性づけられないが、また、スペクトルのディメンショ
ンを有し、これらのスペクトルのディメンションは音素
に対して独特でありかつ話手ごとに単に周波数が変位し
ていることが発見された。
このようにして受取られた音声の音素の標準化されたス
ペクトルのディメンションが確立されると、それを表わ
す得られる信号およびそれらの間隔またはパターンを、
マイクロプロセッサ−のメモリに入れられかつその中に
保持された表と比較して、受取られた音素を同定しかつ
それに対応するコード化された信号を生成することは、
比較的簡単な仕事である0強いアクセント、文法的な不
明確さなどのような特徴を区別することは、分析アルゴ
リズム内に適当な決定トリー(deciston  t
rees)を有することにより、音素を表わす得られる
コード化された音声信号をさらに分析することによって
可能となる。
多数のフォーマットのいずれか1つにおいて出力である
ことができる語の認識は、音素の時間順序のチェーン(
t ime  5equencedchain)の標準
化および認識に従い達成される。特定の音素が、すでに
認識されたストリング(string)の音素と組み合
わせて、認識可能な語を形成することを発見することが
でき、その「語(word)Jは次の認識可能な語が獲
得されるまで保持されるので1分析装置はチェーン中の
すべての音素を語の1つまたは他のものに適当に結合し
て真正の語を形成することを保証することができる。こ
のような出力処理に必要な複雑化の程度はこのような出
力が適用されるその用途に関連がある。正式な書かれた
一語一語の記録への話された語の精確な字訳が望む目標
であるとき、分析装置は音素の適切な区別および理解で
きるテキストへの音素のグループ化を保証するために十
分な数の決定をなすことができなくてはならない、音素
は基本的な分析単位にとどまるので、このようなタンデ
ムシステムはそのシステムの認識部分において広範な用
語範囲を必要としないであろう。しかしながら、このシ
ステムの字訳部分は、許容されうる「言語(1angu
age)Jを生ずる音素の組み合わせの多様性を説明す
るために詳細なアルゴリズムおよび用語範囲を必要とす
るであろう。
こうして、いくつかの実施態様それら自体は。
各々の実施態様が入る音声信号を十分に大きい数のチャ
ンネルに分離する能力を提供するかぎり、標準化を達成
できるような定数Qの濾波を提供することに注意すべき
である。
簡単に述べると1本発明の装置の好ましい実施態様は、
音声を発声(語または同様な音素の要素)の準連続な流
れとして感知し、それらを電気信号に変換し2次いで電
気信号の振幅の等化を実施する0次いで、振幅が等化さ
れた信号は、実時間において、複数の定数Q帯域通過フ
ィルターを通過させることによって、連続的に試料採取
され、前記複数の定数Q帯域通過フィルターは、信号を
複数の別々の、実質的に重ならないチャンネルに分離す
るように、並列の配置で結合されている。複数の帯域通
過フィルターにより操作される周波数の範囲は、広い範
囲の音声の特性を有する大きい集団の話手により発せら
れるとき、すべての可能な発せられた音素の少くとも基
本的周波数および最初の3つの7オルマントを含むため
に十分であるべきである。チャンネルの各々は、帯域通
過フィルターの出力を整流し、次いで整流された出力を
適当な低域通過フィルターに通過させることにより、さ
らに処理することができる。信号のそれ以上の増幅を、
また、必要に応じて各チャンネルで適当に実施すること
ができる4次いで、複数の帯域通過フィルターの出力を
、−・般に、アナログディジタル変換器を通していくつ
かのチャンネルを多重化することにより、マイクロプロ
セッサ−へ供給する。ヤイクロプロセッサーは、適当な
分析アルゴリズムを有するとき、複数のチャンネルの中
から、分析される音素の有意のスペクトル要素を表わす
信号を含有するチャンネルを同定(identify)
する、(母音の場合において、有意のスペクトル要素は
基本周波数および最初の3つのフォルマントである。他
の音素は他の「パターン」を提供する。) 次いで、アルゴリズムは、母音の音声について、フォル
マント間で、チャンネルの数によって、チャンネルの間
隔を考慮することにより、その基本周波数に基づいて、
音素の最初の3つのフォルマントのスペクトルのディメ
ンションを誘導する。母音でない音声について、アルゴ
リズムは、周波数の任意の「連続(continuum
)Jの、チャンネルの数における、帯域幅、可聴周波数
の範囲内のその位置、任意の追加の「別々の(disc
rete)J有意なスペクトル要素およびそれらの間隔
などのような特徴を考慮することにより、音素のスペク
トルのディメンションを誘導する0次いで、マイクロプ
ロセッサ−は誘導されたスペクトルのディメンションを
いくつかの音素の既知のスペクトルのディメンションの
表と比較して音素を適切に同定することができる。前記
表は音素を適切に同定するためにマイクロプロセッサ−
のメモリ中に設けることができる。「合致(matCh
)Jが確立されないとき、マイクロプロセッサ−のアル
ゴリズムは、このような状態を、会話的に接続する音声
間の遷移として、あるいは語が終る休止として考えるこ
とができる0次いで、マイクロプロセッサ−は、シンセ
サイザーまたは他の有用な字訳システムによりさらに処
理するために、例えば、集められた認識された音素のス
トリングから語を形成する処理のために、認識された音
素に対するコード化出力信号を提供する。
実施例 まず第1図を参照すると、音声標準化および認識装置の
好ましい実施態様の簡素化ブロック線図が示されており
、本発明に従う音声標準化および認識装置は全体的に1
0で示されている。大気の音波11は、全体的に発声を
表わし、マイクロホン12により受取られ、ここでそれ
らは音声標準化および認識装置lOのバランス(bal
ance)への伝送のための電気信号に変換される。マ
イクロホン12からの電気信号は伝導路13に沿って入
力増幅器および振幅等化回路14へ送られる。これにつ
いては後に詳述する。電気信号が回路14により適当に
処理された後、得られる信号は伝導路16に沿って一定
フイルター品質(以後「一定Q」と呼ぶ)フィルター1
7へ伝送され、ここで回路14から生ずる信号は問題の
可聴周波数範囲に及ぶ周波数に関連するチャンネルに分
離される。装置に意図する利用に依存して、問題の範囲
は典型的には125Hz〜4000Hzの間であり、こ
れはほぼすべての可能な話す個人を包含する。他の潜在
的な利用は、問題のより広いかあるいはより低い範囲に
修正することができる。
定数Qフィルターのバンク17内の定数Qフィルターの
各々は出力信号を提供し、この信号は分離された伝導路
に沿ってマルチプレクサ−装!i21へ伝送される。明
瞭のため、定数Qフィルターのバンク17からマルチプ
レクサ−装置21への複数の伝導路は参照数字22で表
示されている。
マルチプレクサ−装置21は、マイクロプロセッサ−2
8の入力からマルチプレクサ−装置21への入力通路2
3を通りマルチプレクサ−制御信号に応答して作動し、
伝導路22の各々を伝導路24を経てアナログディジタ
ル変換器26へ順次に結合する。アナログディジタル変
換器26はアナログ電気信号を1連のディジタル信号に
変換し、これらのディジタル信号は伝導路27に沿って
マイクロプロセッサ−28へ伝送される。
マイクロプロセッサ−28は、適当なアルゴリズムに従
って作動し、アナログディジタル変換器26からの1連
のディジタル信号を分析して、前記1連のディジタル信
号を特徴づける適当なスペクトルのディメンションのパ
ターンを確立する。
次いで、マイクロプロセッサ−28のアルゴリズムは、
確立されたスペルトルのディメンシ、ンをメモリーから
それに対して利用可能なスペクトルのディメンションの
パターンの適当な組とさらに比較し、前記組の表は話さ
れた言語の各可能な音素のディジタル的に特徴づけられ
るスペクトルのディメンションから形成されている。ア
ナログディジタル変換器26からの1連のディジタル信
号のディジタルスペクトルのディメンションが特定の音
素に相当するディジタル的に特徴づけられたスペクトル
のディメンションのパターンの1つまたは他のものに適
合するとことをマイクロプロセッサ−28が決定したと
き、マイクロプロセッサ−28は同定された音素を代表
する独特にコード化された信号を発生し、前記信号は伝
導路29に沿って出力ターミナル30へ伝送される0次
いで、このようなコード化された信号は、例えば、シン
セサイザー、音声修正装置1話手同定システム、または
音声プリントシステムにおいてさらに処理するための入
力データとして利用できる。
次に第2図を参照すると、音声標準化および認識装置1
0の好ましい実施態様が、a略的なブロック線図の形態
で、示されており、ここで上に論じた振幅の等化および
複数のチャンネルへの分離を実施する方法が詳しく図解
されている。まず入力増幅および振幅の等化回路14を
考慮すると。
伝導路13に沿ってマイクロホン12から発生する電気
アナログ信号は発声11に相当し、このアナログ信号を
標準化する機能は増幅器31よりまず増幅される。増幅
器31の出力は微分回路32の入力へ結合される。微分
回路32の微分機能は、より高い周波数において高い信
号対雑音比を提供し、これは引き続く濾波に関連する実
施の問題を容易にするためのスペクトルの平担化と考慮
することができる。
微分回路32からの出力は、入力増幅および振幅の等化
回路14からの出力であり、そして伝導路16に沿って
定数Qフィルターのバンク17へ伝送される。定数Qフ
ィルターのバンク17の各チャンネルは帯域通過フィル
ター33からなり、その出力は整流器34により整流さ
れ、そして整流された出力は低域通過フィルター36に
よりさらに一波される。こうして、いくつかのチャンネ
ルはその入力として完全な周波数のスペクトルのアナロ
グ信号を有するが、チャンネルのいずれか1つの出力は
、その出力伝導路22上に現われ。
そのチャンネルの帯域通過フィルター33の帯域内に入
る完全スペクトルの部分を代表する整流された信号であ
る。帯域通過フィルター33の通過帯域は、チャンネル
間の重複が最小である所望の周波数のスペクトルを含む
帯域通過フィルター33の組を提供するように、等式5
および6として上に確立された基準に従い確立される。
伝導路22上に現われるいくつかのチャンネルの出力は
、マルチプレクサ−装置21への入力として提供される
。マルチプレクサ−装置21は、マイクロプロセッサ−
28からの通路23に沿つてマルチプレクシング信号の
制御下に、伝導路24を通るアナログディジタル変換器
へいくつかの入力を順次に結合する。前述のように、ア
ナログディジタル変換器26の出力は伝導路27に沿っ
てマイクロプロセッサ−28へ伝送され、ここで定数Q
フィルターのバンク17のチャンネルの各々の信号内容
を表わすディジタルデータを分析し、そしてスペクトル
のディメンションの組を発生スる。マイクロプロセッサ
−28は、また、生ずるスペクトルのディメンションを
そのメモリー中に保持されたスペクトルのディメンショ
ンの表と比較する。適合が発見されると、マイクロプロ
セッサ−28は同定された音素を表わすコード化された
信号を伝導路29を経て出力ターミナル30へ提供する
。マイクロプロセッサ−28のそれ以上の機能は、会話
的に結合された音声を分析する間、いくつかのチャンネ
ルから生ずる不必要な過渡的情報を捨てる。
記載された要素の各々は、このような装置のいくつかの
既知の型の任意の型により実行できる。
このような組み合わせの木質的な面は、このような任意
の組み合わせの本質的な特徴は前に述べた理論的考察に
従い定数Qフィルターの等価物を提供するということで
ある。さらに、好ましい実施態様の範囲内で、特定の用
途、例えば、非常に低い増幅の発声の範囲内で音素を認
識するのに適合するように、いくつかのチャンネルの各
々の範囲内で信号のそれ以上の増幅を行うための設備を
設けることができる。
本発明に従う装置の応用の一例として、同様な言語内で
使用される3つの代表的母音の音声間の区別において必
要な次の標準化および認識の方法を考慮する。この例に
ついて、区別すべき3つの母音は「heed」における
ようなreJ、「hadJにおけるようなraJおよび
rh o o d」におけるようなroJである。音素
をそれらの最初の3つのフォルマントにより認識できる
という先行の仮定に頼ると、第3図は男性、女性および
f供のグループによる発声の平均についての主題の母音
の各々の最初の3つのフォルマントの、直線の周波数の
目盛に関する、配置を1連のグラフ的表示を表わす、第
3図から明らかなように、選択される母音のいずれも最
初の3つのフォルマントの周波数にもっばら基づいてす
べての話手について独特に認識することができない、そ
の上、第1フオルマントと第27オルマントとの間、第
27オルマントと第37オルマントとの間、および第1
2オルマントと第32オルマントとの間において絶対的
周波数の分離を発見するために数学的計算を実施しよう
とする場合、このような差は話手の異るのグループのた
めの母音のいずれをもなお独特に同定しないであろう、
事実、他の母音の音声、または子音を考慮しようとする
場合、独特性の欠除をさらに立証することができ、ここ
で第1の音声のための話手の特定のグループの平均のフ
ォルマントの周波数の差の少なくとも1つは異る音声を
発生する話手の異るグループについて平均のフォルマン
トの周波数の差の同一または他のものに非常に類似する
ことがあり、これにより不明瞭な音声の認識が潜在的に
生じうる。
本発明の応用の前記例により説明をつづけると、8チヤ
ンネル/オクターブであるNの選択に基づいて、270
Hzから3730H2(7)周波数範囲に少なくとも及
ぶ定数Qフィルターのバンクが確立される0表1は、前
述の等式を利用して計算された帯域通過チャンネルの表
である。270Hzより低い周波数についてチャンネル
が同定され、前記チャンネルは、存在する場合、発声の
基本的周波数を同定するために利用することができるこ
とに注目すべきである。このような定数Qフィルターの
バンク17を有する好ましい実施態様の装置に音声信号
を通過させることにより、第3図に図解するように、r
heedJのreJの音声を発声する男性の第1フオル
マントは、表1に午えられるように、チャンネル18の
範囲内に入−るであろうことが理解できる0表2は、第
3図に図解されるフォルマントの各−々がそれらが包含
されるチャンネルの数により特徴づけられる表である。
チャンネルの数は話手の異るグループについて同一の音
声について分布して現れるで、標準化はなお達成されて
いない。
マイクロプロセッサ−28を利用すると、フォルマント
が現われるチャンネルの数の間の差を計算することがで
きる0表2は、第1フオルマントと第27オルマントと
の間、第2フオルマントと第37オルマントとの間、お
よび第17オルマントと第32オルマントとの間のチャ
ンネルの数の差についてのこのような計算の結果を包含
する。
このようなデータを検討すると、明らかなように、引用
した実施例からの各々の異る母音の音声は、その音声を
発生するグループを無視して、厳格に類似するスペクト
ルのディメンションのパターンを有する。他の音声の特
性を同様な方法で本発明の装置により処理しようとする
場合、その音素を発声する話手に無関係に、各々の音声
の音素について同様な類似性が見い出されるであろう。
同様に1表2に示すように、 「a」および「0」の音
声について第1フオルマントと第27オルマ □ントと
の間の差、あるいはreJおよび「a」の音声について
第27オルマントと第37オルマントとの間の差により
例示されるように、実質的に同一のチャンネルの差の1
つを1より多い音素が有することは可能であるが、音素
のスペクトルのディメンションを形成する3つのチャン
ネルの差の組み合わせは各音素について独特である。こ
れらの結果゛に基づいて、音素のスペクトルのディメン
ションのパターンの表をサーチして、どの音素が発声さ
れたかを認識し、次いでそれに対応する独特にコード化
された出力信号を生成することは、マイクロプロセッサ
−28にとって比較的筒中な仕事である。
表     2. 1  2 −3  へ12 Δ23 Δ13″Heed
″   M2O424824428における W2O4
5472B   2  28ようなe  C214B 
 48  25  2  27’Had”M2O394
311415 における W  31. 41 4.5. 10  、
 4  14ようなa・C334347,、10414
″Hood’    M 23  3j4.2   1
0    L   19における W24 35 44
  11  9  20ようなoC28374?、 1
1  10 21第4図を参照すると1本発明の第1の
別の実施が、ブロック略図の形で、実時間の音訳(tr
ansliteration)が本質的でない実施態様
の一例として図解されている。この実施態様において、
入力増幅および振幅の等化回路14から生ずるアナログ
電気信号は入力としてアナログディジタル変換器26へ
直接供給され、ここで電気アナログ信号はディジタル化
される0次いで、生ず−るディジタル信号は入力のディ
ジタル信号のフーリエ変換を実施する固有の能力および
適当なアルゴリズムを有するマイクロプロセッサ−46
へ供給され、これにより入力の発声11の周波数領域を
つくる。マイクロプロセッサ−46は、前述の実施態様
において利用される一定Qフィルターのバンクに等しい
複数の周波数帯に周波数のスペクトルを分割することに
より、得られるフーリエ変換を分析するための適当なア
ルゴリズムをまた有する0次いで、マイクロプロセッサ
−46は、それ以上の分析を実施して、フォルマント情
報を含有する周波数の増分のスペクトルのディメンショ
ンを通して適当な音素を同定し、こうして同定された音
素を表わす独特にコード化された信号を出力ターミナル
30に与える。ことができる。
歌に、第5a図を参照すると、この図は本発明に従うi
)声の標準化の第2の別の実行および認識装置のブロッ
ク線図を表わし、発声11はマイクロホン12により受
取られ、これは発声11を表わす電気アナログ信号を提
供する0次いで、電気アナログ信号は#!I@器31器
上1増幅される。ある用途において、増幅されたアナロ
グ信号を次いで帯域通過フィルター50を通過し、ここ
で周波数スペクトルは話された言語からなる音素の組の
中において区別するとき有用な問題の周波数に限定され
る0次いで、帯域限界特徴をもつかあるいはもたない、
得られる信号を微分回路32によりスペクトルの形状に
し、そしてアナログディジタルR換器26によりディジ
タル値に変換する。孜いで、連続の音声を□表わすディ
ジタル値の連続の流れを、マイクロプロセッサ−51に
よりもとの信号の時間領域の表示としてディジタル的に
処理される。マイクロプロセッサ−51は、話された言
語からなるいくつかの音素の時間領域の表示の表と比較
するためにデータを増分的に試料採取することにより、
広い意味においてアナログディジタル変換器26からの
ディジタル信号の流れを処理する。1つのこのような時
間領域の表示は、周波数領域における音素の有意なスペ
クトルの特徴の逆フーリエ変換であることができる。
他の実施態様と共通に、この実施は所定の音素の発生を
確立するためにマイクロプロセッサ−51に頼り、次い
で前記音゛素は、拙僧″にコード化された形で、他の実
施態様について示されたように、それ以上の分析または
利用のために出力ターミナル30へ送られる。帯域通過
フィルター50は、第5b図に示すように1回路から省
略することができる。
第6図を参照すると1本発明の装置は全体的に960で
示す装置にさらに変′吏することができ、この装置は線
型予測コーディング技術(linea?  predi
ctiv’e  coding  technique
)K類似する方法で音声のtiWs花および認識を達成
する。前の実施態様におけるように1発声11はマイク
ロホン12により受取られ、ここでそれらは電気アナロ
グ信号に変換され、前記信号は回路の通路13に沿って
適当な入力増幅器31へ送られる0次いで、増幅された
信号は帯域通過フ4ルター50を通して送られ、前記フ
ィルター50は信号の周波数の内容を問題の所望の範囲
に限定する。フィルター50を通過した信号はアナログ
ディジタル変換器26によりディジタル信号の流れに変
換される。蛋するディジタル信゛号は第1人力左してデ
ィジタル型比較器回路61へ供給され、この回路61は
なかでもlまたは2以上の送りレジスターを含んで、典
型的には発声11からなる「連続的」音声からの各音素
を分離する゛、感知された発声llの時間増分を表わす
ディジタル信号を保持することができる。
マイクロプロセッサ−62は、声道合成回路63に特定
の音素のス゛ペルトル特性の組に一致するテンプレート
を設けることにより□、声道合成回路63を制御する0
合成回路63はマイクロプロセッサ゛−62により提供
されるテンプレート信号に対応する出力ディジタル信“
号を九成し、前記ディジタル信号はディジタル型比較器
61゛への第2人力として提供′される。比較′器61
は第1デイジタル入力信号を第2デイジタル入力信号と
比較し、そしてこのよう゛な゛比゛較の結果をマイク゛
占プロセッサー62へ送る0次いで、マイクロプロセラ
゛す」62は、適当なアルゴリズムにより、−知された
発声11に相当す諷比較器61〜の第1デイジタル入力
i号が゛シンセサイザー63から比較器61への゛合成
されたディジタル入力信号と実質的に一致することを認
iするまで、音−のテンプレ−トおよびその相対的周波
数の配置を変゛更す番。
このよ゛うな一致□が決定され菰と、マイクロプロセッ
サ−62は゛感知され゛た発声□丁1に合致することが
決定された音素に独特に対応するディジタル信号の出力
の流れを提供する。−Pイ゛クロゾロ゛セッサーのフル
ゴリそムは、音素のテンブレーiの変更を制限する役目
をするごとができるある種のス゛りリーニング論理を含
むことができる。このようなスクリーニンブ論理は、音
素テンプレートの適当な群への分岐を起こすためのアナ
ログディジタル変換器26のディジタル出力を検査する
ことに基づくことができる。
次に第7図を参照すると、ブロック回路図は、音声シン
セサイザーとして前述の装置および方法を利用する回路
、全体的に70で示す、を図解する。マイクロプロセッ
サ−71は、入力として、合r&a声として発生される
べき、単語などを形成する一連の音素を表わすディジタ
ル信号の流れを受取る。ディジタル信号のその流れは、
前述の実施S様のマイクロプロセッサ−のずれかからの
出力として生ずる信号を同定する独特の音素であること
ができる。別の方法において、入力信号はマイクロプロ
セッサ−71を受取ることができる形のディジタルコー
ドであることができ、ここで適当なアルゴリズムは入力
信号を所望の音素に直接関係づけることのできるコード
に順次に変換する。いずれの場合においても、マイクロ
プロセッサ−はフィルター制御回路72および周波数発
生器73への制御入力として提供される音素のコードの
シーケンスを発生する0周波数発生器73は、出力とし
て、ホワイトノイズまたは低い基本的周波数の非対称の
三角波形信号の適当に増幅された電気アナログ信号を提
供し、前記信号は有意の和声の内容を含み、各々は少な
くとも問題の周波数の範囲、典型的には125Hz〜4
000H2の範囲を包含する。
発生される信号は帯域通過フィルターのバンク74へ提
供され、各フィルターは可変減衰器を組み込んでいる。
所望の音素に相当する有意のスペクトルの情報を含有す
ることを意図するチャンネルのみを通過させるため楊、
フィルター74のバンク内のいくつかのフィルターの通
過帯域を制御することは、フィルター制御回路72に応
答して実施することができる。このような制御は、合成
された音声の音色(timber)およ−び量を調節す
るための有意なスペクトルの情報を含有するいくつかの
帯域通過チャンネルを適当に減衰させることを含むこと
ができる0合成された音声の調子は、また、フィルター
制御回路72を周波数の上方または下方に通過帯域チャ
ンネルのパターンをシフトすることにより制御すること
もできる。
次いで、フィルターのバンク74のいくつかのフィルタ
ーのアナログ電気出力はスピーカー75への入力として
合計され、スピーカー75は合計、された電気アナログ
信号を音波76に変換する。。
特定の音素を独特に同定するために発声を標準化しかつ
分析することを可能とする他の実施態様および実施は、
ここに特別に開示されない回路により実施することがで
きることが明らかである。
このような他の実施態様は特許請求の範囲に包含される
【図面の簡単な説明】
第1図は、本発明に従う音声標準化装置の簡易化したブ
ロック線図である。 第2図は、第1図の装置のより詳細なブロックの略図で
ある。 第3図は、各々が3つのグループの話手について示され
ている、3つの選択された母音についての最初の3つの
不オルマントの周波数のグラフによる直線の周波数の表
示である。 第4図は、本発明に従う音声標準化および認識装置の第
1の別の実施態様の簡易化されたブロック線図、である
。 第5a[li5および第5b図は、簡易化されたブロッ
ク線図として1本発明に従う音声標準化および認識装置
の第2の別の実施態様の簡易化されたブロック線図であ
る。     、 第6図は、直線の予測的コード化の1つの形態を利用す
る第3の別の実施態様の簡易化されたブロック線図であ
る。 第7図は、本発明の他の実施態様を利用する音声を合成
する装置の簡易化されたブロック線図である。 10 音声標準化および認識装置 11 大気の音波、発声 12 マイクロホン 14 人力増幅器および振幅等化回路 17一定濾過品質のフィルターの組 21 マルチプレクサ−装置 −23人力通路       〜 26 アナログディジタル変換器 28.46,51.71  マイクロ・プロセッサー3
0 出力ターミナル 31 増幅器 32 微分回路 3.3  帯域通過フィルター 34 整流器 36 低域通過フィルター 50 り1を域通過フィルター 60 音声−標準化および認−一装置 61 ディジタルi比較器回路 62 マイクロプロセッサ− 63声道合成回路、シンセサイザー 70 ブロック回路 72 フィルター制御回路 73 周波数発生器 74 帯域通過フィルターのパンク 75 スピーカー 76 音波

Claims (1)

  1. 【特許請求の範囲】 1、人間の音声を標準化する装置であって、人間の音声
    を感知しかつそれを表わす電気アナログ信号を提供する
    手段; 前記アナログ信号を複数の実質的に連続の周波数のチャ
    ンネルに分離する手段、但しこの場合、このようなチャ
    ンネルの各々は各チャンネルの中心周波数対帯域幅の比
    が定数であるような帯域幅および中心周波数を有し、前
    記手段は前記チャンネルの各々について出力アナログ信
    号を提供し、前記複数のチャンネルは問題の周波数を包
    含する; 前記複数のチャンネルを同定可能に制御されるシーケン
    スにおいて検査する手段; 前記複数のチャンネルの各々からのアナログ信号の出力
    に対応する複数のディジタル信号を生成する手段、但し
    この場合、前記ディジタル信号の各々はそのチャンネル
    の源に対するチャンネル数により同定可能に関係づけら
    れる; 複数のチャンネルの中から、有意なデータを含有するチ
    ャンネルのチャンネル数を決定する手段、但しこの場合
    、前記チャンネルはデータを有するチャンネルとしてさ
    らに標識付けされる; 同定されたデータを有するチャンネル数により、感知さ
    れた音声のスペクトルのディメンションのパターンを決
    定しかつ記憶する手段; 前記記憶されたスペクトルのディメンションのパターン
    を前に確立されたスペクトルのディメンションのパター
    ンの組と比較する手段、但しこの場合、前記前に確立さ
    れた組の各々は発声された言語の異るの音素に対応し、
    前記組は発声された言語のすべての音素を包含する;お
    よび 前記感知された人間の音声から得られるスペクトルのデ
    ィメンションのパターンと一致する、前記前に確立され
    たスペクトルのディメンションのパターンの組の中から
    音素を独特に同定するコード化された出力信号を生成す
    る手段; とを具備することを特徴とする人間の音声を標準化する
    装置。 2、前記電気アナログ信号を複数の実質的に隣接する周
    波数のチャンネルに分離する前記手段に前記電気アナロ
    グ信号に導入する前に、人間の音声を感知する前記手段
    により提供される電気アナログ信号のスペクトルを振幅
    等化する手段を、さらに具備する特許請求の範囲第1項
    記載の人間の音声を標準化する装置。 3、前記アナログ信号を複数の実質的に隣接する周波数
    のチャンネルに分離する前記手段は、前記電気アナログ
    信号と並列に作用する複数の帯域通過フィルターのチャ
    ンネル、を具備しており、前記チャンネルの各々は帯域
    通過フィルター要素、整流器、および低域通過フィルタ
    ー要素からなり; この場合に、前記帯域通過フィルター要素の各々はフィ
    ルター特性係数、Q、により特徴づけることができ、前
    記特性係数Qは帯域通過フィルター要素の通過帯域の中
    心周波数対その帯域幅の比であると定義され、前記帯域
    通過フィルター要素のすべての特性係数Qは定数であり
    ; 前記複数のチャンネルの前記帯域通過フィルター要素は
    、いくつかの帯域通過フィルター要素の帯域幅が必要な
    問題の周波数を包含する別々のチャンネルの実質的に隣
    接する組を生成するように構成されている; 特許請求の範囲第1項記載の人間の音声を標準化する装
    置。 4、複数の帯域通過フィルターのチャンネルは周波数の
    1オクターブにつき少なくとも5つのチャンネルを提供
    する数である特許請求の範囲第3項記載の人間の音声を
    標準化する装置。 5、同定可能に制御されたシーケンスにおいて前記複数
    のチャンネルを検査する手段はチャンネルの多重化装置
    を具備する特許請求の範囲第1項記載の人間の音声を標
    準化する装置。 6、複数のディジタル信号を生成する手段は、前記チャ
    ンネルの多重化装置により提供されるアナログ信号を連
    続的にディジタル化するアナログディジタル変換器を具
    備する特許請求の範囲第5項記載の人間の音声を標準化
    する装置。 7、有意なデータを含有するチャンネルのチャンネル数
    を決定する手段、感知された音声のスペクトルのディメ
    ンションのパターンを決定しかつ記憶する手段、とを有
    しており、そしてコード化された出力信号を生成する手
    段は、アルゴリズムの適当な組みに応答して作動するマ
    イクロプロセッサーにより提供され、前記マイクロプロ
    セッサーは発声された言語のすべての音素を包含するス
    ペクトルのディメンションのパターンの前記前に確立さ
    れた組をさらに記憶する特許請求の範囲第6項記載の人
    間の音声を標準化する装置。 8、前記マイクロプロセッサーは前記コード化出力信号
    の不規則に時間シーケンス化されたチェーンを前記マイ
    クロプロセッサーのアルゴリズムに応答してマトリング
    を形成する語に結合する手段を具備し、前記マイクロプ
    ロセッサーのアルゴリズムは、前記コード化出力信号の
    マトリングを保持言語範囲と比較して、前記マトリング
    が許容されうる語を形成するときを確立し、前記コード
    化出力信号のすべては語または引続く語の範囲内に適切
    に含まれる特許請求の範囲第7項記載の人間の音声を標
    準化する装置。 9、人間の音声を標準化する装置において、人間の音声
    を感知しかつそれを表わす電気アナログ信号を提供する
    手段; 前記電気アナログ信号を受取り、前記アナログ信号をデ
    ィジタル信号に変換する手段; 前記ディジタル信号のフーリエ変換を実施する手段、但
    しこの場合、前記手段は複数のディジタル信号を提供し
    、各々は振幅を周波数に関係づけ、前記複数のディジタ
    ルデータの信号は問題の周波数について感知された人間
    の音声のスペクトル表示を提供する; 前記周波数のスペクトルを複数の実質的に隣接した周波
    数の帯域に計算的に分離する手段、但しこの場合、各帯
    域は中心周波数および帯域幅を有し、各帯域の中心周波
    数対対応する帯域幅の比は定数であり、前記ディジタル
    データの信号はそれらの周波数に従い前記帯域の1つま
    たは他に合計され、前記帯域の各々は周波数に関して順
    次に整数のチャンネル数を割当てられる; 有意データを有するこれ等の帯域の整数のチャンネル数
    を振幅により同定する手段; 有意データを有するこれ等の帯域の整数のチャンネル数
    のパターンに対応するスペクトルのディメンションの組
    みを規定する手段; 前記規定さられたスペクトルのディメンションを合致手
    段に保持される、前に確立された複数のスペクトルのデ
    ィメンションの組と合致させる手段、但しこの場合、前
    記前に提供されかつ保持されるスペクトルのディメンシ
    ョンの組は発声された言語の異るの音素に対応する;お
    よび 前に規定されたスペクトルのディメンションのパターン
    の組の中から、感知された人間の音声に合致する音素に
    独特に対応するコード化出力信号を生成する手段; とを具備することを特徴とする人間の音声を標準化する
    装置。 10、人間の音声を標準化する装置において、人間の音
    声を感知しかつそれを表わす電気アナログ信号を提供す
    る手段; 前記アナログ信号の振幅を等化する手段; 前記振幅等化アナログ信号をディジタル化し、かつそれ
    に対応するディジタル出力信号を提供する手段;および 前記ディジタル信号を各々がチャンネル数により同定可
    能である、複数のチャンネルに分析する手段、但しこの
    場合、感知された音声の有意データを発見し、前記分析
    手段は、有意情報を含有するチャンネル数により、感知
    された音声のスペクトルのディメンションのパターンを
    さらに決定し、前記分析手段は、前記分析手段中に保持
    されたディジタル化スペクトルのディメンションのデー
    タのテンプレートの組に前記スペクトルのディメンショ
    ンのパターンをさらに合致させ、前記テンプレートは発
    声された言語のすべての音素の既知のスペクトルのディ
    メンションのパターンを表わし、前記分析手段は、感知
    された音声から決定されたスペクトルのディメンション
    のパターンと合致した音素のテンプレートに対応する独
    特にコード化された出力信号をさらに提供する; とを具備することを特徴とする人間の音声を標準化する
    装置。 11、人間の音声を標準化する装置において、人間の音
    声を感知しかつそれを表わす電気アナログ信号を提供す
    る手段; 前記アナログ信号の振幅を等化する手段; 前記振幅等化アナログ信号を問題の周波数の範囲に周波
    数限定する手段; 前記振幅等化、周波数限定アナログ信号をディジタル化
    し、かつそれに対応するディジタル出力信号を提供する
    手段; 入力ターミナルおよび出力ターミナルと、少なくともす
    べての可能な音素のスペクトルのディメンションのパタ
    ーンの表を保持するメモリと、およびアルゴリズムの組
    とを有するマイクロプロセッサー; 前記マイクロプロセッサーから出力される入力制御信号
    に応答して、選択された音素に対応するディジタル信号
    を合成しかつそれを出力する手段、但しこの場合、前記
    マイクロプロセッサーは前記アルゴリズムの操作により
    音素を選択し、前記選択は前記マイクロプロセッサーの
    入力により変更される;および 振幅等化、周波数限定された電気アナログ信号をディジ
    タル化する手段からの前記ディジタル信号を、選択され
    た音素に対応するディジタル信号を合成する前記手段か
    らの前記ディジタル信号の出力とディジタル的に比較す
    る手段、但しこの場合、このような信号をディジタル的
    に比較する前記手段は出力信号を前記マイクロプロセッ
    サーへの入力として提供する; とを具備していて、 これによって、前記マイクロプロセッサーのアルゴリズ
    ムは前記信号をディジタル的に比較する前記手段からの
    前記信号を検査して、選択される音素に対応するディジ
    タル信号を合成する前記手段の出力が感知された発声に
    対応するディジタル信号に実質的に合致するときを決定
    し、前記マイクロプロセッサーは、実質的な合致が達成
    されるまで、アルゴリズムにより、選択された音素に対
    応するディジタル信号を合成する前記手段に提供される
    選択される音素を変更し、前記マイクロプロセッサーは
    このような合致が達成されるとき合致した音素に対応す
    る独特にコード化された出力信号を提供する; ことを特徴とする人間の音声を標準化する装置。 12、感知された人間の音声の周波数の内容を分析して
    、感知される音声の有意データの特徴が発生する周波数
    を決定することができ、かつこのような有意データを使
    用して感知された音素を同定することができる、人間の
    音声を標準化し、且つ認識するシステムにおいて、 複数の有意データ感知チャンネル、但しこの場合、各々
    は直列に結合された、帯域通過フィルター、整流器、お
    よび低域通過フィルターからなり、こうして感知された
    音声に対応する電気アナログ信号は前記帯域通過フィル
    ターにより濾波され、濾波された信号は前記整流器に整
    流され、そして整流された信号は前記低域通過フィルタ
    ーにより濾波され、前記複数の有意データ感知チャンネ
    ルは発声された言語のすべての音素の有意データを含有
    することが知られた可聴周波数を少なくとも包含する整
    数の実質的に隣接する周波数帯域を形成し、いくつかの
    チャンネルの入力は並列に結合されて感知される発声に
    対応する電気アナログ信号を受取り、前記帯域の各々は
    前記帯域通過フィルターの同一の、一定のフィルター特
    性係数を有するように構成されており、前記特性係数は
    前記通過帯域対その帯域幅の比として定義される; 有意なスペクトル情報を含有するチャンネルをチャンネ
    ル数により同定する手段;および 同定されたチャンネル数を分析して、感知された音素に
    対応するスペクトルのディメンションのパターンを確立
    する手段; とを具備していて、 これによって、前記感知された音素に対応する前記確立
    されたスペクトルのディメンションのパターンを、話手
    の広い集団から同様に確立されたスペクトルのディメン
    ションのパターンの標準の組と比較し、こうして感知さ
    れた音素を独特に同定することができる; ことを特徴とする人間の音声を標準化するシステム。 13、複数の有意データ感知チャンネルは周波数の1オ
    クターブにつき少なくとも5つのチャンネルを提供する
    ために十分な数である特許請求の範囲第12項記載の人
    間の音声を標準化するシステム。 14、人間の音声を標準化する方法において、工程: (a)発声された人間の音声の音素を可聴周波数に基づ
    くスペクトルの内容を有する電気アナログ信号に連続的
    に変換すること; (b)電気アナログ信号の振幅を等化すること; (c)振幅等化された信号を並列な帯域通過フィルター
    の組により濾波すること、但し各フィルターはその通過
    帯域の中心周波数対その帯域幅の比により定義されたフ
    ィルター特性係数を有し、前記並列なフィルターの組は
    発声された言語のすべての音素について問題の所望の可
    聴範囲にわたる実質的に隣接した通過帯域を提供する;
    (d)通過帯域を、周波数に関して、整数のチャンネル
    数により順次に同定すること; (e)帯域通過フィルターの各々からの出力信号を整流
    しかつ低域通過濾波し、前記チャンネル数により同定可
    能な分離した実在物として各得られる信号を維持するこ
    と; (f)得られる信号を有意として同定できるこれ等のチ
    ャンネル数を同定すること; (g)工程(a)により電気アナログ信号に変換された
    発声された音声の要素のスペクトルのディメンションの
    パターンを、チャンネル数により、発見しかつ保持する
    こと; (h)工程(g)において発見されたスペクトルのディ
    メンションのパターンを、工程(g)の方法において確
    立された、前に提供されたスペクトルのディメンション
    のパターンの組と合致させ、広い範囲の音声の特性を有
    する話手の大きい集団について標準化されたものとして
    、発声された言語のすべての音声のスペクトルのディメ
    ンションのパターンを表わすこと; (i)工程(g)において発見されたスペクトルのディ
    メンションのパターンと、前に提供されたスペクトルの
    ディメンションのパターンの組の1つとの間で合致が発
    見されるとき、工程(k)に進行すること; (j)工程(g)において発見されたスペクトルのディ
    メンションのパターンが前に提供されたスペクトルのデ
    ィメンションのパターンの組のいずれとも合致しないと
    き、工程(a)にもどり、かつ同時に工程(a)の信号
    を音素間の遷移の電気アナログとして同定すること;そ
    して (k)前に提供されたスペクトルのディメンションのパ
    ターンが工程(g)において発見されたスペクトルのデ
    ィメンションのパターンと合致した音素を独特に同定す
    る別々のコード化出力信号を提供し、次いでそれ以上の
    発声の入力が存在しなくなるまで、工程(a)を続ける
    こと;を含むことを特徴とする人間の音声を標準化する
    方法。 15、音声を合成する装置において、 少なくとも1つの制御入力と、発声された言語のすべて
    の音素に対応する少なくとも1組のスペクトルのディメ
    ンションのパターンを保持するメモリと、1組のアルゴ
    リズムと、および少なくとも1つの出力とを有するマイ
    クロプロセッサー;問題の周波数範囲にわたる周波数に
    関係する電気アナログ信号を提供する広い帯域の周波数
    発生器; 前記広い帯域の電気アナログ信号に並列に作用する、複
    数の可変減衰、可変帯域通過フィルターのチャンネル、
    但しこの場合、前記複数のチャンネルは問題の周波数範
    囲を包含する別々の周波数帯域の実質的に隣接した組を
    提供する; 複数の可変減衰、可変帯域通過フィルターのチャンネル
    の各々からの出力信号を合計する手段;および 前記合計された電気アナログ信号を音波に変換する手段
    ; とを具備しており、 これによって、合成すべき所望の音素の流れに対応する
    、前記マイクロプロセッサーへのコード化された入力信
    号の流れに応答して、前記マイクロプロセッサーのアル
    ゴリズムは、メモリ中に保持された表からの音素の流れ
    に対応するスペクトルのディメンションのパターンを順
    次に選択し、そして帯域通過フィルターのチャンネルの
    各々の減衰、帯域幅、および中心周波数を変更して、所
    望の音素の流れへの変換のための合計された電気アナロ
    グ信号を順次に合成するための適切な制御信号を提供す
    る; ことを特徴とする音声を合成する装置。
JP61004417A 1985-02-05 1986-01-14 音声の標準化の方法および装置 Pending JPS61198300A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US69838785A 1985-02-05 1985-02-05
US698387 2000-10-27

Publications (1)

Publication Number Publication Date
JPS61198300A true JPS61198300A (ja) 1986-09-02

Family

ID=24805027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61004417A Pending JPS61198300A (ja) 1985-02-05 1986-01-14 音声の標準化の方法および装置

Country Status (1)

Country Link
JP (1) JPS61198300A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010178334A (ja) * 2009-01-30 2010-08-12 Mitsubishi Electric Research Laboratories Inc Ofdmaネットワークにおいてリソースを割り当てる方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010178334A (ja) * 2009-01-30 2010-08-12 Mitsubishi Electric Research Laboratories Inc Ofdmaネットワークにおいてリソースを割り当てる方法

Similar Documents

Publication Publication Date Title
EP0219109B1 (en) Method of analyzing input speech and speech analysis apparatus therefor
Singh et al. Multimedia utilization of non-computerized disguised voice and acoustic similarity measurement
RU2419890C1 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US5884260A (en) Method and system for detecting and generating transient conditions in auditory signals
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
US8401861B2 (en) Generating a frequency warping function based on phoneme and context
Hu et al. Pitch‐based gender identification with two‐stage classification
CN107851444A (zh) 用于将声学信号分解为声音对象的方法和***、声音对象及其使用
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Pahar et al. Coding and decoding speech using a biologically inspired coding system
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
JPH1097274A (ja) 話者認識方法及び装置
JPH07191696A (ja) 音声認識装置
JPS61198300A (ja) 音声の標準化の方法および装置
CN113611326B (zh) 一种实时语音情感识别方法及装置
JPH04324499A (ja) 音声認識装置
RU2763124C1 (ru) Способ дикторонезависимого распознавания фонемы в речевом сигнале
Pols Analysis and synthesis of speech using a broad-band spectral representation
JPS59131999A (ja) 音声認識装置
Pellegrino et al. Vocalic system modeling: A vq approach
Jyotishi et al. A novel feature for nasalised vowels and characteristic analysis of nasal filter
Cohen Forensic Applications of Automatic Speaker Verification
Dutono et al. Effects of compound parameters on speaker-independent word recognition