JPH02298998A - 音声認識装置とその方法 - Google Patents

音声認識装置とその方法

Info

Publication number
JPH02298998A
JPH02298998A JP2092371A JP9237190A JPH02298998A JP H02298998 A JPH02298998 A JP H02298998A JP 2092371 A JP2092371 A JP 2092371A JP 9237190 A JP9237190 A JP 9237190A JP H02298998 A JPH02298998 A JP H02298998A
Authority
JP
Japan
Prior art keywords
analysis
speech
words
word
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2092371A
Other languages
English (en)
Inventor
Ian Bickerton
イアン ビッカートン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smiths Group PLC
Original Assignee
Smiths Group PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smiths Group PLC filed Critical Smiths Group PLC
Publication of JPH02298998A publication Critical patent/JPH02298998A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) この発明はスピーチ信号の第1分析が異なる語(wor
d )の間の境界(boundary )を識別し、か
つ蓄積語常(stored vocabulary )
との比較によって会話された語(words 5pok
en)の第1表示を与えるよう実行される種類の音声認
識方法に関連している。
(背景技術) 多重機能を有する複雑な装置において、会話された指令
(spoken commands )により装置を制
御できることは有用である。これはまたユーザーの手が
他の仕事に占有されるところ、あるいはユーザーが障害
を持ち、かつ通常の機械的スイッチや制御装置を操作す
るために自分の手が使えないところで有用である。
スピーチにより制御された装置による問題は、音声認識
が信頼性が無く、特に会話者の声が振動のような環境フ
ァクターで変更されるところではそうである。これは動
作の失敗あるいはさらに悪い場合には不正確な動作を導
く。
音声認識には種々の技術が使用されている。1つの技術
はマルコフモデルの使用を含み、これは連続音声の語の
間の境界を容易に識別できるという理由で有用である。
雑音の多い環境あるいはスピーチが会話者の緊張により
劣化されるところでは、マルコフモデル技術は会話され
た語の十分信頼性ある識別を与えないであろう。最近、
雑音補償、補間、シンタックス選択および他の方法によ
りそのような技術の性能を改良するかなりの努力が払わ
れてきた。
音声認識に提案されてきた代案の技術は神経網(neu
ral nets)を利用している。これらの神経網技
術はスピーチがひど(劣化されていても個別の語を高い
精度で識別することができる。しかしそれらは連続音声
の認識には通していない。というのはそれらが語の境界
を正確に識別できないからである。
(発明の開示) 本発明の目的は改良された音声認識装置と音声認識方法
を与えることである。
本発明の一態様によると、上に規定された種類の音声認
識の方法が備えられ、それは該方法が会話された語の第
2表示を与えるために神経網技術と第1分析からの語境
界識別を使用してスピーチ信号の第2分析を実行し、か
つ少なくとも第2表示から会話された語を表す出力信号
を与えるステップを含むことを特徴としている。
第1分析はマルコフモデルを使用して実行できる。給電
はダイナミック時間ワーピングテンプレ) (dyna
mic time warping template
 )を含み、かつ第1分析は非対称ダイナミック時間ワ
ーピングアルゴリズムを使用して実行できる。
第1分析は複数の異なるアルゴリズムを利用して実行さ
れることが好ましく、各アルゴリズムは表示された語が
会話された語であることの信転性(con f 1de
nce )の表示と共にスピーチ信号に最も近い給電メ
モリの語を示す信号を与え、かつ異なるアルゴリズムに
より与え°られた信号間で比較が行われている。会話さ
れた語の第1表示が信顛性の測度を与えるところでは、
信顛性の測度が所定の値より大きい場合に出力信号が第
1表示のみに応答するよう備えられている。
第2分析は神経網と共に多層バーセプトロン技術(mu
lti−1ayer perceptron tech
nique)を使用して実行できる。
出力信号は会話された語の会話者にフィードバックを与
えるよう利用できる。
本方法はスピーチ信号に雑音マーキングアルゴリズム(
noise marking a1gorithn+ 
)を実行するステップを含み、かつ以前に識別された語
のシンタックスに従って蓄積語彙にシンタックス制限を
実行するステップを含むことができる。
本発明は音声認識装置にも関連し、認識できる語の給電
についてのスピーチ情報を含むメモリと、異なる語の間
の境界を識別しかつ会話された語の第1表示を与えるた
めに蓄積語彙とスピーチ信号を比較するスピーチ信号の
第1分析を実行するパターンマツチングユニットを含む
ものにおいて、該装置が、パターンマッチングユニッl
−(16)と接続された神経網ユニッ) (20)を含
み、該パターンマツチングユニット(16)が神経網ユ
ニット(20)の出力と第1分析からの語境界識別の双
方を利用するスピーチ信号の第2分析を実行し、がつパ
ターンマツチングユニット(16)が会話された語を表
す出力信号を少なくとも第2分析から与えることを特徴
としている 本発明による音声認識装置と方法は装置を概略示す添付
図面を参照して実例により説明されよう。
(実施例) 音声認識装置は参照記号1により一般的に示され、かつ
航空機パイロン+の酸素マスクに取り付けられているよ
うなマイクロホン2がら入力スピーチ信号を受信する。
識別された語を表す出力信号は装置lによりフィードバ
ックデバイス3および利用デバイス(utilisat
ion device) 4に印加される。フィードバ
ックデバイス3は装置1により識別されたような語の会
話者に通知するために配列された可視表示あるいは可聴
デバイスであろう。利用デバイス4は装置の出力信号か
ら利用デバイスにより認識された会話された指令に応じ
て航空機装置の機能を制御するよう配列されよう。
マイクロホン2からの信号は前置増幅器10に供給され
、この前置増幅器10はすべての周波数チャネル出力が
同様なダイナミックレンジを占有することを保証する平
坦長期平均スピーチスペクトル(flat long−
tera+ average 5peech 5pec
tru11)(この場合その特性は公称的に1kHzま
で平坦である)を生成するプリエンファシス段11を含
んでいる。スイッチ12は高い周波数で3 dB/オク
ターブあるいは6 dB/オクターブのいずれかを与え
るよう設定できる。前置増幅器10はまた4kHzに設
定された一3dB遮断周波数を持つ8次バッターワース
低域通過フィルタの形をしているアンチアライアシング
フィルタ21を含んでいる。
前置増幅器10からの出力はアナログ対ディジタル変換
器13を介してディジタルフィルタバンク14に伝達さ
れる。フィルタバンク14は7MS32010マイクロ
プロセツサのアセンブリソフトウェア−として実現され
た19個のチャネルを有し、かつアイイ−イー議事録(
IEE Proc、) 、第127巻、パートF、第1
号、1980年2月のジェー・エヌ・ホルメス(J、 
N、Ho1a+es)によるrJsR11チャネルボコ
ーダ−(JSRU Channel Vocoder)
 Jに基づいている。フィルタバンク14は周波数範囲
250 4000)1zの聴覚(auditory p
erception )の臨界帯域にほぼ対応する不均
等チャネル間隔を有している。隣接チャネルの応答はそ
れらのピークより約3dB下で交差している。チャネル
の中央において、近傍チャネルの減衰は約11dBであ
る。
フィルタバンク14からの信号はジヱー・ニス・プライ
ドル(J、 S、 Br1dle)等により記述された
種類の雑音マーキングアルゴリズムを組み込んだ積分・
雑音マーキングユニット15に供給される。
自動音声認識に適用された雑音補償スペクトル距離測度
(noise compensating spect
rum distancemeasure )について
は音響国際会議録(Proc、 In5t。
Acoust、 ) 、ウィンドメアー(Wind*e
re) 、1984年11月を参照されたい。周期性雑
音を低減する適応雑音相殺技術(adaptive n
oise cancellationtechniqu
e )は例えば周期性ヘリコプタ−雑音の低減に使用で
きるユニット15により実現できる。
雑音マーキングユニット15の出力は種々のパターンマ
ツチングアルゴリズムを実行するパターンマツチングユ
ニット16に供給される。パターンマツチングユニット
16は語彙メモリ17に接続され、この語彙メモf月7
はダイナミック時間ワーピング(DTW  : Dyn
amic Time Warping) )テンプレー
トと語彙中の各語のマルコフモデルを含んでいる。
DTWテンプレートは単一パスの時間整列平均化技術(
single pass、 time−aligned
 averagingtechnique )あるいは
埋め込みトレーニング技術(embedded tra
ining technique )のいずれかを使用
して創成できる。このテンプレートは時間に対する周波
数およびスペクトルエネルギーを表している。
マルコフモデルは同じ語の多くの発声からの装置のトレ
ーニングの間に導かれ、スペクトルおよび時間変化は統
計的モデルで獲得される。マルコフモデルは多数のM敗
状態からなり、各状態は一対のスペクトルフレームおよ
び分散フレーム(variance frame)から
構成されている。スペクトルフレームは120Hzから
4MHzの周波数範囲をカバーする19個の値を含み、
分散フレームは状態平均期間(state mean 
duration )の形をした各スペクトルベクトル
/特徴(feature )に関連した分散情報と標準
偏差情報を含んでいる。
トレーニングの間の個別の発声は定常音声状態(Sむa
tionary phonetfc 5tates)と
それらのスペクトル遷移(spectral tran
sition )を分類するよう分析される。モデルパ
ラメーターはエム・ジェー・ラッセル(M、 J、 R
u5sell )とアール・エッチ・ムアー(R,Ho
Moore )の[自動音声認識のヒドンマルコフモデ
ルの状態占有の明確なモデリング(Explcit s
odelling of 5tate occupan
cyin  hidden  Markov  Mod
els  for  automatic  spee
chrecognition ) J 、アイイーイー
イー音響国際会議録(Proc’IEBE Int、 
Conf、 on Acoustics )、スピーチ
と信号の処理(Speech and SignalP
rocessing) 、タンパ(Tal19a ) 
、1985年、3月26−29日により記述されたとタ
ビ再評価アルゴリズム(Viterbi re−est
imation algorithm )を使用した回
帰プロセスにより評価される。最終語モデル(fina
l word model)は時間および抑揚(inf
lection)の双方の自然会話語変動性(natu
ralspoken word variabilHy
 )を含んでいる。
メモリ17とパターンマツチングユニット16の中間に
シンタックスユニット18があり、シンタックスユニッ
ト18は以前に識別された語のシンタックスに従ってス
ピーチ信号が比較される蓄積語彙に通常のシンタックス
制限を実行する。
パターンマツチングユニット16はまた神経網ユニット
20に接続されている。神経網ユニット20はニス・エ
ム・ピーリング(S、 M、 Peeling )とア
ール・エッチ・ムアー(R,H,Moore )により
記述された「多層バーセプトロンを用いた孤立ディジッ
ト認識の実験(Experiments in 1so
lated digitrecognition us
ing the multi−1ayer perce
ptron)、RSI?Eメモランダム第4073号、
1987年のような多層パーセブトロン(MLP : 
Multi−Layer Perceptron)を組
み込んでいる。
MLPは高い背景雑音が低エネルギー摩擦音スピーチ(
fricative 5peech)のマスクを生起す
るように不完全パターンを認識できる性質を有している
。MLPはディー・イー・ルメルハー) (D、 E。
Rumelhart )等により記述された「エラー後
方伝搬による学習内部表現(Learning 1nt
ernalrepresentation by er
ror back propagation)、認識科
学(Cognitive 5cience ) 、UC
5D、 ICS報告第8506号、1985年9月のよ
うな態様で実現される。
パターンマツチングユニット16は会話された語と語彙
の語との間の最良マツチングを選択する3つの異なるア
ルゴリズムを使用している。
その1つはディー・ニス・プライドル(J、 S。
Br1dle)により記述された「統計モデルとテンプ
レートマツチング:自動会話認識の明らかに異なる2つ
の技術の間のいくつかの重要な関係(Stochast
ic model and template a+a
tching :some  important  
relations  between  two  
apparently different tech
niques for automatic spee
chrecognition ) 、音響会議録(Pr
oc、In5t、 ofAcoustics ) 、ウ
ィンドメアー(Windmere)、1984年11月
およびディー・ニス・プライドル(J、S、 Br1d
le)等による「全語テンプレートを使用する連続接続
語認識(Continuous connectedw
ord recognition using who
le v<ord teaIplates) J、無線
・電子工学(Radio and Electroni
c Engineer)、第3巻、第4号、1983年
4月のような種類の非対称DTWアルゴリ、ズムである
。これは実時間音声認識に特に適している効率のよい単
一パスプロセス(single pass proce
ss )である。このアルゴリズムはユニッ)15によ
り実現された雑音補償技術で効率よく作用する。
第2のアルゴリズムはヒドンセミマルコフモデル技術(
03MM : Hidden 5eat Markov
 Modeltechnique )を使用し、ここで
上述の語霊メモリ17内に含まれたマルコフモデルは会
話された語信号と比較される。会話された語の時間変動
と抑揚変動についてのマルコフモデルの追加情報はパタ
ーンマツチングの間の認識性能を増大する。実際に、D
T−およびHSMMアルゴリズムはお互いに統合されて
いる。統合されたDTW技術と15MM技術は連続スピ
ーチの隣接語間の境界の識別を可能にする。
第3のアルゴリズムは神経網20と共にNLP技術を使
用している。MLPはDTW /HSMMアルゴリズム
により制御され、NLPはパターンマツチングユニット
16内め(示されていない)スピーチバッファーを見る
可変窓を有し、この窓の大きさと位置はDTW/H5M
Mアルゴリズムによって決定されている。
このようにして、HSMMアルゴリズムは語境界あるい
は端点の識別にMLPにより使用され、かつスペクトル
時間セグメントあるいは語候補はMLPにより処理でき
る。各アルゴリズムは信顛性測度と共にスピーチに最も
近いアルゴリズムによって識別された語彙メモリで語を
表示することによりスピーチ信号のその説明(expl
anation )を示す信号を与える。いくつかの語
のリストはそれらの関連信顧性測度を持つ各アルゴリズ
ムによって生成できる。ユニット16内のより高いレベ
ルのソフトウェア−は各アルゴリズムにより達成された
独立の結果を比較し、かつフィードバックデバイス3お
よび任意の加重の後のこれらの結果に基づく利用デバイ
ス4に出力を生成する。
このようにして、本発明の装置は以前には可能でなかっ
た自然連続スピーチの認識に神経網技術を使用すること
を可能にする0本発明の装置と方法の1つの利点はそれ
が短い応答時間を有し、かつ会話者に迅速なフィードバ
ックを与えることである。これは特に航空機への適用に
重要である。
代案のアルゴリズムが使用できることが評価され、それ
は神経網技術を使用する第2のアルゴリズムに従って語
境界を識別することのできる1つのアルゴリズムを与え
ることのみが必要である。
神経網アルゴリズムは各語に使用する必要は無い、いく
つかの装置ではその信鎖性の測度があるレベルの上にあ
る限りマルコフアルゴリズムのみが出力を与えるようそ
れが配列されよう、異なる語が会話される場合、あるい
は明瞭に会話されるか、あるいは高い背景雑音を持つ場
合に、信幀性の測度は落ち、かつ装置は独立意見(1n
dependentopinion )の神経網アルゴ
リズムを考慮する。
記述されたユニットにより遂行された機能が1つあるい
はそれ以上のコンピューターのプログラミングにより遂
行でき、かつ上に規定された離散ユニットにより実行さ
れる必要の無いことが評価されよう。
本装置は多くの適用に使用できるが、しかし機械と輸送
機関の制御、特に固定翼と回転翼航空機の制御のように
高い雑音環境での使用に特に適している。
【図面の簡単な説明】
第1図は本発明の音声認識装置の一実施例を示している
。 1・・・音声認識装置  2・・・マイクロホン3・・
・フィードバックデバイス 4・・・利用デバイス  10・・・前置増幅器11・
・・プリエンファシス段 12・・・スイッチ 13・・・アナログ対ディジタル変換器14・・・ディ
ジ久ルフィルタバンク 15・・・雑音マーキングユニット 16・・・パターンマツチングユニット17・・・語彙
メモリ 18・・・シンタックスユニット 20・・・神経網ユニット

Claims (1)

  1. 【特許請求の範囲】 1、スピーチ信号の第1分析が異なる語の間の境界を識
    別し、かつ蓄積語彙との比較によって会話された語の第
    1表示を与えるよう実行される種類の音声認識方法にお
    いて、 該方法が会話された語の第2表示を与えるために神経網
    技術と第1分析からの語境界識別を使用してスピーチ信
    号の第2分析を実行し、かつ少なくとも第2表示から会
    話された語を表す出力信号を与えるステップを含むこと
    を特徴とする方法。 2、第1分析がマルコフモデルを使用して実行されるこ
    とを特徴とする請求項1に記載の方法。 3、語彙がダイナミック時間ワーピングテンプレートを
    含むことを特徴とする請求項1あるいは2に記載の方法
    。 4、第1分析が非対称ダイナミック時間ワーピングアル
    ゴリズムを使用して実行されることを特徴とする請求項
    3に記載の方法。 5、第1分析が複数の異なるアルゴリズムを利用して実
    行され、各アルゴリズムは表示された語が会話された語
    であることの信頼性の表示と共にスピーチ信号に最も近
    い語彙メモリの語を示す信号を与え、かつ異なるアルゴ
    リズムにより与えられた信号間で比較が行われることを
    特徴とする請求項1から4のいずれか1つに記載の方法
    。 6、会話された語の第1表示が信頼性の測度を与え、か
    つ信頼性の測度が所定の値より大きい場合に出力信号が
    第1表示のみに応答するよう備えられていることを特徴
    とする請求項1から5のいずれか1つに記載の方法。 7、第2分析が神経網と共に多層パーセプトロン技術を
    使用して実行されることを特徴とする請求項1から6の
    いずれか1つに記載の方法。 8、出力信号が会話された語の会話者にフィードバック
    を与えるよう利用されることを特徴とする請求項1から
    7のいずれか1つに記載の方法。 9、該方法がスピーチ信号に雑音マーキングアルゴリズ
    ムを実行するステップを含むことを特徴とする請求項1
    から8のいずれか1つに記載の方法。 10、該方法が以前に識別された語のシンタックスに従
    って蓄積語彙にシンタックス制限を実行するステップを
    含むことを特徴とする請求項1から9のいずれか1つに
    記載の方法。 11、音声認識装置であって、認識できる語の語彙につ
    いてのスピーチ情報を含むメモリと、異なる語の間の境
    界を識別しかつ会話された語の第1表示を与えるために
    蓄積語彙とスピーチ信号を比較するスピーチ信号の第1
    分析を実行するパターンマッチングユニットを含むもの
    において、 該装置が、 パターンマッチングユニット(16)と接続された神経
    網ユニット(20)を含み、該パターンマッチングユニ
    ット(16)が神経網ユニット(20)の出力と第1分
    析からの語境界識別の双方を利用するスピーチ信号の第
    2分析を実行し、かつ パターンマッチングユニット(16)が会話された語を
    表す出力信号を少なくとも第2分析から与えること、 を特徴とする音声認識装置。
JP2092371A 1989-04-12 1990-04-09 音声認識装置とその方法 Pending JPH02298998A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB898908205A GB8908205D0 (en) 1989-04-12 1989-04-12 Speech recognition apparatus and methods
GB8908205 1989-04-12

Publications (1)

Publication Number Publication Date
JPH02298998A true JPH02298998A (ja) 1990-12-11

Family

ID=10654850

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2092371A Pending JPH02298998A (ja) 1989-04-12 1990-04-09 音声認識装置とその方法
JP2000004957U Pending JP2001000007U (ja) 1989-04-12 2000-07-13 音声認識装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2000004957U Pending JP2001000007U (ja) 1989-04-12 2000-07-13 音声認識装置

Country Status (4)

Country Link
JP (2) JPH02298998A (ja)
DE (1) DE4010028C2 (ja)
FR (1) FR2645999B1 (ja)
GB (2) GB8908205D0 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
DE4120308A1 (de) * 1991-06-20 1992-12-24 Standard Elektrik Lorenz Ag Einrichtung und verfahren zum erkennen von sprache
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
KR100202425B1 (ko) * 1992-08-27 1999-06-15 정호선 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6182038B1 (en) 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5529803A (en) * 1978-07-18 1980-03-03 Nippon Electric Co Continuous voice discriminating device
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
EP0242743B1 (en) * 1986-04-25 1993-08-04 Texas Instruments Incorporated Speech recognition system
DE3853308T2 (de) * 1987-04-03 1995-08-24 At & T Corp Neurale Berechnung durch zeitliche Konzentration.

Also Published As

Publication number Publication date
DE4010028A1 (de) 1990-10-18
GB2230370B (en) 1993-05-12
FR2645999A1 (fr) 1990-10-19
GB8908205D0 (en) 1989-05-24
JP2001000007U (ja) 2001-02-09
GB2230370A (en) 1990-10-17
GB9007067D0 (en) 1990-05-30
DE4010028C2 (de) 2003-03-20
FR2645999B1 (fr) 1993-05-14

Similar Documents

Publication Publication Date Title
Fu et al. End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks
US5228087A (en) Speech recognition apparatus and methods
US10504539B2 (en) Voice activity detection systems and methods
US20220215853A1 (en) Audio signal processing method, model training method, and related apparatus
Hansen Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect
US7620546B2 (en) Isolating speech signals utilizing neural networks
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
Pisoni et al. Some acoustic-phonetic correlates of speech produced in noise
CN106782504A (zh) 语音识别方法和装置
JPH02298998A (ja) 音声認識装置とその方法
CN110570853A (zh) 基于语音数据的意图识别方法和装置
Pallett Performance assessment of automatic speech recognizers
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
CN114338623B (zh) 音频的处理方法、装置、设备及介质
Do et al. Speech source separation using variational autoencoder and bandpass filter
Dwijayanti et al. Enhancement of speech dynamics for voice activity detection using DNN
Hagen Robust speech recognition based on multi-stream processing
US5278911A (en) Speech recognition using a neural net
Gadasin et al. Using Formants for Human Speech Recognition by Artificial Intelligence
Okuno et al. Listening to two simultaneous speeches
CN112133324A (zh) 通话状态检测方法、装置、计算机***和介质
Chen et al. CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application
FR2647249A1 (fr) Procede de reconnaissance de la parole
Martin Communications: One way to talk to computers: Voice commands to computers may substitute in part for conventional input devices
JPH04273298A (ja) 音声認識装置