JP2012234204A - 基準変換手段を伴なう音声認識装置及び方法 - Google Patents
基準変換手段を伴なう音声認識装置及び方法 Download PDFInfo
- Publication number
- JP2012234204A JP2012234204A JP2012175359A JP2012175359A JP2012234204A JP 2012234204 A JP2012234204 A JP 2012234204A JP 2012175359 A JP2012175359 A JP 2012175359A JP 2012175359 A JP2012175359 A JP 2012175359A JP 2012234204 A JP2012234204 A JP 2012234204A
- Authority
- JP
- Japan
- Prior art keywords
- reference information
- channel
- speech recognition
- recognition device
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 54
- 230000009466 transformation Effects 0.000 claims description 42
- 230000006978 adaptation Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 description 57
- 239000013598 vector Substances 0.000 description 41
- 230000008901 benefit Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 7
- 101100323945 Arabidopsis thaliana ARI3 gene Proteins 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 101150021453 ARI1 gene Proteins 0.000 description 5
- 101150107506 ARIH2 gene Proteins 0.000 description 5
- 102100038513 E3 ubiquitin-protein ligase ARIH2 Human genes 0.000 description 5
- 101150076105 ari-2 gene Proteins 0.000 description 5
- 101150009632 prx2 gene Proteins 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004040 coloring Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】第1の受信チャネル21と第2の受信チャネル25とを含む複数の受信チャネルを介して受信可能な音声を認識するための音声認識装置8であって、音声認識装置は複数の基準話者による単語の発音を特徴とする話者に独立の基準情報を蓄積するための蓄積手段41〜43であって、前記蓄積手段は、前記第1の受信チャネルに対応する基準情報を、前記第2の受信チャネルに対応する基準情報に変換して第1の変換を更に蓄積する蓄積手段と、第1の適応された基準情報を取得するように、前記第1の受信チャネルを介して話すユーザの音声の特徴に従って、話者に独立した基準情報に適応するために第1の受信チャネルを介して前記ユーザから得られた音声情報を用い、前記第1の変換を用いて前記第1の適応された基準情報を、前記第2の受信チャネルに適応するためのユーザ適応手段37とを有する。
【選択図】図2
Description
第1の基準情報RI1は、10の異なるマイクロフォン3−1から3−10によりコピーされた、第1の典型的な受信チャネル2に対して決定される。更に、第2の基準情報RI2は、10の異なる電話線5−1から5−10によりコピーされた、第2の典型的な受信チャネル4に対して決定される。更に、第3の基準情報RI3は、10の異なるディジタル口述装置7−1から7−10によりコピーされた、第3の典型的な受信チャネル6に対して決定される。これらの典型的な受信チャネル2,4及び、6の各々は、マイクロフォン3の1つに、電話5の1つに、ディジタル口述装置6の1つに、ユーザにより話された音声情報SIに対する異なる伝送特性を有し、この結果、変換マトリクス発生器1に与えられる音声情報は、使用されるそれぞれの受信チャネル2,4、又は、6により色が付される。
Claims (22)
- 第1の受信チャネルと第2の受信チャネルとを含む複数の受信チャネルを介して受信可能な音声を認識するための音声認識装置であって、当該音声認識装置は:
複数の基準話者による単語の発音を特徴とする、話者に独立の基準情報を蓄積するための蓄積手段であって、前記蓄積手段は、前記第1の受信チャネルに対応する基準情報を、前記第2の受信チャネルに対応する基準情報に変換するよう構成された第1の変換を更に蓄積する、蓄積手段と;
第1の適応された基準情報を取得するように、前記第1の受信チャネルを介して話すユーザの音声の特徴に従って、話者に独立した基準情報に適応するために第1の受信チャネルを介して前記ユーザから得られた音声情報を用い、かつ、前記ユーザの音声の特徴に適応し、かつ前記第2の受信チャネルに適応する、第2の適応された基準情報を取得するように、前記第1の変換を用いて前記第1の適応された基準情報を、前記第2の受信チャネルに適応するためのユーザ適応手段と;
を有する音声認識装置。 - 前記第1の受信チャネルは、マイクロフォンを含み、前記第2の受信チャネルは、電話及びデジタルディクテーティングマシンのうちの1つを含む、請求項1記載の音声認識装置。
- 前記第1の受信チャネルは、電話を含み、前記第2の受信チャネルは、マイクロフォン及びデジタルディクテーティングマシンのうちの1つを含む、請求項1記載の音声認識装置。
- 前記第1の受信チャネルは、デジタルディクテーティングマシンを含み、前記第2の受信チャネルは、マイクロフォン及び電話のうちの1つを含む、請求項1記載の音声認識装置。
- 前記電話は、携帯電話である、請求項2記載の音声認識装置。
- 前記複数の受信チャネルは、第3の受信チャネルを含み、かつ前記蓄積手段は、前記第1の受信チャネルに対応した基準情報を、前記第3の受信チャネルに対応した基準情報に変換するよう構成された第2の変換を蓄積する、請求項1記載の音声認識装置。
- 前記ユーザ適応手段は、前記第1の適応された基準情報を、前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する第3の適応された基準情報に変換するように、前記第2の変換を用いるよう構成された、請求項6記載の音声認識装置。
- 前記蓄積手段は、前記第2の受信チャネルに対応する基準情報を、前記第3の受信チャネルに対応する基準情報に変換するよう構成された、第3の変換を蓄積する、請求項6記載の音声認識装置。
- 前記ユーザ適応手段は、前記第2の適応された基準情報を、前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する第3の適応された基準情報に変換するように、前記第3の変換を用いるよう構成された、請求項8記載の音声認識装置。
- 前記第1の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第2の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項1記載の音声認識装置。
- 前記第2の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第3の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項6記載の音声認識装置。
- 複数の基準話者による単語の発音を特徴とする、話者に独立の基準情報を変換することによって、第1の受信チャネル及び第2の受信チャネルを含む複数の受信チャネルを介して受信可能な音声を認識するよう構成された、音声認識装置を適応させるための方法であって:
前記第1の受信チャネルに対応する基準情報を、前記第2の受信チャネルに対応する基準情報に変換するように構成された第1の変換を得るステップと;
前記第1の受信チャネルを介して得られたユーザからの音声情報を受信するステップと;
第1の適応された基準情報を得るように、前記得られた音声情報を用いて、前記第1の受信チャネルを介して話す前記ユーザの音声特徴に従って、話者に独立な基準情報を適応させるステップと;
前記ユーザの音声特徴に適応し、かつ前記第2の受信チャネルに適応する、第2の適応された基準情報を得るように、前記第1の変換を用いて、前記第1の適応された基準情報を、前記第2の受信チャネルに適応させるステップと;
を有する方法。 - 前記第1の受信チャネルは、マイクロフォンを含み、前記第2の受信チャネルは、電話及びデジタルディクテーティングマシンのうちの1つを含む、請求項12記載の音声認識装置。
- 前記第1の受信チャネルは、電話を含み、前記第2の受信チャネルは、マイクロフォン及びデジタルディクテーティングマシンのうちの1つを含む、請求項12記載の音声認識装置。
- 前記第1の受信チャネルは、デジタルディクテーティングマシンを含み、前記第2の受信チャネルは、マイクロフォン及び電話のうちの1つを含む、請求項12記載の音声認識装置。
- 前記電話は、携帯電話である、請求項13記載の音声認識装置。
- 前記複数の受信チャネルは、第3の受信チャネルを含み、当該方法は、前記第1の受信チャネルに対応した基準情報を、前記第3の受信チャネルに対応した基準情報に変換するよう構成された第2の変換を得るステップ、を更に有する請求項12記載の方法。
- 前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する第3の適応された基準情報を得るように、前記第2の変換を用いて、前記第1の適応された基準情報を前記第3の受信チャネルに適応させるステップ、を更に有する請求項17記載の方法。
- 前記第2の受信チャネルに対応する基準情報を、前記第3の受信チャネルに対応する基準情報に変換するよう構成された、第3の変換を得るステップ、を有する請求項17記載の方法。
- 前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する、第3の適応した基準情報を得るように、前記第3の変換を用いて、前記第2の適応された基準情報を前記第3の受信チャネルに適応させるステップ、を有する請求項19記載の方法。
- 前記第1の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第2の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項12記載の方法。
- 前記第2の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第3の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項17記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00890057.3 | 2000-02-25 | ||
EP00890057 | 2000-02-25 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001562482A Division JP5105682B2 (ja) | 2000-02-25 | 2001-02-12 | 基準変換手段を伴なう音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012234204A true JP2012234204A (ja) | 2012-11-29 |
JP5425280B2 JP5425280B2 (ja) | 2014-02-26 |
Family
ID=8175909
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001562482A Expired - Lifetime JP5105682B2 (ja) | 2000-02-25 | 2001-02-12 | 基準変換手段を伴なう音声認識装置 |
JP2012175359A Expired - Fee Related JP5425280B2 (ja) | 2000-02-25 | 2012-08-07 | 基準変換手段を伴なう音声認識装置及び方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001562482A Expired - Lifetime JP5105682B2 (ja) | 2000-02-25 | 2001-02-12 | 基準変換手段を伴なう音声認識装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7146317B2 (ja) |
EP (1) | EP1185976B1 (ja) |
JP (2) | JP5105682B2 (ja) |
AT (1) | ATE336776T1 (ja) |
DE (1) | DE60122257T2 (ja) |
WO (1) | WO2001063597A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE336776T1 (de) * | 2000-02-25 | 2006-09-15 | Koninkl Philips Electronics Nv | Vorrichtung zur spracherkennung mit referenztransformationsmitteln |
US20040024598A1 (en) * | 2002-07-03 | 2004-02-05 | Amit Srivastava | Thematic segmentation of speech |
US20040163034A1 (en) | 2002-10-17 | 2004-08-19 | Sean Colbath | Systems and methods for labeling clusters of documents |
AU2003278431A1 (en) * | 2002-11-22 | 2004-06-18 | Koninklijke Philips Electronics N.V. | Speech recognition device and method |
US7533023B2 (en) * | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
US7369652B1 (en) * | 2003-05-13 | 2008-05-06 | Cisco Technology, Inc. | Combining signals at a conference bridge |
US20050010411A1 (en) * | 2003-07-09 | 2005-01-13 | Luca Rigazio | Speech data mining for call center management |
US20080147692A1 (en) * | 2006-12-14 | 2008-06-19 | General Motors Corporation | Method for manipulating the contents of an xml-based message |
CN108831437B (zh) * | 2018-06-15 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 一种歌声生成方法、装置、终端和存储介质 |
CN111755008B (zh) * | 2020-06-11 | 2022-05-27 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261780A (ja) * | 1994-03-22 | 1995-10-13 | Mitsubishi Electric Corp | 発声変形音声認識装置 |
JPH10105191A (ja) * | 1996-09-30 | 1998-04-24 | Toshiba Corp | 音声認識装置及びマイクロホン周波数特性変換方法 |
JPH10149191A (ja) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | モデル適応方法、装置およびその記憶媒体 |
JPH11219193A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ten Ltd | 車載用音声認識装置 |
JP2001086239A (ja) * | 1999-09-14 | 2001-03-30 | Canon Inc | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
JP2003524217A (ja) * | 2000-02-25 | 2003-08-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 基準変換手段を伴なう音声認識装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3001037B2 (ja) * | 1995-12-13 | 2000-01-17 | 日本電気株式会社 | 音声認識装置 |
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6151573A (en) * | 1997-09-17 | 2000-11-21 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
JP4827274B2 (ja) | 1997-12-30 | 2011-11-30 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | コマンド辞書を使用する音声認識方法 |
JP3412496B2 (ja) * | 1998-02-25 | 2003-06-03 | 三菱電機株式会社 | 話者適応化装置と音声認識装置 |
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
-
2001
- 2001-02-12 AT AT01919273T patent/ATE336776T1/de not_active IP Right Cessation
- 2001-02-12 DE DE60122257T patent/DE60122257T2/de not_active Expired - Lifetime
- 2001-02-12 JP JP2001562482A patent/JP5105682B2/ja not_active Expired - Lifetime
- 2001-02-12 WO PCT/EP2001/001459 patent/WO2001063597A1/en active IP Right Grant
- 2001-02-12 EP EP01919273A patent/EP1185976B1/en not_active Expired - Lifetime
- 2001-02-22 US US09/790,420 patent/US7146317B2/en not_active Expired - Lifetime
-
2012
- 2012-08-07 JP JP2012175359A patent/JP5425280B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261780A (ja) * | 1994-03-22 | 1995-10-13 | Mitsubishi Electric Corp | 発声変形音声認識装置 |
JPH10149191A (ja) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | モデル適応方法、装置およびその記憶媒体 |
JPH10105191A (ja) * | 1996-09-30 | 1998-04-24 | Toshiba Corp | 音声認識装置及びマイクロホン周波数特性変換方法 |
JPH11219193A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ten Ltd | 車載用音声認識装置 |
JP2001086239A (ja) * | 1999-09-14 | 2001-03-30 | Canon Inc | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
JP2003524217A (ja) * | 2000-02-25 | 2003-08-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 基準変換手段を伴なう音声認識装置 |
JP5105682B2 (ja) * | 2000-02-25 | 2012-12-26 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 基準変換手段を伴なう音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1185976A1 (en) | 2002-03-13 |
DE60122257D1 (de) | 2006-09-28 |
US20010025240A1 (en) | 2001-09-27 |
EP1185976B1 (en) | 2006-08-16 |
DE60122257T2 (de) | 2007-06-28 |
JP5425280B2 (ja) | 2014-02-26 |
JP2003524217A (ja) | 2003-08-12 |
ATE336776T1 (de) | 2006-09-15 |
US7146317B2 (en) | 2006-12-05 |
JP5105682B2 (ja) | 2012-12-26 |
WO2001063597A1 (en) | 2001-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5425280B2 (ja) | 基準変換手段を伴なう音声認識装置及び方法 | |
US6233556B1 (en) | Voice processing and verification system | |
JP4546555B2 (ja) | 話し手に暗黙的に順応する技術を用いた音声認識システム | |
JP5419361B2 (ja) | 音声制御システムおよび音声制御方法 | |
JP6545419B2 (ja) | 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置 | |
JPH07502834A (ja) | 音声制御通信装置および処理方法 | |
US6243677B1 (en) | Method of out of vocabulary word rejection | |
JPH096388A (ja) | 音声認識装置 | |
US20070047708A1 (en) | Voice call reply using voice recognition and text to speech | |
JP2019184809A (ja) | 音声認識装置、音声認識方法 | |
EP2247082B1 (en) | Telecommunication device, telecommunication system and method for telecommunicating voice signals | |
EP1151431B1 (en) | Method and apparatus for testing user interface integrity of speech-enabled devices | |
CN113168841B (zh) | 经编码的音频的回放期间的声学回声消除 | |
JP2001520764A (ja) | スピーチ分析システム | |
WO2007091462A1 (ja) | 音声認識装置、音声認識方法、及び音声認識用プログラム | |
JP2005338454A (ja) | 音声対話装置 | |
KR101516589B1 (ko) | 이동통신단말기 및 그의 음성신호 처리 방법 | |
CN108962273A (zh) | 一种麦克风的音频输出方法和装置 | |
US20040156510A1 (en) | Speaker verifying apparatus | |
JP2010164992A (ja) | 音声対話装置 | |
US6044147A (en) | Telecommunications system | |
JP6822540B2 (ja) | 端末装置、通信方法及び通信プログラム | |
EP0883959B1 (en) | Apparatus and method of improving the qulality of speech signals transmitted over a telecommunications system | |
CA2242248C (en) | Telecommunications system | |
JPH05316186A (ja) | 音声認識電話機 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130827 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5425280 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |