JP6891144B2 - 生成装置、生成方法及び生成プログラム - Google Patents
生成装置、生成方法及び生成プログラム Download PDFInfo
- Publication number
- JP6891144B2 JP6891144B2 JP2018115562A JP2018115562A JP6891144B2 JP 6891144 B2 JP6891144 B2 JP 6891144B2 JP 2018115562 A JP2018115562 A JP 2018115562A JP 2018115562 A JP2018115562 A JP 2018115562A JP 6891144 B2 JP6891144 B2 JP 6891144B2
- Authority
- JP
- Japan
- Prior art keywords
- observation signal
- signal
- training data
- reverberation component
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000012549 training Methods 0.000 claims description 119
- 230000005236 sound signal Effects 0.000 description 17
- 238000013500 data storage Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 102100021823 Enoyl-CoA delta isomerase 2 Human genes 0.000 description 7
- 101000896042 Homo sapiens Enoyl-CoA delta isomerase 2 Proteins 0.000 description 7
- 101000870728 Homo sapiens Probable ATP-dependent RNA helicase DDX27 Proteins 0.000 description 7
- 101150076031 RAS1 gene Proteins 0.000 description 7
- 101150045048 Ras85D gene Proteins 0.000 description 7
- 201000001385 autosomal dominant Robinow syndrome 1 Diseases 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 101100153110 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) THO2 gene Proteins 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
を備えることを特徴とする。
まず、図1を参照して、実施形態に係るネットワークシステム1の構成について説明する。図1は、実施形態に係るネットワークシステム1の構成例を示す図である。図1に示すように、実施形態に係るネットワークシステム1には、端末装置10と、提供装置20と、生成装置100とが含まれる。端末装置10、提供装置20および生成装置100は、それぞれネットワークNと有線又は無線により接続される。図1中では図示していないが、ネットワークシステム1は、複数台の端末装置10や、複数台の提供装置20や、複数台の生成装置100を含んでもよい。
次に、図2を参照して、実施形態に係る生成処理の一例について説明する。図2は、実施形態に係る生成処理の一例を示す図である。
次に、図4を参照して、実施形態に係る生成装置100の構成例について説明する。図4は、実施形態に係る生成装置100の構成例を示す図である。図4に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、生成装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置10および提供装置20との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部120は、訓練データ記憶部121と、音響モデル記憶部122とを有する。
図5は、実施形態に係る訓練データ記憶部121の一例を示す図である。訓練データ記憶部121は、音響モデルを生成するための訓練データを記憶する。訓練データ記憶部121は、例えば、受信部131によって受信された訓練データを記憶する。図5の例では、訓練データ記憶部121には、「訓練データ」が「訓練データID」ごとに記憶される。例示として、「訓練データ」には、項目「観測信号」、「音響特徴量」、「推定された後部残響成分」および「音素ラベル」が含まれる。
図4に戻ると、音響モデル記憶部122は、音響モデルを記憶する。音響モデル記憶部122は、例えば、第1生成部135によって生成された音響モデルを記憶する。
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、生成装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
受信部131は、音響モデルを生成するための訓練データを、提供装置20から受信する。受信部131は、受信された訓練データを、訓練データ記憶部121に格納してもよい。
取得部132は、音響モデルを生成するための訓練データを取得する。例えば、取得部132は、受信部131によって受信された訓練データを取得する。また、例えば、取得部132は、訓練データ記憶部121から訓練データを取得する。
抽出部133は、取得部132によって取得された観測信号から、音声特徴量を抽出する。例えば、抽出部133は、観測信号の信号波形から、観測信号の周波数成分を算出する。より具体的には、短時間フーリエ変換を用いることにより、観測信号から、音声フレームのスペクトルを算出する。そして、抽出部133は、フィルタバンクを算出されたスペクトルに適用することで、各音声フレームにおけるフィルタバンクの出力(すなわち、フィルタバンクのチャンネルの出力)を、音声特徴量として抽出する。抽出部133は、算出されたスペクトルから、メル周波数ケプストラム係数(Mel frequency Cepstral Coefficient)を、音声特徴量として抽出してもよい。抽出部133は、観測信号から抽出された音声特徴量を、観測信号に対応付けられた音素ラベルに対応付けて、訓練データ記憶部121に格納する。
推定部134は、取得部132によって取得された観測信号に基づいて、後部残響成分を推定する。一般的に、目的音源以外の音源および反射体が目的音源の周囲に存在する実環境においては、マイクロホンにより集音された観測信号は、直接音と、雑音と、残響とを含む。すなわち、観測信号は、直接音と、雑音と、残響とが混じり合った信号(例えば、音声信号、音響信号など)である。
第1生成部135は、取得部132によって取得された訓練データに基づいて、観測信号(例えば、第2の観測信号)に対応する音素ラベルを識別するための音響モデルを生成する。第1生成部135は、訓練データに基づいて、観測信号に対応する音素ラベル列(すなわち、音素列)を識別するための音響モデルを生成してもよい。第1生成部135は、訓練データに基づいて、観測信号に対応する音韻のラベルを識別するための音響モデルを生成してもよい。第1生成部135は、生成された音響モデルを、音響モデル記憶部122に格納してもよい。
第2生成部136は、信号対雑音比が第1の閾値より低い第1の観測信号に残響を付加することによって、残響成分が第2の閾値より高い観測信号を生成する。例えば、第2生成部136は、信号対雑音比が第1の閾値より低い第1の観測信号に、様々な部屋の残響インパルス応答を畳み込むことによって、残響成分が第2の閾値より高い観測信号を、残響付加信号として生成する。
出力部137は、第1生成部135によって生成された音響モデルに、第2の観測信号と、第2の観測信号に基づいて推定された後部残響成分とを入力することによって、音素識別結果を出力する。例えば、出力部137は、第2の観測信号が所定の音素(例えば、「a」)である旨の音素識別結果を出力する。出力部137は、第2の観測信号が所定の音素である確率を出力してもよい。例えば、出力部137は、第2の観測信号と、第2の観測信号に基づいて推定された後部残響成分とをベクトル成分とする特徴ベクトルが所定の音素であるクラスに属する確率である事後確率を出力する。
提供部138は、提供装置20からの要求に応じて、第1生成部135によって生成された音響モデルを、提供装置20に提供する。また、提供部138は、提供装置20からの要求に応じて、出力部137によって出力された音素識別結果を、提供装置20に提供する。
次に、実施形態に係る生成装置100による提供処理の手順について説明する。図6は、実施形態に係る生成装置100による生成処理手順を示すフローチャートである。
上述の実施形態に係る生成装置100は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の生成装置100の他の実施形態について説明する。
取得部132は、訓練データとして、信号対雑音比(Signal to Noise Ratio)が第1の閾値より低い第1の観測信号の音響特徴量と、かかる第1の観測信号に対応する後部残響成分と、かかる第1の観測信号に対応付けられた音素ラベルとを取得してもよい。加えて、取得部132は、訓練データとして、残響成分が第2の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。
取得部132は、訓練データとして、後部残響成分が第3の閾値より低い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。第2生成部136は、第1の観測信号から後部残響成分を取り除くことによって、後部残響成分が第3の閾値より低い観測信号を生成してもよい。第1生成部135は、第1の観測信号に対応付けられた音素ラベルに対応し、かつ後部残響成分が第3の閾値より低い観測信号の音響特徴量と、第2の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。
取得部132は、訓練データとして、信号対雑音比が第4の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述してきた実施形態に係る生成装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述してきたように、実施形態に係る生成装置100は、取得部132と、第1生成部135とを有する。取得部132は、第1の観測信号の音響特徴量と、かかる第1の観測信号に対応する後部残響成分と、かかる第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。第1生成部135は、取得部132によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する。このため、生成装置100は、様々な環境下における後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。
10 端末装置
20 提供装置
120 記憶部
121 訓練データ記憶部
122 音響モデル記憶部
130 制御部
131 受信部
132 取得部
133 抽出部
134 推定部
135 第1生成部
136 第2生成部
137 出力部
138 提供部
Claims (9)
- 第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得部と、
前記取得部によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する第1生成部と、
を備えることを特徴とする生成装置。 - 前記取得部は、
前記訓練データとして、信号の雑音に対する比が第1の閾値より高い前記第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項1に記載の生成装置。 - 前記取得部は、
前記訓練データとして、残響成分が第2の閾値より高い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項1又は2に記載の生成装置。 - 信号の雑音に対する比が第1の閾値より高い前記第1の観測信号に残響を付加することによって、残響成分が第2の閾値より高い観測信号を生成する第2生成部をさらに備える
ことを特徴とする請求項1〜3のいずれか1つに記載の生成装置。 - 前記取得部は、
前記訓練データとして、後部残響成分が第3の閾値より低い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項1〜4のいずれか1つに記載の生成装置。 - 前記第2生成部は、
前記第1の観測信号から後部残響成分を取り除くことによって、後部残響成分が第3の閾値より低い観測信号を生成する
ことを特徴とする請求項4に記載の生成装置。 - 前記取得部は、
前記訓練データとして、信号の雑音に対する比が第4の閾値より低い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項1〜6のいずれか1つに記載の生成装置。 - 第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得工程と、
前記取得工程によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する生成工程と、
を含むことを特徴とする生成方法。 - 第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得手順と、
前記取得手順によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115562A JP6891144B2 (ja) | 2018-06-18 | 2018-06-18 | 生成装置、生成方法及び生成プログラム |
US16/284,500 US20190385590A1 (en) | 2018-06-18 | 2019-02-25 | Generating device, generating method, and non-transitory computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115562A JP6891144B2 (ja) | 2018-06-18 | 2018-06-18 | 生成装置、生成方法及び生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019219468A JP2019219468A (ja) | 2019-12-26 |
JP6891144B2 true JP6891144B2 (ja) | 2021-06-18 |
Family
ID=68840158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018115562A Active JP6891144B2 (ja) | 2018-06-18 | 2018-06-18 | 生成装置、生成方法及び生成プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190385590A1 (ja) |
JP (1) | JP6891144B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489737B (zh) * | 2020-04-13 | 2020-11-10 | 深圳市友杰智新科技有限公司 | 语音命令识别方法、装置、存储介质及计算机设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4864783B2 (ja) * | 2007-03-23 | 2012-02-01 | Kddi株式会社 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
JP4532576B2 (ja) * | 2008-05-08 | 2010-08-25 | トヨタ自動車株式会社 | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム |
JP2009276365A (ja) * | 2008-05-12 | 2009-11-26 | Toyota Motor Corp | 処理装置、音声認識装置、音声認識システム、音声認識方法 |
JP5166470B2 (ja) * | 2010-03-25 | 2013-03-21 | 株式会社東芝 | 音声認識装置、及びコンテンツ再生装置 |
JP6169910B2 (ja) * | 2013-07-08 | 2017-07-26 | 本田技研工業株式会社 | 音声処理装置 |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
JP6637078B2 (ja) * | 2016-02-02 | 2020-01-29 | 日本電信電話株式会社 | 音響モデル学習装置、音響モデル学習方法及びプログラム |
GB2551499B (en) * | 2016-06-17 | 2021-05-12 | Toshiba Kk | A speech processing system and speech processing method |
JP6454916B2 (ja) * | 2017-03-28 | 2019-01-23 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及びプログラム |
JP6748304B2 (ja) * | 2017-08-04 | 2020-08-26 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
-
2018
- 2018-06-18 JP JP2018115562A patent/JP6891144B2/ja active Active
-
2019
- 2019-02-25 US US16/284,500 patent/US20190385590A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20190385590A1 (en) | 2019-12-19 |
JP2019219468A (ja) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (zh) | 回声消除方法和装置 | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
US8271277B2 (en) | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium | |
JP4532576B2 (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
JP6234060B2 (ja) | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム | |
US7856353B2 (en) | Method for processing speech signal data with reverberation filtering | |
US9607627B2 (en) | Sound enhancement through deverberation | |
JP2012155339A (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
CN111369976A (zh) | 测试语音识别设备的方法及测试装置 | |
US10984814B2 (en) | Denoising a signal | |
EP3320311B1 (en) | Estimation of reverberant energy component from active audio source | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP6891144B2 (ja) | 生成装置、生成方法及び生成プログラム | |
CN112652290B (zh) | 产生混响音频信号的方法及音频处理模型的训练方法 | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
US10079028B2 (en) | Sound enhancement through reverberation matching | |
JP2009276365A (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法 | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
CN113555031B (zh) | 语音增强模型的训练方法及装置、语音增强方法及装置 | |
CN114758668A (zh) | 语音增强模型的训练方法和语音增强方法 | |
JP7426686B2 (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 | |
KR20220053475A (ko) | 전자 장치 및 이의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210526 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6891144 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |