JP2020012928A - 耐雑音音声認識装置及び方法、並びにコンピュータプログラム - Google Patents
耐雑音音声認識装置及び方法、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2020012928A JP2020012928A JP2018133977A JP2018133977A JP2020012928A JP 2020012928 A JP2020012928 A JP 2020012928A JP 2018133977 A JP2018133977 A JP 2018133977A JP 2018133977 A JP2018133977 A JP 2018133977A JP 2020012928 A JP2020012928 A JP 2020012928A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech
- voice
- speech recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004590 computer program Methods 0.000 title claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000000644 propagated effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
Description
・雑音付加学習
音声強調とは、音声認識の対象となる音声信号から雑音を除去することによって音声認識の精度を高める技術である。典型的には、マイクロホンからの音声信号に対して音声強調を行ってから音声認識の処理を行う。
図3は、本発明の第1の実施の形態に係る音声認識装置180の概略構成を示すブロック図である。図3を参照して、音声認識装置180は、波形110により表される音声についてマイクロホンが出力する、雑音重畳音声である音声信号112に対し、既存の音声強調処理を行って強調音声信号203を出力する音声強調部202と、音声信号112及び強調音声信号203の双方を入力として、拡大された音声の特徴量210及び212を抽出する拡大特徴抽出部200と、拡大特徴抽出部200が出力する特徴量210及び212を入力として受けて音声認識を行って認識後のテキスト208を出力する音声認識部204とを含む。音声認識部204としては、図1に示す音声認識部120と同様のものを用いることができる。ただし、使用する特徴量については後述するように従来のものとは異なっている。
図5に、本発明の第2の実施の形態に係る音響モデル280の構成を示す。第2の実施の形態に係る音声認識装置は、図3に示す音響モデル206に代えて図5に示す音響モデル280を用いる点を除き第1の実施の形態に係る音声認識装置180と同じである。
図6に、本発明の第3の実施の形態に係る音声認識装置380のブロック図を示す。この音声認識装置380は、波形110により表される音声についてマイクロホンが出力する音声信号112に対し、それぞれ既存の第1〜第4の音声強調処理を行ってそれぞれ強調音声信号203、393、395及び397を出力する音声強調部202、392、394及び396と、音声信号112及び強調音声信号203、393、395及び397を入力として、拡大された音声の特徴量210、212、430、432及び434を抽出する拡大特徴抽出部390と、拡大特徴抽出部390が出力する特徴量210、212、430、432及び434を入力として受けて音声認識を行って認識後のテキスト400を出力する音声認識部402とを含む。
第3の実施の形態では、雑音重畳音声の特徴量210及び第1〜第4の強調音声の特徴量212、430、432及び434がいずれも入力層450に入力されており、中間層452を構成する全ての隠れ層にこの情報が伝搬されている。しかし本発明はそのような実施の形態には限定されない。
図9に、第5の実施の形態に係る音声認識装置で使用される音響モデル650の概略構成を示す。図9から分かるように、この音響モデル650も深層ニューラル・ネットワークからなる。
図10に、本発明の第6の実施の形態に係る音声認識装置で使用される音響モデル750の概略構成を示す。この実施の形態に係る音声認識装置自体の構成は図3に示すものと同様である。ただし、図3の音響モデル206に代えて音響モデル750を用いる点が異なる。
図11は第7の実施の形態に係る音声認識装置で使用される音響モデル850の概略構成を示す。図11からも分かるようにこの音響モデル850も深層ニューラル・ネットワークからなる。この第7の実親形態に係る音声認識装置は、図6に示す音声認識装置380と同様である。ただし、図7の音響モデル398に代えて音響モデル850を使用する点が異なる。
図12に、本発明の第8の実施の形態に係る音声認識装置で使用される音響モデル950の概略構成を示す。音響モデル950もまた他の実施の形態に係る音響モデルと同様、深層ニューラル・ネットワークからなる。
図14に、上記各実施の形態について行った実験結果(単語誤り率)を表形式で示す。この実験では、非特許文献5に記載されたCHiME3(タブレットを用いた屋外で収録した音声)を認識対象として使用した。この実験で使用した音声強調処理は以下のとおりである。
・音声強調2:非特許文献2に開示された技術
・音声強調3:非特許文献3に開示された技術
・音声強調4:非特許文献4に開示された技術
第1、第2、第5及び第6の実施の形態に関する実験では、例えば図3に示す音声強調部202として上記音声強調1〜4をそれぞれ採用して各実施の形態の音響モデルを使用して音声認識精度を測定し、第3、第5、第7及び第8の実施の形態に関する実験では、図6に示す音声強調部202、392、394及び396として上記音声強調1〜4をそれぞれ採用し、各実施の形態の音響モデルを使用して音声認識精度を測定した。
上記した各実施の形態に係る音声認識装置の各機能部は、それぞれコンピュータハードウェアと、そのハードウェア上でCPU(中央演算処理装置)及びGPU(Graphics Processing Unit)により実行されるプログラムとにより実現できる。図15に上記各音声認識装置を実現するコンピュータハードウェアを示す。GPUは通常は画像処理を行うために使用されるが、このようにGPUを画像処理ではなく通常の演算処理に使用する技術をGPGPU(General-purpose computing on graphics processing units)と呼ぶ。GPUは同種の複数の演算を同時並列的に実行できる。一方、ニューラル・ネットワークの場合、特に学習時には演算が大量に必要になるが、それらは同時に超並列的に実行可能である。したがって、音声認識装置とそこに用いられる音響モデルを構成するニューラル・ネットワークの訓練と推論にはGPUを備えたコンピュータが適している。なお、学習が終わった音響モデルを用いて音声認識を行う場合、十分高速なCPUを搭載したコンピュータであれば、必ずしもGPUを搭載していなくてもよい。
上記第3、第4、第7及び第8の実施の形態では、4種類の音声強調処理を用いている。しかし本発明はそのような実施の形態には限定されない。2種類、3種類、又は5種類以上の音声強調処理を用いるようにしてもよい。
110 波形
112 音声信号
114、202、392、394、396 音声強調部
116、203、393、395、397 強調音声信号
118、220、410、412、414 特徴抽出部
120、204、402 音声認識部
122、208、400 テキスト
124、206、280、398、500、650、750、850、950 音響モデル
126 発音辞書
128 言語モデル
200、390 拡大特徴抽出部
210 雑音重畳音声の特徴量
212 第1の強調音声の特徴量
300 雑音重畳音声のためのサブネットワーク
302 強調音声のためのサブネットワーク
304 出力側サブネットワーク
430 第2の強調音声の特徴量
432 第3の強調音声の特徴量
434 第4の強調音声の特徴量
452 中間層
530、1130 コンピュータシステム
540、770 第1のサブネットワーク
542、772 第2のサブネットワーク
544、774 第3のサブネットワーク
546 第4のサブネットワーク
548 第5のサブネットワーク
550、970 中間サブネットワーク
682、818、892、902、912、922、998、1008、1018、1028、1100 ゲート層
960 第1の入力サブネットワーク
962 第2の入力サブネットワーク
964 第3の入力サブネットワーク
966 第4の入力サブネットワーク
968 第5の入力サブネットワーク
Claims (6)
- 目的信号である音声信号に雑音信号が重畳した音響信号を入力とし、前記音声信号が強調された強調音声信号を出力する音声強調回路と、
前記強調音声信号と、前記音響信号とを受け、前記音声信号の発話内容をテキスト化する音声認識部とを含む、耐雑音音声認識装置。 - 前記音声強調回路は、
前記音響信号に対して第1の種類の音声強調処理を行って第1の強調音声信号を出力する第1の音声強調部と、
前記音響信号に対して前記第1の種類と異なる第2の種類の音声強調処理を行って第2の強調音声信号を出力する第2の音声強調部とを含み、
前記音声認識部は、前記第1及び第2の強調音声信号と、前記音響信号とを受け、前記音声信号の発話内容をテキスト化する、請求項1に記載の耐雑音音声認識装置。 - 前記音声認識部は、
前記音響信号から第1の特徴量を抽出する第1の特徴抽出手段と、
前記強調音声信号から第2の特徴量を抽出する第2の特徴抽出手段と、
前記第2の特徴量の各々について、前記第1の特徴量と、前記第2の特徴量とに応じて取捨選択する特徴選択手段と、
前記特徴選択手段により選択された前記第2の特徴量を用いて前記音声信号の発話内容をテキスト化する音声認識手段とを含む、請求項1に記載の耐雑音音声認識装置。 - 前記音声認識手段が音声認識に用いる音響モデルを記憶する音響モデル記憶手段をさらに含み、
当該音響モデルは複数の隠れ層を持つ深層ニューラル・ネットワークであり、
前記音響モデルは、
前記第1の特徴量を入力として受ける第1のサブネットワークと、
前記第2の特徴量を入力として受ける第2のサブネットワークと、
前記第1のサブネットワークの出力と前記第2のサブネットワークの出力とを受け、前記第1の特徴量及び第2の特徴量から推定される音素を出力する第3のサブネットワークとを含む、請求項3に記載の耐雑音音声認識装置。 - コンピュータが、目的信号である音声信号に雑音信号が重畳した単一チャネルの音響信号を入力として、前記音声信号が強調された強調音声信号を出力するステップと、
コンピュータが、前記強調音声信号と、前記音響信号とを受け、前記音声信号の発話内容をテキスト化する音声認識ステップとを含む、耐雑音音声認識方法。 - コンピュータを、請求項1〜請求項4のいずれかに記載の耐雑音装置として機能させる、コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018133977A JP7231181B2 (ja) | 2018-07-17 | 2018-07-17 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
PCT/JP2019/024279 WO2020017226A1 (ja) | 2018-07-17 | 2019-06-19 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018133977A JP7231181B2 (ja) | 2018-07-17 | 2018-07-17 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020012928A true JP2020012928A (ja) | 2020-01-23 |
JP7231181B2 JP7231181B2 (ja) | 2023-03-01 |
Family
ID=69164003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018133977A Active JP7231181B2 (ja) | 2018-07-17 | 2018-07-17 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7231181B2 (ja) |
WO (1) | WO2020017226A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508475B (zh) * | 2020-04-16 | 2022-08-09 | 五邑大学 | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092491A (ja) * | 1999-09-01 | 2001-04-06 | Trw Inc | 単一マイクロフォンを使用するノイズ減少のためのシステムおよび方法 |
JP2015102806A (ja) * | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
JP2016143043A (ja) * | 2015-02-05 | 2016-08-08 | 日本電信電話株式会社 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
JP2016180839A (ja) * | 2015-03-24 | 2016-10-13 | 日本放送協会 | 雑音抑圧音声認識装置およびそのプログラム |
WO2017135148A1 (ja) * | 2016-02-02 | 2017-08-10 | 日本電信電話株式会社 | 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム |
US20170256254A1 (en) * | 2016-03-04 | 2017-09-07 | Microsoft Technology Licensing, Llc | Modular deep learning model |
-
2018
- 2018-07-17 JP JP2018133977A patent/JP7231181B2/ja active Active
-
2019
- 2019-06-19 WO PCT/JP2019/024279 patent/WO2020017226A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092491A (ja) * | 1999-09-01 | 2001-04-06 | Trw Inc | 単一マイクロフォンを使用するノイズ減少のためのシステムおよび方法 |
JP2015102806A (ja) * | 2013-11-27 | 2015-06-04 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
JP2016143043A (ja) * | 2015-02-05 | 2016-08-08 | 日本電信電話株式会社 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
JP2016180839A (ja) * | 2015-03-24 | 2016-10-13 | 日本放送協会 | 雑音抑圧音声認識装置およびそのプログラム |
WO2017135148A1 (ja) * | 2016-02-02 | 2017-08-10 | 日本電信電話株式会社 | 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム |
US20170256254A1 (en) * | 2016-03-04 | 2017-09-07 | Microsoft Technology Licensing, Llc | Modular deep learning model |
Also Published As
Publication number | Publication date |
---|---|
JP7231181B2 (ja) | 2023-03-01 |
WO2020017226A1 (ja) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
Erdogan et al. | Deep recurrent networks for separation and recognition of single-channel speech in nonstationary background audio | |
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
CN111161752A (zh) | 回声消除方法和装置 | |
Ravanelli et al. | Realistic multi-microphone data simulation for distant speech recognition | |
Lokesh et al. | Speech recognition system using enhanced mel frequency cepstral coefficient with windowing and framing method | |
Wang et al. | Recurrent deep stacking networks for supervised speech separation | |
JP6543820B2 (ja) | 声質変換方法および声質変換装置 | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN113436643A (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
Barker et al. | The CHiME challenges: Robust speech recognition in everyday environments | |
EP3392882A1 (en) | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
Cui et al. | Multi-objective based multi-channel speech enhancement with BiLSTM network | |
Kim et al. | Efficient implementation of the room simulator for training deep neural network acoustic models | |
Wang et al. | Enhanced Spectral Features for Distortion-Independent Acoustic Modeling. | |
JP2006154314A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
Liu et al. | Using bidirectional associative memories for joint spectral envelope modeling in voice conversion | |
KR20200028852A (ko) | 암묵 신호 분리를 위한 방법, 장치 및 전자 장치 | |
Mirbeygi et al. | RPCA-based real-time speech and music separation method | |
Duong et al. | Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model | |
WO2020017226A1 (ja) | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム | |
Li et al. | A fast convolutional self-attention based speech dereverberation method for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7231181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |