JP7192882B2 - 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム - Google Patents
発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- JP7192882B2 JP7192882B2 JP2020562317A JP2020562317A JP7192882B2 JP 7192882 B2 JP7192882 B2 JP 7192882B2 JP 2020562317 A JP2020562317 A JP 2020562317A JP 2020562317 A JP2020562317 A JP 2020562317A JP 7192882 B2 JP7192882 B2 JP 7192882B2
- Authority
- JP
- Japan
- Prior art keywords
- rhythm
- speech
- utterance
- conversion
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033764 rhythmic process Effects 0.000 title claims description 135
- 238000006243 chemical reaction Methods 0.000 title claims description 88
- 238000000034 method Methods 0.000 title claims description 32
- 239000013598 vector Substances 0.000 claims description 69
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000001755 vocal effect Effects 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
この発明の第一実施形態は、事前に学習されたニューラルネットワーク(以下、「発話リズム変換モデル」と呼ぶ)を用いて、第一グループの話者による音声信号を、第二グループの話者の発話リズムに変換する発話リズム変換装置および方法と、事前に収集された学習データを用いて、発話リズム変換装置および方法が用いる発話リズム変換モデルを学習するモデル学習装置および方法である。第一グループとは、例えば、第一言語(例えば、日本語)を母語とする話者(以下、「日本語母語話者」と呼ぶ)である。第二グループとは、例えば、第二言語(例えば、英語)を母語とする話者(以下、「英語母語話者」と呼ぶ)である。
第一実施形態の発話リズム変換装置1は、図1に例示するように、モデル記憶部10、特徴量抽出部11、変換部12、および音声合成部13を備える。この発話リズム変換装置1が、図2に例示する各ステップの処理を行うことにより第一実施形態の発話リズム変換方法が実現される。
第一実施形態のモデル学習装置2は、図3に例示するように、モデル記憶部10、学習データ記憶部20、および学習部21を備える。学習部21は、変換部211、終了判定部212、およびパラメータ更新部213を備える。このモデル学習装置2が、図4に例示する各ステップの処理を行うことにより第一実施形態のモデル学習方法が実現される。
第一実施形態では、日本語母語話者の3音素組の時間関数を英語母語話者の3音素組の中心音素の時間関数に変換していた。これに対して、第二実施形態では、日本語母語話者の時間関数全体を英語母語話者の時間関数全体に変換するように発話リズム変換モデルを構成する。第一実施形態の発話リズム変換モデルは、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)で構成したが、第二実施形態の発話リズム変換モデルは、再帰型ニューラルネットワーク(RNN)で構成する。
第二実施形態の特徴量抽出部11は、入力音声信号から発話リズムに関する情報を含む第1特徴量ベクトルと声道スペクトルに関する情報を含む第2特徴量ベクトルとを抽出する。各音素から求める発話リズム情報は第一実施形態と同様であるが、生成する第1特徴量ベクトルは、入力されたすべての音素(すなわち、発話全体)についての特徴量を連結したベクトル系列とする。
第二実施形態で用いる学習データは、第一実施形態と同様に、例えば、日本語母語話者と英語母語話者が同一の英文(例えば、"I have a pen"など)を英語で発話したパラレルデータである。同じ英文ではあるが、日本語母語話者の英語音声は言いよどみや言い間違いなどが含まれるため、第二実施形態では、非パラレルなデータを扱える注意機構(attention)付系列変換モデル(Seq2Seq)を用いる。注意機構とは、Decoderが推論するためにEncoderのどの時刻に注意するかを示すものである。リズム変換では、Encoderの時刻とDecoderの時刻との対応がほぼ対角になることから、例えば、Guided Attention Loss(参考文献1参照)を利用する。これにより、言いよどみや言い間違いなどをスキップなどすることができる。ネットワーク構造は、音声合成などで用いられるTacotron2(参考文献2参照)を参考にして構築する。なお、入力ベクトルと出力ベクトルの音素数は一致していなくてもよい。
〔参考文献2〕Shen, J.; Pang, R.; Weiss, R.J.; Schuster, M.; Jaitly, N.; Yang, Z.; Chen, Z.; Zhang, Y.; Wang, Y.; Skerrv-Ryan, R.; et al. Natural TTS Synthesis by ConditioningWavenet on MEL Spectrogram Predictions. In Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada, 12-17 May 2018; pp. 4779-4783. doi:10.1109/ICASSP.2018.8461368.
発話リズム変換モデルに入力する第1特徴量ベクトルは、ゲイン(声の大きさ)、音素、調音特徴などを加えてもよい。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (6)
- 第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルを記憶するモデル記憶部と、
上記第一グループの話者が発話した入力音声信号から、声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルとを抽出する特徴量抽出部と、
上記第1特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得る変換部と、
上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する音声合成部とを含み、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
を含む発話リズム変換装置。 - 請求項1に記載の発話リズム変換装置であって、
上記第1特徴量ベクトルは、前後に連続する複数の音素の発話リズムに関する情報をさらに含むものである、
発話リズム変換装置。 - 第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データを記憶する学習データ記憶部と、
上記学習データを用いて、上記第一音声信号から抽出した第1特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する学習部とを含み、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
を含むモデル学習装置。 - モデル記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルが記憶されており、
特徴量抽出部が、上記第一グループの話者が発話した入力音声信号から声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルとを抽出し、
変換部が、上記第1特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得、
音声合成部が、上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する発話リズム変換方法であって、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
発話リズム変換方法。 - 学習データ記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データが記憶されており、
学習部が、上記学習データを用いて、上記第一音声信号から抽出した第1特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習するモデル学習方法であって、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
モデル学習方法。 - 請求項1または2に記載の発話リズム変換装置もしくは請求項3に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018242126 | 2018-12-26 | ||
JP2018242126 | 2018-12-26 | ||
PCT/JP2019/024438 WO2020136948A1 (ja) | 2018-12-26 | 2019-06-20 | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020136948A1 JPWO2020136948A1 (ja) | 2021-09-30 |
JP7192882B2 true JP7192882B2 (ja) | 2022-12-20 |
Family
ID=71127891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020562317A Active JP7192882B2 (ja) | 2018-12-26 | 2019-06-20 | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11869529B2 (ja) |
JP (1) | JP7192882B2 (ja) |
WO (1) | WO2020136948A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200394994A1 (en) * | 2019-06-12 | 2020-12-17 | Nvidia Corporation | Invertible neural network to synthesize audio signals |
CN113299318B (zh) * | 2021-05-24 | 2024-02-23 | 百果园技术(新加坡)有限公司 | 一种音频节拍的检测方法、装置、计算机设备和存储介质 |
WO2023112095A1 (ja) * | 2021-12-13 | 2023-06-22 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016218309A (ja) | 2015-05-22 | 2016-12-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
JP2016218386A (ja) | 2015-05-26 | 2016-12-22 | 日本電信電話株式会社 | 発話リズム変換装置、方法及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5143809B2 (ja) * | 2009-10-09 | 2013-02-13 | 日本電信電話株式会社 | 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム |
CN103370743A (zh) * | 2011-07-14 | 2013-10-23 | 松下电器产业株式会社 | 音质变换***、音质变换装置及其方法、声道信息生成装置及其方法 |
GB2517503B (en) * | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
JP6167063B2 (ja) * | 2014-04-14 | 2017-07-19 | 日本電信電話株式会社 | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム |
JP6577159B1 (ja) * | 2016-09-06 | 2019-09-18 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したオーディオの生成 |
US10896669B2 (en) * | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10510358B1 (en) * | 2017-09-29 | 2019-12-17 | Amazon Technologies, Inc. | Resolution enhancement of speech signals for speech synthesis |
CN112352275A (zh) * | 2018-12-13 | 2021-02-09 | 微软技术许可有限责任公司 | 具有多级别文本信息的神经文本到语音合成 |
-
2019
- 2019-06-20 JP JP2020562317A patent/JP7192882B2/ja active Active
- 2019-06-20 WO PCT/JP2019/024438 patent/WO2020136948A1/ja active Application Filing
- 2019-06-20 US US17/417,749 patent/US11869529B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016218309A (ja) | 2015-05-22 | 2016-12-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
JP2016218386A (ja) | 2015-05-26 | 2016-12-22 | 日本電信電話株式会社 | 発話リズム変換装置、方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
MORITZ,Niko et al.,A CHIME-3 CHALLENGE SYSTEM: LONG-TERM ACOUSTIC FEATURES FOR NOISE ROBUST AUTOMATIC SPEECH RECOGNITION,2015 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU),IEEE,2015年12月13日,pp.468-474 |
Also Published As
Publication number | Publication date |
---|---|
US11869529B2 (en) | 2024-01-09 |
JPWO2020136948A1 (ja) | 2021-09-30 |
US20220076691A1 (en) | 2022-03-10 |
WO2020136948A1 (ja) | 2020-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112204653B (zh) | 通过机器学习的直接的语音到语音翻译 | |
US10186252B1 (en) | Text to speech synthesis using deep neural network with constant unit length spectrogram | |
JP6052814B2 (ja) | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 | |
CN112435654B (zh) | 通过帧***对语音数据进行数据增强 | |
KR20240096867A (ko) | 2-레벨 스피치 운율 전송 | |
US20140365221A1 (en) | Method and apparatus for speech recognition | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
JP2002366187A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JP2016218309A (ja) | 音声認識装置及びコンピュータプログラム | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
KR20220134347A (ko) | 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치 | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
CN117678013A (zh) | 使用合成的训练数据的两级文本到语音*** | |
Ajayi et al. | Systematic review on speech recognition tools and techniques needed for speech application development | |
WO2020166359A1 (ja) | 推定装置、推定方法、及びプログラム | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP7173339B2 (ja) | 発話評価装置、発話評価方法、およびプログラム | |
Bohouta | Improving wake-up-word and general speech recognition systems | |
Kamath et al. | Automatic Speech Recognition | |
Gulić et al. | A digit and spelling speech recognition system for the croatian language | |
Sadashivappa | MLLR Based Speaker Adaptation for Indian Accents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220506 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7192882 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |