JP6552146B1 - 音声処理装置、および音声処理方法 - Google Patents
音声処理装置、および音声処理方法 Download PDFInfo
- Publication number
- JP6552146B1 JP6552146B1 JP2019009182A JP2019009182A JP6552146B1 JP 6552146 B1 JP6552146 B1 JP 6552146B1 JP 2019009182 A JP2019009182 A JP 2019009182A JP 2019009182 A JP2019009182 A JP 2019009182A JP 6552146 B1 JP6552146 B1 JP 6552146B1
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- speech
- processing apparatus
- feature
- period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
(2)上記形態の音声処理装置において、前記第2変換部は、前記ニューラルネットワークとして、畳み込みニューラルネットワークを用いて前記第2特徴量を前記音響特徴量に変換してもよい。この形態の音声処理装置によれば、既存の技術を利用して高品位に第2特徴量を音響特徴量に変換できる。
(3)上記形態の音声処理装置において、前記第2期間は可変長でもよい。この形態の音声処理装置によれば、任意の長さの音響特徴量に変換できる。
(4)上記形態の音声処理装置において、前記第2変換部は、前記第1特徴量における無音部分に応じて前記第2期間の長さを変化させてもよい。この形態の音声処理装置によれば、例えば、歌声を合成する場合に、フレーズ毎に合成ができる。
(5)上記形態の音声処理装置において、前記第1変換部は、フィードフォワードニューラルネットワークを用いて前記第1特徴量を前記第2特徴量に変換してもよい。この形態の音声処理装置によれば、高速に第1特徴量を第2特徴量に変換できる。
(6)上記形態の音声処理装置において、前記第2変換部は、前記第2特徴量に加えて前記第1特徴量に含まれる特定のパラメータを前記ニューラルネットワークに入力して、前記音響特徴量への変換を行ってもよい。この形態の音声処理装置によれば、補助情報として第1特徴量に含まれる特定のパラメータを第2特徴量に加えるため、合成音声の精度が向上する音響特徴量に変換できる。
(7)上記形態の音声処理装置において、前記パラメータは音高情報を含んでいてもよい。この形態の音声処理装置によれば、合成音声の音質が向上する音響特徴量に変換できる。
(8)上記形態の音声処理装置において、前記第1特徴量における無音部分の前記音高情報は、前後の音高情報により補間された情報でもよい。この形態の音声処理装置によれば、より合成音声の音質が向上する音響特徴量に変換できる。
(9)上記形態の音声処理装置において、前記第1特徴量は、少なくとも言語特徴量と楽譜特徴量と声質特徴量とのいずれか一つを含んでいてもよい。この形態の音声処理装置によれば、例えば、第1特徴量をテキスト音声合成や歌声合成や声質変換を行うための音響特徴量に変換できる。
(10)上記形態の音声処理装置において、更に、前記音響特徴量を用いて音声波形を生成するボコーダ部を備えてもよい。この形態の音声処理装置によれば、音響特徴量を用いて合成音声を生成できる。
(11)上記形態の音声処理装置において、更に、前記第1特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、第1特徴量と音響特徴量との関係を学習でき、第2変換部に学習結果を反映できる。また、第1変換部がニューラルネットワークを用いて変換を行う場合には、第1変換部にも学習結果を反映できる。
(12)上記形態の音声処理装置において、前記第2変換部は、前記第2特徴量を、前記第2特徴量の各次元のデータを前記第2期間の長さ分並べて表される2次元データとして用いて前記音響特徴量に変換する、音声処理装置。この形態の音声処理装置によれば、時間方向の変化を効果的に扱うことができる。
(13)音声処理装置であって、音声に関する多次元の特徴量を取得する取得部と、前記特徴量を予め定められた期間毎に畳み込みニューラルネットワークを用いて音声波形を生成するための音響特徴量に変換する変換部と、を備え、前記変換部は、前記特徴量を、前記特徴量の各次元のデータを前記期間の長さ分並べて表される2次元データとして用いて前記音響特徴量に変換する。この形態の音声処理装置によれば、時間方向の変化を効果的に扱うことができ、長い期間毎に音響特徴量に変換するため、この音響特徴量を用いて音声を合成すると滑らかで自然な音声を合成できる。
図1は、本発明の一実施形態における音声処理装置100の概要を示す説明図である。音声処理装置100は、取得部10と、第1変換部20と、第2変換部30と、ボコーダ部40と、学習部50と、音響モデル60と、を備える。取得部10と、第1変換部20と、第2変換部30と、ボコーダ部40と、学習部50とは、1以上のCPUがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。
図7は、生成した音声波形に対する主観評価実験の実験結果である平均オピニオン評点(Mean Opinion Score(MOS))を示した図である。本実験において、4手法の合成音声の品質を、「1:非常に悪い、2:悪い、3:普通、4:良い、5:非常に良い」の5段階の主観評価実験によって評価した。被験者は15人であり、各被験者はテストデータである5曲から各手法につき10フレーズを評価した。評価対象である合成音声の音声波形は、4手法とも同じ第1特徴量を用いて生成した。
図8は、第2実施形態におけるCNNの説明図である。第2実施形態のCNNは、図8においてハッチングで示すように、第2特徴量に加えて第1特徴量に含まれる特定のパラメータを入力層に入力して用いる点が第1実施形態と異なる。第2実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
上記実施形態において、取得部10が取得する第1特徴量は、楽譜特徴量である。この代わりに、取得部10は、第1特徴量として言語特徴量を取得してもよい。言語特徴量は、図2に示した楽譜特徴量から楽譜情報が省略され、品詞やアクセント等の情報が追加された多次元のパラメータである。この形態によれば、歌声ではない、単なるテキスト合成音声を行うための音響特徴量を生成できる。また、取得部10は、第1特徴量として声質特徴量を取得してもよい。声質特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行うための音響特徴量を生成できる。
Claims (12)
- 音声処理装置であって、
音声に関する多次元の第1特徴量を取得する取得部と、
予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換部と、
前記第2特徴量を、時系列的に前記第2特徴量を処理することができる畳み込みニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に変換する第2変換部と、を備える音声処理装置。 - 請求項1に記載の音声処理装置であって、
前記第2期間は可変長である、音声処理装置。 - 請求項2に記載の音声処理装置であって、
前記第2変換部は、前記第1特徴量における無音部分に応じて前記第2期間の長さを変化させる、音声処理装置。 - 請求項1から請求項3までのいずれか一項に記載の音声処理装置であって、
前記第1変換部は、フィードフォワードニューラルネットワークを用いて前記第1特徴量を前記第2特徴量に変換する、音声処理装置。 - 請求項1から請求項4までのいずれか一項に記載の音声処理装置であって、
前記第2変換部は、前記第2特徴量に加えて前記第1特徴量に含まれる音高情報を前記畳み込みニューラルネットワークに入力して、前記音響特徴量への変換を行う、音声処理装置。 - 請求項5に記載の音声処理装置であって、
前記第1特徴量における無音部分の前記音高情報は、前後の音高情報により補間された情報である、音声処理装置。 - 請求項1から請求項6までのいずれか一項に記載の音声処理装置であって、
前記第1特徴量は、少なくとも言語特徴量と楽譜特徴量と声質特徴量とのいずれか一つを含む、音声処理装置。 - 請求項1から請求項7までのいずれか一項に記載の音声処理装置であって、更に、
前記音響特徴量を用いて音声波形を生成するボコーダ部を備える、音声処理装置。 - 請求項1から請求項8までのいずれか一項に記載の音声処理装置であって、更に、
前記第1特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記畳み込みニューラルネットワークに反映させる学習部を備える、音声処理装置。 - 請求項1から請求項9までのいずれか一項に記載の音声処理装置であって、
前記第2変換部は、前記第2特徴量を、前記第2特徴量の各次元のデータを前記第2期間の長さ分並べて表される2次元データとして用いて前記音響特徴量に変換する、音声処理装置。 - 音声処理方法であって、
音声に関する多次元の第1特徴量を取得する取得工程と、
予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換工程と、
前記第2特徴量を時系列的に前記第2特徴量を処理することができる畳み込みニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に変換する第2変換工程と、を備える音声処理方法。 - 音声処理装置であって、
音声に関する多次元の特徴量を取得する取得部と、
前記特徴量を予め定められた期間毎に畳み込みニューラルネットワークを用いて音声波形を生成するための音響特徴量に変換する変換部と、を備え、
前記変換部は、前記特徴量を、前記特徴量の各次元のデータを前記期間の長さ分並べて表される2次元データとして用いて前記音響特徴量に変換する、音声処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009182A JP6552146B1 (ja) | 2019-01-23 | 2019-01-23 | 音声処理装置、および音声処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009182A JP6552146B1 (ja) | 2019-01-23 | 2019-01-23 | 音声処理装置、および音声処理方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019122680A Division JP7280605B2 (ja) | 2019-07-01 | 2019-07-01 | 音声処理装置、および音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6552146B1 true JP6552146B1 (ja) | 2019-07-31 |
JP2020118828A JP2020118828A (ja) | 2020-08-06 |
Family
ID=67473394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019009182A Active JP6552146B1 (ja) | 2019-01-23 | 2019-01-23 | 音声処理装置、および音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6552146B1 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6399715B1 (ja) * | 2017-11-15 | 2018-10-03 | 株式会社テクノスピーチ | 歌唱支援装置および、カラオケ装置 |
-
2019
- 2019-01-23 JP JP2019009182A patent/JP6552146B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020118828A (ja) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5471858B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
WO2006123539A1 (ja) | 音声合成装置 | |
KR20200092505A (ko) | 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 | |
CN111418006A (zh) | 声音合成方法、声音合成装置及程序 | |
JP3576840B2 (ja) | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 | |
WO2020095951A1 (ja) | 音響処理方法および音響処理システム | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP6552146B1 (ja) | 音声処理装置、および音声処理方法 | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP7280605B2 (ja) | 音声処理装置、および音声処理方法 | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice. | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
JP2020204755A (ja) | 音声処理装置、および音声処理方法 | |
JP2020134920A (ja) | 音声処理装置、および音声処理方法 | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2002123280A (ja) | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 | |
US20230260493A1 (en) | Sound synthesizing method and program | |
JP2011191528A (ja) | 韻律作成装置及び韻律作成方法 | |
JP2679623B2 (ja) | テキスト音声合成装置 | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP3576792B2 (ja) | 音声情報処理方法 | |
Le Beux et al. | Calliphony: a real-time intonation controller for expressive speech synthesis. | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190128 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190128 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6552146 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |