JP2017194510A - 音響モデル学習装置、音声合成装置、これらの方法及びプログラム - Google Patents
音響モデル学習装置、音声合成装置、これらの方法及びプログラム Download PDFInfo
- Publication number
- JP2017194510A JP2017194510A JP2016083174A JP2016083174A JP2017194510A JP 2017194510 A JP2017194510 A JP 2017194510A JP 2016083174 A JP2016083174 A JP 2016083174A JP 2016083174 A JP2016083174 A JP 2016083174A JP 2017194510 A JP2017194510 A JP 2017194510A
- Authority
- JP
- Japan
- Prior art keywords
- intention
- acoustic model
- context data
- speech
- model learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
(音響モデル学習装置及び方法)
第一実施形態の音響モデル学習装置は、図1に例示するように、コンテキストデータ記憶部11、音声データ記憶部12、言語特徴量ベクトル抽出部13、意図データ記憶部14、意図情報ベクトル作成部15、意図情報ベクトル記憶部16、音響モデル学習部17及び音響モデル記憶部18を備えている。
コンテキストデータ記憶部11には、各コンテキストデータが記憶されている。Iを正の整数として、コンテキストデータ記憶部11に記憶されているコンテキストデータの総数は、例えばI個である。コンテキストデータは、音声データ記憶部12に記憶されている音声データ中の各発話に対して付与された発音等の情報である。音声データ中の各発話に1つのコンテキストデータが付与されている。コンテキストデータには、音素情報(発音情報)とアクセント情報(アクセント型、アクセント句長)が例えば含まれている。コンテキストデータには、これ以外にも品詞情報等が含まれていてもよい。
音声データ記憶部12には、音響モデル学習に使用する音声データが記憶されている。この音声データは、例えば音声信号に対して信号処理を行った結果、得られる音声パラメータ(音高パラメータ(基本周波数(F0)等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))等のデータである。
言語特徴量ベクトル抽出部13は、コンテキストデータ記憶部11から読み込んだ各コンテキストデータを用いて、各コンテキストデータの言語特徴量ベクトルを抽出する(ステップS13)。抽出された言語特徴量ベクトルデータは、音響モデル学習部17に出力される。
意図データ記憶部14には、意図データが記憶されているとする。意図データは、音声データ、コンテキストデータに含まれる各発話に対して付与される意図情報を保持したデータである。
意図情報ベクトル作成部15は、意図データ記憶部14から読み込んだ意図データを用いて、各コンテキストデータの発話意図を表す意図情報ベクトルを作成する(ステップS15)。作成された意図情報ベクトルは、意図情報ベクトル記憶部16に記憶される。
意図情報ベクトル記憶部16には、各コンテキストデータの発話意図を表する意図情報ベクトルが記憶される。
音響モデル学習部17は、言語特徴量ベクトル抽出部13で抽出された各コンテキストデータの言語特徴量ベクトルと、音声データ記憶部12から読み込んだ各コンテキストデータに対応する音声データと、意図情報ベクトル記憶部16から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する(ステップS17)。音声データ記憶部12から読み込んだ各コンテキストデータに対応する音声データは、例えば音声パラメータである。生成された音響モデルは、音響モデル記憶部18に記憶される。
Xue, Shaofei, et al. "Fast adaptation of deep neural network based on discriminant codes for speech recognition.", Audio, Speech, and Language Processing, IEEE/ACM Transactions on 22.12 (2014), pp.1713-1725.
第一実施形態の音声合成装置は、図4に例示するように、テキスト解析部21、言語特徴量ベクトル抽出部22、意図情報ベクトル作成部23、音声パラメータ生成部24及び音声波形生成部25を備えている。
テキスト解析部21は、入力されたテキストをテキスト解析し、合成テキストの読み、アクセントなどの情報であるコンテキストを得る(ステップS21)。得られたコンテキストは、言語特徴量ベクトル抽出部22に出力される。
言語特徴量ベクトル抽出部22は、入力されたコンテキストに対応する言語特徴量ベクトルを抽出する(ステップS22)。抽出された言語特徴量ベクトルは、音声パラメータ生成部24に出力される。
意図情報ベクトル作成部23は、入力された意図情報cnに対応する意図情報ベクトルを作成する(ステップS23)。作成された意図情報ベクトルは、音声パラメータ生成部24に出力される。
音響モデル記憶部18には、音響モデル学習装置及び方法により生成された音響モデルが記憶されている。
音声パラメータ生成部24は、言語特徴量ベクトル抽出部22で得られた言語特徴量ベクトルと、意図情報ベクトル作成部23で作成された意図情報ベクトルと、音響モデル記憶部18から読み込んだ音響モデルとを用いて、音声パラメータを生成する(ステップS24)。生成された音声パラメータは、音声波形生成部25に出力される。
音声波形生成部25は、音声パラメータ生成部24で生成された音声パラメータから、音声波形生成により合成音声を得る(ステップS25)。
〔参考文献4〕今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.
第一実施形態において、類似した音声の表情付けに対し、複数の意図情報が対応する場合がある。例えば,意図情報として、参考文献1のような対話行為情報を利用する場合、情報提供、自己開示_事実などの対話行為は、音声に強く表情付けが行われず、通常の読み上げ口調に近い音声が発話される可能性がある。そのため、第一実施形態では、過剰にクラス数の大きい分類が、音声による意図の表現のために使用される可能性がある。クラス数が増大すると、入力コンテキストの次元数が増加し、音響モデル(例えばDNN音響モデル)のパラメータ数が増加する。一般に、パラメータ数の大きい音響モデルは学習データに対する過学習を招きやすく、合成音声の品質を低下させたり、音声による意図表現の表現力を低下させたりする。または、十分な合成音声品質や音声による意図表現の表現力を得るために、大量の音声データ、コンテキストデータが必要となり、音声合成装置及び方法の学習のためのコストが増大する。
第二実施形態の音響モデル学習装置は、図6に例示するように、意図クラス学習部19及び意図クラス分類情報記憶部110を更に備えている。意図クラス学習部19は、図7に例示するように、意図特徴ベクトル抽出部191及び意図クラスタリング部192を例えば備えている。
意図特徴ベクトル抽出部191は、各意図情報について、対応する発話の音声データから、意図情報の特徴を表す意図特徴ベクトルを得る。得られた意図特徴ベクトルは、意図クラスタリング部192に出力される。
意図クラスタリング部192は、意図特徴ベクトル抽出部191で得られたN個の意図特徴ベクトルを用いて、任意のM(Mは2以上N未満の整数)個に分割するようにクラスタリングを行うことで、意図クラス分類情報を得る。得られた意図クラス分類情報は、意図クラス分類情報記憶部110に記憶される。
第二実施形態の意図情報ベクトル作成部15は、ある意図情報を入力したとき、意図クラス分類情報に基づき、対応する意図情報ベクトルを出力する。
第二実施形態の音響モデル学習装置は、図8に例示するように、意図クラス分類情報記憶部110を更に備えている。
第二実施形態において、音声による意図表現の高い表現力を実現するためには、音響モデル(例えば、DNN音響モデル)の尤度を最大化する意図クラスとDNN音響モデルのパラメータを学習できればよい。第二実施形態のモデル学習では、前段の意図クラス学習部で各発話の意図クラスを決定し、後段の音響モデル学習部では、前段で決定された意図クラスを使用して、音響モデルの尤度を最大化する音響モデルのパラメータを決定している。しかし、意図クラス、音響モデルのパラメータについて多段的に最適化を行うため、得られる意図クラスと音響モデルのパラメータは局所解に陥り、DNN音響モデルの尤度は十分に大きくならない可能性がある。したがって、音声による意図表現の表現力を十分に向上することができない可能性がある。
第三実施形態の音響モデル学習装置は、図9に例示するように、意図クラス決定部111及び尤度基準意図クラス分類情報記憶部112を更に備えている。
第三実施形態の音響モデル学習部17は、音声データ記憶部12から読み込んだ音声データと、言語特徴量ベクトル抽出部13が抽出した言語特徴量ベクトルデータと、意図情報ベクトル記憶部16から読み込んだ意図情報ベクトルデータとから、各発話意図が各意図クラスに属する確率である意図クラス確率と音響モデルのパラメータを同時に推定し、音響モデルと意図クラス分類情報とを出力する(ステップS17)。例えば、各意図情報に対応する意図クラス情報を隠れ変数とし、EMアルゴリズムのMステップに勾配法を適応するGeneralized EM (GEM)アルゴリズム(例えば、参考文献5参照。)を用いる。GEMアルゴリズムでは、音響モデルのパラメータ、意図クラス確率について適当な初期値を与え、両者が交互に更新される。
意図クラス決定部111は、意図クラス確率から、尤度基準意図クラス分類情報を決定する(ステップS111、図11参照)。例えば、各意図情報cn(n=1,2,…,N:Nは全意図数)に対し、意図クラス確率が最大となる意図クラスのインデックスin=argmaxmpnmを出力し、リスト形式のデータI=[i1,i2,…,iN]として保持する。
第三実施形態の音声合成装置は、図10に例示するように、尤度基準意図クラス分類情報記憶部112を備えている。
第三実施形態の意図情報ベクトル作成部23は、意図クラス分類情報記憶部110から読み込んだ意図クラス分類情報ではなく、尤度基準意図クラス分類情報記憶部112から読み込んだ尤度基準意図クラス分類情報を用いて意図情報ベクトル抽出を行う(ステップS23)。
第三実施形態の音響モデル・意図クラス学習で使用されるアルゴリズムにおいてGEMアルゴリズムなどの初期値依存性のあるアルゴリズムを使用する場合、音響モデル(例えば、DNN音響モデル)の尤度を十分に大きくし、音声による意図表現の表現力を十分に向上するためには、適切な初期値を設定することが好ましい。
<音響モデル学習部17>
第四実施形態の音響モデル学習部17は、言語特徴量ベクトル抽出部13で抽出された各コンテキストデータの言語特徴量ベクトルと、各コンテキストデータに対応する音声データと、意図情報ベクトル記憶部16から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成する(ステップS17)。
第四実施形態の音声合成装置及び方法は、第三実施形態の音声合成装置及び方法と同様であるため、ここでは重複説明を省略する。
音響モデル学習装置又は音声合成装置における各処理をコンピュータによって実現する場合、音響モデル学習装置又は音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
音響モデル学習装置及び音声合成装置、これらの方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
Claims (8)
- 各コンテキストデータが記憶されているコンテキストデータ記憶部と、
上記コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、
上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、
を含む音響モデル学習装置。 - 請求項1の音響モデル学習装置において、
各発話意図には、上記各発話意図が属する意図クラスについての情報である意図クラス情報が予め定められているとして、
上記各コンテキストデータの意図情報ベクトルは、上記各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルである、
音響モデル学習装置。 - 請求項1の音響モデル学習装置において、
上記音響モデル学習部は、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成し、
各発話意図が各意図クラスに属する確率を最大にする意図クラスを、上記各発話意図が属する意図クラスとして決定する意図クラス決定部を更に含む、
音響モデル学習装置。 - 請求項3の音響モデル学習装置において、
上記意図クラス決定部で決定された上記各発話意図が属する意図クラスに上記各発話意図が属する確率を1とし、他の意図クラスに上記各発話意図が属する確率を0とする確率を上記予め定められた各発話意図が各意図クラスに属する確率の初期値として、上記音響モデル学習部及び上記意図クラス決定部の処理を繰り返し行う、
音響モデル学習装置。 - 入力されたテキストを解析してコンテキストを得るテキスト解析部と、
上記各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
入力された発話意図を表す意図情報ベクトルと、請求項1の音響モデル学習装置で生成された音響モデルと、上記抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成部と、
上記生成された音声パラメータを用いて合成音声を生成する音声波形生成部と、
を含む音声合成装置。 - 言語特徴量ベクトル抽出部が、各コンテキストデータが記憶されているコンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
音響モデル学習部が、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習ステップと、
を含む音響モデル学習方法。 - テキスト解析部が、入力されたテキストを解析してコンテキストを得るテキスト解析ステップと、
言語特徴量ベクトル抽出部が、上記各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
音声パラメータ生成部が、入力された発話意図を表す意図情報ベクトルと、請求項1の音響モデル学習装置で生成された音響モデルと、上記抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成ステップと、
音声波形生成部が、上記生成された音声パラメータを用いて合成音声を生成する音声波形生成ステップと、
を含む音声合成方法。 - 請求項1から4の何れか音響モデル学習装置又は請求項5の音声合成装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016083174A JP6594251B2 (ja) | 2016-04-18 | 2016-04-18 | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016083174A JP6594251B2 (ja) | 2016-04-18 | 2016-04-18 | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017194510A true JP2017194510A (ja) | 2017-10-26 |
JP6594251B2 JP6594251B2 (ja) | 2019-10-23 |
Family
ID=60156413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016083174A Active JP6594251B2 (ja) | 2016-04-18 | 2016-04-18 | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6594251B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047463A (zh) * | 2019-01-31 | 2019-07-23 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
JP2019215468A (ja) * | 2018-06-14 | 2019-12-19 | 日本放送協会 | 学習装置、音声合成装置及びプログラム |
JP2021086144A (ja) * | 2019-11-25 | 2021-06-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003302992A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 音声合成方法及び装置 |
JP2006098993A (ja) * | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 音声処理装置およびそのためのコンピュータプログラム |
JP2007183421A (ja) * | 2006-01-06 | 2007-07-19 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP2008204193A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム |
-
2016
- 2016-04-18 JP JP2016083174A patent/JP6594251B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003302992A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 音声合成方法及び装置 |
JP2006098993A (ja) * | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 音声処理装置およびそのためのコンピュータプログラム |
JP2007183421A (ja) * | 2006-01-06 | 2007-07-19 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP2008204193A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019215468A (ja) * | 2018-06-14 | 2019-12-19 | 日本放送協会 | 学習装置、音声合成装置及びプログラム |
JP7126384B2 (ja) | 2018-06-14 | 2022-08-26 | 日本放送協会 | 学習装置及びプログラム |
CN110047463A (zh) * | 2019-01-31 | 2019-07-23 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN110047463B (zh) * | 2019-01-31 | 2021-03-02 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
JP2021086144A (ja) * | 2019-11-25 | 2021-06-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 |
US11250854B2 (en) | 2019-11-25 | 2022-02-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voice interaction, device and computer-readable storage medium |
JP7208951B2 (ja) | 2019-11-25 | 2023-01-19 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6594251B2 (ja) | 2019-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11848002B2 (en) | Synthesis of speech from text in a voice of a target speaker using neural networks | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
JP5768093B2 (ja) | 音声処理システム | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
CN106688034A (zh) | 具有情感内容的文字至语音转换 | |
Jemine | Real-time voice cloning | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
KR20220134347A (ko) | 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치 | |
KR20220070979A (ko) | 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis | |
CN113470662B (zh) | 生成和使用用于关键词检出***的文本到语音数据和语音识别***中的说话者适配 | |
Tang et al. | Deep neural network trained with speaker representation for speaker normalization | |
Kumaresh et al. | Multi-Speaker Speech Synthesis with Diverse Prosody Control using Generative Adversarial Networks | |
Pour et al. | Persian Automatic Speech Recognition by the use of Whisper Model | |
Roshan et al. | Sentient Sound waves: Elevating Emotional Communication with AI-Generated Speech Technology | |
CN113470662A (zh) | 生成和使用用于关键词检出***的文本到语音数据和语音识别***中的说话者适配 | |
JP2021056467A (ja) | 学習装置、音声合成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6594251 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |