JP7142333B2

JP7142333B2 - 多言語テキスト音声合成方法

Info

Publication number: JP7142333B2
Application number: JP2020538690A
Authority: JP
Inventors: テスギム; ヨングンイ
Original assignee: Neosapience Inc
Current assignee: Neosapience Inc
Priority date: 2018-01-11
Filing date: 2019-01-11
Publication date: 2022-09-27
Anticipated expiration: 2039-01-11
Also published as: CN111566656B; JP2021511534A; JP2022169714A; US20240013771A1; KR20200143659A; EP3739476A1; KR102199050B1; JP7445267B2; JP7178028B2; JP2021511536A; CN111566655B; KR20190085879A; JP7500020B2; US20200082806A1; KR102265972B1; US11217224B2; KR102199067B1; CN111566656A; US11810548B2; EP3739476A4

Description

特許法第３０条第２項適用２０１８年１０月２２日付ウェブサイトの掲載の「Ｌｅａｒｎｉｎｇｐｒｏｎｕｎｃｉａｔｉｏｎｆｒｏｍａｆｏｒｅｉｇｎｌａｎｇｕａｇｅｉｎｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｎｅｔｗｏｒｋｓ」（ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｒｅｖｉｓｉｏｎｓ？ｉｄ＝ＨｋｅＹＣＮｇｏｏＱ）

本開示は、多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）方法及びシステムに関するものである。また、第１の言語を使用する話者の声の特性に基づいて、第２の言語のテキストを、その話者の音声に合成する方法及び装置に関するものである。

一般的に、テキスト音声合成（ＴＴＳ；Ｔｅｘｔ-Ｔｏ-Ｓｐｅｅｃｈ）と呼ばれる音声合成技術は、案内放送、ナビゲーション、ＡＩ秘書などのように人の声が必要なアプリケーションにおいて、実際の人の声を事前に録音せずに、必要な音声を再生するために使用される技術である。音声合成の典型的な方法は、音声を音素などの非常に短い単位で予めに切断して格納し、合成する文章を構成する音素を結合して、音声を合成する波形接続型合成方式（ｃｏｎｃａｔｅｎａｔｉｖｅＴＴＳ）と、音声的特徴をパラメータで表現し、合成する文章を構成する音声的特徴を表すパラメータを、ボコーダー（ｖｏｃｏｄｅｒ）を利用して文章に対応する音声に合成するパラメトリック合成方式（ｐａｒａｍｅｔｒｉｃＴＴＳ）がある。

一方、最近では、人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）ベースの音声合成方法が活発に研究されており、この音声合成方法によって合成された音声は、従来の方法に比べてはるかに自然な音声的特徴を見せている。しかし、人工ニューラルネットワークベースの音声合成方法で新しい声の音声合成器を実現するためには、その声に対応する多くのデータが必要であり、このデータを利用したニューラルネットワークモデルの再学習が必要になるため、ユーザーの利便性が低下する。

本開示による方法及び装置は、複数の言語に対する入力テキスト（ｔｅｘｔｉｎｐｕｔ）と出力音声（ａｕｄｉｏｏｕｔｐｕｔ）だけで、エンドツーエンドの（ｅｎｄ-ｔｏ-ｅｎｄ）で多言語ＴＴＳ機械学習モデルを生成することが可能である。また、本開示による方法および装置は、話者の発声特徴、感情的特徴、韻律的特徴を反映して、テキストから音声を合成することができる。

本開示の一実施例に係る多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）方法は、第１の言語の学習テキストおよび第１の言語の学習テキストに対応する第１の言語の学習音声データを含む第１の学習データを受信するステップと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２の言語の学習音声データを含む第２の学習データを受信するステップと、第１の学習データおよび第２の学習データに基づいて、第１の言語の音素および第２の言語の音素間の類似性情報を学習して、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを生成するステップとを含む。

本開示の一実施例に係る多言語テキスト音声合成方法は、第１の言語に対する話者の発声特徴を受信するステップと、第２の言語の入力テキストを受信するステップと、第２の言語の入力テキストおよび第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語の入力テキストに対する出力音声データを生成するステップとをさらに含む。

本開示の一実施例に係る多言語テキスト音声合成方法の第１の言語に対する話者の発声特徴は、話者が第１の言語で発話した音声データから特徴ベクトルを抽出して生成される。

本開示の一実施例に係る多言語テキスト音声合成方法は、感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を受信するステップと、第２の言語の入力テキスト、第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語の入力テキストに対する出力音声データを生成するステップとをさらに含む。

本開示の一実施例に係る多言語テキスト音声合成方法は、韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を受信するステップと、第２の言語の入力テキスト、第１の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語の入力テキストに対する出力音声データを生成するステップとをさらに含む。

本開示の一実施例に係る多言語テキスト音声合成方法の韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも１つを含む。

本開示の一実施例に係る多言語テキスト音声合成方法は、第１の言語の入力音声を受信するステップと、第１の言語の入力音声から特徴ベクトルを抽出し、第１の言語に対する話者の発声特徴を生成するステップと、第１の言語の入力音声を第１の言語の入力テキストに変換するステップと、第１の言語の入力テキストを第２の言語の入力テキストに変換するステップと、第２の言語の入力テキストおよび第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語の入力テキストに対する第２の言語の出力音声データを生成するステップとをさらに含む。

本開示の一実施例に係る多言語テキスト音声合成方法は、Ｇ２Ｐ（Ｇｒａｐｈｅｍｅ-ｔｏ-ｐｈｏｎｅｍｅ）アルゴリズムを使用して、第１の言語の学習テキストおよび第２の言語の学習テキストを音素シーケンス（ｐｈｏｎｅｍｅｓｅｑｕｅｎｃｅ）に変換する。

本開示の一実施例に係る多言語テキスト音声合成方法の単一の人工ニューラルネットワークのテキスト音声合成モデルは、第１の言語の音素と第２の言語の音素間の発音および表記のうち少なくとも１つに対する類似性情報の入力なしに生成される。

また、上述したような多言語テキスト音声合成方法を具現するためのプログラムは、コンピュータ読み取り可能な記録媒体に記録されることができる。

図１は、複数の言語に対して学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、音声合成器が英語音声を合成するものを示す図である。図２は、複数の言語に対して学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、音声合成器が韓国語音声を合成するものを示す図である。図３は、本開示の一実施例に係る単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する方法を示すフローチャートである。図４は、本開示の一実施例に係る機械学習部を示す図である。図５は、本開示の一実施例に係る音声合成器が、第１の言語に対する話者の発声特徴および第２の言語の入力テキストに基づいて、出力音声データを合成するものを示す図である。図６は、本開示の一実施例に係る音声合成器が、第１の言語に対する話者の発声特徴、第２の言語の入力テキストおよび感情的特徴に基づいて、出力音声データを生成するものを示す図である。図７は、本開示の一実施例に係る音声合成器が、第１の言語に対する話者の発声特徴、第２の言語の入力テキスト及び韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）に基づいて、出力音声データを生成するものを示す図である。図８は、本開示の一実施例に係る音声翻訳システムの構成を示す図である。図９は、本開示の一実施例に係る韻律翻訳器の構成を示す図である。図１０は、本開示の一実施例に係る多言語テキスト音声合成器の構成を示す図である。図１１は、ＩＰＡ（ＩｎｔｅｒｎａｔｉｏｎａｌＰｈｏｎｅｔｉｃＡｌｐｈａｂｅｔ）とＫｏＧ２Ｐ音素の対応関係および英語と韓国語の共通の発音を有する音素の対応関係を示す図である。図１２は、韓国語音素と最も類似している英語の音素を示す表である。図１３は、英語の音素で生成された音声と韓国語の音素で生成された音声の類似性を示すスペクトログラムである。図１４は、ＴＴＳ機械学習モデルを学習するために使用された英語のデータの時間変化によるｃｈａｒａｃｔｅｒｅｒｒｏｒｒａｔｅ（ＣＥＲ）を示す表である。図１５は、本開示の一実施例に係るテキスト音声合成システムのブロック図である。

開示された実施例の利点および特徴、そしてそれらを達成する方法は、添付の図面と共に後述される実施例を参照すると明確である。しかし、本開示は、以下において開示される実施形態に限定されるものではなく、異なる多様な形態で具現されることができ、単に本実施例は、本開示が完全になるようにし、本開示が属する技術分野において通常の知識を有する者に発明の範疇を完全に知らせるために提供されるだけのものである。

本明細書において使用される用語について簡略に説明し、開示された実施例について具体的に説明する。

本明細書において使用される用語は、本開示での機能を考慮しながら可能な現在広く使用される一般的な用語を選択したが、これは関連分野に携わる技術者の意図または判例、新しい技術の出現などによって異なることができる。また、特定の場合、出願人が任意に選定した用語もあり、この場合は該当する発明の説明部分で詳細にその意味を記載する。したがって、本開示において使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたる内容に基づいて定義されるべきである。

本明細書においての単数の表現は、文脈上明らかに単数であるものと特定していない限り、複数の表現を含む。また、複数の表現は、文脈上明らかに複数であるものと特定していない限り、単数の表現を含む。

明細書全体においてある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことが可能であることを意味する。

また、明細書において使用される「部」という用語は、ソフトウェアまたはハードウェア構成要素を意味し、「部」は、ある役割を遂行する。しかしながら、「部」は、ソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる格納媒体にあるように構成することもでき、１つまたはそれ以上のプロセッサを再生させるように構成されることもできる。したがって、一例として「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスクの構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中で提供される機能は、より少数の構成要素および「部」で結合されたり、追加の構成要素と「部」にさらに分離されたりすることができる。

本開示の一実施例によれば、「部」は、プロセッサおよびメモリで具現されることができる。用語「プロセッサ」は、汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、コントローラ、マイクロコントローラ、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境において「プロセッサ」は、カスタムＩＣ（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などを称することもできる。用語「プロセッサ」は、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと結合した１つ以上のマイクロプロセッサの組み合わせ、または任意の他のこのような構成の組み合わせのような処理デバイスの組み合わせを称することもできる。

用語「メモリ」は、電子情報を格納可能な任意の電子コンポーネントを含むように広く解釈されるべきである。用語メモリは、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光学データ記憶装置、レジスタなどのプロセッサ-読み出し可能媒体の多様なタイプを称することもできる。プロセッサがメモリから情報を読み取りし/したり、メモリに情報を記録することができたりすれば、メモリは、プロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリは、プロセッサと電子通信状態にある。

本開示において、「第１の言語」は韓国語、日本語、中国語、英語などの多様な国や民族が使用するさまざまな言語のうち１つを示すことができ、「第２の言語」は、第１の言語と異なる国や民族が使用する言語のうち１つを示すことができる。

以下では、添付した図面を参照して、実施例に対して本開示が属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。そして図面で本開示を明確に説明するために説明と関係ない部分は省略する。

図１は、複数の言語に対して学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、音声合成器（１１０）が、英語の音声を合成するものを示す図である。図示された例において、単一の人工ニューラルネットワークのテキスト音声合成モデルは、韓国語と英語のデータを一緒に学習したものであることができる。音声合成器（１１０）は、英語のテキストと韓国人話者の発声特徴を受信することができる。例えば、英語のテキストは「Ｈｅｌｌｏ？」であることができ、韓国人話者の発声特徴は、韓国人話者が韓国語で発話した音声データから抽出された特徴ベクトルであることができる。

音声合成器（１１０）は、受信した英語のテキストと韓国人話者の発声特徴を、単一の人工ニューラルネットワークのテキスト音声合成モデルに入力し、その韓国人話者の音声を模写して、英語で「Ｈｅｌｌｏ？」を話す音声を合成して出力することができる。つまり、音声合成器（１１０）が出力した音声は、その韓国人話者が「Ｈｅｌｌｏ？」を英語で発音する音声であることができる。

図２は、複数の言語に対して学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、音声合成器（２１０）が韓国語音声を合成するものを示す図である。図示された例において、単一の人工ニューラルネットワークのテキスト音声合成モデルは、韓国語と英語のデータを一緒に学習したものであることができる。音声合成器（２１０）は、韓国語のテキストとアメリカ人話者の発声特徴を受信することができる。例えば、韓国語のテキストは、「アンニョンハセヨ？」であることができ、アメリカ人話者の発声特徴は、アメリカ人話者が英語で発話した音声データから抽出された特徴ベクトルであることができる。

音声合成器（２１０）は、受信された韓国語のテキストとアメリカ人話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力し、そのアメリカ人話者の音声を模写して、韓国語で「アンニョンハセヨ？」を話す言う声を合成して出力することができる。つまり、音声合成器（２１０）が出力した音声は、そのアメリカ人話者が「アンニョンハセヨ？」を韓国語で発音する音声であることができる。

図３は、本開示の一実施例に係る単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する方法を示すフローチャートである。多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）システムは、第１の言語の学習テキストおよび第１の言語の学習テキストに対応する第１の言語の学習音声データを含む第１の学習データを受信するステップ（３１０）を遂行することができる。多言語テキスト音声合成システムは、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２の言語の学習音声データを含む第２の学習データを受信するステップ（３２０）を遂行することができる。

多言語テキスト音声合成システムは、第１の学習データおよび第２の学習データに基づいて、第１の言語の音素および第２の言語の音素間の類似性情報を学習し、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを生成するステップ（３３０）を遂行することができる。単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する方法に関しては、図４でより詳細に説明する。

図４は、本開示の一実施例に係る機械学習部（４２０）を示す図である。機械学習部（４２０）は、図１５のデータ学習部（１５１０）に対応されることができる。機械学習部（４２０）は、複数の第１の言語の学習データのペア（４１１）を受信することができる。第１の言語の学習データのペア（４１１）は、第１の言語の学習テキストおよびその第１の言語の学習テキストに対応する第１の言語の学習音声データを含むことができる。

第１の言語の学習テキストは、少なくとも１つの文字を含むことができ、機械学習部（４２０）がＧ２Ｐ（Ｇｒａｐｈｅｍｅ-ｔｏ-ｐｈｏｎｅｍｅ）アルゴリズムを使用して、音素シーケンス（ｐｈｏｎｅｍｅｓｅｑｕｅｎｃｅ）に変換することができる。第１の言語の学習音声データは、第１の言語の学習テキストを人が読んだ音声を録音したデータ、録音データから抽出されたサウンドフィーチャ（ｓｏｕｎｄｆｅａｔｕｒｅ）やスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）などであることができる。第１の学習データは、第１の言語に対する言語識別子または言語情報を含まないことができる。

機械学習部（４２０）は、複数の第２の言語の学習データのペア（４１２）を受信することができる。第２の言語の学習データのペア（４１２）は、第２の言語の学習テキストおよびその第２の言語の学習テキストに対応する第２の言語の学習音声データを含むことができる。第１の言語と第２の言語は、互いに異なる言語であることができる。

第２の言語の学習テキストは、少なくとも１つの文字を含むことができ、機械学習部（４２０）がＧ２Ｐ（Ｇｒａｐｈｅｍｅ-ｔｏ-ｐｈｏｎｅｍｅ）アルゴリズムを使用して、音素シーケンス（ｐｈｏｎｅｍｅｓｅｑｕｅｎｃｅ）に変換することができる。第２の言語の学習音声データは、第２の言語の学習テキストを人が読んだ音声を録音したデータ、録音データから抽出されたサウンドフィーチャ（ｓｏｕｎｄｆｅａｔｕｒｅ）やスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）などであることができる。第２の学習データは、第２の言語に対する言語識別子または言語情報を含まないことができる。

機械学習部（４２０）は、受信された複数の第１の言語の学習データのペア（４１１）および複数の第２の言語の学習データのペア（４１２）に基づいて機械学習を遂行し、単一の人工ニューラルネットワークのテキスト音声合成モデル（４３０）を生成することができる。一実施例において、機械学習部（４２０）は、第１の言語および第２の言語に関する事前情報なしに、第１の言語の音素および第２の言語の音素間の類似性情報を学習して、単一の人工ニューラルネットワークのテキスト音声合成モデル（４３０）を生成することができる。例えば、機械学習部（４２０）は、第１の言語に対する言語識別子、第２の言語に対する言語識別子、第１の言語の音素および第２の言語の音素間の発音に関する類似性情報、第１の言語の音素および第２の言語の音素間の表記に関する類似性情報を受信せずに、複数の第１の言語の学習データのペア（４１１）及び複数の第２の言語の学習データのペア（４１２）に基づいて、第１の言語の音素および第２の言語の音素間の類似性情報を学習することによって、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成することができる。

ここで、言語識別子は、韓国語、日本語、中国語、英語などの多様な国や民族が使用するさまざまな言語のうち１つを示す識別子であることができる。また、発音に関する類似性情報は、言語間の類似した発音を有する音素を対応させた情報であることができ、表記に関する類似性情報は、言語間の類似した表記を有する音素を対応させた情報であることができる。類似性情報は、図１１及び図１２を参照してより詳細に説明する。

従来には、それぞれの言語が互いに異なる発音と表記を有するため、各言語別に学習データを準備して言語別機械学習モデルを生成したり、学習する言語間の類似性情報を事前に準備してこれを学習データと一緒に入力することによって単一の機械学習モデルを生成したりした。本開示の一実施例によれば、学習する言語間の類似性情報なしに、１つの機械学習モデルに多言語（Ｍｕｌｔｉ-ｌａｎｇｕａｇｅ）テキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを具現することができる。図４では、２つの言語に対して学習データを受信して、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成することが示されているが、これに限定されずに、３つ以上の言語に対しても学習データを受信して、３つ以上の言語に対する単一の人工ニューラルネットワークのテキスト音声合成モデルを生成することもできる。

一実施例において、機械学習部（４２０）によって生成された単一の人工ニューラルネットワークのテキスト音声合成モデル（４３０）を利用して、テキストを音声に合成して出力することができる。単一の人工ニューラルネットワークのテキスト音声合成モデル（４３０）を利用して、テキストを音声に合成して出力する方法に関しては、図５～図７を参照してより詳細に説明する。

図５は、本開示の一実施例に係る音声合成器（５２０）が、第１の言語に対する話者の発声特徴（５１１）および第２の言語の入力テキスト（５１２）に基づいて、出力音声データ（５３０）を合成するものを示す図である。音声合成器（５２０）は、図１５のデータ認識部（１５２０）に対応されることができる。音声合成器（５２０）は、図４の機械学習部（４２０）によって生成された単一の人工ニューラルネットワークのテキスト音声合成モデルを受信して、出力音声データを合成するのに使用することができる。図示されたように、音声合成器（５２０）は、第１の言語に対する話者の発声特徴（５１１）及び第２の言語の入力テキスト（５１２）を受信することができる。

第１の言語に対する話者の発声特徴（５１１）は、話者が第１の言語で発話した音声データから特徴ベクトルを抽出して生成されることができる。例えば、話者の発声特徴は、話者の音色や音高などを含むことができる。第２の言語の入力テキスト（５１２）は、第２の言語から構成されている少なくとも１つの文字を含むことができる。

音声合成器（５２０）は、第１の言語に対する話者の発声特徴（５１１）および第２の言語の入力テキスト（５１２）を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、出力音声データ（５３０）を生成することができる。出力音声データ（５３０）は、第２の言語の入力テキスト（５１２）を音声に合成した音声データであることができ、第１の言語に対する話者の発声特徴（５１１）が反映されていることができる。つまり、出力音声データ（５３０）は、第１の言語に対する話者の発声特徴（５１１）に基づいてその話者の音声を模写することにより、その話者が第２の言語の入力テキスト（５１２）を話す声に合成されたデータであることができる。一実施例において、出力音声データ（５３０）は、スピーカーなどで出力されることができる。

図６は、本開示の一実施例に係る音声合成器（６２０）が、第１の言語に対する話者の発声特徴（６１１）、第２の言語の入力テキスト（６１２）および感情的特徴（６１３）に基づいて、出力音声データ（６３０）を生成するものを示す図である。音声合成器（６２０）は、図１５のデータ認識部（１５２０）に対応されることができる。音声合成器（６２０）は、図４の機械学習部（４２０）によって生成された単一の人工ニューラルネットワークのテキスト音声合成モデルを受信して、出力音声データ（６３０）を合成するのに使用することができる。図示されたように、音声合成器（６２０）は、第１の言語に対する話者の発声特徴（６１１）、第２の言語の入力テキスト（６１２）および感情的特徴（６１３）を受信することができる。第１の言語に対する話者の発声特徴および第２の言語の入力テキストに関しては図５を参照して説明したので、重複する説明は省略する。

一実施例において、感情的特徴（６１３）は、喜び、悲しみ、怒り、恐怖、信頼、嫌悪、驚き、期待のうち少なくとも１つを表すことができる。他の実施例において、感情的特徴（６１３）は、音声データから特徴ベクトルを抽出して生成されることができる。音声合成器（６２０）は、第１の言語に対する話者の発声特徴（６１１）、第２の言語の入力テキスト（６１２）及び感情的特徴（６１３）を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、出力音声データ（６３０）を生成することができる。

出力音声データ（６３０）は、第２の言語の入力テキスト（６１２）を音声に合成した音声データであることができ、第１の言語に対する話者の発声特徴（６１１）および感情的特徴（６１３）が反映されていることができる。つまり、出力音声データ（６３０）は、第１の言語に対する話者の発声特徴（６１１）に基づいてその話者の音声を模写し、感情的特徴（６１３）を反映することによって、その話者が入力された感情的特徴（６１３）で第２の言語の入力テキスト（６１２）を話す音声に合成されたデータであることができる。例えば、感情的特徴（６１３）が怒りを表す場合、音声合成器（６２０）は、その話者が第２の言語の入力テキスト（６１２）を怒ったように話す出力音声データ（６３０）を生成することができる。一実施例において、出力音声データ（６３０）は、スピーカーなどで出力されることができる。

図７は、本開示の一実施例に係る音声合成器（７２０）が、第１の言語に対する話者の発声特徴（７１１）、第２の言語の入力テキスト（７１２）及び韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ；７１３）に基づいて、出力音声データ（７３０）を生成するものを示す図である。音声合成器（７２０）は、図１５のデータ認識部（１５２０）に対応されることができる。音声合成器（７２０）は、図４の機械学習部（４２０）によって生成された単一の人工ニューラルネットワークのテキスト音声合成モデルを受信して、出力音声データ（７３０）を合成するのに使用することができる。図示されたように、音声合成器（７２０）は、第１の言語に対する話者の発声特徴（７１１）、第２の言語の入力テキスト（７１２）および韻律的特徴（７１３）を受信することができる。第１の言語に対する話者の発声特徴および第２の言語の入力テキストに関しては図５を参照して説明したので、重複する説明は省略する。

韻律的特徴（７１３）は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報（例えば、区切り読みに関する情報）のうち少なくとも１つを含むことができる。一実施例において、韻律的特徴（７１３）は、音声データから特徴ベクトルを抽出して生成することができる。音声合成器（７２０）は、第１の言語に対する話者の発声特徴（７１１）、第２の言語の入力テキスト（７１２）および韻律的特徴（７１３）を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、出力音声データ（７３０）を生成することができる。

出力音声データ（７３０）は、第２の言語の入力テキスト（７１２）を音声に合成した音声データであることができ、発声特徴（７１１）および韻律的特徴（７１３）が反映されていることができる。つまり、出力音声データ（７３０）は、第１の言語に対する話者の発声特徴（７１１）に基づいてその話者の音声を模写し、韻律的特徴（７１３）を反映することによって、その話者が入力された韻律的特徴（７１３）で第２の言語の入力テキスト（７１２）を話す音声に合成されたデータであることができる。例えば、音声合成器（７２０）は、その話者が第２の言語の入力テキスト（７１２）を韻律的特徴（７１３）に含まれている発話速度、発音アクセント、音高、休止区間（区切り読み）に関する情報に基づいて話す出力音声データ（７３０）を生成することができる。

図６～図７では、感情的特徴（６１３）または韻律的特徴（７１３）を第１の言語に対する話者の発声特徴および第２の言語の入力テキストと一緒に音声合成器に入力するものとして示されているが、これに限定されず、第１の言語に対する話者の発声特徴、感情的特徴、韻律的特徴のうち１つ以上を第２の言語の入力テキストと一緒に入力するものとして音声合成器が構成されることもできる。

図８は、本開示の一実施例に係る音声翻訳システム（８００）の構成を示す図である。音声翻訳システム（８００）は、音声認識器（８１０）、機械翻訳器（８２０）、音声合成器（８３０）、発声特徴抽出器（８４０）、感情的特徴抽出器（８５０）、韻律的特徴抽出器（８６０）及び韻律翻訳器（ｐｒｏｓｏｄｙｔｒａｎｓｌａｔｉｏｎ;８７０）を含むことができる。音声合成器（８３０）は、図１５のデータ認識部（１５２０）に対応されることができる。図示されたように、音声翻訳システム（８００）は、第１の言語の入力音声を受信することができる。

受信された第１の言語の入力音声は、音声認識器（８１０）、発声特徴抽出器（８４０）、感情的特徴抽出器（８５０）および韻律的特徴抽出器（８６０）に送信されることができる。音声認識器（８１０）は、第１の言語の入力音声を受信して、第１の言語の入力テキストに変換することができる。音声翻訳システム（８００）に含まれた機械翻訳器（８２０）は、第１の言語の入力テキストを第２の言語の入力テキストに変換/翻訳して音声合成器（８３０）に伝達することができる。

発声特徴抽出器（８４０）は、第１の言語の入力音声から特徴ベクトルを抽出し、第１の言語の入力音声を発話した話者の発声特徴を生成することができる。音声合成器（８３０）は、第２の言語の入力テキストおよび第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語の入力テキストに対応する第２の言語の出力音声データを生成することができる。この場合、第２の言語の出力音声は、第１の言語の入力音声を発話した話者の発声特徴を反映して、合成された音声であることができる。

感情的特徴抽出器（８５０）は、第１の言語の入力音声から感情的特徴を抽出して、音声合成器（８３０）に伝達することができる。音声合成器（８３０）は、第２の言語の入力テキスト、第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写し、第１の言語の入力音声の感情的特徴が反映された第２の言語の入力テキストに対応する第２の言語の出力音声データを生成することができる。この場合、第２の言語の出力音声は、第１の言語の入力音声を発話した話者の発声特徴および感情的特徴を反映して、合成された音声であることができる。

韻律的特徴抽出器（８６０）は、第１の言語の入力音声から韻律的特徴を抽出することができる。韻律的特徴抽出器（８６０）は、抽出された韻律的特徴を韻律翻訳器（８７０）に伝達して、第１の言語に対する韻律的特徴を第２の言語に対する韻律的特徴に変換することができる。つまり、韻律翻訳器（８７０）は、第１の言語の入力音声から抽出された韻律的特徴を第２の言語の出力音声に反映できるようにする情報を生成することができる。

音声合成器（８３０）は、第２の言語の入力テキスト、第１の言語に対する話者の発声特徴および翻訳された韻律的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写し、第１の言語の入力音声の韻律的特徴が反映された第２の言語の入力テキストに対応する第２の言語の出力音声データを生成することができる。この場合、第２の言語の出力音声は、第１の言語の入力音声を発話した話者の発声特徴および韻律的特徴を反映して合成された音声であることができる。韻律的特徴を反映する場合、第１の言語の入力音声の発話速度、区切り読み、強調などの特徴が第２の言語の出力音声にも適用されることができる。

例えば、ユーザーが第１の言語の入力音声において強調して話した言葉がある場合、韻律翻訳器（８７０）は、第１の言語の強調された単語に対応する第２の言語の単語を強調するための情報を生成することができる。音声合成器（８３０）は、韻律翻訳器（８７０）から受信した情報に基づいて、第１の言語において強調された単語に対応する第２の言語の単語を強調して、音声を生成することができる。

一実施例において、音声合成器（８３０）は、第２の言語の入力テキスト、第１の言語に対する話者の発声特徴、感情的特徴および翻訳された韻律的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写し、第１の言語の入力音声の感情的特徴および韻律的特徴が反映された第２の言語の入力テキストに対応する第２の言語の出力音声データを生成することができる。この場合、第２の言語の出力音声は、第１の言語の入力音声を発話した話者の発声特徴、感情的特徴および韻律的特徴を反映して合成された音声であることができる。

第１の言語の入力音声から話者の特徴を抽出して翻訳された音声を合成するのに利用する場合、その話者の声が予め学習されていない場合でも、話者の声を模写して似た声で、第２の言語の出力音声を生成することができる。また、第１の言語の入力音声から話者の感情的特徴を抽出する場合、その話者の該当の発言に対する感情を模写して、より自然に第２の言語の出力音声を生成することができる。また、第１の言語の入力音声から話者の韻律的特徴を抽出する場合、その話者の該当の発声の韻律を模写して、より自然な第２の言語の出力音声を生成することができる。

図８には、第１の言語の入力音声から発声特徴、感情的特徴および韻律的特徴をすべて抽出して音声を合成することとして示されているが、これに限定されない。他の実施例においては、発声特徴、感情的特徴および韻律的特徴のうち少なくとも１つを他の話者の入力音声から抽出することもできる。例えば、感情的特徴および韻律的特徴は、第１の言語の入力音声から抽出し、発声特徴は、他の入力音声（例えば、有名人の音声）から抽出して、音声を合成することができる。この場合、合成された音声には第１の言語の入力音声を発話した話者の感情と韻律が反映されるが、他の入力音声を発話した話者（例えば、有名人）の声が反映されることができる。

図９は、本開示の一実施例に係る韻律翻訳器（８７０）の構成を示す図である。図示されたように、韻律翻訳器（８７０）は、韻律エンコーダ（ｐｒｏｓｏｄｙｅｎｃｏｄｅｒ；９１０）、アテンション（ａｔｔｅｎｔｉｏｎ；９２０）と韻律デコーダ（ｐｒｏｓｏｄｙｄｅｃｏｄｅｒ；９３０）を含むことができる。韻律エンコーダ（９１０）は、韻律的特徴抽出器が第１の言語（ソース言語）の入力音声から抽出した第１の言語の韻律的特徴を受信することができる。

受信された第１の韻律的特徴は、韻律エンコーダ（９１０）、アテンション（９２０）および韻律デコーダ（９３０）を経て、第２の言語（翻訳される言語）の韻律的特徴に変換される。一例において、韻律翻訳器（８７０）は、シーケンスツーシーケンスの学習モデル（ｓｅｑ２ｓｅｑ；ｓｅｑｕｅｎｃｅ-ｔｏ-ｓｅｑｕｅｎｃｅｍｏｄｅｌ）を利用して学習することによって、ソース言語の韻律的特徴を翻訳される言語の韻律的特徴に変換することができる。つまり、シーケンスツーシーケンスの学習モデルは、ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）に基づいたエンコーダ-デコーダ構造（ｅｎｃｏｄｅｒ-ｄｅｃｏｄｅｒａｒｃｈｉｔｅｃｔｕｒｅ）（「ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇｗｉｔｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ、」ＩｌｙａＳｕｔｓｋｅｖｅｒ、ｅｔａｌ．、２０１４参照）にアテンション構造（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）（「ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｂｙＪｏｉｎｔｌｙＬｅａｒｎｉｎｇｔｏＡｌｉｇｎａｎｄＴｒａｎｓｌａｔｅ、」ＤｚｍｉｔｒｙＢａｈｄａｎａｕ、ａｔａｌ．、２０１５および「ＥｆｆｅｃｔｉｖｅＡｐｐｒｏａｃｈｅｓｔｏＡｔｔｅｎｔｉｏｎ-ｂａｓｅｄＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ、」Ｍｉｎｈ-ＴｈａｎｇＬｕｏｎｇ、ａｔａｌ．、２０１５参照）を結合して具現されることができる。

図１０は、本開示の一実施例に係る多言語テキスト音声合成器（１０００）の構成を示す図である。図示されたように、多言語テキスト音声合成器（１０００）は、エンコーダ（１０１０）、デコーダ（１０２０）およびボコーダー（１０３０）を含むことができる。エンコーダ（１０１０）は、入力テキストを受信することができる。

入力テキストは、複数の言語で構成されていることができ、言語識別子や言語に関する情報を含まないことができる。例えば、入力テキストは、「アンニョンハセヨ」または「Ｈｏｗａｒｅｙｏｕ？」のような文章を含むことができる。エンコーダ（１０１０）は、受信された入力テキストを字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離することができる。またはエンコーダ（１０１０）は、字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離された入力テキストを受信することができる。

エンコーダ（１０１０）は、少なくとも１つの埋め込み層（例：ＥＬ言語１、ＥＬ言語２、...、ＥＬ言語Ｎ）を含むことができる。エンコーダ（１０１０）の少なくとも１つの埋め込み層は、字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離された入力テキストのそれぞれをテキスト埋め込みベクトルに変換することができる。エンコーダ（１０１０）は、分離された入力テキストをテキスト埋め込みベクトルに変換するために、すでに学習した機械学習モデルを使用することができる。エンコーダは、機械学習を遂行しながら機械学習モデルを更新することができる。機械学習モデルが更新される場合、分離された入力テキストに対するテキスト埋め込むベクトルも変更されることができる。

エンコーダ（１０１０）は、テキスト埋め込みベクトルを全結合層（ｆｕｌｌｙ-ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で構成されたＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールに入力することができる。ＤＮＮは、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）または線形層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。

エンコーダ（１０１０）は、ＤＮＮの出力をＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）とＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）のうち少なくとも１つが含まれたモジュールに入力することができる。このとき、ＣＮＮとＲＮＮのうち少なくとも１つが含まれたモジュールは、ＤＮＮの出力と一緒にデコーダ（１０２０）の埋め込み層の出力（ｓ）も受信することができる。ＣＮＮは、畳み込みカーネル（ｃｏｎｖｏｌｕｔｉｏｎｋｅｒｎｅｌ）サイズによる地域的特性を捕捉することができ、ＲＮＮは、長期依存性（ｌｏｎｇｔｅｒｍｄｅｐｅｎｄｅｎｃｙ）を捕捉することができる。ＣＮＮとＲＮＮのうち少なくとも１つが含まれたモジュールは、出力としてエンコーダ（１０１０）の隠れ状態（ｈ）を出力することができる。

デコーダ（１０２０）の埋め込み層は、エンコーダ（１０１０）の埋め込み層と類似した演算を遂行することができる。埋め込み層は、話者ＩＤを受信することができる。例えば、話者ＩＤは、ワンホットベクトルであることができる。一実施例において、「トランプ」の話者ＩＤは「１」に、「ムン・ジェイン」の話者ＩＤは「２」に、「オバマ」の話者ＩＤは「３」に指定されることができる。デコーダ（１０２０）の埋め込み層は、話者ＩＤを話者埋め込みベクトル（ｓ）に変換することができる。デコーダ（１０２０）は、話者ＩＤを話者埋め込みベクトル（ｓ）に変換するために、すでに学習された機械学習モデルを使用することができる。デコーダ（１０２０）は、機械学習を遂行しながら機械学習モデルを更新することができる。機械学習モデルが更新される場合、話者ＩＤに対する話者埋め込みベクトル（ｓ）も変更されることができる。

デコーダ（１０２０）のアテンション（Ａｔｔｅｎｔｉｏｎ）は、エンコーダ（１０１０）からエンコーダの隠れ状態（ｈ）を受信することができる。また、デコーダ（１０２０）のアテンションは、アテンションＲＮＮから情報を受信することができる。アテンションＲＮＮから受信した情報は、デコーダ（１０２０）が以前の時間-ステップ（ｔｉｍｅ-ｓｔｅｐ）までどの音声を生成したのかに関する情報であることができる。また、デコーダ（１０２０）のアテンションは、アテンションＲＮＮから受信した情報およびエンコーダの隠れ状態（ｈ）に基づいて、コンテキストベクトル（Ｃｔ）を出力することができる。エンコーダの隠れ状態（ｈ）は、音声を生成すべき入力テキストに関する情報であることができる。

コンテキストベクトル（Ｃｔ）は、現在の時間-ステップ（ｔｉｍｅ-ｓｔｅｐ）で入力テキストのうちどの部分から音声を生成するかを決定するための情報であることができる。例えば、デコーダ（１０２０）のアテンションは、音声生成の初期には、テキスト入力の前部分に基づいて音声を生成し、音声が生成されるにつれて、徐々にテキスト入力の後部分に基づいて音声を生成するようにする情報を出力することができる。

図示されたように、デコーダ（１０２０）は、話者埋め込みベクトル（ｓ）をアテンションＲＮＮ、デコーダＲＮＮおよびエンコーダ（１０１０）のＣＮＮとＲＮＮのうち少なくとも１つが含まれたモジュールに入力して、話者別に異ならせてデコードをするように人工ニューラルネットワークの構造を構成することができる。デコーダ（１０２０）のＲＮＮは、自動回帰（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）方式で構成されることができる。つまり、以前の時間-ステップ（ｔｉｍｅ-ｓｔｅｐ）で出力されたｒフレームの出力が、今回の時間-ステップの入力として使用されることができる。最初の時間-ステップ（１０２２）では以前の時間-ステップが存在しないため、ダミーフレームがＤＮＮに入力されることができる。

デコーダ（１０２２）は、全結合層（ｆｕｌｌｙ-ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で構成されたＤＮＮを含むことができる。ＤＮＮは、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）または線形層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。また、デコーダ（１０２２）は、ＧＲＵで構成されたアテンションＲＮＮを含むことができる。アテンションＲＮＮは、アテンションで使用される情報を出力する層である。アテンションに関しては、上述したので詳細な説明は省略する。

デコーダ（１０２０）は、レジデュアル（ｒｅｓｉｄｕａｌ）ＧＲＵで構成されたデコーダＲＮＮを含むことができる。デコーダＲＮＮは、アテンションから入力テキストの位置情報を受信することができる。つまり、位置情報は、デコーダ（１０２０）が入力テキストのどの位置を音声に変換しているかに関する情報であることができる。

デコーダＲＮＮは、アテンションＲＮＮから情報を受信することができる。アテンションＲＮＮから受信した情報は、デコーダが以前の時間-ステップ（ｔｉｍｅ-ｓｔｅｐ）までどの音声を生成したのかに関する情報および今回の時間-ステップで生成しなければならない音声に関する情報であることができる。デコーダＲＮＮは、今まで生成した音声に後続する次の出力音声を生成することができる。出力音声は、メルスペクトログラムの形態を有することができ、ｒ個のフレームで構成されることができる。

テキスト音声合成のために、ＤＮＮ、アテンションＲＮＮおよびデコーダＲＮＮの動作は、繰り返して遂行されることができる。例えば、最初の時間-ステップ（１０２２）で取得されたｒ個のフレームは、次の時間-ステップ（１０２４）の入力となることができる。また、時間-ステップ（１０２４）で出力されたｒ個のフレームは、その次の時間-ステップ（１０２６）の入力となることができる。

上述したような過程を通じて、テキストのすべての単位に対する音声が生成されることができる。テキスト音声合成システムは、それぞれの時間-ステップごとに出たメルスペクトログラムを時間順に連結（ｃｏｎｃａｔｅｎａｔｅ）して、全体テキストに対するメルスペクトログラムを取得することができる。デコーダ（１０２０）で生成された全体テキストに対するメルスペクトログラムは、第１のボコーダー（１０３０）または第２のボコーダー（１０４０）に出力されることができる。

第１のボコーダー（１０３０）は、ＣＮＮとＲＮＮのうち少なくとも１つが含まれたモジュールとＧｒｉｆｆｉｎ-Ｌｉｍ復元モジュールを含むことができる。第１のボコーダー（１０３０）のＣＮＮとＲＮＮのうち少なくとも１つが含まれたモジュールは、エンコーダ（１０１０）のＣＮＮとＲＮＮのうち少なくとも１つが含まれたモジュールと類似した動作をすることができる。すなわち、第１のボコーダー（１０３０）のＣＮＮとＲＮＮのうち少なくとも１つが含まれたモジュールは、地域的特性と長期依存性を捕捉することができ、線形-スケールスペクトログラム（ｌｉｎｅａｒ-ｓｃａｌｅｓｐｅｃｔｒｏｇｒａｍ）を出力することができる。第１のボコーダー（１０３０）は、線形-スケールスペクトログラムに対してＧｒｉｆｆｉｎ-Ｌｉｍアルゴリズムを適用し、入力テキストに対応する音声信号を話者ＩＤに該当する声に模写して、出力することができる。

第２のボコーダー（１０４０）は、機械学習モデルに基づいて、メルスペクトログラムから音声信号を取得することができる。機械学習モデルは、メルスペクトログラムから音声信号を予測するネットワークを学習したものであることができる。例えば、機械学習モデルは、ＷａｖｅＮｅｔまたはＷａｖｅＧｌｏｗのようなモデルが使用されることができる。第２のボコーダー（１０４０）は、第１のボコーダ（１０３０）の代わりに使用されることができる。

このような人工ニューラルネットワークベースの多言語テキスト音声合成器（１０００）は、多国語の学習テキストとそれに対応する学習音声信号のペアで存在する大容量のデータベースを利用して学習される。多言語テキスト音声合成器（１０００）は、学習テキストを受信し、出力された音声信号を学習音声信号と比較して、損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）を定義することができる。音声合成器は、損失関数を誤差逆伝播（ｅｒｒｏｒｂａｃｋｐｒｏｐａｇａｔｉｏｎ）アルゴリズムを通じて学習して、最終的に任意のテキストを入力したときに必要な音声出力が出る人工ニューラルネットワークを得ることができる。

多言語テキスト音声合成器（１０００）は、上述した方法で生成された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、特定の話者の声を模写する音声を合成することができる。また、多言語テキスト音声合成器（１０００）は、特定の話者の母国語と他の言語の音声も、その話者の声を模写して合成することができる。つまり、多言語テキスト音声合成器（１０００）は、第１の言語を駆使する話者が第２の言語を話す音声を合成することができる。例えば、トランプが、入力された韓国語のテキストを韓国語で話すように音声を合成することができる。

図１１は、ＩＰＡ（ＩｎｔｅｒｎａｔｉｏｎａｌＰｈｏｎｅｔｉｃＡｌｐｈａｂｅｔ）とＫｏＧ２Ｐ音素の対応関係および英語と韓国語の共通の発音を有する音素の対応関係を示す。互いに異なる言語の発音は、１つのアルファベット体系であるＩＰＡ（ＩｎｔｅｒｎａｔｉｏｎａｌＰｈｏｎｅｔｉｃＡｌｐｈａｂｅｔ）によって記述されることができる。互いに異なる言語の発音に対するＩＰＡは、類似性情報として使用されることができる。ＩＰＡ-ＣＭＵｄｉｃｔとＩＰＡ-ＫｏＧ２Ｐの変換表は、表（１１１０）の通りである。ＩＰＡの側面で第１の言語の音素と第２の言語の音素との間には１対１の対応が成立しないが、第１の言語と第２の言語の共通の発音を有する音素を含む部分集合を選択することができる。例えば、英語と韓国語の共通の発音を有する音素を選択した下位集合は、表（１１２０）の通りである。

第１の言語と第２の言語は互いに異なる文字体系を有することができ、互いに異なる発音体系を有することができる。同じアルファベット体系であるＩＰＡを利用して第１の言語と第２の言語を表現する場合、それぞれの言語に対して標準化された処理を通じて、音声合成モデルを取得することができる。しかし、ＩＰＡは、それぞれの言語を同じアルファベット体系で表現するだけで、互いに異なる言語の発音または表記の類似性を完璧に表すことはできない。例えば、第１の言語に使用されるＩＰＡアルファベットが、第２の言語には全く使用されないことも可能である。音声合成モデルは、第１の言語でのみ使用されるＩＰＡアルファベットを第２の言語のどのＩＰＡアルファベットに対応させるか知ることができないので、ＩＰＡを利用する場合、それぞれの言語に特化された音声合成モデルのみ取得されることができる。すなわち、第１の言語に対する音声合成モデルは、第１の言語に関連するデータの処理だけ可能であって、第２の言語に関連するデータは処理できない。逆に第２の言語に対する音声合成モデルは、第２の言語に関連付するデータの処理だけ可能であって、第１の言語に関連するデータは処理できない。

図１２は、韓国語音素と最も類似している英語の音素を示す表である。本開示の一実施例に係るテキスト音声合成システムは、機械学習モデルに基づいて、言語のアンカー（ａｎｃｈｏｒ）音素に対する音素間のコサイン距離を計算することができる。コサイン距離を計算するために、機械学習モデルに基づいて取得された音素埋め込みベクトルが使用されることができる。音素間のコサイン距離は、音素間の類似度を示すことができる。

計算された音素間のコサイン距離に基づいて、韓国語の音素に対する５つの最も近い英語の音素埋め込みを列挙すると、表（１２１０）の通りである。英語の音素埋め込みの後に付いた数字０、１および２は、それぞれ「ストレスなし」、「１次ストレス」および「２次ストレス」を示す。ＣＭＵｄｉｃｔは強調された発音を区別するのに対し、ＩＰＡは強調された発音を区別しないことができる。括弧内の記号はＩＰＡ記号である。

表（１２１０）によれば、本開示の一実施例による機械学習モデルに基づいた、アンカー（ａｎｃｈｏｒ）音素に対する５つの最も近い音素埋め込みは、図１１の表（１１２０）と類似していることを確認できる。すなわち、本開示の一実施例による機械学習モデルは、第１の言語の音素および第２の言語の音素間の発音に対する類似性情報または表記に対する類似性情報、第１の言語に対する言語識別子/言語情報、そして第２の言語に対する言語識別子/言語情報が学習時に入力されなくても、言語間の類似する発音または表記を自動的に学習することを確認できる。したがって、本開示の一実施例によるテキスト音声合成システムは、単一の人工ニューラルネットワークのテキスト音声合成モデルに基づいて、学習した複数の言語に対してテキスト音声合成（ＴＴＳ）を遂行することができる。

図１３は、英語の音素で生成された音声と韓国語の音素で生成された音声の類似性を示すスペクトログラムである。スペクトログラム（１３１０）は、「Ｈｅｈａｓｍａｎｙｇｏｏｄｆｒｉｅｎｄｓ」という文章を、英語音素シーケンス（ＨＨ、ＩＹ１、、ＨＨ、ＡＥ１、Ｚ、、Ｍ、ＥＨ１、Ｎ、ＩＹ０、、Ｇ、ＵＨ１、Ｄ、、Ｆ、Ｒ、ＥＨ１、Ｎ、Ｄ、Ｚ）で音声を合成した結果である。スペクトログラム（１３２０）は、同じ文章の英語の音素シーケンス内の各音素を、最も近い韓国語の音素に代替して生成された韓国語の音素シーケンス（ｈ０、ｗｉ、、ｈ０、ｙａ、ｓ０、、ｍｆ、ｙｅ、ｎｆ、ｉｉ、、ｋｋ、ｙｏ、ｔｔ、、ｐｈ、ｋｓ、ｙｅ、ｎｆ、ｔｔ、ｓ０）で音声を合成した結果である。

スペクトログラム（１３１０）とスペクトログラム（１３２０）を比較すると、英語の音素シーケンスで音声を合成した結果と韓国語の音素シーケンスで音声を合成した結果が類似することを確認できる。したがって、第１の言語の音素を利用して、第２の言語のテキストを音声に合成しても、高品質の音声合成結果を得ることができることを確認できる。すなわち、第１の言語で発話した話者の発声特徴を利用して、第２の言語のテキストを音声に合成しても、第１の言語が母国語であるその話者が、第２の言語で発話する結果を得ることができる。

図１４は、ＴＴＳ機械学習モデルを学習するのに使用された英語のデータの時間変化によるｃｈａｒａｃｔｅｒｅｒｒｏｒｒａｔｅ（ＣＥＲ）を示す表（１４１０）である。本例示において、ＴＴＳ機械学習モデルは、十分な韓国語学習データがある条件で、英語学習データの量を変えながら学習された。表（１４１０）は、音声合成の品質を数値化するために、テキストから合成された音声出力物を聴取した人が文字で記録し、原本テキストとの結果を比較したエラー率を示す。

表（１４１０）によれば、英語のテキストと韓国語の話者の発声特徴をＴＴＳ機械学習モデルに入力して、その話者の英語のテキストに対応する英語スピーチを合成する場合、使用された英語学習データの時間が増えるほどＣＥＲが減少する。つまり、機械学習に使用される英語学習データの時間が増えるほど、韓国語の話者が読んだ英語のテキストのスピーチに対するＣＥＲは減少する。

一方、韓国語のテキストと英語の話者の発声特徴をＴＴＳ機械学習モデルに入力して、その話者の韓国語のテキストに対応する韓国語スピーチを合成する場合、使用された英語学習データの時間が増えてもＣＥＲは大きな差がない。これは、機械学習に使用された韓国語で構成されたデータの量が英語のデータ量より多いため、ＣＥＲがすでに臨界まで減少した状態を示すものであることができる。テキスト音声合成システムが臨界量以上のデータを利用して機械学習をする場合、ＣＥＲを十分に減らすことが可能であることを確認できる。また、多量の韓国語学習データと少量の英語学習データを利用してＴＴＳの機械学習モデルを学習させる場合にも、英語のテキストをスピーチに合成した結果物が比較的高い品質で生成されることを確認できる。

本開示によれば、複数の言語に対する入力テキスト（ｔｅｘｔｉｎｐｕｔ）と出力音声（ａｕｄｉｏｏｕｔｐｕｔ）だけで、エンドツーエンドの（ｅｎｄ-ｔｏ-ｅｎｄ）で多言語ＴＴＳ機械学習モデルを生成することが可能である。また、従来の方式では、互いに異なる言語が１つの言語的特徴のセット（ｌｉｎｇｕｉｓｔｉｃｆｅａｔｕｒｅｓｅｔ）で表現するために、ＩＰＡのような複数の言語で共通に使用できる表記法を必要としたり、言語間の類似性に関する事前情報を必要としたりした。しかし、本開示によれば、言語的特徴（ｌｉｎｇｕｉｓｔｉｃｆｅａｔｕｒｅ）が必要ではないため、各言語が異なるアルファベットを使用しても問題がなく、言語間の類似性に関する事前情報も必要としない。

また、本開示は、モデルをエンドツーエンド（ｅｎｄ-ｔｏ-ｅｎｄ）で学習させるため、音素の長さ（ｐｈｏｎｅｍｅｄｕｒａｔｉｏｎ）などの既存のＴＴＳで必要とした特徴（ｆｅａｔｕｒｅ）を別途のモデルを利用して予測する必要がなく、単一のニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルでテキスト音声合成（ＴＴＳ）作業を処理することができる。また、本開示によれば、テキストエンコーダ（Ｔｅｘｔｅｎｃｏｄｅｒ）でテキストエンコーディング（ｔｅｘｔｅｎｃｏｄｉｎｇ）を抽出する過程において、話者ＩＤ（ｓｐｅａｋｅｒＩＤ）の使用の有無に応じて海外同胞の話し方/流暢な話し方を調節することができる。例えば、第１の言語の音声を生成するとき、第２の言語の発音が強い場合には、学習するときにペナルティを与えることができる。ペナルティを適用した機械学習モデルによれば、より第１の言語の発音に近い音声が生成されることができる。

図１５は、本開示の一実施例に係るテキスト音声合成システム（１５００）のブロック図である。一実施例によるテキスト音声合成システム（１５００）は、データ学習部（１５１０）とデータ認識部（１５２０）を含むことができる。データ学習部（１５１０）は、データを入力して機械学習モデルを取得することができる。また、データ認識部（３０２）は、データを機械学習モデルに適用して、出力音声を生成することができる。上述したようなテキスト音声合成システム（１５００）は、プロセッサおよびメモリを含むことができる。

データ学習部（１５１０）は、テキストに対する音声学習をすることができる。データ学習部（１５１０）は、テキストに応じてどの音声を出力するかに関する基準を学習することができる。また、データ学習部（１５１０）は、どの音声の特徴を利用して音声を出力するかに関する基準を学習することができる。音声の特徴は、音素の発音、ユーザーの語調、イントネーションまたはアクセントのうち少なくとも１つを含むことができる。データ学習部（１５１０）は、学習に利用されるデータを取得し、取得されたデータを後述するデータ学習モデルに適用することによって、テキストに応じた音声を学習することができる。

データ認識部（１５２０）は、テキストに基づいてテキストに対する音声を出力することができる。データ認識部（１５２０）は、学習されたデータ学習モデルを利用して、所定のテキストから音声を出力することができる。データ認識部（１５２０）は、学習による予め設定された基準に基づいて、所定のテキスト（データ）を取得することができる。また、データ認識部（１５２０）は、取得されたデータを入力値としてデータ学習モデルを利用することによって、所定のデータに基づいた音声を出力することができる。また、取得されたデータを入力値としてデータ学習モデルによって出力された結果値は、データ学習モデルを更新するのに利用されることができる。

データ学習部（１５１０）またはデータ認識部（１５２０）のうち少なくとも１つは、少なくとも１つのハードウェアチップ形態に製作されて、電子機器に搭載されることができる。例えば、データ学習部（１５１０）またはデータ認識部（１５２０）のうち少なくとも１つは、人工知能（ＡＩ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され、すでに説明した各種の電子機器に搭載されることもできる。

また、データ学習部（１５１０）およびデータ認識部（１５２０）は、別々の電子機器にそれぞれ搭載されることもできる。例えば、データ学習部（１５１０）およびデータ認識部（１５２０）のうち１つは電子機器に含まれ、残りの１つはサーバーに含まれることができる。また、データ学習部（１５１０）およびデータ認識部（１５２０）は、有線または無線を通じて、データ学習部（１５１０）が構築したモデルの情報をデータ認識部（１５２０）に提供することもでき、データ認識部（１５２０）に入力されたデータが追加の学習データとしてデータ学習部（１５１０）に提供されることもできる。

一方、データ学習部（１５１０）またはデータ認識部（１５２０）のうち少なくとも１つは、ソフトウェアモジュールで具現されることができる。データ学習部（１５１０）およびデータ認識部（１５２０）のうち少なくとも１つが、ソフトウェアモジュール（または、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、ソフトウェアモジュールは、メモリまたはコンピュータ読み取り可能な非一時的な読み取り可能な記録媒体（ｎｏｎ-ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプリケーションによって提供されたりすることができる。これと異なり、少なくとも１つのソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの一部は所定のアプリケーションによって提供されることができる。

本開示の一実施例によるデータ学習部（１５１０）は、データ取得部（１５１１）、前処理部（１５１２）、学習データ選択部（１５１３）、モデル学習部（１５１４）およびモデル評価部（１５１５）を含むことができる。

データ取得部（１５１１）は、機械学習に必要なデータを取得することができる。学習のためには多くのデータが必要であるため、データ取得部（１５１１）は、複数のテキストおよびそれに対応する音声を受信することができる。

前処理部（１５１２）は、ユーザーの心理状態判断のために取得されたデータが機械学習に使用され得るように、取得されたデータを前処理することができる。前処理部（１５１２）は、後述するモデル学習部（１５１４）が利用できるように、取得されたデータを予め設定されたフォーマットに加工することができる。例えば、前処理部（１５１２）は、テキストおよび音声を形態素解析して形態素埋め込みを取得することができる。

学習データ選択部（１５１３）は、前処理されたデータの中から学習に必要なデータを選択することができる。選択されたデータは、モデル学習部（１５１４）に提供されることができる。学習データ選択部（１５１３）は、既設定された基準に基づいて、前処理されたデータの中から学習に必要なデータを選択することができる。また、学習データ選択部（１５１３）は、後述するモデル学習部（１５１４）による学習によって、既設定された基準に基づいてデータを選択することもできる。

モデル学習部（１５１４）は、学習データに基づいて、テキストに応じてどの音声を出力するかに関する基準を学習することができる。また、モデル学習部（１５１４）は、テキストに応じて音声を出力する学習モデルを学習データとして利用して学習させることができる。この場合、データ学習モデルは、予め構築されたモデルを含むことができる。例えば、データ学習モデルは、基本学習データ（例えば、サンプルイメージなど）の入力を受けて予め構築されたモデルを含むことができる。

データ学習モデルは、学習モデルの適用分野、学習の目的または装置のコンピュータ性能などを考慮して構築されることができる。データ学習モデルは、例えば、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）をベースにするモデルを含むことができる。例えば、ディープニューラルネットワーク（ＤＮＮ；ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、回帰型ニューラルネットワーク（ＲＮＮ；ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、長・短期記憶モデル（ＬＳＴＭ；ＬｏｎｇＳｈｏｒｔ-ＴｅｒｍＭｅｍｏｒｙｍｏｄｅｌｓ）、双方向性回帰型ディープニューラルネットワーク（ＢＲＤＮＮ；ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ；ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）などのようなモデルがデータ学習モデルとして使用されることができるが、これに限定されない。

多様な実施例によれば、モデル学習部（１５１４）は、予め構築されたデータ学習モデルが複数個存在する場合、入力された学習データと基本学習データの関連性が大きいデータ学習モデルを学習するデータ学習モデルとして決定することができる。この場合、基本学習データは、データのタイプ別に既分類されていることができ、データ学習モデルは、データのタイプ別に予め構築されていることができる。例えば、基本学習データは、学習データが生成された地域、学習データが生成された時間、学習データの大きさ、学習データのジャンル、学習データの生成者、学習データ内のオブジェクトの種類などのような多様な基準で既分類されていることができる。

また、モデル学習部（１５１４）は、例えば、誤差逆伝播法（ｅｒｒｏｒｂａｃｋ-ｐｒｏｐａｇａｔｉｏｎ）または最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）を含む学習アルゴリズムなどを利用して、データ学習モデルを学習させることができる。

また、モデル学習部（１５１４）は、例えば、学習データを入力値とする教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習することができる。
また、モデル学習部（１５１４）は、例えば、別途のガイドなしに、状況判断のために必要なデータの種類を自分で学習することによって状況判断のための基準を発見する教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習することができる。また、モデル学習部（１５１４）は、例えば、学習による状況判断の結果が正しいかに対するフィードバックを利用する強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習することができる。

また、データ学習モデルが学習されると、モデル学習部（１５１４）は、学習されたデータ学習モデルを格納することができる。この場合、モデル学習部（１５１４）は、学習されたデータ学習モデルを、データ認識部（１５２０）を含む電子機器のメモリに格納することができる。また、モデル学習部（１５１４）は、学習されたデータ学習モデルを電子機器と有線または無線ネットワークで接続されるサーバーのメモリに格納することもできる。

この場合、学習されたデータ学習モデルが格納されるメモリは、例えば、電子機器の少なくとも１つの他の構成要素に関係された命令またはデータを一緒に格納することもできる。さらに、メモリは、ソフトウェアおよび/またはプログラムを格納することもできる。プログラムは、例えば、カーネル、ミドルウェア、アプリケーションプログラミングインターフェース（ＡＰＩ）および/またはアプリケーションプログラム（または「アプリケーション」）などを含むことができる。

モデル評価部（１５１５）は、データ学習モデルに評価データを入力し、評価データから出力される結果が所定の基準を満たさない場合、モデル学習部（１５１４）が再学習するようにすることができる。この場合、評価データは、データ学習モデルを評価するための既設定されたデータを含むことができる。

例えば、モデル評価部（１５１５）は、評価データに対する学習されたデータ学習モデルの結果の中で、認識結果が正確でない評価データの数または比率が予め設定されたしきい値を超える場合、所定の基準を満たさないものと評価することができる。例えば、所定の基準が比率２％で定義される場合において、学習されたデータ学習モデルが総１０００個の評価データの中で２０個を超える評価データに対して誤った認識結果を出力する場合、モデル評価部（１５１５）は、学習されたデータ学習モデルが適していないものであると評価することができる。

一方、学習されたデータ学習モデルが複数個存在する場合、モデル評価部（１５１５）は、それぞれの学習された動画学習モデルに対して所定の基準を満たすかを評価し、所定の基準を満足するモデルを最終データ学習モデルとして決定することができる。この場合、所定の基準を満たすモデルが複数個である場合、モデル評価部（１５１５）は、評価点数の高い順に予め設定されたある１つまたは所定個数のモデルを最終データ学習モデルとして決定することができる。

一方、データ学習部（１５１０）内のデータ取得部（１５１１）、前処理部（１５１２）は、学習データ選択部（１５１３）、モデル学習部（１５１４）またはモデル評価部（１５１５）のうち少なくとも１つは、少なくとも１つのハードウェアチップ形態に製作されて、電子機器に搭載されることができる。例えば、データ取得部（１５１１）、前処理部（１５１２）、学習データ選択部（１５１３）、モデル学習部（１５１４）またはモデル評価部（１５１５）のうち少なくとも１つは、人工知能（ＡＩ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され、前述した各種の電子機器に搭載されることもできる。

また、データ取得部（１５１１）、前処理部（１５１２）、学習データ選択部（１５１３）、モデル学習部（１５１４）およびモデル評価部（１５１５）は、１つの電子機器に搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例えば、データ取得部（１５１１）、前処理部（１５１２）、学習データ選択部（１５１３）、モデル学習部（１５１４）およびモデル評価部（１５１５）のうち一部は電子機器に含まれ、残りの一部はサーバーに含まれることができる。

また、データ取得部（１５１１）、前処理部（１５１２）、学習データ選択部（１５１３）、モデル学習部（１５１４）またはモデル評価部（１５１５）のうち少なくとも１つは、ソフトウェアモジュールで具現されることができる。データ取得部（１５１１）、前処理部（１５１２）、学習データ選択部（１５１３）、モデル学習部（１５１４）またはモデル評価部（１５１５）のうち少なくとも１つがソフトウェアモジュール（または、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、ソフトウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録媒体（ｎｏｎ-ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプリケーションによって提供されたりすることができる。これと異なり、少なくとも１つのソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの一部は所定のアプリケーションによって提供されることができる。

本開示の一実施例によるデータ認識部（１５２０）は、データ取得部（１５２１）、前処理部（１５２２）、認識データ選択部（１５２３）、認識結果提供部（１５２４）およびモデル更新部（１５２５）を含むことができる。

データ取得部（１５２１）は、音声を出力するために必要なテキストを取得することができる。逆に、データ取得部（１５２１）は、テキストを出力するために必要な音声を取得することができる。前処理部（１５２２）は、音声またはテキストを出力するために取得されたデータが使用され得るように、取得されたデータを前処理することができる。前処理部（１５２２）は、後述する認識結果提供部（１５２４）が音声またはテキストを出力するために取得されたデータを利用できるように、取得されたデータを既設定されたフォーマットに加工することができる。

認識データ選択部（１５２３）は、前処理されたデータの中から音声またはテキストを出力するために必要なデータを選択することができる。選択されたデータは、認識結果提供部（１５２４）に提供されることができる。認識データ選択部（１５２３）は、音声またはテキストを出力するための既設定された基準に基づいて、前処理されたデータの中から一部または全部を選択することができる。また、認識データ選択部（１５２３）は、モデル学習部（１５１４）による学習によって、既設定された基準に基づいてデータを選択することもできる。

認識結果提供部（１５２４）は、選択されたデータをデータ学習モデルに適用して、音声またはテキストを出力することができる。認識結果提供部（１５２４）は、認識データ選択部（１５２３）によって選択されたデータを入力値として利用することにより、選択されたデータをデータ学習モデルに適用することができる。また、認識結果は、データ学習モデルによって決定されることができる。

モデル更新部（１５２５）は、認識結果提供部（１５２４）によって提供される認識結果に対する評価に基づいて、データ学習モデルが更新されるようにすることができる。例えば、モデル更新部（１５２５）は、認識結果提供部（１５２４）によって提供される認識結果をモデル学習部（１５１４）に提供することにより、モデル学習部（１５１４）がデータ学習モデルを更新するようにすることができる。

一方、データ認識部（１５２０）内のデータ取得部（１５２１）、前処理部（１５２２）、認識データ選択部（１５２３）、認識結果提供部（１５２４）またはモデル更新部（１５２５）のうち少なくとも１つは、少なくとも１つのハードウェアチップの形態に製作されて、電子機器に搭載されることができる。例えば、データ取得部（１５２１）、前処理部（１５２２）、認識データ選択部（１５２３）、認識結果提供部（１５２４）またはモデル更新部（１５２５）のうち少なくとも１つは、人工知能（ＡＩ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され、前述した各種の電子機器に搭載されることもできる。

また、データ取得部（１５２１）、前処理部（１５２２）、認識データ選択部（１５２３）、認識結果提供部（１５２４）およびモデル更新部（１５２５）は、１つの電子機器に搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例えば、データ取得部（１５２１）、前処理部（１５２２）、認識データ選択部（１５２３）、認識結果提供部（１５２４）およびモデル更新部（１５２５）のうち一部は電子機器に含まれ、残りの一部はサーバーに含まれることができる。

また、データ取得部（１５２１）、前処理部（１５２２）、認識データ選択部（１５２３）、認識結果提供部（１５２４）またはモデル更新部（１５２５）のうち少なくとも１つは、ソフトウェアモジュールで具現されることができる。データ取得部（１５２１）、前処理部（１５２２）、認識データ選択部（１５２３）、認識結果提供部（１５２４）またはモデル更新部（１５２５）のうち少なくとも１つが、ソフトウェアモジュール（または、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、ソフトウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録媒体（ｎｏｎ-ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプリケーションによって提供されたりすることができる。これと異なり、少なくとも１つのソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの一部は所定のアプリケーションによって提供されることができる。

これまでに多様な実施例を中心に説明した。本発明が属する技術分野において通常の知識を有する者は、本発明が、本発明の本質的な特性から逸脱しない範囲で変形された形態で具現され得ることを理解できるであろう。したがって、開示された実施例は、限定的な観点ではなく、説明的な観点から考慮されるべきである。本発明の範囲は、前述した説明ではなく、特許請求の範囲に示されており、それと同等の範囲内にあるすべての違いは、本発明に含まれるものと解釈されるべきである。

一方、上述した本発明の実施例は、コンピュータで実行され得るプログラムで作成可能であり、コンピュータ読み取り可能な記録媒体を利用してプログラムを動作させる汎用デジタルコンピュータで具現されることができる。コンピュータ読み取り可能な記録媒体は、磁気記録媒体（例えば、ロム、フロッピーディスク、ハードディスクなど）、光学的読み取り媒体（例えば、ＣＤ-ＲＯＭ、ＤＶＤなど）のような記憶媒体を含む。

Claims

システムのプロセッサにより遂行される多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを生成する方法であって、
第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データ、および、前記第１の言語の学習音声データに関連する第１話者識別子を含む第１の学習データを受信するステップと、
第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データ、および、前記第２の言語の学習音声データに関連する第２話者識別子を含む第２の学習データを受信するステップと、
前記第１の学習データおよび前記第２の学習データに基づいて、前記第１の言語の音素および前記第２の言語の音素間の類似性情報を学習して、入力テキストの言語と異なる言語に関連する話者の音声を模写する音声データを出力する単一の人工ニューラルネットワークの多言語テキスト音声合成（ｔｅｘｔ-ｔｏ-ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを生成するステップとを含む、多言語テキスト音声合成モデルを生成する方法。
前記第１の言語の学習テキストおよび前記第２の言語の学習テキストは、字母単位、文字単位、または音素単位に分離された複数のテキスト埋め込みベクトルを含む、請求項１に記載の多言語テキスト音声合成モデルを生成する方法。
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、前記第１の言語の音素および前記第２の言語の音素間の発音および表記のうち少なくとも１つに対する類似性情報の入力なしに生成される、請求項１に記載の多言語テキスト音声合成モデルを生成する方法。
システムのプロセッサにより遂行される多言語テキスト音声合成方法であって、
第１の言語に対する話者の発声特徴を受信するステップと、
第２の言語の入力テキストを受信するステップと、
前記第２の言語の入力テキストおよび前記第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記話者の音声を模写する前記第２の言語の入力テキストに対する出力音声データを生成するステップとを含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第１の言語に対する第１の学習データおよび第２の言語に対する第２の学習データに基づいて、前記第１の言語の音素および前記第２の言語の音素間の類似性情報を学習することによって生成されるモデルであり、
前記第１の言語に対する第１の学習データは、第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データ、および、前記第１の言語の学習音声データに関連する第１話者識別子を含み、
前記第２の言語に対する第２の学習データは、第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データ、および、前記第２の言語の学習音声データに関連する第２話者識別子を含む、多言語テキスト音声合成方法。
感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を受信するステップと、
前記第２の言語の入力テキスト、前記第１の言語に対する話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記話者の音声を模写する前記第２の言語の入力テキストに対する出力音声データを生成するステップとをさらに含む、請求項４に記載の多言語テキスト音声合成方法。
韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を受信するステップと、
前記第２の言語の入力テキスト、前記第１の言語に対する話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記話者の音声を模写する前記第２の言語の入力テキストに対する出力音声データを生成するステップとをさらに含む、請求項４に記載の多言語テキスト音声合成方法。
前記韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも１つを含む、請求項６に記載の多言語テキスト音声合成方法。
前記第１の言語に対する話者の発声特徴を受信するステップは、
第１の言語の入力音声を受信するステップと、
前記第１の言語の入力音声から特徴ベクトルを抽出し、前記第１の言語に対する話者の発声特徴を生成するステップとを含み、
前記第２の言語の入力テキストを受信するステップは、
前記第１の言語の入力音声を第１の言語の入力テキストに変換するステップと、
前記第１の言語の入力テキストを第２の言語の入力テキストに変換するステップとを含む、請求項４に記載の多言語テキスト音声合成方法。
システムのプロセッサにより遂行される多言語テキスト音声合成方法であって、
第１の言語に対する第１話者識別子を受信するステップと、
第２の言語の入力テキストを受信するステップと、
前記第２の言語の入力テキストおよび前記第１の言語に対する第１話者識別子を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１話者識別子に対応する話者の音声を模写する前記第２の言語の入力テキストに対する出力音声データを生成するステップとを含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第１の言語に対する第１の学習データおよび第２の言語に対する第２の学習データに基づいて、前記第１の言語の音素および前記第２の言語の音素間の類似性情報を学習することによって生成されるモデルであり、
前記第１の言語に対する第１の学習データは、第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データ、および、前記第１の言語の学習音声データに関連する前記第１話者識別子を含み、
前記第２の言語に対する第２の学習データは、第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データ、および、前記第２の言語の学習音声データに関連する第２話者識別子を含む、多言語テキスト音声合成方法。
請求項１～９の何れかの方法によるそれぞれのステップを遂行する命令語を含むプログラムが記録された、コンピュータ読み取り可能な記憶媒体。