JP7069386B1

JP7069386B1 - 音声変換装置、音声変換方法、プログラム、および記録媒体

Info

Publication number: JP7069386B1
Application number: JP2021108707A
Authority: JP
Inventors: 和之廣芝; 優理小田桐; 伸也北岡
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-05-17
Anticipated expiration: 2041-06-30
Also published as: CN115956269A; WO2023276539A1; JP2023006218A; JP2023007405A; US20230317090A1

Abstract

【課題】誰の声からでも、様々な人の声に声変換する【解決手段】音声変換装置１は、変換先の声の指定を入力する入力部１１と、変換元の声の音声信号を解析して音素と音高を含む時系列データを抽出する抽出部１２と、音高の高さを指定された変換先の声の高さに合わせる調整部１３と、多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに、音素と音高を時系列順に入力して指定された変換先の声を合成した音声信号を生成する生成部１４を備える。【選択図】図１

Description

特許法第３０条第２項適用２０２０年９月１４日掲載のウェブサイトのアドレス（ｈｔｔｐｓ：／／ｄｍｖ．ｎｉｃｏ／ｊａ／ａｒｔｉｃｌｅｓ／ｓｅｉｒｅｎ＿ｖｏｉｃｅ／，ｈｔｔｐ：／／ｓｅｉｒｅｎ－ｖｏｉｃｅ．ｄｍｖ．ｎｉｃｏ／）に、廣芝和之が、廣芝和之、小田桐優理、および北岡伸也が発明した「声変換システム」について公開した。

本発明は、音声変換装置、音声変換方法、プログラム、および記録媒体に関する。

仮想空間内でコンピュータグラフィックスキャラクタ（以下、アバターと称する）を操作した映像を配信するサービスの広まりに伴い、アバターの見た目に合わせた声変換が望まれている。例えば、アバターを操作する配信者の性別および年齢がアバターの見た目に合っていない場合であっても、配信者の声をアバターの見た目に合った声に変換できるとよい。

声変換を含む音声合成の品質は、ここ数年の深層学習技術の進歩により大きく向上した。中でも、音声サンプルを少しずつ生成していく自己回帰という手法を取りいれた深層学習モデルＷａｖｅＮｅｔにより、実際の音声とほぼ変わらない品質の音声を合成できるようになった。ＷａｖｅＮｅｔは合成する品質が高い一方、合成する速度が遅いという弱点があり、この点を改善したＷａｖｅＲＮＮなどのモデルも登場した。

特許第６７８３４７５号

深層学習を用いた声変換の手法の１つに、変換元の声と変換先の声で同じ文章を読んだ音声のペアデータを用意し、それらのペアデータを学習データにして声変換を行う手法がある。しかしこの手法は、変換元の声の人に複数の文章を読んでもらって音声を録音し、さらにその音声データで深層学習を行う必要があるため、とても時間がかかるという問題があった。声変換の深層学習に変換元の音声データが必要になってしまうのは、声変換を直接的（Ｅｎｄ－ｔｏ－Ｅｎｄ）に深層学習で解決しようとしているためである。

また、同じ見た目のアバターには同じ声で話して欲しいという要望がある。つまり、誰の声からでも同じ声に声変換できることが望まれている。さらに、誰の声からでも様々な人の声に変換できると、アバターの声として配信者の望む声を選択できたり、一人もしくは少人数の配信者で多数のアバターを操作できたりする。

本発明は、上記に鑑みてなされたものであり、誰の声からでも、様々な人の声に声変換することを目的とする。

本発明の一態様の音声変換装置は、変換先の声の指定を入力する入力部と、変換元の声の音声信号を解析して音素と音高を含む時系列データを抽出する抽出部と、前記音高の高さを指定された前記変換先の声の高さに合わせる調整部と、多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する生成部を備える。

本発明の一態様の音声変換方法は、コンピュータが、変換先の声の指定を入力し、変換元の声の音声信号を解析して音素と音高を含む時系列データを抽出し、前記音高の高さを指定された前記変換先の声の高さに合わせ、多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する。

本発明によれば、誰の声からでも、様々な人の声に声変換できる。

図１は、本実施形態の音声変換装置の構成の一例を示す図である。図２は、音高の高さ調整を説明するための図である。図３は、音声変換装置の深層学習モデルを説明するための図である。図４は、変換元の声を限定せずに声変換できる様子を表した図である。図５は、音声変換装置の処理の流れの一例を示すフローチャートである。図６は、本実施形態の音声変換装置の変形例の構成の一例を示す図である。図７は、音声変換装置を用いたＷｅｂアプリケーションの画面の一例を示す図である。図８は、音声変換装置に速度変換装置を接続した構成の一例を示す図である。

［構成］
以下、本発明の実施の形態について図面を用いて説明する。

図１を参照し、本実施形態の音声変換装置１の構成の一例について説明する。図１に示す音声変換装置１は、入力部１１、抽出部１２、調整部１３、および生成部１４を備える。音声変換装置１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは音声変換装置１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。

入力部１１は、変換先の声の指定を入力する。例えば、入力部１１は、変換先の声の識別子または名前を入力してもよいし、変換先の声の属性（性別、大人の声、子供の声、高い声、あるいは低い声など）を入力してもよい。変換先の声の属性が入力された場合、入力部１１は、その属性に該当する変換先の声を変換先の声の候補の中から選択する。

抽出部１２は、変換元の声の音声信号（以下、音声データと称する）を入力し、変換元の声を音声認識して、変換元の声から音素（子音＋母音）と各音素に対する音高（ピッチ）を含む時系列データを抽出する。音高は、抑揚、アクセント、および音声の長さなどの音声情報も含む。抽出部１２は、音声データを記録したファイルを読み込んでもよいし、音声変換装置１の備えるマイクロフォン（図示せず）を用いて音声データを入力してもよいし、音声変換装置１の備える外部端子に接続された機器から音声データを入力してもよい。抽出部１２は、既存の音声認識技術により、音声データから音素と音高を抽出する。例えば、音素の抽出にはＯｐｅｎＪＴａｌｋを利用でき、音高の抽出にはＷＯＲＬＤを利用できる。なお、音素の数は音声データの内容（テキストの内容）で決まり、音高の数は音声データの長さで決まるので、音素と音高は１対１で対応しなくてもよい。

抽出部１２は、音声データとともに、音声データと同じ内容の文章を入力し、入力した文章から音素を抽出してもよいし、入力した文章で音声データの音声認識結果を補正してもよい。音声と文章の両方を入力することにより、音素読み取りの正確さと、音高情報の獲得の両方が実現できる。例えば、滑舌が悪かった場合などの理由で、誤った音素が認識されてしまった場合に、入力した文章で調整できる。

抽出部１２は、時系列順に、音素を生成部１４へ送るとともに、音高を調整部１３へ送る。音高は、調整部１３で高さ調整が行われた後、生成部１４へ送られる。

調整部１３は、図２に示すように、抽出部１２の抽出した音素ごとの音高に線形変換を施して、変換元の声の高さを変換先の声の高さに合わせる。例えば、調整部１３は、低い声を高い声に変換したり、高い声を低い声に変換したりする。なお、変換先の声の高さは既知であり、音声変換装置１の備える記憶装置に保持されている。調整部１３は、変換先の声ごとに声の高さの平均を計算しておいて、変換元の声の高さの平均を変換先の声の高さの平均に調整してもよい。

生成部１４は、多人数の音声データを学習済みの深層学習モデルに音素と変換後の音高を入力し、入力部１１で指定された変換先の声で発話される音声信号を合成する。生成部１４の保持する深層学習モデルは、音素と音高を入力すると、入力部１１で指定された声で発話される音声信号を出力する。深層学習モデルには、例えば、ＷａｖｅＲＮＮを用いることができる。変換元の音声データの音素を抽出する際に各音素の発声区間を抽出して各音素に付随させ、各音素と音高を生成部１４に入力することで、生成部１４は、変換元の音声データの発話の間を保った音声を出力できる。無音区間については、無音区間を生成部１４に入力し、同じ長さの無音区間を出力させてもよい。

音声変換装置１は学習部１５を備えてもよい。学習部１５は、変換先の声となる多人数の音声データから音素および音高を抽出し、音素と音高から抽出元の多人数の音声のそれぞれを合成できる深層学習モデルを学習する。例えば、本実施形態では、１００人のプロフェッショナル話者による高音質な音声データであるＪＶＳコーパスから音素と音高を抽出し、音素と音高を入力すると、１００人のプロフェッショナル話者のうちの指定の人の音声を合成して出力する深層学習モデルを学習した。多人数の話者の音声を一緒に深層学習することで、各話者の音声データが少なくてもよい品質で各話者の音声を合成できる。

以上説明したように、本実施形態では、変換元の声を話者に依存しない要素に分解し、分解した要素から変換先の声を合成することで、変換元の音の波形を変換しない声変換を可能にした。具体的には、図３に示すように、声変換に際して、音声データから、言語情報として音素を抽出し、非言語情報として音高と発音タイミングを抽出し、抽出した音素と音高を深層学習モデルに入力して変換先の声を音声合成した。

本実施形態では、変換元の声を話者に依存しない要素に分解してから音声合成するので、変換元の声と変換先の声のペアデータを学習する必要が無く、図４に示すように、誰の声からでも、学習に用いた様々な人の声に声変換することができる。

［動作］
次に、図５のフローチャートを参照し、音声変換装置１による音声変換の動作について説明する。

ステップＳ１１にて、音声変換装置１は、変換先の声の指定を入力する。

ステップＳ１２にて、音声変換装置１は、変換先の声の音声データを入力し、音声データから音素と音高を抽出する。

ステップＳ１３にて、音声変換装置１は、ステップＳ１２で抽出した音高を変換先の声に合わせて変換する。

ステップＳ１４にて、音声変換装置１は、音素と変換後の音高を深層学習モデルに入力し、変換先の声を合成して出力する。複数の人の声で出力する場合は、ステップＳ１３とステップＳ１４の処理を繰り返し、複数の変換先の声を合成する。

［変形例］
次に、図６を参照し、本実施形態の音声変換装置１の変形例の構成の一例について説明する。図６に示す音声変換装置１は、入力部１１、調整部１３、生成部１４、音素取得部１６、および音高生成部１７を備える。図６の音声変換装置１は、図１の音声変換装置１とは、抽出部１２の代わりに音素取得部１６と音高生成部１７を備える点で相違し、音声データではなくテキストを入力して、指定の変換先の声の音声信号を出力する。

入力部１１は、変換先の声の指定を入力する。

音素取得部１６は、テキストを入力し、入力したテキストから音素を取得する。例えば、音素取得部１６は、入力したテキストを形態素解析して、音声を文字コードで表現した音声記号列を生成し、音声記号列から音素を取得する。音素取得部１６は、単語などのアクセント情報を保持しておき、テキストから音素を取得した際、アクセントに基づく音高の生成を音高生成部１７に指示する。

音高生成部１７は、音素に対応する音高を生成する。例えば、音高生成部１７は、標準の音高を記憶装置に記憶しておき、指定されたアクセントに対応する音高を読み出して出力する。

調整部１３は、音高生成部１７の生成した音高を変換先の声の音高に合わせる。

生成部１４は、深層学習モデルに音素と線形変換後の音高を入力し、入力部１１で指定された変換先の声で発話される音声信号を合成する。

［実施例］
次に、本実施形態の音声変換装置１を利用した実施例について説明する。

図７は、音声を入力すると複数人の声に変換するＷｅｂアプリケーションの画面１００の一例を示す図である。例えば、ユーザが、携帯端末またはパーソナルコンピュータ（ＰＣ）のブラウザで声変換サービスを提供するＷｅｂサイトにアクセスすると、図７の画面１００が表示される。

画面１００内には、録音ボタン１１０、テキスト入力欄１２０、変換先音声ラベル１３０Ａ～１３０Ｄ、声変換ボタン１４０、および変換先音声再生ボタン１５０Ａ～１５０Ｄが配置されている。

ユーザは、録音ボタン１１０を押下して、携帯端末またはＰＣに接続されたマイクロフォンから音声を入力する。これにより、ユーザの声の音声データが録音される。

ユーザは、テキスト入力欄１２０に、録音した音声と同じ内容の文章を入力する。例えば、ユーザが「おはようございます」と録音した場合、ユーザは、テキスト入力欄１２０に、「おはようございます」と入力する。携帯端末またはＰＣの音声認識機能を利用して、ユーザが録音した音声と同じ内容の文章がテキスト入力欄１２０に自動的に入力されてもよい。

変換先音声ラベル１３０Ａ～１３０Ｄには、変換先の声を示すラベルが表示される。図７の例では、「声１」、「声１２」、「声３１」、および「声９９」のラベルが表示されている。これは、１番、１２番、３１番、９９番の人の声に変換されることを示している。変換先の声の事前に決められてもよいし、ランダムで選択されてもよい。あるいは、ユーザが変換先の声を選択してもよい。

ユーザが声変換ボタン１４０を押下すると、声変換処理が開始される。具体的には、録音された音声データ、テキスト入力欄１２０に入力された文章、および変換先音声ラベル１３０Ａ～１３０Ｄに示された声の識別子が音声変換装置１に入力される。音声変換装置１は、音声データから音素と音高を抽出するとともに、文章からも音素を抽出する。音声変換装置１は、音声データから抽出した音素を文章から抽出した音素で補正してもよいし、文章から抽出した音素を後段の処理で用いてもよい。音声変換装置１は、変換先音声ラベル１３０Ａ～１３０Ｄに示された変換先の声のそれぞれについて、音高の高さ調整と音声合成を行い、ユーザの声を変換先の声のそれぞれに声変換した音声データを出力する。

声変換処理後、ユーザが変換先音声再生ボタン１５０Ａ～１５０Ｄを押下すると、変換先音声再生ボタン１５０Ａ～１５０Ｄに対応する声の音声データが再生される。

続いて、本実施形態の音声変換装置を音声の速度変換に用いた例について説明する。音声変換装置１を音声の速度変換に用いる場合、入力部１１が再生速度の指定を受け付けて、抽出部１２が抽出した音素と音高を含む時系列データを時間方向に圧縮または伸長してから生成部１４に入力する。例えば、倍速で再生する場合、抽出部１２の抽出した音素の発声区間を圧縮するとともに、調整部１３は、音高を時間方向に圧縮した後に、音高を変換先の声の高さに調整し、音素と音高を生成部１４に入力する。これにより、入力音声が、違和感のない声質（変換先の声）で倍速再生される。変換先の声は、任意の声を選択してよい。変換先の声として変換元の声に近いものを選択すれば、より違和感なく音声の再生速度を変更できる。入力音声をスロー再生する場合は、音素の発声区間を伸長するとともに、音高を時間方向に伸長すればよい。

図８では、音声変換装置１に速度変換装置３を接続した例を示している。速度変換装置３は、音声（動画でもよい）を入力し、入力音声の再生速度を変えて早送り再生またはスロー再生する。再生速度を変えた音声は、ピッチが変化して、高くなったり、低くなったりする。

再生速度を変えた（ピッチの変化した）音声を音声変換装置１に入力すると、音声変換装置１は、再生速度を変えた音声データから音素と音高を抽出し、抽出した音高を変換先の声の高さに線形変換し、音素と音高を深層学習モデルに入力して変換先の声による音声を合成する。これにより、再生速度の変更によりピッチの変化した音声が、再生速度変更後の発話タイミングで、変換先の声で再生される。なお、音声変換装置１に入力する音声の内容と同じテキストデータを入力することで、早送り再生された音声の認識率の低下をカバーすることができる。

図８では、音声変換装置１と速度変換装置３とを別々の装置で構成したが、音声変換装置１が速度変換装置３の機能を備えてもよい。また、速度変換装置３を備えない場合でも、倍速再生またはスロー再生された音声を音声変換装置１に入力すれば、スピードは倍速またはスローのままで、通常時の声の高さの自然な音声に変換できる。

以上説明したように、本実施形態の音声変換装置１は、変換先の声の指定を入力する入力部１１と、変換元の声の音声信号を解析して音素と音高を含む時系列データを抽出する抽出部１２と、音高の高さを指定された変換先の声の高さに合わせる調整部１３と、多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに、音素と音高を時系列順に入力して指定された変換先の声を合成した音声信号を生成する生成部１４を備える。本実施形態では、変換元の声を話者に依存しない音素と音高に分解し、音素と音高から変換先の声を合成することで、変換元の音の波形を変換しない声変換を可能にした。これにより、音素と音高から音声合成する深層学習モデルを学習するだけで、変換元の音声データを一切用いずに、誰の声からでも変換先の声に変換できる。

１音声変換装置
１１入力部
１２抽出部
１３調整部
１４生成部
１５学習部
１６音素取得部
１７音高生成部
３速度変換装置

Claims

変換先の声の指定を入力する入力部と、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出する抽出部と、
前記音高の高さを指定された前記変換先の声の高さに合わせる調整部と、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する生成部を備える
音声変換装置。
請求項１に記載の音声変換装置であって、
変換先の声となる多人数の音声データから音素および音高を抽出し、音素と音高から前記多人数の音声のそれぞれを合成できる深層学習モデルを学習する学習部を備える
音声変換装置。
請求項１または２に記載の音声変換装置であって、
前記抽出部は、前記変換元の声の音声データとともに前記変換元の声の発話内容と同じ文章を入力し、当該文章を解析して音素を抽出する
音声変換装置。
請求項１または２に記載の音声変換装置であって、
前記抽出部は、前記変換元の声の音声データの代わりに文章を解析して音素を抽出し、音素に対応する音高を記憶装置から読み出して前記調整部へ送信する
音声変換装置。
請求項１ないし３のいずれかに記載の音声変換装置であって、
前記抽出部は、前記音素それぞれの発声区間を抽出し、圧縮または伸長した発声区間を前記生成部に入力し、
前記調整部は、前記発声区間の圧縮または伸長に合わせて前記音高を時間方向に圧縮または伸長する
音声変換装置。
コンピュータが、
変換先の声の指定を入力し、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出し、
前記音高の高さを指定された前記変換先の声の高さに合わせ、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する
音声変換方法。
変換先の声の指定を入力する処理と、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出する処理と、
前記音高の高さを指定された前記変換先の声の高さに合わせる処理と、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する処理を
コンピュータに実行させるプログラム。
変換先の声の指定を入力する処理と、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出する処理と、
前記音高の高さを指定された前記変換先の声の高さに合わせる処理と、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する処理を
コンピュータに実行させるプログラムを記録した記録媒体。