JP6664670B2

JP6664670B2 - 声質変換システム

Info

Publication number: JP6664670B2
Application number: JP2016133530A
Authority: JP
Inventors: ▲高▼橋　賢一; 賢一 ▲高▼橋; 飛河　和生; 和生飛河; 戸田　智基; 智基戸田; 小林　和弘; 和弘小林
Original assignee: Nara Institute of Science and Technology NUC
Current assignee: Nara Institute of Science and Technology NUC
Priority date: 2016-07-05
Filing date: 2016-07-05
Publication date: 2020-03-13
Anticipated expiration: 2036-07-05
Also published as: JP2018005048A

Description

本発明は、声質変換システムに関する。

近年では、テーマパークまたはイベント会場等にキャラクタが登場することにより、集客を図ることが行われている。

このキャラクタには、例えば映画、アニメ、コミック及びゲーム等に登場する様々なキャラクタが含まれる。更に、音楽の分野においては、キャラクタがアーティストとして活動を行う場合もある。

キャラクタは、例えば現実空間内に着ぐるみとして登場する場合もあれば、映像として登場する場合もある。このようなキャラクタの視覚的な要素は、着ぐるみの精度向上及びコンピュータグラフィクスの技術の進歩等により、十分に観客を楽しませることができる。

小林和弘、戸田智基、Graham Neubig、Sakriani Sakti、中村哲（奈良先端大・情報）、"差分スペクトル補正に基づく統計的歌声声質変換"、［online］、２０１４年３月、日本音響学会講演論文集、［平成２８年６月２７日検索］、インターネット＜URL:http:www.phontron.com/paper/kobayashi14asj.pdf＞

ところで、キャラクタの声を録音した音声を同時に流すか、あるいは現場のアクター（声優）が演じることによって、当該キャラクタが話しているように見せることが一般的に行われている。

しかしながら、録音した音声の再生タイミングや収録内容が現場と合わなかったり、アクターの声質がキャラクタの声質と異なる場合があり、この場合には観客は違和感を感じてしまう場合がある。

このため特定のキャラクタの声は実際の声優本人が自らアクターとなるか、あるいはキャラクタに似た声を出すことが出来るような特定のアクターのみが演じる場合も見られるが、テーマパークまたはイベント会場に長時間登場するようなキャラクタの場合には、アクターが喉を傷めてしまうような事態が発生し得る。また、このような状況下ではアクターは喉を酷使するため、同一のアクターであっても例えば朝と夜とで声質が変化してしまうことがある。

なお、テーマパークまたはイベント会場に登場するキャラクタは例えばステージやスクリーン上で、リアルタイムで観客と会話するようなことも求められており、予めキャラクタの声を録音した音声で用意しておくようなことは困難である。

したがって、異なるアクターであっても同一のキャラクタ（ターゲット）の声で自由に話すことができるような技術が望まれている。

そこで、本発明の目的は、アクターの声質をターゲットの声質に変換することが可能な声質変換システムを提供することにある。

本発明の１つの態様によれば、声質学習装置及び声質変換装置を備え、アクターの声質をターゲットの声質に変換する声質変換システムが提供される。前記声質学習装置は、前記ターゲットの第１の音声信号を入力する第１の入力手段と、前記入力された第１の音声信号から第１の特徴量を抽出する第１の抽出手段と、前記第１の音声信号に対応する前記アクターの第２の音声信号を入力する第２の入力手段と、前記入力された第２の音声信号に含まれる基本周波数を所定の倍率で変換する第１の変換手段と、前記基本周波数が変換された第２の音声信号から第２の特徴量を抽出する第２の抽出手段と、前記抽出された第１の特徴量及び第２の特徴量間の対応関係をモデル化することによって得られるモデルデータを格納するデータベースとを含む。前記声質変換装置は、前記アクターの第３の音声信号を入力する第３の入力手段と、前記入力された第３の音声信号に含まれる基本周波数を前記所定の倍率で変換する第２の変換手段と、前記基本周波数が変換された第３の音声信号から第３の特徴量を抽出する第３の抽出手段と、前記データベースに格納されたモデルデータ及び前記抽出された第３の特徴量に基づいて、前記アクターの声質が前記ターゲットの声質に変換された第４の音声信号を生成する生成手段と、前記生成された第４の音声信号を出力する出力手段とを含む。

本発明は、アクターの声質をターゲットの声質に変換することを可能とする。

本発明の実施形態に係る声質変換システムの構成の一例を概略的に示す図。声質学習装置の機能構成の一例を示すブロック図。声質変換装置の機能構成の一例を示すブロック図。声質学習装置の処理手順の一例を示すフローチャート。声質変換装置の処理手順の一例を示すフローチャート。

以下、図面を参照して、本発明の実施形態について説明する。

図１は、本実施形態に係る声質変換システムの構成を概略的に示す図である。本実施形態に係る声質変換システムは、例えば声優のようなアクターと称される人物（以下、単にアクターと表記）１の声質をターゲットと称される例えばキャラクタ（以下、単にターゲットと表記）２の声質に変換するために用いられる。

具体的には、声質変換システムは、例えばテーマパークまたはイベント会場等において、アクター１が発声した際に、当該アクター１の声質をターゲット２の声質に変換して音声を出力することによって、ターゲット２と声質の異なるアクター１であっても当該ターゲット２の声質で話すことができるようにするといった用途に用いることができる。

なお、本実施形態の説明においてはアクター１が人物であるものとして説明するが、当該アクター１は、音声を発するものであればよく、例えば機械的に生成された音声を発するものであってもよい。また、ターゲット２（キャラクタ）は、当該キャラクタの声を演じる人物であってもよいし、当該キャラクタの声を機械的に発する機器等であってもよい。ターゲット２はキャラクタではなく、有名人や俳優、歌手などの人物の声でもよい。

図１に示すように、声質変換システムは、声質学習装置１０及び声質変換装置２０を備える。

声質学習装置１０は、各種プログラム（ソフトウェア）を実行可能なＣＰＵのようなプロセッサ（コンピュータ）を備えるパーソナルコンピュータ等を含む。声質学習装置１０は、解析エンジン１０ａ及びデータベース（ＤＢ）１０ｂを有する。

解析エンジン１０ａは、ターゲット２の音声（ターゲット２が発音した声）と、当該ターゲット２の音声におけるイントネーション、発音タイミング及び音程等を真似て発音したアクター１の音声とを用いて学習処理を実行する（声質変換モデルを学習する）。解析エンジン１０ａは、学習処理の結果（学習結果）をもとに解析を実行し、データベース１０ｂを作成する。

なお、図１には示されていないが、声質学習装置１０は、上記したアクター１及びターゲット２の音声を入力するためのマイクロフォン等を備えている。なお、声質学習装置１０は、例えばアクター１及びターゲット２の音声が予め収録された音声ファイルを入力する構成であってもよい。

声質変換装置２０は、声質学習装置１０と同様に、各種プログラム（ソフトウェアを実行可能なＣＰＵのようなプロセッサ（コンピュータ）を備えるパーソナルコンピュータ等を含む。

声質変換装置２０は、上記した声質学習装置１０において作成されたデータベース１０ｂを利用してアクター１の声質をターゲット２の声質に変換する。このように声質変換装置２０において声質が変換された音声は、声質変換装置２０に備えられる例えばスピーカ２０ａから出力される。なお、声質変換装置２０において声質が変換された音声は、例えば音声ファイルとして出力され、声質変換装置２０内で管理されてもよいし、外部のサーバ装置等に送信されても構わない。

なお、図１には示されていないが、声質変換装置２０は、アクター１の音声を入力するためのマイクロフォン等を備えている。また、上記した声質学習装置１０と同様に、声質変換装置２０は、アクター１の音声が予め収録された音声ファイルを入力する構成であってもい。

本実施形態に係る声質変換システムにおいては、声質学習装置１０及び声質変換装置２０が別個の装置であるものとして説明するが、当該声質学習装置１０及び声質変換装置２０は、１つの装置として実現されていても構わない。

更に、声質学習装置１０及び声質変換装置２０は、パーソナルコンピュータ以外の電子機器、例えばスマートフォンまたはタブレット端末等として実現されていてもよい。また、声質学習装置１０及び声質変換装置２０は、本実施形態において説明する各機能がチップなどに格納され一体化されたマイクのような形態を有していてもよいし、他の形態を有する専用機器として実現されていてもよい。

以下、本実施形態に係る声質変換システムにおける声質の変換手法の概要について説明する。

本実施形態に係る声質変換システムにおいては、混合正規分布モデル（ＧＭＭ：Gaussian Mixture Model）に基づいて声質を変換する手法（以下、ＧＭＭに基づく声質変換と表記）が採用されているものとする。このＧＭＭに基づく声質変換においては、上述した声質学習装置１０によって学習処理が実行され、声質変換装置２０によって変換処理が実行される。

まず、学習処理について簡単に説明する。学習処理では、例えば同一のセリフ（文等）を同一のイントネーション及び音程で発声した際のアクター１及びターゲット２それぞれの音声信号（音声データ）を用意する。

声質学習装置１０は、このアクター１及びターゲット２それぞれの音声信号（つまり、アクター１及びターゲット２による同一内容発声の音声信号）を入力する。

声質学習装置１０は、双方の音声信号を各フレームに分割して短時間分析処理を実行する。通常は、固定長（例えば 5 ms）で分析区間をシフトさせることで、双方の音声信号を短時間音声波形に分割する。

声質学習装置１０は、分割されたフレーム毎に音声の特徴を表す特徴量の分析（スペクトル分析）を行い、局所的な時間フレーム系列の伸縮を行い、時間同期をとることによって、双方の音声フレーム間のマッチングを行う。対応するフレーム毎のスペクトルを結合したデータを順次算出し、結合確率密度関数をＧＭＭでモデル化する。

本実施形態においては、このような学習処理によって得られるモデルデータ（声質変換モデルデータ）がデータベース１０ｂに蓄積される。

すなわち、上記した学習処理においては、時間の対応付けがされたアクター１及びターゲット２の音声（波形）の特徴量のペアから、当該アクター１の声質をターゲット２の声質に変換するための変換規則が統計的にモデル化される。

次に、変換処理について簡単に説明する。上記したＧＭＭに基づく声質変換の変換処理においては一般的に音声合成技術を使用して基本音声を作り出すが、本実施形態における変換処理では、機械的な音声ではなく比較的自然な音声を出力するために、アクター１の音声（波形）をそのまま使用するものとする。

すなわち、この変換処理では、音声の特徴量を変換するのではなく、アクター１の音声と出力すべきターゲット２の音声との特徴量の差分を上記ＧＭＭに基づき推定し、当該アクター１の音声（波形）に合成フィルタにより畳み込む（すなわち、差分スペクトル補正を適用する）ことによって、アクター１の声質をターゲット２の声質に変換する。

上述したように、ＧＭＭに基づく声質変換においては、学習処理によって作成されたデータベース１０ｂ（に蓄積されたモデルデータ）を利用して、変換処理によってアクター１の声質をターゲット２の声質に変換することができる。

なお、本実施形態において採用されるＧＭＭに基づく声質変換については例えば「小林和弘、戸田智基、Graham Neubig、Sakriani Sakti、中村哲（奈良先端大・情報）、“差分スペクトル補正に基づく統計的歌声声質変換”、［online］、２０１４年３月、日本音響学会講演論文集、［平成２８年６月２７日検索］、インターネット＜URL:http:www.phontron.com/paper/kobayashi14asj.pdf＞」及び「戸田智基、“音声音響信号処理〜統計的手法による音声変換〜”、［online］、２０１４年１月２０日、［平成２８年６月２７日検索］、インターネット＜http://hil.t.u-tokyo.ac.jp/~kameoka/SAP/SAP13_11.pdf＞」等に開示されているため、ここではその詳しい説明については省略する。

ところで、例えばアクター１及びターゲット２の性別が異なるような場合、当該アクター１とターゲット２とで発声することが可能な音域が異なる。

このようにアクター１とターゲット２とで音域が異なる場合、当該アクター１の声質を当該ＧＭＭに基づく声質変換によってターゲット２の声質に変換したとしても、出力される音声はターゲット２の音声として認識できない程度のものとなる。

このため、上述した変換処理において、アクター１の音声の基本周波数（ｆ０）をターゲット２（の音声）の音域に合わせて変換する処理（以下、基本周波数変換と表記）を実行する必要がある。基本周波数は、声の高さ（音高）等を表現する音声の特徴量の１つである。なお、変換処理ではアクター１の音声がそのまま使用されるため、本実施形態においては、アクター１の音声（波形）を信号処理で加工する基本周波数変換が必要となる。

ここで、上述した音声波形を信号処理で加工する基本周波数変換の手法としては、例えばＷ−ＳＯＬＡ等のタイムストレッチ及びリサンプルを用いた比較的簡易な手法がある。このような音声波形を時間軸上で加工する比較的簡易な手法による基本周波数変換には、例えば、音声基本周波数推定処理を必要としない、ボコーダによる音声分析合成処理を必要としない、ＣＰＵ負荷が少ないという利点がある。なお、基本周波数変換として他の手法が用いられても構わない。

しかしながら、このような基本周波数変換が実行された場合、アクター１の音声のスペクトル（フォルマント）に伸縮が生じるため、当該アクター１の声質が変化してしまう。このような基本周波数変換が声質変換装置２０における変換処理の前段で実行される場合には、声質学習装置１０における学習処理の際に与えられたアクター１の音声のフォルマントと、当該変換処理の際に与えられるアクター１の音声のフォルマントとが異なることになるため、変換処理においてアクター１の声質をターゲット２の声質に適切に変換することは困難となる。

一方、基本周波数変換が声質変換装置２０における変換処理の後段で実行される（つまり、変換処理によって声質が変換された後に音声の基本周波数が変換される）場合には、既に変換処理によって得られたターゲット２の声質が基本周波数変換によって生じるフォルマントの伸縮により異なるものに変化してしまう。この場合には、ターゲット２の声質の音声を出力することはできない。

ここで、上述したように基本周波数変換は音声のフォルマント（スペクトル）の伸縮を生じさせるが、常に一定の倍率で基本周波数を変換した場合には、声質は変化してしまうものの、当該フォルマント同様に一定の倍率で伸縮することにより安定する（つまり、安定した個性を持ったフォルマントの声質を得ることができる）。

本実施形態においては、このような特性に着目し、声質変換システムにおける学習処理及び変換処理の双方の前段でアクター１の音声に対して基本周波数変換を実行する構成とする。なお、この場合における基本周波数変換は、予め決定された一定の倍率（音高変換倍率）で実行される。

以下、本実施形態に係る声質変換システムに備えられる声質学習装置１０及び声質変換装置２０の各々の機能構成について説明する。

図２は、声質学習装置１０の機能構成を示すブロック図である。声質学習装置１０は、上記したように声質変換装置２０においてアクター１の声質をターゲット２の声質に変換するために、ターゲット２の音声（声質）及びアクター１の音声（声質）を学習しておく機能を有する。

図２に示すように、声質学習装置１０は、第１音声入力部１１、第１分析処理部１２、倍率決定部１３、第２音声入力部１４、基本周波数変換部１５、第２分析処理部１６及びモデル学習部１７を含む。

本実施形態において、第１音声入力部１１、第１分析処理部１２、倍率決定部１３、第２音声入力部１４、基本周波数変換部１５、第２分析処理部１６及びモデル学習部１７は、図１に示す解析エンジン１０ａを構成する機能部であり、例えば声質学習装置１０に備えられるＣＰＵ等のコンピュータにプログラムを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、これらの各部１１〜１７の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。なお、コンピュータに実行させるプログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて声質学習装置１０にダウンロードされてもよい。

ここで、上記した学習処理のために声質学習装置１０に対して発せられたターゲット２の音声は、例えばマイクロフォンを介してアナログ電気信号に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にＡ／Ｄコンバータを通してデジタル電気信号に変換され、第１音声入力部１１によって入力される。以下、第１音声入力部１１によって入力された音声（信号）を便宜的にターゲット２の学習用音声信号と称する。なお、第１音声入力部１１は、ターゲット２の学習用音声信号として上記した音声ファイルを入力してもよい。

なお、ターゲット２の学習用音声信号には、ターゲット２の音声の特徴を表すパラメータ（特徴量）として、例えば音韻性及び声質等を表現するスペクトル特徴量（スペクトル包絡）と、声の高さ（音高）及び声のかすれ等を表現する基本周波数及び非周期成分とが含まれる。

第１分析処理部１２は、ターゲット２の学習用音声信号（に含まれるスペクトル特徴量、基本周波数及び非周期成分）を分析し、当該ターゲット２の学習用音声信号からスペクトル特徴量（第１の特徴量）を抽出する。

倍率決定部１３は、上記した基本周波数変換を実行する際の一定の倍率（ｆ０ｒａｔｅ）を決定する。具体的には、倍率決定部１３は、例えばアクター１の音声の周波数帯域（つまり、音域）の平均値及びターゲット２の音声の周波数帯域（つまり、音域）の平均値に基づいて倍率を決定する。以下、倍率決定部１３によって決定された倍率を便宜的に固定倍率と称する。この固定倍率は、声質学習装置１０内に保持される。また、この固定倍率は、例えば声質変換装置２０に対して送信されることによって、後述するように声質変換装置２０内でも保持される。

ここで、学習処理のために声質学習装置１０に対して発せられたアクター１の音声は、例えばマイクロフォンを介して電気信号（音声信号）に変換される。第２音声入力部１４は、マイクロフォンを介して変換された音声信号（第２の音声信号）を入力する。以下、第２音声入力部１４によって入力された音声信号を便宜的にアクター１の学習用音声信号と称する。

なお、アクター１の学習用音声信号には、アクター１の音声の特徴を表すパラメータ（特徴量）として、例えば音韻性及び声質等を表現するスペクトル特徴量（スペクトル包絡）と、声の高さ（音高）及び声のかすれ等を表現する基本周波数及び非周期成分とが含まれる。

基本周波数変換部１５は、アクター１の学習用音声信号に含まれる基本周波数を固定倍率で変換する。すなわち、本実施形態においては、この基本周波数変換部１５により、学習処理の前段でアクター１の学習用音声信号に対して基本周波数変換が実行される。

第２分析処理部１６は、基本周波数が固定倍率で変換された後のアクター１の学習用音声信号（に含まれるスペクトル特徴量、基本周波数及び非周期成分）を分析し、当該アクター１の学習用音声信号からスペクトル特徴量（第２の特徴量）を抽出する。

モデル学習部１７は、上述した学習処理を実行する機能部である。モデル学習部１７は、第１分析処理部１２によって抽出されたスペクトル特徴量（つまり、ターゲット２の音声の特徴量）及び第２分析処理部１６によって抽出されたスペクトル特徴量（つまり、アクター１の音声の特徴量）のペアに関する変換規則が統計的にモデル化される。モデル学習部１７は、このような学習処理によって得られるモデルデータをデータベース１０ｂに格納（蓄積）する。

図３は、声質変換装置２０の機能構成を示すブロック図である。声質変換装置２０は、アクター１の声質をターゲット２の声質に変換する機能を有する。

図３に示すように、声質変換装置２０は、変換テーブル２１、音声入力部２２、基本周波数変換部２３、分析処理部２４、差分推定部２５、声質変換部２６及び音声出力部２７を含む。

本実施形態において、変換テーブル２１は、上記した声質学習装置１０のデータベース１０ｂをインストールすることによって生成され、当該データベース１０ｂに蓄積されたモデルデータを保持する。なお、変換テーブル２１は、例えば声質変換装置２０に備えられる記憶装置等に格納される。

また、本実施形態において、音声入力部２２、基本周波数変換部２３、分析処理部２４、差分推定部２５、声質変換部２６及び音声出力部２７は、例えば声質変換装置１０に備えられるＣＰＵ等のコンピュータにプログラムを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、これらの各部２２〜２７の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。なお、コンピュータに実行させるプログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて声質変換装置２０にダウンロードされてもよい。

変換処理のために声質変換装置２０に対して発せられたアクター１の音声は、例えばマイクロフォンを介してアナログ電気信号に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にＡ／Ｄコンバータを通してデジタル電気信号に変換され、音声入力部２２によって入力される。以下、音声入力部２２によって入力された音声（信号）を便宜的にアクター１の変換用音声信号と称する。なお、音声入力部２２は、アクター１の変換用音声信号として上記した音声ファイルを入力してもよい。

アクター１の変換用音声信号には、上記したようにアクター１の音声の特徴を表すパラメータ（特徴量）として、スペクトル特徴量、基本周波数及び非周期成分等が含まれる。

ここで、声質学習装置１０内に保持されている固定倍率（つまり、倍率決定部１３によって決定された倍率）は、上記したように声質変換装置２０内においても保持されているものとする。

基本周波数変換部２３は、アクター１の変換用音声信号に含まれる基本周波数を声質変換装置２０内で保持されている固定倍率で変換する。すなわち、本実施形態においては、この基本周波数変換部２３により、変換処理の前段でアクター１の変換用音声信号に対して基本周波数変換が実行される。

分析処理部２４は、基本周波数が固定倍率で変換された後のアクター１の変換用音声信号（に含まれるスペクトル特徴量、基本周波数及び非周期成分）を分析し、当該アクター１の変換用音声信号からスペクトル特徴量（第３の特徴量）を抽出する。

差分推定部２５及び声質変換部２６は、上述した変換処理を実行する機能部である。

ここで、差分推定部２５及び声質変換部２６は、変換テーブル２１に保持されているモデルデータ及び分析処理部２４によって抽出されたスペクトル特徴量に基づく変換処理によって、アクター１の声質がターゲット２の声質に変換された音声信号（第４の音声信号）を生成する。このように生成される音声信号は、アクター１の変換用音声信号に対応するターゲット２の音声信号に相当する。

具体的には、差分推定部２５は、変換テーブル２１（つまり、モデルデータ）を参照して、分析処理部２４によって抽出されたスペクトル特徴量（つまり、アクター１の変換用音声信号に含まれるスペクトル特徴量）と当該アクター１の変換用音声信号に対応するターゲット２の音声信号のスペクトル特徴量との差分（以下、差分特徴量と表記）を推定する。

声質変換部２６は、アクター１の変換用音声信号（音声波形）に対して差分推定部２５によって推定された差分特徴量を適用する処理（フィルタ処理）を実行する。これにより、音声入力部２２によって入力されたアクター１の変換用音声信号において、アクター１の声質をターゲット２の声質に変換することができる。

音声出力部２７は、声質変換部２６によって声質が変換された音声信号を例えばスピーカ２０ａを介して出力する。なお、声質変換部２６によって性質が変換された音声信号は、上記したように音声ファイルとして出力されてもよい。

以下、本実施形態に係る声質変換システム（声質学習装置１０及び声質変換装置２０）の動作について説明する。

まず、図４のフローチャートを参照して、声質学習装置１０の処理手順について説明する。

図４に示す処理が実行される場合、例えばターゲット２（特定のキャラクタ）が話すことが多い音素（言い回し等）の包含されたテキストが用意される。

ターゲット２（の声を演じる人物等）は、当該ターゲット２の声のイメージを作り、当該イメージに基づいてイントネーション及び音程の変化等を意識して、用意されたテキストに基づいて発声する。なお、ここで用意されているテキストには、例えば５０〜１００文程度（のセリフ等）が含まれているものとする。

これにより、第１音声入力部１１は、ターゲット２の発声に応じて当該ターゲット２（つまり、特定のキャラクタ）の学習用音声信号を入力する（ステップＳ１）。

第１分析処理部１２は、ステップＳ１において入力されたターゲット２の学習用音声信号からスペクトル特徴量を抽出する（ステップＳ２）。

次に、アクター１は、上記したテキストに基づくターゲット２による発声と同様のイントネーション及び音程の変化等を真似て当該テキストに基づいて発声する。

これにより、第２音声入力部１４は、アクター１の発声に応じて当該アクター１の学習用音声信号（つまり、ステップＳ１において入力されたターゲット２の学習用音声信号に対応するアクター１の学習用音声信号）を入力する（ステップＳ３）。

ここで、上記したように声質学習装置１０内には、事前処理として倍率決定部１３によって決定された基本周波数変換のための倍率（固定倍率）が保持されている。なお、固定倍率は、上記したようにアクター１の音声の周波数帯域の平均値及びターゲット２の音声の周波数帯域の平均値に基づいて決定される。具体的には、例えばアクター１の音声の周波数帯域の平均値が１００Ｈｚであり、ターゲット２の音声の周波数帯域の平均値が１３０Ｈｚである場合には、固定倍率は１．３（１３０／１００）である。ここでは、固定倍率が「ターゲット２の音声の周波数帯域の平均値／アクター１の音声の周波数帯域の平均値」であるものとして説明したが、当該固定倍率は他の手法によって決定されるものであってもよい。なお、アクター１の音声の周波数帯域の平均値及びターゲット２の音声の周波数帯域の平均値は、予め計測されていればよい。

基本周波数変換部１５は、上記した固定倍率に基づいて、ステップＳ３において入力されたアクター１の学習用音声信号に対して基本周波数変換を実行する（ステップＳ４）。これにより、アクター１の学習用音声信号に含まれる基本周波数が固定倍率で変換される。

第２分析処理部１６は、ステップＳ４において基本周波数が変換された後のアクター１の学習用音声信号からスペクトル特徴量を抽出する（ステップＳ５）。

モデル学習部１７は、上述した学習処理を実行し、ステップＳ２において抽出されたスペクトル特徴量（ターゲット２の音声のスペクトル特徴量）及びステップＳ５において抽出されたスペクトル特徴量（アクター１の音声のスペクトル特徴量）間の対応関係をモデル化する（ステップＳ６）。具体的には、モデル学習部１７は、上述したように時間（フレーム）毎に対応付けられたスペクトル特徴量に基づく変換規則を統計的にモデル化（ＧＭＭでモデル化）することによってモデルデータを得ることができる。

モデル学習部１７によって得られたモデルデータは、データベース１０ｂに蓄積される（ステップＳ７）。

上記した図４に示す処理によれば、上記したようにアクター１の学習用音声信号に対して固定倍率に基づく基本周波数変換を実行した後で学習処理が実行され、当該学習処理において得られるモデルデータがデータベース１０ｂに蓄積される。

次に、図５のフローチャートを参照して、声質変換装置２０の処理手順について説明する。

本実施形態において、声質変換装置２０は、例えばテーマパークまたはイベント会場等において着ぐるみを着用したアクター１が特定のキャラクタ（ターゲット２）の声を演じてリアルタイムで観客等と会話（やりとり）を行うような場合に使用される。なお、声質変換装置２０は、映像として映し出された特定のキャラクタの声をアクター１が演じるような場合に使用されても構わない。

なお、このアクター１の音声のスペクトル特徴量及びターゲット２（特定のキャラクタ）の音声のスペクトル特徴量間の対応関係がモデル化されることによって得られるモデルデータは、上述した図４に示す処理が実行されることによって声質学習装置１０（データベース１０ｂ）に蓄積されているものとする。このモデルデータは、当該声質変換装置２０にインストールされ、変換テーブル２１に保持されているものとする。

アクター１が声質変換装置２０を使用する場合、当該アクター１は、上述した図４に示す処理が実行される際に真似た程度のターゲット２のイントネーション及び音程の変化等で発声する（例えば、観客と会話する）。

この場合、音声入力部２２は、アクター１の発声に応じて当該アクター１の変換用音声信号を入力する（ステップＳ１１）。

ここで、上記したように声質変換装置１０内には、声質学習装置１０内に保持されている固定倍率（倍率決定部１３によって決定された倍率）と同じ固定倍率が保持されている。

基本周波数変換部１５は、声質変換装置１０内に保持されている固定倍率に基づいて、ステップＳ１１において入力されたアクター１の変換用音声信号に対して基本周波数変換を実行する（ステップＳ１２）。これにより、アクター１の変換用音声信号に含まれる基本周波数が固定倍率で変換される。

分析処理部２４は、ステップＳ１２において基本周波数が変換された後のアクター１の変換用音声信号からスペクトル特徴量を抽出する（ステップＳ１３）。

以下、差分推定部２５及び声質変換部２６は、上述した変換処理を実行する。具体的には、差分推定部２５は、ステップＳ１３において抽出されたスペクトル特徴量（アクター１の音声のスペクトル特徴量）とステップＳ１１において入力されたアクター１の変換用音声信号に対応するターゲット２の音声信号との差分特徴量を、変換テーブル２１に保持されているモデルデータ（ＧＭＭ）に基づいて推定する（ステップＳ１４）。なお、ステップＳ１４における推定処理においては、例えばＧＭＭに対して変数変換を行うことによりアクター１の音声のスペクトル特徴量（ベクトル）と差分特徴量（ベクトル）の結合確率密度をモデル化したＧＭＭを導出し、このように導出されたＧＭＭに基づき差分特徴量を推定するものとする。

次に、声質変換部２６は、ステップＳ１３において抽出されたスペクトル特徴量に対して、ステップＳ１４において推定された差分特徴量を合成フィルタにより畳み込む（合成する）ことにより、アクター１の声質がターゲット２の声質に変換された音声信号を生成する（ステップＳ１５）。なお、合成フィルタとしては、音声合成に用いられる例えばＭＬＳＡ（Mel-Log Spectrum Approximation）フィルタ等を使用することができる。

この声質変換部２６によって声質が変換された後の音声信号は、音声出力部２７によって出力される（ステップＳ１６）。

上記した図５に示す処理によれば、アクター１の変換用音声信号に対して固定倍率に基づく基本周波数変換を実行した後で変換処理が実行され、当該変換処理によってアクター１の声質をターゲット２の声質にリアルタイムに変換した音声信号を出力することが可能となる。なお、図５に示す処理は、アクター１の音声信号が入力される度に実行される。具体的には、連続的に入力されるアクター１の音声信号を例えば５ms程度の固定長毎に処理することによって、リアルタイムでの声質変換を実現することが可能となる。

上記したように本実施形態において、声質学習装置１０は、ターゲット２の学習用音声信号（第１の音声信号）及び当該ターゲット２の学習用音声信号に対応するアクター１の学習用音声信号（第２の音声信号）を入力する。声質学習装置１０は、学習処理の前段で、アクター１の学習用音声信号に含まれる基本周波数を所定の倍率（固定倍率）で変換する。また、声質学習装置１０は、学習処理として、ターゲット２の学習用音声信号から抽出されたスペクトル特徴量（第１の特徴量）及び基本周波数が変換されたアクター１の学習用音声信号から抽出されたスペクトル特徴量（第２の特徴量）間の対応関係をモデル化することによって得られるモデルデータ（声質変換モデルデータ）をデータベース１０ｂに格納（蓄積）する。

一方、声質変換装置２０は、アクター１の変換用音声信号（第３の音声信号）を入力し、変換処理の前段で、当該アクター１の変換用音声信号に含まれる基本周波数を上記した所定の倍率（固定倍率）で変換する。声質変換装置２０は、変換処理として、データベース１０ｂに蓄積されたモデルデータ及び基本周波数が変換されたアクター１の変換用音声信号から抽出されたスペクトル特徴量（第３の特徴量）に基づいて、当該アクター１の声質がターゲットの声質に変換された音声信号（第４の音声信号）を生成する。

なお、声質変換装置２０による変換処理においては、データベース１０ｂに格納されたモデルデータ及び基本周波数が変換されたアクター１の変換用音声信号から抽出されたスペクトル特徴量に基づいてターゲット２のスペクトル特徴量との差分特徴量が推定され、当該差分特徴量が当該スペクトル特徴量にフィルタとして適用されることによって、アクター１の声質がターゲット２の声質に変換される。

ここで、本実施形態においては、アクター１とターゲット２との音高の差異による影響を低減するために基本周波数変換が学習処理及び変換処理の双方の前段で実行される。すなわち、本実施形態においては、基本周波数変換後のアクター１の音声（信号）で学習処理が実行されるため、変換処理の前段でアクター１の変換用音声信号に対して基本周波数変換が実行された場合であっても、学習処理によって得られたモデルデータに基づいて適切に声質を変換することが可能となる。

本実施形態においては、このような構成により、例えばテーマパークまたはイベント会場等におけるアクター１の発声に基づいて入力された音声信号に応じて、当該アクター１の声質がターゲット２の声質に変換された音声信号をリアルタイムに出力することができるため、例えばアクター１は特定のキャラクタ（ターゲット２）の声を容易に発する（つまり、発声する）ことが可能となる。

また、本実施形態においては比較的簡易な基本周波数変換を使用することができるため、性能の低い電子機器（声質学習装置１０及び声質変換装置２０）であっても声質変換システムを実現することができる。

なお、本実施形態においては学習処理及び変換処理の双方の前段で実行される基本周波数変換における倍率が固定されていればよいため、当該倍率は適宜変更されても構わない。また、例えば学習処理時にターゲット２及びアクター１の音声信号の基本周波数を常に計測して動的な倍率を決定しておき、変換処理においては、入力されたアクター１の音声信号の基本周波数に応じた倍率で基本周波数が変換されるような構成としてもよい。

また、本実施形態においては、説明の便宜のためにアクター１とターゲット２とが１対１の関係であるものとして説明したが、複数のアクター１の各々の音声（信号）とターゲット２の音声（信号）との特徴量間の対応関係をモデル化したモデルデータ（つまり、アクター１毎のモデルデータ）を蓄積しておくことによって、当該複数のアクター１の各々が同一のキャラクタの声質で発声することが可能となる。これによれば、特定のキャラクタの声を演じるアクター１の交代が容易となることにより各アクター１への身体的負担を軽減することができるとともに、複数のアクター１間の声質の相似度の向上を実現することができる。なお、アクター１毎のモデルデータを蓄積しておく場合には、上述した固定倍率は、当該アクター１毎に決定されるものとする。

また、アクター１の音声（信号）と複数のターゲット２の各々の音声（信号）との特徴量間の対応関係をモデル化したモデルデータ（つまり、ターゲット２毎のモデルデータ）を蓄積しておくことによって、アクター１が所望のターゲット２を選択し、当該選択されたターゲット２の声質に変換された音声信号が出力されるような構成とすることも可能である。

以下、本実施形態に係る声質変換システムの使用態様の例について説明する。本実施形態においては、アクター１の発声に応じて、当該アクター１とは音域の異なるターゲット２の声質の音声信号を出力することができる。このため、例えば女性のアクター１が男性のターゲット２の声質で会話をするようなことが可能となる。また、本実施形態においては、個人の声の音程の差を補うことができるため、アクター１は普段は発声することができないような音域の声を出すことができるようになり、例えばカラオケ等において歌手の声質で歌うことができるとともに、音域の問題も解消することができる。

また、特定のキャラクタ（ターゲット２）の音声を前もって保存しておくことにより、例えば当該特定のキャラクタの声を演じていた人物（声優）が亡くなった後等に、他の人物（アクター１）の音声と蓄積しておいた当該特定キャラクタの音声との特徴量間の対応関係をモデル化したモデルデータを得るような構成とすることも可能である。このような構成によれば、特定のキャラクタの声を演じていた人物が亡くなった後等であっても、他の人物（アクター１）の発声に応じて当該キャラクタが出演するアニメ映画を制作するようなことが可能となる。すなわち、本実施形態に係る声質変換システムは、アニメ映画の制作の時間的制限をなくすといった従来の音声合成とは異なる分野にも適用可能である。

また、例えば声優等の人物（ターゲット２）が、将来声質が変化してしまうこと等に備えて、保険として本実施形態に係る声質変化システムを利用することも考えられる。すなわち、予め声優等の人物の音声を保存しておき、実際に病気、怪我または老化等の原因によって声質が変化した際等に、現在の音声と蓄積しておいた過去の音声との特徴量間の対応関係をモデル化したモデルデータを得るような構成とすることも可能である。このような構成によれば、声質が変化した後であっても、例えば若い時のような過去の音声（声質）でセリフを言うまたは会話をすることが可能となる。この場合、例えば無料または低価格で保険として音声を保存しておくことができ、実際に声質変化システムを利用する際に料金を支払うようなサービスを提供することができる。なお、近年では声が出せなくなった後であっても人工的な音声を発することができるような機器が開発されているため、このような機器を利用すれば、声が出せなくなった後であっても過去の音声で会話をするようなことが可能となる。また、現役の声優が本システムで登場機会が失われるのではとの問題が考えられるが、むしろその声優の声を同時に世界中のあらゆる場所で用いられることとなるため、本人がその場に居なくても提供が可能となり、むしろ利用機会がふえるため、利用に応じて声優本人に印税などの形で使用料が戻ってくるようなビジネスモデルも提供できる。

また、声質変換システムを利用する際にアクター１がモデルデータを登録してない第三者に代えられた場合に警告などを出したり、システムを利用できないようにする等の目的で、予めアクター１の声紋登録を行い、声質変換装置２０に音声が入力された際に声紋認証を行い、その声紋がアクター１の声紋と一致しない場合はエラーを表示したり変換を実行しないといった構成にすることも出来る。

同様に、映画またはドラマ等の登場人物（例えば、俳優等）の現在の音声と過去の音声との特徴量間の対応関係をモデル化したモデルデータを蓄積しておくことで、例えば当該映画またはドラマ等の回想シーンにおいては当該回想シーンで描かれる時期の当該人物の声質（つまり、過去の音声）でセリフを話すといった用途に声質変化システムが使用されても構わない。

更に、例えば海外の映画またはドラマ等において日本語の吹き替えが行われる場合に、当該映画またはドラマに実際に出演している俳優の声質で日本語のセリフを話すようにすることも可能である。

上記したように本実施形態に係る声質変換システムは、言語の影響も少ないため、例えば言語的に意味のないキャラクタの発する特殊言語等であっても声質を変換して出力することが可能である。また、本実施形態に係る声質変換システムは、リアルタイム性を活かして様々な用途に用いることが可能であり、例えば上記したカラオケに用いることも可能であるし、機器による音声合成ガイダンスの声質を変換した音声を出力するような用途に用いることも可能である。

また、本実施形態に係る声質変換システムにおいてはＧＭＭに基づく声質変換が採用されるものとして主に説明したが、上述したようにアクター１の音声とターゲット２の音声との特徴量の差分を当該アクター１の音声に合成する（差分スペクトル補正を適用する）ことによってアクター１の声質をターゲット２の声質に変換する手法は例えばＧＭＭではなくニューラルネットワークを用いてモデル化を行う深層学習に基づく声質変換にも適用することができる。このため、本実施形態に係る声質変換システムにおいては、このような深層学習に基づく声質変換が採用されてもよいし、アクター１の音声及びターゲット２の音声を入力して学習を行うものであれば他の声質変換（手法）が採用されても構わない。

なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

１０…声質学習装置、１０ａ…解析エンジン、１０ｂ…データベース、１１…第１音声入力部（第１の入力手段）、１２…第１分析処理部（第１の抽出手段）、１３…倍率決定部、１４…第２音声入力部（第２の入力手段）、１５…基本周波数変換部（第１の変換手段）、１６…第２分析処理部（第２の抽出手段）、１７…モデル学習部、２０…声質変換装置、２０ａ…スピーカ、２１…変換テーブル、２２…音声入力部（第３の入力手段）、２３…基本周波数変換部（第２の変換手段）、２４…分析処理部（第３の抽出手段）、２５…差分推定部、２６…声質変換部、２７…音声出力部。

Claims

声質学習装置及び声質変換装置を備え、アクターの声質をターゲットの声質に変換する声質変換システムにおいて、
前記声質学習装置は、
前記ターゲットの第１の音声信号を入力する第１の入力手段と、
前記入力された第１の音声信号から第１の特徴量を抽出する第１の抽出手段と、
前記第１の音声信号に対応する前記アクターの第２の音声信号を入力する第２の入力手段と、
前記入力された第２の音声信号に含まれる基本周波数を所定の倍率で変換する第１の変換手段と、
前記基本周波数が変換された第２の音声信号から第２の特徴量を抽出する第２の抽出手段と、
前記抽出された第１の特徴量及び第２の特徴量間の対応関係をモデル化することによって得られるモデルデータを格納するデータベースと
を含み、
前記声質変換装置は、
前記アクターの第３の音声信号を入力する第３の入力手段と、
前記入力された第３の音声信号に含まれる基本周波数を前記所定の倍率で変換する第２の変換手段と、
前記基本周波数が変換された第３の音声信号から第３の特徴量を抽出する第３の抽出手段と、
前記データベースに格納されたモデルデータ及び前記抽出された第３の特徴量に基づいて、前記アクターの声質が前記ターゲットの声質に変換された第４の音声信号を生成する生成手段と、
前記生成された第４の音声信号を出力する出力手段と
を含む
ことを特徴とする声質変換システム。