JP6470586B2 - Audio processing apparatus and program - Google Patents
Audio processing apparatus and programInfo
- Publication number
- JP6470586B2 JP6470586B2 JP2015029995A JP2015029995A JP6470586B2 JP 6470586 B2 JP6470586 B2 JP 6470586B2 JP 2015029995 A JP2015029995 A JP 2015029995A JP 2015029995 A JP2015029995 A JP 2015029995A JP 6470586 B2 JP6470586 B2 JP 6470586B2
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- speech
- acoustic feature
- feature amount
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 claims description 231
- 230000002996 emotional effect Effects 0.000 claims description 49
- 238000004458 analytical method Methods 0.000 claims description 35
- 238000001228 spectrum Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 230000008451 emotion Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 description 27
- 238000003860 storage Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、音声加工装置、及びプログラムに関する。 The present invention relates to a voice processing device and a program.
音声に多様な発話スタイルを付与する音声加工方法は、コンテンツ制作や音声によるインターフェースなどで必要とされる音声表現のバリエーションを拡大できる。多様な発話スタイルとしては、特に感情表現への音声加工方法が多く検討されている。
平静音声を感情表現に変換する方法として、確率モデルによる声質変換を応用する方法が考案されている(例えば、非特許文献1参照)。しかし、確率モデルの構築には、変換したい変換対象話者の平静音声と感情音声のパラレルデータが必要となる。よって、事前に変換対象話者の感情音声が存在しない場合は利用できない。
また、テキストから任意話者の感情音声を合成する方法として、HMM音声合成を用いて、学習話者の平静音声モデルと感情音声とから学習した感情付与モデルを、任意話者の平静音声モデルに付与する方法が考案されている(例えば、非特許文献2参照)。しかし、この技術は、任意話者についても事前に平静音声のデータベースを用意する必要がある。このデータベースは、音響特徴量だけでなく、言語情報なども含まれるため、新規作成にはコストがかかる。
The voice processing method that gives various utterance styles to the voice can expand the variation of the voice expression required for the content production and the voice interface. As a variety of utterance styles, many voice processing methods for emotional expression have been studied.
A method of applying voice quality conversion based on a probability model has been devised as a method of converting calm speech into emotional expression (see Non-Patent Document 1, for example). However, the construction of a probability model requires parallel data of calm speech and emotional speech of the conversion target speaker to be converted. Therefore, it cannot be used when there is no emotional voice of the conversion target speaker in advance.
Also, as a method of synthesizing emotional speech of an arbitrary speaker from text, an emotion-giving model learned from a quiet speech model of a learning speaker and emotional speech using HMM speech synthesis is converted into a quiet speech model of the arbitrary speaker. A method of giving has been devised (see, for example, Non-Patent Document 2). However, with this technology, it is necessary to prepare a database of quiet speech in advance for any speaker. Since this database includes not only the acoustic feature quantity but also language information and the like, it is costly to create a new database.
様々なシチュエーションの音声に対し、多様な発話スタイルを付与できる音声加工方法を実現するためには、任意の話者の任意の発話内容の音声に対して、事前に感情音声のデータがなく、平静音声のデータも小規模しか与えられない場合でも、感情表現を付与できることが必要である。 In order to realize a voice processing method that can give various utterance styles to the voice of various situations, there is no emotional voice data in advance for the voice of any utterance content of any speaker, It is necessary to be able to add emotional expressions even when only small amounts of audio data are given.
本発明は、このような事情を考慮してなされたもので、コストを低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる音声加工装置、及びプログラムを提供する。 The present invention has been made in view of such circumstances, and can reduce the quiet speech of an arbitrary utterance of an arbitrary speaker who does not prepare emotional speech beforehand into emotional speech while reducing costs. An audio processing apparatus and a program are provided.
本発明の一態様は、変換対象話者の平静音声の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析部と、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第一変換部と、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第二変換部と、フレーム単位で、前記第二変換部が変換により得た前記音響特徴量について、前記第一変換部が変換により得た前記音響特徴量に対する差分を算出する差分取得部と、フレーム単位で、前記音声分析部が取得した前記音響特徴量に、前記差分取得部が算出した差分を加算する加工部と、を備えることを特徴とする音声加工装置である。
この発明によれば、音声加工装置は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、変換対象話者の平静音声の音声データの音響特徴量を変換して参照話者の平静音声の音響特徴量を得る。さらに、音声加工装置は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、変換対象話者の平静音声の音声データの音響特徴量を変換して参照話者の感情音声の音響特徴量を得る。音声加工装置は、参照話者の感情音声の音声データの音響特徴量について、参照話者の平静音声の音声データの音響特徴量に対する差分を得ると、得られた差分を変換対象話者の平静音声の音響特徴量に加算して、変換対象話者の感情音声の音響特徴量を得る。
これにより、音声加工装置は、変換対象話者の感情音声を事前に用意することなく、簡易な処理によって、任意の話者の任意の発話の平静音声を感情音声に加工することができる。
One aspect of the present invention includes a speech analysis unit that acoustically analyzes speech data of a quiet speech of a conversion target speaker to acquire an acoustic feature amount in units of frames, and a reference speech for the acoustic feature amount of the quiet speech of the conversion target speaker A first conversion unit that converts the acoustic feature amount of each frame acquired by the speech analysis unit using a first conversion rule for converting into an acoustic feature amount of a person's calm speech; A second conversion unit that converts the acoustic feature amount of each frame acquired by the speech analysis unit using a second conversion rule for converting the acoustic feature amount of the speech into the acoustic feature amount of the emotional speech of the reference speaker A difference acquisition unit that calculates a difference with respect to the acoustic feature amount obtained by the conversion by the first conversion unit for the acoustic feature amount obtained by the second conversion unit by the frame unit, and a frame unit, The sound acquired by the voice analysis unit The feature quantity, a speech processing apparatus characterized by comprising a processing unit for adding the difference to the difference obtaining unit is calculated.
According to this invention, the speech processing apparatus uses the first conversion rule for converting the acoustic feature amount of the quiet speech of the conversion target speaker into the acoustic feature amount of the quiet speech of the reference speaker, and uses the first conversion rule. The acoustic feature amount of the speech data of the quiet speech is converted to obtain the acoustic feature amount of the quiet speech of the reference speaker. Furthermore, the speech processing apparatus uses the second conversion rule for converting the acoustic feature amount of the quiet speech of the conversion target speaker into the acoustic feature amount of the emotional speech of the reference speaker, and uses the second conversion rule. The acoustic feature quantity of the voice data is converted to obtain the acoustic feature quantity of the emotional voice of the reference speaker. When the speech processing apparatus obtains a difference with respect to the acoustic feature amount of the speech data of the reference speaker's calm speech with respect to the acoustic feature amount of the speech data of the emotional speech of the reference speaker, the speech processing apparatus converts the obtained difference to the quietness of the conversion target speaker. By adding to the acoustic feature quantity of speech, the acoustic feature quantity of emotional speech of the conversion target speaker is obtained.
Thereby, the speech processing apparatus can process the quiet speech of an arbitrary utterance of an arbitrary speaker into an emotional speech by a simple process without preparing the emotional speech of the conversion target speaker in advance.
本発明の一態様は、上述する音声加工装置であって、前記差分取得部は、前記第一変換部が変換により得た前記音響特徴量と前記第二変換部が変換により得た前記音響特徴量とを正規化した後、フレーム単位で差分を算出する、ことを特徴とする。
この発明によれば、音声加工装置は、第一変換規則を用いて変換対象話者の平静音声の音声データを変換して得た参照話者の平静音声の音響特徴量と、第二変換規則を用いて変換対象話者の平静音声の音声データの音響特徴量を変換して得た参照話者の感情音声の音響特徴量とに正規化を行ってからそれらの差分を算出し、変換対象話者の平静音声の音響特徴量に加算する。
これにより、音声加工装置は、変換対象話者の任意発話を、変換対象話者の感情音声に精度よく変換することができる。
One aspect of the present invention is the speech processing device described above, wherein the difference acquisition unit includes the acoustic feature obtained by the first converter and the acoustic feature obtained by the second converter. After normalizing the quantity, the difference is calculated in units of frames.
According to the present invention, the speech processing apparatus uses the first conversion rule to convert the speech feature of the quiet speech of the conversion target speaker, and the second conversion rule. Is used to normalize the acoustic features of the speech data of the target speaker's quiet speech and to the acoustic features of the emotional speech of the reference speaker. Add to the acoustic features of the speaker's quiet speech.
Thereby, the speech processing apparatus can convert the arbitrary utterance of the conversion target speaker into the emotional speech of the conversion target speaker with high accuracy.
本発明の一態様は、上述する音声加工装置であって、前記変換対象話者の学習用の平静音声のデータである第一音声データと、前記第一音声データと同じ発話内容の参照話者の学習用の平静音声のデータである第二音声データとに基づいて前記第一変換規則を取得する処理と、前記第一音声データと、前記第一音声データと同じ発話内容の前記参照話者の学習用の感情音声のデータである第三音声データとに基づいて前記第二変換規則を取得する処理とを行う変換規則学習部をさらに備える、ことを特徴とする。
この発明によれば、音声加工装置は、同じ発話内容の変換対象話者の平静音声の音声データと、参照話者の平静音声及び感情音声の音声データとを用いて、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則及び変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を学習する。
これにより、音声加工装置は、変換対象話者の感情音声がなくとも、変換対象話者の平静音声と、参照話者の平静音声及び感情音声との少量の学習データを用いて、コストを低減しながら、変換規則を得ることができる。
One aspect of the present invention is the speech processing apparatus described above, wherein the reference speech has the same speech content as the first speech data and the first speech data that is the quiet speech data for learning of the conversion target speaker. Processing for obtaining the first conversion rule based on the second voice data which is the quiet voice data for learning, the first voice data, and the reference speaker having the same utterance content as the first voice data The method further comprises a conversion rule learning unit that performs processing for obtaining the second conversion rule based on third voice data that is emotional voice data for learning.
According to the present invention, the speech processing device uses the speech data of the speech of the conversion target speaker having the same utterance content and the speech data of the speech of the reference speaker and the speech of the emotional speech. The first conversion rule for converting the acoustic feature of speech into the acoustic feature of the quiet speech of the reference speaker and the acoustic feature of the quiet speech of the conversion target speaker into the acoustic feature of the emotional speech of the reference speaker To learn the second conversion rule.
Thereby, even if there is no emotional voice of the conversion target speaker, the voice processing device reduces the cost by using a small amount of learning data of the conversion target speaker's calm voice and the reference speaker's calm voice and emotional voice. The conversion rule can be obtained.
本発明の一態様は、上述する音声加工装置であって、前記音響特徴量は、周波数スペクトルに関する特徴量である、ことを特徴とする。
この発明によれば、音声加工装置は、音響特徴量として、音声波形から得られる周波数スペクトルに関する特徴量を用いる。
これにより、音声加工装置は、変換対象話者の任意発話の声質を変換して、変換対象話者の感情音声に変換することができる。
One aspect of the present invention is the speech processing device described above, wherein the acoustic feature amount is a feature amount related to a frequency spectrum.
According to this invention, the speech processing apparatus uses a feature quantity related to a frequency spectrum obtained from a speech waveform as an acoustic feature quantity.
Thereby, the speech processing apparatus can convert the voice quality of the arbitrary utterance of the conversion target speaker and convert it into emotional speech of the conversion target speaker.
本発明の一態様は、コンピュータを、変換対象話者の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析手段と、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第一変換手段と、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第二変換手段と、フレーム単位で、前記第二変換手段が変換により得た前記音響特徴量について、前記第一変換手段が変換により得た前記音響特徴量に対する差分を算出する差分取得手段と、フレーム単位で、前記音声分析手段が取得した前記音響特徴量に、前記差分取得手段が算出した差分を加算する加工手段と、を具備する音声加工装置として機能させるためのプログラムである。 According to one aspect of the present invention, the computer analyzes the speech data of the conversion target speaker to acquire the acoustic feature amount of each frame, and the acoustic feature amount of the quiet speech of the conversion target speaker is referred to. A first conversion means for converting the acoustic feature value of each frame acquired by the speech analysis means using a first conversion rule for conversion into an acoustic feature value of a person's calm voice; Second conversion means for converting the acoustic feature quantity of each frame acquired by the voice analysis means using a second conversion rule for converting the acoustic feature quantity of the speech into the acoustic feature quantity of the emotional speech of the reference speaker And, for each acoustic feature obtained by the conversion by the second conversion means in frame units, difference obtaining means for calculating a difference with respect to the acoustic feature quantity obtained by the conversion by the first conversion means, and in frame units, The voice Said acoustic features analysis means obtains a program for functioning as a voice processing apparatus comprising, a processing means for adding the difference to the difference obtaining means has calculated.
本発明によれば、コストを低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。 ADVANTAGE OF THE INVENTION According to this invention, the quiet voice of the arbitrary utterances of the arbitrary speaker who has not prepared emotion voice beforehand can be processed into emotion voice, reducing cost.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による音声加工装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置1は、1台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置1を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、1つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置1は、学習用音声分析部11と、変換規則学習部12と、変換規則記憶部13と、音声分析部14と、スペクトル変換部15と、音声合成部16とを備えて構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a functional block diagram showing a configuration of a sound processing apparatus 1 according to an embodiment of the present invention, and only functional blocks related to the present embodiment are extracted and shown. The voice processing device 1 is realized by one or a plurality of computer devices. When the sound processing device 1 is realized by a plurality of computer devices, which functional unit is realized by which computer device can be arbitrarily determined. One functional unit may be realized by a plurality of computer devices. As shown in the figure, the speech processing apparatus 1 includes a learning
学習用音声分析部11は、学習用音声データが示す音声波形を分析し、所定のフレームシフト及びフレーム長により、フレーム単位の音響特徴量を取得する。音響特徴量には、周波数スペクトルに関する特徴量を用いることができる。本実施形態では、音響特徴量として、音声波形の周波数スペクトルから得られる50次元のスペクトルパラメータ(例えば、メルケプストラム)を用いる。音声波形から周波数スペクトルを取得する方法や、周波数スペクトルに関する特徴量を取得する方法には、任意の従来技術を用いることができる。学習用音声データは、同じ発話内容の変換対象話者の学習用平静音声データ(第一音声データ)と、参照話者の学習用平静音声データ(第二音声データ)及び学習用感情音声データ(第三音声データ)である。変換対象話者は、任意発話の平静音声の音声データを感情音声の音声データに変換する対象の話者であり、参照話者は、学習用の音声データを提供する、変換対象話者とは異なる話者である。学習用平静音声データは、学習用の平静音声の音声データであり、学習用感情音声データは、学習用の感情音声の音声データである。また、平静音声は、感情が込められていない音声であり、感情音声は、感情が込められた音声である。参照話者の学習用感情音声データは、変換対象話者の任意発話の平静音声に対して付加したい感情が込められた音声である。
The learning
変換規則学習部12は、学習用音声分析部11が取得した変換対象話者の学習用平静音声データの音響特徴量と、参照話者の学習用平静音声データの音響特徴量とに基づいて第一変換規則を取得する。第一変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための規則である。また、変換規則学習部12は、学習用音声分析部11が取得した変換対象話者の学習用平静音声データの音響特徴量と、参照話者の学習用感情音声データの音響特徴量とに基づいて第二変換規則を取得する。第二変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための規則である。
変換規則記憶部13は、変換規則学習部12が取得した第一変換規則及び第二変換規則を記憶する。
The conversion
The conversion
音声分析部14は、変換対象話者の変換対象音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得する。変換対象音声データは、変換対象話者の任意発話の平静音声の音声データである。
スペクトル変換部15は、変換対象話者の任意発話の平静音声のスペクトルを、感情音声のスペクトルに変換する。スペクトル変換部15は、第一変換部151、第二変換部152、差分取得部153、及び加工部154を備えて構成される。
第一変換部151は、音声分析部14が変換対象音声データから得た各フレームの音響特徴量を、変換規則記憶部13に記憶されている第一変換規則を用いて変換する。
第二変換部152は、音声分析部14が変換対象音声データから得た各フレームの音響特徴量を、変換規則記憶部13に記憶されている第二変換規則を用いて変換する。
差分取得部153は、フレーム単位で、第二変換部152が変換により得た音響特徴量について、第一変換部151が変換により得た音響特徴量に対する差分を算出する。
加工部154は、フレーム単位で、音声分析部14が取得した音響特徴量に、差分取得部153が算出した差分を加算する加工をする。
音声合成部16は、加工部154が加工して得たフレーム単位の音響特徴量に基づいて音声データを合成し、出力する。
The
The
The first conversion unit 151 converts the acoustic feature amount of each frame obtained from the conversion target audio data by the
The
The
The
The
なお、学習用音声分析部11、変換規則学習部12、及び、変換規則記憶部13を外部の装置が備え、事前に第一変換規則及び第二変換規則を学習して変換規則記憶部13に記憶しておき、必要な都度、第一変換部151、第二変換部152がそれぞれ、変換規則記憶部13から第一変換規則、第二変換規則を取り込むようにしてもよい。
Note that an external device includes the learning
図2は、音声加工装置1の変換規則学習処理を示す処理フローである。
まず、音声加工装置1に、同じ文章を読み上げた変換対象話者の学習用平静音声データと、参照話者の学習用平静音声データ及び学習用感情音声データとが入力される。この文章には、様々な音素と、その音素の様々な並びがバランスよく含まれる音素バランス文を用いることが望ましい。
FIG. 2 is a process flow showing the conversion rule learning process of the speech processing apparatus 1.
First, quiet speech data for learning of a conversion target speaker who has read out the same sentence, quiet speech data for learning and emotional speech data for learning of a reference speaker are input to the speech processing device 1. For this sentence, it is desirable to use a phoneme balance sentence including various phonemes and various arrangements of the phonemes in a balanced manner.
学習用音声分析部11は、変換対象話者の学習用平静音声データが示す音声波形を音響分析し、フレーム単位の音響特徴量を取得する(ステップS110)。同様に、学習用音声分析部11は、参照話者の学習用平静音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得し(ステップS120)、参照話者の学習用感情音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得する(ステップS130)。
The learning
変換規則学習部12は、変換対象話者の学習用平静音声データから得られた音響特徴量と、参照話者の学習用平静音声データから得られた音響特徴量とを、それらの値の類似性に基づいてフレーム単位で対応付ける(ステップS140)。変換規則学習部12は、対応付けられたフレームにおける変換対象話者の学習用平静音声データの音響特徴量及び参照話者の学習用平静音声データの音響特徴量に基づいて第一変換規則を算出する(ステップS150)。第一変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための関数である。この第一変換規則として得られた関数を、「第一変換関数」と記載する。変換規則学習部12は、算出した第一変換関数を変換規則記憶部13に書き込む。
The conversion
さらに、変換規則学習部12は、変換対象話者の学習用平静音声データから得られた音響特徴量と、参照話者の学習用感情音声データから得られた音響特徴量とを、それらの値の類似性に基づいてフレーム単位で対応付ける(ステップS160)。変換規則学習部12は、対応付けられたフレームにおける変換対象話者の学習用平静音声データの音響特徴量及び参照話者の学習用感情音声データの音響特徴量に基づいて第二変換規則を算出する(ステップS170)。第二変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための関数である。この第二変換規則として得られた関数を、「第二変換関数」と記載する。この第二変換関数には、第一変換関数と同様に算出される。変換規則学習部12は、算出した第二変換関数を変換規則記憶部13に書き込む。
Further, the conversion
なお、音声加工装置1は、ステップS110〜ステップS130の各処理を、並行して実行してもよく、任意の順番で実行してもよい。また、音声加工装置1は、ステップS140〜ステップS150の処理とステップS160〜ステップS170の処理とを、並行して実行してもよく、任意の順番で実行してもよい。 Note that the audio processing device 1 may execute the processes of steps S110 to S130 in parallel or in any order. In addition, the voice processing device 1 may execute the processes in steps S140 to S150 and the processes in steps S160 to S170 in parallel or in any order.
図3は、音声加工装置1の図2に示す変換規則学習処理を説明するための図である。
図2のステップS110において、学習用音声分析部11は、変換対象話者の学習用平静音声データからフレーム単位の音響特徴量A1、A2、A3、…を取得する。Ai(iは1以上の整数)は、変換対象話者の学習用平静音声データが示す音声波形から得られたi番目のフレームの音響特徴量である。
また、図2のステップS120において、学習用音声分析部11は、参照話者の学習用平静音声データからフレーム単位の音響特徴量B1、B2、B3、…を取得する。Bj(jは1以上の整数)は、参照話者の学習用平静音声データが示す音声波形から得られたj番目のフレームの音響特徴量である。
また、図2のステップS130において、学習用音声分析部11は、参照話者の学習用感情音声データからフレーム単位の音響特徴量C1、C2、C3、…を取得する。Ck(kは1以上の整数)は、参照話者の学習用感情音声データが示す音声波形から得られたk番目のフレームの音響特徴量である。
FIG. 3 is a diagram for explaining the conversion rule learning process shown in FIG.
In step S110 of FIG. 2, the learning
2, the learning
2, the learning
図2のステップS140において、変換規則学習部12は、音響特徴量A1、A2、A3、…と、音響特徴量B1、B2、B3、…とを、50次元のスペクトルパラメータによる距離尺度を用いて、動的計画法(DTW)などにより対応付ける。
図2のステップS150において、変換規則学習部12は、対応付けられた音響特徴量Aiと音響特徴量Bjの組から第一変換関数を算出する。この第一変換関数には、例えば、以下の参考文献1に記載の技術により算出される変換関数を用いることができる。この技術によれば、ある話者の音響特徴量と、他の話者の音響特徴量との結合確率密度をGMM(Gaussian Mixture Model、ガウス混合分布)で表現した確率モデルが変換関数として得られる。
In step S140 of FIG. 2, the conversion
In step S150 of FIG. 2, the conversion
(参考文献1)Tomoki Toda、外2名、"Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory"、IEEE Trans. ASLP、Vol.15、No.8、p.2222-2235、2007年 (Reference 1) Tomoki Toda, 2 others, "Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory", IEEE Trans. ASLP, Vol.15, No.8, p.2222-2235, 2007
図2のステップS160において、変換規則学習部12は、音響特徴量A1、A2、A3、…と、音響特徴量C1、C2、C3、…とを、ステップS140の処理と同様に、動的計画法(DTW)などにより対応付ける。図2のステップS170において、変換規則学習部12は、ステップS150の処理と同様に、対応付けられた音響特徴量Aiと音響特徴量Ckの組から第二変換規則を算出する。
In step S160 of FIG. 2, the conversion
図4は、音声加工装置1の音声加工処理を示す処理フローである。
音声加工装置1に、変換対象話者の任意発話の平静音声のデータである変換対象音声データが入力される。音声分析部14は、変換対象音声データが示す音声波形を音響分析し、フレーム単位の音響特徴量を取得する(ステップS210)。
FIG. 4 is a processing flow showing the voice processing of the voice processing device 1.
Conversion target speech data, which is quiet speech data of an arbitrary utterance of the conversion target speaker, is input to the speech processing apparatus 1. The
スペクトル変換部15の第一変換部151は、変換対象音声データから得られた各フレームの音響特徴量を、変換規則記憶部13に記憶されている第一変換関数により変換する(ステップS220)。これにより、既存技術の確率モデルによる声質変換を利用して、変換対象音声データから得られた各フレームの音響特徴量を表すスペクトルパラメータが、参照話者の平静音声の音響特徴量を表すスペクトルパラメータに変換される。
The first conversion unit 151 of the
第二変換部152は、変換対象音声データから得られた各フレームの音響特徴量を、変換規則記憶部13に記憶されている第二変換関数により変換する(ステップS230)。これにより、既存技術の確率モデルによる声質変換を利用して、変換対象音声データから得られた各フレームの音響特徴量を表すスペクトルパラメータが、参照話者の感情音声の音響特徴量を表すスペクトルパラメータに変換される。
The
差分取得部153は、第一変換部151が変換により得た参照話者の平静音声の音響特徴量と、第二変換部152が変換により得た参照話者の感情音声の音響特徴量とを、例えば、Cepstrum Mean Normalization(ケプストラム平均正規化)により正規化する(ステップS240)。差分取得部153は、フレーム単位で、正規化された参照話者の感情音声の音響特徴量について、正規化された参照話者の平静音声の音響特徴量に対する差分を算出する(ステップS250)。加工部154は、フレーム単位で、音声分析部14により取得した音響特徴量が示すスペクトルパラメータに、差分取得部153が算出した差分を加算することにより加工する(ステップS260)。音声合成部16は、加工部154が加工して得たフレーム単位の音響特徴量に基づいて音声データを合成し、出力する(ステップS270)。
The
なお、音声加工装置1は、ステップS220及びステップS230の処理を、並行して実行してもよく、任意の順番で実行してもよい。 Note that the voice processing device 1 may execute the processes of step S220 and step S230 in parallel or in any order.
図5は、音声加工装置1の音声加工処理における参照話者の音響特徴量への変換を説明するための図である。同図は、図4のステップS210〜ステップS230の処理を示す。
図4のステップS210において、音声分析部14は、変換対象音声データからフレーム単位の音響特徴量D1、D2、D3、…を取得する。Di(iは1以上の整数)は、変換対象音声データが示す音声波形から得られたi番目のフレームの音響特徴量である。
図4のステップS220において、第一変換部151は、音響特徴量D1、D2、D3、…のそれぞれを第一変換関数により変換し、参照話者の平静音声の音響特徴量E1、E2、E3、…を得る。音響特徴量Diから変換により、音響特徴量Eiが得られる。
図4のステップS230において、第二変換部152は、音響特徴量D1、D2、D3、…のそれぞれを第二変換関数により変換し、参照話者の感情音声の音響特徴量F1、F2、F3、…を得る。音響特徴量Diから変換により、音響特徴量Fiが得られる。
FIG. 5 is a diagram for explaining the conversion into the acoustic feature amount of the reference speaker in the voice processing process of the voice processing apparatus 1. This figure shows the processing of step S210 to step S230 of FIG.
In step S210 of FIG. 4, the
In step S220 of FIG. 4, the first conversion unit 151 converts each of the acoustic feature amounts D1, D2, D3,... Using the first conversion function, and the acoustic feature amounts E1, E2, E3 of the quiet speech of the reference speaker. Get ... An acoustic feature quantity Ei is obtained by conversion from the acoustic feature quantity Di.
In step S230 of FIG. 4, the
図6は、音声加工装置1の音声加工処理における音響特徴量の差分の取得を説明するための図である。同図は、図4のステップS240〜S250の処理を示す。
図4のステップS240において、差分取得部153は、変換対象音声データの音響特徴量を第一変換関数により変換して得た参照話者の平静音声の音響特徴量E1、E2、E3、…を正規化し、音響特徴量E1’、E2’、E3’、…を得る。さらに、差分取得部153は、変換対象音声データの音響特徴量を第二変換関数により変換して得た参照話者の感情音声の音響特徴量F1、F2、F3、…を正規化し、音響特徴量F1’、F2’、F3’、…を得る。図4のステップS250において、差分取得部153は、参照話者の感情音声の音響特徴量Fi’について、参照話者の平静音声の音響特徴量Ei’に対する差分Giを算出する。つまり、差分取得部153は、差分Gi=音響特徴量Fi’−音響特徴量Ei’を算出する。
FIG. 6 is a diagram for explaining the acquisition of the difference between the acoustic feature amounts in the voice processing process of the voice processing apparatus 1. This figure shows the processing of steps S240 to S250 of FIG.
In step S240 of FIG. 4, the
図7は、音声加工装置1の音声加工処理における変換対象話者の変換対象音声の音響特徴量の加工を説明するための図である。同図は、図4のステップS260の処理を示す。
図4のステップS260において、加工部154は、変換対象音声データの音響特徴量Diに、差分取得部153が算出した差分Giを加算し、変換対象話者の感情音声の音響特徴量Hiに加工する。つまり、加工部154は、音響特徴量Hi=音響特徴量Di+差分Giを算出する。図4のステップS270において、音声合成部16は、音響特徴量H1、H2、H3、…に基づいて音声データを合成し、出力する。
FIG. 7 is a diagram for explaining the processing of the acoustic feature amount of the conversion target speech of the conversion target speaker in the speech processing processing of the speech processing apparatus 1. This figure shows the process of step S260 of FIG.
In step S260 of FIG. 4, the
上述した実施形態によれば、音声加工装置1は、事前学習に、数十文の変換対象話者の平静音声と、参照話者の平静音声及び感情音声のパラレルデータを利用できればよい。従って、HMM音声合成のような音声データベースを利用する従来技術と比較して、事前学習のために必要なデータ数も少なく、学習のためのコストも低減することができる。また、複数の変換対象話者がいる場合でも、それぞれの変換対象話者について数十文の平静音声のデータのみがあればよく、事前の準備が容易である。また、学習に変換対象話者の感情音声が不要であるため、テキストデータから音声合成された音声データを、変換対象話者の音声データとして用いることができる。 According to the above-described embodiment, the speech processing device 1 only needs to be able to use the parallel data of the quiet speech of the conversion target speaker of several tens of sentences and the calm speech and emotional speech of the reference speaker for the prior learning. Therefore, compared with the prior art using a speech database such as HMM speech synthesis, the number of data required for prior learning is less and the cost for learning can be reduced. Further, even when there are a plurality of conversion target speakers, it is only necessary to have several tens of sentences of calm voice data for each conversion target speaker, and advance preparation is easy. Further, since the emotional voice of the conversion target speaker is not necessary for learning, the voice data synthesized from the text data can be used as the voice data of the conversion target speaker.
また、上述した実施形態によれば、音声加工装置1は、事前学習に得られた変換規則を利用して、変換対象話者の任意発話の平静音声のスペクトルを参照話者の平静音声のスペクトル及び感情音声のスペクトルに加工し、それらの差分をフレーム毎に算出する。音声加工装置1は、フレーム毎に、変換対象話者の任意発話の平静音声のスペクトルに、算出した差分を加算して、変換対象話者の感情音声のスペクトルを得る。変換対象話者の任意発話の平静音声から得られたスペクトルのフレームと、加算すべき差分のフレームとは、時刻順に1対1で対応しているため、フレーム間の対応付けなどの処理を行う必要なく、簡易な処理により加工を行うことができる。このように、音声加工装置1は、変換対象話者の任意発話の平静音声のスペクトルに、参照話者の感情音声のスペクトルの特徴を付与し、変換対象話者の平静音声の声質を感情表現の声質に変換することができる。 Further, according to the above-described embodiment, the speech processing apparatus 1 uses the conversion rule obtained in the prior learning to convert the spectrum of the quiet speech of the utterance of the conversion target speaker into the spectrum of the quiet speech of the reference speaker. And the emotional speech spectrum, and the difference between them is calculated for each frame. The speech processing apparatus 1 adds the calculated difference to the spectrum of the quiet speech of the arbitrary speech of the conversion target speaker for each frame to obtain the spectrum of the emotional speech of the conversion target speaker. The spectrum frame obtained from the quiet speech of the arbitrary utterance of the conversion target speaker and the difference frame to be added correspond one-to-one in order of time, and therefore processing such as association between frames is performed. It is not necessary and can be processed by simple processing. As described above, the speech processing apparatus 1 adds the characteristics of the spectrum of the emotional speech of the reference speaker to the spectrum of the quiet speech of the arbitrary speech of the conversion target speaker, and expresses the voice quality of the quiet speech of the conversion target speaker as an emotional expression. Can be converted to voice quality.
なお、上述の音声加工装置1は、内部にコンピュータシステムを有している。そして、音声加工装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。 Note that the above-described speech processing apparatus 1 has a computer system therein. The operation process of the sound processing apparatus 1 is stored in a computer-readable recording medium in the form of a program, and the above processing is performed by the computer system reading and executing this program. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1 音声加工装置
11 学習用音声分析部
12 変換規則学習部
13 変換規則記憶部
14 音声分析部
15 スペクトル変換部
151 第一変換部
152 第二変換部
153 差分取得部
154 加工部
16 音声合成部
DESCRIPTION OF SYMBOLS 1
Claims (5)
変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第一変換部と、
変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第二変換部と、
フレーム単位で、前記第二変換部が変換により得た前記音響特徴量について、前記第一変換部が変換により得た前記音響特徴量に対する差分を算出する差分取得部と、
フレーム単位で、前記音声分析部が取得した前記音響特徴量に、前記差分取得部が算出した差分を加算する加工部と、
を備えることを特徴とする音声加工装置。 A voice analysis unit for acoustically analyzing the voice data of the quiet voice of the conversion target speaker and obtaining an acoustic feature amount in units of frames;
Using the first conversion rule for converting the acoustic feature amount of the quiet speech of the conversion target speaker into the acoustic feature amount of the quiet speech of the reference speaker, the acoustic feature amount of each frame acquired by the speech analysis unit is used. A first conversion unit for conversion;
Using the second conversion rule for converting the acoustic feature amount of the quiet speech of the conversion target speaker into the acoustic feature amount of the emotional speech of the reference speaker, the acoustic feature amount of each frame acquired by the speech analysis unit A second conversion unit for conversion;
A difference acquisition unit that calculates a difference with respect to the acoustic feature value obtained by the conversion by the first conversion unit for the acoustic feature value obtained by the conversion by the second conversion unit in units of frames;
A processing unit that adds the difference calculated by the difference acquisition unit to the acoustic feature amount acquired by the voice analysis unit in units of frames;
An audio processing apparatus comprising:
ことを特徴とする請求項1に記載の音声加工装置。 The difference acquisition unit calculates the difference in units of frames after normalizing the acoustic feature amount obtained by the conversion by the first conversion unit and the acoustic feature amount obtained by the conversion by the second conversion unit.
The speech processing apparatus according to claim 1.
ことを特徴とする請求項1または請求項2に記載の音声加工装置。 The first voice data which is the quiet voice data for learning of the conversion target speaker and the second voice data which is the quiet voice data for learning of the reference speaker having the same utterance content as the first voice data. Based on the first conversion rule, the first voice data, and the third voice data that is emotion voice data for learning the reference speaker having the same utterance content as the first voice data. A conversion rule learning unit that performs processing for obtaining the second conversion rule based on
The speech processing apparatus according to claim 1 or 2, wherein
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声加工装置。 The acoustic feature amount is a feature amount related to a frequency spectrum.
The sound processing device according to claim 1, wherein the sound processing device is a sound processing device.
変換対象話者の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析手段と、
変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第一変換手段と、
変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第二変換手段と、
フレーム単位で、前記第二変換手段が変換により得た前記音響特徴量について、前記第一変換手段が変換により得た前記音響特徴量に対する差分を算出する差分取得手段と、
フレーム単位で、前記音声分析手段が取得した前記音響特徴量に、前記差分取得手段が算出した差分を加算する加工手段と、
を具備する音声加工装置として機能させるためのプログラム。 Computer
A voice analysis means for acoustically analyzing voice data of the speaker to be converted to obtain acoustic features in units of frames;
Using the first conversion rule for converting the acoustic feature amount of the quiet speech of the conversion target speaker into the acoustic feature amount of the quiet speech of the reference speaker, the acoustic feature amount of each frame acquired by the speech analysis means First converting means for converting;
Using the second conversion rule for converting the acoustic feature amount of the quiet speech of the conversion target speaker into the acoustic feature amount of the emotional speech of the reference speaker, the acoustic feature amount of each frame acquired by the speech analysis means A second converting means for converting;
Difference acquisition means for calculating a difference with respect to the acoustic feature value obtained by the conversion by the first conversion means for the acoustic feature value obtained by the conversion by the second conversion means in frame units;
Processing means for adding the difference calculated by the difference acquisition means to the acoustic feature quantity acquired by the voice analysis means in frame units;
A program for causing a voice processing apparatus to function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015029995A JP6470586B2 (en) | 2015-02-18 | 2015-02-18 | Audio processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015029995A JP6470586B2 (en) | 2015-02-18 | 2015-02-18 | Audio processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016151715A JP2016151715A (en) | 2016-08-22 |
JP6470586B2 true JP6470586B2 (en) | 2019-02-13 |
Family
ID=56695406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015029995A Active JP6470586B2 (en) | 2015-02-18 | 2015-02-18 | Audio processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6470586B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4241736B2 (en) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | Speech processing apparatus and method |
JP4996156B2 (en) * | 2006-07-19 | 2012-08-08 | 旭化成株式会社 | Audio signal converter |
JP2009157220A (en) * | 2007-12-27 | 2009-07-16 | Hitachi Ltd | Voice editing composite system, voice editing composite program, and voice editing composite method |
JP5038995B2 (en) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | Voice quality conversion apparatus and method, speech synthesis apparatus and method |
JP5846043B2 (en) * | 2012-05-18 | 2016-01-20 | ヤマハ株式会社 | Audio processing device |
-
2015
- 2015-02-18 JP JP2015029995A patent/JP6470586B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016151715A (en) | 2016-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106680B2 (en) | Text-to-Speech Synthesis in Target Speaker's Voice Using Neural Networks | |
Lung et al. | Fuzzy phoneme classification using multi-speaker vocal tract length normalization | |
CN105489221B (en) | A kind of audio recognition method and device | |
WO2019214047A1 (en) | Method and apparatus for establishing voice print model, computer device, and storage medium | |
CN105593936B (en) | System and method for text-to-speech performance evaluation | |
CN111899719A (en) | Method, apparatus, device and medium for generating audio | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
JP2017058674A (en) | Apparatus and method for speech recognition, apparatus and method for training transformation parameter, computer program and electronic apparatus | |
JP2015180966A (en) | Speech processing system | |
Thakur et al. | Speech recognition using euclidean distance | |
US20230206897A1 (en) | Electronic apparatus and method for controlling thereof | |
JP2015040903A (en) | Voice processor, voice processing method and program | |
JP6764851B2 (en) | Series data converter, learning device, and program | |
JP2024508033A (en) | Instant learning of text-speech during dialogue | |
CN112185342A (en) | Voice conversion and model training method, device and system and storage medium | |
JP2016151736A (en) | Speech processing device and program | |
JP2018084604A (en) | Cross lingual voice synthesis model learning device, cross lingual voice synthesis device, cross lingual voice synthesis model learning method, and program | |
Yu et al. | A study of voice production characteristics of astronuat speech during Apollo 11 for speaker modeling in space | |
JP2021157145A (en) | Inference device and learning method of inference device | |
CN112885326A (en) | Method and device for creating personalized speech synthesis model, method and device for synthesizing and testing speech | |
JP6470586B2 (en) | Audio processing apparatus and program | |
JP2020013008A (en) | Voice processing device, voice processing program, and voice processing method | |
JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
JP5949634B2 (en) | Speech synthesis system and speech synthesis method | |
JP2017203963A (en) | Voice processing device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180104 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181213 |
|
TRDD | Decision of grant or rejection written | ||
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20181130 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6470586 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |