JP2009109805A

JP2009109805A - 音声処理装置及びその方法

Info

Publication number: JP2009109805A
Application number: JP2007282944A
Authority: JP
Inventors: Takeshi Hirabayashi; 剛平林; Dawei Xu; 大威徐; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-10-31
Filing date: 2007-10-31
Publication date: 2009-05-21
Also published as: CN101425291A; US20090112580A1

Abstract

【課題】音声波形を重ね合わせるときに、接続部分におけるスペクトル変化の不連続を低減する音声処理装置を提供することを目的とする。
【解決手段】第１の音声波形と第２の音声波形とを、複数の周波数帯域にそれぞれ分割して、周波数帯域毎の成分である第１の帯域音声波形と第２の帯域音声波形をそれぞれ生成し、第１の帯域音声波形と第２の帯域音声波形の相互相関が高くなるように第１の帯域音声波形と第２の帯域音声波形の重畳位置を周波数帯域毎に決定し、第１の帯域音声波形と第２の帯域音声波形を、重畳位置に基づいて周波数帯域毎に重ね合わせると共に、全周波数帯域について統合して接続音声波形を生成する。
【選択図】図１

Description

本発明は、テキスト音声合成に係り、特に音声素片を接続して合成音声を生成するときの音声処理装置、及び、その方法に関するものである。

近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の３つのモジュールから構成される。

入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律生成部においてリズムやイントネーションが生成され、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）が出力される。最後に音声信号生成部で音韻系列・韻律情報から音声信号を生成することで、入力テキストに対する合成音声を生成する。

ここで、音声信号生成部（いわゆる音声合成器）としては、複数の音声素片（音声波形の断片）が格納された音声素片辞書から、音韻系列・韻律情報に基づいて音声素片を選択し、選択された音声素片を接続することによって所望の音声を生成する、図２のような素片接続型（素片重畳型）のものがよく知られている。

この素片接続型音声合成器では、通常、音声素片の接続部分でスペクトルを滑らかに変化させるために、図１７（ｂ）のように、接続する複数の音声素片の一部、または全てを重み付けして時間軸方向に重ね合わせる。ところが、接続するそれぞれの音声素片波形の位相が異なる場合には、単純に重ね合わせただけでは中間的なスペクトルを生成することができず、スペクトルの変化が不連続となり接続歪が生じてしまう。

そこで、従来は音声素片間の位相の差による歪を小さくするために、接続部分において重ね合わせる複数の音声素片に対してそのまま相互相関を計算し、この相関が高くなるように音声素片の重ね合わせる位置をシフトさせる方法が用いられている。図１８に、音声素片の有声部分をピッチ波形単位に分解し、このピッチ波形を接続部分で重ね合わせる場合の一例を示す。（ａ）が位相差を考慮しない場合で、（ｂ）が位相差を考慮して重ね合わせる２つのピッチ波形の相関が最大となるようにシフトさせる方法の例である。

また、予め元の音声波形に位相等化（直線位相成分を除いた零位相化）を施した位相等化音声を用いて接続することによって、位相の違いから生じる音声波形の形状の違いによる接続歪を軽減した合成音声を得る方法も提案されている（例えば、特許文献１参照）。
特開平８−３３５０９５号公報

しかしながら、上記従来方法には以下のような問題点がある。

重ね合わせる複数の音声素片に対してそのまま相互相関を計算し、相関が高くなるように重畳位置をシフトさせる方法では、パワーの比較的大きい低周波数帯域の位相は揃うが、パワーの小さい中〜高周波数帯域成分の位相のズレは補正されないため、部分的に位相が打ち消しあって、一部の周波数帯域成分が減衰することにより、接続部分におけるスペクトル変化に不連続が生じ、生成される合成音の明瞭性や自然性が劣化していた。

例えば、図８に示すピッチ波形Ａとピッチ波形Ｂを接続部分で重ね合わせる場合を考える。ピッチ波形Ａとピッチ波形Ｂは、各々のパワースペクトルは２つのピークを持ち、そのスペクトル形状は類似しているが、低周波数帯域の位相特性が異なっている。このピッチ波形Ａとピッチ波形Ｂに対してそのまま相互相関を計算し、相関が高くなるようにシフトすると、比較的パワーの大きい低域の位相が揃うようにシフトすることとなり、高域の位相は逆にずれてしまう。そのため、重ね合わせたピッチ波形から高周波数成分が失われ、（ａ）の従来手法ではピッチ波形Ａとピッチ波形Ｂの中間的なスペクトルを持つ波形を生成することができず、接続部分で滑らかに変化する合成音声を得ることができない。

一方、零位相化や位相等化処理などによって、音声波形の元の位相情報を削って強制的に位相を揃えた場合には、有声音であっても、特に、高周波成分を多く含む有声破擦音などでは零位相特有の鼻づまり感などが耳につき、音質の劣化が無視できないという問題点がある。

そこで本発明は、上記問題点に鑑み、接続部で音声波形を重ね合わせるときに、接続部分におけるスペクトル変化の不連続を低減する音声処理装置を提供することを目的とする。

本発明は、第１の音声素片の一部である第１の音声波形と第２の音声素片の一部である第２の音声波形とを重ね合わせることにより、前記第１の音声素片と前記第２の音声素片とを接続する音声処理装置において、前記第１の音声波形と前記第２の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第１の帯域音声波形と第２の帯域音声波形をそれぞれ生成する分割部と、前記第１の帯域音声波形と前記第２の帯域音声波形の相互相関が高くなるように、または、前記第１の帯域音声波形と前記第２の帯域音声波形の位相スペクトルの差が小さくなるように、前記第１の帯域音声波形と前記第２の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定部と、前記第１の帯域音声波形と前記第２の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合部と、を有する音声処理装置である。

また、本発明は、複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第１の辞書と、前記各音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割部と、前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を生成する基準波形生成部と、前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正部と、前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成部と、を有する音声処理装置である。

本発明によれば、接続部で重ね合わせる音声波形間の位相のズレを全周波数帯域で小さくすることができ、その結果、接続部分におけるスペクトル変化の不連続が低減し、明瞭で自然な合成音を生成できる。

また、本発明によれば、音声波形辞書を作成するときに、音声波形間の位相のズレが全周波数帯域で小さくなっていることになり、オンラインでの処理量の増加なしに、明瞭で滑らかな合成音を生成できる。

以下、図面を参照して本発明の実施形態を詳細に説明する。

（第１の実施形態）
以下、本発明の第１の実施形態の音声処理装置である素片接続型音声合成器について図１〜図８に基づいて説明する。

（１）素片接続型音声合成器の構成
図２に、本実施形態に係る素片接続型音声合成器の構成例を示す。

素片接続型音声合成器は、音声素片辞書２０、音声素片選択部２１、音声素片変形・接続部分２２により構成される。

以上の各部２０，２１，２２の機能は、ハードウェアとしても実現可能である。また、本実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に格納して、もしくはネットワークを介して頒布することもできる。さらに、以上の各機能は、ソフトウェアとして記述し、適当な機構をもったコンピュータ装置に処理させても実現できる。

音声素片辞書２０には、合成音声を生成するときに用いる音声の単位（合成単位）の大量の音声素片が格納されている。合成単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素、ダイフォン、トライフォン、音節などであり、これらが混在しているなど可変長であってもよい。また音声素片は、合成単位に対応する音声信号波形、もしくはその特徴を表すパラメータ系列などである。

音声素片選択部２１は、入力音韻系列を合成単位で区切ることによって得られる複数のセグメントのそれぞれに対し、入力される音韻系列・韻律情報１００を基に、音声素片辞書２０に格納されている音声素片の中から適切な音声素片１０１を選択する。韻律情報には、例えば、声の高さの変化パターンであるピッチパターンや、音韻継続時間長などの情報が含まれる。

音声素片変形・接続部分２２は、音声素片選択部２において選択された音声素片１０１を、入力韻律情報に基づいて変形及び接続し、合成音声波形１０２を出力する。

（２）音声素片変形・接続部分２２の処理
図３は、音声素片変形・接続部分２２における処理の流れを示すフローチャートである。なお、ここでは、各音声素片からピッチ波形を切り出し、このピッチ波形を時間軸上に重畳することによって合成音声波形を生成する場合を例にとって説明する。また、図４にこの処理内容の模式図を示す。

ここで、「ピッチ波形」とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものを意味する。

まず、音韻系列・韻律情報から図４に示されるようなターゲットピッチマーク２３１を生成する。ターゲットピッチマーク２３１は、合成音声波形を生成するためにピッチ波形を時間軸上に重畳する位置を表すものであり、ピッチマークの間隔がピッチ周期に対応する（Ｓ２２１）。

次に、音声素片を滑らかに接続するため、先行音声素片と後続音声素片とを重ね合わせて接続する接続区間２３２を決定する（Ｓ２２２）。

次に、各ターゲットピッチマーク２３１に重畳するピッチ波形２３３を、音声素片選択部２１で選択された音声素片１０１から切り出し、かつ必要に応じて重畳する際の重みづけを考慮してパワーを変化させるなどの処理を行って変形することによって生成する（Ｓ２２３）。

ここで、音声素片１０１は音声波形１１１と基準点系列１１２の情報を含むものとし、基準点は、音声素片の有声音部分では音声波形上に周期的に現れるピッチ波形毎に与えられているもので、無声音部分では一定時毎などに予め与えられたものであるとする。なお、この基準点は、様々な既存のピッチ抽出方法やピッチマーク付与手法などを用いて自動的に設定されたものでもよいし、人手で付与されたものであってもよく、有声音部分ではピッチ波形の例えば立ち上がり点やピーク点などに付与されているピッチに同期した点であるとする。ピッチ波形を切り出すときには、例えば、音声素片に付与されているこの基準点を中心に、ピッチ周期の２倍程度の窓長を持つ窓関数２３４を適用するなどの方法を用いればよい。

次に、当該ターゲットピッチマークが接続区間内の場合は、先行音声素片から切り出したピッチ波形と後続音声素片から切り出したピッチ波形とから接続区間用のピッチ波形２３５を生成する（Ｓ２２５）。

最後に当該ターゲットピッチマークに対してピッチ波形を重畳する（Ｓ２２６）。

以上の動作を全てのターゲットピッチマークに対して終了するまで繰り返すことにより、合成音声波形１０２を出力する（Ｓ２２７）。

（３）接続区間波形生成部１の概要
以下では、本実施形態の特徴部分であって、音声素片変形・接続部分２２の一部である、接続区間波形生成部１に関する構成や処理動作を中心にさらに詳しく説明する。

接続区間波形生成部１は、複数のピッチ波形を重ね合わせることによって、接続区間部分に重畳するためのピッチ波形２３５を生成する処理（Ｓ２２５）を行う部分である。

なお、ここでは、有声音部分に対して、先行音声素片と後続音声素片とを接続するために、接続区間内のあるターゲットピッチマークに重畳する接続区間波形をピッチ波形単位で生成する場合を例にとって説明する。

（４）接続区間波形生成部１の構成
図１に、接続区間波形生成部１の構成例を示す。

接続区間波形生成部１は、帯域分割部１０、相互相関計算部１１、帯域ピッチ波形重畳部１２、帯域統合部１３から構成される。

（４−１）帯域分割部１０
帯域分割部１０は、接続区間で重ね合わせる先行音声素片から抽出されたピッチ波形１２０、及び、後続音声素片から抽出されたピッチ波形１３０を複数の周波数帯域に分割し、それぞれの帯域ピッチ波形１２１、１２２、１３１、１３２を生成する。

ここでは、高域通過フィルタと低域通過フィルタを用いて、高周波数帯域と低周波数帯域の２つの帯域に分割する場合を例にとって説明する。

（４−２）相互相関計算部１１
相互相関計算部１１は、各帯域について、重ね合わせるピッチ波形のそれぞれから生成された帯域ピッチ波形の相互相関を計算し、ある探索範囲内において相互相関係数が最大となるような帯域毎の重畳位置１４０及び１５０を決定する。

（４−３）帯域ピッチ波形重畳部１２
帯域ピッチ波形重畳部１２は、各帯域について、相互相関計算部１１で決定された重畳位置１４０または１５０に従って、帯域ピッチ波形を重ね合わせ、重ね合わせるピッチ波形の帯域毎の成分を重畳したものである帯域重畳ピッチ波形１４１及び１５１を出力する。

（４−４）帯域統合部１３
帯域統合部１３は、帯域毎に重畳された帯域重畳ピッチ波形１４１及び１５１を統合し、接続区間内のあるターゲットピッチマークに重畳するための接続区間用ピッチ波形２３５を出力する。

（５）接続区間波形生成部１の処理
次に、図５の接続区間波形生成部１における処理の流れを示すフローチャートを用いて、接続区間波形生成部１の各処理について詳しく説明する。

（５−１）ステップＳ１
まず、ステップＳ１において、帯域分割部１０は、先行音声素片から抽出されたピッチ波形１２０、及び、後続音声素片から抽出されたピッチ波形１３０をそれぞれ複数の周波数帯域に分割し、帯域ピッチ波形を生成する。

ここでは、高周波数帯域と低周波数帯域の２つの帯域に分割する場合を例にとっているため、低域通過フィルタを用いてピッチ波形１２０及びピッチ波形１３０から低周波数帯域成分を抽出して、低域ピッチ波形１２１と１３１がそれぞれ生成されると共に、高域通過フィルタを用いてピッチ波形１２０及びピッチ波形１３０から高周波数帯域成分を抽出して高域ピッチ波形１２２と１３２がそれぞれ生成される。

図６に、低域通過フィルタ及び高域通過フィルタの周波数特性を示す。また、図７には、ピッチ波形（ａ）とそれに対応する低域ピッチ波形（ｂ）及び高域ピッチ波形（ｃ）の例を示す。

以上のように、ピッチ波形１２０及び１３０から帯域ピッチ波形１２１、１２２、１３１、１３２をそれぞれ生成し、次に図５のステップＳ２へ進む。

（５−２）ステップＳ２
次に、ステップＳ２において、相互相関計算部１１は、各帯域において、重ね合わせる行音声素片と後続音声素片とから生成されたそれぞれの帯域ピッチ波形の相互相関を計算し、相互相関が最も高くなるような帯域毎の重畳位置１４０、及び、１５０を決定する。

つまり、低周波数帯域と高周波数帯域のそれぞれの帯域ピッチ波形に対して、帯域毎にそれぞれ別々に相互相関を計算し、重ね合わせる２つの音声素片からの帯域ピッチ波形の相互相関が高くなるように、すなわち帯域毎の位相のズレが小さくなるように重畳位置を決定する。

一例として、ある帯域について、先行音声素片から生成された帯域ピッチ波形の基準点に対して、後続音声素片から生成された帯域ピッチ波形の基準点の適切なシフト幅を算出することで、重畳位置を決定する場合は、

をより大きくするｋを算出すればよい。ここで、ｐｘ（ｔ）は先行音声素片の帯域ピッチ波形信号、ｐｙ（ｔ）は後続音声素片の帯域ピッチ波形信号、Ｎは相互相関を計算する帯域ピッチ波形の長さ、Ｋは重畳位置を探索する範囲を決めるための最大シフト幅である。

以上のように、帯域ピッチ波形同士の相互相関を計算し、各帯域について重ね合わせる際の位相のズレが小さくなる重畳位置１４０及び１５０を出力し、次に図５のステップＳ３へ進む。

（５−３）ステップＳ３
次に、ステップＳ３において、帯域ピッチ波形重畳部１２は、各帯域において、相互相関計算部１１で決定された重畳位置１４０または１５０に従って、帯域ピッチ波形１２１と１３１、または１２２と１３２とを重ね合わせ、接続区間のピッチ波形の帯域毎の成分を重ね合わせた波形である帯域重畳ピッチ波形１４１及び１５１を出力する。

すなわち、低周波数帯域の帯域重畳ピッチ波形１４１を帯域ピッチ波形１２１と１３１とを重畳位置１４０に従って重ね合わせることによって生成し、高周波数帯域については帯域ピッチ波形１２２と１３２とを重畳位置１５０に従って重ね合わせることによって帯域重畳ピッチ波形１５１を生成する。

これにより、各帯域において、重ね合わせるピッチ波形の位相差による歪の小さい、中間的なスペクトルを持つ帯域重畳ピッチ波形を得ることができる。

以上のように、各帯域について、接続区間用に複数の音声素片を重ね合わせた波形である帯域重畳ピッチ波形１４１、及び、１５１を出力し、次に図５のステップＳ４へ進む。

（５−４）ステップＳ４
次に、ステップＳ４において、帯域統合部１３は、低周波数帯域の帯域重畳ピッチ波形１４１と高周波数帯域の帯域重畳ピッチ波形１５１とを統合し、接続区間内のあるターゲットピッチマークに重畳するための接続区間用ピッチ波形２３５を出力する。

（６）効果
以上説明したように、本実施形態によれば、音声素片の接続区間において複数のピッチ波形を重ね合わせる場合に、帯域分割部１０で重ね合わせるそれぞれのピッチ波形を複数の周波数帯域に分割し、相互相関計算部１１及び帯域ピッチ波形重畳部１２によって帯域毎に位相合わせを行うことで、接続部分で用いる音声素片間の位相のズレを、全周波数帯域において小さくすることが可能となる。

すなわち、接続区間用のピッチ波形を生成するときに、従来の図８（ａ）のように全周波数帯域に対してそのまま相互相関を計算する場合と比較して、本実施形態の動作を模式的に示した図８（ｂ）では、各帯域に分割した波形に対して、それぞれ相互相関が高くなるように重畳位置を決定するため、低周波数帯域と高周波数帯域のそれぞれに対して位相のズレが小さくなり、接続区間用に先行音声素片と後続音声素片との中間的なスペクトルを持つ位相差による歪の小さい波形を生成することができる。

この波形を用いることで接続部分におけるスペクトル変化の不連続が低減し、また、零位相化などの処理によって位相を揃える場合と異なり、位相情報の欠落による音質の劣化が生じないため、結果として、生成される合成音声の明瞭性や自然性を向上させることができる。

（７）変更例
（７−１）変更例１
上記の第１の実施形態では、接続区間においては、接続区間用のピッチ波形を予め生成し、それをターゲットピッチマークに重畳するという構成としたが、これに限定されるものではない。

例えば、先行音声素片からのピッチ波形を先にターゲットピッチマークに対して重畳しておき、接続区間において後続音声素片からのピッチ波形を先行音声素片からのピッチ波形に重ね合わせるときに、各帯域について、ターゲットピッチマークの周辺に対して相互相関が高くなるように重畳位置をシフトさせてもよい。

（７−２）変更例２
また、上記の第１の実施形態では、音声素片からピッチ波形を切り出すという構成としたが、これに限定されるものではない。

例えば、音声素片辞書２０に格納されている有声音の音声素片が１つ以上のピッチ波形から構成されている場合は、図３のステップＳ２３３で選択された音声素片からピッチ波形を切り出す代わりに、当該ターゲットピッチマークに重畳するピッチ波形を音声素片内から選択し、必要に応じてパワーを変化させるなどの処理を行って変形することでピッチ波形を生成すればよく、以降の処理は上記の実施形態と同様に適用することができる。

なお、音声素片として保持するピッチ波形は、音声波形に窓関数を適用して切り出したそのままの波形に限定されるものではなく、切り出した後に様々な変形や加工を行ったものであってもよい。

（７−３）変更例３
上記の第１の実施形態では、重畳する際の重みづけなどを考慮してパワーを変化させるなどの変形を行った（Ｓ２２３）ピッチ波形に対して、帯域分割や相互相関計算などの処理を行うとしたが、この処理手順はこれに限定されるものではない。

例えば、帯域分割（Ｓ１）や相互相関計算（Ｓ２）などの処理は、音声素片から切り出しただけのピッチ波形に対して行い、帯域ピッチ波形を重ね合わせる際（Ｓ３）に、それぞれのピッチ波形に対する重みを適用しても同等の効果を得ることができる。

（第２の実施形態）
以下、本発明の第２の実施形態の音声合成装置である素片接続型音声合成器について図９〜図１０に基づいて説明する。

第２の実施形態は、音声素片をピッチ波形に分解することなく、そのまま接続して合成音声波形を生成する場合において、複数の音声素片を時間軸方向に重ね合わせるときに互いの位相のズレを小さくすることを特徴とする。

つまり、図２の音声素片変形・接続部分２２は、音声素片選択部２において選択された音声素片１０１をピッチ波形に分解せずに、必要に応じて入力韻律情報に基づく変形や重畳する際の重み付けなどを考慮してパワーを変化させるような変形を行い、接続区間においては複数の音声素片の一部または全てを重ね合わせて接続することで、合成音声波形１０２を出力する。

以下では、図９に示すように、この接続区間において先行音声素片と後続音声素片とを重ね合わせる際の処理を中心に説明する。その他の処理は、第１の実施形態と同様であり、詳細な説明は省略する。

（１）接続区間波形生成部１の構成
図１０に、本実施形態に係る接続区間波形生成部１の構成例を示す。

基本的な処理の内容や流れについては、第１の実施形態と同様であるが、入力がピッチ波形ではなく音声素片波形であり、帯域分割部１０や相互相関計算部１１、帯域波形重畳部１４、帯域統合部１３の各処理でも音声素片波形を扱うという部分が異なる。なお、ここでは、先行音声素片１６０と後続音声素片１７０とを接続するという場合を例にとって説明する。

（１−１）帯域分割部１０
帯域分割部１０では、先行音声素片１６０と後続音声素片１７０とを低周波数帯域と高周波数帯域の２つの周波数帯域に分割し、それぞれの帯域音声素片１６１、１６２、１７１、１７２を生成する。

（１−２）相互相関計算部１１
相互相関計算部１１は、低域と高域のそれぞれの帯域音声素片に対して、帯域毎にそれぞれ別々に相互相関を計算し、重ね合わせる２つの音声素片からの帯域音声素片の相互相関が高くなるように、すなわち帯域毎の位相のズレが小さくなるように重畳位置１４０及び１５０を決定する。

例えば、先行音声素片の後半部分と後続音声素片の前半部分とを接続部分で重ね合わせる場合には、低域については、先行音声素片からの帯域音声素片１６１の後半部分の音声波形に対して、後続音声素片からの帯域音声素片１７１の前半部分を重ね合わせるとして相互相関を計算し、ある探索範囲内で最も相互相関が高くなる位置を算出することによって、重畳位置１４０を決定する。

（１−３）帯域波形重畳部１４
帯域波形重畳部１４は、各帯域について、相互相関計算部１１で決定された重畳位置１４０または１５０に従って、帯域音声素片を重ね合わせることで、接続する音声素片の帯域毎の成分を重畳した波形である帯域重畳音声素片１８０及び１９０を出力する。

（１−４）帯域統合部１３
帯域統合部１３は、帯域毎に重畳された帯域重畳音声素片１８０及び１９０を統合し、接続部分の音声波形２００を出力する。

（２）効果
以上説明したように、本実施形態によれば、接続部分において複数の音声素片を重ね合わせるときに、第１の実施形態と同様な処理を音声素片に適用することによって、接続部分における音声素片間の位相のズレを、全周波数帯域において小さくすることができる。

すなわち、接続部分においては、先行音声素片と後続音声素片の中間的なスペクトルを持つ位相差による歪の小さい波形を生成することができるため、スペクトル変化の不連続が少なく、また零位相化などの処理による音質の劣化も生じないため、結果として、明瞭で滑らかな合成音声を生成することが可能となる。

（３）変更例
（３−１）変更例１
上記の第１及び第２の実施形態では、各周波数帯域について、相互相関計算部１１において、重ね合わせる帯域音声素片（もしくは帯域ピッチ波形）の相互相関を計算することによって、重畳位置を決定するとしたが、これに限定されるものではない。

例えば、相互相関計算部１１の代わりに、重ね合わせるそれぞれの帯域音声素片（もしくは帯域ピッチ波形）について位相スペクトルを算出し、この位相スペクトルの差に基づいて重畳位置を決定するようにしてもよい。この場合、互いの位相スペクトルの差が小さくなるように帯域音声素片（もしくは帯域ピッチ波形）をシフトさせて重ね合わせることで、位相差による歪の小さい波形を生成することができる。

（３−２）変更例２
上記の第１及び第２の実施形態では、各帯域について、決定された重畳位置に従って複数の帯域音声素片（もしくは帯域ピッチ波形）を重ね合わせた重畳帯域音声素片（もしくは重畳帯域ピッチ波形）を生成し、その後、この各帯域の重畳帯域音声素片（もしくは重畳帯域ピッチ波形）を統合するという構成としたが、この処理手順はこれに限定されるものではない。

つまり、接続部分で用いる複数の音声素片（もしくはピッチ波形）を重ね合わせる処理と、帯域を統合する処理の順序は上記の例に限定されるものではない。

例えば、図１１のように、接続部分において重ね合わせるそれぞれのピッチ波形１２０及び１３０について、先に各帯域ピッチ波形を帯域毎に決定された重畳位置に従ってシフトさせて統合することによって、各帯域において互いの位相のズレが小さい全周波数帯域の成分をもつピッチ波形１２３、１３３を生成し、その後、これらを重ね合わせることで、全周波数帯域において位相差による歪の小さい接続区間用のピッチ波形２３５を生成することもできる。

（３−３）変更例３
上記の第１及び第２の実施形態では、先行音声素片と後続音声素片の２つの音声波形を接続部分で重ね合わせるとしたが、これに限定されるものではない。

例えば、３つ以上の音声素片を重み付けして重ね合わせることも可能であり、その場合でも、帯域毎に、ある１つの音声素片の帯域音声素片（もしくは帯域ピッチ波形）に対して、残りの音声素片の帯域音声素片（もしくは帯域ピッチ波形）の位相のズレが小さくなるようにシフトさせて重ね合わせることで、位相差による歪の小さな音声波形を生成することができる。

（３−４）変更例４
上記の第１及び第２の実施形態では、接続部分において重ね合わせる先行音声素片と後続音声素片の双方に対して帯域分割処理を行うとしたが、これに限定されるものではない。

ある程度の長さで区切られている音声波形の場合、各周波数帯域のそれぞれの波形の相関が低いため、どちらか一方の音声素片のみを帯域分割することでも、上記の実施形態とほぼ同等の効果を得ることができる。

例えば、後続音声素片についてのみを帯域分割し、後続音声素片の帯域音声素片と全周波数帯域の成分を持つ先行音声素片との相関が高くなるような重畳位置を探索することで、各帯域の位相のズレを小さくすることができ、先行音声素片に対して帯域分割などの処理を行わない分だけ計算量の削減ができる。

（第３の実施形態）
以下、本発明の第３の実施形態の音声処理装置である音声素片辞書作成装置について図１２〜図１４に基づいて説明する。

（１）音声素片辞書作成装置の構成
図１２は、音声素片辞書作成装置の構成例を示す。

この音声素片辞書作成装置は、入力音声素片辞書２０、帯域分割部１０、帯域基準点修正部１５、帯域統合部１３、出力音声素片辞書２９によって構成される。

（１−１）入力音声素片辞書２０
入力音声素片辞書２０には、大量の音声素片が格納されている。なお、ここでは、有声音の音声素片が１つ以上のピッチ波形から構成されている場合を例にとって以下の説明を行う。

（１−２）帯域分割部１０
帯域分割部１０は、入力音声素片辞書２０のある音声素片中のピッチ波形３１０と予め設定されている基準音声波形３００とを複数の周波数帯域に分割し、それぞれの帯域ピッチ波形３１１、３１２、及び、帯域基準音声波形３０１、３０２を生成する。

ここでは、上記の実施形態と同様に、高域通過フィルタと低域通過フィルタを用いて、高周波数帯域と低周波数帯域の２つの帯域に分割する場合を例にとって説明する。

なお、ピッチ波形３１０と基準音声波形３００とは、それぞれ上記したような基準点を保持しており、合成時にはこの基準点をターゲットピッチマーク位置に合わせてピッチ波形を重畳することで合成音声を生成するものとする。

また、各帯域に分割された帯域ピッチ波形及び帯域基準音声波形は、帯域分割前の波形の基準点の位置を帯域基準点として保持しているものとする。

（１−３）帯域基準点修正部１５
帯域基準点修正部１５は、各帯域において、帯域基準音声波形と帯域ピッチ波形との相互相関が最大となるように帯域ピッチ波形の帯域基準点を修正し、修正帯域基準点３２０及び３３０を出力する。

（１−４）帯域統合部１３
帯域統合部１３は、修正帯域基準点３２０及び３３０に基づいて、帯域ピッチ波形３１１及び３１２を統合し、元のピッチ波形３１０に対して帯域毎の位相の修正を行ったピッチ波形３１３を出力する。

（２）音声素片辞書作成装置の処理
次に、音声素片辞書作成装置の処理について、図１３のフローチャート、及び、本実施形態の動作を模式的に示した図１４を用いて詳しく説明する。

（２−１）ステップＳ３１
まず、ステップＳ３１において、帯域分割部１０は、入力音声素片辞書２０に含まれている一音声素片中のピッチ波形３１０、及び、予め設定されている基準音声波形３００を、それぞれ低周波数帯域と高周波数帯域の２つの帯域の波形に分割する。

ここで、「基準音声波形」とは、入力音声素片辞書２０に含まれる音声素片（ピッチ波形）の互いの位相のズレをなるべく小さくするために、基準として用いる音声波形であり、位相合わせを行う全ての周波数帯域の信号成分を含んでいるものとする。

ここでは一例として、入力音声素片辞書２０に含まれる全ピッチ波形のセントロイドを計算し、このセントロイドに最も近いピッチ波形を入力音声素片辞書２０の中から選択したものとする。

また、基準音声波形は、予め入力音声素片辞書２０に格納していてもよい。

以上のように、ピッチ波形３１０より帯域ピッチ波形３１１、３１２を、基準音声波形３００より帯域基準音声波形３０１、３０２をそれぞれ生成し、次に図１３のステップＳ３２へ進む。

（２−２）ステップＳ３２
ステップＳ３２において、帯域基準点修正部１５は、各帯域において、帯域基準音声波形と帯域ピッチ波形との相互相関がより高くなるように帯域ピッチ波形の帯域基準点を修正し、修正帯域基準点３２０及び３３０とを出力する。

つまり、上記の第１の実施形態で説明した相互相関計算部１１と同様に、帯域毎に帯域ピッチ波形と帯域基準音声波形との相互相関を計算し、ある探索範囲内で相互相関が高くなるシフト位置、すなわち帯域毎に帯域基準音声波形に対する帯域ピッチ波形の位相のズレが小さくなるシフト位置を探索し、帯域ピッチ波形の帯域基準点を修正する。図１４に例示するように、低域と高域のそれぞれについて、帯域ピッチ波形の帯域基準点を帯域基準音声波形との相関が最大となる位置にシフトさせることによって修正する。

以上のように、各帯域について、帯域ピッチ波形の帯域基準点を修正した修正帯域基準点３２０及び３３０をそれぞれ出力し、次に図１３のステップＳ３３へ進む。

（２−３）ステップＳ３３
ステップＳ３３において、帯域統合部１３は、修正帯域基準点３２０及び３３０に基づいて、帯域ピッチ波形３１１及び３１２を帯域統合し、元のピッチ波形３１０に対して帯域毎の位相の修正を行ったピッチ波形３１３を出力する。

つまり、図１４に例示するように、各帯域において帯域基準音声波形との相関が高くなるように修正された帯域基準点を合わせて、各帯域の成分である帯域ピッチ波形を統合することで、基準音声波形との位相のズレが全周波数帯域で小さくなったピッチ波形が再構成される。

以上の処理を入力音声素片辞書２０に含まれる音声素片のピッチ波形に順次適用することで、ある基準音声波形に対して位相のズレが小さくなった音声素片を含む出力音声素片辞書２９を生成することができる。この辞書を図２のような素片接続型音声合成器に用いることで、合成音声を生成することができる。

（３）効果
以上説明したように、本実施形態によれば、入力音声素片辞書２０に含まれる音声素片の各ピッチ波形について、帯域分割部１０で複数の周波数帯域に分割し、帯域基準点修正部１５によって帯域毎に基準音声波形との位相のズレを小さくするように基準点を修正してから、帯域統合部１３で修正した基準点を合わせてピッチ波形を再構成することで、ある基準音声波形に対する位相のズレを、全周波数帯域において小さくすることが可能となる。

そのため、出力音声素片辞書２９に含まれる音声素片の各ピッチ波形は、ある基準音声波形に対する位相のズレが小さくなっており、結果として、互いの音声素片の位相のズレが全周波数帯域において小さくなっていることになる。

すなわち、素片接続型音声合成器に対して、本実施形態による処理を適用した音声素片辞書を用いることで、接続部分において複数の音声素片を重ね合わせるときに、位相合わせなどの特別な処理を追加することなく、それぞれの音声素片（ピッチ波形）を基準点に従って重ね合わせるだけで音声素片間の位相のズレが全周波数帯域で小さくなっており、接続部分においても位相差による歪の小さい波形を生成することが可能となる。

また、零位相化などの処理によって、元の位相情報を削って強制的に位相を揃える場合に問題となる音質の劣化も発生しない。つまり、合成時の処理量の制限が厳しい場合などでも、新たなオンラインでの処理を追加することなく、接続部分で重ね合わせる音声素片の位相のズレに起因するスペクトル変化の不連続が少ない、明瞭で滑らかな合成音声の生成ができる。

（４）変更例
（４−１）変更例１
上記の第３の実施形態では、有声音の音声素片辞書が１つ以上のピッチ波形から構成されており、各ピッチ波形に対して基準音声波形との位相合わせを行うとしたが、音声素片の構成はこれに限定されるものではない。

例えば、音声素片が音素単位の音声波形であり、合成時に音声素片を時間軸方向に、重ね合わせるための基準点を保持している場合に、音声素片全体もしくは接続部分において重ね合わせられることが想定される区間に対して、ある基準音声波形との位相のズレが全周波数帯域において小さくなるように上記の処理を適用し、音声素片辞書に含まれる音声素片間の位相のズレを小さくすることもできる。

（４−２）変更例２
上記の第３の実施形態では、基準音声波形は入力音声素片辞書２０に含まれる全ピッチ波形のセントロイドに最も近いピッチ波形としたが、これに限定されるものではない。

位相合わせを行う周波数帯域の信号成分を含んでいるもので、位相合わせを行う対象の音声素片（もしくはピッチ波形）に対して極端に偏った波形でなければよく、例えば、音声素片辞書中の全ピッチ波形のセントロイドそのものを利用することもできる。

（４−３）変更例３
上記の第３の実施形態では、ある１種類の基準音声波形に対して位相合わせの処理を行うとしたが、これに限定されるものではない。

例えば、音韻環境毎などで複数の異なる基準音声波形を用いることもできる。ただし、合成時に接続される（接続部分で重ね合わせられる）可能性のある音声素片の接続対象区間（もしくはピッチ波形）に対しては、同じ基準音声波形を用いて位相合わせが行われることが望ましい。

（４−４）変更例４
上記の第３の実施形態では、基準音声波形に対しても帯域分割処理を行うという構成としたが、これに限定されるものではない。

例えば、図１５のように、予め低域用と高域用のそれぞれの帯域基準音声波形を用意しておき、これらを入力として以降の処理を行うこともできる。

（４−５）変更例５
上記の第３の実施形態では、音声素片（もしくはピッチ波形）に付与された基準点をシフトさせることで、位相合わせを行う（位相のズレを小さくする）としたが、これに限定されるものではない。

例えば、基準点を音声素片（もしくはピッチ波形）の中央などに固定としておき、波形の端にゼロを詰めるなどして波形をシフトさせても同じ効果が得られる。

（４−６）変更例６
上記の第３の実施形態では、各周波数帯域について、帯域基準点修正部１５において、帯域基準音声波形と帯域ピッチ波形の相互相関を計算することによって、各帯域ピッチ波形の帯域基準点を決定するとしたが、これに限定されるものではない。

例えば、各帯域ピッチ波形（もしくは帯域音声素片）と帯域基準音声波形について位相スペクトルを算出し、この位相スペクトルの差に基づいて各帯域基準点を決定するようにしてもよい。この場合、互いの位相スペクトルの差が小さくなるように各帯域ピッチ波形（もしくは帯域音声素片）をシフトさせることで、基準音声波形に対する位相のズレを、全周波数帯域において小さくすることができる。

（４−７）変更例７
上記の第３の実施形態では、入力音声素片辞書２０に含まれている基準点を修正することで、各帯域基準点を決定するとしたが、これに限定されるものではない。

例えば、入力音声素片辞書２０のピッチ波形（もしくは音声素片）に基準点が付与されていない場合は、図１２もしくは図１５の帯域基準点修正部１５において、各帯域ピッチ波形（もしくは帯域音声素片）と帯域基準音声波形の相互相関係数が極大もしくは最大となる位置、または位相スペクトルの差が極小もしくは最小となる位置に対して、帯域基準音声波形の例えば中心点などを新たに各帯域基準点として設定することで、各帯域の帯域基準点を合わせるようにシフトして統合することにより、基準音声波形との位相のズレが全周波数帯域で小さくなったピッチ波形（もしくは音声素片）を生成することが可能である。

（４−８）変更例８
上記の第１、第２及び第３の実施形態では、帯域分割のときに、音声素片（もしくはピッチ波形）を高域通過フィルタと低域通過フィルタを用いて、高周波数帯域と低周波数帯域の２つの帯域に分割するとしたが、これに限定されるものではなく、さらに多くの帯域に分割してもよく、また、各帯域の帯域幅が異なっていてもよい。

例えば、図１６に示すように帯域幅の異なる４つの帯域に分割してもよい。この場合、低域側の帯域幅をより小さくすることで、より効果的な帯域分割が可能となる。

（４−９）変更例９
上記の第１、第２及び第３の実施形態では、帯域分割を行った全ての周波数帯域について位相合わせを行うとしたが、これに限定されるものではない。

例えば、複数の帯域に分割し、比較的位相がランダムとなる高周波数成分はそのままで、低域〜中域の帯域音声素片（もしくは帯域ピッチ波形）に対してのみ、位相のズレを小さくするために上記の処理を適用することもできる。

（４−１０）変更例１０
位相のズレを小さくするために基準点もしくは波形をシフトさせる範囲（相互相関や位相スペクトルの差を計算する探索範囲）を、帯域毎に変えることもできる。

（変更例）
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。

また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。

例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る接続区間波形生成部の構成例を示すブロック図である。素片接続型音声合成器の構成例を示すブロック図である。音声素片変形・接続部分における処理手順の一例を示すフローチャートである。音声素片変形・接続部分の処理内容の一例を示す模式図である。接続区間波形生成部の処理手順の一例を示すフローチャートである。帯域分割のためのフィルタ特性の一例を示す図である。ピッチ波形とそれを帯域分割した低域ピッチ波形及び高域ピッチ波形の一例を示す図である。第１の実施形態に係る処理内容の一例を示す模式図である。第２の実施形態に係る処理内容を説明するための模式図である。接続区間波形生成部の構成例を示すブロック図である。第２の実施形態の変更例２に係る接続区間波形生成部の構成例を示すブロック図である。第３の実施形態に係る音声素片辞書作成装置の構成例を示すブロック図である。音声素片辞書作成装置の処理手順の一例を示すフローチャートである。処理内容の一例を示す模式図である。第３の実施形態の変更例４に係る音声素片辞書作成装置の構成例を示すブロック図である。第３の実施形態に変更例５における帯域分割のためのフィルタ特性の一例を示す図である。音声素片を重ね合わせて接続する処理を説明するための図である。ピッチ波形の位相差を考慮して重ね合わせる処理を説明するための図である。

符号の説明

１０帯域分割部
１１相互相関計算部
１２帯域ピッチ波形重畳部
１３帯域統合部
１４帯域波形重畳部
１５帯域基準点修正部
１６波形重畳部
２０音声素片辞書
２１音声素片選択部
２２音声素片変形・接続部分

Claims

第１の音声素片の一部である第１の音声波形と第２の音声素片の一部である第２の音声波形とを重ね合わせることにより、前記第１の音声素片と前記第２の音声素片とを接続する音声処理装置において、
前記第１の音声波形と前記第２の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第１の帯域音声波形と第２の帯域音声波形をそれぞれ生成する分割部と、
前記第１の帯域音声波形と前記第２の帯域音声波形の相互相関が高くなるように、または、前記第１の帯域音声波形と前記第２の帯域音声波形の位相スペクトルの差が小さくなるように、前記第１の帯域音声波形と前記第２の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定部と、
前記第１の帯域音声波形と前記第２の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合部と、
を有する音声処理装置。
前記音声波形が、有声音部分から抽出したピッチ波形である、
請求項１記載の音声処理装置。
前記位置決定部は、前記第１の帯域音声波形と前記第２の帯域音声波形の相互相関係数が極大もしくは最大となるように、前記第１の帯域音声波形、または、前記第２の帯域音声波形をシフトさせるための位置を前記重畳位置と決定する、
請求項１記載の音声処理装置。
前記位置決定部は、前記第１の帯域音声波形と前記第２の帯域音声波形の位相スペクトルの差が極小もしくは最小となるように、前記第１の帯域音声波形、または、前記第２の帯域音声波形をシフトさせるための位置を前記重畳位置と決定する、
請求項１記載の音声処理装置。
複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第１の辞書と、
前記音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割部と、
前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を記憶する基準波形記憶部と、
前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正部と、
前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成部と、
を有する音声処理装置。
前記音声波形が、有声音部分から抽出したピッチ波形である、
請求項５記載の音声処理装置。
前記位置修正部は、前記帯域音声波形と前記帯域基準音声波形との相互相関係数が極大もしくは最大となるように、前記基準点を修正して前記帯域基準点を求める、
請求項５記載の音声処理装置。
前記位置修正部は、前記帯域音声波形と前記帯域基準音声波形との位相スペクトルの差が極小もしくは最小となるように、前記基準点を修正して前記帯域基準点を求める、
請求項５記載の音声処理装置。
前記基準波形記憶部は、外部から与えられる前記帯域基準音声波形を記憶しているか、または、前記第１の辞書に格納されている前記音声波形を利用して生成する前記帯域基準音声波形を記憶している、
請求項５記載の音声処理装置。
前記再構成部は、前記再構成した音声波形と、前記帯域基準点に対応した新たな基準点とを格納した第２の辞書を生成する、
請求項５記載の音声処理装置。
第１の音声素片の一部である第１の音声波形と第２の音声素片の一部である第２の音声波形とを重ね合わせることにより、前記第１の音声素片と前記第２の音声素片とを接続する音声処理方法において、
前記第１の音声波形と前記第２の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第１の帯域音声波形と第２の帯域音声波形をそれぞれ生成する分割ステップと、
前記第１の帯域音声波形と前記第２の帯域音声波形の相互相関が高くなるように、または、前記第１の帯域音声波形と前記第２の帯域音声波形の位相スペクトルの差が小さくなるように、前記第１の帯域音声波形と前記第２の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定ステップと、
前記第１の帯域音声波形と前記第２の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合ステップと、
を有する音声処理方法。
複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第１の辞書から、前記音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割ステップと、
前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を生成する基準波形生成ステップと、
前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正ステップと、
前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成ステップと、
を有する音声処理方法。
第１の音声素片の一部である第１の音声波形と第２の音声素片の一部である第２の音声波形とを重ね合わせることにより、前記第１の音声素片と前記第２の音声素片とを接続する音声処理プログラムにおいて、
前記第１の音声波形と前記第２の音声波形とを、複数の周波数帯域にそれぞれ分割して、前記周波数帯域毎の成分である第１の帯域音声波形と第２の帯域音声波形をそれぞれ生成する分割機能と、
前記第１の帯域音声波形と前記第２の帯域音声波形の相互相関が高くなるように、または、前記第１の帯域音声波形と前記第２の帯域音声波形の位相スペクトルの差が小さくなるように、前記第１の帯域音声波形と前記第２の帯域音声波形の重畳位置を前記周波数帯域毎に決定する位置決定機能と、
前記第１の帯域音声波形と前記第２の帯域音声波形を前記重畳位置に基づいて前記周波数帯域毎に重ね合わせ、全周波数帯域について統合することによって接続音声波形を生成する統合機能と、
をコンピュータによって実現する音声処理プログラム。
複数の音声波形と、それぞれの前記音声波形を接続する際に重ね合わせるための基準点とを前記音声波形毎に格納した第１の辞書から、前記音声波形のそれぞれを複数の周波数帯域に分割し、前記周波数帯域毎の成分である帯域音声波形をそれぞれ生成する分割機能と、
前記各周波数帯域の信号成分をそれぞれ含む帯域基準音声波形を生成する基準波形生成機能と、
前記帯域音声波形と前記帯域基準音声波形の相互相関が高くなるように、または、前記帯域音声波形と前記帯域基準音声波形の位相スペクトルの差が小さくなるように、前記帯域音声波形毎に前記基準点を修正して帯域基準点をそれぞれ求める位置修正機能と、
前記各帯域基準点の位置を合わせるように前記各帯域音声波形をそれぞれシフトさせ、全周波数帯域について統合することによって前記音声波形を再構成する再構成機能と、
をコンピュータによって実現する音声処理プログラム。