JP5025550B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
JP5025550B2
JP5025550B2 JP2008095101A JP2008095101A JP5025550B2 JP 5025550 B2 JP5025550 B2 JP 5025550B2 JP 2008095101 A JP2008095101 A JP 2008095101A JP 2008095101 A JP2008095101 A JP 2008095101A JP 5025550 B2 JP5025550 B2 JP 5025550B2
Authority
JP
Japan
Prior art keywords
language level
parameter
language
objective function
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008095101A
Other languages
English (en)
Other versions
JP2009251029A (ja
Inventor
ハビエル ラトレ
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008095101A priority Critical patent/JP5025550B2/ja
Priority to US12/405,587 priority patent/US8407053B2/en
Publication of JP2009251029A publication Critical patent/JP2009251029A/ja
Application granted granted Critical
Publication of JP5025550B2 publication Critical patent/JP5025550B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声合成のための音声処理装置、音声処理方法及びプログラムに関する。
テキストから音声を生成する音声合成装置は、大別すると、テキスト解析部、韻律生成部及び音声信号生成部の3つの処理部から構成される。テキスト解析部では、言語辞書などを用いて入力されたテキスト(漢字かな混じり文)を解析し、漢字の読みやアクセントの位置、文節(アクセントの句)の区切りなどを定義した言語情報を出力する。韻律生成部では、言語情報に基づいて、声の高さ(基本周波数)の時間変化パターン(以下、ピッチ包絡という)と、各音韻の長さなどの音韻・韻律情報を出力する。音声信号生成部では、音韻の系列に従って音声素片を選択し、韻律情報に従って変形して接続することで、合成音声を出力する。これら3つの処理部のうち、韻律生成部により生成されるピッチ包絡は、合成音声の音質と全体的な自然性に大きく影響を与えることが分かっている。
従来、ピッチ包絡の生成については種々の手法が提案されており、その中でも、CART(Classification and regression trees)、線形モデル、HMM(Hidden Markov Model)などの手法が注目を集めている。これらの手法は、次の2種類に大別することができる。
(1)音素などの言語レベルの単位で確定的な値を出力する手法:コードブックに基づく方法や線形モデルに基づく手法がこの種類に属する。
(2)音素などの言語レベルの単位に対して、確率的な値を出力する手法:一般的には、出力ベクトルは確率分布関数でモデル化され、ピッチ包絡は尤度など複数のサブコストの組み合わせで構成される目的関数が最大となるよう生成される。非特許文献1〜3など、HMMに基づく手法はこの種類に属する。
Tokuda, K., Masuko, Imai, S., 1995."Speech parameter generation from HMM using dynamic features". Proc. ICASSP, Detroit, USA, pp.660-663 Okuda, K.; Masuko, T.; Miyazaki, N.; Kobayashi, T., 1999. "Hidden Markov models based on multi-space probability distribution for pitch pattern modeling". Proc. ICASSP, Phoenix, Arizona, USA, pp.229-232 Toda. T. and Tokuda K., 2005 "Speech Parameter Generation Algorithm Considering Global Variance for HMM-Based Speech Synthesis". Proc. Interspeech 2005, Lisbon, Portugal, pp.2801-2804
しかしながら、言語レベルの単位で確定的な値を出力する従来の手法では、音素などの言語レベル単位で生成されたピッチを接続するため、滑らかなピッチ包絡の形で出力することが困難である。この場合、接続点で隣り合うピッチの値が必ずしも同じ値にならないため、異音が発生したり、イントネーションが急変したりして不自然な音声になる。そのため、この手法では、不連続感や異音を発生されることなく、個々に生成されたピッチを如何に接続するかということが大きな問題となっている。
なお、上記の問題に対する最も一般的な解決法は、接続したピッチに対してフィルタ処理を施すことで、ピッチ間のギャップを滑らかにすることであるが、接続点でのピッチ間のギャップは緩和されても、連続的に変化するよう滑らかにすることは困難である。また、フィルタ処理を強くかけ過ぎると、ピッチ包絡のパターンがなまってしまうため不自然な音声となる。また、フィルタ処理のパラメータ調整は、音質を確認しながら試行錯誤的に行う必要があるため、多くの時間と労力を要するという問題がある。
一方、上記したピッチの接続に伴う問題は、確率的な値を出力する手法で改善される。しかしながら、確率的な手法では生成されたピッチ包絡が平滑化され過ぎる傾向があり、ピッチパターンがなまってしまうため音声が不自然になる。また、なまったピッチを元に戻すため、生成されたピッチの分散を人工的に拡張する方法も試みられているが、ピッチの小さな段差が拡大されて不安定になるなど、本問題の解消には至っていない。
また、HMMに基づく従来の手法では、ピッチ包絡が本来、音節など複数のフレームに渡って滑らかに変化するものであるのにも関わらず、フレーム単位でモデル化されている。そのため、フレーム単位で生成されたピッチを接続することになるため、上記同様、ピット間の接続にギャップが発生する可能性がある。なお、音節など複数のフレームに渡ってピッチをモデル化すれば、問題の解決は容易であるように思えるが、従来のHMMに基づく手法ではスペクトルとピッチとを同時にモデル化する必要があり、スペクトルをモデル化するフレーム単位でピッチもモデル化する必要があるため、複数フレームに渡ってピッチをモデル化することは困難である。
本発明は上記に鑑みてなされたものであって、滑らかに変化する自然なピッチ包絡を生成することが可能な音声処理装置、方法及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じた第1パラメータ群を生成するパラメータ化手段と、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、前記各言語レベルでの第1パラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、前記ピッチ包絡モデルを前記言語レベル単位で記憶する記憶手段と、を備えたことを特徴とする。
また、本発明は、記憶手段を備えた音声処理装置の音声処理方法であって、分割手段が、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割工程と、パラメータ化手段が、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化工程と、記述子生成手段が、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成工程と、モデル学習手段が、前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習工程と、記憶制御手段が、前記言語レベル単位で前記ピッチ包絡モデルを前記記憶手段に記憶する記憶制御工程と、を含むことを特徴とする。
また、本発明は、記憶手段を備えた音声処理装置のコンピュータに、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化手段と、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、前記ピッチ包絡モデルを前記言語レベル単位で前記記憶手段に記憶する記憶制御手段と、して機能させることを特徴とする。
本発明によれば、音節など複数の言語レベルでピッチ包絡をモデル化することで、これら複数の言語レベルでのピッチ包絡モデルから、総合的にピッチ包絡パターンを生成することができるため、滑らかに変化する自然なピッチ包絡を生成することができる。
以下に添付図面を参照して、音声処理装置、方法及びプログラムの最良な実施形態を詳細に説明する。
図1は、本実施形態にかかる音声処理装置100のハードウェア構成を示したブロック図である。同図に示したように、音声処理装置100は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、記憶部14と、表示部15と、操作部16と、通信部17とを備え、各部はバス18を介して接続されている。
CPU11は、RAM13を作業領域として、ROM12又は記憶部14に記憶されたプログラムとの協働により各種処理を実行し、音声処理装置100の動作を統括的に制御する。また、CPU11は、ROM12又は記憶部14に記憶されたプログラムとの協働により、後述する各機能部を実現させる。
ROM12は、音声処理装置100の制御にかかるプログラムや各種設定情報などを書き換え不可能に記憶する。RAM13は、SDRAMやDDRメモリなどの揮発性メモリであって、CPU11の作業エリアとして機能する。
記憶部14は、磁気的又は光学的に記録可能な記憶媒体を有し、音声処理装置100の制御にかかるプログラムや各種情報を書き換え可能に記憶する。また、記憶部14は、後述するモデル学習部22により生成される、言語レベル単位でのピッチ包絡の統計モデル(以下、ピッチ包絡モデルという)を記憶する。ここで「言語レベル」とは、フレーム、音素、音節、単語、句、呼気段落、発生全体の何れか又はこれらの組み合わせであって、本実施形態では、後述するピッチ包絡モデルの学習、ピッチ包絡パターンの生成に際し、複数の言語レベルを取り扱うものとする。なお、以下の説明では、言語レベルを“Li”と表記し(iは自然数)、“i”に入力される数値により各言語レベルが識別されるものとする。
表示部15は、LCD(Liquid Crystal Display)などの表示デバイスから構成され、CPU11の制御の下、文字や画像などを表示する。
操作部16は、マウスやキーボードなどの入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、CPU11に出力する。
通信部17は、外部装置との間で通信を行うインターフェイスであって、外部装置から受信した各種情報をCPU11に出力する。また、通信部17は、CPU11の制御の下、各種情報を外部装置に送信する。
図2は、音声処理装置100が備える機能部のうち、ピッチ包絡モデルの学習にかかる機能構成を示したブロック図である。同図に示したように、音声処理装置100は、CPU11とROM12又は記憶部14に記憶されたプログラムとの協働により、パラメータ化部21と、モデル学習部22とを備える。
図2において、「言語情報(言語レベルLi)」は、図示しないテキスト解析部などから入力される、入力文書(テキスト)を構成する各言語レベルLiでの文字列(以下、サンプルという)単位の特徴を示した情報であって、各サンプルの読みやアクセントの位置、区切り位置(開始時間、終了時間)などが定義されているものとする。また、「LogF0」は、言語情報(言語レベルLi)に対応する基本周波数(F0)を対数で表した対数基本周波数であって、図示しない装置から入力されるものとする。なお、以下では、説明の簡略化のため、言語レベルを音節とした場合について説明するが、音節以外の言語レベルについても同様に処理が行われるものとする。
パラメータ化部21は、入力文書の言語レベルLiでの言語情報と、この言語情報に対応する対数基本周波数(logF0)とを入力とし、この言語情報で定義された各サンプル(各音節)の開始時間、終了時間に基づいて、logF0を各サンプルに対応する複数のセグメントに分割する。
また、パラメータ化部21は、逆変換可能な所定の演算子により線形変換を施すことで、セグメント化したlogF0の各々をパラメータ化し、各セグメントに対応する拡張パラメータEPi(iは“言語レベルLi”のiに対応)を夫々生成する。なお、拡張パラメータEPiの生成については後述する。
また、パラメータ化部21は、セグメント化したLogF0のパラメータ化の際に、言語情報で定義された各サンプルの開始時間と終了時間に基づいて、各サンプルの継続時間長Di(iは“言語レベルLi”のiに対応)を算出し、モデル学習部22に出力する。
モデル学習部22は、言語レベルLiでの言語情報と、拡張パラメータEPiと、音節単位での継続時間長Diとを入力とし、言語レベルLiについての一組の統計モデルをピッチ包絡モデルとして学習する。以下、図3〜6を参照して、上述した各機能部の詳細について説明する。
図3は、図2に示したパラメータ化部21の詳細構成を示した図であって、各機能部を接続する線分方向によりパラメータ化の手順を示している。図3に示したように、パラメータ化部21は、第1パラメータ化部211と、第2パラメータ化部212と、パラメータ組合せ部213とを有している。
logF0データは、入力された音声信号の有声部と無声部のピッチ周波数の対数値列から構成されるため、連続的(滑らか)に変化するデータとはなっていない。音声合成においては、音節などの言語レベルでピッチが不連続に変化すると音質や自然性を損なう問題が生じる。このため、第1パラメータ化部211では、logF0データを滑らかに変化する連続的なデータに加工する。
具体的に、第1パラメータ化部211は、入力されたlogF0データを、言語情報(言語レベルLi)に従って音節単位のセグメントに分割し、これらlogF0のセグメントを上述した線形変換によってパラメータ化することで、logF0データを平滑化した第1パラメータPPiを生成する(iは“言語レベルLi”のiに対応)。
ここで、図4を参照して、第1パラメータPPiの生成について詳細に説明する。図4は第1パラメータPPiの生成にかかる第1パラメータ化部211の詳細構成を示した図であって、各機能部を接続する線分方向により第1パラメータPPiの生成手順を示している。同図に示したように、第1パラメータ化部211は、再サンプリング部2111と、内挿処理部2112と、セグメント分割部2113と、第1パラメータ生成部2114とを有している。
まず、再サンプリング部2111は、入力された言語レベルLiでの言語情報を用いて、不連続なLogF0データから信頼に値するピッチ周波数を複数抽出する。なお、本実施形態では、信頼に値するピッチ周波数か否かを判別する指標として、以下の基準を用いるものとする。
(1)ピッチ周波数を求めるときに計算する自己相関の値が、予め設定された閾値(例えば0.8など)より大きいこと。
(2)ピッチ周波数を求める区間が、母音や準母音、鼻音など周期的な波形に対応する区間であること。
(3)ピッチ周波数が対象とする音節の平均ピッチ周波数が、予め設定された範囲内(例えば、半オクターブ以内)に入っていること。
内挿処理部2112は、再サンプリング部2111により抽出された複数のピッチ周波数を内挿(Interpolation)することで、logF0データの平滑化を行う。なお、内挿法については、スプライン補間など公知の技術を用いることが可能である。
セグメント分割部2113は、内挿処理部2112より平滑化されたlogF0データを、言語情報(言語レベルLi)で定義された各サンプルの開始時間、終了時間に基づいて複数のセグメントに分割し、第1パラメータ生成部2114に出力する。また、セグメント分割部2113は、セグメント分割の過程で各音節単位の継続時間長(終了時間−開始時間)を算出し、後段の第2パラメータ化部212及びモデル学習部22に出力する。
第1パラメータ生成部2114は、セグメント分割部2113によりセグメント分割されたlogF0の各々に、所定の演算子により線形変換を施すことで第1パラメータPPiを夫々生成し、後段の第2パラメータ化部212、パラメータ組合せ部213に出力する。ここで、線形変換は離散コサイン変換やフーリエ変換、ウェーブレット変換、テーラー展開、多項式展開などの逆変換可能な演算子の何れかにより行われるものとする。線形変換によるパラメータ化は一般的に下記式(1)で表される。
Figure 0005025550
上記式(1)において、PPsは線形変換されたN次元のベクトル、logF0sはDs次元の平滑化された対数基本周波数(logF0)のベクトル、Ts -1はN×Dsの変換行列である。また、Dsは音節の継続時間長であり、logF0sベクトルの次元数である。なお、各項に付与された添字“s”は、各セグメントを識別するための識別番号(s=セグメント数)が入力される(以下、同様)。
上記式(1)による線形変換により、継続時間の異なる音節のピッチ包絡が固定数のパラメータ、言い換えると固定次元(ここではN次元)の第1パラメータPPsで表現されることになる。このように、セグメント化したlogF0の各々を線形変換によりパラメータ化することで、長さの異なる各音節(各サンプル)のピッチ包絡を同一次元のベクトルで表現することが可能となる。
切捨てによる誤差がないと仮定した場合、N次元ベクトルPPsを別のN次元ベクトルPPs’で置き換えた場合の誤差esは、下記式(2)、(3)により計算することができる。
Figure 0005025550
ここで、線形変換が離散コサイン変換やフーリエ変換、ウェーブレット変換のような直行線形変換である場合、Msは対角行列となる。また、線形変換として正規直行変換を用いた場合、Msは下記式(4)のようになる。
Figure 0005025550
ここで、IsはN×Nの単位行列、Cteは定数である。また、線形変換として変形コサイン変換(Modified Discreate Cosine Transform:MDCT)を用いた場合には、Cte=2Dsとなるため、上記式(2)は下記式(5)のように表すことができる。なお、PPs=DCTs、PPs’=DCTs’である。また、Dsは各音節での継続時間長である。
Figure 0005025550
また、logF0sベクトルの平均値<logF0s>は、下記式(6)で表される。
Figure 0005025550
なお、式(6)においてonesは要素が1であるDs次元のベクトルである。この式(6)を用いると、式(1)の線形変換を施した後のlogF0sの平均値<logF0s>は次式(7)で表される。
Figure 0005025550
一般に、Kは一つの要素のみが非零のベクトルとなることから、本実施形態で用いている変形コサイン変換の場合、式(7)は下記式(8)のように表すことができる。なお、式(8)において、DCTs[0]は、DCTsの0次の要素を意味している。
Figure 0005025550
さらに、logF0sの分散logF0Varsは、式(2)と式(7)を用いることで、下記式(9)で表すことができる。また、変形コサイン変換を用いた場合には、下記式(10)のように表すことができる。
Figure 0005025550
図3に戻り、第2パラメータ化部212は、第1パラメータ化部211で複数のセグメントに分割された各言語レベルLiでの第1パラメータPPi群と、対応する言語レベルLiでの言語情報とに基づいて、各言語レベルLiでの第1パラメータPPi間の関係を表す第2パラメータSPi(iは“言語レベルLi”のiに対応)を生成し、パラメータ組合せ部213に出力する。
ここで、図5を参照して、第2パラメータSPiの生成について詳細に説明する。図5は第2パラメータSPiの生成にかかる第2パラメータ化部212の詳細構成を示した図であって、各機能部を接続する線分方向により第2パラメータSPiの生成手順を示している。同図に示したように、第2パラメータ化部212は、記述パラメータ算出部2121と、結合パラメータ算出部2122と、結合部2123とを有している。
記述パラメータ算出部2121は、言語レベルLiの言語情報と、第1パラメータ化部211から入力される言語レベルLiでの第1パラメータPPi及び継続時間長Diとに基づいて、記述パラメータSPi dを生成し、結合部2123に出力する。ここで、記述パラメータとは、DCTsで表される第1パラメータPPiの相互の関係を表すものである。なお、本実施形態では、記述パラメータ算出部2121が上記式(9)又は(10)でのlogF0sの分散logF0Varsを算出し、この分散を記述パラメータとして用いるものとする。
結合パラメータ算出部2122は、言語レベルLiの言語情報と、第1パラメータ化部211から入力される言語レベルLiでの第1パラメータPPi及び継続時間長Diとに基づいて、結合パラメータSPi cを生成し、結合部2123に出力する。
ここで、結合パラメータとは、隣接するサンプル(音節)に対応する第1パラメータPPi間の関係を表すものである。本実施形態では、この結合パラメータSPi cを、以下に説明するlogF0の平均の一次微分ΔAvgPitchと、処理対象とする音節の前後の接続点における基本周波数の傾きΔLogF0s begin、ΔLogF0s endとを用いることで表現する。
上記結合パラメータSPi cのうち、logF0の平均の一次微分ΔAvgPitchは、下記式(11)で導出される。
Figure 0005025550
ここで、Wは処理対象とするサンプル(音節)の前後の音節数、βは一次微分Δを算出する際の重み係数である。なお、変形コサイン変換を用いた場合、上記式(11)は下記式(12)のように表される。
Figure 0005025550
また、結合パラメータSPi cのうち、ΔLogF0s begin、ΔLogF0s endは、下記式(13)、(14)により夫々導出される。なお、aは重み係数である。
Figure 0005025550
ここで、Wは接続点での傾きを算出する際の窓長である。式(1)を用いて、上記式(13)、(14)を書き換えると、ΔLogF0s begin、ΔLogF0s endは下記記式(15)、(16)のように表すことができる。
Figure 0005025550
ここで、Hs beginとHs endは、下記式(17)、(18)から導出される固定のベクトルである。なお、Tsは式(1)で定義される変換行列の逆変換行列、aは式(13)、(14)での重み係数である。
Figure 0005025550
従来のHMMに基づくパラメータ生成では、パラメータそのものの領域で一次微分成分Δや二次微分成分ΔΔなどを定義し、パラメータ生成のときの制約としている。そのため、それらの制約は変えることができない。一方、本実施形態では、一次微分成分などの変数をDCT係数のようなパラメータそのものの領域ではなく、線形変換される前のピッチ(logF0)の領域で定義し、線形変換された領域での解釈は音素などの言語レベル単位の継続時間長Diを考慮して行う。その結果、ピッチの強調やダイナミックレンジの拡張などの制御が容易となる。
結合部2123は、記述パラメータ算出部2121から入力される記述パラメータSPi dと、結合パラメータ算出部2122から入力される結合パラメータSPi cとを、言語レベル毎(LogF0毎)に組み合わせることで、第2パラメータSPiを生成し、後段のパラメータ組合せ部213に出力する。なお、本実施形態では、記述パラメータSPi dと、結合パラメータSPi cとを組み合わせることで第2パラメータSPiを生成することとしたが、何れか一方のパラメータのみを第2パラメータSPiとして用いる態様としてもよい。
図3に戻り、パラメータ組合せ部213は、第1パラメータPPiと、第2パラメータSPiとを組み合わせた拡張パラメータEPi(iは“言語レベルLi”のiに対応)を生成し、後段のモデル学習部22に出力する。
本実施形態では、パラメータ組合せ部213において、第1パラメータPPiと、第2パラメータSPiとを統合することで、拡張パラメータEPiを生成する構成としているが、パラメータ組合せ部213を具備せず、第1パラメータPPiのみをモデル学習部22に出力する構成としてもよい。なお、この場合、隣接するサンプル(音節)との関係が考慮されていないため、隣接する音節間で不連続が生じたり、複数の音節にまたがるアクセント句や文全体で不自然な韻律となる可能性がある。
次に、図6を用いて、モデル学習部22によるピッチ包絡モデルの学習について説明する。図6は、モデル学習部22の詳細構成を示した図であって、各機能部を接続する線分方向によりピッチ包絡モデルの学習手順を示している。同図に示したように、モデル学習部22は、記述子生成部221と、記述子関係付部222と、クラスタリングモデル部223とを有している。
まず、記述子生成部221は、入力文書に含まれた各言語レベルLiでのサンプル毎に、当該サンプルの特徴を表した記述子Riを生成する。ここで生成された記述子Riは、記述子関係付部222により、対応する拡張パラメータEPiと関係付けられる。
続いて、クラスタリングモデル部223では、記述子Riに対応する質問Qを用いて決定木の各ノードを分割していく。ここで、各ノードの分割(クラスタリング)は、第1パラメータPPiに対応するlogF0の領域における平均二乗誤差に基づいて行われる。このとき、誤差は、第1パラメータPPsを表すベクトルPPsが、当該ベクトルPPsの属する決定木のリーフに格納された平均のベクトルPP’で置き換えられることで生じる誤差である。上記式(2)に従えば、これら二つのベクトル(PPs−PP’)間の重み付きユークリッド距離として計算することができる。したがって、平均二乗誤差<es>は、対応する音節の継続時間長をDsとすると、次式(19)のように表すことができる。
Figure 0005025550
なお、変形コサイン変換を用いる場合、式(19)は下記式(20)のようになる。
Figure 0005025550
ここで、P(s)は処理の対象とする音節の発生確率であり、これは一般的に音節によらず等確率と仮定される。また、平均二乗誤差<es>は、DCTsの夫々に対応する重みを用いて平均した場合、次式(21)のように表すこともできる。
Figure 0005025550
ここで、ΣDCT -1はDCTsベクトルの共分散行列の逆行列である。この結果は、基本的にP(s)の代わりにDsP(s)を用いる最尤基準に基づくクラスタリングの結果と等価になる。
拡張パラメータEPsに対して直接クラスタリングを適用した場合、平均二乗誤差は第1パラメータPPsだけではなく、その差分のパラメータである第2パラメータの置き換えに伴う誤差の総和として表される。具体的には、EPsベクトルの共分散行列の逆行列に対応する重み付きの誤差WeightedErrorとして次式(22)のように表すことができる。なお、式(22)のM’sは、式(23)で表される行列成分あって、Aは第2パラメータSPsの次元、0とIは夫々零ベクトルと単位行列を意味する。
Figure 0005025550
ピッチ包絡モデルは決定木と決定木の全てのノード、即ち、全てのリーフに格納されている平均ベクトルと共分散行列とから構成される。なお、本実施形態では、言語レベルとして音節を用いて説明したが、音素や単語、句、呼気段落、発声全体などの他の言語レベルについても同様の処理が行われるものとする。
モデル学習部22では、音節など複数のフレームに渡る言語レベルでピッチ包絡を統計的にモデル化し、これら複数の言語レベルLiについてモデル化したピッチ包絡(ピッチ包絡モデル)を言語レベル単位で記憶部14に記憶する。なお、本実施形態では、モデル化に際し、DCT係数ベクトルの平均ベクトルと、共分散行列とで定義されるガウス分布を用いるものとするが、他の統計モデルを用いることとしてもよい。また、本実施形態では、言語レベルLiとして音節を用いて説明したが、音素や単語、句、呼気段落、発声全体などの他の言語レベルについても同様の処理が行われるものとする。
このように、本実施形態のピッチ包絡モデルの学習方法では、複数の言語レベルにおいて複数のフレームに渡るピッチ包絡をDCTの係数で表現する。これにより、音節のように長さの異なるピッチパターンを表すことが可能となるため、異なる言語レベルでモデルの統合が容易となる。なお、HMMを用いた従来のピッチ包絡パターンの生成方法では、フレーム単位でのみピッチをモデル化しているため、音節レベルやアクセント句レベルなど階層的にモデルを統合することは困難である。
次に、音声処理装置100の、ピッチ包絡パターンの生成にかかる構成及び動作について説明する。まず、図7を参照して、音声処理装置100のピッチ包絡パターンの生成にかかる機能部及び動作について説明する。なお、以下では、ピッチ包絡パターン生成の基準となる言語レベルLiを音節とした例について説明するが、これに限らず、他の言語レベルをピッチ包絡パターン生成の基準としてもよい。
図7は、音声処理装置100が備える機能部のうち、ピッチ包絡の生成にかかる機能構成を示したブロック図である。同図に示したように、音声処理装置100は、CPU11とROM12又は記憶部14に記憶されたプログラムとの協働により、モデル選択部31と、継続時間長算出部32と、目的関数生成部33と、目的関数最大化部34と、逆変換部35とを備える。
モデル選択部31は、入力されたテキストの言語情報に基づいて、当該テキストに含まれる各言語レベルLiでのサンプル毎の記述子Riを生成する。なお、本実施形態では、モデル選択部31が記述子Riを生成する態様としたが、上述した記述子生成部221が生成する態様としてもよい。また、モデル選択部31は、記憶部14に記憶された言語レベル単位のピッチ包絡モデルから、各言語レベルでの記述子Riと一致するピッチ包絡モデルを夫々選択する。
継続時間長算出部32は、入力されたテキストにおいて、各言語レベルLiにおけるサンプル毎の継続時間長を算出する。例えば、言語レベルLiを音節とした場合、継続時間長算出部32は、言語情報に定義された各音節の開始時間と終了時間とに基づいて継続時間長を算出する。
目的関数生成部33は、モデル選択部31で選択された各言語レベルLiでのピッチ包絡モデル群と、継続時間長算出部32で算出された各言語レベルLiでのサンプル毎の継続時間長とに基づいて、言語レベル毎の目的関数を算出する。ここで、目的関数は、拡張パラメータEPi(第1パラメータPPi)の対数尤度(尤度関数)として構成され、次式(24)で表す総目的関数Fの右辺各項のように表される。なお、式(24)において右辺第1項は音節(i=0;syllable)についての項であり、右辺第2項は他の言語レベル(i=l(エル))についての項である。
Figure 0005025550
ピッチ包絡を求めるためには、この総目的関数Fを基準となる言語レベル(音節)での第1パラメータPP0について最大化する必要がある。そのため、目的関数生成部33は、各音節の第2パラメータSP0と拡張パラメータを第1パラメータPP0の関数として下記式(25)、(26)のように表現する。
Figure 0005025550
従って、上記式(24)は次式(27)のように書き換えることができる。なお、式(27)において、PP0は各音節におけるlogF0のDCTベクトルであり、SP0は各音節について第2パラメータである。また、λは各項についての重み係数である。
Figure 0005025550
目的関数最大化部34は、目的関数生成部33で算出された各目的関数を加算した総目的関数F、つまり上記式(27)のF(PP0)において、第1パラメータPP0を最大化した値を導出する。なお、第1パラメータPP0の最大化は、勾配法などの公知の技術を用いるものとする。
逆変換部35は、目的関数最大化部34で導出された第1パラメータPP0を逆変換することで、logF0ベクトル即ちピッチ包絡パターンを生成する。なお、逆変換部35は、継続時間長算出部32により算出された基準となる言語レベルでの各サンプル(各音節)の継続時間長に渡って逆変換を行うものとする。
以下、図8を参照して、ピッチ包絡が生成される際の動作について説明する。図8は、上述したピッチ包絡の生成にかかる機能部により、ピッチ包絡が生成される際の手順を示した図である。
まず、モデル選択部31は、入力されたテキストの言語情報から各言語レベルLiにおけるサンプルの記述子Riを夫々生成する(ステップS111、S112)。なお、図8では、言語レベルL0(音節)についての記述子R0と、音節以外の他の言語レベルLn(nは任意の数値)についての記述子Rnとの2つの言語レベルについて生成した例を示しているが、3つ以上の言語レベルについても同様に行われるものとする。
次に、モデル選択部31は、ステップS111、S112で生成した各記述子Ri(R0、Rn)に基づいて、各言語レベルに応じたピッチ包絡モデルを記憶部14から夫々選択する(ステップS121、S122)。なお、上述したように、モデルの選択は、入力テキストの言語レベルにおける言語情報と、ピッチ包絡モデルの言語情報とが一致するよう行われるものとする。
続いて、継続時間長算出部32は、入力されたテキストにおける各言語レベルでのサンプル毎の継続時間長Diを算出する(ステップS131、S132)。なお、図8では、言語レベルL0(音節)での各音節ついての継続時間長D0と、言語レベルLnでの各サンプルについての継続時間長Dnとが夫々算出された例を示している。
次いで、目的関数生成部33では、ステップS111、S112で選択された各言語レベルLiでのピッチ包絡モデルと、ステップS131、S132で算出された各言語レベルでの継続時間長Diとに基づいて、各言語レベルLiでの目的関数Fiを夫々生成する(ステップS141、S142)。図8では、言語レベルL0(音節)についての目的関数F0と、言語レベルLnについての目的関数Fnとが夫々生成されたことを示している。ここで、目的関数F0は上記式(24)での右辺第1項に対応し、目的関数Fnは上記式(24)での右辺第2項に対応する。
次に、目的関数生成部33は、ステップS141、S142で生成した目的関数を、基準となる言語レベルL0についての第1パラメータPP0で表すため、上記式(25)、(26)に基づいて、各言語レベルLiでの目的関数を変形する(ステップS151、S152)。具体的に、目的関数F0については、上記式(25)を用いて変形することで、上記式(27)の右辺第1、2項の式に変形する。また、目的関数Fnについては、上記式(26)を用いて変形することで、上記式(27)の右辺第3項の式に変形する。
目的関数最大化部34は、ステップS151、S152で変形された各言語レベルLiについての目的関数の総和、即ち、式(27)に示した総目的関数F(PP0)に基づき、基準となる言語レベルL0の第1パラメータPP0について、その値を最大化する(ステップS16)。
次いで、逆変換部35は、目的関数最大化部34で最大化された第1パラメータPP0を逆変換することで、入力されたテキストのイントネーションを表す対数基準周波数logF0、即ち、ピッチ包絡パターンを生成する(ステップS17)。
このように、本実施形態のピッチ包絡パターンの生成方法では、DCTの係数で表現された複数の言語レベルにおけるピッチ包絡モデルを用いて、総合的にピッチ包絡パターンを生成することができるため、滑らかに変化する自然なピッチ包絡を生成することができる。
なお、ピッチ包絡パターンの生成に用いる言語レベルの個数、種別、基準とする言語レベルは任意に設定することが可能であるものとするが、本実施形態で用いた音節などのように、複数のフレームに渡る言語レベルを用いてピッチ包絡パターンを生成することが好ましい。
以上のように、本実施形態の音声処理装置100によれば、音節など複数のフレームに渡る言語レベルでピッチ包絡を統計的にモデル化し、接続点のピッチの差や傾きを制約条件にして、統計的なモデルの尤度などから構成される目的関数が最大となるようピッチ包絡を生成することができるため、滑らかに変化する自然なピッチ包絡パターンを生成することができる。
また、一次微分成分などの変数をDCT係数のようなパラメータそのものではなく、線形変換される前のピッチの領域で定義し、変換された領域での解釈は音素などの基準とする言語レベルでの継続時間長を考慮して行うことができるため、ピッチの強調やダイナミックレンジの拡張などの制御が容易に行うことができる。
なお、本実施形態の他の構成例として、第1パラメータPPの生成において、ピッチのグローバル分散も考慮に入れて目的関数を最大化することで、ピッチ包絡を生成する態様としてもよい。これにより、生成されるピッチ包絡のパターンが自然音声のピッチパターンの変化幅と同様に変化し、より自然な韻律を生成することができる。なお、ピッチのグローバル分散は、DCTベクトルを用いると下記式(28)のように表すことができる。
Figure 0005025550
このグローバル分散を目的関数に加えて、目的関数を最大化する場合、第1パラメータPP0に関する目的関数の偏微分は非線形関数となる。そのため、目的関数の最大化は、最急勾配法などの数値計算的な解法を用いて行うことになる。この場合の初期値としては、各音節の平均ベクトルを用いることができる。
以上、本発明にかかる実施形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。
例えば、上記実施形態の音声処理装置100で実行されるプログラムは、ROM12や記憶部14などに予め組み込まれて提供されるものとするが、これに限らず、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)などのコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
また、このプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよく、インターネットなどのネットワーク経由で提供又は配布するように構成してもよい。
音声処理装置のハードウェア構成を示したブロック図である。 音声処理装置が備える、ピッチ包絡モデルの学習にかかる機能構成を示したブロック図である。 図2に示したパラメータ化部の詳細構成を示した図である。 図3に示した第1パラメータ化部の詳細構成を示した図である。 図3に示した第2パラメータ化部の詳細構成を示した図である。 図2に示したモデル学習部の詳細構成を示した図である。 音声処理装置が備えるピッチ包絡の生成にかかる機能構成を示したブロック図である。 ピッチ包絡パターンが生成される際の手順を示した図である。
符号の説明
100 音声処理装置
11 CPU
12 ROM
13 RAM
14 記憶部
15 表示部
16 操作部
17 通信部
18 バス
21 パラメータ化部
211 第1パラメータ化部
2111 再サンプリング部
2112 内挿処理部
2113 セグメント分割部
2114 第1パラメータ生成部
212 第2パラメータ化部
2121 記述パラメータ算出部
2122 結合パラメータ算出部
2123 結合部
213 パラメータ組合せ部
22 モデル学習部
221 記述子生成部
222 記述子関係付部
223 クラスタリングモデル部
31 モデル選択部
32 継続時間長算出部
33 目的関数生成部
34 目的関数最大化部
35 逆変換部

Claims (16)

  1. 入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、
    前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じた第1パラメータ群を生成するパラメータ化手段と、
    前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、
    前記各言語レベルでの第1パラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、
    前記ピッチ包絡モデルを前記言語レベル単位で記憶する記憶手段と、
    を備えたことを特徴とする音声処理装置。
  2. 前記基本周波数から所定の条件に適合する複数のピッチ周波数を抽出する抽出手段と、
    前記抽出手段で抽出された複数のピッチ周波数を内挿し、前記基本周波数を平滑化する平滑化手段と、
    を更に備え、
    前記分割手段は、前記内挿処理手段により平滑化された基本周波数を前記複数のセグメントに分割することを特徴とする請求項1に記載の音声処理装置。
  3. 前記各言語レベルにおける前記第1パラメータ間の関係を表す第2パラメータを、当該第1パラメータの分散を用いて算出する第2パラメータ算出手段を更に備え、
    前記モデル学習手段は、前記第1パラメータと当該第1パラメータに対応する前記第2パラメータとを統合した拡張パラメータについて、前記学習を行うことを特徴とする請求項1又2に記載の音声処理装置。
  4. 前記各言語レベルにおける隣接する文字列間の関係を表す第3パラメータを、前記基本周波数の平均の一次微分と、前記文字列の前後の接続点における前記基本周波数の傾きとを用いて算出する第3パラメータ算出手段と更に備え、
    前記モデル学習手段は、前記第1パラメータと当該第1パラメータに対応する前記第3パラメータとを統合した拡張パラメータについて、前記学習を行うことを特徴とする請求項1〜3の何れか一項に記載の音声処理装置。
  5. 前記モデル学習手段は、前記各言語レベルでの第1パラメータを、前記記述子に対応する決定木を用いてクラスタリングすることを特徴とする請求項1〜4の何れか一項に記載の音声処理装置。
  6. 前記モデル学習手段は、前記第1パラメータに対応する前記基本周波数の領域における平均二乗誤差に基づいて、前記決定木によるクラスタリングを行うことを特徴とする請求項5に記載の音声処理装置。
  7. 前記モデル学習手段は、前記第1パラメータに対応する文字列の継続時間長を用いて、前記平均二条誤差を算出することを特徴とする請求項6に記載の音声処理装置。
  8. 前記言語レベルは、フレーム、音素、音節、単語、句、呼気段落、発声全体の何れか又はこれらの組み合わせであることを特徴とする請求項1に記載の音声処理装置。
  9. 前記線形変換は、逆変化することが可能な離散コサイン変換、フーリエ変換、ウェーブレット変換、テーラー展開、多項式展開の何れかであることを特徴とする請求項1に記載の音声処理装置。
  10. 前記記述子の夫々に対応するピッチ包絡モデルを、一又は複数の言語レベル単位で前記記憶手段から選択する選択手段と、
    前記選択された言語レベル毎のピッチ包絡モデル群から目的関数を夫々生成する目的関数生成手段と、
    前記各言語レベルでの目的関数の総和を、基準となる言語レベルでの第1パラメータについて最大化し、当該基準となる言語レベルでの各文字列に対応する第1パラメータを生成する目的関数最大化手段と、
    前記目的関数最大化手段で生成された第1パラメータ群を逆変換し、ピッチ包絡パターンを生成する逆変換手段と、
    を更に備えたことを特徴とする請求項1に記載の音声処理装置。
  11. 前記目的関数生成手段は、前記言語レベル毎の目的関数を、基準となる言語レベルでの第1パラメータを用いて生成することを特徴とする請求項10に記載の音声処理装置。
  12. 前記目的関数生成手段は、前記言語レベル毎の目的関数を、基準となる言語レベルでの第1パラメータの尤度関数として生成することを特徴とする請求項11に記載の音声処理装置。
  13. 記憶手段を備えた音声処理装置の音声処理方法であって、
    分割手段が、入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割工程と、
    パラメータ化手段が、前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化工程と、
    記述子生成手段が、前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成工程と、
    モデル学習手段が、前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習工程と、
    記憶制御手段が、前記言語レベル単位で前記ピッチ包絡モデルを前記記憶手段に記憶する記憶制御工程と、
    を含むことを特徴とする音声処理方法。
  14. 選択手段が、前記記述子の夫々に対応するピッチ包絡モデルを、一又は複数の言語レベル単位で前記記憶手段から選択する選択工程と、
    目的関数生成手段が、前記選択された言語レベル毎のピッチ包絡モデル群から目的関数を夫々生成する目的関数生成工程と、
    目的関数最大化手段が、前記各言語レベルでの目的関数の総和を、基準となる言語レベルでのパラメータについて最大化し、当該基準となる言語レベルでの各文字列に対応するパラメータを生成する目的関数最大化工程と、
    逆変換手段が、前記目的関数最大化工程で生成されたパラメータ群を逆変換し、ピッチ包絡パターンを生成する逆変換工程と、
    を更に含むことを特徴とする請求項13に記載の音声処理方法。
  15. 記憶手段を備えた音声処理装置のコンピュータに、
    入力文書に含まれた各言語レベルでの文字列毎の時間長に基づいて、前記入力文書に対応する音声の基本周波数を複数のセグメントに分割する分割手段と、
    前記言語レベル毎のセグメント群を逆変換可能な所定の演算子で線形変換し、各言語レベルに応じたパラメータ群を生成するパラメータ化手段と、
    前記入力文書に含まれた各言語レベルでの文字列毎に、当該文字列の特徴を表した記述子を生成する記述子生成手段と、
    前記各言語レベルでのパラメータを、当該言語レベルに対応する前記記述子に基づいてクラスタリングし、言語レベル毎のピッチ包絡モデルとして学習するモデル学習手段と、
    前記ピッチ包絡モデルを前記言語レベル単位で前記記憶手段に記憶する記憶制御手段と、
    して機能させることを特徴とする音声処理プログラム。
  16. 前記コンピュータに、
    前記記述子の夫々に対応するピッチ包絡モデルを、一又は複数の言語レベル単位で前記記憶手段から選択する選択手段と、
    前記選択された言語レベル毎のピッチ包絡モデル群から目的関数を夫々生成する目的関数生成手段と、
    前記各言語レベルでの目的関数の総和を、基準となる言語レベルでのパラメータについて最大化し、当該基準となる言語レベルでの各文字列に対応するパラメータを生成する目的関数最大化手段と、
    前記目的関数最大化手段で生成されたパラメータ群を逆変換し、ピッチ包絡パターンを生成する逆変換手段と、
    して更に機能させることを特徴とする請求項15に記載の音声処理プログラム。
JP2008095101A 2008-04-01 2008-04-01 音声処理装置、音声処理方法及びプログラム Expired - Fee Related JP5025550B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008095101A JP5025550B2 (ja) 2008-04-01 2008-04-01 音声処理装置、音声処理方法及びプログラム
US12/405,587 US8407053B2 (en) 2008-04-01 2009-03-17 Speech processing apparatus, method, and computer program product for synthesizing speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008095101A JP5025550B2 (ja) 2008-04-01 2008-04-01 音声処理装置、音声処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009251029A JP2009251029A (ja) 2009-10-29
JP5025550B2 true JP5025550B2 (ja) 2012-09-12

Family

ID=41118476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008095101A Expired - Fee Related JP5025550B2 (ja) 2008-04-01 2008-04-01 音声処理装置、音声処理方法及びプログラム

Country Status (2)

Country Link
US (1) US8407053B2 (ja)
JP (1) JP5025550B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731234B1 (en) * 2008-10-31 2014-05-20 Eagle View Technologies, Inc. Automated roof identification systems and methods
JP5226867B2 (ja) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6259378B2 (ja) * 2014-08-26 2018-01-10 日本電信電話株式会社 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム
CN108255879B (zh) * 2016-12-29 2021-10-08 北京国双科技有限公司 网页浏览流量作弊的检测方法及装置
JP6911398B2 (ja) * 2017-03-09 2021-07-28 ヤマハ株式会社 音声対話方法、音声対話装置およびプログラム
CN107564511B (zh) * 2017-09-25 2018-09-11 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
KR20210057569A (ko) * 2019-11-12 2021-05-21 엘지전자 주식회사 음성 신호를 처리하는 방법 및 이를 적용한 장치
US11475158B1 (en) * 2021-07-26 2022-10-18 Netskope, Inc. Customized deep learning classifier for detecting organization sensitive data in images on premises

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4908867A (en) * 1987-11-19 1990-03-13 British Telecommunications Public Limited Company Speech synthesis
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
US5602960A (en) * 1994-09-30 1997-02-11 Apple Computer, Inc. Continuous mandarin chinese speech recognition system having an integrated tone classifier
US7251314B2 (en) * 1994-10-18 2007-07-31 Lucent Technologies Voice message transfer between a sender and a receiver
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
US6553342B1 (en) * 2000-02-02 2003-04-22 Motorola, Inc. Tone based speech recognition
US6910007B2 (en) * 2000-05-31 2005-06-21 At&T Corp Stochastic modeling of spectral adjustment for high quality pitch modification
US7328404B2 (en) * 2000-07-21 2008-02-05 Microsoft Corporation Method for predicting the readings of japanese ideographs
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
CN1187693C (zh) * 2000-09-30 2005-02-02 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别***中的方法和***
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP3737788B2 (ja) * 2002-07-22 2006-01-25 株式会社東芝 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7013005B2 (en) * 2004-02-11 2006-03-14 Hewlett-Packard Development Company, L.P. System and method for prioritizing contacts
JP4282609B2 (ja) * 2005-01-07 2009-06-24 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework

Also Published As

Publication number Publication date
US8407053B2 (en) 2013-03-26
JP2009251029A (ja) 2009-10-29
US20090248417A1 (en) 2009-10-01

Similar Documents

Publication Publication Date Title
JP5025550B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US7996222B2 (en) Prosody conversion
US8438033B2 (en) Voice conversion apparatus and method and speech synthesis apparatus and method
US8321208B2 (en) Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information
US10540956B2 (en) Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
US20190362703A1 (en) Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
Veaux et al. Intonation conversion from neutral to expressive speech
Wang et al. An RNN-based quantized F0 model with multi-tier feedback links for text-to-speech synthesis
US8315871B2 (en) Hidden Markov model based text to speech systems employing rope-jumping algorithm
KR20070077042A (ko) 음성처리장치 및 방법
Csapó et al. Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
Lazaridis et al. Improving phone duration modelling using support vector regression fusion
Chomphan et al. Tone correctness improvement in speaker-independent average-voice-based Thai speech synthesis
Vekkot et al. Prosodic transformation in vocal emotion conversion for multi-lingual scenarios: A pilot study
JP4716125B2 (ja) 発音評定装置、およびプログラム
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Ijima et al. Statistical model training technique based on speaker clustering approach for HMM-based speech synthesis
Demiroğlu et al. Hybrid statistical/unit-selection Turkish speech synthesis using suffix units
Sosimi et al. Standard Yorùbá context dependent tone identification using Multi-Class Support Vector Machine (MSVM)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120619

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150629

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees