JP4297433B2 - 音声合成方法及びその装置 - Google Patents

音声合成方法及びその装置 Download PDF

Info

Publication number
JP4297433B2
JP4297433B2 JP2004139861A JP2004139861A JP4297433B2 JP 4297433 B2 JP4297433 B2 JP 4297433B2 JP 2004139861 A JP2004139861 A JP 2004139861A JP 2004139861 A JP2004139861 A JP 2004139861A JP 4297433 B2 JP4297433 B2 JP 4297433B2
Authority
JP
Japan
Prior art keywords
speech
unit
units
synthesized
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004139861A
Other languages
English (en)
Other versions
JP2005321631A (ja
Inventor
未来 長谷部
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004139861A priority Critical patent/JP4297433B2/ja
Publication of JP2005321631A publication Critical patent/JP2005321631A/ja
Application granted granted Critical
Publication of JP4297433B2 publication Critical patent/JP4297433B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、キーボード等から直接入力され又は予めテキストを記憶した記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力されたテキストを音声に変換して再生(出力)するテキスト音声合成技術に関する。
現在、電話による株価案内システム等の各種の情報案内システムやEメール・Webの読み上げ等、様々な状況でテキスト音声合成技術が利用されている。
従来の音声合成方法として、(1)音素、音韻、単語等の言語を構成する様々な単位の音声素片を含む音声コーパスから、入力されたテキスト中の前記単位に対応し、合成に使用可能な音声素片を検索し、該検索した音声素片の中から最適な音声素片を選択し、これを前記テキスト中の全ての前記単位について繰り返し、選択した各音声素片をそのまま接続して合成音声とする方法がある(特許文献1参照)。
また、この際、(2)選択した各音声素片に対して、合成目標となる韻律に合わせるための信号処理を施した上で接続して合成音声とする方法がある(非特許文献1参照)。
特許第2761552号公報 Satoshi TAKANO, Masanobu ABE "A NEW F0 MODIFICATION ALGORITHM BY MANIPULATING HARMONICS OF MAGNITUDE SPECTRUM", Eurospeech'99 高野、阿部「部分置換実験による韻律変形の音質へおよぼす影響の評価」日本音響学会講演論文集1−7−11、2000(3)、pp.217−218
しかし、前述した(1)の方法では、肉声らしい自然な音質の音声を合成できるが、合成音声の韻律が合成目標の韻律とは異なる可能性があるという問題があり、また、(2)の方法では、合成目標通りの韻律が得られるが、信号処理によって音声の持つ肉声らしさが損なわれる可能性があるという問題があった。
つまり、従来のテキスト音声合成技術では、合成音声の肉声らしさと韻律の正確さがトレードオフの関係にあり、両方同時に満たすことができないという問題があった。
このように、現状の音声合成技術は人間の音声に比べて十分な品質を達成できておらず、合成音声の品質向上への要望が強かった。
本発明の目的は、音声合成技術の利用状況、特に合成音声を再生する際の状況に応じて、これまでより高品質な合成音声を提供可能な音声合成方法及びその装置を実現することにある。
上述のように、合成音声の肉声らしさと韻律の正確さはトレードオフの関係にあり、韻律を正確に合成しようとすると音質が劣化するという問題がある。
ここで、韻律を正確に合成するために信号処理を行った場合の音質の劣化は、韻律の変形量や変形の方向、信号処理方法などによってその度合いが異なる(非特許文献1、2参照)。
また、信号処理を行った場合の合成音声の音質劣化は、ヘッドフォンで聞く場合とスピーカから聞く場合とではその劣化の判り方が異なり、当然ながら、ヘッドフォンで合成音声のみを集中して聞く方が合成音声の音質劣化が判り易い。
このように、合成音声を再生する際の状況として、ヘッドフォンで再生して聞くのか、スピーカから再生して聞くのか、また、スピーカから再生して聞く場合には、部屋の中等の静かな場所なのか、駅構内等の騒がしい場所なのか、といった様々な状況が存在し、それぞれの状況や環境で合成音声の音質劣化の判り方が異なる。
本発明では、合成音声を再生する際の状況まで考慮して、信号処理による音質の劣化が目立たない状況では信号処理を行って韻律を修正することにより、ユーザに対しては信号処理による音質の劣化を感じさせずかつ正しい韻律の合成音声を提示することで、上述の合成音声の音質と韻律の正しさを両立するという課題を解決する。
本発明によれば、合成音声を再生する際の利用状況に応じて、これまでより高品質な合成音声の提供が可能となる。
なお、本出願でいうヘッドフォンは、一人の人間の身体に直接接触する形で使用され、音声信号を当該人間の耳に伝達する全ての音響機器を含み、また、本出願でいうスピーカは、人間の身体に接触することなく使用され、主として空気を介して音声信号を一人以上の人間の耳に伝達する全ての音響機器を含むものとする。
本発明の特徴は、音声合成技術の利用状況まで考慮し、合成音声が再生される際の状況に応じて信号処理による韻律変形を行うかどうかを決定することで、音質劣化が目立たないような雑音の多い環境においては韻律を修正して音声を再生することが可能となり、従来より高品質な音声を合成することである。
その結果、各種の情報案内等のサービスにおいて、より高品質な合成音声を提供することが可能となり、また、従来は品質の問題から合成音声を利用できなかった分野においても音声合成技術を利用可能になる。
図1は本発明の音声合成装置の実施の形態の一例を示すもので、図中、1はデータベース(DB)、2はデータベース検索部(DB検索部)、3は音声素片選択部、4は状況判定部、5は信号処理部、6は接続部である。以下、各部の動作をその構成とともに説明する。
DB1は、音素、音韻、単語等の言語を構成する様々な単位の音声素片を含む音声コーパス、詳細には音声波形、音声の韻律情報、発声内容に対応する音素ラベル列、音声素片の境界を示すラベルデータ等、合成のための情報を含む音声コーパスを格納している。
DB検索部2は、入力されたテキストと、図示しないテキスト解析部によって得られた当該テキストの音素系列、合成の目標となる韻律、使用するデータベースや信号処理方法の指定等、音声合成のための制御情報とを含む入力情報101を入力とし、テキスト中の前記単位毎に合成に使用可能な音声素片をデータベース1から検索し、検索した音声素片102を検索結果として音声素片選択部3へ渡す。
音声素片選択部3は、DB検索部2から渡されたテキスト中の前記単位毎の音声素片102の中から最適な音声素片の組み合わせを選択する、詳細には音声素片102に対し、韻律、音韻環境、接続性、言語情報等の合成音声の品質に関わる要素をコストとして計算し、コストを最小化する音声素片の組み合わせを探索することによって、最適な音声素片の組み合わせ103を選択し、これを選択結果として状況判定部4に渡す。
状況判定部4は、音声素片選択部3から渡された最適な音声素片の組み合わせ103を、合成音声を再生する際の状況に応じて、後述する如く信号処理部5もしくは接続部6へ渡す。
信号処理部5は、状況判定部4から音声素片の組み合わせ103が渡された場合、該組み合わせ103に含まれる音声素片のそれぞれに対し、合成目標となる韻律に合わせるために韻律を修正する信号処理を行い、修正済み音声素片の組み合わせ104として接続部6へ渡す。
接続部6は、状況判定部4から渡された音声素片の組み合わせ103もしくは信号処理部5から渡された修正済み音声素片の組み合わせ104を接続し、合成音声(データ)105として図示しない再生用の音響機器等へ出力する。
なお、DB1、DB検索部2、音声素片選択部3、信号処理部5及び接続部6並びに図示しないテキスト解析部の構成及び動作は、既存の音声合成装置の場合と何ら変わらないので、その詳細は省略する。
図2は状況判定部4における処理の流れを示すもので、以下、これに従って状況判定部4の動作を説明する。
状況判定部4は、音声素片選択部3から最適な音声素片の組み合わせ103を受け取るとともに、合成音声を再生する音響機器がヘッドフォンであるかスピーカであるかを示す機器識別情報106及び音響機器がスピーカである場合の当該スピーカの設置場所の周囲の雑音レベル(情報)107を受信し、機器識別情報106から合成音声を再生する音響機器がヘッドフォンであるかスピーカであるかを判定し(s1)、この際、ヘッドフォンであれば信号処理による音質劣化の影響が大きいとして最適な音声素片の組み合わせ103を接続部6へ渡す(s2)。
一方、機器識別情報106が、合成音声を再生する音響機器がスピーカであることを示している場合は、雑音レベル107が予め設定した所定の閾値以下であるかどうかを判定し(s3)、この際、閾値以下であれば信号処理による音質劣化の影響が大きいとして最適な音声素片の組み合わせ103を接続部6へ渡し(s2)、また、閾値より大きければ信号処理による音質劣化の影響が小さいとして最適な音声素片の組み合わせ103を信号処理部4へ渡す(s4)。
なお、ここでステップs3を省略し、合成音声を再生する音響機器がスピーカである場合は、常に音質劣化の影響が小さいとして最適な音声素片の組み合わせ103を信号処理部4へ渡すようにしても良い。
また、前述した機器識別情報106としては、ユーザから入力された音響機器がヘッドフォンであるかスピーカであるかを示す指定情報や、ヘッドフォンジャックを備えたパソコンやテレビ等の装置における当該ヘッドフォンジャックにヘッドフォンプラグが接続されたかどうかを表す信号等を用いることができ、また、雑音レベル107としては、スピーカの設置場所の周囲に配置されたマイク等の出力信号を適当な積分回路等に通した際に得られる、ある程度時間軸上で平均化された信号を用いることができる。
本発明の音声合成装置の実施の形態の一例を示す構成図 図1中の状況判定部における処理の流れ図
符号の説明
1:データベース(DB)、2:データベース検索部(DB検索部)、3:音声素片選択部、4:状況判定部、5:信号処理部、6:接続部。

Claims (2)

  1. 言語を構成する単位の音声素片を含む音声コーパスを格納したデータベースを用いて、計算機が、入力されたテキスト中の前記単位に対応し、合成に使用可能な音声素片を前記データベースから検索し、該検索した音声素片の中から最適な音声素片を選択し、これを前記テキスト中の全ての前記単位について繰り返し、選択した各音声素片を接続して合成音声とする音声合成方法において、
    計算機が、
    合成音声を再生する音響機器がヘッドフォンかスピーカかを判定し、
    音響機器がヘッドフォンであれば前記選択した各音声素片をそのまま接続して合成音声とし、
    音響機器がスピーカであれば、さらにスピーカの設置場所の周囲の雑音レベルが所定の閾値以下かどうかを判定し、
    閾値以下であれば前記選択した各音声素片をそのまま接続して合成音声とし、
    閾値より大きければ前記選択した各音声素片に韻律を修正する信号処理を行った上で接続して合成音声とする
    ことを特徴とする音声合成方法。
  2. 言語を構成する単位の音声素片を含む音声コーパスを格納したデータベースと、入力されたテキスト中の前記単位毎に合成に使用可能な音声素片を前記データベースから検索するデータベース検索部と、該検索したテキスト中の前記単位毎の音声素片の中から最適な音声素片を選択する音声素片選択部と、該選択したテキスト中の各単位に対応する音声素片を接続して合成音声とする接続部とを備えた音声合成装置において、
    音声素片に対して韻律を修正する信号処理を行う信号処理部と、
    合成音声を再生する音響機器がヘッドフォンかスピーカかを判定し、ヘッドフォンであれば音声素片選択部で選択された各音声素片をそのまま接続部へ出力し、スピーカであれば当該スピーカの設置場所の周囲の雑音レベルが所定の閾値以下かどうかを判定し、閾値以下であれば音声素片選択部で選択された各音声素片をそのまま接続部へ出力し、閾値より大きければ音声素片選択部で選択された各音声素片を信号処理部を経由して接続部へ出力する状況判定部を備えた
    ことを特徴とする音声合成装置。
JP2004139861A 2004-05-10 2004-05-10 音声合成方法及びその装置 Expired - Fee Related JP4297433B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004139861A JP4297433B2 (ja) 2004-05-10 2004-05-10 音声合成方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004139861A JP4297433B2 (ja) 2004-05-10 2004-05-10 音声合成方法及びその装置

Publications (2)

Publication Number Publication Date
JP2005321631A JP2005321631A (ja) 2005-11-17
JP4297433B2 true JP4297433B2 (ja) 2009-07-15

Family

ID=35468968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004139861A Expired - Fee Related JP4297433B2 (ja) 2004-05-10 2004-05-10 音声合成方法及びその装置

Country Status (1)

Country Link
JP (1) JP4297433B2 (ja)

Also Published As

Publication number Publication date
JP2005321631A (ja) 2005-11-17

Similar Documents

Publication Publication Date Title
US10685638B2 (en) Audio scene apparatus
JP6118838B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US20120215532A1 (en) Hearing assistance system for providing consistent human speech
JP2008096483A (ja) 音響出力制御装置、音響出力制御方法
JP2000148182A (ja) 電話メッセ―ジの転記のために使用される編集システム及び方法
WO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
US20210050029A1 (en) Methods and Apparatus for Reducing Stuttering
US20050080626A1 (en) Voice output device and method
JP2013072903A (ja) 合成辞書作成装置および合成辞書作成方法
US11367457B2 (en) Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof
WO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP4297433B2 (ja) 音声合成方法及びその装置
JP3555490B2 (ja) 声質変換システム
US20140324418A1 (en) Voice input/output device, method and programme for preventing howling
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP5052107B2 (ja) 音声再現装置及び音声再現方法
JP6251219B2 (ja) 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム
JP4817949B2 (ja) 車載機
JP5049310B2 (ja) 音声学習・合成システム及び音声学習・合成方法
JP4758931B2 (ja) 音声合成装置、方法、プログラム及びその記録媒体
JP6353402B2 (ja) 音響電子透かしシステム、電子透かし埋め込み装置、電子透かし読み取り装置、その方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090408

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090410

R150 Certificate of patent or registration of utility model

Ref document number: 4297433

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees