JPH05224689A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH05224689A
JPH05224689A JP4026800A JP2680092A JPH05224689A JP H05224689 A JPH05224689 A JP H05224689A JP 4026800 A JP4026800 A JP 4026800A JP 2680092 A JP2680092 A JP 2680092A JP H05224689 A JPH05224689 A JP H05224689A
Authority
JP
Japan
Prior art keywords
voice
emphasized
emphasis
speech
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4026800A
Other languages
English (en)
Inventor
Hiroshi Hamada
洋 浜田
Jinichi Chiba
仁一 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4026800A priority Critical patent/JPH05224689A/ja
Publication of JPH05224689A publication Critical patent/JPH05224689A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 大、小のような感覚的言葉で表現された強調
レベルで合成音声中の指定した部分を強調することがで
きる。 【構成】 テキストメモリ2からの文字列はテキスト−
音声変換部3で読みを付与され、文字列と対応する音声
パラメータ列に変換される。入出力デバイス1により、
前記文字列中の強調したい部分の指定と、その強調レベ
ルを強くとか、弱くとか人間の感覚で指定する。その強
調部分の指定情報により、前記音声パラメー列中の強調
部分が強調処理部9に取り込まれる。指定された感覚的
強調レベルは感覚量−物理量変換部8で、どれだけ音量
を強調するかを示す音量変換値、どれだけ発話速度を遅
くするかを示す発話速度変換値、どれだけ基本周波数を
高くするかを示す変換値、強調部分の前、後にどの程度
のポーズを挿入するかを示す値にそれぞれ変換される。
これら変換された値により強調処理部9で指定された強
調部分の音声パラメータに対する強調処理がなされ、こ
れと強調指定されていない部分の音声パラメータ列とが
合成され、合成音声として出力される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、予め蓄えられた音声
を合成出力する、あるいは、入力された文字列から音声
に変換して合成出力する音声合成装置、特に出力音声中
の特定部分を強調して表現力に優れた音声を出力する音
声合成装置に関するものである。
【0002】
【従来の技術】音声処理技術、言語処理技術、マイクロ
プロセッサ等の半導体技術の進歩により、音声の分析合
成、帯域圧縮や、文字列を入力することにより音声を合
成出力する規則音声合成が実用の段階に達してきた。例
えば、電話等の通信を介した注文受付、情報提供、デー
タベース検索などのサービスにおけるガイダンス出力、
データ・情報提供などに音声合成技術が利用されてきて
いる。
【0003】音声の合成出力は、予め蓄えられた音声を
必要に応じて編集して出力する録音編集再生方式と、文
字を入力し、その与えられた文字に対する読みを自動的
に付与して音声を合成出力する規則音声合成方式とに分
けることができる。従来、音声の合成においては、いか
に出力音声の品質を向上するかという点に重点がおかれ
て研究開発がなされてきた。しかしながら、音声合成技
術がより一般化するに従って、音声の技術に十分精通し
ていない場合でも、だれでも容易に表現力に富んだ音声
が出力できる音声合成法が望まれてきている。
【0004】音声の合成において、合成音の表現能力を
良くする方法としては、声の質を所望の音に制御する、
話すリズムに変化をつける、などの種々の方法が考えら
れるが、この発明は特定の語句を強調して出力する音声
強調の技術に関するものである。従来から音声の特定部
分を強調し合成出力する方法の開発が行われてきている
が、これらの方法では、予め強調処理する場合の音声合
成に必要なパラメータの変形方法を用意しておき、自動
的に抽出された強調部分、あるいは、予め指定された強
調部分のパラメータに変形を加え合成音声を出力する方
法が採用されてきた。その場合に変形を加えるパラメー
タとしては抑揚を表す音声の基本周波数(ピッチ)のパ
ラメータ、音声の強さ(音圧)、強調部分の前後に加え
るポーズなどが挙げられる。このような音声強調方法に
関しては、例えば、武田、市川「日本語文音声のプロミ
ネンス生成規則の作成と評価」(日本音響学会誌、vol.
47No.6,pp.397-404,1991)などに述べられている。
【0005】
【発明が解決しようとする課題】しかしながら、これら
の方法では (1) 本来強調には種々のレベルがあり、強く強調を
表す場合の話し方から、弱く強調を表す場合の話し方ま
で種々多様であるが、強調をする/しないの2種類のみ
の表現しか実現不可能である (2) 強調のレベルを変える場合、音声の生成・合成
に関する専門的な知識が必要であり、これらの技術に精
通していない一般の利用者にとって新たな制御や表現を
加えることが不可能である という問題があった。これらの問題を解決するため、強
調に対する人間の感覚的な入力に対して自動的に物理的
なパラメータを制御し、人間の感覚に合致した強調の施
された音声の合成出力方法の実現が望まれていた。
【0006】
【課題を解決するための手段】この発明によれば、強調
したい部分を指定する手段と、その強調部分の強調の程
度を人間が感覚的な指定に基づき種々のレベルの強調指
示をする手段と、その強調指示されたレベルから自動的
に音声合成制御に必要な物理的制御パラメータを生成す
る手段と、その物理的制御パラメータを用いて前記強調
指定された部分を指定された強調レベルに従って音声を
合成出力する手段とを備え、出力音声中の特定部分に対
して人間の感覚に合致した強調処理が施された音声を合
成出力することが可能とされる。
【0007】
【実施例】以下に、この発明の実施例を図面を用いて詳
細に説明する。この発明は、文字から音声を合成出力す
る規則合成方式に適用する場合と、予め蓄積されている
音声を出力する分析合成方式に適用する場合とがある。
以下では規則合成方式に適用する場合を例に実施例の説
明を行う。
【0008】図1において、利用者が強調部分の指定、
強調レベルの指定を入出力デバイス1で行うが、この入
出力デバイス1に対してテキストメモリ2に記憶されて
いる音声合成しようとするテキストの内容を表示し、利
用者にはその表示されている文字列の部分のうちどの部
分を強調するかの指示を行わせる。すなわち、利用者は
画面上に表示されている文字の中で強調処理を行いたい
部分をマウス、キーボード等の入力手段を用いて指定す
る。さらに、その指定した部分に対してどの程度の強さ
の強調を行いたいかを表す強調のレベルを指定する。こ
のとき、強調のレベルを表現する言葉としては「普通の
強調」、「強めの強調」、「強調レベル大」、「強調レ
ベル中」など、人間の感覚で指定できるものとすること
により音声の専門的な知識や専門用語に精通していない
利用者でも容易に使用することが可能とされる。図2A
に、入出力デバイス1として表示器、キーボード、マウ
ス等を用いた場合の表示画面21の表示例を示す。利用
者は画面21に表示されている文字列22のうち強調処
理を行う部分を指定(図2Aの例では下線が引いてある
部分)した後、画面21上の強調スイッチ23のONを
指示し、次に強調部分に対する強調のレベルを画面21
上に表示されているスライドボリューム24をマウス等
で操作指定して入力する。スライドボリューム24の近
くにそのスライド方向に沿って、強調レベルの大小表示
25が表示されている。
【0009】図1のテキスト−音声変換部3では、テキ
ストメモリ2から読み出された文字列に対して読みを付
与し、さらに、基本となる音声の単位を結合し、当該文
字列に対応する音声のパラメータを生成する。テキスト
−音声変換の方法については種々提案されており(例え
ば、箱田、広川、水野、中嶌「COC法を用いたテキス
ト合成ボードの試作」電子情報通信学会、音声研究会資
料、SP 90-55(1990)など) 、適当な方式を選択すれば良
いが、後で強調処理を行う必要があるため、変換・生成
される音声パラメータとして音の大きさ、基本周波数、
速度などが制御可能な方式(例えばLPC合成方式、L
SP合成方式などを採用している方式)であることが望
ましい。テキスト−音声変換部3で生成された音声パラ
メータは音声パラメータメモリ4に蓄積される。
【0010】入力デバイス1に入力された強調部分指定
情報に対応する制御信号は、強調部分指定情報入力部5
において文字列のどの部分が強調対象であるかを表す位
置情報パラメータに変換され、音声−パラメータ対応変
換部6に出力される。音声−パラメータ対応変換部6で
は、入力された位置情報パラメータとテキストメモリ
2,音声パラメータメモリ4の読み出しとの対応がとら
れ、音声パラメータメモリ4に記憶されている文字列が
変換された音声パラメータ列中の強調対象となる部分の
パラメータが抽出される。
【0011】一方、入力デバイス1に入力された感覚的
な強調レベル指定情報は、強調レベル入力部7で感覚的
な強調レベルを数値で表す感覚レベルに変換される。こ
の感覚レベルとしては例えば最も小さい強調レベルを−
1に、最も大きい強調レベルを1に、普通の強調レベル
を0に対応させた数値を用いる方法、最も小さい強調レ
ベルを0に、最も大きい強調レベルを1に、普通の強調
レベルを0.5に対応された数値を用いる方法等種々の方
法が考えられるが、以下では−1から1に対応させた場
合を例に説明を行う。
【0012】感覚量−物理量変換部8では、強調レベル
入力部7より出力された感覚的な強調レベルを表す感覚
レベルから、物理的に音声パラメータの変形を行うため
の物理パラメータ変換値(物理制御パラメータ)を求め
る。人間の発声において、ある特定部分を強調する場
合、音調を際立たせ、強く、ゆっくり発音し、強調する
語の前に間を置き、さらに子音母音の調音を念入りに行
うことが知られている(例えば、和田實「アクセント
イントネーション プロミネンス」、徳川宗賢編、「ア
クセント」(論集日本語研究2)、有精堂(昭和55
年)など)。この実施例では、強調を表す物理パラメー
タとして、(1)音量(音圧)、(2)基本周波数(ピ
ッチ)、(3)発話速度、(4)強調部分の前に挿入す
るポーズ、(5)強調部分の後に挿入するポーズ、を用
いた場合について述べる。
【0013】感覚量−物理量変換部8では、予め求めら
れた規則に従って感覚レベルから物理パラメータ変換値
を求める。例えば、感覚レベルと物理パラメータ変換値
との対応を示す変換テーブルを用意しておき、入力され
た感覚レベルから物理パラメータ変換値を求めれば良
い。図3に感覚レベルから物理パラメータ変換値を求め
るテーブルの内容をグラフ化して表した例を示す。図3
Aは感覚レベルから強調部分の音量に変換するための値
を求めるための図の例であり、例えば、感覚レベルの値
が0.5の場合、強調部分の音量を強調を施さない場合よ
りも7dB大きな値とする。また、図3Bは、感覚レベル
から強調部分の発話速度に変換するための係数を表す図
の例であり、例えば感覚レベルの値が0.5の場合、強調
区間の発話速度を0.7倍とし、ゆっくり発話させる。具
体的には、感覚レベルの値が0.5の場合、例えば強調を
施さない場合の音声合成のフレーム周期が8ミリ秒であ
るのに対して強調部分のフレーム周期を11.4ミリ秒と
する、などの手法により実現可能である。同様に、図3
Cは、強調部分の基本周波数を変換するための係数と感
覚レベルとの対応を示す図の例であり、感覚レベルが0.
5の場合、強調部分の基本周波数は強調を施さない場合
の1.1倍となる。また、図3D,図3Eはそれぞれ強調
部分の前に挿入するポーズの長さ、強調部分の後に挿入
するポーズの長さと感覚レベルとの対応を表す図であ
り、例えば感覚レベルが0.5の場合、強調部分の前に4
20ミリ秒のポーズを、強調部分の後ろに260ミリ秒
のポーズを挿入する。
【0014】感覚レベルと物理パラメータ変換値との対
応は、音声合成の素材となる音声の発話者の性別、扱う
文書の内容などにより異なってくるが、一般的な値は、
種々の強調レベルにより人間が発声した音声を分析して
対応を求める、または、種々の物理的なパラメータで合
成された音声を複数の被験者に比較聴取させた結果を精
神測定法の手法を用いて分析し、物理パラメータ値と強
調の感覚レベルとの対応を求める、あるいは音声合成に
必要な物理パラメータを操作・制御可能な音声制御装
置、音声編集装置等により複数の被験者に強調レベルの
異なる合成音声を作成させ強調レベルとパラメータ値と
の対応を求める、などの方法により得ることができる。
なお、物理的なパラメータは図3に示したように、発話
速度については0.6〜0.9倍、音量については3〜9d
B,基本周波数については1.05〜1.15倍、強調部分
の前に挿入するポーズの時間長としては200〜550
ミリ秒、強調部分の後に挿入するポーズの時間長として
は150〜350ミリ秒を、感覚的な強調レベル−1〜
1に対応して変換することが望ましい。
【0015】以上では変換テーブルを用いて感覚レベル
を物理量に変換する例について説明を行ったが、変換テ
ーブルに相当する内容を近似式として表す変換式として
蓄えておき、感覚レベルから物理制御パラメータへ計算
により変換する方法によっても実現可能である。図3の
例では、音量の増加分(dB),発話速度の変換係数、基
本周波数の変換係数、強調部分の前に挿入するポーズ長
(ミリ秒)、強調部分の後に挿入するポーズ長(ミリ
秒)をそれぞれa,α1 ,α2 ,p1 ,p2 とすると、
これらの値は感覚レベルxを用いて、下記の式を演算す
ることにより求めることができる。
【0016】a=0.6x2+2.6x+6.0〔dB〕 α1 =0.77x2−0.11x−0.03 α2 =0.02x2+0.04x+1.07 p1 =44x2+154x+331〔ミリ秒〕 p2 =20x2+76x+221 〔ミリ秒〕 図1において強調処理部9では、音声−パラメータ対応
変換部6で得た強調処理対象位置に対応した音声パラメ
ータを、音声パラメータメモリ4より抽出すると共に、
感覚−物理量変換部8で得た強調部分に対する物理パラ
メータ変換値(物理制御パラメータ)を用いて、強調対
象音声部分の音声パラメータに強調処理を施す。音声の
強調処理は、例えば発話速度については合成のフレーム
周期を変換する、基本周波数については音声合成の駆動
パルスの間隔を変更するなどの一般的な手法(例えば、
特願平3−180812「音声強調装置」など)により
実現可能である。
【0017】音声合成部10では、まず、強調処理部9
から出力される強調処理された強調部分の音声パラメー
タと、音声パラメータメモリ4中に蓄えられている音声
パラメータのうち強調部分以外の音声パラメータとを参
照し、結合する。このとき、強調部分の音声パラメータ
には強調処理の変形が加えられているため、その前後で
パラメータの不連続が生じる。従って次に、強調部分の
前後の音声パラメータを平滑化し音声パラメータの不連
続を除去する。最後に、得られた最終的な音声パラメー
タから出力すべき音声信号を合成し、さらに出力デバイ
ス11でディジタル−アナログ変換され、スピーカ等か
ら利用者により指定された区間に対して感覚量で指定さ
れた強調処理を施した合成音声を出力する。
【0018】以上、この発明を規則合成方式による音声
合成に適用する場合の例で説明を行ったが、予め分析し
て蓄えられている音声を合成出力する分析合成方式に適
用する場合には、図1でテキストメモリ2とテキスト音
声変換部3との代わりに音声メモリを用い、その音声メ
モリに、なまの音声波形、パワー、あるいは分析コード
化したものを記憶しておき、入出力デバイス1に対して
この音声メモリの記憶内容(コード記憶の場合は音声合
成して)を表示し、強調する部分の指定を行わせるこ
と、を除いて同様の構成により実現可能である。分析合
成方式に対して適用する場合の入出力デバイス1の画面
21の表示例を図2Bに示す。この場合、画面21に表
示されている音声波形26や音声パワー27の中で強調
処理を施す部分をマウス等の入力手段を用いて指示する
(図2Bでは音声波形の下の斜線を施した部分)と共に
強調スイッチ23をONに指示し、その後図2Aに示し
た例と同様、感覚的な強調のレベルを画面上に表示され
たスライドボリューム24をマウス等で操作し入力す
る。なお、強調区間や強調のレベルの入力は、この例で
示した方法以外にも、キーボード、マウス、ボリュー
ム、ジョイスティック等さまざまな入力手段により実現
可能である。
【0019】
【発明の効果】以上説明したように、この発明の音声合
成装置によれば、指定したキーワードや句に対して、感
覚的な言葉で表現された強調のレベルを自由に変化させ
ながら、合成音声を出力することが可能であり、この結
果単調となりがちな合成音声の表現力が増加し、合成音
声により意図や感情を表現することが可能となるばかり
でなく、音声の合成に関する専門的な知識を持たないユ
ーザでも自由に意図を埋め込んだ表現力豊かな合成音声
の出力を制御することが可能となる。
【図面の簡単な説明】
【図1】この発明による音声合成装置の一実施例を示す
ブロック図。
【図2】Aは規則合成方式に対して適用する場合の入力
画面の例を示す図、Bは分析合成方式に対して適用する
場合の入力画面の例を示す図である。
【図3】感覚レベルと物理パラメータ変換値との対応の
各種を示すグラフ。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 蓄えられた音声または文字から音声を合
    成出力する音声合成装置において、 出力音声中の強調出力する部分を指定入力する強調部分
    指定入力手段と、 当該強調部分の強調の程度を指定入力する強調レベル入
    力手段と、 その入力された強調レベルから音声合成制御するための
    複数の物理制御パラメータに変換する物理制御パラメー
    タ変換手段と、 前記物理制御パラメータを用いて前記指定された部分を
    前記指定された強調レベルに従って音声を合成出力する
    音声出力手段と、 を具備することを特徴とする音声合成装置。
JP4026800A 1992-02-13 1992-02-13 音声合成装置 Pending JPH05224689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4026800A JPH05224689A (ja) 1992-02-13 1992-02-13 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4026800A JPH05224689A (ja) 1992-02-13 1992-02-13 音声合成装置

Publications (1)

Publication Number Publication Date
JPH05224689A true JPH05224689A (ja) 1993-09-03

Family

ID=12203391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4026800A Pending JPH05224689A (ja) 1992-02-13 1992-02-13 音声合成装置

Country Status (1)

Country Link
JP (1) JPH05224689A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019535A1 (fr) * 2000-02-28 2003-03-06 Linguamaster Corporation Structure de donnees, procede de production, procede de lecture, procede d'enregistrement, support d'enregistrement et procede de distribution de donnees vocales, et procede de lecture de donnees multimedia
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
JP2007079019A (ja) * 2005-09-13 2007-03-29 Oki Electric Ind Co Ltd 音声合成方法,音声合成装置,およびコンピュータプログラム
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
JP2009192903A (ja) * 2008-02-15 2009-08-27 Yamaha Corp 音声処理装置、再生装置およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019535A1 (fr) * 2000-02-28 2003-03-06 Linguamaster Corporation Structure de donnees, procede de production, procede de lecture, procede d'enregistrement, support d'enregistrement et procede de distribution de donnees vocales, et procede de lecture de donnees multimedia
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
JP2007079019A (ja) * 2005-09-13 2007-03-29 Oki Electric Ind Co Ltd 音声合成方法,音声合成装置,およびコンピュータプログラム
JP4640063B2 (ja) * 2005-09-13 2011-03-02 沖電気工業株式会社 音声合成方法,音声合成装置,およびコンピュータプログラム
JP2009192903A (ja) * 2008-02-15 2009-08-27 Yamaha Corp 音声処理装置、再生装置およびプログラム

Similar Documents

Publication Publication Date Title
EP3588485B1 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
EP3588484B1 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
JP2003114693A (ja) 音声制御情報ストリームに基づいて音声信号を合成する方法
JP2003084800A (ja) 音声による感情合成方法及び装置
CN111696498A (zh) 键盘乐器以及键盘乐器的计算机执行的方法
JP3518898B2 (ja) 音声合成装置
JPH05224689A (ja) 音声合成装置
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP3437064B2 (ja) 音声合成装置
JPH08335096A (ja) テキスト音声合成装置
JP5560888B2 (ja) 符号化音声データの音高変換装置
JP2642617B2 (ja) 音声合成装置
CN113255313B (zh) 音乐生成方法、装置、电子设备和存储介质
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3883780B2 (ja) 音声合成装置
JPH11161297A (ja) 音声合成方法及び装置
JP3133347B2 (ja) 韻律制御装置
JPH06266382A (ja) 音声制御方式
JP3292218B2 (ja) 音声メッセージ作成装置
CN115273776A (zh) 端到端歌声合成方法、计算机设备及存储介质
JP3297221B2 (ja) 音韻継続時間長制御方式
JPH0667685A (ja) 音声合成装置
JPH1011083A (ja) テキスト音声変換装置
JPH06214585A (ja) 音声合成装置