WO2004066271A1

WO2004066271A1 - 音声合成装置，音声合成方法および音声合成システム

Info

Publication number: WO2004066271A1
Application number: PCT/JP2003/000402
Authority: WO
Inventors: Hitoshi Sasaki; Yasushi Yamazaki; Yasuji Ota; Kaori Endo; Nobuyuki Katae; Kazuhiro Watanabe
Original assignee: Fujitsu Limited
Priority date: 2003-01-20
Filing date: 2003-01-20
Publication date: 2004-08-05
Also published as: US20050171778A1; JP4038211B2; JPWO2004066271A1; US7454345B2

Abstract

音声合成技術に関し、文章の特定部又は特定部分を強調することにより聞き取りやすい音声を得る技術を提供する。かかる音声合成装置１が、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部３６と、上記の強調すべき各単語又は連語に強調度自動決定部３６にて決定された強調度を付与した音声を合成する音響処理部６０とをそなえて構成することにより、各単語又は連語の強調部分の出現頻度，重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を得ることができ、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上し、聞き取りやすい音声合成装置，音声合成方法および音声合成システムを提供する。

Description

音声合成装置，音声合成方法および音声合成システム技術分野

本発明は、例えば入力された文章を読み上げて音声を出力する音声合成技術に関し、特に、文章の特定部分の強調により聞き取りやすい音声を合成する音声合成技術に用いて好適な、音声合成装置，音声合成方法および音声合成システムに関する。

明田

背景技術

一般に、音声合成装置は、入力された文字，文章，記号および数字等の文字列からなるテキスト形式のファイルを読み出して、複数の音声波形データをライブラリ化した辞書を参照することにより、読み出した文字列を音声に変換するものであり、例えば、パーソナルコンピュータのソフトウェアアプリケーションに用いられている。また、聴覚的に自然な音声を得るために、文章中の特定の語句（特定語）を強調する音声強調方法が知られている。

図 1 3はプロミネンス（特定部分を強調すること。卓立とも称する。）が使用されていない音声合成装置のプロック図である。この図 1 3に示す音声合成装置 1 0 0は、形態素解析部 1 1と、単語辞書 1 2と、パラメータ生成部 1 3と、波形辞書 1 4と、ピッチ切り出し ·重ね合わせ部（ピッチ切り出しおよび重ね合わせ部） 1 5とをそなえて構成されている。

形態素解析部 1 1は、入力された漢字かな混じり文章について、単語辞書 1 2 を参照して形態素（文章を構成する最小の言語単位又は文章中において意味をもつ最小単位）を解析し、単語の種類（品詞の区分），単語の読み，アクセント又はイントネーションをそれぞれ決定し、韻律記号付き発音記号（中間言語）を出力するものである。この形態素解析部 1 1が入力されるテキスト形式のファイルは、日本語の場合は漢字かな混じりの文字列であり、英語の場合はアルファべット列である。よく知られているように、有声音（特に母音）の生成モデルは、音源（声帯），調音系（声道）および放射口（唇）からなり、肺からの空気が声帯を振動させることにより音源信号が発生する。また、声道とは、声帯からのどの部分からなり、のどの径を太く又は細くすることにより声道の形状が変化し、音源信号が声道の特定の形状に共鳴することにより、複数の母音が生成される。そして、この生成モデルに基づいて、以下に述べるピッチ周期等の特性が定義される。

ここで、ピッチ周期とは声帯の振動周期を表し、ピッチ周波数（基本周波数又は単にピッチとも称する。）とは声帯の振動周波数であって声の高さに関する特性である。また、アクセントとは、単語のピッチ周波数の時間的な変化であり、ィントネ一シヨンとは、文章全体のピッチ周波数の時間変化であり、これらのァクセントおよびイントネーションは、物理的には、ピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がるとピッチ周波数が高くなる。

これらのアクセント等の情報が使用されずに、例えば一定のピッチ周波数で合成された音声は、いわゆる棒読み、換言すれば、ロボットが読むような聴覚的に不自然な音声になることが多い。このため、音声合成装置 1 0 0は、処理の後段において自然なピッチ変化を生成できるように、韻律記号付き発音記号を出力する。元の文字列および中間言語（韻律記号付き発音記号）の一例は、次のようになる。

文字列：「アクセントはピッチの時間的変化と関連がある。」

中間言語：「ァ ' ク⁰ /₀セントヮピ，ッチノジカンテキへ，ンカトカンレンガ &ァ' ル.」

ここで、「'」はアクセント位置、「％」は無声子音、「&」は鼻濁音、」は平叙文の文境界および「（全角スペース）」は文節の区切りをそれぞれ表す。

すなわち、中間言語は、ァクセント，イントネーション，音素継続時間又はポーズ継続時間等を付与された文字列として出力される。

単語辞書 1 2は、単語の種類，単語の読みおよびアクセントの位置等を対応付けて格納（保持，蓄積又は記憶）するものである。

波形辞書 1 4は、音声自体の音声波形データ（音素波形又は音声素片）と、音声の特定部分がどの音素かを示す音素ラベルと、有声音についてピッチ周期を示すピッチマークとを格納するものである。

パラメータ生成部 1 3は、文字列について、ピッチ周波数のパターン，音素の位置，音素継続時間，ポーズ継続時間おょぴ音声の強さ（音圧）等のパラメータを生成，付与又は設定し、また、波形辞書 1 4に格納された音声波形データのうちのどの部分の音声波形データを使用するか否かを決定するものである。このパラメータにより、ピッチ周期，音素の位置等が決定し、人間が文章を読むような自然な音声が得られる。

ピッチ切り出し ·重ね合わせ部 1 5は、波形辞書 1 4に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する区間（波形区間）と隣接する前後の区間に属する音声波形データの一部とを重畳（オーバーラップ）させて加算し音声を合成するものである。このピツチ切り出し ·重ね合わせ部 1 5の処理方法は、例えば P S O L A (Pitch-Synchronous Overlap-add ：波形の加算重畳によるピツチ変換方法）法が用いられている（"Diphone Synthesis Using an Overlap-add Technique for Speech Waveforms Concatenation" ICASSP '86, pp.2015-2018, 1986参照）。

図 1 5 ( a ) 〜図 1 5 ( d ) はそれぞれ波形の加算重畳方法を説明するための図である。 P S O L A法は、図 1 5 ( a ) に示すように、生成されたパラメータに基づいて波形辞書 1 4から 2周期分の音声波形データを切り出し、次に、図 1 5 ( b ) に示すように、その切り出した音声波形データに、窓関数（例えばハニング窓）を乗じて処理音声波形データを生成する。そして、図 1 5 ( c ) に示すように、ピッチ切り出し ·重ね合わせ部 1 5は、現区間の前の区間の後半部分と現区間の後の区間の前半部分とを重畳加算し、また、現区間の後半部分と後区間の前半部分とを重畳加算することにより 1周期分の波形を合成する（図 1 5 ( d ) 参照）。

以上の説明は、プロミネンスが使用されていない場合の合成である。

次に、図 1 4を参照してプロミネンスが使用される場合の合成を説明する。プロミネンスを使用してユーザの指定した単語等の特定部分を強調する音声合成装置も種々提案されている（例えば、特開平 5— 2 2 4 6 8 9号公報 [以下、公知文献 1と称する。] 参照)。

図 1 4はプロミネンスが使用される音声合成装置のプロック図であり、プロミネンスが手動により入力されるものである。この図 1 4に示す音声合成装置 1 0 1と図 1 3に示す音声合成装置 1 0 0との相違点は、形態素解析部 1 1の入出力側に、入力された文章のうちのどの部分をどの程度強調するかについての設定データを手動入力により指定する強調単語手動入力部 2 6が設けられている点である。なお、強調単語手動入力部 2 6以外のもので上述したものと同一符号を有するものは同一機能を有する。

そして、図 1 4に示すパラメータ生成部 2 3は、強調単語手動入力部 2 6において指定された部分について、強調されていない音声部分よりも高いピッチ又は長い音素長を設定し、特定の単語を強調するためのパラメータを生成する。また、パラメータ生成部 2 3は、強調する音声部分において振幅を大きくし、又はその音声部分の前後にポーズを入れる等のパラメータを生成する。

さらに、従来から、音声強調方法については、多数、提案されている。

例えば、プロミネンスを使用する別の合成方法は、特開平 5— 8 0 7 9 1号公報等に開示されている。

さらに、特開平 5— 2 7 7 9 2号公報（以下、公知文献 2と称する。）には、テキスト文章の読み上げとは異なるキーワード辞書（重要度辞書）を設けて、特定のキーワードを強調する音声強調装置が開示されている。この公知文献 2記載の音声強調装置は、音声を入力としディジタル音声波形データに基づいて、スぺクトル等の音声の特徴量を抽出したキーヮード検出を用いたものである。

しかしながら、公知文献 1記載の強調方法を用いる場合、ユーザは、強調する部分が現れる都度、プロミネンスを手動で入力しなければならず、操作が煩雑という課題がある。

さらに、公知文献 2記載の音声強調装置は、多段階に強調レベルを変更するものではなく、音声波形データに基づくキーワード抽出を行なうものである。従つて、やはり、操作性が不足する可能性がある。発明の開示

本発明は、このような課題に鑑み創案されたもので、単語又は連語の強調部分の出現頻度，重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を得ることができ、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上し、聞き取りやすい音声合成装置を提供することを目的とする。このため、本発明の音声合成装置は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、上記の強調すべき各単語又は連語に強調度決定部にて決定された強調度を付与した音声を合成する音響処理部とをそなえて構成されたことを特徴としている。従って、このようにすれば、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞き取りやすい合成音声が自動的に得られる。また、強調度決定部は、文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持部と、保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する単語決定部とをそなえて構成されてもよく、このようにすれば、比較的簡素な構成により、プロミネンスが自動的に決定され、ユーザに課せられる多数の手間が省略できる。

この強調度決定部は、抽出基準として、以下の（Q 1 ) 〜（Q 5 ) に基づいて強調度を決定することができる。

(Q 1 ) 上記の各単語又は連語の出現頻度に基づく強調度の決定。このようにすれば、やはり、強調度を自動的に決定できる。

(Q 2 ) 文章に含まれる特定の固有名詞に基づく強調度の決定。このようにすれば、固有名詞を強調することにより全体として聞き取りやすい合成音声の生成を期待できる。

(Q 3 ) 文章に含まれる文字種別に基づく強調度の決定。このようにすれば、例えば力タ力ナ語を強調することにより、文章全体として聞き取りやすい合成音声の生成を期待できる。

(Q 4 ) 上記の各単語又は連語の出現箇所と出現箇所の回数とに基づく強調度の決定。具体的には、強調度決定部は、上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が 2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定するように構成することができる。従って、このようにすれば、単語の 1回目の出現箇所においてはその単語を強めに強調し、また、 2回目以降の出現箇所においてはその単語を弱めに強調するので、冗長にならず、高い品質の音声を得られる。

(Q 5 ) 上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づく強調度の多段階の決定。従って、このようにすれば、強調すべき単語を、その強調すべきレベルに応じて確実に強調できる。さらに、本発明は、テキスト文章を読むものであり音声波形データからキーワードを抽出するものではない点で、キーヮード抽出を用いずに多段階強調を用いていない公知文献 2記載の音声強調装置と異なる。

また、前記音響処理部は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、形態素解析部からの韻律記号付き中間言語のうちの強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部とをそなえて構成されてもよく、このようにすれば、設計変更せずに、既存の技術を利用でき、一層合成音声の品質が向上する。そして、本発明の音声合成装置は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、形態素解析部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について少なくとも音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部とをそなえて構成されたことを特徴としている。従つて、このようにすれば、やはり、自動的に強調度を決定できる。

前記ピッチ切り出し ·重ね合わせ部は、波形辞書に格納された音声波形データを、パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関数を乗じた処理音声波形データと、この処理音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成するように構成されてもよく、このようにすれば、聴感が補正され、自然な合成音声が得られる。

本発明の音声合成方法は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、抽出ステップにて抽出された各単語又は連語についての強調度を決定する単語決定ステップと、上記の強調すべき各単語又は連語に単語決定ステツプにて決定された強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴としている。

従って、このようにすれば、やはり、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞きやすい合成音声が得られる。

本発明の音声合成システムは、入力された文章についての音声を合成して出力する音声合成システムであって、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、形態素解析部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について少なくとも音素位置データおよぴピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部とをそなえて構成されたことを特徴としている。

従って、このようにすれば、音声合成システムは、各機能を遠隔配置し、各機能にデータ送受信回路を付与することにより、通信回線を介して、データ又は信号を送受信でき、これにより、各機能を発揮させることができる。図面の簡単な説明図 1は本発明の一実施形態に係る音声合成装置のプロック図である。

図 2は本発明の一実施形態に係る第 1の共有メモリのデータ例を示す図である。図 3は本発明の一実施形態に係る第 1の強調度決定部のプロック図である。図 4は本発明の一実施形態に係る第 2の共有メモリのデータ例を示す図である。図 5は本発明の一実施形態に係る第 2の音声合成装置のプロック図である。図 6は本発明の一実施形態に係る第 2の強調度決定部のプロック図である。図 7は本発明の一実施形態に係る第 3の共有メモリのデータ例を示す図である。図 8は本発明の一実施形態に係る第 3の強調度決定部のブロック図である。図 9は本発明の一実施形態に係る第 4の共有メモリのデータ例を示す図である。図 1 0は本発明の一実施形態に係る第 4の強調度決定部のプロック図である。図 1 1は本発明の一実施形態に係る第 5の共有メモリのデータ例を示す図である。

図 1 2は本発明の一実施形態に係る第 5の強調度決定部のプロック図である。図 1 3はプロミネンスが使用されていない音声合成装置のプロック図である。図 1 4はプロミネンスが使用される音声合成装置のプロック図である。

図 1 5 ( a ) 〜図 1 5 ( d ) はそれぞれ波形の加算重畳方法を説明するための図である。発明を実施するための最良の形態

(A) 本発明の一実施形態の説明

図 1は本発明の一実施形態に係る音声合成装置のブロック図である。この図 1 に示す音声合成装置 1は、入力された文章を読み出して音声を合成するものであつて、入力部 1 9と、強調度自動決定部（強調度決定部） 3 6と、音響処理部 6 0とをそなえて構成されている。ここで、入力部 1 9は、漢字かな混じりの文章を音響処理部 6 0に入力するものである。

また、強調度自動決定部 3 6は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。

ここで、各単語又は連語についての抽出基準とは、入力された多数の文字列から、どの単語又は連語を抽出して強調するかを決定するための基準である。以下に述べる第 1の態様における音声合成装置 1の強調度自動決定部 3 6は、抽出基準として、上記の各単語又は連語の出現頻度に基づいて強調度を決定するようになっている。また、この抽出基準は、単語の重要度，特定の固有名詞，カタカナのような特定の文字種別等を用いることができ、又は各単語又は連語の出現箇所とその出現箇所の回数とに基づく基準等、種々の抽出基準を用いることができ、各抽出基準を用いた音声合成方法については後述する。

なお、図 1に示す音声合成装置 1 a， 1 c〜l eは後述する他の実施態様においてそれぞれ説明する。

( 1 ) 音響処理部 6 0の構成

音響処理部 6 0は、上記の強調すべき各単語又は連語に強調度自動決定部 3 6 にて決定された強調度を付与した音声を合成するものであって、形態素解析部 1 1と、単語辞書 1 2と、パラメータ生成部 3 3と、波形辞書 1 4と、ピッチ切り出し ·重ね合わせ部（ピッチ切り出しおよび重ね合わせ部） 1 5とをそなえて構成されている。

形態素解析部 1 1は、入力された漢字かな混じりの文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力するものであって、単語の種類，単語の読み，アクセント又はイントネーションをそれぞれ決定し、中間言語を出力するものである。

例えば、文字列：「アクセントはピッチの時間的変化と関連がある。」力形態素解析部 1 1に入力されると、アクセント，イントネーション，音素継続時間又はポーズ継続時間等の音声パラメータが付与され、例えば中間言語：「ァ，ク％セントヮピ，ッチノジカンテキへ，ンカトカンレンガ&ァ，ル.」が生成される。

また、単語辞書 1 2は、単語の種類，単語の読みおよびアクセントの位置等を対応付けて格納するものである。そして、形態素解析部 1 1は、形態素解析部 1 1自身が解析して得た形態素について単語辞書 1 2を検索し、単語の種類，単語の読み又はアクセント等を得ている。また、この単語辞書 1 2に格納されるデータは、逐次更新することもでき、このようにすれば、広範な言語について音声合成を行なえる。

これにより、漠字かな混じりの文章の文字列は、形態素解析部 1 1の解析により単語（又は連語）に分割され、分割された単語は、それぞれ、その単語の読みおよびアクセント等を付与され、アクセント付きの読みかな列に変換される。パラメータ生成部 3 3は、形態素解析部 1 1からの韻律記号付き中間言語のうちの強調度自動決定部 3 6にて決定された各単語又は連語についての音声合成パラメータを生成するものである。また、パラメータ生成部 3 3は、形態素解析部 1 1からの中間言語から音声合成パラメータを生成し、その際、強調度自動決定部 3 6にて決定された各単語又は連語については強調された音声合成パラメータとするのである。

この音声合成パラメータは、ピッチ周波数のパターン，音素の位置，音素継続時間，強調部分の前後に加えるポーズ継続時間おょぴ音声の強さ等である。この音声合成パラメータにより、音声の強さ，高さ，イントネーション又はポーズの挿入時間，挿入場所等が決定し、自然な音声が得られる。例えば、読み手は、文章の段落部分を読むときに、読みの開始前にポーズを入れ、開始部分を強調して読み、又はゆっくりと読む。これにより、一つの文章に含まれるかたまりが識別および強調され、文章の区切り位置が明確になる。

波形辞書 1 4は、音声自体の音声波形データ（音素波形又は音声素片）と、音声の特定部分がどの音素かを示す音素ラベルと、有声音についてピッチ周期を示すピッチマークとを格納するものである。この波形辞書 1 4は、以下に述べるピツチ切り出し ·重ね合せ部 1 5からのアクセスに応じて、音声波形データのうちの適切な部分の波形データを選択し音声素片を出力する。これにより、波形辞書 1 4のどの部分の音声波形データが使用されるかが決定する。なお、波形辞書 1 は、音声波形データを P C M (Pulse Coded Modulation) データの形式で保持することが多い。

この波形辞書 1 2が格納する音素波形は、その音素の両側に位置する音素（音素コンテキスト）によって異なるので、同一音素について異なる音素コンテキストが接続されたものは異なる音素波形として扱われる。従って、波形辞書 1 2は、予め細分ィヒされた音素コンテキストを多数保持し、合成音声の聞きやすさおよぴ滑らかさを向上させるようになつている。なお、以下の説明においては、特に断らない限り、聞きやすさとは、明瞭度を意味し、具体的には人間による音の認識度を表す。

ピッチ切り出し ·重ね合わせ部 1 5は、例えば P S O L A法を用いており、パラメータ生成部 3 3からの音声合成パラメータに従って、波形辞書 1 4に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数を乗じた処理音声波形データとその前後の周期における処理音声データの一部とを重畳加算し合成音声を出力するものである。

さらにこのピッチ切り出し ·重ね合わせ部 1 5について詳述する。

ピッチ切り出し ·重ね合わせ部 1 5は、パラメータ生成部 3 3にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの —部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成する。

また、ピッチ切り出し '重ね合わせ部 1 5は、波形辞書 1 4に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する現周期の前後の前周期おょぴ後周期に属する音声波形データの一部とを重畳加算し合成音声を出力する。従って、この処理により、聴感が補正され、自然な合成音声が得られる。具体的には、ピッチ切り出し ·重ね合わせ部 1 5は、生成されたパラメータに基づいて波形辞書 1 4から 2周期分の音声波形データを切り出し、図 1 5 ( a ) 〜図 1 5 ( d ) のそれぞれに示すように、その切り出した音声波形データに、窓関数（例えばハユング窓）を乗じて処理音声波形データを得る。そして、ピッチ切り出し ·重ね合わせ部 1 5は、前周期の後半部分と現周期の前半部分とを加算することにより、 1周期分の合成波形を生成し、同様に、現周期の後半部分と後周期の前半部分とを加算して合成波形を生成するのである。

そして、波形辞書に格納された P C Mデータは、ディジタル ·アナログ変換部 (図示省略）において、アナログデータに変換され、ピッチ切り出し ·重ね合わせ部 1 5から合成音声信号として出力される。

なお、窓関数を乗じられた処理音声波形データは、必要に応じて、振幅調整のためのゲイン（利得）を乗じられる。また、 P S O L A法におけるピッチ周波数のパターンは、音声波形の切り出し位置を示すピッチマークを用いており、これにより、ピッチ周期は、ピッチマークの間隔により示されるようになつている。さらに、波形辞書 1 4におけるピッチ周波数と所望のピッチ周波数とが異なる場合、ピッチ切り出し ·重ね合わせ部 1 5は、ピッチ変換する。

次に、強調度自動決定部について詳述する。

( 2 ) 強調度自動決定部（強調度決定部） 3 6の構成

(A 1 ) 第 1.の態様

図 1に示す強調度自動決定部 3 6は、単語出現頻度集計部 3 7と、共有メモリ (保持部） 3 9と、単語強調度決定部 3 8とをそなえて構成されている。

共有メモリ 3 9は、単語出現頻度集計部 3 7にて集計された出現頻度と各単語又は連語とを対応付けて保持するものであり、また、単語出現頻度集計部 3 7，単語強調度決定部 3 8およびパラメータ生成部 3 3等によって、参照又は書き込み可能なメモリによってその機能が実現される。

図 2は本発明の一実施形態に係る第 1の共有メモリ 3 9のデータ例を示す図である。この図 2に示す共有メモリ 3 9は、単語とその単語の出現頻度（回数）と強調の有無とを対応付けて格納し、また、記録可能な領域（例えば行数等）は增減可能である。例えば、単語「時間的」の出現頻度は 2回であり、入力された文章に、この単語「時間的」が現れた場合においても、単語「時間的」の強調が不要である旨が書き込まれている。一方、単語「アクセント」については、出現頻度が 4回であり、文章にこの単語「アクセント」が現れた場合は強調されるように処理される。

そして、図 1に示す単語強調度決定部 3 8は、共有メモリ 3 9に保持された出現頻度が高い各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。この強調度自動決定部 3 6についてさらに詳述する。図 3は本発明の一実施形態に係る第 1の強調度自動決定部 3 6のプロック図である。この図 3に示す強調度自動決定部 3 6の単語出現頻度集計部 3 7は、強調除外辞書 4 4と、除外単語考慮型の単語出現頻度集計部（以下、第 2単語出現頻度集計部と称する。） 3 7 aとをそなえて構成されている。

ここで、強調除外辞書 4 4は、入力された文章のうちの音声強調不要な単語又は連語については強調を除外するものであって、除外の対象となる文字列に関する情報を記録した辞書データを保持するものである。また、強調除外辞書 4 4が格納する辞書データは、適宜更新してもよく、このようにすれば、顧客要求により合致した処理が可能となる。

第 2単語出現頻度集計部 3 7 aは、入力部 1 9 (図 1参照）から文字列を入力されると、その入力された文字列に含まれる特定単語については、出現頻度にかかわらず、強調すべきものから除外し、除外されていない単語については、通常に集計し、単語と頻度情報とを対応させて共有メモリ 3 9 aに記録するものであつて、ソート（並ぴ替え処理）部 4 2と、強調単語抽出部 4 3とをそなえて構成されている。

そして、第 2単語出現頻度集計部 3 7 aは、入力された文字列を言語処理して得た単語が、強調の除外対象であるか否かを判定するために、一旦、強調除外辞書 4 4のデータを予め検索し、その検索により、予め除外すべき単語に関する情報を得て、入力された文字列に含まれる単語又は連語のうちの特定単語を除外し、この除外されたもの以外の単語おょぴ出現頻度については、単語および出現頻度をペアにしたペアデータ単語一頻度情報を出力するようになっている。

これにより、文章に含まれる各単語又は連語の出現頻度が抽出基準として用いられ、単語出現頻度集計部 3 7が、この出現頻度を集計する。

次に、図 3に示す単語強調度決定部 3 8は、入力された文章に含まれる文字列のうちの強調する単語に関する情報を出力するものであって、ソート部 4 2と強調単語抽出部 4 3とをそなえて構成されている。なお、この図 3に示すもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。

ここで、ソート部 4 2は、共有メモリ 3 9 aのデータを出現頻度に基づいてソ —ド（並べ替え）し、そのソートしたデータを単語，出現順位をペアにした単語一頻度情報を出力するものである。このソート部 4 2は、共有メモリ 3 9 aから複数のデータ要素を取得し、並ぴ替えの軸として出現順位を用いることにより、順位の高い単語から順位に従ってデータ要素を並ぴ替えるのである。ここで、高い順位を有する単語は、文章に多く含まれており、重要な言葉又はキーワードであることが多い。

さらに、強調単語抽出部 4 3は、ソート部 4 2からの単語一出現順位情報を入力され、このペアデータのうちの出現順位情報を並び替えの軸として用いることにより、より正確な抽出が可能となっている。さらに、この強調単語抽出部 4 3 は、強調単語抽出部 4 3自身にて抽出されたペアデータに基づいて、入力される文章に含まれる文字列のうちの重要な単語又は連語を抽出して抽出した単語又は連語を強調すべき単語情報として出力するものである。

次に、図 3に示す共有メモリ 3 9 aは、第 2単語出現頻度集計部 3 7 aにて集計された出現頻度と各単語又は連語とを対応付けて保持するものである。

図 4は本発明の一実施形態に係る第 2の共有メモリ 3 9 aのデータ例を示す図である。この図 4に示す共有メモリ 3 9 aは、単語とその単語の出現頻度（回数) と出現頻度（順位）と強調の有無とをそれぞれ対応付けて格納しており、図 2 示す共有メモリ 3 9に出現頻度（順位）のデータ列が加えられている。なお、この図 4に示すテープルデータの行数は増減可能である。

例えば、入力された文章に含まれる単語「アクセント」の出現頻度が 4回であり、単語「時間的」の出現頻度が 2回であったとし、このうちの「アクセント」の出現頻度が最も大きい場合は、共有メモリ 3 9 aの出現頻度のデータ列に順位 1が書き込まれ、また、単語「時間的」についても、出現頻度のデータ列に順位 5が書き込まれる。そして、ソート部 4 2 (図 3参照）は、この出現頻度に基づいて、共有メモリ 3 9 aのデータをソートする。

これにより、除外単語考慮型単語出現頻度集計部 3 7 aにおいて、入力文章の各単語の出現頻度（回数）が集計され、共有メモリ 3 9 aの第 1列および第 2列にデータが格納される。ここで、強調除外辞書 4 4に記載された単語は除外される。そして、ソート部 4 2は、出現回数の多い単語から順位を付けて共有メモリ 3 9 aの第 3列に格納する。また、強調単語抽出部 4 3は、例えば出現回数の上位 3位までの単語について、強調の有無を決定し、共有メモリ 3 9 aの第 4列に格納する。

さらに、これにより、単語出現頻度集計部 3 7にて入力された文章の各単語又は連語の出現頻度が集計され、その集計結果は共有メモリ 3 9に書き込まれる。単語強調度決定部 3 8は、その集計結果に基づいて各単語又は連語の強調度を決定し、その決定した強調度を共有メモリ 3 9に書き込む。また、パラメータ生成部 3 3は共有メモリ 3 9を参照し強調すべき単語について強調したパラメータを設定する。このため、設計変更をともなわずに、既存の技術を利用でき、一層合成音声の品質が向上する。

従って、本音声合成装置 1は、強調部分（単語 ·連語）の出現頻度に基づいて自動的に強調部分（単語 ·連語）を得ることができ、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞き取りやすい合成音声が自動的に得られる。

このように、出現頻度の高い単語又は連語が強調される。従って、比較的簡素な構成により、プロミネンスが自動的に決定され、ユーザに課せられる多数の手間が省略できる。

上記の音声合成装置 1は、強調度自動決定部 3 6において、文章に含まれる各単語又は連語の出現頻度に基づいて強調すべき各単語又は連語が抽出されて、各単語又は連語についての強調度が決定され、また、音響処理部 6 0において、強調すべき各単語又は連語は、強調度自動決定部 3 6にて決定された強調度が付与されて音声が合成されている。ここで、強調度自動決定部 3 6と音響処理部 6 0 との機能は別個であるが、両機能に分けなくても、本発明は実施可能である。換言すれば、本発明の音声合成装置 1は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部 1 1と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部 3 6と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書 1 4 と、形態素解析部 1 1からの中間言語のうちの強調度自動決定部 3 6にて決定された各単語又は連語について音素位置データおょぴピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部 3 3と、パラメータ生成部 3 3にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部 1 5とをそなえて構成されている。これにより、やはり、自動的に強調度を決定できる。

さらに、各機能を分散配置し、入力された文章についての音声を合成して出力する音声合成システム 1を構築することもできる。

すなわち、本発明の音声合成システム 1は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部 1 1と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部 3 6と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書 1 4と、形態素解析部 1 1からの中間言語のうちの強調度自動決定部 3 6にて決定された各単語又は連語について音素位置データおょぴピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部 3 3と、パラメータ生成部 3 3にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部 1 5とをそなえて構成するのである。

従って、このようにすれば、音声合成システム 1は、各機能を遠隔配置し、各機能にデータ送受信回路（図示省略）を付与することにより、通信回線を介して、データ又は信号を送受信でき、これにより、各機能を発揮させることができる。このような構成により、本発明の音声合成方法と、本音声強調装置 1が強調する単語又は連語を自動決定する例について説明する。

本発明の音声合成方法は、文章に含まれる各単語又は連語についての例えば出現頻度等の抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部 3 6が、上記の各単語又は連語の抽出に関する基準値を集計する（集計ステツプ)。

また、共有メモリ 3 9は、集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する（保持ステップ)。そして、単語考慮度決定部 3 8は保持ステップに保持された基準値が高い各単語又は連語を抽出し（抽出ステップ）、抽出ステップにて抽出された各単語又は連語についての強調度を決定する (単語決定ステップ)。そして、上記の強調すべき各単語又は連語に単語決定ステップにて決定された強調度を付与した音声を合成する（音声合成ステツプ)。従って、ユーザが強調する部分についての設定が可能になる。

単語出現頻度集計部 3 7 (図 1参照）は、出現頻度を集計する特定の単語又は連語を、予め共有メモリ 3 9に保持しておく。ここで、出現頻度の閾値は、予め書き込まれるようにしている。

単語出現頻度集計部 3 7は、漢字かな混じり文を含むテキスト文章を入力されると、そのテキスト文章に含まれる多数の文字列の中から、特定の単語又は連語の出現頻度を抽出し、抽出した単語おょぴ出現頻度をペアにして、共有メモリ 3 9の第 1列（単語）と第 2列（出現頻度）とに格納する。これにより、多数の文字列に含まれる特定語の出現頻度が集計される。

さらに、単語強調度決定部 3 8は、各単語について出現頻度を共有メモリ 3 9 から読み出し、各単語についての強調の有無を決定し、そして、強調の有無を、決定した単語に対応する第 3列（強調の有無）に格納する。

ここで、単語強調度決定部 3 8は、この強調の有無を決定する閾値を例えば 3 回と設定する。これにより、単語「時間的」の出現頻度が 2回の場合は、単語強調度決定部 3 8はこの共有メモリ 3 9の「強調の有無」をなしと記録し、また、単語「アクセント」の出現頻度が 4回の場合は、単語強調度決定部 3 8は共有メモリ 3 9の「強調の有無」をありと記録する。

そして、図 1に示すパラメータ生成部 3 3は、単語又は連語ごとに共有メモリ 3 9の第 3列を読み込み、「強調有り」の場合はパラメータを生成し、そのパラメ —タをピッチ切り出し ·重ね合せ部 1 5に出力する。

また、ピッチ切り出し ·重ね合わせ部 1 5は、波形辞書 1 4に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する区間（波形区間）と隣接する前後の区間に属する音声波形データの一部とを重畳加算して音声を合成する。出力された合成音声は、増幅回路（図示省略）等において増幅され、スピーカ (図示省略）から音声が出力されてユーザに到着する。

このようにして、本音声合成装置 1は、各単語又は連語の強調部分の出現頻度に基づいて自動的に単語又は連語の強調部分を得ることができる。これにより、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上できるとともに、聞き取りやすい合成を得られる。

(A 2 ) 第 2の態様

第 1の態様における抽出基準は、出現頻度に基づいて強調度を決定するためのパラメータを用いているが、出現頻度以外の出現回数，重要度等に基づいて強調度を決定する方法について詳述する。図 5は本発明の一実施形態に係る第 2の音声合成装置のプロック図である。この図 5に示す音声合成装置 1 aは、入力された文章を読み出して音声を合成するものであって、強調度自動決定部 5 0と、入力部 1 9と、音響処理部 6 0とをそなえて構成されている。

ここで、強調度自動決定部 5 0は、文章に含まれる各単語又は連語についての出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものである。

また、音響処理部 6 0は、上記の強調すべき各単語又は連語に強調度自動決定部 5 0にて決定された強調度を付与した音声を合成するものである。

図 6は本発明の一実施形態に係る第 2の強調度自動決定部 5 0のブロック図である。この図 6に示す強調度自動決定部 5 0は、出現回数集計部 5 6と、強調位置決定部 5 7と、共有メモリ 5 5とをそなえて構成されている。

ここで、出現回数集計部 5 6は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものであって、強調除外辞書 5 4と、除外単語考慮型単語出現回数集計部 5 1とをそなえて構成されている。この強調除外辞書 5 4は、入力された文章のうちの音声強調不要な単語又は連語については強調を除外するものであって、除外の対象となる文字列に関する情報を記録した辞書データを保持するものである。また、除外単語考慮型単語出現回数集計部 5 1は、文章に含まれる各単語又は連語についてその数等を集計するものである。除外単語考慮型単語出現回数集計部 5 1は、入力された文字列について強調除外辞書 5 4を検索することにより、集計する対象の単語又は連語であるか、又は集計を不要とする除外単語（又は除外連語）であるかを判定し、各単語又は連語についての出現回数および出現位置等の詳細な情報を、共有メモリ 5 5に逐次記録するのである。

図 7は本発明の一実施形態に係る第 3の共有メモリ 5 5のデータ例を示す図である。この図 7に示す共有メモリ 5 5のデータ構造例は、単語「時間的」について、その出現回数を示す列と、その出現位置を単語数で表した列と、単語「時間的」を強調するか否かを示す列に関するデータを格納するとともに、強強調位置又は弱強調位置に関する情報をそれぞれ対応付けて格納している。例えば、単語

「時間的」は、出現回数 2で、出現位置が 2 1， 4 2とは、それぞれ、単語「時間的」が 2回出現しており、最初の出現位置が最初の単語が出現した位置から 2 1個目又は 4 2個目の位置であることを表す。

そして、例えば単語「時間的」は、出現回数が少ないので、強調の有無はなしとし、単語「アクセント J は出現位置が 1 5， 5 5， 8 3， 9 9であって出現回数が 4回なので「強調の有無」が必要と判定される。また、 4回の出現位置のそれぞれについて、強く強調するもの（強強調位置）又は弱く強調するもの（弱強調位置）を記録している。

例えば、強調度自動決定部 5 0は、抽出基準として、単語「アクセント」が最初に現れる出現箇所 1 5においては単語「アクセント」について強く強調し、また、単語「アクセント」 2 , 3番目に現れる出現位置 5 5， 8 3の「ァクセント」については弱く強調し、さらに、単語「アクセント」が 4番目に現れる出現位置 9 9の単語「アクセント」については強調不要、等種々決定できる。

従って、強調度自動決定部 5 0は、上記の各単語又は連語の出現箇所と出現箇所の回数とに基づいて強調度を決定するようになっており、具体的には、上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が 2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定する。

これにより、出現位置の異なる同一単語の強調の度合いは、それぞれ、異なるようきめ細かな音声化ができる。

また、これにより、出現回数集計部 5 6 (図 6参照）は、共有メモリ 5 5に格納されている各単語又は連語に関するデータのうちの出現回数と出現頻度と強調の有無に関する情報とのそれぞれに基づいて、出現頻度一位置情報のペアデータを抽出し強調位置決定部 5 7 (図 6参照）に入力する。

また、図 6に示す強調位置決定部 5 7は、所定回数出現した単語又は連語を共有メモリ 5 5に書き込む強調単語抽出部 4 3と、強調する単語について例えば 1 回目の登場箇所は強めに強調し 2回目以降は弱めに強調するとのきめ細かい強調に関する情報を共有メモリ 5 5の第 5列と第 6列とに格納する強調箇所抽出部 5 3とをそなえて構成されている。

なお、強調度自動決定部 5 0以外のもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。このような構成により、図 6に示す強調度自動決定部 5 0は、単語出現頻度集計部 5 1にて入力文章の各単語の出現頻度（総回数）を集計し、それぞれ、文章中の何単語目であるかを、単語数として、共有メモリ 5 5の第 1〜3列に格納する。

なお、強調度自動決定部 5 0は、強調除外辞書 5 4に登録された単語を除外している。強調除外辞書 5 4を用いる理由は、出現頻度は高くても重要でないと考えられる単語の強調を防止するためである。例えば助詞および助動詞等の付属語、「あれ」，「その」等の指示代名詞、「こと」，「ところ」，「とき」等の形式名詞、「ある」，「する」，「なる」，「やる」等の補助用言等を強調除外辞書 5 4に格納することが望ましい。

次に、強調単語抽出部 4 3は、例えば 3回以上出現した単語を強調するものとして共有メモリ 5 5の第 4列に書き込む。強調箇所抽出部 5 3は、強調する単語について例えば 1回目の登場箇所は強めに強調し、 2回目以降は弱めに強調するように、共有メモリ 5 5の第 5列と第 6列とに格納する。

また、パラメータ生成部 3 3 (図 1参照）は、共有メモリ 5 5の第 5列と第 6 列とを参照して、検索された位置の単語について強めに又は弱めに強調するパラメータを生成する。

このように、強調度自動決定部 5 0は、その単語の 1回目の登場箇所は強めに強調し、 2回目以降は弱めに強調又は強調不要を設定するので、同一の強調同一で繰り返し音声化されるときに聴覚される冗長感の発生を防止できる。

(A 3 ) 第 3の態様

第 3の態様における音声合成装置は、各単語又は連語の重要度を記録した単語記憶部を設け、この重要度の高さに応じて、多段階に単語又は連語を強調するようになつている。第 3の態様における音声合成装置 1 cの概略的な構成は図 1に示す音声合成装置 1の構成と同一である。

図 8は本発明の一実施形態に係る第 3の強調度自動決定部のプロック図である。この図 8に示す強調度自動決定部 6 9は、重要度出力部 6 5と、強調単語抽出部 4 3と、共有メモリ 6 4とをそなえて構成されている。この重要度出力部 6 5は、各単語又は連語に、多段階の重要度を付与し、単語一重要度のペアデータを出力するものであって、各単語又は連語と多段階の重要度とを対応付けて保持する重要度辞書 6 3と、入力された文章に含まれる各単語又は連語について重要度辞書 6 3を参照して多段階の重要度情報を得るための単語重要度照合部 6 1とをそなえて構成されている。また、強調単語抽出部 4 3は、上述したものと同一である。なお、重要度辞書 6 3はユーザによってカスタマイズできるように構成してもよレ、。

さらに、共有メモリ 6 4は、重要度出力部 6 5にて集計された各単語又は連語と、これらの各単語又は連語との重要度とを対応付けて保持するものである。図 9は本発明の一実施形態に係る第 4の共有メモリ 6 4のデータ例を示す図である。この図 9に示す共有メモリ 6 4は、各単語と各単語の重要度（強調レベル）とを対応付けて格納している。また、この共有メモリ 6 4の行数は増減可能である。例えば単語「時間的」は、強調レベル「なし」とし、また、単語「ァクセント」は強調レベル「強」としている。

従って、強調度自動決定部 6 0は、抽出基準として、 '上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づいて強調度を多段階に決定するようになっている。

なお、本発明の音声合成装置 1 cは、テキスト文を読み出すものであり、入力された音声波形データからキーワードを抽出するものではなく、また、強調度を多段階のレベルを用いて決定できる。

このような構成により、単語重要度照合部 6 1は入力された文章に含まれる各単語の多段階の重要度を、重要度辞書 6 3を参照することによって獲得し、獲得した重要度に応じた強調度を共有メモリ 6 4に格納する。強調単語抽出部 4 3は、格納された強調度をパラメータ生成部 3 3 (図 1参照）に出力する。

このように、重要度辞書 6 3を用いることにより、強調すべき単語を強調すベきレベルに応じて確実に強調できる。

(A 4 ) 第 4の態様第 4の態様における音声合成装置は、単語の品詞を解析できる品詞解析機能を設け、これにより、固有名詞を強調するようにしている。第 4の態様における音声合成装置 1 dの概略的な構成は図 1に示す音声合成装置 1の構成と同一である。図 1 0は本発明の一実施形態に係る第 4の強調度自動決定部のプロック図である。この図 1 0に示す強調度自動決定部 7 0は、共有メモリ 7 4と、固有名詞選択部 7 2と、強調単語抽出部 4 3とをそなえて構成されている。この共有メモリ 7 4は、各単語又は連語と、これらの各単語又は連語のうちの固有名詞については「強調あり」との対応関係を保持するものである。

図 1 1は本発明の一実施形態に係る第 5の共有メモリ 7 4のデータ例を示す図であるが、この図 1 1に示す共有メモリ 7 4は、単語「時間的」，「アクセント」等については強調を不要とする一方、例えば固有名詞「アルプス」については強調が必要という対応関係を格納している。なお、共有メモリ 7 4の行数は増減可能である。

また、固有名詞選択部 7 2 (図 1 0参照）は、固有名詞辞書 7 3と固有名詞判定部 7 1とをそなえて構成されている。この固有名詞辞書 7 3は各単語又は連語の品詞を保持するものであり、固有名詞判定部 7 1は入力された文字列に含まれる各単語又は連語が固有名詞であるか否かについて、各単語又は連語を固有名詞辞書 7 3に照合することにより判定するものである。固有名詞判定部 7 1は、各単語が固有名詞の場合は「強調あり」を共有メモリ 7 4に書き込み、各単語が固有名詞でない場合は「強調なし」を共有メモリ 7 4に書き込む。そして、強調単語抽出部 4 3は、共有メモリ 7 4に格納された強調の有無をパラメータ生成部 3 3に出力する。

従って、強調度自動決定部 7 0は、抽出基準として、文章に含まれる特定の固有名詞に基づいて強調度を決定していることになる。

このような構成により、共有メモリ 7 4が初期化された状態において、固有名詞選択部 7 2に文章が入力されると、固有名詞判定部 7 1は、その文章に含まれる各単語又は連語について、各々、固有名詞辞書 7 3を参照することにより、固有名詞であるか否かを判定する。この判定結果が固有名詞の場合は、固有名詞判定部 7 1は、固有名詞情報（単語が固有名詞であることを示す情報）を出力し強調単語抽出部 4 3は、その単語を強調する。また、判定結果が固有名詞でない場合は、 · 固有名詞判定部 7 1は、固有名詞情報を出力しない。

この間、固有名詞判定部 7 1は、文字列の入力が停 itするまで、各判定結果を共有メモリ 7 4に記録し続ける。従って、共有メモリ 7 4は、多数の各単語又は連語について、強調の有無に関するデータが記録される。

このように、文字列のうちの固有名詞が強調されるので、音声合成装置は、文章全体として聞き取りやすい音声を合成できる。

(A 5 ) 第 5の態様

第 5の態様における音声合成装置は、文字種別のうちの例えばカタカナで表記された各単語又は連語を強調するようにしている。第 5の態様における音声合成装置 1 eの概略的な構成は図 1に示す音声合成装置 1の構成と同一である。図 1 2は本発明の一実施形態に係る第 5の強調度自動決定部のプロック図である。この図 1 2に示す強調度自動決定部 8 0は、カタカナ語選択部 8 4と、強調単語抽出部 4 3とをそなえて構成されている。また、カタカナ語選択部 8 4は、カタカナ語文字を保持するカタカナ語辞書 8 3と、このカタカナ語辞書 8 3を参照することによって、入力された各単語又は連語がカタカナ語であるか否かを判定するものである。なお、このカタカナ語辞書 8 3は、上記の固有名詞辞書 7 3 (図 1 0参照）の中に設けることもできる。

また、カタカナに限らずに、例えば、アルファベット，ギリシャ文字，特殊な漢字等の文字種別を強調することもできる。すなわち、この強調度自動決定部 8 0は、抽出基準として、文章に含まれる例えばカタカナ，アルファベット又はギリシャ文字等の種々の文字種別に基づいて強調度を決定することができる、このような構成により、入力された文章に含まれる各単語又は連語は、カタ力ナ語判定部 8 1において、カタカナで表記されている否かを判定され、カタカナ語の場合はカタカナ情報（入力された文字列がカタカナで表されたことを示す情報）を出力する。そして、強調単語抽出部 4 3は、文字がカタカナ情報である場合にはその単語を強調し、また、そうでない場合にはその単語をそのまま出力する。

このように、カタカナ語を強調することにより、全体として聞き取りやすい合成音声とすることが期待できる。

(B ) その他

本発明は上述した実施態様及ぴその変形態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。

中間雷語の韻律記号は、一例であって、本発明は、種々変形した態様により、実施できることは言うまでもない。また、パラメータの種類，共有メモリに保持されるデータの保持形式，データの保持場所又は各データについての処理の方法そのものを変形したものであっても、それは、本発明の優位性をなんら損なうものでもない。

そして、本発明は上述した実施態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。産業上の利用可能性

以上のように、本発明の音声合成装置によれば、ユーザが強調を指定する部分が現れるたびに、強調の大きさ等のパラメータを手動入力が必要という課題を解決し、単語又は連語の強調部分の出現頻度，重要度等の抽出基準に基づいて自動的に単語又は連語の強調部分を得ることができる。さらに、簡素な構成により操作性が向上し自動的に強調度を決定でき、また、聞き取りやすい音声合成装置を得ることができるので、例えば、移動通信，インターネット通信およびこれら以外で、テキストデータを用いる分野の各装置は、本発日月を用いることができる。そして、これにより、表現性，安全性および警備等の種々の分野において操作性を向上できる。

Claims

請求の範囲

1 . 文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単 ' 語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、

上記の強調すべき各単語又は連語に該強調度決定部にて決定された強調度を付与した音声を合成する音響処理部とをそなえて構成されたことを特徴とする、音声合成装置。

2 . 該強調度決定部が、

該文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、該集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持部と、

該保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又は連語についての該強調度を決定する単語決定部とをそなえて構成されたことを特徴とする、請求の範囲第 1項記載の音声合成装置。

3 . 該強調度決定部が、

該抽出基準として、上記の各単語又は連語の出現頻度に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第 1項又は第 2項記載の音声合成装置。

4 . 該強調度決定部が、

該抽出基準として、該文章に含まれる特定の固有名詞に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第 1項又は第 2項記載の音声合成装置。

5 . 該強調度決定部が、

該抽出基準として、該文章に含まれる文字種別に基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第 1項又は第 2項記載の音声合成装置。

6 . 該強調度決定部が、

該抽出基準として、上記の各単語又は連語の出現箇所と該出現箇所の回数とに基づいて該強調度を決定するように構成されたことを特徴とする、請求の範囲第 1項又は第 2項記載の音声合成装置。

7 . 該強調度決定部が、

上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が 2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定するように構成されたことを特徴とする、請求の範囲第 6項記載の音声合成装置。

8 . 該強調度決定部が、

該抽出基準として、上記の各単語又は連語のうちの特定の単語又は連語に付与した重要度に基づいて該強調度を多段階に決定するように構成されたことを特徴とする、請求の範囲第 1項又は第 2項記載の音声合成装置。

9 . 該音響処理部が、

該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、

該形態素解析部からの韻律記号付き中間言語のうちの該強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、

該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部とをそなえて構成されたことを特徴とする、請求の範囲第 1項〜第 8項のいずれか一項記載の音声合成装置。

1 0 . 文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、

該文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、

音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、

該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおょぴ該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、

該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部とをそなえて構成されたことを特徴とする、音声合成装置。

1 1 . 該ピッチ切り出し '重ね合わせ部が、

該波形辞書に格納された音声波形データを、該パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関数を乗じた処理音声波形データと、この処理音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成するように構成されたことを特徴とする、請求の範囲索 1 0項記載の音声合成装置。

1 2 . 文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、

該集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、

該保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、

該抽出ステップにて抽出された各単語又は連語についての該強調度を決定する単語決定ステップと、

上記の強調すべき各単語又は連語に該単語決定ステップにて決定された該強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴とする、音声合成方法。

1 3 . 入力された文章についての音声を合成して出力する音声合成システムであって、

該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、

該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し ·重ね合わせ部とをそなえて構成されたことを特徴とする、音声合成システム。