JP2008257116A

JP2008257116A - 音声合成システム

Info

Publication number: JP2008257116A
Application number: JP2007101660A
Authority: JP
Inventors: Masamichi Izumida; 正道泉田; Masayuki Murakami; 雅行村上
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2007-04-09
Filing date: 2007-04-09
Publication date: 2008-10-23

Abstract

【課題】ＴＴＳシステムにおいて読み誤りのある可能性の箇所に注意を促すことが可能な音声合成システムを作成すること。
【解決手段】入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システム１０であって、所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を記憶する語彙辞書記憶部３２と、受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成する音声合成部２０と、生成された音声データを再生出力する音声再生部４０と、を含み、音声合成部２０は、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質となり、それ以外の単語については第１の音質とは異なる音質となる音声データを生成する。
【選択図】図１

Description

本発明は、ＴＴＳ方式の音声合成システムに関する。

キャラクタデータの集まりであるテキストデータから音声を合成するＴＴＳ方式の音声合成ＬＳＩには、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式がある。

いずれの方式にせよ、文章から音に変換する前に、ＳＨＩＦＴ−ＪＩＳコードなどで標記された表記上のテキスト表現から、どのように発音させたいのか「読み」への変換辞書（データベース）を持つことが必須である。

また、さらに、コンキャティネイティブ方式、コーパスベース方式では、さらに「読み」から検索する「音素」への辞書（データベース）も必要であった。
特開平１０−２６０８１５号

小容量のシステムの場合、十分な「表記→読み」語彙データ辞書がもてないため、必然的に辞書からもれる語彙が出てくる。しかし、語彙そのものの存在を飛ばしてしまうと文脈そのものを追うことが難しくなるため、その場合の対処としては、単漢字、個別ひらがな等の単純な音に分解してともかく発声させるような方法がとられる。しかし、その読み、例えば単漢字はともかく訓読みで読み下すなどの方法は、該当語彙や文脈では正しい読みでない可能性も高かった。しかし正しい読みであるか否かは、使用者の判断に任せるしか無かったため、誤解をまねくおそれもあった。

本発明は、以上のような技術的課題に鑑みてなされたものであり、その目的とするところは、ＴＴＳシステムにおいて読み誤りのある可能性の箇所に注意を促すことが可能な音声合成システムを作成することである。

（１）本発明は、
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を記憶する語彙辞書記憶部と、
受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成する音声合成部と、
生成された音声データを再生出力する音声再生部と、を含み、
前記音声合成部は、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質となり、それ以外の単語については第１の音質とは異なる音質となる音声データを生成することを特徴とする。

本発明の音声合成システムはテキストデータから音声を合成するＴＴＳ（text-to-speech）方式の音声合成システムである。ＴＴＳシステムには、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式があるが、そのいずれにも適用可能である。例えばコンキャティネイティブ方式やコーパスベース方式などの場合には音素辞書を有し、音声合成部は音素辞書に基づき読み表記に対応した合成音声の音声データを生成するようにしてもよい。

語彙辞書は、テキスト表記に対応した読み表記が記憶されているデータ辞書であり、音素辞書は、声質を高めるのに効果的な多くのケースを網羅した辞書である。語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)（例えばテキスト表記に対応した読みのデータ）が格納された辞書でもよい。フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理（テキストの正規化、プリプロセッシング、トークン化などと呼ばれる）や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理（単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ）等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される構成でもよい。テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われるようにしてもよい。

音素辞書は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音（音素）の波形情報を格納する辞書である。バックエンドで音声波形を生成する主要技術には、連結的合成(concatenative synthesis)やフォルマント合成(formant synthesis)がある。連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。

音声合成部は、語彙辞書や音素辞書に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、受け取った発話対象文章に対応した合成音声を生成するようにしてもよい。

本発明によれば入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質（例えば通常音質）となり、それ以外の単語については第１の音質とは異なる音質（例えば特別音質）となる音声データを生成する。

ここで単語とは、文章の最小構成で、特定の意味、文法上の職能を有するものであり、適宜設定することが可能である。

また音質がことなるとは、声質が異なる場合でもよいし、音の高低や大小や速さ等がことなる場合でもよい。声質がことなるとは、例えばフィルタ等で声質を変化させる場合でもよいし、異なる音源（音素辞書）を用いて読み表記に対応した合成音声の音声データを生成する場合でもよい。

例えば第１の音質（例えば通常音質）を女性の声質にして、第１の音質とは異なる音質（例えば特別音質）を異なる女性の声質にしてもよいし、男性の声質にしてもよい。また第１の音質（例えば通常音質）をコンキャティネイティブ方式で生成して、第１の音質とは異なる音質（例えば特別音質）をパラメトリック方式で生成してもよい。

本発明によれば小語彙で読み誤りの可能性のあるＴＴＳシステムを使って、音声読み上げを行った場合に、読み誤りの可能性のある箇所について注意を促すことができるようになり、利用者の誤解等の可能性を下げることができる音声合成システムを提供することができる。
（２）本発明は、
発話対象の入力文字列に対応した合成音声を生成するために必要な辞書データの集合である第１の音声合成用辞書から第１の音声合成用辞書に比べてデータ量の少ない第２の音声合成用辞書を作成する音声合成システムであって、
第１の音声合成用辞書を構成する辞書データが記憶された第１の音声合成用辞書記憶部と、
前記入力文字列を解析し、入力文字列を構成する各語句の出現頻度を調べ、出現頻度に基づき、第２の音声合成用辞書への格納語を決定し、決定された格納語に対応して第１の音声合成用辞書に格納されている辞書データを用いて第２の音声合成用辞書を生成する第２の音声合成用辞書作成部と、
第２の音声合成用辞書を用いて前記入力文字列に対応した合成音声を生成する音声合成部と、
生成された合成音声を再生出力する音声再生部と、を含み、
第２の音声合成用辞書作成部は、
所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を作成し、
前記音声合成部は、
受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するように構成され、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質となり、それ以外の単語については第１の音質とは異なる音質となる音声データを生成することを特徴とする。

第１の音声合成用辞書は任意の発話対象文章に対する合成音声を生成することが可能な規模の辞書データを有するフルセット辞書（大容量辞書）であり、第２の音声合成用辞書は特定の発話対象文章に対する合成音声を生成することが可能な規模のデータを有するサブセット辞書（小容量辞書）である。

第１の音声合成用辞書は、例えば語彙辞書（「表記→読み」データ辞書）や音素辞書（声質を高めるのに効果的な多くのケースを網羅した辞書）等で構成される。第１の音声合成用辞書記憶手段にはこれらの辞書データが記憶され、辞書データベースとして機能する。なお辞書の種類は音声合成の方式に応じて決定され、例えば語彙辞書と音素辞書の両方含む場合でもよいし、語彙辞書のみでもよい。

語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)（例えばテキスト表記に対応した読みのデータ）が格納された辞書である。

フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理（テキストの正規化、プリプロセッシング、トークン化などと呼ばれる）や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理（単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ）等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される。

テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われる。多くのTTS（text-to-speech）システムでは入力されるテキストの意味を解析しないで、例えば前後の単語を調べたり、統計的な出現頻度を用いたり等の様々なヒューリスティクスを用いて同綴異義語の区別を行う。

音声合成手段は、第１の音声合成用辞書に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、受け取った発話対象文章に対応した合成音声を生成する。

第２の音声合成用辞書作成手段は、例えば出現頻度の高い語句を優先して格納語として決定するようにしてもよい。例えば予め第２の音声変換用辞書に割り当て可能と決められた記憶容量のうち、特定の割合（例えば８０％）を出現頻度の高い語彙から順に割り当てるようにしてもよい。その際、出現頻度がある回数（例えば２回）なければ、上記の割合に達しなくとも割り当てを停止するようにしてもよい。出現頻度は、一般に「ロングテール」型の分布をとるので、このようにすることで対象文章の部位の多くがカバーされることが期待できる。

音声合成手段は、第２の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成するので、ユーザーは発話対象文章の音声合成の結果を確認することができる。

本発明によれば、特定の発話対象文章を解析して、特定の発話対象文章の音声合成を行う場合に必要十分な辞書データを第１の音声合成用辞書から抽出して、第１の音声合成用辞書に比べてデータ量が少ない第２の音声合成用辞書を生成することができる。

従ってオンチップリソース（ＲＯＭ容量など）の限られるシングルチップＴＴＳ−ＬＳＩにおいて搭載可能な音声辞書ファイルが比較的小語彙に制限される場合でも、特定の発話対象文章については精度良く音声合成が可能なサブセット辞書（第２の音声合成用辞書）を生成することができる。

なお本発明では、第２の音声合成用辞書に格納される語彙を選別抽出することで語彙辞書のデータ量を減らすことができる。そして語彙辞書のデータ量を減らすことで、対応する音素辞書のデータ量も結果として減少するため、第２の音声合成用辞書の語彙辞書、音素辞書ともにデータ量を削減することができる。

また本発明によれば入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質（例えば通常音質）となり、それ以外の単語については第１の音質とは異なる音質（例えば特別音質）となる音声データを生成する。ここで音質がことなるとは、声質が異なる場合でもよいし、音の高低や大小や速さ等がことなる場合でもよい。声質がことなるとは、例えばフィルタ等で声質を変化させる場合でもよいし、異なる音源（音素辞書）を用いて読み表記に対応した合成音声の音声データを生成する場合でもよい。

本発明によればＴＴＳシステムをオーサリングツールとして使用する場合に、入力テキストを試行再生しながら問題点のある部位を確実に把握して、ルビデータの挿入などの編集作業を行なったり、語彙辞書への語彙追加などの作業を行なえるようになった。従ってオーサリング時には辞書を再編成せずに読み上げさせた場合の問題部分とその影響度、また、辞書を再編成した場合の改善度が明確になるので開発効率を高めることができる。

また発話対象文章を構成する語のなかで第２の音声合成用辞書への格納対象となっていない未格納語について第２の音声合成用辞書の格納語に置き換える発話対象文章の変更を行う発話対象文章変更手段と、
含むようにしてもよい。

また前記発話対象文章変更手段は、
発話対象文章を構成する語の置き換えに関する変更履歴を記録することを特徴とする音声合成用辞書を作成するようにしてもよい。

また前記発話対象文章変更手段は、
前記未格納語について、第２の音声合成用辞書の格納語との同義語があるか否かを解析し、同義語がある場合には発話対象文章の前記未格納語を同義語に置き換える同義語置き換え処理を行う同義語置き換え処理手段を含むようにしてもよい。

また発話対象文章変更手段は、
前記未格納語について、当該語のよみを表す仮名表記に置き換えるかな置き換え処理をおこなう仮名置き換え処理手段を含むようにしてもよい。

また第２の音声合成用辞書を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第２の音声合成用辞書または発話対象文章の確定または変更処理を行う編集処理手段とを、含むようにしてもよい。

また前記編集処理手段は、
第２の音声合成用辞書の格納語についてのユーザーの指定入力を受け付け、
前記第２の音声合成用辞書作成手段は、
前記ユーザーの指定入力に基づき格納語を決定するようにしてもよい。
（３）本発明の音声合成システムは、
前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、
前記音声合成部は、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第１の音質または第１の音質以外の音質とする音声データを生成することを特徴とする。

例えば変換レベル毎に異なる音質をとる音声データを生成してもよいし、変換レベルを２種対に分類して、第１の分類の変換レベルの単語については第１の音質、第２の分類の変換レベルに対しては第１の音質とは異なる音質をとる音声データを生成してもよい。
（４）本発明の音声合成システムは、
音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部をさらに含み、
前記音声合成部は、
前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第１の音質とは異なる音質となる音声データを生成することを特徴とする。

モード情報は例えば外部から設定または変更可能に構成してもよい。例えば操作部を介してユーザーがモード情報を設定または変更できるように構成してもよい。
（５）本発明の音声合成システムは、
前記音声合成部は、
生成した音声データを先入れ先出しで音声データバッファに格納するとともに、
入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号を生成し、
前記音声再生部は、
前記読み出し制御信号に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生することを特徴とする。

以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
１．第１の実施例（シングルチップＴＴＳ−ＬＳＩ）
図１は、本実施の形態の音声合成システムをシングルチップＴＴＳ−ＬＳＩ（半導体集積回路装置）で実現する構成について説明するための図である。

シングルチップＴＴＳ−ＬＳＩ１０は、音声合成用の辞書３０を含む。ここでは、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式で、テキストデータから音声を合成するＴＴＳ方式の音声合成ＬＳＩを例にとり説明する。

辞書３０は、語彙辞書３２と音素辞書３４を含み、ＲＯＭやフラッシュEEPROM等で実現できる。

語彙辞書３２はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)（例えばテキスト表記に対応した読みのデータ）が格納された辞書である。

フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理（テキストの正規化、プリプロセッシング、トークン化などと呼ばれる）や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理（単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ）等を行い、発音記号と韻律情報を組み合わせて記号化言語表現を作成し、フロントエンドの出力とする。

音素辞書３４は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音（音素）の波形情報を格納する辞書である。

シングルチップＴＴＳ−ＬＳＩ１０は、ホストＩ／Ｆ５０を含む。ホストＩ／Ｆ５０はホストコンピュータとコマンドやデータのやりとりを行うためのインターフェースブロックである。ホストＩ／Ｆ５０はＴＴＳコマンド／データバッファ５２を含み、ここにホストから指示された発話対象文章（テキストデータ）が格納される。発話対象文章は音声合成処理部２０への入力となる。

シングルチップＴＴＳ−ＬＳＩ１０は、音声合成処理部２０を含む。音声合成処理部２０は、受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するよう構成され、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質となり、それ以外の単語については第１の音質とは異なる音質となる音声データを生成する。

ここにおいて前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、音声合成部２０は、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第１の音質または第１の音質以外の音質とする音声データを生成するようにしてもよい。

また音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部５４をさらに含み、音声合成部２０は、前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第１の音質とは異なる音質となる音声データを生成するようにしてもよい。

また音声合成部２０は、生成した音声データを先入れ先出しで音声データバッファ４４に格納するとともに、入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号２１を生成し、音声再生部４０は、読み出し制御信号２１に基づき、音声データバッファ４４から先入れ先出しで音声データを読み出しで再生するようにしてもよい。

音声合成処理部２０は、テキスト表記→音表記変換ブロック２２、音素選択部２４、発音ブロック２６、フィルタ処理部２８を含む。各部の機能は、専用の回路を設ける事によって実現してもよいし、ＣＰＵが各部の機能を実現するためのプログラムを実行することによって実現してもよい。

表記→音表記変換ブロック２２は、語彙辞書３２を検索して受け取った発話対象文章を記号化言語表現２３にして音素選択部に渡す。

音素選択部２４は、発話対象文章の記号化言語表現２３を受け取り、音素辞書３４を検索して記号化言語表現２３に対応する音素の集合を発音ブロック２６に渡す。

発音ブロック２６は、音素の集合に基づき合成音声波形２７を生成する。フィルタ処理部２８は、フィルタを用いて合成音声波形の音質の変更または他のキャラクタの音声への変更を行う。

ここで、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語以外の単語については、フィルタを用いて合成音声波形の音質の変更または他のキャラクタの音声への変更を行うことで、第１の音質とは異なる音質となる音声データを生成するようにしてもよい。

シングルチップＴＴＳ−ＬＳＩ１０は、スピーカーＩ／Ｆ４０を含む。スピーカーＩ／Ｆ４０は、Ｄ級アンプ４２、音声データバッファ４４を含む。フィルタ処理部２８でフィルタリングされた合成音声波形は音声データバッファ４４に格納され、Ｄ級アンプ４２を介して外部のスピーカに出力される。

図２は、本実施の形態の特徴について説明するための図である。例えば発話対象となる入力文字列が「松坂は陳健民と対戦した」４００である場合を例にとり説明する。音声合成処理部のテキスト表記→音表記変換ブロック２２は、受け取った入力文字列「松坂は陳健民と対戦した」４００を解析して、入力文字列４００を構成するテキスト表記の各単語４０１〜４０６について語彙辞書を検索して、検索結果に基づき入力文字列を読み表記に変換し、読み表記に対応した合成音声の音声データを生成する。ここで、入力文字列４００を構成するテキスト表記の各単語４０１〜４０６の語彙辞書（図１の語彙辞書）に対する検索結果が所定の条件を満たすか否か判断し、判断結果に基づき当該単語の音質を通常音質（第１の音質）にするか特別音質（第１の音質とは異なる音質）にするか決定し、各単語が決定された音質をもつ合成音声データを生成する。

ここで所定の条件とは、例えば、語彙辞書（図１の語彙辞書３２）記載されているか否か等でもよい。（この場合語彙辞書に記載されていればただしい発音が期待できるとしている）。たとえば入力文字列４００を構成するテキスト表記の各単語４０１〜４０６のなかで、単語４０３は語彙辞書に記載されておらず、それ以外の単語４０１，４０２、４０４〜４０６は語彙辞書に記載されている場合、単語４０１，４０２、４０４〜４０６については通常音質の合成音声を生成し、単語４０３については特別音質の合成音声を生成するようにしてもよい。

このようにすることで、小語彙で読み誤りの可能性のあるＴＴＳシステムを使って、音声読み上げを行った場合に、読み誤りの可能性のある箇所について注意を促すことができるようになり、利用者の誤解等の可能性を下げることができる。

ここで通常音質の合成音声は、特別音質の音声にくらべて耳触りのよい声質の声にしてもよい。また通常声質を女性の声、特別声質を男性の声にして注意を喚起するようにしてもよい。

例えば入力文字列４００について一旦通常音質の音声波形を生成して、単語４０３（「陳健民」）の部分だけフィルタをかけて特別音質に変更するようにしても良い。また例えば入力文字列４００について一旦基本音質の音声波形を生成して、単語４０１，４０２、４０４〜４０６の部分には第１のフィルタをかけて基本音質を特別音質に変更し、単語４０３（「陳健民」）の部分には第２のフィルタをかけて基本音質を特別音質に変更するようにしても良い。

また複数の声質（通常音質と特別音質を含む複数の音質）の辞書を持たせ、単語ごとにそれらを切り替えて使用して音声波形を生成してもよい。なお、その際、通常音質はコーパスベースの音声合成であるが、特別声質はパラメトリックな音声合成として異なる音声合成方式を使うようにしてもよい。

図３（Ａ）（Ｂ）は、単語を３以上の変換レベルに分類し、変換レベルとモード情報に応じて各単語の音質を決定する例の説明図である。例えば発話対象となる入力文字列が「大和のはし」４１０である場合を例にとり説明する。

本実施の形態では、日本語の特徴を考え、発音対象テキスト各部について、以下の３段階の変換レベルに分類するようにした。漢字、仮名まじりの通常のテキストファイルであって、漢字、仮名（ひらがな、カタカナ）、英字とも、語彙辞書に記載されており、正しい発音が期待できる場合を、変換レベル１と規定する。また漢字もしくは英字のボキャブラリであって、辞書にはないが、テキストファイル中にルビデータとして読み仮名データが埋め込んであり、辞書にない単語についてはルビデータのカタカナ文字を単文字ずつ発音する形で発音可能な場合を、変換レベル２と規定する。ひらがな語、かたかな語については、辞書にない場合でも、ルビ同等として扱えるのでこの分類となる。変換レベル２は、不自然で、正しいアクセントは期待できないが、音としては正しく発音されていることが期待できるケースである。また語彙辞書にはなく、ルビデータも埋め込んでないため、漢字については単漢字辞書記載の発音により、英字についてはローマ字読みにて無理やり読まないと音が欠落してしまう場合を変換レベル３と規定する。

ここで「大和」というテキスト表現に対応する読み表記例として、語彙辞書には「やまと」（歴史上の国名）と「おおわ」（長野県の地名）と「だいわ」（固有名詞）が記憶されているとしても、入力文字列「大和のはし」４１０の「大和」４１２がどの読みになるのか文脈から判断不能である。従って語彙辞書にはなくルビデータも埋め込んでないため、漢字については単漢字辞書記載の発音によりよみに変換するケース（変換レベル３のケース）に該当する。ここで単漢字辞書記載の発音によりよみに変換するとは「やまと」を単漢字「大」「和」に分解し、「大」の読み表記である「だい」と「和」のよみ表記である「わ」を連結して発音するケースである。

また単語「の」４１４は、ひらがなで正しい発音が期待できるので（助詞の「の」）、変換レベル１のケースに該当する。

また単語「はし」４１６は、「端」「橋」「箸」なのか文脈から判断不能であるがひらがな語であるため、正しいアクセントは期待できないが音として正しく発音することはできるので変換レベル１のケースに該当する。

本実施の形態では上記の３分類の変換レベルについて、声質を以下のように使い分けるモードを準備した。ここで特別音質にするレベルを指示するためのモード情報を設定するモード情報設定部から以下のモードを設定するようにしてもよい。

例えばモード０では全てを基本となる声質１（実施例では女性アナウンサ声質）にて読み上げるモード、特に声質の変更はしないモードであるとする。またモード１ではＡ、Ｂのケースについては声質１にて読み上げるが、Ｃのケースでは基本声質とは異なる声質２（ロボットボイス）に変更して読み上げるモードであるとする。声質２で読まれる単語は辞書にないことが容易に判明するので、誤った読みに惑わされる心配が低くなる他、ルビデータの埋め込み作業時に使用できる。またモード２では変換レベル１のケースについては声質１にて読み上げるが、変換レベル２，３のケースでは声質２に変更して読み上げるモードであるとする。

このような場合、モード０では図３（Ｂ）の４２０に示すようにすべて単語４１２〜４１６は声質１の合成音声となる。またモード１では図３（Ｂ）の４３０に示すように「大和」４１２は音質２（特別音質）の合成音声となり、それ以外の単語４１４，４１６は声質１（通常音質）の合成音声となる。

またモード２では図３（Ｂ）の４４０に示すように単語「大和」４１２と単語「はし」４１６は音質２（特別音質）の合成音声となり、単語「の」４１４は声質１（通常音質）の合成音声となる。

図４は、本実施の形態のタイミング制御について説明するための図である。

本実施の形態の音声再生部は音声データバッファとして機能する一次記憶ＦＩＦＯ４４と、Ｄ級アンプ４２を含む。音声出力時には、Ｄ級アンプ４２は一定のレートで一次記憶ＦＩＦＯ４４の音声データをよみだしヘッドフォンやスピーカに出力する。

テキスト表記→音表記変換ブロック２２では、変換時に息継ぎポイントを判断したり、変換量に応じて音声データバッファに貯まる音声データの量を判断したりすることにより、音声データバッファのデータのたまり具合に応じて読み出しを許可する指示や息継ぎポイントの指示等を行うための読み出し制御信号２１を生成してＤ級バッファに出力し、Ｄ級アンプ４２では、音声合成部２０のテキスト表記→音表記変換ブロック２２からの読み出し制御信号２１に基づき読み出しの制御を行う。

またＤ級アンプ４２は、一次記憶ＦＩＦＯ４４への書き込みが追いつかない場合には一次記憶ＦＩＦＯ４４からの読み出しを停止する。

一次記憶ＦＩＦＯ４４、バッファがあふれそうな場合にデータ生成を停止させるためのＦＩＦＯ書き込み停止信号４５を生成して音声合成部２０のテキスト表記→音表記変換ブロック２２に送る。テキスト表記→音表記変換ブロック２２では、書き込み停止信号に基づき、発話対象テキストのデコードのタイミングを制御することで合成音声の生成の停止や再開を制御する。

図５は、息継ぎポイントの制御について説明するための図である。

本実施の形態の音声合成部２０の前記音声合成部２０は、生成した音声データを先入れ先出しで音声データバッファ４４に格納するとともに、入力文字列５１０の解析結果に基づき息継ぎポイント５２０−１、５２０−２、５２０−３を設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号２１を生成し、音声再生部４０は、読み出し制御信号２１に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生する。ここで、テキスト表記→音表記変換ブロック２２が、語彙辞書により変換を行う際に辞書の内容に基づき息継ぎポイントを設定するようにしてもよい。例えば辞書の内容により、単語が助詞である場合（例えば「と」５１４）や、動詞の終了形である場合（例えば「した」５１６）に、その後ろに息継ぎポイントを設定するようにしてもよい。

５３０を最終的に生成される音声データ（音声データバッファに格納される音声データ）であるとすると、変換時に息継ぎポイント５２０−１、５２０−２、５２０−３までの音声データの長さ（バイト長）５２２−１、５２２−２、５２２−３は判明する。従って、判明した息継ぎポイントまでの音声データの長さに基づき読み出し制御信号２１を生成してＤ級アンプ４２に送ることで、Ｄ級アンプ４２が息継ぎポイントまでの長さ（バイト長）の音声データを読み出したら、読み出しを一次休止するように制御することができる。

また音声データ５３０において単語５３１，５３２、５３４〜５３６は音質１（通常音声）の音声データであるが、単語５３３は音質２（特別音声）の音声データとなる。ここで音質２の音声データの生成が音質１の音声データの生成に比べて時間がかかる場合（例えば処理不可が高い場合や音質１を生成したあとに音質２に変換するような構成の場合）５４０にしめすように単語５３３の音声データの生成に遅延が生じる場合がある。

図６は、本実施の形態のタイミング制御にかかるタイミングチャートであり、図５に示す入力文字列の音声合成及び音声再生時の各信号の状態を示している。

２１は音声合成部２０が生成してＤ級バッファに対して出力する読み出し制御信号である。６１０は、Ｄ級アンプが音声データバッファから音声データを読み出す音声データバッファ読み出しレートである。６２０は、音声データバッファの内容量である。６３０は音声合成部が音声データバッファに書き込む書き込みレートである。４５は音声データバッファが音声合成部にたいして出力する書き込み停止信号である。

区間６４０では、音声データバッファの内容量が十分ではないため、読み出し制御信号２１はこの間読み出し停止を指示するレベル（例えばＨレベル）となっており、是に応じてこの間は音声データ読み出しレート６２０は、読み出し無し状態のレベル（例えばＬレベル）となっている（６４４参照）。またこの間は書き込み停止信号４５は、書き込み許可を示すレベル（例えばＬレベル）であるため、音声データ書き込みレートは書き込み有り状態のレベル（ここではＨレベル）となっている。従ってこの間に６４０にしめすように音声データバッファの内容量は徐徐に増加している。

区間６４０では、音声データバッファの内容量６２０が十分ではないため、読み出し制御信号２１はこの間読み出し停止レベル（ここではＨレベル）となっており、是に応じてこの間は音声データ読み出しレート６２０は、読み出し無しレベル（ここではＬレベル）となっている。またこの間は書き込み停止信号４５は、書き込み許可レベル（ここではＬレベル）であるため、音声データ書き込みレート６１０は書き込み有りレベル（ここではＨレベル）となっている。従ってこの間は６４２にしめすように音声データバッファの内容量６２０は徐徐に増加している。

音声データバッファの内容量６２０がいっぱいになると（６５２参照）、書き込み停止信号４５が区間６５０において書き込み停止レベル（ここではＨレベル）となり、これに応じて音声バッファ書き込みレートは書き込み無しレベル（ここではＬレベル）となる。そしてこの間読み出し制御信号２１は読み出し許可レベル（ここではＬレベル）なので、音声バッファ読み出しレート６１０は読み出し有りレベル（ここではＨレベル）となる。従ってこの間は６５４にしめすように音声データバッファの内容量６２０は徐徐に減少している。

その後書き込み停止信号が書き込み許可レベル（ここではＬレベル）、音声データ書き込みレート６１０は書き込み有りレベル（ここではＨレベル）となっている。６６２では、図５の５４０に示すように単語「陳健民」の部分は音声１から音声２に切り替わることにより遅延が生じ、音声データバッファ書き込みレートが書き込み無しレベル（ここではＬレベル）に変化している。

区間６７０では、図５の息継ぎポイント５２０−２に対応して読み出しを一次停止させるために読み出し制御信号２１はこの間読み出し停止を指示するレベル（例えばＨレベル）となっており、是に応じてこの間は音声データ読み出しレート６２０は、読み出し無し状態のレベル（例えばＬレベル）となっている。またこの間は書き込み停止信号４５は、書き込み許可を示すレベル（例えばＬレベル）であるため、音声データ書き込みレートは書き込み有り状態のレベル（ここではＨレベル）となっている。従ってこの間に６７２にしめすように音声データバッファの内容量は徐徐に増加している。

図７は、本実施の形態の音声合成の処理の流れを示すフローチャートである。

まず音声合成部は受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について語彙辞書を検索する（ステップＳ２１０）。

次に音声合成部の表記→音表記変換ブロック２２は、検索結果に基づき、各単語についてテキスト表記に対応した読み表記に変換するとともに、各単語の変換レベルを判定する（ステップＳ２２０）。

次に音声合成部の表記→音表記変換ブロック２２は、音素辞書を検索して各単語の読み表記を音素の集合に変換する（ステップＳ２３０）。

次に音声合成部の音素選択部は、音素の集合に基づき合成音声波形を生成する（ステップＳ２４０）。

次に音声合成部のフィルタ処理部は、モード設定情報と各単語の変換レベルに基づいて、各単語の声質変換を行うか否か判断し、声質変換を行う単語に対応する合成音声波形について通常音声を特別音声に声質変換するためのフィルタリング処理を行う（ステップＳ２５０）。

次に音声合成部のフィルタ処理部は、生成した音声データを音声データバッファの内容量に応じて音声データバッファに書き込む（ステップＳ２６０）。

次に音声合成部の表記→音表記変換ブロック２２は、入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出しタイミング制御信号を生成して出力し、音声再生部は前記読み出しタイミング制御信号に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生する（ステップＳ２７０）。

図８は、本実施の形態の音声合成システムをシングルチップＴＴＳ−ＬＳＩ（半導体集積回路装置）で実現する他の構成について説明するための図である。

本実施の形態の形態のシングルチップＴＴＳ−ＬＳＩ１０’は、ホストＩ／Ｆ５０と、第１の音声合成部５０、第２の音声合成部６０、選択部７０、タイミング調整部７４、音声再生部４０を含む。ホストＩ／Ｆ５０、音声再生部４０については図１と同じ構成であるので説明を省略する。

第１の音声合成部５０は、コーパスベースＴＴＳサブシステムとして構成することができ、語彙辞書１（５２）、表記→音表記１変換ブロック５４、音素辞書５６、音質１発生ブロック５８を含む。各部５２、５４、５６の基本的な機能は図１の対応する各部３２，２２、３４と同様である。また、音質１発生ブロック５８は図１の音素選択部２４及び発音ブロック２６と同様である。

表記→音表記１変換ブロック５４、各単語を語彙辞書１（５２）で検索した結果、語彙辞書１（５２）に存在しない単語については、当該単語を第２の音声合成部に渡すとともに、第１の音声生成部５０で合成した音声データと第１の音声生成部５０で合成した音声データのいずれを選択するのかを指示する選択信号７２を生成して選択部に対して出力する。

第２の音声合成部６０は、パラメトリックＴＴＳサブシステムとして構成することができ、語彙辞書２（６２）、表記→音表記２変換ブロック６４、音質２発生ブロック６６を含む。表記→音表記２変換ブロック６４は、表記→音表記１変換ブロック５４から受け取った単語（語彙辞書１にない単語）について、語彙辞書２で検索して音表記２に変換し、音質２発生ブロック６６でパラメトリック方式の合成音声の音声データを生成する。

選択部７０は、第１の音声合成部５０の生成した声質１の音声データ５９と第２の音声合成部６０の生成した声質２の音声データ６９を受け取り、選択信号７２に基づいていずれかの音声データを選択して音声データバッファ４４に出力する。

タイミング調整部７４は、第１の音声合成部５０と第２の音声合成部６０の両方で音声合成される単語の音声データが同じタイミングで選択部に入力されるように第１の音声合成部が出力する音声データを遅延させる処理を行う。

例えば図２に示すように発話対象となる入力文字列が「松坂は陳健民と対戦した」である場合、第１の音声合成部５０はすべての単語「松坂は陳健民と対戦した」について声質１の音声データを生成し、第２の音声合成部６０は単語「陳健民」について声質２の音声データを生成する。「松坂は」「と対戦した」の部分は第１の音声合成部５０で生成された音声データしかこないので、選択部を受け付けた音声データ（第１の音声合成部５０で作成された音声データ）をそのまま出力する。単語「陳健民」については、第１の音声合成部５０と第２の音声合成６０で音声合成されるが、音声合成が終了するタイミングは同時ではなく、第２の音声合成部６０の終了タイミングが遅延する可能性が高い。従ってタイミング調整部７４では、第１の音声合成部５０が出力した単語「陳健民」に対応する音声データが選択部７０に入力されるタイミングを遅延させる処理を行う。

なお上記実施の形態では、第２の音声合成部は、声質２になる単語のみの音声データを生成する構成を例にとり説明したがこれに限られない。例えば、第１の音声合成部５０と第２の音声合成部６０がそれぞれパラレルに入力文字列の全単語に対して音声データを生成して、選択部で各単語毎にいずれかの音声データを選択する構成でもよい。

また第１の音声合成部と第２の音声合成部の両方を声質の異なる音素辞書を採用したコーパスベースＴＴＳサブシステムで構成してもよい。
２．第２の実施例（オーサリングツール）
図９は、本実施の形態の音声合成システムを用いた音声合成用辞書作成システムと音声合成用辞書作成システムで作成された音声合成用辞書を内蔵する半導体集積回路装置について説明するための図である。

１００は、本実施の形態の音声合成システムを用いた音声合成用辞書作成システムであり、発話対象文章１０１に対応した合成音声を生成するために必要な辞書データの集合である大容量辞書（第１の音声合成用辞書）１８２から大容量辞書（第１の音声合成用辞書）１８２に比べてデータ量の少ない小容量辞書（第２の音声合成用辞書）１８４を作成する音声合成用辞書作成システムであって、パーソナルコンピュータにＴＴＳ対応の音声合成用大容量辞書１８２、音声合成用サブセット辞書作成ソフトウエア１２２及び音声合成ソフトウエア１３２を搭載することにより実現することができる。

音声合成用大容量辞書１８２は、第１の音声合成用辞書を構成する辞書データが記憶された第１の音声合成用辞書記憶手段として機能する。

音声合成用サブセット辞書作成ソフトウエア１０２は、発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、小容量辞書（第２の音声合成用辞書）１８４への格納語を決定し、決定された格納語に対応して大容量辞書（第１の音声合成用辞書）１８２に格納されている辞書データを用いて小容量辞書（第２の音声合成用辞書）１８４を生成する第２の音声合成用辞書作成手段として機能する。

また音声合成用サブセット辞書作成ソフトウエア１２２は、発話対象文章を構成する語のなかで小容量辞書（第２の音声合成用辞書）１８４への格納対象となっていない未格納語について小容量辞書（第２の音声合成用辞書）１８４の格納語に置き換える発話対象文章の変更を行う発話対象文章変更手段として機能するようにしてもよい。

また音声合成用サブセット辞書作成ソフトウエア１２２は、小容量辞書（第２の音声合成用辞書）１８４を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第２の音声合成用辞書または発話対象文章の確定または変更処理を行う編集処理手段として機能するようにしてもよい。

音声合成ソフトウエア１３２は、小容量辞書(第２の音声合成用辞書)１８４を用いて発話対象文章に対応した合成音声を生成する音声合成手段として機能する。実際には大容量辞書（第２の音声合成用辞書)１８２を用いて発話対象文章に対応した合成音声を生成することも可能である。

本実施の形態の音声合成用辞書作成システム１０は、発話対象文章に基づき格納語を決定して格納語に対応する辞書データを大容量辞書（第１の音声合成用辞書）１８２から抽出して小容量辞書（第２の音声合成用辞書）１８４に格納する。

そして小容量辞書の辞書データをＴＴＳ−ＬＳＩ（半導体集積回路装置の一例）７１０のＲＯＭ（不揮発性記憶部）に書き込んで小容量辞書を作成する。

ＴＴＳ−ＬＳＩ（半導体集積回路装置の一例）７１０は、小容量辞書３０及び音声合成システム２０を搭載し、所定の発話対象文章に対応した合成音声を生成する半導体集積回路装置である。小容量辞書７３０は音声合成用辞書を構成する辞書データが記憶された不揮発性記憶部として機能し、音声合成システム７２０は、前記不揮発性記憶部に記憶された辞書データを用いて所定の発話対象文章に対応した合成音声を生成する音声合成部として機能する。

本実施の形態では、例えば特定用途向けで、読みあげる語彙について特定の用途がある場合や、読み上げる文章が予め判明しているＴＴＳ−ＬＳＩ（集積回路装置の一例）７１０のように、搭載可能な音声辞書ファイルが比較的小語彙に制限されている。

ＴＴＳ−ＬＳＩ（集積回路装置の一例）１０用の小容量辞書（サブセット辞書）７３０には、パーソナルコンピュータ１００上の大容量辞書（フルセット辞書）１８２から、ＴＴＳ−ＬＳＩ（集積回路装置の一例）１０で音声合成する所定の発話対象文章に必要な語彙に対応する辞書データを抽出して作成された小容量辞書（第２の音声合成用辞書）を構成する辞書データが書き込まれている。

このようにすることでＴＴＳ−ＬＳＩ（集積回路装置の一例）７１０の特定の用途に対応する辞書を作成できるので、小容量の辞書で十分な性能を確保することができる。また、発話対象文章が予め判明している場合には、該発話対象文章の語彙のみに限った辞書を作成するので、リソースの無駄も無くことができ、ＴＴＳ−ＬＳＩ（集積回路装置の一例）７１０に搭載する辞書の最適化を行なうことができる。

図１０は、本実施の形態の音声合成システムを用いた音声合成用辞書作成システムの機能ブロック図の一例である。
なお、本実施形態の音声合成システムを用いた音声合成用辞書作成システム１００は、図２の構成要素（各部）を全て含む必要はなく、その一部を省略した構成としてもよい。

操作部１６０は、ユーザーの操作等をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル或いはマイクなどのハードウェアにより実現できる。

記憶部１７０は、処理部１１０や通信部１９６などのワーク領域となるもので、その機能はＲＡＭなどのハードウェアにより実現できる。

情報記憶媒体１８０（コンピュータにより読み取り可能な媒体）は、プログラムやデータなどを格納するものであり、その機能は、光ディスク（ＣＤ、ＤＶＤ等）、光磁気ディスク（ＭＯ）、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ（ＲＯＭ）などのハードウェアにより実現できる。

また情報記憶媒体１８０には、本実施形態の各部としてコンピュータを機能させるプログラムや補助データ（付加データ）が記憶されるとともに、音声合成用の大容量辞書データが記憶され第１の音声合成用辞書記憶部１８２として機能する。なお情報記憶媒体１８０には、第１の音声合成用辞書から抽出された第２の音声合成用辞の辞書データも記憶するようにしてもよい。

処理部１００は、この情報記憶媒体１８０に格納されるプログラム（データ）や情報記憶媒体１８０から読み出されたデータなどに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体１８０には、本実施形態の各部としてコンピュータを機能させるためのプログラム（各部の処理をコンピュータに実行させるためのプログラム）が記憶される。

表示部１９０は、本実施形態により生成された画像を出力するものであり、その機能は、ＣＲＴディスプレイ、ＬＣＤ（液晶ディスプレイ）、ＯＥＬＤ(有機ＥＬディスプレイ)、ＰＤＰ（プラズマディスプレイパネル）、タッチパネル型ディスプレイなどのハードウェアにより実現できる。

音出力部１９２は、本実施形態により生成された合成音声等を出力するものであり、その機能は、スピーカ、或いはヘッドフォンなどのハードウェアにより実現できる。また音出力部１９２は、Ｄ級アンプ１９３、音声データバッファ１９４を含み、生成された合成音声を再生出力する音声再生部として機能する。

通信部１９６は、外部（例えばホスト装置や他の端末機）との間で通信を行うための各種の制御を行うものであり、その機能は、各種プロセッサ又は通信用ＡＳＩＣなどのハードウェアや、プログラムなどにより実現できる。

なお本実施形態の各部としてコンピュータを機能させるためのプログラム（データ）は、ホスト装置（サーバ装置）が有する情報記憶媒体からネットワーク及び通信部１９６を介して情報記憶媒体１８０（あるいは記憶部１７０）に配信するようにしてもよい。このようなホスト装置（サーバ装置等）の情報記憶媒体の使用も本発明の範囲内に含めることができる。

処理部１１０（プロセッサ）は、操作部１６０からの操作データやプログラムなどに基づいて、記憶部１７０をワーク領域として各種処理を行う。処理部１１０の機能は各種プロセッサ（ＣＰＵ、ＤＳＰ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、プログラムにより実現できる。

処理部１１０は、第２の音声合成用辞書作成部１２０、音声合成処理部１３０、発話対象文章変更処理部１４０、辞書編集処理部１５０を含む。

第２の音声合成用辞書作成部１２０は、発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第２の音声合成用辞書への格納語を決定し、決定された格納語に対応して第１の音声合成用辞書に格納されている辞書データを用いて第２の音声合成用辞書を生成する。

音声合成処理部１３０は、第２の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成する。

また音声合成処理部１３０は、受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するように構成され、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質となり、それ以外の単語については第１の音質とは異なる音質となる音声データを生成する。

ここにおいて前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、音声合処理成部１３０は、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第１の音質または第１の音質以外の音質とする音声データを生成するようにしてもよい。

また音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部（図示せず）をさらに含み、音声合成処理部１３０は、前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第１の音質とは異なる音質となる音声データを生成するようにしてもよい。

また音声合成処理部１３０は、生成した音声データを先入れ先出しで音声データバッファ１９４に格納するとともに、入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号を生成し、音出力１９２は、読み出し制御信号に基づき、音声データバッファ４４から先入れ先出しで音声データを読み出しで再生するようにしてもよい。

発話対象文章変更処理部１４０は、発話対象文章を構成する語のなかで第２の音声合成用辞書への格納対象となっていない未格納語について第２の音声合成用辞書の格納語に置き換える発話対象文章の変更を行う。

発話対象文章変更処理部１４０は、変更履歴記録処理部１４２、同義語置き換え処理部１４４、仮名置き換え処理部１４６を含む。

変更履歴記録処理部１４２は、発話対象文章を構成する語の置き換えに関する変更履歴を記録する処理を行う。

同義語置き換え処理部１４４は、未格納語について、第２の音声合成用辞書の格納語との同義語があるか否かを解析し、同義語がある場合には発話対象文章の前記未格納語を同義語に置き換える同義語置き換え処理を行う。

仮名置き換え処理部１４６は、未格納語について、当該語のよみを表す仮名表記に置き換えるかな置き換え処理をおこなう。

辞書編集処理部１５０は、第２の音声合成用辞書を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第２の音声合成用辞書または発話対象文章の確定または変更処理を行う。

また辞書編集処理部１５０は、第２の音声合成用辞書の格納語についてのユーザーの指定入力を受け付け、第２の音声合成用辞書作成部１２０は、ユーザーの指定入力に基づき格納語を決定するようにしてもよい。

次に、本発明の動作を、具体例を用いて説明する。

図１１は本実施の形態の処理の流れを説明するためのフローチャートである。

まず発話対象文章のプロファイリングを行う（ステップＳ１０）。例えば発話対象文章を単語に分解し、各単語の出現頻度を集計する。

次に頻出語辞書抽出（一次抽出）を行う（ステップＳ２０）。例えば上記プロファイリングデータに基づき、予め辞書に割り当て可能と決められた記憶容量のうち、特定の割合（例えば８０％）を出現頻度の高い単語から順に割り当てる。その際、出現頻度がある回数（例えば２回）なければ、上記の割合に達しなくとも割り当てを停止する。出現頻度は、一般に「ロングテール」型の分布をとるので、この段階で対象文章の部位の多くがサブセット辞書でカバーされることが期待できる。

次に一次抽出後のサブセット辞書を用いて発話対象文章の発話試行を行い、ユーザーに確認する（ステップＳ３０）。このときサブセット辞書にある単語については通常音声で発話し、サブセット辞書にない音声については特別音声で発話する。

そしてユーザーからの確認入力（例えばＯＫ又はＮＧ）を受け付け、ＯＫであれば処理を終了し（一次抽出後の内容でサブセット辞書の内容を確定させる）、ＮＧであれば、以降の処理を行う（ステップＳ４０）。

次に低出現語彙の置き換え処理を行う（ステップＳ５０）。一次抽出の過程で漏れた語彙について、「シノニム」辞書を使って、語彙の置き換えができないかどうかを確認する。既に割り当てられている語彙に置き換えられる場合、および、置き換えにより複数の語彙を一つにまとめられる場合を調べて、置き換えによる発話対象文章の変更を行う。

次に一次抽出後のサブセット辞書を用いて変更後の発話対象文章の発話試行を行い、ユーザーに確認する（ステップＳ６０）。このときサブセット辞書にある単語については通常音声で発話し、サブセット辞書にない音声については特別音声で発話する。

結果の置き換え採用の可否は、一旦、ユーザーに提示して、判断をうけた上で辞書に追加をすることも可能であるし、置き換えられるものは優先して置き換えてしまうことも可能である。この際、既に割り当てられているものは辞書追加は不要であるので、対象文章の語彙の方を置換することになる。また頻度順にソートした上で、頻度の高いものから、既に割り当てられている残りの割合の範囲内でサブセット辞書に追加を行なう場合には、追加分について置き換え可能な語彙があるか否か検索し、発話対象文章を新規追加した語彙に置換するようにしてもよい。

そしてユーザーからの確認入力（例えばＯＫ又はＮＧ）を受け付け、ＯＫであれば処理を終了し（一次抽出後の内容でサブセット辞書の内容を確定させる）、ＮＧであれば、以降の処理を行う（ステップＳ７０）。

次に、発話対象文章の変更を変更履歴として記録する処理を行う（ステップＳ８０）。

図１２は、置き換え時の変更履歴記録処理の一例を説明するための図である。

たとえば図１２に示すように発話対象文章２００自体にコメント２２０、２３０、２４０を挿入する形式で発話対象文章の変更履歴を残すようにしてもよい。コメントは例えばコメントであることを示すためにカギ括弧（図４の２２２と２２６、２３２と２３８、２３２と２３６）に囲む等で、発話対象文章と区別できるようにしてもよい。

ここで２１０は置き換え語の単語である（発話対象文章の一部である）。コメント２２０と２４０は置き換え後の前後につき、これらのコメントに挟まれた部分が置き換え語であることを示す。２３０は、置き換え語に対応するオリジナル語（元もとの発話対象文章に含まれていた語句）が「パフォーマンス」であることを示すコメントである。

次に、ユーザーに対して手動編集を行うか否か確認し、行う場合には手動辞書編集処理を行う（ステップＳ９０、Ｓ１００）。発話対象対象文章で抽出されていない語彙について頻度順にソートした上で、頻度の高いものから、既に割り当てられている残りの割合の範囲内でサブセット辞書に追加を行なうようにしてもよい。

次に上記の処理で対応できない単語については、単語としての登録を断念し、対象文章へのルビ挿入による「単音発音」へと変換する（ステップＳ１１０）。

図１３は、ルビ振り（かな置き換え処理）時の変更履歴記録処理の一例を説明するための図である。

例えば、「量子論」という単語の登録ができない場合には、図５の３１０に示すように「りょうしろん」というルビ（カタカナまたはひらかなのいずれかのかな）に変換する。その際、該当部位がルビであること、発音しないが元の単語が「量子論」であったことを示すためのテキストＴＡＧづけを図１３のようにおこなってもよい。

すなわち図１３に示すように発話対象文章３００自体にコメント３２０、３３０、３４０を挿入する。ここで３１０は仮名変換後のかなである（発話対象文章の一部である）。コメント３２０と３４０は仮名変換語の前後につき、これらのコメントに挟まれた部分が仮名変換語であることを示す。３３０は、仮名変換語に対応するオリジナル語（元もとの発話対象文章に含まれていた単語が「量子論」であることを示すコメントである。

サブセット辞書（第２の音声合成用辞書）には仮名表記に対する音声合成データは含まれているので、仮名文字で表された単語は発音可能である。ただし仮名文字としての認識しかないので、当該単語特有の抑揚やアクセントをだすことが困難で棒読みに近い形の発音となる。

そこでサブセット辞書を用いて変更後の発話対象文章の発話試行を行い、ユーザーに確認する（ステップＳ１２０）。ここでルビ変換処理を行った単語については通常音声ではなく特別音声として出力してもよい。このようにすることで、ルビ変換処理を行った単語について聴覚的にユーザーに注意を促すことができる。

そしてユーザーからの確認入力（例えばＯＫ又はＮＧ）を受け付け、ＯＫであれば処理を終了し（一次抽出後の内容でサブセット辞書の内容を確定させる）、ＮＧであれば、ステップＳ１００に戻り以降の処理を行う（ステップＳ１３０）。

上記実施の形態ではサブセット辞書の語彙辞書の抽出を例にとり説明した。この手法によれは、語彙を絞り込むことにより、音素も抽出された語彙に対応するもののみに絞りこむことができるので、結果としてサブセット音素辞書も小さくすることができる。

しかしサブセット音素辞書サイズに問題ある場合には、一次抽出において割合を変えて再試行するなどの作業を行うようにしてもよい。

また上記ステップＳ３０、Ｓ６０、Ｓ１２０において発話試行を行う際にサブセット辞書にない単語については通常音声で発話しサブセット辞書にない単語については特別音声で発話することで、サブセット辞書にない部分がどのように発声させるかを聴覚的にユーザーに注意を促すことができる。

なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。

本実施の形態によれば、組み込み用の小量量のＩＣ化された音声合成システム、およびその音声合成システム用の音声辞書を開発するためのオーサリングツール（ＰＣ上のソフトウエア）において、辞書に無い、正しい読み方でない可能性がある語彙を読みあげる場合について、使用者（開発者）の注意を促すために、敢えて通常とは異なる声質の音声で読みあげることができる。従ってＴＴＳが「知らない」単語を無理に読んでいる、ということが使用者にも容易に分かり、誤解を招くケースを防止できる。また、オーサリング時には辞書を再編成せずに読み上げさせた場合の問題部分とその影響度、また、辞書を再編成した場合の改善度が明確になるので開発効率が高まる。

また日本語以外の言語に対するＴＴＳシステムに対しても適用可能である。

本実施の形態の音声合成システムをシングルチップＴＴＳ−ＬＳＩ（半導体集積回路装置）で実現する構成について説明するための図。本実施の形態の特徴について説明するための図。変換レベルとモード情報に応じて各単語の音質を決定する例の説明図。本実施の形態のタイミング制御について説明するための図。息継ぎポイントの制御について説明するための図。本実施の形態のタイミング制御にかかるタイミングチャート。本実施の形態の音声合成の処理の流れを示すフローチャート。本実施の形態の音声合成システムをシングルチップＴＴＳ−ＬＳＩ（半導体集積回路装置）で実現する他の構成について説明するための図。本実施の形態の音声合成システムを用いた音声合成用辞書作成システムと半導体集積回路装置について説明するための図。本実施の形態の音声合成システムを用いた音声合成用辞書作成システムの機能ブロック図の一例。本実施の形態の音声合成システムを用いた音声合成用辞書作成システムの処理の流れを説明するためのフローチャート。置き換え時の変更履歴記録処理の一例を説明するための図。ルビ振り（かな置き換え処理）時の変更履歴記録処理の一例を説明するための図。

符号の説明

１０半導体集積回路装置（ＴＴＳ−ＬＳＩ）、２０音声合成処理部、２２テキスト表記→音表記変換ブロック、２４音素選択部、２６発音ブロック、２８フィルタ処理部、３２語彙辞書、３４音素辞書、４０スピーカーＩ／Ｆ、４２Ｄ級アンプ、４４音声データバッファ、５０ホストＩ／Ｆ５４モード情報設定・変更部、１００音声合成用辞書作成システム、１１０処理部、１２０第２の音声合成用辞書作成部、１２２サブセット辞書作成ソフトウエア、１３０音声合成処理部、１３２音声合成ソフトウエア、１４０発話対象文章変更部、１４２変更履歴記録処理部、１４４同義語置き換え処理部、１４６かな置き換え処理部、１５０辞書編集処理部、１８２第１の音声合成用辞書記憶部（大容量辞書）、１８４大容量辞書

Claims

入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を記憶する語彙辞書記憶部と、
受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成する音声合成部と、
生成された音声データを再生出力する音声再生部と、を含み、
前記音声合成部は、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質となり、それ以外の単語については第１の音質とは異なる音質となる音声データを生成することを特徴とする音声合成システム。
発話対象の入力文字列に対応した合成音声を生成するために必要な辞書データの集合である第１の音声合成用辞書から第１の音声合成用辞書に比べてデータ量の少ない第２の音声合成用辞書を作成する音声合成システムであって、
第１の音声合成用辞書を構成する辞書データが記憶された第１の音声合成用辞書記憶部と、
前記入力文字列を解析し、入力文字列を構成する各語句の出現頻度を調べ、出現頻度に基づき、第２の音声合成用辞書への格納語を決定し、決定された格納語に対応して第１の音声合成用辞書に格納されている辞書データを用いて第２の音声合成用辞書を生成する第２の音声合成用辞書作成部と、
第２の音声合成用辞書を用いて前記入力文字列に対応した合成音声を生成する音声合成部と、
生成された合成音声を再生出力する音声再生部と、を含み、
第２の音声合成用辞書作成部は、
所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を作成し、
前記音声合成部は、
受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するように構成され、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第１の音質となり、それ以外の単語については第１の音質とは異なる音質となる音声データを生成することを特徴とする音声合成システム。
請求項１乃至２のいずれかにおいて、
前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、
前記音声合成部は、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第１の音質または第１の音質以外の音質とする音声データを生成することを特徴とする音声合成システム。
請求項３において、
音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部をさらに含み、
前記音声合成部は、
前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第１の音質とは異なる音質となる音声データを生成することを特徴とする音声合成システム。
請求項１乃至４のいずれかにおいて、
前記音声合成部は、
生成した音声データを先入れ先出しで音声データバッファに格納するとともに、
入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号を生成し、
前記音声再生部は、
前記読み出し制御信号に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生することを特徴とする音声合成システム。