JP2008257116A - 音声合成システム - Google Patents

音声合成システム Download PDF

Info

Publication number
JP2008257116A
JP2008257116A JP2007101660A JP2007101660A JP2008257116A JP 2008257116 A JP2008257116 A JP 2008257116A JP 2007101660 A JP2007101660 A JP 2007101660A JP 2007101660 A JP2007101660 A JP 2007101660A JP 2008257116 A JP2008257116 A JP 2008257116A
Authority
JP
Japan
Prior art keywords
dictionary
speech
word
speech synthesis
sound quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007101660A
Other languages
English (en)
Inventor
Masamichi Izumida
正道 泉田
Masayuki Murakami
雅行 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2007101660A priority Critical patent/JP2008257116A/ja
Publication of JP2008257116A publication Critical patent/JP2008257116A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】TTSシステムにおいて読み誤りのある可能性の箇所に注意を促すことが可能な音声合成システムを作成すること。
【解決手段】入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システム10であって、所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を記憶する語彙辞書記憶部32と、受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成する音声合成部20と、生成された音声データを再生出力する音声再生部40と、を含み、音声合成部20は、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質となり、それ以外の単語については第1の音質とは異なる音質となる音声データを生成する。
【選択図】 図1

Description

本発明は、TTS方式の音声合成システムに関する。
キャラクタデータの集まりであるテキストデータから音声を合成するTTS方式の音声合成LSIには、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式がある。
いずれの方式にせよ、文章から音に変換する前に、SHIFT−JISコードなどで標記された表記上のテキスト表現から、どのように発音させたいのか「読み」への変換辞書(データベース)を持つことが必須である。
また、さらに、コンキャティネイティブ方式、コーパスベース方式では、さらに「読み」から検索する「音素」への辞書(データベース)も必要であった。
特開平10−260815号
小容量のシステムの場合、十分な「表記→読み」語彙データ辞書がもてないため、必然的に辞書からもれる語彙が出てくる。しかし、語彙そのものの存在を飛ばしてしまうと文脈そのものを追うことが難しくなるため、その場合の対処としては、単漢字、個別ひらがな等の単純な音に分解してともかく発声させるような方法がとられる。しかし、その読み、例えば単漢字はともかく訓読みで読み下すなどの方法は、該当語彙や文脈では正しい読みでない可能性も高かった。しかし正しい読みであるか否かは、使用者の判断に任せるしか無かったため、誤解をまねくおそれもあった。
本発明は、以上のような技術的課題に鑑みてなされたものであり、その目的とするところは、TTSシステムにおいて読み誤りのある可能性の箇所に注意を促すことが可能な音声合成システムを作成することである。
(1)本発明は、
入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を記憶する語彙辞書記憶部と、
受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成する音声合成部と、
生成された音声データを再生出力する音声再生部と、を含み、
前記音声合成部は、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質となり、それ以外の単語については第1の音質とは異なる音質となる音声データを生成することを特徴とする。
本発明の音声合成システムはテキストデータから音声を合成するTTS(text-to-speech)方式の音声合成システムである。TTSシステムには、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式があるが、そのいずれにも適用可能である。例えばコンキャティネイティブ方式やコーパスベース方式などの場合には音素辞書を有し、音声合成部は音素辞書に基づき読み表記に対応した合成音声の音声データを生成するようにしてもよい。
語彙辞書は、テキスト表記に対応した読み表記が記憶されているデータ辞書であり、音素辞書は、声質を高めるのに効果的な多くのケースを網羅した辞書である。語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)(例えばテキスト表記に対応した読みのデータ)が格納された辞書でもよい。フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理(テキストの正規化、プリプロセッシング、トークン化などと呼ばれる)や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理(単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ)等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される構成でもよい。テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われるようにしてもよい。
音素辞書は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音(音素)の波形情報を格納する辞書である。バックエンドで音声波形を生成する主要技術には、連結的合成(concatenative synthesis)やフォルマント合成(formant synthesis)がある。連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。
音声合成部は、語彙辞書や音素辞書に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、受け取った発話対象文章に対応した合成音声を生成するようにしてもよい。
本発明によれば入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質(例えば通常音質)となり、それ以外の単語については第1の音質とは異なる音質(例えば特別音質)となる音声データを生成する。
ここで単語とは、文章の最小構成で、特定の意味、文法上の職能を有するものであり、適宜設定することが可能である。
また音質がことなるとは、声質が異なる場合でもよいし、音の高低や大小や速さ等がことなる場合でもよい。声質がことなるとは、例えばフィルタ等で声質を変化させる場合でもよいし、異なる音源(音素辞書)を用いて読み表記に対応した合成音声の音声データを生成する場合でもよい。
例えば第1の音質(例えば通常音質)を女性の声質にして、第1の音質とは異なる音質(例えば特別音質)を異なる女性の声質にしてもよいし、男性の声質にしてもよい。また第1の音質(例えば通常音質)をコンキャティネイティブ方式で生成して、第1の音質とは異なる音質(例えば特別音質)をパラメトリック方式で生成してもよい。
本発明によれば小語彙で読み誤りの可能性のあるTTSシステムを使って、音声読み上げを行った場合に、読み誤りの可能性のある箇所について注意を促すことができるようになり、利用者の誤解等の可能性を下げることができる音声合成システムを提供することができる。
(2)本発明は、
発話対象の入力文字列に対応した合成音声を生成するために必要な辞書データの集合である第1の音声合成用辞書から第1の音声合成用辞書に比べてデータ量の少ない第2の音声合成用辞書を作成する音声合成システムであって、
第1の音声合成用辞書を構成する辞書データが記憶された第1の音声合成用辞書記憶部と、
前記入力文字列を解析し、入力文字列を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する第2の音声合成用辞書作成部と、
第2の音声合成用辞書を用いて前記入力文字列に対応した合成音声を生成する音声合成部と、
生成された合成音声を再生出力する音声再生部と、を含み、
第2の音声合成用辞書作成部は、
所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を作成し、
前記音声合成部は、
受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するように構成され、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質となり、それ以外の単語については第1の音質とは異なる音質となる音声データを生成することを特徴とする。
第1の音声合成用辞書は任意の発話対象文章に対する合成音声を生成することが可能な規模の辞書データを有するフルセット辞書(大容量辞書)であり、第2の音声合成用辞書は特定の発話対象文章に対する合成音声を生成することが可能な規模のデータを有するサブセット辞書(小容量辞書)である。
第1の音声合成用辞書は、例えば語彙辞書(「表記→読み」データ辞書)や音素辞書(声質を高めるのに効果的な多くのケースを網羅した辞書)等で構成される。第1の音声合成用辞書記憶手段にはこれらの辞書データが記憶され、辞書データベースとして機能する。なお辞書の種類は音声合成の方式に応じて決定され、例えば語彙辞書と音素辞書の両方含む場合でもよいし、語彙辞書のみでもよい。
語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)(例えばテキスト表記に対応した読みのデータ)が格納された辞書である。
フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理(テキストの正規化、プリプロセッシング、トークン化などと呼ばれる)や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理(単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ)等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される。
テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われる。多くのTTS(text-to-speech)システムでは入力されるテキストの意味を解析しないで、例えば前後の単語を調べたり、統計的な出現頻度を用いたり等の様々なヒューリスティクスを用いて同綴異義語の区別を行う。
音素辞書は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音(音素)の波形情報を格納する辞書である。バックエンドで音声波形を生成する主要技術には、連結的合成(concatenative synthesis)やフォルマント合成(formant synthesis)がある。連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。
音声合成手段は、第1の音声合成用辞書に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、受け取った発話対象文章に対応した合成音声を生成する。
第2の音声合成用辞書作成手段は、例えば出現頻度の高い語句を優先して格納語として決定するようにしてもよい。例えば予め第2の音声変換用辞書に割り当て可能と決められた記憶容量のうち、特定の割合(例えば80%)を出現頻度の高い語彙から順に割り当てるようにしてもよい。その際、出現頻度がある回数(例えば2回)なければ、上記の割合に達しなくとも割り当てを停止するようにしてもよい。出現頻度は、一般に「ロングテール」型の分布をとるので、このようにすることで対象文章の部位の多くがカバーされることが期待できる。
音声合成手段は、第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成するので、ユーザーは発話対象文章の音声合成の結果を確認することができる。
本発明によれば、特定の発話対象文章を解析して、特定の発話対象文章の音声合成を行う場合に必要十分な辞書データを第1の音声合成用辞書から抽出して、第1の音声合成用辞書に比べてデータ量が少ない第2の音声合成用辞書を生成することができる。
従ってオンチップリソース(ROM容量など)の限られるシングルチップTTS−LSIにおいて搭載可能な音声辞書ファイルが比較的小語彙に制限される場合でも、特定の発話対象文章については精度良く音声合成が可能なサブセット辞書(第2の音声合成用辞書)を生成することができる。
なお本発明では、第2の音声合成用辞書に格納される語彙を選別抽出することで語彙辞書のデータ量を減らすことができる。そして語彙辞書のデータ量を減らすことで、対応する音素辞書のデータ量も結果として減少するため、第2の音声合成用辞書の語彙辞書、音素辞書ともにデータ量を削減することができる。
また本発明によれば入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質(例えば通常音質)となり、それ以外の単語については第1の音質とは異なる音質(例えば特別音質)となる音声データを生成する。ここで音質がことなるとは、声質が異なる場合でもよいし、音の高低や大小や速さ等がことなる場合でもよい。声質がことなるとは、例えばフィルタ等で声質を変化させる場合でもよいし、異なる音源(音素辞書)を用いて読み表記に対応した合成音声の音声データを生成する場合でもよい。
例えば第1の音質(例えば通常音質)を女性の声質にして、第1の音質とは異なる音質(例えば特別音質)を異なる女性の声質にしてもよいし、男性の声質にしてもよい。また第1の音質(例えば通常音質)をコンキャティネイティブ方式で生成して、第1の音質とは異なる音質(例えば特別音質)をパラメトリック方式で生成してもよい。
本発明によればTTSシステムをオーサリングツールとして使用する場合に、入力テキストを試行再生しながら問題点のある部位を確実に把握して、ルビデータの挿入などの編集作業を行なったり、語彙辞書への語彙追加などの作業を行なえるようになった。従ってオーサリング時には辞書を再編成せずに読み上げさせた場合の問題部分とその影響度、また、辞書を再編成した場合の改善度が明確になるので開発効率を高めることができる。
また発話対象文章を構成する語のなかで第2の音声合成用辞書への格納対象となっていない未格納語について第2の音声合成用辞書の格納語に置き換える発話対象文章の変更を行う発話対象文章変更手段と、
含むようにしてもよい。
また前記発話対象文章変更手段は、
発話対象文章を構成する語の置き換えに関する変更履歴を記録することを特徴とする音声合成用辞書を作成するようにしてもよい。
また前記発話対象文章変更手段は、
前記未格納語について、第2の音声合成用辞書の格納語との同義語があるか否かを解析し、同義語がある場合には発話対象文章の前記未格納語を同義語に置き換える同義語置き換え処理を行う同義語置き換え処理手段を含むようにしてもよい。
また発話対象文章変更手段は、
前記未格納語について、当該語のよみを表す仮名表記に置き換えるかな置き換え処理をおこなう仮名置き換え処理手段を含むようにしてもよい。
また第2の音声合成用辞書を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第2の音声合成用辞書または発話対象文章の確定または変更処理を行う編集処理手段とを、含むようにしてもよい。
また前記編集処理手段は、
第2の音声合成用辞書の格納語についてのユーザーの指定入力を受け付け、
前記第2の音声合成用辞書作成手段は、
前記ユーザーの指定入力に基づき格納語を決定するようにしてもよい。
(3)本発明の音声合成システムは、
前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、
前記音声合成部は、
入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第1の音質または第1の音質以外の音質とする音声データを生成することを特徴とする。
例えば変換レベル毎に異なる音質をとる音声データを生成してもよいし、変換レベルを2種対に分類して、第1の分類の変換レベルの単語については第1の音質、第2の分類の変換レベルに対しては第1の音質とは異なる音質をとる音声データを生成してもよい。
(4)本発明の音声合成システムは、
音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部をさらに含み、
前記音声合成部は、
前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第1の音質とは異なる音質となる音声データを生成することを特徴とする。
モード情報は例えば外部から設定または変更可能に構成してもよい。例えば操作部を介してユーザーがモード情報を設定または変更できるように構成してもよい。
(5)本発明の音声合成システムは、
前記音声合成部は、
生成した音声データを先入れ先出しで音声データバッファに格納するとともに、
入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号を生成し、
前記音声再生部は、
前記読み出し制御信号に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生することを特徴とする。
以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
1.第1の実施例(シングルチップTTS−LSI)
図1は、本実施の形態の音声合成システムをシングルチップTTS−LSI(半導体集積回路装置)で実現する構成について説明するための図である。
シングルチップTTS−LSI10は、音声合成用の辞書30を含む。ここでは、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式で、テキストデータから音声を合成するTTS方式の音声合成LSIを例にとり説明する。
辞書30は、語彙辞書32と音素辞書34を含み、ROMやフラッシュEEPROM等で実現できる。
語彙辞書32はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)(例えばテキスト表記に対応した読みのデータ)が格納された辞書である。
フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理(テキストの正規化、プリプロセッシング、トークン化などと呼ばれる)や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理(単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ)等を行い、発音記号と韻律情報を組み合わせて記号化言語表現を作成し、フロントエンドの出力とする。
音素辞書34は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音(音素)の波形情報を格納する辞書である。
シングルチップTTS−LSI10は、ホストI/F50を含む。ホストI/F50はホストコンピュータとコマンドやデータのやりとりを行うためのインターフェースブロックである。ホストI/F50はTTSコマンド/データバッファ52を含み、ここにホストから指示された発話対象文章(テキストデータ)が格納される。発話対象文章は音声合成処理部20への入力となる。
シングルチップTTS−LSI10は、音声合成処理部20を含む。音声合成処理部20は、受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するよう構成され、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質となり、それ以外の単語については第1の音質とは異なる音質となる音声データを生成する。
ここにおいて前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、音声合成部20は、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第1の音質または第1の音質以外の音質とする音声データを生成するようにしてもよい。
また音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部54をさらに含み、音声合成部20は、前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第1の音質とは異なる音質となる音声データを生成するようにしてもよい。
また音声合成部20は、生成した音声データを先入れ先出しで音声データバッファ44に格納するとともに、入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号21を生成し、音声再生部40は、読み出し制御信号21に基づき、音声データバッファ44から先入れ先出しで音声データを読み出しで再生するようにしてもよい。
音声合成処理部20は、テキスト表記→音表記変換ブロック22、音素選択部24、発音ブロック26、フィルタ処理部28を含む。各部の機能は、専用の回路を設ける事によって実現してもよいし、CPUが各部の機能を実現するためのプログラムを実行することによって実現してもよい。
表記→音表記変換ブロック22は、語彙辞書32を検索して受け取った発話対象文章を記号化言語表現23にして音素選択部に渡す。
音素選択部24は、発話対象文章の記号化言語表現23を受け取り、音素辞書34を検索して記号化言語表現23に対応する音素の集合を発音ブロック26に渡す。
発音ブロック26は、音素の集合に基づき合成音声波形27を生成する。フィルタ処理部28は、フィルタを用いて合成音声波形の音質の変更または他のキャラクタの音声への変更を行う。
ここで、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語以外の単語については、フィルタを用いて合成音声波形の音質の変更または他のキャラクタの音声への変更を行うことで、第1の音質とは異なる音質となる音声データを生成するようにしてもよい。
シングルチップTTS−LSI10は、スピーカーI/F40を含む。スピーカーI/F40は、D級アンプ42、音声データバッファ44を含む。フィルタ処理部28でフィルタリングされた合成音声波形は音声データバッファ44に格納され、D級アンプ42を介して外部のスピーカに出力される。
図2は、本実施の形態の特徴について説明するための図である。例えば発話対象となる入力文字列が「松坂は陳健民と対戦した」400である場合を例にとり説明する。音声合成処理部のテキスト表記→音表記変換ブロック22は、受け取った入力文字列「松坂は陳健民と対戦した」400を解析して、入力文字列400を構成するテキスト表記の各単語401〜406について語彙辞書を検索して、検索結果に基づき入力文字列を読み表記に変換し、読み表記に対応した合成音声の音声データを生成する。ここで、入力文字列400を構成するテキスト表記の各単語401〜406の語彙辞書(図1の語彙辞書)に対する検索結果が所定の条件を満たすか否か判断し、判断結果に基づき当該単語の音質を通常音質(第1の音質)にするか特別音質(第1の音質とは異なる音質)にするか決定し、各単語が決定された音質をもつ合成音声データを生成する。
ここで所定の条件とは、例えば、語彙辞書(図1の語彙辞書32)記載されているか否か等でもよい。(この場合語彙辞書に記載されていればただしい発音が期待できるとしている)。たとえば入力文字列400を構成するテキスト表記の各単語401〜406のなかで、単語403は語彙辞書に記載されておらず、それ以外の単語401,402、404〜406は語彙辞書に記載されている場合、単語401,402、404〜406については通常音質の合成音声を生成し、単語403については特別音質の合成音声を生成するようにしてもよい。
このようにすることで、小語彙で読み誤りの可能性のあるTTSシステムを使って、音声読み上げを行った場合に、読み誤りの可能性のある箇所について注意を促すことができるようになり、利用者の誤解等の可能性を下げることができる。
ここで通常音質の合成音声は、特別音質の音声にくらべて耳触りのよい声質の声にしてもよい。また通常声質を女性の声、特別声質を男性の声にして注意を喚起するようにしてもよい。
例えば入力文字列400について一旦通常音質の音声波形を生成して、単語403(「陳健民」)の部分だけフィルタをかけて特別音質に変更するようにしても良い。また例えば入力文字列400について一旦基本音質の音声波形を生成して、単語401,402、404〜406の部分には第1のフィルタをかけて基本音質を特別音質に変更し、単語403(「陳健民」)の部分には第2のフィルタをかけて基本音質を特別音質に変更するようにしても良い。
また複数の声質(通常音質と特別音質を含む複数の音質)の辞書を持たせ、単語ごとにそれらを切り替えて使用して音声波形を生成してもよい。なお、その際、通常音質はコーパスベースの音声合成であるが、特別声質はパラメトリックな音声合成として異なる音声合成方式を使うようにしてもよい。
図3(A)(B)は、単語を3以上の変換レベルに分類し、変換レベルとモード情報に応じて各単語の音質を決定する例の説明図である。例えば発話対象となる入力文字列が「大和のはし」410である場合を例にとり説明する。
本実施の形態では、日本語の特徴を考え、発音対象テキスト各部について、以下の3段階の変換レベルに分類するようにした。漢字、仮名まじりの通常のテキストファイルであって、漢字、仮名(ひらがな、カタカナ)、英字とも、語彙辞書に記載されており、正しい発音が期待できる場合を、変換レベル1と規定する。また漢字もしくは英字のボキャブラリであって、辞書にはないが、テキストファイル中にルビデータとして読み仮名データが埋め込んであり、辞書にない単語についてはルビデータのカタカナ文字を単文字ずつ発音する形で発音可能な場合を、変換レベル2と規定する。ひらがな語、かたかな語については、辞書にない場合でも、ルビ同等として扱えるのでこの分類となる。変換レベル2は、不自然で、正しいアクセントは期待できないが、音としては正しく発音されていることが期待できるケースである。また語彙辞書にはなく、ルビデータも埋め込んでないため、漢字については単漢字辞書記載の発音により、英字についてはローマ字読みにて無理やり読まないと音が欠落してしまう場合を変換レベル3と規定する。
ここで「大和」というテキスト表現に対応する読み表記例として、語彙辞書には「やまと」(歴史上の国名)と「おおわ」(長野県の地名)と「だいわ」(固有名詞)が記憶されているとしても、入力文字列「大和のはし」410の「大和」412がどの読みになるのか文脈から判断不能である。従って語彙辞書にはなくルビデータも埋め込んでないため、漢字については単漢字辞書記載の発音によりよみに変換するケース(変換レベル3のケース)に該当する。ここで単漢字辞書記載の発音によりよみに変換するとは「やまと」を単漢字「大」「和」に分解し、「大」の読み表記である「だい」と「和」のよみ表記である「わ」を連結して発音するケースである。
また単語「の」414は、ひらがなで正しい発音が期待できるので(助詞の「の」)、変換レベル1のケースに該当する。
また単語「はし」416は、「端」「橋」「箸」なのか文脈から判断不能であるがひらがな語であるため、正しいアクセントは期待できないが音として正しく発音することはできるので変換レベル1のケースに該当する。
本実施の形態では上記の3分類の変換レベルについて、声質を以下のように使い分けるモードを準備した。ここで特別音質にするレベルを指示するためのモード情報を設定するモード情報設定部から以下のモードを設定するようにしてもよい。
例えばモード0では全てを基本となる声質1(実施例では女性アナウンサ声質)にて読み上げるモード、特に声質の変更はしないモードであるとする。またモード1ではA、Bのケースについては声質1にて読み上げるが、Cのケースでは基本声質とは異なる声質2(ロボットボイス)に変更して読み上げるモードであるとする。声質2で読まれる単語は辞書にないことが容易に判明するので、誤った読みに惑わされる心配が低くなる他、ルビデータの埋め込み作業時に使用できる。またモード2では変換レベル1のケースについては声質1にて読み上げるが、変換レベル2,3のケースでは声質2に変更して読み上げるモードであるとする。
このような場合、モード0では図3(B)の420に示すようにすべて単語412〜416は声質1の合成音声となる。またモード1では図3(B)の430に示すように「大和」412は音質2(特別音質)の合成音声となり、それ以外の単語414,416は声質1(通常音質)の合成音声となる。
またモード2では図3(B)の440に示すように単語「大和」412と単語「はし」416は音質2(特別音質)の合成音声となり、単語「の」414は声質1(通常音質)の合成音声となる。
図4は、本実施の形態のタイミング制御について説明するための図である。
本実施の形態の音声再生部は音声データバッファとして機能する一次記憶FIFO44と、D級アンプ42を含む。音声出力時には、D級アンプ42は一定のレートで一次記憶FIFO44の音声データをよみだしヘッドフォンやスピーカに出力する。
テキスト表記→音表記変換ブロック22では、変換時に息継ぎポイントを判断したり、変換量に応じて音声データバッファに貯まる音声データの量を判断したりすることにより、音声データバッファのデータのたまり具合に応じて読み出しを許可する指示や息継ぎポイントの指示等を行うための読み出し制御信号21を生成してD級バッファに出力し、D級アンプ42では、音声合成部20のテキスト表記→音表記変換ブロック22からの読み出し制御信号21に基づき読み出しの制御を行う。
またD級アンプ42は、一次記憶FIFO44への書き込みが追いつかない場合には一次記憶FIFO44からの読み出しを停止する。
一次記憶FIFO44、バッファがあふれそうな場合にデータ生成を停止させるためのFIFO書き込み停止信号45を生成して音声合成部20のテキスト表記→音表記変換ブロック22に送る。テキスト表記→音表記変換ブロック22では、書き込み停止信号に基づき、発話対象テキストのデコードのタイミングを制御することで合成音声の生成の停止や再開を制御する。
図5は、息継ぎポイントの制御について説明するための図である。
本実施の形態の音声合成部20の前記音声合成部20は、生成した音声データを先入れ先出しで音声データバッファ44に格納するとともに、入力文字列510の解析結果に基づき息継ぎポイント520−1、520−2、520−3を設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号21を生成し、音声再生部40は、読み出し制御信号21に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生する。ここで、テキスト表記→音表記変換ブロック22が、語彙辞書により変換を行う際に辞書の内容に基づき息継ぎポイントを設定するようにしてもよい。例えば辞書の内容により、単語が助詞である場合(例えば「と」514)や、動詞の終了形である場合(例えば「した」516)に、その後ろに息継ぎポイントを設定するようにしてもよい。
530を最終的に生成される音声データ(音声データバッファに格納される音声データ)であるとすると、変換時に息継ぎポイント520−1、520−2、520−3までの音声データの長さ(バイト長)522−1、522−2、522−3は判明する。従って、判明した息継ぎポイントまでの音声データの長さに基づき読み出し制御信号21を生成してD級アンプ42に送ることで、D級アンプ42が息継ぎポイントまでの長さ(バイト長)の音声データを読み出したら、読み出しを一次休止するように制御することができる。
また音声データ530において単語531,532、534〜536は音質1(通常音声)の音声データであるが、単語533は音質2(特別音声)の音声データとなる。ここで音質2の音声データの生成が音質1の音声データの生成に比べて時間がかかる場合(例えば処理不可が高い場合や音質1を生成したあとに音質2に変換するような構成の場合)540にしめすように単語533の音声データの生成に遅延が生じる場合がある。
図6は、本実施の形態のタイミング制御にかかるタイミングチャートであり、図5に示す入力文字列の音声合成及び音声再生時の各信号の状態を示している。
21は音声合成部20が生成してD級バッファに対して出力する読み出し制御信号である。610は、D級アンプが音声データバッファから音声データを読み出す音声データバッファ読み出しレートである。620は、音声データバッファの内容量である。630は音声合成部が音声データバッファに書き込む書き込みレートである。45は音声データバッファが音声合成部にたいして出力する書き込み停止信号である。
区間640では、音声データバッファの内容量が十分ではないため、読み出し制御信号21はこの間読み出し停止を指示するレベル(例えばHレベル)となっており、是に応じてこの間は音声データ読み出しレート620は、読み出し無し状態のレベル(例えばLレベル)となっている(644参照)。またこの間は書き込み停止信号45は、書き込み許可を示すレベル(例えばLレベル)であるため、音声データ書き込みレートは書き込み有り状態のレベル(ここではHレベル)となっている。従ってこの間に640にしめすように音声データバッファの内容量は徐徐に増加している。
区間640では、音声データバッファの内容量620が十分ではないため、読み出し制御信号21はこの間読み出し停止レベル(ここではHレベル)となっており、是に応じてこの間は音声データ読み出しレート620は、読み出し無しレベル(ここではLレベル)となっている。またこの間は書き込み停止信号45は、書き込み許可レベル(ここではLレベル)であるため、音声データ書き込みレート610は書き込み有りレベル(ここではHレベル)となっている。従ってこの間は642にしめすように音声データバッファの内容量620は徐徐に増加している。
音声データバッファの内容量620がいっぱいになると(652参照)、書き込み停止信号45が区間650において書き込み停止レベル(ここではHレベル)となり、これに応じて音声バッファ書き込みレートは書き込み無しレベル(ここではLレベル)となる。そしてこの間読み出し制御信号21は読み出し許可レベル(ここではLレベル)なので、音声バッファ読み出しレート610は読み出し有りレベル(ここではHレベル)となる。従ってこの間は654にしめすように音声データバッファの内容量620は徐徐に減少している。
その後書き込み停止信号が書き込み許可レベル(ここではLレベル)、音声データ書き込みレート610は書き込み有りレベル(ここではHレベル)となっている。662では、図5の540に示すように単語「陳健民」の部分は音声1から音声2に切り替わることにより遅延が生じ、音声データバッファ書き込みレートが書き込み無しレベル(ここではLレベル)に変化している。
区間670では、図5の息継ぎポイント520−2に対応して読み出しを一次停止させるために読み出し制御信号21はこの間読み出し停止を指示するレベル(例えばHレベル)となっており、是に応じてこの間は音声データ読み出しレート620は、読み出し無し状態のレベル(例えばLレベル)となっている。またこの間は書き込み停止信号45は、書き込み許可を示すレベル(例えばLレベル)であるため、音声データ書き込みレートは書き込み有り状態のレベル(ここではHレベル)となっている。従ってこの間に672にしめすように音声データバッファの内容量は徐徐に増加している。
図7は、本実施の形態の音声合成の処理の流れを示すフローチャートである。
まず音声合成部は受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について語彙辞書を検索する(ステップS210)。
次に音声合成部の表記→音表記変換ブロック22は、検索結果に基づき、各単語についてテキスト表記に対応した読み表記に変換するとともに、各単語の変換レベルを判定する(ステップS220)。
次に音声合成部の表記→音表記変換ブロック22は、音素辞書を検索して各単語の読み表記を音素の集合に変換する(ステップS230)。
次に音声合成部の音素選択部は、音素の集合に基づき合成音声波形を生成する(ステップS240)。
次に音声合成部のフィルタ処理部は、モード設定情報と各単語の変換レベルに基づいて、各単語の声質変換を行うか否か判断し、声質変換を行う単語に対応する合成音声波形について通常音声を特別音声に声質変換するためのフィルタリング処理を行う(ステップS250)。
次に音声合成部のフィルタ処理部は、生成した音声データを音声データバッファの内容量に応じて音声データバッファに書き込む(ステップS260)。
次に音声合成部の表記→音表記変換ブロック22は、入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出しタイミング制御信号を生成して出力し、音声再生部は前記読み出しタイミング制御信号に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生する(ステップS270)。
図8は、本実施の形態の音声合成システムをシングルチップTTS−LSI(半導体集積回路装置)で実現する他の構成について説明するための図である。
本実施の形態の形態のシングルチップTTS−LSI10’は、ホストI/F50と、第1の音声合成部50、第2の音声合成部60、選択部70、タイミング調整部74、音声再生部40を含む。ホストI/F50、音声再生部40については図1と同じ構成であるので説明を省略する。
第1の音声合成部50は、コーパスベースTTSサブシステムとして構成することができ、語彙辞書1(52)、表記→音表記1変換ブロック54、音素辞書56、音質1発生ブロック58を含む。各部52、54、56の基本的な機能は図1の対応する各部32,22、34と同様である。また、音質1発生ブロック58は図1の音素選択部24及び発音ブロック26と同様である。
表記→音表記1変換ブロック54、各単語を語彙辞書1(52)で検索した結果、語彙辞書1(52)に存在しない単語については、当該単語を第2の音声合成部に渡すとともに、第1の音声生成部50で合成した音声データと第1の音声生成部50で合成した音声データのいずれを選択するのかを指示する選択信号72を生成して選択部に対して出力する。
第2の音声合成部60は、パラメトリックTTSサブシステムとして構成することができ、語彙辞書2(62)、表記→音表記2変換ブロック64、音質2発生ブロック66を含む。表記→音表記2変換ブロック64は、表記→音表記1変換ブロック54から受け取った単語(語彙辞書1にない単語)について、語彙辞書2で検索して音表記2に変換し、音質2発生ブロック66でパラメトリック方式の合成音声の音声データを生成する。
選択部70は、第1の音声合成部50の生成した声質1の音声データ59と第2の音声合成部60の生成した声質2の音声データ69を受け取り、選択信号72に基づいていずれかの音声データを選択して音声データバッファ44に出力する。
タイミング調整部74は、第1の音声合成部50と第2の音声合成部60の両方で音声合成される単語の音声データが同じタイミングで選択部に入力されるように第1の音声合成部が出力する音声データを遅延させる処理を行う。
例えば図2に示すように発話対象となる入力文字列が「松坂は陳健民と対戦した」である場合、第1の音声合成部50はすべての単語「松坂は陳健民と対戦した」について声質1の音声データを生成し、第2の音声合成部60は単語「陳健民」について声質2の音声データを生成する。「松坂は」「と対戦した」の部分は第1の音声合成部50で生成された音声データしかこないので、選択部を受け付けた音声データ(第1の音声合成部50で作成された音声データ)をそのまま出力する。単語「陳健民」については、第1の音声合成部50と第2の音声合成60で音声合成されるが、音声合成が終了するタイミングは同時ではなく、第2の音声合成部60の終了タイミングが遅延する可能性が高い。従ってタイミング調整部74では、第1の音声合成部50が出力した単語「陳健民」に対応する音声データが選択部70に入力されるタイミングを遅延させる処理を行う。
なお上記実施の形態では、第2の音声合成部は、声質2になる単語のみの音声データを生成する構成を例にとり説明したがこれに限られない。例えば、第1の音声合成部50と第2の音声合成部60がそれぞれパラレルに入力文字列の全単語に対して音声データを生成して、選択部で各単語毎にいずれかの音声データを選択する構成でもよい。
また第1の音声合成部と第2の音声合成部の両方を声質の異なる音素辞書を採用したコーパスベースTTSサブシステムで構成してもよい。
2.第2の実施例(オーサリングツール)
図9は、本実施の形態の音声合成システムを用いた音声合成用辞書作成システムと音声合成用辞書作成システムで作成された音声合成用辞書を内蔵する半導体集積回路装置について説明するための図である。
100は、本実施の形態の音声合成システムを用いた音声合成用辞書作成システムであり、発話対象文章101に対応した合成音声を生成するために必要な辞書データの集合である大容量辞書(第1の音声合成用辞書)182から大容量辞書(第1の音声合成用辞書)182に比べてデータ量の少ない小容量辞書(第2の音声合成用辞書)184を作成する音声合成用辞書作成システムであって、パーソナルコンピュータにTTS対応の音声合成用大容量辞書182、音声合成用サブセット辞書作成ソフトウエア122及び音声合成ソフトウエア132を搭載することにより実現することができる。
音声合成用大容量辞書182は、第1の音声合成用辞書を構成する辞書データが記憶された第1の音声合成用辞書記憶手段として機能する。
音声合成用サブセット辞書作成ソフトウエア102は、発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、小容量辞書(第2の音声合成用辞書)184への格納語を決定し、決定された格納語に対応して大容量辞書(第1の音声合成用辞書)182に格納されている辞書データを用いて小容量辞書(第2の音声合成用辞書)184を生成する第2の音声合成用辞書作成手段として機能する。
また音声合成用サブセット辞書作成ソフトウエア122は、発話対象文章を構成する語のなかで小容量辞書(第2の音声合成用辞書)184への格納対象となっていない未格納語について小容量辞書(第2の音声合成用辞書)184の格納語に置き換える発話対象文章の変更を行う発話対象文章変更手段として機能するようにしてもよい。
また音声合成用サブセット辞書作成ソフトウエア122は、小容量辞書(第2の音声合成用辞書)184を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第2の音声合成用辞書または発話対象文章の確定または変更処理を行う編集処理手段として機能するようにしてもよい。
音声合成ソフトウエア132は、小容量辞書(第2の音声合成用辞書)184を用いて発話対象文章に対応した合成音声を生成する音声合成手段として機能する。実際には大容量辞書(第2の音声合成用辞書)182を用いて発話対象文章に対応した合成音声を生成することも可能である。
本実施の形態の音声合成用辞書作成システム10は、発話対象文章に基づき格納語を決定して格納語に対応する辞書データを大容量辞書(第1の音声合成用辞書)182から抽出して小容量辞書(第2の音声合成用辞書)184に格納する。
そして小容量辞書の辞書データをTTS−LSI(半導体集積回路装置の一例)710のROM(不揮発性記憶部)に書き込んで小容量辞書を作成する。
TTS−LSI(半導体集積回路装置の一例)710は、小容量辞書30及び音声合成システム20を搭載し、所定の発話対象文章に対応した合成音声を生成する半導体集積回路装置である。小容量辞書730は音声合成用辞書を構成する辞書データが記憶された不揮発性記憶部として機能し、音声合成システム720は、前記不揮発性記憶部に記憶された辞書データを用いて所定の発話対象文章に対応した合成音声を生成する音声合成部として機能する。
本実施の形態では、例えば特定用途向けで、読みあげる語彙について特定の用途がある場合や、読み上げる文章が予め判明しているTTS−LSI(集積回路装置の一例)710のように、搭載可能な音声辞書ファイルが比較的小語彙に制限されている。
TTS−LSI(集積回路装置の一例)10用の小容量辞書(サブセット辞書)730には、パーソナルコンピュータ100上の大容量辞書(フルセット辞書)182から、TTS−LSI(集積回路装置の一例)10で音声合成する所定の発話対象文章に必要な語彙に対応する辞書データを抽出して作成された小容量辞書(第2の音声合成用辞書)を構成する辞書データが書き込まれている。
このようにすることでTTS−LSI(集積回路装置の一例)710の特定の用途に対応する辞書を作成できるので、小容量の辞書で十分な性能を確保することができる。また、発話対象文章が予め判明している場合には、該発話対象文章の語彙のみに限った辞書を作成するので、リソースの無駄も無くことができ、TTS−LSI(集積回路装置の一例)710に搭載する辞書の最適化を行なうことができる。
図10は、本実施の形態の音声合成システムを用いた音声合成用辞書作成システムの機能ブロック図の一例である。
なお、本実施形態の音声合成システムを用いた音声合成用辞書作成システム100は、図2の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。
操作部160は、ユーザーの操作等をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル或いはマイクなどのハードウェアにより実現できる。
記憶部170は、処理部110や通信部196などのワーク領域となるもので、その機能はRAMなどのハードウェアにより実現できる。
情報記憶媒体180(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などのハードウェアにより実現できる。
また情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるプログラムや補助データ(付加データ)が記憶されるとともに、音声合成用の大容量辞書データが記憶され第1の音声合成用辞書記憶部182として機能する。なお情報記憶媒体180には、第1の音声合成用辞書から抽出された第2の音声合成用辞の辞書データも記憶するようにしてもよい。
処理部100は、この情報記憶媒体180に格納されるプログラム(データ)や情報記憶媒体180から読み出されたデータなどに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)が記憶される。
表示部190は、本実施形態により生成された画像を出力するものであり、その機能は、CRTディスプレイ、LCD(液晶ディスプレイ)、OELD(有機ELディスプレイ)、PDP(プラズマディスプレイパネル)、タッチパネル型ディスプレイなどのハードウェアにより実現できる。
音出力部192は、本実施形態により生成された合成音声等を出力するものであり、その機能は、スピーカ、或いはヘッドフォンなどのハードウェアにより実現できる。また音出力部192は、D級アンプ193、音声データバッファ194を含み、生成された合成音声を再生出力する音声再生部として機能する。
通信部196は、外部(例えばホスト装置や他の端末機)との間で通信を行うための各種の制御を行うものであり、その機能は、各種プロセッサ又は通信用ASICなどのハードウェアや、プログラムなどにより実現できる。
なお本実施形態の各部としてコンピュータを機能させるためのプログラム(データ)は、ホスト装置(サーバ装置)が有する情報記憶媒体からネットワーク及び通信部196を介して情報記憶媒体180(あるいは記憶部170)に配信するようにしてもよい。このようなホスト装置(サーバ装置等)の情報記憶媒体の使用も本発明の範囲内に含めることができる。
処理部110(プロセッサ)は、操作部160からの操作データやプログラムなどに基づいて、記憶部170をワーク領域として各種処理を行う。処理部110の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。
処理部110は、第2の音声合成用辞書作成部120、音声合成処理部130、発話対象文章変更処理部140、辞書編集処理部150を含む。
第2の音声合成用辞書作成部120は、発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する。
音声合成処理部130は、第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成する。
また音声合成処理部130は、受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するように構成され、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質となり、それ以外の単語については第1の音質とは異なる音質となる音声データを生成する。
ここにおいて前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、音声合処理成部130は、入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第1の音質または第1の音質以外の音質とする音声データを生成するようにしてもよい。
また音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部(図示せず)をさらに含み、音声合成処理部130は、前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第1の音質とは異なる音質となる音声データを生成するようにしてもよい。
また音声合成処理部130は、生成した音声データを先入れ先出しで音声データバッファ194に格納するとともに、入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号を生成し、音出力192は、読み出し制御信号に基づき、音声データバッファ44から先入れ先出しで音声データを読み出しで再生するようにしてもよい。
発話対象文章変更処理部140は、発話対象文章を構成する語のなかで第2の音声合成用辞書への格納対象となっていない未格納語について第2の音声合成用辞書の格納語に置き換える発話対象文章の変更を行う。
発話対象文章変更処理部140は、変更履歴記録処理部142、同義語置き換え処理部144、仮名置き換え処理部146を含む。
変更履歴記録処理部142は、発話対象文章を構成する語の置き換えに関する変更履歴を記録する処理を行う。
同義語置き換え処理部144は、未格納語について、第2の音声合成用辞書の格納語との同義語があるか否かを解析し、同義語がある場合には発話対象文章の前記未格納語を同義語に置き換える同義語置き換え処理を行う。
仮名置き換え処理部146は、未格納語について、当該語のよみを表す仮名表記に置き換えるかな置き換え処理をおこなう。
辞書編集処理部150は、第2の音声合成用辞書を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第2の音声合成用辞書または発話対象文章の確定または変更処理を行う。
また辞書編集処理部150は、第2の音声合成用辞書の格納語についてのユーザーの指定入力を受け付け、第2の音声合成用辞書作成部120は、ユーザーの指定入力に基づき格納語を決定するようにしてもよい。
次に、本発明の動作を、具体例を用いて説明する。
図11は本実施の形態の処理の流れを説明するためのフローチャートである。
まず発話対象文章のプロファイリングを行う(ステップS10)。例えば発話対象文章を単語に分解し、各単語の出現頻度を集計する。
次に頻出語辞書抽出(一次抽出)を行う(ステップS20)。例えば上記プロファイリングデータに基づき、予め辞書に割り当て可能と決められた記憶容量のうち、特定の割合(例えば80%)を出現頻度の高い単語から順に割り当てる。その際、出現頻度がある回数(例えば2回)なければ、上記の割合に達しなくとも割り当てを停止する。出現頻度は、一般に「ロングテール」型の分布をとるので、この段階で対象文章の部位の多くがサブセット辞書でカバーされることが期待できる。
次に一次抽出後のサブセット辞書を用いて発話対象文章の発話試行を行い、ユーザーに確認する(ステップS30)。このときサブセット辞書にある単語については通常音声で発話し、サブセット辞書にない音声については特別音声で発話する。
そしてユーザーからの確認入力(例えばOK又はNG)を受け付け、OKであれば処理を終了し(一次抽出後の内容でサブセット辞書の内容を確定させる)、NGであれば、以降の処理を行う(ステップS40)。
次に低出現語彙の置き換え処理を行う(ステップS50)。一次抽出の過程で漏れた語彙について、「シノニム」辞書を使って、語彙の置き換えができないかどうかを確認する。既に割り当てられている語彙に置き換えられる場合、および、置き換えにより複数の語彙を一つにまとめられる場合を調べて、置き換えによる発話対象文章の変更を行う。
次に一次抽出後のサブセット辞書を用いて変更後の発話対象文章の発話試行を行い、ユーザーに確認する(ステップS60)。このときサブセット辞書にある単語については通常音声で発話し、サブセット辞書にない音声については特別音声で発話する。
結果の置き換え採用の可否は、一旦、ユーザーに提示して、判断をうけた上で辞書に追加をすることも可能であるし、置き換えられるものは優先して置き換えてしまうことも可能である。この際、既に割り当てられているものは辞書追加は不要であるので、対象文章の語彙の方を置換することになる。また頻度順にソートした上で、頻度の高いものから、既に割り当てられている残りの割合の範囲内でサブセット辞書に追加を行なう場合には、追加分について置き換え可能な語彙があるか否か検索し、発話対象文章を新規追加した語彙に置換するようにしてもよい。
そしてユーザーからの確認入力(例えばOK又はNG)を受け付け、OKであれば処理を終了し(一次抽出後の内容でサブセット辞書の内容を確定させる)、NGであれば、以降の処理を行う(ステップS70)。
次に、発話対象文章の変更を変更履歴として記録する処理を行う(ステップS80)。
図12は、置き換え時の変更履歴記録処理の一例を説明するための図である。
たとえば図12に示すように発話対象文章200自体にコメント220、230、240を挿入する形式で発話対象文章の変更履歴を残すようにしてもよい。コメントは例えばコメントであることを示すためにカギ括弧(図4の222と226、232と238、232と236)に囲む等で、発話対象文章と区別できるようにしてもよい。
ここで210は置き換え語の単語である(発話対象文章の一部である)。コメント220と240は置き換え後の前後につき、これらのコメントに挟まれた部分が置き換え語であることを示す。230は、置き換え語に対応するオリジナル語(元もとの発話対象文章に含まれていた語句)が「パフォーマンス」であることを示すコメントである。
次に、ユーザーに対して手動編集を行うか否か確認し、行う場合には手動辞書編集処理を行う(ステップS90、S100)。発話対象対象文章で抽出されていない語彙について頻度順にソートした上で、頻度の高いものから、既に割り当てられている残りの割合の範囲内でサブセット辞書に追加を行なうようにしてもよい。
次に上記の処理で対応できない単語については、単語としての登録を断念し、対象文章へのルビ挿入による「単音発音」へと変換する(ステップS110)。
図13は、ルビ振り(かな置き換え処理)時の変更履歴記録処理の一例を説明するための図である。
例えば、「量子論」という単語の登録ができない場合には、図5の310に示すように「りょうしろん」というルビ(カタカナまたはひらかなのいずれかのかな)に変換する。その際、該当部位がルビであること、発音しないが元の単語が「量子論」であったことを示すためのテキストTAGづけを図13のようにおこなってもよい。
すなわち図13に示すように発話対象文章300自体にコメント320、330、340を挿入する。ここで310は仮名変換後のかなである(発話対象文章の一部である)。コメント320と340は仮名変換語の前後につき、これらのコメントに挟まれた部分が仮名変換語であることを示す。330は、仮名変換語に対応するオリジナル語(元もとの発話対象文章に含まれていた単語が「量子論」であることを示すコメントである。
サブセット辞書(第2の音声合成用辞書)には仮名表記に対する音声合成データは含まれているので、仮名文字で表された単語は発音可能である。ただし仮名文字としての認識しかないので、当該単語特有の抑揚やアクセントをだすことが困難で棒読みに近い形の発音となる。
そこでサブセット辞書を用いて変更後の発話対象文章の発話試行を行い、ユーザーに確認する(ステップS120)。ここでルビ変換処理を行った単語については通常音声ではなく特別音声として出力してもよい。このようにすることで、ルビ変換処理を行った単語について聴覚的にユーザーに注意を促すことができる。
そしてユーザーからの確認入力(例えばOK又はNG)を受け付け、OKであれば処理を終了し(一次抽出後の内容でサブセット辞書の内容を確定させる)、NGであれば、ステップS100に戻り以降の処理を行う(ステップS130)。
上記実施の形態ではサブセット辞書の語彙辞書の抽出を例にとり説明した。この手法によれは、語彙を絞り込むことにより、音素も抽出された語彙に対応するもののみに絞りこむことができるので、結果としてサブセット音素辞書も小さくすることができる。
しかしサブセット音素辞書サイズに問題ある場合には、一次抽出において割合を変えて再試行するなどの作業を行うようにしてもよい。
また上記ステップS30、S60、S120において発話試行を行う際にサブセット辞書にない単語については通常音声で発話しサブセット辞書にない単語については特別音声で発話することで、サブセット辞書にない部分がどのように発声させるかを聴覚的にユーザーに注意を促すことができる。
なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
本実施の形態によれば、組み込み用の小量量のIC化された音声合成システム、およびその音声合成システム用の音声辞書を開発するためのオーサリングツール(PC上のソフトウエア)において、辞書に無い、正しい読み方でない可能性がある語彙を読みあげる場合について、使用者(開発者)の注意を促すために、敢えて通常とは異なる声質の音声で読みあげることができる。従ってTTSが「知らない」単語を無理に読んでいる、ということが使用者にも容易に分かり、誤解を招くケースを防止できる。また、オーサリング時には辞書を再編成せずに読み上げさせた場合の問題部分とその影響度、また、辞書を再編成した場合の改善度が明確になるので開発効率が高まる。
なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
また日本語以外の言語に対するTTSシステムに対しても適用可能である。
本実施の形態の音声合成システムをシングルチップTTS−LSI(半導体集積回路装置)で実現する構成について説明するための図。 本実施の形態の特徴について説明するための図。 変換レベルとモード情報に応じて各単語の音質を決定する例の説明図。 本実施の形態のタイミング制御について説明するための図。 息継ぎポイントの制御について説明するための図。 本実施の形態のタイミング制御にかかるタイミングチャート。 本実施の形態の音声合成の処理の流れを示すフローチャート。 本実施の形態の音声合成システムをシングルチップTTS−LSI(半導体集積回路装置)で実現する他の構成について説明するための図。 本実施の形態の音声合成システムを用いた音声合成用辞書作成システムと半導体集積回路装置について説明するための図。 本実施の形態の音声合成システムを用いた音声合成用辞書作成システムの機能ブロック図の一例。 本実施の形態の音声合成システムを用いた音声合成用辞書作成システムの処理の流れを説明するためのフローチャート。 置き換え時の変更履歴記録処理の一例を説明するための図。 ルビ振り(かな置き換え処理)時の変更履歴記録処理の一例を説明するための図。
符号の説明
10 半導体集積回路装置(TTS−LSI)、20 音声合成処理部、22 テキスト表記→音表記変換ブロック、24 音素選択部、26 発音ブロック、28 フィルタ処理部、32 語彙辞書、34 音素辞書、40 スピーカーI/F、42 D級アンプ、44 音声データバッファ、50 ホストI/F54 モード情報設定・変更部、100 音声合成用辞書作成システム、110 処理部、120 第2の音声合成用辞書作成部、122 サブセット辞書作成ソフトウエア、130 音声合成処理部、132 音声合成ソフトウエア、140 発話対象文章変更部、142 変更履歴記録処理部、144 同義語置き換え処理部、146 かな置き換え処理部、150 辞書編集処理部、182 第1の音声合成用辞書記憶部(大容量辞書)、184 大容量辞書

Claims (5)

  1. 入力文字列を受け取り入力文字列に対応する音声を合成する音声合成システムであって、
    所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を記憶する語彙辞書記憶部と、
    受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成する音声合成部と、
    生成された音声データを再生出力する音声再生部と、を含み、
    前記音声合成部は、
    入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質となり、それ以外の単語については第1の音質とは異なる音質となる音声データを生成することを特徴とする音声合成システム。
  2. 発話対象の入力文字列に対応した合成音声を生成するために必要な辞書データの集合である第1の音声合成用辞書から第1の音声合成用辞書に比べてデータ量の少ない第2の音声合成用辞書を作成する音声合成システムであって、
    第1の音声合成用辞書を構成する辞書データが記憶された第1の音声合成用辞書記憶部と、
    前記入力文字列を解析し、入力文字列を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する第2の音声合成用辞書作成部と、
    第2の音声合成用辞書を用いて前記入力文字列に対応した合成音声を生成する音声合成部と、
    生成された合成音声を再生出力する音声再生部と、を含み、
    第2の音声合成用辞書作成部は、
    所与の語彙体系に基づきテキスト表記の単語を読み表記に変換するための語彙辞書を作成し、
    前記音声合成部は、
    受け取った入力文字列を解析して、入力文字列を構成するテキスト表記の各単語について前記語彙辞書を検索して、入力文字列を構成する単語を読み表記に変換し、変換した読み表記に対応した合成音声の音声データを生成するように構成され、
    入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が所定の条件を満たす単語については第1の音質となり、それ以外の単語については第1の音質とは異なる音質となる音声データを生成することを特徴とする音声合成システム。
  3. 請求項1乃至2のいずれかにおいて、
    前記所定の条件として、語彙辞書による変換の正確度の度合いに応じて設定された複数の変換レベルに対応した複数の変換レベル判定条件が設定されており、
    前記音声合成部は、
    入力文字列を構成するテキスト表記の各単語の語彙辞書に対する検索結果が前記複数の変換レベル判定条件のいずれを満たすか否か判断し、判断結果に基づき各単語をいずれかの変換レベルに分類し、各単語の変換レベルに応じて当該単語の音質を第1の音質または第1の音質以外の音質とする音声データを生成することを特徴とする音声合成システム。
  4. 請求項3において、
    音質変更対象となる変換レベルを規定するモード情報を変更または設定するモード情報変更・設定部をさらに含み、
    前記音声合成部は、
    前記設定または変更されたモード情報が音質変更対象として規定する変換レベルに該当する単語については第1の音質とは異なる音質となる音声データを生成することを特徴とする音声合成システム。
  5. 請求項1乃至4のいずれかにおいて、
    前記音声合成部は、
    生成した音声データを先入れ先出しで音声データバッファに格納するとともに、
    入力文字列の解析結果に基づき息継ぎポイントを設定し、設定した息継ぎポイントに基づき、前記音声データバッファからデータが読み出されるタイミングを制御するための読み出し制御信号を生成し、
    前記音声再生部は、
    前記読み出し制御信号に基づき、音声データバッファから先入れ先出しで音声データを読み出しで再生することを特徴とする音声合成システム。
JP2007101660A 2007-04-09 2007-04-09 音声合成システム Withdrawn JP2008257116A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007101660A JP2008257116A (ja) 2007-04-09 2007-04-09 音声合成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007101660A JP2008257116A (ja) 2007-04-09 2007-04-09 音声合成システム

Publications (1)

Publication Number Publication Date
JP2008257116A true JP2008257116A (ja) 2008-10-23

Family

ID=39980725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007101660A Withdrawn JP2008257116A (ja) 2007-04-09 2007-04-09 音声合成システム

Country Status (1)

Country Link
JP (1) JP2008257116A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644646A (zh) * 2017-09-27 2018-01-30 北京搜狗科技发展有限公司 语音处理方法、装置以及用于语音处理的装置
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的***和方法
CN109859736A (zh) * 2019-01-23 2019-06-07 北京光年无限科技有限公司 语音合成方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644646A (zh) * 2017-09-27 2018-01-30 北京搜狗科技发展有限公司 语音处理方法、装置以及用于语音处理的装置
CN107644646B (zh) * 2017-09-27 2021-02-02 北京搜狗科技发展有限公司 语音处理方法、装置以及用于语音处理的装置
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的***和方法
CN109859736A (zh) * 2019-01-23 2019-06-07 北京光年无限科技有限公司 语音合成方法及***

Similar Documents

Publication Publication Date Title
US8027837B2 (en) Using non-speech sounds during text-to-speech synthesis
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
EP1096472A2 (en) Audio playback of a multi-source written document
US20020143535A1 (en) Method of providing concise forms of natural commands
Gutkin et al. TTS for low resource languages: A Bangla synthesizer
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
US8155963B2 (en) Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
JP4811557B2 (ja) 音声再生装置及び発話支援装置
JP2007155833A (ja) 音響モデル開発装置及びコンピュータプログラム
Xydas et al. The DEMOSTHeNES speech composer
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
JP2008257116A (ja) 音声合成システム
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
Raghavendra et al. A multilingual screen reader in Indian languages
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP2008146019A (ja) 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
WO2003017251A1 (en) Prosodic boundary markup mechanism
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100706