JP2008146019A - 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法 - Google Patents

音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法 Download PDF

Info

Publication number
JP2008146019A
JP2008146019A JP2007222469A JP2007222469A JP2008146019A JP 2008146019 A JP2008146019 A JP 2008146019A JP 2007222469 A JP2007222469 A JP 2007222469A JP 2007222469 A JP2007222469 A JP 2007222469A JP 2008146019 A JP2008146019 A JP 2008146019A
Authority
JP
Japan
Prior art keywords
dictionary
speech synthesis
target sentence
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007222469A
Other languages
English (en)
Inventor
Masamichi Izumida
正道 泉田
Takao Katayama
貴夫 片山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2007222469A priority Critical patent/JP2008146019A/ja
Priority to US11/940,364 priority patent/US20080120093A1/en
Publication of JP2008146019A publication Critical patent/JP2008146019A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】所定の発話対象文章に対して、必要十分なデータ量で発音品質のよい音声合成が可能なサブセット音声辞書を作成することである。
【解決手段】本音声合成用辞書作成システムは、第1の音声合成用辞書を構成する辞書データが記憶された第1の音声合成用辞書記憶手段182と、発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する第2の音声合成用辞書作成手段120と、第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成する音声合成手段130とを含む。
【選択図】図1

Description

本発明は、音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法に関する。
キャラクタデータの集まりであるテキストデータから音声を合成するTTS方式の音声合成LSIには、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式がある。
いずれの方式にせよ、文章から音に変換する前に、SHIFT−JISコードなどで標記された表記上のテキスト表現から、どのように発音させたいのか「読み」への変換辞書(データベース)を持つことが必須である。
また、さらに、コンキャティネイティブ方式、コーパスベース方式では、さらに「読み」から検索する「音素」への辞書(データベース)も必要であった。
特開2003−208191号公報
オンチップリソース(ROM容量など)の限られるシングルチップTTS−LSIにおいて、搭載可能な音声合成用辞書ファイルが比較的小語彙に制限される場合には、対応できる語彙が限られるため、十分な発音品質が得られない可能性がある。
小容量のシステムの場合、十分な語彙に対応する「表記→読み」データ辞書も声質を高めるのに効果的な多くのケースを網羅した「音素」辞書も持てないため、読み上げる対象の文章が、辞書から漏れた語彙を含んでいると、該当部分での音質の劣化、もしくは読み上げ不能といった事態が発生していた。
本発明は、以上のような技術的課題に鑑みてなされたものであり、その目的とするところは、所定の発話対象文章に対して、必要十分なデータ量で発音品質のよい音声合成が可能なサブセット音声辞書を作成することである。
(1)本発明は、
発話対象文章に対応した合成音声を生成するために必要な辞書データの集合である第1の音声合成用辞書から第1の音声合成用辞書に比べてデータ量の少ない第2の音声合成用辞書を作成する音声合成用辞書作成システムであって、
第1の音声合成用辞書を構成する辞書データが記憶された第1の音声合成用辞書記憶手段と、
発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する第2の音声合成用辞書作成手段と、
第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成する音声合成手段とを含むことを特徴とする。
第1の音声合成用辞書は任意の発話対象文章に対する合成音声を生成することが可能な規模の辞書データを有するフルセット辞書(大容量辞書)であり、第2の音声合成用辞書は特定の発話対象文章に対する合成音声を生成することが可能な規模のデータを有するサブセット辞書(小容量辞書)である。
第1の音声合成用辞書は、例えば語彙辞書(「表記→読み」データ辞書)や音素辞書(声質を高めるのに効果的な多くのケースを網羅した辞書)等で構成される。第1の音声合成用辞書記憶手段にはこれらの辞書データが記憶され、辞書データベースとして機能する。なお辞書の種類は音声合成の方式に応じて決定され、例えば語彙辞書と音素辞書の両方含む場合でもよいし、語彙辞書のみでもよい。
語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)(例えばテキスト表記に対応した読みのデータ)が格納された辞書である。
フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理(テキストの正規化、プリプロセッシング、トークン化などと呼ばれる)や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理(単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme(TTP))変換または書記素音素(grapheme-to-phoneme(GTP))変換と呼ぶ)等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される。
テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われる。多くのTTS(text-to-speech)システムでは入力されるテキストの意味を解析しないで、例えば前後の単語を調べたり、統計的な出現頻度を用いたり等の様々なヒューリスティクスを用いて同綴異義語の区別を行う。
音素辞書は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音(音素)の波形情報を格納する辞書である。バックエンドで音声波形を生成する主要技術には、連結的合成(concatenative synthesis)やフォルマント合成(formant synthesis)がある。連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。
音声合成手段は、第1の音声合成用辞書に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、受け取った発話対象文章に対応した合成音声を生成する。
第2の音声合成用辞書作成手段は、例えば出現頻度の高い語句を優先して格納語として決定するようにしてもよい。例えば予め第2の音声変換用辞書に割り当て可能と決められた記憶容量のうち、特定の割合(例えば80%)を出現頻度の高い語彙から順に割り当てるようにしてもよい。その際、出現頻度がある回数(例えば2回)なければ、上記の割合に達しなくとも割り当てを停止するようにしてもよい。出現頻度は、一般に「ロングテール」型の分布をとるので、このようにすることで対象文章の部位の多くがカバーされることが期待できる。
音声合成手段は、第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成するので、ユーザーは発話対象文章の音声合成の結果を確認することができる。
本発明によれば、特定の発話対象文章を解析して、特定の発話対象文章の音声合成を行う場合に必要十分な辞書データを第1の音声合成用辞書から抽出して、第1の音声合成用辞書に比べてデータ量が少ない第2の音声合成用辞書を生成することができる。
従ってオンチップリソース(ROM容量など)の限られるシングルチップTTS−LSIにおいて搭載可能な音声辞書ファイルが比較的小語彙に制限される場合でも、特定の発話対象文章については精度良く音声合成が可能なサブセット辞書(第2の音声合成用辞書)を生成することができる。
なお本発明では、第2の音声合成用辞書に格納される語彙を選別抽出することで語彙辞書のデータ量を減らすことができる。そして語彙辞書のデータ量を減らすことで、対応する音素辞書のデータ量も結果として減少するため、第2の音声合成用辞書の語彙辞書、音素辞書ともにデータ量を削減することができる。
(2)本発明の音声合成用辞書作成システムは、
発話対象文章を構成する語のなかで第2の音声合成用辞書への格納対象となっていない未格納語について第2の音声合成用辞書の格納語に置き換える発話対象文章の変更を行う発話対象文章変更手段と、
を含むことを特徴とする。
ここでの置き換えは、例えば未格納語をその同義語(第2の音声合成用辞書に格納されている同義語)に置き換える場合でもよいし、未格納語をそのかな表記(仮名表記にたいする辞書は第2の音声合成用辞書に格納されている物とする)に置き換える場合でもよい。
本発明によれば、第2の音声合成用辞書の格納語を増やすことなく、発話対象文章の音声合成の精度を高めることができる。
なお音声合成手段は、第2の音声合成用辞書を用いて変更語の発話対象文章に対応した合成音声を生成するので、ユーザーは変更後の発話対象文章の音声合成の結果を確認することができる。
(3)本発明の音声合成用辞書作成システムは、
前記発話対象文章変更手段は、
発話対象文章を構成する語の置き換えに関する変更履歴を記録することを特徴とする音声合成用辞書を作成することを特徴とする。
変更履歴には、変更した語と変更した語に対応する発話対象文章の原語の情報を含む。従って所定の語句を複数回に渡って変更した場合には、少なくとも原語(最初に与えられた発話対象文章に含まれていた語句)と最終的に変更された語の情報を含む。
また変更履歴は、発話対象文章とは別個に生成してもよいし、発話対象文章の中に変更履歴のコメントを挿入する形式で生成してもよい。
(4)本発明の音声合成用辞書作成システムは、
前記発話対象文章変更手段は、
前記未格納語について、第2の音声合成用辞書の格納語との同義語があるか否かを解析し、同義語がある場合には発話対象文章の前記未格納語を同義語に置き換える同義語置き換え処理を行う同義語置き換え処理手段を含むことを特徴とする。
例えば発話対象文章に含まれる第1の語句と第2の語句が同義語であって置き換え可能である場合、第1の語句が第2の音声合成用辞書の格納語であって、第2の語が第2の音声合成用辞書の格納語でない場合、本発明では、発話対象文章中の第2の語を第1の語に置き換える発話対象文章変更処理を行うことが可能である。
例えば同義語が定義されたシノニム辞書を用いて、未格納語の同義語を検索するようにしてもよい。例えば発話対象文章の未格納語の各語についてシノニム辞書から同義を検索して、第2の音声合成用辞書を検索して、検索結果得られた同義語が第2の音声合成用辞書の格納語となっているか否かを調べて、格納語となっている場合には、発話対象文章の当該未格納語を当該格納語で置き換える置き換え処理を行うようにしてもよい。
本発明によれば、発話対象文章の意味内容を変更することなく、第2の音声合成用辞書の格納語を増やさずに発話対象文章の音声合成の精度を高めることができる。
なお音声合成手段は、第2の音声合成用辞書を用いて同義語で置き換え後の発話対象文章に対応した合成音声を生成するので、ユーザーは同義語で置き換え後の発話対象文章の音声合成の結果を確認することができる。
(5)本発明の音声合成用辞書作成システムは、
発話対象文章変更手段は、
前記未格納語について、当該語のよみを表す仮名表記に置き換えるかな置き換え処理をおこなう仮名置き換え処理手段を含むことを特徴とする。
ここにおいて第2の音声合成用辞書は、仮名表記に対応して音声合成を行うための辞書データを含んでいるものとする。
本発明によれば、出現頻度の少ない特殊な語句については仮名表記に置き換えることで(多少抑揚やアクセントが不自然になるかもしれないが)、特定の発話対象文章について音声合成は行うことができる第2の音声合成用辞書を作成することができる。
(6)本発明の音声合成用辞書作成システムは、
第2の音声合成用辞書を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第2の音声合成用辞書または発話対象文章の確定または変更処理を行う編集処理手段とを、
含むことを特徴とする。
評価入力は例えばOKまたはNGのいずれかで返すようにしてもよい。
このようにすれば、ユーザーは作成中の第2の音声合成用辞書を用いて生成された発話対象文章の合成音声を実際に聞いて確認しながら、第2の音声合成用辞書または発話対象文章の確定または変更処理をおこなうことができる。従ってリアルタイムで結果を確認しながら第2の音声合成用辞書の編集処理をおこなうことができるので、ユーザーにとって使い勝手の良い音声合成用辞書作成システムを提供することができる。
(7)本発明の音声合成用辞書作成システムは、
前記編集処理手段は、
第2の音声合成用辞書の格納語についてのユーザーの指定入力を受け付け、
前記第2の音声合成用辞書作成手段は、
前記ユーザーの指定入力に基づき格納語を決定することを特徴とする。
例えば発話対象文章を構成する各語句の出現頻度に応じて格納語を決定したあと、残りの容量に入れる語句については、ユーザーからの指定入力を受け付け、当該指定入力に応じて決定するようにしてもよい。
このようにすると、第2の音声合成用辞書の格納語の内容についてユーザーの意思をダイレクトに反映させる調整ができる。従って個別のユーザーの個別のニーズにきめ細かく対応した第2の音声合成用辞書の編集を行うことができる。
(8)本発明は、
上記いずれかに記載の音声合成用辞書作成システムによって生成された第2の音声合成用辞書を構成する辞書データが記憶された不揮発性記憶部と、
前記不揮発性記憶部に記憶された辞書データを用いて所定の発話対象文章に対応した合成音声データを生成する合成音声データ生成処理部と、を含むことを特徴とする半導体集積回路装置である。
(9)本発明は、
不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、
半導体集積回路装置で音声合成を予定している発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成するステップと、
第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成するステップと、
生成された第2の音声合成用辞書を構成する辞書データを前記半導体集積回路装置の不揮発性記憶部に書き込むステップと、
を含むことを特徴とする。
以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
図1は、本実施の形態の音声合成用辞書作成システムと音声合成用辞書作成システムで作成された音声合成用辞書を内蔵する半導体集積回路装置について説明するための図である。
100は、本実施の形態の音声合成用辞書作成システムであり、発話対象文章101に対応した合成音声を生成するために必要な辞書データの集合である大容量辞書(第1の音声合成用辞書)182から大容量辞書(第1の音声合成用辞書)182に比べてデータ量の少ない小容量辞書(第2の音声合成用辞書)184を作成する音声合成用辞書作成システムであって、パーソナルコンピュータにTTS対応の音声合成用大容量辞書182、音声合成用サブセット辞書作成ソフトウエア122及び音声合成ソフトウエア132を搭載することにより実現することができる。
音声合成用大容量辞書182は、第1の音声合成用辞書を構成する辞書データが記憶された第1の音声合成用辞書記憶手段として機能する。
音声合成用サブセット辞書作成ソフトウエア102は、発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、小容量辞書(第2の音声合成用辞書)184への格納語を決定し、決定された格納語に対応して大容量辞書(第1の音声合成用辞書)182に格納されている辞書データを用いて小容量辞書(第2の音声合成用辞書)184を生成する第2の音声合成用辞書作成手段として機能する。
また音声合成用サブセット辞書作成ソフトウエア122は、発話対象文章を構成する語のなかで小容量辞書(第2の音声合成用辞書)184への格納対象となっていない未格納語について小容量辞書(第2の音声合成用辞書)184の格納語に置き換える発話対象文章の変更を行う発話対象文章変更手段として機能するようにしてもよい。
また音声合成用サブセット辞書作成ソフトウエア122は、小容量辞書(第2の音声合成用辞書)184を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第2の音声合成用辞書または発話対象文章の確定または変更処理を行う編集処理手段として機能するようにしてもよい。
音声合成ソフトウエア132は、小容量辞書(第2の音声合成用辞書)184を用いて発話対象文章に対応した合成音声を生成する音声合成手段として機能する。実際には大容量辞書(第2の音声合成用辞書)182を用いて発話対象文章に対応した合成音声を生成することも可能である。
本実施の形態の音声合成用辞書作成システム100は、発話対象文章に基づき格納語を決定して格納語に対応する辞書データを大容量辞書(第1の音声合成用辞書)182から抽出して小容量辞書(第2の音声合成用辞書)184に格納する。
そして小容量辞書の辞書データをTTS−LSI(半導体集積回路装置の一例)10のROM(不揮発性記憶部)に書き込んで小容量辞書を作成する。
TTS−LSI(半導体集積回路装置の一例)10は、小容量辞書30及び音声合成システム20を搭載し、所定の発話対象文章に対応した合成音声データを生成する半導体集積回路装置である。小容量辞書30は音声合成用辞書を構成する辞書データが記憶された不揮発性記憶部として機能する。音声合成システム20は、前記不揮発性記憶部に記憶された辞書データを用いて所定の発話対象文章に対応した合成音声データを生成する合成音声データ生成処理部として機能する。
本実施の形態では、例えば特定用途向けで、読みあげる語彙について特定の用途がある場合や、読み上げる文章が予め判明しているTTS−LSI(集積回路装置の一例)10のように、搭載可能な音声辞書ファイルが比較的小語彙に制限されている。
TTS−LSI(集積回路装置の一例)10用の小容量辞書(サブセット辞書)30には、パーソナルコンピュータ100上の大容量辞書(フルセット辞書)182から、TTS−LSI(集積回路装置の一例)10で音声合成する所定の発話対象文章に必要な語彙に対応する辞書データを抽出して作成された小容量辞書(第2の音声合成用辞書)を構成する辞書データが書き込まれている。
このようにすることでTTS−LSI(集積回路装置の一例)10の特定の用途に対応する辞書を作成できるので、小容量の辞書で十分な性能を確保することができる。また、発話対象文章が予め判明している場合には、該発話対象文章の語彙のみに限った辞書を作成するので、リソースの無駄も無くことができ、TTS−LSI(集積回路装置の一例)10に搭載する辞書の最適化を行なうことができる。
図2は、本実施の形態の音声合成用辞書作成システムの機能ブロック図の一例である。なお、本実施形態の音声合成用辞書作成システム100は、図2の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。
操作部160は、ユーザーの操作等をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル或いはマイクなどのハードウェアにより実現できる。
記憶部170は、処理部110や通信部196などのワーク領域となるもので、その機能はRAMなどのハードウェアにより実現できる。
情報記憶媒体180(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などのハードウェアにより実現できる。
また情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるプログラムや補助データ(付加データ)が記憶されるとともに、音声合成用の大容量辞書データが記憶され第1の音声合成用辞書記憶部182として機能する。なお情報記憶媒体180には、第1の音声合成用辞書から抽出された第2の音声合成用辞の辞書データも記憶するようにしてもよい。
処理部100は、この情報記憶媒体180に格納されるプログラム(データ)や情報記憶媒体180から読み出されたデータなどに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)が記憶される。
表示部190は、本実施形態により生成された画像を出力するものであり、その機能は、CRTディスプレイ、LCD(液晶ディスプレイ)、OELD(有機ELディスプレイ)、PDP(プラズマディスプレイパネル)、タッチパネル型ディスプレイなどのハードウェアにより実現できる。
音出力部192は、本実施形態により生成された合成音声等を出力するものであり、その機能は、スピーカ、或いはヘッドフォンなどのハードウェアにより実現できる。
通信部196は、外部(例えばホスト装置や他の端末機)との間で通信を行うための各種の制御を行うものであり、その機能は、各種プロセッサ又は通信用ASICなどのハードウェアや、プログラムなどにより実現できる。
なお本実施形態の各部としてコンピュータを機能させるためのプログラム(データ)は、ホスト装置(サーバ装置)が有する情報記憶媒体からネットワーク及び通信部196を介して情報記憶媒体180(あるいは記憶部170)に配信するようにしてもよい。このようなホスト装置(サーバ装置等)の情報記憶媒体の使用も本発明の範囲内に含めることができる。
処理部110(プロセッサ)は、操作部160からの操作データやプログラムなどに基づいて、記憶部170をワーク領域として各種処理を行う。処理部110の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。
処理部110は、第2の音声合成用辞書作成部120、合成音声データ生成処理部130、発話対象文章変更処理部140、辞書編集処理部150を含む。
第2の音声合成用辞書作成部120は、発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する。
合成音声データ生成処理部130は、第2の音声合成用辞書を用いて発話対象文章に対応した合成音声データを生成する。
発話対象文章変更処理部140は、発話対象文章を構成する語のなかで第2の音声合成用辞書への格納対象となっていない未格納語について第2の音声合成用辞書の格納語に置き換える発話対象文章の変更を行う。
発話対象文章変更処理部140は、変更履歴記録処理部142、同義語置き換え処理部144、仮名置き換え処理部146を含む。
変更履歴記録処理部142は、発話対象文章を構成する語の置き換えに関する変更履歴を記録する処理を行う。
同義語置き換え処理部144は、未格納語について、第2の音声合成用辞書の格納語との同義語があるか否かを解析し、同義語がある場合には発話対象文章の前記未格納語を同義語に置き換える同義語置き換え処理を行う。
仮名置き換え処理部146は、未格納語について、当該語のよみを表す仮名表記に置き換えるかな置き換え処理をおこなう。
辞書編集処理部150は、第2の音声合成用辞書を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第2の音声合成用辞書または発話対象文章の確定または変更処理を行う。
また辞書編集処理部150は、第2の音声合成用辞書の格納語についてのユーザーの指定入力を受け付け、第2の音声合成用辞書作成部120は、ユーザーの指定入力に基づき格納語を決定するようにしてもよい。
次に、本発明の動作を、具体例を用いて説明する。
図3は本実施の形態の処理の流れを説明するためのフローチャートである。
まず発話対象文章のプロファイリングを行う(ステップS10)。例えば発話対象文章を語彙に分解し、各語彙の出現頻度を集計する。
次に頻出語辞書抽出(一次抽出)を行う(ステップS20)。例えば上記プロファイリングデータに基づき、予め辞書に割り当て可能と決められた記憶容量のうち、特定の割合(例えば80%)を出現頻度の高い語彙から順に割り当てる。その際、出現頻度がある回数(例えば2回)なければ、上記の割合に達しなくとも割り当てを停止する。出現頻度は、一般に「ロングテール」型の分布をとるので、この段階で対象文章の部位の多くがサブセット辞書でカバーされることが期待できる。
次に一次抽出後のサブセット辞書を用いて発話対象文章の発話試行を行い、ユーザーに確認する(ステップS30)。
そしてユーザーからの確認入力(例えばOK又はNG)を受け付け、OKであれば処理を終了し(一次抽出後の内容でサブセット辞書の内容を確定させる)、NGであれば、以降の処理を行う(ステップS40)。
次に低出現語彙の置き換え処理を行う(ステップS40)。一次抽出の過程で漏れた語彙について、「シノニム」辞書を使って、語彙の置き換えができないかどうかを確認する。既に割り当てられている語彙に置き換えられる場合、および、置き換えにより複数の語彙を一つにまとめられる場合を調べて、置き換えによる発話対象文章の変更を行う(ステップS50)。
次に一次抽出後のサブセット辞書を用いて変更後の発話対象文章の発話試行を行い、ユーザーに確認する(ステップS60)。なおここでの確認は、例えば変更箇所をテキスト等で画面に表示出力する形式での確認でもよいが、その場合でも変更後の音声を確認した方が間違いのない確認となるので好ましい。
結果の置き換え採用の可否は、一旦、ユーザーに提示して、判断をうけた上で辞書に追加をすることも可能であるし、ともなく置き換えられるものは優先して置き換えてしまうことも可能である。この際、既に割り当てられているものは辞書追加は不要であるので、対象文章の語彙の方を置換することになる。また頻度順にソートした上で、頻度の高いものから、既に割り当てられている残りの割合の範囲内でサブセット辞書に追加を行なう場合には、追加分について置き換え可能な語彙があるか否か検索し、発話対象文章を新規追加した語彙に置換するようにしてもよい。
そしてユーザーからの確認入力(例えばOK又はNG)を受け付け、OKであれば処理を終了し(一次抽出後の内容でサブセット辞書の内容を確定させる)、NGであれば、以降の処理を行う(ステップS70)。
次に、発話対象文章の変更を変更履歴として記録する処理を行う(ステップS80)。
図4は、置き換え時の変更履歴記録処理の一例を説明するための図である。
たとえば図4に示すように発話対象文章200自体にコメント220、230、240を挿入する形式で発話対象文章の変更履歴を残すようにしてもよい。コメントは例えばコメントであることを示すためにカギ括弧(図4の222と226、232と238、232と236)に囲む等で、発話対象文章と区別できるようにしてもよい。
ここで210は置き換え語の単語である(発話対象文章の一部である)。コメント220と240は置き換え後の前後につき、これらのコメントに挟まれた部分が置き換え語であることを示す。230は、置き換え語に対応するオリジナル語(元もとの発話対象文章に含まれていた語句)が「パフォーマンス」であることを示すコメントである。
次に、ユーザーに対して手動編集を行うか否か確認し、行う場合には手動辞書編集処理を行う(ステップS90、S100)。発話対象対象文章で抽出されていない語彙について頻度順にソートした上で、頻度の高いものから、既に割り当てられている残りの割合の範囲内でサブセット辞書に追加を行なうようにしてもよい。
次に上記の処理で対応できない語句については、語句としての登録を断念し、対象文章へのルビ挿入による「単音発音」へと変換する(ステップS110)。
図5は、ルビ振り(かな置き換え処理)時の変更履歴記録処理の一例を説明するための図である。
例えば、「量子論」という語彙の登録ができない場合には、図5の310に示すように「りょうしろん」というルビ(カタカナまたはひらかなのいずれかのかな)に変換する。その際、該当部位がルビであること、発音しないが元の語彙が「量子論」であったことを示すためのテキストTAGづけを図5のようにおこなってもよい。
すなわち図5に示すように発話対象文章300自体にコメント320、330、340を挿入する。ここで310は仮名変換後のかなである(発話対象文章の一部である)。コメント320と340は仮名変換語の前後につき、これらのコメントに挟まれた部分が仮名変換語であることを示す。330は、仮名変換語に対応するオリジナル語(元もとの発話対象文章に含まれていた語句)が「量子論」であることを示すコメントである。
サブセット辞書(第2の音声合成用辞書)には仮名表記に対する音声合成データは含まれているので、仮名文字で表された語句は発音可能である。ただし仮名文字としての認識しかないので、当該単語特有の抑揚やアクセントをだすことが困難で棒読みに近い形の発音となる。
そこでサブセット辞書を用いて変更後の発話対象文章の発話試行を行い、ユーザーに確認する(ステップS120)。
そしてユーザーからの確認入力(例えばOK又はNG)を受け付け、OKであれば処理を終了し(一次抽出後の内容でサブセット辞書の内容を確定させる)、NGであれば、ステップS100に戻り以降の処理を行う(ステップS130)。
上記実施の形態ではサブセット辞書の語彙辞書の抽出を例にとり説明した。この手法によれは、語彙を絞り込むことにより、音素も抽出された語彙に対応するもののみに絞りこむことができるので、結果としてサブセット音素辞書も小さくすることができる。
しかしサブセット音素辞書サイズに問題ある場合には、一次抽出において割合を変えて再試行するなどの作業を行うようにしてもよい。
図6は、サブセット辞書が搭載されるシングルチップTTS−LSI(半導体集積回路装置)の構成について説明するための図である。
シングルチップTTS−LSI10は、サブセット辞書30を含む。サブセット辞書30は、本実施の形態の音声合成用辞書作成システムによって生成された第2の音声合成用辞書を構成する辞書データが記憶された不揮発性記憶部として機能する。サブセット辞書30は、語彙辞書32と音素辞書34を含み、ROMやフラッシュEEPROM等で実現できる。
語彙辞書32はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)(例えばテキスト表記に対応した読みのデータ)が格納された辞書である。
フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理(テキストの正規化、プリプロセッシング、トークン化などと呼ばれる)や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理(単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme(TTP))変換または書記素音素(grapheme-to-phoneme(GTP))変換と呼ぶ)等を行い、発音記号と韻律情報を組み合わせて記号化言語表現を作成し、フロントエンドの出力とする。
音素辞書34は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音(音素)の波形情報を格納する辞書である。
サブセット辞書30には音声合成用辞書作成システムにより作成された第2の音声合成用辞書のデータが格納されている。例えば図3に説明した手順で生成された語彙辞書と当該語彙辞書に必要な音素辞書データからなる音素辞書によって構成してもよい。
シングルチップTTS−LSI10は、ホストI/F50を含む。ホストI/F50はホストコンピュータとコマンドやデータのやりとりを行うためのインターフェースブロックである。ホストI/F50はTTSコマンド/データバッファ52を含み、ここにホストから指示された発話対象文章(テキストデータ)が格納される。発話対象文章は合成音声データ生成処理部20への入力となる。
シングルチップTTS−LSI10は、合成音声データ生成処理部20を含む。合成音声データ生成処理部20は、不揮発性記憶部30に記憶された辞書データ(サブセット辞書)を用いて所定の発話対象文章に対応した合成音声データを生成する合成音声生成部として機能する。合成音声データ生成処理部20は、表記→音表記変換ブロック22、音素選択部24、発音ブロック26、フィルタ処理部28を含む。各部の機能は、専用の回路を設ける事によって実現してもよいし、CPUが各部の機能を実現するためのプログラムを実行することによって実現してもよい。合成音声データ生成処理部20の機能は、図2の音声合成用辞書作成システムの合成音声データ生成処理部130の機能と同等である。
表記→音表記変換ブロック22は、語彙辞書32を検索して受け取った発話対象文章を記号化言語表現23にして音素選択部に渡す。
音素選択部24は、発話対象文章の記号化言語表現23を受け取り、音素辞書34を検索して記号化言語表現23に対応する音素の集合を発音ブロック26に渡す。
発音ブロック26は、音素の集合に基づき合成音声波形27を生成する。
フィルタ処理部28は、フィルタを用いて合成音声波形の音質の変更または他のキャラクタの音声への変更を行う。
シングルチップTTS−LSI10は、スピーカーI/F40を含む。フィルタ処理部28でフィルタリングされた合成音声波形はスピーカーI/F40のアンプ42を介して外部のスピーカに出力される。
本実施の形態のシングルチップTTS−LSI10は、小容量のサブセット辞書しか搭載せずに当該シングルチップTTS−LSI10の組み込まれる機器に対応した所定の発話対象文章については精度のよい合成音声データを生成することができる。
図7は、本実施の形態の半導体集積回路装置の製造方法について説明するためのフローチャートである。本実施の形態の半導体集積回路装置は合成音声データ生成処理部と音声合成処理に用いる辞書データが記憶された不揮発性記憶部を含む半導体集積回路装置で以下の行程を経て製造される。
まず半導体集積回路装置で発話を予定している発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する(ステップS10)。
次に第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成する(ステップS20)。ここで生成した合成音声についてユーザーからの評価入力を受け付け、OKであれば第2の音声合成用辞書の内容を確定させ、NGであれば第2の音声合成用辞書の編集を続行するようにしてもよい。
次に生成された第2の音声合成用辞書を構成する辞書データを前記半導体集積回路装置の不揮発性記憶部に書き込む(ステップS30)。例えばマスクROMとして半導体集積回路装置製造時に不揮発性記憶部に第2の音声合成用辞書を構成する辞書データを書き込むようにしてもよい。
なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
また日本語以外の言語に対するTTSシステムに対しても適用可能である。
本実施の形態の音声合成用辞書作成システムと半導体集積回路装置について説明するための図。 本実施の形態の音声合成用辞書作成システムの機能ブロック図の一例。 本実施の形態の処理の流れを説明するためのフローチャート。 置き換え時の変更履歴記録処理の一例を説明するための図。 ルビ振り(かな置き換え処理)時の変更履歴記録処理の一例を説明するための図。 サブセット辞書が搭載されるシングルチップTTS−LSI(半導体集積回路装置)の構成について説明するための図。 本実施の形態の半導体集積回路装置の製造方法について説明するためのフローチャート。
符号の説明
1 半導体集積回路装置(TTS−LSI)、20 合成音声データ生成処理部(音声合成システム)、22 表記→音表記変換ブロック、24 音素選択部、26 発音ブロック、28 フィルタ処理部、30 少量量辞書(サブセット辞書)、32 語彙辞書、34 音素辞書、40 スピーカーI/F、50 ホストI/F、100 音声合成用辞書作成システム、110 処理部、120 第2の音声合成用辞書作成部、122 サブセット辞書作成ソフトウエア、130 合成音声データ生成処理部、132 音声合成ソフトウエア、140 発話対象文章変更部、142 変更履歴記録処理部、144 同義語置き換え処理部、146 かな置き換え処理部、150 辞書編集処理部、182 第1の音声合成用辞書記憶部(大容量辞書)、184 大容量辞書

Claims (9)

  1. 発話対象文章に対応した合成音声を生成するために必要な辞書データの集合である第1の音声合成用辞書から第1の音声合成用辞書に比べてデータ量の少ない第2の音声合成用辞書を作成する音声合成用辞書作成システムであって、
    第1の音声合成用辞書を構成する辞書データが記憶された第1の音声合成用辞書記憶手段と、
    発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成する第2の音声合成用辞書作成手段と、
    第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成する音声合成手段とを含むことを特徴とする音声合成用辞書作成システム。
  2. 請求項1において、
    発話対象文章を構成する語のなかで第2の音声合成用辞書への格納対象となっていない未格納語について第2の音声合成用辞書の格納語に置き換える発話対象文章の変更を行う発話対象文章変更手段と、
    を含むことを特徴とする音声合成用辞書作成システム。
  3. 請求項2において、
    前記発話対象文章変更手段は、
    発話対象文章を構成する語の置き換えに関する変更履歴を記録することを特徴とする音声合成用辞書を作成することを特徴とする音声合成用辞書作成システム。
  4. 請求項2乃至3のいずれかにおいて、
    前記発話対象文章変更手段は、
    前記未格納語について、第2の音声合成用辞書の格納語との同義語があるか否かを解析し、同義語がある場合には発話対象文章の前記未格納語を同義語に置き換える同義語置き換え処理を行う同義語置き換え処理手段を含むことを特徴とする音声合成用辞書作成システム。
  5. 請求項2乃至4のいずれかにおいて、
    発話対象文章変更手段は、
    前記未格納語について、当該語のよみを表す仮名表記に置き換えるかな置き換え処理をおこなう仮名置き換え処理手段を含むことを特徴とする音声合成用辞書作成システム。
  6. 請求項1乃至5のいずれかにおいて、
    第2の音声合成用辞書を用いて音声合成された発話対象文章に対する評価入力を受け付け、評価入力の内容に応じて第2の音声合成用辞書または発話対象文章の確定または変更処理を行う編集処理手段と、
    を含むことを特徴とする音声合成用辞書作成システム。
  7. 請求項1乃至6のいずれかにおいて、
    前記編集処理手段は、
    第2の音声合成用辞書の格納語についてのユーザーの指定入力を受け付け、
    前記第2の音声合成用辞書作成手段は、
    前記ユーザーの指定入力に基づき格納語を決定することを特徴とする音声合成用辞書作成システム。
  8. 請求項1乃至7のいずれかに記載の音声合成用辞書作成システムによって生成された第2の音声合成用辞書を構成する辞書データが記憶された不揮発性記憶部と、
    前記不揮発性記憶部に記憶された辞書データを用いて所定の発話対象文章に対応した合成音声データを生成する合成音声データ生成処理部と、
    を含むことを特徴とする半導体集積回路装置。
  9. 不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、
    半導体集積回路装置で音声合成を予定している発話対象文章を解析し、発話対象文章を構成する各語句の出現頻度を調べ、出現頻度に基づき、第2の音声合成用辞書への格納語を決定し、決定された格納語に対応して第1の音声合成用辞書に格納されている辞書データを用いて第2の音声合成用辞書を生成するステップと、
    第2の音声合成用辞書を用いて発話対象文章に対応した合成音声を生成するステップと、
    生成された第2の音声合成用辞書を構成する辞書データを前記半導体集積回路装置の不揮発性記憶部に書き込むステップと、
    を含むことを特徴とする半導体集積回路装置の製造方法。
JP2007222469A 2006-11-16 2007-08-29 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法 Withdrawn JP2008146019A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007222469A JP2008146019A (ja) 2006-11-16 2007-08-29 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
US11/940,364 US20080120093A1 (en) 2006-11-16 2007-11-15 System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006310315 2006-11-16
JP2007222469A JP2008146019A (ja) 2006-11-16 2007-08-29 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法

Publications (1)

Publication Number Publication Date
JP2008146019A true JP2008146019A (ja) 2008-06-26

Family

ID=39606226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007222469A Withdrawn JP2008146019A (ja) 2006-11-16 2007-08-29 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法

Country Status (1)

Country Link
JP (1) JP2008146019A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186143A (ja) * 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2013072903A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 合成辞書作成装置および合成辞書作成方法
WO2015052817A1 (ja) * 2013-10-10 2015-04-16 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
CN107271976A (zh) * 2017-06-21 2017-10-20 安徽华东光电技术研究所 S波段频率综合器的制备方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185197A (ja) * 1994-12-28 1996-07-16 Fujitsu Ltd 日本語解析装置、及び日本語テキスト音声合成装置
JP2000039897A (ja) * 1998-07-24 2000-02-08 Victor Co Of Japan Ltd テキスト音声合成装置
JP2002162986A (ja) * 2000-11-27 2002-06-07 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2004171174A (ja) * 2002-11-19 2004-06-17 Brother Ind Ltd 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
JP2006153929A (ja) * 2004-11-25 2006-06-15 Matsushita Electric Ind Co Ltd 情報案内装置
JP2006308636A (ja) * 2005-04-26 2006-11-09 Kenwood Corp 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185197A (ja) * 1994-12-28 1996-07-16 Fujitsu Ltd 日本語解析装置、及び日本語テキスト音声合成装置
JP2000039897A (ja) * 1998-07-24 2000-02-08 Victor Co Of Japan Ltd テキスト音声合成装置
JP2002162986A (ja) * 2000-11-27 2002-06-07 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2004171174A (ja) * 2002-11-19 2004-06-17 Brother Ind Ltd 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
JP2006153929A (ja) * 2004-11-25 2006-06-15 Matsushita Electric Ind Co Ltd 情報案内装置
JP2006308636A (ja) * 2005-04-26 2006-11-09 Kenwood Corp 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186143A (ja) * 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2013072903A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 合成辞書作成装置および合成辞書作成方法
WO2015052817A1 (ja) * 2013-10-10 2015-04-16 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
JPWO2015052817A1 (ja) * 2013-10-10 2017-03-09 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
US9928828B2 (en) 2013-10-10 2018-03-27 Kabushiki Kaisha Toshiba Transliteration work support device, transliteration work support method, and computer program product
CN107271976A (zh) * 2017-06-21 2017-10-20 安徽华东光电技术研究所 S波段频率综合器的制备方法

Similar Documents

Publication Publication Date Title
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
EP1096472B1 (en) Audio playback of a multi-source written document
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
Fantinuoli Speech recognition in the interpreter workstation
US7496498B2 (en) Front-end architecture for a multi-lingual text-to-speech system
US20090204401A1 (en) Speech processing system, speech processing method, and speech processing program
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2001282282A (ja) 音声情報処理方法および装置および記憶媒体
JP4811557B2 (ja) 音声再生装置及び発話支援装置
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2008146019A (ja) 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
Kayte et al. A text-to-speech synthesis for Marathi language using festival and Festvox
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Lin et al. Hierarchical prosody modeling for Mandarin spontaneous speech
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2010169973A (ja) 外国語学習支援システム、及びプログラム
JP2008257116A (ja) 音声合成システム
JP3378547B2 (ja) 音声認識方法及び装置
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
Gros et al. SI-PRON pronunciation lexicon: a new language resource for Slovenian
Kardava Georgian speech recognizer in famous searching systems and management of software package by voice commands in Georgian language
JP3821131B2 (ja) 音声合成装置および音声合成方法
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080703

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120307

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120502