JP3983313B2 - 音声合成装置及び音声合成方法 - Google Patents
音声合成装置及び音声合成方法 Download PDFInfo
- Publication number
- JP3983313B2 JP3983313B2 JP01039996A JP1039996A JP3983313B2 JP 3983313 B2 JP3983313 B2 JP 3983313B2 JP 01039996 A JP01039996 A JP 01039996A JP 1039996 A JP1039996 A JP 1039996A JP 3983313 B2 JP3983313 B2 JP 3983313B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- word
- information
- address
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、一つの表記に複数の読みが存在する住所の文章情報を正確な読みで読み上げる音声合成装置及び音声合成方法に関する。
【0002】
【従来の技術】
従来の音声合成装置では、文章情報が入力されると、単語の表記に対応付けて、単語の読み、音声を合成するためのアクセント等の情報が格納されている辞書を参照して文章情報を読みに変換し、読みの情報及びアクセント等の情報から音声波形を生成して文章情報を合成音声で読み上げる。
【0003】
【発明が解決しようとする課題】
しかし、一つの表記に複数の読みが存在する住所等が文章情報に含まれている場合、例えば「本町」という表記の文章情報を「ホ′ンチョー」「ホ′ンマチ」「モト′マチ」(「′」はアクセント記号)といった複数の読みのいずれの読みで読み上げるべきかを正確に決定できずに誤った読みで読み上げてしまう可能性がある。
【0004】
本発明はこのような問題点を解決するためになされたものであって、一つの表記に対して複数の読みが存在する住所の表記及び読みの情報を階層化した階層構造の辞書を持つことにより、一つの表記に対して複数の読みが存在する住所の文章情報を正確な読みで読み上げる音声合成装置及び音声合成方法の提供を目的とする。
【0005】
【課題を解決するための手段】
図1は本発明の音声合成装置の基本ブロック図である。
CD−ROM,光磁気ディスク等の記録媒体から直接的に、又は公衆回線等を介して文章情報を入力する文章入力部1が文章情報を入力すると、階層辞書検索部2は、先に出現する住所を表わす単語によって該単語の次に出現する住所を表わす単語の読みが予め決められている住所を表わす単語群からなる単語列の各単語の表記及び読みの情報が、単語を例えば都道府県・市郡・町村区の順に階層化した階層構造の情報とともに格納されている階層辞書3から、入力された文章情報に含まれている文字列の中から住所の単語列に一致する単語列の読みの候補を検索し、文章解析部4が、読みの候補の中から、文章情報に含まれている、階層辞書3中の単語列の中から住所の単語列に一致する単語列の読みを階層構造の情報に基づいて選択し、この単語列を階層辞書3中の読みに変換する文章解析部4と、読みの情報から音声波形を生成する音声波形生成部6と、生成した音声波形に係る音声を出力するスピーカ7とを備える。
これにより、一つの表記に複数の読みが存在する住所を表わす単語列を正しい読みで読み上げる。
【0006】
また、本発明の音声合成装置は、地域を特定する情報の入力、文章情報に含まれる地名からの判定等に基づいて地域を指定することにより、指定された地域に属する階層から検索を開始して検索時間を短縮する。
【0007】
また、本発明の音声合成装置は、階層構造の情報が、その読みを決定する各単語の上位の階層の親単語を特定する情報である階層辞書と、階層辞書から検索した読みの候補のこの情報を参照して文章情報に含まれる文字列の中から住所の単語列に一致する単語列の読みの候補の接続関係を設定する。
【0008】
また、本発明の音声合成装置は、単語列のいずれかの階層の単語の表記が省略されている単語列を基に階層辞書を検索することにより、文書中の単語列の一部が省略されている場合でも正しい読みで読み上げる。
【0009】
また、本発明の音声合成装置は、所定数以上の文字又は単語の表記が階層辞書に格納されている単語列に含まれる該文字又は単語の表記と一致する場合に階層辞書の読みを該文字又は単語の読みと判定することにより、複数の読みが存在する住所の単語列以外で、その表記がこの単語列の一部と一致する一般の単語を住所の読みで誤って読み上げることがない。
【0010】
また、本発明の音声合成装置は、単語列に接続される接尾語の表記及び読みの情報が格納されている接尾語辞書を設け、階層辞書中の単語列と一致する単語列の直後の文章情報の表記と一致する表記の情報を接尾語辞書から検索し、直後の表記に一致する接尾語辞書の表記の読みを、直後の表記の読みとして選択することにより、この単語列に接続されることによって一般の単語の読みと異なる読みになる接尾語を正しい読みで読み上げる。
【0011】
【発明の実施の形態】
図2は本発明の音声合成装置の一例を示す模式図である。
この例の音声合成装置は、音声出力機能を有する汎用のパーソナルコンピュータのディスクドライブに、以下に述べるような、住所辞書,住所接尾語辞書等の辞書及び音声合成方法のコンピュータプログラムが記録されている光磁気ディスク,CD−ROM等の記録媒体Dを装填してコンピュータプログラムをローディングし、文章データベースのディスクから又は公衆回線(図示省略)を介して入力された文章情報から音声を合成し、コンピュータ本体に接続されているスピーカから、又は公衆回線を介して合成音声を出力する構成である。
【0012】
なお、本発明の音声合成装置は上述のように汎用のパーソナルコンピュータにソフトウェアをローディングする構成以外に、FM多重放送から受信した交通情報等の文字列情報を合成音声で読み上げるような音声合成専用機であってもよく、その場合、文章情報はアンテナを介して入力される。
【0013】
〔実施の形態1〕
図3は本発明の音声合成装置の実施の形態1の構成図である。
文章入力部101 はCD−ROM,光磁気ディスク等から文章情報を入力し、住所辞書検索部102 は、文章情報に含まれる住所の単語列に一致する単語列を、住所の単語列の表記及び読みの情報が階層化され、この階層構造の情報とともに階層構造の情報が格納されている階層構造の住所辞書103 から検索する。
文章解析部104 は、住所辞書103 から検索された単語の読みを住所辞書103 の読みとし、それ以外の一般の単語に一致する単語を基本辞書105 から検索して文章情報を読みに変換し、音声波形生成部106 は読み及びアクセント情報等から音声波形を生成し、スピーカ107 から文章情報を読み上げる合成音声が出力される。
【0014】
図4は、住所辞書103 の一例の概念図である。
住所辞書103 には、住所の単語列を構成する各単語の表記及び読みの情報が階層化されて格納されている。階層の先頭は47都道府県名であり、それ以下の階層として、市区町又は郡の後に町又は村の地名、さらに大字、小字などの地名がその接続順に階層化されている。各々の単語に関してはこのような階層情報の他に、検索キーとなる漢字表記、アクセント句境界情報、アクセント型等の韻律情報を含んだ発音情報、即ち読みの情報を持っている。
【0015】
図5は実施の形態1における住所辞書103 の基本的な検索アルゴリズムのフローチャートである。
まず、入力された文章情報を格納するテキストバッファの先頭にテキストポインタを設定し(S101 )、住所辞書検索ポインタを住所辞書103 の階層構造の先頭に設定する(S102 )。テキストポインタを一文字ずつずらしながらそのテキストポインタ位置で始まる単語を住所辞書103 中の検索候補の単語と比較して一致するか否かを判定し(S103 ,104 )、住所辞書103 中の単語がテキストバッファ内に存在するか否かを調べていく。住所辞書103 に、テキストポインタで始まる単語が存在している場合は、住所辞書検索ポインタを次の階層に設定するとともに(S105 )、テキストポインタを次の単語位置に設定し(S106 )、テキストの次の単語位置に次の階層の単語が存在するかどうかを調べていく(S107 ,S108 )。
【0016】
住所辞書103 中の単語に一致する単語が存在しなくなったら、住所辞書103 中の単語に一致した区間を住所区間とみなし、一致した単語列に設定されている読みの列を、その住所区間の読みとして発音情報を設定し(S109 )、文章解析部104 にわたす。また、住所区間以降の文章にも住所が含まれている可能性があるため、住所辞書検索ポインタを階層構造の先頭に設定し(S110 )、同様の処理をテキスト情報の最後まで文章全体に対して行う(S111 ,S112 )。
【0017】
〔実施の形態2〕
図6は実施の形態2の構成図である。なお、上述の実施の形態1と同一部分には同一符号を付してその説明を省略する。実施の形態2では、文章解析部104 で使用する基本辞書105 中には単語が存在しないが、住所辞書103 の検索によって発音情報が既知である場合に、単語登録しないで、入力文章中に発音情報を発音指定文字列としてテキストに埋め込む住所発音設定部108 と、テキストに埋め込まれた発音指定文字列を識別して発音指定と解析する発音指定解析部109 とが設けられている。
【0018】
ここで、発音指定文字列のフォーマットを「〈発音:漢字表記:発音情報〉」と定義した場合、「〈:〉」は、文章中で特殊な意味を持たせるための記号であり、「発音」という文字列は発音指定を識別するためのキーワードである。「漢字表記」は単なるコメントの役割で、「発音情報」にはカタカナ及びアクセント記号で表現された発音情報を記述する。
【0019】
次に、動作について説明する。
文章入力部101 から、例えば「東京都大田区に住んでいます。」という文章が入力されると、住所辞書検索部102 は、実施の形態1と同様に住所辞書103 を検索し、「東京都大田区」の区間が住所単語列であり、その住所の発音が「トーキョ′ート オータ′ク」(「′」はアクセント記号、「 」はアクセント区境界記号)であることを判定する。さらに、住所発音設定部108 では、入力された文章の住所の区間を前述の発音指定文字列に置換し、「〈発音:東京都大田区:トーキョ′ート オータ′ク〉に住んでいます。」という文字列を発音指定解析部109 に出力する。
【0020】
発音指定解析部109 は、括弧記号(〈 〉)で区切られた文字を識別して発音指定として解析し、その部分には、発音が「トーキョ′ート オータ′ク」である名詞が存在しているとする一方、その他の部分の文章はそのまま文章解析部104 にわたす。文章解析部104 は発音指定の情報とその他の文章とを解析して、正しい読み情報を設定する。
【0021】
実施の形態2では、住所辞書検索部102 に住所発音設定部108 を接続し、住所発音設定部108 と文章解析部104 との間に、住所発音設定部108 からの入力経路の他に、文章入力部101 からの文章情報の入力経路を有する発音指定解析部109 を接続することにより、住所を含まない文章を読み上げる場合に、基本辞書105 を参照して発音情報に変換すべく文章情報を文章解析部104 に直接的に入力できる。即ち、図中、破線で囲んだ住所読み上げ部を独立した装置として構成したり、また文章情報の入力経路を選択的に使用することができる。
【0022】
従って、第1に、住所読み上げ部を独立の装置として構成した場合には並列処理が可能になる。住所辞書103 の単語数は一般的に十万単語を超え、言語処理部の基本辞書105 の単語数は数万単語から十万単語を超える場合もあるので、検索処理の負荷が大きいが、このような構成にすれば、2個のCPUで住所読み上げ部分の処理とその他の部分の音声合成のための言語処理とを並列処理することが可能になるため、処理時間の増加を防ぐことが可能である。
また、第2に、住所読み上げ部をソフトウェアで構成した場合には、住所読み部と言語処理部とのコマンドとして独立のコマンドを作成することができるので、ソフトウェアの保守作業、システム変更への対応が容易である。
【0023】
〔実施の形態3〕
図7(a) は実施の形態3の構成図である。なお、上述の実施の形態と同一部分には同一符号を付してその説明を省略する。
この実施の形態では、文章情報の入力の都度、地域名を設定する指定地域入力部110 と、指定された地域を階層構造の住所辞書103 の検索開始地点として保持しておく検索開始位置格納バッファ111 とが設けられており、地域名が指定されている場合は、指定されている地域に属する階層構造の各階層の検索から開始することによって、検索を行うために必要な処理時間を大幅に削減するものである。
【0024】
住所は47都道府県名から全部表記する場合もあるが、文脈などから都道府県名が自明であったり、よく知られている地名であるために都道府県名が省略できる地名であったりした場合は都道府県名を省略して表記することが多い。しかし、文章中に階層の途中から始まる住所が含まれている場合、階層化された住所辞書103 は途中の階層からの検索も可能であるが、階層が下がるにつれて検索対象の単語数は増え、検索対象の単語が数十万以上にも及ぶ可能性がある。
そのため、この実施の形態では、階層上のどの地点を起点にして検索を行うかという情報を地域で指定する。
【0025】
図8は、例えば、指定地域入力部110 より「北海道旭川市」という地域が指定された場合の検索開始位置格納バッファ111 の概念図である。指定地域入力部110 より「北海道旭川市」という地域が指定された場合、指定地域が住所辞書検索部102 により検索され、「階層先頭」及び「北海道」及び「旭川市」という3つのそれぞれの階層構造上の検索ポインタが検索開始位置格納バッファ111 に格納される。住所辞書検索部102 は、検索開始位置格納バッファ111 中の各々の検索ポインタを起点として住所辞書103 を検索する。
なお、検索開始位置の情報は1地域に限らず、複数地域の情報を格納しておく構成であってもよい。
【0026】
図7(b) は実施の形態3の変形例の構成図である。本変形例が実施の形態3と異なる点は、指定地域入力部110 に替えて、入力された文章情報中から地域の情報を獲得する指定地域獲得部112 が設けられている点である。指定地域獲得部112 は、住所辞書検索部102 で住所辞書103 が検索され、文章中の単語に一致する住所辞書103 中の単語列候補が存在した場合、文章中の地名の地域を獲得して検索開始位置格納バッファ111 に格納し、検索開始位置の情報は上述と同様に利用される。
【0027】
〔実施の形態4〕
図9は本発明の音声合成装置の実施の形態4の構成図である。なお、上述の実施の形態と同一部分には同一符号を付してその説明を省略する。
実施の形態4では、途中の階層から始まる地名を検索すべく、住所辞書の途中から以下の各階層を全て検索する方法をとった場合、検索に長時間を要するという不具合を解消するために階層構造の住所辞書103 を図10のような構成にするとともに、単語間の接続関係を求めるための接続関係設定部113 が設けられている。
【0028】
即ち、図10の住所辞書103 では、階層構造の全ての単語が、表記及び読みの情報に、読みがこの読みになる、上位の階層の親単語を特定する親番号のような親情報を付与して親子関係で表現されている(例:親単語♯1,親単語♯2,…)。さらに、表記による検索の簡単のために表記のコード順にソーティングされている。このとき、一つの表記に異なる読みを持つ単語は複数の読みのそれぞれに親情報を持たせ、また異なる表記で同じ読みを持つ単語は各読みに複数の親情報を持たせることで情報量を圧縮することもできる。
【0029】
図11は接続関係設定部113 のアルゴリズムのフローチャートであって、破線で囲んだステップは接続関係設定部113 での処理を示している。
検索文字位置を文章情報の最初の文字に設定し(S201 )、開始位置で始まる単語を検索する(S202 )。開始位置で始まる単語が存在するか否かを判定し(S203 )、開始位置で始まる単語が存在しない場合は検索文字位置を次の文字に設定し(S204 )、テキスト中の最後の文字か否かを判定する(S205 )。テキスト中の最後の文字でない場合はステップS202 に移行し、開始位置で始まる単語を検索する(S202 )。住所辞書検索部102 は文章に含まれる全ての単語に基づいて、住所辞書103 の全階層を検索して文章中の単語に一致する全候補を抽出する。
【0030】
ステップS203 での判定の結果、開始位置で始まる単語が存在する場合、異なる読み、単語を持つ単語を分割する(S206 )。
接続関係設定部113 は、全ての単語に関する処理を行ったか否かを判定し(S207 )、全ての単語に関して処理を行っていない場合、開始位置で終わる単語が存在するか否かを判定し(S208 )、存在しない場合は親単語無しの情報を設定する(S209 )。
一方、ステップS208 の判定の結果、開始位置で終わる単語が存在する場合は親番号が一致する単語が存在するか否かを判定する(S210 )。親番号が一致する単語がない場合は親単語無しの情報を設定する一方(S209 )、親番号が一致する単語が存在する場合は親単語へのポインタを設定する(S211 )。
【0031】
ステップS207 の判定の結果、全ての単語に関して処理を行った場合はステップS204 に移行して検索文字位置を次の文字に設定し、テキスト中の最後の文字になるまでステップS204 〜S211 を繰り返す。
【0032】
この実施の形態では、親単語が存在する場合には必ずその単語の持つ読みを選択する。住所辞書103 をこのような構成にすることにより、階層構造のどの階層から始まっている住所であっても正しい読みが得られる。
また、住所辞書として、住所の各階層を表す単語にハッシュインデックスを付与し、ハッシュインデックスを介して読みを検索する構成であってもよい。住所辞書をこのような構造にした場合でも、住所辞書の検索により表記に一致する候補を住所辞書から抽出した後で接続関係を求める手順は図10の構成の場合と同様である。
【0033】
また、文章中の単語列に一致する単語列を住所辞書103 から求めたときに複数通りのマッチングが発生する場合がある。例えば、《東京都−港区−白金》と《東京都−港区−白金台》という地名が含まれている住所辞書103 を用いて『東京都港区白金台は、…。』という文章を音声合成する場合、又は《山形県−南陽市−宮内−新町》と《熊本県−荒尾市−宮内─新町》という地名が含まれている住所辞書103 を用いて『荒尾市宮内新町は、…。』という文章を音声合成する場合に住所辞書103 において両方の地名にマッチングする。
このとき、先の例では《東京都−港区−白金》の全文字長は7文字であり、《東京都−港区−白金台》の全文字長は8文字であるので、文字長が長い方の読みを選択する。また後の例で、山形県の地名では《宮内−新町》と4文字しか一致しないが、熊本県の地名では《荒尾市−宮内−新町》と7文字一致するので、文字長が長い方の熊本県の読みを選択する。
【0034】
以上のアルゴリズムのフローチャートを図12に示す。
全単語から単語候補列を作成し(S301 )、一番長い文字数の単語列を選択する(S302 )。選択した単語と、この単語と区間が重複する候補列を、単語候補列を格納しているバッファ(図示せず)から削除する(S303 )。単語候補列のバッファが空か否かを判定し(S304 )、バッファが空になるまでステップS302 、S303 を繰り返す。
このアルゴリズムでは文章中に複数個の住所が含まれている場合も考慮した処理を行う。
【0035】
〔実施の形態5〕
図13(a) 及び図13(b) は本発明の音声合成装置の実施の形態5の構成図であって、図13(a) は階層構造をそのまま持つ図4の構成の住所辞書103 を使用する場合の構成図、図13(b) は階層情報を単語間の親子関係で表現した図10の構成の住所辞書103 を使用する場合の構成図である。なお、図中、上述の実施の形態と同一部分には同一符号を付してその説明を省略する。この実施の形態では、階層省略情報設定部114 を設けた点が異なる。
【0036】
即ち、地名を表す場合に省略される部分として、都道府県名から始まる先頭部分だけではなく、住所の途中の階層が省略される場合もある。例えば、正確には『山梨県西八代郡上九一色村』であるが、『山梨県上九一色村』と郡の名称が省略されている場合、また正確には『神奈川県横浜市緑区長津田』であるが、『神奈川県横浜市長津田』と区の名称が省略されているような場合がある。このような住所辞書の階層構造の一階層又は何階層かが省略された住所表記が文章中に存在する場合には階層構造を持った住所辞書をそのまま参照して検索しても一致する候補が探し出せず、住所を正しく読み上げることはできない。
【0037】
従って、実施の形態5では、単語検索時又は接続関係設定時に一階層飛ばした組み合わせも可能であるという規則を設ける。
図13(a) に関しては、階層毎にポインタをずらしながら単語を検索していく方法を基に説明する。この場合、特定の階層又は全ての階層での単語を検索する際に、検索ポインタで示される階層の単語を検索するだけでなく、それらの単語及びそれらの単語の一階層又は何階層か下の全ての単語を検索する。階層省略情報設定部114 は、このような検索の階層省略の情報を設定する手段である。
【0038】
図13(b) に関しては、文章中に表れる全階層中の全単語を検索し、その後に、辞書引きされた単語間の接続関係を接続関係設定部113 で求める方法を基に説明する。この場合、一階層又は何階層か省略された場合でも単語間の親子関係が存在するという関係を接続関係設定部113 で設定する必要があるが、そのための制御を階層省略情報設定部114 で行う。即ち、親情報のポインタを二回たどることで、一階層省略された場合でも接続関係があるということを簡単に判定することができる。
【0039】
また、上記問題点を解決する他の方法として、単語検索時又は接続関係設定時に、郡の名称,区の名称等の省略される可能性のある単語に関して、省略される可能性があるという情報を、住所辞書103 の単語の属性として持つ方法が考えられる。
図14(a) 、図14(b) は実施の形態5の変形例の構成図であって、図14(a) は階層構造をそのまま持つ図4の構成の住所辞書103 を使用する場合の構成図、図14(b) は階層情報を単語間の親子関係で表現した図10の構成の住所辞書103 を使用する場合の構成図である。
【0040】
図14(a) に関しては、階層毎にポインタをずらしながら単語を検索していく方法を基に説明する。この場合、階層省略情報獲得部115 が、住所辞書103 中の単語の属性を調べ、省略される可能性があるという情報が含まれている場合のみ、上述と同様に、それらの単語及びそれらの単語の一階層又は何階層か下の全ての単語を検索する。この方法では、一階層又は何階層か省略された場合に、省略される可能性のある部分だけを検索するので、処理量が増加しないという利点がある。
【0041】
図14(b) に関しては、文章中に表れる全階層中の全単語を検索し、その後に、辞書引きされた単語間の接続関係を接続関係設定部113 で求める方法を基にして説明する。この場合、階層省略情報獲得部115 が、住所辞書103 中の単語の属性を調べて、省略される可能性があるという情報が含まれている場合のみ、親情報のポインタを二回たどることで、一階層省略されて記載されている場合でも接続関係があることを判定することができる。また、親単語が省略される可能性がある場合には、親単語の親単語を親情報として持つというように、複数個の親情報を持つ構成としてもよい。
【0042】
〔実施の形態6〕
図15は本発明の音声合成装置の実施の形態6の構成図であって、上述の実施の形態と同一部分には同一符号を付してその説明を省略する。
この実施の形態では、全ての可能な単語列候補を作成した後で、その中から一番確からしい候補を選択する単語列候補選択部116 と、文章中に一致した住所辞書103 中の単語列候補に対して住所の読みを選択するか否かを判定する住所読み判定部117 とが設けられている。
【0043】
即ち、住所辞書にマッチングする際に必ず住所辞書を参照すると、以下のような、住所以外の部分を住所の読みに置き換えてしまうという不具合がある。例えば、『化石(バケ′イシ)』、『三角(ミカド、ミ′スミ)』、『山寺(ヤ′マジ)』、『小文字(コモンジ)』、『大文字(ダ′イモンジ)』等のように、普通名詞と異なる読みを持つ地名が存在する場合がある。また、たとえ読みが同じであっても、アクセント型又はアクセント結合属性が違うために、読み上げるアクセントが違ってくる場合も発生する。従って、このような場合には住所の読みで読み上げないようにする必要がある。この不具合を回避するため、実施の形態6では、所定の単語数又は文字数より少ない単語数又は文字数しか一致しない場合は住所の読みを選択しないようにする。
【0044】
例えば、《岡山県(オカヤマ′ケン)−上房郡(ジョーボ′ーグン)−賀陽町(カヨーチョー)−北(キ′タ)−門(カド)》、《大分県(オーイタ′ケン)−東国東郡(ヒガシクニサキ′グン)−国見町(クニミチョー)−中(ナ′カ)─下(シモ)》という地名が住所辞書103 に登録されている場合、『北門で待つ』『上中下』等の文章が入力された場合でも「北門」の2文字、又は「中下」の2文字しかマッチングしない場合には住所の読みを選択しないようにして基本辞書105 を参照するようにすれば、正しく読み上げることができる。
【0045】
図16は実施の形態6のアルゴリズムのフローチャートである。
候補単語列の単語数又は文字数を求め(S401 )、求めた単語数又は文字数がしきい値より小さいか否かを判定する(S402 )。候補単語列の単語数又は文字数がしきい値以上の場合は住所の読みを選択する(S403 )。一方、求めた単語数又は文字数がしきい値より小さい場合は住所の読みを選択せずに終了する。
【0046】
〔実施の形態7〕
図17は本発明の音声合成装置の実施の形態7の構成図であって、上述の実施の形態と同一部分には同一符号を付してその説明を省略する。実施の形態7では、自然な発声の合成音声を得るために韻律境界記号を設定する韻律境界設定部118 が設けられている。
【0047】
即ち、全体のモーラ数の長い住所を読み上げる場合、呼気段落境界及びフレーズ境界を設定しないと、発声のピッチが低くなりすぎたり、息つぎが無い発声で息苦しく聞こえたりする。例えば、『北海道札幌市南区定山渓定山渓豊羽鉱山くるみ沢』という住所の読みは、「ホッカ′イドー サッポロ′シ ミナミ′ク ジョーザ′ンケー ジョーザンケートヨハコ′ーザン クルミ′サワ」であるが、一気に読むと非常に不自然に聞こえる。また、区切りすぎでも不自然に聞こえる。そのために、フレーズ境界又は呼気段落境界等の韻律境界記号を適当な位置に設定する必要がある。
【0048】
単語間境界記号を設定する第1の方法として、住所辞書103 とマッチングした単語のモーラ数を累積していき、累積モーラ数がしきい値を超えないように、又は超える毎にフレーズ境界又は呼気段落境界等の韻律境界記号を設定する方法が考えられる。
【0049】
図18はこのアルゴリズムのフローチャートである。
累積モーラ数に現単語モーラ数を設定する(S501 )。地名単語の読みをバッファ(図示せず)に設定し(S502 )、地名単語のポインタを次に進める(S503 )。地名単語候補列が終了か否かを判定し(S504 )、終了でない場合は地名単語のモーラ数を加算する(S505 )。累積モーラ数がしきい値を超えたか否かを判定し(S506 )、しきい値を超えるまでステップS502 〜S505 を繰り返す。
累積モーラ数がしきい値を超えると、呼気段落記号をバッファに設定し(S507 )、ステップS501 に戻って地名単語候補列が終了するまで、ステップS501 〜S507 を繰り返す。
【0050】
先の『北海道札幌市南区定山渓定山渓豊羽鉱山くるみ沢』の例では、単語毎のモーラ数は{6,5,4,6,13, 5}であるから、しきい値を13モーラに設定すれば、{(6,5),(4,6),13, 5}に分割される。ここで、呼気段落記号を「・」で表した場合、読みは「ホッカ′イドー サッポロ′シ・ミナミ′ク ジョーザ′ンケー・ジョーザンケートヨハコ′ーザン・クルミ′サワ」となり、自然に読み上げることができる。
【0051】
単語間境界記号を設定する第2の方法として、住所辞書103 中の地名単語の階層データ構造中に境界記号を含めておき、それを参照してフレーズ境界又は呼気段落境界等の韻律境界記号を設定する方法が考えられる。
図19はこのアルゴリズムのフローチャートである。
地名単語の読みをバッファに設定する(S601 )。地名単語のポインタを次に進め(S602 )、地名単語候補列が終了か否かを判定する(S603 )。地名単語候補列が終了でない場合は韻律境界記号があれば獲得して設定し(S604 )、ステップS601 に戻って、地名単語候補列が終了するまでステップS601 〜S604 を繰り返す。
【0052】
第2の方法では、モーラ数だけ見るのではなく、予めフレーズ境界及び呼気段落境界記号を区別して入れることができるので、より自然に発声できる。前述の例で示すと、例えば『札幌市』と『南区』とを一緒に発声した方がより自然であるため、それらの情報を住所辞書103 に格納しておく。ここで、呼気段落境界記号を「・」、フレーズ境界記号を「/」で表した場合、前述の例を「ホッカ′イドー/サッポロ′シ ミナミ′ク/ジョーザ′ンケー・ジョーザンケートヨハコ′ーザン/クルミ′サワ」と読み上げることが可能になる。
【0053】
〔実施の形態8〕
図20は本発明の音声合成装置の実施の形態8の構成図であって、図中、上述の実施の形態と同一部分には同一符号を付してその説明を省略する。実施の形態8では、マイナス記号,長音記号等で表記されている番地用記号を、番地用の読みに変換する番地用記号変換部119 が設けられている。
即ち、『東京都千代田区丸の内1−6−1』と表記された住所を含む文章が入力された場合、番地『1−6−1』を「イチ・マイナス・ロク・マイナス・イチ」と読み上げてしまうと、住所の読みとして違和感を与える。そのため、住所に上記のような連続する数値が表記されている場合に、『1の6の1』、即ち、「イチ′ノ・ロク′ノ・イチ」と読み上げる。
【0054】
図21はこのアルゴリズムのフローチャートである。
文章中に一致した住所辞書103 中の単語列から決定される住所を認識した後、その住所区間に続く文字を検索していく。次の文字が数字(0〜9、〇〜九、十、百、千、万)か否かを判定し(S701 )、数字の場合はポインタを一文字分進め(S702 )、ステップS701 に戻る。次の文字が数字でない場合は、次の単語が助数詞(番地、番、丁目、号)か否かを判定し(S703 )、助数詞の場合はポインタを単語の文字分進め(S704 )、ステップS701 に戻る。
【0055】
次の単語が助数詞でない場合は次の文字が区切り記号(−、ー)か否かを判定し(S705 )、区切り記号の場合は文字を『の』で置き換える(S706 )。ここで、区切り記号として長音記号『ー』を含めたのは、マイナス記号『−』を長音記号で誤って表記するケースも多いので、誤って表記されていても読めるようにするためである。
以上のいずれの文字、単語でもない場合は処理を終了する。これらの処理を行うことで、数値間の区切り記号文字を含む番地の記述を正しく読み上げることができる。
【0056】
〔実施の形態9〕
図22は本発明の音声合成装置の実施の形態9の構成図である。なお、上述の実施例と同一部分には同一符号を付してその説明を省略する。
例えば、『東京都豊島区立第三中学校』という文章が入力された場合に、文章中に一致した住所辞書103 の単語列から決定される住所区間のみを発音情報に変換してしまうと、「トーキョ′ート トシマ′ク」+『立第三中学校』と解釈し、結果的に文章解析部104 で『立』を「タ′チ」と読んでしまう。
【0057】
従って、実施の形態9では、『立、内、民、行き、発、着、…』等の語彙からなる住所接尾語及びアクセント結合属性等が格納されている住所接尾語辞書120 と、文章中の単語に一致した住所辞書103 中の単語列から決定される住所区間の直後に続く単語に一致する単語を住所接尾語辞書120 から検索する住所接尾語辞書検索部121 と、住所接尾語辞書検索部121 の検索によって住所の後ろに住所接尾語が存在した場合は、文章中の単語に一致した住所辞書103 中の単語列からなる住所区間に住所接尾語が含まれるように修正し、文章中の単語に一致した住所辞書103 中の単語列の最終単語と住所接尾語とを住所接尾語に設定されているアクセント結合属性に応じてアクセント結合し、読みを設定するアクセント結合処理部122 とが設けられている。
【0058】
図23は実施の形態9のアルゴリズムのフローチャートである。
住所の単語列の次の単語が住所接尾語辞書120 にあるか否かを判定し(S801 )、住所接尾語辞書120 にある場合はアクセント結合処理部122 がアクセント結合する(S802 )。
このような処理を行うことで、先の例の文章情報を「トーキョ′ート トシマク′リツ」+『第三中学校』という情報として文章解析部105 に渡せるため、正しく読み上げることができる。
【0059】
〔実施の形態10〕
図24は本発明の音声合成装置の実施の形態10の構成図である。なお、上述の実施例と同一部分には同一符号を付してその説明を省略する。
例えば、文章中に住所が出現した後で、その住所に含まれる単語が繰り返し出現する場合、例えば、『神奈川県中原区上小田中に、上小田中公民館はあります。』という文章で、地名の『神奈川県中原区上小田中』は正しく読めるが、次に出てくる『上小田中公民館は…』という文章に関しては、先で読めているにもかかわらず、同じ表記で別の読みが登録されているために間違った読みで読み上げることがある。また、実施の形態6のような構成を採っている場合、文字数(単語数)が所定のしきい値より少ないために住所読みで処理できないことも起こり得る。
【0060】
従って、実施の形態10では、住所辞書検索部102 で処理された住所の全ての構成単語に対して、漢字表記と発音情報とをペアにして学習用単語バッファ124 に格納する住所単語学習部123 と、最近使用した住所の表記と読みとを格納する学習用単語バッファ124 と、階層構造の住所辞書103 を検索した後の文章に対して学習用単語の検索を行い、学習用単語に一致する単語が存在する場合には、該当する文章の部分に、対応する発音情報を埋め込む学習用単語検索部125 とが設けられている。学習用単語バッファ124 に格納されている単語は、その読みを優先的に使用することによって、文章中に一度でも出現した住所の一部が次に出現した場合に正しく読み上げることができる。
【0061】
また、学習用単語バッファ124 内の内容を初期化する学習用単語削除部126 を設けてもよい。この場合、学習用単語バッファ124 は通常は初期化せずに使用者の指定に応じて初期化する構成であっても、また、文章情報の入力の都度、初期化する構成であってもよい。さらに、登録された後に入力された文章の数が所定数を超えた時点で初期化する構成であってもよい。
【0062】
なお、本発明の音声合成装置において実施される音声合成方法は、音声合成装置のROMに書き込んでおく以外に、図25に示すように、コンパクトディスク等の記録媒体Dに記録しておき、この記録媒体Dをパーソナルコンピュータのディスクドライブに装填して音声合成する構成であってもよい。
【0063】
なお、上述の実施の形態では単語列が住所の場合について説明したが、単語列は住所に限らず、階層構造を有する単語列であれば同様の効果が得られる。
【0064】
【発明の効果】
以上のように、本発明の音声合成装置及び音声合成方法は、一つの表記に対して複数の読みが存在する住所の表記及び読みの情報を階層化した階層構造の辞書を持つので、一つの表記に対して複数の読みが存在する住所の文章情報を正確な読みで読み上げるという優れた効果を奏する。
【図面の簡単な説明】
【図1】 本発明の音声合成装置の基本ブロック図である。
【図2】本発明の音声合成装置の一例の模式図である。
【図3】本発明の音声合成装置の実施の形態1の構成図である。
【図4】住所辞書の一例の概念図である。
【図5】実施の形態1のアルゴリズムのフローチャートである。
【図6】本発明の音声合成装置の実施の形態2の構成図である。
【図7】本発明の音声合成装置の実施の形態3及びその変形例の構成図である。
【図8】検索開始位置格納バッファの概念図である。
【図9】本発明の音声合成装置の実施の形態4の構成図である。
【図10】住所辞書の他の例の概念図である。
【図11】実施の形態4のアルゴリズムのフローチャート(その1)である。
【図12】実施の形態4のアルゴリズムのフローチャート(その2)である。
【図13】本発明の音声合成装置の実施の形態5の構成図である。
【図14】本発明の音声合成装置の実施の形態5の変形例の構成図である。
【図15】本発明の音声合成装置の実施の形態6の構成図である。
【図16】実施の形態6のアルゴリズムのフローチャートである。
【図17】本発明の音声合成装置の実施の形態7の構成図である。
【図18】実施の形態7のアルゴリズムのフローチャート(その1)である。
【図19】実施の形態7のアルゴリズムのフローチャート(その2)である。
【図20】本発明の音声合成装置の実施の形態8の構成図である。
【図21】実施の形態8のアルゴリズムのフローチャートである。
【図22】本発明の音声合成装置の実施の形態9の構成図である。
【図23】実施の形態9のアルゴリズムのフローチャートである。
【図24】本発明の音声合成装置の実施の形態10の構成図である。
【図25】 記録媒体の記録状態の概念図である。
【符号の説明】
1 文章入力部
2 階層辞書検索部
3 階層辞書
4 文章解析部
5 基本辞書
6 音声波形生成部
7 スピーカ
Claims (7)
- 文章情報から音声を合成する音声合成装置において、
文章情報の入力手段と、
先に出現する住所を表わす単語によって該単語の次に出現する住所を表わす単語の読みが予め決められている住所を表わす単語群からなる単語列の各単語の表記及び前記読みの情報が、単語を階層化した階層構造の情報とともに格納されている階層辞書と、
入力された文章情報に含まれている文字列の中から住所の単語列に一致する単語列の読みの候補を階層辞書から検索する階層辞書検索手段と、
該読みの候補の中から、文章情報に含まれている前記単語列の読みを前記階層構造の情報に基づいて選択し、前記単語列を該読みに変換する文章解析手段と、
読みの情報から音声波形を生成する音声波形生成手段と、
生成した音声波形に係る音声の出力手段と
を備えたことを特徴とする音声合成装置。 - 地域を指定する手段を備え、階層辞書検索手段が、指定された地域に属する階層から検索を開始する手段である請求項1記載の音声合成装置。
- 前記階層構造の情報が、その読みを該読みに決めるべき各単語の上位の階層の親単語を特定する情報であり、階層辞書から検索した読みの候補の該情報を参照して文章情報に含まれる文字列の中から住所の単語列に一致する単語列の読みの候補の接続関係を設定する接続関係設定手段を備えた請求項1又は2記載の音声合成装置。
- 前記階層辞書検索手段は、前記単語列のいずれかの階層の単語の表記が省略されている単語列を基に階層辞書を検索する手段を有する請求項1乃至3のいずれかに記載の音声合成装置。
- 所定数以上の文字又は単語の表記が階層辞書に格納されている単語列に含まれる該文字又は単語の表記と一致する場合に階層辞書の読みを該文字又は単語の読みと判定する読み判定手段を備えた請求項1乃至4のいずれかに記載の音声合成装置。
- 前記単語列に接続される接尾語の表記及び読みの情報が格納されている接尾語辞書と、前記単語列の直後の表記に一致する表記の情報を接尾語辞書から検索し、前記直後の表記に一致する接尾語辞書の表記の読みを前記直後の表記の読みとして選択する接尾語辞書検索手段とを備えた請求項1乃至5のいずれかに記載の音声合成装置。
- 先に出現する住所を表わす単語によって該単語の次に出現する住所を表わす単語の読みが予め決められている住所を表わす単語群からなる単語列の各単語の表記及び前記読みの情報が、単語を接続順に従って階層化した階層構造の情報とともに格納されている階層辞書を参照して文章情報から音声を合成する音声合成方法であって、
文章情報を入力し、
入力された文章情報に含まれている文字列の中から住所の単語列に一致する単語列の読みの候補を階層辞書から検索し、
該読みの候補の中から、文章情報に含まれている前記単語列の読みを前記階層構造の情報に基づいて選択し、
前記単語列を該読みに変換し、
読みの情報から音声波形を生成し、
生成した音声波形に係る音声を出力すること
を特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01039996A JP3983313B2 (ja) | 1996-01-24 | 1996-01-24 | 音声合成装置及び音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01039996A JP3983313B2 (ja) | 1996-01-24 | 1996-01-24 | 音声合成装置及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09204434A JPH09204434A (ja) | 1997-08-05 |
JP3983313B2 true JP3983313B2 (ja) | 2007-09-26 |
Family
ID=11749068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01039996A Expired - Fee Related JP3983313B2 (ja) | 1996-01-24 | 1996-01-24 | 音声合成装置及び音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3983313B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4822847B2 (ja) * | 2006-01-10 | 2011-11-24 | アルパイン株式会社 | 音声変換処理装置 |
JP4990822B2 (ja) * | 2008-03-11 | 2012-08-01 | 日本放送協会 | 辞書修正装置、システム、およびコンピュータプログラム |
JP6171476B2 (ja) * | 2013-03-28 | 2017-08-02 | 富士通株式会社 | ドキュメント作成支援装置,ドキュメント作成支援プログラム及びドキュメント作成支援方法 |
JP6881077B2 (ja) * | 2017-06-22 | 2021-06-02 | 富士通株式会社 | 判別プログラム、判別装置及び判別方法 |
-
1996
- 1996-01-24 JP JP01039996A patent/JP3983313B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09204434A (ja) | 1997-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2477186B1 (en) | Information retrieving apparatus, information retrieving method and navigation system | |
US8346537B2 (en) | Input apparatus, input method and input program | |
US6999918B2 (en) | Method and apparatus to facilitate correlating symbols to sounds | |
JP2006301446A (ja) | 読み生成装置、読み生成方法及びコンピュータプログラム | |
JP2002149643A (ja) | 日本語の表意文字の読み方を予測する方法 | |
JP3983313B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2004326367A (ja) | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 | |
US10614065B2 (en) | Controlling search execution time for voice input facility searching | |
JP2002278579A (ja) | 音声データ検索装置 | |
JPH10269204A (ja) | 中国語文書自動校正方法及びその装置 | |
JP3758241B2 (ja) | 音声情報検索装置 | |
JP5169602B2 (ja) | 形態素解析装置、形態素解析方法及びコンピュータプログラム | |
JPS58123129A (ja) | 仮名漢字変換装置 | |
JP3284976B2 (ja) | 音声合成装置及びコンピュータ可読記録媒体 | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
CN112988955B (zh) | 多语语音识别及主题语意分析方法与装置 | |
JPH11338498A (ja) | 音声合成装置 | |
JP2004053979A (ja) | 音声認識辞書の作成方法及び音声認識辞書作成システム | |
JP2006031099A (ja) | 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム | |
JP2006098552A (ja) | 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法 | |
JPH09325789A (ja) | 音声合成装置及び音声合成装置を備えた情報検索システム | |
JP2001166790A (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 | |
JP4319851B2 (ja) | 読み上げ装置、読み上げ方法及び読み上げ処理用プログラム | |
JP3048793B2 (ja) | 文字変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040908 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050202 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050221 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070704 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110713 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110713 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120713 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120713 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130713 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |