JP2006098552A

JP2006098552A - 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法

Info

Publication number: JP2006098552A
Application number: JP2004282693A
Authority: JP
Inventors: Yuuji Shimizu; 勇詞清水
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-09-28
Filing date: 2004-09-28
Publication date: 2006-04-13

Abstract

【課題】アクセントや音節について習熟していなくとも、音声中間言語文書を容易に生成すること。
【解決手段】利用者から入力された平仮名による文字列の入力処理を行う入力処理部と、平仮名による文字列と対応付けられた利用者に選択可能な漢字交じり表記による候補を表示し、利用者になされた漢字交じり表記を選択する表示選択部と、前記表示選択部により選択された漢字交じり表記と対応付けられた中間言語文字列に基づいて、音声合成するための読みと発音記号を組み合わせた音声中間言語データを生成する音声中間言語生成部と、を備えたこと。
【選択図】図１

Description

本発明は、音声を合成するための中間言語データを生成するため音声合成用記号の音声情報生成装置、音声情報生成プログラム及び音声情報生成方法に関し、入力装置により入力された文字列から中間言語データを生成することに関するものである。

従来、パソコン、ＰＤＡ、組み込みボード上で動作する音声合成技術は、大きく分けて２種類ある。第１の技術は、漢字交じりの一般の文書そのものを音声合成の対象としたもので、音声合成する対象となる文書を形態素解析し、読み、アクセント、ポーズ長情報を各種規則に従って予測し、その情報を元に音声合成を行うＴＴＳ（テキスト・トウ・スピーチ）方式である。

第２の技術は、一般の文書を用いずに、読みやアクセント、ポーズ長情報を特定のフォーマットで表記した音声中間言語文字列を利用者が入力し、この音声中間言語文字列を元に音声合成を行う音声中間言語入力方式である（例えば非特許文献１）。

第１の技術であるＴＴＳ方式は、入力した文書の形態素解析を失敗すると、文書に記載された本来の内容とは異なる解釈が為されてしまうため、期待した読みを出力できない場合がある。このため形態素解析の精度を１００％に出来ない限り、期待した読みを出力できない可能性があるため、絶対に読み誤りが許されない状況、例えばニュースの読み上げや、契約内容の読み上げ等について、ＴＴＳ方式を用いることは現在のところ困難である。

これに対し、音声中間言語方式の場合は、ＴＴＳ方式のように形態素解析を行わず、利用者が読みやアクセント、ポーズ長情報を音声中間言語文字列として直接入力するため読み誤りが発生することはない。

（社）日本電子工業振興協会「ＪＥＩＤＡ―６２−２０００日本語テキスト音声合成用記号の規格」（平成１２年３月、ＪＥＩＤＡ）

しかしながら、音声中間言語文字列を利用者が直接入力するためには、利用者が、言語学的な意味で、アクセントや音節（発音の単位、モーラともいう）等について習熟している必要がある。

例えば、「中国からパンダ」という文に対する音声中間言語は、読みを「ひらがな」で表現し、アクセントがある位置にアクセント記号「＾」、文節の切れ目の軽いポーズを「／」、文末にくるポーズは「．」という仕様の場合、「ちゅ＾うごくから／ぱ＾んだ.」として生成される。この場合、利用者はまず「中国」及び「パンダ」のアクセントの位置を知っている必要があり、さらにアクセント記号の挿入する位置は、最初の音節単位の直後となるが、「ちゅうごく」では、最初の音節単位は「ち」ではなく「ちゅ」となる。

このように、音声中間言語文字列の生成にはかなりのスキルが必要となるため、初心者が読みやアクセント記号を直接入力して音声中間言語文書を生成することは困難であるという問題がある。

本発明は、上記に鑑みてなされたものであって、アクセントや音節について習熟していなくとも、文字列を入力して表示された漢字交じり表記の候補から適した漢字交じり表記を選択することで音声中間言語文書を容易に生成することができる音声情報生成装置、音声情報生成プログラム及び音声情報生成方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、利用者により入力される読みを示す表音文字列と、一般文書に用いられる漢字交じり表記と、該漢字交じり表記の読みと音声合成時に該漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた文字列対応情報を記憶する文字列対応記憶手段と、利用者により入力された前記表音文字列の入力処理を行う入力処理手段と、前記記憶手段に記憶された前記文字列対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手段と、前記記憶手段に記憶された前記文字列対応情報により、前記表示選択手段により選択された前記漢字交じり表記と対応付けられた前記音声中間言語文字列に基づいて、音声合成するための読みと前記語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手段と、を備えたことを特徴とする。

また、本発明は、利用者により入力された読みを示す表音文字列の入力処理を行う入力処理手順と、前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手順と、前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択手順により選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手順と、をコンピュータに実行させる。

また、本発明は、利用者により入力された読みを示す表音文字列の入力処理を行う入力処理ステップと、前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択ステップと、前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択ステップにより選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成ステップと、を有することを特徴とする。

本発明によれば、利用者は読みを入力することで表示された漢字交じり表記の候補から適した候補を選択することで、候補に対応付けられた音声中間言語文字列に基づいて音声中間言語文書が生成されるため、利用者がアクセントや音節について習熟していなくとも、容易に音声合成用中間言語文書の生成することが可能という効果を奏する。

以下に添付図面を参照して、この発明に係る音声情報生成装置、音声情報生成プログラム及び音声情報生成方法を実現する音声中間言語生成装置の最良な実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、第１の実施の形態に係る音声中間言語生成装置１００の構成を示すブロック図である。本図に示すように音声中間言語生成装置１００は、入力処理部１０１と、表示選択部１１０と、表記出力部１０２と、音声中間言語生成部１０３と、音声中間言語出力部１０４と、記憶部１０５とを備える。このような構成を備えることで音声中間言語生成装置１００は、キーボード１５１から入力された平仮名による文字列から、漢字交じりの表記による候補を表示し、利用者から適切な候補を選択されると、この候補に対応した中間言語文字列に基づいて中間言語データを生成することとなる。

また、中間言語データとは、音声合成するための平仮名による読みと音声合成時に正確に発音するためのアクセントやポーズ長等の発音を示す発音記号が記載されたデータをいう。そして中間言語文字列は、中間言語データと同様に、平仮名による読みと発音記号により構成された単語などの文字列をいう。なお、発音記号とは、例えばアクセントを示す「＾」や、１秒のポーズ長を示す「．」や、０．３秒のポーズ長を示す「／」などがある。

入力処理部１０１は、利用者からキーボード１５１を介して入力された文字列や、表示された候補からの選択等に基づいて、入力処理を行う。具体的には、日本語ワープロへの入力のように、キーボード１５１から入力された文字列が、平仮名による文字列である場合は、入力処理を行った後、後述する入力バッファ１１１に出力する。なお、本実施の形態では、キーボード１５１から入力された文字列を処理したが、文字列を入力するための入力装置をキーボード１５１に制限するものではなく、例えばマイクを入力装置として用いて、利用者が読み上げた文字列について処理を行ってもよい。

また入力処理部１０１は、文字列が入力バッファ１１１に蓄積された後、利用者から漢字交じり表記の候補の表示する旨の指示があった場合、その旨を後述する候補表示処理部１１２に出力する。本実施の形態においては、利用者がキーボード１５１のスペースキーを押し下げたか否かにより、候補を表示する指示の有無を判定する。つまり文字列の入力処理が行われたあとで、スペースキーが押し下げられた場合に文字列の候補の表示の指示があったとする。スペースキーが押し下げられず、その代わりにリターンキーが押し下げられた場合、候補の表示は行わず、入力された文字列が、後述する候補選択バッファ１１６に蓄積される。

また、入力処理部１０１は、ＣＲＴ１５２上に漢字交じり表記による候補が表示されている時に、候補に対応する数値が入力された場合、候補が選択されたものとして、後述する表示選択部１１０に入力された数値を出力する。なお、本実施の形態ではキーボード１５１から数値が入力された場合に、候補が選択されたとして処理を行ったが、他にもマウスやカーソルキー等により候補を選択することも考えられる。

記憶部１０５は、単語辞書及び単語繋がり辞書を保持し、後述する候補表示処理部１１２による候補の表示する時や、後述する音声中間言語生成部１０３により音声中間言語データを生成する時に用いられる。

図２は、本実施の形態に用いられる単語辞書の一例を示した図である。本図に示すように、１つの単語について、単語番号と、読み、漢字交じり表記、アクセント情報、品詞、プロパティを対応付けたレコードとして保持する。

図３は、本実施の形態に用いられる単語繋がり辞書の一例を示した図である。本図に示すように、前単語、後単語、単語間のポーズ長、アクセント移動を対応付けたレコードとして保持する。このように構成により、単語繋がり辞書は、単語の繋がりによるアクセント情報やポーズ長に関する予め定められた規則あるいはプロパティ情報を保持することが可能となる。また、単語繋がり辞書で保持する予め定められた規則をアクセント情報やポーズ長に制限するものではなく、適切に音声合成を行うための情報であればよい。

図１に戻り、表示選択部１１０は、ＣＲＴ１５２へ漢字交じり表記の候補を表示し、利用者がなされた漢字交じり表記を選択する。また表示選択部１１０は、入力バッファ１１１、候補表示処理部１１２、候補選択バッファ１１６及び表記表示処理部１１７を備える。

入力バッファ１１１は、入力処理部１０１より入力処理された文字列を蓄積する。なお、利用者の入力により蓄積される文字列は、原則として読みを示す平仮名による文字列とする。

候補表示処理部１１２は、入力バッファ１１１に蓄積された文字列に基づいて、仮名漢字変換される可能性のある候補を取得し、取得した候補をＣＲＴ１５２上に表示するための処理を行う。また候補表示処理部１１２は、候補取得部１１３、候補バッファ１１４及び候補出力部１１５を備える。

候補取得部１１３は、記憶部１０５が記憶する単語辞書から、入力バッファ１１１に蓄積された文字列と読みが一致する漢字交じり表記の組み合わせの全てを候補として取得する。

例えば、入力バッファ１１１に蓄積された文字列が「はしは」であった場合、図２で示された単語辞書に対して検索を行い、読みが一致する単語を組み合わせた候補である、単語番号３＋単語番号１０１、単語番号４＋単語番号１０１、単語番号５＋単語番号１０１を取得する。

候補バッファ１１４は、候補取得部１１３により取得された１つ以上の候補を蓄積する。例えば候補取得部１１３が取得した候補が単語番号３＋単語番号１０１、単語番号４＋単語番号１０１、単語番号５＋単語番号１０１の場合、候補バッファ１１４は（No.3,No.101）,(No.4,No101),(No.5,No.101)を蓄積する。

候補出力部１１５は、候補バッファ１１４に蓄積された候補を、単語辞書により単語番号を漢字交じり表記に変換してＣＲＴ１５２に出力する。

図４は、本実施の形態にかかる音声中間言語生成装置１００の候補出力部１１５により出力された漢字交じり表記による候補の表示の一例を示した図である。具体的には、本図は、候補出力部１１５により、候補バッファ１１４に蓄積された（No.3,No.101）,（No.4,No101),（No.5,No.101）の単語番号を、単語辞書を用いて漢字交じり表記に変換した「箸は」「端は」「橋は」をＣＲＴ１５２に出力した画面である。

候補選択バッファ１１６は、ＣＲＴ１５２に表示された候補から、利用者が選択した漢字交じり表記の単語番号の組み合わせを候補バッファ１１４から選択して蓄積する。なお、単語番号の組み合わせは、括弧を付けたまま候補選択バッファ１１６に蓄積する。

例えば、図４で示した画面例において、利用者はＣＲＴ１５２に表示された候補から、キーボード１５１より「数字＋enter」を入力して候補を選択する。具体的には、「３＋enter」が入力処理部１０１から入力されると「３．橋は」を選択したものと判断し、選択した漢字交じり表記と対応付けられた候補バッファ１１４が保持する単語番号の組み合わせ（No.3,No.101）を選択し、候補選択バッファ１１６に蓄積する。

なお、入力処理部１０１により候補を表示する指示がなかった場合、候補選択バッファ１１６は、入力処理された文字列をそのまま蓄積する。

つまり、候補選択バッファ１１６は、候補による変換を行わずに平仮名による文字列「どうしても」が入力された場合、(どうしても)が蓄積される。つまり（No.3,No.101）のあとに(どうしても)が蓄積された場合、候補選択バッファ１１６に蓄積された文字列は（No.3,No.101）,(どうしても)となる。

表記表示処理部１１７は、候補選択バッファ１１６に蓄積された単語番号を漢字交じり表記に変換してＣＲＴ１５２に表示する処理を行うものである。表記表示処理部１１７が候補選択バッファ１１６に蓄積された単語番号に対応した漢字交じりの表記をＣＲＴ１５２に表示するため、利用者は生成される音声中間言語データの内容の確認が容易となる。なお、表記表示処理部１１７は、候補を表示せずに候補選択バッファ１１６に蓄積された文字列をそのまま表示する処理を行う。

また、候補表示処理部１１２は、漢字交じり候補を表示する処理を行うときに、漢字交じりの候補以外に品詞を表示する等の処理を行ってもよい。これは、品詞が異なる単語が選択されてしまうと、単語間の繋がりが誤って認識されてしまい、後述する音声中間言語生成部１０３において、不適切な発音記号が挿入された中間言語データを生成する可能性があるためである。特に平仮名のみの文字列による候補から選択する場合に有効である。

音声中間言語生成部１０３は、候補選択バッファ１１６に蓄積された単語番号から、単語辞書により単語のアクセント情報、品詞、プロパティを取得し、さらに単語繋がり辞書を用いて単語間の繋がりに基づいたアクセントの変更あるいはプロパティに基づいたアクセントの変更などの処理を行いながら音声中間言語データを生成する。

つまり音声中間言語生成部１０３は、音声中間言語データを生成する時、単語単独あるいは単語の繋がりにより単語辞書に登録している単語の読みやアクセント情報を変更する必要がある。またポーズ長は単語単独あるいは単語の繋がりにより決定されることもあるため、音声中間言語生成部１０３は、中間言語データを生成する時にポーズ長を示す記号を挿入する必要がある。このため音声中間言語生成部１０３は、単語繋がり辞書を用いて、読みやアクセント情報の変更や、ポーズ長を示す記号の挿入を行う。

例えば、候補バッファ１１４に蓄積された単語番号が(No.3,No.101),(No.300,No.202,No.205,No.502)の場合、まず、音声中間言語生成部１０３は、No.3は名詞であるため自立語、No.101は係助詞であるため付属語と判断し、単語の繋がりが自立語と付属語である場合の規則を、単語繋がり辞書から取得する。図３で示された単語繋がり辞書では、前にある単語が自立語で、後にある単語が付属語の場合、単語間のポーズについて指定がなく、アクセント移動についても指定がない。このため、音声中間言語生成部１０３は、原則通りであればNo.3,No.101から単語辞書によるアクセント情報に従い「はし＾は」という中間言語文字列を生成する。しかし、No.101のプロパティ情報に「わ」と読み替える旨定められているため、音声中間言語生成部１０３は、No.3,No.101から「はし＾わ」という中間言語文字列を生成する。これは日本語として係助詞の「は」は「わ」と読む決まりによるものである。このように音声中間言語生成部１０３は単語辞書による単語のプロパティ情報による変更も行う。

次に、音声中間言語生成部１０３は、No.101とNo.300は係助詞「は」と動詞であるため、単語の繋がりが係助詞「は」と動詞である場合の規則を、単語繋がり辞書から取得する。単語繋がり辞書では、係助詞「は」と動詞である場合、単語間のポーズとして「／」が指定されている。したがって音声中間言語生成部１０３は、ポーズ長を示す「／」を挿入して、No.300の読みと結合し、「はし＾わ／わたら」という中間言語文字列を生成する。なお、No.101とNo.300は「付属語」と「自立語」でもあるため、前にある単語が付属語で、後にある単語が自立語である場合の規則を単語繋がり辞書で検索して一致するものが無いことを確認した後で、さらに細かい条件である'単語の繋がりが係助詞「は」と動詞'である場合の規則を検索することにしても良い。また、これとは逆に、細かい条件による規則を検索し、一致するものがない場合により大まかな条件による規則を検索することしても良い。

そして、音声中間言語生成部１０３は、No.300とNo.202は自立語と付属語であるので、単語繋がり辞書に基づいてポーズ長は挿入せずに結合し、No.202とNo.205は付属語と付属語であるので単語繋がり辞書に基づいてポーズ長を挿入せずに結合し、No.401は単語繋がり辞書のプロパティに従って、ポーズ長１秒を意味する「．」を挿入する。そして音声中間言語生成部１０３は、(No.3,No.101),(No.300,No.202,No.205,No.502)から「はし＾わ／わたらな＾かった．」という中間言語データを生成する。

他に候補バッファ１１４に蓄積された単語番号が（No.1,No.401）の場合、音声中間言語生成部１０３は、No.1は名詞であり、No.401は接尾であるため、単語の繋がりが名詞と接尾である場合の規則を、単語繋がり辞書から取得する。単語繋がり辞書では、前にある単語が名詞で、後にある単語が接尾の場合、単語間のポーズについて指定はないが、アクセント移動についてはプロパティ情報に従う旨が指定されている。このため、No.1の単語のアクセントは「ちゅ＾うごく」と登録されているにもかかわらず、No.401のプロパティで定めた規則「直前最後にアクセント」に従い変更されることとなる。つまり音声中間言語生成部１０３は、原則通りであれば「ちゅ＾うごくじん」となるがプロパティ情報に定められた規則により「ちゅうごく＾じん」となる。この規則は、日本語では「人」という接尾が直前の名詞の末尾にアクセント移動を起こすという性質を持っているために規定した規則であり、音声中間言語生成部１０３はこの規則に従って中間言語文字列を生成する。

つまり、音声中間言語生成部１０３は、候補選択バッファ１１６に蓄積された全ての単語番号から単語辞書にアクセント情報として保持されている中間言語文字列を取得し、取得した中間言語文字列に対して単語繋がり辞書を用いて適切な読みやアクセントに変更する処理を行い、変更する処理が行われた中間言語文字列を全て結合して中間言語データを生成する。

なお、本実施の形態においては、音声中間言語生成部１０３が、名詞が自立語であることや係助詞が付属語であることを判断しているが、別途テーブルにより名詞が自立語である旨等を対応付けて保持してもよい。

音声中間言語出力部１０４は、音声中間言語生成部１０３により生成された音声中間言語データをファイルとして出力する。この出力されたファイルを音声の合成を行う装置に入力することで、音声の合成が可能となる。

表記出力部１０２は、候補選択バッファ１１６に蓄積された単語番号を、単語辞書を用いて漢字交じり表記に変換し、変換した漢字交じりの表記による文書データを表記データとして出力する。表記出力部１０２を備えることで、音声中間言語出力部１０４により出力された音声中間言語データに対応した漢字交じりの表記による文書データが出力されるため、利用者は音声中間言語データの内容の確認が容易となる。

また音声中間言語生成装置１００において、表記表示処理部１１７により漢字交じり表記がＣＲＴ１５２上に表示されている場合、利用者が表示されている漢字交じり表記から、単語の削除や変更などの編集を行うことが考えられる。この場合、利用者による漢字交じり表記の修正に対応させて候補選択バッファ１１６に蓄積された単語番号を修正することで、出力される中間言語データを編集することが可能となる。他にもワープロで用いられる編集手段を音声中間言語生成装置１００に適用することで、様々な編集手段を容易に類推することが可能である。例えば読みと漢字交じり表記と品詞情報等を単語辞書に登録する単語登録などが考えられる。

次に、以上により構成された本実施の形態に係る音声中間言語生成装置１００において入力された文字列から中間言語データを出力するまでの処理について説明する。図５は本実施の形態にかかる音声中間言語生成装置１００において入力された文字列から中間言語データを出力するまでの全体処理を示すフローチャートである。

入力処理部１０１は、利用者により入力された文字列の処理を行う（ステップＳ４０１）。なお、入力処理された文字列は平仮名であるものとする。そして入力バッファ１１１は、入力処理部１０１により処理が行われた文字列を蓄積する（ステップＳ４０２）。

次に、入力処理部１０１は、利用者から入力処理が行われた文字列の候補を表示する指示があるか否か判定する（ステップＳ４０３）。

入力処理部１０１により候補の表示の指示があったと判定した場合（ステップＳ４０３：Ｙｅｓ）、候補取得部１１３は、単語辞書に対して入力処理が行われた文字列の読みに基づいて検索を行い、入力バッファ１１１に蓄積された平仮名による文字列と読みが一致する単語の組み合わせによる候補を取得する（ステップＳ４０４）。そして候補バッファ１１４は、候補取得部１１３により取得された候補を蓄積する（ステップＳ４０５）。

次に、候補出力部１１５は、候補バッファ１１４に蓄積された候補をＣＲＴ１５２上に出力する（ステップＳ４０６）。そして候補選択バッファ１１６は、ＣＲＴ１５２に表示された候補から利用者が選択した漢字交じり表記に対応した単語番号を蓄積する（ステップＳ４０７）。

入力処理部１０１により候補を表示する指示がなかったと判定した場合（ステップＳ４０３：Ｎｏ）、候補選択バッファ１１６は、入力処理された文字列を蓄積する（ステップＳ４０８）。

そして表記表示処理部１１７は、候補選択バッファ１１６に蓄積された単語番号を漢字交じり表記に変換してＣＲＴ１５２上に出力する（ステップＳ４０９）。なお、候補を表示する指示がなかったため、候補選択バッファ１１６が入力された文字列をそのまま蓄積している場合は、入力された文字列を表示する。

そして入力処理部１０１により入力処理が終了したか否か判定される（ステップＳ４１０）。本実施の形態においては、ＥＳＣキーが押し下げられた場合に、入力処理が終了したと判定する。ＥＳＣキーが押し下げられなかった場合は、入力処理が終了していないと判定され（ステップＳ４１０：Ｎｏ）、ステップＳ４０１の文字列の入力処理から再び開始する。

入力処理が終了したと判定された場合（ステップＳ４１０：Ｙｅｓ）、音声中間言語生成部１０３は、候補選択バッファ１１６に蓄積された単語番号あるいは文字列に基づいて、音声中間言語データを生成する（ステップＳ４１１）。なお、文字列を蓄積している場合は、そのまま音声中間言語データとして生成する。

そして、音声中間言語出力部１０４は、音声中間言語生成部１０３により生成された音声中間言語データをファイルとして出力する（ステップＳ４１２）。

なお、本実施の形態の処理手順を、上述した全体処理手順に制限するものではなく、例えば、最後に中間言語データを出力するだけではなく、中間結果として音声中間言語データを出力しても良い。

図６は、本実施の形態にかかる音声中間言語生成装置１００のハードウェア構成を示した図である。本実施の形態にかかる音声中間言語生成装置１００は、制御装置となるＣＰＵ（Central Processing Unit）５０１と、記憶装置であるＲＯＭ（Read Only Memory）５０２やＲＡＭ(Randam Access Memory)５０３と、ＨＤＤ(Hard Disk Drive)、ＣＤドライブ装置などの外部記憶装置５０６と、ディスプレイ装置などの表示装置５０７と、キーボードやマウスなどの入力装置５０４と、外部と通信可能するための通信インターフェース５０５と、それらを接続するバス５０８を備えており、通常のコンピュータを利用したハードウェア構成となっている。

本実施形態の音声中間言語生成装置１００で実行される音声中間言語生成プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態の音声中間言語生成装置１００で実行される音声中間言語生成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態の音声中間言語生成装置１００で実行される音声中間言語生成プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

また、本実施形態の音声中間言語生成プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施の形態にかかる音声中間言語生成装置１００で実行される音声中間言語生成プログラムは、上述した各部（入力処理部１０１、表示選択部１１０、表記出力部１０２、音声中間言語生成部１０３、音声中間言語出力部１０４）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）５０１が上記記憶媒体から音声中間言語生成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、入力処理部１０１、表示選択部１１０、表記出力部１０２、音声中間言語生成部１０３、音声中間言語出力部１０４が主記憶装置上に生成されるようになっている。

また、本実施の形態にかかる記憶部１０５に記憶される単語辞書では、動詞「渡ら」、助動詞「なかっ」等の活用のある単語について、活用が違うものは別の単語として扱っている。しかし、動詞などの活用語尾は規則的に変化を持たせることが可能である。そこで単語辞書に、活用語尾を除いた見出しのみ、例えば「わた；渡」のみ登録し、候補取得部１１３において、単語辞書から「わた；渡」を取得して活用語尾を展開したもの「わたら；渡ら」「わたり；渡り」「わたる；わたる」「わたれ；渡れ」「わたろ；わたろ」等と、入力された文字列と比較するなどの処理手順も考えられる。

本実施の形態にかかる音声中間言語生成装置１００により出力された音声中間言語データを音声合成装置に入力することで、漢字交じり表記などに基づいて適切な読みと発音記号を付加されているので期待した語調により音声を合成することが可能となる。

また、音声中間言語生成装置１００を使用することで、利用者はアクセントや音節に習熟していなくとも、ワープロの仮名漢字変換と同様の処理手順により、音声中間言語データを生成することが可能となる。

また、従来は、読み上げ原稿を汎用ワープロで作成し、その後、それに対応する音声中間言語データを生成しなければならなかったが、音声中間言語生成装置１００が音声中間言語出力部１０４と表記出力部１０２を備えることにより、読み上げ原稿を書き上げると同時に、期待する読みがついた音声中間言語データを生成することが可能となる。

例えば、現在、カーナビで、インターネットのＷＥＢ画面上による、記事原稿表示と、表示原稿に対する読み上げを行うサービスがなされている。この場合、ＷＥＢに表示されている原稿は、専門のライターが作成し、これに対する音声中間言語データの生成は別作業で行っている。しかし、音声中間言語生成装置１００により、ライターが原稿を書き上げた時点で音声中間言語データの生成も完了することとなり、音声中間言語生成の作業によるコストの削減及び音声中間言語データの生成までの時間の短縮が可能となる。

（第２の実施の形態）
第１の実施の形態では、音声中間言語生成装置１００は、入力された文字列の読みと、単語辞書から単語の組み合わせによる読みが一致した候補を表示することとした。しかしながら、第１の実施の形態における音声中間言語生成装置１００では、利用者はアクセントを自由に設定することが出来ない。従って第２の実施の形態に係る音声中間言語生成装置は、入力された文字列に対して、さらにアクセントを付加した複数の候補を表示することとした。

図７は、第２の実施の形態にかかる音声中間言語生成装置６００の構成を示すブロック図である。上述した第１の実施の形態にかかる音声中間言語生成装置１００とは、表示選択部１１０とは処理が異なる表示選択部６１０に変更され、音声中間言語生成部１０３とは処理が異なる音声中間言語生成部６０２に変更され、そして候補音声出力部６０１が追加されている点で異なる。以下の説明では、上述した実施の形態１と同一の構成要素には同一の符号を付してその説明を省略している。

表示選択部６１０は、ＣＲＴ１５２へ漢字交じり表記及びアクセントを付けたカタカナ表記の候補を表示し、利用者がなされた漢字交じり表記又はアクセントを付けたカタカナ表記を選択する。また表示選択部６１０は、入力バッファ１１１、候補表示処理部６１１、候補選択バッファ６１３及び表記表示処理部１１７を備える。

候補表示処理部６１１は、入力バッファ１１１に蓄積された平仮名による文字列に基づいて、単語辞書から仮名漢字変換される可能性のある候補を取得し、さらに平仮名の文字列にアクセントを示す記号’＾’を付けた複数の候補を生成し、これら候補をＣＲＴ１５２上に表示する処理を行う。また候補表示処理部６１１は、候補取得部１１３、候補生成部６１２、候補バッファ１１４及び候補出力部１１５を備える。

候補生成部６１２は、入力バッファ１１１に蓄積された平仮名による文字列に基づいて、それぞれ異なるアクセントを付加した複数の候補を生成して、候補バッファ１１４に蓄積する。候補生成部６１２を備えることにより、入力された平仮名の文字列に対して、異なるアクセントを付けた複数の候補の生成が可能となる。

具体的には、第１の実施の形態では、入力バッファ１１１に蓄積された平仮名の文字列が「かなりすき」であった場合、ＣＲＴ１５２上には「１．かなり好き」としか表示されず、利用者が‘１’を選択すると、中間言語データには「か＾なりすき」と出力される。しかし、第１の実施の形態にかかる音声中間言語生成装置１００では、２００４年現在の若者の東京方言のようなアクセント「かなりすき」と出力することが出来ない。

しかし第２の実施の形態では、入力バッファ１１１に蓄積された平仮名による文字列が「かなりすき」であった場合、候補取得部１１３により取得された候補「１．かなり好き」以外に、候補生成部６１２が生成した候補が候補バッファ１１４に蓄積され、候補出力部１１５によりＣＲＴ１５２上に出力される。

図８は、本実施の形態にかかる音声中間言語生成装置６００の候補出力部１１５により出力された候補の表示の一例を示した図である。本図で示すように、漢字交じりの候補「１．かなり好き」の候補の他に、「２．カナリスキ」「３．カ＾ナリスキ」のように、入力された文字列に対してアクセント記号を付けたカタカナによる文字列を追加して表示する。なお、本実施の形態においては、表示する際にカタカナで表示することとしたが、これは漢字交じり候補と区別を、利用者が容易に判断できるようにするためである。

図７に戻り、候補音声出力部６０１は、候補出力部１１５によりＣＲＴ１５２上により候補が表示する時に、それぞれの候補を音声で順次出力する。この音声出力により、利用者は実際のアクセントを確認して候補を選択することが可能となる。

つまり、候補生成部６１２により生成された候補の表示では、アクセント記号とカタカナの組み合わせによる文字列のため、これらの候補から選択する際に、利用者がアクセント等の知識が必要になる。そこで候補音声出力部６０１は、候補として表示された文字列について音声合成して出力することとした。これにより利用者はアクセント等の知識がなくとも、最適なアクセント記号とカタカナの組み合わせによる文字列の選択が可能となった。なお、候補の音声出力する候補音声出力部６０１を、第１の実施の形態にかかる音声中間言語生成装置１００に備えることにしても良い。

そして、候補選択バッファ６１３は、ＣＲＴ１５２に表示された候補から、利用者が漢字交じり候補を選択した場合は、選択した候補の単語番号を蓄積し、アクセントを付けたカタカナによる文字列を選択した場合は、選択した候補のアクセントを付けた中間言語文字列を蓄積する。

具体的には利用者が‘２’を選択した場合には候補選択バッファ６１３には（かなりすき）が、‘３’を選択した場合には候補選択バッファ６１３には（か＾なりすき）が蓄積される。なお、候補として表示する際はカタカナだったが、蓄積する際には平仮名となる。

音声中間言語生成部６０２は、これらアクセント付きの文字列が候補選択バッファ６１３に蓄積されている場合は、第１の実施の形態で示した単語繋がり辞書を用いた処理等を行わず、そのまま音声中間言語データとして生成する。なお、単語番号が候補選択バッファ６１３に蓄積されている場合は、第１の実施の形態と同様の処理を行う。

本実施の形態による音声中間言語生成装置６００により、利用者は表示された候補を選択することで、利用者の所望した語調による音声中間言語データの生成が容易となる。

本実施の形態においては、候補として読みとアクセントの組み合わせによる候補を追加して表示したが、他にポーズ長等との組み合わせにより候補をさらに追加して表示するなどによる実施の形態は容易に考えられる。

なお、本実施の形態にかかる候補音声出力部６０１は、表示された候補を順次、音声合成して出力することとしたが、利用者が指定した候補を音声出力することにしても良い。

（第３の実施の形態）
第２の実施の形態は、利用者により入力された文字列が読み情報である場合に音声合成用のアクセント等を付加した中間言語文字列を生成していた。しかし、一般的な日本語ワープロなどでは数字や記号、アルファベットの入力する場合がある。このため、第３の実施の形態による音声中間言語生成装置は、平仮名による読み情報以外の入力文字列について読みを付加することとした。

図９は、第３の実施の形態にかかる音声中間言語生成装置８００の構成を示すブロック図である。上述した第２の実施の形態に係る音声中間言語生成装置６００とは、入力処理部１０１とは処理が異なる入力処理部８０１に変更され、表示選択部６１０とは処理が異なる表示選択部８１０に変更され、音声中間言語生成部６０２とは処理が異なる音声中間言語生成部８０２に変更され、記憶部１０５とは記憶するテーブルが異なる記憶部８０３に変更された点で異なる。以下の説明では、上述した実施の形態２と同一の構成要素には同一の符号を付してその説明を省略している。

入力処理部８０１は、第２の実施の形態にかかる入力処理部１０１による入力処理の他に、数値、記号、アルファベットが入力処理された場合、これらを切り分けてから入力バッファ１１１に蓄積する。

具体的には「ごうけいは１０００えんです」と入力された場合、入力処理部８０１は、「ごうけいは／１０００／えんです」と切り分けてから、入力バッファ１１１に蓄積する。

他には、例えば「５０ｋｍ」と入力された場合、入力処理部８０１は、「５０／ｋｍ」と切り分けてから、入力バッファ１１１に蓄積する。

他には、例えば「ツリー（tree）構造」」と入力された場合、入力処理部８０１は、「ツリー／(／tree／)／構造」と切り分けてから、入力バッファ１１１に蓄積する。

表示選択部８１０は、入力処理された文字列が数値、記号、アルファベットなどの平仮名以外の文字列の場合は候補として表示するか否かに関わらず、そのまま候補選択バッファ８１１に蓄積させる。また、入力された文字列が平仮名による文字列の場合は第２の実施の形態の表示選択部６１０と同様の処理を行う。

候補選択バッファ８１１は、入力処理された文字列が数値、記号、アルファベットなどの平仮名以外の文字列の場合でも、入力バッファ１１１に蓄積された文字列をそのままに蓄積する。他の入力処理された文字列については、第２の実施の形態の候補選択バッファ６１３と同様の態様により蓄積する。

音声中間言語生成部８０２は、数値、記号、アルファベットなどの平仮名以外の文字列が候補選択バッファ８１１に蓄積されている場合は、入力文字列に読みを付与する処理を行い、音声中間言語データを生成する。なお、単語番号やアクセント付き文字列が候補選択バッファ８１１に蓄積されている場合は、第２の実施の形態と同様の処理を行う。

まず、候補選択バッファ８１１に蓄積された文字列がアラビア数字の連続の場合は、音声中間言語生成部８０２は、数字という品詞を文字列とみなし、後述する処理により読み及びアクセントを付与する。数字の読み及びアクセントの付け方については、様々な方法が考えられるが、本実施の形態では、数字の読み及びアクセントを保持する数字テーブルを記憶部８０３にあらかじめ記憶することとし、音声中間言語生成部８０２は、この数字テーブルから読み及びアクセントを取得する。また、数字テーブルを桁数毎に複数のテーブルを分けることとする。

具体的には、記憶部８０３は、数字テーブルとして４桁毎に分けた複数のテーブルを記憶する。数字テーブルは、まず下１桁から４桁までの範囲、つまり「０〜９９９９」の読み及びアクセントを保持するテーブルと、そして下５桁から８桁までの範囲、つまり「１００００〜９９９９００００」の読み及びアクセントを保持するテーブルと、下９桁から１２桁までの範囲、つまり「１００００００００〜９９９９００００００００」の読み及びアクセントを保持するテーブルと、下１３桁から１６桁までの範囲、つまり「１００００００００００００〜９９９９００００００００００００」の読み及びアクセントを保持するテーブルと、下１７桁から２０桁までの範囲、つまり「１００００００００００００００００〜９９９９００００００００００００００００」の読み及びアクセントを保持するテーブルとする。なおテーブルの数は、音声中間言語データとして出力する必要のある桁数に応じて増加あるいは減少させてもよい。

図１０―１は、下１桁から４桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。そして図１０―２は、下５桁から８桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。また、同様の保持方法により、下９桁から１２桁までの範囲や下１３桁から１６桁までの範囲の読み及びアクセントをテーブルとして保持する。

そして、音声中間言語生成部８０２は、アラビア数字の桁数を確認し、桁数に対応する読み及びアクセントをあらかじめ生成した数字の読み及びアクセントを記憶部８０３で保持するテーブルから取得する。

例えば、候補選択バッファ８１１に蓄積された文字列が「９９９９０１００」の場合、音声中間言語生成部８０２は、「９９９９００００」と「１００」に切り分け、それぞれの読み及びアクセントを、対応するテーブルから取得する。音声中間言語生成部８０２は、数字テーブルから「きゅうせ＾ん／き＾ゅ―ひゃく／き＾ゅーじゅー／きゅーま＾ん」と「ひゃく」を取得するので、これらを組み合わせて「きゅうせ＾ん／き＾ゅ―ひゃく／き＾ゅーじゅー／きゅーま＾ん／ひゃく」という中間言語文字列を生成する。

他の例としては、候補選択バッファ８１１に蓄積された文字列が「３２３０３２３」の場合、音声中間言語生成部８０２は、「３２３００００」と「３２３」に切り分け、それぞれの読み及びアクセントを、対応するテーブルから取得する。音声中間言語生成部８０２は、数字テーブルから「さん＾びゃく／に＾じゅう／さんま＾ん」と「さ＾んびゃく／に＾じゅうさん」を取得するので、これらを組み合わせて「さ＾んびゃく／に＾じゅう／さんま＾ん／さ＾んびゃく／に＾じゅうさん」という中間言語文字列を生成する。

また、候補選択バッファ８１１に蓄積された数字の連続による文字列として、アラビア数字の連続の場合を説明したが、例えば「１，０００」など、桁区切り記号を含めた数字の文字列を候補選択バッファ８１１に蓄積される場合もある。この場合、音声中間言語生成部８０２は、桁区切り記号を削除した数字の連続による文字列に対して、上述した処理を行い、中間言語文字列を生成すればよい。

また、候補選択バッファ８１１に蓄積された数字の連続による文字列が小数を有する場合もある。このため記憶部８０３は、小数の読み及びアクセントを保持する数字テーブルを記憶し、音声中間言語生成部８０２が、文字列が数字の連続であり小数を有すると判断した場合、小数の読み及びアクセントを保持する数字テーブルから読み及びアクセントを取得することとする。次に、小数を有する数字の連続による文字列の読み及びアクセントを保持する数字のテーブルを説明する。

図１１―１は、小数点を含む整数１桁から４桁までの範囲の読み及びアクセントを保持する数字テーブルを示した図である。そして図１１―２は、小数点以下の１文字および２文字に対応する読み及びアクセントを保持する数字テーブルを示した図である。これらの数字テーブルを記憶部８０３で記憶することで、小数を含む数字の連続による文字列について中間言語文字列の生成が可能となる。

候補選択バッファ８１１に蓄積された小数を含む数字の連続による文字列の場合、音声中間言語生成部８０２は、小数点より前の４桁については図１１−１で示した数字テーブルから読み及びアクセントを取得し、小数点以下の部分は、基本的に数字を２文字ずつに区切って図１１―２で示した数字テーブルから取得し、最後に１文字残った場合には、１文字の数字の読み及びアクセントを図１１−２で示した数字テーブルから取得する。

例えば、候補選択バッファ８１１に蓄積された文字列が「１．２２４」の場合、音声中間言語生成部８０２は、「１．」、「２２」と「４」に切り分け、それぞれの読み及びアクセントを、対応する数字テーブルから取得する。音声中間言語生成部８０２は、数字テーブルから「い＾ってん」、「にーに＾―」と「よ＾ん」を取得するので、これらを組み合わせて「い＾ってんにーに＾― よ＾ん」という中間言語文字列を生成する。なお、取得した文字列を組み合わせる際に、それぞれの文字列の間にポーズ長記号をはさんでも良い。

また、読みを付けた数字の連続による文字列の品詞を、数字という品詞を持つ単語として扱うため、単語繋がり辞書にポーズやアクセント移動あるいは読みの変更についての規則を単語繋がり辞書に保持させることで、音声中間言語生成部８０２は、上述した１つあるいは複数の数字による文字列に対応する読みを取得したあと、ポーズの挿入やアクセント移動を行うことが可能となる。

例えば、図３で示したような単語繋がり辞書の列に“読み変更”を加えたテーブルにおいて、“前単語”に“末尾が「いち」と読む数字”を、“後単語”に“「杯」数詞接尾”に対応付けて、“読み変更”として“いっぱい”と保持する。これによりＣＲＴ１５２上に、漢字交じりの候補として表示された「１杯」を選択した場合、音声中間言語生成部８０２は「いっぱい」という中間言語文字列の生成が可能となる。

次に、候補選択バッファ８１１に蓄積された文字列がアルファベットの場合、音声中間言語生成部８０２は、後述する処理により読み及びアクセントを付与する。

図１２は、アルファベットの連続について読みとアクセントを保持するアルファベットテーブルを示した図である。本図に示されたように、アルファベット、アクセント情報、品詞、プロパティを対応付けて保持する。

そして候補選択バッファ８１１に蓄積された文字列がアルファベットの連続の場合、音声中間言語生成部８０２は、蓄積されていたアルファベットの連続による文字列と、図１２で示したアルファベットテーブルが保持している“アルファベット”の列の文字列を比較し、一致するレコードがあった場合、レコードに保持されていた読み及びアクセント、品詞、プロパティを用いて中間言語文字列を生成する。取得した品詞やプロパティは、第１の実施の形態と同様の処理に用いることとする。

アルファベットテーブルに一致するレコードがなかった場合、音声中間言語生成部８０２は、アルファベットの各文字に対応した読み及びアクセント情報をつなげて中間言語文字列を生成する。なお、各アルファベットの読み及びアクセント情報はアルファベット文字テーブルとして記憶部８０３が記憶することとする。このアルファベット文字テーブルは、例えば"a"は"えー"と対応付けて保持している。

そして候補選択バッファ８１１に蓄積された文字列が"abc"であり、上述したアルファベットテーブルに一致するレコードがなかった場合、音声中間言語生成部８０２は、アルファベット文字レコードからアルファベットに対応する読み及びアクセントを取得し、「えーびーしー」という中間言語文字列を生成する。

また、記号の文字に対応した読み及びアクセント情報を記号テーブルに保持する。そして候補選択バッファ８１１が文字列として記号を蓄積していた場合は、音声中間言語生成部８０２は、この記号テーブルが保持する記号と候補選択バッファ８１１が蓄積していた記号が一致した場合には、記号テーブルの一致したレコードから読み及びアクセントを取得して、中間言語文字列を生成する。なお、“、”、“。”、“「”など、読みを付けたくない記号は、記号テーブルに読みを付けないようにすればよい。なお、記号テーブルにおいて、記号１文字で記号という品詞の単語として扱う。

本実施の形態では、小数点以下がない数字あるいは小数点のある数字の整数部分は、桁読みを付けるようにしているが、上記小数点以下の読みを付ける要領で、読みを付ける処理も考えられる。つまり、候補選択バッファ８１１に蓄積された文字列が「９２１」ならば、音声中間言語生成部８０２は、「きゅーに＾ーいち」という中間言語文字列を生成する処理である。また、桁を考慮した読みにするか否かを、入力処理した後、候補として表示して利用者に選択させることも考えられる。

また、本実施の形態では、数字に読み及びアクセントを付ける方法として、４桁毎に数字の読み及びアクセント情報をテーブルに持つこととしたが、他の方法としてテーブルに持たせず、一定の規則により読み及びアクセントを付ける等が考えられる。

同様に数字テーブルを用いて、小数点以下の中間言語文字列を生成したが、数字テーブルを用いずに規則によって「いってん」を「い＾ってん」や「にに」を「にーに＾―」と書き換える等も考えられる。

本実施の形態では、入力処理された文字列に読み以外のアラビア数字、アルファベット、記号が混じっていた場合、音声中間言語生成部８０２は、上述した処理を行うことにより、品詞、読み、アクセントを取得することが可能となる。これにより、キーボードから数字など読み以外の入力をした場合でも、適切な音声合成を行う中間言語データの生成が可能となる。

以上のように、本発明に係る音声情報生成装置、音声情報生成プログラム及び音声情報生成方法は、音声合成用を行うための技術として有用であり、特に利用者が入力装置に介した入力により音声中間言語データを生成する技術において有用である。

第１の実施の形態に係る音声中間言語生成装置の構成を示すブロック図である。第１の実施の形態に係る音声中間言語生成装置の記憶部で記憶される単語辞書の一例を示した図である。第１の実施の形態に係る音声中間言語生成装置の記憶部で記憶される単語繋がり辞書の一例を示した図である。第１の実施の形態に係る音声中間言語生成装置の候補出力部により出力された漢字交じり表記による候補の表示の一例を示した図である。第１の実施の形態に係る音声中間言語生成装置で入力された文字列から中間言語データを出力するまでの全体処理を示すフローチャートである。第１の実施の形態に係る音声中間言語生成装置のハードウェア構成を示した図である。第２の実施の形態に係る音声中間言語生成装置の構成を示すブロック図である。第２の実施の形態に係る音声中間言語生成装置の候補出力部により出力された候補の表示の一例を示した図である。第３の実施の形態に係る音声中間言語生成装置の構成を示すブロック図である。第３の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、数字の下１桁から４桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。第３の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、数字の下５桁から８桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。第３の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、小数点を含む整数１桁から４桁までの範囲の読み及びアクセントを保持する数字テーブルを示した図である。第３の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、小数点以下の１文字および２文字に対応する読み及びアクセントを保持する数字テーブルを示した図である。第３の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、アルファベットについて読みとアクセントを保持するアルファベットテーブルを示した図である。

符号の説明

１００、６００、８００音声中間言語生成装置
１０１、８０１入力処理部
１０２表記出力部
１０３、６０２、８０２音声中間言語生成部
１０４音声中間言語出力部
１０５、８０３記憶部
１１０、６１０、８１０表示選択部
１１１入力バッファ
１１２、６１１候補表示処理部
１１３候補取得部
１１４候補バッファ
１１５候補出力部
１１６、６１３、８１１候補選択バッファ
１１７表記表示処理部
１５１キーボード
１５２ＣＲＴ
５０１ＣＰＵ
５０２ＲＯＭ
５０３ＲＡＭ
５０４入力装置
５０５通信インターフェース
５０６外部記憶装置
５０７表示装置
５０８バス
６０１候補音声出力部
６１２候補生成部

Claims

利用者により入力される読みを示す表音文字列と、一般文書に用いられる漢字交じり表記と、該漢字交じり表記の読みと音声合成時に該漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた文字列対応情報を記憶する文字列対応記憶手段と、
利用者により入力された前記表音文字列の入力処理を行う入力処理手段と、
前記記憶手段に記憶された前記文字列対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手段と、
前記記憶手段に記憶された前記文字列対応情報により、前記表示選択手段により選択された前記漢字交じり表記と対応付けられた前記音声中間言語文字列に基づいて、音声合成するための読みと前記語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手段と、
を備えたことを特徴とする音声情報生成装置。
前記入力処理手段により入力された前記表音文字列により、前記表音文字列の読みと前記語調情報を組み合わせた該音声中間言語文字列による候補を生成する候補生成手段と、をさらに備え、
前記表示選択手段は、さらに、前記候補生成手段により生成された候補を前記入力処理手段により入力された前記表音文字列に対応付けられた候補として表示し、表示された前記候補から利用者にされた前記音声中間言語文字列を選択すること
を特徴とする請求項１に記載の音声情報生成装置。
前記表示選択手段により表示された候補を音声出力する音声出力手段と、をさらに備えたことを特徴とする請求項１または２に記載の音声情報生成装置。
１つあるいは複数の、音素を示す文字、数字、記号を含む特殊文字列と、前記音声中間言語文字列とを対応付けた特殊中間言語対応情報を記憶する特殊中間言語対応記憶手段と、をさらに備え、
前記入力処理手段は、さらに、前記特殊文字列の入力処理を行い、
前記中間言語生成手段は、さらに、前記特殊中間言語対応情報により、前記入力処理手段により入力された前記特殊文字列と対応付けられた前記音声中間言語文字列に基づいて、前記音声中間言語文書を生成すること
を特徴とする請求項１〜３のいずれか一つに記載の音声情報生成装置。
前記表示選択手段により選択された前記漢字交じり表記に基づいて、漢字交じりの表記による文書を出力する表記出力手段を、さらに備えたことを特徴とする請求項１〜４のいずれか一つに記載の音声情報生成装置。
前記語調情報は、アクセント、ポーズ長を示した記号であることを特徴とする請求項１〜５のいずれか１つに記載の音声情報生成装置。
利用者により入力された読みを示す表音文字列の入力処理を行う入力処理手順と、
前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手順と、
前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択手順により選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手順と、
をコンピュータに実行させる音声情報生成プログラム。
利用者により入力された読みを示す表音文字列の入力処理を行う入力処理ステップと、
前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択ステップと、
前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択ステップにより選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成ステップと、
を有することを特徴とする音声情報生成方法。