JP2006098552A - 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法 - Google Patents

音声情報生成装置、音声情報生成プログラム及び音声情報生成方法 Download PDF

Info

Publication number
JP2006098552A
JP2006098552A JP2004282693A JP2004282693A JP2006098552A JP 2006098552 A JP2006098552 A JP 2006098552A JP 2004282693 A JP2004282693 A JP 2004282693A JP 2004282693 A JP2004282693 A JP 2004282693A JP 2006098552 A JP2006098552 A JP 2006098552A
Authority
JP
Japan
Prior art keywords
intermediate language
character string
speech
input
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004282693A
Other languages
English (en)
Inventor
Yuuji Shimizu
勇詞 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004282693A priority Critical patent/JP2006098552A/ja
Publication of JP2006098552A publication Critical patent/JP2006098552A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】アクセントや音節について習熟していなくとも、音声中間言語文書を容易に生成すること。
【解決手段】 利用者から入力された平仮名による文字列の入力処理を行う入力処理部と、平仮名による文字列と対応付けられた利用者に選択可能な漢字交じり表記による候補を表示し、利用者になされた漢字交じり表記を選択する表示選択部と、前記表示選択部により選択された漢字交じり表記と対応付けられた中間言語文字列に基づいて、音声合成するための読みと発音記号を組み合わせた音声中間言語データを生成する音声中間言語生成部と、を備えたこと。
【選択図】 図1

Description

本発明は、音声を合成するための中間言語データを生成するため音声合成用記号の音声情報生成装置、音声情報生成プログラム及び音声情報生成方法に関し、入力装置により入力された文字列から中間言語データを生成することに関するものである。
従来、パソコン、PDA、組み込みボード上で動作する音声合成技術は、大きく分けて2種類ある。第1の技術は、漢字交じりの一般の文書そのものを音声合成の対象としたもので、音声合成する対象となる文書を形態素解析し、読み、アクセント、ポーズ長情報を各種規則に従って予測し、その情報を元に音声合成を行うTTS(テキスト・トウ・スピーチ)方式である。
第2の技術は、一般の文書を用いずに、読みやアクセント、ポーズ長情報を特定のフォーマットで表記した音声中間言語文字列を利用者が入力し、この音声中間言語文字列を元に音声合成を行う音声中間言語入力方式である(例えば非特許文献1)。
第1の技術であるTTS方式は、入力した文書の形態素解析を失敗すると、文書に記載された本来の内容とは異なる解釈が為されてしまうため、期待した読みを出力できない場合がある。このため形態素解析の精度を100%に出来ない限り、期待した読みを出力できない可能性があるため、絶対に読み誤りが許されない状況、例えばニュースの読み上げや、契約内容の読み上げ等について、TTS方式を用いることは現在のところ困難である。
これに対し、音声中間言語方式の場合は、TTS方式のように形態素解析を行わず、利用者が読みやアクセント、ポーズ長情報を音声中間言語文字列として直接入力するため読み誤りが発生することはない。
(社)日本電子工業振興協会「JEIDA―62−2000 日本語テキスト音声合成用記号の規格」(平成12年3月、JEIDA)
しかしながら、音声中間言語文字列を利用者が直接入力するためには、利用者が、言語学的な意味で、アクセントや音節(発音の単位、モーラともいう)等について習熟している必要がある。
例えば、「中国からパンダ」という文に対する音声中間言語は、読みを「ひらがな」で表現し、アクセントがある位置にアクセント記号「^」、文節の切れ目の軽いポーズを「/」、文末にくるポーズは「.」という仕様の場合、「ちゅ^うごくから/ぱ^んだ.」として生成される。この場合、利用者はまず「中国」及び「パンダ」のアクセントの位置を知っている必要があり、さらにアクセント記号の挿入する位置は、最初の音節単位の直後となるが、「ちゅうごく」では、最初の音節単位は「ち」ではなく「ちゅ」となる。
このように、音声中間言語文字列の生成にはかなりのスキルが必要となるため、初心者が読みやアクセント記号を直接入力して音声中間言語文書を生成することは困難であるという問題がある。
本発明は、上記に鑑みてなされたものであって、アクセントや音節について習熟していなくとも、文字列を入力して表示された漢字交じり表記の候補から適した漢字交じり表記を選択することで音声中間言語文書を容易に生成することができる音声情報生成装置、音声情報生成プログラム及び音声情報生成方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、利用者により入力される読みを示す表音文字列と、一般文書に用いられる漢字交じり表記と、該漢字交じり表記の読みと音声合成時に該漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた文字列対応情報を記憶する文字列対応記憶手段と、利用者により入力された前記表音文字列の入力処理を行う入力処理手段と、前記記憶手段に記憶された前記文字列対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手段と、前記記憶手段に記憶された前記文字列対応情報により、前記表示選択手段により選択された前記漢字交じり表記と対応付けられた前記音声中間言語文字列に基づいて、音声合成するための読みと前記語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手段と、を備えたことを特徴とする。
また、本発明は、利用者により入力された読みを示す表音文字列の入力処理を行う入力処理手順と、前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手順と、前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択手順により選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手順と、をコンピュータに実行させる。
また、本発明は、利用者により入力された読みを示す表音文字列の入力処理を行う入力処理ステップと、前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択ステップと、前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択ステップにより選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成ステップと、を有することを特徴とする。
本発明によれば、利用者は読みを入力することで表示された漢字交じり表記の候補から適した候補を選択することで、候補に対応付けられた音声中間言語文字列に基づいて音声中間言語文書が生成されるため、利用者がアクセントや音節について習熟していなくとも、容易に音声合成用中間言語文書の生成することが可能という効果を奏する。
以下に添付図面を参照して、この発明に係る音声情報生成装置、音声情報生成プログラム及び音声情報生成方法を実現する音声中間言語生成装置の最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、第1の実施の形態に係る音声中間言語生成装置100の構成を示すブロック図である。本図に示すように音声中間言語生成装置100は、入力処理部101と、表示選択部110と、表記出力部102と、音声中間言語生成部103と、音声中間言語出力部104と、記憶部105とを備える。このような構成を備えることで音声中間言語生成装置100は、キーボード151から入力された平仮名による文字列から、漢字交じりの表記による候補を表示し、利用者から適切な候補を選択されると、この候補に対応した中間言語文字列に基づいて中間言語データを生成することとなる。
また、中間言語データとは、音声合成するための平仮名による読みと音声合成時に正確に発音するためのアクセントやポーズ長等の発音を示す発音記号が記載されたデータをいう。そして中間言語文字列は、中間言語データと同様に、平仮名による読みと発音記号により構成された単語などの文字列をいう。なお、発音記号とは、例えばアクセントを示す「^」や、1秒のポーズ長を示す「.」や、0.3秒のポーズ長を示す「/」などがある。
入力処理部101は、利用者からキーボード151を介して入力された文字列や、表示された候補からの選択等に基づいて、入力処理を行う。具体的には、日本語ワープロへの入力のように、キーボード151から入力された文字列が、平仮名による文字列である場合は、入力処理を行った後、後述する入力バッファ111に出力する。なお、本実施の形態では、キーボード151から入力された文字列を処理したが、文字列を入力するための入力装置をキーボード151に制限するものではなく、例えばマイクを入力装置として用いて、利用者が読み上げた文字列について処理を行ってもよい。
また入力処理部101は、文字列が入力バッファ111に蓄積された後、利用者から漢字交じり表記の候補の表示する旨の指示があった場合、その旨を後述する候補表示処理部112に出力する。本実施の形態においては、利用者がキーボード151のスペースキーを押し下げたか否かにより、候補を表示する指示の有無を判定する。つまり文字列の入力処理が行われたあとで、スペースキーが押し下げられた場合に文字列の候補の表示の指示があったとする。スペースキーが押し下げられず、その代わりにリターンキーが押し下げられた場合、候補の表示は行わず、入力された文字列が、後述する候補選択バッファ116に蓄積される。
また、入力処理部101は、CRT152上に漢字交じり表記による候補が表示されている時に、候補に対応する数値が入力された場合、候補が選択されたものとして、後述する表示選択部110に入力された数値を出力する。なお、本実施の形態ではキーボード151から数値が入力された場合に、候補が選択されたとして処理を行ったが、他にもマウスやカーソルキー等により候補を選択することも考えられる。
記憶部105は、単語辞書及び単語繋がり辞書を保持し、後述する候補表示処理部112による候補の表示する時や、後述する音声中間言語生成部103により音声中間言語データを生成する時に用いられる。
図2は、本実施の形態に用いられる単語辞書の一例を示した図である。本図に示すように、1つの単語について、単語番号と、読み、漢字交じり表記、アクセント情報、品詞、プロパティを対応付けたレコードとして保持する。
図3は、本実施の形態に用いられる単語繋がり辞書の一例を示した図である。本図に示すように、前単語、後単語、単語間のポーズ長、アクセント移動を対応付けたレコードとして保持する。このように構成により、単語繋がり辞書は、単語の繋がりによるアクセント情報やポーズ長に関する予め定められた規則あるいはプロパティ情報を保持することが可能となる。また、単語繋がり辞書で保持する予め定められた規則をアクセント情報やポーズ長に制限するものではなく、適切に音声合成を行うための情報であればよい。
図1に戻り、表示選択部110は、CRT152へ漢字交じり表記の候補を表示し、利用者がなされた漢字交じり表記を選択する。また表示選択部110は、入力バッファ111、候補表示処理部112、候補選択バッファ116及び表記表示処理部117を備える。
入力バッファ111は、入力処理部101より入力処理された文字列を蓄積する。なお、利用者の入力により蓄積される文字列は、原則として読みを示す平仮名による文字列とする。
候補表示処理部112は、入力バッファ111に蓄積された文字列に基づいて、仮名漢字変換される可能性のある候補を取得し、取得した候補をCRT152上に表示するための処理を行う。また候補表示処理部112は、候補取得部113、候補バッファ114及び候補出力部115を備える。
候補取得部113は、記憶部105が記憶する単語辞書から、入力バッファ111に蓄積された文字列と読みが一致する漢字交じり表記の組み合わせの全てを候補として取得する。
例えば、入力バッファ111に蓄積された文字列が「はしは」であった場合、図2で示された単語辞書に対して検索を行い、読みが一致する単語を組み合わせた候補である、単語番号3+単語番号101、単語番号4+単語番号101、単語番号5+単語番号101を取得する。
候補バッファ114は、候補取得部113により取得された1つ以上の候補を蓄積する。例えば候補取得部113が取得した候補が単語番号3+単語番号101、単語番号4+単語番号101、単語番号5+単語番号101の場合、候補バッファ114は(No.3,No.101),(No.4,No101),(No.5,No.101)を蓄積する。
候補出力部115は、候補バッファ114に蓄積された候補を、単語辞書により単語番号を漢字交じり表記に変換してCRT152に出力する。
図4は、本実施の形態にかかる音声中間言語生成装置100の候補出力部115により出力された漢字交じり表記による候補の表示の一例を示した図である。具体的には、本図は、候補出力部115により、候補バッファ114に蓄積された(No.3,No.101),(No.4,No101),(No.5,No.101)の単語番号を、単語辞書を用いて漢字交じり表記に変換した「箸は」「端は」「橋は」をCRT152に出力した画面である。
候補選択バッファ116は、CRT152に表示された候補から、利用者が選択した漢字交じり表記の単語番号の組み合わせを候補バッファ114から選択して蓄積する。なお、単語番号の組み合わせは、括弧を付けたまま候補選択バッファ116に蓄積する。
例えば、図4で示した画面例において、利用者はCRT152に表示された候補から、キーボード151より「数字+enter」を入力して候補を選択する。具体的には、「3+enter」が入力処理部101から入力されると「3.橋は」を選択したものと判断し、選択した漢字交じり表記と対応付けられた候補バッファ114が保持する単語番号の組み合わせ(No.3,No.101)を選択し、候補選択バッファ116に蓄積する。
なお、入力処理部101により候補を表示する指示がなかった場合、候補選択バッファ116は、入力処理された文字列をそのまま蓄積する。
つまり、候補選択バッファ116は、候補による変換を行わずに平仮名による文字列「どうしても」が入力された場合、(どうしても)が蓄積される。つまり(No.3,No.101)のあとに(どうしても)が蓄積された場合、候補選択バッファ116に蓄積された文字列は(No.3,No.101),(どうしても)となる。
表記表示処理部117は、候補選択バッファ116に蓄積された単語番号を漢字交じり表記に変換してCRT152に表示する処理を行うものである。表記表示処理部117が候補選択バッファ116に蓄積された単語番号に対応した漢字交じりの表記をCRT152に表示するため、利用者は生成される音声中間言語データの内容の確認が容易となる。なお、表記表示処理部117は、候補を表示せずに候補選択バッファ116に蓄積された文字列をそのまま表示する処理を行う。
また、候補表示処理部112は、漢字交じり候補を表示する処理を行うときに、漢字交じりの候補以外に品詞を表示する等の処理を行ってもよい。これは、品詞が異なる単語が選択されてしまうと、単語間の繋がりが誤って認識されてしまい、後述する音声中間言語生成部103において、不適切な発音記号が挿入された中間言語データを生成する可能性があるためである。特に平仮名のみの文字列による候補から選択する場合に有効である。
音声中間言語生成部103は、候補選択バッファ116に蓄積された単語番号から、単語辞書により単語のアクセント情報、品詞、プロパティを取得し、さらに単語繋がり辞書を用いて単語間の繋がりに基づいたアクセントの変更あるいはプロパティに基づいたアクセントの変更などの処理を行いながら音声中間言語データを生成する。
つまり音声中間言語生成部103は、音声中間言語データを生成する時、単語単独あるいは単語の繋がりにより単語辞書に登録している単語の読みやアクセント情報を変更する必要がある。またポーズ長は単語単独あるいは単語の繋がりにより決定されることもあるため、音声中間言語生成部103は、中間言語データを生成する時にポーズ長を示す記号を挿入する必要がある。このため音声中間言語生成部103は、単語繋がり辞書を用いて、読みやアクセント情報の変更や、ポーズ長を示す記号の挿入を行う。
例えば、候補バッファ114に蓄積された単語番号が(No.3,No.101),(No.300,No.202,No.205,No.502)の場合、まず、音声中間言語生成部103は、No.3は名詞であるため自立語、No.101は係助詞であるため付属語と判断し、単語の繋がりが自立語と付属語である場合の規則を、単語繋がり辞書から取得する。図3で示された単語繋がり辞書では、前にある単語が自立語で、後にある単語が付属語の場合、単語間のポーズについて指定がなく、アクセント移動についても指定がない。このため、音声中間言語生成部103は、原則通りであればNo.3,No.101から単語辞書によるアクセント情報に従い「はし^は」という中間言語文字列を生成する。しかし、No.101のプロパティ情報に「わ」と読み替える旨定められているため、音声中間言語生成部103は、No.3,No.101から「はし^わ」という中間言語文字列を生成する。これは日本語として係助詞の「は」は「わ」と読む決まりによるものである。このように音声中間言語生成部103は単語辞書による単語のプロパティ情報による変更も行う。
次に、音声中間言語生成部103は、No.101とNo.300は係助詞「は」と動詞であるため、単語の繋がりが係助詞「は」と動詞である場合の規則を、単語繋がり辞書から取得する。単語繋がり辞書では、係助詞「は」と動詞である場合、単語間のポーズとして「/」が指定されている。したがって音声中間言語生成部103は、ポーズ長を示す「/」を挿入して、No.300の読みと結合し、「はし^わ/わたら」という中間言語文字列を生成する。なお、No.101とNo.300は「付属語」と「自立語」でもあるため、前にある単語が付属語で、後にある単語が自立語である場合の規則を単語繋がり辞書で検索して一致するものが無いことを確認した後で、さらに細かい条件である'単語の繋がりが係助詞「は」と動詞'である場合の規則を検索することにしても良い。また、これとは逆に、細かい条件による規則を検索し、一致するものがない場合により大まかな条件による規則を検索することしても良い。
そして、音声中間言語生成部103は、No.300とNo.202は自立語と付属語であるので、単語繋がり辞書に基づいてポーズ長は挿入せずに結合し、No.202とNo.205は付属語と付属語であるので単語繋がり辞書に基づいてポーズ長を挿入せずに結合し、No.401は単語繋がり辞書のプロパティに従って、ポーズ長1秒を意味する「.」を挿入する。そして音声中間言語生成部103は、(No.3,No.101),(No.300,No.202,No.205,No.502)から「はし^わ/わたらな^かった.」という中間言語データを生成する。
他に候補バッファ114に蓄積された単語番号が(No.1,No.401)の場合、音声中間言語生成部103は、No.1は名詞であり、No.401は接尾であるため、単語の繋がりが名詞と接尾である場合の規則を、単語繋がり辞書から取得する。単語繋がり辞書では、前にある単語が名詞で、後にある単語が接尾の場合、単語間のポーズについて指定はないが、アクセント移動についてはプロパティ情報に従う旨が指定されている。このため、No.1の単語のアクセントは「ちゅ^うごく」と登録されているにもかかわらず、No.401のプロパティで定めた規則「直前最後にアクセント」に従い変更されることとなる。つまり音声中間言語生成部103は、原則通りであれば「ちゅ^うごくじん」となるがプロパティ情報に定められた規則により「ちゅうごく^じん」となる。この規則は、日本語では「人」という接尾が直前の名詞の末尾にアクセント移動を起こすという性質を持っているために規定した規則であり、音声中間言語生成部103はこの規則に従って中間言語文字列を生成する。
つまり、音声中間言語生成部103は、候補選択バッファ116に蓄積された全ての単語番号から単語辞書にアクセント情報として保持されている中間言語文字列を取得し、取得した中間言語文字列に対して単語繋がり辞書を用いて適切な読みやアクセントに変更する処理を行い、変更する処理が行われた中間言語文字列を全て結合して中間言語データを生成する。
なお、本実施の形態においては、音声中間言語生成部103が、名詞が自立語であることや係助詞が付属語であることを判断しているが、別途テーブルにより名詞が自立語である旨等を対応付けて保持してもよい。
音声中間言語出力部104は、音声中間言語生成部103により生成された音声中間言語データをファイルとして出力する。この出力されたファイルを音声の合成を行う装置に入力することで、音声の合成が可能となる。
表記出力部102は、候補選択バッファ116に蓄積された単語番号を、単語辞書を用いて漢字交じり表記に変換し、変換した漢字交じりの表記による文書データを表記データとして出力する。表記出力部102を備えることで、音声中間言語出力部104により出力された音声中間言語データに対応した漢字交じりの表記による文書データが出力されるため、利用者は音声中間言語データの内容の確認が容易となる。
また音声中間言語生成装置100において、表記表示処理部117により漢字交じり表記がCRT152上に表示されている場合、利用者が表示されている漢字交じり表記から、単語の削除や変更などの編集を行うことが考えられる。この場合、利用者による漢字交じり表記の修正に対応させて候補選択バッファ116に蓄積された単語番号を修正することで、出力される中間言語データを編集することが可能となる。他にもワープロで用いられる編集手段を音声中間言語生成装置100に適用することで、様々な編集手段を容易に類推することが可能である。例えば読みと漢字交じり表記と品詞情報等を単語辞書に登録する単語登録などが考えられる。
次に、以上により構成された本実施の形態に係る音声中間言語生成装置100において入力された文字列から中間言語データを出力するまでの処理について説明する。図5は本実施の形態にかかる音声中間言語生成装置100において入力された文字列から中間言語データを出力するまでの全体処理を示すフローチャートである。
入力処理部101は、利用者により入力された文字列の処理を行う(ステップS401)。なお、入力処理された文字列は平仮名であるものとする。そして入力バッファ111は、入力処理部101により処理が行われた文字列を蓄積する(ステップS402)。
次に、入力処理部101は、利用者から入力処理が行われた文字列の候補を表示する指示があるか否か判定する(ステップS403)。
入力処理部101により候補の表示の指示があったと判定した場合(ステップS403:Yes)、候補取得部113は、単語辞書に対して入力処理が行われた文字列の読みに基づいて検索を行い、入力バッファ111に蓄積された平仮名による文字列と読みが一致する単語の組み合わせによる候補を取得する(ステップS404)。そして候補バッファ114は、候補取得部113により取得された候補を蓄積する(ステップS405)。
次に、候補出力部115は、候補バッファ114に蓄積された候補をCRT152上に出力する(ステップS406)。そして候補選択バッファ116は、CRT152に表示された候補から利用者が選択した漢字交じり表記に対応した単語番号を蓄積する(ステップS407)。
入力処理部101により候補を表示する指示がなかったと判定した場合(ステップS403:No)、候補選択バッファ116は、入力処理された文字列を蓄積する(ステップS408)。
そして表記表示処理部117は、候補選択バッファ116に蓄積された単語番号を漢字交じり表記に変換してCRT152上に出力する(ステップS409)。なお、候補を表示する指示がなかったため、候補選択バッファ116が入力された文字列をそのまま蓄積している場合は、入力された文字列を表示する。
そして入力処理部101により入力処理が終了したか否か判定される(ステップS410)。本実施の形態においては、ESCキーが押し下げられた場合に、入力処理が終了したと判定する。ESCキーが押し下げられなかった場合は、入力処理が終了していないと判定され(ステップS410:No)、ステップS401の文字列の入力処理から再び開始する。
入力処理が終了したと判定された場合(ステップS410:Yes)、音声中間言語生成部103は、候補選択バッファ116に蓄積された単語番号あるいは文字列に基づいて、音声中間言語データを生成する(ステップS411)。なお、文字列を蓄積している場合は、そのまま音声中間言語データとして生成する。
そして、音声中間言語出力部104は、音声中間言語生成部103により生成された音声中間言語データをファイルとして出力する(ステップS412)。
なお、本実施の形態の処理手順を、上述した全体処理手順に制限するものではなく、例えば、最後に中間言語データを出力するだけではなく、中間結果として音声中間言語データを出力しても良い。
図6は、本実施の形態にかかる音声中間言語生成装置100のハードウェア構成を示した図である。本実施の形態にかかる音声中間言語生成装置100は、制御装置となるCPU(Central Processing Unit)501と、記憶装置であるROM(Read Only Memory)502やRAM(Randam Access Memory)503と、HDD(Hard Disk Drive)、CDドライブ装置などの外部記憶装置506と、ディスプレイ装置などの表示装置507と、キーボードやマウスなどの入力装置504と、外部と通信可能するための通信インターフェース505と、それらを接続するバス508を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の音声中間言語生成装置100で実行される音声中間言語生成プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の音声中間言語生成装置100で実行される音声中間言語生成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態の音声中間言語生成装置100で実行される音声中間言語生成プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の音声中間言語生成プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態にかかる音声中間言語生成装置100で実行される音声中間言語生成プログラムは、上述した各部(入力処理部101、表示選択部110、表記出力部102、音声中間言語生成部103、音声中間言語出力部104)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)501が上記記憶媒体から音声中間言語生成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、入力処理部101、表示選択部110、表記出力部102、音声中間言語生成部103、音声中間言語出力部104が主記憶装置上に生成されるようになっている。
また、本実施の形態にかかる記憶部105に記憶される単語辞書では、動詞「渡ら」、助動詞「なかっ」等の活用のある単語について、活用が違うものは別の単語として扱っている。しかし、動詞などの活用語尾は規則的に変化を持たせることが可能である。そこで単語辞書に、活用語尾を除いた見出しのみ、例えば「わた;渡」のみ登録し、候補取得部113において、単語辞書から「わた;渡」を取得して活用語尾を展開したもの「わたら;渡ら」「わたり;渡り」「わたる;わたる」「わたれ;渡れ」「わたろ;わたろ」等と、入力された文字列と比較するなどの処理手順も考えられる。
本実施の形態にかかる音声中間言語生成装置100により出力された音声中間言語データを音声合成装置に入力することで、漢字交じり表記などに基づいて適切な読みと発音記号を付加されているので期待した語調により音声を合成することが可能となる。
また、音声中間言語生成装置100を使用することで、利用者はアクセントや音節に習熟していなくとも、ワープロの仮名漢字変換と同様の処理手順により、音声中間言語データを生成することが可能となる。
また、従来は、読み上げ原稿を汎用ワープロで作成し、その後、それに対応する音声中間言語データを生成しなければならなかったが、音声中間言語生成装置100が音声中間言語出力部104と表記出力部102を備えることにより、読み上げ原稿を書き上げると同時に、期待する読みがついた音声中間言語データを生成することが可能となる。
例えば、現在、カーナビで、インターネットのWEB画面上による、記事原稿表示と、表示原稿に対する読み上げを行うサービスがなされている。この場合、WEBに表示されている原稿は、専門のライターが作成し、これに対する音声中間言語データの生成は別作業で行っている。しかし、音声中間言語生成装置100により、ライターが原稿を書き上げた時点で音声中間言語データの生成も完了することとなり、音声中間言語生成の作業によるコストの削減及び音声中間言語データの生成までの時間の短縮が可能となる。
(第2の実施の形態)
第1の実施の形態では、音声中間言語生成装置100は、入力された文字列の読みと、単語辞書から単語の組み合わせによる読みが一致した候補を表示することとした。しかしながら、第1の実施の形態における音声中間言語生成装置100では、利用者はアクセントを自由に設定することが出来ない。従って第2の実施の形態に係る音声中間言語生成装置は、入力された文字列に対して、さらにアクセントを付加した複数の候補を表示することとした。
図7は、第2の実施の形態にかかる音声中間言語生成装置600の構成を示すブロック図である。上述した第1の実施の形態にかかる音声中間言語生成装置100とは、表示選択部110とは処理が異なる表示選択部610に変更され、音声中間言語生成部103とは処理が異なる音声中間言語生成部602に変更され、そして候補音声出力部601が追加されている点で異なる。以下の説明では、上述した実施の形態1と同一の構成要素には同一の符号を付してその説明を省略している。
表示選択部610は、CRT152へ漢字交じり表記及びアクセントを付けたカタカナ表記の候補を表示し、利用者がなされた漢字交じり表記又はアクセントを付けたカタカナ表記を選択する。また表示選択部610は、入力バッファ111、候補表示処理部611、候補選択バッファ613及び表記表示処理部117を備える。
候補表示処理部611は、入力バッファ111に蓄積された平仮名による文字列に基づいて、単語辞書から仮名漢字変換される可能性のある候補を取得し、さらに平仮名の文字列にアクセントを示す記号’^’を付けた複数の候補を生成し、これら候補をCRT152上に表示する処理を行う。また候補表示処理部611は、候補取得部113、候補生成部612、候補バッファ114及び候補出力部115を備える。
候補生成部612は、入力バッファ111に蓄積された平仮名による文字列に基づいて、それぞれ異なるアクセントを付加した複数の候補を生成して、候補バッファ114に蓄積する。候補生成部612を備えることにより、入力された平仮名の文字列に対して、異なるアクセントを付けた複数の候補の生成が可能となる。
具体的には、第1の実施の形態では、入力バッファ111に蓄積された平仮名の文字列が「かなりすき」であった場合、CRT152上には「1.かなり好き」としか表示されず、利用者が‘1’を選択すると、中間言語データには「か^なりすき」と出力される。しかし、第1の実施の形態にかかる音声中間言語生成装置100では、2004年現在の若者の東京方言のようなアクセント「かなりすき」と出力することが出来ない。
しかし第2の実施の形態では、入力バッファ111に蓄積された平仮名による文字列が「かなりすき」であった場合、候補取得部113により取得された候補「1.かなり好き」以外に、候補生成部612が生成した候補が候補バッファ114に蓄積され、候補出力部115によりCRT152上に出力される。
図8は、本実施の形態にかかる音声中間言語生成装置600の候補出力部115により出力された候補の表示の一例を示した図である。本図で示すように、漢字交じりの候補「1.かなり好き」の候補の他に、「2.カナリスキ」「3.カ^ナリスキ」のように、入力された文字列に対してアクセント記号を付けたカタカナによる文字列を追加して表示する。なお、本実施の形態においては、表示する際にカタカナで表示することとしたが、これは漢字交じり候補と区別を、利用者が容易に判断できるようにするためである。
図7に戻り、候補音声出力部601は、候補出力部115によりCRT152上により候補が表示する時に、それぞれの候補を音声で順次出力する。この音声出力により、利用者は実際のアクセントを確認して候補を選択することが可能となる。
つまり、候補生成部612により生成された候補の表示では、アクセント記号とカタカナの組み合わせによる文字列のため、これらの候補から選択する際に、利用者がアクセント等の知識が必要になる。そこで候補音声出力部601は、候補として表示された文字列について音声合成して出力することとした。これにより利用者はアクセント等の知識がなくとも、最適なアクセント記号とカタカナの組み合わせによる文字列の選択が可能となった。なお、候補の音声出力する候補音声出力部601を、第1の実施の形態にかかる音声中間言語生成装置100に備えることにしても良い。
そして、候補選択バッファ613は、CRT152に表示された候補から、利用者が漢字交じり候補を選択した場合は、選択した候補の単語番号を蓄積し、アクセントを付けたカタカナによる文字列を選択した場合は、選択した候補のアクセントを付けた中間言語文字列を蓄積する。
具体的には利用者が‘2’を選択した場合には候補選択バッファ613には(かなりすき)が、‘3’を選択した場合には候補選択バッファ613には(か^なりすき)が蓄積される。なお、候補として表示する際はカタカナだったが、蓄積する際には平仮名となる。
音声中間言語生成部602は、これらアクセント付きの文字列が候補選択バッファ613に蓄積されている場合は、第1の実施の形態で示した単語繋がり辞書を用いた処理等を行わず、そのまま音声中間言語データとして生成する。なお、単語番号が候補選択バッファ613に蓄積されている場合は、第1の実施の形態と同様の処理を行う。
本実施の形態による音声中間言語生成装置600により、利用者は表示された候補を選択することで、利用者の所望した語調による音声中間言語データの生成が容易となる。
本実施の形態においては、候補として読みとアクセントの組み合わせによる候補を追加して表示したが、他にポーズ長等との組み合わせにより候補をさらに追加して表示するなどによる実施の形態は容易に考えられる。
なお、本実施の形態にかかる候補音声出力部601は、表示された候補を順次、音声合成して出力することとしたが、利用者が指定した候補を音声出力することにしても良い。
(第3の実施の形態)
第2の実施の形態は、利用者により入力された文字列が読み情報である場合に音声合成用のアクセント等を付加した中間言語文字列を生成していた。しかし、一般的な日本語ワープロなどでは数字や記号、アルファベットの入力する場合がある。このため、第3の実施の形態による音声中間言語生成装置は、平仮名による読み情報以外の入力文字列について読みを付加することとした。
図9は、第3の実施の形態にかかる音声中間言語生成装置800の構成を示すブロック図である。上述した第2の実施の形態に係る音声中間言語生成装置600とは、入力処理部101とは処理が異なる入力処理部801に変更され、表示選択部610とは処理が異なる表示選択部810に変更され、音声中間言語生成部602とは処理が異なる音声中間言語生成部802に変更され、記憶部105とは記憶するテーブルが異なる記憶部803に変更された点で異なる。以下の説明では、上述した実施の形態2と同一の構成要素には同一の符号を付してその説明を省略している。
入力処理部801は、第2の実施の形態にかかる入力処理部101による入力処理の他に、数値、記号、アルファベットが入力処理された場合、これらを切り分けてから入力バッファ111に蓄積する。
具体的には「ごうけいは1000えんです」と入力された場合、入力処理部801は、「ごうけいは/1000/えんです」と切り分けてから、入力バッファ111に蓄積する。
他には、例えば「50km」と入力された場合、入力処理部801は、「50/km」と切り分けてから、入力バッファ111に蓄積する。
他には、例えば「ツリー(tree)構造」」と入力された場合、入力処理部801は、「ツリー/(/tree/)/構造」と切り分けてから、入力バッファ111に蓄積する。
表示選択部810は、入力処理された文字列が数値、記号、アルファベットなどの平仮名以外の文字列の場合は候補として表示するか否かに関わらず、そのまま候補選択バッファ811に蓄積させる。また、入力された文字列が平仮名による文字列の場合は第2の実施の形態の表示選択部610と同様の処理を行う。
候補選択バッファ811は、入力処理された文字列が数値、記号、アルファベットなどの平仮名以外の文字列の場合でも、入力バッファ111に蓄積された文字列をそのままに蓄積する。他の入力処理された文字列については、第2の実施の形態の候補選択バッファ613と同様の態様により蓄積する。
音声中間言語生成部802は、数値、記号、アルファベットなどの平仮名以外の文字列が候補選択バッファ811に蓄積されている場合は、入力文字列に読みを付与する処理を行い、音声中間言語データを生成する。なお、単語番号やアクセント付き文字列が候補選択バッファ811に蓄積されている場合は、第2の実施の形態と同様の処理を行う。
まず、候補選択バッファ811に蓄積された文字列がアラビア数字の連続の場合は、音声中間言語生成部802は、数字という品詞を文字列とみなし、後述する処理により読み及びアクセントを付与する。数字の読み及びアクセントの付け方については、様々な方法が考えられるが、本実施の形態では、数字の読み及びアクセントを保持する数字テーブルを記憶部803にあらかじめ記憶することとし、音声中間言語生成部802は、この数字テーブルから読み及びアクセントを取得する。また、数字テーブルを桁数毎に複数のテーブルを分けることとする。
具体的には、記憶部803は、数字テーブルとして4桁毎に分けた複数のテーブルを記憶する。数字テーブルは、まず下1桁から4桁までの範囲、つまり「0〜9999」の読み及びアクセントを保持するテーブルと、そして下5桁から8桁までの範囲、つまり「10000〜99990000」の読み及びアクセントを保持するテーブルと、下9桁から12桁までの範囲、つまり「100000000〜999900000000」の読み及びアクセントを保持するテーブルと、下13桁から16桁までの範囲、つまり「1000000000000〜9999000000000000」の読み及びアクセントを保持するテーブルと、下17桁から20桁までの範囲、つまり「10000000000000000〜99990000000000000000」の読み及びアクセントを保持するテーブルとする。なおテーブルの数は、音声中間言語データとして出力する必要のある桁数に応じて増加あるいは減少させてもよい。
図10―1は、下1桁から4桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。そして図10―2は、下5桁から8桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。また、同様の保持方法により、下9桁から12桁までの範囲や下13桁から16桁までの範囲の読み及びアクセントをテーブルとして保持する。
そして、音声中間言語生成部802は、アラビア数字の桁数を確認し、桁数に対応する読み及びアクセントをあらかじめ生成した数字の読み及びアクセントを記憶部803で保持するテーブルから取得する。
例えば、候補選択バッファ811に蓄積された文字列が「99990100」の場合、音声中間言語生成部802は、「99990000」と「100」に切り分け、それぞれの読み及びアクセントを、対応するテーブルから取得する。音声中間言語生成部802は、数字テーブルから「きゅうせ^ん/き^ゅ―ひゃく/き^ゅーじゅー/きゅーま^ん」と「ひゃく」を取得するので、これらを組み合わせて「きゅうせ^ん/き^ゅ―ひゃく/き^ゅーじゅー/きゅーま^ん/ひゃく」という中間言語文字列を生成する。
他の例としては、候補選択バッファ811に蓄積された文字列が「3230323」の場合、音声中間言語生成部802は、「3230000」と「323」に切り分け、それぞれの読み及びアクセントを、対応するテーブルから取得する。音声中間言語生成部802は、数字テーブルから「さん^びゃく/に^じゅう/さんま^ん」と「さ^んびゃく/に^じゅうさん」を取得するので、これらを組み合わせて「さ^んびゃく/に^じゅう/さんま^ん/さ^んびゃく/に^じゅうさん」という中間言語文字列を生成する。
また、候補選択バッファ811に蓄積された数字の連続による文字列として、アラビア数字の連続の場合を説明したが、例えば「1,000」など、桁区切り記号を含めた数字の文字列を候補選択バッファ811に蓄積される場合もある。この場合、音声中間言語生成部802は、桁区切り記号を削除した数字の連続による文字列に対して、上述した処理を行い、中間言語文字列を生成すればよい。
また、候補選択バッファ811に蓄積された数字の連続による文字列が小数を有する場合もある。このため記憶部803は、小数の読み及びアクセントを保持する数字テーブルを記憶し、音声中間言語生成部802が、文字列が数字の連続であり小数を有すると判断した場合、小数の読み及びアクセントを保持する数字テーブルから読み及びアクセントを取得することとする。次に、小数を有する数字の連続による文字列の読み及びアクセントを保持する数字のテーブルを説明する。
図11―1は、小数点を含む整数1桁から4桁までの範囲の読み及びアクセントを保持する数字テーブルを示した図である。そして図11―2は、小数点以下の1文字および2文字に対応する読み及びアクセントを保持する数字テーブルを示した図である。これらの数字テーブルを記憶部803で記憶することで、小数を含む数字の連続による文字列について中間言語文字列の生成が可能となる。
候補選択バッファ811に蓄積された小数を含む数字の連続による文字列の場合、音声中間言語生成部802は、小数点より前の4桁については図11−1で示した数字テーブルから読み及びアクセントを取得し、小数点以下の部分は、基本的に数字を2文字ずつに区切って図11―2で示した数字テーブルから取得し、最後に1文字残った場合には、1文字の数字の読み及びアクセントを図11−2で示した数字テーブルから取得する。
例えば、候補選択バッファ811に蓄積された文字列が「1.224」の場合、音声中間言語生成部802は、「1.」、「22」と「4」に切り分け、それぞれの読み及びアクセントを、対応する数字テーブルから取得する。音声中間言語生成部802は、数字テーブルから「い^ってん」、「にーに^―」と「よ^ん」を取得するので、これらを組み合わせて「い^ってん にーに^― よ^ん」という中間言語文字列を生成する。なお、取得した文字列を組み合わせる際に、それぞれの文字列の間にポーズ長記号をはさんでも良い。
また、読みを付けた数字の連続による文字列の品詞を、数字という品詞を持つ単語として扱うため、単語繋がり辞書にポーズやアクセント移動あるいは読みの変更についての規則を単語繋がり辞書に保持させることで、音声中間言語生成部802は、上述した1つあるいは複数の数字による文字列に対応する読みを取得したあと、ポーズの挿入やアクセント移動を行うことが可能となる。
例えば、図3で示したような単語繋がり辞書の列に“読み変更”を加えたテーブルにおいて、“前単語”に“末尾が「いち」と読む数字”を、“後単語”に“「杯」数詞接尾”に対応付けて、“読み変更”として“いっぱい”と保持する。これによりCRT152上に、漢字交じりの候補として表示された「1杯」を選択した場合、音声中間言語生成部802は「いっぱい」という中間言語文字列の生成が可能となる。
次に、候補選択バッファ811に蓄積された文字列がアルファベットの場合、音声中間言語生成部802は、後述する処理により読み及びアクセントを付与する。
図12は、アルファベットの連続について読みとアクセントを保持するアルファベットテーブルを示した図である。本図に示されたように、アルファベット、アクセント情報、品詞、プロパティを対応付けて保持する。
そして候補選択バッファ811に蓄積された文字列がアルファベットの連続の場合、音声中間言語生成部802は、蓄積されていたアルファベットの連続による文字列と、図12で示したアルファベットテーブルが保持している“アルファベット”の列の文字列を比較し、一致するレコードがあった場合、レコードに保持されていた読み及びアクセント、品詞、プロパティを用いて中間言語文字列を生成する。取得した品詞やプロパティは、第1の実施の形態と同様の処理に用いることとする。
アルファベットテーブルに一致するレコードがなかった場合、音声中間言語生成部802は、アルファベットの各文字に対応した読み及びアクセント情報をつなげて中間言語文字列を生成する。なお、各アルファベットの読み及びアクセント情報はアルファベット文字テーブルとして記憶部803が記憶することとする。このアルファベット文字テーブルは、例えば"a"は"えー"と対応付けて保持している。
そして候補選択バッファ811に蓄積された文字列が"abc"であり、上述したアルファベットテーブルに一致するレコードがなかった場合、音声中間言語生成部802は、アルファベット文字レコードからアルファベットに対応する読み及びアクセントを取得し、「えー びー しー」という中間言語文字列を生成する。
また、記号の文字に対応した読み及びアクセント情報を記号テーブルに保持する。そして候補選択バッファ811が文字列として記号を蓄積していた場合は、音声中間言語生成部802は、この記号テーブルが保持する記号と候補選択バッファ811が蓄積していた記号が一致した場合には、記号テーブルの一致したレコードから読み及びアクセントを取得して、中間言語文字列を生成する。なお、“、”、“。”、“「”など、読みを付けたくない記号は、記号テーブルに読みを付けないようにすればよい。なお、記号テーブルにおいて、記号1文字で記号という品詞の単語として扱う。
本実施の形態では、小数点以下がない数字あるいは小数点のある数字の整数部分は、桁読みを付けるようにしているが、上記小数点以下の読みを付ける要領で、読みを付ける処理も考えられる。つまり、候補選択バッファ811に蓄積された文字列が「921」ならば、音声中間言語生成部802は、「きゅーに^ーいち」という中間言語文字列を生成する処理である。また、桁を考慮した読みにするか否かを、入力処理した後、候補として表示して利用者に選択させることも考えられる。
また、本実施の形態では、数字に読み及びアクセントを付ける方法として、4桁毎に数字の読み及びアクセント情報をテーブルに持つこととしたが、他の方法としてテーブルに持たせず、一定の規則により読み及びアクセントを付ける等が考えられる。
同様に数字テーブルを用いて、小数点以下の中間言語文字列を生成したが、数字テーブルを用いずに規則によって「いってん」を「い^ってん」や「に に」を「にーに^―」と書き換える等も考えられる。
本実施の形態では、入力処理された文字列に読み以外のアラビア数字、アルファベット、記号が混じっていた場合、音声中間言語生成部802は、上述した処理を行うことにより、品詞、読み、アクセントを取得することが可能となる。これにより、キーボードから数字など読み以外の入力をした場合でも、適切な音声合成を行う中間言語データの生成が可能となる。
以上のように、本発明に係る音声情報生成装置、音声情報生成プログラム及び音声情報生成方法は、音声合成用を行うための技術として有用であり、特に利用者が入力装置に介した入力により音声中間言語データを生成する技術において有用である。
第1の実施の形態に係る音声中間言語生成装置の構成を示すブロック図である。 第1の実施の形態に係る音声中間言語生成装置の記憶部で記憶される単語辞書の一例を示した図である。 第1の実施の形態に係る音声中間言語生成装置の記憶部で記憶される単語繋がり辞書の一例を示した図である。 第1の実施の形態に係る音声中間言語生成装置の候補出力部により出力された漢字交じり表記による候補の表示の一例を示した図である。 第1の実施の形態に係る音声中間言語生成装置で入力された文字列から中間言語データを出力するまでの全体処理を示すフローチャートである。 第1の実施の形態に係る音声中間言語生成装置のハードウェア構成を示した図である。 第2の実施の形態に係る音声中間言語生成装置の構成を示すブロック図である。 第2の実施の形態に係る音声中間言語生成装置の候補出力部により出力された候補の表示の一例を示した図である。 第3の実施の形態に係る音声中間言語生成装置の構成を示すブロック図である。 第3の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、数字の下1桁から4桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。 第3の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、数字の下5桁から8桁までの範囲の読み及びアクセントを保持するテーブルを示した図である。 第3の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、小数点を含む整数1桁から4桁までの範囲の読み及びアクセントを保持する数字テーブルを示した図である。 第3の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、小数点以下の1文字および2文字に対応する読み及びアクセントを保持する数字テーブルを示した図である。 第3の実施の形態に係る音声中間言語生成装置の記憶部で記憶される、アルファベットについて読みとアクセントを保持するアルファベットテーブルを示した図である。
符号の説明
100、600、800 音声中間言語生成装置
101、801 入力処理部
102 表記出力部
103、602、802 音声中間言語生成部
104 音声中間言語出力部
105、803 記憶部
110、610、810 表示選択部
111 入力バッファ
112、611 候補表示処理部
113 候補取得部
114 候補バッファ
115 候補出力部
116、613、811 候補選択バッファ
117 表記表示処理部
151 キーボード
152 CRT
501 CPU
502 ROM
503 RAM
504 入力装置
505 通信インターフェース
506 外部記憶装置
507 表示装置
508 バス
601 候補音声出力部
612 候補生成部

Claims (8)

  1. 利用者により入力される読みを示す表音文字列と、一般文書に用いられる漢字交じり表記と、該漢字交じり表記の読みと音声合成時に該漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた文字列対応情報を記憶する文字列対応記憶手段と、
    利用者により入力された前記表音文字列の入力処理を行う入力処理手段と、
    前記記憶手段に記憶された前記文字列対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手段と、
    前記記憶手段に記憶された前記文字列対応情報により、前記表示選択手段により選択された前記漢字交じり表記と対応付けられた前記音声中間言語文字列に基づいて、音声合成するための読みと前記語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手段と、
    を備えたことを特徴とする音声情報生成装置。
  2. 前記入力処理手段により入力された前記表音文字列により、前記表音文字列の読みと前記語調情報を組み合わせた該音声中間言語文字列による候補を生成する候補生成手段と、をさらに備え、
    前記表示選択手段は、さらに、前記候補生成手段により生成された候補を前記入力処理手段により入力された前記表音文字列に対応付けられた候補として表示し、表示された前記候補から利用者にされた前記音声中間言語文字列を選択すること
    を特徴とする請求項1に記載の音声情報生成装置。
  3. 前記表示選択手段により表示された候補を音声出力する音声出力手段と、をさらに備えたことを特徴とする請求項1または2に記載の音声情報生成装置。
  4. 1つあるいは複数の、音素を示す文字、数字、記号を含む特殊文字列と、前記音声中間言語文字列とを対応付けた特殊中間言語対応情報を記憶する特殊中間言語対応記憶手段と、をさらに備え、
    前記入力処理手段は、さらに、前記特殊文字列の入力処理を行い、
    前記中間言語生成手段は、さらに、前記特殊中間言語対応情報により、前記入力処理手段により入力された前記特殊文字列と対応付けられた前記音声中間言語文字列に基づいて、前記音声中間言語文書を生成すること
    を特徴とする請求項1〜3のいずれか一つに記載の音声情報生成装置。
  5. 前記表示選択手段により選択された前記漢字交じり表記に基づいて、漢字交じりの表記による文書を出力する表記出力手段を、さらに備えたことを特徴とする請求項1〜4のいずれか一つに記載の音声情報生成装置。
  6. 前記語調情報は、アクセント、ポーズ長を示した記号であることを特徴とする請求項1〜5のいずれか1つに記載の音声情報生成装置。
  7. 利用者により入力された読みを示す表音文字列の入力処理を行う入力処理手順と、
    前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択手順と、
    前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択手順により選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成手順と、
    をコンピュータに実行させる音声情報生成プログラム。
  8. 利用者により入力された読みを示す表音文字列の入力処理を行う入力処理ステップと、
    前記表音文字列と、一般文書に用いられる漢字交じり表記とを対応付けた文字列表記対応情報により、前記入力処理手段により入力された前記表音文字列と対応付けられた前記漢字交じり表記の候補を利用者に選択可能に表示し、表示された前記候補から利用者にされた前記漢字交じり表記を選択する表示選択ステップと、
    前記漢字交じり表記と、前記漢字交じり表記の読みと音声合成時に前記漢字交じり表記に対応した語調で発音するために語調を指定する情報を示す語調情報を組み合わせた音声中間言語文字列と、を対応付けた表記中間言語対応情報により、前記表示選択ステップにより選択された前記漢字交じり表記と対応付けられた該音声中間言語文字列に基づいて、音声合成するための読みと該語調情報を組み合わせた音声中間言語文書を生成する中間言語生成ステップと、
    を有することを特徴とする音声情報生成方法。
JP2004282693A 2004-09-28 2004-09-28 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法 Pending JP2006098552A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004282693A JP2006098552A (ja) 2004-09-28 2004-09-28 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004282693A JP2006098552A (ja) 2004-09-28 2004-09-28 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法

Publications (1)

Publication Number Publication Date
JP2006098552A true JP2006098552A (ja) 2006-04-13

Family

ID=36238455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004282693A Pending JP2006098552A (ja) 2004-09-28 2004-09-28 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法

Country Status (1)

Country Link
JP (1) JP2006098552A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100811226B1 (ko) 2006-08-14 2008-03-07 주식회사 보이스웨어 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템
JP2013218406A (ja) * 2012-04-05 2013-10-24 Nippon Telegraph & Telephone West Corp タイミング編集装置、タイミング編集方法及びコンピュータプログラム
WO2016143420A1 (ja) * 2015-03-06 2016-09-15 シャープ株式会社 提示装置、提示装置の制御方法、および制御プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100811226B1 (ko) 2006-08-14 2008-03-07 주식회사 보이스웨어 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템
JP2013218406A (ja) * 2012-04-05 2013-10-24 Nippon Telegraph & Telephone West Corp タイミング編集装置、タイミング編集方法及びコンピュータプログラム
WO2016143420A1 (ja) * 2015-03-06 2016-09-15 シャープ株式会社 提示装置、提示装置の制御方法、および制御プログラム

Similar Documents

Publication Publication Date Title
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP5121252B2 (ja) 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
US20100174545A1 (en) Information processing apparatus and text-to-speech method
JP5535238B2 (ja) 情報処理装置
JP2006277677A (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP5106608B2 (ja) 読み上げ支援装置、方法、およびプログラム
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2006243673A (ja) データ検索装置および方法
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JPH06282290A (ja) 自然言語処理装置およびその方法
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP3589972B2 (ja) 音声合成装置
JP2004294542A (ja) 音声認識装置及びそのプログラム
JP2004171174A (ja) 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP4407510B2 (ja) 音声合成装置及び音声合成プログラム
JP2010039864A (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2010085581A (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
JP4208819B2 (ja) 音声合成辞書登録方法および装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080805