JPH11161651A

JPH11161651A - 発音記号生成装置

Info

Publication number: JPH11161651A
Application number: JP9327751A
Authority: JP
Inventors: Katsuyoshi Yamagami; 勝義山上; Kenji Matsui; 謙二松井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-11-28
Filing date: 1997-11-28
Publication date: 1999-06-18

Abstract

(57)【要約】【課題】変換規則を制作するコストを最小限に抑え、
かつ、未知の他国語文字列に対してももっともらしい日
本語の読みを付与すること。【解決手段】文字列とその発音記号の対データから、
変換規則となる決定木を自動的に生成する変換規則生成
部と、前期変換規則生成部から生成された変換規則を保
持する変換規則部と、前期変換規則部を参照して入力さ
れた文字列を発音記号列に変換する変換部を備えたもの
である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語音声合成装
置において英文字列などの他国語文字列に対して日本語
の発音を与える方法に関する。

【０００２】

【従来の技術】任意の文章をリアルタイムに読み上げる
ことができる規則音声合成技術は、すでに実用化されて
いる。日本語の規則音声合成技術についても、音声合成
読み上げソフトウェアなどの形で、パソコン上で日本語
テキストを読み上げるものが製品化されている。読み上
げるテキストの種類は様々なものが考えられるが、近
年、急速な普及が著しいインターネットや、ＣＤ−ＲＯ
Ｍなどの電子媒体を通じて、大量のテキストが容易に入
手可能になっている。これらの、テキストには、日本語
だけではなく英語など他国語の文字列が現れることも少
なくない。このような日本語テキストに含まれる他国語
文字列をうまく読みこなすことが、今後、ますます重要
な課題となっている。他国語の文字列をアルファベット
の羅列として読み上げるのではなく、その文字列の発音
で読み上げるのはもちろんであるが、他国語文字列をそ
の国の発音で読み上げたのでは、日本語の読み上げ音声
の中にあっては、その部分の発音が非常に聞き取りにく
いという問題がある。つまり、日本語らしく読み上げる
ために、他国語文字列に対しても日本語の発音を与える
ことが課題となっている。

【０００３】これまでの日本語規則音声合成装置におい
ても、これら他国語文字列に対する日本語の発音記号を
与えるために、他国語の文字列に対する読み方の規則を
備えるなどの方法が採用されてきた。たとえば、英文字
列に対しては、英語の単語辞書を用いて英語の発音を決
定し、その英語の発音列を英語と日本語の発音の変換テ
ーブルに従って、日本語の発音記号列に変換するという
方法があった（方式１）。

【０００４】また、ワードプロセッサなどでの応用分野
において、外来語のカタカナ文字列を入力する際に、外
来語をその綴りの通り入力して、カタカナ文字列へ変換
する方式が考えられている。英語を例に取れば、英文字
列を分割し、分割された各部分に対してカタカナ文字列
への変換規則を適用して、カタカナ文字列の候補を生成
したのち、カタカナ語辞書を参照して、候補の中から日
本語へ変換したあとの正しい候補を選択するという方法
である（方式２）。

【０００５】

【発明が解決しようとする課題】しかし、方式１では、
英文字列の英語の発音記号列を得てから、発音記号１つ
づつに対して日本語の発音記号への変換規則を適用する
ため、得られた日本語の発音記号列が日本語的な発音を
得にくいという課題があった。

【０００６】また、方式２によれば、ワードプロセッサ
などの応用を考えているため、あらかじめ外来のカタカ
ナ語辞書を用意して、その辞書を用いて英文字列から生
成したカタカナ文字列の候補をチェックするという方式
をとっている。カタカナ辞書にない未知の外来語に対し
ては、英文字列から生成されたカタカナ語の候補に対し
て正しいものを決定できないという課題があった。

【０００７】さらに、方式１では、英語発音記号から日
本語発音記号への変換規則を、方式２では、英文字列か
らカタカナ文字列への変換規則を人手で作る必要があ
り、これらの変換規則を人手で作成するコストが大きく
無視できないという課題があった。

【０００８】本発明は、これら課題を解決することを目
的とする。

【０００９】

【課題を解決するための手段】これらの課題を解決する
ために、本発明の発音記号生成装置は、文字列とその発
音記号の対データから、変換規則となる決定木を自動的
に生成する変換規則生成部と、前期変換規則生成部から
生成された変換規則を保持する変換規則部と、前期変換
規則部を参照して入力された文字列を発音記号列に変換
する変換部を備えたものである。

【００１０】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、本実施形態においては、変換しよう
とする文字列を英文字列とし、変換後の発音記号列を日
本語のカタカナ文字列として説明する。

【００１１】図１は、本実施形態の構成を示す図であ
る。１０１は、入力の英語の文字列である。１０２は、
英文字列１０１をカタカナ文字列に変換する変換部であ
る。１０３は、変換部１０２によって英文字列１０１よ
り変換されたカタカナ文字列である。

【００１２】１０４は、英文字列とカタカナ文字列の対
応例からなる対応データである。図２に、対応データ１
０４の内容の例を示す。'/' で区切られた左側が英文字
列、右側がカタカナ文字列である。英文字列は、各アル
ファベット文字が１つの文字列シンボルである。カタカ
ナ文字列は、空白文字' 'によって区切られいる単位が
一つの仮名文字シンボルである。なお、'-' は、対応す
るシンボルがないことを示す。一番上の‘／ｔａｋｅ／
テーク-／’においては、ｔ＝テ、ａ＝ー、ｋ＝ク、ｅ
＝-という対応関係を表している。

【００１３】１０５は、決定木生成部であり、対応デー
タ１０４における英文字シンボルとカタカナ文字シンボ
ルの対応関係から、英文字列からカタカナ文字列への変
換規則となる決定木を生成する。

【００１４】１０６は、決定木生成部１０５が生成した
変換用決定木である。本実施形態での変換用決定木１０
６は、英文字中のある位置にある英文字シンボルについ
て、その英文字シンボルに対応する仮名文字シンボル
を、英文字シンボルの前後ｎ文字内に位置する英文字シ
ンボルの種類（以後、英文字コンテキストと呼ぶ）から
決定するためのYES/NO形式の質問の系列を構成する。よ
って、変換用決定木１０６は、ａからｚまでの英文字シ
ンボルにつき１つづつ生成された２６個の決定木の集ま
りである。決定木の生成手順は、各英文字シンボルに対
して同一であるので、一つの英文字シンボルについての
み生成手順を説明する。

【００１５】以下、決定木生成部１０５が、対応データ
１０４から変換用決定木１０６の 'a'の決定木を生成す
る手続きについて説明する。

【００１６】ステップ１：対応データ１０４に含まれる
データのうち‘ａ’を含むデータを取りだし、図３の３
０１に示す英文字コンテキストという形式のデータを作
る。この英文字コンテキストとは、対応データの英文字
列の中で‘ａ’の現れる位置を０とし、その前３文字か
ら後３文字（３文字に満たない場合は‘＃’を割り当て
る）を並べたものである。−ｎは、前ｎ文字目の位置を
示し、＋ｎは、後ろｎ文字目の位置を示す。英文字コン
テキスト３０１の左側にあるのは、カタカナ文字列３０
２である。これは、各英文字コンテキストの０の位置に
ある‘ａ’が対応データ内で対応していた仮名文字シン
ボル、あるいは、仮名文字列である。

【００１７】ステップ２：次に、仮名文字列３０２が同
一であるものを一つのグループと考える。図３において
は、仮名文字列が‘/ー/’であるグループ１と、‘/-
ッ/’であるグループ２と、‘/イ/’であるグループ３
に分かれる。

【００１８】ステップ３：グループの中に含まれる英文
字コンテキストの数が多いものを選ぶ。そのグループ
と、それ以外のグループを区別する、英文字コンテキス
トの各位置にある英文字の種類を調べる（たとえば、グ
ループ１とグループ２、グループ３を区別するには、＋
２の位置にある‘ｅ’に注目する）。そのような位置ｉ
と英文字ｃが見つかった場合は、決定木の分岐ノードを
生成しその分岐ノードでの分岐条件をｉ＝ｃとし、その
条件を満たす分岐（Ｙｅｓ）に対して、そのグループの
カタカナ文字列を割り当てる。条件を満たさない分岐
（Ｎｏ）に対しては、残ったグループが２つ以上あれ
ば、その残りのグループに対してステップ３の手順を行
い生成される分岐ノードを割り当てる。残ったグループ
が一つだけであれば、そのグループのカタカナ文字列を
割り当てて終了する。グループを区別する文字位置と文
字の種類がみつからなかった場合は、これらのグループ
をステップ３の結果として終了する（前回のステップ３
の条件を満たさない分岐（Ｎｏ）に割り当てる）。

【００１９】以上の手順に従って、図３の英文字コンテ
キスト３０１と仮名文字列３０２から得られた決定木
は、図４のようになる。４０１は、グループ１とグルー
プ２、グループ３を分割する分岐ノードである。４０２
は、グループ２とグループ３を分割する分岐ノードであ
る。

【００２０】この手順に従って、他の英文字列について
も決定木を生成し、変換決定木１０６を構成する。

【００２１】次に、変換部１０２が変換決定木１０６を
参照して英文字列をカタカナ文字列に変換する手順を説
明する。

【００２２】図５に英文字‘ｔ’、‘ｐ’、‘ｅ’に対
する決定木を示す。今、これら決定木と図４の‘ａ’に
対する決定木が変換決定木１０６に含まれているものと
する。入力文字列１０１として‘ｔａｐｅ’を与える。
変換部１０２は、入力の英文字列の前後に３つの‘＃’
を追加する。‘＃’を除く先頭の英文字シンボルから順
に、変換決定木１０６の対応する決定木を適用する。

【００２３】１番目の‘ｔ’に対しては、‘ｔ’の直後
の英文字は‘ａ’であるので分岐ノード５０１の条件を
満たさない。よって、Ｎｏに分岐し、分岐ノード５０２
に進む。分岐ノード５０２の条件も満たさないので、Ｎ
ｏを選択し、‘ｔ’に対応するカタカナ文字は、‘テ’
となる。

【００２４】２番目の‘ａ’に対しては、分岐ノード４
０１の条件を満たすので、Ｙｅｓに分岐して、対応する
カタカナ文字列は、‘ー’となる。

【００２５】３番目の‘ｐ’に対しては、分岐ノード５
０３の条件を満たさないので、Ｎｏへと分岐し、対応す
るカタカナ文字‘プ’を得る。

【００２６】４番目の‘ｅ’に対しては、本実施形態で
の対応データには、‘-’との対応のみ現れてるので、
一意にダミーのカタカナ文字‘-’となる。

【００２７】以上のように、本実施形態の対応データ１
０４の中に現れなかった英文字列‘ｔａｐｅ’から‘テ
ープ’へと変換が行われる。

【００２８】本実施の形態では、英文字コンテキストの
幅を前後３文字としたが、これはこれより多い文字数を
コンテキストと考えてもよい。また、本実施形態におい
ては、発音記号列をカタカナ文字列としたが、ローマ字
表記のアルファベット列としてもよい。

【００２９】

【発明の効果】以上の説明から明らかなように、本発明
によれば、文字列とその発音記号列である対応データか
ら自動的に変換規則となる決定木を生成することで、変
換規則を制作するコストを大幅に軽減できる。また、本
発明によれば、対応データにない英文字列にたいしても
決定木を参照することにより、発音記号列を求めること
が可能であるという特徴を有する。

【図面の簡単な説明】

【図１】本発明の一実施形態である発音記号生成装置の
構成を示すブロック図

【図２】本発明の一実施形態において英文字列とカタカ
ナ文字列の対応データの例を示す図

【図３】本発明の一実施形態において、対応データから
‘ａ’に関して抜き出した英文字列コンテキストと対応
するカタカナ文字列の組、および、そのグループ分けを
示す図

【図４】本発明の一実施形態において‘ａ’に関して英
文字列コンテキストとカタカナ文字列から得られた決定
木の例を示す図

【図５】本発明の一実施形態における‘ｔ’、‘ｐ’、
‘ｅ’に関する決定木の例を示す図

【符号の説明】

１０１英文字列１０２変換部１０３カタカナ文字列１０４対応データ１０５決定木生成部１０６変換用決定木

Claims

【特許請求の範囲】

【請求項１】ある言語の文字列を他の言語の発音記号
列に変換する変換部と、前記変換部が文字列から発音記
号列への変換方法を決定する変換規則部と、前記変換規
則を変換例データから生成する変換規則生成部を有する
ことを特徴とする発音記号生成装置。
【請求項２】変換規則生成部が、ある言語の文字列と
他の言語の発音記号列の対応データを学習用のデータと
し、ある文字列シンボルに関して、その文字列シンボル
がどの発音記号に対応するかを決定する規則となる、前
記文字列シンボルの前後数文字に位置する文字列シンボ
ルの種類を条件とする条件分岐の系列を表す決定木を自
動的に生成することを特徴とする請求項１記載の発音記
号生成装置。
【請求項３】変換部が、入力文字列の各文字に対し
て、前後に位置する文字の種類について、変換規則保持
部にある決定木の条件分岐に従って発音記号を割り当て
ることを特徴とする請求項１記載の発音記号生成装置。