JPH11161651A - 発音記号生成装置 - Google Patents

発音記号生成装置

Info

Publication number
JPH11161651A
JPH11161651A JP9327751A JP32775197A JPH11161651A JP H11161651 A JPH11161651 A JP H11161651A JP 9327751 A JP9327751 A JP 9327751A JP 32775197 A JP32775197 A JP 32775197A JP H11161651 A JPH11161651 A JP H11161651A
Authority
JP
Japan
Prior art keywords
character string
symbol
string
conversion
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9327751A
Other languages
English (en)
Inventor
Katsuyoshi Yamagami
勝義 山上
Kenji Matsui
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9327751A priority Critical patent/JPH11161651A/ja
Publication of JPH11161651A publication Critical patent/JPH11161651A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 変換規則を制作するコストを最小限に抑え、
かつ、未知の他国語文字列に対してももっともらしい日
本語の読みを付与すること。 【解決手段】 文字列とその発音記号の対データから、
変換規則となる決定木を自動的に生成する変換規則生成
部と、前期変換規則生成部から生成された変換規則を保
持する変換規則部と、前期変換規則部を参照して入力さ
れた文字列を発音記号列に変換する変換部を備えたもの
である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語音声合成装
置において英文字列などの他国語文字列に対して日本語
の発音を与える方法に関する。
【0002】
【従来の技術】任意の文章をリアルタイムに読み上げる
ことができる規則音声合成技術は、すでに実用化されて
いる。日本語の規則音声合成技術についても、音声合成
読み上げソフトウェアなどの形で、パソコン上で日本語
テキストを読み上げるものが製品化されている。読み上
げるテキストの種類は様々なものが考えられるが、近
年、急速な普及が著しいインターネットや、CD−RO
Mなどの電子媒体を通じて、大量のテキストが容易に入
手可能になっている。これらの、テキストには、日本語
だけではなく英語など他国語の文字列が現れることも少
なくない。このような日本語テキストに含まれる他国語
文字列をうまく読みこなすことが、今後、ますます重要
な課題となっている。他国語の文字列をアルファベット
の羅列として読み上げるのではなく、その文字列の発音
で読み上げるのはもちろんであるが、他国語文字列をそ
の国の発音で読み上げたのでは、日本語の読み上げ音声
の中にあっては、その部分の発音が非常に聞き取りにく
いという問題がある。つまり、日本語らしく読み上げる
ために、他国語文字列に対しても日本語の発音を与える
ことが課題となっている。
【0003】これまでの日本語規則音声合成装置におい
ても、これら他国語文字列に対する日本語の発音記号を
与えるために、他国語の文字列に対する読み方の規則を
備えるなどの方法が採用されてきた。たとえば、英文字
列に対しては、英語の単語辞書を用いて英語の発音を決
定し、その英語の発音列を英語と日本語の発音の変換テ
ーブルに従って、日本語の発音記号列に変換するという
方法があった(方式1)。
【0004】また、ワードプロセッサなどでの応用分野
において、外来語のカタカナ文字列を入力する際に、外
来語をその綴りの通り入力して、カタカナ文字列へ変換
する方式が考えられている。英語を例に取れば、英文字
列を分割し、分割された各部分に対してカタカナ文字列
への変換規則を適用して、カタカナ文字列の候補を生成
したのち、カタカナ語辞書を参照して、候補の中から日
本語へ変換したあとの正しい候補を選択するという方法
である(方式2)。
【0005】
【発明が解決しようとする課題】しかし、方式1では、
英文字列の英語の発音記号列を得てから、発音記号1つ
づつに対して日本語の発音記号への変換規則を適用する
ため、得られた日本語の発音記号列が日本語的な発音を
得にくいという課題があった。
【0006】また、方式2によれば、ワードプロセッサ
などの応用を考えているため、あらかじめ外来のカタカ
ナ語辞書を用意して、その辞書を用いて英文字列から生
成したカタカナ文字列の候補をチェックするという方式
をとっている。カタカナ辞書にない未知の外来語に対し
ては、英文字列から生成されたカタカナ語の候補に対し
て正しいものを決定できないという課題があった。
【0007】さらに、方式1では、英語発音記号から日
本語発音記号への変換規則を、方式2では、英文字列か
らカタカナ文字列への変換規則を人手で作る必要があ
り、これらの変換規則を人手で作成するコストが大きく
無視できないという課題があった。
【0008】本発明は、これら課題を解決することを目
的とする。
【0009】
【課題を解決するための手段】これらの課題を解決する
ために、本発明の発音記号生成装置は、文字列とその発
音記号の対データから、変換規則となる決定木を自動的
に生成する変換規則生成部と、前期変換規則生成部から
生成された変換規則を保持する変換規則部と、前期変換
規則部を参照して入力された文字列を発音記号列に変換
する変換部を備えたものである。
【0010】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、本実施形態においては、変換しよう
とする文字列を英文字列とし、変換後の発音記号列を日
本語のカタカナ文字列として説明する。
【0011】図1は、本実施形態の構成を示す図であ
る。101は、入力の英語の文字列である。102は、
英文字列101をカタカナ文字列に変換する変換部であ
る。103は、変換部102によって英文字列101よ
り変換されたカタカナ文字列である。
【0012】104は、英文字列とカタカナ文字列の対
応例からなる対応データである。図2に、対応データ1
04の内容の例を示す。'/' で区切られた左側が英文字
列、右側がカタカナ文字列である。英文字列は、各アル
ファベット文字が1つの文字列シンボルである。カタカ
ナ文字列は、空白文字' 'によって区切られいる単位が
一つの仮名文字シンボルである。なお、'-' は、対応す
るシンボルがないことを示す。一番上の‘/take/
テーク-/’においては、t=テ、a=ー、k=ク、e
=-という対応関係を表している。
【0013】105は、決定木生成部であり、対応デー
タ104における英文字シンボルとカタカナ文字シンボ
ルの対応関係から、英文字列からカタカナ文字列への変
換規則となる決定木を生成する。
【0014】106は、決定木生成部105が生成した
変換用決定木である。本実施形態での変換用決定木10
6は、英文字中のある位置にある英文字シンボルについ
て、その英文字シンボルに対応する仮名文字シンボル
を、英文字シンボルの前後n文字内に位置する英文字シ
ンボルの種類(以後、英文字コンテキストと呼ぶ)から
決定するためのYES/NO形式の質問の系列を構成する。よ
って、変換用決定木106は、aからzまでの英文字シ
ンボルにつき1つづつ生成された26個の決定木の集ま
りである。決定木の生成手順は、各英文字シンボルに対
して同一であるので、一つの英文字シンボルについての
み生成手順を説明する。
【0015】以下、決定木生成部105が、対応データ
104から変換用決定木106の 'a'の決定木を生成す
る手続きについて説明する。
【0016】ステップ1:対応データ104に含まれる
データのうち‘a’を含むデータを取りだし、図3の3
01に示す英文字コンテキストという形式のデータを作
る。この英文字コンテキストとは、対応データの英文字
列の中で‘a’の現れる位置を0とし、その前3文字か
ら後3文字(3文字に満たない場合は‘#’を割り当て
る)を並べたものである。−nは、前n文字目の位置を
示し、+nは、後ろn文字目の位置を示す。英文字コン
テキスト301の左側にあるのは、カタカナ文字列30
2である。これは、各英文字コンテキストの0の位置に
ある‘a’が対応データ内で対応していた仮名文字シン
ボル、あるいは、仮名文字列である。
【0017】ステップ2:次に、仮名文字列302が同
一であるものを一つのグループと考える。図3において
は、仮名文字列が‘/ー/’であるグループ1と、‘/-
ッ/’であるグループ2と、‘/イ/’であるグループ3
に分かれる。
【0018】ステップ3:グループの中に含まれる英文
字コンテキストの数が多いものを選ぶ。そのグループ
と、それ以外のグループを区別する、英文字コンテキス
トの各位置にある英文字の種類を調べる(たとえば、グ
ループ1とグループ2、グループ3を区別するには、+
2の位置にある‘e’に注目する)。そのような位置i
と英文字cが見つかった場合は、決定木の分岐ノードを
生成しその分岐ノードでの分岐条件をi=cとし、その
条件を満たす分岐(Yes)に対して、そのグループの
カタカナ文字列を割り当てる。条件を満たさない分岐
(No)に対しては、残ったグループが2つ以上あれ
ば、その残りのグループに対してステップ3の手順を行
い生成される分岐ノードを割り当てる。残ったグループ
が一つだけであれば、そのグループのカタカナ文字列を
割り当てて終了する。グループを区別する文字位置と文
字の種類がみつからなかった場合は、これらのグループ
をステップ3の結果として終了する(前回のステップ3
の条件を満たさない分岐(No)に割り当てる)。
【0019】以上の手順に従って、図3の英文字コンテ
キスト301と仮名文字列302から得られた決定木
は、図4のようになる。401は、グループ1とグルー
プ2、グループ3を分割する分岐ノードである。402
は、グループ2とグループ3を分割する分岐ノードであ
る。
【0020】この手順に従って、他の英文字列について
も決定木を生成し、変換決定木106を構成する。
【0021】次に、変換部102が変換決定木106を
参照して英文字列をカタカナ文字列に変換する手順を説
明する。
【0022】図5に英文字‘t’、‘p’、‘e’に対
する決定木を示す。今、これら決定木と図4の‘a’に
対する決定木が変換決定木106に含まれているものと
する。入力文字列101として‘tape’を与える。
変換部102は、入力の英文字列の前後に3つの‘#’
を追加する。‘#’を除く先頭の英文字シンボルから順
に、変換決定木106の対応する決定木を適用する。
【0023】1番目の‘t’に対しては、‘t’の直後
の英文字は‘a’であるので分岐ノード501の条件を
満たさない。よって、Noに分岐し、分岐ノード502
に進む。分岐ノード502の条件も満たさないので、N
oを選択し、‘t’に対応するカタカナ文字は、‘テ’
となる。
【0024】2番目の‘a’に対しては、分岐ノード4
01の条件を満たすので、Yesに分岐して、対応する
カタカナ文字列は、‘ー’となる。
【0025】3番目の‘p’に対しては、分岐ノード5
03の条件を満たさないので、Noへと分岐し、対応す
るカタカナ文字‘プ’を得る。
【0026】4番目の‘e’に対しては、本実施形態で
の対応データには、‘-’との対応のみ現れてるので、
一意にダミーのカタカナ文字‘-’となる。
【0027】以上のように、本実施形態の対応データ1
04の中に現れなかった英文字列‘tape’から‘テ
ープ’へと変換が行われる。
【0028】本実施の形態では、英文字コンテキストの
幅を前後3文字としたが、これはこれより多い文字数を
コンテキストと考えてもよい。また、本実施形態におい
ては、発音記号列をカタカナ文字列としたが、ローマ字
表記のアルファベット列としてもよい。
【0029】
【発明の効果】以上の説明から明らかなように、本発明
によれば、文字列とその発音記号列である対応データか
ら自動的に変換規則となる決定木を生成することで、変
換規則を制作するコストを大幅に軽減できる。また、本
発明によれば、対応データにない英文字列にたいしても
決定木を参照することにより、発音記号列を求めること
が可能であるという特徴を有する。
【図面の簡単な説明】
【図1】本発明の一実施形態である発音記号生成装置の
構成を示すブロック図
【図2】本発明の一実施形態において英文字列とカタカ
ナ文字列の対応データの例を示す図
【図3】本発明の一実施形態において、対応データから
‘a’に関して抜き出した英文字列コンテキストと対応
するカタカナ文字列の組、および、そのグループ分けを
示す図
【図4】本発明の一実施形態において‘a’に関して英
文字列コンテキストとカタカナ文字列から得られた決定
木の例を示す図
【図5】本発明の一実施形態における‘t’、‘p’、
‘e’に関する決定木の例を示す図
【符号の説明】
101 英文字列 102 変換部 103 カタカナ文字列 104 対応データ 105 決定木生成部 106 変換用決定木

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ある言語の文字列を他の言語の発音記号
    列に変換する変換部と、前記変換部が文字列から発音記
    号列への変換方法を決定する変換規則部と、前記変換規
    則を変換例データから生成する変換規則生成部を有する
    ことを特徴とする発音記号生成装置。
  2. 【請求項2】 変換規則生成部が、ある言語の文字列と
    他の言語の発音記号列の対応データを学習用のデータと
    し、ある文字列シンボルに関して、その文字列シンボル
    がどの発音記号に対応するかを決定する規則となる、前
    記文字列シンボルの前後数文字に位置する文字列シンボ
    ルの種類を条件とする条件分岐の系列を表す決定木を自
    動的に生成することを特徴とする請求項1記載の発音記
    号生成装置。
  3. 【請求項3】 変換部が、入力文字列の各文字に対し
    て、前後に位置する文字の種類について、変換規則保持
    部にある決定木の条件分岐に従って発音記号を割り当て
    ることを特徴とする請求項1記載の発音記号生成装置。
JP9327751A 1997-11-28 1997-11-28 発音記号生成装置 Pending JPH11161651A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9327751A JPH11161651A (ja) 1997-11-28 1997-11-28 発音記号生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9327751A JPH11161651A (ja) 1997-11-28 1997-11-28 発音記号生成装置

Publications (1)

Publication Number Publication Date
JPH11161651A true JPH11161651A (ja) 1999-06-18

Family

ID=18202586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9327751A Pending JPH11161651A (ja) 1997-11-28 1997-11-28 発音記号生成装置

Country Status (1)

Country Link
JP (1) JPH11161651A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510218A (ja) * 2000-06-16 2004-04-02 ゼネラル・エレクトリック・カンパニイ ウェブ利用プロセスアドバイザアプリケーションを生成するシステム及び方法
JP2015026054A (ja) * 2013-07-29 2015-02-05 韓國電子通信研究院Electronics and Telecommunications Research Institute 自動通訳装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510218A (ja) * 2000-06-16 2004-04-02 ゼネラル・エレクトリック・カンパニイ ウェブ利用プロセスアドバイザアプリケーションを生成するシステム及び方法
JP2015026054A (ja) * 2013-07-29 2015-02-05 韓國電子通信研究院Electronics and Telecommunications Research Institute 自動通訳装置及び方法

Similar Documents

Publication Publication Date Title
Silberztein Formalizing natural languages: The NooJ approach
US20070011160A1 (en) Literacy automation software
Abdurakhmonova et al. Developing NLP tool for linguistic analysis of Turkic languages
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Onyenwe Developing methods and resources for automated processing of the african language igbo
de Silva et al. Singlish to sinhala transliteration using rule-based approach
Abu Bakar et al. NUWT: Jawi-specific Buckwalter corpus for Malays word tokenization
Aranta et al. Utilization Of Hexadecimal Numbers In Optimization Of Balinese Transliteration String Replacement Method
Shimomura et al. The translation system from Japanese into braille by using MeCab
Athukorala et al. Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
Chiruzzo et al. Findings of the AmericasNLP 2024 shared task on the creation of educational materials for indigenous languages
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
JPH11161651A (ja) 発音記号生成装置
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
Debnath et al. A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words
Aichaoui et al. SPIRAL: SP ell I ng e R ror Parallel Corpus for A rabic L anguage
Angle et al. Kannada morpheme segmentation using machine learning
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
Anusha et al. iKan—A Kannada Transliteration Tool for Assisted Linguistic Learning
US20240160839A1 (en) Language correction system, method therefor, and language correction model learning method of system
Deksne et al. Towards the Development of Language Analysis Tools for the Written Latgalian Language
RAHMAN A SYSTEM FOR CHECKING SPELLING, SEARCHING NAME & PROVIDING SUGGESTIONS IN BANGLA WORD
Gamble et al. A Wikchamni Dictionary