JP2009199434A

JP2009199434A - アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム

Info

Publication number: JP2009199434A
Application number: JP2008041602A
Authority: JP
Inventors: Michihiro Yamazaki; 道弘山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-02-22
Filing date: 2008-02-22
Publication date: 2009-09-03

Abstract

【課題】アルファベット表記されている文字列の日本語読みへ変換精度を向上させることを目的とする。
【解決手段】英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部とを備えたものである。
【選択図】図２

Description

この発明は、英単語等のアルファベットからなる文字列を当該アルファベット文字列に対応する日本語読みへ変換するアルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラムに関するものである。

英単語等のアルファベット文字列を日本語の読みに変換する従来技術として、例えば、特開２００１−１４２８７７公報（特許文献１）には、アルファベット文字列から直接日本語読みに変換する技術について開示されている。これは、アルファベット文字列の部分文字列と日本語読みとの対応付けをあらかじめ学習しておき、新しいアルファベット文字列が入力された際に最も確からしい部分文字列の組み合わせを求めて日本語読みに変換するものである。

また、文献「K. Knight and J. Graehl 「Machine Transliteration」, Computational Linguistics, vol.24, No.4, pp. 599 - 612 (1998)」（非特許文献１）においては、英語の発音記号から日本語読みへの変換方法が開示されている。これは、英語の発音記号に対する日本語読みの確率情報に基づいて、英語の発音記号から日本語読みへ変換するものである。

他に、一般的な技術として、アルファベット文字列に対する日本語読みをあらかじめ用意しておき、このデータベースを用いて、アルファベット文字列を日本語読みに変換する技術がある。

K. Knight and J. Graehl 「Machine Transliteration」, Computational Linguistics, vol.24, No.4, pp. 599 - 612 (1998) 特開２００１−３１９０２２公報（段落番号［００１１］、図１）

しかしながら、アルファベット文字列の部分文字列と日本語読みとの対応付けをあらかじめ学習しておく従来技術においては、学習データに無いアルファベット文字列、例えば、特殊な読みをする英単語に対応できないと言う問題点がある。
また、英語発音表記の情報を用いないので、英語音声認識用の英語表記とその発音に関する既存のデータベースを使用することが出来ないと言う問題点がある。このような既存のデータベースとして、固有名詞などの特殊な読みをする英語表記などに対しても正しい発音が付与されているものもあるが、英語表記から直接日本語に変換する方法では、英語発音表記の情報を用いないので、これらの特殊な読みに対応することは難しい。

また、英語の発音記号に対する日本語の読みの確率情報に基づいて、英語の発音記号から日本語の読みへ変換する従来技術においては、曖昧な母音を表す下記発音記号（１）など発音表記から日本語読みに変換するのが難しい発音が存在するという問題がある。例えば、図１に示すように曖昧母音＠（X_SAMPA形式）に対応する日本語の母音としては、／ａ／、／ｉ／、／ｅ／、／ｏ／（音素表記）等となる可能性がある。

また、アルファベット文字列とそのアルファベット文字列に対応する日本語読みとのデータを用いて、アルファベット文字列を日本語読みに変換する従来技術においては、新たなアルファベット文字列が追加される度に新たにデータベースを整備しなおす必要があり、コストがかかると言う問題点がある。

この発明は上記のような課題を解決するためになされたもので、アルファベット表記されている文字列の日本語読みへ変換精度を向上させることが出来るアルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラムを提供することを目的とする。

この発明に係るアルファベット文字列日本語読み変換装置は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部とを備えたものである。

この発明に係るアルファベット文字列日本語読み変換プログラムは、アルファベット文字列を当該アルファベット文字列に対応する日本語読みへ変換するために、コンピュータを、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出す規則データ読み出し手段と、上記規則データ読み出し手段で読み出された規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換手段として機能させるためのものである。

この発明によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースを用いて、上記アルファベット文字列に対応する日本語読みを出力するので、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る効果がある。

この発明によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出し、読み出された規則データを用いて、上記アルファベット文字列に対応する日本語読みを出力するので、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る効果がある。

実施の形態１．
図２は、この発明の実施の形態１によるアルファベット文字列日本語読み変換装置を示す構成図である。本実施の形態では、本実施の形態におけるアルファベット文字列日本語読み変換装置が、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列を入力とし、上記アルファベット文字列に対応する日本語読みを出力する場合について説明する。

図２において、発音対応付け用データベース１は、アルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データが格納されている。本実施の形態では、アルファベット表記と当該アルファベット表記に対して取り得る英語発音表記の候補を持つ。アルファベット文字列・発音表記対応付け部２は、上記発音対応付け用データベース１を用いて、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付ける。

規則データベース３は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。本実施の形態では、上記規則データベース３は、発音表記変換規則データベース３０１と補正規則データベース３０２を備えている。

上記発音表記変換規則データベース３０１は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、アルファベット表記の参照要否情報とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。補正規則データベース３０２は、例えば、上記発音表記変換規則データベース３０１の規則データにより、アルファベット表記の参照を要する場合に用いられるものであって、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。

日本語読み変換部４は、上記規則データベース３を用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた変換対象情報（入力情報）から、上記アルファベット文字列に対応する日本語読みを出力する。本実施の形態では、上記アルファベット文字列・発音表記対応付け部２で対応付けられたアルファベット文字部分列と英語発音表記部分列とを変換対象情報（入力情報）として入力する。また、本実施の形態では、上記日本語読み変換部４は、英語発音表記日本語読み変換部４０１と、アルファベット表記日本語読み補正部４０２と、日本語読み出力部４０３とを備えている。

上記英語発音表記日本語読み変換部４０１は、上記発音表記変換規則データベース３０１を用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた変換対象情報（入力情報）から、上記アルファベット文字列に対応する日本語読みと、アルファベット表記の参照要否情報とを出力する。上記アルファベット表記日本語読み補正部４０２は、上記英語発音表記日本語読み変換部４０１の出力結果に基づいて、アルファベット表記の参照を要する英語発音表記部分列について、上記補正規則データベース３０２を用いて、上記アルファベット文字列に対応する日本語読みを補正して出力する。上記日本語読み出力部４０３は、上記アルファベット表記日本語読み補正部４０２から出力された日本語読みの形式を調整して出力する。

本実施の形態では、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力する。また、上記英語発音表記日本語読み変換部４０１及びアルファベット表記日本語読み補正部４０２において、日本語読みの発音が複数候補存在する場合は、一つの英語発音表記列に対して複数の日本語読みを出力する。例えば、日本語読みの発音が複数候補として出力された箇所（英語発音表記部分列）について、入力されたアルファベット文字列に対する日本語読みが複数存在するものとして、確からしさを示す指標を付与して出力を行う。なお、上記構成において複数読みが存在しない場合は、読みが一つに決定されたものとして出力を行う。

次に、動作について説明する。
本実施の形態では、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列との対を入力とする。アルファベット文字列に対する英語発音表記は、例えば英語用に整備されたアルファベット文字列（英単語）とその発音表記を記述したデータベースを使用して取得されたもの、あるいは、アルファベット文字列（英語表記）から英語発音表記（音素表記）に変換するプログラムを使用して英語発音表記に変換されたもの等で得られる。
このように、英語用に整備された読みデータベースや、英語表記から読みへの変換プログラムと組み合わせることにより、簡易かつ低コストで、アルファベット文字列に対応する英語発音表記を得ることができる。

アルファベット文字列・発音表記対応付け部２は、発音対応付け用データベース１に格納されているアルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データを用いて、入力されたアルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付け、その情報を出力する。

図３は、発音対応付け用データベース１に格納されているアルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データの例を示す。図３において、アルファベット表記、及び英語発音表記はそれぞれ１文字以上からなる文字列である。またアルファベット表記と英語発音表記との対応付けは一対一である必要はなく、一対多あるいは多対多の対応付けであってもかまわない。

また、対応付けの方法としてはＤＰマッチングなどで対応付けをおこなう。また各対応付けに確率をつけ、例えば、アルファベット表記Aに対して英語発音表記Bが出現する確率をＰ（Ｂ｜Ａ）と表記する場合、Ｐ（／ｅ＿Ｈｉ／，ａ）＝０．２、Ｐ（／｛＿Ｈ／，ａ）＝０．１などとして、最大確率をとるものを選択しても良い。

次に、日本語読み変換部４は、規則データベース３を用いて、上記アルファベット文字列・発音表記対応付け部２で対応付けられたアルファベット文字部分列と英語発音表記部分列とを変換対象情報（入力情報）として、上記アルファベット文字列に対応する日本語読みを出力する。

以下、日本語読み変換部４の動作について説明する。
まず、「英語発音表記からの日本語読み生成」を行う。
英語発音表記日本語読み変換部４０１は、英語発音表記列から日本語読み候補を作成すると共に、アルファベット表記の参照要否情報を出力する。英語発音表記列から日本語読み変換は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、に基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データにより変換を行う。この規則データは、発音表記変換規則データベース３０１に格納されている。

図４は、発音表記変換規則データベース３０１に格納されている規則データ例を示す。
なお、図４では日本語の発音表記は音素表記、英語発音表記はX-SAMPA形式で表している。また、図４において、発音の先行、後続欄に記述されている「＃」は無音を表し、先行に「＃」が記述されている発音表記は先頭、後続に「＃」が記述されている場合は最後尾であることを表している。また、「＊」は任意の表記をあらわしているものであり、例えば発音先行欄に「＊」が記述されている場合は、先行発音表記によらずに同じ変換を行うことを示している。また、「＊」が記述されている場合は表記によらずに変換を行うことを意味し、表記欄に「参照」と記載されている規則はアルファベット表記に依存して日本語読みが変わることを意味している。また、この規則データで変換される日本語読みについて、複数の読みを指定することも可能である。
英語発音表記日本語読み変換部４０１は、表記欄に「参照」と記載されている場合、規則データに記載されている読みに一度変換すると共に、アルファベット表記参照用フラグ（アルファベット表記の参照要否情報）を立てておく。

以下に、英語発音表記日本語読み変換部４０１における日本語読み変換処理の例を示す。
例えば、trouble （／ｔｒＶ＿Ｈｂｌ／）に対して図４に示す規則で変換を行うと、先行発音表記なし（先頭）で後続発音表記が/r/の発音表記/t/に対する日本語読みは／ｔｏ／、先行発音表記が／ｔ／で後続発音表記が／Ｖ＿Ｈ／（母音）の発音表記／ｒ／に対する日本語読みは／ｒ／、発音表記／Ｖ＿Ｈ／に対する日本語読みは／ａ／、後続発音表記が／ｌ／（子音）の発音表記／ｂ／に対する日本語読みは／ｂｕ／、最後（後続母音なし）の発音表記／ｌ／に対する日本語読みは／ｒｕ／となる。以上の変換により、trouble （／ｔｒＶ＿Ｈｂｌ／）の日本語読みは／ｔｏｒａｂｕｒｕ／となる。

また、animal（／｛＿Ｈｎ＠ｍ＠ｌ／）の場合は、後続が子音する／｛＿Ｈ／に対する日本語読みが／ａ／、母音が後続する／ｎ／に対する日本語読みが／ｎ／、／＠／は表記参照のため、以後のステップで補正するためのアルファベット表記参照用フラグ（アルファベット表記の参照要否情報）が立てられ、日本語読みとしては／｛ａ，ｏ｝／（／ａ／または／ｏ／）となる。母音が後続する／ｍ／の日本語読みは／ｍ／、語尾の／ｌ／の日本語読みは／ｒｕ／にとなる。したがって本ステップでのanimal（／｛＿Ｈｎ＠ｍ＠ｌ／）日本語読み結果は、／ａｎ｛ａ，ｏ｝ｍ｛ａ，ｏ｝ｒｕ／となり、英語発音表記／＠／の箇所にアルファベット表記参照用フラグ（アルファベット表記の参照要否情報）が立てられる。

次に、「アルファベット表記による日本語読みの補正」を行う。
アルファベット表記日本語読み補正部４０２において、上記英語発音表記日本語読み変換部４０１の出力結果に基づいて、アルファベット表記の参照を要する英語発音表記部分列（アルファベット表記参照用フラグが立っている箇所）について、上記補正規則データベース３０２を用いて、発音表記と対応する箇所のアルファベット表記を参照し、日本語読みを補正して出力する。

補正規則データベース３０２には、上記アルファベット表記日本語読み補正部４０２において、アルファベット表記を参照して日本語読みの補正を行う際に使用される規則データが格納されている。
図５は、補正規則データベース３０２に格納されている規則データの例を示す。

以下に、アルファベット表記日本語読み補正部４０２における補正処理の例を示す。
animal（／｛＿Ｈｎ＠ｍ＠ｌ／）を例に取ると、英語発音表記日本語読み変換部４０１で日本語読みに変換した結果／ａｎ｛ａ，ｏ｝ｍ｛ａ，ｏ｝ｒｕ／となるが、英語発音表記／＠／の２箇所にはアルファベット表記参照用フラグ（アルファベット表記の参照要否情報）が立っている。最初の／＠／に関しては、先行発音表記／ｎ／（子音）、後続発音表記／ｍ／（子音）で、対応するアルファベット表記は「ｉ」である。このため図５の規則データから日本語読みは／ｉ／となる。また、２番目の／＠／に関しては、先行発音表記／ｍ／（子音）、後続発音表記／ｌ／（子音）で、対応するアルファベット表記は「ａ」である。このため図５の規則から日本語読みは／ａ／となる。以上のように補正した結果、日本語読みは／ａｎｉｍａｒｕ／となる。

この母音／＠／は、日本語の母音／ａ／、／ｅ／、／ｉ／、／ｏ／、／ｕ／とはことなる発音であり、中間的な発音となることから曖昧母音などとも呼ばれている。この母音が使用される英単語の例として他に例えば、system（／ｓＩ＿Ｈｓｔ＠ｍ／）、supply（／ｓ＠ｐｌＡ＿ＨＩ／）等がある。これらは通常日本語読みで表記するとシステム（／ｓｉｓｕｔｅｍｕ／）、サプライ（／ｓａｐｕｒａｉ／）となり、英語発音表記／＠／がそれぞれ、／ｅ／、／ａ／となっていることがわかる。

また、英語発音表記のみでは特定でずに、英語表記に影響を受ける子音の例として／ｎ／がある。例えば、panel（／ｐ｛＿Ｈｎｌ／）、Stanley（／ｓｔ｛＿Ｈｎｌｉ／）、final（／ｆＡ＿ＨＩｎｌ／）、vinyl（／ｖＡ＿ＨＩｎｌ／）などがある。これらは、通常日本語読みで表記すると、パネル（／ｐａｎｅｒｕ／）、スタンリー（／ｓｕｔａＮｒｉｉ／）、ファイナル（／ｆａｉｎａｒｕ／）、ビニール（／ｂｉｎｉｉｒｕ／）となり、英語発音表記／ｎ／が日本語読みではそれぞれ／ｎｅ／、／Ｎ／、／ｎａ／、／ｎｉ／となっていることがわかる。これらの例では英語発音表記/n/に後続する英語発音表記は／ｌ／であり、さらに先行発音表記が同じものでも日本語読みが異なっていることがわかる。この時、英語発音表記/n/に対応するアルファベット文字列はｎｅ、ｎ、ｎａ、ｎｙとなっている。この様な場合でも補正規則データベース３０２に記憶されている規則データを用いてそれぞれ、／ｎｅ／、／Ｎ／、／ｎａ／、／ｎｉ／に変換する。

次に、「曖昧性が解消できなかった場合の処理」を行う。
日本語読み出力部４０３において、上記英語発音表記日本語読み変換部４０１及びアルファベット表記日本語読み補正部４０２において、日本語読みの発音が複数候補として出力された箇所について、入力されたアルファベット文字列に対する日本語読みが複数存在するものとして確からしさを示す指標（スコア（確率））を付与して出力を行う。なお、上記構成において複数読みが存在しない場合は、読みが一つに決定されたものとして出力を行う。また、確からしさを示す指標（スコア（確率））について、アルファベット文字列に対する日本語読み全体に対して付与する。また、日本語読みの発音が複数候補として出力された箇所について付与する。また、各アルファベット文字部分列又は各英語発音表記部分列について付与する。これらのいずれか少なくとも１つの指標を付与するものとする。

また、日本語読みの候補として出力された箇所のうち、日本語読みとして妥当でないものにたいしての補正や、長音化処理も行う。
例えば、日本語読みが複数存在するものとして出力される例として、発音記号列／ｋ｛＿Ｈｎ／、対応するアルファベット文字列 can のような例がある。このような英単語としては、canada（／ｋ｛＿Ｈｎ＠ｄ＠／）、canopy（／ｋ｛＿Ｈｎ＠ｐｉ／）、canvas（／ｋ｛＿Ｈｎｖ＠ｓ／）などでありこれらのアルファベット文字列に対する日本語読みはそれぞれ、カナダ（／ｋａｎａｄａ／）、キャノピー（／ｋｊａｎｏｐｉｉ／）、キャンバス（／ｋｊａＮｂａｓｕ／）となるが、canvasについてはカンバス（ｋａＮｂａｓｕ）と読む場合もあり、日本語読みとして／ｋａ／、／ｋｊａ／のどちらを割り当てることが難しい。この様な場合、日本語読みとしては／ｋａ／、／ｋｊａ／双方の読みがあるとして複数の候補が割り当てる。例えば、canada（／ｋ｛＿Ｈｎ＠ｄ＠／）に対しては、カナダ（／ｋａｎａｄａ／）及びキャナダ（／ｋｊａｎａｄａ／）の２種類となる。

この２種類の複数読みの出力方法としては、／ｋａｎａｄａ／、／ｋｊａｎａｄａ／とそのまま複数出力する方法以外に、／｛ｋａ，ｋｊａ｝ｎａｄａ／のように一部に複数読みが存在する箇所を指定して出力する方法がある。また、各データベース（発音表記変換規則データベース３０１、補正規則データベース３０２）で複数読みが存在する場合にその読みが選択される確率をあらかじめ定めておくことで、日本語読み出力部４０３の出力時に各読み確率を付与して／｛ｋａ：0.8，ｋｊａ：0.2｝ｎａｄａ／のように出力することも可能である。

また、日本語読みとして適当でないものの例としては、撥音（／Ｎ／，ン）や、促音（／Ｑ／，ッ）など接続関係がある。例えば撥音が語頭にくる場合や、撥音が連続するような場合は通常ないため、このような場合、当該撥音を削除するなどして日本語読みとして適当な文字列になるように変更する。促音に関しても語等や語尾に現れるような場合、連続する場合は削除する。また促音に関しては母音が後続する場合や、後続する音素が／ｍ／、／ｎ／、／ｒ／、／ｗ／の場合ように通常促音が使用されない箇所においても削除、もしくは／ｃｕ／などへの置き換えを行う。また、エイ／ｅｉ／、オウ／ｏｕ／のように長音化しやすいものに関しては、日本語読みとして／｛ｅｉ，ｅｅ｝／、／｛ｏｕ，ｏｏ｝／のように長音化した日本語読みも複数候補として出力する。

以上のように、「英語発音表記からの日本語読み生成」、「アルファベット表記による日本語読みの補正」、「曖昧性が解消できなかった場合の処理」を行い、入力されたアルファベット文字列に対応する日本語読みを出力する。
なお、本実施の形態では、日本語読み変換部４の動作説明を、英語発音表記日本語読み変換部４０１によリ一度日本語読みに変換したあと、表記を参照する必要がある箇所について、アルファベット表記日本語読み補正部４０２により日本語読みを補正し、最後に日本語読み出力部４０３により出力するものとして説明したが、上記構成を同時に動作させても良い。
また、発音表記変換規則データベース３０１と補正規則データベース３０２とを統合し、一つの規則データベースとして用いても良い。

また、上記述べた実施の形態において、上記の全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラム実行したり、ＣＰＵ等の組み込みソフトウエアやファームウエアとしてプログラム実行することで達成できるものである。また、同様の動作をする回路、例えばＬＳＩ（Large Scale IC）、ＦＰＧＡ（Field Programmable Gate Array）、論理IC等の集積回路で実現しても良いし、あるいはディスクリート素子を組み合わせて実現しても良い。

また、上記のソフトウエア等は、例えばＲＯＭ、磁気ディスク（ハードディスクやリムーバブルディスク等）、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、ＬＡＮ、赤外線通信、Bluetooth、携帯電話のパケット通信等の有線・無線通信手段を用いてサーバコンピュータ上の記憶手段からダウンロードしたり、例えば、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ、ＭＯディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された上記ソフトウエアのプログラムコードが、上記実施の形態の機能を実現することとなり、これら記憶媒体等はこの発明を構成するものとなる。

また、各部を同一の計算機上で構成する場合について説明したが、この発明はこれに限定されるものではなく、例えば、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。

また、この発明は、１つ以上の複数の機器から構成されるシステムに適用しても良い。サーバコンピュータがこの発明の実施の形態を実現するプログラム等をネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータや、携帯電話、ＰＤＡ等の携帯端末機器が配信されたプログラムを実行することができる。

以上のように、本実施の形態によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報について、当該入力情報の英語発音表記部分列と、当該英語発音表記部分列の前後に連接する英語発音表記と、上記英語発音表記部分列に対応するアルファベット表記とに基づいて、日本語読みを出力することにより、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る。

すなわち、例えば、英単語を日本人が読み上げる際には、日本語にはない英語母音（例えば、／＠／）の日本語で使用される母音（／ａ／、／ｅ／、／ｉ／、／ｏ／、／ｕ／等）への置き換えや、連続する子音（／ｎｌ／）間への母音の挿入などが起きる。これらの置き換え/挿入は英語のアルファベット表記に影響を受けていることが多いため、日本語読み変換字に英語アルファベット表記を参照することにより、日本語読み変換の精度を向上させることが出来る。

また、本実施の形態においては、一つの英語発音表記列に対して複数の日本語読みを出力することにより、複数の読み方がありえる英単語や発音表記/アルファベット表記だけでは判断できないアルファベット文字列に対しても複数の読みを付与するので、より日本人の発音に近い読みを出力することが可能となる。

また、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力することにより、出力された日本語読みの精度が分かるので、例えば、ユーザに日本語読みの確からしさを提示することが可能となる。

また、一つの英語発音表記列に対して出力される読みに対し、当該日本語読みの各部分文字列ごとに、確からしさを示す指標を付与して出力することにより、より詳細に、出力された日本語読みの精度が分かるので、例えば、ユーザに日本語読みの確からしさを詳細に提示することが可能となる。

また、アルファベット文字列に対応した英語発音表記に基づいて日本語読みを出力するので、英語圏向けの読みデータベースや、読み付与プログラムを使用することが可能となり、日本語向けのデータベースを新たに整備せずに済むため、コストを抑えることが出来る。

また、アルファベット文字列に対応した英語発音表記に基づいて日本語読みを出力するので、人名や地名など固有の発音を行う英単語や、アーティスト名など特殊な記号を混ぜた表記を行っている文字列などに対しても、英語読み用のデータベースに存在していれば日本語読みに変換することが可能である。

曖昧母音に対応する日本語読みの例本発明実施の形態１におけるアルファベット文字列日本語読み変換装置を示す構成図である。本発明実施の形態１における発音対応付け用データの一例を示す説明図である。本発明実施の形態１における発音表記変換規則データベース３０１に格納されている規則データの一例を示す説明図である。本発明実施の形態１における補正規則データベース３０２に格納されている規則データの一例を示す説明図である。

符号の説明

１発音対応付け用データベース、２アルファベット文字列・発音表記対応付け部、３規則データベース、４日本語読み変換部、３０１発音表記変換規則データベース、３０２補正規則データベース、４０１英語発音表記日本語読み変換部、４０２アルファベット表記日本語読み補正部、４０３日本語読み出力部。

Claims

英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、
上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部と
を備えたことを特徴とするアルファベット文字列日本語読み変換装置。
アルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データが格納された発音対応付け用データベースと、
上記発音対応付け用データベースを用いて、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付けるアルファベット文字列・発音表記対応付け部とを備え、
上記日本語読み変換部は、上記アルファベット文字列・発音表記対応付け部で分解されると共に対応付けられたアルファベット文字部分列と英語発音表記部分列とを入力情報として用いることを特徴とする請求項１に記載のアルファベット文字列日本語読み変換装置。
上記日本語読み変換部は、一つの英語発音表記列に対して複数の日本語読みを出力することを特徴とする請求項１に記載のアルファベット文字列日本語読み変換装置。
上記日本語読み変換部は、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力することを特徴とする請求項１に記載のアルファベット文字列日本語読み変換装置。
上記日本語読み変換部は、一つの英語発音表記列に対して出力される読みに対し、当該日本語読みの各部分文字列ごとに、確からしさを示す指標を付与して出力することを特徴とする請求項１に記載のアルファベット文字列日本語読み変換装置。
アルファベット文字列を当該アルファベット文字列に対応する日本語読みへ変換するために、コンピュータを
英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出す規則データ読み出し手段と、
上記規則データ読み出し手段で読み出された規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換手段として機能させるためのアルファベット文字列日本語読み変換プログラム。