JP2009199434A - アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム - Google Patents
アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム Download PDFInfo
- Publication number
- JP2009199434A JP2009199434A JP2008041602A JP2008041602A JP2009199434A JP 2009199434 A JP2009199434 A JP 2009199434A JP 2008041602 A JP2008041602 A JP 2008041602A JP 2008041602 A JP2008041602 A JP 2008041602A JP 2009199434 A JP2009199434 A JP 2009199434A
- Authority
- JP
- Japan
- Prior art keywords
- notation
- english
- japanese
- pronunciation
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
【課題】 アルファベット表記されている文字列の日本語読みへ変換精度を向上させることを目的とする。
【解決手段】 英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部とを備えたものである。
【選択図】 図2
【解決手段】 英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部とを備えたものである。
【選択図】 図2
Description
この発明は、英単語等のアルファベットからなる文字列を当該アルファベット文字列に対応する日本語読みへ変換するアルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラムに関するものである。
英単語等のアルファベット文字列を日本語の読みに変換する従来技術として、例えば、特開2001−142877公報(特許文献1)には、アルファベット文字列から直接日本語読みに変換する技術について開示されている。これは、アルファベット文字列の部分文字列と日本語読みとの対応付けをあらかじめ学習しておき、新しいアルファベット文字列が入力された際に最も確からしい部分文字列の組み合わせを求めて日本語読みに変換するものである。
また、文献「K. Knight and J. Graehl 「Machine Transliteration」, Computational Linguistics, vol.24, No.4, pp. 599 - 612 (1998)」(非特許文献1)においては、英語の発音記号から日本語読みへの変換方法が開示されている。これは、英語の発音記号に対する日本語読みの確率情報に基づいて、英語の発音記号から日本語読みへ変換するものである。
他に、一般的な技術として、アルファベット文字列に対する日本語読みをあらかじめ用意しておき、このデータベースを用いて、アルファベット文字列を日本語読みに変換する技術がある。
K. Knight and J. Graehl 「Machine Transliteration」, Computational Linguistics, vol.24, No.4, pp. 599 - 612 (1998)
特開2001−319022公報(段落番号[0011]、図1)
しかしながら、アルファベット文字列の部分文字列と日本語読みとの対応付けをあらかじめ学習しておく従来技術においては、学習データに無いアルファベット文字列、例えば、特殊な読みをする英単語に対応できないと言う問題点がある。
また、英語発音表記の情報を用いないので、英語音声認識用の英語表記とその発音に関する既存のデータベースを使用することが出来ないと言う問題点がある。このような既存のデータベースとして、固有名詞などの特殊な読みをする英語表記などに対しても正しい発音が付与されているものもあるが、英語表記から直接日本語に変換する方法では、英語発音表記の情報を用いないので、これらの特殊な読みに対応することは難しい。
また、英語発音表記の情報を用いないので、英語音声認識用の英語表記とその発音に関する既存のデータベースを使用することが出来ないと言う問題点がある。このような既存のデータベースとして、固有名詞などの特殊な読みをする英語表記などに対しても正しい発音が付与されているものもあるが、英語表記から直接日本語に変換する方法では、英語発音表記の情報を用いないので、これらの特殊な読みに対応することは難しい。
また、英語の発音記号に対する日本語の読みの確率情報に基づいて、英語の発音記号から日本語の読みへ変換する従来技術においては、曖昧な母音を表す下記発音記号(1)など発音表記から日本語読みに変換するのが難しい発音が存在するという問題がある。例えば、図1に示すように曖昧母音@(X_SAMPA形式)に対応する日本語の母音としては、/a/、/i/、/e/、/o/(音素表記)等となる可能性がある。
また、アルファベット文字列とそのアルファベット文字列に対応する日本語読みとのデータを用いて、アルファベット文字列を日本語読みに変換する従来技術においては、新たなアルファベット文字列が追加される度に新たにデータベースを整備しなおす必要があり、コストがかかると言う問題点がある。
この発明は上記のような課題を解決するためになされたもので、アルファベット表記されている文字列の日本語読みへ変換精度を向上させることが出来るアルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラムを提供することを目的とする。
この発明に係るアルファベット文字列日本語読み変換装置は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部とを備えたものである。
この発明に係るアルファベット文字列日本語読み変換プログラムは、アルファベット文字列を当該アルファベット文字列に対応する日本語読みへ変換するために、コンピュータを、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出す規則データ読み出し手段と、上記規則データ読み出し手段で読み出された規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換手段として機能させるためのものである。
この発明によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースを用いて、上記アルファベット文字列に対応する日本語読みを出力するので、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る効果がある。
この発明によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出し、読み出された規則データを用いて、上記アルファベット文字列に対応する日本語読みを出力するので、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る効果がある。
実施の形態1.
図2は、この発明の実施の形態1によるアルファベット文字列日本語読み変換装置を示す構成図である。本実施の形態では、本実施の形態におけるアルファベット文字列日本語読み変換装置が、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列を入力とし、上記アルファベット文字列に対応する日本語読みを出力する場合について説明する。
図2は、この発明の実施の形態1によるアルファベット文字列日本語読み変換装置を示す構成図である。本実施の形態では、本実施の形態におけるアルファベット文字列日本語読み変換装置が、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列を入力とし、上記アルファベット文字列に対応する日本語読みを出力する場合について説明する。
図2において、発音対応付け用データベース1は、アルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データが格納されている。本実施の形態では、アルファベット表記と当該アルファベット表記に対して取り得る英語発音表記の候補を持つ。アルファベット文字列・発音表記対応付け部2は、上記発音対応付け用データベース1を用いて、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付ける。
規則データベース3は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。本実施の形態では、上記規則データベース3は、発音表記変換規則データベース301と補正規則データベース302を備えている。
上記発音表記変換規則データベース301は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、アルファベット表記の参照要否情報とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。補正規則データベース302は、例えば、上記発音表記変換規則データベース301の規則データにより、アルファベット表記の参照を要する場合に用いられるものであって、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納されている。
日本語読み変換部4は、上記規則データベース3を用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた変換対象情報(入力情報)から、上記アルファベット文字列に対応する日本語読みを出力する。本実施の形態では、上記アルファベット文字列・発音表記対応付け部2で対応付けられたアルファベット文字部分列と英語発音表記部分列とを変換対象情報(入力情報)として入力する。また、本実施の形態では、上記日本語読み変換部4は、英語発音表記日本語読み変換部401と、アルファベット表記日本語読み補正部402と、日本語読み出力部403とを備えている。
上記英語発音表記日本語読み変換部401は、上記発音表記変換規則データベース301を用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた変換対象情報(入力情報)から、上記アルファベット文字列に対応する日本語読みと、アルファベット表記の参照要否情報とを出力する。上記アルファベット表記日本語読み補正部402は、上記英語発音表記日本語読み変換部401の出力結果に基づいて、アルファベット表記の参照を要する英語発音表記部分列について、上記補正規則データベース302を用いて、上記アルファベット文字列に対応する日本語読みを補正して出力する。上記日本語読み出力部403は、上記アルファベット表記日本語読み補正部402から出力された日本語読みの形式を調整して出力する。
本実施の形態では、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力する。また、上記英語発音表記日本語読み変換部401及びアルファベット表記日本語読み補正部402において、日本語読みの発音が複数候補存在する場合は、一つの英語発音表記列に対して複数の日本語読みを出力する。例えば、日本語読みの発音が複数候補として出力された箇所(英語発音表記部分列)について、入力されたアルファベット文字列に対する日本語読みが複数存在するものとして、確からしさを示す指標を付与して出力を行う。なお、上記構成において複数読みが存在しない場合は、読みが一つに決定されたものとして出力を行う。
次に、動作について説明する。
本実施の形態では、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列との対を入力とする。アルファベット文字列に対する英語発音表記は、例えば英語用に整備されたアルファベット文字列(英単語)とその発音表記を記述したデータベースを使用して取得されたもの、あるいは、アルファベット文字列(英語表記)から英語発音表記(音素表記)に変換するプログラムを使用して英語発音表記に変換されたもの等で得られる。
このように、英語用に整備された読みデータベースや、英語表記から読みへの変換プログラムと組み合わせることにより、簡易かつ低コストで、アルファベット文字列に対応する英語発音表記を得ることができる。
本実施の形態では、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記文字列との対を入力とする。アルファベット文字列に対する英語発音表記は、例えば英語用に整備されたアルファベット文字列(英単語)とその発音表記を記述したデータベースを使用して取得されたもの、あるいは、アルファベット文字列(英語表記)から英語発音表記(音素表記)に変換するプログラムを使用して英語発音表記に変換されたもの等で得られる。
このように、英語用に整備された読みデータベースや、英語表記から読みへの変換プログラムと組み合わせることにより、簡易かつ低コストで、アルファベット文字列に対応する英語発音表記を得ることができる。
アルファベット文字列・発音表記対応付け部2は、発音対応付け用データベース1に格納されているアルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データを用いて、入力されたアルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付け、その情報を出力する。
図3は、発音対応付け用データベース1に格納されているアルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データの例を示す。図3において、アルファベット表記、及び英語発音表記はそれぞれ1文字以上からなる文字列である。またアルファベット表記と英語発音表記との対応付けは一対一である必要はなく、一対多あるいは多対多の対応付けであってもかまわない。
また、対応付けの方法としてはDPマッチングなどで対応付けをおこなう。また各対応付けに確率をつけ、例えば、アルファベット表記Aに対して英語発音表記Bが出現する確率をP(B|A)と表記する場合、P(/e_H i/,a)=0.2、P(/{_H/,a)=0.1などとして、最大確率をとるものを選択しても良い。
次に、日本語読み変換部4は、規則データベース3を用いて、上記アルファベット文字列・発音表記対応付け部2で対応付けられたアルファベット文字部分列と英語発音表記部分列とを変換対象情報(入力情報)として、上記アルファベット文字列に対応する日本語読みを出力する。
以下、日本語読み変換部4の動作について説明する。
まず、「英語発音表記からの日本語読み生成」を行う。
英語発音表記日本語読み変換部401は、英語発音表記列から日本語読み候補を作成すると共に、アルファベット表記の参照要否情報を出力する。英語発音表記列から日本語読み変換は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、に基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データにより変換を行う。この規則データは、発音表記変換規則データベース301に格納されている。
まず、「英語発音表記からの日本語読み生成」を行う。
英語発音表記日本語読み変換部401は、英語発音表記列から日本語読み候補を作成すると共に、アルファベット表記の参照要否情報を出力する。英語発音表記列から日本語読み変換は、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、に基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データにより変換を行う。この規則データは、発音表記変換規則データベース301に格納されている。
図4は、発音表記変換規則データベース301に格納されている規則データ例を示す。
なお、図4では日本語の発音表記は音素表記、英語発音表記はX-SAMPA形式で表している。また、図4において、発音の先行、後続欄に記述されている「#」は無音を表し、先行に「#」が記述されている発音表記は先頭、後続に「#」が記述されている場合は最後尾であることを表している。また、「*」は任意の表記をあらわしているものであり、例えば発音先行欄に「*」が記述されている場合は、先行発音表記によらずに同じ変換を行うことを示している。また、「*」が記述されている場合は表記によらずに変換を行うことを意味し、表記欄に「参照」と記載されている規則はアルファベット表記に依存して日本語読みが変わることを意味している。また、この規則データで変換される日本語読みについて、複数の読みを指定することも可能である。
英語発音表記日本語読み変換部401は、表記欄に「参照」と記載されている場合、規則データに記載されている読みに一度変換すると共に、アルファベット表記参照用フラグ(アルファベット表記の参照要否情報)を立てておく。
なお、図4では日本語の発音表記は音素表記、英語発音表記はX-SAMPA形式で表している。また、図4において、発音の先行、後続欄に記述されている「#」は無音を表し、先行に「#」が記述されている発音表記は先頭、後続に「#」が記述されている場合は最後尾であることを表している。また、「*」は任意の表記をあらわしているものであり、例えば発音先行欄に「*」が記述されている場合は、先行発音表記によらずに同じ変換を行うことを示している。また、「*」が記述されている場合は表記によらずに変換を行うことを意味し、表記欄に「参照」と記載されている規則はアルファベット表記に依存して日本語読みが変わることを意味している。また、この規則データで変換される日本語読みについて、複数の読みを指定することも可能である。
英語発音表記日本語読み変換部401は、表記欄に「参照」と記載されている場合、規則データに記載されている読みに一度変換すると共に、アルファベット表記参照用フラグ(アルファベット表記の参照要否情報)を立てておく。
以下に、英語発音表記日本語読み変換部401における日本語読み変換処理の例を示す。
例えば、trouble (/trV_Hbl/)に対して図4に示す規則で変換を行うと、先行発音表記なし(先頭)で後続発音表記が/r/の発音表記/t/に対する日本語読みは/to/、先行発音表記が/t/で後続発音表記が/V_H/(母音)の発音表記/r/に対する日本語読みは/r/、発音表記/V_H/に対する日本語読みは/a/、後続発音表記が/l/(子音)の発音表記/b/に対する日本語読みは/bu/、最後(後続母音なし)の発音表記/l/に対する日本語読みは/ru/となる。以上の変換により、trouble (/trV_Hbl/)の日本語読みは /toraburu/となる。
例えば、trouble (/trV_Hbl/)に対して図4に示す規則で変換を行うと、先行発音表記なし(先頭)で後続発音表記が/r/の発音表記/t/に対する日本語読みは/to/、先行発音表記が/t/で後続発音表記が/V_H/(母音)の発音表記/r/に対する日本語読みは/r/、発音表記/V_H/に対する日本語読みは/a/、後続発音表記が/l/(子音)の発音表記/b/に対する日本語読みは/bu/、最後(後続母音なし)の発音表記/l/に対する日本語読みは/ru/となる。以上の変換により、trouble (/trV_Hbl/)の日本語読みは /toraburu/となる。
また、animal(/{_Hn@m@l/)の場合は、後続が子音する/{_H/に対する日本語読みが/a/、母音が後続する/n/に対する日本語読みが/n/、/@/は表記参照のため、以後のステップで補正するためのアルファベット表記参照用フラグ(アルファベット表記の参照要否情報)が立てられ、日本語読みとしては/{a,o}/(/a/または/o/)となる。母音が後続する/m/の日本語読みは/m/、語尾の/l/の日本語読みは/ru/にとなる。したがって本ステップでのanimal(/{_Hn@m@l/)日本語読み結果は、/an{a,o}m{a,o}ru/となり、英語発音表記/@/の箇所にアルファベット表記参照用フラグ(アルファベット表記の参照要否情報)が立てられる。
次に、「アルファベット表記による日本語読みの補正」を行う。
アルファベット表記日本語読み補正部402において、上記英語発音表記日本語読み変換部401の出力結果に基づいて、アルファベット表記の参照を要する英語発音表記部分列(アルファベット表記参照用フラグが立っている箇所)について、上記補正規則データベース302を用いて、発音表記と対応する箇所のアルファベット表記を参照し、日本語読みを補正して出力する。
アルファベット表記日本語読み補正部402において、上記英語発音表記日本語読み変換部401の出力結果に基づいて、アルファベット表記の参照を要する英語発音表記部分列(アルファベット表記参照用フラグが立っている箇所)について、上記補正規則データベース302を用いて、発音表記と対応する箇所のアルファベット表記を参照し、日本語読みを補正して出力する。
補正規則データベース302には、上記アルファベット表記日本語読み補正部402において、アルファベット表記を参照して日本語読みの補正を行う際に使用される規則データが格納されている。
図5は、補正規則データベース302に格納されている規則データの例を示す。
図5は、補正規則データベース302に格納されている規則データの例を示す。
以下に、アルファベット表記日本語読み補正部402における補正処理の例を示す。
animal(/{_Hn@m@l/)を例に取ると、英語発音表記日本語読み変換部401で日本語読みに変換した結果/an{a,o}m{a,o}ru/となるが、英語発音表記/@/の2箇所にはアルファベット表記参照用フラグ(アルファベット表記の参照要否情報)が立っている。最初の/@/に関しては、先行発音表記/n/(子音)、後続発音表記/m/(子音)で、対応するアルファベット表記は「i」である。このため図5の規則データから日本語読みは/i/となる。また、2番目の/@/に関しては、先行発音表記/m/(子音)、後続発音表記/l/(子音)で、対応するアルファベット表記は「a」である。このため図5の規則から日本語読みは/a/となる。以上のように補正した結果、日本語読みは/animaru/となる。
animal(/{_Hn@m@l/)を例に取ると、英語発音表記日本語読み変換部401で日本語読みに変換した結果/an{a,o}m{a,o}ru/となるが、英語発音表記/@/の2箇所にはアルファベット表記参照用フラグ(アルファベット表記の参照要否情報)が立っている。最初の/@/に関しては、先行発音表記/n/(子音)、後続発音表記/m/(子音)で、対応するアルファベット表記は「i」である。このため図5の規則データから日本語読みは/i/となる。また、2番目の/@/に関しては、先行発音表記/m/(子音)、後続発音表記/l/(子音)で、対応するアルファベット表記は「a」である。このため図5の規則から日本語読みは/a/となる。以上のように補正した結果、日本語読みは/animaru/となる。
この母音/@/は、日本語の母音/a/、/e/、/i/、/o/、/u/とはことなる発音であり、中間的な発音となることから曖昧母音などとも呼ばれている。この母音が使用される英単語の例として他に例えば、system(/sI_Hst@m/)、supply(/s@plA_HI/)等がある。これらは通常日本語読みで表記するとシステム(/sisutemu/)、サプライ(/sapurai/)となり、英語発音表記/@/がそれぞれ、/e/、/a/となっていることがわかる。
また、英語発音表記のみでは特定でずに、英語表記に影響を受ける子音の例として/n/がある。例えば、panel(/p{_Hnl/)、Stanley(/st{_Hnli/)、final(/fA_HInl/)、vinyl(/vA_HInl/)などがある。これらは、通常日本語読みで表記すると、パネル(/paneru/)、スタンリー(/sutaNrii/)、ファイナル(/fainaru/)、ビニール(/biniiru/)となり、英語発音表記/n/が日本語読みではそれぞれ/ne/、/N/、/na/、/ni/となっていることがわかる。これらの例では英語発音表記/n/に後続する英語発音表記は/l/であり、さらに先行発音表記が同じものでも日本語読みが異なっていることがわかる。この時、英語発音表記/n/に対応するアルファベット文字列はne、n、na、nyとなっている。この様な場合でも補正規則データベース302に記憶されている規則データを用いてそれぞれ、/ne/、/N/、/na/、/ni/に変換する。
次に、「曖昧性が解消できなかった場合の処理」を行う。
日本語読み出力部403において、上記英語発音表記日本語読み変換部401及びアルファベット表記日本語読み補正部402において、日本語読みの発音が複数候補として出力された箇所について、入力されたアルファベット文字列に対する日本語読みが複数存在するものとして確からしさを示す指標(スコア(確率))を付与して出力を行う。なお、上記構成において複数読みが存在しない場合は、読みが一つに決定されたものとして出力を行う。また、確からしさを示す指標(スコア(確率))について、アルファベット文字列に対する日本語読み全体に対して付与する。また、日本語読みの発音が複数候補として出力された箇所について付与する。また、各アルファベット文字部分列又は各英語発音表記部分列について付与する。これらのいずれか少なくとも1つの指標を付与するものとする。
日本語読み出力部403において、上記英語発音表記日本語読み変換部401及びアルファベット表記日本語読み補正部402において、日本語読みの発音が複数候補として出力された箇所について、入力されたアルファベット文字列に対する日本語読みが複数存在するものとして確からしさを示す指標(スコア(確率))を付与して出力を行う。なお、上記構成において複数読みが存在しない場合は、読みが一つに決定されたものとして出力を行う。また、確からしさを示す指標(スコア(確率))について、アルファベット文字列に対する日本語読み全体に対して付与する。また、日本語読みの発音が複数候補として出力された箇所について付与する。また、各アルファベット文字部分列又は各英語発音表記部分列について付与する。これらのいずれか少なくとも1つの指標を付与するものとする。
また、日本語読みの候補として出力された箇所のうち、日本語読みとして妥当でないものにたいしての補正や、長音化処理も行う。
例えば、日本語読みが複数存在するものとして出力される例として、発音記号列/k{_Hn/、対応するアルファベット文字列 can のような例がある。このような英単語としては、canada(/k{_Hn@d@/)、canopy(/k{_Hn@pi/)、canvas(/k{_Hnv@s/)などでありこれらのアルファベット文字列に対する日本語読みはそれぞれ、カナダ(/kanada/)、キャノピー(/kjanopii/)、キャンバス(/kjaNbasu/)となるが、canvasについてはカンバス(kaNbasu)と読む場合もあり、日本語読みとして/ka/、/kja/のどちらを割り当てることが難しい。この様な場合、日本語読みとしては/ka/、/kja/双方の読みがあるとして複数の候補が割り当てる。例えば、canada(/k{_Hn@d@/)に対しては、カナダ(/kanada/)及びキャナダ(/kjanada/)の2種類となる。
例えば、日本語読みが複数存在するものとして出力される例として、発音記号列/k{_Hn/、対応するアルファベット文字列 can のような例がある。このような英単語としては、canada(/k{_Hn@d@/)、canopy(/k{_Hn@pi/)、canvas(/k{_Hnv@s/)などでありこれらのアルファベット文字列に対する日本語読みはそれぞれ、カナダ(/kanada/)、キャノピー(/kjanopii/)、キャンバス(/kjaNbasu/)となるが、canvasについてはカンバス(kaNbasu)と読む場合もあり、日本語読みとして/ka/、/kja/のどちらを割り当てることが難しい。この様な場合、日本語読みとしては/ka/、/kja/双方の読みがあるとして複数の候補が割り当てる。例えば、canada(/k{_Hn@d@/)に対しては、カナダ(/kanada/)及びキャナダ(/kjanada/)の2種類となる。
この2種類の複数読みの出力方法としては、/kanada/、/kjanada/とそのまま複数出力する方法以外に、/{ka,kja}nada/のように一部に複数読みが存在する箇所を指定して出力する方法がある。また、各データベース(発音表記変換規則データベース301、補正規則データベース302)で複数読みが存在する場合にその読みが選択される確率をあらかじめ定めておくことで、日本語読み出力部403の出力時に各読み確率を付与して/{ka:0.8,kja:0.2}nada/のように出力することも可能である。
また、日本語読みとして適当でないものの例としては、撥音(/N/,ン)や、促音(/Q/,ッ)など接続関係がある。例えば撥音が語頭にくる場合や、撥音が連続するような場合は通常ないため、このような場合、当該撥音を削除するなどして日本語読みとして適当な文字列になるように変更する。促音に関しても語等や語尾に現れるような場合、連続する場合は削除する。また促音に関しては母音が後続する場合や、後続する音素が/m/、/n/、/r/、/w/の場合ように通常促音が使用されない箇所においても削除、もしくは/cu/などへの置き換えを行う。また、エイ/ei/、オウ/ou/のように長音化しやすいものに関しては、日本語読みとして/{ei,ee}/、/{ou,oo}/のように長音化した日本語読みも複数候補として出力する。
以上のように、「英語発音表記からの日本語読み生成」、「アルファベット表記による日本語読みの補正」、「曖昧性が解消できなかった場合の処理」を行い、入力されたアルファベット文字列に対応する日本語読みを出力する。
なお、本実施の形態では、日本語読み変換部4の動作説明を、英語発音表記日本語読み変換部401によリ一度日本語読みに変換したあと、表記を参照する必要がある箇所について、アルファベット表記日本語読み補正部402により日本語読みを補正し、最後に日本語読み出力部403により出力するものとして説明したが、上記構成を同時に動作させても良い。
また、発音表記変換規則データベース301と補正規則データベース302とを統合し、一つの規則データベースとして用いても良い。
なお、本実施の形態では、日本語読み変換部4の動作説明を、英語発音表記日本語読み変換部401によリ一度日本語読みに変換したあと、表記を参照する必要がある箇所について、アルファベット表記日本語読み補正部402により日本語読みを補正し、最後に日本語読み出力部403により出力するものとして説明したが、上記構成を同時に動作させても良い。
また、発音表記変換規則データベース301と補正規則データベース302とを統合し、一つの規則データベースとして用いても良い。
また、上記述べた実施の形態において、上記の全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラム実行したり、CPU等の組み込みソフトウエアやファームウエアとしてプログラム実行することで達成できるものである。また、同様の動作をする回路、例えばLSI(Large Scale IC)、FPGA(Field Programmable Gate Array)、論理IC等の集積回路で実現しても良いし、あるいはディスクリート素子を組み合わせて実現しても良い。
また、上記のソフトウエア等は、例えばROM、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、LAN、赤外線通信、Bluetooth、携帯電話のパケット通信等の有線・無線通信手段を用いてサーバコンピュータ上の記憶手段からダウンロードしたり、例えば、CD−ROM、CD−R、DVD、MOディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された上記ソフトウエアのプログラムコードが、上記実施の形態の機能を実現することとなり、これら記憶媒体等はこの発明を構成するものとなる。
また、各部を同一の計算機上で構成する場合について説明したが、この発明はこれに限定されるものではなく、例えば、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
また、この発明は、1つ以上の複数の機器から構成されるシステムに適用しても良い。サーバコンピュータがこの発明の実施の形態を実現するプログラム等をネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータや、携帯電話、PDA等の携帯端末機器が配信されたプログラムを実行することができる。
以上のように、本実施の形態によれば、英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報について、当該入力情報の英語発音表記部分列と、当該英語発音表記部分列の前後に連接する英語発音表記と、上記英語発音表記部分列に対応するアルファベット表記とに基づいて、日本語読みを出力することにより、英語発音表記だけでは日本語読みが特定できない場合でも、英語発音表記に対応するアルファベット表記に基づいて日本語読みが特定できるので、日本語読み変換の精度を向上させることが出来る。
すなわち、例えば、英単語を日本人が読み上げる際には、日本語にはない英語母音(例えば、/@/)の日本語で使用される母音(/a/、/e/、/i/、/o/、/u/等)への置き換えや、連続する子音(/nl/)間への母音の挿入などが起きる。これらの置き換え/挿入は英語のアルファベット表記に影響を受けていることが多いため、日本語読み変換字に英語アルファベット表記を参照することにより、日本語読み変換の精度を向上させることが出来る。
また、本実施の形態においては、一つの英語発音表記列に対して複数の日本語読みを出力することにより、複数の読み方がありえる英単語や発音表記/アルファベット表記だけでは判断できないアルファベット文字列に対しても複数の読みを付与するので、より日本人の発音に近い読みを出力することが可能となる。
また、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力することにより、出力された日本語読みの精度が分かるので、例えば、ユーザに日本語読みの確からしさを提示することが可能となる。
また、一つの英語発音表記列に対して出力される読みに対し、当該日本語読みの各部分文字列ごとに、確からしさを示す指標を付与して出力することにより、より詳細に、出力された日本語読みの精度が分かるので、例えば、ユーザに日本語読みの確からしさを詳細に提示することが可能となる。
また、アルファベット文字列に対応した英語発音表記に基づいて日本語読みを出力するので、英語圏向けの読みデータベースや、読み付与プログラムを使用することが可能となり、日本語向けのデータベースを新たに整備せずに済むため、コストを抑えることが出来る。
また、アルファベット文字列に対応した英語発音表記に基づいて日本語読みを出力するので、人名や地名など固有の発音を行う英単語や、アーティスト名など特殊な記号を混ぜた表記を行っている文字列などに対しても、英語読み用のデータベースに存在していれば日本語読みに変換することが可能である。
1 発音対応付け用データベース、2 アルファベット文字列・発音表記対応付け部、3 規則データベース、4 日本語読み変換部、301 発音表記変換規則データベース、302 補正規則データベース、401 英語発音表記日本語読み変換部、402 アルファベット表記日本語読み補正部、403 日本語読み出力部。
Claims (6)
- 英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースと、
上記規則データベースを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換部と
を備えたことを特徴とするアルファベット文字列日本語読み変換装置。 - アルファベット表記と当該アルファベット表記に対応する英語発音表記とが対応付けられた発音対応付け用データが格納された発音対応付け用データベースと、
上記発音対応付け用データベースを用いて、アルファベット文字列と当該アルファベット文字列に対応する英語発音表記列とを、それぞれ複数のアルファベット文字部分列と英語発音表記部分列に分解すると共に、当該分解されたアルファベット文字部分列と英語発音表記部分列とを対応付けるアルファベット文字列・発音表記対応付け部とを備え、
上記日本語読み変換部は、上記アルファベット文字列・発音表記対応付け部で分解されると共に対応付けられたアルファベット文字部分列と英語発音表記部分列とを入力情報として用いることを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。 - 上記日本語読み変換部は、一つの英語発音表記列に対して複数の日本語読みを出力することを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。
- 上記日本語読み変換部は、英語発音表記列に対して出力される日本語読みに対し、確からしさを示す指標を付与して出力することを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。
- 上記日本語読み変換部は、一つの英語発音表記列に対して出力される読みに対し、当該日本語読みの各部分文字列ごとに、確からしさを示す指標を付与して出力することを特徴とする請求項1に記載のアルファベット文字列日本語読み変換装置。
- アルファベット文字列を当該アルファベット文字列に対応する日本語読みへ変換するために、コンピュータを
英語発音表記と、当該英語発音表記の前後に連接する英語発音表記と、上記英語発音表記に対応するアルファベット表記とに基づいて、上記英語発音表記と当該英語発音表記に対応する日本語読みとが対応付けられた規則データが格納された規則データベースから、上記規則データを読み出す規則データ読み出し手段と、
上記規則データ読み出し手段で読み出された規則データを用いて、アルファベット文字列が複数に分解されたアルファベット文字部分列の各々に、上記アルファベット文字列に対応する英語発音表記列が複数に分解された英語発音表記部分列が対応付けられた入力情報から、上記アルファベット文字列に対応する日本語読みを出力する日本語読み変換手段として機能させるためのアルファベット文字列日本語読み変換プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008041602A JP2009199434A (ja) | 2008-02-22 | 2008-02-22 | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008041602A JP2009199434A (ja) | 2008-02-22 | 2008-02-22 | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009199434A true JP2009199434A (ja) | 2009-09-03 |
Family
ID=41142847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008041602A Pending JP2009199434A (ja) | 2008-02-22 | 2008-02-22 | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009199434A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106857A (ja) * | 2012-11-29 | 2014-06-09 | Mitsubishi Electric Corp | アルファベット読み推定装置 |
JP2019096173A (ja) * | 2017-11-27 | 2019-06-20 | 株式会社GoGyoJapan | 和文字変換プログラム及び和文字変換装置 |
US11809831B2 (en) | 2020-01-08 | 2023-11-07 | Kabushiki Kaisha Toshiba | Symbol sequence converting apparatus and symbol sequence conversion method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08339376A (ja) * | 1995-06-12 | 1996-12-24 | Toshiba Corp | 外国語検索装置及び情報検索システム |
JPH10124501A (ja) * | 1996-10-21 | 1998-05-15 | Nippon Telegr & Teleph Corp <Ntt> | 日本語読み付与方法及び装置及び日本語読み付与プログラム媒体 |
JPH10198664A (ja) * | 1997-01-10 | 1998-07-31 | Hitachi Chiyou Lsi Syst:Kk | 日本語入力システム及び日本語入力プログラムを記録した媒体 |
-
2008
- 2008-02-22 JP JP2008041602A patent/JP2009199434A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08339376A (ja) * | 1995-06-12 | 1996-12-24 | Toshiba Corp | 外国語検索装置及び情報検索システム |
JPH10124501A (ja) * | 1996-10-21 | 1998-05-15 | Nippon Telegr & Teleph Corp <Ntt> | 日本語読み付与方法及び装置及び日本語読み付与プログラム媒体 |
JPH10198664A (ja) * | 1997-01-10 | 1998-07-31 | Hitachi Chiyou Lsi Syst:Kk | 日本語入力システム及び日本語入力プログラムを記録した媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106857A (ja) * | 2012-11-29 | 2014-06-09 | Mitsubishi Electric Corp | アルファベット読み推定装置 |
JP2019096173A (ja) * | 2017-11-27 | 2019-06-20 | 株式会社GoGyoJapan | 和文字変換プログラム及び和文字変換装置 |
JP7144795B2 (ja) | 2017-11-27 | 2022-09-30 | 株式会社GoGyoJapan | 和文字変換プログラム及び和文字変換装置 |
US11809831B2 (en) | 2020-01-08 | 2023-11-07 | Kabushiki Kaisha Toshiba | Symbol sequence converting apparatus and symbol sequence conversion method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP5874640B2 (ja) | 音声変換装置、携帯電話端末、音声変換方法およびプログラム | |
US20070255567A1 (en) | System and method for generating a pronunciation dictionary | |
JP2005258439A (ja) | 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成 | |
JP2008262279A (ja) | 音声検索装置 | |
JP5502814B2 (ja) | アラビア語テキストに発音区別符号を付与するための方法およびシステム | |
US11694028B2 (en) | Data generation apparatus and data generation method that generate recognition text from speech data | |
JP2013050742A (ja) | 音声認識装置および音声認識方法 | |
JP2009199434A (ja) | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム | |
JP2012003090A (ja) | 音声認識装置および音声認識方法 | |
JP2010164918A (ja) | 音声翻訳装置、および方法 | |
US8438005B1 (en) | Generating modified phonetic representations of indic words | |
JP6619932B2 (ja) | 形態素解析装置およびプログラム | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
CN113160793A (zh) | 基于低资源语言的语音合成方法、装置、设备及存储介质 | |
JP6625961B2 (ja) | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム | |
KR100342785B1 (ko) | 한국어 문자열간의 전역 유사도 측정 방법 | |
JP2009258369A (ja) | 音声認識辞書生成装置及び音声認識処理装置 | |
WO2023073887A1 (ja) | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 | |
US11893349B2 (en) | Systems and methods for generating locale-specific phonetic spelling variations | |
CN116229994B (zh) | 一种***语方言的标符预测模型的构建方法和装置 | |
US11809831B2 (en) | Symbol sequence converting apparatus and symbol sequence conversion method | |
Gafni | A Universal System for Automatic Text-to-Phonetics Conversion | |
JP2021085996A (ja) | 音声認識システム、音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121218 |