JP2004206659A

JP2004206659A - 読み情報決定方法及び装置及びプログラム

Info

Publication number: JP2004206659A
Application number: JP2003046042A
Authority: JP
Inventors: Hisako Asano; 久子浅野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-11-07
Filing date: 2003-02-24
Publication date: 2004-07-22
Anticipated expiration: 2023-02-24
Also published as: JP3952964B2

Abstract

【課題】アルファベットや数字からなる単語に対する日本語読みを決定する際に、アルファベット読み、英語読み等が一概に決定されない文字列に対する読みを自動的に付与する。
【解決手段】本発明は、形態素解析された単語情報から対象単語を抽出し、対象単語に関する属性を抽出し、読みクラス判定モデルに適用して読みクラスを判定し、判定された読みクラスに応じて読みを付与する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、読み情報決定方法及び装置及びプログラムに係り、特に、日本語のテキスト音声合成を行う際に、日本語文章内に含まれる英数字列の読みクラスを判別することにより英数字列の読み精度を向上させるための読み情報決定方法及び装置及びプログラムに関する。
【０００２】
また、インターネット検索エンジンにおいて、日本語のページを検索対象とする際に、検索キーワードとして入力されたアルファベット列をカナに音訳して質問拡張する場合の拡張キーワードの精度向上のために利用される。
【０００３】
【従来の技術】
日本語テキスト音声合成は、日本語テキストに対して、読み、及び、アクセント、ポーズ等の韻律情報を設定し、これらを元に、音声波形を生成して合成音声を出力する。正しく自然な音声合成を出力するためには、この読みや韻律情報を正しく設定する必要がある。
【０００４】
読みとアクセスの付与は、単語に対する情報（単語情報）を用いることで、高精度に設定することができる。単語情報は、一般に日本語形態素解析を用いて得ることができる。日本語形態素解析は、成熟した技術であり、新聞記事などを対象にした場合、９９％以上の精度を実現しているものが数多く存在する。これらの形態素解析は、一般に単語情報を登録した単語辞書を用いて、解析を行う（例えば、非特許文献１参照）。
【０００５】
また、アルファベット列が未知語となった場合は、読みが付与されていないため、１文字ずつアルファベット読みをしたり（例えば、非特許文献２参照）、英単語と仮定して、英日音訳を行ったりしている（例えば、非特許文献３参照）。
また、入力されたテキストにおいて、アルファベット母音の出現頻度とアルファベット子音の出現頻度の割合により、そのテキストをローマ字読みするか英語読みするか判別する手法（例えば、特許文献１参照）がある。この方法は、アルファベット母音（ａ，ｉ，ｕ，ｅ，ｏ）及びアルファベット子音について、それぞれ毎に出現頻度を抽出して、アルファベット母音の出現頻度÷アルファベット子音の出現頻度の値が予め定められた値より大きいとき、テキスト中のアルファベット文字列をローマ字として、そうでないときには、英語として読み上げる技術である。
【０００６】
また、数字列に関しては、正数型、小数型など（以後、これを数字読みクラスと記す）に分類し、読み分ける方法が確立されている（例えば、非特許文献４参照）。
【０００７】
【特許文献１】
特開２０００−１０５７９号公報
【０００８】
【非特許文献１】
渕武志，他２名、「保守性を考慮した形態素解析システム」、情報処理学会研究報告：自然言語処理，１９９７年１月２０日、ｐｐ．５９−６６．
【０００９】
【非特許文献２】
宮崎正弘，他１名「日本分音声出力のための言語処理方式」、情報処理学会論文誌，１９８６年１１月、第２７巻、第１１号、ｐｐ．１０５３−１０６１．
【００１０】
【非特許文献３】
高木伸一郎，他４名「電子メールを電話で確認できる通信秘書技術」，ＮＴＴ技術ジャーナル、日本電信電話株式会社、平成９年６月１日、第９巻、第６号、ｐｐ．６３−６８．
【００１１】
【非特許文献４】
宮崎正弘、「日本文音声変換のための数詞読み規則」、情報処理学会論文誌、１９８４年６月、第２５巻、第６号、ｐｐ．１０３５−１０４３．
【００１２】
【発明が解決しようとする課題】
しかしながら、日本語テキスト中に現れるアルファベット列（アルファベットとまとまって単語を構成しているアポストロフィーなどの記号類も含む）に対しては、辞書登録されている割合が低く、未知語となる割合が高い。また、数字列（数字とまとまってある情報を表している、小数点や市外局番前後のかっこなどの記号類も含む）は、前後の文脈により読み方が変わる場合があるが、これは、上記従来の形態素解析では対応できない。
【００１３】
また、アルファベット列が未知語となった場合に、１文字ずつアルファベット読みをしたり、英日音訳を行う場合、実際には、アルファベット読みや英語読みしない単語の場合には読み誤りとなる（以後、アルファベット読み、英単語読み、ローマ字読み、フランス語読み…などをアルファベット読みクラスと記す）。
また、アルファベット母音の出現頻度とアルファベット子音の出現頻度の割合によりローマ字読みまたは、英語読みするかを判断する方法は、英語とローマ字が混在する日本語テキストにたいしても、どちらか片方の読み方に固定され、読み誤りが生じる可能性がある。例えば、「ＹＯＫＯＨＡＭＡＴＥＡＨＯＵＳＥは、来月１日にオープンします。」という文では、アルファベット母音の割合が大きいため、ローマ字読みと決定され、「ＹＯＫＯＨＡＭＡＴＥＡＨＯＵＳＥ」は、「ヨコハマテアホウセ」という読みが付与されてしまう。
【００１４】
また、数字読みクラスに分類して読み分ける方法では、前後の文脈に応じてこの型を正しく推定する手法は解決されていない。
【００１５】
上記のように、ある種の日本語テキストには、英数字列が数多く含まれているものがある。例えば、インターネット上の店舗紹介のページなどでは、店名やサービス名、製品名が、アルファベット表記されているものが多く、その読み方もアルファベト読みするもの（例：ＣＤ）、ローマ字読みするもの（例：ＹＯＫＯＨＡＭＡ）、英語読みするもの（例：Ｒｅｓｔａｕｒａｎｔ）、フランス語読みするもの（例：ＴＥＲＲＡＳＳＥ）、イタリア語読みするもの（例：ＴＲＡＴＴＯＲＩＡ）等多彩である。また、テキストの前後の状況に応じて数字列の読み方にもバリエーションがある。例えば、「６１１」という数字列は、「６１１番」の場合は「ロッピャクジュウイチ」という読み、「Ａ６１１ｉｔ」（品番など）では、「ロクイチイチ」という読みになる。
【００１６】
しかし、これらのアルファベット列は固有名詞が多く新しい語も増えていくため、形態素解析の単語辞書に全てを登録するのは不可能であり、また、収集できる範囲で辞書登録するにしても、ローマ字や各種外来語などを登録しなければならず、単語辞書サイズが膨大になる。また、数字列は無限に存在し、さらにその前後の文字列まで考慮して登録するのは、非現実的である。
【００１７】
このため、アルファベット列に対しては、アルファベット列から読み（カナ列）へ変換する音訳が必要となるが、この音訳は、ある範囲のテキストに対して、英語読みやローマ字読みなどの特定アルファベット読みクラスを仮定して音訳を行っていたため、仮定と異なるクラスの場合には、正しく読みが付与されないという問題がある。
【００１８】
また、数字列に対しては、小数点などの数少ない文字を手掛かりに、数字読みクラスを判定し、数字列に読みを付与していたため、数字読みクラスを誤った場合に正しく読みが付与されないという問題がある。
【００１９】
本発明は、上記の点に鑑みなされたもので、アルファベットや数字からなる単語に対する日本語読みを決定する際に、アルファベット読み、英語読み等が一概に決定されない文字列に対する読みを自動的に付与するための読み情報決定方法及び装置及びプログラムを提供することを目的とする。
【００２０】
【課題を解決するための手段】
図１は、本発明の原理を説明するための図である。
【００２１】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
処理対象のテキストと設定情報を入力として受け付け（ステップ１）、単語辞書を用いてテキストを形態素解析して単語情報を取得し（ステップ２）、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出し（ステップ３）、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し（ステップ４）、
抽出された対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行い（ステップ５）、
読みクラスの第１候補のスコアが所定の信頼度閾値未満あるいは、抽出された対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行い（ステップ６）、対象単語情報利用型判定と該文脈利用型判定の第１候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第１の候補のスコアと、該文脈利用型判定で判定された第１候補の読みのクラスのスコアとスコアの重み（但し、スコアの重みは定数）を乗算した値のうち、値の大きい読みクラスを最終結果とし（ステップ８）、
対象単語情報利用型判定の読みクラスの第１候補のスコアが所定の信頼度閾値以上、あるいは、対象単語情報利用型判定と文脈利用型判定の第１候補が同一、あるいは、対象単語が数字列の場合には、該第１候補を読みクラス判定の最終結果とし（ステップ７）、
対象単語が数字列の場合には、文脈利用型判定を行い（ステップ６）、その第１候補を読みクラス判定の最終結果とし（ステップ７）、
判定された読みクラスに応じて読み付与を行い（ステップ９）、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する（ステップ１０）。
【００２２】
また、本発明の対象単語情報利用型読み判定モデルは、少なくとも、単語の文字数、第１音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
対象単語情報利用型読み判定モデルに対して、抽出された対象単語の単語情報から得られる少なくとも単語の文字数、第１音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する。
【００２３】
また、本発明の文脈利用型読みクラス判定モデルは、
少なくとも、単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
文脈利用型読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる少なくとも各単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける）、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する。
【００２４】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得し、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出し、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し、
一括読みクラス判定モデルを用いた一括判定を行い、第１候補を読みクラス判定の結果とし、
判定された読みクラスに応じて読み付与を行い、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する。
【００２５】
また、本発明の一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞数字タイプ（先頭文字が“０”かどうか）を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第１位の候補を選択する順位関数を有し、
一括読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、
数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する。
【００２６】
図２は、本発明の原理構成図である。
【００２７】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析手段２と、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段３と、
対象単語抽出手段３で抽出された各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段４１と、
対象単語抽出手段３で抽出された対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定手段４２と、
読みクラスの第１候補のスコアが所定の信頼度閾値未満、あるいは、対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定手段４３と、
対象単語情報利用型判定手段４２と文脈利用型判定手段４３の第１候補のスコアを比較して、対象単語情報利用型判定手段４２の読みクラスの第１の候補のスコアと、文脈利用型判定手段４３で判定された第１候補の読みのクラスのスコアとスコアの重み（但し、スコアの重みは定数）を乗算した値のうち、値の大きい読みクラスを最終結果とし、対象単語情報利用型判定手段４２の読みクラスの第１候補のスコアが所定の信頼度閾値以上、あるいは、対象単語情報利用型判定手段４２と文脈利用型判定手段４３の第１候補が同一、あるいは、対象単語が数字列の場合には、該第１候補を読みクラス判定の最終結果とする最終判定手段４４と、
最終判定手段４４で判定された読みクラスに応じて読み付与を行う読み付与手段５と、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段６と、を有する。
【００２８】
また、本発明の対象単語情報利用型読み判定モデルは、
少なくとも、単語の文字数、第１音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
対象単語情報利用型判定手段４２は、
対象単語情報利用型読み判定モデルに対して、抽出された対象単語の単語情報から得られる少なくとも単語の文字数、第１音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む。
【００２９】
また、本発明の文脈利用型読みクラス判定モデルは、
少なくとも、単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
文脈利用型判定手段４３は、
文脈利用型読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる少なくとも各単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける）、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む。
【００３０】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析手段と、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段と、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段と、
一括読みクラス判定モデルを用いた一括判定を行い、第１候補を読みクラス判定の結果とする一括判定手段と、
判定された読みクラスに応じて読み付与を行う読み付与手段と、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段と、を有する。
【００３１】
上記の一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞数字タイプ（先頭文字が“０”かどうか）を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第１位の候補を選択する順位関数を有し、
一括判定手段は、
一括読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、
数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む。
【００３２】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析ステップと、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
対象単語抽出ステップで抽出された各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
対象単語抽出ステップで抽出された対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定ステップと、
読みクラスの第１候補のスコアが所定の信頼度閾値未満、あるいは、対象単語抽出ステップで抽出された対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定ステップと、対象単語情報利用型判定ステップと該文脈利用型判定ステップの第１候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第１の候補のスコアと、該文脈利用型判定で判定された第１候補の読みのクラスのスコアとスコアの重み（但し、スコアの重みは定数）を乗算した値のうち、値の大きい読みクラスを最終結果とし、該対象単語情報利用型判定ステップの読みクラスの第１候補のスコアが所定の信頼度閾値以上、あるいは、対象単語情報利用型判定ステップと文脈利用型判定ステップの第１候補が同一、あるいは、対象単語が数字列の場合には、該第１候補を読みクラス判定の最終結果とする最終判定ステップと、
最終判定ステップで判定された読みクラスに応じて読み付与を行う読み付与ステップと、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行する。
【００３３】
また、上記の対象単語情報利用型判定ステップは、
少なくとも、単語の文字数、第１音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する対象単語情報利用型読み判定モデルに対して、抽出された対象単語の単語情報から得られる少なくとも単語の文字数、第１音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む。
【００３４】
また、上記の文脈利用型判定ステップは、
少なくとも、単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する文脈利用型読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる少なくとも各単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける）、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む。
【００３５】
本発明は、処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析ステップと、
設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
一括読みクラス判定モデルを用いた一括判定を行い、第１候補を読みクラス判定の結果とする一括判定ステップと、
判定された読みクラスに応じて読み付与を行う読み付与ステップと、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行する。
【００３６】
上記の一括判定ステップは、
少なくとも、アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞数字タイプ（先頭文字が“０”かどうか）を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第１位の候補を選択する順位関数を有する一括読み判定モデルに対して、抽出された対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、
数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む。
上記のように本発明は、アルファベット列及び数字列に対して、各種辞書等より収集が容易な当該文字列自身の情報、及び、コーパス等を作成するコストが必要な当該文字列近辺の文字列情報を利用した統計モデルを用いて、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補を決め、前後の単語の文脈との関係から属性を判定して読みクラスを絞りこむことを可能にする。
【００３７】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【００３８】
最初に読み情報決定装置の概要を説明する。
【００３９】
図３は、本発明の一実施の形態における読み情報決定装置の構成を示す。
【００４０】
同図に示す読み情報決定装置は、テキスト入力部１、形態素解析部２、対象単語抽出部３、読みクラス判定部４、読み付与部５、単語情報出力部６、単語辞書７、及び読みクラス判定モデル８から構成される。
【００４１】
テキスト入力部１は、テキストと設定情報を入力する。
【００４２】
ここで、テキストは、キーボードから入力される、あるいはハードディスクやメモリ等に格納されている等の、読み等の単語情報を付与する対象となる任意のテキストであり、形態素解析部２に渡す。
【００４３】
また、設定情報（対象単語列抽出部３で用いられる）として、読みクラスの判定を行う単語を構成する文字列の条件（指定された字種列（アルファベット、全文大文字、小文字等））であり、例えば、全アルファベット列、全数字列、未知語のあったアルファベット列と全数字列、未知語または、読みの多義のあるアルファベット列、または、全く判定しない等）、出力する単語情報の形式（例えば、全ての単語情報をメモリに出力、読みだけを標準出力に出力、表記と読みをハードディスク上のファイルに出力等）からなり、キーボードから入力される、あるいは、ハードディスクやメモリ等に格納されている情報である。読みクラスの判定を行う字種の指定は、対象単語列抽出部３に渡す。出力する単語情報の形式は、単語情報出力部６に渡す。
【００４４】
形態素解析部２は、テキスト入力部１から受け取ったテキストを、単語表記、品詞、読み、アクセント型等を対応付けて記憶した単語辞書７を用いて、単語に区切り、表記、品詞、読み、アクセント型などからなる単語情報を付与する。ここで、単語辞書７に登録されておらず、未知語となった単語は字種単位でまとめて１語として扱う。また、数字はまとめて１語として扱う。
【００４５】
対象単語列抽出部３は、テキスト入力部１から得られた読みクラスの判定を行う単語の指定により、指定された単語を、形態素解析部３から得られた単語情報の中から抽出して、読みクラスの判定を行う対象単語の抽出を行う。
【００４６】
読みクラス判定部４は、対象単語列抽出部３が抽出した各対象単語に対して、読みクラス判定モデル８を利用して、読みクラスの判定を行う。ここで判定された読みクラスは、形態素解析部２が出力した単語情報に追加する。読みクラス判定部４及び読みクラス判定モデル８の詳細については後述する。
【００４７】
読み付与部５は、対象単語列抽出部３で抽出された各対象単語に対して、付与された読みクラスに応じて、読みを付与する。
【００４８】
具体的には、数字列に対しては、判定された数字読みクラスに応じて、例えば、表記のゆれを吸収するための日本語の数表記を七つの形式に分類し、数表記の標準形を定め、これらに標準的な音韻とアクセント、ポーズを付与する規則を作成し、また、数字に助数詞が連接した場合の数詞、助数詞の音韻変化とアクセント結合についての規則化を行う、「宮崎正弘，『日本文音声変換のための数字読み規則』，情報処理学会論文誌，１９８４年６月，第２５巻、第６号、ｐｐ．１０３５−１０４３」に示されるような規則を適用して読みを付与する。アルファベット列に対しては、アルファベット読みと判定された単語には、アルファベット各文字とその読みを対応させたアルファベット読み対応表（例：Ａ＝エー，Ｂ＝ビー）を用いて読みを付与し、ローマ字読みと判定された単語には、ローマ字とその読みを対応させたローマ字読み対応表（例：Ａ＝ア，ＫＡ＝カ）を用いて読みを付与し、英語読み、フランス語読みなどの各小国語に対しては、それぞれの言語毎に、例えば、特開２００１−１４２８７７公報に示される方法などを用いて読みを付与する。この方法は、英文字とカタカナ対応データから作成された音訳モデルに基づき、英単語とカタカナの同時出現確率が最大となる経路を探索するとにより、任意の英単語について最適なカタカナ音訳を行うものである。
【００４９】
ここで付与された読みは、形態素解析部２で出力した単語情報を上書きする（単語情報が読みの多義を持つ構造の場合には、ここで付与された読みを第一位とする）。なお、当該読み付与５が読みを付与するために、ローマ字読みの場合にはローマ字表、アルファベット読みの場合には、アルファベット表、英語読み、フランス語読み等で特開２００１−１４２８７７号公報に示される方法を用いる場合には、音訳モデルが必要となるため、これらの表を当該読み付与部５内部または、外部にデータベースとして設けられるものとする。
【００５０】
単語情報出力部６は、テキスト入力部１から得られた出力する単語情報の形式に従って単語情報を指定された出力先に指定された形式で出力する。
【００５１】
［第１の実施の形態］
上記の読みクラス判定部４の詳細な処理について説明する。
【００５２】
図４は、本発明の第１の実施の形態における読みクラス判定部の構成を示す。同図に示す読みクラス判定部４は、読みクラス候補抽出部４１、対象単語情報利用型判定部４２、文脈利用型判定部４３、最終判定部４４からなる。また、読みクラス判定モデル８は、対象単語情報利用型読みクラス判定モデル８１と文脈利用型読みクラス判定モデル８２を有し、対象単語情報利用型読みクラス判定モデル８１は、対象単語情報利用型判定部４２により参照され、文脈利用型読みクラス判定モデル８２は、文脈利用型判定部４３により参照される。
【００５３】
読みクラス候補抽出部４１は、対象とする読みクラスのうち、対象単語列抽出部３が抽出した対象単語が取り得る読みクラスを抽出する。例えば、数字列の場合には、アルファベット読みやローマ字読みといった読みクラスにはなり得ないので、これらのクラスを除外する。また、アルファベット列では棒読みや桁読みというクラスが除外され、さらに、ローマ字になり得ないもの、例えば、ローマ字で用いられない文字が存在（例：ＬＥＭＯＮ）、ローマ字であり得ない文字列の並びが存在（例：ＲＥＳＴＡＵＲＡＮＴ）した場合には、ローマ字読みというクラスも除外される。
【００５４】
対象単語情報利用型判定部４２は、対象単語列抽出部３が抽出した対象単語の単語情報から得られる属性を対象単語情報利用型読みクラス判定モデル８１に入力する。
【００５５】
ここでは、アルファベット列のみを対象としている。これは、アルファベット列は対象単語の情報だけで読みクラスが決定できる場合が数多くあり得るが（例：「ｂｅａｕｔｉｆｕｌ」＝英語読み、「ＳＶＭ」＝アルファベット読みなど）、数字列は先に挙げた「６１１」の例のように、対象単語の情報のみでは読みクラスが決定できないからである。
【００５６】
対象単語情報利用型読みクラス判定モデル８１は、以下に述べる属性を入力とする識別関数と、識別関数の出力値を入力して、各読みクラス候補の指定順位をスコア付きで出力する順位関数からなる。日本語テキストコーパス（または、辞書）等を用いて学習データを作成し、例えば、「山田寛康、他１名、『ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅの多値分類問題への適用法について』、情報処理学会研究報告：自然言語処理、２００１年１１月２０日、ｐｐ．３３−３８」に数種類示されるＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）を多値分類拡張したもの等を学習器として用いて、識別関数のパラメータは予め決定しておく。利用する属性は、少なくとも単語の文字数と、第１音節、末尾音節の表記を含む。それ以外の音節の表記を属性に加えても構わない。ここでの音節の境界は、“母音（ａｉｕｅｏ）＋それ以外の文字”となる位置とする。なお、順位関数としては、例えば、前述の山田他の文献に示されるｐａｉｒｗｉｓｅ法により順位を決定し、投票されたクラスの距離の緩和をスコアとするものなどが考えられる。
【００５７】
文脈利用型判定部４３は、対象単語列抽出部３が抽出した対象単語及びその隣接単語の単語情報から得られる属性を文脈利用型読みクラス判定モデル８２に入力して、各読みクラス候補の推定順序をスコア付で出力する。
文脈利用型読みクラス判定モデル８２は、以下に述べる属性を入力とする識別関数と、識別関数の出力値を入力して、各読みクラス候補の推定順位をスコア付きで出力する順位関数からなる。日本語テキストコーパス（または、辞書）等を用いて学習データを作成し、対象単語情報利用型判定モデル８１で用いた学習器を用いて、日本語テキストコーパス等から学習データを収集し、予め作成しておく。利用する属性は、対象単語、及びその前方Ｍ個の単語（Ｍ＞０、任意に設定可能）、後方Ｎ個の単語（Ｎ＞０、任意に設定可能）の文字数、字種（アルファベット列は、すべて大文字、先頭大文字、その他に分ける）、品詞等である。
【００５８】
なお、順位関数としては、例えば、前述の山田他の文献に示されるｐａｉｒｗｉｓｅ法により順位を決定し、投票されたクラスの距離の緩和をスコアとするものなどが考えられる。
【００５９】
最終判定部４４は、対象単語情報利用型判定部４２と文脈利用型判定部４３の判定結果より、最終的に判定した読みクラスを出力する。
【００６０】
図５は、本発明の第１の実施の形態における読みクラス判定処理動作のフローチャートである。
【００６１】
ステップ１０１）まず、現在の処理対象単語から、取り得る読みクラスを抽出する。
【００６２】
ステップ１０２）対象単語が数字列であるか判定し、数字列である場合にはステップ１０５に移行する。また、数字列でない場合にはステップ１０３に移行する。
【００６３】
ステップ１０３）対象単語が数字列でない場合には、対象単語情報利用型判定を行い、ステップ１０１で抽出された各読みクラス候補の推定順位をスコア付きで出力する。
【００６４】
ステップ１０４）ステップ１０３で出力された読みクラス候補第１位のスコアが信頼性閾値以上であるか判定し、信頼性閾値以上である場合には、ステップ１０８に移行し、信頼性閾値未満である場合には、ステップ１０５に移行する。ここで、信頼性閾値は、経験的に予め設定しておく値である。
【００６５】
ステップ１０５）読みクラス候補第１位のスコアが信頼性閾値以上でない場合、あるいは、対象単語が数字列の場合は、文脈利用型判定を行い、各読みクラス候補の推定順位をスコア付きで出力する。ここで、判定を行う読みクラスの候補は、ステップ１０１で抽出された読みクラスの候補のすべてとしてもよいし、ステップ１０３で順位付けされた読みクラスのうちの上位いくつかとする、あるいは、ステップ１０３で得られたスコアがある値以上の読みクラスのみとする等の絞り込みを行ってもよい（この場合でも、ステップ１０３を通らない場合は、ステップ１０１で抽出された読みクラス候補すべてとする）。
【００６６】
ステップ１０６）ステップ１０３が行われているかどうかを判定し、行われている場合には、ステップ１０３とステップ１０５で判定された各第１位の読みクラスが同じであるか判定する。ステップ１０３が行われなかった場合と、ステップ１０３が行われ、ステップ１０５と第１位の読みクラスが同じ場合には、ステップ１０８へ移行する。それ以外の場合にはステップ１０７に移行する。
【００６７】
ステップ１０７）ステップ１０３で判定された第１位の読みクラスのスコアと、ステップ１０５で判定された第１位の読みクラスの“スコア＊スコアの重み”（但し、スコアの重みは定数）の値のうち、値の大きい読みクラスを最終的な読みクラスとし、処理を終了する。スコア重みは、経験的に予め設定しておく定数である。
【００６８】
ステップ１０８）ステップ１０３あるいはステップ１０５（行われたもの）で判定された第１位の読みクラスを最終的な読みクラスとし、処理を終了する。
［第２の実施の形態］
図６は、本発明の第２の実施の形態における読みクラス判定部の構成図である。同図に示す読みクラス判定部４は、読みクラス候補抽出部４１と一括判定部４５を有し、一括判定部４５は一括読みクラス判定モデル８３を参照する。
【００６９】
読みクラス候補抽出部４１は、一括判定部４５が出力対象とする読みクラスのうち、対象単語列抽出部３が抽出した対象単語が取り得る読みクラスを抽出する。これは、前述の第１の実施の形態と全く同一である。
【００７０】
一括判定部４５は、対象単語列抽出部３が抽出した対象単語及びその隣接単語の単語情報から得られる属性を一括読みクラス判定モデル８３に入力して、各読みクラス候補の推定順位を得て、その第１位となった読みクラスを最終的な読みクラスとし、出力する。
一括読みクラス判定モデル８３は、対象単語情報利用型読みクラス判定モデル８１で用いた学習器を用いて、日本語テキストコーパス（または、辞書）等から抽出した属性と読みクラスのセットを学習データとして予め作成される識別関数と、識別関数の出力値を入力して、各読みクラス候補の推定順位をスコア付きで出力る順位関数からなる。ここで一括読みクラス判定モデル８３は、アルファベット列と数字列をまとめて１つのモデルとしてもよいし、アルファベット列用と数字列用の２つのモデルに分けてもよい。
【００７１】
利用する属性は、対象単語、及び対象単語前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、及び対象単語後方Ｎ個の単語（Ｎ＞０，任意に設定可能）に対する単語属性と、対象単語前方Ｍ個の読みクラスである。
【００７２】
アルファベット列用の単語属性としては、少なくとも、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は、全て大文字、先頭大文字、全て小文字、その他に分ける）を含む。ここで、単語がアルファベット列以外の場合には、第１音節表記、末尾音節表記はなしとなる。
【００７３】
数字列用の単語属性としては、少なくとも、文字数、文字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む。
【００７４】
アルファベット列と数字列用の（１つにまとめた）属性としては、少なくとも、文字数、第１音節表記、末尾音節表記、文字種（アルファベット列は、全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む。
【００７５】
【実施例】
以下では、図７に示すテキストを入力例として、図７から図１２を用いて本発明の実施例を説明する。
【００７６】
図７は、本発明の一実施例の入力から対象単語抽出までのデータ例を示し、図８は、本発明の一実施例の文脈利用型判定の属性例を示し、図９〜図１１は、本発明の一実施例の一括判定の属性例を示し、図１２は、本発明の一実施例の最終出力する単語情報例を示す。
【００７７】
ここでは、入力される設定情報は、『読みクラスの判定を行う単語＝全アルファベット列・全数字列、出力する単語の形式＝すべての単語情報をメモリに出力である』としておくが、以下では、部分的に他の設定情報の場合にはどうなるかについても説明を加える。
【００７８】
テキスト入力部１では、『読みクラスの判定を行う単語＝全アルファベット列・全数字列』を対象単語抽出部３に渡す。また、『出力する単語の形式＝全ての単語情報をメモリに出力』を単語情報出力部６に渡す。また、テキストを形態素解析部２に渡す。
【００７９】
次に、形態素解析部２は、単語辞書７を用いて、図７に示すように単語の認定を行い、各単語毎に、表記、品詞、読み、字種などからなる単語情報が得られる。
【００８０】
次に、対象単語抽出部３は、『単語情報と、読みクラスの判定を行う単語＝全アルファベット列・全数字列』という指定より、図７に示す対象単語を抽出する。
【００８１】
ちなみに、設定情報として、『読みクラスの判定を行う単語＝未知語のアルファベット』が入力された場合には、「１：ＹＯＫＯＳＵＫＡ」と「１３：ＡＩＲ」のみを対象単語として抽出する。
【００８２】
以下、読みクラス判定部４として、前述の第１の実施の形態における図４に示した読みクラスの判定処理について説明する。ここでは、「１：ＹＯＫＯＳＵＫＡ」、「４：１０」の例を用いて図５のフローチャートに基づいて説明する。
【００８３】
ここでは、アルファベット読みクラスとして、アルファベット読み、英語読み、ローマ字読み、数字読みクラスとして、整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型（「宮崎正弘、「日本文音声変換のための数詞読み規則」、情報処理学会論文誌、１９８４年６月、第２５巻、第６号、ｐｐ．１０３５−１０４３．」の分類に英語型を加えたもの）を扱うこととする。
【００８４】
対象単語情報利用型読みクラス判定モデル８１は、単語文字数と第１音節・末尾音節表記を属性として、ＳＶＭをペアワイズ法により、多値分類に拡張したモデルを利用するものとする。
【００８５】
文脈利用型読みクラス判定モデル８２は、対象単語及び前後２単語それぞれについての文字数、字種、単語表記、先頭文字表記、末尾文字表記、品詞、及び前方２つの読みクラス（それらが読みクラス判定の対象単語の場合のみ）を属性として、ＳＶＭをペアワイズ法により多値分類に拡張したモデルを利用するものとする。
【００８６】
また、ステップ１０４の信頼度閾値＝１．００、ステップ１０７のスコアの重み＝１．００とする。
【００８７】
ステップ１０５では、読みクラスを限定して、ステップ１０３を通る場合には、ステップ１０３の上位２位の読みクラスに対する判定を行うものとし、ステップ１０３、ステップ１０５のスコアとしては、第１解＝第２解との距離、それ以外＝０とする。
【００８８】
まず、「１：ＹＯＫＯＳＵＫＡ」の場合を示す。
【００８９】
図６のステップ１０１において、「ＹＯＫＯＳＵＫＡ」は、アルファベット列であるため、全数字読みクラスを除外する。また、ローマ字になり得る綴りかをチェックして、なり得ると判定する。この結果、読みクラス候補は、アルファベット読み、英語読み、ローマ字読みの３種類となる。
【００９０】
次に、ステップ１０２で、「ＹＯＫＯＳＵＫＡ」は数字列ではないので、ステプ１０３に移行する。
【００９１】
ステップ１０３では、単語文字数＝８、第１音節表記＝ＹＯ、末尾音節表記＝ＫＡを属性として抽出し、アルファベット読み、英語読み、ローマ字読みを読みクラス候補として、対象単語情報利用型読みクラス判定モデル８１に適用する。この結果、
１位：ローマ字読み、スコア＝２．５４
２位：英語読み、スコア＝０
３位：アルファベット読み、スコア＝０
が得られたとする。
【００９２】
ステップ１０４では、第１解スコア＝２．５４、信頼度閾値＝１．００であるので、ステップ１０８に移行し、ローマ字読みと判定して処理を終了する。
【００９３】
次に、「４：１０」の場合を示す。
【００９４】
ステップ１０１において、「１０」は数字列であるため、全アルファベット読みクラスを除外する。この結果、読みクラス候補は、整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型となる。
【００９５】
次に、ステップ１０２で「１０」は数字列なので、ステップ１０５に移行する。
【００９６】
ステップ１０５で、判定に用いる属性を図８に示す。読みクラス候補を整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型として、この属性を、文脈利用型読み判定モデル８２に適用し、この結果、
１位：英語型、スコア＝０．０３
２位：整数型、スコア＝０
３位：小数型、スコア０
（以下、略）
が得られたとする。
【００９７】
ステップ１０６では、ステップ１０３の判定を行っていないので、ステップ１０８に移行し、英語型と判定して処理を終了する。
【００９８】
次に、読みクラス判定部４として、図６に示す前述の第２の実施の形態を用いた場合の実施例を「４：１０」，「１３：ＡＩＲ」の例を用いて説明する。
【００９９】
ここでは、アルファベット読みクラスとして、アルファベット読み、英語読み、ローマ字読み、フランス語読み、イタリア語読み、数字読みクラスとして、整数型、小数型、分数型、概数型、棒読み型、範囲型、併記型、英語型（「宮崎正弘、「日本文音声変換のための数詞読み規則」、情報処理学会論文誌、１９８４年６月、第２５巻、第６号、ｐｐ．１０３５−１０４３．」の分類に英語型を加えたもの）を扱うこととする。
【０１００】
一括読みクラス判定モデル８３は、ここでは、アルファベット列用と数字列用の２つのモデルに分けるものとする。いずれのモデルもＳＶＭをペアワイズ法により多値分類に拡張したモデルを利用するものとし、対象単語及び前後２単語についての以下に示すそれぞれの単語属性、及び、前方２単語の読みクラスを属性とするものとする。
【０１０１】
アルファベット列用の単語属性は、文字数、第１、第２、末尾−１、末尾音節表記（アルファベット列以外は値なし）、文字種（アルファベット列は、全て大文字、先頭大文字、全て小文字、その他に分ける）とする。
【０１０２】
数字列用の単語属性は、表記、文字数、数字タイプ（先頭文字が“０”かどうか）、主品詞、文字種（アルファベット列は、すべて大文字、先頭大文字、全て小文字、その他に分ける）とする。
【０１０３】
図６の読みクラス候補抽出部４１において、「４：１０」は、数字列であるため、全アルファベット読みクラスを除外する。この結果、読みクラス候補は、整数型、小数型、分数型、概数型、棒読み型、範囲型、並記型、英語型の８種類となる。
【０１０４】
次に、一括判定部４５では、上記８種類を読みクラスの候補として、図９に示す属性を、数字列用の一括読みクラス判定モデル８３に適用し、この結果、
１位：英語型
２位：整数型
（以下略）
が得られたとする。これにより、英語型と判定して処理を終了する。
【０１０５】
図６の読みクラス候補抽出部４１において「ＡＩＲ」は、アルファベット列であるため、全数字読みクラスを除外する。また、ローマ字では「Ｒ」が語尾となることはあり得ないので、ローマ字読みも読みクラスから除外する。この結果、読みクラスの候補は、アルファベット読み、英語読み、イタリア語読み、フランス語読みの４種類となる。
【０１０６】
次に、一括判定部４５では、アルファベット読み、英語読み、フランス語読み、イタリア語読みを読みクラスの候補として、図１０に示す属性を、一括読みクラス判定モデル８３に適用し、この結果、
１位：英語読み
２位：アルファベット読み
３位：イタリア語読み
４位：フランス語読み
が得られたとする。これにより、英語読みと判定して処理を終了する。
【０１０７】
次に、一括読みクラス判定モデル８３として、アルファベット列と数字列を纏めて１つにした場合の具体例を「１：ＹＯＫＯＳＵＫＡ」の例を用いて説明する。
【０１０８】
このモデルはＳＶＭをペアワイズ法により多値分類に拡張したモデルを利用するものとし、対象単語及び前後２単語についての以下に示す単語属性、及び、前方２単語の読みクラス属性とするものである。
【０１０９】
単語属性は、表記、文字数、第１、第２、末尾−１、末尾音節表記（アルファベット列以外は値なし）、文字種（アルファベット列は、すべて大文字、先頭大文字、すべて小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）とする。
【０１１０】
図６の読みクラス候補抽出部４１において、「１：ＹＯＫＯＳＵＫＡ」は、アルファベット列であるため、全数字読みクラスを除外する。この結果、読みクラスの候補は、アルファベット読み、英語読み、ローマ字読み、フランス語読み、イタリア語読みとなる。
【０１１１】
次に、一括判定部４５では、上記読みクラスを候補として、図１１に示す属性を、一括読みクラス判定モデル８３に適用し、この結果、
１位：ローマ字読み
２位：英語読み
３位：イタリア語読み
４位：フランス語読み
５位：アルファベット読み
が得られたとする。これにより、ローマ字読みと判定して処理を終了する。
【０１１２】
図３において、読みクラス判定部４は、上記に示したように、対象単語抽出部３で抽出された単語すべてに読みクラスを付与する（図１２の読みクラス参照）。
【０１１３】
次に読み付与部５は、付与した読みクラスに基づき読みを付与する。
【０１１４】
例えば、「１：ＹＯＫＯＳＵＫＡ」はローマ字読みと判定されているので、「ＹＯ→ヨ」、「ＫＯ→コ」、「ＳＵ→ス」、「ＫＡ→カ」と変換され、「ヨコスカ」という読みを得る。
【０１１５】
「４：１０」は、英語型と判定されているので、予め用意しておいた、英語読み変換表により、「テン」という読みを得る。
【０１１６】
「１３：ＡＩＲ」は英語型と判定されているので、英語用に作られた「特開２００１−１４２８７７号公報」等を利用して、「エア」という読みを得る。なお、当該「特開２００１−１４２８７７号公報」による方法を用いる場合には、各国語音訳モデルを用いるものとする。
【０１１７】
最後に、単語情報出力部６では、設定情報で『出力する単語の形式＝すべての単語情報をメモリに出力』としてあるので、図１２の単語情報をメモリに出力する。
【０１１８】
この出力された単語情報は、例えば、音声合成装置へ入力すれば、合成音声が出力できる。
【０１１９】
なお、上記の第１の実施の形態及び第２の実施の形態における読みクラス判定部の動作をプログラムとして構築し、読み情報決定装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段で実行することも可能である。また、図３に示す単語辞書をデータベースとして構築し、記憶手段に記憶しておき、他の構成要素についてもプログラムとして構築し、読み情報決定装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段で実行することも可能である。
【０１２０】
また、構築されたプログラムを読み情報決定装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施するコンピュータにインストールすることも可能である。
【０１２１】
なお、本発明は上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【０１２２】
【発明の効果】
上述のように、本発明によれば、アルファベット列及び数字列に対して、各種辞書等により、収集が用意な当該文字列自身の情報、及びコーパス等を作成するコストが必要な当該文字列近辺の文字列情報を利用した統計モデルを用いて、アルファベット読みクラス、数字読みクラスを推定することにより、日本語テキスト中に含まれる英数字列の読み精度を向上させることができる。
【図面の簡単な説明】
【図１】本発明の原理を説明するための図である。
【図２】本発明の原理構成図である。
【図３】本発明の一実施の形態における読み情報決定装置の構成図である。
【図４】本発明の第１の実施の形態における読みクラス判定部の構成図である。
【図５】本発明の第１の実施の形態における読みクラス判定処理動作のフローチャートである。
【図６】本発明の第２の実施の形態における読みクラス判定部の構成図である。
【図７】本発明の一実施例の入力から対象単語抽出までのデータ例である。
【図８】本発明の一実施例の文脈利用型判定の属性例である。
【図９】本発明の一実施例の一括判定の属性例（その１）である。
【図１０】本発明の一実施例の一括判定の属性例（その２）である。
【図１１】本発明の一実施例の一括判定の属性例（その３）である。
【図１２】本発明の一実施例の最終出力する単語情報例である。
【符号の説明】
１テキスト入力部
２形態素解析手段、形態素解析部
３対象単語抽出手段、対象単語抽出部
４読みクラス判定部
５読み付与手段、読み付与部
６単語情報出力手段、単語情報出力部
７単語辞書
８読みクラス判定モデル
４１読みクラス候補抽出部
４２対象単語情報利用型判定手段、対象単語情報利用型判定部
４３文脈利用型判定手段、文脈利用型判定部
４４最終判定手段、最終判定部
４５一括判定部
８１対象単語情報利用型読みクラス判定モデル
８２文脈利用型読みクラス判定モデル
８３一括読みクラス判定モデル

Claims

処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得し、
前記設定情報として入力された読みクラスの判定を行う単語の指定により、前記単語情報の中から読みクラスの判定を行う対象単語を抽出し、
各前記対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し、
抽出された前記対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行い、
読みクラスの第１候補のスコアが所定の信頼度閾値未満あるいは、抽出された前記対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行い、前記対象単語情報利用型判定と該文脈利用型判定の第１候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第１の候補のスコアと、該文脈利用型判定で判定された第１候補の読みのクラスのスコアとスコアの重み（但し、スコアの重みは定数）を乗算した値のうち、値の大きい読みクラスを最終結果とし、
前記対象単語情報利用型判定の前記読みクラスの第１候補のスコアが所定の信頼度閾値以上、あるいは、前記対象単語情報利用型判定と前記文脈利用型判定の第１候補が同一、あるいは、対象単語が数字列の場合には、該第１候補を読みクラス判定の最終結果とし、
前記対象単語が数字列の場合には、文脈利用型判定を行い、その第１候補を読みクラス判定の最終結果とし、
判定された前記読みクラスに応じて読み付与を行い、
前記設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力することを特徴とする読み情報決定方法。
前記対象単語情報利用型読み判定モデルは、少なくとも、単語の文字数、第１音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
前記対象単語情報利用型読み判定モデルに対して、抽出された前記対象単語の単語情報から得られる少なくとも単語の文字数、第１音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を前記順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する請求項１記載の読み情報決定方法。
前記文脈利用型読みクラス判定モデルは、
少なくとも、単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
前記文脈利用型読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる少なくとも各単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける）、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を前記順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する請求項１記載の読み情報決定方法。
処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定方法において、
前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得し、
前記設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出し、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出し、
一括読みクラス判定モデルを用いた一括判定を行い、第１候補を読みクラス判定の結果とし、
判定された読みクラスに応じて読み付与を行い、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力することを特徴とする読み情報決定方法。
前記一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞数字タイプ（先頭文字が“０”かどうか）を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第１位の候補を選択する順位関数を有し、
前記一括読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、
数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する請求項４記載の読み情報決定方法。
処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析手段と、
前記設定情報として入力された読みクラスの判定を行う単語の指定により、前記単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段と、
前記対象単語抽出手段で抽出された各前記対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段と、
前記対象単語抽出手段で抽出された前記対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定手段と、
読みクラスの第１候補のスコアが所定の信頼度閾値未満、あるいは、対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定手段と、
前記対象単語情報利用型判定手段と該文脈利用型判定手段の第１候補のスコアを比較して、該対象単語情報利用型判定手段の読みクラスの第１の候補のスコアと、該文脈利用型判定手段で判定された第１候補の読みのクラスのスコアとスコアの重み（但し、スコアの重みは定数）を乗算した値のうち、値の大きい読みクラスを最終結果とし、該対象単語情報利用型判定手段の前記読みクラスの第１候補のスコアが所定の信頼度閾値以上、あるいは、前記対象単語情報利用型判定手段と前記文脈利用型判定手段の第１候補が同一、あるいは、対象単語が数字列の場合には、該第１候補を読みクラス判定の最終結果とする最終判定手段と、
前記最終判定手段で判定された前記読みクラスに応じて読み付与を行う読み付与手段と、
前記設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段と、を有することを特徴とする読み情報決定装置。
前記対象単語情報利用型読み判定モデルは、
少なくとも、単語の文字数、第１音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
前記対象単語情報利用型判定手段は、
前記対象単語情報利用型読み判定モデルに対して、抽出された前記対象単語の単語情報から得られる少なくとも単語の文字数、第１音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む請求項６記載の読み情報決定装置。
前記文脈利用型読みクラス判定モデルは、
少なくとも、単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有し、
前記文脈利用型判定手段は、
前記文脈利用型読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる少なくとも各単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける）、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を前記順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む請求項６記載の読み情報決定装置。
処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定装置であって、
前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析手段と、
前記設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出手段と、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出手段と、
一括読みクラス判定モデルを用いた一括判定を行い、第１候補を読みクラス判定の結果とする一括判定手段と、
判定された読みクラスに応じて読み付与を行う読み付与手段と、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力手段と、を有することを特徴とする読み情報決定装置。
前記一括読みクラス判定モデルは、少なくとも、アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞数字タイプ（先頭文字が“０”かどうか）を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第１位の候補を選択する順位関数を有し、
前記一括判定手段は、
前記一括読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、
数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力する手段を含む請求項９記載の読み情報決定装置。
処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いてテキストを形態素解析して単語情報を取得する形態素解析ステップと、
前記設定情報として入力された読みクラスの判定を行う単語の指定により、前記単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
前記対象単語抽出ステップで抽出された各前記対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
前記対象単語抽出ステップで抽出された前記対象単語がアルファベット列である場合は、対象単語情報利用型読みクラス判定モデルを用いた対象単語情報利用型判定を行う対象単語情報利用型判定ステップと、
読みクラスの第１候補のスコアが所定の信頼度閾値未満、あるいは、前記対象単語抽出ステップで抽出された前記対象単語が数字列の場合には、文脈利用型読みクラス判定モデルを用いた文脈利用型判定を行う文脈利用型判定ステップと、
前記対象単語情報利用型判定ステップと該文脈利用型判定ステップの第１候補のスコアを比較して、該対象単語情報利用型判定の読みクラスの第１の候補のスコアと、該文脈利用型判定で判定された第１候補の読みのクラスのスコアとスコアの重み（但し、スコアの重みは定数）を乗算した値のうち、値の大きい読みクラスを最終結果とし、該対象単語情報利用型判定ステップの前記読みクラスの第１候補のスコアが所定の信頼度閾値以上、あるいは、前記対象単語情報利用型判定ステップと前記文脈利用型判定ステップの第１候補が同一、あるいは、対象単語が数字列の場合には、該第１候補を読みクラス判定の最終結果とする最終判定ステップと、
前記最終判定ステップで判定された前記読みクラスに応じて読み付与を行う読み付与ステップと、
前記設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行することを特徴とする読み情報決定プログラム。
前記対象単語情報利用型判定ステップは、
少なくとも、単語の文字数、第１音節表記、末尾音節表記を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する前記対象単語情報利用型読み判定モデルに対して、抽出された前記対象単語の単語情報から得られる少なくとも単語の文字数、第１音節表記、末尾音節表記を含む属性を入力し、各属性ベクトル表現に変換して識別関数の計算を行い、該識別関数の出力値を該順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む請求項１１記載の読み情報決定プログラム。
前記文脈利用型判定ステップは、
少なくとも、単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数の出力値より各読みクラスの順位とスコアを定める予め定められた順位関数を有する前記文脈利用型読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる少なくとも各単語の文字数、字種（アルファベット列は全て大文字、先頭大文字、すべて小文字、その他に分ける）、品詞を含む属性を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む請求項１１記載の読み情報決定プログラム。
処理対象のテキストを入力して、各単語の読み、品詞を含む単語情報を出力する読み情報決定プログラムであって、
前記処理対象のテキストと設定情報を入力として受け付け、単語辞書を用いて該テキストを形態素解析して単語情報を取得する形態素解析ステップと、
前記設定情報として入力された読みクラスの判定を行う単語の指定により、単語情報の中から読みクラスの判定を行う対象単語を抽出する対象単語抽出ステップと、
各対象単語に対して、文字列を構成する文字種やその並びを以て読み方の種別を示す読みクラス候補となり得る読み候補を抽出する読みクラス候補抽出ステップと、
一括読みクラス判定モデルを用いた一括判定を行い、第１候補を読みクラス判定の結果とする一括判定ステップと、
判定された読みクラスに応じて読み付与を行う読み付与ステップと、
設定情報として入力された出力する単語情報の形式に基づいて、単語情報を出力する単語情報出力ステップと、をコンピュータ上で実行することを特徴とする読み情報決定プログラム。
前記一括判定ステップは、
少なくとも、アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞数字タイプ（先頭文字が“０”かどうか）を含む属性に対応するパラメータを持つ予め定められた識別関数と、該識別関数と出力値より第１位の候補を選択する順位関数を有する前記一括読み判定モデルに対して、抽出された前記対象単語、及び該対象単語の前方Ｍ個の単語（Ｍ＞０，任意に設定可能）、後方Ｎ個の単語（Ｎ＞０，任意に設定可能）の単語情報から得られる、少なくとも、
アルファベット列用のみとしては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）を含む属性、
数字列用のみとしては、文字数、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
アルファベット列と数字列共用としては、文字数、第１音節表記、末尾音節表記、字種（アルファベット列は全て大文字、先頭大文字、全て小文字、その他に分ける）、品詞、数字タイプ（先頭文字が“０”かどうか）を含む属性、
を入力し、各属性をベクトル表現に変換して識別関数の計算を行い、識別関数の出力値を順位関数に入力して、各読みクラス候補の推定順位をスコア付きで出力するステップを含む請求項１４記載の読み情報決定プログラム。