JP5229448B2

JP5229448B2 - 読み付与装置、およびプログラム

Info

Publication number: JP5229448B2
Application number: JP2007233825A
Authority: JP
Inventors: 英一郎隅田; 史昭菅谷
Original assignee: ATR Advanced Telecommunications Research Institute International; KDDI Corp
Current assignee: ATR Advanced Telecommunications Research Institute International; KDDI Corp
Priority date: 2007-09-10
Filing date: 2007-09-10
Publication date: 2013-07-03
Anticipated expiration: 2027-09-10
Also published as: JP2009064383A

Description

本発明は、キーワードの読み方についての情報を出力する読み付与装置等に関するものである。

従来、以下に示すような読みがな付与装置があった。読みがな付与装置は、単語の発音（品詞情報不要）を登録している辞書と、同一表記で発音の異なる単語間の接続確率を区別して与える言語モデルを設ける。そして、読みがな付与装置の仮説生成・削除部は、日本語テキストに対する読みがな候補の仮説を前記辞書により生成し、仮説計算部は、前記言語モデルに基づいて当該仮説における単語間の接続確率の積を計算し、単語間の接続確率の積が最大となる仮説のみを残すようにマージし、文末での単語間の接続確率の積が最大となる仮説を選択して、その発音列を出力する（例えば、特許文献１参照）。

また、一般的に、音声認識や音声合成や機械翻訳などのシステムには、単語の読み情報が不可欠である。そして、単語の読み情報は、通常、読み辞書という形態でシステムに組み込まれる。
特開２００３−１３２０５２号公報（第１頁、第１図等）

しかしながら、従来の読み付与装置等においては、新たに創作されるキーワード、固有名詞など、辞書に記載されていない単語が多くあり、音声認識や音声合成や機械翻訳等の処理の失敗の原因となっていた。

本第一の発明の読み付与装置は、キーワードを受け付ける受付部と、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している読み辞書に対して、前記受付部が受け付けたキーワードまたは当該キーワードを分割した文字列である２以上の各分割文字列である対象文字列を用いて検索し、２以上の読み情報を取得する読み辞書検索部と、前記対象文字列と、前記読み辞書検索部が取得した２以上の読み情報のうちの各読み情報の組である各取得対象文字列読み情報を用いて、文書群を検索し、前記各取得対象文字列読み情報が有する対象文字列と読み情報が共起する文書の数である共起頻度を、読み情報ごとに取得する共起頻度取得部と、前記共起頻度取得部が取得した読み情報ごとの共起頻度を用いて、少なくとも最も共起頻度の多い読み情報、または最も共起頻度の多い読み情報の組み合わせを出力する出力部を具備する読み付与装置である。

かかる構成により、Ｗｅｂ上のホームページなど、現に記載された文書群、人間の現在の営みを反映した文書群を利用してキーワードの読み情報を取得するので、精度高く、キーワードの読み情報を取得できる。

また、本第二の発明の読み付与装置は、第一の発明に対して、前記読み辞書検索部は、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している読み辞書に対して、前記対象文字列を用いて検索し、２以上の読み情報を取得する読み情報取得手段と、前記キーワードがカタカナの文字列を含む場合、当該カタカナの文字列をひらがなに変換する変換手段を具備する読み付与装置である。

かかる構成により、Ｗｅｂ上のホームページなどの文書群は、読みに「カタカナ」より「ひらがな」が使用されることが多く、かかる文書群の特性を利用してキーワードの読み情報を取得するので、さらに精度高く、キーワードの読み情報を取得できる。

また、本第三の発明の読み付与装置は、第二の発明に対して、前記変換手段は、前記キーワードが、あらかじめ決められたカタカナを含むか否かを判断し、当該カタカナを含む場合には、前記カタカナの文字列をひらがなに変換しない読み付与装置である。

かかる構成により、ひらがなとして存在しない「ヴ」や、特にカタカナで読み方を記載している文字などを含む場合、当該文字の特性を利用してキーワードの読み情報を取得するので、さらに精度高く、キーワードの読み情報を取得できる。

また、本第四の発明の読み付与装置は、第一から第三いずれかの発明に対して、前記読み辞書検索部は、前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である２以上の分割文字列を取得するキーワード分割手段と、前記２以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに検索し、分割文字列と読み情報を有する取得対象文字列読み情報を、２以上取得する読み情報取得手段を具備する読み付与装置である。

かかる構成により、長いキーワード、複合語からなるキーワードなどについても、精度高く、そのキーワードの読み情報を取得できる。

また、本第五の発明の読み付与装置は、第四の発明に対して、前記キーワード分割手段は、前記受付部が受け付けたキーワードの文字列長を取得し、当該文字列長が予め決められた文字列長より大きい、または予め決められた文字列長以上の場合には、前記キーワードの分割を行わず、前記読み情報取得手段は、前記キーワードの分割を行わない場合、前記受付部が受け付けたキーワードと一致する用語と対になる１以上の読み情報を、前記読み辞書から取得する読み付与装置である。

かかる構成により、膨大な処理量になることを防止し、適切な時間で、キーワードの読み情報を取得できる。

また、本第六の発明の読み付与装置は、第四の発明に対して、前記キーワード分割手段は、切断数Ｎ（Ｎは０以上）の少ない場合から、順に、前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である１以上の分割文字列を取得し、前記読み情報取得手段からの終了指示があるまで、前記キーワードの分割を繰り返し、前記読み情報取得手段は、前記キーワード分割手段が取得した１以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに取得し、１以上の分割文字列のすべてに対応する読み情報が取得できなかった場合には、前記キーワード分割手段に対して、次に分割のパターンである２以上の分割文字列を取得するように指示し、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合には、当該１以上の分割文字列のすべてに対応する読み情報を記憶媒体に少なくとも一時格納する読み情報の取得処理を行い、かつ、前記キーワード分割手段に終了指示を渡し、または、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合と同じ切断数の他の分割のパターンである２以上の分割文字列を、前記キーワード分割手段に対して、取得するように指示し、前記同じ切断数の他の分割のパターンに対する読み情報の取得処理が完了した後、前記キーワード分割手段に終了指示を渡す読み付与装置である。

また、本第七の発明の読み付与装置は、第一から第六いずれかの発明に対して、前記読み辞書検索部は、前記対象文字列がアラビア数字を含むか否かを判断し、アラビア数字を含む場合は、当該アラビア数字を桁付き数字とする読みを示す桁付き数字読み情報を生成し、当該桁付き数字読み情報を読み情報として加えるアラビア数字処理手段をさらに具備する読み付与装置である。

かかる構成により、アラビア数字を含むキーワードでも、精度高く読み情報を取得できる。

また、本第八の発明の読み付与装置は、第一から第七いずれかの発明に対して、前記読み辞書検索部は、前記対象文字列がアルファベットを含むか否かを判断し、アルファベットを含む場合は、当該アルファベットに対応するローマ字読みを示すローマ字読み情報を生成し、当該ローマ字読み情報を読み情報として加えるアルファベット処理手段をさらに具備する読み付与装置である。

かかる構成により、アルファベットを含むキーワードでも、精度高く読み情報を取得できる。

また、本第九の発明の読み付与装置は、第一から第八いずれかの発明に対して、前記共起頻度取得部は、前記読み辞書検索部が取得した２以上の各取得対象文字列読み情報を用いて、文書群を検索し、前記各取得対象文字列読み情報が有するキーワードまたは分割文字列と、読み情報が共起する文書の数である共起頻度を、取得対象文字列読み情報ごとに取得する共起頻度取得手段と、前記受付部が受け付けたキーワードまたは２以上の分割文字列を有する取得対象文字列読み情報に対応する共起頻度をパラメータして、取得対象文字列読み情報または取得対象文字列読み情報の組み合わせごとに、スコアを算出するスコア算出手段を具備し、前記出力部は、前記共起頻度取得部が取得したスコアを用いて、少なくとも最も共起頻度の多い読み情報または読み情報の組み合わせを出力する読み付与装置である。

かかる構成により、適切な読み方の候補の情報が出力できる。

本発明による読み付与装置によれば、精度高く、キーワードの読み情報を取得できる。

以下、読み付与装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態において、キーワードの入力に対して、読み辞書を検索し、読み候補の情報（読み情報という）を取得し、キーワードと読み情報をキーとして文書群（例えば、Ｗｅｂ上のホームページの集合）を検索し、キーワードと読み候補の共起数を取得し、その共起数を用いて、出力する読み情報を決定し、当該読み情報を出力する読み付与装置１について説明する。

また、本実施の形態の読み付与装置１において、通常、キーワードを分割し、分割文字列を取得し、当該分割文字列を用いて読み辞書を検索し、読み候補の情報（読み情報という）を取得する。そして、当該分割文字列と読み候補の共起数を取得し、その共起数を用いて、出力する読み情報を決定し、当該読み情報を出力する。なお、キーワードが所定の長さ以上の場合は、分割は行わない処理についても説明する。また、本実施の形態の読み付与装置１において、通常、キーワードの切断数の少ないものから順に処理を行い、読めた切断数で処理を停止するものについて説明する。

また、本実施の形態の読み付与装置１において、読み情報は、主として、ひらがなを用いる。また、本実施の形態の読み付与装置１において、あらかじめ決められた文字（例えば、「ヴ」）を含む場合は、読み情報はカタカナとする。

また、本実施の形態の読み付与装置１において、アラビア数字の場合、桁付き数字の読みを生成し、候補に追加する処理について説明する。また、アルファベットの場合、ローマ字読みを追加する処理について説明もする。

さらに、共起数を用いて、分割キーワードごとに順位付けし、当該順位を用いて、予め決められた個数の読み候補を得るについて説明する。

図１は、本実施の形態における読み付与装置１を含むシステムの概念図である。本システムは、読み辞書装置２、サーバ装置３を含む。読み辞書装置２は、用語を受け付け、当該用語に対応する読み情報を出力する。出力される読み情報は、２以上でも良い。また、出力される読み情報が存在しない場合もあり得る。読み辞書装置２は、読み辞書を格納している。読み辞書は、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している辞書である。サーバ装置３は、１以上の文書の集合である文書群を格納している。文書群は、例えば、Ｗｅｂ上のホームページや、新聞記事の集合などである。また、文書群を構成する文書は、ＨＴＭＬやＸＭＬやＳＧＭＬなどの記述言語で記載されていても良いし、テキストデータでも良いし、データベースを構成するテーブルやレコードなどでも良い。つまり、文書群を構成する文書のデータ構造やフォーマット等は問わない。また、読み付与装置１、読み辞書装置２、およびサーバ装置３は、インターネット等のネットワーク４により接続されている。

また、図１において、読み付与装置１は、読み辞書装置２やサーバ装置３を含んでいないが、含んでいても良い。

図２は、本実施の形態における読み付与装置１のブロック図である。読み付与装置１は、受付部１１、読み辞書検索部１２、共起頻度取得部１３、出力部１４を具備する。

読み辞書検索部１２は、キーワード分割手段１２１、読み情報取得手段１２２、変換手段１２３、アラビア数字処理手段１２４、アルファベット処理手段１２５を具備する。

共起頻度取得部１３は、共起頻度取得手段１３１、スコア算出手段１３２を具備する。

受付部１１は、キーワードを受け付ける。キーワードとは、文字列、という程度の意味である。キーワードは、単語、複数の単語からなる複合語、単語や複合語を含む文章でも良い。なお、受付部１１が文章を受け付けた場合、単語（複合語を含む）に区切って、後述する読み情報を取得する処理を行うことは好適である。また、キーワードは、通常、名詞であるが、動詞や形容詞などの他の品詞の文字列でも良い。ここで、受け付けとは、ユーザからの入力受付、他の処理部（モジュール）からの受付、他の装置からの受信、記憶媒体（ハードディスク、ＤＶＤ、ＦＤなど問わない）からの読み込みなどである。キーワードの入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部１１は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

読み辞書検索部１２は、読み辞書に対して、対象文字列を用いて検索し、２以上の読み情報を取得する。読み辞書は、２以上の用語読み情報を格納している。用語読み情報は、用語と、読み情報を有する。読み情報とは、対応する用語の読みを示す情報である。用語読み情報は、例えば、用語「成田」と読み情報「なりた」を有する。読み辞書は、読み付与装置１が保持していても良いし、外部の装置（読み辞書装置２）が保持していても良い。また、読み辞書は、１種類でも良いし、２種類以上でも良い。読み辞書は、例えば、一般辞書、連濁辞書、人名辞書のうちの１以上の辞書である。一般辞書は、例えば、地名辞書、国語辞書、漢和辞書、カタカナ英単語辞書などから構成されている。対象文字列とは、受付部１１が受け付けたキーワードまたは２以上の各分割文字列である。分割文字列は、受付部１１が受け付けたキーワードを分割した文字列である。分割文字列の取得（分割）は、後述するキーワード分割手段１２１が行う。また、読み辞書検索部１２が行う検索は、例えば、読み辞書装置２が保持している検索エンジンに対して、対象文字列を渡し、読み辞書装置２から読み情報を得る処理である。検索エンジンは、読み辞書検索部１２が有しても良いし、他の装置が有しても良いし、図示しない他の処理部であっても良い。

読み辞書検索部１２は、通常、ＭＰＵやメモリ等から実現され得る。読み辞書検索部１２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

キーワード分割手段１２１は、受付部１１が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である２以上の分割文字列を取得する。キーワード分割手段１２１は、受付部１１が受け付けたキーワードの文字列長を取得し、当該文字列長が予め決められた文字列長より大きい、または予め決められた文字列長以上の場合には、キーワードの分割を行わないことは好適である。

また、キーワード分割手段１２１は、切断数Ｎ（Ｎは０以上）の少ない場合から（つまり、「０」「１」「２」と順に）、受付部１１が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である１以上の分割文字列を取得し、読み情報取得手段１２２からの終了指示があるまで、キーワードの分割を繰り返すことは好適である。そして、キーワードを分割して得た分割文字列を読み情報取得手段１２２に渡す。なお、切断数Ｎ＝０の場合は、キーワード分割手段１２１は、キーワードの分割を行わないことを示す。

キーワード分割手段１２１は、通常、ＭＰＵやメモリ等から実現され得る。キーワード分割手段１２１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

読み情報取得手段１２２は、読み辞書に対して、対象文字列を用いて検索し、２以上の読み情報を取得する。なお、読み辞書は、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している。また、読み情報取得手段１２２は、２以上の各分割文字列に一致する用語と対になる１以上の読み情報を、読み辞書から、分割文字列ごとに検索し、分割文字列と読み情報を有する取得対象文字列読み情報を、２以上取得する。また、読み情報取得手段１２２は、キーワードの分割を行わない場合、受付部１１が受け付けたキーワードと一致する用語と対になる１以上の読み情報を、読み辞書から取得する。

読み情報取得手段１２２は、キーワード分割手段１２１が取得した１以上の各分割文字列に一致する用語と対になる１以上の読み情報を、読み辞書から、分割文字列ごとに取得しようとする。そして、読み情報取得手段１２２は、１以上の分割文字列のすべてに対応する読み情報が取得できなかった場合には、キーワード分割手段１２１に対して、次に分割のパターンである２以上の分割文字列を取得するように指示する。そして、読み情報取得手段１２２は、１以上の分割文字列のすべてに対応する読み情報が取得できた場合には、当該１以上の分割文字列のすべてに対応する読み情報を記憶媒体に少なくとも一時格納する読み情報の取得処理を行う。そして、読み情報取得手段１２２は、取得処理を行った場合に、ただちに、キーワード分割手段１２１に終了指示を渡しても良いし、１以上の分割文字列のすべてに対応する読み情報が取得できた場合と同じ切断数の他の分割のパターンである２以上の分割文字列を、キーワード分割手段１２１に対して、取得するように指示し、同じ切断数の他の分割のパターンに対する読み情報の取得処理が完了した後、キーワード分割手段１２１に終了指示を渡す。つまり、上記処理の終了情報は、少なくとも２以上あり得る。また、考えられる数だけの分割パターンを構成し、読み情報の取得処理を行っても良い。

読み情報取得手段１２２は、通常、ＭＰＵやメモリ等から実現され得る。読み情報取得手段１２２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

変換手段１２３は、対象文字列がカタカナの文字列を含む場合、当該カタカナの文字列をひらがなに変換する。また、変換手段１２３は、カタカナの文字列が、あらかじめ決められたカタカナ（例えば、「ヴ」）を含むか否かを判断し、当該カタカナを含む場合には、カタカナをひらがなに変換しないことは好適である。

変換手段１２３は、通常、ＭＰＵやメモリ等から実現され得る。変換手段１２３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

アラビア数字処理手段１２４は、対象文字列がアラビア数字を含むか否かを判断し、アラビア数字（例えば、「１２３」）を含む場合は、当該アラビア数字を桁付き数字とする読みを示す桁付き数字読み情報（例えば、「ひゃくにじゅうさん」）を生成し、当該桁付き数字読み情報を読み情報として加える。なお、対象文字列がアラビア数字を含むか否かの判断は、「０」から「９」までの文字を有するか否かにより可能である。また、アラビア数字から、桁付き数字読み情報を生成する処理は、公知技術である。つまり、桁数に対応する読みのルール（例えば、３桁目は「ひゃく」、２桁目は「じゅう」など）と、数値の読み方の情報（「１」は「いち」、「２」は「に」など）と、特定ルール（例えば、２桁目以降の「１」は読み方に加えない、など）を用いて、アラビア数字から、桁付き数字読み情報を生成する。アラビア数字処理手段１２４は、通常、ＭＰＵやメモリ等から実現され得る。アラビア数字処理手段１２４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

アルファベット処理手段１２５は、対象文字列がアルファベットを含むか否かを判断し、アルファベットを含む場合は、当該アルファベットに対応するローマ字読みを示すローマ字読み情報を生成し、当該ローマ字読み情報を読み情報として加える。対象文字列がアルファベットを含むか否かの判断処理、アルファベットからローマ字読みの情報を生成する処理も公知技術である。また、アルファベット処理手段１２５は、対象文字列がアルファベットを含むか否かを判断し、アルファベットを含む場合は、当該アルファベットを１文字ずつの読み上げた場合の文字単位読み情報を生成し、当該文字単位読み情報を読み情報として加えることは好適である。つまり、アルファベット処理手段１２５は、対象文字列が「ＡＢＣ」である場合、文字単位読み情報「えーびーしー」を生成し、読み情報として加えることは好適である。アルファベット処理手段１２５は、通常、ＭＰＵやメモリ等から実現され得る。アルファベット処理手段１２５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

共起頻度取得部１３は、対象文字列と、読み辞書検索部１２が取得した読み情報を用いて、文書群を検索し、対象文字列と読み情報が共起する文書の数である共起頻度を、読み情報ごとに取得する。対象文字列と読み情報の組の情報を取得対象文字列読み情報とも言うこととする。また、言い換えれば、共起頻度取得部１３は、対象文字列と、読み辞書検索部１２が取得した２以上の読み情報のうちの各読み情報の組である各取得対象文字列読み情報を用いて、文書群を検索し、各取得対象文字列読み情報が有する対象文字列と読み情報が共起する文書の数である共起頻度を、読み情報ごとに取得する。ここで、文書群は、ローカルに存在してもＷｅｂなどのネットワーク上（外部）に存在しても良い。文書群は、文書の集合である。文書は、例えば、ウェブ上のホームページ、データベース内のレコード、電子メール文書など、何でも良い。共起するか否かの判断の対象となる文書は、通常、Ｗｅｂ上の１ホームページ（１ファイル）であるが、一サイトなどの複数のファイルでも良い。取得対象文字列読み情報は、キーワードとその読み情報、または分割文字列とその読み情報である。

共起頻度取得部１３は、通常、ＭＰＵやメモリ等から実現され得る。共起頻度取得部１３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

共起頻度取得手段１３１は、読み辞書検索部１２が取得した２以上の各取得対象文字列読み情報を用いて、文書群を検索し、各取得対象文字列読み情報が有するキーワードまたは分割文字列と、読み情報が共起する文書の数である共起頻度を、取得対象文字列読み情報ごと（読み情報ごと）に取得する。

共起頻度取得手段１３１は、通常、ＭＰＵやメモリ等から実現され得る。共起頻度取得手段１３１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

スコア算出手段１３２は、受付部１１が受け付けたキーワードまたは２以上の分割文字列を有する取得対象文字列読み情報に対応する共起頻度をパラメータして、取得対象文字列読み情報または取得対象文字列読み情報の組み合わせごとに、スコアを算出する。

スコアを算出とは、通常、共起頻度をパラメータとする増加関数による算出である。例えば、スコアの算出式は、２以上の分割文字列の各分割文字列に対応する共起頻度の総和を算出する式、各分割文字列に対応する共起頻度の平均を算出する式、各分割文字列に対応する共起頻度の中央値を取得する式などである。スコアは、そのように読むであろう確からしさ、尤度に対応した数値である、とも言える。

スコア算出手段１３２は、通常、ＭＰＵやメモリ等から実現され得る。スコア算出手段１３２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１４は、共起頻度取得部１３が取得した読み情報ごとの共起頻度を用いて、少なくとも最も共起頻度の多い読み情報、または最も共起頻度の多い読み情報の組み合わせを出力する。出力部１４は、共起頻度取得部１３が取得したスコアを用いて、少なくとも最も共起頻度の多い読み情報、または最も共起頻度の多い読み情報の組み合わせを出力する。出力部１４は、例えば、共起頻度の多い方から、予め決められた個数（例えば、「３」）の読み情報を出力することは好適である。なお、かかる場合でも、出力部１４は、３位と同スコアの４位以下の読み情報を出力することはさらに好適である。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。出力部１４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、読み付与装置の動作について図３のフローチャートを用いて説明する。

（ステップＳ３０１）受付部１１は、キーワードを受け付けたか否かを判断する。キーワードを受け付ければステップＳ３０２に行き、キーワードを受け付けなければステップＳ３０１に戻る。

（ステップＳ３０２）読み辞書検索部１２は、ステップＳ３０１で受け付けたキーワードを用いて、読み候補生成処理を行う。読み候補生成処理について、図４のフローチャートを用いて説明する。

（ステップＳ３０３）共起頻度取得部１３の共起頻度取得手段１３１は、ステップＳ３０２で生成された読み情報（読み方の候補の情報）が空であるか否かを判断する。空であればステップＳ３０１に行き、空でなければステップＳ３０４に行く。なお、ステップＳ３０１に行く場合に、読み情報が出力できない旨を示すエラーメッセージを出力することは好適である。

（ステップＳ３０４）共起頻度取得手段１３１は、ステップＳ３０１で受け付けたキーワードと、ステップＳ３０２で取得した読み情報を用いて、文書群を検索し、キーワードと読み情報の共起頻度を取得する。なお、ステップＳ３０２で２以上の読み情報を取得した場合、共起頻度取得手段１３１は、各読み情報に対応して、キーワードと読み情報の共起頻度を取得する。また、ステップＳ３０２で、キーワードの読み情報（切断数０の場合の読み情報）を取得できなかった場合に、本ステップとステップＳ３０５を飛ばし、ステップＳ３０６に行っても良い。

（ステップＳ３０５）共起頻度取得部１３は、ステップＳ３０４で取得された１以上の共起頻度のうち、すべての共起頻度が「０」であるか否かを判断する。すべての共起頻度が「０」であればステップＳ３０６に行き、いずれかの共起頻度が「０」でなければステップＳ３０７に行く。

（ステップＳ３０６）共起頻度取得部１３は、ステップＳ３０２で取得した分割文字列に対する読み情報を用いて文書群を検索し、分割文字列に対応する共起頻度を取得する。かかる処理を分割文字列検索処理という。分割文字列検索処理について、図５のフローチャートを用いて説明する。

（ステップＳ３０７）スコア算出手段１３２は、ステップＳ３０６で取得した共起頻度を用いて、分割文字列の読み情報ごとにスコアを算出する。かかる処理をスコア算出処理という。スコア算出処理について、図６のフローチャートを用いて説明する。

（ステップＳ３０８）出力部１４は、出力する情報を構成する。出力する情報は、最も共起頻度の多い読み情報または読み情報の組み合わせを有する。また、出力する情報は、例えば、スコア上位Ｎ個（Ｎは予め決められている）の読み情報または、スコア上位Ｎ個の読み情報の組み合わせからなる読み情報である。

（ステップＳ３０９）出力部１４は、ステップＳ３０８で構成した情報を出力する。ステップＳ３０１に戻る。

なお、図３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ３０２の読み候補生成処理について図４のフローチャートを用いて説明する。

（ステップＳ４０１）キーワード分割手段１２１は、キーワードの文字数を取得する。

（ステップＳ４０２）キーワード分割手段１２１は、予め決められた閾値（例えば、「１５」）と比較して、ステップＳ４０１で取得された文字数が所定の関係を満たすか否かを判断する。所定の関係を満たせばステップＳ４０３に行き、所定の関係を満たさなければステップＳ４０４に行く。所定の関係を満たす場合は、例えば、閾値より文字数が多い、または、文字数が閾値以上である場合である。

（ステップＳ４０３）読み情報取得手段１２２は、キーワードを用いて読み辞書を検索する。つまり、読み情報取得手段１２２は、例えば、図示しない検索処理部（検索エンジン）にキーワードを渡し、キーワードに一致する用語に対応する読み情報を得る。得られる読み情報の数は、０以上の整数である。そして、読み情報取得手段１２２は、得た読み情報を記憶媒体に、少なくとも一時格納する。上位処理にリターンする。

（ステップＳ４０４）キーワード分割手段１２１は、初期化処理を行う。初期化処理とは、カウンタｉに０、カウンタｊに１を代入し、終了フラグにＯＦＦ（例えば、「０」）を代入する処理である。

（ステップＳ４０５）キーワード分割手段１２１は、切断数ｉのキーワードの分割パターンが存在するか否かを判断する。この判断は、例えば、「キーワードの文字数＜＝ｉ」であるか否かの判断である。切断数ｉの分割パターンが存在すればステップＳ４０６に行き、切断数ｉの分割パターンが存在しなければステップＳ４１７に行く。

（ステップＳ４０６）キーワード分割手段１２１は、切断数ｉのｊ番目のキーワードの分割パターンが存在するか否かを判断する。例えば、文字数５のキーワード、切断数１の場合、分割パターンは、４通りである。また、例えば、文字数５のキーワード、切断数２の場合、分割パターンは、６通りである。

（ステップＳ４０７）キーワード分割手段１２１は、切断数ｉのｊ番目の分割パターンにおける、すべての分割文字列を取得し、メモリ上に配置する。

（ステップＳ４０８）キーワード分割手段１２１は、カウンタｋに１を代入する。

（ステップＳ４０９）キーワード分割手段１２１は、ステップＳ４０７で取得した２以上の分割文字列のうち、ｋ番目の分割文字列が存在するか否かを判断する。ｋ番目の分割文字列が存在すればステップＳ４１０に行き、ｋ番目の分割文字列が存在しなければステップＳ４１５に行く。

（ステップＳ４１０）読み情報取得手段１２２は、ｋ番目の分割文字列を用いて、読み辞書を検索し、０以上の読み情報を得る。ここで、例えば、読み辞書を構成する辞書が一つの場合は、キーワード分割手段１２１は、単純に、分割文字列をキーとして、当該分割文字列に一致する用語と対になる０以上の読み情報を得る。また、例えば、読み辞書を構成する辞書が、「一般辞書」「連濁辞書」「人名辞書」から構成される場合は、読み情報取得手段１２２は、例えば、「一般辞書」を検索し、読み情報が得られなかった場合は、「連濁辞書」を検索し、さらに読み情報が得られなかった場合は、「人名辞書」を検索する、という処理を行っても良い。また、例えば、読み辞書を構成する辞書が、「一般辞書」「連濁辞書」「人名辞書」から構成される場合は、読み情報取得手段１２２は、例えば、３つの辞書をすべて検索し、すべての対応する読み情報を取得し、メモリ上に配置しても良い。なお、「連濁辞書」を用いるのは、先頭の分割文字列でない場合である。

（ステップＳ４１１）読み情報取得手段１２２は、ステップＳ４１０で取得した読み情報が空（「０」）であったか否かを判断する。空であればステップＳ４１２に行き、空でなければステップＳ４１３に行く。

（ステップＳ４１２）キーワード分割手段１２１は、カウンタｊを１、インクリメントし、ステップＳ４０６に戻る。

（ステップＳ４１３）読み辞書検索部１２は、例外処理を行う。例外処理について、図７のフローチャートを用いて説明する。

（ステップＳ４１４）読み情報取得手段１２２は、カウンタｋを１、インクリメントし、ステップＳ４０９に戻る。

（ステップＳ４１５）キーワード分割手段１２１は、切断数ｉのｊ番目の分割パターンと、各分割文字列における１以上の読み情報を、少なくとも一時格納する。

（ステップＳ４１６）キーワード分割手段１２１は、終了フラグをＯＮ（例えば、「１」）にする。ステップＳ４１２に行く。

（ステップＳ４１７）キーワード分割手段１２１は、終了フラグがＯＮであるか否かを判断する。終了フラグがＯＮであれば上位処理にリターンし、終了フラグがＯＮでなければステップＳ４１８に行く。

（ステップＳ４１８）キーワード分割手段１２１は、カウンタｉを１、インクリメントし、ステップＳ４０５に戻る。

なお、図４のフローチャートにおいて、ステップＳ４０１や、ステップＳ４１３等の処理は、必須ではない。

次に、ステップＳ３０６の分割文字列検索処理について図５のフローチャートを用いて説明する。

（ステップＳ５０１）共起頻度取得手段１３１は、カウンタｉに１を代入する。

（ステップＳ５０２）共起頻度取得手段１３１は、ｉ番目の分割パターンが存在するか否かを判断する。ｉ番目の分割パターンが存在すればステップＳ５０３に行き、ｉ番目の分割パターンが存在しなければ上位処理にリターンする。なお、分割パターンとは、図４のフローチャートのステップＳ４１５で、各分割文字列の読み情報が一時格納された２以上の分割文字列に対応する分割パターンである。分割パターンは、例えば、２以上の分割文字列を有する。

（ステップＳ５０３）共起頻度取得手段１３１は、カウンタｊに１を代入する。

（ステップＳ５０４）共起頻度取得手段１３１は、ｉ番目の分割パターンの中に、ｊ番目の取得対象文字列読み情報が存在するか否かを判断する。取得対象文字列読み情報は、ここでは、対象文字列と読み情報を有する。ｊ番目の取得対象文字列読み情報が存在すればステップＳ５０５に行き、ｊ番目の取得対象文字列読み情報が存在しなければステップＳ５０９に行く。

（ステップＳ５０５）共起頻度取得手段１３１は、ｊ番目の取得対象文字列読み情報が有する対象文字列と読み情報をキーとして、文書群を検索する。なお、文書群の検索とは、対象文字列と読み情報を、いわゆるＷｅｂの検索エンジンに与えて、当該検索エンジンを起動する（または、起動指示をする）ことである。

（ステップＳ５０６）共起頻度取得手段１３１は、ステップＳ５０５における検索の結果、ｊ番目の取得対象文字列読み情報に対応する共起頻度を取得する。

（ステップＳ５０７）共起頻度取得手段１３１は、ステップＳ５０６で取得した共起頻度を、ｊ番目の取得対象文字列読み情報に対応付けて、メモリ等に、少なくとも一時格納する。

（ステップＳ５０８）共起頻度取得手段１３１は、カウンタｊを１、インクリメントし、ステップＳ５０４に戻る。

（ステップＳ５０９）共起頻度取得手段１３１は、カウンタｉを１、インクリメントし、ステップＳ５０２に戻る。

次に、ステップＳ３０７のスコア算出処理について図６のフローチャートを用いて説明する。

（ステップＳ６０１）スコア算出手段１３２は、カウンタｉに１を代入する。

（ステップＳ６０２）スコア算出手段１３２は、ｉ番目の分割パターンが存在するか否かを判断する。ｉ番目の分割パターンが存在すればステップＳ６０３に行き、ｉ番目の分割パターンが存在しなければ上位処理にリターンする。

（ステップＳ６０３）スコア算出手段１３２は、カウンタｊに１を代入する。

（ステップＳ６０４）スコア算出手段１３２は、ｉ番目の分割パターンのうち、ｊ番目の読み情報の組み合わせが存在するか否かを判断する。ｊ番目の読み情報の組み合わせが存在すればステップＳ６０５に行き、存在しなければステップＳ６０９に行く。

（ステップＳ６０５）スコア算出手段１３２は、ｊ番目の読み情報の組み合わせが有する各読み情報に対応するすべての共起頻度を取得する。

（ステップＳ６０６）スコア算出手段１３２は、ステップＳ６０５で取得した２以上の共起頻度を用いて、スコアを算出する。スコアの算出方法は、例えば、同じ分割文字列の中の共起頻度の多さの順位（数値）の和である。この場合、スコアが小さい方を優先する。

（ステップＳ６０７）スコア算出手段１３２は、ｉ番目の分割パターンのｊ番目の読み情報の組み合わせに対応付けて、ステップＳ６０６で算出したスコアを、少なくとも一時格納する。

（ステップＳ６０８）スコア算出手段１３２は、カウンタｊを１、インクリメントし、ステップＳ６０４に戻る。

（ステップＳ６０９）スコア算出手段１３２は、カウンタｉを１、インクリメントし、ステップＳ６０２に戻る。

次に、ステップＳ４１３（図４）の例外処理について図７のフローチャートを用いて説明する。

（ステップＳ７０１）変換手段１２３は、分割文字列にカタカナを含むか否かを判断する。カタカナを含めばステップＳ７０２に行き、カタカナを含まなければステップＳ７０４に行く。

（ステップＳ７０２）変換手段１２３は、分割文字列に予め決められたカタカナ文字を含むか否かを判断する。予め決められたカタカナ文字を含めば上位処理にリターンし、予め決められたカタカナ文字を含まなければステップＳ７０３に行く。

（ステップＳ７０３）変換手段１２３は、分割文字列をひらがなに変換し、変換したひらがなの文字列を分割文字列の読み情報とする。上位処理にリターンする。

（ステップＳ７０４）アルファベット処理手段１２５は、分割文字列にアルファベットを含むか否かを判断する。アルファベットを含めばステップＳ７０５に行き、アルファベットを含まなければステップＳ７０７に行く。

（ステップＳ７０５）アルファベット処理手段１２５は、分割文字列のアルファベットの文字列を取り出し、当該文字列からローマ字読みを示すローマ字読み情報を生成し、当該ローマ字読み情報を読み情報として加える。

（ステップＳ７０６）アルファベットを含む場合は、当該アルファベットを１文字ずつの読み上げた場合の文字単位読み情報を生成し、当該文字単位読み情報を読み情報として加える。上位処理にリターンする。

（ステップＳ７０７）アラビア数字処理手段１２４は、分割文字列がアラビア数字を含むか否かを判断。アラビア数字を含めばステップＳ７０８に行き、アラビア数字を含まなければ上位処理にリターンする。

（ステップＳ７０８）アラビア数字処理手段１２４は、アラビア数字を桁付き数字とする読みを示す桁付き数字読み情報を生成し、当該桁付き数字読み情報を読み情報として加える。上位処理にリターンする。

以下、本実施の形態における読み付与装置の具体的な動作について説明する。読み付与装置１を含むシステムの概念図は図１である。

今、読み辞書として、図８から図１０の辞書が与えられている、とする。図８の辞書は、一般辞書であり、例えば、地名辞書、国語辞書、漢和辞書、カタカナ英単語辞書などから作成された辞書である。また、図９の辞書は、連濁辞書であり、図８の一般辞書の語彙の中で連濁化可能な語について作成されたものである。さらに、図１０は、人名辞書である。ここで、読み辞書検索部１２は、まず、与えられた文字列に対して、まず、「一般辞書」を調べて、文字列と一致する用語と対になる読み情報を取得する。そして、次に、文字列がキーワードの語頭以外であれば、「連濁辞書」を調べて、文字列と一致する用語と対になる読み情報を取得し、当該取得した読み情報を追加する。そして、いずれにも無ければ、「人名辞書」を調べて、文字列と一致する用語と対になる読み情報を取得する。以上のようなアルゴリズムで、文字列に対応する読み情報を得るものとする。以下、２つの具体例を用いて、読み付与装置１の動作について説明する。
（具体例１）

まず、読み付与装置１に、キーワード「成田」が与えられた、とする。そして、受付部１１は、キーワード「成田」を受け付ける。

次に、読み辞書検索部１２は、以下のように読み候補生成処理を行う。つまり、まず、キーワード分割手段１２１は、キーワード「成田」の文字数「２」を取得する。次に、キーワード分割手段１２１は、予め決められた閾値（１５）と比較して、取得された文字数「２」が、所定の関係（例えば、「閾値＜文字数」）を満たさない、と判断する。

次に、キーワード分割手段１２１は、切断数０のキーワードの分割パターン「成田」を取得する。そして、読み情報取得手段１２２は、対象文字列「成田」をキーとして、図８から図１０の読み辞書を検索する。ここでは、読み情報取得手段１２２は、対象文字列「成田」をキーとして、図８の読み辞書を検索する。そして、読み情報取得手段１２２は、「なりた」「なるだ」「なるた」を得る。

次に、例外処理（図７で説明）を行おうとするが、例外処理の対象ではない、と判断される。

そして、読み情報取得手段１２２は、図１１に示す読み候補管理表を得る。読み候補管理表は、「分割パターン」「分割文字列」「読み情報」を有する。「分割パターン」は、分割パターンを示す情報であり、ここでは、「成田」（分割なし）や、「成田｜リムジンバス｜乗り場」などの切断箇所（分割箇所）に「｜」が入ったキーワードの情報である。また、「分割文字列」は、ここでは、対象文字列と同意義である。さらに、「読み情報」は、対応する分割文字列の読みを示す情報である。

次に、共起頻度取得部１３の共起頻度取得手段１３１は、生成された読み情報（読み方の候補の情報）が空でないと判断する（図１１参照）。

そして、共起頻度取得手段１３１は、受け付けたキーワード「成田」と、取得した第一の読み情報「なりた」を用いて、文書群を検索し、キーワードと読み情報の共起頻度を取得する。つまり、ここでは、共起頻度取得手段１３１は、いわゆるＷｅｂの検索エンジンに「成田，なりた」を渡し、検索を実行させる。そして、共起頻度取得手段１３１は、検索エンジンから、文字列「成田」と文字列「なりた」の共起頻度（ここでは「１１６０００」）を取得した、とする。そして、共起頻度取得手段１３１は、文字列「成田」と文字列「なりた」と、共起頻度「１１６０００」を対にして、メモリ上に一時格納する。

次に、共起頻度取得手段１３１は、受け付けたキーワード「成田」と、取得した第二の読み情報「なるだ」を用いて、文書群を検索し、キーワードと読み情報の共起頻度を取得する。そして、共起頻度取得手段１３１は、検索エンジンから、文字列「成田」と文字列「なるだ」の共起頻度（ここでは「３８４００」）を取得した、とする。そして、共起頻度取得手段１３１は、文字列「成田」と文字列「なるだ」と、共起頻度「３８４００」を対にして、メモリ上に一時格納する。

さらに、共起頻度取得手段１３１は、受け付けたキーワード「成田」と、取得した第二の読み情報「なるた」を用いて、文書群を検索し、キーワードと読み情報の共起頻度を取得する。そして、共起頻度取得手段１３１は、検索エンジンから、文字列「成田」と文字列「なるた」の共起頻度（ここでは「１０１０」）を取得した、とする。そして、共起頻度取得手段１３１は、文字列「成田」と文字列「なるた」と、共起頻度「１０１０」を対にして、メモリ上に一時格納する。

次に、スコア算出手段１３２は、取得した共起頻度を用いて、分割文字列の読み情報ごとにスコアを算出する。ここでは、スコアは、順位である、とする。つまり、スコア算出手段１３２は、文字列「成田」と文字列「なりた」に対してスコア「１」、文字列「成田」と文字列「なるだ」に対してスコア「２」、文字列「成田」と文字列「なるた」に対してスコア「３」を得る。なお、ここでは、スコアが低いほど、読み候補として優先される。

次に、出力部１４は、出力する情報を、「１．なりた，２．なるだ，３．なるた」を構成する。そして、出力部１４は、「成田」に対する読み候補を優先度の高いものから２つ出力する。つまり、出力部１４は、「１．なりた，２．なるだ」を出力する。なお、ここでは、出力部１４は、例えば、出力する読み情報の数「２」を格納している、とする。
（具体例２）

次に、読み付与装置１に、キーワード「成田リムジンバス乗り場」が与えられた、とする。そして、受付部１１は、キーワード「成田リムジンバス乗り場」を受け付ける。

次に、読み辞書検索部１２は、以下のように読み候補生成処理を行う。つまり、まず、キーワード分割手段１２１は、キーワード「成田リムジンバス乗り場」の文字数「１３」を取得する。次に、キーワード分割手段１２１は、予め決められた閾値（１５）と比較して、取得された文字数「１３」が、所定の関係（例えば、「閾値＜文字数」）を満たさない、と判断する。

次に、キーワード分割手段１２１は、切断数０のキーワードの分割パターン「成田リムジンバス乗り場」を取得する（図１２の分割パターンＩＤ＝１を参照）。そして、読み情報取得手段１２２は、対象文字列「成田リムジンバス乗り場」をキーとして、図８から図１０の読み辞書を検索する。ここでは、読み情報取得手段１２２は、対象文字列「成田リムジンバス乗り場」をキーとして、図８の読み辞書を検索する。そして、読み情報取得手段１２２は、対象文字列「成田リムジンバス乗り場」に対応する読み情報を取得できない。

次に、キーワード分割手段１２１は、切断数１のキーワードの分割パターンを取得する。つまり、まず、キーワード分割手段１２１は、切断数１の第一の分割パターン「成｜田リムジンバス乗り場」を取得する（図１２の分割パターンＩＤ＝２を参照）。「成｜田リムジンバス乗り場」とは、分割文字列「成」と分割文字列「田リムジンバス乗り場」を意味する。

そして、読み情報取得手段１２２は、分割文字列「成」を用いて、図８から図１０の読み辞書を検索するが、読み情報を得られない。

次に、キーワード分割手段１２１は、分割文字列「成」では読み情報を得られないとの情報を読み情報取得手段１２２の処理結果から得て、分割文字列「成田」と分割文字列「リムジンバス乗り場」を取得する（図１２の分割パターンＩＤ＝３を参照）。

そして、読み情報取得手段１２２は、分割文字列「成田」を用いて、図８から図１０の読み辞書を検索し、図８の読み辞書から、読み情報「なりた」「なるだ」「なるた」を得る。

次に、読み情報取得手段１２２は、分割文字列「リムジンバス乗り場」を用いて、図８から図１０の読み辞書を検索するが、読み情報を得られない。

そして、同様に、キーワード分割手段１２１は、図１２の分割パターンＩＤ「４」から「１１」までの分割文字列を順に取得する。そして、順に、キーワード分割手段１２１が取得した分割文字列を用いて、読み情報取得手段１２２は、読み辞書を検索するが、読み情報を得られない。

次に、キーワード分割手段１２１は、切断数２のキーワードの分割パターンを取得する。つまり、まず、キーワード分割手段１２１は、切断数１の第一の分割パターン「成田｜リ｜ムジンバス乗り場」を取得する（図１２の分割パターンＩＤ＝１２を参照）。

次に、読み情報取得手段１２２は、分割文字列「成田」については、読み情報「なりた」「なるだ」「なるた」を得る。しかし、読み情報取得手段１２２は、分割文字列「リ」について、図８から図１０の読み辞書を検索するが、読み情報を得られない。

以上の処理を、図１２の分割パターンＩＤ「１３」から「１６」まで繰り返すが、各分割パターンについて、すべての分割文字列の読み情報を得るには至らない。

そして、キーワード分割手段１２１は、分割パターン「成田｜リムジンバス｜乗り場」を取得する（図１２の分割パターンＩＤ＝１７を参照）。

次に、読み情報取得手段１２２は、分割文字列「成田」については、読み情報「なりた」「なるだ」「なるた」を得る。そして、読み情報取得手段１２２は、分割文字列「リムジンバス」については、読み情報「りむじんばす」を得る。さらに、分割文字列「乗り場」については、「のりば」「のりじょう」を得る。つまり、読み情報取得手段１２２は、図１３に示す読み情報管理表を取得し、メモリ上に配置する。読み情報管理表は、読み候補を管理している表であり、「分割文字列」と「読み情報」を有する。なお、分割文字列「成田」、「乗り場」について、例外処理の対象とはならない。また、変換手段１２３は、分割文字列「リムジンバス」について、予め決められた文字列「ヴ」を含まないと判断し、「リムジンバス」をひらがな「りむじんばす」に変換する。なお、この変換処理は、行わなくても良い。読み情報「りむじんばす」が既に取得されているからである。また、図８の読み辞書に「リムジンバス，りむじんばす」が存在しない場合、カタカナをひらがなに変換する例外処理が機能する。

次に、キーワード分割手段１２１は、切断数２の他の分割パターンを順に取得する。キーワード分割手段１２１は、例えば、「成田｜リムジンバス乗｜り場」、「成田｜リムジンバス乗り｜場」、「成田リ｜ム｜ジンバス乗り場」、「成田リム｜ジ｜ンバス乗り場」、「成田リムジ｜ン｜バス乗り場」、「成田リムジン｜バ｜ス乗り場」などを順に取得する。そして、読み情報取得手段１２２は、各分割パターンが有するすべての分割文字列の読み情報が取得できるか判断し、すべての分割文字列の読み情報が取得できる分割パターンが、「成田｜リムジンバス｜乗り場」以外に存在しない、と判断する。

次に、共起頻度取得手段１３１は、１番目の分割パターン「成田｜リムジンバス｜乗り場」の中の１番目の対象文字列「成田」の読み情報「なりた」を取得する。

次に、共起頻度取得手段１３１は、１番目の取得対象文字列読み情報が有する対象文字列「成田」と読み情報「なりた」を、検索エンジン（検索エンジンは問わない。）に渡し、検索エンジンを動作させることにより、Ｗｅｂ上の文書群（ここでは、ホームページ）を検索する。なお、共起頻度取得手段１３１は、検索エンジンのＡＰＩ（例えば、ｓｅａｒｃｈ（））に対して、「成田」「なりた」を引数として与え、実行する（例えば、ｓｅａｒｃｈ（成田，なりた）を実行する）。そして、共起頻度取得手段１３１は、「成田」「なりた」の、Ｗｅｂ上の文書群における共起頻度「１１６０００」を取得する。そして、共起頻度取得手段１３１は、「成田，なりた，１１６０００」をメモリ上に配置する。

次に、共起頻度取得手段１３１は、１番目の分割パターン「成田｜リムジンバス｜乗り場」の中の１番目の対象文字列「成田」の２番目の読み情報「なるだ」を取得する。そして、共起頻度取得手段１３１は、用語「成田」「なるだ」を検索エンジンに渡し、検索エンジンを動作させることにより、Ｗｅｂ上の文書群（ここでは、ホームページ）を検索する。そして、共起頻度取得手段１３１は、「成田」「なるだ」の、Ｗｅｂ上の文書群における共起頻度「３８４００」を取得する。そして、共起頻度取得手段１３１は、「成田，なるだ，３８４００」をメモリ上に配置する。

次に、共起頻度取得手段１３１は、１番目の分割パターン「成田｜リムジンバス｜乗り場」の中の１番目の対象文字列「成田」の３番目の読み情報「なるた」を取得する。そして、共起頻度取得手段１３１は、用語「成田」「なるた」を検索エンジンに渡し、検索エンジンを動作させることにより、Ｗｅｂ上の文書群（ここでは、ホームページ）を検索する。そして、共起頻度取得手段１３１は、「成田」「（検索エンジンは問わない。）」の、Ｗｅｂ上の文書群における共起頻度「１０１０」を取得する。そして、共起頻度取得手段１３１は、「成田，なるた，１０１０」をメモリ上に配置する。

次に、共起頻度取得手段１３１は、１番目の分割パターン「成田｜リムジンバス｜乗り場」の中の２番目の対象文字列「リムジンバス」の読み情報「りむじんばす」を取得する。そして、共起頻度取得手段１３１は、用語「リムジンバス」「りむじんばす」を検索エンジンに渡し、検索エンジンを動作させることにより、Ｗｅｂ上の文書群（ここでは、ホームページ）を検索する。そして、共起頻度取得手段１３１は、「リムジンバス」「りむじんばす」の、Ｗｅｂ上の文書群における共起頻度「６１９００」を取得する。そして、共起頻度取得手段１３１は、「リムジンバス，りむじんばすだ，６１９００」をメモリ上に配置する。

次に、共起頻度取得手段１３１は、１番目の分割パターン「成田｜リムジンバス｜乗り場」の中の３番目の対象文字列「乗り場」の1番目の読み情報「のりば」を取得する。そして、共起頻度取得手段１３１は、用語「乗り場」「のりば」を検索エンジンに渡し、検索エンジンを動作させることにより、Ｗｅｂ上の文書群（ここでは、ホームページ）を検索する。そして、共起頻度取得手段１３１は、「乗り場」「のりば」の、Ｗｅｂ上の文書群における共起頻度「６２５００」を取得する。そして、共起頻度取得手段１３１は、「乗り場，のりば，６２５００」をメモリ上に配置する。

次に、共起頻度取得手段１３１は、１番目の分割パターン「成田｜リムジンバス｜乗り場」の中の３番目の対象文字列「乗り場」の２番目の読み情報「のりじょう」を取得する。そして、共起頻度取得手段１３１は、用語「乗り場」「のりじょう」を検索エンジンに渡し、検索エンジンを動作させることにより、Ｗｅｂ上の文書群（ここでは、ホームページ）を検索する。そして、共起頻度取得手段１３１は、「乗り場」「のりじょう」の、Ｗｅｂ上の文書群における共起頻度「１」を取得する。そして、共起頻度取得手段１３１は、「乗り場，のりじょう，１」をメモリ上に配置する。

次に、スコア算出手段１３２は、例えば、以下のようにスコアを算出する。つまり、スコア算出手段１３２は、用語「成田」に対する読み情報の順位を、各読み情報の共起頻度「１１６０００，３８４００，１０１０」から得る。つまり、スコア算出手段１３２は、「１：なりた」「２：なるだ」「３：なるた」を得る。

次に、同様に、スコア算出手段１３２は、用語「りむじんばす」に対する読み情報の順位の情報「１：りむじんばす」を得る。

さらに、スコア算出手段１３２は、用語「乗り場」に対する読み情報の順位の情報「１：のりば」「２：のりじょう」を得る。

次に、スコア算出手段１３２は、すべての読み情報の組み合わせに対するスコアを算出する。ここでは、スコアは各読み情報の順位の合計である、とする。つまり、スコア算出手段１３２は、すべての読み情報の組み合わせに対するスコアを算出し、図１４に示すスコア管理表を得る。スコア管理表のスコアは、「成田リムジンバス乗り場」の読み情報を構成する３つの読み情報のスコアを加算したものである。なお、図１４において、スコアが小さいほど、読み候補として優先度が高いことを示す。

次に、出力部１４は、出力する情報を構成する。ここでは、出力部１４は、最も優先度が高い１つの読み情報「なりたりむじんばすのりば」を取得し、出力するデータ構造に構成する。次に、出力部１４は、構成した情報「なりたりむじんばすのりば」を出力する。
（実験結果）

以下、読み付与装置１の実験結果について説明する。本実験において、ガイドブックに掲載されている多数のランドマークをキーワードとして選択した。そして、読み付与装置１の手法を用いた実験結果を図１５に示す。図１５において、楕円で囲まれた箇所の「比率」の合計である「９８．５３％」が正解率である。つまり、読み付与装置１は、極めて高い正解率で、読み情報を取得できる。なお、図１５において、楕円で囲まれた第一の値「２３．９８％」は、上記の分割処理による効果であると推定される。また、楕円で囲まれた第二の値「６９．１７％」は、２以上の読み情報の候補が存在する場合に、正解の読み情報が取得できたものであると推定される。さらに、楕円で囲まれた第三の値「５．３８％」は、大語彙辞書の効果により正解の読み情報が取得できたものであると推定される。

以上、本実施の形態によれば、非常に精度高く、キーワードの読み情報を取得できる。

なお、本実施の形態によれば、キーワードを分割し、２以上の分割文字列を得るアルゴリズムは、上記したアルゴリズムとは限らない。とのような手順で分割文字列を得ても良い。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、キーワードを受け付ける受付部と、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している読み辞書に対して、前記受付部が受け付けたキーワードまたは当該キーワードを分割した文字列である２以上の各分割文字列である対象文字列を用いて検索し、２以上の読み情報を取得する読み辞書検索部と、前記対象文字列と、前記読み辞書検索部が取得した２以上の読み情報のうちの各読み情報の組である各取得対象文字列読み情報を用いて、文書群を検索し、前記各取得対象文字列読み情報が有する対象文字列と読み情報が共起する文書の数である共起頻度を、読み情報ごとに取得する共起頻度取得部と、前記共起頻度取得部が取得した読み情報ごとの共起頻度を用いて、少なくとも最も共起頻度の多い読み情報または読み情報の組み合わせを出力する出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、前記読み辞書検索部は、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している読み辞書に対して、前記対象文字列を用いて検索し、２以上の読み情報を取得する読み情報取得手段と、前記対象文字列がカタカナの文字列を含む場合、当該カタカナの文字列をひらがなに変換する変換手段を具備するものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記プログラムにおいて、前記変換手段は、前記対象文字列が、あらかじめ決められたカタカナを含むか否かを判断し、当該カタカナを含む場合には、前記カタカナの文字列をひらがなに変換しないものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記プログラムにおいて、前記読み辞書検索部は、前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である２以上の分割文字列を取得するキーワード分割手段と、前記２以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに検索し、分割文字列と読み情報を有する取得対象文字列読み情報を、２以上取得する読み情報取得手段を具備するものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記プログラムにおいて、前記キーワード分割手段は、前記受付部が受け付けたキーワードの文字列長を取得し、当該文字列長が予め決められた文字列長より大きい、または予め決められた文字列長以上の場合には、前記キーワードの分割を行わず、前記読み情報取得手段は、前記キーワードの分割を行わない場合、前記受付部が受け付けたキーワードと一致する用語と対になる１以上の読み情報を、前記読み辞書から取得するものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記プログラムにおいて、前記キーワード分割手段は、切断数Ｎ（Ｎは０以上）の少ない場合から、順に、前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である１以上の分割文字列を取得し、前記読み情報取得手段からの終了指示があるまで、前記キーワードの分割を繰り返し、前記読み情報取得手段は、前記キーワード分割手段が取得した１以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに取得し、１以上の分割文字列のすべてに対応する読み情報が取得できなかった場合には、前記キーワード分割手段に対して、次に分割のパターンである２以上の分割文字列を取得するように指示し、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合には、当該１以上の分割文字列のすべてに対応する読み情報を記憶媒体に少なくとも一時格納する読み情報の取得処理を行い、かつ、前記キーワード分割手段に終了指示を渡し、または、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合と同じ切断数の他の分割のパターンである２以上の分割文字列を、前記キーワード分割手段に対して、取得するように指示し、前記同じ切断数の他の分割のパターンに対する読み情報の取得処理が完了した後、前記キーワード分割手段に終了指示を渡すものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記プログラムにおいて、前記読み辞書検索部は、前記対象文字列がアラビア数字を含むか否かを判断し、アラビア数字を含む場合は、当該アラビア数字を桁付き数字とする読みを示す桁付き数字読み情報を生成し、当該桁付き数字読み情報を読み情報として加えるアラビア数字処理手段をさらに具備するものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記プログラムにおいて、前記読み辞書検索部は、前記対象文字列がアルファベットを含むか否かを判断し、アルファベットを含む場合は、当該アルファベットに対応するローマ字読みを示すローマ字読み情報を生成し、当該ローマ字読み情報を読み情報として加えるアルファベット処理手段をさらに具備するものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記プログラムにおいて、前記共起頻度取得部は、前記読み辞書検索部が取得した２以上の各取得対象文字列読み情報を用いて、文書群を検索し、前記各取得対象文字列読み情報が有するキーワードまたは分割文字列と、読み情報が共起する文書の数である共起頻度を、取得対象文字列読み情報ごとに取得する共起頻度取得手段と、前記受付部が受け付けたキーワードまたは２以上の分割文字列を有する取得対象文字列読み情報に対応する共起頻度をパラメータして、取得対象文字列読み情報または取得対象文字列読み情報の組み合わせごとに、スコアを算出するスコア算出手段を具備し、前記出力部は、前記共起頻度取得部が取得したスコアを用いて、少なくとも最も共起頻度の多い読み情報または読み情報の組み合わせを出力するものとして、コンピュータを機能させるためのプログラムであることは好適である。
（実施の形態２）

本実施の形態において、実施の形態１で説明した読み付与装置１の応用例について説明する。

まず、読み付与装置１は、音声合成装置や音声認識装置や機械翻訳装置の辞書の構築のために利用できる。つまり、音声合成装置に必要な「読み情報」と「音声」を対に有する読み音声情報を複数有する音声合成辞書の作成の際に、読み付与装置１は機能する。また、音声認識装置に必要な「読み情報」と「用語」と「音声」を対に有する音声認識情報を複数有する音声認識辞書の作成の際に、読み付与装置１は機能する。さらに、機械翻訳装置に必要な、例えば、「人名」や「地名」などの固有名詞とローマ字からなる「英単語」の対の単語情報を構成する場合に、読み付与装置１は機能する。つまり、読み情報が対訳情報となり、読み付与装置１は、翻訳辞書の構築のために利用できる。例えば、読み付与装置１は、「浅草寺」から「せんそうじ」を取得し、図示しない公知の手段により、ひらがな「せんそうじ」からローマ字「Sensoji」を得て、「（日本語）浅草寺，（英語）Sensoji」の対訳情報を構成する。

また、音声合成装置は、以下のように読み付与装置１を用いることができる。つまり、音声合成装置は、音声データベースを保持している。この音声データベースは、ひらがな表記に対応する音声を、ひらがな表記ごとに格納している。また、好ましくは、音声データベースは、カタカナ表記に対応する音声を、カタカナ表記ごとに格納している。そして、音声合成装置の音声合成部は、読み付与装置１が出力した読み情報（仮名表記）に対応する音声を音声データベースから読み出し、音声を合成し、アナログ音声信号を取得する。そして、音声合成装置の音声出力部は、音声合成部が音声合成し、取得したアナログ音声信号を出力する。
また、音声翻訳装置の場合、以下のように読み付与装置１を用いることができる。音声翻訳装置は、通常、音声認識部と翻訳部を具備する。そして、音声翻訳装置が有する音声認識部から読み情報を得る。次に、翻訳部は、当該読み情報を用いて、単語の語義を確定する。例えば、「工夫（こうふ）」は「worker」と翻訳され、「工夫（くふう）」は「device」と翻訳される。また、「佐原（さわら）」は「sawara」と翻訳され、「佐原（さはら）」は「sahara」と翻訳される。さらに、「方（かた）」は「person」と翻訳され、「方（ほう）」は「direction」と翻訳される。

さらに、機械翻訳装置は、以下のように読み付与装置１を用いることができる。つまり、機械翻訳装置は、翻訳辞書を保持している。翻訳辞書は、日本語の単語の読み情報と目的言語（例えば、英語や中国語など）の単語の対を有する。また、翻訳辞書は、日本語の単語とその読み情報と目的言語の単語の対を有することは好適である。そして、入力受付部が翻訳対象の日本語の文を受け付ける。次に、機械翻訳装置の形態素解析部は、機械翻訳装置の入力受付部が受け付けた文を形態素解析し、形態素に分解する。そして、読み付与装置１は、形態素解析部の出力のうちの単語を入力のキーワードとして、当該キーワードの読み情報を取得する。次に、機械翻訳装置の単語検索部は、読み付与装置１が取得したキーワードの読み情報を用いて、翻訳辞書から、当該読み情報と対になる目的言語の単語を取得する。そして、機械翻訳装置の翻訳文構成部は、形態素解析部の結果、および単語検索部が取得した目的言語の単語を用いて、入力受付部が受け付けた文の翻訳文を得る。そして、機械翻訳装置の翻訳文出力部は、翻訳文構成部が取得した翻訳文を出力する。

以上、読み付与装置１は、種々の装置で利用可能である。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図１６は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の読み付与装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１６は、このコンピュータシステム３４０の概観図であり、図１７は、コンピュータシステム３４０のブロック図である。

図１６において、コンピュータシステム３４０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４と、マイク３４５とを含む。

図１７において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３４１３と、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３４１５と、ＣＰＵ３４１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の読み付与装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の読み付与装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる読み付与装置は、精度高く、キーワードの読み情報を取得できる、という効果を有し、音声合成装置等として有用である。

実施の形態１における読み付与装置を含むシステムの概念図同読み付与装置のブロック図同読み付与装置の動作について説明するフローチャート同候補生成処理の動作について説明するフローチャート同分割文字列検索処理の動作について説明するフローチャート同スコア算出処理の動作について説明するフローチャート同例外処理の動作について説明するフローチャート同読み辞書を示す図同読み辞書を示す図同読み辞書を示す図同読み候補管理表を示す図同分割パターンを示す図同読み情報管理表を示す図同スコア管理表を示す図同実験結果を示す図同コンピュータシステムの概観図同コンピュータシステムのブロック図

符号の説明

１読み付与装置
２辞書装置
３サーバ装置
１１受付部
１２辞書検索部
１３共起頻度取得部
１４出力部
１２１キーワード分割手段
１２２情報取得手段
１２３変換手段
１２４アラビア数字処理手段
１２５アルファベット処理手段
１３１共起頻度取得手段
１３２スコア算出手段

Claims

キーワードを受け付ける受付部と、
前記受付部が受け付けたキーワードを２以上のパターンにより分割し、２以上の分割文字列の組である分割パターンを２以上取得し、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している読み辞書に対して、前記２以上の分割パターンを用いて検索し、分割パターンごとに、２以上の読み情報を取得する読み辞書検索部と、
前記読み辞書検索部が、前記分割パターンを構成する２以上のすべての分割文字列に対応する読み情報が取得できた分割パターンのみに対して、当該分割パターンを構成する各分割文字列と、前記読み辞書検索部が取得した２以上の読み情報のうちの各読み情報の組である各取得対象文字列読み情報を用いて、文書群を検索し、前記各取得対象文字列読み情報が有する分割文字列と読み情報が共起する文書の数である共起頻度を、読み情報ごとに取得し、読み情報ごとの共起頻度を用いて、分割パターンごとのスコアを算出する共起頻度取得部と、
前記共起頻度取得部が取得したスコアを用いて、少なくとも最も共起頻度の多い読み情報の組み合わせを出力する出力部を具備する読み付与装置。
前記読み辞書検索部は、
前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である２以上の分割文字列を取得するキーワード分割手段と、
前記２以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに検索し、分割文字列と読み情報を有する取得対象文字列読み情報を、２以上取得する読み情報取得手段を具備する請求項１記載の読み付与装置であって、
前記キーワード分割手段は、
切断数Ｎ（Ｎは０以上）の少ない場合から、順に、前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である１以上の分割文字列を取得し、前記読み情報取得手段からの終了指示があるまで、前記キーワードの分割を繰り返し、
前記読み情報取得手段は、
前記キーワード分割手段が取得した１以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに取得し、１以上の分割文字列のすべてに対応する読み情報が取得できなかった場合には、前記キーワード分割手段に対して、次の分割のパターンである２以上の分割文字列を取得するように指示し、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合には、当該１以上の分割文字列のすべてに対応する読み情報を記憶媒体に少なくとも一時格納する読み情報の取得処理を行い、かつ、前記キーワード分割手段に終了指示を渡し、または、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合と同じ切断数の他の分割のパターンである２以上の分割文字列を、前記キーワード分割手段に対して、取得するように指示し、前記同じ切断数の他の分割のパターンに対する読み情報の取得処理が完了した後、前記キーワード分割手段に終了指示を渡す請求項１記載の読み付与装置。
前記読み辞書検索部は、
前記キーワードがカタカナの文字列を含む場合、当該カタカナの文字列をひらがなに変換する変換手段を具備する請求項１または請求項２記載の読み付与装置。
前記変換手段は、
前記キーワードが、あらかじめ決められたカタカナを含むか否かを判断し、当該カタカナを含む場合には、前記カタカナの文字列をひらがなに変換しない請求項３記載の読み付与装置。
前記キーワード分割手段は、
前記受付部が受け付けたキーワードの文字列長を取得し、当該文字列長が予め決められた文字列長より大きい、または予め決められた文字列長以上の場合には、前記キーワードの分割を行わず、
前記読み情報取得手段は、
前記キーワードの分割を行わない場合、前記受付部が受け付けたキーワードと一致する用語と対になる１以上の読み情報を、前記読み辞書から取得する請求項２から請求項４いずれか一項に記載の読み付与装置。
前記読み辞書検索部は、
前記対象文字列がアラビア数字を含むか否かを判断し、アラビア数字を含む場合は、当該アラビア数字を桁付き数字とする読みを示す桁付き数字読み情報を生成し、当該桁付き数字読み情報を読み情報として加えるアラビア数字処理手段を具備する請求項１から請求項５いずれか一項に記載の読み付与装置。
前記読み辞書検索部は、
前記対象文字列がアルファベットを含むか否かを判断し、アルファベットを含む場合は、当該アルファベットに対応するローマ字読みを示すローマ字読み情報を生成し、当該ローマ字読み情報を読み情報として加えるアルファベット処理手段を具備する請求項１から請求項６いずれか一項に記載の読み付与装置。
前記共起頻度取得部は、
前記読み辞書検索部が取得した２以上の各取得対象文字列読み情報を用いて、文書群を検索し、前記各取得対象文字列読み情報が有する分割文字列と、読み情報が共起する文書の数である共起頻度を、分割パターンごと、および取得対象文字列読み情報ごとに取得する共起頻度取得手段と、
前記２以上の分割文字列を有する取得対象文字列読み情報に対応する共起頻度をパラメータして、分割パターンごとに、スコアを算出するスコア算出手段を具備し、
前記出力部は、
前記共起頻度取得部が取得したスコアを用いて、少なくとも最も共起頻度の多い読み情報の組み合わせを出力する請求項１から請求項７いずれか一項に記載の読み付与装置。
コンピュータを、
キーワードを受け付ける受付部と、
前記受付部が受け付けたキーワードを２以上のパターンにより分割し、２以上の分割文字列の組である分割パターンを２以上取得し、用語と、当該用語の読みを示す読み情報を有する用語読み情報を２以上格納している読み辞書に対して、前記２以上の分割パターンを用いて検索し、分割パターンごとに、２以上の読み情報を取得する読み辞書検索部と、
前記読み辞書検索部が、前記分割パターンを構成する２以上のすべての分割文字列に対応する読み情報が取得できた分割パターンのみに対して、当該分割パターンを構成する各分割文字列と、前記読み辞書検索部が取得した２以上の読み情報のうちの各読み情報の組である各取得対象文字列読み情報を用いて、文書群を検索し、前記各取得対象文字列読み情報が有する分割文字列と読み情報が共起する文書の数である共起頻度を、読み情報ごとに取得し、読み情報ごとの共起頻度を用いて、分割パターンごとのスコアを算出する共起頻度取得部と、
前記共起頻度取得部が取得したスコアを用いて、少なくとも最も共起頻度の多い読み情報の組み合わせを出力する出力部として機能させるためのプログラム。
前記読み辞書検索部は、
前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である２以上の分割文字列を取得するキーワード分割手段と、
前記２以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに検索し、分割文字列と読み情報を有する取得対象文字列読み情報を、２以上取得する読み情報取得手段を具備するものとして、コンピュータを機能させるための請求項９記載のプログラムであって、
前記キーワード分割手段は、
切断数Ｎ（Ｎは０以上）の少ない場合から、順に、前記受付部が受け付けたキーワードを１文字以上の単位で分割し、分割した文字列である１以上の分割文字列を取得し、前記読み情報取得手段からの終了指示があるまで、前記キーワードの分割を繰り返し、
前記読み情報取得手段は、
前記キーワード分割手段が取得した１以上の各分割文字列に一致する用語と対になる１以上の読み情報を、前記読み辞書から、分割文字列ごとに取得し、１以上の分割文字列のすべてに対応する読み情報が取得できなかった場合には、前記キーワード分割手段に対して、次の分割のパターンである２以上の分割文字列を取得するように指示し、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合には、当該１以上の分割文字列のすべてに対応する読み情報を記憶媒体に少なくとも一時格納する読み情報の取得処理を行い、かつ、前記キーワード分割手段に終了指示を渡し、または、前記１以上の分割文字列のすべてに対応する読み情報が取得できた場合と同じ切断数の他の分割のパターンである２以上の分割文字列を、前記キーワード分割手段に対して、取得するように指示し、前記同じ切断数の他の分割のパターンに対する読み情報の取得処理が完了した後、前記キーワード分割手段に終了指示を渡すものとして、コンピュータを機能させるための請求項９記載のプログラム。