JP5231698B2

JP5231698B2 - 日本語の表意文字の読み方を予測する方法

Info

Publication number: JP5231698B2
Application number: JP2001219792A
Authority: JP
Inventors: リチャード・リー・クリッチロウ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-07-21
Filing date: 2001-07-19
Publication date: 2013-07-10
Anticipated expiration: 2021-07-19
Also published as: US20020152246A1; US7328404B2; JP2002149643A

Description

優先権

本願は、"METHOD FOR PREDICTING THE READING OF JAPANESE IDEOGRAPHS"（日本語の表意文字の読み方を予測する方法）と題し、２０００年６月２１に出願された米国予備特許出願第60/219,981号に関連し、35U.S.C.§119(e)に基づく優先権を主張する。その内容は、この言及によりその全体が本願にも含まれるものとする。

本発明は、外国語の読み方の予測という分野に関し、更に特定すれば、日本語の表意文字の読み方を信頼性高くしかも効果的に予測することに関する。

【従来の技術】
日本語は、４つのスクリプト、平仮名、カタカナ、ローマ字、および表意文字の組み合わせを用いて書かれる。平仮名およびカタカナは音節文字であり、各キャラクタが単語の音節を表わす表音スクリプトである。一般に、平仮名およびカタカナは、集合的に仮名と呼ばれている。カタカナは、通常、過去４００年に間に外国語（中国語を除く）から借用した単語を書き表すために用意されている。また、これらは、強調またはグラフィック効果を与えるために用いることもできる。ローマ字は、アルファベット、即ち、北アメリカ、ヨーロッパおよびその他の各地でなじみのあるラテン・アルファベットである。過去において、ローマ字は、外来語を転記するため、強調のため、および外国の占領軍隊のために日本語を転記するために用いられてきた。漢字は表意文字、即ち、特定の音ではなく、特定の単語または単語の一部を表わすキャラクタである。漢字は、しかしながら、自由な浮遊するアイデアだけに関係する訳ではない**。漢字および単語間の連携は、殆どの部分では固定されている。即ち、殆どの単語では、書き手は異なる漢字の間で選択することはできない。例えば、全ての日本語の話者が、キャラクタ「□」および「□」が本質的に「犬」を意味することに同意しても、キャラクタ「□」を用いて単語「□□」（ちゅうけん）「忠実な犬」と書いても、理解できないであろう。同様に、単語およびその発音の間の連携も固定である。即ち、方言的変種は除いて、単語の発音のしかたは、通常１つだけである。したがって、漢字および発音の間には確固とした連携があるが、これは直接的ではない。常に、書かれている特定の単語によって仲介される。

書き手は、しかしながら、漢字を用いるか否か選択することができる。ちゅうけんを書く際、平仮名（□□□□）、ひらがな（□□□□□）、ローマ字（ｃｈｕｕｋｅｎ）、または混合（□□□、□□□□）を用いても間違いではない。漢字および平仮名の組み合わせで単語（特に動詞）を書くことは、非常に一般的である。しかしながら、同じ単語内におけるスクリプトの別の混成は、いずれも突飛であり、間違いと見なされる。漢字を含む単語は、表音スクリプトで書くこともできるので、当該単語における漢字の表音値（phonetic value）について話すことができる。これは、特定の単語における漢字の読み方、単語を音読するときのその発音、または単語を音素的に書くときの音素スクリプトにおける綴りを意味する。例えば、「□□」における「□」の読み方はけんである。しかしながら、日本語特有の歴史のため、殆どの漢字は少なくとも２つの完全に別個の読み方がある。例えば、単語「□□□」（いぬおよぎ）における「□」の読み方は、いぬであり、「□」は「□□」（にんげん）においてにんと読み、「□□□」（にほんじん）においてじんと読み、「□□」（ひとびと）においてひとと読む。更に、多くの漢字は、互いに系統的に関連のある、異なった読み方を有する。例えば、「□」は「□□」（かいはつ）でははつと読まれ、「□□」（はっぴょう）でははっと読まれ、「□□」（かっぱつ）ではぱつと読まれる。

日本語の書き言葉（例えば、日本語のスクリプト）の基本的読み方を判定する際の複雑さの最後の源泉は、１つの単語のどれくらいが漢字で表わされるかということについて、いくらかのばらつきがあることである。例えば、かきつけという単語は、「□□□□」と書かれる場合もあるが、「□□□」と書かれる場合もある。漢字「□」の読み方は、最初の変形ではかであり、第２ではかきである。これらの変形は双方とも容認可能と見なされるが、２つの変形を単一の文書内で混合すると、誤りと見なされる。

前述の変形の源泉全てに対し、所与の単語において漢字の正しい読み方を予測することは、単純な作業ではない。教育を受けた日本語のネーティブ・スピーカは、通常漢字の正しい読み方を覚えているか、想像することができるが、ソフトウエアがこのタスクを実行しても、成功する可能性は低い。

発明が解決しようとする課題

現在、日本語スクリプトの読み取りを自動化する現状は、非効率であり、信頼性にかける可能性がある。例えば、この問題に対する暴力的解決策は、単語の辞書を作成し、単語の音素的綴りに対するエントリを、それの他の辞書の綴り全てに対するエントリに連携させることである。しかしながら、この種の解決策は、いくつかの問題に直面する。日本語は伝統的に単語間に空白を挿入しないで書くので、辞書で単語を調べることは並大抵のことではない。最初に、単語間の境界を識別する必要があるが、相当のレベルの言語的知識、およびかなりのリソースの出費が必要となる。日本語は英語よりもはるかに屈折した言語であるので、接辞添加や複合によって、単語の形態が広範囲に変更するのは、通常よくあることである。単語に可能な形態を全て収容すると、辞書は驚くべき大きさとなり、扱いにくくなるであろう。したがって、日本語のスクリプトの読み方を適切に予測できるほどに、辞書を大きくすることは不可能である。更に、新しい単語が常に作られたり、あるいは借用されているので、このような辞書は適応可能でありしかも更新可能でなければならない。

以上のことから、日本語のスクリプトの読み方を効率的かつ信頼性高く予測するシステムおよび方法が必要とされていることが認められる。これらのシステムおよび方法を有することによって、既存の実施における欠点が克服されよう。

課題を解決するための手段

日本語のスクリプトの読み方を効率的に予測するシステムおよび方法を提供する。例示の実施態様では、本発明は、２つのモード、即ち、「学習」および「実行／ランタイム」モードで動作する読み方予測システムから成る。「学習」モードでは、読み方分析部が、入力として、基準日本語スクリプト（即ち、漢字）読み方、訓練コープス（例えば、日本語の単語の語彙およびその読み方）、および疑似音韻規則を受け入れ、訓練コープスにおける各エントリ毎に、分析コープスおよび基本の読み方を生成する。次に、コープス分類部を呼び出して、判断ツリーを生成する。記載する実施態様では、コープス分類部は、学習アルゴリズムを用いて、判断ツリーを作成する。

「実行／ランタイム」モードで動作する場合、読み方予測部が、作成した判断ツリー、生成した基本の読み方、および疑似音韻規則を入力として受け入れる。加えて、読み方予測部は、日本語表意文字を有する入力日本語文章の形態学的分析を入力として受け入れる。形態学的分析は、形態学的分析部によって行われ、これは、とりわけ、入力日本語文章を解析するように動作する。これらの入力を用いて、読み方予測部は、入力日本語文章に対して読み方予測を行なう。

以上に記載した実施態様では、読み方予測システムは、一例の計算機アプリケーション内に組み込まれ、入力日本語テキストに対する文型チェックを行なう。

日本語表意文字の読み方予測方法およびシステムについて、添付図面を参照しながら更に説明する。
概要
日本語は、日本の約１億２千万人の住人、ならびにハワイや北および南アメリカ本土に住む日本人によって話されている。また、今世紀当初における日本占領下に住んでいた中国人および韓国人も、第２言語として話している。

一般に、日本語には３つの単語類別がある。自生の日本語単語が最も大きな類を構成し、続いて、歴史初期に中国から元々借用した単語が続き、そして最も小さいが急速に成長しているのが、近年になって英語のような西洋語から借用された単語の類である。この第３類は、他の亜細亜言語から来た少数の単語も含む。これら３種類の単語の頻度は、調べる筆記文書の種類によって異なる。例えば、雑誌では、自生の日本語の単語が全単語の半分以上を占めるが、中国からの借用語は平均約４０％であり、残りは、西洋言語から最近になって借用された単語から持ち込まれたものである。新聞では、中国語起源の単語が、日本の自生単語よりも多い。

日本語は、開放音節音響パターンを有するので、殆どの音節は母音で終わる。即ち、音節は母音のみで構成される場合もある。５つの母音/a/, /i/, /u/, /e/および/o/がある。とが"door"を意味し、とおが"ten"を意味するように、母音長が単語を区別する場合が多い。基本子音は、/k/,/s/,/t/, /n/, /h/,/m/,/y/,/r/,/w/、および鼻音節/N/である。これらの子音の多くは、母音/a/,/u/, および/O/の前では口蓋音化され、例えば、/kya/, /kyu/,/kyo/となる。２つの子音/s/,/t/が母音/i/と一緒になると、これらの子音は自動的に口蓋音化され、/shi/および/chi/となる。子音/t/は、母音/u/の前では/ts/と発音する。ストレス・アクセントを有する英語と異なり、日本語はピッチ・アクセントを有する。これが意味するのは、アクセントのある音節の後では、ピッチが低下するということである。"chopsticks"を示す単語、はしは、第１音節にアクセントを有するので、そのピッチ輪郭は、ha shiとなる。第１音節にアクセントがないと、はしは"bridge"または"edge"を意味する。"bridge"は、第２音節にアクセントを有し、これは、「はしが」のように、主語標識「が」のような文法的小辞（particle）が単語に付いたときにみることができる。"edge"はアクセントを有さないので、「が」のような文法的標識があっても、ピッチが全く落ちずに発音される。

あらゆる言語は、文章における単語に対して、基本的な単語の順序を有する。英語では、"Naomi uses a computer"という文章は、主語(Naomi)、動詞(uses)、および目的語(a computer)という順序を有する。対応する日本語の文章では、主語は英語と同様最初に来るものの、次に目的語が来て、最後に動詞が続く。なおみ−が(Naomi) こんぴゅーた−を(computer) つかう(use)となる。日本語における大雑把な規則（a rule of thumb）は、文章では、動詞が最後にくる。２つの単語の順序、英語では主語−動詞−目的語、日本語では主語−目的語−動詞となるが、双方とも、世界の言語の中ではめずらしくはない。再度日本語の文章を見てみると、主語および目的語は、小辞を伴っており、主語"Naomi"には「が」が（なおみ−が）、そして目的語"computer"には「お」（こんぴゅーた−お）が付いている。これらは、格標識（case marker）と呼ばれており、世界の言語の大多数がこれらを有する。英語においても、格標識システムの名残を見ることができる。英語の名詞は、生ずる場所によっては、形状が変化する。he/she/theyは主語の位置であるが、目的語の位置ではhim/her/themとなる（例えば、She saw him)。同様に、５００年ないし１０００年前の古い英語は、最近の日本語と同様に、広範な格標識システムを有していた。これらの格標識は、日本語の単語が、異なる順序で現れても、同じ意味を保持することを可能にする。例示の文章では、目的語を、主語が通常では位置するところに置くことができ、主語の通常の目的語位置に置くことができ、しかも意味は変化しない。こんぴゅーた−おなおみ−がつかうとなる。英語では、同じ転地を行なうと、文章の意味が全く変わってしまう（例えば、The computer uses Naomi)。日本語におけるその他の変形は、英語から日本語へまたはその逆の転記作業を非常に困難にする。

日本語は、主に、２つの正書法システム、中国語キャラクタおよび表音文字を用いて筆記される。中国語キャラクタ、即ち、漢字は、約１，５００年前から中国から持ち込まれていた。その導入前では、日本語は完全に話し言葉であった。中国語キャラクタは、膨大な数のキャラクタ、ならびに各キャラクタの筆記および読み方双方の複雑さのために、はるかに難しいシステムである。各キャラクタには、意味が伴い、例えば、キャラクタ「□」は、基本的な意味"dog"を有する。何万ものキャラクタが実証されているが、１９４６年に、日本政府が、日常の使用のために、１，８５０キャラクタを特定した。１９８１年に、このリストは、１，９４５キャラクタに数が増加され、常用漢字表（日常用いる漢字）という名称が与えられた。常用リストにあるキャラクタは、小学校および中学校で習得しなければならず、新聞は通常このリストの漢字の使用に抑えている。殆どのキャラクタには、少なくとも２通りの読み方があり、自生の日本語の読み方、および同じキャラクタの元の中国語発音を真似た読み方がある。同じキャラクタが日本に異なる時期に、または中国の異なる方言地域から導入された場合、キャラクタにはいくつかの中国語の読み方が付けられ、異なる時代、および方言的相違を表わす。第２の筆記システムは表音文字、即ち、仮名であり、これは約１，０００年前にある中国語キャラクタから、日本人によって作り出された。表音文字における各キャラクタは、言語における１音節を表わし、中国語キャラクタとは異なり、音を表わすが、意味を表わさない。表音文字には２種類、平仮名およびカタカナがあり、各々同じ組の音を含む。平仮名は、多くの場合中国語キャラクタと組み合わせて用いられ、例えば、キャラクタがおおまかに動詞の語根を表わし、平仮名で語尾変化を書き表わす。カタカナは、英語、フランス語、およびドイツ語のような西洋言語からの借用言語を書くために用いられる。同じ文章において漢字、平仮名、およびカタカナが用いられているのを発見するのは、めずらしくない。中国語キャラクタおよび表音文字と共に、ラテン・アルファベットも、組織の名称のようなものに用いられる場合がある。この複雑な状況において、日本語スクリプトを信頼性高く読むのは、非常に骨が折れる可能性があることを想像するのは難しくない。

本発明は、各漢字の基本的読み方の最少集合を特定し、基本的読み方に対して作用する１組の疑似音韻規則を定義して表皮読み方（surface reading）を生成し、判断ツリー・データ構造を構築し、これを用いて、どの基本的読み方を単語内の各漢字に選ぶべきか判断することによって読み方の予測を行なうという課題に取り組む。基本的読み方は、文言通りの読み方と、疑似音韻規則の動作を制御する１組のデータとによって構成される。判断ツリーによって、アルゴリズムが、発見した単語の形態学的分析の間に得られた情報のみに基づいて、最も可能性が高い読み方を漢字に選択することを可能にする。

１組の基本的読み方および判断ツリーは、語彙、形態学、および音韻情報を含む１組の言語リソースから、自動的に学習する。最適な１組の読み方およびツリーの構築によって、効率的に読み方の予測を行なうことが可能となる。

以下で図１ないし図７に関して説明するが、本発明は、日本語のスクリプトの読み方を効果的かつ信頼性高く予測するシステムおよび方法を対象とする。その例示の実施態様によれば、本発明は、コンテンツ・プロバイダに、好適なデータ・タイプのデータを提供するシステムおよび方法を備える。

一実施形態では、以下で更に詳しく説明するが、本発明の方法および装置は、日本語スクリプトの読み取りおよび分析を行なう１つ以上のコンポーネントを実行する計算機環境の一部として実装することができる。計算機環境は、種々のハードウエアおよびソフトウエアの組み合わせから成り、日本語スクリプトの読み方を理解することができる。
計算機環境の一例
図１は、本発明を実現可能な、適当な計算機システム環境１００の一例を示す。計算機システム環境１００は、単に適当な計算機環境の一例に過ぎず、本発明の使用または機能性の範囲に対して限定を示唆する意図は全くない。また、計算機環境１００は、一例の動作環境１００に示すコンポーネントのいずれの１つまたはその組み合わせに関するいずれの依存性も要件も有するものとして解釈しないこととする。

本発明は、多数の他の汎用または特殊目的計算機システム環境または構成とでも動作する。本発明と共に用いるのに適した公知の計算機システム、環境、および／または構成の例には、限定する訳ではないが、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサを用いたシステム、セット・トップ・ボックス、プログラム可能な消費者用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュータ、前述のシステムまたはデバイスのいずれかを含む分散計算機環境等を含む。

本発明の説明は、プログラム・モジュールのような、コンピュータが実行する一般的なコンピュータ実行可能命令に関連して行なう。一般に、プログラム・モジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含み、特定のタスクを実行したり、あるいは特定の抽象的データ・タイプを実装する。更に、本発明は、分散型計算機環境においても実施可能であり、この場合、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクを実行する。分散型計算機環境では、プログラム・モジュールは、メモリ記憶装置を含むローカルおよびリモート・コンピュータ記憶媒体双方に位置することができる。

図１を参照すると、本発明を実現するシステムの一例は、従来のコンピュータ１１０の形態の汎用計算機を含む。このコンピュータ１１０のコンポーネントは、限定する訳ではないが、演算装置１２０、システム・メモリ１３０、およびシステム・メモリから演算装置１２０までを含む種々のシステム・コンポーネントを結合するシステム・バス１２１を含む。システム・バス１２１は、数種類のバス構造のいずれでもよく、メモリ・バスまたはメモリ・コントローラ、周辺バス、および種々のバス構造のいずれかを用いるローカル・バスが含まれる。一例として、そして限定ではなく、このようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、改良ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子規格協会（ＶＥＳＡ）ローカル・バス、および（Ｍｅｚｚａｎｉｎｅバスとしても知られている）周辺素子相互接続（ＰＣＩ）バスを含む。

コンピュータ１１０は、典型的に、種々のコンピュータ読み取り可能媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ１１０がアクセス可能であれば、入手可能な媒体のいずれでも可能であり、揮発性および不揮発性双方の媒体、リムーバブルおよび非リムーバブル媒体を含む。一例として、そして限定ではなく、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、揮発性および不揮発性、リムーバブルおよび非リムーバブル双方の媒体を含み、コンピュータ読み取り可能命令、データ構造、プログラム・モジュールまたはその他のデータのような情報の格納のためのあらゆる方法または技術において使用されている。コンピュータ記憶媒体は、限定する訳ではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、ディジタル・バーサタイル・ディスク（ＤＶＤ）、またはその他の光ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージ、またはその他の磁気記憶装置、あるいは所望の情報を格納するために使用可能であり、コンピュータ１００によってアクセス可能なその他のいずれの媒体でも含まれる。通信媒体は、典型的に、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、またはその他データを、キャリアＷＡＶまたはその他のトランスポート機構のような変調データ信号において具体化し、あらゆる情報配信媒体を含む。「変調データ信号」という用語は、当該信号内に情報をエンコードするように、その１つ以上の特性を設定または変更した信号を意味する。一例として、そして限定ではなく、通信媒体は、有線ネットワークまたは直接有線接続のような有線媒体、ならびに音響、ＲＦ、赤外線およびその他のワイヤレス媒体のようなワイヤレス媒体を含む。前述のいずれの組み合わせでも、コンピュータ読み取り可能媒体の範囲内に含まれて当然である。

システム・メモリ１３０は、リード・オンリ・メモリ（ＲＯＭ）１３１およびランダム・アクセス・メモリ（ＲＡＭ）１３２のような揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。基本入出力システム１３３（ＢＩＯＳ）は、起動中のように、コンピュータ２０内のエレメント間におけるデータ転送を補助する基本的なルーチンを含み、典型的にＲＯＭ１３１内に格納されている。ＲＡＭ１３２は、典型的に、演算装置１２０が直ちにアクセス可能であるデータおよび／またはプログラム・モジュール、または現在これによって処理されているデータおよび／またはプログラム・モジュールを収容する。一例として、そして限定ではなく、図１は、オペレーティング・システム１３４、アプリケーション・プログラム１３５、その他のプログラム・モジュール１３６、およびプログラム・データ１３７を示す。

また、コンピュータ１１０は、その他のリムーバブル／非リムーバブル揮発性／不揮発性コンピュータ記憶媒体も含むことができる。一例としてのみ、図１は、非リムーバブル不揮発性磁気媒体からの読み取りおよびこれへの書き込みを行なうハード・ディスク・ドライブ１４１、リムーバブル不揮発性磁気ディスク１５２からの読み取りおよびこれへの書き込みを行なう磁気ディスク・ドライブ１５１、ならびにＣＤＲＯＭまたはその他の光媒体のようなリムーバブル不揮発性光ディスク１５６からの読み取りおよびこれへの書き込みを行なう光ディスク・ドライブ１５５を示す。動作環境の一例において使用可能なその他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータ記憶媒体には、限定する訳ではないが、磁気テープ・カセット、フラッシュ・メモリ・カード、ディジタル・バーサタイル・ディスク、ディジタル・ビデオ・テープ、ソリッド・ステートＲＡＭ、ソリッド・ステートＲＯＭ等が含まれる。ハード・ディスク・ドライブ１４１は、典型的に、インターフェース１４０のような非リムーバブル・メモリ・インターフェースを介してシステム・バス１２１に接続され、磁気ディスク・ドライバ１５１および光ディスク・ドライブ１５５は、典型的に、インターフェース１５０のようなリムーバブル・メモリ・インターフェースによって、システム・バス１２１に接続する。

先に論じ図１に示すドライブおよびそれらと連動するコンピュータ記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、およびコンピュータ１１０のその他のデータを格納する。図１では、例えば、ハード・ディスク・ドライブ１４１は、オペレーティング・システム１４４、アプリケーション・プログラム１４５、その他のプログラム・モジュール１４６、およびプログラム・データ１４７を格納するように示されている。尚、これらのコンポーネントは、オペレーティング・システム１３４、アプリケーション・プログラム１３５、その他のプログラム・モジュール１３６、およびプログラム・データ１３７と同じでも異なっていても可能であることを注記しておく。オペレーティング・システム１４４、アプリケーション・プログラム１４５、その他のプログラム・モジュール１４６、およびプログラム・データ１４７は、ここで、少なくともこれらが異なるコピーであることを示すために、異なる番号が与えられている。ユーザは、キーボード１６２、および一般にマウス、トラックボールまたはタッチ・パッドと呼ばれているポインティング・デバイス１６１によって、コマンドおよび情報をコンピュータ１１０に入力することができる。他の入力デバイス（図示せず）は、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナ等を含むことができる。これらおよびその他の入力デバイスは、多くの場合、ユーザ入力インターフエース１６０を介して、演算装置１２０に接続されている。ユーザ入力インターフエース１６０は、システム・バスに結合されているが、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス（ＵＳＢ）のようなその他のインターフェースおよびバス構造によって接続することも可能である。モニタ１９１またはその他の形式の表示装置も、ビデオ・インターフェース１９０のようなインターフェースを介して、システム・バス１２１に接続されている。モニタに加えて、コンピュータは、スピーカ１９７およびプリンタ１９６のようなその他の周辺出力デバイスを含むこともでき、これらは出力周辺インターフェース１９０を介して接続することができる。

コンピュータ１１０は、リモート・コンピュータ１８０のような１つ以上のリモート・コンピュータへの論理接続を用いて、ネットワーク環境において動作することも可能である。リモート・コンピュータ１８０は、パーソナル・コンピュータ、ハンド・ヘルド・デバイス、サーバ、ルータ、ネットワークＰＣ、ピア・デバイス、またはその他の共通ネットワーク・ノードとすることができ、典型的に、コンピュータ１１０に関して先に説明したエレメントの多くまたは全てを含むが、図１にはメモリ記憶装置１８１のみを示す。図１に示す論理接続は、ローカル・エリア・ネットワーク（ＬＡＮ）１７１およびワイド・エリア・ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークも含むことができる。このようなネットワーク環境は、事務所、企業規模のコンピュータ・ネットワーク、イントラネットおよびインターネットにおいては、一般的である。

ＬＡＮネットワーク環境で用いる場合、コンピュータ１１０は、ネットワーク・インターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続する。ＷＡＮネットワーク環境で用いる場合、コンピュータ１１０は、典型的に、モデム１７２、またはインターネットのようなＷＡＮ１７３を通じて通信を確立するその他の手段を含む。モデム１７２は、内蔵でも外付けでもよく、ユーザ入力インターフェース１６０またはその他の適切な機構を介してシステム・バス１２１に接続することができる。ネットワーク環境では、コンピュータ１１０に関して図示したプログラム・モジュール、またはその一部は、リモート・メモリ記憶装置に格納することもできる。一例として、そして限定ではなく、図１は、リモート・アプリケーション・プログラム１８５がメモリ素子１８１上に常駐するものとして示している。尚、図示のネットワーク接続は一例であり、コンピュータ間で通信リンクを確立する他の手段も使用可能であることは認められよう。
表意文字の読み方予測
図２および図３は、日本語表意文字の読み方を予測するときに用いる、基本的読み方および判断ツリーを生成するための、読み方予測システム２００の種々のデータおよび処理コンポーネントの協働を示す。図示の実施態様では、読み方予測システム２００は、基準漢字読み方２０５、訓練コープス２１０、疑似音韻規則２１５、読み方分析部２２０、基本的読み方２２５、分析コープス２３０、コープス分類部２３５、判断ツリー２４０、入力文章２７０、読み方予測部２６５、形態学的分析部２７５、形態学的分析２８０、および読み方予測２６０から成る。読み方予測システム２００は、２段階、即ち、「訓練段階」および「実行／ランタイム段階」で動作する。図２は、読み方予測システム２００の「訓練段階」のための例示コンポーネントの協働を示す。「訓練段階」は、読み方予測システム２００に、判断ツリー２４０および基本的読み方２２５を供給する。これらは、「実行／ランタイム」段階において用いられ（図３に示すその他の例示のコンポーネントと共に）、読み方の予測を行なう。

図２に示すように、読み方分析部２２０は、入力として、基準漢字読み方２０５、訓練コープス２１０、および疑似音韻ルール２１５を受け入れる。これらのデータを用いて、読み取り分析部２２０は、分析コープス２３０および基本的読み方２２５を作成する。分析コープス２３０は、コープス分類部２３５への入力として作用し、コープス分類部２３５は判断ツリー２４０を生成する。更に、図示のように、一旦基本的読み方２２５および分析コープス２３０を生成したなら、処理は読み方分析部２２０からコープス分類部２３５に渡される。判断ツリー２４０および基本的読み方２２５を用いて、読み方予測システム２００は、「実行／ランタイム段階」中に読み方予測２６０を行なうことができる。図３に示すように、読み方予測部２６５は、入力として、文章２７０、判断ツリー２４０、基本的読み方２２５、疑似音韻規則２１５、形態学的分析２８０を受け入れ、読み取り予測２６０を生成する。動作において、入力文章には、読み方予測部２６５および形態学的分析部２７５が処理を加える。形態学的分析部２７５は、入力文書２７０に処理を行い、形態学的分析２８０を生成する。形態学的分析部２７５については、本発明の譲受人である、ＭｉｃｒｏｓｏｆｔＣｏｒｐ．に譲渡された米国特許第５，９６３，８９３号および第５，９４６，６４８号により良く記載されている。双方共、この言及により、その全体が本願にも含まれるものとする。一方、形態学的分析２８０は、読み方予測部２６５への入力として作用し、読み方予測部２６５はこれを用いて入力文書２７０を処理する。

即ち、読み方予測システム２００は、各漢字の基準読み方の完全なリストから開始する。基準読み方は、読み方の発音および歴史的等級に関する情報のみを含む。読み方は、その読み方が元々中国語から借用された（音読み）のか、または明白に日本人によって創作された（訓読み）のかに基づいて、２つの等級に分割される。この情報は、元々、Ｍｉｃｒｏｓｏｆｔが購入した機械読み取り可能日本語辞典から取ったのであり、続いて、リストを必要に応じて変更し、予測手順の性能を向上させた。基準読み方は、テキスト・ファイルで格納し、訓練プログラムが読み取る。

以下に続く例示の一例では、漢字および単語／形態素の読み方を、読み手の便宜上、ローマ字で表わすことにする。しかしながら、実際のデータでは、読み方は常に平仮名で書かれている。したがって、例は、「読み方の最初の仮名」等を示す。例えば、「□」に対する基準読み方キャラクタ・データは、次の通りである。

【表１】
hatsu、音読み
hotsu、音読み
abaki、訓読み
okoshi、訓読み
tachi、訓読み、
hasshi、訓読み、
hana、訓読み、
hira、訓読み。

また、疑似音韻規則の完全なリストも最初にある。この規則は、読み方が特定の環境で生じると、ある変更が起こることを指定する。これらの規則は、弱母音の削除やリーマンの法則のような純粋に音韻的現象、および読み方の仮名の綴り部分の実施（送り仮名）のような純粋に正書法的現象の双方をカプセル化する。各規則は、照合すべき環境（規則の「左側」）および取るべき処置（「右側」）として実施される。

規則の一部は、次のように言い換えることができる。
仮名が訓読みの一部であり、それが形態素における最初の仮名であり、そしてそれが鼻音節仮名の後にあり、そして無声子音で始まり、そして形態素の残り部分が有声閉鎖音を含まない場合、無声子音をその有声子音と置き換える。

読み方が基礎の？音素で終わる場合、その音素を削除し、それに続く読み方の最初の子音を二重にする。
読み方が２つよりも多い仮名を有する場合、最後の２つの仮名を除去する。

規則は、常に固定順序で適用し、それら自体の出力に適用することはできない。更に、一部の規則には、適用されると他の規則の適用を禁止する場合がある。
訓練データのコープスが組み立てられ、これは、日本語形態学的分析部の主要語彙における全ての単語、分析部の有限状態文法における形態素の全て、公知の非標準的綴り変形のリスト、ならびに典型的な数および日付のリストを含む。各エントリは、項目の綴り、その形態学的類別または話法の一部、および項目の読み方を含む。コープスを処理していくつかのテキスト・ファイルとし、これを図２の読み方分析部２２０で処理する。

コープスに含まれるデータ例の一部は次の通りである。

【表２】
GOku, aba,□
GOsu, oko, □
GOsu, ha?,□
GOtu, ta, □
Geo, hassamu, □□
Lnme, hossa, □□
Noun, kappatsu, □□
Noun, hatsumei, □□
Noun, ichinenhokki, □□□□
Noun, kanpatsu, □□
Noun, kanpatsu, □□
Noun, hokku, □□
Noun, hotsui, □□
DER classshot hatu, ippatsu, □□
DER classshot hatu, nihatsu, □□
DER classshot-hatu,sanpatsu, □□

「訓練段階」の間、訓練コープスの各エントリを分析し、各単語における各漢字について、どの基準読み方を用いるか、どの音韻規則を適用するか、どの規則を適用すべきであったがしなかったか判定を行なう。このステップを実行するには、可能な組み合わせを余すことなく探索し、エントリの読み方に一致する読み方を生成するものを見つけ出す。処理の一例は次の通りである。

【表３】
訓練コープスにおける各エントリについて、
綴りにおける各漢字について、
漢字の基準読み方の各々について、
漢字の基準読み方を代えて、読み方仮説を形成する
各読み方仮説について、
環境が一致した各音韻規則について、
現読み方仮説を複製する
一方のコピーにおいて、規則の作用部分を実行し、規則が適用され
たことを印する
他方のコピーにおいて、ルールが禁止されたことを印する
読み方仮説がエントリの読み方と一致した場合、仮説を保存する
読み方分析部２２０が１つよりも多い仮説を生成するのに成功することも、全く生成できないこともあり得る。多数の仮説ができた場合、読み方予測システムは、単純な方の仮説を優先する探索法を用いて、最良の仮説を選択する。「学習段階」の出力を検査することによって、１組の基準読み方および音韻規則を変更し、曖昧さおよび不良の数を減少させることができる。

典型的な動作の一例として、「訓練段階」の間、以下のエントリを次のように分析することができる。
Noun, kanpatsu, □□

キャラクタ「□」は、１つの基準読み方のみを有する。

kan, 音

先に列挙した「□」の８つの基準読み方と組み合わせると、音韻規則を適用する前に、８つの読み方仮説、kanhhatsu, kanhotsu, kanabaki, kanakoshi, kantachi, kanhasshi, kanhana,およびkanhiraが得られる。読み方分析部２００（読み方分析部によって実行するアルゴリズム）は、kanhatsuが、鼻音節の後の子音を有声化するNasalVoicingと呼ぶ規則の環境に一致することを認める。この規則を適用すると、kanbatsuが得られ、以降の規則適用の組み合わせは、正しい読み方に至らない。しかしながら、NasalVoicingが禁止されると、仮説は、別の規則NasalStoppingの環境と一致する。この規則を適用すると、kanpatsuが得られる。後の規則、Spelling Variantは、kanpatsuをkanpaに変化させる。この規則が禁止されると、最後の仮説、kanpatsuが残る。これが正しい表皮読み方となる。

読み方仮説は、単純な方法で基本的読み方に変換される。各音素規則は、禁止されなければ、その環境が一致したときに適用されると仮定する。したがって、基本的読み方は、どの規則が禁止されたかのみを記録すればよい。先の例では、基本的読み方は、次のようになる。

□−kan、音、−NasalVoicing
□−hatu、音、−Spelling Vaariant1

このように訓練コープス全体を分析した後、読み方予測システム２００は、各漢字に対して、基本的読み方２２５の完全な集合、および各読み方が現れた単語の完全な集合を特定している。読み方予測システム２００は、この情報を用いて、各漢字について判断ツリー２４０を作成する。判断ツリー２４０は、所与の文脈における漢字の基本的読み方を予測する。判断ツリー２４０は、文章の形態学的分析から得られる情報のみを用いる。言い方を変えると、判断ツリー２４０は、訓練コープスにどの単語が現れるかには無関係に、単語の基本的読み方に関する予測を行なうことができる。

例示の実施態様では、判断ツリー２４０は、公知のＩＤ３機械学習アルゴリズムの変形を用いて作成する。即ち、各単語をイベントとして扱う。その結果（正しい基本的読み方）はわかっている。アルゴリズムは、全て同じ結果を有する部分集合にイベントを分類する。これを行なうには、イベントの集合を部分集合に分割する。部分集合の各メンバは、同じ値の分類属性を有する。属性は、結果以外のイベントに関して分かっている何かである。分割前後における各集合のエントロピーを計算することによって、アルゴリズムには、エントロピー利得と呼ばれるメトリックが与えられる。アルゴリズムは、各分割においてエントロピー利得が最大となる一連の属性検査を探索し、更に一連の検査を行い、最終的にイベントを同じ結果を共有する類似部分集合に分類する。

「学習段階」の間、読み方予測システム２００は、分類属性を用いる。これは、形態学的分析から得られる情報である。集合は、次のような属性を含む。

【表４】
IsBoundMorpheme - 漢字を含む形態素が接頭辞である場合真
IsStemMorpheme − 漢字を含む形態素が語幹である場合真
IsMorphInitial − 漢字が形態素における最初のキャラクタである場合真
IsMorphFinal − 漢字が形態素における最後のキャラクタである場合真
PrecedesKanji − 形態素において漢字が他の単語の直前にある場合真
FollowsKanji − 形態素において漢字が他の単語の直後にある場合真
PrecedsHiragana − 形態素において、漢字が平仮名の直前にある場合真
FollowsHiragana − 形態素において漢字が平仮名の直後にある場合真
PrecedsKatakana − 形態素において漢字がカタカナの直前にある場合真
FollowsKatakana − 形態素において漢字がカタカナの直後にある場合真
AllKanji − 漢字を含む形態素におけるキャラクタ全てが漢字である場合真
IsUnigram − 漢字を含む形態素が１キャラクタ長である場合真
IsBigram − 漢字を含む形態素が２キャラクタ長である場合真
IsTrigram − 漢字を含む形態素が３キャラクタ長である場合真
IsTetragram − 漢字を含む形態素が４キャラクタ長である場合真
IsFactoid − 漢字を含む形態が、名称、日付、または数値である場合真
IsBoundR − 漢字を含む形態素が１キャラクタ接尾語である場合真
IsBoundL − 漢字を含む形態素が１キャラクタ接頭語である場合真
MorphIDEquals(X) − 漢字を含む形態素がＸである場合真
WordIDEquals(X) − 漢字を含む単語がＸである場合真
NextCharEquals(X) − 形態素において漢字がＸの直前にある場合真
ThirdCharEquals(X) − 形態素において漢字がＸよりも２キャラクタ前にある場合真
PrevCharEquals(X) − 形態素において漢字がＸの直後にある場合真

読み方予測システム２００は、分類属性を用いて、次の例に対して以下のような処理を行なう。例えば、訓練コープスにおける「□」のインスタンスのみが次の通りであると仮定する。

【表５】
１．GOku, aba, □
２．GOsu, oko, □
３．Noun, kappatsu, □□
４．NCna, hatsumei, □□
５．Noun, ichinenhokki, □□□□
６．Noun, kanpatsu, □□
７．Noun, hokku, □□
８．Noun, hotsui, □□

分析段階によって特定された「□」の基本的読み方は、次の通りである。

【表６】
１．Ａ：aba, 訓、-SpellingVariant1
２．Ｂ：oko, 訓、-SpellingVariant1
３．Ｃ：hatsu, 音、-SpellingVariant1
４．Ｃ：hatsu, 音、-SpellingVariant1
５．Ｄ：hotsu, 音
６．Ｃ：hatsu, 音、-SpellingVariant1
７．Ｄ：hotsu, 音
８．Ｅ：hotsu, 音、-
読み方分析部アルゴリズムは、以下のような判断ツリーを作成する。

【表７】
If_IsMorphID(GOku)
Reading A
Else
If_IsMorphID(GOsu)
Reading B
Else
If_IsFinal
Reading C
Else
If_IsTetragram
Reading D
Else
If_IsMorphID(Ncna)
Reading C
Else
If_NextCharEquals(□)
Reading D
Else
Reading E

場合によっては、分類属性は、単語を類似等級に完全に分離できない場合もある。この状況が発生した場合、アルゴリズムは、例の頻度に基づいて、確率的に最終分離を行なう。これは、訓練コープスにおける単語の頻度から計算する。前述の例のデータが次の項目も含み、
９．Noun, hatsui, □□(reading C)

項目８および９双方が同じ頻度を有する場合、上記ツリーの最終片は、以下と置き換えられる。

【表８】
If_NextCharEquals(□)
Reading D
Else
Probalilistic
.5 Reading E
.5 Reading C

「実行／ランタイム」段階における速度を最大化するために、作業の殆どを「学習」段階の間に行なう。「実行／ランタイム」段階の間、読み方予測アルゴリズムは、一例の計算機アプリケーション（図７に示す）におけるモジュールとして実装され、日本語形態学分析部も含む。所与の漢字に対する読み方を予測するために、形態学エンジンを用いて、漢字を含む単語を含む文章を分析する。分類属性の値を分析から計算し、判断ツリーを通過し、当該漢字に対する基本的読み方を見つけるために用いる。

次に、音韻規則を基本的読み方に適用し（基本的読み方によって禁止されていない場合）、読み方の表皮形態を生成する。また、表皮読み方に対する信頼度も計算する。判断ツリーの横断で、確率ノードに遭遇した場合、信頼度は、続く経路の確率を反映する。同じ入力単語に対して読み方予測モジュールを繰り返しコールする場合、信頼性の降順で全ての可能な異なる予測を返す。

図４は、読み方予測システム２００が実行し、例示の文章に対する読み方予測を分析し与える一般的なステップを示す。図示のように、以下の文章における単語「□□」（３０５）の単語の読み方を決定する。

□□□□□□. （３００）
最初に図３の形態学的分析部２７５によってこの文章を分析し、構造を究明する。

□□（代名詞）□（小辞）□□（名詞補語）□（コプラ）. （３００）次に、２つの漢字「□」および「□」に対する分類属性を計算する。次に、２つの漢字の各々の判断ツリーを、属性値にしたがって、通過する。

基本的読み方（３１５）：
hatsu, 音、-SpellingVariant1
mei, 音、-SpellingVariant1
が選択され、hatsumeiという単語の読み方の表現を作成する。次に、音韻規則を単語の読み方に適用し、そして一致する環境を有する唯一の規則がSpellingVariant1であり、この規則は双方の読み方に適用するのを禁止されているので、最終的な表皮読み方予測は、hatsumeiとなる。

図５は、「学習段階」において動作する場合に、読み方予測システムが実行する処理を更に詳細に示す。処理はブロック４００にて開始し、ブロック４０５に進み、読み方予測システム２００に日本語読み方データをロードする。例示の実施態様では、日本語読み方データは、１組の標準的漢字読み方から成り、音読みまたは訓読みとしての分類を含む。これから、ブロック４１０において、疑似音韻規則を読み方予測システム２００にロードする。次に、日本語データ４１５のコープスを読み方予測システム２００にロードする。日本語データのコープスは、日本語辞書からのエントリ、日本語有限状態文法からの形態素、ならびに数および日付のような１組の日本語の句から成る。各項目は、綴り、読み方、およびスピーチまたは形態学的類別の一部を含む。次に、ブロック４２０において、日本語データ・コープスの各エントリに、基準読み方を割り当てる。次に、処理はブロック４２５に進み、日本語データ・コープスの各エントリに対して読み方の仮説を行なう。次に、ブロック４３０において、ブロック４２５で得た仮説を、基本的読み方に変換する。基本的読み方を用いて、読み方予測システム２００は、判断ツリーを作成し、これを読み方予測システム２００の「実行／ランタイム段階」において用いる。判断ツリーを生成し、処理はブロック４４０で終了する。

図６は、「実行／ランタイム」モード／段階において動作する場合に、読み方予測システムが実行する処理を示す。図示のように、処理はブロック４４５にて開始し、ブロック４５０に進んで、形態学的分析部を用いて入力文章を分析する。ここから、処理はブロック４５５に進み、入力文章内にある日本語表意文字の分類属性を計算する。分類属性を用いて、判断ツリー（図５のブロック４３５において生成した）を「辿り」、日本語表意文字（漢字）の基本的読み方、および予測に対する信頼度を判定する。次に、ブロック４６５において、音韻規則を作成した基本的読み方に適用することによって、表皮形態読み取りを生成する。ブロック４７０において、信頼性の降順で表皮形態を戻す。次いで、ブロック４７５において処理は終了する。

図７は、本発明のフィーチャ（feature）を組み込んだ計算機アプリケーションの一例のスクリーン・ショットを示す。一例の計算機環境５００は、表示／インターフェース制御部５１０および表示／インターフェース・エリア５１５を有する表示／インターフェース・ページを備えている。図示のように、日本語の表意文字（即ち、漢字スクリプト）５２０は、表示／インターフェース・エリア５２０に表示することができる。動作において、一例の計算機アプリケーション５００は、本発明のフィーチャを用いて、入力した日本語表意文字（例えば、５２０）上で文型チェックを行い、提出された日本語文章における入力日本語表意文字の適性な使用を確認する。このような動作は、一例の計算機アプリケーションでは、"Style Checker"の使用によって実現することができる。"Style Checker"は、表示／インターフェース制御部５１０の１つとして組み込み、日本語の文章（即ち、日本語の表意文字から成る単語を有する日本語文章）が、表示／インターフェース・エリア５１５上に表示するために入力されたときに、読み方予測システム（図２および図３）を組み込んだ"Style Checker"が、入力された日本語文章を処理し、入力された日本語の表意文字の一貫性のある使用を確認することができるようにする。

要約すると、本発明は、日本語の表意文字に対して効果的でかつ信頼性の高い読み方予測を可能にするシステムおよび方法を提供する。しかしながら、本発明は、種々の変更や代替構造も容易に可能であることは理解されよう。本発明を、ここに記載した具体的な構造に限定する意図はない。逆に、本発明は、本発明の範囲および精神に該当するあらゆる変更、代替構造、および同等物も包含することを意図している。

尚、本発明は、種々のコンピュータ・システムにおいて実現可能であることには、当然気が付くであろう。ここに記載した種々の技法は、ハードウエアまたはソフトウエア、あるいは双方の組み合わせで実現することができる。好ましくは、各々、プロセッサ、当該プロセッサによって読み取り可能な記憶媒体（揮発性および不揮発性メモリおよび／または記憶エレメントを含む）、少なくとも１つの入力装置、および少なくとも１つの出力装置を含む、プログラム可能なコンピュータ上で実行するコンピュータ・プログラムにおいて、前述の技法を実現する。プログラム・コードを、入力装置を用いて入力したデータに適用し、前述の機能を実行し、出力情報を生成する。出力情報を１つ以上の出力装置に適用する。各プログラムは、高級プロシージャまたはオブジェクト指向プログラミング言語で実現し、コンピュータ・システムと通信することが好ましい。しかしながら、プログラムは、望ましければ、アセンブリまたは機械語で実現することも可能である。いずれの場合でも、言語は、コンパイルまたはインタープリタ言語とすればよい。このようなコンピュータ・プログラムは、各々、汎用または特殊目的用プログラム可能コンピュータよって読み取り可能な記憶媒体または素子（例えば、ＲＯＭまたは磁気ディスク）上に格納することが好ましく、コンピュータが記憶媒体または素子を読み取って前述の手順を実行するときに、コンピュータのコンフィギュレーションを設定し、動作させるようにする。また、システムは、コンピュータ・プログラムを構成する、コンピュータ読み取り可能記憶媒体として実現することも考えられ、この場合、このように構成した記憶媒体は、コンピュータに具体的かつ既定の方法で動作させる。更に、一例の計算機アプリケーションの記憶エレメントは、種々の組み合わせおよびコンフィギュレーションでデータを格納可能な、リレーショナルまたはシーケンシャル（フラット・ファイル）方計算機データベースとしてもよい。

以上、本発明の実施形態の一例について詳しく説明したが、多くの追加の変更も、本発明の新規な教示や利点から著しく逸脱することなく、実施形態の一例において可能であることを、当業者は容易に認めよう。したがって、これらおよびこのような全ての変更は、添付した特許請求の範囲にしたがってその広さおよび範囲を解釈する、本発明の範囲に含まれることを意図するものとする。

本発明の態様を組み込むことができる計算機環境の一例のブロック図である。本発明にしたがって、日本語スクリプトの読み方の効果的な予測に関する学習フィーチャを実行するために協働するコンポーネントのブロック図である。本発明したがって、日本語スクリプトの読み方の予測実行を実現するために協働するコンポーネントのブロック図である。本発明による日本語スクリプト処理の一例のブロック図である。本発明にしたがって日本語スクリプトの読み方を予測するときに用いる判断ツリーを形成するために実行する処理のフロー図である。本発明にしたがって日本語スクリプトの読み方を予測するときに実行する処理のフロー図である。本発明による、日本語読み取りフィーチャを有する、計算機アプリケーションの一例のスクリーン・ショットである。

１１０コンピュータ
１２０演算装置
１２１システム・バス
１３０システム・メモリ
１３１リード・オンリ・メモリ（ＲＯＭ）
１３２ランダム・アクセス・メモリ（ＲＡＭ）
１３３基本入出力システム（ＢＩＯＳ）
１３４オペレーティング・システム
１３５アプリケーション・プログラム
１３６その他のプログラム・モジュール
１３７プログラム・データ
１４１ハード・ディスク・ドライブ
１４４オペレーティング・システム
１４５アプリケーション・プログラム
１４６その他のプログラム・モジュール
１４７プログラム・データ
１５０インターフェース
１５１磁気ディスク・ドライブ
１５２リムーバブル不揮発性磁気ディスク
１５５光ディスク・ドライブ
１５６リムーバブル不揮発性光ディスク
１６０ユーザ入力インターフェース
１６１ポインティング・デバイス
１６２キーボード
１７１ローカル・エリア・ネットワーク（ＬＡＮ）
１７３ワイド・エリア・ネットワーク（ＷＡＮ）
１８０リモート・コンピュータ
１８１モニタ
１８５リモート・アプリケーション・プログラム
１９０出力周辺インターフェース
１９６プリンタ
１９７スピーカ
２００読み方予測システム
２０５基準漢字読み方
２１０訓練コープス
２１５疑似音韻ルール
２２０読み方分析部
２２５基本的読み方
２３０分析コープス
２３５コープス分類部
２４０判断ツリー
２６０読み方予測
２６５読み方予測部
２７０文章
２７５形態学的分析部
２８０形態学的分析
５００計算機環境
５１０表示／インターフェース制御部
５１５表示／インターフェース・エリア
５２０表示／インターフェース・エリア

Claims

データ・ストア内の日本語の単語および文章のうちの少なくとも１つの日本語表意文字の読み方を予測する、コンピュータにより実行される方法であって、
前記コンピュータが、前記データ・ストア内の日本語の表意文字のうちの少なくとも１つに対する少なくとも１つの発音表現を作成するステップであって、前記発音表現が、基準漢字読み方および疑似音韻規則を含むデータを用いて作成され、前記基準漢字読み方が発音および歴史的等級情報を含む、ステップと、
前記コンピュータが、読み方分析部を提供するステップであって、前記読み方分析部が、入力として、前記基準漢字読み方、前記疑似音韻規則および訓練コープスから成るグループのうちの少なくとも１つを受け入れ、前記前記読み方分析部が更に、日本語の単語および文章のうちの前記少なくとも１つからの形態学的情報を使って前記少なくとも１つの発音表現のうちの１つを選択するために使用する判断ツリーを生成する、ステップと、
前記コンピュータが、前記日本語の単語および文章のうちの前記少なくとも１つを処理するステップであって、前記発音表現と前記判断ツリーを用いて、前記日本語の単語および文章の前記少なくとも１つの前記日本語の表意文字の読み方を与える、ステップと、
含む方法。
請求項１記載の方法において、前記判断ツリーを生成することは、更に、前記コンピュータが学習アルゴリズムを提供するステップを含み、該学習アルゴリズムを前記判断ツリーの作成に使用する、方法。
請求項２記載の方法において、前記学習アルゴリズムを提供するステップは、ＩＤ３型機械学習アルゴリズムを装備することを含む、方法。
請求項１記載の方法において、前記日本語の単語および文章のうちの前記少なくとも１つを処理するステップは、更に、
前記コンピュータが、入力として、前記判断ツリー、前記少なくとも１つの発音表現、前記疑似音韻規則、および形態学的分析から成るグループのうちの少なくとも１つを受け入れるステップを含み、更に、前記入力を使って日本語の単語および文章のうちの前記少なくとも１つを解析し、日本語の表意文字およびそれぞれの読み方を特定すること、
を含み、
言語形態学規則を用いて、形態学分析部によって前記形態学的分析が生成される、
方法。
請求項４記載の方法であって、更に、
前記コンピュータが、日本語の単語および文章のうちの前記少なくとも１つを前記形態学分析部によって分析して、日本語の単語および文章のうちの前記少なくとも１つの構造を判定するステップであって、前記構造が日本語表意文字を含む、ステップと、
前記コンピュータが、前記日本語表意文字に対して分類属性を計算するステップと、
前記コンピュータが、前記計算した属性の値にしたがって、前記判断ツリーを辿るステップと、
前記コンピュータが、前記日本語表意文字に対して、前記判断ツリーを辿った結果に基づき適切な発音表現を選択するステップと、
前記コンピュータが、前記疑似音韻規則を前記少なくとも１つの発音表現に適用し、表皮読み方を生成するステップと、
を含む方法。
請求項１記載の方法を実行するように、コンピュータに命令するコンピュータ実行可能命令を含むコンピュータ読み取り可能記憶媒体。
日本語の表意文字の発音表現を予測するシステムであって、
プロセッサと、
日本語読み方分析部の機能を実行する、前記プロセッサにおいて実行可能なコンピュータ実行可能命令であって、前記日本語読み方分析部が、日本語単語データのコープスを入力として受け入れ、前記日本語単語データのコープスにおける日本語表意文字に対する発音表現を生成するように構成され、前記日本語単語データは、基準漢字読み方、訓練コープスおよび疑似音韻規則から成るグループのうちの少なくとも１つを含み、前記日本語読み方分析部が、日本語の単語および文章のうちの少なくとも１つからの形態学的情報を使って日本語の表意文字の読み方を予測する際に使用する判断ツリーを生成するように構成され、前記発音表現が、基準漢字読み方および疑似音韻規則を含むデータを用いて作成され、前記基準漢字読み方が発音および歴史的等級情報を含む、コンピュータ実行可能命令と、
日本語読み方予測部の機能を実行する、前記プロセッサにおいて実行可能なコンピュータ実行可能命令であって、前記日本語読み方予測部が、前記判断ツリー、前記日本語単語データおよび形態学的分析を入力として受け入れ、日本語の単語および文章のうちの前記少なくとも１つに対して処理を行って、日本語の単語および文章のうちの前記少なくとも１つ内にある日本語の表意文字に対する発音表現予測を提供するように構成された、コンピュータ実行可能命令と、
を含むシステム。
請求項７記載のシステムにおいて、前記形態学的分析は、形態学的分析部によって作成され、該形態学的分析部が、既定の日本語形態学規則にしたがって、日本語の単語および文章のうちの前記少なくとも１つを処理するように構成された、システム。
請求項８記載のシステムにおいて、前記形態学的分析部は、入力として、日本語の単語および文章のうちの前記少なくとも１つを受け入れ、日本語の単語および文章のうちの前記少なくとも１つ内にある日本語の表意文字に対して分類属性を計算するように構成され、該分類属性は、日本語の単語および文章の形態学的分析から得られる情報であり、前記分類属性が、日本語読み方予測部により使用されて、前記日本語の単語および文章のうちの前記少なくとも１つ内の日本語の表意文字に対して表皮読み方を作成する、システム。
請求項９記載のシステムにおいて、前記分類属性は、IsBoundMorpheme, IsStemMorpheme, IsMorphInitial, IsMorphFinal, PrecedesKanji, FollowsKanji, PrecedesHiragana, FollowsHiragana, PrecedesKatakana, FollwsKatakana, AllKanji, IsUnigram, IsBigram, IsTrigram, IsTetragram, IsFactoid, IsBoundR, IsBoundL, MorphIDEquals(X), WorldIDEquals(X), NextCharEquals(X), ThirdCharEquals(X), およびPrevCharEquals(X)から成るグループのうちの少なくとも１つを含む、システム。
請求項１０記載のシステムにおいて、前記分類属性は前記日本語形態学規則に基づく、システム。
請求項７記載のシステムにおいて、前記日本語読み方分析部は、学習アルゴリズムを備え、該学習アルゴリズムを前記判断ツリーの作成に使用する、システム。
請求項１２記載のシステムにおいて、前記学習アルゴリズムは、ＩＤ３型機械学習アルゴリズムである、システム。
請求項７記載のシステムにおいて、該システムが計算機アプリケーションの一部として組み込まれ、前記計算機アプリケーションが、文型チェックのために、日本語の表意文字の発音表現を与える、システム。
電子形態での日本語の表意文字の読み方予測を可能にする、コンピュータにより実行される方法であって、
前記コンピュータが読み方分析部を提供するステップであって、該読み方分析部が入力として日本語データを受け入れ、前記日本語データが基準漢字読み方、訓練コープスおよび疑似音韻規則から成るグループのうちの少なくとも１つを含む、ステップと、
前記コンピュータが、前記読み方分析部を学習モードで動作させるステップであって、前記読み方分析部が、前記日本語データに対して処理を行って、前記日本語データに対して発音表現を生成し、日本語の単語および文章のうちの少なくとも１つからの形態学的情報を使って日本語の表意文字の発音表現を予測するときに使用する判断ツリーを生成し、前記発音表現が、基準漢字読み方および疑似音韻規則を含むデータを用いて作成され、前記基準漢字読み方が発音および歴史的等級情報を含む、ステップと、
前記コンピュータが読み方予測部を提供するステップであって、該読み方予測部が、前記発音表現および前記判断ツリーを用いて、前記日本語の表意文字の発音表現予測を提供する、ステップと、
を含む方法。
請求項１５記載の方法において、前記読み方予測部を提供するステップは、更に、前記コンピュータが、前記日本語の単語および文章のうちの前記少なくとも１つに対して形態学的分析を行なうステップを含み、該形態学的分析は、形態学的分析部が、日本語形態学規則を用いて、日本語の単語および文章のうちの前記少なくとも１つに対して処理を行なうことによって生成する、方法。
請求項１５記載の方法を実行するように、コンピュータに命令するコンピュータ実行可能命令を含むコンピュータ読み取り可能記憶媒体。