JP5231698B2 - 日本語の表意文字の読み方を予測する方法 - Google Patents

日本語の表意文字の読み方を予測する方法 Download PDF

Info

Publication number
JP5231698B2
JP5231698B2 JP2001219792A JP2001219792A JP5231698B2 JP 5231698 B2 JP5231698 B2 JP 5231698B2 JP 2001219792 A JP2001219792 A JP 2001219792A JP 2001219792 A JP2001219792 A JP 2001219792A JP 5231698 B2 JP5231698 B2 JP 5231698B2
Authority
JP
Japan
Prior art keywords
japanese
reading
computer
sentences
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001219792A
Other languages
English (en)
Other versions
JP2002149643A (ja
Inventor
リチャード・リー・クリッチロウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002149643A publication Critical patent/JP2002149643A/ja
Application granted granted Critical
Publication of JP5231698B2 publication Critical patent/JP5231698B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

優先権
本願は、"METHOD FOR PREDICTING THE READING OF JAPANESE IDEOGRAPHS"(日本語の表意文字の読み方を予測する方法)と題し、2000年6月21に出願された米国予備特許出願第60/219,981号に関連し、35U.S.C.§119(e)に基づく優先権を主張する。その内容は、この言及によりその全体が本願にも含まれるものとする。
本発明は、外国語の読み方の予測という分野に関し、更に特定すれば、日本語の表意文字の読み方を信頼性高くしかも効果的に予測することに関する。
【従来の技術】
日本語は、4つのスクリプト、平仮名、カタカナ、ローマ字、および表意文字の組み合わせを用いて書かれる。平仮名およびカタカナは音節文字であり、各キャラクタが単語の音節を表わす表音スクリプトである。一般に、平仮名およびカタカナは、集合的に仮名と呼ばれている。カタカナは、通常、過去400年に間に外国語(中国語を除く)から借用した単語を書き表すために用意されている。また、これらは、強調またはグラフィック効果を与えるために用いることもできる。ローマ字は、アルファベット、即ち、北アメリカ、ヨーロッパおよびその他の各地でなじみのあるラテン・アルファベットである。過去において、ローマ字は、外来語を転記するため、強調のため、および外国の占領軍隊のために日本語を転記するために用いられてきた。漢字は表意文字、即ち、特定の音ではなく、特定の単語または単語の一部を表わすキャラクタである。漢字は、しかしながら、自由な浮遊するアイデアだけに関係する訳ではない**。漢字および単語間の連携は、殆どの部分では固定されている。即ち、殆どの単語では、書き手は異なる漢字の間で選択することはできない。例えば、全ての日本語の話者が、キャラクタ「□」および「□」が本質的に「犬」を意味することに同意しても、キャラクタ「□」を用いて単語「□□」(ちゅうけん)「忠実な犬」と書いても、理解できないであろう。同様に、単語およびその発音の間の連携も固定である。即ち、方言的変種は除いて、単語の発音のしかたは、通常1つだけである。したがって、漢字および発音の間には確固とした連携があるが、これは直接的ではない。常に、書かれている特定の単語によって仲介される。
書き手は、しかしながら、漢字を用いるか否か選択することができる。ちゅうけんを書く際、平仮名(□□□□)、ひらがな(□□□□□)、ローマ字(chuuken)、または混合(□□□、□□□□)を用いても間違いではない。漢字および平仮名の組み合わせで単語(特に動詞)を書くことは、非常に一般的である。しかしながら、同じ単語内におけるスクリプトの別の混成は、いずれも突飛であり、間違いと見なされる。漢字を含む単語は、表音スクリプトで書くこともできるので、当該単語における漢字の表音値(phonetic value)について話すことができる。これは、特定の単語における漢字の読み方、単語を音読するときのその発音、または単語を音素的に書くときの音素スクリプトにおける綴りを意味する。例えば、「□□」における「□」の読み方はけんである。しかしながら、日本語特有の歴史のため、殆どの漢字は少なくとも2つの完全に別個の読み方がある。例えば、単語「□□□」(いぬおよぎ)における「□」の読み方は、いぬであり、「□」「□□」(にんげん)においてにんと読み、「□□□」(にほんじん)においてじんと読み、「□□」(ひとびと)においてひとと読む。更に、多くの漢字は、互いに系統的に関連のある、異なった読み方を有する。例えば、「□」「□□」(かいはつ)でははつと読まれ、「□□」(はっぴょう)でははっと読まれ、「□□」(かっぱつ)ではぱつと読まれる。
日本語の書き言葉(例えば、日本語のスクリプト)の基本的読み方を判定する際の複雑さの最後の源泉は、1つの単語のどれくらいが漢字で表わされるかということについて、いくらかのばらつきがあることである。例えば、かきつけという単語は、「□□□□」と書かれる場合もあるが、「□□□」と書かれる場合もある。漢字「□」の読み方は、最初の変形ではかであり、第2ではかきである。これらの変形は双方とも容認可能と見なされるが、2つの変形を単一の文書内で混合すると、誤りと見なされる。
前述の変形の源泉全てに対し、所与の単語において漢字の正しい読み方を予測することは、単純な作業ではない。教育を受けた日本語のネーティブ・スピーカは、通常漢字の正しい読み方を覚えているか、想像することができるが、ソフトウエアがこのタスクを実行しても、成功する可能性は低い。
発明が解決しようとする課題
現在、日本語スクリプトの読み取りを自動化する現状は、非効率であり、信頼性にかける可能性がある。例えば、この問題に対する暴力的解決策は、単語の辞書を作成し、単語の音素的綴りに対するエントリを、それの他の辞書の綴り全てに対するエントリに連携させることである。しかしながら、この種の解決策は、いくつかの問題に直面する。日本語は伝統的に単語間に空白を挿入しないで書くので、辞書で単語を調べることは並大抵のことではない。最初に、単語間の境界を識別する必要があるが、相当のレベルの言語的知識、およびかなりのリソースの出費が必要となる。日本語は英語よりもはるかに屈折した言語であるので、接辞添加や複合によって、単語の形態が広範囲に変更するのは、通常よくあることである。単語に可能な形態を全て収容すると、辞書は驚くべき大きさとなり、扱いにくくなるであろう。したがって、日本語のスクリプトの読み方を適切に予測できるほどに、辞書を大きくすることは不可能である。更に、新しい単語が常に作られたり、あるいは借用されているので、このような辞書は適応可能でありしかも更新可能でなければならない。
以上のことから、日本語のスクリプトの読み方を効率的かつ信頼性高く予測するシステムおよび方法が必要とされていることが認められる。これらのシステムおよび方法を有することによって、既存の実施における欠点が克服されよう。
課題を解決するための手段
日本語のスクリプトの読み方を効率的に予測するシステムおよび方法を提供する。例示の実施態様では、本発明は、2つのモード、即ち、「学習」および「実行/ランタイム」モードで動作する読み方予測システムから成る。「学習」モードでは、読み方分析部が、入力として、基準日本語スクリプト(即ち、漢字)読み方、訓練コープス(例えば、日本語の単語の語彙およびその読み方)、および疑似音韻規則を受け入れ、訓練コープスにおける各エントリ毎に、分析コープスおよび基本の読み方を生成する。次に、コープス分類部を呼び出して、判断ツリーを生成する。記載する実施態様では、コープス分類部は、学習アルゴリズムを用いて、判断ツリーを作成する。
「実行/ランタイム」モードで動作する場合、読み方予測部が、作成した判断ツリー、生成した基本の読み方、および疑似音韻規則を入力として受け入れる。加えて、読み方予測部は、日本語表意文字を有する入力日本語文章の形態学的分析を入力として受け入れる。形態学的分析は、形態学的分析部によって行われ、これは、とりわけ、入力日本語文章を解析するように動作する。これらの入力を用いて、読み方予測部は、入力日本語文章に対して読み方予測を行なう。
以上に記載した実施態様では、読み方予測システムは、一例の計算機アプリケーション内に組み込まれ、入力日本語テキストに対する文型チェックを行なう。
日本語表意文字の読み方予測方法およびシステムについて、添付図面を参照しながら更に説明する。
概要
日本語は、日本の約1億2千万人の住人、ならびにハワイや北および南アメリカ本土に住む日本人によって話されている。また、今世紀当初における日本占領下に住んでいた中国人および韓国人も、第2言語として話している。
一般に、日本語には3つの単語類別がある。自生の日本語単語が最も大きな類を構成し、続いて、歴史初期に中国から元々借用した単語が続き、そして最も小さいが急速に成長しているのが、近年になって英語のような西洋語から借用された単語の類である。この第3類は、他の亜細亜言語から来た少数の単語も含む。これら3種類の単語の頻度は、調べる筆記文書の種類によって異なる。例えば、雑誌では、自生の日本語の単語が全単語の半分以上を占めるが、中国からの借用語は平均約40%であり、残りは、西洋言語から最近になって借用された単語から持ち込まれたものである。新聞では、中国語起源の単語が、日本の自生単語よりも多い。
日本語は、開放音節音響パターンを有するので、殆どの音節は母音で終わる。即ち、音節は母音のみで構成される場合もある。5つの母音/a/, /i/, /u/, /e/および/o/がある。とが"door"を意味し、とおが"ten"を意味するように、母音長が単語を区別する場合が多い。基本子音は、/k/,/s/,/t/, /n/, /h/,/m/,/y/,/r/,/w/、および鼻音節/N/である。これらの子音の多くは、母音/a/,/u/, および/O/の前では口蓋音化され、例えば、/kya/, /kyu/,/kyo/となる。2つの子音/s/,/t/が母音/i/と一緒になると、これらの子音は自動的に口蓋音化され、/shi/および/chi/となる。子音/t/は、母音/u/の前では/ts/と発音する。ストレス・アクセントを有する英語と異なり、日本語はピッチ・アクセントを有する。これが意味するのは、アクセントのある音節の後では、ピッチが低下するということである。"chopsticks"を示す単語、はしは、第1音節にアクセントを有するので、そのピッチ輪郭は、ha shiとなる。第1音節にアクセントがないと、はしは"bridge"または"edge"を意味する。"bridge"は、第2音節にアクセントを有し、これは、「はしが」のように、主語標識「が」のような文法的小辞(particle)が単語に付いたときにみることができる。"edge"はアクセントを有さないので、「が」のような文法的標識があっても、ピッチが全く落ちずに発音される。
あらゆる言語は、文章における単語に対して、基本的な単語の順序を有する。英語では、"Naomi uses a computer"という文章は、主語(Naomi)、動詞(uses)、および目的語(a computer)という順序を有する。対応する日本語の文章では、主語は英語と同様最初に来るものの、次に目的語が来て、最後に動詞が続く。なおみ−が(Naomi) こんぴゅーた−を(computer) つかう(use)となる。日本語における大雑把な規則(a rule of thumb)は、文章では、動詞が最後にくる。2つの単語の順序、英語では主語−動詞−目的語、日本語では主語−目的語−動詞となるが、双方とも、世界の言語の中ではめずらしくはない。再度日本語の文章を見てみると、主語および目的語は、小辞を伴っており、主語"Naomi"には「が」が(なおみ−が)、そして目的語"computer"には「お」(こんぴゅーた−お)が付いている。これらは、格標識(case marker)と呼ばれており、世界の言語の大多数がこれらを有する。英語においても、格標識システムの名残を見ることができる。英語の名詞は、生ずる場所によっては、形状が変化する。he/she/theyは主語の位置であるが、目的語の位置ではhim/her/themとなる(例えば、She saw him)。同様に、500年ないし1000年前の古い英語は、最近の日本語と同様に、広範な格標識システムを有していた。これらの格標識は、日本語の単語が、異なる順序で現れても、同じ意味を保持することを可能にする。例示の文章では、目的語を、主語が通常では位置するところに置くことができ、主語の通常の目的語位置に置くことができ、しかも意味は変化しない。こんぴゅーた−お なおみ−が つかうとなる。英語では、同じ転地を行なうと、文章の意味が全く変わってしまう(例えば、The computer uses Naomi)。日本語におけるその他の変形は、英語から日本語へまたはその逆の転記作業を非常に困難にする。
日本語は、主に、2つの正書法システム、中国語キャラクタおよび表音文字を用いて筆記される。中国語キャラクタ、即ち、漢字は、約1,500年前から中国から持ち込まれていた。その導入前では、日本語は完全に話し言葉であった。中国語キャラクタは、膨大な数のキャラクタ、ならびに各キャラクタの筆記および読み方双方の複雑さのために、はるかに難しいシステムである。各キャラクタには、意味が伴い、例えば、キャラクタ「□」は、基本的な意味"dog"を有する。何万ものキャラクタが実証されているが、1946年に、日本政府が、日常の使用のために、1,850キャラクタを特定した。1981年に、このリストは、1,945キャラクタに数が増加され、常用漢字表(日常用いる漢字)という名称が与えられた。常用リストにあるキャラクタは、小学校および中学校で習得しなければならず、新聞は通常このリストの漢字の使用に抑えている。殆どのキャラクタには、少なくとも2通りの読み方があり、自生の日本語の読み方、および同じキャラクタの元の中国語発音を真似た読み方がある。同じキャラクタが日本に異なる時期に、または中国の異なる方言地域から導入された場合、キャラクタにはいくつかの中国語の読み方が付けられ、異なる時代、および方言的相違を表わす。第2の筆記システムは表音文字、即ち、仮名であり、これは約1,000年前にある中国語キャラクタから、日本人によって作り出された。表音文字における各キャラクタは、言語における1音節を表わし、中国語キャラクタとは異なり、音を表わすが、意味を表わさない。表音文字には2種類、平仮名およびカタカナがあり、各々同じ組の音を含む。平仮名は、多くの場合中国語キャラクタと組み合わせて用いられ、例えば、キャラクタがおおまかに動詞の語根を表わし、平仮名で語尾変化を書き表わす。カタカナは、英語、フランス語、およびドイツ語のような西洋言語からの借用言語を書くために用いられる。同じ文章において漢字、平仮名、およびカタカナが用いられているのを発見するのは、めずらしくない。中国語キャラクタおよび表音文字と共に、ラテン・アルファベットも、組織の名称のようなものに用いられる場合がある。この複雑な状況において、日本語スクリプトを信頼性高く読むのは、非常に骨が折れる可能性があることを想像するのは難しくない。
本発明は、各漢字の基本的読み方の最少集合を特定し、基本的読み方に対して作用する1組の疑似音韻規則を定義して表皮読み方(surface reading)を生成し、判断ツリー・データ構造を構築し、これを用いて、どの基本的読み方を単語内の各漢字に選ぶべきか判断することによって読み方の予測を行なうという課題に取り組む。基本的読み方は、文言通りの読み方と、疑似音韻規則の動作を制御する1組のデータとによって構成される。判断ツリーによって、アルゴリズムが、発見した単語の形態学的分析の間に得られた情報のみに基づいて、最も可能性が高い読み方を漢字に選択することを可能にする。
1組の基本的読み方および判断ツリーは、語彙、形態学、および音韻情報を含む1組の言語リソースから、自動的に学習する。最適な1組の読み方およびツリーの構築によって、効率的に読み方の予測を行なうことが可能となる。
以下で図1ないし図7に関して説明するが、本発明は、日本語のスクリプトの読み方を効果的かつ信頼性高く予測するシステムおよび方法を対象とする。その例示の実施態様によれば、本発明は、コンテンツ・プロバイダに、好適なデータ・タイプのデータを提供するシステムおよび方法を備える。
一実施形態では、以下で更に詳しく説明するが、本発明の方法および装置は、日本語スクリプトの読み取りおよび分析を行なう1つ以上のコンポーネントを実行する計算機環境の一部として実装することができる。計算機環境は、種々のハードウエアおよびソフトウエアの組み合わせから成り、日本語スクリプトの読み方を理解することができる。
計算機環境の一例
図1は、本発明を実現可能な、適当な計算機システム環境100の一例を示す。計算機システム環境100は、単に適当な計算機環境の一例に過ぎず、本発明の使用または機能性の範囲に対して限定を示唆する意図は全くない。また、計算機環境100は、一例の動作環境100に示すコンポーネントのいずれの1つまたはその組み合わせに関するいずれの依存性も要件も有するものとして解釈しないこととする。
本発明は、多数の他の汎用または特殊目的計算機システム環境または構成とでも動作する。本発明と共に用いるのに適した公知の計算機システム、環境、および/または構成の例には、限定する訳ではないが、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサを用いたシステム、セット・トップ・ボックス、プログラム可能な消費者用電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、前述のシステムまたはデバイスのいずれかを含む分散計算機環境等を含む。
本発明の説明は、プログラム・モジュールのような、コンピュータが実行する一般的なコンピュータ実行可能命令に関連して行なう。一般に、プログラム・モジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含み、特定のタスクを実行したり、あるいは特定の抽象的データ・タイプを実装する。更に、本発明は、分散型計算機環境においても実施可能であり、この場合、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクを実行する。分散型計算機環境では、プログラム・モジュールは、メモリ記憶装置を含むローカルおよびリモート・コンピュータ記憶媒体双方に位置することができる。
図1を参照すると、本発明を実現するシステムの一例は、従来のコンピュータ110の形態の汎用計算機を含む。このコンピュータ110のコンポーネントは、限定する訳ではないが、演算装置120、システム・メモリ130、およびシステム・メモリから演算装置120までを含む種々のシステム・コンポーネントを結合するシステム・バス121を含む。システム・バス121は、数種類のバス構造のいずれでもよく、メモリ・バスまたはメモリ・コントローラ、周辺バス、および種々のバス構造のいずれかを用いるローカル・バスが含まれる。一例として、そして限定ではなく、このようなアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、改良ISA(EISA)バス、ビデオ電子規格協会(VESA)ローカル・バス、および(Mezzanineバスとしても知られている)周辺素子相互接続(PCI)バスを含む。
コンピュータ110は、典型的に、種々のコンピュータ読み取り可能媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ110がアクセス可能であれば、入手可能な媒体のいずれでも可能であり、揮発性および不揮発性双方の媒体、リムーバブルおよび非リムーバブル媒体を含む。一例として、そして限定ではなく、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、揮発性および不揮発性、リムーバブルおよび非リムーバブル双方の媒体を含み、コンピュータ読み取り可能命令、データ構造、プログラム・モジュールまたはその他のデータのような情報の格納のためのあらゆる方法または技術において使用されている。コンピュータ記憶媒体は、限定する訳ではないが、RAM、ROM、EEPROM、フラッシュ・メモリまたはその他のメモリ技術、CD−ROM、ディジタル・バーサタイル・ディスク(DVD)、またはその他の光ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージ、またはその他の磁気記憶装置、あるいは所望の情報を格納するために使用可能であり、コンピュータ100によってアクセス可能なその他のいずれの媒体でも含まれる。通信媒体は、典型的に、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、またはその他データを、キャリアWAVまたはその他のトランスポート機構のような変調データ信号において具体化し、あらゆる情報配信媒体を含む。「変調データ信号」という用語は、当該信号内に情報をエンコードするように、その1つ以上の特性を設定または変更した信号を意味する。一例として、そして限定ではなく、通信媒体は、有線ネットワークまたは直接有線接続のような有線媒体、ならびに音響、RF、赤外線およびその他のワイヤレス媒体のようなワイヤレス媒体を含む。前述のいずれの組み合わせでも、コンピュータ読み取り可能媒体の範囲内に含まれて当然である。
システム・メモリ130は、リード・オンリ・メモリ(ROM)131およびランダム・アクセス・メモリ(RAM)132のような揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。基本入出力システム133(BIOS)は、起動中のように、コンピュータ20内のエレメント間におけるデータ転送を補助する基本的なルーチンを含み、典型的にROM131内に格納されている。RAM132は、典型的に、演算装置120が直ちにアクセス可能であるデータおよび/またはプログラム・モジュール、または現在これによって処理されているデータおよび/またはプログラム・モジュールを収容する。一例として、そして限定ではなく、図1は、オペレーティング・システム134、アプリケーション・プログラム135、その他のプログラム・モジュール136、およびプログラム・データ137を示す。
また、コンピュータ110は、その他のリムーバブル/非リムーバブル揮発性/不揮発性コンピュータ記憶媒体も含むことができる。一例としてのみ、図1は、非リムーバブル不揮発性磁気媒体からの読み取りおよびこれへの書き込みを行なうハード・ディスク・ドライブ141、リムーバブル不揮発性磁気ディスク152からの読み取りおよびこれへの書き込みを行なう磁気ディスク・ドライブ151、ならびにCD ROMまたはその他の光媒体のようなリムーバブル不揮発性光ディスク156からの読み取りおよびこれへの書き込みを行なう光ディスク・ドライブ155を示す。動作環境の一例において使用可能なその他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体には、限定する訳ではないが、磁気テープ・カセット、フラッシュ・メモリ・カード、ディジタル・バーサタイル・ディスク、ディジタル・ビデオ・テープ、ソリッド・ステートRAM、ソリッド・ステートROM等が含まれる。ハード・ディスク・ドライブ141は、典型的に、インターフェース140のような非リムーバブル・メモリ・インターフェースを介してシステム・バス121に接続され、磁気ディスク・ドライバ151および光ディスク・ドライブ155は、典型的に、インターフェース150のようなリムーバブル・メモリ・インターフェースによって、システム・バス121に接続する。
先に論じ図1に示すドライブおよびそれらと連動するコンピュータ記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、およびコンピュータ110のその他のデータを格納する。図1では、例えば、ハード・ディスク・ドライブ141は、オペレーティング・システム144、アプリケーション・プログラム145、その他のプログラム・モジュール146、およびプログラム・データ147を格納するように示されている。尚、これらのコンポーネントは、オペレーティング・システム134、アプリケーション・プログラム135、その他のプログラム・モジュール136、およびプログラム・データ137と同じでも異なっていても可能であることを注記しておく。オペレーティング・システム144、アプリケーション・プログラム145、その他のプログラム・モジュール146、およびプログラム・データ147は、ここで、少なくともこれらが異なるコピーであることを示すために、異なる番号が与えられている。ユーザは、キーボード162、および一般にマウス、トラックボールまたはタッチ・パッドと呼ばれているポインティング・デバイス161によって、コマンドおよび情報をコンピュータ110に入力することができる。他の入力デバイス(図示せず)は、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナ等を含むことができる。これらおよびその他の入力デバイスは、多くの場合、ユーザ入力インターフエース160を介して、演算装置120に接続されている。ユーザ入力インターフエース160は、システム・バスに結合されているが、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス(USB)のようなその他のインターフェースおよびバス構造によって接続することも可能である。モニタ191またはその他の形式の表示装置も、ビデオ・インターフェース190のようなインターフェースを介して、システム・バス121に接続されている。モニタに加えて、コンピュータは、スピーカ197およびプリンタ196のようなその他の周辺出力デバイスを含むこともでき、これらは出力周辺インターフェース190を介して接続することができる。
コンピュータ110は、リモート・コンピュータ180のような1つ以上のリモート・コンピュータへの論理接続を用いて、ネットワーク環境において動作することも可能である。リモート・コンピュータ180は、パーソナル・コンピュータ、ハンド・ヘルド・デバイス、サーバ、ルータ、ネットワークPC、ピア・デバイス、またはその他の共通ネットワーク・ノードとすることができ、典型的に、コンピュータ110に関して先に説明したエレメントの多くまたは全てを含むが、図1にはメモリ記憶装置181のみを示す。図1に示す論理接続は、ローカル・エリア・ネットワーク(LAN)171およびワイド・エリア・ネットワーク(WAN)173を含むが、他のネットワークも含むことができる。このようなネットワーク環境は、事務所、企業規模のコンピュータ・ネットワーク、イントラネットおよびインターネットにおいては、一般的である。
LANネットワーク環境で用いる場合、コンピュータ110は、ネットワーク・インターフェースまたはアダプタ170を介してLAN171に接続する。WANネットワーク環境で用いる場合、コンピュータ110は、典型的に、モデム172、またはインターネットのようなWAN173を通じて通信を確立するその他の手段を含む。モデム172は、内蔵でも外付けでもよく、ユーザ入力インターフェース160またはその他の適切な機構を介してシステム・バス121に接続することができる。ネットワーク環境では、コンピュータ110に関して図示したプログラム・モジュール、またはその一部は、リモート・メモリ記憶装置に格納することもできる。一例として、そして限定ではなく、図1は、リモート・アプリケーション・プログラム185がメモリ素子181上に常駐するものとして示している。尚、図示のネットワーク接続は一例であり、コンピュータ間で通信リンクを確立する他の手段も使用可能であることは認められよう。
表意文字の読み方予測
図2および図3は、日本語表意文字の読み方を予測するときに用いる、基本的読み方および判断ツリーを生成するための、読み方予測システム200の種々のデータおよび処理コンポーネントの協働を示す。図示の実施態様では、読み方予測システム200は、基準漢字読み方205、訓練コープス210、疑似音韻規則215、読み方分析部220、基本的読み方225、分析コープス230、コープス分類部235、判断ツリー240、入力文章270、読み方予測部265、形態学的分析部275、形態学的分析280、および読み方予測260から成る。読み方予測システム200は、2段階、即ち、「訓練段階」および「実行/ランタイム段階」で動作する。図2は、読み方予測システム200の「訓練段階」のための例示コンポーネントの協働を示す。「訓練段階」は、読み方予測システム200に、判断ツリー240および基本的読み方225を供給する。これらは、「実行/ランタイム」段階において用いられ(図3に示すその他の例示のコンポーネントと共に)、読み方の予測を行なう。
図2に示すように、読み方分析部220は、入力として、基準漢字読み方205、訓練コープス210、および疑似音韻ルール215を受け入れる。これらのデータを用いて、読み取り分析部220は、分析コープス230および基本的読み方225を作成する。分析コープス230は、コープス分類部235への入力として作用し、コープス分類部235は判断ツリー240を生成する。更に、図示のように、一旦基本的読み方225および分析コープス230を生成したなら、処理は読み方分析部220からコープス分類部235に渡される。判断ツリー240および基本的読み方225を用いて、読み方予測システム200は、「実行/ランタイム段階」中に読み方予測260を行なうことができる。図3に示すように、読み方予測部265は、入力として、文章270、判断ツリー240、基本的読み方225、疑似音韻規則215、形態学的分析280を受け入れ、読み取り予測260を生成する。動作において、入力文章には、読み方予測部265および形態学的分析部275が処理を加える。形態学的分析部275は、入力文書270に処理を行い、形態学的分析280を生成する。形態学的分析部275については、本発明の譲受人である、Microsoft Corp.に譲渡された米国特許第5,963,893号および第5,946,648号により良く記載されている。双方共、この言及により、その全体が本願にも含まれるものとする。一方、形態学的分析280は、読み方予測部265への入力として作用し、読み方予測部265はこれを用いて入力文書270を処理する。
即ち、読み方予測システム200は、各漢字の基準読み方の完全なリストから開始する。基準読み方は、読み方の発音および歴史的等級に関する情報のみを含む。読み方は、その読み方が元々中国語から借用された(音読み)のか、または明白に日本人によって創作された(訓読み)のかに基づいて、2つの等級に分割される。この情報は、元々、Microsoftが購入した機械読み取り可能日本語辞典から取ったのであり、続いて、リストを必要に応じて変更し、予測手順の性能を向上させた。基準読み方は、テキスト・ファイルで格納し、訓練プログラムが読み取る。
以下に続く例示の一例では、漢字および単語/形態素の読み方を、読み手の便宜上、ローマ字で表わすことにする。しかしながら、実際のデータでは、読み方は常に平仮名で書かれている。したがって、例は、「読み方の最初の仮名」等を示す。例えば、「□」に対する基準読み方キャラクタ・データは、次の通りである。
【表1】
hatsu、音読み
hotsu、音読み
abaki、訓読み
okoshi、訓読み
tachi、訓読み、
hasshi、訓読み、
hana、訓読み、
hira、訓読み。
また、疑似音韻規則の完全なリストも最初にある。この規則は、読み方が特定の環境で生じると、ある変更が起こることを指定する。これらの規則は、弱母音の削除やリーマンの法則のような純粋に音韻的現象、および読み方の仮名の綴り部分の実施(送り仮名)のような純粋に正書法的現象の双方をカプセル化する。各規則は、照合すべき環境(規則の「左側」)および取るべき処置(「右側」)として実施される。
規則の一部は、次のように言い換えることができる。
仮名が訓読みの一部であり、それが形態素における最初の仮名であり、そしてそれが鼻音節仮名の後にあり、そして無声子音で始まり、そして形態素の残り部分が有声閉鎖音を含まない場合、無声子音をその有声子音と置き換える。
読み方が基礎の?音素で終わる場合、その音素を削除し、それに続く読み方の最初の子音を二重にする。
読み方が2つよりも多い仮名を有する場合、最後の2つの仮名を除去する。
規則は、常に固定順序で適用し、それら自体の出力に適用することはできない。更に、一部の規則には、適用されると他の規則の適用を禁止する場合がある。
訓練データのコープスが組み立てられ、これは、日本語形態学的分析部の主要語彙における全ての単語、分析部の有限状態文法における形態素の全て、公知の非標準的綴り変形のリスト、ならびに典型的な数および日付のリストを含む。各エントリは、項目の綴り、その形態学的類別または話法の一部、および項目の読み方を含む。コープスを処理していくつかのテキスト・ファイルとし、これを図2の読み方分析部220で処理する。
コープスに含まれるデータ例の一部は次の通りである。
【表2】
GOku, aba,
GOsu, oko,
GOsu, ha?,
GOtu, ta,
Geo, hassamu, □□
Lnme, hossa, □□
Noun, kappatsu, □□
Noun, hatsumei, □□
Noun, ichinenhokki, □□□□
Noun, kanpatsu, □□
Noun, kanpatsu, □□
Noun, hokku, □□
Noun, hotsui, □□
DER classshot hatu, ippatsu, □□
DER classshot hatu, nihatsu, □□
DER classshot-hatu,sanpatsu, □□

「訓練段階」の間、訓練コープスの各エントリを分析し、各単語における各漢字について、どの基準読み方を用いるか、どの音韻規則を適用するか、どの規則を適用すべきであったがしなかったか判定を行なう。このステップを実行するには、可能な組み合わせを余すことなく探索し、エントリの読み方に一致する読み方を生成するものを見つけ出す。処理の一例は次の通りである。
【表3】
訓練コープスにおける各エントリについて、
綴りにおける各漢字について、
漢字の基準読み方の各々について、
漢字の基準読み方を代えて、読み方仮説を形成する
各読み方仮説について、
環境が一致した各音韻規則について、
現読み方仮説を複製する
一方のコピーにおいて、規則の作用部分を実行し、規則が適用され
たことを印する
他方のコピーにおいて、ルールが禁止されたことを印する
読み方仮説がエントリの読み方と一致した場合、仮説を保存する
読み方分析部220が1つよりも多い仮説を生成するのに成功することも、全く生成できないこともあり得る。多数の仮説ができた場合、読み方予測システムは、単純な方の仮説を優先する探索法を用いて、最良の仮説を選択する。「学習段階」の出力を検査することによって、1組の基準読み方および音韻規則を変更し、曖昧さおよび不良の数を減少させることができる。
典型的な動作の一例として、「訓練段階」の間、以下のエントリを次のように分析することができる。
Noun, kanpatsu, □□

キャラクタ「□」は、1つの基準読み方のみを有する。

kan, 音

先に列挙した「□」の8つの基準読み方と組み合わせると、音韻規則を適用する前に、8つの読み方仮説、kanhhatsu, kanhotsu, kanabaki, kanakoshi, kantachi, kanhasshi, kanhana,およびkanhiraが得られる。読み方分析部200(読み方分析部によって実行するアルゴリズム)は、kanhatsuが、鼻音節の後の子音を有声化するNasalVoicingと呼ぶ規則の環境に一致することを認める。この規則を適用すると、kanbatsuが得られ、以降の規則適用の組み合わせは、正しい読み方に至らない。しかしながら、NasalVoicingが禁止されると、仮説は、別の規則NasalStoppingの環境と一致する。この規則を適用すると、kanpatsuが得られる。後の規則、Spelling Variantは、kanpatsuをkanpaに変化させる。この規則が禁止されると、最後の仮説、kanpatsuが残る。これが正しい表皮読み方となる。
読み方仮説は、単純な方法で基本的読み方に変換される。各音素規則は、禁止されなければ、その環境が一致したときに適用されると仮定する。したがって、基本的読み方は、どの規則が禁止されたかのみを記録すればよい。先の例では、基本的読み方は、次のようになる。
−kan、音、−NasalVoicing
−hatu、音、−Spelling Vaariant1

このように訓練コープス全体を分析した後、読み方予測システム200は、各漢字に対して、基本的読み方225の完全な集合、および各読み方が現れた単語の完全な集合を特定している。読み方予測システム200は、この情報を用いて、各漢字について判断ツリー240を作成する。判断ツリー240は、所与の文脈における漢字の基本的読み方を予測する。判断ツリー240は、文章の形態学的分析から得られる情報のみを用いる。言い方を変えると、判断ツリー240は、訓練コープスにどの単語が現れるかには無関係に、単語の基本的読み方に関する予測を行なうことができる。
例示の実施態様では、判断ツリー240は、公知のID3機械学習アルゴリズムの変形を用いて作成する。即ち、各単語をイベントとして扱う。その結果(正しい基本的読み方)はわかっている。アルゴリズムは、全て同じ結果を有する部分集合にイベントを分類する。これを行なうには、イベントの集合を部分集合に分割する。部分集合の各メンバは、同じ値の分類属性を有する。属性は、結果以外のイベントに関して分かっている何かである。分割前後における各集合のエントロピーを計算することによって、アルゴリズムには、エントロピー利得と呼ばれるメトリックが与えられる。アルゴリズムは、各分割においてエントロピー利得が最大となる一連の属性検査を探索し、更に一連の検査を行い、最終的にイベントを同じ結果を共有する類似部分集合に分類する。
「学習段階」の間、読み方予測システム200は、分類属性を用いる。これは、形態学的分析から得られる情報である。集合は、次のような属性を含む。
【表4】
IsBoundMorpheme - 漢字を含む形態素が接頭辞である場合真
IsStemMorpheme − 漢字を含む形態素が語幹である場合真
IsMorphInitial − 漢字が形態素における最初のキャラクタである場合真
IsMorphFinal − 漢字が形態素における最後のキャラクタである場合真
PrecedesKanji − 形態素において漢字が他の単語の直前にある場合真
FollowsKanji − 形態素において漢字が他の単語の直後にある場合真
PrecedsHiragana − 形態素において、漢字が平仮名の直前にある場合真
FollowsHiragana − 形態素において漢字が平仮名の直後にある場合真
PrecedsKatakana − 形態素において漢字がカタカナの直前にある場合真
FollowsKatakana − 形態素において漢字がカタカナの直後にある場合真
AllKanji − 漢字を含む形態素におけるキャラクタ全てが漢字である場合真
IsUnigram − 漢字を含む形態素が1キャラクタ長である場合真
IsBigram − 漢字を含む形態素が2キャラクタ長である場合真
IsTrigram − 漢字を含む形態素が3キャラクタ長である場合真
IsTetragram − 漢字を含む形態素が4キャラクタ長である場合真
IsFactoid − 漢字を含む形態が、名称、日付、または数値である場合真
IsBoundR − 漢字を含む形態素が1キャラクタ接尾語である場合真
IsBoundL − 漢字を含む形態素が1キャラクタ接頭語である場合真
MorphIDEquals(X) − 漢字を含む形態素がXである場合真
WordIDEquals(X) − 漢字を含む単語がXである場合真
NextCharEquals(X) − 形態素において漢字がXの直前にある場合真
ThirdCharEquals(X) − 形態素において漢字がXよりも2キャラクタ前にある場合真
PrevCharEquals(X) − 形態素において漢字がXの直後にある場合真

読み方予測システム200は、分類属性を用いて、次の例に対して以下のような処理を行なう。例えば、訓練コープスにおける「□」のインスタンスのみが次の通りであると仮定する。
【表5】
1.GOku, aba,
2.GOsu, oko,
3.Noun, kappatsu, □□
4.NCna, hatsumei, □□
5.Noun, ichinenhokki, □□□□
6.Noun, kanpatsu, □□
7.Noun, hokku, □□
8.Noun, hotsui, □□

分析段階によって特定された「□」の基本的読み方は、次の通りである。
【表6】
1.A:aba, 訓、-SpellingVariant1
2.B:oko, 訓、-SpellingVariant1
3.C:hatsu, 音、-SpellingVariant1
4.C:hatsu, 音、-SpellingVariant1
5.D:hotsu, 音
6.C:hatsu, 音、-SpellingVariant1
7.D:hotsu, 音
8.E:hotsu, 音、-
読み方分析部アルゴリズムは、以下のような判断ツリーを作成する。
【表7】
If_IsMorphID(GOku)
Reading A
Else
If_IsMorphID(GOsu)
Reading B
Else
If_IsFinal
Reading C
Else
If_IsTetragram
Reading D
Else
If_IsMorphID(Ncna)
Reading C
Else
If_NextCharEquals()
Reading D
Else
Reading E

場合によっては、分類属性は、単語を類似等級に完全に分離できない場合もある。この状況が発生した場合、アルゴリズムは、例の頻度に基づいて、確率的に最終分離を行なう。これは、訓練コープスにおける単語の頻度から計算する。前述の例のデータが次の項目も含み、
9.Noun, hatsui, □□(reading C)

項目8および9双方が同じ頻度を有する場合、上記ツリーの最終片は、以下と置き換えられる。
【表8】
If_NextCharEquals()
Reading D
Else
Probalilistic
.5 Reading E
.5 Reading C

「実行/ランタイム」段階における速度を最大化するために、作業の殆どを「学習」段階の間に行なう。「実行/ランタイム」段階の間、読み方予測アルゴリズムは、一例の計算機アプリケーション(図7に示す)におけるモジュールとして実装され、日本語形態学分析部も含む。所与の漢字に対する読み方を予測するために、形態学エンジンを用いて、漢字を含む単語を含む文章を分析する。分類属性の値を分析から計算し、判断ツリーを通過し、当該漢字に対する基本的読み方を見つけるために用いる。
次に、音韻規則を基本的読み方に適用し(基本的読み方によって禁止されていない場合)、読み方の表皮形態を生成する。また、表皮読み方に対する信頼度も計算する。判断ツリーの横断で、確率ノードに遭遇した場合、信頼度は、続く経路の確率を反映する。同じ入力単語に対して読み方予測モジュールを繰り返しコールする場合、信頼性の降順で全ての可能な異なる予測を返す。
図4は、読み方予測システム200が実行し、例示の文章に対する読み方予測を分析し与える一般的なステップを示す。図示のように、以下の文章における単語「□□」(305)の単語の読み方を決定する。
□□□□□□. (300)
最初に図3の形態学的分析部275によってこの文章を分析し、構造を究明する。
□□(代名詞)(小辞)□□(名詞補語)(コプラ). (300)次に、2つの漢字「□」および「□」に対する分類属性を計算する。次に、2つの漢字の各々の判断ツリーを、属性値にしたがって、通過する。
基本的読み方(315):
hatsu, 音、-SpellingVariant1
mei, 音、-SpellingVariant1
が選択され、hatsumeiという単語の読み方の表現を作成する。次に、音韻規則を単語の読み方に適用し、そして一致する環境を有する唯一の規則がSpellingVariant1であり、この規則は双方の読み方に適用するのを禁止されているので、最終的な表皮読み方予測は、hatsumeiとなる。
図5は、「学習段階」において動作する場合に、読み方予測システムが実行する処理を更に詳細に示す。処理はブロック400にて開始し、ブロック405に進み、読み方予測システム200に日本語読み方データをロードする。例示の実施態様では、日本語読み方データは、1組の標準的漢字読み方から成り、音読みまたは訓読みとしての分類を含む。これから、ブロック410において、疑似音韻規則を読み方予測システム200にロードする。次に、日本語データ415のコープスを読み方予測システム200にロードする。日本語データのコープスは、日本語辞書からのエントリ、日本語有限状態文法からの形態素、ならびに数および日付のような1組の日本語の句から成る。各項目は、綴り、読み方、およびスピーチまたは形態学的類別の一部を含む。次に、ブロック420において、日本語データ・コープスの各エントリに、基準読み方を割り当てる。次に、処理はブロック425に進み、日本語データ・コープスの各エントリに対して読み方の仮説を行なう。次に、ブロック430において、ブロック425で得た仮説を、基本的読み方に変換する。基本的読み方を用いて、読み方予測システム200は、判断ツリーを作成し、これを読み方予測システム200の「実行/ランタイム段階」において用いる。判断ツリーを生成し、処理はブロック440で終了する。
図6は、「実行/ランタイム」モード/段階において動作する場合に、読み方予測システムが実行する処理を示す。図示のように、処理はブロック445にて開始し、ブロック450に進んで、形態学的分析部を用いて入力文章を分析する。ここから、処理はブロック455に進み、入力文章内にある日本語表意文字の分類属性を計算する。分類属性を用いて、判断ツリー(図5のブロック435において生成した)を「辿り」、日本語表意文字(漢字)の基本的読み方、および予測に対する信頼度を判定する。次に、ブロック465において、音韻規則を作成した基本的読み方に適用することによって、表皮形態読み取りを生成する。ブロック470において、信頼性の降順で表皮形態を戻す。次いで、ブロック475において処理は終了する。
図7は、本発明のフィーチャ(feature)を組み込んだ計算機アプリケーションの一例のスクリーン・ショットを示す。一例の計算機環境500は、表示/インターフェース制御部510および表示/インターフェース・エリア515を有する表示/インターフェース・ページを備えている。図示のように、日本語の表意文字(即ち、漢字スクリプト)520は、表示/インターフェース・エリア520に表示することができる。動作において、一例の計算機アプリケーション500は、本発明のフィーチャを用いて、入力した日本語表意文字(例えば、520)上で文型チェックを行い、提出された日本語文章における入力日本語表意文字の適性な使用を確認する。このような動作は、一例の計算機アプリケーションでは、"Style Checker"の使用によって実現することができる。"Style Checker"は、表示/インターフェース制御部510の1つとして組み込み、日本語の文章(即ち、日本語の表意文字から成る単語を有する日本語文章)が、表示/インターフェース・エリア515上に表示するために入力されたときに、読み方予測システム(図2および図3)を組み込んだ"Style Checker"が、入力された日本語文章を処理し、入力された日本語の表意文字の一貫性のある使用を確認することができるようにする。
要約すると、本発明は、日本語の表意文字に対して効果的でかつ信頼性の高い読み方予測を可能にするシステムおよび方法を提供する。しかしながら、本発明は、種々の変更や代替構造も容易に可能であることは理解されよう。本発明を、ここに記載した具体的な構造に限定する意図はない。逆に、本発明は、本発明の範囲および精神に該当するあらゆる変更、代替構造、および同等物も包含することを意図している。
尚、本発明は、種々のコンピュータ・システムにおいて実現可能であることには、当然気が付くであろう。ここに記載した種々の技法は、ハードウエアまたはソフトウエア、あるいは双方の組み合わせで実現することができる。好ましくは、各々、プロセッサ、当該プロセッサによって読み取り可能な記憶媒体(揮発性および不揮発性メモリおよび/または記憶エレメントを含む)、少なくとも1つの入力装置、および少なくとも1つの出力装置を含む、プログラム可能なコンピュータ上で実行するコンピュータ・プログラムにおいて、前述の技法を実現する。プログラム・コードを、入力装置を用いて入力したデータに適用し、前述の機能を実行し、出力情報を生成する。出力情報を1つ以上の出力装置に適用する。各プログラムは、高級プロシージャまたはオブジェクト指向プログラミング言語で実現し、コンピュータ・システムと通信することが好ましい。しかしながら、プログラムは、望ましければ、アセンブリまたは機械語で実現することも可能である。いずれの場合でも、言語は、コンパイルまたはインタープリタ言語とすればよい。このようなコンピュータ・プログラムは、各々、汎用または特殊目的用プログラム可能コンピュータよって読み取り可能な記憶媒体または素子(例えば、ROMまたは磁気ディスク)上に格納することが好ましく、コンピュータが記憶媒体または素子を読み取って前述の手順を実行するときに、コンピュータのコンフィギュレーションを設定し、動作させるようにする。また、システムは、コンピュータ・プログラムを構成する、コンピュータ読み取り可能記憶媒体として実現することも考えられ、この場合、このように構成した記憶媒体は、コンピュータに具体的かつ既定の方法で動作させる。更に、一例の計算機アプリケーションの記憶エレメントは、種々の組み合わせおよびコンフィギュレーションでデータを格納可能な、リレーショナルまたはシーケンシャル(フラット・ファイル)方計算機データベースとしてもよい。
以上、本発明の実施形態の一例について詳しく説明したが、多くの追加の変更も、本発明の新規な教示や利点から著しく逸脱することなく、実施形態の一例において可能であることを、当業者は容易に認めよう。したがって、これらおよびこのような全ての変更は、添付した特許請求の範囲にしたがってその広さおよび範囲を解釈する、本発明の範囲に含まれることを意図するものとする。
本発明の態様を組み込むことができる計算機環境の一例のブロック図である。 本発明にしたがって、日本語スクリプトの読み方の効果的な予測に関する学習フィーチャを実行するために協働するコンポーネントのブロック図である。 本発明したがって、日本語スクリプトの読み方の予測実行を実現するために協働するコンポーネントのブロック図である。 本発明による日本語スクリプト処理の一例のブロック図である。 本発明にしたがって日本語スクリプトの読み方を予測するときに用いる判断ツリーを形成するために実行する処理のフロー図である。 本発明にしたがって日本語スクリプトの読み方を予測するときに実行する処理のフロー図である。 本発明による、日本語読み取りフィーチャを有する、計算機アプリケーションの一例のスクリーン・ショットである。
110 コンピュータ
120 演算装置
121 システム・バス
130 システム・メモリ
131 リード・オンリ・メモリ(ROM)
132 ランダム・アクセス・メモリ(RAM)
133 基本入出力システム(BIOS)
134 オペレーティング・システム
135 アプリケーション・プログラム
136 その他のプログラム・モジュール
137 プログラム・データ
141 ハード・ディスク・ドライブ
144 オペレーティング・システム
145 アプリケーション・プログラム
146 その他のプログラム・モジュール
147 プログラム・データ
150 インターフェース
151 磁気ディスク・ドライブ
152 リムーバブル不揮発性磁気ディスク
155 光ディスク・ドライブ
156 リムーバブル不揮発性光ディスク
160 ユーザ入力インターフェース
161 ポインティング・デバイス
162 キーボード
171 ローカル・エリア・ネットワーク(LAN)
173 ワイド・エリア・ネットワーク(WAN)
180 リモート・コンピュータ
181 モニタ
185 リモート・アプリケーション・プログラム
190 出力周辺インターフェース
196 プリンタ
197 スピーカ
200 読み方予測システム
205 基準漢字読み方
210 訓練コープス
215 疑似音韻ルール
220 読み方分析部
225 基本的読み方
230 分析コープス
235 コープス分類部
240 判断ツリー
260 読み方予測
265 読み方予測部
270 文章
275 形態学的分析部
280 形態学的分析
500 計算機環境
510 表示/インターフェース制御部
515 表示/インターフェース・エリア
520 表示/インターフェース・エリア

Claims (17)

  1. データ・ストア内の日本語の単語および文章のうちの少なくとも1つの日本語表意文字の読み方を予測する、コンピュータにより実行される方法であって、
    前記コンピュータが、前記データ・ストア内の日本語の表意文字のうちの少なくとも1つに対する少なくとも1つの発音表現を作成するステップであって、前記発音表現が、基準漢字読み方および疑似音韻規則を含むデータを用いて作成され、前記基準漢字読み方が発音および歴史的等級情報を含む、ステップと、
    前記コンピュータが、読み方分析部を提供するステップであって、前記読み方分析部が、入力として、前記基準漢字読み方、前記疑似音韻規則および訓練コープスから成るグループのうちの少なくとも1つを受け入れ、前記前記読み方分析部が更に、日本語の単語および文章のうちの前記少なくとも1つからの形態学的情報を使って前記少なくとも1つの発音表現のうちの1つを選択するために使用する判断ツリーを生成する、ステップと、
    前記コンピュータが、前記日本語の単語および文章のうちの前記少なくとも1つを処理するステップであって、前記発音表現と前記判断ツリーを用いて、前記日本語の単語および文章の前記少なくとも1つの前記日本語の表意文字の読み方を与える、ステップと、
    含む方法。
  2. 請求項1記載の方法において、前記判断ツリーを生成することは、更に、前記コンピュータが学習アルゴリズムを提供するステップを含み、該学習アルゴリズム前記判断ツリー作成に使用する、方法。
  3. 請求項2記載の方法において、前記学習アルゴリズムを提供するステップは、ID3型機械学習アルゴリズムを装備することを含む、方法。
  4. 請求項1記載の方法において、前記日本語の単語および文章のうちの前記少なくとも1つを処理するステップは、更に、
    前記コンピュータが、入力として、前記判断ツリー、前記少なくとも1つの発音表現、前記疑似音韻規則、および形態学的分析から成るグループのうちの少なくとも1つを受け入れるステップを含み、更に、前記入力を使って日本語の単語および文章のうちの前記少なくとも1つを解析し、日本語の表意文字およびそれぞれの読み方を特定すること、
    を含み、
    言語形態学規則を用いて、形態学分析部によって前記形態学的分析が生成される、
    方法。
  5. 請求項4記載の方法であって、更に、
    前記コンピュータが、日本語の単語および文章のうちの前記少なくとも1つを前記形態学分析部によって分析して、日本語の単語および文章のうちの前記少なくとも1つの構造を判定するステップであって、前記構造が日本語表意文字を含む、ステップと、
    前記コンピュータが、前記日本語表意文字に対して分類属性を計算するステップと、
    前記コンピュータが、前記計算した属性の値にしたがって、前記判断ツリーを辿るステップと、
    前記コンピュータが、前記日本語表意文字に対して、前記判断ツリーを辿った結果に基づき適切な発音表現を選択するステップと、
    前記コンピュータが、前記疑似音韻規則を前記少なくとも1つの発音表現に適用し、表皮読み方を生成するステップと、
    を含む方法。
  6. 請求項1記載の方法を実行するように、コンピュータに命令するコンピュータ実行可能命令を含むコンピュータ読み取り可能記憶媒体。
  7. 日本語の表意文字の発音表現を予測するシステムであって、
    プロセッサと、
    日本語読み方分析部の機能を実行する、前記プロセッサにおいて実行可能なコンピュータ実行可能命令であって、前記日本語読み方分析部が、日本語単語データのコープスを入力として受け入れ、前記日本語単語データのコープスにおける日本語表意文字に対する発音表現を生成するように構成され、前記日本語単語データは、基準漢字読み方、訓練コープスおよび疑似音韻規則から成るグループのうちの少なくとも1つを含み、前記日本語読み方分析部が、日本語の単語および文章のうちの少なくとも1つからの形態学的情報を使って日本語の表意文字の読み方を予測する際に使用する判断ツリーを生成するように構成され、前記発音表現が、基準漢字読み方および疑似音韻規則を含むデータを用いて作成され、前記基準漢字読み方が発音および歴史的等級情報を含む、コンピュータ実行可能命令と、
    日本語読み方予測部の機能を実行する、前記プロセッサにおいて実行可能なコンピュータ実行可能命令であって、前記日本語読み方予測部が、前記判断ツリー、前記日本語単語データおよび形態学的分析を入力として受け入れ、日本語の単語および文章のうちの前記少なくとも1つに対して処理を行って、日本語の単語および文章のうちの前記少なくとも1つ内にある日本語の表意文字に対する発音表現予測を提供するように構成された、コンピュータ実行可能命令と、
    を含むシステム。
  8. 請求項7記載のシステムにおいて、前記形態学的分析は、形態学的分析部によって作成され、該形態学的分析部が、既定の日本語形態学規則にしたがって、日本語の単語および文章のうちの前記少なくとも1つを処理するように構成された、システム。
  9. 請求項8記載のシステムにおいて、前記形態学的分析部は、入力として、日本語の単語および文章のうちの前記少なくとも1つを受け入れ、日本語の単語および文章のうちの前記少なくとも1つ内にある日本語の表意文字に対して分類属性を計算するように構成され、該分類属性は、日本語の単語および文章の形態学的分析から得られる情報であり、前記分類属性が、日本語読み方予測部により使用されて、前記日本語の単語および文章のうちの前記少なくとも1つ内の日本語の表意文字に対して表皮読み方を作成する、システム。
  10. 請求項9記載のシステムにおいて、前記分類属性は、IsBoundMorpheme, IsStemMorpheme, IsMorphInitial, IsMorphFinal, PrecedesKanji, FollowsKanji, PrecedesHiragana, FollowsHiragana, PrecedesKatakana, FollwsKatakana, AllKanji, IsUnigram, IsBigram, IsTrigram, IsTetragram, IsFactoid, IsBoundR, IsBoundL, MorphIDEquals(X), WorldIDEquals(X), NextCharEquals(X), ThirdCharEquals(X), およびPrevCharEquals(X)から成るグループのうちの少なくとも1つを含む、システム。
  11. 請求項10記載のシステムにおいて、前記分類属性は前記日本語形態学規則に基づく、システム。
  12. 請求項7記載のシステムにおいて、前記日本語読み方分析部は、学習アルゴリズムを備え、該学習アルゴリズム前記判断ツリーの作成に使用するシステム。
  13. 請求項12記載のシステムにおいて、前記学習アルゴリズムは、ID3型機械学習アルゴリズムである、システム。
  14. 請求項7記載のシステムにおいて、該システムが計算機アプリケーションの一部として組み込まれ、前記計算機アプリケーションが、文型チェックのために、日本語の表意文字の発音表現を与える、システム。
  15. 電子形態での日本語の表意文字の読み方予測を可能にする、コンピュータにより実行される方法であって、
    前記コンピュータが読み方分析部を提供するステップであって、該読み方分析部が入力として日本語データを受け入れ、前記日本語データが基準漢字読み方、訓練コープスおよび疑似音韻規則から成るグループのうちの少なくとも1つを含む、ステップと、
    前記コンピュータが、前記読み方分析部を学習モードで動作させるステップであって、前記読み方分析部が、前記日本語データに対して処理を行って、前記日本語データに対して発音表現を生成し、日本語の単語および文章のうちの少なくとも1つからの形態学的情報を使って日本語の表意文字の発音表現を予測するときに使用する判断ツリーを生成し、前記発音表現が、基準漢字読み方および疑似音韻規則を含むデータを用いて作成され、前記基準漢字読み方が発音および歴史的等級情報を含む、ステップと、
    前記コンピュータが読み方予測部を提供するステップであって、該読み方予測部が、前記発音表現および前記判断ツリーを用いて、前記日本語の表意文字の発音表現予測を提供する、ステップと、
    を含む方法。
  16. 請求項15記載の方法において、前記読み方予測部を提供するステップは、更に、前記コンピュータが、前記日本語の単語および文章のうちの前記少なくとも1つに対して形態学的分析を行なうステップを含み、該形態学的分析は、形態学的分析部が、日本語形態学規則を用いて、日本語の単語および文章のうちの前記少なくとも1つに対して処理を行なうことによって生成する、方法。
  17. 請求項15記載の方法を実行するように、コンピュータに命令するコンピュータ実行可能命令を含むコンピュータ読み取り可能記憶媒体。
JP2001219792A 2000-07-21 2001-07-19 日本語の表意文字の読み方を予測する方法 Expired - Lifetime JP5231698B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US21998100P 2000-07-21 2000-07-21
US60/219981 2001-05-17
US09/859,341 US7328404B2 (en) 2000-07-21 2001-05-17 Method for predicting the readings of japanese ideographs
US09/859341 2001-05-17

Publications (2)

Publication Number Publication Date
JP2002149643A JP2002149643A (ja) 2002-05-24
JP5231698B2 true JP5231698B2 (ja) 2013-07-10

Family

ID=26914455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001219792A Expired - Lifetime JP5231698B2 (ja) 2000-07-21 2001-07-19 日本語の表意文字の読み方を予測する方法

Country Status (2)

Country Link
US (1) US7328404B2 (ja)
JP (1) JP5231698B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206301A1 (en) * 2002-07-31 2006-09-14 Wei-Bin Chang Determining the reading of a kanji word
JP3956368B2 (ja) * 2003-10-16 2007-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析システム
KR20080007261A (ko) * 2005-04-25 2008-01-17 테직 커뮤니케이션 인코포레이티드 표의문자 언어 구의 사용자 입력을 처리하기 위한 회로,방법 및 시스템
TWI295783B (en) * 2005-08-12 2008-04-11 Delta Electronics Inc Text inputting device for mobile communication device and method thereof
US20090299822A1 (en) 2006-11-08 2009-12-03 P C Grocery Ltd. System and method for optimized shopping transactions
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
US9055161B2 (en) * 2009-07-18 2015-06-09 Abbyy Development Llc Text processing method for a digital camera
US9251428B2 (en) 2009-07-18 2016-02-02 Abbyy Development Llc Entering information through an OCR-enabled viewfinder
RU2586577C2 (ru) * 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
US9852123B1 (en) * 2016-05-26 2017-12-26 Google Inc. Semiotic class normalization
IT201900002235A1 (it) 2019-02-15 2020-08-15 Univ Ca Foscari Di Venezia Sistema e metodo per l’unione di morfemi in unita’ lessicali e relativa trascrizione in sillabe hiragana e in caratteri latini di un testo giapponese
KR20190080833A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 음성 정보 기반 언어 모델링 시스템 및 방법
KR20190080834A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 사투리 음소 적응 학습 시스템 및 방법
CN110990674A (zh) * 2019-11-25 2020-04-10 创新奇智(青岛)科技有限公司 一种文章阅读量的预测方法及***
US11625494B2 (en) * 2020-02-06 2023-04-11 AVAST Software s.r.o. Data privacy policy based network resource access controls

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718102A (en) * 1983-01-19 1988-01-05 Communication Intelligence Corporation Process and apparatus involving pattern recognition
US4837689A (en) * 1985-10-07 1989-06-06 Sharp Kabushiki Kaisha Inputting and editing system in a knowledge based inquiry and answer system
JPH02159674A (ja) * 1988-12-13 1990-06-19 Matsushita Electric Ind Co Ltd 意味解析装置と構文解析装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JPH0773174A (ja) * 1993-06-29 1995-03-17 Texas Instr Inc <Ti> 日本語処理システム
US5586198A (en) * 1993-08-24 1996-12-17 Lakritz; David Method and apparatus for identifying characters in ideographic alphabet
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6621424B1 (en) * 2000-02-18 2003-09-16 Mitsubishi Electric Research Laboratories Inc. Method for predicting keystroke characters on single pointer keyboards and apparatus therefore

Also Published As

Publication number Publication date
US20020152246A1 (en) 2002-10-17
US7328404B2 (en) 2008-02-05
JP2002149643A (ja) 2002-05-24

Similar Documents

Publication Publication Date Title
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US7302640B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2000513843A (ja) 辞書に基づく品詞確率による自然言語パーザ
Dickinson et al. Language and computers
Alghamdi et al. Automatic restoration of arabic diacritics: a simple, purely statistical approach
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
Sproat et al. The taxonomy of writing systems: How to measure how logographic a system is
Bugert et al. Generalizing cross-document event coreference resolution across multiple corpora
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Alghamdi et al. KACST Arabic diacritizer
El-Imam et al. Rules and algorithms for phonetic transcription of standard Malay
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Boujelbane et al. An automatic process for Tunisian Arabic orthography normalization
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
Babych Graphonological levenshtein edit distance: Application for automated cognate identification
Haverals et al. Data-driven syllabification for Middle Dutch
Ferri et al. A complete linguistic analysis for an Italian text-to-speech system
Blaschke Explainable Machine Learning in Linguistics and Applied NLP: Two Case Studies of Norwegian Dialectometry and Sexism Detection in French Tweets
Ahmed Detection of foreign words and names in written text
Novák et al. Grapheme-to-Phoneme Transcription in Hungarian.
McAllister The structural design of the cstr text-to-speech system.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110901

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111201

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120229

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250