JP4845523B2 - 文字処理装置、方法、プログラムおよび記録媒体 - Google Patents

文字処理装置、方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4845523B2
JP4845523B2 JP2006022294A JP2006022294A JP4845523B2 JP 4845523 B2 JP4845523 B2 JP 4845523B2 JP 2006022294 A JP2006022294 A JP 2006022294A JP 2006022294 A JP2006022294 A JP 2006022294A JP 4845523 B2 JP4845523 B2 JP 4845523B2
Authority
JP
Japan
Prior art keywords
word
storage means
character
character strings
appearance probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006022294A
Other languages
English (en)
Other versions
JP2007206796A (ja
Inventor
良治 佐藤
紀子 石橋
美由紀 関
宏明 鹿子木
孝吏 梅岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority to JP2006022294A priority Critical patent/JP4845523B2/ja
Priority to TW096103598A priority patent/TW200821868A/zh
Priority to CN2007800028749A priority patent/CN101371252B/zh
Priority to PCT/JP2007/051622 priority patent/WO2007088902A1/ja
Publication of JP2007206796A publication Critical patent/JP2007206796A/ja
Application granted granted Critical
Publication of JP4845523B2 publication Critical patent/JP4845523B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、単語ラティスを使用して入力された複数の単語についての読み(たとえば、ひらがなやローマ字)の文字列を読みに対応する表記(漢字、かな混じり漢字、英文字など)に変換する文字処理装置、方法、プログラムおよび記録媒体に関する。
従来、単語ラティスを使用してかな漢字変換を行なう方法が知られている。単語ラティスは、非特許文献1に記載されているように、入力の複数の読み、あるいはこれらの入力の読みに対応する複数の表記を、その接続順に並べたネットワークである。このネットワークを構成する各表記の各々は、ノードと呼ばれる。接続順に並べられた複数のノード全体はパスと呼ばれる。このノードとなる表記は単語辞書を参照して得られる。単語辞書は、1つの読みとこの読みに対応する1つ表記(見出し語とも呼ばれる)を1つのレコードの中に含み、異なる複数のレコードで構成した読み−表記変換辞書である。
たとえば、「とっきょちょう」という読みを与えると、
パス1 「とっきょ」→「町」
パス2 「とっきょ」→「庁」
パス3 「特許」→「庁」 ....
などの複数のパスを有する単語ラティスがかな漢字変換装置のメモリ上でCPUにより作成される。
CPUは、各パス上の連続する所定数、通常、よく使用される個数は1〜3個のノードの出現確率を言語辞書を参照して取得し、次に1つのパス上の全ノードの出現確率を積算することにより、1つのパスにおけるノードの出現確率を計算する。ちなみに、言語辞書は、所定数個の表記の文字列とその出現確率を1つのレコードの中に含み、複数のレコードで構成される辞書である。
上述の例で言えば、「とっきょ」、「町」、A1(出現確率の値)が言語辞書の1つのレコードとなる。
上述の処理手順を繰り返して、CPUは単語ラティス上の全てのパスについての出現確率を計算する。CPUは計算された複数の出現確率の中の最も高いパスの確率を検出する。最も高い出現確率を有するパスの示すノードのつながり(系列)が与えられた読みの文字列に対応する最有力のかな漢字変換結果と決定される。(非特許文献1)
決定された最有力のかな漢字変換結果がディスプレイの表示画面に表示されて、ユーザの確定操作後、文書処理装置(ワードプロセッサ用のプログラム)に、確定されたかな漢字変換結果が引き渡される。ユーザが頻繁に使用する表記の文字列についての使用頻度を言語辞書の出現確率に反映することも行なわれている。
http://www.jaist.ac.jp/~kshirai/lec/i223/07.pdf 『N-gramの部分的強調による定型表現への言語モデル適応手法』 (電通学会論文誌Vol.J86-D-II No12、2003年12月)
このような文字処理方法では、入力された読みの文字列は、出現頻度の高い表記に変換されるが、時として、不具合が生じる。たとえば、地名、会社名、ことわざなどの表現で、多数の単語で構成される連語などでは、表記はあらかじめ定められている。ところで、統計的な言語モデルの開発において、ある単語パスの出現確率は、一般に、コーパスと呼ばれる統計資料の出現確率に基づいて計算される。ところが、地名などの固有名詞やことわざなどは、コーパスで出現する確率は通常高くなく、信頼できる確率は設定することが難しい。したがって、固有名詞の類は決まった表記があるのに、統計的に計算するとそのような変換結果を保証できないこととなってしまう。
上述のこのような連語の読みが入力された場合、上述の文字処理手法では、複数のパスを作成し、パスの出現確率を計算するので、初期の使用常態では慣用表現とは異なるかな漢字変換結果となってしまう場合がある。
そこで、本発明の目的は、単語ラティスを使用し、慣用的に使用される連語への変換と、同じ読みを有する連語以外の表記への変換とをバランスよく行なうことが可能な文字処理装置、方法、プログラムおよび記録媒体を提供することにある。
なお、他の従来技術としては、以下のものがある。
1. 該当固有名詞等を、長い単位で辞書に登録する。そうすると、長い範囲を1語で押さえているため、長い登録単語が第1候補になりすい。
2. 辞書・文法の与える確率に、辞書・文法のコンパイル時、ないし、かな漢字変換の実行時に、重み調整を加え、第1候補になりやすいようにする。(非特許文献2)
第1の方法は、第1候補に出やすくなるのだが、その長い範囲でタイピングしたときにだけ有効で、その長い範囲で候補一覧を生成せざるをえないという問題がある。
第2の方法は、複雑な計算が必要となり、実用的な手法は存在しない。
本発明は、これら従来のアプローチを取らず、第1の方法のように、あたかも長い単語列を、内部的に複数の単語から構成されるという情報を持ったまま、1単語であるかのように仮想的に辞書に持つ。そして、長い単位でマッチングして、パスの出現確率を計算し、変換結果の第1候補を所望の文字列として決定した後に、構成単語列に分割し、候補生成などの後続の処理を行う。
このような目的を達成するために、請求項1の発明は、単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置であって、
複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段と、
変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得する検索手段と、
該検索手段の検索により得られる複数の連語の表記の文字列を複数のノードとして前記単語ラティスに追加する第1の情報処理手段と、
複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、
前記複数の連語の表記の出現確率を記憶した第3の記憶手段と、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として取得する第2の情報処理手段と
使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新する第3の情報処理手段と
を具え、前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなることを特徴とする。
請求項2の発明は、前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を含めることを特徴とする。
請求項3の発明は、単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置の文字処理方法であって、
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段検索手段、第1の情報処理手段第2の情報処理手段および第3の処理手段を有し、
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得し、
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに第1の情報処理手段により追加し、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得し、
前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新し、
前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする。
請求項4の発明は、前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を含めることを特徴とする請求項3に記載の文字処理方法。
請求項5の発明は、単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置のための文字処理プログラムであって、
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段、検索手段、第1の情報処理手段および第2の情報処理手段を有し、
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得するステップと、
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに前記第1の情報処理手段により追加するステップと、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得するステップと
前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新するステップと
を備え、
前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする。
請求項6の発明は、前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を含めることを特徴とする。
請求項7の発明は、請求項5または6に記載のプログラムを記録したことを特徴とする。
連語辞書から取得した単語の表記を単語ラティスにノードとして追加することにより、従来では初期の使用状態で、慣用表記が変換結果とならない問題を改善する。また、使用頻度に応じて、慣用表記と同じ読みを有する、慣用表記以外の表記が変換結果となるので、バランスのよい変換結果が得られる。
以下、図面を参照して本発明の実施形態を詳細に説明する。
(実施形態1)
実施形態1の文字処理装置のシステム構成の一例を図1に示す。文字処理装置としては汎用のパーソナルコンピュータ、携帯電話機など、情報処理機能を有する種々の情報処理装置を使用することができる。
図1において、10はCPUであり、後述の文字処理プログラムを使用して、本発明に係わる文字処理を実行する。CPU10が本発明の検索手段、第1および第2の情報処理手段として機能する。
20はROMおよびRAMを有するシステムメモリであり、CPU10に対する入出力データを一時記憶する。
30は入力装置であり、たとえば、キーボードなどの読みの文字列を入力する装置を使用することができる。キーボード以外にも、たとえば、読みの文字列を記憶した記憶媒体から読みの文字列を読み取るデータ読取装置、通信により外部機器から読みの文字列を入力する通信装置を入力装置30として使用することができる。
40はハードディスク(HD)であり、文字処理プログラムおよび文字処理で使用する後述の辞書を記憶する。ハードディスク40が本発明の第1〜第3の記憶手段として機能する。
50はディスプレイであり、文字処理プログラムにより決定された編間候補を表示する。
図2は図1のハードディスク40に実装されるソフトウェアの構成を示す。
100は単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理プログラムである。110は単語辞書であり、従来と同様、1つの単語の読みの文字列および対応する表記の文字列を1つのレコードとなし、複数の異なるレコードを記載している。
120は、言語辞書であり、複数の単語の表記および対応する出現確率を記載している。実施形態1では言語辞書120は従来と同様とすることができる。
130は本発明に係わる連語辞書であり、慣用的に使用される複数の連語(たとえば、地名、会社名などの固有表現、ことわざなど)について、読みの文字列および表記の文字列、各連語の出現確率を1つのレコードとなし、異なる複数のレコードを連語辞書130に記載している。
なお、単語数が少ない場合、連語辞書130に記載する連語の文字列と同じ表記の文字列を言語辞書120にも記載しておく。この場合、連語辞書130の方の出現確率が言語辞書120の出現確率よりも予め高く設定しておくことに注意されたい。
実施形態1では単語辞書110を記憶するハードディスク40が本発明の第2の記憶手段として機能し、連語辞書130を記憶するハードディスク40が本発明の第1および第3の記憶手段として機能する。
図3は文字処理プログラム100の中の本発明に係わるプログラム部分の処理手順を示す。図4および5はシステムメモリ20上に構築される単語拉致を理解が容易なようにネットワークの形態で示している。
図3〜図5を参照しながら、文字処理装置の動作を説明する。
入力装置30から読みの文字列として「とっきょちょう」が入力され、変換候補として「特許庁」が得られるまでのCPU10の処理内容を説明する。
図3のステップS10で、CPU10はシステムメモリ20上に図4に示す単語ラティスを従来と同様の方法で、構築する。簡単に述べると、CPU10は読みの文字列「とっきょ」で単語辞書110を検索し、「とっきょ」、「トッキョ」および「特許」を変換可能な表記の文字列として取得する。取得した3つの文字列をそれぞれ、システムメモリ20に記憶する。つぎに、CPU10は残りの読みの文字列「ちょう」に対応する変換可能な表記の文字列「ちょう」、「チョウ」、「町」...「庁」を単語辞書110から検索により取得する。
取得した読みの文字列が、先ほど取得した直前の単語の表記の文字列と関連付けられてシステムメモリ20に記憶される。関連付けの方法としては、直前の表記が記憶された記憶アドレスを属性情報として取得した表記にもたせる方法、表形態に記憶するなどの方法が広く知られているので、当業者は好適な方法を使用すればよい。
この例では2つの単語についての読みの文字列が入力された例であるが、3つ以上の単語が入力された場合には、以下、単語単位で読みの文字列に対応する表記の文字列をCPU10が取得して、単語ラティスを構築する。
続いて、CPU10は図3のステップS20に進む。ここで、CPU10は、本発明の検索手段として、入力の読みの文字列、この場合、「とっきょちょう」で、連語辞書130を検索する。この検索により連語辞書130から連語の表記「特許庁」とその出現確率A1が得られる。
手順はステップS30に進み、CPU10はシステムメモリ20上の単語ラティス(図4参照)に取得した連語の表記「特許」、「庁」をノードとして図5に示すように追加する。取得した連語の各単語をノードとしてもよいし、全体をノードとしてもよい。図5の例は単語をノードとしている。なお、追加したノードで構成されるパスをこの実施形態ではバイパス(符号1010)と呼ぶことにする。バイパス1010は従来のパスと区別するためにバイパスであることを示す属性情報が与えられる。
手順はS40に進み、図5の単語ラティス上の各パスの出現確率をCPU10が計算する。図5の例では、第1のパスは「とっきょ」→「チョウ」であるので、「とっきょ」+「チョウ」で言語辞書120が検索され、対応の出現確率B1をCPU10により取得する。
このようにして、単語辞書110によりノードを取得したパス(図4)については、言語辞書120から出現確率を取得する。
バイパス1010上のノード「特許」、「庁」については、ステップS20で連語辞書130から出現確率A1が得られているので、CPU10は各パスについて、相互に比較し、たとえば、ソーティングと呼ばれる情報処理手法を使用して、最も高い出現確率を有するパスを検出する。検出されたパス上のノードを結合した表記の文字列がCPU10によりは読みの文字列「とっきょちょう」に対する変換候補としてディスプレイ50により取得されて表示される(ステップS40)。以後、ユーザは従来と同様に、入力装置30を使用して確定、あるいは変換の指示をCPU10に与えて、ユーザが望む変換結果を取得する。
この例では、文字処理装置の初期使用状態では「とっきょちょう」について、連語辞書130から取得した表記で構成される図5のパス1010の出現確率が最高値を持つことになる。このため、図5のバイパス1010上のノード(特許庁)が変換候補として決定される。
その後、ユーザが「特許庁」という表記を頻繁に使用すると、従来と同様、言語辞書120上の「特許庁」に対応する出現頻度が高くなるように更新され、図5のバイパス1000上のノード(特許庁)が変換候補として決定される。
もしも「特許町」という町に住む人がこの文字処理装置を使用して住所を入力すると、言語辞書120に記載された「特許町」の出現頻度がユーザの使用に応じて更新されるので、このユーザが「とっきょちょう」と文字処理装置入力した場合には「特許町」が変換結果として得られることになる。
以上説明したよう、単語ラティスに連語辞書130から取得した表記をノードとして追加することにより、従来では初期の使用状態では、慣用表現がかならずしも変換結果とならない問題を解決することができる。
(実施形態2)
実施形態1では連語の出現確率を連語辞書130に読みの文字列、表記の文字列と共に記載していたが、出現確率を言語辞書120に記載してもよいし、また、別の辞書やテーブルに記載してもよい。
以上、述べた実施形態は本発明の説明のための例示である。本発明の技術思想は特許請求の範囲に示されており、この技術思想に基づき、上述の実施形態に対する種々の改良形態が存在することは当業者であれば容易に理解し得よう。
本発明実施形態のハードウェア構成を示すブロック図である。 本発明実施形態のソフトウェアの構成を示すブロック図である。 本発明実施形態の文字処理手順を示すフローチャートである。 単語ラティスの一例を示す説明図である。 ノードが追加された単語ラティスを示す説明図である。
符号の説明
10 CPU
20 システムメモリ
30 入力装置
40 ハードディスク
50 ディスプレイ

Claims (7)

  1. 単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置であって、
    複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段と、
    変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得する検索手段と、
    該検索手段の検索により得られる複数の連語の表記の文字列を複数のノードとして前記単語ラティスに追加する第1の情報処理手段と、
    複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、
    前記複数の連語の表記の出現確率を記憶した第3の記憶手段と、
    前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として取得する第2の情報処理手段と
    使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新する第3の情報処理手段と
    を具え、前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなることを特徴とする文字処理装置。
  2. 前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を
    含めることを特徴とする請求項1に記載の文字処理装置。
  3. 単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置の文字処理方法であって、
    前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段検索手段、第1の情報処理手段第2の情報処理手段および第3の処理手段を有し、
    前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得し、
    前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに第1の情報処理手段により追加し、
    前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得し、
    前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新し、
    前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする文字処理装置の文字処理方法。
  4. 前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を含めることを特徴とする請求項3に記載の文字処理装置の文字処理方法。
  5. 単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置のための文字処理プログラムであって、
    前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段、検索手段、第1の情報処理手段および第2の情報処理手段を有し、
    前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得するステップと、
    前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに前記第1の情報処理手段により追加するステップと、
    前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得するステップと
    前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新するステップと
    を備え、
    前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする文字処理プログラム。
  6. 前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を含めることを特徴とする請求項5に記載の文字処理プログラム。
  7. 請求項5または6に記載のプログラムを記録したことを特徴とする記録媒体。
JP2006022294A 2006-01-31 2006-01-31 文字処理装置、方法、プログラムおよび記録媒体 Expired - Fee Related JP4845523B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006022294A JP4845523B2 (ja) 2006-01-31 2006-01-31 文字処理装置、方法、プログラムおよび記録媒体
TW096103598A TW200821868A (en) 2006-01-31 2007-01-31 A character processing apparatus, and a method, a program, and a recording medium thereof
CN2007800028749A CN101371252B (zh) 2006-01-31 2007-01-31 字符处理装置、方法、程序以及存储介质
PCT/JP2007/051622 WO2007088902A1 (ja) 2006-01-31 2007-01-31 文字処理装置、方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006022294A JP4845523B2 (ja) 2006-01-31 2006-01-31 文字処理装置、方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2007206796A JP2007206796A (ja) 2007-08-16
JP4845523B2 true JP4845523B2 (ja) 2011-12-28

Family

ID=38327473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006022294A Expired - Fee Related JP4845523B2 (ja) 2006-01-31 2006-01-31 文字処理装置、方法、プログラムおよび記録媒体

Country Status (4)

Country Link
JP (1) JP4845523B2 (ja)
CN (1) CN101371252B (ja)
TW (1) TW200821868A (ja)
WO (1) WO2007088902A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法
JP5626557B2 (ja) * 2009-12-04 2014-11-19 バイドゥ株式会社 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
JP2011210149A (ja) * 2010-03-30 2011-10-20 Baidu Japan Inc 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
CN103455159A (zh) * 2012-05-30 2013-12-18 苏州卫生职业技术学院 运用于英语输入法中的英语字符串输入技术及实现方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816910B2 (ja) * 1986-10-03 1996-02-21 株式会社リコー 言語解析装置
JPH06131326A (ja) * 1992-10-22 1994-05-13 Seiko Epson Corp かな漢字変換装置
JP2004118461A (ja) * 2002-09-25 2004-04-15 Microsoft Corp 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
WO2007088902A1 (ja) 2007-08-09
CN101371252B (zh) 2013-11-13
JP2007206796A (ja) 2007-08-16
TW200821868A (en) 2008-05-16
CN101371252A (zh) 2009-02-18

Similar Documents

Publication Publication Date Title
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
US10803241B2 (en) System and method for text normalization in noisy channels
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
JP2015038731A (ja) 言語変換において複数の読み方の曖昧性を除去する方法
WO2012095696A2 (en) Text segmentation with multiple granularity levels
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP4845523B2 (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP6811087B2 (ja) 検索装置、検索方法、及びプログラム
JP5851130B2 (ja) 日本語のための音声キー
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP4155970B2 (ja) 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JP2002024233A (ja) 辞書データ構造を記録した記録媒体、辞書引き方法、語句取得方法、辞書引き装置、語句取得装置、プログラムを記録した記録媒体
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP2007213157A (ja) 用例文検索装置および用例文検索方法
JP5097454B2 (ja) データ入力装置、方法、及びプログラム
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
JP7200474B2 (ja) 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP6511874B2 (ja) コンピュータプログラム、検索装置及び検索方法
JP5664042B2 (ja) 検索装置、検索方法、検索プログラム及び検索システム
JP5229448B2 (ja) 読み付与装置、およびプログラム
JP2009223704A (ja) 翻訳装置及び翻訳プログラム
JP2020052819A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4845523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees