JP5623380B2

JP5623380B2 - 誤り文修正装置、誤り文修正方法およびプログラム

Info

Publication number: JP5623380B2
Application number: JP2011286889A
Authority: JP
Inventors: 齋藤　邦子; 邦子齋藤; 九月貞光; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2014-11-12
Anticipated expiration: 2031-12-27
Also published as: JP2013134753A

Description

本発明は、誤り文修正装置、誤り文修正方法およびプログラムに係り、特に、文法的に正しい日本語ではなく、誤りが含まれる文を修正する誤り文修正装置、誤り文修正方法およびプログラムに関する。

日本語で記載されたテキストは、英語のように単語の境界が自明ではないため、まず入力文から単語を認識し、その単語の品詞が何であるかを判定する形態素解析処理が基本的かつ重要な言語解析技術の１つとされている。

一方、日本語を母国語としない人が日本語を習得し、メールや書類などで日本語を記述する場合、記載された日本語にはさまざまな文法的な誤りが含まれることがよくある。例えば、「てにをは」などの助詞の選択を誤ったり、形容詞や動詞の用法を誤ったり、さらにはカタカナ語において、耳で聞いた音の記憶から誤った表記に記述し、結果的に日本人とは異なる表記となるもの（濁音、促音、長音などの有無）等である。このような誤りを検出し、正しい記述を提示することは、日本語の習得過程にも有効である。

このような文中の誤りを検出する上で有効な処理の１つが形態素解析である。

形態素解析処理は、入力文である文字列を単語の単位に分割し、品詞などの辞書情報を付与するものである。入力文を長さｍ字の文字列Ｓ＝ｃ１ｃ２・・・ｃｍとする。この入力文をｎ個の表記列（部分文字列）Ｆ＝ｆ１ｆ２・・・ｆｎに分割し、各表記列に付与される品詞が品詞列Ｔ＝ｔ１ｔ２・・・ｔｎであった時、形態素解析は、表記列と品詞列の同時確率Ｐ（Ｆ，Ｔ）を最大化するような単語の分割および品詞の付与を実行する。即ち、以下の（１）式を満たすような（Ｆ，Ｔ）の組を求める問題となる。

その際、別途参照する単語辞書を利用して、入力文中に存在するあらゆる単語候補を検出し、その前後の連接として適切かつ最尤な単語列を最終出力とする。単語辞書には、単語を構成する表記と、その表記に対応する辞書情報が収録されている。辞書情報の代表的なものは品詞であり、例えば「ＮＴＴ」という表記には「名詞」という品詞が収録される。同じ表記でも複数の品詞が収録されることはよくあり、例えば、「市」には「名詞接尾辞」と「名詞」が収録される場合等である。これらは、「市／名詞接尾辞」、「市／名詞」の２つの異なる単語として認識される。例えば、「横須賀市」という入力文を形態素解析すると「市／名詞接尾辞」と解析され、「市で買った」という入力文では「市／名詞」と解析される。このように単語の多義を解消して1つの最適な単語列を出力するのが形態素解析処理である。以後、本発明では表記と品詞の組み合わせ「表記／品詞」を単語と呼ぶ。

従来、以上のような日本語に対する形態素解析処理に関する技術として、非特許文献１には、確率モデルを用いた形態素解析法である前向きＤＰ後向きＡ^＊アルゴリズム（forward-DP backward-A^*algorithm）に関する技術が開示されている。この技術は、動的計画法（Dynamic Programming）を用いた前向き探索と、Ａ^＊アルゴリズムを用いた後向き探索の２つのパスから構成された技術である。

「音声言語処理−コーパスに基づくアプローチ−」北研二、中村哲、永田昌明共著，森北出版株式会社

ところで、日本人が記載する口語調のくだけた文章、例えば、掲示板やブログ、ツイッターなどでよく見られる文章では、略語や造語、母音・促音・長音を多用した口語的表現（すっごーい等）が頻出し、単語辞書に収録されている表記とはずれた表現が文章中に多く存在するために、結果として多くが未知語となって解析誤りの原因となる。

一方、日本語を母国語としない外国人が記載する文章では、１語ずつで見れば単語辞書に収録されている表記ではあるが、全体を通してみると不自然な連接となる現象が多く見られる。例えば、助詞の選択の誤りや、形容詞の独特の使い方などが該当し、「木を立っている」、「早いの時間」のようなものである。これらは、単語単位で見ると、「木／名詞」「を／助詞」「立って／動詞」「いる／助動詞」、「早い／形容詞」「の／助詞」「時間／名詞」と、全て単語辞書で収録される単語であり、一見すると未知語が存在せず、解析が正しくできたように扱われる。

しかし、実際には「木が立っている」、「早い時間」のような文章が自然であり、「早いの時間」と「早い時間」の両者を（１）式で比較すれば、後者がより尤もらしいと判断することは可能である。このように、一見、辞書登録語で構成される文章であっても、単語の選択や連接に誤りが混入している場合、辞書登録語が全く別の単語であることや、そもそも存在してはいけないものであるということを想定した修正処理を実施することが必要となる。

また、カタカナ語の誤りについては、単語辞書の表記とはずれた形で出現し、全体として未知語となる。これは、日本人の書く文章での表記ゆれや造語の出現に近い。

以上のように、特に、日本語を母国語としない人が書いた文に対し、上記非特許文献１等に開示されている従来の形態素解析処理を行った場合、不自然な連接や未知語が発生する場合があり、必ずしも最適な単語列を得ることができるとは限らない、という問題点があった。

なお、以上の問題点は、日本語を母国語としない人が書いた文に限らず、日本語を母国語とする人により、キーボードを用いてブラインド・タッチでコンピュータに入力された文や、幼児等の年少者によって作成された文等でも生じ得る問題点である。

本発明は、上記問題点を解決するためになされたものであり、形態素解析によって得られた単語列データを高精度で修正することのできる誤り文修正装置、誤り文修正方法およびプログラムを提供することを目的とする。

上記目的を達成するために、請求項１に記載の誤り文修正装置は、修正対象とする文から形態素解析によって得られた単語の各々毎に当該単語を示す表記および品詞を有する単語列データにおける単語について、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第２修正候補として導出した後、前記単語列データにおける単語辞書にない単語を、導出された前記第２修正候補に置き換えた前記単語列データにおける単語について、助詞を別の助詞に置き換える規則、形容詞の直後に出現する助詞を消去する規則、及び数量名詞と名詞との間に助詞「の」を挿入する規則の少なくとも１つの規則に応じた修正候補である第１修正候補を導出する修正候補導出手段と、前記修正候補導出手段によって導出された第１修正候補および第２修正候補を用いて単語ラティスを生成する単語ラティス生成手段と、前記単語ラティス生成手段によって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成手段と、を備えている。

請求項１に記載の誤り文修正装置によれば、修正候補導出手段により、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第１修正候補が導出されると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語が第２修正候補として導出される。

そして、本発明では、単語ラティス生成手段により、前記修正候補導出手段によって導出された第１修正候補および第２修正候補を用いて単語ラティスが生成され、修正文生成手段により、前記単語ラティス生成手段によって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文が生成される。

すなわち、本発明では、単語ラティスの生成に用いられる第１修正候補として、形態素解析によって得られた単語列データにおける単語の予め定められた文法上の規則に応じた修正候補を用いており、これによって、不自然な連接を修正することができるようにしている。また、本発明では、単語ラティスの生成に用いられる第２修正候補として、形態素解析によって得られた単語列データにおける単語について、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を用いており、これによって、未知語を修正することができるようにしている。

このように、請求項１に記載の誤り文修正装置によれば、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第１修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第２修正候補として導出し、導出した第１修正候補および第２修正候補を用いて単語ラティスを生成し、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成しているので、形態素解析によって得られた単語列データを高精度で修正することができる。

なお、本発明は、請求項２に記載の発明のように、前記修正候補導出手段が、前記単語列データにおける単語について、前記単語辞書に含まれる単語から、前記単語列データにおける単語と単語全体において一致する文字数に基づく一致度が、予め定められた閾値以上である単語を、前記第２修正候補として導出してもよい。これにより、既存の単語列データに含まれる表記および品詞を有効に利用して第１修正候補および第２修正候補を導出することができる。

また、請求項１に記載の発明は、前記修正候補導出手段が、前記単語列データにおける単語を別の単語に置き換える置換、前記単語列データにおける単語を消去する削除、および前記単語列データに新しい単語を加える挿入の少なくとも１つを用いて、前記第１修正候補を導出することにより、前記置換、前記削除、および前記挿入のうちの適用したものに応じた第１修正候補を得ることができる。

また、請求項１に記載の発明は、前記修正候補導出手段が、前記第２修正候補を導出した後、前記単語列データにおける単語辞書にない単語を、導出された前記第２修正候補に置き換えた前記単語列データにおける単語について、前記第１修正候補を導出する。これにより、未知語が少なくされた状態で第１修正候補を導出することができる結果、より高精度で形態素解析によって得られた単語列データを修正することができる。

さらに、本発明は、予め定められた複数種類の単語の各々毎の表記および品詞を含む単語辞書、および正規表現とされた前記規則を予め記憶した記憶手段をさらに備え、前記修正候補導出手段が、前記記憶手段に記憶された前記単語辞書および前記規則を用いて前記第１修正候補および前記第２修正候補を導出してもよい。

一方、上記目的を達成するために、請求項４に記載の誤り文修正方法は、修正対象とする文から形態素解析によって得られた単語の各々毎に当該単語を示す表記および品詞を有する単語列データにおける単語について、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第２修正候補として導出した後、前記単語列データにおける単語辞書にない単語を、導出された前記第２修正候補に置き換えた前記単語列データにおける単語について、助詞を別の助詞に置き換える規則、形容詞の直後に出現する助詞を消去する規則、及び数量名詞と名詞との間に助詞「の」を挿入する規則の少なくとも１つの規則に応じた修正候補である第１修正候補を導出する修正候補導出ステップと、前記修正候補導出ステップによって導出された第１修正候補および第２修正候補を用いて単語ラティスを生成する単語ラティス生成ステップと、前記単語ラティス生成ステップによって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成ステップと、を含んでいる。

従って、請求項４に記載の誤り文修正方法によれば、請求項１に記載の発明と同様に作用するので、請求項１に記載の発明と同様に、形態素解析によって得られた単語列データを高精度で修正することができる。

さらに、上記目的を達成するために、請求項５に記載のプログラムは、コンピュータを、請求項１から請求項３の何れか１項に記載の誤り文修正装置の各手段として機能させるためのものである。

従って、請求項５に記載のプログラムによれば、コンピュータを本発明の誤り文修正装置と同様に作用させることができるので、当該誤り文修正装置と同様に、形態素解析によって得られた単語列データを高精度で修正することができる。

本発明によれば、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第１修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第２修正候補として導出し、導出した第１修正候補および第２修正候補を用いて単語ラティスを生成し、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成しているので、形態素解析によって得られた単語列データを高精度で修正することができる、という効果が得られる。

実施の形態に係る誤り文修正装置の機能的な構成を示す機能ブロック図である。実施の形態に係る誤り文修正装置の電気的な要部構成を示すブロック図である。実施の形態に係る誤り文修正装置に備えられたＨＤＤの主な記憶内容を示す模式図である。実施の形態に係る単語辞書データベースの構成を示す模式図である。実施の形態に係る修正規則データベースの構成を示す模式図である。実施の形態に係る修正対象文データベースの構成を示す模式図である。実施の形態に係る修正文データベースの構成を示す模式図である。実施の形態に係る誤り文修正処理プログラムの処理の流れを示すフローチャートである。実施の形態に係る修正候補導出処理ルーチン・プログラムの処理の流れを示すフローチャートである。実施の形態に係る誤り文修正処理の説明に供する図であり、形態素解析の結果の例を示す模式図である。実施の形態に係る誤り文修正処理の説明に供する図であり、候補導出処理部１４ａによる処理結果の例を示す模式図である。実施の形態に係る誤り文修正処理の説明に供する図であり、候補導出処理部１４ｂによる処理結果の例を示す模式図である。実施の形態に係る誤り文修正処理の説明に供する図であり、近似文字列照合を先に実行した場合の規則１により追加で発生する修正候補の一例を示す模式図である。実施の形態に係る誤り文修正処理の説明に供する図であり、単語ラティス生成処理によって生成された単語ラティスの一例を示す模式図である。実施の形態に係る誤り文修正処理の説明に供する図であり、単語ラティス生成処理によって生成された単語ラティスの他の例を示す模式図である。実施の形態に係る誤り文修正処理の説明に供する図であり、最尤単語列探索処理によって得られた修正文の例を示す模式図である。実施の形態に係る誤り文修正処理の説明に供する図であり、最尤単語列探索処理によって得られた修正文の表示状態の一例を示す模式図である。

以下、図面を参照して、本発明を実施するための形態について詳細に説明する。なお、ここでは、本発明を、入力された文の誤りを修正する誤り文修正処理を実行する機能（以下、「誤り文修正機能」という。）を有する、単体構成とされた誤り文修正装置に適用した場合について説明する。

まず、本実施の形態に係る誤り文修正機能により実行される誤り文修正処理について説明する。

前述した通り、誤りを訂正する際、誤りの種類によって、着目すべき言語特徴が大きく異なる問題を同時に扱うために、この誤り修正の問題を機械翻訳や音声認識と同じく、雑音のある通信路モデル（Noisy Channel Model）により、誤りを含む観測文字列から正しい系列に復元する問題として定式化することを考える。これは、例えば、今、修正前の単語列Ｏとして「バタンが押す」があるときに、修正後の単語列Ｗ「ボタンを押す」を推測するものであり、次の（２）式で示される。

この定式化により、様々な種類の誤り修正に対応する部分を誤りモデルＰ（Ｏ｜Ｗ）で扱い、修正後の言語的な尤もらしさを言語モデルＰ（Ｗ）で扱うことができる。この定式化には利点が２つあり、１つは、誤りモデルと言語モデルを分離することで、両者のモデルは独立に設計、改善が可能であることである。更にもう１つは、誤りモデルについては、どういう言語的性質を持つ誤りを対象とするかに応じて個別にモデルを設計、改善することが可能になることである。誤りモデルＰ（Ｏ｜Ｗ）の部分に修正対象としたい誤り種別単位で個別にモデル化し、組み込んでいくことで、色々な誤り修正機能を追加していくことができる。例えば、助詞修正機能とカタカナ未知語修正機能を実現するためには、助詞誤りモデルとカタカナ誤りモデルを設計し、両者を組み合わせて修正候補を生成し、修正候補の中から最終的に（２）式を満たす最尤単語列Ｗを求めればよい。

（２）式を実際に解くために、更に下記のように近似する。なお、言語モデルはバイグラム（ｂｉｇｒａｍ）モデルを想定する。修正前単語列、修正後単語列としては、Ｏ＝ｏ１，・・・ｏｎ、Ｗ＝ｗ１，・・・ｗｎとする。ここでは、説明を簡単にするために修正前後の単語数は同じであるとするが、実際には増減が有り得る。

（３）式は修正前単語列のｏ_ｉに対する修正候補がｗ_ｉでありＰ（ｏ_ｉ｜ｗ_ｉ）は前述した助詞同士の誤り発生を示すＰ（が｜を）、音が近いカタカナの誤りを示すＰ（バタン｜ボタン）などである。ここで示した例以外にも、例えば同音異義語の単語選択誤りをモデル化し、（２），（３）式の誤りモデルに追加すれば同音異義語誤りの機能が実現できる。以上のように、この定式化により、誤り修正機能の選択や追加などが自由に設計できる。

本実施の形態に係る誤り文修正装置では、辞書登録語で構成される不自然な連接の誤りと、カタカナ未知語による誤りを同時に考慮する誤り修正を次の３点で実現する。
・辞書登録語で構成される誤りは、予め設定する規則により修正候補を導出する。
・カタカナ未知語の誤りは、別途用意する揺らぎ照合により単語辞書にある表記を修正候補として導出する。
・以上の２つの処理を独立に実行し、それぞれの修正候補で単語ラティスを生成した上で、言語モデルに基づく単語連接確率を計算し、最尤単語列を最終出力とする。

ここで、カタカナの揺らぎ照合は既存技術である、任意の近似辞書照合技術を利用することができる。

次に、図１を参照して、本実施の形態に係る誤り文修正装置１０の構成について説明する。

同図に示すように、本実施の形態に係る誤り文修正装置１０は、形態素解析処理部１２、修正候補導出処理部１４、単語ラティス生成処理部１６、および最尤単語列探索処理部１８を備えている。

以下、これらの誤り文修正装置１０に備えられた各処理部について説明する。

形態素解析処理部１２は、入力した修正対象とする文（以下、「修正対象文」という。）に対して形態素解析処理を実行して単語列データを生成するものであり、従来既知の形態素解析技術を適用することができる。

また、修正候補導出処理部１４は、形態素解析処理部１２によって生成された単語列データに対し、その修正候補を導出するものである。本実施の形態に係る誤り文修正装置１０では、修正候補導出処理部１４が、単語辞書登録語を修正するための候補導出処理部１４ａと、辞書未登録語を修正するための候補導出処理部１４ｂと、の２つの系統で構成されている。候補導出処理部１４ａは助詞の選択や形容詞の用法などの辞書登録語の修正を想定し、候補導出処理部１４ｂはカタカナ未知語などの誤字の修正を想定している。

以下、本実施の形態に係る候補導出処理部１４ａおよび候補導出処理部１４ｂについて説明する。

候補導出処理部１４ａは、形態素解析処理部１２による形態素解析では単語単位として正しく解析されたものの修正を行うものである。この修正処理では、正規表現に基づいた規則をあらかじめ準備し、単語単位で修正候補を導出する。ここで、本実施の形態に係る誤り文修正装置１０では、修正候補の導出として、形態素解析処理の結果に含まれていた元々の単語列を別の単語列に置き換える「置換」、元々の単語列を消去する「削除」、元々の単語列に新しい単語列を加える「挿入」の３種類の処理を想定している。

例えば、助詞の用法の修正のため、任意の助詞が出現した場合に別の助詞を全て候補として導出する（置換）。また、形容詞の用法の修正のため、形容詞の直後に助詞が出現する場合はその助詞を消去することを指示する（削除）。さらには、任意の数量名詞と名詞の間に「の／助詞」を追加する（挿入）。

本実施の形態に係る候補導出処理部１４ａでは、全ての規則を順次あてはめながら、マッチした単語列に適宜修正候補を導出する。

一方、候補導出処理部１４ｂは、形態素解析処理部１２による形態素解析の結果では辞書未登録語となったものから文字列として近い表記を単語辞書から検索するものである。任意の文字列に対して別途準備する単語辞書（以下、「近似辞書」という。）の全てのエントリの中から近い表記、すなわち近似文字列を照合して出力する技術は様々な既存技術が存在し、検索サービスでのクエリ修正などにも利用されている。本実施の形態では、既存の近似文字列照合技術を利用して辞書未登録語の修正候補を導出する。

なお、ここで適用することのできる近似文字列照合技術として、国際公開第２０１０／０２６８０４号に開示されている技術を例示することができる。

この技術では、予め与えられたキーワードに対して、キーワード毎に、キーワードそのものと、当該キーワードの全ての文字位置から連続する少なくとも１つの文字を削除した文字列の集合とからなる削除キーワードを含むスキップ辞書を作成するスキップ辞書作成部と、スキップ辞書作成部によって作成されたスキップ辞書を記憶・保持するスキップ辞書記憶部と、入力文字列とスキップ辞書記憶部に保持されたスキップ辞書とを照合することにより、入力文字列から予め与えられたキーワードおよび当該キーワードに近似したキーワードを抽出し、その出現位置と共に出力するキーワード抽出部を備えている。

この技術では、以下の方法でＮ字連続（Ｎは任意の整数）までの挿入、削除、置換誤りを含む文字列と、大量のキーワードとを高速に照合する。
１．キーワード辞書からトライ辞書を構築する際、各キーワード毎に、キーワードそのものと、当該キーワードの全ての文字位置ｐｋから連続するｗｋ字（１≦ｗｋ≦Ｎ）を削除した文字列の集合とからなる削除キーワードを生成し、トライ構造を作成する。これをスキップ辞書と呼ぶ。
２．スキップ辞書の値には、各削除キーワード毎に、削除文字位置ｐｋ、削除文字数ｗｋおよび当該削除キーワードの元となったキーワード（元キーワード）を保持しておく。
３．入力文字列とスキップ辞書とを照合する際、入力文字列そのものとスキップ辞書との照合だけでなく、当該入力文字列の全ての位置から連続するｗｉ字（１≦ｗｉ≦Ｎ）スキップした入力文字列（以下、スキップ入力と呼ぶ。）の集合とスキップ辞書との照合も行う。
４．得られた削除キーワードの削除文字位置ｐｋ、削除文字数ｗｋ、入力文字列のキーワード上での相対スキップ位置ｐｉ、スキップ幅ｗｉを比較してその削除キーワードを、次の４種類に分類する。
（１）ｗｉ、ｗｋが共に０（ｗｉ＝ｗｉ＝０）ならば、キーワードは完全一致としてキーワードを出力する。
（２）ｗｉが０で、ｗｋが１以上（ｗｉ＝０，ｗｋ＞０）であれば、入力文字列のスキップ位置にｗｉ字の削除文字が存在するものとしてキーワードを出力する。
（３）ｗｉが１以上で、ｗｋが０（ｗｉ＞０，ｗｋ＝０）であれば、入力文字列のスキップ位置にｗｉ字の挿入文字が存在するものとしてキーワードを出力する。
（４）ｗｉが１以上で、ｐｉとｐｋが等しく、ｗｉとｗｋ（ｗｉ＞０，ｐｉ＝ｐｋ，ｗｉ＝ｗｋ）が等しければ、入力文字列のスキップ位置にｗｉ＝ｗｋ字の置換文字が存在するものとしてキーワードを出力する。

この技術を、本実施の形態に係る候補導出処理部１４ｂにおける近似文字列照合処理に適用する場合、上記近似辞書として上記スキップ辞書を用いると共に、上記形態素解析の結果では辞書未登録語となったものとして上記入力文字列を用いることになる。

なお、本実施の形態において適用可能な近似文字列照合技術は上記国際公開公報に開示されている技術に限らず、‘「誤字脱字や伏字を許容する近似辞書照合技術」NTT 齋藤、今村、松尾、菊井言語処理学会第17回年次大会 p.1143-1146’に開示されている技術や、特開２０１１−０６５３８４号公報に開示されている技術等を例示することができる。

以上のように、本実施の形態に係る誤り文修正装置１０では、候補導出処理部１４ａおよび候補導出処理部１４ｂの２系統にて修正候補を導出する。

なお、それぞれの修正候補に対しては、その誤り確率を示す確率値Ｐ（ｏ_ｉ｜ｗ_ｉ）を同時に指定しておく。確率値はあらかじめ人手で設定してもよいし、近似度や頻度などの統計量に基づく確率値を利用してもよい。もし、大量に実際の作文誤りデータとそれに対応する修正データがあれば、どの単語がどの単語へ誤っているかの頻度により、以下の式で統計的な確率値を推定することが可能である。ここで、Ｃ（ｏ_ｉ，ｗ_ｉ）は、ある単語ｗ_ｉがｏ_ｉに誤っている回数であり、Ｃ（ｗ_ｉ）はｗ_ｉ全体の出現回数である。

一方、確率値として上記近似度を適用する場合は、２つの単語それぞれの単語全体の文字数の一致度、即ち、文字数のうちの何割が一致しているかにより算出可能である。例えば、「グラフィク」を「グラフィック」に修正する場合、文字数でカウントした近似度が５／６＝０．８３であり、未知語よりも辞書登録語であるグラフィックの方が尤もらしいとの前提に立つと、「グラフィック」の確率は０．８、「グラフィク」は０．２と考えることができる。候補導出処理部１４ｂは、未知語、及び単語辞書から検索した文字列であり未知語と近い表記の辞書登録後の全てを修正候補として出力する。候補導出処理部１４ｂは、算出した近似度を予め設定されている閾値と比較し、閾値以上の近似度が算出された未知語、及び単語辞書から検索した文字列であり未知語と近い表記の辞書登録語のみを修正候補として出力してもよい。

ここで、候補導出処理部１４ａと候補導出処理部１４ｂにおける各処理の実行順番は、候補導出処理部１４ａおよび候補導出処理部１４ｂの処理を各々独立に実行してもよいし、候補導出処理部１４ａの処理を実行した後に候補導出処理部１４ｂの処理を実行してもよく、候補導出処理部１４ｂの処理を実行した後に候補導出処理部１４ａの処理を実行してもよい。

しかしながら、最も修正効果を高くするには、候補導出処理部１４ｂの処理を実行した後に候補導出処理部１４ａの処理を実行することが望ましい。なぜなら、候補導出処理部１４ｂの処理により、辞書未登録語に辞書登録語である修正候補が作成されるため、その修正候補の存在により候補導出処理部１４ａの処理が有効になる可能性があるからである。処理順の修正効果については、候補導出処理部１４ａおよび候補導出処理部１４ｂの処理でどのような事象を想定しているかによって異なるため、その処理順は適宜目的に応じて選択することが好ましい。以後、本実施の形態では、候補導出処理部１４ｂ→候補導出処理部１４ａの順での形態を想定する。

一方、単語ラティス生成処理部１６は、形態素解析処理部１２による形態素解析処理によって生成された単語列と、修正候補導出処理部１４で導出された修正候補を一つの単語ラティスに登録する処理を実行する。その際、修正候補導出処理部１４による処理で得られた修正候補の尤もらしさを示す誤り確率値をあわせて登録する。

この確率値は修正候補を通過するパスと対応させた形で登録する。その際、パスには、その修正候補へ到る流入パスと、そこから次の隣接する単語へ進む流出パスの２種類が存在するが、どちらか一方に決めておく。本実施の形態では、流出パスに登録する例で説明を行うが、一貫性のある処理となっていれば、どちらに登録してもよい。

なお、修正候補ではない元々の単語を通過するパスに対しても何かしらの誤り確率値を付与することとし、本実施の形態では修正候補導出処理部１４による処理で特に指定されない場合は便宜上１．０であるとみなす。なお、この数値については任意に設定すればよい。

一方、最尤単語列探索処理部１８は、単語ラティス生成処理部１６において生成された単語ラティスに対して、言語モデルを参照して（１）式を満たす最尤単語列を１つ出力する処理を実行するものである。この最尤単語列が、修正済みの単語列データとなる。

この処理は、各位置に存在する単語候補を利用して最尤単語列を出力することから、形態素解析処理と同等の処理となる。ただし、唯一異なる点は、（１）式の確率値の計算において、単語ラティス生成処理部１６でパスに設定された誤り確率値を加味することである。これにより、修正候補導出処理部１４による処理で導出される修正候補に応じて、また、元の解析結果に応じて各単語候補自身の尤もらしさを考慮した状態で、最尤となる単語候補を求めることになる。

（１）式を最大化する最尤単語列を求める手法については既に数多くの研究が進んでおり、予め大量の正解データから学習した統計的言語モデルに基づいて（１）式を最大化する手法が成功を収めている。統計的言語モデルの種類としては、隠れマルコフモデルなどの生成モデルや、条件付確率場などの識別モデルなどがある。例えば、単純に単語ｂｉｇｒａｍモデルを利用して（１）式を最大化する場合、次の（５）式のように単語のｂｉｇｒａｍ確率の積でＰ（Ｆ，Ｔ）を近似する。

なお、本発明では、表記と品詞の組み合わせ「表記／品詞」を単語と呼んでいる。ｗ_ｉ／ｔ_ｉは分数ではなく、「表記／品詞」である単語を表す。

この場合は、単語のｂｉｇｒａｍ確率を記憶した単語ｂｉｇｒａｍモデルを準備しておき、各位置での左側単語と右側単語のｂｉｇｒａｍ確率を計算しながら動的計画法を用いて文全体で確率が最大となる単語列を求めればよい。その際、左側単語と右側単語のｂｉｇｒａｍ確率の計算と併せて両単語の重みを積算し、実際のｂｉｇｒａｍ確率に重みを付与していけば、重みを考慮した単語ｂｉｇｒａｍ確率を算出できる。具体的には、次の（６）式のように表され、該当する単語ｂｉｇｒａｍの計算のときに同時にパスに設定されている誤り確率ｐａｔｈ＿ｗｅｉｇｈｔを積算する。

このようにして求められるＰ＿ｗｅｉｇｈｔ（Ｆ，Ｔ）を最大化するパスを動的計画法により求める。

以上は、形態素解析を実現する統計的手法の一例であるが、本処理においては、そのほかに品詞ｎｇｒａｍ確率を考慮したり、モデルの学習データ不足によるスパースネス問題（Sparseness Problem）を回避するためのモデルの平滑化を取り入れたりする等、既存の統計的手法に基づく形態素解析処理の技術をそのまま利用してよい。ただし、（１）式の同時確率Ｐ（Ｆ，Ｔ）に対して各単語候補の重みを積算した形で最尤単語列候補を求める点のみが変更点である。

図２には、本実施の形態に係る誤り文修正装置１０の電気系の要部構成が示されている。

同図に示すように、本実施の形態に係る誤り文修正装置１０は、装置全体の動作を司るＣＰＵ（中央処理装置）２２と、各種データを一時的に記憶するＲＡＭ（Random Access Memory）２４と、制御プログラムや各種パラメータ等が予め記憶されたＲＯＭ（Read Only Memory）２６と、を備えている。また、本実施の形態に係る誤り文修正装置１０は、各種情報を記憶して保持するＨＤＤ（Hard Disc Drive）２８と、各種情報が入力される際に操作されるキーボード３０およびマウス３２と、各種情報を表示するディスプレイ３４と、を備えている。

ＣＰＵ２２、ＲＡＭ２４、ＲＯＭ２６、ＨＤＤ２８、キーボード３０、マウス３２、およびディスプレイ３４は、システムバスＢＵＳを介して相互に接続されている。従って、ＣＰＵ２２は、ＲＡＭ２４、ＲＯＭ２６、およびＨＤＤ２８へのアクセス、キーボード３０およびマウス３２を介した各種情報の入力、およびディスプレイ３４による各種情報の表示を行うことができる。

図３には、誤り文修正装置１０に備えられたＨＤＤ２８の主な記憶内容が模式的に示されている。同図に示すように、ＨＤＤ２８には、各種データベースを記憶するためのデータベース領域ＤＢと、アプリケーション・プログラム等を記憶するためのプログラム領域ＰＧと、が設けられている。

なお、本実施の形態に係る誤り文修正装置１０においてデータベース領域ＤＢに記憶されるデータベースには、単語辞書データベースＤＢ１、修正規則データベースＤＢ２、修正対象文データベースＤＢ３、および修正文データベースＤＢ４の各データベースが含まれる。以下、これらのデータベースの構成について、図面を参照しつつ詳細に説明する。

図４に示すように、本実施の形態に係る単語辞書データベースＤＢ１は、予め定められた複数種類の単語の各々毎に、表記および辞書情報の各情報が記憶されるように構成されている。

上記「表記」は、対応する単語の表記を示す情報であり、上記「辞書情報」は、「品詞」、「読み方」等の対応する単語に関する情報である。図４に示す例では、「市」の品詞として「名詞接尾辞」、「名詞」等が登録されると共に、「名詞接尾辞」であれば読み方として「シ」等が登録され、「名詞」であれば「イチ」等が登録されていることを示している。

一方、図５に示すように、本実施の形態に係る修正規則データベースＤＢ２は、予め定められた複数種類の規則（本実施の形態では、「置換」、「削除」、「挿入」の３種類の規則）の各々毎に、規則を示す情報が記憶されるように構成されている。

本実施の形態に係る候補導出処理部１４ａでは、同図に示される規則を用いて、修正前の単語列に対し、修正後（修正候補）を導出する。なお、同図における各規則の末尾の数値は誤り確率であって、対応する修正の尤もらしさを示すものであり、本実施の形態に係る誤り文修正装置１０では、０〜１．０の数値で表す。修正前後の単語は表記および品詞について正規表現により記述する。

ここで、同図において、規則１は「置換」であり、「を／助詞」や「は／助詞」といった単語を他の助詞に置換して全て候補とすることを指示するものである。また、規則２は「削除」の例であり、任意の形容詞の直後に助詞が出現する場合は、その助詞を消去することを指示するものである。さらに、規則３は「挿入」の例であり、任意の数量名詞と名詞の間に「の／助詞」を追加することを指示するものである。

それぞれの規則では、修正前と修正後の単語状況を、正規表現を利用して記述する。規則１では、修正前の単語が「を／助詞」や「は／助詞」であるものにマッチしたら、この単語の修正候補として順次指定された助詞を導出する。規則２では、修正前として、任意の表記で品詞が形容詞である単語「＊／形容詞」と「の／助詞」が連続する単語列にマッチしたら、１つ目にマッチした（＝＄１）形容詞だけを残したものを修正候補として導出し、「の／助詞」は削除される。規則３では、表記は任意で、品詞の並びが数量名詞と名詞の連続である単語列にマッチしたら、１つ目にマッチした（＝＄１）数量名詞と２つ目にマッチした（＝＄２）名詞の間に「の／助詞」を追加したものを修正候補して導出する。

一方、図６に示すように、本実施の形態に係る修正対象文データベースＤＢ３は、本実施の形態に係る誤り文修正装置１０によって修正対象とされている文（修正対象文）の各々毎に、ＩＤおよび修正対象文の各情報が記憶されるように構成されている。

上記「ＩＤ」は、対応する修正対象文を特定（識別）するために当該修正対象文の各々毎に異なるものとして予め付与されたＩＤ（Identification）情報であり、上記「修正対象文」は、対応する修正対象文のテキスト・データである。図６に示す例では、修正対象文として、ＩＤとして「１０００１」が付与された「小さいのグラフィクは使用する」等とのテキスト・データが登録されていることを示している。

さらに、図７に示すように、本実施の形態に係る修正文データベースＤＢ４は、本実施の形態に係る誤り文修正装置１０による修正によって得られた修正文の各々毎に、ＩＤおよび修正文の各情報が記憶されるように構成されている。

上記「ＩＤ」は、上記修正対象文データベースＤＢ３のＩＤと同一の情報であり、上記「修正文」は、対応するＩＤに関連付けられて修正対象文データベースＤＢ３に登録されている修正対象文を誤り文修正機能によって修正して得られた修正文のテキスト・データである。図７に示す例では、ＩＤとして「１０００１」が付与された「小さいのグラフィクは使用する」との修正対象文の修正文として、「小さいグラフィックを使用する」とのテキスト・データが登録されていることを示している。

なお、ＨＤＤ２８のデータベース領域ＤＢには、候補導出処理部１４ｂにより実行される近似文字列を照合する処理で用いられる近似辞書がデータベース化された近似辞書データベースも構築されている。なお。近似辞書データベースは、単語辞書と同じ内容（表記、品詞、読み、等）をもち、単語辞書を近似辞書照合が可能なフォーマットに変換したものである。近似辞書照合が可能なフォーマットとは、単語表記の一部分を欠落させた表記を全展開したものである。

以上のように構成された誤り文修正装置１０による誤り文修正機能等を実現するための各種処理は、プログラムを実行することにより、コンピュータを利用してソフトウェア構成により実現してもよい。ただし、ソフトウェア構成による実現に限られるものではなく、ハードウェア構成や、ハードウェア構成とソフトウェア構成の組み合わせによって実現してもよいことは言うまでもない。

以下では、本実施の形態に係る誤り文修正装置１０が、上記プログラムを実行することにより各種処理を実現するものとされている場合について説明する。この場合、当該プログラムを誤り文修正装置１０のＨＤＤ２８等の記憶手段に予めインストールしておく形態や、コンピュータ読み取り可能な記録媒体に格納された状態で提供される形態、有線または無線による通信手段を介して配信される形態等を適用してもよい。

次に、図８を参照して、本実施の形態に係る誤り文修正装置１０の作用を説明する。なお、図８は、予め定められたタイミング（本実施の形態では、キーボード３０を介して実行する旨の指示入力が行われたタイミング）で誤り文修正装置１０のＣＰＵ２２によって実行される誤り文修正処理プログラムの処理の流れを示すフローチャートであり、当該プログラムはＨＤＤ２８のプログラム領域ＰＧに予め記憶されている。また、ここでは、錯綜を回避するために、単語辞書データベースＤＢ１、修正規則データベースＤＢ２、修正対象文データベースＤＢ３、および近似辞書データベースが予め構築されている場合について説明する。

同図のステップ１００では、修正対象文データベースＤＢ３から何れか１つの修正対象文を示すテキスト・データ（以下、「処理対象文」という。）を読み出し、次のステップ１０２では、読み出した処理対象文に対して、前述した形態素解析処理部１２と同様の処理により形態素解析処理を実行する。本ステップ１０２の処理により、一例として図１０に示す単語列データが得られる。

次のステップ１０４では、修正候補導出処理ルーチン・プログラムを実行する。以下、図９を参照して、本実施の形態に係る修正候補導出処理ルーチン・プログラムについて説明する。なお、図９は、修正候補導出処理ルーチン・プログラムの処理の流れを示すフローチャートであり、当該プログラムもＨＤＤ２８のプログラム領域ＰＧに予め記憶されている。

同図のステップ１５０では、上記ステップ１０２の処理によって得られた単語列データに対して、前述した候補導出処理部１４ｂと同様の処理により修正候補（以下、「第２修正候補」という。）を導出し、次のステップ１５２では、上記ステップ１０２の処理によって得られた単語列データに対して、前述した候補導出処理部１４ａと同様の処理により修正候補（以下、「第１修正候補」という。）を導出する。この際、本ステップ１５２では、上記単語列データに対して上記ステップ１５０の処理によって導出された第２修正候補も含めた状態で第１修正候補を導出するようにする。

ここで、図１１には、図１０に示した単語列データに対して、図５に示した修正規則データベースＤＢ２を用いて上記ステップ１５２の処理によって得られる第１修正候補の一例が示されている。なお、図１１では、修正前の単語列の下線で示した部分に対して規則がマッチし、その部分に対応する修正候補が導出されていることを示している。

一方、図１２には、図１０に示した単語列データに対して、上記ステップ１５０の処理により、近似辞書データベースを利用してカタカナの辞書未登録語（品詞がカナ：Ｕｎｄｅｆであるもの）から近似辞書中のエントリと近いものを照合したときの照合結果を修正候補とした場合の一例が示されている。なお、ここでは、「グラフィク」という文字列に対して、近似辞書中の「グラフィック／名詞」が候補として導出されている。なお、このように、本実施の形態では、カタカナ未知語の例を示すが、これに限らず、任意の未知語に対して近似辞書照合を行うことが可能であることは言うまでもない。

ここで、本実施の形態に係る誤り文修正装置１０では、候補導出処理部１４ｂによる処理を実行した後に候補導出処理部１４ａの処理を実行している。これにより、候補導出処理部１４ｂの出力を元に候補導出処理部１４ａを実行できるため、図１１に示した実施例における規則１の結果に対して、図１３で示される修正候補が新たに追加される。なお、図１３に示す例では、候補導出処理部１４ｂで「グラフィク」の部分の修正候補として「グラフィック／名詞」が発生しているため、この部分で新たな修正候補が追加される。

上記ステップ１５２の処理が終了すると、修正候補導出処理ルーチン・プログラムを終了して誤り文修正処理プログラム（メイン・ルーチン）のステップ１０６に移行し、前述した単語ラティス生成処理部１６と同様の処理により単語ラティスを生成する。

図１４および図１５には、上記ステップ１０４の処理において候補導出処理部１４ｂによる処理の実行後に候補導出処理部１４ａを実行した場合の、ステップ１０６の処理によって生成される単語ラティスの状態の一例を示す。なお、同図では、紙面の都合上、品詞情報は省略している。先頭＜ｓ＞および末尾＜／ｓ＞は、それぞれ文頭、文末を現す擬似的な記号であり、どの入力文に対しても設定されるものである。

図１４に示す例の場合、規則２由来の修正候補は誤り確率０．７であり、その流出パスである「の」を削除して次の隣接する単語へ到るパスに０．７が付与される。また、「グラフィク」と「グラフィック」の候補導出処理部１４ｂに基づく誤り確率値は、それぞれの語から次の単語へ到る流出パスに０．２，０．８の値が付与される。また、規則１由来の修正候補の誤り確率値も流出パスに０．１が付与される。同様に、図１５に示す例の場合、規則３由来の「の」を挿入して隣接する単語へ流出するパスに誤り確率０．５が、規則１由来の助詞から流出するパスに０．１が、それぞれ付与される。

次のステップ１０８では、前述した最尤単語列探索処理部１８と同様の処理により最尤単語列を探索することにより修正文を生成し、次のステップ１１０にて、当該修正文を予め定められた形式で出力する。

図１６には、上記ステップ１１０の処理によって出力された修正文の例が示されている。なお、同図に示した例は、形態素解析と同様の形式で出力した場合の例であるが、「表記」だけを取り出して繋げることにより、入力された修正対象文がそれぞれ「小さいグラフィックを使用する」、「２つのメールが届く」に修正されたことがわかる。また、形態素解析と同様の形式で出力して活用することにより、元の修正対象文の形態素解析の結果（単語列データ）と比較することにより、例えば１つ目の修正対象文の場合は、２単語目の「の」が削除された、３単語目の「グラフィク」が「グラフィック」に置換された、４単語目の「は」が「を」に置換された、というように、具体的な修正内容も得ることができる。

なお、本実施の形態に係る誤り文修正装置１０では、上記ステップ１１０における修正文の出力処理として、一例として図１７に示すようにディスプレイ３４に修正文を表示させる処理と、修正文を修正文データベースＤＢ４に対応する修正文に関連付けた状態で登録する処理を適用している。しかしながら、これらの処理に限らず、修正文を不図示のプリンタ等の画像形成装置によって印刷する処理や、修正文を不図示のスピーカ等の音声再生装置によって発声させる処理等の、単独または複数組み合わせた処理を適用してもよい。

次のステップ１１２では、処理対象とする全ての修正対象文について上記ステップ１００〜ステップ１１０の処理が終了したか否かを判定し、否定判定となった場合は上記ステップ１００に戻る一方、肯定判定となった時点で本誤り文修正処理プログラムを終了する。

以上詳細に説明したように、本実施の形態では、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第１修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第２修正候補として導出し、導出した第１修正候補および第２修正候補を用いて単語ラティスを生成し、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成しているので、形態素解析によって得られた単語列データを高精度で修正することができる。

また、本実施の形態では、前記単語列データが、当該単語列データにおける単語の各々毎に当該単語を示す表記および品詞を有し、前記単語列データにおける単語について、前記表記および前記品詞の少なくとも一方に関する前記文法上の規則に応じた修正候補を前記第１修正候補として導出すると共に、前記単語列データにおける単語について、近似度が予め定められた閾値以上になる前記表記とされた単語を第２修正候補として導出しているので、既存の単語列データに含まれる表記および品詞を有効に利用して第１修正候補および第２修正候補を導出することができる。

特に、本実施の形態では、前記単語列データにおける単語を別の単語に置き換える置換、前記単語列データにおける単語を消去する削除、および前記単語列データに新しい単語を加える挿入を用いて、前記第１修正候補を導出して導出しているので、これらに応じた第１修正候補を得ることができる。

さらに、本実施の形態では、前記第２修正候補を導出した後、前記単語列データに前記第２修正候補を含めた状態で前記第１修正候補を導出しているので、未知語が少なくされた状態で第１修正候補を導出することができる結果、より高精度で形態素解析によって得られた単語列データを修正することができる。

また、本実施の形態では、誤り修正をｎｏｉｓｙｃｈａｎｎｅｌｍｏｄｅｌで定式化し、誤りモデルと言語モデルを分離することで、両者を独立に設計・改善するシステムが実現できる。更に、誤りモデルにおいて、実現したい誤り文修正機能を自由に選択・追加する全体システムの設計が可能となる。

また、本実施の形態では、誤り文修正機能のうち、単語辞書登録語単位の修正のための候補導出として、正規表現に基づく手法を提案した。この手法では、汎用的な正規表現の枠組みを利用することにより、代表的には助詞の誤りの他、形容詞や動詞の修正も可能となる。更に、「機会」、「機械」のような同音異義語のデータベースを準備すれば、この修正も新しい機能として追加可能である。

また、本実施の形態では、カタカナ未知語のように辞書未登録語の誤りについては、近似辞書照合を利用した修正機能を提案した。

以上のようにして単語辞書登録語の連接の不自然さに基づく誤りと、単語辞書登録語から外れた表記である辞書未登録語に基づく誤りを同時に修正する誤り文修正装置を実現した。これにより、複数の誤り種類に対して平行して修正が可能となる。また、２つの系統に分かれた候補導出処理の処理順序を工夫することにより、より効果的な候補修正も可能となる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施の形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も本発明の技術的範囲に含まれる。

また、上記の実施の形態は、クレーム（請求項）にかかる発明を限定するものではなく、また実施の形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。前述した実施の形態には種々の段階の発明が含まれており、開示される複数の構成要件の組み合わせにより種々の発明が抽出される。実施の形態に示される全構成要件から幾つかの構成要件が削除されても、効果が得られる限りにおいて、この幾つかの構成要件が削除された構成が発明として抽出され得る。

例えば、上記実施の形態では、本発明を、コンピュータを利用してソフトウェア構成により実現した場合について説明したが、本発明はこれに限定されるものではなく、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成の組み合わせによって本発明を実現してもよい。

本発明を、ハードウェア構成を含んで実現する場合の形態としては、図１に示される各構成部位のうち、所望の部位を半導体ＩＣや電気回路等のハードウェアにより構成して適用する形態を例示することができる。

また、上記実施の形態では、単語ラティスを生成するのみで、データベース等に記憶することを行わない場合について説明したが、本発明はこれに限定されるものではなく、例えば、単語ラティスについても記憶する形態としてもよい。

また、上記実施の形態では、修正対象文データベースＤＢ３から修正対象文を入力する場合について説明したが、本発明はこれに限定されるものではなく、例えば、キーボード３０、マウス３２等の入力装置を介して修正対象文を入力する形態としてもよく、インターネット、ローカル・エリア・ネットワーク等の通信回線を介して修正対象文を入力する形態としてもよい。

また、上記実施の形態では、単語辞書データベースＤＢ１と近似辞書データベースとを個別に用意する場合について説明したが、本発明はこれに限定されるものではなく、近似辞書データベースとして単語辞書データベースＤＢ１を共用して用いる形態としてもよい。

また、上記実施の形態で示した各データベースの構成（図４〜図７参照。）は一例であり、新たな情報を追加したり、不要な情報を削除したり、構造を変更したりすることができることは言うまでもない。

また、上記実施の形態で適用した各演算式（（１）式〜（６）式）は一例であり、これらの演算式も適宜変更して用いることができることは言うまでもない。

さらに、上記実施の形態で示した修正文の表示状態（図１７参照。）も一例であり、各種表示対象の表示位置を変更したり、表示内容を変更したりすることができることは言うまでもない。

１０誤り文修正装置
１２形態素解析処理部
１４修正候補導出処理部
１４ａ候補導出処理部
１４ｂ候補導出処理部
１６単語ラティス生成処理部
１８最尤単語列探索処理部
２２ＣＰＵ
２４ＲＡＭ
２６ＲＯＭ
２８ＨＤＤ
３０キーボード
３４ディスプレイ

Claims

修正対象とする文から形態素解析によって得られた単語の各々毎に当該単語を示す表記および品詞を有する単語列データにおける単語について、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第２修正候補として導出した後、前記単語列データにおける単語辞書にない単語を、導出された前記第２修正候補に置き換えた前記単語列データにおける単語について、助詞を別の助詞に置き換える規則、形容詞の直後に出現する助詞を消去する規則、及び数量名詞と名詞との間に助詞「の」を挿入する規則の少なくとも１つの規則に応じた修正候補である第１修正候補を導出する修正候補導出手段と、
前記修正候補導出手段によって導出された第１修正候補および第２修正候補を用いて単語ラティスを生成する単語ラティス生成手段と、
前記単語ラティス生成手段によって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成手段と、
を備えた誤り文修正装置。
前記修正候補導出手段は、前記単語列データにおける単語について、前記単語辞書に含まれる単語から、前記単語列データにおける単語と単語全体において一致する文字数に基づく一致度が、予め定められた閾値以上である単語を、前記第２修正候補として導出する請求項１記載の誤り文修正装置。
予め定められた複数種類の単語の各々毎の表記および品詞を含む単語辞書、および正規表現とされた前記規則を予め記憶した記憶手段をさらに備え、
前記修正候補導出手段は、前記記憶手段に記憶された前記単語辞書および前記規則を用いて前記第１修正候補および前記第２修正候補を導出する
請求項１又は請求項２記載の誤り文修正装置。
修正対象とする文から形態素解析によって得られた単語の各々毎に当該単語を示す表記および品詞を有する単語列データにおける単語について、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第２修正候補として導出した後、前記単語列データにおける単語辞書にない単語を、導出された前記第２修正候補に置き換えた前記単語列データにおける単語について、助詞を別の助詞に置き換える規則、形容詞の直後に出現する助詞を消去する規則、及び数量名詞と名詞との間に助詞「の」を挿入する規則の少なくとも１つの規則に応じた修正候補である第１修正候補を導出する修正候補導出ステップと、
前記修正候補導出ステップによって導出された第１修正候補および第２修正候補を用いて単語ラティスを生成する単語ラティス生成ステップと、
前記単語ラティス生成ステップによって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成ステップと、
を含む誤り文修正方法。
コンピュータを、請求項１から請求項３の何れか１項に記載の誤り文修正装置の各手段として機能させるためのプログラム。