JP6235373B2

JP6235373B2 - 言語解析方法及びシステム

Info

Publication number: JP6235373B2
Application number: JP2014036496A
Authority: JP
Inventors: 亮永田
Original assignee: Edulab
Current assignee: Edulab
Priority date: 2013-03-02
Filing date: 2014-02-27
Publication date: 2017-11-22
Anticipated expiration: 2034-02-27
Also published as: JP2014209317A

Description

本発明は、英語文章の正誤を自動解析するための言語解析方法に関し、特に、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法及びシステムに関する。

教育支援などの目的で、自由作文された英語文章の正誤をコンピュータで自動解析するような場合にあっては、英語文章が表現しようとする意味を把握する必要があり、構文解析処理と意味解析が用いられる。まず、文章を単語（形態素）に分解し、辞書を参照して各単語にその構文情報や意味情報を付加し（形態素解析処理）、これらから所定の規則に従って文章の句構造や依存構造を機械的に解析する。得られる構文木や動詞に対する格フレームの情報から動詞と名詞の意味的な整合性を与えることで文章が表現しようとする意味を解析できる。

例えば、特許文献１では、形態素解析処理のなされた英語文章の単語列を入力すると、該単語列の文頭側の語句から順次着目してその構文的意味関係を判定し、英語文章の句構造若しくは依存構造を決定する構文解析処理をコンピュータで自動解析する方法を開示している。ここでは、接続し得る単語が複数ある前置詞句を含む英語文章において、構文解析処理によりその正当な接続先を決定する方法について特に述べている。これによれば、文章が表現しようとする意味の正確な把握を与え得る。

ところで、英語の単語（形態素）である前置詞の用法は複雑であり、文脈に応じた適切な前置詞を選択することは難しい。例えば、“He will go back Japan.”は、“He will go back to Japan.”の前置詞が抜けた誤りであるが、慣用的であるため比較的容易に誤りであることを判断できるであろう。一方、例えば、“I walked with my dog in the morning. ”では、前置詞「with」が不要であるが、誤りの理由を説明することは難しい。つまり、“walk with a dog”では，犬と一緒になって犬のように歩く様子を想起させるので、犬を散歩させるという意味の場合は、“walk a dog”が自然である」というような説明を与えることになる。ここでは、文章が表現しようとする意味によって前置詞の有無の正誤の判断が異なり得るのである。

このような英語文章における前置詞の正誤をコンピュータで自動解析する場合にあっても、構文解析処理と意味解析が用いられ得る。ここで、近年、各種のコーパスが整備されているが、非特許文献１では前置詞の誤りがランダムに起こるのではなく母語に応じた誤りの傾向があることを述べており、英語以外の特定言語を母語とする者により作成された英語文章のコーパスには、該特定言語に特有の前置詞の誤りの傾向が反映されているはずである。更に、例えば、非特許文献２に述べられているようなコーパスから格フレームをコンピュータで自動生成する方法を用いることで、英語文章における前置詞の正誤をコンピュータで自動解析できるであろう。

特開２００５−１３４６９１号公報

Alla Rozovskaya and Dan Roth, "Algorithm Selection and Model Adaptation for ESL Correction Tasks", Proc. of the 49th Annual Meeting of the Association for Computational Linguistics, pp 924-933, Portland, Oregon, June 19-24, 2011 D. Kawahara and S. Kurohashi, "Acquiring reliable predicate-argument structures from raw corpora for case frame compilation", Proc. of LREC, pp.1389-1393, 2010.

上記したように、母語に応じた前置詞の誤りの傾向があるなら、英語以外の言語を母語とする者により作成された英語文章のコーパスから得られた格フレームと、英語を母語とする者により作成された英語文章のコーパスから得られた格フレームとを比較することで、英語以外の特定言語を母語者とする者により作成された英語文章の正誤を自動解析できるはずである。

本発明は、上記したような状況に鑑みてなされたものであって、その目的とするところは、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法を提供することにある。

本発明による言語解析方法は、英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析方法であって、（１）英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得るステップと、（２）前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として１つの格フレームに統合するステップと、（３）前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加えるステップと、（４）前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定するステップと、を含むことを特徴とする。

かかる発明によれば、英語の母語話者による英語文章からなる参照英語コーパス及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスを用いて誤り格フレームを作成できて、該特定言語の母語話者による英語文章における前置詞の正誤をコンピュータにて自動解析できるのである。

上記した発明において、（３）前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの１つであることを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をより高い精度でコンピュータにて自動解析できるのである。

本発明による言語解析システムは、英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析システムであって、（１）英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパス、のそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得る手段と、（２）前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として１つの格フレームに統合する手段と、（３）前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加える手段と、を含むことを特徴とする。

かかる発明によれば、英語の母語話者による英語文章からなる参照英語コーパス及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスを用いて誤り格フレームを作成できて、該特定言語の母語話者による英語文章における前置詞の正誤をコンピュータで自動解析させ得るのである。

上記した発明において、（４）前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定する手段と、を含むことを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をコンピュータで自動解析できるのである。

上記した発明において、（３）前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの１つであることを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をより高い精度でコンピュータによって自動解析できるのである。

本発明のシステム構成を示す図である。誤り格フレームを示す図である。本発明の方法の要部である誤り格フレーム生成のフロー図である。格フレームを示す図である。格フレームの統合の説明図である。確率的に誤りやすい前置詞の説明図である。格フレームの訂正情報の決定についての図である。格フレームの訂正情報の決定についての図である。格フレームの訂正情報の決定についての図である。

図１乃至図７を用いて、本発明の１つの実施例による、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法及びそのためのシステムの詳細を説明する。

図１に示すように、言語解析システム１は、主として、解析処理の中枢を担う中央制御部３０と、中央制御部３０とともに各種処理を行う処理プログラムとしての誤り格フレーム作成部３２及び正誤判断部３４とを含む。また、中央制御部３０は、適宜、コーパス部１００の英語の母語話者による英語文章からなる母語話者コーパス（参照英語コーパス）１０２及び英語以外の特定言語の母語話者による英語文章からなる非母語話者コーパス（特定英語コーパス）１０４の情報を参照可能に接続されている。なお、コーパス部１００は、言語解析システム１の外部にあって、ネット回線などを経由して参照可能になっていてもよい。更に、前置詞の正誤判断の対象となる英語文章のテキストデータを入力するためのキーボードやスキャナなどの入力装置５１、解析結果を出力するための印字機（プリンタ）５２や映像装置（モニタ）５３などが入出力インターフェース部５０を介して接続されている。

まず、誤り格フレーム作成部３２により作成される誤り格フレーム１０の構成について説明する。

図２に示すように、誤り格フレーム１０は、文章の中心となる動詞１７を必ず含み、動詞１７を記載するスロットとしての動詞欄１１以外に、基本格を記載するスロットとしての基本格欄１２、前置詞格を記載するスロットとしての前置詞格欄１４、前置詞の誤りに関する説明を記述する部分であるフィードバックメッセージ欄１６からなる。つまり、基本格欄１２及び前置詞格欄１４は、英語文章中の動詞１７がどのような表層格を取るかを記載する欄となる。

基本格欄１２及び前置詞格欄１４の”Subj:”、“Prt:”、“Prep_do:”、”Prep_with:”などの格標識１８は、主格などの格の種類を表すためのラベルである。また、これら格標識１８の横に並ぶ“PERSON”、”back”、”tokyo”、”japan”の格要素１９は、格標識１８の付与される語を表している。なお、人を表す“PERSON”や中カッコ{}については後述する。更に、以下において、特に断らない限り、「格」とは、格標識１８と格要素１９とを合わせたものを指称するものとする。

ここで、基本格欄１２は少なくとも１つ以上の格からなるものとし、基本格欄１２に入り得る格標識１８は、例えば、少なくとも、“Subj:”（Subject：主格）、“Prt”（Particle：小詞）、“Com”（Complement：補語）の３種類を考慮する。なお、“Subj:”は必須である。

前置詞格欄１４も少なくとも１つ以上の格からなるものとし、動詞が取りうる前置詞を記述する。具体的には、前置詞格欄１４の格標識１８は、“Prep_x”のように記述する。但し、xの部分には前置詞が入る。例えば、前置詞が”to”であれば、”Prep_to”のように記述する。なお、動詞の直接目的語を表すための”Prep_do”や、間接目的語を表すための”Prep_io”も便宜的に前置詞格に含める。これは、前置詞の抜け落ちや、前置詞の不要な場合に対応するためである。

さらに、前置詞格欄１４において、誤りがある格に“*”を付与することで誤り情報であることを示す。例えば、図２では、“*Prep_do:{tokyo, japan}”の部分が誤りとなる格であり、”Prep_do”、すなわち、直接目的語として、“tokyo”や“japan”を取ることは誤りであって、何らかの前置詞が必要なことを意味している。これに対して、誤りである格の後ろに、訂正情報を“→”を用いて記述する。つまり、“*Prep_do:{tokyo, japan}”は、“Prep_to:”が前置詞格として正しいことを意味している。

基本格欄１２と前置詞格欄１４において、共通して使用される記述方式を２種類定義する。１つは、括弧“（）”を用いて表す任意格であり、例えば、“（Prt:back）”の如きである。もう１つは、格要素１９が複数ある場合に、複数の格要素をカンマで区切って、中括弧で囲うこととし、例えば、”*Prep_do:{tokyo, japan}”の如きである。なお、例えば、特定の動詞に依存しないような誤り格フレーム１０を定義する場合、動詞欄１１に“ALL”を入れるようにもできる。つまり、どのような動詞１７であっても、かかる誤り各フレーム１０が該当するのである。これにより、同じ格を有し、且つ、同じ誤りを有する異なる動詞に対する誤り格フレーム１０をまとめて記述できるのである。同様に、格標識１８や格要素１９においても、特定のものに依存しない表記を与えて、誤り格フレーム１０をまとめて記述できるようにもできる。

フィードバックメッセージ欄１６は、前置詞の誤りに関する説明を記述する部分であって、後述する誤り格フレーム１０を解釈し、主に作業者によって記述される。かかる説明は、誤り検出／訂正の際に、学習者へのフィードバックなどに使用できる。

次に、誤り格フレーム作成部３２により誤り格フレーム１０を作成する方法について図３に沿って説明する。

ところで、誤り格フレーム１０を生成するための基本アイデアは、非母語話者コーパス１０４に存在し、母語話者コーパス１０２には存在しない格フレームを誤り格フレーム１０とするものである。但し、これだけでは、正しい格フレームが誤り格フレーム１０として抽出されてしまう。そこで、以下のような方法を採用する。

（１）コーパスからの格フレームの生成
まず、母語話者コーパス１０２及び非母語話者コーパス１０４のそれぞれについて、各文を構文解析する下処理を行っておく（図３、Ｓ１）。ここで、本解析においては、後述する誤り格フレーム１０の作成に不適切な文を予め除外しておくことが好ましい。これは、例えば、所定以上のトークンの長さの文や、所定個数以上のカンマを含む文を除く処理である。また、適宜、この処理を非母語話者コーパス（特定英語コーパス）１０４よりも大規模となる母語話者コーパス（参照英語コーパス）１０２のみに与えても良い。

次に、図４に示すように、構文解析の結果から、格フレーム１０ａの動詞欄１１、基本格欄１２及び前置詞格欄１４の各スロットを埋めて格フレームを生成する（図３、Ｓ２）。例えば、図４（ａ）に示す”He will go back Japan with his son.”なる英語文章に対しては、図４（ｂ）に示すように、動詞”go”を動詞欄１７に、その他の格を対応する箇所に配置していく。

ここで、格要素１９には、対応する名詞相当句の主辞（head）を小文字且つ原形にしたものを用いる。例えば、”Japan”は、”japan”とする。但し、接尾辞“-ing”は前置詞の決定に影響を与えることがあるため、語尾が“-ing”である語については原形にしない。また、一部の語については、対応する意味を表す特別な語に置換する。この意味を表す特別な語は大文字のみを用いて表記する。例えば、“he”や”his son”は、人であることを表す“PERSON”に置換する。かかる置換は、単純な辞書引きに基づいて自動的に行うことができる。また、非母語話者コーパス（特定英語コーパス）１０４からの処理には、スペルチェッカにより綴り誤りを訂正しておくことが好ましい。

以下において、母語話者コーパス１０２及び非母語話者コーパス１０４からそれぞれ抽出された格フレーム１０ａの集合を母語話者格フレーム１０ｂ及び非母語話者格フレーム１０ｃとする。

ところで、以下の３つの条件のいずれかに当てはまる場合には、例外として上記した格フレーム１０ａの生成を行わないことも場合に応じて考慮できる。１つ目は、動詞が接続詞により並列されている場合であり、例えば、”go and get it”のようなものである。これは、並列により前置詞の用法が変更されることがあるためである。２つ目は、“be”、“do”、“have”は、助動詞としても使われる特殊な動詞であり、例外とし得る。３つ目は、格要素が、“it”、“this”、“that”、“one”及び通常名詞の働きをしない単語、例えば、”the”である場合も例外とすることも考慮できる。“it”、“this”、“that”、“one”は、具体的に指すものにより格の用法が異なると考えられるためである。その他については、構文解析の誤りの可能性が高いためである。

ここで、上記した格フレーム中の任意格となる前置詞格の同定は、（i）目的語は常に必須格とする（目的語も便宜的に前置詞格として扱う）、（ii）動詞より左に出現する前置詞格は常に任意格とする、（iii）動詞より右に出現する前置詞格は動詞に一番近いものを除いて全て任意格とする、ことによる。例えば、（ii）について、“In the morning, he went shopping.”では、“In the morning”の前置詞格が動詞よりも左に出現しているため任意格とされる。また、（iii）について、“He went to the market with his family.”では、動詞からより遠い“with his family”が任意格とされるのである。

任意格の同定について、上記したヒューリスティクス以外に、２つの格フレームを比較してもよい。例えば、“He went shopping” と“He went shopping at the market.”とを比較すると、“at the market”がなくとも文として成立し得て、これを任意格と同定出来得るのである。

（２）格フレームの統合
母語話者コーパス１０２から抽出された母語話者格フレーム１０ｂについて統合処理を行う（図３、Ｓ３）。統合処理は、母語話者格フレーム１０ｂの２つの格フレーム１０ａについて、（i）動詞が同一であり、（ii）基本格が同一であり、且つ、（iii）前置詞格の格標識が同一である場合に、前置詞格欄１４の格要素１９を格標識１８ごとに統合する。

図５に示すように、例えば、格フレーム１０ｂ−１の[Prep_to:tokyo]と格フレーム１０ｂ−２の[Prep_to:japan]とは、”Prep_to:”の格要素１９である”tokyo”及び”japan”以外を共通にするため、この格要素１９について中カッコ{}を用いた和集合の型式にして、格フレーム１０ｂのように[Prep_to:{tokyo, japan}]と統合する。

なお、上記したように、統合処理は母語話者コーパス１０２から抽出された母語話者格フレーム１０ｂについてのみ行う。これは、非母語話者コーパス１０４から抽出された非母語話者格フレーム１０ｃには、正しい格フレームと誤り格フレームの両方が含まれるため、両者が統合されてしまうと１つの格フレームに正誤の格要素１９が含まれてしまうからである。なお、非母語話者格フレーム１０ｃについては、動詞、基本格、前置詞格が同一である場合にのみ統合を行ってもよい。また、統合の際に、各格要素１９の頻度を記録し、頻度情報を誤り格フレーム１０の生成に利用しても良い。

（３）誤り格フレーム候補の取得
母語話者格フレーム１０ｂと非母語話者格フレーム１０ｃとを比較し、誤り格フレーム１０の候補を取得する（図３、Ｓ４）。ここでは、非母語話者コーパス１０４から抽出された非母語話者格フレーム１０ｃにのみ存在する格フレームを誤り格フレーム１０の候補とする。

（４）訂正情報の決定
誤り格フレーム１０の候補に対して訂正情報を決定する（図３、Ｓ５）。これには母語の影響を考慮した後述する誤りセット（confusion set）を用いて、前置詞格欄１４内の格標識１８を変更しつつ決定する。なお、格標識１８が複数あるときは、１つのみ変更しつつ決定する。

ところで、母語の影響を考慮するには、当該母語話者の書いた英語文章からなる非母語話者コーパス１０４を用いればよい。例えば、フランス語を母語とするフランス語話者を対象とする場合には、フランス語話者が書いた英語文章を非母語話者コーパス１０４に使用することで、自然に母語の影響を考慮できる。

ここで、上記した非特許文献１に述べられているように、前置詞の誤りはランダムに起こるのではなく、母語に応じた誤りの傾向がある。例えば、図６に示すように、フランス語の前置詞“`a”は、英語の前置詞“at”、“in”、“to”などに対応するため、フランス語話者は、これらの前置詞を互いに混同する傾向にあると予想できる。そこで、例えば[“at”、“in”]を“to”に対する誤りセットとする。このような母語に応じた英語の各前置詞の誤りセットを用意し、訂正情報の決定（図３、Ｓ５）に用いるのである。

本実施例では、統計的機械翻訳の確率テーブルを利用して自動的に誤りセットを作成する。つまり、直観的には、確率の値に基づいて、混同されやすい前置詞を特定していることになる。

再び、図６を参照すると、具体的には、左の列がフランス語（仏語）の単語、右の列が英語の単語である。なお、この例では、左右全ての単語が前置詞であるが、必ずしも前置詞である必要はなく、対応する単語であればよい。図中の矢印は、フランス語の各単語が翻訳されやすい英単語を表す。すなわち、”e”が英単語、”ｆ”がフランス語の単語をそれぞれ表すとき、確率Pr(e|f)がある一定の値以上の単語の組に矢印が付与されている。例えば、英語の“to”は、フランス語の“`a”から翻訳される確率が高いことを示す。一方で、フランス語の“`a”は、“to”以外にも“at”と“in”にも翻訳されやすい。つまり、“to”は“at”や“in”と混同されやすい。このように、矢印を２回たどることで誤りセットを作成する。

最終的に、前置詞の抜け落ちや、前置詞の不要な場合に対応するために、それぞれ“Prep_do”と“Prep_io”も誤りセットに加える。例えば、“to”に対する誤りセットとして、{Prep_at, Prep_in, Prep_do, Prep_io}が得られる。

なお、図６において、“in”のように、１回目にたどる矢印が複数ある場合は、それぞれの矢印をたどり、得られた前置詞の和集合を誤りセットとする。つまり、“in”に対する誤りセットは、{Prep_to, Prep_at, Prep_of, Prep_do, Prep_io}となる。

図７（ａ）に示した[Prep_do:Tokyo Prep_with:PERSON]の訂正情報の決定について説明する。”Prep_do:”について、これを含む誤りセットを選択しこの中から他の前置詞を含む格標識１８、例えば、誤りセット{Prep_at, Prep_in, Prep_do, Prep_io}のうちの”Prep_at”や“Prep_to:”に変更する。例えば、“Prep_to:”に変更するなら、[Prep_to:Tokyo Prep_with:PERSON]を得る。かかる格フレームが母語話者格フレーム１０ｂに存在すれば、その格標識１８は正しいものと判定し、訂正情報として決定する（図７（ｂ）参照）。更に、図８に示すように、訂正情報を示す”*”を与えて、誤り格フレーム１０の候補に記述したものを誤り格フレーム１０として確定する。

（５）格要素の拡張
次に、誤り格フレーム１０のカバー率を向上させるために、前置詞格欄１４内の格要素１９を拡張する（図３、Ｓ６）。上記した訂正情報により、誤り格フレーム１０に対応する正しい格フレームが母語話者格フレーム１０ｂにおいて特定できる。図７（ｂ）に示すように、例えば、誤り格フレーム１０の[*Prep_do:tokyo→Prep_to]（図８参照）に対して、母語話者格フレーム１０ｂでは[Prep_to:{tokyo, japan}]が対応する。統合処理（図３、Ｓ３）により母語話者格フレーム１０ｂでは、格要素１９が統合されて和集合で記載されている。図９に示すように、この格要素１９の情報を誤り格フレーム１０の対応する格に追加して、誤り格フレーム１０の格要素１９を拡張できる。つまり、図２に示すように、[*Prep do:{tokyo, japan}→Prep_to]として格要素１９に“japan”が追加される。なお、この拡張が真に誤りを表しているかを確認するために、新しく得られた誤り格フレーム１０が母語話者格フレーム１０ｂに存在しない場合にのみ拡張を許すこととする。

（６）誤り格フレームの出力
得られた誤り格フレーム１０を出力、所定のデータベースに構築する（図３、Ｓ７）。上記した誤り各フレーム１０についての情報を、例えば、XML形式で出力し、データベースに構築し、後述する正誤判定に使用できる。

以上において、誤り格フレーム１０は、母語話者コーパス１０２と非母語話者コーパス１０４さえあれば自動生成でき、時間と労力を要する誤り情報の付与という作業を必要としない。かかる方法では、誤り情報の付与を必要としない代わりに、２つのコーパスを２度比較することで誤り格フレーム１０の正当性をチェックしている（図３、Ｓ４及びＳ５）。

なお、誤り情報が付与された非母語話者コーパス１０４を用いて誤り格フレーム１０を生成することも可能である。その場合には、誤り情報により誤り格フレーム１０の選択と訂正情報の決定を行う。

次に、上記した誤り格フレーム１０を用いて、非母語話者コーパス１０４に関する英語以外の特定言語の母語話者による英語文章を正誤判定部３４により正誤判定する方法について説明する。

まず、正誤判定部３４は、正誤判定を行う英語文章について構文解析を行った上で格フレームを生成する。格フレームの生成方法については上記したコーパスからの格フレームの生成と同様である。次に、かかる格フレームを上記した所定のデータベース中の誤り格フレーム１０と照合して動詞欄１７、格標識１８、格要素１９のいずれも合致する誤り格フレーム１０があれば、かかる英語文章の前置詞に誤りがあると判定するのである。なお、正誤判定において合致した誤り格フレーム１０の訂正情報を用いると、かかる前置詞の誤りを訂正することも可能である。

正誤判定においては、上記したように、正誤判定を行う英語文章の作成者の母語に応じた非母語話者コーパス１０４を使用して得た誤り格フレーム１０のデータベースを用いることで、正誤判定の精度を向上させることができる。例えば、日本語を母語とする日本語話者による英語文章は、日本語話者の書いた英語文章による非母語話者コーパス１０４を用いて得た誤り格フレーム１０のデータベースを用いるのである。この場合、日本語において前置詞は無いが、助詞が対応し、誤りセットを同様に作成出来て、上記したフランス語話者の例と同様に、日本語話者に混同されやすい前置詞の誤りセットを用いて誤り格フレーム１０を生成できる。その上で、正誤判定及び誤り訂正が可能である。

なお、正誤判定部３４について誤り格フレーム作成部３２を含む言語解析システム１とは別の付属システムに設けても良い。格フレーム作成部３２で抽出した誤り格フレーム１０をデータベース、XML形式等として、正誤判定部３４を含む付属システムからアクセスし、特定言語の母語話者による英語文章を正誤判定できるのである。

上記した実施例によれば、誤りに関する説明を適宜、目的に応じてフィードバックメッセージとして与えることができる。例えば、なぜその訂正候補が選択されたのかを人間が直感的に解釈できる形で提供できる。

以上、本発明による実施例及びこれに基づく変形例を説明したが、本発明は必ずしもこれに限定されるものではなく、当業者であれば、本発明の主旨又は添付した特許請求の範囲を逸脱することなく、様々な代替実施例及び改変例を見出すことができるであろう。

１０誤り格フレーム
１０ａ格フレーム
１０ｂ母語話者格フレーム
１０ｃ非母語話者格フレーム
１８格標識
１９格要素

Claims

英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析方法であって、
（１）英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、
動詞と、
前記動詞の取る表層格について、
格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、
前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、
のセットからなる格フレームを得るステップと、
（２）前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として１つの格フレームに統合するステップと、
（３）前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加えるステップと、
（４）前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定するステップと、を含むことを特徴とする言語解析方法。
（３）前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの１つであることを特徴とする請求項１記載の言語解析方法。
英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析システムであって、
（１）英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、
動詞と、
前記動詞の取る表層格について、
格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、
前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、
のセットからなる格フレームを得る手段と、
（２）前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として１つの格フレームに統合する手段と、
（３）前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加える手段と、を含むことを特徴とする言語解析システム。
（４）前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定する手段と、を含むことを特徴とする請求項３記載の言語解析システム。
（３）前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの１つであることを特徴とする請求項３又は４に記載の言語解析システム。