JP6235373B2 - 言語解析方法及びシステム - Google Patents

言語解析方法及びシステム Download PDF

Info

Publication number
JP6235373B2
JP6235373B2 JP2014036496A JP2014036496A JP6235373B2 JP 6235373 B2 JP6235373 B2 JP 6235373B2 JP 2014036496 A JP2014036496 A JP 2014036496A JP 2014036496 A JP2014036496 A JP 2014036496A JP 6235373 B2 JP6235373 B2 JP 6235373B2
Authority
JP
Japan
Prior art keywords
case
preposition
english
corpus
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014036496A
Other languages
English (en)
Other versions
JP2014209317A (ja
Inventor
亮 永田
亮 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Edulab
Original Assignee
Edulab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Edulab filed Critical Edulab
Priority to JP2014036496A priority Critical patent/JP6235373B2/ja
Publication of JP2014209317A publication Critical patent/JP2014209317A/ja
Application granted granted Critical
Publication of JP6235373B2 publication Critical patent/JP6235373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、英語文章の正誤を自動解析するための言語解析方法に関し、特に、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法及びシステムに関する。
教育支援などの目的で、自由作文された英語文章の正誤をコンピュータで自動解析するような場合にあっては、英語文章が表現しようとする意味を把握する必要があり、構文解析処理と意味解析が用いられる。まず、文章を単語(形態素)に分解し、辞書を参照して各単語にその構文情報や意味情報を付加し(形態素解析処理)、これらから所定の規則に従って文章の句構造や依存構造を機械的に解析する。得られる構文木や動詞に対する格フレームの情報から動詞と名詞の意味的な整合性を与えることで文章が表現しようとする意味を解析できる。
例えば、特許文献1では、形態素解析処理のなされた英語文章の単語列を入力すると、該単語列の文頭側の語句から順次着目してその構文的意味関係を判定し、英語文章の句構造若しくは依存構造を決定する構文解析処理をコンピュータで自動解析する方法を開示している。ここでは、接続し得る単語が複数ある前置詞句を含む英語文章において、構文解析処理によりその正当な接続先を決定する方法について特に述べている。これによれば、文章が表現しようとする意味の正確な把握を与え得る。
ところで、英語の単語(形態素)である前置詞の用法は複雑であり、文脈に応じた適切な前置詞を選択することは難しい。例えば、“He will go back Japan.”は、“He will go back to Japan.”の前置詞が抜けた誤りであるが、慣用的であるため比較的容易に誤りであることを判断できるであろう。一方、例えば、“I walked with my dog in the morning. ”では、前置詞「with」が不要であるが、誤りの理由を説明することは難しい。つまり、“walk with a dog”では,犬と一緒になって犬のように歩く様子を想起させるので、犬を散歩させるという意味の場合は、“walk a dog”が自然である」というような説明を与えることになる。ここでは、文章が表現しようとする意味によって前置詞の有無の正誤の判断が異なり得るのである。
このような英語文章における前置詞の正誤をコンピュータで自動解析する場合にあっても、構文解析処理と意味解析が用いられ得る。ここで、近年、各種のコーパスが整備されているが、非特許文献1では前置詞の誤りがランダムに起こるのではなく母語に応じた誤りの傾向があることを述べており、英語以外の特定言語を母語とする者により作成された英語文章のコーパスには、該特定言語に特有の前置詞の誤りの傾向が反映されているはずである。更に、例えば、非特許文献2に述べられているようなコーパスから格フレームをコンピュータで自動生成する方法を用いることで、英語文章における前置詞の正誤をコンピュータで自動解析できるであろう。
特開2005−134691号公報
Alla Rozovskaya and Dan Roth, "Algorithm Selection and Model Adaptation for ESL Correction Tasks", Proc. of the 49th Annual Meeting of the Association for Computational Linguistics, pp 924-933, Portland, Oregon, June 19-24, 2011 D. Kawahara and S. Kurohashi, "Acquiring reliable predicate-argument structures from raw corpora for case frame compilation", Proc. of LREC, pp.1389-1393, 2010.
上記したように、母語に応じた前置詞の誤りの傾向があるなら、英語以外の言語を母語とする者により作成された英語文章のコーパスから得られた格フレームと、英語を母語とする者により作成された英語文章のコーパスから得られた格フレームとを比較することで、英語以外の特定言語を母語者とする者により作成された英語文章の正誤を自動解析できるはずである。
本発明は、上記したような状況に鑑みてなされたものであって、その目的とするところは、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法を提供することにある。
本発明による言語解析方法は、英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析方法であって、(1)英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得るステップと、(2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合するステップと、(3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加えるステップと、(4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定するステップと、を含むことを特徴とする。
かかる発明によれば、英語の母語話者による英語文章からなる参照英語コーパス及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスを用いて誤り格フレームを作成できて、該特定言語の母語話者による英語文章における前置詞の正誤をコンピュータにて自動解析できるのである。
上記した発明において、(3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をより高い精度でコンピュータにて自動解析できるのである。
本発明による言語解析システムは、英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析システムであって、(1)英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパス、のそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得る手段と、(2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合する手段と、(3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加える手段と、を含むことを特徴とする。
かかる発明によれば、英語の母語話者による英語文章からなる参照英語コーパス及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスを用いて誤り格フレームを作成できて、該特定言語の母語話者による英語文章における前置詞の正誤をコンピュータで自動解析させ得るのである。
上記した発明において、(4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定する手段と、を含むことを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をコンピュータで自動解析できるのである。
上記した発明において、(3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をより高い精度でコンピュータによって自動解析できるのである。
本発明のシステム構成を示す図である。 誤り格フレームを示す図である。 本発明の方法の要部である誤り格フレーム生成のフロー図である。 格フレームを示す図である。 格フレームの統合の説明図である。 確率的に誤りやすい前置詞の説明図である。 格フレームの訂正情報の決定についての図である。 格フレームの訂正情報の決定についての図である。 格フレームの訂正情報の決定についての図である。
図1乃至図7を用いて、本発明の1つの実施例による、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法及びそのためのシステムの詳細を説明する。
図1に示すように、言語解析システム1は、主として、解析処理の中枢を担う中央制御部30と、中央制御部30とともに各種処理を行う処理プログラムとしての誤り格フレーム作成部32及び正誤判断部34とを含む。また、中央制御部30は、適宜、コーパス部100の英語の母語話者による英語文章からなる母語話者コーパス(参照英語コーパス)102及び英語以外の特定言語の母語話者による英語文章からなる非母語話者コーパス(特定英語コーパス)104の情報を参照可能に接続されている。なお、コーパス部100は、言語解析システム1の外部にあって、ネット回線などを経由して参照可能になっていてもよい。更に、前置詞の正誤判断の対象となる英語文章のテキストデータを入力するためのキーボードやスキャナなどの入力装置51、解析結果を出力するための印字機(プリンタ)52や映像装置(モニタ)53などが入出力インターフェース部50を介して接続されている。
まず、誤り格フレーム作成部32により作成される誤り格フレーム10の構成について説明する。
図2に示すように、誤り格フレーム10は、文章の中心となる動詞17を必ず含み、動詞17を記載するスロットとしての動詞欄11以外に、基本格を記載するスロットとしての基本格欄12、前置詞格を記載するスロットとしての前置詞格欄14、前置詞の誤りに関する説明を記述する部分であるフィードバックメッセージ欄16からなる。つまり、基本格欄12及び前置詞格欄14は、英語文章中の動詞17がどのような表層格を取るかを記載する欄となる。
基本格欄12及び前置詞格欄14の”Subj:”、“Prt:”、“Prep_do:”、”Prep_with:”などの格標識18は、主格などの格の種類を表すためのラベルである。また、これら格標識18の横に並ぶ“PERSON”、”back”、”tokyo”、”japan”の格要素19は、格標識18の付与される語を表している。なお、人を表す“PERSON”や中カッコ{}については後述する。更に、以下において、特に断らない限り、「格」とは、格標識18と格要素19とを合わせたものを指称するものとする。
ここで、基本格欄12は少なくとも1つ以上の格からなるものとし、基本格欄12に入り得る格標識18は、例えば、少なくとも、“Subj:”(Subject:主格)、“Prt”(Particle:小詞)、“Com”(Complement:補語)の3種類を考慮する。なお、“Subj:”は必須である。
前置詞格欄14も少なくとも1つ以上の格からなるものとし、動詞が取りうる前置詞を記述する。具体的には、前置詞格欄14の格標識18は、“Prep_x”のように記述する。但し、xの部分には前置詞が入る。例えば、前置詞が”to”であれば、”Prep_to”のように記述する。なお、動詞の直接目的語を表すための”Prep_do”や、間接目的語を表すための”Prep_io”も便宜的に前置詞格に含める。これは、前置詞の抜け落ちや、前置詞の不要な場合に対応するためである。
さらに、前置詞格欄14において、誤りがある格に“*”を付与することで誤り情報であることを示す。例えば、図2では、“*Prep_do:{tokyo, japan}”の部分が誤りとなる格であり、”Prep_do”、すなわち、直接目的語として、“tokyo”や“japan”を取ることは誤りであって、何らかの前置詞が必要なことを意味している。これに対して、誤りである格の後ろに、訂正情報を“→”を用いて記述する。つまり、“*Prep_do:{tokyo, japan}”は、“Prep_to:”が前置詞格として正しいことを意味している。
基本格欄12と前置詞格欄14において、共通して使用される記述方式を2種類定義する。1つは、括弧“()”を用いて表す任意格であり、例えば、“(Prt:back)”の如きである。もう1つは、格要素19が複数ある場合に、複数の格要素をカンマで区切って、中括弧で囲うこととし、例えば、”*Prep_do:{tokyo, japan}”の如きである。なお、例えば、特定の動詞に依存しないような誤り格フレーム10を定義する場合、動詞欄11に“ALL”を入れるようにもできる。つまり、どのような動詞17であっても、かかる誤り各フレーム10が該当するのである。これにより、同じ格を有し、且つ、同じ誤りを有する異なる動詞に対する誤り格フレーム10をまとめて記述できるのである。同様に、格標識18や格要素19においても、特定のものに依存しない表記を与えて、誤り格フレーム10をまとめて記述できるようにもできる。
フィードバックメッセージ欄16は、前置詞の誤りに関する説明を記述する部分であって、後述する誤り格フレーム10を解釈し、主に作業者によって記述される。かかる説明は、誤り検出/訂正の際に、学習者へのフィードバックなどに使用できる。
次に、誤り格フレーム作成部32により誤り格フレーム10を作成する方法について図3に沿って説明する。
ところで、誤り格フレーム10を生成するための基本アイデアは、非母語話者コーパス104に存在し、母語話者コーパス102には存在しない格フレームを誤り格フレーム10とするものである。但し、これだけでは、正しい格フレームが誤り格フレーム10として抽出されてしまう。そこで、以下のような方法を採用する。
(1)コーパスからの格フレームの生成
まず、母語話者コーパス102及び非母語話者コーパス104のそれぞれについて、各文を構文解析する下処理を行っておく(図3、S1)。ここで、本解析においては、後述する誤り格フレーム10の作成に不適切な文を予め除外しておくことが好ましい。これは、例えば、所定以上のトークンの長さの文や、所定個数以上のカンマを含む文を除く処理である。また、適宜、この処理を非母語話者コーパス(特定英語コーパス)104よりも大規模となる母語話者コーパス(参照英語コーパス)102のみに与えても良い。
次に、図4に示すように、構文解析の結果から、格フレーム10aの動詞欄11、基本格欄12及び前置詞格欄14の各スロットを埋めて格フレームを生成する(図3、S2)。例えば、図4(a)に示す”He will go back Japan with his son.”なる英語文章に対しては、図4(b)に示すように、動詞”go”を動詞欄17に、その他の格を対応する箇所に配置していく。
ここで、格要素19には、対応する名詞相当句の主辞(head)を小文字且つ原形にしたものを用いる。例えば、”Japan”は、”japan”とする。但し、接尾辞“-ing”は前置詞の決定に影響を与えることがあるため、語尾が“-ing”である語については原形にしない。また、一部の語については、対応する意味を表す特別な語に置換する。この意味を表す特別な語は大文字のみを用いて表記する。例えば、“he”や”his son”は、人であることを表す“PERSON”に置換する。かかる置換は、単純な辞書引きに基づいて自動的に行うことができる。また、非母語話者コーパス(特定英語コーパス)104からの処理には、スペルチェッカにより綴り誤りを訂正しておくことが好ましい。
以下において、母語話者コーパス102及び非母語話者コーパス104からそれぞれ抽出された格フレーム10aの集合を母語話者格フレーム10b及び非母語話者格フレーム10cとする。
ところで、以下の3つの条件のいずれかに当てはまる場合には、例外として上記した格フレーム10aの生成を行わないことも場合に応じて考慮できる。1つ目は、動詞が接続詞により並列されている場合であり、例えば、”go and get it”のようなものである。これは、並列により前置詞の用法が変更されることがあるためである。2つ目は、“be”、“do”、“have”は、助動詞としても使われる特殊な動詞であり、例外とし得る。3つ目は、格要素が、“it”、“this”、“that”、“one”及び通常名詞の働きをしない単語、例えば、”the”である場合も例外とすることも考慮できる。“it”、“this”、“that”、“one”は、具体的に指すものにより格の用法が異なると考えられるためである。その他については、構文解析の誤りの可能性が高いためである。
ここで、上記した格フレーム中の任意格となる前置詞格の同定は、(i)目的語は常に必須格とする(目的語も便宜的に前置詞格として扱う)、(ii)動詞より左に出現する前置詞格は常に任意格とする、(iii)動詞より右に出現する前置詞格は動詞に一番近いものを除いて全て任意格とする、ことによる。例えば、(ii)について、“In the morning, he went shopping.”では、“In the morning”の前置詞格が動詞よりも左に出現しているため任意格とされる。また、(iii)について、“He went to the market with his family.”では、動詞からより遠い“with his family”が任意格とされるのである。
任意格の同定について、上記したヒューリスティクス以外に、2つの格フレームを比較してもよい。例えば、“He went shopping” と“He went shopping at the market.”とを比較すると、“at the market”がなくとも文として成立し得て、これを任意格と同定出来得るのである。
(2)格フレームの統合
母語話者コーパス102から抽出された母語話者格フレーム10bについて統合処理を行う(図3、S3)。統合処理は、母語話者格フレーム10bの2つの格フレーム10aについて、(i)動詞が同一であり、(ii)基本格が同一であり、且つ、(iii)前置詞格の格標識が同一である場合に、前置詞格欄14の格要素19を格標識18ごとに統合する。
図5に示すように、例えば、格フレーム10b−1の[Prep_to:tokyo]と格フレーム10b−2の[Prep_to:japan]とは、”Prep_to:”の格要素19である”tokyo”及び”japan”以外を共通にするため、この格要素19について中カッコ{}を用いた和集合の型式にして、格フレーム10bのように[Prep_to:{tokyo, japan}]と統合する。
なお、上記したように、統合処理は母語話者コーパス102から抽出された母語話者格フレーム10bについてのみ行う。これは、非母語話者コーパス104から抽出された非母語話者格フレーム10cには、正しい格フレームと誤り格フレームの両方が含まれるため、両者が統合されてしまうと1つの格フレームに正誤の格要素19が含まれてしまうからである。なお、非母語話者格フレーム10cについては、動詞、基本格、前置詞格が同一である場合にのみ統合を行ってもよい。また、統合の際に、各格要素19の頻度を記録し、頻度情報を誤り格フレーム10の生成に利用しても良い。
(3)誤り格フレーム候補の取得
母語話者格フレーム10bと非母語話者格フレーム10cとを比較し、誤り格フレーム10の候補を取得する(図3、S4)。ここでは、非母語話者コーパス104から抽出された非母語話者格フレーム10cにのみ存在する格フレームを誤り格フレーム10の候補とする。
(4)訂正情報の決定
誤り格フレーム10の候補に対して訂正情報を決定する(図3、S5)。これには母語の影響を考慮した後述する誤りセット(confusion set)を用いて、前置詞格欄14内の格標識18を変更しつつ決定する。なお、格標識18が複数あるときは、1つのみ変更しつつ決定する。
ところで、母語の影響を考慮するには、当該母語話者の書いた英語文章からなる非母語話者コーパス104を用いればよい。例えば、フランス語を母語とするフランス語話者を対象とする場合には、フランス語話者が書いた英語文章を非母語話者コーパス104に使用することで、自然に母語の影響を考慮できる。
ここで、上記した非特許文献1に述べられているように、前置詞の誤りはランダムに起こるのではなく、母語に応じた誤りの傾向がある。例えば、図6に示すように、フランス語の前置詞“`a”は、英語の前置詞“at”、“in”、“to”などに対応するため、フランス語話者は、これらの前置詞を互いに混同する傾向にあると予想できる。そこで、例えば[“at”、“in”]を“to”に対する誤りセットとする。このような母語に応じた英語の各前置詞の誤りセットを用意し、訂正情報の決定(図3、S5)に用いるのである。
本実施例では、統計的機械翻訳の確率テーブルを利用して自動的に誤りセットを作成する。つまり、直観的には、確率の値に基づいて、混同されやすい前置詞を特定していることになる。
再び、図6を参照すると、具体的には、左の列がフランス語(仏語)の単語、右の列が英語の単語である。なお、この例では、左右全ての単語が前置詞であるが、必ずしも前置詞である必要はなく、対応する単語であればよい。図中の矢印は、フランス語の各単語が翻訳されやすい英単語を表す。すなわち、”e”が英単語、”f”がフランス語の単語をそれぞれ表すとき、確率Pr(e|f)がある一定の値以上の単語の組に矢印が付与されている。例えば、英語の“to”は、フランス語の“`a”から翻訳される確率が高いことを示す。一方で、フランス語の“`a”は、“to”以外にも“at”と“in”にも翻訳されやすい。つまり、“to”は“at”や“in”と混同されやすい。このように、矢印を2回たどることで誤りセットを作成する。
最終的に、前置詞の抜け落ちや、前置詞の不要な場合に対応するために、それぞれ“Prep_do”と“Prep_io”も誤りセットに加える。例えば、“to”に対する誤りセットとして、{Prep_at, Prep_in, Prep_do, Prep_io}が得られる。
なお、図6において、“in”のように、1回目にたどる矢印が複数ある場合は、それぞれの矢印をたどり、得られた前置詞の和集合を誤りセットとする。つまり、“in”に対する誤りセットは、{Prep_to, Prep_at, Prep_of, Prep_do, Prep_io}となる。
図7(a)に示した[Prep_do:Tokyo Prep_with:PERSON]の訂正情報の決定について説明する。”Prep_do:”について、これを含む誤りセットを選択しこの中から他の前置詞を含む格標識18、例えば、誤りセット{Prep_at, Prep_in, Prep_do, Prep_io}のうちの”Prep_at”や“Prep_to:”に変更する。例えば、“Prep_to:”に変更するなら、[Prep_to:Tokyo Prep_with:PERSON]を得る。かかる格フレームが母語話者格フレーム10bに存在すれば、その格標識18は正しいものと判定し、訂正情報として決定する(図7(b)参照)。更に、図8に示すように、訂正情報を示す”*”を与えて、誤り格フレーム10の候補に記述したものを誤り格フレーム10として確定する。
(5)格要素の拡張
次に、誤り格フレーム10のカバー率を向上させるために、前置詞格欄14内の格要素19を拡張する(図3、S6)。上記した訂正情報により、誤り格フレーム10に対応する正しい格フレームが母語話者格フレーム10bにおいて特定できる。図7(b)に示すように、例えば、誤り格フレーム10の[*Prep_do:tokyo→Prep_to](図8参照)に対して、母語話者格フレーム10bでは[Prep_to:{tokyo, japan}]が対応する。統合処理(図3、S3)により母語話者格フレーム10bでは、格要素19が統合されて和集合で記載されている。図9に示すように、この格要素19の情報を誤り格フレーム10の対応する格に追加して、誤り格フレーム10の格要素19を拡張できる。つまり、図2に示すように、[*Prep do:{tokyo, japan}→Prep_to]として格要素19に“japan”が追加される。なお、この拡張が真に誤りを表しているかを確認するために、新しく得られた誤り格フレーム10が母語話者格フレーム10bに存在しない場合にのみ拡張を許すこととする。
(6)誤り格フレームの出力
得られた誤り格フレーム10を出力、所定のデータベースに構築する(図3、S7)。上記した誤り各フレーム10についての情報を、例えば、XML形式で出力し、データベースに構築し、後述する正誤判定に使用できる。
以上において、誤り格フレーム10は、母語話者コーパス102と非母語話者コーパス104さえあれば自動生成でき、時間と労力を要する誤り情報の付与という作業を必要としない。かかる方法では、誤り情報の付与を必要としない代わりに、2つのコーパスを2度比較することで誤り格フレーム10の正当性をチェックしている(図3、S4及びS5)。
なお、誤り情報が付与された非母語話者コーパス104を用いて誤り格フレーム10を生成することも可能である。その場合には、誤り情報により誤り格フレーム10の選択と訂正情報の決定を行う。
次に、上記した誤り格フレーム10を用いて、非母語話者コーパス104に関する英語以外の特定言語の母語話者による英語文章を正誤判定部34により正誤判定する方法について説明する。
まず、正誤判定部34は、正誤判定を行う英語文章について構文解析を行った上で格フレームを生成する。格フレームの生成方法については上記したコーパスからの格フレームの生成と同様である。次に、かかる格フレームを上記した所定のデータベース中の誤り格フレーム10と照合して動詞欄17、格標識18、格要素19のいずれも合致する誤り格フレーム10があれば、かかる英語文章の前置詞に誤りがあると判定するのである。なお、正誤判定において合致した誤り格フレーム10の訂正情報を用いると、かかる前置詞の誤りを訂正することも可能である。
正誤判定においては、上記したように、正誤判定を行う英語文章の作成者の母語に応じた非母語話者コーパス104を使用して得た誤り格フレーム10のデータベースを用いることで、正誤判定の精度を向上させることができる。例えば、日本語を母語とする日本語話者による英語文章は、日本語話者の書いた英語文章による非母語話者コーパス104を用いて得た誤り格フレーム10のデータベースを用いるのである。この場合、日本語において前置詞は無いが、助詞が対応し、誤りセットを同様に作成出来て、上記したフランス語話者の例と同様に、日本語話者に混同されやすい前置詞の誤りセットを用いて誤り格フレーム10を生成できる。その上で、正誤判定及び誤り訂正が可能である。
なお、正誤判定部34について誤り格フレーム作成部32を含む言語解析システム1とは別の付属システムに設けても良い。格フレーム作成部32で抽出した誤り格フレーム10をデータベース、XML形式等として、正誤判定部34を含む付属システムからアクセスし、特定言語の母語話者による英語文章を正誤判定できるのである。
上記した実施例によれば、誤りに関する説明を適宜、目的に応じてフィードバックメッセージとして与えることができる。例えば、なぜその訂正候補が選択されたのかを人間が直感的に解釈できる形で提供できる。
以上、本発明による実施例及びこれに基づく変形例を説明したが、本発明は必ずしもこれに限定されるものではなく、当業者であれば、本発明の主旨又は添付した特許請求の範囲を逸脱することなく、様々な代替実施例及び改変例を見出すことができるであろう。
10 誤り格フレーム
10a 格フレーム
10b 母語話者格フレーム
10c 非母語話者格フレーム
18 格標識
19 格要素

Claims (5)

  1. 英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析方法であって、
    (1)英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、
    動詞と、
    前記動詞の取る表層格について、
    格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、
    前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、
    のセットからなる格フレームを得るステップと、
    (2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合するステップと、
    (3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加えるステップと、
    (4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定するステップと、を含むことを特徴とする言語解析方法。
  2. (3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴とする請求項1記載の言語解析方法。
  3. 英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析システムであって、
    (1)英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、
    動詞と、
    前記動詞の取る表層格について、
    格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、
    前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、
    のセットからなる格フレームを得る手段と、
    (2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合する手段と、
    (3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加える手段と、を含むことを特徴とする言語解析システム。
  4. (4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定する手段と、を含むことを特徴とする請求項3記載の言語解析システム。
  5. (3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴とする請求項3又は4に記載の言語解析システム。
JP2014036496A 2013-03-02 2014-02-27 言語解析方法及びシステム Active JP6235373B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014036496A JP6235373B2 (ja) 2013-03-02 2014-02-27 言語解析方法及びシステム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013041342 2013-03-02
JP2013041342 2013-03-02
JP2014036496A JP6235373B2 (ja) 2013-03-02 2014-02-27 言語解析方法及びシステム

Publications (2)

Publication Number Publication Date
JP2014209317A JP2014209317A (ja) 2014-11-06
JP6235373B2 true JP6235373B2 (ja) 2017-11-22

Family

ID=51903500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014036496A Active JP6235373B2 (ja) 2013-03-02 2014-02-27 言語解析方法及びシステム

Country Status (1)

Country Link
JP (1) JP6235373B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050420B (zh) * 2022-11-12 2023-09-22 武汉大学 基于介词语句的中法语音语义识别方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182345A (ja) * 1993-12-24 1995-07-21 Matsushita Electric Ind Co Ltd 英文チェック装置
KR101475284B1 (ko) * 2011-11-29 2014-12-23 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법

Also Published As

Publication number Publication date
JP2014209317A (ja) 2014-11-06

Similar Documents

Publication Publication Date Title
Oda et al. Learning to generate pseudo-code from source code using statistical machine translation
Täckström et al. Target language adaptation of discriminative transfer parsers
CN108027823B (zh) 信息处理装置、信息处理方法以及计算机可读取的存储介质
Diab et al. Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon.
Taji et al. An Arabic morphological analyzer and generator with copious features
JPH1011447A (ja) パターンに基づく翻訳方法及び翻訳システム
JPS62163173A (ja) 機械翻訳方法
Çöltekin A set of open source tools for Turkish natural language processing.
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
JP2004070928A (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
JP2014194668A (ja) 翻訳支援装置、翻訳支援システムおよび翻訳支援プログラム
Dickinson et al. Dependency annotation for learner corpora
JP6235373B2 (ja) 言語解析方法及びシステム
JP4435144B2 (ja) データ検索システム及びプログラム
Alosaimy et al. Web-based annotation tool for inflectional language resources
JP5302784B2 (ja) 機械翻訳方法、及びシステム
Baig et al. Universal Dependencies for Urdu Noisy Text
Llitjós et al. Building Machine translation systems for indigenous languages
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP6062735B2 (ja) ソフトウェア開発支援装置、ソフトウェア開発支援方法、ソフトウェア開発支援プログラム
JP2003058536A (ja) 翻訳装置
Moradshahi Internationalization of Task-Oriented Dialogue Systems
Chiang et al. The hidden TAG model: synchronous grammars for parsing resource-poor languages
Chen et al. Chinese Spelling Check based on Neural Machine Translation

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160706

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20161031

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171026

R150 Certificate of patent or registration of utility model

Ref document number: 6235373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350