JP2002041512A - 自然言語処理装置及び方法 - Google Patents

自然言語処理装置及び方法

Info

Publication number
JP2002041512A
JP2002041512A JP2000225911A JP2000225911A JP2002041512A JP 2002041512 A JP2002041512 A JP 2002041512A JP 2000225911 A JP2000225911 A JP 2000225911A JP 2000225911 A JP2000225911 A JP 2000225911A JP 2002041512 A JP2002041512 A JP 2002041512A
Authority
JP
Japan
Prior art keywords
pattern
natural language
tree structure
priority
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000225911A
Other languages
English (en)
Other versions
JP4103311B2 (ja
Inventor
Mihoko Kitamura
美穂子 北村
Toshiki Murata
稔樹 村田
Miki Sasaki
美樹 佐々木
Sayori Shimohata
さより 下畑
Takashi Fukui
毅至 福居
Masamutsu Fuchigami
正睦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2000225911A priority Critical patent/JP4103311B2/ja
Priority to US09/909,901 priority patent/US7010479B2/en
Publication of JP2002041512A publication Critical patent/JP2002041512A/ja
Application granted granted Critical
Publication of JP4103311B2 publication Critical patent/JP4103311B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 適切な自然言語処理結果(構文解析結果及び
又は構文生成結果)を提供し得る自然言語処理装置を実
現する。 【解決手段】 本発明は、少なくともパターン名及びパ
ターン構成要素を有する自然言語パターンを利用して、
構文解析、及び又は、構文生成を行う自然言語処理装置
に関する。そして、予めパターン辞書に用意されている
上記自然言語パターンから、構文解析、及び又は、構文
生成時の処理での候補となる1以上の自然言語パターン
を抽出する辞書引き手段と、候補の自然言語パターンが
木構造に適合しているか否かを検査するパターン検査手
段と、適合する場合に、その自然言語パターンを木構造
に適用するパターン適用手段とを少なくとも有すること
を特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は自然言語処理装置及
び方法に関し、例えば、翻訳パターンを利用して機械翻
訳を行う機械翻訳装置や機械翻訳方法などに適用し得る
ものである。
【0002】
【従来の技術】従来型の機械翻訳装置において、システ
ムやユーザが登録可能な翻訳知識(システム辞書やユー
ザ辞書)は、単語辞書、複数単語からなるイディオム、
さらに、高性能なものでも「手を焼く」などの動詞と名
詞の共起表現など、機械翻訳装置が予め決めている表現
に限定されていた。これは、従来型の機械翻訳装置は、
原言語の文法と辞書で原言語文を構文解析をし、変換辞
書で言語変換し、目的言語の文法と辞書で目的言語文を
生成するため、システムの文法に則った形式でしか、シ
ステムやユーザは翻訳辞書を登録できないためである。
【0003】さらに、原言語と目的言語は、個別に解
析、生成されるため、翻訳知識としてユーザの直感に即
した ”[名詞句]を次に示します。” ”Following is [名詞句].”(名詞句
は変数) (P1) のような原言語と目的言語の対から構成されるパターン
に基づいた辞書も登録できない。
【0004】このような課題を解決したものとして、特
開平5−290082号公報に記載された翻訳パターン
に基づく翻訳方法及び翻訳装置がある。この公報記載の
発明は、翻訳知識を文脈自由文法の範囲内で表し、文法
規則を原言語のパターンと目的言語のパターンとで対に
したものである。また、文法規則はトライ型の辞書に格
納することにより、構文解析の速さを実用レベルにする
ことを可能にした。さらに、文法規則を原言語のパター
ンと目的言語のパターンとで対にしたことにより、同期
導出が可能となり、言語変換、構文生成は簡単な処理だ
けで済むようになった。
【0005】これにより、ユーザの直感に即した上述し
たパターンP1のような原言語と目的言語の対から構成
される翻訳パターンに基づいた辞書が登録できるように
なり、文脈自由文法の範囲内なら任意の翻訳知識を登録
でき、翻訳処理できるようになった。
【0006】
【発明が解決しようとする課題】しかしながら、上記公
報では、複数の解(例えば構文解析結果)から最適な解
を選ぶことについては、最小の構成数(パターン数)の
解を選ぶとのみ記述されている。この場合には、構成数
がパラメータとなっているので、構成要素の素性や構成
要素間の関係を考慮した訳し分けを行うことができな
い。また、構成数(パターン数)が優先度を規定するも
のになっているが、単純なパラメータのため、優先度が
正しくない恐れがある。
【0007】また、上記公報では、パターンに優先順位
を付けても良いと記載されている。しかし、その明確な
方式は示されておらず、どのようにパターンに優先順位
を付与し、最適な解をとらえるかは開示されていない。
【0008】本発明は、以上の点を考慮してなされたも
のであり、適切な自然言語処理結果を選択し得る自然言
語処理装置及び方法を提供しようとしたものである。
【0009】
【課題を解決するための手段】かかる課題を解決するた
め、第1の本発明は、少なくともパターン名及びパター
ン構成要素を有する自然言語パターンを利用して、構文
解析、及び又は、構文生成を行う自然言語処理装置にお
いて、(1)予めパターン辞書に用意されている上記自
然言語パターンから、構文解析、及び又は、構文生成時
の処理での候補となる1以上の自然言語パターンを抽出
する辞書引き手段と、(2)候補の自然言語パターンが
木構造に適合しているか否かを検査するパターン検査手
段と、(3)適合する場合に、その自然言語パターンを
木構造に適用するパターン適用手段とを有することを特
徴とする。
【0010】第2の本発明は、少なくともパターン名及
びパターン構成要素を有する自然言語パターンを利用し
て、構文解析、及び又は、構文生成を行う自然言語処理
方法において、(1)予めパターン辞書に用意されてい
る上記自然言語パターンから、構文解析、及び又は、構
文生成時の処理での候補となる1以上の自然言語パター
ンを抽出する辞書引き工程と、(2)候補の自然言語パ
ターンが木構造に適合しているか否かを検査するパター
ン検査工程と、(3)適合する場合に、その自然言語パ
ターンを木構造に適用するパターン適用工程とを有する
ことを特徴とする。
【0011】
【発明の実施の形態】(A)第1の実施形態 以下、本発明による自然言語処理装置及び方法を、機械
翻訳装置及び機械翻訳方法に適用した第1の実施形態を
図面を参照しながら詳述する。
【0012】(A−1)第1の実施形態の構成 図1は、第1の実施形態の機械翻訳装置の機能的構成を
示すブロック図である。なお、実際上は、例えば、パソ
コンなどの情報処理装置上に、処理プログラムや固定デ
ータなどがローディングされて、第1の実施形態の機械
翻訳装置が構築される。
【0013】図1において、第1の実施形態の機械翻訳
装置は、大きくは、入出力部1、翻訳処理部2及び辞書
格納部3から構成される。
【0014】入出力部1は、キーボードやファイル読込
装置等の入力部01から翻訳対象となる入力文(原言語
文)を受け付ける入力処理部11と、翻訳した結果(目
的言語文)をディスプレーやプリンタやファイル格納装
置等の出力部02に出力する出力処理部12を有する。
【0015】翻訳処理部2は、入力文の形態素解析を行
う形態素解析部21、翻訳パターンを利用して原言語の
構文解析を行う構文解析部22、原言語の構文解析の結
果に基づいて目的言語による構文の生成を行う構文生成
部23、及び、構文生成の結果に基づいて目的言語の形
態素生成を行う形態素生成部24からなる。
【0016】構文解析部22は、パターン辞書引きを行
う辞書引き部221と、辞書引きされたパターン(原言
語パターン)を構築中の木構造に適合するかを検査する
パターン検査部223と、その検査結果によってパター
ンを構築中の木構造に適用するパターン適用部224
と、これらの処理部を呼び出し木構造を構築する構文解
析器222とを有する。
【0017】辞書格納部3は、原言語の形態素情報が格
納されている原言語形態素辞書31、目的言語の形態素
情報が格納されている目的言語形態素辞書32、及び、
原言語と目的言語のパターンの対からなる翻訳パターン
が格納されている翻訳パターン辞書(システムパターン
辞書)33からなる。
【0018】(A−2)第1の実施形態の動作 次に、第1の実施形態の機械翻訳装置の翻訳動作(第1
の実施形態の機械翻訳方法)を説明する。ここで、図2
が、第1の実施形態の機械翻訳装置の翻訳動作を示すフ
ローチャートである。
【0019】なお、第1の実施形態の機械翻訳装置は1
文を入力単位としている。また以下の説明において
は、”The policeman arrests
him.”が入力された場合を例に動作を説明する。
【0020】ユーザが、上記入力文を入力部01により
入力すると、入力処理部11が受け取り、翻訳処理部2
の形態素解析部21に渡す(ステップS21)。形態素
解析部21は、原言語形態素辞書31の情報を用いて、
形態素解析処理を行う(ステップS22)。
【0021】形態素解析結果は、図3に示すように、ル
ートノードを”Node”とした木構造で表現される。
複数候補がない形態素の場合には、ルートノードの直下
に各形態素の標準形3−1と品詞や変化形などの形態素
情報3−2とが付与される。一方、複数候補がある形態
素の場合には、orノード3−3の子ノードとして各形
態素候補の情報が付与される。例えば、”arrest
s”は、動詞及び名詞の品詞を取り得るので、複数候補
を有する形態素であり、図3に示すように、各形態素候
補の情報が付与される。
【0022】このような形態素解析結果が与えられた構
文解析部22は、この結果に対し、翻訳パターン辞書3
3を用いて、構文解析処理を行う(ステップS23)。
【0023】図4は、翻訳パターン辞書33の格納内容
(翻訳パターン)の一部を取り出して示したものであ
る。
【0024】図4において、左側が英語パターンを表
し、右側が日本語パターンを表し、これら英語パターン
及び日本語パターンが対になっている。各言語のパター
ンは、 [言語名:パターン名 パターン構成要素] からなる。
【0025】言語名は、英語(en)か日本語(ja)
かを規定する。
【0026】言語名に続くパターン名は、例えば、VP
(動詞句)、NP(名詞句)、N(名詞)等の句構造規
則での標識が適用される。
【0027】パターン構成要素は、単語、変数、又は、
単語と変数の2以上の並び、からなる。変数は[任意の
数字:パターン名(木構造の下位ノードに対応する)]
で記述される。任意の数字部分は、対となっている原言
語及び目的言語パターン間での対応関係を示すものであ
る。構文解析においては、変数に、別のパターンが適用
されることにより、パターンは入れ子構造をとることが
できる(変数が解消される)。また、単語及びパターン
名は、符号4−1aや4−1bが付された部分のよう
に、意味情報などの詳細な情報(素性情報)を持つこと
ができる。さらに、単語及びパターン名は、符号4−7
aが付された部分のように詳細情報を変数化して、情報
の参照をすることもできる。
【0028】このような翻訳パターン(原言語パター
ン)を利用する第1の実施形態の構文解析処理は、図5
のフローチャートに示すように、主として、3つの処理
から構成され、ボトムアップに木構造を構築していくも
のである。
【0029】すなわち、構文解析が終了していないこと
を確認しつつ(ステップS51)、パターン辞書引き処
理(ステップS52)、パターン検査処理(ステップS
53)及びパターン適用処理(ステップS54)の3つ
の処理を繰り返し行う。
【0030】第1の処理であるパターン辞書引き処理
(ステップS52)は、形態素解析結果及びそれまでの
パターン適用処理の結果から、次に適用の可能性のある
翻訳パターンを翻訳パターン辞書33から引く処理であ
る。例えば、図3の”him:品詞=prn”(符号3
−4)という形態素解析結果より、図4の符号4−4を
付した翻訳パターン(原言語パターン)が翻訳パターン
辞書33から引かれる。
【0031】第2の処理であるパターン検査処理(ステ
ップS53)は、辞書引きの結果得られた翻訳パターン
が現在構築中の木構造に適合するか否かを、各木構造毎
に検査する処理である。
【0032】第3の処理であるパターン適用処理(ステ
ップS54)は、検査の結果、適合すると判定された木
構造と翻訳パターンとに基づいて、木構造にそのパター
ンを実際に適用する処理である。
【0033】図6及び図7を用いて、上述のパターン検
査処理及びパターン適用処理を具体的に説明する。
【0034】現在構築中の木構造が図6(a)であり、
検査したい翻訳パターンが図6(c)であったとする。
変数のパターン名は、NP同士で同じであり、NPがも
つ詳細な情報も「意味=人」で一致する。従って、図6
(c)に示す翻訳パターンは、図6(a)の木構造に適
合するとパターン検査処理で判断され、パターン適用処
理によって、その翻訳パターンが適用され、図7に示す
木構造が構築される。
【0035】一方、現在構築中の木構造が図6(b)で
あり、検査したい翻訳パターンが図6(c)であった場
合は、変数のパターン名は、NP同士で同じであって
も、NPの詳細情報(意味の情報)が異なるので、パタ
ーン検査処理で当該翻訳パターンは木構造に適合しない
と判断され、当然に、パターン適用処理が実行されるこ
ともない。なお、図6(b)において、「意味!=人」
は「意味が人ではない」を表している。すなわち、
「!」は否定を表している。
【0036】入力文”The policeman a
rrests him.”に対し、図4に示すような翻
訳パターンを適用した構文解析結果は、図8に示すよう
になる。なお、この入力文に対しては、図4の翻訳パタ
ーン4−1、4−3〜4−7が適用される。
【0037】このような構文解析結果が構文生成部23
に与えられ、構文生成部23によって、構文生成処理
(図2のステップS24)が実行される。この構文生成
処理では、翻訳パターン辞書33を参照し、原言語(英
語)のパターンと対をなしている目的言語(日本語)の
パターンを利用して、構文解析結果に対応する日本語の
木構造を得る。図9は、上述した図8の構文解析結果に
対応した構文生成結果(木構造)を示している。
【0038】なお、翻訳パターンは、原言語パターンと
翻訳パターンとの対になっており、その対応が一意であ
るので、実際上は、構文解析処理と構文生成処理とがほ
ぼ並行して実行される。また、構文解析結果に対し、パ
ターンを用いない従前からの方法によって構文生成を行
っても良い。
【0039】構文生成部23が生成した木構造は形態素
生成部24に与えられ、形態素生成部24は形態素生成
処理を行う(ステップS25)。形態素生成処理では、
構文生成結果を、終端ノードに位置する日本語単語を左
から順に並べ、各単語を目的言語形態素辞書32を用い
て、動詞の活用形を整えたりなど、各単語の整形を行
う。その形態素生成結果(訳文)を出力処理部12が受
取り、出力部02によって表示出力したり、ファイルに
格納したりする(ステップS26)。
【0040】上述した入力文”The policem
an arrests him.”に対しては、「警察
官は彼を逮捕する。」という翻訳結果が得られる。
【0041】ここで、上記入力文とは目的語だけが異な
る”The policemanarrests th
e deterioration.”が入力された場合
を考える。
【0042】この場合には、目的語にくる名詞の意味が
人以外であるので、「警察官は悪化を阻止する。」とい
う翻訳結果が得られる。
【0043】なお、この入力文に対する構文解析では、
図4の翻訳パターン4−2、4−3、4−5〜4−8が
適用される。
【0044】すなわち、上述した図6(a)及び図6
(b)に対する構築中の木構造に対し、パターン4−
8、4−6が入れ子に挿入された目的語(NP)が人以
外を意味するパターン4−2との適合判断により、図6
(b)が適合すると判定される。その結果、パターン4
−2の情報が盛り込まれた木構造が構文解析で得られ、
これにより、arrestの訳としてを阻止するが採用
される。
【0045】以上のように、「意味=人」や「意味!=
人」などのパターン適用条件を、パターンに盛り込んで
おくことにより、同じ動詞などを使用した入力文に対し
て異なる訳語を与えることができる。
【0046】(A−3)第1の実施形態の効果 第1の実施形態の機械翻訳装置及び方法によれば、以下
の効果を奏することができる。
【0047】(a)変数による入れ子構造の翻訳パター
ンを作ることができるだけでなく、変数や単語に意味な
どのパターン適用条件を与えることによって、条件によ
る訳し分けをすることができる。
【0048】従来の技術の項で言及した公報では、”c
laims $ and $”、”claim $”の
ように、条件に相当する情報を英語の表現レベルまで落
していたが、この実施形態の場合には、英語の表現レベ
ルまで落す必要はない。この実施形態では、”clai
ms[NP:数情報=複数]”、”claim[NP:
数情報=単数]”となる。
【0049】(b)=や!=などパターン適用条件の記
述が簡単であり、容易にパターンを作成することができ
る。例えば、目的語の意味が「人」ならば、訳はA、そ
うでないならば、訳はBというように、記述形式が人間
の直観に即した形式であり、翻訳パターンの作成が容易
である。
【0050】(c)”I give these bo
oks.”は、構文的には、「私がこれらに本を与え
る。」と「私がこれらの本を与える。」の2通り存在す
るが、[en:VP give[1:NP:意味=人]
[2:NP]]という条件をもつパターンを登録するこ
とによって、前者の候補はあり得なくなる。このよう
に、意味によるパターン適用条件をパターンに記述する
ことによって、構文の曖昧性を削減することもできる。
【0051】(A−4)第1の実施形態の変形実施形態 上記では、構文解析結果に曖昧性が存在しない例文を用
いて説明した。しかし、曖昧性が存在する場合(構文解
析結果にorノードが生じる場合(第2の実施形態参
照))にも、第1の実施形態を適用できる。例えば、o
rノードの子ノードのいずれか1つを選んで曖昧性のな
い構文解析結果を作ってそれを生成したり、又は、曖昧
性をもったまま構文生成を行い、複数の翻訳結果を出力
したりしても良い。
【0052】第1の実施形態の技術思想は、特定の言語
に依存せず、どんな言語間の翻訳にも適用可能である。
【0053】上記では、目的格に位置する名詞の意味に
よる動詞の訳し分けの例を示したが、逆に動詞が持って
いる意味によって、名詞を訳し分ける場合にも適用でき
ることは勿論であり、また、目的格だけなく、主格によ
る訳し分けも可能である。さらに修飾する語の意味や、
前置詞句内の名詞句の意味による前置詞の訳し分け等、
動詞や名詞以外の単語の訳し分けも可能である。さら
に、名詞が単数形か複数形かによって名詞の訳語を決め
るなど、意味以外のパターン適用条件による訳し分けも
可能である。
【0054】パターン検査部などパターンに関する処理
は、構文解析処理の外部に設けても良い(第4の実施形
態参照)。
【0055】(B)第2の実施形態 次に、本発明による自然言語処理装置及び方法を、機械
翻訳装置及び機械翻訳方法に適用した第2の実施形態を
図面を参照しながら詳述する。
【0056】(B−1)第2の実施形態の構成 図10は、第2の実施形態の機械翻訳装置の機能的構成
を示すブロック図であり、上述した第1の実施形態に係
る図1との同一、対応部分には同一符号を付して示して
いる。
【0057】第2の実施形態の機械翻訳装置は、第1の
実施形態の構成に加え、構文解析部22内にパターン評
価部225を備えている。
【0058】パターン評価部225は、複数候補のパタ
ーンが存在する場合に、それらパターンを適用した複数
の木構造を評価し、木構造を絞り込むものである。
【0059】なお、翻訳パターン辞書33に格納されて
いる翻訳パターンも、第1の実施形態のものとは異なっ
ている。この点については、動作の項で明らかにする。
【0060】(B−2)第2の実施形態の動作 この第2の実施形態においても、翻訳処理の全体の流れ
は、図2に示す通りであり、原文入力処理、形態素解析
処理、構文解析処理、構文生成処理、形態素生成処理及
び翻訳結果出力処理の順に実行される。
【0061】ここで、第2の実施形態は、第1の実施形
態に比較して構文解析処理が異なっている。
【0062】図11は、第2の実施形態の機械翻訳装置
での構文解析処理を示すフローチャートであり、第1の
実施形態に係る図5との同一、対応処理ステップには同
一符号を付して示している。
【0063】第2の実施形態の場合、パターン辞書引き
処理(ステップS52)、パターン検査処理(ステップ
S53)、パターン適用処理(ステップS54)を順次
行った後に、構築中の木構造ノードに対応して複数候補
のパターンが存在するか否かを判別し(ステップS5
5)、複数候補のパターンが存在した場合に、パターン
評価処理(ステップS56)を行なう。
【0064】新たに追加されたパターン評価処理の具体
的な処理内容を説明する前に、図12を参照して、この
第2の実施形態の翻訳パターン辞書33に格納されてい
る翻訳パターンを説明する。
【0065】第2の実施形態の翻訳パターンは、先頭
の”[”と末尾の”]”と挟まれている第1の実施形態
と同様なパターンに加え、パターンの先頭に”!”が付
与されたパターン12−9やパターンの先頭に”*”が
付与されたパターン12−12がある。”!”や”*”
は、パターンの優先度を表すための特別な記号である。
【0066】図13は、パターンの優先度を規定するフ
ァイルの例であり、翻訳パターン辞書33又はパターン
評価部22が格納しているものである。ここでは、ファ
イルの先頭から順に優先度が高いことを示している。ま
た、[]は記号が何もついていない場合の順位である。
従って、この例での優先順位は”!”が付与されている
パターン、優先度の記号なしのパターン、”*”が付与
されているパターンとなる。
【0067】図12において、定冠詞の後に、名詞及び
形容詞の両方を取り得る単語、さらに、名詞が続いてい
る英語形態素列に関しては、2番目の単語を形容詞とし
たときには、パターン12−9が適用され、2番目の単
語を名詞としたときには、パターン12−10が適用さ
れる。図12に示すように、パターン12−9がパター
ン12−10より優先度が上げられているので、動作の
詳細は後述するが、両パターンが適用可能な場合であれ
ば、パターン12−9が優先される。
【0068】また、図12において、パターン12−1
1及びパターン12−12は共に文(S)に関するパタ
ーンであるが、意味条件が付されていない汎用的な方で
あるパターン12−12の優先度が低くなっている。動
作の詳細は後述するが、意味条件が付されたパターン1
2−11が適用されない場合に、汎用的なパターン12
−12が採用されることになる。
【0069】パターン評価処理(ステップS56)で
は、このようなパターンの優先度を利用しながら複数候
補のパターンが適用された複数の木構造の評価を行う。
【0070】図14は、パターン評価処理の詳細を示す
フローチャートである。パターン評価部224は、ま
ず、ルートノードの詳細情報(パターン名の詳細情報)
が一致している複数の木構造候補があるか、ある場合に
は、ルートノードに高い優先度が付いた木構造候補があ
るか否かを判別する(ステップS141)。ここで、高
い優先度とは候補の中で相対的に高い優先度を言い、必
ずしも”!”が付与されたものに限定されない。そし
て、高い優先度が付いた木構造候補あれば、その木構造
候補以外を候補から外す(ステップS142)。また、
パターン評価部224は、子ノードの構成要素が一致し
ている複数の木構造候補があるか、ある場合には、子ノ
ードに低い優先度が付与されている木構造があるか否か
を判別する(ステップS143)。ここで、低い優先度
とは候補の中で相対的に低い優先度を言い、必ずしも”
*”が付与されたものに限定されない。そして、低い優
先度が付与されている木構造があれば、その木構造を候
補から外す(ステップS144)。
【0071】次に、第2の実施形態の構文解析処理、特
に、パターン評価処理について、入力文”He arr
ests the present deterior
ation.”を例に説明する。この入力文に対する解
析では、上述した図12に示した翻訳パターンが適宜利
用される。
【0072】図15(a)及び(b)はそれぞれ、入力
文中の”the presentdeteriorat
ion”の部分に対し、図12に示すパターン12−9
及び12−10が適用されてできた候補(評価対象)と
しての木構造である。図15(a)に示す木構造には、
翻訳パターン12−9に付与されている”!”の記号が
付いている。パターン適用処理の終了後、図15(a)
及び(b)に示すような木構造のルートノードが等し
く、かつ木構造を構成している単語が等しい木構造が存
在すれば、これらの木構造がパターン評価処理に渡され
る。
【0073】パターン評価処理では、図13に示した優
先度記号ファイルの内容を予め読み込んでおき、それに
従って、パターンの適用を評価する。仮に、記号なしよ
り高く評価したい記号がついた木構造が存在すれば、ル
ートノードがもつ詳細情報が等しいときのみ、最も高い
記号をもつパターンのみを採用し、それ以外は構築途中
の木構造の候補から削除する。
【0074】図15の例の場合には、図15(a)の木
構造と図15(b)の木構造の詳細情報が等しいので、
記号がついていない図15(b)の木構造は、優先度を
高める記号が付いた図15(a)の木構造より優先度が
低いので、木構造の候補から削除される。
【0075】一方、図16は、記号なしのパターンより
優先度を下げる記号”*”が付いている木構造を複数候
補の中にもつ例である。優先度を下げる記号の評価の場
合には、木構造の子ノードの構成要素が等しいことが条
件となる。図16(a)に示すものはパターン12−1
1が適用された記号なし木構造であり、図16(b)に
示すものはパターン12−12が適用された優先度を下
げる記号”*”が付いた木構造であり、これら木構造
は、子ノードの構成要素がNP、VPと等しく、かつ、
図16(b)に示す木構造は”*”が付いているので、
この木構造が候補から外される。
【0076】図17は、入力文”He arrests
the present deterioratio
n.”に対する最終的な構文解析結果を示している。
【0077】この構文解析結果に対応する日本語木構造
が構文生成処理で生成され、形態素生成処理を経て、最
終的に、「彼は現在の悪化を阻止する。」の翻訳結果が
出力される。
【0078】(B−3)第2の実施形態の効果 第2の実施形態の機械翻訳装置及び方法によれば、第1
の実施形態と同様な効果を奏すると共に、さらに、以下
ような効果をも奏する。
【0079】(a)構文的には正しい複数の木構造候補
が存在する場合、その中のある木構造を優先的に適用さ
せて翻訳したい場合がある。この第2の実施形態では、
優先度を上げる記号”!”を優先的に適用させたいパタ
ーンに付与することで、これが実現できる。
【0080】(b)木構造解析の途中で、パターンの条
件は等しく、その優先度に差がある複数候補のパターン
が存在した場合に、優先度が低いパターンをその候補か
ら外すことにより、解析候補が減り、構文解析や構文生
成にかかる処理時間を削減することができる。
【0081】(c)優先度下げ記号が付いた意味条件が
ついていないパターンを登録することによって、意味条
件が適用する場合には、意味条件がありのパターンのみ
が適用され、意味条件が適用しない場合にだけ、優先度
下げ記号がついた意味条件なしのパターンに適用するよ
うになる。これにより、常に意味条件なしのパターンを
適用するという解析の無駄をなくすことができ、解析に
かかる処理時間が削減される。さらに、意味条件を適用
しない場合も、構文解析の失敗にならず、尤もらしい
(汎用的な)訳語を得ることができる。
【0082】(d)尤もらしい(汎用的な)訳語に対応
したパターンに優先度を上げる記号を付与することで、
意味条件がないパターンに適用する場合には、厳しい条
件をもつ特殊な訳語ではなく、汎用的な訳語で翻訳する
ことができる。
【0083】(B−4)第2の実施形態の変形実施形態 優先度を示す記号はどんな種類の記号(単なる記号だけ
でなく、数字や括弧の種類や文字列などを含む)であっ
ても構わない。また、記号ではなく、他の形式の情報で
あっても良い。
【0084】優先度を上げる記号として、!と+など複
数設け、!を優先させるというように、優先度を順に複
数用意することもできる。
【0085】(C)第3の実施形態 次に、本発明による自然言語処理装置及び方法を、機械
翻訳装置及び機械翻訳方法に適用した第3の実施形態を
図面を参照しながら詳述する。
【0086】(C−1)第3の実施形態の構成 図18は、第3の実施形態の機械翻訳装置の機能的構成
を示すブロック図であり、上述した第2の実施形態に係
る図10との同一、対応部分には同一符号を付して示し
ている。
【0087】第3の実施形態の機械翻訳装置は、第2の
実施形態の構成に加え、木構造評価部25を備えてい
る。
【0088】木構造評価部25は、構文解析により完成
した原言語の構文解析結果として複数の候補が存在した
場合に、どの候補が最も適切かをパターンがもつ情報な
どによって評価(点数計算)して、最適な候補(木構
造)を選択して構文生成部23に与えるものである。又
は、複数の候補を評価値順に並べ替えて構文生成部23
に与えるものである。
【0089】(C−2)第3の実施形態の動作 図19は、第3の実施形態の機械翻訳装置の翻訳動作を
説明するフローチャートであり、第1の実施形態に係る
図5との同一、対応処理ステップには同一符号を付して
示している。
【0090】この第3の実施形態においては、原文入力
処理(ステップS21)、形態素解析処理(ステップS
22)、構文解析処理(ステップS23)、木構造評価
処理(ステップS27)、構文生成処理(ステップS2
4)、形態素生成処理(ステップS25)及び翻訳結果
出力処理(ステップS26)がこの順に実行される。す
なわち、第1や第2の実施形態に比較して、木構造評価
処理(ステップS27)が増えている。
【0091】図20は、木構造評価処理を示すフローチ
ャートである。木構造評価部25は、構文解析結果を受
け取ると、これをボトムアップに処理して評価点を計算
する。木構造評価部25は、枝の先端側から非終端ノー
ドを取り出しては(ステップS2001)、それがor
ノードかを判別し(ステップS2002)、orノード
でなければ現ノードの点数を計算し(ステップS200
5)、orノードであれば、子ノードの点数のうち最高
点をノードの点数とした後(ステップS2003)、点
数順にノードを並び換える(ステップS2004)。こ
のような処理を、点数計算が終了していない非終端ノー
ドがなくなるまで繰り返す。なお、具体的な点数の計算
方法は後述する。
【0092】以下、木構造評価処理を、入力文”It
arrests an attention.”を例に
具体的に説明する。
【0093】図21は、この入力文に対する構文解析結
果である。この図21は、orノードが2個存在するの
で、4個の構文解析結果候補(4個の木構造をまとめて
示している)を含んでいる。図21において、点線で引
き出された数字は木構造評価処理において計算された値
であり、構文解析結果では含まれていない。なお、構文
解析処理で用いられた翻訳パターン辞書33は第2の実
施形態のもの(図12)に準じているとする。但し、優
先度上げ記号として“!”と“+”との2種類があり、
前者が2段階の優先度上げを表し、後者が1段階の優先
度上げを表しているとする。
【0094】図22は、評価点の計算方法の定義ファイ
ルを示している。評価点計算方法定義ファイルは、例え
ば、木構造評価部25に格納されている。
【0095】評価点計算方法定義ファイルは、評価項目
名フィールド221と、評価部分フィールド222と、
評価点フィールド223とからなる。
【0096】評価項目名フィールド221には、パター
ンに係る優先度の上げ下げの記号“!”や“+”や
“*”や“node”(一般的な優先度ノード)だけで
なく、「木構造の終端記号の数」を意味するtermi
nalや、「ユーザ登録に係るもの」を意味するuse
r(例えば形態素辞書やパターン辞書に対する登録)な
どの評価項目名が記述されている。
【0097】評価部分フィールド222には、自ノード
(例えばorノード)より下の枝の全てが評価部分であ
ることを表すtotalや、自ノード(例えばorノー
ド)の直下の子ノードが評価部分であることを表すch
ildなどの評価部分が記述されている。
【0098】評価点フィールド223には、評価点が記
述されている。ここで、評価部分がtotalであるも
のに対しては、該当する評価項目(例えば記号)の数
(Nとする)に応じた計算式(例えば、1000−10
0N)で評価点が記述されている。なお、1000−1
00Nは、数学的には、1000−100×Nを意味し
ている。評価部分がchildであるものに対しては、
固定の評価点が記述されている。
【0099】図22に示す評価点計算方法定義ファイル
は、ユーザ登録に係る事項を最も評価し、次に、終端記
号数を評価し、その後は、パターンの優先度の順位を評
価するような構成となっている。なお、最高優先度記号
“!”については、orノード直下でのノードに付され
ているか否かをも大きな評価ウェイトとしている。
【0100】上述した図20に示した木構造評価処理に
おいて、ステップS2005の点数計算は、評価点計算
方法定義ファイルの規定内容に従ってなされる。
【0101】図21により具体的な評価点の計算方法を
説明する。
【0102】ノード21−1の+Nは、“+”記号が付
与されており、また、非終端記号数がattentio
nだけの1個であるので、図22の定義ファイルにおけ
る225及び230のレコードが適用されて評価点は9
0000001点となり、一方、ノード21−2は、
“+”記号が付与されておらず、また、非終端記号数が
attentionだけの1個であるので、図22の定
義ファイルにおける225のレコードが適用されて評価
点は90000000点となる。その結果、次のorノ
ード21−3では、高い方のノード21−1の評価点が
採用される。
【0103】また、ノード21−4のVPは“arre
sts a attention”が一塊りであって終
端記号数(終端ノード数)も子ノード数の1個であるの
で、ファイルのレコード225及び228が適用されて
評価点は90000900点となり、一方、ノード21
−5のVPは、終端記号数(終端ノード数)が3個、子
ノード数が4個、“+”記号が枝の先端側に1個あるの
で、ファイルのレコード225、228及び2210が
適用されて、評価点は7000601点となる。その結
果、次のorノード21−6ではノード21−4の点数
が採用される。
【0104】以上のようにして、評価点の計算が終了す
ると、ノードの順番を点数順に並び変える。このように
して、並べ替えた後の木構造を図23に示す。
【0105】構文生成処理は、この木構造に対応する日
本語(目的言語)での木構造を生成する。仮に、英語の
木構造にorノードがあれば、orノードの子ノードで
最も先頭に位置する英語ノードに対応する日本語ノード
のみが選ばれて、生成処理が行われる。その後、形態素
生成処理が行われ、その結果、「それは興味を引く。」
という翻訳結果が出力される。
【0106】なお、仮に、ユーザが複数の翻訳結果候補
を出力して欲しい場合には、orノードの子ノード全て
に対応する日本語木構造を利用して構文生成、形態素生
成処理を行う。この場合の翻訳結果は、「それは(興味
を引く|注意を阻止する)。」となる。この場合、前者
の方がシステムは評価していることを示している。
【0107】(C−3)第3の実施形態の効果 第3の実施形態の機械翻訳装置及び方法によれば、第1
及び第2の実施形態と同様な効果を奏すると共に、これ
に加え、以下の効果を奏することができる。
【0108】により以下の効果を有する。
【0109】(a)木構造全体で、パターンに付与され
ている種々の優先度記号や、パターンの詳細情報を用い
て評価することにより、よりきめ細かな訳し分けや構文
解析との絡みによる訳し分けが可能となる。
【0110】(b)この第3の実施形態によれば、種々
の優先度記号やパターン詳細情報の優先順位を決めてお
くことにより、優先順位に従った翻訳結果を期待でき、
翻訳結果も予測しやすい。
【0111】(c)終端パターンの数など、優先度記号
以外の条件も、同じ計算式で同時に評価することができ
る。
【0112】(d)例えば、“…today…”の解析
結果において、名詞の候補しか存在しない場合は名詞と
して翻訳するが、名詞と副詞の両方の候補が存在した場
合には、副詞として翻訳したい、というような場合、優
先したい品詞(この場合副詞)のパターンに優先度を上
げる記号を付与することで、多品詞の優先順位を制御す
ることができる。
【0113】(C−4)第3の実施形態の変形実施形態 第3の実施形態で用いる評価点の計算方法を制御する優
先度記号は、第2の実施形態の優先度記号を併用しても
かまわなく、また、異なるようにしても良い。前者の場
合において、記号の付与によってパターン評価処理で候
補を削減できるものは削減し、それ以外を点数計算で優
先度を決めるという、1つの記号で二段階の優先度処理
が行われることになる。上記説明は、このような場合を
意識している。
【0114】評価点の計算方法を規定する記号は、いく
つ付与してもどんな種類であっても構わない。また、複
数種類の記号を同時に付与することも可能である。
【0115】点数の計算式及び各評価項目の配点は、ど
んな式でもどんな配点でも構わない。また、簡単に変更
し得るようにしても良い。木構造全体の記号の数の優先
順位より、orノード直下のノードに付与された記号の
優先順位を高くするなど、木構造のレベルを考慮に入れ
た点数計算をすることも可能である。
【0116】終端ノードの数だけでなく、他の木構造や
パターンの特徴に従って優先度を決めることができる。
例えば、第1の実施形態の目的語の名詞句の意味の数が
少ないものほど優先するように、記号を付与すると、複
数のパターンが条件に適用した場合でも、常に、条件の
厳しいパターンが優先されて翻訳されるというように、
翻訳結果の出力に一定の原則を与えることができる。
【0117】(D)第4の実施形態 次に、本発明による自然言語処理装置及び方法を、機械
翻訳装置及び機械翻訳方法に適用した第4の実施形態を
図面を参照しながら詳述する。
【0118】(D−1)第4の実施形態の構成 図24は、第4の実施形態の機械翻訳装置の機能的構成
を示すブロック図であり、第3の実施形態に係る図18
との同一、対応部分には同一符号を付して示している。
【0119】第4の実施形態の機械翻訳装置は、パター
ン検査部251、パターン適用部252及びパターン評
価部253の部分を構文解析部22の外部に独立したパ
ターン処理部26として備え、構文生成部23内の構文
生成器231が利用し得るようにしている。
【0120】すなわち、パターンの検査、適用、評価を
構文解析時だけでなく、構文生成時も行うことができる
ようにしている。
【0121】なお、翻訳パターンとして、同一の原言語
パターンに対応する目的言語パターンが複数のこともあ
る。また、図4では示していないが、目的言語パターン
にもパターン適用条件などを当然に付与することができ
る。この第4の実施形態は、このようなことを前提とし
ている。
【0122】(D−2)第4の実施形態の動作 第4の実施形態が既述した実施形態と異なる動作は、構
文生成処理である。そこで、以下では、図25のフロー
チャートを参照しながら、第4の実施形態の構文生成処
理での特徴的な処理を説明する。
【0123】従来の方式では、英語(原言語)の木構造
の構築とほぼ並行して日本語(目的言語)の木構造も構
築されるため(単純なパターンを利用した木構造の置き
換え)、特別な構文生成処理は行われない。そのため、
日本語の木構造においてパターン適用条件のずれが生じ
てもそれを検知することができない。
【0124】この第4の実施形態は、英語の木構造の構
築とほぼ並行して構築される日本語の木構造において、
複数候補ノードが発生した場合に、パターン検査処理、
パターン適用処理、パターン評価処理を行うことによっ
て、複数候補を解消しようとしたものである。英語の木
構造に対して、例えば、日本語の木構造を従来の構文生
成処理(パターンを用いた単純な置き換え)で得た仮り
の日本語(目的言語)の木構造に対して、図25が実行
される。
【0125】まず、構文生成器231は、ルートノード
からトップダウンに仮の木構造から非終端記号を1個取
り出し(ステップS2501)、それがorノードか否
かを判別する(ステップS2502)。
【0126】orノードがあれば、orノードの子ノー
ドのパターンと自ノードを含めた親の木構造をパターン
検査部223に渡し、パターン検査処理及びパターン適
用処理を実行させる(ステップS2503)。パターン
検査処理が終了したときには、その検査結果に応じて、
パターン適用部224によるパターン適用処理が実行さ
れる(ステップS2504)。その後、パターン適用処
理によりorノードが解消されたか否かを判別し(ステ
ップS2505)、解消されていなければ、パターン評
価部225にパターン評価処理を実行させる(ステップ
S2507)。
【0127】取り出した非終端記号がorノードでない
場合には、そのノードをそのまま適用させる(ステップ
S2506)。
【0128】このような処理を非終端記号が取り出せな
くなるまで繰り返し、日本語(目的言語)の木構造を完
成(生成)させる。
【0129】なお、パターン検査処理、パターン適用処
理及びパターン評価処理は、既述した実施形態とほぼ同
様な処理である。
【0130】以下、入力文“the intellec
tual woman”を例に、第4の実施形態での構
文生成処理を説明する。
【0131】図26(a)は、この入力文に対する構文
解析結果(英語での木構造)を示し、図26(b)は、
それに対応する日本語での木構造を示している。図26
(b)の日本語木構造は英語木構造の対応結果から作ら
れた仮りの木構造である。この仮の木構造に対して、上
述した図25に示す処理が実行される。
【0132】図26(b)に示す木構造ではorノード
が含まれており、パターン検査処理やパターン適用処理
が行われる。
【0133】ここで、図27(b1)に示すような翻訳
パターンが記述されている場合であって、パターン検査
処理及びパターン適用処理に供する親の木構造が図27
(a)に示すような場合であれば、パターン検査でパタ
ーンは適合するという結果が得られ、図27(b1)の
日本語パターンが適用される。その結果、orノードは
解消されて次のノードに進む。
【0134】しかし、図27(b2)に示すような翻訳
パターンも、すなわち、日本語パターンが英語パターン
に対応して2種類記述されている場合であって、両パタ
ーンが適用できる場合であれば、パターン評価処理が実
行される。
【0135】2種類の日本語パターンには優先度記号が
付与されているので、ここで、1個に絞り込まれる。又
は、優先順位が付与される。
【0136】図28は、上記入力文に対して優先順位を
付与した場合の構文生成処理結果を示している。この結
果が形態素生成部に渡されて、「理知的な女性」又は
「理知的な女性|知力を要する女性」の翻訳結果が得ら
れる。
【0137】(D−3)第4の実施形態の効果 第4の実施形態の機械翻訳装置及び方法によれば、既述
した実施形態の効果に加えて、以下の効果を奏すること
ができる。
【0138】(a)原言語に関する情報だけでなく、目
的言語の情報によっても訳し分けをすることができる。
【0139】(b)上記翻訳パターン辞書による双方向
の翻訳を実施した場合、原言語、目的言語パターンの両
方に優先度を付与することによって、それぞれの優先度
を解析側、生成側で再び利用することができる。
【0140】(D−4)第4の実施形態の変形実施形態 上記では、パターン生成時に複数候補を減らすという、
第2の実施形態に類似の方式を説明したが、構文解析器
は全ての候補を求め、その後、構文生成木の点数計算を
するという第3の実施形態に類似した方式をとっても良
い。また、両方の方式をとっても良い。
【0141】原言語から目的言語の翻訳の逆(つまり目
的言語から原言語への翻訳)を考えた場合、目的言語の
パターンに付与した優先度は解析時に利用できる。その
場合、原言語側のパターンに付与した優先度は、生成時
に利用できる。
【0142】(E)第5の実施形態 次に、本発明による自然言語処理装置及び方法を、機械
翻訳装置及び機械翻訳方法に適用した第5の実施形態を
図面を参照しながら詳述する。
【0143】(E−1)第5の実施形態の構成 図29は、第4の実施形態の機械翻訳装置の機能的構成
を示すブロック図であり、第4の実施形態に係る図24
との同一、対応部分には同一符号を付して示している。
【0144】この第5の実施形態は、入出力部1に、ユ
ーザの入力する翻訳パターンを受け付けるユーザ辞書登
録処理部13を備え、また、辞書格納部3にその翻訳パ
ターンを格納するユーザパターン辞書34を備えてい
る。すなわち、ユーザ登録(削除)機能を搭載したもの
である。
【0145】そのため、構文解析部22などは、システ
ムパターン辞書33とユーザパターン辞書34の両方を
参照することになる。
【0146】(E−2)第5の実施形態の動作 ユーザ登録に係るものが翻訳パターンであるため、条件
等の詳細な情報の直接的な登録は専門知識が必要とされ
るが、ユーザインターフェース等を備えることにより、
単語(形態素)その他の要素の登録と同様な処理により
登録することができる。但し、以下のような点が異なっ
ている。
【0147】”Following is [名詞
句]”を“[名詞句]を次に示します。”をユーザが登
録する場合について説明する。
【0148】この場合の翻訳パターンは、 [en:S [following is [1:N
P].] [ja:S [1:NP]を次に示します。]となる。
【0149】仮に、名詞句に位置する単語が人以外の場
合のみこのパターンを適用したい場合には、[en:S
[following is [1:NP:意味!=
人].][ja:S [1:NP]を次に示します。]
というように意味条件も記述して登録する。この場合に
おいて、ユーザによる任意の入力を待ち受けるだけでな
く、ユーザ辞書登録処理部13が、例えば、NPなどの
場合に条件設定を行うか否かを問うメッセージや、条件
の設定例などを表示して、条件を取り込むようにしても
良い。
【0150】また、ユーザ登録に係るパターンには、最
高の優先度上げ記号を常に付加して登録することにす
る。
【0151】さらに、上述したように、図22の評価点
計算方法定義ファイル(第3の実施形態に係る)では、
userという評価項目名のレコード221に最も高い
評価点を付与するようにしており、木構造の評価時にユ
ーザパターン辞書のパターンに係るものが最優先され、
その翻訳結果が得られる。
【0152】ここで、userはユーザパターンを示
し、childは子ノードの直下を示す。レコード22
−1は、orノード直下のユーザパターンに対し、最高
点(100000000点)を与える、を意味する。こ
れにより、ユーザパターンは、全ての候補に対して、優
先度が高くなり、ユーザが登録したパターンは、必ず翻
訳結果に反映されるようになる。
【0153】(E−3)第5の実施形態の効果 第5の実施形態の機械翻訳装置及び方法によれば、既述
した実施形態の効果に加えて、以下の効果を奏すること
ができる。
【0154】(a)ユーザが作成する翻訳パターン辞書
にも、変数に意味やその他の条件を付与することができ
る。これにより、一般化したパターンによる登録がで
き、登録するパターン数は少なくて済む。
【0155】(b)ユーザパターン毎に優先度記号を付
与することも可能であり、ユーザによる訳語や訳文の制
御も可能である。
【0156】(c)ユーザパターンに係る評価点も他の
パターンに対する計算と同じ点数計算で行うため、ユー
ザパターン辞書の優先度(優先度記号)などの変更にも
容易に対応することができる。
【0157】(d)ユーザは、候補訳語を全て出力する
ことによって、ユーザパターンを用いない翻訳結果もユ
ーザパターンを用いた翻訳と同時に得ることができる。
【0158】(E−4)第5の実施形態の変形実施形態 第5の実施形態では、ユーザパターン辞書を最優先にし
たが、最少ノード数を優先し、次に、ユーザパターンを
優先する等、優先順位は、適宜変更することができる。
【0159】複数のユーザパターン辞書を作成して、そ
れぞれの辞書に優先順位を付けることができる。
【0160】ユーザパターン辞書においても優先度を上
げたり、下げたりする記号を付与することができる。
(その場合は、ユーザパターン辞書内における優先順位
付けとなる。) ユーザパターン辞書入力処理部において、ユーザは、
[en:…][ja:…]などのような翻訳パターンを
直接入力するのではなく、パターン名、単語と変数を簡
単に入力するユーザインターフェースを設けることによ
り、ユーザパターン辞書の作成を容易にすることができ
る。
【0161】第5の実施形態では、ユーザパターンの評
価を木構造評価部で行うことによってユーザパターン辞
書を優先して翻訳する方式を示したが、パターン評価部
において、ユーザパターンとそれ以外の候補が存在した
場合、ユーザパターンを適用して、それ以外の候補は適
用しないという方式でも実現可能である(第2の実施形
態参照) (F)他の実施形態 本発明の技術思想の適用対象は、機械翻訳装置や方法に
限定されず、自然言語パターンを利用して構文解析を行
う自然言語処理装置及び方法や、自然言語パターンを利
用して構文生成を行う自然言語処理装置及び方法に適用
することができる。
【0162】この場合において、構文解析を自然言語パ
ターンを利用して行い、構文生成は自然言語パターンを
利用しない方法で行うものであっても良く、その逆であ
っても良い。また、構文解析のみを必要とし、構文生成
を実行しない装置や、その逆の装置などにも本発明を適
用することができる。
【0163】
【発明の効果】以上のように、本発明によれば、適切な
自然言語処理結果を提供し得る自然言語処理装置及び方
法を実現できる。
【図面の簡単な説明】
【図1】第1の実施形態の機械翻訳装置の機能的構成を
示すブロック図である。
【図2】第1の実施形態の機械翻訳装置の翻訳動作を示
すフローチャートである。
【図3】第1の実施形態の形態素解析結果例を示す説明
図である。
【図4】第1の実施形態の翻訳パターン辞書33の格納
内容例を示す説明図である。
【図5】第1の実施形態の構文解析処理の詳細を示すフ
ローチャートである。
【図6】第1の実施形態の構文解析処理のパターン検査
処理及びパターン適用処理の具体例の説明図である。
【図7】図6のパターン適用処理後の木構造を示す説明
図である。
【図8】第1の実施形態の入力文例に対する構文解析結
果を示す説明図である。
【図9】図8の構文解析結果に対する構文生成結果を示
す説明図である。
【図10】第2の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
【図11】第2の実施形態の構文解析処理の詳細を示す
フローチャートである。
【図12】第2の実施形態の翻訳パターン辞書33の格
納内容例を示す説明図である。
【図13】第2の実施形態のパターンの優先度記号ファ
イルを示す説明図である。
【図14】第2の実施形態のパターン評価処理の詳細を
示すフローチャートである。
【図15】第2の実施形態のパターン評価処理の対象と
なる木構造候補を示す説明図(1)である。
【図16】第2の実施形態のパターン評価処理の対象と
なる木構造候補を示す説明図(2)である。
【図17】第2の実施形態の構文解析結果の例を示す説
明図である。
【図18】第3の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
【図19】第3の実施形態の機械翻訳装置の翻訳動作を
示すフローチャートである。
【図20】第3の実施形態の木構造評価処理を示すフロ
ーチャートである。
【図21】第3の実施形態の木構造評価処理に供する構
文解析結果例を示す説明図である。
【図22】第3の実施形態の木構造の評価点計算方法定
義ファイルを示す説明図である。
【図23】第3の実施形態の木構造評価処理語の構文解
析結果を示す説明図である。
【図24】第4の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
【図25】第4の実施形態の構文生成処理の特徴処理を
示すフローチャートである。
【図26】第4の実施形態の構文生成処理の特徴処理を
行う前の木構造を示す説明図である。
【図27】第4の実施形態のパターン検査処理及びパタ
ーン適用処理の説明図である。
【図28】第4の実施形態の構文生成結果例を示す説明
図である。
【図29】第5の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
【符号の説明】
1…入出力部、 2…翻訳処理部、 3…辞書格納部、 13…ユーザ辞書登録処理部、 21…形態素解析部、 22…構文解析部、 23…構文生成部、 24…形態素生成部、 25…木構造評価部、 26…パターン評価部、 221…辞書引き部、 223、261…パターン検査部、 224、262…パターン適用部、 225、263…パターン評価部、 33…翻訳パターン辞書(システムパターン辞書)、 34…ユーザパターン辞書。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 佐々木 美樹 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 下畑 さより 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 福居 毅至 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 渕上 正睦 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 Fターム(参考) 5B091 AA06 AA15 CA02 CA05 CA24 CC01 CC15

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 少なくともパターン名及びパターン構成
    要素を有する自然言語パターンを利用して、構文解析、
    及び又は、構文生成を行う自然言語処理装置において、 予めパターン辞書に用意されている上記自然言語パター
    ンから、構文解析、及び又は、構文生成時の処理での候
    補となる1以上の自然言語パターンを抽出する辞書引き
    手段と、 候補の自然言語パターンが木構造に適合しているか否か
    を検査するパターン検査手段と、 適合する場合に、その自然言語パターンを木構造に適用
    するパターン適用手段とを有することを特徴とする自然
    言語処理装置。
  2. 【請求項2】 予めパターン辞書に用意されている全て
    又は一部の上記自然言語パターンについて、パターン名
    及び又はパターン構成要素について、パターン適用条件
    を持たせておき、 上記パターン検査手段が、候補の自然言語パターンのパ
    ターン適用条件をも参照して木構造に適合しているか否
    かを検査することを特徴とする請求項1に記載の自然言
    語処理装置。
  3. 【請求項3】 パターン適用条件の1つとして意味条件
    に関する情報を有する複数の自然言語パターンのうち
    に、意味に関する情報のみが異なる複数の自然言語パタ
    ーンを用意しておき、 上記パターン検査手段及び上記パターン適用手段の処理
    を通じて、意味情報が最適な木構造を決定することを特
    徴とする請求項2に記載の自然言語処理装置。
  4. 【請求項4】 予めパターン辞書に用意されている上記
    各自然言語パターンには、適用に対する優先度を表す情
    報が付与されていると共に、 木構造の適用の候補となっている上記自然言語パターン
    を、それに付与されている優先度の情報により評価する
    パターン評価手段をさらに有することを特徴とする請求
    項1〜3のいずれかに記載の自然言語処理装置。
  5. 【請求項5】 パターン構成要素において、意味条件の
    有無だけが異なる自然言語パターンの間では、意味条件
    を有する自然言語パターンの優先度を高め、パターン名
    において、意味条件の有無だけが異なる自然言語パター
    ンの間では、意味条件を持たない自然言語パターンの優
    先度を高めたことを特徴とする請求項4に記載の自然言
    語処理装置。
  6. 【請求項6】 上記パターン評価手段は、木構造への適
    用に関し、パターン名及びそのパターン適用条件が同じ
    であって優先度の情報が異なる複数の自然言語パターン
    の候補が存在した場合に、優先度が最も高い自然言語パ
    ターンの侯補以外を候補から除くことを特徴とする請求
    項4又は5に記載の自然言語処理装置。
  7. 【請求項7】 上記パターン評価手段は、木構造への適
    用に関し、パターン名及びパターン構成要素が同じであ
    って優先度の情報が異なる複数の自然言語パターンの候
    補が存在した場合に、通常優先度より相対的に低い優先
    度の自然言語パターンの候補から除外することを特徴と
    する請求項4〜6のいずれかに記載の自然言語処理装
    置。
  8. 【請求項8】 構文解析、及び又は、構文生成で得られ
    た木構造が複数の木構造である場合に、各木構造を評価
    し得る評価配点方法であって、複数の木構造で異なって
    いる部分木に適用された自然言語パターンでの優先度の
    情報をも利用している評価配点方法に従って、複数の木
    構造の優劣を評価する木構造評価手段を有することを特
    徴とする請求項4〜7のいずれかに記載の自然言語処理
    装置。
  9. 【請求項9】 上記木構造評価手段は、木構造に適用さ
    れた自然言語パターンでの優先度の情報に加え、複数の
    木構造で異なっている部分木を構成する終端記号の多少
    をも評価配点方法に反映させていることを特徴とする請
    求項8に記載の自然言語処理装置。
  10. 【請求項10】 上記木構造評価手段は、木構造に適用
    された自然言語パターンでの優先度の情報に加え、所定
    の優先度に係るノードの位置をも評価配点方法に反映さ
    せていることを特徴とする請求項8又は9に記載の自然
    言語処理装置。
  11. 【請求項11】 自然言語パターンのユーザ登録手段を
    有することを特徴とする請求項1〜10に自然言語処理
    装置。
  12. 【請求項12】 ユーザ登録の自然言語パターンにシス
    テム登録の自然言語パターン以上の優先度を付与するこ
    とを特徴とする請求項11に記載の自然言語処理装置。
  13. 【請求項13】 構文解析、及び又は、構文生成で得ら
    れた木構造が複数の木構造である場合に、複数の木構造
    で異なっている部分木において、ユーザ登録に係る自然
    言語パターンを適用された部分木を有する木構造を最優
    先する木構造評価手段を有することを特徴とする請求項
    11又は12に記載の自然言語処理装置。
  14. 【請求項14】 少なくともパターン名及びパターン構
    成要素を有する自然言語パターンを利用して、構文解
    析、及び又は、構文生成を行う自然言語処理方法におい
    て、 予めパターン辞書に用意されている上記自然言語パター
    ンから、構文解析、及び又は、構文生成時の処理での候
    補となる1以上の自然言語パターンを抽出する辞書引き
    工程と、 候補の自然言語パターンが木構造に適合しているか否か
    を検査するパターン検査工程と、 適合する場合に、その自然言語パターンを木構造に適用
    するパターン適用工程とを有することを特徴とする自然
    言語処理方法。
  15. 【請求項15】 予めパターン辞書に用意されている全
    て又は一部の上記自然言語パターンについて、パターン
    名及び又はパターン構成要素について、パターン適用条
    件を持たせておき、 上記パターン検査工程が、候補の自然言語パターンのパ
    ターン適用条件をも参照して木構造に適合しているか否
    かを検査することを特徴とする請求項14に記載の自然
    言語処理方法。
  16. 【請求項16】 パターン適用条件の1つとして意味条
    件に関する情報を有する複数の自然言語パターンのうち
    に、意味に関する情報のみが異なる複数の自然言語パタ
    ーンを用意しておき、 上記パターン検査工程及び上記パターン適用工程の処理
    を通じて、意味情報が最適な木構造を決定することを特
    徴とする請求項15に記載の自然言語処理方法。
  17. 【請求項17】 予めパターン辞書に用意されている上
    記各自然言語パターンには、適用に対する優先度を表す
    情報が付与されていると共に、 木構造の適用の候補となっている上記自然言語パターン
    を、それに付与されている優先度の情報により評価する
    パターン評価工程をさらに有することを特徴とする請求
    項14〜16のいずれかに記載の自然言語処理方法。
  18. 【請求項18】 パターン構成要素において、意味条件
    の有無だけが異なる自然言語パターンの間では、意味条
    件を有する自然言語パターンの優先度を高め、パターン
    名において、意味条件の有無だけが異なる自然言語パタ
    ーンの間では、意味条件を持たない自然言語パターンの
    優先度を高めたことを特徴とする請求項17に記載の自
    然言語処理方法。
  19. 【請求項19】 上記パターン評価工程は、木構造への
    適用に関し、パターン名及びそのパターン適用条件が同
    じであって優先度の情報が異なる複数の自然言語パター
    ンの候補が存在した場合に、優先度が最も高い自然言語
    パターンの侯補以外を候補から除くことを特徴とする請
    求項17又は18に記載の自然言語処理方法。
  20. 【請求項20】 上記パターン評価工程は、木構造への
    適用に関し、パターン名及びパターン構成要素が同じで
    あって優先度の情報が異なる複数の自然言語パターンの
    候補が存在した場合に、通常優先度より相対的に低い優
    先度の自然言語パターンの候補から除外することを特徴
    とする請求項17〜19のいずれかに記載の自然言語処
    理方法。
  21. 【請求項21】 構文解析、及び又は、構文生成で得ら
    れた木構造が複数の木構造である場合に、各木構造を評
    価し得る評価配点方法であって、複数の木構造で異なっ
    ている部分木に適用された自然言語パターンでの優先度
    の情報をも利用している評価配点方法に従って、複数の
    木構造の優劣を評価する木構造評価工程を有することを
    特徴とする請求項17〜20のいずれかに記載の自然言
    語処理方法。
  22. 【請求項22】 上記木構造評価工程は、木構造に適用
    された自然言語パターンでの優先度の情報に加え、複数
    の木構造で異なっている部分木を構成する終端記号の多
    少をも評価配点方法に反映させていることを特徴とする
    請求項21に記載の自然言語処理方法。
  23. 【請求項23】 上記木構造評価工程は、木構造に適用
    された自然言語パターンでの優先度の情報に加え、所定
    の優先度に係るノードの位置をも評価配点方法に反映さ
    せていることを特徴とする請求項21又は22に記載の
    自然言語処理方法。
  24. 【請求項24】 自然言語パターンのユーザ登録工程を
    有することを特徴とする請求項14〜23に自然言語処
    理方法。
  25. 【請求項25】 ユーザ登録の自然言語パターンにシス
    テム登録の自然言語パターン以上の優先度を付与するこ
    とを特徴とする請求項24に記載の自然言語処理方法。
  26. 【請求項26】 構文解析、及び又は、構文生成で得ら
    れた木構造が複数の木構造である場合に、複数の木構造
    で異なっている部分木において、ユーザ登録に係る自然
    言語パターンを適用された部分木を有する木構造を最優
    先する木構造評価工程を有することを特徴とする請求項
    24又は25に記載の自然言語処理方法。
JP2000225911A 2000-07-26 2000-07-26 自然言語処理装置及び方法 Expired - Lifetime JP4103311B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000225911A JP4103311B2 (ja) 2000-07-26 2000-07-26 自然言語処理装置及び方法
US09/909,901 US7010479B2 (en) 2000-07-26 2001-07-23 Apparatus and method for natural language processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000225911A JP4103311B2 (ja) 2000-07-26 2000-07-26 自然言語処理装置及び方法

Publications (2)

Publication Number Publication Date
JP2002041512A true JP2002041512A (ja) 2002-02-08
JP4103311B2 JP4103311B2 (ja) 2008-06-18

Family

ID=18719617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000225911A Expired - Lifetime JP4103311B2 (ja) 2000-07-26 2000-07-26 自然言語処理装置及び方法

Country Status (1)

Country Link
JP (1) JP4103311B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017199363A (ja) * 2016-04-21 2017-11-02 国立研究開発法人情報通信研究機構 機械翻訳装置及び機械翻訳のためのコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017199363A (ja) * 2016-04-21 2017-11-02 国立研究開発法人情報通信研究機構 機械翻訳装置及び機械翻訳のためのコンピュータプログラム

Also Published As

Publication number Publication date
JP4103311B2 (ja) 2008-06-18

Similar Documents

Publication Publication Date Title
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
US5424947A (en) Natural language analyzing apparatus and method, and construction of a knowledge base for natural language analysis
JPH077419B2 (ja) 機械翻訳装置における略称付き固有名詞処理方法
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPH0351020B2 (ja)
Droganova et al. Data conversion and consistency of monolingual corpora: Russian UD treebanks
JPH1011447A (ja) パターンに基づく翻訳方法及び翻訳システム
JP2004355204A (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
Ganfure et al. Design and implementation of morphology based spell checker
JPH0261763A (ja) 機械翻訳装置
JP4103311B2 (ja) 自然言語処理装置及び方法
JP2632806B2 (ja) 言語解析装置
JP2004318344A (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム
JPH0795323B2 (ja) 自然言語処理装置
Sadana et al. Sanskrit To Hindi Translation Using Lexical Paring
Casbeer et al. A link grammar parser for Arabic
JP2839419B2 (ja) イディオム登録機能を持つ機械翻訳装置
Ibrahim A syntactically-based preprocessor for a limited experimental Arabic document retrieval system
Sathiyamurthy et al. Multilingual acquiring of e-content definition based on universal networking language
JPH10320395A (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
Ciddi Processing of Turkic Languages
JP2002182913A (ja) 自動プログラミング装置、方法及び記憶媒体
JPH0519185B2 (ja)
JPS62262178A (ja) 言語解析装置
JPH04213164A (ja) 辞書引き方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080317

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140404

Year of fee payment: 6