JPH0335354A - 機械翻訳装置における略称付き固有名詞処理方法 - Google Patents
機械翻訳装置における略称付き固有名詞処理方法Info
- Publication number
- JPH0335354A JPH0335354A JP1170301A JP17030189A JPH0335354A JP H0335354 A JPH0335354 A JP H0335354A JP 1170301 A JP1170301 A JP 1170301A JP 17030189 A JP17030189 A JP 17030189A JP H0335354 A JPH0335354 A JP H0335354A
- Authority
- JP
- Japan
- Prior art keywords
- word
- dictionary
- abbreviation
- sentence
- proper noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title 1
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 17
- 150000001875 compounds Chemical class 0.000 claims description 14
- 230000000877 morphologic effect Effects 0.000 claims description 11
- 239000002131 composite material Substances 0.000 abstract 4
- 230000014616 translation Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 8
- 238000012916 structural analysis Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〈産業上の利用分野〉
本発明は機械翻訳装置の固有名詞処理に関するものであ
り、特に略称を伴う複合語固有名詞に対して好適に実施
される方法である。
り、特に略称を伴う複合語固有名詞に対して好適に実施
される方法である。
〈従来技術〉
従来において、入力文章中の単語が同右名詞として使わ
れている場合、辞書引きした際に該単語が固有名詞とし
て辞書登録されていれば、その辞書引き情報に従って翻
訳語を生成する。一方、@記単語が固有名詞として辞書
登録されていなければ、他の辞書引き情報に基づいて翻
訳語を生成する。
れている場合、辞書引きした際に該単語が固有名詞とし
て辞書登録されていれば、その辞書引き情報に従って翻
訳語を生成する。一方、@記単語が固有名詞として辞書
登録されていなければ、他の辞書引き情報に基づいて翻
訳語を生成する。
〈発明が解決しようとする課題〉
上述したように入力文章中の単語が固有名詞として使わ
れているにもかかわらず、該単語が辞書に固有名詞とし
て登録されていない場合、他の辞書引き情報に基づいて
翻訳語が生成されてその結果間違った翻訳を行うことが
あった。
れているにもかかわらず、該単語が辞書に固有名詞とし
て登録されていない場合、他の辞書引き情報に基づいて
翻訳語が生成されてその結果間違った翻訳を行うことが
あった。
特に上述したような誤壕りは複数の単語がひと筐と渣り
で複合語の固有名詞をなしている場合に多く見られる。
で複合語の固有名詞をなしている場合に多く見られる。
第13図は入力文と従来の機械翻訳装置における前記入
力文に対する出力文の例である。
力文に対する出力文の例である。
入力文章中に固有名詞r□rganil/1ion
ofPetroleum Exporting C
ountries(OPEC)J (右曲輸出国機構)
があり、これらの単語群が複合語固有名詞として辞書登
録されていないとすると、他の辞書引き情報に基づいて
翻訳語を生成してその結果「諸国を輸出する石油の組織
」と出力され、翻訳文の意味を間違ったものにさせてい
た。
ofPetroleum Exporting C
ountries(OPEC)J (右曲輸出国機構)
があり、これらの単語群が複合語固有名詞として辞書登
録されていないとすると、他の辞書引き情報に基づいて
翻訳語を生成してその結果「諸国を輸出する石油の組織
」と出力され、翻訳文の意味を間違ったものにさせてい
た。
本発明は上記問題点に鑑み、複合語の固有名詞の誤った
翻訳を防止する方法を提供することを目的としている。
翻訳を防止する方法を提供することを目的としている。
く課題を解決するための手段〉
本発明は、上記目的を達成するために、入力された文章
中の各単語を辞書引きし、該辞書引き情報から前記入力
文章の形態素列を得る辞書引き形態素解析部と。
中の各単語を辞書引きし、該辞書引き情報から前記入力
文章の形態素列を得る辞書引き形態素解析部と。
該辞書引き形態素解析部によって得られた形態素列の構
文を辞書と文法規則を用いて解析する構文解析部と、 該構文解析部で得られた構文を目標言語にわける構文の
構造に変換する変換部と。
文を辞書と文法規則を用いて解析する構文解析部と、 該構文解析部で得られた構文を目標言語にわける構文の
構造に変換する変換部と。
該変換部によって得られた目標言語の構文構造と前記辞
書引き情報とに基づいて翻訳文を生成する翻訳文生成部
とを有する機械翻訳装置において、@記辞書引き形態素
解析部で辞書引きした結果単語が略称であるか否かを判
定するステップと、文章中の単語が略称であると判定さ
れた場合、前記略称単語の直前の単語から数えて前記略
称単語の文字数分だけの単語群がひとまとまりで複合語
固有名詞として辞書登録されているか否かを調べるステ
7プと、 複合語固有名詞として辞書登録されていれば、その辞書
引き情報を前記翻訳文生成部に釦いて訳語として出力す
る一方、辞書登録されていなければ前記翻訳文生成部に
おいて前記単語群をそのま1出力するステップ と金具溝するものである。
書引き情報とに基づいて翻訳文を生成する翻訳文生成部
とを有する機械翻訳装置において、@記辞書引き形態素
解析部で辞書引きした結果単語が略称であるか否かを判
定するステップと、文章中の単語が略称であると判定さ
れた場合、前記略称単語の直前の単語から数えて前記略
称単語の文字数分だけの単語群がひとまとまりで複合語
固有名詞として辞書登録されているか否かを調べるステ
7プと、 複合語固有名詞として辞書登録されていれば、その辞書
引き情報を前記翻訳文生成部に釦いて訳語として出力す
る一方、辞書登録されていなければ前記翻訳文生成部に
おいて前記単語群をそのま1出力するステップ と金具溝するものである。
〈作 用〉
本発明によれば、文章中の単語が略称であると判定され
ると、該略称単語の直前の単語から数えて前記略称単語
の文字数分だけの単語群がひとまとまりで複合語固有名
詞として辞書登録されていルカ否カを調へて、辞書登録
されてわれば、該辞書引き情報に従って翻訳語を生成出
力する一方、辞書登録されていなければ、前記単語群を
その11出力する。
ると、該略称単語の直前の単語から数えて前記略称単語
の文字数分だけの単語群がひとまとまりで複合語固有名
詞として辞書登録されていルカ否カを調へて、辞書登録
されてわれば、該辞書引き情報に従って翻訳語を生成出
力する一方、辞書登録されていなければ、前記単語群を
その11出力する。
〈実施例〉
以下、この発明を図示の実施例により詳細に説施例のブ
ロフク図である。1はメインCPU(中央処理装置)、
2はメインメモリー 3はCRTcカソード・レイ・チ
ューブ)、4はキーボード、5は翻訳モジュール、6は
翻訳用の辞書1文法規則および木構造変換規則等を格納
しているメモリーである。
ロフク図である。1はメインCPU(中央処理装置)、
2はメインメモリー 3はCRTcカソード・レイ・チ
ューブ)、4はキーボード、5は翻訳モジュール、6は
翻訳用の辞書1文法規則および木構造変換規則等を格納
しているメモリーである。
上記翻訳モジュール5は、ソース言語が入力されると、
それを翻訳してターゲット言語を出力するものである。
それを翻訳してターゲット言語を出力するものである。
すなわち、キーボード4から入力されたソース言語はメ
インCPUIの制御により翻訳モジュール5に送られる
。翻訳モジュール5は、メモリー6に記はされている辞
書1文法規則および木構造変換規則等を用いて、後に詳
述するようにして入力されたソース言語をターゲノト言
Yノ 語に翻訳する。その結果は、メインメモlす2に一旦記
憶されると共に、CRTHに表示される。
インCPUIの制御により翻訳モジュール5に送られる
。翻訳モジュール5は、メモリー6に記はされている辞
書1文法規則および木構造変換規則等を用いて、後に詳
述するようにして入力されたソース言語をターゲノト言
Yノ 語に翻訳する。その結果は、メインメモlす2に一旦記
憶されると共に、CRTHに表示される。
翻訳モジュール5で行われる機械翻訳には。
船釣に第2図に示すような解析レベルがある。図中左上
においてソース言語が入力されると、レベルL1の辞書
引き、レベルL2の形態素解析、レベル上3の構文解析
、・・・と、解析が進められる。
においてソース言語が入力されると、レベルL1の辞書
引き、レベルL2の形態素解析、レベル上3の構文解析
、・・・と、解析が進められる。
機械翻訳はこの解析レベルにより、大きく次の2つに分
けられる。1つは、レベルL6のソース言語およびター
ゲット言語のどちらにも依存しない、W1念(中間言語
とよぶ)壕で解析し、そこからレベルL7の文脈生成、
レベルL8の意味生成。
けられる。1つは、レベルL6のソース言語およびター
ゲット言語のどちらにも依存しない、W1念(中間言語
とよぶ)壕で解析し、そこからレベルL7の文脈生成、
レベルL8の意味生成。
レベルL9の構文生成、レベル10の形態素生成と生成
を進めて、ターゲット言語を生成してい〈ピボノト方式
である。
を進めて、ターゲット言語を生成してい〈ピボノト方式
である。
もう一つは、上述のレベルL2の形態素解析。
レベル上3の構文解析、レベルL4の意味解析訃よびL
5の文脈解析のいずれか1で解析を行ってソース言語の
内部構造を得1次に、この得られたソース言語の内部構
造と同レベルのターゲット言語の内部構造に変換した後
、ターゲット言語を生成するトランスファ一方式である
。
5の文脈解析のいずれか1で解析を行ってソース言語の
内部構造を得1次に、この得られたソース言語の内部構
造と同レベルのターゲット言語の内部構造に変換した後
、ターゲット言語を生成するトランスファ一方式である
。
ここで、上記各解析について説明する。
・辞書引き、形態素解析
第1図に示すメモリー6の辞書を引き、入力された文章
を各形態素列(単語列)に分割し、この各単語に対する
品詞などの文法情報釦よび訳語を得、さらに、時制・人
称・数などを解析する。
を各形態素列(単語列)に分割し、この各単語に対する
品詞などの文法情報釦よび訳語を得、さらに、時制・人
称・数などを解析する。
・構文解析
後述するようにして単語間の係り受けなどの、文章の構
造(構造解析木)を決定する。
造(構造解析木)を決定する。
・意味解析
複数の構文解析の結果から意味的に正しいものとそうで
ないものを判別する。
ないものを判別する。
・文脈解析
話題を理解し、省略やあい昧さを取り去る。
この発明で用いる翻訳モジュール5は、少なくともレベ
ル上3の構文解析のレベルまでの解析を行うものとする
。すなわち1本実施例の翻訳モジュール5は第3図のよ
うな部分からなる翻訳モジュールを考える。
ル上3の構文解析のレベルまでの解析を行うものとする
。すなわち1本実施例の翻訳モジュール5は第3図のよ
うな部分からなる翻訳モジュールを考える。
第4図は上記翻訳モジュール5のプロノク図である。ま
た、第5図〜第9図はrThis is apen J
という英文を日本語に翻訳する場合の、第4図に示す各
バノファA−Hの内容を例示する。
た、第5図〜第9図はrThis is apen J
という英文を日本語に翻訳する場合の、第4図に示す各
バノファA−Hの内容を例示する。
以下、第3図〜第9図を用いて英日翻訳の動作を説明す
る。
る。
まず、読み込1f1.た原文は第5図に示すように第4
図のバッファAに格納される。翻訳プログラム16に基
づく翻訳CPU15の制御の下に、第3図の辞書引き形
態素解析部11により、バッフIAに格納された原文に
従ってメモリー6の辞書を用いて各単語の必要な情報が
得られ、第4図のバJファBに格納される。ここで%
thisは多品詞語であるが1次の第3図の構文解析部
12により一意に決定される。構文解析部12ではメモ
リー6の辞書と文法規則にしたがって、各単語間の係り
受は関係を示す構造解析木が第7図に示すように決定さ
れて、第4図のバッファCに格納される。この構造解析
木は1次のようにして決定される。すなわち、メモリー
6の文法規則から文 →主部、述部 主部 →名詞句 述部 →動詞、名詞句 名詞句→代名詞 名詞句→冠詞1芯詞 の規則が得られる。この規則は、例えば、1つめの規則
は”文とは、主部と述部からできている”ということを
表す。以下、この規則にしたがって構造解析木が決定さ
れるのである。
図のバッファAに格納される。翻訳プログラム16に基
づく翻訳CPU15の制御の下に、第3図の辞書引き形
態素解析部11により、バッフIAに格納された原文に
従ってメモリー6の辞書を用いて各単語の必要な情報が
得られ、第4図のバJファBに格納される。ここで%
thisは多品詞語であるが1次の第3図の構文解析部
12により一意に決定される。構文解析部12ではメモ
リー6の辞書と文法規則にしたがって、各単語間の係り
受は関係を示す構造解析木が第7図に示すように決定さ
れて、第4図のバッファCに格納される。この構造解析
木は1次のようにして決定される。すなわち、メモリー
6の文法規則から文 →主部、述部 主部 →名詞句 述部 →動詞、名詞句 名詞句→代名詞 名詞句→冠詞1芯詞 の規則が得られる。この規則は、例えば、1つめの規則
は”文とは、主部と述部からできている”ということを
表す。以下、この規則にしたがって構造解析木が決定さ
れるのである。
第3図の変換部13では、上述の構文解析部同様、メモ
リー6の木構造変換規則を用いて、入力された英文に対
する構文解析木(第7図参照)の構造が、第8図に示す
ように日本文に対する構造に変換される。そして、得ら
れた結果が第4図のバッファDに格納される。第3図の
翻訳文生戚部14は、得られた日本語文字列「これ ペ
ン である。」に適切な助詞「は」や助動詞をつけて。
リー6の木構造変換規則を用いて、入力された英文に対
する構文解析木(第7図参照)の構造が、第8図に示す
ように日本文に対する構造に変換される。そして、得ら
れた結果が第4図のバッファDに格納される。第3図の
翻訳文生戚部14は、得られた日本語文字列「これ ペ
ン である。」に適切な助詞「は」や助動詞をつけて。
第9図のような日本語の形にして、第4図のバノファE
に格納する。この日本文「これはペンである。」は、翻
訳モジュール5から出力され、メインメモリー2に格納
されると共に、CRT8に表示される。
に格納する。この日本文「これはペンである。」は、翻
訳モジュール5から出力され、メインメモリー2に格納
されると共に、CRT8に表示される。
以上が一般的な英日翻訳の動作であり1次に本発明の特
徴について述べる。
徴について述べる。
lず1本発明による辞書引き形態素解析部11の辞書引
き処理の動作を第10図に示すフローチャートに基づい
て説明する。
き処理の動作を第10図に示すフローチャートに基づい
て説明する。
ステップn1で入力文章中の単語の通常の辞書引き処理
を行う。ここでは、単語の辞書引きを行い該単語が辞書
登録されていれば、その辞書引き情報を前記単語に対応
させてバノファBに保持する。次にステップn2に釦い
て前記単語が辞書登録されていたか否かをチエ・ノクす
る。前記単語が辞書登録されていたならステ・ノブn8
に進み。
を行う。ここでは、単語の辞書引きを行い該単語が辞書
登録されていれば、その辞書引き情報を前記単語に対応
させてバノファBに保持する。次にステップn2に釦い
て前記単語が辞書登録されていたか否かをチエ・ノクす
る。前記単語が辞書登録されていたならステ・ノブn8
に進み。
方辞書登録されていなかったならステップn3に進み、
後述する略称判別処理を行う。該略称判別処理が終了す
ればステップn4に進んで前記略称判別処理の結果に基
づいて前記単語が略称であるか否かを判定する。前記単
語が略称であればステップn5に進み、略称でなければ
ステップn8に進む。ステップn5にシいて略称である
と判定さされた略称の文字数分の単語群がひとまと1り
で複合語固有名詞として辞書登録されているか否かをチ
ェソクする。辞書登録されていれば、その辞書引き情報
を単語群に対応させてバ・ノブ7Bに保持してステップ
n8に進む。一方辞書登録されていなければ・、ステッ
プn7に進み、前記単語群に対して未登録固有名詞であ
るという情報をバJファBに保持する。ステップn8で
は入力文章中の総ての単語の辞書引き処理を終了したか
否かを判定し、終了しておれば辞書引き処理の動作を終
了し、終了していなければステップn1に戻って次の単
語の辞書引き処理を行う。
後述する略称判別処理を行う。該略称判別処理が終了す
ればステップn4に進んで前記略称判別処理の結果に基
づいて前記単語が略称であるか否かを判定する。前記単
語が略称であればステップn5に進み、略称でなければ
ステップn8に進む。ステップn5にシいて略称である
と判定さされた略称の文字数分の単語群がひとまと1り
で複合語固有名詞として辞書登録されているか否かをチ
ェソクする。辞書登録されていれば、その辞書引き情報
を単語群に対応させてバ・ノブ7Bに保持してステップ
n8に進む。一方辞書登録されていなければ・、ステッ
プn7に進み、前記単語群に対して未登録固有名詞であ
るという情報をバJファBに保持する。ステップn8で
は入力文章中の総ての単語の辞書引き処理を終了したか
否かを判定し、終了しておれば辞書引き処理の動作を終
了し、終了していなければステップn1に戻って次の単
語の辞書引き処理を行う。
次に上述した略称判別処理を第11図のフローチャート
に基づいて説明する。入力された単語が略称の条件であ
る「■か−こで囲1れている」(ステップS1)「■す
べで大文字である」(ステップ32)をすべて満足して
おればステップS3に進む。一方、上記■と■の条件を
どちらか1つでも満足していなければ前記単語は略称で
はないと判別される。更に略称の条件である「■略称の
各文字と略称の前にある単語群の頭文字が一致すテップ
s4)。そしてポインタlがセットされた文字とポイン
タJがセノトされた文字が等しいか否かをチェ1クする
(ステ・フジS5)。2つの文字が等しくなければ前記
単語は略称ではないと判別される。一方1等しければポ
インタiをセ・1トした文字の左横に文字があるか否か
をチエ・ノクする(ステップS6)。左横に文字がなけ
れば前記単語は略称であると判別する。左横に文字があ
ればポイン51を現在セットされている位置から1文字
左側ヘシフトする(ステップS7)と共に、ポインタj
を現在セノトされている単語の1つ前の単語の頭文字ヘ
シフトしくステップ32)、ステップS5に戻って上述
したような2つの文字が等しいか否かをチェ1クする。
に基づいて説明する。入力された単語が略称の条件であ
る「■か−こで囲1れている」(ステップS1)「■す
べで大文字である」(ステップ32)をすべて満足して
おればステップS3に進む。一方、上記■と■の条件を
どちらか1つでも満足していなければ前記単語は略称で
はないと判別される。更に略称の条件である「■略称の
各文字と略称の前にある単語群の頭文字が一致すテップ
s4)。そしてポインタlがセットされた文字とポイン
タJがセノトされた文字が等しいか否かをチェ1クする
(ステ・フジS5)。2つの文字が等しくなければ前記
単語は略称ではないと判別される。一方1等しければポ
インタiをセ・1トした文字の左横に文字があるか否か
をチエ・ノクする(ステップS6)。左横に文字がなけ
れば前記単語は略称であると判別する。左横に文字があ
ればポイン51を現在セットされている位置から1文字
左側ヘシフトする(ステップS7)と共に、ポインタj
を現在セノトされている単語の1つ前の単語の頭文字ヘ
シフトしくステップ32)、ステップS5に戻って上述
したような2つの文字が等しいか否かをチェ1クする。
このように略称判定の対象となっている単語の各文字が
該単語の前に位置する単語群の各頭文字が一致している
かどうかをチェ1クして、1つでも一致しない文字があ
れば、その時点で前記単語は略称ではないと判別し、総
ての文字が各頭文字と一致した時点で前記単語は略称で
あると判別する。
該単語の前に位置する単語群の各頭文字が一致している
かどうかをチェ1クして、1つでも一致しない文字があ
れば、その時点で前記単語は略称ではないと判別し、総
ての文字が各頭文字と一致した時点で前記単語は略称で
あると判別する。
そして、翻訳文生成部14がバ・ブファBに保持されて
いる辞書引き情報に基づいて翻訳文を生成・出力する際
に、前記未登録固有名詞情報が付加されている単語があ
れば翻訳語を生成せずにそのまま出力する。
いる辞書引き情報に基づいて翻訳文を生成・出力する際
に、前記未登録固有名詞情報が付加されている単語があ
れば翻訳語を生成せずにそのまま出力する。
第12図は入力文と本発明を適用した、機械翻訳装置の
前記入力文に対する出力文の一例である。
前記入力文に対する出力文の一例である。
、ニジ、
略称を併う単語群[)rgant/at+on of
Petroleum Exporting Coun
tries(OPEC)Jの各単語に対して未登録固有
名詞情報が付加されて釦れば、翻訳文においては上記単
語は翻訳せずにそのま1の形で出力される。
Petroleum Exporting Coun
tries(OPEC)Jの各単語に対して未登録固有
名詞情報が付加されて釦れば、翻訳文においては上記単
語は翻訳せずにそのま1の形で出力される。
以上のように本発明においては、入力文章中に略称の単
語があれば、その単語の前に存在する該単語の文字数分
の単語群が複合語固有名詞として辞書登録されているか
否かをチエツクして、登録されていなければ翻訳文生成
時に釦いて前記単語群を翻訳せずにその壕ま出力する。
語があれば、その単語の前に存在する該単語の文字数分
の単語群が複合語固有名詞として辞書登録されているか
否かをチエツクして、登録されていなければ翻訳文生成
時に釦いて前記単語群を翻訳せずにその壕ま出力する。
ぐ発明の効果〉
本発明によれば、略称を併う辞書に登録されていない複
合語の固有名詞に対しては翻訳語を生成せずにぞの11
出力するために、複合語固有名詞に対する族1った翻訳
語の出力を防止でき、理解しやすい翻訳文を生成できる
。
合語の固有名詞に対しては翻訳語を生成せずにぞの11
出力するために、複合語固有名詞に対する族1った翻訳
語の出力を防止でき、理解しやすい翻訳文を生成できる
。
第1図は本発明を適用する機械翻訳装置の一実施例のプ
ロ1り図、第2図は自動翻訳における翻訳レベルの説明
図、第8図は翻訳モジュールの作用構成図、第4図は翻
訳モジュールのブロック図。 第5図乃至第9図は第4図における各バッフTの内部例
を示す図、第10図は辞書引き処理の動作ヲ示すフロー
チャート、第11図は略称判別処理の動作を示すフロー
チャート、第12図は本発明を適用した機械翻訳装置へ
の入力文とそれに対する出力文の一例を示す図、第13
図は従来の機械翻訳装置への入力文とそれに対する出力
文の一例を示す図である。 1・・・メインCPU、2・・・メインメモリー3・・
・CRT、 4・・・キーボード、5・・・翻訳
モジュール、6・・・メモリ11・・・辞書引き形態素
解析部。 12・・・構文解析部、 18・・・変換部、14・
・・翻訳文生成部、15・・・翻訳CPU、16・・・
翻訳プログラム、A−E・・・バソファ。
ロ1り図、第2図は自動翻訳における翻訳レベルの説明
図、第8図は翻訳モジュールの作用構成図、第4図は翻
訳モジュールのブロック図。 第5図乃至第9図は第4図における各バッフTの内部例
を示す図、第10図は辞書引き処理の動作ヲ示すフロー
チャート、第11図は略称判別処理の動作を示すフロー
チャート、第12図は本発明を適用した機械翻訳装置へ
の入力文とそれに対する出力文の一例を示す図、第13
図は従来の機械翻訳装置への入力文とそれに対する出力
文の一例を示す図である。 1・・・メインCPU、2・・・メインメモリー3・・
・CRT、 4・・・キーボード、5・・・翻訳
モジュール、6・・・メモリ11・・・辞書引き形態素
解析部。 12・・・構文解析部、 18・・・変換部、14・
・・翻訳文生成部、15・・・翻訳CPU、16・・・
翻訳プログラム、A−E・・・バソファ。
Claims (1)
- 【特許請求の範囲】 1、入力された文章中の各単語を辞書引きし、該辞書引
き情報から前記入力文章の形態素列を得る辞書引き形態
素解析部と、 該辞書引き形態素解析部によって得られた形態素列の構
文を辞書と文法規則を用いて解析する構文解析部と、 該構文解析部で得られた構文を目標言語における構文の
構造に変換する変換部と、 該変換部によって得られた目標言語の構文構造と前記辞
書引き情報とに基づいて翻訳文を生成する翻訳文生成部
とを有する機械翻訳装置において、 前記辞書引き形態素解析部で辞書引きした結果、単語が
略称であるか否かを判定するステップと、 文章中の単語が略称であると判定された場合前記略称単
語の直前の単語から数えて前記略称単語の文字数分だけ
の単語群がひとまとまりで複合語固有名詞として辞書登
録されているか否かを調べるステップと、 複合語固有名詞として辞書登録されていればその辞書引
き情報を前記翻訳文生成部において訳語として出力する
一方、辞書登録されていなければ前記翻訳文生成部にお
いて前記単語群をそのまま出力するステップとを具備す
ることを特徴とする機械翻訳装置における略称付き固有
名詞処理方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1170301A JPH077419B2 (ja) | 1989-06-30 | 1989-06-30 | 機械翻訳装置における略称付き固有名詞処理方法 |
US07/544,329 US5161105A (en) | 1989-06-30 | 1990-06-27 | Machine translation apparatus having a process function for proper nouns with acronyms |
CA002020058A CA2020058C (en) | 1989-06-30 | 1990-06-28 | Machine translation apparatus having a process function for proper nouns with acronyms |
GB9014489A GB2234614A (en) | 1989-06-30 | 1990-06-29 | Machine translation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1170301A JPH077419B2 (ja) | 1989-06-30 | 1989-06-30 | 機械翻訳装置における略称付き固有名詞処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0335354A true JPH0335354A (ja) | 1991-02-15 |
JPH077419B2 JPH077419B2 (ja) | 1995-01-30 |
Family
ID=15902431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1170301A Expired - Lifetime JPH077419B2 (ja) | 1989-06-30 | 1989-06-30 | 機械翻訳装置における略称付き固有名詞処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5161105A (ja) |
JP (1) | JPH077419B2 (ja) |
CA (1) | CA2020058C (ja) |
GB (1) | GB2234614A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005339040A (ja) * | 2004-05-25 | 2005-12-08 | Fuji Xerox Co Ltd | 文書処理装置および文書処理方法 |
CN103678288A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种专名自动翻译的方法 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03222065A (ja) * | 1990-01-26 | 1991-10-01 | Sharp Corp | 機械翻訳装置 |
US5287278A (en) * | 1992-01-27 | 1994-02-15 | General Electric Company | Method for extracting company names from text |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
JPH0668137A (ja) * | 1992-08-21 | 1994-03-11 | Hitachi Ltd | 操作指示対象情報生成システムおよび操作指示対象認識システム |
US5819260A (en) * | 1996-01-22 | 1998-10-06 | Lexis-Nexis | Phrase recognition method and apparatus |
JP3272288B2 (ja) * | 1997-12-24 | 2002-04-08 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置および機械翻訳方法 |
JP3647283B2 (ja) * | 1998-09-21 | 2005-05-11 | シャープ株式会社 | 文書情報抽出装置 |
GB2366893B (en) * | 2000-09-08 | 2004-06-16 | Roke Manor Research | Improvements in or relating to word processor systems or the like |
JP2003271389A (ja) * | 2002-03-19 | 2003-09-26 | Shuichi Araki | 自然言語によるソフトウェア・オブジェクトの操作方法及びそのためのプログラム |
US7236923B1 (en) | 2002-08-07 | 2007-06-26 | Itt Manufacturing Enterprises, Inc. | Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text |
US20040044517A1 (en) * | 2002-08-30 | 2004-03-04 | Robert Palmquist | Translation system |
JP4398144B2 (ja) * | 2002-12-24 | 2010-01-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 辞書更新システム、更新処理サーバ、端末、制御方法、プログラム及び記録媒体 |
US7359849B2 (en) * | 2003-12-17 | 2008-04-15 | Speechgear, Inc. | Translation techniques for acronyms and ambiguities |
US20080040096A1 (en) * | 2004-03-18 | 2008-02-14 | Nec Corporation | Machine Translation System, A Machine Translation Method And A Program |
JP4424057B2 (ja) * | 2004-05-10 | 2010-03-03 | 富士ゼロックス株式会社 | 学習装置およびプログラム |
JP4018668B2 (ja) * | 2004-05-28 | 2007-12-05 | 株式会社東芝 | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム |
JP4208081B2 (ja) * | 2004-12-27 | 2009-01-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数のウェブサイトにパーソナライズされた価値を追加するためのシステム、ウェブサーバ、方法およびプログラム |
JP2006276918A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 翻訳装置、翻訳方法およびプログラム |
US20080003551A1 (en) * | 2006-05-16 | 2008-01-03 | University Of Southern California | Teaching Language Through Interactive Translation |
US8706471B2 (en) * | 2006-05-18 | 2014-04-22 | University Of Southern California | Communication system using mixed translating while in multilingual communication |
US8032355B2 (en) * | 2006-05-22 | 2011-10-04 | University Of Southern California | Socially cognizant translation by detecting and transforming elements of politeness and respect |
US8032356B2 (en) * | 2006-05-25 | 2011-10-04 | University Of Southern California | Spoken translation system using meta information strings |
JP4256891B2 (ja) * | 2006-10-27 | 2009-04-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳の精度を向上させる技術 |
US8234107B2 (en) * | 2007-05-03 | 2012-07-31 | Ketera Technologies, Inc. | Supplier deduplication engine |
US8364470B2 (en) * | 2008-01-15 | 2013-01-29 | International Business Machines Corporation | Text analysis method for finding acronyms |
US8706474B2 (en) * | 2008-02-23 | 2014-04-22 | Fair Isaac Corporation | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names |
KR101023209B1 (ko) * | 2008-10-13 | 2011-03-18 | 한국전자통신연구원 | 문서 번역 장치 및 그 방법 |
JP4940325B2 (ja) * | 2010-03-29 | 2012-05-30 | 株式会社東芝 | 文書校正支援装置、方法およびプログラム |
US10235362B1 (en) | 2016-09-28 | 2019-03-19 | Amazon Technologies, Inc. | Continuous translation refinement with automated delivery of re-translated content |
US10223356B1 (en) | 2016-09-28 | 2019-03-05 | Amazon Technologies, Inc. | Abstraction of syntax in localization through pre-rendering |
US10261995B1 (en) | 2016-09-28 | 2019-04-16 | Amazon Technologies, Inc. | Semantic and natural language processing for content categorization and routing |
US10275459B1 (en) * | 2016-09-28 | 2019-04-30 | Amazon Technologies, Inc. | Source language content scoring for localizability |
US10229113B1 (en) | 2016-09-28 | 2019-03-12 | Amazon Technologies, Inc. | Leveraging content dimensions during the translation of human-readable languages |
US10699074B2 (en) * | 2018-05-22 | 2020-06-30 | Microsoft Technology Licensing, Llc | Phrase-level abbreviated text entry and translation |
US10664658B2 (en) | 2018-08-23 | 2020-05-26 | Microsoft Technology Licensing, Llc | Abbreviated handwritten entry translation |
US11693374B2 (en) * | 2020-05-28 | 2023-07-04 | Johnson Controls Tyco IP Holdings LLP | Building system with string mapping based on a sequence to sequence neural network |
CN114997190A (zh) * | 2022-06-14 | 2022-09-02 | 平安科技(深圳)有限公司 | 机器翻译方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2197510A (en) * | 1986-10-27 | 1988-05-18 | Sharp Kk | Translation apparatus |
JPH0658673B2 (ja) * | 1987-01-23 | 1994-08-03 | 松下電器産業株式会社 | 機械翻訳装置 |
US4862408A (en) * | 1987-03-20 | 1989-08-29 | International Business Machines Corporation | Paradigm-based morphological text analysis for natural languages |
US4870610A (en) * | 1987-08-25 | 1989-09-26 | Bell Communications Research, Inc. | Method of operating a computer system to provide customed I/O information including language translation |
-
1989
- 1989-06-30 JP JP1170301A patent/JPH077419B2/ja not_active Expired - Lifetime
-
1990
- 1990-06-27 US US07/544,329 patent/US5161105A/en not_active Expired - Lifetime
- 1990-06-28 CA CA002020058A patent/CA2020058C/en not_active Expired - Fee Related
- 1990-06-29 GB GB9014489A patent/GB2234614A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005339040A (ja) * | 2004-05-25 | 2005-12-08 | Fuji Xerox Co Ltd | 文書処理装置および文書処理方法 |
CN103678288A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种专名自动翻译的方法 |
Also Published As
Publication number | Publication date |
---|---|
GB2234614A (en) | 1991-02-06 |
GB9014489D0 (en) | 1990-08-22 |
CA2020058C (en) | 1994-06-07 |
JPH077419B2 (ja) | 1995-01-30 |
US5161105A (en) | 1992-11-03 |
CA2020058A1 (en) | 1990-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0335354A (ja) | 機械翻訳装置における略称付き固有名詞処理方法 | |
US5005127A (en) | System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules | |
EP0403057B1 (en) | Method of translating sentence including adverb phrase by using translating apparatus | |
JP2815714B2 (ja) | 翻訳装置 | |
EP0357344B1 (en) | Computer assisted language translating machine | |
US5075851A (en) | System for translating a source language word with a prefix into a target language word with multiple forms | |
JPH03222065A (ja) | 機械翻訳装置 | |
JPH0332106B2 (ja) | ||
JP2719453B2 (ja) | 機械翻訳装置 | |
JP2752025B2 (ja) | 機械翻訳装置 | |
JPH02281373A (ja) | 機械翻訳装置におけるハイフン生成方法 | |
JP2655922B2 (ja) | 機械翻訳装置 | |
JP3255294B2 (ja) | 機械翻訳装置 | |
JP3353873B2 (ja) | 機械翻訳装置 | |
JPH0332105B2 (ja) | ||
JPH01112367A (ja) | 機械翻訳装置 | |
JPH04235671A (ja) | 機械翻訳装置 | |
JPH10320395A (ja) | 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH02281374A (ja) | 機械翻訳装置におけるハイフン合成語処理方法 | |
JPH06318226A (ja) | 機械翻訳装置 | |
JPH01112368A (ja) | 機械翻訳装置 | |
JPH06332938A (ja) | 自然言語解析装置および機械翻訳装置 | |
JPH0836575A (ja) | 統語解析装置 | |
JPH06203068A (ja) | 機械翻訳装置 | |
JPS6190271A (ja) | 入力語の探索表示方式 |