JP2010170306A - System for determining aptitude for reversibility in parallel translation, and machine translation system - Google Patents

System for determining aptitude for reversibility in parallel translation, and machine translation system Download PDF

Info

Publication number
JP2010170306A
JP2010170306A JP2009011885A JP2009011885A JP2010170306A JP 2010170306 A JP2010170306 A JP 2010170306A JP 2009011885 A JP2009011885 A JP 2009011885A JP 2009011885 A JP2009011885 A JP 2009011885A JP 2010170306 A JP2010170306 A JP 2010170306A
Authority
JP
Japan
Prior art keywords
language
translation
reversibility
aptitude
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009011885A
Other languages
Japanese (ja)
Inventor
Miwako Shimazu
美和子 島津
Yumiko Yoshimura
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009011885A priority Critical patent/JP2010170306A/en
Publication of JP2010170306A publication Critical patent/JP2010170306A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system for determining aptitude for reversibility in parallel translation in order both to extract candidates which are not to be registered with a second-language-to-first-language parallel translation dictionary or candidates which are to be cautiously treated for their registration to display the candidates and to adjust headwords and translated words. <P>SOLUTION: The system for determining aptitude for reversibility in parallel translation includes: a translation dictionary part 30 which stores translation knowledge for translating a first language into a second language and translation knowledge for translating the second language into the first language; and a means 27 for determining aptitude for reversibility which determines aptitude for reversibility in parallel translation terms between the first and second languages which are different from each other. In this case, the means 27 for determining the aptitude for the reversibility introduces expressions in the first language from expressions in the second language, by making use of the two kinds of translation knowledge, for the expressions in the first language and the expressions in the second language which correspond to the first expressions, and determines whether it is appropriate that these expressions are correlated to each other. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、自然言語処理技術に係わり、より詳しくは、自然言語文書を処理する際に第一言語と第二言語との双方向の対訳データの可逆性適性を判断する対訳可逆性適性判断システムおよび機械翻訳システムに関する。   The present invention relates to a natural language processing technique, and more specifically, a bilingual reversibility aptitude determination system that determines the reversibility aptitude of bidirectional bilingual data between a first language and a second language when a natural language document is processed. And a machine translation system.

技術の進展とともに様々な文書が電子化されるようになり、それに付随して大規模の翻訳辞書(対訳辞書)が次々と開発・構築されている。見出し語に立てられる語も日々増えている。見出し語数の多さが辞書の質の指標の一つとなっていることが、その増加の一因であるが、最近では、単なる数の多さはかえって弊害があることも指摘されるようになった。第一に、辞書は通常複数の人々によって編纂されるので、関連する見出し語同士とその訳語の間の整合性は必ずしもとられていない。従って、辞書の使用者はそれらの調整を行う必要がある。複数の種類の辞書を用いればこの問題は倍増する。第二に、以前ならば主見出しの用例としてあげられていた表現が見出しに立てられることにより、その文字列を必要以上に優先して文の意味を解釈してしまい、正しい解釈が得られないという弊害も出てきた。例えば、通常の場面では文字通り解釈されるある単語の並びが、専門分野や特定の場面では限定された意味になる場合に、この単語列を見出し語に立て、その特殊な意味での訳語しか載せていなければ、初学者はこの訳語を使って文を解釈しようとし、結局意味がとれずに終わってしまうということがある。こういった大規模辞書を機械翻訳が用いる際も同様の問題が生じる。人間による柔軟な調整が入らないため、問題はより深刻である。上記で述べた第二の問題は、当該外国語にある程度通じている人であれば、解決されることが多い。すなわち、ある見出し語の語義では文脈に合わないと判断すれば、個々の単語の意味を総合して文字通りの解釈を試みるであろうと予測されるからである。しかし、機械翻訳では原則として辞書に登録されている見出し語が優先される。また、ユーザが構築した辞書を併用すれば、ユーザが登録した語が優先されるため、適切な訳語が選択されず、訳文が意味のとれないものになるという問題は倍増する。なぜなら、ユーザは、現在注目している文書に依存して登録を行い、その結果、通常ならば見出し語にならないような表現を見出し語に立て、それに対し、訳を一つしかあてないことが多いからである。ところが、この訳語は登録の必要をユーザが感じた箇所以外では有用な訳語とはいえない可能性がある。   With the progress of technology, various documents have been digitized, and accompanying this, large-scale translation dictionaries (parallel translation dictionaries) have been developed and constructed one after another. The number of words that can be used as headwords is increasing every day. The increase in the number of headwords is one of the indicators of the quality of the dictionary, which contributes to the increase. Recently, however, it has been pointed out that the mere number is rather harmful. It was. First, because dictionaries are usually compiled by multiple people, consistency between related headwords and their translations is not necessarily taken. Thus, the dictionary user needs to make these adjustments. Using multiple types of dictionaries doubles this problem. Second, if the expression that was previously given as an example of the main heading is put in the heading, the meaning of the sentence is interpreted with higher priority than necessary, and the correct interpretation cannot be obtained. The evil that came out. For example, if a sequence of words that are literally interpreted in a normal situation has a limited meaning in a specialized field or a specific scene, this word string is set as a headword and only translated words in that special meaning are listed. If not, beginners will try to interpret sentences using these translations and eventually end up without meaning. Similar problems arise when machine translation uses such a large dictionary. The problem is more serious because there is no flexible human adjustment. The second problem described above is often solved by those who are familiar with the foreign language to some extent. That is, if it is determined that the meaning of a certain headword does not match the context, it is predicted that the meaning of each word will be combined and a literal interpretation will be attempted. However, in machine translation, the headwords registered in the dictionary are given priority in principle. In addition, if a dictionary constructed by the user is used in combination, the word registered by the user is given priority, so that the problem that an appropriate translated word is not selected and the translated sentence becomes meaningless doubles. This is because the user performs registration depending on the currently focused document, and as a result, an expression that does not normally become a headword is set as a headword, and only one translation is given to it. Because there are many. However, there is a possibility that this translated word is not a useful translated word except where the user feels the necessity of registration.

さらに、このような問題をもつA言語からB言語への対訳辞書を逆にしてB言語からA言語への対訳辞書を作るということがなされてきた。情報資産の有効活用という面からその動きは盛んであり、要望も高い。この場合、上記に述べた問題以外にあらたな問題が生じる。   Furthermore, it has been made to create a bilingual dictionary from B language to A language by reversing the bilingual dictionary from A language to B language having such problems. The movement is prosperous from the aspect of effective use of information assets, and demand is high. In this case, a new problem occurs in addition to the problems described above.

第一に、異なる言語間では、言葉の内包的定義は全く同一ということは少ない。包含関係にあったり、一部重なりがあったりと様々である。これは、端的に述べるとif A, then B.は必ずしも常にif B, then A.となるとは限らないということを指す。このため、単にもとの訳語を見出し語、もとの見出し語を訳語にという機械的な置き換えでは、B言語からA言語の辞書としては望ましくない対も含んでしまうことが少なくない。   First, the inclusive definition of words is rarely the same between different languages. There are various things such as inclusive relation and partial overlap. In short, if A, then B. does not always become if B, then A .. For this reason, mechanical replacement of the original translation word as a headword and the original headword as a translation often includes a pair that is not desirable as a dictionary from B language to A language.

第二に、このように意味範疇の問題のみならず、A言語の見出し語に対するB言語訳語が、B言語では一般的な表現とはいえず、出現頻度が低いことがある。これは、B言語の文書の処理では、この表現は必要性が低いということを意味する。従って、B言語からA言語への対訳辞書には含める必要がない可能性が高いであろう。   Secondly, not only the problem of the semantic category as described above, but also the B language translation for the headword in A language may not be a general expression in B language, and may appear infrequently. This means that in processing B language documents, this representation is less necessary. Therefore, there is a high possibility that it is not necessary to include it in the bilingual dictionary from B language to A language.

第三に、たとえ、前述の意味の範囲、出現頻度の観点からは、問題がないとしても、その表現の構成要素を考えると、注意を要するものがあることである。これは特に複合語の場合にいえることであり、機械による文書処理のための辞書では特に注意を要する。例えば、A言語の見出し語名詞に対して、B言語の訳語は形容詞+名詞からなる名詞句を与えていたとする。ここで、B言語の文書処理においてこの形容詞+名詞の並びを名詞として登録してしまうと、B言語の文書において副詞が直前にきたときに、副詞、名詞の並びとして解析されることになる。構成要素の並びとして副詞と名詞は結合しないため、構文解析に支障をきたすことになる。このように見出し語と訳語を入れ替える場合は、統語的側面にも注意を払う必要があることがわかる。   Third, even if there is no problem from the viewpoint of the above-mentioned meaning range and appearance frequency, there are things that require attention when considering the components of the expression. This is especially true in the case of compound words, and special attention is required for a dictionary for document processing by a machine. For example, it is assumed that a translation of B language gives a noun phrase composed of an adjective + a noun for a headword noun of A language. Here, if this adjective + noun sequence is registered as a noun in the B language document processing, when the adverb comes immediately before in the B language document, it is analyzed as an adverb / noun sequence. Adverbs and nouns do not combine as a component sequence, which hinders parsing. It can be seen that it is necessary to pay attention to the syntactic aspect when exchanging headwords and translated words in this way.

従って、言語方向を入れ替えた対訳辞書を高い精度を保ちつつ、作成するには、少なくとも上記の3点から制御を加えることが必要となる。従来とっていた方法は、以下のとおりである。まず、機械により辞書を作成する場合は、大きく2つの方法があった。第一は、そのまま、見出し語と訳語を入れ替え、見出し語と訳語の品詞の組み合わせが辞書で許容されていない場合、一律に名詞に扱うか、ユーザに修正を求めるという方法である。第二は、対訳対ごとに、見出し語と訳語を逆転することが可能かどうかをユーザに判断させる。ユーザが可能と判断すれば、双方向登録ができるというものである。次に人手で辞書を作成する場合は、ユーザが対訳対ごとに、見出し語と訳語を入れ替えた対が辞書の内容として妥当かどうかを判断し、必要に応じて品詞も調整して、辞書登録を行うということを行っていた。機械による場合も、人手による場合も、逐語的な登録であり、一括の登録には対処できていなかった。   Therefore, in order to create a bilingual dictionary in which the language direction is changed while maintaining high accuracy, it is necessary to add control from at least the above three points. The conventional method is as follows. First, there are two main methods for creating a dictionary using a machine. The first method is to replace the headword and the translated word as they are, and when the combination of the headword and the part of speech of the translated word is not allowed in the dictionary, treat it as a noun or ask the user to correct it. Second, the user determines whether the headword and the translated word can be reversed for each translation pair. If the user determines that it is possible, interactive registration is possible. Next, when creating a dictionary manually, for each translation pair, the user determines whether the pair with the interchange of the headword and translation is valid as the contents of the dictionary, adjusts the part of speech as necessary, and registers the dictionary. Was going to do. Regardless of whether it is a machine or a manual process, the registration is verbatim and cannot be handled in a batch.

文書処理になじみのない一般ユーザには、用語の対訳関係についてAからBの関係をBからAの関係に逆方向にした際に問題がありそうだということは理解はしていたが、具体的にどのような項目を制御すべきかの判断が難しく、実際に文書処理に適用して不具合が生じたときに初めてその弊害を察知することが多かった。あるいは、弊害があると知りつつも、チェック作業の負担の大きさから、それを省略してしまうこともあった。一方、問題の重要性を把握していた翻訳者や自然言語処理の開発者は、逆方向の対訳辞書をコストをかけて作成していたが、登録を制御すべき対をもれなく人手で洗い出すことは、多大な負担となっていた。   For general users who are unfamiliar with document processing, we understood that there might be a problem when reversing the A-to-B relationship to the B-to-A relationship in terms of the parallel translation of terms. It is difficult to determine what items should be controlled, and it is often the case that the problem is detected for the first time when a problem occurs when it is actually applied to document processing. Alternatively, while knowing that there is a harmful effect, it may be omitted due to the large burden of the check work. On the other hand, translators and natural language processing developers who knew the importance of the problem created a parallel translation dictionary in the opposite direction at a high cost. Was a huge burden.

辞書登録の際に、登録を制御すべき対に対して、警告を発する仕組みはすでに存在する(例えば、特許文献1参照)。これは、間違いやすい品詞の組合せをあらかじめ記憶させておき、それに合致するものに対してエラーとして検出するものである。また、見出し語が助詞である場合もエラーとして検出する。さらに、見出し語が活用する語である場合、既存の辞書の見出し語を活用させた語と一致する場合にエラーとして検出する。   There is already a mechanism for issuing a warning to a pair whose registration should be controlled during dictionary registration (see, for example, Patent Document 1). In this method, combinations of parts of speech that are likely to be mistaken are stored in advance, and those that match it are detected as errors. Also, when the headword is a particle, it is detected as an error. Further, when the headword is a word to be used, it is detected as an error when the headword matches the word using the headword in the existing dictionary.

また、辞書にあらかじめ双方向への対訳を許可するか、いずれか一方への対訳を規制する翻訳方向符号を付するようにしたものがある(例えば、特許文献2参照)。これは、相互に異なる言語から成って対訳関係にある第1の言語パターンと第2の言語パターンとが対応して格納されている対訳辞書を備える機械翻訳装置であって、対訳辞書は、対応する第1の言語パターン及び第2の言語パターンに対し双方向への対訳を許可し又はいずれか一方向への対訳を規制する翻訳方向符号が付され、入力された原言語文が第1及び第2の言語のいずれであるか判定し、対訳辞書を参照して原言語文を構成する言語パターンに、対訳の許可する翻訳方向符号が付されていると対応する他言語の言語パターンを選択し、対訳の規制する翻訳方向符号が付されていると対応する他言語の言語パターンを非選択とする翻訳手段を有したものである。   In addition, there is a dictionary in which bi-directional translation is permitted in advance or a translation direction code that restricts bi-directional translation is attached (for example, see Patent Document 2). This is a machine translation device including a bilingual dictionary in which a first language pattern and a second language pattern which are composed of different languages and have a bilingual relationship are stored correspondingly. A translation direction code that permits bi-directional translation to the first language pattern and the second language pattern to be controlled or restricts translation in any one direction is attached, and the input source language sentence is the first and second language patterns. Determine which language is the second language, and select the language pattern of the other language that corresponds to the language pattern that constitutes the source language sentence by referring to the bilingual dictionary and the translation direction code permitted by the bilingual is attached. In addition, when the translation direction code regulated by the parallel translation is attached, the translation means for deselecting the corresponding language pattern of another language is provided.

また、自然言語を他の自然言語に翻訳する機械翻訳プログラムおよび機械翻訳装置において、使用者が適切な修正訳を得るための負担を大きく減ずることができるようにしたものがある(例えば、特許文献3参照)。   In addition, there are machine translation programs and machine translation apparatuses that translate natural languages into other natural languages, which can greatly reduce the burden on the user to obtain appropriate modified translations (for example, patent documents) 3).

特許登録番号第3300492号公報Patent registration number 3300492 特許登録番号第3985066号公報Patent registration number 3985066 特許登録番号第4016037号公報Patent registration number 4016037

しかし、特許文献1のものでは、特定の項目にのみ着目しており、また、あくまでも一方向の言語方向の視点からのチェックであり、より広範囲にわたる統語的特徴を踏まえた対応関係の洗い出しは行っていない。特許文献2のものは、単に、対訳を規制するか否かの決定を行うものであり、また、特許文献3のものは、統語的観点はある程度入っているが、第一訳語から第二言語へとあくまでも一言語方向に限定してのチェックを行うものである。   However, in Patent Document 1, attention is paid only to a specific item, and it is only a check from the viewpoint of one direction of language, and a correspondence relationship based on a wider range of syntactic features is identified. Not. Patent Document 2 simply determines whether or not to restrict parallel translation. Patent Document 3 includes a syntactic viewpoint to some extent, but the first translation to the second language. The check is limited to one language direction.

このように、従来のものでは、チェックがたやすい品詞のみの照合以外にはチェックがなされずに逆方向の辞書が作成されていたか、または、人手により時間とコストをかけて、逆方向の辞書を作成していたかのいずれかであった。前者は、のちの文書処理に悪影響を及ぼすという弊害があり、後者は作業者の多大な負担となっていたり、またはチェックすべき項目が多いため、思わぬチェックの漏れも生じていた。作業者によるばらつきもあり、一貫性は必ずしも保証されなかった。加えて、必要に応じて、ユーザに分かりやすい形で、注意を要する見出し語と訳語の対を提示する機構も存在していなかった。このように現状では、綿密なチェック作業なしで、既存の対訳辞書を利用して言語方向を逆にした対訳辞書を作成するという利用者のニーズには十分応えられていない。   In this way, in the conventional one, the dictionary in the reverse direction was created without checking other than collation of only the part of speech that is easy to check, or the dictionary in the reverse direction was spent manually and with time and cost. Was either one that was creating. The former has a harmful effect of adversely affecting later document processing, and the latter is a heavy burden on the operator, or there are many items to be checked, and an unexpected check omission has occurred. Consistency was not always guaranteed due to variations among workers. In addition, there is no mechanism that presents pairs of headwords and translated words that require attention in a form that is easy for the user to understand as needed. As described above, at present, the user's need to create a bilingual dictionary in which the language direction is reversed using an existing bilingual dictionary without a detailed check work is not sufficiently met.

このように従来のものでは、第一言語の見出し語とそれに対応する第二言語を逆にした場合、辞書として登録して良いかどうかの判断をユーザにゆだねていた。この判断を怠った場合、最低限の品詞の組合せのチェックのみがなされ、辞書が作成されていた。そのため、実際にこのようにして作成された辞書を実際の文書処理に適用して初めてそれによる悪影響が顕在化することが多かった。一方、質の高い辞書を作成しようと試みる翻訳者や開発者の場合、見出し語と訳語の間の関係を意味的・統語的側面の両方から各々の対に対して検討しなければならず、多大な作業コストが課されていた。   As described above, in the related art, when the headword of the first language and the second language corresponding to the first language are reversed, it is left to the user to determine whether or not to register as a dictionary. If this judgment was neglected, only the minimum combination of parts of speech was checked, and a dictionary was created. For this reason, in many cases, an adverse effect caused by the dictionary created in this way becomes apparent only when the dictionary created in this way is applied to actual document processing. On the other hand, translators and developers trying to create a high-quality dictionary must consider the relationship between headwords and translations for each pair, both semantically and syntactically, Significant work costs were imposed.

本発明は前記のような事情を考慮してなされたもので、第一言語の見出し語とそれに対応する第二言語の訳語の意味範囲、使用頻度、統語的特徴をもとに、第二言語の訳語を見出し語とし、第一言語の見出し語を訳語とした対の中で、第二言語から第一言語の対訳辞書の登録対象から排除する候補または登録にあたり注意を要する候補を抽出、表示し、この表示結果を参照しながら、見出し語や訳語の調整を行うための機能を備えた対訳可逆性適性判断システムおよび機械翻訳システムを提供することを目的とする。   The present invention has been made in consideration of the above-described circumstances, and based on the semantic range, frequency of use, and syntactic features of the first language headword and the corresponding second language translation, the second language Extract and display candidates that are excluded from the registration target of the bilingual dictionary of the first language from the second language or those that require attention when registering from the pair that uses the translated word of the first word and the first word as the translated word An object of the present invention is to provide a bilingual reversibility aptitude determination system and a machine translation system having a function for adjusting a headword or a translation while referring to the display result.

本発明は、第一言語を第二言語に翻訳するための翻訳知識および第二言語を第一言語に翻訳するための翻訳知識を記憶した翻訳辞書部と、第一言語と第二言語との異なる言語間の対訳用語の可逆性の適性を判断する可逆性適性判断手段とを有し、前記可逆性適性判断手段は、第一言語の表現とそれに対応する第二言語の表現の対に対して、上記2種類の翻訳知識を利用して、後者の第二言語の表現から前者の第一言語の表現を導き、対応づけることが適切かの可否の判断を行うことを特徴とする。   The present invention provides a translation dictionary unit that stores translation knowledge for translating a first language into a second language and translation knowledge for translating the second language into the first language, and a first language and a second language. Reversibility aptitude determination means for determining the reversibility aptitude of bilingual terms between different languages, the reversibility aptitude determination means for a pair of a first language expression and a corresponding second language expression. Thus, using the above two kinds of translation knowledge, it is determined whether it is appropriate to derive and associate the former first language expression from the latter second language expression.

以上示したように本発明によれば、主に2点の効果が期待できる。第一に、目的とする対訳辞書とは逆の言語方向の対訳辞書があれば、新規に辞書を作成せずに、その対訳辞書から目的の辞書に適切な情報を引き出し、容易にしかも効率的に辞書を作成することができる。つまり、情報資産の有効利用につながる。逆方向にした場合、辞書のエントリとして立てることが、意味的、統語的、あるいは使用頻度の上で、望ましくない対が抽出されるので、ユーザや開発者はすべての対に対して、逆方向にすることの妥当性を判断する必要はなく、本提案で説明したような問題を含んだ項目のチェックに専念し、必要があれば、見出し語あるいは訳語を変更して登録対象とすることができる。また、チェックに際してもどの点が望ましくないのかが示されるので判断の指針となる。チェックの余裕がない場合には、これらの要注意の対を辞書登録の対象としないことで、このようにできた対訳辞書の使用による翻訳結果の悪化を回避することができる。   As described above, according to the present invention, mainly two effects can be expected. First, if there is a bilingual dictionary in the opposite language direction to the target bilingual dictionary, it is easy and efficient to extract appropriate information from the bilingual dictionary to the target dictionary without creating a new dictionary. You can create a dictionary. That is, it leads to effective use of information assets. In the reverse direction, standing as a dictionary entry will extract undesired pairs in terms of semantic, syntactic, or frequency of use, so users and developers will have the opposite direction for all pairs. There is no need to judge the appropriateness of the process, and it is possible to concentrate on checking the items that contain problems as described in this proposal, and if necessary, change the entry word or translation to be registered. it can. In addition, the check points indicate which points are not desirable, which is a guide for judgment. When there is not enough room for checking, these pairs of cautions are not subject to dictionary registration, so that deterioration of the translation result due to the use of the bilingual dictionary thus made can be avoided.

第二に、辞書フィルタリングシステムでは、機械翻訳システムの開発者であれば、特に統語的観点から対訳可逆性適性なしとされた対を、どのように機械翻訳辞書の文法を強化していけばよいかのヒントとなる。   Second, in dictionary filtering systems, if you are a developer of machine translation systems, how to strengthen the grammar of machine translation dictionaries, especially for pairs that have no parallel reversibility suitability from a syntactic point of view. It will be a hint.

本発明の実施の形態に係る対訳可逆性適性判断システムのブロック構成図。The block block diagram of the bilingual reversibility aptitude judgment system which concerns on embodiment of this invention. 本発明の実施の形態に係る対訳可逆性適性判断システムのハードウエア構成を示すブロック構成図The block block diagram which shows the hardware constitutions of the bilingual reversibility aptitude judgment system which concerns on embodiment of this invention 本発明の実施例1に係る対訳可逆性適性判断システムの動作を示すフローチャート。The flowchart which shows operation | movement of the parallel reversibility aptitude determination system which concerns on Example 1 of this invention. 本発明の実施例2に係る対訳可逆性適性判断システムの動作を示すフローチャート。The flowchart which shows operation | movement of the parallel reversibility aptitude determination system which concerns on Example 2 of this invention. 本発明の実施例3に係る対訳可逆性適性判断システムの動作を示すフローチャート。The flowchart which shows operation | movement of the parallel reversibility aptitude determination system which concerns on Example 3 of this invention. 本発明の実施例4に係る対訳可逆性適性判断システムの動作を示すフローチャート。The flowchart which shows operation | movement of the parallel reversibility aptitude determination system which concerns on Example 4 of this invention. 本発明の実施例5に係る対訳可逆性適性判断システムの動作を示すフローチャート。The flowchart which shows operation | movement of the parallel reversibility aptitude determination system which concerns on Example 5 of this invention. 本発明の実施例6に係る対訳可逆性適性判断システムの動作を示すフローチャート。The flowchart which shows operation | movement of the parallel reversibility aptitude determination system which concerns on Example 6 of this invention. 本発明の実施例7に係る対訳可逆性適性判断システムの動作を示すフローチャート。The flowchart which shows operation | movement of the bilingual reversibility aptitude determination system which concerns on Example 7 of this invention. 本発明の実施の形態の解析処理を説明するための画面の一例を示す平面図。The top view which shows an example of the screen for demonstrating the analysis process of embodiment of this invention. 本発明の実施の形態の解析処理を説明するための画面の他の一例を示す平面図。The top view which shows another example of the screen for demonstrating the analysis process of embodiment of this invention. 本発明の実施の形態の解析処理を説明するための画面の別の他の一例を示す平面図。The top view which shows another another example of the screen for demonstrating the analysis process of embodiment of this invention.

以下、本発明の実施の形態を説明する。図1は、本願の実施の形態に係る対訳可逆性適性判断システムのブロック構成図、図2は本発明の実施の形態に係る対訳可逆性適性判断システムのハードウエア構成を示すブロック構成図である。   Embodiments of the present invention will be described below. FIG. 1 is a block configuration diagram of a bilingual reversibility aptitude determination system according to an embodiment of the present application, and FIG. 2 is a block configuration diagram illustrating a hardware configuration of a bilingual reversibility aptitude determination system according to an embodiment of the present invention. .

図2において、対訳可逆性適性判断システム11は、例えば一般的なコンピュータに対訳可逆性適性判断プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。   In FIG. 2, the bilingual reversibility aptitude determination system 11 is configured by installing a software program such as a bilingual reversibility aptitude determination program in a general computer and executing the software program in the processor 13 of the arithmetic control device 12. Realized.

演算制御装置12は対訳可逆性適性判断に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には対訳可逆性適性判断に関するプログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。   The arithmetic and control unit 12 performs various calculations related to bilingual reversibility aptitude determination. The arithmetic control unit 12 includes a processor 13 and a memory 14, and the memory 14 stores a program 15 for bilingual reversibility aptitude determination. When processing is executed by the processor 13, the work area 16 is used. Calculation results and the like of the calculation control device 12 are displayed and output on the display device 18 that is the output device 17 and also output to the communication network via the communication control device 19.

入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書を入力する。   The input device 20 is used to input information to the arithmetic control device 12, and includes, for example, a mouse 21, a keyboard 22, a disk drive 23, and a communication control device 19. For example, the mouse 21 and the keyboard 22 are connected via the display device 18. Then, various commands are input to the arithmetic and control unit 12, and the keyboard 22, the disk drive 23, and the communication control unit 19 input a document to be translated.

すなわち、ディスクドライブ23は対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は対訳可逆性適性判断システム11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。   That is, the disk drive 23 inputs / outputs a target document file to / from a storage medium, and the communication control device 19 connects the bilingual reversibility aptitude determination system 11 to a communication network such as the Internet or a LAN. The communication control device 19 is a device such as a LAN card or a modem, and data transmitted / received to / from the communication network via the communication control device 19 is transmitted / received to / from the arithmetic control device 12 as an input signal or an output signal. Further, a hard disk drive (HDD) 24 is provided for storing a calculation dictionary of the calculation control device 12 and a translation dictionary storing knowledge and rules necessary for translation.

図1に示す演算制御装置12内の各機能ブロックは、上述の対訳可逆性適性判断に関するプログラム15に対応する。すなわち、プロセッサ13がプログラム15を実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。図1に示すように、対訳可逆性適性判断システム11の演算制御装置12は、制御部26、可逆性適性判断手段27、翻訳部28を有し、記憶装置25は、対訳データ格納部29、翻訳辞書部30、第二言語文書データベース31を有する。   Each functional block in the arithmetic and control unit 12 shown in FIG. 1 corresponds to the program 15 relating to the above-described parallel reversibility suitability determination. That is, when the processor 13 executes the program 15, the arithmetic control device 12 functions as each functional block. Each block of the storage device 25 corresponds to a storage area of the memory 14 and the hard disk drive 24 in the arithmetic control device 12. As shown in FIG. 1, the arithmetic control device 12 of the bilingual reversibility aptitude determination system 11 includes a control unit 26, a reversibility aptitude determination unit 27, and a translation unit 28, and the storage device 25 includes a bilingual data storage unit 29, A translation dictionary unit 30 and a second language document database 31 are provided.

図1において、入力装置20は、解析対象となる対訳リストの電子データを取り込んで制御部26に出力するものである。入力装置20は、例えばキーボード、マウス等によって構成されており、ユーザの入力操作に基づく対訳リストの入力が可能である。また、入力装置20としては、OCR(光学式文字読み取り装置)や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能であり、入力装置20はこれらの装置によって取り込んだ文書を制御部26に供給することができるようになっている。また、入力装置20は、制御部26に対して各種コマンドを与える。   In FIG. 1, the input device 20 takes in the electronic data of the parallel translation list to be analyzed and outputs it to the control unit 26. The input device 20 includes, for example, a keyboard, a mouse, and the like, and can input a parallel translation list based on a user input operation. Further, as the input device 20, a reading device from a computer readable medium such as an OCR (optical character reading device), a magnetic tape, a magnetic disk, an optical disk or the like can be adopted. Thus, the document taken in can be supplied to the control unit 26. The input device 20 gives various commands to the control unit 26.

出力装置17は、制御部26を介して供給された翻訳結果を出力するものである。また、出力装置17は制御部26に制御されて翻訳結果等を表示装置18の表示画面上に画面表示させる。入力装置20から入力された対訳可逆性適性の有無の判断対象となる第一言語の見出し語と第二言語の訳語に対する解析結果や翻訳部28における翻訳結果等を表示する。さらに、出力装置17は制御部26への各種コマンドに対する制御部26からの応答を表示する。なお、出力装置17としては、各種ディスプレイ等の表示装置だけでなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。   The output device 17 outputs the translation result supplied via the control unit 26. Further, the output device 17 is controlled by the control unit 26 to display a translation result or the like on the display screen of the display device 18. The analysis result for the first language entry word and the second language translation word that are input from the input device 20 and is subject to determination of the presence or absence of the reversibility of the parallel translation, the translation result in the translation unit 28, and the like are displayed. Further, the output device 17 displays responses from the control unit 26 to various commands to the control unit 26. The output device 17 is not only a display device such as various displays, but also a printing device such as a printing machine, an output device to a computer-readable medium such as a magnetic tape, a magnetic disk, or an optical disk, or a document to other media. It is also possible to employ a transmission device or the like.

演算制御装置12の翻訳部28は、制御部26からの指示に従って、後述する翻訳辞書部30を用いて入力装置20によって入力された対訳リスト内の表現に対する翻訳処理を行い、翻訳結果を制御部26へ出力する。すなわち、翻訳部28は、対訳リスト内の表現に対する翻訳処理を行い、対訳可逆性適性判断手段27が解析処理を行う際の判断材料を提供する。   In accordance with an instruction from the control unit 26, the translation unit 28 of the arithmetic control device 12 performs a translation process on the expression in the parallel translation list input by the input device 20 using the translation dictionary unit 30 described later, and the translation result is controlled by the control unit. 26. That is, the translation unit 28 performs a translation process on the expression in the parallel translation list, and provides a determination material when the parallel translation reversibility aptitude determination unit 27 performs an analysis process.

制御部26は、システム全体を制御するものであり、入力装置20から入力された対訳リストを対訳可逆性適性判断手段27に送信したり、翻訳部28での翻訳結果を出力装置17に出力したりする。   The control unit 26 controls the entire system, and transmits the bilingual list input from the input device 20 to the bilingual reversibility aptitude determination unit 27 and outputs the translation result in the translating unit 28 to the output device 17. Or

対訳可逆性適性判断手段27は、対訳リストの内容を解析して対訳可逆性適性の有無を判断する。   The bilingual reversibility aptitude determination means 27 analyzes the contents of the bilingual translation list and determines whether or not there is bilingual reversibility aptitude.

記憶装置25の対訳データ格納部29は、対訳可逆性適性判断手段27においてなされた各種の分析の中間結果を記憶するものである。   The bilingual data storage unit 29 of the storage device 25 stores intermediate results of various analyzes performed by the bilingual reversibility suitability judging means 27.

翻訳辞書部30は、翻訳部28が翻訳処理を行う際に使用する各種辞書データを格納し、対訳可逆性適性判断手段27が解析処理を行う際に使用する各種辞書データを格納している。翻訳辞書部30に含まれる辞書の内容については後述する。   The translation dictionary unit 30 stores various dictionary data used when the translation unit 28 performs translation processing, and stores various dictionary data used when the bilingual reversibility aptitude determination unit 27 performs analysis processing. The contents of the dictionary included in the translation dictionary unit 30 will be described later.

第二言語文書データベース31は、解析時に参照する第二言語の文書データを記憶している。   The second language document database 31 stores second language document data to be referred to at the time of analysis.

以下、日本語を第一言語、英語を第二言語として説明する。まず、翻訳辞書部30に含まれる辞書の内容について説明する。翻訳辞書部30は、第一言語から第二言語への翻訳を行うための辞書、および第二言語から第一言語への翻訳を行うための辞書である。図1に示すように、ここには語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書5a、第一言語を解析するための文法が記憶された第一言語解析文法辞書5b、第一言語の単語・熟語に対応する第二言語の訳語が、その品詞情報と共に記憶される第一言語単語・熟語辞書5c、第一言語の表現と共に生起しやすい第一言語の表現を記憶した第一言語共起辞書5dに加え、第二言語活用変化辞書5e、第二言語を解析するための文法が記憶された第二言語解析文法辞書5f、第二言語の単語・熟語に対応する第一言語の訳語が、その品詞情報と共に記憶される第二言語単語・熟語辞書5g、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書5h、第一言語の文の構造を決定する第一言語生成文法辞書5i、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書5j、第二言語の表現と共に生起しやすい第二言語の表現を記憶した第一言語共起辞書5等を収容したものである。なお、翻訳文を生成するには、このほかに変換文法辞書、生成文法辞書、形態素生成文法辞書が必要となるが、本提案の辞書作成の目的ではこれらの辞書は不要であるのでここには含めていない。   In the following description, Japanese is the first language and English is the second language. First, the contents of the dictionary included in the translation dictionary unit 30 will be described. The translation dictionary unit 30 is a dictionary for performing translation from the first language to the second language, and a dictionary for performing translation from the second language to the first language. As shown in FIG. 1, a first language utilization change dictionary 5a for converting a word / idiom having a change in ending to its original form and a grammar for analyzing the first language are stored therein. Language analysis grammar dictionary 5b, first language word / idiom dictionary 5c in which the second language translation corresponding to the first language word / idiom is stored together with the part of speech information, and the first language easy to occur In addition to the first language co-occurrence dictionary 5d storing the language expression, the second language utilization change dictionary 5e, the second language analysis grammar dictionary 5f storing the grammar for analyzing the second language, the words of the second language A second language word / jukugo dictionary 5g in which the translation of the first language corresponding to the idiom is stored together with the part of speech information, and a second language conversion grammar dictionary 5h in which conversion information from the second language to the first language is stored First language generation to determine the structure of the first language sentence Legal dictionary 5i, first language morpheme generation grammar dictionary 5j that completes a translated sentence by changing word forms such as endings, and first language co-occurrence dictionary storing second language expressions that are easy to occur together with second language expressions 5 etc. are accommodated. In addition, in order to generate a translation, a conversion grammar dictionary, a generation grammar dictionary, and a morpheme generation grammar dictionary are required, but these dictionaries are not necessary for the purpose of creating the proposed dictionary. Not included.

次に実施例1における対訳可逆性適性判断システムの動作について説明する。入力装置20から入力された第一言語の見出し語とそれに対応する第二言語の訳語に対する解析処理に関して行う処理の流れを、第一言語を日本語とし、第二言語を英語とした場合を例にして説明する。図3は本発明の実施例1に係る対訳可逆性適性判断システムの動作を示すフローチャートである。ここでは具体例として表1に示すような日英対訳リストの解析の要求を受け、解析し、その結果を出力する場合を例にして説明する。

Figure 2010170306
Next, the operation of the bilingual reversibility aptitude determination system in Embodiment 1 will be described. An example of the flow of processing relating to the analysis processing for the headword of the first language and the corresponding translation of the second language input from the input device 20 is when the first language is Japanese and the second language is English. I will explain. FIG. 3 is a flowchart showing the operation of the bilingual reversibility aptitude determination system according to Embodiment 1 of the present invention. As a specific example, a case where a request for analysis of a Japanese-English translation list as shown in Table 1 is received and analyzed, and the result is output will be described as an example.
Figure 2010170306

まず、入力装置20から第一言語の日本語を見出し語とし、各見出し語に対応する第二言語の英語の訳語の対訳リスト(対訳辞書データ)が読み込まれ、制御部26に送られる。制御部26は、可逆性適性判断手段27に対して、第一言語の見出し語と第二言語の訳語の統語的特徴を得るために最初に構成要素に分解し、品詞などの属性情報を得る(ステップS1)。すなわち、表1の最初の一行目の見出し語「複合羽根」は第一言語の対訳辞書、具体的には第一言語活用変化辞書5a、第一言語解析文法辞書5bとの照合により、例えば、「複合」(サ変名詞)と「羽根」(名詞)の2つの構成要素に分割されたとする。第二言語である英語は屈折語であるので、見出し語「複合羽根」に対応する”composite blade”は視覚的に2単語から構成されることがわかる。さらに、第二言語活用変化辞書5e、第二言語解析文法辞書5fを用いて、”composite”は形容詞、”blade”は名詞で単数形であることが示される。次に第一言語単語・熟語辞書5c、第二言語単語・熟語辞書5gを用いて、それぞれの構成要素に対して、辞書引きを行う(ステップS2)。ここでサ変名詞である「複合」の訳語には、動詞訳語として”to combine, compound, mix”が、名詞訳語として”composite, compound, composition, compositeness”が第一言語単語・熟語辞書5cに入っているものとする。また、名詞「羽根」の訳語にはblade, blade base, fin, impeller blade, impeller vane, shuttlecock, vane, wing”が同辞書に入っているものとする。一方、形容詞”composite”の訳語としては、「合成(の)、複合(の)、混成(の)」が、名詞”blade”については「刃、ナイフ、葉, 葉身、水かき、翼、ブレード、羽根、肩胛骨、腕木」が第二言語単語・熟語辞書5gに入っているものとする。なお、第一言語共起辞書5d、第二言語共起辞書5kには各単語に対し、どの品詞の語とあるいはどの単語と共起しやすいかの知識をもっており、この知識を用いながら、本システムにおける構文解析は最適な品詞列が第一候補にくるよう工夫がなされている。表2にbladeを見出しとした共起辞書の具体的な中身の例を示す。

Figure 2010170306
First, a translation list (parallel translation dictionary data) of English translations of the second language corresponding to each entry word is read from the input device 20 as an entry word, and sent to the control unit 26. The control unit 26 first decomposes the reversibility aptitude determination unit 27 into constituent elements to obtain syntactic features of the first language headword and the second language translation, and obtains attribute information such as part of speech. (Step S1). That is, the headword “composite feather” in the first line of Table 1 is collated with the bilingual dictionary of the first language, specifically, the first language utilization change dictionary 5a and the first language analysis grammar dictionary 5b. Suppose that it is divided into two components, “composite” (sa variable noun) and “feather” (noun). Since English as a second language is a refraction word, it can be seen that the “composite blade” corresponding to the headword “composite blade” is visually composed of two words. Further, using the second language utilization change dictionary 5e and the second language analysis grammar dictionary 5f, it is shown that “composite” is an adjective and “blade” is a noun and a singular form. Next, using the first language word / idiom dictionary 5c and the second language word / idiom dictionary 5g, dictionary lookup is performed for each component (step S2). Here, in the translation of “composite”, which is a sub-noun, “to combine, compound, mix” as a verb translation and “composite, compound, composition, compositeness” as a noun translation are included in the first language word / jukugo dictionary 5c. It shall be. Also, the translation of the noun “blade” includes blade, blade base, fin, impeller blade, impeller vane, shuttlecock, vane, wing ”, while the adjective“ composite ” , “Synthetic (no), composite (no), hybrid (no)”, but the noun “blade” is “blade, knife, leaf, leaf blade, webbed, wing, blade, wing, shoulder rib, brachi” It is assumed that it is in the language word / idiom dictionary 5g. The first language co-occurrence dictionary 5d and the second language co-occurrence dictionary 5k have knowledge of which part of speech and which word are likely to co-occur for each word. The parsing in the system is devised so that the best part-of-speech sequence is the first candidate. Table 2 shows an example of specific contents of a co-occurrence dictionary headed by blade.
Figure 2010170306

一方、「製パン機」は第一言語の対訳辞書、具体的には第一言語活用変化辞書5a、第一言語解析文法辞書5bとの照合により、例えば、「製パン」(サ変名詞)と「機」(接尾語)の2つの構成要素に分割されたとする。見出し語「製パン機」に対応する”baking machine”は2単語から構成されている。さらに、第二言語活用変化辞書5e、第二言語解析文法辞書5fを用いて、”baking”は動詞”bake”の現在分詞、”machine”は名詞単数形であるという情報を得る。次に第一言語単語・熟語辞書5c、第二言語単語・熟語辞書5gを用いて、それぞれの構成要素に対して、辞書引きを行う。すなわち、サ変名詞「製パン」の動詞訳語には”to bake bread, to make bread”が、名詞訳語には”bread-baking, bread-making”が第一言語単語・熟語辞書5cに入っているものとする。また、名詞「機」は”machine, machinery, mechanism, gadget, mechanization, apparatus”が第一言語単語・熟語辞書5cに入っているものとする。一方、”baking”については、”baking”が見出し語としては見つからないとする。そこで、原形の動詞”bake”の訳語を求めると、例えば訳語「焼く」を得る。後続の名詞”machine”を辞書引きすると「機械、機、装置」などの訳語が第二言語単語・熟語辞書5gから得られたとする。   On the other hand, the “baking machine” is collated with the bilingual dictionary of the first language, specifically, the first language utilization change dictionary 5a and the first language analysis grammar dictionary 5b. Suppose that it is divided into two components, “machine” (suffix). “Baking machine” corresponding to the headword “baking machine” is composed of two words. Further, using the second language utilization change dictionary 5e and the second language analysis grammar dictionary 5f, information that “baking” is the present participle of the verb “bake” and “machine” is a singular noun is obtained. Next, using the first language word / idiom dictionary 5c and the second language word / idiom dictionary 5g, dictionary lookup is performed for each component. That is, “to bake bread, to make bread” is included in the verb translation of the sa variable noun “made bread”, and “bread-baking, bread-making” is included in the first language word / idiom dictionary 5c. Shall. Also, it is assumed that the noun “machine” includes “machine, machinery, mechanism, gadget, mechanization, apparatus” in the first language word / idiom dictionary 5c. On the other hand, for “baking”, “baking” is not found as a headword. Therefore, when the translation of the original verb “bake” is obtained, for example, the translation “baked” is obtained. When the subsequent noun “machine” is looked up in a dictionary, it is assumed that a translation such as “machine, machine, device” is obtained from the second language word / idiom dictionary 5g.

続く「月見酒:moon-viewing sake」についても同様の処理を行う。残りの2件「中毒量:toxic dose」と「カバー・コスト:cover cost」については、これらの構文解析結果を後の説明に使うため、解析結果のみ示しておく。「中毒量」は例えば、「中毒」(サ変名詞)+「量」(名詞)からなると解析され、訳語である”toxic dose”は”toxic”(形容詞)+”dose” (名詞)とからなると解析されたとする。また、先述した構文解析処理のための知識を含んだ第二言語共起辞書5kには、形容詞”toxic”の属性として、”highly, lethally, mildly, normally, severely, systemically”といった副詞が前置しやすいという情報が含まれているものとする。これとは対照的に、先の”composite blade”の”composite”も品詞としては形容詞であるが、”toxic”と異なり、副詞が前置しやすいという属性はもっていない。次に「カバー・コスト:cover cost」の説明に移る。第二言語活用変化辞書5e、第二言語解析文法辞書5fより、”cover”も”cost”も、品詞として動詞と名詞の両方を持つことがわかる。したがって、2×2=4の組合せがある。   The same process is performed for the following “moon-viewing sake”. For the remaining two cases, “toxic dose” and “cover cost”, only the analysis results are shown in order to use these syntax analysis results for later explanation. For example, “addiction dose” is analyzed as “addiction” (sa variable noun) + “amount” (noun), and the translation “toxic dose” consists of “toxic” (adjective) + “dose” (noun). Suppose that it was analyzed. Also, in the second language co-occurrence dictionary 5k including the knowledge for the parsing processing described above, the adverb such as “highly, lethally, mildly, normally, severely, systemically” is prefixed as the attribute of the adjective “toxic”. Information that it is easy to do is included. In contrast, the “composite” of the previous “composite blade” is also an adjective as a part of speech, but unlike “toxic”, it does not have the attribute that the adverb is easy to prefix. Next, the explanation shifts to “cover cost”. It can be seen from the second language utilization change dictionary 5e and the second language analysis grammar dictionary 5f that both “cover” and “cost” have both verbs and nouns as parts of speech. Therefore, there are 2 × 2 = 4 combinations.

ここで先述の第一言語解析文法辞書5bについて補足説明を行う。ここには、第一言語を解析するための文法が記憶されているが、この文法の具体例として、名詞句などの英語の統語構造が例えば表3のような書き換え規則により定義されている。

Figure 2010170306
Here, the first language analysis grammar dictionary 5b will be supplementarily described. Here, a grammar for analyzing the first language is stored. As a specific example of this grammar, an English syntactic structure such as a noun phrase is defined by a rewrite rule as shown in Table 3, for example.
Figure 2010170306

この書き換え規則にあてはまらない品詞列は却下されることになる。表3によれば、英語の統語構造として動詞と動詞の並びはないので、「名詞(句)+名詞(句)」、「名詞(句)+動詞(句)」、「動詞+名詞(句)」の3つの可能性があることになる。この点で品詞的に曖昧だといえる。しかし、「カバー・コスト」が名詞句であるため、この場合は「名詞(句)+名詞(句)」の系列が最も可能性が高いことになる。   Part-of-speech strings that do not meet this rewrite rule will be rejected. According to Table 3, there are no verbs and verbs in the English syntactic structure, so "noun (phrase) + noun (phrase)", "noun (phrase) + verb (phrase)", "verb + noun (phrase) There are three possibilities: In this respect, it can be said that the part of speech is ambiguous. However, since “cover cost” is a noun phrase, in this case, the sequence of “noun (phrase) + noun (phrase)” is most likely.

次に、第二言語単語・熟語辞書5gを使って得られたこれらの訳語候補に、第二言語の第一言語への音訳による訳語候補を追加する(ステップS3)。これは一般に対訳辞書には、音訳による訳語は常に含まれているとは限らないという事情による。この実施例では日本語と英語を扱っている。英文字からカタカナへの音訳についてはすでにさまざまな手法が確立されているので、それを援用する。ここで、カタカナは表記のゆれがあるため、複数の候補があればすべて抽出しておく。すると、「複合羽根:composite blade」については、例えば、第一の構成要素には「コンポジット」が、第二の構成要素には「ブレード」「ブレイド」が得られる。また、「製パン機:baking machine」の対については、例えば、第一の構成要素には「ベーキング」「ベイキング」が、第二の構成要素には「マシン」「マシーン」が得られる。   Next, a translation word candidate by transliteration of the second language into the first language is added to these translation word candidates obtained by using the second language word / idiom dictionary 5g (step S3). This is because, in general, the bilingual dictionary does not always include the translated word. In this embodiment, Japanese and English are handled. Various methods have already been established for transliteration from English letters to katakana. Here, since katakana has a variation in notation, if there are a plurality of candidates, all are extracted. Then, for the “composite blade”, for example, “composite” is obtained as the first component, and “blade” and “blade” are obtained as the second component. In addition, for a pair of “baking machine”, for example, “baking” and “baking” are obtained as the first component, and “machine” and “machine” are obtained as the second component.

次に、音訳もあわせた、これらの訳語を利用して、第一言語の見出し語の各構成要素が対応する第二言語の訳語の構成要素の辞書引き結果の訳語候補の中のいずれかとどの程度一致するかによって、その意味範疇の対応関係の有無を判断する(ステップS4)。具体例として、第一言語の見出し語「複合羽根」と第二言語の訳語”composite blade”について表4を用いて説明する。

Figure 2010170306
Next, using these translations together with the transliteration, which one of the candidate translations of the dictionary lookup result of the component of the second language translation corresponding to each component of the first language headword Whether or not there is a corresponding relationship of the semantic category is determined depending on whether the degree of agreement is satisfied (step S4). As a specific example, the headword “composite blade” in the first language and the translated word “composite blade” in the second language will be described with reference to Table 4.
Figure 2010170306

先述したとおり、「複合羽根:composite blade」の場合、見出し語、訳語とも2つの構成要素に分かれる。その並びから「複合」は”composite”と「羽根」は”blade”と対応する可能性が高いという予想を立てる。そこでまず第二言語訳語の第一の構成要素である”composite”の訳語の中に「複合」が含まれているかを逆方向の可否の判断基準として用いる。このとき比較対象とするのは、名詞、動詞といった内容語である。すると、確かに”composite”の第一言語訳語として表4において四角で囲んだように「複合(の)」(すなわち、内容語は「複合」である。)があるため、対訳可逆性適性を有することが示される。同様に、第二言語の訳語の各構成要素の辞書引き結果の中に、対応する見出し語の該当要素があるかどうかをみる。すると、”blade”の訳語の中に、表4で四角で囲んだように「羽根」があることが確認できる。以上より、表4において点線で示した第一言語の見出し語の内容語と第二言語の訳語の内容語の対応関係がとれており、少なくともこの観点では、「composite blade:複合羽根」は対訳可逆性適性を有すると判定し(ステップS8)、処理を終了する。   As described above, in the case of “composite blade”, the headword and the translation are divided into two components. From that list, we expect that “composite” is likely to correspond to “composite” and “blade” to “blade”. Therefore, first, whether or not “composite” is included in the translation of “composite”, which is the first component of the second language translation, is used as a criterion for determining whether or not the backward translation is possible. At this time, contents to be compared are content words such as nouns and verbs. Then, as the first language translation of “composite”, there is “composite” (ie, the content word is “composite”) as enclosed in the square in Table 4. Is shown to have. Similarly, it is checked whether or not there is a corresponding element of the corresponding headword in the dictionary lookup result of each constituent element of the second language translation word. Then, it can be confirmed that there is a “blade” in the translation of “blade” as enclosed by a square in Table 4. As described above, the correspondence relationship between the content word of the first language headword and the content word of the second language translation indicated by the dotted line in Table 4 is taken. At least in this respect, “composite blade” is a bilingual translation. It determines with having reversibility aptitude (step S8), and complete | finishes a process.

また、3行目の「製パン機」と”baking machine”についても同様のことを行う。すると、baking(<bake)の訳語は「焼く」であり、対応部分の「製パン」とは全く重なり部分がないことがわかる。この場合、今度は「製パン」の辞書引き結果、すなわち、”bread-baking, bread-making”と、対応部分の”baking”を比較すると、”bread-baking”が最も近いが、後者では、内容語である名詞”bread”という新たな要素が加わっていることがわかる。これは換言すれば、”baking”であれば、常に「製パン」が成り立つとは限らないことを意味している。このように、一致しない部分があることから、「baking machine:製パン機」は英日辞書の登録内容として妥当とはいえないことが導かれる。ここで判断を打ち切ってもよいが、次の「機:machine」の部分についてみると、”machine”の訳語の一つに「機」があるため、この構成要素については、英日方向でも対応していると判定される。1箇所でも対応しない箇所があれば、対応関係はないとみなし、この場合は、「baking machine:製パン機」の対は完全な対応は成立しないことになり、次のステップS5に進む。すると、「baking machine:製パン機」の対については、辞書引きは成功したので、対訳可逆性適性がないと判定され(ステップS6)、処理を終了する。一方、未知語があり、辞書引きが成功しなかったなど、判定不能部分があると、後にユーザに表示できるよう判定不能な対として記憶し(ステップS7)、処理を終了する。   The same applies to the “baking machine” and “baking machine” on the third line. Then, the translation of baking (<bake) is “baked”, and it can be seen that there is no overlap with the corresponding portion of “baking”. In this case, this time, when comparing the result of “Bread-baking, bread-making” with “baking” in the corresponding part, “bread-baking” is the closest. It can be seen that a new element called the content word noun “bread” is added. In other words, “baking” means that “baking” does not always hold. Thus, since there is a part that does not match, it is derived that “baking machine” is not valid as the contents of registration in the English-Japanese dictionary. You can discontinue the judgment here, but if you look at the next "machine" part, there is "machine" as one of the translations of "machine", so this component is also supported in English and Japanese directions It is determined that If there is a part that does not correspond even at one place, it is considered that there is no correspondence, and in this case, the “baking machine” pair does not have a perfect correspondence, and the process proceeds to the next step S5. Then, since the dictionary lookup is successful for the “baking machine” pair, it is determined that there is no parallel reversibility suitability (step S6), and the process ends. On the other hand, if there is an unknown word and there is an undecidable part such as dictionary lookup has not been successful, it is stored as an undecidable pair so that it can be displayed to the user later (step S7), and the process ends.

なお、辞書引きの失敗の回避策として、単言語辞書の使用がある。対訳辞書に見出し語として掲載されていなかった場合は、単言語辞書を使い、その語義をさらに対訳辞書で調べて訳語を得るといったことも考えられる。ここで、単言語辞書を使用しても、依然として未知語として残る場合は、やはり判定不能となる。   One way to avoid dictionary lookup failures is to use a monolingual dictionary. If it is not listed as a headword in the bilingual dictionary, it may be possible to use a monolingual dictionary and further search its meaning in the bilingual dictionary to obtain a translated word. Here, even if a monolingual dictionary is used, if it still remains as an unknown word, it is still impossible to determine.

また、訳語候補を増やす方法としては、類語辞典(thesaurus)を参照して得られた訳語の類語を追加することや、辞書引き対象語だけでなく、その類語の訳語を追加することも考えられる。これは上記の例でいえば、”composite”の訳語である「合成(の)」、「複合(の)」、「混成(の)」の類義語を追加することや”composite”の類義語である”complex”、”compound”の訳語を追加することを意味する。   In addition, as a method of increasing the number of translation candidates, it is possible to add a synonym of a translation obtained by referring to the thesaurus, or add a translation of the synonym as well as the dictionary lookup target word. . In the above example, this is a synonym for “composite”, adding the synonyms “composite”, “composite”, “composite”, and “composite” It means adding translations of “complex” and “compound”.

図4は本発明の実施例2に係る対訳可逆性適性判断システムの動作を示すフローチャートである。実施例2では出現頻度による判定を行う。実施例2はある設定した数値と比較する絶対比較を行うものである。   FIG. 4 is a flowchart showing the operation of the bilingual reversibility aptitude determination system according to Embodiment 2 of the present invention. In the second embodiment, the determination is made based on the appearance frequency. In the second embodiment, an absolute comparison is performed for comparison with a certain set numerical value.

まず、入力装置20より、判定の根拠として用いる第二言語文書データベース31の中から特定のデータベースを選択する指示命令が制御部26に送られてくる。制御部26に第二言語文書データベース31を選択する指示命令が送られてくると、制御部26は、ユーザが所望のデータベースを選択するのを支援する画面を出力装置17にて表示する(ステップA1)。この画面は第二言語文書データベースの一覧をユーザに提示するものである。この一覧を見て、ユーザが入力装置20を通じて特定のデータベースを選択する(ステップA2)と、制御部26は指定されたデータベースを同定し、読み出す(ステップA3)。一方、ユーザによる指定がなかった場合は、すべてのデータベースを読み出す(ステップA4)。なお、ここでいうデータベースは、一般の検索システムで代用することも考えられる。   First, an instruction command for selecting a specific database from the second language document database 31 used as a basis for determination is sent from the input device 20 to the control unit 26. When an instruction command for selecting the second language document database 31 is sent to the control unit 26, the control unit 26 displays a screen for assisting the user in selecting a desired database on the output device 17 (step S1). A1). This screen presents a list of second language document databases to the user. Looking at this list, when the user selects a specific database through the input device 20 (step A2), the control unit 26 identifies and reads the designated database (step A3). On the other hand, if there is no designation by the user, all databases are read (step A4). It should be noted that the database here may be replaced by a general search system.

具体的な例を用いて説明すると、表1に挙げた対のうち、「複合羽根:composite blade」、「月見酒:moon-viewing sake」、「中毒量:toxic dose」、「カバー・コスト:cover cost」がどの程度、該当のデータベースに出現するかを次に調べ、それが閾値よりも高いか低いかを調べる(ステップA5)。   To explain using specific examples, among the pairs listed in Table 1, “composite blade”, “moon-viewing sake”, “toxic dose”, “cover cost” Next, the extent to which “: cover cost” appears in the corresponding database is examined, and it is examined whether it is higher or lower than the threshold (step A5).

この閾値は、システムがあらかじめ設定した値でもよいし、あるいはユーザに指定させるのでもよい。本説明での例では、”composite blade”、”moon-viewing sake”、”cover cost”が該当データベースに出現する回数を調べる。すると、”composite blade”、”toxic dose”、”cover cost”については、出現回数>>閾値であるが、”moon-viewing sake”は出現頻度が一桁台であり、したがって閾値を下回ったとする。これは、容易に推測できる。なぜなら、「月見酒」は日本では秋の季語であり、「月を見ながら飲む酒」という独特の風習であり、”moon-viewing sake”はそれを英語で表そうとした表現であるからである。ここで、頻度を測定する場合、名詞でしかも可算名詞であれば、複数形も検索対象とすることによって(ただし、単複で用法が異なる場合は除く)、より正確な値を得ることができる。すなわち、ここでは不可算であるsakeを除き、”composite blades”、”toxic doses”、”cover costs”も対象に含める。また、ここでは、単純な回数を用いたが、文書の合計単語数や合計文字数を加味して、重み付けをした値を用いることも考えられる。また、ここでは判定に>を用いたが、≧を用いてもかまわない。   This threshold value may be a value set in advance by the system or may be specified by the user. In this example, the number of occurrences of “composite blade”, “moon-viewing sake”, and “cover cost” in the corresponding database is examined. Then, for “composite blade”, “toxic dose”, and “cover cost”, the number of appearances is the threshold, but “moon-viewing sake” has an appearance frequency in the single digit range, and therefore falls below the threshold. . This can be easily guessed. Because “Tsukimi Sake” is an autumn season word in Japan, “Sake drinking while watching the moon”, and “moon-viewing sake” is an expression that expresses it in English. It is. Here, when measuring the frequency, if it is a noun and countable noun, it is possible to obtain a more accurate value by making the plural form a search target (however, except for cases where the usage is different depending on the type). In other words, “composite blades”, “toxic doses”, and “cover costs” are also included in the target except for the non-countable sake. Although a simple number is used here, it is also possible to use a weighted value in consideration of the total number of words and the total number of characters in the document. Moreover, although> is used for the determination here, ≧ may be used.

以上より、「月見酒:moon-viewing sake」は対訳可逆性適性がないと判定される(ステップA6)。対訳可逆性適性がないとされなかった「複合羽根:composite blade」、「中毒量:toxic dose」、「カバー・コスト:cover cost」は、少なくとも頻度の観点では対訳可逆性適性を有すると判定される(ステップA7)。いずれのケースも判定を終え、処理は終了する。   From the above, it is determined that “moon-viewing sake” has no parallel reversibility suitability (step A6). “Composite blade”, “toxic dose”, and “cover cost” that were not considered to have no reversible aptitude were determined to have bilingual reversibility aptitude at least in terms of frequency. (Step A7). In any case, the determination is completed, and the process ends.

実施例3では、注目している第二言語の訳語を機械翻訳した翻訳結果の頻度と第一言語の見出し語の頻度を比較するものである。すなわち、実施例3は実施例2と同様に出現頻度による判定を行うが、実施例2がある設定した数値と比較する絶対比較であるのに対し、実施例3では機械翻訳の翻訳結果で使用された訳語の頻度と比較する相対比較を行うものである。   In the third embodiment, the frequency of the translation result obtained by machine translation of the translated word in the second language of interest is compared with the frequency of the headword in the first language. That is, the third embodiment performs the determination based on the appearance frequency in the same manner as the second embodiment, whereas the second embodiment is an absolute comparison that compares with a set numerical value, whereas the third embodiment uses the machine translation result. A relative comparison is made to compare with the frequency of the translated words.

ここでは、第二言語のある一般的な表現が、第一言語の特殊な表現に置き換えられてしまうのを回避することが目的である。日本語と英語の対の場合、第一言語である日本語の見出し語が和語・漢語で、第二言語である英語の訳語は難解な単語を使用していない一般的な表現である場合や、第一言語の見出し語である日本語の見出し語がすべて音訳のカタカナ語で、第二言語である英語の訳語は難解な単語を使用していない一般的な表現である場合が当てはまる。後者のすべて音訳のカタカナ語は、文書における出現頻度が低くとも、未知語となるのを避けるために登録されていることが多い。   Here, the purpose is to avoid a general expression in the second language being replaced with a special expression in the first language. In the case of a pair of Japanese and English, the first language Japanese entry word is Japanese or Chinese, and the second language English translation is a general expression that does not use difficult words In addition, the case where all the Japanese headwords, which are the first language headwords, are transliterated Katakana, and the second language, the English translation, is a general expression that does not use difficult words. The latter transliteration katakana is often registered in order to avoid becoming an unknown word even if the frequency of occurrence in the document is low.

実施例3について、実施例2と重なる部分もあるが、図5を用いて最初から説明する。具体例としては、表1に挙げた対のうち、「中毒量:toxic dose」と新たな対「キイチゴ果汁:raspberry juice」を用いる。   Example 3 will overlap with Example 2 but will be described from the beginning with reference to FIG. As a specific example, among the pairs listed in Table 1, a “toxic dose” and a new pair “raspberry juice” are used.

まず、注目している第二言語の訳語をステップB1にて機械翻訳する。この場合、”toxic dose”については「毒性量」、”raspberry juice”については「ラズベリー・ジュース」という翻訳結果が得られたとする。次に、入力装置20より、判定の根拠として用いる第二言語文書データベース31の中から特定のデータベースを選択する指示命令が制御部26に送られてくる。制御部26に第二言語文書データベース31を選択する指示命令が送られてくると、制御部26は、ユーザが所望のデータベースを選択するのを支援する画面を出力装置17にて表示する(ステップB2)。この画面は第二言語文書データベースの一覧をユーザに提示するものである。この一覧を見て、ユーザが入力装置20を通じて特定のデータベースを選択する(ステップB3)と、制御部26は指定されたデータベースを同定し、読み出す(ステップB4)。一方、ユーザによる指定がなかった場合は、すべてのデータベースを読み出す(ステップB5)。なお、ここでいうデータベースは、一般の検索システムで代用することも考えられる。   First, the translated word of the second language of interest is machine-translated in step B1. In this case, it is assumed that a translation result of “toxic dose” for “toxic dose” and “raspberry juice” for “raspberry juice” is obtained. Next, an instruction command for selecting a specific database from the second language document database 31 used as a basis for determination is sent from the input device 20 to the control unit 26. When an instruction command for selecting the second language document database 31 is sent to the control unit 26, the control unit 26 displays a screen for assisting the user in selecting a desired database on the output device 17 (step S1). B2). This screen presents a list of second language document databases to the user. Looking at this list, when the user selects a specific database through the input device 20 (step B3), the control unit 26 identifies and reads the designated database (step B4). On the other hand, if there is no designation by the user, all databases are read (step B5). It should be noted that the database here may be replaced by a general search system.

ここでは、該当のデータベースにおける、機械翻訳による訳語(すなわち、「毒性量」と「ラズベリー・ジュース」)の出現頻度および所与の第一言語の見出し語(すなわち、「中毒量」と「キイチゴ果汁」)の出現頻度を調べる。お互いの値を比較する(ステップB6)。本例での結果をGoogle検索した結果を参考に示すと、「中毒量」は74,500である一方、「毒性量」は4,430である。また、「キイチゴ果汁」は1,560であるのに対し、「ラズベリー・ジュース」は6970である。この値によれば、「中毒量:toxic dose」の場合、機械翻訳の訳の頻度は所与の第二言語の訳語の頻度と18倍以上の差があり、使用頻度がかなり低いことになる。従ってこのケースは、ステップB8に進み、対訳可逆性適性が相対的に高いと判定する。一方、「キイチゴ果汁:raspberry juice」については、機械翻訳の訳の頻度が所与の第二訳語の頻度の4倍以上あることより、”raspberry juice”の訳語としては、「キイチゴ果汁」よりも「ラズベリー・ジュース」が優先されるべきことが示される。従ってこのケースは、ステップB7に進み、対訳可逆性適性が相対的に低いと判定する。以上は「キイチゴ果汁:raspberry juice」は和語・漢語よりもカタカナ語の方が好まれるケースであったが、逆にカタカナ語でないものが好まれるケースもある。例えば、「アブソリュート・プログラミング:absolute programming」のような例が挙げられる。”absolute programming”に対する機械翻訳の結果が「絶対プログラミング」であるとし、その頻度が「アブソリュート・プログラミング」の頻度と比較して高いとき、「アブソリュート・プログラミング:absolute programming」の対訳可逆性適性は相対的に低いといえる。先の「キイチゴ果汁:raspberry juice」と異なる点は、「キイチゴ果汁」の構成要素である「キイチゴ」と「果汁」自体の頻度は高いのに対し、「アブソリュート・プログラミング」の構成要素である「アブソリュート」と「プログラミング」については、前者の頻度がかなり低いのに対し、後者は頻度が高い点である。頻度の低い構成要素が含まれているため、それに伴い、その低頻度の構成要素を含む表現の頻度も低くなるのである。   Here, the frequency of occurrence of machine translations (ie, “toxic dose” and “raspberry juice”) in the corresponding database and the given first language headword (ie, “addictive dose” and “raspberry juice” )). The values are compared with each other (step B6). When the result of this example is shown by reference to the result of Google search, the “toxic amount” is 74,500, while the “toxic amount” is 4,430. “Raspberry juice” is 1,560 while “Raspberry juice” is 6,970. According to this value, in the case of “toxic dose”, the frequency of translation of machine translation is more than 18 times the frequency of translation of a given second language, and the frequency of use is considerably low. . Therefore, in this case, the process proceeds to step B8, and it is determined that the bilingual reversibility suitability is relatively high. On the other hand, for “raspberry juice”, the translation of machine translation is more than four times the frequency of the given second translation, so the translation of “raspberry juice” is more than “raspberry juice” It is indicated that “raspberry juice” should be given priority. Therefore, in this case, the process proceeds to step B7, and it is determined that the bilingual reversibility suitability is relatively low. In the above, “raspberry juice” was preferred to Katakana over Japanese and Chinese, but there were also cases where non-Katakana was preferred. For example, an example such as “absolute programming”. When the result of machine translation for “absolute programming” is “absolute programming” and the frequency is higher than the frequency of “absolute programming”, the reversibility aptitude of “absolute programming” is relative It can be said that it is low. The difference from the previous `` raspberry juice '' is that the components of `` raspberry juice '', `` raspberry juice '' and `` fruit juice '' are high in frequency, whereas `` absolute programming '' is a component of `` absolute programming '' Regarding “absolute” and “programming”, the frequency of the former is considerably low, whereas the frequency of the latter is high. Since a low-frequency component is included, the frequency of expression including the low-frequency component is also reduced accordingly.

なお、ここでは、単純な回数を用いたが、文書の合計単語数や合計文字数を加味して、重み付けをした値を用いることも考えられる。また、数値の差についても、検定など統計学の手法を用いて精緻化し、統計的に有意な値を求めるようにしてもよい。   Although a simple number is used here, it is also possible to use a weighted value in consideration of the total number of words and the total number of characters in the document. Further, the difference in numerical values may be refined using a statistical technique such as a test to obtain a statistically significant value.

実施例4では、第一言語の見出し語の語源を参照して、対訳可逆性適性の判断を行う。実施例1から実施例3まで、日英の対訳リストを入力としていたが、ここでは例外的に英日の対訳リストを入力とした場合を例に説明する。すなわち、ここでは、表5に示すような”concerto grosso:コンチェルト・グロッソ”と”sinfonia concertante:協奏交響曲”という対を入力として図6のフローチャートを用いて説明を進める。

Figure 2010170306
In the fourth embodiment, it is determined whether or not the bilingual reversibility is appropriate with reference to the word source of the first language headword. In the first to third embodiments, the Japanese-English bilingual list is used as an input. However, here, an example in which an English-Japanese bilingual list is exceptionally input will be described. That is, here, description will be given using the flowchart of FIG. 6 with a pair of “concerto grosso” and “sinfonia concertante” as shown in Table 5 as inputs.
Figure 2010170306

まず、ステップC1において、見出し語、訳語をそれぞれ構成要素に分割し、語源を含む品詞などの属性情報を得る。そこで、”concerto grosso:コンチェルト・グロッソ”については、”concerto”は「コンチェルト」、”grosso”は「グロッソ」と、”sinfonia concertante:協奏交響曲”については、「sinfonia:交響曲」、「concertante:協奏」という対応付けがなされる。さらに、”concert symphony: 協奏交響曲”は、「concert:協奏」、「symphony:交響曲」という対応付けがなされる。また、”concerto grosso” も“sinfonia concertante”いずれもイタリア語語源であり、”concert symphony”は英語語源であるという情報を得る。ステップC2では、各構成要素に対して辞書引きを行い、訳語を得る。例は異なるが、詳細は実施例2で説明したので、省略する。次に、第二言語訳語の第一言語の音訳を訳語候補に追加することにより、”concerto grosso”については「コンチェルト・グロッソ」、”sinfonia concertante”については「シンフォニア・コンチェルタンテ」、”concert symphony”については「コンサート・シンフォニー」という音訳を得る(ステップC3)。そして、第一言語の見出し語の各構成要素が対応する第二言語の訳語の構成要素の辞書引き結果の訳語候補のいずれかと、内容語に関して完全に一致しているかを見る(ステップC4)。ここでは、完全に一致しているものとして説明を進める。一致していない場合(ステップC5〜ステップC7)については、実施例2で説明したとおりである。一致した場合、語源が英語以外であるかどうかを見る(ステップC8)。すると、ここで対象とする”concerto grosso” も“sinfonia concertante”はいずれもイタリア語語源であるという情報をステップC1で得ているので、ステップC10に進む。一方、”concert symphony”は英語語源であるので、ステップC9に進み、対訳可逆性適性があると判定して終了する。   First, in step C1, the headword and the translation are each divided into constituent elements, and attribute information such as part of speech including the word source is obtained. So, for “concerto grosso”, “concerto” is “Concerto”, “grosso” is “Grosso”, and “sinfonia concertante” is “sinfonia”, “concertante” "Is made. Further, “concert symphony: concerto symphony” is associated with “concert: concerto” and “symphony: symphony”. In addition, we obtain information that both “concerto grosso” and “sinfonia concertante” are from Italian, and “concert symphony” is from English. In Step C2, dictionary lookup is performed for each component to obtain a translated word. Although the examples are different, the details have been described in the second embodiment, and are omitted. Next, the transliteration of the first language of the second language translation is added to the translation candidates, so that “concerto grosso” is “Concerto Grosso”, “sinfonia concertante” is “Symphonia Concerto”, “concert symphony For “,” a transliteration of “concert symphony” is obtained (step C3). Then, it is checked whether each constituent element of the first language headword completely matches the content word with any one of the translated word candidates of the corresponding constituent elements of the second language translation (step C4). Here, the description will be made assuming that they match completely. The case where they do not match (step C5 to step C7) is as described in the second embodiment. If they match, it is checked whether the word source is other than English (step C8). Then, since the information that both “concerto grosso” and “sinfonia concertante” targeted here are Italian word sources is obtained in step C1, the process proceeds to step C10. On the other hand, since “concert symphony” is an English word source, the process proceeds to step C9, where it is determined that the bilingual reversibility is suitable, and the process ends.

一方、本例のように英語以外の語源の語である場合、第一言語の見出し語がステップC4で付与された音訳であるかどうかを見る(ステップC10)。すると”concerto grosso:コンチェルト・グロッソ”は音訳、”sinfonia concertante:協奏交響曲”は音訳でないことがわかる。そこで前者は、ステップC11で対訳可逆性適性があると判定して終了する。後者は、ステップC12で対訳可逆性適性がないと判定して終了する。   On the other hand, if it is a word of a word source other than English as in this example, it is checked whether or not the headword in the first language is a transliteration given in step C4 (step C10). Then “concerto grosso” is not transliteration, and “sinfonia concertante” is not transliteration. Therefore, the former determines that there is parallel reversibility suitability in step C11 and ends. The latter is terminated when it is determined in step C12 that there is no parallel reversibility suitability.

ここで外来語の補足説明を行う。例えば、英語の世界でいえば、その言語のなかにふんだんに採り入れられている語として、フランス語、スペイン語、ラテン語、イタリア語がある。そこで、そういった語も英日辞書の見出し語になりうる。しかし、この対を日英辞書に変換した場合、通常の語が外来語に置き換えられてしまうことになる。この実施例4はこのような対を排除すること、またはそのような対に注意を促すことを目指したものである。   Here, supplementary explanation of foreign words is given. For example, in the English world, French, Spanish, Latin, and Italian are the words that have been adopted in the language. Therefore, such a word can also be a headword in an English-Japanese dictionary. However, when this pair is converted into a Japanese-English dictionary, ordinary words are replaced with foreign words. This Example 4 aims to eliminate such pairs or to call attention to such pairs.

実施例5では、統語的特徴に着目して判定を行う。ここでは、統語的特徴として、品詞の曖昧性を精査する。品詞の曖昧性とは、第二言語の訳語が複数の品詞列の可能性をもつときに生じる。実施例5では表1のうち、「複合羽根:composite blade」と「カバー・コスト:cover cost」を入力とし、図7のフローチャートに沿って説明する。   In the fifth embodiment, the determination is performed by paying attention to syntactic features. Here, the ambiguity of parts of speech is examined as a syntactic feature. Part-of-speech ambiguity occurs when a second language translation has the possibility of multiple part-of-speech sequences. In Example 5, “composite blade” and “cover cost” in Table 1 are used as inputs, and the description will be made along the flowchart of FIG.

まず、見出し語、訳語をそれぞれ構成要素に分割し、品詞などの属性情報を得る(ステップD1)。このステップD1は、実施例1のS1と同一であるため、説明を省略する。次に、訳語を構成する構成要素の並びが複数の品詞列の可能性をもっているかを見る(ステップD2)。対象としている2つの対のうち、構文解析において、”cover cost”は3つの品詞列の可能性があることを見た。そこで、対訳可逆性適性がないと判定する(ステップD3)。一方、「複合羽根:composite blade」については一つの品詞系列のみであった。したがって、この対については、対訳可逆性適性があると判定する(ステップD4)。このように複数の品詞の並びの可能性があるものを対訳可逆性適性がないと判定する根拠は以下のとおりである。もし複数の品詞の並びの可能性がある対に対し、そのうちのひとつに限定した場合、それ以外の品詞列で解析すべき文が正しく解析できなくなるためである。具体的には、「cover cost:カバー・コスト」とcover(名詞)、cost(名詞)とひとつに絞ると、cover (動詞)、cost(名詞)とcover (名詞)、cost(動詞)であるべき文の解析に失敗するか誤った解釈を導く。例えば、”The Government is to cover costs of mad cow incinerations.”という文では、本来”The Government is to cover(動詞) costs(名詞) of mad cow incinerations.”となるべきだが、”The Government is to cover costs (名詞) of mad cow incinerations.”とされることになる。また、”The cover costs 15 to 20 pounds a year.”という文では、本来”The cover(名詞) costs(動詞)15 to 20 pounds a year.” となるべきだが、”The cover (名詞)costs(名詞) 15 to 20 pounds a year.”とされる。この場合、costsを名詞とすることにより、文中の主動詞が失われることになり、従って解析不能となる。   First, the headword and the translation are each divided into constituent elements to obtain attribute information such as part of speech (step D1). Since this step D1 is the same as S1 of Example 1, description is abbreviate | omitted. Next, it is checked whether the arrangement of the constituent elements constituting the translated word has a plurality of part of speech strings (step D2). Of the two target pairs, in parsing, we saw that “cover cost” could be three part-of-speech sequences. Therefore, it is determined that there is no parallel reversibility suitability (step D3). On the other hand, there was only one part-of-speech series for the “composite blade”. Therefore, it is determined that this pair has bilingual reversibility suitability (step D4). The basis for determining that there is a possibility of arranging a plurality of parts of speech as such that there is no parallel reversibility suitability is as follows. This is because if a pair of parts of speech that may be arranged is limited to one of them, a sentence to be analyzed with other part of speech strings cannot be analyzed correctly. Specifically, “cover cost”, cover (noun), and cost (noun) are limited to one: cover (verb), cost (noun), cover (noun), and cost (verb). Failure to parse the power sentence or lead to misinterpretation. For example, the sentence “The Government is to cover costs of mad cow incinerations.” Should be “The Government is to cover (verb) costs (noun) of mad cow incinerations.” costs (noun) of mad cow incinerations. ” The sentence “The cover costs 15 to 20 pounds a year.” Should be “The cover (noun) costs (verb) 15 to 20 pounds a year.” Noun) 15 to 20 pounds a year. ” In this case, by using costs as a noun, the main verb in the sentence will be lost, and therefore analysis becomes impossible.

なお、以上、「対訳可逆性適性がない」と判断した対は、第一言語から第二言語の関係を第二言語から第一言語の関係に変える際に注意を要する対としてユーザに提示するよう読み替えてよい。なぜなら、対訳可逆性適性は絶対的なものではなく、相対的なものであるからである。   In addition, as described above, a pair that is determined to have “no reversibility for parallel translation” is presented to the user as a pair that requires attention when changing the relationship from the first language to the second language. You may read as follows. This is because bilingual reversibility aptitude is not absolute but relative.

実施例6では、統語的特徴に着目して判定を行う。ここでは、統語的特徴として、構成要素の数を精査する。   In the sixth embodiment, the determination is performed by paying attention to syntactic features. Here, as a syntactic feature, we examine the number of components.

実施例6では表1の「複合羽根:composite blade」と新たに「税目:item of tax」を入力とし、図8のフローチャートに沿って説明する。まず、見出し語、訳語をそれぞれ構成要素に分割し、品詞などの属性情報を得る(ステップE1)。このステップE1は、「複合羽根:composite blade」については、実施例1のステップS1と同一であるため、説明を省略する。   In the sixth embodiment, “composite blade” in Table 1 and “item of tax” are newly input, and description will be made along the flowchart of FIG. First, a headword and a translation are each divided into constituent elements to obtain attribute information such as part of speech (step E1). This step E1 is the same as step S1 of the first embodiment with respect to “composite blade”, and thus the description thereof is omitted.

一方、名詞「税目」はそれ以上、分割できない構成要素でもあり、1つと数える。一方、”item of tax”は、”item”が名詞、”of”が前置詞、”tax”が名詞であり、3つの構成要素から構成されている。したがって、訳語を構成する構成要素の数と見出し語を構成する構成要素の数を比較すると(ステップE2)、訳語を構成する構成要素の数も、見出し語を構成する構成要素の数も同じ2である「複合羽根:composite blade」は、対訳可逆性適性があると判定する(ステップE3)。一方、訳語を構成する構成要素の数が3、見出し語を構成する構成要素の数が1であり、双方が異なる数の構成要素をもつ「税目:item of tax」は、対訳可逆性適性がないと判定する(ステップE4)。あるいは先述のように、第一言語から第二言語の関係を第二言語から第一言語の関係に変える際に注意を要する対としておく。   On the other hand, the noun “tax item” is a component that cannot be divided any more and is counted as one. On the other hand, “item of tax” is composed of three components, “item” being a noun, “of” being a preposition, and “tax” being a noun. Therefore, when the number of components constituting the translated word is compared with the number of components constituting the headword (step E2), the number of components constituting the translated word is the same as the number of components constituting the headword 2 It is determined that the “composite blade” is a bilingual reversible aptitude (step E3). On the other hand, “item of tax”, which has 3 components that constitute the translation word and 1 component that constitute the headword, both of which have different numbers of components, has the reversibility suitability for translation. It is determined that there is not (step E4). Alternatively, as described above, a pair that requires attention when changing the relationship from the first language to the second language is changed from the second language to the first language.

「税目:item of tax」のようにお互いの構成要素の数が異なれば、見出し語が生起する環境と第二言語における訳語が生起する環境が違うといえる。例えば、「税目:item of tax」を対訳可逆性適性があると判定した場合、どのような弊害があるかを示しておく。   If the number of components is different, such as “item of tax”, it can be said that the environment in which the headword occurs and the environment in which the translation in the second language occurs are different. For example, if it is determined that “item of tax” has a bilingual reversibility aptitude, what kind of adverse effects are indicated.

具体例として下記の(a1)のような文を考える。   As a specific example, consider the following sentence (a1).

(a1)The only item of tax preference is the $50,000 difference between the total.
この場合、”item of tax”を名詞として登録することにより、下記(b1)に示すように”The only item of tax preference”という名詞句を強制的に、”The only(形容詞) |item of tax(名詞)| preference (名詞)”と区切ってしまうことになる。
(A1) The only item of tax preference is the $ 50,000 difference between the total.
In this case, by registering “item of tax” as a noun, the noun phrase “The only item of tax preference” is forced to “The only (adjective) | item of tax” as shown in (b1) below. (Noun) | preference (noun) ”.

(b1)The only(形容詞) [item of tax](名詞) preference(名詞) is the $50,000 difference between the total.
これは、”cover cost”の例で見たように解析処理の失敗を招きはしないが、誤った解釈を導くことになる。taxがpreferenceを修飾しているという解釈が得られなくなるためである。
(B1) The only (adjective) [item of tax] (noun) preference (noun) is the $ 50,000 difference between the total.
This does not cause failure of the analysis processing as seen in the “cover cost” example, but leads to misinterpretation. This is because the interpretation that tax modifies preference cannot be obtained.

実際は、下記(C1)に示すように、名詞句である”tax preference”(税の優遇)がofの目的語となっており、この場合、”of”の前後で、分かれることになる。   Actually, as shown in the following (C1), the noun phrase “tax preference” is the object of “of”, and in this case, it is divided before and after “of”.

(c1)[ [The [ [only(形容詞)] [item (名詞)]]] [of](前置詞)[[tax(名詞)] [preference(名詞)]]] is the $50,000 difference between the total.
前置詞は、複数の語からなる名詞句同士をつなぐ役割をするため、直後の名詞1語(ここではitem)を取り出して見出し語として、英日辞書に登録すると、前述の(a1)の文の主部は、例えば機械翻訳した際に、”onlyの訳語+税目+preferenceの訳語”が出力されることになり、悪影響があることがわかる。しかも、item of taxが「税目」と置き換えられることで、ここに元は前置詞があったという情報が失われる。
(C1) [[The [[only (adjective)]] [item (noun)]]] [of] (preposition) [[tax (noun)] [preference (noun)]]] is the $ 50,000 difference between the total.
Since the preposition serves to connect noun phrases consisting of a plurality of words, when the immediately following noun word (item here) is taken out and registered as an entry word in the English-Japanese dictionary, the sentence (a1) For example, when machine translation is performed, the main part outputs “only translation + tax item + preference translation”, which shows that there is an adverse effect. Moreover, by replacing item of tax with “tax item”, information that the preposition was originally there is lost.

実施例7では、統語的特徴に着目して判定を行う。ここでは、統語的特徴として、共起情報を精査する。   In the seventh embodiment, the determination is performed by paying attention to syntactic features. Here, co-occurrence information is scrutinized as a syntactic feature.

実施例7では表1の「複合羽根:composite blade」と「中毒量:toxic dose」を入力とし、図9のフローチャートに沿って説明する。まず、見出し語、訳語をそれぞれ構成要素に分割し、共起情報を含む品詞などの属性情報を得る(ステップF1)。このステップF1は実施例1のステップS1と同一であるため、説明を省略するが、実施例7でキーとなる点を再掲しておく。   In the seventh embodiment, “composite blade” and “toxic dose” in Table 1 are used as inputs, and description will be made along the flowchart of FIG. First, the headword and the translation are each divided into constituent elements, and attribute information such as part of speech including co-occurrence information is obtained (step F1). Since this step F1 is the same as step S1 of the first embodiment, a description thereof will be omitted, but the key points in the seventh embodiment will be described again.

すなわち、第二言語共起辞書5kには、形容詞”toxic”の属性として、”highly, lethally, mildly, normally, severely, systemically”といった副詞が前置しやすいという情報が含まれているものとする。これとは対照的に、先の”composite blade”の”composite”も品詞としては形容詞であるが、”toxic”と異なり、副詞が前置しやすいという属性はもっていない。なお、訳語である、「複合羽根」を構成する「複合」「羽根」と「中毒量」を構成する「中毒」「量」は共起情報がない。いずれも名詞であるため、形容詞や名詞は前置できるが、副詞は前置しない。   That is, the second language co-occurrence dictionary 5k includes information that an adverb such as “highly, lethally, mildly, normally, severely, systemically” is easily prefixed as an attribute of the adjective “toxic”. . In contrast, the “composite” of the previous “composite blade” is also an adjective as a part of speech, but unlike “toxic”, it does not have the attribute that the adverb is easy to prefix. It should be noted that the translations “composite” and “blade” constituting “composite blade” and “addiction” and “amount” constituting “addiction amount” do not have co-occurrence information. Since both are nouns, adjectives and nouns can be prefixed, but adverbs are not.

次に、見出し語を構成する構成要素の共起関係が、訳語を構成する構成要素の共起関係と類似しているか否かを見る(ステップF2)。まず、「複合羽根:composite blade」において、「複合羽根」は「名詞+名詞」より、”composite blade”は「形容詞+名詞」より構成されていた。ここで日本語の品詞列と英語の品詞列は異なっている。しかし、”composite”という形容詞は、副詞により修飾されることは少なく、むしろ形容詞が来ることが多いという共起情報をもっている。したがって、「複合羽根」も、”composite blade”も直前に生起しうる修飾語の品詞は形容詞である点では共通している。一方、「中毒量:toxic dose」も同様に、第一言語である見出し語は「名詞+名詞」より、第二言語である訳語は「形容詞+名詞」より構成されていた。しかし、日本語の方は、形容詞や形容動詞など体言を修飾する品詞の語が前置するのに対し、英語の方は用言を修飾する品詞の語が前置するという違いがある。したがって、見出し語を構成する構成要素の共起関係が、訳語を構成する構成要素の共起関係と類似している「複合羽根:composite blade」は、対訳可逆性適性があると判定する(ステップF3)。一方、見出し語を構成する構成要素の共起関係が、訳語を構成する共起関係と類似していない「中毒量:toxic dose」は、対訳可逆性適性がないと判定する(ステップF4)。   Next, it is checked whether or not the co-occurrence relationship of the constituent elements constituting the headword is similar to the co-occurrence relation of the constituent elements constituting the translated word (step F2). First, in “composite blade”, “composite blade” is composed of “noun + noun”, and “composite blade” is composed of “adjective + noun”. Here, the part-of-speech string in Japanese and the part-of-speech string in English are different. However, the adjective “composite” has co-occurrence information that it is rarely modified by an adverb and rather often comes with an adjective. Therefore, both the “composite blade” and the “composite blade” are common in that the part of speech of the modifier that can occur immediately before is an adjective. On the other hand, in the case of “toxic dose”, the headword as the first language is composed of “nouns + nouns” and the translation as the second language is composed of “adjectives + nouns”. However, the Japanese language is preceded by part-of-speech words that modify the body language, such as adjectives and adjective verbs, whereas the English language is preceded by part-of-speech words that modify the word. Accordingly, it is determined that a “composite blade” in which the co-occurrence relationship of the constituent elements constituting the headword is similar to the co-occurrence relation of the constituent elements constituting the translated word has a bilingual reversibility suitability (step F3). On the other hand, it is determined that the “toxic dose” in which the co-occurrence relationship of the constituent elements constituting the headword is not similar to the co-occurrence relation constituting the translated word is not suitable for reversibility (step F4).

このような判定を下す背景は以下のとおりである。仮に、英日辞書に「toxic dose:中毒量」を対訳可逆性適性があるとする。そして、この対を登録した英日辞書を機械翻訳に使用して、下記の(a2)のような英文を翻訳したとする。   The background for making such a determination is as follows. Suppose that the English-Japanese dictionary has a “toxic dose” that is reversible. Then, it is assumed that an English sentence such as the following (a2) is translated using the English-Japanese dictionary in which this pair is registered for machine translation.

(a2)It is generally accepted as a not highly toxic dose.
そうすると、下記の(b2)に示すように該当文の”toxic dose”の部分が辞書引きされ、この部分が名詞(句)と判定される一方で、直前のhighlyは副詞と判定される。
(A2) It is generally accepted as a not highly toxic dose.
Then, as shown in (b2) below, the “toxic dose” portion of the corresponding sentence is looked up as a dictionary, and this portion is determined as a noun (phrase), while the immediately preceding highly is determined as an adverb.

(b2)It is generally accepted as a not [highly(副詞)] [toxic dose(名詞)] .
副詞は名詞を修飾しないため、接続しなくなり、解析処理は失敗する。これはむしろ、下記(c2)のように解析されるべきであるからである。
(B2) It is generally accepted as a not [highly (adverb)] [toxic dose (noun)].
Adverbs do not modify nouns, so they are not connected and the parsing process fails. This is rather because it should be analyzed as in (c2) below.

(c2)It is generally accepted as a not [ [[highly(副詞)] [toxic (形容詞)]] [dose(名詞)]] .
このような解析誤りの危険をなくすため、ここでいうステップF2の判定を行っている。なお、F3では共起情報を用いるようにしているが、語によっては共起情報がなくとも細分化された品詞情報によっても判定可能である。注目している表現の中に語形変化する語があるときである。例えば「高周波音:high-frequency sound」という対があったとする。ここで、第一言語の見出しに対する第二言語の訳語には、程度を示すために比較変化する”high”という形容詞が含まれている。参考までにGoogleでは、”high-frequency sound(s)”自体の頻度は非常に高く、highを比較級に変化させた”higher-frequency sound(s)”の頻度もかなり高く、最上級の”highest-frequency sound(s)”もそれなりに高い頻度を保っている。ところが、”high-frequency sound”を一塊として「高周波音」とすると、”high-frequency sound”と”higher-frequency sound”や”higher-frequency sound”との関連性は失われる。また、”high”のように比較変化をする語であるということは、extremely, very, relativelyなどの程度副詞が前置しうるということを意味する。したがって、共起情報がなくとも、表現によってはこのように注意を要する対を洗い出すことができる。あるいは、タグ付きコーパスを用いて、前にどの品詞の単語が来ているかなどを参照して、注意を要する対を洗い出すことも可能であろう。
(C2) It is generally accepted as a not [[[highly (adverb)] [toxic (adjective)]] [dose (noun)]].
In order to eliminate the risk of such an analysis error, the determination in step F2 here is performed. In F3, co-occurrence information is used, but depending on the word, determination can be made by subdivided part-of-speech information without co-occurrence information. This is when there is a word whose word form changes in the expression of interest. For example, suppose there is a pair of “high-frequency sound”. Here, the second language translation for the first language heading includes the adjective “high” that changes in comparison to indicate the degree. For reference, at Google, the frequency of “high-frequency sound (s)” itself is very high, and the frequency of “higher-frequency sound (s)”, in which high is changed to a comparative class, is also quite high. “highest-frequency sound (s)” also maintains a high frequency. However, if “high-frequency sound” is collectively used as “high-frequency sound”, the relationship between “high-frequency sound” and “higher-frequency sound” or “higher-frequency sound” is lost. In addition, being a word that undergoes comparative change such as “high” means that adverbs such as extremely, very, and relatively can be prefixed. Therefore, even if there is no co-occurrence information, it is possible to identify pairs that require attention in this way depending on the expression. Alternatively, a tagged corpus may be used to identify pairs of words that require attention by referring to which part of speech has come before.

これまでの実施例2〜実施例7では、対訳可逆性適性判断システムの判定基準を中心に説明を行ってきた。本システムの具体的な提示方法としては少なくとも2つのものが考えられる。まず一つが機械翻訳における辞書データフィルタリング機能である。対訳リストを入力として、上記で述べたいずれかまたはすべての判定基準に基づき得られた対訳可逆性適性によって、入力の対訳リストをふるい分けする。   In Examples 2 to 7 so far, the description has been made mainly on the determination criteria of the bilingual reversibility aptitude determination system. There are at least two specific presentation methods for this system. One is the dictionary data filtering function in machine translation. Using the bilingual list as an input, the bilingual list of the input is screened based on the bilingual reversibility suitability obtained based on any or all of the criteria described above.

例えば、図10のような画面で提示することが考えられる。図10では対訳可逆性適性がないとされた対に対して、その理由も表示している。これにより、ユーザは対訳可逆性適性がない対に専念してチェックと必要な調整を行うことができる。また、理由も明記されているため、どのような観点に注意して調整を行うべきかを知ることができる。必要な調整を行えば、「対訳可逆性適性あり」の欄へ移動することも可能である。さらに、調整作業の一助として「対訳可逆性適性なし」のリストの中の訳語が第二言語のコーパスの中で実際にどのように用いられているか、実例とともにKWIC表示することも考えられる。   For example, it may be presented on a screen as shown in FIG. In FIG. 10, the reason is also displayed for the pair which is determined not to have parallel reversibility suitability. As a result, the user can concentrate on the pair having no parallel reversibility suitability and perform the check and necessary adjustment. Moreover, since the reason is also specified, it is possible to know what kind of viewpoint should be adjusted. If necessary adjustments are made, it is possible to move to the column “Possibility of translation reversibility”. In addition, as an aid to the adjustment work, it may be possible to display KWIC with actual examples of how the translated words in the list of “no reversibility for parallel translation” are actually used in the corpus of the second language.

第二の提示方法として、機械翻訳における辞書登録機能がある。これは、「対訳可逆性適性あり」とされた対についてはユーザのチェックをはさむことなく、自動的に第二言語から第一言語への辞書の辞書登録の対象とされるのに対し、「対訳可逆性適性なし」とされた対については、辞書登録には調整が必要なため、対話的に辞書登録を行うか、または辞書登録の対象から自動的に棄却するものである。このようにすることによって、確実な対のみが辞書登録されることになる。   As a second presentation method, there is a dictionary registration function in machine translation. This means that a pair that has been “reversible for bilingual translation” is automatically subject to dictionary registration from the second language to the first language without any user check, whereas “ For a pair that is “not compatible with bilingual reversibility”, the dictionary registration needs to be adjusted. Therefore, the dictionary registration is performed interactively or automatically rejected from the dictionary registration target. By doing so, only certain pairs are registered in the dictionary.

対話的な辞書登録は例えば、図11のような画面を示すことによって可能である。ここでは、見出し語と訳語の調整の指針となる情報が推奨訳語/推奨見出し語とともに示されている。ここで、ユーザは「対訳可逆性適性なし」とされた対について見出し語/訳語を調整することができる。また、言語方向を逆にした際に起こる現象として、複数訳語がある。第一訳語の見出し語1Aに対する第二訳語の訳語1B、第一言語の見出し語2Aに対する第二訳語の訳語2Bがあり、1B=2Bである場合、第二訳語から第一訳語の辞書では、1B(=2B)を見出しとした第二言語から第一言語への辞書は1Aと2Aという二つの訳語を持つことになる。本辞書登録システムでは「対訳可逆性適性あり」とされた対についてそのようなマージも行う。マージの際は、第二言語における出現頻度が高いものを自動的に第一訳語にすることも可能であるし、図12のような画面を通してユーザに何番目の訳語候補にするかを決めさせることも可能である。また、第一訳語の見出し語に対する第二訳語の訳語が複数ある場合は、すなわち、第一訳語の見出し語1Aに対する第二訳語の訳語1B、第一言語の見出し語2Aに対する第二訳語の訳語2Bがあり、1A=2Aである場合、新たに見出し語となる1Bと2Bが相互に関連づけられるようにしてもよい。   Interactive dictionary registration is possible, for example, by displaying a screen as shown in FIG. Here, information serving as a guideline for adjusting the headword and the translation is shown together with the recommended translation / recommended headword. Here, the user can adjust the headword / translation word for the pair that is “no parallel reversibility suitability”. In addition, there are multiple translations as a phenomenon that occurs when the language direction is reversed. When there is a translation 1B of the second translation for the entry 1A of the first translation and a translation 2B of the second translation for the entry 2A of the first language, and 1B = 2B, in the dictionary of the first translation from the second translation, The dictionary from the second language to the first language with the heading 1B (= 2B) has two translated words 1A and 2A. In this dictionary registration system, such merging is also performed for a pair that is deemed to have “translational reversibility suitability”. At the time of merging, it is possible to automatically make the first translated word that has a high appearance frequency in the second language, and to let the user decide what number of translated word candidates through the screen as shown in FIG. It is also possible. Further, when there are a plurality of translations of the second translation with respect to the first translation, the translation of the second translation 1B with respect to the first translation 1A and the translation of the second translation with respect to the first translation 2A. If there is 2B and 1A = 2A, new headwords 1B and 2B may be associated with each other.

なお以上のシステムは次のように種々変更して実現することも可能である。   The above system can be realized by various modifications as follows.

上記システムでは、対訳可逆性適性の判断基準として意味的対応、第二言語における出現頻度、統語的特徴の制約の3つの観点を紹介したが、このうちひとつ、一部または、すべてを行うようにしてもよいし、また、その適用順序も問わない。   In the above system, three aspects of semantic correspondence, appearance frequency in the second language, and restrictions on syntactic features were introduced as criteria for determining the reversibility of bilingual translation. One, some or all of them should be performed. In addition, the application order is not limited.

さらに、統語的特徴の制約の判定では、条件を満足しないものは、一律に「対訳可逆性適性なし」としたが、条件付きで「対訳可逆性適性あり」とすることも考えられる。例えば、先の”税目:item of tax”や”中毒量:toxic dose”の対であるが、文によっては、この訳語を用いることが望ましいことがある。端的に言えば、これらが構成要素となっているケースがこれに当てはまる。前者の例では”of”の目的語の名詞のheadがtaxであれば問題は生じないであろうし、後者の例では副詞が前置していなければ、特に問題はないと考えられる。したがって、それぞれ適用を阻むべき条件を明記できるような機構を辞書が兼ね備えている場合は、要注意項目とし、第二言語から第一言語の辞書に登録することも可能であると考えられる。さらに、機械で使用する辞書でなく、かつ、ユーザが新しい辞書の第一言語に相当する言語の言語知識を有しており、注目している文の一部の文字列が、新規にできた辞書の見出し語と一致しても、その特定の文に適用すべきでないときはそのように峻別できる能力があれば、辞書登録対象としておいても支障はないことになる。   Furthermore, in the determination of the syntactic feature constraint, those that do not satisfy the condition are uniformly “no bilingual reversibility aptitude”, but may be considered “with bilingual reversibility aptitude” under certain conditions. For example, it is a pair of “item of tax” or “toxic dose”, but it may be desirable to use this translation depending on the sentence. In short, this is the case when these are constituent elements. In the former example, if the head of the noun of the object of “of” is tax, there will be no problem. In the latter example, if the adverb is not prefixed, there is no particular problem. Therefore, if the dictionary also has a mechanism that can clearly specify the conditions that should be prevented from being applied, it can be considered as a cautionary item and registered from the second language to the first language dictionary. Furthermore, it is not a dictionary used on the machine, and the user has language knowledge of a language corresponding to the first language of the new dictionary, and a part of the character string of the sentence of interest has been newly created. Even if it matches a dictionary headword, if it should not be applied to that particular sentence, it can be used as a dictionary registration target as long as it has the ability to distinguish it as such.

また、上記プログラムは訳文として作成元の対訳辞書に機械翻訳などに自然言語処理に使用する辞書を用いているが、人手で作成した対訳リストを電子化したものを使ってもよい。上記は日英辞書から英日辞書への作成を中心的な例として説明してきたが、英日辞書から日英辞書を作成する場合にも応用することができる。   Moreover, although the said program uses the dictionary used for natural language processing for machine translation etc. for the translation dictionary of the preparation origin as a translation, you may use what digitized the translation list created manually. Although the above description has been made centering on the creation of a Japanese-English dictionary to an English-Japanese dictionary, it can also be applied to the case of creating a Japanese-English dictionary from an English-Japanese dictionary.

11…対訳可逆性適性判断システム、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…制御部、27…可逆性適性判断手段、28…翻訳部、29…対訳データ格納部、30…翻訳辞書部、31…第二言語文書データベース DESCRIPTION OF SYMBOLS 11 ... Parallel reversibility aptitude judgment system, 12 ... Arithmetic control device, 13 ... Processor, 14 ... Memory, 15 ... Program, 16 ... Work area, 17 ... Output device, 18 ... Display device, 19 ... Communication control device, 20 ... Input device, 21 ... mouse, 22 ... keyboard, 23 ... disk drive, 24 ... hard disk drive, 25 ... storage device, 26 ... control unit, 27 ... reversibility aptitude determination means, 28 ... translation unit, 29 ... bilingual data storage unit 30 ... Translation dictionary part 31 ... Second language document database

Claims (12)

第一言語を第二言語に翻訳するための翻訳知識および第二言語を第一言語に翻訳するための翻訳知識を記憶した翻訳辞書部と、第一言語と第二言語との異なる言語間の対訳用語の可逆性の適性を判断する可逆性適性判断手段とを有し、前記可逆性適性判断手段は、第一言語の表現とそれに対応する第二言語の表現の対に対して、上記2種類の翻訳知識を利用して、後者の第二言語の表現から前者の第一言語の表現を導き、対応づけることが適切かの可否の判断を行うことを特徴とする対訳可逆性適性判断システム。   A translation dictionary that stores translation knowledge for translating the first language into the second language and translation knowledge for translating the second language into the first language, and between the different languages of the first language and the second language Reversibility aptitude determination means for determining the reversibility aptitude of bilingual terms. The reversibility aptitude determination means for the pair of the first language expression and the corresponding second language expression. A bilingual reversibility aptitude determination system characterized in that it is possible to determine whether or not it is appropriate to derive and associate the former first language expression from the latter second language expression using various types of translation knowledge. . 請求項1に記載の対訳可逆性適性判断システムと、第一言語から第二言語の対訳データを可逆性によってふるい分ける翻訳辞書部に登録する辞書登録手段とを有することを特徴とする機械翻訳システム。   A machine translation system comprising: the bilingual reversibility aptitude determination system according to claim 1; and a dictionary registration unit that registers bilingual data from the first language into the translation dictionary unit that screens the bilingual data by reversibility. . 請求項1に記載の対訳可逆性適性判断システムと、第一言語から第二言語の対訳データのうち可逆性適性をもたないと判断されたデータ対を第二言語から第一言語への翻訳辞書の辞書登録の対象から棄却する辞書登録手段とを有することを特徴とする機械翻訳システム。   The bilingual reversibility aptitude determination system according to claim 1 and a translation of a data pair that is determined not to have reversibility aptitude from bilingual data in the first language to the second language from the second language to the first language A machine translation system comprising dictionary registration means for rejecting a dictionary from a dictionary registration target. 前記可逆性適性判断手段は、第一言語を第二言語に翻訳するための翻訳辞書における、ある見出しに対する訳語を、第二言語を第一言語に翻訳するための翻訳辞書により辞書引きして得られる訳語候補と前記見出し語との照合において、前記見出しが訳語候補と適合しない場合、すなわち、訳語候補の中に含まれない場合、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The reversibility aptitude judgment means obtains a translation word for a certain heading in a translation dictionary for translating a first language into a second language, using a translation dictionary for translating the second language into the first language. In the collation between the translated word candidate and the headword, if the headline does not match the translated word candidate, that is, if it is not included in the translated word candidate, it is determined that it has no reversibility aptitude. Item 2. The system for determining reversibility of parallel translation according to Item 1. 前記可逆性適性判断手段は、上記照合において、辞書引きして得られる訳語候補が第一言語の見出し語と派生関係にある場合、および/または辞書引きして得られる訳語候補が第一言語の見出し語を活用させた語である場合、また、辞書引きして得られる訳語候補を活用させた形が第一訳語の見出し語と一致する場合、可逆性適性をもつと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   In the collation, the reversibility aptitude determination means determines that the translation candidate obtained by dictionary lookup is derived from the first language entry word and / or the translation candidate obtained by dictionary lookup is the first language. If it is a word that makes use of an entry word, and if the form that makes use of a translation candidate obtained by dictionary lookup matches the entry word of the first translation word, it is determined that it has reversibility aptitude. The bilingual reversibility aptitude determination system according to claim 1. 前記可逆性適性判断手段は、辞書引きして得られる訳語候補と第一言語の見出し語との照合において、優先度の低い訳語候補と適合した場合、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The reversibility aptitude determination means determines that the reversibility aptitude does not have reversibility aptitude when matching with a translation candidate having a low priority in matching of a translation word candidate obtained by dictionary lookup with a first language headword The bilingual reversibility aptitude determination system according to claim 1. 前記可逆性適性判断手段は、辞書引きして得られる訳語候補と第一言語の見出し語との照合において、第二言語の訳語を第二言語から第一言語へ機械翻訳した翻訳結果の頻度と第一言語の見出し語の頻度を比較し、前者の頻度が高い場合、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The reversible aptitude determination means includes a frequency of a translation result obtained by machine-translating a translated word of the second language from the second language to the first language in the collation between the translated word candidate obtained by the dictionary lookup and the head word of the first language. The bilingual reversibility aptitude determination system according to claim 1, wherein the frequency of headwords in the first language is compared, and if the former frequency is high, it is determined that there is no reversibility aptitude. 前記可逆性適性判断手段は、第二言語のコーパス内において、注目している第一言語見出し語の第二言語訳語の出現頻度が低い場合に、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The reversibility aptitude determination means determines that the reversibility aptitude does not have reversibility aptitude when the appearance frequency of the second language translation of the first language headword of interest is low in the corpus of the second language. The bilingual reversibility aptitude determination system according to claim 1, wherein 前記可逆性適性判断手段は、第一言語の(翻訳)辞書より、第一言語の見出し語が第一言語にとっての外来語と分類されており、かつ第二言語の訳語がその第一言語の見出し語の音訳ではない場合、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The reversibility aptitude judging means classifies a first language entry word as a foreign language for the first language from a first language (translation) dictionary, and a second language translation word of the first language. The bilingual reversibility aptitude determination system according to claim 1, wherein when the headword is not transliteration, the bilingual reversibility aptitude determination system determines that it does not have reversibility aptitude. 前記可逆性適性判断手段は、注目している第一言語見出し語とそれに対応する第二言語訳語を、前者については第一言語を第二言語に翻訳するための翻訳辞書を用いて、後者については、第二言語を第一言語に翻訳するための翻訳辞書を用いて、構文解析を行い、その結果得られる構成要素(constituent)の数が異なる場合に、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The reversibility aptitude determination means uses the first language headword of interest and the second language translation corresponding thereto, the former using a translation dictionary for translating the first language into the second language, and the latter Performs syntax analysis using a translation dictionary for translating the second language into the first language, and determines that there is no reversible aptitude when the number of resulting constituents is different The bilingual reversibility aptitude determination system according to claim 1. 前記可逆性適性判断手段は、品詞の対応表を有し、注目している第一言語見出し語とそれに対応する第二言語訳語を、前者については第一言語を第二言語に翻訳するための翻訳辞書を用いて、後者については、第二言語を第一言語に翻訳するための翻訳辞書を用いて、構文解析を行い、その結果得られる品詞の種類とその並び方が異なる場合に、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The reversible aptitude determination means has a part-of-speech correspondence table for translating a focused first language headword and a corresponding second language translation, and the former for translating the first language into the second language. Using the translation dictionary, the latter is reversible when the parsing is performed using the translation dictionary for translating the second language into the first language, and the resulting part-of-speech type and arrangement are different. The bilingual reversibility aptitude determination system according to claim 1, wherein the bilingual reversibility aptitude determination system is determined to have no aptitude. 前記翻訳辞書はある語が共に生起しやすい語に関する情報である共起情報を少なくとも有し、前記可逆性適性判断手段は、注目している第一言語見出し語とそれに対応する第二言語訳語を、前者については第一言語の共起情報を用いて、後者については第二言語の共起情報を用いて、第一言語見出し語とそれに対応する第二言語訳語の共起環境が異なる場合に、可逆性適性をもたないと判定することを特徴とする請求項1に記載の対訳可逆性適性判断システム。   The translation dictionary has at least co-occurrence information that is information related to words that are likely to occur together, and the reversibility aptitude determination means includes a first language headword of interest and a second language translation corresponding thereto. The first language co-occurrence information is used for the former, and the second language co-occurrence information is used for the latter. The bilingual reversibility aptitude determination system according to claim 1, wherein it is determined that the reversibility aptitude is not possessed.
JP2009011885A 2009-01-22 2009-01-22 System for determining aptitude for reversibility in parallel translation, and machine translation system Pending JP2010170306A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009011885A JP2010170306A (en) 2009-01-22 2009-01-22 System for determining aptitude for reversibility in parallel translation, and machine translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009011885A JP2010170306A (en) 2009-01-22 2009-01-22 System for determining aptitude for reversibility in parallel translation, and machine translation system

Publications (1)

Publication Number Publication Date
JP2010170306A true JP2010170306A (en) 2010-08-05

Family

ID=42702405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009011885A Pending JP2010170306A (en) 2009-01-22 2009-01-22 System for determining aptitude for reversibility in parallel translation, and machine translation system

Country Status (1)

Country Link
JP (1) JP2010170306A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7167996B2 (en) 2018-10-16 2022-11-09 株式会社島津製作所 Case search method
WO2024085596A1 (en) * 2022-10-17 2024-04-25 카페24 주식회사 Multilingual translation method, apparatus, and system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231226A (en) * 1996-02-26 1997-09-05 Nec Corp Maintenance device for dictionary for machine translation
JP2007234024A (en) * 2006-02-28 2007-09-13 Toshiba Corp Method and apparatus for bilingual word alignment, method and apparatus for training bilingual word alignment model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231226A (en) * 1996-02-26 1997-09-05 Nec Corp Maintenance device for dictionary for machine translation
JP2007234024A (en) * 2006-02-28 2007-09-13 Toshiba Corp Method and apparatus for bilingual word alignment, method and apparatus for training bilingual word alignment model

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7167996B2 (en) 2018-10-16 2022-11-09 株式会社島津製作所 Case search method
WO2024085596A1 (en) * 2022-10-17 2024-04-25 카페24 주식회사 Multilingual translation method, apparatus, and system

Similar Documents

Publication Publication Date Title
US20030101044A1 (en) Word, expression, and sentence translation management tool
US20060247914A1 (en) System and method for automatic enrichment of documents
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
GB2417103A (en) Natural language translation system
JPH1011447A (en) Translation method and system based upon pattern
JPH083815B2 (en) Natural language co-occurrence relation dictionary maintenance method
Novák et al. Creation of an annotated corpus of Old and Middle Hungarian court records and private correspondence
Melby et al. Translation memory
Underwood et al. Translatability checker: A tool to help decide whether to use MT
JP2020190970A (en) Document processing device, method therefor, and program
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP2010170306A (en) System for determining aptitude for reversibility in parallel translation, and machine translation system
Athukorala et al. Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
JP2003323425A (en) Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program
Ogrodniczuk et al. Evaluating machine translation of Latin interjections in the digital library of polish and Poland-related news pamphlets
JP5185343B2 (en) Machine translation apparatus and machine translation program
Kupriianov et al. Design of the User's Interface of Virtual Lexicographic Laboratory for Explanatory Dictionary of the Spanish Language.
McGrane et al. Is science lost in translation? Language effects in the international baccalaureate diploma programme science assessments
WO2009144890A1 (en) Pre-translation rephrasing rule generating system
Kamali et al. Evaluating Persian Tokenizers
JP4016037B2 (en) Machine translation program, machine translation device
JP4198737B2 (en) Machine translation program, machine translation device
Winiwarter Incremental learning of transfer rules for customized machine translation
JPH05282361A (en) Data base production back-up device and mechanical translating device
JPH0561902A (en) Mechanical translation system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205