JP6017409B2 - Translation apparatus, method, and program - Google Patents

Translation apparatus, method, and program Download PDF

Info

Publication number
JP6017409B2
JP6017409B2 JP2013266047A JP2013266047A JP6017409B2 JP 6017409 B2 JP6017409 B2 JP 6017409B2 JP 2013266047 A JP2013266047 A JP 2013266047A JP 2013266047 A JP2013266047 A JP 2013266047A JP 6017409 B2 JP6017409 B2 JP 6017409B2
Authority
JP
Japan
Prior art keywords
language sentence
morpheme
source language
position information
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013266047A
Other languages
Japanese (ja)
Other versions
JP2015121993A (en
Inventor
仙 吉田
吉田  仙
孝文 引地
孝文 引地
太一 片山
太一 片山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013266047A priority Critical patent/JP6017409B2/en
Publication of JP2015121993A publication Critical patent/JP2015121993A/en
Application granted granted Critical
Publication of JP6017409B2 publication Critical patent/JP6017409B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、翻訳装置、方法、及びプログラムに関する。   The present invention relates to a translation apparatus, method, and program.

原言語で記述された原言語文を、目的言語で記述された目的言語文に翻訳した際、原言語文の一部が目的言語文のどの箇所に対応するか、また、目的言語文の一部が原言語文のどの箇所に対応するかを把握したい場合がある。例えば、原言語文の一部にアンダーラインなどの書式が設定されていた場合などには、目的言語文においても、原言語文において書式が設定された一部に対応する箇所を把握したい場合がある。また、目的言語への翻訳結果におかしな箇所を見つけた場合など、目的言語文でのおかしな箇所に対応する原言語文の箇所を把握したい場合がある。そのためには、原言語文の形態素と目的言語文の句との対応をとる必要がある。   When a source language sentence written in the source language is translated into a target language sentence written in the target language, which part of the target language sentence corresponds to a part of the source language sentence, There is a case where it is desired to grasp which part of the source language sentence the part corresponds to. For example, when a format such as an underline is set in a part of the source language sentence, there is a case where it is desired to grasp a portion corresponding to a part of the source language sentence that is formatted in the target language sentence. is there. In addition, there may be a case where it is desired to grasp the portion of the source language sentence corresponding to the strange portion in the target language sentence, such as when a strange portion is found in the result of translation into the target language. For that purpose, it is necessary to take correspondence between the morpheme of the source language sentence and the phrase of the target language sentence.

従来、原言語の形態素と目的言語の句とをマッチさせる手法として、世の中にあるコーパスから、単語のペアを取り出し、その形態素のペアの出現頻度等に基づいて、最もマッチする形態素のペアを句として探す手法が提案されている(例えば、非特許文献1参照)。   Conventionally, as a method of matching a morpheme in the source language with a phrase in the target language, a pair of words is extracted from a corpus in the world, and the pair of morphemes that match the most is based on the appearance frequency of the morpheme pair. Has been proposed (see Non-Patent Document 1, for example).

池野篤司、村田稔樹、下畑さより、山本秀樹、「インターネット自然言語資源を利用した機械翻訳」、沖電気研究開発、2000年4月、第182号、Vol.67、No.1、p.49−52Atsushi Ikeno, Yuki Murata, Sayoshi Shimonohata, Hideki Yamamoto, “Machine Translation Using Internet Natural Language Resources”, Oki Electric Research and Development, April 2000, No. 182, Vol. 67, no. 1, p. 49-52

しかし、上記非特許文献1に記載の手法は、原言語文の形態素と目的言語文の句との対応を示す統計情報を取得することが目的であり、原言語の文と、その翻訳文である目的言語の文との間における原言語文の形態素と目的言語文の句との対応を把握することはできない。   However, the method described in Non-Patent Document 1 is intended to obtain statistical information indicating the correspondence between morphemes of a source language sentence and phrases of a target language sentence. It is impossible to grasp the correspondence between the morpheme of the source language sentence and the phrase of the target language sentence between sentences of a certain target language.

また、最近の機械翻訳は、句に基づいた統計情報を用いて翻訳するため、原言語の句と、それに対応する目的言語の句のように、句単位のマッチは可能であるが、原言語の形態素と目的言語の句とをマッチさせることは困難である。   In addition, since recent machine translation is performed using statistical information based on phrases, it is possible to match phrase units like phrases in a source language and corresponding phrases in a target language. It is difficult to match the morpheme and phrase of the target language.

本発明は、上記の事情に鑑みてなされたもので、原言語文の形態素と、原言語文を翻訳した目的言語文の句との対応を把握することができる翻訳装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and provides a translation device, method, and program capable of grasping the correspondence between a morpheme of a source language sentence and a phrase of a target language sentence obtained by translating the source language sentence. The purpose is to provide.

上記目的を達成するために、本発明の翻訳装置は、原言語で記述された原言語文を入力とし、前記原言語文を翻訳して得られた目的言語文と、前記原言語文の各形態素の位置を示す位置情報と、の組を出力する翻訳装置であって、
前記原言語文を形態素解析すると共に、形態素解析により得られた各形態素の前記原言語文における位置を示す位置情報を、各形態素に付与する付与部と、
前記付与部により前記原言語文の各形態素に付与された位置情報を保持したまま、前記原言語文の形態素解析結果に対して、構文木を構成する各ノードに前記原言語文の形態素と共にその形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持するように構文木を作成することにより構文解析し、構文解析の結果に対して、目的言語の文法に従って予め定めたルールに基づく操作を行う解析部と、
前記解析部による操作結果を用いて、各形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持したまま、前記原言語文を前記目的言語文に句単位で翻訳、前記目的言語文の各句に属する目的言語文の形態素が複数あって、前記目的言語文の複数の形態素に対応する前記原言語文の形態素がそれぞれ存在する場合に、前記目的言語文の複数の形態素に対応する前記原言語文の形態素それぞれの位置情報が保持され、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報と、前記目的言語文と、の組を出力する翻訳部と、
を含んで構成することができる。
In order to achieve the above object, the translation device of the present invention has a source language sentence described in a source language as an input, a target language sentence obtained by translating the source language sentence, and each of the source language sentences A translation device that outputs a set of position information indicating the position of a morpheme,
A morpheme analysis of the source language sentence, and a grant unit that gives each morpheme position information indicating a position of each morpheme obtained by morpheme analysis in the source language sentence;
While maintaining the position information given to each morpheme of the source language sentence by the assigning unit, the morpheme analysis result of the source language sentence, along with the morpheme of the source language sentence, to each node constituting the syntax tree Rules that are parsed by creating a syntax tree so as to hold position information indicating the positions of the morphemes of the source language sentence assigned to the morphemes, and the results of the syntax analysis are predetermined rules according to the grammar of the target language An analysis unit for performing an operation based on
Using the operation result by the analysis unit, the source language sentence is translated into the target language sentence in phrase units while retaining position information indicating the position of the morpheme of the source language sentence given to each morpheme, When there are a plurality of morphemes of the target language sentence belonging to each phrase of the target language sentence, and there are morphemes of the source language sentence corresponding to a plurality of morphemes of the target language sentence, a plurality of morphemes of the target language sentence morpheme information on positions of the source language sentence corresponding is held, and outputs said morphemes location information of the source language sentence for each phrase of the target language sentence, said the target language sentence, a set of The translation department,
Can be configured.

本発明の翻訳装置によれば、付与部が、原言語で記述された原言語文を形態素解析する。その際、付与部は、形態素解析により得られた各形態素の原言語文における位置を示す位置情報を、各形態素に付与する。位置情報としては、原言語文の先頭からの文字位置を用いてもよいし、形態素単位の位置情報を用いてもよい。そして、翻訳部が、付与部による形態素解析結果を用いて、原言語文を、目的言語で記述された目的言語文に句単位で翻訳する。付与部の形態素解析結果である原言語文の各形態素は、原言語文における各形態素の位置を示す位置情報を保持している。この各形態素に付与された位置情報を保持したまま、前記原言語文を、目的言語で記述された目的言語文に句単位で翻訳することにより、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報が保持された目的言語文を作成するAccording to the translation apparatus of the present invention, the assigning unit performs morphological analysis on the source language sentence described in the source language. At that time, the assigning unit assigns each morpheme with position information indicating the position of each morpheme in the source language sentence obtained by the morpheme analysis. As the position information, a character position from the beginning of the source language sentence may be used, or position information in units of morphemes may be used. And a translation part translates a source language sentence into the target language sentence described in the target language per phrase using the morphological analysis result by a provision part. Each morpheme of the source language sentence, which is a morpheme analysis result of the assigning unit, holds position information indicating the position of each morpheme in the source language sentence. The source language sentence is translated into the target language sentence described in the target language in phrase units while retaining the position information given to each morpheme, so that the source language sentence corresponding to each phrase of the target language sentence is converted. A target language sentence in which position information of each morpheme of the language sentence is stored is created .

このように、原言語文の各形態素の位置情報を保持したまま句単位の翻訳を行うため、原言語文の形態素と、原言語文を翻訳した目的言語文の句との対応を把握することができる。   In this way, because the phrase unit translation is performed while maintaining the position information of each morpheme of the source language sentence, the correspondence between the source language sentence morpheme and the target language sentence phrase translated from the source language sentence is grasped. Can do.

また、前記解析部は、前記目的言語の文法に従って予め定めたルールに基づく操作として、形態素の追加、削除、及び並び替えの少なくとも1つの操作を行うことができる。   The analysis unit may perform at least one of addition, deletion, and rearrangement of morphemes as an operation based on a rule determined in advance according to the grammar of the target language.

また、前記翻訳部は、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報を昇順で並び替えた位置情報、または連続する複数の位置情報をまとめた位置情報を、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報とすることができる。これにより、翻訳結果である目的言語文に対する原言語文の対応箇所を参照する際に、対応箇所の把握が容易になる。
In addition, the translation unit may include position information obtained by rearranging position information of each morpheme in the source language sentence corresponding to each phrase of the target language sentence in ascending order, or position information in which a plurality of continuous position information is collected. The position information of each morpheme of the source language sentence corresponding to each phrase of the target language sentence can be used. Thereby, when referring to the corresponding part of the source language sentence with respect to the target language sentence which is the translation result, it becomes easy to grasp the corresponding part.

また、本発明の翻訳方法は、
付与部と、解析部と、翻訳部とを含み、原言語で記述された原言語文を入力とし、前記原言語文を翻訳して得られた目的言語文と、前記原言語文の各形態素の位置を示す位置情報のみの集合である文字位置情報と、の組を出力する翻訳装置における翻訳方法であって、
前記付与部が、前記原言語文を形態素解析すると共に、形態素解析により得られた各形態素の前記原言語文における位置を示す位置情報を、各形態素に付与するステップと、
前記解析部が、前記付与部により前記原言語文の各形態素に付与された位置情報を保持したまま、前記原言語文の形態素解析結果に対して、構文木を構成する各ノードに前記原言語文の形態素と共にその形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持するように構文木を作成することにより構文解析し、構文解析の結果に対して、目的言語の文法に従って予め定めたルールに基づく操作を行うステップと、
前記翻訳部が、前記解析部による操作結果を用いて、各形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持したまま、前記原言語文を前記目的言語文に句単位で翻訳、前記目的言語文の各句に属する目的言語文の形態素が複数あって、前記目的言語文の複数の形態素に対応する前記原言語文の形態素がそれぞれ存在する場合に、前記目的言語文の複数の形態素に対応する前記原言語文の形態素それぞれの位置情報が保持され、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報と、前記目的言語文と、の組を出力するステップと、
を含む方法である。
Moreover, the translation method of the present invention includes:
A target language sentence obtained by translating the source language sentence with the source language sentence described in the source language as an input, and each morpheme of the source language sentence; A translation method in a translation device that outputs a set of character position information that is a set of only position information indicating the position of
It said applying portion, and a step of imparting the well as morphological analysis source language sentence, the position information indicating the position in the source language sentence of morphemes obtained by the morphological analysis, the morphemes,
Wherein the analysis unit, while maintaining the positional information given to each morpheme of the source language sentence by the applying unit, with respect to the morphological analysis result of the source language sentence, the source language to each node constituting the syntax tree The syntax analysis is performed by creating a syntax tree so as to hold the position information indicating the position of the morpheme of the source language sentence attached to the morpheme together with the morpheme of the sentence , and the target language Performing an operation based on a predetermined rule according to:
Using the operation result by the analysis unit, the translation unit retains the position information indicating the position of the morpheme of the source language sentence assigned to each morpheme, and the source language sentence is stored in the target language sentence as a phrase unit. in translating, said a plurality morpheme in the target language sentence belonging to each clause of the target language sentence, if the morphemes of the original language sentence corresponding to a plurality of morphemes of the target language sentence is present respectively, the target language Position information of each morpheme of the source language sentence corresponding to a plurality of morphemes of the sentence is held , position information of each morpheme of the source language sentence corresponding to each phrase of the target language sentence, and the target language sentence; Outputting a set of
It is a method including.

また、本発明の翻訳プログラムは、コンピュータを、上記の翻訳装置の各部として機能させるためのプログラムである。   The translation program of the present invention is a program for causing a computer to function as each part of the translation apparatus.

以上説明したように、本発明の翻訳装置、方法、及びプログラムによれば、原言語文の各形態素の位置情報を保持したまま句単位の翻訳を行うため、原言語文の形態素と、原言語文を翻訳した目的言語文の句との対応を把握することができる、という効果が得られる。   As described above, according to the translation apparatus, method, and program of the present invention, translation is performed in phrase units while retaining position information of each morpheme in the source language sentence. The effect that the correspondence with the phrase of the target language sentence which translated the sentence can be grasped is obtained.

本実施の形態に係る翻訳装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the translation apparatus which concerns on this Embodiment. 本実施の形態における翻訳処理ルーチンを示すフローチャートである。It is a flowchart which shows the translation processing routine in this Embodiment. 付与部で作成される形態素リストの一例を示す図である。It is a figure which shows an example of the morpheme list produced by the provision part. 構文木の一例を示す図である。It is a figure which shows an example of a syntax tree. 解析部で作成される形態素リストの一例を示す図である。It is a figure which shows an example of the morpheme list produced in an analysis part. 句単位の翻訳結果の一例を示す図である。It is a figure which shows an example of the translation result of a phrase unit. 文字位置情報のソート及び整形後の翻訳結果の一例を示す図である。It is a figure which shows an example of the translation result after sorting and shaping of character position information.

以下、図面を参照して、本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<翻訳装置の構成>
図1は、本実施の形態に係る翻訳装置10を示すブロック図である。翻訳装置10には、原言語で記述された原言語文(テキストデータ)が入力される。翻訳装置10は、原言語文を目的言語で記述された目的言語文に翻訳すると共に、原言語文の形態素と目的言語文の句との対応を示す文字位置情報が付与された目的言語文(テキストデータ)を出力する。翻訳装置10は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成することができる。
<Configuration of translation device>
FIG. 1 is a block diagram showing translation apparatus 10 according to the present embodiment. The translation device 10 receives a source language sentence (text data) written in the source language. The translation device 10 translates the source language sentence into a target language sentence described in the target language, and also adds a target language sentence (character position information indicating the correspondence between the morpheme of the source language sentence and the phrase of the target language sentence). Text data). The translation apparatus 10 can be configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing a translation processing routine described later.

翻訳装置10を構成するコンピュータは、機能的には、図1に示すように、付与部12、解析部14、及び翻訳部16を含んだ構成で表すことができる。   As shown in FIG. 1, the computer constituting the translation apparatus 10 can be functionally represented by a configuration including a provision unit 12, an analysis unit 14, and a translation unit 16.

付与部12は、入力された原言語文を形態素解析することにより、形態素毎に分解し、各形態素にその形態素の品詞を示す品詞情報を付与する。また、付与部12は、形態素毎に、原言語文におけるその形態素の位置を示す文字位置情報を付与する。具体的には、原言語文の各文字の文字位置を先頭文字から順に0、1、2、・・・とし、各形態素の開始文字に対応する文字位置と終了文字に対応する文字位置とで表される文字位置情報を、各形態素に付与する。付与部12は、原言語文に含まれる各形態素に、品詞情報及び文字位置情報を付与した形態素リストを作成し、解析部14へ受け渡す。   The assigning unit 12 decomposes each morpheme by performing morphological analysis on the input source language sentence, and gives part of speech information indicating the part of speech of the morpheme to each morpheme. Moreover, the provision part 12 provides the character position information which shows the position of the morpheme in a source language sentence for every morpheme. Specifically, the character position of each character in the source language sentence is set to 0, 1, 2,... In order from the first character, and the character position corresponding to the start character and the character position corresponding to the end character of each morpheme The represented character position information is assigned to each morpheme. The assigning unit 12 creates a morpheme list in which part-of-speech information and character position information are added to each morpheme included in the source language sentence, and passes it to the analysis unit 14.

解析部14は、付与部12から受け渡された形態素リストを用いて、各形態素に付与された文字位置情報を保持したまま、原言語文を構文解析し、構文木を作成する。   The analysis unit 14 parses the source language sentence using the morpheme list delivered from the assigning unit 12 while maintaining the character position information assigned to each morpheme, and creates a syntax tree.

また、解析部14は、作成した構文木の情報を利用して、目的言語の文法に応じて予め定めたルールに従った構文操作を行う。例えば、目的言語が日本語の場合には、冠詞を削除、係り受け関係にある係り元の形態素が前、係り先の形態素が後になるように並び替え、主語や目的語に対して、格助詞に相当する仮想語を挿入など、様々なルールを定めておくことができる。解析部14は、構文操作を行った形態素リストを翻訳部16へ受け渡す。   In addition, the analysis unit 14 performs syntax operation according to a rule determined in advance according to the grammar of the target language, using information of the created syntax tree. For example, when the target language is Japanese, the article is deleted, the dependency morpheme in the dependency relationship is rearranged so that the morpheme of the dependency destination is the front, and the subject morpheme is the rear. Various rules such as insertion of a virtual word corresponding to can be defined. The analysis unit 14 passes the morpheme list subjected to the syntax operation to the translation unit 16.

翻訳部16は、解析部14から受け渡された構文操作が行われた形態素リストを利用して、各形態素に付与された文字位置情報を保持したまま、句単位で目的言語へ翻訳する。これにより、目的言語文の各句に対応する原言語の各形態素の文字位置情報が保持された目的言語文が作成される。   The translation unit 16 uses the morpheme list subjected to the syntax operation passed from the analysis unit 14 and translates it into the target language in phrase units while retaining the character position information given to each morpheme. Thereby, the target language sentence in which the character position information of each morpheme of the source language corresponding to each phrase of the target language sentence is created.

また、翻訳部16は、各句に対応する原言語文の各形態素の文字位置情報を昇順にソートする。また、原言語文において連続する複数の形態素の各々に対応する文字位置情報を1つにまとめて整形する。翻訳部16は、文字位置情報のソート及び整形を行った文字位置情報付き目的言語文を出力する。   Moreover, the translation part 16 sorts the character position information of each morpheme of the source language sentence corresponding to each phrase in ascending order. In addition, the character position information corresponding to each of a plurality of continuous morphemes in the source language sentence is combined and shaped. The translation unit 16 outputs a target language sentence with character position information obtained by sorting and shaping the character position information.

<翻訳装置の作用>
次に、本実施の形態に係る翻訳装置10の作用について説明する。原言語文が翻訳装置10に入力されると、翻訳装置10において、図2に示す翻訳処理ルーチンが実行される。ここでは、原言語を英語、目的言語を日本語とし、原言語文として、「He lost his keys in the airport」が入力されたものとする。
<Operation of translation device>
Next, the operation of translation apparatus 10 according to the present embodiment will be described. When the source language sentence is input to the translation device 10, the translation device 10 executes a translation processing routine shown in FIG. Here, it is assumed that the source language is English, the target language is Japanese, and “He lost his keys in the airport” is input as the source language sentence.

ステップS10で、付与部12が、入力された原言語文を形態素解析することにより、形態素毎に分解し、各形態素にその形態素の品詞を示す品詞情報を付与する。   In step S10, the assigning unit 12 performs morphological analysis on the input source language sentence, thereby decomposing each morpheme, and giving each morpheme part-of-speech information indicating the part-of-speech of the morpheme.

次に、ステップS12で、付与部12が、形態素毎に、原言語文におけるその形態素の位置を示す文字位置情報を付与する。具体的には、原言語文の各文字の文字位置を先頭文字から順に0、1、2、・・・とし、各形態素の開始文字に対応する文字位置と終了文字に対応する文字位置とで表される文字位置情報を、各形態素に付与する。ここでは、各形態素の後のスペースを各形態素の終了文字として扱うものとする。従って、形態素「He」の文字位置情報は「0−2」、形態素「lost」の文字位置情報は「3−7」となる。付与部12は、原言語文「He lost his keys in the airport」に含まれる各形態素に、品詞情報及び文字位置情報を付与し、例えば図3に示すような形態素リストを作成して、解析部14へ受け渡す。   Next, in step S12, the assigning unit 12 assigns, for each morpheme, character position information indicating the position of the morpheme in the source language sentence. Specifically, the character position of each character in the source language sentence is set to 0, 1, 2,... In order from the first character, and the character position corresponding to the start character and the character position corresponding to the end character of each morpheme The represented character position information is assigned to each morpheme. Here, the space after each morpheme is treated as the end character of each morpheme. Therefore, the character position information of the morpheme “He” is “0-2”, and the character position information of the morpheme “lost” is “3-7”. The assigning unit 12 assigns part-of-speech information and character position information to each morpheme included in the source language sentence “He last his keys in the airport”, for example, creates a morpheme list as shown in FIG. Deliver to 14.

次に、ステップS14で、解析部14が、付与部12から受け渡された形態素リストを用いて、各形態素に付与された文字位置情報を保持したまま、原言語文を構文解析し、構文木を作成する。図4に構文木の一例を示す。図4の例では、構文木を構成する各ノードには、形態素と共に、その形態素に付与された文字位置情報が保持されている。なお、図4の例において、「*1」は、構文解析により得られた係り受け情報を示す。   Next, in step S14, the analysis unit 14 parses the source language sentence using the morpheme list delivered from the assignment unit 12 while retaining the character position information attached to each morpheme, Create FIG. 4 shows an example of the syntax tree. In the example of FIG. 4, each node constituting the syntax tree holds character position information given to the morpheme together with the morpheme. In the example of FIG. 4, “* 1” indicates dependency information obtained by syntax analysis.

次に、ステップS16で、解析部14が、作成した構文木の情報を利用して、目的言語の文法に応じて予め定めたルールに従って、例えば、冠詞を削除、係り受け関係にある係り元の形態素が前、係り先の形態素が後になるように並び替え、主語や目的語に対して、格助詞に相当する仮想語を挿入などの構文操作を行う。そして、解析部14は、例えば図5に示すように、構文操作を行った形態素リストを作成する。構文木は上述のように各形態素が文字位置情報を保持しているため、構文操作を行った形態素リストの各形態素も、文字位置情報を保持した状態となる。   Next, in step S16, the analysis unit 14 uses the information of the created syntax tree to delete, for example, an article according to a predetermined rule according to the grammar of the target language, The morpheme is rearranged so that the morpheme before and the morpheme to be related later, and a syntactic operation such as inserting a virtual word corresponding to a case particle is performed on the subject or the object. And the analysis part 14 produces the morpheme list which performed syntax operation, for example, as shown in FIG. In the syntax tree, each morpheme holds character position information as described above, and therefore each morpheme in the morpheme list subjected to the syntax operation also holds character position information.

具体的に、図4及び図5の例では、構文操作により、形態素「He」に対してガ格を表す格助詞に相当する仮想語「_va0」が挿入されている。また、形態素「keys」に対してヲ格を表す格助詞に相当する仮想語「_va2」が挿入されている。なお、図4に示す構文木の例では、構文操作により挿入された仮想語のノードを破線で示している。また、図5に示す形態素リストでは、図4に示す構文木に含まれる冠詞「the」が削除されている。さらに、図4に示す構文木で表される各形態素間の係り受け関係に応じて、図5に示す形態素リストでは、語順が並び替わっている。解析部14は、構文操作した形態素リストを翻訳部16へ受け渡す。   Specifically, in the examples of FIGS. 4 and 5, a virtual word “_va0” corresponding to a case particle representing a case is inserted into the morpheme “He” by a syntax operation. In addition, a virtual word “_va2” corresponding to a case particle representing a case is inserted into the morpheme “keys”. In the example of the syntax tree shown in FIG. 4, the nodes of virtual words inserted by the syntax operation are indicated by broken lines. Further, in the morpheme list shown in FIG. 5, the article “the” included in the syntax tree shown in FIG. 4 is deleted. Furthermore, the word order is rearranged in the morpheme list shown in FIG. 5 according to the dependency relationship between the morphemes represented by the syntax tree shown in FIG. The analysis unit 14 passes the syntax-operated morpheme list to the translation unit 16.

次に、ステップS18で、翻訳部16が、解析部14から受け渡された構文操作が行われた形態素リストを利用して、句単位で目的言語へ翻訳する。句単位の翻訳は、例えば、英語と日本語とを句に基づく統計情報を用いて対応付けるための翻訳辞書や学習器等を用いて行うことができる。   Next, in step S18, the translation unit 16 translates the phrase unit into the target language using the morpheme list subjected to the syntax operation passed from the analysis unit 14. The phrase unit translation can be performed using, for example, a translation dictionary or a learning device for associating English and Japanese with statistical information based on phrases.

例えば、図6に示すように、構文操作後の形態素リストに含まれる原言語文の形態素「He」及び「_va0」が一塊の句と判定され、その句が目的言語文の句「彼は」に翻訳される。さらに、目的言語文の句「彼は」は、対応する原言語文の各形態素「He」及び「_va0」の文字位置情報「0−2」を保持している。なお、「_va0」はもともと文字位置情報を保持していないため、目的言語文の句「彼は」が保持する文字位置情報は、「He」の文字位置情報「0−2」のみとなる。同様に、図6に示すように、原言語文の形態素「airport」及び「in」が、目的言語文の句「空港で」に翻訳され、原言語文の形態素「airport」の文字位置情報「24−31」、及び「in」の文字位置情報「17−19」が、目的言語文の句「空港で」に保持される。   For example, as shown in FIG. 6, the morphemes “He” and “_va0” of the source language sentence included in the morpheme list after the syntax operation are determined as a single phrase, and the phrase “he” is the phrase of the target language sentence. Translated into Further, the phrase “he is” of the target language sentence holds character position information “0-2” of each morpheme “He” and “_va0” of the corresponding source language sentence. Since “_va0” originally does not hold character position information, the character position information held by the phrase “he is” of the target language sentence is only the character position information “0-2” of “He”. Similarly, as illustrated in FIG. 6, the morphemes “airport” and “in” of the source language sentence are translated into the phrase “at the airport” of the target language sentence, and the character position information “airport” of the source language sentence “airport” is translated. The character position information “17-19” of “24-31” and “in” is held in the phrase “at the airport” of the target language sentence.

目的言語に翻訳された句を並べた目的言語文に、各句が保持する文字位置情報を表示すると、下記のように表すことができる。下記の例では、各句の後のかっこ内に、その句が保持する文字位置情報を示している。
「彼は(0−2)空港で(24−31、17−19)鍵を(8−11、12−16)なくした(3−7)」
When the character position information held by each phrase is displayed in the target language sentence in which phrases translated into the target language are arranged, it can be expressed as follows. In the example below, the character position information held by each phrase is shown in parentheses after each phrase.
"He lost (0-2) (24-31, 17-19) keys (8-11, 12-16) at the airport (3-7)."

次に、ステップS20で、翻訳部16が、各句に対応する原言語文の各形態素の文字位置情報を昇順にソートする。例えば、目的言語文の句「空港で」が保持する文字位置情報「24−31」及び「17−19」を、図7に示すように、「17−19」、「24−31」にソートする。また、翻訳部16が、原言語文において連続する複数の形態素の各々に対応する文字位置情報を1つにまとめて整形する。例えば、目的言語文の句「鍵を」が保持する文字位置情報「8−11」及び「12−16」は、連続する文字位置を表すため、整形して「8−16」とする。   Next, in step S20, the translation unit 16 sorts the character position information of each morpheme of the source language sentence corresponding to each phrase in ascending order. For example, the character position information “24-31” and “17-19” held in the phrase “at the airport” of the target language sentence is sorted into “17-19” and “24-31” as shown in FIG. To do. Moreover, the translation part 16 shapes the character position information corresponding to each of a plurality of continuous morphemes in the source language sentence into one. For example, the character position information “8-11” and “12-16” held by the phrase “key” of the target language sentence is formatted to be “8-16” in order to represent consecutive character positions.

翻訳部16は、上記のように各句が保持する文字位置情報をソート及び整形し、例えば、下記に示すような文字位置情報付き目的言語文を出力し、翻訳処理は終了する。
「彼は(0−2)空港で(17−19、24−31)鍵を(8−16)なくした(3−7)」
The translation unit 16 sorts and shapes the character position information held by each phrase as described above, outputs, for example, a target language sentence with character position information as shown below, and the translation process ends.
"He lost (8-2) the key at (0-2) airport (17-19, 24-31) (3-7)"

以上説明したように、本実施形態に係る翻訳装置によれば、原言語文の各形態素に付与した文字位置情報を保持したまま目的言語文に翻訳することで、原言語文の形態素と、原言語文を翻訳した目的言語文の句との対応を把握することができる。すなわち、目的言語文に含まれる句は、原言語文に含まれるどの形態素の集合でできているのかを把握することができる。より具体的には、目的言語としておかしい箇所が翻訳結果に含まれる場合に、原言語のどの形態素がおかしな句として翻訳されたのかを、簡単に把握することができる。また、原言語文の一部にアンダーラインなどの書式が設定されていた場合に、目的言語文において、対応する箇所に同様の書式を設定することができる。   As described above, according to the translation device according to the present embodiment, by translating into the target language sentence while retaining the character position information given to each morpheme of the source language sentence, The correspondence with the phrase of the target language sentence translated from the language sentence can be grasped. That is, it is possible to grasp which morpheme set included in the source language sentence is included in the phrase included in the target language sentence. More specifically, when a portion that is strange as the target language is included in the translation result, it is possible to easily grasp which morpheme in the source language has been translated as a strange phrase. Further, when a format such as an underline is set in a part of the source language sentence, a similar format can be set in a corresponding portion in the target language sentence.

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、上記実施の形態では、原言語文における各形態素の位置を示す位置情報として、文字位置情報を用いる場合について説明したが、原言語文の先頭から、形態素毎に0、1、2、・・・とし、形態素単位の位置情報を付与してもよい。この場合、図3の例では、形態素「He」の位置情報は「0」、形態素「lost」の位置情報は「1」、形態素「his」の位置情報は「2」、・・・とすることができる。   For example, in the above embodiment, the case where the character position information is used as the position information indicating the position of each morpheme in the source language sentence has been described. However, 0, 1, 2,. ..., and position information in units of morphemes may be given. 3, the position information of the morpheme “He” is “0”, the position information of the morpheme “lost” is “1”, the position information of the morpheme “his” is “2”, and so on. be able to.

また、上記実施の形態では、原言語を英語、目的言語を日本語とする場合について説明したが、本発明は他の言語間の翻訳に対しても適用可能である。   In the above embodiment, the case where the source language is English and the target language is Japanese has been described. However, the present invention can also be applied to translation between other languages.

また、例えば、日本語と韓国語とのように、語順が略同じ言語間では、構文解析及び構文操作を行うことなく翻訳することができる。そのような言語間の翻訳を対象とする場合には、解析部を省略した構成とすることができる。この場合、翻訳部では、付与部による形態素解析結果、すなわち位置情報が付与された各形態素を用いて、句単位の翻訳を行えばよい。   Further, for example, between languages having substantially the same word order, such as Japanese and Korean, translation can be performed without performing syntax analysis and syntax operation. When the translation between such languages is a target, the analysis unit can be omitted. In this case, the translation unit may perform phrase unit translation using each morpheme to which the morpheme analysis result by the adding unit, that is, the position information is added.

また、上記実施の形態では、入力データ及び出力データとして、テキストデータを扱う場合について説明したが、音声データを入力データ及び出力データとしてもよい。この場合、音声データとして入力された原言語文を音声認識する音声認識部を付与部の前に設け、翻訳されたテキストデータである目的言語文から音声データを生成する音声生成部を翻訳部の後に設ければよい。   Moreover, although the case where text data is handled as input data and output data has been described in the above embodiment, audio data may be input data and output data. In this case, a speech recognition unit that recognizes a source language sentence input as speech data is provided in front of the assigning unit, and a speech generation unit that generates speech data from a target language sentence that is translated text data is provided in the translation unit. It may be provided later.

また、上述の翻訳装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   Moreover, although the above translation apparatus has a computer system, the “computer system” includes a homepage providing environment (or display environment) if the WWW system is used.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体、例えばCD−ROMやメモリーカード等に格納して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium such as a CD-ROM or a memory card. It is.

10 翻訳装置
12 付与部
14 解析部
16 翻訳部
DESCRIPTION OF SYMBOLS 10 Translation apparatus 12 Giving part 14 Analysis part 16 Translation part

Claims (5)

原言語で記述された原言語文を入力とし、前記原言語文を翻訳して得られた目的言語文と、前記原言語文の各形態素の位置を示す位置情報と、の組を出力する翻訳装置であって、
前記原言語文を形態素解析すると共に、形態素解析により得られた各形態素の前記原言語文における位置を示す位置情報を、各形態素に付与する付与部と、
前記付与部により前記原言語文の各形態素に付与された位置情報を保持したまま、前記原言語文の形態素解析結果に対して、構文木を構成する各ノードに前記原言語文の形態素と共にその形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持するように構文木を作成することにより構文解析し、構文解析の結果に対して、目的言語の文法に従って予め定めたルールに基づく操作を行う解析部と、
前記解析部による操作結果を用いて、各形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持したまま、前記原言語文を前記目的言語文に句単位で翻訳、前記目的言語文の各句に属する目的言語文の形態素が複数あって、前記目的言語文の複数の形態素に対応する前記原言語文の形態素がそれぞれ存在する場合に、前記目的言語文の複数の形態素に対応する前記原言語文の形態素それぞれの位置情報が保持され、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報と、前記目的言語文と、の組を出力する翻訳部と、
を含むことを特徴とする翻訳装置。
Translation that outputs a set of a target language sentence obtained by translating the source language sentence and position information indicating the position of each morpheme of the source language sentence, with the source language sentence described in the source language as input A device,
A morpheme analysis of the source language sentence, and a grant unit that gives each morpheme position information indicating a position of each morpheme obtained by morpheme analysis in the source language sentence;
While maintaining the position information given to each morpheme of the source language sentence by the assigning unit, the morpheme analysis result of the source language sentence, along with the morpheme of the source language sentence, to each node constituting the syntax tree Rules that are parsed by creating a syntax tree so as to hold position information indicating the positions of the morphemes of the source language sentence assigned to the morphemes, and the results of the syntax analysis are predetermined rules according to the grammar of the target language An analysis unit for performing an operation based on
Using the operation result by the analysis unit, the source language sentence is translated into the target language sentence in phrase units while retaining position information indicating the position of the morpheme of the source language sentence given to each morpheme, When there are a plurality of morphemes of the target language sentence belonging to each phrase of the target language sentence, and there are morphemes of the source language sentence corresponding to a plurality of morphemes of the target language sentence, a plurality of morphemes of the target language sentence morpheme information on positions of the source language sentence corresponding is held, and outputs said morphemes location information of the source language sentence for each phrase of the target language sentence, said the target language sentence, a set of The translation department,
The translation apparatus characterized by including.
前記解析部は、前記目的言語の文法に従って予め定めたルールに基づく操作として、形態素の追加、削除、及び並び替えの少なくとも1つの操作を行う請求項1記載の翻訳装置。   The translation apparatus according to claim 1, wherein the analysis unit performs at least one of addition, deletion, and rearrangement of morphemes as an operation based on a predetermined rule according to the grammar of the target language. 前記翻訳部は、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報を昇順で並び替えた位置情報、または連続する複数の位置情報をまとめた位置情報を、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報とする請求項1または請求項2記載の翻訳装置。 Said translation unit, the positional information to the positional information of each morpheme sorted in ascending order of the source language sentence position information that summarizes the plurality of position information or continuous, for each phrase of the target language sentence, the target The translation apparatus according to claim 1, wherein the translation information is position information of each morpheme of the source language sentence corresponding to each phrase of the language sentence . 付与部と、解析部と、翻訳部とを含み、原言語で記述された原言語文を入力とし、前記原言語文を翻訳して得られた目的言語文と、前記原言語文の各形態素の位置を示す位置情報のみの集合である文字位置情報と、の組を出力する翻訳装置における翻訳方法であって、
前記付与部が、前記原言語文を形態素解析すると共に、形態素解析により得られた各形態素の前記原言語文における位置を示す位置情報を、各形態素に付与するステップと、
前記解析部が、前記付与部により前記原言語文の各形態素に付与された位置情報を保持したまま、前記原言語文の形態素解析結果に対して、構文木を構成する各ノードに前記原言語文の形態素と共にその形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持するように構文木を作成することにより構文解析し、構文解析の結果に対して、目的言語の文法に従って予め定めたルールに基づく操作を行うステップと、
前記翻訳部が、前記解析部による操作結果を用いて、各形態素に付与された前記原言語文の形態素の位置を示す位置情報を保持したまま、前記原言語文を前記目的言語文に句単位で翻訳、前記目的言語文の各句に属する目的言語文の形態素が複数あって、前記目的言語文の複数の形態素に対応する前記原言語文の形態素がそれぞれ存在する場合に、前記目的言語文の複数の形態素に対応する前記原言語文の形態素それぞれの位置情報が保持され、前記目的言語文の各句に対応する前記原言語文の各形態素の位置情報と、前記目的言語文と、の組を出力するステップと、
を含むことを特徴とする翻訳方法。
A target language sentence obtained by translating the source language sentence with the source language sentence described in the source language as an input, and each morpheme of the source language sentence; A translation method in a translation device that outputs a set of character position information that is a set of only position information indicating the position of
It said applying portion, and a step of imparting the well as morphological analysis source language sentence, the position information indicating the position in the source language sentence of morphemes obtained by the morphological analysis, the morphemes,
Wherein the analysis unit, while maintaining the positional information given to each morpheme of the source language sentence by the applying unit, with respect to the morphological analysis result of the source language sentence, the source language to each node constituting the syntax tree The syntax analysis is performed by creating a syntax tree so as to hold the position information indicating the position of the morpheme of the source language sentence attached to the morpheme together with the morpheme of the sentence , and the target language Performing an operation based on a predetermined rule according to:
Using the operation result by the analysis unit, the translation unit retains the position information indicating the position of the morpheme of the source language sentence assigned to each morpheme, and the source language sentence is stored in the target language sentence as a phrase unit. in translating, said a plurality morpheme in the target language sentence belonging to each clause of the target language sentence, if the morphemes of the original language sentence corresponding to a plurality of morphemes of the target language sentence is present respectively, the target language Position information of each morpheme of the source language sentence corresponding to a plurality of morphemes of the sentence is held , position information of each morpheme of the source language sentence corresponding to each phrase of the target language sentence, and the target language sentence; Outputting a set of
Translation method, characterized in that it comprises a.
コンピュータを、請求項1〜請求項3のいずれか1項記載の翻訳装置の各部として機能
させるための翻訳プログラム。

The translation program for functioning a computer as each part of the translation apparatus of any one of Claims 1-3.

JP2013266047A 2013-12-24 2013-12-24 Translation apparatus, method, and program Active JP6017409B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013266047A JP6017409B2 (en) 2013-12-24 2013-12-24 Translation apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013266047A JP6017409B2 (en) 2013-12-24 2013-12-24 Translation apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2015121993A JP2015121993A (en) 2015-07-02
JP6017409B2 true JP6017409B2 (en) 2016-11-02

Family

ID=53533540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013266047A Active JP6017409B2 (en) 2013-12-24 2013-12-24 Translation apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6017409B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3066274B2 (en) * 1995-01-12 2000-07-17 シャープ株式会社 Machine translation equipment
JP3898799B2 (en) * 1996-05-29 2007-03-28 松下電器産業株式会社 Document converter

Also Published As

Publication number Publication date
JP2015121993A (en) 2015-07-02

Similar Documents

Publication Publication Date Title
KR101726667B1 (en) Grammar compiling methods, semantic parsing methods, devices, computer storage media, and apparatuses
Salloum et al. Elissa: A dialectal to standard Arabic machine translation system
WO2012079257A1 (en) Method and device for machine translation
JP2001282786A (en) System and method for machine translation and storage medium with program for executing the same method stored thereon
Tsvetkov et al. Generating English determiners in phrase-based translation with synthetic translation options
Devlin et al. Statistical machine translation as a language model for handwriting recognition
JP5623380B2 (en) Error sentence correcting apparatus, error sentence correcting method and program
JP5911931B2 (en) Predicate term structure extraction device, method, program, and computer-readable recording medium
JP6017409B2 (en) Translation apparatus, method, and program
KR101409298B1 (en) Method of re-preparing lexico-semantic-pattern for korean syntax recognizer
JP4478042B2 (en) Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device
JP5879989B2 (en) Machine translation system, machine translation method, and machine translation program
JP6667875B2 (en) Summary sentence creation model learning device, summary sentence creation device, summary sentence creation model learning method, summary sentence creation method, and program
Labidi New combined method to improve Arabic POS tagging
El-Kahlout et al. Initial explorations in two-phase Turkish dependency parsing by incorporating constituents
JP2007133905A (en) Natural language processing system and natural language processing method, and computer program
Bloodgood et al. Acquisition of translation lexicons for historically unwritten languages via bridging loanwords
JP2019087058A (en) Artificial intelligence apparatus for specifying omission in sentence
Chhetri et al. Development of a morph analyser for Nepali noun token
Hanum et al. Evaluation of Malay grammar on translation of Al-Quran sentences using Earley algorithm
JPS62267872A (en) Language analyzing device
JP6573839B2 (en) Sentence generating apparatus, method, and program
JP3892227B2 (en) Machine translation system
Magdum et al. Recognizing English Grammar Using Predictive Parser
JP4033088B2 (en) Natural language processing system, natural language processing method, and computer program

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150730

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150806

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20151002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160928

R150 Certificate of patent or registration of utility model

Ref document number: 6017409

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150