JP7107609B1 - Language asset management system, language asset management method, and language asset management program - Google Patents

Language asset management system, language asset management method, and language asset management program Download PDF

Info

Publication number
JP7107609B1
JP7107609B1 JP2021176759A JP2021176759A JP7107609B1 JP 7107609 B1 JP7107609 B1 JP 7107609B1 JP 2021176759 A JP2021176759 A JP 2021176759A JP 2021176759 A JP2021176759 A JP 2021176759A JP 7107609 B1 JP7107609 B1 JP 7107609B1
Authority
JP
Japan
Prior art keywords
translation
machine translation
sentence
language
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021176759A
Other languages
Japanese (ja)
Other versions
JP2023066183A (en
Inventor
功造 森口
Original Assignee
株式会社川村インターナショナル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社川村インターナショナル filed Critical 株式会社川村インターナショナル
Priority to JP2021176759A priority Critical patent/JP7107609B1/en
Application granted granted Critical
Publication of JP7107609B1 publication Critical patent/JP7107609B1/en
Publication of JP2023066183A publication Critical patent/JP2023066183A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。【解決手段】言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有する言語資産管理システム。【選択図】図1A problem to be solved by the present invention is to provide a novel technology related to a language asset management system. A language asset management system, wherein said translation memory and/or said terms are based on a transfer source file imported by a user and describing sentences or terms written in at least one of the original language and the target language. means for generating a collection, means for storing identification information in association with the translation memory and/or the glossary, learning processing of the machine translation model using the translation memory and/or the machine of the glossary Means for performing setting processing to a translation model, and storing identification information of the translation memory and/or the glossary used in the learning processing and the setting processing in association with the identification information of the custom machine translation model. and a language asset management system comprising: [Selection drawing] Fig. 1

Description

本発明は、言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラムに関する。 The present invention relates to a language asset management system, a language asset management method, and a language asset management program.

近年、統計的機械翻訳の性能を向上させるため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。 In recent years, in order to improve the performance of statistical machine translation, the importance of creating a large amount of high-quality bilingual corpus has been recognized. In general, creating a bilingual corpus is very costly, and an efficient creation method is a technical issue.

特許文献1では、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成するための発明が開示されている。 Patent Literature 1 discloses an invention for creating a bilingual corpus with higher quality than when matching sentences based only on the number of matching words.

特開2018-032324号公報JP 2018-032324 A

特許文献1記載の発明は、第1言語と第2言語の1以上の対訳文を取得し、取得された第1言語の文を第2言語の文に翻訳する。取得された第2言語の文と、翻訳された第2言語の文と、の間の編集距離を算出し、算出された編集距離が閾値よりも大きい対訳文を選別することで、より品質の高い対訳コーパスを作成する。 The invention described in Patent Document 1 obtains one or more parallel translation sentences in a first language and a second language, and translates the obtained sentence in the first language into a sentence in the second language. By calculating the edit distance between the acquired second language sentence and the translated second language sentence, and selecting the bilingual sentence with the calculated edit distance larger than the threshold, the quality is improved. Create a high parallel corpus.

しかしながら、特許文献1に記載の発明では、より品質の高い対訳コーパスを作成するために、第1言語の文と第2言語の文の両方を必要とする。また、特許文献1には対訳コーパスの作成方法について記載されているが、作成した対訳コーパスをどのように管理・利用するかについては記載されていない。 However, the invention described in Patent Document 1 requires both sentences in the first language and sentences in the second language in order to create a bilingual corpus of higher quality. Further, Patent Document 1 describes a method of creating a parallel translation corpus, but does not describe how to manage and use the created parallel corpus.

上記事情を鑑みて、本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。 In view of the above circumstances, an object of the present invention is to provide a novel technology related to a language asset management system.

上記課題を解決するために、本発明は、原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて管理する言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有することを特徴とする。このような構成とすることで、本発明は、機械翻訳モデルと、複数の用語集と、を対応付けて管理することができる。 In order to solve the above problems, the present invention provides a machine translation model that translates an original sentence into a translated sentence, a translation memory that translates the original sentence and the translated sentence of the sentence, and a glossary that translates the original sentence and the translated sentence of the term. The translation memory and/or the terminology is based on a source file imported by the user and containing sentences or terms written in at least one of the original language and the translated language. means for generating a collection, means for storing identification information in association with the translation memory and/or the glossary, learning processing of the machine translation model using the translation memory and/or the machine of the glossary Means for performing setting processing for a translation model, and storing identification information of the translation memory and/or the glossary used in the learning processing and the setting processing in association with the identification information of the custom machine translation model. and. With such a configuration, the present invention can manage a machine translation model and a plurality of glossaries in association with each other.

本発明の好ましい形態では、前記生成する手段は更に、前記第一言語で記載された文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、利用者が訳文を有していない場合でも、原文のみから翻訳メモリを生成することができる。 In a preferred form of the present invention, the generating means further generates the translation memory based on the text written in the first language and the machine translation model. With such a configuration, the present invention can generate a translation memory only from the original text even if the user does not have the translation text.

本発明の好ましい形態では、前記生成する手段は更に、前記翻訳メモリにおける各セグメント間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。 In a preferred embodiment of the present invention, the generating means further evaluates the translation accuracy as a score value based on the edit distance between each segment in the translation memory, is characterized by generating With such a configuration, the present invention can generate a highly accurate translation memory.

前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。 The generating means further evaluates the translation accuracy as the score value based on the number of corresponding words and non-corresponding words between the original sentence and the translated sentence of the sentence, and the score value is higher than the threshold. It is characterized by generating a memory. With such a configuration, the present invention can generate a highly accurate translation memory.

本発明の好ましい形態では、前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有することを特徴とする。このような構成とすることで、本発明は、翻訳精度の低いセグメントの再利用を行い、当該セグメントの翻訳精度を高めることができる。 In a preferred embodiment of the present invention, the generating means further generates the translation memory from the segment whose translation accuracy is lower than a threshold, and the language asset management system further allows the user to edit the segment. It is characterized by having means for With such a configuration, the present invention can reuse segments with low translation accuracy and improve the translation accuracy of the segments.

上記課題を解決するために、本発明は、コンピュータを、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、として機能させことを特徴とする。 In order to solve the above problems, the present invention provides a computer with the translation memory and/or translation memory based on a source file imported by a user and describing sentences or terms written in at least one of the original language and the target language. Alternatively, means for generating the glossary, means for storing identification information in association with the translation memory and/or the glossary, learning processing of the machine translation model using the translation memory, and/or the glossary perform setting processing to the machine translation model, and store the identification information of the translation memory and / or the glossary used in the learning processing and the setting processing in association with the identification information of the custom machine translation model It is characterized by functioning as means for registering.

上記課題を解決するために、本発明は、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成するステップと、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録するステップと、をコンピュータが実行することを特徴とする。 In order to solve the above problems, the present invention provides the translation memory and/or the terminology based on a transfer source file imported by a user and describing sentences or terms written in at least one of the original language and the target language. means for storing identification information in association with the translation memory and/or the glossary; and learning processing of the machine translation model using the translation memory and/or the machine of the glossary A step of performing a setting process for a translation model, and storing the identification information of the translation memory and/or the glossary used in the learning process and the setting process in association with the identification information of the custom machine translation model. and are executed by a computer.

本発明は、言語資産管理システムに係る新規な技術を提供することができる。 INDUSTRIAL APPLICABILITY The present invention can provide a novel technology related to language asset management systems.

本発明の一実施形態に係る機能ブロック図を示す。1 shows a functional block diagram according to an embodiment of the present invention; FIG. 本発明の一実施形態に係るハードウェア構成図を示す。1 shows a hardware configuration diagram according to an embodiment of the present invention; FIG. 本発明の一実施形態に係る処理フローチャート図を示す。FIG. 4 shows a processing flowchart diagram according to one embodiment of the present invention. 本発明の一実施形態に係るインポート画面0w1を示す。FIG. 4 shows an import screen 0w1 according to an embodiment of the present invention; FIG. 本発明の一実施形態に係る言語資産編集画面0w2を示す。4 shows a language asset edit screen 0w2 according to an embodiment of the present invention; 本発明の一実施形態に係る再学習画面0w3を示す。FIG. 10 shows a relearning screen 0w3 according to an embodiment of the present invention; FIG.

本明細書は、本発明の一実施形態にかかる構成や作用効果等について、図面を交えて、以下に説明する。 This specification describes the configuration, effects, and the like according to an embodiment of the present invention with reference to the drawings.

本発明は、以下の実施形態に限定されず、様々な構成を採用し得る。また、本発明の実施形態は、各実施形態のそれぞれにおける構成の一部を、本発明が目的とする作用効果の実現を阻害しない範囲で互いに採用してよい。 The present invention is not limited to the following embodiments, and can employ various configurations. In addition, the embodiments of the present invention may mutually employ a part of the configuration of each of the respective embodiments within a range that does not impede the realization of the intended effect of the present invention.

例えば、本実施形態では言語資産管理システムの構成、動作等について説明するが、実行される方法、コンピュータプログラム等によっても、同様の作用効果を奏することができる。本実施形態におけるプログラムは、コンピュータが読み取り可能な非一過性の記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、言語資産管理システムでその機能を実現する為に外部のコンピュータにおいて当該プログラムを起動させてもよい(いわゆるクラウドコンピューティング)。 For example, although the configuration, operation, and the like of the language asset management system will be described in the present embodiment, similar effects can be achieved by methods, computer programs, and the like that are executed. The program in this embodiment may be provided as a computer-readable non-transitory recording medium, may be provided as a downloadable form from an external server, and its function may be realized by the language asset management system. In order to do so, the program may be started on an external computer (so-called cloud computing).

また、本実施形態において「手段」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらハードウェア資源によって具体的に実現され得るソフトウェアの情報処理とを合わせたものも含み得る。本実施形態において「情報」とは、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行され得る。 Further, in the present embodiment, "means" may include, for example, a combination of hardware resources implemented by circuits in a broad sense and software information processing that can be specifically realized by these hardware resources. In this embodiment, "information" refers to, for example, the physical value of a signal value representing voltage or current, the height of a signal value as a binary bit aggregate composed of 0 or 1, or the quantum superposition. (so-called quantum bits), and communication and computation can be performed on a circuit in a broad sense.

広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)及びメモリ(Memory)等を適宜組み合わせることによって実現される回路である。即ち、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等を含むものである。 A circuit in a broad sense is a circuit realized by appropriately combining circuits, circuits, processors, memories, and the like. That is, it includes CPU (Central Processing Unit), GPU (Graphics Processing Unit), LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate), etc.

<全体構成>
図1は、本実施形態における言語資産管理システムの概要図である。言語資産管理システムは、サーバ1と、端末装置2と、1又は複数のサーバ3と、を備える。
<Overall composition>
FIG. 1 is a schematic diagram of a language asset management system according to this embodiment. The language asset management system includes a server 1, a terminal device 2, and one or more servers 3.

図1に例示されるように、サーバ1と、端末装置2と、は既知または慣用のネットワークNWを介して、相互に通信可能である。また、サーバ1と、サーバ3と、は既知または慣用のネットワークNWを介して相互に通信可能である。また、端末装置2と、サーバ3と、の間においても同様に、既知または慣用のネットワークNWを介して相互に通信可能であってよい。なお、本実施形態では、サーバ3は第三者がクラウドサービスとして機械翻訳サービスを提供するためのサーバであり、サービスとして当該機械翻訳サービス、後述の学習処理、及び、設定処理を実行可能である。第三者に代わって或いは加えて、言語資産管理システムを提供する主体が当該サービスを提供してもよく、サーバ1において提供されてよく、サーバ1と通信可能なサーバにおいて提供されてもよい。 As illustrated in FIG. 1, the server 1 and the terminal device 2 can communicate with each other via a known or commonly used network NW. Also, the server 1 and the server 3 can communicate with each other via a known or commonly used network NW. Likewise, the terminal device 2 and the server 3 may be able to communicate with each other via a known or commonly used network NW. In this embodiment, the server 3 is a server for providing a machine translation service as a cloud service by a third party, and can execute the machine translation service as a service, the learning process described later, and the setting process. . Instead of or in addition to a third party, the entity that provides the language asset management system may provide the service, the service may be provided in the server 1, or may be provided in a server communicable with the server 1.

<ハードウェア構成>
図2に例示されるように、サーバ1は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス101、主記憶デバイス102、補助記憶デバイス103、入力デバイス104、出力デバイス105、通信デバイス106、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。
<Hardware configuration>
As illustrated in FIG. 2, the server 1 takes the form of a known or conventional computer, and includes, for example, computing device 101, main memory device 102, auxiliary memory device 103, input device 104, output device 105, and communication device. 106 and a bus interface, which are used as appropriate to achieve the effects of the present invention.

本発明の実施形態におけるサーバ1は、1つのサーバ装置として説明するが、複数台のサーバ装置からなるコンピュータ群であってもよい。ここで、コンピュータ群は、ウェブサーバ及び/又はデータベースサーバを含んでよい。コンピュータ群の態様となる場合、あるコンピュータに、後述する各機能部の全部が備えられる必要はなく、コンピュータ群全体で、後述の機能構成要素が実現される。 Although the server 1 in the embodiment of the present invention is described as one server device, it may be a computer group consisting of a plurality of server devices. Here, the computers may include web servers and/or database servers. In the case of the form of a computer group, it is not necessary for a certain computer to have all of the functional units described later, and the entire computer group implements the functional components described later.

サーバ1は、本発明の一実施形態で扱われる各種情報の少なくとも一部が格納されるデータベースDBを有する。コンピュータ群の場合、データベースDBは、上記データベースサーバであってよい。 The server 1 has a database DB in which at least part of various information handled in one embodiment of the present invention is stored. In the case of computers, the database DB may be the database server described above.

図2に例示されるように、端末装置2は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス201、主記憶デバイス202、補助記憶デバイス203、入力デバイス204、出力デバイス205、通信デバイス206、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。 As illustrated in FIG. 2, the terminal device 2 takes the form of a known or commonly used computer, and includes, for example, an arithmetic device 201, a main memory device 202, an auxiliary memory device 203, an input device 204, an output device 205, a communication It has a device 206 and a bus interface, and is used as appropriate to achieve the effects of the present invention.

本発明の実施形態における端末装置2は、1又は複数のコンピュータからなり、PC(Personal Computer)、スマートフォン、タブレット及びラップトップ等のような任意のコンピュータ装置を用いることを想定する。 The terminal device 2 in the embodiment of the present invention consists of one or a plurality of computers, and is assumed to use arbitrary computer devices such as PCs (Personal Computers), smartphones, tablets, laptops, and the like.

演算デバイス101および201は、命令セットを実行可能なプロセッサである。 Computing devices 101 and 201 are processors capable of executing instruction sets.

主記憶デバイス102および202は、命令セットを記憶可能な揮発性メモリである。 Main memory devices 102 and 202 are volatile memories capable of storing instruction sets.

補助記憶デバイス103および203は、プログラム等を記録可能な記録媒体である。 Auxiliary storage devices 103 and 203 are recording media on which programs and the like can be recorded.

入力デバイス104および204は、操作入力が可能なインタフェースである。当該インタフェースは、キーボードやタッチパネルなどのインタフェースである。 The input devices 104 and 204 are interfaces capable of inputting operations. The interface is an interface such as a keyboard or a touch panel.

出力デバイス105および205は、例としてモニター等の、利用者に対し後述の画面を表示するためのインタフェースである。 The output devices 105 and 205 are interfaces, such as monitors, for displaying screens (to be described later) to the user.

通信デバイス106および206は、ネットワークへの接続・参加を実現するための有線方式又は無線方式に基づくインタフェースを有する。 The communication devices 106 and 206 have interfaces based on wired or wireless methods for realizing connection/participation in the network.

〈機能ブロック〉
図1に例示されるように、サーバ1は、生成手段11と、格納手段12と、学習手段13と、設定手段14と、翻訳手段15と、出力処理手段16と、データベースDBと、を有する。
<Functional block>
As illustrated in FIG. 1, the server 1 has a generating means 11, a storing means 12, a learning means 13, a setting means 14, a translating means 15, an output processing means 16, and a database DB. .

また、図1に例示されるように、端末装置2は、インポート手段21と、出力手段22と、入力手段23と、を有する。 In addition, as illustrated in FIG. 1, the terminal device 2 has an import means 21, an output means 22, and an input means .

生成手段11は、後述のインポート手段21によってサーバ1にインポートされた、第一言語の文章が記載された転送元ファイル、又は、第一言語及び第二言語の文章が記載された転送元ファイルを、予め定められた形式の言語資産に変換する。本実施形態では、言語資産は、翻訳メモリと、用語集と、を含み、翻訳メモリは、第一言語の文章と第二言語の文章間の対応を示し、用語集は、転送元ファイルに記載された第一言語の単語と第二言語の単語間の対応を示す。 The generating means 11 generates a transfer source file in which sentences in the first language are described or a transfer source file in which sentences in the first language and the second language are described, which are imported into the server 1 by the import means 21, which will be described later. , into language assets of a predetermined format. In this embodiment, the linguistic assets include a translation memory and a glossary, the translation memory indicates correspondence between sentences in the first language and sentences in the second language, and the glossary is described in the transfer source file. shows the correspondence between the first language words and the second language words.

格納手段12は、生成手段11によって生成された言語資産を、データベースDBに格納する。また、格納手段12は、カスタム機械翻訳モデルに対して、学習処理に用いた翻訳メモリを対応付けて格納し、設定済み機械翻訳モデルに対して、設定処理に用いた用語集を対応付けて格納する。 The storage means 12 stores the language assets generated by the generation means 11 in the database DB. Further, the storage means 12 associates and stores the translation memory used in the learning process with the custom machine translation model, and associates and stores the glossary used in the setting process with the already set machine translation model. do.

学習手段13は、利用者が指定した翻訳メモリを教師データとした、機械翻訳学習サービスの学習処理を行う。なお、本実施形態で指定可能な機械翻訳学習サービスは、みんなの自動翻訳(登録商標)やGlobalese(登録商標)等であるが、それ以外の機械翻訳学習サービスであってもよい。 The learning means 13 performs learning processing of a machine translation learning service using a translation memory specified by a user as teacher data. Machine translation learning services that can be specified in this embodiment include Minna no Automatic Translation (registered trademark) and Globalese (registered trademark), but other machine translation learning services may also be used.

設定手段14は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行う。また、設定手段14は、サーバ3に当該用語集を送信し、記憶させる。 The setting means 14 performs setting processing for associating the custom machine translation model with the terminology. Further, the setting means 14 transmits the terminology to the server 3 and stores it.

翻訳手段15は、利用者によって入力された文章の翻訳処理を行う。 The translation means 15 translates the text input by the user.

出力処理手段16は、端末装置2からのリクエストに応じて、所定の画面を表示処理し、表示処理結果を返送する。端末装置2は、サーバ1から受け取った情報に基づいて、種々の画面を出力手段22に表示させる。これにより、端末装置2において、後述する種々の画面が表示される。 The output processing means 16 displays a predetermined screen in response to a request from the terminal device 2 and returns the display processing result. The terminal device 2 causes the output means 22 to display various screens based on the information received from the server 1 . As a result, various screens, which will be described later, are displayed on the terminal device 2 .

データベースDBは、言語資産と、カスタム機械翻訳モデル及び設定済み機械翻訳モデルの詳細情報と、を記憶する。本実施形態において、言語資産には、言語資産名、ファイル形式、インポート区分(後に詳述)、言語資産中に記載されている言語、ファイルサイズ、コメント、及び、当該言語資産の利用可否等の情報が対応付けて記憶されてよい。本実施形態では、カスタム機械翻訳モデルは、翻訳メモリを教師データとして、指定された機械翻訳学習サービスに再学習を行わせることで、特定の分野に特化した機械翻訳モデルである。カスタム機械翻訳モデルの詳細情報は、当該カスタム機械翻訳モデルの識別情報、当該カスタム機械翻訳モデルの名称、選択された機械翻訳学習サービス、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、更新者、教師データとして指定された言語資産及び識別情報、コメント、及び、当該カスタム機械翻訳モデルの利用可否を示す有効状態等の情報である。本実施形態では、設定済み機械翻訳モデルは、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルと、1又は複数の用語集と、が対応付けられた翻訳モデルであり、設定済み機械翻訳モデルを用いて翻訳を行う際は、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルを用いて生成される訳文に、用語集に記載された用語を反映させる。また、設定済み機械翻訳モデルには、設定済み機械翻訳モデルの識別情報、カスタム機械翻訳モデルの名称、機械翻訳学習サービスの名称、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、評価値、対応付けられた言語資産及び識別情報、コメント、及び、翻訳への利用の可否等の情報が対応付けて記憶されてよい。 The database DB stores language assets and detailed information on custom machine translation models and preset machine translation models. In this embodiment, the language asset includes the language asset name, file format, import classification (detailed later), language described in the language asset, file size, comment, availability of the language asset, etc. Information may be associated and stored. In this embodiment, the custom machine translation model is a machine translation model specialized for a specific field by having a designated machine translation learning service perform re-learning using a translation memory as training data. The detailed information of the custom machine translation model includes the identification information of the custom machine translation model, the name of the custom machine translation model, the selected machine translation learning service, the source language when translating, and the target text when translating. Information such as languages, registrants, updaters, language assets and identification information specified as training data, comments, and valid states indicating whether or not the custom machine translation model can be used. In this embodiment, the set machine translation model is a translation model in which a machine translation model or a custom machine translation model that has not been relearned and one or more glossaries are associated, and the set machine translation When translating using the model, the terms described in the glossary are reflected in the translation generated using the machine translation model that has not been relearned or the custom machine translation model. In addition, the preconfigured machine translation model includes the identification information of the preconfigured machine translation model, the name of the custom machine translation model, the name of the machine translation learning service, the language of the original text when translating, the language of the target text when translating. , registrants, evaluation values, associated language assets and identification information, comments, and information such as availability for translation may be associated and stored.

インポート手段21は、端末装置2を介して選択された転送元ファイルを、サーバ1にインポートする。 The import means 21 imports the transfer source file selected via the terminal device 2 to the server 1 .

出力手段22は、端末装置2が出力デバイス205として備えており、液晶ディスプレイや有機EL(エレクトロルミネッセンス)ディスプレイ等を用いて構成された表示パネルを含むディスプレイである。 The output unit 22 is provided as an output device 205 in the terminal device 2, and is a display including a display panel configured using a liquid crystal display, an organic EL (electroluminescence) display, or the like.

入力手段23は、キーボード、操作ボタン、マウス、出力手段22上に設けられたタッチセンサ等の入力デバイス204を利用して、外部からなされる操作を受け付け、当該操作に応じた信号を端末装置2に入力する。 The input means 23 uses an input device 204 such as a keyboard, an operation button, a mouse, and a touch sensor provided on the output means 22 to receive an operation performed from the outside, and send a signal corresponding to the operation to the terminal device 2. to enter.

<情報処理手順>
図3が示すように、本発明にかかる一連の処理は以下のステップを含む。なお、図3に示される各ステップの順序は一例であり、指定がない限り適宜、当該順序は変更され得る。
<Information processing procedure>
As shown in FIG. 3, a series of processing according to the present invention includes the following steps. Note that the order of each step shown in FIG. 3 is an example, and the order may be changed as appropriate unless otherwise specified.

インポート手段21は、インポート画面0w1を介して、利用者が有する第一言語及び/又は第二言語の文章が記載された転送元ファイルをサーバ1にインポートする(ステップS101)。 The import means 21 imports the transfer source file in which the user's sentences in the first language and/or the second language are described into the server 1 via the import screen 0w1 (step S101).

図4に例示されるように、端末装置2の出力手段22は、設定選択部0w1aと、ファイル選択部0w1bと、インポート部0w1cと、を含むインポート画面0w1を表示する。設定選択部0w1aでは、サーバ1へのインポート区分と、閾値の判定に用いる翻訳モデルの種別と、を選択可能である。インポート区分とは、どのような転送元ファイルをサーバ1にインポートするかの区分であり、選択されたインポート区分によって転送元ファイルに対して行われる処理が変動する。本実施形態では、例として、バイリンガルの対訳データを読み込み翻訳メモリとして記憶するバイリンガルデータ変換、モノリンガルの原文と訳文を読み込み翻訳メモリとして記憶するモノリンガルTMアラインメント(標準)、モノリンガルの原文のみを読み込み翻訳メモリを生成するモノリンガルアラインメント(MT活用)、用語集データを読み込み記憶する用語集データ、バイリンガルの対訳データを読み込み記憶するバイリンガルTBアラインメント、モノリンガルのデータを読み込み記憶するモノリンガルTBアラインメント、及び、利用者が有する翻訳メモリを読み込み記憶する翻訳メモリインポート等のインポート区分が選択可能であるが、上記以外のインポート区分を有してよい。ファイル選択部0w1bでは、サーバ1にインポートする転送元ファイルの選択が行われる。対訳関係にある文章が記載されたファイルをインポートする場合、ファイル選択部0w1bでは、第一言語の文章と第二言語の文章のどちらの言語の文章が原文であり訳文であるかを指定可能であってよく、原文及び訳文が何れの言語であるかを選択可能であってよい。インポート部0w1cを押下することで、ファイル選択部0w1bで選択された言語資産がサーバ1にインポートされる。 As illustrated in FIG. 4, the output unit 22 of the terminal device 2 displays an import screen 0w1 including a setting selection section 0w1a, a file selection section 0w1b, and an import section 0w1c. In the setting selection section 0w1a, it is possible to select the import classification to the server 1 and the type of the translation model used for threshold determination. The import classification is a classification of what kind of transfer source file is to be imported into the server 1, and the processing performed on the transfer source file varies depending on the selected import classification. In this embodiment, for example, bilingual data conversion that reads bilingual parallel data and stores it as a translation memory, monolingual TM alignment (standard) that reads and stores a monolingual original and translated text as a translation memory, and monolingual original text only. Monolingual alignment (MT utilization) that generates read translation memory, glossary data that reads and stores glossary data, bilingual TB alignment that reads and stores bilingual bilingual data, monolingual TB alignment that reads and stores monolingual data, Also, an import category such as a translation memory import for reading and storing a translation memory owned by the user can be selected, but an import category other than the above may be included. In the file selection section 0w1b, a transfer source file to be imported to the server 1 is selected. When importing a file containing sentences in a parallel translation relationship, the file selection section 0w1b can specify which language of the first language sentence or the second language sentence is the original sentence or the translated sentence. It may be possible to select which language the original text and the translated text are in. By pressing the import section 0w1c, the language assets selected in the file selection section 0w1b are imported into the server 1. FIG.

生成手段11は、ステップS101でインポートされたファイルを、予め定められた形式の言語資産に変換する(ステップS102)。なお、ステップS101で選択されたインポート区分が用語集データであった場合、インポートされた用語集は予め定められたファイル形式の用語集として記憶され、インポート区分が翻訳メモリインポートであった場合、インポートされた翻訳メモリは、予め定められたファイル形式の翻訳メモリとして記憶される。 The generating means 11 converts the file imported in step S101 into a language asset in a predetermined format (step S102). If the import classification selected in step S101 is glossary data, the imported glossary is stored as a glossary in a predetermined file format. The resulting translation memory is stored as a translation memory in a predetermined file format.

本実施形態では、設定選択部0w1aで選択されたインポート区分がモノリンガルTMアラインメント(標準)であった場合、生成手段11は、ファイル選択部0w1bで選択された原文のファイルと訳文のファイルにおける文章の対応付けを行い、各セグメント(対となる行)間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。また、生成手段11は、ファイル選択部0w1bで選択された原文のファイルと訳文のファイルにおける文章から、原文と訳文の間で対応がとれる単語の数と対応がとれない単語の数を数えることでスコア値を算出し、当該算出結果に基づき原文と訳文の対応付けを行ってよい。この際、各セグメントには前述のスコア値が対応付けて記憶されており、生成手段11は、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。 In the present embodiment, when the import classification selected in the setting selection section 0w1a is monolingual TM alignment (standard), the generating means 11 selects the text in the original text file and the translated text file selected in the file selection section 0w1b. , the translation accuracy is evaluated as a score value based on the edit distance between each segment (paired line), and the segment whose score value exceeds a predetermined threshold value is stored as a translation memory. In addition, the generating means 11 counts the number of words that can be matched between the original text and the translated text and the number of words that cannot be matched from the texts in the original text file and the translated text file selected by the file selection unit 0w1b. A score value may be calculated, and an original sentence and a translated sentence may be associated with each other based on the calculation result. At this time, each segment is associated with the aforementioned score value and stored, and the generating means 11 stores, as a translation memory, a segment whose score value exceeds a predetermined threshold value.

また、設定選択部0w1aで選択されたインポート区分がモノリンガルTMアラインメント(MT活用)であった場合、生成手段11は、設定選択部0w1aで選択された翻訳モデルに基づき、ファイル選択部0w1bで選択された転送元ファイルに記載された原文の翻訳を行い、各文章と対応する訳文を生成する。生成手段11は更に、生成された訳文の逆翻訳を行い、原文と逆翻訳文との間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が閾値よりも高いセグメントを翻訳メモリとして記憶する。 Further, when the import classification selected by the setting selection unit 0w1a is monolingual TM alignment (MT utilization), the generation unit 11 selects by the file selection unit 0w1b based on the translation model selected by the setting selection unit 0w1a. Translate the original sentences described in the transferred source file, and generate translated sentences corresponding to each sentence. The generating means 11 further reverse-translates the generated translated sentence, evaluates the translation accuracy as a score value based on the edit distance between the original sentence and the reverse-translated sentence, and stores the segment having the score value higher than the threshold in the translation memory. remember as

また、格納手段12は、上記翻訳メモリの生成の際に、スコア値が閾値に満たなかったセグメントを、個別の翻訳メモリであるLeftoverTMとしてデータベースDBに記憶する。なお、本実施形態において、利用者は、入力手段23を介したセグメントの編集を行う、或いはLeftoverTMに機械翻訳を適用することで、翻訳精度を高めることが可能である。また、本実施形態では、LeftoverTMと、他のLeftoverTM又は翻訳メモリと、を結合することで新規な翻訳メモリを作成することが可能であり、LeftoverTM、及び、結合により新規に作成された翻訳メモリは、他の翻訳メモリと同様に、後述のカスタム機械翻訳モデルの生成の際に教師データとして指定可能であってよい。 Further, the storage means 12 stores the segment whose score value did not reach the threshold in generating the translation memory as LeftoverTM, which is an individual translation memory, in the database DB. In this embodiment, the user can improve translation accuracy by editing segments via the input means 23 or by applying machine translation to Leftover™. In addition, in this embodiment, it is possible to create a new translation memory by combining LeftoverTM with another LeftoverTM or translation memory. , as well as other translation memories, may be designated as teaching data when generating a custom machine translation model, which will be described later.

また、生成手段11は、ファイル選択部0w1bで選択されたファイル中の文章の形態素解析を行い、出現頻度が高い単語の対を抽出し、抽出された単語の対を用語集としてデータベースDBに格納する。本実施形態では、設定選択部0w1aで選択されたインポート区分がバイリンガルTBアラインメントであった場合、原文と訳文の対が記述されている転送元ファイルをインポートすることで、生成手段11は、単語同士の対応付けが行われた用語集を生成する。なお、異なる言語間における単語同士の対応付けは、利用者が入力手段23を介して手動で訳語を登録することにより行われる。また、設定選択部0w1aで選択されたインポート区分がモノリンガルTBアラインメントであった場合、原文のみが記述されている転送元ファイルをインポートすることで、生成手段11は、原文に記述される単語のみの用語ファイルを生成する。また、この場合においても、当該用語ファイルが有する単語と、対応する第二言語の単語と、の間における対応付けは、利用者が入力手段23を介して手動で訳語を登録することにより行われる。 In addition, the generating means 11 performs morphological analysis of sentences in the file selected by the file selection unit 0w1b, extracts word pairs with a high appearance frequency, and stores the extracted word pairs in the database DB as a glossary. do. In the present embodiment, when the import classification selected by the setting selection unit 0w1a is bilingual TB alignment, the generation unit 11 imports a transfer source file that describes a pair of an original text and a translated text. generates a glossary with the correspondence between Note that the correspondence between words in different languages is performed by the user manually registering translated words via the input means 23 . Further, when the import classification selected in the setting selection section 0w1a is monolingual TB alignment, by importing the transfer source file in which only the original text is described, the generating means 11 can extract only the words described in the original text. Generate a terminology file for Also in this case, the correspondence between the words in the terminology file and the corresponding words in the second language is performed by the user manually registering translations via the input means 23. .

なお、生成手段11によって生成された用語集及び翻訳メモリは、言語資産一覧(不図示)で確認することができる。言語資産一覧では、用語集と翻訳メモリに対応付けられた詳細情報の確認を行うことが可能であり、言語資産一覧における詳細ボタンを押下することで言語資産詳細画面(不図示)へ移行可能であってよく、編集ボタンを押下することで図5に例示されるような言語資産編集画面0w2へ移行可能であってよい。言語資産詳細画面では、選択された用語集及び翻訳メモリに対応付けられた詳細情報の編集を行うことが可能であり、例として、コメントの編集や機械翻訳への利用の可否の決定を行うことができる。 Note that the glossary and translation memory generated by the generation unit 11 can be confirmed in a language asset list (not shown). In the language asset list, it is possible to check the detailed information associated with the glossary and translation memory, and by pressing the details button in the language asset list, it is possible to move to the language asset details screen (not shown). It may be possible to shift to the language asset edit screen 0w2 as illustrated in FIG. 5 by pressing the edit button. On the language asset detail screen, it is possible to edit the detailed information associated with the selected glossary and translation memory. For example, edit comments and decide whether to use it for machine translation. can be done.

図5に例示されるように、端末装置2の出力手段22は、セグメント検索部0w2aと、指定された翻訳メモリが有するセグメントの表示と編集を行うセグメント編集部0w2bと、を含む言語資産編集画面0w2を表示する。セグメント検索部0w2aは、特定の翻訳メモリにおける各セグメント中から、利用者が入力した文章と完全一致又は部分一致するセグメントを検索する。セグメント編集部0w2bでは、検索の結果発見されたセグメントが表示され、各セグメントにおける原文と訳文の修正が可能である。また、セグメント編集部0w2bでは、編集を行ったセグメントの一時保存や、新規なセグメントの追加が可能であってよい。 As illustrated in FIG. 5, the output means 22 of the terminal device 2 displays a linguistic asset editing screen including a segment searching section 0w2a and a segment editing section 0w2b for displaying and editing segments possessed by the specified translation memory. Display 0w2. The segment search unit 0w2a searches for segments that completely or partially match the text input by the user from among the segments in a specific translation memory. Segments found as a result of the search are displayed in the segment editing section 0w2b, and it is possible to correct the original and translated sentences in each segment. Further, the segment editing unit 0w2b may be able to temporarily save edited segments and add new segments.

学習手段13は、翻訳メモリを用いた機械翻訳学習サービスの学習処理を行う(ステップS103)。本実施形態では、学習手段13は、データベースDBに記憶される1又は複数の翻訳メモリの指定を受け付け、指定された翻訳メモリをクラウドにおける機械学習に適したデータ形式に変換した後に、学習処理として、指定した機械翻訳学習サービスの学習要求と共にサーバ3に送信する。サーバ3では、サーバ1から送信された翻訳メモリを教師データとして、カスタム機械翻訳モデルが生成される。格納手段12は、カスタム機械翻訳モデルの識別情報に対して、学習処理に用いた翻訳メモリの識別情報を対応付けて格納する。この際、教師データである翻訳メモリは、言語資産選択画面(不図示)で選択される。また、ステップS103におけるカスタム機械翻訳モデルの学習は、サーバ1で行われてもよい。 The learning means 13 performs learning processing for a machine translation learning service using a translation memory (step S103). In this embodiment, the learning means 13 accepts the designation of one or more translation memories stored in the database DB, converts the designated translation memory into a data format suitable for machine learning in the cloud, and then performs the learning process. , is sent to the server 3 together with a learning request for the specified machine translation learning service. The server 3 generates a custom machine translation model using the translation memory transmitted from the server 1 as teacher data. The storage unit 12 stores the identification information of the translation memory used in the learning process in association with the identification information of the custom machine translation model. At this time, the translation memory, which is teacher data, is selected on a language asset selection screen (not shown). Also, the learning of the custom machine translation model in step S103 may be performed by the server 1 .

図6に例示されるように、端末装置2の出力手段22は、学習サービス選択部0w3aと、言語資産選択部0w3bと、学習設定確定部0w3cと、を含む再学習画面0w3を表示する。学習サービス選択部0w3aでは、どのような分野で用いられるカスタム機械翻訳モデルを生成するかを選択可能であり、アダプテーションが行われる汎用の機械翻訳学習サービスを選択可能である。言語資産選択部0w3bでは、言語資産選択画面(不図示)へ移行するためのボタンと、選択された言語資産(翻訳メモリ)の一覧と、が表示される。言語資産選択画面では、1又は複数の言語資産が選択可能であり、言語資産の名称やアップロードした日付等の条件によって言語資産を検索可能であってよい。言語資産の一覧には、選択された言語資産の名称、ファイルの種類、インポート区分、言語、学習設定、アップロードの日付、及び、データ量等の情報が表示されてよい。本実施形態では、言語資産選択部0w3bで選択された翻訳メモリの原文と訳文の設定を反転可能であってよい。学習設定確定部0w3cを押下することで、選択された機械翻訳学習サービスと、翻訳メモリと、を用いた学習処理が開始され、カスタム機械翻訳モデルが生成される。 As illustrated in FIG. 6, the output unit 22 of the terminal device 2 displays a re-learning screen 0w3 including a learning service selection section 0w3a, a language asset selection section 0w3b, and a learning setting determination section 0w3c. In the learning service selection unit 0w3a, it is possible to select in what field a custom machine translation model is to be generated, and it is possible to select a general-purpose machine translation learning service for which adaptation is performed. The language asset selection section 0w3b displays a button for shifting to a language asset selection screen (not shown) and a list of selected language assets (translation memories). On the linguistic asset selection screen, one or more linguistic assets can be selected, and linguistic assets can be searched according to conditions such as the name of the linguistic asset and the upload date. The list of language assets may display information such as the name of the selected language asset, file type, import classification, language, learning settings, upload date, and data volume. In this embodiment, it may be possible to reverse the setting of the original text and the translated text of the translation memory selected by the language asset selection unit 0w3b. By pressing the learning setting confirmation section 0w3c, learning processing using the selected machine translation learning service and translation memory is started, and a custom machine translation model is generated.

設定手段14は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行い、サーバ3に用語集を送信し、記憶させる(ステップS104)。格納手段12は、設定済み機械翻訳モデルの識別情報に対して、設定処理に用いた用語集の識別情報を対応付けて格納する。この際、機械翻訳モデルは1つのみ選択可能であり、用語集は1又は複数選択可能であってよい。また、ステップS104における設定処理は、設定手段14が、サーバ1が予めデータベースDBに記憶する既存の機械翻訳モデルと、用語集と、を対応付けることで行われてよく、格納手段12は、当該設定済み機械翻訳モデルの識別情報と、当該用語集の識別情報を対応付けて格納してよい。 The setting means 14 performs setting processing for associating the custom machine translation model with the terminology, and transmits and stores the terminology to the server 3 (step S104). The storage unit 12 stores the identification information of the set machine translation model in association with the identification information of the terminology used in the setting process. At this time, only one machine translation model can be selected, and one or more terminology can be selected. Further, the setting process in step S104 may be performed by the setting means 14 by associating an existing machine translation model stored in the database DB in advance by the server 1 with the terminology. The identification information of the completed machine translation model and the identification information of the terminology may be associated and stored.

翻訳手段15は、利用者による設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定、及び、翻訳を希望する原文の入力を受け付け、当該指定された設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、当該入力された文章の翻訳処理を行う(ステップS105)。本実施形態において、翻訳手段15は翻訳処理として、入力手段23を介して入力された文章及び設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定を、翻訳要求と共にサーバ3に送信し、サーバ3では、指定された当該設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、入力された文章の翻訳を行う。サーバ3は、翻訳された文章をサーバ1に返送し、出力処理手段16は、当該文章を端末装置2に表示処理する。なお、翻訳処理は、サーバ1のデータベースDBに記憶される設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づいて行われてもよい。 The translation means 15 accepts the user's designation of a set machine translation model or custom machine translation model, and the input of the original text desired to be translated, and based on the designated set machine translation model or custom machine translation model, The input text is translated (step S105). In this embodiment, the translation means 15 transmits the text input via the input means 23 and the specification of the set machine translation model or the custom machine translation model to the server 3 together with the translation request as a translation process, and the server 3 , translates the input text based on the specified set machine translation model or custom machine translation model. The server 3 returns the translated text to the server 1 and the output processing means 16 displays the text on the terminal device 2 . Note that the translation process may be performed based on a preset machine translation model or a custom machine translation model stored in the database DB of the server 1. FIG.

本発明によれば、言語資産管理システムに係る新規な技術を提供することができる。 According to the present invention, it is possible to provide a novel technology related to a language asset management system.

1 :サーバ
2 :端末装置
3 :サーバ
101 :演算デバイス
102 :主記憶デバイス
103 :補助記憶デバイス
104 :入力デバイス
105 :出力デバイス
106 :通信デバイス
201 :演算デバイス
202 :主記憶デバイス
203 :補助記憶デバイス
204 :入力デバイス
205 :出力デバイス
206 :通信デバイス
11 :生成手段
12 :格納手段
13 :学習手段
14 :設定手段
15 :翻訳手段
16 :出力処理手段
21 :インポート手段
22 :出力手段
23 :入力手段

1 : Server 2 : Terminal Device 3 : Server 101 : Computing Device 102 : Main Storage Device 103 : Auxiliary Storage Device 104 : Input Device 105 : Output Device 106 : Communication Device 201 : Computing Device 202 : Main Storage Device 203 : Auxiliary Storage Device 204: input device 205: output device 206: communication device 11: generation means 12: storage means 13: learning means 14: setting means 15: translation means 16: output processing means 21: import means 22: output means 23: input means

Claims (9)

原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて、1又は複数の翻訳メモリと用語集によって利用者が任意にカスタムした機械翻訳モデルを前記機械翻訳モデルとして管理する言語資産管理システムであって、
前記利用者によってインポートされた原文及び訳文の双方の言語による文章又は用語が記述された転送元ファイルに基づき、前記翻訳メモリ及び/又は前記用語集を生成する手段と、
生成した前記翻訳メモリ及び、前記用語集のそれぞれに識別情報を対応付けて格納する手段と、
1又は複数の前記翻訳メモリを用いた前記機械翻訳モデルの学習処理並びに、1又は複数の前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタムされた機械翻訳モデルの識別情報に対して前記学習処理に用いた前記翻訳メモリ及び、前記設定処理に用いた前記用語集の識別情報を対応付けて登録する手段と、を備え、
前記登録する手段は、前記カスタムされた機械翻訳モデルを複数登録可能であって、複数の前記カスタムされた機械翻訳モデルに対応付けられた前記翻訳メモリはそれぞれ異なる言語資産管理システム。
A machine translation model that translates an original sentence into a translated sentence, a translation memory that translates the original sentence and the translated sentence of the sentence in parallel, and a glossary that translates the original sentence and the translated sentence of the terminology are associated with one or more translation memories and glossaries. A language asset management system that manages a machine translation model arbitrarily customized by a user as the machine translation model ,
means for generating the translation memory and/or the glossary based on a transfer source file in which sentences or terms in both the original and translated languages imported by the user are described ;
means for storing identification information in association with each of the generated translation memory and the glossary ;
Perform learning processing of the machine translation model using one or more of the translation memories and setting processing of one or more of the terminology to the machine translation model, and for identification information of the customized machine translation model means for registering the translation memory used in the learning process and the identification information of the glossary used in the setting process in association with each other ;
The means for registering can register a plurality of the customized machine translation models, and the translation memories associated with the plurality of customized machine translation models are different from each other .
前記言語資産管理システムは、利用者による翻訳対象である文章の入力及び、登録された複数の前記カスタムされた機械翻訳モデルの中から翻訳に利用する前記カスタムされた機械翻訳モデルの指定を受け付け、指定された前記カスタムされた機械翻訳モデルに基づき入力された前記翻訳対象である文章の翻訳処理を行う手段を有する請求項1に記載の言語資産管理システム。The language asset management system accepts input of text to be translated by the user and designation of the customized machine translation model to be used for translation from among the plurality of registered customized machine translation models, 2. The language asset management system according to claim 1, further comprising means for translating the input text to be translated based on the specified customized machine translation model. 前記言語資産管理システムは、アダプテーションの対象となる機械翻訳学習サービスを選択可能に構成され、The language asset management system is configured to be able to select a machine translation learning service to be adapted,
前記登録する手段は、選択された前記機械翻訳学習サービスに対して前記学習処理及び、前記設定処理が行われることで、前記カスタムされた機械翻訳モデルを登録可能であり、前記カスタムされた機械翻訳モデルの識別情報に、前記学習処理を行う際に選択された前記機械翻訳学習サービスを対応付けて登録する請求項1又は2に記載の言語資産管理システム。The means for registering can register the customized machine translation model by performing the learning process and the setting process for the selected machine translation learning service, and the customized machine translation 3. The language asset management system according to claim 1, wherein the identification information of the model is registered in association with the machine translation learning service selected when performing the learning process.
前記生成する手段は更に、原文のみが記述された転送元ファイルにおける文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成する請求項1~3の何れかに記載の言語資産管理システム。 4. The language asset management system according to any one of claims 1 to 3, wherein said generating means further generates said translation memory based on a sentence in a transfer source file in which only original sentences are described and said machine translation model. 前記生成する手段は更に、前記翻訳メモリにおける前記原文と前記訳文の対である各セグメントにおいて前記訳文の逆翻訳を行うことで逆翻訳文を生成し、前記原文と前記逆翻訳文との間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成する請求項1~4の何れかに記載の言語資産管理システム。 The generating means further generates a reverse-translated sentence by reverse-translating the translated sentence in each segment that is a pair of the original sentence and the translated sentence in the translation memory, and 5. The language asset management system according to any one of claims 1 to 4 , wherein translation accuracy is evaluated as a score value based on an edit distance, and said translation memory is generated from said segment having said score value higher than a threshold value. 前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成する請求項1~5の何れかに記載の言語資産管理システム。 The generating means further evaluates the translation accuracy as the score value based on the number of corresponding words and non-corresponding words between the original sentence and the translated sentence of the sentence, and the score value is higher than the threshold. 6. The language asset management system according to any one of claims 1 to 5 , which generates a memory. 前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、
前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有する請求項5又は6に記載の言語資産管理システム。
The means for generating further generates the translation memory from the segment for which the translation accuracy is lower than a threshold;
7. The language asset management system according to claim 5 , further comprising means for said user to edit said segment.
原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて、1又は複数の翻訳メモリと用語集によって利用者が任意にカスタムした機械翻訳モデルを前記機械翻訳モデルとして管理する言語資産管理プログラムであって、コンピュータを、
前記利用者によってインポートされた原文及び訳文の双方の言語による文章又は用語が記述された転送元ファイルに基づき、前記翻訳メモリ及び/又は前記用語集を生成する手段と、
生成した前記翻訳メモリ及び、前記用語集のそれぞれに識別情報を対応付けて格納する手段と、
1又は複数の前記翻訳メモリを用いた前記機械翻訳モデルの学習処理並びに、1又は複数の前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタムされた機械翻訳モデルの識別情報に対して前記学習処理に用いた前記翻訳メモリ及び、前記設定処理に用いた前記用語集の識別情報を対応付けて登録する手段と、として機能させ、
前記登録する手段は、前記カスタムされた機械翻訳モデルを複数登録可能であって、複数の前記カスタムされた機械翻訳モデルに対応付けられた前記翻訳メモリはそれぞれ異なる言語資産管理プログラム。
A machine translation model that translates an original sentence into a translated sentence, a translation memory that translates the original sentence and the translated sentence of the sentence in parallel, and a glossary that translates the original sentence and the translated sentence of the terminology are associated with one or more translation memories and glossaries. A language asset management program that manages a machine translation model arbitrarily customized by a user as the machine translation model, wherein the computer is
means for generating the translation memory and/or the glossary based on a transfer source file in which sentences or terms in both the original and translated languages imported by the user are described ;
means for storing identification information in association with each of the generated translation memory and the glossary ;
Perform learning processing of the machine translation model using one or more of the translation memories and setting processing of one or more of the terminology to the machine translation model, and for identification information of the customized machine translation model Functioning as a means for registering the translation memory used in the learning process and the identification information of the glossary used in the setting process in association with each other ,
The means for registering can register a plurality of the customized machine translation models, and the translation memories associated with the plurality of customized machine translation models are different from each other .
原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて、1又は複数の翻訳メモリと用語集によって利用者が任意にカスタムした機械翻訳モデルを前記機械翻訳モデルとして言語資産管理方法であって、コンピュータが、
前記利用者によってインポートされた原文及び訳文の双方の言語による文章又は用語が記述された転送元ファイルに基づき、前記翻訳メモリ及び/又は前記用語集を生成するステップと、
生成した前記翻訳メモリ及び、前記用語集のそれぞれに識別情報を対応付けて格納するステップと、
1又は複数の前記翻訳メモリを用いた前記機械翻訳モデルの学習処理並びに、1又は複数の前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタムされた機械翻訳モデルの識別情報に対して前記学習処理に用いた前記翻訳メモリ及び、前記設定処理に用いた前記用語集の識別情報を対応付けて登録するステップと、を備え、
前記登録するステップは、前記カスタムされた機械翻訳モデルを複数登録可能であって、複数の前記カスタムされた機械翻訳モデルに対応付けられた前記翻訳メモリはそれぞれ異なる言語資産管理方法。
A machine translation model that translates an original sentence into a translated sentence, a translation memory that translates the original sentence and the translated sentence of the sentence in parallel, and a glossary that translates the original sentence and the translated sentence of the terminology are associated with one or more translation memories and glossaries. A language asset management method in which a machine translation model arbitrarily customized by a user is used as the machine translation model, wherein the computer
generating the translation memory and/or the glossary based on a transfer source file in which sentences or terms in both the original and translated languages imported by the user are described ;
a step of storing identification information in association with each of the generated translation memory and the glossary ;
Perform learning processing of the machine translation model using one or more of the translation memories and setting processing of one or more of the terminology to the machine translation model, and for identification information of the customized machine translation model a step of associating and registering the translation memory used in the learning process and the identification information of the glossary used in the setting process ;
In the registering step, a plurality of the customized machine translation models can be registered, and the translation memories associated with the plurality of the customized machine translation models are different from each other .
JP2021176759A 2021-10-28 2021-10-28 Language asset management system, language asset management method, and language asset management program Active JP7107609B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021176759A JP7107609B1 (en) 2021-10-28 2021-10-28 Language asset management system, language asset management method, and language asset management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021176759A JP7107609B1 (en) 2021-10-28 2021-10-28 Language asset management system, language asset management method, and language asset management program

Publications (2)

Publication Number Publication Date
JP7107609B1 true JP7107609B1 (en) 2022-07-27
JP2023066183A JP2023066183A (en) 2023-05-15

Family

ID=82607866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021176759A Active JP7107609B1 (en) 2021-10-28 2021-10-28 Language asset management system, language asset management method, and language asset management program

Country Status (1)

Country Link
JP (1) JP7107609B1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234700A1 (en) 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
WO2009004723A1 (en) 2007-07-04 2009-01-08 Fujitsu Limited Translation support program, translation support apparatus and method of translation support
JP2009116585A (en) 2007-11-06 2009-05-28 Toshiba Corp Machine translation device and machine translation program
JP2009217689A (en) 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology Information processor, information processing method, and program
JP2012190080A (en) 2011-03-08 2012-10-04 Internatl Business Mach Corp <Ibm> Method, program and system for finding correspondence between terms
US20180143975A1 (en) 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
CN111859995A (en) 2020-06-16 2020-10-30 北京百度网讯科技有限公司 Training method and device of machine translation model, electronic equipment and storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298360A (en) * 1992-04-17 1993-11-12 Hitachi Ltd Method and device for evaluating translated sentence, machine translation system with translated sentence evaluating function and machine translation system evaluating device
JP3305953B2 (en) * 1996-06-19 2002-07-24 沖電気工業株式会社 Translation pattern creation method and apparatus
KR20150052400A (en) * 2013-11-04 2015-05-14 주식회사 에버트란 System for providing translation service using translation bank

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234700A1 (en) 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
WO2009004723A1 (en) 2007-07-04 2009-01-08 Fujitsu Limited Translation support program, translation support apparatus and method of translation support
JP2009116585A (en) 2007-11-06 2009-05-28 Toshiba Corp Machine translation device and machine translation program
JP2009217689A (en) 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology Information processor, information processing method, and program
JP2012190080A (en) 2011-03-08 2012-10-04 Internatl Business Mach Corp <Ibm> Method, program and system for finding correspondence between terms
US20180143975A1 (en) 2016-11-18 2018-05-24 Lionbridge Technologies, Inc. Collection strategies that facilitate arranging portions of documents into content collections
CN111859995A (en) 2020-06-16 2020-10-30 北京百度网讯科技有限公司 Training method and device of machine translation model, electronic equipment and storage medium
JP2021197188A (en) 2020-06-16 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Training method of machine translation model, device, electronic device, and storage medium

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Imankulova Aizhan 外2名,逆翻訳による高品質な大規模擬似対訳コーパスの作成,言語処理学会第23回年次大会 発表論文集 [online] ,日本,言語処理学会,2017年03月06日,pp.210-213
土井 惟成 外2名,コーポレート・ガバナンス報告書における機械翻訳の検討,言語処理学会第25回年次大会 発表論文集 [online],日本,言語処理学会,2019年03月04日,pp.926-929
土井 惟成 外3名,上場会社開示資料の日英対訳コーパスの自動生成に関する検討,言語処理学会第27回年次大会 発表論文集 [online],日本,言語処理学会,2021年03月08日,pp.1535-1539
後藤 統興 外2名,対象ドメインの高頻出句に対する人手対訳追加による講義音声翻訳の検討,情報処理学会 研究報告 自然言語処理(NL) 2016-NL-226 [online] ,日本,情報処理学会,2016年05月09日,pp.1-8
森下 睦 外2名,クラウドソーシングによるWebサイトマイニングを用いた翻訳モデルの即時領域適応,言語処理学会第27回年次大会 発表論文集 [online],日本,言語処理学会,2021年03月08日,pp.1397-1402
深津 康行,第11回 機械学習サービスその3 追加学習で業務に合わせた文章分類を実現 特殊な専門用語を扱える機械翻訳モデルも,日経クラウドファースト,日本,日経BP社 Nikkei Business Publications,Inc.,2019年02月20日,第35号,pp.32-36

Also Published As

Publication number Publication date
JP2023066183A (en) 2023-05-15

Similar Documents

Publication Publication Date Title
JP2021089705A (en) Method and device for evaluating translation quality
EP2947581B1 (en) Interactive searching method and apparatus
CN110019732B (en) Intelligent question answering method and related device
CN111191012B (en) Knowledge graph generation device and method and computer readable storage medium thereof
JP6693582B2 (en) Document abstract generation method, device, electronic device, and computer-readable storage medium
CN108717437B (en) Search result display method and device and storage medium
WO2021174864A1 (en) Information extraction method and apparatus based on small number of training samples
CN116127020A (en) Method for training generated large language model and searching method based on model
EP4123474A1 (en) Method for acquiring structured question-answering model, question-answering method and corresponding apparatus
CN111597804A (en) Entity recognition model training method and related device
CN116303537A (en) Data query method and device, electronic equipment and storage medium
CN112582073B (en) Medical information acquisition method, device, electronic equipment and medium
CN109471957B (en) Metadata conversion method and device based on uniform tags
JP2021056659A (en) Information processing device, information processing method and information processing program
CN114141384A (en) Method, apparatus and medium for retrieving medical data
JP7107609B1 (en) Language asset management system, language asset management method, and language asset management program
CN111814496A (en) Text processing method, device, equipment and storage medium
JP2023012541A (en) Question answering method, device, and electronic apparatus based on table
CN115757720A (en) Project information searching method, device, equipment and medium based on knowledge graph
CN111859985A (en) AI customer service model testing method, device, electronic equipment and storage medium
CN115376153B (en) Contract comparison method, device and storage medium
TWI220203B (en) Method for mobile device real-time edit and access on-line data
US20230214688A1 (en) Method, Apparatus for Determining Answer to Question, Device, Storage Medium and Program Product
CN111738024B (en) Entity noun labeling method and device, computing device and readable storage medium
CN115358186B (en) Generating method and device of slot label and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211028

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220707

R150 Certificate of patent or registration of utility model

Ref document number: 7107609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150