JP5204529B2

JP5204529B2 - 翻訳プログラム、翻訳システム及び対訳データ生成方法

Info

Publication number: JP5204529B2
Application number: JP2008089326A
Authority: JP
Inventors: 陸男高野; 諭白井; 一純大島; 雅敏小野
Original assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Current assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Priority date: 2008-03-31
Filing date: 2008-03-31
Publication date: 2013-06-05
Anticipated expiration: 2028-03-31
Also published as: JP2009245053A

Description

本発明は、翻訳プログラム、翻訳システム及び対訳データ生成方法に関する。

一つの言語を他の言語に翻訳する翻訳システムの研究が行われており、種々の翻訳システムが開発されている。

しかし、人が発信する情報の内容や構成は非常に多様であることから、処理能力が高いハードウエア（コンピュータ等）や膨大なデータベースを用いた場合でも、精度のよい翻訳を実現することは困難であった。
特開平９−２５８７７６号公報特開平４−５４６７０号公報

背景技術において、２つの基本的な問題が存在する。

第一は、翻訳の忠実度である。具体的には、原文データが少しでも異なれば、できる限り差異を持たせた訳文を構成しようとする方向性である。このため、翻訳に使用するデータ量が多いほど翻訳品質の向上すると仮定して、データベース規模の増大を招いているほか、データベース規模の増大につれて、収録内容の無矛盾性の保証が難しくなり、データベース維持のためのコストも増大するという問題がある。一方、人間が外国語によるコミュニケーションを行う場合、数千語の語彙知識があれば、タスク達成が十分可能であることから、翻訳システムが真に必要とするデータ量については再検討すべき段階に来ている。

第二は、入力の正確さである。一般に、翻訳システムの入力は正しい文であることが前提となっている。しかし、思いつきでしゃべった文や書きなぐった文には、語彙や文法的な誤りが含まれることが少なくなく、翻訳システムの入力としては不適当であるとされる。しかし、誤りを含んでいても、些細なものであれば人間同士のコミュニケーションには支障が生じないことから、原文入力に含まれる語句を１語１語同じ重みでチェックし翻訳するという、現在の翻訳システムの前提条件を見直すことも必要である。

本発明の目的は、処理負荷が小さく、かつ、翻訳精度の高い翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法を提供することにある。

（１）本発明に係る翻訳プログラムは、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。
（２）この翻訳プログラムは、
前記翻訳処理部は、
入力された原文データから特徴語を抽出する特徴語抽出処理部を含み、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部から前記特徴語を含む第１言語単文データを抽出して、抽出結果に基づきいずれかの第１言語単文データを翻訳対象として選択してもよい。

翻訳対象選択処理部は、
特徴語を含む第１言語単文データが複数抽出された場合には、抽出された複数の第１言語単文データと原文データの類似度を判断し、判断結果に基づき第１言語単文データを選択してもよい。例えば最も類似度が高いと判断した第１言語単文データを選択してもよい。
（３）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連した管理ＩＤ（例えば同じ管理ＩＤ）に対応付けて記憶されており、
前記対訳出力処理部は、
前記管理ＩＤ（例えば同じ管理ＩＤ）に基づき対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。

関連した管理ＩＤとは例えば同じ管理ＩＤでもよい。
（４）この翻訳プログラムは、
第１言語で表現された複数の第１言語語句データと、第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部（単語、慣用句辞書）と、
翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部とを含み、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。
（５）この翻訳プログラムは、
第１言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部をさらに含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データの後ろに、読み出した第２言語語句データを添付して前記訳文データとして出力してもよい。
（６）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
原文データに基づき抽出された第１言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第１言語単文データを翻訳対象として抽出してもよい。
（７）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第２言語単文データがグループ化されて記憶され、グループに属するいずれかの第２言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第１言語単文データと対訳関係を有する第２言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第２言語単文データに基づき前記訳文データを出力してもよい。
（８）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとがグループ単位で関連付けられていてしてもよい。
（９）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データに含まれる特徴語が記憶されており、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第１言語単文データを抽出してもよい。
（１０）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの利用場面に関するデータ利用場面情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの利用場面に関する原文利用場面情報を受け取り、
前記翻訳対象選択処理部は、
前記原文利用場面情報とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。
（１１）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの話し手／聞き手に関するデータ話し手／聞き手情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの話し手／聞き手に関する原文話し手／聞き手情報を受け取り、
前記翻訳対象選択処理部は、
前記原文話し手／聞き手情報とデータ話し手／聞き手情報とに基づいて翻訳対象を選択してもよい。
（１２）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの事実／質問に関するデータ事実／質問情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの事実／質問に関する原文事実／質問情報を受け取り、
前記翻訳対象選択処理部は、
前記原文事実／質問情報とデータ事実／質問情報とに基づいて翻訳対象を選択してもよい。
（１３）この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部から特徴語を含む複数の第１言語単文データを抽出し、原文データにおける前記複数の第１言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第１言語単文データを翻訳対象として選択し、
前記対訳出力処理部は、
翻訳対象となった前記複数の第１言語単文データとそれぞれ対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出し、読み出された複数の第２言語単文データを接続して前記訳文データとして出力してもよい。
（１４）この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記前記原文データに基づいて複数の第１言語単文データを抽出し、抽出された複数の第１言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第１言語単文データを選択してもよい。
（１５）本発明に係る翻訳システムは、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。
（１６）本発明に係る対訳データベースの製造方法は、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、
対訳関係を有する前記第１言語単文データと前記第２言語単文データとを関連した管理ＩＤに対応付けて記憶させる。
（１７）この対訳データベースの製造方法は、
意味内容が同じで表現形式が異なる複数の第１言語単文データ及び意味内容が同じで表現形式が異なる複数の第１言語単文データをグループ化して記憶させ、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとをグループ単位で、関連した管理ＩＤで管理してもよい。
（１８）この対訳データベースの製造方法は、
前記グループに属するいずれかの第１言語単文データ及び第２言語単文データの少なくとも一方に代表データの指定を行ってもよい。

以下、本発明を適用した実施の形態について図面を参照して説明する。ただし、本発明は以下の実施の形態に限定されるものではない。また、本発明は、以下の実施の形態及び変形例を自由に組み合わせたものを含むものとする。

（第１の実施の形態）
以下、本発明を適用した第１の実施の形態に係る翻訳システム１について説明する。
１．翻訳システム１の構成
図１は本実施の形態の翻訳システム（または翻訳プログラムをコンピュータで実行することにより実現される各部）１の機能ブロック図である。

本実施形態の翻訳システム１は、図１の構成要素（各部）を全て含む必要はなく、その一部を省略した構成としてもよい。

本実施形態の翻訳システム１は、第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部３２と、前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部４０とを含む。

前記翻訳処理部４０は、前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部４４と、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部４８とを含む。

一般的に、「単文」とは、「主語と述語の関係を一組だけ含む文」と定義される。しかし本発明では、「単文」とは、これよりも広い概念を含むものとする。例えば日本語では主語（主格）が省略されることがあるが、本発明では、主語が省略された語句も、当然に「単文」に含まれる。また、文法上、複文（主節と従属節から成る文）として分類される構文の語句であっても、慣用句的にひとまとまりの語句として利用されている語句は、単文に含ませてもよい。すなわち、本発明では、「単文」を、「複数の単語を含む語句であって、１つの意味を表す語句（ひとまとまりの語句）」ととらえてもよい。

対訳関係を有する第１言語単文データと第２言語単文データは、１対１の対応関係であっても良いし、多対１または１対多の対応関係であっても良いし、多対多の対応関係であっても良い。

前記翻訳処理部４０は、前記第１の対訳データ記憶部３２を検索して、前記第１の対訳データ記憶部に、前記原文データ（テキストデータ）と一致する第１言語単文データ（テキストデータ）が記憶されているか否か判断し、記憶されていると判断した場合に、当該第１言語単文データを選択するようにしてもよい。

また翻訳処理部４０は、入力された原文データから特徴語を抽出する特徴語抽出処理部４２を含み、前記翻訳対象選択処理部４４は、前記第１の対訳データ記憶部３２から前記特徴語を含む第１言語単文データを抽出して、抽出結果に基づきいずれかの第１言語単文データを翻訳対象として選択してもよい。

また翻訳対象選択処理部４４は、特徴語を含む第１言語単文データが複数抽出された場合には、抽出された複数の第１言語単文データと原文データの類似度を判断し、判断結果に基づき第１言語単文データを選択してもよい。例えば最も類似度が高いと判断した第１言語単文データを選択してもよい。

特徴語と第１の対訳データ記憶部に記憶された第１言語単文データとの関連づけを予め行っておいても良い。例えば特徴語と特徴語を含む第１言語単文データの関係リストを生成しておいても良いし、第１の対訳データ記憶部の第１言語単文データに特徴語を示す情報を付しておいても良い。

特徴語抽出処理部４２は、原文データを複数の語句に分割して特徴語を抽出してもよい。例えば既存の解析手法（形態素解析手法、ストップワード処理、キーワードスポッティング等）を用いて、単語分割や名詞や動詞を抽出して特徴語を抽出してもよい。例えば特徴がないものを予めリストアップしておいて文から削除してから特徴語を抽出してもよい。また所定のキーワード（例えば「できますか」）というキーワードを登録しておいて、キーワードの前を特徴語と判断してもよい。

また音声入力を音声認識して原文データが生成される場合には音声認識による単語境界情報をうけとり、原文データを複数の語句に分割してもよい。

また前記第１の対訳データ記憶部３２は、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連した管理ＩＤ（例えば同じ管理ＩＤ）に対応付けて記憶されており、前記対訳出力処理部４８は、前記管理ＩＤ（例えば同じ管理ＩＤ）に基づき対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。

関連した管理ＩＤとは例えば同じ管理ＩＤでもよい。

前記対訳出力処理部４８は、選択された第１言語単文データと同じ管理ＩＤに対応付けられた第２言語単文データを前記第１の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。

また本実施形態の翻訳システム１は、第１言語で表現された複数の第１言語語句データと、第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部（単語、慣用句辞書）３４と、翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部３４から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部４６とを含み、前記対訳出力処理部４８は、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

前記対訳出力処理部４８は、翻訳対象として選択された第１言語単文データの後ろに、読み出した第２言語語句データを添付して前記訳文データとして出力してもよい。

また本実施形態の翻訳システム１は、第１言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部３６をさらに含み、前記翻訳対象選択処理部４４は、前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択し、前記補足語抽出処理部４６は、前記関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部３４から読み出し、前記対訳出力処理部４８は、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

代表語句とは例えば単語である。代表語句に対する関連語句とは例えば代表語句の代替え語（同じ意味で表記や異なる単語、言い換えても同じ意味となる単語等）となる単語でもよいし、類似語でもよい。

関連語句情報は、例えば関連語句と関連語句に対応する代表語句の情報でもよい。また関連語句の種別（例えば代替語か類似語）の情報を含んでもよい。関連語句情報記憶部には、関連語句に対して対応する代表語句と関連語句の種別情報が関連づけて記憶されていてもよい。

このようにすると、代表語句と関連語句を置き換え可能な文については、代表語句を用いた第１の言語単文データを用意すると、代表語句が関連語句に置換された文については第１の言語単文データを用意しなくても良い。従って第１の対訳データ記憶部の容量を削減することができるとともに、マッチング率を向上させることができる。

また前記第１の対訳データ記憶部３２は、意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、前記翻訳対象選択処理部４４は、原文データに基づき抽出された第１言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第１言語単文データを翻訳対象として抽出してもよい。

前記第１の対訳データ記憶部４４は、意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データとが関連付けられて記憶されていてもよい。

原文の言語に対応する第１言語単文データが意味内容が同じで表現形式が異なる複数の表現形式をもちグループ化されていると、バリエーションのある入力に対応が可能である。そして第２の言語データについてはグループの対訳として１種類の第２言語単文データをもつようにしてもよい。このようにすると少ないデータ量でバリエーションのある入力の翻訳に対応可能となる。

また前記第１の対訳データ記憶部３２は、意味内容が同じで表現形式が異なる複数の第２言語単文データがグループ化されて記憶され、グループに属するいずれかの第２言語単文データに代表データの指定がされており、前記対訳出力処理部４８は、選択された第１言語単文データと対訳関係を有する第２言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第２言語単文データに基づき前記訳文データを出力してもよい。

また前記第１の対訳データ記憶部３２は、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとがグループ単位で関連付けられていてしてもよい。

例えば対訳関係を有するグループに同じグループＩＤを与えて管理してもよい。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データに含まれる特徴語がきおくされており、前記翻訳対象選択処理部４４は、前記第１の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第１言語単文データを抽出してもよい。

例えば第１の対訳データ記憶部に、特徴語と当該特徴語を含む第１言語単文データとの索引情報を記憶させても良い。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データの利用場面に関するデータ利用場面情報が記憶されており、各種設定情報入力部１４は、前記第１言語で表現された原文データに関連づけて前記原文データの利用場面に関する原文利用場面情報１５を受け取り、前記翻訳対象選択処理部４４は、前記原文利用場面情報１５とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。

このようにすると、利用場面で検索対象または抽出対象となる第１言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。

意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ利用場面情報が記憶されていてもよい。

前記原文利用場面情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データの話し手／聞き手に関するデータ話し手／聞き手情報が記憶されており、各種設定情報入力部１４は、前記第１言語で表現された原文データに関連づけて、前記原文データの話し手／聞き手に関する原文話し手／聞き手情報１６を受け取り、前記翻訳対象選択処理部４４は、前記原文話し手／聞き手情報１６とデータ話し手／聞き手情報とに基づいて翻訳対象を選択してもよい。

このようにすると、話し手／聞き手の別で検索対象または抽出対象となる第１言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。

意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ話し手／聞き手情報が記憶されていてもよい。

前記話し手／聞き手情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。

なお音声入力の音声認識により原文データが生成される場合には、持ち主の声を判別して、持ち主の声である場合には話し手と自動判別するようにしてもよい。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データの事実／質問に関するデータ事実／質問情報が記憶されており、前記各種設定情報入力部１４は、前記第１言語で表現された原文データに関連づけて、前記原文データの事実／質問に関する原文事実／質問情報１７を受け取り、前記翻訳対象選択処理部４４は、前記原文事実／質問情報１７とデータ事実／質問情報とに基づいて翻訳対象を選択してもよい。

このようにすると、事実／質問の別で検索対象または抽出対象となる第１言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止しし、効率のよい検索や抽出を行うことができる。

意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ事実／質問情報が記憶されていてもよい。

前記事実／質問情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。

また前記翻訳対象選択処理部４４は、前記第１の対訳データ記憶部から特徴語を含む複数の第１言語単文データを抽出し、原文データにおける前記複数の第１言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第１言語単文データを翻訳対象として選択し、前記対訳出力処理部４８は、翻訳対象となった前記複数の第１言語単文データとそれぞれ対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出し、読み出された複数の第２言語単文データを接続して前記訳文データとして出力してもよい。

また前記翻訳対象選択処理部４４は、前記前記原文データに基づいて複数の第１言語単文データを抽出し、抽出された複数の第１言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第１言語単文データを選択してもよい。

類似度判断処理として、例えば抽出された各第１言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第１言語単文データについて、当該第１言語単文データに対する一致文字数の比率（一致文字数／第１言語単文データの文字数）と原文データに対する一致文字数の比率（一致文字数／原文データの文字数）の両方に基づいて、各第１言語単文データと原文データとの類似度を判断してもよい。

図２は本実施の形態の構成を示す図である。

本実施の形態の翻訳システム１は、図１で説明した各部としてコンピュータを機能させることにより実現することができる。

本実施の形態に係る翻訳システム１は、入力部１０を含む。入力部１０は、ユーザが所与の語句（原文）を入力するための原文入力部１２として機能する。なお、原文とは、翻訳システム１（翻訳装置）が翻訳の対象とする語句である。そして、入力部１０は、ユーザの原文入力操作（動作）を受け付けて、原文に対応する原文データ１３を出力する。

翻訳システム１に適用可能な入力部１０は特に限定されず、既に公知となっているいずれかの入力装置（ユーザインターフェース）を適用することができる。入力部１０は、ユーザが文字として原文を入力する装置であってもよい。このとき、入力部１０は、押しボタンや操作レバー、タッチパネル等のハードウエアによって実現してもよい。

あるいは、入力部１０は、ユーザが音声として原文を入力する装置であってもよい。このとき、入力部１０は、既に公知となっているいずれかのマイクロフォン（音声入力装置）によって実現してもよい。なお入力部１０は、ユーザが音声として原文を入力する装置である場合には音声データの音声認識を行い認識結果として音声データに対応するテキストデータが生成されて、当該テキストデータが原文データとして出力される。

また入力部１０は各種設定情報入力部１４として機能する。各種設定情報とは原文の利用場面を特定するための原文利用場面情報１５や、原文が話し手の文なのか聞き手の文なのかを特定する原文話し手／聞き手情報１６や、原文が事実を述べる文であるか質問文であるかを特定する原文事実／質問情報１７を含んでもよい。これらは例えばメニュー画面等から入力されるようにしてもよい。

本実施の形態に係る翻訳システム１は、出力装置６０を含んでいてもよい。出力装置６０は、例えば、表示部６２や音声出力部６４であってもよい。ここで、表示部６２とは、ＣＲＴディスプレイ、ＬＣＤ、ＯＥＬＤ、ＰＤＰ、タッチパネル型ディスプレイ等のハードウエアによって実現してもよい。また、音声出力部６４とは、スピーカやヘッドフォン等のハードウエアによって実現してもよい。

本実施の形態に係る翻訳システム１は、操作部８０を含んでいてもよい。操作部８０は、ユーザの操作をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル等によって実現してもよい。操作部８０は、例えば、第１言語（原文データとして入力される言語）や第２言語（訳文データとして出力する言語）を指定する情報を入力する装置であってもよい。操作部８０は、各種入力情報１５，１６，１７を入力する装置であってもよい。

記憶部１７０は、処理部１１０や通信部１９６などのワーク領域となるもので、その機能はＲＡＭなどのハードウェアにより実現できる。

本実施の形態に係る翻訳システム１は、記憶部３０を含む。記憶部３０は、主記憶部やワーク領域として使用される揮発性記憶部やプログラムやデータなどを格納する不揮発性の記憶部や各種情報記憶媒体（コンピュータにより読み取り可能な媒体）であり、その機能は、ＲＡＭ、光ディスク（ＣＤ、ＤＶＤ等）、光磁気ディスク（ＭＯ）、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ（ＲＯＭ）などのハードウェアにより実現できる。

本実施の形態に係る翻訳システム１は、処理部１００を含む。処理部１００は、本実施の形態の翻訳プログラム（記憶部３０に格納されていてもよい）やデータなどに基づいて本実施形態の種々の処理を行うもので、その機能は、各種プロセッサ（ＣＰＵ、ＤＳＰ等）で本実施の形態の翻訳プログラム等を実行することによって実現してもよいし、専用のハードウエア回路によって実現してもよい。

処理部１００は、図１で説明した翻訳処理部４０として機能する。翻訳処理部４０は、特徴語抽出処理部４２、翻訳対象選択処理部４４、補足語抽出処理部４６、対訳出力処理部４８を含む場合には、処理部１００は前記各部として機能するようにしてもよい。
２．第１の対訳データ記憶部
図３に、第１の対訳データ記憶部３２に記憶される単文（第１言語単文及び第２言語単文）の一例を示す。本実施の形態では、図３に示すように、第１言語単文データと第２言語単文データとが、対訳となるように関連付けて記憶されている。本実施の形態では、第１言語単文データ及び第２言語単文データは、ＡＳＣＩＩコードやＪＩＳコードで構成されたテキストデータであってもよい。

本実施の形態では、対訳データ記憶部３２は、翻訳装置本体に固定された記憶装置として構成されていてもよい。あるいは、対訳データ記憶部３２は、翻訳装置本体から取り外し可能な情報記憶媒体によって実現してもよい。

図４は、第１言語単文及び第２言語単文のグループ化について説明するための図である。

本実施の形態では、対訳データ記憶部３２の第１言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第１言語単文データや類似の意味を示す第１言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第１言語単文データのいずれかが、代表データに指定されていてもよい。

本実施の形態では、対訳データ記憶部３２の第２言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第２言語単文データや類似の意味を示す第２言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第２言語単文データのいずれかが、代表データに指定されていてもよい。

図４には、対訳データ記憶部３２に記憶される、グループ化された対訳データの一例を示す。グループ１では、「風邪をひきました。」との第１言語単文と、「I caught a cold.」との第２言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと（ほぼ）同じ意味となるデータが、１つのグループに分類されている。また、グループ２では、「風邪薬を下さい。」との第１言語単文と、「 Can I have a cold medicine?」との第２言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと同じ意味となるデータが、１つのグループに分類されている。

そして、本実施の形態では、第１言語単文データ選択処理部４２は、代表データに指定されている第１言語単文データのいずれかを選択するように構成されていてもよい。詳しくは、第１言語単文データ選択処理部４２は、受け付けた原語単文データが属するグループを検出する処理と、検出されたグループの代表データに指定されている第１言語単文データを選択する処理とを行ってもよい。

具体的には、第１言語単文データ選択処理部４２は、例えば「風邪気味です。」との原語単文データを受け付けた場合に、受け付けた原語単文データがグループ１に属することを検出して、グループ１の第１言語単文データの代表データに指定されている「風邪をひきました。」との第１言語単文データを選択する。

そして、訳語単文データ出力処理部４０は、第１言語単文データの代表データに関連付けられた第２言語単文データを、訳語単文データとして出力してもよい。

これによると、一般的に利用される単文を代表データに指定することで、第三者に、より伝わりやすい訳語を出力することができるので、コミュニケーションをより円滑にすることが可能になる。

ただし、常に代表データを利用して訳語を出力すると、ユーザの意図の概要は伝わったとしても、語句のニュアンスが伝わらないことがある。そのため、本実施の形態に係る翻訳システムは、動作モードが切り替え可能に構成されていてもよい。すなわち、本発明に係る翻訳システムは、代表データを選択する代表データ利用モードと、代表データを利用しない通常モードとを切り替え可能に構成されていてもよい。これにより、使用状況に適した訳語を出力させることが可能になる。例えば、操作部８０を介してユーザが入力したモード切替信号に基づいて、動作モードを切り替える処理を行ってもよい。

図５は、第１の対訳データ記憶部に記憶されている第１の言語単文データに関する情報について説明するための図である。

第１の言語単文データに関する情報（以下、第１の言語単文情報）２００という。第１の言語単文情２００は、少なくとも第１の単文の内容を表すテキストデータ（第１の単文データに相当）を含む情報であり、識別ＩＤ（例えばグループＩＤ２１０と単文識別ＩＤ２１２）、センテンス識別ＩＤ２４２に関連づけて記憶されるようにしてもよい。

グループＩＤ２１０は、意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にグループを特定するための用いられる識別情報である。例えば対訳関係を有する前記第１言語単文データと前記第２言語単文データとを関連した管理ＩＤ（例えば同じ管理ＩＤ）に対応付けて記憶するようにしてもよい。

単文識別ＩＤはグループ内において単文を特定するための識別情報である。なお第１の対訳データ記憶部に記憶されている第１の言語単文データがすべてグループ化されている場合（グループの構成要素は１つでもよい）には上記構成でよいが、全くグループ化されているデータと単独のデータが混在している場合には単独のデータに仮想的なグループＩＤを付して管理するようにしてもよい。また第１の言語単文データがすべてがグループ化されていない場合にはグループＩＤを設定せずに単文識別ＩＤのみで管理するようにしてもよい。

テキスト情報２１４第１の言語単文の内容を表す第１の言語単文データであり、例えば「途中下車はできますか」という第１の言語単文に対応してそのテキストデータ（「途中下車はできますか」を表すＡＳＣＩＩコードやＪＩＳコードで構成されたテキストデータ等）が記憶されている。

第１の言語単文情２００は、特徴語情報２１６を含んでもよい。特徴語とは第１の言語単文データの一部の語句や語句の一部（当該第１の言語単文データの特徴を表すとして予め指定または定義されている語句や語句の一部）である。例えば「（途中）（下車）は（でき）ます（か）」のかっこに囲まれた部分が特徴語して指定されている場合には「途中」「下車」「でき」「か」が特徴語として」記憶されている。

第１の言語単文情２００は、代表データ指定情報２１８を含んでもよい。

第１の言語単文情２００は、データ利用場面情報２２０を含んでもよい。データ利用場面情報２２０とは、第１の言語単文データの利用される場面（ホテル、乗り物、道案内、チケット売り場、買い物等）を想定して、その利用場面に対応付けて設定されたＩＤや番号等でもよい。

第１の言語単文情２００は、データ話し手／聞き手情報２２２を含んでもよい。データ話し手／聞き手情報２２２は、第１の言語単文データを発するのが話し手であるか聞き手であるかを示すフラグ等でもよい。

第１の言語単文情２００は、データ事実／質問情報２２４を含んでもよい。データ事実／質問情報２２４は、第１の言語単文データが事実を述べる文であるか質問文であるかを示すフラグ等でもよい。

なお第１言語単文データがグループ化されて記憶されている場合には、データ利用場面情報２２０やデータ話し手／聞き手情報２２２やデータ事実／質問情報２２４はグループ単位で設定されるようしてもよい。
３．翻訳処理の具体例
図６〜図１５は、本実施の形態の翻訳処理の具体例について説明するための図である。

図６に、第１の対訳データベースの一例を示す。

本実施の形態の対訳データ記憶部３２には、第１言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第１言語単文に対応する第１言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第１言語単文データのいずれかが、代表データに指定されている。

また、本実施の形態では、対訳データ記憶部３２には、第２言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第２言語単文に対応する第２言語単文データが、１つのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第２言語単文データのいずれかが、代表データに指定されている。

図６の２４０は、識別ＩＤがＳ１−１の第１の言語単文データ２６０、識別ＩＤがＳ１−１の第２の言語単文データ２６６が対訳関係を有し、識別ＩＤがＳ１−２の第１の言語単文データ２６４、識別ＩＤがＳ１−２の第２の言語単文データ２６６が対訳関係を有し、これらがグループ化されていることを示している。またグループのグループＩＤ２４２がＳ１であり、このグループのデータ話し手／聞き手情報２４４として「話し手」が設定されてい事を示している。そしてＳ１−１の第１の言語単文データ２６０にグループの代表データ指定２５０がされ、Ｓ１−２の第２の言語単文データ２６６にグループの代表データ指定２５２がされている。

図７（Ａ）〜（Ｃ）、図８（Ａ）〜（Ｄ）は本実施の形態の基本動作について説明するための図である。

まず原文データを入力し、分割する処理を行う。図７（Ａ）に示すように、「途中下車できますか」３１０という原文データが入力されると、３１１，３１２，３１３、３１４，３１５の５つの語句に分割される。

次に文法情報に基づいて特徴語を抽出し、検索キーを作成する。図７（Ｂ）に示すように、３１１，３１２，３１３、３１５の４つの語句が特徴語として抽出され、検索キーとなる。

次に検索キーを用いて第１の対訳データ記憶部に記憶されている第１の言語単文データを検索し、検索キーを含む第１の言語単文データを抽出する。

図７（Ｃ）にしめすように、検索結果として識別ＩＤＳ１−１、識別ＩＤＳ２−１、識別ＩＤＳ１−２、識別ＩＤＳ３−１の４つの第１の言語単文データが抽出される。

識別ＩＤＳ１−１の第１の言語単文データは「途中+下車+でき+か」の４つの特徴語を含んでいる。識別ＩＤＳ２−１の第１の言語単文データは「途中+下車+でき」の３つの特徴語を含んでいる。識別ＩＤＳ１−２と識別ＩＤＳ３−１の第１の言語単文データは、「途中+下車+か」の３つのの特徴語を含んでいる。

次に原文データと抽出した各第１の言語単文データとの類似度を判断する類似度判断処理を行う。類似度判断処理として、例えば、抽出された各第１言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第１言語単文データについて、当該第１言語単文データに対する一致文字数の比率（一致文字数／第１言語単文データの文字数）と原文データに対する一致文字数の比率（一致文字数／原文データの文字数）の両方に基づいて、各第１言語単文データと原文データとの類似度を判断してもよい。

図８（Ａ）は類似度判断処理結果を示している。

３２１は原文データ（文字数は９個）３１８と識別ＩＤＳ１−１の第１の言語単文データ（文字数は９個）の一致文字数が９個であることを示している。３２０は原文データに対する一致文字数の比率を示している。また３２２は識別ＩＤＳ１−１の第１の言語単文データに対する一致文字数の比率を示している。

同様に３２５は原文データ（文字数は９個）３１８と識別ＩＤＳ２−１の第１の言語単文データ（文字数は１５個）の一致文字数が７個であることを示している。３２４は原文データに対する一致文字数の比率を示している。また３２６は識別ＩＤＳ２−１の第１の言語単文データに対する一致文字数の比率を示している。

同様に３２９は原文データ（文字数は９個）３１８と識別ＩＤＳ１−２の第１の言語単文データ（文字数は１５個）の一致文字数が５個であることを示している。３２８は原文データに対する一致文字数の比率を示している。また３３０は識別ＩＤＳ１−２の第１の言語単文データに対する一致文字数の比率を示している。

同様に３３３は原文データ（文字数は９個）３１８と識別ＩＤＳ３−１の第１の言語単文データ（文字数は１３個）の一致文字数が７個であることを示している。３３２は原文データに対する一致文字数の比率を示している。また３３４は識別ＩＤＳ３−１の第１の言語単文データに対する一致文字数の比率を示している。

３２３、３２７、３３１、３３５はそれぞれ識別ＩＤＳ１−１，Ｓ２−１，Ｓ１−２、Ｓ３−１の第１の言語単文データの原文データに対する類似度を示す値である。

類似度３２３は、原文データに対する一致文字数の比率３２０と識別ＩＤＳ１−１の第１の言語単文データに対する一致文字数の比率３２２に基づき算出（例えばかけ算）された値である。同様に類似度３２７は、原文データに対する一致文字数の比率３２４と識別ＩＤＳ２−１の第１の言語単文データに対する一致文字数の比率３２６に基づき算出（例えばかけ算）された値である。同様に類似度３３１は、原文データに対する一致文字数の比率３２８と識別ＩＤＳ１−２の第１の言語単文データに対する一致文字数の比率３３０に基づき算出（例えばかけ算）された値である。同様に類似度３３３は、原文データに対する一致文字数の比率３３２と識別ＩＤＳ３−１の第１の言語単文データに対する一致文字数の比率３３４に基づき算出（例えばかけ算）された値である。

類似度を比較した結果、図８（Ｂ）に示すように類似度の値の最も大きな識別ＩＤＳ１−１の第１の言語単文データが、翻訳対象として選択される。

ここで入力文に比べ極端に長い第１の言語単文データ（長文）が比較対象となったとき、原文データが長文に100%含まれることがあり得る。このような場合、原文データに対する一致文字数の比率のみで類似度を計算すると、原文データにない余計な要素が出力されることになる。本実施の形態のように、第１言語単文データに対する一致文字数の比率（一致文字数／第１言語単文データの文字数）と原文データに対する一致文字数の比率（一致文字数／原文データの文字数）の両方に基づいて、各第１言語単文データと原文データとの類似度を判断することにより係る事態を防ぐことができる。

またキーワードの一致数も加味して類似度を判断するようにしてもよい。

次に選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する。

図６に示すように第１の言語単文データＳ１−１はグループＳ１に属している。グループＳ１にはＳ１−１、Ｓ２−２の第１の言語単文データと対訳となる第２の言語データ単文が含まれており、グループＳ１の第２の言語単文データの代表データにはＳ１−２の第２の言語データ単文が指定されている。

単純出力モードにおいては図８（Ｃ）に示すようにＳ１−１の第１言語単文データの訳文データとしてＳ１−１の第２言語単文データが出力されるようにしてもよい。

また代表データ出力モードでは図８（Ｄ）に示すように、Ｓ１−１の第１言語単文データの訳文データとしてＳ１−１の第２言語単文データではなくて、代表データとして指定されているＳ１−１の第２言語単文データが出力されるようにしてもよい。

図９は、話し手／聞き手の区別を行う場合の処理例について説明する図である。

例えば話し手の発話の場合、「途中の下車かまいません(↑)」と語尾が上がり調子になるので疑問文であることが状況から判断できるが、テキストデータだけでは、判別が困難な場合がある。

図９（Ａ）に示すように、「途中の下車かまいません」という原文データが入力されると、原文データが６つの語句に分割される。

次に図９（Ｂ）に示すように、４つの部分が特徴語として抽出され、検索キーとなる。

次に４つの特徴語を検索キーとして第１の対訳データ記憶部に記憶されている第１の言語単文データを検索すると、図９（Ｃ）に示すように識別ＩＤＳ１−２、識別ＩＤＳ２−１、識別ＩＤＳ１−１、識別ＩＤＳ３−１の４つの第１の言語単文データが抽出される。

識別ＩＤＳ１−２の第１の言語単文データは「途中+下車+かまい+ん」の４つの特徴語を含んでおり、識別ＩＤＳ２−１の第１の言語単文データは「途中+下車+ん」の３つの特徴語を含んでおり、識別ＩＤＳ１−１と識別ＩＤＳ３−１の第１の言語単文データは、「途中+下車」の２つのの特徴語を含んでいる。

ここで識別ＩＤＳ１−２のデータ聞き手／話し手情報には「話し手」である旨の情報が設定され、識別ＩＤＳ２−１のデータ聞き手／話し手情報には「聞き手」である旨の情報が設定され、識別ＩＤＳ１−１のデータ聞き手／話し手情報には「話し手」である旨の情報が設定され、識別ＩＤＳ３−１のデータ聞き手／話し手情報には「聞き手」である旨の情報が設定されているとする。このような場合原文聞き手／話し手情報として「話し手」である旨の情報が入力または設定されている場合には、抽出された第１の言語単文データ（識別ＩＤＳ１−２、識別ＩＤＳ２−１、識別ＩＤＳ１−１、識別ＩＤＳ３−１）の中からデータ聞き手／話し手情報に「話し手」である旨の情報が設定されているものを選択する。すると識別ＩＤＳ１−２、識別ＩＤＳ１−１の第１の言語単文データが選択されるので、図９（Ｄ）に示すように、選択されたの第１の言語単文データ（識別ＩＤＳ１−２、識別ＩＤＳ１−１）について類似度判定処理を行う。

このようにすると特徴語で抽出した全データについて類似度判定処理を行う場合に比べ、処理付加を大幅に軽減することができる。

そして図９（Ｅ）に示すように、類似度判断結果に基づき翻訳対象となるＳ１−２の第１言語単文データを選択する。そして図９（Ｆ）に示すように、翻訳対象と対訳関係にあるＳ１−２の第２言語単文データを対訳データとして出力する。

原文利用場面情報や原文事実／質問情報が入力された場合にも、第１の対訳データ記憶部のデータ利用場面情報やデータ事実／質問情報に基づいて同様の選択処理を行うことができる。

図１０は、補足語抽出処理の処理例について説明する図である。

翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句（例えば特徴語でもよい）である補足語を検出し、第２の対訳データ記憶部を検索して、補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出して、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

例えば「部屋のお掃除を早くお願いね」という原文データが入力されると、図１０（Ａ）に示すように、原文データが７つの語句に分割される。

次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図１０（Ｂ）に示すように、４つの部分が特徴語として抽出され、検索キーとなる。

次に検索キーを用いて第１の対訳データ記憶部に記憶されている第１の言語単文データを検索し、検索キーを含む第１の言語単文データを抽出すると、検索結果として図１０（Ｃ）に示すように識別ＩＤＳ４−２、識別ＩＤＳ４−１の２つの第１の言語単文データが抽出される。識別ＩＤＳ４−２の第１の言語単文データは「部屋+掃除+お願い」の３つの特徴語を含んでいる。識別ＩＤＳ４−１の第１の言語単文データは「部屋+掃除」の２つの特徴語を含んでいる。

次に図１０（Ｄ）に示すように、原文データと抽出した各第１の言語単文データとの類似度を判断する類似度判断処理を行う。

すると類似度判断結果に基づき、図１０（Ｅ）に示すように翻訳対象となるＳ４−２の第１言語単文データが選択される。ここで翻訳対象として選択されたＳ４−２の第１言語単文データは「部屋+掃除+お願い」の３つの特徴語を含んでいるが、原文データには含まれていた「早く」という特徴語を含んでいない。

次に図１０（Ｆ）に示すように、翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である「早く」を補足語として、第２の対訳データ記憶部を検索して、補足語「早く」に対応した第１言語語句データと対訳関係を有する第２言語語句データ「quickly」４５２を読み出す。

そして図１０（Ｇ）に示すように、翻訳対象として選択されたＳ４−２の第１言語単文データと対訳関係を有する第２言語単文データ４５０（この場合はＳ４グループの第２の言語単文データの代表データとして指定されているＳ４−１の第２の言語単文データ、図７参照）に、読み出した第２言語語句データ４５２を添付して、訳文データとして出力する。

図１１は、原文データに対して複数の翻訳対象を選択して訳文データを生成する処理例について説明する図である。

前記第１の対訳データ記憶部を検索して、抽出された特徴語を含む第１言語単文データが複数あり、原文データにおける前記複数の第１言語単文データとの一致部分が所定の分布条件を満たす場合には、複数の第１言語単文データを翻訳対象とし、翻訳対象となった複数の第１言語単文データとそれぞれ対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出し、読み出された複数の第２言語単文データを接続して前記訳文データを出力してもよい。

例えば「名古屋を越えたあたりですが事故っちゃいました」という原文データが入力されると、図１１（Ａ）に示すように、原文データが１１個の語句に分割される。

次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図１１（Ｂ）に示すように、６つの語句が特徴語として抽出され、検索キーとなる。

次に検索キーを用いて第１の対訳データ記憶部に記憶されている第１の言語単文データを検索し、検索キーを含む第１の言語単文データを抽出すると、検索結果として図１１（Ｃ）に示すように識別ＩＤＳ５−１、識別ＩＤＳ６−１の２つの第１の言語単文データが抽出される。識別ＩＤＳ５−１の第１の言語単文データは「越え+あたり」の２つの特徴語を含んでいる。識別ＩＤＳ６−１の第１の言語単文データは「事故+た」の２つの特徴語を含んでいる。

次に図１１（Ｄ）に示すように、原文データと抽出した各第１の言語単文データとの類似度を判断する類似度判断処理を行う。

４６０は原文データ（文字数は２２個）４６２と識別ＩＤＳ５−１の第１の言語単文データ（文字数は８個）の一致部分を示している。これによれば一致部分４６０は原文データ４６２の前半部分に偏っている。

４６４は原文データ（文字数は２２個）４６２と識別ＩＤＳ６−１の第１の言語単文データ（文字数は１３個）の一致部分を示している。これによれば一致部分４６４は原文データ４６２の後半部分に偏っている。

このように抽出された特徴語を含む第１言語単文データが複数あり、原文データにおける複数の第１言語単文データとの一致部分の一致部分が所定の分布条件を満たす場合（例えば一致した特徴語を含む例文の守備範囲が異なる場合）には、図１１（Ｅ）に示すように、複数の第１言語単文データを翻訳対象とする。

そして図１１（Ｆ）に示すように、翻訳対象として選択され複数の第１言語単文データには含まれないが原文データには含まれている語句である「名古屋」を補足語として、第２の対訳データ記憶部を検索して、補足語「名古屋」に対応した第１言語語句データと対訳関係を有する第２言語語句データ「Nagoya」４６２を読み出す。

そして図１１（Ｇ）に示すように、翻訳対象として選択されたＳ５−２の第１言語単文データと対訳関係を有する第２言語単文データ４６６と、Ｓ６−２の第１言語単文データと対訳関係を有する第２言語単文データ４６８と、読み出した第２言語語句データ４７０を接続して訳文データとして出力する。

図１２〜図１５は、関連する単語グループを用いた処理例について説明する図である。

第１の対訳データ記憶部には、図１２（Ａ）に示すようにＳ７−１の第１言語単文データが記憶されている。また図１２（Ｂ）に示すように関連語句記憶部には、代表語句として「葉書」が記憶され、代表語句に関連づけて第１言語で表現された関連語句として、「葉書」の代替語である「はがき」、「ポストカード」や「葉書」の類似語である「絵はがき」、「絵葉書」、「往復はがき」、「航空書簡」、…等が記憶されている。

図１３は関連する単語グループを用いた処理の流れをしめすフローチャート図である。

入力された原文データに前記関連語句が含むか否か判断し、否か判断し、含むと判断した場合には、以下の処理を行ってもよい（ステップＳ１０）。

次に当該関連語句に対応付けられている代表語句を前記関連語句記憶部から読み出し、原文データの関連語句の部分を読み出した代表語句で置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部から翻訳対象となる第１言語単文データを選択する（ステップＳ２０）。

次に翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出す（ステップＳ３０）。

次に関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出す（ステップＳ４０）。

次に読み出した第２言語単文データに、読み出した第２言語語句データを添付して、訳文データとして出力する（ステップＳ５０）。

図１４は原文データに含まれた関連語句が代替語である場合について説明するための図である。

例えば「はがきはいくらですか」という原文データが入力されると、図１４（Ａ）に示すように、原文データが５つの語句に分割される。そして関連語句記憶部（図１４（Ｂ）参照）を検索して、図１４（Ｂ）に示すように「はがき」を関連語句（代替語）にもつ代表語句「葉書」４７０を抽出する。そして図１４（Ｃ）に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第１の対訳データ記憶部を検索すると、図１４（Ｄ）に示すように識別ＩＤＳ７−１の第１の言語単文データが抽出される。

原文データに含まれた関連語句が代替語である場合には、図１４（Ｅ）に示すように置換後の原文データに基づいて選択した第１言語単文データと対訳関係を有する第２言語単文データを対訳データとして出力してもよい。

図１５は原文データに含まれた関連語句が類似語である場合について説明するための図である
例えば「絵はがきはいくらですか」という原文データが入力されると、図１５（Ａ）に示すように、原文データが５つの語句に分割される。そして関連語句記憶部（図１２（Ｂ）参照）を検索して、図１５（Ｂ）に示すように「絵はがき」を関連語句（類似語）にもつ代表語句「葉書」４７０を抽出する。そして図１５（Ｃ）に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第１の対訳データ記憶部を検索すると、図１５（Ｄ）に示すように識別ＩＤＳ７−１の第１の言語単文データが抽出される。

原文データに含まれた関連語句が類似である場合には、関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出し、読み出した第２言語単文データに、読み出した第２言語語句データを添付して、訳文データとして出力してもよい。

例えば図１５（Ｅ）に示すように関連語句「絵はがき」の訳である第２言語語句データ「picture postcard」４７２が読みだされる。そして図１５（Ｆ）に示すように、読み出した第２言語単文データ「How much is a postcard?」４７４に、読み出した第２言語語句データ「picture postcard」４７２を添付した訳文データが出力される。

図１６に、本実施の形態の翻訳システム１を適用可能な電子機器の一例である携帯電話１０００を示す。携帯電話１０００は、押しボタン及びマイクで実現された入力部１０１０を含む。携帯電話１０００は、押しボタンで実現された操作部１０８０を含む。携帯電話１０００は、表示パネルで実現された表示部１０６２や、スピーカで実現された音声出力部１０６４を含む。

ユーザーは入力部からテキスト入力により原文データを入力してもよい。また携帯電話１０００が音声認識手段を有している場合には、原文に対応した音声をマイクにより入力し、音声認識手段で原文データを生成してもよい。

携帯電話１０００は図示しない記憶部（内蔵ＲＯＭ等）を有し、記憶部を第１の対訳データ記憶部、第２の対訳データ記憶部、関連語句情報記憶部として機能させてもよい。

また携帯電話１０００は図示しないＣＰＵ（各種プロセッサ等）を有し、ＣＰＵを翻訳処理部として機能させてもよい。
４．対訳データベースの製造方法
本実施の形態に係る対訳データベースの製造方は第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、対訳関係を有する前記第１言語単文データと前記第２言語単文データとを関連した管理ＩＤに対応付けて記憶させる。

また第３言語で表現された複数の第３言語単文データを含み、対訳関係を有する前記第１言語単文データ、前記第２言語単文データ、前記第３言語単文データとを関連した管理ＩＤに対応付けて記憶させてもよい。

さらに第ｎ（ｎは４以上の自然数）言語で表現された複数の第ｎ言語単文データを含み、対訳関係を有する前記第１言語単文データ、前記第２言語単文データ、前記第３言語単文データ、・・・、前記第ｎ言語単文データとを関連した管理ＩＤに対応付けて記憶させてもよい。

このように構成された対訳データベースを用いることにより、翻訳プログラム（又はシステム）は対訳関係を有する多言語を管理ＩＤで管理可能になり、ブリッジ言語を介することなくダイレクトに翻訳を行うことが可能な翻訳プログラム（又はシステム）の実現が容易になる。

また意味内容が同じで表現形式が異なる複数の第１言語単文データ及び意味内容が同じで表現形式が異なる複数の第１言語単文データをグループ化して記憶させ、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとをグループ単位で、関連した管理ＩＤで管理してもよい。

また前記グループに属するいずれかの第１言語単文データ及び第２言語単文データの少なくとも一方に代表データの指定を行ってもよい。

本発明は、上述の実施の形態に限定されるものではなく、種々の変形が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

本実施の形態の翻訳システムの機能ブロック図である。本実施の形態の構成を示す図である。第１の対訳データ記憶部に記憶される単文の一例を示す図。第１言語単文及び第２言語単文のグループ化について説明するための図。第１の対訳データ記憶部に記憶されている第１の言語単文データに関する情報について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳システムを適用可能な電子機器の一例である携帯電話を示す図。

符号の説明

１翻訳システム、１０翻訳システム、１２原文入力部、１４各種設定情報入力部、３０記憶部、３２第１の対訳データ記憶部、３４第２の対訳データ記憶部、３６関連国情報記憶部、４０翻訳処理部、４２特徴語抽出部、４４翻訳対象選択部、４６補足語抽出処理部、４８対訳出力処理部、６０出力装置、６２表示部、６４音声出力部、８０操作部、１００処理部

Claims

第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された複数の第１言語語句データと、前記第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部と、
前記第１言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データには含まれないが前記原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部から前記補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、前記原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
前記原文データに基づき抽出された第１言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第１言語単文データを翻訳対象として抽出することを特徴とする翻訳プログラム。
請求項２において、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第２言語単文データがグループ化されて記憶され、グループに属するいずれかの第２言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第１言語単文データと対訳関係を有する第２言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第２言語単文データに基づき前記訳文データを出力することを特徴とする翻訳プログラム。
請求項３において、
前記第１の対訳データ記憶部は、
対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとがグループ単位で関連付けられていることを特徴とする翻訳プログラム。
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言
語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第２言語単文データがグループ化されて記憶され、グループに属するいずれかの第２言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第１言語単文データと対訳関係を有する第２言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第２言語単文データに基づき前記訳文データを出力することを特徴とする翻訳プログラム。
請求項１乃至５のいずれかにおいて、
前記翻訳処理部は、
入力された原文データから特徴語を抽出する特徴語抽出処理部を含み、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部から前記特徴語を含む第１言語単文データを抽出して、抽出結果に基づきいずれかの第１言語単文データを翻訳対象として選択することを特徴とする翻訳プログラム。
請求項１乃至６のいずれかにおいて、
前記第１の対訳データ記憶部は、
対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連した管理ＩＤに対応付けて記憶されており、
前記対訳出力処理部は、
前記管理ＩＤに基づき対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して前記訳文データとして出力することを特徴とする翻訳プログラム。
請求項１から請求項７のいずれかにおいて、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データに含まれる特徴語が記憶されており、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第１言語単文データを抽出することを特徴とする翻訳プログラム。
請求項１から請求項８のいずれかにおいて、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの利用場面に関するデータ利用場面情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの利用場面に関する原文利用場面情報を受け取り、
前記翻訳対象選択処理部は、
前記原文利用場面情報とデータ利用場面情報とに基づいて翻訳対象を選択することを特徴とする翻訳プログラム。
請求項１から請求項９のいずれかにおいて、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの話し手／聞き手に関するデータ話し手／聞き手情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの話し手／聞き手に関する原文話し手／聞き手情報を受け取り、
前記翻訳対象選択処理部は、
前記原文話し手／聞き手情報とデータ話し手／聞き手情報とに基づいて翻訳対象を選択することを特徴とする翻訳プログラム。
請求項１から請求項１０のいずれかにおいて、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの事実／質問に関するデータ事実／質問情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの事実／質問に関する原文事実／質問情報を受け取り、
前記翻訳対象選択処理部は、
前記原文事実／質問情報とデータ事実／質問情報とに基づいて翻訳対象を選択することを特徴とする翻訳プログラム。
請求項１から請求項１１のいずれかにおいて、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部から特徴語を含む複数の第１言語単文データを抽出し、原文データにおける前記複数の第１言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第１言語単文データを翻訳対象として選択し、
前記対訳出力処理部は、
翻訳対象となった前記複数の第１言語単文データとそれぞれ対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出し、読み出された複数の第２言語単文データを接続して前記訳文データとして出力することを特徴とする翻訳プログラム。
請求項１から請求項１２のいずれかにおいて、
前記翻訳対象選択処理部は、
前記前記原文データに基づいて複数の第１言語単文データを抽出し、抽出された複数の第１言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第１言語単文データを選択することを特徴とする翻訳プログラム。
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された複数の第１言語語句データと、前記第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部と、
前記第１言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言
語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データには含まれないが前記原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部から前記補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、前記原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳システム。
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
前記原文データに基づき抽出された第１言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第１言語単文データを翻訳対象として抽出することを特徴とする翻訳システム。
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データ
を前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第２言語単文データがグループ化されて記憶され、グループに属するいずれかの第２言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第１言語単文データと対訳関係を有する第２言語単文データがグループ化されている場合には、当該グループの前記代表データの指定がなされている第２言語単文データに基づき前記訳文データを出力することを特徴とする翻訳システム。