JP5483526B2 - 機械翻訳システム及び機械翻訳方法 - Google Patents
機械翻訳システム及び機械翻訳方法 Download PDFInfo
- Publication number
- JP5483526B2 JP5483526B2 JP2008334468A JP2008334468A JP5483526B2 JP 5483526 B2 JP5483526 B2 JP 5483526B2 JP 2008334468 A JP2008334468 A JP 2008334468A JP 2008334468 A JP2008334468 A JP 2008334468A JP 5483526 B2 JP5483526 B2 JP 5483526B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- text
- data
- image
- translated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
Webページ中のテキストを機械的に翻訳するサービスがインターネット上で提供されている(例えば、非特許文献1参照)。
同サービスでは、WebページのURLを入力として受け取ると、当該URLに対応するWebページ中のテキストをユーザが指定した言語に翻訳し、元のHTMLデータを変換して出力する。ただし、同サービスは、当該Webページ内の画像に含まれる文字を翻訳する機能を備えていない。
画像と文字とが混在する画像データの文字部分のみを翻訳した画像を作成する手法が知られている(例えば、特許文献1参照)。
同手法では、画像と文字とが混在する画像データのうち文字データの存在する部分(文字領域)を特定し、文字領域から文字データを抽出し、抽出した文字データをテキストデータに変換し、テキストデータを翻訳し、翻訳データを調整して文字領域に貼り付け、翻訳データが貼り付けられた文字領域を元の画像データと合成する(同文献図2のフローチャート,図3〜図10の説明図等参照)。
文書の背景となる色や模様などの体裁を維持しつつ、文字の部分だけを別の言語に翻訳された新たな文字に差し替える手法が知られている(例えば、特許文献2)。
同手法では、単一色の用紙に文字が印字された文書をスキャンして得たビットマップ画像から文字を認識した後、その文字を描画していた画素を用紙と同じ属性の画素で埋め戻した上で、認識した文字を翻訳して得た新たな文字を画像に書き込むことにより新たなビットマップ画像を生成する(同文献図1のフローチャート,図2の遷移図等参照)。
原文と翻訳文とを対応付けて閲覧性の向上を図る手法が知られている(例えば、特許文献3参照)。
同手法では、文字データを所定の言語に翻訳し、翻訳文の文字列長を原文の文字列長と同一長さに補正した上で、原文と翻訳文を対応付けた画像を生成する(同文献図3のフローチャート,図4・図5の説明図等参照)。
また、文字列長を補正する手法として、文字のフォントを変更する点,文字のポイントを変更する点,文字列全体を均等割付とする点,文字をルビ文字とする点が記載又は示唆されている(同文献段落0030,0034等参照)。
ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にする手法が知られている(例えば、特許文献4参照)。
同手法では、原文の文字列から翻訳文を生成し、翻訳文中の省略対象語句(長い単語又は長いフレーズ)を省略語に置換し、省略対象語句が省略語に置換された翻訳文の画像を原文と同一のレイアウトで生成した上で、省略対象語句と省略語との対応リストを余白部分に配置した翻訳文を出力する(同文献図3のフローチャート,図4〜図7の説明図等参照)。
また、省略対象語句とするのは、例えば単位領域において構成文字数及び出現回数がいずれも所定の閾値を超える語句である(同文献段落0033等参照)。
このとき、例えば上記<従来例1>の翻訳サービスと同様の仕組みを利用すれば、各Webページをいずれか1つの言語で作成しておくだけで、各国語のWebページをリアルタイムで作成して提供することがとりあえずは可能である。
このとき、例えば上記<従来例1>の翻訳サービスでは、画像中の文字が翻訳されない(図1(b)の110b)。また、例えば上記<従来例2>や<従来例3>のように画像内の文字を適宜抽出して翻訳するという手法は、処理に時間がかかるためリアルタイム処理を前提とする翻訳サービスにおいては採用し難い。
前記可視化要素切替手段は、画像の表示属性を表示から非表示に変更し、画像に対応するタグを削除し、画像に対応するタグをコメントタグで挟み、画像を含む領域の表示属性を表示から非表示に変更し又は画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化されている文字画像を不可視化するとよい。
前記翻訳済HTMLデータ送信手段は、前記取得したHTMLデータの基準URLを、前記受信した翻訳要求に含まれる翻訳対象のWebページのURLに変更してもよい。
前記翻訳済HTMLデータ送信手段は、翻訳後の予備テキストの長さが前記取得したHTML中の翻訳前の予備テキストの長さと比較して一定以上長いとき、該翻訳後の予備テキストの長さを短く補正してもよい。
さらに、上記課題を解決するため、本発明の情報処理装置は、文字を含み可視化されている文字画像と、該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得手段と、Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替手段と、前記可視化要素切替処理が実行されたソースを出力する出力手段と、を備える。
さらに、上記課題を解決するため、本発明は、コンピュータにより実行される情報処理方法であって、文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得ステップと、Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替ステップと、前記可視化要素切替処理が実行されたソースを出力する出力ステップと、を含む。
文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得機能と、Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替機能と、前記可視化要素切替処理が実行されたソースを出力する出力機能と、をコンピュータに実行させるプログラムも本発明である。
また、本発明の情報処理装置は、文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースに対して、翻訳手段による翻訳の対象である予備テキストを可視化するとともに該翻訳手段による翻訳の対象でない文字を含む文字画像を不可視化する可視化要素切替処理を実行する。
このように、翻訳対象のWebページを部分的に2層構成(文字画像のレイヤ及び予備テキストのレイヤ)にしておき、表示される要素を切り替えることにより、当該翻訳対象Webページのソース(例えば、HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
以下の説明中で使用される用語の意義は、それぞれ次の定義の通りとする。
・機械翻訳…コンピュータ等を利用して人手を介さず自動的に行う翻訳。
・可視化…ユーザが視認できるようにする処理を包含する概念。
・不可視化…ユーザが視認できないようにする処理を包含する概念。例えば、非表示に設定する,透明に設定する,要素を削除する,要素をコメントアウトする等の処理形態が考えられる。
[1.実施形態の概要]
本実施形態の概要を、図2〜図5を参照して説明する。
本実施形態のシステムは、Webページを閲覧するユーザに対し、Webページ内に第1の言語で表示されている部分を、各ユーザが指定(選択)した第2の言語に翻訳するサービス(機械翻訳サービス)を提供するシステムである。
なお、以下の説明では、Webページ内の日本語の部分を英語に翻訳する例を用いている。
図2に示すように、本実施形態のシステムは、全体として、Webページを提供するWebサーバ11,翻訳処理を行う翻訳サーバ12及びWebブラウザを有するユーザ端末20により構成される。
Webサーバ11は、Webページの構造を記述するHTMLデータ及び当該HTMLデータが参照するデータ(例えば、画像データ)を少なくとも記憶するWebDB13を有している。一方、翻訳サーバ12は、Webページの機械翻訳処理において参照する辞書データを少なくとも記憶する翻訳DB14を有している。
本実施形態においては、WebDB13,翻訳DB14をWebサーバ11,翻訳サーバ12にそれぞれ接続された外部の記憶装置に構築しているが、記憶している情報の読出しが可能であればWebサーバ11,翻訳サーバ12に内蔵された記憶装置に構築してもよい。
なお、Webサーバ11,翻訳サーバ12,ユーザ端末20の間の通信は、ルータ40により制御される。
[(a)実施形態1の主要な特徴]
実施形態1の主要な特徴は、文字を含まない画像の参照データ(URL)と、当該画像に重なる領域の前面に表示位置が設定されたテキストデータとの組を少なくとも1組含むHTMLデータをWebDB13に記憶しておく点にある。
このように、Webページを部分的に2層構成(文字を含まない画像のレイヤ及びテキストのレイヤ)にしておくことにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含まない画像に重なる領域の前面に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
翻訳前のWebページには、通常のテキスト310aの他に、文字を含まない画像320と、画像320に重なる領域の前面に表示位置が設定されたテキスト330aとが表示される(図3(a))。
一方、翻訳後のWebページには、テキスト310aが翻訳されたテキスト310bと、翻訳前後において変化しない画像320と、テキスト330aが翻訳されたテキスト330bが表示される(図3(b))。
実施形態2の主要な特徴は、文字を含み可視化されている画像の参照データ(URL)と、当該画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも1組含むHTMLデータをWebDB13に記憶しておき、翻訳処理において当該不可視化されているテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する点にある。
このように、Webページを部分的に2層構成(文字を含む画像のレイヤ及び不可視化されたテキストのレイヤ)にしておき、翻訳処理において表示されるレイヤを切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
翻訳前のWebページには、通常のテキスト410aと、文字を含む画像420とが表示される(図4(a−1))。また、翻訳前のWebページは、画像420に重なる領域に表示位置が設定され、かつ不可視化されたテキストデータ430aを有している(図4(a−2))。
一方、翻訳後のWebページには、テキスト410aが翻訳されたテキスト410bと、テキスト430aが翻訳されたテキスト430bが表示される(図4(b))。なお、画像420は不可視化されているため、翻訳後のWebページ内では視認できない。
[2−1.機械翻訳手順の概要]
本実施形態のシステムによる機械翻訳処理の流れ及びデータの流れを、図5のシーケンスチャートを参照して簡単に説明する。
図5に示すように、機械翻訳システム10を構成するWebサーバ11及び翻訳サーバ12は、下記〔手順1〕〜〔手順4〕によりユーザ端末20に翻訳後のWebページを表示させる。
なお、図5のシーケンスチャートには、参照すべき他の図面の番号が付記されている。必要に応じて、当該他の図面を参照されたい。
前提として、ユーザ端末20は、Webサーバ11から提供されたWebページを表示しているものとし(S505a)、当該Webページを翻訳対象のWebページとする(実施形態1では図3(a)、実施形態2では図4(a−1))。また、翻訳対象のWebページには、翻訳後の言語を選択し翻訳を要求するための要素(例えば、プルダウン,ラジオボタン,プルダウン又はラジオボタンとボタン又は画像又はリンクとの組)が表示されているものとする。
翻訳対象のWebページにおいてユーザが翻訳後の言語を指定(選択)し、翻訳を要求する所定の操作を行うと、ユーザ端末20は、翻訳サーバ12にWebページの翻訳を要求する(S510a)。
翻訳要求には、「翻訳処理プログラムのURL」,「翻訳対象WebページのURL」,「第1言語(翻訳対象Webページの言語)」,「第2言語(翻訳先の言語)」及び「テキストデータの文字コード」が含まれる。
本実施形態では、「翻訳対象WebページのURL」以下をURLパラメータとするHTTPリクエストを翻訳要求としている。なお、図6に示す各項目を他の形式で送信してもよい。
翻訳サーバ12は、ユーザ端末20から翻訳要求を受信する(S510b)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータの送信をWebサーバ11に要求する(S515b)。
Webサーバ11は、翻訳サーバ12からHTMLデータの送信要求を受信する(S515c)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータ(翻訳前のHTMLデータ)をWebDB13より読み出し又は生成して、翻訳サーバ12に送信する(S520c)。
翻訳サーバ12は、Webサーバ11から翻訳前のHTMLデータを受信する(S520b)と、受信した翻訳前のHTMLデータを対象として機械翻訳処理を実行し、翻訳後のHTMLデータをユーザ端末20に送信する(S525b)。
なお、機械翻訳処理の流れ及び翻訳前後のHTMLデータについては、別に項目を設けて実施形態ごとに詳細に説明する(後述の図7〜図10参照)。
ユーザ端末20は、翻訳サーバ12から翻訳後のHTMLデータを受信する(S525a)と、受信したHTMLを解釈して画像なしのWebページを表示する(S530a)とともに、当該HTMLが参照している画像データの送信をWebサーバ11に要求する(S535a)。
Webサーバ11は、画像データの送信要求を受信する(S535c)と、指定された画像データをWebDB13より読み出し、ユーザ端末20に送信する(S540c)。
ユーザ端末20は、Webサーバ11から画像データを受信する(S540a)と、既に表示されているWebページ内の所定の位置に画像を追加表示する(S545a)。表示完了後のWebページは、前述のとおりである(実施形態1では図3(b)、実施形態2では図4(b))。
[(a)翻訳前のHTMLデータ]
図7(a)に、実施形態1における翻訳前のHTMLデータの一部を例示する。
翻訳前のHTMLデータには、テキストデータ710aの他に、画像の参照データ720と、テキストデータ730aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。
テキストデータ710a,画像の参照データ720,テキストデータ730aは、それぞれ翻訳前のWebページ(図3(a))のテキスト310a,画像320,テキスト330aに対応する。
なお、Webページ内の要素はHTMLの記述順に重なる(後ろに記述された要素が前面に表示される)ため図7(a)の例では特に設定していないが、重ね合わせの順序を明示的に設定してもよい。重ね合わせ順序は、例えば「z-index」属性の値(数値)の大小により設定することができる。
実施形態1における翻訳処理の流れを、図8のフローチャートを参照して詳細に説明する。
図8に示すように、翻訳サーバ12は、下記〔手順31〕〜〔手順34〕によりHTMLデータを翻訳する。
HTMLの基準URLを変更する(S810)。
具体的には、相対URL形式で記述された参照データ等(例えば、参照データ720(図7(a))中のsrc属性の値)のURLが基準とするURLを、<base>タグのhref属性の値として絶対URL形式で記述する。ここでは、ユーザ端末20から受信した検索要求(図6)に含まれる「翻訳対象WebページのURL」を基準URLとする。
なお、HTML内のURLが全て絶対URL形式で記述されているという前提であれば、基準URLを変更する処理を省略してもよい。また、相対URL形式で記述された全てのURLを個別に絶対URL形式に書き換えても同一の効果を得ることができる。
HTMLデータ内で要素(エレメント)の内容(コンテンツ)となっているテキストデータを1つ抽出し(S820)、抽出したテキストデータ(原文)を「第1言語」から「第2言語」へと翻訳して翻訳文を生成する(S830)。
なお、翻訳サーバ12は、テキストの翻訳に当たり翻訳DB14に記憶している辞書データを参照する。
必要に応じて翻訳文のサイズを補正し(S840)、抽出したテキストデータを翻訳文に置換する(S850)。
例えば、上記<従来例4>と同様の手法により、文字列長を比較した上で翻訳文の長さを補正するとよい。なお、上記<従来例5>と同様の手法により、所定の条件を満たす語句を翻訳文中から抽出し、所定の方法により生成した省略語に置換してもよい。この場合、省略語の定義を掲載したWebページを別途生成した上で、翻訳後のWebページには省略語の定義を掲載したWebページへのリンクを表示するとよい。また、省略語にポインタを合わせたときに省略対象語句がポップアップ表示されるように構成してもよい。
翻訳したテキストデータが、HTMLデータ内で要素の内容となっている最後のテキストデータか否かを判定する(S860)。
具体的には、HTMLデータ内で要素の内容となっている次のテキストデータを検索し、次のテキストデータが検出されないときに、直前に翻訳したテキストデータが最後のテキストデータであると判定する。最後のテキストデータでないとき(S860でNo)、上記〔手順32〕に戻り、次のテキストデータについて抽出〜置換の処理(〔手順32〕〜〔手順33〕)を繰り返す。一方、最後のテキストデータであるとき(S860でYes)、ループを抜ける。
図7(b)に、実施形態1における翻訳後のHTMLデータの一部を例示する。
図7(b)は、図7(a)のHTMLデータを図8のフローチャートに示す処理により翻訳した後のHTMLデータである。
テキストデータ710b,画像の参照データ720,テキストデータ730bは、それぞれ翻訳後のWebページ(図3(b))のテキスト310b,画像320,テキスト330bに対応する。
なお、テキストデータ710bの文字サイズは、上記〔手順33〕の補正処理(図8のS840)により通常の90%に補正されている。その他のデータの設定には特に変更がない。
[(a)翻訳前のHTMLデータ]
図9(a)に、実施形態2における翻訳前のHTMLデータの一部を例示する。
翻訳前のHTMLデータには、テキストデータ910aの他に、画像の参照データ920aと、テキストデータ930aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。
テキストデータ910a,画像の参照データ920aは、それぞれ翻訳前のWebページ(図4(a−1))のテキスト410a,画像420に対応する。また、テキストデータ930aは、翻訳前のWebページが有する不可視化されたテキストデータ430a(図4(a−2))に対応する。
一方、テキストデータ930aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に通常通りに表示されるように設定されている(ここでは、センタリング等)。ただし、テキストデータ930aに対応するテキストは不可視化されている(文字色属性の値が透明(transparent)に設定されている)ため、Webブラウザのウィンドウ内では視認できない。
実施形態2における翻訳処理の流れを、図10のフローチャートを参照して説明する。
図10に示すように、翻訳サーバ12は、上記〔手順31〕〜〔手順34〕(実施形態1と同様)に加え、下記〔手順35〕によりHTMLデータを翻訳する。
なお、図10のフローチャートにおいて、図8のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。
不可視化されている全ての翻訳文を可視化する(S1070)とともに、可視化した翻訳文と重なる全ての画像を不可視化する(S1080)。
例えば図9(a)の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ930aに対応するテキスト(明示的に不可視化されていたテキスト)は、親要素の属性を継承して可視化される(文字色属性が透明から有色に変更される)。また、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ920aに対応する画像(明示的に可視化されていた画像)は、明示的に不可視化される(表示属性が表示から非表示に変更される)。
なお、翻訳文の可視化及び/又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。
図9(b)に、実施形態2における翻訳後のHTMLデータの一部を例示する。
図9(b)は、図9(a)のHTMLデータを図10のフローチャートに示す処理により翻訳した後のHTMLデータである。
テキストデータ910b,テキストデータ930bは、それぞれ翻訳後のWebページ(図4(b))のテキスト410b,テキスト430bに対応する。
なお、テキストデータ910bの文字サイズは、上記〔手順33〕の補正処理(図10のS840)により通常の90%に補正されている。その他のデータの設定には、特に明示したものを除き変更がない。
[3−1.システム構成の変形例]
[(a)翻訳サーバが遠隔地にある構成]
上述の実施形態では、Webサーバ11と翻訳サーバ12とをLAN等のプライベートネットワークを介して接続している(図2)。これは、両サーバが同一の事業者の管理下にあることを想定した構成である。
これに対し、図11に示すように、Webサーバ11と翻訳サーバ12とをインターネット30等のパブリックネットワークを介して接続してもよい。これは、Webサーバ11又は翻訳サーバ12が遠隔地(例えば、他の事業所,遠隔地のデータセンター,他の事業者の管理下等)にあることを想定した構成である。
上述の実施形態では、Webサーバ11と翻訳サーバ12とにより機械翻訳システム10を構成している(図2)。これは、ハードウェアごとに特定の処理機能に特化し、負荷分散を図った構成である。
これに対し、機械翻訳処理の全てのステップをWebサーバ11が実行するように構成してもよい。この場合、図12に示すように、Webサーバ11はWebDB13と翻訳DB14とを有する。また、ユーザ端末20から翻訳要求を受信して、翻訳対象のHTMLデータを取得し、翻訳処理を実行し、翻訳後のHTMLデータ及び必要な画像データを送信する処理の主体は、全てWebサーバ11となる。
上述の実施形態では、Webサーバ11はHTMLデータ又は画像データを送信する処理に特化している。同様に、翻訳サーバ12はユーザ端末20から翻訳要求を受信して翻訳後のHTMLデータを生成し、ユーザ端末20に送信する処理に特化している(図5)。
これに対し、ユーザ端末20から翻訳要求を受信する処理及び翻訳後のHTMLデータをユーザ端末20に送信する処理をWebサーバ11が担当することとし、翻訳サーバ12はWebページの翻訳処理(図8のS810〜S860,図10のS810〜S1080)のみに特化するように構成してもよい。
[(a)不可視化されているテキストの可視化の変形例]
不可視化されているテキストを可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性(表示属性)を「hidden」から「visible」(デフォルト)に変更する
・テキストデータそのもの又は該テキストデータを内容とする要素全体を挟んでいるコメントタグを削除する。
可視化されている画像を不可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素全体又は<img>タグをコメントタグで挟む(コメントアウトする)
・<div>要素全体又は<img>タグを削除する
・<div>要素のvisibility属性(表示属性)を「visible」(デフォルト)から「hidden」に変更する
・<div>要素又は<img>タグのdisplay属性(表示形式)を「none」に変更する
上述の実施形態2では、不可視化という用語を、「全く視認できない」ようにする処理を包含する概念として用いている。
これに対し、半透明に設定する,透過性を高める,グレイアウトする,極めて薄い色に設定する(RGBの各値をいずれも概ね200以上に設定する)等、ユーザが「殆ど視認できない」ようにする処理によっても、「不可視化」と同様の効果を奏する場合がある。したがって、これらの処理も「不可視化」と実質的に等価である。
上述の実施形態1では、HTMLのタグに個別にスタイルを設定している(図7)。また、上述の実施形態2では、HTMLソース内で定義したスタイルを特定のクラス名が付された全てのタグに適用するようにしている(図9)。
これに対し、所定のスタイルシート言語(例えば、CSS(Cascading Style Sheets))で記述した外部ファイルを参照することによりスタイルを適用してもよい。また、スタイルを全てHTMLタグの属性により設定してもよい。
図13に例示するHTMLのソースに対し、図14に例示するスタイルシートのソース(ファイル名「test.css」)を関連付ける。このとき、HTML中のテキストの表示位置は、図15に例示する画像(ファイル名「test.gif」)に合わせて、図16に例示するようにそれぞれ設定される。なお、図16は、最上部の白色文字が明確になるように背景を灰色にして示した。
図17に、図13に例示するHTMLのソースをWebブラウザに読み込んだWebページ表示例を示す。このように、画像の背景部分と文字部分とを分離して2層構成(画像のレイヤ,テキストのレイヤ)にすることで、文字部分のみを機械翻訳の対象にすることができる。なお、図17に示す表示例は、文字と一体化された画像(図18)と比較しても、十分な表現性を備えている。
11 Webサーバ
12 翻訳サーバ
13 WebDB
14 翻訳DB
20 ユーザ端末
30 インターネット
40 ルータ
Claims (10)
- ある言語で表現されたWebページを提供するとともに、該Webページを他の言語に翻訳する機械翻訳システムであって、
Webページを閲覧するユーザの端末と通信ネットワークを介して接続しており、
ある言語で表現されたWebページの構造を記述するHTMLデータと、HTMLデータが参照する画像データとを少なくとも記憶するWebデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを少なくとも記憶する翻訳データ記憶手段と
を有し、
前記Webデータ記憶手段に記憶するHTMLデータは、文字を含み可視化されている画像を示す文字画像と、該文字画像に重なる所定位置の前面に表示位置が設定され、かつ不可視化されている前記ある言語のテキストを示す予備テキストとの組を少なくとも1組含み、
翻訳対象のWebページに対応するURLと、翻訳先言語の指定データとを少なくとも含む翻訳要求を前記端末から受信する翻訳要求受信手段と、
前記受信したURLに対応するWebページの構造を記述するHTMLデータを前記Webデータ記憶手段より取得するHTMLデータ取得手段と、
前記翻訳データ記憶手段に記憶している辞書データを参照して、前記取得したHTMLデータ中の前記予備テキストを含む所定の翻訳対象テキストを前記受信した指定データに対応する翻訳先言語に翻訳するテキスト翻訳手段と、
前記取得したHTMLデータ中の不可視化されており且つ前記テキスト翻訳手段により翻訳された前記予備テキストを可視化するとともに、該HTMLデータ中の可視化されている前記文字画像を不可視化する可視化要素切替手段と、
前記可視化要素切替手段により処理された前記HTMLデータを前記端末に送信する翻訳済HTMLデータ送信手段と、
前記端末からの画像データを指定した送信要求に応じて、該指定された画像データを前記Webデータ記憶手段より読み出して該端末に送信する画像データ送信手段と
を備える
ことを特徴とする機械翻訳システム。 - 請求項1に記載の機械翻訳システムにおいて、
前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されている前記予備テキストを可視化する
ことを特徴とする機械翻訳システム。 - 請求項1又は2に記載の機械翻訳システムにおいて、
前記可視化要素切替手段は、画像の表示属性を表示から非表示に変更し、画像に対応するタグを削除し、画像に対応するタグをコメントタグで挟み、画像を含む領域の表示属性を表示から非表示に変更し又は画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化されている前記文字画像を不可視化する
ことを特徴とする機械翻訳システム。 - 請求項1〜3のいずれか1項に記載の機械翻訳システムにおいて、
前記翻訳済HTMLデータ送信手段は、前記取得したHTMLデータの基準URLを、前記受信した翻訳要求に含まれる翻訳対象のWebページのURLに変更する
ことを特徴とする機械翻訳システム。 - 請求項1〜4のいずれか1項に記載の機械翻訳システムにおいて、
前記翻訳済HTMLデータ送信手段は、翻訳後の前記予備テキストの長さが前記取得したHTML中の翻訳前の前記予備テキストの長さと比較して一定以上長いとき、該翻訳後の前記予備テキストの長さを短く補正する
ことを特徴とする機械翻訳システム。 - ある言語で表現されたWebページを提供するとともに、該Webページを他の言語に翻訳する機械翻訳システムによる機械翻訳方法であって、
前記機械翻訳システムは、Webページを閲覧するユーザの端末と通信ネットワークを介して接続しており、
ある言語で表現されたWebページの構造を記述するHTMLデータと、HTMLデータが参照する画像データとを少なくとも記憶するWebデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを少なくとも記憶する翻訳データ記憶手段とを有し、
前記Webデータ記憶手段に記憶するHTMLデータは、可視化されている画像を示す文字画像と、該文字画像に重なる所定位置の前面に表示位置が設定され、かつ不可視化されている前記ある言語のテキストを示す予備テキストとの組を少なくとも1組含み、
翻訳対象のWebページに対応するURLと、翻訳先言語の指定データとを少なくとも含む翻訳要求を前記端末から受信する翻訳要求受信ステップと、
前記受信したURLに対応するWebページの構造を記述するHTMLデータを前記Webデータ記憶手段より取得するHTMLデータ取得ステップと、
前記翻訳データ記憶手段に記憶している辞書データを参照して、前記取得したHTMLデータ中の前記予備テキストを含む所定の翻訳対象テキストを前記受信した指定データに対応する翻訳先言語に翻訳するテキスト翻訳ステップと、
前記取得したHTMLデータ中の不可視化されており且つ前記テキスト翻訳ステップにおいて翻訳された前記予備テキストを可視化するとともに、該HTMLデータ中の可視化されている前記文字画像を不可視化する可視化要素切替ステップと、
前記可視化要素切替ステップにおいて処理された前記HTMLデータを前記端末に送信する翻訳済HTMLデータ送信ステップと、
前記端末からの画像データを指定した送信要求に応じて、該指定された画像データを前記Webデータ記憶手段より読み出して該端末に送信する画像データ送信ステップと
を備える
ことを特徴とする機械翻訳方法。 - 請求項1〜5のいずれか1項に記載の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるためのプログラム。
- 文字を含み可視化されている文字画像と、該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得手段と、
Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替手段と、
前記可視化要素切替処理が実行されたソースを出力する出力手段と、
を備える情報処理装置。 - 文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得ステップと、
Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替ステップと、
前記可視化要素切替処理が実行されたソースを出力する出力ステップと、
を含む、コンピュータによる情報処理方法。 - 文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得機能と、
Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替機能と、
前記可視化要素切替処理が実行されたソースを出力する出力機能と、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008334468A JP5483526B2 (ja) | 2008-12-26 | 2008-12-26 | 機械翻訳システム及び機械翻訳方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008334468A JP5483526B2 (ja) | 2008-12-26 | 2008-12-26 | 機械翻訳システム及び機械翻訳方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010157066A JP2010157066A (ja) | 2010-07-15 |
JP5483526B2 true JP5483526B2 (ja) | 2014-05-07 |
Family
ID=42574966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008334468A Active JP5483526B2 (ja) | 2008-12-26 | 2008-12-26 | 機械翻訳システム及び機械翻訳方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5483526B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2803861C (en) | 2010-06-25 | 2016-01-12 | Rakuten, Inc. | Machine translation system and method of machine translation |
WO2012147936A1 (ja) * | 2011-04-28 | 2012-11-01 | 楽天株式会社 | 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法 |
JP5786106B2 (ja) | 2013-03-29 | 2015-09-30 | 楽天株式会社 | 情報処理システム、情報処理方法、データ、情報処理装置、表示装置、表示方法、プログラムおよび情報記憶媒体 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997048058A1 (en) * | 1996-06-14 | 1997-12-18 | Logovista Corporation | Automated translation of annotated text |
JP3946916B2 (ja) * | 1999-10-12 | 2007-07-18 | 東芝ソリューション株式会社 | 翻訳システムおよび記録媒体 |
JP2001344238A (ja) * | 2000-03-31 | 2001-12-14 | Fujitsu Ltd | 文書処理装置、記録媒体及びプログラム |
JP2002049555A (ja) * | 2000-08-02 | 2002-02-15 | Hiromune Kaneki | 付記情報の表示方法および付記情報表示用記録媒体 |
JP3809863B2 (ja) * | 2002-02-28 | 2006-08-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | サーバ |
JP5235135B2 (ja) * | 2008-12-26 | 2013-07-10 | 楽天株式会社 | 機械翻訳システム及び機械翻訳方法 |
-
2008
- 2008-12-26 JP JP2008334468A patent/JP5483526B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010157066A (ja) | 2010-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4658236B1 (ja) | 機械翻訳システム及び機械翻訳方法 | |
US9047261B2 (en) | Document editing method | |
JP4344693B2 (ja) | ブラウザの文書編集のためのシステムおよびその方法 | |
JP2019128943A (ja) | 多言語植字の表示方法、表示装置、ブラウザ、端末及びコンピュータ読み取り可能な記憶媒体 | |
JP5235135B2 (ja) | 機械翻訳システム及び機械翻訳方法 | |
JP2001184344A (ja) | 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置 | |
US20120072831A1 (en) | Method for creating a multi-lingual web page | |
KR20060122004A (ko) | 다중언어를 지원하는 인터넷 만화 서비스 방법 및 그시스템 | |
JP5483526B2 (ja) | 機械翻訳システム及び機械翻訳方法 | |
CN117436417A (zh) | 演示文稿生成方法、装置、电子设备和存储介质 | |
US11126799B2 (en) | Dynamically adjusting text strings based on machine translation feedback | |
JP5604276B2 (ja) | 文書画像生成装置および文書画像生成方法 | |
US7676746B1 (en) | System and method for in-context authoring of alternate content for non-textual objects | |
JP7246795B1 (ja) | 情報処理装置、方法、プログラム、およびシステム | |
WO2024018694A1 (ja) | 情報処理装置、情報処理プログラム及び情報処理方法 | |
JP7116369B2 (ja) | 印刷用画像の審査を支援するための情報処理装置、方法、プログラム、及び情報処理システム | |
US20230367952A1 (en) | Reducing interference between two texts | |
Mueller | CSS3 for Dummies | |
JP4147763B2 (ja) | データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体 | |
JP2023180802A (ja) | 出力用文書又は出力用画像の審査を支援するための情報処理装置、方法、プログラム、及び情報処理システム | |
TW201220084A (en) | automatically identifying required rendering elements in a primitive electronic document, generating a list of object elements corresponding to the required rendering elements, and modifying the required rendering elements to the object elements | |
JP2013161375A (ja) | 編集システム | |
CN114791987A (zh) | 一种网页翻译方法和相关设备 | |
JP2021043924A (ja) | 電子文書の閲覧用電子データの保存装置、保存方法 | |
JP2008251023A (ja) | データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20100531 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5483526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |