JPH05108716A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH05108716A
JPH05108716A JP3272445A JP27244591A JPH05108716A JP H05108716 A JPH05108716 A JP H05108716A JP 3272445 A JP3272445 A JP 3272445A JP 27244591 A JP27244591 A JP 27244591A JP H05108716 A JPH05108716 A JP H05108716A
Authority
JP
Japan
Prior art keywords
frame
character string
character
image data
format information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3272445A
Other languages
English (en)
Inventor
Masaki Matsudaira
正樹 松平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3272445A priority Critical patent/JPH05108716A/ja
Publication of JPH05108716A publication Critical patent/JPH05108716A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 自動的に入力の書式を変換後の文字列と共に
復元することができる機械翻訳装置を提供する。 【構成】 原イメージデータ入力部1は翻訳対象の原稿
を読取って、イメージデータに変換して枠分割部2に供
給する。枠分割部2はイメージデータからイメージの空
白部分を抽出して、空白部分を基にしてそれぞれ分割し
て枠を形成し、それぞれの枠内が文字列、表、図形であ
るか否かを判断して結果をイメージ情報として翻訳部3
に供給する。翻訳部3はこのイメージ情報の文字列、
表、図形などの中から文字列を所望の言語に翻訳して、
この翻訳結果を書式情報変更部4に供給する。書式情報
変更部4はこの翻訳結果の文字列、表、図形な中から文
字列及び表内の文字列について枠内に入るように枠の大
きさ、文字間隔、文字の大きさを変更して、変更結果を
翻訳結果として翻訳結果出力部5に供給する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、機械翻訳装置であっ
て、例えば、文字と図形と表などを含む原稿の翻訳に好
適な機械翻訳装置に関するものである。
【0002】
【従来の技術】従来、数多くの機械翻訳装置が商品化さ
れ、次第に普及しつつある。そして、最近は入力の煩わ
しさからOCRとの接続が要望されている。しかしなが
ら、単にOCRと接続しただけでは図や表などを取り除
き、後編集で結合するといった操作が必要になる。そこ
で、文献「特開平1−137369号公報」では、文字
列のみからなる入力文に対する書式情報を入力文に付加
して取り込み、この取り込んだ情報に基づいて翻訳して
清書して出力するという機械翻訳方式が提案されてい
る。
【0003】
【発明が解決しようとする課題】しかしながら、上記文
献に示されている方式においては、原稿の中に図形や表
が挿入されている場合に、翻訳結果に図形や表などのイ
メージデータを復元することが意識されていない。例え
ば、表の中に文字がある場合や、翻訳前の入力文と翻訳
後の出力文の文字列の長さが著しく異なる場合の表の大
きさの調整などが考慮されていないために、書式を完全
に復元するためには手作業による後編集の操作が必要に
なるという問題がある。
【0004】機械翻訳装置に不慣れなユーザでも簡単な
操作で入力及び出力の書式情報を意識しながら所望の書
式で翻訳できる装置が要請されている。
【0005】この発明は、以上の課題に鑑み為されたも
のであり、その目的とするところは、自動的に入力の書
式を変換後の文字列と共に復元することができる機械翻
訳装置を提供することである。
【0006】
【課題を解決するための手段】この発明は、以上の目的
を達成するために、この発明の機械翻訳装置は、次のよ
うな特徴的な手段を備えて改良した。
【0007】つまり、原稿をイメージデータとして取り
込むイメージデータ取込手段と、このイメージデータか
ら文字を認識する文字認識手段と、このイメージデータ
を構成するイメージの種類に応じて、上記イメージデー
タを枠を使って枠形式で分類する分類手段と、この分類
された枠形式のイメージごとの、原稿上の配置構造と、
イメージの内容構造とを表す書式情報を、上記分類され
た枠形式のイメージごとに作成する書式情報作成手段
と、上記文字認識手段で認識された文字の列から所望の
異なる種類の文字列に変換する翻訳手段と、この変換後
の文字列と上記書式情報とを用いて、上記変換後の文字
列にあった新たな書式情報に変更する書式情報変更手段
とを備えて、この変更された書式情報に基づき所望の文
字列のイメージデータを得ることを特徴とする。
【0008】また、上記イメージの種類は、文字列(記
号列や数式なども含まれる)と、図形(絵なども含まれ
る)と、表のいずれか1以上であってもよい。
【0009】更に、上記書式情報は、それぞれのイメー
ジの種類に対して、枠の座標と、枠内の文字間隔と、枠
内の文字の大きさと、枠内の行数と、枠内の文字位置制
御情報と、文字内容とから構成される情報であってもよ
い。
【0010】
【作用】この発明によれば、文字や図形や表を意識する
こと無くイメージデータとして取り込み、自動的に入力
のイメージの種類に応じて枠を使って枠形式で分類し
て、分類したイメージごとに、そのイメージの原稿上の
配置構造と、イメージの内容構造とを表す書式情報を作
成し、また、文字認識手段である言語の文字を認識し
て、所望の異なる文字列に変換して、この変換された文
字列の長さなどに応じて、表や図形や文字の大きさなど
を変更して、入力の表や図形を変換後の文字列に応じて
復元して出力することができる。
【0011】また、上記翻訳手段は、異なる言語間の翻
訳や、日本語の平仮名と漢字で記述された文章から、カ
タカナ文やローマ字文に変換することや、ある言語文か
ら数値制御情報やコマンド情報に変換することなどであ
ってもよい。
【0012】
【実施例】次にこの発明の機械翻訳装置の好適な一実施
例を図面を用いて説明する。
【0013】この実施例の目的は、表の中に文字がある
場合や入力と出力の文字列の長さが著しく異なる場合な
どいかなる場合に対しても入力の書式を完全に復元する
ことを目的とする。
【0014】図2は、この実施例に係る機械翻訳装置を
コンピュータシステムで実現した場合のハードウエアブ
ロック図である。
【0015】図2において、機械翻訳装置用のこのコン
ピュータシステムは、例えば、CPU101と、イメー
ジスキャナ102と、キーボード103と、磁気ディス
ク装置104と、ディスプレイ105と、プリンタ10
6と、主メモリ107とで構成されている。尚、イメー
ジスキャナ102は、図形や表を読み取れるOCRなど
であってもよい。
【0016】磁気ディスク装置104には、ユーザイン
ターフェースプログラムや、翻訳プログラムや、翻訳辞
書ライブラリーや、書式制御プログラムや、翻訳制御プ
ログラムなどが格納されている。このような各種のプロ
グラムは、主メモリ107にロードされてCPU101
によって実行される。イメージスキャナ102は、原稿
を取り込み、イメージデータに変換して、CPU101
に供給する。キーボードは103は、磁気ディスク装置
104の制御や、イメージスキャナ102などの原稿読
取り制御を行うためのデータ入力や、その他の各種のデ
ータの入力を行う。ディスプレイ105は、入力原イメ
ージデータの表示や、翻訳結果などを表示出力素する。
プリンタ106は、翻訳結果などを印刷出力する。
【0017】図1は、この実施例に係る機械翻訳装置に
機能ブロック図である図1において、この機械翻訳装置
は、原イメージデータ入力部1と、枠分割部2と、翻訳
部3と、書式情報変更部4と、翻訳出力部5とで構成さ
れている。
【0018】原イメージデータ入力部1は、イメージス
キャナ102などを使用して翻訳対象の原稿を読取っ
て、イメージデータに変換して、このイメージデータを
枠分割部2に供給する。枠分割部2は、供給されるイメ
ージデータからイメージの空白部分を抽出して、そし
て、空白部分を基にしてそれぞれ分割して枠を形成し、
それぞれの枠内が文字列(記号列や数式なども含む)、
表、図形(例えば図、写真、絵など)であるか否かを判
断して結果をイメージ情報として翻訳部3に供給する。
翻訳部3は、このイメージ情報の文字列、表、図形など
の中から文字列を所望の言語(例えば、英語)に翻訳し
て、この翻訳結果を書式情報変更部4に供給する。
【0019】書式情報変更部4は、この翻訳結果の文字
列、表、図形な中から文字列及び表内の文字列について
枠内に入るように枠の大きさ、文字間隔、文字の大きさ
を変更して、変更結果を翻訳結果として翻訳結果出力部
5に供給する。翻訳結果出力部5は、翻訳結果をディス
プレイ105やプリンタ106に出力して表示あるいは
印刷出力する。
【0020】図3は、図1に係る機械翻訳装置の処理フ
ローチャートを示している。
【0021】図3において、原イメージデータ入力部1
は原稿のイメージデータ(図4の(a)(b)にこの例
を示す)の取り込みをイメージスキャナ102などを使
用して行いビット列に変換して、これを枠分割部2に供
給する(S10)。次に枠分割部2は、供給されたイメ
ージデータからイメージの空白部分を抽出して、図5の
(a)、(b)に示すような枠を形成して、枠分割を行
う(S20)。図4の(a)に対して図5の(a)が対
応している。例えば、図4の(a)の『報告書』の部分
が、図5の(a)の枠S1に対応している。この様にし
て枠S1〜S5、枠L1、枠F1が形成されている。ま
た、図4の(b)に対して図5の(b)が対応してい
る。例えば、図4の(a)の『第2図』の部分が、図5
の(b)の枠S8に対応している。この様にして枠S6
〜S9、枠F2が形成されている。
【0022】次に枠分割部2は、各枠の始点座標、終点
座標を求めて、枠の特徴からS1(1行)〜S9(5
行)が文字列枠、F1、F2が図形枠、L1が表枠(2
×3)であると認識する。更に、上下の枠の始点座標と
終点座標から枠制御情報としてセンタリング、右寄せ、
標準などを判定して、これらの情報を書式情報(図6に
この書式情報の例を示す)に書き込む(S21)。
【0023】図6は、枠結合前の書式情報の例であり、
識別子S1〜S5・・・までは、文字(記号なども含
む)が含まれる枠であり、始点座標、終点座標、文字間
隔、文字の大きさ、行数、制御情報(センタリング、右
寄せ、左寄せ、標準など)、内容などが記述されてい
る。また、識別子F1は、図形枠であり、始点座標、終
点座標などが記述されている。また、識別子L1は、表
枠であり、始点座標、終点座標、大きさなどが記述され
ている。
【0024】次に枠分割部2は、文字列及び表内の文字
部分を認識して、イメージデータから文字コードに変換
する(S22)。次に文字列枠について結合可能性を調
べて、枠S2、S3、S5、S6、S7、S9を結合す
る(S23)。この時に、枠S2とS3、S6とS7の
間にはそれぞれ空行を1行挿入する。この様にして文字
列枠が結合された後の文字列枠の書式情報の例を図7に
示す。この様にして得られた書式情報は翻訳部3に供給
される。
【0025】図7は、文字列枠の結合後の書式情報の例
であり、識別子S1、S2、S4・・・が記述されてお
り、始点座標、終点座標、文字間隔、文字の大きさ、行
数、制御情報、内容などが含まれている。
【0026】翻訳部3は、供給された書式情報の文字列
部分を翻訳(日本語から英語に翻訳)して、書式情報変
更部4に供給する(S30)。次に書式情報変更部は、
供給された書式情報の文字列部分についてもとの文字間
隔、文字の大きさで訳文が枠内に入るか否かを調べ(S
40)、図8に示すように、枠内に入る場合は枠制御情
報がセンタリングの枠に対しては、左右が均等になるよ
うに縮小し(図8(a))、右寄せの枠に対しては左を
文字列が入る最小の枠になるように縮小し(図8
(b))、左寄せの枠に対しては右を文字列が入る最小
の枠になるように縮小し(図8(c))、標準の枠に対
しては下を文字列が入る最小の枠になるように縮小して
(図8(d))、書式情報の枠開始座標、枠終了座標を
変更する(S40、S41)。
【0027】また、文字列が枠内に入らない場合は、図
9に示すように、枠制御情報がセンタリングの枠に対し
ては上下の枠の延長線を越えない範囲で左右を均等に拡
大し(図9(a))、右寄せの枠に対しては同様に上下
の枠の延長線を越えない範囲で左を拡大し(図9
(b))、左寄せの枠に対しては同様に上下の枠の延長
線を越えない範囲で右を拡大し(図9(c))、標準の
枠に対しては左右の枠の延長線を越えない範囲でかつ頁
の範囲内で下を文字列が入る最小の枠になるように拡大
し(図9(d))、書式情報の枠開始座標、枠終了座標
を変更する(S40、S42)。
【0028】次に枠を拡大しても枠内に文字列が入らな
い場合、図10に示すように、文字間隔を枠内に入る最
大値となるように小さくして、書式情報の文字間隔を変
更する(S43、S44)。次に文字間隔を小さくして
も枠内に文字が入らない場合は、図11に示すように、
文字の大きさを枠内に入る最大値となるように小さくし
て、書式情報の文字の大きさを変更する(S45、S4
6)。
【0029】この様にして変更されて得られた書式情報
を、書式情報変更部4は、翻訳結果出力部5に供給し
て、図12に示すように、表示出力又は印刷出力を行い
(S46)、翻訳作業を終了する。
【0030】以上の実施例によれば、いかなる書式の原
稿であっても、原稿をイメージデータとして取り込めれ
ば、枠分割、書式情報の作成、文字認識、文字コードへ
の変換、文字列の翻訳、文字枠の調整、文字間隔の調
整、文字の大きさの調整などを行って、ユーザの操作を
逐一行うことなく、自動的に入力書式を復元しつつ、入
力原文の翻訳も行うことができる。
【0031】従って、いかなる書式の原稿の翻訳であっ
ても、後編集を加えることなく入力書式を正確に復元す
ることができる。
【0032】以上の実施例においては、原イメージデー
タをイメージスキャナで取り込んだが、これに限るもの
ではなく、イメージデータを供給することができる、ビ
デオカメラや、図形や表などを読み取れるOCRや、V
TRや、画像蓄積装置などから供給されるイメージデー
タなどであってもよい。また、文字と、文字以外の図形
や表などを別々にワードプロセッサなどで生成して、そ
の後に上記実施例の翻訳を行うようにしてもよいし、ま
た、文字と、文字以外の図形や表などを別々に取り込ん
で処理してもよい。
【0033】以上の実施例において、入力原文を日本語
から英語に翻訳する例で説明したが、これに限るもので
はなく、英語から日本語であっても良いし、また、他の
言語間の翻訳においても適用することができる。また、
原イメージデータの中に漢字や仮名で記述された日本語
をカタカナ文や、ローマ字文に変換しながら、入力書式
も復元する装置にも適用することができる。また、ある
言語文からコンピュータのコマンド言語を生成したり、
数値制御情報を生成することにも適用することができ
る。
【0034】また、上記書式情報変更部4においては、
自動的に変更して得られた書式情報をユーザのデータ入
力によって、更に変更する構成にすることも可能であ
る。
【0035】
【発明の効果】以上述べたようにこの発明によれば、文
字や図形や表を意識すること無くイメージデータとして
取り込み、自動的に入力のイメージの種類に応じて分類
して、分類したイメージごとに、そのイメージの書式情
報を作成し、また、文字認識手段で文字を認識して、所
望の異なる文字列に変換して、この変換された文字列の
長さなどに応じて、表や図形や文字の大きさなどを変更
して、入力の表や図形を変換後の文字列に応じて復元し
て出力することができる。
【0036】従って、不慣れなユーザによっても効率的
に機械翻訳処理を行うことができる。
【図面の簡単な説明】
【図1】この実施例に係る機械翻訳装置の機能ブロック
図である。
【図2】この実施例に係る機械翻訳装置をコンピュータ
システムで実現した場合のハードウエア構成図である。
【図3】この実施例に係る機械翻訳装置の処理フローチ
ャートである。
【図4】この実施例に係る機械翻訳装置の入力イメージ
の例を示している。
【図5】この実施例に係る機械翻訳装置の枠分割の例を
示す図である。
【図6】この実施例に係る機械翻訳装置の枠結合前の書
式情報の例を示している。
【図7】この実施例に係る機械翻訳装置の枠結合後の書
式情報の例を示している。
【図8】この実施例に係る機械翻訳装置の枠の縮小の例
を示している。
【図9】この実施例に係る機械翻訳装置の枠の拡大の例
を示している。
【図10】この実施例に係る機械翻訳装置の文字間隔変
更の例を示している。
【図11】この実施例に係る機械翻訳装置の文字の大き
さの変更の例を示している。
【図12】この実施例に係る機械翻訳装置の翻訳出力の
例を示している。
【符号の説明】
1…原イメージデータ入力部、2…枠分割部、3…翻訳
部、4…書式情報変更部、5…翻訳結果出力部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 原稿をイメージデータとして取り込むイ
    メージデータ取込手段と、 このイメージデータから文字を認識する文字認識手段
    と、 このイメージデータを構成するイメージの種類に応じ
    て、上記イメージデータを枠を使って枠形式で分類する
    分類手段と、 この分類された枠形式のイメージごとの、原稿上の配置
    構造と、イメージの内容構造とを表す書式情報を、上記
    分類された枠形式のイメージごとに作成する書式情報作
    成手段と、 上記文字認識手段で認識された文字の列から所望の異な
    る種類の文字列に変換する翻訳手段と、 この変換後の文字列と上記書式情報とを用いて、上記変
    換後の文字列にあった新たな書式情報に変更する書式情
    報変更手段とを備えて、 この変更された書式情報に基づき所望の文字列のイメー
    ジデータを得ることを特徴とする機械翻訳装置。
  2. 【請求項2】 上記イメージの種類は、文字列と、図形
    と、表のいずれか1以上であることを特徴とする請求項
    1に記載の機械翻訳装置。
  3. 【請求項3】 上記書式情報は、それぞれのイメージの
    種類に対して、枠の座標と、枠内の文字間隔と、枠内の
    文字の大きさと、枠内の行数と、枠内の文字位置制御情
    報と、文字内容とから構成される情報であることを特徴
    とする請求項1又は2に記載の機械翻訳装置。
JP3272445A 1991-10-21 1991-10-21 機械翻訳装置 Pending JPH05108716A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3272445A JPH05108716A (ja) 1991-10-21 1991-10-21 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3272445A JPH05108716A (ja) 1991-10-21 1991-10-21 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH05108716A true JPH05108716A (ja) 1993-04-30

Family

ID=17514016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3272445A Pending JPH05108716A (ja) 1991-10-21 1991-10-21 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH05108716A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7623716B2 (en) 2005-03-23 2009-11-24 Fuji Xerox Co., Ltd. Language translation device, image processing apparatus, image forming apparatus, language translation method and storage medium
US7865353B2 (en) * 2005-03-22 2011-01-04 Fuji Xerox Co., Ltd. Translation device, image processing device, translation method, and recording medium
WO2012086357A1 (ja) * 2010-12-22 2012-06-28 富士フイルム株式会社 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
WO2012086358A1 (ja) * 2010-12-22 2012-06-28 富士フイルム株式会社 ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2012133663A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2013122747A (ja) * 2011-08-08 2013-06-20 Canon Inc 画像処理装置、画像処理方法およびプログラム
JP2015111807A (ja) * 2013-11-08 2015-06-18 株式会社リコー 画像処理システム、画像処理方法及びプログラム
CN112135054A (zh) * 2020-09-27 2020-12-25 广东小天才科技有限公司 一种拍照翻译的实现方法、***、智能手表和存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865353B2 (en) * 2005-03-22 2011-01-04 Fuji Xerox Co., Ltd. Translation device, image processing device, translation method, and recording medium
US7623716B2 (en) 2005-03-23 2009-11-24 Fuji Xerox Co., Ltd. Language translation device, image processing apparatus, image forming apparatus, language translation method and storage medium
WO2012086357A1 (ja) * 2010-12-22 2012-06-28 富士フイルム株式会社 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
WO2012086358A1 (ja) * 2010-12-22 2012-06-28 富士フイルム株式会社 ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2012133663A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2012133660A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
JP2012133661A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2013122747A (ja) * 2011-08-08 2013-06-20 Canon Inc 画像処理装置、画像処理方法およびプログラム
US9245357B2 (en) 2011-08-08 2016-01-26 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
JP2015111807A (ja) * 2013-11-08 2015-06-18 株式会社リコー 画像処理システム、画像処理方法及びプログラム
CN112135054A (zh) * 2020-09-27 2020-12-25 广东小天才科技有限公司 一种拍照翻译的实现方法、***、智能手表和存储介质

Similar Documents

Publication Publication Date Title
US8954845B2 (en) Image processing device, method and storage medium for two-way linking between related graphics and text in an electronic document
JP4311365B2 (ja) 文書処理装置およびプログラム
JP2011100356A (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
US8514462B2 (en) Processing document image including caption region
JPH05108716A (ja) 機械翻訳装置
JP2022092119A (ja) 画像処理装置、画像処理方法およびプログラム
US20020181779A1 (en) Character and style recognition of scanned text
JP2006276905A (ja) 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム
JP2006252164A (ja) 中国語文書処理装置
JPH05303619A (ja) 電子スクラップブック
JP3122417B2 (ja) 情報表示方法及び情報処理装置
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
JPH0883280A (ja) 文書処理装置
JP2001202362A (ja) 文字編集処理装置
JP3424942B2 (ja) 対訳画像形成装置
JPH07182344A (ja) 機械翻訳装置
JPS60201467A (ja) 日本語処理装置
JP2682873B2 (ja) 表形式文書の認識装置
JP3147947B2 (ja) 機械翻訳装置
JPH0916717A (ja) 文書読取装置
JPS61229161A (ja) 文書作成編集装置
JP2723908B2 (ja) 文書作成装置
JPH0581318A (ja) デジタル翻訳装置
JP2005167522A (ja) 印刷システム
JPH0668136A (ja) 機械翻訳システム