JP2006252048A - 翻訳装置、翻訳プログラムおよび翻訳方法 - Google Patents
翻訳装置、翻訳プログラムおよび翻訳方法 Download PDFInfo
- Publication number
- JP2006252048A JP2006252048A JP2005065960A JP2005065960A JP2006252048A JP 2006252048 A JP2006252048 A JP 2006252048A JP 2005065960 A JP2005065960 A JP 2005065960A JP 2005065960 A JP2005065960 A JP 2005065960A JP 2006252048 A JP2006252048 A JP 2006252048A
- Authority
- JP
- Japan
- Prior art keywords
- chart
- area
- character
- page number
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
【課題】 文字領域内の翻訳により文字領域と図表領域のレイアウトが原稿とは異なったものとなり、図表の属する頁に変化が生じる場合、これに起因した文字領域内の図表への言及に関する誤りを訂正する。
【解決手段】 レイアウト構成処理104により図表入り翻訳文データを作成後、同データの文字領域の中から図表番号を探索する図表番号探索処理105と、文字領域においてこの図表番号の近傍を探索範囲とし、頁番号を探索する近傍頁番号探索処理106と、図表番号探索処理105により探索された図表番号を図表領域内に含む頁の頁番号を抽出する頁番号抽出処理107と、頁番号抽出処理107によって抽出された頁番号により近傍頁番号探索処理106により探索された文字領域内の頁番号を書き換える頁番号書換え処理108を実行する。
【選択図】 図2
【解決手段】 レイアウト構成処理104により図表入り翻訳文データを作成後、同データの文字領域の中から図表番号を探索する図表番号探索処理105と、文字領域においてこの図表番号の近傍を探索範囲とし、頁番号を探索する近傍頁番号探索処理106と、図表番号探索処理105により探索された図表番号を図表領域内に含む頁の頁番号を抽出する頁番号抽出処理107と、頁番号抽出処理107によって抽出された頁番号により近傍頁番号探索処理106により探索された文字領域内の頁番号を書き換える頁番号書換え処理108を実行する。
【選択図】 図2
Description
この発明は、文字領域と図表領域とが混在した画像を受け取り、そのうちの文字の部分を他言語に翻訳し、図表入り翻訳文データを出力する装置、プログラムおよび方法に関する。
図表入り文書の画像を受け取り、この画像中の文字領域の文字列を他言語に翻訳し、図表と翻訳文からなるデータを生成する翻訳装置が各種提案されている。なお、この種の技術は、例えば特許文献1に開示されている。
特開平6−162081号公報
ところで、特許文献1に開示された技術では、レイアウト解析により原稿から得られた入力画像における文字領域と図表領域とを分離し、文字の認識および翻訳を行う。そして、翻訳により得られた翻訳文の文字量と文字領域のサイズを比較し、その結果に応じて文字領域を変形していた。また、文字領域の変形により、同一頁に図表領域を配置することができなくなる場合には、図表領域を次の頁に移動させていた。このように図表領域が元の頁とは異なる頁に移動されると、例えば元の原稿では文字領域内に例えば「5頁の図2」というような図表に言及する記載があった場合において、翻訳後は図表領域の頁間移動により図2が5頁ではない頁に属する、という事態も発生し得る。この場合、翻訳後における文字領域内の図表に関する言及は誤ったものとなるので好ましくない。
この発明は、以上説明した事情に鑑みてなされたものであり、文字領域に収めるべき翻訳文の文字量の増減によって文字領域と図表領域のレイアウトが原稿とは異なったものとなり、図表の属する頁に変化が生じる場合であっても、これに起因した文字領域内における図表への言及に関する誤りを訂正することができる翻訳装置および翻訳プログラムを提供することを目的としている。
この発明は、図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析手段と、前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域の画像内に存在する文字の文字認識処理を行って図表領域内文字データを出力する文字認識手段と、前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理手段と、前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理手段と、前記図表入り翻訳文データの文字領域の中から図表を特定する図表特定情報を探索する図表特定情報探索手段と、前記図表入り翻訳文データの文字領域において前記図表特定情報探索手段により探索された図表特定情報の近傍を探索範囲とし、頁番号を探索する近傍頁番号探索手段と、前記図表入り翻訳文データにおいて前記図表特定情報探索手段により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出手段と、前記図表入り翻訳文データの文字領域において前記近傍頁番号探索手段により探索された図表特定情報の近傍の頁番号を、前記頁番号抽出手段によって抽出された同図表特定情報を図表領域内に含む頁の頁番号に書き換える頁番号書換え手段とを具備することを特徴とする翻訳装置、コンピュータを上記各手段として機能させる翻訳プログラム、および上記各手段によって行われる一連の処理を要素とする翻訳方法を提供する。
また、この発明は、図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析手段と、前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域の画像内に存在する文字の文字認識処理を行って図表領域内文字データを出力する文字認識手段と、前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理手段と、前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理手段と、前記図表入り翻訳文データの文字領域の中から頁番号を探索する頁番号探索手段と、前記図表入り翻訳文データの文字領域において前記頁番号探索手段により探索された頁番号の近傍を探索範囲とし、図表を特定する図表特定情報を探索する近傍図表特定情報探索手段と、前記図表入り翻訳文データにおいて前記近傍図表特定情報探索手段により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出手段と、前記頁番号探索手段によって探索された頁番号のうち前記近傍図表特定情報探索手段によって近傍の図表特定情報が探索された頁番号を、前記頁番号抽出手段により抽出された同図表特定情報を図表領域内に含む頁の頁番号により書き換える頁番号書換え手段とを具備することを特徴とする翻訳装置、コンピュータを上記各手段として機能させる翻訳プログラム、および上記各手段によって行われる一連の処理を要素とする翻訳方法を提供する。
これらの翻訳装置、翻訳プログラムおよび翻訳方法によれば、文字領域に収めるべき翻訳文の文字量の増減によって文字領域と図表領域のレイアウトが入力画像とは異なったものとなり、図表の属する頁に変化が生じる場合であっても、これに起因した文字領域内における図表への言及に関する誤りが訂正される。
また、この発明は、図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析手段と、前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域の画像内に存在する文字の文字認識処理を行って図表領域内文字データを出力する文字認識手段と、前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理手段と、前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理手段と、前記図表入り翻訳文データの文字領域の中から頁番号を探索する頁番号探索手段と、前記図表入り翻訳文データの文字領域において前記頁番号探索手段により探索された頁番号の近傍を探索範囲とし、図表を特定する図表特定情報を探索する近傍図表特定情報探索手段と、前記図表入り翻訳文データにおいて前記近傍図表特定情報探索手段により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出手段と、前記頁番号探索手段によって探索された頁番号のうち前記近傍図表特定情報探索手段によって近傍の図表特定情報が探索された頁番号を、前記頁番号抽出手段により抽出された同図表特定情報を図表領域内に含む頁の頁番号により書き換える頁番号書換え手段とを具備することを特徴とする翻訳装置、コンピュータを上記各手段として機能させる翻訳プログラム、および上記各手段によって行われる一連の処理を要素とする翻訳方法を提供する。
これらの翻訳装置、翻訳プログラムおよび翻訳方法によれば、文字領域に収めるべき翻訳文の文字量の増減によって文字領域と図表領域のレイアウトが入力画像とは異なったものとなり、図表の属する頁に変化が生じる場合であっても、これに起因した文字領域内における図表への言及に関する誤りが訂正される。
以下、図面を参照し、この発明を実施するための最良の形態について説明する。
<第1実施形態>
図1はこの発明の第1実施形態である翻訳装置の基本構成を示すブロック図である。この翻訳装置は、スキャナ機能、コピー機能、印刷機能およびFAX機能を併有する複合機と同様な構成であり、ADF(Automatic Document Feeder)機構を備えた画像読取装置1と、印刷装置2と、通信インタフェース3と、表示部4と、操作部5と、揮発性メモリ6と、不揮発性メモリ7と、以上の各部を制御するCPU8とにより構成されている。この装置では、CPU8による制御の下、画像読取装置1により読み取った画像を印刷装置2により印刷するコピー機能、同画像を通信インタフェース3およびネットワークを介して相手FAX装置に送るFAX機能など、複合機としての機能を実現することができる。
<第1実施形態>
図1はこの発明の第1実施形態である翻訳装置の基本構成を示すブロック図である。この翻訳装置は、スキャナ機能、コピー機能、印刷機能およびFAX機能を併有する複合機と同様な構成であり、ADF(Automatic Document Feeder)機構を備えた画像読取装置1と、印刷装置2と、通信インタフェース3と、表示部4と、操作部5と、揮発性メモリ6と、不揮発性メモリ7と、以上の各部を制御するCPU8とにより構成されている。この装置では、CPU8による制御の下、画像読取装置1により読み取った画像を印刷装置2により印刷するコピー機能、同画像を通信インタフェース3およびネットワークを介して相手FAX装置に送るFAX機能など、複合機としての機能を実現することができる。
不揮発性メモリ7には、この種の複合機としての機能を実現するための制御をCPU8に実行させる制御プログラムに加えて、本実施形態特有のプログラムが記憶されている。すなわち、装置外部から取り込んだ画像に含まれる文字列を他の言語の文字列に翻訳し、元の文字列の画像の代わりに翻訳文データを持った図表入り翻訳文データを生成して出力する図表入り文書翻訳プログラムである。この図表入り文書翻訳プログラムの詳細な処理内容は、図2のフローチャートに示す通りであるが、その詳細については、説明の重複を避けるため、本実施形態の動作説明において明らかにする。
本実施形態に係る翻訳装置は、この図表入り文書翻訳プログラムを例えば次のような形態で利用することが可能な構成となっている。
a.ある言語で記載された文字列を含む原稿の画像を画像読取装置1により読み取って揮発性メモリ6に格納し、この画像に対して、図表入り文書翻訳プログラムを利用した処理を施し、その結果得られる図表入り翻訳文データを印刷装置2により画像として印刷する。あるいは通信インタフェース3を利用することにより、図表入り文書翻訳プログラムを利用した処理により得られる図表入り翻訳文データをFAXやemail経由で翻訳結果を必要とするユーザに送信する。
b.ある言語で記載された文字列を含む原稿の画像を通信インタフェース3を介して受信して揮発性メモリ6に格納し、この画像に対して、図表入り文書翻訳プログラムを利用した処理を施し、その結果得られる図表入り翻訳文データを印刷装置2により画像として印刷する。あるいは通信インタフェース3を利用することにより、図表入り文書翻訳プログラムを利用した処理により得られる図表入り翻訳文データをFAXやemail経由で翻訳結果を必要とするユーザに送信する。
a.ある言語で記載された文字列を含む原稿の画像を画像読取装置1により読み取って揮発性メモリ6に格納し、この画像に対して、図表入り文書翻訳プログラムを利用した処理を施し、その結果得られる図表入り翻訳文データを印刷装置2により画像として印刷する。あるいは通信インタフェース3を利用することにより、図表入り文書翻訳プログラムを利用した処理により得られる図表入り翻訳文データをFAXやemail経由で翻訳結果を必要とするユーザに送信する。
b.ある言語で記載された文字列を含む原稿の画像を通信インタフェース3を介して受信して揮発性メモリ6に格納し、この画像に対して、図表入り文書翻訳プログラムを利用した処理を施し、その結果得られる図表入り翻訳文データを印刷装置2により画像として印刷する。あるいは通信インタフェース3を利用することにより、図表入り文書翻訳プログラムを利用した処理により得られる図表入り翻訳文データをFAXやemail経由で翻訳結果を必要とするユーザに送信する。
不揮発性メモリ7には、以上のような形態で、図表入り文書翻訳プログラムの入力情報である画像および出力情報である図表入り翻訳文データの伝送を行わせるための制御プログラムが記憶されている。この制御プログラムにより如何なる情報伝送を行わせるかは、操作部5あるいは通信インタフェース3を経由して与えられるコマンドにより決定される。
以下、本実施形態の動作を説明する。画像読取装置1または通信インタフェース3を介して、1頁または複数頁分の入力画像が揮発性メモリ6に格納されると、CPU8は、図2にそのフローを示す図表入り文書翻訳プログラムを実行する。この図表入り文書翻訳プログラムにおける最初の処理であるレイアウト解析処理101において、CPU8は、揮発性メモリ6に格納された各頁の入力画像の解析を行い、入力画像における文字領域と図表領域と求め、これらと同様な文字領域および図表領域を持った図表入り翻訳文データを揮発性メモリ6の作業エリアに生成する。この段階において、図表入り翻訳文データの文字領域および図表領域の中は空である。また、図表入り翻訳文データの各頁に対する部分は、頁番号を格納したフッタを有している。そして、図表入り翻訳文データの途中に改頁が生じたり、頁数の増減が生じる場合、関係する頁のフッタ内の頁番号が自動更新されるようになっている。
次にCPU8は、文字認識処理102と翻訳処理103とを順次実行する。文字認識処理102では、揮発性メモリ6における各頁の入力画像における文字領域の画像の文字認識を行い、文字領域内文字データを生成するとともに、各入力画像における図表領域内に存在する文字の画像の文字認識を行い、図表領域内文字データを生成し、揮発性メモリ6に格納する。ここで、文字領域内文字データは、認識した個々の文字の種別を示す情報と、文字サイズ、段間、周囲の余白等に関する書式情報を含んでいる。また、図表領域内文字データは、図表領域内の文字の種別、位置およびサイズを示す情報を含んでいる。
翻訳処理103では、以上のようにして生成した文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを生成するとともに、図表領域内文字データに対しても翻訳処理を行って図表領域内翻訳文データを生成し、揮発性メモリ6に格納する。ここで、文字領域内翻訳文データは、翻訳文を構成する個々の文字の種別を示す情報と、元の文字領域内文字データから引き継いだ書式情報を含んでいる。また、図表領域内翻訳文データは、翻訳文を構成する個々の文字の種別を示す情報と、元の図表領域内文字データから引き継いだ文字の位置およびサイズを示す情報を含んでいる。なお、入力画像中の文字列の言語および翻訳文の言語は、操作部5または通信インタフェース3を介して与えられるコマンドにより指定され、翻訳処理103ではこの指定に従って翻訳を行う。
次にCPU8は、レイアウト構成処理104を実行する。このレイアウト構成処理104では、入力画像における図表領域内の図表(画像データ)を同図表領域に対応した図表入り翻訳文データの図表領域に格納する。また、レイアウト構成処理104では、文字認識処理102および翻訳処理103により入力画像の文字領域から得られた文字領域内翻訳文データを、同文字領域に対応した図表入り翻訳文データの文字領域に格納する。さらにレイアウト構成処理104では、文字認識処理102および翻訳処理103により入力画像の図表領域から得られた図表領域内翻訳文データを、同図表領域に対応した図表入り翻訳文データの図表領域に格納する。その際、図表領域内翻訳文データの図表領域において、図表領域内翻訳文データ中における文字の位置、サイズを示す情報が参照され、その文字の属する領域の画像が削除され、そこに形成された空白領域に図表領域内翻訳文データが格納される。
さて、一般的に文書の文字量は翻訳により増減するため、文字認識処理102および翻訳処理103により文字領域から得られた文字領域翻訳文データは、元の文字領域に丁度収まるような量とはならない。そこで、レイアイト構成処理104では、図表入り翻訳文データの文字領域に文字領域内翻訳文データを格納する過程において、文字領域内翻訳文データが文字領域から溢れないように文字領域を拡大し、あるいは文字領域内に大きな余白が生じないように文字領域を縮小する処理が行われる。そして、図表領域がこの文字領域の拡大縮小の妨げになる場合には、図表領域を他の頁に追い出して、必要な文字領域の拡大縮小を行う。このため、レイアウト構成処理104により得られた図表入り翻訳文データの各頁の内容は、必ずしも元の入力画像の各頁の内容に対応したものとはならず、入力画像においてある頁にあった図表が、図表入り翻訳文データでは他の頁に移動しているということが起こりうる。図2における図表番号探索処理105以降の処理は、このような不都合を解消するためにCPU8により実行される処理である。
図表番号探索処理105、近傍頁番号探索処理106および頁番号抽出処理107では、以下説明する処理により、例えば図3に示すような置換作業テーブル120を揮発性メモリ6内に作成する。まず、図表番号探索処理105では、図表入り翻訳文データの文字領域のデータの中から図表番号を探索し、探索により見つかった図表番号とその図表入り翻訳文データ内での相対的なアドレスを置換作業テーブル120の該当エリアに格納する。ここで、アドレスは、例えば図表入り翻訳文データの文字領域内の各文字の翻訳文データに対して割り当てられた最初の文字からの通し番号であってもよい。
次に、近傍頁番号探索処理106では、置換作業テーブル120に格納された図表番号のアドレスに基づき、図表入り翻訳文データの文字領域において、図表番号探索処理105により探索された図表番号の近傍を探索範囲とし、頁番号があるか否かを調べる。そして、探索した範囲内に頁番号があった場合には、その頁番号とアドレスを置換作業テーブル120の該当エリアに格納する。次に頁番号抽出処理107では、図表入り翻訳文データの図表領域を探索範囲とし、その中から置換作業テーブル120に格納された図表番号の各々を探索する。そして、探索により見つかった図表番号を図表領域内に含む頁の頁番号を、図表入り翻訳文データにおける同頁に対応した部分の例えばフッタから取り出し、置換作業テーブル120の該当エリアに格納する。以上の処理により置換作業テーブル120が完成する。
頁番号書換え処理108では、この置換作業テーブル120を参照して、図表入り翻訳文データの文字領域内にある誤った頁番号を正しい頁番号に書き換える。さらに詳述すると、頁番号書換え処理108では、置換作業テーブル120内における図表番号の近傍の頁番号と図表の頁番号の各組について、両頁番号を順次比較してゆく。そして、例えば図3に示す“図7”に対応した部分のように、図表番号の近傍の頁番号と図表の頁番号とが一致していない場合、図表入り翻訳文データの文字領域において、該当する図表番号の近傍の頁番号のアドレス(この例では「350」)にある頁番号(この例では「5」)を、図表の頁番号(この例では「6」)に書き換える。
以上のようにして揮発性メモリ6の作業エリアに、文字領域内にある図表参照用の頁番号が正しく記載された図表入り翻訳文データが得られ、この図表入り翻訳文データは印刷装置2により画像として記録紙に印刷され、あるいは通信インタフェース3を介して翻訳結果を必要とする外部のユーザに送信される。
図4(a)〜(d)は、本実施形態の効果を従来技術との対比において説明する図である。この例では、図4(a)に示す外国語の図表入り文書の入力画像が揮発性メモリ6に格納され、その入力画像の文字列部分の日本語への翻訳が行われている。
従来の技術においては、文字領域の拡大縮小により、例えば図4(b)に示すように、“Table.1”の属する頁が元の“Page.2”(図4(a)参照)から“ページ3”に変わった場合であっても、これに言及する文字領域内の記載は、翻訳前の記載に対応した“2ページ”とされ、実際に“表.1”が属する頁とは異なったものとなっていた。これに対し、本実施形態では、図4(c)に示すように、文字領域内において“表.1”の属する頁に関する記載は正しい記載“3ページ”に書き改められる。従って、ユーザにとって読みやすい図表入り翻訳文となる。
<第2実施形態>
図5は、この発明の第2実施形態における図表入り文書翻訳プログラムの処理内容を示すフローチャートである。この図表入り文書翻訳プログラムにおいて、レイアウト解析処理101からレイアウト構成処理104までの各処理は、上記第1実施形態のものと同様である。従って、ここでの重複した説明はしない。
図5は、この発明の第2実施形態における図表入り文書翻訳プログラムの処理内容を示すフローチャートである。この図表入り文書翻訳プログラムにおいて、レイアウト解析処理101からレイアウト構成処理104までの各処理は、上記第1実施形態のものと同様である。従って、ここでの重複した説明はしない。
上記第1実施形態では、文字領域内の図表番号を探索した後、この図表番号の近傍の頁番号を探索し、正しい頁番号への書換えを行うか否かの検討をした。これに対し、本実施形態では、まず、頁番号探索処理115を実行し、図表入り翻訳文データの文字領域内の頁番号を探索する。次に、近傍図表番号探索処理116を実行し、文字領域内において、頁番号探索処理115により探索された頁番号の近傍の図表番号を探索する。次に頁番号抽出処理117を実行し、図表入り翻訳文データの図表領域の中から、近傍図表番号探索処理116により探索された図表番号を含む図表を探索し、その図表が属する頁の頁番号を求める。そして、頁番号書換え処理118では、頁番号探索処理115により得られた頁番号のうち近傍図表番号探索処理116により近傍の図表番号が探索されたものの頁番号と、頁番号抽出処理117により得られた同図表番号を含む図表の所在する頁の頁番号とを比較し、両者が一致しない場合には、後者の頁番号により前者の頁番号を書き換える。
本実施形態においても、上記第1実施形態と同様な効果が得られる。
本実施形態においても、上記第1実施形態と同様な効果が得られる。
<他の実施形態>
以上、第1実施形態および第2実施形態を説明したが、この発明には、これら以外にも各種の実施形態が考えられる。例えば次の通りである。
(1)上記各実施形態では、図表を特定する図表特定情報として、図表番号を用いたが、これに代えて、あるいはこれに加えて、図表のタイトルや見出しなどを図表特定情報として用いてもよい。
(2)上記各実施形態では、図表入り翻訳文データの文字領域および図表領域に、翻訳文データを文字データのまま格納し、文字データと画像データとが混在した図表入り翻訳文データを構成したが、翻訳文データを画像化して、文字領域および図表領域にマッピングし、全てが画像データからなる図表入り翻訳文データを構成してもよい。
以上、第1実施形態および第2実施形態を説明したが、この発明には、これら以外にも各種の実施形態が考えられる。例えば次の通りである。
(1)上記各実施形態では、図表を特定する図表特定情報として、図表番号を用いたが、これに代えて、あるいはこれに加えて、図表のタイトルや見出しなどを図表特定情報として用いてもよい。
(2)上記各実施形態では、図表入り翻訳文データの文字領域および図表領域に、翻訳文データを文字データのまま格納し、文字データと画像データとが混在した図表入り翻訳文データを構成したが、翻訳文データを画像化して、文字領域および図表領域にマッピングし、全てが画像データからなる図表入り翻訳文データを構成してもよい。
101…レイアウト解析処理、102…文字認識処理、103…翻訳処理、104…レイアウト解析処理、105…図表番号探索処理、106…近傍頁番号探索処理、107…頁番号抽出処理、108…頁番号書換え処理、115…頁番号探索処理、116…近傍図表番号探索処理、117…頁番号抽出処理、118…頁番号書換え処理。
Claims (6)
- 図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析手段と、
前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域の画像内に存在する文字の文字認識処理を行って図表領域内文字データを出力する文字認識手段と、
前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理手段と、
前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理手段と、
前記図表入り翻訳文データの文字領域の中から図表を特定する図表特定情報を探索する図表特定情報探索手段と、
前記図表入り翻訳文データの文字領域において前記図表特定情報探索手段により探索された図表特定情報の近傍を探索範囲とし、頁番号を探索する近傍頁番号探索手段と、
前記図表入り翻訳文データにおいて前記図表特定情報探索手段により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出手段と、
前記図表入り翻訳文データの文字領域において前記近傍頁番号探索手段により探索された図表特定情報の近傍の頁番号を、前記頁番号抽出手段によって抽出された同図表特定情報を図表領域内に含む頁の頁番号に書き換える頁番号書換え手段と
を具備することを特徴とする翻訳装置。 - 図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析手段と、
前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域の画像内に存在する文字の文字認識処理を行って図表領域内文字データを出力する文字認識手段と、
前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理手段と、
前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理手段と、
前記図表入り翻訳文データの文字領域の中から頁番号を探索する頁番号探索手段と、
前記図表入り翻訳文データの文字領域において前記頁番号探索手段により探索された頁番号の近傍を探索範囲とし、図表を特定する図表特定情報を探索する近傍図表特定情報探索手段と、
前記図表入り翻訳文データにおいて前記近傍図表特定情報探索手段により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出手段と、
前記頁番号探索手段によって探索された頁番号のうち前記近傍図表特定情報探索手段によって近傍の図表特定情報が探索された頁番号を、前記頁番号抽出手段により抽出された同図表特定情報を図表領域内に含む頁の頁番号に書き換える頁番号書換え手段と
を具備することを特徴とする翻訳装置。 - コンピュータを、
図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析手段と、
前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域内に存在する文字の画像の文字認識処理を行って図表領域内文字データを出力する文字認識手段と、
前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理手段と、
前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理手段と、
前記図表入り翻訳文データの文字領域の中から図表を特定する図表特定情報を探索する図表特定情報探索手段と、
前記図表入り翻訳文データの文字領域において前記図表特定情報探索手段により探索された図表特定情報の近傍を探索範囲とし、頁番号を探索する近傍頁番号探索手段と、
前記図表入り翻訳文データにおいて前記図表特定情報探索手段により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出手段と、
前記図表入り翻訳文データの文字領域において前記近傍頁番号探索手段により探索された図表特定情報の近傍の頁番号を、前記頁番号抽出手段によって抽出された同図表特定情報を図表領域内に含む頁の頁番号に書き換える頁番号書換え手段と
して機能させることを特徴とする翻訳プログラム。 - コンピュータを、
図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析手段と、
前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域内に存在する文字の画像の文字認識処理を行って図表領域内文字データを出力する文字認識手段と、
前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理手段と、
前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理手段と、
前記図表入り翻訳文データの文字領域の中から頁番号を探索する頁番号探索手段と、
前記図表入り翻訳文データの文字領域において前記頁番号探索手段により探索された頁番号の近傍を探索範囲とし、図表を特定する図表特定情報を探索する近傍図表特定情報探索手段と、
前記図表入り翻訳文データにおいて前記近傍図表特定情報探索手段により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出手段と、
前記頁番号探索手段によって探索された頁番号のうち前記近傍図表特定情報探索手段によって近傍の図表特定情報が探索された頁番号を、前記頁番号抽出手段により抽出された同図表特定情報を図表領域内に含む頁の頁番号に書き換える頁番号書換え手段と
して機能させることを特徴とする翻訳プログラム。 - 図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析過程と、
前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域の画像内に存在する文字の文字認識処理を行って図表領域内文字データを出力する文字認識過程と、
前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理過程と、
前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理過程と、
前記図表入り翻訳文データの文字領域の中から図表を特定する図表特定情報を探索する図表特定情報探索過程と、
前記図表入り翻訳文データの文字領域において前記図表特定情報探索過程により探索された図表特定情報の近傍を探索範囲とし、頁番号を探索する近傍頁番号探索過程と、
前記図表入り翻訳文データにおいて前記図表特定情報探索過程により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出過程と、
前記図表入り翻訳文データの文字領域において前記近傍頁番号探索過程により探索された図表特定情報の近傍の頁番号を、前記頁番号抽出過程によって抽出された同図表特定情報を図表領域内に含む頁の頁番号に書き換える頁番号書換え過程と
を具備することを特徴とする翻訳方法。 - 図表入り文書を表す入力画像にレイアウト解析処理を施し、入力画像における文字領域と図表領域とを求めるレイアウト解析過程と、
前記入力画像における文字領域の画像の文字認識処理を行って文字領域内文字データを出力するとともに、前記入力画像における図表領域の画像内に存在する文字の文字認識処理を行って図表領域内文字データを出力する文字認識過程と、
前記文字領域内文字データに対して翻訳処理を行って文字領域内翻訳文データを出力するとともに、前記図表領域内文字データに対して翻訳処理を行って図表領域内翻訳文データを出力する翻訳処理過程と、
前記文字領域内翻訳文データを文字領域内に含み、前記図表領域内翻訳文データおよび前記入力画像における図表領域から図表領域内文字データを除いた画像を図表領域内に含む1または複数頁分の図表入り翻訳文データを生成するレイアウト構成処理過程と、
前記図表入り翻訳文データの文字領域の中から頁番号を探索する頁番号探索過程と、
前記図表入り翻訳文データの文字領域において前記頁番号探索過程により探索された頁番号の近傍を探索範囲とし、図表を特定する図表特定情報を探索する近傍図表特定情報探索過程と、
前記図表入り翻訳文データにおいて前記近傍図表特定情報探索過程により探索された図表特定情報を図表領域内に含む頁の頁番号を抽出する頁番号抽出過程と、
前記頁番号探索過程によって探索された頁番号のうち前記近傍図表特定情報探索過程によって近傍の図表特定情報が探索された頁番号を、前記頁番号抽出過程により抽出された同図表特定情報を図表領域内に含む頁の頁番号に書き換える頁番号書換え過程と
を具備することを特徴とする翻訳方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005065960A JP2006252048A (ja) | 2005-03-09 | 2005-03-09 | 翻訳装置、翻訳プログラムおよび翻訳方法 |
US11/224,050 US7729540B2 (en) | 2005-03-09 | 2005-09-13 | Translation device, translation program, and translation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005065960A JP2006252048A (ja) | 2005-03-09 | 2005-03-09 | 翻訳装置、翻訳プログラムおよび翻訳方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006252048A true JP2006252048A (ja) | 2006-09-21 |
Family
ID=36970963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005065960A Pending JP2006252048A (ja) | 2005-03-09 | 2005-03-09 | 翻訳装置、翻訳プログラムおよび翻訳方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7729540B2 (ja) |
JP (1) | JP2006252048A (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006268372A (ja) * | 2005-03-23 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム |
JP2008299780A (ja) * | 2007-06-04 | 2008-12-11 | Fuji Xerox Co Ltd | 画像処理装置、及び画像処理プログラム |
US8073256B2 (en) * | 2007-11-15 | 2011-12-06 | Canon Kabushiki Kaisha | Image processing apparatus and method therefor |
JP2009193283A (ja) * | 2008-02-14 | 2009-08-27 | Fuji Xerox Co Ltd | 文書画像処理装置、及び文書画像処理プログラム |
JP4626777B2 (ja) * | 2008-03-14 | 2011-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US9367539B2 (en) | 2011-11-03 | 2016-06-14 | Microsoft Technology Licensing, Llc | Techniques for automated document translation |
US11593570B2 (en) * | 2019-04-18 | 2023-02-28 | Consumer Ledger, Inc. | System and method for translating text |
US11393236B2 (en) * | 2020-01-17 | 2022-07-19 | Konica Minolta Business Solutions U.S.A., Inc. | Approximating the layout of a paper document |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5348558A (en) * | 1992-04-23 | 1994-09-20 | Mitsubishi Denki Kabushiki Kaisha | Layout pattern generating apparatus |
JPH06162081A (ja) | 1992-11-18 | 1994-06-10 | Oki Electric Ind Co Ltd | 機械翻訳装置 |
JPH0844827A (ja) * | 1994-07-27 | 1996-02-16 | Ricoh Co Ltd | デジタル複写機 |
US5940583A (en) * | 1994-11-15 | 1999-08-17 | Canon Kabushiki Kaisha | Image forming apparatus |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
JP4183774B2 (ja) | 1996-10-11 | 2008-11-19 | 富士ゼロックス株式会社 | 要素間参照を利用したレイアウト処理方法および装置 |
US6526426B1 (en) * | 1998-02-23 | 2003-02-25 | David Lakritz | Translation management system |
US7054029B1 (en) * | 1999-03-09 | 2006-05-30 | Canon Kabushiki Kaisha | Image processing apparatus and method, and storage medium |
US7095513B2 (en) * | 2001-10-11 | 2006-08-22 | Hewlett-Packard Development Company, L.P. | Method and apparatus for language translation of production job output |
JP4232679B2 (ja) * | 2004-04-15 | 2009-03-04 | 富士ゼロックス株式会社 | 画像形成装置およびプログラム |
-
2005
- 2005-03-09 JP JP2005065960A patent/JP2006252048A/ja active Pending
- 2005-09-13 US US11/224,050 patent/US7729540B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20060204094A1 (en) | 2006-09-14 |
US7729540B2 (en) | 2010-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101923541B (zh) | 翻译装置、翻译方法 | |
CN1838112B (zh) | 翻译装置、翻译方法 | |
JP2006252048A (ja) | 翻訳装置、翻訳プログラムおよび翻訳方法 | |
US10528679B2 (en) | System and method for real time translation | |
JP2011076581A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
US9614984B2 (en) | Electronic document generation system and recording medium | |
JP2009193356A (ja) | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 | |
JP6579332B2 (ja) | 画像形成装置、文書電子化プログラムおよび文書電子化方法 | |
JP5053722B2 (ja) | 画像処理装置及び画像処理方法、コンピュータプログラム及び記憶媒体 | |
JP4419893B2 (ja) | 画像処理装置及び画像処理方法 | |
CN111580758B (zh) | 图像形成装置 | |
JP4682747B2 (ja) | 文書処理装置、ルールデータ生成方法およびプログラム | |
JP2020204905A (ja) | 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム | |
JP7147544B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP6205973B2 (ja) | 変更履歴出力装置、プログラム | |
JP2007052613A (ja) | 翻訳装置、翻訳システムおよび翻訳方法 | |
JP2007011683A (ja) | 文書管理支援装置 | |
JP2017004455A (ja) | 画像処理装置、画像処理システム、画像処理方法及びプログラム | |
JP2001326804A (ja) | 画像処理装置及び画像処理システム | |
CN104463155B (zh) | 文件管理装置以及文件管理方法 | |
JP2020099030A (ja) | 情報処理装置、及び情報処理方法 | |
JP2006293970A (ja) | 画像処理装置、画像処理方法、画像処理プログラム | |
JP6432237B2 (ja) | 画像処理装置および画像処理プログラム | |
JP2001127974A (ja) | 画像読取装置及びシステム | |
JP2007174079A (ja) | 履歴出力装置、履歴出力方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080325 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080722 |