JP2011065573A - データ処理装置、補足説明付加方法及びコンピュータプログラム - Google Patents
データ処理装置、補足説明付加方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2011065573A JP2011065573A JP2009217725A JP2009217725A JP2011065573A JP 2011065573 A JP2011065573 A JP 2011065573A JP 2009217725 A JP2009217725 A JP 2009217725A JP 2009217725 A JP2009217725 A JP 2009217725A JP 2011065573 A JP2011065573 A JP 2011065573A
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- word
- character
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【課題】訳語等の単語に対する補足説明を文書に付加したときに閲覧性の悪化を抑制することができるデータ処理装置、補足説明付加方法及びコンピュータプログラムを提供する。
【解決手段】データ処理装置は、文書原稿を読み取った画像が表す文書を複数の領域に分割し、文書中の単語に対する訳語等の補足説明を単語データベース35を用いて生成し、各単語に隣接する行間の位置に補足説明を配置したときに補足説明が文書の文字に重ならないように、文書の文字サイズ及び補足説明の文字サイズを領域別に設定する。領域別に設定した文字サイズで文書中の文字が形成され、各単語に隣接する行間に補足説明が配置された画像が生成される。文書中の単語は位置を変更せずに文字サイズのみが領域別に調整されるので、文書のレイアウトが維持され、また領域内では文字サイズにばらつきが生じないので、閲覧性の悪化が抑制される。
【選択図】図1
【解決手段】データ処理装置は、文書原稿を読み取った画像が表す文書を複数の領域に分割し、文書中の単語に対する訳語等の補足説明を単語データベース35を用いて生成し、各単語に隣接する行間の位置に補足説明を配置したときに補足説明が文書の文字に重ならないように、文書の文字サイズ及び補足説明の文字サイズを領域別に設定する。領域別に設定した文字サイズで文書中の文字が形成され、各単語に隣接する行間に補足説明が配置された画像が生成される。文書中の単語は位置を変更せずに文字サイズのみが領域別に調整されるので、文書のレイアウトが維持され、また領域内では文字サイズにばらつきが生じないので、閲覧性の悪化が抑制される。
【選択図】図1
Description
本発明は、画像により表現される文章に対して補足説明を付加する処理を行うデータ処理装置、補足説明付加方法及びコンピュータプログラムに関する。
従来、原稿をスキャンして得られた画像に表現される文書等、電子データで表現される文書に対して、訳文等の文書の内容に関する補足説明を付加する技術が知られており、また補足説明を付加する際に文書中の文字を表示するサイズを調整する技術が記載されている。特許文献1には、文書のレイアウトの維持を前提として、文書の行間に訳文を付加するために、1行毎に行間のスペースを求め、求めた行間のスペースが訳文を付加するには狭すぎる場合には、文書の文字フォントをよりサイズの小さい文字フォントに変換する技術が記載されている。また特許文献1には、文書中の任意の単語に対して、行間に訳語を付加する技術も記載されている。また特許文献2には、一行毎ではなく段落毎に訳文を文書に付加する技術が記載されている。
特許文献1に記載の技術では、文書に訳文を付加した際に同一段落内で訳文を付加した行と訳文を付加していない行とが存在する場合に、各行の文字サイズにばらつきが生じることがある。また単語に訳語を付加した際に同一行内に訳語を付加した単語と訳語を付加していない行とが存在する場合に、各単語の文字サイズにばらつきが生じることがある。即ち、特許文献1に記載の技術を利用して文書に補足説明を付加した場合は、段落内又は行内で文字サイズにばらつきが生じることによって閲覧性が悪化することがあるという問題がある。また特許文献2に記載技術では、文字サイズの変更ができず、また、段落毎に補足説明を付加するので文書のレイアウトが維持できないという問題がある。
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、文書のレイアウトを維持しながら、訳語等の補足説明を付加した文書の閲覧性の悪化を抑制することができるデータ処理装置、補足説明付加方法、及びコンピュータプログラムを提供することにある。
本発明に係るデータ処理装置は、複数の行からなる文書を表す画像に対し、文書に含まれる複数の単語の夫々に対する補足説明を、該単語に隣接した行間の位置に付加する処理を行うデータ処理装置において、単語に対する補足説明を記録したデータベースと、夫々に複数の文字を含んだ複数の領域に文書を分割する分割手段と、文書に含まれる各単語に対する補足説明を、前記データベースから取得する手段と、文書の文字位置を変更せずに行間に各単語に対する補足説明を付加したときに補足説明が他の文字に重ならないように、文書の文字サイズを領域毎に設定する手段と、文書中の単語を、文字位置を変更せずに領域毎に設定した文字サイズで記録し、更に文書中の単語に対する補足説明を該単語に隣接した行間の位置に配置した画像を生成する手段とを備えることを特徴とする。
本発明に係るデータ処理装置は、前記分割手段は、隣接する二つの文字が所定の距離以上に離隔している場合に前記二つの文字の夫々が異なる領域に含まれるように文書を分割する手段と、隣接する二つの行が所定の距離以上に離隔している場合に前記二つの行の夫々が異なる領域に含まれるように文書を分割する手段とを有することを特徴とする。
本発明に係るデータ処理装置は、前記分割手段は、隣接する二つの行における文字サイズの比が所定範囲を外れている場合に前記二つの行の夫々が異なる領域に含まれるように文書を分割する手段を有することを特徴とする。
本発明に係るデータ処理装置は、各単語について取得した補足説明を配置したときの長さを、領域毎に設定した文字サイズで当該単語を記録したときの単語の長さ以下にするように、補足説明の文字サイズを領域毎に設定する手段を更に備えることを特徴とする。
本発明に係る補足説明付加方法は、複数の行からなる文書を表す画像に対し、文書に含まれる複数の単語の夫々に対する補足説明を、該単語に隣接した行間の位置に付加する方法において、夫々に複数の文字を含んだ複数の領域に文書を分割し、単語に対する補足説明を記録したデータベースを用いて、文書に含まれる各単語に対する補足説明を取得し、文書の文字位置を変更せずに行間に各単語に対する補足説明を付加したときに補足説明が他の文字に重ならないように、文書の文字サイズを領域毎に設定し、文書中の単語を、文字位置を変更せずに領域毎に設定した文字サイズで記録し、更に文書中の単語に対する補足説明を該単語に隣接した行間の位置に配置した画像を生成することを特徴とする。
本発明に係るコンピュータプログラムは、コンピュータに、複数の行からなる文書を表す画像に対し、文書に含まれる複数の単語の夫々に対する補足説明を、該単語に隣接した行間の位置に付加させるためのコンピュータプログラムにおいて、コンピュータに、夫々に複数の文字を含んだ複数の領域に文書を分割させる手順と、コンピュータに、単語に対する補足説明を記録したデータベースを用いて、文書に含まれる各単語に対する補足説明を取得させる手順と、コンピュータに、文書の文字位置を変更せずに行間に各単語に対する補足説明を付加したときに補足説明が他の文字に重ならないように、文書の文字サイズを領域毎に設定させる手順と、コンピュータに、文書中の単語を、文字位置を変更せずに領域毎に設定した文字サイズで記録し、更に文書中の単語に対する補足説明を該単語に隣接した行間の位置に配置した画像を生成させる手順とを含むことを特徴とする。
本発明においては、データ処理装置は、画像で表現された文書を複数の領域に分割し、文書中の単語に対する訳語等の補足説明をデータベースを用いて取得し、行間に配置した補足説明が文書中の文字に重ならないように文書の文字サイズを領域毎に設定し、設定した文字サイズで文書中の単語を記録して各単語に隣接する行間の位置に補足説明を付加した画像を生成する。生成した画像で表現された文書中では、文字サイズは領域毎に定められるので、各領域内では文書中の文字は一定の文字サイズで記録され、段落内又は行内で文字サイズにばらつきが生じることがない。
また本発明においては、データ処理装置は、段組等の文書中で互いに離隔した夫々の部分、又は互いに文字サイズが異なる夫々の部分が互いに異なる領域に含まれるように分割する。文書中で互いに離隔した部分の間、又は最初から互いに文字サイズが異なる部分の間では、文字サイズが変更されたとしても、文書の閲覧性は悪化し難く、閲覧性が保たれる。
また本発明においては、データ処理装置は、単語に隣接して画像中で配置される補足説明の長さが単語の長さ以下の大きさとなるように補足説明の文字サイズを領域毎に設定する。このため、各領域内で補足説明は一定の文字サイズで記録され、単語と補足説明との対応関係が明確になる。
本発明にあっては、各単語に対する訳語等の補足説明を付加した文書中では、本文の文字及び補足説明の文字サイズは領域毎に定められるので、領域内で文字サイズにばらつきが生じることがなく、また、文書中に含まれる単語は位置を変更せずに文字サイズのみが調整されて行間に補足説明が付加されるので、文書のレイアウトが維持される。従って、訳語等の補足説明を付加した後でも、文書の閲覧性の悪化が抑制される等、本発明は優れた効果を奏する。
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
(実施の形態1)
図1は、実施の形態1に係る本発明のデータ処理装置の内部の機能構成を示すブロック図である。データ処理装置は、文書原稿を読み取り、文書に含まれる単語の訳語、読み仮名、発音記号又は単語の意味を説明する注釈等の単語に対する補足説明を付加した文書を出力する処理を行う装置である。データ処理装置は、演算を行うCPU、データ処理装置の動作に必要な制御プログラムを記憶するROM、及び演算に伴う一時的なデータを記憶するRAM等からなる制御部11を備えている。制御部11は、データ処理装置の各部の動作を制御する。制御部11には、文書原稿に記録された画像を光学的に読み取って画像データを生成する画像読取部12、及び画像読取部12が生成した画像データを記憶する画像データ記憶部13が接続されている。また制御部11には、画像データにより表現される画像が表す文書に含まれる文字を認識する処理を行う文字認識部14と、文字認識部14が認識した文字の文書内での座標を示す情報、及び文字の内容を示す情報を含む文字データを記憶する文字データ記憶部15が接続されている。
(実施の形態1)
図1は、実施の形態1に係る本発明のデータ処理装置の内部の機能構成を示すブロック図である。データ処理装置は、文書原稿を読み取り、文書に含まれる単語の訳語、読み仮名、発音記号又は単語の意味を説明する注釈等の単語に対する補足説明を付加した文書を出力する処理を行う装置である。データ処理装置は、演算を行うCPU、データ処理装置の動作に必要な制御プログラムを記憶するROM、及び演算に伴う一時的なデータを記憶するRAM等からなる制御部11を備えている。制御部11は、データ処理装置の各部の動作を制御する。制御部11には、文書原稿に記録された画像を光学的に読み取って画像データを生成する画像読取部12、及び画像読取部12が生成した画像データを記憶する画像データ記憶部13が接続されている。また制御部11には、画像データにより表現される画像が表す文書に含まれる文字を認識する処理を行う文字認識部14と、文字認識部14が認識した文字の文書内での座標を示す情報、及び文字の内容を示す情報を含む文字データを記憶する文字データ記憶部15が接続されている。
またデータ処理装置は、画像に表現される文書を夫々に複数の文字を含んだ複数の領域に分割する分割処理を行う分割処理部2を備えている。分割処理部2は、文書に含まれる各行の位置及び内容を示す行処理データを生成する行処理データ生成部22と、行に含まれる各単語の位置及び内容を示す単語データを生成する単語データ生成部23と、生成された行処理データを記憶する行処理データ記憶部21とを有している。また分割処理部2は、行処理データから、文書中の各領域の位置及び内容を示す領域データを生成する領域データ生成部24と、領域データを生成するために、行処理データの一部又は全部を既存の領域データと比較する処理を行う領域比較部25とを有している。またデータ処理装置は、領域データ記憶部16を備えており、領域データ記憶部16は、領域データ生成部24が生成した領域データを記憶する。
またデータ処理装置は、領域データから、出力すべき画像を表現するための出力データを生成する出力データ生成部3を備えている。出力データ生成部3は、出力データを生成する処理を行う出力データ生成処理部31と、文書中の文字のサイズを原文から縮小する縮小比を設定する縮小比設定部32と、文書中の各単語に対する補足説明の文字サイズを設定する文字サイズ設定部33とを有している。また出力データ生成部3は、単語の訳語、読み仮名、発音記号又は単語の意味を説明する注釈等、単語に対する補足説明を記録した単語データベース35と、単語データベース35から各単語に対する補足説明を検索して取得するデータベース検索部34とを有している。またデータ処理装置は、出力データに基づいた画像を表示するディスプレイ、画像をシート上に形成する画像形成部、又は画像を表す画像データを外部へ送信する送信部等の、出力データ生成部3が生成した出力データに基づいた画像を出力する出力部17を備えている。
次に、本実施の形態に係るデータ処理装置が実行する本発明の補足説明付加方法を説明する。図2は、行処理データ生成部22が生成する行処理データの構成を示す概念図である。行処理データは、文書に含まれる各行の位置及び内容を示すデータであり、最終的には、文書に含まれる行数と同じ数の行処理データが生成される。一般的な文書は一又は複数の段組を含んで構成されているので、文書中の任意の一つの行は、複数の段組に亘っている可能性がある。一つの行が複数の段組に亘っている場合、この行は複数の段組の夫々に含まれる段組部分からなる。行処理データは、一又は複数の段組部分の位置及び内容を示す段組データからなり、各段組データが記憶された位置を示すポインタを含む。図2中には、N番目の段組データへのポインタを「段組_N」と示している。
ポインタ段組_Nにより指定されるデータは、N番目の段組部分の位置及び内容を示す段組データである。N番目の段組データは、N番目の段組部分の左端の座標を示す座標データsNx1、右端の座標を示す座標データsNx2、上底の座標を示す座標データsNy1、及び下底の座標を示す座標データsNy2を含む。更にN番目の段組データは、N番目の段組部分をなす文字列の内容を示すデータsent_Nと、N番目の段組部分に含まれる単語を表すデータが記憶された位置を示すポインタword_Nとを含む。ポインタword_Nにより指定されるデータは、N番目の段組部分に含まれる複数の単語の位置及び内容を示す単語データであり、単語データは、複数の単語の夫々の位置及び内容を示すデータが記憶された位置を示すポインタを含む。図2中では、N番目の段組部分に含まれるK番目の単語に係るデータへのポインタを「sNwK」と示している。ポインタsNwKにより指定されるデータは、N番目の段組部分に含まれるK番目の単語の位置及び内容を示すデータである。K番目の単語に係るデータは、K番目の単語の左端の座標を示す座標データsNwKx1、右端の座標を示す座標データsNwKx2、上底の座標を示す座標データsNwKy1、及び下底の座標を示す座標データsNwKy2を含む。更にK番目の単語に係るデータは、K番目の単語の綴りの内容を示すデータsN_spel_Kと、K番目の単語に対する補足説明の内容を示すデータsN_note_Kとを含む。
図3は、領域データ生成部24が生成する領域データの構成を示す概念図である。領域は、一又は複数の文章を含んでおり、文書中で他の領域から一定の距離以上離隔して配置されている文のまとまりである。例えば、文書が複数の段組を用いて構成されている場合、段組は夫々に領域となり、一つの行は複数の領域の夫々に含まれる部分からなる可能性がある。領域データは、文書に含まれる各領域の位置及び内容を示すデータであり、最終的には、文書に含まれる領域の数と同じ数の領域データが生成される。領域データは、領域に含まれる文字列の行数LCと、領域に含まれる各行の位置及び内容を示す行データが記憶された位置を示すポインタl1,l2,…,ln,…とを含む。更に領域データは、領域の文書内での位置を示すデータが記憶された位置を示すポインタginfo、領域での文字サイズを原文から縮小する縮小比を示す情報b_size、及び領域に追加する補足説明の文字サイズを示す情報r_sizeを含む。
n番目の行に係るデータへのポインタlnにより指定される行データは、n番目の行の左端の座標を示す座標データlnx1、右端の座標を示す座標データlnx2、上底の座標を示す座標データlny1、及び下底の座標を示す座標データlny2を含む。更にポインタlnにより指定されるデータは、n番目の行に含まれる文字列の内容を示すデータsent_nと、n番目の行に含まれる単語を表す単語データが記憶された位置を示すポインタword_nと、n番目の行間スペースの大きさを示す情報spc_nとを含む。ポインタword_nにより指定されるデータは、n番目の行に含まれる複数の単語の位置及び内容を示す単語データであり、単語データは、複数の単語の夫々の位置及び内容を示すデータが記憶された位置を示すポインタを含む。図3中では、k番目の単語に係るデータへのポインタを「lnwk」と示している。ポインタlnwkにより指定されるデータは、n番目の行に含まれるk番目の単語の位置及び内容を示すデータである。k番目の単語に係るデータは、k番目の単語の左端の座標を示す座標データlnwkx1、右端の座標を示す座標データlnwkx2、上底の座標を示す座標データlnwky1、及び下底の座標を示す座標データlnwky2を含む。更にk番目の単語に係るデータは、k番目の単語の綴りの内容を示すデータln_spel_kと、k番目の単語に対する補足説明の内容を示すデータln_note_kとを含む。更にポインタginfoにより指定されるデータは、領域の左端の座標を示す座標データax1、右端の座標を示す座標データax2、上底の座標を示す座標データay1、及び下底の座標を示す座標データay2を含む。複数の領域データは、領域データ記憶部16に記憶され、各領域データは、記憶された位置を示すポインタで参照される。
図4は、実施の形態1に係るデータ処理装置が実行する処理の手順を示すフローチャートである。データ処理装置は、画像読取部12で、文書原稿に記録された画像を光学的に読み取ることによって画像データを生成する(S1)。画像読取部12が生成した画像データは画像データ記憶部13が記憶する。次に、文字認識部14は、画像データ記憶部13から画像データを読み出し、画像データにより表現される画像内に含まれる文字を認識する処理を行う(S2)。ステップS2の処理では、画像データにより表現される画像に含まれる文字の内容と、画像が表す文書中での各文字の位置とが取得される。画像が表す文書は認識された複数の文字で構成され、各文字の位置は、文書中での各文字の左端、右端、上底及び下底の座標を示す座標データで表される。本実施の形態では、文書の上端左端を原点とし、右向きを横軸の正の向きとし、下向きを縦軸の正の向きとした例を示す。なお、座標軸の取り方は任意であり、上向きを縦軸の正の向きとする等、その他の座標を用いて処理を行ってもよい。ステップS2で認識された各文字の位置及び内容を示す文字データは、文字データ記憶部15が記憶する。
分割処理部2は、認識した文字からなる文書を複数の領域に分割し、各領域の位置及び内容を示す領域データを生成する分割処理を行う(S3)。分割処理の詳細は後述する。分割処理部2が生成した領域データは、領域データ記憶部16が記憶する。次に、出力データ生成部3は、単語に対する補足説明を文書に追加し、本文の文字サイズ及び補足説明の文字サイズを領域毎に調整した出力データを生成する出力データ生成処理を行う(S4)。出力データ生成処理の詳細は後述する。データ処理装置は、次に、出力部17で、生成した出力データに基づいた画像を生成し、生成した画像を出力する処理を行い(S5)、処理を終了する。
図5は、ステップS3の分割処理の手順を示すフローチャートである。分割処理では、文書のレイアウトにおいて夫々に文字がかたまって配置された複数の領域に、文書を分割する。分割処理部2は、文字データ記憶部15に記憶された文字データを参照し、未処理の文字データがあるか否かを判定する(S31)。未処理の文字データがある場合は(S31:YES)、分割処理部2は、文字データ記憶部15から未処理の文字データを1行分取得する(S32)。ステップS32では、分割処理部2は、文書中で上側から順番に未処理の文字データを1行分取得する。分割処理部2内の行処理データ生成部22は、次に、取得した文字データで表現される文字からなる行の位置及び内容を示す行処理データを生成する行処理データ生成処理を行う(S33)。行処理データ生成処理の詳細は後述する。行処理データ生成部22が生成した行処理データは、行処理データ記憶部21が記憶する。次に、領域データ生成部24は、行処理データを既存の領域データと比較し、行処理データを既存の領域データに組み込むか、又は行処理データから新たな領域データを生成する領域データ生成処理を行う(S34)。領域データ生成処理の詳細は後述する。領域データ生成部24が生成した領域データは、領域データ記憶部16が記憶する。ステップS34が終了した後は、分割処理部2は、処理をステップS31へ戻す。ステップS31で未処理の文字データがない場合は(S31:NO)、分割処理部2は、処理をメインの処理へ戻す。
ステップS33の行処理データ生成処理では、ステップS32で取得した1行分の文字データを左端の文字から順番に処理していくことにより、行処理データを生成する。図6は、行処理データ生成処理で用いる段組データの構成を示す概念図である。段組データは、処理対象の段組部分の位置及び内容を示すデータであり、左端の座標を示す座標データsx1、右端の座標を示す座標データsx2、上底の座標を示す座標データsy1、下底の座標を示す座標データsy2、及び段組部分をなす文字列の内容を示すデータsentを含む。図7は、行処理データ生成処理で用いる単語データの構成を示す概念図である。単語データは、処理対象の段組部分に含まれる複数の単語の位置及び内容を示すデータであり、単語データは、複数の単語の夫々の位置及び内容を示すデータが記憶された位置を示すポインタを含む。図7中では、K番目の単語に係るデータへのポインタを「wK」と示している。ポインタwKにより指定されるデータは、K番目の単語の位置及び内容を示すデータである。K番目の単語に係るデータは、K番目の単語の左端の座標を示す座標データwKx1、右端の座標を示す座標データwKx2、上底の座標を示す座標データwKy1、及び下底の座標を示す座標データwKy2を含む。更にK番目の単語に係るデータは、K番目の単語の綴りの内容を示すデータspel_Kと、K番目の単語に対する補足説明の内容を示すデータnote_Kとを含む。
図8は、行処理データ生成処理で用いる現文字データの構成を示す概念図である。現文字データは、処理対象の文字の位置及び内容を示すデータである。現文字データは、文字の左端の座標を示す座標データwx1、右端の座標を示す座標データwx2、上底の座標を示す座標データwy1、下底の座標を示す座標データwy2、及び文字の内容を示すデータwを含む。図9は、行処理データ生成処理で用いる直前文字データの構成を示す概念図である。直前文字データは、処理対象の文字の直前にある文字、即ち、処理対象の文字の左隣にある文字の位置及び内容を示すデータである。直前文字データは、処理対象の文字の直前にある文字の左端の座標を示す座標データpx1、右端の座標を示す座標データpx2、上底の座標を示す座標データpy1、下底の座標を示す座標データpy2、及び文字の内容を示すデータpを含む。
図10は、ステップS33の行処理データ生成処理の手順を示すフローチャートである。行処理データ生成部22は、まず、行処理データ、段組データ、単語データ、現文字データ及び直前文字データの初期化を行う(S3301)。行処理データ生成部22は、次に、ステップS32で取得した1行分の文字データに、未処理の文字データがあるか否かを判定する(S3302)。未処理の文字データがある場合は(S3302:YES)、行処理データ生成部22は、未処理の文字データから左端の文字に対応する1文字分の文字データを取得し、取得した文字データを現文字データへ代入する(S3303)。ステップS3303では、取得した文字データに含まれる左端、右端、上底及び下底の座標データを、夫々wx1、wx2、wy1及びwy2へ代入し、文字の内容を示すデータをwへ代入する。行処理データ生成部22は、次に、現文字データが示す文字は行の先頭文字であるか否かを判定する(S3304)。ステップS3304は、直前文字データにデータが存在するか否かによって判定する。即ち、直前文字データが初期化された状態のままで直前文字データにデータが存在しない場合は、現文字データが示す文字は行の先頭文字である。
ステップS3304で現文字データが示す文字が行の先頭文字である場合は(S3304:YES)、行処理データ生成部22は、現文字データを段組データへ代入する(S3305)。即ち、ステップS3305では、sx1=wx1、sx2=wx2、sy1=wy1、sy2=wy2、及びsent=wとする処理を行う。次に、単語データ生成部23は、処理対象の文字を含む単語を表す単語データを生成する単語データ生成処理を行う(S3306)。単語データ生成処理の詳細は後述する。行処理データ生成部22は、次に、現文字データを直前文字データへ代入し(S3307)、処理をステップS3302へ戻す。ステップS3307では、px1=wx1、px2=wx2、py1=wy1、py2=wy2、及びp=wとする処理を行う。
ステップS3304で現文字データが示す文字が行の先頭文字ではない場合は(S3304:NO)、行処理データ生成部22は、直前文字の右端と現文字の左端と間の距離が予め定めてある閾値Aよりも大きいか否かを判定する(S3308)。ステップS3308では、(px2−wx1)>Aであるか否かを判定する。閾値Aの値は、単語間のスペースの距離よりも大きく、文書で用いられる段組が横軸方向に離隔した距離の最小値より若干小さい値に定められている。図11は、ステップS3308の処理対象となる1行の例を示す模式図である。図11には、1行が四つの単語「Abc」、「de]、「fg」及び「hij」からなり、破線で囲まれた現文字がfである例を示す。また図11(a)は、1行が一つの段組部分からなる例を示し、図11(b)は、「Abc」及び「de]を含む段組部分と、「fg」及び「hij」を含む段組部分とに1行が分割される例を示している。図11(a)に示すように、現文字fと直前文字eとの距離が閾値A以下である場合は、直前文字が含まれる段組部分に現文字fも含まれる。図11(b)に示すように、現文字fと直前文字eとの距離が閾値Aより大きい場合は、現文字fは、直前文字が含まれる段組部分とは別の段組部分に含まれることになる。
ステップS3308で直前文字の右端と現文字の左端と間の距離が閾値Aよりも大きい場合は(S3308:YES)、行処理データ生成部22は、単語データ及び段組データを行処理データへ追加する(S3309)。この場合は、直前文字が含まれる段組部分とは別の段組に現文字が含まれる場合であるので、直前文字が含まれる段組部分を表す段組データをステップS3309で完成させる。ステップS3309では、行処理データに含ませる新たなN番目の段組データのsNx1、sNx2、sNy1、sNy2及びsent_Nへ、段組データのsx1、sx2、sy1、sy2及びsentを夫々代入する。またポインタword_Nが示す位置には、単語データを記憶させる。図11(b)に示す例では、「Abc」が1番目の段組部分に含まれる1番目の単語になり、「de」が2番目の単語となる。次に、行処理データ生成部22は、単語データ及び段組データを初期化し(S3310)、処理をステップS3305へ進める。ステップS3310以降の処理により、現文字を含む段組部分を表す段組データが生成される。
ステップS3308で直前文字の右端と現文字の左端と間の距離が閾値A以下である場合は(S3308:NO)、行処理データ生成部22は、段組部分の上底が現文字の上底よりも下にあるか否かを判定する(S3311)。この場合は、図11(a)に示すような、段組データが表す段組部分に現文字が含まれる場合である。ステップS3311では、sy1>wy1であるか否かを判定する。段組部分の上底が現文字の上底よりも下にある場合は(S3311:YES)、行処理データ生成部22は、現文字の上底の座標データを、段組データに含まれる上底の座標データへ代入する(S3312)。即ち、ステップS3312では、sy1=wy1とする処理を行う。ステップS3312が終了した後、又はステップS3311で段組部分の上底が現文字の上底以上にある場合は(S3311:NO)、行処理データ生成部22は、段組部分の下底が現文字の下底よりも上にあるか否かを判定する(S3313)。ステップS3313では、sy2<wy2であるか否かを判定する。段組部分の下底が現文字の下底よりも上にある場合は(S3313:YES)、行処理データ生成部22は、現文字の下底の座標データを、段組データに含まれる下底の座標データへ代入する(S3314)。即ち、ステップS3314では、sy2=wy2とする処理を行う。
図12は、ステップS3311及びステップS3313の処理対象となる文字列の例を示す模式図である。図12には、実線で囲まれた「Abc de f」が段組データが表す段組部分に含まれる文字列であり、破線で囲まれた「g」が現文字である例を示している。図12に示す例では、sy1<wy1であるので、ステップS3312の処理は行われない。また図12に示す例では、sy2<wy2であるので、ステップS3314の処理が行われる。
ステップS3314が終了した後、又はステップS3313で段組部分の下底が現文字の下底以下にある場合は(S3313:NO)、行処理データ生成部22は、現文字の右端の座標データを、段組データに含まれる右端の座標データへ代入し、段組データに含まれる文字列に現文字を追加する(S3315)。ステップS3315では、sx2=wx2とし、sentにwを追加する処理を行う。図12に示す例では、文字列「Abc de f」に「g」を追加する処理を行う。ステップS3311〜S3315の処理により、段組データは、現文字を含む段組部分を表すように更新される。ステップS3315が終了した後は、行処理データ生成部22は、処理をステップS3306へ進める。
ステップS3302で、取得した1行分の文字データに未処理の文字データがない場合は(S3302:NO)、行処理データ生成部22は、単語データ及び段組データを行処理データへ追加する(S3316)。ステップS3316までの処理により、行処理データは完成し、行処理データ生成部22は、行処理データ生成処理を終了する。分割処理部2は、生成した行処理データを行処理データ記憶部21に記憶し、処理を分割処理へ戻す。
図13は、ステップS3306の単語データ生成処理の手順を示すフローチャートである。単語データ生成部23は、まず、現文字は段組部分の先頭文字であるか否かを判定する(S33061)。ステップS33061は、段組部分に含まれる単語の先頭からの順番を示すkの値が0であるか否かによって判定する。k=0である場合は、単語データは初期化されており、現文字は段組部分の先頭文字である。現文字が段組部分の先頭文字である場合は(S33061:YES)、単語データ生成部23は、k=1とし、現文字データを、単語データに含まれる先頭の単語のデータへ代入する(S33062)。即ち、ステップS33062では、w1x1=wx1、w1x2=wx2、w1y1=wy1、w1y2=wy2、及びspel_1=wとする処理を行う。単語データ生成部23は、次に、単語データ生成処理を終了し、処理を行処理データ生成処理へ戻す。
ステップS33061で、現文字が段組部分の先頭文字ではない場合は(S33061:NO)、単語データ生成部23は、直前文字の右端と現文字の左端との間の距離が予め定めてある閾値Bよりも大きいか否かを判定する(S33063)。この場合は、k≠0の場合である。ステップS33063では、(px2−wx1)>Bであるか否かを判定する。閾値Bの値は、単語中の文字間の距離よりも大きい値であり、単語間のスペースの距離よりも若干小さい値に定められている。(px2−wx1)>Bであれば直前文字と現文字とは異なる単語に含まれる文字であり、(px2−wx1)≦Bであれば直前文字と現文字とは同一の単語に含まれる文字である。
ステップS33063で直前文字の右端と現文字の左端と間の距離が閾値Bよりも大きい場合は(S33063:YES)、単語データ生成部23は、kをインクリメントし、現文字データを、単語データに含まれるk番目の単語のデータへ代入する(S33064)。即ち、ステップS33064では、k=k+1、wkx1=wx1、wkx2=wx2、wky1=wy1、wky2=wy2、及びspel_k=wとする処理を行う。この場合は、直前文字と現文字とは異なる単語に含まれる場合であるので、ステップS33064により、現文字を、直前文字が含まれる単語の次の単語に含ませる。単語データ生成部23は、次に、単語データ生成処理を終了し、処理を行処理データ生成処理へ戻す。
ステップS33063で直前文字の右端と現文字の左端と間の距離が閾値B以下である場合は(S33063:NO)、単語データ生成部23は、k番目の単語の上底が現文字の上底よりも下にあるか否かを判定する(S33065)。この場合は、直前文字と現文字とが同一の単語に含まれる場合である。ステップS33065では、wky1>wy1であるか否かを判定する。k番目の単語の上底が現文字の上底よりも下にある場合は(S33065:YES)、単語データ生成部23は、現文字の上底の座標データを、k番目の単語の上底の座標データへ代入する(S33066)。即ち、ステップS33066では、wky1=wy1とする処理を行う。ステップS33066が終了した後、又はステップS33065でk番目の単語の上底が現文字の上底以上にある場合は(S33065:NO)、単語データ生成部23は、k番目の単語の下底が現文字の下底よりも上にあるか否かを判定する(S33067)。ステップS33067では、wky2<wy2であるか否かを判定する。k番目の単語の下底が現文字の下底よりも上にある場合は(S33067:YES)、単語データ生成部23は、現文字の下底の座標データを、k番目の単語の下底の座標データへ代入する(S33068)。即ち、ステップS33068では、wky2=wy2とする処理を行う。
ステップS33068が終了した後、又はステップS33067でk番目の単語の下底が現文字の下底以下にある場合は(S33067:NO)、単語データ生成部23は、現文字の右端の座標データを、k番目の単語の右端の座標データへ代入し、k番目の単語の綴りに現文字を追加する(S33069)。ステップS33069では、wkx2=wx2とし、spel_kにwを追加する処理を行う。ステップS33065〜S33069の処理により、単語データは、現文字を含む単語を表すように更新される。単語データ生成部23は、次に、単語データ生成処理を終了し、処理を行処理データ生成処理へ戻す。
図14は、ステップS34の領域データ生成処理の手順を示すフローチャートである。領域データ生成処理では、行処理データに含まれる夫々の段組データについて、既存の領域データと比較し、段組データを既存の領域データに組み込むか、又は新たな領域データを生成する処理を行う。図15は、文書中の領域の例を示す模式図である。図15には、横軸方向一杯に配置された領域_Aと、横軸方向を四つの部分に分割して配置された領域_B、領域_C、領域_D及び領域_Eとを文書が含む例を示す。各領域を表す領域データは、領域データ記憶部16に記憶される。また図15には、領域データと比較すべき段組部分データが表す段組部分の配置状態を示している。
領域データ生成部24は、行処理データ記憶部21に記憶した行処理データに、未処理の段組データが含まれているか否かを判定する(S3401)。行処理データに未処理の段組データが含まれている場合は(S3401:YES)、領域データ生成部24は、行処理データに含まれる未処理の段組データの内、1件の段組データを取得する(S3402)。領域データ生成部24は、次に、領域データ記憶部16で記憶する領域データに、ステップS3402で取得した段組データと比較していない領域データがあるか否かを判定する(S3403)。段組データと比較していない領域データがある場合に(S3403:YES)、領域データ生成部24は、段組データと比較していない領域データの内、1件の領域データを取得する(S3404)。
以降の処理で、領域比較部25は、ステップS3402で取得した段組データと、ステップS3404で取得した領域データとの比較を行う。領域比較部25は、まず、領域データに含まれる最終行の行間スペースの値が存在せず、しかも領域の最終行の下底が段組部分の上底よりも上にあるという条件が満たされるか否かを判定する(S3405)。ステップS3405では、領域データに含まれるspc_LCがspc_LC<0であり、しかもsy1>lLCy2である条件を満たすか否かを判定する。ステップS3405の条件が満たされる場合は(S3405:YES)、領域データ生成部24は、領域の最終行の下底と段組部分の上底との間の距離を、領域データに含まれる最終行の行間スペースへ代入する(S3406)。ステップS3406では、spc_LC=(sy1−lLCy2)とする処理を行う。
ステップS3406が終了した後、又はステップS3405の条件が満たされない場合は(S3405:NO)、領域比較部25は、領域の最終行の下底が段組部分の上底よりも上であり、しかも領域の最終行の下底と段組部分の上底との間の距離が閾値Cより小さいか否かを判定する(S3407)。ステップS3407では、具体的には、0<(sy1−lLCy2)<Cであるか否かを判定する。閾値Cの値は、文書中に段組を配置した場合における縦軸方向の段組間の距離の値に定められている。領域の最終行の下底と段組部分の上底との間の距離が閾値C以上である場合は、領域と段組部分とは縦軸方向に段組間の距離以上に大きく離れており、段組部分は領域に含まれない。例えば、図15に示すように、段組部分は領域_Aから縦軸方向に大きく離れているので、段組部分は領域_Aに含まれない。また領域の最終行の下底が段組部分の上底以下である場合は、領域及び段組部分の縦軸方向の位置が重なり、段組部分は領域とは横軸方向に離れた位置にあることが明らかであるので、段組部分は領域に含まれない。例えば、図15に示すように、段組部分の上底は領域_Bの下底より上であり、段組部分は領域_Bに含まれない。このように、ステップS3407の条件が満たされない場合は、段組部分は比較対象の領域には含まれないことが明らかとなり、逆にステップS3407の条件が満たされる場合は、段組部分は比較対象の領域に含まれる可能性がある。
ステップS3407の条件が満たされない場合は(S3407:NO)、領域データ生成部24は、処理をステップS3403へ戻す。ステップS3407の条件が満たされる場合は(S3407:YES)、領域比較部25は、段組部分と領域との文字サイズの比が閾値d〜閾値Dの間に存在するか否かを判定する(S3408)。ステップS3408では、段組部分での文字サイズとして段組部分の下底と上底との差(sy2−sy1)を用い、領域での文字サイズとして領域の最終行の下底と上底との差(lLCy2−lLCy1)を用いる。具体的には、ステップS3408では、d<(lLCy2−lLCy1)/(sy2−sy1)<Dであるか否かを判定する。閾値dの値は、0より大きく1より若干小さい値に定められ、閾値Dの値は1より若干大きい値に定められている。ステップS3408の条件が満たされない場合は、段組部分と領域とで文字サイズが大きく異なり、段組部分は領域に含まれない。例えば、図15に示すように、領域_Cでの文字サイズは段組部分での文字サイズよりも大幅に小さいので、段組部分は領域_Cには含まれない。ステップS3408の条件が満たされる場合は、段組部分は比較対象の領域に含まれる可能性がある。
ステップS3408で段組部分と領域との文字サイズの比が閾値d〜閾値Dの間に存在しない場合は(S3408:NO)、領域データ生成部24は、処理をステップS3403へ戻す。ステップS3408で段組部分と領域との文字サイズの比が閾値d〜閾値Dの間に存在する場合は(S3408:YES)、領域比較部25は、領域の最終行の左端と段組部分の左端との差の絶対値が閾値Eより小さいか否かを判定する(S3409)。ステップS3409では、具体的には、|lLCx1−sx1|<Eであるか否かを判定する。閾値Eの値は、段落変更時のインデントの大きさよりも若干大きい値に定められている。ステップS3409の条件が満たされない場合は、領域の最終行の左端と段組部分の左端との位置が横軸方向に大きくずれており、段組部分は領域に含まれない。例えば、図15に示すように、領域_Dと段組部分とは横軸方向に大きくずれているので、段組部分は領域_Dには含まれない。また領域_Eの左端と段組部分の左端との間の距離は閾値Eよりも小さく、段組部分は領域_Eに含まれることになる。
ステップS3409で領域の最終行の左端と段組部分の左端との差の絶対値が閾値E以上である場合は(S3409:NO)、領域データ生成部24は、処理をステップS3403へ戻す。ステップS3409で領域の最終行の左端と段組部分の左端との差の絶対値が閾値Eより小さい場合は(S3409:YES)、領域データ生成部24は、領域データに含まれる行数に1加算し、最終行に係るデータとして領域データに段組データを追加し、段組部分を領域に含ませるように領域の位置を更新する(S3410)。ステップS3410では、LC=LC+1とし、ポインタlLCにより指定されるデータとして段組データを記憶する処理を行う。更にステップS3410では、ax1>lLCx1の場合にlLCx1をax1へ代入し、ax2<lLCx2の場合にlLCx2をax2へ代入し、lLCy2をay2へ代入する処理を行う。ステップS3410の処理により、ステップS3402で取得した段組データは、ステップS3404で取得した領域データに組み込まれる。ステップS3410が終了した後は、領域データ生成部24は、処理をステップS3401へ戻す。
ステップS3403で段組データと比較していない領域データがない場合は(S3403:NO)、領域データ生成部24は、段組データを含む新たな領域データを生成する(S3411)。この場合は、段組部分が既存のいずれの領域にも含まれない場合である。ステップS3411では、具体的には、新たな領域データでLC=1とし、ポインタlLCにより指定されるデータとして段組データを記憶し、ax1=lLCx1、ax2=lLCx2、ay1=lLCy1及びay2=lLCy2とする処理を行う。ステップS3411が終了した後は、領域データ生成部24は、処理をステップS3401へ戻す。
ステップS3401で行処理データに未処理の段組データが含まれていない場合は(S3401:NO)、領域データ生成部24は、領域データ生成処理を終了し、処理を分割処理へ戻す。領域データ生成処理により、行処理データに含まれる段組データのいずれかが組み込まれた領域データが生成される。生成された領域データは、領域データ記憶部16に記憶される。
図16は、ステップS4の出力データ生成処理の手順を示すフローチャートである。出力データ生成処理部31は、領域データ記憶部16で記憶する領域データに、未処理の領域データがあるか否かを判定する(S41)。未処理の領域データがない場合は(S41:NO)、出力データ生成処理部31は、出力データ生成処理を終了し、処理をメインの処理へ戻す。未処理の領域データがある場合は(S41:YES)、出力データ生成処理部31は、未処理の領域データの内、1件の領域データを取得する(S42)。出力データ生成処理部31は、次に、取得した領域データに含まれる縮小比b_size及び補足説明の文字サイズr_sizeを初期化する(S43)。出力データ生成処理部31は、次に、領域データに未処理の行データが含まれるか否かを判定する(S44)。領域データに未処理の行データが含まれない場合は(S44:NO)、出力データ生成処理部31は、処理をステップS41へ戻す。
ステップS44で領域データに未処理の行データが含まれる場合は(S44:YES)、出力データ生成処理部31は、未処理の行データの内、1件の行データを取得する(S45)。出力データ生成処理部31は、次に、取得した行データに未処理の単語データが含まれるか否かを判定する(S46)。行データに未処理の単語データが含まれない場合は(S46:NO)、出力データ生成処理部31は、処理をステップS44へ戻す。行データに未処理の単語データが含まれる場合は(S46:YES)、出力データ生成処理部31は、未処理の単語データの内、1件の単語データを取得する(S47)。出力データ生成処理部31は、単語データベース35及びデータベース検索部34を用いて、取得した単語データが表す単語に対して、単語の訳語、読み仮名、発音記号又は注釈等の単語に対する補足説明を取得する(S48)。ステップS48では、データベース検索部34は、単語データに含まれる単語の綴りln_spel_kに基づいて、単語に対する補足説明を単語データベース35から検索し、出力データ生成処理部31は、検索結果を単語データのln_note_kへ代入することにより、単語に対する補足説明を取得する。出力データ生成部3は、次に、領域での文字サイズを原文から縮小する縮小比、及び領域に追加する補足説明の文字サイズを設定するサイズ設定処理を行う(S49)。サイズ設定処理の詳細は後述する。ステップS49が終了した後で、出力データ生成処理部31は、処理をステップS46へ戻す。
図17は、ステップS49のサイズ設定処理の手順を示すフローチャートである。出力データ生成処理部31は、領域における補足説明の文字サイズが設定済みであるか否かを判定する(S4901)。ステップS4901では、取得している領域データで、補足説明の文字サイズを示す情報r_sizeに値が記録されているか否かに基づいて判定を行う。r_sizeに値が記録されておらず、補足説明の文字サイズが未設定である場合は(S4901:NO)、文字サイズ設定部33は、単語データに基づき、文書に補足説明を追加したときの補足説明の幅が単語の幅以内に収まるように、補足説明の文字サイズを設定する処理を行う(S4902)。ステップS4902では、文字サイズ設定部33は、単語データに含まれる座標データを用い、(lnwkx2−lnwkx1)により単語の幅を計算し、ln_note_kで示される補足説明の内容に基づいて仮の文字サイズでの補足説明の文字列を生成し、補足説明の幅が単語の幅以内に収まるように文字サイズを定める。なお、文字サイズ設定部33は、ステップS4902で、単語データに含まれるln_spel_k及びln_note_kから単語及び補足説明の文字数をカウントし、カウントした文字数に応じて補足説明の文字サイズを定める処理を行ってもよい。例えば、補足説明の文字数が単語の文字数以下である場合に補足説明の文字サイズを単語と同一の文字サイズとし、補足説明の文字数が単語の文字数より多い場合に単語の文字サイズを文字数の比で割った値を補足説明の文字サイズとしてもよい。設定した補足説明の文字サイズは、文字サイズ設定部33が一旦記憶する。
ステップS4901で補足説明の文字サイズが設定済みである場合は(S4901:YES)、出力データ生成処理部31は、設定済みの文字サイズで補足説明の文字列を生成する処理を行う(S4903)。ステップS4903では、領域データに含まれるr_sizeが示す文字サイズで、単語データに含まれるln_note_kが示す補足説明の内容を文字列で表した補足説明の文字列を生成する。出力データ生成処理部31は、次に、生成した補足説明の文字列の幅を計算し、(lnwkx2−lnwkx1)により単語の幅を計算し、補足説明の幅が単語の幅以内に収まるか否かを判定する(S4904)。補足説明の幅が単語の幅以内に収まらない場合は(S4904:NO)、文字サイズ設定部33は、補足説明の幅が単語の幅以内に収まるように、補足説明の文字サイズを再設定する処理を行う(S4905)。ステップS4905では、文字サイズ設定部33は、ステップS4902と同様の処理を行う。
ステップS4902が終了した後、ステップS4905が終了した後、又はステップS4904で補足説明の幅が単語の幅以内に収まる場合は(S4904:YES)、出力データ生成処理部31は、補足説明を付加するために十分な行間スペースが存在するか否かを判定する(S4906)。ステップS4906では、設定した文字サイズで生成した補足説明の文字列の縦軸方向の大きさが、行データに含まれるspc_nが示す行間スペースの大きさ以下であるか否かを判定する。補足説明の縦軸方向の大きさが行間スペースの大きさより大きく、補足説明を付加するために十分な行間スペースが存在しない場合は(S4906:NO)、縮小比設定部32は、補足説明の縦軸方向の大きさが行間スペースの大きさよりも小さくなるように、単語データが表す単語のサイズを原文から縮小する縮小比を設定する処理を行う(S4907)。例えば、縮小比設定部32は、ステップS4907で、行間スペースを補足説明の縦軸方向の大きさで割った比を求め、求めた比を、領域データに含まれるb_sizeが示す縮小比に乗じることによって、新たな縮小比を定める処理を行う。また縮小比設定部32は、ステップS4907で、b_sizeが示す縮小比に、予め定められている1未満の値を乗じることによって、新たな縮小比を定めてもよい。
出力データ生成処理部31は、次に、新たに定めた縮小比を、領域データに含まれるb_sizeへ代入することによって、設定した縮小比を記録する(S4908)。文字サイズ設定部33は、設定した縮小比に応じて、補足説明の文字サイズを再設定する処理を行う(S4909)。例えば、文字サイズ設定部33は、ステップS4909で、補足説明の文字列の幅が、(lnwkx2−lnwkx1)で計算できる単語の幅に縮小比を乗じた値以下になるように、補足説明の文字サイズを設定する。また文字サイズ設定部33は、ステップS4909で、行間スペースを補足説明の縦軸方向の大きさで割った比を文字サイズに乗じることにより、補足説明の文字サイズを計算する処理を行ってもよい。
ステップS4909が終了した後、又はステップS4906で補足説明を付加するために十分な行間スペースが存在する場合は(S4906:YES)、出力データ生成処理部31は、設定した補足説明の文字サイズを領域データに含まれるr_sizeへ代入することによって、設定した文字サイズを記録する(S4910)。出力データ生成処理部31は、以上でサイズ設定処理を終了し、処理を出力データ生成処理へ戻す。サイズ設定処理により、文書に含まれる文字の原文からの縮小比と、文書に追加する各単語に対する補足説明の文字サイズとが、領域毎に設定される。
ステップS4の出力データ生成処理により、夫々に文書中の文字の縮小比b_size及び補足説明の文字サイズr_sizeが定められた複数の領域データが生成され、複数の領域データを含む出力データが生成される。生成された複数の領域データは、領域データ記憶部16に記憶される。ステップS5の処理では、出力部17は、各領域データで定められた位置に、各行の文字列を、領域毎の縮小比で定められる文字サイズで配置し、更に、各単語に隣接した行間の位置に、領域毎に定められた文字サイズで、各単語に対する補足説明を配置した画像を生成する。出力部17がディスプレイである場合は、出力部17は生成した画像を表示し、出力部17が画像形成部である場合は、出力部17は生成した画像をシート上に形成し、出力部17が送信部である場合は、出力部17は生成した画像を表現するための画像データを外部へ送信する。なお、データ処理装置は、全ての単語に対する補足説明を配置するものに限るものではなく、使用者からの指示を受け付ける手段を更に備え、補足説明を配置する範囲の指定又は補足説明を取得する単語の指定等の指示を受け付け、受け付けた指示に従って、配置する補足説明を制限する処理を行う形態であってもよい。またデータ処理装置は、補足説明を取得する単語を指定したルール等、予め定められたルールに従って、配置する補足説明を制限する処理を行う形態であってもよい。
以上の処理により、データ処理装置は、文書原稿を読み取った画像に、単語の訳語、読み仮名、発音記号又は単語の意味を説明する注釈等、文書中の単語に対する補足説明を付加した画像を生成する。各単語に対する補足説明は、単語に隣接する行間に配置され、また補足説明が文書の本文の文字に重ならないように文字の縮小比が定められるので、文書の本文と補足説明とが容易に区別できる。また単語に隣接して配置される補足説明の幅は単語の幅以下となっているので、単語と補足説明との対応関係が容易に認識できる。また文書中の文字サイズは、段組等で文書を分割した領域毎に定められるので、各領域内では本文の文字及び補足説明は一定の文字サイズで記録され、段落内又は行内で文字サイズにばらつきが生じることがない。従って、本発明においては、訳語等の補足説明を付加した後でも、領域単位で文字サイズが統一され、文書の閲覧性の悪化が抑制される。また単語に対する補足説明は行間に配置され、文書中に含まれる単語は位置を変更せずに文字サイズのみが調整されるので、単語に補足説明を付加した後でも文書のレイアウトは維持される。文書のレイアウトが維持されるので、補足説明が付加されていない原本の文書との比較が容易となる。
なお、本実施の形態においては、画像読取部12で生成した画像データに対して本発明の補足説明付加方法の処理を実行する形態を示したが、本発明のデータ処理装置は、ファクシミリ通信等により外部から送信された画像データを受信し、受信した画像データに対して補足説明付加方法の処理を実行する形態であってもよい。また本実施の形態においては、生成した出力データに基づいた画像を出力する形態を示したが、本発明のデータ処理装置は、画像を出力することなく、出力データに基づいた画像を表現するための画像データを記憶する形態であってもよい。また本実施の形態においては、横書きの文書に対して本発明を適用する例を示したが、本発明は縦書きの文書に対しても適用可能である。また本実施の形態においては、データ処理装置は文字認識部14、分割処理部2及び出力データ生成部3等の複数の情報処理回路を備えて本発明に係る処理を実行する形態を示したが、本発明のデータ処理装置は、これらの情報処理回路の機能の一部又は全部をソフトウェアで実現する形態であってもよい。
(実施の形態2)
実施の形態2では、汎用のコンピュータを用いて本発明のデータ処理装置を実現した形態を示す。図18は、実施の形態2に係る本発明のデータ処理装置の内部構成を示すブロック図である。本実施の形態に係るデータ処理装置は、PC又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うCPU41と、演算に伴って発生する一時的な情報を記憶するRAM42と、光ディスク又はメモリカード等の記録媒体5から情報を読み取るCD−ROMドライブ等のドライブ部43と、ハードディスク等の記憶部44とを備えている。CPU41は、記録媒体5から本発明のコンピュータプログラム51をドライブ部43に読み取らせ、読み取ったコンピュータプログラム51を記憶部44に記憶させる。コンピュータプログラム51は必要に応じて記憶部44からRAM42へロードされ、ロードされたコンピュータプログラム51に基づいてCPU41はデータ処理装置に必要な処理を実行する。また記録媒体5には、単語データベースが記録されており、単語データベースは、ドライブ部43で記録媒体5から読み取られ、記憶部44に記憶される。
実施の形態2では、汎用のコンピュータを用いて本発明のデータ処理装置を実現した形態を示す。図18は、実施の形態2に係る本発明のデータ処理装置の内部構成を示すブロック図である。本実施の形態に係るデータ処理装置は、PC又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うCPU41と、演算に伴って発生する一時的な情報を記憶するRAM42と、光ディスク又はメモリカード等の記録媒体5から情報を読み取るCD−ROMドライブ等のドライブ部43と、ハードディスク等の記憶部44とを備えている。CPU41は、記録媒体5から本発明のコンピュータプログラム51をドライブ部43に読み取らせ、読み取ったコンピュータプログラム51を記憶部44に記憶させる。コンピュータプログラム51は必要に応じて記憶部44からRAM42へロードされ、ロードされたコンピュータプログラム51に基づいてCPU41はデータ処理装置に必要な処理を実行する。また記録媒体5には、単語データベースが記録されており、単語データベースは、ドライブ部43で記録媒体5から読み取られ、記憶部44に記憶される。
またデータ処理装置は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部45と、各種の情報を表示する液晶ディスプレイ等の表示部46とを備えている。更にデータ処理装置は、図示しない外部の通信ネットワークに接続可能な送信部47と、画像データを入力する外部の入力装置6に接続された受信部48とを備えている。送信部47は、ネットワークカード又はモデム等であり、入力装置6は、フラットベッドスキャナ又はフィルムスキャナ等のスキャナ装置である。入力装置6は、文書原稿に記録された画像を光学的に読み取って画像データを生成し、生成した画像データをデータ処理装置へ送信し、受信部48は、入力装置6から送信された画像データを受信する。また送信部47は、図示しない通信ネットワークを介して、ファクシミリ又は電子メール等の通信方法により外部へデータを送信することができる。
CPU41は、本発明のコンピュータプログラム51をRAM42にロードし、ロードしたコンピュータプログラム51に従って、本発明の補足説明付加方法の処理を実行する。即ち、受信部48で入力装置6から画像データが入力された場合に、CPU41は、入力された画像データをRAM42に記憶し、コンピュータプログラム51に従って、実施の形態1で説明したステップS2〜S5の処理と同様の情報処理を実行することにより、出力データを生成し、出力データに基づいた画像を表示部46に表示するか又は画像を表現するための画像データを送信部47から外部へ送信する処理を行う。
以上のように、本実施の形態においても、実施の形態1と同様に、データ処理装置は、文書原稿を読み取った画像に、文書中の単語に対する補足説明を追加した画像を生成する。なお、本発明のコンピュータプログラム51は、インターネット又はLAN等の通信ネットワークを介して図示しない外部のサーバ装置からデータ処理装置へダウンロードされて記憶部44に記憶される形態であってもよい。
11 制御部
12 画像読取部
14 文字認識部
16 領域データ記憶部
17 出力部
2 分割処理部
22 行処理データ生成部
23 単語データ生成部
24 領域データ生成部
3 出力データ生成部
31 出力データ生成処理部
32 縮小比設定部
33 文字サイズ設定部
34 データベース検索部
35 単語データベース
41 CPU
5 記録媒体
51 コンピュータプログラム
12 画像読取部
14 文字認識部
16 領域データ記憶部
17 出力部
2 分割処理部
22 行処理データ生成部
23 単語データ生成部
24 領域データ生成部
3 出力データ生成部
31 出力データ生成処理部
32 縮小比設定部
33 文字サイズ設定部
34 データベース検索部
35 単語データベース
41 CPU
5 記録媒体
51 コンピュータプログラム
Claims (6)
- 複数の行からなる文書を表す画像に対し、文書に含まれる複数の単語の夫々に対する補足説明を、該単語に隣接した行間の位置に付加する処理を行うデータ処理装置において、
単語に対する補足説明を記録したデータベースと、
夫々に複数の文字を含んだ複数の領域に文書を分割する分割手段と、
文書に含まれる各単語に対する補足説明を、前記データベースから取得する手段と、
文書の文字位置を変更せずに行間に各単語に対する補足説明を付加したときに補足説明が他の文字に重ならないように、文書の文字サイズを領域毎に設定する手段と、
文書中の単語を、文字位置を変更せずに領域毎に設定した文字サイズで記録し、更に文書中の単語に対する補足説明を該単語に隣接した行間の位置に配置した画像を生成する手段と
を備えることを特徴とするデータ処理装置。 - 前記分割手段は、
隣接する二つの文字が所定の距離以上に離隔している場合に前記二つの文字の夫々が異なる領域に含まれるように文書を分割する手段と、
隣接する二つの行が所定の距離以上に離隔している場合に前記二つの行の夫々が異なる領域に含まれるように文書を分割する手段と
を有することを特徴とする請求項1に記載のデータ処理装置。 - 前記分割手段は、
隣接する二つの行における文字サイズの比が所定範囲を外れている場合に前記二つの行の夫々が異なる領域に含まれるように文書を分割する手段を有すること
を特徴とする請求項1又は2に記載のデータ処理装置。 - 各単語について取得した補足説明を配置したときの長さを、領域毎に設定した文字サイズで当該単語を記録したときの単語の長さ以下にするように、補足説明の文字サイズを領域毎に設定する手段を更に備えること
を特徴とする請求項1から3までのいずれか一つに記載のデータ処理装置。 - 複数の行からなる文書を表す画像に対し、文書に含まれる複数の単語の夫々に対する補足説明を、該単語に隣接した行間の位置に付加する方法において、
夫々に複数の文字を含んだ複数の領域に文書を分割し、
単語に対する補足説明を記録したデータベースを用いて、文書に含まれる各単語に対する補足説明を取得し、
文書の文字位置を変更せずに行間に各単語に対する補足説明を付加したときに補足説明が他の文字に重ならないように、文書の文字サイズを領域毎に設定し、
文書中の単語を、文字位置を変更せずに領域毎に設定した文字サイズで記録し、更に文書中の単語に対する補足説明を該単語に隣接した行間の位置に配置した画像を生成すること
を特徴とする補足説明付加方法。 - コンピュータに、複数の行からなる文書を表す画像に対し、文書に含まれる複数の単語の夫々に対する補足説明を、該単語に隣接した行間の位置に付加させるためのコンピュータプログラムにおいて、
コンピュータに、夫々に複数の文字を含んだ複数の領域に文書を分割させる手順と、
コンピュータに、単語に対する補足説明を記録したデータベースを用いて、文書に含まれる各単語に対する補足説明を取得させる手順と、
コンピュータに、文書の文字位置を変更せずに行間に各単語に対する補足説明を付加したときに補足説明が他の文字に重ならないように、文書の文字サイズを領域毎に設定させる手順と、
コンピュータに、文書中の単語を、文字位置を変更せずに領域毎に設定した文字サイズで記録し、更に文書中の単語に対する補足説明を該単語に隣接した行間の位置に配置した画像を生成させる手順と
を含むことを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217725A JP2011065573A (ja) | 2009-09-18 | 2009-09-18 | データ処理装置、補足説明付加方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217725A JP2011065573A (ja) | 2009-09-18 | 2009-09-18 | データ処理装置、補足説明付加方法及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011065573A true JP2011065573A (ja) | 2011-03-31 |
Family
ID=43951720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009217725A Pending JP2011065573A (ja) | 2009-09-18 | 2009-09-18 | データ処理装置、補足説明付加方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011065573A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016535335A (ja) * | 2013-11-08 | 2016-11-10 | グーグル インコーポレイテッド | 画像内に描かれたテキストの翻訳の提示 |
US10198439B2 (en) | 2013-11-08 | 2019-02-05 | Google Llc | Presenting translations of text depicted in images |
-
2009
- 2009-09-18 JP JP2009217725A patent/JP2011065573A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016535335A (ja) * | 2013-11-08 | 2016-11-10 | グーグル インコーポレイテッド | 画像内に描かれたテキストの翻訳の提示 |
US10198439B2 (en) | 2013-11-08 | 2019-02-05 | Google Llc | Presenting translations of text depicted in images |
US10726212B2 (en) | 2013-11-08 | 2020-07-28 | Google Llc | Presenting translations of text depicted in images |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9110871B2 (en) | Correcting a document character size based on the average value of each character size | |
US20140108897A1 (en) | Method and apparatus for document conversion | |
CN1797400A (zh) | 用于向网站添加个人化的值的***、Web服务器和方法 | |
US20140122054A1 (en) | Translating phrases from image data on a gui | |
JP6776805B2 (ja) | 文字認識装置、文字認識方法、文字認識プログラム | |
JP4902568B2 (ja) | 電子文書生成装置、電子文書生成方法、コンピュータプログラム、および記憶媒体 | |
JP2018128996A (ja) | 情報処理装置、制御方法、およびプログラム | |
US8850359B2 (en) | Image processor and image processing method | |
US20150081278A1 (en) | Electronic device, character conversion method, and storage medium | |
JP2011065573A (ja) | データ処理装置、補足説明付加方法及びコンピュータプログラム | |
JP5551986B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6128898B2 (ja) | 情報処理装置、情報処理装置の制御方法、プログラム | |
US9530070B2 (en) | Text parsing in complex graphical images | |
JP2019169182A (ja) | 情報処理装置、制御方法、プログラム | |
US11651143B2 (en) | Information processing apparatus, system, information processing method, and computer-readable storage medium for storing programs | |
KR20210119923A (ko) | 데이터를 주석하는 방법 및 장치 | |
US20180189251A1 (en) | Automatic multi-lingual editing method for cartoon content | |
JP2015041991A (ja) | 情報処理装置及びプログラム | |
JP6194781B2 (ja) | 画像処理装置及びプログラム | |
JP5612975B2 (ja) | セリフデータ生成装置、セリフデータ生成方法、及びプログラム | |
JP2008139359A (ja) | 地図データ処理方法及び装置 | |
JP5913774B2 (ja) | Webサイトを共有する方法、電子機器およびコンピュータ・プログラム | |
JP7283112B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2021141497A (ja) | 画像処理システム | |
JP5667841B2 (ja) | データダウンロード装置、データダウンロード方法 |