JP2015194873A - 情報処理装置、情報処理システム、及び情報処理プログラム - Google Patents
情報処理装置、情報処理システム、及び情報処理プログラム Download PDFInfo
- Publication number
- JP2015194873A JP2015194873A JP2014072104A JP2014072104A JP2015194873A JP 2015194873 A JP2015194873 A JP 2015194873A JP 2014072104 A JP2014072104 A JP 2014072104A JP 2014072104 A JP2014072104 A JP 2014072104A JP 2015194873 A JP2015194873 A JP 2015194873A
- Authority
- JP
- Japan
- Prior art keywords
- character
- data
- image data
- font
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】
画像データ取得部100は、OCR(光学文字認識)等を行うための画像データ200を取得する。文字認識部110は、画像データ取得部100により取得された画像データ200から光学文字認識により文字を認識する。フォント照合部120は、文字認識部110により文字と認識された画像データ200の領域301について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合する。文字属性データ設定部130は、フォント照合部120で照合されたフォント及び文字サイズを文書データ210に設定し、文字の描画位置として、描画の原点、文字幅、及びサイドベアリングを画像データ200に対応するよう設定する。
【選択図】図5
Description
これらの画像形成装置には、スキャナー等で取得された画像データを、PDF(Portable Document Format)等の文書データに変換する機能を備えるものが存在する。
つまり、画像データの元となる、ワードプロセッサーソフトウェア等で作成したときのフォント情報が分からないため、画像データを、元の原稿と同様の文書データに変換することはできなかった。
本発明の情報処理装置は、前記文字属性データ設定手段は、前記フォント照合手段で照合された文字に対応して算出された原点に対応して次に文字が描画される次原点を算出し、当該次原点と次の文字の原点とが一致した場合、同一の文章内の文字として前記文書データに設定することを特徴とする。
本発明の情報処理システムは、画像形成装置において入力された画像データと、該画像データを文書データに変更するサーバーとを備えた情報処理システムにおいて、前記サーバーは、前記画像データを前記画像形成装置から取得する画像データ取得手段と、該画像データ取得手段により取得された画像データから文字を認識する文字認識手段と、該文字認識手段により文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合手段と、該フォント照合手段で照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置として、描画の原点、文字幅、及びサイドベアリングを前記画像データに対応するよう設定する文字属性データ設定手段とを備えることを特徴とする。
本発明のプログラムは、画像データを文書データに変更可能な情報処理装置により実行されるプログラムにおいて、前記画像データから文字を認識させ、文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合させ、照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置として、描画の原点、文字幅、及びサイドベアリングを前記画像データに対応するよう設定させることを特徴とする。
〔画像形成システムXの構成〕
画像形成装置1は、スキャナー等を備えたMFP等であり、サーバー2に対して画像データ200(図5)を送信する。
サーバー2は、データセンター等に載置されたPC/AT互換機等のPCサーバーやARM(登録商標)サーバー等の情報処理装置である。また、サーバー2は、ユーザーのPC(Personal Computer)、スマートフォン、携帯電話、PDA(Personal Digital Assistant)等の端末であり、インストールされたサーバープログラムを実行して情報処理装置として機能する構成であってもよい。サーバー2は、画像形成装置1から取得した画像データについて、後述する画像ファイル化処理を行う。
画像形成装置1、及びサーバー2は、LAN(Local Area Network)、無線LAN、WAN(Wide Area Network)、携帯電話網等であるネットワーク5に接続されている。
次に、図2により、画像形成装置1の全体の構成について説明する。画像形成装置1は、画像処理部11、原稿読取部12、原稿給送部13、搬送部(給紙ローラー42b、搬送ローラー対44、排出ローラー対45)、ネットワーク送受信部15、操作パネル部16、画像形成部17(画像形成手段)、及び記憶部19等が、制御部10に接続されている。各部は、制御部10によって動作制御される。
制御部10は、記憶部19のROMやHDDに記憶されている制御プログラムを読み出して、この制御プログラムをRAMに展開させて実行することで、後述する機能ブロックの各手段として動作させられる。また、制御部10は、図示しない外部の端末や操作パネル部16から入力された所定の指示情報に応じて、装置全体の制御を行う。
画像処理部11は、原稿読取部12で読み取られた画像を、記憶部19に印刷データとして記憶する。この際、画像処理部11は、印刷データをPDFやTIFF等のフォーマットのファイル単位に変換することも可能である。
原稿給送部13は、原稿読取部12で読み取られる原稿を搬送する手段である。
画像形成部17は、ユーザーの出力指示により、記憶部19に記憶され、原稿読取部12で読み取られ、又は外部の端末から取得されたデータから記録紙への画像形成を行わせる手段である。
搬送部は、給紙カセット42a(図3)から記録紙を搬送し、画像形成部17で画像形成させ、その後にスタックトレイ50へ搬送する。
なお、原稿読取部12、原稿給送部13、搬送部、画像形成部17の動作については後述する。
ネットワーク送受信部15は、データ通信用の回線ではデータを送受信し、音声電話回線では音声信号を送受信する。
ネットワーク送受信部15は、ネットワークを介して、図示しないPC(Personal Computer)やスマートフォンやPDA(Personal Data Assistant)や携帯電話等の外部の端末、サーバー等に接続されていてもよい。
操作パネル部16は、画像形成装置1へユーザーの指示を取得する。このユーザーの指示により、後述する画像ファイル化処理が開始される。また、ユーザーの指示により、各ユーザーの情報を入力、変更することも可能である。
また、操作パネル部16には、USBメモリーやフラッシュメモリーカードや外部機器等の画像データ200(図5)を記憶した記録媒体を接続するための接続部が備えられていてもよい。
記憶部19のRAMは、省電力状態であっても、セルフリフレッシュ等の機能により、記憶内容が保持される。
記憶部19のROMやHDDには画像形成装置1の動作制御を行うための制御プログラムが記憶されている。これに加えて、記憶部19は、ユーザーのアカウント設定も記憶している。また、記憶部19には、ユーザー毎の保存フォルダーの領域301が含まれていてもよい。
また、制御部10及び画像処理部11は、RAMやROMやフラッシュメモリー等を内蔵していてもよい。
また、画像形成装置1は、ファクシミリの送受信を行うFAX送受信部を備えていてもよい。
次に、図3を参照して、本発明の実施の形態に係る画像形成装置1の動作について説明する。
原稿読取部12は、本体部14の上部に配設され、原稿給送部13は、原稿読取部12の上部に配設されている。スタックトレイ50は、本体部14に形成された記録紙の排出口41側に配設され、また、操作パネル部16は、画像形成装置1のフロント側に配設されている。
プラテンガラス12bは、ガラス等の透明部材により構成された原稿台である。原稿読取スリット12cは、原稿給送部13による原稿の搬送方向と直交方向に形成されたスリットを有する。
また、原稿給送部13により搬送された原稿を読み取る場合には、スキャナー12aは、原稿読取スリット12cと対向する位置に移動され、原稿読取スリット12cを介し、原稿給送部13による原稿の搬送動作と同期して原稿を読み取って画像データ200を取得し、取得した画像データ200を本体部14に備わる制御部10に出力する。
なお、原稿給送部13は、可倒式に構成され、原稿給送部13を上方に持ち上げることで、プラテンガラス12bの上面を開放させることができる。
給紙ローラー42bによって用紙搬送路43に繰り出された記録紙は、搬送ローラー対44によって画像形成部17に搬送される。そして、画像形成部17によって記録が施された記録紙は、排出ローラー対45によってスタックトレイ50に排出される。
次に、図4を参照して、サーバー2(情報処理装置)の全体構成について説明する。
サーバー2は、制御部20、ネットワーク送受信部25、記憶部29を備えている。各部は、制御部20によって動作制御される。
なお、ネットワーク送受信部25は、外部のハブやルータ等に接続され、ネットワーク5に接続されていてもよい。
ここで、図5により、サーバー2の制御構成について説明する。
サーバー2の制御部20は、画像データ取得部100(画像データ取得手段)、文字認識部110(文字認識手段)、フォント照合部120(フォント照合手段)、文字属性データ設定部130(文字属性データ設定手段)、文字画像切換部140(文字画像切換手段)を備えている。
記憶部29は、画像データ200、文書データ210、及びフォント照合データ220を記憶する。
ネットワーク送受信部25は、画像データ200を受信し、変換された文書データ210を送信する。
画像データ取得部100は、画像形成装置1から送信され、ネットワーク5を介してネットワーク送受信部25で受信した画像データ200を取得して、記憶部29に記憶する。
この際、画像データ取得部100は、ユーザーの「ネットワークスキャン」等の指示により、印刷された文字を含む原稿を原稿読取部12でスキャンさせ、画像データ200としてサーバー2に送信させてもよい。
なお、画像データ取得部100は、画像形成装置1の操作パネル部16を操作可能なユーザーの指示により、原稿読取部12でスキャンされた画像データ200や、文書ボックス中の画像データ200を、サーバー2に送信させてもよい。
また、画像データ取得部100は、接続された記録媒体や外部の端末やサーバー等から画像データ200を取得してもよい。
文字認識部110は、例えば、画像データ200から文字が描画されている領域301を認識し、文字の線画のベクトル等を算出し、このベクトルについて、人工ニューラルネット等により、文字コードを判別する。この上で、文字認識部110は、文書データ210に、文字属性データ211として判別された文字コードを設定する。
また、文字認識部110は、例えば、光学文字認識の際に、画像データ200内で文字と認識された領域301の座標、文字の線画のベクトル等のデータについても、記憶部29に記憶してもよい。
フォント照合部120は、例えば、文字認識部110により出力された文字コードに対応するフォント照合データ220のフォントの描画データの描画領域である「バウンディングボックス」の大きさを算出して、文字サイズを推定する。フォント照合部120は、複数のフォント又は文字サイズが推定された場合、このフォント及び文字サイズのいずれか又は両方を画像比較し、類似度を算出することで照合を行う。フォント照合部120は、類似度が最も高いフォント及び文字サイズを選択する。フォント照合部120は、この選択されたフォント及び文字サイズが所定の閾値以上の類似度であった場合、このフォント及び文字サイズに該当し、照合されたと判断する。また、フォント照合部120は、所定の閾値よりも類似度が低い場合には、該当するフォント及び文字サイズがなく、照合されなかったと判断する。
文字属性データ設定部130は、例えば、文書データ210の文字属性データ211の各文字について、フォント照合部120により該当すると判断されたフォント及び文字サイズに設定する。また、文字属性データ設定部130は、この文字が閲覧や印刷される際に、画像データ200と対応する描画位置になるように設定する。このため、文字属性データ設定部130は、文字の描画位置として、描画の原点401(図8)、文字幅404、及び左サイドベアリング403を画像データ200に対応するよう設定する。なお、文字属性データ設定部130は、右、上、下等のサイドベアリングが設定されている文書データ210についても、画像データ200に対応するよう設定してもよい。
また、文字属性データ設定部130は、フォント照合部120で照合された文字に対応して算出された原点401に対応して次に文字が描画される次原点402を算出し、当該次原点402と次の文字の原点401とが一致した場合、同一の文章321(図11)内の文字として文書データ210に設定する。
これにより、文書データ210が閲覧されたり画像形成部17で出力されたりした場合に、画像データとほぼ同じ位置に文字が描画される。また、画像データ200の元になった原稿と同様の文毎に文字をまとめることができ、ユーザーの利便性が高まる。
なお、文字画像切換部140は、フォント照合部120により、フォント照合データ220に含まれる複数のフォント及び複数の文字サイズのいずれかに該当すると照合された場合は、認識された文字の描画データが文字属性データ211として文書データ210に設定されたままにしてもよい。
また、画像データ200は、RGBカラーやCMYKカラーやモノクロやグレースケールのビットマップ画像のファイルや、ランレングスやLZW等で軽度に圧縮されたファイル等であってもよい。
また、画像データ200は、サーバー2の制御部20、画像形成装置1の制御部10や画像処理部11で既にPDFやJPG(Joint Photographic Experts Group)やPNG(Portable Network Graphics)やBMP(Bitmap Image)やTIFF(Tagged Image File Format)等の形式に変換されたファイルであってもよい。
また、画像データ200は、記憶部29の文書ボックス、接続された記録媒体、外部の端末や他のサーバー等から取得された画像を含むJPGやPDF等の画像のファイルであってもよい。
また、画像データ200がPDFの場合、既に文字認識された文字属性データ211が含まれていてもよい。
また、画像データ200は、ファクシミリ受信されたJBIG等の画像のデータであってもよい。
文書データ210は、例えば、PDF、PS(PostScript(登録商標))、PDL(Page Description Language)等の電子文書や印刷データに近い形式のファイルであってもよい。また、文書データ210は、HTML(Hyper Text Markup Language)等のハイパーテキストのファイルであってもよい。また、文書データ210は、ワードプロセッサー、表計算ソフトウェア、描画ソフトウェア等の各種アプリケーション・ソフトウェア(以下「アプリケーション」という。)のファイルであってもよい。この場合、文書データ210は、例えば、「.docx(Microsoft(登録商標)Word(登録商標))」、「.xlsx(Microsoft(登録商標)Excel(登録商標))」、SVG(Scalable Vector Graphics)のファイル等であってもよい。また、文書データ210は、印刷用のページファイル等であってもよい。
なお、文書データ210は、PDFの場合、文字属性データ211と画像データ200を含んでいても、文字属性データ211のみを含んでいてもよい。
また、本実施形態においては、文書データ210がPDF又はPSである場合の例について説明する。
文字属性データ211は、文字認識部110により画像データ200が文字認識されて文書データが作成された際には、文字コードと、大まかな文字の描画位置のデータのみが含まれていてもよい。
また、文字属性データ211は、文字属性データ設定部130により、各文字のフォント及び文字サイズ、文字の描画位置等のデータが設定されてもよい。文字属性データ211は、文字の描画位置のデータとして、描画の原点401(図8)、次原点402、左サイドベアリング403、及び文字幅404等が設定されていてもよい。この際、左サイドベアリング403以外のサイドベアリング(Side Bearing)が設定されていてもよい。また、文字属性データ211は、バウンディングボックスやフォントボックス等として、文字のまとまりである文章321(図11)のような文章のデータを設定してもよい。
また、文字属性データ211は、文書データ210がPSやPDFやPDL等の場合には、フォント辞書データのオブジェクトのデータが含まれていてもよい。
フォント照合データ220は、例えば、例えば0.1ポイント刻みで作成した複数のフォントの各文字のビットマップデータを文字テーブル等として含んでいてもよい。フォント照合データ220の各フォントとして、標準的なPC、画像形成装置1の自社製の機器、印刷物用の標準フォント等が含まれていてもよい。また、フォント照合データ220の文字サイズとして、画像データ200のdpi(dot per inch)等に対応して、例えば、8ポイント〜96ポイント等のサイズのデータが含まれていてもよい。また、フォント照合データ220は、各フォントの各文字サイズについて、ボールド、イタリック、下線、網掛け等の文字修飾が行われた際のデータが含まれていてもよい。また、フォント照合データ220は、各フォント、各文字サイズについて、文字テーブルの文字毎に、文字が描画されるバウンディングボックスの座標を含んでいてもよい。
なお、フォント照合データ220は、ビットマップデータではなく、複数のフォントのベクトル(線画)データであってもよい。この場合、画像データ200の領域について、文字サイズを変更したビットマップを各々描画して比較を行ってもよい。
また、上述のサーバー2の各部は、本発明のプログラムを実行するハードウェア資源となる。
次に、図6〜図11により、本発明の実施の形態に係る画像形成装置1による画像ファイル化処理の説明を行う。
本実施形態の画像ファイル化処理では、まず、画像データ200を取得して、光学文字認識を行い、文書データ210を作成する。そして、この光学文字認識により出力された文字コードにより、画像データ200の文字と認識された領域301が、どのフォントのどの文字サイズで出力されたものであるか照合する。照合できた文字の箇所については、文書データ210の文字の描画位置を補正して、画像データ200の元になった文書と同様の文字情報を書き込む。この際、描画の原点、文字幅、及びサイドベアリングを設定する。照合できなかった箇所については、文書データ210の文字を削除して、ベクトルの描画データに置き換える。
本実施形態の画像ファイル化処理は、主に制御部20が、記憶部29に記憶されたプログラムを、各部と協働し、ハードウェア資源を用いて実行する。
以下で、図6のフローチャートを参照して、画像ファイル化処理の詳細をステップ毎に説明する。
まず、制御部20が、画像データ取得部100として、画像データ取得処理を行う。
また、制御部20は、ネットワーク送受信部25を介して、画像形成装置1等から画像データ200を取得して、記憶部29に記憶する。
また、制御部20は、画像データ200に対応する文書データ210のファイルも作成する。この時点では、文書データ210には、まだ文字が設定されていないものの、画像データ200に含まれる画像がコピーされていてもよい。
なお、制御部20は、画像形成装置1にネットワーク5経由でリモートスキャンのコマンドを送信して、文字の印刷された原稿を原稿読取部12でスキャンさせてもよい。この場合、画像形成装置1の制御部10は、スキャンされた画像データ200を、サーバー2へ送信する。この際、制御部10は、本等の見開き原稿の場合は、端部を変形する等の処理を行ってもよい。また、制御部10は、画像のゴミを除去したり、モアレを除去したり、画像のシャープネスを上げたり、DPI変換する処理を行ったりしてもよい。また、制御部10は、これらの画像処理について、画像処理部11のGPU等で高速化して行ってもよい。
また、制御部20は、図示しない記録媒体、外部の端末やサーバー等から画像データ200を取得して、記憶部29に記憶してもよい。
また、制御部20は、画像形成装置1の図示しないFAX送受信部で受信した画像データ200を取得して、記憶部29に記憶してもよい。
また、制御部20は、取得した画像データ200を、特定の形式のデータに変換してもよい。
次に、制御部20が、文字認識部110として、文字認識処理を行う。
図7(a)によると、制御部20は、画像データ200内で文字が描画された箇所を検索し、この検索された箇所について一文字毎に文字認識を行う。制御部20は、認識された文字の文字描画領域311のようなデータを文字属性データ211に含めて、文書データ210に設定する。
図7(b)によると、文字描画領域311は、文書データ210内で大まかに画像データ200と同じ位置で閲覧又は印刷される位置となるような描画位置が設定されている。文字描画領域311は、例えば、文書データ210がPSやPDFやPDL等の場合、文字描画領域311の原点とUTF8等のエンコード形式の文字コードを含むフォントボックス410の集合体として定義されていてもよい。
この時点での文字描画領域311は、各フォントボックス410の原点400と、デフォルト(既定)のフォントのみ設定されていてもよい。よって、この時点の文字描画領域311の描画データを描画すると、画像データ200の元になった原稿とは異なった描画結果となる。
また、制御部20は、文字以外の図形等を認識してもよい。また、画像データ200に既に文字認識された文字属性データ211が含まれていた場合、この文字認識処理をスキップすることも可能である。
次に、制御部20が、フォント照合部120として文字サイズ推定処理を行う。
図8(a)によると、本処理〜ステップS104の一致フォント算出処理において、制御部20は、OCRされた各文字について、フォントの種類及び文字サイズを算出する。また、制御部20は、文字毎の描画領域であるバウンディングボックス411、フォントの描画の原点401、次の文字の原点である次原点402、文字描画における左側の余白である左サイドベアリング403、文字幅404等の描画データを設定する。この際、制御部20は、原点401、文字幅404、及び左サイドベアリング403を、画像データ200と一致する座標になるよう算出する。このため、まず、本処理において、制御部20は、文字サイズを推定する。
図8(b)によると、制御部20は、フォント照合データ220のうち、上述の文字認識処理で算出された画像データ200の文字と認識された領域301の各文字の領域302の大きさと、各文字サイズにおける各フォントのバウンディングボックスの大きさ等を比較して文字サイズを推定する。制御部20は、この比較の際、バウンディングボックス411に対応して実際に文字が描画される座標の大きさを考慮して、領域302の大きさと比較する。また、この際、制御部20は、文字修飾が行われた際のデータのバウンディングボックスについても比較する。加えて、制御部20は、画像データ200自体の大きさ、dpi、解像度等の情報についても比較の際に参照してもよい。
制御部20は、比較によりバウンディングボックスの大きさが一致したものを、フォントの種類、文字サイズと推定する。この際、複数のフォント及び複数の文字サイズが推定されてもよい。制御部20は、推定されたフォントの種類、文字サイズを記憶部29に一時的に記憶する。
なお、制御部20は、検索する際に、上述の文字認識処理により算出された文字描画領域311のFontBBox情報等について、文字サイズを参照して比較してもよい。
次に、制御部20が、フォント照合部120として、複数のフォント及び複数の文字サイズが推定されたか否かについて判定する。制御部20は、上述の文字サイズ推定処理で、複数のフォントの種類又は文字サイズが推定された場合、Yesと判定する。制御部20は、それ以外の場合、つまりフォントの種類並びに文字サイズが一致したものが一つだけ推定され、又は一致したものがなかった場合、Noと判定する。
Yesの場合、制御部20は、処理をステップS104に進める。
Noの場合、制御部20は、処理をステップS105に進める。
複数のフォントの種類又は文字サイズが推定された場合、制御部20が、フォント照合部120として、一致フォント算出処理を行う。
図8(c)によると、制御部20は複数のフォントの種類又は文字サイズの各ビットマップ画像と、領域302内の実際の文字の画像とを比較して、一番一致しているものを検索する照合を行う。制御部20は、この比較として、例えば、上下左右8〜192ドット等のウィンドウを設定し、動的プログラミング等を用いて、各ピクセルの暗点の明度の類似度を算出してもよい。この際、制御部20は、印刷された原稿では文字の輪郭が太くなる傾向がある等の印刷条件を配慮した類似度を算出したり、白黒2値に変更してビット加算等を用いて高速に類似度を算出したりしてもよい。制御部20は、例えば、このような類似度が最も高くなったものを一番近い画像として選択してもよい。また、制御部20は、この際のウィンドウ上の座標を算出してもよい。
制御部20は、選択された一番近い画像のフォント、ウィンドウ上の座標、類似度等を記憶部29に一時的に記憶する。
このように、複数のフォントの種類又は文字サイズが算出された場合のみ、文字が一致するかどうか比較を行うことで、高速にフォント及び文字サイズの検索を行うことができる。
ここで、制御部20が、フォント照合部120として、照合に成功したか否かを判定する。制御部20は、例えば、上述の文字サイズ推定処理でフォントの種類並びに文字サイズが一致したものが一つだけ推定された場合、又は、上述の一致フォント算出処理で類似度が所定の閾値以上であった場合に、認識された文字が、フォント照合データ220内のいずれかのフォント及び文字サイズに該当する、つまり照合に成功したと判断し、Yesと判定する。制御部20は、それ以外の場合、例えば、文字サイズ推定処理でフォントの種類並びに文字サイズとして一致したものが算出されなかった場合、又は、一致フォント算出処理で類似度が所定の閾値未満であった場合等に、該当するフォント及び文字サイズがなかった、つまり照合に失敗したとして、Noと判定する。
Yesの場合、制御部20は、処理をステップS106に進める。
Noの場合、制御部20は、処理をステップS110に進める。
照合に成功した場合、制御部20は、文字属性データ設定部130として、原点算出処理を行う。
図9によると、制御部20は、推定されたフォント及び文字サイズを使用して、領域302内の実際の文字の画像とを比較して、一番一致する座標を算出し、この座標に基づいて原点401を算出する。この比較は、例えば、上下左右8〜192ドット等のウィンドウを設定し、動的プログラミング等を用いて、各ピクセルの暗点の明度の類似度を算出して、最も一致する座標を算出してもよい。この際、制御部20は、上述の一致フォント算出処理と同様に、印刷条件を配慮した類似度を算出したり、白黒2値に変更してビット加算等を用いて高速に類似度を算出したりしてもよい。また、制御部20は、この際に、次原点402(図8)についても、原点401に基づいて算出してもよい。
なお、制御部20は、例えば、上述の照合処理のウィンドウ上の座標と、画像データ200の文字と認識された領域301の座標とから、この描画位置を算出してもよい。また、制御部20は、この文字が描画された際に、画像データ200の領域301の画像と実際に重なるか否かを確認して類似度を算出してもよい。
次に、制御部20は、文字属性データ設定部130として、文字描画位置補正設定処理を行う。
制御部20は、上述の原点算出処理で算出した原点401を指定して、文字サイズ推定処理又は一致フォント算出処理のフォントと文字サイズとを指定して、文書データ210に文字属性データ211を設定する。
この際、制御部20は、例えば、文書データ210のフォント並びに文字サイズ、及びフォントの描画位置を変更する。制御部20は、文書データ210がPSやPDFやPDL等であった場合、文字属性データ211として、類似度が閾値以上になったフォント及び文字サイズのフォント辞書を登録し、描画位置を「書き出し位置」の情報として設定する。制御部20は、ここでは、算出された画像データ200上の正確な描画位置に対応するよう、文書データ210の文字属性データ211中の文字の描画位置の設定を行う。制御部20は、例えば、図8(a)で示したような、バウンディングボックス411、フォントの描画の原点401、次の文字の原点である次原点402、左サイドベアリング403、文字幅404等の描画データを、文書データ210の文字属性データ211に設定する。
描画データ501は、例えば、フォントとして「type3」を指定し、グリフ座標系とフォント境界を指定した例である。
描画データ502は、文字コードを文字名に変換する配列の定義の例である。この例では、コード「80」が「P」と変換される。
描画データ503は、グリフ記述(ベクトル化文字)格納用の辞書の例である。
描画データ504は、グリフ作成手続きの指定を示すコードの例である。このコードでは、文字境界、辞書の取得等を示している。
描画データ505は、文字描画に必要なフォント辞書取得、フォントサイズ指定、位置指定、文字表示等を示すコードの例である。
次に、制御部20が、文字属性データ設定部130として、原点401と次原点402とが一致する文字があるか否かについて判定する。制御部20は、文書データ210に設定された文字属性データ211内に複数の文字があった場合、隣り合う文字について、原点401と次原点402との距離が所定の閾値以下であるか否かを判別する。制御部20は、このような閾値以下の文字ペアがあった場合、Yesと判定する。つまり、制御部20は、照合された文字に対応して算出された原点401に対応して算出された次原点402と、次の文字の原点401とが一致した場合、Yesと判定する。制御部20は、図11の例では、「gakpylp」の文字のそれぞれの前の文字の次原点402と、次の文字の原点401とが一致しているため、Yesと判定する。制御部20は、それ以外の場合は、Noと判定する。
Yesの場合、制御部20は、処理をステップS109に進める。
Noの場合、制御部20は、画像ファイル化処理を終了する。
文字属性データ211内に隣り合う文字について、原点401と次原点402とが一致するものがあった場合、制御部20が、文字属性データ設定部130として、同一文章設定処理を行う。
図11によると、前の文字の次原点402と、次の文字の原点401とが一致した場合は、画像データ200の元になった原稿の同一文章内の文字の可能性が高い。このため、図11の例では、制御部20は、文字属性データ211に、当該文字同士を、同一の文章321内の文字として設定する。
その後、制御部20は、画像ファイル化処理を終了する。
画像データ200の文字と認識された領域に対して、フォント及び文字サイズの照合に成功しなかった場合、制御部20は、文字画像切換部140として、文字画像切換処理を行う。
制御部20は、文字と認識された画像データ200の領域301について、文書データ210内の文字の情報を削除して、ベクトル(線画)のデータに置き換える。この置き換えのベクトルデータは、上述の文字認識処理で算出した文字の線画のベクトルのデータ等を使用してもよい。また、制御部20は、領域301の画像をそのまま文書データ210に出力してもよい。
以上により、本発明の実施の形態に係る画像ファイル化処理を終了する。
従来の文字認識を行う装置では、画像データを文書データに変換する際に、文字のフォント及び文字サイズを正確に設定することができなかった。このため、画像データを、元の原稿と同様の文書データに変換することはできなかった。
これに対して、本発明の実施の形態に係るサーバー2は、画像データ200を文書データ210に変更可能な情報処理装置であり、画像データ200を取得する画像データ取得部100と、画像データ取得部100により取得された画像データ200から文字を認識する文字認識部110と、文字認識部110により文字と認識された画像データ200の領域301について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合部120と、フォント照合部120で照合されたフォント及び文字サイズを文書データ210に設定し、文字の描画位置として、描画の原点401、文字幅404、及び左サイドベアリング403を画像データ200に対応するよう設定する文字属性データ設定部130とを備えることを特徴とする。
このように構成することで、画像データ200の元になった原稿に印刷されている文字のフォーマットを復元することが可能となる。これにより、画像データ200から文字認識した文書データ210を、各種アプリケーションのファイルと同様のファイルになるよう変換することが可能となる。つまり、元の原稿と同様の文書データ210に変換することが可能となる。
このように変換された文書データ210を対応するアプリケーションで読み込むと、文字のフォントの種類、文字サイズ、ボールド/イタリック等の文字修飾情報、文字の描画位置等を、ほぼ確実に再現することが可能となる。このため、文書データ210のフォント情報を再現することができ、各種アプリケーションで容易に文字の修正等を行うことができる。これにより、ユーザーの利便性が高まる。
特に、描画の原点401、文字幅404、及び左サイドベアリング403を設定することで、文字の位置を容易に文書データ210に設定可能となり、描画データの構造も簡潔にすることができる。このため、文書データ210の汎用性を高めることができる。
これに対して、本実施形態のサーバー2は、文字認識部110で検出した文字コードで、フォント照合データ220に含まれる全てのフォント及び文字サイズについて設定された画像テーブルと照合を行うため、作成したフォント及び文字サイズをほぼ確実に抽出することが可能となる。
また、検出した文字の画像が画像データ200と合っているか比較し、文字認識手段で文書データ210に設定された文字の描画位置を、正確な値に補正する。
このように構成することで、原稿の元となった文書をほぼ確実に再現することが可能となる。また、この変換された文書データ210は、この元となった文書と同様の状態になるよう印刷させることができる。この際、文書データ210には、文字の属性が文字属性データ211に設定されているため、スキャンに由来するボケやにじみ等が少なくなり、高品位な印刷を行うことができる。
このように構成することで、OCR等により文字が別々の文章の一部として認識されてしまった場合でも、まとまった文章として再結合することができる。このため、文書データ210から文を抽出しやすくなり、ユーザーの使い勝手がよくなる。
このように構成することで、文字認識において誤認識された箇所を検出することが可能となる。これにより、変換後の文書データ210に含まれる誤認識された文字属性データ211を削除することで、ユーザーが文書データ210を編集しやすくなり、ユーザーの利便製を高めることが可能となる。また、例えば、会社のロゴ等、図案化されたデータが混じっており、文字認識が失敗した箇所等についての、文字を削除して完全な状態の文書データ210を作成できる。
また、フォント及び文字サイズについて照合に失敗した場合であっても、文字の箇所について、ベクトルの描画データを設定することで、高品位な印刷が可能な文書データ210を取得することができる。また、文章の途中で文字認識が失敗していた場合でも、その箇所を閲覧や印刷した際の違和感を少なくすることができる。
このように構成することで、PDFに含まれる文字属性データ211のフォントや書き出し位置等の情報が正確となり、PDFから容易にスタイル対応した文字情報を抽出することが可能となる。また、PDFから、ワードプロセッサーや表計算ソフトウェア等のアプリケーションのファイルへの変換が容易となる。
しかしながら、制御部20は、先に文字サイズを推定せずに、フォント照合データ220の文字テーブルを総当たりで検索してもよい。また、フォント照合データ220として、ベクトルデータのみを記憶している場合、当該文字を一次データとして描画した際に、画像データ200の領域301と一致するピクセル数の割合等を算出して、照合を行ってもよい。また、制御部20は、GPU演算機能等を用いて、照合を高速に行ってもよい。また、制御部20は、上述の文字認識処理で作成された文字の線画のベクトル等のデータを、照合の際に利用してもよい。
このように構成することで、記憶部29の記憶容量を削減し、又は照合を高速化することが可能となる。
また、画像ファイルをワードプロセッサーの文書ファイルや表計算ソフトウェアのファイルやHTMLファイル等に変換した場合、制御部20は、修正した文字の描画位置の情報をページ単位で計算して、標準フォント、行送り、文字間隔、余白、ヘッダー/フッター等の設定についても算出し、文書データ210に設定してもよい。これにより、原稿の元となったファイルと同様のページ設定等を復元することができ、文書ファイルを修正しやすくなり、ユーザーの利便性を高めることができる。
また、サーバー2は、フォント照合部120により複数のフォント及び複数の文字サイズのいずれかと照合されなかった文字について、周囲の照合された文字と同じフォント又は文字サイズを指定して再度文字認識を行う文字再認識部を備えていてもよい。このように構成することで、文字認識の精度を高めることが可能となる。また、下線が引かれた文字等、従来の文字認識方式では認識に失敗しやすい箇所でも、確実に文字認識させることが可能になる。
また、上述の実施の形態では、先に文字認識部110が文書データ210に文字属性データ211を出力するように記載したものの、これに限られない。つまり、文字認識部110は一時データとして文字コード等を記憶部29に出力し、文字属性データ設定部130が文書データに文字コード等を設定するような構成であってもよい。
このように構成することで処理を簡略化でき、文書データ210の修正を少なくして、処理を高速化できる。
このように構成することで、画像形成装置1の制御部10、画像処理部11、及び記憶部19のコストを削減できる。また、処理を短時間で完了し、消費電力を削減することができる。
また、本実施形態の画像ファイル化処理は、画像形成装置1を用いないシステムにも
適用できる。つまり、ネットワークスキャナー、スキャナーをUSB等で別途接続したサーバー2を情報処理装置として用いる構成であってもよい。
2 サーバー
5 ネットワーク
10、20 制御部
11 画像処理部
12 原稿読取部
12a スキャナー
12b プラテンガラス
12c 原稿読取スリット
13 原稿給送部
13a 原稿載置部
13b 原稿排出部
13c 原稿搬送機構
14 本体部
15、25 ネットワーク送受信部
16 操作パネル部
17 画像形成部
17a 感光体ドラム
17b 露光部
17c 現像部
17d 転写部
17e 定着部
19、29 記憶部
41 排出口
42 給紙部
42a 給紙カセット
42b 給紙ローラー
43 用紙搬送路
44 搬送ローラー対
45 排出ローラー対
50 スタックトレイ
100 画像データ取得部
110 文字認識部
120 フォント照合部
130 文字属性データ設定部
140 文字画像切換部
200 画像データ
210 文書データ
211 文字属性データ
220 フォント照合データ
301、302 領域
311 文字描画領域
321 文章
400、401 原点
402 次原点
403 左サイドベアリング
404 文字幅
410 フォントボックス
411 バウンディングボックス
420 文字
501、502、503、504、505 描画データ
X 画像形成システム
Claims (4)
- 画像データを文書データに変更可能な情報処理装置において、
前記画像データから文字を認識する文字認識手段と、
該文字認識手段により文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合手段と、
該フォント照合手段で照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置として、描画の原点、文字幅、及びサイドベアリングを前記画像データに対応するよう設定する文字属性データ設定手段とを備える
ことを特徴とする情報処理装置。 - 前記文字属性データ設定手段は、前記フォント照合手段で照合された文字に対応して算出された原点に対応して次に文字が描画される次原点を算出し、当該次原点と次の文字の原点とが一致した場合、同一の文章内の文字として前記文書データに設定する
ことを特徴とする請求項1に記載の情報処理装置。 - 画像形成装置において入力された画像データと、該画像データを文書データに変更するサーバーとを備えた情報処理システムにおいて、
前記サーバーは、
前記画像データを前記画像形成装置から取得する画像データ取得手段と、
該画像データ取得手段により取得された画像データから文字を認識する文字認識手段と、
該文字認識手段により文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合するフォント照合手段と、
該フォント照合手段で照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置として、描画の原点、文字幅、及びサイドベアリングを前記画像データに対応するよう設定する文字属性データ設定手段とを備える
ことを特徴とする情報処理システム。 - 画像データを文書データに変更可能な情報処理装置により実行されるプログラムにおいて、
前記画像データから文字を認識させ、
文字と認識された前記画像データの領域について、認識された文字が複数のフォント及び複数の文字サイズのいずれに該当するか照合させ、
照合されたフォント及び文字サイズを前記文書データに設定し、文字の描画位置として、描画の原点、文字幅、及びサイドベアリングを前記画像データに対応するよう設定させる
ことを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014072104A JP6158736B2 (ja) | 2014-03-31 | 2014-03-31 | 情報処理装置、情報処理システム、及び情報処理プログラム |
CN201510111871.5A CN104954605B (zh) | 2014-03-31 | 2015-03-13 | 图像形成装置、图像形成***以及图像形成方法 |
US14/665,015 US9514394B2 (en) | 2014-03-31 | 2015-03-23 | Image forming apparatus capable of changing image data into document data, an image forming system, and an image forming method |
EP15161595.2A EP2927843B1 (en) | 2014-03-31 | 2015-03-30 | An image forming apparatus and system, and an image forming method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014072104A JP6158736B2 (ja) | 2014-03-31 | 2014-03-31 | 情報処理装置、情報処理システム、及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015194873A true JP2015194873A (ja) | 2015-11-05 |
JP6158736B2 JP6158736B2 (ja) | 2017-07-05 |
Family
ID=54433836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014072104A Expired - Fee Related JP6158736B2 (ja) | 2014-03-31 | 2014-03-31 | 情報処理装置、情報処理システム、及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6158736B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019091434A (ja) * | 2017-11-14 | 2019-06-13 | アドビ インコーポレイテッド | 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT201700031648A1 (it) | 2017-03-22 | 2018-09-22 | Piaggio & C Spa | Cambio di trasmissione per un motoveicolo e relativo motoveicolo che comprende detto cambio di trasmissione |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262317A (ja) * | 1994-03-18 | 1995-10-13 | Ricoh Co Ltd | 文書処理装置 |
-
2014
- 2014-03-31 JP JP2014072104A patent/JP6158736B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262317A (ja) * | 1994-03-18 | 1995-10-13 | Ricoh Co Ltd | 文書処理装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019091434A (ja) * | 2017-11-14 | 2019-06-13 | アドビ インコーポレイテッド | 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善 |
JP7073241B2 (ja) | 2017-11-14 | 2022-05-23 | アドビ インコーポレイテッド | 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善 |
Also Published As
Publication number | Publication date |
---|---|
JP6158736B2 (ja) | 2017-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2927843B1 (en) | An image forming apparatus and system, and an image forming method | |
US8126270B2 (en) | Image processing apparatus and image processing method for performing region segmentation processing | |
US11216695B2 (en) | Image processing system and image processing method | |
US20080050019A1 (en) | Image processing apparatus, and computer program product | |
JP2007174270A (ja) | 画像処理装置、画像処理方法、記憶媒体、プログラム | |
US9659018B2 (en) | File name producing apparatus that produces file name of image | |
US8179558B2 (en) | Image processing apparatus, image processing method, program and storage medium constructed to generate print data including a bitmap image and attribute data of each pixel of the bitmap image | |
US11212397B1 (en) | Image reading system, image forming system, and image reading method for dividing each area into blockchains | |
US8238664B2 (en) | Image processing apparatus, control method therefor, and recording medium | |
US8199967B2 (en) | Image processing apparatus, image processing method, and storage medium | |
US11146705B2 (en) | Character recognition device, method of generating document file, and storage medium | |
JP6158736B2 (ja) | 情報処理装置、情報処理システム、及び情報処理プログラム | |
US10764448B1 (en) | Information processing apparatus and image forming apparatus performing file conversion of handwriting comment and comment extraction method | |
US8259313B2 (en) | Image processing apparatus, method, and computer-readable medium storing the program thereof | |
JP6269256B2 (ja) | 情報処理装置、画像形成装置、情報処理方法、及び情報処理プログラム | |
US20210097271A1 (en) | Character recognition using previous recognition result of similar character | |
US11212419B1 (en) | Image reading system, image forming system, and image reading method that perform image processing for each area | |
US11134171B1 (en) | Image reading apparatus, image forming apparatus, and image reading method that perform image processing for each area | |
JP2015177265A (ja) | 画像処理装置、画像処理システム、情報記憶方法およびプログラム | |
US11615278B2 (en) | Image processing apparatus, image forming apparatus, and image processing method that performs analysis image processing during normal image processing | |
JP7404836B2 (ja) | 情報処理装置及び画像形成装置 | |
US20230419713A1 (en) | Information processing apparatus, image forming apparatus, and information processing method for automatically ordering page | |
US20230419707A1 (en) | Information processing apparatus, image forming apparatus, and information processing method for automatically dividing page data | |
US20230419708A1 (en) | Information processing apparatus, image forming apparatus, and information processing method for automatically dividing page data based on the history | |
US10623598B2 (en) | Image processing apparatus and non-transitory computer readable medium for extracting and connecting inherent regions of multiple pages of document data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6158736 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |