JP2018200645A - 文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法 - Google Patents

文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法 Download PDF

Info

Publication number
JP2018200645A
JP2018200645A JP2017106002A JP2017106002A JP2018200645A JP 2018200645 A JP2018200645 A JP 2018200645A JP 2017106002 A JP2017106002 A JP 2017106002A JP 2017106002 A JP2017106002 A JP 2017106002A JP 2018200645 A JP2018200645 A JP 2018200645A
Authority
JP
Japan
Prior art keywords
data
document data
character string
document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017106002A
Other languages
English (en)
Other versions
JP6617751B2 (ja
Inventor
龍太 土井
Ryuta Doi
龍太 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2017106002A priority Critical patent/JP6617751B2/ja
Publication of JP2018200645A publication Critical patent/JP2018200645A/ja
Application granted granted Critical
Publication of JP6617751B2 publication Critical patent/JP6617751B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】文書作成者に多くの手間負担を強いることなく、情報源からデータを取得して、文書データに当該取得したデータを挿し込み可能にする。【解決手段】文書データにデータを挿し込む文書データ加工装置としての画像形成装置1は、文書データにおいて文字列を検出する文字列検出部102と、文書データにおいて、データを挿し込む挿込領域を検出する挿込領域検出部103と、検出された文字列の中から、予め定められた見出し語を見つけて当該見出し語に続く文字列を検索ワードとして抽出する検索ワード抽出部104と、抽出された検索ワードで情報源を検索して情報源から文書データに挿し込む挿込データを取得するデータ取得部105と、文書データにおいて、検出された挿込領域に取得された挿込データを挿し込んで配置する文書体裁決定部106とを備える。【選択図】図2

Description

本発明は、文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法に関し、特に、文書データにデータを挿し込む技術に関する。
画像読み取り機能を備えた画像形成装置による画像検出技術が知られている。例えば、下記特許文献1には、原稿を示す画像データにマーカーが含まれるか否かを判定し、マーカーが含まれる場合には当該マーカーに示された画像を削除したり、単一色の画像で置き換えたりする画像形成装置が開示されている。
特開2005−167875号公報
例えば、招待状や案内状等の文書には、店のURL(Uniform Resource Locator)、店の場所を表す地図やその他の画像が挿し込まれている。そのような文書を新規に作成するか、或いは、既存の文書を編集する際には、文書作成者は、ローカルディスク又はクラウド等の情報源から適切なURLや地図等のデータを取得して、文書における適切な領域に、当該取得したデータを挿し込んで配置する必要がある。しかしながら、そのようなデータ取得及びデータを挿し込む際の体裁調整作業は、文書作成者に多くの手間負担を強いるため、より簡単に招待状や案内状等を新規作成可能、又は編集可能とすることが求められる。
本発明は、上記の事情に鑑みてなされたものであり、文書作成者に多くの手間負担を強いることなく、情報源からデータを取得して、文書データに当該取得したデータを挿し込み可能にすることを目的とする。
本発明の一局面に係る文書データ加工装置は、文書データにデータを挿し込む文書データ加工装置であって、前記文書データにおいて、前記文書データに挿し込むデータに関連する文字列を検出する文字列検出部と、前記文書データにおいて、データを挿し込む挿込領域を検出する挿込領域検出部と、前記文字列検出部によって検出された文字列の中から、予め定められた見出し語を見つけて当該見出し語に続く文字列を検索ワードとして抽出する検索ワード抽出部と、前記抽出部によって抽出された検索ワードに基づいて情報源を検索して、前記情報源から前記文書データに挿し込むデータを取得するデータ取得部と、前記文書データにおける前記検出された挿込領域に、前記データ取得部によって取得されたデータを挿し込む文書体裁決定部と、を備えたものである。
本発明の一局面に係る文書データ加工プログラムは、文書データから文字列を検出する文字列検出部と、前記文書データにおいて、データを挿し込む挿込領域を検出する挿込領域検出部と、前記文字列検出部によって検出された文字列の中から、予め定められた見出し語を検出し、当該見出し語に続く文字列を検索ワードとして抽出する検索ワード抽出部と、前記検索ワード抽出部によって抽出された検索ワードを用いて情報源を検索し、前記情報源から、前記文書データに挿し込む挿込データを取得するデータ取得部と、前記文書データにおける前記挿込領域に、前記データ取得部によって取得された挿込データを挿し込む文書体裁決定部として、コンピューターを機能させるものである。
本発明の一局面に係る文書データ加工方法は、加工対象とする文書データにデータを挿し込む文書データ加工方法であって、前記文書データから文字列を検出する文字列検出ステップと、前記文書データにおいて、データを挿し込む挿込領域を検出する挿込領域検出ステップと、前記文字列検出ステップで検出された文字列の中から、予め定められた見出し語を検出し、当該見出し語に続く文字列を検索ワードとして抽出する検索ワード抽出ステップと、前記検索ワード抽出ステップで抽出された検索ワードを用いて情報源を検索し、前記情報源から、前記文書データに挿し込む挿込データを取得するデータ取得ステップと、前記文書データにおける前記挿込領域に、前記データ取得ステップで取得された挿込データを挿し込んで配置する文書体裁決定ステップと、を有するものである。
本発明によれば、文書作成者に多くの手間負担を強いることなく、情報源からデータを取得して、文書データに当該取得したデータを挿し込むことが可能になる。
本発明の一実施形態に係る文書データ加工装置の一例としての画像形成装置の外観を示す斜視図である。 本発明の一実施形態に係る文書データ加工装置の一例としての画像形成装置の内部構成を示すブロック図である。 文書データにマーキングを示す画像がある場合における画像形成装置1による文書データ加工処理の流れを示すフローチャートである。 加工される文書データ(マーキングを示す画像あり)の一例を示す図である。 加工後の文書データの一例を示す図である。 文書データにマーキングを示す画像がない場合における画像形成装置1による文書データ加工処理の流れを示すフローチャートである。 加工される文書データ(マーキングを示す画像なし)の一例を示す図である。
本発明の一実施形態に係る文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法を説明する。まず、当該文書データ加工装置の一例としての画像形成装置について図面を参照して説明する。図1は、画像形成装置の外観を示す斜視図である。図2は、画像形成装置の内部構成を示すブロック図である。
画像形成装置1は、ファクシミリ通信機能、コピー機能、プリンター機能、及びスキャナー機能等の複数の機能を兼ね備えた複合機である。図1に示すように、画像形成装置1は、装置本体2と、装置本体2の上方に配置された画像読取部10と、画像読取部10と装置本体2との間に設けられた連結部3とから概略構成される。
画像読取部10は、原稿搬送部11と、原稿搬送部11により搬送されてくる原稿又は不図示のコンタクトガラスに載置された原稿を光学的に読み取るスキャナーとを有するADF(Auto Document Feeder)である。画像読取部10は、原稿を1枚ずつ読み取ることで加工対象及び画像形成対象となる画像データを取得する。
装置本体2の内部には、画像形成部20、給紙部30、画像メモリー40、記憶部50、及び通信部60等が収容されている。
画像メモリー40は、画像読取部10によって読み取られた画像データを一時的に記憶する領域である。文書データとは、ワードプロセッサー及び表計算ソフト等のアプリケーション用のドキュメント、PDF(登録商標)のドキュメント、又はBMP,JPEG等のイメージデータ等である。本実施形態においては、画像読取部10により取得されて画像メモリー40に記憶される画像データを、当該文書データの一例として説明する。
画像形成部20は、画像メモリー40に記憶されている画像データを読み出し、当該データを用いて給紙部30から供給される用紙に画像を形成(印刷)する。印刷済みの用紙は、排出トレイ4に排出される。
記憶部50は、HDD(Hard Disk Drive)等の大容量の記憶装置である。なお、記憶部50の一領域に後述する学習データベース51が配置されている。学習データベース51は、画像形成装置1により加工された文書データ及び後述する特徴抽出部108により抽出された特徴を記憶するデータベースである。
通信部60は、不図示のLANチップ等の通信モジュールを備える通信インターフェイスである。画像形成装置1は、ネットワークを介してクラウド200と接続されている。クラウド200は多数のサーバー装置やストレージ装置等から構成され、様々なデータを保有している。画像形成装置1は、通信部60を通じてクラウド200との間で様々なデータや情報をやり取りすることができる。
装置本体2の前面側には、表示部70及び操作部80が配置されている。表示部70は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(OLED:Organic Light-Emitting Diode)ディスプレイを含んで構成される。表示部70には、例えば、画像読取部10の動作を指示するための操作画面等が表示される。
操作部80は、例えば、印刷ジョブ等の実行を指示するためのスタートキー、操作画面を構成するGUI(Graphical User Interface)に対して確定操作を行う決定キー(エンターキー)、数値入力を行うための数値入力キー等を備え、表示部70に表示される画面に対する操作をユーザーから受け付ける。
画像形成装置1は、更に、制御ユニット100を備えている。制御ユニット100は、プロセッサー、RAM(Random Access Memory)、ROM(Read Only Memory)、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばCPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、MPU(Micro Processing Unit)等である。
制御ユニット100は、上記のROM又は記憶部50に記憶された情報処理プログラム等の制御プログラムが上記のプロセッサーにより実行されることにより、制御部101、文字列検出部102、挿込領域検出部103、検索ワード抽出部104、データ取得部105、文書体裁決定部106、マーキング除去部107、及び特徴抽出部108として機能する。なお、制御ユニット100の上記の各部は、前述の制御プログラムに基づく動作によらず、それぞれハード回路により構成されてもよい。
制御部101は、画像形成装置1の全体的な動作制御を司る。制御部101は、画像読取部10、画像形成部20、給紙部30、画像メモリー40、記憶部50、通信部60、表示部70、及び操作部80等と接続されており、接続されている上記各機構の動作制御や、各機構との間での信号又はデータの送受信を行う。
文字列検出部102は、文書データを画像解析して、文書データに含まれる文字列を検出する。具体的には、文字列検出部102は、OCR(Optical Character Recognition)を利用して文書データに含まれる文字列を示す画像をキャラクター化することで、文字列をテキストデータとして検出する。
文字列検出部102は、文書データにおける特定箇所が、予め定められた色でマーキングされている場合、文書データにおける当該マーキング領域を検出し、当該検出した領域内に存在する文字列を検出する。具体的には、文字列検出部102は、当該マーキング領域において文書データの地色及びマーキング色以外の画素からなる部分を文字列の検出対象とする。
一方、文字列検出部102は、文書データにおいて予め定められた色でマーキングがされていない場合には、学習データベース51を参照して、学習データベース51に記憶された過去の文書データにおける特徴から、加工対象の文書データにおいてユーザーが指定すると想定される領域に存在する文字列を検出する。
挿込領域検出部103は、文書データを画像解析して、文書データにおいて、挿込データを挿し込んで配置する挿込領域を検出する。例えば、挿込領域検出部103は、文書データにおいて予め定められた色からなる線の画像が存在する場合、当該色からなる線の画像で囲まれた領域を検出し、当該領域内における文書データの地色からなる空白領域を、データを挿し込む挿込領域として検出する。
一方、文書データにおいて予め定められた色からなる線の画像が存在しない場合には、挿込領域検出部103は、学習データベース51を参照して、学習データベース51に記憶された過去の文書データにおける特徴から、加工対象の文書データにおいてユーザーが指定すると予想される領域を検出し、当該検出した領域を、データを挿し込む挿込領域として検出する。
検索ワード抽出部104は、文字列検出部102により検出された文字列の中から、予め定められた見出し語を検出し、当該見出し語に続く文字列を、予め定められた規則に従って検索ワードとして抽出する。予め定められた見出し語とは、場所を示す語、例えば「場所」「住所」「店名」「開催地」「集合」等の語である。見出し語に続く文字列とは、店名を示す文字列、或いは、場所や住所、開催地、所在地等を示す「大阪市中区中町1−1−1」等の文字列である。予め定められた規則とは、例えば、(i)見出し語が「店名」の場合、当該「店名」の後に続く文字列であって、次にスペースが出現するまでの文字群、(ii)見出し語が「場所」「住所」「開催地」「集合」の場合、当該各語の後に続く文字列であって、住所を示す規則性(都道府県、市町村、及び番地等により構成される一群の文字)を有する文字群、である。
データ取得部105は、検索ワード抽出部104により抽出された検索ワードを用いて情報源を検索し、当該情報源から、上記文書データに挿し込んで配置する挿込データを取得する。例えば、記憶部50やクラウド200が情報源となる。文書データに挿し込む挿込データは、例えば、地図画像等の画像データや店のURL等である。データ取得部105は、記憶部50の情報源や、Google(登録商標)等の検索エンジンを利用してクラウド200等の情報源から、画像データやURL等を取得する。
文書体裁決定部106は、文書データにおいて、挿込領域検出部103により検出された領域に、データ取得部105により取得されたデータを挿し込んで配置する処理を行う。文書体裁決定部106は、データ取得部105により取得された画像データが挿込領域検出部103により検出された領域よりも大きい場合、当該取得された画像データの大きさを調整して、具体的には、当該画像データをトリミング及び/又は縮小して当該領域に挿し込んで配置する、という処理を行う。
マーキング除去部107は、挿込領域検出部103により検出された領域にデータ取得部105により取得されたデータが挿し込まれた文書データから、上記の予め定められた色からなるマーキング及び領域枠を示す画像を除去する。文書データに予め定められた色からなるマーキング及び領域枠を示す画像は、文書データに挿し込む挿込データに関連する文字列及びデータを挿し込む挿込領域を示す便宜的なものであるため、データ挿し込み後の文書データにおいてそのようなマーキング及び領域枠はないことが好ましい。そこで、文書体裁決定部106による上記挿込領域への挿込データの挿込処理後に、マーキング除去部107は、上記マーキング及び領域枠を示す画像を除去する。
特徴抽出部108は、文書データにおいて、文字列検出部102により検出された文字列、及び挿込領域検出部103により検出された挿込領域の特徴を抽出する。特徴抽出部108は、文書体裁決定部106による挿込処理後の文書データとともに、上記抽出した特徴を示す情報を学習データベース51に記憶させる。例えば、特徴抽出部108は、文書体裁決定部106による挿込処理後の文書データにおいて、マーキングされた文字列、検索ワード、挿込データ、挿込領域の大きさ及び位置、マーキングされた文字列と挿込領域との位置関係等を、その文書データの特徴として抽出して、挿込処理後の当該文書データと共に、学習データベース51に記憶させる。
これにより、学習データベース51に記憶されている上記特徴を示す情報の量、すなわち学習データ量が増えるにつれ、過去の情報が示す傾向に基づいて画像形成装置1がユーザーの好みを学習することになり、例えば、画像形成装置1は、ユーザーによる指示なしに、マーキングや領域枠を示す画像がない文書データから、検索ワード抽出部が検索ワードを抽出し、挿込領域検出部103が挿込領域を検出することが可能になる。
次に、画像形成装置1による文書データ加工処理について、文書データにマーキングがある場合とない場合とに分けて説明する。
まず、文書データにマーキングを示す画像がある場合における画像形成装置1による文書データ加工処理について説明する。図3は、文書データにマーキングを示す画像がある場合における画像形成装置1による文書データ加工処理の流れを示すフローチャートである。図4は、加工される文書データ(マーキングを示す画像あり)の一例を示す図である。
例えば、図4に示すように、文書データ300において、「場所・・・」(なお、「・・・」は場所を特定する文字列であるとする)という文字列に、予め定められた色(例えば、赤色)からなるマーキングの画像であるマーキング301があり、そのすぐ下の余白部分が当該予め定められた色と同色からなる線を示す画像で囲まれた領域302が形成されている。
まず、文字列検出部102が、文書データにおいて上記予め定められた色を示す画素値を有する画素により構成される領域を検出することにより、文書データにおいて予め定められた色でマーキングがされた部分を検出し、そのマーキング部分に含まれる文字列を検出する(S1)。図4の例では、マーキング301がされた領域の中に存在する文字列「場所・・・」が検出される。
続いて、挿込領域検出部103が、文書データにおいて上記予め定められた色で囲まれた領域を検出し、当該領域内における文書データの地色からなる空白領域を、データを挿し込む挿込領域として検出する(S2)。図4の例では、領域302が挿込領域検出部103により挿込領域として検出される。
上記のようにしてマーキングされた領域における文字列と挿込領域とが検出されると、検索ワード抽出部104が、当該文字列の中から、予め定められた見出し語を検出し、更に当該見出し語に続く文字列を、予め定められた規則(上記(i)(ii)の両方とする)に従って検索ワードとして抽出する(S3)。図4の例では、検索ワード抽出部104により、文字列「場所:」が見出し語として検出され、それに続く文字列「・・・」が検索ワードとして抽出される。
検索ワードが抽出されると、データ取得部105が、抽出された検索ワードで上述した情報源を検索して、当該情報源から文書データに挿し込む挿込データ(例えば、上記検索ワードに対応する地図画像や店のURL等)を取得する(S4)。図4の例では、データ取得部105により、文字列「・・・」が住所を示す情報であるものとし、当該住所を示す文字列を検索ワードとして、Googleマップ等の地図検索サービスサイトが検索され、該当する地図画像が取得される。
文書データに挿し込むデータが取得されると、文書体裁決定部106は、S2で検出された挿込領域の大きさに、S4で取得された挿込データの大きさが収まるか否かを判定し、収まると判定した場合には(S5でYES)、文書データにおいて、S2で検出された挿込領域に、S4で取得された挿込データを挿し込んで配置する(S6)。
一方、文書体裁決定部106は、S2で検出された挿込領域の大きさに、S4で取得された挿込データの大きさが収まらないと判定した場合には(S5でNO)、文書体裁決定部106は、S2で検出された挿込領域に収まるように、S4で取得された挿込データの縮小又はトリミングを行い(S9)、S2で検出された挿込領域に、S8で縮小又はトリミングされた挿込データを挿し込んで配置する(S6)。
データが挿し込まれると、マーキング除去部107が、文書データから上記予め定められた色からなるマーキング及び領域枠の画像を除去する(S7)。図4の例では、マーキング301を示す画像及び領域302を囲む線を示す画像がマーキング除去部107により除去される。
図5は、挿込領域への挿込データ挿込処理後の文書データの一例を示す図である。挿込データの挿込処理後の文書データ300では、図4に示した挿込処理前の文書データ300にあったマーキング301を示す画像及び領域302を囲む枠を示す画像が除去され、領域302に地図画像304が挿し込まれている。
文書データへの上記挿込処理が終わると、特徴抽出部108が、文書データについて、S2で検出された検出文字列、検索ワード、挿込データ、そして、挿込領域の大きさ及び位置、当該検出文字列と挿込領域との位置関係等を、当該文書データの特徴を示す情報として、当該文書データとともに学習データベース51に記憶させる(S8)。ここでの記憶内容(学習結果)は、後述する、文書データにマーキングを示す画像がないときに文書データに挿込データを差し込む処理を行う場合に用いられる。
上記実施形態によれば、文書データ加工装置としての画像形成装置1によれば、文書データにおいてユーザーが指示した領域にユーザーが所望するデータが挿し込まれる。これにより、文書データの新規作成或いは過去の文書データを編集して新たな文書データを作成する作業が容易になる。従って、文書作成者であるユーザーに多くの手間負担を強いることなく、情報源からデータを取得して、文書データに当該取得したデータを挿し込むことが可能になる。
次に、文書データにマーキングを示す画像がない場合における画像形成装置1による文書データ加工処理について説明する。図6は、文書データにマーキングを示す画像がない場合における画像形成装置1による文書データ加工処理の流れを示すフローチャートである。図7は、加工される文書データ(マーキングを示す画像なし)の一例を示す図である。
例えば、図7に示すように、文書データ300において、「場所・・・」(なお、「・・・」は場所を特定する文字列であるとする)という文字列のすぐ下に空白領域305がある。
まず、文字列検出部102が、今回の加工処理対象とされている文書データ全体の文字列を検出し、当該検出した文字列の中から、更に学習データベース51を参照して、学習データベース51に記憶されている過去の各文書データについての特徴を示す情報から、今回の加工処理対象とされている文書データにおいてユーザーによりマーキングにより指定されると予想される文字列を検出する(S21)。例えば、今回文字列検出部102は、学習データベース51に最も多く記憶されている検出文字列が、今回文書データ全体から検出した文字列の中に存在するかを判断し、当該検出文字列が存在する場合には、当該検出文字列を、検索ワードを抽出するために用いる文字列(検出文字列)として判定する。学習データベース51に最も多く記憶されている検出文字列が「場所・・・」である場合、図7の例でいえば、ユーザーによりマーキングにより指定されると予想される文字列として、「場所・・・」の文字列308が文字列検出部102により検出される。
続いて、挿込領域検出部103が、学習データベース51を参照して、学習データベース51に記憶されている過去の各文書データについての特徴を示す情報から、今回の加工処理対象とされている文書データにおいてユーザーが指定すると予想される挿込領域を検出する(S22)。例えば、挿込領域検出部103が、今回の加工処理対象とされている文書データを構成する各画素の画素値から空白となる領域を形成する画素群、すなわち空白領域を検出し、学習データベース51を参照したときに、学習データベース51に最も多く記憶されている、マーキングされた文字列と挿込領域との位置関係が、挿込領域が検出文字列の直後(検出文字列に続く真下の位置)であることを示している場合には、当該検出した空白領域が、S21でマーキングにより指定されると予想される文字列として検出された文字列の直後に位置していれば、当該空白領域を挿込領域として検出する。図7に示す例でいえば、検出文字列としての「場所・・・」の文字列308の直後となる位置にある空白領域305が挿込領域として検出される。
なお、挿込領域検出部103は、文字列検出部102により文書データに「ここ」、「挿し込み」、「画像挿し込み」等の文字列が検出されている場合、文書体裁決定部106は、当該文字列の直後に空白領域が位置していれば、当該空白領域を挿込領域として検出するようにしてもよい。
ユーザーが指定すると想定される上記文字列及び挿込領域が検出されると、検索ワード抽出部104が、S21で検出された上記文字列の中から見出し語を検出し、検出した当該見出し語に続く文字列を検索ワードとして抽出する(S23)。図7の例でいえば、「場所・・・」が上記文字列(検出文字列)として検出されている場合、検索ワード抽出部104は、学習データベース51を参照して、上記文字列(検出文字列)が「場所・・・」である場合に最も多く見出し語とされている文字列が「場所」であれば、当該「場所」を見出し語として検出し、当該見出し語に続く文字列「・・・」を検索ワードとして抽出する。
検索ワードが抽出されると、データ取得部105が、抽出された検索ワードで上記情報源を検索して、当該情報源から文書データに挿し込む挿込データを取得する(S24)。
続いて、文書体裁決定部106は、S22で検出された挿込領域の大きさに、S24で取得された挿込データの大きさが収まるか否かを判定し、収まると判定した場合には(S26でYES)、今回の加工処理の対象とされている文書データにおいて、S22で検出された挿込領域に、S24で取得された挿込データを挿し込んで配置する(S27)。
一方、文書体裁決定部106は、S22で検出された挿込領域の大きさに、S24で取得された挿込データの大きさが収まらないと判定した場合には(S26でNO)、文書体裁決定部106は、S22で検出された挿込領域に収まるように、S24で取得された挿込データの縮小又はトリミングを行い(S29)、S24で検出された挿込領域に、S29で縮小又はトリミングされた挿込データを挿し込んで配置する(S27)。なお、図7の例において空白領域305がS26でYESとされる場合、検索ワード「・・・」に対応する挿込データである例えば地図画像が空白領域305に挿し込まれる。この結果、例えば、図5に示した例と同様の文書データが得られる。
文書データの加工が終わると、特徴抽出部108が、文書データについて、S21で検出された検出文字列、S23で抽出された検索ワード、S24で取得された挿込データ、そして、S22で検出された挿込領域、当該挿込領域の大きさ及び位置、当該検出文字列と挿込領域との位置関係等を、当該文書データの特徴を示す情報として、当該文書データとともに学習データベース51に記憶させる(S28)。当該学習データベース51での記憶内容は、今後実行される文書データ加工処理において用いられる。
本実施形態によれば、文書データに予め定められた色でマーキングや枠囲みがされていなくても、過去の事例から、文書データにおいてユーザーが指示すると予想される領域に、ユーザーが所望すると想定されるデータが挿し込まれる。これにより、文書データの新規作成、或いは過去の文書データを編集して新たな文書データを作成する作業が容易になる。
<その他の変形例>
上記の実施の形態では、文書データ加工装置の一例として画像形成装置を示したが本発明は必ずしもこの場合に限定されない。本発明の一実施形態に係る文書データ加工装置は、画像形成装置の他に、例えば、スキャナー装置やファクシミリ機、或いはコンピューター等に適応することができる。
また、本発明の一実施形態に係る文書データ加工装置により加工される文書データは、画像読取部10により取得されて画像メモリー40に記憶されている画像データの他に、記憶部50に記憶されている文書データや通信部60を通じて図略のPCやサーバー装置から取得した文書データ等でもよい。
また、データ取得部105は、文書データの配布対象者の範囲及び店の使用頻度に応じて地図画像の縮尺を変更する又は地図画像に代えてURLを取得してもよい。例えば、文書データの配布対象者が職場内の同僚だけの場合には、データ取得部105は、職場から店までの比較的狭い範囲の地図画像を取得するが、文書データの配布対象者が広域に散らばっている場合には、広域の地図画像を取得するようにしてもよい。また、文書データの配布対象者が誰でも知っている行きつけの店の場合には、データ取得部105は、詳細な地図画像に代えて略地図又は単にURLを取得するようにしてもよい。
また、上記の実施の形態で説明した制御プログラムをコンピューター読み取り可能な非一時的な記録媒体、例えば、ハードディスク、CD-ROM、DVD-ROM、半導体メモリー等に記録されたものとしてもよい。この場合、当該制御プログラムを記録したコンピューター読み取り可能な非一時的な記録媒体が、本発明の一実施形態となる。
また、上記実施形態では、図1乃至図7を用いて上記実施形態により示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。
1 画像形成装置(文書データ加工装置)
51 学習データベース
102 文字列検出部
103 挿込領域検出部
104 検索ワード抽出部
105 データ取得部
106 文書体裁決定部
107 マーキング除去部
108 特徴抽出部
200 クラウド(情報源)

Claims (9)

  1. 加工対象とする文書データにデータを挿し込む文書データ加工装置であって、
    前記文書データから文字列を検出する文字列検出部と、
    前記文書データにおいて、データを挿し込む挿込領域を検出する挿込領域検出部と、
    前記文字列検出部によって検出された文字列の中から、予め定められた見出し語を検出し、当該見出し語に続く文字列を検索ワードとして抽出する検索ワード抽出部と、
    前記検索ワード抽出部によって抽出された検索ワードを用いて情報源を検索し、前記情報源から、前記文書データに挿し込む挿込データを取得するデータ取得部と、
    前記文書データにおける前記挿込領域に、前記データ取得部によって取得された挿込データを挿し込んで配置する文書体裁決定部と、を備えた文書データ加工装置。
  2. 前記文字列検出部は、前記文書データにおいて予め定められた色でマーキングされた領域に存在する文字列のみを検出し、
    前記挿込領域検出部は、前記文書データにおいて前記予め定められた色の画像で囲まれた領域を検出し、当該領域内における前記文書データの地色からなる空白領域を、前記挿込領域として検出する請求項1に記載の文書データ加工装置。
  3. 前記検出された挿込領域に前記取得されたデータが挿し込まれた文書データから、前記予め定められた色からなるマーキング及び領域枠を示す画像を除去するマーキング除去部を備えた請求項2に記載の文書データ加工装置。
  4. 前記文書データにおいて前記検出された文字列及び前記検出された挿込領域の特徴を抽出する特徴抽出部と、
    前記文書体裁決定部による挿込処理後の文書データとともに、前記抽出された特徴を示す情報を記憶する学習データベースとを備え、
    前記文字列検出部は、前記学習データベースを参照して、前記学習データベースに記憶されている前記特徴を示す情報から、前記文書データにおいてユーザーが指定すると予想される文字列を検出し、
    前記挿込領域検出部は、前記学習データベースを参照して、前記学習データベースに記憶されている前記特徴を示す情報から、前記文書データにおいてユーザーが指定すると予想される挿込領域を検出する請求項2に記載の文書データ加工装置。
  5. 前記検索ワード抽出部は、前記予め定められた見出し語として、場所を示す語を見出し語として検出し、当該検出した見出し語に続く当該場所の名称又はその所在地を示す文字列を検索ワードとして抽出し、
    前記データ取得部は、前記文書データに挿し込むデータとして、前記検索ワードが示す名称に対応するURL、又は前記所在地を示す地図画像を取得する請求項1乃至請求項4のいずれかに記載の文書データ加工装置。
  6. 前記文書データの配布対象者の範囲及び前記場所の使用頻度を示す情報が入力される操作部と、
    前記文書体裁決定部は、前記操作部に入力された前記配布対象者の範囲及び前記使用頻度を示す情報を用いて、前記地図画像の縮尺の変更処理、又は前記地図画像に代えてURLを取得する選択処理の少なくとも一方を行う請求項5に記載の文書データ加工装置。
  7. 前記文書体裁決定部は、前記取得された画像データが前記挿込領域よりも大きい場合、前記取得された画像データをトリミング及び/又は縮小して前記挿込領域に挿し込む請求項1乃至請求項4のいずれかに記載の文書データ加工装置。
  8. 文書データから文字列を検出する文字列検出部と、
    前記文書データにおいて、データを挿し込む挿込領域を検出する挿込領域検出部と、
    前記文字列検出部によって検出された文字列の中から、予め定められた見出し語を検出し、当該見出し語に続く文字列を検索ワードとして抽出する検索ワード抽出部と、
    前記検索ワード抽出部によって抽出された検索ワードを用いて情報源を検索し、前記情報源から、前記文書データに挿し込む挿込データを取得するデータ取得部と、
    前記文書データにおける前記挿込領域に、前記データ取得部によって取得された挿込データを挿し込む文書体裁決定部として、コンピューターを機能させる文書データ加工プログラム。
  9. 加工対象とする文書データにデータを挿し込む文書データ加工方法であって、
    前記文書データから文字列を検出する文字列検出ステップと、
    前記文書データにおいて、データを挿し込む挿込領域を検出する挿込領域検出ステップと、
    前記文字列検出ステップで検出された文字列の中から、予め定められた見出し語を検出し、当該見出し語に続く文字列を検索ワードとして抽出する検索ワード抽出ステップと、
    前記検索ワード抽出ステップで抽出された検索ワードを用いて情報源を検索し、前記情報源から、前記文書データに挿し込む挿込データを取得するデータ取得ステップと、
    前記文書データにおける前記挿込領域に、前記データ取得ステップで取得された挿込データを挿し込んで配置する文書体裁決定ステップと、を有する文書データ加工方法。
JP2017106002A 2017-05-29 2017-05-29 文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法 Active JP6617751B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017106002A JP6617751B2 (ja) 2017-05-29 2017-05-29 文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017106002A JP6617751B2 (ja) 2017-05-29 2017-05-29 文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法

Publications (2)

Publication Number Publication Date
JP2018200645A true JP2018200645A (ja) 2018-12-20
JP6617751B2 JP6617751B2 (ja) 2019-12-11

Family

ID=64668291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017106002A Active JP6617751B2 (ja) 2017-05-29 2017-05-29 文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法

Country Status (1)

Country Link
JP (1) JP6617751B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154951A (ja) * 2019-03-22 2020-09-24 大日本印刷株式会社 フォント選定装置及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60222270A (ja) * 1984-04-20 1985-11-06 Hitachi Ltd 表デ−タ差込み印刷装置
JP2002197403A (ja) * 2000-12-26 2002-07-12 Nec Corp Webコンテンツの可読性評価システム、Webコンテンツの配色支援システム、その方法、記録媒体
JP2006092208A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 差込処理装置、差込処理方法および差込処理プログラム
US20100332970A1 (en) * 2009-06-29 2010-12-30 Hon Fu Jin Precision Industry (Shenzhen) Co., Ltd. System and method for creating an electronic document
JP2012033124A (ja) * 2010-08-03 2012-02-16 Musashi Eng Co Ltd 投票用紙分類装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60222270A (ja) * 1984-04-20 1985-11-06 Hitachi Ltd 表デ−タ差込み印刷装置
JP2002197403A (ja) * 2000-12-26 2002-07-12 Nec Corp Webコンテンツの可読性評価システム、Webコンテンツの配色支援システム、その方法、記録媒体
JP2006092208A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 差込処理装置、差込処理方法および差込処理プログラム
US20100332970A1 (en) * 2009-06-29 2010-12-30 Hon Fu Jin Precision Industry (Shenzhen) Co., Ltd. System and method for creating an electronic document
JP2012033124A (ja) * 2010-08-03 2012-02-16 Musashi Eng Co Ltd 投票用紙分類装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154951A (ja) * 2019-03-22 2020-09-24 大日本印刷株式会社 フォント選定装置及びプログラム
JP7287038B2 (ja) 2019-03-22 2023-06-06 大日本印刷株式会社 フォント選定装置及びプログラム

Also Published As

Publication number Publication date
JP6617751B2 (ja) 2019-12-11

Similar Documents

Publication Publication Date Title
US9454696B2 (en) Dynamically generating table of contents for printable or scanned content
US8634100B2 (en) Image forming apparatus for detecting index data of document data, and control method and program product for the same
JP2009122760A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP2011165187A (ja) ドキュメントを表示する方法およびシステム
US9641705B2 (en) Image forming apparatus for reading indicia on a sheet and inserting images on a subsequent printed sheet at a location corresponding to the location of the read indicia
JP2007049388A (ja) 画像処理装置及びその制御方法、プログラム
JP2008146605A (ja) 画像処理装置及びその制御方法
JP2008022159A (ja) 文書処理装置及び文書処理方法
JP2007141159A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
US20150304510A1 (en) Electronic document generation system and recording medium
JP6617751B2 (ja) 文書データ加工装置、文書データ加工プログラム、及び文書データ加工方法
JP2007005950A (ja) 画像処理装置及びネットワークシステム
CN111580758B (zh) 图像形成装置
JP2008276677A (ja) 文字認識支援装置、文字認識装置及びプログラム
JP2006093917A (ja) 画像読取装置および画像処理装置、画像形成装置
CN108875570B (zh) 信息处理装置、存储介质和信息处理方法
JP2006261759A (ja) スキャナシステムおよびスキャンデータ保存方法
JP6593259B2 (ja) 電子機器
US9380173B2 (en) Information processing apparatus and computer-readable non-transitory recording medium with image processing program stored thereon
JP5885569B2 (ja) 画像処理装置および画像処理プログラム
US20170249301A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2007011683A (ja) 文書管理支援装置
JP7271987B2 (ja) 情報処理装置及びプログラム
JP6205973B2 (ja) 変更履歴出力装置、プログラム
JP2010072850A (ja) 画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191028

R150 Certificate of patent or registration of utility model

Ref document number: 6617751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150