JP2013142955A - Document processing device and program - Google Patents
Document processing device and program Download PDFInfo
- Publication number
- JP2013142955A JP2013142955A JP2012001984A JP2012001984A JP2013142955A JP 2013142955 A JP2013142955 A JP 2013142955A JP 2012001984 A JP2012001984 A JP 2012001984A JP 2012001984 A JP2012001984 A JP 2012001984A JP 2013142955 A JP2013142955 A JP 2013142955A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification rule
- unit
- feature extraction
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書処理装置及びプログラムに関する。 The present invention relates to a document processing apparatus and a program.
特許文献1は、画像データベースにおいて、新たな画像と近似するか又は一致する画像を好適に検索し、また、ひいて、画像データベースにおける二重登録を防止するために、これから登録する画像に対して、領域分割処理を実行し、分割した領域の数が一致する登録画像を検索し、また、必要により、画像間の距離に基づく絞り込みを行い、最終的に一致又は近似する登録画像がある場合には、新たに登録しない画像処理装置について開示している。
特許文献2は、文書間の類似性に基づいて文書分類をおこなう際、操作者の意図を反映する文書分類をおこなうために、一つまたは複数の項目から構成された文書データを入力する入力部と、入力された文書データを構成する前記項目を指定する指定部と、指定された項目に対応するデータのみの内容となるように前記文書データを変換する変換部と、変換された変換データをもちいて文書を分類する分類部とを備える文書分類装置について開示している。 Patent Document 2 discloses an input unit that inputs document data composed of one or more items in order to perform document classification that reflects the operator's intention when performing document classification based on similarity between documents. A designation unit for designating the item constituting the input document data, a conversion unit for converting the document data so that only the data corresponding to the designated item is included, and the converted conversion data A document classification apparatus including a classification unit that classifies documents is disclosed.
特許文献3は、画像データの特性を示す画像特徴量を計算する特徴量計算手段と、ユーザにより選択された機能の入力を受け付ける入力受付手段と、前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースと、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記事例データベースに蓄積された前記事例集合を用いて最適な機能を予測する最適機能予測手段と、を備えることを特徴とするデータ処理装置について開示している。 Patent Document 3 discloses a feature quantity calculation unit that calculates an image feature quantity indicating characteristics of image data, an input reception unit that receives an input of a function selected by a user, and the image data calculated by the feature quantity calculation unit. A case database that is a database that stores a case set including the image feature amount and a function selected by the user via the input receiving means, and the image feature amount calculated by the feature amount calculation means And an optimum function predicting means for predicting an optimum function using the case set stored in the case database.
特許文献4は、帳票の辞書登録操作においてオペレータの作業量を低減し、帳票の識別操作において高精度な識別を実現するシステムを提供するために、スキャナから読んだ帳票のディジタル画像を帳票の傾き補正と帳票周囲の余白除去を行った上で画像メモリに格納する画像入力部と、画像メモリにあるディジタル画像から帳票のサイズを検出すると共に文字パターンを文字列単位で検出して文字列単位で特徴量へ変換して特徴メモリに保持する特徴抽出部と、入力する帳票のフォーマットを登録する場合には特徴メモリにある複数組みの文字列の特徴量から各組共通の特徴量を抽出して辞書メモリに登録する共通特徴抽出部と、入力する帳票のフォーマットの識別を行う場合には特徴メモリにある処理対照の帳票の文字列の特徴量と辞書メモリにある帳票毎の文字列の特徴量とを照合する照合部とを有する構成について開示している。 Patent Document 4 discloses that a digital image of a form read from a scanner is tilted in order to reduce the amount of operator work in a form dictionary registration operation and provide a system that realizes highly accurate identification in form identification operation. After correcting and removing the margins around the form, the image input unit stores it in the image memory, and detects the size of the form from the digital image in the image memory and also detects the character pattern in character string units. When registering the feature extraction unit that converts to feature values and stores them in the feature memory, and when registering the format of the form to be input, the feature values common to each set are extracted from the feature values of multiple sets of character strings in the feature memory. If the common feature extraction unit to be registered in the dictionary memory and the format of the input form are identified, the feature amount and dictionary of the character string of the processing form in the feature memory It discloses a structure and a collation unit that collates the feature amount of a character string for each document in the memory.
本発明の目的は、文書の分類処理を効率的に行なうことができる文書処理装置及びプログラムを提供することである。 An object of the present invention is to provide a document processing apparatus and program capable of efficiently performing document classification processing.
[文書処理装置]
請求項1に係る本発明は、文書に含まれる特徴を抽出する特徴抽出手段と、前記特徴抽出手段により抽出された特徴に基づいて、文書を分類する分類規則を生成する分類規則生成手段と、前記分類規則生成手段が生成した分類規則を提示する分類規則提示手段とを有する文書処理装置である。
[Document Processing Device]
The present invention according to
請求項2に係る本発明は、前記特徴抽出手段は、文書に含まれる文字を抽出する第1の特徴抽出部と文書に含まれる画像についての情報を抽出する第2の特徴抽出部とを備え、前記分類規則生成手段は、前記特徴抽出手段の第1の特徴抽出部が抽出した文字と前記特徴抽出手段の第2の特徴抽出部が抽出した画像についての情報とを組み合わせて分類規則を生成する請求項1記載の文書処理装置である。
According to a second aspect of the present invention, the feature extraction unit includes a first feature extraction unit that extracts characters included in the document, and a second feature extraction unit that extracts information about an image included in the document. The classification rule generation unit generates a classification rule by combining the character extracted by the first feature extraction unit of the feature extraction unit and the information about the image extracted by the second feature extraction unit of the feature extraction unit. The document processing apparatus according to
請求項3に係る本発明は、前記特徴抽出手段の第2の特徴抽出部は、文書に含まれる画像についての情報として、写真、図形、表又は符号化物のうち少なくとも1つについての情報を抽出する請求項2記載の文書処理装置である。 According to a third aspect of the present invention, the second feature extraction unit of the feature extraction unit extracts information about at least one of a photograph, a figure, a table, or an encoded product as information about an image included in the document. The document processing apparatus according to claim 2.
請求項4に係る本発明は、前記特徴抽出手段の第2の特徴抽出部は、文書に含まれる画像についての情報として、画像の大きさ、画像の位置又は画像の数のうち少なくとも1つについて抽出する請求項2又は3記載の文書処理装置である。 According to a fourth aspect of the present invention, the second feature extraction unit of the feature extraction means uses at least one of the size of the image, the position of the image, or the number of images as information about the image included in the document. 4. A document processing apparatus according to claim 2 or 3 for extraction.
請求項5に係る本発明は、前記分類規則提示手段が提示した分類規則を登録する分類規則登録手段をさらに有する請求項1乃至4いずれか記載の文書処理装置である。
The present invention according to claim 5 is the document processing apparatus according to any one of
請求項6に係る本発明は、前記分類規則提示手段が提示した分類規則に対しての編集を受付ける編集受付手段をさらに有し、前記分類規則登録手段は、前記編集受付手段が受付けた編集がなされた分類規則を登録する請求項5記載の文書処理装置である。 The present invention according to claim 6 further includes an edit accepting unit that accepts an edit to the classification rule presented by the classification rule presenting unit, and the classification rule registering unit receives the edit accepted by the edit accepting unit. The document processing apparatus according to claim 5, wherein the classification rule made is registered.
請求項7に係る本発明は、文書を受付ける文書受付手段と、前記分類規則登録手段により登録された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段とをさらに有する請求項5又は6記載の文書処理装置である。 The present invention according to claim 7 further includes document accepting means for accepting a document, and classification means for classifying the document accepted by the document accepting means based on the classification rule registered by the classification rule registering means. A document processing apparatus according to claim 5 or 6.
請求項8に係る本発明は、文書を読み取る読取手段をさらに有し、前記分類規則生成手段は、前記読取手段による読み取り条件と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項1乃至7いずれか記載の文書処理装置である。
The present invention according to claim 8 further includes reading means for reading a document, and the classification rule generation means determines a classification rule based on a reading condition by the reading means and a feature extracted by the feature extraction means. The document processing apparatus according to
請求項9に係る本発明は、文字情報の入力を受付ける文字情報受付手段をさらに有し、前記分類規則生成手段は、前記文字情報受付手段が受付けた文字情報と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項1乃至8いずれか記載の文書処理装置である。
The present invention according to claim 9 further includes character information accepting means for accepting input of character information, and the classification rule generating means is extracted by the character information accepted by the character information accepting means and the feature extracting means. 9. The document processing apparatus according to
請求項10に係る本発明は、文書が予め定めた種別のうちいずれに該当するかを特定する文書種別特定手段をさらに有し、前記分類規則生成手段は、前記文書種別特定手段により特定された文書の種別と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項1乃至9いずれか記載の文書処理装置である。
The present invention according to
[プログラム]
請求項11に係る本発明は、文書に含まれる特徴を抽出するステップと、抽出された特徴に基づいて、文書を分類する分類規則を生成するステップと、生成した分類規則を提示するステップとをコンピュータに実行させるプログラムである。
[program]
The present invention according to claim 11 includes a step of extracting features included in the document, a step of generating a classification rule for classifying the document based on the extracted features, and a step of presenting the generated classification rule. A program to be executed by a computer.
請求項1に係る本発明によれば、本構成を有していない場合と比べ、文書の分類処理を効率的に行なうことができる文書処理装置を提供することができる。 According to the first aspect of the present invention, it is possible to provide a document processing apparatus capable of performing document classification processing more efficiently than in the case where the present configuration is not provided.
請求項2に係る本発明によれば、請求項1に係る発明の効果に加え、文書に含まれる文字と画像とに基づいて文書の分類処理を行なうことができる文書処理装置を提供することができる。 According to the second aspect of the present invention, in addition to the effect of the first aspect of the invention, it is possible to provide a document processing apparatus that can perform document classification processing based on characters and images included in a document. it can.
請求項3に係る本発明によれば、請求項2に係る発明の効果に加え、文書に含まれる写真、図形、表又は符号化物に基づいて文書の分類処理を行なうことができる文書処理装置を提供することができる。 According to the present invention of claim 3, in addition to the effect of the invention of claim 2, there is provided a document processing apparatus capable of performing document classification processing based on a photograph, a figure, a table, or an encoded product included in a document. Can be provided.
請求項4に係る本発明によれば、請求項2又は3に係る発明の効果に加え、文書に含まれる画像の大きさ、位置、又は数に基づいて文書の分類処理を行なうことができる文書処理装置を提供することができる。 According to the fourth aspect of the present invention, in addition to the effect of the second or third aspect, the document can be classified based on the size, position, or number of images included in the document. A processing device can be provided.
請求項5に係る本発明によれば、請求項1乃至4に係る発明の効果に加え、本構成を有していない場合に比べ、文書の分類を行なう際に、操作者による分類規則の作成の手間を少なくすることができる文書処理装置を提供することができる。
According to the present invention of claim 5, in addition to the effects of the inventions of
請求項6に係る本発明によれば、請求項5に係る本発明の効果に加え、本構成を有していない場合に比べ、容易に所望の分類規則を作成し登録することができる文書処理装置を提供することができる。 According to the sixth aspect of the present invention, in addition to the effect of the present invention according to the fifth aspect, compared to a case where the present configuration is not provided, a document processing that can easily create and register a desired classification rule. An apparatus can be provided.
請求項7に係る本発明によれば、請求項5又は6に係る本発明の効果に加え、本構成を有しない場合に比べて容易に文書の分類を行うことができる文書処理装置を提供することができる。 According to the seventh aspect of the present invention, in addition to the effect of the present invention according to the fifth or sixth aspect, a document processing apparatus capable of easily classifying documents as compared with the case without the present configuration is provided. be able to.
請求項8に係る本発明によれば、請求項1乃至7に係る本発明の効果に加え、読取条件を反映させた分類規則を生成することができる文書処理装置を提供することができる。
According to the present invention of claim 8, in addition to the effects of the present invention of
請求項9に係る本発明によれば、請求項1乃至8に係る本発明の効果に加え、操作者の要求を反映させた分類規則を生成することができる文書処理装置を提供することができる。
According to the present invention of claim 9, in addition to the effects of the present invention of
請求項10に係る本発明によれば、請求項1乃至9に係る本発明の効果に加え、文書の種別に応じた分類規則を生成することができる文書処理装置を提供することができる。 According to the tenth aspect of the present invention, in addition to the effects of the present invention according to the first to ninth aspects, it is possible to provide a document processing apparatus capable of generating a classification rule according to the type of document.
請求項11に係る本発明によれば、本構成を有していない場合と比べ、文書の分類処理を効率的に行なうことができるプログラムを提供することができる。 According to the present invention of claim 11, it is possible to provide a program capable of efficiently performing document classification processing as compared with the case where the present configuration is not provided.
以下、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る文書処理装置の一例である画像形成装置10を示す断面図である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a cross-sectional view showing an
画像形成装置10は、印刷装置12及び読取装置14を有し、印刷装置12は、例えば3段の記録媒体供給カセット16を有し、これら記録媒体供給カセット16のそれぞれには供給ヘッド18が設けられている。
The
記録媒体供給カセット16の一つが選択されると、供給ヘッド18が作動して選択された記録媒体供給カセット16から記録媒体供給路20を介して画像形成部22に供給される。
When one of the recording
また、画像形成装置10は、ファクシミリ機能(図示せず)を有してもよい。
Further, the
画像形成部22は、イエロー、マゼンタ、シアン及びブラックの各感光体24が併設されていると共に、中間転写ベルト26が設けられている。
The
各感光体24の周囲には、帯電装置、露光装置、現像装置、一次転写装置及びクリーニング装置など(図示せず)が配置され、各感光体24に形成されたトナー像が中間転写ベルト26に転写される。白黒設定された場合は、ブラックのみが作動可能であるようにされる。
A charging device, an exposure device, a developing device, a primary transfer device, a cleaning device, and the like (not shown) are arranged around each
中間転写ベルト26のトナー像は、二次転写ロール28により、送られてきた記録媒体に転写され、定着装置30により定着され、このトナー像が定着された記録媒体が記録媒体排出路32を通って排出部34に排出される。
The toner image on the
ただし、両面印刷が設定された場合は、定着装置30により表面が定着された記録媒体は、記録媒体排出路32から反転装置36に送られ、この反転装置36で反転され、記録媒体反転路38に送られ、再び記録媒体供給路20に戻され、画像形成部22に送られて裏面の印刷がなされる。
However, when duplex printing is set, the recording medium whose surface has been fixed by the fixing
読取装置14は、両面原稿の読み取りが可能な自動原稿送り装置40を有し、この自動原稿送り装置40により原稿はプラテン42に送られ、このプラテン42上でCCD等からなる読取部44により原稿が読み取られる。また、読取装置14は、操作者によりプラテン42に置かれた原稿を読取部44にて読み取ってもよい。
The
自動原稿送り装置40に原稿がセットされたか否かを検出する原稿セット検出器46が設けられている。また、自動原稿送り装置40はプラテンカバーを兼ねており、このプラテンカバーを開けることにより原稿をプラテン42上に置くことができる。このプラテンカバーの開閉は、プラテンカバー開閉検出器48により検出できるようになっている。
A document set
読取装置14は、読み取り条件を後述する分類規則生成部82に出力する。ここで、読み取り条件とは、例えば、カラーによる読み取りを行なう設定か、白黒(2階調)による読み取りを行なう設定か、文字のみの原稿用の読み取りを行なう設定か、文字と図形とを含む原稿用の読み取りを行なう設定か、といったように読み取り処理における設定が含まれる。なお、文字とは文字又は文字列をいう。また、読み取り条件には、例えば、自動原稿送り装置40による複数枚の連続する原稿の読み取りがなされたという情報など、読み取った原稿に関わる情報も含まれる。
The
ユーザインターフェース装置50(以下「UI装置50」)は、画像形成装置10と一体に、又はネットワークを介して設けられる。また、UI装置50は、例えばタッチパネルなどからなり、操作者からの画像形成装置10への処理内容についての指示を入力として受け付け、又は情報を表示することができるように構成されている。
The user interface device 50 (hereinafter “
また、この画像形成装置10は、公衆回線へ接続されたファクシミリ用のモデムと、LAN等のネットワークに接続されるネットワーク通信装置が設けられている。画像形成装置10に設けられたネットワーク通信装置を用いることで、読取装置14により読み取った画像をネットワークに接続された端末に送信することができる。また、画像形成装置10は、ネットワーク通信装置を介して、ネットワークに接続された端末からデータを受付ける。
The
図2は、画像形成装置10のハードウェア構成を示すブロック図である。
FIG. 2 is a block diagram illustrating a hardware configuration of the
図2に示すように、画像形成装置10は、図1のUI装置50とともに、CPU52、メモリ54、入出力インターフェース56、スキャンインターフェース58、プリントインターフェース60、ネットワーク通信インターフェース62、ファクシミリ用のモデムインターフェース64、及び記憶装置66がバス接続された構成となっている。
As shown in FIG. 2, the
つまり、画像形成装置10は、情報処理及び他の装置との通信が可能なコンピュータとしての構成部分を有している。
That is, the
CPU52は、メモリ54又は記憶装置66に書き込まれた後述する情報処理プログラム70を実行することにより、各回路を制御する。UI装置50を介して受け付けられた入力はCPU52に伝達され、CPU52からの表示情報がUI装置50に伝達するようにしてある。
The
なお、CPU52は、CDROM等の記憶媒体に格納された情報処理プログラム70を実行してもよく、又はネットワーク通信インターフェース62を介して提供される情報処理プログラム70を実行してもよい。
The
入出力インターフェース56には、図1の原稿セット検出器46からの原稿セット検出信号と、図1のプラテンカバー開閉検出器48からのプラテンカバー開閉信号が入力される。
A document set detection signal from the document set
スキャンインターフェース58は、図1の読取装置14に接続され、プリントインターフェース60は、図1の印刷装置12に接続されている。
The
ネットワーク通信インターフェース62は、画像形成装置10に設けられたネットワーク通信装置に接続され、モデムインターフェース64は、画像形成装置10に設けられたファクシミリ用モデムに接続されている。
The
また、バスには記憶装置66が接続されており、例えばネットワークに接続された端末から送信された画像を、画像形成装置10に設けられた記憶装置66に記憶することができる。
Further, a
図3は、画像形成装置10において動作する情報処理プログラム70を示すブロック図である。図3に示すように、情報処理プログラム70は、文書受付部72、オブジェクト分離部74、特徴抽出部76、文書種別特定部78、文書種別格納部80、分類規則生成部82、規則雛形格納部84、文字情報受付部86、分類規則提示部88、分類規則登録部90、分類規則格納部92、編集受付部94及び分類部96から構成される。
FIG. 3 is a block diagram showing an information processing program 70 that operates in the
文書受付部72は、画像形成装置10へ入力された文書を受付ける。本実施形態では、文書受付部72は、読取装置14により読み取った文書又はネットワークに接続された端末から送られた文書を受付ける。なお、文書とは、情報が記述されたデータをいい、文字を含むデータ以外にも、文字を含まない図面又は写真なども含まれる。また、本実施形態の説明において、「文字」とは、文字又は文字列を意味する。文書受付部72は、受付けた文書をオブジェクト分離部74へ出力する。
The
オブジェクト分離部74は、文書を文書中のオブジェクトごとに分離して、特徴抽出部76へ出力する。ここで、オブジェクトとは、文書の内容を構成する物のことをいい、文字と画像とに大別され、画像には、表、写真、符号化物、図などが含まれる。なお、符号化物とは、符号化された情報の画像をいい、例えばバーコード、QRコードが該当する。本実施形態の特徴抽出部76は、文書を文字領域、画像領域(具体的には、表領域、写真領域、及び符号化物領域)に分離し、分離した各領域のデータを特徴抽出部76へ出力する。
The
特徴抽出部76は、文書に含まれる特徴を抽出する。本実施形態の特徴抽出部76は、オブジェクト分離部74により分離された文書中の各領域のデータについて、それぞれ特徴を抽出する。また、特徴抽出部76は、文書の分類規則を生成する場合には、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力し、文書の分類を行なう場合には、抽出した特徴を分類部96へ出力する。なお、特徴抽出部76の詳細な構成については、後述する。
The
文書種別特定部78は、文書から抽出された特徴に基づいて、当該文書が予め定めた文書の種類のうちいずれに該当するかを特定する。本実施形態では、文書種別特定部78は、文書種別格納部80に記憶されている文書種別ごとの特徴と、特徴抽出部76により抽出された特徴とを比較し、文書種別を特定する。文書種別特定部78は、特定した文書種別を分類規則生成部82へ通知する。
The document
文書種別格納部80は、予め定めた文書種別ごとに、文書種別と当該文書種別に共通する特徴とを対応付けて記憶する。本実施形態における文書種別格納部80は、文書種別と当該文書種別に共通する特徴とをテーブルとして格納する。
The document
文書種別格納部80は、例えば、文書種別として、「申請書」文書、「図面」文書、「写真」文書、「バーコード付き書類」文書、「説明書」文書、「稟議書」文書、「教育用書類」文書などといった予め定めた文書種別それぞれに対し、当該文書種別の特徴を対応付けて記憶する。
The document
文書種別格納部80が記憶する特徴は、特徴抽出部76により抽出される特徴のうち各文書種別に特有のものであり、例えば、文書種別「申請書」については、文書中の題目(タイトル)位置に「申請書」という文字があることを特徴として記憶する。また、例えば、文書種別「写真」については文書中に写真があることを特徴として記憶し、文書種別「バーコード付き書類」については文書中にバーコードがあることを特徴として記憶する。
The features stored in the document
なお、文書種別格納部80は、文書種別ごとに1つの特徴ではなく、複数の特徴を組み合わせたものを記憶してもよい。例えば、文書種別「申請書」について、文書中の題目位置に「申請書」という文字があり、且つ、文書中に表画像が含まれることを特徴として記憶してもよい。
The document
分類規則生成部82は、文書から抽出された特徴に基づいて、文書を分類する分類規則を生成する。本実施形態における分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。
The classification
また、分類規則生成部82は、文字情報受付部86により受付けられた文字情報に基づいて分類規則を生成してもよい。
Further, the classification
文字情報受付部86は、UI装置50を介して操作者により入力された文字を受付け、分類規則生成部82へ出力する。操作者は、例えば、特定の文字を分類規則の中に含めたい場合又は特定の文字に関連する文字を分類規則の中に含めたい場合などに、当該特定の文字を入力する。
The character
分類規則生成部82は、特徴抽出部76が抽出した文字のうち、文字情報受付部86により受付けられた文字に基づいて選択された文字を用いて分類規則を生成する。例えば、分類規則生成部82は、文字情報受付部86により受付けられた文字又は文字情報受付部86により受付けられた文字と関連する文字を用いて分類規則を生成する。
The classification
また、分類規則生成部82は、読取装置14からの読み取り条件に基づいて分類規則を生成してもよい。
Further, the classification
分類規則生成部82は、生成した分類規則を分類規則提示部88及び分類規則登録部90へ出力する。分類規則生成部82により生成される分類規則についての詳細は、後述する。
The classification
なお、分類規則生成部82は、文書から抽出された特徴に基づいて、文書を分類する分類規則を生成すればよく、文書種別特定部78による文書種別の特定を行なわずに特徴抽出部76が抽出した特徴に基づいて分類規則を生成してもよい。
The classification
規則雛形格納部84は、予め定めた文書種別ごとに、文書種別と当該文書種別の分類に用いる規則の雛形とを対応付けて記憶する。本実施形態における規則雛形格納部84は、文書種別と当該文書種別に対応する規則の雛形とをテーブルとして格納する。
The rule
分類規則提示部88は、分類規則生成部82により生成された分類規則を操作者に提示する。本実施形態の分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に表示して、操作者に提示する。
The classification
分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。
The classification
分類規則格納部92は、文書の分類に用いる分類規則を記憶するデータベースである。
The classification
編集受付部94は、分類規則生成部82により生成された分類規則又は分類規則格納部92に記憶されている分類規則に対する編集操作を受付け、編集操作に対応する編集を分類規則に行い、編集された分類規則を分類規則登録部90へ出力する。本実施形態の編集受付部94は、UI装置50を介して、分類規則に対する編集操作を受付け、受付けた編集操作に対応する編集を分類規則に行なう。
The
分類部96は、特徴抽出部76により抽出された特徴に対して、分類規則格納部92に格納されている分類規則を適用し、文書を分類する。
The
上記構成によれば、受付けた文書の特徴に基づいて分類規則が生成される。操作者は、分類規則の作成する場合、分類規則生成部82により生成された分類規則を登録し、又は提示された分類規則を編集すればよい。このように、文書の分類処理が効率的になされる。
According to the above configuration, the classification rule is generated based on the feature of the received document. When creating the classification rule, the operator may register the classification rule generated by the classification
次に、特徴抽出部76の詳細な構成について説明する。
図4は、特徴抽出部76の構成を示すブロック図である。図4に示すように、特徴抽出部76は、第1の特徴抽出部100及び第2の特徴抽出部102から構成されている。
Next, a detailed configuration of the
FIG. 4 is a block diagram illustrating a configuration of the
第1の特徴抽出部100は、文書中の文字領域についての特徴を抽出する。本実施形態の第1の特徴抽出部100は、オブジェクト分離部74により分離された文字領域のデータから、文字の抽出を行なう。第1の特徴抽出部100は、文字認識部104及び文字特徴抽出部106から構成されている。
The first
文字認識部104は、文書中の文字領域について、文字認識を行い、文字領域に含まれる文字を認識し、文字特徴抽出部106へ出力する。
The
文字特徴抽出部106は、文字認識部104により認識された文字について、例えば形態素解析を行ない、名詞などの文字及び当該文字の文書内における位置を特徴として抽出する。また、文字特徴抽出部106は、抽出された文字が複数ある場合には、文書中の出現頻度に応じた優先順位を抽出された文字に対して設定してもよい。以下の説明において、文字特徴抽出部106により抽出された文字をキーワードということがある。
The character
第2の特徴抽出部102は、画像についての情報として、文書中の画像領域についての特徴を抽出する。本実施形態の第2の特徴抽出部102は、オブジェクト分離部74により分離された表領域、写真領域及び符号化物領域のデータから、特徴の抽出を行なう。第2の特徴抽出部102は、表特徴抽出部108、写真特徴抽出部110及び符号化物特徴抽出部112から構成されている。
The second
表特徴抽出部108は、文書中の表画像の特徴を抽出する。本実施形態の表特徴抽出部108は、文書中の表画像の大きさ、文書内における表画像の位置、文書中の表画像の総数などを特徴として抽出する。
A table
写真特徴抽出部110は、文書中の写真画像の特徴を抽出する。本実施形態の写真特徴抽出部110は、文書中の写真画像の大きさ、文書内における写真画像の位置、文書中の写真画像の総数などを特徴として抽出する。
The photograph
符号化物特徴抽出部112は、文書中の符号化物画像の特徴を抽出する。本実施形態の符号化物特徴抽出部112は、文書中の符号化物画像の大きさ、文書内における符号化物画像の位置、文書中の符号化物画像の総数などを特徴として抽出する。なお、符号化物特徴抽出部112は、符号化物画像を復号化して、符号化されていた情報を特徴として抽出してもよい。
The encoded product
なお、第2の特徴抽出部102は、画像の特徴として、文書に含まれる図の情報を抽出してもよい。
Note that the second
次に、分類規則生成部82により生成される分類規則について説明する。分類規則生成部82により生成される分類規則は、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102により抽出された特徴との組合せに基づいて生成することができる。
Next, the classification rule generated by the classification
例えば、分類規則生成部82は、第1の特徴抽出部100により抽出された特徴としてのキーワードAと、第2の特徴抽出部102により抽出された特徴としての写真画像とに基づいて、次のような分類規則を生成する。例えば、分類規則生成部82は、文書中にキーワードAを含み、かつ、文書中に写真画像が含まれていることを条件として当該文書を文書種類Xに分類する規則を生成する。
For example, the classification
上記の例では、文書種類Xへの分類規則として、キーワードAに関して、キーワードAの有無のみを条件としたが、例えば、キーワードAが文書中の指定領域(タイトル位置、本文記載位置、文書下部など)に存在することを条件としてもよい。 In the above example, as a classification rule for the document type X, with respect to the keyword A, only the presence or absence of the keyword A is used as a condition. ) May exist as a condition.
また、上記の例では、文書種類Xへの分類規則として、写真画像に関して、写真画像の有無のみを条件としたが、例えば、N×N画素以上の写真画像が文書中に存在する、写真画像が文書中の指定領域に存在する、又はN×N画素以上の写真画像が文書中の指定領域に存在することなどを条件としてもよい。 In the above example, as a classification rule for the document type X, only the presence or absence of a photographic image is used as a condition for a photographic image. For example, a photographic image in which a photographic image having N × N pixels or more exists in the document. May exist in a designated area in the document, or a photographic image having N × N pixels or more may exist in the designated area in the document.
このように、分類規則生成部82により、特徴抽出部76が抽出する特徴について自由に組み合わされた分類規則が生成される。
In this manner, the classification
なお、分類規則生成部82は、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102により抽出された特徴とを分類規則の条件として併せ持たなくてもよい。例えば、分類規則生成部82は、第1の特徴抽出部100により抽出される特徴のみを条件として持つ分類規則を生成してもよいし、第2の特徴抽出部102により抽出される特徴のみを条件として持つ分類規則を生成してもよい。
Note that the classification
また、分類規則生成部82は、第2の特徴抽出部102により抽出される特徴の複数を条件として持つ分類規則を生成してもよい。例えば、分類規則生成部82は、文書中に写真画像が含まれていること、かつ、文書中に符号化物画像がm個含まれていることを条件として当該文書を文書種類Yに分類する規則として生成してもよい。
Further, the classification
このように、文書中の文字についての特徴と文書中の画像についての特徴とに基づいて、自由に組み合わされた分類規則が生成され、操作者の要求に沿った分類がなされる。 In this way, freely combined classification rules are generated based on the characteristics of characters in the document and the characteristics of images in the document, and classification is performed according to the operator's request.
次に、本実施形態における分類規則の生成について、詳細に説明する。本実施形態における分類規則生成部82は、上記のとおり、規則雛形格納部84に記憶されている文書種別と文書種別に対応する規則の雛形とを対応付けるテーブルを用いて、分類規則を生成する。
Next, generation of classification rules in the present embodiment will be described in detail. As described above, the classification
図5は、規則雛形格納部84に記憶されているテーブルの一例を示す表である。図5に示されたテーブルには、文書種別特定部78により特定される文書種別ごとに、分類規則生成部82が生成する規則の雛形が格納されている。
FIG. 5 is a table showing an example of a table stored in the rule
なお、図5に一例として示した分類規則の雛型としては、第1の特徴抽出部100による特徴に関する雛形(図5中において、オブジェクトの列が"文字"とされている行の分類規則)と第2の特徴抽出部102による特徴に関する雛形(図5中において、オブジェクトの列が"画像"とされている行の分類規則)とが格納されている。 As a template of the classification rule shown as an example in FIG. 5, a template related to the feature by the first feature extraction unit 100 (a classification rule of a row in which an object column is “character” in FIG. 5). And a template related to the feature by the second feature extraction unit 102 (the classification rule of the row in which the column of the object is “image” in FIG. 5).
図5において、例えば、文書種別特定部78により特定される文書種別が申請書であった場合、分類規則生成部82は分類規則の生成において、文字のオブジェクトについての雛形「"申請書"@タイトル × キーワード@本文」及び画像のオブジェクトについての雛形「表画像」を用いる。
In FIG. 5, for example, when the document type specified by the document
ここで、「"申請書"@タイトル」は、文書中のタイトル位置に"申請書"という文字があることを条件とすることを意味しており、「キーワード@本文」は、文書中の本文位置にキーワードがあることを条件とすることを意味しており、両条件を繋ぐ「×」は、AND条件であることを意味している。 Here, "" Application Form "@Title" means that there is a character "Application Form" at the title position in the document, and "Keyword @ Body" means the text in the document. This means that there is a keyword at the position, and “x” connecting both conditions means an AND condition.
また、雛形における「キーワード」とは、第1の特徴抽出部100により抽出された文字のうち、いずれかの文字を当てはめて分類規則を生成することを意味している。例えば、分類規則生成部82は、第1の特徴抽出部100により抽出された文字のうち優先順位の一番高い文字を当てはめて分類規則を生成する。なお、優先順位は、例えば、文書中の出現頻度、上述の文字情報受付部86が受付けた文字との関連性などによって決定される。
Further, the “keyword” in the template means that a classification rule is generated by applying any of the characters extracted by the first
本実施形態における分類規則生成部82は、雛形テーブルに示された文字のオブジェクトについての条件と画像のオブジェクトの条件とをAND条件で組み合わせて分類規則を生成するが、例えばOR条件で組み合わせても構わない。
The classification
上記の例において、例えば、分類規則を生成する基となる文書Pに対し、第1の特徴抽出部100が抽出したキーワードのうち優先順位が最も高いキーワードがキーワードAであるとすると、分類規則生成部82は、「"申請書"@タイトル × "キーワードA"@本文」かつ「文書Pの表画像と大きさ及び位置が同程度の表画像が存在すること」を分類規則として生成し、分類規則提示部88へ出力する。ここで、同程度とは、両者の差が予め定めた閾値以内であることをいう。
In the above example, if, for example, the keyword A has the highest priority among the keywords extracted by the first
なお、図5に示した例では、このように、画像のオブジェクトについての条件は、画像の大きさ及び位置を要件とするものとしているが、画像の有無を要件してもよく、画像の大きさを要件としてもよく、又は画像の位置を要件としてもよい。さらには、画像の有無、大きさ、位置のいずれを要件とするのかについても雛形として記憶していてもよい。 In the example shown in FIG. 5, the condition for the image object requires the size and position of the image as described above. However, the presence or absence of the image may be required. It may be a requirement, or a position of an image may be a requirement. Further, it may be stored as a template whether the presence / absence, size, or position of an image is a requirement.
また、分類規則生成部82は、特徴抽出部76により抽出された特徴以外に、読取装置14からの読み取り条件を分類規則に入れてもよい。例えば、「"申請書"@タイトル × "キーワードA"@本文」かつ「文書Pの表画像と大きさ及び位置が同程度の表画像が存在すること」かつ「n枚以上の原稿を読み取った文書であること」を分類規則として生成してもよい。
In addition to the features extracted by the
また、読み取り条件に応じて、雛形テーブルに示された画像オブジェクトの条件を利用するか否かを決定してもよい。例えば、読み取り条件として、カラーによる読み取りを行なう設定がなされた場合、操作者は文書に含まれる画像を重視している可能性が考えられることから、分類規則生成部82は、少なくとも画像オブジェクトの条件を用いて分類規則を生成するとしてもよい。
Further, it may be determined whether to use the condition of the image object shown in the template table according to the reading condition. For example, if the reading condition is set to perform color reading, the operator may consider the image included in the document as important, so the classification
次に、分類規則提示部88による分類規則の提示について説明する。
図6は、UI装置50に表示される分類規則の登録に係る画面の第1の例を示す平面図である。なお、図6、後述する図7、8及び9に示される画面は、例えば、分類規則提示部88によって表示される。
Next, presentation of classification rules by the classification
FIG. 6 is a plan view illustrating a first example of a screen related to registration of classification rules displayed on the
図6に示す画面では、表示切替タブ120及び表示切替タブ群122により表示画面を切り替えることができ、表示切替タブ120では、新規の分類規則を登録する場合の画面が表示され、表示切替タブ群122のいずれかのタブでは、分類規則格納部92に既に格納されている分類規則を編集する場合の画面が表示される。なお、図6に示す例では、表示切替タブ120による表示がなされている状態を示している。
In the screen shown in FIG. 6, the display screen can be switched by the
また、図6に示す画面には、文書種類名を設定する文書種類名設定部124、文書を分類するための分類規則を設定する文書分類規則設定部126、分類した文書に付けるファイル名を設定するファイル名規則設定部128がある。
In the screen shown in FIG. 6, a document type
ここで、分類規則提示部88は、分類規則生成部82により生成された分類規則を文書分類規則設定部126に提示する。なお、分類規則生成部82は、分類規則の生成と同様、例えば文書種別特定部78により特定された文書種別に基づいて、文書種類名又はファイル名についても生成し、分類規則提示部88は、分類規則生成部82が生成した文書種類名又はファイル名を文書種類名設定部124又は設定するファイル名規則設定部128に提示する構成としてもよい。
Here, the classification
図6に示す画面の例では、分類規則生成部82により生成された分類規則として、次のような分類規則が提示されている。すなわち、図6に示す画面の例では、文書のタイトル部分に"説明書"の文字があり、かつ、文書の本文部分に"株式会社abc"の文字がある文書を文書種類「説明書」に分類する分類規則を提示している。
In the example of the screen shown in FIG. 6, the following classification rule is presented as the classification rule generated by the classification
また、図6に示す画面には、文書種類名設定部124、文書分類規則設定部126又はファイル名規則設定部128に提示されている設定に対し、キーボード入力により編集するためのキーボード入力ボタン130、消去する消去ボタン132、分類規則提示部88による提示をさせる自動ボタン134を有する。
Further, the screen shown in FIG. 6 includes a
また、文書種類名設定部124、文書分類規則設定部126及びファイル名規則設定部128に提示されている設定を分類規則格納部92に登録する登録ボタン136と、登録した設定を削除する削除ボタン138を有する。
Also, a
さらに図6に示す画面には、分類規則生成部82が生成した分類規則を編集するために、分類規則に用いるキーワードを変更するキーワード変更部140、分類規則に用いる文書中の領域を変更する領域変更部142、分類規則に用いる画像を変更する画像変更部144、分類規則に用いる論理を変更する論理変更部146、及び分類規則生成の基となる文書を表示する文書表示部148を有する。
Further, in the screen shown in FIG. 6, in order to edit the classification rule generated by the classification
キーワード変更部140には、第1の特徴抽出部100により抽出されたキーワードが列挙されており、操作者は列挙されたキーワードのうちいずれかを選択することにより、当該キーワードを用いるよう分類規則を編集することができる。
In the keyword changing unit 140, the keywords extracted by the first
領域変更部142には、文書における位置が列挙されており、操作者は列挙された位置のうちいずれかを選択することにより、当該位置を用いるよう分類規則を編集することができる。
The
画像変更部144には、第2の特徴抽出部102により抽出された画像の種類が列挙されており、操作者は列挙された画像の種類のうちいずれかを選択することにより、当該画像の種類を用いるよう分類規則を編集することができる。
The
論理変更部146には、分類規則に用いることが可能な論理が列挙されており、操作者は、列挙された論理を用いて、分類規則を編集することができる。
The
図7は、UI装置50に表示される分類規則の登録に係る画面の第2の例を示す平面図である。
FIG. 7 is a plan view illustrating a second example of a screen related to registration of classification rules displayed on the
図7に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図7に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書における写真150と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。
In the screen shown in FIG. 7, the feature extracted by the first
また、図7に示す画面では、画像についての条件を変更するためのポップアップ表示である画面条件変更部152が表示されており、操作者は、画面条件変更部152に表示された条件のうち所望の条件を選択することにより、画像についての条件を変更することができる。
Further, on the screen shown in FIG. 7, a screen
図8は、UI装置50に表示される分類規則の登録に係る画面の第3の例を示す平面図である。
FIG. 8 is a plan view illustrating a third example of a screen related to registration of classification rules displayed on the
図8に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(符号化物特徴抽出部112)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図8に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書におけるバーコード154と同程度の大きさのバーコードを有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。
The screen shown in FIG. 8 includes the features extracted by the first
図9は、UI装置50に表示される分類規則の登録に係る画面の第4の例を示す平面図である。
FIG. 9 is a plan view illustrating a fourth example of a screen related to registration of classification rules displayed on the
図9に示す画面には、分類規則生成部82により生成された分類規則として、第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴のみからなる分類規則が提示されている。具体的には、図9に示す画面には、文書表示部148に表示されている文書における写真156と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。
In the screen shown in FIG. 9, a classification rule including only the features extracted by the second feature extraction unit 102 (photo feature extraction unit 110) is presented as the classification rule generated by the classification
次に、以上説明した分類規則の登録について、フローチャートを用いて動作の流れを説明する。
図10は、分類規則の登録についての動作を示すフローチャートの一例である。
Next, an operation flow of registration of the classification rule described above will be described using a flowchart.
FIG. 10 is an example of a flowchart showing an operation for registering a classification rule.
ステップ100において、文書受付部72は、分類規則を生成する基となる文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。
In
ステップ102において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。
In
ステップ104において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力する。
In
ステップ106において、文書種別特定部78は、抽出された特徴に基づいて、ステップ100で文書受付部72が受け付けた文書が予め定めた文書の種別のうちいずれに該当するかを特定する。
In
ステップ108において、分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。
In
ステップ110において、分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に提示する。
In
ステップ112において、ステップ110により提示した分類規則に対し、操作者による編集操作がなされたか否かを判定し、編集操作が行なわれた場合はステップ114へ移行し、編集操作が行なわれない場合はステップ116に移行する。
In
ステップ114において、編集受付部94は、操作者による編集操作を受付け、編集操作に対応する編集を分類規則に行なう。
In step 114, the
ステップ116において、分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。
In step 116, the classification
以上の流れにより、文書の分類に用いる分類規則が作成される。 Through the above flow, a classification rule used for document classification is created.
次に、作成された分類規則に基づいて文書を分類し、分類に応じた処理を行なう動作の流れを説明する。
図11は、文書の分類し、分類に応じた処理を行なう動作を示すフローチャートの一例である。
Next, an operation flow for classifying a document based on the created classification rule and performing processing according to the classification will be described.
FIG. 11 is an example of a flowchart showing an operation of classifying documents and performing processing according to the classification.
ステップ200において、文書受付部72は、分類対象の文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。
In step 200, the
ステップ202において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。
In step 202, the
ステップ204において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を分類部96へ出力する。
In step 204, the
ステップ206において、分類部96は、特徴抽出部76により抽出された特徴に対して、分類規則格納部92に格納されている分類規則を適用し、文書を分類する。
In step 206, the
ステップ208において、ステップ206においてなされた分類に対応する処理が行なわれる。ステップ208では、例えば分類ごとに定められた処理規則に応じて処理が行なわれる。 In step 208, processing corresponding to the classification made in step 206 is performed. In step 208, processing is performed in accordance with, for example, a processing rule determined for each classification.
図12は、分類に応じた処理をする際に適用される分類ごとの処理規則の一例を示す表である。図12(a)は、分類に応じたファイル名を文書データに付与する処理についての規則を示し、図12(b)は、分類に応じた場所に文書データを出力する処理についての規則を示している。 FIG. 12 is a table showing an example of a processing rule for each classification applied when processing according to the classification. FIG. 12A shows the rules for the process of assigning the file name corresponding to the classification to the document data, and FIG. 12B shows the rules for the process of outputting the document data to the place corresponding to the classification. ing.
図12(a)に示す処理規則では、分類ごとに、ファイル名を付与する際の規則が定められている。なお、図12(a)に示したファイル名付与規則は、上述のファイル名規則設定部128において設定された規則に対応する。
In the processing rule shown in FIG. 12A, a rule for assigning a file name is defined for each classification. The file name assignment rule shown in FIG. 12A corresponds to the rule set in the file name
図12(b)に示す処理規則では、分類ごとに、送信先のフォルダが定められている。なお、図12(b)に示す送信先フォルダは、例えば操作者が分類ごとに設定する。 In the processing rule shown in FIG. 12B, a transmission destination folder is defined for each classification. Note that the transmission destination folder shown in FIG. 12B is set for each classification by the operator, for example.
また、分類に応じた処理として、印刷装置12による印刷をしてもよい。例えば、分類に応じて印刷における設定を異にして、印刷出力する処理を行なってもよい。
Further, as processing according to the classification, printing by the
以上の流れにより文書の分類及び分類に応じた処理が行なわれる。 According to the above flow, document classification and processing corresponding to the classification are performed.
本発明は、特許請求の範囲に記載した事項を特徴とするが、さらに次に記載した事項も本発明の望ましい態様として付記する。 The present invention is characterized by the matters described in the claims, but the following items are also added as desirable aspects of the present invention.
(付記1)
文書に含まれる文字を抽出する第1の特徴抽出手段と、文書に含まれる画像についての情報を抽出する第2の特徴抽出手段と、文書を分類する分類規則として、前記第1の特徴抽出手段が抽出した文字と前記第2の特徴抽出手段が抽出した画像についての情報とが組み合わされた規則を登録する分類規則登録手段とを有する文書処理装置。
(付記2)
前記第1の特徴抽出手段が抽出した文字と前記第2の特徴抽出手段が抽出した画像についての情報とが組み合わされた分類規則を生成する分類規則生成手段と、前記分類規則生成手段が生成した分類規則を提示する分類規則提示手段とをさらに有し、前記分類規則登録手段は、分類規則提示手段により提示された分類規則を登録する付記1記載の文書処理装置。
(付記3)
前記第2の特徴抽出手段は、文書に含まれる画像についての情報として、写真、図形、表又は符号化物のうち少なくとも1つについての情報を抽出する付記2記載の文書処理装置。
(付記4)
前記第2の特徴抽出手段は、文書に含まれる画像についての情報として、画像の大きさ、画像の位置又は画像の数のうち少なくとも1つについて抽出する付記2又は3記載の文書処理装置。
(付記5)
前記分類規則提示手段が提示した分類規則に対しての編集を受付ける編集受付手段をさらに有し、前記分類規則登録手段は、前記編集受付手段が受付けた編集がなされた分類規則を登録する付記1乃至4いずれか記載の文書処理装置。
(付記6)
文書を受付ける文書受付手段と、前記分類規則登録手段により登録された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段とをさらに有する付記1乃至5いずれか記載の文書処理装置。
(付記7)
文書を読み取る読取手段をさらに有し、前記分類規則生成手段は、前記読取手段による読み取り条件と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項2乃至6いずれか記載の文書処理装置。
(付記8)
文字情報の入力を受付ける文字情報受付手段をさらに有し、前記分類規則生成手段は、前記文字情報受付手段が受付けた文字情報と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項2乃至7いずれか記載の文書処理装置。
(付記9)
文書が予め定めた種別のうちいずれに該当するかを特定する文書種別特定手段をさらに有し、前記分類規則生成手段は、前記文書種別特定手段により特定された文書の種別と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項2乃至8いずれか記載の文書処理装置。
(付記10)
文書に含まれる文字を抽出する第1の特徴抽出ステップと、文書に含まれる画像についての情報を抽出する第2の特徴抽出ステップと、文書を分類する分類規則として、前記第1の特徴抽出ステップにより抽出された文字と前記第2の特徴抽出ステップにより抽出された画像についての情報とが組み合わされた規則を登録する分類規則登録ステップとをコンピュータに実行させるプログラム。
(Appendix 1)
First feature extraction means for extracting characters contained in a document, second feature extraction means for extracting information about an image contained in the document, and the first feature extraction means as a classification rule for classifying the document A document processing apparatus comprising: a classification rule registration unit that registers a rule in which the character extracted by the information and the information about the image extracted by the second feature extraction unit are combined.
(Appendix 2)
A classification rule generating unit that generates a classification rule in which the characters extracted by the first feature extracting unit and information about the image extracted by the second feature extracting unit are combined; and the classification rule generating unit generates The document processing apparatus according to
(Appendix 3)
The document processing apparatus according to appendix 2, wherein the second feature extraction means extracts information about at least one of a photograph, a figure, a table, or an encoded product as information about an image included in the document.
(Appendix 4)
The document processing apparatus according to appendix 2 or 3, wherein the second feature extraction means extracts at least one of the size of the image, the position of the image, or the number of images as information about the image included in the document.
(Appendix 5)
(Appendix 6)
The document according to any one of
(Appendix 7)
7. A reading unit for reading a document, wherein the classification rule generation unit generates a classification rule based on a reading condition by the reading unit and a feature extracted by the feature extraction unit. The document processing apparatus described.
(Appendix 8)
Further comprising character information accepting means for accepting input of character information, wherein the classification rule generating means determines a classification rule based on the character information accepted by the character information accepting means and the features extracted by the feature extracting means. The document processing apparatus according to claim 2, which is generated.
(Appendix 9)
Document classification specifying means for specifying which of the predetermined types of the document is further included, and the classification rule generating means includes the document type specified by the document type specifying means and the feature extraction means. 9. The document processing apparatus according to claim 2, wherein a classification rule is generated based on the extracted feature.
(Appendix 10)
A first feature extracting step for extracting characters contained in the document; a second feature extracting step for extracting information about an image contained in the document; and the first feature extracting step as a classification rule for classifying the document. A program for causing a computer to execute a classification rule registration step of registering a rule in which the characters extracted by the above and the information about the image extracted by the second feature extraction step are combined.
10 画像形成装置
14 読取装置
50 UI装置
72 文書受付部
74 オブジェクト分離部
76 特徴抽出部
78 文書特定部
80 文書種別格納部
82 分類規則生成部
84 規則雛形格納部
86 文字情報受付部
88 分類規則提示部
90 分類規則登録部
92 分類規則格納部
94 編集受付部
96 分類部
100 第1の特徴抽出部
102 第2の特徴抽出部
104 文字認識部
106 文字特徴抽出部
108 表特徴抽出部
110 写真特徴抽出部
112 符号化物特徴抽出部
DESCRIPTION OF
Claims (11)
前記特徴抽出手段により抽出された特徴に基づいて、文書を分類する分類規則を生成する分類規則生成手段と、
前記分類規則生成手段が生成した分類規則を提示する分類規則提示手段と
を有する文書処理装置。 Feature extraction means for extracting features contained in the document;
Classification rule generation means for generating a classification rule for classifying a document based on the features extracted by the feature extraction means;
A document processing apparatus comprising: a classification rule presenting unit that presents a classification rule generated by the classification rule generating unit.
前記分類規則生成手段は、前記特徴抽出手段の第1の特徴抽出部が抽出した文字と前記特徴抽出手段の第2の特徴抽出部が抽出した画像についての情報とを組み合わせて分類規則を生成する
請求項1記載の文書処理装置。 The feature extraction means includes a first feature extraction unit that extracts characters included in a document and a second feature extraction unit that extracts information about an image included in the document,
The classification rule generation unit generates a classification rule by combining the characters extracted by the first feature extraction unit of the feature extraction unit and information about the image extracted by the second feature extraction unit of the feature extraction unit. The document processing apparatus according to claim 1.
請求項2記載の文書処理装置。 The document processing apparatus according to claim 2, wherein the second feature extraction unit of the feature extraction unit extracts information about at least one of a photograph, a figure, a table, and an encoded product as information about an image included in the document. .
請求項2又は3記載の文書処理装置。 The second feature extraction unit of the feature extraction unit extracts at least one of the size of the image, the position of the image, or the number of images as information about the image included in the document. Document processing device.
をさらに有する請求項1乃至4いずれか記載の文書処理装置。 The document processing apparatus according to claim 1, further comprising: a classification rule registration unit that registers the classification rule presented by the classification rule presentation unit.
をさらに有し、
前記分類規則登録手段は、前記編集受付手段が受付けた編集がなされた分類規則を登録する
請求項5記載の文書処理装置。 Edit accepting means for accepting edits to the classification rules presented by the classification rule presenting means;
The document processing apparatus according to claim 5, wherein the classification rule registration unit registers the classification rule that has been edited and received by the editing reception unit.
前記分類規則登録手段により登録された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段と
をさらに有する請求項5又は6記載の文書処理装置。 A document receiving means for receiving a document;
The document processing apparatus according to claim 5, further comprising: a classification unit that classifies the document received by the document reception unit based on the classification rule registered by the classification rule registration unit.
をさらに有し、
前記分類規則生成手段は、前記読取手段による読み取り条件と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する
請求項1乃至7いずれか記載の文書処理装置。 A reading means for reading the document;
The document processing apparatus according to claim 1, wherein the classification rule generation unit generates a classification rule based on a reading condition by the reading unit and a feature extracted by the feature extraction unit.
をさらに有し、
前記分類規則生成手段は、前記文字情報受付手段が受付けた文字情報と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する
請求項1乃至8いずれか記載の文書処理装置。 A character information receiving means for receiving input of character information;
The document processing apparatus according to claim 1, wherein the classification rule generation unit generates a classification rule based on the character information received by the character information reception unit and the feature extracted by the feature extraction unit.
をさらに有し、
前記分類規則生成手段は、前記文書種別特定手段により特定された文書の種別と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する
請求項1乃至9いずれか記載の文書処理装置。 A document type specifying means for specifying which of the predetermined types the document corresponds to;
The document processing according to any one of claims 1 to 9, wherein the classification rule generation unit generates a classification rule based on a document type specified by the document type specification unit and a feature extracted by the feature extraction unit. apparatus.
抽出された特徴に基づいて、文書を分類する分類規則を生成するステップと、
生成した分類規則を提示するステップと
をコンピュータに実行させるプログラム。 Extracting features contained in the document;
Generating a classification rule for classifying the document based on the extracted features;
A program for causing a computer to execute the step of presenting the generated classification rules.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012001984A JP5880052B2 (en) | 2012-01-10 | 2012-01-10 | Document processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012001984A JP5880052B2 (en) | 2012-01-10 | 2012-01-10 | Document processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013142955A true JP2013142955A (en) | 2013-07-22 |
JP5880052B2 JP5880052B2 (en) | 2016-03-08 |
Family
ID=49039500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012001984A Active JP5880052B2 (en) | 2012-01-10 | 2012-01-10 | Document processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5880052B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9876942B2 (en) | 2015-03-27 | 2018-01-23 | Brother Kogyo Kabushiki Kaisha | Image processing apparatus and computer program |
US10038825B2 (en) | 2015-03-27 | 2018-07-31 | Brother Kogyo Kabushiki Kaisha | Image process apparatus for correcting a document based on correction parameter of another document and computer program therefor |
US11321558B2 (en) | 2019-09-12 | 2022-05-03 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
US11521404B2 (en) | 2019-09-30 | 2022-12-06 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories |
US11631268B2 (en) | 2019-09-20 | 2023-04-18 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272763A (en) * | 1988-09-08 | 1990-03-13 | Ricoh Co Ltd | Facsimile equipment controlling system |
JPH0675995A (en) * | 1992-08-27 | 1994-03-18 | Omron Corp | Automatic device and method for imparting classification |
JP2002342343A (en) * | 2001-05-18 | 2002-11-29 | Ricoh Co Ltd | Document managing system |
JP2007052744A (en) * | 2005-08-19 | 2007-03-01 | Fujitsu Ltd | Classification rule creation supporting method |
JP2007286864A (en) * | 2006-04-17 | 2007-11-01 | Ricoh Co Ltd | Image processor, image processing method, program, and recording medium |
JP2009031959A (en) * | 2007-07-26 | 2009-02-12 | Fuji Xerox Co Ltd | Document classification device and document classification program |
JP2009205420A (en) * | 2008-02-27 | 2009-09-10 | Pfu Ltd | Image file distribution method, image file distribution device, and program |
-
2012
- 2012-01-10 JP JP2012001984A patent/JP5880052B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272763A (en) * | 1988-09-08 | 1990-03-13 | Ricoh Co Ltd | Facsimile equipment controlling system |
JPH0675995A (en) * | 1992-08-27 | 1994-03-18 | Omron Corp | Automatic device and method for imparting classification |
JP2002342343A (en) * | 2001-05-18 | 2002-11-29 | Ricoh Co Ltd | Document managing system |
JP2007052744A (en) * | 2005-08-19 | 2007-03-01 | Fujitsu Ltd | Classification rule creation supporting method |
JP2007286864A (en) * | 2006-04-17 | 2007-11-01 | Ricoh Co Ltd | Image processor, image processing method, program, and recording medium |
JP2009031959A (en) * | 2007-07-26 | 2009-02-12 | Fuji Xerox Co Ltd | Document classification device and document classification program |
JP2009205420A (en) * | 2008-02-27 | 2009-09-10 | Pfu Ltd | Image file distribution method, image file distribution device, and program |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9876942B2 (en) | 2015-03-27 | 2018-01-23 | Brother Kogyo Kabushiki Kaisha | Image processing apparatus and computer program |
US10038825B2 (en) | 2015-03-27 | 2018-07-31 | Brother Kogyo Kabushiki Kaisha | Image process apparatus for correcting a document based on correction parameter of another document and computer program therefor |
US10084942B2 (en) | 2015-03-27 | 2018-09-25 | Brother Kogyo Kabushiki Kaisha | Image processing apparatus and computer program |
US11321558B2 (en) | 2019-09-12 | 2022-05-03 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
US11631268B2 (en) | 2019-09-20 | 2023-04-18 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
US11521404B2 (en) | 2019-09-30 | 2022-12-06 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories |
Also Published As
Publication number | Publication date |
---|---|
JP5880052B2 (en) | 2016-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8726178B2 (en) | Device, method, and computer program product for information retrieval | |
JP5223284B2 (en) | Information retrieval apparatus, method and program | |
US7797150B2 (en) | Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database | |
JP5699623B2 (en) | Image processing apparatus, image processing system, image processing method, and program | |
JP5880052B2 (en) | Document processing apparatus and program | |
US20090074291A1 (en) | Image processing apparatus and image processing method | |
US20150304521A1 (en) | Dynamically generating table of contents for printable or scanned content | |
JP2006350664A (en) | Document processing apparatus | |
JP5936051B2 (en) | Document processing apparatus and program | |
JP6672668B2 (en) | Image processing device and program | |
US20130258419A1 (en) | Digitizing apparatus | |
JP2003209643A (en) | Image-processing device | |
JP2006093917A (en) | Image reading apparatus and image processor, and image forming apparatus | |
US10638001B2 (en) | Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data | |
JP2008236250A (en) | Image processing apparatus, program, and image processing method | |
US9247103B2 (en) | Image processing device, image processing system, non-transitory computer readable medium, and image processing method | |
US20170308507A1 (en) | Image processing apparatus | |
JP4682747B2 (en) | Document processing apparatus, rule data generation method and program | |
JP2018077794A (en) | Image processing device and image forming apparatus | |
JP2007048061A (en) | Character processing device, character processing method, and recording medium | |
US20230083959A1 (en) | Information processing apparatus, information processing method, storage medium, and learning apparatus | |
US11849086B2 (en) | Image processing apparatus capable of extracting portion of document image specified by preset index and subjecting character string in extracted portion to processing associated with index | |
US20240193370A1 (en) | Information processing apparatus, information processing system, information processing method, and storage medium | |
US20230077608A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US20230306773A1 (en) | Information processing apparatus, non-transitory computer readable medium, and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150828 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5880052 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |