JP2013142955A - Document processing device and program - Google Patents

Document processing device and program Download PDF

Info

Publication number
JP2013142955A
JP2013142955A JP2012001984A JP2012001984A JP2013142955A JP 2013142955 A JP2013142955 A JP 2013142955A JP 2012001984 A JP2012001984 A JP 2012001984A JP 2012001984 A JP2012001984 A JP 2012001984A JP 2013142955 A JP2013142955 A JP 2013142955A
Authority
JP
Japan
Prior art keywords
document
classification rule
unit
feature extraction
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012001984A
Other languages
Japanese (ja)
Other versions
JP5880052B2 (en
Inventor
Katsuya Koyanagi
勝也 小柳
Shintaro Adachi
真太郎 安達
Junichi Shimizu
淳一 清水
Shinzui Cho
臻瑞 張
Hiromi Kita
洋実 北
Tetsuya Wakiyama
徹也 脇山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2012001984A priority Critical patent/JP5880052B2/en
Publication of JP2013142955A publication Critical patent/JP2013142955A/en
Application granted granted Critical
Publication of JP5880052B2 publication Critical patent/JP5880052B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a document processing device and a program that are capable of efficiently performing classification processing of documents.SOLUTION: A document processing device comprises: feature extraction means 76 that extracts a feature included in a document; classification rule generation means 82 that generates a classification rule for classifying the document on the basis of the feature extracted by the feature extraction means 76; and classification rule presentation means 88 that presents the classification rule generated by the classification rule generation means 82.

Description

本発明は、文書処理装置及びプログラムに関する。   The present invention relates to a document processing apparatus and a program.

特許文献1は、画像データベースにおいて、新たな画像と近似するか又は一致する画像を好適に検索し、また、ひいて、画像データベースにおける二重登録を防止するために、これから登録する画像に対して、領域分割処理を実行し、分割した領域の数が一致する登録画像を検索し、また、必要により、画像間の距離に基づく絞り込みを行い、最終的に一致又は近似する登録画像がある場合には、新たに登録しない画像処理装置について開示している。   Patent Document 1 suitably searches for an image that approximates or coincides with a new image in an image database, and in order to prevent double registration in the image database. Execute the area division process, search for registered images with the same number of divided areas, and if necessary, narrow down based on the distance between the images, and finally have a registered image that matches or approximates Discloses an image processing apparatus that is not newly registered.

特許文献2は、文書間の類似性に基づいて文書分類をおこなう際、操作者の意図を反映する文書分類をおこなうために、一つまたは複数の項目から構成された文書データを入力する入力部と、入力された文書データを構成する前記項目を指定する指定部と、指定された項目に対応するデータのみの内容となるように前記文書データを変換する変換部と、変換された変換データをもちいて文書を分類する分類部とを備える文書分類装置について開示している。   Patent Document 2 discloses an input unit that inputs document data composed of one or more items in order to perform document classification that reflects the operator's intention when performing document classification based on similarity between documents. A designation unit for designating the item constituting the input document data, a conversion unit for converting the document data so that only the data corresponding to the designated item is included, and the converted conversion data A document classification apparatus including a classification unit that classifies documents is disclosed.

特許文献3は、画像データの特性を示す画像特徴量を計算する特徴量計算手段と、ユーザにより選択された機能の入力を受け付ける入力受付手段と、前記特徴量計算手段で計算された前記画像データの前記画像特徴量と、前記入力受付手段を介してユーザにより選択された機能とを含む事例集合を蓄積するデータベースである事例データベースと、前記特徴量計算手段で計算された前記画像特徴量を入力とし、前記事例データベースに蓄積された前記事例集合を用いて最適な機能を予測する最適機能予測手段と、を備えることを特徴とするデータ処理装置について開示している。   Patent Document 3 discloses a feature quantity calculation unit that calculates an image feature quantity indicating characteristics of image data, an input reception unit that receives an input of a function selected by a user, and the image data calculated by the feature quantity calculation unit. A case database that is a database that stores a case set including the image feature amount and a function selected by the user via the input receiving means, and the image feature amount calculated by the feature amount calculation means And an optimum function predicting means for predicting an optimum function using the case set stored in the case database.

特許文献4は、帳票の辞書登録操作においてオペレータの作業量を低減し、帳票の識別操作において高精度な識別を実現するシステムを提供するために、スキャナから読んだ帳票のディジタル画像を帳票の傾き補正と帳票周囲の余白除去を行った上で画像メモリに格納する画像入力部と、画像メモリにあるディジタル画像から帳票のサイズを検出すると共に文字パターンを文字列単位で検出して文字列単位で特徴量へ変換して特徴メモリに保持する特徴抽出部と、入力する帳票のフォーマットを登録する場合には特徴メモリにある複数組みの文字列の特徴量から各組共通の特徴量を抽出して辞書メモリに登録する共通特徴抽出部と、入力する帳票のフォーマットの識別を行う場合には特徴メモリにある処理対照の帳票の文字列の特徴量と辞書メモリにある帳票毎の文字列の特徴量とを照合する照合部とを有する構成について開示している。   Patent Document 4 discloses that a digital image of a form read from a scanner is tilted in order to reduce the amount of operator work in a form dictionary registration operation and provide a system that realizes highly accurate identification in form identification operation. After correcting and removing the margins around the form, the image input unit stores it in the image memory, and detects the size of the form from the digital image in the image memory and also detects the character pattern in character string units. When registering the feature extraction unit that converts to feature values and stores them in the feature memory, and when registering the format of the form to be input, the feature values common to each set are extracted from the feature values of multiple sets of character strings in the feature memory. If the common feature extraction unit to be registered in the dictionary memory and the format of the input form are identified, the feature amount and dictionary of the character string of the processing form in the feature memory It discloses a structure and a collation unit that collates the feature amount of a character string for each document in the memory.

特開2001−319231号公報JP 2001-319231 A 特開平11−296550号公報JP-A-11-296550 特開2009−95001号公報JP 2009-95001 A 特開2002−288675号公報JP 2002-288675 A

本発明の目的は、文書の分類処理を効率的に行なうことができる文書処理装置及びプログラムを提供することである。   An object of the present invention is to provide a document processing apparatus and program capable of efficiently performing document classification processing.

[文書処理装置]
請求項1に係る本発明は、文書に含まれる特徴を抽出する特徴抽出手段と、前記特徴抽出手段により抽出された特徴に基づいて、文書を分類する分類規則を生成する分類規則生成手段と、前記分類規則生成手段が生成した分類規則を提示する分類規則提示手段とを有する文書処理装置である。
[Document Processing Device]
The present invention according to claim 1 is a feature extraction means for extracting features included in a document; a classification rule generation means for generating a classification rule for classifying a document based on the features extracted by the feature extraction means; And a classification rule presenting unit for presenting the classification rule generated by the classification rule generating unit.

請求項2に係る本発明は、前記特徴抽出手段は、文書に含まれる文字を抽出する第1の特徴抽出部と文書に含まれる画像についての情報を抽出する第2の特徴抽出部とを備え、前記分類規則生成手段は、前記特徴抽出手段の第1の特徴抽出部が抽出した文字と前記特徴抽出手段の第2の特徴抽出部が抽出した画像についての情報とを組み合わせて分類規則を生成する請求項1記載の文書処理装置である。   According to a second aspect of the present invention, the feature extraction unit includes a first feature extraction unit that extracts characters included in the document, and a second feature extraction unit that extracts information about an image included in the document. The classification rule generation unit generates a classification rule by combining the character extracted by the first feature extraction unit of the feature extraction unit and the information about the image extracted by the second feature extraction unit of the feature extraction unit. The document processing apparatus according to claim 1.

請求項3に係る本発明は、前記特徴抽出手段の第2の特徴抽出部は、文書に含まれる画像についての情報として、写真、図形、表又は符号化物のうち少なくとも1つについての情報を抽出する請求項2記載の文書処理装置である。   According to a third aspect of the present invention, the second feature extraction unit of the feature extraction unit extracts information about at least one of a photograph, a figure, a table, or an encoded product as information about an image included in the document. The document processing apparatus according to claim 2.

請求項4に係る本発明は、前記特徴抽出手段の第2の特徴抽出部は、文書に含まれる画像についての情報として、画像の大きさ、画像の位置又は画像の数のうち少なくとも1つについて抽出する請求項2又は3記載の文書処理装置である。   According to a fourth aspect of the present invention, the second feature extraction unit of the feature extraction means uses at least one of the size of the image, the position of the image, or the number of images as information about the image included in the document. 4. A document processing apparatus according to claim 2 or 3 for extraction.

請求項5に係る本発明は、前記分類規則提示手段が提示した分類規則を登録する分類規則登録手段をさらに有する請求項1乃至4いずれか記載の文書処理装置である。   The present invention according to claim 5 is the document processing apparatus according to any one of claims 1 to 4, further comprising a classification rule registration unit for registering the classification rule presented by the classification rule presentation unit.

請求項6に係る本発明は、前記分類規則提示手段が提示した分類規則に対しての編集を受付ける編集受付手段をさらに有し、前記分類規則登録手段は、前記編集受付手段が受付けた編集がなされた分類規則を登録する請求項5記載の文書処理装置である。   The present invention according to claim 6 further includes an edit accepting unit that accepts an edit to the classification rule presented by the classification rule presenting unit, and the classification rule registering unit receives the edit accepted by the edit accepting unit. The document processing apparatus according to claim 5, wherein the classification rule made is registered.

請求項7に係る本発明は、文書を受付ける文書受付手段と、前記分類規則登録手段により登録された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段とをさらに有する請求項5又は6記載の文書処理装置である。   The present invention according to claim 7 further includes document accepting means for accepting a document, and classification means for classifying the document accepted by the document accepting means based on the classification rule registered by the classification rule registering means. A document processing apparatus according to claim 5 or 6.

請求項8に係る本発明は、文書を読み取る読取手段をさらに有し、前記分類規則生成手段は、前記読取手段による読み取り条件と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項1乃至7いずれか記載の文書処理装置である。   The present invention according to claim 8 further includes reading means for reading a document, and the classification rule generation means determines a classification rule based on a reading condition by the reading means and a feature extracted by the feature extraction means. The document processing apparatus according to claim 1, which is generated.

請求項9に係る本発明は、文字情報の入力を受付ける文字情報受付手段をさらに有し、前記分類規則生成手段は、前記文字情報受付手段が受付けた文字情報と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項1乃至8いずれか記載の文書処理装置である。   The present invention according to claim 9 further includes character information accepting means for accepting input of character information, and the classification rule generating means is extracted by the character information accepted by the character information accepting means and the feature extracting means. 9. The document processing apparatus according to claim 1, wherein a classification rule is generated based on the characteristics.

請求項10に係る本発明は、文書が予め定めた種別のうちいずれに該当するかを特定する文書種別特定手段をさらに有し、前記分類規則生成手段は、前記文書種別特定手段により特定された文書の種別と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項1乃至9いずれか記載の文書処理装置である。   The present invention according to claim 10 further comprises a document type specifying means for specifying which of the predetermined types of the document, and the classification rule generating means is specified by the document type specifying means 10. The document processing apparatus according to claim 1, wherein a classification rule is generated based on a document type and a feature extracted by the feature extraction unit.

[プログラム]
請求項11に係る本発明は、文書に含まれる特徴を抽出するステップと、抽出された特徴に基づいて、文書を分類する分類規則を生成するステップと、生成した分類規則を提示するステップとをコンピュータに実行させるプログラムである。
[program]
The present invention according to claim 11 includes a step of extracting features included in the document, a step of generating a classification rule for classifying the document based on the extracted features, and a step of presenting the generated classification rule. A program to be executed by a computer.

請求項1に係る本発明によれば、本構成を有していない場合と比べ、文書の分類処理を効率的に行なうことができる文書処理装置を提供することができる。   According to the first aspect of the present invention, it is possible to provide a document processing apparatus capable of performing document classification processing more efficiently than in the case where the present configuration is not provided.

請求項2に係る本発明によれば、請求項1に係る発明の効果に加え、文書に含まれる文字と画像とに基づいて文書の分類処理を行なうことができる文書処理装置を提供することができる。   According to the second aspect of the present invention, in addition to the effect of the first aspect of the invention, it is possible to provide a document processing apparatus that can perform document classification processing based on characters and images included in a document. it can.

請求項3に係る本発明によれば、請求項2に係る発明の効果に加え、文書に含まれる写真、図形、表又は符号化物に基づいて文書の分類処理を行なうことができる文書処理装置を提供することができる。   According to the present invention of claim 3, in addition to the effect of the invention of claim 2, there is provided a document processing apparatus capable of performing document classification processing based on a photograph, a figure, a table, or an encoded product included in a document. Can be provided.

請求項4に係る本発明によれば、請求項2又は3に係る発明の効果に加え、文書に含まれる画像の大きさ、位置、又は数に基づいて文書の分類処理を行なうことができる文書処理装置を提供することができる。   According to the fourth aspect of the present invention, in addition to the effect of the second or third aspect, the document can be classified based on the size, position, or number of images included in the document. A processing device can be provided.

請求項5に係る本発明によれば、請求項1乃至4に係る発明の効果に加え、本構成を有していない場合に比べ、文書の分類を行なう際に、操作者による分類規則の作成の手間を少なくすることができる文書処理装置を提供することができる。   According to the present invention of claim 5, in addition to the effects of the inventions of claims 1 to 4, the operator creates a classification rule when classifying documents as compared to the case without this configuration. Therefore, it is possible to provide a document processing apparatus that can reduce the time and effort required.

請求項6に係る本発明によれば、請求項5に係る本発明の効果に加え、本構成を有していない場合に比べ、容易に所望の分類規則を作成し登録することができる文書処理装置を提供することができる。   According to the sixth aspect of the present invention, in addition to the effect of the present invention according to the fifth aspect, compared to a case where the present configuration is not provided, a document processing that can easily create and register a desired classification rule. An apparatus can be provided.

請求項7に係る本発明によれば、請求項5又は6に係る本発明の効果に加え、本構成を有しない場合に比べて容易に文書の分類を行うことができる文書処理装置を提供することができる。   According to the seventh aspect of the present invention, in addition to the effect of the present invention according to the fifth or sixth aspect, a document processing apparatus capable of easily classifying documents as compared with the case without the present configuration is provided. be able to.

請求項8に係る本発明によれば、請求項1乃至7に係る本発明の効果に加え、読取条件を反映させた分類規則を生成することができる文書処理装置を提供することができる。   According to the present invention of claim 8, in addition to the effects of the present invention of claims 1 to 7, it is possible to provide a document processing apparatus capable of generating a classification rule reflecting a reading condition.

請求項9に係る本発明によれば、請求項1乃至8に係る本発明の効果に加え、操作者の要求を反映させた分類規則を生成することができる文書処理装置を提供することができる。   According to the present invention of claim 9, in addition to the effects of the present invention of claims 1 to 8, it is possible to provide a document processing apparatus capable of generating a classification rule reflecting the operator's request. .

請求項10に係る本発明によれば、請求項1乃至9に係る本発明の効果に加え、文書の種別に応じた分類規則を生成することができる文書処理装置を提供することができる。   According to the tenth aspect of the present invention, in addition to the effects of the present invention according to the first to ninth aspects, it is possible to provide a document processing apparatus capable of generating a classification rule according to the type of document.

請求項11に係る本発明によれば、本構成を有していない場合と比べ、文書の分類処理を効率的に行なうことができるプログラムを提供することができる。   According to the present invention of claim 11, it is possible to provide a program capable of efficiently performing document classification processing as compared with the case where the present configuration is not provided.

本発明の実施形態に係る文書処理装置の一例である画像形成装置10を示す断面図である。1 is a cross-sectional view illustrating an image forming apparatus 10 that is an example of a document processing apparatus according to an embodiment of the present invention. 画像形成装置10のハードウェア構成を示すブロック図である。2 is a block diagram illustrating a hardware configuration of the image forming apparatus 10. FIG. 画像形成装置10において動作する情報処理プログラム70を示すブロック図である。3 is a block diagram showing an information processing program 70 that operates in the image forming apparatus 10. FIG. 特徴抽出部76の構成を示すブロック図である。3 is a block diagram illustrating a configuration of a feature extraction unit 76. FIG. 規則雛形格納部84に記憶されているテーブルの一例を示す表である。7 is a table showing an example of a table stored in a rule template storage unit 84. UI装置50に表示される分類規則の登録に係る画面の第1の例を示す平面図である。FIG. 10 is a plan view illustrating a first example of a screen related to classification rule registration displayed on the UI device 50. UI装置50に表示される分類規則の登録に係る画面の第2の例を示す平面図である。10 is a plan view showing a second example of a screen related to registration of classification rules displayed on the UI device 50. FIG. UI装置50に表示される分類規則の登録に係る画面の第3の例を示す平面図である。10 is a plan view showing a third example of a screen related to registration of a classification rule displayed on the UI device 50. FIG. UI装置50に表示される分類規則の登録に係る画面の第4の例を示す平面図である。10 is a plan view illustrating a fourth example of a screen related to registration of classification rules displayed on the UI device 50. FIG. 分類規則の登録についての動作を示すフローチャートの一例である。It is an example of the flowchart which shows the operation | movement about registration of a classification rule. 文書の分類し、分類に応じた処理を行なう動作を示すフローチャートの一例である。It is an example of the flowchart which shows the operation | movement which classify | categorizes a document and performs the process according to a classification | category. 分類に応じた処理をする際に適用される分類ごとの処理規則の一例を示す表である。It is a table | surface which shows an example of the processing rule for every classification | category applied when processing according to a classification | category.

以下、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る文書処理装置の一例である画像形成装置10を示す断面図である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a cross-sectional view showing an image forming apparatus 10 which is an example of a document processing apparatus according to an embodiment of the present invention.

画像形成装置10は、印刷装置12及び読取装置14を有し、印刷装置12は、例えば3段の記録媒体供給カセット16を有し、これら記録媒体供給カセット16のそれぞれには供給ヘッド18が設けられている。   The image forming apparatus 10 includes a printing device 12 and a reading device 14. The printing device 12 includes, for example, a three-stage recording medium supply cassette 16, and each of these recording medium supply cassettes 16 is provided with a supply head 18. It has been.

記録媒体供給カセット16の一つが選択されると、供給ヘッド18が作動して選択された記録媒体供給カセット16から記録媒体供給路20を介して画像形成部22に供給される。   When one of the recording medium supply cassettes 16 is selected, the supply head 18 is operated to supply the selected recording medium supply cassette 16 to the image forming unit 22 through the recording medium supply path 20.

また、画像形成装置10は、ファクシミリ機能(図示せず)を有してもよい。   Further, the image forming apparatus 10 may have a facsimile function (not shown).

画像形成部22は、イエロー、マゼンタ、シアン及びブラックの各感光体24が併設されていると共に、中間転写ベルト26が設けられている。   The image forming unit 22 is provided with yellow, magenta, cyan, and black photoconductors 24 and an intermediate transfer belt 26.

各感光体24の周囲には、帯電装置、露光装置、現像装置、一次転写装置及びクリーニング装置など(図示せず)が配置され、各感光体24に形成されたトナー像が中間転写ベルト26に転写される。白黒設定された場合は、ブラックのみが作動可能であるようにされる。   A charging device, an exposure device, a developing device, a primary transfer device, a cleaning device, and the like (not shown) are arranged around each photoconductor 24, and a toner image formed on each photoconductor 24 is transferred to the intermediate transfer belt 26. Transcribed. When black and white is set, only black is enabled.

中間転写ベルト26のトナー像は、二次転写ロール28により、送られてきた記録媒体に転写され、定着装置30により定着され、このトナー像が定着された記録媒体が記録媒体排出路32を通って排出部34に排出される。   The toner image on the intermediate transfer belt 26 is transferred to the recording medium sent by the secondary transfer roll 28 and fixed by the fixing device 30. The recording medium on which the toner image is fixed passes through the recording medium discharge path 32. And discharged to the discharge unit 34.

ただし、両面印刷が設定された場合は、定着装置30により表面が定着された記録媒体は、記録媒体排出路32から反転装置36に送られ、この反転装置36で反転され、記録媒体反転路38に送られ、再び記録媒体供給路20に戻され、画像形成部22に送られて裏面の印刷がなされる。   However, when duplex printing is set, the recording medium whose surface has been fixed by the fixing device 30 is sent from the recording medium discharge path 32 to the reversing device 36 and is reversed by the reversing device 36, and the recording medium reversing path 38. Is sent back to the recording medium supply path 20 and sent to the image forming unit 22 to print the back surface.

読取装置14は、両面原稿の読み取りが可能な自動原稿送り装置40を有し、この自動原稿送り装置40により原稿はプラテン42に送られ、このプラテン42上でCCD等からなる読取部44により原稿が読み取られる。また、読取装置14は、操作者によりプラテン42に置かれた原稿を読取部44にて読み取ってもよい。   The reading device 14 includes an automatic document feeder 40 capable of reading a double-sided document. The document is fed to the platen 42 by the automatic document feeder 40, and the document is scanned on the platen 42 by a reading unit 44 composed of a CCD or the like. Is read. The reading device 14 may read a document placed on the platen 42 by the operator using the reading unit 44.

自動原稿送り装置40に原稿がセットされたか否かを検出する原稿セット検出器46が設けられている。また、自動原稿送り装置40はプラテンカバーを兼ねており、このプラテンカバーを開けることにより原稿をプラテン42上に置くことができる。このプラテンカバーの開閉は、プラテンカバー開閉検出器48により検出できるようになっている。   A document set detector 46 for detecting whether or not a document is set on the automatic document feeder 40 is provided. The automatic document feeder 40 also serves as a platen cover, and the document can be placed on the platen 42 by opening the platen cover. The opening / closing of the platen cover can be detected by a platen cover opening / closing detector 48.

読取装置14は、読み取り条件を後述する分類規則生成部82に出力する。ここで、読み取り条件とは、例えば、カラーによる読み取りを行なう設定か、白黒(2階調)による読み取りを行なう設定か、文字のみの原稿用の読み取りを行なう設定か、文字と図形とを含む原稿用の読み取りを行なう設定か、といったように読み取り処理における設定が含まれる。なお、文字とは文字又は文字列をいう。また、読み取り条件には、例えば、自動原稿送り装置40による複数枚の連続する原稿の読み取りがなされたという情報など、読み取った原稿に関わる情報も含まれる。   The reading device 14 outputs the reading conditions to the classification rule generation unit 82 described later. Here, the reading condition is, for example, a setting for reading in color, a setting for reading in black and white (two gradations), a setting for reading only a character document, or a document including characters and figures. The setting in the reading process is included such as whether to set for reading. In addition, a character means a character or a character string. The reading conditions also include information related to the read document, such as information that a plurality of continuous documents have been read by the automatic document feeder 40, for example.

ユーザインターフェース装置50(以下「UI装置50」)は、画像形成装置10と一体に、又はネットワークを介して設けられる。また、UI装置50は、例えばタッチパネルなどからなり、操作者からの画像形成装置10への処理内容についての指示を入力として受け付け、又は情報を表示することができるように構成されている。   The user interface device 50 (hereinafter “UI device 50”) is provided integrally with the image forming apparatus 10 or via a network. Further, the UI device 50 includes, for example, a touch panel, and is configured to accept an instruction about processing content from the operator to the image forming apparatus 10 as an input or display information.

また、この画像形成装置10は、公衆回線へ接続されたファクシミリ用のモデムと、LAN等のネットワークに接続されるネットワーク通信装置が設けられている。画像形成装置10に設けられたネットワーク通信装置を用いることで、読取装置14により読み取った画像をネットワークに接続された端末に送信することができる。また、画像形成装置10は、ネットワーク通信装置を介して、ネットワークに接続された端末からデータを受付ける。   The image forming apparatus 10 is provided with a facsimile modem connected to a public line and a network communication device connected to a network such as a LAN. By using a network communication device provided in the image forming apparatus 10, an image read by the reading device 14 can be transmitted to a terminal connected to the network. In addition, the image forming apparatus 10 receives data from a terminal connected to the network via the network communication apparatus.

図2は、画像形成装置10のハードウェア構成を示すブロック図である。   FIG. 2 is a block diagram illustrating a hardware configuration of the image forming apparatus 10.

図2に示すように、画像形成装置10は、図1のUI装置50とともに、CPU52、メモリ54、入出力インターフェース56、スキャンインターフェース58、プリントインターフェース60、ネットワーク通信インターフェース62、ファクシミリ用のモデムインターフェース64、及び記憶装置66がバス接続された構成となっている。   As shown in FIG. 2, the image forming apparatus 10, along with the UI apparatus 50 of FIG. 1, has a CPU 52, a memory 54, an input / output interface 56, a scan interface 58, a print interface 60, a network communication interface 62, and a facsimile modem interface 64. The storage device 66 is connected by a bus.

つまり、画像形成装置10は、情報処理及び他の装置との通信が可能なコンピュータとしての構成部分を有している。   That is, the image forming apparatus 10 includes a component as a computer capable of information processing and communication with other apparatuses.

CPU52は、メモリ54又は記憶装置66に書き込まれた後述する情報処理プログラム70を実行することにより、各回路を制御する。UI装置50を介して受け付けられた入力はCPU52に伝達され、CPU52からの表示情報がUI装置50に伝達するようにしてある。   The CPU 52 controls each circuit by executing an information processing program 70 described later written in the memory 54 or the storage device 66. Input received via the UI device 50 is transmitted to the CPU 52, and display information from the CPU 52 is transmitted to the UI device 50.

なお、CPU52は、CDROM等の記憶媒体に格納された情報処理プログラム70を実行してもよく、又はネットワーク通信インターフェース62を介して提供される情報処理プログラム70を実行してもよい。   The CPU 52 may execute the information processing program 70 stored in a storage medium such as a CD ROM, or may execute the information processing program 70 provided via the network communication interface 62.

入出力インターフェース56には、図1の原稿セット検出器46からの原稿セット検出信号と、図1のプラテンカバー開閉検出器48からのプラテンカバー開閉信号が入力される。   A document set detection signal from the document set detector 46 in FIG. 1 and a platen cover open / close signal from the platen cover open / close detector 48 in FIG. 1 are input to the input / output interface 56.

スキャンインターフェース58は、図1の読取装置14に接続され、プリントインターフェース60は、図1の印刷装置12に接続されている。   The scan interface 58 is connected to the reading device 14 of FIG. 1, and the print interface 60 is connected to the printing device 12 of FIG.

ネットワーク通信インターフェース62は、画像形成装置10に設けられたネットワーク通信装置に接続され、モデムインターフェース64は、画像形成装置10に設けられたファクシミリ用モデムに接続されている。   The network communication interface 62 is connected to a network communication device provided in the image forming apparatus 10, and the modem interface 64 is connected to a facsimile modem provided in the image forming apparatus 10.

また、バスには記憶装置66が接続されており、例えばネットワークに接続された端末から送信された画像を、画像形成装置10に設けられた記憶装置66に記憶することができる。   Further, a storage device 66 is connected to the bus, and for example, an image transmitted from a terminal connected to the network can be stored in the storage device 66 provided in the image forming apparatus 10.

図3は、画像形成装置10において動作する情報処理プログラム70を示すブロック図である。図3に示すように、情報処理プログラム70は、文書受付部72、オブジェクト分離部74、特徴抽出部76、文書種別特定部78、文書種別格納部80、分類規則生成部82、規則雛形格納部84、文字情報受付部86、分類規則提示部88、分類規則登録部90、分類規則格納部92、編集受付部94及び分類部96から構成される。   FIG. 3 is a block diagram showing an information processing program 70 that operates in the image forming apparatus 10. As shown in FIG. 3, the information processing program 70 includes a document reception unit 72, an object separation unit 74, a feature extraction unit 76, a document type identification unit 78, a document type storage unit 80, a classification rule generation unit 82, and a rule template storage unit. 84, a character information reception unit 86, a classification rule presentation unit 88, a classification rule registration unit 90, a classification rule storage unit 92, an editing reception unit 94, and a classification unit 96.

文書受付部72は、画像形成装置10へ入力された文書を受付ける。本実施形態では、文書受付部72は、読取装置14により読み取った文書又はネットワークに接続された端末から送られた文書を受付ける。なお、文書とは、情報が記述されたデータをいい、文字を含むデータ以外にも、文字を含まない図面又は写真なども含まれる。また、本実施形態の説明において、「文字」とは、文字又は文字列を意味する。文書受付部72は、受付けた文書をオブジェクト分離部74へ出力する。   The document receiving unit 72 receives a document input to the image forming apparatus 10. In the present embodiment, the document receiving unit 72 receives a document read by the reading device 14 or a document sent from a terminal connected to the network. Note that a document refers to data in which information is described, and includes not only data including characters but also drawings or photographs that do not include characters. In the description of the present embodiment, “character” means a character or a character string. The document reception unit 72 outputs the received document to the object separation unit 74.

オブジェクト分離部74は、文書を文書中のオブジェクトごとに分離して、特徴抽出部76へ出力する。ここで、オブジェクトとは、文書の内容を構成する物のことをいい、文字と画像とに大別され、画像には、表、写真、符号化物、図などが含まれる。なお、符号化物とは、符号化された情報の画像をいい、例えばバーコード、QRコードが該当する。本実施形態の特徴抽出部76は、文書を文字領域、画像領域(具体的には、表領域、写真領域、及び符号化物領域)に分離し、分離した各領域のデータを特徴抽出部76へ出力する。   The object separation unit 74 separates the document for each object in the document and outputs the document to the feature extraction unit 76. Here, an object refers to an object that constitutes the content of a document, and is broadly divided into a character and an image. The image includes a table, a photograph, an encoded object, a figure, and the like. Note that the encoded product refers to an image of encoded information, and corresponds to, for example, a barcode or a QR code. The feature extraction unit 76 of this embodiment separates a document into a character region and an image region (specifically, a table region, a photographic region, and an encoded product region), and the data of each separated region is sent to the feature extraction unit 76. Output.

特徴抽出部76は、文書に含まれる特徴を抽出する。本実施形態の特徴抽出部76は、オブジェクト分離部74により分離された文書中の各領域のデータについて、それぞれ特徴を抽出する。また、特徴抽出部76は、文書の分類規則を生成する場合には、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力し、文書の分類を行なう場合には、抽出した特徴を分類部96へ出力する。なお、特徴抽出部76の詳細な構成については、後述する。   The feature extraction unit 76 extracts features included in the document. The feature extraction unit 76 of the present embodiment extracts features for each area of data in the document separated by the object separation unit 74. The feature extraction unit 76 outputs the extracted features to the document type identification unit 78 and the classification rule generation unit 82 when generating the document classification rules, and extracts the features when classifying the documents. Is output to the classification unit 96. The detailed configuration of the feature extraction unit 76 will be described later.

文書種別特定部78は、文書から抽出された特徴に基づいて、当該文書が予め定めた文書の種類のうちいずれに該当するかを特定する。本実施形態では、文書種別特定部78は、文書種別格納部80に記憶されている文書種別ごとの特徴と、特徴抽出部76により抽出された特徴とを比較し、文書種別を特定する。文書種別特定部78は、特定した文書種別を分類規則生成部82へ通知する。   The document type identification unit 78 identifies which of the predetermined document types the document corresponds to based on the features extracted from the document. In the present embodiment, the document type identification unit 78 compares the features for each document type stored in the document type storage unit 80 with the features extracted by the feature extraction unit 76, and identifies the document type. The document type identification unit 78 notifies the classification rule generation unit 82 of the identified document type.

文書種別格納部80は、予め定めた文書種別ごとに、文書種別と当該文書種別に共通する特徴とを対応付けて記憶する。本実施形態における文書種別格納部80は、文書種別と当該文書種別に共通する特徴とをテーブルとして格納する。   The document type storage unit 80 stores a document type and a feature common to the document type in association with each other for each predetermined document type. The document type storage unit 80 in the present embodiment stores the document type and features common to the document type as a table.

文書種別格納部80は、例えば、文書種別として、「申請書」文書、「図面」文書、「写真」文書、「バーコード付き書類」文書、「説明書」文書、「稟議書」文書、「教育用書類」文書などといった予め定めた文書種別それぞれに対し、当該文書種別の特徴を対応付けて記憶する。   The document type storage unit 80 includes, for example, “application” document, “drawing” document, “photo” document, “barcode-added document” document, “description” document, “approval document” document, “ For each predetermined document type such as an “educational document” document, the characteristics of the document type are stored in association with each other.

文書種別格納部80が記憶する特徴は、特徴抽出部76により抽出される特徴のうち各文書種別に特有のものであり、例えば、文書種別「申請書」については、文書中の題目(タイトル)位置に「申請書」という文字があることを特徴として記憶する。また、例えば、文書種別「写真」については文書中に写真があることを特徴として記憶し、文書種別「バーコード付き書類」については文書中にバーコードがあることを特徴として記憶する。   The features stored in the document type storage unit 80 are unique to each document type among the features extracted by the feature extraction unit 76. For example, for the document type “application”, the subject (title) in the document It memorize | stores as a characteristic that there exists a character of "application" in a position. Further, for example, the document type “photo” is stored as a feature that there is a photo in the document, and the document type “document with barcode” is stored as a feature that there is a barcode in the document.

なお、文書種別格納部80は、文書種別ごとに1つの特徴ではなく、複数の特徴を組み合わせたものを記憶してもよい。例えば、文書種別「申請書」について、文書中の題目位置に「申請書」という文字があり、且つ、文書中に表画像が含まれることを特徴として記憶してもよい。   The document type storage unit 80 may store a combination of a plurality of features instead of one feature for each document type. For example, the document type “application form” may be stored as a feature that there is a character “application form” at the title position in the document and a table image is included in the document.

分類規則生成部82は、文書から抽出された特徴に基づいて、文書を分類する分類規則を生成する。本実施形態における分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。   The classification rule generation unit 82 generates a classification rule for classifying the document based on the features extracted from the document. The classification rule generation unit 82 according to the present embodiment includes a template and feature extraction unit corresponding to the document type specified by the document type specification unit 78 among the rule types for each document type stored in the rule template storage unit 84. A classification rule is generated using the features extracted by 76.

また、分類規則生成部82は、文字情報受付部86により受付けられた文字情報に基づいて分類規則を生成してもよい。   Further, the classification rule generation unit 82 may generate a classification rule based on the character information received by the character information reception unit 86.

文字情報受付部86は、UI装置50を介して操作者により入力された文字を受付け、分類規則生成部82へ出力する。操作者は、例えば、特定の文字を分類規則の中に含めたい場合又は特定の文字に関連する文字を分類規則の中に含めたい場合などに、当該特定の文字を入力する。   The character information receiving unit 86 receives characters input by the operator via the UI device 50 and outputs them to the classification rule generating unit 82. For example, when the operator wants to include a specific character in the classification rule or to include a character related to the specific character in the classification rule, the operator inputs the specific character.

分類規則生成部82は、特徴抽出部76が抽出した文字のうち、文字情報受付部86により受付けられた文字に基づいて選択された文字を用いて分類規則を生成する。例えば、分類規則生成部82は、文字情報受付部86により受付けられた文字又は文字情報受付部86により受付けられた文字と関連する文字を用いて分類規則を生成する。   The classification rule generation unit 82 generates a classification rule using characters selected based on the characters received by the character information reception unit 86 among the characters extracted by the feature extraction unit 76. For example, the classification rule generation unit 82 generates a classification rule using a character received by the character information reception unit 86 or a character related to the character received by the character information reception unit 86.

また、分類規則生成部82は、読取装置14からの読み取り条件に基づいて分類規則を生成してもよい。   Further, the classification rule generation unit 82 may generate a classification rule based on a reading condition from the reading device 14.

分類規則生成部82は、生成した分類規則を分類規則提示部88及び分類規則登録部90へ出力する。分類規則生成部82により生成される分類規則についての詳細は、後述する。   The classification rule generation unit 82 outputs the generated classification rule to the classification rule presentation unit 88 and the classification rule registration unit 90. Details of the classification rule generated by the classification rule generation unit 82 will be described later.

なお、分類規則生成部82は、文書から抽出された特徴に基づいて、文書を分類する分類規則を生成すればよく、文書種別特定部78による文書種別の特定を行なわずに特徴抽出部76が抽出した特徴に基づいて分類規則を生成してもよい。   The classification rule generation unit 82 may generate a classification rule for classifying the document based on the features extracted from the document, and the feature extraction unit 76 does not specify the document type by the document type specification unit 78. Classification rules may be generated based on the extracted features.

規則雛形格納部84は、予め定めた文書種別ごとに、文書種別と当該文書種別の分類に用いる規則の雛形とを対応付けて記憶する。本実施形態における規則雛形格納部84は、文書種別と当該文書種別に対応する規則の雛形とをテーブルとして格納する。   The rule template storage unit 84 stores a document type and a rule template used for classification of the document type in association with each other for each predetermined document type. The rule template storage unit 84 in the present embodiment stores document types and rule templates corresponding to the document types as a table.

分類規則提示部88は、分類規則生成部82により生成された分類規則を操作者に提示する。本実施形態の分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に表示して、操作者に提示する。   The classification rule presentation unit 88 presents the classification rule generated by the classification rule generation unit 82 to the operator. The classification rule presentation unit 88 of the present embodiment displays the classification rule generated by the classification rule generation unit 82 on the UI device 50 and presents it to the operator.

分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。   The classification rule registration unit 90 registers the classification rule generated by the classification rule generation unit 82 or the classification rule edited by the editing reception unit 94 in the classification rule storage unit 92.

分類規則格納部92は、文書の分類に用いる分類規則を記憶するデータベースである。   The classification rule storage unit 92 is a database that stores classification rules used for document classification.

編集受付部94は、分類規則生成部82により生成された分類規則又は分類規則格納部92に記憶されている分類規則に対する編集操作を受付け、編集操作に対応する編集を分類規則に行い、編集された分類規則を分類規則登録部90へ出力する。本実施形態の編集受付部94は、UI装置50を介して、分類規則に対する編集操作を受付け、受付けた編集操作に対応する編集を分類規則に行なう。   The edit accepting unit 94 receives an editing operation on the classification rule generated by the classification rule generating unit 82 or the classification rule stored in the classification rule storage unit 92, and edits corresponding to the editing operation are performed on the classification rule and edited. The obtained classification rule is output to the classification rule registration unit 90. The edit receiving unit 94 of the present embodiment receives an editing operation for the classification rule via the UI device 50, and performs editing corresponding to the received editing operation on the classification rule.

分類部96は、特徴抽出部76により抽出された特徴に対して、分類規則格納部92に格納されている分類規則を適用し、文書を分類する。   The classification unit 96 classifies the document by applying the classification rule stored in the classification rule storage unit 92 to the features extracted by the feature extraction unit 76.

上記構成によれば、受付けた文書の特徴に基づいて分類規則が生成される。操作者は、分類規則の作成する場合、分類規則生成部82により生成された分類規則を登録し、又は提示された分類規則を編集すればよい。このように、文書の分類処理が効率的になされる。   According to the above configuration, the classification rule is generated based on the feature of the received document. When creating the classification rule, the operator may register the classification rule generated by the classification rule generation unit 82 or edit the presented classification rule. In this way, document classification processing is performed efficiently.

次に、特徴抽出部76の詳細な構成について説明する。
図4は、特徴抽出部76の構成を示すブロック図である。図4に示すように、特徴抽出部76は、第1の特徴抽出部100及び第2の特徴抽出部102から構成されている。
Next, a detailed configuration of the feature extraction unit 76 will be described.
FIG. 4 is a block diagram illustrating a configuration of the feature extraction unit 76. As shown in FIG. 4, the feature extraction unit 76 includes a first feature extraction unit 100 and a second feature extraction unit 102.

第1の特徴抽出部100は、文書中の文字領域についての特徴を抽出する。本実施形態の第1の特徴抽出部100は、オブジェクト分離部74により分離された文字領域のデータから、文字の抽出を行なう。第1の特徴抽出部100は、文字認識部104及び文字特徴抽出部106から構成されている。   The first feature extraction unit 100 extracts features about character regions in the document. The first feature extraction unit 100 of this embodiment extracts characters from the data of the character area separated by the object separation unit 74. The first feature extraction unit 100 includes a character recognition unit 104 and a character feature extraction unit 106.

文字認識部104は、文書中の文字領域について、文字認識を行い、文字領域に含まれる文字を認識し、文字特徴抽出部106へ出力する。   The character recognition unit 104 performs character recognition on the character region in the document, recognizes the character included in the character region, and outputs it to the character feature extraction unit 106.

文字特徴抽出部106は、文字認識部104により認識された文字について、例えば形態素解析を行ない、名詞などの文字及び当該文字の文書内における位置を特徴として抽出する。また、文字特徴抽出部106は、抽出された文字が複数ある場合には、文書中の出現頻度に応じた優先順位を抽出された文字に対して設定してもよい。以下の説明において、文字特徴抽出部106により抽出された文字をキーワードということがある。   The character feature extraction unit 106 performs, for example, morphological analysis on the characters recognized by the character recognition unit 104, and extracts characters such as nouns and positions of the characters in the document as features. In addition, when there are a plurality of extracted characters, the character feature extraction unit 106 may set a priority order corresponding to the appearance frequency in the document for the extracted characters. In the following description, the characters extracted by the character feature extraction unit 106 may be referred to as keywords.

第2の特徴抽出部102は、画像についての情報として、文書中の画像領域についての特徴を抽出する。本実施形態の第2の特徴抽出部102は、オブジェクト分離部74により分離された表領域、写真領域及び符号化物領域のデータから、特徴の抽出を行なう。第2の特徴抽出部102は、表特徴抽出部108、写真特徴抽出部110及び符号化物特徴抽出部112から構成されている。   The second feature extraction unit 102 extracts features about an image region in the document as information about the image. The second feature extraction unit 102 of the present embodiment extracts features from the data of the table area, the photograph area, and the encoded product area separated by the object separation unit 74. The second feature extraction unit 102 includes a table feature extraction unit 108, a photographic feature extraction unit 110, and an encoded product feature extraction unit 112.

表特徴抽出部108は、文書中の表画像の特徴を抽出する。本実施形態の表特徴抽出部108は、文書中の表画像の大きさ、文書内における表画像の位置、文書中の表画像の総数などを特徴として抽出する。   A table feature extraction unit 108 extracts features of a table image in a document. The table feature extraction unit 108 of the present embodiment extracts, as features, the size of the table image in the document, the position of the table image in the document, the total number of table images in the document, and the like.

写真特徴抽出部110は、文書中の写真画像の特徴を抽出する。本実施形態の写真特徴抽出部110は、文書中の写真画像の大きさ、文書内における写真画像の位置、文書中の写真画像の総数などを特徴として抽出する。   The photograph feature extraction unit 110 extracts the feature of the photograph image in the document. The photo feature extraction unit 110 of the present embodiment extracts features such as the size of a photo image in the document, the position of the photo image in the document, the total number of photo images in the document, and the like.

符号化物特徴抽出部112は、文書中の符号化物画像の特徴を抽出する。本実施形態の符号化物特徴抽出部112は、文書中の符号化物画像の大きさ、文書内における符号化物画像の位置、文書中の符号化物画像の総数などを特徴として抽出する。なお、符号化物特徴抽出部112は、符号化物画像を復号化して、符号化されていた情報を特徴として抽出してもよい。   The encoded product feature extraction unit 112 extracts features of the encoded product image in the document. The encoded product feature extraction unit 112 of the present embodiment extracts the size of the encoded product image in the document, the position of the encoded product image in the document, the total number of encoded images in the document, and the like as features. The encoded product feature extraction unit 112 may decode the encoded product image and extract the encoded information as a feature.

なお、第2の特徴抽出部102は、画像の特徴として、文書に含まれる図の情報を抽出してもよい。   Note that the second feature extraction unit 102 may extract information of a figure included in the document as the feature of the image.

次に、分類規則生成部82により生成される分類規則について説明する。分類規則生成部82により生成される分類規則は、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102により抽出された特徴との組合せに基づいて生成することができる。   Next, the classification rule generated by the classification rule generation unit 82 will be described. The classification rule generated by the classification rule generation unit 82 can be generated based on the combination of the features extracted by the first feature extraction unit 100 and the features extracted by the second feature extraction unit 102.

例えば、分類規則生成部82は、第1の特徴抽出部100により抽出された特徴としてのキーワードAと、第2の特徴抽出部102により抽出された特徴としての写真画像とに基づいて、次のような分類規則を生成する。例えば、分類規則生成部82は、文書中にキーワードAを含み、かつ、文書中に写真画像が含まれていることを条件として当該文書を文書種類Xに分類する規則を生成する。   For example, the classification rule generation unit 82 uses the keyword A as the feature extracted by the first feature extraction unit 100 and the photographic image as the feature extracted by the second feature extraction unit 102 to A classification rule like this is generated. For example, the classification rule generation unit 82 generates a rule for classifying the document into the document type X on condition that the keyword A is included in the document and a photographic image is included in the document.

上記の例では、文書種類Xへの分類規則として、キーワードAに関して、キーワードAの有無のみを条件としたが、例えば、キーワードAが文書中の指定領域(タイトル位置、本文記載位置、文書下部など)に存在することを条件としてもよい。   In the above example, as a classification rule for the document type X, with respect to the keyword A, only the presence or absence of the keyword A is used as a condition. ) May exist as a condition.

また、上記の例では、文書種類Xへの分類規則として、写真画像に関して、写真画像の有無のみを条件としたが、例えば、N×N画素以上の写真画像が文書中に存在する、写真画像が文書中の指定領域に存在する、又はN×N画素以上の写真画像が文書中の指定領域に存在することなどを条件としてもよい。   In the above example, as a classification rule for the document type X, only the presence or absence of a photographic image is used as a condition for a photographic image. For example, a photographic image in which a photographic image having N × N pixels or more exists in the document. May exist in a designated area in the document, or a photographic image having N × N pixels or more may exist in the designated area in the document.

このように、分類規則生成部82により、特徴抽出部76が抽出する特徴について自由に組み合わされた分類規則が生成される。   In this manner, the classification rule generation unit 82 generates a classification rule that is freely combined with respect to the features extracted by the feature extraction unit 76.

なお、分類規則生成部82は、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102により抽出された特徴とを分類規則の条件として併せ持たなくてもよい。例えば、分類規則生成部82は、第1の特徴抽出部100により抽出される特徴のみを条件として持つ分類規則を生成してもよいし、第2の特徴抽出部102により抽出される特徴のみを条件として持つ分類規則を生成してもよい。   Note that the classification rule generation unit 82 may not have the feature extracted by the first feature extraction unit 100 and the feature extracted by the second feature extraction unit 102 as a classification rule condition. For example, the classification rule generation unit 82 may generate a classification rule having only the features extracted by the first feature extraction unit 100 as a condition, or only the features extracted by the second feature extraction unit 102. Classification rules possessed as conditions may be generated.

また、分類規則生成部82は、第2の特徴抽出部102により抽出される特徴の複数を条件として持つ分類規則を生成してもよい。例えば、分類規則生成部82は、文書中に写真画像が含まれていること、かつ、文書中に符号化物画像がm個含まれていることを条件として当該文書を文書種類Yに分類する規則として生成してもよい。   Further, the classification rule generation unit 82 may generate a classification rule having a plurality of features extracted by the second feature extraction unit 102 as a condition. For example, the classification rule generation unit 82 classifies the document into the document type Y on the condition that a photographic image is included in the document and m encoded images are included in the document. May be generated as

このように、文書中の文字についての特徴と文書中の画像についての特徴とに基づいて、自由に組み合わされた分類規則が生成され、操作者の要求に沿った分類がなされる。   In this way, freely combined classification rules are generated based on the characteristics of characters in the document and the characteristics of images in the document, and classification is performed according to the operator's request.

次に、本実施形態における分類規則の生成について、詳細に説明する。本実施形態における分類規則生成部82は、上記のとおり、規則雛形格納部84に記憶されている文書種別と文書種別に対応する規則の雛形とを対応付けるテーブルを用いて、分類規則を生成する。   Next, generation of classification rules in the present embodiment will be described in detail. As described above, the classification rule generation unit 82 according to the present embodiment generates a classification rule using the table that associates the document type stored in the rule template storage unit 84 with the rule template corresponding to the document type.

図5は、規則雛形格納部84に記憶されているテーブルの一例を示す表である。図5に示されたテーブルには、文書種別特定部78により特定される文書種別ごとに、分類規則生成部82が生成する規則の雛形が格納されている。   FIG. 5 is a table showing an example of a table stored in the rule template storage unit 84. The table shown in FIG. 5 stores a rule model generated by the classification rule generating unit 82 for each document type specified by the document type specifying unit 78.

なお、図5に一例として示した分類規則の雛型としては、第1の特徴抽出部100による特徴に関する雛形(図5中において、オブジェクトの列が"文字"とされている行の分類規則)と第2の特徴抽出部102による特徴に関する雛形(図5中において、オブジェクトの列が"画像"とされている行の分類規則)とが格納されている。   As a template of the classification rule shown as an example in FIG. 5, a template related to the feature by the first feature extraction unit 100 (a classification rule of a row in which an object column is “character” in FIG. 5). And a template related to the feature by the second feature extraction unit 102 (the classification rule of the row in which the column of the object is “image” in FIG. 5).

図5において、例えば、文書種別特定部78により特定される文書種別が申請書であった場合、分類規則生成部82は分類規則の生成において、文字のオブジェクトについての雛形「"申請書"@タイトル × キーワード@本文」及び画像のオブジェクトについての雛形「表画像」を用いる。   In FIG. 5, for example, when the document type specified by the document type specifying unit 78 is an application form, the classification rule generation unit 82 generates a template ““ application form ”@title for the character object in generating the classification rule. × Use the keyword “text” and the template “table image” for the image object.

ここで、「"申請書"@タイトル」は、文書中のタイトル位置に"申請書"という文字があることを条件とすることを意味しており、「キーワード@本文」は、文書中の本文位置にキーワードがあることを条件とすることを意味しており、両条件を繋ぐ「×」は、AND条件であることを意味している。   Here, "" Application Form "@Title" means that there is a character "Application Form" at the title position in the document, and "Keyword @ Body" means the text in the document. This means that there is a keyword at the position, and “x” connecting both conditions means an AND condition.

また、雛形における「キーワード」とは、第1の特徴抽出部100により抽出された文字のうち、いずれかの文字を当てはめて分類規則を生成することを意味している。例えば、分類規則生成部82は、第1の特徴抽出部100により抽出された文字のうち優先順位の一番高い文字を当てはめて分類規則を生成する。なお、優先順位は、例えば、文書中の出現頻度、上述の文字情報受付部86が受付けた文字との関連性などによって決定される。   Further, the “keyword” in the template means that a classification rule is generated by applying any of the characters extracted by the first feature extraction unit 100. For example, the classification rule generation unit 82 generates a classification rule by applying the character with the highest priority among the characters extracted by the first feature extraction unit 100. The priority order is determined by, for example, the appearance frequency in the document, the relevance with the character received by the character information receiving unit 86 described above, and the like.

本実施形態における分類規則生成部82は、雛形テーブルに示された文字のオブジェクトについての条件と画像のオブジェクトの条件とをAND条件で組み合わせて分類規則を生成するが、例えばOR条件で組み合わせても構わない。   The classification rule generation unit 82 in the present embodiment generates a classification rule by combining the condition for the character object shown in the template table and the condition for the object of the image with an AND condition. I do not care.

上記の例において、例えば、分類規則を生成する基となる文書Pに対し、第1の特徴抽出部100が抽出したキーワードのうち優先順位が最も高いキーワードがキーワードAであるとすると、分類規則生成部82は、「"申請書"@タイトル × "キーワードA"@本文」かつ「文書Pの表画像と大きさ及び位置が同程度の表画像が存在すること」を分類規則として生成し、分類規則提示部88へ出力する。ここで、同程度とは、両者の差が予め定めた閾値以内であることをいう。   In the above example, if, for example, the keyword A has the highest priority among the keywords extracted by the first feature extraction unit 100 for the document P that is the basis for generating the classification rule, the classification rule is generated. The part 82 generates “the application form” @ title × “keyword A” @text ”and“ a table image having the same size and position as the table image of the document P ”as a classification rule. Output to the rule presentation unit 88. Here, “similar” means that the difference between the two is within a predetermined threshold.

なお、図5に示した例では、このように、画像のオブジェクトについての条件は、画像の大きさ及び位置を要件とするものとしているが、画像の有無を要件してもよく、画像の大きさを要件としてもよく、又は画像の位置を要件としてもよい。さらには、画像の有無、大きさ、位置のいずれを要件とするのかについても雛形として記憶していてもよい。   In the example shown in FIG. 5, the condition for the image object requires the size and position of the image as described above. However, the presence or absence of the image may be required. It may be a requirement, or a position of an image may be a requirement. Further, it may be stored as a template whether the presence / absence, size, or position of an image is a requirement.

また、分類規則生成部82は、特徴抽出部76により抽出された特徴以外に、読取装置14からの読み取り条件を分類規則に入れてもよい。例えば、「"申請書"@タイトル × "キーワードA"@本文」かつ「文書Pの表画像と大きさ及び位置が同程度の表画像が存在すること」かつ「n枚以上の原稿を読み取った文書であること」を分類規則として生成してもよい。   In addition to the features extracted by the feature extraction unit 76, the classification rule generation unit 82 may put a reading condition from the reading device 14 in the classification rule. For example, "" Application Form "@Title x" Keyword A "@Body" and "There must be a table image of the same size and position as the table image of document P" and "n or more originals were scanned “A document” may be generated as a classification rule.

また、読み取り条件に応じて、雛形テーブルに示された画像オブジェクトの条件を利用するか否かを決定してもよい。例えば、読み取り条件として、カラーによる読み取りを行なう設定がなされた場合、操作者は文書に含まれる画像を重視している可能性が考えられることから、分類規則生成部82は、少なくとも画像オブジェクトの条件を用いて分類規則を生成するとしてもよい。   Further, it may be determined whether to use the condition of the image object shown in the template table according to the reading condition. For example, if the reading condition is set to perform color reading, the operator may consider the image included in the document as important, so the classification rule generation unit 82 at least sets the image object condition. A classification rule may be generated using.

次に、分類規則提示部88による分類規則の提示について説明する。
図6は、UI装置50に表示される分類規則の登録に係る画面の第1の例を示す平面図である。なお、図6、後述する図7、8及び9に示される画面は、例えば、分類規則提示部88によって表示される。
Next, presentation of classification rules by the classification rule presentation unit 88 will be described.
FIG. 6 is a plan view illustrating a first example of a screen related to registration of classification rules displayed on the UI device 50. Note that the screens shown in FIG. 6 and FIGS. 7, 8 and 9 described later are displayed by the classification rule presentation unit 88, for example.

図6に示す画面では、表示切替タブ120及び表示切替タブ群122により表示画面を切り替えることができ、表示切替タブ120では、新規の分類規則を登録する場合の画面が表示され、表示切替タブ群122のいずれかのタブでは、分類規則格納部92に既に格納されている分類規則を編集する場合の画面が表示される。なお、図6に示す例では、表示切替タブ120による表示がなされている状態を示している。   In the screen shown in FIG. 6, the display screen can be switched by the display switching tab 120 and the display switching tab group 122. The display switching tab 120 displays a screen for registering a new classification rule, and the display switching tab group. In any of the tabs 122, a screen for editing a classification rule already stored in the classification rule storage unit 92 is displayed. Note that the example shown in FIG. 6 shows a state where display is performed by the display switching tab 120.

また、図6に示す画面には、文書種類名を設定する文書種類名設定部124、文書を分類するための分類規則を設定する文書分類規則設定部126、分類した文書に付けるファイル名を設定するファイル名規則設定部128がある。   In the screen shown in FIG. 6, a document type name setting unit 124 for setting a document type name, a document classification rule setting unit 126 for setting a classification rule for classifying a document, and a file name to be given to the classified document are set. There is a file name rule setting unit 128 to perform.

ここで、分類規則提示部88は、分類規則生成部82により生成された分類規則を文書分類規則設定部126に提示する。なお、分類規則生成部82は、分類規則の生成と同様、例えば文書種別特定部78により特定された文書種別に基づいて、文書種類名又はファイル名についても生成し、分類規則提示部88は、分類規則生成部82が生成した文書種類名又はファイル名を文書種類名設定部124又は設定するファイル名規則設定部128に提示する構成としてもよい。   Here, the classification rule presentation unit 88 presents the classification rule generated by the classification rule generation unit 82 to the document classification rule setting unit 126. Similar to the generation of the classification rule, the classification rule generation unit 82 also generates a document type name or file name based on the document type specified by the document type specification unit 78, for example. The document type name or file name generated by the classification rule generation unit 82 may be presented to the document type name setting unit 124 or the file name rule setting unit 128 to be set.

図6に示す画面の例では、分類規則生成部82により生成された分類規則として、次のような分類規則が提示されている。すなわち、図6に示す画面の例では、文書のタイトル部分に"説明書"の文字があり、かつ、文書の本文部分に"株式会社abc"の文字がある文書を文書種類「説明書」に分類する分類規則を提示している。   In the example of the screen shown in FIG. 6, the following classification rule is presented as the classification rule generated by the classification rule generation unit 82. That is, in the example of the screen shown in FIG. 6, a document having the text “instruction” in the title part of the document and the text “abc” in the body part of the document is set as the document type “instruction”. A classification rule to classify is presented.

また、図6に示す画面には、文書種類名設定部124、文書分類規則設定部126又はファイル名規則設定部128に提示されている設定に対し、キーボード入力により編集するためのキーボード入力ボタン130、消去する消去ボタン132、分類規則提示部88による提示をさせる自動ボタン134を有する。   Further, the screen shown in FIG. 6 includes a keyboard input button 130 for editing the settings presented in the document type name setting unit 124, the document classification rule setting unit 126, or the file name rule setting unit 128 by keyboard input. , An erasing button 132 for erasing, and an automatic button 134 for causing the classification rule presenting unit 88 to present it.

また、文書種類名設定部124、文書分類規則設定部126及びファイル名規則設定部128に提示されている設定を分類規則格納部92に登録する登録ボタン136と、登録した設定を削除する削除ボタン138を有する。   Also, a registration button 136 for registering the settings presented in the document type name setting unit 124, the document classification rule setting unit 126, and the file name rule setting unit 128 in the classification rule storage unit 92, and a delete button for deleting the registered settings. 138.

さらに図6に示す画面には、分類規則生成部82が生成した分類規則を編集するために、分類規則に用いるキーワードを変更するキーワード変更部140、分類規則に用いる文書中の領域を変更する領域変更部142、分類規則に用いる画像を変更する画像変更部144、分類規則に用いる論理を変更する論理変更部146、及び分類規則生成の基となる文書を表示する文書表示部148を有する。   Further, in the screen shown in FIG. 6, in order to edit the classification rule generated by the classification rule generation unit 82, a keyword changing unit 140 for changing a keyword used for the classification rule, and an area for changing a region in the document used for the classification rule. A change unit 142, an image change unit 144 that changes an image used for a classification rule, a logic change unit 146 that changes a logic used for a classification rule, and a document display unit 148 that displays a document that is a basis for generating a classification rule.

キーワード変更部140には、第1の特徴抽出部100により抽出されたキーワードが列挙されており、操作者は列挙されたキーワードのうちいずれかを選択することにより、当該キーワードを用いるよう分類規則を編集することができる。   In the keyword changing unit 140, the keywords extracted by the first feature extracting unit 100 are listed, and the operator selects a keyword from among the listed keywords and sets a classification rule to use the keyword. Can be edited.

領域変更部142には、文書における位置が列挙されており、操作者は列挙された位置のうちいずれかを選択することにより、当該位置を用いるよう分類規則を編集することができる。   The area changing unit 142 lists positions in the document, and the operator can edit the classification rule to use the position by selecting one of the listed positions.

画像変更部144には、第2の特徴抽出部102により抽出された画像の種類が列挙されており、操作者は列挙された画像の種類のうちいずれかを選択することにより、当該画像の種類を用いるよう分類規則を編集することができる。   The image change unit 144 lists the types of images extracted by the second feature extraction unit 102, and the operator selects one of the listed image types to select the type of the image. The classification rules can be edited to use

論理変更部146には、分類規則に用いることが可能な論理が列挙されており、操作者は、列挙された論理を用いて、分類規則を編集することができる。   The logic changing unit 146 lists logics that can be used for the classification rules, and the operator can edit the classification rules using the listed logics.

図7は、UI装置50に表示される分類規則の登録に係る画面の第2の例を示す平面図である。   FIG. 7 is a plan view illustrating a second example of a screen related to registration of classification rules displayed on the UI device 50.

図7に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図7に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書における写真150と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。   In the screen shown in FIG. 7, the feature extracted by the first feature extraction unit 100 and the second feature extraction unit 102 (photo feature extraction unit 110) are extracted as the classification rule generated by the classification rule generation unit 82. A classification rule that combines these features is presented. Specifically, the screen shown in FIG. 7 has characters of “instructions” in the title portion of the document, and at the same position as the photo 150 in the document displayed on the document display unit 148. A classification rule for classifying a document having a photograph of a size into a document type “instruction” is presented. Note that the same degree means that the difference between the two is within a predetermined threshold.

また、図7に示す画面では、画像についての条件を変更するためのポップアップ表示である画面条件変更部152が表示されており、操作者は、画面条件変更部152に表示された条件のうち所望の条件を選択することにより、画像についての条件を変更することができる。   Further, on the screen shown in FIG. 7, a screen condition changing unit 152 that is a pop-up display for changing the condition for the image is displayed, and the operator can select a desired condition among the conditions displayed on the screen condition changing unit 152. By selecting this condition, the condition for the image can be changed.

図8は、UI装置50に表示される分類規則の登録に係る画面の第3の例を示す平面図である。   FIG. 8 is a plan view illustrating a third example of a screen related to registration of classification rules displayed on the UI device 50.

図8に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(符号化物特徴抽出部112)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図8に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書におけるバーコード154と同程度の大きさのバーコードを有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。   The screen shown in FIG. 8 includes the features extracted by the first feature extraction unit 100 and the second feature extraction unit 102 (encoded product feature extraction unit 112) as the classification rules generated by the classification rule generation unit 82. A classification rule that combines the extracted features is presented. Specifically, the screen shown in FIG. 8 has characters of “instructions” in the title portion of the document, and has the same size as the barcode 154 in the document displayed on the document display unit 148. A classification rule for classifying a document having a barcode into a document type “instruction” is presented. Note that the same degree means that the difference between the two is within a predetermined threshold.

図9は、UI装置50に表示される分類規則の登録に係る画面の第4の例を示す平面図である。   FIG. 9 is a plan view illustrating a fourth example of a screen related to registration of classification rules displayed on the UI device 50.

図9に示す画面には、分類規則生成部82により生成された分類規則として、第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴のみからなる分類規則が提示されている。具体的には、図9に示す画面には、文書表示部148に表示されている文書における写真156と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。   In the screen shown in FIG. 9, a classification rule including only the features extracted by the second feature extraction unit 102 (photo feature extraction unit 110) is presented as the classification rule generated by the classification rule generation unit 82. . Specifically, on the screen shown in FIG. 9, a document having a photo of the same size at the same position as the photo 156 in the document displayed on the document display unit 148 is set as the document type “instruction”. A classification rule to classify is presented. Note that the same degree means that the difference between the two is within a predetermined threshold.

次に、以上説明した分類規則の登録について、フローチャートを用いて動作の流れを説明する。
図10は、分類規則の登録についての動作を示すフローチャートの一例である。
Next, an operation flow of registration of the classification rule described above will be described using a flowchart.
FIG. 10 is an example of a flowchart showing an operation for registering a classification rule.

ステップ100において、文書受付部72は、分類規則を生成する基となる文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。   In step 100, the document reception unit 72 receives a document that is a basis for generating a classification rule, and outputs the received document to the object separation unit 74.

ステップ102において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。   In step 102, the object separation unit 74 separates the object in the document and outputs it to the feature extraction unit 76.

ステップ104において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力する。   In step 104, the feature extraction unit 76 extracts features included in the document, and outputs the extracted features to the document type identification unit 78 and the classification rule generation unit 82.

ステップ106において、文書種別特定部78は、抽出された特徴に基づいて、ステップ100で文書受付部72が受け付けた文書が予め定めた文書の種別のうちいずれに該当するかを特定する。   In step 106, the document type specifying unit 78 specifies which of the predetermined document types the document received by the document receiving unit 72 in step 100 corresponds to based on the extracted features.

ステップ108において、分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。   In step 108, the classification rule generation unit 82 selects a template corresponding to the document type identified by the document type identification unit 78 from the rule templates for each document type stored in the rule template storage unit 84 and a feature extraction unit. A classification rule is generated using the features extracted by 76.

ステップ110において、分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に提示する。   In step 110, the classification rule presentation unit 88 presents the classification rule generated by the classification rule generation unit 82 to the UI device 50.

ステップ112において、ステップ110により提示した分類規則に対し、操作者による編集操作がなされたか否かを判定し、編集操作が行なわれた場合はステップ114へ移行し、編集操作が行なわれない場合はステップ116に移行する。   In step 112, it is determined whether or not an editing operation has been performed by the operator for the classification rule presented in step 110. If an editing operation has been performed, the process proceeds to step 114, and if no editing operation has been performed. Control goes to step 116.

ステップ114において、編集受付部94は、操作者による編集操作を受付け、編集操作に対応する編集を分類規則に行なう。   In step 114, the edit receiving unit 94 receives an editing operation by the operator and performs editing corresponding to the editing operation on the classification rule.

ステップ116において、分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。   In step 116, the classification rule registration unit 90 registers the classification rule generated by the classification rule generation unit 82 or the classification rule edited by the editing reception unit 94 in the classification rule storage unit 92.

以上の流れにより、文書の分類に用いる分類規則が作成される。   Through the above flow, a classification rule used for document classification is created.

次に、作成された分類規則に基づいて文書を分類し、分類に応じた処理を行なう動作の流れを説明する。
図11は、文書の分類し、分類に応じた処理を行なう動作を示すフローチャートの一例である。
Next, an operation flow for classifying a document based on the created classification rule and performing processing according to the classification will be described.
FIG. 11 is an example of a flowchart showing an operation of classifying documents and performing processing according to the classification.

ステップ200において、文書受付部72は、分類対象の文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。   In step 200, the document reception unit 72 receives a document to be classified and outputs the received document to the object separation unit 74.

ステップ202において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。   In step 202, the object separation unit 74 separates the object in the document and outputs it to the feature extraction unit 76.

ステップ204において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を分類部96へ出力する。   In step 204, the feature extraction unit 76 extracts features included in the document and outputs the extracted features to the classification unit 96.

ステップ206において、分類部96は、特徴抽出部76により抽出された特徴に対して、分類規則格納部92に格納されている分類規則を適用し、文書を分類する。   In step 206, the classification unit 96 applies the classification rule stored in the classification rule storage unit 92 to the features extracted by the feature extraction unit 76 and classifies the document.

ステップ208において、ステップ206においてなされた分類に対応する処理が行なわれる。ステップ208では、例えば分類ごとに定められた処理規則に応じて処理が行なわれる。   In step 208, processing corresponding to the classification made in step 206 is performed. In step 208, processing is performed in accordance with, for example, a processing rule determined for each classification.

図12は、分類に応じた処理をする際に適用される分類ごとの処理規則の一例を示す表である。図12(a)は、分類に応じたファイル名を文書データに付与する処理についての規則を示し、図12(b)は、分類に応じた場所に文書データを出力する処理についての規則を示している。   FIG. 12 is a table showing an example of a processing rule for each classification applied when processing according to the classification. FIG. 12A shows the rules for the process of assigning the file name corresponding to the classification to the document data, and FIG. 12B shows the rules for the process of outputting the document data to the place corresponding to the classification. ing.

図12(a)に示す処理規則では、分類ごとに、ファイル名を付与する際の規則が定められている。なお、図12(a)に示したファイル名付与規則は、上述のファイル名規則設定部128において設定された規則に対応する。   In the processing rule shown in FIG. 12A, a rule for assigning a file name is defined for each classification. The file name assignment rule shown in FIG. 12A corresponds to the rule set in the file name rule setting unit 128 described above.

図12(b)に示す処理規則では、分類ごとに、送信先のフォルダが定められている。なお、図12(b)に示す送信先フォルダは、例えば操作者が分類ごとに設定する。   In the processing rule shown in FIG. 12B, a transmission destination folder is defined for each classification. Note that the transmission destination folder shown in FIG. 12B is set for each classification by the operator, for example.

また、分類に応じた処理として、印刷装置12による印刷をしてもよい。例えば、分類に応じて印刷における設定を異にして、印刷出力する処理を行なってもよい。   Further, as processing according to the classification, printing by the printing apparatus 12 may be performed. For example, processing for printing out may be performed with different settings in printing according to the classification.

以上の流れにより文書の分類及び分類に応じた処理が行なわれる。   According to the above flow, document classification and processing corresponding to the classification are performed.

本発明は、特許請求の範囲に記載した事項を特徴とするが、さらに次に記載した事項も本発明の望ましい態様として付記する。   The present invention is characterized by the matters described in the claims, but the following items are also added as desirable aspects of the present invention.

(付記1)
文書に含まれる文字を抽出する第1の特徴抽出手段と、文書に含まれる画像についての情報を抽出する第2の特徴抽出手段と、文書を分類する分類規則として、前記第1の特徴抽出手段が抽出した文字と前記第2の特徴抽出手段が抽出した画像についての情報とが組み合わされた規則を登録する分類規則登録手段とを有する文書処理装置。
(付記2)
前記第1の特徴抽出手段が抽出した文字と前記第2の特徴抽出手段が抽出した画像についての情報とが組み合わされた分類規則を生成する分類規則生成手段と、前記分類規則生成手段が生成した分類規則を提示する分類規則提示手段とをさらに有し、前記分類規則登録手段は、分類規則提示手段により提示された分類規則を登録する付記1記載の文書処理装置。
(付記3)
前記第2の特徴抽出手段は、文書に含まれる画像についての情報として、写真、図形、表又は符号化物のうち少なくとも1つについての情報を抽出する付記2記載の文書処理装置。
(付記4)
前記第2の特徴抽出手段は、文書に含まれる画像についての情報として、画像の大きさ、画像の位置又は画像の数のうち少なくとも1つについて抽出する付記2又は3記載の文書処理装置。
(付記5)
前記分類規則提示手段が提示した分類規則に対しての編集を受付ける編集受付手段をさらに有し、前記分類規則登録手段は、前記編集受付手段が受付けた編集がなされた分類規則を登録する付記1乃至4いずれか記載の文書処理装置。
(付記6)
文書を受付ける文書受付手段と、前記分類規則登録手段により登録された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段とをさらに有する付記1乃至5いずれか記載の文書処理装置。
(付記7)
文書を読み取る読取手段をさらに有し、前記分類規則生成手段は、前記読取手段による読み取り条件と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項2乃至6いずれか記載の文書処理装置。
(付記8)
文字情報の入力を受付ける文字情報受付手段をさらに有し、前記分類規則生成手段は、前記文字情報受付手段が受付けた文字情報と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項2乃至7いずれか記載の文書処理装置。
(付記9)
文書が予め定めた種別のうちいずれに該当するかを特定する文書種別特定手段をさらに有し、前記分類規則生成手段は、前記文書種別特定手段により特定された文書の種別と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する請求項2乃至8いずれか記載の文書処理装置。
(付記10)
文書に含まれる文字を抽出する第1の特徴抽出ステップと、文書に含まれる画像についての情報を抽出する第2の特徴抽出ステップと、文書を分類する分類規則として、前記第1の特徴抽出ステップにより抽出された文字と前記第2の特徴抽出ステップにより抽出された画像についての情報とが組み合わされた規則を登録する分類規則登録ステップとをコンピュータに実行させるプログラム。
(Appendix 1)
First feature extraction means for extracting characters contained in a document, second feature extraction means for extracting information about an image contained in the document, and the first feature extraction means as a classification rule for classifying the document A document processing apparatus comprising: a classification rule registration unit that registers a rule in which the character extracted by the information and the information about the image extracted by the second feature extraction unit are combined.
(Appendix 2)
A classification rule generating unit that generates a classification rule in which the characters extracted by the first feature extracting unit and information about the image extracted by the second feature extracting unit are combined; and the classification rule generating unit generates The document processing apparatus according to claim 1, further comprising a classification rule presenting unit that presents a classification rule, wherein the classification rule registration unit registers the classification rule presented by the classification rule presenting unit.
(Appendix 3)
The document processing apparatus according to appendix 2, wherein the second feature extraction means extracts information about at least one of a photograph, a figure, a table, or an encoded product as information about an image included in the document.
(Appendix 4)
The document processing apparatus according to appendix 2 or 3, wherein the second feature extraction means extracts at least one of the size of the image, the position of the image, or the number of images as information about the image included in the document.
(Appendix 5)
Additional remarks 1 for registering the edited classification rule accepted by the edit acceptance means, further comprising an edit acceptance means for accepting an edit to the classification rule presented by the classification rule presentation means. 5. The document processing device according to any one of 4 to 4.
(Appendix 6)
The document according to any one of appendices 1 to 5, further comprising: a document receiving unit that receives the document; and a classification unit that classifies the document received by the document receiving unit based on the classification rule registered by the classification rule registration unit. Processing equipment.
(Appendix 7)
7. A reading unit for reading a document, wherein the classification rule generation unit generates a classification rule based on a reading condition by the reading unit and a feature extracted by the feature extraction unit. The document processing apparatus described.
(Appendix 8)
Further comprising character information accepting means for accepting input of character information, wherein the classification rule generating means determines a classification rule based on the character information accepted by the character information accepting means and the features extracted by the feature extracting means. The document processing apparatus according to claim 2, which is generated.
(Appendix 9)
Document classification specifying means for specifying which of the predetermined types of the document is further included, and the classification rule generating means includes the document type specified by the document type specifying means and the feature extraction means. 9. The document processing apparatus according to claim 2, wherein a classification rule is generated based on the extracted feature.
(Appendix 10)
A first feature extracting step for extracting characters contained in the document; a second feature extracting step for extracting information about an image contained in the document; and the first feature extracting step as a classification rule for classifying the document. A program for causing a computer to execute a classification rule registration step of registering a rule in which the characters extracted by the above and the information about the image extracted by the second feature extraction step are combined.

10 画像形成装置
14 読取装置
50 UI装置
72 文書受付部
74 オブジェクト分離部
76 特徴抽出部
78 文書特定部
80 文書種別格納部
82 分類規則生成部
84 規則雛形格納部
86 文字情報受付部
88 分類規則提示部
90 分類規則登録部
92 分類規則格納部
94 編集受付部
96 分類部
100 第1の特徴抽出部
102 第2の特徴抽出部
104 文字認識部
106 文字特徴抽出部
108 表特徴抽出部
110 写真特徴抽出部
112 符号化物特徴抽出部
DESCRIPTION OF SYMBOLS 10 Image forming apparatus 14 Reading apparatus 50 UI apparatus 72 Document reception part 74 Object separation part 76 Feature extraction part 78 Document specification part 80 Document classification storage part 82 Classification rule generation part 84 Rule template storage part 86 Character information reception part 88 Classification rule presentation Unit 90 Classification rule registration unit 92 Classification rule storage unit 94 Editing reception unit 96 Classification unit 100 First feature extraction unit 102 Second feature extraction unit 104 Character recognition unit 106 Character feature extraction unit 108 Table feature extraction unit 110 Photo feature extraction Part 112 encoded product feature extraction part

Claims (11)

文書に含まれる特徴を抽出する特徴抽出手段と、
前記特徴抽出手段により抽出された特徴に基づいて、文書を分類する分類規則を生成する分類規則生成手段と、
前記分類規則生成手段が生成した分類規則を提示する分類規則提示手段と
を有する文書処理装置。
Feature extraction means for extracting features contained in the document;
Classification rule generation means for generating a classification rule for classifying a document based on the features extracted by the feature extraction means;
A document processing apparatus comprising: a classification rule presenting unit that presents a classification rule generated by the classification rule generating unit.
前記特徴抽出手段は、文書に含まれる文字を抽出する第1の特徴抽出部と文書に含まれる画像についての情報を抽出する第2の特徴抽出部とを備え、
前記分類規則生成手段は、前記特徴抽出手段の第1の特徴抽出部が抽出した文字と前記特徴抽出手段の第2の特徴抽出部が抽出した画像についての情報とを組み合わせて分類規則を生成する
請求項1記載の文書処理装置。
The feature extraction means includes a first feature extraction unit that extracts characters included in a document and a second feature extraction unit that extracts information about an image included in the document,
The classification rule generation unit generates a classification rule by combining the characters extracted by the first feature extraction unit of the feature extraction unit and information about the image extracted by the second feature extraction unit of the feature extraction unit. The document processing apparatus according to claim 1.
前記特徴抽出手段の第2の特徴抽出部は、文書に含まれる画像についての情報として、写真、図形、表又は符号化物のうち少なくとも1つについての情報を抽出する
請求項2記載の文書処理装置。
The document processing apparatus according to claim 2, wherein the second feature extraction unit of the feature extraction unit extracts information about at least one of a photograph, a figure, a table, and an encoded product as information about an image included in the document. .
前記特徴抽出手段の第2の特徴抽出部は、文書に含まれる画像についての情報として、画像の大きさ、画像の位置又は画像の数のうち少なくとも1つについて抽出する
請求項2又は3記載の文書処理装置。
The second feature extraction unit of the feature extraction unit extracts at least one of the size of the image, the position of the image, or the number of images as information about the image included in the document. Document processing device.
前記分類規則提示手段が提示した分類規則を登録する分類規則登録手段
をさらに有する請求項1乃至4いずれか記載の文書処理装置。
The document processing apparatus according to claim 1, further comprising: a classification rule registration unit that registers the classification rule presented by the classification rule presentation unit.
前記分類規則提示手段が提示した分類規則に対しての編集を受付ける編集受付手段
をさらに有し、
前記分類規則登録手段は、前記編集受付手段が受付けた編集がなされた分類規則を登録する
請求項5記載の文書処理装置。
Edit accepting means for accepting edits to the classification rules presented by the classification rule presenting means;
The document processing apparatus according to claim 5, wherein the classification rule registration unit registers the classification rule that has been edited and received by the editing reception unit.
文書を受付ける文書受付手段と、
前記分類規則登録手段により登録された分類規則に基づいて、前記文書受付手段により受付けられた文書を分類する分類手段と
をさらに有する請求項5又は6記載の文書処理装置。
A document receiving means for receiving a document;
The document processing apparatus according to claim 5, further comprising: a classification unit that classifies the document received by the document reception unit based on the classification rule registered by the classification rule registration unit.
文書を読み取る読取手段
をさらに有し、
前記分類規則生成手段は、前記読取手段による読み取り条件と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する
請求項1乃至7いずれか記載の文書処理装置。
A reading means for reading the document;
The document processing apparatus according to claim 1, wherein the classification rule generation unit generates a classification rule based on a reading condition by the reading unit and a feature extracted by the feature extraction unit.
文字情報の入力を受付ける文字情報受付手段
をさらに有し、
前記分類規則生成手段は、前記文字情報受付手段が受付けた文字情報と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する
請求項1乃至8いずれか記載の文書処理装置。
A character information receiving means for receiving input of character information;
The document processing apparatus according to claim 1, wherein the classification rule generation unit generates a classification rule based on the character information received by the character information reception unit and the feature extracted by the feature extraction unit.
文書が予め定めた種別のうちいずれに該当するかを特定する文書種別特定手段
をさらに有し、
前記分類規則生成手段は、前記文書種別特定手段により特定された文書の種別と前記特徴抽出手段により抽出された特徴とに基づいて、分類規則を生成する
請求項1乃至9いずれか記載の文書処理装置。
A document type specifying means for specifying which of the predetermined types the document corresponds to;
The document processing according to any one of claims 1 to 9, wherein the classification rule generation unit generates a classification rule based on a document type specified by the document type specification unit and a feature extracted by the feature extraction unit. apparatus.
文書に含まれる特徴を抽出するステップと、
抽出された特徴に基づいて、文書を分類する分類規則を生成するステップと、
生成した分類規則を提示するステップと
をコンピュータに実行させるプログラム。
Extracting features contained in the document;
Generating a classification rule for classifying the document based on the extracted features;
A program for causing a computer to execute the step of presenting the generated classification rules.
JP2012001984A 2012-01-10 2012-01-10 Document processing apparatus and program Active JP5880052B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012001984A JP5880052B2 (en) 2012-01-10 2012-01-10 Document processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012001984A JP5880052B2 (en) 2012-01-10 2012-01-10 Document processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2013142955A true JP2013142955A (en) 2013-07-22
JP5880052B2 JP5880052B2 (en) 2016-03-08

Family

ID=49039500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012001984A Active JP5880052B2 (en) 2012-01-10 2012-01-10 Document processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5880052B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9876942B2 (en) 2015-03-27 2018-01-23 Brother Kogyo Kabushiki Kaisha Image processing apparatus and computer program
US10038825B2 (en) 2015-03-27 2018-07-31 Brother Kogyo Kabushiki Kaisha Image process apparatus for correcting a document based on correction parameter of another document and computer program therefor
US11321558B2 (en) 2019-09-12 2022-05-03 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
US11521404B2 (en) 2019-09-30 2022-12-06 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories
US11631268B2 (en) 2019-09-20 2023-04-18 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272763A (en) * 1988-09-08 1990-03-13 Ricoh Co Ltd Facsimile equipment controlling system
JPH0675995A (en) * 1992-08-27 1994-03-18 Omron Corp Automatic device and method for imparting classification
JP2002342343A (en) * 2001-05-18 2002-11-29 Ricoh Co Ltd Document managing system
JP2007052744A (en) * 2005-08-19 2007-03-01 Fujitsu Ltd Classification rule creation supporting method
JP2007286864A (en) * 2006-04-17 2007-11-01 Ricoh Co Ltd Image processor, image processing method, program, and recording medium
JP2009031959A (en) * 2007-07-26 2009-02-12 Fuji Xerox Co Ltd Document classification device and document classification program
JP2009205420A (en) * 2008-02-27 2009-09-10 Pfu Ltd Image file distribution method, image file distribution device, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272763A (en) * 1988-09-08 1990-03-13 Ricoh Co Ltd Facsimile equipment controlling system
JPH0675995A (en) * 1992-08-27 1994-03-18 Omron Corp Automatic device and method for imparting classification
JP2002342343A (en) * 2001-05-18 2002-11-29 Ricoh Co Ltd Document managing system
JP2007052744A (en) * 2005-08-19 2007-03-01 Fujitsu Ltd Classification rule creation supporting method
JP2007286864A (en) * 2006-04-17 2007-11-01 Ricoh Co Ltd Image processor, image processing method, program, and recording medium
JP2009031959A (en) * 2007-07-26 2009-02-12 Fuji Xerox Co Ltd Document classification device and document classification program
JP2009205420A (en) * 2008-02-27 2009-09-10 Pfu Ltd Image file distribution method, image file distribution device, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9876942B2 (en) 2015-03-27 2018-01-23 Brother Kogyo Kabushiki Kaisha Image processing apparatus and computer program
US10038825B2 (en) 2015-03-27 2018-07-31 Brother Kogyo Kabushiki Kaisha Image process apparatus for correcting a document based on correction parameter of another document and computer program therefor
US10084942B2 (en) 2015-03-27 2018-09-25 Brother Kogyo Kabushiki Kaisha Image processing apparatus and computer program
US11321558B2 (en) 2019-09-12 2022-05-03 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
US11631268B2 (en) 2019-09-20 2023-04-18 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
US11521404B2 (en) 2019-09-30 2022-12-06 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories

Also Published As

Publication number Publication date
JP5880052B2 (en) 2016-03-08

Similar Documents

Publication Publication Date Title
US8726178B2 (en) Device, method, and computer program product for information retrieval
JP5223284B2 (en) Information retrieval apparatus, method and program
US7797150B2 (en) Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database
JP5699623B2 (en) Image processing apparatus, image processing system, image processing method, and program
JP5880052B2 (en) Document processing apparatus and program
US20090074291A1 (en) Image processing apparatus and image processing method
US20150304521A1 (en) Dynamically generating table of contents for printable or scanned content
JP2006350664A (en) Document processing apparatus
JP5936051B2 (en) Document processing apparatus and program
JP6672668B2 (en) Image processing device and program
US20130258419A1 (en) Digitizing apparatus
JP2003209643A (en) Image-processing device
JP2006093917A (en) Image reading apparatus and image processor, and image forming apparatus
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP2008236250A (en) Image processing apparatus, program, and image processing method
US9247103B2 (en) Image processing device, image processing system, non-transitory computer readable medium, and image processing method
US20170308507A1 (en) Image processing apparatus
JP4682747B2 (en) Document processing apparatus, rule data generation method and program
JP2018077794A (en) Image processing device and image forming apparatus
JP2007048061A (en) Character processing device, character processing method, and recording medium
US20230083959A1 (en) Information processing apparatus, information processing method, storage medium, and learning apparatus
US11849086B2 (en) Image processing apparatus capable of extracting portion of document image specified by preset index and subjecting character string in extracted portion to processing associated with index
US20240193370A1 (en) Information processing apparatus, information processing system, information processing method, and storage medium
US20230077608A1 (en) Information processing apparatus, information processing method, and storage medium
US20230306773A1 (en) Information processing apparatus, non-transitory computer readable medium, and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160118

R150 Certificate of patent or registration of utility model

Ref document number: 5880052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350