CN112446273A - 信息处理装置以及存储介质 - Google Patents

信息处理装置以及存储介质 Download PDF

Info

Publication number
CN112446273A
CN112446273A CN202010045792.XA CN202010045792A CN112446273A CN 112446273 A CN112446273 A CN 112446273A CN 202010045792 A CN202010045792 A CN 202010045792A CN 112446273 A CN112446273 A CN 112446273A
Authority
CN
China
Prior art keywords
document
image
specific
keyword
present
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010045792.XA
Other languages
English (en)
Inventor
久保周作
小林邦彦
上野邦和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN112446273A publication Critical patent/CN112446273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00336Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing pattern recognition, e.g. of a face or a geographic feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Processing Or Creating Images (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的信息处理装置以及存储介质无须打开文档文件便能够确认应存在于文档内的特定图像的有无。图像形成装置(10)具有:文档种类确定部(13),根据文档的读取图像来确定文档的种类;关键字获取部(14),从关键字信息存储部(22)中获取与所确定的文档种类对应的关键字;图像提取部(15),对应于各关键字而提取与所设定的探索条件吻合的图像来作为印迹;判定部(16),根据图像提取部(15)对图像的提取结果来判定印迹的有无;以及判定结果输出部(17),将判定部(16)对每个关键字的判定结果包含在文档的文件名中,由此来输出判定结果。

Description

信息处理装置以及存储介质
技术领域
本发明涉及一种信息处理装置以及存储介质。
背景技术
近年来,与字符串同样地指定检索词来检索图像的图像检索技术已得到普及。作为对图像设定关键字(keyword)的技术,例如提出有下述技术:对于字符串与图像混合存在的文档中所含的图像,从关于自文档提取的各个图像而记述的段落(paragraph)中提取特征度为上位的单词来作为关键字而制作索引(index),获取与跟所输入的检索词一致的索引内的关键字对应的图像(例如专利文献1)。而且,提出有下述技术:对超文本标记语言(Hypertext Markup Language,HTML)文章进行分析,对于各图像信息,越位于所述图像信息附近的单词,则赋予越高的分数,将图像信息按照与所指定的检索关键字吻合的单词的分数由高到低的顺序予以显示(例如,专利文献2)。而且,提出有专利文献3~专利文献6。
此外,所述以往技术是以文档等存在图像为前提,利用关键字等来找出所述图像的技术,但相反地,有时想要确认是否存在对应于规定的关键字而应存在于文档中的特定图像,例如印盖***而形成的印迹。此时,必须打开文档文件来使其显示于画面,以确认文档中是否包含图像。
[现有技术文献]
[专利文献]
专利文献1:日本专利特开2010-205060号公报
专利文献2:日本专利特开平11-224256号公报
专利文献3:日本专利特开2001-337993号公报
专利文献4:日本专利特开平06-162107号公报
专利文献5:日本专利特开2010-286882号公报
专利文献6:日本专利特开2018-092459号公报
发明内容
[发明所要解决的问题]
但是,为了确认应存在于文档内的特定图像的有无而打开文档文件来使其显示于画面的操作耗费工夫而麻烦。
本发明的目的在于,无须打开文档文件,便能够确认应存在于文档内的特定图像的有无。
[解决问题的技术手段]
本发明的信息处理装置包括处理器(processor),所述处理器根据处理对象文档的读取图像来确定所述文档的种类,通过参照特定文字信息,来获取对应于所述处理对象文档的种类而与应存在于所述文档内的特定图像相关联的特定文字,所述特定文字信息是针对每个文档种类而设定,且跟与应存在于文档内的特定图像相关联的特定文字相关的信息,根据能否对应于所获取的所述特定文字而从所述读取图像中提取与预先设定的探索条件吻合的图像,来判定所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无。
而且,其中,所述处理器对所述处理对象文档内的应与所获取的所述特定文字相关联地存在的特定图像的有无的判定结果进行提示。
而且,其中,所述处理器将所获取的所述特定文字、与所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无的判定结果设为组,而包含在所述文档的文件名中。
而且,其中,所述处理器生成一文件(file),所述文件包含所获取的所述特定文字、与所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无的判定结果的组。
而且,其中,所述处理器在能够对应于所获取的所述特定文字而从所述文档的读取图像中提取与预先设定的探索条件吻合的图像时,提取所述图像来作为所述处理对象文档内应与所述特定文字相关联地存在的特定图像,且生成包含所获取的所述特定文字及所提取的所述图像的组的文件。
而且,本发明的信息处理装置,所述探索条件包含下述条件中的至少一者,即:用于确定在所述处理对象文档内,应与所获取的所述特定文字相关联地存在的特定图像的条件;或者表示所述特定文字、与所述处理对象文档内应与所述特定文字相关联地存在的特定图像的位置关系的条件。
而且,其中,用于确定所述特定图像的条件包含与所述特定图像中所含的颜色或形状的至少一者相关的条件。
而且,其中,所述特定图像为印迹。
本发明的存储介质存储有使计算机(computer)实现下述功能的程序:通过对处理对象文档的读取图像进行分析,从而确定所述处理对象文档的种类;通过参照特定文字信息,来获取对应于所述处理对象文档的种类而与应存在于所述文档内的特定图像相关联的特定文字,所述特定文字信息针对每个文档种类而设定有与应存在于文档内的特定图像相关联的特定文字;以及根据能否对应于所获取的所述特定文字而从所述读取图像中提取与预先设定的探索条件吻合的图像,来判定所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无。
[发明的效果]
根据技术方案1所述的发明,无须打开文档文件,便能够确认应存在于文档内的特定图像的有无。
根据技术方案2所述的发明,能够确认应与特定文字相关联地存在于文档内的特定图像的有无的判定结果。
根据技术方案3所述的发明,无须打开文档文件,通过文件名便能够确认应与特定文字相关联地存在于文档内的特定图像的有无的判定结果。
根据技术方案4所述的发明,在存在多个与文档种类对应的特定文字的情况、或者存在多个作为处理对象的文档的情况下,能够统一确认特定图像的有无的判定结果。
根据技术方案5所述的发明,在存在与特定文字相关联的特定图像的情况下,能够提示特定图像来作为有特定图像的判定结果。
根据技术方案6所述的发明,能够确定应与特定文字相关联地存在的特定图像。
根据技术方案7所述的发明,能够根据颜色或形状来确定应与特定文字相关联地存在的特定图像。
根据技术方案8所述的发明,能够判定应存在文档内的印迹的有无。
根据技术方案9所述的发明,无须打开文档文件,便能够确认应存在于文档内的特定图像的有无。
附图说明
图1是表示本发明的信息处理装置的一实施方式的结构框图。
图2是本实施方式中的图像形成装置的硬件结构图。
图3是表示本实施方式中的关键字信息存储部中所存储的关键字信息的数据结构例的图。
图4是表示本实施方式中的探索条件信息存储部中所存储的探索条件信息的数据结构例的图。
图5是表示本实施方式中的图像有无判定处理的流程图。
图6是表示在本实施方式中将文档的种类分类为图纸的文档的概略布局的图。
图7是表示在本实施方式中预先准备的探索条件的图。
图8是表示在本实施方式中个别地设定探索条件时的示例的图。
[符号的说明]
1:网络
10:图像形成装置
11:扫描数据获取部
12:文字识别处理部
13:文档种类确定部
14:关键字获取部
15:图像提取部
16:判定部
17:判定结果输出部
21:文档种类信息存储部
22:关键字信息存储部
23:探索条件信息存储部
24:输出格式信息存储部
31:CPU
32:地址数据总线
33:操作面板
34:扫描仪
35:硬盘驱动器(HDD)
36:打印机引擎
37:网络接口(I/F)
38:RAM
39:ROM
40:外部介质接口(I/F)
具体实施方式
以下,基于附图来说明本发明的较佳实施方式。
图1是表示本发明的信息处理装置的一实施方式的结构框图。本实施方式中,以内置作为信息处理装置的计算机的图像形成装置为例来进行说明。
图2是本实施方式中的图像形成装置10的硬件结构图。图像形成装置10可由搭载有复印(copy)功能、扫描仪(scanner)功能等各种功能的多功能一体机所形成。图2中,中央处理器(Central Processing Unit,CPU)31依据保存在只读存储器(Read Only Memory,ROM)39中的程序来进行扫描仪34或打印机引擎(printer engine)36等搭载于图像形成装置10的各种机构的动作控制。地址数据总线(address data bus)32与成为CPU31的控制对象的各种机构相连接而进行数据的通信。操作面板33进行来自用户的指示的受理、信息的显示。扫描仪34读取用户所设置的原稿。硬盘驱动器(Hard Disk Drive,HDD)35对使用扫描仪34所读取的电子文档等进行保存。打印机引擎36依据来自由CPU31所执行的控制程序的指示,在输出纸张上打印图像。网络接口(Interface,I/F)37连接网络1,被用于图像形成装置10所生成的电子数据的发送、发往图像形成装置10的电子邮件的接收、以及经由浏览器(browser)对图像形成装置10的访问等。随机存取存储器(Random Access Memory,RAM)38被利用作为程序执行时的工作存储器(work memory)或电子数据收发时的通信缓冲器(buffer)。ROM39保存有与图像形成装置10的控制或电子数据的收发相关的各种程序。通过执行各种程序,后述的各构成元件发挥规定的处理功能。外部介质接口(I/F)40是与通用串行总线(Universal Serial Bus,USB)存储器、快闪存储器(flash memory)等外部存储器设备的接口。本实施方式中的图像形成装置10的硬件结构可与以往的某结构同样。
返回图1,本实施方式中的图像形成装置10具有扫描数据获取部11、文字识别处理部12、文档种类确定部13、关键字获取部14、图像提取部15、判定部16、判定结果输出部17、文档种类信息存储部21、关键字信息存储部22、探索条件信息存储部23及输出格式信息存储部24。另外,对于本实施方式中未用于说明的构成元件,从图中予以省略。
扫描数据获取部11获取使用扫描仪34而读取文档的扫描数据(以下也称作“读取图像”)。本实施方式中处理的文档是包含特定文字的文本文字与特定图像混合存在的文档。所谓“特定文字”,是指针对每个文档的种类而设定,与应存在于文档内的特定图像相关联的文本文字。本实施方式中,将特定文字称作“关键字”。而且,本实施方式中,作为“特定图像”的一例,设想印迹的图像来进行说明。本实施方式中处理的文档中,本应通过盖章而包含印迹,但也有时可能忘记盖章而不包含印迹。另外,严格而言,位于纸文档上的是印迹,包含在纸文档的读取图像中的是印迹的图像,因此与“特定图像”对应的是印迹的图像,但为了便于说明,也有时将与“特定图像”对应的记载为印迹来进行说明。
文字识别处理部12通过利用光学字符阅读器(Optical Character Reader,OCR)功能来进行文字识别,从而提取所读取的文档中所记载的字符串(即,文本文字)。文档种类确定部13根据所读取的文档的读取图像来确定所述文档的种类。关键字获取部14通过参照特定文字信息,从而获取对应于所述文档的种类而与应存在于所述文档内的印迹相关联的关键字,所述特定文字信息是跟与应存在于文档内的特定图像(即,印迹)相关联的特定文字(即,关键字)相关的信息。特定文字信息作为关键字信息而存储于关键字信息存储部22中。
图像提取部15对应于关键字获取部14所获取的关键字,而从读取图像中提取与探索条件吻合的图像。与探索条件相关的探索条件信息是预先设定在探索条件信息存储部23中。判定部16根据图像提取部15能否提取图像,来判定处理对象文档内应与所述关键字相关联地存在的印迹的有无。判定结果输出部17依据所指定的输出格式来输出判定结果。与输出格式相关的输出格式信息是预先设定在输出格式信息存储部24中。
图3是表示本实施方式中的关键字信息存储部22中所存储的关键字信息的数据结构例的图。关键字信息对应于每个文档种类而包含与所述文档种类对应的一个或多个关键字。
图4是表示本实施方式中的探索条件信息存储部23中所存储的探索条件信息的数据结构例的图。探索条件信息是针对每个文档种类而设定。图4表示了文档种类为图纸时的探索条件信息的设定例。在探索条件信息中,与跟所述文档种类对应的每个关键字关联地设定有探索条件。文档种类为图纸时的关键字如图3所例示,为审批人、制图、结构、设计及图纸检查人,但如图4所例示,在文档种类为图纸的情况下,针对每个关键字来设定探索条件。与各关键字对应的探索条件包含:用于确定在处理对象文档内,应与所获取的关键字相关联地存在的印迹的条件即“针对图像的条件”;以及表示所述关键字、与处理对象文档内应与所述关键字相关联地存在的印迹的位置关系的条件即“位置关系”。另外,也可包含“针对图像的条件”与“位置关系”中的至少一个。图4所示的设定例中,各关键字均设定有相同的项目值,但也有时可依据文档的布局来指定不同的探索条件。“针对图像的条件”可包含与所述印迹中所含的颜色或形状的至少一者相关的条件。图4所示的设定例中,“红色圆圈”包含红色及圆形状这两者。
另外,对于文档种类信息存储部21及输出格式信息存储部24,配合动作的说明来进行说明。
图像形成装置10中的各构成元件11~构成元件17是通过内置于图像形成装置10的计算机与由搭载于计算机的CPU31来运行的程序的协调动作来实现。而且,各存储部21~存储部24是通过搭载于图像形成装置10的HDD35来实现。或者,也可经由网络来利用RAM38或位于外部的存储部件。
而且,本实施方式中所用的程序当然可通过通信部件来提供,也可保存在只读光盘(Compact-Disk Read-Only-Memory,CD-ROM)或USB存储器等计算机可读取的记录介质中而提供。从通信部件或记录介质提供的程序被安装(install)于计算机,通过计算机的CPU依序执行程序,从而实现各种处理。
根据文档的种类或文档的版式(form),盖章的位置有可能不同,但在本实施方式中所处理的文档中,通过盖章而包含印迹。但是,根据情况,可能引起下述情况:因忘记盖章而无法将文档作为正式文档来进行处理。因此,本实施方式,即使不一个一个地打开文档文件,也可确认是否未忘记盖章。
接下来,对本实施方式中的动作进行说明,以下,对于本实施方式中进行特征性的特定图像(即,印迹)的有无判定的处理,使用图5所示的流程图来进行说明。
首先,当用户使扫描仪34读取作为处理对象的文档时,扫描数据获取部11获取此文档的读取图像(步骤S101)。继而,文字识别处理部12利用OCR功能来进行文字识别,由此来提取所读取的文档中记载的字符串(步骤S102)。当执行OCR时,也可进行读取图像的正立或去除背景色的清洁(cleansing)等前处理。
接下来,文档种类确定部13确定文档的种类(步骤S103)。具体而言,使用以下例示的任一方法来确定文档的种类。
第一,例如在文档附有对文档的版式或文档的识别信息进行确定的快速反应(Quick Response,QR)码(注册商标)等数据码(data code)的情况下,读取所述数据码。此时,在文档种类信息存储部21中,对于数据码,将与所述数据码对应的文档种类相关联地存储为文档种类信息,文档种类确定部13通过将从读取图像获得的数据码与文档种类信息中所含的数据码进行对照,从而确定文档的种类。
第二,通过对文档的读取图像,尤其是对布局进行分析,从而通过推测来确定文档的种类。例如,对文档上的格线的位置进行检测,获取所述格线的布局。根据所述格线的布局来推测文档的种类。或者,在格线形成了表的情况下,提取表中所含的项目的名称。此时,在文档种类信息存储部21中,对于文档的种类,将表的项目名的列表(list)相关联地存储为文档种类信息,文档种类确定部13通过将从读取图像获得的表的项目名的列表与文档种类信息中所含的项目名的列表进行对照,从而参照项目名的吻合率等,通过推测来确定文档的种类。
第三,通过对文档的读取图像进行分析,从而提取文档中的档案名。一般而言,在文档中记载有档案名,其记载位置位于文档的最上段或上方的中央。而且,标注有括号,或者文字尺寸大。因此,将具有此种特征的字符串推测为档案名来提取。此时,在文档种类信息存储部21中,对于文档的种类,将档案名相关联地存储为文档种类信息,文档种类确定部13通过将从读取图像获得的档案名与文档种类信息中所含的档案名进行对照,从而通过推测来确定文档的种类。
第四,在使扫描仪34读取文档时,让用户指定文档的种类。更具体而言,当扫描数据获取部11读取文档时,文档种类确定部13使文档种类的输入画面显示于操作面板33,让用户根据此输入画面来输入文档的种类。或者,在文档种类信息存储部21中,存储有文档种类的选择候补,当扫描数据获取部11读取文档时,文档种类确定部13使文档种类的选择画面显示于操作面板33。在选择画面上,以列表来显示从文档种类信息存储部21读出的文档的种类。并且,文档种类确定部13确定为由用户所选择的文档种类。
当文档种类确定部13通过任一方法来确定文档的种类时,关键字获取部14从关键字信息存储部22中获取对应于所确定的文档种类而设定的关键字(步骤S104)。根据图3所示的设定例,在文档种类确定部13所确定的文档种类为图纸的情况下,关键字获取部14从关键字信息存储部22中获取审批人、制图、结构、设计及图纸检查人。
接下来,图像提取部15针对所获取的每个关键字来反复执行以下的处理。首先,选择一个尚未实施以下处理的未处理的关键字(步骤S105)。选择的关键字的次序不需要特别限定。继而,图像提取部15将所选择的关键字与通过在步骤S102中实施的文字识别处理所获得的字符串进行对照,以确定关键字在文档上的位置。另外,也可不利用在步骤S102中实施的文字识别处理的结果,而在此时间点重新实施文字识别处理。继而,图像提取部15从探索条件信息存储部23中获取与文档的种类为图纸且作为处理对象的关键字对应的探索条件。例如,在关键字为“审批人”的情况下,图像提取部15确定印刷为“审批人”的文档的位置。并且,根据图4所示的探索条件的设定例,提取从所述文档的关键字“审批人”的印刷位置朝下侧处于3cm以内的图像、并且颜色为红色且形状为圆形(即,圆形状)的图像(步骤S106)。并且,图像提取部15确认其中有人名。另外,本实施方式中,若圆圈中有字符串,则推测此字符串为人名,但也可通过对照人名辞典等来严格验证并非企业名或日期等而是实际存在的人名。
判定部16参照图像提取部15对图像的提取结果,来判定文档内的与关键字相关联的印迹的有无。即,判定部16在能够通过图像提取部15来提取与探索条件吻合的图像时(步骤S107中为Y),则视为此图像是印迹而判定为有印迹(步骤S108)。另一方面,若无法提取与探索条件吻合的图像(步骤S107中为N),则判定为无印迹(步骤S109)。
图6是表示文档种类被分类为图纸的文档的概略布局的图。图6中,在文档上的右下设有规定的盖章栏,应盖章者在规定的盖章栏处进行盖章。在盖章栏中的上方,印刷有关键字,用户能够根据关键字来确认盖章的位置。另外,图6中,示出了经盖章的盖章栏2与未经盖章的盖章栏3。应在参照盖章栏的尺寸而设定的位置例如自关键字的印刷位置起下侧3cm以内确认到印迹,因此若如盖章栏2那样存在图像,则判定为有印迹。另一方面,若如盖章栏3(设想关键字“制图”的位置)那样不存在图像,则判定为无印迹。
对于尚未实施以上说明的处理的关键字,也同样地进行处理(步骤S110中为N,步骤S105~步骤S109),当对关键字获取部14所获取的所有关键字实施了处理时(步骤S110中为Y),判定结果输出部17提示判定部16对印迹有无的判定结果(步骤S111)。具体而言,使用以下例示的任一输出格式来输出判定结果。
首先,在第一输出格式中,使判定结果包含在文档的文件名中。在输出格式信息存储部24所存储的输出格式信息中,定义有文档文件的命名规则。例如,若在输出格式信息中设定有下述命名规则,即,如“原文件名+关键字+判定结果”那样,将关键字和应与所述关键字相关联地存在的印迹的有无判定结果设为组而包含在文件名中,则当原文件名为“ABC”,关键字为“审批人”,确认到印迹时,依据命名规则,将文档文件命名为“ABC_审批人_有”。另一方面,当原文件名为“ABC”,关键字为“制图”,未确认到印迹时,将文档文件命名为“ABC_制图_无”。另外,“_”是划分各项目值的分隔字符,但分隔字符不需要限于此。而且,文件名中也可未必包含分隔字符。而且,在存在多个关键字的情况下,将关键字和应与所述关键字相关联地存在的印迹的有无判定结果的多个组包含在文件名中,如“ABC_审批人_有_制图_无_…”。
若像这样将判定结果包含在文档的文件名中,则不需要打开文档来参照文档的内容,便能够确认印迹有无的判定结果。
在第二输出格式中,生成包含判定结果的文件。在输出格式信息存储部24所存储的输出格式信息中,定义有生成一文件(以下称作“判定结果文件”),所述文件包含关键字和应与所述关键字相关联地存在的印迹的有无判定结果的组。在如前述那样,使关键字与判定结果的组包含在文件名中的情况下,当关键字的数量多时,文件名有可能变得非常长。因此,通过采用所述第二输出格式,能够避免文件名变得过长。为了确认判定结果,可能必须打开判定结果文件。但是,若判定结果文件中包含针对多个文档的判定结果,则在确认针对多个文档的判定结果时,只要打开一个判定结果文件即可,而不需要将多个文档文件一个一个地打开。而且,若独立于文档文件而生成判定结果文件,则在印迹的有无管理上便利。判定结果文件例如是以逗号分隔值(Comma Separated Values,CSV)文件来制作。另外,在生成多个文档共用的判定结果文件时,优选将文档名关联于关键字及判定结果而登记到判定结果文件中。
第三输出格式与第二输出格式大致同样。但是,在第二输出格式中,作为判定结果,在判定结果文件中包含“有”或“无”,与此相对,在第三输出格式中,在作为判定结果为有印迹的情况下,将所述印迹图像自身包含在文件中。即,若存在与关键字的探索条件吻合的图像,则将此图像视为印迹而从文档的读取图像中予以提取,并将关键字和与所述关键字相关联的印迹设为组而包含到文件中。这样,不仅能够确认印迹的有无,而且在有印迹的情况下,还能够确认印迹其自身。而且,在将其他图像误认为印迹而提取的情况下,能够使用户确认为误认。另外,在无印迹图像的情况下,无与关键字相关联的图像,从而可确认判定结果为“无”。
此处,对探索条件的设定补充说明。
在探索条件信息存储部23中,必须预先设定有探索条件信息,但在本实施方式中,作为探索条件信息中所含的探索条件的设定方法,准备有三种。
第一,预选准备好可指定为探索条件的条件(也将其称作“预置(pre-set)探索条件”),从预置中选择探索条件。图7表示了预置的探索条件。在预置的探索条件中,组合设定有大致通用的条件。例如,在日期章的情况下,预先设定有下述具体条件,即:印迹的外形为圆形状;圆形状中被分为三段;以及正中间的段为日期。若此具体条件可行,则用户只要选择预置的日期章来作为探索条件即可。由此,即使不一个一个地设定印迹的外形为圆形状等详细条件也可,因此能够有效率地进行探索条件的设定。
第二,一个一个地设定探索条件。第一设定方法中,无法个别地进行具体设定,因此在第二设定方法中,使个别的设定成为可能。图8中表示了个别地设定探索条件时的示例。作为所设定的条件项目,能够针对每个印迹来设定颜色、相对于关键字的位置等。图4所示的设定例遵照此设定方法。
第三,更具体地设定探索条件。所设定的探索条件的项目例可与图7相同,但所设定的内容更为具体。例如,若关键字为审批人,则是处于一定程度的重要职位(post)的管理者成为审批人,责任也重大,因此针对审批人的关键字,预先登记所述管理者的***图像来作为***(个人)的探索条件。这样,在相对于某关键字而确定了应认可的***时,通过预先登记此***的图像,能够获得更高精度的判定结果。即,即使推测为印迹的图像配置在关键字“审批人”附近,但若与设定登记的管理者的***的图像不吻合,则判定结果仍为“无”。
如以上所说明的,本实施方式中,根据文档的读取图像来确定文档的种类,获取与此确定的文档种类对应的关键字,尽管取决于探索条件的设定,但只要在关键字附近存在图像,则将其推测为与关键字相关联的印迹而得出有印迹这一判定结果。这样,本实施方式中,只要能够确定文档的种类,并且能够确定与印迹相关联的关键字,便能够进行印迹的有无判定,因此无论对于哪种版式的文档都能够适应。即,不受文档版式的影响,因此无须个别地应对多种类的文档版式而能够获得印迹有无的判定结果。
另外,还能够设想在文档中存在多个与关键字相同的字符串的情况。此时,也可预先设定用于从多个字符串中确定与印迹相关联的关键字的条件而自动选择一个字符串,或者让用户选择一个字符串,以进行应对。
所述说明中,作为特定图像,以印迹为例进行了说明,但不需要限于印迹,例如也能够适用于徽标(logo)、照片、地图等各种图像。若将照片或图纸的有无判定作为一例,则将关键字设定为照片或图纸的说明文中所含的“图1:”之类的文字,更详细而言,设定为由①图等文字、②数字、③冒号(colon)这三个要素连续排列的字符串,作为评价(value),只要判定在其附近(上下左右)是否存在照片或图纸即可。关于是否存在照片或图纸的判定,由于现有技术中有进行区域判定的技术,因此只要使用此技术即可。为了不仅确认照片或图纸的有无,还进一步确认其是与成为关键字的文字对应的照片或图纸,作为对应的一例,为表示关键字的内容的照片或图纸,例如也可提取可能包含在照片或图纸的说明文中的说明内容的文字,并判定是否存在与此提取的说明内容的文字对应的照片或图纸。此时,例如既可预先决定与作为说明内容的文字而提取的文字相关的照片或图纸,也可使用人工智能等来制作出文章,并查看与此文章的一致程度,所述文章根据照片或图纸的结构等,以文字来说明记载了何物。若作具体描述,则例如在照片的说明文记载有“照片1:狗”,作为关键字而设定有“狗”的情况下,也可使用现有的图像处理技术来提取位于所述说明文周边(例如也可设置以上或下为优先的规则)的照片,将所提取的照片输入(input)至对照片的内容进行判定的人工智能,由此得到是否为狗的判定结果。或者,也可收到照片内容的判定结果后,判定照片自身是否真的是狗。而且,例如若以地图的示例来说,在作为说明文而记载有“图1:东京的地图”的情况下,当提取到东京这一文字来作为关键字时,也可根据地图图像内是否包含“东京”这一文字或者与东京相关的地名(例如银座、六本木等位于东京内的地名),来判定是否配置了正确的地图。这样,本发明是判断是否配置有与作为关键字的文字对应的特定图像的发明,且特定图像当然不限于印迹,是否配置了特定图像,不仅包含只要配置有图像则不论其内容,也包含判断图像的内容是否是与关键字对应的内容。
而且,本实施方式中,由于利用文档的读取图像,因此作为信息处理装置,以图像形成装置10为例进行了说明,但也可为接收文档的读取图像来进行处理的通用个人计算机(Personal Computer,PC)等计算机。
所述实施方式中,所谓处理器,是指广义上的处理器,包含通用的处理器(例如中央处理(Central Processing Unit,CPU)等)或专用的处理器(例如图形处理器(GraphicsProcessing Unit,GPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑元件等)。
而且,所述实施方式中的处理器的动作不仅可由一个处理器来完成,也可由位于物理上分离的位置处的多个处理器协作完成。而且,处理器的各动作的顺序并不仅限定于所述实施方式中记载的顺序,也可作适当变更。

Claims (9)

1.一种信息处理装置,其特征在于,包括处理器,
所述处理器根据处理对象文档的读取图像来确定所述文档的种类,
通过参照特定文字信息,来获取对应于所述处理对象文档的种类而与应存在于所述文档内的特定图像相关联的特定文字,所述特定文字信息是针对每个文档种类而设定,且跟与应存在于文档内的特定图像相关联的特定文字相关的信息,
根据能否对应于所获取的所述特定文字而从所述读取图像中提取与预先设定的探索条件吻合的图像,来判定所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无。
2.根据权利要求1所述的信息处理装置,其特征在于,
所述处理器对所述处理对象文档内的应与所获取的所述特定文字相关联地存在的特定图像的有无的判定结果进行提示。
3.根据权利要求2所述的信息处理装置,其特征在于,
所述处理器将所获取的所述特定文字、与所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无的判定结果设为组,而包含在所述文档的文件名中。
4.根据权利要求2所述的信息处理装置,其特征在于,
所述处理器生成一文件,所述文件包含所获取的所述特定文字、与所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无的判定结果的组。
5.根据权利要求2所述的信息处理装置,其特征在于,
所述处理器在能够对应于所获取的所述特定文字而从所述读取图像中提取与预先设定的探索条件吻合的图像时,提取所述图像来作为所述处理对象文档内应与所述特定文字相关联地存在的特定图像,
且生成包含所获取的所述特定文字及所提取的所述图像的组的文件。
6.根据权利要求1所述的信息处理装置,其特征在于,
所述探索条件包含下述条件中的至少一者,即:用于确定在所述处理对象文档内,应与所获取的所述特定文字相关联地存在的特定图像的条件;或者表示所述特定文字、与所述处理对象文档内应与所述特定文字相关联地存在的特定图像的位置关系的条件。
7.根据权利要求6所述的信息处理装置,其特征在于,
用于确定所述特定图像的条件包含与所述特定图像中所含的颜色或形状的至少一者相关的条件。
8.根据权利要求1至7中任一项所述的信息处理装置,其特征在于,
所述特定图像为印迹。
9.一种存储介质,其存储有用于使计算机实现下述功能的程序:
通过对处理对象文档的读取图像进行分析,从而确定所述处理对象文档的种类;
通过参照特定文字信息,来获取对应于所述处理对象文档的种类而与应存在于所述文档内的特定图像相关联的特定文字,所述特定文字信息针对每个文档种类而设定有与应存在于文档内的特定图像相关联的特定文字;以及
根据能否对应于所获取的所述特定文字而从所述读取图像中提取与预先设定的探索条件吻合的图像,来判定所述处理对象文档内应与所述特定文字相关联地存在的特定图像的有无。
CN202010045792.XA 2019-09-02 2020-01-16 信息处理装置以及存储介质 Pending CN112446273A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-159616 2019-09-02
JP2019159616A JP2021039494A (ja) 2019-09-02 2019-09-02 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
CN112446273A true CN112446273A (zh) 2021-03-05

Family

ID=74680377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045792.XA Pending CN112446273A (zh) 2019-09-02 2020-01-16 信息处理装置以及存储介质

Country Status (3)

Country Link
US (1) US11206335B2 (zh)
JP (1) JP2021039494A (zh)
CN (1) CN112446273A (zh)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162107A (ja) 1992-11-24 1994-06-10 Seiko Epson Corp 電子ファイリングシステム
JPH11224256A (ja) 1998-02-05 1999-08-17 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法および情報検索プログラムを記録した記録媒体
JP3917349B2 (ja) 2000-05-30 2007-05-23 富士通株式会社 文字認識結果を利用して情報を検索する検索装置および方法
JP2006085583A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP4842872B2 (ja) * 2007-03-29 2011-12-21 株式会社沖データ 帳票処理装置
JP2010205060A (ja) 2009-03-04 2010-09-16 Nomura Research Institute Ltd 文書内画像検索方法および文書内画像検索システム
JP5407572B2 (ja) 2009-06-09 2014-02-05 三菱電機株式会社 プログラマブル表示器、ドキュメント表示方法とその方法を実行するプログラムおよびそれを記録した記録媒体、並びにキーワード位置情報作成方法とその方法を実行するプログラムおよびそれを記録した記録媒体
JP5365360B2 (ja) * 2009-06-19 2013-12-11 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2011003116A (ja) * 2009-06-22 2011-01-06 Fuji Xerox Co Ltd 情報処理装置及びプログラム
US10409900B2 (en) * 2013-02-11 2019-09-10 Ipquants Limited Method and system for displaying and searching information in an electronic document
JP2018092459A (ja) 2016-12-06 2018-06-14 株式会社アイリックコーポレーション 画像分析装置、画像分析方法および画像分析プログラム
JP6871840B2 (ja) * 2017-11-06 2021-05-19 株式会社日立製作所 計算機及び文書識別方法
JP7059624B2 (ja) * 2017-12-26 2022-04-26 セイコーエプソン株式会社 画像処理装置および画像処理プログラム

Also Published As

Publication number Publication date
JP2021039494A (ja) 2021-03-11
US20210067640A1 (en) 2021-03-04
US11206335B2 (en) 2021-12-21

Similar Documents

Publication Publication Date Title
US7783472B2 (en) Document translation method and document translation device
US20010043740A1 (en) Character recognizing device, image reading device, character recognizing method, and program product
JP5699623B2 (ja) 画像処理装置、画像処理システム、画像処理方法、および、プログラム
US8213717B2 (en) Document processing apparatus, document processing method, recording medium and data signal
US9454696B2 (en) Dynamically generating table of contents for printable or scanned content
US20190294912A1 (en) Image processing device, image processing method, and image processing program
JP2006092027A (ja) 文字認識装置、文字認識方法および文字認識プログラム
US5950213A (en) Input sheet creating and processing system
US20020054706A1 (en) Image retrieval apparatus and method, and computer-readable memory therefor
JP2010538342A (ja) 表示文書を解析に向けて準備する装置
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
US20180032809A1 (en) Information extraction device, image forming apparatus including information extraction device and method of controlling information extraction device
CN108875570B (zh) 信息处理装置、存储介质和信息处理方法
JP2008282094A (ja) 文字認識処理装置
JP2021033831A (ja) ワークフロー支援装置、ワークフロー支援システム及びプログラム
CN110942075A (zh) 信息处理装置、存储介质及信息处理方法
CN112446273A (zh) 信息处理装置以及存储介质
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
CN114611475A (zh) 信息处理装置、信息处理方法和计算机可读介质
JP2007241355A (ja) 画像処理装置及び画像処理プログラム
JP3159087B2 (ja) 文書照合装置および方法
US11113521B2 (en) Information processing apparatus
JP2006234996A (ja) 教材処理装置、教材処理方法および教材処理プログラム
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
US12073645B2 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium for recognizing and correcting characters in forms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: No.3, 7-fan-3, Kawasaki, Tokyo, Japan

Applicant before: Fuji Xerox Co.,Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination