CN112541498A - 信息处理装置以及记录媒体 - Google Patents

信息处理装置以及记录媒体 Download PDF

Info

Publication number
CN112541498A
CN112541498A CN202010158614.8A CN202010158614A CN112541498A CN 112541498 A CN112541498 A CN 112541498A CN 202010158614 A CN202010158614 A CN 202010158614A CN 112541498 A CN112541498 A CN 112541498A
Authority
CN
China
Prior art keywords
proper noun
document
attribute
company
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010158614.8A
Other languages
English (en)
Inventor
吉塚公则
清水淳一
冈田茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN112541498A publication Critical patent/CN112541498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种信息处理装置以及记录媒体。本发明可确定已从文档中提取的固有名词是文档的提供源还是提供地。图像形成装置(10)具有:用户认证部(11),在用户认证时从云(20)中获取所述用户所属的公司的公司名(本公司名);图像分析部(13),对票据的读取图像进行分析并提取字符串;以及判定部(14),当从已从票据的读取图像中提取的敬称的附近提取了本公司名时,将票据的接收方判定为本公司,当从已从票据的读取图像中检测到的***的附近提取了本公司名时,将票据的发布源判定为本公司。

Description

信息处理装置以及记录媒体
技术领域
本发明涉及一种信息处理装置以及记录媒体。
背景技术
近年来,对扫描票据所得的读取图像实施文字识别处理,并对票据的记载内容进行分析,由此确定账单或报价单等票据的种类。并且,自动地提取对应于所述已确定的票据的种类的信息,例如若为账单,则自动地提取请求金额或付款日期等项目值。并且,进行已提取的信息的数据库化、或使用已提取的信息进行对应于票据的种类的处理。
[现有技术文献]
[专利文献]
专利文献1:日本专利特开2001-202466号公报
专利文献2:日本专利特开2013-142955号公报
发明内容
[发明所要解决的问题]
存在如下的情况:即便在同一文档中,对于文档的处理也根据本公司或本人成为文档的提供源还是成为提供地而不同。因此,若可根据文档来自动地确定文档的提供源或提供地,则方便。
本发明的目的在于可确定已从文档中提取的固有名词是所述文档的提供源还是提供地。
[解决问题的技术手段]
本发明的信息处理装置的特征在于:包括处理器,所述处理器从文档中提取可能成为所述文档的提供源或提供地的固有名词,在所述文档上,参照从所述固有名词获得的信息或从所述固有名词的周边获得的信息,确定所述固有名词是提供源还是提供地的属性。
而且,本发明的信息处理装置的特征在于:在对所述固有名词附加了收件人姓名中附带的单词的情况下,所述处理器将所述固有名词的属性确定为提供地。
而且,本发明的信息处理装置的特征在于:即便在对所述固有名词附加了收件人姓名中附带的单词的情况下,当对所述收件人姓名中附带的单词附加了删除所述单词的符号时,所述处理器也将所述固有名词的属性确定为提供源。
而且,本发明的信息处理装置的特征在于:当在所述固有名词的周边存在***时,所述处理器将所述固有名词的属性确定为提供源。
而且,本发明的信息处理装置的特征在于:从所述固有名词获得的信息是与表示所述固有名词的文字相关的属性信息。
而且,本发明的信息处理装置的特征在于:所述处理器根据与表示所述固有名词的文字相关的属性信息、和与所述文档上的至少位于所述固有名词的周边的文字相关的属性信息的异同,确定所述固有名词是提供源还是提供地的属性。
而且,本发明的信息处理装置的特征在于:当与表示所述固有名词的文字相关的属性信息、和与位于所述固有名词的周边的文字相关的属性信息不同时,所述处理器将所述固有名词的属性确定为提供地。
而且,本发明的信息处理装置的特征在于:当与表示所述固有名词的文字相关的属性信息、和与所述文档上的所述固有名词的周边的文字相关的属性信息相同时,所述处理器将所述固有名词的属性确定为提供源。
而且,本发明的信息处理装置的特征在于:所述处理器参照所述文档中的所述固有名词的位置,确定所述固有名词是提供源还是提供地的属性。
而且,本发明的信息处理装置的特征在于:当所述文档中的所述固有名词位于所述文档内的开头周边时,所述处理器将所述固有名词的属性确定为提供地。
而且,本发明的信息处理装置的特征在于:当所述文档中的所述固有名词位于所述文档内的末尾周边时,所述处理器将所述固有名词的属性确定为提供源。
本发明的记录媒体存储程序,所述程序使计算机实现如下的功能:从文档中提取可能成为所述文档的提供源或提供地的固有名词的功能;在所述文档上,参照从所述固有名词获得的信息或从所述固有名词的周边获得的信息,确定所述固有名词是提供源还是提供地的属性的功能;以及将已提取的固有名词与已确定的属性建立对应的功能。
[发明的效果]
根据技术方案1中记载的发明,可确定已从文档中提取的固有名词是文档的提供源还是提供地。
根据技术方案2中记载的发明,可将固有名词的属性确定为提供地。
根据技术方案3中记载的发明,可将固有名词的属性确定为提供源。
根据技术方案4中记载的发明,可将固有名词的属性确定为提供源。
根据技术方案5中记载的发明,可参照与表示固有名词的文字相关的属性信息,推断所述固有名词是提供源还是提供地。
根据技术方案6中记载的发明,可参照与固有名词及位于其周边的文字相关的属性信息,推断所述固有名词是提供源还是提供地。
根据技术方案7中记载的发明,可将固有名词的属性确定为提供地。
根据技术方案8中记载的发明,可将固有名词的属性确定为提供源。
根据技术方案9中记载的发明,可参照固有名词的位置,推断所述固有名词是提供源还是提供地。
根据技术方案10中记载的发明,可将固有名词的属性确定为提供地。
根据技术方案11中记载的发明,可将固有名词的属性确定为提供源。
根据技术方案12中记载的发明,可确定已从文档中提取的固有名词是文档的提供源还是提供地。
附图说明
图1是本实施方式中的图像形成装置的区块构成图。
图2是本实施方式中的图像形成装置的硬件构成图。
图3是表示已被登记在本实施方式中的用户信息数据库中的用户信息的数据构成的一例的图。
图4是表示本实施方式中的提供源/提供地判定处理的流程图。
图5是表示在本实施方式中进行处理的票据的一例的图。
图6是表示被保存在本实施方式中的票据信息存储部中的票据信息的数据构成的一例的图。
图7是表示在本实施方式中进行处理的票据的另一例的图。
图8是表示在本实施方式中被连续地读取的票据的一例的图。
符号的说明
1:CPU
2:ROM
3:RAM
4:硬盘驱动器(HDD)
5:操作面板
6:扫描仪
7:打印机
8:网络接口(IF)
9:地址数据总线
10:图像形成装置
11:用户认证部
12:读取图像获取部
13:图像分析部
14:判定部
15:信息提供部
16:票据信息存储部
20:云
21:用户信息数据库(DB)
具体实施方式
以下,根据附图对本发明的适宜的实施方式进行说明。在本实施方式中,将在公司间授受的票据作为文档的例子进行说明。
图1是本实施方式中的图像形成装置10的区块构成图。图2是本实施方式中的图像形成装置10的硬件构成图。本实施方式中的图像形成装置10是搭载本发明的信息处理装置,并搭载复印功能、扫描仪功能等各种功能的多功能一体机。在图2中,在只读存储器(Read Only Memory,ROM)2中保存有用于实现本装置的控制、或后述的本实施方式的特征性的处理功能的各种程序,中央处理器(Central Processing Unit,CPU)1按照已被保存在ROM2中的程序,进行扫描仪6或打印机7等搭载在本装置中的各种机构的动作控制。随机存取存储器(Random Access Memory,RAM)3用作程序执行时的工件存储器或电子数据收发时的通信缓冲区。硬盘驱动器(Hard Disk Drive,HDD)4保存使用扫描仪6所读取的电子文档等。操作面板5进行来自用户的指示的受理、信息的显示。扫描仪6读取用户已设置的原稿,并将其作为电子文档保存在HDD4等中。打印机7按照来自由CPU1所执行的控制程序的指示,将图像打印在输出纸张上。网络接口(Interface,I/F)8连接网络,用于与云(cloud)20等外部装置之间的收发、及经由浏览器的对于本装置的访问等。地址数据总线9与成为CPU1的控制对象的各种机构连接来进行数据的通信。
在图1中表示图像形成装置10与通过国际互联网等网络(未图示)而可通信地连接的云20。本实施方式中的图像形成装置10具有:用户认证部11、读取图像获取部12、图像分析部13、判定部14、信息提供部15及票据信息存储部16。另外,在本实施方式中,将不用于说明的构成元件从图中省略。
用户认证部11对使用图像形成装置10的用户进行认证,并且确定所述用户所属的公司。读取图像获取部12获取已由扫描仪6读取的票据的读取图像。图像分析部13对已由读取图像获取部12获取的读取图像进行分析,并提取记载在票据中的字符串或图像。尤其在本实施方式的情况下,将***作为图像来检测,并提取。判定部14判定经认证的用户所属的公司是处理对象的票据的提供源还是提供地。并且,将包含其判定结果的票据信息保存在票据信息存储部16中。信息提供部15向用户或云20提供票据信息。
云20也被称为云计算,也被定义为经由国际互联网来按需提供计算、数据库、存储、应用等资源的服务的总称。本实施方式中的云20具有用户信息数据库21,对应于来自图像形成装置10的要求来进行用户认证。而且,有时也对应于来自公司的要求,提供针对图像形成装置10已读取的票据的后工序处理。
图3是表示已被登记在本实施方式中的用户信息数据库21中的用户信息的数据构成的一例的图。在用户信息中包含图像形成装置10的用户,并设定与云20的用户相关的信息。具体而言,如图3所示,用户信息将作为识别各用户的识别信息的用户标识符(Identifier,ID)与用户认证所需要的密码、所述用户的用户名、及设定所述用户所属的公司的公司名的所属公司建立对应来构成。在图3中,仅表示在本实施方式中使用的信息项目,但也可以包含其他信息。
图像形成装置10中的各构成元件11~15通过搭载在图像形成装置10中的计算机、与利用搭载在计算机中的CPU1来运行的程序的协作来实现。而且,票据信息存储部16通过搭载在图像形成装置10中的HDD4来实现。或者,也可以利用RAM3或经由网络而利用位于外部的存储部件。
而且,本实施方式中所使用的程序当然由通信部件提供,也可以保存在光盘(Compact Disc,CD)-ROM或通用串行总线(Universal Serial Bus,USB)存储器等计算机可读取的记录介质中来提供。从通信部件或记录介质所提供的程序被安装在计算机中,计算机的CPU依次执行程序,由此实现各种处理。
接下来,使用图4中所示的流程图,对在本实施方式中判定本公司是票据的提供源,还是提供地的处理进行说明。
首先,若用户从显示在图像形成装置10的操作面板5中的规定的画面输入自己的用户ID及密码,则用户认证部11朝云20发送已由用户输入的用户ID及密码,由此进行用户认证(步骤101)。云20根据发送而来的信息,与已被登记在用户信息数据库21中的信息进行对照,由此进行认证。并且,若认证成功,则云20回复所述用户所属的公司的公司名。如此,用户认证部11在用户认证时获取所述用户所属的公司的公司名(步骤102)。在以后的说明中,将用户所属的公司称为“本公司”。而且,将用户认证部11已获取的公司的公司名称为“用户的公司名”或“本公司名”
若用户受到认证,则接下来使扫描仪6读取票据。由此,读取图像获取部12获取票据的读取图像(步骤103)。
继而,图像分析部13对已获取的读取图像进行分析而获取所期望的信息(步骤104)。所谓所期望的信息,具体而言,利用光学字符识别(Optical CharacterRecognition,OCR)技术,从票据的读取图像中提取字符串。尤其,在本实施方式中,至少提取后述的敬称、及可能成为票据的提供源或提供地的固有名词。另外,“字符串”表示文字的集合,但也存在集合中仅包含一个文字的情况。
另外,所谓“固有名词”,是表示为了与属于同一种类的其他物体进行区分,而仅对此物体附加的名称的单词,且是人名·地名·国名·书名·曲名·公司名·团体名等。本实施方式中所述的“可能成为票据的提供源或提供地的固有名词”是指可能从所述固有名词中,被作为票据的提供源(即,票据的“发布源”)或提供地(即,票据的“收件人姓名”)来指定的人名、公司名、团体名等固有名词。在本实施方式中,如后述那样,将公司名用作可能成为票据的提供源或提供地的固有名词来进行说明。
继而,判定部14参照图像分析部13对于票据的读取图像的分析结果,确认是否从票据中提取了表示敬称的字符串。“敬称”是收件人姓名中附带的单词。例如为“公启”、“先生”等字符串,通常为附加在成为接收方的公司名或负责者名中的信息。
在从票据的读取图像中提取了敬称的情况(步骤105中,是(Y))下,判定部14从读取图像中提取本公司名,在其提取位置的周边存在敬称的情况(步骤106中,是)下,将所述敬称判断为附加在本公司名或本公司的负责者名中者。由此,判定部14判定本公司是票据的接收方(步骤110)。
另外,在步骤102获取本公司名。此处,将在步骤102中获取的本公司名设为“ABC股份有限公司”。在公司为股份有限公司的情况下,有时将“股份有限公司”省略成“(股份)”等来表述。在本实施方式中,即便在存在此种表述的偏差的情况下,也可以利用现有的技术来应对。即,本实施方式中的判定部14具有将“ABC(股份)”也判断为本公司名的功能。
图5是表示在本实施方式中进行处理的票据的一例的图。若与所述同样地将用户的公司名设为“ABC股份有限公司”,则在图5中所示的票据的例子中,紧接在用户的公司名“ABC股份有限公司”之后存在“公启”这一敬称。而且,紧接在本公司的负责者“山田太郎”之后存在“先生”这一敬称。因此,判定部14根据至少一个信息,判定图5中所示的票据是本公司为接收方的票据。
如此例这样,通常对接收方附加敬称,因此若未对本公司名附加敬称(步骤106中,否(N)),则判定部14判定所述票据是本公司为发布源的票据(步骤111)。
而且,在因读取精度等某些理由而无法从票据的读取图像中提取敬称的情况(步骤105中,否)下,判定部14从票据的读取图像中检测***(步骤107)。另外,在步骤104中,也能够以将字符串与***的图像一同检测的方式进行处理。并且,判定部14确定已从读取图像中提取的公司名之中,位于***的检测位置的周边的公司名(步骤108)。通常,成为票据的发布源的公司将在票据上,在所述公司名的附近盖上公司章作为前提。在票据中,存在成为票据的提供源与提供地的公司的公司名,因此提取位于***的检测位置的旁边的公司名。并且,在所述已确定的公司名为本公司名的情况(步骤109中,是)下,判定部14将本公司判定为票据的发布源(步骤111)。另一方面,在已确定的公司名并非本公司名的情况(步骤109中,否)下,判定部14将本公司判定为票据的接收方(步骤110)。
此处,将用户的公司名设为“XYZ股份有限公司”。在图5中所示的票据的例子中,提取作为公司名的“ABC股份有限公司”及“XYZ股份有限公司”。另外,通过在已从票据的读取图像中提取的字符串中包含“股份有限公司”或“(股份)”、或者“有限公司”等表示公司名的字符串,可将所述字符串辨别为表示公司名的字符串。根据图5中所示的票据的例子,在从票据的读取图像中检测到的***31的旁边存在用户的公司名“XYZ股份有限公司”,因此判定部14判定图5中所示的票据是本公司为发布源的票据。另外,也可以通过利用现有技术来验证***31为XYZ股份有限公司的***。若如此进行处理,则也能够应对在票据的读取图像中包含多个***的情况。
如以上所说明的那样,在本实施方式中,可在用户认证时确定用户所属的公司,即本公司名,通过从票据的读取图像中的本公司名的周边获得的信息与所述敬称或***的位置关系,辨别本公司是票据的发布源还是接收方。
但是,存在对已附加至接收方的敬称附加删除符号的情况。所谓“删除符号”,通常是指重叠地附加在敬称上的符号,例如为删除线、双重删除线、涂抹或删除戳记等符号。当然,敬称必须即便在重叠有这些符号的状态下,也可以通过OCR技术来确认。通过对敬称附加删除符号,将作为接收方的公司切换成提供源。因此,在对敬称附加删除符号的情况下,判定部14将附加有敬称的公司名的公司确定为票据的提供源。
另外,在本实施方式中,先实施从票据的读取图像中的敬称的提取,但也可以先实施***的检测。而且,在所述说明中,先提取敬称或***,然后判定在其附近是否存在本公司名,但也能够以如下方式进行处理:通过在步骤102中获取的本公司名与已从票据的读取图像中提取的字符串的对照,先从票据的读取图像中确定本公司名的位置,然后判定在本公司名的附近是否存在敬称、或者是否存在***,而辨别本公司是票据的发布源还是接收方。
另外,在以上的说明中,判定本公司是票据的发布源还是接收方,关于与本公司进行了票据的授受的对方,未特别提及。但是,例如当将已从票据中提取的字符串与已被登记在云20的用户信息数据库21中的公司名进行对照,并从票据的读取图像中仅提取了一个本公司以外的公司名时,若本公司是票据的发布源,则判明对方的公司是接收方。另一方面,若本公司是票据的接收方,则判明对方的公司是发布源。
而且,在所述说明中,参照敬称或***等从公司名,即可能成为票据的提供源或提供地的固有名词的周边获得的信息,从票据的读取图像中确定票据的发布源与接收方。但是,根据文档,也存在不对发布源或接收方附加敬称或***的种类的文档。当然,虽然也可以适用于票据,但在不对发布源或接收方附加敬称或***的文档的情况下,也可以参照从可能成为文档的提供源或提供地的固有名词获得的信息,确定与所述公司名对应的公司是成为发布源,还是成为接收方。
所谓从可能成为文档的提供源或提供地的固有名词获得的信息,例如为与表示固有名词的文字相关的属性信息。所谓与文字相关的属性信息,例如为文字的尺寸或字体、下划线等。此处,作为可能成为文档的提供源或提供地的固有名词,若也以公司名为例进行说明,则可根据与文档上的表示公司名的文字相关的属性信息、和与文档上的至少位于公司名的周边的文字相关的属性信息的异同,确定所述公司名是提供源还是提供地的属性。
例如,文档的制作者使成为提供地的公司名的文字尺寸与位于公司名的周边的文字尺寸相比,相对地变大等使文字尺寸不同的情况不少。例如,当以12磅(point)来记载文档时,将表示提供地的公司名设为16磅。而且,对表示提供地的公司名附加未对文档本文附加的下划线。如此,当与表示公司名的文字相关的属性信息、和与位于所述公司名的周边的文字相关的属性信息不同时,判定部14将与所述公司名对应的公司确定为提供地。另一方面,文档的制作者不将成为文档的提供源的公司名的文字尺寸以显眼的方式变大,而将其设为与所述公司名的周边的文字同等的尺寸的情况不少。如此,当与表示公司名的文字相关的属性信息、和与位于所述公司名的周边的文字相关的属性信息同等时,判定部14将与所述公司名对应的公司确定为提供源。
而且,也可以参照文档上的公司名的位置而非与表示公司名的文字相关的属性信息,确定所述公司是成为提供源,还是成为提供地。例如,当公司名位于文档的开头周边时,判定部14将所述公司确定为提供地。所谓文档的“开头”,在文档为横写的情况下,表示文档的纸面的上方侧,在纵写的情况下,是指文档的纸面的右边侧。表示所谓的文档的起首位置附近周边。
而且,当公司名位于文档的末尾周边时,判定部14将所述公司确定为提供源。所谓文档的“末尾”,在文档为横写的情况下,表示文档的纸面的下方侧,在纵写的情况下,是指文档的纸面的左边侧。表示所谓的文档的结尾位置附近周边。
在本实施方式中,如以上那样确定与文档上的公司名对应的公司是成为提供源,还是成为提供地。
然而,当从票据的读取图像中提取了本公司名以外的多个公司名时,通过所述方法,无法自动地确定本公司与成为票据的授受的对方的公司。在此情况下,例如也可以如所述那样,参照从票据的读取图像中的公司名的提取位置或文字尺寸等其他信息。例如,在票据为横写的情况下,成为接收方的公司的公司名在票据上位于上方、且文字尺寸比周围的文字大的情况不少。而且,发布源的公司名在票据上,位于靠右边的票据的右上或右下、且比接收方的文字尺寸小的情况不少。若如此推断票据的形式,则即便在从票据中提取了多个本公司名以外的公司名的情况下,也可以比较容易地确定成为本公司的对方的公司。若具体而言,则在本公司为票据的发布源的情况下,可将已从票据的上方附近提取的公司名的公司推测为接收方。另一方面,在本公司为票据的接收方的情况下,可将与从票据上的右侧附近提取、且文字尺寸与接收方相比相对小的公司名对应的公司推测为发布源。
另外,判定部14也能够已如下方式进行处理:将已从票据的读取图像中提取的多个公司名在操作面板5中进行列表显示,使用户选择与本公司进行了票据的授受的对方的公司。
如以上所说明的那样,判定部14若确定票据的发布源与接收方,则将识别票据的识别信息(例如,“票据ID”)与所述票据的票据种类、以及所述票据的发布源及接收方的各公司的识别信息(例如,公司名)建立对应来生成票据信息,并保存在票据信息存储部16中。将被保存在票据信息存储部16中的票据信息的数据构成例示于图6中。
若如以上那样确定票据的发布源及接收方,并生成票据信息,则信息提供部15将所述票据信息提供至例如对票据进行处理的后工序。提供的方法并无特别限定。例如,以文件格式经由网络来发送、或利用电子邮件等功能来提供。此处,若对云20提供了票据信息,则云20可通过参照票据信息,对同一票据实施根据票据的提供源或接收方而不同的处理。以下,对具体例进行说明。
图7是表示在本实施方式中进行处理的票据的另一例的图。在图7中显示报价单这一票据种类的票据。例如,云20为了XYZ股份有限公司,从票据的读取图像中提取报价单编号32并生成信息。而且,云20为了ABC股份有限公司,从票据的读取图像中提取报价委托编号33并生成信息。并且,云20向所述公司提供为了各公司而生成的信息。
根据本实施方式,如上所述,可从同一票据,根据票据的发布源或接收方,使对于票据的后处理不同,作为其一例,可使从票据中提取的信息不同。具体而言,可根据是票据的发布源的情况、及成为接收方的情况,提取已被记载在票据中的编号中的不同的编号。而且,作为另一例,可根据是发布源还是接收方,而保存在不同的保存地。当然,也可以在提取编号后,保存在各个保存地。
另外,将票据在月末等集中进行处理的情况不少。在此情况下,有时将票据集中扫描来进行处理。如上所述,在票据中记载有发布源与接收方,但被扫描的多个票据通常进行了扫描者为发布源或接收方的任一者。因此,在对手头的多个票据连续地进行了扫描的情况下,可将已从各票据中提取的公司名最多者判断为本公司。使用图8对此进行具体说明。
例如,将在月末对票据集中实施处理的负责者设为属于ABC股份有限公司的用户A。在此情况下,用户A使图像形成装置10的扫描仪6连续地读取多个票据。将所述被连续地读取的票据的一例示于图8中。此处,用户A进行处理的票据是ABC股份有限公司成为发布源或接收方的票据。即,如图8中所例示的那样,在各票据中包含作为发布源的公司名“ABC股份有限公司”、或作为接收方的公司名“ABC股份有限公司”。因此,判定部14将已从多个票据的读取图像中分别提取的公司名之中,最多的公司名确定为用户A的公司名,即本公司名。
换言之,所谓可从多个票据的读取图像中确定本公司名,是指即便因某些理由,无法利用图4中所示的步骤101中的用户认证处理,从云20中确定用户A的本公司名,通过使扫描仪6集中读取多个票据,也可以确定本公司名。并且,若与用户A相关的信息未被登记在用户信息数据库21中,则可将已确定的本公司名作为所述用户的所属公司登记在用户信息数据库21中。
在所述实施方式中,将票据作为文档的一例进行了说明,但只要是记载有提供源与提供地的文档、至少记载有本公司名的文档,则无需限定于票据。
而且,在所述实施方式中,将本发明的信息处理装置设为搭载在图像形成装置10中者进行了说明,但通过以从图像形成装置10中获取票据的读取图像的方式构成,也可以将信息处理装置作为与图像形成装置10分开的装置来设置。或者,也能够以通过云20来实现的方式构成。
在所述实施方式中,所谓处理器,是指广义的处理器,包含通用的处理器(例如,中央处理器(Central Processing Unit,CPU)等)、或专用的处理器(例如,图形处理单元(Graphics Processing Unit,GPU)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑元件等)。
而且,所述实施方式中的处理器的动作也可以是并非仅由一个处理器来完成,而由位于在物理上分离的位置的多个处理器协作来完成者。而且,处理器的各动作的顺序并不仅限定于所述各实施方式中记载的顺序,也可以适当变更。

Claims (12)

1.一种信息处理装置,其特征在于,
包括处理器,
所述处理器从文档中提取可能成为所述文档的提供源或提供地的固有名词,
在所述文档上,参照从所述固有名词获得的信息或从所述固有名词的周边获得的信息,确定所述固有名词的属性是提供源还是提供地。
2.根据权利要求1所述的信息处理装置,其特征在于,
在对所述固有名词附加了收件人姓名中附带的单词的情况下,所述处理器将所述固有名词的属性确定为提供地。
3.根据权利要求2所述的信息处理装置,其特征在于,
即便在对所述固有名词附加了收件人姓名中附带的单词的情况下,当对所述收件人姓名中附带的单词附加了删除所述单词的符号时,所述处理器也将所述固有名词的属性确定为提供源。
4.根据权利要求1所述的信息处理装置,其特征在于,
当在所述固有名词的周边存在***时,所述处理器将所述固有名词的属性确定为提供源。
5.根据权利要求1所述的信息处理装置,其特征在于,
从所述固有名词获得的信息是与表示所述固有名词的文字相关的属性信息。
6.根据权利要求5所述的信息处理装置,其特征在于,
所述处理器根据与表示所述固有名词的文字相关的属性信息、和与所述文档上的至少位于所述固有名词的周边的文字相关的属性信息的异同,确定所述固有名词是提供源还是提供地的属性。
7.根据权利要求6所述的信息处理装置,其特征在于,
当与表示所述固有名词的文字相关的属性信息、和与位于所述固有名词的周边的文字相关的属性信息不同时,所述处理器将所述固有名词的属性确定为提供地。
8.根据权利要求6所述的信息处理装置,其特征在于,
当与表示所述固有名词的文字相关的属性信息、和与所述文档上的所述固有名词的周边的文字相关的属性信息相同时,所述处理器将所述固有名词的属性确定为提供源。
9.根据权利要求1所述的信息处理装置,其特征在于,
所述处理器参照所述文档中的所述固有名词的位置,确定所述固有名词的属性是提供源还是提供地。
10.根据权利要求9所述的信息处理装置,其特征在于,
当所述文档中的所述固有名词位于所述文档内的开头周边时,所述处理器将所述固有名词的属性确定为提供地。
11.根据权利要求9所述的信息处理装置,其特征在于,
当所述文档中的所述固有名词位于所述文档内的末尾周边时,所述处理器将所述固有名词的属性确定为提供源。
12.一种记录媒体,存储程序,所述程序用于使计算机实现如下的功能:
从文档中提取可能成为所述文档的提供源或提供地的固有名词的功能;
在所述文档上,参照从所述固有名词获得的信息或从所述固有名词的周边获得的信息,确定所述固有名词的属性是提供源还是提供地的功能;以及
将已提取的固有名词与已确定的属性建立对应的功能。
CN202010158614.8A 2019-09-20 2020-03-09 信息处理装置以及记录媒体 Pending CN112541498A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-171439 2019-09-20
JP2019171439A JP7379987B2 (ja) 2019-09-20 2019-09-20 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
CN112541498A true CN112541498A (zh) 2021-03-23

Family

ID=74876431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010158614.8A Pending CN112541498A (zh) 2019-09-20 2020-03-09 信息处理装置以及记录媒体

Country Status (3)

Country Link
US (1) US11631268B2 (zh)
JP (1) JP7379987B2 (zh)
CN (1) CN112541498A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022030150A (ja) * 2020-08-06 2022-02-18 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム
JP7426634B1 (ja) 2022-11-30 2024-02-02 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051997A (ja) * 1999-08-11 2001-02-23 Sony Corp 文書データ作成装置、文書データ作成方法、及び記録媒体
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
JP2001202466A (ja) 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
US7478089B2 (en) * 2003-10-29 2009-01-13 Kontera Technologies, Inc. System and method for real-time web page context analysis for the real-time insertion of textual markup objects and dynamic content
JP4569327B2 (ja) * 2005-03-09 2010-10-27 富士ゼロックス株式会社 カラー画像形成装置
JP5025118B2 (ja) 2005-10-31 2012-09-12 株式会社東芝 文書データ処理装置および文書データ処理プログラム
US10019708B2 (en) * 2006-08-25 2018-07-10 Amazon Technologies, Inc. Utilizing phrase tokens in transactions
US9449080B1 (en) * 2010-05-18 2016-09-20 Guangsheng Zhang System, methods, and user interface for information searching, tagging, organization, and display
JP5880052B2 (ja) 2012-01-10 2016-03-08 富士ゼロックス株式会社 文書処理装置及びプログラム
US10120844B2 (en) * 2014-10-23 2018-11-06 International Business Machines Corporation Determining the likelihood that an input descriptor and associated text content match a target field using natural language processing techniques in preparation for an extract, transform and load process
US10133879B2 (en) 2015-11-03 2018-11-20 International Business Machines Corporation Technique used in text analysis in a safe manner
JP2016192223A (ja) 2016-06-17 2016-11-10 弘明 小野 会計情報読取りシステム及びプログラム
JP6976763B2 (ja) 2017-07-24 2021-12-08 株式会社オービックビジネスコンサルタント 仕訳情報処理装置、仕訳情報処理方法、およびプログラム
US20190056911A1 (en) * 2017-08-18 2019-02-21 International Business Machines Corporation Sorting of Numeric Values Using an Identification of Superlative Adjectives
US11424020B2 (en) * 2017-12-08 2022-08-23 Actual Healthcare Solutions Cloud-based interactive digital medical imaging and patient health information exchange platform

Also Published As

Publication number Publication date
US20210089766A1 (en) 2021-03-25
US11631268B2 (en) 2023-04-18
JP2021047792A (ja) 2021-03-25
JP7379987B2 (ja) 2023-11-15

Similar Documents

Publication Publication Date Title
US9002838B2 (en) Distributed capture system for use with a legacy enterprise content management system
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
US8726178B2 (en) Device, method, and computer program product for information retrieval
US8218872B2 (en) Computer-readable medium storing information processing program, information processing method and information processing system
EP1727054A2 (en) Digitized document archiving system
US9390089B2 (en) Distributed capture system for use with a legacy enterprise content management system
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
JP2010510563A (ja) ハード・コピーの書式からの書式定義の自動発生
CN101178725A (zh) 用于信息检索的设备、方法和计算机程序产品
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
CN112541498A (zh) 信息处理装置以及记录媒体
JP6786658B2 (ja) 書類読取システム
JP2002324166A (ja) 帳票、帳票処理システム、帳票作成システム、帳票印刷システム、帳票処理方法、帳票作成方法、及び、帳票印刷方法
US11611677B2 (en) Information processing apparatus that identifies related document images based on metadata and associates them based on user input, information processing system, information processing method, and storage medium
CN110097040B (zh) 图像处理装置以及存储介质
CN112580414A (zh) 信息处理装置、信息处理方法及计算机可读介质
JP2008257543A (ja) 画像処理システム及びプログラム
JP6190549B1 (ja) 文書処理システム
US8390836B2 (en) Automatic review of variable imaging jobs
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
US20230368555A1 (en) Information processing apparatus, information processing method, and storage medium
JP5436040B2 (ja) 画像入出力装置および監視システム
JP7484176B2 (ja) 情報処理装置、情報処理システムおよびプログラム
JP7161797B1 (ja) データ入力支援装置、データ入力支援システム、データ入力支援方法、及びデータ入力支援プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: No. 3, chiban 9, Dingmu 7, Tokyo port, Japan

Applicant before: Fuji Xerox Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination