CN112801041A - 财务数据的报销方法、装置、设备及存储介质 - Google Patents
财务数据的报销方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112801041A CN112801041A CN202110249954.6A CN202110249954A CN112801041A CN 112801041 A CN112801041 A CN 112801041A CN 202110249954 A CN202110249954 A CN 202110249954A CN 112801041 A CN112801041 A CN 112801041A
- Authority
- CN
- China
- Prior art keywords
- reimbursement
- data
- bill
- image
- invoice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 230000004044 response Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012937 correction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 32
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000001514 detection method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 239000000463 material Substances 0.000 description 7
- 230000004308 accommodation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供一种财务数据的报销方法、装置、设备及存储介质,其中,对获取的票据图像进行识别,得到票据数据;对获取的报销单图像进行识别,得到待报销数据;响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据;基于所述财务数据,对所述票据数据中的至少部分数据进行报销处理。
Description
技术领域
本申请实施例涉及文字识别技术领域领域,涉及但不限于一种财务数据的报销方法、装置、设备及存储介质。
背景技术
各公司的报销流程相对繁琐,需要报销人员将各类票据整合,并在完成线上审批流程后,由财务人员进行人工审核。财务人员在进行票据审核时,需要耗费大量时间对各个报销单以及相应的票据进行核对,尤其在单张报销单中存在多张票据的情况下,需要财务人员耗费更多的精力去核对以免出错,加大了报销流程的审核难度,同时对报销人员而言,报销周期较长。
发明内容
本申请实施例提供一种财务数据的报销技术方案。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种财务数据的报销方法,所述方法包括:
对获取的票据图像进行识别,得到票据数据;
对获取的报销单图像进行识别,得到待报销数据;
响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据;
基于所述财务数据,对所述票据数据中的至少部分数据进行报销处理。
本申请实施例提供一种财务数据的报销装置,所述装置包括:
第一识别模块,用于对获取的票据图像进行识别,得到票据数据;
第二识别模块,用于对获取的报销单图像进行识别,得到待报销数据;
第一确定模块,用于响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据;
第一报销模块,用于基于所述财务数据,对所述票据数据中的至少部分数据进行报销处理。
对应地,本申请实施例提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,该计算机可执行指令被执行后,能够实现上述所述的方法步骤。
本申请实施例提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时能够实现上述方法的步骤。
本申请实施例提供一种财务数据的报销方法、装置、设备及存储介质,对于获取的票据图像和报销单图像,通过首先,自动对票据图像和报销单图像进行识别,得到票据数据与待报销数据;如此,能够自动实现票据图像及报销单图像识别,以及确定票据之间的关联;然后,判断待报销数据是否满足第一报销要求,且所述票据数据是否满足第二报销要求,在待报销数据满足第一报销要求,且所述票据数据满足第二报销要求下,自动确定报销单图像相关联的财务数据,这样,能够实现对票据数据的有效核查;最后,采用财务数据,对票据数据进行报销处理,这样,采用核查通过的财务数据对票据数据进行报销处理,能实现自动化报销,节省人力和物力。
附图说明
图1为本申请实施例提供的财务数据的报销方法的实现流程示意图;
图2为本申请实施例提供的财务数据的报销方法的另一实现流程示意图;
图3为本申请实施例提供的财务数据的报销方法的应用场景示意图;
图4为本申请实施例提供的财务数据的报销方法的又一应用场景示意图;
图5为本申请实施例提供的财务数据的报销方法的另一应用场景示意图;
图6为本申请实施例提供的财务数据的报销装置的结构组成示意图;
图7为本申请实施例提供的电子设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)光学字符识别(Optical Character Recognition,OCR)针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
2)文档结构化,文档管理的结构化由标题、章节、段落等逻辑结构组成。结构化是为文档建立一个框架,就象写文章先写一个提纲。结构化使你的文档看起来不会杂乱无章,每一部分都紧密联系,形成一个整体。
下面说明本申请实施例提供的财务数据的报销***的示例性应用,其中,本申请实施例提供的***中的终端可以实施为具有图像采集功能的笔记本电脑,平板电脑,台式计算机,移动设备(例如,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的电子设备。
下面,将说明财务数据的报销的***实施为电子设备时示例性应用。
图1为本申请实施例提供的财务数据的报销方法的实现流程示意图,如图1所示,结合如图1所示步骤进行说明:
步骤S101,对获取的票据图像进行识别,得到票据数据。
在一些实施例中,票据图像为画面内容包括待识别***的图像,其中,待识别***的数量可以是一个、两个或者两个以上等。比如,票据图像为对粘贴了多个***的A4纸进行采集的图像。
在一些可能的实现方式中,通过对票据图像中的每一个待识别***,采用与该***相匹配的票据模板,进行各个文字区域的文字识别,并同时结合该待识别***中相邻文字区域之间的关联关系,对文字识别结果进行文档结构化处理,从而得到具备结构化的票据数据。待识别***中相邻文字区域之间的关联关系可以理解为,一张***中固定文字与填写在***中的可变化文字之间的对应关系;比如,***中一个文字区域中的固定文字为“购买方开户行及账号”,那么与该文字区域相邻的文字区域为具体的开户行和账号“比如,上海A区分行2408668-1234”;或者,一个文字区域中的固定文字为“购买方名称”,那么与该文字区域相邻的文字区域为“A公司”等。如此,针对一张待识别***中相邻文字区域之间的对应关系,对该***的文字识别结果中的文字进行匹配后输出,即可得到具备结构化的票据数据。在票据图像中包括多张待识别***的情况下,针对每一张待识别***均数据具备结构化的文字识别结果,从而得到票据数据。
步骤S102,对获取的报销单图像进行识别,得到待报销数据。
在一些实施例中,报销单图像为画面内容包括待识别报销单的图像;其中,报销单指企业或公司给以开支报销的凭证。费用报销单,是员工用自己的钱,在为公司办事时所垫付的,在事情完成后,回公司报销,并将需要报销的***,与之粘贴,再由财务给报销人报销。比如,报销单图像为针对A公司的员工填写的报销单采集的图像;在该图像中可以是仅包括报销单,还可以是包括报销单和其他背景区域。
在一些可能的实现方式中,通过对报销单图像中的待识别报销单进行文字识别,并结合该报销单中不同文字区域之间的语义关系,对文字识别结果进行结构化处理,从而使得文字识别结果中的文字是相匹配的,即得到的待报销数据具备结构化。在一个具体例子中,按照报销单图像中的表格线将该报销单划分为多个文字区域;通过对这多个文字区域之间的关联关系进行分析,确定文字识别结果中文字的输出位置关系,即哪些文字与哪些文字是相邻数据。比如,一个文字区域中为固定文本:报销项目;那么与该文字区域匹配的文字区域为具体的报销项目:2021年1月制作费;那么在输出文字识别结果时,基于这两个文字区域之间的关联关系,将“报销项目”输出在前,将“2021年1月制作费”紧跟“报销项目”之后;如此,得到并输出具备结构化的待报销数据。
步骤S103,响应于待报销数据满足第一报销要求,且票据数据满足第二报销要求,确定与报销单图像相关联的财务数据。
在一些实施例中,第一报销要求为待报销数据包括的审批通过信息的数量等于预设数值;通过确定所述待报销数据包括的审批通过信息的数量,在响应于所述数量等于预设数值的情况下,确定所述待报销数据满足所述第一报销要求。该预设数值可以是基于重要的审批项目的数量进行确定的,比如,审批项目中重要项目有10项,那么可以将预设数值设定为10。基于此,待报销数据满足第一报销要求,说明该待报销数据已通过层层审批。通过对票据图像进行文字检测、文字识别和对文字识别结果进行文档结构化之后,输出票据数据。通过对报销单图像进行文字检测、文字识别和对文字识别结果进行文档结构化之后,输出待报销数据。判断票据数据与待报销数据之间的匹配度,如果票据数据与待报销数据相匹配,进一步判断票据数据是否满足外部报销限定,比如,是否满足财务部门关于报销事项的规定。
在一些可能的实现方式中,第二报销要求为票据数据与待报销数据相匹配,且票据数据满足外部报销限定,可以通过以下过程核对票据数据是否满足第二报销要求,过程如下:
第一步,确定票据数据与待报销数据之间的第一匹配度。
在一些实施例中,首先,对待报销数据中的待报销事项进行分类;然后,针对分出的每一类,在票据数据中,查找属于该类别的数据,最后,判断票据数据中该类别的数据是否与待报销数据中该类别的数据匹配。
第二步,响应于第一匹配度大于等于预设匹配度阈值,确定票据数据与所述待报销数据相匹配,并确定票据数据是否满足外部报销限定。
在一些实施例中,针对待报销数据中的每一类别,均进行匹配度判断,如果每一类别的票据数据与待报销数据均匹配,确定票据数据与待报销数据相匹配。比如,待报销数据中餐饮类报销金额为1000元,那么在票据数据中,查找属于该餐饮类的***金额,并确定出餐饮类***的总金额;如果餐饮类***的总金额小于或等于1000元,说明餐饮类的待报销数据与票据数据匹配;如果餐饮类***的总金额大于1000元,说明餐饮类的待报销数据与票据数据部分匹配。如果在票据数据中,未查找属于该餐饮类的***,那么说明待报销数据与票据数据不匹配。
第三步,响应于票据数据满足外部报销限定,确定票据数据满足第二报销要求。
在一些实施例中,如果票据数据既与待报销数据匹配,也满足外部限定,确定票据数据满足第二报销要求。如此,通过上述第一步至第三步可以自动实现对待识别***的核对。
在一些可能的实现方式中,可以通过以下过程实现对待报销数据的核对,即核对待报销数据中是否包括满足一定数据的审批通过信息,即核对该报销单是否通过层层审批。如果待报销数据包括预设数量的审批通过信息,确定待报销数据满足第一报销要求,即表明该报销单通过层层审批。最后,在确定待报销数据满足第一报销要求,且所述票据数据满足第二报销要求情况下,确定财务数据。与报销单图像相关联的财务数据包括,基于该报销单图像确定的申报人信息、该申报人所绑定的银行账号以及付款账号等用于实现对票据数据进行报销的财务信息。外部报销限定可以理解为是财务部门针对需要报销的***设定的要求;比如,单张票据的金额、***类型和***日期等;判断待识别***是否满足这些设定的要求,以实现对待识别***的核对。
步骤S104,基于财务数据,对票据数据中的至少部分数据进行报销处理。
在一些实施例中,对于一种类别的报销事务,如果票据数据中属于该类别的***的总金额小于等于报销单图像中呈现的该类别的待报销金额,说明票据数据中该类别的***的总金额未超出报销单中填写的该类别的金额。比如,如果报销单中填写的餐饮类的待报销金额为1000,票据数据中属于该餐饮类的***的总金额为900,那么对票据数据中的全部待识别***进行报销处理。如果报销单中填写的餐饮类的待报销金额为1000,票据数据中属于该餐饮类的***的总金额为1200,那么在票据数据中,确定出总金额为1000的餐饮类***,对这总金额为1000的餐饮类***进行报销,剩余200的餐饮类***是不进行报销的。在一些可能的实现方式中,如果是对票据数据的部分数据进行报销,那么可以基于剩余数据,确定该剩余数据的待识别***;并将剩余数据的待识别***反馈至申报端,以使申报人撤回剩余数据的待识别***。
在本申请实施例中,对于获取的票据图像和报销单图像,通过首先,自动对票据图像和报销单图像进行识别,得到票据数据与待报销数据;如此,能够自动实现票据图像及报销单图像识别,以及确定票据之间的关联;然后,对待报销数据以及票据数据进行核对完成之后,自动确定报销单图像相关联的财务数据,这样,能够实现对票据数据的有效核查;最后,采用财务数据,对票据数据进行报销处理,这样,采用核查通过的财务数据对票据数据进行报销处理,能实现自动化报销,节省人力和物力。
在一些实施例中,通过将票据与票据模板库中的票据模板进行匹配,以得到票据的置信度,从而将高置信度的票据模板确定为待调用的票据模板,自动实现票据识别,能够节省人力物力,即上述步骤S101可以通过如图2所示的步骤实现,图2为本申请实施例提供的财务数据的报销方法的另一实现流程示意图,结合图1和2所示的步骤进行以下说明:
步骤S201,在票据图像中,对待识别***所在的图像区域进行提取,得到至少一个区域图像。
在一些实施例中,一张待识别***对应一个区域图像。该票据图像中的待识别***可以是一张或者多张;对粘贴一张或者多张待识别***的纸张进行图像采集,即可得到该票据图像;或者,对多个待识别***进行图像采集,将采集到的图像拼接在一起组成包括多个待识别***的票据图像。比如,票据图像中的待识别***的类别包括:增值税***、电子票、专用***、普通***(比如,餐饮类***、住宿类***、打车类***、加油站的加油类***或文具类***等)和机打***等。
在票据图像中,确定出每一待识别***所在的图像区域,对这些图像区域进行抠图,这样,可以得到画面内容包括一个待识别***的多个区域图像。在一些可能的实现方式中,如果票据图像中包括3张待识别***,那么针对这3张待识别***所在的图像区域分别进行提取,得到每一张待识别***所属的区域图像。比如,票据图像中包括3张待识别***,分别为餐饮票、住宿票和打车票,那么分别对这三个***所在的图像区域进行抠图,得到3个区域图像,即包括餐饮票的区域图像、包括住宿票的区域图像和包括打车票的区域图像。
在一些可能的实现方式中,对于票据图像中待识别***所在的图像区域进行抠图之后,得到多个图像区域,响应于区域图像处于非正状态,对该区域图像中的画面内容进行转正处理,并将经转正处理后得到的图像作为区域图像。如此,对每一图像区域的图像内容进行转正,以使图像内容整体且易识别,可以通过以下过程实现:
第一步,在票据图像中,对每一待识别***所在的图像区域进行抠图,得到至少两个抠图图像。
在一些实施例中,通过目标检测找到票据图像中各待识别***所在的图像区域的顶点,通过顶点实现对图像区域进行抠图,以得到区域图像。比如,在票据图像中检测到待识别***的4个顶点,通过这4个顶点对该区域进行抠图,得到每一待识别***的抠图图像。比如,票据图像中包括餐饮票、住宿票和打车票,3张待识别***,通过检测每一待识别***的4个顶点,对该待识别***所在的图像区域进行抠图;即通过检测票据图像中餐饮票的4个顶点,抠出餐饮票所在的图像区域;通过检测票据图像中住宿票的4个顶点,抠出住宿票所在的图像区域;通过检测票据图像中打车票的4个顶点,抠出打车票所在的图像区域。
第二步,响应于所述抠图图像处于非正状态,对所述抠图图像中的画面内容进行转正处理,并将经所述转正处理后得到的图像作为区域图像。
在一些实施例中,对票据图像中每一待识别***进行抠图,得到抠图图像的同时,对该抠图图像的画面内容,比如,文字、数字或者图案等进行角度校正,将画面内容的倾斜角度校正为0度倾斜,即将该抠图图像的画面内容转正,从而使得抠图图像中处于倾斜状态的文字或者数字能够呈竖直方向。在其他实现方式中,如果抠图图像是倾斜的,将抠图图像的倾斜角度调整为0度,即使得抠图图像也是竖直的。如此,通过对包括一个待识别***的抠图图像以及抠图图像中的文字等画面内容的倾斜度进行校正,使得到的区域图像中的画面内容是竖直的,更易于识别。
步骤S202,对所述区域图像进行识别,得到所述票据数据。
在一些实施例中,对每一张区域图像进行整体识别,从预设票据目标库中调用置信度较高的票据模板进行文字检测和文字识别,并结合该区域图像中不同文字区域之间的关联关系对文字识别结果进行结构化处理,得到具备结构化的票据数据。
在一些可能的实现方式中,通过在票据模板库中查找与区域图像匹配度较高的票据模板,实现对区域图像的识别,即上述步骤S202可以通过以下过程实现:
步骤S231,获取所述区域图像所属的***类别。
在一些实施例中,对于得到的多个区域图像,通过对该区域图像中呈现的待识别***进行分类,得到区域图像所属的***类别。比如,增值税***、电子票、专用***或普通***等。
步骤S232,在预设票据模板库中查找与所述***类别相匹配的目标票据模板。
在一些实施例中,按照***类别,在预设票据模板库中,确定属于该类别的票据模板与该区域图像的置信度,将置信度大于或等于预设置信度阈值的票据模板作为该区域图像的目标票据模板。
步骤S233,响应于查找到所述目标票据模板,基于所述目标票据模板,对所述区域图像中的文字区域进行文字识别,得到文字识别结果。
在一些实施例中,在预设票据模板库中查找到目标票据模板,即说明预设票据模板库中存在与区域图像的置信度大于预设置信度阈值的票据模板,调用该目标票据模板对该区域图像中的各个文字区域进行文字检测和文字识别,得到文字识别结果。如图3所示,票据图像中包括3个待识别***,对于待识别***301,该待识别***301的***类别为专用***,那么在预设票据模板的普通票据模板中,查找与该待识别***301的区域图像置信度较高的目标票据模板。通过调用目标票据模板,对该待识别***301的区域图像进行文字检测,得到区域图像中包括文字的各个文字区域,比如,可以采用矩形框或是其他图形框框选出文字区域,然后,通过对各个文字区域进行文字识别,可以采用OCR技术对各个文字区域进行文字识别,得到文字识别结果。其中,文字识别结果包括区域图像中任意文字区域中的文字。
步骤S234,基于文字识别结果,以及不同文字区域之间的关联关系,得到票据数据。
在一些实施例中,对于票据图像中包括一张区域图像的情况下,即单一的区域图像,按照该区域图像的目标票据模板,确定该区域图像的待识别***中相邻文字区域之间的关联关系。基于相邻文字区域之间的关联关系,对文字识别结果进行结构化处理,以实现文字匹配,从而得到具备结构化的文字输出结果;以图3中的待识别***303为例,待识别***303为××路桥通行费专用***;其中,文字区域为“***代码”所属文字区域331,相邻的文字区域包括“111111111111”所属的文字区域332,以及“***号码”所属的文字区域333;通过分析相邻文字区域331和332之间的关联关系为从属关系,那么确定这两个区域中文字的输出位置关系,对文字识别结果中相邻区域中的文字进行匹配,即将文字区域332与文字区域331中文字输出在一排,且将文字区域332中的文字输出在文字区域331中文字的后面。通过分析相邻文字区域331和332之间的关联关系为独立关系,所以将文字区域331中的文字输出在文字区域333中文字分别输出在两排,相互独立。
对于票据图像中包括多张区域图像的情况,那么需要对数据之间的关系进行关联,以实现对文字识别结果中的文字进行匹配。在一些可能的实现方式中,通过这多张区域图像中的日期,把不同的待识别***关联起来。比如,从这些待识别***中包括差旅类***,那么从这些待识别***中确定出是哪天出发至哪天截止,以实现将差旅类***关联在一起。在其他实现方式中,可以基于报销过程中报销事项的需求,设定所需要的文字识别结果的输出维度。这样,按照不同的报销事项的需求,将文字识别结果进行整体输出;如此,便于后续对每一类***的金额统计。比如,针对交通类***,判断交通类***的报销金额是否超额,或者,一天内产生的交通费用是否在限额内;还可以是以一定的周期,判断票据的总金额是否满足要求,比如,以一个星期为周期,判断这一周内产生的差旅类***是否超额;还可以是,从具备结构化的文字输出结果中查看单项***的金额是否超额。比如,查看餐饮类***的金额是否在金额限额内。
上述步骤S231至步骤S234提供了一种实现“对区域图像进行识别,得到票据数据”的方式,在该方式中,通过在预设票据模板库中调用置信度较高的目标票据模板,对区域图像进行文字检测、文字识别和文档结构化处理等操作,从而能够自动实现票据的文字识别和关联,节省人力物力。
在一些实施例中,如果在预设票据模板库中未查找到目标票据目标,可以通过以下两种方式得到票据数据,其中,方式一如步骤S235至步骤S237所示:
步骤S235,响应于未查找到目标票据模板,对区域图像进行文字识别,得到第一全局识别结果。
在一些实施例中,按照区域图像与票据模板的置信度,在预设票据模板库中查找置信度较高的目标票据模板,如果预设票据模板库中票据模板的置信度均低于预设置信度阈值,那么说明未查找到目标票据模板。比如,由于不同地区对于同一类别的***的排版有差异,或者由于预设票据模板库更新迭代较慢,无法满足同类票据排版的需求,或者预设票据模板库中不存在该类别的***(比如,小众***);那么在对该区域图像进行票据模板匹配时,即便是找到最高置信度票据模板,该票据模板的置信度仍然达不到预设置信度阈值。在这种情况下,对区域图像进行整体文字识别,得到整体文字识别结果,即第一全局识别结果;这样,能够借助于区域图像的语义信息结合第一全局识别结果,进行人为校正和核对,以得到准确的识别结果。
步骤S236,基于所述区域图像中的语义信息,对所述第一全局识别结果进行调整,得到中间输出结果,并将所述中间输出结果作为所述票据数据。
在一些实施例中,区域图像中的语义信息用于描述该区域图像的画面内容以及表明区域图像的画面内容中各个对象的语义,包括描述该区域图像的颜色、纹理和形状等底层特征语义以及属性特征等。在一些可能的实现方式中,对区域图像进行整体文字识别之后结合区域图像中的语义信息,对第一全局识别结果中的文字按照语义信息,对文字排版进行调整,使得到的中间输出结果满足语义信息,可以将该中间输出结果作为票据数据。或者是将该中间输出结果反馈至核对结对,以从核对节点中获取到票据数据;即进入步骤S237。
步骤S237,向核对节点发送所述区域图像和所述中间输出结果,以从所述核对节点获取所述票据数据。
在一些实施例中,该核对节点可以是人工核对节点,将区域图像和中间输出结果发送至该人工核对节点。比如,财务人员核对节点,将中间输出结果和区域图像传递至财务人员的人工核对节点,以通过人工核对的方式自动录入***的实际票面内容;或是财务人员基于区域图像,对得到的中间输出结果进行校正,以得到准确的票据数据。
在上述步骤S235至步骤S237中提供了一种实现“对所述至少两个区域图像进行识别,得到所述票据数据”的方式,在该方式中如果预设票据模板库中不包括目标票据模板,通过对区域图像进行人工核对,得到准确度较高的票据数据。
方式二:如步骤S238至步骤S240所示:
步骤S238,响应于未查找到所述目标票据模板,输出退回提示信息,以获取所述区域图像对应的***图像。
在一些实施例中,在预设票据模板库中不包括目标票据模板的情况下,还可以将该为匹配到目标票据模板的区域图像退回至输入端,以使报销人员重新输入画面质量较高的区域图像,即该区域图像所对应的高质量的***图像。即输出提示信息,该提示信息可以是提示报销人员有***被退回;如果该区域图像中待识别***的类别是可识别的,即能够识别到该待识别***的类别,那么基于区域图像的画面内容生成该提示信息,以使提示信息可以与区域图像相匹配,比如,区域图像中待识别***的类别为过路票,那么提示信息可以为“有过路票被退回”等信息。该提示信息可以文字、语音或者图像等形式输出。
步骤S239,确定***图像的***信息。
在一些实施例中,***信息包括:票头、字轨号码、联次及用途、客户名称、银行开户账号、商(产)品名称或经营项目、计量单位、数量、单价、金额,以及大小写金额、经手人、单位***或开票日期等。
步骤S240,在所述预设票据模板库中查找与所述***信息相匹配的票据模板,作为所述目标票据模板,对所述区域图像进行文字识别并得到所述票据数据。
在一些实施例中,与***信息相匹配的票据模板,为票据模板中模板版面信息与***信息相匹配,比如,***信息表明该***为交通票,那么在票据模板库中查找交通类票据模板,进一步通过分析***信息中包括的具体票面内容,从交通类票据模板中找到与该具体票面内容排版相似度较高的票据模板,即得到了目标票据模板;最后,可基于该目标票据模板对其中的区域图像进行文字识别,得到该票据数据。
上述步骤S238至步骤S240提供了另一种得到目标票据模板的方式,在该方式中,对于在预设票据模板库中为匹配到目标票据模板的区域图像,进行退回,并提示报销人员重新输入该区域图像的***图像,从而可以通过重新输入的高质量***图像为该待识别***匹配目标票据模板,以提高票据模板的匹配成功率,进而能够提高对区域图像进行文字识别,得到的识别结果的准确度。
在其他实施例中,在步骤S238将未匹配到目标票据模板的区域图像退回之后,可以提示用户重新录入***图像,即提示报销人员自主录入该区域图像对应***的***信息。比如,报销人员从***提供的多个***信息选项中选择与该区域图像匹配的选项,或是手动输入***信息。这样在对区域图像进行票据模板匹配时,无需对与区域图像和票据模板之间的置信度进行判别,可以直接调用该***信息相匹配的目标票据模板,提高了票据模板匹配的速度和准确度。
在一些实施例中,对于预设票据模板库中不存在目标票据模板的情况下,可以基于待识别***的***信息,生成新的票据模板,以实现对预设票据模板的更新,可以通过以下过程实现:
第一步,响应于未查找到与***信息相匹配的票据模板,基于***信息,生成新票据模板。
在一些实施例中,预设票据模板库中的票据模板与***信息的排版情况的置信度均小于置信度阈值,或者预设票据模板库中票据模板的类别没有该***信息对应的待识别***的类别,即确定在预设票据模板库中未查找到与***信息相匹配的票据模板。在这种情况下,可以通过分析***信息,生成新票据模板。比如,虽然预设票据模板库中票据模板的类别包括该***信息对应的待识别***的类别,但是由于不同地区对于同一类别的***的排版不同,所以在该预设票据模板库中已经存在的该类别的票据模板是与该待识别***不匹配的;基于此,可以按照***信息,分析出该***的排版,从而生成新的票据模板。或者是,该***是小众***,那么在预设票据模板库中票据模板的类别没有该***的类别,这样仍然可以按照***信息,分析出该小众***的排版,从而生成新的票据模板。
第二步,将所述新票据模板,添加至所述预设票据模板库。
在一些实施例中,通过分析***信息,生成新票据模板之后,将该新票据模板加入预设票据模板库。在一些可能的实现方式中,对于预设票据模板库中的票据模板可以按照一定时长周期,对旧排版的票据模板进行过滤,以及时更新票据模板库。
在本申请实施例中,通过对预设票据模板库进行更新,能够使得更新的预设票据模板库能够满足***排版的更新迭代,以便于为区域图像匹配出高置信度的票据模板。
在一些实施例中,对于获取画面内容包括待识别报销单的报销单图像,可以通过以下两种方式实现对报销单内容的识别,得到具备结构化的待报销数据,即上述步骤S102可以通过以下两种方式实现:
方式一:
步骤S121,对所述报销单图像中的表格线进行识别,得到表格线交叉形成的多个表格区域。
在一些实施例中,由于报销单图像中包括许多表格线,以及不同的表格线相交形成的矩形,对报销单图像进行划分,将一个矩形划分为一个表格区域,从而得到多个表格区域。
步骤S122,对每一表格区域中的文字进行识别,得到表格识别结果。
在一些实施例中,通过对每一表格区域中的文字进行OCR识别,识别出每一表格区域中的文字。如图4所示,对报销单图像401,通过识别报销单图像401中的表格线,将该图像划分为多个表格区域,比如,“出差人姓名”所在的表格区域402、“起止地点”所在的表格区域403和“小计”所在的表格区域404等。
步骤S123,基于不同表格区域之间的关联关系,对所述不同表格区域对应的表格识别结果中的文字之间进行匹配,得到所述待报销数据。
在一些实施例中,通过对多个表格区域进行语义分析,确定不同表格区域之间的关联关系。比如,通过对报销单图像中的任一表格区域的四周的相邻表格区域中的内容进行分析,判断与该表格区域的关联关系。如图4所示,对于“出差补助”所在的表格区域405,其相邻表格区域包括:“张三”所在的表格区域406、“起止地点”所在的表格区域403、“标准”所在的表格区域407、“天数”所在的表格区域408、“金额”所在的表格区域409和“住宿费”所在的表格区域410,通过对这些表格区域中的画面内容进行语义分析,确定表格区域405与表格区域405是相互独立的,但是表格区域405与表格区域407、表格区域408、表格区域409是相关联的。那么基于此,对表格识别结果中的文字按照表格区域之间的关联关系,对文字输出的位置进行调整,以使得调整后的文字输出结果中文字之间的是关联的,即输出具备结构化的待报销数据。比如,在输出的待报销数据中,“出差补助”输出在一排,“标准”和“50”输出在“出差补助”的下一排;“天数”和“3”与“标准”输出在同一排,并用分号隔开等;“金额”和“150”与“标准”输出在同一排,并用分号隔开等。
在上述方式一中,通过识别报销单图像中的表格线,以多条表格线交叉形成的区域为单位,对每个表格区域中的文字进行识别,这样使得后续识别更有针对性,无论是基于语义分析还是关联分析,均是对一个表格区域内的文字进行分析,准确度更高。
方式二:
步骤S124,确定报销单图像中的报销单类型。
在一些实施例中,报销单类型包括但不限于:办公费类、差旅类、租赁费类、咨询费类、专项经费类和日常费用类等。在一些可能的实现方式中,通过对报销单图像的表头名称进行识别,确定报销单类型;比如,表头名称为差旅报销单,那么该报销单类型为差旅类。或者是通过对报销单图像中的固定字段进行识别,确定报销单类型。
步骤S125,在预设版面模板库中,查找与报销单类型匹配的目标版面模板。
在一些实施例中,确定报销单的类型之后,由于各机构的报销单通常有固定的版面模板,所以可以基于该报销单的类型从预设版面模板库中,查找报销单类型属于该类型的版面模板。比如,报销单的类型为差旅类报销单,那么在预设版面模板库中查找属于差旅类的版面模板,得到目标版面模板。
步骤S126,响应于查找到目标版面模板,确定包括固定字段的参考区域和与包括可变字段的待识别区域。
在一些实施例中,参考区域为具有固定字段的区域,如图4所示,由于表格区域402中的“出差人姓名”为固定字段,那么表格区域402即为参考区域,由于表格区域406中的“张三”不是固定字段,那么表格区域406便不是参考区域。所述待识别区域用于输入与所述固定字段匹配的可变字段。与参考区域相关联的待识别区域,为字段内容与该参考区域的文字相关联,且该字段内容为可变字段;比如,由于表格区域402中的固定字段为“出差人姓名”、与“出差人姓名”相关的字段为具体出差人姓名“张三”,所以与表格区域402相关联的待识别区域为表格区域406。
步骤S127,基于参考区域和待识别区域,对报销单图像中的文字进行识别,得到待报销数据。
在一些实施例中,确定出目标版面模板之后,可以通过分析该目标版面模板中标记的参考区域,以及与该参考区域关联的待识别区域。通过按照报销单类型在预设版面模板库中调用相同类型的目标版面模板,这样,能够提高对报销图像进行文字识别效率。
在一些实施例中,在对报销单图像进行版面模板匹配的过程中,可以通过对整体图像进行文字识别,然后在文字识别结果中查找与该参考区域的文字匹配的部分,即可得到该参考区域的目标待识别区域,可通过以下步骤实现:
第一步,对报销单图像中的文字进行整体识别,得到第二全局识别结果。
在一些实施例中,在对报销单图像进行版面模板匹配的过程中,采用OCR技术对报销单图像进行整体文字识别,得到文字识别结果,即第二全局识别结果。如图4所示,第二全局识别结果,即为对报销单图像401进行整体文字识别得到的结果。
第二步,在第二全局识别结果中,查找与每一参考区域相匹配的部分识别结果。
在一些实施例中,在第二全局识别结果中,查找标记出的参考区域的固定字段,即部分识别结果。如图4所示,对于作为参考区域的表格区域402,与该参考区域相匹配的部分识别结果为“出差人姓名”。
第三步,基于部分识别结果,确定与部分识别结果对应的参考区域相关联的目标待识别区域。
在一些实施例中,在第二全局识别结果中,确定与部分识别结果相关联的识别结果,相关联的识别结果所属的待识别区域,即为目标待识别区域。比如,部分识别结果为“出差人姓名”,在第二全局识别结果中确定出与之相关联的识别结果为“张三”,那么目标待识别区域即为“张三”所在的表格区域406。
第四步,基于每一参考区域与目标待识别区域之间的关联关系,对第二全局识别结果中位于参考区域的固定文字和位于目标待识别区域的可变字段进行匹配,得到待报销数据。
在一些实施例中,对于每一参考区域,均在第二全局识别结果中,确定出该参考区域对应的目标待识别区域;这样,基于每一参考区域与目标待识别区域之间的关联关系,建立第二全局识别结果中的固定字段和可变字段之间的匹配关系;并基于该匹配关系,输出待报销数据。这样即可确定参考区域的固定字段和目标待识别区域的可变字段的输出位置,从而实现对第二全局识别结果的文档结构化处理;使得输出的待报销数据中位于参考区域的固定文字和位于目标待识别区域的可变字段的输出位置是合理的。比如,以图4为例,由于作为参考区域的表格区域402和作为待识别区域的表格区域406具有关联关系,那么在输出这两个区域中的字段时,可以将两个区域中的字段输出在一排,且“出差人姓名”在前,“张三”在后。
在本申请实施例中,通过将报销单图像与各版面模板进行匹配,以调用相同类型的版面模板实现对报销单的文字识别,以及通过版面模板中标记的参考区域和相关联的待识别区域对文字识别结构进行结构化,从而能够提高得到的待报销数据的准确性和可读性。
在一些实施例中,如果在预设版面模板库中不包括报销单类型的模板,则不能查到与报销单类型相同的目标版面模板,那么可以基于该报销单类型结合报销单中的参考区域的固定字段,生成新版面模板;并将生成的新版面模板存入预设版面模板库中,以实现对预设版面模板库进行更新,使得更新的预设版面模板库能够满足多种类型的报销单,从而提高对报销单图像进行模板匹配的准确度。
在一些实施例中,对票据图像和报销单图像进行文字识别之后,需要判断得到的票据数据与待报销数据之间的匹配度,以实现对票据图像中的待识别***和报销单的核对,进而判断该票据数据是否满足第二报销要求,可以通过以下过程实现:
步骤S151,基于所述报销单图像的参考区域中的固定字段,对所述待报销数据进行分类,得到报销类别集合。
在一些实施例中,对于报销单图像呈现的待报销数据,通过分析报销单图像的参考区域中的固定字段,可以得到该报销单图像中包括哪些报销类别,比如,固定字段包括:住宿、交通和餐饮,那么报销类别包括:住宿费、交通费和餐饮费电话费。
步骤S152,在所述票据数据中,确定每一报销类别对应的待识别***的单类数据。
在一些实施例中,由于票据图像中包括多张待识别***,那么这多张待识别***可以是同一类别的***,也可以是不同类别的***。在确定出报销单中包括的报销类别之后,在票据数据中,对待识别***按照该报销类别集合进行分类,得到每一报销类别的***对应的票据数据,即单类数据。比如,报销类别为餐饮类,那么在票据数据中,确定为餐饮类的***对应的票据数据,即餐饮类的单类数据。
步骤S153,对于每一报销类别,确定每一所述报销类别对应的待报销数据与每一所述报销类别的单类数据之间的匹配度。
在一些实施例中,按照报销单中的报销类别,对待报销数据和票据数据进行核对,分别核对每一报销类别中,该类别的***提供的数据是否与报销单上填写的数据相吻合,基于此,实现对报销单和***的核对。
每一报销类别的单类数据包括:该报销类别的***总金额、开票日期、客户名称和单位***等;通过比对单类数据中每一项数据是否与该报销类别的待报销数据吻合,来确定每一报销类别对应的待报销数据与每一报销类别的单类数据之间的匹配度。
步骤S154,响应于所述匹配度大于等于所述预设匹配度阈值,确定所述票据数据与所述待报销数据相匹配。
在一些实施例中,如果票据数据中,该报销类别的单类数据与报销单中填写的该报销类别的数据一致,那么说明匹配度大于等于预设匹配度阈值;比如,报销类别为餐饮类,如果多张***的日期与报销单中填写的日志一致、总金额小于或等于报销单中填写的到报销金额且开票单位与报销单中填写的开票单位一致等,说明这些***与报销单填写的内容一致,即票据数据与所述待报销数据相匹配。进一步,确定这些***通过审核,可以进一步确定报销人的个人信息以及银行账户等信息,进行报销。
在本申请实施例中,通过对报销图像中填写的内容与待识别***呈现的内容进行核对,以确定票据数据是否与待报销数据一致,能够自动实现对报销单和***的核对,以提高财务报账过程中核对报销单和***的效率。
在一些实施例中,通过将待识别***的票据数据与报销要求进行核对,以确定票据图像中的***是否符合报销要求,可以通过以下过程实现:
步骤S161,在票据数据中,确定属于每一待识别***的单票票据数据。
在一些实施例中,对于票据图像中的每一待识别***,确定一张待识别***的单票票据数据;比如,单张票据的金额、开票日期和客户名称等。
步骤S162,确定所述单票票据数据是否满足所述外部报销限定,以确定所述票据数据是否满足所述第二报销要求。
在一些实施例中,确定单票票据数据是否满足外部报销限定,响应于单票票据数据满足外部报销限定,确定票据数据满足第二报销要求。通过对单张***的票据数据中的每一项进行判断,如果单张票据的票据数据满足外部报销限定,说明该票据图像中的每一待识别***均是满足外部报销限定的,所以确定票据数据满足第二报销要求。
在一些可能的实现方式中,首先,确定所述单票票据数据中的单票金额,和/或,确定具有附加明细需求的目标***类型,和/或,确定所述单票票据数据对应的待识别***的标识信息;然后,响应于所述单票金额小于或等于预设金额上限,和/或,所述目标***类型的明细数据与所述明细需求相匹配,和/或,响应于所述标注信息包含于预设票据标识库,确定所述票据数据满足外部报销限定,以确定所述票据数据满足所述第二报销要求。
基于此,可以通过以下多种方式实现对票据数据是否满足外部报销限定的核对:
方式一:第一步,确定单票票据数据的单票金额。
在一些实施例中,对于单张待识别***的票据数据,确定该***的金额,即单票金额;比如,对于餐饮***,确定该***消费的金额。
第二步,响应于单票金额小于或等于预设金额上限,确定票据数据满足外部报销限定。
在一些实施例中,如果单张票据的金额小于或者等于设定的单张票据的预设金额上限,还可以进一步判断,与该***属于同一类别的所有***的总金额,判断总金额是否超出设定的总金额上限,如果总金额小于或等于设定的总金额上限,确定票据数据满足外部报销限定。
方式二:第一步,确定具有附加明细需求的目标***类型。
在一些实施例中,目标***类型可以是在外部报销限定中设定的,还可以是基于待识别***的画面内容的详细程度,确定目标***类型;比如,待识别***中未注明具体在哪个酒店消费的住宿票。
第二步,响应于目标***类型的明细数据与明细需求相匹配,确定票据数据满足外部报销限定。
在一些实施例中,首先,在所述票据数据中,查找与所述目标单据类型匹配的***的明细数据;然后,判断目标***类型的明细数据与明细需求的匹配度,如果匹配度较高,说明对于具有附加明细需求的***类型,实际上附加了合适的明细说明,因此,确定票据数据满足外部报销限定。
方式三:第一步,确定单票票据数据对应的待识别***的标识信息。
在一些实施例中,待识别***的标识信息包括:待识别***的***号码和***代码等,能够唯一标识该待识别***的信息。
第二步,响应于标注信息包含于预设票据标识库,确定票据数据满足外部报销限定。
在一些实施例中,预设票据标识库为能够在官方网站查到***号码的号码库,如果待识别***的***号码包含在预设票据标识库中,说明该待识别***是有效***,进一步,确定票据数据满足外部报销限定。
在本申请实施例中,上述方式一至三可以是并列的三种核对票据数据是否满足外部报销限定的三种方式,还可以是对方式一至三中的任意两个或者三个设定优先级关系或者递进关系来核对票据数据是否满足外部报销限定;比如,设定方式三的优先级高于方式一,方式一的优先级高于方式二;即,首先,判断标注信息是否包含于预设票据标识库;然后,如果标注信息包含于预设票据标识库,判断该有效票据的单票金额,最后,如果有效票据的单票金额小于等于金额上限,判断目标***类型的明细数据与明细需求是否相匹配,如果目标***类型的明细数据与明细需求相匹配,确定票据数据满足外部报销限定。
在另一实现方式中,还可以是针对方式一和三设定递进关系,比如,首先,判断标注信息是否包含于预设票据标识库;然后,如果标注信息包含于预设票据标识库,判断该有效票据的单票金额,最后,如果有效票据的单票金额小于等于金额上限,确定票据数据满足外部报销限定。
在本申请实施例中,通过多种方式对待识别***进行核对,以确定待识别***的票据数据是否满足报销要求,从而能够自动实现对***数据与报销需求的核对。
在一些实施例中,对待报销数据和票据数据审核通过之后,对待识别***进行报销,即上述步骤S103可以通过以下过程实现:
步骤S131,响应于待报销数据满足第一报销要求,且票据数据满足第二报销要求,至少确定报销单图像所绑定的财务账号和报销人信息。
在一些实施例中,在待报销数据满足第一报销要求,且票据数据满足第二报销要求的情况下,确定报销单图像中报销人的基本信息,包括:出差人姓名、所在部门、参与的项目和联系方式等;通过对报销人信息的分析,确定报销单图像所绑定的财务账号包括:付款账户和收款账户等。以及确定对于每一款项的备注信息。
步骤S132,至少将财务账号和报销人信息,作为财务数据。
在一些实施例中,基于财务数据中的报销人信息,确定票据数据的备注信息;比如,在打款金额中备注打款的费用是在哪个项目中产生的,还可以从对该项目的实施款项进行记录,具体可包括识别结果中的各项内容。将财务账号、报销人信息和备注信息等这些内容作为财务数据,实现对票据数据的报销处理。
在本申请实施例中,对报销单和***进行核对通过后,通过在报销单图像中提取报销人信息,确定出打款金额、付款账户、收款账户和备注信息等财务数据,从而实现自动报销。
在一些实施例中,可以依据票据数据中金额与待报销数据中的金额之间的关系,确定是对报销数据中的全部金额进行报销,还是对部分金额进行报销,过程如下:
第一步,在票据图像中,确定每一报销类别的待识别***的总金额。
在一些实施例中,按照报销单中包括的报销类别,对于票据图像中的多个待识别***进行分类,对于每一报销类别的待识别***,确定该报销类别的总金额。比如,确定餐饮类待识别***的总金额。
第二步,在待报销数据中,确定每一报销类别的待报销金额。
在一些实施例中,在报销单图像中,确定关于该报销类别的待报销金额。比如,确定餐饮类待识别***的总金额之后,在待报销数据中,确定关于餐饮类填报的待报销金额。
第三步,响应于总金额小于或等于待报销金额,基于财务数据,对每一报销类别的待识别***进行报销。
在一些实施例中,如果该报销类别的***总金额小于报销单中填报的待报销金额,说明该报销类别的待识别***的总金额,与待报销数据匹配,基于财务数据中的付款账户和收款账户,对这些待识别***进行报销。
第四步,响应于总金额大于所述待报销金额,在票据数据中,确定金额之和等于待报销金额的多个候选***。
在一些实施例中,如果该报销类别的***总金额大于报销单中填报的待报销金额,说明该报销类别的待识别***的总金额,与待报销数据不匹配,那么在这一类的待识***中,确定金额之和小于或等于待报销金额的多个候选***。比如,餐饮类待识别***为10张150元的***,即总金额为1500元,但是报销单中填报的待报销金额为1000元,由于每张待识别***的金额为150元,那么候选***为这10张***中的6张***。
第五步,基于财务数据,对多个候选***进行报销。
在一些实施例中,基于财务数据中的付款账户和收款账户,对这多个候选***的总金额进行报销。比如,以餐饮类待识别***为10张150元的***,销单中填报的待报销金额为1000元为例,最终报销的金额为这6张***的总金额900元。
在其他实施例中,对票据数据进行报销之后,可通过***对报销人员报销进行提醒,过程如下:
第一步,确定票据数据中已完成报销的金额。
在一些实施例中,对票据数据完成打款之后,获取打款的金额,即已完成报销的金额。
第二步,基于已完成报销的金额,生成并输出提示信息。
在一些实施例中,可以是生成与已完成报销的金额相匹配的提示信息,比如,该提示信息包括打款金额的多少,以及关于该打款金额产生的项目等备注信息。提示信息的提醒方式可以包括但不限于邮件、短信、电话语音等。
在本申请实施例中,对于票据数据进行报销之后,通过***对报销人员进行及时提醒,以使报销人员及时了解报销情况。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用,以针对财务数据,实现财务数据识别的智能化报销为例,进行说明。
在一些实施例中,各公司的报销流程相对繁琐,需要报销人员将各类票据贴至一张A4纸,并在完成线上审批流程后,将线上通过各层领导审批通过的报销单及粘贴了各类票据的纸张一起作为报销依据,提交至财务。而且财务在进行票据审核时,通常需要耗费大量人力物力对各个报销单进行核对,且针对每个报销单进行核对的过程中,需要对多张票据信息进行核对,比如,开票日期、单位、金额、类型、项目等。尤其是在年底等集中报销的时段,财务人员的工作压力更大,往往会出现核对错误的情况,这不仅加大了财务人员的工作量,也导致报销周期较长。
此外,由于票据是人工粘贴的,因此很可能出现歪七扭八的情况,对于财务人员而言,对于单张报销单中存在多张票据的情况,也需要耗费更多的精力去核对。而各个票据之间的关联,以及票据与报销单之间的关联,也需要财务人员进行把关,无疑加大了报销流程的审核难度。
基于此,本申请实施例提供一种财务数据的报销方法,首先,通过混贴票据识别,对粘贴在一张纸上的多张票据(对应于上述实施例中的票据图像)进行识别,以确定各***对应的模板;并通过调用相应模板,以完成各***的识别。对于***的识别难度较高或是识别结果存在异常的情况,可首先,将***的识别结果输出至人工核对节点,由财务人员进行复核。然后,基于报销单图像中呈现的数据以及票据识别结果,判断报销人员提交的报销数据是否符合报销要求(比如,是否真实可靠,提供的票据是否真实有效且价值/类型等均符合报销单中的内容),并使满足报销要求的报销数据通过审批流程。该方法可以通过以下过程实现:
第一步,对票据图像进行识别。
在一些实施例中,输入扫描票据/票据图像(即对粘贴在纸上的票据进行拍摄得到的图像),对图像进行区域提取。可以通过目标检测找到图像中各票据的4个顶点,通过4个顶点对各票据进行抠图,以得到一张或是多张抠图图像(对一张抠图图像对应一张票据)。在抠图的同时可以对图像进行校正,以将歪七扭八的抠图图像转正。如图3所示,票据图像300为粘贴了3张***的图像,即粘贴了***301、***302和***303;其中,***301为××增值税专用***,***302为××省×市国家税务局通用定额***。***303为××路桥通行费专用***,识别结果304为针对***301进行文字检测、文字识别和文档结构化处理后得到的文字识别结果,即***301对应的票据数据。
通过预先定义多种票据模板,获取预设票据模板库,包括:增值税***、电子票、专用***、普通***等等。对每个抠图图像进行分类,以基于置信度确认与该抠图图像匹配的目标票据模板,从而调用该模板对这一抠图图像进行文字检测、文字识别以及文档结构化。其中,文字检测可以得到抠图图像中包括文字的各个文字区域,比如,可以用矩形框或是其他图形框框选出文字区域,而后通过对文字区域进行文字识别以得到文字识别结果。通过相邻文字区域之间的关系,可以对文字识别结果进行文档结构化处理,以输出具备结构化的票据识别结果(每张票据可以得到一组识别结果如图3中识别结果304和图5中识别结果504所示),在图5中,票据图像中包括3个待识别***为不同面额的××省国家税务局通用定额***,其中***501为拾元定额***、***502为伍元定额***以及***503为贰元定额***;通过对***501进行文字检测、文字识别和文档结构化处理,得到局部结构化的票据识别结果504。图5中的***可以是通过本地上传521的方式上传至自动报销***,还可以是通过本地URL522的方式获取待识别***,从而实现自动对待识别***的文字检测523。
第二步,对报销单图像进行识别。
上述第一步和第二步之间在执行顺序上无先后关系,上述第一步和第二表示两个过程,第一步表示对票据图像进行识别的过程以得到票据数据,第二步表示对报销单图像进行识别的过程,以得到待报销数据。
在一些实施例中,可通过表单识别的方式对报销单中的数据进行识别。比如,可以通过以下两种方式实现:
方式一:识别报销单中的表格线,以多条表格线交叉形成的区域为单位,对每个区域中的文字进行识别,并基于相邻区域中的文字识别结果。如图4所示的报销单图像401,以该报销单中的表格线为基础,将报销单划分为每一个矩形区域形成的文字区域。通过语义分析,找到不同文字区域之间的关联,以基于关联关系输出结构化数据,即得到具备结构化的待报销数据。比如,输出的待报销数据格式为:餐饮费,金额,叁佰元整;住宿费,金额,贰佰捌拾元整。
方式二:各公司的报销单通常有固定的版面模板,可将报销单表头的名称作为索引,比如,差旅报销单。从预存的多个版面模板中调用相同类型的模板,以基于模板中标记的参考区域(比如,日期)及与之关联的待识别区域(比如,2020年12月12日),完成报销单识别,并输出结构化数据。其中,在进行模板匹配的过程中,可对整体图像进行文字识别,而后基于文字识别结果,从文字识别结果中找到和参考区域内文字完全吻合的部分,从而在报销单中定位与参考区域对应的目标待识别区域,并完成图像识别。
第三步,核对报销数据是否符合报销要求。
在一些实施例中,可以是针对以下多种情况进行核对:
情况一:判断报销单中的信息与实际提交的票据是否匹配,即判断待报销数据与票据数据是否匹配;若存在如下至少之一,则视为不匹配;比如,票据金额小于报销单中的金额、票据类型与报销单中指示的票据类型不符、票据日期不对或票据公司名称不对等。
情况二:判断票据单张金额上限是否符合要求;对于有明细需求的单据类型,是否随附明细;票据上的号码是否能够从预设标识信息库中查找到,即是否从官方途径可查,以判别票据是否有造假嫌疑;比如,可以通过第三方查询网址的调用来实现核对。
情况三:从内部***查询报销单是否通过层层审批。
第四步,进行报销审批。
在一些实施例中,对于上述第一步至第三步均完成且核对无误,基于报销单中的报销人员的基本信息,调用相关财务数据,比如,银行***等,自动完成打款操作。即基于识别结果,确定打款金额、付款账户、收款账户、备注信息(费用是在哪个项目中产生的,相应还可以从对该项目的实施款项进行记录,具体可包括识别结果中的各项内容)等,完成打款,并通过***对报销人员报销通过进行提醒,且在款项到账后进行提醒。提醒方式可以包括但不限于邮件、短信、电话语音等。
在本申请实施例中,首先,通过将票据与各模板进行匹配,以得到票据的置信度,从而将高置信度确定为待调用的识别模板;然后,通过票据识别及报销单识别,对二者识别结果进行匹配,以核查报销数据的可靠性;最后,进行自动化报销审批并打款以及提醒报账人。如此,自动实现票据及报销单识别、关联,节省人力物力;并且对关联结果进行核查,并基于各自填写规范及缴纳规定,判定报销数据是否真实且有效,节省人力物力。
本申请实施例提供一种财务数据的报销装置,图6为本申请实施例提供的财务数据的报销装置的结构组成示意图,如图6所示,所述财务数据的报销装置600包括:
第一识别模块601,用于对获取的票据图像进行识别,得到票据数据;
第二识别模块602,用于对获取的报销单图像进行识别,得到待报销数据;
第一确定模块603,用于响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据;
第一报销模块604,用于基于所述财务数据,对所述票据数据中的至少部分数据进行报销处理。
在上述装置中,所述对第一识别模块601,包括:
第一提取子模块,用于在所述票据图像中,对待识别***所在的图像区域进行提取,得到至少一个区域图像;
第一识别子模块,用于对所述区域图像进行识别,得到所述票据数据。
在上述装置中,一张待识别***对应一个区域图像,所述装置还包括:
转正处理模块,用于响应于所述区域图像处于非正状态,对所述区域图像中的画面内容进行转正处理,并将经所述转正处理后得到的图像作为所述区域图像。
在上述装置中,所述第一识别子模块,包括:
第一获取单元,用于获取所述区域图像所属的***类别;
第一查找单元,用于在预设票据模板库中查找与所述***类别相匹配的目标票据模板;
第一识别单元,用于响应于查找到所述目标票据模板,基于所述目标票据模板,对所述区域图像中的文字区域进行文字识别,得到文字识别结果;
第一确定单元,用于基于所述文字识别结果,以及不同文字区域之间的关联关系,得到所述票据数据。
在上述装置中,所述第一识别子模块,包括:
第二确定单元,用于响应于未查找到所述目标票据模板,对所述区域图像进行文字识别,得到第一全局识别结果;基于所述区域图像中的语义信息,对所述第一全局识别结果进行调整,得到中间输出结果,并将所述中间输出结果作为所述票据数据,或者,向核对节点发送所述区域图像和所述中间输出结果,以从所述核对节点获取所述票据数据;
或者,
第三确定单元,用于响应于未查找到所述目标票据模板,输出退回提示信息,以获取所述区域图像对应的***图像;确定所述***图像的***信息,并在所述预设票据模板库中查找与所述***信息相匹配的票据模板,作为所述目标票据模板,对所述区域图像进行文字识别并得到所述票据数据。
在上述装置中,所述装置还包括:
第一生成模块,用于响应于未查找到与所述***信息相匹配的票据模板,基于所述***信息,生成新票据模板;
第一添加模块,用于将所述新票据模板,添加至所述预设票据模板库。
在上述装置中,所述第二识别模块602,包括:
第二识别子模块,用于对所述报销单图像中的表格线进行识别,得到所述表格线交叉形成的多个表格区域;
第三识别子模块,用于对所述表格区域中的文字进行识别,得到表格识别结果;
第一匹配子模块,用于基于不同表格区域之间的关联关系,对所述不同表格区域对应的表格识别结果中的文字之间进行匹配,得到所述待报销数据。
在上述装置中,所述第二识别模块602,包括:
第一确定子模块,用于确定所述报销单图像中的报销单类型;
第一查找子模块,用于在预设版面模板库中,查找与所述报销单类型匹配的目标版面模板;
第二确定子模块,用于响应于查找到所述目标版面模板,在所述目标版面模板中,确定包括固定字段的参考区域和与包括可变字段的待识别区域;
第三识别子模块,用于基于所述参考区域和所述待识别区域,对所述报销单图像中的文字进行识别,得到所述待报销数据。
在上述装置中,所述第三识别子模块,包括:
第二识别单元,用于对所述报销单图像中的文字进行整体识别,得到第二全局识别结果;
第二查找单元,用于在所述第二全局识别结果中,查找与每一所述参考区域相匹配的部分识别结果;
第四确定单元,用于基于所述部分识别结果,确定与所述部分识别结果对应的参考区域相关联的目标待识别区域;
第一匹配单元,用于基于每一所述参考区域与所述目标待识别区域之间的关联关系,对第二全局识别结果中位于所述参考区域的固定文字和位于所述目标待识别区域的可变字段进行匹配,得到所述待报销数据。
在上述装置中,所述装置还包括:
第二生成模块,用于响应于未查找到所述目标版面模板,基于所述报销单类型,生成新版面模板;
第一更新模块,用于基于所述新版面模板,更新所述预设版面模板库。
在上述装置中,所述第一报销要求为所述待报销数据包括的审批通过信息的数量等于预设数值;所述第二报销要求为所述票据数据与所述待报销数据相匹配,且所述票据数据满足所述外部报销限定。
在上述装置中,所述装置还包括:
第一分类模块,用于基于所述报销单图像的参考区域中的固定字段,对所述待报销数据进行分类,得到报销类别集合;
第二确定模块,用于在所述票据数据中,确定每一报销类别对应的待识别***的单类数据;
第三确定模块,用于对于每一报销类别,确定每一所述报销类别对应的待报销数据与每一所述报销类别的单类数据之间的匹配度;
第四确定模块,用于响应于所述匹配度大于等于所述预设匹配度阈值,确定所述票据数据与所述待报销数据相匹配;
第五确定模块,用于在所述票据数据中,确定属于每一待识别***的单票票据数据;
第六确定模块,用于确定所述单票票据数据中的单票金额,和/或,确定具有附加明细需求的目标***类型,和/或,确定所述单票票据数据对应的待识别***的标识信息;
第七确定模块,用于响应于所述单票金额小于或等于预设金额上限,和/或,所述目标***类型的明细数据与所述明细需求相匹配,和/或,响应于所述标注信息包含于预设票据标识库,确定所述票据数据满足外部报销限定,以确定所述票据数据满足所述第二报销要求。
在上述装置中,所述第一确定模块603,包括:
第三确定子模块,用于响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,至少确定所述报销单图像所绑定的财务账号和报销人信息;
第四确定子模块,用于将所述财务账号和所述报销人信息,作为所述财务数据。
在上述装置中,所述第一报销模块604,包括:
第五确定子模块,用于在所述票据图像中,确定每一报销类别的待识别***的总金额;
第六确定子模块,用于在所述待报销数据中,确定每一所述报销类别的待报销金额;
第一报销子模块,用于响应于所述总金额小于或等于所述待报销金额,基于所述财务数据,对所述每一所述报销类别的待识别***进行报销;
第七确定子模块,用于响应于所述总金额大于所述待报销金额,在所述报销类别的待识别***中,确定金额之和小于或等于所述待报销金额的多个候选***;
第二报销子模块,用于基于所述财务数据,对所述多个候选***进行报销。
在上述装置中,所述装置还包括:
第八确定模块,用于确定所述票据数据中已完成报销的金额;
第三生成模块,用于基于所述已完成报销的金额,生成并输出提示信息。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的财务数据的报销方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、运动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例再提供一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,该计算机可执行指令被执行后,能够实现本申请实施例提供的财务数据的报销方法中的步骤。
相应的,本申请实施例再提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,所述该计算机可执行指令被处理器执行时实现上述实施例提供的财务数据的报销方法的步骤。
相应的,本申请实施例提供一种电子设备,图7为本申请实施例提供的电子设备的组成结构示意图,如图7所示,所述电子设备700包括:一个处理器701、至少一个通信总线、通信接口702、至少一个外部通信接口和存储器703。其中,通信接口702配置为实现这些组件之间的连接通信。其中,通信接口702可以包括显示屏,外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器701,配置为执行存储器中图像处理程序,以实现上述实施例提供的财务数据的报销方法的步骤。
以上财务数据的报销装置、电子设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同相应方法实施例相似的技术描述和有益效果,限于篇幅,可案件上述方法实施例的记载,故在此不再赘述。对于本申请财务数据的报销装置、电子设备和存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ReadOnly Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种财务数据的报销方法,其特征在于,所述方法包括:
对获取的票据图像进行识别,得到票据数据;
对获取的报销单图像进行识别,得到待报销数据;
响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据;
基于所述财务数据,对所述票据数据中的至少部分数据进行报销处理。
2.根据权利要求1所述的方法,其特征在于,所述对获取的票据图像进行识别,得到票据数据,包括:
在所述票据图像中,对待识别***所在的图像区域进行提取,得到至少一个区域图像;
对所述区域图像进行识别,得到所述票据数据。
3.根据权利要求1或2所述的方法,其特征在于,一张待识别***对应一个区域图像,在所述对所述区域图像进行识别之前,所述方法还包括:
响应于所述区域图像处于非正状态,对所述区域图像中的画面内容进行转正处理,并将经所述转正处理后得到的图像作为所述区域图像。
4.根据权利要求2所述的方法,其特征在于,所述对所述区域图像进行识别,得到所述票据数据,包括:
获取所述区域图像所属的***类别;
在预设票据模板库中查找与所述***类别相匹配的目标票据模板;
响应于查找到所述目标票据模板,基于所述目标票据模板,对所述区域图像中的文字区域进行文字识别,得到文字识别结果;
基于所述文字识别结果,以及不同文字区域之间的关联关系,得到所述票据数据。
5.根据权利要求4所述的方法,其特征在于,所述对所述区域图像进行识别,得到所述票据数据,包括:
响应于未查找到所述目标票据模板,对所述区域图像进行文字识别,得到第一全局识别结果;基于所述区域图像中的语义信息,对所述第一全局识别结果进行调整,得到中间输出结果,并将所述中间输出结果作为所述票据数据,或者,向核对节点发送所述区域图像和所述中间输出结果,以从所述核对节点获取所述票据数据;
或者,
响应于未查找到所述目标票据模板,输出退回提示信息,以获取所述区域图像对应的***图像;确定所述***图像的***信息,并在所述预设票据模板库中查找与所述***信息相匹配的票据模板,作为所述目标票据模板,对所述区域图像进行文字识别并得到所述票据数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
响应于未查找到与所述***信息相匹配的票据模板,基于所述***信息,生成新票据模板;
将所述新票据模板,添加至所述预设票据模板库。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述对获取的报销单图像进行识别,得到待报销数据,包括:
对所述报销单图像中的表格线进行识别,得到所述表格线交叉形成的多个表格区域;
对所述表格区域中的文字进行识别,得到表格识别结果;
基于不同表格区域之间的关联关系,对所述不同表格区域对应的表格识别结果中的文字之间进行匹配,得到所述待报销数据。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述对获取的报销单图像进行识别,得到待报销数据,包括:
确定所述报销单图像中的报销单类型;
在预设版面模板库中,查找与所述报销单类型匹配的目标版面模板;
响应于查找到所述目标版面模板,在所述目标版面模板中,确定包括固定字段的参考区域和与包括可变字段的待识别区域;
基于所述参考区域和所述待识别区域,对所述报销单图像中的文字进行识别,得到所述待报销数据。
9.根据权利要求8所述的方法,其特征在于,所述基于所述参考区域和所述待识别区域,对所述报销单图像中的文字进行识别,得到所述待报销数据,包括:
对所述报销单图像中的文字进行整体识别,得到第二全局识别结果;
在所述第二全局识别结果中,查找与每一所述参考区域相匹配的部分识别结果;
基于所述部分识别结果,确定与所述部分识别结果对应的参考区域相关联的目标待识别区域;
基于每一所述参考区域与所述目标待识别区域之间的关联关系,对第二全局识别结果中位于所述参考区域的固定文字和位于所述目标待识别区域的可变字段进行匹配,得到所述待报销数据。
10.根据权利要求9所述的方法,其特征在于,所述在预设版面模板库中,查找与所述报销单类型匹配的目标版面模板之后,所述方法还包括:
响应于未查找到所述目标版面模板,基于所述报销单类型,生成新版面模板;
基于所述新版面模板,更新所述预设版面模板库。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述第一报销要求为所述待报销数据包括的审批通过信息的数量等于预设数值;所述第二报销要求为所述票据数据与所述待报销数据相匹配,且所述票据数据满足所述外部报销限定。
12.根据权利要求11所述的方法,其特征在于,在响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据之前,所述方法还包括:
基于所述报销单图像的参考区域中的固定字段,对所述待报销数据进行分类,得到报销类别集合;
在所述票据数据中,确定每一报销类别对应的待识别***的单类数据;
对于每一报销类别,确定每一所述报销类别对应的待报销数据与每一所述报销类别的单类数据之间的匹配度;
响应于所述匹配度大于等于所述预设匹配度阈值,确定所述票据数据与所述待报销数据相匹配;
在所述票据数据中,确定属于每一待识别***的单票票据数据;
确定所述单票票据数据中的单票金额,和/或,确定具有附加明细需求的目标***类型,和/或,确定所述单票票据数据对应的待识别***的标识信息;
响应于所述单票金额小于或等于预设金额上限,和/或,所述目标***类型的明细数据与所述明细需求相匹配,和/或,响应于所述标注信息包含于预设票据标识库,确定所述票据数据满足外部报销限定,以确定所述票据数据满足所述第二报销要求。
13.根据权利要求1至12任一项所述的方法,其特征在于,所述响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据,包括:
响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,至少确定所述报销单图像所绑定的财务账号和报销人信息;
将所述财务账号和所述报销人信息,作为所述财务数据。
14.根据权利要求1至13任一项所述的方法,其特征在于,所述基于所述财务数据,对所述票据数据中的至少部分数据进行报销处理,包括:
在所述票据图像中,确定每一报销类别的待识别***的总金额;
在所述待报销数据中,确定每一所述报销类别的待报销金额;
响应于所述总金额小于或等于所述待报销金额,基于所述财务数据,对所述每一所述报销类别的待识别***进行报销;
响应于所述总金额大于所述待报销金额,在所述报销类别的待识别***中,确定金额之和小于或等于所述待报销金额的多个候选***;
基于所述财务数据,对所述多个候选***进行报销。
15.根据权利要求1至14任一项所述的方法,其特征在于,所述基于所述财务数据,对所述票据数据进行报销处理之后,所述方法还包括:
确定所述票据数据中已完成报销的金额;
基于所述已完成报销的金额,生成并输出提示信息。
16.一种财务数据的报销装置,其特征在于,所述装置包括:
第一识别模块,用于对获取的票据图像进行识别,得到票据数据;
第二识别模块,用于对获取的报销单图像进行识别,得到待报销数据;
第一确定模块,用于响应于所述待报销数据满足第一报销要求,且所述票据数据满足第二报销要求,确定与所述报销单图像相关联的财务数据;
第一报销模块,用于基于所述财务数据,对所述票据数据中的至少部分数据进行报销处理。
17.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机可执行指令,该计算机可执行指令被执行后,能够实现权利要求1至15任一项所述的方法步骤。
18.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时能够实现权利要求1至15任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110249954.6A CN112801041A (zh) | 2021-03-08 | 2021-03-08 | 财务数据的报销方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110249954.6A CN112801041A (zh) | 2021-03-08 | 2021-03-08 | 财务数据的报销方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112801041A true CN112801041A (zh) | 2021-05-14 |
Family
ID=75816659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110249954.6A Pending CN112801041A (zh) | 2021-03-08 | 2021-03-08 | 财务数据的报销方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801041A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239881A (zh) * | 2021-06-03 | 2021-08-10 | 上海中通吉网络技术有限公司 | 一种***报销方法 |
CN113326895A (zh) * | 2021-06-25 | 2021-08-31 | 湖南星汉数智科技有限公司 | 客票行程单识别方法、装置、计算机设备和存储介质 |
CN113704823A (zh) * | 2021-08-30 | 2021-11-26 | 长城计算机软件与***有限公司 | 一种报销处理方法、***、存储介质及电子设备 |
CN116563076A (zh) * | 2023-04-07 | 2023-08-08 | 上海驿胜科技有限公司 | 出租车运营管理方法、***及设备 |
CN117934103A (zh) * | 2024-02-18 | 2024-04-26 | 浙江粤玺沪科技有限公司 | 一种用于票据统计数据的处理方法及*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194400A (zh) * | 2017-05-31 | 2017-09-22 | 北京天宇星空科技有限公司 | 一种财务报销全票据图片识别处理方法 |
CN107358232A (zh) * | 2017-06-28 | 2017-11-17 | 中山大学新华学院 | 基于插件的***识别方法、及识别与管理*** |
CN109934554A (zh) * | 2019-01-29 | 2019-06-25 | 远光软件股份有限公司 | 一种审批***的方法、电子终端以及存储介质 |
CN109977957A (zh) * | 2019-03-04 | 2019-07-05 | 苏宁易购集团股份有限公司 | 一种基于深度学习的***识别方法及*** |
CN110264288A (zh) * | 2019-05-20 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 基于信息识别技术的数据处理方法及相关装置 |
CN111931664A (zh) * | 2020-08-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
CN112241727A (zh) * | 2020-10-30 | 2021-01-19 | 深圳供电局有限公司 | 一种多票识别方法、***及可读存储介质 |
-
2021
- 2021-03-08 CN CN202110249954.6A patent/CN112801041A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194400A (zh) * | 2017-05-31 | 2017-09-22 | 北京天宇星空科技有限公司 | 一种财务报销全票据图片识别处理方法 |
CN107358232A (zh) * | 2017-06-28 | 2017-11-17 | 中山大学新华学院 | 基于插件的***识别方法、及识别与管理*** |
CN109934554A (zh) * | 2019-01-29 | 2019-06-25 | 远光软件股份有限公司 | 一种审批***的方法、电子终端以及存储介质 |
CN109977957A (zh) * | 2019-03-04 | 2019-07-05 | 苏宁易购集团股份有限公司 | 一种基于深度学习的***识别方法及*** |
CN110264288A (zh) * | 2019-05-20 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 基于信息识别技术的数据处理方法及相关装置 |
CN111931664A (zh) * | 2020-08-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
CN112241727A (zh) * | 2020-10-30 | 2021-01-19 | 深圳供电局有限公司 | 一种多票识别方法、***及可读存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239881A (zh) * | 2021-06-03 | 2021-08-10 | 上海中通吉网络技术有限公司 | 一种***报销方法 |
CN113326895A (zh) * | 2021-06-25 | 2021-08-31 | 湖南星汉数智科技有限公司 | 客票行程单识别方法、装置、计算机设备和存储介质 |
CN113704823A (zh) * | 2021-08-30 | 2021-11-26 | 长城计算机软件与***有限公司 | 一种报销处理方法、***、存储介质及电子设备 |
CN113704823B (zh) * | 2021-08-30 | 2024-03-29 | 新长城科技有限公司 | 一种报销处理方法、***、存储介质及电子设备 |
CN116563076A (zh) * | 2023-04-07 | 2023-08-08 | 上海驿胜科技有限公司 | 出租车运营管理方法、***及设备 |
CN117934103A (zh) * | 2024-02-18 | 2024-04-26 | 浙江粤玺沪科技有限公司 | 一种用于票据统计数据的处理方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801041A (zh) | 财务数据的报销方法、装置、设备及存储介质 | |
CN109887153B (zh) | 一种财税处理方法和处理*** | |
US20230377032A1 (en) | System and method for processing transaction records for users | |
US9916606B2 (en) | System and method for processing a transaction document including one or more financial transaction entries | |
JP6179848B2 (ja) | 帳簿作成システム、方法およびプログラム、並びに印刷伝票 | |
JP6712738B1 (ja) | 証憑判定装置、会計処理装置、証憑判定プログラム、証憑判定システム及び証憑判定方法 | |
CN110956739A (zh) | 一种票据识别方法及装置 | |
US20140064618A1 (en) | Document information extraction using geometric models | |
US20040083134A1 (en) | System and method for capture, storage and processing of receipts and related data | |
CN107798515A (zh) | 一种数据库自动生成会计凭证的方法 | |
CN109299762A (zh) | 一种基于大数据的企业财务报销管理*** | |
US20140046791A1 (en) | Information processing device, information processing method, information processing program, and recording medium in which information processing program is recorded | |
CN110648211A (zh) | 数据验证 | |
US20140268250A1 (en) | Systems and methods for receipt-based mobile image capture | |
CN109271951A (zh) | 一种提升记账审核效率的方法及*** | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
WO2020012539A1 (ja) | 仕訳要素解析装置、会計処理システム、仕訳要素解析方法、仕訳要素解析プログラム | |
CN111046647B (zh) | 一种自动排版方法及会计账簿自动生成方法 | |
US11966890B2 (en) | Bill identification method, device, electronic device and computer-readable storage medium | |
CN113850659A (zh) | 报销数据生成方法、装置及电子设备和存储介质 | |
JP2020030517A (ja) | 会計処理装置、会計処理方法、会計処理プログラム | |
CN113657985A (zh) | 一种财务凭证自动化分录记账方法及记账*** | |
CN112668335A (zh) | 一种利用命名实体识别提取营业执照结构化信息的方法 | |
JP6402397B1 (ja) | 会計処理装置、会計処理方法、会計処理プログラム | |
CN111292068A (zh) | 一种合同信息审核方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210514 |