CN116469120A - 电费单据自动数据处理方法、装置及存储介质 - Google Patents

电费单据自动数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN116469120A
CN116469120A CN202310634880.7A CN202310634880A CN116469120A CN 116469120 A CN116469120 A CN 116469120A CN 202310634880 A CN202310634880 A CN 202310634880A CN 116469120 A CN116469120 A CN 116469120A
Authority
CN
China
Prior art keywords
bill
information
extraction
electric charge
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310634880.7A
Other languages
English (en)
Other versions
CN116469120B (zh
Inventor
周俊
蔡剑
姜志博
徐梦佳
林森
孙一申
胡茜
吕彬
季李昕
姚雅艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202310634880.7A priority Critical patent/CN116469120B/zh
Publication of CN116469120A publication Critical patent/CN116469120A/zh
Application granted granted Critical
Publication of CN116469120B publication Critical patent/CN116469120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种电费单据自动数据处理方法、装置及存储介质,包括:根据第一单据格式调取相对应的第一分隔提取图层;基于OCR对每个提取区域的文字信息进行提取得到单据子信息,对每个单据子信息添加相对应的区域标签;按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对单据子信息进行验证得到验证结果;将相应比对标签集合所对应的提取区域作为问题区域,基于问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将第二分隔提取图层与电费单据组合得到反馈图像进行显示;若验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。

Description

电费单据自动数据处理方法、装置及存储介质
技术领域
本发明涉及数据处理技术,特别是涉及一种电费单据自动数据处理方法、装置及存储介质。
背景技术
电费单是供电部门向用电户通报用户电力消费情况的单据,电费单内容反映了用电企业在一定时间段内的电力使用情况。
电费单的核验是涉及到电费数据是否正确扣除的关键节点,涉及到用电企业和输电企业的利益。现有技术中,对电费单的核验还是通过人工核验的方式进行核验,由于电费单数量巨大,且需要核验的种类较多,人工核验效率低下,且准确性不高。
因此,如何结合核验的需求对电费单的数据进行自动提取核验,提高核验效率和准确性成为了急需解决的问题。
发明内容
本发明克服现有技术的缺点,提供一种电费单据自动数据处理方法、装置及存储介质,可以满足多维度的核验需求,并结合核验的需求对电费单的数据进行自动提取核验,提高核验效率和准确性。
为了解决以上技术问题,本发明的技术方案如下:
本发明的第一方面,提供一种电费单据自动数据处理方法,包括:
获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域;
将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行提取得到单据子信息,对每个单据子信息添加相对应的区域标签;
按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型;
若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示;
若所述验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。
可选的,所述获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域,包括:
获取用户对电费单据所添加的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,每个单据格式与相应的分隔提取图层对应设置;
确定每个第一分隔提取图层所对应的提取区域,将提取区域作为OCR识别的目标区域,第一分隔提取图层中包括多个具有不同提取信息的提取区域。
可选的,所述将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行识别得到单据子信息,对每个单据子信息添加相对应的区域标签,包括:
对所述电费单据进行截取得到信息提取区域图像,根据所述信息提取区域图像的规格对第一分隔提取图层的规格进行调整;
在判断信息提取区域图像与第一分隔提取图层的规格相对应后,将所述信息提取区域图像与所述第一分隔提取图层对应组合设置,基于第一分隔提取图层中的提取区域对电费单据进行划分;
基于OCR对每个提取区域的文字信息进行识别得到单据子信息,对每个单据子信息添加相对应的区域标签。
可选的,所述对所述电费单据进行截取得到信息提取区域图像,根据所述信息提取区域图像的规格对第一分隔提取图层的规格进行调整,包括:
对电费单据进行坐标化处理,确定所有位于预设像素区间内的像素点,将确定的像素点作为第一像素点,所述第一像素点具有第一坐标;
将所有相邻的、第一坐标中横坐标相同的第一像素点相连接得到第一竖向连接线,将所有相邻的、第一坐标中纵坐标相同的第一像素点相连接得到第一横向连接线;
将第一像素点的数量大于第一预设数量的第一竖向连接线作为第二竖向连接线,将第一像素点的数量大于第二预设数量的第一横向连接线作为第二横向连接线;
根据所述第二竖向连接线、第二横向连接线对所述电费单据进行截取得到信息提取区域图像;
将信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,根据第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整。
可选的,所述根据所述第二竖向连接线、第二横向连接线对所述电费单据进行截取得到信息提取区域图像,包括:
确定第二竖向连接线中最大的横坐标和最小的横坐标分别对应的第二竖向连接线,得到竖向连接线截取组;
确定第二横向连接线中最大的纵坐标和最小的纵坐标分别对应的第二横向连接线,得到横向连接线截取组;
在电费单据中确定竖向连接线截取组、横向连接线截取组分别对应的第二竖向连接线、第二横向连接线,根据最大的横坐标、最小的横坐标、最大的纵坐标、最小的纵坐标形成坐标区域区间;
将确定的第二竖向连接线、第二横向连接线、坐标区域区间内所有像素点所形成的区域作为信息提取区域图像。
可选的,所述将信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,根据第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整,包括:
获取信息提取区域图像中第二竖向连接线的像素点数量得到第一竖向点数量规格,以及信息提取区域图像中第二横向连接线的像素点数量得到第一横向点数量规格;
确定第一分隔提取图层中与第二竖向连接线所对应的第三竖向连接线、以及与第二横向连接线所对应的第三横向连接线;
获取第一分隔提取图层中第三竖向连接线的像素点数量得到第二竖向点数量规格,以及第一分隔提取图层中第三横向连接线的像素点数量得到第二横向点数量规格;
将所述第一竖向点数量规格与所述第二竖向点数量规格比对、第一横向点数量规格与所述第二横向点数量规格比对,得到调整比例;
根据所述调整比例对第一分隔提取图层的规格进行调整。
可选的,所述在判断信息提取区域图像与第一分隔提取图层的规格相对应后,将所述信息提取区域图像与所述第一分隔提取图层对应组合设置,基于第一分隔提取图层中的提取区域对电费单据进行划分,包括:
确定所述信息提取区域图像的第一中心像素点、以及第一分隔提取图层的第二中心像素点;
将所述第一中心像素点和第二中心像素点重合设置,以使信息提取区域图像与所述第一分隔提取图层对应组合设置;
基于所述第一分隔提取图层中的提取区域对电费单据进行区域划分。
可选的,所述按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型,包括:
依次对预设比对策略中所包括的子比对策略进行提取,确定子比对策略所对应的多个标签,每个子比对策略确定的多个标签为相关联区域标签;
生成与子比对策略对应的初始集合,按照多个标签依次提取相应提取区域的单据子信息,并将单据子信息填充至初始集合内得到比对标签集合;
确定与子比对策略所对应的预设验证模型,若所述预设验证模型为比对类型模型,则将单据子信息输入至预设验证模型内相应的输入参数处;
若所述预设验证模型在输入参数后依然成立,则验证结果为正常;
若所述预设验证模型在输入参数后不成立,则验证结果为异常。
可选的,还包括:
若所述预设验证模型为计算类型模型,则对单据子信息进行分类得到计算单据子信息和验证单据子信息,将所述计算单据子信息输入至预设验证模型得到计算结果信息;
若所述计算结果信息与所述验证单据子信息相对应,则验证结果为正常;
若所述计算结果信息与所述验证单据子信息不对应,则验证结果为异常。
可选的,所述若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示,包括:
确定第一分隔提取图层中问题区域所对应轮廓的所有像素点作为问题像素点,控制问题像素点以第二预设像素值显示,得到第二分隔提取图层;
将所述第二分隔提取图层与所述电费单据组合得到反馈图像,根据非问题区域、问题区域的单据子信息生成问题电费表,所述问题电费表中包括非问题区域的单据子信息、问题区域的单据子信息则为空;
将所述第二分隔提取图层、问题电费表反馈至用户;
根据用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正。
可选的,所述根据用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正,包括:
生成与手动单据子信息相对应的显示子图,确定与电费单据中与问题区域所对应的图像,将问题区域所对应的图像内的像素值调整为第三预设像素值;
将所述显示子图与所述问题区域重合设置,以使手动单据子信息所对应的数值位于相应问题区域内。
本发明的第二方面,提供一种电费单据自动数据处理装置,包括:
调取模块,用于获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域;
组合模块,用于将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行提取得到单据子信息,对每个单据子信息添加相对应的区域标签;
匹配模块,用于按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型;
反馈模块,用于若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示;
结果模块,用于若所述验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。
本发明的第三方面,提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现第一方面所述的方法。
有益效果:1、本方案结合电费单据的特性,通过第一分隔提取图层和相应的提取策略来对电费单据中所需的数据进行提取,然后为提取到的数据添加标签,并结合验证需求匹配相对应的预设验证模型,利用相对应的预设验证模型对提取到的数据进行组合验证。此外,本方案还会在验证结果异常时确定出问题区域,并结合用户的反馈信息对问题数据进行修正和替换。本方案通过上述方式可以满足多维度的核验需求,并结合核验的需求对电费单的数据进行自动提取核验,提高核验效率和准确性。需要说明的是,本发明并不仅仅是进行数值的计算,而是结合提取区域确定数值处于不同的区域而自动添加其所对应的单位、属性,根据相应的单位、属性结合预设的模型进行计算,是根据不同数值在不同区域的设置关系添加相对应的计算逻辑,实现数值之间的关联式验证,从而实现对电费单数据准确性的预测。
2、本方案在进行数据提取时,会先结合单据格式调用相应格式的第一分隔提取图层,然后结合提取区域图像对第一分隔提取图层的规格进行调整,以提高数据提取时的准确性,在进行规格调整的过程中,本方案会结合像素点的坐标、像素值等特征确定出提取区域图像中的外边缘线,然后结合数量维度的比例来对第一分隔提取图层的规格进行调整,使得相应的区域处于对应位置,从而较为准确的对相应区域中的数据进行提取。
3、本方案在对单据的数据进行验证时,结合验证需求布局了两种验证方式。一种是进行数据比对的验证,该方式下,本方案会结合区域标签找到相关联的比对数据,然后判断比对数据是否满足要求,从而得到验证结果;另一种是进行数据计算的验证,该方式下,本方案会对提取的数据进行分类,得到计算数据和验证数据,然后利用计算模型进行计算,将计算结果进行比对,从而得到验证结果。本方案可以结合用户的核验需求对电费单的数据进行自动提取核验,提高核验效率和准确性。此外,本方案在确定到问题区域后,会结合问题区域生成第二分隔提取图层、问题电费表反馈给用户,然后结合用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正,通过上述方式,可以实现出现异常数据时,结合用户的主动介入对数据进行快速修正,以使得单据上的数据是准确的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种电费单据自动数据处理方法的流程示意图;
图2为本发明提供的一种单据的示意图;
图3是本发明实施例提供的一种电费单据自动数据处理装置的结构示意图。
具体实施方式
为使本发明的内容更容易被清楚地理解,下面根据具体实施方式并结合附图,对本发明作出进一步详细的说明。
参见图1,是本发明实施例提供的一种电费单据自动数据处理方法的流程示意图,该方法包括S1-S5:
S1,获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域。
可以理解的是,电费单据有多种格式,不同的电费单据对应的单据格式可能是不同的,例如,有些单据3行4列,有些单据2行5列等等,其对应的长宽不同,且信息的位置也可能是不同的。因此,本方案会先确定电费单据的第一单据格式,然后找到与第一单据格式相对应的第一分隔提取图层。
其中,第一分隔提取图层可以是叠加在电费单据电子图像上方的图层,其包括多个具有不同提取信息的提取区域,利用提取区域来提取电费单据上对应的信息。
在一些实施例中,S1(获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域),包括S11-S12:
S11,获取用户对电费单据所添加的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,每个单据格式与相应的分隔提取图层对应设置。
可以理解的是,单据格式与相应的分隔提取图层对应设置,因此,本方案在确定电费单据的第一单据格式之后,可以找到与第一单据格式相对应的第一分隔提取图层。
S12,确定每个第一分隔提取图层所对应的提取区域,将提取区域作为OCR识别的目标区域,第一分隔提取图层中包括多个具有不同提取信息的提取区域。
在确定了第一分隔提取图层之后,本方案会确定每个第一分隔提取图层所对应的提取区域,然后将提取区域作为OCR识别的目标区域,第一分隔提取图层中包括多个具有不同提取信息的提取区域。
例如,提取区域可以是对应本月抄见、上月抄见、抄见数、单价、金额等信息区域。
S2,将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行提取得到单据子信息,对每个单据子信息添加相对应的区域标签。
本方案会将第一分隔提取图层与电费单据进行组合,以使电费单据被所述提取区域进行划分,值得一提的是,一个提取区域对应一个信息区域。
进行组合之后,本方案会利用OCR对每个提取区域的文字信息进行提取得到单据子信息,然后对每个单据子信息添加相对应的区域标签。
其中,区域标签可以是本月抄见、上月抄见、抄见数、单价、金额等标签。
在一些实施例中,S2(将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行识别得到单据子信息,对每个单据子信息添加相对应的区域标签)包括S21-S23:
S21,对所述电费单据进行截取得到信息提取区域图像,根据所述信息提取区域图像的规格对第一分隔提取图层的规格进行调整。
可以理解的是,电费单据往往是用户通过终端来拍摄得到的,进行截取得到信息提取区域图像所对应的规格可能是不同的,为了较为准确的对信息进行提取,需要将第一分隔提取图层的规格与信息提取区域图像的规格调整为一致。
在一些实施例中,S21(对所述电费单据进行截取得到信息提取区域图像,根据所述信息提取区域图像的规格对第一分隔提取图层的规格进行调整),包括S211-S215:
S211,对电费单据进行坐标化处理,确定所有位于预设像素区间内的像素点,将确定的像素点作为第一像素点,所述第一像素点具有第一坐标。
首先,本方案会对电费单据进行坐标化处理,然后确定所有位于预设像素区间内的像素点,将确定的像素点作为第一像素点,所述第一像素点具有第一坐标。
上述的预设像素区间内的像素点,可以是黑色所对应的像素点,可以理解的是,参见图2,电费单据往往会通过黑线条来分隔出多个信息区域,而第一分隔提取图层对信息进行提取时,也是需要与黑线条来分隔出多个信息区域相对应的,从而实现信息的准确提取,因此,本方案会先得到黑色线条所对应的像素点,以得到相关数据对后续的规格进行调整。
S212,将所有相邻的、第一坐标中横坐标相同的第一像素点相连接得到第一竖向连接线,将所有相邻的、第一坐标中纵坐标相同的第一像素点相连接得到第一横向连接线。
可以理解的是,对于竖向的黑色线条,其中的黑色像素点是相邻的,且第一坐标中横坐标是相同的。对于横向的黑色线条,其中的黑色像素点是相邻的,且第一坐标中纵坐标是相同的。
因此,本方案会将所有相邻的、第一坐标中横坐标相同的第一像素点相连接得到第一竖向连接线,将所有相邻的、第一坐标中纵坐标相同的第一像素点相连接得到第一横向连接线。
S213,将第一像素点的数量大于第一预设数量的第一竖向连接线作为第二竖向连接线,将第一像素点的数量大于第二预设数量的第一横向连接线作为第二横向连接线。
需要说明的是,参见图2,图中“张三”中也有相邻的、第一坐标中横坐标相同的第一像素点的竖向连接线,例如“张三”中的“张”中的竖线,同理,其中,也存在相邻的、第一坐标中纵坐标相同的第一像素点相连接得到的第一横向连接线。
因此,本方案会对以上干扰数据进行剔除,可以理解的是,一般来说,第一竖向连接线和第一横向连接线所对应的长度较长,第一像素点的数量较多,因此,本方案会将第一像素点的数量与第一预设数量进行比对,如果大于第一预设数量,本方案才会将其标定为第二竖向连接线、第二横向连接线,实现对线条的精准定位。
S214,根据所述第二竖向连接线、第二横向连接线对所述电费单据进行截取得到信息提取区域图像。
可以理解的是,在得到第二竖向连接线、第二横向连接线之后,本方案会利用第二竖向连接线、第二横向连接线对电费单据进行截取得到信息提取区域图像。
在一些实施例中,S214(根据所述第二竖向连接线、第二横向连接线对所述电费单据进行截取得到信息提取区域图像)包括S2141-S2144:
S2141,确定第二竖向连接线中最大的横坐标和最小的横坐标分别对应的第二竖向连接线,得到竖向连接线截取组。
本方案会确定第二竖向连接线中最大的横坐标和最小的横坐标分别对应的第二竖向连接线,也就是最左边和最右边的第二竖向连接线,得到竖向连接线截取组。
S2142,确定第二横向连接线中最大的纵坐标和最小的纵坐标分别对应的第二横向连接线,得到横向连接线截取组。
同理,本方案会确定第二横向连接线中最大的纵坐标和最小的纵坐标分别对应的第二横向连接线,也就是最上方和最下方的第二横向连接线,得到横向连接线截取组。
S2143,在电费单据中确定竖向连接线截取组、横向连接线截取组分别对应的第二竖向连接线、第二横向连接线,根据最大的横坐标、最小的横坐标、最大的纵坐标、最小的纵坐标形成坐标区域区间。
可以理解的是,本方案会在电费单据中确定竖向连接线截取组、横向连接线截取组分别对应的第二竖向连接线、第二横向连接线,然后利用最大的横坐标、最小的横坐标、最大的纵坐标、最小的纵坐标形成坐标区域区间。
S2144,将确定的第二竖向连接线、第二横向连接线、坐标区域区间内所有像素点所形成的区域作为信息提取区域图像。
本方案通过上述方式,可以确定一个所需要的信息提取区域图像。可以理解的是,该信息提取区域图像可以将其余无用的信息予以删除,从而减少数据提取和处理中的干扰,提高数据处理效率以及处理的准确性。
S215,将信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,根据第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整。
本方案会以信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,依次为调整基准,利用第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整。
在一些实施例中,S215(将信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,根据第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整)包括S2151-S2155:
S2151,获取信息提取区域图像中第二竖向连接线的像素点数量得到第一竖向点数量规格,以及信息提取区域图像中第二横向连接线的像素点数量得到第一横向点数量规格。
首先,本方案会统计信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,然后根据第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整。
S2152,确定第一分隔提取图层中与第二竖向连接线所对应的第三竖向连接线、以及与第二横向连接线所对应的第三横向连接线。
值得一提的是,第一分隔提取图层中也具有横向线和竖向线,因此,本方案会确定第一分隔提取图层中与第二竖向连接线所对应的第三竖向连接线、以及与第二横向连接线所对应的第三横向连接线。例如是第一分隔提取图层中最左、最右、最上、最下的线。
S2153,获取第一分隔提取图层中第三竖向连接线的像素点数量得到第二竖向点数量规格,以及第一分隔提取图层中第三横向连接线的像素点数量得到第二横向点数量规格。
为了对规格进行调整,本方案会获取第一分隔提取图层中第三竖向连接线的像素点数量得到第二竖向点数量规格,以及第一分隔提取图层中第三横向连接线的像素点数量得到第二横向点数量规格。
S2154,将所述第一竖向点数量规格与所述第二竖向点数量规格比对、第一横向点数量规格与所述第二横向点数量规格比对,得到调整比例。
本方案会将第一竖向点数量规格与第二竖向点数量规格比对、第一横向点数量规格与所述第二横向点数量规格比对,得到调整比例。由于本方案中第一分隔提取图层的格式与单据格式是相对应的,一般来说,在竖向维度上得到的比例一般是与横向维度上计算比例应该是相同的,因此,可以进行倍数放大或者缩小的调整。
S2155,根据所述调整比例对第一分隔提取图层的规格进行调整。
在得到调整比例后,本方案可以利用调整比例对第一分隔提取图层的规格进行调整。例如,调整比例为2,那么可以将第一分隔提取图层的规格放大2倍,以与信息提取区域图像的规格相对应。
S22,在判断信息提取区域图像与第一分隔提取图层的规格相对应后,将所述信息提取区域图像与所述第一分隔提取图层对应组合设置,基于第一分隔提取图层中的提取区域对电费单据进行划分。
可以理解的是,在规格调整完毕后,本方案可以将信息提取区域图像与第一分隔提取图层对应组合设置,然后利用第一分隔提取图层中的提取区域对电费单据进行划分。
在一些实施例中,S22(在判断信息提取区域图像与第一分隔提取图层的规格相对应后,将所述信息提取区域图像与所述第一分隔提取图层对应组合设置,基于第一分隔提取图层中的提取区域对电费单据进行划分)包括S221-S223:
S221,确定所述信息提取区域图像的第一中心像素点、以及第一分隔提取图层的第二中心像素点。
为了实现信息的准确提取,本方案在将信息提取区域图像与第一分隔提取图层对应组合设置时,需要进行定位,因此,本方案会得到信息提取区域图像的第一中心像素点、以及第一分隔提取图层的第二中心像素点。
S222,将所述第一中心像素点和第二中心像素点重合设置,以使信息提取区域图像与所述第一分隔提取图层对应组合设置。
在得到信息提取区域图像的第一中心像素点、以及第一分隔提取图层的第二中心像素点之后,本方案会将两个中心像素点重合设置,以使信息提取区域图像与第一分隔提取图层对应组合设置。
S223,基于所述第一分隔提取图层中的提取区域对电费单据进行区域划分。
在组合之后,本方案会利用第一分隔提取图层中的提取区域对电费单据进行区域划分。
S23,基于OCR对每个提取区域的文字信息进行识别得到单据子信息,对每个单据子信息添加相对应的区域标签。
本方案可以利用OCR识别技术对每个提取区域的文字信息进行识别得到单据子信息,然后对每个单据子信息添加相对应的区域标签。
其中,区域标签是代表区域对应信息的类别,例如区域标签可以是本月抄见、上月抄见、抄见数、单价、金额等标签。
S3,按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型。
需要说明的是,本方案的预设比对策略可以有多种,分别对应不同的比对需求。
示例性的,针对数据比对核验的策略,在对单据信息进行核验时,如果本月抄见小于上月抄见,那么数据肯定是有错误的,可能是本月抄见错误或者上月抄见错误,因此,需要进行数据比对。
另一示例性的,针对数据计算核验的策略,在对单据信息进行核验时,如果电量与单价的计算结果与单据中的金额不对应,那么数据肯定是有错误的,可能是电量、单价、金额中的一个或者多个有误,因此,需要进行数据计算的比对。
在一些实施例中,S3(按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型)包括S31-S35:
S31,依次对预设比对策略中所包括的子比对策略进行提取,确定子比对策略所对应的多个标签,每个子比对策略确定的多个标签为相关联区域标签。
示例性的,针对数据比对核验的策略,在对单据信息进行核验时,如果需要比对下本月抄见和上月抄见是否有误,那么子比对策略所对应的多个标签可以是本月抄见和上月抄见。可以理解的是,每个子比对策略确定的多个标签为相关联区域标签。
S32,生成与子比对策略对应的初始集合,按照多个标签依次提取相应提取区域的单据子信息,并将单据子信息填充至初始集合内得到比对标签集合。
本方案会生成与子比对策略对应的初始集合,按照多个标签依次提取相应提取区域的单据子信息,并将单据子信息填充至初始集合内得到比对标签集合。通过上述方式,可以对需要比对的数据进行对应提取。
S33,确定与子比对策略所对应的预设验证模型,若所述预设验证模型为比对类型模型,则将单据子信息输入至预设验证模型内相应的输入参数处。
本方案会确定与子比对策略所对应的预设验证模型,如果预设验证模型为比对类型模型,则将单据子信息输入至预设验证模型内相应的输入参数处。
例如,需要将本月抄见与上月抄见进行比对时,可以利用比对类型模型进行比对。
S34,若所述预设验证模型在输入参数后依然成立,则验证结果为正常;
S35,若所述预设验证模型在输入参数后不成立,则验证结果为异常。
可以理解的是,如果预设验证模型在输入参数后依然成立,则验证结果为正常,例如,本月抄见大于上月抄见。
还可以理解的是,如果预设验证模型在输入参数后不成立,则验证结果为异常,例如,本月抄见小于上月抄见。
在上述实施例的基础上,还包括:
若所述预设验证模型为计算类型模型,则对单据子信息进行分类得到计算单据子信息和验证单据子信息,将所述计算单据子信息输入至预设验证模型得到计算结果信息。
可以理解的是,在对电费的数据进行核验时,本方案可以利用计算类型模型,首先对单据子信息进行分类得到计算单据子信息和验证单据子信息,然后将计算单据子信息输入至预设验证模型得到计算结果信息。
例如,电量和单价可以是计算单据子信息,金额可以是验证单据子信息。本方案会将电量和单价输入到计算类型模型中,计算出一个金额的结果,然后与验证单据子信息进行比对。
若所述计算结果信息与所述验证单据子信息相对应,则验证结果为正常;
若所述计算结果信息与所述验证单据子信息不对应,则验证结果为异常。
可以理解的是,如果计算结果信息与验证单据子信息相对应,则验证结果为正常;如果计算结果信息与验证单据子信息不对应,则验证结果为异常。
S4,若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示。
在验证结果异常时,本方案会对数据进一步的处理。首先,将相应比对标签集合所对应的提取区域作为问题区域,然后结合问题区域对第一分隔提取图层进行调整得到第二分隔提取图层。
可以理解的是,第二分隔提取图层为包括问题区域的图层。本方案会将第二分隔提取图层与电费单据组合得到反馈图像进行显示。
在一些实施例中,S4(若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示)包括S41-S44:
S41,确定第一分隔提取图层中问题区域所对应轮廓的所有像素点作为问题像素点,控制问题像素点以第二预设像素值显示,得到第二分隔提取图层。
首先,确定第一分隔提取图层中问题区域所对应轮廓的所有像素点作为问题像素点,例如是问题区域所对应的黑色边框对应的像素点为问题像素点,本方案会控制问题像素点以第二预设像素值显示,例如以红色对应的像素值进行显示,得到第二分隔提取图层。
S42,将所述第二分隔提取图层与所述电费单据组合得到反馈图像,根据非问题区域、问题区域的单据子信息生成问题电费表,所述问题电费表中包括非问题区域的单据子信息、问题区域的单据子信息则为空。
本方案在得到第二分隔提取图层之后,会将第二分隔提取图层与电费单据组合得到反馈图像,然后根据非问题区域、问题区域的单据子信息生成问题电费表。
可以理解的是,问题电费表中包括非问题区域的单据子信息,其中,问题区域的单据子信息则为空。也就是说,本方案对问题区域内的数据不进行提取。
S43,将所述第二分隔提取图层、问题电费表反馈至用户。
本方案会将第二分隔提取图层、问题电费表反馈至用户。
S44,根据用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正。
用户在接收到第二分隔提取图层、问题电费表之后,可以对问题电费表内为空的问题区域内手动填充数据,服务器会结合用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正。
在一些实施例中,S44(根据用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正)包括S441-S442:
S441,生成与手动单据子信息相对应的显示子图,确定与电费单据中与问题区域所对应的图像,将问题区域所对应的图像内的像素值调整为第三预设像素值。
本方案会生成与手动单据子信息相对应的显示子图,确定与电费单据中与问题区域所对应的图像,将问题区域所对应的图像内的像素值调整为第三预设像素值。其中,第三预设像素值例如可以是白色所对应的像素值,通过上述方式,可以实现对问题区域内干扰数据的抹除。
S442,将所述显示子图与所述问题区域重合设置,以使手动单据子信息所对应的数值位于相应问题区域内。
本方案会将显示子图与问题区域重合设置,以使手动单据子信息所对应的数值位于相应问题区域内,通过上述方式,可以结合用户对数据的主动补充,实现数据的修正和替换。
S5,若所述验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。
可以理解的是,如果验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。
参见图3,是本方案实施例提供的一种电费单据自动数据处理装置的结构示意图,该装置包括:
调取模块,用于获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域;
组合模块,用于将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行提取得到单据子信息,对每个单据子信息添加相对应的区域标签;
匹配模块,用于按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型;
反馈模块,用于若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示;
结果模块,用于若所述验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。
本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
除上述实施例外,本发明还可以有其他实施方式;凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (13)

1.电费单据自动数据处理方法,其特征在于,包括:
获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域;
将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行提取得到单据子信息,对每个单据子信息添加相对应的区域标签;
按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型;
若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示;
若所述验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。
2.根据权利要求1所述的电费单据自动数据处理方法,其特征在于,
所述获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域,包括:
获取用户对电费单据所添加的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,每个单据格式与相应的分隔提取图层对应设置;
确定每个第一分隔提取图层所对应的提取区域,将提取区域作为OCR识别的目标区域,第一分隔提取图层中包括多个具有不同提取信息的提取区域。
3.根据权利要求2所述的电费单据自动数据处理方法,其特征在于,
所述将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行识别得到单据子信息,对每个单据子信息添加相对应的区域标签,包括:
对所述电费单据进行截取得到信息提取区域图像,根据所述信息提取区域图像的规格对第一分隔提取图层的规格进行调整;
在判断信息提取区域图像与第一分隔提取图层的规格相对应后,将所述信息提取区域图像与所述第一分隔提取图层对应组合设置,基于第一分隔提取图层中的提取区域对电费单据进行划分;
基于OCR对每个提取区域的文字信息进行识别得到单据子信息,对每个单据子信息添加相对应的区域标签。
4.根据权利要求3所述的电费单据自动数据处理方法,其特征在于,
所述对所述电费单据进行截取得到信息提取区域图像,根据所述信息提取区域图像的规格对第一分隔提取图层的规格进行调整,包括:
对电费单据进行坐标化处理,确定所有位于预设像素区间内的像素点,将确定的像素点作为第一像素点,所述第一像素点具有第一坐标;
将所有相邻的、第一坐标中横坐标相同的第一像素点相连接得到第一竖向连接线,将所有相邻的、第一坐标中纵坐标相同的第一像素点相连接得到第一横向连接线;
将第一像素点的数量大于第一预设数量的第一竖向连接线作为第二竖向连接线,将第一像素点的数量大于第二预设数量的第一横向连接线作为第二横向连接线;
根据所述第二竖向连接线、第二横向连接线对所述电费单据进行截取得到信息提取区域图像;
将信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,根据第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整。
5.根据权利要求4所述的电费单据自动数据处理方法,其特征在于,
所述根据所述第二竖向连接线、第二横向连接线对所述电费单据进行截取得到信息提取区域图像,包括:
确定第二竖向连接线中最大的横坐标和最小的横坐标分别对应的第二竖向连接线,得到竖向连接线截取组;
确定第二横向连接线中最大的纵坐标和最小的纵坐标分别对应的第二横向连接线,得到横向连接线截取组;
在电费单据中确定竖向连接线截取组、横向连接线截取组分别对应的第二竖向连接线、第二横向连接线,根据最大的横坐标、最小的横坐标、最大的纵坐标、最小的纵坐标形成坐标区域区间;
将确定的第二竖向连接线、第二横向连接线、坐标区域区间内所有像素点所形成的区域作为信息提取区域图像。
6.根据权利要求4所述的电费单据自动数据处理方法,其特征在于,
所述将信息提取区域图像中第二竖向连接线、第二横向连接线的像素点的数量作为信息提取区域图像的规格,根据第二竖向连接线、第二横向连接线对第一分隔提取图层的规格进行调整,包括:
获取信息提取区域图像中第二竖向连接线的像素点数量得到第一竖向点数量规格,以及信息提取区域图像中第二横向连接线的像素点数量得到第一横向点数量规格;
确定第一分隔提取图层中与第二竖向连接线所对应的第三竖向连接线、以及与第二横向连接线所对应的第三横向连接线;
获取第一分隔提取图层中第三竖向连接线的像素点数量得到第二竖向点数量规格,以及第一分隔提取图层中第三横向连接线的像素点数量得到第二横向点数量规格;
将所述第一竖向点数量规格与所述第二竖向点数量规格比对、第一横向点数量规格与所述第二横向点数量规格比对,得到调整比例;
根据所述调整比例对第一分隔提取图层的规格进行调整。
7.根据权利要求6所述的电费单据自动数据处理方法,其特征在于,
所述在判断信息提取区域图像与第一分隔提取图层的规格相对应后,将所述信息提取区域图像与所述第一分隔提取图层对应组合设置,基于第一分隔提取图层中的提取区域对电费单据进行划分,包括:
确定所述信息提取区域图像的第一中心像素点、以及第一分隔提取图层的第二中心像素点;
将所述第一中心像素点和第二中心像素点重合设置,以使信息提取区域图像与所述第一分隔提取图层对应组合设置;
基于所述第一分隔提取图层中的提取区域对电费单据进行区域划分。
8.根据权利要求7所述的电费单据自动数据处理方法,其特征在于,
所述按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型,包括:
依次对预设比对策略中所包括的子比对策略进行提取,确定子比对策略所对应的多个标签,每个子比对策略确定的多个标签为相关联区域标签;
生成与子比对策略对应的初始集合,按照多个标签依次提取相应提取区域的单据子信息,并将单据子信息填充至初始集合内得到比对标签集合;
确定与子比对策略所对应的预设验证模型,若所述预设验证模型为比对类型模型,则将单据子信息输入至预设验证模型内相应的输入参数处;
若所述预设验证模型在输入参数后依然成立,则验证结果为正常;
若所述预设验证模型在输入参数后不成立,则验证结果为异常。
9.根据权利要求8所述的电费单据自动数据处理方法,其特征在于,还包括:
若所述预设验证模型为计算类型模型,则对单据子信息进行分类得到计算单据子信息和验证单据子信息,将所述计算单据子信息输入至预设验证模型得到计算结果信息;
若所述计算结果信息与所述验证单据子信息相对应,则验证结果为正常;
若所述计算结果信息与所述验证单据子信息不对应,则验证结果为异常。
10.根据权利要求9所述的电费单据自动数据处理方法,其特征在于,
所述若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示,包括:
确定第一分隔提取图层中问题区域所对应轮廓的所有像素点作为问题像素点,控制问题像素点以第二预设像素值显示,得到第二分隔提取图层;
将所述第二分隔提取图层与所述电费单据组合得到反馈图像,根据非问题区域、问题区域的单据子信息生成问题电费表,所述问题电费表中包括非问题区域的单据子信息、问题区域的单据子信息则为空;
将所述第二分隔提取图层、问题电费表反馈至用户;
根据用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正。
11.根据权利要求10所述的电费单据自动数据处理方法,其特征在于,
所述根据用户对问题电费表内为空的问题区域所填充的手动单据子信息,对电费单据进行修正,包括:
生成与手动单据子信息相对应的显示子图,确定与电费单据中与问题区域所对应的图像,将问题区域所对应的图像内的像素值调整为第三预设像素值;
将所述显示子图与所述问题区域重合设置,以使手动单据子信息所对应的数值位于相应问题区域内。
12.电费单据自动数据处理装置,其特征在于,包括:
调取模块,用于获取电费单据的第一单据格式,根据所述第一单据格式调取相对应的第一分隔提取图层,所述第一分隔提取图层中包括多个具有不同提取信息的提取区域;
组合模块,用于将所述第一分隔提取图层与所述电费单据进行组合,以使电费单据被所述提取区域进行划分,基于OCR对每个提取区域的文字信息进行提取得到单据子信息,对每个单据子信息添加相对应的区域标签;
匹配模块,用于按照预设比对策略提取相关联区域标签的单据子信息得到比对标签集合,基于预设验证模型对所述单据子信息进行验证得到验证结果,每个比对标签集合具有相对应的预设验证模型;
反馈模块,用于若所述验证结果异常,则将相应比对标签集合所对应的提取区域作为问题区域,基于所述问题区域对第一分隔提取图层进行调整得到第二分隔提取图层,将所述第二分隔提取图层与所述电费单据组合得到反馈图像进行显示;
结果模块,用于若所述验证结果满足要求,则将所提取的单据子信息填充至预设电费表内。
13.存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至11任一所述的方法。
CN202310634880.7A 2023-05-31 2023-05-31 电费单据自动数据处理方法、装置及存储介质 Active CN116469120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310634880.7A CN116469120B (zh) 2023-05-31 2023-05-31 电费单据自动数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310634880.7A CN116469120B (zh) 2023-05-31 2023-05-31 电费单据自动数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN116469120A true CN116469120A (zh) 2023-07-21
CN116469120B CN116469120B (zh) 2023-09-05

Family

ID=87177337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310634880.7A Active CN116469120B (zh) 2023-05-31 2023-05-31 电费单据自动数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116469120B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104507047A (zh) * 2014-12-15 2015-04-08 福建星网锐捷网络有限公司 一种poi区域获取方法及装置
CN104915114A (zh) * 2015-05-29 2015-09-16 小米科技有限责任公司 信息记录方法和装置、智能终端
WO2019174276A1 (zh) * 2018-03-14 2019-09-19 京东方科技集团股份有限公司 用于定位目标物体区域中心的图像处理方法、装置、设备和介质
CN111582085A (zh) * 2020-04-26 2020-08-25 中国工商银行股份有限公司 单据拍摄图像识别方法及装置
CN112734352A (zh) * 2019-10-28 2021-04-30 北京京东尚科信息技术有限公司 一种基于数据维度的单据审核方法和装置
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN113569863A (zh) * 2021-09-26 2021-10-29 广东电网有限责任公司中山供电局 一种单据稽查的方法、***、电子设备及存储介质
CN114639173A (zh) * 2022-05-18 2022-06-17 国网浙江省电力有限公司 基于ocr技术的稽查佐证材料智能审核方法及装置
CN114708582A (zh) * 2022-05-31 2022-07-05 国网浙江省电力有限公司 基于ai和rpa的电力数据智慧稽查方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104507047A (zh) * 2014-12-15 2015-04-08 福建星网锐捷网络有限公司 一种poi区域获取方法及装置
CN104915114A (zh) * 2015-05-29 2015-09-16 小米科技有限责任公司 信息记录方法和装置、智能终端
WO2019174276A1 (zh) * 2018-03-14 2019-09-19 京东方科技集团股份有限公司 用于定位目标物体区域中心的图像处理方法、装置、设备和介质
CN112734352A (zh) * 2019-10-28 2021-04-30 北京京东尚科信息技术有限公司 一种基于数据维度的单据审核方法和装置
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN111582085A (zh) * 2020-04-26 2020-08-25 中国工商银行股份有限公司 单据拍摄图像识别方法及装置
CN113569863A (zh) * 2021-09-26 2021-10-29 广东电网有限责任公司中山供电局 一种单据稽查的方法、***、电子设备及存储介质
CN114639173A (zh) * 2022-05-18 2022-06-17 国网浙江省电力有限公司 基于ocr技术的稽查佐证材料智能审核方法及装置
CN114708582A (zh) * 2022-05-31 2022-07-05 国网浙江省电力有限公司 基于ai和rpa的电力数据智慧稽查方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANQING SONG ET AL.: "Bank Bill Recognition Based on an Image Processing", 《2009 THIRD INTERNATIONAL CONFERENCE ON GENETIC AND EVOLUTIONARY COMPUTING》, pages 569 - 573 *
熊海涛等: "基于图像识别技术的电力缴费智能核查***", 《电子世界》, no. 13, pages 161 - 162 *
蔡剑等: "基于特征选择和标签相关性的多标签分类算法", 《计算机与数字工程》, vol. 49, no. 10, pages 1967 - 1972 *
袁嘉怡等: "基于CTPN和CRNN的中英文字识别", 《电脑编程技巧与维护》, no. 09, pages 134 - 137 *

Also Published As

Publication number Publication date
CN116469120B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN109657665B (zh) 一种基于深度学习的***批量自动识别***
CN108717543B (zh) 一种***识别方法及装置、计算机存储介质
CN114639173B (zh) 基于ocr技术的稽查佐证材料智能审核方法及装置
CN111797837A (zh) 单据智能报销方法、***、计算机设备及存储介质
CN110516664A (zh) 票据识别方法、装置、电子设备及存储介质
CN104851184A (zh) 一种横向拼接纸币的识别方法及装置
CN113569863B (zh) 一种单据稽查的方法、***、电子设备及存储介质
CN110781726A (zh) 基于ocr的图片数据识别方法、装置、及计算机设备
CN116469120B (zh) 电费单据自动数据处理方法、装置及存储介质
CN110765748B (zh) 预算会计凭证智能生成***及方法
CA3160573A1 (en) Method, apparatus, device and storage medium for detecting card surface picture
CN116092231A (zh) 票证识别方法、装置、终端设备以及存储介质
CN116402482B (zh) 基于电费智能结算的数据处理方法及处理设备
CN112785402A (zh) 票据信息处理方法、票据信息处理***及存储介质
CN112632926A (zh) 票据的数据处理方法、装置、电子设备及存储介质
JP6683377B1 (ja) 書類分類システム、書類分類装置、書類分類方法、書類分類プログラム
CN110619060A (zh) 一种条烟图像数据库构建方法及条烟防伪查询方法
JP4300051B2 (ja) 帳票画像処理装置および課金方法
US20160140102A1 (en) Quality distributions for automated document
CN110751110A (zh) 身份影像信息核验方法、装置、设备及存储介质
CN115563331B (zh) 适用于影像优化的数据处理方法
CN113269708A (zh) 介质新旧的确定方法、装置、计算机设备和存储介质
US20130156288A1 (en) Systems And Methods For Locating Characters On A Document
CN112613572B (zh) 一种样本数据获得方法、装置、电子设备及存储介质
CN117132244B (zh) 用于智慧合规管理***的分类处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant