CN117037192A - 一种文件稽查方法、装置、设备及介质 - Google Patents
一种文件稽查方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117037192A CN117037192A CN202311003591.3A CN202311003591A CN117037192A CN 117037192 A CN117037192 A CN 117037192A CN 202311003591 A CN202311003591 A CN 202311003591A CN 117037192 A CN117037192 A CN 117037192A
- Authority
- CN
- China
- Prior art keywords
- character
- file
- abnormal
- auditing
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002159 abnormal effect Effects 0.000 claims abstract description 104
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 91
- 238000004590 computer program Methods 0.000 claims description 15
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 abstract description 43
- 238000012545 processing Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文件稽查方法、装置、设备及介质,涉及数据处理技术领域,该方法包括:获取待稽查文件的数字图像;对数字图像进行识别,得到待稽查文件的文件信息;根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息;根据稽查规则对记录信息进行异常检测;若存在至少一个记录信息为异常,则确定待稽查文件为异常。本发明实施例的技术方案,根据稽查规则的稽查关键词,从待稽查文件的图像中获取记录信息,并根据稽查规则对记录信息进行异常检测,以确定待稽查文件是否异常,实现了文件的自动化稽查,提高了文件的稽查效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文件稽查方法、装置、设备及介质。
背景技术
电力营销就是电力企业在变化的市场环境中,以满足人们的电力消费需求为目的,通过电力企业一系列与市场有关的经营活动,提供满足消费需要的电力产品和相应的服务。
现有的稽查手段,主要采用人工查阅工单文件内容的方式进行稽查,耗时较长,导致稽查效率较差。
发明内容
本发明提供了一种文件稽查方法、装置、设备及介质,以提高文件的稽查效率。
第一方面,本发明提供了一种文件稽查方法,包括:
获取待稽查文件的数字图像;
对数字图像进行识别,得到待稽查文件的文件信息;
根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息;
根据稽查规则对记录信息进行异常检测;
若存在至少一个记录信息为异常,则确定待稽查文件为异常。
第二方面,本发明还提供了一种文件稽查装置,包括:
数字图像获取模块,用于获取待稽查文件的数字图像;
文件信息获取模块,用于对数字图像进行识别,得到待稽查文件的文件信息;
记录信息确定模块,用于根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息;
异常检测模块,用于根据稽查规则对记录信息进行异常检测;
异常结果确定模块,用于若存在至少一个记录信息为异常,则确定待稽查文件为异常。
第三方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例所提供的文件稽查方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的文件稽查方法。
本发明实施例通过获取待稽查文件的数字图像;对数字图像进行识别,得到待稽查文件的文件信息;根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息;根据稽查规则对记录信息进行异常检测;若存在至少一个记录信息为异常,则确定待稽查文件为异常。本发明实施例的技术方案,根据稽查规则的稽查关键词,从待稽查文件的图像中获取记录信息,并根据稽查规则对记录信息进行异常检测,以确定待稽查文件是否异常,实现了文件的自动化稽查,提高了文件的稽查效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种文件稽查方法的流程图;
图2是根据本发明实施例二提供的一种文件稽查方法的流程图;
图3是根据本发明实施例三提供的一种文件稽查装置的结构示意图;
图4是实现本发明实施例的文件稽查方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的技术方案中,所涉及的待稽查文件等的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例一
图1为本发明实施例一提供的一种文件稽查方法的流程图,本实施例可适用于对文件进行稽查的情况,该方法可以由一种文件稽查装置来执行,该文件稽查装置可以采用硬件和/或软件的形式实现,并具体配置于电子设备中,例如服务器中。
参见图1所示的文件稽查方法,包括:
S101、获取待稽查文件的数字图像。
本实施例中,待稽查文件可以是用电工单文件,包括但不限于用电业务申请表、用电受理回执和用电告知书等。
在一个可选实施方式中,通过数字通过扫描设备对纸质的待稽查文件进行扫描,得到待稽查文件的数字图像;在另一个可选实施例中,可以通过数码相机对待稽查文件进行拍摄,得到待稽查文件的数字图像;在又一个可选实施例中,可以拍摄待稽查文件的模拟图像,并将待稽查文件的模拟图像转换为数字图像。
S102、对数字图像进行识别,得到待稽查文件的文件信息。
本实施例中,文件信息可以是待稽查文件中的内容。示例性的,待稽查文件为用电业务申请表,文件信息可以是用电业务申请表中的内容,例如表名、用电方信息和业务内容等。
具体的,采用一定的算法,对数字图像进行识别,得到待稽查文件的文件信息。
在一个可选实施例中,对数字图像进行识别,得到待稽查文件的文件信息之前,还包括:校验待稽查文件的数字图像的格式是否为双色格式;若数字图像的格式不为双色格式,则对数字图像进行格式转换,得到双色格式的数字图像。
其中,双色格式可以是指图像中仅包括两种颜色的颜色格式。
具体的,获取待稽查文件的数字图像中各像素点的像素值;对待稽查文件的数字图像中各像素点的像素值进行统计,得到各像素值的数量以及像素值的种类数量;则若待稽查文件数字图像中仅有两种不同的像素值,则待稽查文件的数字图像为双色格式,待稽查文件的数字图像校验通过;若待稽查文件数字图像中有至少三种以上的不同像素值,则将除数量最多的像素值之外的像素值转换为第一备选像素值,得到双色格式的数字图像;进一步地,在将除数量最多的像素值之外的像素值转换为第一备选像素值之后,还可以将数量最多的像素值转换为第二备选像素值,得到双色格式的数字图像,其中第一备选像素值与第二备选像素值不同。
在一个可选实施例中,若待稽查文件数字图像中仅有一种像素值,即待稽查文件中各像素点的像素值均相同,则确定待稽查文件为异常。
可以理解的是,采用上述技术方案,将不为双色格式的待稽查文件的数字图像转换为双色格式,以提高待稽查文件的数字图像中,文件背景与文件信息之间的颜色差异,进而提高从数字图像中识别得到的文件信息的准确性。
S103、根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息。
本实施例中,稽查规则可以是对待稽查文件进行异常检测的规则。稽查规则包括稽查关键词和记录信息的正常条件。需要说明的是,稽查关键词和记录信息的正常条件可以由技术人员根据实际需求或实践经验自主设定。稽查关键词可以是稽查规则所检测的文件信息中的字词,包括但不限于业务类别、供电电压和用电性质等。各稽查规则的稽查关键词不同。用户输入信息可以是待稽查文件中用户输入的信息,例如可以是用户在待稽查文件中填写的信息或用户在待稽查文件中选中的信息等。
具体的,对于每一稽查规则,从文件信息中查找与该稽查规则的稽查关键词对应的用户输入信息,并将该稽查规则的稽查关键词和对应的用户输入信息作为该稽查规则的记录信息。示例性的,稽查规则的稽查关键词为业务类别,则从文件信息中查找业务类别对应的用户输入信息;查找到的业务类别对应的输入信息为增容,则将业务类别和增容作为该稽查规则的记录信息。
S104、根据稽查规则对记录信息进行异常检测。
具体的,检测记录信息是否满足对应稽查规则中的正常条件;若记录信息满足对应稽查规则中的正常条件,则确定该记录信息为正常;若记录信息不满足对应稽查规则中的正常条件,则确定该记录信息为异常。
示例性的,稽查规则A的稽查关键词为业务类别,正常条件为记录信息中的用户输入信息中仅包含一项业务类别;若稽查规则A的记录信息中用户输入信息是否仅包含一项业务类别,则确定该记录信息正常;否则,确定该记录信息异常。
示例性的,稽查规则B的稽查关键词为用电地址,正常条件为记录信息中的用户输入信息的字符数量大于预设字符数量;若稽查规则B的记录信息中的用户输入信息的字符数量大于预设字符数量,则确定该记录信息正常;否则,则确定该记录信息异常。
示例性的,稽查规则C的稽查关键词为申请日期,正常条件为记录信息对应的用户输入信息中的日期是否晚于业务开展日期;若稽查规则C的记录信息对应的用户输入信息中的日期是否晚于业务开展日期,则确定该记录信息正常;否则,该记录信息异常。
示例性的,稽查规则D的稽查关键词为原有容量、增容量和容量合计,正常条件为记录信息中,原有容量对应的用户输入信息与增容量对应的用户信息之间的和等于容量合计对应的用户输入信息。若稽查规则D的记录信息中原有容量对应的用户输入信息与增容量对应的用户信息之间的和等于容量合计对应的用户输入信息,则确定该记录信息正常;否则,该记录信息异常。
S105、若存在至少一个记录信息为异常,则确定待稽查文件为异常。
在一个可选实施例中,可以在得到所有的记录信息的检测结果之后,校验是否存在至少一个记录信息为异常;若存在至少一个记录信息为异常,则确定待稽查文件为异常。
在另一个可选实施例中,可以在得到每一记录信息的检测结果时,检测该记录信息的检测结果是否为异常;若该记录信息的检测结果为异常,则确定待稽查文件为异常。
本发明实施例通过获取待稽查文件的数字图像;对数字图像进行识别,得到待稽查文件的文件信息;根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息;根据稽查规则对记录信息进行异常检测;若存在至少一个记录信息为异常,则确定待稽查文件为异常。本发明实施例的技术方案,根据稽查规则的稽查关键词,从待稽查文件的图像中获取记录信息,并根据稽查规则对记录信息进行异常检测,以确定待稽查文件是否异常,实现了文件的自动化稽查,提高了文件的稽查效率。
实施例二
图2为本发明实施例二提供的一种文件稽查方法的流程图,本发明实施例在上述实施例的技术方案的基础上,对文件信息的确定操作进行了优化改进。
进一步地,将“对数字图像进行识别,得到待稽查文件的文件信息”细化为“对待稽查文件的数字图像进行字符识别,得到数字图像中的备选字符,以及各备选字符的识别结果;若各备选字符的识别结果均为正常,则将各备选字符作为文件信息;若存在备选字符的识别结果为异常,则将识别结果为异常的备选字符作为异常字符,并对异常字符所在字符区域进行字符识别,得到目标字符;将目标字符和识别结果为正常的备选字符作为待稽查文件的文件信息”,以完善文件信息的确定操作。
需要说明的是,在本发明实施例中未详述部分,可参见前述实施例的表述。
参见图2所示的文件稽查方法,包括:
S201、获取待稽查文件的数字图像。
S202、对待稽查文件的数字图像进行字符识别,得到数字图像中的备选字符,以及各备选字符的识别结果。
本实施例中,备选字符可以是对待稽查文件的数字图像进行字符识别所得到的字符。识别结果可以包括正常和异常。
具体的,采用字符识别算法,对待稽查文件的数字图像进行字符识别,将识别得到的字符作为待稽查文件的数字图像的备选字符,将识别得到的各字符的识别结果作为对应备选字符的识别结果。
S203、若各备选字符的识别结果均为正常,则将各备选字符作为文件信息。
S204、若存在备选字符的识别结果为异常,则将识别结果为异常的备选字符作为异常字符,并对异常字符所在字符区域进行字符识别,得到目标字符。
本实施例中,异常字符即是识别结果为异常的备选字符。异常字符所在字符区域可以是异常字符在待稽查文件数字图像中的区域。目标字符可以是对异常字符所在字符区域进行字符识别所得到目标字符,也即异常字符对应的标准字符。具体的,采用一定的算法,对异常字符所在字符区域进行字符识别,得到目标字符。
可选的,对异常字符所在字符区域进行字符识别,得到目标字符,包括:获取异常字符在待稽查文件的数字图像中的字符区域;根据字符区域中各像素点的像素值,对字符区域进行转换,得到字符区域矩阵;对字符区域矩阵进行字符识别,得到目标字符。
其中,字符区域矩阵可以是表征字符区域中异常字符的形状特征的矩阵。具体的,获取异常字符的中心点;将以异常字符中心点为中心,预设尺寸的矩形区域作为异常字符所在区域;采用一定的算法,根据字符区域中各像素点的像素值,对字符区域进行转换,得到字符区域矩阵;采用一定的算法,对字符区域矩阵进行字符识别,得到目标字符。
可以理解的是,采用上述技术方案,将异常字符所在字符区域转换为字符区域矩阵,并对字符区域矩阵进行字符识别,降低了字符识别的计算复杂度,提高了字符的识别效率,进而提高了得到目标字符的效率。
可选的,对字符区域矩阵进行字符识别,得到目标字符,包括:根据字符区域矩阵中的元素值和标准区域矩阵中的元素值,确定字符区域矩阵与标准区域矩阵之间的矩阵差异,并将矩阵差异作为异常字符与标准区域矩阵对应的标准字符之间的字符差异;根据异常字符与标准区域矩阵对应的标准字符之间的字符差异,从标准字符中确定异常字符的目标字符。
其中,标准区域矩阵可以是表征字符区域中标准字符的形状特征的矩阵。一个标准字符可以对应有至少两个标准区域矩阵,也即两个不同的标准区域矩阵可以对应相同的标准字符。标准区域矩阵的行数与字符区域矩阵的行数相同;标准区域矩阵的列数与字符区域矩阵的列数相同。
具体的,对于每一标准区域矩阵,将字符区域矩阵与该标准区域矩阵相减,得到相减后的辅助矩阵;将该辅助矩阵中的各元素值的平方和,并将平方和开根号,得到字符区域矩阵与该标准区域矩阵之间的矩阵差异,并将矩阵差异作为异常字符与该标准区域矩阵对应的标准字符之间的字符差异;采用一定的算法,根据异常字符与各标准区域矩阵对应的标准字符之间的字符差异,从标准字符中确定异常字符的目标字符。
可以理解的是,采用上述技术方案,确定将字符区域矩阵与标准区域矩阵之间的矩阵差异作为异常根据异常字符与标准区域矩阵对应的标准字符之间的字符差异,并根据字符差异从标准字符中确定异常字符的目标字符,提高了目标字符的准确率。
可选的,根据异常字符与标准区域矩阵对应的标准字符之间的字符差异,从标准字符中确定异常字符的目标字符,包括:根据预设字符差异,对标准区域矩阵进行筛选,得到辅助区域矩阵;统计各辅助区域矩阵对应的辅助字符的数量;根据各辅助字符的数量,从辅助字符中确定异常字符的目标字符。
其中,预设字符差异可以由技术人员根据实际需求或实践经验自主设定。辅助区域矩阵可以是对标准区域矩阵进行筛选后得到的标准区域矩阵。辅助字符可以是辅助区域矩阵对应的标准字符。
具体的,从标准区域矩阵中筛除与字符区域矩阵之间的字符差异大于或等于预设字符差异的标准区域矩阵,得到辅助区域矩阵;根据各辅助区域矩阵对应的辅助字符,确定各辅助字符的数量;将数量最多的辅助字符确定为异常字符的目标字符。
可以理解的是,采用上述技术方案,对标准区域矩阵进行筛选,得到辅助区域矩阵;统计各辅助区域矩阵对应的辅助字符的数量;根据各辅助字符的数量,从辅助字符中确定异常字符的目标字符,降低了目标字符的确定复杂度,提高了目标字符的确定效率。
可选的,根据字符区域中各像素点的像素值,对字符区域进行转换,得到字符区域矩阵,包括:将字符区域中各像素点的像素值与第一像素值进行比较;将比较结果不同的像素点的像素值更新为第二像素值;第一像素值和第二像素值不同;根据更新后的字符区域的像素点,形成字符区域矩阵。
其中,第一像素值可以是待稽查文件的数字图像中待稽查文件背景颜色对应的像素值,即待稽查文件的数字图像中数量最多的像素值。
具体的,将字符区域中的第一像素值映射为第一元素值,以及将字符区域中的第二像素值映射为第二元素值,得到字符区域矩阵。第一元素值与第二元素值不同。相应的,标准区域矩阵中的元素值也仅包括第一元素值和第二元素值两种。第一元素值用于表征该元素对应的像素点位于字符中,第二元素值用于表征该元素对应的像素点位于非字符的图像背景中。
可以理解的是,采用上述技术方案,将比较结果不同的像素点的像素值更新为第二像素值,根据更新后的字符区域的像素点,形成字符区域矩阵,以使字符区域矩阵中仅包括两种元素值,降低对字符区域矩阵进行字符识别的复杂度,提高得到目标字符的效率。
S205、将目标字符和识别结果为正常的备选字符作为待稽查文件的文件信息。
S206、根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息。
S207、根据稽查规则对记录信息进行异常检测。
S208、若存在至少一个记录信息为异常,则确定待稽查文件为异常。
本发明实施例的技术方案,通过对待稽查文件的数字图像进行字符识别,得到数字图像中的备选字符,以及各备选字符的识别结果;若各备选字符的识别结果均为正常,则将各备选字符作为文件信息;若存在备选字符的识别结果为异常,则将识别结果为异常的备选字符作为异常字符,并对异常字符所在字符区域进行字符识别,得到目标字符;将目标字符和识别结果为正常的备选字符作为待稽查文件的文件信息。本发明实施例的技术方案,若存在异常字符,则对异常字符所在字符区域进行字符识别,得到目标字符;将目标字符和识别结果为正常的备选字符作为待稽查文件的文件信息,提高了待稽查文件的文件信息的准确率,进而提高了对文件信息中的记录信息进行异常检测的准确率。
实施例三
图3为本发明实施例三提供的一种文件稽查装置的结构示意图。本发明实施例可适用于对文件进行稽查的情况,该装置可以执行文件稽查方法,该文件稽查装置可以采用硬件和/或软件的形式实现,该装置可配置于电子设备中,例如服务器中。
参见图3所示的文件稽查装置,包括数字图像获取模块301、文件信息获取模块302、记录信息确定模块303、异常检测模块304和异常结果确定模块,其中,
数字图像获取模块301,用于获取待稽查文件的数字图像;
文件信息获取模块302,用于对数字图像进行识别,得到待稽查文件的文件信息;
记录信息确定模块303,用于根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息;
异常检测模块304,用于根据稽查规则对记录信息进行异常检测;
异常结果确定模块305,用于若存在至少一个记录信息为异常,则确定待稽查文件为异常。
本发明实施例通过数字图像获取模块,获取待稽查文件的数字图像;通过文件信息获取模块,对数字图像进行识别,得到待稽查文件的文件信息;通过记录信息确定模块,根据稽查规则的稽查关键词,从文件信息中查找与稽查关键词对应的用户输入信息,并将稽查关键词和对应的用户输入信息作为记录信息;异常检测模块,根据稽查规则对记录信息进行异常检测;异常结果确定模块,若存在至少一个记录信息为异常,则确定待稽查文件为异常。本发明实施例的技术方案,根据稽查规则的稽查关键词,从待稽查文件的图像中获取记录信息,并根据稽查规则对记录信息进行异常检测,以确定待稽查文件是否异常,实现了文件的自动化稽查,提高了文件的稽查效率。
可选的,文件信息获取模块302,包括:
识别结果确定单元,用于对待稽查文件的数字图像进行字符识别,得到数字图像中的备选字符,以及各备选字符的识别结果;
第一信息确定单元,用于若各备选字符的识别结果均为正常,则将各备选字符作为文件信息;
目标字符确定单元,用于若存在备选字符的识别结果为异常,则将识别结果为异常的备选字符作为异常字符,并对异常字符所在字符区域进行字符识别,得到目标字符;
将目标字符和识别结果为正常的备选字符作为待稽查文件的文件信息。
可选的,目标字符确定单元,包括:
区域确定子单元,用于获取异常字符在待稽查文件的数字图像中的字符区域;
矩阵确定子单元,用于根据字符区域中各像素点的像素值,对字符区域进行转换,得到字符区域矩阵;
字符确定子单元,用于对字符区域矩阵进行字符识别,得到目标字符。
可选的,字符确定子单元,具体用于:
根据字符区域矩阵中的元素值和标准区域矩阵中的元素值,确定字符区域矩阵与标准区域矩阵之间的矩阵差异,并将矩阵差异作为异常字符与标准区域矩阵对应的标准字符之间的字符差异;
根据异常字符与标准区域矩阵对应的标准字符之间的字符差异,从标准字符中确定异常字符的目标字符。
可选的,字符确定子单元,具体用于:
根据预设字符差异,对标准区域矩阵进行筛选,得到辅助区域矩阵;
统计各辅助区域矩阵对应的辅助字符的数量;
根据各辅助字符的数量,从辅助字符中确定异常字符的目标字符。
可选的,矩阵确定子单元,具体用于:
将字符区域中各像素点的像素值与第一像素值进行比较;
将比较结果不同的像素点的像素值更新为第二像素值;第一像素值和第二像素值不同;
根据更新后的字符区域的像素点,形成字符区域矩阵。
可选的,该装置还包括:
格式校验模块,用于校验待稽查文件的数字图像的格式是否为双色格式;
格式转换模块,用于若数字图像的格式不为双色格式,则对数字图像进行格式转换,得到双色格式的数字图像。
本发明实施例所提供的文件稽查装置可执行本发明任意实施例所提供的文件稽查方法,具备执行文件稽查方法相应的功能模块和有益效果。
实施例四
图4示出了可以用来实施本发明的实施例的电子设备400的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备400包括至少一个处理器401,以及与至少一个处理器401通信连接的存储器,如只读存储器(ROM)402、随机访问存储器(RAM)403等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器401可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储电子设备400操作所需的各种程序和数据。处理器401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
电子设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器401可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器401执行上文所描述的各个方法和处理,例如文件稽查方法。
在一些实施例中,文件稽查方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。当计算机程序加载到RAM 403并由处理器401执行时,可以执行上文描述的文件稽查方法的一个或多个步骤。备选地,在其他实施例中,处理器401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文件稽查方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的***和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种文件稽查方法,其特征在于,所述方法包括:
获取待稽查文件的数字图像;
对所述数字图像进行识别,得到所述待稽查文件的文件信息;
根据稽查规则的稽查关键词,从所述文件信息中查找与稽查关键词对应的用户输入信息,并将所述稽查关键词和对应的用户输入信息作为记录信息;
根据所述稽查规则对所述记录信息进行异常检测;
若存在至少一个记录信息为异常,则确定所述待稽查文件为异常。
2.根据权利要求1所述的方法,其特征在于,所述对所述数字图像进行识别,得到所述待稽查文件的文件信息,包括:
对所述待稽查文件的数字图像进行字符识别,得到所述数字图像中的备选字符,以及各所述备选字符的识别结果;
若各所述备选字符的识别结果均为正常,则将各所述备选字符作为所述文件信息;
若存在备选字符的识别结果为异常,则将识别结果为异常的备选字符作为异常字符,并对所述异常字符所在字符区域进行字符识别,得到目标字符;
将所述目标字符和所述识别结果为正常的备选字符作为所述待稽查文件的文件信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述异常字符所在字符区域进行字符识别,得到目标字符,包括:
获取所述异常字符在所述待稽查文件的数字图像中的字符区域;
根据所述字符区域中各像素点的像素值,对所述字符区域进行转换,得到字符区域矩阵;
对字符区域矩阵进行字符识别,得到目标字符。
4.根据权利要求3所述的方法,其特征在于,所述对字符区域矩阵进行字符识别,得到目标字符,包括:
根据所述字符区域矩阵中的元素值和标准区域矩阵中的元素值,确定所述字符区域矩阵与所述标准区域矩阵之间的矩阵差异,并将所述矩阵差异作为所述异常字符与标准区域矩阵对应的标准字符之间的字符差异;
根据所述异常字符与标准区域矩阵对应的标准字符之间的字符差异,从所述标准字符中确定所述异常字符的目标字符。
5.根据权利要求4所述的方法,其特征在于,所述根据所述异常字符与标准区域矩阵对应的标准字符之间的字符差异,从所述标准字符中确定所述异常字符的目标字符,包括:
根据预设字符差异,对标准区域矩阵进行筛选,得到辅助区域矩阵;
统计各所述辅助区域矩阵对应的辅助字符的数量;
根据所述各辅助字符的数量,从所述辅助字符中确定所述异常字符的目标字符。
6.根据权利要求3所述的方法,其特征在于,所述根据所述字符区域中各像素点的像素值,对所述字符区域进行转换,得到字符区域矩阵,包括:
将所述字符区域中各像素点的像素值与第一像素值进行比较;
将比较结果不同的像素点的像素值更新为第二像素值;所述第一像素值和所述第二像素值不同;
根据更新后的字符区域的像素点,形成字符区域矩阵。
7.根据权利要求1所述的方法,其特征在于,对所述数字图像进行识别,得到所述待稽查文件的文件信息之前,还包括:
校验所述待稽查文件的数字图像的格式是否为双色格式;
若所述数字图像的格式不为双色格式,则对所述数字图像进行格式转换,得到双色格式的数字图像。
8.一种文件稽查装置,其特征在于,所述装置包括:
数字图像获取模块,用于获取待稽查文件的数字图像;
文件信息获取模块,用于对所述数字图像进行识别,得到所述待稽查文件的文件信息;
记录信息确定模块,用于根据稽查规则的稽查关键词,从所述文件信息中查找与稽查关键词对应的用户输入信息,并将所述稽查关键词和对应的用户输入信息作为记录信息;
异常检测模块,用于根据所述稽查规则对所述记录信息进行异常检测;
异常结果确定模块,用于若存在至少一个记录信息为异常,则确定所述待稽查文件为异常。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文件稽查方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文件稽查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311003591.3A CN117037192A (zh) | 2023-08-10 | 2023-08-10 | 一种文件稽查方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311003591.3A CN117037192A (zh) | 2023-08-10 | 2023-08-10 | 一种文件稽查方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037192A true CN117037192A (zh) | 2023-11-10 |
Family
ID=88629566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311003591.3A Pending CN117037192A (zh) | 2023-08-10 | 2023-08-10 | 一种文件稽查方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037192A (zh) |
-
2023
- 2023-08-10 CN CN202311003591.3A patent/CN117037192A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019218699A1 (zh) | 欺诈交易判断方法、装置、计算机设备和存储介质 | |
CN112560453B (zh) | 语音信息校验方法、装置、电子设备及介质 | |
CN113987190B (zh) | 一种数据质量校验规则提取方法及*** | |
CN112949767A (zh) | 样本图像增量、图像检测模型训练及图像检测方法 | |
CN112613569A (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN115422028A (zh) | 标签画像体系的可信度评估方法、装置、电子设备及介质 | |
CN115311469A (zh) | 图像标注方法、训练方法、图像处理方法以及电子设备 | |
CN112113638B (zh) | 水表功能自检装置及方法 | |
CN116055305B (zh) | 一种运行态数据采集方法、装置、设备及存储介质 | |
CN115048352B (zh) | 一种日志字段提取方法、装置、设备和存储介质 | |
CN116309963A (zh) | 一种图像的批量标注方法、装置、电子设备及存储介质 | |
CN117037192A (zh) | 一种文件稽查方法、装置、设备及介质 | |
CN114443493A (zh) | 一种测试案例生成方法、装置、电子设备和存储介质 | |
CN113344064A (zh) | 事件处理方法和装置 | |
CN117150215B (zh) | 一种考核结果确定方法、装置、电子设备及存储介质 | |
CN115542100B (zh) | 绝缘子故障检测方法、装置、设备及介质 | |
CN116957822B (zh) | 表单的检测方法、装置、电子设备及存储介质 | |
CN116844169A (zh) | 干扰对象处理模型的训练与干扰对象的处理方法、装置 | |
CN116149964A (zh) | 一种日志采集方法、装置、设备和存储介质 | |
CN117455684A (zh) | 一种数据处理方法、装置、电子设备、存储介质及产品 | |
CN116956042A (zh) | 故障类型检测模型的建立方法、装置、设备及介质 | |
CN116467198A (zh) | 性能实测必要性确定方法、装置、电子设备和存储介质 | |
CN117610016A (zh) | 一种接口管理方法及装置 | |
CN115761445A (zh) | 染色体分析模型的训练方法、装置、设备及介质 | |
CN114898374A (zh) | 一种图像的语义识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |