CN114495145B - 政策文号提取方法、装置、设备以及存储介质 - Google Patents

政策文号提取方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114495145B
CN114495145B CN202210143541.4A CN202210143541A CN114495145B CN 114495145 B CN114495145 B CN 114495145B CN 202210143541 A CN202210143541 A CN 202210143541A CN 114495145 B CN114495145 B CN 114495145B
Authority
CN
China
Prior art keywords
policy
document
text
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210143541.4A
Other languages
English (en)
Other versions
CN114495145A (zh
Inventor
郑梓昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202210143541.4A priority Critical patent/CN114495145B/zh
Publication of CN114495145A publication Critical patent/CN114495145A/zh
Application granted granted Critical
Publication of CN114495145B publication Critical patent/CN114495145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及人工智能领域,公开了一种政策文号提取方法、装置、设备以及存储介质,其中,方法包括接收到政策文号提取指令,确定目标政策文件,并识别目标政策文件中的政策信息区,得到政策信息图像;提取政策信息图像内的目标政策信息文本;对目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;获取每个政策文号在目标政策信息文本中的文本位置;对每个政策文号的前文进行关键词提取得到第一关键词,并对每个政策文号的后文进行关键词提取得到第二关键词;基于各个第一关键词的第一加权系数、各个第二关键词的第二加权系数、及各个文本位置的第三加权系数对各个政策文号进行加权求和选择目标政策文号。

Description

政策文号提取方法、装置、设备以及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种政策文号提取方法、装置、设备以及存储介质。
背景技术
基于政务项目中,需要提取出政策的正确政策文号,以便用于展示、搜索或文件归档,而政策文号可能出现在政策文件的各个角落,传统的政策文号提取方法通常是需要工作人员对政策文件通篇阅读,并人工提取出政策文件的政策文号,该方法会导致政策的时效性降低。
并且在此过程中,使用人工提取的方式不仅容易出现纰漏,耗费了大量的时间以及人力物力,因此,如何实现政策文件中政策文号的快速准确提取,是本领域技术人员亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种政策文号提取方法、装置、设备以及存储介质,旨在实现政策文件中政策文号的快速准确提取。
第一方面,本申请实施例提供一种政策文号提取方法,应用于电子设备,包括:
接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;
提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;
根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;
获取每个所述政策文号在所述目标政策信息文本中的文本位置;
对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;
基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;
选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。
第二方面,本申请实施例还提供一种政策文号提取装置,包括:
图像采集模块,用于图像采集模块,用于接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;
文本提取模块,用于提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;
文号提取模块,用于根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;
位置获取模块,用于获取每个所述政策文号在所述目标政策信息文本中的文本位置;
关键词模块,用于对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;
文号筛选模块,用于基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;
目标文号模块,用于选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。
第三方面,本申请实施例还提供一种电子设备,电子设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线,其中计算机程序被处理器执行时,实现如本申请说明书提供的任一项政策文号提取方法的步骤。
第四方面,本申请实施例还提供一种存储介质,用于计算机可读存储,其特征在于,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如本申请说明书提供的任一项政策文号提取方法的步骤。
本申请实施例提供一种政策文号提取方法、装置、设备以及存储介质,其中,该方法包括接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;获取每个所述政策文号在所述目标政策信息文本中的文本位置;对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。通过利用文号提取模型对政策文件中的政策文号进行提取,从而获取到目标政策文件中的全部政策文号,基于目标政策文件在文中的位置、前后文的关键词均与非目标文号有差别,通过获取全部政策文号在文中的文本位置、以及全部政策文号的前文关键词、后文关键词,并利用文本位置、政策文号的前文关键词、政策文号的后文关键词等多维度进行评测,从而可以从全部政策文号可以较为快速、准确的获取到目标政策文件所对应的目标政策文号。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种政策文号提取方法的流程示意图;
图2为本申请实施例提供的一种政策文号提取方法的一种应用场景示意图;
图3为本申请实施例提供的一种目标政策文件的区域布局结构示意图;
图4为本申请实施例提供的一种政策文号提取装置的模块结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
随着计基于政务项目中,需要提取出政策的正确政策文号,以便用于展示、搜索或文件归档,而政策文号可能出现在政策文件的各个角落,传统的政策文号提取方法通常是需要工作人员对政策文件通篇阅读,并人工提取出政策文件的政策文号,该方法会导致政策的时效性降低。
并且在此过程中,使用人工提取的方式不仅容易出现纰漏,也提高了运营成本,耗费了大量的时间以及人力物力,因此,如何实现政策文件中政策文号的快速准确提取,是本领域技术人员亟待解决的技术问题。
为解决上述问题,本申请实施例提供一种政策文号提取方法、装置、设备以及存储介质,其中,该政策文号提取方法应用于电子设备,该电子设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备等终端设备,也可以是服务器,其中,服务器可以为独立的服务器,也可以为服务器集群。
具体地,该方法包括接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;获取每个所述政策文号在所述目标政策信息文本中的文本位置;对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。通过利用文号提取模型对政策文件中的政策文号进行提取,从而获取到目标政策文件中的全部政策文号,基于目标政策文件在文中的位置、前后文的关键词均与非目标文号有差别,通过获取全部政策文号在文中的文本位置、以及全部政策文号的前文关键词、后文关键词,并利用文本位置、政策文号的前文关键词、政策文号的后文关键词等多维度进行评测,从而可以从全部政策文号可以较为快速、准确的获取到目标政策文件所对应的目标政策文号。
下面结合附图,对本申请的一些实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种政策文号提取方法的流程示意图。
如图1所示,该政策文号提取方法包括步骤S1至步骤S7。
步骤S1:接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像。
如图2-3所示,文件获取终端101带有图像采集装置,如相机,可以用于采集目标政策文件的图像,在用户需要对目标政策文件进行政策文号识别以实现政策文件归档时,则为待识别的政策文件设置待识别标签,例如,在待识别的政策文件的左上角或右上角设置有待识别的字样。
同时,标注政策文件中政策文号所在的政策信息区,从而使得电子设备300根据待识别标签控制文件获取终端101获取到对应待识别的政策文件,并对所标注的政策信息区进行政策信息提取,从而获取到政策信息区内的政策信息文本,如图3所示的A区域,并从政策信息文本中进行政策文号提取,得到政策信息区的全部政策文号。
在一些实施方式中,所述目标政策文件设置有区域标签,所述识别所述目标政策文件中的政策信息区,得到政策信息图像,包括:
采集所述目标政策文件的政策文件图像;
根据所述区域标签识别所述政策文件图像中的政策信息区,并从所述政策文件图像中分割出所述政策信息区;
对所述政策信息区进行图像预处理,得到政策信息图像。
示例性地,目标政策文件为非图像文件,如,为纸本文件或PDF格式的文件,则需要通过图像转换或图像采集获取目标政策文件的政策文件图像,基于目标政策文件设置有对应的区域标签,电子设备可以基于区域标签识别政策文件图像中的政策信息区,例如,用户利用颜料笔将目标政策文件中的政策信息区框选出来,电子设备300在接收到终端设备102发出的政策文号提取指令时,控制文件获取终端101采集目标政策文件的政策文件图像,在获取到目标政策文件的政策文件图像后,通过识别政策文件图像中的框选区从而可得到政策文件图像中的政策信息区,即,图3中A区域所对应的图像。对所获取政策信息区进行图像预处理,得到政策信息图像。其中,图像预处理包括图像降噪、图像亮度增强、图像色彩增强等中的至少一者。
在一些实施方式中,所述政策信息区包括有文字区域及非文字区域,所述对所述政策信息区进行图像预处理,得到政策信息图像,包括:
获取所述政策信息区中各个像素点的灰度值;
根据各个像素点的灰度值确定所述文字区域及所述非文字区域目标亮度等级;
根据所述目标亮度等级对所述文字区域及所述非文字区域进行色彩增强处理,得到所述政策信息图像。
示例性地,灰度值是图像中某一像素在黑白图像中呈现出的灰色程度的度量值。在灰度图中,通常显示为从最暗黑色到最亮的白色的灰度。把白色与黑色之间按对数关系分成若干级,称为“灰度等级”。范围一般从0到255,白色为255,黑色为0。通过获取政策信息区中各个像素点的灰度值,从而根据所获取的各个灰度值确定最大灰度值及灰度平均值。
通常,政策信息区包括有文字区域及非文字区域,其中,文字区域为需要进行文字识别所对应的区域,通过根据所获取的各个灰度值确定最大灰度值及灰度平均值能够从不同维度全面表征文字区域及非文字区域的当前亮度等级,进而根据文字区域及非文字区域的当前亮度等级确定文字区域及非文字区域目标亮度等级,以利用目标亮度等级对政策信息区中的文字区域、非文字区域进行亮度调节,避免文字区域曝光过度造成文字识别的准确度降低,或避免非文字区域曝光对文字区域造成干扰进而造成文字识别的准确度降低。
可以理解,在一些实施方式中,文件获取终端101可以集成于电子设备300内。在一些实施方式中,用户可以通过与电子设备300通信连接的鼠标、键盘、触控面板等输入装置向电子设备300发出的政策文号提取指令,而不通过终端设备102发出的政策文号提取指令。
步骤S2:提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本。
政策信息包括至少两种语言,如中文、英文、***数字,通过OCR识别模型识别政策信息图像内的政策信息,从而将获取政策信息图像内的政策信息所对应的目标政策信息文本。
在一些实施方式中,所述政策信息包括第一语言信息及第二语言信息,所述提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本,包括:
将所述政策信息图像输入至第一文字识别模型,得到所述第一语言信息所对应的第一政策信息文本及所述第一政策信息文本在所述政策信息图像内的第一文本位置;
将所述政策信息图像输入至第二文字识别模型,得到所述第二语言信息所对应的第二政策信息文本及所述第二政策信息文本在所述政策信息图像内的第二文本位置;
根据所述第一文本位置及所述第二文本位置对所述第一政策信息文本及所述第二政策信息文本进行排序,得到目标政策信息文本。
示例性地,政策信息通常包括中文、英文、数字等,因此,非中文文本至少包括英文和数字。文字识别模型为OCR(Optical Character Recognition,光学字符识别)模型,通过OCR模型可得到政策信息图像内的政策信息。
OCR模型包括第一OCR模型及第二OCR模型,第一OCR模型为中文信息识别模型,用于识别政策信息图像内的政策信息中的中文文本及中文文本在政策信息图中的第一文本位置,第二OCR模型为非中文信息识别模型,用于识别政策信息图像内的政策信息中的非中文文本及非中文文本在政策信息图中的第二文本位置。利用第一文本位置及第二文本位置对第一政策信息文本及第二政策信息文本进行排序,从而获取到目标政策信息文本。通过两个不同的OCR模型对政策信息图像进行文本识别,可以提高文本识别准确度。
步骤S3:根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号。
目标政策文件内包括目标政策文号及非目标政策文号,其中,非目标政策文号为目标政策文号的被引用文号,如何从目标政策文件中提取到目标政策文号至关重要。
示例性地,以文号提取模型为NLP文号提取模型为例进行说明,通过NLP文号提取模型,对目标政策信息文本进行政策文号信息提取,得到目标政策信息文本中的全部政策文号,从而构成目标政策文件内政策文号的政策文号集,该政策文号集中包括至少两个不同的政策文号,即该政策文号集包括目标政策文号及非目标政策文号。其中,NLP文号提取模型通过利用政策文号数据训练获得。
步骤S4:获取每个所述政策文号在所述目标政策信息文本中的文本位置。
基于不同的政策文号在文中的位置可能不同,因此,通过政策文号在目标政策信息文本中的位置进行识别,利用文本位置可以辅助判断当前政策文号是否为目标政策文号或非目标政策文号,可以有助于提高当前政策文号是否为目标政策文号的判断精度。
步骤S5:对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词。
基于不同的政策文号的前后文的关键词可能不同,并且目标政策文号和非目标政策文号前后文中对应的关键词具有较大差别,非目标政策文号通常为目标政策尾号的引用对象,因此,通过提取并识别目标政策文号和非目标政策文号前后文所对应的关键词,从而可以辅助判断出当前政策文号为目标政策文号,或为非目标政策文号。
在一些实施方式中,所述对每个所述政策文号的前文进行关键词提取得到第一关键词,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的前文中第一预设数量的第一字符信息;
将所述第一字符信息与预设的第一词库对比,得到与所述第一词库中词语匹配的第一关键词。
在一些实施方式中,所述对每个所述政策文号的第二预设数量长度后文进行关键词提取得到第二关键词,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的后文中第二预设数量的第二字符信息;
将所述第二字符信息与预设的第二词库对比,得到与所述第二词库中词语匹配的第二关键词。
示例性地,在获取到目标政策文件中的全部政策文号后,需要从全部政策文号中确认出目标政策文号,在进行目标政策文号确认时,通过提取每一个政策文号的前文及后文关键词,通过关键词辅助判断当前政策文号是否为目标政策文号。
具体地,确认每个政策文号在政策信息图像中的行坐标,根据行坐标获取政策文号的前文中第一预设数量的字符信息,将字符信息与预设的第一词库对比,得到与第一词库中词语匹配的第一关键词,也即得到每个政策文号所对应的第一关键词。
同时,确认每个政策文号在政策信息图像中的行坐标;根据行坐标获取政策文号的后文中第二预设数量的字符信息,将字符信息与预设的第二词库对比,得到与第二词库中词语匹配的第二关键词。也即得到每个政策文号所对应的第二关键词。其中,第一预设数量及第二预设数量可以根据需要设定,例如,第一预设数量及第二预设数量均为10-15个汉字所对应的字符串长度,或者20-25个英文、数字组合对应的字符串长度。
步骤S6:基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度。
示例性地,不同位置的关键词对政策文号是否为目标政策文号的贡献不同,同时,政策文号在政策信息区中的位置不同也对政策文号是否为目标政策文号的贡献不同。
因此,预设有第一关键词和第一加权系数的对应关系、第二关键词和第二加权系数的对应关系、文本位置和第三加权系数的对应关系,在从目标政策文件中的全部政策文号选择出目标政策文号时,通过获取各个政策文号所对应的第一关键词的第一加权系数、第二关键词的第二加权系数及文本位置的第三加权系数进行加权求和从而获取到各个政策文号的关键程度,从而可以根据关键程度判断出当前政策文号为目标政策文号的概率。
步骤S7:选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。
在获取到目标政策文件中全部政策文号的关键程度后,根据关键程度进行升序或降序排列,从而选择关键程度最高的政策文号为目标政策文件的目标政策文号。
在一些实施方式中,在步骤S7之后,所述方法还包括:
将所述目标政策文件及所述目标政策文号发送给用户终端;
接收所述用户终端的响应信息,并根据所述响应信息将所述目标政策文件以所述目标政策文号为归档编号进行归档存储。
示例性地,响应信息为用户确认所述目标政策文件及所述目标政策文号相匹配后触发所述用户终端发送的信息。
在获取到目标政策文件对应的目标政策文号后,发送给预设的用户终端,用户可以通过用户终端接收电子设备发送的目标政策文号和目标政策文件,从而确认所提取的目标政策文号是否问目标政策文件所对应的政策文号,当用户确认电子设备所提取的目标政策文号为目标政策文件所对应的政策文号时,通过鼠标、键盘、触控面板等输入设备向触发用户终端发送响应信息,从而使得电子设备将目标政策文件进行归档存储,并且文档归档存储时,可以利用目标政策文号为归档编号进行命名。其中,归档存储可以是存储于电子设备本底的硬盘,也可以发送给对应的云端服务器进行存储,在此不做限定。
请参阅图4,图4为本申请实施例提供的政策文号提取装置的结构示意性框图。
如图4所示,政策文号提取装置200,可应用于电子设备,政策文号提取装置200包括图像采集模块201、文本提取模块202、文号提取模块203、位置获取模块204、关键词模块205、文号筛选模块206、及目标文号模块207。
其中,图像采集模块201,用于接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;
文本提取模块202,用于提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;
文号提取模块203,用于根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;
位置获取模块204,用于获取每个所述政策文号在所述目标政策信息文本中的文本位置;
关键词模块205,用于对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;
文号筛选模块206,用于基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;
目标文号模块207,用于选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。
在一些实施方式中,政策文号提取装置200还包括文件归档模块,用于将所述目标政策文件及所述目标政策文号发送给用户终端;接收所述用户终端的响应信息,并根据所述响应信息将所述目标政策文件以所述目标政策文号为标签进行归档存储。
在一些实施方式中,所述响应信息为用户确认所述目标政策文件及所述目标政策文号相匹配后触发所述用户终端发送的信息。
在一些实施方式中,所述目标政策文件设置有区域标签,图像采集模块201在识别所述目标政策文件中的政策信息区,得到政策信息图像时,包括:
获取所述目标政策文件的政策文件图像;
根据所述区域标签识别所述政策文件图像中的政策信息区,并从所述政策文件图像中分割出所述政策信息区;
对所述政策信息区进行图像预处理,得到政策信息图像。
在一些实施方式中,所述政策信息区包括有文字区域及非文字区域,图像采集模块201在对所述政策信息区进行图像预处理,得到政策信息图像时,包括:
获取所述政策信息区中各个像素点的灰度值;
根据各个像素点的灰度值确定所述文字区域及所述非文字区域目标亮度等级;
根据所述目标亮度等级对所述文字区域及所述非文字区域进行色彩增强处理,得到所述政策信息图像。
在一些实施方式中,所述政策信息包括第一语言信息及第二语言信息,文本提取模块202在提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本时,包括:
将所述政策信息图像输入至第一文字识别模型,得到所述第一语言信息所对应的第一政策信息文本及所述第一政策信息文本在所述政策信息图像内的第一文本位置;
将所述政策信息图像输入至第二文字识别模型,得到所述第二语言信息所对应的第二政策信息文本及所述第二政策信息文本在所述政策信息图像内的第二文本位置;
根据所述第一文本位置及所述第二文本位置对所述第一政策信息文本及所述第二政策信息文本进行排序,得到目标政策信息文本。
在一些实施方式中,关键词模块205在对每个所述政策文号的前文进行关键词提取得到第一关键词时,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的前文中第一预设数量的第一字符信息;
将所述第一字符信息与预设的第一词库对比,得到与所述第一词库中词语匹配的第一关键词。
在一些实施方式中,关键词模块205在对每个所述政策文号的后文进行关键词提取得到第二关键词时,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的后文中第二预设数量的第二字符信息;
将所述第二字符信息与预设的第二词库对比,得到与所述第二词库中词语匹配的第二关键词。
请参阅图5,图5为本申请实施例提供的电子设备的结构示意性框图。
如图5所示,电子设备300包括处理器301和存储器302,处理器301和存储器302通过总线303连接,该总线比如为I2C(Inter-integrated Circuit)总线。
具体地,处理器301用于提供计算和控制能力,支撑整个电子设备的运行。处理器301可以是中央处理单元(Central Processing Unit,CPU),该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
具体地,存储器302可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请实施例方案相关的部分结构的框图,并不构成对本申请实施例方案所应用于其上的电子设备的限定,具体地电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器301用于运行存储在存储器中的计算机程序,并在执行计算机程序时实现本申请实施例提供的任意一种政策文号提取方法。
在一些实施方式中,处理器301用于运行存储在存储器中的计算机程序,并在执行计算机程序时实现如下步骤:
接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;
提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;
根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;
获取每个所述政策文号在所述标政策信息文本中的文本位置;
对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;
基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;
选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。
在一些实施方式中,所述目标政策文件设置有区域标签,处理器301在识别所述目标政策文件中的政策信息区,得到政策信息图像时,包括:
获取所述目标政策文件的政策文件图像;
根据所述区域标签识别所述政策文件图像中的政策信息区,并从所述政策文件图像中分割出所述政策信息区;
对所述政策信息区进行图像预处理,得到政策信息图像。
在一些实施方式中,所述政策信息区包括有文字区域及非文字区域,处理器301在对所述政策信息区进行图像预处理,得到政策信息图像时,包括:
获取所述政策信息区中各个像素点的灰度值;
根据各个像素点的灰度值确定所述文字区域及所述非文字区域目标亮度等级;
根据所述目标亮度等级对所述文字区域及所述非文字区域进行色彩增强处理,得到所述政策信息图像。
在一些实施方式中,所述政策信息包括第一语言信息及第二语言信息,处理器301在提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本时,包括:
将所述政策信息图像输入至第一文字识别模型,得到所述第一语言信息所对应的第一政策信息文本及所述第一政策信息文本在所述政策信息图像内的第一文本位置;
将所述政策信息图像输入至第二文字识别模型,得到所述第二语言信息所对应的第二政策信息文本及所述第二政策信息文本在所述政策信息图像内的第二文本位置;
根据所述第一文本位置及所述第二文本位置对所述第一政策信息文本及所述第二政策信息文本进行排序,得到目标政策信息文本。
在一些实施方式中,处理器301在对每个所述政策文号的前文进行关键词提取得到第一关键词时,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的前文中第一预设数量的第一字符信息;
将所述第一字符信息与预设的第一词库对比,得到与所述第一词库中词语匹配的第一关键词。
在一些实施方式中,处理器301在对每个所述政策文号的后文进行关键词提取得到第二关键词时,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的后文中第二预设数量的第二字符信息;
将所述第二字符信息与预设的第二词库对比,得到与所述第二词库中词语匹配的第二关键词。
在一些实施方式中,处理器301还用于:
将所述目标政策文件及所述目标政策文号发送给用户终端;
接收所述用户终端的响应信息,并根据所述响应信息将所述目标政策文件以所述目标政策文号为归档编号进行归档存储。
在一些实施方式中,所述响应信息为用户确认所述目标政策文件及所述目标政策文号相匹配后触发所述用户终端发送的信息。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述政策文号提取方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如本申请说明书实施例提供的任一项政策文号提取方法的步骤。
其中,存储介质可以是前述实施例的电子设备的内部存储单元,例如电子设备的硬盘或内存。存储介质也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上,仅为本申请的具体实施例,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种政策文号提取方法,应用于电子设备,其特征在于,包括:
接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;
提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;
根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;
获取每个所述政策文号在所述目标政策信息文本中的文本位置;
对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;
基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;
选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。
2.如权利要求1所述的方法,其特征在于,所述目标政策文件设置有区域标签,所述识别所述目标政策文件中的政策信息区,得到政策信息图像,包括:
获取所述目标政策文件的政策文件图像;
根据所述区域标签识别所述政策文件图像中的政策信息区,并从所述政策文件图像中分割出所述政策信息区;
对所述政策信息区进行图像预处理,得到政策信息图像。
3.如权利要求2所述的方法,其特征在于,所述政策信息区包括有文字区域及非文字区域,所述对所述政策信息区进行图像预处理,获取政策信息图像,包括:
获取所述政策信息区中各个像素点的灰度值;
根据各个像素点的灰度值确定所述文字区域及所述非文字区域目标亮度等级;
根据所述目标亮度等级对所述文字区域及所述非文字区域进行色彩增强处理,得到所述政策信息图像。
4.如权利要求1所述的方法,其特征在于,所述政策信息包括第一语言信息及第二语言信息,所述提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本,包括:
将所述政策信息图像输入至第一文字识别模型,得到所述第一语言信息所对应的第一政策信息文本及所述第一政策信息文本在所述政策信息图像内的第一文本位置;
将所述政策信息图像输入至第二文字识别模型,得到所述第二语言信息所对应的第二政策信息文本及所述第二政策信息文本在所述政策信息图像内的第二文本位置;
根据所述第一文本位置及所述第二文本位置对所述第一政策信息文本及所述第二政策信息文本进行排序,得到目标政策信息文本。
5.如权利要求1所述的方法,其特征在于,所述对每个所述政策文号的前文进行关键词提取得到第一关键词,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的前文中第一预设数量的第一字符信息;
将所述第一字符信息与预设的第一词库对比,得到与所述第一词库中词语匹配的第一关键词。
6.如权利要求5所述的方法,其特征在于,所述对每个所述政策文号的后文进行关键词提取得到第二关键词,包括:
确认每个所述政策文号在所述政策信息图像中的行坐标;
根据所述行坐标获取每个所述政策文号的后文中第二预设数量的第二字符信息;
将所述第二字符信息与预设的第二词库对比,得到与所述第二词库中词语匹配的第二关键词。
7.如权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
将所述目标政策文件及所述目标政策文号发送给用户终端;
接收所述用户终端的响应信息,并根据所述响应信息将所述目标政策文件以所述目标政策文号为归档编号进行归档存储。
8.一种政策文号提取装置,其特征在于,包括:
图像采集模块,用于接收到政策文号提取指令,根据所述政策文号提取指令获取待进行政策文号提取的目标政策文件,并识别所述目标政策文件中的政策信息区,得到政策信息图像;
文本提取模块,用于提取所述政策信息图像内的政策信息,得到对应的目标政策信息文本;
文号提取模块,用于根据预设的文号提取模型对所述目标政策信息文本进行政策文号信息提取,得到至少两个不同的政策文号;
位置获取模块,用于获取每个所述政策文号在所述目标政策信息文本中的文本位置;
关键词模块,用于对每个所述政策文号的前文进行关键词提取得到第一关键词,并对每个所述政策文号的后文进行关键词提取得到第二关键词;
文号筛选模块,用于基于各个所述第一关键词的第一加权系数、各个所述第二关键词的第二加权系数、及各个所述文本位置的第三加权系数对各个所述政策文号进行加权求和,获得每个所述政策文号的关键程度;
目标文号模块,用于选择所述关键程度最高的所述政策文号为所述目标政策文件的目标政策文号。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的政策文号提取的步骤。
10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的政策文号提取的步骤。
CN202210143541.4A 2022-02-16 2022-02-16 政策文号提取方法、装置、设备以及存储介质 Active CN114495145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210143541.4A CN114495145B (zh) 2022-02-16 2022-02-16 政策文号提取方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210143541.4A CN114495145B (zh) 2022-02-16 2022-02-16 政策文号提取方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114495145A CN114495145A (zh) 2022-05-13
CN114495145B true CN114495145B (zh) 2024-05-28

Family

ID=81481435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210143541.4A Active CN114495145B (zh) 2022-02-16 2022-02-16 政策文号提取方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114495145B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130103249A (ko) * 2012-03-09 2013-09-23 가톨릭대학교 산학협력단 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN109635082A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 政策影响分析方法、装置、计算机设备和存储介质
CN110457696A (zh) * 2019-07-31 2019-11-15 福州数据技术研究院有限公司 一种面向档案数据的人才与政策智能匹配***和方法
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110866116A (zh) * 2019-10-25 2020-03-06 远光软件股份有限公司 政策文档的处理方法、装置、存储介质及电子设备
CN110968757A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策文件处理方法及装置
CN111782772A (zh) * 2020-07-24 2020-10-16 平安银行股份有限公司 基于ocr技术的文本自动生成方法、装置、设备及介质
CN113033333A (zh) * 2021-03-05 2021-06-25 北京百度网讯科技有限公司 实体词识别方法、装置、电子设备和存储介质
CN113822067A (zh) * 2021-08-17 2021-12-21 深圳市东信时代信息技术有限公司 关键信息提取方法、装置、计算机设备及存储介质
CN113870083A (zh) * 2021-09-27 2021-12-31 中关村意谷(北京)科技服务有限公司 政策匹配的方法、装置、***、电子设备及可读存储介质
CN113961666A (zh) * 2021-09-18 2022-01-21 腾讯科技(深圳)有限公司 关键词识别方法、装置、设备、介质及计算机程序产品

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130103249A (ko) * 2012-03-09 2013-09-23 가톨릭대학교 산학협력단 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN110968757A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策文件处理方法及装置
CN109635082A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 政策影响分析方法、装置、计算机设备和存储介质
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110457696A (zh) * 2019-07-31 2019-11-15 福州数据技术研究院有限公司 一种面向档案数据的人才与政策智能匹配***和方法
CN110866116A (zh) * 2019-10-25 2020-03-06 远光软件股份有限公司 政策文档的处理方法、装置、存储介质及电子设备
CN111782772A (zh) * 2020-07-24 2020-10-16 平安银行股份有限公司 基于ocr技术的文本自动生成方法、装置、设备及介质
CN113033333A (zh) * 2021-03-05 2021-06-25 北京百度网讯科技有限公司 实体词识别方法、装置、电子设备和存储介质
CN113822067A (zh) * 2021-08-17 2021-12-21 深圳市东信时代信息技术有限公司 关键信息提取方法、装置、计算机设备及存储介质
CN113961666A (zh) * 2021-09-18 2022-01-21 腾讯科技(深圳)有限公司 关键词识别方法、装置、设备、介质及计算机程序产品
CN113870083A (zh) * 2021-09-27 2021-12-31 中关村意谷(北京)科技服务有限公司 政策匹配的方法、装置、***、电子设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中国企业技术创新政策演变过程――基于扎根理论与加权共词分析法;马玉新;吴爱萍;李华;王方;;科学学与科学技术管理;20180910(09);61-72 *
和志强 ; 王丽鹏 ; 张鹏云 ; .基于词共现的关键词提取算法研究与改进.电子技术与软件工程.2018,(01),144-146. *
基于段落信息增益的政策文本主题识别研究;赵一方;裴雷;康乐乐;;数字图书馆论坛;20181125(11);2-10 *

Also Published As

Publication number Publication date
CN114495145A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN110135411B (zh) 名片识别方法和装置
US10366123B1 (en) Template-free extraction of data from documents
CN110442744B (zh) 提取图像中目标信息的方法、装置、电子设备及可读介质
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
EP3712812A1 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
RU2760471C1 (ru) Способы и системы идентификации полей в документе
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
US10489645B2 (en) System and method for automatic detection and verification of optical character recognition data
US9286526B1 (en) Cohort-based learning from user edits
CN110956739A (zh) 一种票据识别方法及装置
JP2008276766A (ja) フォーム自動埋込方法及び装置
CN110705952A (zh) 一种合同审核方法及装置
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN111612081B (zh) 识别模型的训练方法、装置、设备及存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN111046879A (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
RU2656573C2 (ru) Методы обнаружения введенных пользователем контрольных меток
CN112464927A (zh) 一种信息提取方法、装置及***
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN114495145B (zh) 政策文号提取方法、装置、设备以及存储介质
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
CN114637877A (zh) 标注方法、电子设备及存储介质
US11335108B2 (en) System and method to recognise characters from an image
CN114299509A (zh) 一种获取信息的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant