CN114254620A - 政策解析方法、装置和存储介质 - Google Patents
政策解析方法、装置和存储介质 Download PDFInfo
- Publication number
- CN114254620A CN114254620A CN202111590513.9A CN202111590513A CN114254620A CN 114254620 A CN114254620 A CN 114254620A CN 202111590513 A CN202111590513 A CN 202111590513A CN 114254620 A CN114254620 A CN 114254620A
- Authority
- CN
- China
- Prior art keywords
- policy
- declaration
- factors
- label
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种政策解析方法、装置和存储介质,涉及信息处理技术领域,所述方法包括:获取政策文本信息;解析所述政策文本信息中的政策因素,所述政策因素包括:申报项、申报条件、所需材料、受理流程和申报奖励中的至少一项;展示解析到的所述政策因素。解决了现有技术中解析成本较高且很难处理大数据的问题,达到了可以提高解析效率并可以处理大量政策信息的效果。
Description
技术领域
本发明涉及一种政策解析方法、装置和存储介质,属于信息处理技术领域。
背景技术
申报类政策可以用于发展企业、吸引人才、升级产业,对推动区域经济发展具有重要价值。现阶段,由于政府单位和企业信息不对称,政府单位发布的涉及多种级别的申报项往往在信息传播的过程中逐渐衰减,仅保留价值最高的部分,而企业或者个人很难在诸多优惠政策中寻找适合自身发展的政策。
为了辅助企业或者个人快速寻找适合自身的申报项,现有方案采用人工标注的方式对政策文本内容进行解析,显而易见的采用人工标注的方式对政策文本内容进行解析的方法费时费力,人工成本较高,并且很难处理大量数据。
发明内容
本发明的目的在于提供一种政策解析方法、装置和存储介质,用于解决现有技术中存在的问题。
为达到上述目的,本发明提供如下技术方案:
根据第一方面,本发明实施例提供了一种政策解析方法,所述方法包括:
获取政策文本信息;
解析所述政策文本信息中的政策因素,所述政策因素包括:申报项、申报条件、所需材料、受理流程和申报奖励中的至少一项;
展示解析到的所述政策因素。
可选的,所述解析所述政策文本信息中的政策因素,包括:
通过第一预设规则模板对所述政策文本信息进行匹配,得到第一匹配结果;
通过实体识别模型识别所述政策文本信息中的政策要素,得到第一识别结果;
根据所述第一匹配结果和所述第一识别结果,确定所述政策文本信息中的所述政策要素。
可选的,所述通过实体识别模型识别所述政策文本信息中的政策要素,得到第一识别结果,包括:
对所述政策文本信息进行分句;
将分句后的所述政策文本信息输入至训练后的bert模型,得到序列特征;
将所述序列特征输入至入bilstm,获取转换后的序列输出;
将转换后的序列输出输入至crf进行分类预测,预测得到所述第一识别结果。
可选的,所述根据所述第一匹配结果和所述第一识别结果,确定所述政策文本信息中的所述政策要素,包括:
根据所述第一匹配结果、所述第一识别结果以及预设合并规则,确定所述政策文本信息中的所述政策要素,所述预设合并规则包括优先匹配结果、优先识别结果或者取交集。
可选的,所述政策因素中包括申报条件,所述方法还包括:
识别所述政策因素中的所述申报条件的标签内容;
所述展示解析到的所述政策因素,包括:
展示所述政策因素以及识别得到的所述标签内容。
可选的,所述识别所述政策因素中的所述申报条件的标签内容,包括:
通过第二预设规则模板对所述申报条件进行匹配,得到第二匹配结果;
通过标签识别模型识别所述申报条件,得到第二识别结果;
根据所述第二匹配结果和所述第二识别结果,确定所述申报条件中的标签内容。
可选的,所述通过第二预设规则模板对所述申报条件进行匹配,得到第二匹配结果,包括:
通过所述第二预设规则模板对所述申报条件进行解析,根据触发关键词规则确定申报条件中包含的标签类别;
根据对应标签类别下设置的正则表达式获取标签值以及关系关键词键值对关系类型。
可选的,所述通过标签识别模型识别所述申报条件,得到第二识别结果,包括:
对所述申报条件进行分句;
通过pipeline模型获取分句后的所述申报条件中包含的标签类别;
根据获取到的标签类别和所述申报条件提取标签值和关系类型。
第二方面,提供了一种政策解析装置,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如第一方面所述的方法。
第三方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如第一方面所述的方法。
解析所述政策文本信息中的政策因素,所述政策因素包括:申报项、申报条件、所需材料、受理流程和申报奖励中的至少一项;展示解析到的所述政策因素。解决了现有技术中解析成本较高且很难处理大数据的问题,达到了可以提高解析效率并可以处理大量政策信息的效果。
同时,本申请结合规则匹配和模型识别提高了政策要素识别的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明一个实施例提供的政策解析方法的方法流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
请参考图1,其示出了本申请一个实施例提供的政策解析方法的方法流程图,如图1所示,所述方法包括:
步骤101,获取政策文本信息;
步骤102,解析所述政策文本信息中的政策因素,所述政策因素包括:申报项、申报条件、所需材料、受理流程和申报奖励中的至少一项;
实际实现时,本步骤可以包括:
第一,通过第一预设规则模板对所述政策文本信息进行匹配,得到第一匹配结果;
通常情况下,很多政策文本都有明确的行文规范,因此,在一种可能的实现方式中,可以通过第一预设规则模板对政策文本信息进行匹配,获取对应标题下的文本内容,解析信息并按照标题文本拆解得到每项政策因素。
第二,通过实体识别模型识别所述政策文本信息中的政策要素,得到第一识别结果;
实体识别指对查询词中的具有特定意义的语义实体进行识别。实际实现时,本班组包括:
(1)、对所述政策文本信息进行分句;
(2)、将分句后的所述政策文本信息输入至训练后的bert模型,得到序列特征;
(3)、将所述序列特征输入至入bilstm,获取转换后的序列输出;
(4)、将转换后的序列输出输入至crf进行分类预测,预测得到所述第一识别结果。
需要说明的是,实体识别模型为预先训练得到的模型,训练步骤可以包括:
获取训练数据,训练数据中包括政策文本;对政策文本进行标注,得到政策要素对应的文本位置信息;使用政策要素标注数据训练实体识别模型。
第三,根据所述第一匹配结果和所述第一识别结果,确定所述政策文本信息中的所述政策要素。
具体的,根据所述第一匹配结果、所述第一识别结果以及预设合并规则,确定所述政策文本信息中的所述政策要素,所述预设合并规则包括优先匹配结果、优先识别结果或者取交集。
在一种可能的实现方式中,以预设合并规则为取交集来举例说明,则可以获取第一匹配结果和第一识别结果的交集,将获取到的交集确定为最终解析得到的政策因素。
实际实现时,可以根据查准率和查全率的需求设置对应的合并规则,对此并不做限定。
需要补充说明的是,上述仅以根据第一匹配结果和第一识别结果来确定最终的政策要素来举例说明,实际实现时,可以先通过实体识别模型识别得到第一识别结果,之后通过规则匹配的方式得到第一匹配结果,通过第一匹配结果来优化第一识别结果,进而确定得到最终的政策要素,本实施例对其具体实现并不做限定。
步骤103,展示解析到的所述政策因素。
在解析得到政策因素之后,即可展示解析得到的政策因素。
综上所述,通过获取政策文本信息;解析所述政策文本信息中的政策因素,所述政策因素包括:申报项、申报条件、所需材料、受理流程和申报奖励中的至少一项;展示解析到的所述政策因素。解决了现有技术中解析成本较高且很难处理大数据的问题,达到了可以提高解析效率并可以处理大量政策信息的效果。
同时,本申请结合规则匹配和模型识别提高了政策要素识别的准确度。
在上述实施例的一种可能的实施方式中,若提取得到的政策因素中包括申报条件,则上述方法还可以包括如下步骤:
识别所述政策因素中的所述申报条件的标签内容;相应的,步骤103可以包括:展示所述政策因素以及识别得到的所述标签内容。标签内容包括:标签类别、标签值、关系类型中的至少一种。关系类型包括等于、不等于、大于、小于、大于等于、小于等于等等,在此不做限定。
其中,识别标签内容的步骤包括:
第一,通过第二预设规则模板对所述申报条件进行匹配,得到第二匹配结果;
(1)、通过所述第二预设规则模板对所述申报条件进行解析,根据触发关键词规则确定申报条件中包含的标签类别;
(2)、根据对应标签类别下设置的正则表达式获取标签值以及关系关键词键值对关系类型。
实际实现时,若无法获取到标签值或者关系类型,则可以舍弃确定得到的标签类别。
第二,通过标签识别模型识别所述申报条件,得到第二识别结果;
(1)、对所述申报条件进行分句;
(2)、通过pipeline模型获取分句后的所述申报条件中包含的标签类别;
pipeline模型过程如下:
1.分句后文本传入预训练bert模型,获取序列特征表示。
2.将特征表示传入多标签分类模型,获取多个候选标签类别。
3.将原文和标签类别使用[sep]拼接后传入预训练bert模型,获取新的特征表示。
4.将新的特征表示传入联合实体关系提取模型,其中,序列对应特征用于实体提取部分网络,获取标签值实体,[cls]和[sep]特征用于分类部分网络,预测关系类型,同时获取标签值实体和关系。
5.如果没有标签值或关系类型结果,舍弃此标签类别,最终获取到标签类别、标签值、关系类型的三元数据。
(3)、根据获取到的标签类别和所述申报条件提取标签值和关系类型。
标签识别模型为预先训练得到的模型,具体训练步骤包括:
获取训练数据,对申报条件文本中选取多个候选标签类别,分别标注每个标签类别对应的标签值对应的位置并选择关系类型,使用申报条件的标签标注数据训练标签识别模型。
第三,根据所述第二匹配结果和所述第二识别结果,确定所述申报条件中的标签内容。
本步骤与上述实施例中确定政策因素的确定方式类似,在此不做限定。
实际实现时,通过识别标签内容,使得后续可以根据标签内容向企业或者个人推送符合条件的政策,提高了企业或者个人获取政策信息的效率。同时,企业或者个人通过关键词查询时,也可以基于标签内容进行精确匹配。
需要补充说明的是,上述仅以根据第二匹配结果和第二识别结果来确定最终的标签内容来举例说明,实际实现时,可以先通过标签识别模型识别得到第二识别结果,之后通过规则匹配的方式得到第二匹配结果,通过第二匹配结果来优化第二识别结果,进而确定得到最终的标签内容,本实施例对其具体实现并不做限定。
本申请通过结合规则模板和模型识别来识别申报条件,达到了可以将申报条件拆解的更为细致,进一步明确申报条件各项指标的效果。
本申请还提供了一种政策解析装置,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如上所述的方法。
本申请还提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如上所述的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种政策解析方法,其特征在于,所述方法包括:
获取政策文本信息;
解析所述政策文本信息中的政策因素,所述政策因素包括:申报项、申报条件、所需材料、受理流程和申报奖励中的至少一项;
展示解析到的所述政策因素。
2.根据权利要求1所述的方法,其特征在于,所述解析所述政策文本信息中的政策因素,包括:
通过第一预设规则模板对所述政策文本信息进行匹配,得到第一匹配结果;
通过实体识别模型识别所述政策文本信息中的政策要素,得到第一识别结果;
根据所述第一匹配结果和所述第一识别结果,确定所述政策文本信息中的所述政策要素。
3.根据权利要求2所述的方法,其特征在于,所述通过实体识别模型识别所述政策文本信息中的政策要素,得到第一识别结果,包括:
对所述政策文本信息进行分句;
将分句后的所述政策文本信息输入至训练后的bert模型,得到序列特征;
将所述序列特征输入至入bilstm,获取转换后的序列输出;
将转换后的序列输出输入至crf进行分类预测,预测得到所述第一识别结果。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一匹配结果和所述第一识别结果,确定所述政策文本信息中的所述政策要素,包括:
根据所述第一匹配结果、所述第一识别结果以及预设合并规则,确定所述政策文本信息中的所述政策要素,所述预设合并规则包括优先匹配结果、优先识别结果或者取交集。
5.根据权利要求1至4任一所述的方法,其特征在于,所述政策因素中包括申报条件,所述方法还包括:
识别所述政策因素中的所述申报条件的标签内容;
所述展示解析到的所述政策因素,包括:
展示所述政策因素以及识别得到的所述标签内容。
6.根据权利要求5所述的方法,其特征在于,所述识别所述政策因素中的所述申报条件的标签内容,包括:
通过第二预设规则模板对所述申报条件进行匹配,得到第二匹配结果;
通过标签识别模型识别所述申报条件,得到第二识别结果;
根据所述第二匹配结果和所述第二识别结果,确定所述申报条件中的标签内容。
7.根据权利要求6所述的方法,其特征在于,所述通过第二预设规则模板对所述申报条件进行匹配,得到第二匹配结果,包括:
通过所述第二预设规则模板对所述申报条件进行解析,根据触发关键词规则确定申报条件中包含的标签类别;
根据对应标签类别下设置的正则表达式获取标签值以及关系关键词键值对关系类型。
8.根据权利要求6所述的方法,其特征在于,所述通过标签识别模型识别所述申报条件,得到第二识别结果,包括:
对所述申报条件进行分句;
通过pipeline模型获取分句后的所述申报条件中包含的标签类别;
根据获取到的标签类别和所述申报条件提取标签值和关系类型。
9.一种政策解析装置,其特征在于,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如权利要求1至8任一所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如权利要求1至8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111590513.9A CN114254620A (zh) | 2021-12-23 | 2021-12-23 | 政策解析方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111590513.9A CN114254620A (zh) | 2021-12-23 | 2021-12-23 | 政策解析方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254620A true CN114254620A (zh) | 2022-03-29 |
Family
ID=80797200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111590513.9A Pending CN114254620A (zh) | 2021-12-23 | 2021-12-23 | 政策解析方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254620A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
-
2021
- 2021-12-23 CN CN202111590513.9A patent/CN114254620A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
CN115470871B (zh) * | 2022-11-02 | 2023-02-17 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9875319B2 (en) | Automated data parsing | |
CN110543592B (zh) | 信息搜索方法、装置以及计算机设备 | |
CN111144723A (zh) | 人岗匹配推荐方法及***、存储介质 | |
CN111125343A (zh) | 适用于人岗匹配推荐***的文本解析方法及装置 | |
CN110096581B (zh) | 一种基于用户行为构建问答体系推荐问的***及方法 | |
CN111105209A (zh) | 适用于人岗匹配推荐***的职位简历匹配方法及装置 | |
CN113157899B (zh) | 一种大数据画像分析方法、服务器及可读存储介质 | |
CN116244410B (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及*** | |
KR20200127557A (ko) | 뉴스 기사의 감성 정보 레이블링 프로그램이 기록된 기록매체 | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
CN113157871B (zh) | 应用人工智能的新闻舆情文本处理方法、服务器及介质 | |
CN114254620A (zh) | 政策解析方法、装置和存储介质 | |
KR20200127587A (ko) | 뉴스 기사의 감성 정보 레이블링 프로그램 | |
KR20200127553A (ko) | 뉴스 기사의 감성 정보 레이블링 방법 | |
CN117009518A (zh) | 融合基本属性和文本内容的相似事件判断方法及其应用 | |
CN114462383B (zh) | 建筑图纸设计说明书获取方法、***、存储介质及设备 | |
KR20200127555A (ko) | 뉴스 기사의 감성 정보 레이블링 프로그램 | |
KR20200127636A (ko) | 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 장치의 동작 프로그램이 기록된 기록매체 | |
Naik et al. | An adaptable scheme to enhance the sentiment classification of Telugu language | |
KR102228585B1 (ko) | 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법 | |
CN113204697A (zh) | 一种搜索方法、装置、电子设备及存储介质 | |
CN111881294A (zh) | 一种语料标注***、方法及存储介质 | |
CN112182020A (zh) | 金融行为识别与分类的方法、装置及计算机可读存储介质 | |
CN112182218A (zh) | 文本数据的分类方法及装置 | |
KR20200127654A (ko) | 감성 정보 레이블링 장치의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |