CN115827877A

CN115827877A - 一种提案辅助并案的方法、装置、计算机设备和存储介质

Info

Publication number: CN115827877A
Application number: CN202310071201.XA
Authority: CN
Inventors: 刘跃华; 王新
Original assignee: Hunan Zhengyu Software Technology Development Co ltd
Current assignee: Hunan Zhengyu Software Technology Development Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-03-21
Anticipated expiration: 2043-02-07
Also published as: CN115827877B

Abstract

本申请属于计算机技术领域，涉及一种提案辅助并案的方法、装置、计算机设备和存储介质。方法包括：获取历史提案并分类，得到多个提案类；对每个提案类建立知识图谱并分词，得到多个本体词条和本体词条库；获取多个待并案提案并分词，得到多个实体词条；根据知识图谱匹配实体词条，得到相关知识图谱，并得到相关的多个本体词条；计算每个实体词条在对应待并案提案中的分布概率，计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，并建立正则化项；根据正则化项，计算每个待并案提案归属每个提案类的概率，得到待并案提案的提案类，并做并案处理。本方法能够有效实现提案并案。

Description

一种提案辅助并案的方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种提案辅助并案的方法、装置、计算机设备和存储介质。

背景技术

提案是代表和委员参加各级会议提出的、经提案审查委员会或者提案委员会审查立案后，交承办单位办理的书面意见和建议。

现有技术中，传统的提案并案方式均是由人工处理，通过人工选择出相似提案，分析其内容涉及到的问题（主题）、地区，判断它们是否属于同一主题的提案，从而考虑是否并案。

但是，这样做不仅费时费力，效率低下，而且误判率高。

发明内容

基于此，有必要针对上述技术问题，提供一种提案辅助并案的方法、装置、计算机设备和存储介质，能够有效实现提案并案。

一种提案辅助并案的方法，包括：

获取历史提案并进行分类，得到多个提案类；对每个提案类建立知识图谱，并对每个知识图谱进行分词，得到多个本体词条，并得到对应每个提案类的本体词条库；

获取多个待并案提案，对每个待并案提案进行分词，得到对应每个待并案提案的多个实体词条；

根据所有知识图谱匹配实体词条，得到每个实体词条的相关知识图谱；根据所述相关知识图谱，得到与每个实体词条相关的多个本体词条；

计算每个实体词条在对应待并案提案中的分布概率，得到第一概率；计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，得到第二概率；根据所述第一概率和所述第二概率，建立正则化项；

根据所述正则化项，计算每个待并案提案归属每个提案类的概率，以概率的最大值所在的提案类作为对应待并案提案的提案类；根据所有待并案提案的提案类做并案处理。

在一个实施例中，计算每个实体词条在对应待并案提案中的分布概率，得到第一概率，包括：

;

式中，

为每个实体词条在对应待并案提案中的分布概率，A为待并案提案中的实体词条的集合，

为A中第

个实体词条，

为A中第

个实体词条在待并案提案中的出现次数，

为第一超参数，

为A中除

以外的每个实体词条在待并案提案中的出现次数与第一超参数之和的求和，

为A中第

个实体词条在待并案提案中的出现次数，

是除

以外的任一个实体词条。

在一个实施例中，计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，得到第二概率，包括：

;

式中，

为与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，B为本体词条库，

为B中第

个本体词条，

为B中第

个本体词条在对应的本体词条库中的出现次数，

为第二超参数，

为B中除

以外的每个本体词条在对应的本体词条库中的出现次数与第二超参数之和的求和，

为B中第

个本体词条在对应的本体词条库中的出现次数，

是除

以外的任一个本体词条。

在一个实施例中，根据所述第一概率和所述第二概率，建立正则化项，包括：

；

;

式中，

为待并案提案与提案类的正则化项，

为调整因子，

为

与

的关联度，

表示最大第一概率与最大第二概率的乘积，

表示最小第一概率与最小第二概率的乘积，

表示实体词条的集合A与本体词条库B中相同词条的个数，

为A中实体词条的总个数，

为B中本体词条的总个数。

在一个实施例中，根据所述正则化项，计算每个待并案提案归属每个提案类的概率，包括：

;

式中，

为每个待并案提案归属第

个提案类的概率，

为提案类的总数，

为每个待并案提案与第n个提案类的正则化项，

为第

个提案类。

在一个实施例中，根据所有知识图谱匹配实体词条，得到每个实体词条的相关知识图谱，包括：

根据所有知识图谱建立训练机；

将每个实体词条依次输入所述训练机，匹配出包含所述实体词条的所有知识图谱，得到相关知识图谱。

在一个实施例中，获取多个待并案提案，对每个待并案提案进行分词，得到对应每个待并案提案的多个实体词条，包括：

获取多个待并案提案，采用Python语言的结巴分词库对每个待并案提案进行分词，得到每个待并案提案的分词表；

删除分词表中的停用词和静止词，得到对应每个待并案提案的多个实体词条。

一种提案辅助并案的装置，包括：

分类模块，用于获取历史提案并进行分类，得到多个提案类；对每个提案类建立知识图谱，并对每个知识图谱进行分词，得到多个本体词条，并得到对应每个提案类的本体词条库；

分词模块，用于获取多个待并案提案，对每个待并案提案进行分词，得到对应每个待并案提案的多个实体词条；

匹配模块，用于根据所有知识图谱匹配实体词条，得到每个实体词条的相关知识图谱；根据所述相关知识图谱，得到与每个实体词条相关的多个本体词条；

计算模块，用于计算每个实体词条在对应待并案提案中的分布概率，得到第一概率；计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，得到第二概率；根据所述第一概率和所述第二概率，建立正则化项；

并案模块，用于根据所述正则化项，计算每个待并案提案归属每个提案类的概率，以概率的最大值所在的提案类作为对应待并案提案的提案类；根据所有待并案提案的提案类做并案处理。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述提案辅助并案的方法、装置、计算机设备和存储介质，分别提取历史提案的本体词条和待并案提案的实体词条，然后根据知识图谱匹配本体词条和实体词条，并引入正则化项，计算每个待并案提案归属每个提案类的概率，以概率的最大值所在的提案类作为对应待并案提案的提案类，从而对所有待并案提案做并案处理。相较固定比例算法，本申请能够更好地确认提案文档之间语义信息的相关性，本体词条包含提案类的类别属性特征，实体词条包含提案的语义信息，引入的正则化项体现了本体词条和实体词条的相关性，能够提升文档与词条之间的概率分布精度，根据已知的待并案提案的实体词条，推算出提案文本的本体词条（即提案的特征属性），从而有效实现智能的提案并案，提高了提案办理人员的效率和准确度。

附图说明

图1为一个实施例中一种提案辅助并案的方法的应用场景图；

图2为一个实施例中一种提案辅助并案的方法的流程示意图；

图3为一个实施例中一种提案辅助并案的方法的框架示意图；

图4为一个实施例中文件建设类知识图谱；

图5为一个实施例中一种提案辅助并案的装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，本申请实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多组”的含义是至少两组，例如两组，三组等，除非另有明确具体的限定。

在本申请中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请提供的方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信，终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以是各类门户网站、工作***后台对应的服务器等。

本申请提供了一种提案辅助并案的方法，如图2所示，在一个实施例中，以该方法应用于图1中的终端为例进行说明，包括：

步骤202，获取历史提案并进行分类，得到多个提案类；对每个提案类建立知识图谱，并对每个知识图谱进行分词，得到多个本体词条，并得到对应每个提案类的本体词条库。

具体的：

获取历史提案，对所有历史提案进行分类，得到多个提案类，每个提案类均包括若干历史提案；在CN-DBpedia平台，对每个提案类建立对应的知识图谱；对每个知识图谱进行分词，得到对应每个知识图谱的多个本体词条，并得到对应每个提案类的本体词条库，最后得到对应所有提案类的多个本体词条库。

步骤204，获取多个待并案提案，对每个待并案提案进行分词，得到对应每个待并案提案的多个实体词条。

具体地：

获取多个待并案提案，采用Python语言的结巴分词库对每个待并案提案进行分词，得到每个待并案提案的分词表；删除分词表中的停用词和静止词，得到对应每个待并案提案的多个实体词条。

步骤206，根据所有知识图谱匹配实体词条，得到每个实体词条的相关知识图谱；根据相关知识图谱，得到与每个实体词条相关的多个本体词条。

具体地：

根据所有知识图谱建立训练机，训练机（现有技术）预置开源CN-DBpedia知识图谱；将每个实体词条依次输入训练机，匹配出包含对应实体词条的所有知识图谱，得到相关知识图谱，即以与一个实体词条相对应的所有知识图谱为相关知识图谱。

根据实体词条对应的相关知识图谱，输出相关知识图谱中该实体词条的所有相邻词条（以相关知识图谱中与该实体词条有映射关系的词条为相邻词条），即得到与该实体词条相关的多个本体词条，以相关的所有本体词条构成该实体词条的本体词条库。

步骤208，计算每个实体词条在对应待并案提案中的分布概率，得到第一概率；计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，得到第二概率；根据第一概率和第二概率，建立正则化项。

具体地：

计算每个实体词条在对应待并案提案中的分布概率，得到第一概率，包括：

;

式中，

为每个实体词条在对应待并案提案中的分布概率，即

在A中的分布概率，以

作为第一概率，A为待并案提案中的实体词条的集合，

为A中第

个实体词条，

为A中第

个实体词条在待并案提案中的出现次数，

为第一超参数，是一个k维向量，k代表待并案提案中实体词条的总数，

为A中除

为A中第

个实体词条在待并案提案中的出现次数，

是除

以外的任一个实体词条。

计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，得到第二概率，包括：

;

式中，

为与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，即

在B中的分布概率，以

作为第二概率，B为本体词条库，

为B中第

个本体词条，

为B中第

个本体词条在对应的本体词条库中的出现次数，

为第二超参数，是一个m维向量，m代表与实体词条相关的本体词条的总数，

为B中除

为B中第

个本体词条在对应的本体词条库中的出现次数，

是除

以外的任一个本体词条。

本体词条为词条特征属性，独立于选取的实体词集合或拟判定文档（也就是待并案提案），筛选出来的词条特征可以用于处理各种匹配的实体词条。

提案文档往往包含了许多潜藏的语义信息，笼统地使用开源知识图谱只能寻找到与文本信息接近的本体词条，无法提取词条之间的潜在联系，因此，在对提案文档进行主题建模时，加入一个体现本体词条和实体词条之间相关性的正则化项，通过离散正则化来优化主题建模的平滑度，具体地，根据第一概率和第二概率，建立正则化项，包括：

;

;

式中，

为待并案提案与提案类的正则化项，

为调整因子，0<

<1，步长为0.01，

为

与

的语义关联度，

表示最大第一概率与最大第二概率的乘积，

表示最小第一概率与最小第二概率的乘积，

表示实体词条的集合A与本体词条库B中相同词条的个数，

为A中实体词条的总个数，

为B中本体词条的总个数。

需要说明，

和

是采用Gibbs采样算法进行参数估计并训练得到的，具体算法为现有技术。

步骤210，根据正则化项，计算每个待并案提案归属每个提案类的概率，以概率的最大值所在的提案类作为对应待并案提案的提案类；根据所有待并案提案的提案类做并案处理。

具体地：

根据正则化项，计算每个待并案提案归属每个提案类的概率，包括：

;

式中，

为每个待并案提案归属第

个提案类的概率，

为提案类的总数，

为每个待并案提案与第

个提案类的正则化项，也是实体词条与对应本体词条库的正则化项，

为第

个提案类。

以概率的最大值所在的提案类作为对应待并案提案的提案类是指：待并案提案归属哪个提案类的概率最大，就以哪个提案类作为待并案提案的提案类。

根据所有待并案提案的提案类做并案处理是指：将提案类相同的两个以上的待并案提案做并案处理。

上述提案辅助并案的方法，如图3所示，分别提取历史提案的本体词条和待并案提案的实体词条，然后利用训练机根据知识图谱匹配本体词条和实体词条，并引入正则化项进行离散正则化，计算每个待并案提案归属每个提案类的概率，得到概率表，以概率表中概率的最大值所在的提案类作为对应待并案提案的提案类，从而对所有待并案提案做并案处理。相较固定比例算法，本申请能够更好地确认提案文档之间语义信息的相关性，本体词条包含提案类的类别属性特征，实体词条包含提案的语义信息，引入的正则化项体现了本体词条和实体词条的相关性，能够提升文档与词条之间的概率分布精度，根据已知的待并案提案的实体词条，推算出提案文本的本体词条（即提案的特征属性），从而有效实现智能的提案并案，提高了提案办理人员的效率和准确度。本申请通过借助知识图谱的本体词条模型，更好地确认了提案文档之间语义信息的相关性；采用每个待并案提案归属每个提案类的概率公式，评估相似文档之间的关联性，将实体词条与本体词条关联起来，进而实现有效并案。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供了一种提案辅助并案的装置，如图5所示，在一个实施例中，包括：分类模块502、分词模块504、匹配模块506、计算模块508和并案模块510，其中：

分类模块502，用于获取历史提案并进行分类，得到多个提案类；对每个提案类建立知识图谱，并对每个知识图谱进行分词，得到多个本体词条，并得到对应每个提案类的本体词条库；

分词模块504，用于获取多个待并案提案，对每个待并案提案进行分词，得到对应每个待并案提案的多个实体词条；

匹配模块506，用于根据所有知识图谱匹配实体词条，得到每个实体词条的相关知识图谱；根据相关知识图谱，得到与每个实体词条相关的多个本体词条；

计算模块508，用于计算每个实体词条在对应待并案提案中的分布概率，得到第一概率；计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率，得到第二概率；根据第一概率和第二概率，建立正则化项；

并案模块510，用于根据正则化项，计算每个待并案提案归属每个提案类的概率，以概率的最大值所在的提案类作为对应待并案提案的提案类；根据所有待并案提案的提案类做并案处理。

关于提案辅助并案的装置的具体限定可以参见上文中对于提案辅助并案的方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提案辅助并案的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。