CN111782684B

CN111782684B - 一种配网电子化移交信息匹配方法及装置

Info

Publication number: CN111782684B
Application number: CN202010674994.0A
Authority: CN
Inventors: 亢中苗; 许世纳; 张珮明; 吴赞红; 林斌
Original assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2023-12-29
Anticipated expiration: 2040-07-14
Also published as: CN111782684A

Abstract

本申请公开了一种配网电子化移交信息匹配方法及装置，本申请提供的一种配网电子化移交的信息匹配方法，通过对接收到的移交台账文本进行文本特征提取，得到移交台账文本对应的第一稠密词向量集，然后将第一稠密词向量集与预存台账文本对应的第二稠密词向量集进行匹配，当第一稠密词向量集与第二稠密词向量集的匹配度大于预设的匹配阈值时，确定第一稠密词向量对应的移交台账文本与第二稠密词向量对应的预存台账文本为同一对象的台账文本，并对其进行关联或覆盖，避免了两个相同对象的台账文本重复录入，解决了现有的配网电子化移交工作容易出现数据重复录入的技术问题。

Description

一种配网电子化移交信息匹配方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种配网电子化移交信息匹配方法及装置。

背景技术

电子化移交指的是从一个***传送数据至另一个***，是不同***间进行接口数据对接的一种手段。配网通信管控***大部分的基础数据都需要通过南网SOA总线，从GIS***和PMS***等管理***中接收配网通信台账信息，此过程为配网电子化移交。

由于电子化移交可能存在滞后，因此现有的做法通常是在配网通信管控***中预先录入数据，导致了正式移交时在接收相同对象电子化移交数据后，容易出现数据重复录入的技术问题。

发明内容

本申请提供了一种配网电子化移交信息匹配方法及装置，用于解决现有的配网电子化移交工作容易出现数据重复录入的技术问题。

有鉴于此，本申请第一方面提供了一种配网电子化移交信息匹配方法，包括：

接收台账源***发送的移交台账文本；

通过深度文本匹配方式，对所述移交台账文本中的各个字词进行特征提取，得到第一稠密词向量集；

将所述第一稠密词向量集与预设的第二稠密词向量集进行匹配，其中，所述第二稠密词向量集为通过所述深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取得到的稠密词向量集合；

当所述第一稠密词向量集与所述第二稠密词向量集的匹配度大于预设的第一匹配阈值时，则将所述第一稠密词向量对应的移交台账文本与所述第二稠密词向量对应的预存台账文本进行关联或覆盖。

可选地，所述通过深度文本匹配模型，对所述移交台账文本中的各个字词进行特征提取，得到第一稠密词向量集具体包括：

通过深度文本匹配方式，对所述移交台账文本中的各个字词进行特征提取，得到与所述各个字词对应的第一字词特征向量；

根据所述第一字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第一稠密词向量集。

可选地，所述根据所述字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第一稠密词向量集之前还包括：

根据预置的字词过滤信息，对所述字词过滤信息中包含的目标字词对应的所述第一字词特征向量进行过滤。

可选地，还包括：

通过深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取，得到与所述各个字词对应的第二字词特征向量；

根据所述第二字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第二稠密词向量集。

可选地，所述根据所述第二字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第二稠密词向量集之前还包括：

根据预置的字词过滤信息，对所述字词过滤信息中包含的目标字词对应的所述第二字词特征向量进行过滤。

本申请第二方面提供了一种配网电子化移交信息匹配装置，包括：

移交台账接收单元，用于接收台账源***发送的移交台账文本；

第一文本特征提取单元，用于通过深度文本匹配方式，对所述移交台账文本中的各个字词进行特征提取，得到第一稠密词向量集；

稠密向量匹配单元，用于将所述第一稠密词向量集与预设的第二稠密词向量集进行匹配，其中，所述第二稠密词向量集为通过所述深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取得到的稠密词向量集合；

台账处理单元，用于当所述第一稠密词向量集与所述第二稠密词向量集的匹配度大于预设的第一匹配阈值时，则将所述第一稠密词向量对应的移交台账文本与所述第二稠密词向量对应的预存台账文本进行关联或覆盖。

可选地，所述第一文本特征提取单元具体包括：

第一文本特征提取子单元，用于通过深度文本匹配方式，对所述移交台账文本中的各个字词进行特征提取，得到与所述各个字词对应的第一字词特征向量；

第一稠密词向量构建子单元，用于根据所述第一字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第一稠密词向量集。

可选地，所述第一文本特征提取单元具体还包括：

第一过滤子单元，用于根据预置的字词过滤信息，对所述字词过滤信息中包含的目标字词对应的所述第一字词特征向量进行过滤。

可选地，还包括：第二文本特征提取单元；

所述第二文本特征提取单元具体包括：

第二文本特征提取子单元，用于通过深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取，得到与所述各个字词对应的第二字词特征向量；

第二稠密词向量集构建子单元，用于根据所述第二字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第二稠密词向量集。

可选地，所述第二文本特征提取单元具体还包括：

第二过滤子单元，用于根据预置的字词过滤信息，对所述字词过滤信息中包含的目标字词对应的所述第二字词特征向量进行过滤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种配网电子化移交信息匹配方法，包括：接收台账源***发送的移交台账文本；通过深度文本匹配方式，对所述移交台账文本中的各个字词进行特征提取，得到第一稠密词向量集；将所述第一稠密词向量集与预设的第二稠密词向量集进行匹配，其中，所述第二稠密词向量集为通过所述深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取得到的稠密词向量集合；当所述第一稠密词向量集与所述第二稠密词向量集的匹配度大于预设的第一匹配阈值时，则将所述第一稠密词向量对应的移交台账文本与所述第二稠密词向量对应的预存台账文本进行关联或覆盖。

本申请提供的一种配网电子化移交的信息匹配方法，通过对接收到的移交台账文本进行文本特征提取，得到移交台账文本对应的第一稠密词向量集，然后将第一稠密词向量集与预存台账文本对应的第二稠密词向量集进行匹配，当第一稠密词向量集与第二稠密词向量集的匹配度大于预设的匹配阈值时，确定第一稠密词向量对应的移交台账文本与第二稠密词向量对应的预存台账文本为同一对象的台账文本，并对其进行关联或覆盖，避免了两个相同对象的台账文本重复录入，解决了现有的配网电子化移交工作容易出现数据重复录入的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种配网电子化移交的信息匹配方法的第一个实施例的流程示意图；

图2为本申请提供的一种配网电子化移交的信息匹配方法的第二个实施例的流程示意图；

图3为本申请提供的一种配网电子化移交的信息匹配装置的一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种配网电子化移交信息匹配方法及装置，用于解决现有的配网电子化移交工作容易出现数据重复录入的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，本申请第一个实施例提供了一种配网电子化移交信息匹配方法，包括：

步骤101、接收台账源***发送的移交台账文本。

需要说明的是，接收从台账源***发送来的移交台账文本，本实施例的台账源***可以是GIS***和/或PMS***。

步骤102、通过深度文本匹配方式，对移交台账文本中的各个字词进行特征提取，得到第一稠密词向量集。

需要说明的是，基于步骤101得到的移交台账文本，对移交台账文本中的字词进行文本特征提取，以便得到与移交台账文本对应的第一稠密词向量集。

步骤103、将第一稠密词向量集与预设的第二稠密词向量集进行匹配。

需要说明的是，接着，将第一稠密词向量集与预设的第二稠密词向量集进行文本特征匹配，利用稠密词向量集中的稠密向量相似度，作为移交台账文本和预存台账文本的匹配度。

其中，第二稠密词向量集为通过深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取得到的稠密词向量集合。

步骤104、判断第一稠密词向量集与第二稠密词向量集的匹配度是否大于预设的第一匹配阈值，若是，则执行步骤105，若否，则返回步骤103，将第一稠密词向量集与剩余的第二稠密词向量集进行匹配。

需要说明的是，一般情况下提前录入的预存台账文本的数量通常不止一个，同样第二稠密词向量集的数量对应也含有多个。

判断第一稠密词向量集与第二稠密词向量集的匹配度是否大于预设的第一匹配阈值，从而判断第一稠密词向量集对应的移交台账文本与配网通信管控***中提前录入的预存台账文本是否为同一对象的台账文本，若不是，则返回步骤103，将第一稠密词向量集与剩余的第二稠密词向量集进行匹配。

步骤105、将第一稠密词向量对应的移交台账文本与第二稠密词向量对应的预存台账文本进行关联或覆盖。

需要说明的是，当第一稠密词向量集与第二稠密词向量集的匹配度大于预设的第一匹配阈值时，则说明第一稠密词向量对应的移交台账文本与第二稠密词向量对应的预存台账文本为同一对象的台账文本，此时，可以通过文本关联或覆盖的方式，将移交台账文本和预存台账文本合为一个台账文本。

本申请实施例提供的一种配网电子化移交的信息匹配方法，通过对接收到的移交台账文本进行文本特征提取，得到移交台账文本对应的第一稠密词向量集，然后将第一稠密词向量集与预存台账文本对应的第二稠密词向量集进行匹配，当第一稠密词向量集与第二稠密词向量集的匹配度大于预设的匹配阈值时，确定第一稠密词向量对应的移交台账文本与第二稠密词向量对应的预存台账文本为同一对象的台账文本，并对其进行关联或覆盖，避免了两个相同对象的台账文本重复录入，解决了现有的配网电子化移交工作容易出现数据重复录入的技术问题。

以上为本申请提供的一种配网电子化移交的信息匹配方法的第一个实施例的详细说明，下面为本申请提供的一种配网电子化移交的信息匹配方法的第二个实施例的详细说明。

请参阅图2，在本申请第一个实施例的基础上，本申请第二个实施例提供了一种配网电子化移交信息匹配方法，包括：

本申请第一个实施例的步骤102具体包括：

步骤1021、通过深度文本匹配方式，对移交台账文本中的各个字词进行特征提取，得到与各个字词对应的第一字词特征向量；

步骤1022、根据第一字词特征向量以及各个字词特征向量的出现频率，建立稠密向量矩阵，得到第一稠密词向量集。

需要说明的是，本实施例具体通过DRMM深度文本匹配方式，对移交台账文本中的每个字词进行特征提取，然后基于移交台账文本中的各个字词对应的第一字词特征向量，构建建立稠密向量矩阵，得到移交台账文本对应的第一稠密词向量集。

更具体地，在第二个实施例的步骤1022之前，还可以包括：

步骤1023、根据预置的字词过滤信息，对字词过滤信息中包含的目标字词对应的第一字词特征向量进行过滤。

需要说明的是，在构建第一稠密词向量集前，还可以通过预定义规则过滤掉一些非关键字词，例如配电站等，通过一定程度减少稠密词向量集的元素，可以降低一些非关键字词对匹配结果的影响，提高匹配准确度，且需要过滤的字词可以由使用者自行设置，在此不做赘述。

更具体地，在第一个实施例的步骤101之前还可以包括：

步骤1001、通过深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取，得到与各个字词对应的第二字词特征向量；

步骤1002、根据第二字词特征向量以及各个字词特征向量的出现频率，建立稠密向量矩阵，得到第二稠密词向量集。

更具体地，在步骤1002之前还可以包括：

步骤1003、根据预置的字词过滤信息，对字词过滤信息中包含的目标字词对应的第二字词特征向量进行过滤。

由于本实施例步骤1001、步骤1002和步骤1003对第二稠密词向量集的处理目的和处理方式与第一稠密词向量集相同，在此不再继续对步骤1001、步骤1002和步骤1003进行赘述。

本申请第二个实施例提供的一种配网电子化移交的信息匹配方法，通过对接收到的移交台账文本进行文本特征提取，得到移交台账文本对应的第一稠密词向量集，然后将第一稠密词向量集与预存台账文本对应的第二稠密词向量集进行匹配，当第一稠密词向量集与第二稠密词向量集的匹配度大于预设的匹配阈值时，确定第一稠密词向量对应的移交台账文本与第二稠密词向量对应的预存台账文本为同一对象的台账文本，并对其进行关联或覆盖，避免了两个相同对象的台账文本重复录入，解决了现有的配网电子化移交工作容易出现数据重复录入的技术问题。

以上为本申请提供的一种配网电子化移交的信息匹配方法的第二个实施例的详细说明，下面为本申请提供的一种配网电子化移交的信息匹配装置的一个实施例的详细说明。

请参阅图3，本申请第三个实施例提供了一种配网电子化移交信息匹配装置，包括：

移交台账接收单元301，用于接收台账源***发送的移交台账文本；

第一文本特征提取单元302，用于通过深度文本匹配方式，对移交台账文本中的各个字词进行特征提取，得到第一稠密词向量集；

稠密向量匹配单元303，用于将第一稠密词向量集与预设的第二稠密词向量集进行匹配，其中，第二稠密词向量集为通过深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取得到的稠密词向量集合；

台账处理单元304，用于当第一稠密词向量集与第二稠密词向量集的匹配度大于预设的第一匹配阈值时，则将第一稠密词向量对应的移交台账文本与第二稠密词向量对应的预存台账文本进行关联或覆盖。

更具体地，第一文本特征提取单元302具体包括：

第一文本特征提取子单元3021，用于通过深度文本匹配方式，对移交台账文本中的各个字词进行特征提取，得到与各个字词对应的第一字词特征向量；

第一稠密词向量构建子单元3022，用于根据第一字词特征向量以及各个字词特征向量的出现频率，建立稠密向量矩阵，得到第一稠密词向量集。

更具体地，第一文本特征提取单元具体还包括：

第一过滤子单元3023，用于根据预置的字词过滤信息，对字词过滤信息中包含的目标字词对应的第一字词特征向量进行过滤。

更具体地，还包括：第二文本特征提取单元300；

第二文本特征提取单元具体包括：

第二文本特征提取子单元3001，用于通过深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取，得到与各个字词对应的第二字词特征向量；

第二稠密词向量集构建子单元3002，用于根据第二字词特征向量以及各个字词特征向量的出现频率，建立稠密向量矩阵，得到第二稠密词向量集。

更具体地，第二文本特征提取单元具体还包括：

第二过滤子单元3003，用于根据预置的字词过滤信息，对字词过滤信息中包含的目标字词对应的第二字词特征向量进行过滤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种配网电子化移交信息匹配方法，其特征在于，包括：

接收台账源***发送的移交台账文本；

根据所述第一字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到第一稠密词向量集；

将所述第一稠密词向量集与预设的第二稠密词向量集进行匹配，其中，所述第二稠密词向量集的获得方式包括：通过深度文本匹配方式，对保存在配网通信管控***中的预存台账文本中的各个字词进行特征提取，得到与所述各个字词对应的第二字词特征向量，根据所述第二字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第二稠密词向量集；

当所述第一稠密词向量集与所述第二稠密词向量集的匹配度大于预设的第一匹配阈值时，则将所述第一稠密词向量集对应的移交台账文本与所述第二稠密词向量集对应的预存台账文本进行关联或覆盖。

2.根据权利要求1所述的一种配网电子化移交信息匹配方法，其特征在于，所述根据所述字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第一稠密词向量集之前还包括：

3.根据权利要求1所述的一种配网电子化移交信息匹配方法，其特征在于，所述根据所述第二字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第二稠密词向量集之前还包括：

4.一种配网电子化移交信息匹配装置，其特征在于，包括：

台账处理单元，用于当所述第一稠密词向量集与所述第二稠密词向量集的匹配度大于预设的第一匹配阈值时，则将所述第一稠密词向量集对应的移交台账文本与所述第二稠密词向量集对应的预存台账文本进行关联或覆盖；

所述第一文本特征提取单元具体包括：

第一稠密词向量集构建子单元，用于根据所述第一字词特征向量以及各个所述字词特征向量的出现频率，建立稠密向量矩阵，得到所述第一稠密词向量集；

所述配网电子化移交信息匹配装置还包括：第二文本特征提取单元；

所述第二文本特征提取单元具体包括：

5.根据权利要求4所述的一种配网电子化移交信息匹配装置，其特征在于，所述第一文本特征提取单元具体还包括：

6.根据权利要求4所述的一种配网电子化移交信息匹配装置，其特征在于，所述第二文本特征提取单元具体还包括：