CN114742042A

CN114742042A - 一种文本去重方法、装置、电子设备及存储介质

Info

Publication number: CN114742042A
Application number: CN202210283294.8A
Authority: CN
Inventors: 潘帅; 陈家银; 张伟; 陈曦; 麻志毅
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-12

Abstract

本发明公开了一种文本去重方法、装置、电子设备及存储介质，方法包括：确定待去重文本的标题中的代表性词；判断由已去重文本的标题构建的索引空间中的索引是否存在代表性词；若不存在，则确定待去重文本不是重复文本；若存在，则基于标题词性方式判定待去重文本是否为重复文本；在确定待去重文本不是重复文本时，以代表性词为索引，以标题和词性标注结果为键值添加到索引空间。通过获取文本的标题中最具有影响力的代表性词去重，可以进一步降低去重复杂度，提高去重效率，并且基于相似语义文本之间影响力最大的词相同的假设，当判断这个代表性词存在于由已去重文本的标题构建的索引空间中时，再基于标题词性方式进行去重，从而实现语义感知去重。

Description

一种文本去重方法、装置、电子设备及存储介质

技术领域

本发明涉及文本处理技术领域，具体涉及一种文本去重方法、装置、电子设备及存储介质。

背景技术

目前，电子招标文本越来越普及，全网每天有约数百万的招标文本公布，企业从这些招标文本中可以获得大量潜在的商情信息。然而由于网络转载、抄袭等现象的存在，企业爬取到的大量招标文本存在重复的问题，将这些冗余的招标文本存入数据库中，对存储空间是一种浪费，同时也会降低下游数据处理任务的效率。因此招标文本的去重问题对于企业来说是一种挑战。

传统本文去重方法包括：1.雅可比相似系数去重法，即通过计算文本交集与文本并集之间的比值判断文本重复率，这种方法无法确定文本的语义，且每一条新文本需要与过去所有文本进行比较，所需处理时间随文本数量的增多呈线性增加，因此无法应用于大规模文本的去重任务中；2.Simhash去重法，该方法是谷歌提出的，其通过对文本进行哈希编码完成高效索引，通过汉明距离完成文本去重，然而simhash仅适用于英文，在中文情况下，需要对文本进行分词，获得特征词的权重，对于招标正文等长文本，分词会产生高昂的计算代价，而对于招标标题等短文本，由于包含特征词较少，simhash无法区分短文本之间的语义，从而在面对短文本时，存在大量误判或者漏判。

发明内容

本发明的目的是针对上述现有技术的不足提出的一种文本去重方法、装置、电子设备及存储介质，该目的是通过以下技术方案实现的。

本发明的第一方面提出了一种文本去重方法，所述方法包括：

确定待去重文本的标题中的代表性词；

判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词；

若不存在，则确定待去重文本不是重复文本；

若存在，则基于标题词性方式判定待去重文本是否为重复文本；

在确定待去重文本不是重复文本时，以所述代表性词为索引，以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。

在本申请一些实施例中，确定待去重文本的标题中的代表性词，包括：

对所述标题进行分词，得到分词结果；确定分词结果中每一分词的词频-逆文档频率TF-IDF值；将最大TF-IDF值对应的分词确定为代表性词。

在本申请一些实施例中，确定分词结果中每一分词的词频-逆文本频率TF-IDF值，包括：

确定分词结果中每一分词的词频TF值；从预设词汇表中获取每一分词对应的逆文档频率IDF值；利用每一分词的TF值和IDF值确定该分词的TF-IDF值。

在本申请一些实施例中，基于标题词性方式判定待去重文本是否为重复文本，包括：

获取由索引空间中所述代表性词对应的键值表示的已有标题；比较已有标题与所述标题之间的不重复词；若存在不重复词，则根据不重复词的词性判定所述待去重文本是否为重复文本；若不存在不重复词，则确定所述待去重文本是重复文本。

在本申请一些实施例中，根据不重复词的词性判定所述待去重文本是否为重复文本，包括：

判定不重复词的词性是否为预设词性；若为预设词性，则确定待去重文本不是重复文本；若不为预设词性，则根据不重复词的数量相对所述标题的分词总量的占比判定所述待去重文本是否为重复文本；若所述占比超过预设值，则确定待去重文本不是重复文本；若所述占比未超过预设值，则确定待去重文本是重复文本。

在本申请一些实施例中，所述预设词性包括名词、英文、数量词。

本发明的第二方面提出了一种文本去重装置，所述装置包括：

第一确定模块，用于确定待去重文本的标题中的代表性词；

第一判断模块，用于判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词；

第二确定模块，用于在判断不存在所述代表性词时，确定待去重文本不是重复文本；

第二判断模块，用于在判断存在所述代表性词时，基于标题词性方式判定待去重文本是否为重复文本；

空间添加模块，用于在确定待去重文本不是重复文本时，以所述代表性词为索引，以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。

本发明的第三方面提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述方法的步骤。

本发明的第四方面提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述第一方面所述方法的步骤。

基于上述第一方面和第二方面所述的文本去重方法及装置，本发明至少具有如下有益效果或优点：

通常标题是正文的概括，包含了正文中的核心信息，本发明通过对标题进行文本去重，能够达到与正文去重一样的效果。同时，标题是短文本，处理标题的效率远高于处理正文的效率，对于大规模文本数据量，采用标题去重方式可以极大减少处理所需时间。

此外，通过获取待去重文本的标题中最具有影响力的代表性词去重，可以进一步降低去重复杂度，提高去重效率，并且基于相似语义文本之间影响力最大的词相同的假设，当判断这个代表性词存在于由已去重文本的标题构建的索引空间中时，再基于标题词性方式进行去重，从而实现语义感知去重。

由此可见，本方案不仅能够感知语义去重，而且去重效率很高。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明根据一示例性实施例示出的一种文本去重方法的实施例流程图；

图2为本发明根据一示例性实施例示出的一种索引空间的内容示意图；

图3为本发明根据一示例性实施例示出的一种文本去重装置的结构示意图；

图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构示意图图；

图5为本发明根据一示例性实施例示出的一种存储介质的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

针对传统去重方法无法感知文本之间的语义，去重效率低的问题，本发明提出一种改进后的文本去重方法，即确定待去重文本的标题中的代表性词，并判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词，若不存在，则确定待去重文本不是重复文本，若存在，则基于标题词性方式判定待去重文本是否为重复文本，并且在确定待去重文本不是重复文本时，以所述代表性词为索引，以所述标题中除所述代表性词以外的其他词为键值添加到索引空间。

基于上述描述可达到的技术效果有：

由此可见，本方案不仅能够感知语义差别去重，而且去重效率很高，在大规模文本的去重任务中表现优秀，能够满足实际生产需求。

为了使本领域技术人员更好的理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一：

图1为本发明根据一示例性实施例示出的一种文本去重方法的实施例流程图，包括以下步骤：

步骤101：确定待去重文本的标题中的代表性词。

其中，代表性词指的是标题中影响力最大的词，其能够代表标题的语义。

在一可选实施例中，通过对标题进行分词，得到分词结果，并确定分词结果中每一分词的词频-逆文档频率TF-IDF值，然后将最大TF-IDF值对应的分词确定为代表性词。

其中，TF-IDF值越大，说明分词在标题中的影响力越大，因此将最大TF-IDF值对应的分词确定为代表性词。

下面针对词频-逆文档频率TF-IDF值的计算流程说明如下：

首先，构建目标领域的IDF词汇表，本发明以招标领域为例。

逆文档频率(IDF)由总文件数目除以包含该词语的文件数目计算而来，代表一个词语普遍性的度量。IDF值的大小代表了一个词的常见程度，IDF值越高，代表词越不常见，通常不常见的词更能代表一段话的语义。为了获得适用于招标领域的IDF词汇表，本发明对大规模招标领域标题(例如5000w条)进行了分词与词性标注，统计并整理了招标领域的IDF词汇表。IDF的计算方式如下：

其中，D表示总标题数，|{：t_j∈d_j)|表示包含词汇t_j的标题总数。

然后，从IDF词汇表中获取分词结果中每一分词的IDF值，同时确定每一分词的TF值，TF值的计算公式如下：

其中，n_i表示分词i在标题中的出现次数，∑_kn_k表示标题中所有分词的出现次数。

最后，利用每一分词的TF值和IDF值确定该分词的TF-IDF值，TF-IDF值计算公式如下：

TF_IDF_i＝TF_i×IDF_i

步骤102：判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词，若不存在，则执行步骤103，若存在，则执行步骤104。

在执行步骤102之前，针对索引空间的构建过程，通过获取已去重文本的标题的分词结果，以及每个分词的TF-IDF值，基于相似语义文本之间影响力最大的词相同的假设，以标题中TF-IDF值最大的词作为索引，以分词及词性标注后的标题作为键值，构建索引空间。

如图2所示，是以标题“水利工程研究室关于实验器材的采购公告”建立的索引空间，第一个词“水利工程”为索引，[]里的内容为标题和词性标注结果为键值。

在步骤102中，基于相似语义文本之间影响力最大的词相同的假设，当代表性词不在索引空间中的索引中时，可判定待去重文本为无语义重复的文本，当代表性词在索引空间中的索引中时，进一步采用基于标题词性方式进行去重判定。

步骤103：确定待去重文本不是重复文本。

步骤104：基于标题词性方式判定待去重文本是否为重复文本。

在一可选的实施例中，通过获取由索引空间中代表性词对应的键值表示的已有标题，并比较已有标题与所述标题之间的不重复词，若存在不重复词，则根据不重复词的词性判定待去重文本是否为重复文本，若不存在不重复词，则确定待去重文本是重复文本。

其中，已有标题与待去重文本的标题之间的不重复词即可以来源于已有标题，也可以来源于待去重文本的标题。

需要说明的是，根据大量经验所得，出现产品词及数量词不同的标题，其语义在大概率情况下是不同的，其中产品词可能的词性为名词(n)，英文(eng)，因此当标题之间不重复的词存在词性为名词，英文和数量词(m)时，可以认为输入标题为不重复标题。

基于此，针对根据不重复词的词性判定待去重文本是否为重复文本的过程，可以判定不重复词的词性是否为预设词性，若为预设词性，则确定待去重文本不是重复文本，若不为预设词性，则再根据不重复词的数量相对标题的分词总量的占比判定待去重文本是否为重复文本，若占比超过预设值，则确定待去重文本不是重复文本，若占比未超过预设值，则确定待去重文本是重复文本。

其中，预设词性即为名词、英文、数量词。

进一步地，当不重复词的数量超过标题总词量的一定数值之后，标题之间无法保持相同的语义，判定待去重文本不是重复文本，反之则是重复的。

可选的，根据大量数据统计，当占比的预设值取1/3时，效果最优。

需要补充说明的是，在确定待去重文本是重复文本时，可以将待去重文本丢掉处理。

步骤105：在确定待去重文本不是重复文本时，以代表性词为索引，以标题和标题的词性标注结果为键值添加到索引空间。

其中，在确定待去重文本不是重复文本时，说明待去重文本为有价值的文本，属于已去过重的文本，需要将其标题经处理后加入索引空间，以便于后续输入文本的去重参考。

针对上述步骤101至步骤105的过程，为验证本发明提出算法的效率与准确性，本发明在招标短文本的大规模语料去重任务中进行了测试，对5000条招标领域的标题进行了去重处理。

实验表明：本发明平均每秒能处理100条标题，且时间复杂度不随标题数量的增多而增加，满足实际生产需求，同时去重的准确率可达95％以上。

至此，完成上述图1所示的去重流程，通常标题是正文的概括，包含了正文中的核心信息，本发明通过对标题进行文本去重，能够达到与正文去重一样的效果。同时，标题是短文本，处理标题的效率远高于处理正文的效率，对于大规模文本数据量，采用标题去重方式可以极大减少处理所需时间。

与前述文本去重方法的实施例相对应，本发明还提供了文本去重装置的实施例。

图3为本发明根据一示例性实施例示出的一种文本去重装置的结构示意图，该装置用于执行上述任一实施例提供的文本去重方法，如图3所示，该文本去重装置包括：

第一确定模块310，用于确定待去重文本的标题中的代表性词；

第一判断模块320，用于判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词；

第二确定模块330，用于在判断不存在所述代表性词时，确定待去重文本不是重复文本；

第二判断模块340，用于在判断存在所述代表性词时，基于标题词性方式判定待去重文本是否为重复文本；

空间添加模块350，用于在确定待去重文本不是重复文本时，以所述代表性词为索引，以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施方式还提供一种与前述实施方式所提供的文本去重方法对应的电子设备，以执行上述文本去重方法。

图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构图，该电子设备包括：通信接口601、处理器602、存储器603和总线604；其中，通信接口601、处理器602和存储器603通过总线604完成相互间的通信。处理器602通过读取并执行存储器603中与文本去重方法的控制逻辑对应的机器可执行指令，可执行上文描述的文本去重方法，该方法的具体内容参见上述实施例，此处不再累述。

本发明中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置，可以包含存储信息，如可执行指令、数据等等。具体地，存储器603可以是RAM(Random AccessMemory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。通过至少一个通信接口601(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线604可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器603用于存储程序，所述处理器602在接收到执行指令后，执行所述程序。

处理器602可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。

本申请实施例提供的电子设备与本申请实施例提供的文本去重方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的文本去重方法对应的计算机可读存储介质，请参考图5所示，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的文本去重方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的文本去重方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文本去重方法，其特征在于，所述方法包括：

确定待去重文本的标题中的代表性词；

若不存在，则确定待去重文本不是重复文本；

2.根据权利要求1所述的方法，其特征在于，确定待去重文本的标题中的代表性词，包括：

对所述标题进行分词，得到分词结果；

确定分词结果中每一分词的词频-逆文档频率TF-IDF值；

将最大TF-IDF值对应的分词确定为代表性词。

3.根据权利要求2所述的方法，其特征在于，确定分词结果中每一分词的词频-逆文本频率TF-IDF值，包括：

确定分词结果中每一分词的词频TF值；

从预设词汇表中获取每一分词对应的逆文档频率IDF值；

利用每一分词的TF值和IDF值确定该分词的TF-IDF值。

4.根据权利要求1所述的方法，其特征在于，基于标题词性方式判定待去重文本是否为重复文本，包括：

获取由索引空间中所述代表性词对应的键值表示的已有标题；

比较已有标题与所述标题之间的不重复词；

若存在不重复词，则根据不重复词的词性判定所述待去重文本是否为重复文本；

若不存在不重复词，则确定所述待去重文本是重复文本。

5.根据权利要求4所述的方法，其特征在于，根据不重复词的词性判定所述待去重文本是否为重复文本，包括：

判定不重复词的词性是否为预设词性；

若为预设词性，则确定待去重文本不是重复文本；

若不为预设词性，则根据不重复词的数量相对所述标题的分词总量的占比判定所述待去重文本是否为重复文本；

若所述占比超过预设值，则确定待去重文本不是重复文本；

若所述占比未超过预设值，则确定待去重文本是重复文本。

6.根据权利要求5所述的方法，其特征在于，所述预设词性包括名词、英文、数量词。

7.一种文本去重装置，其特征在于，所述装置包括：

第一确定模块，用于确定待去重文本的标题中的代表性词；

8.根据权利要求7所述的装置，其特征在于，所述第二判断模块，具体用于获取由索引空间中所述代表性词对应的键值表示的已有标题；比较已有标题与所述标题之间的不重复词；若存在不重复词，则根据不重复词的词性判定所述待去重文本是否为重复文本；若不存在不重复词，则确定所述待去重文本是重复文本。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。