CN114742042A - 一种文本去重方法、装置、电子设备及存储介质 - Google Patents

一种文本去重方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114742042A
CN114742042A CN202210283294.8A CN202210283294A CN114742042A CN 114742042 A CN114742042 A CN 114742042A CN 202210283294 A CN202210283294 A CN 202210283294A CN 114742042 A CN114742042 A CN 114742042A
Authority
CN
China
Prior art keywords
text
repeated
deduplicated
title
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210283294.8A
Other languages
English (en)
Inventor
潘帅
陈家银
张伟
陈曦
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202210283294.8A priority Critical patent/CN114742042A/zh
Publication of CN114742042A publication Critical patent/CN114742042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本去重方法、装置、电子设备及存储介质,方法包括:确定待去重文本的标题中的代表性词;判断由已去重文本的标题构建的索引空间中的索引是否存在代表性词;若不存在,则确定待去重文本不是重复文本;若存在,则基于标题词性方式判定待去重文本是否为重复文本;在确定待去重文本不是重复文本时,以代表性词为索引,以标题和词性标注结果为键值添加到索引空间。通过获取文本的标题中最具有影响力的代表性词去重,可以进一步降低去重复杂度,提高去重效率,并且基于相似语义文本之间影响力最大的词相同的假设,当判断这个代表性词存在于由已去重文本的标题构建的索引空间中时,再基于标题词性方式进行去重,从而实现语义感知去重。

Description

一种文本去重方法、装置、电子设备及存储介质
技术领域
本发明涉及文本处理技术领域,具体涉及一种文本去重方法、装置、电子设备及存储介质。
背景技术
目前,电子招标文本越来越普及,全网每天有约数百万的招标文本公布,企业从这些招标文本中可以获得大量潜在的商情信息。然而由于网络转载、抄袭等现象的存在,企业爬取到的大量招标文本存在重复的问题,将这些冗余的招标文本存入数据库中,对存储空间是一种浪费,同时也会降低下游数据处理任务的效率。因此招标文本的去重问题对于企业来说是一种挑战。
传统本文去重方法包括:1.雅可比相似系数去重法,即通过计算文本交集与文本并集之间的比值判断文本重复率,这种方法无法确定文本的语义,且每一条新文本需要与过去所有文本进行比较,所需处理时间随文本数量的增多呈线性增加,因此无法应用于大规模文本的去重任务中;2.Simhash去重法,该方法是谷歌提出的,其通过对文本进行哈希编码完成高效索引,通过汉明距离完成文本去重,然而simhash仅适用于英文,在中文情况下,需要对文本进行分词,获得特征词的权重,对于招标正文等长文本,分词会产生高昂的计算代价,而对于招标标题等短文本,由于包含特征词较少,simhash无法区分短文本之间的语义,从而在面对短文本时,存在大量误判或者漏判。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种文本去重方法、装置、电子设备及存储介质,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种文本去重方法,所述方法包括:
确定待去重文本的标题中的代表性词;
判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词;
若不存在,则确定待去重文本不是重复文本;
若存在,则基于标题词性方式判定待去重文本是否为重复文本;
在确定待去重文本不是重复文本时,以所述代表性词为索引,以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。
在本申请一些实施例中,确定待去重文本的标题中的代表性词,包括:
对所述标题进行分词,得到分词结果;确定分词结果中每一分词的词频-逆文档频率TF-IDF值;将最大TF-IDF值对应的分词确定为代表性词。
在本申请一些实施例中,确定分词结果中每一分词的词频-逆文本频率TF-IDF值,包括:
确定分词结果中每一分词的词频TF值;从预设词汇表中获取每一分词对应的逆文档频率IDF值;利用每一分词的TF值和IDF值确定该分词的TF-IDF值。
在本申请一些实施例中,基于标题词性方式判定待去重文本是否为重复文本,包括:
获取由索引空间中所述代表性词对应的键值表示的已有标题;比较已有标题与所述标题之间的不重复词;若存在不重复词,则根据不重复词的词性判定所述待去重文本是否为重复文本;若不存在不重复词,则确定所述待去重文本是重复文本。
在本申请一些实施例中,根据不重复词的词性判定所述待去重文本是否为重复文本,包括:
判定不重复词的词性是否为预设词性;若为预设词性,则确定待去重文本不是重复文本;若不为预设词性,则根据不重复词的数量相对所述标题的分词总量的占比判定所述待去重文本是否为重复文本;若所述占比超过预设值,则确定待去重文本不是重复文本;若所述占比未超过预设值,则确定待去重文本是重复文本。
在本申请一些实施例中,所述预设词性包括名词、英文、数量词。
本发明的第二方面提出了一种文本去重装置,所述装置包括:
第一确定模块,用于确定待去重文本的标题中的代表性词;
第一判断模块,用于判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词;
第二确定模块,用于在判断不存在所述代表性词时,确定待去重文本不是重复文本;
第二判断模块,用于在判断存在所述代表性词时,基于标题词性方式判定待去重文本是否为重复文本;
空间添加模块,用于在确定待去重文本不是重复文本时,以所述代表性词为索引,以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。
本发明的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述方法的步骤。
本发明的第四方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面所述方法的步骤。
基于上述第一方面和第二方面所述的文本去重方法及装置,本发明至少具有如下有益效果或优点:
通常标题是正文的概括,包含了正文中的核心信息,本发明通过对标题进行文本去重,能够达到与正文去重一样的效果。同时,标题是短文本,处理标题的效率远高于处理正文的效率,对于大规模文本数据量,采用标题去重方式可以极大减少处理所需时间。
此外,通过获取待去重文本的标题中最具有影响力的代表性词去重,可以进一步降低去重复杂度,提高去重效率,并且基于相似语义文本之间影响力最大的词相同的假设,当判断这个代表性词存在于由已去重文本的标题构建的索引空间中时,再基于标题词性方式进行去重,从而实现语义感知去重。
由此可见,本方案不仅能够感知语义去重,而且去重效率很高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明根据一示例性实施例示出的一种文本去重方法的实施例流程图;
图2为本发明根据一示例性实施例示出的一种索引空间的内容示意图;
图3为本发明根据一示例性实施例示出的一种文本去重装置的结构示意图;
图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构示意图图;
图5为本发明根据一示例性实施例示出的一种存储介质的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
针对传统去重方法无法感知文本之间的语义,去重效率低的问题,本发明提出一种改进后的文本去重方法,即确定待去重文本的标题中的代表性词,并判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词,若不存在,则确定待去重文本不是重复文本,若存在,则基于标题词性方式判定待去重文本是否为重复文本,并且在确定待去重文本不是重复文本时,以所述代表性词为索引,以所述标题中除所述代表性词以外的其他词为键值添加到索引空间。
基于上述描述可达到的技术效果有:
通常标题是正文的概括,包含了正文中的核心信息,本发明通过对标题进行文本去重,能够达到与正文去重一样的效果。同时,标题是短文本,处理标题的效率远高于处理正文的效率,对于大规模文本数据量,采用标题去重方式可以极大减少处理所需时间。
此外,通过获取待去重文本的标题中最具有影响力的代表性词去重,可以进一步降低去重复杂度,提高去重效率,并且基于相似语义文本之间影响力最大的词相同的假设,当判断这个代表性词存在于由已去重文本的标题构建的索引空间中时,再基于标题词性方式进行去重,从而实现语义感知去重。
由此可见,本方案不仅能够感知语义差别去重,而且去重效率很高,在大规模文本的去重任务中表现优秀,能够满足实际生产需求。
为了使本领域技术人员更好的理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一:
图1为本发明根据一示例性实施例示出的一种文本去重方法的实施例流程图,包括以下步骤:
步骤101:确定待去重文本的标题中的代表性词。
其中,代表性词指的是标题中影响力最大的词,其能够代表标题的语义。
在一可选实施例中,通过对标题进行分词,得到分词结果,并确定分词结果中每一分词的词频-逆文档频率TF-IDF值,然后将最大TF-IDF值对应的分词确定为代表性词。
其中,TF-IDF值越大,说明分词在标题中的影响力越大,因此将最大TF-IDF值对应的分词确定为代表性词。
下面针对词频-逆文档频率TF-IDF值的计算流程说明如下:
首先,构建目标领域的IDF词汇表,本发明以招标领域为例。
逆文档频率(IDF)由总文件数目除以包含该词语的文件数目计算而来,代表一个词语普遍性的度量。IDF值的大小代表了一个词的常见程度,IDF值越高,代表词越不常见,通常不常见的词更能代表一段话的语义。为了获得适用于招标领域的IDF词汇表,本发明对大规模招标领域标题(例如5000w条)进行了分词与词性标注,统计并整理了招标领域的IDF词汇表。IDF的计算方式如下:
Figure BDA0003558919610000061
其中,D表示总标题数,|{:tj∈dj)|表示包含词汇tj的标题总数。
然后,从IDF词汇表中获取分词结果中每一分词的IDF值,同时确定每一分词的TF值,TF值的计算公式如下:
Figure BDA0003558919610000062
其中,ni表示分词i在标题中的出现次数,∑knk表示标题中所有分词的出现次数。
最后,利用每一分词的TF值和IDF值确定该分词的TF-IDF值,TF-IDF值计算公式如下:
TF_IDFi=TFi×IDFi
步骤102:判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词,若不存在,则执行步骤103,若存在,则执行步骤104。
在执行步骤102之前,针对索引空间的构建过程,通过获取已去重文本的标题的分词结果,以及每个分词的TF-IDF值,基于相似语义文本之间影响力最大的词相同的假设,以标题中TF-IDF值最大的词作为索引,以分词及词性标注后的标题作为键值,构建索引空间。
如图2所示,是以标题“水利工程研究室关于实验器材的采购公告”建立的索引空间,第一个词“水利工程”为索引,[]里的内容为标题和词性标注结果为键值。
在步骤102中,基于相似语义文本之间影响力最大的词相同的假设,当代表性词不在索引空间中的索引中时,可判定待去重文本为无语义重复的文本,当代表性词在索引空间中的索引中时,进一步采用基于标题词性方式进行去重判定。
步骤103:确定待去重文本不是重复文本。
步骤104:基于标题词性方式判定待去重文本是否为重复文本。
在一可选的实施例中,通过获取由索引空间中代表性词对应的键值表示的已有标题,并比较已有标题与所述标题之间的不重复词,若存在不重复词,则根据不重复词的词性判定待去重文本是否为重复文本,若不存在不重复词,则确定待去重文本是重复文本。
其中,已有标题与待去重文本的标题之间的不重复词即可以来源于已有标题,也可以来源于待去重文本的标题。
需要说明的是,根据大量经验所得,出现产品词及数量词不同的标题,其语义在大概率情况下是不同的,其中产品词可能的词性为名词(n),英文(eng),因此当标题之间不重复的词存在词性为名词,英文和数量词(m)时,可以认为输入标题为不重复标题。
基于此,针对根据不重复词的词性判定待去重文本是否为重复文本的过程,可以判定不重复词的词性是否为预设词性,若为预设词性,则确定待去重文本不是重复文本,若不为预设词性,则再根据不重复词的数量相对标题的分词总量的占比判定待去重文本是否为重复文本,若占比超过预设值,则确定待去重文本不是重复文本,若占比未超过预设值,则确定待去重文本是重复文本。
其中,预设词性即为名词、英文、数量词。
进一步地,当不重复词的数量超过标题总词量的一定数值之后,标题之间无法保持相同的语义,判定待去重文本不是重复文本,反之则是重复的。
可选的,根据大量数据统计,当占比的预设值取1/3时,效果最优。
需要补充说明的是,在确定待去重文本是重复文本时,可以将待去重文本丢掉处理。
步骤105:在确定待去重文本不是重复文本时,以代表性词为索引,以标题和标题的词性标注结果为键值添加到索引空间。
其中,在确定待去重文本不是重复文本时,说明待去重文本为有价值的文本,属于已去过重的文本,需要将其标题经处理后加入索引空间,以便于后续输入文本的去重参考。
针对上述步骤101至步骤105的过程,为验证本发明提出算法的效率与准确性,本发明在招标短文本的大规模语料去重任务中进行了测试,对5000条招标领域的标题进行了去重处理。
实验表明:本发明平均每秒能处理100条标题,且时间复杂度不随标题数量的增多而增加,满足实际生产需求,同时去重的准确率可达95%以上。
至此,完成上述图1所示的去重流程,通常标题是正文的概括,包含了正文中的核心信息,本发明通过对标题进行文本去重,能够达到与正文去重一样的效果。同时,标题是短文本,处理标题的效率远高于处理正文的效率,对于大规模文本数据量,采用标题去重方式可以极大减少处理所需时间。
此外,通过获取待去重文本的标题中最具有影响力的代表性词去重,可以进一步降低去重复杂度,提高去重效率,并且基于相似语义文本之间影响力最大的词相同的假设,当判断这个代表性词存在于由已去重文本的标题构建的索引空间中时,再基于标题词性方式进行去重,从而实现语义感知去重。
由此可见,本方案不仅能够感知语义去重,而且去重效率很高。
与前述文本去重方法的实施例相对应,本发明还提供了文本去重装置的实施例。
图3为本发明根据一示例性实施例示出的一种文本去重装置的结构示意图,该装置用于执行上述任一实施例提供的文本去重方法,如图3所示,该文本去重装置包括:
第一确定模块310,用于确定待去重文本的标题中的代表性词;
第一判断模块320,用于判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词;
第二确定模块330,用于在判断不存在所述代表性词时,确定待去重文本不是重复文本;
第二判断模块340,用于在判断存在所述代表性词时,基于标题词性方式判定待去重文本是否为重复文本;
空间添加模块350,用于在确定待去重文本不是重复文本时,以所述代表性词为索引,以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施方式还提供一种与前述实施方式所提供的文本去重方法对应的电子设备,以执行上述文本去重方法。
图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口601、处理器602、存储器603和总线604;其中,通信接口601、处理器602和存储器603通过总线604完成相互间的通信。处理器602通过读取并执行存储器603中与文本去重方法的控制逻辑对应的机器可执行指令,可执行上文描述的文本去重方法,该方法的具体内容参见上述实施例,此处不再累述。
本发明中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置,可以包含存储信息,如可执行指令、数据等等。具体地,存储器603可以是RAM(Random AccessMemory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。通过至少一个通信接口601(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线604可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器603用于存储程序,所述处理器602在接收到执行指令后,执行所述程序。
处理器602可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
本申请实施例提供的电子设备与本申请实施例提供的文本去重方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的文本去重方法对应的计算机可读存储介质,请参考图5所示,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的文本去重方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的文本去重方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种文本去重方法,其特征在于,所述方法包括:
确定待去重文本的标题中的代表性词;
判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词;
若不存在,则确定待去重文本不是重复文本;
若存在,则基于标题词性方式判定待去重文本是否为重复文本;
在确定待去重文本不是重复文本时,以所述代表性词为索引,以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。
2.根据权利要求1所述的方法,其特征在于,确定待去重文本的标题中的代表性词,包括:
对所述标题进行分词,得到分词结果;
确定分词结果中每一分词的词频-逆文档频率TF-IDF值;
将最大TF-IDF值对应的分词确定为代表性词。
3.根据权利要求2所述的方法,其特征在于,确定分词结果中每一分词的词频-逆文本频率TF-IDF值,包括:
确定分词结果中每一分词的词频TF值;
从预设词汇表中获取每一分词对应的逆文档频率IDF值;
利用每一分词的TF值和IDF值确定该分词的TF-IDF值。
4.根据权利要求1所述的方法,其特征在于,基于标题词性方式判定待去重文本是否为重复文本,包括:
获取由索引空间中所述代表性词对应的键值表示的已有标题;
比较已有标题与所述标题之间的不重复词;
若存在不重复词,则根据不重复词的词性判定所述待去重文本是否为重复文本;
若不存在不重复词,则确定所述待去重文本是重复文本。
5.根据权利要求4所述的方法,其特征在于,根据不重复词的词性判定所述待去重文本是否为重复文本,包括:
判定不重复词的词性是否为预设词性;
若为预设词性,则确定待去重文本不是重复文本;
若不为预设词性,则根据不重复词的数量相对所述标题的分词总量的占比判定所述待去重文本是否为重复文本;
若所述占比超过预设值,则确定待去重文本不是重复文本;
若所述占比未超过预设值,则确定待去重文本是重复文本。
6.根据权利要求5所述的方法,其特征在于,所述预设词性包括名词、英文、数量词。
7.一种文本去重装置,其特征在于,所述装置包括:
第一确定模块,用于确定待去重文本的标题中的代表性词;
第一判断模块,用于判断由已去重文本的标题构建的索引空间中的索引是否存在所述代表性词;
第二确定模块,用于在判断不存在所述代表性词时,确定待去重文本不是重复文本;
第二判断模块,用于在判断存在所述代表性词时,基于标题词性方式判定待去重文本是否为重复文本;
空间添加模块,用于在确定待去重文本不是重复文本时,以所述代表性词为索引,以所述标题和所述标题的词性标注结果为键值添加到所述索引空间。
8.根据权利要求7所述的装置,其特征在于,所述第二判断模块,具体用于获取由索引空间中所述代表性词对应的键值表示的已有标题;比较已有标题与所述标题之间的不重复词;若存在不重复词,则根据不重复词的词性判定所述待去重文本是否为重复文本;若不存在不重复词,则确定所述待去重文本是重复文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。
CN202210283294.8A 2022-03-22 2022-03-22 一种文本去重方法、装置、电子设备及存储介质 Pending CN114742042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210283294.8A CN114742042A (zh) 2022-03-22 2022-03-22 一种文本去重方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210283294.8A CN114742042A (zh) 2022-03-22 2022-03-22 一种文本去重方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114742042A true CN114742042A (zh) 2022-07-12

Family

ID=82276380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210283294.8A Pending CN114742042A (zh) 2022-03-22 2022-03-22 一种文本去重方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114742042A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722526A (zh) * 2012-05-16 2012-10-10 成都信息工程学院 基于词性分类统计的重复网页和近似网页的识别方法
US20160085634A1 (en) * 2014-09-22 2016-03-24 Storagecraft Technology Corporation Avoiding encryption of certain blocks in a deduplication vault
US20180107678A1 (en) * 2016-10-13 2018-04-19 International Business Machines Corporation Word, phrase and sentence deduplication for text repositories
CN110750731A (zh) * 2019-09-27 2020-02-04 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
CN112364625A (zh) * 2020-11-19 2021-02-12 深圳壹账通智能科技有限公司 文本筛选方法、装置、设备及存储介质
WO2021135319A1 (zh) * 2020-01-02 2021-07-08 苏宁云计算有限公司 基于深度学习的文案生成方法、装置及电子设备
WO2021174783A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 近义词推送方法、装置、电子设备及介质
KR102349624B1 (ko) * 2020-09-24 2022-01-10 주식회사 포스코아이씨티 뉴스 크롤링 시스템 및 뉴스 크롤링 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722526A (zh) * 2012-05-16 2012-10-10 成都信息工程学院 基于词性分类统计的重复网页和近似网页的识别方法
US20160085634A1 (en) * 2014-09-22 2016-03-24 Storagecraft Technology Corporation Avoiding encryption of certain blocks in a deduplication vault
US20180107678A1 (en) * 2016-10-13 2018-04-19 International Business Machines Corporation Word, phrase and sentence deduplication for text repositories
CN110750731A (zh) * 2019-09-27 2020-02-04 成都数联铭品科技有限公司 针对新闻舆情的去重方法及***
WO2021135319A1 (zh) * 2020-01-02 2021-07-08 苏宁云计算有限公司 基于深度学习的文案生成方法、装置及电子设备
WO2021174783A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 近义词推送方法、装置、电子设备及介质
KR102349624B1 (ko) * 2020-09-24 2022-01-10 주식회사 포스코아이씨티 뉴스 크롤링 시스템 및 뉴스 크롤링 방법
CN112364625A (zh) * 2020-11-19 2021-02-12 深圳壹账通智能科技有限公司 文本筛选方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
沙 芸: "基于关键词提取的娱乐新闻文档去重算法", 广西师范大学学报:自然科学版, vol. 25, no. 2, 30 June 2007 (2007-06-30) *
聂洋: "改进算法的文本去重研究", 中国优秀硕士学位论文全文数据库信息科技辑, 15 September 2011 (2011-09-15) *

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
WO2019174132A1 (zh) 数据处理方法、服务器及计算机存储介质
US10546005B2 (en) Perspective data analysis and management
CN110162750B (zh) 文本相似度检测方法、电子设备及计算机可读存储介质
WO2015180432A1 (zh) 一种聚簇存储方法及装置
CN109033385B (zh) 图片检索方法、装置、服务器及存储介质
CN111258966A (zh) 一种数据去重方法、装置、设备及存储介质
CN107688616B (zh) 使实体的独特事实显现
CN108804418B (zh) 一种基于语义分析的文档查重方法和装置
CN110019669B (zh) 一种文本检索方法及装置
CN106610931B (zh) 话题名称的提取方法及装置
US9268878B2 (en) Entity category extraction for an entity that is the subject of pre-labeled data
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
CN111859962B (zh) 一种提取汽车口碑词云所需数据的方法及装置
US10042913B2 (en) Perspective data analysis and management
CN105354182A (zh) 获取相关数字资源的方法及使用其生成专题的方法及装置
US10437838B2 (en) Search navigation element
WO2022105178A1 (zh) 一种关键词提取的方法及相关装置
CN114742042A (zh) 一种文本去重方法、装置、电子设备及存储介质
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114065727A (zh) 资讯去重方法、设备及计算机可读介质
CN109918367B (zh) 一种结构化数据的清洗方法、装置、电子设备及存储介质
CN113468339A (zh) 基于知识图谱的标签提取方法、***、电子设备及介质
CN107943965B (zh) 相似文章检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination