CN110929002A - 相似文章去重的方法、装置、终端及计算机可读存储介质 - Google Patents

相似文章去重的方法、装置、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN110929002A
CN110929002A CN201811022629.0A CN201811022629A CN110929002A CN 110929002 A CN110929002 A CN 110929002A CN 201811022629 A CN201811022629 A CN 201811022629A CN 110929002 A CN110929002 A CN 110929002A
Authority
CN
China
Prior art keywords
articles
similar
processed
mode
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811022629.0A
Other languages
English (en)
Other versions
CN110929002B (zh
Inventor
孙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uc Mobile China Co ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201811022629.0A priority Critical patent/CN110929002B/zh
Publication of CN110929002A publication Critical patent/CN110929002A/zh
Application granted granted Critical
Publication of CN110929002B publication Critical patent/CN110929002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种相似文章去重的方法、装置、终端及计算机可读存储介质,方法包括:按照预设的召回方式获取包括至少两篇待处理文章的候选集,召回方式包括以下至少之一:标题方式、关键字方式、图文哈希方式、全文哈希方式;对候选集中的待处理文章进行相似分析处理,获得待处理文章之间的相似信息;根据相似信息确定候选集中的相似文章,对相似文章进行去重处理。本发明提供的技术方案,通过预设的四种召回方式来获取包括待处理文章的候选集,通过获得待处理文章之间的相似信息,根据相似信息确定候选集中的相似文章,对相似文章进行去重处理,能够避免相同或者相似文章的重复下发,从而可以保证服务的下发质量,有效地提高用户的阅读体验。

Description

相似文章去重的方法、装置、终端及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种相似文章去重的方法、装置、终端及计算机可读存储介质。
背景技术
随着科学技术的飞速发展,人们的生活习惯和生活方式正在经历革命性变化,互联网的发展不仅方便了人们的生活,而且还大大增加了人们获取信息的渠道。
现有技术中,信息流推荐***可以结合用户画像、长期兴趣、短期兴趣和行为等,为用户提供图文和视频的精准下发服务。然而,在为用户提供图文或者视频服务的过程中,由于种种原因,网络上的文章存在大量相似甚至相同,比如:某热点事件可能会存在成百上千条的相似内容,如果该种文章大量下发给用户,会造成用户端不停看到重复的内容,阅读体验下降。
发明内容
本发明实施例提供了一种相似文章去重的方法、装置、终端及计算机可读存储介质,能够避免相同或者相似文章的重复下发,从而可以保证服务的下发质量,有效地提高用户的阅读体验。
本发明实施例第一方面提供了一种相似文章去重的方法,包括:
按照预设的召回方式获取包括至少两篇待处理文章的候选集,所述召回方式包括以下至少之一:标题方式、关键字方式、图文哈希方式、全文哈希方式;
对所述候选集中的待处理文章进行相似分析处理,获得所述待处理文章之间的相似信息;
根据所述相似信息确定所述候选集中的相似文章,对所述相似文章进行去重处理。
如上所述的方法,在按照预设的召回方式获取包括至少两篇待处理文章的候选集之前,包括:
通过预设的消息队列接收所述待处理文章的文章唯一标识;
根据所述文章唯一标识对所述待处理文章进行字段监听处理;
根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集。
如上所述的方法,根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集,包括:
若所述监听处理结果为所述待处理文章的内容文字未发生变化,则不需要按照预设的找回方式获取包括至少两篇待处理文章的候选集;或者,
若所述监听处理结果为所述待处理文章的内容文字发生变化,则按照预设的找回方式获取包括至少两篇待处理文章的候选集。
如上所述的方法,在对所述相似文章进行去重处理之后,所述方法还包括:
将去重处理的相似文章以矩阵方式进行更新存储;
生成所述相似文章之间的索引关系。
如上所述的方法,将去重处理的相似文章以矩阵方式进行更新存储,包括:
将去重处理的相似文章以矩阵行更新的方式进行更新存储;和/或,
将去重处理的相似文章以矩阵列更新的方式进行更新存储。
本发明实施例第二方面提供了一种相似文章去重的装置,包括:
获取模块,用于按照预设的召回方式获取包括至少两篇待处理文章的候选集,所述召回方式包括以下至少之一:标题方式、关键字方式、图文哈希方式、全文哈希方式;
处理模块,用于对所述候选集中的待处理文章进行相似分析处理,获得所述待处理文章之间的相似信息;
去重模块,用于根据所述相似信息确定所述候选集中的相似文章,对所述相似文章进行去重处理。
如上所述的装置,所述装置还包括:
接收模块,用于在按照预设的召回方式获取包括至少两篇待处理文章的候选集之前,通过预设的消息队列接收所述待处理文章的文章唯一标识;
所述处理模块,还用于根据所述文章唯一标识对所述待处理文章进行字段监听处理;
判断模块,用于根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集。
如上所述的装置,所述判断模块,用于:
若所述监听处理结果为所述待处理文章的内容文字未发生变化,则不需要按照预设的找回方式获取包括至少两篇待处理文章的候选集;或者,
若所述监听处理结果为所述待处理文章的内容文字发生变化,则按照预设的找回方式获取包括至少两篇待处理文章的候选集。
如上所述的装置,所述装置还包括:
存储模块,用于在对所述相似文章进行去重处理之后,将去重处理的相似文章以矩阵方式进行更新存储;
生成模块,用于生成所述相似文章之间的索引关系。
如上所述的装置,所述存储模块,用于:
将去重处理的相似文章以矩阵行更新的方式进行更新存储;和/或,
将去重处理的相似文章以矩阵列更新的方式进行更新存储。
本发明实施例第三方面提供了一种相似文章去重的终端,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的一种相似文章去重的方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行以实现如第一方面所述的一种相似文章去重的方法。
本发明实施例提供的相似文章去重的方法、装置、终端及计算机可读存储介质,通过标题方式、关键字方式、图文哈希方式、全文哈希方式中至少一个召回方式来获取包括至少两篇待处理文章的候选集,有效地保证了候选集获取的准确可靠性,另外,通过获得待处理文章之间的相似信息,根据相似信息确定候选集中的相似文章,对相似文章进行去重处理,有效地实现了相似文章的识别,能够避免相同或者相似文章的重复下发,从而可以保证服务的下发质量,有效地提高用户的阅读体验,进而保证了该方法的实用性,有利于市场的推广与应用。
附图说明
图1是本发明实施例提供的一种相似文章去重的方法的流程示意图;
图2为本发明实施例提供的另一种相似文章去重的方法的流程示意图;
图3为本发明实施例提供的根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集的流程示意图;
图4为本发明实施例提供的又一种相似文章去重的方法的流程示意图;
图5为本发明实施例提供的将去重处理的相似文章以矩阵方式进行更新存储的流程示意图;
图6为本发明实施例提供的一种相似文章去重的装置的结构示意图;
图7为本发明实施例提供的一种相似文章去重的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。
图1是本发明实施例提供的一种相似文章去重的方法的流程示意图;参考附图1所示,本实施例提供了一种相似文章去重的方法,该方法能够避免相同或者相似文章的重复下发,从而可以保证服务的下发质量,有效地提高用户的阅读体验,具体的,该方法包括:
S101:按照预设的召回方式获取包括至少两篇待处理文章的候选集,召回方式包括以下至少之一:标题方式、关键字方式、图文哈希方式、全文哈希方式;
其中,候选集中所包括的待处理文章为待分析是否相似的文章,并且,本实施例中对候选集中的待处理文章的具体数目不做限定,理论上来说,候选集中可以包括成千上万的待处理文章;
另外,上述找回方式中的按照标题方式召回的过程可以为获取文章的标题信息,根据标题信息来确定候选集;按照关键字方式召回的过程可以为获取文章中的关键字信息,该关键字信息包括文章内容中的关键字和/或文章标题中的关键字,根据关键字信息来确定候选集;按照图文哈希方式召回的过程可以为获取文章的图文哈希值,根据图文哈希值来确定候选集;按照全文哈希方式召回的过程可以为获取文章的全文哈希值,根据全文哈希值来确定候选集。可以理解的是,本领域技术人员还可以采用其他相类似的召回方式来确定候选集,在此不再赘述。
S102:对候选集中的待处理文章进行相似分析处理,获得待处理文章之间的相似信息;
在确定候选集之后,需要对候选集中的待处理文章进行相似分析处理,即判断待处理文章之间是否互为相似文章,在相似分析处理时,可以获得待处理文章之间的相似信息,该相似信息可以为待处理文章之间的相似分数、相似度或者相似比例等等。
S103:根据相似信息确定候选集中的相似文章,对相似文章进行去重处理。
在获取到相似信息之后,可以根据相似信息确定候选集中的相似文章,举例来说,当相似信息为相似分数时,可以将待处理文章按照相似分数进行排序,并保留排序较高的待处理文章,对排序较低的待处理文章进行去重处理;或者,将相似分数与预设的阈值分数进行分析比较,若相似分数超过阈值分数,则确定该相似分数所对应的待处理文章为相似文章,则对该相似文章进行去重处理,若相似分数低于阈值分数,则保留与该相似分数相对应的待处理文章;再或者,当相似信息为相似度时,若相似度超过相似度阈值,则确定该相似度所对应的待处理文章为相似文章,则对该相似文章进行去重处理,若相似度低于相似度阈值,则保留与该相似度相对应的待处理文章;再或者,当相似信息为相似比例时,若相似比例超过阈值比例时,则确定该相似比例所对应的待处理文章为相似文章,则对该相似文章进行去重处理,若相似比例低于阈值比例,则保留与该相似度相对应的待处理文章。当然的,本领域技术人员还可以采用其他的相同或相似的方式来确定候选集中的相似文章,对相似文章进行去重处理,在此不再赘述。
本实施例提供的相似文章去重的方法,通过标题方式、关键字方式、图文哈希方式、全文哈希方式中至少一个召回方式来获取包括至少两篇待处理文章的候选集,有效地保证了候选集获取的准确可靠性,另外,通过获得待处理文章之间的相似信息,根据相似信息确定候选集中的相似文章,对相似文章进行去重处理,有效地实现了相似文章的识别,能够避免相同或者相似文章的重复下发,从而可以保证服务的下发质量,有效地提高用户的阅读体验,进而保证了该方法的实用性,有利于市场的推广与应用。
图2为本发明实施例提供的另一种相似文章去重的方法的流程示意图;
图3为本发明实施例提供的根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集的流程示意图;在上述实施例的基础上,继续参考附图2-3可知,本实施例中,在按照预设的召回方式获取包括至少两篇待处理文章的候选集之前,该方法还包括:
S001:通过预设的消息队列接收待处理文章的文章唯一标识;
其中,消息队列可以来自于预设的外部平台,外部平台用于对文章的处理过程进行统一管理;另外,每个文章均有各自的文章唯一标识,通过文章唯一标识可以在多个文章中确定唯一的相对应文章。
S002:根据文章唯一标识对待处理文章进行字段监听处理;
在获取到文章唯一标识之后,可以通过文章唯一标识查找到相对应的待处理文章,在获取到待处理文章之后,可以对待处理文章进行字段监听处理,具体的,可以对待处理文章的时间戳信息、标题信息、内容文字信息进行字段分析处理,以判断上述各个信息是否发生变化。例如:将时间戳信息与预设的标准时间戳信息进行分析对比,以判断时间戳信息是否发生变化;或者,将标题信息与历史标题信息进行分析对比,以判断标题信息是否发生变化。
S003:根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集。
具体的,根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集可以包括:
S0031:若监听处理结果为待处理文章的内容文字未发生变化,则不需要按照预设的找回方式获取包括至少两篇待处理文章的候选集;或者,
其中,待处理文章的内容文字可以包括:标题文字和/或正文文字内容,在待处理文章的内容文字未发生变化时,例如:待处理文章的内容文字未发生变化,而待处理文章的时间戳信息发生了变化,其中,时间戳信息可以包括:有效时间、发送时间、创建时间、访问时间等与时间有关的信息,则说明该待处理文章未发生实质性的内容改变,因此,不需要对该待处理文章的相似度情况进行分析处理,进而不需要按照预设的找回方式获取包括至少两篇待处理文章的候选集。
S0032:若监听处理结果为待处理文章的内容文字发生变化,则按照预设的找回方式获取包括至少两篇待处理文章的候选集。
由于待处理文章的内容文字包括:标题文字和/或正文文字内容,举例来说,待处理文章的标题文字和/或正文文字内容发生了变化,则说明该待处理文章已发生实质性的内容改变,因此,需要对该待处理文章的相似度情况进行分析处理,进而需要按照预设的找回方式获取包括至少两篇待处理文章的候选集。
通过获取待处理文章的文章唯一标识,根据文章唯一标识对待处理文章进行字段监听处理,并在待处理文章发生实质性改变时进行候选集的获取操作,以便于对待处理文章进行相似性分析;而在待处理文章未发生实质性改变时不做候选集的获取操作,有效地提高了该方法使用的灵活性,进一步提高了该方法的适用范围。
图4为本发明实施例提供的又一种相似文章去重的方法的流程示意图;
图5为本发明实施例提供的将去重处理的相似文章以矩阵方式进行更新存储的流程示意图;在上述实施例的基础上,继续参考附图4-5可知,为了进一步提高该方法的实用性,在对相似文章进行去重处理之后,方法还包括:
S201:将去重处理的相似文章以矩阵方式进行更新存储;
将去重处理的相似文章以矩阵方式存储,并将每行第一个元素确定为源文章唯一标识item id,它后面跟随若干个与它相似的文章唯一标识item id。该矩阵方式存储结构的更新包括两种类型:行更新和列更新。具体的,将去重处理的相似文章以矩阵方式进行更新存储可以包括:
S2011:将去重处理的相似文章以矩阵行更新的方式进行更新存储;和/或,
其中,矩阵行更新的方式的使用场景是一篇新的文章首次计算相似文章sim信息,并可以将计算出的结果作为一行在矩阵中直接添加。
S2012:将去重处理的相似文章以矩阵列更新的方式进行更新存储。
其中,矩阵列更新的方式是为了解决由于相似文章sim计算顺序导致的数据缺失。假设A和B是相似的两篇新文章,尚未经过相似文章的分析计算,后续A先于B进行入库存储,那么,相似文章sim计算的顺序为先A后B,在计算A的相似文章sim时,矩阵库中并没有B,所以A的相似中不会有B。在计算B时,由于矩阵库中A已存在,所以B的相似中会有A;相似关系是具有对称性的,这时,就需要根据B和A相似这一确定的关系,对源item id为A的那一行做列更新,增加的内容为B。
S202:生成相似文章之间的索引关系。
在进行矩阵方式进行更新存储相似文章时,为了方便对所存储的相似文章进行查找和分析处理,可以生成相似文章之间的索引关系,此时,相似文章所构成的矩阵存储方式可以形成一索引库,索引库中存储有与每个相似文章相对应的文章唯一标识。
通过将去重处理的相似文章以矩阵列更新的方式进行更新存储,有利于在离线状态时对文章进行分析处理,而恢复到在线状态时,可以通过离线状态时的分析处理结果直接进行文章的下发服务,保证了文章下发服务的质量和效率,并且提高了该方法使用的稳定可靠性。
具体应用时,本应用实施例提供的相似文章去重的方法可以基于推荐***来实现,其中,推荐***是平响敏感型服务,相似文章sim去重涉及大量的计算,所以相似文章去重工作需要拆分为两部分,离线相似文章集合计算和在线相似文章过滤,本应用实施例主要介绍离线计算部分。
在进行相似文章去重的分析处理时,该方法还可以对外提供rpc接口接收请求和返回结果。具体的,该相似文章去重的分析处理的工作步骤可分为候选集召回、相似打分、排序、去重/过滤几部分。其中,候选集召回是对接搜索引擎,可以实现按照标题、关键字、图片哈希和全文哈希四种方式进行召回。需要说明的是,在进行候选集召回时,重点是在保证召回量的基础上合理控制平响时间,优化手段可以包含分词器预加载处理,从而可以提高不同召回间的并发度,优化程序内存使用等。召回候选集之后,将候选集中的待处理文章按照一定规则打分后进行粗排序和过滤,进一步计算最终给出相似文章sim结果集。
在进行相似文章的去重处理之前,该方法还可以通过消息队列接收源item id,并监听特殊字段来决定是否需要发起相似文章sim计算。它在内存中映射一份矩阵数据结构,通过不断发起请求并根据结果来更新该结构,然后,以增量形式把相似文章sim信息写入消息队列供下游处理。同时定期将矩阵以二进制形式持久化到磁盘上,同时记录下本次持久化的时间戳。
进一步的,若在进行相似文章的去重处理过程中,突发中断或者意外退出情况,在可以重新启动,而后会加载该文件,并根据时间戳重新发起尚未持久化信息的相似文章sim去重处理请求。
本实施例提供的相似文章去重的方法,通过标题方式、关键字方式、图文哈希方式、全文哈希方式中至少一个召回方式来获取包括至少两篇待处理文章的候选集,有效地保证了候选集获取的准确可靠性,另外,通过获得待处理文章之间的相似信息,根据相似信息确定候选集中的相似文章,对相似文章进行去重处理,能够避免相同或者相似文章的重复下发,从而可以保证服务的下发质量,有效地提高用户的阅读体验;此外,通过将去重处理的相似文章以矩阵列更新的方式进行更新存储,有利于在离线状态时对文章进行分析处理,而恢复到在线状态时,可以通过离线状态时的分析处理结果直接进行文章的下发服务,保证了文章下发服务的质量和效率,并且提高了该方法使用的稳定可靠性。
图6为本发明实施例提供的一种相似文章去重的装置的结构示意图;参考附图6可知,本实施例提供了一种相似文章去重的装置,该装置可以执行上述的相似文章去重的方法,具体的,该装置可以包括:
获取模块1,用于按照预设的召回方式获取包括至少两篇待处理文章的候选集,召回方式包括以下至少之一:标题方式、关键字方式、图文哈希方式、全文哈希方式;
处理模块2,用于对候选集中的待处理文章进行相似分析处理,获得待处理文章之间的相似信息;
去重模块3,用于根据相似信息确定候选集中的相似文章,对相似文章进行去重处理。
本实施例对于确定模块1、处理模块2和去重模块3的具体形状结构不做限定,本领域技术人员可以根据其实现的功能作用对其进行任意设置,在此不再赘述;另外,本实施例中确定模块1、处理模块2和去重模块3所实现的操作步骤的具体实现过程以及实现效果与上述实施例中步骤S101-S103的具体实现过程以及实现效果相同,具体可参考上述陈述内容,在此不再赘述。
进一步的,该装置还可以包括:
接收模块4,用于在按照预设的召回方式获取包括至少两篇待处理文章的候选集之前,通过预设的消息队列接收待处理文章的文章唯一标识;
处理模块2,还用于根据文章唯一标识对待处理文章进行字段监听处理;
判断模块5,用于根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集。
其中,在判断模块5根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集时,该判断模块5用于:若监听处理结果为待处理文章的内容文字未发生变化,则不需要按照预设的找回方式获取包括至少两篇待处理文章的候选集;或者,若监听处理结果为待处理文章的内容文字发生变化,则按照预设的找回方式获取包括至少两篇待处理文章的候选集。
进一步的,装置还包括:
存储模块6,用于在对相似文章进行去重处理之后,将去重处理的相似文章以矩阵方式进行更新存储;
生成模块7,用于生成相似文章之间的索引关系。
其中,存储模块6,将去重处理的相似文章以矩阵方式进行更新存储时,该存储模块6用于:将去重处理的相似文章以矩阵行更新的方式进行更新存储;和/或,将去重处理的相似文章以矩阵列更新的方式进行更新存储。
本实施例提供的一种相似文章去重的装置能够用于执行图1-图5实施例所对应的方法,其具体执行方式和有益效果类似,在这里不再赘述。
图7为本发明实施例提供的一种相似文章去重的终端的结构示意图,参考附图7所示,本实施例提供了一种相似文章去重的终端,包括:
存储器302;
处理器301;以及
计算机程序;
其中,计算机程序存储在存储器302中,并被配置为由处理器301执行以实现如上述任意一个实施例中的一种一种相似文章去重的方法。
本实施例的又一方面提供了一种计算机可读存储介质,其上存储有计算机程序;
计算机程序被处理器执行以实现如上述任意一个实施例中的一种一种相似文章去重的方法。
最后需要说明的是,本领域普通技术人员可以理解上述实施例方法中的全部或者部分流程,是可以通过计算机程序来指令相关的硬件完成,所述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可以为磁盘、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
本发明实施例中的各个功能单元可以集成在一个处理模块中,也可以是各个单元单独的物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现,并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。上述提到的存储介质可以是只读存储器、磁盘或光盘等。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种相似文章去重的方法,其特征在于,包括:
按照预设的召回方式获取包括至少两篇待处理文章的候选集,所述召回方式包括以下至少之一:标题方式、关键字方式、图文哈希方式、全文哈希方式;
对所述候选集中的待处理文章进行相似分析处理,获得所述待处理文章之间的相似信息;
根据所述相似信息确定所述候选集中的相似文章,对所述相似文章进行去重处理。
2.根据权利要求1所述的方法,其特征在于,在按照预设的召回方式获取包括至少两篇待处理文章的候选集之前,包括:
通过预设的消息队列接收所述待处理文章的文章唯一标识;
根据所述文章唯一标识对所述待处理文章进行字段监听处理;
根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集。
3.根据权利要求2所述的方法,其特征在于,根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集,包括:
若所述监听处理结果为所述待处理文章的内容文字未发生变化,则不需要按照预设的找回方式获取包括至少两篇待处理文章的候选集;或者,
若所述监听处理结果为所述待处理文章的内容文字发生变化,则按照预设的找回方式获取包括至少两篇待处理文章的候选集。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,在对所述相似文章进行去重处理之后,所述方法还包括:
将去重处理的相似文章以矩阵方式进行更新存储;
生成所述相似文章之间的索引关系。
5.根据权利要求4所述的方法,其特征在于,将去重处理的相似文章以矩阵方式进行更新存储,包括:
将去重处理的相似文章以矩阵行更新的方式进行更新存储;和/或,
将去重处理的相似文章以矩阵列更新的方式进行更新存储。
6.一种相似文章去重的装置,其特征在于,包括:
获取模块,用于按照预设的召回方式获取包括至少两篇待处理文章的候选集,所述召回方式包括以下至少之一:标题方式、关键字方式、图文哈希方式、全文哈希方式;
处理模块,用于对所述候选集中的待处理文章进行相似分析处理,获得所述待处理文章之间的相似信息;
去重模块,用于根据所述相似信息确定所述候选集中的相似文章,对所述相似文章进行去重处理。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
接收模块,用于在按照预设的召回方式获取包括至少两篇待处理文章的候选集之前,通过预设的消息队列接收所述待处理文章的文章唯一标识;
所述处理模块,还用于根据所述文章唯一标识对所述待处理文章进行字段监听处理;
判断模块,用于根据监听处理结果判断是否按照预设的召回方式获取包括至少两篇待处理文章的候选集。
8.根据权利要求7所述的装置,其特征在于,所述判断模块,用于:
若所述监听处理结果为所述待处理文章的内容文字未发生变化,则不需要按照预设的找回方式获取包括至少两篇待处理文章的候选集;或者,
若所述监听处理结果为所述待处理文章的内容文字发生变化,则按照预设的找回方式获取包括至少两篇待处理文章的候选集。
9.根据权利要求6-8中任意一项所述的装置,其特征在于,所述装置还包括:
存储模块,用于在对所述相似文章进行去重处理之后,将去重处理的相似文章以矩阵方式进行更新存储;
生成模块,用于生成所述相似文章之间的索引关系。
10.根据权利要求9所述的装置,其特征在于,所述存储模块,用于:
将去重处理的相似文章以矩阵行更新的方式进行更新存储;和/或,
将去重处理的相似文章以矩阵列更新的方式进行更新存储。
11.一种相似文章去重的终端,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-5中任意一项所述的一种相似文章去重的方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被处理器执行以实现如权利要求1-5中任意一项所述的一种相似文章去重的方法。
CN201811022629.0A 2018-09-03 2018-09-03 相似文章去重的方法、装置、终端及计算机可读存储介质 Active CN110929002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811022629.0A CN110929002B (zh) 2018-09-03 2018-09-03 相似文章去重的方法、装置、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811022629.0A CN110929002B (zh) 2018-09-03 2018-09-03 相似文章去重的方法、装置、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110929002A true CN110929002A (zh) 2020-03-27
CN110929002B CN110929002B (zh) 2022-10-11

Family

ID=69854951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811022629.0A Active CN110929002B (zh) 2018-09-03 2018-09-03 相似文章去重的方法、装置、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110929002B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328884A (zh) * 2021-12-03 2022-04-12 腾讯科技(深圳)有限公司 一种图文去重方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158675A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Partial Recall of Deduplicated Files
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103543959A (zh) * 2013-10-08 2014-01-29 深圳市国泰安信息技术有限公司 海量数据高速缓存的方法及装置
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106570066A (zh) * 2016-10-11 2017-04-19 北京网诺星云科技有限公司 文件监测方法和***
CN106844143A (zh) * 2016-12-27 2017-06-13 微梦创科网络科技(中国)有限公司 一种日志去重处理方法及装置
CN106850750A (zh) * 2016-12-26 2017-06-13 北京五八信息技术有限公司 一种实时推送信息的方法和装置
CN106933878A (zh) * 2015-12-30 2017-07-07 腾讯科技(北京)有限公司 一种信息处理方法及装置
CN107315799A (zh) * 2017-06-19 2017-11-03 重庆誉存大数据科技有限公司 一种互联网重复信息筛选方法及***
WO2018014759A1 (zh) * 2016-07-18 2018-01-25 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和***
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158675A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Partial Recall of Deduplicated Files
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103543959A (zh) * 2013-10-08 2014-01-29 深圳市国泰安信息技术有限公司 海量数据高速缓存的方法及装置
CN106933878A (zh) * 2015-12-30 2017-07-07 腾讯科技(北京)有限公司 一种信息处理方法及装置
WO2018014759A1 (zh) * 2016-07-18 2018-01-25 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和***
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106570066A (zh) * 2016-10-11 2017-04-19 北京网诺星云科技有限公司 文件监测方法和***
CN106850750A (zh) * 2016-12-26 2017-06-13 北京五八信息技术有限公司 一种实时推送信息的方法和装置
CN106844143A (zh) * 2016-12-27 2017-06-13 微梦创科网络科技(中国)有限公司 一种日志去重处理方法及装置
CN107315799A (zh) * 2017-06-19 2017-11-03 重庆誉存大数据科技有限公司 一种互联网重复信息筛选方法及***
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328884A (zh) * 2021-12-03 2022-04-12 腾讯科技(深圳)有限公司 一种图文去重方法及装置

Also Published As

Publication number Publication date
CN110929002B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN107784010B (zh) 一种用于确定新闻主题的热度信息的方法与设备
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN112714359B (zh) 视频推荐方法、装置、计算机设备及存储介质
WO2015016821A1 (en) Determining topic relevance of an email thread
CN105302807B (zh) 一种获取信息类别的方法和装置
US7536512B2 (en) Method and apparatus for space efficient identification of candidate objects for eviction from a large cache
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN111191178A (zh) 一种信息推送方法、装置、服务器和存储介质
CN107357794B (zh) 优化键值数据库的数据存储结构的方法和装置
CN109271545A (zh) 一种特征检索方法及装置、存储介质和计算机设备
EP3706014A1 (en) Methods, apparatuses, devices, and storage media for content retrieval
CN111198961A (zh) 商品搜索方法、装置及服务器
CN110929002B (zh) 相似文章去重的方法、装置、终端及计算机可读存储介质
JP2007528531A (ja) カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
EP2084623A1 (en) Fast database matching
CN110827101A (zh) 一种店铺推荐的方法和装置
CN112287102B (zh) 数据挖掘方法和装置
CN105740210B (zh) 一种信息相似度确定方法及装置
CN107169065B (zh) 一种特定内容的去除方法和装置
CN108170664B (zh) 基于重点关键词的关键词拓展方法和装置
JP3692416B2 (ja) 情報フィルタリング方法および装置
JP2020525949A (ja) メディア検索方法及び装置
CN111143582B (zh) 一种双索引实时更新联想词的多媒体资源推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200417

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510000 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: Room 554, 5 / F, building 3, 969 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: Alibaba (China) Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20220915

Address after: 510665 Room 302, Room 301, No. 38, Gaopu Road, Tianhe District, Guangzhou, Guangdong

Applicant after: UC MOBILE (CHINA) Co.,Ltd.

Address before: Room 554, 5 / F, building 3, 969 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant before: Alibaba (China) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant