CN115292477B

CN115292477B - 推送相似文章判定方法和装置、及存储介质和电子设备

Info

Publication number: CN115292477B
Application number: CN202210840564.0A
Authority: CN
Inventors: 李国库
Original assignee: Yancheng Tianyanchawei Technology Co ltd
Current assignee: Yancheng Tianyanchawei Technology Co ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2024-04-16
Anticipated expiration: 2042-07-18
Also published as: CN115292477A

Abstract

本发明提供了一种推送相似文章判定方法和装置、及存储介质和电子设备，该方法包括：获取与用户匹配度最高的前N篇文章作为候选文章，及获取用户的历史推送文章；分别获取候选文章和历史推送文章中对应的候选文章关键词语和历史推送文章关键词语；根据历史推送文章关键词语，构建有向有环图；基于有向有环图和候选文章关键词语，计算候选文章的相似分数；响应相似分数小于或者等于预先设定的阈值的比较结果，去除与历史推送文章重复的候选文章；本发明通过计算并判断候选文章与历史推送文章的相似分数，来确定候选文章是否与历史推送文章相似，避免在推送时对同一用户重复推送相似文章，并且能够减少资源占用率。

Description

推送相似文章判定方法和装置、及存储介质和电子设备

技术领域

本发明涉及计算机技术领域，尤其是一种推送相似文章判定方法和装置、及存储介质和电子设备。

背景技术

目前，新闻媒体较多，对于大众关心的热点资讯，各个媒体均会进行报道。为提高用户的活跃程度，需要不定期对不同的用户推送个性化的文章资讯。但是，各个媒体报道内容的核心不会变化，只是在表述、修饰等方面会有所不同，也就是说，候选文章池中可能会存在相似的文章(不同的媒体提供的文章可能描述的是同一件事)，这就会导致在为用户推送文章时，很可能为同一个用户多次选择出相似文章进行推送，因此，需要判定当前选择的文章是否在历史推送的过程中被推送过，以避免在推送时对同一用户重复选择相似文章进行推送，从而影响用户体验感。

发明内容

有鉴于此，本发明提供了一种推送相似文章判定方法和装置、及存储介质和电子设备，以至少部分解决上述问题。

为解决上述问题，本发明提供了一种推送相似文章判定方法，该方法包括：

获取与用户匹配度最高的前N篇文章作为候选文章，及获取用户的历史推送文章；

分别获取候选文章和历史推送文章中对应的候选文章关键词语和历史推送文章关键词语；

根据历史推送文章关键词语，构建有向有环图；

基于有向有环图和候选文章关键词语，计算候选文章的相似分数；

响应相似分数小于或者等于预先设定的阈值的比较结果，去除与历史推送文章重复的候选文章。

可选地，基于有向有环图和候选文章关键词语，计算候选文章的相似分数，包括：

基于有向有环图，计算有向有环图中的每个历史推送文章关键词语的词权重值；

基于有向有环图和候选文章关键词语，计算每一篇候选文章与历史推送文章的文章相似度；

根据词权重值和文章相似度，计算候选文章的相似分数。

可选地，分别获取候选文章和历史推送文章中对应的候选文章关键词语和历史推送文章关键词语，包括：

分别对候选文章和历史推送文章进行分词；

剔除分词后的候选文章和分词后的历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语。

可选地，剔除分词后的候选文章和分词后的历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语，包括：

预先设定停用词列表；

根据停用词列表，剔除分词后的候选文章和分词后的历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语。

可选地，根据历史推送文章关键词语，构建有向有环图，包括：

汇总历史推送文章关键词语；

以历史推送文章关键词语为节点，以历史推送文章关键词语的先后顺序作为每个节点的指向，构建有向有环图。

可选地，基于有向有环图，计算有向有环图中的每个历史推送文章关键词语的词权重值，包括：

获取历史推送文章数及有向有环图中的每个历史推送文章关键词语在历史推送文章中首次出现的历史次数；

基于Q＝log((L+n)/(M+n))，计算有向有环图中的每个历史推送文章关键词语的词权重值，其中，Q为词权重值，L为历史推送文章数，M为历史次数，n为权重调整值且取不为零的正整数。

可选地，基于有向有环图和候选文章关键词语，计算每一篇候选文章与历史推送文章的文章相似度，包括：

基于有向有环图和候选文章关键词语，获取候选文章路径，得到结果向量；

根据结果向量，计算候选文章与历史推送文章的文章相似度。

可选地，基于有向有环图和候选文章关键词语，获取候选文章路径，得到结果向量，包括：

将候选文章关键词语中的每一词语分别在有向有环图中进行遍历，判断能否查找到与词语相同的节点；

若查找到相同的节点，将当前词语标记为第一预设标识符并添加至结果向量，以有向有环图中当前节点向后继续查找候选文章关键词语中的下一个词语；

若未查找到相同的节点，将当前词语标记为第二预设标识符并添加至结果向量，以有向有环图中当前节点继续向后查找当前词语，当对前节点的每一出度的遍历的步长大于预设步长仍未查找到与当前词语相同的节点时，在有向有环图中重新遍历候选文章关键词语中的下一个词语；

遍历结束后得到最终的结果向量。

可选地，根据结果向量，计算候选文章与历史推送文章的文章相似度，包括：

基于最终的结果向量，计算结果向量中第一预设标识符的个数占整体结果向量长度的比例。

可选地，根据词权重值和文章相似度，计算候选文章的相似分数，包括：

根据词权重值，计算候选文章在有向有环图中的词权重和；

根据相似分数＝词权重和×文章相似度，计算候选文章的相似分数。

可选地，该方法还包括：

响应相似分数大于预先设定的阈值的比较结果，则候选文章与历史推送文章不相似，使用候选文章关键词语补充构建有向有环图。

为解决上述问题，本发明还提供一种推送相似文章判定装置，该装置包括：

文章获取模块，用于获取与用户匹配度最高的前N篇文章作为候选文章，及获取用户的历史推送文章；

关键词语获取模块，用于分别获取候选文章和历史推送文章中对应的候选文章关键词语和历史推送文章关键词语；

构建模块，用于根据历史推送文章关键词语，构建有向有环图；

计算模块，用于基于有向有环图和候选文章关键词语，计算候选文章的相似分数；

去重模块，用于响应相似分数小于或者等于预先设定的阈值的比较结果，去除与历史推送文章重复的候选文章。

为解决上述问题，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述推送相似文章判定方法任一方法的实施例。

为解决上述问题，本发明还提供一种电子设备，电子设备包括存储器以及处理器，存储器上用于存储计算机可执行程序，处理器用于运行计算机可执行程序以实现上述推送相似文章判定方法任一方法的实施例。

本发明提供的推送相似文章判定方法和装置、及存储介质和电子设备，通过排查相似文章，有效地避免了对同一用户重复推送相似文章的问题，提高了用户体验感，并且能够减少资源占用率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明一示例性实施例提供的推送相似文章判定方法的一流程示意图；

图2是本发明一示例性实施例提供的推送相似文章判定方法的另一流程示意图；

图3是本发明一示例性实施例提供的推送相似文章判定方法的又一流程示意图；

图4是本发明一示例性实施例提供的推送相似文章判定方法的再一流程示意图；

图5是本发明一示例性实施例提供的关键词语B构建图的示意图；

图6是本发明一示例性实施例提供的装置的结构示意图；

图7是本发明一示例性实施例提供的电子设备的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

示例性方法

图1是本发明一示例性实施例提供的推送相似文章判定方法的流程示意图。本实施例可应用在电子设备上，如图1所示，该方法包括以下步骤：

步骤S101，获取与用户匹配度最高的前N篇文章作为候选文章，及获取用户的历史推送文章；

其中，N为正整数；而对于候选文章的选取方式，本领域技术人员可以根据实际需要选取现有技术中的选取方式，此处不做限定。

对于历史推送文章的获取方式，本领域技术人员可以根据实际需要选取现有技术中的获取方式，此处不做限定。

步骤S102，分别获取候选文章和历史推送文章中对应的候选文章关键词语和历史推送文章关键词语；

可选地，如图2所示，步骤S102具体包括：

步骤S1021，分别对候选文章和历史推送文章进行分词；

步骤S1022，剔除分词后的候选文章和分词后的历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语。

可选地，步骤S1022又进一步包括：预先设定停用词列表；根据停用词列表，剔除分词后的候选文章和分词后的历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语。

步骤S103，根据历史推送文章关键词语，构建有向有环图；

可选地，如图2所示，步骤S103具体包括：

步骤S1031，汇总历史推送文章关键词语；

步骤S1032，以历史推送文章关键词语为节点，以历史推送文章关键词语的先后顺序作为每个节点的指向，构建有向有环图。

其中，根据历史推送文章关键词语构建的有向有环图可以为一个或多个。具体地，若历史推送文章为一篇，则根据该历史推送文章的历史推送文章关键词语可构建一个有向有环图；若历史推送文章为多篇，则根据多篇历史推送文章的历史推送文章关键词语可构建一个有向有环图，也可针对每篇历史推送文章的历史推送文章关键词语分别对应构建一个有向有环图，即多个有向有环图。

需要说明的是，若一篇或多篇历史推送文章中存在相同的历史推送文章关键词语，在构建一个有向有环图时，相同的历史推送文章关键词语作为节点只能出现一次。也就是说，若一篇或多篇历史推送文章中存在相同的历史推送文章关键词语，在构建一个有向有环图时，相同的历史推送文章关键词语进行合并处理。

步骤S104，基于有向有环图和候选文章关键词语，计算候选文章的相似分数；

可选地，如图3所示，步骤S104具体包括：

步骤S1041，基于有向有环图，计算有向有环图中的每个历史推送文章关键词语的词权重值；

可选地，步骤S1041具体包括：

步骤S1042，基于有向有环图和候选文章关键词语，计算每一篇候选文章与历史推送文章的文章相似度；

可选地，步骤S1042具体包括：基于有向有环图和候选文章关键词语，获取候选文章路径，得到结果向量；根据结果向量，计算候选文章与历史推送文章的文章相似度。

可选地，基于有向有环图和候选文章关键词语，获取候选文章路径，得到结果向量具体包括：

遍历结束后得到最终的结果向量。

进一步地，当根据历史推送文章关键词语构建多个有向有环图，则每个候选文章遍历该多个有向有环图，这种方式能够准确地计算出候选文章与历史推送文章的文章相似度，从而使得去重更为准确；当根据历史推送文章关键词语构建一个有向有环图，则每一个候选文章仅与该有向有环图遍历，这种方式能够有效地压缩计算数据量，提升计算效率。

可选地，当候选文章关键词语中的第一个词语在有向有环图中进行遍历时，若候选文章关键词语中的第一个词语在有向有环图中未查找到，直接将候选文章关键词语中的第一个词语标记为与预设步长相同个数的第二预设标识符并添加至结果向量，继续在有向有环图重新遍历候选文章关键词语中的下一个词语。

此外，应当注意的是，当候选文章关键词语中的当前词语的上一个词语在有向有环图中未查找到，标记为与预设步长相同个数的第二预设标识符并添加至结果向量时，候选文章关键词语中的当前词语不再按照上一个词语的候选文章路径继续查找，而是重新遍历整个有向有环图。

可选地，根据结果向量，计算候选文章与历史推送文章的文章相似度具体包括：基于最终的结果向量，计算结果向量中第一预设标识符的个数占整体结果向量长度的比例。

步骤S1043，根据词权重值和文章相似度，计算候选文章的相似分数。

可选地，步骤S1043具体包括：

根据词权重值，计算候选文章在有向有环图中的词权重和；

步骤S105，响应相似分数小于或者等于预先设定的阈值的比较结果，去除与历史推送文章重复的候选文章。

在本发明的一种可选实施方式中，该方法还包括：响应相似分数大于预先设定的阈值的比较结果，则候选文章与历史推送文章不相似，使用候选文章关键词语补充构建有向有环图。

本发明提供的推送相似文章判定方法，有效地避免了对同一用户重复推送相似文章的问题，提高了用户体验感，并且能够减少资源占用率。

图4是本发明一示例性实施例提供的推送相似文章判定方法的再一流程示意图。如图4所示，该方法包括如下步骤：

步骤S201，使用经过训练后的推荐模型，从候选文章内容池中获取与用户匹配度最高的前N篇文章作为候选文章；

在本发明实施例的一种实现方式中，推荐模型可以为现有技术中的DeepCrossing模型、NeuralCF模型、PNN模型或者Wide&Deep模型，本发明实施例对所使用的推荐模型不作具体限定。另外，候选文章的数量根据预设匹配度范围内所包含的文章确定，本发明实施例对候选文章的数量不作具体限定。其中，N为正整数。

在本实施例中，候选文章中包含一篇候选文章A为“我喜欢看小说”。需要说明的是，候选文章A仅为详细解释说明本发明所列举的一例，并且，本实施例以仅以一篇候选文章为例进行说明。

步骤S202，获取历史推送文章；

在本实施例中，历史推送文章中包含一篇历史推送文章B为“我不喜欢看电视，也不喜欢看电影”。需要说明的是，候选文章A是为详细解释说明本发明所列举的一例，并且，本实施例仅以一篇历史推送文章为例进行说明。

步骤S203，使用jieba分词工具分别对候选文章A、历史推送文章B进行分词；

分词后的候选文章A为：我/喜欢/看/小说；

分词后的历史推送文章B为：我/不/喜欢/看/电视/也/不/喜欢/看/电影。

步骤S204，根据预先设定的停用词列表，对分词后的候选文章A和分词后的历史推送文章B剔除停用词，得到关键词语A(即候选文章关键词语)和关键词语B(即历史推送文章关键词语)；

预先设定的停用词列表可以为：的、是、我、你、他等，本实施例对停用词列表不作任何限定，本领域技术人员可以根据实际需要灵活设定。

关键词语A为：喜欢/看/小说；

关键词语B为：不/喜欢/看/电视/不/喜欢/看/电影。

步骤S205，构建关键词语B的有向有环图；

在本实施例中，以关键词语B的每个词语为节点，以关键词语B的先后顺序为每个节点的指向，构建有向有环图，如图5所示，得到对关键词语B构建的有向有环图。

步骤S206，获取历史推送文章数及有向有环图中的每个历史推送文章关键词语在历史推送文章中首次出现的历史次数；

在本实施例中，由于只存在一篇历史推送文章B，因此，历史推送文章数为1。需要说明的是，若历史推送文章存在B和C两篇，则历史推送文章数为2，以此类推，此处不再赘述。

在本实施例中，如图5所示，有向有环图中包括“喜欢”、“看”、“不”、“电视”、“电影”五个历史推送文章关键词语(即节点)，将每个节点在历史推送文章中首次出现的次数作为历史次数。

具体地，本实施例中，只存在一篇历史推送文章B，因此，有向有环图中包括的“喜欢”、“看”、“不”、“电视”、“电影”五个节点在历史推送文章中首次出现的历史次数只能为1。

应当理解的是，若有向有环图中包括的“喜欢”节点在历史推送文章B中出现的次数为20次，该节点在历史推送文章中首次出现的历史次数也为1，即只将该节点在历史推送文章中首次出现的次数作为历史次数。

步骤S207，基于Q＝log((L+n)/(M+n))，计算有向有环图中的每个历史推送文章关键词语的词权重值，其中，Q为词权重值，L为历史推送文章数，M为历史次数，n为权重调整值且取不为零的正整数。

其中，权重调整值n优选为1，但本领域技术人员也可根据实际需要灵活选择其他数值，此处不做限定。其中，权重调整值n不仅能够防止除数为0，导致计算出现问题，也能够调整词权重值大小，n越大，词权重值越大，历史推送文章关键词语之间的差异越明显。

继续上述举例，“喜欢”节点的词权重值Q1＝log((1+1)/(1+1))＝0；“看”节点的词权重值Q2＝log((1+1)/(1+1))＝0；“不”节点的词权重值Q3＝log((1+1)/(1+1))＝0；“电视”节点的词权重值Q4＝log((1+1)/(1+1))＝0；“电影”节点的词权重值Q5＝log((1+1)/(1+1))＝0。

步骤S208，构建结果向量，依次对关键词语A中的所有词语进行遍历，在有向有环图中查找，根据查找结果标记“1”或“0”，并将标记数字添加至结果向量；

其中，步骤S208可进一步包括：

将关键词语A中的每一个词语分别在有向有环图中遍历，判断能否查找到与词语相同的节点；

若查找到相同的节点，将当前词语标记为“1”(第一预设标识符)并添加至结果向量，以有向有环图中当前节点向后继续查找关键词语A中的下一个词语；

若未查找到相同的节点，将当前词语标记为“0”(第二预设标识符)并添加至结果向量，以有向有环图中当前节点继续向后查找当前词语；当对前节点每一出度的遍历的步长大于预设步长仍未查找到与当前词语相同的节点时，在有向有环图中重新遍历关键词语A中的下一个词语；

在本实施例中，预设步长优选为五，当然本领域技术人员也可以根据实际需要进行选择，此处作限定。

具体地，首先，判断关键词语A中的词语“喜欢”是否在有向有环图中，若查找到与词语“喜欢”相同的节点，将当前词语“喜欢”标记为“1”并添加至结果向量，此时结果向量为1；继续遍历下一个词语“看”，判断词语“看”是否在有向有环图中，若查找到与词语“看”相同的节点，将当前词语“看”标记为“1”并添加至结果向量，此时结果向量为：11；词语“看”的下一个词语是“小说”，在当前节点“看”的每一出度中继续查找，找到词语“看”节点之后的“电视”节点和“电影”节点，未查找到与词语“小说”相同的节点，此时结果向量为：110；遍历“电视”节点的下一个节点，下一个节点是“不”，节点“不”与词语“小说”不相同，则在图中继续查找，最多查找的步长为五，均未查找到，此时结果向量为1100000，遍历结束，最终的结果向量为1100000。

全部遍历完成，形成最终结果向量，最终结果向量为：1100000。

步骤S209，计算结果向量中“1”的个数占整体结果向量的比例，得到候选文章A与历史推送文章的文章相似度，候选文章A的相似度为28.5％；

步骤S210，根据词权重值，计算候选文章在有向有环图中的词权重和；

继续上述举例，由于“喜欢”节点的词权重值Q1＝0；“看”节点的词权重值Q2＝0；“不”节点的词权重值Q3＝0；“电视”节点的词权重值Q4＝0；“电影”节点的词权重值Q5＝0，而候选文章中的“喜欢”关键词语在有向有环图中的词权重值为0，“看”关键词语在有向有环图中的词权重值为0，“小说”关键词语在有向有环图中不存在可省略，因此，候选文章在有向有环图中的词权重和为0+0＝0。

步骤S211，根据相似分数＝词权重和×文章相似度，计算候选文章的相似分数；

具体地，候选文章的相似分数＝0×28.5％＝0。

步骤S212，若相似分数小于或者等于预先设定的阈值，则判定候选文章A与历史推送文章B相似，将候选文章A去重；若相似分数大于预先设定的阈值，则判定候选文章A与历史推送文章B不相似，使用候选文章关键词语A补充构建有向有环图。

对于预先设定的阈值，本领域技术人员可以根据实际需要灵活选择，此处不做限定。

示例性装置

图6是本发明一示例性实施例提供的装置的结构示意图。如图6所示，该装置包括：

文章获取模块301，用于获取与用户匹配度最高的前N篇文章作为候选文章，及获取用户的历史推送文章；

关键词语获取模块302，用于分别获取候选文章和历史推送文章中对应的候选文章关键词语和历史推送文章关键词语；

构建模块303，用于根据历史推送文章关键词语，构建有向有环图；

计算模块304，用于基于有向有环图和候选文章关键词语，计算候选文章的相似分数；

去重模块305，用于响应相似分数小于或者等于预先设定的阈值的比较结果，去除与历史推送文章重复的候选文章。

可选地，计算模块304进一步包括：词权重计算模块(图中未示出)、相似度计算模块(图中未示出)和相似分数计算模块(图中未示出)，其中，词权重计算模块，用于基于有向有环图，计算有向有环图中的每个历史推送文章关键词语的词权重值；相似度计算模块，用于基于有向有环图和候选文章关键词语，计算每一篇候选文章与历史推送文章的文章相似度；相似分数计算模块，用于根据词权重值和文章相似度，计算候选文章的相似分数。

可选地，关键词语获取模块302具体用于：分别对候选文章和历史推送文章进行分词；剔除分词后的候选文章和分词后的历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语。

预先设定停用词列表；

可选地，构建模块303具体用于：汇总历史推送文章关键词语；以历史推送文章关键词语为节点，以历史推送文章关键词语的先后顺序作为每个节点的指向，构建有向有环图。

可选地，词权重计算模块具体用于：获取历史推送文章数及有向有环图中的每个历史推送文章关键词语在历史推送文章中首次出现的历史次数；基于Q＝log((L+n)/(M+n))，计算有向有环图中的每个历史推送文章关键词语的词权重值，其中，Q为词权重值，L为历史推送文章数，M为历史次数，n为权重调整值且取不为零的正整数。

可选地，相似度计算模块具体用于：基于有向有环图和候选文章关键词语，获取候选文章路径，得到结果向量；根据结果向量，计算候选文章与历史推送文章的文章相似度。

遍历结束后得到最终的结果向量。

可选地，根据结果向量，计算候选文章与历史推送文章的文章相似度，包括：基于最终的结果向量，计算结果向量中第一预设标识符的个数占整体结果向量长度的比例。

可选地，相似分数计算模块具体用于：根据词权重值，计算候选文章在有向有环图中的词权重和；根据相似分数＝词权重和×文章相似度，计算候选文章的相似分数。

可选地，该装置还包括：补全模块，其用于响应相似分数大于预先设定的阈值的比较结果，则候选文章与历史推送文章不相似，使用候选文章关键词语补充构建有向有环图。

本发明提供的推送相似文章判定装置，有效地避免了对同一用户重复推送相似文章的问题，提高了用户体验感，并且能够减少资源占用率。

需要说明的是，上述装置与本发明提供的推送相似文章判定方法相对应，其他描述均可参照对本发明提供的推送相似文章判定方法的描述，此处不再赘述。

示例性电子设备

图7是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。如图7所示，电子设备40包括一个或多个处理器41和存储器42。

处理器41可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器42可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器41可以运行所述程序指令，以实现上文所述的本公开的各个实施例的软件程序的推送相似文章判定方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置43和输出装置44，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

此外，该输入装置43还可以包括例如键盘、鼠标等等。

该输出装置44可以向外部输出各种信息。该输出装置44可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的推送相似文章判定方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的推送相似文章判定方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种推送相似文章判定方法，其特征在于，所述方法包括：

获取与用户匹配度最高的前N篇文章作为候选文章，及获取所述用户的历史推送文章；

分别获取所述候选文章和所述历史推送文章中对应的候选文章关键词语和历史推送文章关键词语；

根据所述历史推送文章关键词语，构建有向有环图；

基于所述有向有环图和所述候选文章关键词语，计算所述候选文章的相似分数；

响应所述相似分数小于或者等于预先设定的阈值的比较结果，去除与所述历史推送文章重复的候选文章；

所述基于所述有向有环图和所述候选文章关键词语，计算所述候选文章的相似分数，包括：

基于所述有向有环图，计算所述有向有环图中的每个所述历史推送文章关键词语的词权重值；

基于所述有向有环图和所述候选文章关键词语，计算每一篇所述候选文章与所述历史推送文章的文章相似度；

根据所述词权重值和所述文章相似度，计算所述候选文章的相似分数；

所述基于所述有向有环图，计算所述有向有环图中的每个所述历史推送文章关键词语的词权重值，包括：

获取所述历史推送文章数及所述有向有环图中的每个所述历史推送文章关键词语在所述历史推送文章中首次出现的历史次数；

基于Q＝log((L+n)/(M+n))，计算所述有向有环图中的每个所述历史推送文章关键词语的词权重值，其中，Q为词权重值，L为历史推送文章数，M为历史次数，n为权重调整值且取不为零的正整数；

所述根据所述词权重值和所述文章相似度，计算所述候选文章的相似分数，包括：

根据所述词权重值，计算所述候选文章在所述有向有环图中的词权重和；

根据相似分数＝词权重和×文章相似度，计算所述候选文章的相似分数。

2.根据权利要求1所述的方法，其特征在于，所述分别获取所述候选文章和所述历史推送文章中对应的候选文章关键词语和历史推送文章关键词语，包括：

分别对所述候选文章和所述历史推送文章进行分词；

剔除分词后的所述候选文章和分词后的所述历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语。

3.根据权利要求2所述的方法，其特征在于，所述剔除分词后的所述候选文章和分词后的所述历史推送文章中的停用词，分别对应得到候选文章关键词语和历史推送文章关键词语，包括：

预先设定停用词列表；

根据所述停用词列表，剔除分词后的所述候选文章和分词后的所述历史推送文章中的停用词，分别对应得到所述候选文章关键词语和所述历史推送文章关键词语。

4.根据权利要求1所述的方法，其特征在于，所述根据所述历史推送文章关键词语，构建有向有环图，包括：

汇总所述历史推送文章关键词语；

以所述历史推送文章关键词语为节点，以所述历史推送文章关键词语的先后顺序作为每个节点的指向，构建所述有向有环图。

5.根据权利要求1所述的方法，其特征在于，所述基于所述有向有环图和所述候选文章关键词语，计算每一篇所述候选文章与所述历史推送文章的文章相似度，包括：

基于所述有向有环图和所述候选文章关键词语，获取候选文章路径，得到结果向量；

根据所述结果向量，计算所述候选文章与所述历史推送文章的文章相似度。

6.根据权利要求5所述的方法，其特征在于，所述基于所述有向有环图和所述候选文章关键词语，获取所述候选文章路径，得到结果向量，包括：

将所述候选文章关键词语中的每一词语分别在所述有向有环图中进行遍历，判断能否查找到与所述词语相同的节点；

若查找到相同的节点，将当前词语标记为第一预设标识符并添加至结果向量，以所述有向有环图中当前节点向后继续查找所述候选文章关键词语中的下一个词语；

若未查找到相同的节点，将当前词语标记为第二预设标识符并添加至结果向量，以所述有向有环图中当前节点继续向后查找所述当前词语，当对前节点的每一出度的遍历的步长大于预设步长仍未查找到与所述当前词语相同的节点时，在所述有向有环图中重新遍历所述候选文章关键词语中的下一个词语；

遍历结束后得到最终的结果向量。

7.根据权利要求5所述的方法，其特征在于，所述根据所述结果向量，计算所述候选文章与所述历史推送文章的文章相似度，包括：

基于最终的所述结果向量，计算所述结果向量中第一预设标识符的个数占整体所述结果向量长度的比例。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应所述相似分数大于所述预先设定的阈值的比较结果，则所述候选文章与所述历史推送文章不相似，使用所述候选文章关键词语补充构建所述有向有环图。

9.一种推送相似文章判定装置，其特征在于，所述装置包括：

文章获取模块，用于获取与用户匹配度最高的前N篇文章作为候选文章，及获取所述用户的历史推送文章；

关键词语获取模块，用于分别获取所述候选文章和所述历史推送文章中对应的候选文章关键词语和历史推送文章关键词语；

构建模块，用于根据所述历史推送文章关键词语，构建有向有环图；

计算模块，用于基于所述有向有环图和所述候选文章关键词语，计算所述候选文章的相似分数；

其中，所述计算模块包括：词权重计算模块、相似度计算模块和相似分数计算模块；

所述词权重计算模块，用于获取所述历史推送文章数及所述有向有环图中的每个所述历史推送文章关键词语在所述历史推送文章中首次出现的历史次数；基于Q＝log((L+n)/(M+n))，计算所述有向有环图中的每个所述历史推送文章关键词语的词权重值，其中，Q为词权重值，L为历史推送文章数，M为历史次数，n为权重调整值且取不为零的正整数；

所述相似度计算模块，用于基于所述有向有环图和所述候选文章关键词语，计算每一篇所述候选文章与所述历史推送文章的文章相似度；

所述相似分数计算模块，用于根据所述词权重值，计算所述候选文章在所述有向有环图中的词权重和；根据相似分数＝词权重和×文章相似度，计算所述候选文章的相似分数；

去重模块，用于响应所述相似分数小于或者等于预先设定的阈值的比较结果，去除与所述历史推送文章重复的候选文章。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一所述的推送相似文章判定方法。

11.一种电子设备，所述电子设备包括存储器以及处理器，所述存储器上用于存储计算机可执行程序，所述处理器用于运行所述计算机可执行程序以实施权利要求1-8任一所述的推送相似文章判定方法。