CN109740063A - 信息召回、信息聚类方法、装置及设备 - Google Patents

信息召回、信息聚类方法、装置及设备 Download PDF

Info

Publication number
CN109740063A
CN109740063A CN201910044328.6A CN201910044328A CN109740063A CN 109740063 A CN109740063 A CN 109740063A CN 201910044328 A CN201910044328 A CN 201910044328A CN 109740063 A CN109740063 A CN 109740063A
Authority
CN
China
Prior art keywords
information
clustered
cluster
info class
class cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910044328.6A
Other languages
English (en)
Inventor
马国伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910044328.6A priority Critical patent/CN109740063A/zh
Publication of CN109740063A publication Critical patent/CN109740063A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种信息召回、信息聚类方法、装置及设备,该方法包括:确定需要进行信息召回的用户点击过的历史信息;针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;在已有信息类簇中选取第一预设数量个信息类簇;将第一预设数量个已有信息类簇中包含的信息作为针对用户需要召回的信息。应用本发明实施例提供的方案召回信息时,能够提高信息召回的效率。

Description

信息召回、信息聚类方法、装置及设备
技术领域
本发明涉及计算机技术领域,特别是涉及信息召回、信息聚类方法、装置及设备。
背景技术
信息召回是指针对某一个用户获取该用户可能感兴趣的信息的过程。
信息召回过程中,为了有效获取用户可能感兴趣的信息,通常会收集用户的性别、年龄、职业、爱好等基本信息,根据用户的基本信息,通过遍历信息库中存储的信息的方式,筛选出用户可能感兴趣的信息,进而实现信息召回。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
由于信息库中所存储信息的信息量一般非常大,且遍历并筛选信息的效率又较低,因此,应用上述方式确定用户可能感兴趣信息的效率较低,进而易导致信息召回的效率低。
发明内容
本发明实施例的目的在于提供一种信息召回、信息聚类方法、装置及设备,以实现提高信息召回的效率。具体技术方案如下:
本发明实施的一方面,提供了一种信息召回方法,所述方法包括:
确定需要进行信息召回的用户点击过的历史信息;
针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
可选的,所述方法还包括:
利用以下方式获得各个已有信息类簇:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
可选的,在所述根据所确定用户的信息获得该待聚类信息的特征的步骤之后,还包括:
从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
所述根据计算得到的相似度和每一待聚类信息的特征信息,对待聚类信息进行聚类得到信息类簇的步骤,包括:
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回所述针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中的步骤,直至每一信息类簇的聚类中心与该信息类簇的平均特征均相同时,将此时聚类得到的信息类簇作为聚类结果。
可选的,所述根据每一待聚类信息的特征信息,计算每两个待聚类信息之间的相似度的步骤,包括:
利用以下表达式分别计算每两个待聚类信息之间的相似系数,并根据计算得到的相似系数,确定所述两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·k&U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。
本发明实施的又一方面,还提供了一种信息聚类方法,所述方法包括:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
本发明实施的又一方面,还提供了一种信息召回装置,所述装置包括:
第一确定模块,用于确定需要进行信息召回的用户点击过的历史信息;
比较模块,用于针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
第二确定模块,用于在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
作为模块,用于将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
可选的,所述装置还包括:
获得模块,用于获得各个已有信息类簇,所述获得模块包括:
确定子模块,用于针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
计算子模块,用于根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
聚类子模块,用于根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
可选的,所述装置还包括:
选取模块,用于从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
所述聚类子模块,具体用于
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回所述针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中的步骤,直至每一信息类簇的聚类中心与该信息类簇的平均特征均相同时,将此时聚类得到的信息类簇作为聚类结果。
可选的,所述计算子模块,具体用于利用以下表达式分别计算每两个待聚类信息之间的相似系数,并根据计算得到的相似系数,确定所述两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·j&U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。
本发明实施的又一方面,还提供了一种信息聚类装置,所述装置包括:
第三确定模块,用于针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
计算模块,用于根据待聚类信息的特征,分别计算每两个待聚类信息之间的相似度;
聚类模块,用于根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的信息召回方法。
本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的信息聚类方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的信息召回方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的信息聚类方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的信息召回方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的信息聚类方法。
本发明实施例提供的信息召回方法、装置及设备,能够在针对用户进行信息召回时,根据用户点击过得历史信息在预先对信息进行聚类得到的已有信息类簇中,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种信息召回方法的流程示意图;
图2为本发明实施例提供的一种信息聚类方法的流程示意图;
图3为本发明实施例提供的一种信息召回装置的结构示意图;
图4为本发明实施例提供的一种信息聚类装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图;
图6为本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
参见图1,为本发明实施例提供的一种信息召回方法的流程示意图,该方法包括:
S100,确定需要进行信息召回的用户点击过的历史信息。
向用户发送信息的服务器可以记录每个用户点击过的历史信息,除此之外,还可以记录每个用户点击各个信息的次数等,为便于描述,所记录的上述信息可以称为历史记录。当本发明实施例的执行主体为向用户发送信息的服务器时,可以根据历史记录直接确定用户点击过的历史信息;而当本发明实施例的执行主体为除向用户发送信息的服务器之外的其他设备时,其他设备则需要从上述服务器获取历史记录来确定用户点击过的历史信息。
S110,针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数。
其中,已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征。
判断两个信息为相同信息时,可以利用信息的特征进行判断,当两个信息的特征之间的相似度小于预定相似度阈值时,可以认为两个信息相同。特征可以为信息中包含的关键字、信息所属的类型等。比如,两个信息中同时包含关键字“欧莱雅”,则可以认为这两个信息为相同的信息;两个信息都属于化妆品类型的信息时,则可以认为这两个信息为相同的信息。
而本领域技术人员可以理解的,具有相同特征的信息在信息呈现形式上并非完全相同,比如,当将信息中包含的关键词作为特征时,同样包含“欧莱雅”关键词的两个信息,一个是欧莱雅的面膜信息,一个是欧莱雅的护肤霜信息,这两个信息在呈现形式上并非完全相同,所以说,两个在呈现形式上不同,但信息中包含的关键字相同的信息也可以认为是相同的信息。而如果两个信息的呈现形式是相同的则可以直接认为这两个信息是相同的信息。
比如,一个已有信息类簇中包含信息A、B、C、D;用户点击过得历史信息包含信息A、D、E、F;在呈现形式上信息A和信息D是相同的,可以认为已有信息类簇与用户点击过得历史信息中包含的相同信息有信息A、信息D;此时相同信息的个数为2;而一种情况下信息B和信息E在呈现形式上虽然不同,但是信息B和信息E中包含相同的关键字“欧莱雅”,则可以认为信息B和信息E为相同的信息,此时,相同信息的个数则为3。
为了加快信息召回的效率,本发明一种实现方式中,向用户提供信息服务的运营商可以在向用户提供信息服务时,实时对向用户提供的信息进行聚类得到信息类簇,比如,将被具有相同兴趣爱好的用户点击过得信息进行聚类,也就得到了已有信息类簇。
其中,获取待聚类信息特征的方法,可以通过点击待聚类信息的用户的职业、年龄、性别等属性信息来表征,还可以通过待聚类信息被用户所点击的点击情况来表征。
具体地,本发明一种实现方式中,可以以点击待聚类信息的用户的职业、年龄、性别等属性来表征待聚类信息的特征,比如,点击待聚类信息的用户的属性包括:女、28岁、演员;相应地,待聚类信息的特征可以包括:女、28岁、演员。
本发明另一种实现方式中,还可以以待聚类信息被用户所点击的具体情况来表征待聚类信息的特征,具体的,可以以待聚类信息被用户是否所点击来表征,还可以以待聚类信息被用户点击的次数来表征。
在本实现方式中,可以通过向量的方式来表示待聚类信息的特征,通过待聚类信息被所有用户中的每一个用户点击情况,来构成了该待聚类信息的特征对应的特征向量中的各个元素,也就是特征向量中的一个元素表示待聚类信息被一个用户点击的情况。
具体的,上述点击情况可以为表示待聚类信息是否被用户点击过的情况,比如待聚类信息i的特征向量Ui的一个元素Uij=1时,表示待聚类信息i被用户j点击过,而元素Uij=0时,则表示待聚类信息i未被用户j点击过;
另外,上述点击情况也可以为表示待聚类信息被用户点击次数的情况,比如,待聚类信息i的特征向量Ui的一个元素Uij=3时,表示待聚类信息i被用户j点击过的次数为3次,待聚类信息i的特征向量Ui的一个元素Uij=0时,表示待聚类信息i被用户j点击过的次数为0次。
为便于后续过程中对每一待聚类信息的特征进行处理,各个待聚类信息的特征可以基于相同的用户信息进行描述,也就是对于每个待聚类信息来说表示其特征的特征向量中包含的元素的个数是相同的,因而,可以采用矩阵U表示各个待聚类信息的特征向量。
其中,一种情况下,矩阵U中的每一行可以对应一个待聚类信息,每一列对应一个用户,矩阵中的元素表示每一个待聚类信息被每一个用户点击过得情况。这种情况下,矩阵U中的每一行可以作为一个待聚类信息的特征向量,表示一个待聚类信息被所有用户点击的情况。
另一种情况下,矩阵U中的每一列可以对应一个待聚类信息,每一行对应一个用户,矩阵中的元素表示每一个待聚类信息被每一个用户点击过得情况。这种情况下,矩阵U中的每一列可以作为一个待聚类信息的特征向量,表示一个待聚类信息被所有用户点击的情况。
S120,在已有信息类簇中选取第一预设数量个信息类簇。
其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数。
一种实现方式中,将已有信息类簇,按照簇中具有相同信息的数目进行降序排序,选取前第一预设数量个信息类簇;
另一种实现方式中,从已有信息类簇的集合中任选一簇,确定该簇中具有相同信息的数目,确定该数目是否为所有簇中具有相同信息的数目最大的;若是,则确定该信息类簇为选取的信息类簇,并从已有信息类簇的集合中删除该信息簇,再返回从已有信息类簇的集合中任选一簇的步骤,直到选取的信息类簇达到第一预设数量。
第一预设数量可以根据需要召回信息的数量决定,聚类得到的每一信息类簇中包含的信息数量是固定的,那么,需要召回信息的数量越大,相应地需要信息类簇越多,也就是第一预设数量越大。
比如,需要召回信息的个数为800个,和用户点击过得历史信息具有相同信息个数由高到低的已有信息类簇H、I、G、K、L中包含的信息的个数分别为:300,300,200,200,300;那么,则需要利用信息类簇H、I、G中包含的信息进行信息召回,此时第一预设数量为3。而一种情况下,当需要召回信息的个数为900个时,由于已有信息类簇H、I、G中包含的信息数量不足以满足信息召回的数量,那么,可以在信息类簇K中任选100个信息,实现信息召回的数量为900,此时第一预设数量则为4。
S130,将步骤S120中所选取的第一预设数量个信息类簇中包含的信息作为针对用户需要召回的信息。
由于已有信息类簇中包含的信息与用户点击过的历史信息中包含的相同信息的个数越多,则表明用户对已有信息类簇中包含的信息的感兴趣的可能性越大,因而,可以利用与用户点击过的历史信息具有相同信息个数多的已有信息类簇中包含的信息进行召回。
本发明实施例提供的各个方案中,信息召回方法能够在针对用户进行信息召回时,根据用户点击过得历史信息在预先对信息进行聚类得到的已有信息类簇中,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
本发明实施例一种实现方式中,可以利用以下步骤E-J获得各个已有信息类簇:
步骤E,针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征。
从时间维度上来讲,上述待聚类信息是指已经发送给用户并被用户点击过的信息。从内容维度上来讲,上述待聚类信息可以为:广告信息、短视频信息以及新闻信息等。
具体获得待聚类信息特征的过程详情请参见S110,在此不在赘述。
步骤F,根据待聚类信息的特征,计算每两个待聚类信息之间的相似度。
第一种实现方式中,可以根据待聚类信息的特征,利用余弦相似度算法,计算每两个待聚类信息之间的相似度。
第二种实现方式中,可以根据待聚类信息的特征,利用以下表达式计算两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·j&U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。具体的,当待聚类信息j的特征向量U·j为用户点击待聚类信息j的点击情况,待聚类信息k的特征向量U·k为用户点击待聚类信息k的点击情况时,|U·j&U·k|表示同时点击待聚类信息j和待聚类信息k的用户个数,|U·j|U·k|为点击待聚类信息j的用户个数或点击待聚类信息k的用户个数。
第三种实现方式中,在特征以向量形式表示的情况下,向量之间的距离可以用于表示两个向量之间相似度,即两个向量之间的距离越小则表明两个向量之间的相似度越高。
具体的,可以通过计算两个待聚类用户的特征向量之间的欧氏距离,利用计算得到的欧式距离来表示两个待聚类用户之间的相似度,也就是计算得到的欧式距离越小,两个待聚类用户之间的相似度越高。
还可以先利用公式(1)计算两个待聚类信息之间的相似系数,再利用公式(2)计算这两个待聚类信息之间的距离
D(j,k)=1-s(j,k) (2)
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·j&U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。D(j,k)表示待聚类信息j和待聚类信息k之间的距离。具体的,当待聚类信息j的特征向量U·j为用户点击待聚类信息j的点击情况,待聚类信息k的特征向量U·k为用户点击待聚类信息k的点击情况时,|U·j&U·k|表示同时点击待聚类信息j和待聚类信息k的用户个数,|U·j|U·k|为点击待聚类信息j的用户个数或点击待聚类信息k的用户个数。
步骤J,根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
在进行聚类之前,可以根据具体应用过程中希望得到的信息类别数量设定聚类后要得到的类簇的数量,即第二预设数量。例如,希望得到3个信息类别,则在聚类之前可以设定聚类后要得到的类簇数量为3。由于聚类过程中每一个类簇会具有一个聚类中心,因此,进行聚类时,可以根据需要得到的信息类簇的个数来确定聚类中心的个数,也就是一个聚类中心代表了一个需要得到的信息类簇。
相应地,第二预设数量的数值越大,则表示聚类后得到的信息类簇越多,也就是对待聚类信息的分类结果越细。
一种实现方式中,可以利用层次聚类算法对待聚类信息进行聚类,得到第二预设数量个信息类簇,然后将所得到的信息类簇的中心作为该信息类簇的聚类中心。
另一种实现方式中,根据所确定用户的信息获得该待聚类信息的特征的步骤之后,还包括:
从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心。
相应地,上述步骤J可以包括:
步骤J1,针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中。
由于聚类中心是各个待聚类信息的特征中的一个,且待聚类信息的特征是以被用户点击过的情况表示的,而用户点击过某个信息表示了用户对这个信息感兴趣,所以,待聚类信息的特征与聚类中心的相似度越高,则表明待聚类信息与聚类中心对应的信息之间被具有相同兴趣爱好的用户点击的可能性越大,也就是两个信息为同一个类型的信息的可能性越大,并且一个聚类中心代表了一个信息类簇,找到了与待聚类信息的特征相似度高的聚类中心也就确定了待聚类信息所属的信息类簇。
步骤J2,针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回步骤J1,直至各个信息类簇的平均特征与该信息类簇的聚类中心相同时,将此时得到的信息类簇作为聚类结果。
平均特征也就是信息类簇中包含的待聚类信息的特征的平均值,每个信息类簇均对应拥有一个平均特征。
在待聚类信息的特征是根据被用户点击过的次数确定的情况下,比如,一个信息类簇中包含三个信息,信息1的特征为2、3、4;信息2的特征为5、6、5;信息3的特征为5、9、6;计算平均特征时,平均特征的第一个元素为(2+5+5)/3=4;第二个元素为(3+6+9)/3=6;第三个元素为(4+5+6)/3=5。
而在待聚类信息的特征是根据是否被用户点击过而确定的情况下,比如,一个信息类簇中包含三个信息,信息1的特征为1、0、1;信息2的特征为1、0、1;信息3的特征为0、0、1;计算平均特征时,平均特征的第一个元素为(1+1+0)/3=0.66;第二个元素为(0+0+0)/3=0;第三个元素为(1+1+1)/3=1。
由于上述平均特征表示了信息类簇中包含的待聚类信息的特征的平均值,所以当选取的聚类中心与计算得到的平均特征不相同的情况下,则表明所选取的聚类中心并不是该信息类簇实际的中心,此时的聚类结果可能会存在误差,因而,需要将该信息类簇的聚类中心更新为计算得到的平均特征,由于每一个类簇会具有一个聚类中心,聚类中心发生变化相应地信息类簇也就发生改变,因而,聚类中心更新之后,需要重新进行聚类,以提高聚类结果的准确性。
选取的聚类中心与计算得到的平均特征相同时,表明信息类簇中包含的各个信息是围绕在聚类中心周围平均分布的,属于同一类型的信息;当选取的聚类中心与计算得到的平均特征不相同时,可能是由于信息类簇中存在与其他用户不属于同一类的信息时而产生了误差,因而,需要在聚类中心更新之后,需要重新进行聚类,以提高聚类结果的准确性。
由于需要对已有信息进行聚类得到已有信息类簇,参见图2,为本发明实施例提供的一种信息聚类方法的流程示意图,该方法包括:
S200,针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征。
从时间维度上来讲,上述待聚类信息是指已经发送给用户并被用户点击过的信息。从内容维度上来讲,上述待聚类信息可以为:广告信息、短视频信息以及新闻信息等。
向用户发送信息的服务器可以记录每个用户点击过的历史信息,除此之外,还可以记录每个用户点击各个信息的次数等,为便于描述,所记录的上述信息可以称为历史记录。当本发明实施例的执行主体为向用户发送信息的服务器时,可以根据历史记录直接确定用户点击过的历史信息;而当本发明实施例的执行主体为除向用户发送信息的服务器之外的其他设备时,其他设备则需要从上述服务器获取历史记录来确定用户点击过的历史信息。
每一信息具有不同的特征,在描述一个信息时可以从各种不同的角度进行描述。发明人在实验过程中发现,一个被用户点击过的信息往往与用户的兴趣爱好相关,也就是,具有相同兴趣爱好的用户所点击过的信息相似,鉴于此,本发明实施例中,采用用户点击信息的情况来表征信息的特征。
基于上述内容,本发明一种实现方式中,可以以点击待聚类信息的用户的职业、年龄、性别等属性来表征待聚类信息的特征,比如,点击待聚类信息的用户的属性包括:女、28岁、演员;相应地,待聚类信息的特征可以包括:女、28岁、演员。
本发明另一种实现方式中,还可以以待聚类信息被用户所点击的具体情况来表征待聚类信息的特征,具体的,可以以向量的方式来表示待聚类信息的特征,待聚类信息被所有用户中的每一个用户点击情况构成了该待聚类信息的特征对应的特征向量中的各个元素,也就是特征向量中的一个元素表示待聚类信息被一个用户点击的情况,
具体的,上述点击情况可以为表示待聚类信息是否被用户点击过的情况,比如待聚类信息i的特征向量Ui的一个元素Uij=1时,表示待聚类信息i被用户j点击过,而元素Uij=0时,则表示待聚类信息i未被用户j点击过;
另外,上述点击情况也可以为表示待聚类信息被用户点击次数的情况,比如,待聚类信息i的特征向量Ui的一个元素Uij=3时,表示待聚类信息i被用户j点击过的次数为3次,待聚类信息i的特征向量Ui的一个元素Uij=0时,表示待聚类信息i被用户j点击过的次数为0次。
为便于后续过程中对每一待聚类信息的特征进行处理,各个待聚类信息的特征可以基于相同的用户信息进行描述,也就是对于每个待聚类信息来说表示其特征的特征向量中包含的元素的个数是相同的,因而,可以采用矩阵U表示各个待聚类信息的特征向量。
其中,一种情况下,矩阵U中的每一行可以对应一个待聚类信息,每一列对应一个用户,矩阵中的元素表示每一个待聚类信息被每一个用户点击过得情况。这种情况下,矩阵U中的每一行可以作为一个待聚类信息的特征向量,表示一个待聚类信息被所有用户点击的情况。
另一种情况下,矩阵U中的每一列可以对应一个待聚类信息,每一行对应一个用户,矩阵中的元素表示每一个待聚类信息被每一个用户点击过得情况。这种情况下,矩阵U中的每一列可以作为一个待聚类信息的特征向量,表示一个待聚类信息被所有用户点击的情况。
S210,根据待聚类信息的特征,计算每两个待聚类信息之间的相似度。
第一种实现方式中,可以根据待聚类信息的特征,利用余弦相似度算法,计算每两个待聚类信息之间的相似度。
第二种实现方式中,可以根据待聚类信息的特征,利用以下表达式计算两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·j&U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。具体的,当待聚类信息j的特征向量U·j为用户点击待聚类信息j的点击情况,待聚类信息k的特征向量U·k为用户点击待聚类信息k的点击情况时,|U·j&U·k|表示同时点击待聚类信息j和待聚类信息k的用户个数,|U·j|U·k|为点击待聚类信息j的用户个数或点击待聚类信息k的用户个数。
第三种实现方式中,在特征以向量形式表示的情况下,向量之间的距离可以用于表示两个向量之间相似度,即两个向量之间的距离越小则表明两个向量之间的相似度越高。
具体的,可以通过计算两个待聚类用户的特征向量之间的欧氏距离,利用计算得到的欧式距离来表示两个待聚类用户之间的相似度,也就是计算得到的欧式距离越小,两个待聚类用户之间的相似度越高。
还可以先利用公式(3)计算两个待聚类信息之间的相似系数,再利用公式(4)计算这两个待聚类信息之间的距离
D(j,k)=1-s(j,k) (4)
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·j&U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。D(j,k)表示待聚类信息j和待聚类信息k之间的距离。具体的,当待聚类信息j的特征向量U·j为用户点击待聚类信息j的点击情况,待聚类信息k的特征向量U·k为用户点击待聚类信息k的点击情况时,|U·j&U·k|表示同时点击待聚类信息j和待聚类信息k的用户个数,|U·j|U·k|为点击待聚类信息j的用户个数或点击待聚类信息k的用户个数。
S220,根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
一种实现方式中,根据所确定用户的信息获得该待聚类信息的特征的步骤之后,还包括:
在进行聚类之前,可以根据具体应用过程中希望得到的信息类别数量设定聚类后要得到的类簇的数量,即第二预设数量。例如,希望得到3个信息类别,则在聚类之前可以设定聚类后要得到的类簇数量为3。由于聚类过程中每一个类簇会具有一个聚类中心,因此,进行聚类时,可以根据需要得到的信息类簇的个数来确定聚类中心的个数,也就是一个聚类中心代表了一个需要得到的信息类簇。
相应地,第二预设数量的数值越大,则表示聚类后得到的信息类簇越多,也就是对待聚类信息进行分类的分类结果越细。
一种实现方式中,可以利用层次聚类算法对待聚类信息进行聚类,得到第二预设数量个信息类簇,然后将所得到的信息类簇的中心作为该信息类簇的聚类中心。
另一种实现方式中,从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心。
相应地,上述步骤220可以包括:
步骤M1,针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中。
由于聚类中心是各个待聚类信息的特征中的一个,且待聚类信息的特征是以被用户点击过的情况表示的,而用户点击过某个信息表示了用户对这个信息感兴趣,所以,待聚类信息的特征与聚类中心的相似度越高,则表明待聚类信息与聚类中心对应的信息之间被具有相同兴趣爱好的用户点击的可能性越大,也就是两个信息为同一个类型的信息的可能性越大,并且一个聚类中心代表了一个信息类簇,找到了与待聚类信息的特征相似度高的聚类中心也就确定了待聚类信息所属的信息类簇。
步骤M2,针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回步骤M1,直至各个信息类簇的平均特征与该信息类簇的聚类中心相同时,将此时聚类得到的信息类簇作为聚类结果。
平均特征也就是信息类簇中包含的待聚类信息的特征的平均值,每个信息类簇均对应拥有一个平均特征。
在待聚类信息的特征是根据被用户点击过的次数确定的情况下,比如,一个信息类簇中包含三个信息,信息1的特征为2、3、4;信息2的特征为5、6、5;信息3的特征为5、9、6;计算平均特征时,平均特征的第一个元素为(2+5+5)/3=4;第二个元素为(3+6+9)/3=6;第三个元素为(4+5+6)/3=5。
而在待聚类信息的特征是根据是否被用户点击过而确定的情况下,比如,一个信息类簇中包含三个信息,信息1的特征为1、0、1;信息2的特征为1、0、1;信息3的特征为0、0、1;计算平均特征时,平均特征的第一个元素为(1+1+0)/3=0.66;第二个元素为(0+0+0)/3=0;第三个元素为(1+1+1)/3=1。
由于上述平均特征表示了信息类簇中包含的待聚类信息的特征的平均值,所以当选取的聚类中心与计算得到的平均特征不相同的情况下,则表明所选取的聚类中心并不是该信息类簇实际的中心,此时的聚类结果可能会存在误差,因而,需要将该信息类簇的聚类中心更新为计算得到的平均特征,由于每一个类簇会具有一个聚类中心,聚类中心发生变化相应地信息类簇也就发生改变,因而,聚类中心更新之后,需要重新进行聚类,以提高聚类结果的准确性。
选取的聚类中心与计算得到的平均特征相同时,表明信息类簇中包含的各个信息是围绕在聚类中心周围平均分布的,属于同一类型的信息;当选取的聚类中心与计算得到的平均特征不相同时,可能是由于信息类簇中存在与其他用户不属于同一类的信息时而产生了误差,因而,需要在聚类中心更新之后,需要重新进行聚类,以提高聚类结果的准确性。
本发明实施例提供的各个方案中,信息聚类方法能够预先对信息进行聚类得到的已有信息类簇,使得在针对用户进行信息召回时,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
参见图3,为本发明实施例提供的信息召回装置的结构示意图,该装置包括:
第一确定模块300,用于确定需要进行信息召回的用户点击过的历史信息;
比较模块310,用于针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,得到该已有信息类簇包含的信息与所确定的历史信息之间相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
第二确定模块320,用于在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
作为模块330,用于将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
本发明实施例一种实现方式中,所述装置还包括:
获得模块,用于获得各个已有信息类簇,所述获得模块包括:
确定子模块,用于针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
计算子模块,用于根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
聚类子模块,用于根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
本发明实施例一种实现方式中,所述装置还包括:
选取模块,用于从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
所述聚类子模块,具体用于
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回所述针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中的步骤,直至各个信息类簇的平均特征与该信息类簇的聚类中心相同时,将此时聚类得到的信息类簇作为聚类结果。
本发明实施例一种实现方式中,所述计算子模块,具体用于利用以下表达式计算每两个待聚类信息之间的相似系数,并根据计算得到的相似系数,确定所述两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·j&U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。
本发明实施例提供的信息召回装置,能够在针对用户进行信息召回时,根据用户点击过得历史信息在预先对信息进行聚类得到的已有信息类簇中,确定与用户点击过得历史信息包含相同信息个数多的信息类簇,作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
参见图4,为本发明实施例提供的一种信息聚类装置,该装置包括:
第三确定模块400,用于针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
计算模块410,用于根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
聚类模块420,用于根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
本发明实施例一种实现方式中,所述装置还包括:
随机模块,用于从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
聚类模块420,具体用于
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回所述针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中的步骤,直至各个信息类簇的平均特征与聚类中心相同时,将此时聚类得到的信息类簇作为聚类结果。
本发明实施例一种实现方式中,所述计算模块410,具体用于利用以下表达式分别计算每两个待聚类信息之间的相似系数,并根据计算得到的相似系数,确定所述两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U·j表示待聚类信息j的特征向量,U·k表示待聚类信息k的特征向量,|U·j&U·j|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U·j|U·k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。
本发明实施例提供的信息聚类装置,能够预先对信息进行聚类得到的已有信息类簇,使得在针对用户进行信息召回时,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器001、通信接口002、存储器003和通信总线004,其中,处理器001,通信接口002,存储器003通过通信总线004完成相互间的通信,
存储器003,用于存放计算机程序;
处理器001,用于执行存储器003上所存放的程序时,实现本发明实施例提供的信息召回方法。
具体的,上述信息召回方法包括:
确定需要进行信息召回的用户点击过的历史信息;
针对每一已有信息类簇,将该信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
需要说明的是,上述处理器001执行存储器003上所存放的程序实现信息召回方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,电子设备能够在针对用户进行信息召回时,根据用户点击过得历史信息在预先对信息进行聚类得到的已有信息类簇中,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器011、通信接口012、存储器013和通信总线014,其中,处理器011,通信接口012,存储器013通过通信总线014完成相互间的通信,
存储器013,用于存放计算机程序;
处理器011,用于执行存储器013上所存放的程序时,实现本发明实施例提供的信息聚类方法。
具体的,上述信息聚类方法包括:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
需要说明的是,上述处理器011执行存储器013上所存放的程序实现信息聚类方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,电子设备能够预先对信息进行聚类得到的已有信息类簇,使得在针对用户进行信息召回时,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息召回方法。
具体的,上述信息召回方法包括:
确定需要进行信息召回的用户点击过的历史信息;
针对每一已有信息类簇,将该信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
需要说明的是,通过上述计算机可读存储介质实现信息召回方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,计算机可读存储介质能够在针对用户进行信息召回时,根据用户点击过得历史信息在预先对信息进行聚类得到的已有信息类簇中,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息聚类方法。
具体的,上述信息聚类方法包括:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
需要说明的是,通过上述计算机可读存储介质实现信息聚类方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,计算机可读存储介质能够预先对信息进行聚类得到的已有信息类簇,使得在针对用户进行信息召回时,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息召回方法。
具体的,上述信息召回方法包括:
确定需要进行信息召回的用户点击过的历史信息;
针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
需要说明的是,通过上述计算机程序产品实现信息召回方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,计算机程序产品能够在针对用户进行信息召回时,根据用户点击过得历史信息在预先对信息进行聚类得到的已有信息类簇中,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息聚类方法。
具体的,上述信息聚类方法包括:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
需要说明的是,通过上述计算机程序产品实现信息聚类方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,计算机程序产品能够预先对信息进行聚类得到的已有信息类簇中,使得在针对用户进行信息召回时,确定与用户点击过得历史信息包含相同信息个数多的信息类簇作为针对该用户需要召回的信息,也就是能够根据用户的兴趣爱好找到符合该用户兴趣爱好的一类信息作为需要召回的信息,而无需遍历并筛选信息库中存储的信息,提供信息召回的效率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种信息召回方法,其特征在于,所述方法包括:
确定需要进行信息召回的用户点击过的历史信息;
针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
利用以下方式获得各个已有信息类簇:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
3.如权利要求1或2所述的方法,其特征在于,在所述根据所确定用户的信息获得该待聚类信息的特征的步骤之后,还包括:
从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
所述根据计算得到的相似度和每一待聚类信息的特征信息,对待聚类信息进行聚类,得到信息类簇的步骤,包括:
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回所述针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中的步骤,直至每一信息类簇的聚类中心与该信息类簇的平均特征均相同时,将此时得到的信息类簇作为聚类结果。
4.如权利要求1或2所述的方法,其特征在于,所述根据每一待聚类信息的特征信息,计算每两个待聚类信息之间的相似度的步骤,包括:
利用以下表达式分别计算每两个待聚类信息之间的相似系数,并根据计算得到的相似系数,确定所述两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U.j表示待聚类信息j的特征向量,U.k表示待聚类信息k的特征向量,|U.j&U.k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U.j|U.k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。
5.一种信息聚类方法,其特征在于,所述方法包括:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
6.一种信息召回装置,其特征在于,所述装置包括:
第一确定模块,用于确定需要进行信息召回的用户点击过的历史信息;
比较模块,用于针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
第二确定模块,用于在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
作为模块,用于将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
获得模块,用于获得各个已有信息类簇,所述获得模块包括:
确定子模块,用于针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
计算子模块,用于根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
聚类子模块,用于根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
8.如权利要求6或7所述的装置,其特征在于,所述装置还包括:
选取模块,用于从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
所述聚类子模块,具体用于
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回所述针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中的步骤,直至每一信息类簇的聚类中心与该信息类簇的平均特征均相同时,将此时聚类得到的信息类簇作为聚类结果。
9.如权利要求6或7所述的装置,其特征在于,
所述计算子模块,具体用于利用以下表达式计算每两个待聚类信息之间的相似系数,并根据计算得到的相似系数,确定所述两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U.j表示待聚类信息j的特征向量,U.k表示待聚类信息k的特征向量,|U.j&U.k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U.j|U.k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。
10.一种信息聚类装置,其特征在于,所述装置包括:
第三确定模块,用于针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
计算模块,用于根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
聚类模块,用于根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4所述的方法步骤,或者实现权利要求5所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤,或者实现权利要求5所述的方法步骤。
CN201910044328.6A 2019-01-17 2019-01-17 信息召回、信息聚类方法、装置及设备 Pending CN109740063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910044328.6A CN109740063A (zh) 2019-01-17 2019-01-17 信息召回、信息聚类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910044328.6A CN109740063A (zh) 2019-01-17 2019-01-17 信息召回、信息聚类方法、装置及设备

Publications (1)

Publication Number Publication Date
CN109740063A true CN109740063A (zh) 2019-05-10

Family

ID=66365088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910044328.6A Pending CN109740063A (zh) 2019-01-17 2019-01-17 信息召回、信息聚类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109740063A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103647800A (zh) * 2013-11-19 2014-03-19 乐视致新电子科技(天津)有限公司 推荐应用资源的方法及***
CN105426548A (zh) * 2015-12-29 2016-03-23 海信集团有限公司 一种基于多用户的视频推荐方法及装置
CN106570031A (zh) * 2015-10-13 2017-04-19 阿里巴巴集团控股有限公司 一种业务对象的推荐方法和装置
CN107894998A (zh) * 2017-10-24 2018-04-10 迅雷计算机(深圳)有限公司 视频推荐方法及装置
CN108053268A (zh) * 2017-12-29 2018-05-18 广州品唯软件有限公司 一种商品聚类确认方法及装置
CN108737856A (zh) * 2018-04-26 2018-11-02 西北大学 社会关系感知的iptv用户行为建模与节目推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103647800A (zh) * 2013-11-19 2014-03-19 乐视致新电子科技(天津)有限公司 推荐应用资源的方法及***
CN106570031A (zh) * 2015-10-13 2017-04-19 阿里巴巴集团控股有限公司 一种业务对象的推荐方法和装置
CN105426548A (zh) * 2015-12-29 2016-03-23 海信集团有限公司 一种基于多用户的视频推荐方法及装置
CN107894998A (zh) * 2017-10-24 2018-04-10 迅雷计算机(深圳)有限公司 视频推荐方法及装置
CN108053268A (zh) * 2017-12-29 2018-05-18 广州品唯软件有限公司 一种商品聚类确认方法及装置
CN108737856A (zh) * 2018-04-26 2018-11-02 西北大学 社会关系感知的iptv用户行为建模与节目推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李介谷: "《计算机模式识别技术》", 28 February 1986 *

Similar Documents

Publication Publication Date Title
US20210191509A1 (en) Information recommendation method, device and storage medium
WO2020073534A1 (zh) 基于重聚类的推送方法、装置、计算机设备及存储介质
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN106228386A (zh) 一种信息推送方法及装置
CN108717407B (zh) 实体向量确定方法及装置,信息检索方法及装置
CN110020122A (zh) 一种视频推荐方法、***及计算机可读存储介质
WO2020029412A1 (zh) 标签推荐方法、装置、计算机设备及计算机可读存储介质
CN109409928A (zh) 一种素材推荐方法、装置、存储介质、终端
CN107256238B (zh) 一种多约束条件下的个性化信息推荐方法及信息推荐***
CN107943910B (zh) 一种基于组合算法的个性化图书推荐方法
CN108205570A (zh) 一种数据检测方法和装置
CN113792212B (zh) 多媒体资源推荐方法、装置、设备以及存储介质
CN113254354A (zh) 测试用例推荐方法、装置、可读存储介质及电子设备
WO2017156994A1 (zh) 多媒体资源的质量评估方法和装置
CN110909222A (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN104156467B (zh) Api推荐方法及api推荐装置
WO2014177050A1 (zh) 对文档进行聚类的方法和装置
CN111078997B (zh) 一种资讯推荐方法及装置
CN109886300A (zh) 一种用户聚类方法、装置及设备
US11556595B2 (en) Attribute diversity for frequent pattern analysis
Vu et al. An efficient density-based clustering with side information and active learning: a case study for facial expression recognition task
CN107590672B (zh) 基于马斯洛需求层次理论的推荐方法及装置
TW201933231A (zh) 物品間關係探勘及推薦方法、裝置、計算設備、儲存媒體
CN111767469A (zh) 一种养老服务推荐方法和装置
CN116955788A (zh) 一种内容处理的方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510