CN108600792B - 一种相似度度量方法、装置、设备及存储介质 - Google Patents

一种相似度度量方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108600792B
CN108600792B CN201810284500.0A CN201810284500A CN108600792B CN 108600792 B CN108600792 B CN 108600792B CN 201810284500 A CN201810284500 A CN 201810284500A CN 108600792 B CN108600792 B CN 108600792B
Authority
CN
China
Prior art keywords
user
similarity
determining
articles
entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810284500.0A
Other languages
English (en)
Other versions
CN108600792A (zh
Inventor
王璐
陈少杰
张文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810284500.0A priority Critical patent/CN108600792B/zh
Publication of CN108600792A publication Critical patent/CN108600792A/zh
Application granted granted Critical
Publication of CN108600792B publication Critical patent/CN108600792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/252Processing of multiple end-users' preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种相似度度量方法、装置、设备及存储介质。该方法包括:依据与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合,所述用户集合包括用户交集、用户相对补集和用户并集的绝对补集;依据所述用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个所述物品之间的相似度。通过上述技术方案,解决了基于物品的推荐算法中相似度度量片面化的问题,实现了更加全面且合理地利用相似度度量数据,从而获得更加符合实际的物品间的相似度。

Description

一种相似度度量方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术,尤其涉及一种相似度度量方法、装置、设备及存储介质。
背景技术
在大数据的应用领域中,一个重要的方向是根据海量数据对用户进行个性化推荐。对于互联网直播平台而言,个性化推荐具体为给当前用户准确地推荐其感兴趣的直播间。
目前,在直播间推荐的众多大数据算法解决方案中,一个简单可行的方案是给目标用户推荐与其最近观看过历史直播间类似的直播间,该方案的难点在于如何准确地计算两两直播间之间的相似度。
在现有的直播间推荐方案中,基于物品的推荐算法中计算物品相似度的杰卡德系数算法(Jaccard’s Coefficient),是常用的直播间相似度度量方法之一。该算法是基于集合进行计算的,两两直播间之间的相似度等于同时观看两个直播间的用户数除以至少观看了其中一个直播间的用户数。上述算法在直播间相似度度量中的缺陷在于,其仅仅考虑了观看了两个直播间的观看用户,未考虑这些观看用户对其他直播间的观看情况,从而仅利用了直播间相似度度量信息中的部分信息,使得获得的相似度比较片面。例如,上述观看用户中的某些观看用户,只是出于偶然行为对上述两个直播间中的至少一个直播间进行了观看行为,其观看行为更多地是集中于其他直播间,那么简单地认为该部分观看用户对两个直播间中的至少一个直播间感兴趣,而直接将该部分观看用户计入这两个直播间相似度度量的数据中,并且不考虑该部分观看用户的其他观看行为,就会使得相似度度量比较片面,获得的相似度失真。
发明内容
本发明实施例提供一种相似度度量方法、装置、设备及存储介质,以实现更加全面且合理地利用相似度度量数据,从而获得更加符合实际的物品间的相似度。
第一方面,本发明实施例提供了一种相似度度量方法,包括:
依据与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合,所述用户集合包括用户交集、用户相对补集和用户并集的绝对补集;
依据所述用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个所述物品之间的相似度。
第二方面,本发明实施例还提供了一种相似度度量装置,该装置包括:
用户集合确定模块,用于依据与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合,所述用户集合包括用户交集、用户相对补集和用户并集的绝对补集;
相似度度量模块,用于依据所述用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个所述物品之间的相似度。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的相似度度量方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的相似度度量方法。
本发明实施例通过与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合,所述用户集合包括用户交集、用户相对补集和用户并集的绝对补集;并依据所述用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个所述物品之间的相似度。解决了基于物品的推荐算法中相似度度量片面化的问题,实现了更加全面且合理地利用相似度度量数据,从而获得更加符合实际的物品间的相似度。
附图说明
图1是本发明实施例一中的一种相似度度量方法的流程图;
图2是本发明实施例二中的一种相似度度量方法的流程图;
图3是本发明实施例三中的一种相似度度量方法的流程图;
图4是本发明实施例四中的一种相似度度量装置的结构示意图;
图5是本发明实施例五中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
本实施例提供的相似度度量方法,可适用于基于物品推荐中两两物品之间相似度计算。该方法可以由相似度度量装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具备运算及网络功能的设备中,例如典型的是用户终端设备,例如服务器、平板电脑或台式电脑等。参见图1,本实施的方法具体包括如下步骤:
S110、依据与待度量相似度的物品相对应的用户数据,确定两个物品之间的用户集合。
其中,待度量相似度的物品是指与用户历史操作行为相关物品同属一个类别的物品,这里的物品可以是日常消费品、学习课程、音视频或直播间等。例如,用户历史操作行为相关物品为某个直播间,那么待度量相似度的物品为包含上述直播间在内的多个直播间。
用户数据是指对待度量相似度的物品有操作行为的用户相关数据,例如可以是用户标识信息及每个用户对物品的操作行为信息等。用户数据可以是在需求时间段内从物品对应的网络平台获取,该需求时间段可以是根据相似度度量需求进行设定,比如设定为用户数据的有效存储期或诸如一个月的固定时长。
用户集合是指不同物品对应的用户数据构成的集合。示例性地,用户集合包括用户交集、用户相对补集和用户并集的绝对补集。具体地,物品i对应的用户数据构成用户集I,物品j对应的用户数据构成用户集J。那么,用户交集是用户集I与用户集J的交集(记为I∩J);用户相对补集是指用户集I中用户集J的相对补集(记为I\J),和/或用户集J中用户集I的相对补集(记为J\I);用户并集的绝对补集是指用户集I与用户集J的并集的绝对补集(记为CZ(I∪J))。具体实施时,可以对用户数据进行遍历,确定出需要度量相似度的两两物品之间相应的用户集合。这样设置的好处在于,在度量相似度时,不仅考虑两个物品之间的公共用户操作数据,还考虑到这两个物品对应的用户对其他物品的操作数据,使得相似度度量数据更加全面,从而能够更加真实地反映用户兴趣,使得度量的相似度更加准确。
具体地,从待度量相似度的物品对应的网络平台中,获取满足设定条件的物品对应的用户数据,这里设定条件指的是对物品进行筛选的条件,比如从网络平台中获取所有物品对应的用户数据,或者按照某种抽样方法抽样所得物品对应的用户数据。之后,按照用户或者物品,对用户数据进行遍历,确定出需要度量相似度的两个物品之间的用户集合。
S120、依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个物品之间的相似度。
其中,香农熵也成为信息熵,能够表明信息的混乱程度,信息越混乱,信息熵越大。这里采用香农熵,是基于香农熵能够更加真实地表征衡量对象的信息量。预设相似度度量规则是预先根据极大似然比检验的统计量确定的相似度度量规则。这里采用极大似然比检验,是为了将上述各种用户集合共同进行合理地处理,并且使得结果尽可能地接近于真实情况。
具体地,上述过程为:基于极大似然比检验的统计量,确定预设相似度度量规则;确定用户集合的香农熵,并依据香农熵和预设相似度度量规则,确定两个物品之间的相似度。
具体实施时,先根据本发明实施例中的相似度度量需求,例如综合交集、相对补集和绝对补集,且能够较好地衡量各个集合的信息量的需求,确认需要用到的极大似然比检验统计量。本发明实施例中采用的统计量T为:
T=-2*(maxrix_entropy-row_entropy-colume_entropy) (1)
其中,记N=N11+N12+N21+N22,那么,
Figure BDA0001615619100000061
上述,entropy为香农熵,N11为物品i对应的用户集I和物品j对应的用户集J的用户交集,N12为用户集I中用户集J的用户相对补集,N21为用户集J中用户集I的用户相对补集,N22为用户集I与用户集J的用户并集的绝对补集。
之后,考虑到上述统计量T的数值范围为[0,∞),而相似度的数值范围为[-1,1]。所以,需要对统计量T进行改进,以获得符合要求的相似度度量规则。示例性地,预设相似度度量规则为:
Figure BDA0001615619100000062
其中,Sij为两个物品之间的相似度,entropy为香农熵,N11为物品i对应的用户集I和物品j对应的用户集J的用户交集,N12为用户集I中用户集J的用户相对补集,N21为用户集J中用户集I的用户相对补集,N22为用户集I与用户集J的用户并集的绝对补集。
从预设相似度度量规则(3)可以看出,第一,该算法没有刻意对热度较高物品(即热门物品)进行特别处理,比如在计算包含热门物品的相似度过程中,除以表征热门物品热度的热度表征量,以人为降低热门物品的热度。第二,在两个物品对应的用户交集占比相同的情况下,物品热度越高,得到相似度越高。在物品i和物品j的用户分布相同的情况下,相关性越好,matrix_entropy越小,则所得的相似度越高。
最后,根据预设相似度度量规则(3),按照香农熵公式(2)确定S110中用户集合的相应的香农熵。再利用获得的香农熵和预设相似度度量规则(3),计算出需要度量相似度的两个物品之间的相似度。
本实施例的技术方案,本发明实施例通过与待度量相似度的物品相对应的用户数据,确定两个物品之间的用户集合,用户集合包括用户交集、用户相对补集和用户并集的绝对补集;并依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个物品之间的相似度。解决了基于物品的推荐算法中相似度度量片面化的问题,实现了更加全面且合理地利用相似度度量数据,从而获得更加符合实际的物品间的相似度。
实施例二
本实施例在上述实施例一的基础上,增加了用户数据的截断处理,进一步对“依据与待度量相似度的物品相对应的用户数据,确定两个物品之间的用户集合”进行优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,本实施例提供的相似度度量方法包括:
S210、确定热门物品,以及与热门物品相对应的设定类型的用户行为数据。
其中,设定类型的用户行为数据是指与物品的热度相关的,预先设定的类型的用户行为数据。物品不同,其对应的设定类型的用户行为数据不同,比如物品为网络课程时,其设定类型的用户行为数据可以为学习时长、学习笔记或评论以及课程分享等。示例性地,物品为直播间;相应地,设定类型的用户行为数据包括观看时长、弹幕发布次数和关注行为。
具体地,本发明实施例中的相似度度量算法中,需要遍历待度量相似度的物品及对应的用户数据,以获取用户集合。上述过程在工程上实现时算法复杂度较高,尤其是对于热门物品,其用户数据通常较大,对应的算法实现复杂度更高。为了降低相似度度量算法的实现复杂度,本发明实施例中对热门物品的用户数据进行截断处理,以保留设定数量的、对热门物品真正感兴趣的用户(即有效用户)对应的用户数据(即有效用户数据)。
本发明实施例中将热门物品确定为数据截断的对象,一方面,考虑到热门物品对应的用户数据中包含较多的无用用户行为数据,比如某些用户对热门物品只是简单地点击查看,并非用户的真实兴趣。那么,在进行截断处理时就应该截断掉这类无效用户行为数据,尽可能减少偶然行为数据。另一方面,热门物品对应的用户数据量较大,使得热门物品与其他物品之间的相似度度量结果高,从而使得基于物品推荐结果中,易出现“哈利波特”现象,即热门物品的推荐度较高。所以,对热门物品对应的用户数据进行截断处理,以便降低“哈利波特”现象的发生率。
实际实施时,先根据热门物品的定义,确定出热门物品。之后,再从网络平台中获取上述热门物品对应的设定类型的用户行为数据。
示例性地,确定热门物品包括:依据第一预设时间段内物品对应的用户数量及预设用户数量,确定热门物品。
其中,第一预设时间段是指预先设定时长的时间段,其用于表征热门物品的有效期。预设用户数量是指预先设定的物品对应用户的数量,其用于表征热门物品的热度。
具体地,在第一预设时间段内,对待度量相似度的物品对应的用户数量进行统计,获得统计用户数量。将该统计用户数量与预设用户数量进行比较。如果统计用户数量大于或等于预设用户数量,那么将该统计用户数量对应的物品确定为热门物品;反之,如果统计用户数量小于预设用户数量,那么该统计用户数量对应的物品则不能定义为热门物品。
S220、依据用户行为数据及预设类型权重值,确定热门物品对应用户的用户偏好值。
其中,预设类型权重值是指预先设定的、每个设定类型的用户行为数据对应的权重值。
具体地,用户偏好值的获取过程为:逐个将热门物品中单个设定类型的用户数据以及对应的预设类型权重值相乘,并将该热门物品对应的所有乘积进行累加,以获得单个用户的用户偏好值。对于热门物品对应的每个用户,均按照上述过程获取用户偏好值,以确定热门物品对应用户的用户偏好值。
示例性地,依据用户行为数据及预设类型权重值,确定热门物品对应用户的用户偏好值包括:对第二预设时间段内的用户行为数据进行标准化,获得标准用户行为数据;依据标准用户行为及预设类型权重值,确定热门物品对应用户的用户偏好值。
其中,第二预设时间段是指预先设定时长的时间段,其用于表征标准化的统计时长。该统计时长需要设定一个合适的时长,如果统计时长设定过长,则不能够表征用户的近期数据,如果统计时长设定过短,则不具备统计意义。所以,该第二预设时间段需要根据具体的物品来确定。
具体地,由于不同设定类型的用户数据之间的量纲不同,故需对用户数据进行标准化处理。具体实施时,先对第二预设时间段内的设定类型的用户行为数据进行统计,以获得相应设定类型用户行为数据的最大值和最小值,并根据设定类型的用户行为数据以及上述统计所得的最大值和最小值,对设定类型的用户行为数据进行标准化处理,获得标准用户行为数据。之后,再根据该标准用户行为数据以及对应的预设类型权重值,确定热门物品对应用户的用户偏好值。这样设置的好处在于,能够获得合适时长内的用户偏好值,使得后续的数据截断处理更加符合实际情况,进而使得相似度度量更加真实。
S230、依据用户偏好值,确定热门物品对应的有效用户数据。
具体地,根据用户偏好值对热门物品对应的用户数据进行截断,只保留有效用户数据。比如,可以设置偏好值阈值,保留用户偏好值大于或等于该偏好值阈值的有效用户,将有效用户对应的用户数据确定为热门物品对应的有效用户数据;也可以将热门物品对应的用户按照用户偏好值排序,按照排序结果,保留一定数量的有效用户,将有效用户对应的用户数据确定为热门物品对应的有效用户数据。
S240、确定有效用户数据为热门物品对应的热门用户数据。
具体地,本实施例中,对于包含热门物品的相似度度量,其所用到的相似度度量数据应该是S230确定的热门物品对应的有效用户数据,而非全部用户数据。所以,将S230中确定的热门物品对应的有效用户数据,确定为热门物品对应的热门用户数据。
S250、依据热门用户数据和/或非热门物品对应的用户数据,确定两个物品之间的用户集合。
其中,非热门物品是待度量相似度的物品中除去热门物品之外的其他物品。
具体地,如果待度量相似度的两个物品均为热门物品,那么确定用户集合所依据的数据就是两个物品对应的热门用户数据;如果两个物品中有一个是热门物品,那么确定用户集合所依据的数据就是热门物品对应的热门用户数据以及非热门物品对应的用户数据;如果两个物品均为非热门物品,那么确定用户集合所依据的数据就是非热门物品对应的用户数据。
S260、依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个物品之间的相似度。
本实施例的技术方案,通过对热门物品对应的用户数据进行截断处理,能够有效降低相似度算法的实现复杂度,并且能够有效减少基于相似度的物品推荐中热门物品的出现概率,使得基于相似度的物品推荐结果更加符合实际情况。
实施例三
本实施例在上述实施例的基础上,以物品为直播间举例,以进行相似度度量的阐述。在此基础上,进一步增加基于相似度的直播间推荐。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图3,本实施例提供的相似度度量方法包括:
S310、确定热门直播间,以及与热门直播间相对应的设定类型的用户行为数据。
具体地,将30天内观看用户数大于20万的直播间确定为热门直播间,并且获取热门直播间对应的用户观看时长、弹幕发布次数以及是否关注的关注行为,作为热门直播间的设定类型的用户行为数据。
S320、依据用户行为数据及预设类型权重值,确定热门直播间对应用户的用户偏好值。
具体地,根据观看时长、弹幕发布次数及关注行为对应的观看时长权重值、弹幕发布权重值及关注权重值,按照下述偏好值计算公式(4),确定热门直播间对应用户的用户偏好值。
Figure BDA0001615619100000121
其中,score(u)是用户u对直播间的用户偏好值;α、β和γ分别是观看时长、弹幕发布次数和关注行为的预设类型权重值,本实施例中分别取值为0.4、0.4和0.2;std_time(u)是用户u标准化后的观看时长,time(u)是用户u的观看时长,min_time是第二预设时间段30天内对直播间有操作行为的全部用户中观看时长的最小值,而max_time是相应的观看时长的最大值;std_msg_cnt(u)是用户u标准化后的发弹幕次数,msg_cnt(u)是用户u的弹幕发布次数,min_msg_cnt是第二预设时间段30天内对直播间有操作行为的全部用户中弹幕发布次数的最小值,max_msg_cnt是相应的弹幕发布次数的最大值;is_attention是用户u是否对用该直播间进行了关注,若用户有关注则值为1,否则是0。
S330、依据用户偏好值,确定热门直播间对应的有效用户数据。
具体地,对热门直播间中有操作行为的全部用户按照用户偏好值进行倒序排序,并保留每个热门直播间中用户偏好值靠前的1万用户,确定为有效用户数据。
S340、确定有效用户数据为热门直播间对应的热门用户数据。
S350、依据热门用户数据和/或非热门直播间对应的用户数据,确定两个直播间之间的用户集合。
S360、依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个直播间之间的相似度。
具体地,假设直播间1和直播间2的相关观看人数(即用户数据)分别是:
N11=1000,N12=5000,N21=2000,N22=100000
于是:
Figure BDA0001615619100000131
Figure BDA0001615619100000132
Figure BDA0001615619100000141
那么,直播间1和2的相似度为:
Figure BDA0001615619100000142
S370、确定目标用户的历史观看直播间。
其中,目标用户是指待推荐直播间的用户。
具体地,从直播平台中获取目标用户的历史观看直播间。
S380、按照待推荐直播间与历史观看直播间的相似度,对待推荐直播间排序。
其中,待推荐直播间是指能够向目标用户推荐的直播平台中的直播间。
具体地,按照预设相似度度量规则,逐个计算历史观看直播间与待推荐直播间之间的相似度,并按照相似度数值大小,对待推荐直播间进行倒序排序。
S390、确定排序结果中预设数量的待推荐直播间为目标推荐直播间。
其中,预设数量是指预先设定的推荐直播间的数量,其可以是直播平台默认设置,也可以由用户自行设定。
具体地,在待推荐直播间排序结果中,确定排序靠前的、设定数量的待推荐直播间为目标直播间,并可将该目标直播间推荐给目标用户。
本实施例的技术方案,通过综合了多种用户集合的预设相似度度量规则,对两个直播间之间的相似度进行度量,使得直播间之间的相似度度量更加全面;通过用户数据的截断处理,使得在相似度度量中对热门直播间的处理更加科学,而非简单地人为降低热门直播间的热度,从而使得直播间相似度更加全面、更加符合实际情况,进而使得基于相似度的直播间推荐更加符合用户兴趣,提高用户体验。
以下是本发明实施例提供的相似度度量装置的实施例,该装置与上述各实施例的相似度度量方法属于同一个发明构思,在相似度度量装置的实施例中未详尽描述的细节内容,可以参考上述相似度度量方法的实施例。
实施例四
本实施例提供一种相似度度量装置,参见图4,该装置具体包括:
用户集合确定模块410,用于依据与待度量相似度的物品相对应的用户数据,确定两个物品之间的用户集合,用户集合包括用户交集、用户相对补集和用户并集的绝对补集;
相似度度量模块420,用于依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个物品之间的相似度。
可选地,预设相似度度量规则为:
Figure BDA0001615619100000151
row_entropy=entropy(N11+N12,N21+N22)
column_entropy=entropy(N11+N21,N12+N22)
maxtrix_entropy=entropy(N11,N12,N21,N22)
其中,Sij为两个物品之间的相似度,entropy为香农熵,N11为物品i对应的用户集I和物品j对应的用户集J的用户交集,N12为用户集I中用户集J的用户相对补集,N21为用户集J中用户集I的用户相对补集,N22为用户集I与用户集J的用户并集的绝对补集。
可选地,在上述装置的基础上,该装置还包括:
热门物品确定模块,用于在依据与待度量相似度的物品相对应的用户数据,确定两个物品之间的用户集合之前,确定热门物品,以及与热门物品相对应的设定类型的用户行为数据;
用户偏好值确定模块,用于依据用户行为数据及预设类型权重值,确定热门物品对应用户的用户偏好值。
相应地,用户集合确定模块410具体用于:
确定有效用户数据为热门物品对应的热门用户数据;
依据热门用户数据和/或非热门物品对应的用户数据,确定两个物品之间的用户集合。
可选地,热门物品确定模块具体用于:
依据第一预设时间段内物品对应的用户数量及预设用户数量,确定热门物品。
可选地,用户偏好值确定模块具体用于:
对第二预设时间段内的用户行为数据进行标准化,获得标准用户行为数据;
依据标准用户行为及预设类型权重值,确定热门物品对应用户的用户偏好值。
可选地,物品为直播间;设定类型的用户行为数据包括观看时长、弹幕发布次数和关注行为。
可选地,在上述装置的基础上,该装置还包括:直播间推荐模块,用于:
在依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个物品之间的相似度之后,确定目标用户的历史观看直播间;
按照待推荐直播间与历史观看直播间的相似度,对待推荐直播间排序;
确定排序结果中预设数量的待推荐直播间为目标推荐直播间。
通过本发明实施例四的一种相似度度量装置,解决了基于物品的推荐算法中相似度度量片面化的问题,实现了更加全面且合理地利用相似度度量数据,从而获得更加符合实际的物品间的相似度。
本发明实施例所提供的相似度度量装置可执行本发明任意实施例所提供的相似度度量方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述相似度度量装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例五
参见图5,本实施例提供了一种设备500,其包括:一个或多个处理器520;存储装置510,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器520执行,使得一个或多个处理器520实现本发明实施例所提供的相似度度量方法,包括:
依据与待度量相似度的物品相对应的用户数据,确定两个物品之间的用户集合,用户集合包括用户交集、用户相对补集和用户并集的绝对补集;
依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个物品之间的相似度。
当然,本领域技术人员可以理解,处理器520还可以实现本发明任意实施例所提供的相似度度量方法的技术方案。
图5显示的设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,该设备500包括处理器520、存储装置510、输入装置530和输出装置540;设备中处理器520的数量可以是一个或多个,图5中以一个处理器520为例;设备中的处理器520、存储装置510、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线550连接为例。
存储装置510作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的……方法对应的程序指令/模块。
存储装置510可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置510可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置510可进一步包括相对于处理器520远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
实施例六
本实施例提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种相似度度量方法,该方法包括:
依据与待度量相似度的物品相对应的用户数据,确定两个物品之间的用户集合,用户集合包括用户交集、用户相对补集和用户并集的绝对补集;
依据用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个物品之间的相似度。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的相似度度量方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的相似度度量方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种相似度度量方法,其特征在于,包括:
依据与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合,所述用户集合包括用户交集、用户相对补集和用户并集的绝对补集;
依据所述用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个所述物品之间的相似度;
其中,所述预设相似度度量规则为:
Figure FDA0002529253230000011
row_entropy=entropy(N11+N12,N21+N22)
column_entropy=entropy(N11+N21,N12+N22)
maxtrix_entropy=entropy(N11,N12,N21,N22)
其中,Sij为两个所述物品之间的相似度,entropy为香农熵,N11为物品i对应的用户集I和物品j对应的用户集J的用户交集,N12为用户集I中用户集J的用户相对补集,N21为用户集J中用户集I的用户相对补集,N22为用户集I与用户集J的用户并集的绝对补集。
2.根据权利要求1所述的方法,其特征在于,在所述依据与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合之前,还包括:
确定热门物品,以及与所述热门物品相对应的设定类型的用户行为数据;
依据所述用户行为数据及预设类型权重值,确定所述热门物品对应用户的用户偏好值;
依据所述用户偏好值,确定所述热门物品对应的有效用户数据;
所述依据与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合包括:
确定所述有效用户数据为所述热门物品对应的热门用户数据;
依据所述热门用户数据和/或非热门物品对应的所述用户数据,确定两个所述物品之间的用户集合。
3.根据权利要求2所述的方法,其特征在于,所述确定热门物品包括:
依据第一预设时间段内所述物品对应的用户数量及预设用户数量,确定所述热门物品。
4.根据权利要求2所述的方法,其特征在于,所述依据所述用户行为数据及预设类型权重值,确定所述热门物品对应用户的用户偏好值包括:
对第二预设时间段内的所述用户行为数据进行标准化,获得标准用户行为数据;
依据所述标准用户行为及所述预设类型权重值,确定所述热门物品对应用户的用户偏好值。
5.根据权利要求2所述的方法,其特征在于,所述物品为直播间;
所述设定类型的用户行为数据包括观看时长、弹幕发布次数和关注行为。
6.根据权利要求5所述的方法,其特征在于,在所述依据所述用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个所述物品之间的相似度之后,还包括:
确定目标用户的历史观看直播间;
按照待推荐直播间与所述历史观看直播间的相似度,对所述待推荐直播间排序;
确定排序结果中预设数量的所述待推荐直播间为目标推荐直播间。
7.一种相似度度量装置,其特征在于,包括:
用户集合确定模块,用于依据与待度量相似度的物品相对应的用户数据,确定两个所述物品之间的用户集合,所述用户集合包括用户交集、用户相对补集和用户并集的绝对补集;
相似度度量模块,用于依据所述用户集合的香农熵,以及基于极大似然比检验的预设相似度度量规则,确定两个所述物品之间的相似度;
其中,所述预设相似度度量规则为:
Figure FDA0002529253230000031
row_entropy=entropy(N11+N12,N21+N22)
column_entropy=entropy(N11+N21,N12+N22)
maxtrix_entropy=entropy(N11,N12,N21,N22)
其中,Sij为两个所述物品之间的相似度,entropy为香农熵,N11为物品i对应的用户集I和物品j对应的用户集J的用户交集,N12为用户集I中用户集J的用户相对补集,N21为用户集J中用户集I的用户相对补集,N22为用户集I与用户集J的用户并集的绝对补集。
8.一种相似度度量设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的相似度度量方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的相似度度量方法。
CN201810284500.0A 2018-04-02 2018-04-02 一种相似度度量方法、装置、设备及存储介质 Active CN108600792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810284500.0A CN108600792B (zh) 2018-04-02 2018-04-02 一种相似度度量方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810284500.0A CN108600792B (zh) 2018-04-02 2018-04-02 一种相似度度量方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108600792A CN108600792A (zh) 2018-09-28
CN108600792B true CN108600792B (zh) 2020-08-04

Family

ID=63625196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810284500.0A Active CN108600792B (zh) 2018-04-02 2018-04-02 一种相似度度量方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108600792B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413461A (zh) * 2018-09-30 2019-03-01 武汉斗鱼网络科技有限公司 一种直播间的推荐方法及相关设备
CN109299316B (zh) * 2018-11-09 2023-04-18 平安科技(深圳)有限公司 音乐推荐方法、装置和计算机设备
CN111209713B (zh) * 2020-01-03 2023-08-18 长江存储科技有限责任公司 晶圆数据处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260414A (zh) * 2015-09-24 2016-01-20 精硕世纪科技(北京)有限公司 用户行为相似性计算方法及装置
JP2016066135A (ja) * 2014-09-24 2016-04-28 日本電信電話株式会社 類似度評価装置、類似度評価システム、類似度評価装置方法、および、類似度評価プログラム
CN106651542A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种物品推荐的方法及装置
CN107172452A (zh) * 2017-04-25 2017-09-15 北京潘达互娱科技有限公司 直播间推荐方法及装置
CN107613395A (zh) * 2017-08-28 2018-01-19 武汉斗鱼网络科技有限公司 直播房间推荐方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9269028B2 (en) * 2014-07-07 2016-02-23 General Electric Company System and method for determining string similarity

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016066135A (ja) * 2014-09-24 2016-04-28 日本電信電話株式会社 類似度評価装置、類似度評価システム、類似度評価装置方法、および、類似度評価プログラム
CN105260414A (zh) * 2015-09-24 2016-01-20 精硕世纪科技(北京)有限公司 用户行为相似性计算方法及装置
CN106651542A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种物品推荐的方法及装置
CN107172452A (zh) * 2017-04-25 2017-09-15 北京潘达互娱科技有限公司 直播间推荐方法及装置
CN107613395A (zh) * 2017-08-28 2018-01-19 武汉斗鱼网络科技有限公司 直播房间推荐方法及***

Also Published As

Publication number Publication date
CN108600792A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108491529B (zh) 信息推荐方法及装置
CN110929052B (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
CN109741060B (zh) 信息查询***、方法、装置、电子设备及存储介质
CN108600792B (zh) 一种相似度度量方法、装置、设备及存储介质
US9380073B2 (en) Reputation system in a default network
US20220294821A1 (en) Risk control method, computer device, and readable storage medium
CN109299144B (zh) 一种数据处理方法、装置、***及应用服务器
CN105872837A (zh) 用户推荐方法及装置
US10673803B2 (en) Analyzing interests based on social media data
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN111225246B (zh) 一种视频推荐方法、装置及电子设备
CN105718951B (zh) 用户相似度的估算方法及估算***
CN110795458A (zh) 交互式数据分析方法、装置、电子设备和计算机可读存储介质
CN111327609B (zh) 数据审核方法及装置
Congosto Digital sources: a case study of the analysis of the Recovery of Historical Memory in Spain on the social network Twitter
CN111523035B (zh) App浏览内容的推荐方法、装置、服务器和介质
CN108694174B (zh) 内容投放数据的分析方法及装置
CN110427358B (zh) 数据清洗方法及装置和信息推荐方法及装置
CN110909258A (zh) 一种信息推荐方法、装置、设备及存储介质
de França et al. User profiling of the Twitter Social Network during the impeachment of Brazilian President
CN112788351A (zh) 一种目标直播间的识别方法、装置、设备和存储介质
CN108304298B (zh) 基于教育行业实现多管理端对学生移动终端的监管***
CN115485676A (zh) 基于用户画像的数据处理方法、装置、设备、介质及程序
CN112788356B (zh) 一种直播审核的方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant