CN115617944A - 内容推荐方法、装置、存储介质及电子设备 - Google Patents

内容推荐方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115617944A
CN115617944A CN202211243259.XA CN202211243259A CN115617944A CN 115617944 A CN115617944 A CN 115617944A CN 202211243259 A CN202211243259 A CN 202211243259A CN 115617944 A CN115617944 A CN 115617944A
Authority
CN
China
Prior art keywords
user
target
original content
content
media object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211243259.XA
Other languages
English (en)
Inventor
穆学锋
谈雪娇
徐若易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Cloud Music Technology Co Ltd
Original Assignee
Hangzhou Netease Cloud Music Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Cloud Music Technology Co Ltd filed Critical Hangzhou Netease Cloud Music Technology Co Ltd
Priority to CN202211243259.XA priority Critical patent/CN115617944A/zh
Publication of CN115617944A publication Critical patent/CN115617944A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及计算机技术领域,具体涉及一种内容推荐方法、内容推荐装置、存储介质及电子设备。该内容推荐方法包括:获取发出请求的目标用户的已发布的目标用户原创内容;获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。本公开能够推荐给用户得分最高的能够抒发内心情愫的用户原创内容,以提升用户的社交能力。

Description

内容推荐方法、装置、存储介质及电子设备
技术领域
本公开涉及计算机技术领域,尤其涉及一种内容推荐方法、内容推荐装置、存储介质及电子设备。
背景技术
目前,用户在音乐平台听取音乐的过程中有情愫需要抒发时,通常需要用户自己编辑用户原创内容(User Generated Content,UGC)并进行分享,以抒发情愫。但是,用户自己编辑用户原创内容往往太过单一,不能展现用户的社交能力。因此,亟需一种内容推荐方法,能够推荐给用户能够抒发内心情愫的用户原创内容,以提升用户的社交能力。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种内容推荐方法、装置、存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据获取效率较低以及运算效率较低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种内容推荐方法,包括:
获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;
获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;
根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;
计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;
根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。
在本公开的一种示例性实施例中,所述根据所述关键词集合和所述语义向量召回各个第一用户原创内容包括:
获取第二用户原创内容中的第二文本内容并根据所述第二文本内容生成第二关键词集合和第二语义向量,所述第二用户原创内容为除所述目标用户原创内容外的其他用户原创内容;
计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分;
计算所述目标语义向量和所述第二语义向量的语义匹配得分;
根据所述关键词匹配得分以及所述语义匹配得分召回所述第一用户原创内容;其中,所述第一用户原创内容为所述第二用户原创内容中所述关键词匹配得分大于或者等于第一预设阈值的用户原创内容或者所述第二用户原创内容中所述语义匹配得分大于或者等于第二设阈值的用户原创内容。
在本公开的一种示例性实施例中,所述计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分包括:
获取所述目标关键词集合和所述第二关键词集合中的相同关键词;
获取所述相同关键词的数量和/或获取所述相同关键词的权重;
根据所述相同关键词的数量和/或所述相同关键词的权重计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分。
在本公开的一种示例性实施例中,所述计算所述目标语义向量和所述第二语义向量的语义匹配得分包括:
计算所述目标语义向量与所述第二语义向量的距离;
根据所述目标语义向量与所述第二语义向量的距离确定目标语义向量和所述第二语义向量的语义匹配得分。
在本公开的一种示例性实施例中,所述方法还包括:
获取所述目标用户原创内容的目标媒体对象;
获取所述第二用户原创内容的第二媒体对象;
计算所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分;
根据所述媒体对象匹配得分召回所述第一用户原创内容。
在本公开的一种示例性实施例中,所述计算所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分包括:
获取所述目标媒体对象的目标用户行为向量;
获取所述第二媒体对象的第二用户行为向量;
根据所述目标用户行为向量与所述第二用户行为向量计算所述目标媒体对象与所述第二媒体对象的相似度,并将所述相似度作为所述媒体对象匹配得分。
在本公开的一种示例性实施例中,所述根据所述媒体对象匹配得分召回所述第一用户原创内容包括:
从所述第二用户原创内容中确定所述媒体对象匹配得分大于或者等于第三预设阈值的指定用户原创内容;
将所述指定用户原创内容作为所述第一用户原创内容进行召回。
在本公开的一种示例性实施例中,所述根据所述目标文本内容生成目标关键词集合和目标语义向量包括:
获取所述目标文本的ID列表,并将所述ID列表输入命名实体识别NER模型,以获取所述目标文本的概率矩阵;
根据所述概率矩阵确定所述目标文本中的各个目标关键词并生成所述目标关键词集合;
获取所述目标文本内容的词向量以及权重值;
根据所述权重值对各个所述词向量进行加权运算,得到所述目标语义向量。
在本公开的一种示例性实施例中,所述计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分,包括:
确定所述第一用户原创内容和所述原创用户原创内容之间的关键词匹配得分和语义匹配得分;
根据所述关键词匹配得分和所述语义匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分,还包括:
确定所述第一用户原创内容和所述目标用户原创内容之间的媒体对象匹配得分;
所述根据所述关键词匹配得分和语义匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分,还包括:
根据所述关键词匹配得分、所述语义匹配得分和所述媒体对象匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分,还包括:
获取所述目标用户在预设时间段内的消费偏好值和所述第一用户原创内容的分享热度值;
所述根据所述关键词匹配得分、所述语义匹配得分和所述媒体对象匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分,还包括:
根据所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值和所述分享热度值,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述获取所述目标用户在预设时间段内的消费偏好值和所述第一用户原创内容的分享热度值包括:
获取站内用户在所述预设时间段内对所述第一用户原创内容进行的第一操作的第一次数,所述第一操作包括以下中的至少一个:播放、点赞以及评论;
根据所述第一次数确定所述目标用户在所述预设时间段内的消费偏好值;
获取所述第一用户原创内容被进行第二操作的第二次数,所述第二操作包括转发和/或分享操作;
根据所述第二次数计算所述第一用户原创内容的分享热度值。
在本公开的一种示例性实施例中,所述根据所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值以及分享热度值,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分包括:
分别对所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值以及分享热度值进行特征分桶,得到所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值;
分别将所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值转化为关键词匹配向量、语义匹配向量、媒体对象匹配向量、消费偏好值向量以及分享热度值向量;
利用深度模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征提取,得到第一向量;
利用交叉模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征交叉运算,得到第二向量;
将所述第一向量以及所述第二向量进行拼接处理,得到拼接处理结果;
对所述拼接处理结果经全连接层处理后进行sigmoid运算,得到运算结果,并将所述运算结果作为所述综合得分。
在本公开的一种示例性实施例中,所述根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容包括:
根据所述综合得分对所述第一用户原创内容按照预设条件进行筛选,得到筛选后的所述第一用户原创内容;
将所述筛选后的所述第一用户原创内容作为所述待推荐用户原创内容。
根据本公开的第二方面,提供一种内容推荐装置,包括:
用户原创内容获取模块,用于获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;
关键词生成模块,用于获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;
用户原创内容召回模块,用于根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;
综合得分计算模块,用于计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;
用户原创内容推荐模块,用于根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。
在本公开的一种示例性实施例中,所述用户原创内容召回模块包括:
关键词集合生成单元,用于获取第二用户原创内容中的第二文本内容并根据所述第二文本内容生成第二关键词集合和第二语义向量,所述第二用户原创内容为除所述目标用户原创内容外的其他用户原创内容;
关键词匹配得分计算单元,用于计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分;
语义匹配得分计算单元,用于计算所述目标语义向量和所述第二语义向量的语义匹配得分;
用户原创内容召回单元,用于根据所述关键词匹配得分以及所述语义匹配得分召回所述第一用户原创内容;其中,所述第一用户原创内容为所述第二用户原创内容中所述关键词匹配得分大于或者等于第一预设阈值的用户原创内容或者所述第二用户原创内容中所述语义匹配得分大于或者等于第二设阈值的用户原创内容。
在本公开的一种示例性实施例中,所述关键词匹配得分计算单元包括:
关键词获取单元,用于获取所述目标关键词集合和所述第二关键词集合中的相同关键词;
关键词数量获取单元,用于获取所述相同关键词的数量和/或获取所述相同关键词的权重;
关键词匹配得分确定单元,用于根据所述相同关键词的数量和/或所述相同关键词的权重计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分。
在本公开的一种示例性实施例中,所述语义匹配得分计算单元包括:
距离计算单元,用于计算所述目标语义向量与所述第二语义向量的距离;
语义匹配得分确定单元,用于根据所述目标语义向量与所述第二语义向量的距离确定目标语义向量和所述第二语义向量的语义匹配得分。
在本公开的一种示例性实施例中,所述用户原创内容召回模块还包括:
目标媒体对象获取单元,用于获取所述目标用户原创内容的目标媒体对象;
第二媒体对象获取单元,用于获取所述第二用户原创内容的第二媒体对象;
媒体对象匹配得分计算单元,用于计算所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分;
所述用户原创内容召回单元,还用于根据所述媒体对象匹配得分召回所述第一用户原创内容。
在本公开的一种示例性实施例中,所述媒体对象匹配得分计算单元包括:
目标用户行为向量获取单元,用于获取所述目标媒体对象的目标用户行为向量;
第二用户行为向量获取单元,用于获取所述第二媒体对象的第二用户行为向量;
媒体对象相似度计算单元,用于根据所述目标用户行为向量与所述第二用户行为向量计算所述目标媒体对象与所述第二媒体对象的相似度,并将所述相似度作为所述媒体对象匹配得分。
在本公开的一种示例性实施例中,所述用户原创内容召回单元包括:
指定用户原创内容确定单元,用于从所述第二用户原创内容中确定所述媒体对象匹配得分大于或者等于第三预设阈值的指定用户原创内容;
第一用户原创内容召回单元,用于在本公开的一种示例性实施例中,所述根据所述目标文本内容生成目标关键词集合和目标语义向量包括:
ID列表获取单元,用于获取所述目标文本的ID列表,并将所述ID列表输入命名实体识别NER模型,以获取所述目标文本的概率矩阵;
目标关键词确定单元,用于根据所述概率矩阵确定所述目标文本中的各个目标关键词并生成所述目标关键词集合;
词向量获取单元,用于获取所述目标文本内容的词向量以及权重值;
目标语义向量获取单元,用于根据所述权重值对各个所述词向量进行加权运算,得到所述目标语义向量。
在本公开的一种示例性实施例中,所述综合得分计算模块包括:
匹配得分计算单元,用于确定所述第一用户原创内容和所述原创用户原创内容之间的关键词匹配得分和语义匹配得分;
第一综合得分确定单元,用于根据所述关键词匹配得分和所述语义匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述综合得分计算模块,还包括:
媒体对象匹配得分确定单元,用于确定所述第一用户原创内容和所述目标用户原创内容之间的媒体对象匹配得分;
所述第一综合得分确定单元,还包括:
第二综合得分确定单元,用于根据所述关键词匹配得分、所述语义匹配得分和所述媒体对象匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述综合得分计算模块,还包括:
分享热度值计算单元,用于获取所述目标用户在预设时间段内的消费偏好值和所述第一用户原创内容的分享热度值;
所述第二综合得分确定单元,还包括:
第三综合得分确定单元,用于根据所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值和所述分享热度值,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述分享热度值计算单元包括:
第一次输获取单元,用于获取站内用户在所述预设时间段内对所述第一用户原创内容进行的第一操作的第一次数,所述第一操作包括以下中的至少一个:播放、点赞以及评论;
消费偏好值确定单元,用于根据所述第一次数确定所述目标用户在所述预设时间段内的消费偏好值;
第二次数获取单元,用于获取所述第一用户原创内容被进行第二操作的第二次数,所述第二操作包括转发和/或分享操作;
分享热度值计算单元,用于根据所述第二次数计算所述第一用户原创内容的分享热度值。
在本公开的一种示例性实施例中,所述第三综合得分确定单元包括:
离散值获取单元,用于分别对所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值以及分享热度值进行特征分桶,得到所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值;
向量获取单元,用于分别将所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值转化为关键词匹配向量、语义匹配向量、媒体对象匹配向量、消费偏好值向量以及分享热度值向量;
特征提取单元,用于利用深度模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征提取,得到第一向量;
交叉运算单元,用于利用交叉模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征交叉运算,得到第二向量;
拼接处理单元,用于将所述第一向量以及所述第二向量进行拼接处理,得到拼接处理结果;
sigmoid运算单元,用于对所述拼接处理结果经全连接层处理后进行sigmoid运算,得到运算结果,并将所述运算结果作为所述综合得分。
在本公开的一种示例性实施例中,所述用户原创内容推荐模块包括:
用户原创内容筛选单元,用于根据所述综合得分对所述第一用户原创内容按照预设条件进行筛选,得到筛选后的所述第一用户原创内容;
待推荐用户原创内容确定单元,用于将所述筛选后的所述第一用户原创内容作为所述待推荐用户原创内容。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
综上所述,本公开提供的方法,通过获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户,能够推荐给用户得分最高的、能够抒发内心情愫的用户原创内容,以提升用户的社交能力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本公开示例性实施例中一种内容推荐方法的流程图;
图2示意性地示出了本公开示例性实施例中一种内容推荐***的方框图;
图3示意性地示出了本公开示例性实施例中一种语义向量获取方法的流程图;
图4示意性地示出了本公开示例性实施例中一种用户原创内容召回方法的流程图;
图5示意性地示出了本公开示例性实施例中一种内容推荐方法的示意图;
图6示意性地示出了本公开示例性实施例中一种内容推荐装置的方框图;
图7示意性地示出了本公开示例性实施例中一种存储介质的示意图;
图8示意性地示出了本公开示例性实施例中一种电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据,对数据的采集、传播、使用等,均符合国家相关法律法规要求,本公开实施方式/实施例可以互相组合。
针对现有技术中存在的缺陷,本示例实施方式中首先提供了一种内容推荐方法,能够向用户推荐综合得分最高的、能够抒发内心情愫的用户原创内容,以提升用户的社交能力。参考图1中所示,上述的内容推荐方法可以包括以下步骤:
S11、获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;
S12、获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;
S13、根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;
S14、计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;
S15、根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。
综上所述,本公开提供的方法,通过获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户,能够推荐给用户得分最高的且能够抒发内心情愫的用户原创内容,以提升用户的社交能力。
下面,将结合附图及实施例对本示例实施方式中的内容推荐方法中各个步骤进行更详细的说明。
在步骤S11中,获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容。
在本公开的一种示例性实施例中,参考图2所示的***架构,可以包括:用户侧移动终端设备201、用户侧智能终端设备204和服务器203等。用户侧移动终端设备201、用户侧智能终端设备204和服务器203之间,均可以通过网络202进行数据传输。网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等。上述的内容推荐方法可以执行在服务器端、用户侧的终端设备或者由用户侧的终端设备与服务器端协作执行。以上述的方法执行在服务器端为例,服务器可以获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户使用的终端设备,由所述终端设备向用户展示所述待推荐用户原创内容。在本公开的一种示例性实施例中,用户原创内容包括可以包括文本、媒体对象以及图片等内容,媒体对象包括音乐媒体、视频媒体等媒体对象,此处对待推荐用户原创内容以及媒体对象不作具体限制。
在步骤S12中,获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量。
在本公开的一种示例性实施例中,上述根据所述目标文本内容生成目标关键词集合和目标语义向量包括:
获取所述目标文本内容的(Identity document,ID)标识信息列表,并将所述ID列表输入命名实体识别(Named Entity Recognition,NER)模型,以获取所述目标文本的概率矩阵;根据所述概率矩阵确定所述目标文本内容中的各个目标关键词并生成所述目标关键词集合;获取所述目标文本内容的词向量以及权重值;根据所述权重值对各个所述词向量进行加权运算,得到所述目标语义向量。
示例性地,所述目标文本内容的概率矩阵包括多个待确定关键词的概率。例如,当目标文本内容为“遇见你是我的小确幸”时,获取所述目标文本内容的ID列表,将所述ID列表输入所述NER模型,得到的所述概率矩阵可以包括待确定关键词“遇见”、“见你”、“你是”“我的”、“小确幸”的等多个待确定关键词的概率,且分别为0.43、0.21、0.27、0.25、0.38,“见”分别出现在“遇见”和“见你”两个待确定关键词中,且“遇见”的概率大于“见你”,则“遇见”为所述目标文本的关键词。此外,待确定关键词“小确幸”的概率大于其他待确定关键词,“小确幸”也为所述目标文本的关键词。进一步地,确定所述目标文本内容的各个目标关键词后,生成所述目标文本内容的目标关键词集合。
在本公开的一种示例性实施例中,所述NER模型的训练集包括通用数据集以及媒体的用户原创内容的数据集。通过包括用数据集以及媒体的用户原创内容的数据集的训练集训练的NER模型,不仅能对通用数据集进行识别,也能对媒体的用户原创内容进行识别。
在本公开的一种示例性实施例中,所述NER模型采用基于双向编码器表示技术(Bidirectional Encoder Representation from Transformers,Bert)的全局指针GlobalPoint模型。Bert模型是谷歌开源的一个超大规模语义预训练模型,包含200多种语言。Global Pointer模型利用全局归一化的思路来进行命名实体识别,可以无差别地识别嵌套实体和非嵌套实体,在识别非嵌套实体时的准确性与条件随机场类似,能够准确的识别非嵌套实体;识别嵌套实体时的准确性也较高。另外Global Pointer模型的训练的时候不需要像条件随机场那样递归计算分母,在识别实体的时候也不需要动态规划,是完全并行的,因此,理想情况下时间复杂度远远低于条件随机场。综上所述,采用基于Bert的GlobalPoint模型的NER模型,能够对能够识别各种语音的实体,并且能够准确且快速的识别各种语音中的嵌套实体和非嵌套实体。
在本公开的一种示例性实施例中,可以运用分词技术对所述目标文本内容进行分词,得到多个词。对多个词中的每个词,采用字-向量机Word2vec生成该词的多维的词向量,例如128维的词向量,同时对每个词采用词频-逆文本频率指数(term frequency–inversedocument frequency,TF-IDF)计算该词的权重值;并利用权重对一个所述目标文本内容中的所有词的向量进行加权,这样得到的目标文本内容的语义向量包含了对目标文本内容的文本词信息和句子的语义信息的双重表达。
Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学的词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随其在文件中出现的次数成正比增加,但同时会随其在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF中的TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。
下面结合图3对如何获取所述目标文本内容的目标语义向量进行说明。例如图3所示,在所述目标文本内容为“今天下雨,考试失利,心情糟透了”时,运用分词技术对所述目标文本内容进行分词,得到词集合,词集合中包括“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”以及“了”多个词。再采用Word2vec获取词集合中“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”以及“了”每个词的词向量,得到词向量集合。例如,词向量集合中“今天”的词向量为[0.11,0.02,0.39……,0.23],“糟”词向量为[0.87,-0.3,0.58……,0.24]。同时,采用TF-IDF获取词集合中“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”以及“了”每个词的TF-IDF权重。例如,“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”以及“了”的TF-IDF权重分别为0.12、0.21、0.57、0.62、0.33、0.36、0.18以及0.01。得到“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”以及“了”中每个词的词向量以及“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”中每个词的TF-IDF权重后,根据“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”每个词的词向量以及“今天”、“下雨”“考试”、“失利”、“心情”、“糟”、“透”中每个词的TF-IDF权重进行词向量加权运算,得到所述目标文本内容的目标语义向量。例如目标语义向量为[0.36,0.58,-0.17,0.36……,0.38]。
在步骤S13中,根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容。
基于上述内容,如图4所示,在本公开的一种示例性实施例中,上述根据所述关键词集合和所述语义向量召回各个第一用户原创内容包括:
S131、获取第二用户原创内容中的第二文本内容并根据所述第二文本内容生成第二关键词集合和第二语义向量。
在本公开的一种示例性实施例中,所述第二用户原创内容为除所述目标用户原创内容外的其他用户原创内容。例如,所述第二用户原创内容可以为所示目标用户发布的其他用户原创内容,也可以为其他用户发布的用户原创内容,本实施例此处不作具体限制。
示例性地,所述第二关键词集合为所述第二文本内容的关键词集合,所述第二语义向量为所述第二文本内容的语义向量。所述第二关键词集合和所述第二语义向量的生成过程分别与所述目标关键词集合和所述目标语义向量类似,本实施例此处不再赘述。
S132、计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分;
在本公开的一种示例性实施例中,上述计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分包括:
获取所述目标关键词集合和所述第二关键词集合中的相同关键词;获取所述相同关键词的数量和/或获取所述相同关键词的权重;根据所述相同关键词的数量和/或所述相同关键词的权重计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分。
示例性地,若所述目标关键词集合和所述第二关键词集合中的相同关键词为A关键词、B关键词以及C关键词,相同关键词的数量为3,则可根据数量3确定所述目标关键词集合和所述第二关键词集合的关键词匹配得分,该关键词匹配得分与数量3成正比。示例性地,还可以获取相同关键词为A关键词、B关键词以及C关键词的权重,并根据权重进行加权运算进而根据加权运算结果确定所述目标关键词集合和所述第二关键词集合的关键词匹配得分,该关键词匹配得分与加权运算结果成正比。示例性地,还可以根据数量3以及加权运算的结果共同确定所述目标关键词集合和所述第二关键词集合的关键词匹配得分,例如可以计算数量3与加权运算的结果的乘积,进而根据数量3与加权运算结果的乘积确定所述目标关键词集合和所述第二关键词集合的关键词匹配得分,该关键词匹配得分与数量3与加权运算的结果的乘积成正比。
S133、计算所述目标语义向量和所述第二语义向量的语义匹配得分;
在本公开的一种示例性实施例中,上述计算所述目标语义向量和所述第二语义向量的语义匹配得分包括:
计算所述目标语义向量与所述第二语义向量的距离;根据所述目标语义向量与所述第二语义向量的距离确定所述目标语义向量和所述第二语义向量的语义匹配得分。
示例性地,所述目标语义向量和所述第二语义向量的语义匹配得分与所述目标语义向量与所述第二语义向量的距离成反比,所述目标语义向量与所述第二语义向量的距离越大,所述目标语义向量和所述第二语义向量的语义匹配得分越小,所述目标语义向量与所述第二语义向量的距离越小,所述目标语义向量和所述第二语义向量的语义匹配得分越大。
S134、根据所述关键词匹配得分以及所述语义匹配得分召回所述第一用户原创内容。
在本公开的一种示例性实施例中,所述第一用户原创内容为所述第二用户原创内容中所述关键词匹配得分大于或者等于第一预设阈值的用户原创内容或者所述第二用户原创内容中所述语义匹配得分大于或者等于第二设阈值的用户原创内容。
在本公开的一种示例性实施例中,在所述目标用户原创内容和所述第二用户原创内容均包含媒体对象时,还可以通过所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分召回所述第一用户原创内容。下面对如何根据所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分召回所述第一用户原创内容进行说明。
S16、获取所述目标用户原创内容的目标媒体对象;
S17、获取所述第二用户原创内容的第二媒体对象。
示例性地,在所述目标用户原创内容和所述第二用户原创内容均包含媒体对象时,分别获取所述目标用户原创内容的目标媒体对象以及所述第二用户原创内容的第二媒体对象。
S18、计算所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分;
在本公开的一种示例性实施例中,获取所述目标媒体对象的目标用户行为向量;获取所述第二媒体对象的第二用户行为向量;根据所述目标用户行为向量与所述第二用户行为向量计算所述目标媒体对象与所述第二媒体对象的相似度,并将所述相似度作为所述媒体对象匹配得分。
具体的,可以根据如下公式计算所述目标媒体对象与所述第二媒体对象的相似度:
Figure BDA0003885502470000141
其中,similarity为所述目标媒体对象与所述第二媒体对象的相似度,A为所述目标媒体对象的用户行为向量,B为所述第二媒体对象的用户行为向量,Ai为所述目标媒体对象的各个用户行为数据,Bi为所述第二媒体对象的各个用户行为数据。
S19、根据所述媒体对象匹配得分召回所述第一用户原创内容。
在本公开的一种示例性实施例中,从所述第二用户原创内容中确定所述媒体对象匹配得分大于或者等于第三预设阈值的指定用户原创内容;将所述指定用户原创内容作为所述第一用户原创内容进行召回。
在步骤S14中,计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,若第一用户原创内容和所述目标用户原创内容中任意一个用户原创内容中不包括媒体对象或者所述第一用户原创内容和所述目标用户原创内容均不包括媒体对象,确定所述第一用户原创内容和所述原创用户原创内容之间的关键词匹配得分和语义匹配得分;根据所述关键词匹配得分和所述语义匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,若所述第一用户原创内容和所述目标用户原创内容均包括媒体对象,确定所述第一用户原创内容和所述目标用户原创内容之间的媒体对象匹配得分;所述根据所述关键词匹配得分和语义匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分,还包括:根据所述关键词匹配得分、所述语义匹配得分和所述媒体对象匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,上述计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分,还包括:
获取所述目标用户在预设时间段内的消费偏好值和所述第一用户原创内容的分享热度值;所述根据所述关键词匹配得分、所述语义匹配得分和所述媒体对象匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分,还包括:根据所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值和所述分享热度值,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
下面对如何获取所述目标用户在预设时间段内的消费偏好值和所述第一用户原创内容的分享热度值进行说明。
在本公开的一种示例性实施例中,获取站内用户在所述预设时间段内对所述第一用户原创内容进行的第一操作的第一次数,所述第一操作包括以下中的至少一个:播放、点赞以及评论;根据所述第一次数确定所述目标用户在所述预设时间段内的消费偏好值;获取所述第一用户原创内容被进行第二操作的第二次数,所述第二操作包括转发和/或分享操作;根据所述第二次数计算所述第一用户原创内容的分享热度值。
示例性地,站内用户可以为任意一个用户,可以为目标用户,也可以为除目标用户外的其他用户,本实施例此处不作具体限制。所述预设时间段可以为近三天、近一周或者其他时间段,本实施例此处亦不作具体限制。
示例性地,所述消费偏好值与所述第一次数成正比,所述第一次数越大,所述消费偏好值越大,所述第一次数越小,所述消费偏好值越小;所述分享热度值与所述第二次数成正比,所述第二次数越大,所述分享热度值越大,所述第二次数越小,所述分享热度值越小。
下面对如何根据所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值以及分享热度值,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分进行说明。
在本公开的一种示例性实施例中,分别对所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值以及分享热度值进行特征分桶,得到所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值;分别将所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值转化为关键词匹配向量、语义匹配向量、媒体对象匹配向量、消费偏好值向量以及分享热度值向量;利用深度模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征提取,得到第一向量;利用交叉模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征交叉运算,得到第二向量;将所述第一向量以及所述第二向量进行拼接处理,得到拼接处理结果;对所述拼接处理结果经全连接层处理后进行sigmoid运算,得到运算结果,并将所述运算结果作为所述综合得分。
示例性地,深度模型可以为任意一个基于深度学习的神经网络模型,交叉模型可以为(Logistic Regression,LR)逻辑回归模型,也可以为因子分解机(Factor Machine,MF)模型或者其他交叉模型,本实施例此处不做具体限制。
在步骤S15中,根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。
在本公开的一种示例性实施例中,根据所述综合得分对所述第一用户原创内容按照预设条件进行筛选,得到筛选后的所述第一用户原创内容;将所述筛选后的所述第一用户原创内容作为所述待推荐用户原创内容。
示例性地,所述预设条件包括以下中的至少一个:综合得分靠前的N个用户原创内容、在历史预设时长内未向所述目标用户推荐过的用户原创内容、相同用户发布的综合得分靠前的M个用户原创内容以及与所述目标用户的会员信息对应的用户原创内容。其中,N大于M。
例如,可以从各个所述第一用户原创内容中确定将所述综合得分靠前的10个所述第一用户原创内容;从所述综合得分靠前的10个所述第一用户原创内容确定中在近2天内向所述目标用户推送过的第三用户原创内容;在所述目标用户为非会员时,从所述综合得分靠前的10个所述第一用户原创内容确定第四用户原创内容;其中,发布所述第四用户原创内容的用户为会员;再从所述综合得分靠前的10个所述第一用户原创内容中确定五用户原创内容,所述第五用户原创内容为所述综合得分靠前的10个所述第一用户原创内容中相同用户发布的得分最高的2个用户原创内容,M小于N;最后从所述综合得分靠前的10个所述第一用户原创内容中确定除所述第三用户原创内容和所述第四用户原创内容外的其他用户原创内容,并将所述其他用户原创内容以及所述第五用户原创内容作为所述待推荐用户原创内容。
此处需要说明的是,本实施例此处只是示例性地对所述预设条件进行说明,所述预设条件还可以根据实际情况进行调整,本实施例此处对预设条件不作具体限制。
下面结合图5实施例,对本公开的内容推荐方法进行说明。例如图5所示,在步骤S501中,接收用户的发布用户原创内容。在步骤S502中,将用户发布的用户原创内容基于word2vec+词权重生从语义向量。在步骤S503中,基于Bert+Global Point的关键词提取模型提取用户发布的用户原创内容中的关键词。在步骤S504中,根据语义向量进行语义向量检索,以对用户发布的用户原创内容进行文本语义匹配召回;在步骤S505中,根据关键词进行关键词检索,以对用户发布的用户原创内容进行关键词匹配召回。此外,若用户发布的用户原创内容中还包括媒体对象,则执行步骤S506,获取媒体对象的用户行为数据,再执行步骤S507,根据用户行为数据进行媒体相似度索引,以对用户发布的用户原创内容进行媒体匹配召回。进一步地,在步骤S508中,将文本语义匹配召回的用户原创内容、关键词匹配召回的用户原创内容以及媒体匹配召回的用户原创内容输入预先训练的深度模型,以对文本语义匹配召回的用户原创内容、关键词匹配召回的用户原创内容以及媒体匹配召回的用户原创内容进行汇总排序,然后执行S509将汇总排序的结果经修饰输出(例如根据预设条件进行筛选)给用户。这样,能够推荐给用户得分最高的且能够抒发内心情愫的用户原创内容,以提升用户的社交能力。
综上所述,通过获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户,能够推荐给用户得分最高的能够抒发内心情愫的用户原创内容,以提升用户的社交能力。
在介绍了本发明示例性实施方式的内容推荐方法之后,接下来,参考图6对本发明示例性实施方式的内容推荐装置进行描述。
参考图6所示,本发明示例性实施方式的内容推荐装置60可以包括:用户原创内容获取模块601、关键词生成模块602、用户原创内容召回模块603、综合得分计算模块604以及用户原创内容推荐模块605;其中:
用户原创内容获取模块601,用于获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;
关键词生成模块602,用于获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;
用户原创内容召回模块603,用于根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;
综合得分计算模块604,用于计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;
用户原创内容推荐模块605,用于根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。
在本公开的一种示例性实施例中,所述用户原创内容召回模块包括:
关键词集合生成单元,用于获取第二用户原创内容中的第二文本内容并根据所述第二文本内容生成第二关键词集合和第二语义向量,所述第二用户原创内容为除所述目标用户原创内容外的其他用户原创内容;
关键词匹配得分计算单元,用于计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分;
语义匹配得分计算单元,用于计算所述目标语义向量和所述第二语义向量的语义匹配得分;
用户原创内容召回单元,用于根据所述关键词匹配得分以及所述语义匹配得分召回所述第一用户原创内容;其中,所述第一用户原创内容为所述第二用户原创内容中所述关键词匹配得分大于或者等于第一预设阈值的用户原创内容或者所述第二用户原创内容中所述语义匹配得分大于或者等于第二设阈值的用户原创内容。
在本公开的一种示例性实施例中,所述关键词匹配得分计算单元包括:
关键词获取单元,用于获取所述目标关键词集合和所述第二关键词集合中的相同关键词;
关键词数量获取单元,用于获取所述相同关键词的数量和/或获取所述相同关键词的权重;
关键词匹配得分确定单元,用于根据所述相同关键词的数量和/或所述相同关键词的权重计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分。
在本公开的一种示例性实施例中,所述语义匹配得分计算单元包括:
距离计算单元,用于计算所述目标语义向量与所述第二语义向量的距离;
语义匹配得分确定单元,用于根据所述目标语义向量与所述第二语义向量的距离确定目标语义向量和所述第二语义向量的语义匹配得分。
在本公开的一种示例性实施例中,所述用户原创内容召回模块还包括:
目标媒体对象获取单元,用于获取所述目标用户原创内容的目标媒体对象;
第二媒体对象获取单元,用于获取所述第二用户原创内容的第二媒体对象;
媒体对象匹配得分计算单元,用于计算所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分;
所述用户原创内容召回单元,还用于根据所述媒体对象匹配得分召回所述第一用户原创内容。
在本公开的一种示例性实施例中,所述媒体对象匹配得分计算单元包括:
目标用户行为向量获取单元,用于获取所述目标媒体对象的目标用户行为向量;
第二用户行为向量获取单元,用于获取所述第二媒体对象的第二用户行为向量;
媒体对象相似度计算单元,用于根据所述目标用户行为向量与所述第二用户行为向量计算所述目标媒体对象与所述第二媒体对象的相似度,并将所述相似度作为所述媒体对象匹配得分。
在本公开的一种示例性实施例中,所述用户原创内容召回单元包括:
指定用户原创内容确定单元,用于从所述第二用户原创内容中确定所述媒体对象匹配得分大于或者等于第三预设阈值的指定用户原创内容;
第一用户原创内容召回单元,用于在本公开的一种示例性实施例中,所述根据所述目标文本内容生成目标关键词集合和目标语义向量包括:
ID列表获取单元,用于获取所述目标文本的ID列表,并将所述ID列表输入命名实体识别NER模型,以获取所述目标文本的概率矩阵;
目标关键词确定单元,用于根据所述概率矩阵确定所述目标文本中的各个目标关键词并生成所述目标关键词集合;
词向量获取单元,用于获取所述目标文本内容的词向量以及权重值;
目标语义向量获取单元,用于根据所述权重值对各个所述词向量进行加权运算,得到所述目标语义向量。
在本公开的一种示例性实施例中,所述综合得分计算模块包括:
匹配得分计算单元,用于确定所述第一用户原创内容和所述原创用户原创内容之间的关键词匹配得分和语义匹配得分;
第一综合得分确定单元,用于根据所述关键词匹配得分和所述语义匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述综合得分计算模块,还包括:
媒体对象匹配得分确定单元,用于确定所述第一用户原创内容和所述目标用户原创内容之间的媒体对象匹配得分;
所述第一综合得分确定单元,还包括:
第二综合得分确定单元,用于根据所述关键词匹配得分、所述语义匹配得分和所述媒体对象匹配得分,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述综合得分计算模块,还包括:
分享热度值计算单元,用于获取所述目标用户在预设时间段内的消费偏好值和所述第一用户原创内容的分享热度值;
所述第二综合得分确定单元,还包括:
第三综合得分确定单元,用于根据所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值和所述分享热度值,确定所述第一用户原创内容和所述目标用户原创内容之间的综合得分。
在本公开的一种示例性实施例中,所述分享热度值计算单元包括:
第一次输获取单元,用于获取站内用户在所述预设时间段内对所述第一用户原创内容进行的第一操作的第一次数,所述第一操作包括以下中的至少一个:播放、点赞以及评论;
消费偏好值确定单元,用于根据所述第一次数确定所述目标用户在所述预设时间段内的消费偏好值;
第二次数获取单元,用于获取所述第一用户原创内容被进行第二操作的第二次数,所述第二操作包括转发和/或分享操作;
分享热度值计算单元,用于根据所述第二次数计算所述第一用户原创内容的分享热度值。
在本公开的一种示例性实施例中,所述第三综合得分确定单元包括:
离散值获取单元,用于分别对所述关键词匹配得分、所述语义匹配得分、所述媒体对象匹配得分、所述消费偏好值以及分享热度值进行特征分桶,得到所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值;
向量获取单元,用于分别将所述关键词匹配得分对应的离散值、所述语义匹配得分对应的离散值、所述媒体对象匹配得分对应的离散值、所述消费偏好值对应的离散值以及分享热度值对应的离散值转化为关键词匹配向量、语义匹配向量、媒体对象匹配向量、消费偏好值向量以及分享热度值向量;
特征提取单元,用于利用深度模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征提取,得到第一向量;
交叉运算单元,用于利用交叉模型对所述关键词匹配向量、所述语义匹配向量、所述媒体对象匹配向量、所述消费偏好值向量以及所述分享热度值向量进行特征交叉运算,得到第二向量;
拼接处理单元,用于将所述第一向量以及所述第二向量进行拼接处理,得到拼接处理结果;
sigmoid运算单元,用于对所述拼接处理结果经全连接层处理后进行sigmoid运算,得到运算结果,并将所述运算结果作为所述综合得分。
在本公开的一种示例性实施例中,所述用户原创内容推荐模块包括:
用户原创内容筛选单元,用于根据所述综合得分对所述第一用户原创内容按照预设条件进行筛选,得到筛选后的所述第一用户原创内容;
待推荐用户原创内容确定单元,用于将所述筛选后的所述第一用户原创内容作为所述待推荐用户原创内容。
由于本发明实施方式的内容推荐装置的各个功能模块与上述内容推荐的方法发明实施方式中相同,因此在此不再赘述。
在介绍了本发明示例性实施方式的内容推荐方法、内容推荐装置之后,接下来,参考图7对本发明示例性实施方式的存储介质进行说明。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在介绍了本发明示例性实施方式的存储介质之后,接下来,参考图8对本发明示例性实施方式的电子设备进行说明。
图8显示的电子设备80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备80以通用计算设备的形式表现。电子设备70的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同***组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的步骤S11至步骤S15。
存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以包括数据总线、地址总线和控制总线。
电子设备80也可以与一个或多个外部设备90(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备80还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备80的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备80使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了空间数据渲染***的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种内容推荐方法,其特征在于,包括:
获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;
获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;
根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;
计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;
根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词集合和所述语义向量召回各个第一用户原创内容包括:
获取第二用户原创内容中的第二文本内容并根据所述第二文本内容生成第二关键词集合和第二语义向量,所述第二用户原创内容为除所述目标用户原创内容外的其他用户原创内容;
计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分;
计算所述目标语义向量和所述第二语义向量的语义匹配得分;
根据所述关键词匹配得分以及所述语义匹配得分召回所述第一用户原创内容;其中,所述第一用户原创内容为所述第二用户原创内容中所述关键词匹配得分大于或者等于第一预设阈值的用户原创内容或者所述第二用户原创内容中所述语义匹配得分大于或者等于第二设阈值的用户原创内容。
3.根据权利要求2所述的方法,其特征在于,所述计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分包括:
获取所述目标关键词集合和所述第二关键词集合中的相同关键词;
获取所述相同关键词的数量和/或获取所述相同关键词的权重;
根据所述相同关键词的数量和/或所述相同关键词的权重计算所述目标关键词集合和所述第二关键词集合的关键词匹配得分。
4.根据权利要求2所述的方法,其特征在于,所述计算所述目标语义向量和所述第二语义向量的语义匹配得分包括:
计算所述目标语义向量与所述第二语义向量的距离;
根据所述目标语义向量与所述第二语义向量的距离确定目标语义向量和所述第二语义向量的语义匹配得分。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述目标用户原创内容的目标媒体对象;
获取所述第二用户原创内容的第二媒体对象;
计算所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分;
根据所述媒体对象匹配得分召回所述第一用户原创内容。
6.根据权利要求5所述的方法,其特征在于,所述计算所述目标媒体对象与所述第二媒体对象的媒体对象匹配得分包括:
获取所述目标媒体对象的目标用户行为向量;
获取所述第二媒体对象的第二用户行为向量;
根据所述目标用户行为向量与所述第二用户行为向量计算所述目标媒体对象与所述第二媒体对象的相似度,并将所述相似度作为所述媒体对象匹配得分。
7.根据权利要求5所述的方法,其特征在于,所述根据所述媒体对象匹配得分召回所述第一用户原创内容包括:
从所述第二用户原创内容中确定所述媒体对象匹配得分大于或者等于第三预设阈值的指定用户原创内容;
将所述指定用户原创内容作为所述第一用户原创内容进行召回。
8.一种内容推荐装置,其特征在于,包括:
用户原创内容获取模块,用于获取发出请求的目标用户的已发布的目标用户原创内容,所述请求用于请求获取用户原创内容;
关键词生成模块,用于获取所述目标用户原创内容中的目标文本内容并根据所述目标文本内容生成目标关键词集合和目标语义向量;
用户原创内容召回模块,用于根据所述目标关键词集合和所述目标语义向量召回各个第一用户原创内容;
综合得分计算模块,用于计算所述第一用户原创内容和所述目标用户原创内容之间的综合得分;
用户原创内容推荐模块,用于根据所述综合得分,从所述各个第一用户原创内容中确定待推荐用户原创内容并将所述待推荐用户原创内容推荐给所述目标用户。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述方法的步骤。
CN202211243259.XA 2022-10-11 2022-10-11 内容推荐方法、装置、存储介质及电子设备 Pending CN115617944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211243259.XA CN115617944A (zh) 2022-10-11 2022-10-11 内容推荐方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211243259.XA CN115617944A (zh) 2022-10-11 2022-10-11 内容推荐方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115617944A true CN115617944A (zh) 2023-01-17

Family

ID=84862301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211243259.XA Pending CN115617944A (zh) 2022-10-11 2022-10-11 内容推荐方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115617944A (zh)

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN107491534B (zh) 信息处理方法和装置
US11645314B2 (en) Interactive information retrieval using knowledge graphs
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN111382563B (zh) 文本相关性的确定方法及装置
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN112307738B (zh) 用于处理文本的方法和装置
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN111126073B (zh) 语义检索方法和装置
CN116701593A (zh) 基于GraphQL的中文问答模型训练方法及其相关设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116561271A (zh) 问答处理方法及装置
CN111459959B (zh) 用于更新事件集合的方法和装置
CN111368036B (zh) 用于搜索信息的方法和装置
CN110929528B (zh) 对语句情感分析的方法、装置、服务器及存储介质
CN115617944A (zh) 内容推荐方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination