CN105868372A - 标签分配方法及装置 - Google Patents

标签分配方法及装置 Download PDF

Info

Publication number
CN105868372A
CN105868372A CN201610194484.7A CN201610194484A CN105868372A CN 105868372 A CN105868372 A CN 105868372A CN 201610194484 A CN201610194484 A CN 201610194484A CN 105868372 A CN105868372 A CN 105868372A
Authority
CN
China
Prior art keywords
song
user
matrix
sample
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610194484.7A
Other languages
English (en)
Other versions
CN105868372B (zh
Inventor
林锡雄
赵忠
陈胜凯
李祖辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201610194484.7A priority Critical patent/CN105868372B/zh
Publication of CN105868372A publication Critical patent/CN105868372A/zh
Application granted granted Critical
Publication of CN105868372B publication Critical patent/CN105868372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开揭示了一种标签分配方法及装置,属于歌曲分类领域。该方法包括:获取样本歌曲,样本歌曲包含预先标注的歌曲标签;获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。本公开实施例达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类准确率。

Description

标签分配方法及装置
技术领域
本公开涉及歌曲分类领域,特别涉及一种标签分配方法及装置。
背景技术
为了方便进行歌曲推荐,各大音乐平台根据歌曲的流派、风格、场景等元素,为歌曲库中的歌曲分配了各式各样的歌曲标签。
由于歌曲库中歌曲数量庞大,采用人工分配的方式为歌曲分配歌曲标签成本过高,因此,各大音乐平台通常采用构建歌曲分类器的方式自动为歌曲分配歌曲标签。在构建歌曲分类器的过程中,预先通过人工分配的方式为若干样本歌曲分配歌曲标签,并提取出样本歌曲的音色、节奏、音高和歌词等歌曲特征,进而根据样本歌曲的歌曲标签以及歌曲特征构建出歌曲分类器。对于未分配歌曲标签的待分配歌曲,歌曲分类器即可根据待分配歌曲的歌曲特征为其分配相应的歌曲标签。
对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效果。
发明内容
为了解决对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效果的问题,本公开提供一种标签分配方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种标签分配方法,该方法包括:
获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;
根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;
通过歌曲分类器为歌曲库中各个歌曲分配所述歌曲标签。
可选地,用户对样本歌曲的操作行为包括播放、下载、收藏和分享中的至少一种;
获取用户评分矩阵,包括:
根据不同类型操作行为各自对应的权重值,计算至少一个用户对样本歌曲的评分;
根据至少一个用户对各个样本歌曲的评分生成用户评分矩阵。
可选地,获取用户评分矩阵之后,还包括:
使用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)模型对用户评分矩阵进行优化。
可选地,对于用户评分矩阵中任一评分,使用TF-IDF模型对用户评分矩阵进行优化,包括:
获取用户评分矩阵中的评分Cij,Cij表示用户i对歌曲j的评分;
计算Cij对应的词频tfij,其中,tk为控制参数;
计算歌曲j对应的逆文档频率idfj,其中,n为样本歌曲总数,nj指示用户评分矩阵中对歌曲j评分不为0的用户数;
根据tfij和idfj计算优化后的评分wij,其中,wij=tfij*idfj
根据wij生成优化后的用户评分矩阵。
可选地,优化后的用户评分矩阵为x-y矩阵,使用TF-IDF模型对用户评分矩阵进行优化之后,还包括:
对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中,第一矩阵为x-z矩阵,第二矩阵为z-y矩阵,z<x,且第一矩阵指示用户对歌曲特征的偏好,第二矩阵指示歌曲与歌曲特征的相关度;
根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,包括:
根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
可选地,根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器,包括:
将预定比例的样本歌曲确定为训练集,预定比例大于50%;
根据第二矩阵以及训练集构建歌曲分类器;
使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
根据本公开实施例的第二方面,提供一种标签分配装置,该装置包括:
样本获取模块,用于获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
矩阵获取模块,用于获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;
生成模块,用于根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;
分配模块,用于通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
可选地,用户对样本歌曲的操作行为包括播放、下载、收藏和分享中的至少一种;
矩阵获取模块,包括:
计算子模块,用于根据不同类型操作行为各自对应的权重值,计算至少一个用户对样本歌曲的评分;
矩阵生成子模块,用于根据至少一个用户对各个样本歌曲的评分生成用户评分矩阵。
可选地,该装置,还包括:
优化模块,用于使用TF-IDF模型对用户评分矩阵进行优化。
可选地,对于用户评分矩阵中任一评分,优化模块,包括:
获取子模块,用于获取用户评分矩阵中的评分Cij,Cij表示用户i对歌曲j的评分;
第一计算子模块,用于计算Cij对应的词频tfij,其中,k为控制参数;
第二计算子模块,用于计算歌曲j对应的逆文档频率idfj,其中,n为样本歌曲总数,nj指示用户评分矩阵中对歌曲j评分不为0的用户数;
第三计算子模块,用于根据tfij和idfj计算优化后的评分wij,其中,wij=tfij*idfj
优化子模块,用于根据wij生成优化后的用户评分矩阵。
可选地,优化后的用户评分矩阵为x-y矩阵,该装置,还包括:
分解模块,用于对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中,第一矩阵为x-z矩阵,第二矩阵为z-y矩阵,z<x,且第一矩阵指示用户对歌曲特征的偏好,第二矩阵指示歌曲与歌曲特征的相关度;
生成模块,用于:
根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
可选地,生成模块,包括:
确定子模块,用于将预定比例的样本歌曲确定为训练集,预定比例大于50%;
构建子模块,用于根据第二矩阵以及训练集构建歌曲分类器;
测试子模块,用于使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过预先对样本歌曲进行歌曲标签标注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种标签分配方法的流程图;
图2A是根据另一示例性实施例示出的一种标签分配方法的流程图;
图2B是图2A所示标签分配方法中获取用户评分矩阵过程的流程图;
图2C是图2A所示标签分配方法中歌曲分类器测试过程的流程图;
图3是根据一示例性实施例示出的一种标签分配装置的框图;
图4是根据另一示例性实施例示出的一种标签分配装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开各个实施例提供的标签分配方法,可以由音乐平台的后台服务器来实现。该后台服务器可以为单一服务器,也可以是是由若干台服务器组成的服务器集群或云计算中心等等。
图1是根据一示例性实施例示出的一种标签分配方法的流程图,本实施例以该标签分配方法用于音乐平台的后台服务器为例进行说明,该方法可以包括以下几个步骤:
在步骤101中,获取样本歌曲,该样本歌曲包含预先标注的歌曲标签。
音乐平台歌曲库中的一部分样本歌曲预先标注有歌曲标签,该歌曲标签用于标识样本歌曲的流派、风格、场景等等。在进行标签分配的过程中,后台服务器即获取歌曲库中的样本歌曲。
在步骤103中,获取用户评分矩阵,该用户评分矩阵中包含至少一个用户对样本歌曲的评分,该评分根据用户对样本歌曲的操作行为计算得到。
后台服务器收集用户对歌曲的操作行为,比如用户播放歌曲、下载歌曲或分享歌曲等等,并根据该操作行为计算用户对该歌曲的评分,评分越高指示用户对该歌曲的偏好程度越高。
在步骤105中,根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
后台服务器根据用户评分矩阵以及样本歌曲的歌曲标签,能够进一步确定出用户偏好的歌曲特征以及该歌曲特征对应的歌曲标签,并生成相应的歌曲分类器。
在步骤107中,通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
后台服务器根据生成的歌曲分类器以及用户对歌曲库中其余歌曲的用户评分矩阵,为歌曲库中各个歌曲分配相应的歌曲标签。
综上所述,本实施例提供的标签分配方法,通过预先对样本歌曲进行歌曲标签标注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类准确率。
图2A是根据另一示例性实施例示出的一种标签分配方法的流程图,本实施例以该标签分配方法用于音乐平台的后台服务器为例进行说明,该方法可以包括以下几个步骤:
在步骤201中,获取样本歌曲,该样本歌曲包含预先标注的歌曲标签。
由于音乐平台歌曲库中歌曲数量庞大,通过人工标注的方式为各个歌曲标注歌曲标签需要耗费大量时间,且成本极高。本实施例提供的标签分配方法中,在构建歌曲分类器前,只需要将歌曲库中的一小部分歌曲确定为样本歌曲,并通过人工标注的方式为样本歌曲标注歌曲标签,其中,该歌曲标签用于指示歌曲的流派(爵士、摇滚、流行、古典等等)、风格(伤感、愉悦、安静等等)、场景(运动、酒吧、夜店、比赛等等)等等。
比如,音乐平台歌曲库中包含100万首歌曲,在构建歌曲分类器前,选取1万首歌曲作为样本歌曲,并对样本歌曲进行歌曲标签的标注。需要说明的是,选取的样本歌曲需要覆盖歌曲库中的所有流派、风格、场景,从而保证样本歌曲的全面性和代表性。
在构建歌曲分类器阶段,后台服务器即获取该样本歌曲,示意性的,样本歌曲与歌曲标签的对应关系可以示意性如表一所示。
表一
样本歌曲 歌曲标签
歌曲00001 古典、安静、婚礼
歌曲00002 摇滚、狂热、酒吧
歌曲10000 流行、喜庆、婚礼
在步骤202中,获取用户评分矩阵,该用户评分矩阵中包含至少一个用户对样本歌曲的评分,该评分根据用户对样本歌曲的操作行为计算得到。
用户在收听歌曲过程中,会对歌曲进行一些操作,而用户对歌曲的操作行为则会产生一系列的用户行为数据。比如,用户选择收听某首歌曲时,即产生了对该歌曲的播放数据,该播放数据可以包括播放次数;又比如,用户下载某首歌曲时,即产生对该歌曲的下载数据;再比如,用户将某首歌曲分享给好友时,即产生了对该歌曲的分享数据。
提供歌曲播放的音乐平台能够收集这些用户行为数据,并对这些用户行为数据进行分析,得到用户对各个歌曲的评分,并根据该评分确定用户对歌曲的喜好程度。
在一种可能的实施方式中,如图2B所示,本步骤可以包括如下步骤。
在步骤202A中,根据不同类型操作行为各自对应的权重值,计算至少一个用户对样本歌曲的评分。
用户在收听歌曲过程中,能够进行不同类型的操作,比如可以播放歌曲、下载歌曲、收藏歌曲或分享歌曲等等;并且,不同类型的操作行为指示用户对歌曲的喜好程度也不同,比如,收藏歌曲这一操作行为所指示的用户对歌曲的喜好程度大于播放歌曲这一操作行为所指示的用户对歌曲的喜好程度,因此,在根据用户对歌曲的操作行为计算用户对歌曲的评分时,不同类型的操作行为对应的权重值也不一样。示意性的,不同类型的操作行为对应的权重值可以如表二所示。
表二
操作行为类型 权重值
播放 1
下载 3
收藏 5
分享 10
根据不同类型操作行为各自对应的权重值,计算至少一个用户对样本歌曲的评分时,后台服务器还需要结合操作行为对应的次数进行计算。比如,对于歌曲00001来说,当用户00001对歌曲00001进行了5次播放,并进行了1次分享时,用户00001对歌曲00001的评分即为1*5+8*1=13。
需要说明的是,对于某些消极的操作行为来说,比如删除歌曲、标记歌曲为不喜欢等等,其对应的权重值也可以为负数,本实施例仅以上述操作行为进行示意性说明,并不对本公开构成限定。
在步骤202B中,根据至少一个用户对各个样本歌曲的评分生成用户评分矩阵。
根据至少一个用户对样本歌曲的评分,后台服务器生成相应的用户评分矩阵。比如,后台服务器收集了100万用户对1万首样本歌曲的评分,生成100万-10万的用户评分矩阵,该用户评分矩阵中,行代表用户,列代表歌曲。
在步骤203中,使用TF-IDF模型对用户评分矩阵进行优化。
根据用户操作行为确定的评分确定用户的喜好程度存在一定的片面性和局限性,比如,对于歌曲00001和歌曲00002来说,用户播放100次歌曲00001,对应的用户对歌曲00001的评分为100分,而用户播放10次歌曲00002,对应的用户对歌曲00002的评分为10分,但是并不能代表用户对歌曲00001的喜好程度是对歌曲00002的喜好程度的10倍。而在实际情况中,用户对歌曲的评分与喜好程度之间呈幂律关系。因此,在获取到用户评分矩阵后,后台服务器还需要使用改进的TF-IDF模型对用户评分矩阵进行优化。
在一种可能的实施方式中,本步骤还可以包括如下步骤。
在步骤203A中,获取用户评分矩阵中的评分Cij,Cij表示用户i对歌曲j的评分。
后台服务器获取该用户评分矩阵中的任一评分Cij
在步骤203B中,计算Cij对应的词频tfij,其中,k为控制参数。
由于用户对歌曲的评分与喜好程度之间呈幂律关系,因此,后台服务器对Cij进行lg运算,得到Cij对应的词频tfij。若Cij为0,则表示用户i未对歌曲j执行过操作,tfij也为0;若Cij不为0,则表示用户i对歌曲j执行过操作。
比如,当Cij为10,且k为10时,Cij对应的词频tfij即为ln2。
在步骤203C中,计算歌曲j对应的逆文档频率idfj,其中,为样本歌曲总数,nj指示用户评分矩阵中对歌曲j评分不为0的用户数。
根据IDF的定义,若包含某一词条的文档越少,则说明该词条具有越好的类别区分能力,相应的该词条对应的IDF越大。相似的,对于某一歌曲来说,若大量用户对该歌曲进行了评分(即评分不为0),则说明该歌曲的类别区分能力越弱。因此,后台服务器根据样本歌曲的总数,以及歌曲j在用户评分矩阵中评分不为0的个数,计算歌曲j对应的逆文档频率idfj
比如,对于歌曲j来说,当样本歌曲总数为10000,且用户评分矩阵中对歌曲j评分不为0的用户数为2000时,歌曲j对应的逆文档频率idfj即为ln6。
需要说明的是,上述步骤203B和步骤203C之间不存在严格的先后关系,即上述步骤203B和步骤203C可以同时执行。
在步骤203D中,根据tfij和idfj计算优化后的评分wij,其中,wij=tfij*idfj
计算得到tfij和idfj后,后台服务器即根据公式wij=tfij*idfj计算得到优化后的评分。
在步骤203E中,根据wij生成优化后的用户评分矩阵。
后台服务器对用户评分矩阵汇中的各个评分进行优化,从而生成优化后的用户评分矩阵,该优化后的用户评分矩阵能够体现出用户特征。
在步骤204中,对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中,第一矩阵为x-z矩阵,第二矩阵为z-y矩阵,z<x,且第一矩阵指示用户对歌曲特征的偏好,第二矩阵指示歌曲与歌曲特征的相关度。
由于用户数量巨大,优化后的用户评分矩阵的维数可能搞到数千万甚至上亿(与用户数量有关),若直接根据优化后的用户评分矩阵生成分类器,会在成严重的过拟合,导致生成的分类器的分类效果极差。
为了避免产生过拟合现象,后台服务器需要对优化后的用户评分矩阵映射到一个较低维度的隐向量空间,使得该用户评分矩阵能够表示为两个矩阵的内积,其中一个矩阵用于指示用户对歌曲特征的偏好,而另一个矩阵则用于指示歌曲与歌曲特征的相关度。
作为一种可能的实施方式,后台服务器对优化后的用户评分矩阵进行隐式矩阵分解,将原本的x-y矩阵分解为x-z矩阵与z-y矩阵,其中的x-z矩阵指示用户对歌曲特征的偏好,而z-y矩阵则指示歌曲与歌曲特征的相关度。
比如,当优化后的用户评分矩阵为1000000-10000矩阵时,后台服务器可以将该矩阵分解为1000000-300矩阵(第一矩阵)和300-10000矩阵(第二矩阵)。
在步骤205中,根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
由于歌曲特征以歌曲标签的形式体现在歌曲中,因此,根据第二矩阵指示的歌曲与歌曲特征的相关度以及样本歌曲的歌曲标签,后台服务器即可生成歌曲分类器。在一种可能的实现方式中,该歌曲分类器可以为SVM(Support VectorMachine,支持向量机)。
在步骤206中,通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
生成歌曲分类器后,后台服务器确定歌曲库中未标注歌曲标签的歌曲,并获取用户对这些歌曲的用户评分矩阵,进而以用户评分矩阵作为歌曲分类器的输入,为未标注的歌曲分配歌曲标签。需要说明的是,未标注歌曲对应的用户评分矩阵也需要经过类似上述步骤203和步骤204的处理,本实施例在此不再赘述。
综上所述,本实施例提供的标签分配方法,通过预先对样本歌曲进行歌曲标签标注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类准确率。
本实施例中,通过为不同类型的操作行为设置不同的权重值,并根据该权重值计算得到用户对歌曲的评分,生成相应的用户评分矩阵,进而根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,实现对歌曲的分类,提高了歌曲分类的效率。
本实施例中,通过使用TF-IDF模型对用户评分矩阵进行优化,并使用优化后的用户评分矩阵生成歌曲分类器,提高了生成的分类器的分类效果。
本实施例中,通过对优化后的用户评分矩阵进行隐式矩阵分解,得到指示歌曲与歌曲特征的相关度的歌曲特征矩阵,并根据该歌曲特征矩阵和样本歌曲的歌曲标签生成歌曲分类器,避免了因用户评分矩阵维数过高导致的过拟合现象,进一步提高了分类器的分类效果。
为了保证生成的歌曲分类器的分类效果,作为一种可能的实施方式,如图2C所示,上述步骤205可以包括如下步骤。
在步骤205A中,将预定比例的样本歌曲确定为训练集,预定比例大于50%。
后台服务器选取预定比例的样本歌曲作为训练集,并将剩余的样本歌曲作为测试集。需要说明的是,为了保证歌曲分类器的质量,该预定比例需大于50%,即训练集中样本歌曲的数量需大于测试集中样本歌曲的数量。
比如,后台服务器选取70%的样本歌曲作为训练集,并将剩余的30%的样本歌曲作为测试集。
在步骤205B中,根据第二矩阵以及训练集构建歌曲分类器。
后台服务器使用第二矩阵以及训练集构建歌曲分类器。
在步骤205C中,使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
完成歌曲分类器的构建后,后台服务器使用测试集作为歌曲分类器的输入,为测试集中的样本歌曲分配歌曲标签,并检测分配的歌曲标签与手工标注的歌曲标签的匹配度。若匹配度高于预设匹配度阈值,则确定该歌曲分类器的分类效果达标,并执行步骤206;若匹配度低于预设匹配度阈值,则确定该歌曲分类器的分类效果未达标。
本实施例中,通过将样本歌曲分为训练集和测试集,并使用训练集构建歌曲分类器,使用测试集测试歌曲分类器的分类效果,从而保证了歌曲分类器的分类质量。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据一示例性实施例示出的一种标签分配装置的框图,该装置可以通过软件、硬件或软硬件结合实现成为音乐平台后台服务器的全部或一部分,该装置包括:
样本获取模块310,用于获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
矩阵获取模块320,用于获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;
生成模块330,用于根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;
分配模块340,用于通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
综上所述,本实施例提供的标签分配装置,通过预先对样本歌曲进行歌曲标签标注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类准确率。
图4是根据另一示例性实施例示出的一种标签分配装置的框图,该装置可以通过软件、硬件或软硬件结合实现成为音乐平台后台服务器的全部或一部分,该装置包括:
样本获取模块410,用于获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
矩阵获取模块420,用于获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;
生成模块430,用于根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;
分配模块440,用于通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
在一个可选的实施例中,用户对样本歌曲的操作行为包括播放、下载、收藏和分享中的至少一种;
矩阵获取模块420,包括:
计算子模块421,用于根据不同类型操作行为各自对应的权重值,计算至少一个用户对样本歌曲的评分;
矩阵生成子模块422,用于根据至少一个用户对各个样本歌曲的评分生成用户评分矩阵。
可选地,该装置,还包括:
优化模块450,用于使用TF-IDF模型对用户评分矩阵进行优化。
可选地,对于用户评分矩阵中任一评分,优化模块450,包括:
获取子模块451,用于获取用户评分矩阵中的评分Cij,Cij表示用户i对歌曲j的评分;
第一计算子模块452,用于计算Cij对应的词频tfij,其中,k为控制参数;
第二计算子模块453,用于计算歌曲j对应的逆文档频率idfj,其中,n为样本歌曲总数,nj指示用户评分矩阵中对歌曲j评分不为0的用户数;
第三计算子模块454,用于根据tfij和idfj计算优化后的评分wij,其中,wij=tfij*idfj
优化子模块455,用于根据wij生成优化后的用户评分矩阵。
可选地,优化后的用户评分矩阵为x-y矩阵,该装置,还包括:
分解模块460,用于对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中,第一矩阵为x-z矩阵,第二矩阵为z-y矩阵,z<x,且第一矩阵指示用户对歌曲特征的偏好,第二矩阵指示歌曲与歌曲特征的相关度;
生成模块430,用于:
根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
可选地,生成模块430,包括:
确定子模块431,用于将预定比例的样本歌曲确定为训练集,预定比例大于50%;
构建子模块432,用于根据第二矩阵以及训练集构建歌曲分类器;
测试子模块433,用于使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
综上所述,本实施例提供的标签分配装置,通过预先对样本歌曲进行歌曲标签标注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类准确率。
本实施例中,通过为不同类型的操作行为设置不同的权重值,并根据该权重值计算得到用户对歌曲的评分,生成相应的用户评分矩阵,进而根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,实现对歌曲的分类,提高了歌曲分类的效率。
本实施例中,通过使用TF-IDF模型对用户评分矩阵进行优化,并使用优化后的用户评分矩阵生成歌曲分类器,提高了生成的分类器的分类效果。
本实施例中,通过对优化后的用户评分矩阵进行隐式矩阵分解,得到指示歌曲与歌曲特征的相关度的歌曲特征矩阵,并根据该歌曲特征矩阵和样本歌曲的歌曲标签生成歌曲分类器,避免了因用户评分矩阵维数过高导致的过拟合现象,进一步提高了分类器的分类效果。
本实施例中,通过将样本歌曲分为训练集和测试集,并使用训练集构建歌曲分类器,使用测试集测试歌曲分类器的分类效果,从而保证了歌曲分类器的分类质量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种标签分配方法,其特征在于,所述方法包括:
获取样本歌曲,所述样本歌曲包含预先标注的歌曲标签;
获取用户评分矩阵,所述用户评分矩阵中包含至少一个用户对所述样本歌曲的评分,所述评分根据用户对所述样本歌曲的操作行为计算得到;
根据所述用户评分矩阵以及所述样本歌曲的所述歌曲标签生成歌曲分类器;
通过所述歌曲分类器为歌曲库中各个歌曲分配所述歌曲标签。
2.根据权利要求1所述的方法,其特征在于,用户对所述样本歌曲的所述操作行为包括播放、下载、收藏和分享中的至少一种;
所述获取用户评分矩阵,包括:
根据不同类型操作行为各自对应的权重值,计算至少一个用户对所述样本歌曲的所述评分;
根据至少一个用户对各个样本歌曲的所述评分生成所述用户评分矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述获取用户评分矩阵之后,还包括:
使用词频-逆文档频率TF-IDF模型对所述用户评分矩阵进行优化。
4.根据权利要求3所述的方法,其特征在于,对于所述用户评分矩阵中任一评分,所述使用TF-IDF模型对所述用户评分矩阵进行优化,包括:
获取所述用户评分矩阵中的评分Cij,所述Cij表示用户i对歌曲j的所述评分;
计算所述Cij对应的词频tfij,其中,k为控制参数;
计算歌曲j对应的逆文档频率idfj,其中,n为所述样本歌曲总数,所述nj指示所述用户评分矩阵中对歌曲j评分不为0的用户数;
根据所述tfij和idfj计算优化后的评分wij,其中,wij=tfij*idfj
根据所述wij生成优化后的所述用户评分矩阵。
5.根据权利要求3所述的方法,其特征在于,优化后的所述用户评分矩阵为x-y矩阵,所述使用TF-IDF模型对所述用户评分矩阵进行优化之后,还包括:
对优化后的所述用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中,所述第一矩阵为x-z矩阵,所述第二矩阵为z-y矩阵,z<x,且所述第一矩阵指示用户对歌曲特征的偏好,所述第二矩阵指示歌曲与歌曲特征的相关度;
所述根据所述用户评分矩阵以及所述样本歌曲的所述歌曲标签生成歌曲分类器,包括:
根据所述第二矩阵以及所述样本歌曲的所述歌曲标签生成所述歌曲分类器。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二矩阵以及所述样本歌曲的所述歌曲标签生成所述歌曲分类器,包括:
将预定比例的所述样本歌曲确定为训练集,所述预定比例大于50%;
根据所述第二矩阵以及所述训练集构建所述歌曲分类器;
使用除所述训练集外的所述样本歌曲测试所述歌曲分类器的分类效果。
7.一种标签分配装置,其特征在于,所述装置包括:
样本获取模块,用于获取样本歌曲,所述样本歌曲包含预先标注的歌曲标签;
矩阵获取模块,用于获取用户评分矩阵,所述用户评分矩阵中包含至少一个用户对所述样本歌曲的评分,所述评分根据用户对所述样本歌曲的操作行为计算得到;
生成模块,用于根据所述用户评分矩阵以及所述样本歌曲的所述歌曲标签生成歌曲分类器;
分配模块,用于通过所述歌曲分类器为歌曲库中各个歌曲分配所述歌曲标签。
8.根据权利要求7所述的装置,其特征在于,用户对所述样本歌曲的所述操作行为包括播放、下载、收藏和分享中的至少一种;
所述矩阵获取模块,包括:
计算子模块,用于根据不同类型操作行为各自对应的权重值,计算至少一个用户对所述样本歌曲的所述评分;
矩阵生成子模块,用于根据至少一个用户对各个样本歌曲的所述评分生成所述用户评分矩阵。
9.根据权利要求7或8所述的装置,其特征在于,所述装置,还包括:
优化模块,用于使用词频-逆文档频率TF-IDF模型对所述用户评分矩阵进行优化。
10.根据权利要求9所述的装置,其特征在于,对于所述用户评分矩阵中任一评分,所述优化模块,包括:
获取子模块,用于获取所述用户评分矩阵中的评分Cij,所述Cij表示用户i对歌曲j的所述评分;
第一计算子模块,用于计算所述Cij对应的词频tfij,其中,k为控制参数;
第二计算子模块,用于计算歌曲j对应的逆文档频率idfj,其中,n为所述样本歌曲总数,所述nj指示所述用户评分矩阵中对歌曲j评分不为0的用户数;
第三计算子模块,用于根据所述tfij和idfj计算优化后的评分wij,其中,wij=tfij*idfj
优化子模块,用于根据所述wij生成优化后的所述用户评分矩阵。
11.根据权利要求9所述的装置,其特征在于,优化后的所述用户评分矩阵为x-y矩阵,所述装置,还包括:
分解模块,用于对优化后的所述用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中,所述第一矩阵为x-z矩阵,所述第二矩阵为z-y矩阵,z<x,且所述第一矩阵指示用户对歌曲特征的偏好,所述第二矩阵指示歌曲与歌曲特征的相关度;
所述生成模块,用于:
根据所述第二矩阵以及所述样本歌曲的所述歌曲标签生成所述歌曲分类器。
12.根据权利要求11所述的装置,其特征在于,所述生成模块,包括:
确定子模块,用于将预定比例的所述样本歌曲确定为训练集,所述预定比例大于50%;
构建子模块,用于根据所述第二矩阵以及所述训练集构建所述歌曲分类器;
测试子模块,用于使用除所述训练集外的所述样本歌曲测试所述歌曲分类器的分类效果。
CN201610194484.7A 2016-03-31 2016-03-31 标签分配方法及装置 Active CN105868372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610194484.7A CN105868372B (zh) 2016-03-31 2016-03-31 标签分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610194484.7A CN105868372B (zh) 2016-03-31 2016-03-31 标签分配方法及装置

Publications (2)

Publication Number Publication Date
CN105868372A true CN105868372A (zh) 2016-08-17
CN105868372B CN105868372B (zh) 2019-11-05

Family

ID=56626431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610194484.7A Active CN105868372B (zh) 2016-03-31 2016-03-31 标签分配方法及装置

Country Status (1)

Country Link
CN (1) CN105868372B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951527A (zh) * 2017-03-21 2017-07-14 北京邮电大学 一种歌曲推荐方法及装置
WO2017201976A1 (zh) * 2016-05-24 2017-11-30 华为技术有限公司 主题推荐方法以及装置
CN107977374A (zh) * 2016-10-21 2018-05-01 北京酷我科技有限公司 曲库优化方法和装置
CN108108338A (zh) * 2018-01-05 2018-06-01 维沃移动通信有限公司 一种歌词处理方法、歌词显示方法、服务器及移动终端
CN108268544A (zh) * 2016-12-30 2018-07-10 北京酷我科技有限公司 一种歌曲的标注方法及***
CN109063069A (zh) * 2018-07-23 2018-12-21 天翼爱音乐文化科技有限公司 歌曲标签确定方法、装置、计算机设备和可读存储介质
CN110188268A (zh) * 2019-05-21 2019-08-30 浙江工商大学 一种基于标签和时间信息的个性化推荐方法
CN112163116A (zh) * 2020-09-28 2021-01-01 广州酷狗计算机科技有限公司 歌曲归类方法、装置及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156472A (zh) * 2014-08-25 2014-11-19 四达时代通讯网络技术有限公司 一种视频推荐方法及***
CN104503973A (zh) * 2014-11-14 2015-04-08 浙江大学软件学院(宁波)管理中心(宁波软件教育中心) 一种基于奇异值分解与分类器融合推荐的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156472A (zh) * 2014-08-25 2014-11-19 四达时代通讯网络技术有限公司 一种视频推荐方法及***
CN104503973A (zh) * 2014-11-14 2015-04-08 浙江大学软件学院(宁波)管理中心(宁波软件教育中心) 一种基于奇异值分解与分类器融合推荐的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOACHIM SELKE 等,: "Extracting Features from Ratings: The Role of Factor Models", 《HTTP://CN.ARXIV.ORG/ABS/1101.2378》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017201976A1 (zh) * 2016-05-24 2017-11-30 华为技术有限公司 主题推荐方法以及装置
US11830033B2 (en) 2016-05-24 2023-11-28 Huawei Technologies Co., Ltd. Theme recommendation method and apparatus
US20190087884A1 (en) 2016-05-24 2019-03-21 Huawei Technologies Co., Ltd. Theme recommendation method and apparatus
CN107977374A (zh) * 2016-10-21 2018-05-01 北京酷我科技有限公司 曲库优化方法和装置
CN108268544A (zh) * 2016-12-30 2018-07-10 北京酷我科技有限公司 一种歌曲的标注方法及***
CN108268544B (zh) * 2016-12-30 2021-07-23 北京酷我科技有限公司 一种歌曲的标注方法及***
CN106951527B (zh) * 2017-03-21 2020-01-17 北京邮电大学 一种歌曲推荐方法及装置
CN106951527A (zh) * 2017-03-21 2017-07-14 北京邮电大学 一种歌曲推荐方法及装置
CN108108338A (zh) * 2018-01-05 2018-06-01 维沃移动通信有限公司 一种歌词处理方法、歌词显示方法、服务器及移动终端
CN108108338B (zh) * 2018-01-05 2022-02-15 维沃移动通信有限公司 一种歌词处理方法、歌词显示方法、服务器及移动终端
CN109063069A (zh) * 2018-07-23 2018-12-21 天翼爱音乐文化科技有限公司 歌曲标签确定方法、装置、计算机设备和可读存储介质
CN110188268A (zh) * 2019-05-21 2019-08-30 浙江工商大学 一种基于标签和时间信息的个性化推荐方法
CN112163116A (zh) * 2020-09-28 2021-01-01 广州酷狗计算机科技有限公司 歌曲归类方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN105868372B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN105868372A (zh) 标签分配方法及装置
CN103823867B (zh) 一种基于音符建模的哼唱式音乐检索方法及***
CN102722483B (zh) 用于确定输入法的候选项排序的方法、装置和设备
CN103327053B (zh) 在线音乐推送方法和***
CN108304429A (zh) 信息推荐方法、装置和计算机设备
CN104991899A (zh) 用户属性的识别方法及装置
Patra et al. Automatic music mood classification of Hindi songs
CN108806657A (zh) 音乐模型训练、音乐创作方法、装置、终端及存储介质
CN105718532A (zh) 一种基于多深度网络结构的跨媒体排序方法
Tai The structure of knowledge and dynamics of scholarly communication in agenda setting research, 1996–2005
CN107767850A (zh) 一种演唱评分方法及***
CN108766451B (zh) 一种音频文件处理方法、装置和存储介质
CN107993636B (zh) 基于递归神经网络的乐谱建模与生成方法
CN110008397A (zh) 一种推荐模型训练方法及装置
Wang et al. The monkeytyping solution to the youtube-8m video understanding challenge
CN103123636A (zh) 建立词条分类模型的方法、词条自动分类的方法和装置
CN109346043A (zh) 一种基于生成对抗网络的音乐生成方法及装置
CN108806355A (zh) 一种书画艺术互动教育***
Frieler et al. Is it the song and not the singer? Hit song prediction using structural features of melodies
CN113813609A (zh) 游戏音乐风格分类方法、装置、可读介质及电子设备
CN110347821A (zh) 一种文本类别标注的方法、电子设备和可读存储介质
CN109471951A (zh) 基于神经网络的歌词生成方法、装置、设备和存储介质
CN108520436A (zh) 内容的价值评价方法和装置
CN107729486A (zh) 一种视频搜索方法及装置
Peterson Globalization and communalization of music in the production perspective

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510660 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: 510000 B1, building, No. 16, rhyme Road, Guangzhou, Guangdong, China 13F

Applicant before: Guangzhou KuGou Networks Co., Ltd.

GR01 Patent grant
GR01 Patent grant