CN111552778A

CN111552778A - 音频资源管理方法、装置、计算机可读存储介质及设备

Info

Publication number: CN111552778A
Application number: CN202010338886.6A
Authority: CN
Inventors: 牛闯
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-18
Anticipated expiration: 2040-04-26
Also published as: CN111552778B

Abstract

本公开关于一种音频资源管理方法、装置、存储介质及设备，属于计算机应用领域。包括：根据音频资源库中的音频资源的资源名称确定目标资源集合，目标资源集合包括资源名称不重复的至少一项音频资源；为目标资源集合中包括的每项音频资源分别分配一个资源库标识；对于音频资源库中未分配资源库标识的任意一项待归类音频资源，在目标资源集合中查找与待归类音频资源匹配的指定音频资源，指定音频资源与待归类音频资源的资源名称相匹配，且指定音频资源具有资源库标识；获取待归类音频资源与指定音频资源之间的相似度；若相似度超过目标阈值，则建立待归类音频资源与指定音频资源的资源库标识之间的对应关系。本公开能够有效地对音频资源进行管理。

Description

音频资源管理方法、装置、计算机可读存储介质及设备

技术领域

本公开涉及计算机应用技术领域，尤其涉及一种音频资源管理方法、装置、计算机可读存储介质及设备。

背景技术

物质文明的快速发展，使得大众对精神文明的追求日益提高，随之市面上涌现出了众多的资源分享平台，而短视频平台便为其中一种。

随着短视频平台在人群中的迅速普及和短视频行业的繁荣发展，音乐作为一种形式的多媒体资源已经成为短视频的重要组成元素。比如，在拍摄短视频时，用户已经***台提供的歌曲库中选择歌曲作为配乐。

众所周知，不同用户对歌曲的需求存在千差万别。比如，有的用户喜欢原声版本的歌曲，有的用户喜欢翻唱版本的歌曲，还有的用户偏向于使用其他短视频的配乐。这便存在一个问题，即：针对歌曲库中的同一首歌曲，可能会存在多种版本和多种来源。为此，如何有效地对歌曲库中的歌曲进行管理，以使其更好地服务于视频配乐业务，成为了本领域技术人员亟待解决的一个问题。

发明内容

本公开提供一种音频资源管理方法、装置、计算机可读存储介质及设备，能够有效地对歌曲库中的歌曲进行管理，使其更好地服务于视频配乐业务。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频资源管理方法，所述方法包括：

根据音频资源库中的音频资源的资源名称确定目标资源集合，所述目标资源集合包括资源名称不重复的至少一项音频资源；

为所述目标资源集合中包括的每项音频资源分别分配一个资源库标识；

对于所述音频资源库中未分配资源库标识的任意一项待归类音频资源，在所述目标资源集合中查找与所述待归类音频资源匹配的指定音频资源，所述指定音频资源与所述待归类音频资源的资源名称相匹配，且所述指定音频资源具有资源库标识；

获取所述待归类音频资源与所述指定音频资源之间的相似度；

若所述相似度超过目标阈值，则建立所述待归类音频资源与所述指定音频资源的资源库标识之间的对应关系。

在一种可能的实现方式中，所述获取所述待归类音频资源与所述指定音频资源之间的相似度，包括：

获取所述待归类音频资源的第一文本和所述指定音频资源的第二文本；

计算所述第一文本与所述第二文本之间的文本相似度，得到所述待归类音频资源与所述指定音频资源之间的相似度。

在一种可能的实现方式中，所述获取所述待归类音频资源与所述指定音频资源之间的相似度之后，所述方法还包括：

若所述相似度未超过目标阈值，则为所述待归类音频资源分配一个新的资源库标识。

在一种可能的实现方式中，所述计算所述第一文本与所述第二文本之间的文本相似度，包括：

对所述第一文本进行向量化处理，得到所述第一文本中各个词的词向量；

对所述第二文本进行向量化处理，得到所述第二文本中各个词的词向量；

获取所述第一文本中第i个词的词向量与所述第二文本中第j个词的词向量之间的距离，其中，i和j的取值均为正整数，i的取值范围为1至所述第一文本中包括的词总数，j的取值范围为1至所述第二文本中包括的词总数；

对获取到的距离进行加权求和处理，得到所述第一文本与所述第二文本之间的文本相似度。

在一种可能的实现方式中，所述建立所述待归类音频资源与所述指定音频资源的资源库标识之间的对应关系之后，所述方法还包括：

对于上传的任意一项视频资源，在所述音频资源库中确定与所述视频资源中的配乐资源匹配的目标音频资源；

建立所述配乐资源与所述目标音频资源的资源库标识之间的对应关系。

在一种可能的实现方式中，所述在所述音频资源库中确定与所述视频资源中的配乐资源匹配的目标音频资源，包括：

对所述配乐资源进行语音识别，得到所述配乐资源的第三文本；

将所述第三文本与所述音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配；

将所述音频资源库中与所述配乐资源的文本相似度超过所述目标阈值的音频资源，确定为所述目标音频资源。

识别所述视频资源中出现的第四文本；

将所述第四文本与所述音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配；

将所述音频资源库中与所述视频资源的文本相似度超过所述目标阈值的音频资源，确定为所述目标音频资源。

根据本公开实施例的第二方面，提供一种音频资源管理装置，所述装置包括：

确定模块，被配置为根据音频资源库中的音频资源的资源名称确定目标资源集合，所述目标资源集合包括资源名称不重复的至少一项音频资源；

分配模块，被配置为为所述目标资源集合中包括的每项音频资源分别分配一个资源库标识；

查找模块，被配置为对于所述音频资源库中未分配资源库标识的任意一项待归类音频资源，在所述目标资源集合中查找与所述待归类音频资源匹配的指定音频资源，所述指定音频资源与所述待归类音频资源的资源名称相匹配，且所述指定音频资源具有资源库标识；

获取模块，被配置为获取所述待归类音频资源与所述指定音频资源之间的相似度；

关联模块，被配置为若所述相似度超过目标阈值，则建立所述待归类音频资源与所述指定音频资源的资源库标识之间的对应关系。

在一种可能的实现方式中，所述获取模块，还被配置为获取所述待归类音频资源的第一文本和所述指定音频资源的第二文本；计算所述第一文本与所述第二文本之间的文本相似度，得到所述待归类音频资源与所述指定音频资源之间的相似度。

在一种可能的实现方式中，所述分配模块，还被配置为若所述相似度未超过目标阈值，则为所述待归类音频资源分配一个新的资源库标识。

在一种可能的实现方式中，所述获取模块，还被配置为对所述第一文本进行向量化处理，得到所述第一文本中各个词的词向量；对所述第二文本进行向量化处理，得到所述第二文本中各个词的词向量；获取所述第一文本中第i个词的词向量与所述第二文本中第j个词的词向量之间的距离，其中，i和j的取值均为正整数，i的取值范围为1至所述第一文本中包括的词总数，j的取值范围为1至所述第二文本中包括的词总数；对获取到的距离进行加权求和处理，得到所述第一文本与所述第二文本之间的文本相似度。

在一种可能的实现方式中，所述装置还包括：

匹配模块，被配置为对于上传的任意一项视频资源，在所述音频资源库中确定与所述视频资源中的配乐资源匹配的目标音频资源；

所述关联模块，还被配置为建立所述配乐资源与所述目标音频资源的资源库标识之间的对应关系。

在一种可能的实现方式中，所述匹配模块，还被配置为对所述配乐资源进行语音识别，得到所述配乐资源的第三文本；将所述第三文本与所述音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配；将所述音频资源库中与所述配乐资源的文本相似度超过所述目标阈值的音频资源，确定为所述目标音频资源。

在一种可能的实现方式中，所述匹配模块，还被配置为识别所述视频资源中出现的第四文本；将所述第四文本与所述音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配；将所述音频资源库中与所述视频资源的文本相似度超过所述目标阈值的音频资源，确定为所述目标音频资源。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述第一方面所述的音频资源管理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面所述的音频资源管理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面所述的音频资源管理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在管理音频资源库中的音频资源时，本公开实施例首先根据该音频资源库中的音频资源的资源名称确定目标资源集合，并为目标资源集合中包括的每项音频资源分别分配一个资源库标识，目标资源集合包括资源名称不重复的至少一项音频资源；之后，针对音频资源库中未分配资源库标识的任意一项待归类音频资源，会在目标资源集合中查找与待归类音频资源匹配的指定音频资源，其中，指定音频资源与待归类音频资源的资源名称相匹配，且指定音频资源具有资源库标识；之后，获取待归类音频资源与指定音频资源之间的相似度，若该相似度超过目标阈值，则建立待归类音频资源与指定音频资源的资源库标识之间的对应关系，即本公开实施例通过对比资源名称和获取相似度，能够将同一项音频资源的多个版本进行合并，即为同一首歌的多个版本建立关联关系，方便了资源分享平台对该音频资源库的管理，实现了资源分享平台对音频资源库的有效管理与统计，能够更好地服务于视频配乐业务。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频资源管理方法涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种音频资源管理方法的流程图。

图3是根据一示例性实施例示出的一种音频资源管理方法的流程图。

图4是根据一示例性实施例示出的一种音频资源管理流程的示意图。

图5是根据一示例性实施例示出的一种音频资源管理流程的示意图。

图6是根据一示例性实施例示出的一种音频资源管理流程的示意图。

图7是根据一示例性实施例示出的一种音频资源管理流程的示意图。

图8是根据一示例性实施例示出的一种音频资源管理装置的框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

在对本公开实施例进行详细地解释说明之前，先对本公开涉及到的一些名词术语或缩略语进行介绍。

多媒体资源库：指代多媒体资源集合，用于存储多媒体资源。

示例性地，以多媒体资源为音频资源为例，则多媒体资源库可以为短视频平台提供的歌曲库，该歌曲库中存储的歌曲用于为短视频配乐，即用户可以选择该歌曲库中的歌曲作为自己的短视频的背景音乐。

其中，短视频平台是指用于用户记录和分享生产、生活的平台。在短视频平台上，用户可以用短视频记录自己的生活点滴，也可以通过直播与粉丝实时互动。短视频平台的内容可以覆盖生活的方方面面。在这里，用户能找到自己喜欢的内容，找到自己感兴趣的人，看到更真实有趣的世界，也可以让世界发现真实有趣的自己。示例性地，短视频可以指代时长小于一定时长(比如60s)的视频，本公开实施例对此不进行具体限定。

音频资源：在本公开实施例中，音频资源可以指代歌曲，即音乐。比如可以为短视频平台提供的歌曲库中的歌曲。

资源名称：用于对音频资源进行标识。以歌曲为例，则资源名称为歌曲名称。

文本匹配：在NLP(Natural Language Processing,自然语言处理)中，文本匹配技术，通常以文本相似度计算、文本相关性计算的形式，在某些应用***中起核心支撑作用，比如搜索引擎、智能问答、知识检索、信息流推荐等。即，文本匹配是自然语言处理中的一个核心问题，它可以应用于大量的自然语言处理任务中，例如搜索引擎、智能问答、知识检索、信息流推荐等。

OCR(Optical Character Recognition，光学字符识别)：用于将图像上的文字内容，直接转换为可编辑文本的技术。即，OCR技术是通过检测暗、亮的模式确定图像上字符的形状，然后用字符识别方法将识别到的形状翻译成计算机文字的过程。

下面对本公开实施例提供的直播中的电子资源发放方法涉及的实施环境进行介绍。

本申请实施例提供的音频资源管理方法可以应用于短视频平台。其中，该短视频平台可以表现为服务器。示例性地，参见图1，该实施环境可以包括：终端101、短视频平台102和多媒体资源库103。

在一种可能的实现方式中，短视频平台102为用户提供一个多媒体资源库103。以该多媒体资源库103为歌曲库为例，该歌曲库中存储的歌曲用于为用户制作的短视频配乐，即用户可以选择该歌曲库中的歌曲作为自己的短视频的背景音乐。其中，终端101上通常安装有短视频应用，以方便用户进行短视频拍摄，观看他人分享的短视频，进行直播或观看他人的直播等。

其中，短视频平台102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，本申请实施例对此不进行具体限定。

在本申请实施例中，终端101的类型通常为移动式终端。作为一个示例，移动式终端包括但不限于：智能手机、平板电脑、电子阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器等。

另外，终端101以及短视频平台102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

基于上述的实施环境，本公开实施例提出了一种音频资源管理方法，以对短视频平台提供给用户的歌曲库进行管理为例，本公开实施例可以通过对比歌曲的歌曲名称与确定歌曲之间的相似度，将同一首歌曲的多个版本进行合并，并将使用了这首歌曲的短视频原声也合并进来，从而为同一首歌曲的多个版本和多种来源建立关联关系，方便短视频平台对该歌曲库的管理。换言之，本公开实施例通过将同一首歌曲的翻唱版本、原声版本以及多种来源(比如短视频原声)归并到一个曲库标识下，实现了短视频平台对歌曲库中歌曲的有效管理与统计，能够更好地服务于短视频配乐业务。

图2是根据一示例性实施例示出的一种音频资源管理方法的流程图，如图2所示，该音频资源管理方法用于图1所示的短视频平台，包括以下步骤。

在步骤201中，根据音频资源库中的音频资源的资源名称确定目标资源集合，目标资源集合包括资源名称不重复的至少一项音频资源。

在步骤202中，为目标资源集合中包括的每项音频资源分别分配一个资源库标识。

在步骤203中，对于音频资源库中未分配资源库标识的任意一项待归类音频资源，在目标资源集合中查找与待归类音频资源匹配的指定音频资源，指定音频资源与待归类音频资源的资源名称相匹配，且指定音频资源具有资源库标识。

在步骤204中，获取待归类音频资源与指定音频资源之间的相似度。

在步骤205中，若该相似度超过目标阈值，则建立待归类音频资源与指定音频资源的资源库标识之间的对应关系。

本公开实施例提供的方法，在管理音频资源库中的音频资源时，本公开实施例首先根据该音频资源库中的音频资源的资源名称确定目标资源集合，并为目标资源集合中包括的每项音频资源分别分配一个资源库标识，目标资源集合包括资源名称不重复的至少一项音频资源；之后，针对音频资源库中未分配资源库标识的任意一项待归类音频资源，会在目标资源集合中查找与待归类音频资源匹配的指定音频资源，其中，指定音频资源与待归类音频资源的资源名称相匹配，且指定音频资源具有资源库标识；之后，获取待归类音频资源与指定音频资源之间的相似度；若该相似度超过目标阈值，则建立待归类音频资源与指定音频资源的资源库标识之间的对应关系，即本公开实施例通过对比资源名称和获取相似度，能够将同一项音频资源的多个版本进行合并，即为同一首歌的多个版本建立关联关系，方便了资源分享平台对该音频资源库的管理，实现了资源分享平台对音频资源库的有效管理与统计，能够更好地服务于视频配乐业务。

示例性地，本公开实施例在进行相似度比对时，是进行文本相似度比对，即对比歌词之间的相似度。而除了进行文本相似度比对之外，还可以进行诸如音频资源之间的旋律、节奏或频谱特征等的相似度比对，本公开实施例对此不进行具体限定。比如，凡是能够用于比对两项音频资源之间相似度的特征信息，均可用于本公开。

针对该种实现方式，若待归类音频资源与指定音频资源之间的文本相似度未超过目标阈值，则确定待归类音频资源与指定音频资源是资源名称相同的两项不同音频资源，为待归类音频资源分配一个新的资源库标识，实现了对音频资源库中音频资源进行有效管理。

示例性地，可以采用计算词移距离(WMD，Word Mover's Distance)的方式来进行文本匹配，即计算文本之间的相似度。除了这种计算词移距离的方式之外，还可以采取其他文本匹配方式，本公开实施例对此不进行具体限定。

针对上述实施方式，准确地计算文本之间的相似度，为后续对音频资源库中的音频资源进行有效管理提供了保障。

本公开实施例还支持对用户上传的视频资源中出现的配乐进行管理，即在对音频资源中的各项音频资源分配资源库标识后，还会在上述基础上进一步地为配乐也分配资源库标识，扩大了音频资源的管理范围。

其中，可以通过对配乐进行语音识别，并通过将识别到的文本与音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配的方式，来确定音频资源库中与该配乐匹配的目标音频资源。

识别所述视频资源中出现的第四文本；

另外，还可以通过识别视频资源中出现的文本，并通过将识别到的文本与音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配的方式，来确定音频资源库中与该配乐匹配的目标音频资源。

本公开实施例提供了多种确定与配乐匹配的目标音频资源的方式，丰富了实现方式。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是根据一示例性实施例示出的一种音频资源管理方法的流程图，如图3所示，该音频资源管理方法用于图1所示的短视频平台，以音频资源为短视频平台提供给用户用于视频配乐的歌曲为例，相应地，前述的音频资源库为短视频平台提供给用户的歌曲库，资源名称为歌曲名称，资源集合为歌曲集合，资源库标识为曲库标识，文本为歌词信息。该方法包括以下步骤。

在步骤301中，根据音频资源库中的音频资源的资源名称确定目标资源集合，并为目标资源集合中包括的每项音频资源分别分配一个资源库标识；其中，目标资源集合包括资源名称不重复的至少一项音频资源。

本步骤即是为歌曲库中歌曲名称不重复的歌曲分配一个曲库标识(ID，Identity)。

如图4所示，对于歌曲库中的每首歌曲来说，至少包括一个歌曲ID，诸如图4中的符号标识1001至1006；一个歌曲名称；以及，演唱者信息。在图4的基础上，本公开实施例为了对歌曲库中各个歌曲的不同版本或不同来源进行管理，还会为歌曲库中的每首歌曲均分配一个曲库标识。其中，曲库标识如图5中所示，符号标识1至3即为曲库标识。

在本公开实施例中，为了实现为歌曲库中的每首歌曲均分配一个曲库标识，首先会在歌曲库中筛选出歌曲名称不重复的目标歌曲集合。作为一个示例，歌曲名称不重复可以为歌曲名称完全不同，比如图4中歌曲名称“《AAAA》”与歌曲名称“《BB》”便完全不同。即，将歌曲库中歌曲名称完全不同的歌曲筛选出来，形成目标歌曲集合。之后，为目标歌曲集合中包括的每首歌曲分配分配一个曲库标识。

以图4为例，筛选出来的歌曲名称不重复的歌曲可能有《AAAA》、《BB》(歌曲标识为1002)和《**Disco》共三首，并分别为这三首歌曲分配一个唯一的曲库标识，参见图5中所示的曲库标识1、曲库标识2和曲库标识3。

在步骤302中，对于音频资源库中未分配资源库标识的任意一项待归类音频资源，在目标资源集合中查找与待归类音频资源匹配的指定音频资源，其中，指定音频资源与待归类音频资源的资源名称相匹配，且指定音频资源具有资源库标识。

对于在步骤301中未被分配曲库标识的剩余歌曲，可以采取本步骤提供的方式来获取相应的曲库标识。即，针对剩余歌曲中的任意一首歌曲a，首先在目标歌曲集合中查找与之具有相匹配的歌曲名称，并且分配了曲库标识的歌曲b。其中，歌曲a作为待归类歌曲，歌曲b作为与待归类歌曲匹配的指定歌曲。

需要说明的是，上述歌曲名称相匹配可能是歌曲名称完全一致，比如图4中歌曲标识为1002的歌曲《BB》和歌曲标识为1006的歌曲《BB》便对应这种情况；另外，上述歌曲名称相匹配还可能是歌曲名称存在大部分重合，比如图4中歌曲标识为1001的歌曲

《AAAA》、歌曲标识为1003的歌曲名称“《AAAA》(cover MChl)”、以及歌曲标识为1004的歌曲“《AAAA》DJ版”便是针对该种情况。另外，图5和图8中的歌曲名即指代同一首歌曲的不同版本对应的歌曲名称中一致的部分。

在步骤303中，获取待归类音频资源的第一文本和指定音频资源的第二文本，并计算第一文本与第二文本之间的文本相似度，得到待归类音频资源与指定音频资源之间的相似度。

本步骤即是对比待归类歌曲的歌词信息(在本文中称之为第一文本)和指定歌曲的歌词信息(在本文中称之为第二文本)。之后，将待归类歌曲的歌词信息与指定歌曲的歌词信息进行文本匹配。在一种可能的实现方式中，计算第一文本与第二文本之间的文本相似度，包括但不限于采取如下方式：

3031、对第一文本进行向量化处理，得到第一文本中各个词的词向量；以及，对第二文本进行向量化处理，得到第二文本中各个词的词向量。

作为一个示例，对歌词信息进行向量化处理包括但不限于：采取word embedding(词嵌入)方式将文本形式的歌词信息转化为特征向量；或，采取BERT(BidirectionalEncoder Representations from Transformers，基于变换器的双向编码表示)模型将文本形式的歌词信息转化为特征向量；还可以采取CNN(Convolutional Neural Networks，卷积神经网络)模型将文本形式的歌词信息转化为特征向量，本公开实施例对此不进行具体限定。

3032、获取第一文本中第i个词的词向量与第二文本中第j个词的词向量之间的距离。

其中，i和j的取值均为正整数，i的取值范围为1至第一文本中包括的词总数，j的取值范围为1至第二文本中包括的词总数。

示例性地，可以采用计算词移距离的方式来进行文本匹配，即计算文本之间的相似度。除了这种计算词移距离的方式之外，还可以采取其他文本匹配方式，本公开实施例对此不进行具体限定。

其中，在词向量空间上，WMD可以理解为从一个文本转化为另一个文本所需要付出的最小总代价，它由两个文本中词与词之间的移动代价通过加权求和得到。示例性地，词与词之间的移动代价可以由二者的词向量之间的欧氏距离来衡量。即，上述词向量之间的距离可以为欧式距离。换言之，WMD能够反映文本和文本之间的相似度，可以将文本距离建模成两个文本中词的语义距离的一个组合，比如对两个文本中的任意两个词所对应的词向量求欧氏距离然后再加权求和，即c(i，j)为i，j两个词的词向量之间的欧式距离，这即是WMD的计算方法。

在一种可能的实现方式中，词i的词向量和词j的词向量之间的距离c(i，j)＝||x_i-x_j||₂其中，c(i，j)可以视作从词i转移到词j的代价。

3033、对获取到的距离进行加权求和处理，得到第一文本与第二文本之间的文本相似度。

在对第一文本和第二文本进行向量化时，每个词均会被分配一个权重，因此可以看做是transportation问题。以d和d’分别表示第一文本和第二文本为例，则加权矩阵T是一个稀疏矩阵，T_ij＞0表示d中的词i转移为d’中的词j的比例。此时，有两个约束条件：

所以这个transportation问题，可以写成以下形式：

该式代表的是第一文本要转换为第二文本所需要付出的总代价。将这个代价求取下界即最小值之后，即可求取第一文本中所有词转移到第二文本中各个词的最短总距离，该值即代表两个文本之间的相似度。

在步骤304中，若待归类音频资源与指定音频资源之间的文本相似度超过目标阈值，则建立待归类音频资源与指定音频资源的资源库标识之间的对应关系。

在本公开实施例中，若待归类歌曲与指定歌曲之间的歌词相似度超过目标阈值，则将待归类歌曲与指定歌曲视为同一首歌曲的两个不同版本，将待归类歌曲也归到指定歌曲的曲库标识下，即建立待归类音频资源与指定音频资源的资源库标识之间的对应关系。

另外，除了进行歌词相似度比对之外，还可以进行歌曲之间的旋律或节奏或频谱特征等的相似度比对，本公开实施例对此不进行具体限定。

在步骤305中，若待归类音频资源与指定音频资源之间的文本相似度未超过目标阈值，则为待归类音频资源分配一个新的资源库标识。

在本公开实施例中，若待归类歌曲与指定歌曲之间的歌词相似度未超过目标阈值，则确定待归类歌曲与指定歌曲是歌名相同的两首不同的歌曲，为待归类音频资源分配一个新的资源库标识。

需要说明的第一点是，本公开实施例会不断重复执行上述步骤302至步骤305，直至遍历歌曲库中的剩余歌曲，实现为歌曲库中的每首歌曲均分配一个曲库标识。

以图4和图5为例，若筛选出来的歌曲名称不重复的歌曲为《AAAA》、《BB》(歌曲标识为1002)和《**Disco》这三首，并分别为这三首歌曲分配一个唯一的曲库标识，参见图5中所示的曲库标识1、曲库标识2和曲库标识3，则图4中剩余歌曲,包括：歌曲标识为1003的歌曲“《AAAA》(cover MChl)”、歌曲标识为1004的歌曲“《AAAA》DJ版”、歌曲标识为1006的歌曲《BB》，其中，歌曲“《AAAA》(cover MChl)”和歌曲“《AAAA》DJ版”会被归到曲库标识1下，歌曲标识为1006的歌曲《BB》会被归类到曲库标识2下。即形成图5。

需要说明的第二点是，在歌曲库中的每首歌曲均分配一个曲库标识之后，本公开实施例还会将用户上传的视频资源中出现的配乐资源也归类到上述分配的曲库标识下。即，根据短视频原声与歌曲库中歌曲的对应关系，将短视频原声合并到对应歌曲所属的曲库标识下，详情请参见下述步骤306。

在步骤306中，对于用户上传的任意一项视频资源，在音频资源库中确定与该视频资源中的配乐资源匹配的目标音频资源，并建立该配乐资源与目标音频资源的资源库标识之间的对应关系。

在一种可能的实现方式中，将短视频原声合并到对应歌曲所属的曲库标识下，包括但不限于如下两种方式：

3061、通过语音识别技术识别短视频中播放的配乐的歌词信息，据此确定歌曲库中歌曲与该短视频原声的对应关系并根据该短视频原声与歌曲库中歌曲的对应关系，将该短视频原声合并到对应歌曲所属的曲库标识下。

即，通过语音识别技术对该视频资源中播放的配乐资源进行语音识别，得到该配乐资源的第三文本；将第三文本与音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配；将音频资源库中与该配乐资源的文本相似度超过目标阈值的音频资源，确定为目标音频资源。示例性地，语音识别技术常用的方法包括但不限于如下四种：基于语言学和声学的方法、随机模型法、利用人工神经网络的方法和概率语法分析。

作为一个示例，本公开实施例可以采用深度学习模型来对短视频原声进行语音识别，本公开实施例对此不进行具体限定。另外，将第三文本与音频资源库中各项音频资源的文本进行文本匹配，可采取前述的文本匹配方式，此处不再赘述。

针对该种方式，即是通过语音识别技术，以及将短视频中播放的配乐的歌词信息与歌曲库中各首歌曲的歌词进行比对，来确定目标歌曲，其中，目标歌曲的歌词与短视频中播放的配乐之间的歌词相似度超过目标阈值，据此可以确定目标歌曲的歌曲名称与短视频中播放的配乐的歌曲名称一致，所以将短视频中播放的配乐合并至目标歌曲所归属的曲库标识下。

3062、通过OCR技术识别短视频中出现的文本信息，据此确定歌曲库中歌曲与该短视频原声的对应关系并根据该短视频原声与歌曲库中歌曲的对应关系，将该短视频原声合并到对应歌曲所属的曲库标识下。

即，通过OCR技术识别视频资源中出现的文本信息(在本文中称之为第四文本)；将第四文本与音频资源库中已分配资源库标识的各项音频资源的文本进行文本匹配；将音频资源库中与该视频资源的的文本相似度超过目标阈值的音频资源，确定为目标音频资源。

示例性地，利用OCR技术处理视频资源中各帧图像，包括但不限于：图像前处理、特征提取、字符识别以及识别后处理。其中，前处理可以包括灰度化、二值化，倾斜检测与校正，行、字切分，平滑，规范化等等；识别后处理即是根据特定的语言上下文的关系，对识别结果进行校正。其中，可基于深度学习网络来进行特征提取和字符识别，即深度学习模型主要充当特征提取器和分类器，本公开实施例对此不进行具体限定。

示例性地，既可以对视频资源中的每一帧进行OCR处理，也可以对视频资源中的部分帧进行OCR处理，比如将视频资源平均分成N段，在每一段中取一帧图像进行OCR处理，本公开实施例对此不进行具体限定。

针对该种方式，即是通过OCR技术，以及将短视频中出现的文本信息与歌曲库中各首歌曲的歌词进行比对，来确定目标歌曲，其中，目标歌曲的歌词与短视频中出现的文本之间的文本相似度超过目标阈值，据此可以确定目标歌曲的歌曲名称与短视频中播放的配乐的歌曲名称一致，所以将短视频中播放的配乐合并至目标歌曲所归属的曲库标识下。

举例来说，图6中示出了四个短视频原声，在通过上述步骤306的处理后，将原声ID为101的“aaa的作品原声”和原声ID为103的“《AAAA》”合并到图5中曲库标识1下；而将原声ID为102的“《BB》改编版本”和原声ID为104的“ddd的作品原声”合并到图5中曲库标识2下，进而形成图8所示的对应关系。

本公开实施例提供的方法至少具有以下有益效果：

本公开实施例提出了一种音频资源管理方法，以对短视频平台提供给用户的歌曲库进行管理为例，本公开实施例通过对比歌曲的歌曲名称与确定歌曲之间的相似度(比如计算歌词之间的文本相似度)，能够将同一首歌曲的多个翻唱版本与原声版本进行合并；而且还能够将使用了这首歌曲的短视频原声也合并到同一曲库标识下，从而实现为同一首歌曲的多个版本和多种来源建立关联关系，方便短视频平台对该歌曲库的管理。换言之，本公开实施例通过将同一首歌曲的翻唱版本、原声版本以及多种来源(比如短视频原声)归并到一个曲库标识下，实现了短视频平台对歌曲库中歌曲的有效管理与统计，能够更好地服务于短视频配乐业务。

图8是根据一示例性实施例示出的一种音频资源管理装置的框图。参照图8，该装置包括确定模块801，分配模块802，查找模块803和关联模块804。

确定模块801，被配置为根据音频资源库中的音频资源的资源名称确定目标资源集合，所述目标资源集合包括资源名称不重复的至少一项音频资源；

分配模块802，被配置为为所述目标资源集合中包括的每项音频资源分别分配一个资源库标识；

查找模块803，被配置为对于所述音频资源库中未分配资源库标识的任意一项待归类音频资源，在所述目标资源集合中查找与所述待归类音频资源匹配的指定音频资源，所述指定音频资源与所述待归类音频资源的资源名称相匹配，且所述指定音频资源具有资源库标识；

获取模块804，被配置为获取所述待归类音频资源与所述指定音频资源之间的相似度；

关联模块805，被配置为若所述相似度超过目标阈值，则建立所述待归类音频资源与所述指定音频资源的资源库标识之间的对应关系。

本公开实施例提供的装置，在管理音频资源库中的音频资源时，本公开实施例首先根据该音频资源库中的音频资源的资源名称确定目标资源集合，并为目标资源集合中包括的每项音频资源分别分配一个资源库标识，目标资源集合包括资源名称不重复的至少一项音频资源；之后，针对音频资源库中未分配资源库标识的任意一项待归类音频资源，会在目标资源集合中查找与待归类音频资源匹配的指定音频资源，其中，指定音频资源与待归类音频资源的资源名称相匹配，且指定音频资源具有资源库标识；之后，获取待归类音频资源与指定音频资源之间的相似度；若该相似度超过目标阈值，则建立待归类音频资源与指定音频资源的资源库标识之间的对应关系，即本公开实施例通过对比资源名称和获取相似度，能够将同一项音频资源的多个版本进行合并，即为同一首歌的多个版本建立关联关系，方便了资源分享平台对该音频资源库的管理，实现了资源分享平台对音频资源库的有效管理与统计，能够更好地服务于视频配乐业务。

在一种可能的实现方式中，获取模块，还被配置为获取所述待归类音频资源的第一文本和所述指定音频资源的第二文本；计算所述第一文本与所述第二文本之间的文本相似度，得到所述待归类音频资源与所述指定音频资源之间的相似度。

在一种可能的实现方式中，获取模块，还被配置为对所述第一文本进行向量化处理，得到所述第一文本中各个词的词向量；对所述第二文本进行向量化处理，得到所述第二文本中各个词的词向量；获取所述第一文本中第i个词的词向量与所述第二文本中第j个词的词向量之间的距离，其中，i和j的取值均为正整数，i的取值范围为1至所述第一文本中包括的词总数，j的取值范围为1至所述第二文本中包括的词总数；对获取到的距离进行加权求和处理，得到所述第一文本与所述第二文本之间的文本相似度。

在一种可能的实现方式中，该装置还包括：

匹配模块，被配置为对于上传的任意一项视频资源，在所述音频资源库中确定与所述视频资源中的配乐资源匹配；

关联模块，还被配置为建立所述配乐资源与所述目标音频资源的资源库标识之间的对应关系。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9示出了本公开一个示例性实施例提供的一种电子设备900的结构框图。

通常，设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本公开中方法实施例提供的音频资源管理方法。

在一些实施例中，设备900还可选包括有：***设备接口903和至少一个***设备。处理器901、存储器902和***设备接口903之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口903相连。具体地，***设备包括：电源904。

***设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和***设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和***设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

电源904用于为设备900中的各个组件进行供电。电源904可以是交流电、直流电、一次性电池或可充电电池。当电源904包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图9中示出的结构并不构成对设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由设备900的处理器执行以完成上述音频资源管理方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备900的处理器执行时，使得电子设备900能够执行如上述方法实施例中的音频资源管理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频资源管理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的音频资源管理方法，其特征在于，所述获取所述待归类音频资源与所述指定音频资源之间的相似度，包括：

3.根据权利要求1所述的音频资源管理方法，其特征在于，所述获取所述待归类音频资源与所述指定音频资源之间的相似度之后，所述方法还包括：

4.根据权利要求2所述的音频资源管理方法，其特征在于，所述计算所述第一文本与所述第二文本之间的文本相似度，包括：

5.根据权利要求1所述的音频资源管理方法，其特征在于，所述建立所述待归类音频资源与所述指定音频资源的资源库标识之间的对应关系之后，所述方法还包括：

6.根据权利要求5所述的音频资源管理方法，其特征在于，所述在所述音频资源库中确定与所述视频资源中的配乐资源匹配的目标音频资源，包括：

7.根据权利要求5所述的音频资源管理方法，其特征在于，所述在所述音频资源库中确定与所述视频资源中的配乐资源匹配的目标音频资源，包括：

识别所述视频资源中出现的第四文本；

8.一种音频资源管理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的音频资源管理方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的音频资源管理方法。