CN111368136A

CN111368136A - 歌曲识别方法、装置、电子设备及存储介质

Info

Publication number: CN111368136A
Application number: CN202010244457.2A
Authority: CN
Inventors: 牛闯
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-03

Abstract

本公开是关于一种歌曲识别方法、装置、电子设备及存储介质，属于计算机技术领域。方法包括：从目标视频中，提取目标歌曲的目标歌词文本；将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配；当所述目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定所述匹配度大于第一预设匹配度的原始歌曲为所述目标歌曲的原始版本。扩展了识别目标视频中目标歌曲的方法，采用目标歌词文本，识别该目标歌曲的原始版本，提高了识别准确率。

Description

歌曲识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种歌曲识别方法、装置、电子设备及存储介质。

背景技术

随着人们生活水平的逐渐提高，越来越多的用户通过收听歌曲进行娱乐，但是同一首歌曲会存在多种不同的版本，如原始版本和翻唱版本等。因此亟需提供一种识别歌曲的原始版本的方法。

相关技术中，预先获取每个原始歌曲的音频指纹，则获取目标歌曲的音频指纹，查询与目标歌曲的音频指纹相同的原始歌曲，查询到的原始歌曲即为该目标歌曲的原始版本。

但是，上述识别方法只能识别出配乐完全相同或相近的歌曲，即使是同一首歌曲，如果目标歌曲中的配乐发生了变化，会导致目标歌曲与原始歌曲的音频指纹不同，进而导致无法查询到目标歌曲对应的原始歌曲，识别准确率低。

发明内容

本公开提供了一种歌曲识别方法、装置、电子设备及存储介质，可以识别目标视频中的目标歌曲的原始版本，提高了识别准确率。

根据本公开实施例的第一方面，提供一种歌曲识别方法，所述方法包括：

从目标视频中，提取目标歌曲的目标歌词文本；

将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配；

当所述目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定所述匹配度大于第一预设匹配度的原始歌曲为所述目标歌曲的原始版本。

在一种可能实现方式中，所述从目标视频中，提取目标歌曲的目标歌词文本，包括：

提取所述目标视频中的目标歌曲的音频信息；

采用音频识别技术，将所述音频信息转换为所述目标歌词文本。

在另一种可能实现方式中，所述从目标视频中，提取目标歌曲的目标歌词文本，包括：

获取所述目标视频中的至少一个视频帧；

识别所述至少一个视频帧中的文本，将所述至少一个视频帧中的文本作为所述目标歌词文本。

在另一种可能实现方式中，所述将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，包括：

将所述目标歌词文本转换为目标歌词编码，所述目标歌词编码用于表示所述目标歌词文本的读音；

将所述目标歌词编码与至少一个原始歌词文本的原始歌词编码进行匹配；

所述当所述目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定所述匹配度大于第一预设匹配度的原始歌曲为所述目标歌曲的原始版本，包括：

当所述目标歌词编码与任一个原始歌词文本的原始歌词编码的匹配度大于第一预设匹配度时，确定所述匹配度大于第一预设匹配度的原始歌词文本对应的原始歌曲为所述目标歌曲的原始版本。

对于所述至少一个原始歌曲中的任一原始歌曲，将所述目标歌词文本中的每个字符与所述原始歌曲的原始歌词文本中的每个字符进行匹配；

将所述目标歌词文本与所述原始歌词文本的匹配字符的数量确定为所述目标歌词文本与所述原始歌词文本的匹配度。

在另一种可能实现方式中，所述目标歌词文本包括多个目标歌词文本段，所述至少一个原始歌曲的原始歌词文本中包括多个原始歌词文本段；所述将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，包括：

对于所述至少一个原始歌曲中的任一原始歌曲，将所述目标歌词文本中的每个目标歌词文本段与所述原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配；

根据所述目标歌词文本中的每个目标歌词文本段与所述原始歌曲的原始歌词文本中的每个原始歌词文本段的匹配度，确定所述目标歌词文本与所述原始歌曲的原始歌词文本的匹配度。

在另一种可能实现方式中，所述对于所述至少一个原始歌曲中的任一原始歌曲，将所述目标歌词文本中的每个目标歌词文本段与所述原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配，包括：

对于所述至少一个原始歌曲中的任一原始歌曲，将所述原始歌曲中的每个目标歌词文本段中的每个字符与所述原始歌曲的原始歌词文本中的每个原始歌曲文本段中的每个字符进行匹配；

将所述目标歌词文本段与所述原始歌词文本段的匹配字符的数量确定为所述目标歌词文本段与所述原始歌词文本段的匹配度。

将所述目标歌词文本与所述原始歌词文本的匹配文本段的数量确定为所述目标歌词文本与所述原始歌词文本的匹配度。

在另一种可能实现方式中，所述方法还包括：

当所述目标歌词文本包括多个目标歌词文本段时，对所述多个目标歌词文本段进行去重处理。

根据本公开实施例的第二方面，提供一种歌曲识别装置，所述装置包括：

提取单元，用于从目标视频中，提取目标歌曲的目标歌词文本；

匹配单元，用于将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配；

确定单元，用于当所述目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定所述匹配度大于第一预设匹配度的原始歌曲为所述目标歌曲的原始版本。

在一种可能实现方式中，所述提取单元，包括：

提取子单元，用于提取所述目标视频中的目标歌曲的音频信息；

转换子单元，用于采用音频识别技术，将所述音频信息转换为所述目标歌词文本。

在另一种可能实现方式中，所述提取单元，包括：

第一获取子单元，用于获取所述目标视频中的至少一个视频帧；

识别子单元，用于识别所述至少一个视频帧中的文本，将所述至少一个视频帧中的文本作为所述目标歌词文本。

在另一种可能实现方式中，所述匹配单元，用于将所述目标歌词文本转换为目标歌词编码，所述目标歌词编码用于表示所述目标歌词文本的读音；

所述匹配单元，还用于将所述目标歌词编码与至少一个原始歌词文本的原始歌词编码进行匹配；

所述确定单元，用于当所述目标歌词编码与任一个原始歌词文本的原始歌词编码的匹配度大于第一预设匹配度时，确定所述匹配度大于第一预设匹配度的原始歌词文本对应的原始歌曲为所述目标歌曲的原始版本。

在另一种可能实现方式中，所述匹配单元，包括：

匹配子单元，用于对于所述至少一个原始歌曲中的任一原始歌曲，将所述目标歌词文本中的每个字符与所述原始歌曲的原始歌词文本中的每个字符进行匹配；

确定子单元，用于将所述目标歌词文本与所述原始歌词文本的匹配字符的数量确定为所述目标歌词文本与所述原始歌词文本的匹配度。

在另一种可能实现方式中，所述目标歌词文本包括多个目标歌词文本段，所述匹配单元，包括：

匹配子单元，用于对于所述至少一个原始歌曲中的任一原始歌曲，将所述目标歌词文本中的每个目标歌词文本段与所述原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配；

确定子单元，用于根据所述目标歌词文本中的每个目标歌词文本段与所述原始歌曲的原始歌词文本中的每个原始歌词文本段的匹配度，确定所述目标歌词文本与所述原始歌曲的原始歌词文本的匹配度。

在另一种可能实现方式中，所述匹配子单元，用于对于所述至少一个原始歌曲中的任一原始歌曲，将所述原始歌曲中的每个目标歌词文本段中的每个字符与所述原始歌曲的原始歌词文本中的每个原始歌曲文本段中的每个字符进行匹配；

所述匹配子单元，还用于将所述目标歌词文本段与所述原始歌词文本段的匹配字符的数量确定为所述目标歌词文本段与所述原始歌词文本段的匹配度。

在另一种可能实现方式中，所述匹配单元，用于将所述目标歌词文本与所述原始歌词文本的匹配文本段的数量确定为所述目标歌词文本与所述原始歌词文本的匹配度。

在另一种可能实现方式中，所述装置还包括：

去重单元，用于当所述目标歌词文本包括多个目标歌词文本段时，对所述多个目标歌词文本段进行去重处理。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行命令的易失性或非易失性存储器；

其中，所述一个或多个处理器被配置为执行如第一方面所述的歌曲识别方法。

根据本公开实施例提供的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的歌曲识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的歌曲识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供的方法、装置、电子设备及存储介质，从目标视频中，提取目标歌曲的目标歌词文本，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。扩展了识别目标视频中目标歌曲的方法，采用目标歌词文本，识别该目标歌曲的原始版本，提高了识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种歌曲识别方法的流程图。

图2是根据一示例性实施例示出的一种歌曲识别方法的流程图。

图3是根据一示例性实施例示出的一种歌曲识别方法的流程图。

图4是根据一示例性实施例示出的一种歌曲识别装置的结构示意图。

图5是根据一示例性实施例示出的另一种歌曲识别装置的结构示意图。

图6是根据一示例性实施例示出的一种终端的框图。

图7是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供了一种歌曲识别方法，能够从该目标视频中提取目标歌曲的目标歌词文本，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本，可以应用于多种场景下。

例如，本公开实施例提供的方法，应用于识别视频中的歌曲对应的原始歌曲的场景中，当任一用户在视频应用中上传视频后，采用本公开实施例提供的方法，即可识别出视频中的歌曲对应的原始歌曲，从而确定该原始歌曲为视频中的歌曲的原始版本，即识别出该视频中的歌曲是哪一首歌曲的翻唱。

另外，确定原始歌曲后，如果该原始歌曲具有个人版权，则限制该视频上传在视频应用中，或者如果该原始歌曲的热度较高，则限制该视频的推荐次数等等。

本公开实施例提供的歌曲识别方法应用于电子设备中，该电子设备可以包括终端，还可以包括服务器。

当电子设备包括终端时，该终端用于从目标视频中，提取目标歌曲的目标歌词文本，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定原始歌曲为目标歌曲的原始版本。

或者，当电子设备包括终端和服务器时，该终端用于将目标视频发送给服务器，服务器用于从目标视频中，提取目标歌曲的目标歌词文本，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

其中，该终端可以为手机、平板电脑、计算机等多种类型的终端，该服务器可以为一台服务器，或者由若干服务器组成的服务器集群，或者是一个云计算服务中心。

图1是根据一示例性实施例示出的一种歌曲识别方法的流程图，参见图1，该方法包括：

在步骤101中，从目标视频中，提取目标歌曲的目标歌词文本。

在步骤102中，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配。

在步骤103中，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

本公开实施例提供的方法，从目标视频中，提取目标歌曲的目标歌词文本，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。扩展了识别目标视频中目标歌曲的方法，采用目标歌词文本，识别该目标歌曲的原始版本，提高了识别准确率。

在一种可能实现方式中，从目标视频中，提取目标歌曲的目标歌词文本，包括：

提取目标视频中的目标歌曲的音频信息；

采用音频识别技术，将音频信息转换为目标歌词文本。

在另一种可能实现方式中，从目标视频中，提取目标歌曲的目标歌词文本，包括：

获取目标视频中的至少一个视频帧；

识别至少一个视频帧中的文本，将至少一个视频帧中的文本作为目标歌词文本。

在另一种可能实现方式中，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，包括：

将目标歌词文本转换为目标歌词编码，目标歌词编码用于表示目标歌词文本的读音；

将目标歌词编码与至少一个原始歌词文本的原始歌词编码进行匹配；

当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本，包括：

当目标歌词编码与任一个原始歌词文本的原始歌词编码的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌词文本对应的原始歌曲为目标歌曲的原始版本。

对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个字符与原始歌曲的原始歌词文本中的每个字符进行匹配；

将目标歌词文本与原始歌词文本的匹配字符的数量确定为目标歌词文本与原始歌词文本的匹配度。

在另一种可能实现方式中，目标歌词文本包括多个目标歌词文本段，至少一个原始歌曲的原始歌词文本中包括多个原始歌词文本段；将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，包括：

对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个目标歌词文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配；

根据目标歌词文本中的每个目标歌词文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段的匹配度，确定目标歌词文本与原始歌曲的原始歌词文本的匹配度。

在另一种可能实现方式中，对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个目标歌词文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配，包括：

对于至少一个原始歌曲中的任一原始歌曲，将原始歌曲中的每个目标歌词文本段中的每个字符与原始歌曲的原始歌词文本中的每个原始歌曲文本段中的每个字符进行匹配；

将目标歌词文本段与原始歌词文本段的匹配字符的数量确定为目标歌词文本段与原始歌词文本段的匹配度。

将目标歌词文本与原始歌词文本的匹配文本段的数量确定为目标歌词文本与原始歌词文本的匹配度。

在另一种可能实现方式中，方法还包括：

当目标歌词文本包括多个目标歌词文本段时，对多个目标歌词文本段进行去重处理。

图2是根据一示例性实施例示出的一种歌曲识别方法的流程图，参见图2，应用于电子设备中，该方法包括：

在步骤201中，提取目标视频中的目标歌曲的音频信息。

其中，目标视频为任一视频。例如，该目标视频可以为歌曲视频、舞蹈视频、讲解视频等等。该目标视频中包括目标歌曲，且可以提取该目标视频中的目标歌曲的音频信息，该音频信息可以为目标视频中的背景歌曲、目标视频中的用户歌唱的歌曲或者为目标视频中采用其他方式存在的歌曲等等。

另外，该目标视频可以为任一视频应用中上传的视频，或者为其他类型应用中上传的视频等等。

该目标视频中包括目标歌曲，则可以从该目标视频中提取音频信息，也即提取了目标视频中的目标歌曲，后续根据该音频信息，识别目标视频中的目标歌曲对应的原始版本的原始歌曲。

在步骤202中，采用音频识别技术，将音频信息转换为目标歌词文本。

其中，该音频识别技术用于识别音频信息中的文本。例如，该音频识别技术可以包括基于语言学和声学的方法、随机模型法、利用人工神经网络的方法、概率语法分析等。

获取目标视频中的音频信息后，采用音频识别技术，将该音频信息转换为目标歌词文本，后续可以采用文本匹配的方式，识别原始歌曲数据库中与目标歌曲匹配的原始歌曲。

在一种可能实现方式中，当目标歌词文本包括多个目标歌词文本段时，对多个目标歌词文本段进行去重处理。

其中，由于将目标歌曲的音频信息转换为目标歌词文本后，获取的目标歌词文本中可能包括多个相同的目标歌词文本段，如果多次对该多个目标歌词文本段进行匹配，会造成资源的耗费，则获取多个目标歌词文本段后，对多个目标歌词文本段进行去重处理。

可选地，从该多个目标歌词文本段中选择相同的目标歌词文本段，从相同的目标歌词文本段中选取出任一组目标歌词文本段，保存该任一组目标歌词文本段，将相同的目标歌词文本段中除该任一组目标歌词文本段以外的目标歌词文本段删除，完成去重处理。

在步骤203中，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配。

其中，该原始歌曲数据库中包括至少一个原始歌曲。另外，该原始歌曲为一首歌曲的首次发布版本，而其他歌手再次歌唱该歌曲后，其他歌手歌唱的歌曲即为该原始歌曲对应的翻唱歌曲。或者，当其他用户对该歌曲中的伴奏音乐进行了改编而形成一首新的歌曲，该歌曲也为该原始歌曲对应的翻唱歌曲。或者，当其他用户对该歌曲中的歌词进行了改编而形成一首新的歌曲，该歌曲也为该原始歌曲对应的翻唱歌曲。

另外，该原始歌曲数据库中还包括至少一个原始歌曲的原始歌词文本，当获取到目标歌曲的目标歌词文本后，可以将该目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，获取该目标歌词文本与至少一个原始歌词文本的匹配度。

另外，在一种可能实现方式中，当原始歌词文本包括多个原始歌词文本段时，对多个原始歌词文本段进行去重处理。且对该多个原始歌词文本段进行去重处理的步骤与上述对多个目标歌词文本段进行去重处理的步骤类似，在此不再赘述。

其中，获取目标歌词文本与至少一个原始歌词文本的匹配度的方式包括以下任一项：

1、对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个字符与原始歌曲的原始歌词文本中的每个字符进行匹配，将目标歌词文本与原始歌词文本的匹配字符的数量确定为目标歌词文本与原始歌词文本的匹配度。

其中，两个相同的字符即为匹配字符。

在确定目标歌词文本与原始歌词文本的匹配度时，对于该至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个字符与原始歌曲的原始歌词文本中的每个字符进行匹配，如果匹配字符的数量越多，表示每项歌词文本与原始歌词文本越匹配，因此，获取该目标歌词文本中与原始歌曲的原始歌词文本中的匹配字符的数量，则获取的匹配字符的数量为目标歌词文本与原始歌词文本的匹配度。

例如，当目标歌词文本为“此处是最兴奋的音调”，原始歌词文本为“此处是该歌曲最兴奋的音调”，目标歌词文本与原始歌词文本的匹配字符的数量为9。

2、目标歌词文本包括多个目标歌词文本段，原始歌曲的原始歌词文本中包括多个原始歌词文本段。

对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个目标歌词文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配，根据目标歌词文本中的每个目标歌词文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段的匹配度，确定目标歌词文本与原始歌曲的原始歌词文本的匹配度。

可选地，对于所述至少一个原始歌曲中的任一原始歌曲，将原始歌曲中的每个目标歌词文本段中的每个字符与原始歌曲的原始歌词文本中的每个原始歌曲文本段中的每个字符进行匹配，将目标歌词文本段与原始歌词文本段的匹配字符的数量确定为目标歌词文本段与原始歌词文本段的匹配度。

在将目标歌词文本段与原始歌词文本段进行匹配时，将目标歌词文本段中的每个字符分别与原始歌词文本段中的每个字符进行匹配，获取目标歌词文本段与原始歌词文本段的匹配字符的数量，将获取的匹配字符的数量确定为目标歌词文本段与原始歌词文本段的匹配度。

例如，目标歌词文本段为“最美的声音”，且原始歌词文本段为“最美的歌曲”，则在将目标歌词文本段和原始歌词文本段进行匹配时，确定的目标歌词文本段和原始歌词文本段的匹配度为3。

可选地，将目标歌词文本段与原始歌词文本段中的连续匹配字符的数量确定为目标歌词文本段与原始歌词文本段的匹配度。

当根据目标歌词文本段中的字符与原始歌词文本段中的字符确定目标歌词文本段与原始歌词文本段的匹配度时，将目标歌词文本段与原始歌词文本段的连续匹配字符数量确定为目标歌词文本段与原始歌词文本段的匹配度。

例如，当目标歌词文本段与原始歌词文本段存在连续3个字符匹配时，则目标歌词文本段与原始歌词文本段的匹配度为3，而当目标歌词文本段与原始歌词文本段存在3个间隔的字符匹配时，则目标歌词文本段与原始歌词文本段的匹配度为1。

本申请实施例将目标歌词文本段与原始歌词文本段中连续匹配字符的数量确定为目标歌词文本段与原始歌词文本段的匹配度，能够提高确定的匹配度的准确率。

可选地，在获取目标歌词文本段与原始歌词文本段的匹配度时，获取目标歌词文本段的第一歌词向量和原始歌词文本段的第二歌词向量，再根据第一歌词向量和第二歌词向量，确定目标歌词文本段和原始歌词文本段的匹配度。

其中，目标歌词文本段和原始歌词文本段的匹配度由第一歌词向量和第二歌词向量的欧氏距离、余弦距离表示。另外，第一歌词向量和第二歌词向量的欧式距离越大，表示目标歌词文本段和原始歌词文本段的匹配度越小。而第一歌词向量和第二歌词向量的余弦距离越大，表示目标歌词文本段和原始歌词文本段的匹配度越大。

3、将目标歌词文本与原始歌词文本的匹配文本段的数量确定为目标歌词文本与原始歌词文本的匹配度。

其中，在确定目标歌词文本与原始歌词文本的匹配度时，对于该至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个目标文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配，获取该目标歌词文本与原始歌曲的原始歌词文本的匹配文本段的数量，则获取的匹配文本段的数量为目标歌词文本与原始歌词文本的匹配度。

可选地，在目标歌词文本段与原始歌词文本段的匹配度大于第二预设匹配度时，确定目标歌词文本段与原始歌词文本段为匹配文本段。

其中，该第二预设匹配度由服务器设置，或者由开发人员设置，或者采用其他方式设置。

4、获取目标歌词文本段与原始歌词文本段的匹配文本段的数量，根据获取的数量与目标歌词文本中的目标歌词文本段的总数量，确定目标歌词文本中每个目标歌词文本段与原始歌词文本段匹配的比例，作为目标歌词文本与原始歌词文本的匹配度。

在步骤204中，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

将目标歌词文本与任一原始歌曲的原始歌词文本匹配后，即可获取该目标歌词文本与原始歌词文本的匹配度，在目标歌词文本与原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

其中，该第一预设匹配度由服务器设置、或者由开发人员设置、或者采用其他方式设置。

例如，当目标歌曲A中的目标歌词文本与原始歌曲B的原始歌词文本的匹配度为5，而第一预设匹配度为4，则获取的匹配度大于第一预设匹配度时，确定原始歌曲B为目标歌曲A的原始版本。

需要说明的是，本申请实施例仅是以将目标歌词文本与原始歌词文本进行匹配为例进行说明，在另一实施例中，将目标歌词文本转换为目标歌词编码，将目标歌词编码与原始歌词文本的原始歌词编码进行匹配，当目标歌词编码与原始歌词编码的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

其中，目标歌词编码用于表示目标歌词文本的读音，原始歌词编码用于表示原始歌词文本的读音。

以目标歌词文本为汉字为例进行说明，例如该目标歌词文本为“最美的歌曲”，则将该目标歌词文本转换为目标歌词编码后为“zui mei de ge qu”。

另外，原始歌曲数据库中可以存储有原始歌曲的原始歌词文本的原始歌词编码，将目标歌词文本转换为目标歌词编码后，即可将目标歌词编码与原始歌曲的原始歌词编码进行匹配，当目标歌词编码与原始歌词编码的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

或者，原始歌曲数据库中预先没有存储有原始歌曲的原始歌词文本的原始歌词编码，则将目标歌词文本转换为目标歌词编码，将原始歌曲的原始歌词文本转换为原始歌词编码，再将目标歌词编码与原始歌曲的原始歌词编码进行匹配，当目标歌词编码与原始歌词编码的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

其中，将目标歌词编码与原始歌词文本的原始歌词编码进行匹配，包括：

1、对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个字符的编码与原始歌曲的原始歌词文本中的每个字符的编码进行匹配，将目标歌词文本与原始歌词文本的匹配编码的数量确定为目标歌词文本与原始歌词文本的匹配度。

2、目标歌词文本包括多个目标歌词文本段，至少一个原始歌曲的原始歌词文本中包括多个原始歌词文本段。

对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个目标歌词文本段的编码与原始歌曲的原始歌词文本中的每个原始歌词文本段的编码进行匹配，根据每个目标歌词文本段的编码与原始歌词文本中的每个原始歌词文本段的编码的匹配度，确定目标歌词文本与原始歌词文本的匹配度。

可选地，对于至少一个原始歌曲中的任一原始歌曲，将原始歌曲中的每个目标歌词文本段中的每个字符的编码与原始歌曲的原始歌词文本中的每个原始歌曲文本段中的每个字符的编码进行匹配，将目标歌词文本段与原始歌词文本段的匹配编码的数量确定为目标歌词文本段与原始歌词文本段的匹配度。

可选地，将目标歌词文本段与原始歌词文本段中的连续匹配编码的数量确定为目标歌词文本段与原始歌词文本段的匹配度。

当根据目标歌词文本段中的编码与原始歌词文本段中的编码确定目标歌词文本段与原始歌词文本段的匹配度时，将目标歌词文本段与原始歌词文本段的连续匹配编码数量确定为目标歌词文本段与原始歌词文本段的匹配度。

本申请实施例将目标歌词文本段与原始歌词文本段中连续匹配编码的数量确定为目标歌词文本段与原始歌词文本段的匹配度，能够提高确定的匹配度的准确率。

可选地，在获取目标歌词文本段与原始歌词文本段的匹配度时，获取目标歌词文本段的编码的第一编码向量和原始歌词文本段的编码的第二编码向量，再根据第一编码向量和第二编码向量，确定目标歌词文本段和原始歌词文本段的匹配度。

其中，目标歌词文本段和原始歌词文本段的匹配度可以由第一歌词向量和第二歌词向量的欧式距离、余弦距离等表示。

3、将目标歌词文本与原始歌词文本的匹配编码段的数量确定为目标歌词文本与原始歌词文本的匹配度。

其中，在确定目标歌词文本与原始歌词文本的匹配度时，对于该至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个目标文本段的目标编码段与原始歌曲的原始歌词文本中的每个原始歌词文本段的原始编码段进行匹配，获取该目标歌词文本与原始歌曲的原始歌词文本的匹配编码段的数量，则获取的匹配编码段的数量为目标歌词文本与原始歌词文本的匹配度。

可选地，在目标歌词编码段与原始歌词编码段的匹配度大于第二预设匹配度时，确定目标歌词编码段与原始歌词编码段为匹配编码段。

4、获取目标歌词编码段与原始歌词文本段的匹配编码段的数量，根据获取的数量与目标歌词编码中的目标歌词编码段的总数量，确定目标歌词编码中每个目标歌词编码段与原始歌词编码段匹配的比例，作为目标歌词文本与原始歌词文本的匹配度。

本申请实施例提供的方法，从目标视频中，提取目标歌曲的目标歌词文本，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。扩展了识别目标视频中目标歌曲的方法，采用目标歌词文本，识别该目标歌曲的原始版本，提高了识别准确率。

并且，本申请实施例提供的方法，将目标歌词文本转换为目标歌词编码，将目标歌词编码与原始歌词文本的原始歌词编码进行匹配，当目标歌词编码与原始歌词编码的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本，由于采用编码表示文本的读音，可以扩展文本的范围，采用歌词的编码确定目标歌词文本与原始歌词文本的匹配度，可以提高识别文本的准确率，进而提高识别目标歌曲的原始版本的准确率。

图3是根据一示例性实施例示出的一种歌曲识别方法的流程图，参见图3，应用于电子设备中，该方法包括：

在步骤301中，获取目标视频中的至少一个视频帧。

在步骤302中，识别至少一个视频帧中的文本，将至少一个视频帧中的文本作为目标歌词文本。

其中，目标视频包括至少一个视频帧，且该目标视频中还可以包括文本信息，则获取该目标视频中的至少一个视频帧，再获取该至少一个视频帧中的每个视频帧中的文本，获取的文本即为目标视频中目标歌曲的目标歌词文本。

在一种可能实现方式中，采用ORC(Optical Character Recognition，光学字符识别)识别技术，识别视频帧中的文本，或者采用其他技术识别视频帧中包括的文本。

在步骤303中，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配。

在步骤304中，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

其中，步骤303-304与步骤203-204类似，在此不再赘述。

另外，图2实施例是采用音频识别的方式获取目标歌曲的目标歌词文本，图3实施例是识别视频帧中的文本的方式获取目标歌曲的目标歌词文本。图2和图3实施例分别采用了不同的方式获取目标视频中的目标歌曲的目标歌词文本，获取的目标歌曲的目标歌词文本的可能也不同。

需要说明的是，本申请仅是以图2所采用的音频识别的方式以及图3所采用的识别视频帧中的文本的方式分别识别目标视频中目标歌曲的原始版本为例进行说明。在另一实施例中，图2实施例和图3实施例还可以结合，先执行图2实施例中的步骤201-203得到目标歌词文本，当目标歌词文本与每个原始歌曲的原始歌词文本的匹配度不大于第一预设匹配度时，再通过执行图3实施例中的步骤301-304得到目标视频的另一目标歌词文本，当得到的另一目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。或者，先执行图3实施例中的步骤301-304得到目标歌词文本，当目标歌词文本与每个原始歌曲的原始歌词文本的匹配度不大于第一预设匹配度时，再通过执行图2实施例中的步骤201-203得到目标视频的另一目标歌词文本，当获得的另一目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

图4是根据一示例性实施例示出的一种歌曲识别装置的结构示意图。参见图4，该装置包括：

提取单元401，用于从目标视频中，提取目标歌曲的目标歌词文本；

匹配单元402，用于将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配；

确定单元403，用于当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。

本申请实施例提供的装置，从目标视频中，提取目标歌曲的目标歌词文本，将目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，当目标歌词文本与任一原始歌曲的原始歌词文本的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌曲为目标歌曲的原始版本。扩展了识别目标视频中目标歌曲的方法，采用目标歌词文本，识别该目标歌曲的原始版本，提高了识别准确率。

在一种可能实现方式中，参见图5，提取单元401，包括：

提取子单元4011，用于提取目标视频中的目标歌曲的音频信息；

转换子单元4012，用于采用音频识别技术，将音频信息转换为目标歌词文本。

在另一种可能实现方式中，参见图5，提取单元401，包括：

第一获取子单元4013，用于获取目标视频中的至少一个视频帧；

识别子单元4014，用于识别至少一个视频帧中的文本，将至少一个视频帧中的文本作为目标歌词文本。

在另一种可能实现方式中，匹配单元402，用于将目标歌词文本转换为目标歌词编码，目标歌词编码用于表示目标歌词文本的读音；

匹配单元402，还用于将目标歌词编码与至少一个原始歌词文本的原始歌词编码进行匹配；

确定单元403，用于当目标歌词编码与任一个原始歌词文本的原始歌词编码的匹配度大于第一预设匹配度时，确定匹配度大于第一预设匹配度的原始歌词文本对应的原始歌曲为目标歌曲的原始版本。

在另一种可能实现方式中，参见图5，匹配单元402，包括：

匹配子单元4021，用于对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个字符与原始歌曲的原始歌词文本中的每个字符进行匹配；

确定子单元4022，用于将目标歌词文本与原始歌词文本的匹配字符的数量确定为目标歌词文本与原始歌词文本的匹配度。

在另一种可能实现方式中，目标歌词文本包括多个目标歌词文本段，参见图5，匹配单元402，包括：

匹配子单元4021，用于对于至少一个原始歌曲中的任一原始歌曲，将目标歌词文本中的每个目标歌词文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配；

确定子单元4022，用于根据目标歌词文本中的每个目标歌词文本段与原始歌曲的原始歌词文本中的每个原始歌词文本段的匹配度，确定目标歌词文本与原始歌曲的原始歌词文本的匹配度。

在另一种可能实现方式中，匹配子单元4021，用于对于至少一个原始歌曲中的任一原始歌曲，将原始歌曲中的每个目标歌词文本段中的每个字符与原始歌曲的原始歌词文本中的每个原始歌曲文本段中的每个字符进行匹配；

匹配子单元4021，还用于将目标歌词文本段与原始歌词文本段的匹配字符的数量确定为目标歌词文本段与原始歌词文本段的匹配度。

在另一种可能实现方式中，匹配单元402，用于将目标歌词文本与原始歌词文本的匹配文本段的数量确定为目标歌词文本与原始歌词文本的匹配度。

在另一种可能实现方式中，参见图5，装置还包括：

去重单元404，用于当目标歌词文本包括多个目标歌词文本段时，对多个目标歌词文本段进行去重处理。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种终端的框图。该终端600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：一个或多个处理器601和一个或多个存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，数据推荐器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括易失性存储器或非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所具有以实现本申请中方法实施例提供的歌曲识别方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商标志集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是根据一示例性实施例示出的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条指令，至少一条指令由处理器701加载并执行以实现上述各个歌曲识别方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器700可以用于执行上述歌曲识别方法中服务器所执行的步骤。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述歌曲识别方法中终端或服务器所执行的步骤。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述歌曲识别方法中终端或服务器所执行的步骤。

本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种歌曲识别方法，其特征在于，所述方法包括：

从目标视频中，提取目标歌曲的目标歌词文本；

2.根据权利要求1所述的方法，其特征在于，所述从目标视频中，提取目标歌曲的目标歌词文本，包括：

提取所述目标视频中的目标歌曲的音频信息；

3.根据权利要求1所述的方法，其特征在于，所述从目标视频中，提取目标歌曲的目标歌词文本，包括：

获取所述目标视频中的至少一个视频帧；

4.根据权利要求1所述的方法，其特征在于，所述将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，包括：

6.根据权利要求1所述的方法，其特征在于，所述目标歌词文本包括多个目标歌词文本段，所述至少一个原始歌曲的原始歌词文本中包括多个原始歌词文本段；所述将所述目标歌词文本与原始歌曲数据库中至少一个原始歌曲的原始歌词文本进行匹配，包括：

7.根据权利要求6所述的方法，其特征在于，所述对于所述至少一个原始歌曲中的任一原始歌曲，将所述目标歌词文本中的每个目标歌词文本段与所述原始歌曲的原始歌词文本中的每个原始歌词文本段进行匹配，包括：

8.一种歌曲识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行如权利要求1-7任一项权利要求所述的歌曲识别方法。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-7任一项权利要求所述的歌曲识别方法。