CN108831423B

CN108831423B - 提取音频数据中主旋律音轨的方法、装置、终端及存储介质

Info

Publication number: CN108831423B
Application number: CN201810537265.3A
Authority: CN
Inventors: 孔令城
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2023-06-06
Anticipated expiration: 2038-05-30
Also published as: CN108831423A

Abstract

本申请揭示了一种提取音频数据中主旋律音轨的方法、装置、终端及存储介质，属于音频处理领域，该方法包括：提取目标音频数据中的多个音轨，确定每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合；在目标音频数据对应的歌词信息中，确定每句歌词的时间段信息，得到歌词信息对应的时间段信息集合；确定每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度；将对应的匹配度最高的音轨，确定为目标音频数据的主旋律音轨。本申请解决了目前的音轨逐一排除方法不适用于编曲风格小众另类的音频，易将音频中非主旋律音轨确定为该音频的主旋律的问题，达到了提高识别音频中的主旋律音轨的普适性和准确性的效果。

Description

提取音频数据中主旋律音轨的方法、装置、终端及存储介质

技术领域

本申请实施例涉及音频处理领域，特别涉及一种提取音频数据中主旋律音轨的方法、装置、终端及存储介质。

背景技术

音乐乐器数字接口(Musical Instrument Digital Interface，MIDI)是一个用来产生音乐音频的接口。每一个MIDI音频都可包含复合音轨，每个音轨包含不同乐器的音乐。在MIDI音频中，有一个音轨通常用来储存主旋律，其它音轨用来储存伴奏旋律。

服务器可基于音频主旋律提供音乐分析、音乐检索、音乐辨识、相似音乐推荐等服务。相关技术中，将MIDI音频中的音轨逐一排除后得到的唯一音轨确定为该MIDI音频的主旋律。

而对于编曲风格小众另类的MIDI音频，若采用上述音轨逐一排除方法则易将MIDI音频中非主旋律音轨确定为该MIDI音频的主旋律音轨。故，如何有效确定歌曲的主旋律音轨成为亟待解决的问题。

发明内容

为了解决现有技术中存在的问题，本申请实施例提供了一种提取音频数据中主旋律音轨的方法、装置、终端及存储介质。技术方案如下：

根据本申请实施例的第一方面，提供了一种提取音频数据中主旋律音轨的方法，所述方法包括：

提取目标音频数据中的多个音轨，确定每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合；

在所述目标音频数据对应的歌词信息中，确定每句歌词的时间段信息，得到所述歌词信息对应的时间段信息集合；

确定所述每个音轨对应的时间段信息集合与所述歌词信息对应的时间段信息集合的匹配度；

将对应的匹配度最高的音轨，确定为所述音频数据的主旋律音轨。

根据本申请实施例的第二方面，提供了一种提取音频数据中主旋律音轨的装置，所述装置包括：

第一确定模块，用于提取目标音频数据中的多个音轨，确定每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合；

第二确定模块，用于在所述目标音频数据对应的歌词信息中，确定每句歌词的时间段信息，得到所述歌词信息对应的时间段信息集合；

第三确定模块，用于确定所述每个音轨对应的时间段信息集合与所述歌词信息对应的时间段信息集合的匹配度；

第四确定模块，用于将对应的匹配度最高的音轨，确定为所述目标音频数据的主旋律音频音轨。

根据本申请实施例的第三方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如第一方面所述的提取音频数据中主旋律音轨的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的提取音频数据中主旋律音轨的方法。

本申请实施例提供的技术方案带来的有益效果是：

将目标音频数据中多个音轨分别对应的时间段信息集合，与该目标音频数据的歌词信息对应的时间段信息进行匹配，将匹配度最高的音轨确定为目标音频数据的主旋律音轨，由于通常情况下，目标音频数据的所有音轨中，主旋律音轨对应的时间段信息集合与歌词信息对应的时间段信息之间的匹配度最高；解决了目前的音轨逐一排除方法不适用于编曲风格小众另类的音频，易将音频中非主旋律音轨确定为该音频的主旋律音轨的问题，达到了提高识别音频中的主旋律音轨的普适性和准确性的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请一个实施例中提供的提取音频数据中主旋律音轨的方法的流程图；

图1B是本申请一个实施例中提供的每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的对比图；

图2是本申请另一个实施例中提供的提取音频数据中主旋律音轨的方法的流程图；

图3是本申请一个实施例提供的提取音频数据中主旋律音轨的装置的结构方框图；

图4示出了本申请一个示例性实施例提供的终端400的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1A是本申请一个实施例中提供的提取音频数据中主旋律音轨的方法的流程图，如图1A所示，该提取音频数据中主旋律音轨的方法包括以下步骤。

步骤101，提取目标音频数据中的多个音轨，确定每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合。

本实施例中，目标音频数据包括但不限于歌曲、音乐、演奏乐和哼唱歌曲，目标音频数据可以从本地或者服务器获取得到。

本实施例中，目标音频数据的格式为MIDI格式。

在MIDI格式的音频数据中，通常包含一个用来储存主旋律的音轨，多条用来储存伴奏旋律的音轨，各个音轨中通常存在人声时间段和无声时间段，由于无声片段在后续确定主旋律音轨的过程中不具有参考价值，因此需要在提取目标音频数据中的多个音轨后，需确定每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合，从而减少终端不必要的处理量。

由于MIDI格式的音频数据通常是以.mid为结尾的指令文件，该文件中至少包括各音轨的所有人声时间段的开始时刻和结束时刻，因此可从目标音频数据对应的指令文件中提取该目标音频数据中的各音轨，以及得到每个音轨对应的时间段信息集合，每个音轨对应的时间段信息集合包括该音轨在音频数据中所有人声时间段的开始时刻和结束时刻。

可选的，音频数据中各个音轨的所有人声时间段的开始时刻和结束时刻分别用二维数组表示，记为：

其中，k表示音轨的数量，

中记录有第k个音轨的所有人声时间段的开始时刻，/>

记录有第k个音轨的所有人声时间段的结束时刻，/>

表示第k个音轨中第i个人声时间段的开始时刻/结束时刻的具体时刻，单位毫秒，km表示第k个音轨中人声时间段的数量。

步骤102，在目标音频数据对应的歌词信息中，确定每句歌词的时间段信息，得到歌词信息对应的时间段信息集合。

本实施例中，目标音频数据对应的歌词信息用于描述该目标音频数据的演绎内容。目标音频数据所演绎的内容通过该目标音频数据对应的歌词信息进行描述，对应的，目标音频数据对应的歌词信息通过该目标音频数据进行演绎。

以目标音频数据ABC的歌词信息abc为例，歌词信息abc如下所示：

[628,1980]a1a2a3a4a5a6，

[6301,9523]b1b2b3b4b5b6，

[12002,54301]c1c2c3c4c5c6，

……

上述歌词信息abc中，诸如“a1a2a3a4a5a6”、“b1b2b3b4b5b6”、“c1c2c3c4c5c6”等为该歌词信息abc包括的歌词，各歌词之前的“[]”为各歌词的时间属性描述文本，“[]”内包含的内容用于描述各歌词的时间属性，其单位时间通常为ms。其中，歌词的时间属性包括：该歌词的开始时刻和该歌词的结束时刻。例如：上述[628,1980]为歌词“a1a2a3a4a5a6”的时间属性描述文本，其中的“628”表示歌词“a1a2a3a4a5a6”的开始时刻，“1980”表示歌词“a1a2a3a4a5a6”的结束时刻，由“a1”的时间属性描述文本可知，歌词“a1a2a3a4a5a6”的播放时间段628ms～1980ms，即歌词“a1a2a3a4a5a6”从628ms开始播放，至1980ms结束播放。

由于歌词信息通常是以.qrc为结尾的歌词文件，该文件中至少包括歌词以及各个歌词对应的开始时刻和结束时刻，因此可从目标音频数据对应的歌词文件中提取每句歌词的时间段信息，得到歌词信息对应的时间段信息集合。

可选的，各个歌词对应的开始时刻和结束时刻分别用二维数组表示，记为：

qrc_st＝[t₁，t₂，...t_n]

qrc_et＝[t₁，t₂，...t_n]

其中，qrc_st中记录有歌词信息所包括的所有歌词的开始时刻序列，qrc_et记录有歌词信息所包括的所有歌词的结束时刻序列，t_i表示第i个歌词的开始时刻/结束时刻的具体时刻，单位毫秒，n表示歌词的数量。

步骤103，确定每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度。

具体的，对于歌词信息对应的时间段信息集合中的每个时间段信息A_i，在每个音轨对应的时间段信息集合中，查找与A_i满足预设匹配条件的时间段信息B_j，将能够查找到对应的B_j的A_i的数目与歌词信息对应的时间段信息集合中的所有时间段信息的数目的比值，确定为每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度。

其中，i为1～n之间的整数，j为1～m之间的整数。

可选的，预设匹配条件至少包括下属两种情况：

第一种情况，预设匹配条件为A_i的开始时刻与B_j的开始时刻之间的时间差在预设的第一阈值内，且A_i的结束时刻与息B_j的结束时刻之间的时间差在第一阈值内。

以预设的第一阈值为500ms，歌词信息对应的时间段信息集合包括时间段信息[628,1980]A₁、[6301,9523]A₂、[12002,54301]A₃，每个音轨对应的时间段信息集合包括第一音轨对应的时间段信息[600,2000]B₁、[6300,9600]B₂、[12000,54400]B₃，以及第二音轨对应的时间段信息[501,1580]C₁、[6000,7000]C₂、[10000,53000]C₃为例。对于时间段信息A₁，终端在音轨对应的时间段信息集合中，查找到对应的开始时刻与A₁的开始时刻之间的时间差在500ms内，且对应的结束时刻与A₁的结束时刻之间的时间差在500ms内的B₁和C₁，查找到对应的开始时刻与A₂的开始时刻之间的时间差在500ms内，且对应的结束时刻与A₁的结束时刻之间的时间差在500ms内的B₂和C₂，查找到对应的开始时刻与A₃的开始时刻之间的时间差在500ms内，且对应的结束时刻与A₃的结束时刻之间的时间差在500ms内的B₃，由于第一音轨对应的时间段信息中查找到的符合预设匹配条件的时间段信息有3个，第二音轨对应的时间段信息中查找到的符合预设匹配条件的时间段信息有2个，因此得到第一音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度为1，第二音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度为2/3。

第二种情况，预设匹配条件为A_i的开始时刻与B_j的开始时刻之间的时间差，加A_i的结束时刻与B_j的结束时刻之间的时间差的总和在预设的第二阈值内。

以预设的第二阈值为500ms，歌词信息对应的时间段信息集合包括时间段信息[628,1980]A₁、[6301,9523]A₂、[12002,54301]A₃，每个音轨对应的时间段信息集合包括第一音轨对应的时间段信息[600,2000]B₁、[6300,9600]B₂、[12000,54400]B₃，以及第二音轨对应的时间段信息[501,1580]C₁、[6000,7000]C₂、[10000,53000]C₃为例。对于时间段信息A₁，终端在音轨对应的时间段信息集合中，查找到对应的开始时刻与A₁的开始时刻之间的时间差，加对应的结束时刻与A₁的结束时刻之间的时间差在500ms内的B₁，查找到对应的开始时刻与A₂的开始时刻之间的时间差，加对应的结束时刻与A₁的结束时刻之间的时间差在500ms内的B₂，查找到对应的开始时刻与A₃的开始时刻之间的时间差，加对应的结束时刻与A₃的结束时刻之间的时间差在500ms内的B₃，由于第一音轨对应的时间段信息中查找到的符合预设匹配条件的时间段信息有3个，第二音轨对应的时间段信息中查找到的符合预设匹配条件的时间段信息有0个，因此得到第一音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度为1，第二音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度为0。

需要说明的是，本实施例并不限定预设的第一阈值和预设的第二阈值的具体数值和设定方式。

步骤104，将对应的匹配度最高的音轨，确定为目标音频数据的主旋律音轨。

继续以步骤103中的举例进行说明：

在第一种情况中，终端将对应的匹配度最高的第一音轨(1>2/3)，确定为音频数据的主旋律音轨。

在第二种情况中，终端将对应的匹配度最高的第一音轨(1>0)，确定为音频数据的主旋律音轨。

图1B是本申请一个实施例中提供的每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的对比图，如图1B所示，横轴表示播放时长，纵轴0表示歌词信息对应的时间段信息集合，纵轴1～12分别表示各个音轨对应的时间段信息集合，由于从图1B中可直观地看到，纵轴1所表示的音轨对应的时间段信息集合与歌词信息对应的时间段信息集合之间的匹配度最高，因此将纵轴1所表示的音轨确定为目标音频数据的主旋律音轨。

综上所述，本实施例提供的提取音频数据中主旋律音轨的方法，将目标音频数据中多个音轨分别对应的时间段信息集合，与该目标音频数据的歌词信息对应的时间段信息进行匹配，将匹配度最高的音轨确定为目标音频数据的主旋律音轨，由于通常情况下，目标音频数据的所有音轨中，主旋律音轨对应的时间段信息集合与歌词信息对应的时间段信息之间的匹配度最高；解决了目前的音轨逐一排除方法不适用于编曲风格小众另类的音频，易将音频中非主旋律音轨确定为该音频的主旋律音轨的问题，达到了提高识别音频中的主旋律音轨的普适性和准确性的效果。

在预设的有限时间段内，如果音轨对应的时间段信息集合中的时间段信息符合预设匹配条件，则大概率的说明在其他非预设的时间段内，该音轨对应的时间段信息集合中的时间段信息也符合预设匹配条件。故，为了降低处理器的处理压力，终端只需对目标音频数据的片段进行后续计算即可。

图2是本申请另一个实施例中提供的提取音频数据中主旋律音轨的方法的流程图，如图2所示，该提取音频数据中主旋律音轨的方法包括以下步骤。

步骤201，提取目标音频数据中的多个音轨，确定在预设的有限时间范围内每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合。

如果目标音频数据的歌词信息对应的时间段信息集合中最早时刻为25000，最晚时刻为225000，那么，在该目标音频数据可选取的有限时间范围为[25000,225000]。

以预设的有限时间范围为[40000,100000]为例，终端在提取目标音频数据中的多个音轨之后，确定有限时间范围[40000,100000]内每个音轨中的人声时间段的时间段信息，得到音轨中的第一音轨对应的时间段信息集合([60000,200000]，[630000,960000])，以及第二音轨对应的时间段集合([50100,158000]，[600000,700000])。

需要说明的是，本实施例并不限定预设的有限时间范围的取值范围和设定方式。

步骤202，在目标音频数据对应的歌词信息中，确定在有限时间范围内每句歌词的时间段信息，得到歌词信息对应的时间段信息集合。

继续以步骤201中的举例进行说明，当预设的有限时间范围为[40000,100000]时，终端在目标音频数据对应的歌词信息中，确定在有限时间范围[40000,100000]内每句歌词的时间段信息，得到歌词信息对应的时间段信息集合。

步骤203，确定每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度。

步骤204，在对应的匹配度达到预设的匹配度阈值的音轨中，将对应的匹配度最高的音轨，确定为目标音频数据的主旋律音轨。

在目标音频数据不包含主旋律的情况下，为了避免终端将匹配度最高的音轨误判为音频数据的主旋律音轨，预先设置匹配度阈值，将对应的匹配度达到预设的匹配度阈值的音轨确定为主旋律音轨的候选音轨。

在终端得到各个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度之后，先剔除对应的匹配度未达到预设的匹配度阈值的音轨，仅在匹配度达到预设的匹配度阈值的音轨中确定主旋律音轨。如果剔除对应的匹配度未达到预设的匹配度阈值的音轨之后，剩余的音轨的数量为0，则终端确定该目标音频数据不包含主旋律音轨。

需要说明的是，由于本实施例中步骤203与步骤103类似，因此本实施例不对步骤203赘述说明。

本实施例中，在预设的有限时间段内，如果音轨对应的时间段信息集合中的时间段信息符合预设匹配条件，则大概率的说明在其他非预设的时间段内，该音轨对应的时间段信息集合中的时间段信息也符合预设匹配条件。故，为了降低处理器的处理压力，终端只需对目标音频数据的片段进行后续计算即可。

本实施例中，在目标音频数据不包含主旋律的情况下，为了避免终端将匹配度最高的音轨误判为音频数据的主旋律音轨，预先设置匹配度阈值，将对应的匹配度达到预设的匹配度阈值的音轨确定为主旋律音轨的候选音轨。

下述为本申请装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图3，其示出了本申请一个实施例提供的提取音频数据中主旋律音轨的装置的结构方框图。该装置包括：第一确定模块301、第二确定模块302、第三确定模块303和第四确定模块304。

第一确定模块301，用于提取目标音频数据中的多个音轨，确定每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合；

第二确定模块302，用于在目标音频数据对应的歌词信息中，确定每句歌词的时间段信息，得到歌词信息对应的时间段信息集合；

第三确定模块303，用于确定每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度；

第四确定模块304，用于将对应的匹配度最高的音轨，确定为目标音频数据的主旋律音轨。

综上所述，本实施例提供的提取音频数据中主旋律音轨的装置，将目标音频数据中多个音轨分别对应的时间段信息集合，与该目标音频数据的歌词信息对应的时间段信息进行匹配，将匹配度最高的音轨确定为目标音频数据的主旋律音轨，由于通常情况下，目标音频数据的所有音轨中，主旋律音轨对应的时间段信息集合与歌词信息对应的时间段信息之间的匹配度最高；解决了目前的音轨逐一排除方法不适用于编曲风格小众另类的音频，易将音频中非主旋律音轨确定为该音频的主旋律音轨的问题，达到了提高识别音频中的主旋律音轨的普适性和准确性的效果。

基于上述实施例提供的提取音频数据中主旋律音轨的装置，可选的，该第一确定模块，还被配置为确定在预设的有限时间范围内每个音轨中的人声时间段的时间段信息；

该第二确定模块，还被配置为确定在有限时间范围内每句歌词的时间段信息，得到歌词信息对应的时间段信息集合。

可选的，该第三确定模块，包括：

查找单元，用于将歌词信息对应的时间段信息集合中的每个时间段信息A_i，依次与音轨对应的时间段信息集合中的每个时间段信息的开始时刻和结束时刻进行比对，查找与A_i满足预设匹配条件的时间段信息B_j，其中，i为1～n之间的整数，j为1～m之间的整数；

确定单元，用于将能够查找到对应的B_j的A_i的数目与歌词信息对应的时间段信息集合中的所有时间段信息的数目的比值，确定为音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度。

可选的，预设匹配条件为A_i的开始时刻与B_j的开始时刻之间的时间差在预设的第一阈值内，且A_i的结束时刻与息B_j的结束时刻之间的时间差在第一阈值内；或者，

预设匹配条件为A_i的开始时刻与B_j的开始时刻之间的时间差，加A_i的结束时刻与B_j的结束时刻之间的时间差的总和在预设的第二阈值内。

可选的，该第四确定模块，还被配置为在对应的匹配度达到预设的匹配度阈值的音轨中，将对应的匹配度最高的音轨，确定为音频数据的主旋律音轨。

可选的，目标音频数据的格式为MIDI格式。

需要说明的是：上述实施例提供的提取音频数据中主旋律音轨的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的提取音频数据中主旋律音轨的装置和提取音频数据中主旋律音轨的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入智能终端中的计算机可读存储介质。该计算机可读存储介质存储有至少一条指令，该至少一条指令被一个或者一个以上的处理器用来执行上述提取音频数据中主旋律音轨的方法。

图4示出了本申请一个示例性实施例提供的终端400的结构框图。该终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的提取音频数据中主旋律音轨的方法。

在一些实施例中，终端400还可选包括有：***设备接口403和至少一个***设备。处理器401、存储器402和***设备接口403之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口403相连。具体地，***设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

***设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和***设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和***设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种提取音频数据中主旋律音轨的方法，其特征在于，所述方法包括：

提取目标音频数据中的多个音轨，确定在预设的有限时间范围内每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合；

在所述目标音频数据对应的歌词信息中，确定在所述有限时间范围内每句歌词的时间段信息，得到所述歌词信息对应的时间段信息集合；

将对应的匹配度最高的音轨，确定为所述目标音频数据的主旋律音轨。

2.根据权利要求1所述的方法，其特征在于，所述确定所述每个音轨对应的时间段信息集合与所述歌词信息对应的时间段信息集合的匹配度，包括：

将所述歌词信息对应的时间段信息集合中的每个时间段信息A_i，依次与所述音轨对应的时间段信息集合中的每个时间段信息的开始时刻和结束时刻进行比对，查找与A_i满足预设匹配条件的时间段信息B_j，其中，i为1～n之间的整数，j为1～m之间的整数；

将能够查找到对应的B_j的A_i的数目与所述歌词信息对应的时间段信息集合中的所有时间段信息的数目的比值，确定为所述音轨对应的时间段信息集合与所述歌词信息对应的时间段信息集合的匹配度。

3.根据权利要求2所述的方法，其特征在于，所述预设匹配条件为A_i的开始时刻与B_j的开始时刻之间的时间差在预设的第一阈值内，且A_i的结束时刻与息B_j的结束时刻之间的时间差在所述第一阈值内；或者，

所述预设匹配条件为A_i的开始时刻与B_j的开始时刻之间的时间差，加A_i的结束时刻与B_j的结束时刻之间的时间差的总和在预设的第二阈值内。

4.根据权利要求1所述的方法，其特征在于，所述将对应的匹配度最高的音轨，确定为所述目标音频数据的主旋律音轨，包括：

在对应的匹配度达到预设的匹配度阈值的音轨中，将对应的匹配度最高的音轨，确定为所述目标音频数据的主旋律音轨。

5.根据权利要求1-4中任一所述的方法，其特征在于，所述目标音频数据的格式为MIDI格式。

6.一种提取音频数据中主旋律音轨的装置，其特征在于，所述装置包括：

第一确定模块，用于提取目标音频数据中的多个音轨，确定在预设的有限时间范围内每个音轨中的人声时间段的时间段信息，得到每个音轨对应的时间段信息集合；

第二确定模块，用于在所述目标音频数据对应的歌词信息中，确定在所述有限时间范围内每句歌词的时间段信息，得到所述歌词信息对应的时间段信息集合；

7.根据权利要求6所述的装置，其特征在于，所述第三确定模块，包括：

查找单元，用于将所述歌词信息对应的时间段信息集合中的每个时间段信息A_i，依次与所述音轨对应的时间段信息集合中的每个时间段信息的开始时刻和结束时刻进行比对，查找与A_i满足预设匹配条件的时间段信息B_j，其中，i为1～n之间的整数，j为1～m之间的整数；

确定单元，用于将能够查找到对应的B_j的A_i的数目与所述歌词信息对应的时间段信息集合中的所有时间段信息的数目的比值，确定为所述音轨对应的时间段信息集合与所述歌词信息对应的时间段信息集合的匹配度。

8.根据权利要求7所述的装置，其特征在于，所述预设匹配条件为A_i的开始时刻与B_j的开始时刻之间的时间差在预设的第一阈值内，且A_i的结束时刻与息B_j的结束时刻之间的时间差在所述第一阈值内；或者，

9.根据权利要求6所述的装置，其特征在于，所述第四确定模块，还被配置为在对应的匹配度达到预设的匹配度阈值的音轨中，将对应的匹配度最高的音轨，确定为所述目标音频数据的主旋律音轨。

10.根据权利要求6-9中任一所述的装置，其特征在于，所述目标音频数据的格式为MIDI格式。

11.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至5任一所述的提取音频数据中主旋律音轨的方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至5任一所述的提取音频数据中主旋律音轨的方法。