CN106940996A

CN106940996A - 一种视频中背景音乐的识别方法和移动终端

Info

Publication number: CN106940996A
Application number: CN201710272182.1A
Authority: CN
Inventors: 俞丹凤; 沈健春
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-07-11

Abstract

本发明提供了一种视频中背景音乐的识别方法和移动终端，涉及互联网技术领域。本发明提供的视频中背景音乐的识别方法和移动终端，在对视频中背景音乐进行识别的时候，可以直接采集移动终端播放的视频中的音频数据作为待识别音频数据，进行识别。由于待识别音频数据是从终端内部采集的，采集的时候不会受到环境噪音以及播放效果的影响，保证了搜索依据的准确性，进而提高了对于视频中背景音乐识别的准确性。

Description

一种视频中背景音乐的识别方法和移动终端

技术领域

本发明涉及互联网技术领域，特别是涉及一种视频中背景音乐的识别方法和移动终端。

背景技术

随着互联网技术的不断发展，移动终端的使用越来越普遍。日常生活中，用户经常会使用移动终端观看视频。比如，用户利用手机来观看视频，为了渲染气氛，视频中经常会设置背景音乐。在观看视频的过程中，经常会出现，用户对该视频的背景音乐产生了兴趣，进而想要获知和该背景音乐有关的信息。

在先技术中，通常是用户以听到的该背景音乐的歌词作为搜索依据，来对该音乐进行识别，进而获取和该背景音乐有关的信息。示例的，张三在观看视频A的时候，听到此时背景音乐的歌词为“你下了念”，以该听到的歌词“你下了念”作为搜索关键词通过搜索引擎检索获得该背景音乐的歌名、演唱者、专辑等信息。

由于用户根据听到的音乐确定出的歌词受环境噪音、播放效果影响较大，导致听到的歌词不够清楚、准确，以此作为搜索依据，可能会造成识别结果不准确的问题。示例的，张三观看的视频A的时候，听到的背景音乐的歌词实际上是“雨下整夜”，那么以张三听到的“你下了念”作为搜索依据，就会出现识别不准确甚至识别失败的情况。

发明内容

本发明提供一种视频中背景音乐的识别方法和移动终端，以便解决对视频中背景音乐识别不准确的问题。

依据本发明的第一方面，提供了一种视频中背景音乐的识别方法，应用于移动终端，该方法包括：

接收背景音乐识别指令；

根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据；

对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

依据本发明的第二方面，提供了一种移动终端，该移动终端包括：

接收模块，用于接收背景音乐识别指令；

采集模块，用于根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据；

识别模块，用于对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

针对在先技术，本发明具备如下优点：

本发明实施例提供的视频中背景音乐的识别方法和移动终端，在对视频中背景音乐进行识别的时候，可以直接采集移动终端播放的视频中的音频数据作为待识别音频数据，进行识别。由于待识别音频数据是从终端内部采集的，采集的时候不会受到环境噪音以及播放效果的影响，保证了搜索依据的准确性，进而提高了对于视频中背景音乐识别的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一的视频中背景音乐的识别方法的流程图；

图2-1示出了本发明实施例二的视频中背景音乐的识别方法的流程图；

图2-2是本发明实施例二提供的一种用户界面的示意图；

图2-3是本发明实施例二提供的另一种用户界面的示意图；

图2-4是本发明实施例二提供的又一种用户界面的示意图；

图2-5是本发明实施例二提供的一种音频采集方法的流程图；

图2-6是本发明实施例二提供的再一种用户界面的示意图；

图2-7是本发明实施例二提供的一种识别方法的流程图；

图2-8是本发明实施例二提供的再一种用户界面的示意图；

图2-9是本发明实施例二提供的再一种用户界面的示意图；

图2-10是本发明实施例二提供的再一种用户界面的示意图；

图2-11是本发明实施例二提供的再一种用户界面的示意图；

图3本发明实施例提供的一种移动终端的框图；

图4-1是本发明实施例提供的另一种移动终端的框图；

图4-2是本发明实施例提供的又一种移动终端的框图；

图4-3是本发明实施例提供的一种采集模块的框图；

图4-4是本发明实施例提供的一种识别模块的框图；

图5是本发明又一个实施例的移动终端的框图；

图6是本发明又一个实施例的移动终端的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

参照图1，示出了本发明实施例一的视频中背景音乐的识别方法的流程图，该方法可以应用于移动终端，该移动终端可以为智能手机、电脑、多媒体播放器等可以进行视频播放的设备。当用户通过移动终端进行视频观看时，想对该视频中的背景音乐进行识别的时候，可以通过该方法来实现，具体的，该方法可以包括如下步骤：

步骤101、接收背景音乐识别指令。

该背景音乐识别指令可以是用户通过触发背景音乐识别功能所产生的指令，用户触发背景音乐识别功能的方式，本发明实施例不做限定。用户通过触发背景音乐识别功能，产生背景音乐识别指令之后，移动终端可以接收该背景音乐识别指令。

步骤102、根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据。

该背景音乐识别指令可以指示移动终端对当前视频中的背景音乐进行识别。移动终端可以根据该背景音乐识别指令，采集移动终端播放的视频中的音频，其中，该采集到的音频数据中包括了视频中的背景音乐。

步骤103、对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

其中，该待识别音频数据的音频属性可以是该待识别音频数据的相关信息，例如，该音频数据的音频名称、音频所属专辑、音频的播放链接地址以及音频歌词等。

综上所述，本发明实施例提供的视频中背景音乐的识别方法，在对视频中背景音乐进行识别的时候，可以直接采集移动终端播放的视频中的音频数据作为待识别音频数据，进行识别。由于待识别音频数据是从终端内部采集的，采集的时候不会受到环境噪音以及播放效果的影响，保证了搜索依据的准确性，进而提高了对于视频中背景音乐识别的准确性。

实施例二

参照图2-1，示出了本发明实施例二的视频中背景音乐的识别方法的流程图，具体的，可以包括如下步骤：

步骤201、接收背景音乐识别指令。

该背景音乐识别指令是用户在进行视频观看时，通过触发背景音乐识别功能所产生的指令，用户触发背景音乐识别功能的方式，本发明实施例不做限定，本发明实施例中以以下两种可实现方式进行说明：

第一种可实现方式：背景音乐识别功能可以通过按钮触发，其中，该按钮触发可以为虚拟按钮触发，也可以为实体按钮触发。

通过虚拟按钮触发的时候，可以在视频播放界面中显示一个背景音乐识别按钮，用户在需要对当前视频中的背景音乐进行识别时，可以点击该背景音乐识别按钮，触发背景音乐识别功能，生成背景音乐识别指令。图2-2是本发明实施例二提供的一种用户界面的示意图，参见图2-2，该用户界面中包括：当前视频播放界面00，位于当前视频播放界面00右上角的背景音乐识别按钮01，该背景音乐识别按钮01可以为图2-2中所示的M形状的按钮。用户可以点击该背景音乐识别按钮01，触发背景音乐识别功能，生成背景音乐识别指令，无需退出视频播放界面，即触发对视频背景音乐的识别。需要说明的是，图2-2中的用户界面只是举例说明，实际应用中，用户界面所显示的背景音乐识别按钮的位置以及形状可以根据具体情况设置，本发明实施例对此不作限定。

示例的，还可以在视频播放界面之外的界面中设置背景音乐识别按钮，，例如，可以在移动终端的状态栏中显示一个背景音乐识别按钮，用户在需要对当前视频中的背景音乐进行识别时，可以下拉状态栏，然后点击该背景音乐识别按钮，触发背景音乐识别功能，生成背景音乐识别指令。图2-3是本发明实施例二提供的另一种用户界面的示意图，参见图2-3，该用户界面中包括：状态栏02，位于状态栏02中的背景音乐识别按钮01，该背景音乐识别按钮01可以为图2-3中所示的M形状的按钮。用户可以点击该背景音乐识别按钮01，触发背景音乐识别功能，生成背景音乐识别指令。

通过实体按钮触发的时候，可以利用移动终端上的实体按钮的组合来触发。示例的，可以设置同时按下移动终端的电源键和音量加键时，触发移动终端显示一个浮动窗口，该浮动窗口中可以显示一个背景音乐识别按钮，用户可以点击该背景音乐识别按钮，触发背景音乐识别功能。图2-4是本发明实施例二提供的又一种用户界面的示意图，参见图2-4，该用户界面中包括：当前视频播放界面00，浮动窗口03，位于浮动窗口03中的背景音乐识别按钮01，该背景音乐识别按钮01可以为图2-4中所示的M形状的按钮。用户可以点击该背景音乐识别按钮01，触发背景音乐识别功能，生成背景音乐识别指令，如果用户想要取消背景音乐识别操作，可以通过点击浮动窗口03中的关闭按钮04来取消。需要说明的是，图2-4中的用户界面只是举例说明，实际应用中，用户界面所显示的各个内容的形状以及位置，均可根据具体情况设置，本发明实施例对此不作限定。实际应用中，还可以设置同时按下移动终端的电源键和音量加键时，直接触发移动终端的背景音乐识别功能，生成背景音乐识别指令。本发明实施例对于具体的实体按钮组合不作限定，只要能起到触发作用即可。例如，还可以设置：同时按下移动终端的电源键和音量减键时，触发移动终端的背景音乐识别功能。

第二种可实现方式：背景音乐识别功能还可以通过语音触发，在视频应用的后台***一个语音识别软件，识别用户的语音，当用户的语音中包含预设词语时，触发背景音乐识别功能，例如，该预设词语为“进行背景音乐识别”。

步骤202、根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据。

其中，该移动终端包括音频硬件抽象层以及音频硬件单元。一般，移动终端的音频***中，通常是，通过该音频硬件抽象层来实现对音频硬件单元的操作。示例的，该音频硬件抽象层可以调用标准接口，来实现对音频硬件单元的操作。

示例的，图2-5是本发明实施例二提供的一种音频采集方法的流程图，如图2-5所示，步骤202可以包括：

步骤2021、通过所述音频硬件抽象层对所述音频硬件单元中的音频数据流进行采集。

其中，该音频数据流即为移动终端播放的视频中的音频数据流。

步骤2022、将所述采集到的音频数据流确定为待识别音频数据。

该待识别音频数据可以包括第一音频数据和第二音频数据。该第一音频数据可以为背景音乐，该第二音频数据可以为演员的对白、旁白、以及音效中的至少一种。其中，该音效可以为视频中动物的叫声、机器的轰鸣声或者自然界中的声音等等。在视频中，除背景音乐和演员对话之外的所有其他声音，都可以确定为该音效，本发明实施例对此不作限定。

实际应用中，视频中往往包含了多种声音，视频在播放背景音乐的时候，通常也会伴随有其他的声音，例如，演员的对话、小鸟的鸣叫、风声、水流声等等。因此，采集到的待识别音频数据中会同时包括第一音频数据和第二音频数据。

步骤203、分离所述待识别音频数据中的所述第二音频数据或降低所述待识别音频数据中的所述第二音频数据的频率。

当采集到的待识别音频数据为多声道音频数据，可以分离待识别音频数据中的第二音频数据。多声道音频数据中存在和第一音频数据对应的第一音频轨道以及和第二音频数据对应的第二音频轨道。在分离的时候，可以将第二音频轨道提取出来，完成分离操作。

当采集到的待识别音频数据为混缩的多声道音频数据时，可以降低待识别音频数据中的第二音频数据的频率。由于该多声道音频数据是混缩在一起的，这种情况下，无法通过提取音轨的方式来分离第二音频数据。此时，可以对第二音频数据进行频率衰减，进而降低待识别音频数据中的第二音频数据的频率。

在对背景音乐识别的时候，是以采集到的待识别音频数据作为识别依据，来进行识别的。由于待识别音频数据中同时包括了第一音频数据和第二音频数据，而识别操作的主要对象是第一音频数据，即，视频中背景音乐，所以第二音频数据会对识别操作产生一定的干扰，导致识别操作不准确。本发明实施例先对待识别音频数据中第二音频数据进行分离或者降低，然后再对待识别音频进行识别，减弱了第二音频数据造成的干扰，进而可以提高识别的准确度。

步骤204、对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

图2-6是本发明实施例二提供的再一种用户界面的示意图，该用户界面示意图片是移动终端对待识别音频数据进行识别时，显示的用户界面示意图。参见图2-6，该用户界面中包括：当前视频播放界面00，位于当前视频播放界面00中的“正在识别”的提示窗口05，该提示窗口05可以用来表示识别操作正在进行。

本发明实施例中的音频属性可以包括音频名称、音频所属专辑、音频的播放链接地址以及音频歌词。实际应用中，该音频属性还可以包括其他信息，例如，演唱该音频的歌手信息、音频所述专辑封面等，本发明实施例对此不作限定。图2-7是本发明实施例二提供的一种识别方法的流程图，如图2-7所示，步骤204可以包括：

步骤2041、从预设数据库中查找与所述待识别音频数据相匹配的目标音频数据。

其中，该预设数据库中存储有至少一个音频数据，以及与所述每一个音频数据对应的音频属性。实际应用中，该预设数据库中还可以存储有音频数据的特征信息以及音频数据的标识信息等，本发明实施例对此不作限定。

具体的，在进行查找的时候，可以通过特征信息比对的方式来查找，该特征信息可以是音频数据的音频指纹。音频指纹是可以代表音频数据的重要声学特征，且基于该音频数据内容的紧致数字签名，一个音频数据对应一个音频指纹。在进行识别的时候，可以先计算该待识别音频数据的第一特征信息，然后在预设数据库中查找和该第一特征信息相匹配第二特征信息，将该第二特征信息对应的音频数据，确定为目标音频数据。

步骤2042、若查找成功，获取所述目标音频数据的音频属性，将所述目标音频数据的音频属性作为所述待识别音频数据的音频属性并进行显示。

一般情况下，视频中的背景音乐可以为有歌词的背景音乐，也可以为无有歌词背景音乐。示例的，步骤2042可以包括：

步骤2042a、当所述背景音乐为有歌词的背景音乐时，将所述目标音频数据的音频歌词与所述移动终端当前正在播放的视频中背景音乐进行同步匹配显示。

其中，本发明实施例中的同步匹配显示可以是根据视频当前背景音乐的演唱进度，将音频歌词进行同步显示。这样，用户可以通过显示的歌词确认识别的准确性，同时同步显示的歌词不会影响当前视频的播放产生影响，保证了用户的观看体验。

例如，当背景音乐演唱到“到想象的地方穿越了时光”的时候，此时可以将该句“到想象的地方穿越了时光”显示在当前视频播放界面中。图2-8是本发明实施例二提供的再一种用户界面的示意图，参见图2-8，该用户界面中包括：当前视频播放界面00，位于当前视频播放界面00中的歌词框06，该歌词框06中显示着和当前视频中背景音乐相对应的当前歌词“到想象的地方穿越了时光”，歌词框06中还包括重新识别按钮07，该重新识别按钮可以为图2-8中所示的R形状按钮，如果用户发现当前显示的歌词有误，仅通过点击该重新识别按钮07就可以进行重新识别，简化了重新识别的操作过程。如果用户想要取消歌词显示，可以通过点击歌词框06中的关闭按钮04来关闭。

当背景音乐演唱到下一句“来我们坐上时光机”的时候，此时可以将该句“来我们坐上时光机”显示在当前视频播放界面中。图2-9是本发明实施例二提供的再一种用户界面的示意图，参见图2-9，该用户界面中包括：当前视频播放界面00，位于当前视频播放界面00中的歌词框06，该歌词框06中显示着和当前视频中背景音乐相对应的当前歌词“来我们坐上时光机”，歌词框06中还包括重新识别按钮07，该重新识别按钮可以为图2-9中所示的R形状按钮，如果用户发现当前显示的歌词有误，仅通过点击该重新识别按钮07就可以进行重新识别，简化了重新识别的操作过程。如果用户想要取消歌词显示，可以通过点击歌词框06中的关闭按钮04来关闭。这样，将音频歌词和背景音乐同步显示，可以方便用户观看。

实际应用中，还可以在同步显示歌词的同时，显示“查看具体信息”选项，用户可以通过点击该“查看具体信息”来查看和背景音乐的具体信息需要说明的是，上述的显示方式仅为本发明实施例一种示意性方式，在本发明另一可选实施例中，还可以是，在识别成功之后，跳转至识别成功界面，在该识别成功界面中显示该有歌词的背景音乐的音频名称、音频专辑、音频播放链接地址以及音频歌词。

步骤2042b、当所述背景音乐为无歌词的背景音乐时，将所述目标音频数据的音频名称、音频所属专辑、音频的播放链接地址进行显示。

该无歌词的背景音乐可以为一段纯音乐。示例的，在识别成功之后，可以直接将该纯音乐的名称，所属的专辑，以及播放链接地址显示在当前播放界面中，图2-10是本发明实施例二提供的再一种用户界面的示意图，参见图2-10，该用户界面中包括：当前视频播放界面00，位于当前视频播放界面00中的识别成功窗口08，该识别成功窗口08中显示着和当前视频中背景音乐相对应的音频名称、音频所属专辑以及播放链接地址。如果用户想要取消识别成功窗口08的显示，可以通过点击识别成功窗口08中的关闭按钮04来关闭。也可以跳转至识别成功界面，在识别成功界面中进行显示。

步骤2043、若查找失败，显示是否重新识别标识。

如果未识别成功，即就是，查找失败，可以在视频播放界面中显示一个“是否重新识别标识”，该标识可以用来提醒用户当前识别操作失败，是否需要对重新识别。图2-11是本发明实施例二提供的再一种用户界面的示意图，参见图2-11，该用户界面中包括：当前视频播放界面00，位于当前视频播放界面00中的是否重新识别标识09，该是否重新识别标识09中包括“是”选项10和“否”选项11。当用户需要对该背景音乐进行重新识别的时候，可以通过点击该标识中的“是”选项10，来实现重新识别。如果用户不需要对该背景音乐进行重新识别，可以通过点击“否”选项11，来结束识别操作，继续观看视频。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必需的。

实施例三

图3是本发明实施例提供的一种移动终端的框图，如图3所示，该移动终端30可以包括：

接收模块301，用于接收背景音乐识别指令。

采集模块302，用于根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据。

识别模块303，用于对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

综上所述，本发明实施例提供的移动终端，在对视频中背景音乐进行识别的时候，可以直接采集移动终端播放的视频中的音频数据作为待识别音频数据，进行识别。由于待识别音频数据是从终端内部采集的，采集的时候不会受到环境噪音以及播放效果的影响，保证了搜索依据的准确性，进而提高了对于视频中背景音乐识别的准确性。

实施例四

图4-1是本发明实施例提供的另一种移动终端的框图，如图4-1所示，该移动终端40可以包括：

接收模块401，用于接收背景音乐识别指令。

采集模块402，用于根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据。

识别模块403，用于对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

图4-2是本发明实施例提供的又一种移动终端的框图，如图4-2所示，该移动终端40可以包括：接收模块401、采集模块402、识别模块403以及分离模块404。

接收模块401，用于接收背景音乐识别指令。

分离模块404，用于分离所述待识别音频数据中的第二音频数据或降低所述待识别音频数据中的所述第二音频数据的频率。

可选的，图4-3是本发明实施例提供的一种采集模块的框图，如图4-3所示，该采集模块402可以包括：

采集子模块4021，用于通过所述音频硬件抽象层对所述音频硬件单元中的音频数据流进行采集。

确定子模块4022，用于将所述采集到的音频数据流确定为待识别音频数据。

可选的，图4-4是本发明实施例提供的一种识别模块的框图，如图4-4所示，该识别模块403可以包括：

查找子模块4031，用于从预设数据库中查找与所述待识别音频数据相匹配的目标音频数据，其中，所述预设数据库中存储至少一个音频数据，以及与所述每一个音频数据对应的音频属性。

获取子模块4032，用于若查找成功，获取所述目标音频数据的音频属性，将所述目标音频数据的音频属性作为所述待识别音频数据的音频属性并进行显示。

显示子模块4033，用于若查找失败，显示是否重新识别标识。

可选的，上述获取子模块4032，还可以用于：

当所述背景音乐为有歌词的背景音乐时，将所述目标音频数据的音频歌词与所述移动终端当前正在播放的视频中背景音乐进行同步匹配显示。

当所述背景音乐为无歌词的背景音乐时，将所述目标音频数据的音频名称、音频所属专辑、音频的播放链接地址进行显示。

实施例五

图5是本发明另一个实施例的移动终端的框图。图5所示的移动终端500包括：至少一个处理器501、存储器502、至少一个网络接口504和用户接口503。移动终端500中的各个组件通过总线***505耦合在一起。可理解，总线***505用于实现这些组件之间的连接通信。总线***505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线***505。

其中，用户接口503可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者柔性屏等。

可以理解，本发明实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本发明实施例描述的***和方法的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器502存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作***5021和应用程序5022。

其中，操作***5021，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。

在本发明实施例中，通过调用存储器502存储的程序或指令，具体的，可以是应用程序5022中存储的程序或指令，处理器501用于接收背景音乐识别指令，根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据，对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，所述移动终端包括音频硬件抽象层以及音频硬件单元，所述处理器501还用于：通过所述音频硬件抽象层对所述音频硬件单元中的音频数据流进行采集，将所述采集到的音频数据流确定为待识别音频数据。

可选地，所述待识别音频数据包括第一音频数据和第二音频数据，其中，所述第一音频数据为所述视频中的背景音乐，所述第二音频数据为所述视频中的演员对白、旁白以及音效中的至少一种，所述处理器501还用于：分离所述待识别音频数据中的所述第二音频数据或降低所述待识别音频数据中的所述第二音频数据的频率。

可选地，所述处理器501还用于：从预设数据库中查找与所述待识别音频数据相匹配的目标音频数据，其中，所述预设数据库中存储至少一个音频数据，以及与所述每一个音频数据对应的音频属性，若查找成功，获取所述目标音频数据的音频属性，将所述目标音频数据的音频属性作为所述待识别音频数据的音频属性并进行显示，若查找失败，显示是否重新识别标识。

可选地，所述音频属性包括音频名称、音频所属专辑、音频的播放链接地址以及音频歌词中的至少一种，所述处理器501还用于：当所述背景音乐为有歌词的背景音乐时，将所述目标音频数据的音频歌词与所述移动终端当前正在播放的视频中背景音乐进行同步匹配显示，当所述背景音乐为无歌词的背景音乐时，将所述目标音频数据的音频名称、音频所属专辑、音频的播放链接地址进行显示。

移动终端500能够实现前述实施例中移动终端实现的各个过程，为避免重复，这里不再赘述。本发明实施例中，移动终端500可以在对视频中背景音乐进行识别的时候，直接采集移动终端播放的视频中的音频数据作为待识别音频数据，进行识别。由于待识别音频数据是从终端内部采集的，采集的时候不会受到环境噪音以及播放效果的影响，保证了搜索依据的准确性，进而提高了对于视频中背景音乐识别的准确性。

实施例六

图6是本发明另一个实施例的移动终端的结构示意图。具体地，图6中的移动终端600可以为手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、或车载电脑等。

图6中的移动终端600包括射频(Radio Frequency，RF)电路610、存储器620、输入单元630、显示单元640、处理器660、音频电路670、无线局域网(Wireless Fidelity)模块680和电源690。

其中，输入单元630可用于接收用户输入的数字或字符信息，以及产生与移动终端600的用户设置以及功能控制有关的信号输入。具体地，本发明实施例中，该输入单元630可以包括触控面板631。触控面板631，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给该处理器660，并能接收处理器660发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

其中，显示单元640可用于显示由用户输入的信息或提供给用户的信息以及移动终端600的各种菜单界面。显示单元640可包括显示面板641，可选的，可以采用LCD或有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板641。

应注意，触控面板631可以覆盖显示面板641，形成触摸显示屏，当该触摸显示屏检测到在其上或附近的触摸操作后，传送给处理器660以确定触摸事件的类型，随后处理器660根据触摸事件的类型在触摸显示屏上提供相应的视觉输出。

触摸显示屏包括应用程序界面显示区及常用控件显示区。该应用程序界面显示区及该常用控件显示区的排列方式并不限定，可以为上下排列、左右排列等可以区分两个显示区的排列方式。该应用程序界面显示区可以用于显示应用程序的界面。每一个界面可以包含至少一个应用程序的图标和/或widget桌面控件等界面元素。该应用程序界面显示区也可以为不包含任何内容的空界面。该常用控件显示区用于显示使用率较高的控件，例如，设置按钮、界面编号、滚动条、电话本图标等应用程序图标等。

其中处理器660是移动终端600的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在第一存储器621内的软件程序和/或模块，以及调用存储在第二存储器622内的数据，执行移动终端600的各种功能和处理数据，从而对移动终端600进行整体监控。可选的，处理器660可包括一个或多个处理单元。

在本发明实施例中，通过调用存储该第一存储器621内的软件程序和/或模块和/或该第二存储器622内的数据，处理器660用于接收背景音乐识别指令，根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据，对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示。

可选地，所述移动终端包括音频硬件抽象层以及音频硬件单元，所述处理器660还用于：通过所述音频硬件抽象层对所述音频硬件单元中的音频数据流进行采集，将所述采集到的音频数据流确定为待识别音频数据。

可选地，所述待识别音频数据包括第一音频数据和第二音频数据，其中，所述第一音频数据为所述视频中的背景音乐，所述第二音频数据为所述视频中的演员对白、旁白以及音效中的至少一种，所述处理器660还用于：分离所述待识别音频数据中的所述第二音频数据或降低所述待识别音频数据中的所述第二音频数据的频率。

可选地，所述处理器660还用于：从预设数据库中查找与所述待识别音频数据相匹配的目标音频数据，其中，所述预设数据库中存储至少一个音频数据，以及与所述每一个音频数据对应的音频属性，若查找成功，获取所述目标音频数据的音频属性，将所述目标音频数据的音频属性作为所述待识别音频数据的音频属性并进行显示，若查找失败，显示是否重新识别标识。

可选地，述音频属性包括音频名称、音频所属专辑、音频的播放链接地址以及音频歌词中的至少一种，所述处理器660还用于：当所述背景音乐为有歌词的背景音乐时，将所述目标音频数据的音频歌词与所述移动终端当前正在播放的视频中背景音乐进行同步匹配显示，当所述背景音乐为无歌词的背景音乐时，将所述目标音频数据的音频名称、音频所属专辑、音频的播放链接地址进行显示。可见，本发明实施例中，移动终端600可以在对视频中背景音乐进行识别的时候，直接采集移动终端播放的视频中的音频数据作为待识别音频数据，进行识别。由于待识别音频数据是从终端内部采集的，采集的时候不会受到环境噪音以及播放效果的影响，保证了搜索依据的准确性，进而提高了对于视频中背景音乐识别的准确性。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的视频中背景音乐的识别方法不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频中背景音乐的识别方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种视频中背景音乐的识别方法，应用于移动终端，其特征在于，所述方法包括：

接收背景音乐识别指令；

2.根据权利要求1所述的方法，其特征在于，所述移动终端包括音频硬件抽象层以及音频硬件单元；

所述根据所述背景音乐识别指令，对播放的视频进行音频采集，将采集到的音频数据作为待识别音频数据的步骤，包括：

通过所述音频硬件抽象层对所述音频硬件单元中的音频数据流进行采集；

将所述采集到的音频数据流确定为待识别音频数据。

3.根据权利要求1所述的方法，其特征在于，所述待识别音频数据包括第一音频数据和第二音频数据，其中，所述第一音频数据为所述视频中的背景音乐，所述第二音频数据为所述视频中的演员对白、旁白以及音效中的至少一种；

在所述对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示的步骤之前，所述方法还包括：

分离所述待识别音频数据中的所述第二音频数据或降低所述待识别音频数据中的所述第二音频数据的频率。

4.根据权利要求1所述的方法，其特征在于，所述对所述待识别音频数据进行识别，获取所述待识别音频数据的音频属性并进行显示的步骤，包括：

从预设数据库中查找与所述待识别音频数据相匹配的目标音频数据，其中，所述预设数据库中存储至少一个音频数据，以及与所述每一个音频数据对应的音频属性；

若查找成功，获取所述目标音频数据的音频属性，将所述目标音频数据的音频属性作为所述待识别音频数据的音频属性并进行显示；

若查找失败，显示是否重新识别标识。

5.根据权利要求4所述的方法，其特征在于，所述音频属性包括音频名称、音频所属专辑、音频的播放链接地址以及音频歌词中的至少一种；

所述将所述目标音频数据的音频属性作为所述待识别音频数据的音频属性并进行显示的步骤，包括：

当所述背景音乐为有歌词的背景音乐时，将所述目标音频数据的音频歌词与所述移动终端当前正在播放的视频中背景音乐进行同步匹配显示；

6.一种移动终端，其特征在于，所述移动终端包括：

接收模块，用于接收背景音乐识别指令；

7.根据权利要求6所述的移动终端，其特征在于，所述采集模块，包括：

采集子模块，用于通过所述音频硬件抽象层对所述音频硬件单元中的音频数据流进行采集；

确定子模块，用于将所述采集到的音频数据流确定为待识别音频数据。

8.根据权利要求6所述的移动终端，其特征在于，所述移动终端还包括：

分离模块，用于分离所述待识别音频数据中的第二音频数据或降低所述待识别音频数据中的所述第二音频数据的频率。

9.根据权利要求6所述的移动终端，其特征在于，所述识别模块，包括：

查找子模块，用于从预设数据库中查找与所述待识别音频数据相匹配的目标音频数据，其中，所述预设数据库中存储至少一个音频数据，以及与所述每一个音频数据对应的音频属性；

获取子模块，用于若查找成功，获取所述目标音频数据的音频属性，将所述目标音频数据的音频属性作为所述待识别音频数据的音频属性并进行显示；

显示子模块，用于若查找失败，显示是否重新识别标识。

10.根据权利要求9所述的移动终端，其特征在于，所述获取子模块，用于：