CN103747277A

CN103747277A - 一种多媒体节目识别方法和装置

Info

Publication number: CN103747277A
Application number: CN201410012734.1A
Authority: CN
Inventors: 李鹏; 陆承恩; 黄晓敏; 赵光玉
Original assignee: KUYUN INTERACTIVE TECHNOLOGY Ltd
Current assignee: KUYUN INTERACTIVE TECHNOLOGY Ltd
Priority date: 2014-01-10
Filing date: 2014-01-10
Publication date: 2014-04-23

Abstract

本发明公开了一种多媒体节目识别方法，所述方法包括：获取关于目标多媒体节目的音频水印和音频指纹；将所述音频水印与预设的音频水印样本进行匹配，获得第一匹配结果，以及将所述音频指纹与预设的音频指纹样本进行匹配，获得第二匹配结果；通过预设的混合模型合并所述第一匹配结果与所述第二匹配结果，获得第三匹配结果；根据所述第三匹配结果获得所述目标多媒体节目的识别结果。通过音频水印与音频指纹相结合，达到快速而准确的音频匹配与识别的目的。本发明还公开了用于实现上述方法的装置。

Description

一种多媒体节目识别方法和装置

技术领域

本发明涉及多媒体信息技术领域，尤其涉及一种多媒体节目识别方法和装置。

背景技术

随着信息技术的发展，人们可以通过多种途径浏览多媒体信息，例如在线观看视频、电视节目等等。人们也希望能够在浏览多媒体内容的同时，获得更多与多媒体内容相关的信息。为了能够获取多媒体内容相关的信息，首先需要对多媒体节目进行识别。

声印码（Audio Watermarking Code）是一种音频水印技术，通常是在音频的频谱中嵌入一段不影响人耳听觉的信息，该信息可以从音频文件或通过录音设备解析出来。音频水印可以用于版权保护，以及嵌入标题信息等。而音频指纹是指从音频中提取的特征信息的技术，与音频水印技术的区别的关键在于：水印技术是将信息嵌入到音频中，而音频指纹技术则是从音频中提取特征指纹。

本发明的发明人发现，音频水印技术需要改变原始音频的数据，虽然对人耳听觉感官的影响较小，但是降低了音频的质量，而且必须对音频嵌入水印信息，因此降低了应用的范围。

而音频指纹技术是从原始音频中提取信息，不会对原始的音频做任何修改，因此不影响原始音频的质量，其缺点是识别时间略长，一般需要大于5秒的时间，并且精度与稳定性不如音频水印技术。

发明内容

本发明实施例提供一种多媒体节目识别方法和装置，通过音频水印与音频指纹相结合，达到快速而准确的音频匹配与多媒体节目识别的目的。

为达上述目的，本发明实施例采用以下技术方案：

一种多媒体节目识别方法，所述方法包括：

获取关于目标多媒体节目的音频水印和音频指纹；

将所述音频水印与预设的音频水印样本进行匹配，获得第一匹配结果，以及将所述音频指纹与预设的音频指纹样本进行匹配，获得第二匹配结果；

通过预设的混合模型合并所述第一匹配结果与所述第二匹配结果，获得第三匹配结果；

根据所述第三匹配结果获得所述目标多媒体节目的识别结果

通过音频指纹与音频水印的结合对目标多媒体节目进行音频识别，匹配出与目标多媒体节目对应的多媒体文件信息，达到快速而准确的音频匹配与识别的效果。

所述方法还包括：根据所述目标多媒体节目的识别结果，获取与所述目标多媒体节目对应的关联信息。以实现与多媒体信息相关的信息推送。

由终端设备或服务器实现所述方法。可以在线或离线方式进行音频识别处理。

由终端实现所述方法；所述方法还包括：输出表示是否展示关联信息的提示信息；接收输入的确认指令；根据收到的确认指令，展示所述关联信息。根据用户需求呈现关联信息。

所述获取关于目标多媒体节目的音频水印和音频指纹包括：采集所述目标多媒体节目的音频数据，从所述目标多媒体节目的音频数据中获取所述多媒体节目的音频水印和音频指纹，或录制所述目标多媒体节目播放时的音频，以获取所述目标多媒体节目的音频水印和音频指。

通过预设的混合模型合并第一匹配结果与第二匹配结果，获得第三匹配结果，包括：通过可训练混合模型合并第一匹配结果与第二匹配结果。有利于保持匹配结果的准确度。

一种多媒体节目识别装置，所述装置包括：

第一获取模块，用于获取关于目标多媒体节目的音频水印和音频指纹；

匹配模块，用于将所述音频水印与预设的音频水印样本进行匹配，获得第一匹配结果，以及将所述音频指纹与预设的音频指纹样本进行匹配，获得第二匹配结果；

合并模块，用于通过预设的混合模型合并所述第一匹配结果与所述第二匹配结果，获得第三匹配结果；

获得模块，根据所述第三匹配结果获得所述目标多媒体节目的识别结果。

所述装置还包括：第二获取模块，用于根据所述目标多媒体节目的识别结果，获取与所述目标多媒体节目对应的关联信息。

所述装置还包括：提示模块，用于输出表示是否展示关联信息的提示信息接收模块，用于接收输入的确认指令；展示模块，用于根据收到的确认指令，展示所述关联信息。

所述第一获取模块包括：采集单元，用于采集所述目标多媒体节目的音频数据，从所述目标多媒体节目的音频数据中获取所述多媒体节目的音频水印和音频指纹；

录制单元，用于录制所述目标多媒体节目播放时的音频，以获取所述目标多媒体节目的音频水印和音频指纹。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施例一提供的一种多媒体节目识别方法的流程示意图；

图2是本发明实施例二提供的一种多媒体节目识别方法的流程示意图；

图3是本发明实施例三提供的一种多媒体节目识别方法的流程示意图；

图4是本发明实施例一提供的一种多媒体节目识别装置的结构示意图；

图5是本发明实施例二提供的一种多媒体节目识别装置的结构示意图；

图6是本发明实施例三提供的一种多媒体节目识别装置的结构示意图；

图7是本发明实施例三中第一获取模块的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是本发明实施例一提供的一种多媒体节目识别方法，该方法包括：

S101，获取关于目标多媒体节目的音频水印和音频指纹。

目标多媒体节目是需要进行音频识别的多媒体节目，在本步骤中获取该目标多媒体节目的音频数据中的音频水印和音频指纹。

S102，将音频水印与预设的音频水印样本进行匹配，获得第一匹配结果，以及将音频指纹与预设的音频指纹样本进行匹配，获得第二匹配结果。

本步骤中，将S101中抽取的目标多媒体节目的音频水印与数据库中的音频水印样本进行匹配，获得关于音频水印的第一匹配结果；将S101中抽取的目标多媒体节目的音频指纹与数据库中的音频指纹样本进行匹配，获得关于音频指纹的第二匹配结果。第一匹配结果和第二匹配结果分别以音频水印匹配度和音频指纹匹配度来表示。

在本实施例中，预设的音频水印样本和音频指纹样本可以存储在数据库中。其中音频水印样本可以与多媒体节目预设相应的关联关系。在多媒体节目制作过程中，按照上述的关联关系，将音频水印嵌入到关联的多媒体节目的数据流中，并将与各多媒体节目与音频水印的关联关系存储到数据库中。另外，还可以是在多媒体节目播出过程中，例如针对电视节目的直播场景，在电视节目直播过程中，采用在线的方式，实时将音频水印嵌入到电视节目的直播数据流中，该嵌入音频水印的方式，既可以是为每一个电视节目设置一个关联的音频水印样本，也可以是为每一个电视频道设置一个关联的音频水印样本。

在本实施例中，其中的音频水印样本可以直接与多媒体节目关联，上述第一匹配结果表示目标多媒体节目与音频水印样本所关联的多媒体节目的匹配度。或者是在针对电视节目的直播场景，上述不同的电视频道使用不同的音频水印样本，上述第一匹配结果表示的是目标电视频道与音频水印样本所关联的电视频道的匹配度，由于可以得到各电视频道的节目表，因此在得到关联的电视频道的情况下，可以根据该电视频道的节目表获取该电视频道上播出的电视节目。

针对音频指纹样本，也可以预先从多媒体节目的音频数据中提出特征指纹，得到各多媒体节目的音频指纹样本，并存储到数据库中。上述的方式可以适用于能够提前获得多媒体节目的应用场景中，例如，针对电视节目的直播场景，可以由后台服务器实时采集各个电视频道播出的电视节目的音频数据，并提取各电视频道的音频指纹样本，将上述实时得到的各电视频道的音频指纹样本存储到数据库中。

在本实施例中，音频指纹样本可以直接与具体的多媒体节目关联，上述第二匹配结果表示目标多媒体节目与音频指纹样本所关联的多媒体节目的匹配度。或者是在针对电视节目的直播场景中，由后台服务器实时采集各电视频道的音频指纹样本，上述第二匹配结果表示目标电视频道与音频指纹样本所关联的电视频道的匹配度，由于可以得到各电视频道的节目表，因此在得到关联的电视频道的情况下，可以根据该电视频道的节目表获取该电视频道上播出的电视节目。

S103，通过预设的混合模型合并第一匹配结果与第二匹配结果，获得第三匹配结果。

通过预设混合模型合并第一匹配结果和第二匹配结果，可以为音频水印匹配度和音频指纹匹配度分别预设一个最佳参数，作为各自的权重值，以对两者的匹配度进行合并，得到一个合并匹配度作为第三匹配结果。

例如为音频水印匹配度A预设最佳参数α，为音频指纹匹配度B预设最佳参数β，那么作为第三匹配结果的合并匹配度C=α A+β B。通过合并匹配度来判定能够与音频数据匹配的多媒体文件。

采用上述预设的最佳参数时，随着时间的推移，电视和网络中播出的多媒体文件的在不断更新，如果该最佳参数的数据一直保持不变，其所代表的音频水印匹配度和音频指纹匹配度的权重值的准确度会降低，需要人工对该最佳参数重新设置。为保证计算出的合并匹配度的准确性，在本发明另一个实施例中，预设的混合模型为可训练的混合模型，随着电视和网络中播出的多媒体文件的在更新，数据库采集的音频水印样本和音频指纹样本也在不断更新，该可训练的混合模型会不断改变最佳参数的取值。该最佳参数的取值可通过线性回归的方式取得线性最优解，此时可训练的混合模型可以采用线性回归模型，例如LibSVM（Lib支持向量机）模型、Logistic Regression（逻辑回归）模型等。采用可训练的混合模型，可保证最佳参数随着音频指纹样本与音频水印样本的更新而不断变化，保持合并匹配度的准确性。

S104，根据第三匹配结果获得目标多媒体节目的识别结果。

根据作为第三匹配结果的合并匹配度判定能够与目标多媒体节目匹配的多媒体节目。例如，如果合并匹配结果大于预设阈值，则目标多媒体节目能够与该组音频水印样本和音频指纹样本标识的多媒体节目匹配，从而获得该多媒体节目作为目标多媒体节目的识别结果。

上述S101-S104的处理过程实现了对目标多媒体节目进行音频识别，通过音频水印与音频指纹相结合，匹配出与该目标多媒体节目对应的多媒体文件信息。其中，第三匹配度综合考虑第一匹配度和第二匹配度的影响，在其中任一项匹配度较高的情况下，都可以确保匹配到正确的多媒体节目。

上述匹配过程可以在终端设备进行，也可以在特定的节目识别服务器进行，在节目识别服务器上进行匹配时，是通过获取终端设备发送的目标多媒体节目的音频水印和音频指纹，然后进行匹配和混合处理，并最后获得识别结果后，向终端设备反馈匹配到的多媒体节目信息作为该目标多媒体节目的识别结果。

本发明实施例一，通过音频指纹与音频水印的结合对目标多媒体节目进行音频识别，匹配出与对应的多媒体节目信息，达到快速而准确的音频匹配与识别的效果。

图2是本发明实施例二提供的一种多媒体节目识别方法，该方法包括：

S201，获取关于目标多媒体节目的音频水印和音频指纹。与S101实现过程相同，在此不作重复说明。

S202，将音频水印与预设的音频水印样本进行匹配，获得第一匹配结果，以及将音频指纹与预设的音频指纹样本进行匹配，获得第二匹配结果。与S102实现过程相同，在此不作重复说明。

S203，通过预设的混合模型合并第一匹配结果与第二匹配结果，获得第三匹配结果。与S103实现过程相同，在此不作重复说明。

S204，根据第三匹配结果获得目标多媒体节目的识别结果。与S104实现过程相同，在此不作重复说明。

S205，根据所述目标多媒体节目的识别结果，获取与多媒体节目对应的关联信息。

终端设备可以通过本地数据库查询或者通过互联网在线查询获取与匹配到的多媒体节目信息对应的关联信息。还可以向服务器请求与该多媒体节目对应的关联信息，并接收服务器反馈的与该多媒体节目对应的关联信息。关联信息可以包括标签信息、字幕信息、互动信息以及广告信息中的一种或多种，其中，标签信息是与该多媒体节目关联的任何资讯信息。终端设备获取关联信息后，可以将关联信息呈献给用户，从而达到信息推送的目的。

终端设备获取与多媒体节目对应的关联信息后，可以向用户发出请求来确认是否呈现关联信息。因此本发明实施例二所述的多媒体节目识别方法可进一步包括以下步骤：

S206，输出表示是否展示关联信息的提示信息。

终端设备输出提示信息，以提示用户是否展示与多媒体节目识别结果相关的关联信息，

S207，接收输入的确认指令。终端设备接收用户输入的确认指令，确认指令来自于用户的选择、点击操作或者其他手势操作。

S208，根据收到的确认指令，展示关联信息。

终端设备根据接收到确认指令后，在屏幕上展示关联信息，供用户浏览。

本发明实施例二，通过音频指纹与音频水印的结合对目标多媒体节目进行音频识别，匹配出与目标多媒体节目对应的多媒体文件信息，达到快速而准确的音频匹配与识别的效果；利用音频识别结果获取与多媒体文件信息对应的关联信息，从而到达信息推送的目的。

图3是本发明实施例三提供的一种多媒体节目识别方法，该方法包括：

S301，获取关于目标多媒体节目的音频水印和音频指纹。

目标多媒体节目是需要进行音频识别的多媒体节目，本步骤是根据目标多媒体节目的音频数据获取音频水印和音频指纹。终端设备获取目标多媒体节目的音频水印和音频指纹包括：

终端设备采集目标多媒体节目的音频数据，以从目标多媒体节目的音频数据中获取多媒体节目的音频水印和音频指纹。例如，可以是智能电视接收多媒体广播电视流，并从中获取目标多媒体节目的音频数据，最后在智能电视本地，或者是与智能电视通信连接的服务器从音频数据中获取该目标多媒体节目的音频水印和音频指纹。

或者，终端设备录制目标多媒体节目播放时的音频数据，以获取目标多媒体节目的音频水印和音频指纹。例如，可以是用户通过手机等移动终端录制电视机上播出的电视节目的音频数据，最后在该移动终端本地，或者是与该移动终端通信连接的后台服务器从音频数据中获取音频指纹或音频水印。终端设备录制其他终端设备播放目标多媒体节目时的音频数据，对其他终端设备播放的目标多媒体节目的音频数据进行音频识别，以获取其他终端设备正在播放的目标多媒体节目的识别结果。

S302，将音频水印与预设的音频水印样本进行匹配，获得第一匹配结果，以及将音频指纹与预设的音频指纹样本进行匹配，获得第二匹配结果。与S102实现过程相同，在此不作重复说明。

S303，通过预设的混合模型合并第一匹配结果与第二匹配结果，获得第三匹配结果。与S103实现过程相同，在此不作重复说明。

S304，根据第三匹配结果获得目标多媒体节目的识别结果。与S104实现过程相同，在此不作重复说明。

S305，根据所述目标多媒体节目的识别结果，获取与多媒体文件信息对应的关联信息。与S205实现过程相同，在此不作重复说明。终端设备获取其他终端设备播放的多媒体文件信息对应的关联信息，以用来在本地将关联信息呈现给用户。

本发明实施三，终端设备录制其他终端设备播放的目标多媒体文件的音频后可以在本地进行后续的音频识别过程，还可以将录制的目标多媒体文件的音频发送至服务器，由服务器完成上述音频识别过程，以降低终端设备本地的运算压力，服务器将作为识别结果的多媒体文件信息反馈至终端设备。

本发明实施例三，终端设备采集其他终端设备正在播放的目标多媒体节目的音频，进行音频识别，获取其他终端设备正在播放的多媒体节目的多媒体文件信息，可以进一步获取与多媒体文件信息对应的关联信息，并在本地将关联信息呈现给用户，从而达到快速进行音频识别以及信息推送的目的。

相应的，本发明实施例提供了与实施例一对应的一种多媒体节目识别装置，如图4所示，该装置包括：

第一获取模块40，用于获取关于目标多媒体节目的音频水印和音频指纹；

匹配模块41，用于将音频水印与预设的音频水印样本进行匹配，获得第一匹配结果，以及将音频指纹与预设的音频指纹样本进行匹配，获得第二匹配结果；

合并模块42，用于通过预设的混合模型合并第一匹配结果与第二匹配结果，获得第三匹配结果；

获得模块43，用于根据第三匹配结果获得所述目标多媒体节目的识别结果。

相应的，本发明实施例提供了与实施例二对应的一种多媒体节目识别装置，如图5所示，该装置包括：

获得模块43，用于根据第三匹配结果获得目标多媒体节目的识别结果；

第二获取模块44，用于根据目标多媒体节目的识别结果，获取与目标多媒体节目对应的关联信息；

提示模块45，用于输出表示是否展示关联信息的提示信息；

接收模块46，用于接收输入的确认指令；

展示模块47，用于根据收到的确认指令，展示关联信息。

相应的，本发明实施例提供了与实施例三对应的一种多媒体节目识别装置，如图6所示，所述装置包括：

第二获取模块44，用于根据目标多媒体节目的识别结果，获取与目标多媒体节目对应的关联信息。

其中，第一获取模块40如图7所示，包括：

采集单元400，用于采集所述目标多媒体节目的音频数据，从所述目标多媒体节目的音频数据中获取所述多媒体节目的音频水印和音频指纹；

录制单元401，用于录制所述目标多媒体节目播放时的音频，以获取所述目标多媒体节目的音频水印和音频指纹。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多媒体节目识别方法，其特征在于，所述方法包括：

获取关于目标多媒体节目的音频水印和音频指纹；

根据所述第三匹配结果获得所述目标多媒体节目的识别结果。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标多媒体节目的识别结果，获取与所述目标多媒体节目对应的关联信息。

3.如权利要求1所述的方法，其特征在于，由终端设备或服务器实现所述方法。

4.如权利要求2所述的方法，其特征在于，由终端设备实现所述方法；所述方法还包括：

输出表示是否展示关联信息的提示信息；

接收输入的确认指令；

根据收到的确认指令，展示所述关联信息。

5.如权利要求1所述的方法，其特征在于，所述获取关于目标多媒体节目的音频水印和音频指纹包括：

采集所述目标多媒体节目的音频数据，从所述目标多媒体节目的音频数据中获取所述多媒体节目的音频水印和音频指纹；或

录制所述目标多媒体节目播放时的音频，以获取所述目标多媒体节目的音频水印和音频指纹。

6.如权利要求1所述的方法，其特征在于，通过预设的混合模型合并所述第一匹配结果与所述第二匹配结果，获得第三匹配结果，包括：

通过可训练混合模型合并所述第一匹配结果与所述第二匹配结果。

7.一种多媒体节目识别装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于根据所述目标多媒体节目的识别结果，获取与所述目标多媒体节目对应的关联信息。

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

提示模块，用于输出表示是否展示关联信息的提示信息；

接收模块，用于接收输入的确认指令；

展示模块，用于根据收到的确认指令，展示所述关联信息。

10.如权利要求7所述的装置，其特征在于，所述第一获取模块包括：

采集单元，用于采集所述目标多媒体节目的音频数据，从所述目标多媒体节目的音频数据中获取所述多媒体节目的音频水印和音频指纹；