CN101361301A

CN101361301A - 检测广播媒体中的重复内容

Info

Publication number: CN101361301A
Application number: CNA2006800515590A
Authority: CN
Inventors: 舒梅特·巴卢哈; 米歇尔·科维尔; 迈克尔·芬克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2005-11-29
Filing date: 2006-11-27
Publication date: 2009-02-04
Also published as: CN101517550B; CN101517550A

Abstract

***、方法、设备和计算机程序产品提供用于检测广播媒体中的重复内容的社交和交互性应用。在一些实现方式中，方法包括：从内容生成音频统计量数据库；从音频统计量数据库生成查询；在音频统计量数据库上运行查询，以确定非等同的匹配；如果存在非等同的匹配，则将与所匹配的查询相对应的内容识别为重复内容。

Description

检测广播媒体中的重复内容

相关申请

本申请要求于2006年11月29日提交的、发明名称为“Environment-Based Referrals”的美国临时专利申请No.60/740,760的优先权的权益，该申请通过引用而被全部合并于此。

本申请要求于2006年8月29日提交的、发明名称为“AudioIdentification Based on Signatures”的美国临时专利申请No.60/823,881的优先权的权益，该申请通过引用而被全部合并于此。

本申请涉及于2006年11月27日提交的、发明名称为“DeterminingPopularity Ratings Using Social and Interactive Applications for MassMedia”、代理人中请案编号为GP-672-00-US/16113-0630001的美国专利申请_______________，以及于2006年11月27日提交的、发明名称为“Social and Interactive Application For Mass Media”、代理人申请案编号为GP-636-00-US/16113-060001的美国专利申请No.________________。这些专利申请中的每一件都通过引用而被全部合并于此。

技术领域

所公开的实现方式涉及用于大众(mass)媒体的社交和交互式应用。

背景技术

传统的电视和交互式电视***不具有对重播嵌入在电视节目中的广告进行检测的能力。传统的记录设备允许用户存储电视节目(包括广告)，以便在以后的日期或时间重播。广播公司的共同抱怨是它们不能从这些重播中获利，从广播公司的角度来说，这相当于为购买了节目最初广播播放空间的广告客户“免费”做广告。

发明内容

通过所公开的用于检测广播媒体中的重复内容的***、方法、装置、用户接口和计算机程序产品来解决上述的不足。

在一些实现方式中，方法包括：从音频统计量数据库生成查询；在音频统计量数据库上运行该查询，以确定非等同的(non-identity)匹配；以及如果存在非等同的匹配，则将与所匹配的查询相对应的内容识别为重复内容。

在一些实现方式中，***包括处理器和可操作地耦接到处理器的计算机可读介质。该计算机可读介质包括指令，当被处理器运行时，该指令使处理器执行以下操作：从音频统计量数据库生成查询；在音频统计量数据库上运行该查询，以确定非等同的匹配，其中该音频统计量是从内容生成的；以及如果发现非等同的匹配，则将与所匹配的查询相对应的内容识别为重复内容。

其它实现方式涉及***、方法、装置、用户接口和计算机程序产品。

附图说明

图1是大众个性化***的一个实施例的框图。

图2示出了周围音频识别***的一个实施例，包括图1中所示的客户端侧接口。

图3是用于提供大众个性化应用的过程的一个实施例的流程图。

图4是音频指纹识别过程的一个实施例的流程图。

图5是用于与大众个性化应用交互的用户界面的一个实施例的流程图。

图6是用于实现图1中所示的客户端侧接口的客户端***的硬件体系结构的一个实施例的框图。

图7是重复检测过程的一个实施例的流程图。

具体实施方式

大众个性化应用

大众个性化应用提供与大众媒体广播(例如，电视、无线电广播、电影、因特网广播等)相关的个性化和交互式信息。这样的应用包括但不限于：个性化信息层、自组织(ad hoc)社交同群社区、实时的流行等级和视频(或音频)书签等。尽管在此所公开的一些大众媒体的例子是在电视广播的上下文中，但是所公开的实现同样可适用于无线电和/或音乐广播。

个性化信息层向大众媒体频道提供补充信息。个性化信息层的例子包括但不限于：时尚、政治、商业、健康、旅行等。例如，当观看关于一名人的新闻片段时，在电视屏幕上或计算机显示设备上向观众呈现时尚层，其提供与在该新闻片段中该名人穿戴的服装和饰品相关的信息和/或图像。此外，个性化层可以包括用于促销与该新闻片段相关的产品或服务的广告，诸如到销售该名人所穿服装的服装店的链接。

自组织社交同群社区在正在观看相同的电视节目或收听相同的无线电广播站的用户之间提供评论场所。例如，可以为正在观看最新的CNN头条新闻的用户提供评论媒介(例如，聊天室、留言板、wiki页面、视频链接等)，该评论媒介允许用户就正在进行的大众媒体广播而聊天、评论或读取其他观众的响应。

实时流行等级向内容提供者和用户提供等级信息(类似于尼尔森(Nielsen)等级)。例如，可以即时地向用户提供由用户的社交网络和/或由具有类似的人口统计特征的人观看或收听的电视频道或无线电广播站的实时流行等级。

视频或音频书签向用户提供创建他们喜爱的广播内容的个性化库的低付出方式。例如，用户可以简单地按下计算机或远程控制设备上的按钮，来记录、处理和保存广播内容的周围音频和/或视频的片段。该片段可以被用作指向节目或节目的一部分以便于以后观看的书签。该书签可以在朋友之间共享或者为了将来的个人查阅而被保存。

大众个性化网络

图1是用于提供大众个性化应用的大众个性化***100的框图。***100包括一个或多个客户端侧接口102、音频数据库服务器104和社交应用服务器106，所有这些都通过网络108(例如，因特网、企业内部互联网、LAN、无线网络等)进行通信。

客户端接口102可以是允许用户输入和接收信息、并能够在显示设备上呈现用户界面的任何设备，包括但不限于：台式或便携式计算机；电子设备；电话；移动电话；显示***；电视；计算机监视器；导航***；便携式媒体播放器/记录器；个人数字助理(PDA)；游戏控制台；手持电子设备；以及嵌入式电子设备或装置。将关于图2对客户端接口102做更充分的描述。

在一些实现方式中，客户端接口102包括用于在广播环境中(例如，用户的起居室)监听和记录大众媒体广播的周围音频的周围音频检测器(例如，麦克风)。一个或多个周围音频片断或“片段”被转换为独特而健壮的统计概要，其被称为“音频指纹”或“描述符”。在一些实现方式中，该描述符是包含一个或多个音频签名组件的压缩文件，可以将该音频签名组件与数据库中的以前所生成的和大众媒体广播相关联的参考描述符或统计量进行比较。

在Ke，Y.、Hoiem，D.、Sukthankar，R.(2005)的Computer Vision forMusic Identification(Proc.Computer Vision and Pattern Recognition)中描述了一种用于生成关于音乐识别的音频指纹的技术，通过引用而将其全部内容合并于此。在一些实现方式中，采用由下文中称作“Ke等人”所建议的该音乐识别方法来为电视音频数据和查询生成描述符，如关于图4所描述的。

在名称为“Audio Identification Based on Signatures”的美国临时专利申请No.60/823,881中，描述了一种用于使用小波生成音频描述符的技术。该申请描述了如下的一种技术：使用计算机视觉技术和大规模数据流处理算法的结合来创建能够被有效匹配的音频片段的紧凑的描述符/指纹。该技术使用小波，小波是一种有名的用于分级分解功能的数学工具。

在“Audio Identification Based on Signatures”中，检索过程的实现包括如下步骤：1)给定音频片段的音频范围，提取例如持续11.6*w ms的具有平均d-ms的随机间隔的频谱图像。对于每个频谱图像：2)计算该频谱图像的小波；3)提取最佳的t个小波；4)创建该最佳的t个小波的二进制表示；5)使用最小散列法来创建该最佳的t个小波的子指纹；6)使用具有b个箱(bin)和1个散列表的LSH来查找紧密匹配的子指纹片段；7)丢弃具有少于v个匹配的子指纹；8)计算从剩余的候选子指纹到查询子指纹的汉明距离(Hamming distance)；以及9)对随时间组合的匹配使用动态规划。

在一些实现方式中，经由网络108将用于识别客户端侧接口102的描述符和相关联的用户标识符(“用户id”)发送到音频数据库服务器104。音频数据库服务器104将该描述符与多个参考描述符进行比较，该多个参考描述符是以前确定的并存储在耦接到音频数据库服务器104的音频数据库110中。在一些实现方式中，音频数据库服务器104根据最近的大众媒体广播不断地更新存储在音频数据库110中的参考描述符。

音频数据库服务器104确定在所接收的描述符和参考描述符之间的最佳匹配，并将最佳匹配信息发送到社交应用服务器106。将关于图4对匹配过程做更充分的描述。

在一些实现方式中，社交应用服务器106接受与客户端侧接口102相关联的Web浏览器连接。使用最佳匹配信息，社交应用服务器106聚合用户的个性化信息并将该个性化信息发送到客户端侧接口102。该个性化信息可以包括但不限于：广告、个性化信息层、流行等级、及与评论媒介(例如，自组织社交同群社区、论坛、讨论组、视频会议等)相关联的信息。

在一些实现方式中，个性化信息可以用于为观众创建聊天室，而不必知道这些观众正在实时观看的节目。可以通过直接比较由客户端***传送的数据流中的描述符而确定匹配，来创建聊天室。也就是说，可以围绕具有匹配的描述符的观众来创建聊天室。在这样的实现方式中，没必要将从观众接收的描述符与参考描述符进行比较。

在一些实现方式中，社交应用服务器106向客户端接口102提供网页，该网页是由运行在客户端侧接口102上的Web浏览器(例如，Microsoft Internet Explorer^TM)接收并显示的。

很显然地，***100也可以是其它实现方式。例如，***100可以包括多个音频数据库110、音频数据库服务器104和/或社交应用服务器106。可替代地，音频数据库服务器104和社交应用服务器106可以是单个的服务器或***，或者是网络资源和/或服务的一部分。而且，网络108可以包括多个网络和链路，其可操作地使用各种网络设备(例如，集线器、路由器等)和媒介(例如，铜线、光纤、射频等)以各种拓扑和布置耦接在一起。这里仅作为例子描述了客户端-服务器体系结构。也可以是其它的计算机体系结构。

周围音频识别***

图2示出了周围音频识别***200，包括如图1中所示的客户端侧接口102。该***200包括大众媒体***202(例如，电视机、收音机、计算机、电子设备、移动电话、游戏控制台、网络装置等)、周围音频检测器204、客户端侧接口102(例如，台式或膝上型计算机等)和网络接入设备206。在一些实现方式中，客户端侧接口102包括用于呈现用户界面(UI)208的显示设备210，以使用户能够与大众个性化应用交互，如关于图5描述的。

在操作中，大众媒体***202生成大众媒体广播(例如，电视音频)的周围音频，通过周围音频检测器204来检测该周围音频。周围音频检测器204可以是能够检测周围音频的任何设备，包括独立式麦克风和与客户端侧接口102相集成的麦克风。客户端侧接口102对所检测到的周围音频进行编码，以提供识别周围音频的描述符。通过网络接入设备206和网络108，将该描述符传送到音频数据库服务器104。

在一些实现方式中，运行在客户端侧接口102上的客户端软件不断地监听并记录周围音频的n秒(例如，5秒)的音频文件(“片段”)。然后依照关于图4描述的过程将该片段转换为m个帧(例如，415个帧)的k比特编码描述符(例如，32比特)。在一些实现方式中，监听和记录是基于事件的。例如，可以在指定的日期和指定的时间点(例如，星期一下午8:00)自动开始监听和记录，并且该监听和记录持续指定的时间(例如，在下午8:00-9:00之间)。可替代地，可以响应于来自控制设备(例如，远程控制器等)的用户输入(例如，鼠标点击、功能键或键的组合)开始监听和记录。在一些实现方式中，使用由Ke等人描述的32比特/帧区别特性的流变化来对周围音频进行编码。

在一些实现方式中，客户端软件运行为“侧边栏”(“side bar”)或其它的用户界面元件。以这种方式，当启动客户端侧接口102时，可以立即开始周围音频采样并在“后台”中运行，同时(可选地)将结果显示在侧边栏中而无需调用整个Web浏览器会话。

在一些实现方式中，周围音频采样可以在客户端侧接口102启动时开始，或者在观众登录进服务或应用(例如，电子邮件等)中时开始。

将描述符发送到音频数据库服务器104。在一些实现方式中，描述符是周围音频的经压缩的统计概要，如Ke等人所描述的。通过发送统计概要，保持了用户的与声音相关的隐私，因为统计概要是不可逆的，即不能从描述符恢复最初的音频。因而，不能从描述符再现用户或其它个人监听和记录在广播环境中的谈话。在一些实现方式中，为了额外的保密和安全，可以使用一种或多种已知的加密技术(例如，不对称的或对称的密钥加密、椭圆加密等)对描述符进行加密。

在一些实现方式中，响应于由在客户端侧接口102上的监听进程检测的触发事件，将描述符作为查询提交(也被称为查询描述符)发送到音频数据库服务器104。例如，触发事件可以是打开电视节目的主题曲(例如，打开“宋飞传”的曲调)或由演员讲的对话。在一些实现方式中，可以将查询描述符作为持续流过程的一部分发送到音频数据库服务器104。在一些实现方式中，可以响应于用户输入(例如，经由远程控制器、鼠标点击等)而将查询描述符发送到音频数据库服务器104。

大众个性化过程

图3是大众个性化过程300的流程图。过程300的步骤不必以任何特定的顺序来完成，并且至少一些步骤可以在多线程或并行处理环境中被同时执行。

当客户端侧接口(例如，客户端侧接口102)监听并记录在广播环境中的大众媒体广播的周围音频片段时，过程300开始(302)。将所记录的周围音频片段被编码到描述符中(例如，压缩的统计概要)，可以将该描述符作为查询发送到音频数据库服务器(304)。音频数据库服务器将该查询与从大众媒体广播统计量计算出的参考描述符数据库进行比较，以确定与该查询最佳匹配的候选描述符(308)。将该候选描述符发送到社交应用服务器或其它网络资源，该社交应用服务器或其它网络资源使用该候选描述符来聚合用户的个性化信息(310)。例如，如果用户在观看电视节目“宋飞传”，则从节目的周围音频生成的查询描述符将与从以前的“宋飞传”广播取得的参考描述符相匹配。因而，使用该最佳匹配的候选描述符来聚合与“宋飞传”相关的个性化信息(例如，新闻故事、讨论组、到自组织社交同群社区或聊天室的链接、广告等)。在一些实现方式中，使用散列技术(例如，直接散列或位置敏感散列(LSH))来有效执行匹配过程，以获得候选描述符的简短列表，如关于图4所描述的。然后在验证过程中处理候选描述符，如Ke等人所描述的。

在一些实现方式中，将来自不同观众的查询描述符直接进行匹配，而不是将每个查询与参考描述符的数据库进行匹配。这样的实施例使得能够创建关于不能使用参考描述符数据库的主题的自组织社交同群社区。这样的实施例可以实时对正在以相同的公共方式(例如，体育馆、酒巴等)的、使用便携式电子设备(例如，移动电话、PDA等)的观众进行匹配。

流行等级

在一些实现方式中，从当前正在观看广播(例如，节目、广告等)的观众列表来推断实时并且聚合的统计量。在观众使用其它应用时，可以在后台收集这些统计量。统计量可以包括但不限于：1)观看该广播的观众的平均数；2)观众观看该广播的平均次数；3)该观众观看的其它节目；4)最少观众数和峰值观众数；5)当观众离开广播时他们最经常切换到的节目；6)观众观看广播多长时间；7)观众浏览频道多少次；8)观众看过哪些广告；以及9)当观众进入广播时他们最经常从那些节目切换，等等。从这些统计量中，可以确定一个或多个流行等级。

可以对正监听的每个广播频道使用计数器来生成用于生成流行等级的统计量。在一些实现方式中，可以将计数器与人口统计组数据或地理组数据交叉。当广播正在进行时，观众可以使用流行等级来“查看热点”(例如，通过注意到在2004年超级碗半场表演期间等级不断增长)。广告客户和内容提供者也可以使用流行等级来响应于等级排名动态调整显示的素材。对于广告来说，尤其如此，因为广告活动制作的短的单位长度和众多版本的广告很容易互换，以适合于观众的等级级别。统计量的其它例子包括但不限于：电视广播与电台广播在人口统计或时间上的流行、一天中的流行次数即峰值观看/收听次数、给定区域内的家庭占有数目、在特定节目(节目流派、一天中的特定时间)期间的频道冲浪总量、广播的音量等等。

将个性化信息发送到客户端侧接口(312)。也可以将流行等级存储在数据库中由其它过程使用(318)，比如上述的广告动态调整。在客户端侧接口接收个性化信息(314)，在该客户端侧接口处将个性化信息格式化并呈现在用户界面中(316)。个性化信息可以与在用户界面中呈现给用户的评论媒介(例如，聊天室中的文本消息)相关联。在一些实现方式中，聊天室可以包括一个或多个子组。例如，“宋飞传”的讨论组可能包括称为“宋飞传专家”的子组，或者可以与特定的人口统计相关联的子组，诸如观看“宋飞传”的年龄在20-30岁之间的女性，等等。

在一些实现方式中，收集用于生成流行等级的统计量的原始信息(例如，计数值)，并将其存储在客户端侧接口上，而不是存储在社交应用服务器上。当用户在线和/或调用大众个性化应用时，可以将该原始信息传送到广播公司。

在一些实现方式中，在客户端侧接口上安装广播测量盒(BMB)。BMB可以是类似于机顶盒、但未连接到广播设备的简单硬件设备。与需要在电视上安装硬件的尼尔森(Neilsen)等级***不同，可以将BMB安装在大众媒体***的附近或者在电视信号的范围之内。在一些实现方式中，BMB自动记录音频片段并生成描述符，该描述符被存储在存储器(例如，闪存介质)中。在一些实现方式中，BMB可以可选地包括一个或多个硬件按钮，用户可以按下这些按钮来指示他们正在观看的广播(类似于尼尔森等级)。有时可以由等级提供者来对BMB设备进行采样以收集所存储的描述符，或者有时BMB可以通过网络连接(例如，电话、因特网、无线电广播，诸如无线短消息服务(SMS)，等等)将所存储的描述符广播到感兴趣的一方或多方。

在一些实现方式中，可以监视广告以确定广告的效果，可以将该广告效果报告给广告客户。例如，哪些广告被观看、跳过，广告音量水平等。

在一些实现方式中，可以使用图像捕获设备(例如，数字照相机、视频录像机等)来测量有多少观众正在观看或收听广播。例如，可以将各种已知的模式匹配算法应用到图像或图像序列，以确定在特定的广播期间存在于广播环境中的观众数目。图像和/或从图像取得的数据可以与音频描述符结合起来使用，以收集用户的个性化信息、计算流行等级、或者用于其它目的。

音频指纹识别过程

图4是音频指纹识别过程400的流程图。过程400的步骤不必以任何特定的顺序来完成，并且至少一些步骤可以在多线程或并行处理环境中被同时执行。过程400实时且低延迟地将在客户端侧接口(例如，客户端侧接口102)上生成的查询描述符与存储于一个或多个数据库中的参考描述符进行匹配。过程400采用由Ke等人所建议的技术来处理周围音频数据(例如，来自电视广播)和查询。

过程400在客户端侧接口上以将由周围音频检测器(例如，麦克风)捕获的大众媒体广播的周围音频片段(例如，5-6秒的音频)分解为交叠的帧(402)开始。在一些实现方式中，将这些帧隔开几微秒(例如，隔开12ms)。将每一帧转换为被训练以克服音频噪声和失真的描述符(例如，32比特的描述符)(404)，如Ke等人所描述的。在一些实现方式中，每个描述符表示音频片段的一个识别统计概要。

在一些实现方式中，可以将描述符作为查询片段(也被称为查询描述符)发送到音频数据库服务器，在音频数据库服务器处将该描述符与参考描述符数据库进行匹配，其中参考描述符用于识别以前记录的大众媒体广播的音频片段的统计概要(406)。可以确定具有最佳匹配的候选描述符的列表(408)。可以对候选描述符进行评分，使得在时间上与查询描述符相一致的候选描述符比在时间上与查询描述符不够一致的候选描述符评分高(410)。将具有最高评分的候选描述符(例如，评分超过了一个足够高的阈值)发送到或以其它方式提供给社交应用服务器(412)，在社交应用服务器处可以使用这些候选描述符来聚合与媒体广播相关的个性化信息。使用阈值确保在向社交应用服务器发送或以其它方式提供描述符之前，描述符已充分匹配(412)。

在一些实现方式中，可以从由各媒体公司提供的可被索引并用于生成描述符的广播来生成参考描述符数据库。在其它实现方式中，也可以使用电视向导或其它内嵌在广播信号中的元数据和/或信息来生成参考描述符。

在一些实现方式中，可以使用语音识别技术来帮助识别哪个节目正在被观看。这样的技术可以帮助用户讨论新闻事件，而非只是讨论电视节目。例如，用户可能正在与另一个观众不同的频道观看航天飞机起飞，因而可能得到不同的音频信号(例如，由于不同的新闻广播员)。可以使用语音识别技术来识别关键词(例如，航天飞机、起飞等)，而这些关键词可被用来将用户与评论媒介连接起来。

散列描述

Ke等人使用计算机视觉技术来为音频找到高差别的、紧凑的统计量。其过程基于正面的例子(其中x和x’是相同音频的噪音形式)和负面的例子(其中x和x’来自不同的音频)的标记对进行训练。在该训练阶段期间，基于boosting(提升)的机器学习技术使用该标记对来选择由32个滤波器和阈值构成的组合，该32个滤波器和阈值共同创建高差别的统计量。通过对于时间和频率使用第一和第二阶差分，滤波器使变化局限于光谱图量级。使用这些简单的差分滤波器的一个好处是：通过使用由Viola，P.和Jones，M.(2002)在Robust Real-TimeObject Detection，Internatinal Journal of Computer Vision中所描述的积分图像技术，可以有效地计算它们，通过引用而将其全部内容合并于此。

在一些实现方式中，这32个滤波器的输出为阈值，假定每个音频帧每个滤波器一个比特。这32个阈值结果仅形成该音频帧的传送描述符。该稀疏编码确保了用户的隐私免受非授权的窃听。而且，这32比特的描述符对于训练数据中的音频失真而言是健壮的，使得正面的例子(例如，匹配帧)具有小的汉明距离(即测量不同的比特数目的距离)，且负面的例子(例如，误匹配帧)具有大的汉明距例。应注意，可以使用更多或更少的滤波器，且在每个音频帧对于每个滤波器可以使用多于一个比特(例如，使用多阈值检验的多个比特)。

在一些实现方式中，该32比特的描述符本身用作直接散列的散列键值。该描述符是平衡很好的散列函数。通过不仅对查询描述符进行查询，而且查询一小组相似描述符(直至与最初的查询描述符的汉明距离为2)，可进一步改进检索速率。

查询中的时间一致性

在使用上述散列过程将查询描述符与音频数据库匹配后，对这些匹配进行验证，以确定数据库返回命中中的哪些是准确的匹配。另外，候选描述符可能具有许多与查询描述符相匹配却具有错误的时间结构的帧。

在一些实现方式中，通过浏览在特定的查询数据库偏移量下支持匹配的每个数据库命中，来实现验证。例如，如果在5秒415帧长的“宋飞传”查询片段q中的第八个描述符(q₈)命中了第1008个数据库描述符(x₁₀₀₈)，则它支持音频数据库中在该5秒查询之间且从帧1001到帧1415的候选匹配。在q_n和x_1000+n之间(1≤n≤415)的其它匹配将支持同样的候选匹配。

除了时间一致性之外，我们需要考虑当会话临时淹没周围音频时的帧。这可以被建模为周围音频和干扰声音之间的专用开关。对于每个查询帧i，存在隐藏的变量y_i：如果y_i＝0，则将查询的第i个帧仅建模为干扰；如果y_i＝1，则将第i个帧建模为来自纯周围音频。采取极端的观察(纯周围或纯干扰)证明这是正确的，在两个假定(y_i＝0和y_i＝1)中的每个假定情形下，通过为帧向量的32个位置中的每一个提供额外的bit-flop概率，每个音频帧以极其低的精确度被表示并柔和化。最终，利用从训练数据取得的转换概率，我们将在纯周围的和纯干扰的状态之间的中间帧转换建模为隐藏的第一阶马尔可夫过程。例如，我们可以重新使用由Ke等人在2005年的CVPR上给出的66参数的概率模型。

在查询向量q和N帧偏移量上的周围数据库向量x_N之间的最终的匹配概率模型为：

其中<q_n，x_m>表示在32比特帧向量q_n和x_m之间的比特差。该模型既合并了时间一致性约束又合并了隐藏周围/干扰的马尔可夫模型。

后匹配一致性过滤

人们通常在看电视时会与他人进行交谈，导致零星的但很强烈的声音干扰，特别是当使用基于膝上型电脑的麦克风来采样周围音频时。假设对话话音持续两或三秒钟，在观众之间进行的简单的沟通交流可能使5秒查询变得不可识别。

在一些实现方式中，使用后匹配过滤来处理这些断断续续的低置信度的误匹配。例如，我们可以使用频道切换的隐藏持续时间的马尔可夫模型，其中频道切换具有L秒的期望的停留时间(亦即，在频道改变之间的时间)。社交应用服务器106将最近的过去内具有最高置信度(连同其“折扣”的置信度)的匹配指示为与每个客户端会话相关联的状态信息的一部分。使用该信息，根据哪个具有较高的置信度，服务器106选择来自最近的过去的内容索引匹配，或者选择当前的索引匹配。

我们使用M_h和C_h来指代上一时间步长(5秒之前)的最佳匹配及其似然置信度评分。如果我们只是简单地将马尔可夫模型应用到该以前的最佳匹配，而不考虑另一观测，则我们的期望是，当前时间的最佳匹配是相同的节目序列，向前仅延伸5秒，且在该期望中我们的置信度为C_h-l/L，这里l＝5秒是查询时间步长。在似然估计中的折扣l/L对应于在长度为l的时间步长期间不切换频道的马尔可夫模型概率e^-l/L。

通过音频匹配为当前查询生成一个可替代的前提假设。我们使用Mo来指代当前音频片段的最佳匹配：亦即由音频指纹识别过程400产生的匹配。Co是由音频指纹识别过程400给出的似然置信度评分。

如果这两个匹配(已更新的历史期望和当前片段的观测结果)所给出的匹配不同，我们选择最有较高的置信度评分的假设：

其中M₀是由社交应用服务器106用来选择相关内容的匹配，且在下一时间步长中，M₀和C₀成为M_h和C_h。

用户界面

图5是用于与大众个性化应用交互的用户界面208的一个实施例的流程图。用户界面208包括个性化层显示区域502、评论媒介显示区域504、赞助链接显示区域506和内容显示区域508。个性化层显示区域502提供与在内容显示区域508中显示的视频内容相关的补充信息和/或图像。可以使用导航条510和输入设备(例如，鼠标或远程控制)来导航该个性化层。在导航条510中，每个层都有相关联的标签。例如，如果用户选择“时尚”标签，则在显示区域502中将呈现包括与“宋飞传”相关联的有关时尚的内容的时尚层。

在一些实现方式中，客户端侧接口102包括能够呈现用户界面208的显示设备210。在一些实现方式中，用户界面208是由社交应用服务器106提供的交互式网页，且被呈现在显示设备210的屏幕上的浏览器窗口中。在一些实现方式中，用户界面208是永久的，并且当用于内容匹配过程的广播音频随时间迁移之后，该用户界面仍可用于交互。在一些实现方式中，随着时间的迁移或者响应于触发事件(例如，新人进入聊天室、广告开始等)而动态地更新用户界面208。例如，每当广播广告时，可以利用与广告的主题相关的刷新链接518来更新赞助链接显示区域506。

在一些实现方式中，可以在稍后的时间里将个性化的信息和赞助链接以电子邮件发送给观众或者显示在侧边栏上。

在一些实现方式中，客户端侧接口102从社交应用服务器106接收个性化信息。该信息可以包括网页、电子邮件、留言板、链接、即时消息、聊天室、或加入正在进行的讨论组、eRoom、视频会议或网络会议、语音呼叫(例如，Skype

)的邀请等。在一些实现方式中，用户界面208提供对来自先前看过的广播或电影的评论和/或到评论的链接的访问。例如，如果用户当前正在观看DVD“Shrek”，他可能想要看看在过去关于该电影人们都说过什么。

在一些实现方式中，显示区域502包括等级区域512，其用于显示与广播相关的流行等级。例如，显示区域512可以显示与同时在广播的另一个电视节目相比，当前有多少观众正在观看“Seinfeld”。

在一些实现方式中，评论媒介显示区域504呈现聊天室风格的环境，在其中多个用户可以对广播发表评论。在一些实现方式中，显示区域504包括用于输入评论的文本框514，通过使用输入机构516(例如，按钮)，该评论被发送到聊天室。

赞助链接显示区域506包括与跟广播相关联的广告相关的信息、图像和/或链接。例如，链接518中的一个可以把用户引到卖“宋飞传”商品的网站。

内容显示区域508是显示广播内容的地方。例如，可以显示来自当前广播的场景，并带有其它相关信息(例如，情节号、标题、时间戳等)。在一些实现方式中，显示区域508包括用于导航显示内容的控制520(例如，滚动按钮)。

视频书签

在一些实现方式中，在内容显示区域中包括按钮522，其可以用于为视频加书签。例如，通过点击按钮522，将显示在显示区域508中的“宋飞传”情节加入到用户的喜欢视频库中，然后可以通过基于web的流应用程序或其它访问方法来点播观看它。根据内容所有者所设置的策略，该流服务可以提供免费的仅供浏览的重放，作为内容所有者的代理来收取费用，或者***将向内容所有者提供费用的广告。

客户端侧接口的硬件体系结构

图6是图1中所示的客户端侧接口102的硬件体系结构600的框图。尽管硬件体系结构600典型地是计算设备(例如，个人计算机)，但是所公开的实现方式可以以能够在显示设备上呈现用户界面的任何设备来实现，这些设备包括但不限于：台式或便携式计算机；电子设备；电话；移动电话；显示***；电视；监视器；导航***；便携式媒体播放器/记录器；个人数字助理；游戏***；手持电子设备；以及嵌入式电子设备或装置。

在一些实现方式中，***600包括一个或多个处理器602(例如，CPU)，可选的一个或多个显示设备604(例如，CRT、LCD等)，麦克风接口606，一个或多个网络接口608(例如，USB，Ethernet，FireWire

端口等)，可选的一个或多个输入设备610(例如，鼠标、键盘等)和一个或多个计算机可读介质612。这些组件中的每一个都可操作地耦接到一条或多条总线614(例如，EISA、PCI、USB、FireWire

、NuBus、PDS等)。

在一些实现方式中，没有显示设备或输入设备，且***600仅在后台执行采样和编码(例如，生成描述符等)而无需用户输入。

术语“计算机可读介质”是指参与向处理器602提供指令以供执行的任何介质，包括而不限于：非易失性媒介(例如，光盘或磁盘)、易失性媒介(例如，存储器)和传输媒介。传输媒介包括而不限于：同轴电缆、铜线和光纤。传输媒介也可以采用声、光或射频波的形式。计算机可读介质612进一步包括操作***616(例如，Mac OS

、Windows

、Unix、Linux等)、网络通信模块618、客户端软件620和一个或多个应用622。操作***616可以是多用户、多处理、多任务、多线程、实时等。操作***616执行基本的任务，包括但不限于：识别来自输入设备610的输入；向显示设备604发送输出；跟踪存储设备612上的文件和目录；控制***设备(例如，盘驱动器、打印机、图像捕获设备等)；以及管理一条或多条总线614上的流量。

网络通信模块618包括用于建立和维护网络连接的各种组件(例如，用于实现通信协议的软件，诸如TCP/IP、HTTP、Ethernet、USB、FireWire

等)。

客户端软件620提供用于实现大众个性化应用的客户端侧及用于执行在关于图1-5描述的各种客户端侧功能(例如，周围音频识别)的各种软件组件。在一些实现方式中，可以将由客户端软件620执行的一些或所有过程集成到操作***616中。在一些实现方式中，过程可以至少部分地以数字电子电路、或者以计算机硬件、固件、软件，或者以它们的任意组合来实现。

其它应用624可以包括任意其它软件应用，包括但不限于：文字处理器、浏览器、电子邮件、即时消息、媒体播放器、电话软件等。

检测广告和重播

重复检测

在准备用于搜索的数据库时，它对于能够使用前面描述的描述符预标志重复素材是有帮助的。重复素材可以包括但不限于重复的节目、广告、子片断(例如，新闻节目中的股市新闻镜头)等。使用这些标志，可以以不推出超过执行搜索的用户的注意范围(例如，超过前10-20个命中)的所有其它素材的方式来呈现重复素材。下面描述的过程700提供了在对数据库进行任何搜索查询之前检测这些副本的方式。

视频广告移除

广播公司的关于允许搜索和回放素材的抱怨之一是所嵌广告的重播。从广播公司的角度来看，这种重播是不利的：由于它向广告客户提供免费的广告，所以它直接降低了由广告客户支付的广播的价值。除非移除旧的广告，并以向最初的广播公司返还一些再浏览权益的方式在适当的位置放上新的广告，否则它们不会从重新播放它们以前广播的素材中获益。通过查找重复，也可能与其它标准(例如，持续时间、音量、视觉行为、空帧围隔等)相结合，下面描述的过程700提供了一种用于检测所嵌广告的方式。

视频概要

如果需要非重复的节目素材的“概要”(即较短的版本)，获得该“概要”的一种方式是移除广告(如通过重复素材所检测的)并从该素材中取得紧接在广告位置之前和紧跟在广告位置之后的片断。在广播电视上，节目中的这些位置典型地包括“预热”(在广告之前)和“回顾”(在广告之后)。如果概要是由包括非重复的和重复的非广告素材的混合的新闻节目形成的，则重复的素材典型地对应于原声摘要播出(sound bite)。这些片断通常比新闻节目主持人对新闻事件的叙述贡献的信息要少，因而是要移除的很好候选。如果概要是由叙述性的节目(例如，电影或系列部分)形成的，则重复的音频音轨典型地对应于主题音、气氛音乐或静音。而且，这些典型地是要从概要视频中移除的很好片断。下面描述的过程700提供了一种用于检测这些重复的音频音轨的方式，从而可以从概要视频中移除它们。

重复检测过程

图7是依照重复检测过程700的一个实施例的流程图。过程700的步骤不必以任何特定的顺序来完成，并且至少一些步骤可以在多线程或并行处理环境中被同时执行。

过程700以从一组诸如电视输入、视频上载等的内容来创建音频统计量数据库开始(702)。例如，数据库可以包含32比特/帧的描述符，如Ke等人所描述的。从数据库取得查询并在数据库上运行，以查看在何处出现重复(704)。在一些实现方式中，将音频统计量的一短片断取作为查询，并且使用散列技术(例如，直接散列或位置敏感散列(LSH))运行它来检查非等同的匹配(不相同的匹配)，以获得可能的听觉匹配的短列表。然后在验证过程中处理这些候选匹配，例如如Ke等人所描述的。可以将与所验证的候选匹配相对应的内容识别为重复内容(706)。

将最强的不一致的匹配在时间上向前或向后“增长”，以找到重复素材的开始点和结束点(708)。在一些实现方式中，这可以使用已知的动态规划技术(例如，Viterbi编码)来实现。在时间上向前扩展匹配中，将强的“种子”匹配中的最后时间片设置为“匹配”，并且将关于查询和匹配之间的相同的数据库偏移量的第一个低于可信强度的匹配的最后时间片设置为“不匹配”。在一些实现方式中，将在这两个固定点之间的各个帧的匹配评分用作观测结果，并且使用允许在状态内转换以及从“匹配”到“不匹配”状态的单一转换的第一阶马尔可夫模型。可以有点武断地将从匹配到不匹配的转换概率设置为l/L，其中L是在这两个固定点之间的帧的数目，对应于在允许的范围内对转换位置的最低认识。选择转换概率的另一种可能是使用匹配强度分布图来将该估计偏置于较早或较晚的转换。但这会增加动态规划模型的复杂度，并且不太可能改进结果，因为匹配强度已被用作该时间段内的观测结果。使用相同的过程来在时间上向后增长片断匹配(例如，仅交换过去/将来并运行相同的算法)。

在一些实现方式中，将音频提示与非听觉信息(例如，视觉提示)组合起来，以获得更高的匹配精确度。例如，然后可以通过使用简单的视觉相似性度量来验证(或者第二次检查)利用音频匹配发现的匹配(710)。这些度量可以包括但不限于：色彩柱状图(例如，两幅图像中类似色彩的频率)、有关边的数目与分布的统计量等。这些不必只是在整幅图像上来计算，也可以针对图像的子区域来计算，并且与目标图像中相应的子区域进行对比。

对于查找广告(与所有类型的重复素材相对照)的应用，可以将重复素材检测的结果与度量结合(712)，所述度量目的在于将广告与非广告区分开。这些区别特征可以依赖于广告协定(诸如持续时间(例如，10/15/30秒的插播是很普通的))、依赖于音量(例如，广告倾向于比周围的节目素材更响，从而如果重复素材比两端的素材都响，则它很有可能就是广告)、依赖于视觉行为(例如，广告倾向于在镜头之间更快速地转换，以及在镜头之内有更多的动作，从而如果重复素材跟两端的素材相比有更大的帧差别，则它很有可能就是广告)以及依赖于空帧围隔(本地所***的广告通常不完全充满由国家传播为其留下的位置，以致在长度为30秒的倍数的空间上导致空帧和静音)。

在识别广告，可以分析在该广告周围的素材，并且可以生成统计量。例如，可以生成关于使用特定的创意(例如，图像、文字)对特定产品做了多少次广告、或者对特定的片断广播了多少次等的统计量。在一些实现方式中，可以移除一个或多个旧广告或用新广告来替换一个或多个旧广告。在Covell，M.、Baluja，S.、Fink，M.的AdvertisementDetection and Replacement Using Acoustic and Visual Repetition，IEEESignal Processing Society，MMSP 2006 International Workshop onMultimedia Signal Processing，October 3-6，2006，BC Canada中描述了广告检测和替换的其它技术，该文通过引用而被全部合并于此。

在一些实现方式中，可以使用来自内容所有者的、关于内容的详细结构的信息(例如，在何处***广告素材、在何处重复节目等)来扩增过程700和提高匹配精确度。在一些实现方式中，可以使用视频统计量来确定重复而非音频。在其它实现方式中，可以使用视频和音频统计量的组合。

音频片段拍卖

在一些实现方式中，广告客户可以参加与呈现周围音频相关的拍卖，所述周围音频与该广告客户想要销售的产品或服务相关。例如，为取得将其产品或服务与和“宋飞传”相关联的周围音频片段或描述符关联起来的权利，多个广告客户可以在拍卖中竞标。然后，当呈现该主题周围音频时，拍卖的胜出者可以在观众前放置一些相关的信息(例如，赞助链接)。在一些实现方式中，广告客户可以对具有元级别描述的周围音频片段竞标。例如，广告客户的竞标可以针对与电视广告相关联的音频(例如，这是与Ford Explorer电视广告相关联的音频)、针对封闭的标题(例如，显示“Yankees baseball”的标题)、针对节目片断的位置(例如，该音频将在“宋飞传”中出现15分钟，并且在前一广告间隙之后出现3分钟，在下一广告间隙之前出现1分钟)、或针对低级别的声音或视觉属性(例如，“背景音乐”、“会话语音”、“***式的”等)。

在一些实现方式中，当用户执行诸如浏览另一个网站(例如，赞助链接)的其它任务时，可以在后台运行一个或多个大众个性化应用。与媒体广播(例如，电视内容)相关的素材可以作为与另一个内容源(例如，网站内容)相关的素材而参与同一赞助链接拍卖。例如，可以将与电视相关的广告与跟当前网页的内容相对应的广告混合。

可以对所公开的实现方式做出各种修改，并且仍在下列权利要求的范围内。

Claims

1.一种方法，包括：

从音频统计量数据库生成查询；

在音频统计量数据库上运行该查询，以确定非等同的匹配；以及

如果存在非等同的匹配，

则将与所匹配的查询相对应的内容识别为重复内容。

2.如权利要求1的方法，进一步包括：

使用非听觉信息来验证所述非等同的匹配。

3.如权利要求1的方法，进一步包括：

确定所述重复内容的端点。

4.如权利要求3的方法，其中使用动态规划技术来确定该端点。

5.如权利要求1的方法，进一步包括：

向所述重复内容应用度量，以确定所述重复内容是否是广告。

6.如权利要求5的方法，其中所述度量来自由持续时间、音量、视觉行为和空帧围隔组成的度量组。

7.如权利要求1的方法，其中所述音频统计量是从媒体广播的周围音频片段生成的。

8.如权利要求1的方法，其中所述音频统计量是帧描述符。

9.如权利要求1的方法，其中使用视频统计量与所述音频统计量一起来确定非等同的匹配。

10.如权利要求1的方法，其中使用散列技术来确定所述非等同的匹配。

11.一种***，包括：

处理器；

可操作地耦接到处理器且在其上存储有指令的计算机可读介质，当处理器执行该指令时，使处理器执行下面的操作：

从音频统计量数据库生成查询；

在音频统计量数据库上运行查询，以确定非等同的匹配，其中所述音频统计量是从内容生成的；以及

如果发现了非等同的匹配，

则将与所匹配的查询相对应的内容识别为重复内容。

12.如权利要求11的***，其中处理器进一步执行下面的操作：

使用非听觉信息来验证所述非等同的匹配。

13.如权利要求11的***，其中处理器进一步执行下面的操作：

确定所述重复内容的端点。

14.如权利要求13的***，其中使用动态规划技术来确定所述端点。

15.如权利要求11的***，其中处理器进一步执行下面的操作：

16.如权利要求15的***，其中所述度量来自由持续时间、音量、视觉行为和空帧围隔组成的度量组。

17.如权利要求11的***，其中所述音频统计量是从媒体广播的周围音频片段生成的。

18.如权利要求11的***，其中所述音频统计量是帧描述符。

19.如权利要求11的***，其中使用视频统计量与所述音频统计量一起来确定非等同的匹配。

20.如权利要求11的***，其中使用散列技术来确定所述非等同的匹配。

21.一种***，包括：

用于从内容生成音频统计量数据库的装置；

用于从音频统计量数据库生成查询的装置；

用于在音频统计量数据库上运行查询以确定非等同的匹配的装置；以及

如果存在非等同的匹配，

则用于将与所匹配的查询相对应的内容识别为重复内容的装置。

22.一种其上存储有指令的计算机可读介质，当处理器运行该指令时，使处理器执行下面的操作：

从音频统计量数据库生成查询；

在音频统计量数据库上运行查询，以确定非等同的匹配；以及

如果存在非等同的匹配，

则将与所匹配的查询相对应的内容识别为重复内容。

23.一种方法，包括：

生成与媒体广播相关联的周围音频统计量数据库；

从所述数据库生成查询；

在音频统计量数据库上运行查询，以确定非等同的匹配；

根据所述查询和所述音频统计量数据库之间的正匹配识别重复内容；

确定所述重复内容的端点；

识别在所述重复内容的端点之前或之后的内容；

根据所识别的内容生成统计量。

24.如权利要求23的方法，进一步包括：

向所述重复内容应用至少一种度量，以确定所述重复内容是否是广告。

25.如权利要求24的方法，其中所述度量与所述媒体广播的长度相关联。

26.如权利要求24的方法，其中所述度量与所述媒体广播的音量相关联。