CN111919210A

CN111919210A - 用于并入到审查媒体语料库中的媒体源度量

Info

Publication number: CN111919210A
Application number: CN201880092001.XA
Authority: CN
Inventors: 斯科特·彼得森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-11-10
Anticipated expiration: 2038-06-29
Also published as: CA3096368A1; WO2020005295A1; US20210103623A1; KR20200126424A; AU2018429394A1; KR102486241B1; EP3610348A1; AU2018429394B2; CN111919210B; CA3096368C; KR20230007571A

Abstract

本公开提供了用于分析搜索事件以测量并选择要在将内容并入到受限媒体语料库中时使用的媒体源的技术。一种示例方法包括：确定第一媒体语料库的多个搜索事件的搜索特性；识别第二媒体语料库的搜索事件的集合，其中，搜索事件的集合与搜索特性相对应并且包括引用多个媒体源的搜索事件；从搜索事件的集合中提取与第二媒体语料库相关联的媒体源的集合；由处理设备基于媒体源的度量从媒体源的集合中选择媒体源，其中，度量基于引用媒体源的搜索事件；以及将内容从与第二媒体语料库相关联的媒体源并入到第一媒体语料库中。

Description

用于并入到审查媒体语料库中的媒体源度量

技术领域

本公开涉及内容共享平台的领域，并且具体地，涉及测量媒体源以增强媒体项的识别。

背景技术

现代内容共享网络使得用户能够访问并消费媒体内容。内容共享网络常常包括允许用户与其他用户一起存储和共享媒体内容的各方面。媒体内容可以包括视频内容、音频内容、其他内容或它们的组合。内容可以包括来自专业内容创建者的内容，例如电影、电视剪辑和音乐，以及来自业余内容创建者的内容，例如视频博客和短原创视频。常常以最小限制共享媒体内容以鼓励使用和散布内容。

发明内容

下文是本公开的简化发明内容以便提供对本公开的一些方面的基本理解。此发明内容不是本公开的广泛概要。它既不旨在识别本公开的关键或决定性元素，也不旨在划定本公开的特定实施方式的任何范围或权利要求的任何范围。其唯一目的是为了以简化形式呈现本公开的一些构思作为稍后呈现的更详细描述的序言。

在本公开的第一方面中，提供了一种方法。该方法包括：确定第一媒体语料库的多个搜索事件的搜索特性；识别第二媒体语料库的搜索事件的集合，其中，搜索事件的集合与搜索特性相对应并且包括引用多个媒体源的搜索事件；从搜索事件的集合中提取与第二媒体语料库相关联的媒体源的集合；由处理设备基于媒体源的度量从媒体源的集合中选择媒体源，其中，度量基于引用媒体源的搜索事件；以及将内容从所选择的与第二媒体语料库相关联的媒体源并入到第一媒体语料库中。

该方法可以进一步包括：分析包括第一媒体语料库的多个搜索事件的日志，其中，多个搜索事件中的至少一个包括搜索词语并且被链接到搜索特性。

搜索特性可以包括知识图标识符。

第一媒体语料库可以包括含有针对在特定年龄范围内的一类个体的内容特性的媒体项的合集。

媒体源可以包括媒体通道并且内容包括视频内容。

提取媒体源的集合可以包括识别由第二媒体语料库的搜索事件的集合所引用的媒体通道的集合。

从与第二媒体语料库相关联的媒体源的集合中选择媒体源可以包括：识别在集合中引用媒体源的搜索事件，其中，所识别的搜索事件中的每一个均包括媒体源的次序；确定媒体源在次序内的位置；以及基于媒体源的位置和与搜索特性相对应的搜索事件的集合中的搜索事件的量来计算媒体源的度量；以及选择具有最大预定度量的媒体源。

预定度量可以是最大度量。

该方法可以进一步包括鉴于以下等式基于媒体源在搜索事件的集合中的平均排名r和媒体源的违反值pv来计算媒体源的度量：度量＝1/(r*(pv+1))。

确定第一媒体语料库的多个搜索事件的搜索特性可以包括：将第一媒体语料库的搜索事件分类为多个组；基于预定阈值选择多个组中的一个或多个组；识别与一个或多个搜索事件组相关联的多个搜索特性；以及将多个搜索特性合并为唯一搜索特性的集合；以及基于与搜索特性相关联的搜索事件的量从唯一搜索特性的集合中选择搜索特性。

在本公开的第二方面，提供了一种***，包括：存储器；以及通信地耦合到存储器的处理设备，该处理设备被配置成执行根据第一方面的方法。

在本公开的第三方面中，提供了一种非暂时性计算机可读存储介质，其包括使处理设备执行根据第一方面的方法的指令。

附图说明

在附图的图中以示例而非限制的方式图示本公开。

图1图示依照本公开的实现方式的示例***架构。

图2是图示依照本公开的实现方式的具有组件和模块的示例计算设备的框图。

图3是图示依照本公开的实现方式的方法的示例的流程图。

图4是图示依照本发明的实现方式的计算设备的另一实例的框图。

当结合以下详细描述进行观察时，可以更好地理解这些附图。

具体实施方式

现代内容共享平台常常组织内容以更好地使得用户能够查找和消费内容。内容可以被以任何方式组织并且被常常组织成多个媒体源。媒体源可以以类似于媒体通道的方式起作用并且可以基于可从公共源获得的内容或具有公共话题或题材的内容。内容共享平台也可以基于特定类别的个体(例如，儿童)组织内容。可能需要仔细地选择对这些类别的个体可用的内容以确保不包括不适当的内容。识别哪些内容可用于消费和哪些内容不可用于消费可以被称为内容策展。

内容策展可以涉及选择哪些条内容适于特定类别的个体并且可以包括手动或自动内容策展。内容策展常常是有挑战性的，因为媒体源被激励提供利用选择技术并规避任何内容限制的内容。常常通过分析数字媒体的内容来实施内容限制。在一个示例中，内容共享平台可以创建定制内容分类器(例如，机器学习分类器)，该定制内容分类器能够识别并去除特定类型的不适当的内容。分析内容本身可能是有问题的，因为数字图像处理技术可能是资源密集的并且定制内容分类器可能花时间训练。

本公开的各方面和实现方式涉及用于基于对内容源的分析而不是仅对内容本身的分析来并入或限制内容的技术。在一个示例中，该技术可以涉及分析搜索事件，这些搜索事件可以与由试图识别消费用内容的最终用户所发起的搜索查询相对应。这些搜索事件中的一些可以与第一媒体语料库相对应，并且这些搜索事件中的一些可以与第二媒体语料库相对应。第一媒体语料库可以包括被视为适于特定类别的个体(例如，儿童)的受限内容集(例如，审查的媒体语料库)，而第二媒体语料库可以包括较大且较少受限内容集(例如，一般媒体语料库)。该技术可以分析第一媒体语料库的搜索事件以确定为第一媒体语料库的搜索事件共有的搜索特性(例如，话题、题材)。这可以指示令内容消费者感兴趣的但是在第一媒体语料库中缺少的内容。

该技术可以使用搜索特性来识别第二媒体语料库的与相同或类似的搜索特性相对应的搜索事件的集合。第二媒体语料库的搜索事件的集合可以包括引用与搜索特性有关的多个媒体源(例如，提供正在搜索的视频内容的媒体通道)的搜索事件。该技术可以分析第二媒体语料库的搜索事件以提取媒体源的集合并针对每个媒体源计算度量。该度量可以充当媒体源的信誉等级(例如，信任分数)并且可以基于引用媒体源的搜索事件的数目以及与媒体源相关联的评级和违反。该度量可以用于选择第二媒体语料库的能够用于将内容并入到第一媒体语料库中的媒体源。选择具有有利的度量(例如，高信任分数)的源可以增强并入到第一媒体语料库中的内容，并且使内容包括对第一媒体语料库的消费者(例如，儿童观看者)将是不可接受的不适当的内容的风险最小化。

本文描述的***和方法包括通过解决与如何确定内容并限制在内容共享平台中共享内容相关联的技术问题来增强内容共享平台的技术领域的技术。特别地，所公开的技术通过并入媒体源度量来改进内容策展和限制技术，使得这些技术能够更准确地检测不适当的内容并且对分类器利用更具抵抗力。这可以通过包括对媒体源的分析作为仅对内容的分析的补充或替代方案来实现。可以通过分析包括对搜索词语和特定搜索结果的历史用户选择的搜索事件来进一步提高准确性。

图1图示依照本公开的实现方式的用于测量媒体源并将内容并入到受限媒体语料库中的示例***架构100。***架构100可以包括内容共享平台110、计算设备120、一个或多个客户端设备120A-Z和网络140。

内容共享平台110可以是可以用于给用户提供对媒体项的访问和/或将媒体项提供给用户的一个或多个计算设备(诸如机架式服务器、服务器计算机、个人计算机、主机计算机、膝上型计算机、平板计算机、台式计算机、路由器等)、数据存储(例如，硬盘、存储器、数据库)、网络、软件组件和/或硬件组件。例如，内容共享平台110可以允许用户消费、上传、搜索、赞成(“喜欢”)、不喜欢和/或以其他方式评论媒体项。内容共享平台110可以包括给用户提供对媒体项114A-Z的访问的一个或多个网站(例如，网页)或一个或多个应用(例如，移动app)。

媒体项114A-Z可以包括但不限于数字视频、数字电影、数字照片、数字音乐、网站内容、社交媒体更新、电子书(e-books)、电子杂志、数字报纸、数字有声读物、电子期刊、web博客、简易信息聚合(RSS)订阅源、电子漫画书、软件应用等。在一些实现方式中，媒体项可以被称为内容项并且可以经由互联网和/或经由移动设备应用来消费。为了简洁和简单，在本文档中自始至终将在线视频(在下文中也称为视频)用作媒体项的示例。如本文所使用的，“媒体”、“媒体项”、“在线媒体项”、“数字媒体”、“数字媒体项”、“内容”和“内容项”能够包括能够使用被配置成将数字媒体项呈现给实体的软件、固件或硬件来执行或加载的电子文件或记录。在一个实现方式中，内容共享平台110可以使用一个或多个数据存储来存储媒体项114A-Z。媒体项可以与第一媒体语料库、第二媒体语料库或它们的组合相关联。

第一媒体语料库116A和第二媒体语料库116B可以各自是可在内容共享平台110上获得的媒体项的合集。第一媒体语料库116A可以是包括旨在更适于特定类别的个体的内容的受限合集。也可以将受限合集称为审查合集、受保护合集、其他合集或它们的组合。第一媒体语料库116A可以具有基于与第一媒体语料库116A相关联的特定类别的个体包括或排除一个或多个内容特性的媒体项。特定类别的个体可以与该类别的一个或多个人类特性相关联并且可能与成熟度水平(例如，年龄组)、心智容量(例如，四年级理解水平)、残疾(例如，色盲、听力障碍、视觉障碍)、其他常见特征或它们的组合有关。媒体项的内容特性可以涉及内容的题材并且指示暴力、亵渎、裸露、物质滥用、其他分类或它们的组合的存在与否。内容特性可能与一个或多个分类或范畴(例如，一般观众(G)、建议父母指导(PG)、父母强烈警告(PG-13)、限制(R))有关。内容特性也可以涉及是否存在特定角色(例如，主角)、视觉方面(例如，动画、非动画)、音频方面(例如，语言地区、单词复杂性)、其他内容特性或它们的组合。

第二媒体语料库116B可以是与可在内容共享平台110上获得的内容中的一些或全部相关联的媒体项的一般合集。第二媒体语料库116B与第一媒体语料库116A相比可能不太受限制(例如，较少审查)。与第一媒体语料库116A和第二媒体语料库116B相关联的媒体项的合集可以重叠，或者第一媒体语料库116A的媒体项的合集可以包括一个或多个合集专有的并且被从其他合集中排除的媒体项。在一个示例中，第一媒体语料库116A可以是缺少可在第二媒体语料库116B上获得的内容的一部分的受限媒体语料库。受限媒体语料库可以包括具有针对一个或多个特定类别的个体(例如，特定年龄范围的儿童)的内容特性的媒体项。

媒体源112A-Z可以以类似于媒体通道的方式起作用并且可以基于可从公共源获得的内容或具有公共话题或题材的内容。媒体源112A-Z可以向一个或多个用户提供媒体项并且可以识别可从公共源获得的内容或具有公共话题或题材的数据内容。媒体源112A-Z可以通过向内容共享平台添加媒体项或者通过识别已经存在于内容共享平台上的现有媒体项来提供媒体。媒体项可以由实体添加到内容共享平台110并且可以包括由实体创建的用户生成的内容(例如，原创内容)或者可以包括被添加或再现以在内容共享平台110上提供的现有内容。媒体项可以包括由实体选取的数字内容、由实体提供的数字内容、由实体上传的数字内容、由内容提供商选取的数字内容、由广播公司选取的数字内容等。例如，媒体源112A能够包括一个或多个视频。

媒体源112A-Z中的每一个均可以与为相应媒体源提供输入的实体(例如，所有者)相关联。输入可以代表媒体源发起动作并且可以归因于媒体源的活动。输入可以是由人类用户或由机器人(例如，软件机器人、网络机器人、互联网机器人)提供的用户输入。媒体源的活动可以遵守或违反由内容共享平台110提供和实施的策略(例如，指南、标准、规则、法规、最佳实践)。违反策略的媒体源的活动可以通过与媒体源、实体、媒体项或它们的组合相关联的违反值(pv)来表示。违反值可以是数值或非数值并且包括一个或多个整数、十进制值、百分比、字母、比率、其他值或它们的组合。在一个示例中，违反值可以是已经在媒体源存在期间或在特定持续时间(例如，一天、一周、一年、十年等)期间发生的一个或多个违反(例如，不适当的媒体项上传的实例)的累积计数。与媒体源相关联的活动可以包括使数字内容变得可用、选择与另一媒体源相关联的现有数字内容(例如，喜欢、链接、标记)、对数字内容进行评论等。能够将与媒体源相关联的活动收集到与媒体源相关联的活动源或配置文件中。除媒体源的所有者以外的用户能够订阅一个或多个媒体源以被呈现有来自媒体源的活动源的信息。如果用户订阅了多个媒体源，则能够将用户订阅的每个媒体源的活动源组合成聚合活动源。能够将来自聚合活动源的信息呈现给用户。

计算设备120可以是一个或多个计算设备(例如，机架式服务器、服务器计算机等)，其能够分析内容共享平台110的各方面以从第一媒体语料库116A、第二媒体语料库116B或它们的组合中添加或去除内容。计算设备120可以与内容共享平台110集成在一起或者可以与内容共享平台110分开。在一个示例中，计算设备120可以包括事件分析组件122、媒体源分析组件124和内容并入组件126。事件分析组件122可以使得计算设备120能够分析内容共享平台110的搜索事件。搜索事件可以与由试图识别消费用内容的最终用户所发起的搜索查询相对应。这些搜索事件中的一些可以与第一媒体语料库116A相对应，并且这些搜索事件中的一些可以与第二媒体语料库116B相对应。搜索事件可以提供指示正在相应媒体语料库中搜索的特性(例如，话题)的数据。搜索事件也可以提供数据相关媒体源112A-Z，这些数据相关媒体源提供与正在第一媒体语料库116A中搜索的特性有关的内容。媒体源分析组件124可以分析并测量从第二媒体语料库116B的搜索事件中提取的媒体源。内容并入组件126然后可以选择媒体源中的一个(例如，具有最大度量的媒体源)并且执行内容并入118以更新第一媒体语料库116A以包括来自第二媒体语料库116B的内容。在下面关于图2更详细地描述组件122、124和126及其功能的进一步描述。

客户端设备130A-Z可以各自包括诸如个人计算机(PC)、膝上型电脑、移动电话、智能电话、平板计算机、上网本计算机等的计算设备。在一些实现方式中，客户端设备130A-Z也可以被称为“用户设备”。每个客户端设备可以包括媒体查看器132A-Z，其可以是使得用户能够查看诸如图像、视频、网页、文档等的媒体项的应用。在一个示例中，媒体查看器可以是独立或专用应用(例如，移动应用)的一部分。在另一示例中，可以将媒体查看器132A-Z并入到能够访问、检索、呈现和/或导航由web服务器服务的内容(例如，诸如超文本标记语言(HTML)页面的网页、数字媒体项等)的通用web浏览器中。在任何一个示例中，媒体查看器132A-Z可以使得客户端设备120A-Z能够向用户呈现媒体项(例如，数字视频、数字图像、电子书等)。媒体查看器可以向用户渲染、显示和/或呈现内容(例如，媒体项)。媒体查看器132A-Z可以由计算设备120和/或内容共享平台110提供给客户端设备130A-Z。

通常，在一个实现方式中描述为由计算设备120、内容共享平台110或客户端设备120A-Z执行的功能在其他实现方式中可以由其他设备或平台中的一个或多个来执行。此外，归因于特定组件的功能能够由一起操作的不同或多个组件来执行。内容共享平台110也可以作为通过适当的应用编程接口提供给其他***或设备的服务被访问，并且因此不限于在网站中使用。尽管在内容共享平台方面讨论了本公开的实现方式，但是这些实现方式也可以并入提供用户之间的连接的社交网络服务150的一个或多个特征。

在本文讨论的***收集关于客户端设备或用户的个人信息或者可以利用个人信息的情形下，可以给用户提供控制内容共享平台110是否能够收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前位置的信息)或者控制是否和/或如何从内容服务器接收与用户更相关的内容的机会。此外，某些数据在它被存储或使用之前可以被以一种或多种方式处理，使得个人可识别的信息被去除。例如，可以处理用户的身份，使得对于该用户不能确定个人可识别的信息，或者可以在获得位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定位置。因此，用户可以控制如何收集关于用户的信息以及如何由内容共享平台110使用。

网络140可以包括公用网络(例如，互联网)、专用网络(例如，局域网(LAN)或广域网(WAN))、有线网络(例如，以太网网络)、无线网络(例如，802.11网络或Wi-Fi网络)、蜂窝网络(例如，长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机和/或其组合。

图2描绘依照本公开的一个或多个方面的图示示例性计算设备120的框图，该示例性计算设备包括用于分析搜索事件以识别并选择用于将内容并入到第一媒体语料库(例如，审查合集)中的媒体源的技术。计算设备120可以包括事件分析组件122、媒体源分析组件124和内容并入组件126。可以在不失一般性的情况下包括更多或更少的组件或模块。例如，可以将这些组件中的两个或更多个组合成单个组件，或者可以将一组件的特征划分成两个或更多个组件。在一个实现方式中，这些组件中的一个或多个可以驻留在不同的计算设备(例如，服务器设备和客户端设备)上。

事件分析组件122可以使得计算设备120能够分析从内容共享平台110的搜索事件导出的搜索事件数据242。在一个示例中，事件分析组件122可以包括事件访问模块212、统计模块214和特性确定模块216。

事件访问模块212可以使得计算设备120能够访问内容共享平台的搜索事件。搜索事件可以与由试图识别消费用内容的客户端设备所发起的搜索请求或搜索查询相对应。搜索事件可以包括或指示一个或多个搜索词语、搜索结果、用户选择、其他数据或它们的组合。搜索词语可以包括文本数据(例如，关键词)、图像数据(例如，图片)、音频数据(例如，音轨)、其他数据或它们的组合。搜索结果可以包括一个或多个媒体项、媒体源、其他数据或它们的组合。可以从一个或多个通信通道(例如，搜索API、日志API、企业总线)或者从一个或多个数据结构访问搜索事件。在一个示例中，可以从日志数据结构访问搜索事件。

日志数据结构可以包括表示相应搜索事件的一个或多个条目。日志数据结构可以包括日志文件、日志数据库、其他日志数据结构或它们的组合。可以将日志数据结构称为事件日志、web日志、数据日志、消息日志、事务日志、日记、其他事件跟踪构造或它们的组合。在一个示例中，第一媒体语料库和第二媒体语料库可以具有单独的日志数据结构。在另一示例中，第一媒体语料库和第二媒体语料库可以共享一个或多个日志数据结构，并且日志数据结构或事件可以指示它们是否与第一媒体语料库、第二媒体语料库或它们的组合相对应。在任何一个示例中，事件访问模块212可以访问日志数据结构并且检索与一个或多个搜索事件的各部分相对应的搜索事件数据。

统计模块214可以分析搜索事件并且基于这些搜索事件确定统计数据。统计数据可以表示一个或多个搜索事件或一个或多个搜索事件组并且可以指示搜索事件的发生量或组内的搜索事件的数目。统计模块214可以执行包括将媒体语料库的搜索事件组织成一个或多个组的聚类、分类、整理、其他操作或它们的组合的操作。组内的搜索事件可以与特定持续时间、语言地区、地理区域、媒体语料库、搜索特性、其他方面或它们的组合相对应。在一个示例中，统计模块214可以在每个语言地区(例如，英语地区、西班牙语地区、俄语地区、日语地区等)中以响应(例如，点击)指示最流行的搜索事件(例如，搜索查询)。在另一示例中，统计模块214可以指示与特定搜索特性有关的搜索事件组内最流行的媒体源。在任何一个示例中，组可以包括特定于第一媒体语料库、第二媒体语料库或它们的组合的搜索事件。

特性确定模块216可以确定与搜索事件组相关联的一个或多个搜索特性。搜索特性可以作为特性数据244被存储并且可以是与搜索事件或搜索事件组有关的任何特性。如以上所讨论的，搜索事件可以是搜索请求或搜索查询并且可以与一个或多个搜索词语和搜索结果相关联。搜索词语可以与文字含义、语义含义或它们的组合相关联。搜索特性可以表示与搜索事件相关联的含义并且可以与话题、题材、主题、分类、范畴、其他概念或它们的组合相同或类似。搜索特性可以与搜索事件中的一个或多个或搜索事件的各部分相关联。例如，搜索特性可以总体上与搜索事件相关联或者可以与搜索事件的一部分(诸如搜索词语、搜索结果或用户选择数据、其他部分或它们的组合中的一个或多个)相关联。

特性确定模块216可以访问事件访问模块212和统计模块214的数据以确定与流行的搜索事件(例如，最流行的搜索查询)相关联的搜索特性。如以上所讨论的，统计模块214可以在第一媒体语料库内识别最流行的搜索事件组。最流行的搜索事件组可以表示用户正在请求从第一媒体语料库访问的内容，该内容可以是媒体项的审查合集。内容在第一媒体语料库内可以是或可能不是可用的，但是搜索事件的存在可以指示期望包括内容。特性确定模块216可以分析每个组以识别与该组相关联的搜索特性。

在一个示例中，特性确定模块216可以通过基于一个或多个搜索词语或搜索特性将第一媒体语料库的搜索事件分类或聚类成多个组来确定第一媒体语料库的多个搜索事件的搜索特性。特性确定模块216然后可以基于预定阈值选择多个组中的一个或多个组。阈值可以基于搜索事件的数目、组中的搜索事件的数目、组的数目、其他数目或它们的组合。特性确定模块216然后可以识别与满足(例如，高于或低于)预定阈值的一个或多个搜索事件组相关联的多个搜索特性。可以将搜索特性向下合并为去除或汇合了相同或类似的搜索特性的唯一搜索特性的集合。在一个示例中，特性确定模块216可以分析来自第一媒体语料库的在特定持续时间(例如，过去一天、一周、一月等)期间和/或按用户在一个或多个语言地区中的每一个中的选择而组成搜索事件的前X％(例如，20％)搜索事件组。

搜索特性可以通过知识图的一个或多个标识符来表示。知识图可以是存储本体数据和知识图标识符的数据结构。本体数据可以包括事实项的正式或非正式名称和定义、事实项的类型、性质和相互关系。知识图标识符(KG ID)可以包括与特定概念(例如，事实项、话题、题材)相对应的识别数据(例如，数值或非数值数据)。知识图标识符可以被指配、链接或与媒体项(例如，视频)、媒体源(例如，视频通道)、搜索事件(例如，搜索词语或结果)、其他对象或它们的组合相关联并且可以指示对象是否涉及与知识图标识符相对应的概念。知识图可以与知识库、知识引擎、知识组织、其他事实存储或它们的组合相同或类似。在一个示例中，可能存在覆盖所有媒体项的特性的单个知识图。在另一示例中，可能存在多个知识图并且每个知识图都可以覆盖特定邻域或区域。

特性确定模块216也可以使搜索事件或搜索事件组与搜索特性相关联。在一个示例中，特性确定模块216可以使搜索事件与对应搜索特性相关联(例如，指配、标记具有对应搜索特性的搜索事件)。在另一示例中，特性确定模块216可以访问和分析已经被指配了搜索特性的搜索事件。搜索特性可能已经由计算设备120、由内容共享平台、其他计算设备或它们的组合指配。

媒体源分析组件124可以通过基于第一媒体语料库的搜索特性分析第二媒体语料库的搜索事件来发现媒体源。媒体源分析组件124然后可以分析媒体源并且计算表示媒体源的信誉(例如，可信赖度)的度量。在一个示例中，媒体源分析组件124可以包括事件集合模块222、源提取模块224和度量计算模块226。

事件集合模块222可以识别第二媒体语料库的与从第一媒体语料库导出的一个或多个搜索特性相对应的搜索事件的集合。事件集合模块222可以扫描与第二媒体语料库相关联的日志数据结构并且返回与一个或多个搜索特性有关的搜索事件。事件集合模块222可以将这些搜索事件存储为事件集合数据246。搜索事件中的每一个均可以包括引用一个或多个媒体源的搜索结果。引用可以与从搜索引擎返回的搜索结果相同或类似并且可以包括到可从媒体源获得的媒体项的链接。

源提取模块224可以分析搜索事件的集合并提取媒体源。在集合中可以有许多搜索事件并且这些搜索事件中的一个或多个可以引用相同的媒体源。源提取模块224可以组合(例如，过滤、汇合、去重复)搜索事件的源并且产生唯一媒体源的集合。该集合中的媒体源中的每一个均可以与第二媒体语料库相关联并且可以将识别媒体源的数据存储在源集合数据248内。在一个示例中，媒体源可以是提供视频内容的媒体通道。

度量计算模块226可以分析媒体源的集合并生成媒体源的度量。可以将度量作为度量数据249存储在数据存储240中。度量可以与评级、分数、点数、权重、分级、排名、其他评估值或它们的组合相同或类似。度量可以包括数值或非数值数据并且可以指示用于提供违反或不违反策略的媒体项的媒体源的信誉。媒体源的度量可以基于引用媒体源的搜索事件的量和/或媒体源在搜索事件的搜索结果内的排名。在一个示例中，可以鉴于以下等式基于媒体源在搜索事件的集合中的平均排名(r)并且基于媒体源的违反值(pv)来计算媒体源的度量：度量＝1/(r*(pv+1))。在其他示例中，媒体源的度量也可以或可替换地基于有关通过搜索事件的搜索结果引用的媒体源的历史用户反馈(例如，点击计数)。

在一个示例中，度量计算模块226可以分析包括搜索结果的次序的搜索事件。度量计算模块226可以确定在媒体源的次序(例如，排名)内的位置并且将它用作度量计算的一部分。模块226也可以考虑与搜索特性相对应的搜索事件集中的搜索事件的量(例如，以使其成为累积排名或平均排名)。其他数据可以用于计算度量并且可以包括违反值、参与值(例如，喜欢、共享、收藏)、消费值(例如，消费的量和/或持续时间)、收视率值(例如，唯一或非唯一观众者的数目)、其他值或它们的组合中的一个或多个。

内容并入组件126可以选择媒体源并且更新第一媒体语料库116A以包括可从第二媒体语料库116B获得的内容。在一个示例中，内容并入组件126可以包括源选择模块232、内容识别模块234和媒体语料库更新模块236。

源选择模块232可以从由源提取模块224识别的媒体源的集合中选择媒体源。选择可以基于度量计算模块226的一个或多个度量。在一个示例中，源选择模块232可以基于度量对媒体源的集合进行排序并且选择具有最高值或最低值的媒体源。

内容识别模块234可以基于所选择的媒体源识别内容。在一个示例中，媒体源可以识别特定媒体项。在另一示例中，媒体源可以识别提供多个不同的媒体项的媒体通道并且内容识别模块234可以搜索媒体通道以识别与搜索特性相对应的媒体项。在任何一个示例中，计算设备可以访问媒体项或媒体项识别数据(例如，链接)并且将该信息提供给媒体语料库更新模块236。

媒体语料库更新模块236可以更新第一媒体语料库以包括第二媒体语料库的媒体项。第二媒体语料库可以包括相同或类似的媒体项并且可以鉴于由内容识别模块234提供的数据从所选择的媒体源中选取媒体项。将内容并入到第一媒体语料库中可以涉及更新与第一媒体语料库相关联的媒体项的合集的媒体识别数据。在一个示例中，可能不在更新期间修改或拷贝媒体项的内容，并且可以在更新中仅涉及媒体项的识别信息。在另一示例中，可以将媒体项的内容拷贝(例如，复制、重复)到第一媒体语料库可访问的新存储位置。

数据存储240可以是存储器(例如，随机存取存储器)、高速缓存、驱动器(例如，硬盘驱动器)、闪存驱动器、数据库***、或能够存储数据的另一类型的组件或设备。数据存储240还可以包括也可以跨越多个计算设备(例如，多个服务器计算机)的多个存储组件(例如，多个驱动器或多个数据库)。

图3描绘依照本公开的一个或多个方面的用于分析搜索事件以识别要在将内容并入到受限媒体语料库中时使用的媒体源的方法300的一个说明性示例的流程图。方法300及其每个单独的功能、例程、子例程或操作可以由执行该方法的计算机设备的一个或多个处理器来执行。在某些实现方式中，方法300可以由单个计算设备来执行。或者，方法300可以由两个或更多个计算设备来执行，每个计算设备执行方法的一个或更多个单独的功能、例程、子例程或操作。

为了简化说明，将本公开的方法描绘和描述为一系列行为。然而，根据本公开的行为可以以各种顺序和/或同时发生，以及与本文未呈现和描述的其他行为一起发生。此外，可能并不需要所有图示的行为来实现根据所公开的主题的方法。另外，本领域的技术人员将理解和领会，可以经由状态图或事件将方法可替代地表示为一系列相关的状态。另外，应领会到，在本说明书中公开的方法能够存储在制品上，以促进将此类方法输送并转移到计算设备。如本文中所使用的术语“制品”旨在包含可从任何计算机可读设备或存储介质访问的计算机程序。在一个实施方式中，方法300可以由图1和图2中的组件122、124和126执行。

方法300可以由服务器设备或客户端设备的处理设备来执行并且可以在框302处开始。在框302处，处理设备可以确定第一媒体语料库的多个搜索事件的搜索特性。确定搜索特性可以涉及基于一个或多个搜索特性将第一媒体语料库的搜索事件分类为多个组。可以基于预定阈值选择多个组中的一个或多个(例如，最流行的组)。处理设备可以识别与一个或多个搜索事件组相关联的多个搜索特性并且将多个搜索特性合并为唯一搜索特性的集合。处理设备然后可以基于与搜索特性相关联的搜索事件的数目从唯一搜索特性的集合中选择搜索特性。在一个示例中，确定搜索特性可以涉及分析包括第一媒体语料库的搜索事件的日志(例如，日志数据结构)。第一媒体语料库的搜索事件中的每一个均可以包括搜索词语并且可以被链接到(例如，标记有)搜索特性。

在框304处，处理设备可以识别第二媒体语料库的搜索事件的集合。搜索事件的集合可以与搜索特性相对应并且可以包括引用多个媒体源的搜索事件。搜索特性可以是知识图标识符，并且处理设备可以搜遍第二媒体语料库的搜索事件以识别与从第一媒体语料库中发现的知识图标识符有关的搜索事件的集合。在一个示例中，处理设备可以通过分析包括第二媒体语料库的搜索事件的日志来识别该集合。第二媒体语料库的搜索事件中的每一个均可以包括搜索词语和引用多个媒体源的搜索结果。

在框306处，处理设备可以从搜索事件的集合中提取与第二媒体语料库相关联的媒体源的集合。每个媒体源可以是提供视频内容的媒体通道，并且提取媒体源的集合可以涉及识别由第二媒体语料库的搜索事件的集合所引用的媒体通道的集合。在一个示例中，第一媒体语料库可以包括受限视频语料库(例如，审查语料库)并且缺少可在第二媒体语料库中获得的内容的一部分。受限视频语料库可以是具有适应特定类别的个体的内容特性的媒体项的集合。个体的类别可以基于儿童观看者的特定年龄范围。

在框308处，处理设备可以基于媒体源的度量从媒体源的集合中选择媒体源。度量可以基于引用媒体源的搜索事件。从集合中选择媒体源可以涉及识别引用媒体源的搜索事件。在一个示例中，所识别的搜索事件中的每一个均可以包括所引用的媒体源的次序并且处理设备可以确定特定媒体源在该次序内的位置。处理设备可以基于与搜索特性相对应的集合的搜索事件的位置和量来计算针对特定媒体源的度量。处理设备然后可以选择具有最大度量的媒体源。在一个示例中，处理设备可以鉴于以下等式基于媒体源在搜索事件的集合中的平均排名(r)并且基于媒体源的违反值(pv)来计算媒体源的度量：度量＝1/(r*(pv+1))。

在框310处，处理设备可以将内容从与第二媒体语料库相关联的媒体源并入到第一媒体语料库中。将内容并入到第一媒体语料库中可以涉及更新与第一媒体语料库相关联的媒体项的合集的媒体识别数据。在一个示例中，可能不在更新期间移动或拷贝媒体项的内容，并且可以在更新中仅涉及媒体项的识别信息。在另一示例中，可以将媒体项的内容拷贝(例如，复制、重复)到第一媒体语料库可访问的新存储位置。响应于完成在上文参考框310描述的操作，方法可以终止。

图4是图示根据本公开的一个或者多个方面操作的计算机***的框图。在各种说明性示例中，计算***400可以对应于图1和图2的计算设备120。计算***可以被包括在支持虚拟化的数据中心内。在某些实施方式中，计算机***400可以(例如，经由诸如局域网(LAN)、内联网、外联网或互联网这样的网络)连接到其它计算机***。计算机***400可以在客户端-服务器环境中以服务器或客户端计算机身份操作，或者在对等或分布式网络环境中作为对等计算机来操作。计算机***400可以通过个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web设备、服务器、网络路由器、交换机或桥接器或能够执行指定要由该设备采取的操作的一组指令(顺序的或其他)的任何设备来提供。另外，术语“计算机”应包括单独地或共同地执行一组(或多组)指令以执行本文描述的方法中的任何一种或多种的计算机的任何合集。

在另一个方面中，计算机***400可以包括可以经由总线408相互通信的处理设备402、易失性存储器404(例如，随机存取存储器(RAM))、非易失性存储器406(例如，只读存储器(ROM))或电可擦除可编程ROM(EEPROM)和数据存储设备416。

处理设备402可以通过一个或多个处理器来提供，所述一个或多个处理器诸如通用处理器(诸如例如复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器)、甚长指令字(VLIW)微处理器、实现其它类型的指令集的微处理器或实现各类型的指令集的组合的微处理器)或专用处理器(诸如例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或网络处理器)。

计算机***400可以进一步包括网络接口设备422。计算机***400还可以包括视频显示单元410(例如，LCD)、字母数字输入设备412(例如，键盘)、光标控制设备414(例如，鼠标)和信号生成设备420。

数据存储设备416可以包括非暂时性计算机可读存储介质424，在其上可以存储对本文描述的方法或功能中的任何一个或多个进行编码的指令426，包括用于实现方法300和用于图1和图2的媒体源分析组件124的指令。

指令426还可以在其由计算机***400执行期间完全地或部分地驻留在易失性存储器404内和/或处理设备402内，因此，易失性存储器404和处理设备402还可以构成机器可读存储介质。

虽然计算机可读存储介质424在说明性示例中被示出为单个介质，但是术语“计算机可读存储介质”应包括单个介质或存储一组或多组可执行指令的多个介质(例如，集中式或分布式数据库和/或相关高速缓存和服务器)。术语“计算机可读存储介质”还应包括能够对由计算机执行的一组指令进行存储或者编码的有形介质，并且使计算机执行本文描述的方法中的任何一种或多种。术语“计算机可读存储介质”应包括但不限于固态存储器、光学介质和磁介质。

本文描述的方法、组件和特征可以由分立硬件组件实现或者可以被集成在诸如ASIC、FPGA、DSP或类似器件的其它硬件组件的功能中。此外，可以通过硬件资源内的固件模块或功能电路来实现方法、组件和特征。另外，方法、组件和特征可以用硬件资源和计算机程序组件的任何组合或者计算机程序来实现。

除非另外具体地陈述，否则诸如“发起”、“发送”、“接收”、“分析”、等这样的术语指代由计算机***执行或者实现的操作和过程，这些操作和过程将被表示为计算机***寄存器和存储器内的物理(电子)量的数据操纵并变换成被类似地表示为计算机***存储器或寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。另外，如本文所使用的术语“第一”、“第二”、“第三”、“第四”等是指用于区分不同元素的标签并且可能不具有根据其数字名称的序数含义。

本文描述的示例还涉及用于执行本文描述的方法的装置。此装置可以被特别构造用于执行本文描述的方法，或者它可以包括通过存储在计算机***中的计算机程序选择性地编程的通用计算机***。这样的计算机程序可以被存储在计算机可读有形存储介质中。

本文描述的方法和说明性示例不与任何特定计算机或其它装置固有地相关。可以根据本文描述的教导来使用各种通用***，或者可以证明构造更专用的装置来执行方法300和/或其单独的功能、例程、子例程或操作中的每一个是方便的。在以上描述中阐述了各种这些***的结构的示例。

以上描述旨在为说明性的，而不是限制性的。尽管已经参考具体说明性示例和实施方式描述了本公开，但是应认识到，本公开不限于所描述的示例和实施方式。应该参考所附权利要求以及权利要求所享有的等同物的完全范围来确定本公开的范围。

Claims

1.一种方法，包括：

确定第一媒体语料库的多个搜索事件的搜索特性；

识别第二媒体语料库的搜索事件的集合，其中，所述搜索事件的集合与所述搜索特性相对应并且包括引用多个媒体源的搜索事件；

从所述搜索事件的集合中提取与所述第二媒体语料库相关联的媒体源的集合；

由处理设备基于所述媒体源的度量从所述媒体源的集合中选择媒体源，其中，所述度量基于引用所述媒体源的搜索事件；以及

将内容从所选择的与所述第二媒体语料库相关联的媒体源并入到所述第一媒体语料库中。

2.根据权利要求1所述的方法，进一步包括：分析包括所述第一媒体语料库的多个搜索事件的日志，其中，所述多个搜索事件中的至少一个包括搜索词语并且被链接到所述搜索特性。

3.根据权利要求1或2所述的方法，其中，所述搜索特性包括知识图标识符。

4.根据权利要求1、2或3所述的方法，其中，所述第一媒体语料库包括包含针对在特定年龄范围内的一类个体的内容特性的媒体项的合集。

5.根据任一前述权利要求所述的方法，其中，所述媒体源包括媒体通道并且所述内容包括视频内容。

6.根据任一前述权利要求所述的方法，其中，提取所述媒体源的集合包括识别由所述第二媒体语料库的所述搜索事件的集合所引用的媒体通道的集合。

7.根据任一前述权利要求所述的方法，其中，从与所述第二媒体语料库相关联的所述媒体源的集合中选择所述媒体源包括：

识别在所述集合中引用所述媒体源的搜索事件，其中，所识别的搜索事件中的每一个均包括媒体源的次序；

确定所述媒体源在所述次序内的位置；并且

基于所述媒体源的位置和与所述搜索特性相对应的所述搜索事件的集合中的搜索事件的量来计算所述媒体源的度量；以及

选择具有预定度量的所述媒体源。

8.根据权利要求7所述的方法，其中，所述预定度量是最大度量。

9.根据任一前述权利要求所述的方法，进一步包括鉴于以下等式基于所述媒体源在所述搜索事件的集合中的平均排名r并且基于所述媒体源的违反值pv来计算所述媒体源的度量：

度量＝1/(r*(pv+1))。

10.根据任一前述权利要求所述的方法，其中，确定所述第一媒体语料库的多个搜索事件的搜索特性包括：

将所述第一媒体语料库的搜索事件分为多个组；

基于预定阈值选择所述多个组中的一个或多个组；

识别与所述搜索事件的一个或多个组相关联的多个搜索特性；并且

将所述多个搜索特性合并为唯一搜索特性的集合；以及

基于与所述搜索特性相关联的搜索事件的量从所述唯一搜索特性的集合中选择所述搜索特性。

11.一种***，包括：

存储器；和

处理设备，所述处理设备通信地耦合到所述存储器，所述处理设备被配置成执行根据权利要求1至10中的任一项所述的方法。

12.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括用于使处理设备执行根据权利要求1至10中的任一项所述的方法的指令。