CN106462588B - 来自所提取的内容的内容创建 - Google Patents
来自所提取的内容的内容创建 Download PDFInfo
- Publication number
- CN106462588B CN106462588B CN201580015033.6A CN201580015033A CN106462588B CN 106462588 B CN106462588 B CN 106462588B CN 201580015033 A CN201580015033 A CN 201580015033A CN 106462588 B CN106462588 B CN 106462588B
- Authority
- CN
- China
- Prior art keywords
- content
- landing page
- extracted
- created
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
各示例描述了对于来自所提取的内容的至少一个概要的内容创建。接收到输入信息,该输入信息包括到登陆页的链接和关键词信息(302)。评估登陆页并且从登陆页中提取包括图像数据和文本数据中的至少一者的内容(304)。分析所提取的内容的特性(306)。所提取的内容基于所分析的特性以及至少两个排序算法的应用来被排序(308)。所应用的第一排序算法基于与登陆页的相关性来排序该内容,而所应用的第二排序算法基于与关键词信息的相关性来排序该内容。基于将过滤规则应用到经排序的内容来过滤经排序的内容以移除被确定为不具有吸引力的内容或内容部分(310)。从经过滤的且经排序的内容中创建至少一个概要(312)。
Description
背景
所创建的内容的质量对于吸引用户和引起用户的注意而言是重要的。所提供的服务可以通过代表客户创建和管理内容来协助这样的客户。在这么做时,服务提供者力求创建高质量的内容以供多样化放置并且还希望针对所创建的内容的管理的高效且可扩展的方案。本申请针对这一一般技术环境。
概述
本发明的各示例描述了来自所提取的内容的至少一个概要的内容创建。接收到输入信息,该输入信息包括到登陆页的链接和关键词信息。评估登陆页并且从登陆页中提取包括图像数据和文本数据中的至少一者的内容。分析所提取的内容的特性。基于所分析的特性以及至少两个排序算法的应用来排序所提取的内容。所应用的第一排序算法基于与登陆页的相关性来排序该内容,而所应用的第二排序算法基于与关键词信息的相关性来排序该内容。基于将过滤规则应用到经排序的内容来过滤经排序的内容以移除被确定为不具有吸引力的内容或内容部分。从经过滤的且经排序的内容中创建至少一个概要。还描述了其他示例。
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。各示例的附加方面、特征、和/或优点将在以下描述中阐述,并且根据该描述而部分地显而易见,或者可通过实施本发明而获知。
附图简述
参考以下附图描述非限制性和非穷尽的示例。
图1示出用于内容创建以及对所创建的内容的管理的示例***的概览。
图2示出示例性内容创建流水线的概览。
图3示出用于内容创建和所创建的内容的管理的示例方法。
图4示出用于内容创建和所创建的内容的管理的示例方法。
图5是解说可用来实现本公开的各方面的计算设备的示例的框图。
图6A和6B是可用来实施本公开的各方面的移动计算设备的简化框图。
图7是可在其中实施本公开的各方面的分布式计算***的简化框图。
详细描述
各非限制示例描述通过充分利用机器学习技术和对内容的上下文理解的用于多样化放置的自动化内容创建。在一些情况下,客户端(例如,广告商、企业、公司、小型或中型商户)提供用于内容创建或修改的元数据。在其他情况下,服务提供者代表客户端自动地注释用于内容创建或修改的内容。本发明描述了其中高度相关的内容从客户端的网站中被自动地提取的示例。所提取的内容被分析上下文、被排序和被过滤以代表客户端创建用于放置的内容。在一些示例中,所创建的内容被添加并维护在用于创建内容的存储中。还可管理所创建的内容的放置,包括更新所创建的内容的放置。
在许多情况下,用于内容创建的内容的提取不被自动地完成。对代码(诸如(HTML代码))执行基本编程语言分析而非分析实际内容的相关性来标识内容。本发明的各示例使得能够实现从客户端网站的至少一个登陆页中自动提取高度相关的内容。登陆页是通过在另一网页上点击超链接(例如,统一资源标识符(URI)或统一资源定位符(URL))来访问的网站的一部分。本发明充分利用机器学习智能来从网站的登陆页中标识代表性内容,诸如图像/视频、文本、丰富说明文字以及其他关键的元数据。机器学习智能(例如,机器学习算法)与上下文分析相组合来实现对登陆页的主块的自动检测、从主块中对相关内容的自动提取以及对用于放置的高质量的内容的高效创建。
基于本发明实现了数个技术益处,包括但不限于:增加的处理能力、在内容标识、提取和创建处理方面提升的效率和准确性、在对与相关内容概要的生成高度相关的内容的提取和标识方面提升的质量、用于所创建的内容的管理和放置的改进的交互以及与用户的改进的交互(用所创建的内容向用户呈现)。
图1示出用于内容创建以及对所创建的内容的管理的示例***100的概览。所呈现的示例性***100是相互作用来形成用于处理和管理内容的整合整体的相互依赖的各组件的组合。***的组件可以是硬件组件或被实现在***的硬件组件上的软件。在各示例中,示例性***100可包括硬件组件(操作***(OS))、在硬件组件上运行的软件组件(例如,应用、应用编程接口、虚拟机)中的任意。在一个示例中,***100提供用于软件组件运行的环境、遵守用于操作的约束集、以及利用***100的资源或工具,其中***100的各组件可以是运行在一个或多个处理设备上的软件(例如,应用、程序、模块等)。例如,内容创建应用或服务可被运行在处理设备上,该处理设备诸如计算机、服务器、移动电话、平板、游戏控制台、电子设备等,其中***的各组件可被执行在该处理设备上。在其它示例中,示例***的各组件可散布在多个设备上。例如,输入可被输入在客户端设备(例如,移动电话)上,而信息可由网络中的其它设备(诸如一个或多个服务器设备和/或数据存储)处理或访问。***100还包括各组件,诸如数据储存/存储器/存储,例如图1中显示的并在以下被描述的知识存储108。每个组件可包括一个或多个***组件。请参考图5-7来获得可作为示例性***的一部分被包括的硬件的附件示例。
作为一个示例,***100包括各组件,诸如内容创建组件102、内容管理组件104、内容放置组件104以及知识存储108,每个都具有一个或多个附加组件。***100的规模可变化并可包括比图1中描述的组件更多或更少的组件。***100的各组件之间的对接可通过网络来进行,该网络连接***的各组件和/或***1001外部的资源。在一个示例中,***100的各组件本地地存在于设备(诸如移动设备或服务器设备)上。在至少一个其他示例中,***100的各组件可通过分布式环境(诸如云计算环境)来连接。
示例性***100包括内容创建组件102,该内容创建组件102被用于接收用于内容创建的输入并创建内容以供放置。内容创建组件102接收并管理用于内容创建的输入。输入可从客户端接收,该客户端为诸如希望使得内容(诸如广告)被创建以供放置的商家/广告商。输入可按任意形式被接收,诸如请求形式、电子邮件、电话联系、电子会议等等。被包括在接收到的输入中的信息包括但不限于:内容创建的超链接(例如,登陆页的URL、目标URL、visual(可视)URL)关键词(例如,广告的关键词)、标题、概要/描述、关于放置的信息、用于创建的内容的类型以及要从所创建的内容中排除的信息的标识等等。内容创建组件102还可包括使得在客户端和服务提供者之间能够进行交互的用户界面(UI)。例如,内容创建请求能够被生成并被发送到客户端,并且输入信息能够被接收以用于内容创建处理。
内容创建组件102使用接收到的输入来评估在接收到的输入中标识的登陆页或目标URL。作为一个示例,可基于在接收到的输入中所提供的登陆页的URL来评估登陆页的索引。内容创建组件102被配置成从接收到的输入中标识登陆页的URL,并使用机器学习算法来自动地评估网页。所应用的机器学习算法收集、解析并存储数据以促进快速且准确的信息检索。作为一个示例,采用能够爬行网页或网页的索引、标识内容以供提取以及提取内容的机器学习算法。在评估登陆页时,内容创建组件102可采用多个机器学习算法以用于内容提取。在一些示例中,对内容的提取是基于信号的。
在一个示例中,内容创建组件102从所提取的内容中创建一个或多个概要。概要是所提取的内容以新的方式被对准、修改或重新安排的变换。在各示例中,所创建的概要是一种类型以上的所提取的内容的组合(例如,图像或视频数据和文本数据)。即,概要包括来自完整登陆页的被变换以针对具体/有针对性的目进行定制的数据部分或片段(例如,基于具体输入信息生成的广告)。
搜索引擎索引技术可标识要被提取的内容类型并基于该内容类型来执行提取。所提取的内容的示例包括但不限于:图像数据、文本数据、元数据、视频数据以及音频数据等。在评估期间,内容创建组件102评估登陆页的数据并提取登陆页的主块。主块是登陆页的占优部分并可包括一个或多个类型的内容(例如,图像和文本数据),该占优部分是该登陆页的着重点。在至少一个示例中,内容创建组件102进一步从所提取的主块中提取内容。在其中主块是文本数据的示例中,内容创建组件102能够提取附加信息,诸如来自文本的主块的句子或单词。
对于所提取的内容,内容创建组件102评估所提取的内容的特性。此外,所提取的内容的特性可被分析来确定所提取的内容的相关性,包括:1)所提取的内容对于网页/登陆页而言有多相关(例如,在登陆页上是占优的),以及2)所提取的内容对于接收到的输入信息中的信息(诸如所提供的关键词信息)而言有多相关。例如,当所提取的内容是图像数据时,内容创建组件102分析图像的可被标识并可从图像中分析的特性。在该示例中,图像数据的自然特性被标识和分析,诸如:图像是处于纵向还是横向模式、图像是彩色的还是黑白的、图像的大小、图像的分辨率以及图像中的人和/或物的标识等等。作为另一示例,当所提取的内容被标识为文本数据时,内容创建组件102评估文本数据的特性。在该示例中,信息(诸如字母、单词、数字、符号、句子等)可从文本的一个或多个块中提取并被分析。内容创建组件102还在分析所提取的内容的特性时使用机器学习算法,分析所提取的内容包括评估文本数据的句法或语法(例如,拼写或语法错误)并重新对准/纠正文本数据来修复所标识的问题。
内容创建组件102将排序算法应用到所提取的内容以更好地标识从所提取的内容中创建概要时使用的内容。所提取的内容基于内容的所分析的特性以及至少两个排序算法(例如,机器学习算法)。内容创建组件120可使用多个机器学习算法来对内容数据进行排序或打分。所应用的第一排序算法通过分析所提取的内容的具体特性来基于相对于登陆页的相关性来排序所提取的内容。作为一示例,第一排序算法对登陆页上图像的占优性进行排序。在这么做时,内容创建组件102访问所分析的图像的特性(例如,大小、位置、分辨率、人物/对象)并确定关于该图像对于登陆页而言有多占优的概率。第二排序算法基于相对于接收到的输入信息中的信息的相关性来排序所提取的内容。例如,所提取的图像数据的每个片段可基于它们有多可能与被包括在接收到的输入信息中的关键词信息相关的概率来被排序。在这么做时,内容创建组件102应用对所分析的图像的特性进行评估的一个或多个机器学习算法。例如,如果关键词是针对请求为滑雪板修理店创建广告的接收到的输入的“滑雪板”,则包括滑雪板的或正在用滑雪板滑雪的人的图片的图像相比于滑雪板店的员工的不包括滑雪板的面部图像而言被排序地更高。
对所提取的内容的排序可以按任意方式,包括使用以上描述的第一排序算法和第二排序算法的评估。作为一示例,可基于统计建模(例如,辨别式/条件式建模或生成式建模)来确定排序。在一个示例中,可与所应用的特定排序算法相关联地计算针对每个内容片段的各个分数。在另一示例中,排序从所描述的至少两个排序算法的应用中生成一累积分数。在又一示例中,针对内容的各个分数基于第一排序算法的应用被计算,并接着基于至少第二排序算法的应用来被重新排序。
经排序的内容接着由内容创建组件102过滤以移除可被视为对用户而言不具有吸引力的内容或内容部分。作为一示例,内容创建组件102使用至少一个机器学习算法以基于被用于标识对用户而言可能不具有吸引力的内容或内容部分的制定的或预先确定的规则来应用过滤器。可针对被评估的不同类型的内容(例如,图像数据或文本数据)来形成用于过滤的规则集。规则集取决于所创建的概要的放置或被创建的概要的类型也可以是不同的。例如,相较于被用于创建要被用在搜索引擎页上的概要的规则集,针对被创建用于放置在报纸中的概要(例如,报纸广告)的评估内容的规则集是不同的。本发明基于要被创建的概要的类型来智能地应用规则集。规则集可使用机器学习算法来形成和应用。规则集基于对机器学习算法的学习还可以是自适应的,其中规则集经常改变。
作为一示例,如果在过滤中被评估的内容是图像数据,则可设置可将以下图像移除的规则:具有被包括在图像中的文本的图像,因为它们对于用户而言可能在视觉上不具有吸引力。在另一示例中,可设置以下规则:如果文本是特定类型的文本(例如,姓名或电话号码),则在图像中具有该文本是可以的。规则集的其他示例包括但不限于:质量要求、由客户端和/或服务提供者建立的针对内容创建的顺从性规则、针对对于登陆页的相关性(例如,在登陆页上占优)的规则、针对对于输入信息(例如,关键词信息)的相关性的规则以及与用户响应数据(例如,基于用户评估收集的数据,诸如点进率(CTR)数据)的相关性有关的规则等等。
内容创建组件102基于过滤处理来更新排序内容。例如,移除基于过滤规则的应用被确定为不具有吸引力的内容。在一些示例中,所提取的内容的各部分被移除(例如,来自图像的文本)并且未被移除的部分可被保留以用于基于过滤规则来排序。剩余的内容基于所应用的过滤规则被排序。内容排序基于过滤规则的应用被更新(例如,内容被重新排序)。在一个示例中,重新排序基于与以下至少一个有关的过滤规则的应用而发生:1)对于登陆页的相关性,2)对于被包括在输入信息中的关键词的相关性以及3)对于用户响应数据的相关性。
内容创建组件102使用经过滤的且经排序的内容来自动地创建一个或多个概要。如以上标识的,概要是所提取的内容以新的方式被对准、修改或重新安排的变换。例如,从登陆页中提取的经排序的且经过滤的内容可被变换到与被呈现在客户端登陆页上不同的安排。所提取的内容还可被修改或改变以提升所生成的概要的质量。此外,新的内容可被添加到从被***100处理的登陆页中提取的内容或内容部分。机器学习算法可被应用以智能地生成内容概要并提升所生成的新的内容的质量。在至少一个示例中,动态编程被用于评估内容并自动地创建一个或多个概要。
在各示例中,所创建的概要是一种类型以上的所提取的内容的组合(例如,图像或视频数据和文本数据)。概要的一个示例是由服务提供者代表客户端生成的广告或注释广告。在一个示例中,概要的创建将内容从一个形式(例如文本数据或登陆页)转换到另一个形式(例如,组合多种类型的内容的丰富内容)。数据的安排可基于由广告商指定的准则(例如,在接收到的输入信息中)与由***100应用的智能的组合。作为一个示例,所创建的概要可以是丰富内容概要或广告。在各示例中,丰富内容概要(例如,广告)涉及与所创建的内容相关联的某个类型的用户交互。被包括在丰富内容概要中的数据的各示例包括但不限于:标题、概要、图像、视频、文本、音频、站点链接、电话/联系地址等)。相比于传统的广告内容,丰富内容概要提供了附加方式来将用户与所显示的内容有关。丰富内容概要可扩展、浮动、撕页等。内容创建组件102应用机器学习算法以自动地取得所提取的、经排序的且经过滤的内容并生成概要(包括变换所提取的内容以应用到丰富内容概要的不同部分(例如,标题、主体、图像、点进链接等))。
在一个示例中,内容创建组件102针对接收到的输入创建多个概要。可根据不同的用户人口统计数据来创建不同的概要。例如,一个概要可针对以较年轻的人口(例如,年纪为15-25岁)为目标的意大利餐厅来创建。在该示例中,当使用意大利食物的图像来创建针对该意大利餐厅的概要时,内容创建组件102评估经排序的且经过滤的内容并确定比萨饼的图像要被使用,因为它相比于意大利面的图像对于较年轻的成年人而言更具有吸引力。继续这个示例,另一概要可针对较年长的人口(例如,年纪为45-60岁)来创建,其中意大利面的图像而非比萨饼的图像被使用,因为确定了意大利面的图像对于45到60岁的年纪范围中的用户而言更具有吸引力。机器学习算法被用于评估经过滤的且经排序的内容以供概要的创建,以通过使得能够实现从提取自客户端登陆页的内容中自动创建概要来提升内容创建方面的质量和效率。
在另一示例中,概要创建与如被标识在接收到的输入中的要被创建的概要的类型相关联。例如,接收到的输入可指定概要要针对报纸或替换地针对电影预告来创建。内容创建组件102基于机器学习算法的应用来智能地创建概要,以针对被标识在接收到的输入中的概要的类型来定制所创建的概要的内容。例如,包括具有较短句子的文本数据的概要更合适于与电影预告相关联的概要,而包括较长句子的概要可能更好地合适于为放置在报纸中创建的概要。
替代地,内容创建组件102可使用机器学习算法和/或动态编程来基于其他因素定制概要的创建,其他因素包括但不限于:关于客户端的信息(例如,商家的类型、与商家类型相关联的用户的类型)、所收集的统计或经验数据(例如,基于用户响应、预测信息收集的数据)以及与内容的替代表示相关联的信息等等。例如,内容可以针对汽车制造商的小型厢式车(mini-van)的市场营销。在该示例中,内容创建组件102可智能地确定相比于在创建的内容中使用单词小型厢式车,使用类似于掀背式(hatch-back)或跨界(cross-over)车辆之类的单词来创建内容可能对于用户而言更具有吸引力。由此,与内容(诸如小型厢式车)的替代表示相关联的信息可被用于智能地创建或调整内容。在各示例中,被用于内容创建的机器学习算法通过度量数据来增强。度量数据是可有用于改进内容创建和所创建的概要的放置的任意统计或上下文分析数据。所获得的度量数据可被用于概要的创建以及概要的放置。概要可基于对先前收集的度量数据的分析和/或对与当前数据(例如,与用户人口统计数据有关的数据)的统计或上下文分析有关的趋势的未来预测来创建。在一些示例中,度量数据被用于跟踪用户与所创建的概要的交互。通过使用丰富内容概要的示例,所跟踪的度量数据可包括关于扩展的数量、多个出口点、视频完成和CTR率等等的信息。度量数据和***100所使用的机器学习算法可被存储在一个或多个知识存储中,诸如以下描述的知识存储108。
内容创建组件102与内容管理组件104对接。内容管理组件104管理所创建的内容(例如,概要)。作为一个示例,内容管理组件104将所创建的内容存储在创新存储或被用于存储所有类型的所创建的内容的一个或多个存储中。一旦***100使用内容创建组件102创建了内容,所创建的内容就被传递以供存储到内容管理组件104。在至少一个示例中,内容被自动地添加到内容创新存储(例如,知识存储108)。本领域的技术人员将了解,在替代示例中,所创建的内容可被存储在与知识存储108分开的附加存储(未显示)中。针对所有客户端的所创建的内容可被内容管理组件104管理。新创建的内容被添加到存储先前创建的内容的创新存储中。在一个示例中,内容管理组件104还组织所存储的内容。例如,内容可根据客户端、概要类型、所创建的概要中的内容、放置、订阅(例如,已经被支付的所创建的内容相较于被生成用于测试目的的所创建的内容)、日期和时间以及元数据等等来被组织。内容管理组件104还可包括使得能够管理所创建的内容的用户界面(UI)。例如,内容管理组件104的创新存储是可搜索的。
内容管理组件104还与内容放置组件106接口。内容放置组件106管理所创建的内容(诸如概要)的放置或对所创建的内容的放置的更新。所创建的内容可从内容管理组件104的创新存储中选择来被放置。作为示例,内容的放置基于来自客户端的接收到的输入信息或在用于对所创建的内容的评估的测试基础上。在一个示例中,所创建的概要可出于迁徙(flighting)目的被放置。迁徙涉及所创建的内容的出于评估目的的放置。例如,多个概要可基于所提取的内容被唯一地创建。在一些情况下,客户端和/或服务提供者可能希望在全时地放置概要之前发出测试运行。服务提供者可迁徙一个或多个概要以累积支持所创建的概要的放置的测试数据。概要的放置可基于对所创建的概要的迁徙的响应来被更新。在一些情况下,概要基于迁徙响应被修改或更新。内容放置组件106还可包括使得能够管理所创建的内容的放置的用户界面(UI)。
附加地,内容创建组件102、内容管理组件104和内容放置组件106与一个或多个知识组件(诸如知识存储108)对接。知识存储108是增加示例性***(诸如***100)所拥有的信息的量的资源,使得***100(或***100的组件)能在给定的时间点做出更有见识的决策。知识存储108可包括用于存储信息(例如,数据、应用、操作、程序等)的一个或多个存储或***存储器。知识存储108存储能被***100的组件(诸如内容创建组件102、内容管理组件104和内容放置组件106)使用的任意结构化和非结构化的信息以增强处理的执行以及所创建的内容。被知识存储108存储的信息的示例是知识数据,知识数据是增强示例性***的稳健性的或能够被应用以提升示例性***的组件所进行的处理的任意数据。例如,知识存储108可存储供***100的任意组件进行处理的可应用机器学习算法。在另一示例中,知识存储108存储用于内容创建组件102所执行的内容过滤的规则集。由知识存储108存储的知识数据的其他示例包括但不限于:定义、规则、名称数据、历史数据、***组件之间的相互关系、限制(例如,用于评估数据的为真的正式声明描述)、类(例如,集合、概念、编程类型)、属性数据(例如,特点、特征、参数)、公理、包括语言模型的建模数据、适应的语言模型、归一化模型、统计数据、事件和函数项信息、使用模式、单词关联以及上下文信息等等。知识存储108还与示例性***外部的组件或资源进行通信,以聚集或收集与执行处理和做出关于***(诸如***100)如何创建、管理和放置内容的最佳可能决策有关的信息。作为示例,知识存储108可被链接到因特网上的网络资源,例如搜索引擎(例如,Bing(必应)、Google(谷歌)搜索、Yahoo(雅虎)搜索、Ask、WebCrawler(web爬行器)、Dogpile等)。
图2示出示例性内容创建流水线200的概览。内容创建流水线200是可由应用、服务或设备执行以用于所创建的内容的创建和管理的自动化过程。在另一示例中,内容创建流水线200的操作可被执行在如以上关于图1描述的***100的一个或多个组件上。
内容创建流水线200开始于页面抓取操作202。作为一示例,所创建的内容的一个或多个网页或登陆页可由寻求所创建的内容(诸如图1中描述的概要)的创建的客户端来提供。在另一示例中,服务提供者主动确定/标识登陆页的URL。页面抓取操作202将登陆页的URL传递到内容提取操作204和图像提取操作206。最终,由图像提取操作206提取的图像数据(例如,图像和视频数据)被传递到内容提取操作204。然而,被用于图像提取的机器学习算法针对其他所提取的内容(例如,文本数据、音频数据和元数据)可以是不同的,并由此被分开地提取。内容提取操作204使用机器学习算法提取除了图像数据之外的内容,诸如文本数据、音频数据、元数据等。图像提取操作206使用机器学习算法从页面抓取操作202中所提供的一个或多个URL中提取图像内容。作为一示例,对图像内容或其他内容的提取是基于爬行与登陆页相关联的数据(例如,索引数据)的机器学习算法。
一旦图像提取操作206已经从登陆页中提取了图像数据,该图像数据就被传送到与内容提取操作204的执行相关联的组件或操作。内容提取操作204标识提取自登陆页的不同类型的内容,例如,登陆页的扉页中的内容、在主体内的内容、在标题内的内容等。在一个示例中,内容提取操作204能够标识已经出于类似目的被创建的(例如,在类似广告空间中的广告)并且能够被内容创建流水线200修改或变换的内容。在另一示例中,内容提取操作204标识针对特定目的的特定类型的内容,诸如适合于所创建的概要的标题的内容或适合于所创建的概要的主体的内容等等。
跟随内容提取的操作,使用内容合并操作208来合并所提取的内容。内容合并操作208包括从所提取的内容中创建一个或多个概要。概要的创建可包括由内容创建组件(诸如以上在图1中描述的内容创建组件102)执行的一个或多个操作。作为一个示例,内容合并操作提供关于内容可如何被安排来创建概要的聚集视图。内容合并操作208包括从所提取的内容的聚集中创建一个或多个概要(例如,组合一种类型以上的所提取的内容)。
在内容合并操作208中被创建的概要被传递到内容语料库管理操作210。内容语料库管理操作210管理所创建的概要的存储和所创建的概要的放置/更新。作为一示例,内容语料库管理操作210中所执行的操作可包括由在图1的描述中所描述的内容管理组件104和内容放置组件106执行的任意操作。内容语料库管理操作210控制来自内容创建流水线200的所创建的内容的输出。
图3示出用于内容创建和所创建的内容的管理的示例方法300。作为一示例,方法300可由诸如图1的***100之类的示例性***或图2的内容创建流水线200来执行。在一个示例中,方法300可以在包括被配置成存储和执行操作、程序或指令的至少一个处理器的设备上执行。然而,方法300不限于这些示例。在其他示例中,方法300可由内容创建应用或服务来执行。方法300还可被实现在计算设备(诸如具有至少一个处理器和一个存储器的设备)上或被实现为被执行在计算机可读存储设备上的进程。
流程开始于操作302,在此接收到用于内容创建的输入信息。输入信息的示例在图1的描述中被描述。在一个示例中,操作302中接收到的输入信息包括到登陆页的链接和关键词信息。关键词信息是提供用于概要(例如,注释广告)的创建的上下文的一个或多个单词或短语。关键词信息可被用于确定如方法300中描述的内容的提取、排序、过滤和创建的相关性。
流程行进到操作304,其中登陆页被评估并且内容从对登陆页的评估中被提取。在评估登陆页时,机器学习算法被用于评估与到登陆页的链接相关联的信息。在各示例中,操作304包括爬行登陆页并从登陆页中自动提取包括至少图像数据和/或文本数据的主数据块。由用于登陆页的爬行的机器学习算法标识的信息的示例包括但不限于:图像数据、元数据、文本数据、标志以及接收到的输入中提供的关键词信息。在操作304中,基于要被创建的概要的类型从登陆页的主数据块中自动提取信息。例如,接收到的输入信息可标识要被创建的概要的类型。基于要被创建的概要的类型,机器学习算法被应用来标识要被提取的内容。
从操作304行进,所提取的内容的特性被分析(操作306)。作为一示例,所提取的内容(例如,图像数据和/或文本数据)的特性被分析以确定所提取的内容的相关性,包括:1)所提取的内容对于网页/登陆页而言有多相关(例如,在登陆页上是占优的),以及2)所提取的内容对于接收到的输入信息中的信息(诸如所提供的关键词信息)而言有多相关。对所提取的特性的分析在图1的描述中被详细描述。
流程行进到操作308,在此基于内容的所分析的特性和至少两个排序算法的应用来排序所提取的内容。在操作308,所应用的第一排序算法基于与登陆页的相关性来排序所提取的内容,而所应用的第二排序算法基于与关键词信息的相关性来排序所提取的内容。关于所提取的内容的排序的进一步的细节在图1的描述中被详细描述。
基于将过滤规则应用到经排序的内容来过滤经排序的内容(操作310)以移除被确定为不具有吸引力的内容或内容部分。作为一示例,内容创建组件102基于被用于标识对用户而言可能不具有吸引力的内容或内容部分的制定的或预先确定的规则来应用过滤器。关于经排序的内容的过滤的进一步的细节在图1的描述中被详细描述。在一个示例中,过滤操作(操作310)包括基于过滤规则的应用来更新经排序的内容的排序,过滤规则评估对于内容与登陆页有多占优的相关性、与关键词信息的相关性以及从用户响应数据中确定的相关性中的至少一个。在操作310中执行的排序的更新可包括在不满足过滤规则的内容已被移除或修改之后对经排序的内容进行重新排序。
流程行进到操作312,在此从经过滤的且经排序的内容中创建至少一个概要。在一个示例中,操作312从经过滤的且经排序的内容中创建多个概要。在创建概要时,操作312被配置成能够修改来自经过滤的且经排序的内容的内容(例如,所提取的内容)。例如,概要的创建可包括调整句法或语法以及对内容(例如,图像或音频数据等等)的编辑。在另一示例中,所提取的内容部分被聚集或连接被变换为新的数据。作为一示例,在操作312中创建的概要是通过聚集和安排所提取的不同类型的内容(包括图像数据、文本数据和元数据中的至少两者)来被创建的丰富格式内容(例如,丰富格式概要)。操作312中创建的丰富格式内容还通过视频数据、音频数据和/或其他流数据(包括横幅)、与小程序、插件或其他软件组件或程序的连接和/或能够包括可动作的内容(例如,能够被滚动、点击等的内容)等等来促进与用户的交互。关于概要的创建的进一步的细节在图1的描述中被详细描述。
在操作314,至少一个所创建的概要被添加到所创建的概要的存储。从所创建的概要的存储中,基于对至少一个概要的放置的位置的评估来选择该至少一个概要(操作316)以供放置。可影响针对所创建的概要的放置的确定的因素包括但不限于:客户端指定的要求(例如,在接收到的输入信息中)、地理信息、人口统计信息以及被包括在所创建的概要中的内容等等。在不同的示例中,所创建的概要可被迁徙以确定针对该概要的用户响应。迁徙可在概要被选择以供放置之前或概要被选择以供放置之后来进行。例如,在一个示例中,迁徙的操作(操作318)可在概要被选择以供放置(操作316)之前进行。迁徙(操作318)包括收集和评估针对至少一个概要的用户响应数据。作为一示例,迁徙(操作318)与点击预测算法(例如,CTR)相关联。在该示例中,迁徙可通过比较针对多个所创建的概要中的每一个的点进率数据来进行。关于迁徙的进一步的细节在图1的描述中被详细描述。
在操作320中,多个概要中的一个或多个的放置被更新。在一个示例中,操作320更新概要的放置是基于所获得的针对多个概要中的一个或多个的用户响应数据。例如,用户响应数据可通过迁徙(操作318)一个或多个概要并评估迁徙的结果来获得。在另一示例中,更新(操作320)还包括基于人口统计信息来修改概要的内容。在至少一个示例中,概要的放置的更新还包括比较经迁徙的概要的结果并用不同的概要(例如,基于用户反馈具有更好的迁徙结果的概要)来替换所选的概要。替代地,更新概要的放置包括基于用户响应数据(例如,迁徙结果)来修改经放置的概要内的内容。在另一示例中,所选的概要的放置可基于除了迁徙之外的因素被更新,因素包括但不限于:时间/持续时间、客户端反馈、自动更新、概要内容的旋转以及服务提供者自由裁量权等等。
图4示出用于内容创建和所创建的内容的管理的示例方法400。作为一示例,方法400可由诸如图1的***100之类的示例性***或图2的内容创建流水线200来执行。在各示例中,方法400可以在包括被配置成存储和执行操作、程序或指令的至少一个处理器的设备上执行。然而,方法400不限于这些示例。在其他示例中,方法400可由内容创建应用或服务执行。方法400还可被实现在计算设备(,诸如具有至少一个处理器和一个存储器的设备)上或被实现为被执行在计算机可读存储设备上的进程。
流程开始于操作402,在此接收到用于内容创建的输入信息。输入信息的示例在图1的描述中被描述。在一个示例中,操作402中接收到的输入信息包括到登陆页的链接和关键词信息。关键词信息是提供用于概要(例如,注释广告)的创建的上下文的一个或多个单词或短语。关键词信息可被用于确定如方法400中描述的内容的提取、排序、过滤和创建的相关性。
流程行进到操作404,其中登陆页被评估并且内容从对登陆页的评估中被自动地提取。在评估登陆页时,机器学习算法被用于评估与到登陆页的链接相关联的信息。操作404包括使用机器学习算法从登陆页中自动提取包括至少图像数据和文本数据在内的内容。在各示例中,操作404包括爬行登陆页并从登陆页中自动提取包括至少图像数据和文本数据的主数据块。由用于登陆页的爬行的机器学习算法标识的信息的示例包括但不限于:图像数据、元数据、文本数据、标志以及接收到的输入中提供的关键词信息。在操作404中,基于要被创建的概要的类型从登陆页的主数据块中自动提取信息。例如,接收到的输入信息可标识要被创建的概要的类型。基于要被创建的概要的类型,机器学习算法被应用来标识要被提取的内容。
从操作404行进,所提取的内容的特性被分析(操作406)。作为一示例,所提取的内容(例如,图像数据和/或文本数据)的特性被分析以确定所提取的内容的相关性,包括:1)所提取的内容对于网页/登陆页而言有多相关(例如,在登陆页上是占优的),以及2)所提取的内容对于接收到的输入信息中的信息(诸如所提供的关键词信息)而言有多相关。对所提取的特性的分析在图1的描述中被详细描述。
流程行进到操作408,在此基于内容的所分析的特性和至少两个排序算法的应用来排序所提取的内容。在操作408,所应用的第一排序算法基于与登陆页的相关性来排序所提取的内容(包括至少图像数据和文本数据),而所应用的第二排序算法基于与关键词信息的相关性来排序所提取的内容(包括该图像数据和该文本数据)。关于所提取的内容的排序的进一步的细节在图1的描述中被详细描述。
基于将过滤规则应用到经排序的内容来过滤经排序的内容(操作410)以移除被确定为不具有吸引力的内容或内容部分。作为一示例,内容创建组件102基于被用于标识对用户而言可能不具有吸引力的内容或内容部分的制定的或预先确定的规则来应用过滤器。关于经排序的内容的过滤的进一步的细节在图1的描述中被详细描述。过滤操作(操作410)包括基于过滤规则的应用来更新经排序的内容的排序,过滤规则评估对于内容与登陆页有多占优的相关性、与关键词信息的相关性以及从用户响应数据中确定的相关性中的至少一个。在操作410中执行的排序的更新可包括在不满足过滤规则的内容已被移除或修改之后对经排序的内容进行重新排序。
流程行进到操作412,在此从经过滤的且经排序的内容中创建至少一个丰富格式概要。在一个示例中,操作412从经过滤的且经排序的内容中创建多个丰富格式概要。在创建概要时,操作412被配置成能够修改来自经过滤的且经排序的内容的内容(例如,所提取的内容)。例如,概要的创建可包括调整句法或语法以及对内容(例如,图像或音频数据等等)的编辑。在另一示例中,所提取的内容部分被聚集或连接被变换为新的数据。操作412通过安排和聚集经过滤的图像数据和经过滤的文本数据以创建至少一个丰富格式概要来创建至少一个丰富格式概要。操作412中创建的丰富格式内容还通过视频数据、音频数据和/或其他流数据(包括横幅)、与小程序、插件或其他软件组件或程序的连接和/或能够包括可动作的内容(例如,能够被滚动、点击等的内容)等等来促进与用户的交互。关于概要的创建的进一步的细节在图1的描述中被详细描述。
在操作414,至少一个所创建的丰富格式概要被添加到所创建的概要的存储。在方法400的示例中,所创建的概要可被迁徙(操作416)以确定针对该丰富格式概要的用户响应。迁徙(操作416)包括收集和评估针对至少一个概要的用户响应数据。作为一示例,迁徙(操作416)与点击预测算法(例如,CTR)相关联。在该示例中,迁徙可通过比较针对多个丰富格式概要中的每一个的点进率数据来进行。关于迁徙的进一步的细节在图1的描述中被详细描述。
在操作418,多个丰富格式概要中的一个或多个被放置或替换地,概要的放置被更新。在一个示例中,操作418基于所获得的针对多个概要中的一个或多个的用户响应数据来放置或更新丰富格式概要。例如,用户响应数据可通过迁徙(操作416)一个或多个概要并评估迁徙的结果来获得。在另一示例中,放置/更新(操作418)还包括基于人口统计信息来修改概要的内容。在至少一个示例中,概要的放置/更新还包括比较经迁徙的概要的结果并基于经迁徙的概要来选择概要以供放置。替代地,操作418包括基于用户响应数据(例如,迁徙结果)来修改经放置的概要内的内容。在另一示例中,所选的概要的放置可基于除了迁徙之外的因素被更新,因素包括但不限于:时间/持续时间、客户端反馈、自动更新、概要内容的旋转以及服务提供者自由裁量权等等。
图5-7及相关联的描述提供了其中可实施本发明的各示例的各种操作环境的讨论。然而,关于图5-7所示出和讨论的设备和***是用于示例和说明的目的,而非对可被用于实施本文所述的本发明的各示例的大量计算设备配置的限制。
图5是解说计算设备502的物理组件(例如,可用来实现本公开的各示例的***的组件)的框图。以下所述的计算设备组件可适合于以上所述的计算设备。在基本配置中,计算设备502可包括至少一个处理单元504以及***存储器506。取决于计算设备的配置和类型,***存储器506可包括但不限于易失性存储(例如,随机存取存储器)、非易失性存储(例如,只读存储器)、闪存、或者此类存储器的任何组合。***存储器506可包括操作***507和适合于运行诸如应用528、IO管理器524、以及其它工具526之类的软件应用520的一个或多个程序模块508。作为示例,***存储器506可存储用于执行的指令。***存储器506的其他示例可包括组件,诸如知识资源。例如,操作***507可适合于控制计算设备502的操作。此外,本发明的各示例可结合图形库、其他操作***、或任何其他应用程序来实施,并且不限于任何特定应用或***。该基本配置在图5中由虚线522内的那些组件示出。计算设备502可具有附加特征或功能。例如,计算设备502也可以包括附加的数据存储设备(可移动和/或不可移动),诸如磁盘、光盘或带。这些附加存储在图5中由可移动存储设备509和不可移动存储设备510示出。
如上所声明的,大量程序模块和数据文件可被存储在***存储器506中。尽管在处理单元504上执行,但是程序模块508(例如应用528、输入/输出(I/O)管理器524以及其它工具526)可以执行包括但不限于下列过程:例如图4到4中所示的操作方法300-400的阶段中的一个或多个。可根据本发明的各示例使用的其他程序模块可包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、输入识别应用、绘图或计算机辅助应用程序等。
此外,本发明的各示例可在包括分立电子元件的电子电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实施。例如,可以通过片上***(SOC)来实施本发明的各示例,其中,可以将图5中示出的每个或许多组件集成到单个集成电路上。这样的SOC设备可包括一个或多个处理单元、图形单元、通信单元、***虚拟化单元以及各种应用功能,所有这些都被集成到(或“烧录到”)芯片基板上作为单个集成电路。当通过SOC操作时,在此所述的功能可以通过与计算设备502的其他组件一起集成在单个集成电路(芯片)上的应用专用逻辑来操作。本发明的各示例还可使用能够执行诸如例如,AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实施,包括但不限于,机械、光学、流体和量子技术。另外,本发明的各示例可在通用计算机或任何其他电路或***中实施。
计算设备502还可具有一个或多个输入设备512,如键盘、鼠标、笔、语音输入设备、用于语音输入/识别的设备、触摸输入设备等。也可包括输出设备514,如显示器、扬声器、打印机等等。前述设备是示例,并且可使用其它设备。计算设备504可包括允许与其它计算设备518通信的一个或多个通信连接516。合适的通信连接516的示例包括但不限于RF发射机、接收机、和/或收发机电路***、通用串行总线(USB)、并行和/或串行端口。
如本文中所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储信息(诸如计算机可读指令、数据结构、或者程序模块)的任何方法和技术实现的易失性和非易失性、可移除和不可移除介质。***存储器506、可移除存储设备509、以及不可移除存储设备510都是计算机存储介质示例(即,存储器存储)。计算机存储介质可包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储信息且可由计算设备502访问的任何其它制品。任何此类计算机存储介质可以是计算设备502的一部分。计算机存储介质不包括载波或者其它经传播或经调制的数据信号。
通信介质可通过计算机可读指令、数据结构、程序模块、或者经调制的数据信号(诸如载波或者其他传送机制)中的其他数据体现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对信号中的信息进行编码的方式来设置或改变其一个或多个特征的信号。通过示例而非限制,通信介质可包括诸如有线网络或直接有线连接之类的有线介质、以及诸如声、射频(RF)、红外和其它无线介质之类的无线介质。
图6A和6B示出可用来实施本发明的各示例的移动计算设备600,例如移动电话、智能电话、个人数据助理、平板个人计算机、膝上型计算机等。例如,移动计算设备600可以被实现为***100,***和/或服务100和200的组件可被配置成执行如图3-4中描述的处理方法等。参考图6A,示出了用于实现各示例的移动计算设备600的一个示例。在基本配置中,移动计算设备600是具有输入元件和输出元件两者的手持计算机。移动计算设备600通常包括显示器605以及允许用户将信息输入移动计算设备600的一个或多个输入按钮610。移动计算设备600的显示器605还可用作输入设备(例如,触摸屏显示器)。如果被包括在内,任选的侧输入元件615允许进一步的用户输入。侧输入元件615可以是旋转开关、按钮、或者任何其它类型的手动输入元件。在替代示例中,移动计算设备600可纳入更多或更少的输入元件。例如,在某些示例中,显示器605可以不是触摸屏。在又一替代示例中,移动计算设备600是诸如蜂窝电话之类的便携式电话***。移动计算设备600还可包括任选的小键盘635。可选的小键盘635可以是物理小键盘或者在触摸屏显示器上生成的“软”键区。在各示例中,输出元件包括用于示出图形用户界面(GUI)的显示器605、可视指示器620(如发光二极管)、和/或音频换能器625(如扬声器)。在某些示例中,移动计算设备600结合振动换能器来向用户提供触觉反馈。在又一示例中,移动计算设备600结合诸如音频输入(如传声器插孔)、音频输出(如耳机插孔)、以及视频输出(如HDMI端口)之类的输入和/或输出端口,用于将信号发送到外部设备或从外部设备接收信号。
图6B是示出移动计算设备的一个示例的架构的框图。即,移动计算设备600可纳入***(即架构)602以实现某些示例。在一个示例中,***602被实现为能够运行一个或多个应用(如浏览器、电子邮件、输入处理、日历、联系人管理器、消息收发客户端、游戏、以及媒体客户端/播放器)的“智能电话”。在某些示例中,***602被集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序666可被加载到存储器662中,并且在操作***664上或者与其相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息收发程序等等。***602还包括存储器662内的非易失性存储区域668。非易失性存储区域668可用于存储持久性信息,如果***602断电,该持久性信息则不会丢失。应用程序666可使用和存储非易失性存储区域668中的信息,诸如电子邮件应用所使用的电子邮件或其它消息等。同步应用(未示出)还驻留在***602上,并且被编程为与驻留在主机计算机上的相应同步应用交互以使存储在非易失性存储区域668中的信息保持与存储在主机计算机的相应信息同步。应当理解,其它应用可被加载到存储器662中并在包括在此所述的应用528、IO管理器524以及其它工具526的移动计算设备600上运行。
***602具有可被实现为一个或多个电池的电源670。电源670可能进一步包括外部电源,诸如补充电池或对电池再充电的AC适配器或供电底座(powered dockingcradle)。
***602可包括执行促进***602和一个或多个***设备之间的连接性的功能的***设备端口678。来往***设备端口672的传输是在操作***664的控制下进行的。换言之,***设备端口678接收的通信可通过操作***664传播到应用程序666,反之亦然。
***602还可包括执行发射和接收射频通信的功能的无线电672。无线电672通过通信运营商或服务供应商促进了***602与“外部世界”之间的无线连接性。在操作***672的控制下进行与无线电664之间的传输。换句话说,可经由操作***664将无线电672接收到的通信散布到应用程序666反之亦然。
视觉指示器620可用于提供视觉通知,和/或音频接口674可用于经由音频换能器625生成听得见的通知。在所示示例中,可视指示器620是发光二极管(LED),而音频换能器625是扬声器。这些设备可直接耦合到电源670以使它们在激活时保持开启达通知机制所陈述的持续时间,即使处理器660以及其它组件可能关闭以节约电池电量。LED可被编程为无限地保持开启,直至用户采取措施来指示该设备的开启状态。音频接口674用于向用户提供听得见的信号且接收来自用户的听得见的信号。例如,除了耦合到音频换能器625以外,音频接口674还可耦合到话筒以接收听得见的输入,诸如促进电话交谈。根据各本发明的各示例,话筒也可充当音频传感器来便于对通知的控制,如下文将描述的。***602可进一步包括允许板载相机630的操作来记录静止图像、视频流等的视频接口676。
实现***602的移动计算设备600可具有附加特征或功能。例如,移动计算设备600还可包括附加数据存储设备(可移除和/或不可移除),诸如磁盘、光盘或带。这种附加存储设备在图6B中用非易失性存储区668示出。
如上所述,通过移动计算设备600生成或捕捉且经由***602存储的数据/信息可在本地被存储在移动计算设备600上,或者该数据可被存储在可由该设备经由无线电672或者经由移动计算设备600与关联于移动计算设备600的单独计算设备(例如,分布式计算网络中的服务器计算机(诸如因特网))之间的有线连接访问的任意数量的存储介质上。如应当领会的,可经由移动计算设备600、经由无线电672、或者经由分布式计算网络访问此类数据/信息。类似地,可以在根据熟知的数据/信息转移和存储装置(包括电子邮件和协同数据/信息共享***)的用于存储和使用的计算设备之间容易地转移此类数据/信息。
图7示出用于向一个或多个客户端设备提供如上所述的可靠地访问存储***上的目标数据并且处理对一个或多个客户端设备的通信故障的应用的***架构的一个示例。与应用528、IO管理器524、其它工具526以及存储相关联地访问、交互或编辑的目标数据可被存储在不同的通信信道或其他存储类型中。例如,各种文档可使用目录服务722、web门户724、邮箱服务726、即时消息收发存储728或社交网站730来存储,应用528、IO管理器524、其它工具526以及存储***可使用这些类型的***或诸如此类中的任意一种来实现如本文所描述的数据使用。服务器720可提供存储***以供操作在通用计算设备502和移动设备600上的客户端通过网络715来使用。作为示例,网络715可包括因特网或任何其它类型的局域网或广域网,并且客户端节点可被实现为具体化在个人计算机、平板计算设备和/或移动计算设备600(如智能电话)中的计算设备502。客户端计算设备502或600的这些示例中的任一个可从存储716获得内容。
本说明书通篇引述了“一个示例”或“一示例”,这意味着在至少一个实施例中包括特定描述的特征、结构或特性。因此,使用这些词组可指不止仅仅一个示例。而且,在一个或多个示例中,可以用任何合适的方式组合所描述的特征、结构或特性。
然而,相关领域内技术人员可以理解各示例可省去一个或多个特定细节而实现,或通过其它方法、资源、材料等实现。在其它实例中,公知的结构、资源或操作尚未被示出或详细说明以仅避免对各实施例的某些方面产生混淆。
虽然示出和描述了示例示例和应用,但是应该理解本实施例不限于上述精确配置和资源。可以对此处公开的方法和***的排列、操作以及细节作出对本领域技术人员显而易见的各种修改、改变和变化,而不背离所要求保护的本示例的范围。
Claims (20)
1.一种计算机实现的方法(300),包括:
接收(302)用于内容创建的输入信息,其中所述输入信息包括到登陆页的链接和关键词信息;
评估(304)所述登陆页并且从所述登陆页中提取包括图像数据和文本数据中的至少一者的内容,所提取的内容包括所述登陆页的主块,所述主块是所述登陆页的着重点;
分析(306)所提取的内容的特性;
基于所述内容的所分析的特性以及至少两个排序算法的应用来排序(308)所提取的内容,其中所应用的第一排序算法基于与所述登陆页的相关性来排序所述所提取的内容,而所应用的第二排序算法基于与所述关键词信息的相关性来排序所提取的内容;
基于将过滤规则应用到经排序的内容来过滤(310)经排序的内容以移除被确定为不具有吸引力的内容或内容部分;以及
从经过滤的且经排序的内容中创建(312)至少一个概要。
2.如权利要求1所述的计算机实现的方法(300),其特征在于,进一步包括:
将至少一个所创建的概要添加(314)到所创建的概要的存储,并且基于对所述概要的放置的位置的评估来从所创建的概要的存储中选择(316)所述至少一个概要以供放置。
3.如权利要求1所述的计算机实现的方法(300),其特征在于,所述内容的提取(304)包括爬行所述登陆页并且从所述登陆页中自动提取包括所述图像数据和所述文本数据的主数据块,并且基于要在所述创建中被创建的概要的类型来从所述主数据块中自动提取信息。
4.如权利要求1所述的计算机实现的方法(300),其特征在于,其中所述创建(312)从经过滤的且经排序的内容中创建多个概要,并且所述计算机实现的方法还包括基于所获得的针对所述多个概要中的一个或多个概要的用户响应数据来更新(320)所述多个概要中的一个或多个概要的放置。
5.如权利要求4所述的计算机实现的方法(300),其特征在于,其中所述更新(320)还包括基于人口统计信息来修改所述概要的内容。
6.如权利要求1所述的计算机实现的方法(300),其特征在于,其中在所述创建(312)中创建的概要是通过聚集和安排所提取的包括图像数据、文本数据和元数据中的至少两者的不同类型的内容来创建的丰富格式内容。
7.如权利要求1所述的计算机实现的方法(300),其特征在于,其中所述创建(312)还包括修改来自经过滤的且经排序的内容中的内容以创建所述概要。
8.如权利要求1所述的计算机实现的方法(300),其特征在于,还包括迁徙(318)所述至少一个概要以确定对所述概要的用户响应,其中所述迁徙包括收集和评估针对所述至少一个概要的用户响应数据。
9.如权利要求1所述的计算机实现的方法(300),其特征在于,所述过滤(310)还包括基于所述过滤规则的应用来更新经排序的内容的排序,所述过滤规则评估对于内容与所述登陆页有多占优的相关性、与所述关键词信息的相关性以及从用户响应数据中确定的相关性中的至少一个。
10.一种涉及内容创建的***(100),包括:
存储器(506);以及
与所述存储器连接的至少一个处理器(660),所述至少一个处理器执行过程,所述过程包括:
接收(302)用于内容创建的输入信息,其中所述输入信息包括到登陆页的链接和关键词信息,
评估(304)所述登陆页并且从所述登陆页中提取包括图像数据和文本数据中的至少一者的内容,所提取的内容包括所述登陆页的主块,所述主块是所述登陆页的着重点,
分析(306)所提取的内容的特性,
基于所述内容的所分析的特性以及至少两个排序算法的应用来排序(308)所提取的内容,其中所应用的第一排序算法基于与所述登陆页的相关性来排序所提取的内容,而所应用的第二排序算法基于与所述关键词信息的相关性来排序所提取的内容,
基于将过滤规则应用到经排序的内容来过滤(310)经排序的内容以移除被确定为不具有吸引力的内容或内容部分,以及
从经过滤的且经排序的内容中创建(312)至少一个概要。
11.如权利要求10所述的***(100),其特征在于,被执行的过程还包括:
将至少一个所创建的概要添加(314)到所创建的概要的存储,并且基于对所述概要的放置的位置的评估来从所创建的概要的存储中选择(316)所述至少一个概要以供放置。
12.如权利要求10所述的***(100),其特征在于,所述内容的提取(304)包括爬行所述登陆页并且从所述登陆页中自动提取包括所述图像数据和所述文本数据的主数据块,并且基于要在所述创建中被创建的概要的类型来从所述主数据块中自动提取信息。
13.如权利要求10所述的***(100),其特征在于,其中所述创建(312)从经过滤的且经排序的内容中创建多个概要,并且所述过程还包括基于所获得的针对所述多个概要中的一个或多个概要的用户响应数据来更新(320)所述多个概要中的一个或多个概要的放置。
14.如权利要求13所述的***(100),其特征在于,其中所述更新(320)还包括基于人口统计信息来修改所述概要的内容。
15.如权利要求10所述的***(100),其特征在于,其中在所述创建(312)中创建的概要是通过聚集和安排所提取的包括图像数据、文本数据和元数据中的至少两者的不同类型的内容来创建的丰富格式内容。
16.如权利要求10所述的***(100),其特征在于,其中所述创建(312)还包括修改来自经过滤的且经排序的内容中的内容以创建所述概要。
17.如权利要求10所述的***(100),其特征在于,还包括迁徙(318)所述至少一个概要以确定对所述概要的用户响应,其中所述迁徙包括收集和评估针对所述至少一个概要的用户响应数据。
18.如权利要求10所述的***(100),其特征在于,所述过滤(310)还包括基于规则集的应用来更新经排序的内容的排序,所述规则集评估与所述登陆页上的占优性的相关性、与所述关键词信息的相关性以及从用户响应数据中确定的相关性中的至少一个。
19.一种包括可执行指令的计算机可读存储设备(506),当所述指令在至少一个处理器上执行时,致使所述处理器执行一个过程(400),所述过程包括:
接收(402)用于内容创建的输入信息,其中所述输入信息包括到登陆页的链接和关键词信息;
评估(404)所述登陆页并使用机器学习算法从所述登陆页中自动提取包括图像数据和文本数据的内容,所提取的内容包括所述登陆页的主块,所述主块是所述登陆页的着重点;
分析(406)所提取的内容的特性;
基于所述内容的所分析的特性以及至少两个排序算法的应用来排序(408)所提取的所述图像数据和所述文本数据,其中所应用的第一排序算法基于与所述登陆页的相关性来排序所提取的内容,而所应用的第二排序算法基于与所述关键词信息的相关性来排序所提取的内容;
基于将过滤规则应用到经排序的内容来过滤(410)经排序的内容以移除被确定为不具有吸引力的内容或内容部分,其中所述过滤包括基于所述过滤规则的应用来更新经排序的图像数据和经排序的文本数据的排序,所述过滤规则评估对于内容与所述登陆页有多占优的相关性、与所述关键词信息的相关性以及从用户响应数据中确定的相关性中的至少一个;
从经过滤的且经排序的内容中创建(412)至少一个丰富格式概要,其中所述创建安排并聚集经过滤的图像数据和经过滤的文本数据来创建所述至少一个丰富格式概要。
20.如权利要求19所述的计算机可读存储设备(506),其特征在于,所执行的过程(400)还包括:
迁徙(416)所述至少一个丰富内容概要以确定对于所述丰富内容概要的用户响应,其中所述迁徙包括收集并评估针对所述至少一个丰富内容概要的用户响应数据。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2015/070657 WO2016112503A1 (en) | 2015-01-14 | 2015-01-14 | Content creation from extracted content |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106462588A CN106462588A (zh) | 2017-02-22 |
CN106462588B true CN106462588B (zh) | 2020-04-10 |
Family
ID=56405108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580015033.6A Active CN106462588B (zh) | 2015-01-14 | 2015-01-14 | 来自所提取的内容的内容创建 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10579630B2 (zh) |
CN (1) | CN106462588B (zh) |
WO (1) | WO2016112503A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180150752A1 (en) * | 2016-11-30 | 2018-05-31 | NewsRx, LLC | Identifying artificial intelligence content |
US11392758B2 (en) * | 2020-04-20 | 2022-07-19 | Microsoft Technology Licensing, Llc | Visual parsing for annotation extraction |
NL2025417B1 (en) * | 2020-04-24 | 2021-11-02 | Microsoft Technology Licensing Llc | Intelligent Content Identification and Transformation |
US11623738B1 (en) * | 2021-11-12 | 2023-04-11 | Beta Air, Llc | System and method for the prioritization of flight controls in an electric aircraft |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7421504B2 (en) | 2002-05-08 | 2008-09-02 | Matsushita Electric Industrial Co., Ltd. | Service providing device and service providing method |
US8239263B2 (en) * | 2003-09-05 | 2012-08-07 | Google Inc. | Identifying and/or blocking ads such as document-specific competitive ads |
US7836009B2 (en) * | 2004-08-19 | 2010-11-16 | Claria Corporation | Method and apparatus for responding to end-user request for information-ranking |
US8326686B2 (en) * | 2006-03-30 | 2012-12-04 | Google Inc. | Automatically generating ads and ad-serving index |
CN101517650A (zh) * | 2006-09-27 | 2009-08-26 | 皇家飞利浦电子股份有限公司 | 创建概要的方法 |
US20080172606A1 (en) * | 2006-12-27 | 2008-07-17 | Generate, Inc. | System and Method for Related Information Search and Presentation from User Interface Content |
US20090024718A1 (en) * | 2007-07-20 | 2009-01-22 | Aris Anagnostopoulos | Just-In-Time Contextual Advertising Techniques |
CN101661490B (zh) * | 2008-08-28 | 2013-01-02 | 国际商业机器公司 | 搜索引擎、其客户端及搜索网页的方法 |
CN102023998B (zh) * | 2009-09-21 | 2015-05-20 | 创新科技有限公司 | 用于处理网页以便在手持设备上显示的方法和装置 |
US8566360B2 (en) * | 2010-05-28 | 2013-10-22 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
US20120030015A1 (en) * | 2010-07-29 | 2012-02-02 | Google Inc. | Automatic abstracted creative generation from a web site |
US20130191735A1 (en) * | 2012-01-23 | 2013-07-25 | Formcept Technologies and Solutions Pvt Ltd | Advanced summarization on a plurality of sentiments based on intents |
CN103885959A (zh) * | 2012-12-20 | 2014-06-25 | 腾讯科技(深圳)有限公司 | 一种网页书签的生成方法和装置 |
KR101518488B1 (ko) * | 2013-05-20 | 2015-05-07 | 주식회사 애드오피 | 온라인 콘텐츠 가치 향상 방법 및 시스템 |
US20160062960A1 (en) * | 2014-09-02 | 2016-03-03 | Widespider, LLC | Systems and methods of publishing content from one or more sources |
-
2015
- 2015-01-14 CN CN201580015033.6A patent/CN106462588B/zh active Active
- 2015-01-14 US US15/543,879 patent/US10579630B2/en active Active
- 2015-01-14 WO PCT/CN2015/070657 patent/WO2016112503A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016112503A1 (en) | 2016-07-21 |
US20180004754A1 (en) | 2018-01-04 |
CN106462588A (zh) | 2017-02-22 |
US10579630B2 (en) | 2020-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106744B2 (en) | Search engine | |
US20220284234A1 (en) | Systems and methods for identifying semantically and visually related content | |
JP7503000B2 (ja) | エンティティー間の関係の調査するためのシステム及び方法 | |
US9767182B1 (en) | Classification of search queries | |
US20110320441A1 (en) | Adjusting search results based on user social profiles | |
US20100005087A1 (en) | Facilitating collaborative searching using semantic contexts associated with information | |
US20210342541A1 (en) | Stable identification of entity mentions | |
US9864768B2 (en) | Surfacing actions from social data | |
US20170011112A1 (en) | Entity page generation and entity related searching | |
MX2015006040A (es) | Modelo de gramatica para consultas de busqueda estructuradas. | |
AU2011350049A1 (en) | System and method for performing a semantic operation on a digital social network | |
US11836142B2 (en) | Intelligent ranking of search results | |
US20180096067A1 (en) | Creation and optimization of resource contents | |
US11514124B2 (en) | Personalizing a search query using social media | |
US20140279730A1 (en) | Identifying salient items in documents | |
US10095789B2 (en) | Method and system of searching composite web page elements and annotations presented by an annotating proxy server | |
US20200167613A1 (en) | Image analysis enhanced related item decision | |
US9331973B1 (en) | Aggregating content associated with topics in a social network | |
CN106462588B (zh) | 来自所提取的内容的内容创建 | |
US20210004420A1 (en) | Post-ranker for search results | |
CN116762071A (zh) | 基于用户简档来执行针对性搜索 | |
JPWO2020005986A5 (zh) | ||
US10534780B2 (en) | Single unified ranker | |
CN112182414A (zh) | 文章推荐方法、装置及电子设备 | |
US20150373064A1 (en) | Enabling digital asset reuse through dynamically curated shared personal collections with eminence propagation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |