CN108475275A - 识别视频页面 - Google Patents

识别视频页面 Download PDF

Info

Publication number
CN108475275A
CN108475275A CN201680077528.6A CN201680077528A CN108475275A CN 108475275 A CN108475275 A CN 108475275A CN 201680077528 A CN201680077528 A CN 201680077528A CN 108475275 A CN108475275 A CN 108475275A
Authority
CN
China
Prior art keywords
video
page
web page
video object
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680077528.6A
Other languages
English (en)
Inventor
A·J·K·塔姆比拉纳姆
韩博
巢望礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108475275A publication Critical patent/CN108475275A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开提供了用于识别视频页面的方法、装置和***。为了识别视频页面,可以首先获取互联网上的web页面的结构化内容。可以从web页面的结构化内容中提取视频对象属性。可以使用经由机器学习构建的基于页面的分类模型来确定web页面是否是视频页面。视频对象属性可以被用作基于页面的分类模型的输入特征。

Description

识别视频页面
背景技术
互联网用户广泛地使用搜索引擎来搜索感兴趣的内容。在一些情形下,用户可能期望仅仅接收到某一类型的搜索结果,如视频页面。例如,用户可能想要查询视频内容,响应于来自用户的这种查询,搜索引擎可以返回与用户所查询的视频内容相关联的视频页面列表。此处,视频页面表示包括至少一个视频且将该至少一个视频设置为主要内容的web页面。
为了响应对视频内容的查询,搜索引擎提供方应当预先建立,例如,包含互联网上的视频页面的索引的数据库或大表(Big Table),其中,数据库或大表可以基于本地的或分布式的存储。需要首先识别互联网上的视频页面以便建立数据库或大表。存在一些现有的用于识别视频页面的方式,例如,基于模板的方式、基于URL的方式、基于站点地图的方式等。通常,这些方式针对较小范围的视频网站,如主流受欢迎的视频网站,并且依赖于对这些网站上的视频页面所人为定义的规则信息,如模板规则、URL规则等。例如,对于基于模板的方式或基于URL的方式,一些视频网站可以对视频网站上的视频页面人为地设计规则,例如,页面内容模板规则、页面布局模板规则或URL规则,并且搜索引擎提供方可以从视频网站上的一些视频页面中总结出规则信息并利用该规则信息进一步识别视频网站上的视频页面。在另一个实例中,对于基于站点地图的方式,一个主流受欢迎的视频网站的运营方可以初始地向搜索引擎提供方提供该网站的web页面列表以及用于识别web页面是否是视频页面的相应元数据,然后,搜索引擎提供方可以利用该元数据以及该网站的站点地图来识别该网站上的视频页面。
根据现有方式的识别视频页面的准确率取决于人为定义的规则信息。此外,所能够检测到的视频页面的范围通常集中在较小数量的主流受欢迎的视频网站。
发明内容
提供本发明内容以便以简化形式介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
本公开的实施例可以提供用于识别视频页面的方法、装置和***。
在一个方面,本公开提供了一种用于识别视频页面的方法。根据该方法,可以获取web页面的结构化内容。可以将结构化内容用于提取视频对象属性。可以将经由机器学习构建的基于页面的分类模型用于确定web页面是否是视频页面。视频对象属性可以被用作基于页面的分类模型的输入特征。
在另一个方面,本公开提供了一种用于识别视频页面的装置。该装置可以包括结构化内容获取模块、属性提取器以及视频页面分类器。结构化内容获取模块可以被配置为获取web页面的结构化内容。属性提取器可以被配置为从结构化内容中提取视频对象属性。视频页面分类器可以被配置为通过使用经由机器学习构建的基于页面的分类模型来确定web页面是否是视频页面,视频对象属性作为基于页面的分类模型的输入特征。
在另一个方面,本公开提供了一种用于识别视频页面的***。该***可以包括:一个或多个处理器以及存储器。该存储器可以存储计算机可执行指令,当所述计算机可执行指令被运行时,使得所述一个或多个处理器执行根据本公开各个方面的方法的任意步骤。
在另一个方面,本公开提供了一种非易失性计算机可读介质。该非易失性计算机可读介质可以包括指令,当所述指令被运行时,使得一个或多个处理器执行根据本公开各个方面的方法的任意步骤。
应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的特定示例性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式中的一些方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
图1是根据本公开实施例的用于识别视频页面的示例性方法的流程图。
图2示出根据本公开实施例的用于识别视频页面的示例性装置。
图3是根据本公开实施例的用于获取web页面的结构化内容的示例性方法的流程图。
图4示出根据本公开实施例的用于识别视频页面的示例性装置。
图5是根据本公开实施例的用于基于URL来确定潜在视频页面的示例性方法的流程图。
图6示出根据本公开实施例的用于识别视频页面的示例性装置。
图7示出根据本公开实施例的用于识别视频页面的示例性***。
具体实施方式
现在将参考多种示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
本公开的实施例可以提供用于识别视频页面的方法、装置和***。本公开的实施例可以应用于各种搜索引擎。例如,通过实施本公开的实施例,可以有效地识别互联网上的视频页面,并且可以进而将视频页面添加到包含有维持用于搜索引擎的视频页面索引的数据库或大表。因此,当用户通过搜索引擎查询某一视频内容时,搜索引擎可以从数据库或大表中提取视频页面索引并返回给用户。
在一个方面,本公开提出了使用基于页面的分类模型来识别视频页面。可以经由机器学习来构建基于页面的分类模型。可以将各种机器学习算法应用于基于web页面的各种视频对象属性来构建基于页面的分类模型。通过使用经由机器学习所构建的基于页面的分类模型,可以提高识别视频页面的准确率以及召回(recall)率。在另一个方面,本公开还提出了使用基于URL的分类模型来确定潜在视频页面。可以预先经由机器学习来构建基于URL的分类模型。通过共同使用基于URL的分类模型和基于页面的分类模型,可以进一步提高识别视频页面的准确率以及召回率,并且可以显著地改进识别视频页面的效率。
本公开的实施例可以对互联网上的较大范围的web页面执行视频页面识别,而并不限制于较小数量的主流受欢迎的视频网站。因此,可以识别更多的视频页面以用于搜索引擎。本公开的实施例也可以实现自动的视频页面识别,因此可以持续地识别互联网上的视频页面。
应当理解,以上描述的示例性环境仅仅用于说明的目的,而并非教导对本公开的范围的任何限制。本公开可以利用不同的结构和/或功能来实施。
图1是根据本公开实施例的用于识别视频页面的示例性方法100的流程图。
方法100在102处开始并进行到104。在104处,可以获取web页面的结构化内容。众所周知,web页面是可以采用各种标记语言,例如HTML、XML等来实现的。可以将web页面的源代码文档,例如HTML文档,转换成结构化内容。本公开的实施例可以采用任何用于获取web页面的结构化内容的方式。在一种实施方式中,在104处的获取web页面的结构化内容可以仅仅指接收结构化内容。在这种情况下,可以由任何web页面技术或任何第三方提供结构化内容。在另一种实施方式中,在104处的获取web页面的结构化内容可以包括生成结构化内容的过程。例如,可以使用文档对象模型(DOM)技术来生成结构化内容,其中,DOM技术为例如HTML文档、XML文档等提供结构化表示方式。在这种情况下,在104处,例如,可以获取对应于web页面的DOM树。即,结构化内容可以被表示成DOM树。此处,获取了结构化内容的web页面可以是互联网上的任何一个web页面。可选地,该web页面可以是通过后面描述的特定方式而确定的潜在视频页面。
在106处,可以从结构化内容中提取视频对象属性。通常,web页面的结构化内容可以包括web页面中的对象的各种属性,例如,逻辑结构信息、布局信息或类型信息。因此,web页面中的视频对象的属性是可以从结构化内容中获取的。
如果web页面仅包括一个视频对象,则可以在106处获取web页面中的该视频对象的属性。然而,如果web页面包括多个视频对象,则可以在106处获取web页面中的多个视频对象中的一个或多个视频对象的属性。例如,在一种实施方式中,可以获取多个视频对象中的全部视频对象或一些视频对象的属性。在另一种实施方式中,可以仅获取多个视频对象中具有最大尺寸的视频对象的属性。
在一种实施方式中,在106处的操作可以包括首先基于视频标识信息来从结构化内容中检测视频对象。视频对象指示web页面中某一视频类型的视频单元。常见的视频类型可以包括webm、ogg、mp4、avi、flv等。视频标识信息可以是结构化内容中能够指示视频对象的任何类型的信息。例如,视频标识信息可以是直接嵌入有视频对象的HTML标签或HTML5视频标签。视频标识信息也可以是嵌入有视频页面的Iframe标签。本公开的实施例不限制于任何特定类型的视频对象或任何特定类型的视频标识信息。
在检测到视频对象后,在106处的操作可以进一步获取从结构化内容中检测到的视频对象的属性。如上所述,如果web页面包括多个视频对象,则106处的操作可以获取从结构化内容中检测到的多个视频对象中的一个或多个视频对象的属性。
在一种实施方式中,所提取的视频对象属性可以包括与web页面中的视频对象相关联的布局信息。布局信息可以是宽度、高度和位置中的一个或多个、或者其任意组合、或者任何从中导出的信息。
例如,在一种实施方式中,布局信息可以包括视频对象的宽度、高度、顶部和左部中的一个或多个。通常,视频对象的宽度、高度、顶部和左部被定义在结构化内容中,因此,可以直接从结构化内容中提取。否则,可以使用各种方式来推导出。在另一种实施方式中,布局信息可以包括对应于视频对象的至少一个容器(container)的宽度、高度、顶部和左部中的一个或多个。对应于视频对象的至少一个容器可以包括在不同层级上用于视频对象的一个或多个容器。通常,所述至少一个容器的宽度、高度、顶部和左部被定义在结构化内容中,因此,可以直接从结构化内容中提取。否则,可以使用各种方式来推导出。在另一种实施方式中,布局信息可以包括视频对象的水平中心与web页面的水平中心之间的距离。该距离可以是基于视频对象与web页面之间的相对位置来计算的。在另一种实施方式中,布局信息可以包括视频对象的顶部或底部与web页面的顶部或底部之间的距离。该距离可以是,例如,视频对象的顶部与web页面的顶部之间的距离、视频对象的底部与web页面的底部之间的距离、视频对象的顶部与web页面的底部之间的距离、或者视频对象的底部与web页面的顶部之间的距离。应当理解,布局信息可以包括以上示例性实施方式中的至少一个。此外,在一些情况下,以上布局信息可以采用归一化的形式。例如,可以将web页面的宽度或高度用于对布局信息进行归一化。
在一种实施方式中,视频对象属性可以包括视频类型信息。例如,可以从结构化内容中确定视频对象的类型。如上所述,视频类型可以是flv、webm、ogg、mp4等。
在一种实施方式中,视频对象属性可以包括容器类型信息。例如,可以从结构化内容中确定对应于视频对象的至少一个容器的类型。容器类型可以是,例如,div、p、a、span等。
在一种实施方式中,视频对象属性可以包括视频对象在DOM树中的深度信息。如上所述,结构化内容可以被表示成DOM树。可以采用各种方式来确定视频对象在DOM树中的深度。
在一种实施方式中,视频对象属性可以包括与视频对象和/或对应于视频对象的至少一个容器相关联的文本信息。该文本信息可以指示,例如,与视频对象和/或对应于视频对象的至少一个容器相关联的标签的“class”或“id”名称、或者任何其它文本。
应当理解,视频对象属性可以包括以下各项中的至少一项:布局信息、视频类型信息、容器类型信息、视频对象在DOM树中的深度信息、以及与视频对象和/或对应于视频对象的至少一个容器相关联的文本信息。
在108处,可以通过使用基于页面的分类模型来确定web页面是否是视频页面。在106处获取的视频对象属性可以被用作基于页面的分类模型的输入特征。可以预先经由机器学习来构建基于页面的分类模型,以用于基于为web页面提取的视频对象属性来确定web页面是否是视频页面。后面将描述经由机器学习对基于页面的分类模型的构建。
根据本公开,倾向于将包含作为主要内容的视频的那些web页面确定为视频页面。对于包含视频但未将该视频设置为主要内容的web页面,倾向于将这些web页面确定为非视频页面,因为该视频可能是例如广告视频并且可能不是用户所期望的。在web页面包括多个视频的情况下,如果该多个视频中的至少一个视频是主要内容,则倾向于将该web页面确定为视频页面。
例如,如果视频对象被显示在web页面的水平中心或靠近web页面的水平中心,或者尽管不靠近水平中心但具有相对较大的尺寸,则将会以较高的概率将该web页面确定为视频页面。然而,如果视频对象被显示为靠近web页面的边缘并且具有相对较小的尺寸,或者即使靠近水平中心但具有相对较小的尺寸,则将会以较高的概率将该web页面确定为非视频页面。对于另一个实例,如果web页面具有较大的垂直尺寸且视频对象被显示在web页面的底部,则即使视频对象被显示为靠近web页面的水平中心,也仍会以较高的概率将该web页面确定为非视频页面;然而,如果该视频对象被显示在web页面的第一屏内且靠近web页面的水平中心,则将会以较高的概率将该web页面确定为视频页面。因此,基于页面的分类模型可以将视频对象属性中的布局信息用于确定视频页面。
此外,基于页面的分类模型也可以将视频对象属性中的、视频对象在DOM树中的深度用于确定视频页面。例如,如果已知对于大多数视频页面而言,视频对象在DOM树中的深度位于5到7的范围内,则更可能将其视频对象具有该范围内的深度的web页面确定为视频页面。此外,基于页面的分类模型也可以将视频对象属性中的、视频对象的类型或至少一个容器的类型用于确定视频页面。此外,基于页面的分类模型也可以将与视频对象和/或对应于视频对象的至少一个容器相关联的文本信息用于确定视频页面。例如,如果与视频对象相关联的标签的“id”被命名为“video_stage(视频_级)”,则由于词语“video”的使用,该web页面非常可能是视频页面,而如果“id”的名称包括“gallery(图库)”,则该web页面可以被确定为非视频页面。
方法100在110处结束。然而,应当理解,可以将108处的确定结果用于任何进一步的应用场景。例如,如果通过方法100将web页面识别为视频页面,则该web页面可以被编写索引并添加到包含有维持用于搜索引擎的视频页面索引的数据库或大表。
如上所述,在方法100中,可以经由机器学习来构建基于页面的分类模型。本公开的实施例可以采用用于执行机器学习的各种技术。例如,在一种实施方式中,可以将提升树(Boosted Tree)、随机森林、神经网络和支持向量机(SVM)中的一个或多个用作机器学习模型。
为了构建将被用作基于页面的分类模型的机器学习模型,首先,可以人为地将大量的训练web页面(例如,几千个或更多个web页面)标记为视频页面或非视频页面。可以通过与图1中的操作104和106相类似的方式来从这些web页面中提取视频对象属性。然后,可以将web页面的所提取的视频对象属性以及为web页面所确定的视频页面或非视频页面标记输入到机器学习模型,以作为输入训练特征。输入训练特征可以采用机器学习模型能够解释的任何形式。例如,如果输入训练特征采用数字形式,则可以预先对视频对象属性和标记进行数字化。基于输入训练特征,可以训练机器学习模型,以便建立用于确定视频页面的基于机器学习的机制。可以将所训练的机器学习模型用作基于页面的分类模型,以用于确定web页面是否是视频页面。例如,当要确定某一个web页面是否是视频页面时,基于页面的分类模型可以接收web页面的视频对象属性,并且使用其内所构建的基于机器学习的机制来返回确定结果。
通过采用机器学习方式来构建基于页面的分类模型,本公开可以建立用于确定视频页面的确定机制,该确定机制具有比现有的人为定义的规则更高的性能。因此,本公开可以提高识别视频页面的准确率以及召回率。
图2示出根据本公开实施例的用于识别视频页面的示例性装置200。在一种实施方式中,装置200可以被配置为执行方法100的操作。
装置200可以包括结构化内容获取模块202、属性提取器204以及视频页面分类器206。结构化内容获取模块202可以被配置为获取web页面的结构化内容。例如,结构化内容获取模块202可以执行方法100中的操作104。属性提取器204可以被配置为从结构化内容中提取视频对象属性。例如,属性提取器204可以执行方法100中的操作106。视频页面分类器206可以包括经由机器学习所构建的基于页面的分类模型,并且可以被配置为通过使用基于页面的分类模型来确定web页面是否是视频页面。例如,视频页面分类器206可以执行方法100中的操作108。
图3是根据本公开实施例的用于获取web页面的结构化内容的示例性方法300的流程图。方法300是方法100中的操作104的示例性实施。应当理解,也可以通过任何其它方式来实施方法100中的操作104。
方法300在302处开始并进行到304。在304处,可以基于web页面的URL来对web页面执行抓取操作。在本公开的实施方式中,可以将互联网上的web页面分类为静态web页面或动态web页面。对于静态web页面,在生成了相应的源代码(例如,HTML代码)后,页面的内容和显示效果将不会改变,除非源代码被修改。而对于动态web页面,即使其源代码没有被修改,所显示内容的至少一部分也可以随着时间、数据库操作等而改变。可以通过HTML与其它高级编程语言(例如,Java、C#、C++等)的组合来生成动态web页面。例如,动态web页面可以包括程序代码段,并且通过运行该程序代码段,可以执行与后台数据库、web服务器或用户的交互。
本公开的实施例可以采用各种抓取方式。可以通过静态抓取方式或者动态抓取方式来抓取web页面。通常,可以将静态抓取方式用于抓取静态web页面,可以将动态抓取方式用于抓取动态web页面。然而,在一些情况下,例如,如果包括动态内容的web页面的源代码能够利用单个源代码文档在标准web浏览器中产生视频播放器,则也可以采用静态抓取方式而不是动态抓取方式来抓取该web页面。在一些实施方式中,也可以将web页面的URL内的“domain(域)”字段用于确定可以将哪种抓取方式应用于该web页面。对于静态抓取方式和动态抓取方式,可以分别获取不同的抓取结果。例如,如果web页面是静态web页面,则操作304可以通过静态抓取方式来抓取到该静态web页面的单个源代码文档,例如,HTML文档。而如果web页面是动态web页面,则操作304通常可以通过动态抓取方式来抓取到该动态web页面的源代码文档和至少一个脚本文件。脚本文件可以是有助于在动态web页面中实现对某些对象的动态显示的文件。例如,脚本文件可以是或可以包括程序代码(例如,Javascript代码)段,当被运行时,该程序代码段执行与后台数据库、web服务器或用户的交互。此外,如上所述,在一些情况下,操作304也可以通过静态抓取方式来抓取动态web页面的单个源代码文档。
在306处,可以确定是执行静态解析还是动态解析。可以采用各种方式来用于306处的确定。例如,如果在304处抓取到单个源代码文档,则可以在306处确定执行静态解析,从而,方法300进行到308。在308处,可以将源代码文档解析成结构化内容。
否则,如果在304处抓取到源代码文档和至少一个脚本文件,则可以在306处确定执行动态解析,从而,方法300进行到310。在310处,可以将源代码文档和至少一个脚本文件解析成结构化内容。
在一种实施方式中,可以自动地运行所述至少一个脚本文件,以便有助于在310处的解析操作。即,在310处的解析操作可以包括将源代码文档和经运行的至少一个脚本文件解析成结构化内容。例如,如果脚本文件是Javascript文件,则可以运行Javascript文件中的代码,以便可以获取web页面的进一步的对象信息并将其用于生成结构化内容。作为实例,在动态web页面包括对应于脚本文件的播放按钮的情况下,可以自动地模拟对播放按钮的点击操作。这样的操作可以引起直接运行脚本文件、或者向服务器发送另一个http请求以获取可能包含视频的更新的动态web页面。当接收到更新的动态web页面时,可以将上述的抓取和解析操作进一步应用于该更新的动态web页面。
方法300在312处结束。然而,应当理解,在308和310处所获取的结构化内容可以进而被提供给图1的方法100中的操作106以进行后续处理。
图4示出根据本公开实施例的用于识别视频页面的示例性装置400。装置400是图2中装置200的进一步实施。
如图4中所示,结构化内容获取模块202可以进一步包括页面抓取器402和页面解析器404。页面抓取器402和页面解析器404可以被共同配置为执行方法300的操作。
页面抓取器402可以被配置为基于web页面的URL来对web页面执行抓取。例如,页面抓取器402可以执行方法300中的操作304。在静态抓取方式中,页面抓取器402可以抓取web页面的源代码文档,而在动态抓取方式中,页面抓取器402可以抓取web页面的源代码文档和至少一个脚本文件。
页面解析器404可以被配置为对页面抓取器402所抓取的文档或文件执行解析,以便生成web页面的结构化内容。例如,页面解析器404可以执行方法300的操作306、308和310中的任何操作。
页面解析器404可以确定是执行静态解析还是动态解析。如果页面抓取器402抓取到单个源代码文档,则页面解析器404可以将源代码文档解析成结构化内容。而如果页面抓取器402抓取到源代码文档和至少一个脚本文件,则页面解析器404可以将源代码文档和至少一个脚本文件解析成结构化内容。
图4中的属性提取器204和视频页面分类器206与图2中所示的属性提取器204和视频页面分类器206相同。
返回到图1,方法100可以被应用于互联网上的任何web页面。可选地,在一些实施例中,可以仅将方法100应用于潜在视频页面。通过在应用如图1所示的用于识别视频页面的基于页面的方法之前确定潜在视频页面,本公开可以极大地降低将要处理的web页面的数量,从而显著地改进识别视频页面的效率。此外,通过确定web页面是否是潜在视频页面,本公开可以进一步提高识别准确率并确保较高的召回率。可以采用各种方式来确定潜在视频页面。根据本公开的实施例,可以将web页面的URL用于确定该web页面是否是潜在视频页面。
可以将互联网上的所有网站划分成两组,一组包括主流受欢迎的视频网站,另一组包括所有其它网站。对于主流受欢迎的视频网站,可以使用用于确定潜在视频页面的基于URL模式(pattern)的方式。例如,可以将从某一主流受欢迎的视频网站上的web页面的URL中所获取的一组URL模式用于确定该web页面是否是潜在视频页面。对于主流受欢迎的视频网站之外的其它网站,可以使用用于确定潜在视频页面的基于URL关键字的方式。例如,可以将从所述其它网站上的web页面的URL中所获取的一组URL关键字用于确定该web页面是否是潜在视频页面。
图5是根据本公开实施例的用于基于URL来确定潜在视频页面的示例性方法500的流程图。
方法500在502处开始并进行到504。在504处,可以获取web页面的URL。可以通过各种方式来获取web页面的URL。例如,可以将web抓取器用于自动地获取互联网上的web页面的URL。在这种情况下,方法500的操作可以总是由获取到新URL这样的事件来触发。
在506处,可以确定是将基于URL模式的方式还是将基于URL关键字的方式用于确定潜在视频页面。例如,可以提取在504处所获取的URL的“domain”字段,并将其用于确定该URL是否指向主流受欢迎的视频网站上的web页面并从而应当被应用基于URL模式的方式。
如果在506处确定要应用基于URL模式的方式,则方法500进行到508。在508处,可以对URL执行URL模式解析,以便获取对应于URL的一组URL模式。在一种实施方式中,一组URL模式中的每一个URL模式可以是URL的一个或多个URL特征的组合。URL特征可以包括从URL中的scheme(方案)、domain、path list(路径列表)、suffix(后缀)、query list(查询列表)等中的至少一个所提取的特征。例如,假设URL是“http://www.abcde.com/video/cn/263578.html”,则可以提取出一组URL特征,例如,scheme=“http”、domain=“abcd.com”、path 1=“video”、path 2=“cn”、path 3=“263578”、path 3是十进制数等。从而,可以根据这些URL特征中的一个或多个URL特征的任意组合来形成一组URL模式。例如,第一URL模式可以是[scheme=“http”,domain=“abcd.com”,path 1=“video”]的组合,第二URL模式可以是[domain=“abcd.com”,path 1=“video”,path 2=“cn”,path 3是十进制数]的组合,等等。
在510处,可以基于在508处所获取的一组URL模式来执行基于URL模式的分类,以便确定该web页面是否是潜在视频页面。在一种实施方式中,可以将与该web页面所属于的主流受欢迎的视频网站相对应的基于URL模式的分类模型用于执行510处的分类。可以经由机器学习来构建基于URL模式的分类模型。在这种情况下,508处的操作可以可选地包括在为多个主流受欢迎的视频网站分别构建的多个基于URL模式的分类模型之中,选择对应于该主流受欢迎的视频网站的基于URL模式的分类模型。例如,该选择是可以基于URL中的“domain”字段来执行的。可以将在508处所获取的一组URL模式用作基于URL模式的分类模型的输入特征。可以预先经由机器学习来构建基于URL模式的分类模型,以用于基于从web页面的URL所获取的URL模式来确定web页面是否是潜在视频页面。后面将描述经由机器学习对基于URL模式的分类模型的构建。
如果在506处确定不应用基于URL模式的方式,则方法500进行到512。在512处,可以对URL执行URL关键字解析,以便获取对应于URL的一组URL关键字。例如,假设URL是“http://www.edcba.com/video/show/145937.html”,则可以从该URL中提取出一组URL关键字,例如,“video(视频)”、“show(演出)”等。
在514处,可以基于在512处所获取的一组URL关键字来执行基于URL关键字的分类,以便确定web页面是否是潜在视频页面。在一种实施方式中,可以将经由机器学习构建的基于URL关键字的分类模型用于执行514处的分类。可以将在512处所获取的一组URL关键字用作基于URL关键字的分类模型的输入特征。可以预先经由机器学习来构建基于URL关键字的分类模型,以用于基于从web页面的URL所获取的URL关键字来确定web页面是否是潜在视频页面。后面将描述经由机器学习对基于URL关键字的分类模型的构建。
在516处,如果将web页面确定为潜在视频页面,则方法500进行到518。在518处,返回所确定的潜在视频页面。否则,如果将web页面确定为不是潜在视频页面,则方法500在520处结束。
尽管方法500在520处结束,但是由方法500所确定的潜在视频页面可以进而被提供给图1的方法100中的操作104,从而,可以将方法100中的后续操作应用在潜在视频页面上。
如上所述,在方法500中,可以经由机器学习来构建基于URL模式的分类模型和基于URL关键字的分类模型。本公开的实施例可以采用各种技术来执行机器学习。例如,在一种实施方式中,可以将提升树、随机森林、神经网络和SVM中的一个或多个用作机器学习模型。
应当理解,基于URL模式的分类模型是特定于各个主流受欢迎的视频网站的。即,对于每一个主流受欢迎的视频网站,应当单独地构建基于URL模式的分类模型。为了构建将要被用作与某一主流受欢迎的视频网站对应的基于URL模式的分类模型的机器学习模型,可以首先获取该网站上已经被标记为视频页面或非视频页面的多个训练web页面的URL。在一种实施方式中,可以人为地标记和提供这些训练web页面。在另一种实施方式中,可以利用以上描述的用于识别视频页面的装置200来自动地标记和提供这些训练web页面。例如,对于某一主流受欢迎的视频网站,装置200可以用于将该网站上的web页面分类成视频页面或非视频页面。从而,这些web页面可以被标记并提供作为基于URL模式的分类模型的训练web页面。在这种情况下,由于能够使用用于识别视频页面的装置200来提供训练web页面,可以降低用于训练模型的开销,并且提高训练效率。可以通过与图5中的操作508相类似的方式来从这些web页面的URL中提取URL模式。然后,可以将所提取的URL模式以及视频页面或非视频页面的标记输入到机器学习模型,以作为输入训练特征。基于输入训练特征,可以训练机器学习模型,以便建立用于确定潜在视频页面的基于机器学习的机制。可以将所训练的机器学习模型用作基于URL模式的分类模型,该基于URL模式的分类模型用于确定该主流受欢迎的视频网站上的web页面是否是潜在视频页面。例如,当确定某一主流受欢迎的视频网站上的某一web页面是潜在视频页面时,对应于该网站的基于URL模式的分类模型可以接收该web页面的一组URL模式,并且使用其内所构建的基于机器学习的机制来返回确定结果。
可以通过与基于URL模式的分类模型相类似的方式,经由机器学习来构建基于URL关键字的分类模型,不同之处在于该机器学习模型是利用如
图5中操作512所示的从训练web页面的URL中所提取的这些web页面的URL关键字来进行训练的。例如,经训练的机器学习模型可以包括多个所学习的关键字(例如,“v”、“show”、“play”、“video”、“tv”、“vplay”等)以及这些关键字的对应权重。
通过采用机器学习方式来构建基于URL模式的分类模型和基于URL关键字的分类模型,本公开可以以较高的性能来建立用于确定潜在视频页面的确定机制。
图6示出根据本公开实施例的用于识别视频页面的示例性装置600。装置600是图2中的装置200的进一步实施。
如图6所示,除了结构化内容获取模块202、属性提取器204以及视频页面分类器206之外,用于识别视频页面的装置600还可以包括URL解析器602和URL分类器604。URL解析器602和URL分类器604可以被共同配置为执行如图5所示的基于URL来确定潜在视频页面的方法500。
URL解析器602可以被配置为对web页面的URL执行URL解析。在一种实施方式中,URL解析器602可以包括URL模式解析器612和URL关键字解析器614。例如,URL模式解析器612可以被配置为对指向主流受欢迎的视频网站上的web页面的URL执行URL模式解析,而URL关键字解析器614可以被配置为对未指向任何主流受欢迎的视频网站上的web页面的URL执行URL关键字解析。
URL分类器604可以被配置为利用基于URL的分类模型来执行基于URL的分类。在一种实施方式中,URL分类器604可以进一步包括基于URL模式的分类器616和基于URL关键字的分类器618,并且基于URL的分类模型可以进一步包括基于URL模式的分类模型和基于URL关键字的分类模型。例如,基于URL模式的分类器616可以包括基于URL模式的分类模型,并且可以被配置为利用基于URL模式的分类模型来执行基于URL模式的分类。基于URL关键字的分类器618可以包括基于URL关键字的分类模型,并且可以被配置为利用基于URL关键字的分类模型来执行基于URL关键字的分类。
由URL分类器604所确定的潜在视频页面可以进而被提供给后续模块以执行相应的处理。例如,结构化内容获取模块202可以获取由URL分类器604所确定的潜在视频页面的结构化内容。
图7示出根据本公开实施例的用于识别视频页面的示例性***700。***700可以包括一个或多个处理器702。***700还可以包括存储器704,其与所述一个或多个处理器702连接。存储器704可以存储计算机可执行指令,当所述计算机可执行指令被运行时,使得所述一个或多个处理器702执行根据如上所述本公开实施例的用于识别视频页面的方法的任意操作。
本公开的实施例可以实施在非易失性计算机可读介质中。该非易失性计算机可读介质可以包括指令,当所述指令被运行时,使得一个或多个处理器执行根据如上所述本公开实施例的用于识别视频页面的方法的任意操作。
应当理解,以上描述的方法中的所有操作都仅仅是示例性的,本公开并不限制于方法中的任何操作或这些操作的顺序,而是应当涵盖在相同或相似构思下的所有其它等同变换。
还应当理解,以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外,这些模块中的任何模块可以被进一步划分成子模块或与其它模块组合。
已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在***上的总体设计约束。作为示例,本公开中涉及的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开涉及的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。
软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器,存储器可以例如为磁性存储设备(如,硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开涉及的多个方面中将存储器示出为是与处理器分离的,但是存储器可以位于处理器内部(如,缓存或寄存器)。
本说明书被提供用于使得本领域技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的,本文描述的一般性原理可以应用于其它方面。因此,权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换,都将通过引用而明确地包含到本文中,并且旨在由权利要求所覆盖。

Claims (20)

1.一种用于识别视频页面的方法,包括:
获取web页面的结构化内容;
从所述结构化内容中提取视频对象属性;以及
通过使用经由机器学习构建的基于页面的分类模型来确定所述web页面是否是视频页面,所述视频对象属性作为所述基于页面的分类模型的输入特征。
2.根据权利要求1所述的方法,在所述获取之前,还包括:
通过使用经由机器学习构建的基于URL关键字的分类模型或基于URL模式的分类模型,来确定所述web页面的URL指向潜在视频页面。
3.根据权利要求1所述的方法,其中,所述获取包括:
以静态抓取方式来抓取所述web页面的源代码文档;以及
将所述源代码文档解析成所述结构化内容。
4.根据权利要求1所述的方法,其中,所述获取包括:
以动态抓取方式来抓取所述web页面的源代码文档和至少一个脚本文件;以及
将所述源代码文档和所述至少一个脚本文件解析成所述结构化内容。
5.根据权利要求4所述的方法,还包括:
运行所述至少一个脚本文件,
其中,所述解析包括将所述源代码文档和所述经运行的至少一个脚本文件解析成所述结构化内容。
6.根据权利要求1所述的方法,其中,所述结构化内容被表示成DOM树。
7.根据权利要求1所述的方法,其中,所述视频对象属性包括以下各项中的至少一项:布局信息、视频类型信息、容器类型信息、视频对象在DOM树中的深度信息、以及与所述视频对象和/或对应于所述视频对象的至少一个容器相关联的文本信息。
8.根据权利要求7所述的方法,其中,所述布局信息包括以下各项中的至少一项:
(a)所述视频对象的宽度、高度、顶部和左部中的一个或多个;
(b)对应于所述视频对象的至少一个容器的宽度、高度、顶部和左部中的一个或多个;
(c)所述视频对象的水平中心与所述web页面的水平中心之间的距离;以及
(d)所述视频对象的顶部或底部与所述web页面的顶部或底部之间的距离。
9.根据权利要求8所述的方法,其中,所述布局信息是利用所述web页面的高度或宽度而归一化的。
10.根据权利要求1所述的方法,其中,所述提取包括:
基于视频标识信息来从所述结构化内容中检测视频对象。
11.根据权利要求10所述的方法,其中,所述视频标识信息包括以下各项中的至少一项:直接嵌入有视频对象的HTML标签、直接嵌入有视频对象的HTML5视频标签、以及嵌入有视频页面的Iframe标签。
12.根据权利要求1所述的方法,其中,所述web页面包括多个视频对象,并且所述提取还包括:
从所述结构化内容中提取所述多个视频对象中的一个或多个视频对象的视频对象属性。
13.根据权利要求1所述的方法,其中,通过在所述机器学习期间将提升树、随机森林、神经网络和支持向量机(SVM)中的一个或多个用作机器学习模型来构建所述基于页面的分类模型。
14.根据权利要求1所述的方法,其中,通过对具有视频页面或非视频页面标记的多个web页面的视频对象属性以及所述多个web页面的所述标记执行所述机器学习,来构建所述基于页面的分类模型。
15.一种用于识别视频页面的装置,包括:
结构化内容获取模块,用于获取web页面的结构化内容;
属性提取器,用于从所述结构化内容中提取视频对象属性;以及
视频页面分类器,用于通过使用经由机器学习构建的基于页面的分类模型来确定所述web页面是否是视频页面,所述视频对象属性作为所述基于页面的分类模型的输入特征。
16.根据权利要求15所述的装置,还包括:
URL分类器,用于通过使用经由机器学习构建的基于URL关键字的分类模型或基于URL模式的分类模型,来确定所述web页面的URL指向潜在视频页面。
17.根据权利要求15所述的装置,其中,所述视频对象属性包括以下各项中的至少一项:布局信息、视频类型信息、容器类型信息、视频对象在DOM树中的深度信息、以及与所述视频对象和/或对应于所述视频对象的至少一个容器相关联的文本信息。
18.根据权利要求17所述的装置,其中,所述布局信息包括以下各项中的至少一项:
(a)所述视频对象的宽度、高度、顶部和左部中的一个或多个;
(b)对应于所述视频对象的至少一个容器的宽度、高度、顶部和左部中的一个或多个;
(c)所述视频对象的水平中心与所述web页面的水平中心之间的距离;以及
(d)所述视频对象的顶部或底部与所述web页面的顶部或底部之间的距离。
19.根据权利要求18所述的装置,其中,所述web页面包括多个视频对象,并且所述属性提取器还配置为:
从所述结构化内容中提取所述多个视频对象中的一个或多个视频对象的视频对象属性。
20.一种用于识别视频页面的***,包括:
一个或多个处理器;以及
存储器,存储计算机可执行指令,当所述计算机可执行指令被运行时,使得所述一个或多个处理器执行根据权利要求1-14所述的方法。
CN201680077528.6A 2016-09-26 2016-09-26 识别视频页面 Pending CN108475275A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/100192 WO2018053863A1 (en) 2016-09-26 2016-09-26 Identifying video pages

Publications (1)

Publication Number Publication Date
CN108475275A true CN108475275A (zh) 2018-08-31

Family

ID=61689295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680077528.6A Pending CN108475275A (zh) 2016-09-26 2016-09-26 识别视频页面

Country Status (2)

Country Link
CN (1) CN108475275A (zh)
WO (1) WO2018053863A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11726752B2 (en) 2019-11-11 2023-08-15 Klarna Bank Ab Unsupervised location and extraction of option elements in a user interface
US11379092B2 (en) 2019-11-11 2022-07-05 Klarna Bank Ab Dynamic location and extraction of a user interface element state in a user interface that is dependent on an event occurrence in a different user interface
US11442749B2 (en) 2019-11-11 2022-09-13 Klarna Bank Ab Location and extraction of item elements in a user interface
US11366645B2 (en) 2019-11-11 2022-06-21 Klarna Bank Ab Dynamic identification of user interface elements through unsupervised exploration
US11386356B2 (en) 2020-01-15 2022-07-12 Klama Bank AB Method of training a learning system to classify interfaces
US11409546B2 (en) 2020-01-15 2022-08-09 Klarna Bank Ab Interface classification system
US10846106B1 (en) 2020-03-09 2020-11-24 Klarna Bank Ab Real-time interface classification in an application
US11496293B2 (en) 2020-04-01 2022-11-08 Klarna Bank Ab Service-to-service strong authentication

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715004A (zh) * 2009-11-12 2010-05-26 中国科学院计算技术研究所 面向网络视频的分布式采集方法和***
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和***
CN103455600A (zh) * 2013-09-03 2013-12-18 小米科技有限责任公司 一种视频url抓取方法、装置及服务器设备
US20150356195A1 (en) * 2014-06-05 2015-12-10 Apple Inc. Browser with video display history
US20160037071A1 (en) * 2013-08-21 2016-02-04 Xerox Corporation Automatic mobile photo capture using video analysis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559234B (zh) * 2013-10-24 2017-01-25 北京邮电大学 RESTful Web服务的自动化语义标注***和方法
CN104077389A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种网页元素信息的显示方法和浏览器装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715004A (zh) * 2009-11-12 2010-05-26 中国科学院计算技术研究所 面向网络视频的分布式采集方法和***
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和***
US20160037071A1 (en) * 2013-08-21 2016-02-04 Xerox Corporation Automatic mobile photo capture using video analysis
CN103455600A (zh) * 2013-09-03 2013-12-18 小米科技有限责任公司 一种视频url抓取方法、装置及服务器设备
US20150356195A1 (en) * 2014-06-05 2015-12-10 Apple Inc. Browser with video display history

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘志龙: "Web视频信息提取研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
WO2018053863A1 (en) 2018-03-29

Similar Documents

Publication Publication Date Title
CN108475275A (zh) 识别视频页面
CN104685501B (zh) 响应于可视化查询标识文本词汇
Liu et al. Vide: A vision-based approach for deep web data extraction
Peters et al. Content extraction using diverse feature sets
US20150242401A1 (en) Network searching method and network searching system
CN109716327A (zh) 视觉搜索平台的视频摄取框架
CN102446255B (zh) 一种检测页面篡改的方法及装置
US8380693B1 (en) System and method for automatically identifying classified websites
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN103678511B (zh) 根据可视化模板进行网页内容抽取的方法及装置
US11907644B2 (en) Detecting compatible layouts for content-based native ads
US9483740B1 (en) Automated data classification
CN103838785A (zh) 一种专利领域的垂直搜索引擎
CN103678509B (zh) 生成网页模板的方法及装置
EP3289487B1 (en) Computer-implemented methods of website analysis
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN103838862B (zh) 一种视频搜索的方法、装置及终端
Bozkir et al. Layout-based computation of web page similarity ranks
CN102902790B (zh) 网页分类***及方法
CN104036190A (zh) 一种检测页面篡改的方法及装置
Fiol-Roig et al. Data mining techniques for web page classification
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
CN105183843B (zh) 列表页识别***及方法
CN108694192B (zh) 网页类型的判断方法及装置
CN102890717B (zh) 网页类别知识库的建立***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180831