CN103544169A - 页面调整方法及装置 - Google Patents

页面调整方法及装置 Download PDF

Info

Publication number
CN103544169A
CN103544169A CN201210241825.3A CN201210241825A CN103544169A CN 103544169 A CN103544169 A CN 103544169A CN 201210241825 A CN201210241825 A CN 201210241825A CN 103544169 A CN103544169 A CN 103544169A
Authority
CN
China
Prior art keywords
page
collection
transcoding
training sample
primitive character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210241825.3A
Other languages
English (en)
Other versions
CN103544169B (zh
Inventor
于高
薛林波
钱海祥
薛晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210241825.3A priority Critical patent/CN103544169B/zh
Publication of CN103544169A publication Critical patent/CN103544169A/zh
Application granted granted Critical
Publication of CN103544169B publication Critical patent/CN103544169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种页面的质量评估方法,包括如下步骤:获取第三方站点的页面,并分析所述页面以获得第一原始特征集;对所述页面进行转码以生成转码后的页面,并获得所述页面的结构化特征集;对所述转码后的页面进行分析以获得第二原始特征集;按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集;根据预设的评估模型和所述组合特征集对所述页面进行质量评估并生成质量评估结果;根据所述质量评估结果过滤所述页面或调整所述页面的权重值。本发明可以提升用户搜索和浏览体验度,并且提升广告点击的有效性,有利于提高用户访问的体验度。本发明还公开了一种页面的调整装置。

Description

页面调整方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种页面调整方法及页面调整装置。
背景技术
随着互联网深入到人们的日常生活,页面的浏览质量也越来越受到开发人员及用户的关注。为了提高页面的浏览质量,需要对页面质量进行评估。特别是在搜索引擎***中,页面质量评估具有关键作用。因为,页面的浏览质量会直接影响到用户选择的搜索结果。例如,页面中的文字、图片的排版或质量有问题,则可能导致用户选择的搜索结果的改变。
发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此,本发明的一个目的在于提出一种页面调整方法,该方法可以提升用户搜索及浏览体验,并且提升广告点击的有效性及收益性。本发明的第二个目的在于提出一种页面调整装置。
为实现上述目的,本发明第一方面的实施例提出一种页面的调整方法,包括如下步骤:
获取第三方站点的页面,并分析所述页面以获得第一原始特征集;
对所述页面进行转码以生成转码后的页面,并获得所述页面的结构化特征集;
对所述转码后的页面进行分析以获得第二原始特征集;
按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集;
根据预设的评估模型和所述组合特征集对所述页面进行质量评估并生成质量评估结果;以及
根据所述质量评估结果过滤所述页面或调整所述页面的权重值。
根据本发明实施例的页面调整方法,利用提取得到的待测页面的转码前和转码后的特征,以及转码后得到的结构化特征集生成组合特征集,从而表征转码后的页面中各种原始特征的分析结果,利用上述组合特征集和预设的评估模型对页面的质量进行评估,可以实现对页面的排版质量、内容完整性、展现速度等进行评估,从而为用户访问该页面提供指导。此外,利用质量评估结果可以实现对搜索页面和广告页面的调权,从而可以提升用户搜索和浏览体验度,并且提升广告点击的有效性,有利于提高用户访问的体验度。
本发明第二方面的实施例提出一种页面的调整装置,包括:页面获取模块,用于获取第三方站点的页面;转码模块,用于对所述页面进行转码以生成转码后的页面,并获得所述页面的结构化特征集;分析模块,用于对所述页面进行分析以获得第一原始特征集,以及对所述转码后的页面进行分析以获得第二原始特征集;组合模块,用于按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集;质量评估模块,用于建立评估模型,并根据所述评估模型和所述组合特征集对所述页面进行质量评估;优化模块,用于根据所述质量评估结果过滤所述页面或调整所述页面的权重值。
根据本发明实施例的页面的调整装置,利用提取得到的待测页面的转码前和转码后的特征,以及转码后得到的结构化特征集生成组合特征集,从而表征转码后的页面中各种原始特征的分析结果,利用上述组合特征集和预设的评估模型对页面的质量进行评估,可以实现对页面的排版质量、内容完整性、展现速度等进行评估,从而为用户访问该页面提供指导。此外,利用质量评估结果可以实现对搜索页面和广告页面的调权,从而可以提升用户搜索和浏览体验度,并且提升广告点击的有效性,有利于提高用户访问的体验度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的页面的调整方法的流程图;
图2为根据本发明实施例的评估模型的建立流程图;
图3为根据本发明实施例的特征提取的流程图;
图4为根据本发明实施例的对页面进行质量评估的流程图;
图5为根据本发明实施例的页面的调整装置的示意图;
图6为根据本发明实施例的转码模块的示意图;以及
图7为根据本发明实施例的质量评估模块的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。
下面参考图1至图4描述根据本发明实施例的页面的调整方法。其中,页面为搜索结果页面或广告页面。
如图1所示,本发明实施例提供的浏览质量的评估方法,包括如下步骤:
步骤S101,获取第三方站点的页面,并对该页面进行分析,获得第一原始特征集。
在本发明的示例中,第一原始特征集包括转码前的页面中的文字、图片、动画的数量和面积信息。
步骤S102,对页面进行转码以生成转码后的页面,并获得页面的结构化特征集。
通过以下步骤获得页面的结构化特征集:
首先,对页面进行结构化分析,获得页面的页面类型和内容块。其中,页面类型包括但不限于新闻页面、购物页面、论坛页面等。
然后,对页面的内容块进行分析,获得页面的结构化特征。
在本发明的一个实施例中,结构化特征包括但不限于页面中的标题、图标(Logo)和联系方式中的一种或多种。
步骤S103,对转码后的页面进行分析以获得第二原始特征集。
在本发明的示例中,第二原始特征集包括转码后的页面中的文字、图片、动画的数量和面积信息。
步骤S104,按照预设的组合规则将第一原始特征集、第二原始特征集和结构化特征集进行组合以生成组合特征集。
根据页面的页面类型选择对应的组合规则。具体地,不同的页面类型具有不同的质量关键点,页面为不同的页面类型时,其选择的组合规则也是不同的。例如,页面为新闻页面、论坛页面或购物页面时,其选择的组合规则是不同的。
步骤S105,根据预设的评估模型和组合特征集对页面进行质量评估。
在本发明的实施例中,对页面质量的评估包括对以下内容进行评估:
(1)页面能否正常访问。
(2)页面排版是否合理。
例如,转码后的页面中的图片是否可以完整显示,并且图文混排时是否会导致页面杂乱。
(3)页面内容是否完整。
例如,文字内容是否被截断、相关导航和翻页转码后是否存在、图片缩放后是否失真,以及图片中文字能否辨认。
(4)页面展现速度。
例如,是否出现网速过慢或者网站响应慢。或者,页面元素过于复杂导致的浏览器加载过慢,例如,jaVascript、flash等资源的加载。
综上,通过上述对页面的评估具有两个用处:
(1)验证评估模型的准确性。
(2)通过将本轮评估结果应用到下一轮对评估模型的学习,从而提升评估模型的准确性。
步骤S106,根据质量评估结果过滤页面或调整页面的权重值。
通过本步骤,根据质量评估结果可以过滤质量不好的页面,以及筛选出质量好的页面。例如,根据质量评估结果对页面的浏览质量进行评判,可以过滤掉低质量的广告页。此外,也可以根据质量评估结果筛选出质量好的页面,并将该部分质量好的页面优选提供给用户,以提高用户的体验度。
其中,根据质量评估结果调整页面的权重值,包括调整页面在搜索结果中的权重值。
在本发明的一个实施例中,还包括如下步骤:根据页面的质量评估结果调整显示页面的板式。
如图2所示,从初始样本训练评估模型,根据评估模型预测样本的浏览质量,获取预测结果。然后,从预测结果中抽样,并将评估中的被误判的样本(badcase)再更新至样本集,利用更新后的样本集训练新的评估模型。由此,可知,上述对评估模型的训练过程为一个循环过程。其中,被误判的样本可以包括:实际为好的样本,而被误判为差的;或者实际为差的样本,而被误判为好的。
具体地,通过以下步骤建立评估模型:
1)从初始样本建立训练样本库。
其中,训练样本库中包括多个训练样本。
在本发明的一个示例中,训练样本包括URL列表和URL列表中每个URL对应的人工评估结果。
需要说明的是,训练样本可以通过以下两种方式进行选取:
(1)随机选取
此种方式适于标准未知或者标准比较模糊的情况。
(2)目的选取
有目的性选择区分度较大的样本。
在本发明的一个实施例中,选取标准包括:
(1)好的样本和差的样本的数量相当。
(2)好的样本、差的样本均具有明显的好或坏的特征,不可以模棱两可。
例如,如果页面内容没有缺失,则该页面即为好的,否则页面为差的。如果页面的字体的颜色和背景颜色相近,则可能导致看不清内容,即可判断该页面为差的。
需要说明的是,如果页面排版质量好,但不一定为好的样本。所以,好的样本需要具有明显的好的特征。
(3)当有明确的评估标准时,初始样本集不宜过大,应该通过不断循环学习过程、扩充样本集使得训练得到的模型尽量拟合真实情况。
2)对训练样本库中的每个训练样本进行特征提取,并生成每个训练样本对应的训练特征集。
3)根据机器学习算法对训练特征集进行处理,生成评估模型。
在本发明的示例中,机器学习算法可以采用目前通用的学习算法。例如,线性分类器、决策树、神经网络等。其中,每种学习算法又可以分为学习算法和预测算法。
下面参考图3对获取原始特征、结构化特征和组合特征的步骤进行描述。
如图3所示,首先,从PC端页面和/或手机端页面获取第一原始特征。其中,第一原始特征包括页面的文字、图片、动画(flash)等的数量和面积信息。然后,对PC端页面和/或手机端页面进行转码,生成转码后的页面。并且,通过在转码过程中分析页面的页面类型及结构,获得页面的结构化特征集。
此外,对转码后的页面进行分析,获得转码后的页面的第二原始特征集。其中,第二原始特征集包括转码后的页面中的文字、图片、动画的数量和面积信息。
其后,根据页面的页面类型,选取对应的组合规则对第一原始特征集、第二原始特征集和结构化特征集进行组合,生成组合特征集。其中,组合特征集包括页面的文字、图片、动画图片面积占比、转码前后文字、图片、动画数目差。
在本发明的一个实施例中,通过人工分析获得有意义的组合特征,例如,从上述多种组合特征中选取对于用户有意义的特征,并通过多个特征计算得到组合特征集。
下面参考图4描述对页面进行质量评估的流程。其中,训练样本和样本均可以为来自PC端和/或手机端的页面。
步骤S401,输入训练样本,建立训练样本库。
步骤S402,对训练样本库中的每个训练样本进行特征提取。
步骤S403,根据提取得到的训练样本,生成每个训练样本对应的训练特征集。
步骤S404,采用机器学习算法对训练特征集进行处理。
步骤S405,根据步骤S404的处理结果生成评估模型。
步骤S406,输入样本。
其中,样本也可以成为未知样本,是指未经人工评估的URL列表。
步骤S407,对样本进行特征提取。
具体地,提取样本的第一原始特征集。对样本进行转码,获得转码后的结构化特征集。对转码后的样本进行分析以获得第二原始特征集。
步骤S408,根据样本的类型,采用预设的组合规则对第一原始特征集、第二原始特征集、结构化特征集进行组合以生成组合特征集。
步骤S409,根据预设的评估模型和组合特征集对页面采用预测算法对浏览质量进行预测。
步骤S410,获得对样本的浏览质量的预测结果。
需要说明的是,步骤S401和步骤S406可以并行执行。
本发明实施例提供的页面的调整方法,具有广泛的适用性,可以应用于先验、后验以及实时等多种时机中。
1)先验
适用于预先知道页面的URL列表,通过步骤S105得到的质量评估结果将质量差的页面过滤掉,或者筛选出质量好的页面。
2)后验
适用于预先不知道页面的URL列表或者URL列表过大,通过用户的访问记录,在获取质量评估结果后,对质量差的页面进行限制,而对质量好的页面在进行提升。
3)实时
适用性同后验。但是,这种情况下,对质量评估结果的实时性要求较高,并且对特征提取与模型训练的性能有要求。
通过采用上述对页面的调整方法,可以根据质量评估结果获取页面对应的质量信息,并使得不同质量的页面可以分别进入不同的板式。
具体而言,对于质量好的页面,即转码效果好的页面,点击搜索结果可以直接进入优化阅读模式,而不需要由用户进行选择。
并且,通过采用上述对页面的调整方法,可以帮助搜索结果调权。具体地,根据质量评估结果调整页面在搜索结果中的权重值。从而,更有利于用户从众多搜索结果中选择质量好的结果,通过点击该搜索结果可以直接进入优化阅读模式。
根据本发明实施例的页面的调整方法,利用提取得到的待测页面的转码前和转码后的特征,以及转码后得到的结构化特征集生成组合特征集,从而表征转码后的页面中各种原始特征的分析结果,利用上述组合特征集和预设的评估模型对页面的质量进行评估,可以实现对页面的排版质量、内容完整性、展现速度等进行评估,从而为用户访问该页面提供指导。此外,利用质量评估结果可以实现对搜索页面和广告页面的调权,从而可以提升用户搜索和浏览体验度,并且提升广告点击的有效性,有利于提高用户访问的体验度。
下面参考图5至图7描述根据本发明实施例的页面的调整装置500。其中,页面为搜索结果页面或广告页面。
如图5所示,本发明实施例的浏览质量的评估装置500,包括页面获取模块510、转码模块520、分析模块530、组合模块540、质量评估模块550和优化模块560。
页面获取模块510获取第三方站点的待测页面。转码模块520对待测页面进行转码以生成转码后的待测页面,并获得待测页面的结构化特征集。分析模块530对待测页面进行分析以获得第一原始特征集,对转码后的待测页面进行分析获得第二原始特征集。
如图6所示,本发明实施例提供的转码模块520包括:结构化分析单元521和结构化特征获取单元522。其中,结构化分析单元521对待测页面进行结构化分析,获得待测页面的页面类型和内容块。其中,页面类型包括但不限于新闻页面、购物页面、论坛页面等。
结构化特征获取单元522对待测页面的内容块进行分析,获得待测页面的结构化特征。
在本发明的一个实施例中,结构化特征包括但不限于待测页面中的标题、图标(Logo)和联系方式中的一种或多种。
在本发明的示例中,第一原始特征集包括转码前的待测页面中的文字、图片、动画的数量和面积信息。第二原始特征集包括转码后的待测页面中的文字、图片、动画的数量和面积信息。
组合模块540按照预设的组合规则将第一原始特征集、第二原始特征集和结构化特征集进行组合,生成组合特征集。
组合模块540根据待测页面的页面类型选择对应的组合规则。具体地,不同的页面类型具有不同的质量关键点,待测页面为不同的页面类型时,其选择的组合规则也是不同的。例如,待测页面为新闻页面、论坛页面或购物页面时,其选择的组合规则是不同的。
质量评估模块550建立评估模型,并根据评估模型和组合特征集对待测页面进行质量评估。
如图7所示,本发明实施例的质量评估模块550包括:接收单元551、模型建立单元552和评估单元553。其中,接收单元551接收来自组合模块540的组合特征集,模型建立单元552建立训练样本库,并对训练样本库中的每个训练样本进行特征提取,生成每个训练样本对应的训练特征集,以及根据机器学习算法对训练特征集进行处理,生成评估模型。其中,训练样本库中包括有多个训练样本。
具体地,模型建立单元552通过以下步骤建立评估模型:
1)从初始样本建立训练样本库。
其中,训练样本库中包括多个训练样本。
在本发明的一个示例中,训练样本包括URL列表和URL列表中每个URL对应的人工评估结果。
需要说明的是,训练样本可以通过以下两种方式进行选取:
(2)随机选取
此种方式适于标准未知或者标准比较模糊的情况。
(2)目的选取
有目的性选择区分度较大的样本。
在本发明的一个实施例中,选取标准包括:
(1)好的样本和差的样本的数量相当。
(2)好的样本、差的样本均具有明显的好或坏的特征,不可以模棱两可。
例如,如果页面内容没有缺失,则该页面即为好的,否则页面为差的。如果页面的字体的颜色和背景颜色相近,则可能导致看不清内容,即可判断该页面为差的。
需要说明的是,如果页面排版质量好,但不一定为好的样本。所以,好的样本需要具有明显的好的特征。
(3)当有明确的评估标准时,初始样本集不宜过大,应该通过不断循环学习过程、扩充样本集使得训练得到的模型尽量拟合真实情况。
2)对训练样本库中的每个训练样本进行特征提取,并生成每个训练样本对应的训练特征集。
3)根据机器学习算法对训练特征集进行处理,生成评估模型。
在本发明的示例中,机器学习算法可以采用目前通用的学习算法。例如,线性分类器、决策树、神经网络等。其中,每种学习算法又可以分为学习算法和预测算法。
评估单元553根据评估模型和组合特征集对待测页面进行质量评估。
在本发明的实施例中,评估单元553对待测页面质量的评估包括对以下内容进行评估:
(1)页面能否正常访问。
(2)页面排版是否合理。
例如,转码后的待测页面中的图片是否可以完整显示,并且图文混排时是否会导致页面杂乱。
(3)页面内容是否完整。
例如,文字内容是否被截断、相关导航和翻页转码后是否存在、图片缩放后是否失真,以及图片中文字能否辨认。
(4)页面展现速度
例如,是否出现网速过慢或者网站响应慢。或者,页面元素过于复杂导致的浏览器加载过慢,例如,javascript、flash等资源的加载。
综上,通过上述对待测页面的评估具有两个用处:
(1)验证评估模型的准确性。
(2)通过将本轮评估结果应用到下一轮对评估模型的学习,从而提升评估模型的准确性。
优化模块560根据质量评估结果过滤页面或调整页面的权重值。具体地,优化模块560根据质量评估结果可以过滤质量不好的页面,以及筛选出质量好的页面。例如,根据质量评估结果对页面的浏览质量进行评判,优化模块560可以过滤掉低质量的广告页。此外,也可以根据质量评估结果筛选出质量好的页面,并将该部分质量好的页面优选提供给用户,以提高用户的体验度。
其中,优化模块560根据质量评估结果调整页面的权重值,包括调整页面在搜索结果中的权重值。
在本发明的一个实施例中,优化模块560还可以根据页面的质量评估结果调整显示页面的板式。
本发明实施例提供的页面的调整装置500具有广泛的适用性,可以应用于先验、后验以及实时等多种时机中。
1)先验
适用于预先知道页面的URL列表,通过质量评估模块550获取的质量评估结果将质量差的页面过滤掉,或者筛选出质量好的页面。
2)后验
适用于预先不知道页面的URL列表或者URL列表过大,通过用户的访问记录,在获取质量评估结果后,对质量差的页面进行限制,而对质量好的页面在进行提升。
3)实时
适用性同后验。但是,这种情况下,对质量评估结果的实时性要求较高,并且对特征提取与模型训练的性能有要求。
通过采用上述对页面的调整装置500可以根据质量评估结果获取页面对应的质量信息,并使得不同质量的页面可以分别进入不同的板式。
具体而言,对于质量好的页面,即转码效果好的页面,点击搜索结果可以直接进入优化阅读模式,而不需要由用户进行选择。
并且,通过采用上述对页面的调整装置可以帮助搜索结果调权。具体地,优化模块560根据质量评估结果调整页面在搜索结果中的权重值。从而,更有利于用户从众多搜索结果中选择质量好的结果,通过点击该搜索结果可以直接进入优化阅读模式。
根据本发明实施例的页面的调整装置,利用提取得到的待测页面的转码前和转码后的特征,以及转码后得到的结构化特征集生成组合特征集,从而表征转码后的页面中各种原始特征的分析结果,利用上述组合特征集和预设的评估模型对页面的质量进行评估,可以实现对页面的排版质量、内容完整性、展现速度等进行评估,从而为用户访问该页面提供指导。此外,利用质量评估结果可以实现对搜索页面和广告页面的调权,从而可以提升用户搜索和浏览体验度,并且提升广告点击的有效性,有利于提高用户访问的体验度。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种页面的调整方法,其特征在于,包括如下步骤:
获取第三方站点的页面,并分析所述页面以获得第一原始特征集;
对所述页面进行转码以生成转码后的页面,并获得所述页面的结构化特征集;
对所述转码后的页面进行分析以获得第二原始特征集;
按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集;
根据预设的评估模型和所述组合特征集对所述页面进行质量评估并生成质量评估结果;以及
根据所述质量评估结果过滤所述页面或调整所述页面的权重值。
2.如权利要求1所述的页面的调整方法,其特征在于,所述页面为搜索结果页面或广告页面。
3.如权利要求2所述的页面的调整方法,其特征在于,还包括:
根据所述页面的质量评估结果调整显示所述页面的版式。
4.如权利要求2所述的页面的调整方法,其特征在于,还包括:
根据所述页面的质量评估结果调整所述页面在搜索结果中的权重值。
5.如权利要求1所述的页面的调整方法,其特征在于,所述评估模型通过以下步骤得到:
建立训练样本库,所述训练样本库中包括多个训练样本;
对所述训练样本库中的每个训练样本进行特征提取,并生成每个训练样本对应的训练特征集;
根据机器学习算法对所述训练特征集进行处理以生成所述评估模型。
6.如权利要求5所述的页面的调整方法,其特征在于,所述训练样本包括URL列表和URL列表中每个URL对应的人工评估结果。
7.如权利要求1所述的页面的调整方法,其特征在于,还包括:
根据所述页面的页面类型选择对应的组合规则。
8.如权利要求1-7任一项所述的页面的调整方法,其特征在于,所述第一原始特征集和第二原始特征集分别包括转码前和转码后的所述页面中的文字、图片、动画的数量和面积信息。
9.如权利要求1-8任一项所述的页面的调整方法,其特征在于,所述获得所述页面的结构化特征集进一步包括:
对所述页面进行结构化分析,以获得所述页面的页面类型和内容块;
对所述页面的内容块进行分析以获得所述页面的结构化特征。
10.如权利要求9所述的页面的调整方法,其特征在于,所述结构化特征包括所述页面中的标题、图标和联系方式中的一种或多种。
11.一种页面的调整装置,其特征在于,包括
页面获取模块,用于获取第三方站点的页面;
转码模块,用于对所述页面进行转码以生成转码后的页面,并获得所述页面的结构化特征集;
分析模块,用于对所述页面进行分析以获得第一原始特征集,以及对所述转码后的页面进行分析以获得第二原始特征集;
组合模块,用于按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集;
质量评估模块,用于建立评估模型,并根据所述评估模型和所述组合特征集对所述页面进行质量评估;以及
优化模块,用于根据所述质量评估结果过滤所述页面或调整所述页面的权重值。
12.如权利要求11所述的页面的调整装置,其特征在于,所述页面为搜索结果页面或广告页面。
13.如权利要求12所述的页面的调整装置,其特征在于,所述优化模块用于根据所述页面的质量评估结果调整显示所述页面的版式。
14.如权利要求12所述的页面的调整装置,其特征在于,所述优化模块用于根据所述页面的质量评估结果调整所述页面在搜索结果中的权重值。
15.如权利要求11所述的页面的调整装置,其特征在于,所述质量评估模块包括:
接收单元,用于接收来自所述组合模块的组合模块的所述组合特征集;
模型建立单元,用于建立训练样本库,并对所述训练样本库中的每个训练样本进行特征提取,并生成每个训练样本对应的训练特征集,以及根据机器学习算法对所述训练特征集进行处理以生成所述评估模型,其中所述训练样本库中包括多个训练样本;
评估单元,用于根据所述评估模型和所述组合特征集对所述页面进行质量评估。
16.如权利要求11所述的页面的调整装置,其特征在于,所述训练样本包括URL列表和URL列表中每个URL对应的人工评估结果。
17.如权利要求11所述的页面的调整装置,其特征在于,所述组合模块根据所述页面的页面类型选择对应的组合规则。
18.如权利要求11-17任一项所述的页面的调整装置,其特征在于,所述第一原始特征集和第二原始特征集分别包括转码前和转码后的所述页面中的文字、图片、动画的数量和面积信息。
19.如权利要求11-18任一项所述的页面的调整装置,其特征在于,所述转码模块包括:
结构化分析单元,用于对所述页面进行结构化分析,以获得所述页面的页面类型和内容块;
结构化特征获取单元,用于对所述页面的内容块进行分析以获得所述页面的结构化特征。
20.如权利要求19所述的页面的调整装置,其特征在于,所述结构化特征包括所述页面中的标题、图标和联系方式中的一种或多种。
CN201210241825.3A 2012-07-12 2012-07-12 页面调整方法及装置 Active CN103544169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210241825.3A CN103544169B (zh) 2012-07-12 2012-07-12 页面调整方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210241825.3A CN103544169B (zh) 2012-07-12 2012-07-12 页面调整方法及装置

Publications (2)

Publication Number Publication Date
CN103544169A true CN103544169A (zh) 2014-01-29
CN103544169B CN103544169B (zh) 2017-05-10

Family

ID=49967632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210241825.3A Active CN103544169B (zh) 2012-07-12 2012-07-12 页面调整方法及装置

Country Status (1)

Country Link
CN (1) CN103544169B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016115944A1 (zh) * 2015-01-21 2016-07-28 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN110837460A (zh) * 2018-08-16 2020-02-25 阿里巴巴集团控股有限公司 页面评测方法、模型构建方法及设备
CN113034415A (zh) * 2021-03-23 2021-06-25 哈尔滨市科佳通用机电股份有限公司 一种铁路机车小部件图像扩增的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法
CN101777060A (zh) * 2009-12-23 2010-07-14 中国科学院自动化研究所 网页视觉质量的自动评价方法及其***
CN101916276A (zh) * 2010-08-13 2010-12-15 北京新岸线网络技术有限公司 一种改善富媒体文件在网络中发布的方法、装置及服务器
CN102243661A (zh) * 2011-07-21 2011-11-16 中国科学院计算机网络信息中心 网站内容质量评估方法和装置
CN102306185A (zh) * 2011-08-30 2012-01-04 百度在线网络技术(北京)有限公司 一种用于识别wap网页的方法、装置和设备
US8255793B2 (en) * 2008-01-08 2012-08-28 Yahoo! Inc. Automatic visual segmentation of webpages
CN103544170A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 浏览质量的评估方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法
US8255793B2 (en) * 2008-01-08 2012-08-28 Yahoo! Inc. Automatic visual segmentation of webpages
CN101777060A (zh) * 2009-12-23 2010-07-14 中国科学院自动化研究所 网页视觉质量的自动评价方法及其***
CN101916276A (zh) * 2010-08-13 2010-12-15 北京新岸线网络技术有限公司 一种改善富媒体文件在网络中发布的方法、装置及服务器
CN102243661A (zh) * 2011-07-21 2011-11-16 中国科学院计算机网络信息中心 网站内容质量评估方法和装置
CN102306185A (zh) * 2011-08-30 2012-01-04 百度在线网络技术(北京)有限公司 一种用于识别wap网页的方法、装置和设备
CN103544170A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 浏览质量的评估方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016115944A1 (zh) * 2015-01-21 2016-07-28 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
US10891350B2 (en) 2015-01-21 2021-01-12 Guangzhou Shenma Mobile Information Technology Co., Ltd. Method and device for establishing webpage quality model
CN110837460A (zh) * 2018-08-16 2020-02-25 阿里巴巴集团控股有限公司 页面评测方法、模型构建方法及设备
CN110837460B (zh) * 2018-08-16 2023-07-14 阿里巴巴华南技术有限公司 页面评测方法、模型构建方法及设备
CN113034415A (zh) * 2021-03-23 2021-06-25 哈尔滨市科佳通用机电股份有限公司 一种铁路机车小部件图像扩增的方法
CN113034415B (zh) * 2021-03-23 2021-09-14 哈尔滨市科佳通用机电股份有限公司 一种铁路机车小部件图像扩增的方法

Also Published As

Publication number Publication date
CN103544169B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
US9355079B2 (en) Reader mode presentation of web content
CN102024028B (zh) 在移动终端上突出显示网页的主体内容的方法及设备
CN111259271B (zh) 评论信息的展示方法、装置、电子设备及计算机可读介质
US20090319449A1 (en) Providing context for web articles
CN107798571A (zh) 恶意地址/恶意订单的识别***、方法及装置
US8515953B2 (en) Temporal visualization of query results
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
CN108334508B (zh) 网页信息的提取方法和装置
US20220114269A1 (en) Page processing method, electronic apparatus and non-transitory computer-readable storage medium
McKelvey et al. Visualizing communication on social media: Making big data accessible
CN103544170A (zh) 浏览质量的评估方法及装置
WO2018129903A1 (zh) 舆情公关方法、***、用户终端及计算机可读存储介质
CN109582859B (zh) 保险推送方法、装置、计算机设备及存储介质
CN103544169A (zh) 页面调整方法及装置
CN105117482A (zh) 一种实现网站导航的方法和装置
CN105138702A (zh) 一种基于搜索引擎的网络搜索方法及电子设备
CN103218390A (zh) 一种站点资源管理方法及装置
CN111427544B (zh) 软件需求文档的生成方法、装置、存储介质及电子设备
CN105550279A (zh) 基于视觉的列表页识别方法
KR101544142B1 (ko) 화제도 기반의 검색 제공 방법 및 시스템
KR101440385B1 (ko) 인디케이터를 이용한 정보 관리 장치
CN105138704A (zh) 一种搜索结果控制方法及电子设备
CN110515618A (zh) 页面信息录入优化方法、设备、存储介质及装置
CN103678711A (zh) 一种页面特征表示方法、装置及设备
CN117217628B (zh) 一种碳信用项目评级方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant