CN103514221A - 一种web站点资源管理方法及装置 - Google Patents

一种web站点资源管理方法及装置 Download PDF

Info

Publication number
CN103514221A
CN103514221A CN201210222539.2A CN201210222539A CN103514221A CN 103514221 A CN103514221 A CN 103514221A CN 201210222539 A CN201210222539 A CN 201210222539A CN 103514221 A CN103514221 A CN 103514221A
Authority
CN
China
Prior art keywords
page
index
web website
resource
index page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210222539.2A
Other languages
English (en)
Other versions
CN103514221B (zh
Inventor
刘承诚
薛晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210222539.2A priority Critical patent/CN103514221B/zh
Publication of CN103514221A publication Critical patent/CN103514221A/zh
Application granted granted Critical
Publication of CN103514221B publication Critical patent/CN103514221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种web站点资源管理方法及装置,其中方法包括一下步骤,检查web站点的数目;如果web站点的数目为一,则进一步检查web站点是否有索引页;如果有索引页,则对索引页进行优化以生成第一索引页;如果没有索引页,则根据web站点的结构生成第二索引页;以及如果web站点的数目为两个以上,则基于语义建立跨站点索引页。根据本发明实施例的web站点资源管理方法,通过对web站点的检测根据是否有索引页与web站点的数目的不同的三种种情况来根据不同方法建立的索引页,能够充分挖掘到站点资源组织关系并提高站点资源的聚合度且提高站点页面展示效果。

Description

一种web站点资源管理方法及装置
技术领域
本发明涉及web站点资源组织关系分析挖掘领域,特别涉及一种web站点资源管理方法及装置。
背景技术
现如今,web app化技术也越来越常见,而将web站点转换为app需要提供该站点的资源组织关系,因此需要对web站点的站内资源组织关系进行分析挖掘,获取结构化的资源组织关系数据。
目前对web站点的资源组织关系挖掘主要是通过人工查看来进行挖掘,并未有成熟的现有技术,因此存在以下缺点:
(1)对站点的资源组织关系的挖掘没有按照类别不同才采用不同方法,挖掘不够全面,且聚合度不高;
(2)没有固定的挖掘方法,得到的资源组织关系不够清晰且较混乱,不能较方便的结构化。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种web站点资源管理方法。
本发明的第二个目的在于提出一种web站点资源管理装置。
为了实现上述目的,根据本发明的第一方面实施例的web站点资源管理方法包括以下步骤:检查所述web站点的数目;如果所述web站点的数目为一,则进一步检查所述web站点是否有索引页;如果有索引页,则对所述索引页进行优化以生成第一索引页;如果没有索引页,则根据所述web站点的结构生成第二索引页;以及如果所述web站点的数目为两个以上,则基于语义建立跨站点索引页。
根据本发明实施例的web站点资源管理方法,通过对web站点的检测根据是否有索引页与web站点的数目的不同的三种种情况来根据不同方法建立的索引页,能够充分挖掘到站点资源组织关系并提高站点资源的聚合度且提高站点页面展示效果。
为实现上述目的,本发明第二方面的实施例的web站点资源管理装置包括:第一检查模块,所述第一检查模块用于检查所述web站点的数目;第二检查模块,所述第二检查模块用于在所述web站点的数目为一的情况下,检查所述web站点是否有索引页;优化模块,所述优化模块用于在所述web站点有索引页的情况下,对所述索引页进行优化以生成第一索引页;生成模块,所述第一生成模块用于在所述web站点没有索引页的情况下,根据所述web站点的结构生成第二索引页;以及建立模块,所述建立模块用于在所述web站点的数目为两个以上的情况下,基于语义建立跨站点索引页。
根据本发明实施例的web站点资源管理装置,通过对web站点的检测根据是否有索引页与web站点的数目的不同的三种情况来根据不同方法建立的索引页,能够充分挖掘到站点资源组织关系并提高站点资源的聚合度且提高站点页面展示效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的一种web站点资源管理方法的流程图;
图2为根据本发明一个实施例的一种web站点资源管理方法的流程图;
图3为根据本发明一个实施例的一种web站点资源管理方法的流程图;
图4为根据本发明一个实施例的一种web站点资源管理方法的流程图;
图5为根据本发明一个实施例的web站点资源管理装置的结构示意图;
图6为根据本发明一个实施例的web站点资源管理装置的结构示意图;
图7为根据本发明一个实施例的web站点资源管理装置的结构示意图;以及
图8为根据本发明一个实施例的web站点资源管理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
下面参考说明书附图描述根据本发明实施例的web站点资源管理方法
一种web站点资源管理方法,包括以下步骤:检查web站点的数目;如果web站点的数目为一,则进一步检查web站点是否有索引页;如果有索引页,则对索引页进行优化以生成第一索引页;如果没有索引页,则根据web站点的结构生成第二索引页;以及如果web站点的数目为两个以上,则基于语义建立跨站点索引页。
图1为本发明一个实施例的web站点资源管理方法的流程图。
如图1所示,根据本发明实施例的web站点资源管理方法包括下述步骤:
步骤S101:检查web站点的数目。
具体地,检测需要获取结构化的资源组织关系的web站点的数目。
步骤S102:如果web站点的数目为一,则进一步检查web站点是否有索引页。
具体地,如果检查到要获取结构化的资源组织关系的web站点为一个,那么开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页。
步骤S103:如果有索引页,则对索引页进行优化以生成第一索引页。
具体地,如果该web站点有索引页,那么获取该索引页中的页面信息,对该页面信息进行优化获取建立第一索引页所需的信息,生成该web站点的第一索引页。
步骤S104:如果没有索引页,则根据web站点的结构生成第二索引页。
具体地,如果该web站点没有索引页,则对该web站点的资源页进行挖掘,根据资源页的信息获取web站点的结构,根据web站点的结构信息生成该web站点的第二索引页。
步骤S105:如果web站点的数目为两个以上,则基于语义建立跨站点索引页。
具体地,如果检查到要获取结构化的资源组织关系的web站点为两个以上,则根据资源页的语义相关性来联系这些web站点,跨越站点获取资源索引组织信息,并根据获取到的资源索引组织信息来生成索引页。
根据本发明实施例的web站点资源管理方法,通过对web站点的检测根据是否有索引页与web站点的数目的不同的三种情况来根据不同方法建立的索引页,能够充分挖掘到站点资源组织关系并提高站点资源的聚合度且提高站点页面展示效果。
图2为本发明又一个实施例的web站点资源管理方法的流程图。
如图2所示,根据本发明实施例的web站点资源管理方法包括下述步骤。
步骤S201:检查web站点的数目。
具体地,检测需要获取结构化的资源组织关系的web站点的数目。
步骤S202:如果web站点的数目为一,则进一步检查web站点是否有索引页。
具体地,如果检查到要获取结构化的资源组织关系的web站点为一个,那么开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页。
步骤S203:如果有索引页,则删除索引页中的非索引信息。
具体地,如果该web站点有索引页,则获取该索引页面的全部信息并对该索引页面信息进行分析,将其中的非索引信息进行删除。
步骤S204:删除索引页中不能连接到web站点内的资源页面的索引项。
具体地,对索引页信息中剩下的索引项信息进行检查,看这些索引项是否能连接到其指向的web站点内的资源页,删除不能连接到其自身所指向的web站点内资源页面的索引项。
步骤S205:抽取索引页中的有效索引项以生成第一索引页。
具体地,抽取索引页中剩下的有效的索引信息整合到一个页面上,生成第一索引页面。
步骤S206:如果没有索引页,则根据web站点的结构生成第二索引页。
具体地,如果该web站点没有索引页,则对该web站点的资源页进行挖掘,根据资源页的信息获取web站点的结构,根据web站点的结构信息生成该web站点的第二索引页。
步骤S207:如果web站点的数目为两个以上,则基于语义建立跨站点索引页。
具体地,如果检查到要获取结构化的资源组织关系的web站点为两个以上,则根据资源页的语义相关性来联系这些web站点,跨越站点获取资源索引组织信息,并根据获取到的资源索引组织信息来生成索引页。
在本发明的一个实施例中,非索引信息包括广告和动画。
根据本发明实施例的web站点资源管理方法,通过将索引页面的非索引信息及无效索引删除,根据有效索引生成索引页,能够有效获取web站点的资源组织关系,且关系清晰,聚合度较高。
图3为本发明又一个实施例的web站点资源管理方法的流程图。
如图3所示,根据本发明实施例的web站点资源管理方法包括下述步骤。
步骤S301:检查web站点的数目。
具体地,检测需要获取结构化的资源组织关系的web站点的数目。
步骤S302:如果web站点的数目为一,则进一步检查web站点是否有索引页。
具体地,如果检查到要获取结构化的资源组织关系的web站点为一个,那么开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页。
步骤S303:如果有索引页,则删除索引页中的非索引信息。
具体地,如果该web站点有索引页,则获取该索引页面的全部信息并对该索引页面信息进行分析,将其中的非索引信息进行删除。
步骤S304:删除索引页中不能连接到web站点内的资源页面的索引项。
具体地,对索引页信息中剩下的索引项信息进行检查,看这些索引项是否能连接到其指向的web站点内的资源页,删除不能连接到其自身所指向的web站点内资源页面的索引项。
步骤S305:抽取索引页中的有效索引项以生成第一索引页。
具体地,抽取索引页中剩下的有效的索引信息整合到一个页面上,生成第一索引页面。
步骤S306:如果没有索引页,判断web站点内的资源页面是否具有标题。
具体地,如果该web站点没有索引页,则从首页开始挖掘该web站点的资源页,获取该web站点的资源页面的信息,判断资源页面是否有标题信息。
步骤S307:如果是,则抽取资源页面的标题作为索引项。
具体地,如果资源页有标题信息,则提取该资源页面中的标题作为索引项。
步骤S308:如果否,则生成资源页面的摘要信息作为索引项。
具体地,如果资源页没有标题信息,则根据资源页面包含的主要信息生成摘要信息,并将该摘要信息作为索引项。
步骤S309:根据索引项生成第二索引页。
具体地,获取所有资源页面的索引项整合到一个页面上,生成第二索引页。
步骤S310:如果web站点的数目为两个以上,则基于语义建立跨站点索引页。
具体地,如果检查到要获取结构化的资源组织关系的web站点为两个以上,则根据资源页的语义相关性来联系这些web站点,跨越站点获取资源索引组织信息,并根据获取到的资源索引组织信息来生成索引页。
在本发明的一个实施例中,非索引信息包括广告和动画。
根据本发明实施例的web站点资源管理方法,通过将资源页面的标题信息或摘要信息生成索引项,再根据这些索引项来生成索引页面,提高了资源组织关系的聚合度以及关系间的清晰度。
图4为本发明又一个实施例的web站点资源管理方法的流程图。
如图4所示,根据本发明实施例的web站点资源管理方法包括下述步骤。
步骤S401:检查web站点的数目。
具体地,检测需要获取结构化的资源组织关系的web站点的数目。
步骤S402:如果web站点的数目为一,则进一步检查web站点是否有索引页。
具体地,如果检查到要获取结构化的资源组织关系的web站点为一个,那么开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页。
步骤S403:如果有索引页,则删除索引页中的非索引信息。
具体地,如果该web站点有索引页,则获取该索引页面的全部信息并对该索引页面信息进行分析,将其中的非索引信息进行删除。
步骤S404:删除索引页中不能连接到web站点内的资源页面的索引项。
具体地,对索引页信息中剩下的索引项信息进行检查,看这些索引项是否能连接到其指向的web站点内的资源页,删除不能连接到其自身所指向的web站点内资源页面的索引项。
步骤S405:抽取索引页中的有效索引项以生成第一索引页。
具体地,抽取索引页中剩下的有效的索引信息整合到一个页面上,生成第一索引页面。
步骤S406:如果没有索引页,判断web站点内的资源页面是否具有标题。
具体地,如果该web站点没有索引页,则从首页开始挖掘该web站点的资源页,获取该web站点的资源页面的信息,判断资源页面是否有标题信息。
步骤S407:如果是,则抽取资源页面的标题作为索引项。
具体地,如果资源页有标题信息,则提取该资源页面中的标题作为索引项
步骤S408:如果否,则生成资源页面的摘要信息作为索引项。
具体地,如果资源页没有标题信息,则根据资源页面包含的主要信息生成摘要信息,并将该摘要信息作为索引项。
步骤S409:根据索引项生成第二索引页。
具体地,获取所有资源页面的索引项整合到一个页面上,生成第二索引页。
步骤S410:如果web站点的数目为两个以上,预定义与不同的语义对应的多个模板。
具体地,如果检查到要获取结构化的资源组织关系的web站点为两个以上,则根据语义相关性预先设定与该语义对应相关的模板。
步骤S411:将两个以上的web站点内的资源页面按照语义相关性分类并组织到第一web站点内。
具体地,获取各个web站点中的资源页中所包含的信息,并根据资源页信息中的语义相关性将各个web站点的资源页面进行分类,将各个资源页面中语义相关的信息组织到第一web站点中。
步骤S412:根据第一web站点语义相关性找到第一web站点对应的第一模板。
具体地,根据第一web站点中组织的资源页面的语义相关性到预定义的语义模板中进行查找,获取与第一web站点的语义相对应的第一模板。
步骤S413:将第一web站点内按照语义相关性分类的资源页面分别填充到第一模板的不同子栏目中。
具体地,根据关键词的属性,将第一web站点中的各个资源页面的信息按照语义的相关性填充到第一模板中,根据栏目的不同,添加相对应的资源页面信息。
步骤S414:根据不同的模板中的信息建立跨站点索引页。
具体地,根据不同语义的模板中填入相关信息,整合各个模板的关键词与语义作为索引项,建立起跨站点索引页。
下面举例说明步骤S410到S414的具体实施过程。
例如,定义一个书本信息的语义模板,里面包括书本基本信息、热门评论、商家比价、电子资源和其他模块等子栏目;然后假设各个站点资源页中有一本书叫大话设计模式,然后将各个资源页中大话设计模式的相关信息作为一类整合到第一web站点中;然后根据大话设计模式这本书的信息的关键词查找到书本信息模板,根据模板中的子栏目模块将第一web站点中的相关信息填充进模板中的各个子栏目,然后提取模板中的关键信息作为索引项,如此建立起多个页面并提取索引项,即可整合索引项建立起跨站点索引页。
在本发明的一个实施例中,不同的语义包括小说名称、新闻名称、视频名称和商品名称等。
在本发明的一个实施例中,非索引信息包括广告和动画。
根据本发明实施例的web站点资源管理方法,通过将多个站点的信息分类组织填充到模板中来进行索引项的生成,提高了资源组织关系的聚合度以及关系间的清晰度。
下面参考说明书附图描述根据本发明实施例的web站点资源管理装置。
一种web站点资源管理装置包括:第一检查模块,第一检查模块用于检查web站点的数目;第二检查模块,第二检查模块用于在web站点的数目为一的情况下,检查web站点是否有索引页;优化模块,优化模块用于在web站点有索引页的情况下,对索引页进行优化以生成第一索引页;生成模块,第一生成模块用于在web站点没有索引页的情况下,根据web站点的结构生成第二索引页;以及建立模块,建立模块用于在web站点的数目为两个以上的情况下,基于语义建立跨站点索引页。。
图5为本发明一个实施例的web站点资源管理装置的结构示意图。
如图5所示,根据本发明实施例的web站点资源管理装置,包括:第一检查模块110,第二检查模块120,优化模块130,生成模块140以及建立模块150。
具体地,第一检查模块110用于检查web站点的数目;第二检查模块120用于在web站点的数目为一的情况下,检查web站点是否有索引页;优化模块130用于在web站点有索引页的情况下,对索引页进行优化以生成第一索引页;生成模块140用于在web站点没有索引页的情况下,根据web站点的结构生成第二索引页;以及建立模块150用于在web站点的数目为两个以上的情况下,基于语义建立跨站点索引页。
更具体地,第一检查模块110用于检测需要获取结构化的资源组织关系的web站点的数目;第二检查模块120用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为一个的情况下,开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页;优化模块130用于在如果第二检查模块120检查到该web站点有索引页的情况下,获取该索引页中的页面信息,对该页面信息进行优化,并获取建立第一索引页所需的信息,生成该web站点的第一索引页;生成模块140用于在如果第二检查120模块检该web站点没有索引页的情况下,对该web站点的资源页进行挖掘,根据资源页的信息获取web站点的结构,根据web站点的结构信息生成该web站点的第二索引页;以及建立模块150用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为两个以上的情况下,根据资源页的语义相关性来联系这些web站点,跨越站点获取资源索引组织信息,并根据获取到的资源索引组织信息来生成索引页。
根据本发明实施例的web站点资源管理装置,通过两个检查模块对web站点的检测根据是否有索引页与web站点的数目的不同的三种情况来根据不同方法通过三个不同的模块来建立的索引页,能够充分挖掘到站点资源组织关系并提高站点资源的聚合度且提高站点页面展示效果。
图6为本发明另一个实施例的web站点资源管理装置的结构示意图。
如图6所示,根据本发明实施例的web站点资源管理装置,包括:第一检查模块110,第二检查模块120,优化模块130,生成模块140以及建立模块150,其中优化模块130包括删除单元131和第一抽取单元132。
具体地,第一检查模块110用于检查web站点的数目;第二检查模块120用于在web站点的数目为一的情况下,检查web站点是否有索引页;优化模块130用于在web站点有索引页的情况下,对索引页进行优化以生成第一索引页;生成模块140用于在web站点没有索引页的情况下,根据web站点的结构生成第二索引页;以及建立模块150用于在web站点的数目为两个以上的情况下,基于语义建立跨站点索引页。其中删除单元131用于删除索引页中的非索引信息和索引页中不能连接到web站点内的资源页面的索引项;第一抽取单元132用于抽取索引页中的有效索引项以生成第一索引页。
更具体地,第一检查模块110用于检测需要获取结构化的资源组织关系的web站点的数目;第二检查模块120用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为一个的情况下,开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页;优化模块130用于在如果第二检查模块120检查到该web站点有索引页的情况下,获取该索引页中的页面信息,对该页面信息进行优化,并获取建立第一索引页所需的信息,生成该web站点的第一索引页;生成模块140用于在如果第二检查120模块检该web站点没有索引页的情况下,对该web站点的资源页进行挖掘,根据资源页的信息获取web站点的结构,根据web站点的结构信息生成该web站点的第二索引页;以及建立模块150用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为两个以上的情况下,根据资源页的语义相关性来联系这些web站点,跨越站点获取资源索引组织信息,并根据获取到的资源索引组织信息来生成索引页。在优化模块的对该页面信息进行优化,并获取建立第一索引页所需的信息,生成该web站点的第一索引页时,通过删除模块131获取该索引页面的全部信息并对该索引页面信息进行分析,将其中的非索引信息进行删除,同时对索引页信息中剩下的索引项信息进行检查,看这些索引项是否能连接到其指向的web站点内的资源页,删除不能连接到其自身所指向的web站点内资源页面的索引项;然后通过第一抽取模块132抽取索引页中剩下的有效的索引信息整合到一个页面上,生成第一索引页面。
在本发明的一个实施例中,非索引信息包括广告和动画。
根据本发明实施例的web站点资源管理装置,通过删除模块将索引页面的非索引信息及无效索引删除,并通过抽取模块根据有效索引生成索引页,能够有效获取web站点的资源组织关系,且关系清晰,聚合度较高。
图7为本发明另一个实施例的web站点资源管理装置的结构示意图。
如图7所示,根据本发明实施例的web站点资源管理装置,包括:第一检查模块110,第二检查模块120,优化模块130,生成模块140以及建立模块150,其中优化模块130包括删除单元131和第一抽取单元132,生成模块140包括判断单元141,第二抽取单元142以及生成单元143。
具体地,第一检查模块110用于检查web站点的数目;第二检查模块120用于在web站点的数目为一的情况下,检查web站点是否有索引页;优化模块130用于在web站点有索引页的情况下,对索引页进行优化以生成第一索引页;生成模块140用于在web站点没有索引页的情况下,根据web站点的结构生成第二索引页;以及建立模块150用于在web站点的数目为两个以上的情况下,基于语义建立跨站点索引页。其中删除单元131用于删除索引页中的非索引信息和索引页中不能连接到web站点内的资源页面的索引项;第一抽取单元132用于抽取索引页中的有效索引项以生成第一索引页。其中判断单元141用于判断web站点内的资源页面是否具有标题;第二抽取单元142用于在web站点内的资源页面具有标题的情况下,抽取资源页面的标题作为索引项;以及生成单元143用于在web站点内的资源页面不具有标题的情况下,生成资源页面的摘要信息作为索引项,并且根据索引项生成第二索引页。
更具体地,第一检查模块110用于检测需要获取结构化的资源组织关系的web站点的数目;第二检查模块120用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为一个的情况下,开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页;优化模块130用于在如果第二检查模块120检查到该web站点有索引页的情况下,获取该索引页中的页面信息,对该页面信息进行优化,并获取建立第一索引页所需的信息,生成该web站点的第一索引页;生成模块140用于在如果第二检查120模块检该web站点没有索引页的情况下,对该web站点的资源页进行挖掘,根据资源页的信息获取web站点的结构,根据web站点的结构信息生成该web站点的第二索引页;以及建立模块150用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为两个以上的情况下,根据资源页的语义相关性来联系这些web站点,跨越站点获取资源索引组织信息,并根据获取到的资源索引组织信息来生成索引页。在优化模块的对该页面信息进行优化,并获取建立第一索引页所需的信息,生成该web站点的第一索引页时,通过删除模块131获取该索引页面的全部信息并对该索引页面信息进行分析,将其中的非索引信息进行删除,同时对索引页信息中剩下的索引项信息进行检查,看这些索引项是否能连接到其指向的web站点内的资源页,删除不能连接到其自身所指向的web站点内资源页面的索引项;然后通过第一抽取模块132抽取索引页中剩下的有效的索引信息整合到一个页面上,生成第一索引页面。在生成模块140在web站点没有索引页的情况下,根据web站点的结构生成第二索引页中,具体通过判断单元141从首页开始挖掘该web站点的资源页,获取该web站点的资源页面的信息,判断资源页面是否有标题信息;然后其中如果资源页有标题信息,则通过第二抽取单元142获取索引项,提取该资源页面中的标题作为索引项,如果资源页没有标题信息,则通过生成单元143根据资源页面包含的主要信息生成摘要信息,并将该摘要信息作为索引项,获取所有资源页面的索引项整合到一个页面上,生成第二索引页。
在本发明的一个实施例中,非索引信息包括广告和动画。
根据本发明实施例的web站点资源管理装置,通过生成模块将资源页面的标题信息或摘要信息生成索引项,再根据这些索引项来生成索引页面,提高了资源组织关系的聚合度以及关系间的清晰度。
图7为本发明另一个实施例的web站点资源管理装置的结构示意图。
如图7所示,根据本发明实施例的web站点资源管理装置,包括:第一检查模块110,第二检查模块120,优化模块130,生成模块140以及建立模块150,其中优化模块130包括删除单元131和第一抽取单元132;生成模块140包括判断单元141,第二抽取单元142以及生成单元143;建立模块150包括定义单元151,分类单元152,检索单元153,填充单元154以及建立单元155。
具体地,第一检查模块110用于检查web站点的数目;第二检查模块120用于在web站点的数目为一的情况下,检查web站点是否有索引页;优化模块130用于在web站点有索引页的情况下,对索引页进行优化以生成第一索引页;生成模块140用于在web站点没有索引页的情况下,根据web站点的结构生成第二索引页;以及建立模块150用于在web站点的数目为两个以上的情况下,基于语义建立跨站点索引页。优化模块130中的删除单元131用于删除索引页中的非索引信息和索引页中不能连接到web站点内的资源页面的索引项;第一抽取单元132用于抽取索引页中的有效索引项以生成第一索引页。生成模块140中的判断单元141用于判断web站点内的资源页面是否具有标题;第二抽取单元142用于在web站点内的资源页面具有标题的情况下,抽取资源页面的标题作为索引项;以及生成单元143用于在web站点内的资源页面不具有标题的情况下,生成资源页面的摘要信息作为索引项,并且根据索引项生成第二索引页。建立模块150中的定义单元151用于预定义与不同的语义对应的多个模板;分类单元152用于将两个以上的web站点内的资源页面按照语义相关性分类并组织到第一web站点内;检索单元153用于根据第一web站点的语义相关性找到一个与之对应的模板;填充单元154用于将第一web站点内按照语义相关性分类的资源页面分别填充到对应模板的不同栏目中;以及建立单元155用于根据不同的模板中的信息建立跨站点索引页。
更具体地,第一检查模块110用于检测需要获取结构化的资源组织关系的web站点的数目;第二检查模块120用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为一个的情况下,开始挖掘该web站点的页面,检查是否存在包含该web站点的索引信息的索引页;优化模块130用于在如果第二检查模块120检查到该web站点有索引页的情况下,获取该索引页中的页面信息,对该页面信息进行优化,并获取建立第一索引页所需的信息,生成该web站点的第一索引页;生成模块140用于在如果第二检查120模块检该web站点没有索引页的情况下,对该web站点的资源页进行挖掘,根据资源页的信息获取web站点的结构,根据web站点的结构信息生成该web站点的第二索引页;以及建立模块150用于在如果第一检查模块110检查到要获取结构化的资源组织关系的web站点为两个以上的情况下,根据资源页的语义相关性来联系这些web站点,跨越站点获取资源索引组织信息,并根据获取到的资源索引组织信息来生成索引页。在优化模块的对该页面信息进行优化,并获取建立第一索引页所需的信息,生成该web站点的第一索引页时,通过删除模块131获取该索引页面的全部信息并对该索引页面信息进行分析,将其中的非索引信息进行删除,同时对索引页信息中剩下的索引项信息进行检查,看这些索引项是否能连接到其指向的web站点内的资源页,删除不能连接到其自身所指向的web站点内资源页面的索引项;然后通过第一抽取模块132抽取索引页中剩下的有效的索引信息整合到一个页面上,生成第一索引页面。在生成模块140在web站点没有索引页的情况下,根据web站点的结构生成第二索引页中,具体通过判断单元141从首页开始挖掘该web站点的资源页,获取该web站点的资源页面的信息,判断资源页面是否有标题信息;然后其中如果资源页有标题信息,则通过第二抽取单元142获取索引项,提取该资源页面中的标题作为索引项,如果资源页没有标题信息,则通过生成单元143根据资源页面包含的主要信息生成摘要信息,并将该摘要信息作为索引项,获取所有资源页面的索引项整合到一个页面上,生成第二索引页。在建立模块150基于语义建立跨站点索引页时,通过定义单元151预定义与不同的语义对应的多个模板,然后通过分类单元152获取各个web站点中的资源页中所包含的信息,并根据资源页信息中的语义相关性将各个web站点的资源页面进行分类,将各个资源页面中语义相关的信息组织到第一web站点中,然后通过检索单元153根据第一web站点中组织的资源页面的语义相关性到预定义的语义模板中进行查找,获取与第一web站点的语义相对应的第一模板,接着通过填充单元154根据关键词的属性,将第一web站点中的各个资源页面的信息按照语义的相关性填充到第一模板中,根据栏目的不同,添加相对应的资源页面信息,最后通过建立单元155根据不同语义的模板中填入相关信息,整合各个模板的关键词与语义作为索引项,建立起跨站点索引页。
下面举例说明建立模块150的具体实施过程。
例如,定义一个书本信息的语义模板,里面包括书本基本信息、热门评论、商家比价、电子资源和其他模块等子栏目;然后假设各个站点资源页中有一本书叫大话设计模式,然后将各个资源页中大话设计模式的相关信息作为一类整合到第一web站点中;然后根据大话设计模式这本书的信息的关键词查找到书本信息模板,根据模板中的子栏目模块将第一web站点中的相关信息填充进模板中的各个子栏目,然后提取模板中的关键信息作为索引项,如此建立起多个页面并提取索引项,即可整合索引项建立起跨站点索引页。
在本发明的一个实施例中,不同的语义包括小说名称、新闻名称、视频名称和商品名称等。
在本发明的一个实施例中,非索引信息包括广告和动画。
根据本发明实施例的web站点资源管理装置,通过将多个站点的信息分类组织填充到模板中来进行索引项的生成,提高了资源组织关系的聚合度以及关系间的清晰度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (12)

1.一种web站点资源管理方法,其特征在于,包括以下步骤:
检查所述web站点的数目;
如果所述web站点的数目为一,则进一步检查所述web站点是否有索引页;
如果有索引页,则对所述索引页进行优化以生成第一索引页;
如果没有索引页,则根据所述web站点的结构生成第二索引页;以及
如果所述web站点的数目为两个以上,则基于语义建立跨站点索引页。
2.根据权利要求1所述的站点资源管理方法,其特征在于,对所述索引页进行优化以生成第一索引页的步骤包括:
删除所述索引页中的非索引信息;
删除所述索引页中不能连接到所述web站点内的资源页面的索引项;以及
抽取所述索引页中的有效索引项以生成所述第一索引页。
3.根据权利要求1或2所述的站点资源管理方法,其特征在于,根据所述web站点的结构生成第二索引页的步骤包括:
判断所述web站点内的资源页面是否具有标题;
如果是,则抽取所述资源页面的标题作为索引项;
如果否,则生成所述资源页面的摘要信息作为索引项;以及
根据所述索引项生成所述第二索引页。
4.根据权利要求1或2所述的站点资源管理方法,其特征在于,基于语义建立跨站点索引页的步骤包括:
预定义与不同的语义对应的多个模板;
将所述两个以上的web站点内的资源页面按照语义相关性分类并组织到第一web站点内;
根据所述第一web站点语义相关性找到第一web站点对应的第一模板;
将所述第一web站点内按照语义相关性分类的资源页面分别填充到第一模板的不同子栏目中;以及
根据所述不同的模板中的信息建立所述跨站点索引页。
5.根据权利要求4所述的站点资源管理方法,其特征在于,所述不同的语义包括小说名称、新闻名称、视频名称和商品名称。
6.根据权利要求1或2所述的站点资源管理方法,其特征在于,所述非索引信息包括广告和动画。
7.一种web站点资源管理装置,其特征在于,包括:
第一检查模块,所述第一检查模块用于检查所述web站点的数目;
第二检查模块,所述第二检查模块用于在所述web站点的数目为一的情况下,检查所述web站点是否有索引页;
优化模块,所述优化模块用于在所述web站点有索引页的情况下,对所述索引页进行优化以生成第一索引页;
生成模块,所述第一生成模块用于在所述web站点没有索引页的情况下,根据所述web站点的结构生成第二索引页;以及
建立模块,所述建立模块用于在所述web站点的数目为两个以上的情况下,基于语义建立跨站点索引页。
8.根据权利要求7所述的站点资源管理装置,其特征在于,所述优化模块包括:
删除单元,所述删除单元用于删除所述索引页中的非索引信息和所述索引页中不能连接到所述web站点内的资源页面的索引项;以及
第一抽取单元,所述第一抽取单元用于抽取所述索引页中的有效索引项以生成所述第一索引页。
9.根据权利要求7或8所述的站点资源管理装置,其特征在于,所述生成模块包括:
判断单元,所述判断单元用于判断所述web站点内的资源页面是否具有标题;
第二抽取单元,所述第二抽取单元用于在所述web站点内的资源页面具有标题的情况下,抽取所述资源页面的标题作为索引项;以及
生成单元,所述生成单元用于在所述web站点内的资源页面不具有标题的情况下,生成所述资源页面的摘要信息作为索引项,并且根据所述索引项生成所述第二索引页。
10.根据权利要求7或8所述的站点资源管理装置,其特征在于,建立模块包括:
定义单元,所述定义单元用于预定义与不同的语义对应的多个模板;
分类单元,所述分类单元用于将所述两个以上的web站点内的资源页面按照语义相关性分类并组织到第一web站点内;
检索单元,根据第一web站点的语义相关性找到一个与之对应的模板;
填充单元,所述填充单元用于将所述第一web站点内按照语义相关性分类的资源页面分别填充到对应模板的不同栏目中;以及
建立单元,所述建立单元用于根据所述不同的模板中的信息建立所述跨站点索引页。
11.根据权利要求10所述的站点资源管理装置,其特征在于,所述不同的语义包括小说名称、新闻名称和视频名称。
12.根据权利要求7或8所述的站点资源管理装置,其特征在于,所述非索引信息包括广告和动画。
CN201210222539.2A 2012-06-28 2012-06-28 一种web站点资源管理方法及装置 Active CN103514221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210222539.2A CN103514221B (zh) 2012-06-28 2012-06-28 一种web站点资源管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210222539.2A CN103514221B (zh) 2012-06-28 2012-06-28 一种web站点资源管理方法及装置

Publications (2)

Publication Number Publication Date
CN103514221A true CN103514221A (zh) 2014-01-15
CN103514221B CN103514221B (zh) 2016-12-28

Family

ID=49896954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210222539.2A Active CN103514221B (zh) 2012-06-28 2012-06-28 一种web站点资源管理方法及装置

Country Status (1)

Country Link
CN (1) CN103514221B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001077886A1 (en) * 2000-04-10 2001-10-18 Blueskyfrog Pty Ltd A method of filtering the contents of a virtual page
CN1732459A (zh) * 2002-11-01 2006-02-08 Lg电子株式会社 用于较小显示装置的网页内容译码***和方法
US20070143283A1 (en) * 2005-12-09 2007-06-21 Stephan Spencer Method of optimizing search engine rankings through a proxy website
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及***
US20080275877A1 (en) * 2007-05-04 2008-11-06 International Business Machines Corporation Method and system for variable keyword processing based on content dates on a web page
CN101887422A (zh) * 2009-05-13 2010-11-17 北京博越世纪科技有限公司 一种将web网站与wap网站数据保持同步更新的技术

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001077886A1 (en) * 2000-04-10 2001-10-18 Blueskyfrog Pty Ltd A method of filtering the contents of a virtual page
CN1732459A (zh) * 2002-11-01 2006-02-08 Lg电子株式会社 用于较小显示装置的网页内容译码***和方法
US20070143283A1 (en) * 2005-12-09 2007-06-21 Stephan Spencer Method of optimizing search engine rankings through a proxy website
US20080275877A1 (en) * 2007-05-04 2008-11-06 International Business Machines Corporation Method and system for variable keyword processing based on content dates on a web page
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及***
CN101887422A (zh) * 2009-05-13 2010-11-17 北京博越世纪科技有限公司 一种将web网站与wap网站数据保持同步更新的技术

Also Published As

Publication number Publication date
CN103514221B (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
KR101872564B1 (ko) 무경계 표 검출 엔진
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN104809125A (zh) 一种网页类别的识别方法和装置
US20090276378A1 (en) System and Method for Identifying Document Structure and Associated Metainformation and Facilitating Appropriate Processing
CN102893275A (zh) 自动社交网络图挖掘和可视化
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN105589936A (zh) 一种数据查询方法及***
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN113342989B (zh) 专利数据的知识图谱构建方法、装置、存储介质及终端
CN105912645A (zh) 一种智能问答方法及装置
CN103425770A (zh) 事件多维度信息显示装置和方法
KR20100127036A (ko) 관점분류를 이용한 관점별 특허맵 제공 방법
CN103838754A (zh) 信息搜索装置及方法
CN103500158A (zh) 批注电子文档的方法和装置
CN105138538A (zh) 一种面向跨领域知识发现的主题挖掘方法
CN105808722A (zh) 一种信息判别方法和***
KR20120047632A (ko) 상황 인지 장치 및 방법
CN104778238A (zh) 一种视频显著性的分析方法及装置
CN104216979A (zh) 中文工艺专利自动分类***及利用该***进行专利分类的方法
CN103399957A (zh) 搜索方法、***、搜索引擎和客户端
CN103377225A (zh) 知识库***的构建方法和设备
CN107391684A (zh) 一种威胁情报生成的方法及***
CN104156430A (zh) 一种快速提取安卓手机数据的装置和方法
CN103455964A (zh) 一种基于案件信息的案件线索分析***及方法
CN103258021A (zh) 一种基于行为分析的字符终端特征数据提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant