CN1797403A - 用于网页各方面的评估的方法和*** - Google Patents

用于网页各方面的评估的方法和*** Download PDF

Info

Publication number
CN1797403A
CN1797403A CNA2005101287387A CN200510128738A CN1797403A CN 1797403 A CN1797403 A CN 1797403A CN A2005101287387 A CNA2005101287387 A CN A2005101287387A CN 200510128738 A CN200510128738 A CN 200510128738A CN 1797403 A CN1797403 A CN 1797403A
Authority
CN
China
Prior art keywords
list
link
mark
action
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005101287387A
Other languages
English (en)
Inventor
M·A·斯塔伯德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1797403A publication Critical patent/CN1797403A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Investigating Strength Of Materials By Application Of Mechanical Stress (AREA)
  • Paper (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)

Abstract

提供了用于评估在网页上表示超文本链接的链接文本对应于由该链接引用的网页的程度的方法和装置。在一个实施例中,可将链接文本与由该链接引用的网页的标题进行比较,诸如通过将链接文本和页面标题解析成多个单独的标记,并比较这些标记。链接文本和页面标题对应的程度可被表达为匹配的标记的百分比。可提供当最小百分比的标记不匹配时呈现可视指示的图形用户界面(GUI)。

Description

用于网页各方面的评估的方法和***
技术领域
本发明涉及计算机软件,尤其涉及可用于评估网页的各方面的软件。
背景技术
许多人采用因特网来使用万维网(“Web”)。在Web环境中,服务器计算机以网页的形式提供客户机计算机所请求的信息。网页包括以诸如超文本标记语言(HTML)或可扩展标记语言(XML)等标记语言格式提供的一组指令或“标签”以及其它信息。在客户机计算机上执行的浏览器程序接收和处理包括在页面中的标签以对用户创建显示。例如,标签可定义页面元素的呈现。
标签也可定义超文本链接(此处被称为“链接”)。链接通过统一资源定位符(URL)标识了另一Web资源,诸如另一网页。链接可在网页上由字母数字字符(“链接文本”)来表示。链接文本通常在网页上呈现,使得链接可由用户容易地识别。例如,许多链接在页面上由粗体或下划线文本来表示。用户可例如通过“点击”链接(例如,通过使用鼠标将光标移动到链接上然后按下鼠标上的按键)来调用链接。点击链接可致使向服务器计算机发出访问位于由该链接定义的URL处的Web资源的请求。
一组逻辑上相关的网页一般被称为网站。某些网站的维护可能是麻烦的。例如,由网页上的链接定义的URL随时间的推移可能变得陈旧,因为用于特定Web资源的URL可能改变,或者Web资源可能被删除。为协助网站的维护,出现了允许管理员或其它用户管理包括在网站页面中的链接的多种自动化工具。例如,这些工具可协助用户确定包括在站点页面中的链接是否定义了现有的URL。这些工具也可提供使用户能够查看站点中的链接的布置的图形用户界面(GUI)。
发明内容
依照一个实施例,提供了一种用于评估包括在第一网页中的超文本链接的自动化方法,该链接引用Web资源。该自动化方法包括确定链接的特征是否令人满意地对应于Web资源的特征。
依照另一实施例,提供了一种用指令编码的计算机可读介质,当该指令被执行时,执行一种用于评估包括在第一网页中的超文本链接的方法,该链接引用Web资源。该方法包括确定链接的特征是否令人满意地对应于Web资源的特征。
依照又一实施例,提供了一种用于评估包括在第一网页中的超文本链接的***,该链接引用Web资源。该***包括确定链接的特征是否令人满意地对应于Web资源的特征的确定控制器。
附图说明
附图并非旨在按比例绘制。附图中,各图中所示的相同组件由相同的标号来表示。并非所有的组件都在每一附图中标出。附图中:
图1是可用于实现本发明的各实施例的一个示例性计算机***的框图;
图2是其上可储存构成本发明实施例的已编程指令的示例性计算机存储器的框图;
图3A和3B描述了用于向用户呈现网页的一个示例性浏览器界面;
图4是示出依照本发明的一个实施例用于确定第一和第二标记串所对应的程度的示例性过程的流程图;
图5是示出依照本发明的一个实施例用于比较第一和第二标记串中的标记的示例性过程的流程图;
图6是示出依照本发明的一个实施例用于比较特定标记的示例性过程的流程图;以及
图7描述了依照本发明的一个实施例可显示第一和第二标记串所对应的程度的一个示例性图形用户界面(GUI)。
具体实施方式
申请人理解,尽管存在可用于确定网页上的链接是否定义资源实际所驻留的URL的许多实用程序,然而不存在确定驻留在由链接所定义的URL处的资源(例如,网页)是否令人满意地对应于该页面上所呈现的链接文本的实用程序。即,不存在将链接文本与实际由该链接所引用的资源进行比较以确定该链接是否引用它声称引用的资源的实用程序。
因此,本发明的一个实施例提供了一种用于评估链接文本对应于由该链接引用的网页的程度的自动化方法。在一个实施例中,可将链接文本与由该链接引用的网页的标题进行比较。在一个实施例中,链接文本和页面标题的每一个可被解析成多个单独的“标记”,并且可比较标记以确定链接文本和页面标题对应的程度。在一个实施例中,依照第一算法,将在链接文本中找到的每一单独标记与在页面标题中找到的每一标记进行比较,以确定是否存在匹配。在一个实施例中,链接文本和页面标题之间的相关度然后可被表达为链接文本或标题页面中与其它列表中的标记匹配的全部标记的百分比。
本发明的实施例可例如由一种自动化实用程序来采用,该实用程序确定了包括在网页中的链接的总有效性。例如,各实施例可由一实用程序来采用,该实用程序不仅评估包括在网页中的链接是否定义了有效或现有的URL,也评估每一链接是否引用它声称引用的资源。该评估的结果可通过图形用户界面(GUI)呈现给用户。由此,用户可更有效地评估包括在页面中的链接的总有效性。然而,应当理解,本发明不限于这些用途,因为本发明的各方面可具有众多应用。作为一个实例,本发明的各方面可由一浏览器程序采用,并且可用于向用户警告明显不引用链接声称引用的页面的链接。
本发明的各方面可由一个或多个计算机***来实现,诸如图1中所示的示例性计算机***100。计算机***100包括输入设备102、输出设备101、处理器103、存储器***104和存储106,它们所有都通过互连机制105直接或间接地耦合,互连机制105可包括一个或多个总线、交换机和/或网络。输入设备102从用户或机器(例如,操作人员或电话接收器)接收输入,而输出设备101向用户或机器(例如,液晶显示器)显示或发送信息。处理器103通常执行被称为操作***(例如,Microsoft Windows家族的操作***或其它合适的操作***)的计算机程序,操作***控制其它计算机程序的执行,并提供调度、输入/输出和其它设备控制、审计、编译、存储分配、数据管理、存储器管理、通信和数据流量控制。处理器和操作***共同定义了计算机平台,其它计算机编程语言中的应用程序是为计算机平台而编写的。
处理器103也可执行一个或多个计算机程序来实现各种功能。这些计算机程序可以用任一类型的计算机编程语言来编写,包括过程编程语言、面向对象的编程语言、宏语言或其组合。这些计算机程序可以储存在存储***106中。存储***106可将信息保持在易失性或非易失性介质上,并且可以是固定或可移动的。存储***106在图2中更详细地示出。
存储***106通常包括计算机可读和可写非易失性记录介质201,其上储存了定义计算机程序或要由程序使用的信息的信号。例如,介质可以是磁盘或闪存。通常,在操作中,处理器103使得数据从非易失性记录介质201被读入易失性存储器202中(例如,随机存取存储器,即RAM),易失性存储器允许处理器比介质201所允许的更快地访问信息。存储器202可位于存储***106中,如图2所示,或者可位于存储器***104中,如图1所示。处理器103一般在集成电路存储器104、202中处理数据,然后在处理完成之后将数据复制到介质201。有各种机制已知用于管理介质201和集成电路存储器元件104、202之间的数据移动,且本发明不限于此。本发明也不限于特定的存储器***104或存储***106。
如上所述,本发明的一个实施例提供了一种自动化方法,该方法可由计算机***100执行,用于评估表征网页上的链接的文本对应于由该链接引用的资源的程度。包括可依照本发明的实施例来评估的链接的示例性网页在图3A-3B中示出。具体地,图3A示出了浏览器界面301,它呈现了网页302,而图3B示出了浏览器界面302,它呈现了网页303。
网页302包括对网页常见的各种元素,包括图形、文本和链接305、310、315和320。网页302也包括菜单部分330,它包括多个附加链接,包括链接331,其标题为“Developer Tools(开发者工具)”。当用户调用链接331(例如,通过将光标移到链接331上,并按下鼠标按键或敲击“enter(回车)”键),浏览器可发出访问网页304的请求。
网页304在图3B中示出。网页304在许多方面类似于网页302。例如,网页304包括链接305和310,它们也是由网页302提供的。网页304还包括链接340、342和344等等。网页304包括标题305,它由显示在界面303顶部的文本“MSDNHome Page(MSDN主页)”表示。
用于评估包括在网页中的链接的一种示例性技术在下文参考图4-6来描述。图4-6的每一幅提供了以逐渐增加的细节级别示出该技术的流程图。图4是示出总体技术的流程图。图5是更详细示出比较链接文本和页面标题中找到的各个标记的动作的流程图。最后,图6是更详细示出该比较的流程图。
首先参考图4,在过程400开始之后,启动动作410和415。在动作410,选择链接文本用于评估。这可以用任何合适的方式来执行,诸如通过将链接文本读入存储器中。在一个实施例中,动作410的结果是“标记列表”,或构成链接文本的标记(即,各个单词或字符串)的集合。在一个实施例中,列表中的每一标记可由“空白”或“空格”字符来分隔或界定。使用链接131(图1A)的示例,对链接文本“Developer Tools”,动作410的结果可以是包括标记“Developer”和“Tools”的标记列表。
在动作415,该过程试图确定由该链接引用的页面的标题。这也可用任一合适的方式来执行,诸如通过发出访问所引用的页面的请求。对于动作410,动作420的结果是标记列表。使用来自页面104(即,当用户调用链接131时所提供的页面)的标题150(图1B)的示例,其页面标题为“MSDN Home Page”,动作420的结果是包括标记“MSDN”、“Home”和“Page”的标记列表。
在完成动作410和动作420之后,该过程前进到动作425,其中确定每一标记列表中的“重要标记”。在一个实施例中,每一列表中的重要标记是通过消除已知的非重要标记来确定的。非重要标记可以是,例如已知对于比较标记列表用处较小的单词。即,即使同时在链接文本标记列表和页面标题标记列表两者中找到非重要标记,然而非重要标记将产生标记列表之间的匹配的事实对于确定链接文本标记列表是否对应于页面标题标记列表是无用的。例如,非重要标记可包括诸如“the”、“and”和/或其它单词或字符集合。
在一个实施例中,非重要标记可被储存在可由过程400在执行期间访问的数据结构中。在一个实施例中,该数据结构可以是可配置的,使得用户可对其中所提供的非重要标记的集合进行添加、删除或修改。配置非重要标记的集合的能力在例如使列表适用于除英语之外的语言时可以是有用的。例如,用户可向列表添加常见的法语代词的集合,以评估对应于法语网站中提供的链接的链接文本。
在一个实施例中,动作425还包括从每一标记列表中移除特定字符。例如,诸如句号、分号、连字号、&记号和/或其它字符等字符可从每一标记列表中移除,以便于两者之间更有效的比较。
在完成动作425之后,过程前进到动作430,其中比较重要标记列表。用于比较重要标记列表的一种示例性技术在图5中示出。在图5的过程中,首先选择两个标记列表中较短的那一个,然后顺序地将较短的列表中的每一标记与较大列表中的每一标记进行比较。
在过程500开始之后,过程前进到动作510,其中,确定两个标记列表中较短的那一个。这可以用任一合适的方式来执行。例如,在一个实施例中,这可以通过确定哪一标记列表包含较少数量的标记来确定。在另一实施例中,这可以通过确定哪一标记列表包含较少数量的字符来确定。本发明不限于特定的实现。
在完成动作510之后,过程前进到动作515,其中从较短的列表(在动作510确定)中选择一个标记以与较大的列表中的标记进行比较。这可以用任一合适的方式来执行。例如,标记可从标记列表中随机地选择。
在完成动作515之后,过程前进到动作520,其中从较大的列表中选择第一个标记用于比较。对于动作515中的选择,这可以用任一合适的方式来执行。
在完成动作520之后,过程前进到动作525,其中将从较短列表中所选择的标记与从较大列表中所选择的标记进行比较,以确定标记是否匹配。用于执行动作525的一种示例性技术在图6中描述。图6的过程在下文参考两个示例性标记“referral”和“refers”之间的比较来描述。
在过程600开始之后,过程前进到动作610,其中确定两个标记中的较大者和较小者。这可以用任一合适的方式来执行。例如,具有较少数量字符的标记可被确定为较小标记,而具有较多数量字符的标记可被确定为较大标记。在一个实施例中,如果标记包含相同数量的字符,则可以用随机的顺序来确定较大和较小标记。在给出的示例中,该过程可确定较大标记是“referral”,较小标记是“refers”。
在完成动作610之后,该过程前进到动作615,其中确定较大标记中至少构成较大标记的“阈值百分比”的文本。在一个实施例中,阈值百分比构成了较大标记中用于与较小标记比较的一部分文本。在一个实施例中,该部分是通过标识较大标记中的总字符数,然后从标记中的第一个字符开始标识满足或超出阈值百分比的数量的字符来标识的。使用给出的示例,如果阈值百分比是60%,则较大标记“referral”中构成阈值百分比的文本是“refer”(即,“referral”的8个字符中的5个,或62.5%的文本)。
在一个实施例中,阈值百分比可以是(例如,由用户)可配置的,以适合特定实现的需求。例如,可提供使用户能够改变阈值百分比来适合特定实现的GUI。
在完成动作615之后,过程前进到动作620,其中执行动作615所标识的文本和较小标记之间的比较。在一个实施例中,比较需要确定动作615所标识的文本是否包含在较小标记中。使用给出的示例,该过程确定“refer”(在动作615确定)是否包含在“refers”中。然而,这一比较可以用任一合适的方式来执行,因为本发明不限于这一方面。
在完成动作620之后,过程600完成,并且总过程返回到过程500(图5)。更具体地,由于图6的过程是用于执行动作525的示例性技术,因此总过程返回到图5的动作525。
在完成动作525之后,该过程前进到动作530,其中确定是否找到匹配。在一个实施例中,如果在动作620(图6)确定动作615所标识的文本包含在较小标记中,则找到匹配。如果找到匹配,则该过程前进到动作535,其中记录匹配的指示。该指示可以被记录在例如存储器中。
如果未找到匹配,则该过程前进到动作545,其中确定较大标记列表中是否存在更多标记。如果确定较大标记列表中存在更多标记,则过程返回到动作520,使得可以选择较大列表中的下一标记。由此,该过程执行较短列表中的每一标记与较大列表中的所有标记之间的比较。
如果在动作545确定较大列表中没有更多标记,则该过程前进到动作550,其中记录在较短列表中的标记与较大列表中的任一标记之间未找到任何匹配的指示。
在动作535和550的任一个完成之后,该过程前进到动作540,其中确定较短列表中是否存在更多标记。如果否,则该过程完成。如果较短列表中存在更多标记,则该过程返回到动作515,使得可选择较短列表中的下一标记用于比较。由此,该过程对较短列表中的所有标记重复。
当用尽较短标记列表和较大标记列表两者中的标记时,过程500完成,且总过程返回到过程400(图4)。更具体地,由于图5的过程是用于执行动作430的示例性技术,因此总过程返回到图4的动作430。
在完成动作430之后,过程400前进到动作435,其中计算相关度得分以定义链接文本和页面标题对应的程度。在一个实施例中,相关度得分是通过将匹配的重要标记(在动作620确定)的数目除以较短标记列表(例如,在动作510确定)中的总重要标记数,然后将结果乘以100%来计算的。然而,两个标记列表对应的程度可以用任一合适的方式来确定,因为本发明不限于这一方面。
在完成动作435之后,过程400完成。
在一个实施例中,最小相关度得分可定义两个标记列表是否令人满意地对应。例如,可以建立70%的最小相关度得分,以定义两个标记列表构成“匹配”必须对应的程度,由此定义了(标记列表所表示的)链接文本和页面标题是否匹配。
在一个实施例中,如同上述阈值百分比一样,定义标记列表之间的满意对应性的最小相关度得分可以是(例如,由用户)可配置的,以适合特定实现的需求。例如,可提供使用户能够定制最小相关度得分来适合特定实现的GUI。
可向用户标识不匹配的标记列表。例如,GUI可以可视地向用户指示表示链接文本和页面标题的标记列表不匹配。图7中所示的一个示例性GUI700提供了包括在网页102(图1A)中的链接和由每一链接引用的页面的标题之间的比较结果。
GUI700包括部分701和702。部分702提供了一种网格显示,其中每一列中呈现与链接有关的特定信息。例如,列702A包括链接文本,列702B包含该链接引用的页面的标题。
在所示的示例性实施例中,为被认为不匹配在网页上表示链接的文本的页面标题提供可视指示。例如,行705包含表示链接331(图3A)的文本710以及链接331所引用的网页304的标题715(即,图3B中的标题350)。行705以粗体示出标题715,以可视地指示该标题被认为不匹配链接文本710。
使用上述技术,管理员或其它用户可更有效地维护由网站提供的链接。例如,在被警告表示链接的文本不匹配链接所引用的页面的标题(例如,通过GUI700)之后,用户可更严密地检查该链接以确定该链接是否引用正确的页面。结果,用户可更有效地更新引用无效资源的链接,而非(如同常规工具一样)仅标识陈旧的链接。
然而,应当理解,本发明不限于这一实现,因为众多其它应用是可能的。例如,本发明不一定由管理员用来维护网站。相反,本发明的实施例可以在浏览器程序中实现,该浏览器程序检查包括在网页中的链接以确定那些链接是否引用它们声称引用的文档。浏览器可提供不匹配链接声称引用的页面的标题的链接文本的可视指示,和/或可阻止用户访问所引用的页面。由此,本发明的实施例可用于帮助用户避免恶意的、有害的或不合需要的内容。
作为另一示例,上文参考图4-6所描述的比较技术不一定用于确定链接文本和页面标题之间的匹配。例如,该算法可用于确定页面标题与查询串的相关度。串可以与页面标题进行匹配,而非通过将串与网页内容进行匹配来确定相关匹配(如同搜索引擎所完成的)。此外,匹配可诸如通过使用上述相关度得分按照与查询串的相关度来排序。
从上述内容中可以理解,本发明的实施例的各方面可以在一个或多个计算机程序和/或硬件、固件或其组合中实现。例如,一个实施例的各个组件可以个别或组合地实现为计算机程序产品,该计算机程序产品包括其储存了用于由处理器访问和执行的指令的计算机可读介质。当由计算机执行时,这些指令可以指示计算机实现实施例的各方面。
描述了本发明的至少一个实施例的若干方面之后,可以理解,本领域的技术人员可以容易地理解各种改变、修改和改进。这样的改变、修改和改进旨在作为本发明的一部分,并且旨在落入本发明的精神和范围之内。因此,以上描述和附图仅作为示例。

Claims (20)

1.一种用于评估包括在第一网页中的超文本链接的自动化方法,所述链接引用Web资源,所述自动化方法包括:
(A)确定所述链接的特征是否令人满意地对应于所述Web资源的特征。
2.如权利要求1所述的方法,其特征在于,所述Web资源包括第二网页,且所述Web资源的特征包括所述第二网页的标题,并且其中,所述链接的特征包括在所述第一网页上表示所述链接的文本。
3.如权利要求2所述的方法,其特征在于,动作(A)还包括:
(A1)将在所述第一网页上表示所述链接的文本解析成第一标记列表,所述第一标记列表包括至少一个标记;
(A2)将所述第二网页的标题解析成第二标记列表,所述第二标记列表包括至少一个标记;以及
(A3)将所述第一标记列表与所述第二标记列表进行比较。
4.如权利要求3所述的方法,其特征在于,动作(A3)还包括:
从所述第一标记列表中选择第一标记;
从所述第二标记列表中选择第二标记;
确定所述第一和第二标记中的哪一个是较大标记,哪一个是较小标记;
标识所述较大标记中构成阈值百分比的一部分;以及
确定所述阈值百分比是否包含在所述较小标记中。
5.如权利要求3所述的方法,其特征在于,动作(A1)还包括通过将所述第一标记列表中的每一标记与一非重要标记集合进行比较来从所述第一标记列表中确定第一重要标记列表,动作(A2)还包括通过将所述第二标记列表中的每一标记与一非重要标记集合进行比较来从所述第二标记列表中确定第二重要标记列表,以及动作(A3)还包括将所述第一重要标记列表与所述第二重要标记列表进行比较。
6.如权利要求1所述的方法,其特征在于,还包括以下动作:
(B)在图形用户界面(GUI)上显示动作(A)中的确定的结果。
7.如权利要求6所述的方法,其特征在于,动作(B)还包括如果确定所述链接的特征不令人满意地对应于所述Web资源的特征,则在所述GUI上提供一可视指示。
8.一种用指令编码的计算机可读介质,当所述指令被执行时,执行一种用于评估包括在第一网页中的超文本链接的方法,所述链接引用Web资源,所述方法包括:
(A)确定所述链接的特征是否令人满意地对应于所述Web资源的特征。
9.如权利要求8所述的计算机可读介质,其特征在于,所述Web资源包括第二网页,且所述Web资源的特征包括所述第二网页的标题,并且其中,所述链接的特征包括在所述第一网页上表示所述链接的文本。
10.如权利要求9所述的计算机可读介质,其特征在于,动作(A)还包括:
(A1)将在所述第一网页上表示所述链接的文本解析成第一标记列表,所述第一标记列表包括至少一个标记;
(A2)将所述第二网页的标题解析成第二标记列表,所述第二标记列表包括至少一个标记;以及
(A3)将所述第一标记列表与所述第二标记列表进行比较。
11.如权利要求10所述的计算机可读介质,其特征在于,动作(A3)包括:
从所述第一标记列表中选择第一标记;
从所述第二标记列表中选择第二标记;
确定所述第一和第二标记中的哪一个是较大标记,哪一个是较小标记;
标识所述较大标记中构成阈值百分比的一部分;以及
确定所述阈值百分比是否包含在所述较小标记中。
12.如权利要求10所述的计算机可读介质,其特征在于,动作(A1)还包括通过将所述第一标记列表中的每一标记与一非重要标记集合进行比较来从所述第一标记列表中确定第一重要标记列表,动作(A2)还包括通过将所述第二标记列表中的每一标记与一非重要标记集合进行比较来从所述第二标记列表中确定第二重要标记列表,以及动作(A3)还包括将所述第一重要标记列表与所述第二重要标记列表进行比较。
13.如权利要求8所述的计算机可读介质,其特征在于,还包括以下动作:
(B)在图形用户界面(GUI)上显示动作(A)中的确定的结果。
14.如权利要求13所述的计算机可读介质,其特征在于,动作(B)还包括如果确定所述链接的特征不令人满意地对应于所述Web资源的特征,则在所述GUI上提供一可视指示。
15.一种用于评估包括在第一网页中的超文本链接的***,所述链接引用Web资源,所述***包括:
确定所述链接的特征是否令人满意地对应于所述Web资源的特征的确定控制器。
16.如权利要求15所述的***,其特征在于,所述***还包括:
将在所述第一网页上表示所述链接的文本解析成第一标记列表的链接文本解析控制器,所述第一标记列表包括至少一个标记;
将所述第二网页的标题解析成第二标记列表的页面标题解析控制器,所述第二标记列表包括至少一个标记;以及
将所述第一标记列表与所述第二标记列表进行比较的比较控制器。
17.如权利要求16所述的***,其特征在于,所述比较控制器还用于:
从所述第一标记列表中选择第一标记;
从所述第二标记列表中选择第二标记;
确定所述第一和第二标记中的哪一个是较大标记,哪一个是较小标记;
标识所述较大标记中构成阈值百分比的一部分;以及
确定所述阈值百分比是否包含在所述较小标记中。
18.如权利要求16所述的***,其特征在于,所述链接文本解析控制器还通过将所述第一标记列表中的每一标记与一非重要标记集合进行比较来从所述第一标记列表中确定第一重要标记列表,所述页面标题解析控制器还通过将所述第二标记列表中的每一标记与一非重要标记集合进行比较来从所述第二标记列表中确定第二重要标记列表,以及所述比较控制器还将所述第一重要标记列表与所述第二重要标记列表进行比较。
19.如权利要求15所述的***,其特征在于,还包括:
在一图形用户界面(GUI)上显示所述确定控制器的结果的显示控制器。
20.如权利要求19所述的***,其特征在于,如果确定所述链接的特征不令人满意地对应于所述Web资源的特征,则所述显示控制器在所述GUI上提供一可视指示。
CNA2005101287387A 2004-12-30 2005-11-30 用于网页各方面的评估的方法和*** Pending CN1797403A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/027,661 US20060150076A1 (en) 2004-12-30 2004-12-30 Methods and apparatus for the evaluation of aspects of a web page
US11/027,661 2004-12-30

Publications (1)

Publication Number Publication Date
CN1797403A true CN1797403A (zh) 2006-07-05

Family

ID=35892612

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005101287387A Pending CN1797403A (zh) 2004-12-30 2005-11-30 用于网页各方面的评估的方法和***

Country Status (7)

Country Link
US (1) US20060150076A1 (zh)
EP (1) EP1677215B1 (zh)
JP (1) JP2006190253A (zh)
KR (1) KR20060079083A (zh)
CN (1) CN1797403A (zh)
AT (1) ATE438149T1 (zh)
DE (1) DE602005015675D1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243633A (zh) * 2010-05-11 2011-11-16 深圳市金蝶中间件有限公司 网页布局的方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8549099B2 (en) * 2007-07-12 2013-10-01 Viasat, Inc. Methods and systems for javascript parsing
US20100146415A1 (en) * 2007-07-12 2010-06-10 Viasat, Inc. Dns prefetch
US8966053B2 (en) 2007-07-12 2015-02-24 Viasat, Inc. Methods and systems for performing a prefetch abort operation for network acceleration
US8171135B2 (en) * 2007-07-12 2012-05-01 Viasat, Inc. Accumulator for prefetch abort
US9654328B2 (en) 2007-10-15 2017-05-16 Viasat, Inc. Methods and systems for implementing a cache model in a prefetching system
US20100180005A1 (en) * 2009-01-12 2010-07-15 Viasat, Inc. Cache cycling
IT1395277B1 (it) 2009-08-11 2012-09-05 London Equitable Ltd In Its Capacity As Trustee Of The Think Tank Trust Sistema per rilevare anomalie nel flusso venoso a livello extracranico
JP5417471B2 (ja) * 2012-03-14 2014-02-12 株式会社東芝 構造化文書管理装置、構造化文書検索方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5941944A (en) * 1997-03-03 1999-08-24 Microsoft Corporation Method for providing a substitute for a requested inaccessible object by identifying substantially similar objects using weights corresponding to object features
US5999929A (en) * 1997-09-29 1999-12-07 Continuum Software, Inc World wide web link referral system and method for generating and providing related links for links identified in web pages
US6446095B1 (en) * 1998-06-09 2002-09-03 Matsushita Electric Industrial Co., Ltd. Document processor for processing a document in accordance with a detected degree of importance corresponding to a data link within the document
WO2000072190A1 (fr) * 1999-05-19 2000-11-30 Fujitsu Limited Procede pour prendre en charge la mise au point de contenus internet, support d'enregistrement contenant le programme applicatif du procede, et systeme d'application du procede
US6578025B1 (en) * 1999-06-11 2003-06-10 Abuzz Technologies, Inc. Method and apparatus for distributing information to users
GB2352548B (en) * 1999-07-26 2001-06-06 Sun Microsystems Inc Method and apparatus for executing standard functions in a computer system
AU2001227909A1 (en) 2000-01-14 2001-07-24 Screamingmedia Inc. Dead hyper link detection method and system
JP4200645B2 (ja) * 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
US20020103920A1 (en) * 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US7120642B2 (en) * 2001-09-10 2006-10-10 Siemens Corporate Research, Inc. Automatic validation method for multimedia product manuals
US20040014013A1 (en) * 2001-11-01 2004-01-22 Telecommunications Research Associates Interface for a presentation system
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
US8707251B2 (en) * 2004-06-07 2014-04-22 International Business Machines Corporation Buffered viewing of electronic documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243633A (zh) * 2010-05-11 2011-11-16 深圳市金蝶中间件有限公司 网页布局的方法及装置

Also Published As

Publication number Publication date
KR20060079083A (ko) 2006-07-05
EP1677215A1 (en) 2006-07-05
US20060150076A1 (en) 2006-07-06
EP1677215B1 (en) 2009-07-29
JP2006190253A (ja) 2006-07-20
DE602005015675D1 (de) 2009-09-10
ATE438149T1 (de) 2009-08-15

Similar Documents

Publication Publication Date Title
CN1797403A (zh) 用于网页各方面的评估的方法和***
US10067931B2 (en) Analysis of documents using rules
CN100337227C (zh) 为移动通信装置的文档内容做摘要的方法和装置
CN102317936B (zh) 识别评论以连同文档一起示出
US7194679B1 (en) Web-based file review system utilizing source and comment files
US7502995B2 (en) Processing structured/hierarchical content
US8630972B2 (en) Providing context for web articles
US11797607B2 (en) Method and apparatus for constructing quality evaluation model, device and storage medium
US7587672B2 (en) File content preview tool
CN1955952A (zh) 用于自动提取副标题信息的***和方法
US20080235567A1 (en) Intelligent form filler
US20110191381A1 (en) Interactive System for Extracting Data from a Website
US20060059133A1 (en) Hyperlink generation device, hyperlink generation method, and hyperlink generation program
CN1797405A (zh) 用于评估万维网页各方面的方法和装置
US7698632B2 (en) System and method for dynamically updating web page displays
EP2044529A1 (en) Reuse of available source data and localizations
US20090083300A1 (en) Document processing device and document processing method
US20120290909A1 (en) Methods and apparatus of accessing related content on a web-page
US20180113583A1 (en) Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages
US20080235297A1 (en) Method for Indexing a Large Log File, Computer-Readable Medium for Storing a Program for Executing the Method, and System for Performing the Same
US20080005662A1 (en) Server Device and Name Space Issuing Method
US20140250368A1 (en) Smart document import
US8990224B1 (en) Detecting document text that is hard to read
US20080005085A1 (en) Server Device and Search Method
CN113987320B (zh) 基于智能页面解析的实时资讯爬虫方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20060705