CN102612691A - 给文本评分的方法和*** - Google Patents

给文本评分的方法和*** Download PDF

Info

Publication number
CN102612691A
CN102612691A CN2010800517696A CN201080051769A CN102612691A CN 102612691 A CN102612691 A CN 102612691A CN 2010800517696 A CN2010800517696 A CN 2010800517696A CN 201080051769 A CN201080051769 A CN 201080051769A CN 102612691 A CN102612691 A CN 102612691A
Authority
CN
China
Prior art keywords
text
separately
search results
theme
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800517696A
Other languages
English (en)
Other versions
CN102612691B (zh
Inventor
乔宏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lexxe Pty Ltd
Original Assignee
Lexxe Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lexxe Pty Ltd filed Critical Lexxe Pty Ltd
Publication of CN102612691A publication Critical patent/CN102612691A/zh
Application granted granted Critical
Publication of CN102612691B publication Critical patent/CN102612691B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开了给文本评分的计算机实现方法、计算机可读媒体和***。可以确定一个或多个文本内的主题,并将其用于给每个文本评分,其中每个文本的总分可以指示每个文本的各自重要性和/或价值。每个文本的分数可以根据主题的数量、主题的类型、与主题相联系的主题元素的频率、与主题相联系的主题元素的分布、主题在文本中的位置、和它们的某种组合等来确定。这样,可以较少依靠外部信息地使用每个文本内的信息更精确地确定一个或多个文本的重要性或价值。另外,通过使用内部信息进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。

Description

给文本评分的方法和***
相关申请
本申请要求如下专利申请的权益:2009年9月8日提交、发明名称为“SYSTEM AND METHODS FOR RANKING TEXTUAL INFORMATIONAND SEARCH RESULTS BASED ON INFORMATIVITY”、发明人为HongLiang Qiao、和专利代理人案号为LEXE-P002.PRO的美国临时专利申请第61/243,953号;以及2010年9月17日提交、发明名称为“METHOD ANDSYSTEM FOR SCORING TEXTS”、发明人为Hong Liang Qiao、和专利代理人案号为LEXE-P002的美国非临时专利申请第12/884,395号。通过引用将这两个申请全文并入本文中用于所有目的。
背景技术
传统搜索引擎通常使用像非来源于正在排序的网页的信息那样的外部信息来排序搜索结果。例如,传统搜索引擎可能使用与特定网页的外部链接的数量来确定特定网页的重要性。外部链接可以驻留在其它源(例如,网页、文档等)中并且可以将用户引向特定网页。这样,传统搜索引擎可以根据与每个网页的外部链接的各自数量来排序每个网页。
尽管外部信息通常被传统搜索引擎用来进行搜索和排序网页,但往往是每个网页的重要性或价值的不良指标。例如,可能只有很少或甚至没有外部链接指向一个潜在重要文档,因此该文档可能未被传统搜索引擎返回或排得比其应该达到的低。作为另一个例子,如果一个名人的声望最近受到毁损,则将传统搜索引擎用于有关该名人的自传信息的搜索可能适得其反地返回与声望毁损有关的众多较不重要结果。这样,用户可能无法使用依靠外部信息的传统搜索引擎定位含有更重要或有价值信息的网页。
概括地说,本文公开了如下内容。公开了给文本评分的计算机实现方法、计算机可读媒体和***。可以确定一个或多个文本内的主题,并将其用于给每个文本评分,其中每个文本的总分可以指示每个文本的各自重要性和/或价值。每个文本的分数可以根据主题的数量、主题的类型、与主题相联系的主题元素的频率、与主题相联系的主题元素的分布、主题在文本中的位置、和它们的某种组合等来确定。这样,可以较少依靠外部信息地使用每个文本内的信息更精确地确定一个或多个文本的重要性或价值。另外,通过使用内部信息进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。
发明内容
于是,需要改进网页或其它文本的重要性或价值的确定。另外,需要提供作为对内容搜索的回报的更相关搜索结果。本发明的实施例提供了如下所述的对这些需要等的新解决方案。
这里所述的实施例针对给文本评分的计算机实现方法、计算机可读媒体和***。更具体地说,可以确定一个或多个文本内的主题,并将其用于给每个文本评分,其中每个文本的总分可以指示每个文本的各自重要性和/或价值。每个文本的分数可以根据主题的数量、主题的类型、与主题相联系的主题元素的频率、与主题相联系的主题元素的分布、主题在文本中的位置、和它们的某种组合等来确定。这样,可以较少依靠外部信息(例如,指向特定文档的超链接的数量)地使用每个文本内的信息(例如,内部信息)更精确地确定一个或多个文本的重要性或价值。另外,通过使用内部信息进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。
在一个实施例中,一种给文本评分的方法包括确定与文本的多个部分相联系的多个主题,其中多个部分的每个部分包含至少一个各自字符。指定多个分数给多个主题,其中多个分数的每个分数对应于多个主题的各自主题。根据多个分数为文本确定总分。
在另一个实施例中,一种计算机可读媒体可以含有具体化在其中使计算机***可以执行根据文本的内容给文本评分的方法的计算机可读程序代码。以及在又一个实施例中,一种***可以包括处理器和存储器,其中存储器包括当被该***执行时,实现根据文本的内容给文本评分的方法的指令。
构思
如下构思受到本申请支持:
构思1.一种给文本评分的方法,所述方法包含:
确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;
指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及
根据所述多个分数确定所述文本的总分。
构思2.如构思1所述的方法,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
构思3.如构思1所述的方法,进一步包含:
使用短语分块确定所述文本的所述多个部分。
构思4.如构思1所述的方法,其中所述确定所述多个主题进一步包含:
确定与所述多个部分的一个部分相联系的至少一个主题元素;
如果所述至少一个主题元素的多个实例的分布落在预定范围之内,并且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及
如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
构思5.如构思1所述的方法,其中所述确定所述多个主题进一步包含:
如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
构思6.如构思1所述的方法,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数:所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
构思7.如构思1所述的方法,进一步包含:
访问用户提交的搜索询问;
根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及
根据所述搜索结果的各自总分来排序所述搜索结果。
构思8.如构思7所述的方法,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
构思9.如构思7所述的方法,进一步包含:
根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
构思10.如构思7所述的方法,进一步包含:
根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
构思11.如构思7所述的方法,进一步包含:
根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
构思12.一种含有具体化在其中使计算机***可以执行给文本评分的方法的计算机可读程序代码的计算机可读媒体,所述方法包含:
确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;
指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及
根据所述多个分数确定所述文本的总分。
构思13.如构思12所述的计算机可读媒体,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
构思14.如构思12所述的计算机可读媒体,其中所述方法进一步包含:
使用短语分块确定所述文本的所述多个部分。
构思15.如构思12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含:
确定与所述多个部分的一个部分相联系的至少一个主题元素;
如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及
如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
构思16.如构思12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含:
如果所述多个部分的一部分的所述多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
构思17.如构思12所述的计算机可读媒体,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数:所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
构思18.如构思12所述的计算机可读媒体,其中所述方法进一步包含:
访问用户提交的搜索询问;
根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及
根据所述搜索结果的各自总分来排序所述搜索结果。
构思19.如构思18所述的计算机可读媒体,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
构思20.如构思18所述的计算机可读媒体,其中所述方法进一步包含:
根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
构思21.如构思18所述的计算机可读媒体,其中所述方法进一步包含:
根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
构思22.如构思18所述的计算机可读媒体,其中所述方法进一步包含:
根据多个网页每一个的各自总分来过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
构思23.一种包含处理器和存储器的***,其中所述存储器包含当被所述***执行时实现给文本评分的方法的指令,所述方法包含:
确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;
指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及
根据所述多个分数确定所述文本的总分。
构思24.如构思23所述的***,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
构思25.如构思23所述的***,其中所述方法进一步包含:
使用短语分块确定所述文本的所述多个部分。
构思26.如构思23所述的***,其中所述确定所述多个主题进一步包含:
确定与所述多个部分的一个部分相联系的至少一个主题元素;
如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及
如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
构思27.如构思23所述的***,其中所述确定所述多个主题进一步包含:
如果所述多个部分的一部分的所述多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
构思28.如构思23所述的***,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数:所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
构思29.如构思23所述的***,其中所述方法进一步包含:
访问用户提交的搜索询问;
根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及
根据所述搜索结果的各自总分来排序所述搜索结果。
构思30.如构思29所述的***,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
构思31.如构思29所述的***,其中所述方法进一步包含:
根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
构思32.如构思29所述的***,其中所述方法进一步包含:
根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
构思33.如构思29所述的***,其中所述方法进一步包含:
根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
附图说明
本发明将非限制性地通过例子例示在其中相同标号表示相同元件的附图的图形中。
图1示出了依照本发明的一个实施例给一个或多个文本评分的示范性***;
图2示出了依照本发明的一个实施例给一个或多个文本评分的示范性计算机实现进程的流程图;
图3A示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现进程的流程图的第一部分;
图3B示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现进程的流程图的第二部分;
图3C示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现进程的流程图的第三部分;
图4示出了依照本发明的一个实施例的示范性主题元素数据库;
图5示出了依照本发明的一个实施例的示范性变体数据库;
图6示出了依照本发明的一个实施例对多个主题确定多个分数的示范性计算机实现进程的流程图;
图7示出了依照本发明的一个实施例的示范性属性评分数据库;
图8示出了依照本发明的一个实施例的示范性文本评分数据库;
图9示出了依照本发明的一个实施例进行与搜索相联系的一次或多次操作的示范性计算机实现进程的流程图;
图10示出了依照本发明的一个实施例缩放多个文本的多个各自总分的示范性计算机实现进程的流程图;以及
图11示出了可以实现本发明的实施例的示范性计算机***平台。
具体实施方式
现在详细介绍其例子例示在附图中的本发明的实施例。虽然本发明将结合附图来讨论,但要明白的是无意使本发明只局限于这些实施例。相反,本发明旨在涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的可替代物、变型和等效物。而且,在本发明的如下详细描述中,为了使人们全面了解本发明,给出了许多具体细节。但是,本发明的实施例不用这些具体细节也可以实施。在其它情况下,未详细描述众所周知的方法、过程、部件和电路,以免不必要地掩盖本发明的各个方面。
记号和术语
如下详细描述的一些部分通过对计算机存储器内的数据位的操作的过程、逻辑块、进程和其它符号表示的形式给出。这些描述和表示是数据处理领域的普通技术人员用于最有效地向该领域的其它普通技术人员传达他们的工作的实质的手段。在本申请中,将过程、逻辑块、进程等构想成导致所希望结果的步骤或指令的自给序列。这些步骤是要求物理操纵物理量的步骤。通常,尽管未必如此,但这些量呈现能够在计算机***中被存储、被传送、被组合、被比较、和要不然***纵的电或磁信号的形式。
然而,应当铭记,所有这些和类似术语都要与适当物理量相联系,并且仅仅是应用于这些量的方便标记。正如从下面的讨论中明显看到的那样,除非另有说明,应该懂得,在整个本发明中,利用诸如“接受”、“访问”、“加上”、“分析”、“应用”、“组装”、“指定”、“联系”、“计算”、“捕获”、“组合”、“通信”、“比较”、“收集”、“创建”、“定义”、“描绘”、“检测”、“确定”、“显示”、“建立”、“执行”、“过滤”、“生成”、“分组”、“识别”、“启动”、“交互”、“修改”、“监视”、“移动”、“输出”、“进行”、“放置”、“给出”、“处理”、“编程”、“提供”、“询问”、“排序”、“除去”、“重复”、“取样”、“分类”、“存储”、“减去”、“变换”、“使用”等的术语的讨论指的是操纵计算机***的寄存器和存储器内表示成物理(电子)量的数据和将其变换成计算机***的存储器或寄存器,或其它这样的信息存储、传输或显示设备内类似地表示成物理量的其它数据的计算机***或类似电子计算设备的动作和进程。
本发明实施例
图1示出了依照本发明的一个实施例给一个或多个文本评分的示范性***100。如图1所示,评分部件110的分数确定部件111可以根据内部信息(例如,依照图2的进程200)确定存储在文本数据库112中的一个或多个文本的各自分数,其中内部信息可以包括每个文本的各自内容(例如,至少一个主题)。可以将评分的结果存储在文本评分数据库113中。
在一个实施例中可以将评分的结果用于进行与搜索相联系的至少一次操作(例如,依照图9的进程900)。例如,过滤部件130可以访问为每个文本确定的各自分数,并使用各自分数过滤文本(例如,选择或识别分数在预定阈值之上的文本子集等)。过滤可以在进行搜索之前(例如,识别搜索引擎120进行一次或多次搜索的文本子集)和/或在进行搜索之后(例如,识别搜索引擎120进行的搜索的结果子集)进行。作为另一个例子,排序部件140可以访问为每个文本确定的各自分数,并使用各自分数排序文本(例如,按分数递增的次序排列文本,按分数递减的次序排列文本等)。排序可以在进行搜索之前(例如,定序搜索引擎120进行一次或多次搜索的文本)和/或在进行搜索之后(例如,排列或定序搜索引擎120进行的搜索的结果)进行。这样,本发明的实施例通过使用内部信息给文本评分,能够将更相关的搜索结果返给用户。
在一个实施例中,本发明的实施例可以降低对外部信息的依赖性(例如,指向特定文档的超链接的数量),以便进一步改善至少一个文本的重要性和/或价值的确定,改善至少一个文本的搜索或与至少一个文本的搜索有关的其它操作(例如,过滤、排序等)等。例如,在相对较少外部链接(例如,超链接)指向较重要或有价值文本的情况下,与依靠外部信息确定文本的重要性和/或价值(例如,倘若指向文本的超链接数量相对较少,则确定文本的重要性和/或价值相对较低)的传统解决方案相比,可以使用内部信息更精确地确定文本的重要性和/或价值。作为另一个例子,在相对较多数量外部链接指向较不重要或有较小价值文本的情况下,与依靠外部信息确定文本的重要性和/或价值(例如,倘若指向文本的超链接数量相对较多,则确定文本的重要性和/或价值相对较高)的传统解决方案相比,可以使用内部信息更精确地确定文本的重要性和/或价值。
在一个实施例中,可以在(例如,存储在文本数据库112中的至少一个文本的)内联网或专用网络160内进行(例如,通过搜索引擎120)搜索,并且可以将搜索结果提供给专用网络内的至少一个计算机***(例如,152,154等)。在一个实施例中,文本数据库112内的一个或多个文本可能包括机密信息和/或可能包括与文本数据库112内的其它文本的相对较少或甚至没有超链接。可替代的是,可以至少局部在专用网络160之外地(例如,在文本数据库190等的至少一个文本上)进行(例如,通过搜索引擎120)搜索。在这种情况下,可以将搜索结果提供给专用网络160内的至少一个计算机***(例如,152,154等)和/或专用网络160之外的至少一个计算机***(例如,182,184等)。
专用网络160可以包括可以具有有限或没有互联网联通性地通信的任意个计算机***或设备。专用网络160内的计算机***或设备可以通过局域网(LAN)、虚拟专用网络(VPN)等耦合。
尽管图1示出了特定数量和排列的部件,但应该懂得,在其它实施例中***100可以含有不同数量和/或排列的部件。另外,尽管图1示出了带有特定部件(例如,分数确定部件111、文本数据库112、文本评分数据库113、主题元素数据库114、变体数据库115、属性评分数据库116等)的评分部件110,但应该懂得,在其它实施例中评分部件110可以含有不同数量的部件。例如,在一个实施例中一个或多个数据库(例如,文本数据库112、文本评分数据库113、主题元素数据库114、变体数据库115、属性评分数据库116、它们的某种组合等)可以处在评分部件110的外部。并且,应该懂得,在一个实施例中专用网络160的一个或多个部件可以经由互联网170通信。
图2示出了依照本发明的一个实施例给一个或多个文本评分的示范性计算机实现进程200的流程图。如图2所示,步骤210牵涉到确定文本的多个部分。该文本可以是网页、电子文档(例如,Microsoft Word文档、MicrosoftExcel电子表格、Adobe PDF等)、和电子书等。在步骤210中确定的文本的每个部分可以包括至少一个各自字符(例如,字母、数字、符号、图标等)。例如,可以发现句子“Barack Obama lives in the White House”包括三个分立部分“Barack Obama”、“lives in”和“White House”。在一个实施例中,可以在步骤210中使用短语分块(例如,根据统计、语法规则等)或类似处理来确定多个部分。
步骤220牵涉到确定与文本的多个部分(例如,在步骤210中确定的)相联系的多个主题。在一个实施例中,文本的部分的数量可以大于主题的数量(例如,可能不是文本的每个部分都与一个主题相联系)。可以将在步骤220中确定的每个主题与至少一个主题元素(例如,与主题的例子有关和/或提供主题的例子的一个或多个词汇)相联系,其中在一个实施例中可以将主题与各自主题元素之间的关联存储在主题元素数据库114中(例如,如图4所示)。主题元素也可以包括一个词汇的“变体”或可替代形式(例如,如图5所示,“speaks”、“spoke”、“spoken”和“speaking”可以是词汇“speak”的变体),其中变体可以包括在主题数据库(例如,114)中和/或包括在分立数据库(例如,变体数据库115)中。多个主题可以包括一个主要主题(例如,在文本中的至少一个主题元素的实例的分布落在预定范围之内的情况下,在一个部分的一个实例处在靠近文本的开头的位置上而该部分的另一个实例处在靠近文本的末端的位置上的情况下等)、一个次要主题(例如,在文本中的至少一个主题元素的实例的分布未落在预定范围之内的情况下等)、一个补充主题(例如,在文本中的一个部分的实例的分布落在预定范围之内,以及至少一个其它部分与主要主题相联系的情况下等)、一个潜在主要主题(例如,在文本中的一个部分的实例的分布落在预定范围之内的情况下等)、它们的某种组合等。在一个实施例中,步骤220可以依照图3A、3B和/或3C的进程300来执行。
如图2所示,步骤230牵涉到将多个分数指定给多个主题(例如,在步骤220中确定的)。每个主题可以接受基于一种或多种属性的各自分数,其中一种或多种属性可以包括文本中的每个主题的各自多个主题元素的各自频率(例如,基于与文本的长度有关的文本中的各自主题元素的实例的数量)、文本中的每个主题的各自多个主题元素的各自分布(例如,基于文本中的各自主题元素的相继实例之间的距离,其中至少一个主题元素的实例之间的“距离”可以用字符、词汇、符号等的数量来表达)、和文本中的每个主题的至少一种各自位置(例如,基于主题的至少一个实例是否处在靠近文本的开头和/或末端的位置上)。在一个实施例中,在步骤230中指定的分数可以依照图6的进程600来确定。
步骤240牵涉到根据多个分数(例如,在步骤230中指定的)确定文本的总分。在一个实施例中总分可以通过求和多个分数(例如,在步骤230中指定给每个主题的各自分数)来计算。并且,在一个实施例中,在步骤240中确定的总分可以指示文本的重要性或价值(例如,根据本文的一个或多个主题)。
于是,进程200可以用于根据文本内的信息(例如,内部信息)确定文本的总分。进程200可以有利地用于确定较少或没有外部超链接(例如,在至少一个其它文本内)指向文本的文本的总分。另外,进程200可以有利地用于确定包括机密信息的文本(例如,旨在专用网络160内共享)的总分。这样,通过使用内部信息(例如,较少依靠外部信息地)进行与搜索相联系的排序操作和/或过滤操作,可以将更相关的搜索结果返给用户。
图3A、3B和3C示出了依照本发明的一个实施例确定与文本相联系的至少一个主题的示范性计算机实现过程300的流程图。如图3A所示,步骤305牵涉到访问文本的多个部分的第一部分。该文本可以是网页、电子文档(例如,Microsoft Word文档、Microsoft Excel电子表格、Adobe PDF等)、和电子书等。在一个实施例中多个部分可以依照进程200的步骤210来确定。另外,在一个实施例中第一部分可以从数据库(例如,文本数据库112、文本数据库190等)中访问。
步骤310牵涉到确定在主题数据库(例如114)中是否找到该部分(例如,在步骤305中访问的第一部分或在步骤320中访问的另一个部分)。步骤310可以通过将一个部分的至少一个字符与主题数据库(例如,114)中的至少一个条目相比较来执行。
如果在主题数据库中未找到该部分(例如,该部分包括不是列在主题数据库中的主题的词汇),则可以在步骤315中确定文本是否包括另一个部分。如果文本未包括另一个部分,则可以如本文所讨论执行步骤385。另一种情况是,如果文本未包括另一个部分,则可以在步骤320中访问下一个部分,然后对下一个部分执行步骤310。
另一种情况是,如果在主题数据库中找到该部分(例如,该部分包括如图4所示是列在主题数据库中的主题的词汇“food”),则可以在步骤325中确定与该部分相联系的至少一个主题元素。例如,如果该部分包括词汇“food”,则可以确定词汇“bread”、“meat”、“fruit”和“nuts”是与该部分相联系的主题元素。一个主题元素可以包括与主题的例子有关和/或提供主题的例子的一个或多个词汇。主题元素也可以包括一个词汇的“变体”或可替代形式(例如,如图5所示,“speaks”、“spoke”、“spoken”和“speaking”可以是词汇“speak”的变体),其中变体可以包括在主题数据库(例如,114)中和/或包括在分立数据库(例如,变体数据库115)中。这样,在一个实施例中,步骤325可能牵涉到确定与一个主题相联系的至少一个变体,其中该变体可以通过索引主题数据库114和/或变体数据库115来确定。在一个实施例中,步骤325可以通过使用该部分的至少一个字符(例如,词汇“food”)对主题数据库114进行索引来执行,以便返回“bread”、“meat”、“fruit”和“nuts”(例如,如图4所示)的主题元素。
如图3B所示,步骤330牵涉到确定在文本中是否找到至少一个主题元素(例如,在步骤325中确定的)的多个实例。步骤330可能牵涉到进行文本的一次或多次词汇搜索,以识别至少一个主题元素的多个实例。例如,可以进行文本的第一词汇搜索,以识别主题元素“bread”的任何实例,可以进行文本的第二词汇搜索,以识别主题元素“meat”的任何实例,依此类推。如果在步骤330中找到至少一个主题元素的多个实例(例如,只有一个主题元素的多个实例、第一主题元素的至少一个实例、和第二主题元素的至少一个实例等),则可以执行步骤335。
步骤335牵涉到确定文本中的至少一个主题元素的多个实例(例如,在步骤330中识别的)的分布是否落在预定范围之内。在一个实施例中,可以认为落在预定范围之内的分布是“均匀分布”,而可以认为落在预定范围之外的分布是“非均匀分布”。在一个实施例中,可以通过对至少一个主题元素的每个相继实例对之间的“距离”(例如,词汇、字符、符号等的数量)求平均来确定该分布(例如,文本中的至少一个主题元素的多个实例的分布)。每个相继对可以包括:同一主题元素的两个实例;或一个主题元素的实例和另一个主题元素的实例。这样,在一个实施例中,步骤335可能牵涉到计算平均“距离”并将其与预定范围相比较,其中预定范围可能随文本的长度(例如,词汇、字符、符号等的数量)而变。
如果在步骤335中确定平均距离未落在预定范围之内,则可以在步骤340中将该部分与一个次要主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤335中确定平均距离落在预定范围之内,则可以执行步骤345。
如图3B所示,步骤345牵涉到确定该部分的一个实例是否处在靠近文本的开头的位置上和该部分的另一个实例是否处在靠近文本的末端的位置上。例如,步骤345可能牵涉到确定是否从文本的开头开始在预定个词汇、字符、符号等之内找到该部分的第一实例。作为另一个例子,步骤345可能牵涉到确定是否从文本的末端开始在预定个词汇、字符、符号等之内找到该部分的第二实例。如果在步骤345中确定该部分的一个实例处在靠近文本的开头的位置上和该部分的另一个实例处在靠近文本的末端的位置上,则可以在步骤350中将该部分与一个主要主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤345中确定该部分的一个实例未处在靠近文本的开头的位置上和/或该部分的另一个实例未处在靠近文本的末端的位置上,则可以在步骤355中将该部分与一个主要主题相联系,然后可以执行步骤315。
在一个实施例中,步骤355还可能牵涉到做上降低确定性地进行该部分与一个主要主题的联系(例如,与在步骤350中进行的联系相比)的记号。以后在利用总分的应用(例如,使用总分排序多个文本、过滤多个文本等的搜索)中,可以使用这个记号确定主题的分数、和文本的总分。
如果在步骤330中在文本中未找到至少一个主题元素的多个实例(例如,只有一个主题元素的多个实例、第一主题元素的至少一个实例、和第二主题元素的至少一个实例等),则如图3C所示可以在步骤360中确定文本中的该部分的多个实例的分布是否落在预定范围之内。在一个实施例中,可以认为落在预定范围之内的分布是“均匀分布”,而可以认为落在预定范围之外的分布是“非均匀分布”。在一个实施例中,可以通过对该部分的每个相继实例对之间的“距离”(例如,词汇、字符、符号等的数量)求平均来确定该分布(例如,文本中的该部分的分布)。这样,在一个实施例中,步骤360可能牵涉到计算平均“距离”并将其与预定范围相比较,其中预定范围可能随文本的长度(例如,词汇、字符、符号等的数量)而变。
如果在步骤360中确定平均距离未落在预定范围之内,则在步骤365中不将该部分与任何主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤360中确定平均距离落在预定范围之内,则可以执行步骤370。
如图3C所示,步骤370牵涉到确定是否已经将一个主要主题与另一个部分相联系(例如,如在步骤350或355中对另一个部分执行的)。如果在步骤370中确定未将一个主要主题与另一个部分相联系,则可以在步骤375中将该部分与一个潜在主要主题相联系,然后可以执行步骤315。另一种情况是,如果在步骤370中确定已将一个主要主题与另一个部分相联系,则可以在步骤380中将该部分与一个补充主题相联系,然后可以执行步骤315。
转回到图3A,如果在步骤315中确定文本不包括另一个部分(例如,已经对本文的所有部分执行了步骤310和325到380,或它们的某种组合),则可以执行步骤385。步骤385牵涉到确定是否将文本的任何部分都与一个主要主题相联系。如果在步骤385中确定文本的至少一个部分与主要主题相联系,则可以在步骤390中将潜在主要主题的所有联系改变成与补充主题的联系(例如,以前在步骤375中与潜在主要主题相联系的任何部分现在可以取而代之与补充主题相联系)。另一种情况是,如果在步骤385中确定文本没有部分与主要主题相联系,则可以终止过程300。
图6示出了依照本发明的一个实施例对多个主题确定多个分数的示范性计算机实现进程600的流程图。如图6所示,步骤610牵涉到确定文本中的每个主题的至少一个主题元素的各自多个实例的频率。在一个实施例中,特定主题的主题元素的频率可以通过将与特定主题(例如,包括主题元素的标准形式、主题元素的变体、它们的某种组合等)相联系的主题元素的实例的数量除以文本的长度(例如,表达成词汇、字符、符号等的数量)来确定,其中可以对文本的每个主题重复这种操作。在一个实施例中,特定主题的主题元素的频率可以通过将与特定主题(例如,包括主题元素的标准形式、主题元素的变体、它们的某种组合等)相联系的主题元素的实例的数量来确定。并且,在一个实施例中,可替代地在步骤610中确定文本中的每个主题的各自多个主题元素的频率。
步骤620牵涉到确定文本中的每个主题的至少一个主题元素的各自多个实例的分布。在一个实施例中,特定主题的主题元素的分布可以通过对主题元素的每个相继实例对之间的“距离”(例如,词汇、字符、符号等的数量)求平均来确定,其中可以对文本的每个主题重复这种操作。每个相继对可以包括:同一主题元素(例如,主题元素的标准形式、主题元素的变体、它们的某种组合等)的两个实例;或一个主题元素(例如,主题元素的标准形式、主题元素的变体、它们的某种组合等)的实例和另一个主题元素(例如,主题元素的标准形式、主题元素的变体、它们的某种组合等)的实例。
如图6所示,步骤630牵涉到确定文本中的每个主题(例如,与每个主题相联系的至少一个各自部分)的至少一个各自实例的至少一个各自位置。在一个实施例中,步骤630可能牵涉到确定特定主题的至少一个实例是否处在靠近文本的开头的位置上(例如,从文本的开头开始在预定个词汇、字符、符号等之内)。在一个实施例中,步骤630可能牵涉到确定特定主题的至少一个实例是否处在靠近文本的末端的位置上(例如,从文本的末端开始在预定个词汇、字符、符号等之内)。
步骤640牵涉到根据文本的至少一种属性确定每个主题的各自分数。例如,步骤640可能牵涉到根据文本中的主题的至少一个主题元素的多个实例的频率(例如,如在步骤610中所确定)、文本中的主题的至少一个主题元素的多个实例的分布(例如,如在步骤620中所确定)、文本中的主题的至少一个实例的位置(例如,如在步骤630中所确定)、它们的某种组合等确定每个主题的各自分数。
在一个实施例中,在步骤640中可以通过求和多个分数(例如,使用属性评分数据库116确定的)计算每个主题的各自分数。例如,可以根据在步骤610中的确定的频率(例如,表达成分数、百分比等)从属性评分数据库116(例如,如图7所示)中确定与频率相联系的第一分数。作为另一个例子,可以根据在步骤620中的确定的分布(例如,用词汇、字符、符号等表达的平均“距离”)从属性评分数据库116(例如,如图7所示)中确定与分布相联系的第二分数。作为又一个例子,可以根据在步骤630中的确定的位置(例如,靠近文本的开头、靠近文本的末端、靠近文本的开头和末端两者等)从属性评分数据库116(例如,如图7所示)中确定与位置相联系的第三分数。
在一个实施例中,可以将文本中的每个主题的各自分数(例如,如在步骤640中所确定)存储在如图8所示的文本评分数据库113中。如图8所示,文本评分数据库113可以包括与每个文本相联系的至少一个各自主题(例如,如使用进程300所确定)、与每个主题相对应的各自主题类型(例如,如使用进程300所确定)、和与每个主题相对应的各自分数(例如,如使用进程600所确定)。
图9示出了依照本发明的一个实施例进行与搜索相联系的一次或多次操作的示范性计算机实现进程900的流程图。如图9所示,步骤910牵涉到确定多个网页的每个网页的各自总分。在一个实施例中,步骤910可以依照图3的进程300来执行,其中可以对多个网页的每个网页重复进程300。
步骤920牵涉到根据各自总分来排序多个网页。例如,可以按各自总分递增、各自总分递减等的次序排列网页。在一个实施例中,在步骤920中进行的排序可以在进行多个网页的搜索之前进行。并且,在一个实施例中,步骤920可以由排序部件(例如,140)来执行。
如图9所示,步骤930牵涉到根据各自总分过滤多个网页。例如,步骤930可能牵涉到识别具有在预定阈值之上的各自总分的多个网页的子集。在一个实施例中,在步骤930中进行的过滤可以在进行多个网页的搜索之前进行。并且,在一个实施例中,步骤930可以由过滤部件(例如,130)来执行。
步骤940牵涉到访问用户提交的搜索询问。搜索询问可以包括至少一个字符、至少一个词汇、至少一个符号等。在一个实施例中,搜索询问可以使用图形用户界面输入。
如图9所示,步骤950牵涉到根据搜索询问(例如,在步骤940中访问的)进行搜索以生成搜索结果(例如,包括至少一个网页)。在一个实施例中,搜索可以是基于搜索询问的一个或多个部分的关键词搜索。并且,在一个实施例中,步骤950可以由搜索引擎(例如,120)来执行。
步骤960牵涉到至少部分根据搜索结果的每个的各自总分来排序搜索结果。例如,可以按各自总分递增、各自总分递减等的次序排列搜索结果。在一个实施例中,在步骤960中进行的排序可以在在步骤950中进行多个网页的搜索之后进行。在一个实施例中,步骤960可以由排序部件(例如,140)来执行。并且,在一个实施例中,步骤960可能牵涉到缩放搜索结果的各自总分(例如,依照图10的进程1000进行,然后根据搜索结果的各自缩放总分来排序搜索结果。
图10示出了依照本发明的一个实施例缩放多个文本的多个各自总分的示范性计算机实现进程的流程图。如图10所示,步骤1010牵涉到访问第一搜索结果。第一搜索结果可以包括在作为搜索(例如,如在进程900的步骤950中所执行)的结果生成的多个搜索结果中。
步骤1020牵涉到确定在搜索询问(例如,由用户在进程900的步骤940中提交)中找到的搜索结果的主题的数量和类型。在一个实施例中,主题的数量和类型可以使用文本评分数据库113(例如,如图8所示)来确定。
如图10所示,步骤1030牵涉到根据主题的数量和类型确定与搜索结果相联系的缩放因子。在一个实施例中,缩放因子“S”可以使用如下方程计算:
S=Nmajor*Vmajor+Ncomp*Vcomp+Npotentialmajor*Vpotentialmajor+Nminor*Vminor
其中Nmajor可以是搜索结果的主要主题的数量(例如,如图8所示的“文本1”含有两个主要主题等),其中Ncomp可以是搜索结果的补充主题的数量(例如,如图8所示的“文本3”含有两个补充主题等),其中Npotentialmajor可以是搜索结果的潜在主要主题的数量(例如,如图8所示的“文本3”含有一个潜在主要主题等),和其中Nminor可以是搜索结果的次要主题的数量(例如,如图8所示的“文本2”含有两个次要主题等)。Vmajor可以是与主要主题相联系的数值或权重,Vcomp可以是与补充主题相联系的数值或权重,Vpotentialmajor可以是与潜在主要主题相联系的数值或权重,和Vminor可以是与次要主题相联系的数值或权重。在一个实施例中,与指定主题类型相联系的各自权重可以使用表1来确定。
  主题类型   权重
  主要   5
  补充   4
  潜在主要   3
  次要   2
表1
步骤1040牵涉到根据缩放因子(例如,在步骤1030中确定的)缩放与搜索结果相联系的总分。在一个实施例中可以从文本评分数据库113中访问总分。在一个实施例中,在步骤1040中可以将缩放因子乘以总分以便计算缩放总分。并且,在一个实施例中,可以将缩放总分存储在文本评分数据库113中。
如图10所示,步骤1050牵涉到确定是否存在另一个搜索结果。如果识别出另一个搜索结果,则可以在步骤1060中访问下一个搜索结果,并且可以对下一个搜索结果重复步骤1020到1040。另一种情况是,如果在步骤1050中未识别出另一个搜索结果,则可以终止过程1000。
转回到图9,步骤970牵涉到根据每个搜索结果的各自总分过滤搜索结果。例如,步骤970可能牵涉到识别具有在预定阈值之上的各自总分(例如,应用或未应用依照进程1000确定的缩放因子)的搜索结果子集。在一个实施例中,在步骤970中进行的过滤可以在在步骤950中进行了多个网页的搜索之后执行。并且,在一个实施例中,步骤970可以由过滤部件(例如,130)来执行。
步骤980牵涉到输出搜索结果(例如,在步骤950中生成,在步骤960中排序,和在步骤970中过滤等的)。可以输出搜索结果以便加以显示(例如,在计算机***的显示设备上)、打印(例如,在与计算机***耦合的打印机上)、和存储(例如,在计算机***的计算机可读媒体上)等。
于是,进程900可以用于通过使用内部信息(例如,较少依靠外部信息地)进行与搜索相联系的排序操作和/或过滤操作以返回更相关的搜索结果。进程900可以有利地用于进行与搜索较少或没有外部超链接(例如,在至少一个其它文本内)指向文本的文本有关的至少一次操作。另外,进程900可以有利地用于进行与搜索包括机密信息的文本(例如,旨在专用网络160内共享)的至少一次操作。并且,在一个实施例中,可以与外部信息结合地使用内部信息进行至少一次搜索来返回搜索结果。
尽管已经针对网页描述了过程900,但应该懂得,进程900可以用于搜索任何类型的文档、文件、或其它类型的文本。另外,应该懂得,进程900的一个或多个步骤是可选的,因此,在其它实施例中可能未执行。
如图4所描绘的主题元素数据库114的信息仅仅是示范性的,因此,应该懂得,在其它实施例中,主题元素数据库114可以包括更多或更少信息、不同信息等。另外,如图5所描绘的变体数据库115的信息仅仅是示范性的,因此,应该懂得,在其它实施例中,变体数据库115可以包括更多或更少信息、不同信息等。如图7所描绘的属性评分数据库116的信息仅仅是示范性的,因此,应该懂得,在其它实施例中,属性评分数据库116可以包括更多或更少信息、不同信息等。并且,如图8所描绘的文本评分数据库113的信息仅仅是示范性的,因此,应该懂得,在其它实施例中,文本评分数据库113可以包括更多或更少信息、不同信息等。
图11示出了可以实现本发明的实施例的示范性计算机***平台1100。如图11所示,本发明的一些部分可以通过执行计算机可读指令或计算机可执行指令来实现,该计算机可读指令或计算机可执行指令可以驻留计算机***平台1100的部件中和可以用作通用计算机网络的一部分。应该懂得,图11的计算机***平台1100仅仅是示范性的。这样,本发明可以在许多不同***内实施,这些不同***包括但不限于通用计算机***、嵌入式计算机***、膝上型计算机***、手持计算机***、便携式计算机***、独立计算机***、游戏控制台、游戏***或机器(例如,出现在娱乐场所或其它游戏设施中)、或在线游戏***。
在一个实施例中,计算机***平台1100可以用于实现内容服务器110、计算机***120、计算机***130、计算机***140、计算机***150、计算机***160、计算机***170、和它们的某种组合等。并且,在一个实施例中,可以将计算机***平台1100的一个或多个部件布置在外壳或机壳中和/或与外壳或机壳耦合。
在通过虚线1130描绘的一个实施例中,计算机***平台1100可以包括至少一个处理器1110和至少一个存储器1120。处理器1110可以包括中央处理单元(CPU)或其它类型的处理器。取决于计算机***环境的配置和/或类型,存储器1120可以包括易失性存储器(例如,RAM)、非易失性存储器(例如,ROM、闪速存储器等)、或两者的某种组合。另外,存储器1120可以是可移动的、不可移动的等。
在其它实施例中,计算机***平台1100可以包括附加存储器(例如,可移动存储器1140、不可移动存储器1145等)。可移动存储器1140和/或不可移动存储器1145可以包括易失性存储器、非易失性存储器、或它们的任何组合。另外,可移动存储器1140和/或不可移动存储器1145可以包括CD-ROM、数字多功能盘(DVD)或其它光存储器、磁盒、磁带、磁盘存储器或其它磁存储设备、或可以用于存储信息供计算机***平台1100访问的任何其它媒体。
如图11所示,计算机***平台1100可以经由通信接口1170与其它***、部件或设备通信。通信接口1170可以以调制数据信号(例如,载波)或其它传输机制具体化计算机可读指令、数据结构、程序模块或其它数据。举例来说,但非限制性地,通信接口1170可以与有线媒体(例如,有线网络、直接有线连接等)和/或无线媒体(例如,无线网络、利用声音、RF、红外、或其它无线传信的无线连线等)耦合。
通信接口1170还可以将计算机***平台1100与一个或多个输入设备(例如,键盘、鼠标、手写笔、语音输入设备、触摸输入设备等)耦合。在一个实施例中,通信接口1170可以将计算机***平台1100与一个或多个输出设备(例如,显示器、扬声器、打印机等)耦合。
如图11所示,图形处理器1150可以对存储在计算机***平台1100的帧缓冲器1160或另一个存储器(例如,1120、1140、1145等)中的图形数据进行图形处理操作。存储在帧缓冲器1160中的图形数据可以被计算机***平台1100的部件(例如,图形处理器1150、处理器1110等)和/或其它***/设备的部件访问、处理和/或修改。另外,图形数据可以被访问(例如,由图形处理器1150)和显示在与计算机***平台1100耦合的输出设备上。于是,存储器1120、可移动存储器1140、不可移动存储器1145、帧缓冲器1160、或它们的组合可以是计算机可读媒体或计算机可用媒体,并且可以包括当被处理器(例如,1110、1150等)执行时实现如下方法的指令:给一个或多个文本评分(例如,依照图2的进程200)的方法、确定与文本相联系的至少一个主题(例如,依照图3A、图3B和/或图3C的进程300)的方法、对多个主题确定多个分数(例如,依照图6的进程600)的方法、进行与搜索相联系的一次或多次操作(例如,依照图9的进程900)的方法、缩放多个文本的多个各自总分(例如,依照图10的进程1000)的方法、它们的某种组合等。
在上述的说明中,已经针对可以随实现而变的许多具体细节对本发明的实施例作了描述。因此,本发明以及本申请人期待的独一无二指示是包括任何后续修正、以得出权利要求的特定形式从本申请中得出的一组权利要求。因此,未明确列举在权利要求中的限制、元件、性质、特征、优点或属性不应该以任何方式限制这样权利要求的范围。于是,该说明书和附图被认为是例示性的而非限制性的。优选的是包括本文所述的所有元件、部分和步骤。应该明白,如对本领域的普通技术人员来说显而易见的那样,这些元件、部分和步骤的任何元件、部分和步骤可以被其它元件、部分和步骤取代或一起删除。

Claims (33)

1.一种给文本评分的方法,所述方法包含:
确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;
指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及
根据所述多个分数确定所述文本的总分。
2.如权利要求1所述的方法,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
3.如权利要求1所述的方法,进一步包含:
使用短语分块确定所述文本的所述多个部分。
4.如权利要求1所述的方法,其中所述确定所述多个主题进一步包含:
确定与所述多个部分的一个部分相联系的至少一个主题元素;
如果所述至少一个主题元素的多个实例的分布落在预定范围之内,并且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及
如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
5.如权利要求1所述的方法,其中所述确定所述多个主题进一步包含:
如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
6.如权利要求1所述的方法,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数:所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
7.如权利要求1所述的方法,进一步包含:
访问用户提交的搜索询问;
根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及
根据所述搜索结果的各自总分来排序所述搜索结果。
8.如权利要求7所述的方法,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
9.如权利要求7所述的方法,进一步包含:
根据每个所述搜索结果的各自总分来过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
10.如权利要求7所述的方法,进一步包含:
根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
11.如权利要求7所述的方法,进一步包含:
根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
12.一种含有具体化在其中使计算机***执行给文本评分的方法的计算机可读程序代码的计算机可读媒体,所述方法包含:
确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;
指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及
根据所述多个分数确定所述文本的总分。
13.如权利要求12所述的计算机可读媒体,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
14.如权利要求12所述的计算机可读媒体,其中所述方法进一步包含:
使用短语分块确定所述文本的所述多个部分。
15.如权利要求12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含:
确定与所述多个部分的一个部分相联系的至少一个主题元素;
如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及
如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
16.如权利要求12所述的计算机可读媒体,其中所述确定所述多个主题进一步包含:
如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
17.如权利要求12所述的计算机可读媒体,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数:所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
18.如权利要求12所述的计算机可读媒体,其中所述方法进一步包含:
访问用户提交的搜索询问;
根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及
根据所述搜索结果的各自总分来排序所述搜索结果。
19.如权利要求18所述的计算机可读媒体,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
20.如权利要求18所述的计算机可读媒体,其中所述方法进一步包含:
根据每个所述搜索结果的各自总分来过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
21.如权利要求18所述的计算机可读媒体,其中所述方法进一步包含:
根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
22.如权利要求18所述的计算机可读媒体,其中所述方法进一步包含:
根据多个网页每一个的各自总分来过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
23.一种包含处理器和存储器的***,其中所述存储器包含当被所述***执行时实现给文本评分的方法的指令,所述方法包含:
确定与所述文本的多个部分相联系的多个主题,其中所述多个部分的每个部分包含至少一个各自字符;
指定多个分数给所述多个主题,其中所述多个分数的每个分数对应于所述多个主题的各自主题;以及
根据所述多个分数确定所述文本的总分。
24.如权利要求23所述的***,其中所述文本是从由网页、电子文档、和电子书组成的群体中选择的。
25.如权利要求23所述的***,其中所述方法进一步包含:
使用短语分块确定所述文本的所述多个部分。
26.如权利要求23所述的***,其中所述确定所述多个主题进一步包含:
确定与所述多个部分的一个部分相联系的至少一个主题元素;
如果所述至少一个主题元素的多个实例的分布落在预定范围之内,且如果所述部分的第一实例处在靠近所述文本的开头的位置上,以及所述部分的第二实例处在靠近所述文本的末端的位置上,则将所述部分与主要主题相联系;以及
如果所述至少一个主题元素的所述多个实例的所述分布未落在所述预定范围之内,则将所述部分与次要主题相联系。
27.如权利要求23所述的***,其中所述确定所述多个主题进一步包含:
如果所述多个部分的一部分的多个实例的分布落在预定范围内,以及如果一个主要主题与所述文本的至少一个其它部分相联系,则将所述部分与补充主题相联系。
28.如权利要求23所述的***,其中所述指定多个分数进一步包含根据从由如下组成的群体中选择的属性确定每个主题的各自分数:所述文本中的每个主题的至少一个主题元素的各自多个实例的各自频率、所述文本中的每个主题的至少一个主题元素的各自多个实例的各自分布、和所述文本中的每个主题的至少一个各自位置。
29.如权利要求23所述的***,其中所述方法进一步包含:
访问用户提交的搜索询问;
根据所述搜索询问进行至少一个网页的搜索以生成搜索结果,其中所述搜索结果包含所述文本;以及
根据所述搜索结果的各自总分来排序所述搜索结果。
30.如权利要求29所述的***,其中所述排序进一步包含根据所述搜索询问中与每个所述搜索结果相联系的各自主题的数量和类型来排序所述搜索结果。
31.如权利要求29所述的***,其中所述方法进一步包含:
根据每个所述搜索结果的各自总分过滤所述搜索结果,其中所述过滤进一步包含过滤所述搜索结果以便识别至少一个搜索结果。
32.如权利要求29所述的***,其中所述方法进一步包含:
根据所述至少一个网页每一个的各自总分来排序所述至少一个网页。
33.如权利要求29所述的***,其中所述方法进一步包含:
根据多个网页每一个的各自总分过滤所述多个网页,其中所述过滤进一步包含过滤所述多个网页以便识别所述至少一个网页。
CN201080051769.6A 2009-09-18 2010-09-17 给文本评分的方法和*** Expired - Fee Related CN102612691B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US24395309P 2009-09-18 2009-09-18
US61/243,953 2009-09-18
US12/884,395 US8924396B2 (en) 2009-09-18 2010-09-17 Method and system for scoring texts
PCT/US2010/049401 WO2011035210A2 (en) 2009-09-18 2010-09-17 Method and system for scoring texts
US12/884,395 2010-09-17

Publications (2)

Publication Number Publication Date
CN102612691A true CN102612691A (zh) 2012-07-25
CN102612691B CN102612691B (zh) 2015-02-04

Family

ID=43757514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080051769.6A Expired - Fee Related CN102612691B (zh) 2009-09-18 2010-09-17 给文本评分的方法和***

Country Status (4)

Country Link
US (2) US8924396B2 (zh)
EP (1) EP2478451A2 (zh)
CN (1) CN102612691B (zh)
WO (1) WO2011035210A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及***

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011035210A2 (en) 2009-09-18 2011-03-24 Lexxe Pty Ltd Method and system for scoring texts
US20190065502A1 (en) * 2014-08-13 2019-02-28 Google Inc. Providing information related to a table of a document in response to a search query
RU2632131C2 (ru) 2015-08-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для создания рекомендуемого списка содержимого
RU2632100C2 (ru) * 2015-09-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер создания рекомендованного набора элементов
RU2629638C2 (ru) 2015-09-28 2017-08-30 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер создания рекомендуемого набора элементов для пользователя
US11158344B1 (en) * 2015-09-30 2021-10-26 Amazon Technologies, Inc. Video ingestion and clip creation
US10230866B1 (en) 2015-09-30 2019-03-12 Amazon Technologies, Inc. Video ingestion and clip creation
RU2632144C1 (ru) 2016-05-12 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Компьютерный способ создания интерфейса рекомендации контента
RU2636702C1 (ru) 2016-07-07 2017-11-27 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для выбора сетевого ресурса в качестве источника содержимого для системы рекомендаций
RU2632132C1 (ru) 2016-07-07 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для создания рекомендаций содержимого в системе рекомендаций
US10397056B2 (en) * 2016-12-16 2019-08-27 Google Llc Optimized digital component analysis system
USD882600S1 (en) 2017-01-13 2020-04-28 Yandex Europe Ag Display screen with graphical user interface
CN109087141B (zh) * 2018-08-07 2021-12-21 北京真之聘创服管理咨询有限公司 一种提升身份属性的方法
RU2720952C2 (ru) 2018-09-14 2020-05-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для создания рекомендации цифрового содержимого
RU2714594C1 (ru) 2018-09-14 2020-02-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения параметра релевантность для элементов содержимого
RU2720899C2 (ru) 2018-09-14 2020-05-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для определения зависящих от пользователя пропорций содержимого для рекомендации
RU2725659C2 (ru) 2018-10-08 2020-07-03 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для оценивания данных о взаимодействиях пользователь-элемент
RU2731335C2 (ru) 2018-10-09 2020-09-01 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для формирования рекомендаций цифрового контента
RU2757406C1 (ru) 2019-09-09 2021-10-15 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для обеспечения уровня сервиса при рекламе элемента контента
US20230391969A1 (en) * 2021-08-06 2023-12-07 Nitto Denko Corporation Laminate

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231238A (ja) * 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
US20030115187A1 (en) * 2001-12-17 2003-06-19 Andreas Bode Text search ordered along one or more dimensions
US20030130993A1 (en) * 2001-08-08 2003-07-10 Quiver, Inc. Document categorization engine
KR20080017686A (ko) * 2006-08-22 2008-02-27 에스케이커뮤니케이션즈 주식회사 검색엔진의 주제 생성 및 문서 분류방법, 이를 수행할 수있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03188566A (ja) 1989-12-18 1991-08-16 Fujitsu Ltd 辞書連動テキストベース装置
IL126373A (en) 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
US7213205B1 (en) 1999-06-04 2007-05-01 Seiko Epson Corporation Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US6829605B2 (en) * 2001-05-24 2004-12-07 Microsoft Corporation Method and apparatus for deriving logical relations from linguistic relations with multiple relevance ranking strategies for information retrieval
US20070016563A1 (en) * 2005-05-16 2007-01-18 Nosa Omoigui Information nervous system
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
EP1473639A1 (en) 2002-02-04 2004-11-03 Celestar Lexico-Sciences, Inc. Document knowledge management apparatus and method
US7801838B2 (en) * 2002-07-03 2010-09-21 Ramp Holdings, Inc. Multimedia recognition system comprising a plurality of indexers configured to receive and analyze multimedia data based on training data and user augmentation relating to one or more of a plurality of generated documents
US6983280B2 (en) 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US20060010111A1 (en) 2003-09-19 2006-01-12 Blu Ventures, Llc Methods to adapt search results provided by an integrated network-based media/search engine based on user lifestyle
US7650512B2 (en) 2003-11-18 2010-01-19 Oracle International Corporation Method of and system for searching unstructured data stored in a database
US20070106657A1 (en) 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
US7487072B2 (en) 2004-08-04 2009-02-03 International Business Machines Corporation Method and system for querying multimedia data where adjusting the conversion of the current portion of the multimedia data signal based on the comparing at least one set of confidence values to the threshold
US7540051B2 (en) 2004-08-20 2009-06-02 Spatial Systems, Inc. Mapping web sites based on significance of contact and category
US7689910B2 (en) 2005-01-31 2010-03-30 International Business Machines Corporation Processing semantic subjects that occur as terms within document content
US9177248B2 (en) * 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
JP2008537225A (ja) * 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法
JP4654745B2 (ja) 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7895193B2 (en) * 2005-09-30 2011-02-22 Microsoft Corporation Arbitration of specialized content using search results
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
KR20070052028A (ko) 2005-11-16 2007-05-21 김태원 키워드 광고에서 접속자의 행위 분석에 의해 과금을수행하는 시스템, 장치, 방법 및 이를 구현할 수 있는프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
US20090055390A1 (en) 2006-02-01 2009-02-26 Matsushita Electric Industrial Co., Ltd. Information sorting device and information retrieval device
US7730060B2 (en) * 2006-06-09 2010-06-01 Microsoft Corporation Efficient evaluation of object finder queries
WO2007146298A2 (en) 2006-06-12 2007-12-21 Metacarta, Inc. Systems and methods for hierarchical organization and presentation of geographic search results
US20080114750A1 (en) 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US7698259B2 (en) 2006-11-22 2010-04-13 Sap Ag Semantic search in a database
US7505973B2 (en) 2007-01-16 2009-03-17 Microsoft Corporation Efficient paging of search query results
US20090043749A1 (en) 2007-08-06 2009-02-12 Garg Priyank S Extracting query intent from query logs
US8463593B2 (en) 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8301633B2 (en) 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US9396262B2 (en) 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US20090248511A1 (en) 2008-03-31 2009-10-01 Yahoo!, Inc. Advertisements on demand
WO2011035210A2 (en) 2009-09-18 2011-03-24 Lexxe Pty Ltd Method and system for scoring texts

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231238A (ja) * 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
KR20000050225A (ko) * 2000-05-29 2000-08-05 전상훈 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US20030130993A1 (en) * 2001-08-08 2003-07-10 Quiver, Inc. Document categorization engine
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
US20030115187A1 (en) * 2001-12-17 2003-06-19 Andreas Bode Text search ordered along one or more dimensions
KR20080017686A (ko) * 2006-08-22 2008-02-27 에스케이커뮤니케이션즈 주식회사 검색엔진의 주제 생성 및 문서 분류방법, 이를 수행할 수있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯汉清等: "《Web概念挖掘中标引源加权方案初探》", 《情报学报》, vol. 24, no. 1, 28 February 2005 (2005-02-28), pages 87 - 92 *
孙学刚等: "《基于主题的Web文档聚类研究》", 《中文信息学报》, vol. 17, no. 3, 30 June 2003 (2003-06-30), pages 21 - 26 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及***
CN103678365B (zh) * 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及***

Also Published As

Publication number Publication date
WO2011035210A2 (en) 2011-03-24
US20110072011A1 (en) 2011-03-24
CN102612691B (zh) 2015-02-04
WO2011035210A3 (en) 2011-07-07
US20150379015A1 (en) 2015-12-31
US8924396B2 (en) 2014-12-30
US9471644B2 (en) 2016-10-18
EP2478451A2 (en) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102612691B (zh) 给文本评分的方法和***
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
Abainia et al. A novel robust Arabic light stemmer
CN102722483B (zh) 用于确定输入法的候选项排序的方法、装置和设备
CN103020845B (zh) 一种移动应用的推送方法及***
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
CN108415980A (zh) 问答数据处理方法、电子装置及存储介质
CN103425635B (zh) 一种答案推荐方法和装置
US10997560B2 (en) Systems and methods to improve job posting structure and presentation
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
JP5379138B2 (ja) 領域辞書の作成
CN104933081A (zh) 一种搜索建议提供方法及装置
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
CN105389389B (zh) 一种网络舆情传播态势媒体联动分析方法
US20130006975A1 (en) System and method for matching entities and synonym group organizer used therein
CN106156135A (zh) 查询数据的方法及装置
US11520835B2 (en) Learning system, learning method, and program
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
CN103577547B (zh) 网页类型识别方法及装置
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
JP2009086903A (ja) 検索サービス装置
CN105893397A (zh) 一种视频推荐方法及装置
CN109684467A (zh) 一种文本的分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150204

Termination date: 20190917

CF01 Termination of patent right due to non-payment of annual fee