CN101246484A - 一种便于查询的电子文本的相似性处理方法和*** - Google Patents

一种便于查询的电子文本的相似性处理方法和*** Download PDF

Info

Publication number
CN101246484A
CN101246484A CNA2007101641489A CN200710164148A CN101246484A CN 101246484 A CN101246484 A CN 101246484A CN A2007101641489 A CNA2007101641489 A CN A2007101641489A CN 200710164148 A CN200710164148 A CN 200710164148A CN 101246484 A CN101246484 A CN 101246484A
Authority
CN
China
Prior art keywords
content
subclass
texts
text
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101641489A
Other languages
English (en)
Inventor
刘二中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA2007101641489A priority Critical patent/CN101246484A/zh
Publication of CN101246484A publication Critical patent/CN101246484A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种便于查询和搜索的电子文本的处理方法和包含关键词查询项邻近内容比较处理装置的检索或搜索***,对不同文本关键词查询项的划定范围内的邻近内容之间是否相似进行比较,以其是否属于相似进行判定或分类,进而进行划分子集、安排各种序列或形成目录、排序、界面展示等处理,能够显著提高信息检索或网上信息搜索的便捷性和严密性。

Description

一种便于查询的电子文本的相似性处理方法和***
(1)技术领域
本发明涉及计算机及搜索引擎关于电子文本处理与检索或搜索技术。
(2)背景技术
20年来,计算机数据库检索技术有了极大发展,特别是互联网等网络技术的进展,使得人们可以共享的数据库的规模达到了天文数字。为了方便用户找到所需信息或文件,出现了分类或目录检索***。这种技术在人们十分熟悉的成熟分类领域里比较适用,但在更广泛的海量信息领域里,难于建立也难于掌握和使用。
以关键词搜索为核心的检索技术和搜索引擎技术为用户带来了便利。该***可以通过客户机上的交互界面以及通讯网络或通讯线路得到查询者的关键词查询请求,在文本索引库或文本库中进行查询,并进行关键词请求与文本的相关性分析,得到相关结果并排序,再经由通讯网络或线路提供到交互界面。这种搜索***使用起来十分便利迅速,但返还结果包含的题录或索引总数仍然十分庞大,难于逐一查阅。
为了能将潜在的对查询者最有价值的查询结果尽量排在前面以方便查询者,第6,285,999号美国专利提出了基于网页超级链接结构分析(佩奇链接)来进行搜索结果排序的技术,超过了其他排序技术,被Google公司采用,获得空前成功。
然而,该技术以及其他各种排序技术,仅仅是在统计学意义上提高了关键词搜索的效率,并不能保证每个人希望的查询结果都能排在庞大索引表的前面。我们仍然不能保证可以无一遗漏地在靠前的位置上查阅到期望的内容,做到既严密又比较方便。同时,我们在读到期望的信息之前,却无奈地读到种种主要内容一再重复的无关信息。
为了解决这一问题,近十年来人们一直试图发展各种新的搜索引擎技术。其中一个重要的方面是试图测量和利用响应了同一关键词查询项的海量不同文件或网页之间的相似性,将其划分成不同类别,以便于检索和查阅。但是这类技术存在很大缺陷。
第一是计算量过大,特别是需要比较的每篇文本内容较多而文本数量庞大时,将需要较多的计算时间。已经提出的一些针对性的改进技术,如雅虎公司的第6990628号美国专利有关“测量电子文本相似性”的技术、IBM公司的中国专利CN1112647 C的“响应查询以对文档集合中的文档进行分级的***和方法”的技术、复旦大学的中国专利CN1220159C的“一种高维矢量数据快速相似检索方法”的技术、惠普公司的中国专利CN1269064 C的关于“文档和信息检索方法和设备”的技术、百度公司的中国专利CN1209726C的关于“一种互联网上镜象与准镜象网站的识别方法”的仅仅对首页进行相似比较的技术,对上述的第一个缺陷作出了十分有限的改进。
第二种缺陷是利用相似性处理的结果对查询者的帮助往往十分有限,因为彼此相似的文件尽管存在明显的共同性,但也存在一定的差异,而查询者感兴趣的信息很有可能就在差异之处,关键之处的差异往往会明显影响文本的类别。包括第6990628号美国专利在内的已有技术并不能识别两个文本之间的某一差异或共同之处是否紧要,因而这类技术给出的搜索结果既不够严密也不够方便。
因此,人们迫切需要一种既严密又高效的关键词搜索引擎***技术,能够大大加快查询者得到期望的集中结果的速度,并保证搜索的严密性。这也成为多年来未能解决的世界性难题。
(3)发明内容
本发明的一个目的是提供一种计算机或搜索引擎的电子文本处理与检索或搜索的方法或***,可以将大量含有同样关键词查询项的不同文本或信息,按照查询者更有理由看重的文本核心内容的相似性的程度进行分类或处理。本发明的另一个目的是提供一种计算机或搜索引擎的电子文本处理与检索或搜索的方法或***,可以将大量含有同样关键词的不同文本或信息进行精炼处理,以其核心内容相似的不同文本较少重叠,而核心内容不相似的文本较少遗漏的方式,将相关信息列出,方便查询。本发明的另一个目的是提供一种计算机或搜索引擎的电子文本处理与检索或搜索的更有效、更简捷、更经济的方法或***,为查询者服务,使其在进行关键词检索时,能迅速而缩小搜索范围,大大减少或剔除各类无关信息或重复信息,准确地得到所期望的结果。
本发明的一个方面是提供了一种计算机运用的对多个电子文本进行处理的方法,包括:
[i]获得多个含有同样关键词查询项的电子文本;
[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理;
所述的电子文本或文本指的可以是计算机或数据库或信息存贮装置或互联网或服务器或者搜索引擎的数据库或数据处理器等装置中的文件、文本或网页或摘要或题录或标题或索引或章节或段落或包含文字或字符内容的信息。
其中,所述关键词查询项一般是指可以由查询者提出的在检索结果文本中应该含有的内容。而关键词查询项邻近内容一般属于未经查询者提出却出现在关键词搜索结果的文本内容中的关键词查询项邻近的某种规定划取范围内的内容。它的具体内容,比文本里远离关键词查询项的内容,应该更能影响该文本中该关键词查询项的具体用意,更有助于对相关文本作出更恰当的分类和处理。
本发明所述的方法的[iii]中对所述关键词查询项邻近内容是否属于相似的判定标准,还可以依据或参考以下评估因素或原则中的一个或多个:
来自不同文本的所述关键词查询项邻近内容是否完全相同;
来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中相对于原关键词查询项的前后位置或距离的差别大小;
来自不同文本的所述关键词查询项邻近内容中各个彼此相同部分分别在原文中的顺序的差别大小;
来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中与原关键词查询项的距离的大小;
利用矢量空间模型的计算方法为来自不同文本的所述关键词查询项邻近内容的彼此相似程度给出的数值的大小;
或者对以上评估因素中的一个或多个或其他因素加权,给出一种或多种目标函数(objective function)以得出来自不同文本的所述关键词查询项邻近内容的相应的相似性程度或得出是否属于相似的判定。
本发明的所述处理方法,还可以包括:
令相应文本或文本的部分内容具有相同或不同的分布位置或存储方式,或者划分为相同或不同的子集,或者得到相同或不同的子集标记,或者使得其在数据库的索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个题录或摘要或文本或子集内文本相似的关键词查询项邻近内容或其中的相同部分进行跨子集组合或排序或在交互界面展示。
本发明所述的处理方法,可以包括划分相似子集:可以将多个文本或文本部分内容划分为多个相似子集,同一相似子集里的各个文本或文本部分内容的所述关键词查询项邻近内容属于相似。
同一相似子集的文本,更有可能对应着查询者对某个方向相近的兴趣,更有助于检索。
本发明的处理方法,也可以包括划分相同核心子集;可以将多个文本或文本部分内容划分为多个相同核心子集,要求同一相同核心子集里的各个文本或文本部分内容的所述关键词查询项邻近内容都相同。
需要时,本发明的处理方法也可以包括对相似子集进行细分。
必要时,本发明的处理方法可以包括相似子集再分:可以在划分相似子集或划分相同核心子集的基础上,对已有的一个相似子集或相同核心子集里的多个文本或文本部分内容中原有的关键词查询项邻近内容划取范围之外的一定邻近范围的新内容再进行相似性比较,根据其相似与否,将这些文本或文本部分内容划分为多个下一级相似子集。
本发明的处理方法也可以包括安排不相似序列:可以从多个文本中安排出不相似序列,同一不相似序列里的不同文本或文本部分内容的所述关键词查询项邻近内容可以全部或基本上都不属于相似;或者同一不相似序列里的全部或多数文本或文本部分内容中,没有一个文本或文本部分内容的关键词查询项邻近内容,与一个或规定数目以上的其他文本或文本部分内容的关键词查询项邻近内容属于相似或相同。
必要时,本发明的方法可以包括:安排核心内容不相同序列:可以从多个文本中安排出核心内容不相同序列,同一个核心内容不相同序列里的不同文本或文本部分内容的所述关键词查询项邻近内容可以全部或基本上都属于不完全相同;或者同一个核心内容不相同序列里的全部文本或多数文本或文本部分内容中,没有一个文本或文本部分内容的关键词查询项邻近内容,与一个或规定数目以上的其他文本或文本部分内容的关键词查询项邻近内容属于完全相同。
本发明的处理方法也可以包括:目录编组或安排不同子集相似内容的序列:可以将各个划分的相似子集的各自文本在所述关键词查询项邻近内容中共有的相似或相同的内容或者部分内容作为条目,集合成目录或序列,或者连同各个相似子集的下一级子集的各自文本在所述关键词查询项邻近内容中共有的相似或相同的内容或部分内容作为条目,集合成树状目录。
需要时,本发明的处理方法可以包括:安排代表性序列:可以从各个相似子集或相同核心子集中各取出一个或多个文本,将这些文本或文本部分内容组成序列。
本处理方法也可以包括序列再压缩:可以对已有的安排的不相似序列中的。或者代表性序列中的,或者目录编组或者不同子集相似内容的序列的多个文本或文本部分内容的所述关键词查询项邻近内容,用较为宽松的是否属于相似的判定标准,进行较为宽松的相似性比较,在已有序列中产生多个文本或文本部分内容的新的相似子集或不相似序列或更精炼的代表性序列或目录编组。
必要时,本发明的处理方法也可以包括相同核心划分再聚合:首先安排核心内容不相同序列,然后再对得到的序列中的多个文本或文本部分内容的所述关键词查询项邻近内容,用是否属于相似的判定标准进行相似性比较,在已有序列中产生多个文本或文本部分内容的新的相似子集或不相似序列或更精炼的代表性序列或目录编组。
需要时,本发明的处理方法也可以包括:界面展示与操作。
本发明的处理方法还可以包括:标注数目。
需要时,本发明的处理方法可以包括:确定排序:对于上述目录或序列或子集所含有的多个元素中的某一个元素的排列或显示顺序或位置可以是随机的,也可以部分或完全取决于下列其中某一个或多个因索;
相关子集或相关文本或者词段或内容或信息或所在文本的佩奇链接值、点击率、关键词出现率、下级子集数目或下属文本数目、子集点击率、文本佩奇链接值的平均数值或最高值、在已有网站或***中搜索结果的排序、竞价、拼写方式、笔划、来源评分、收录时间及其他等等因素;
或者由相应的目标函数值来决定。
本发明的另一个方面是一种数据检索***,包括:
数据处理单元23和与之相连的输入单元21、输出单元22以及文本数据库26,其数据处理单元可以通过输入单元21接收关键词查询,从文本数据库或者必要时从互联网27收集和处理有关数据,将检索结果送输出单元;
其特点在于:该数据处理单元23包含存储器24和关键词邻近内容处理装置25;
所述关键词邻近内容处理装置,可以
[i]获得多个含有同样关键词查询项的电子文本;
[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理;
处理方式可以包括以下一种或多种:
划分相似子集、划分相同核心子集、相似子集细分、相似子集再分、安排不相似序列、安排核心内容不相同序列、目录编组或安排不同的相似内容的序列、安排代表性序列、序列再压缩、相同核心划分再聚合、内容展开、标注数目、确定排序、界面展示与操作。
所述数据检索***可以由计算机或服务器或搜索引擎***构成。
本发明的又一个方面是一种响应用户经由交互界面提出的要求,提供所期望搜索结果的搜索引擎***,包括:
服务器,该服务器经由通讯网络或线路与所述交互界面所在的客户机耦合;
位于服务器的搜索引擎,所述搜索引擎包括:包括关键词索引在内的数据库,以及查询器,该查询器能够根据查询者提出的关键词要求在所述数据库进行查询并将查询到的相关数据结果列表提供给交互界面;
其特点在于:
所述查询器或搜索引擎还包括关键词邻近内容比较处理装置,可以
[i]获得多个含有同样关键词查询项的电子文本;
[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理;
处理方式可以包括以下一种或多种:
划分相似子集、划分相同核心子集、相似子集细分、相似子集再分、安排不相似序列、安排核心内容不相同序列、目录编组或安排不同的相似内容的序列、安排代表性序列、序列再压缩、相同核心划分再聚合、内容展开、标注数目、确定排序、界面展示与操作。
以上所述的搜索引擎***可以是位于互联网的为网上客户服务的搜索***,也可以是独立的计算机信息库搜索***。所述的服务器5为计算机存储和处理装置,可以是单个的,也可以是多个成组或分散配置的。所述的客户机3可以是个人电脑或工作站或其他计算机装置,需要时,可以配置适当的浏览器。
本发明的另一个方面可以是存储着可以由一个或多个处理装置执行的指令的计算机可读介质(computer-readeble medium),所述指令用以实现一种对多个含有同样关键词查询项的电子文本的分类和处理方法,可以包括:
获得多个含有同样关键词查询项的电子文本的指令;
确定各个文本内容中所述关键词查询项邻近内容的同样划取范围的指令,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准的指令,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
有关按照对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理的指令。
本发明的以对不同文本关键词查询项邻近内容进行相似比较和处理为核心的搜索技术,把文本分类的注意力集中到关键词查询项邻近的核心内容上,更为科学、准确,在分类、目录提示、不断缩小同一关键词搜索结果范围方面,具有一定的严密性和明显超越现有技术的便捷与高效,将大大满足广大冲浪者或信息搜索用户长期以来的迫切需求,甚至可以帮助人们对文献资料进行更详实的内容分析和检索。
(4)附图说明
图1所示为根据本发明的搜索引擎***的一个实施例的结构框图。
图2所示为本发明的一种数据检索***的示意图。
图3所示为本发明的确定文本内容中所述关键词邻近内容的划取范围方式的示意图。
图4所示为本发明的一个实施例的处理操作流程框图。
图5所示为本发明的一个实施例展示的“相同核心划分再聚合”处理方式的流程示意图。
图6所示为本发明的一个数据检索***实施例的处理操作流程框图。
图7为含有同样关键词查询项的多个文本的两级相似子集的树状目录示意图。
(5)具体实施方式
下面,示例性地对本发明提供的一种计算机运用的对多个电子文本进行处理的方法进行具体说明。
若使用本发明的方法,首先需要
[i]获得多个含有同样关键词查询项的电子文本。
所述的电子文本或文本指的可以是计算机或数据库或信息存贮装置或互联网或服务器或者搜索引擎的数据库或数据处理器等装置中的文件、文本或网页或摘要或题录或标题或索引或章节或段落或包含文字或字符内容的信息。
再进一步[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容。具体来说可以由计算机或人工默认、预定、选定、规定或变换和调整各个文本内容中关键词查询项邻近内容(简称“关键词邻近内容”)的划取范围。该划取范围一般明显少于多数原有所述文本一页内容篇幅的几分之一。如果划取范围过大,远离关键词的部分几乎无助于与关键词查询项紧密相关内容的分类,还会极大地增加计算工作量。关键词查询项邻近内容的划取范围例如可以通过规定文本中该关键词查询项(简称关键词)之前的或者该关键词查询项之后的或者该关键词查询项前后的邻近的词或字或符号或实词或词根或词组的统一的数量或长度来确定,一般说来,建议在一次分类操作过程中采用100个字母或30个汉字或20个词以下的某一统一具体长度,最好为1至10个词或1至60个字母的某一具体长度(例如5个词),这样有利于提高数据处理速度,并控制相似子集的数量。
本发明的所述关键词查询项邻近内容的划取范围可以包括关键词查询项后面的内容,在需要时还可以包括关键词查询项前面的内容。本发明认为,在不同的语言环境中,关键词(即关键词查询项)前面的字词对文本核心内容分类的影响可能也十分重要。
例如可以规定同样划取范围为“关键词前后各1词”或“关键词前4词”或“关键词后10字”或“关键词前2词+后3词”或“关键词后4词组”或“关键词前20字母+后30字母内的完整词”等。
本说明书的附图(图3)给出了规定关键词邻近内容的划取范围的5种方式的例子,关键词查询项都是“布林”。其中:31的划取范围是:“关键词前3字”,32的划取范围是:“关键词后4字”,33的划取范围是:“关键词前2+后5字”,34的划取范围是:“关键词前4+后6字”,35的划取范围是:忽略虚词和助词的“关键词前1+后1词”。
所述的关键词查询项邻近内容的划取范围也可以通过判断和选取文本中该关键词查询项所在的词组或句子方式,或其他方式如光标点击处同所述关键词查询项的距离来确定,或者根据关键词附近的标点或符号或空格或字体或其变化来确定。在特殊情况下,非常短小的文本的内容的大小也可能少于针对一般文本的预定的关键词邻近内容的划取范围,此时可以将整个短小文本与别的文本的关键词邻近内容进行比较。在同一处理过程中,对不同文本所划取的不同文本中所述关键词邻近内容范围的方式应该相同。
下一步还需要[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准。该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组。
例如属于相似的判定标准可以要求来自不同文本的所述关键词查询项邻近内容中彼此相同的词所占该邻近内容总词数的比例不低于80%,或定为100%。
所述该标准“间接包含…”是指:需要时,该标准可能并没有直接规定对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,但该标准的实际效果等同于也包含了这种要求;或者说,如果来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例达不到某种程度,该标准的其他类型的要求或指标(例如利用矢量空间模型方法计算来自不同文本的所述关键词查询项邻近内容的彼此相关度的数值)也不可能满足或达到。
必要时,该标准所指的彼此相同部分可以忽略彼此某些词的前缀或后缀或者彼此某些虚词或量词或数词或非实词或者标点或空格的有无或差别。
本技术的下一步需要[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理。
例如,已确定不同文本的所述关键词查询项邻近内容的同样划取范围是关键词查询项后面5个词,可以由程序规定或默认或由查询者指定:如果来自不同文本的所述关键词查询项后面连续的5个邻近词中,不同文本彼此相同的词至少为4个或所占比例不低于80%,这些文本的所述关键词查询项邻近内容相互之间则属于相似,这些文本则属于同一彼此关键词查询项邻近内容相似的类别;否则相关文本则不属于这一个彼此关键词查询项邻近内容相似的类别。举例来说,如果关键词查询项是“开发区”,那么包含“…开发区正在发展科学技术产业…”的文本与包含“…开发区科学发展以及技术产业…”的文本以及包含“…开发区产业发展与科学技术正在…”的文本属于同一个相似类别;而包含“…开发区正在发展高新技术产业…”的文本与包含“…开发区高新技术促进产业发展…”的文本属于另一个相似类别。
一般说来,按以上原则,可以将含有同样关键词查询项的大量不同文本,分成许多不同的类别,某个类别之中的不同文本的关键词查询项邻近内容各有其特定的符合规定的相同部分。这对我们进一步的处理或检索十分有利。
在需要的情况下,规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准时,也可以参考还可以同时依据或参考其他评估因素或原则中的一个或多个。
例如,要求考察来自不同文本的所述关键词查询项邻近内容是否完全相同。若是,相似性程度最高,属于相似或相同。此时,实际上是在比较关键词查询项的邻近词或整个邻接词段的异同。这样使对文本的分类更为严格。前面提到的包含的关键词查询项是“开发区”的属于同一相似类别的几个文本,它们的关键词查询项邻近内容就不能算是完全相同。
或者,还要求考察来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中相对于原关键词查询项的前后位置或距离的差别大小,该差别越小,相关邻近内容彼此越相似。
例如,可以规定:同样的词在不同文本中分布位置的位置差平均不能超过3个字的宽度。这样,我们可以判定包含“…开发区高新技术产业的发展过程…”的文本与包含“…开发区促进高新技术产业发展…”的文本属于一个类别,而认为包含“…开发区产业发展过程中高新技术…”的文本不属于这一类别,因为同样的词在不同文本中分布位置差别过大,位置差平均超过了3个字的宽度。
我们或者还可以考虑来自不同文本的所述关键词查询项邻近内容中各个彼此相同部分分别在原文中的顺序的差别大小。该差别越小,相关邻近内容彼此越相似。
例如,可以规定;相同词之间排列顺序相同的至少要超过二分之一。这样可以判定包含“…开发区正在发展科学技术产业…”的文本与包含“…开发区科学技术产业的发展状况…”的文本属于同一个相似类别,因为它们之间多数相同词的排列顺序相同;而包含“…开发区技术产业发展与科学管理…”的文本因与前者词序差别较大,超过二分之一的相同词的排列顺序不相同,因而不属于该类别。
也可以同时考虑来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中与原关键词查询项的距离(可以用相隔的字数来衡量)的大小。该距离越小,相似程度越高。例如在相似比较时,可以规定彼此相同部分分别在原文中与原关键词查询项的距离(可以用相隔的字数来衡量),平均起来不超过关键词查询项邻近内容划定长度(字数)的一半或其他比值,才属于相似。
这是本发明内容的又一个可以使用的突出特点,按照这个方法,可以判定:那些在原文本中距离相应关键词查询项很远的相同元素或相同部分对不同文本核心内容的相似性的贡献很小,甚至可以忽略。这与本发明限制关键词邻近内容的划取范围的特征是一致的。
需要时,也可以利用十分流行的矢量(或向量)空间模型的计算方法为来自不同文本的所述关键词查询项邻近内容的彼此相关度(相似程度)给出的数值的大小来影响判定标准。应用此方法需要将每个相关关键词查询项邻近内容看作为由各种词或字对应的分矢量(向量)合成的合矢量,再计算不同文本的关键词查询项邻近内容相应合矢量之间的相关度,达到规定的数值,相关内容属于相似。显然,不同的关键词查询项邻近内容必须含有一定数量相同的词,相应的合矢量才可能具有一定的相关度。因此,对不同的关键词查询项邻近内容相应合矢量之间的相关度的要求,实际上就包含了对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求。矢量(或向量)空间模型的相似性计算方法的具体内容在第6990628号美国专利和中国专利申请200610072588.7和其他许多文献中得到描述,为已有公知技术。
也可以对以上评估因素中的一个或多个或其他因素加权,给出一种或多种目标函数(obiective function):
例如一种目标函数值可以表示为F(x1,x2…xn),
在较为简单的例子中,可以令
F(x1,x2…xn)=F1(x1)+F2(x2)+……+Fn(xn);
其中,x1,x2,……xn分别为规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准时可以同时依据或参考的各种因素。
可以规定该函数值的应有的相应范围,以得出来自不同文本的所述关键词查询项邻近内容是否属于相似的判定。
对于一个含有多个同样关键词查询项的文本,可以随机选定或选定其中相似性程度更高的关键词查询项邻近内容进行处理;也可以将其分割成若干部分分别进行处理。
对不同文本的所述关键词查询项邻近内容是否属于相似进行判定时,显然,对于同一批文本来说,所述相似判定的要求越高,彼此都相似的文本数目可能会越少,反之,相似的文本数目可能会越多。
如果所述的关键词查询项是由可以不相连接的2个或2个以上部分构成,可以仅仅对文本中的一个部分的邻近内容进行相似性比较或评估或判定,也可以对文本中的多个部分的邻近内容分别进行相似性比较或评估,再将分别比较或评估的结果综合起来进行评估或判定。
按照对多个文本的所述关键词邻近内容是否属于相似的判定对这些文本进行分类后,还可以进行更多的处理。
可以令相应文本或文本的部分内容在计算机或计算机可读介质或存储器或数据库中具有相同或不同的分布位置或存储方式,或者划分为相同或不同的子集,或者得到相同或不同的子集标记,或者使得其在数据库的索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个题录或摘要或文本或子集内文本相似的关键词查询项邻近内容或其中的相同部分进行跨子集组合或排序或在交互界面展示。
例如可以划分相似子集:具体来说,可以将多个文本或文本部分内容划分为多个相似子集,同一相似子集里的各个文本或文本部分内容的所述关键词查询项邻近内容属于相似。可以将同一相似子集里的文本或文本部分内容的所述关键词查询项邻近内容的相似部分或相同成分,作为该子集的标记或名称,或者作为它们在数据库或界面的索引的标记或索引项。例如前面提到的包含“…开发区正在发展科学技术产业…”的文本与包含“…开发区科学发展以及技术产业…”的文本以及包含“…开发区产业发展与科学技术正在…”的文本属于同一个相似子集,该子集的标记可以是“科学,技术,产业,发展”。
这里所述的文本部分内容可以是含有所述关键词邻近内容的不完整的文本或文本摘要或题录或语句等信息。
同一相似子集的文本,更有可能对应着查询者对某个方向相近的兴趣,更有助于检索。
也可以划分相同核心子集:也就是,可以将多个文本或文本部分内容划分为多个相同核心子集,要求同一相同核心子集里的各个文本或文本部分内容的所述关键词查询项邻近内容(显然除了所划分的邻近范围之外部分)都相同。
例如,所述关键词查询项邻近内容的同样划取范围规定为“开发区”后面2个词,那么包含“…开发区产业发展与科学技术正在…”的文本与包含“…开发区产业发展的过程与…”的文本以及包含“…开发区产业发展的规划…”的文本以及包含“…开发区产业发展速度令人满意…”的文本属于同一个相同核心子集,该子集的标记可以是“产业发展”或“开发区产业发展”。
对得到的相似子集和相同核心子集还进一步进行相似子集细分:即在划分相似子集或划分相同核心子集的基础上,用关于关键词查询项邻近内容是否属于相似的更严格判定标准或更多的判定因素,(例如判定因素中新增加对于相同的词的排列顺序的要求,或者新增加对于相同的词与关键词查询项平均距离的要求或其他要求,或者由原来忽略虚词的差别改为不忽略其差别)将已有的任一个相似子集或相同核心子集中的多个文本或文本部分内容划分为多个下一级相似程度更高的子集。
必要时,也可以进行相似子集再分:也就是可以在划分相似子集或划分相同核心子集的基础上,对已有的一个相似子集或相同核心子集里的多个文本或文本部分内容中原有的关键词查询项邻近内容划取范围之外的一定邻近范围的新内容再进行相似性比较,根据其相似与否,将这些文本或文本部分内容划分为多个下一级相似子集。例如,原来划分相似子集时,仅对不同文本关键词查询项邻近的4个词的内容进行比较,得到了某个具有300个文本的相似子集;这些文本各自的关键词查询项邻近的第5至第7个词的内容未必都属于相似或相同,因而,如果按照它们各自的关键词查询项邻近的第5至第7个词的内容是否相似或相同再进行比较,又可以划分出若干不同的下一级子集。
需要时可以多次将相同核心子集的再分或相似子集的细分进行下去。
显然,在其他因素考察结果相同的情况下,相关的多个文本所述的关键词查询项邻近内容的划取范围越大,同一相似子集的文本之间相似程度越高。
处理相关文本时也可以安排不相似序列:可以从多个文本中安排出不相似序列,同一不相似序列里的文本或文本部分内容的所述关键词查询项邻近内容可以全部或基本上都不属于相似;或者同一不相似序列里的全部或多数文本或文本部分内容中,没有一个文本或文本部分内容的关键词查询项邻近内容,与一个或规定数目以上的其他文本或文本部分内容的关键词查询项邻近内容属于相似或相同。
必要时,也可以包括:安排核心内容不相同序列:可以从多个文本中安排出核心内容不相同序列,同一个核心内容不相同序列里的文本或文本部分内容的所述关键词查询项邻近内容可以全部或基本上都属于不完全相同;或者同一个核心内容不相同序列里的全部文本或多数文本或文本部分内容中,没有一个文本或文本部分内容的关键词查询项邻近内容,与一个或规定数目以上的其他文本或文本部分内容的关键词查询项邻近内容属于完全相同。
本发明的处理方法也可以包括:目录编组或安排不同子集相似内容的序列:可以将各个划分的相似子集的各自文本在所述关键词查询项邻近内容中共有的相似或相同的内容或者部分内容作为条目,集合成目录或序列,或者连同各个相似子集的下一级子集的各自文本在所述关键词查询项邻近内容中共有的相似或相同的内容或部分内容作为下一级条目,集合成树状目录。
例如,在图7中,我们用K表示关键词查询项,用大写字母代表文本中邻近内容的词,我们给出了含有K的多个文本的两级相似子集(相似子集细分)标志或条目的树状目录实例的示意图。
其中,文本中关键词查询项1级邻近范围的长度为3个词(关键词查询项后面第1-3词),2级邻近范围的长度为1级邻近范围之后3个词(关键词查询项后面第4-6词)。括号里面为相应的相似子集的各自文本在所述关键词查询项邻近内容中分别共有的3个词,作为目录中的子集标志或条目,图7中左侧的代表1级子集标志,右侧的的代表2级子集标志,小号数目字表示相应子集包含的文本数量。
显然,类似的目录可以帮助查询者更迅速地找到感兴趣的子集和文本。
需要时,本发明的处理方法可以包括:安排代表性序列:可以从各个相似子集或相同核心子集中各取出一个或多个文本,将这些文本或文本部分内容组成序列。
以上几种处理得到的序列展现在交互界面时,都可以帮助查询者在较小的篇幅里,看到不重复的或较少重复的各种不同关键词核心内容的概貌,并在有兴趣时,再将相关内容展开。
本发明的处理方法也允许序列再压缩:即可以对已有的安排的不相似序列中的,或者代表性序列中的,或者目录编组或者不同子集相似内容的序列的多个文本或文本部分内容的所述关键词查询项邻近内容,用较为宽松的是否属于相似的判定标准,进行较为宽松的相似性比较,在已有序列中产生多个文本或文本部分内容的新的相似子集或不相似序列或更精炼的代表性序列或目录编组。
例如,我们在产生已有的某种不相似序列时所依据的对不同文本的关键词查询项邻近内容属于相似的判定标准,要求关键词查询项邻近的8个词中有至少7个与另一文本对应的邻近内容相同,该序列含有互不相似的文本摘要560条,数目过多,难以通览;如果我们按照“关键词查询项邻近的8个词内容中有至少6个与另一文本摘要对应的关键词查询项邻近内容的词相同,即属于相似”的较为宽松标准,对这560条文本摘要再进行一次“安排不相似序列”的处理,将得到一个数目大为减少的很可能只有2百余条摘要的新序列。
尽管本发明的方法的效率比已有的网页相似性分析分类技术大为提高,但如果面临的同关键词查询项网页是数以百万计的,相似比较的过程涉及的计算量仍然太大。为此,本发明又提出了突破性的处理方法,可供选用:
这就是相同核心划分再聚合:首先安排核心内容不相同序列,然后再对得到的序列中的多个文本或文本部分内容的所述关键词查询项邻近内容,用是否属于相似的判定标准(比核心内容是否相同的判定标准宽松)进行相似性比较,在已有序列中产生多个文本的或文本部分内容的新的相似子集或不相似序列或更精炼的代表性序列或目录编组。
举例来说,首先得到多个文本摘要的核心内容不相同序列,其中部分摘要分别为:
…KXYZ…、…KPQR…、…KMNL…、…KMLN…、…KXZY…、…KYXZ…、…KZYX…、…KLMN…、…KRPQ…、…KLNM…、…KRQP…,
其中K代表各个文本共同具有的关键词查询项,其他字母各代表一个词。
如果对这个序列的各个摘要进行关键词查询项邻近内容再进行相似比较(标准是“各个词分别彼此相同,顺序可以不同”,就可以得到新的包含
…KXYZ…、…KXZY…、…KYXZ…、…KZYX…的相似子集,
包含KLMN…、…KLNM…、…KMNL…、…KMLN…的相似子集,
以及包含…KPQR…、…KRPQ…、…KRQP…的相似子集;
也可以得到一个新的不相似序列,上述原来序列成员仅仅剩下分别包含着…KXYZ…、…KLMN…、…KPQR…的几个文本摘要;
或者得到包含着“(X,Y,Z)”、“(L,M,N)”、“(P,Q,R)”等子集标记(或名称)的目录。
这种方法得到的序列或目录编组结果,与一开始就采用同样较为宽松的相似判定标准进行安排不相似序列处理的结果基本上是相同的,然而计算量可能会减少几个数量级。
需要的话,可以进行界面展示与操作:可以令包括处理方式在内的处理过程和结果的指定的有关信息在交互界面显示,允许查询者在交互界面进行有关处理的选择或指示,可以利用光标点击或键盘选择或指示,可以根据需要,使相应的目录或序列或子集中的子集或条目或项目或文本或文本部分内容或摘要或题录或词语对应的的更详细内容,或者下一级的子集或序列的目录或更详细内容在交互界面展示。
例如,在呈现在交互界面的各个相似子集名称目录或不相似序列中查询者找到了感兴趣的内容,可以点击相应的名称或条目,使相应相似子集或相应条目所在子集的更详细的目录或内容或文本呈现或链接出来。
为了方便查询者选择,本方法还可以允许标注数目:可以允许所述的序列或目录或条目或文本或题录或摘要实例中或者在它们所包含的关键词查询项邻近内容附近,具有其相应的并列子集数目或下级子集数目或文本数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。
需要的话还应该具有确定排序的方法,实际上,对于上述目录或序列或子集所含有的多个元素中的某一个元素的排列或显示顺序或位置可以是随机的,也可以部分或完全取决于下列其中某一个或多个因素:
其所含或所在文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低,
或者该子集的下级子集数目或下属文本数目的多少或者该子集点击率的高低或者该子集的文本佩奇链接值的平均数值的大小,
或者该元素所在子集的下级子集数目或下属文本数目的多少或者所在子集点击率的高低或者所在子集的文本佩奇链接值的平均数值的大小,
或者该子集的佩奇链接值最高的文本或另外的文本实例的佩奇链接值的大小,
或者该子集的点击率最高的或关键词出现率最高的文本或另外的文本实例的点击率或关键词出现率的高低,
或者该元素或相关子集内的相关文本在其他搜索网站或检索***搜索结果中的排序,
或者有关元素的出资人相关付费或竞价的高低,
或者相关元素的词或字的拼写或拼音的字母顺序或笔划顺序,
或者文本的来源网站或链接网站或链接网页或单位或人的评分,
或者相关文本收录的时间先后或新旧,
或者是否属于某一级的同一子集,
或者通过一种目标函数值来决定,目标函数值取决于一个或多个变量的加权值,该目标函数的部分或全部变量分别代表上述所列其中某一个或多个因素。例如一个目标函数值可以表示为
F(y1,y2…yn),
例如可以令  F(y1,y2…yn)=F1(y1)+F2(y2)+……+Fn(yn);
其中,y1,y2,……yn分别为前文发明内容部分中所提到的决定具体排序位置的某一个或多个因素(变量)或其他因素。由于已有技术中(如US6285999专利)有许多具体排序处理方法可以参考,此处不再详述。
需要指出,必要时以上方式中的一种或多种可以组合运用或反复运用。
本处理方法还部分地具体体现在下面搜索***或检索***的实施方式中。
图1所示实施例A为一个执行本发明的电子文本处理方法的计算机数据***的例子一互联网搜索引擎***。它包括:设在带有存储器6和处理器7的服务器5上的搜索引擎8,该搜索引擎8通过互联网的通讯网络4与带有交互界面2的客户机3连接;该搜索引擎8具有数据库9、查询器11和关键词邻近内容比较处理装置10或模块,并且与数据采集器12与索引构造器13连接;数据采集器12为数据库9的文本库从互联网或其他信息源搜集和增添文本,索引构造器13对文本库的文本分析得到文本索引并提供给数据库9的关键词索引库;
实施例A的客户机3上的客户机应用程序浏览器(微软公司的IntemetExplorer)允许用户1通过通讯网络4从服务器5检索HTML文档(包括Web表单)。客户机3上的交互界面(UI)2允许用户1利用监视器、键盘或鼠标与检索到的Web表单交互,提交搜索请求,作出选择和接收搜索结果。
实施例A的搜索方式可以参看图4所示的流程框图:
工作开始41,查询器接收用户1的关键词查询项请求42,关键词邻近内容比较处理装置10对从数据库9得到的含有该关键词查询项的文本,按照预定的用户默认的所述关键词查询项邻近内容的同样划取范围(例如关键词前2+后3词),按照选定的或预定的标准对它们的所述关键词查询项邻近内容是否属于相似进行判定。例如,此处的预定的判定标准是:该范围的5个词中有4个或5个与对比文本相同,视为相似,以此进行比较分类43。如果查询者需要的话,也可以在该判定标准中增加对相同词的顺序的差别的限度的要求,或增加对相同词的与关键词查询项的距离的限度的要求,或其他在前述的处理方法中提到的要求或参考因素。
在分类产生子集(划分相似子集或划分相同核心子集)的基础上,关键词邻近内容比较处理装置10将给出并显示各个相似子集或相同核心子集的目录或代表性序列44。需要时,该关键词邻近内容比较处理装置10也可以安排和显示不相似序列、安排核心内容不相同序列。此处,各个子集在目录里的标志例如可以是是该子集各文本关键词邻近内容中都拥有的同样4个词。
阅读子集标志目录或代表性序列,用户很容易确定兴趣所在,可以点击展开相关内容和使相关文本显示45,或者因为目录太长进行再聚合(序列再压缩或相同核心划分再聚合)显示操作,或因为有兴趣的子集的文本数量太大而进行细分(相似子集细分)显示操作或再分(相似子集再分)显示操作或下级子集显示操作46,即把细分或再分出来的下级子集的名称目录或各下级子集的代表性序列显示出来。如此进行类似操作,或返回前面步骤48或返回47到开始41。在上述处理过程中,也可以标注相关条目或文本数目、确定序列排序。
另一个搜索引擎实施例B,采用了独特的高效相似性比较处理方法一前面所述的“相同核心划分再聚合”处理方法。参看图5:
搜索引擎实施例B的关键词邻近内容比较处理装置10得到同一个关键词查询项的大量文本51后,例如确定关键词查询项邻近内容的划取范围为关键词“前2+后5词”,(52),在进行文本之间的相似性评估与判定53时,采用了“该内容必须完全相同”的要求,划分出数目较多的相同核心子集54,因而,得到的“不同核心内容的代表序列”55或子集目录的篇幅较长。
实际上,这是关键词查询项邻近内容(7个词长)既不遗漏也不重复的代表序列,包括关键词在内的8个词长的核心内容一般可以让查阅者判断有无兴趣。该代表序列的条目数,可以比原来常常数以百万的条目数下降几个数量级,使得通读关键词搜索结果变为可能。
如果面对数百个结果仍然感到困难,需要选择“宽松的相似判定标准”56,让这些序列成员或目录的条目再进行相似组合,进行相同核心划分再聚合57,得到子集数量减少数倍或数十倍的相似子集,以及相应的较少的“精炼序列或目录编组”并存储显示58,供查询者选用。需要时,查询者可以通过点击光标,展开相关子集的内容或文本的内容。
图2所示为另一个实施例C,是一种数据检索***,由数据处理单元23和与之相连的输入单元21(由键盘、鼠标等组成)、输出单元22(由显示屏、打印机等组成)以及文本数据库26等部分组成,其中输入单元21和输出单元22共同构成查询者与该***沟通的交互界面,该数据处理单元23包含存储器24和关键词邻近内容处理装置25。该数据处理单元23可以通过输入单元21接收查询者提出的关键词查询,从文本数据库26或互联网27收集有关数据,通过其包含的关键词邻近内容处理装置25对得到的含有同样关键词查询项的大量文本进行前述的分类和处理将检索结果送输出单元22。
图6所示为该数据检索***实施例C的处理操作流程框图。具体工作过程如下:
检索***工作开始61,用户输入关键词查询项请求62,关键词邻近内容比较处理装置25从存储器24或文本数据库26得到的含有该关键词查询项的文本,按照预定的用户默认的所述关键词查询项邻近内容的同样划取范围63(例如关键词查询项后5词),按照选定的或预定的标准对它们的所述关键词邻近内容是否属于相似进行判定(核心内容比较)。此实施例的预定的判定标准是:该范围的5个词中有4个或5个与对比文本相同,视为相似,以此进行核心内容比较64。如果查询者需要的话,也可以在该判定标准中增加对相同词的顺序的差别的限度(如一半以上词的顺序相同)的要求,或其他在前述的处理方法中提到的要求或参考因素。
在比较分类的基础上,关键词邻近内容比较处理装置25将产生各个相似子集或相同核心子集65,或者进一步安排不相似序列或安排核心内容不相同序列或给出并显示它们的目录或代表性序列66。需要时,如有兴趣的子集的文本数量太大,该关键词邻近内容比较处理装置25也可以进行相似子集细分或相似子集再分67操作,并安排和显示相应的不相似序列或核心内容不相同序列66。此实施例中,各个子集在目录里的标志例如可以是相应子集各文本关键词邻近内容中都拥有的同样4或5个词。本实施例也可以按预定或选定标准为上述内容标注相应的数目或确定排序69。
阅读子集标志目录或代表性序列,用户很容易确定兴趣所在,可以进行界面展示与操作68,展开相关内容和使相关文本显示71,或者因为目录太长进行再聚合(序列再压缩或相同核心划分再聚合70)操作,并将得到的子集的名称目录或各子集的代表性序列显示出来。
如此进行类似操作,或返回并多次进行前面步骤至文本显示71或进行返回72操作到开始71,以完成或再次进行检索查询工作。在上述处理过程中,都随时可以标注相关条目或文本数目、确定序列排序69。
以上实施例给出的技术特征都是提示性的,不允许用来限制本发明包括的范围。

Claims (18)

1、一种计算机运用的对多个电子文本进行处理的方法,包括:
[i]获得多个含有同样关键词查询项的电子文本;
[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理;
所述的电子文本或文本指的可以是计算机或数据库或信息存贮装置或互联网或服务器或者搜索引擎的数据库或数据处理器等装置中的文件、文本或网页或摘要或题录或标题或索引或章节或段落或包含文字或字符内容的信息。
2、按照权利要求1所述的方法,其中[iii]对所述关键词查询项邻近内容是否属于相似的判定标准,还可以依据或参考以下评估因素或原则中的一个或多个:
来自不同文本的所述关键词查询项邻近内容是否完全相同;
来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中相对于原关键词查询项的前后位置或距离的差别大小;
来自不同文本的所述关键词查询项邻近内容中各个彼此相同部分分别在原文中的顺序的差别大小;
来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中与原关键词查询项的距离的大小;
利用矢量空间模型的计算方法为来自不同文本的所述关键词查询项邻近内容的彼此相似程度给出的数值的大小;
或者对以上评估因素中的一个或多个或其他因素加权,给出一种或多种目标函数(obiective function)以得出来自不同文本的所述关键词查询项邻近内容的相应的相似性程度或得出是否属于相似的判定。
3、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:
令相应文本或文本的部分内容具有相同或不同的分布位置或存储方式,或者划分为相同或不同的子集,或者得到相同或不同的子集标记,或者使得其在数据库的索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个题录或摘要或文本或子集内文本的相似的关键词查询项邻近内容或其中的相同部分进行跨子集组合或排序或在交互界面展示。
4、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:划分相似子集:可以将多个文本或文本部分内容划分为多个相似子集,同一相似子集里的各个文本或文本部分内容的所述关键词查询项邻近内容属于相似。
5、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:划分相同核心子集:可以将多个文本或文本部分内容划分为多个相同核心子集,要求同一相同核心子集里的各个文本或文本部分内容的所述关键词查询项邻近内容都相同。
6、按照权利要求1或4或5所述的方法,其中:
上述[iv]所述的处理,可以包括:相似子集细分:可以在划分相似子集或划分相同核心子集的基础上,用关于关键词查询项邻近内容是否属于相似的更严格判定标准或更多的判定因素,将已有的任一个相似子集或相同核心子集中的多个文本或文本部分内容划分为多个下一级相似程度更高的子集。
7、按照权利要求1或4或5所述的方法,其中:
上述[iv]所述的处理,可以包括:相似子集再分:可以在划分相似子集或划分相同核心子集.的基础上,对已有的一个相似子集或相同核心子集里的多个文本或文本部分内容中原有的关键词查询项邻近内容划取范围之外的一定邻近范围的新内容再进行相似性比较,根据其相似与否,将这些文本或文本部分内容划分为多个下一级相似子集。
8、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:安排不相似序列:可以从多个文本中安排出不相似序列,同一不相似序列里的不同文本或文本部分内容的所述关键词查询项邻近内容可以全部或基本上都不属于相似;或者同一不相似序列里的全部或多数文本或文本部分内容中,没有一个文本或文本部分内容的关键词查询项邻近内容,与一个或规定数目以上的其他文本或文本部分内容的关键词查询项邻近内容属于相似或相同。
9、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:安排核心内容不相同序列:可以从多个文本中安排出核心内容不相同序列,同一个核心内容不相同序列里的不同文本或文本部分内容的所述关键词查询项邻近内容可以全部或基本上都属于不完全相同;或者同一个核心内容不相同序列里的全部文本或多数文本或文本部分内容中,没有一个文本或文本部分内容的关键词查询项邻近内容,与一个或规定数目以上的其他文本或文本部分内容的关键词查询项邻近内容属于完全相同。
10、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:目录编组或安排不同子集相似内容的序列:可以将各个划分的相似子集的各自文本在所述关键词查询项邻近内容中共有的相似或相同的内容或者部分内容作为条目,集合成目录或序列,或者连同各个相似子集的下一级子集的各自文本在所述关键词查询项邻近内容中共有的相似或相同的内容或部分内容作为条目,集合成树状目录。
11、按照权利要求1所述的方法,其中:
上述[iv]所述对这些文本进行的处理,可以包括:安排代表性序列:可以从各个相似子集或相同核心子集中各取出一个或多个文本,将这些文本或文本部分内容组成序列。
12、按照权利要求1或8或9或10或11所述的方法,其中:
上述[iv]所述的处理,可以包括:序列再压缩:可以对已有的安排的不相似序列中的,或者代表性序列中的,或者目录编组或者不同子集相似内容的序列的多个文本或文本部分内容的所述关键词查询项邻近内容,用较为宽松的是否属于相似的判定标准,进行较为宽松的相似性比较,在已有序列中产生多个文本或文本部分内容的新的相似子集或不相似序列或更精炼的代表性序列或目录编组。
13、按照权利要求1或9所述的方法,其中:
上述[iv]所述的处理,可以包括:相同核心划分再聚合:首先安排核心内容不相同序列,然后再对得到的序列中的多个文本或文本部分内容的所述关键词查询项邻近内容,用是否属于相似的判定标准进行相似性比较,在已有序列中产生多个文本或文本部分内容的新的相似子集或不相似序列或更精炼的代表性序列或目录编组。
14、按照权利要求1或2或3所述的方法,其中:
上述[iv]所述的处理,可以包括:界面展示与操作:可以令包括处理方式在内的处理过程和结果的指定的有关信息在交互界面显示,允许查询者在交互界面进行有关处理的选择或指示,可以利用光标点击或键盘选择或指示,可以根据需要,使相应的目录或序列或子集中的子集或条目或项目或文本或文本部分内容或摘要或题录或词语对应的的更详细内容,或者下一级的子集或序列的目录或更详细内容在交互界面展示。
15、按照权利要求1或2或3所述的方法,其中:
上述[iv]所述对这些文本进行的处理,可以包括:标注数目:可以允许所述的序列或目录或条目或文本或题录或摘要实例中或者在它们所包含的关键词查询项邻近内容附近,具有其相应的并列子集数目或下级子集数目或文本数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。
16、按照权利要求1或2或3或8或9或10或11所述的方法,其中:
上述[iv]所述的处理,可以包括:确定排序:对于上述目录或序列或子集所含有的多个元素中的某一个元素的排列或显示顺序或位置可以是随机的,也可以部分或完全取决于下列其中某一个或多个因素:
其所含或所在文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低,
或者该子集的下级子集数目或下属文本数目的多少或者该子集点击率的高低或者该子集的文本佩奇链接值的平均数值的大小,
或者该元素所在子集的下级子集数目或下属文本数目的多少或者所在子集点击率的高低或者所在子集的文本佩奇链接值的平均数值的大小,
或者该子集的佩奇链接值最高的文本或另外的文本实例的佩奇链接值的大小,
或者该子集的点击率最高的或关键词出现率最高的文本或另外的文本实例的点击率或关键词出现率的高低,
或者该元素或相关子集内的相关文本在其他搜索网站或检索***搜索结果中的排序,
或者有关元素的出资人相关付费或竞价的高低,
或者相关元素的词或字的拼写或拼音的字母顺序或笔划顺序,
或者文本的来源网站或链接网站或链接网页或单位或人的评分,
或者相关文本收录的时间先后或新旧,
或者是否属于某一级的同一子集,
或者通过一种目标函数值来决定,目标函数值取决于一个或多个变量的加权值,该目标函数的部分或全部变量分别代表上述所列其中某一个或多个因素。
17、一种数据检索***,包括:
数据处理单元和与之相连的输入单元、输出单元以及文本数据库,其数据处理单元可以通过输入单元接收关键词查询,从文本数据库或者必要时从互联网收集和处理有关数据,将检索结果送输出单元;
其特点在于:该数据处理单元包含存储器和关键词邻近内容处理装置;
所述关键词邻近内容处理装置,可以
[i]获得多个含有同样关键词查询项的电子文本;
[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理;
处理方式可以包括以下一种或多种:
划分相似子集、划分相同核心子集、相似子集细分、相似子集再分、安排不相似序列、安排核心内容不相同序列、目录编组或安排不同的相似内容的序列、安排代表性序列、序列再压缩、相同核心划分再聚合、界面展示与操作、标注数目、确定排序。
18、一种响应用户经由交互界面提出的要求,提供所期望搜索结果的搜索引擎***,包括;
服务器,该服务器经由通讯网络或线路与所述交互界面所在的客户机耦合;
位于服务器的搜索引擎,所述搜索引擎包括:包括关键词索引在内的数据库,以及查询器,该查询器能够根据查询者提出的关键词要求在所述数据库进行查询并将查询到的相关数据结果列表提供给交互界面;
其特点在于:
所述查询器或搜索引擎还包括关键词邻近内容比较处理装置,可以
[i]获得多个含有同样关键词查询项的电子文本;
[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理;
处理方式可以包括以下一种或多种:
划分相似子集、划分相同核心子集、相似子集细分、相似子集再分、安排不相似序列、安排核心内容不相同序列、目录编组或安排不同的相似内容的序列、安排代表性序列、序列再压缩、相同核心划分再聚合、界面展示与操作、标注数目、确定排序。
CNA2007101641489A 2007-02-15 2007-10-08 一种便于查询的电子文本的相似性处理方法和*** Pending CN101246484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101641489A CN101246484A (zh) 2007-02-15 2007-10-08 一种便于查询的电子文本的相似性处理方法和***

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200710079309.4 2007-02-15
CN200710079309 2007-02-15
CNA2007101641489A CN101246484A (zh) 2007-02-15 2007-10-08 一种便于查询的电子文本的相似性处理方法和***

Publications (1)

Publication Number Publication Date
CN101246484A true CN101246484A (zh) 2008-08-20

Family

ID=39946940

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101641489A Pending CN101246484A (zh) 2007-02-15 2007-10-08 一种便于查询的电子文本的相似性处理方法和***

Country Status (1)

Country Link
CN (1) CN101246484A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999508A (zh) * 2011-09-13 2013-03-27 腾讯科技(深圳)有限公司 搜索结果排序方法及***
CN103136281A (zh) * 2011-12-05 2013-06-05 英顺源(上海)科技有限公司 网页搜寻结果显示***及其方法
CN103218371A (zh) * 2012-01-20 2013-07-24 华为终端有限公司 信息聚合方法及装置
CN103235827A (zh) * 2013-05-13 2013-08-07 济南政和科技有限公司 一种科技信息自动分类筛选的方法
CN108021640A (zh) * 2017-11-29 2018-05-11 有米科技股份有限公司 基于关联应用的关键词拓展方法和装置
CN109219811A (zh) * 2016-05-23 2019-01-15 微软技术许可有限责任公司 相关段落检索***
CN103902552B (zh) * 2012-12-25 2019-03-26 深圳市世纪光速信息技术有限公司 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN113591853A (zh) * 2021-08-10 2021-11-02 北京达佳互联信息技术有限公司 关键词提取方法、装置及电子设备
CN116433197A (zh) * 2023-06-13 2023-07-14 建信金融科技有限责任公司 一种信息上报方法、装置、上报端及存储介质
CN117573727A (zh) * 2024-01-17 2024-02-20 湖南天承信息技术有限公司 一种从业人员健康体检信息检索***

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999508A (zh) * 2011-09-13 2013-03-27 腾讯科技(深圳)有限公司 搜索结果排序方法及***
CN102999508B (zh) * 2011-09-13 2016-05-11 腾讯科技(深圳)有限公司 搜索结果排序方法及***
CN103136281A (zh) * 2011-12-05 2013-06-05 英顺源(上海)科技有限公司 网页搜寻结果显示***及其方法
CN103218371B (zh) * 2012-01-20 2017-04-26 华为终端有限公司 信息聚合方法及装置
CN103218371A (zh) * 2012-01-20 2013-07-24 华为终端有限公司 信息聚合方法及装置
WO2013107297A1 (zh) * 2012-01-20 2013-07-25 华为终端有限公司 信息聚合方法及装置
CN103902552B (zh) * 2012-12-25 2019-03-26 深圳市世纪光速信息技术有限公司 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置
CN103235827B (zh) * 2013-05-13 2016-04-20 政和科技股份有限公司 一种科技信息自动分类筛选的方法
CN103235827A (zh) * 2013-05-13 2013-08-07 济南政和科技有限公司 一种科技信息自动分类筛选的方法
CN109219811A (zh) * 2016-05-23 2019-01-15 微软技术许可有限责任公司 相关段落检索***
CN109219811B (zh) * 2016-05-23 2022-03-29 微软技术许可有限责任公司 相关段落检索***
CN110019660A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN108021640B (zh) * 2017-11-29 2019-08-16 有米科技股份有限公司 基于关联应用的关键词拓展方法和装置
CN108021640A (zh) * 2017-11-29 2018-05-11 有米科技股份有限公司 基于关联应用的关键词拓展方法和装置
CN112131348B (zh) * 2020-09-29 2022-08-09 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN113591853A (zh) * 2021-08-10 2021-11-02 北京达佳互联信息技术有限公司 关键词提取方法、装置及电子设备
CN113591853B (zh) * 2021-08-10 2024-04-19 北京达佳互联信息技术有限公司 关键词提取方法、装置及电子设备
CN116433197A (zh) * 2023-06-13 2023-07-14 建信金融科技有限责任公司 一种信息上报方法、装置、上报端及存储介质
CN116433197B (zh) * 2023-06-13 2023-09-12 建信金融科技有限责任公司 一种信息上报方法、装置、上报端及存储介质
CN117573727A (zh) * 2024-01-17 2024-02-20 湖南天承信息技术有限公司 一种从业人员健康体检信息检索***
CN117573727B (zh) * 2024-01-17 2024-03-26 湖南天承信息技术有限公司 一种从业人员健康体检信息检索***

Similar Documents

Publication Publication Date Title
CN101246484A (zh) 一种便于查询的电子文本的相似性处理方法和***
US9323827B2 (en) Identifying key terms related to similar passages
US7895595B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
CN100501745C (zh) 电子文本处理与检索的便捷方法和***
US9384245B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
KR101375940B1 (ko) 발전된 탐색 결과 페이지 콘텐츠를 제공하는 시스템 및 방법
CN101124609B (zh) 使用内联上下文查询的搜索***及方法
CN100478949C (zh) 具有实体检测的查询改写
CN100462972C (zh) 基于文档的信息和统一资源定位符管理方法和设备
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20070022072A1 (en) Text differentiation methods, systems, and computer program products for content analysis
US7024405B2 (en) Method and apparatus for improved internet searching
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
Weber et al. Investigating textual case-based XAI
Sivakumar Effectual web content mining using noise removal from web pages
CN103136356A (zh) 一种搜索引擎终端用户输入参考文件提示信息的处理方法
Cunningham et al. Knowledge management and human language: crossing the chasm
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
KR101124213B1 (ko) 온톨로지를 이용한 맞춤형 뉴스레터 제공 시스템
JP2006133933A (ja) コンピュータ処理方法
More et al. Graph-Based Multi-document Text Summarization Using NLP
KR102594717B1 (ko) 검색키워드 다중 표기에 따른 우선순위 중심 선별문서 채택 시스템 및 그 구동방법
Zhao et al. Improving academic homepage identification from the web using neural networks
Lobo et al. A novel method for analyzing best pages generated by query term synonym combination
Santos et al. StoryTracker: A Semantic-Oriented Tool for Automatic Tracking Events by Web Documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080820