CN100501745C - 电子文本处理与检索的便捷方法和*** - Google Patents

电子文本处理与检索的便捷方法和*** Download PDF

Info

Publication number
CN100501745C
CN100501745C CNB200710164298XA CN200710164298A CN100501745C CN 100501745 C CN100501745 C CN 100501745C CN B200710164298X A CNB200710164298X A CN B200710164298XA CN 200710164298 A CN200710164298 A CN 200710164298A CN 100501745 C CN100501745 C CN 100501745C
Authority
CN
China
Prior art keywords
abutting connection
text
speech section
keyword
subclass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB200710164298XA
Other languages
English (en)
Other versions
CN101201841A (zh
Inventor
刘二中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB200710164298XA priority Critical patent/CN100501745C/zh
Publication of CN101201841A publication Critical patent/CN101201841A/zh
Application granted granted Critical
Publication of CN100501745C publication Critical patent/CN100501745C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法和***,包括:获得多个含有同样关键词的电子文本,规定邻接词段所含字词数量或邻接词段截取方式,根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分为相同或不同子集或类别,对它们进行相应的相同或不同处理。可以使关键词检索得到的海量搜索结果,形成核心内容不重复不缺失的多级子集体系或目录或实例序列,帮助用户迅速而严密地缩小搜索范围,完整准确地得到所期望的查询结果。

Description

电子文本处理与检索的便捷方法和***
(1)技术领域
本发明涉及计算机及搜索引擎关于电子文本处理与检索的技术。
(2)背景技术
数十年来,计算机数据库检索技术有了极大发展,特别是万维网等网络技术的进展,使得人们可以共享的数据库的规模达到了天文数字。为了方便用户找到所需信息或文件,出现了分类或目录检索***。这种技术在人们十分熟悉的成熟分类领域里比较适用,但在更广泛的海量信息领域里,难于建立也难于掌握和使用。
以关键词搜索为核心的搜索引擎技术为用户带来了便利。以搜索引擎为核心的搜索***一般位于一个或多个服务器或其他计算机装置上,由文本(页面)库、文本索引库、根据对文本库的文本分析得到文本索引的索引构造器,以及接受查询生成搜索结果的查询器等部分组成,往往还附带有为文本库从互联网或其他信息源搜集和增添文本的数据采集服务器。该***可以通过客户机上的交互界面以及通讯网络或通讯线路得到查询者的关键词查询请求,在文本索引库或文本库中进行查询,并进行关键词请求与文本的相关性分析,得到相关结果并排序,再经由通讯网络或线路提供到交互界面。这种搜索***使用起来十分便利迅速,但返还结果包含的索引总数仍然十分庞大,难于逐一查阅。
人们还发展了将关键词与指向有关文本的锚内容(anchor text)描述相比较来确定相关性的技术,仍然不能使检索者十分满意。为了能将潜在的对查询者最有价值的查询结果尽量排在前面以方便查询者,第6,285,999号美国专利提出了基于网页超级链接结构分析(佩奇链接)来进行搜索结果排序的技术,超过了其他排序技术,被Google公司采用,获得空前成功。
然而,该技术以及其他各种排序技术,仅仅是在统计学意义上提高了关键词搜索的效率,并不能保证每个人希望的查询结果都能排在庞大索引表的前面。例如,我们利用“谷歌”中文网站搜索“布林”一词,可以得到近30万条索引。我们仍然不能保证可以无一遗漏地在靠前的位置上查阅到期望的内容,做到既严密又比较方便。同时,我们在读到期望的信息之前,却无奈地读到种种主要内容一再重复的无关信息。
为了解决这一问题,近十年来人们一直试图发展各种新的搜索引擎技术,例如,第6421675号美国专利涉及的“按照重要性的优先次序列表”的技术,第6256633号美国专利涉及的“根据使用者查询数据的历史形成动态对象表”的技术,CN1151457号中国专利的“与其他查询者共享查询信息”技术,第6990628号美国专利有关“测量电子文本相似性”的技术。这些技术具有某些优点,但效果十分有限。
第7089236号美国专利的技术可以对查询者提出的关键词进行语义分析,并将不同的可能语义呈现于交互界面,帮助查询者缩小搜索范围。与之相近的中国专利申请第200510081867.5号的技术,通过使用网页类别信息分散搜索引擎的关键词搜索结果。这两种技术的问题在于,首先必须建立十分复杂庞大然而不可能准确的分类数据库,由机器判断某一页面或文本属于某关键词的哪一条或哪几条的语义或类别是十分困难的,其可靠性不高。一个关键词的不同语义或类别之间很可能重叠更可能存在空白。如果增加分类的层次,重叠将造成占用存储空间的暴增。同时,关键词搜索的查询者面对不熟悉的领域,对诸多语义或分类也难于准确把握。这些都严重影响了查询效率的提高。
因此,人们迫切需要一种既严密又高效的关键词搜索引擎***技术,能够有效地帮助查询者缩小甚至多次缩小查阅范围。要求不同范围之间分界明确,容易判断,没有重叠也没有空白,以大大加快查询者得到期望结果的速度,并保证搜索的严密性。这也成为多年来未能解决的世界性难题。
(3)发明内容
本发明的目的就是提供一种计算机或搜索引擎的电子文本处理与检索或搜索的技术,在用户进行关键词检索而面对海量的搜索结果时,能迅速而严密地多次缩小搜索范围,或剔除各类无关信息或重复信息,准确地得到所期望的结果而很少遗漏。
本发明的一个方面是提供了一种计算机执行的对多个含有同样关键词的电子文本进行处理与检索的方法,包括:
步骤(1)获得多个含有同样关键词的电子文本;
步骤(2)规定邻接词段所含字词数量或邻接词段截取方式;
步骤(3)根据部分或全部电子文本中的电子文本内容中关键词的邻接词段相同还是不同,将所述电子文本进行相应处理;
步骤(4)将处理结果在交互界面显示;
所述相应处理包括下述处理方式之任一:
第一处理,邻接词段相同的电子文本具有相同的分布位置或存储方式,邻接词段不同的电子文本具有不同的分布位置或存储方式;
第二处理,将邻接词段相同的电子文本划分入相同的子集或者得到相同的子集标记,将邻接词段不同的电子文本划分入不同的子集或者得到不同的子集标记;
第三处理,使邻接词段相同的电子文本的索引具有相同的标记或索引项,使邻接词段不同的电子文本的索引具有不同的标记或索引项;
第四处理,使邻接词段相同的电子文本具有相同的编排方式,使邻接词段不同的电子文本具有不同的编排方式;
第五处理,使邻接词段相同的电子文本在交互界面具有相同的显示方式或位置,使邻接词段不同的电子文本在交互界面具有不同的显示方式或位置;
第六处理,将邻接词段相同的电子文本划分入相同的子集,将邻接词段不同的电子文本划分入不同的子集,至少部分子集各有一个或多个邻接词段或电子文本进行跨子集组合或排序;
第七处理,编排一级或多级的目录或序列,所述目录或序列反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段的并列或先后关系,或者反映包含这些不同邻接词段或间接邻接词段的语句或摘要实例的并列或先后关系;
所述的电子文本是电子文件或者它们的摘要或索引或题录或题目,也可以是网页,也可以包括数据库或者著作或词典或手册或专利文献的各种电子化的信息内容。
上述的邻接词段或间接邻接词段可以是关键词前面的,也可以是关键词后面的;一般是电子文本内容中的一个或多个词或字甚至词根组成的词段,需要时也包括某些字符,如缩写字母、标点等。
本发明的方法的对检索的好处十分明显。查询者对关键词的某一种邻接词段有兴趣时,很容易得到包含该种邻接词段的类别的所有电子文本,反之,他则很容易跳过这些文本。
本发明的关键之处在于,关键词的邻接内容最有可能决定该关键词在该电子文本中的具体内涵或指向或限定范围或方向,这应该是搜索者最感兴趣的。同时,本方法如果采用的方式恰当的话,完全可以避免其他利用分类检索方法所难以避免的“不同类别或子集的内容重叠和空白”现象,该现象在多级分类子集***中会造成最终难以使用的后果。这决定了本发明的方法或***的搜索效果将会有突出地提升。
所述的处理与检索的方法还可以在所述第二处理中进一步包括:
编排一级或多级的目录或序列,所述目录或序列反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段的并列或先后关系,或者反映包含这些不同邻接词段或间接邻接词段的语句或摘要实例的并列或先后关系;
并且,包括所述电子文本的一个或多个不同子集各自的相同邻接词段或相同间接邻接词段或者包含相同邻接词段或相同间接邻接词段的语句或摘要实例,或者包括这个或这些子集的下一级或下多级的多个子集各自的相同邻接词段或相同间接邻接词段或者包含相同邻接词段或相同间接邻接词段的语句或摘要实例,按照并列或先后关系编排或分布或存储或显示;
其中相同邻接词段或相同间接邻接词段或者包含相同邻接词段或相同间接邻接词段的语句或摘要实例跨子集或在子集内并列。
所述的处理与检索的方法,可以进一步包括以下步骤:对于属于某个或某些同一第一级子集或较高级的子集的不同电子文本,根据电子文本含有的同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部电子文本按如下处理方式之任一进行处理:
第八处理,其他邻接词段相同的电子文本具有相同的分布位置或存储方式,其他邻接词段不同的电子文本具有不同的分布位置或存储方式;
第九处理,将其他邻接词段相同的电子文本划分入相同的下一级子集或者得到相同的子集标记,将其他邻接词段不同的电子文本划分入不同的下一级子集或者得到不同的子集标记;
第十处理,使其他邻接词段相同的电子文本的索引具有相同的标记或索引项,使其他邻接词段不同的电子文本的索引具有不同的标记或索引项;
第十一处理,使其他邻接词段相同的电子文本具有相同的编排方式,使其他邻接词段不同的电子文本具有不同的编排方式;
第十二处理,使其他邻接词段相同的电子文本在交互界面具有相同的显示方式或位置,使其他邻接词段不同的电子文本在交互界面具有不同的显示方式或位置;
第十三处理,将其他邻接词段相同的电子文本划分入相同的下一级子集,将其他邻接词段不同的电子文本划分入不同的下一级子集,至少部分子集各有一个或多个邻接词段或电子文本进行跨子集组合或排序;
第十四处理,编排一级或多级的目录或序列,该目录或序列反映所述电子文本的同样关键词及邻接词段的其他不同邻接词段或间接邻接词段的并列或先后关系,或者反映包含这些不同邻接词段或间接邻接词段的语句或摘要实例的并列或先后关系。
所述的处理与检索的方法可以对依次的邻接词段进行合并或分开操作,以减少或增加子集层次。
在某些必要情况下,本方法判断关键词的邻接词段或关键词的邻接词段的其他邻接词段的相同或不同时,可以略去邻接词的前缀或后缀或者标点或空格的差别,或者略去助词或数词或量词或形容词或副词的有无或差别,或者略去冠词或连词有无或差别。
在所述的处理与检索的方法中,当关键词为分开的多个字词时,所述邻接词段可以是指其中某一字词(如靠前的字词)或多个字词的邻接词段。
所述的处理与检索的方法中邻接词段所包含的字词或字符的数量或邻接词段的截止方式或具体内容可以是预定的或者查询者默认的或选定的。
在本方法中,判断邻接词段或间接邻接词段的字词或字符的数量时,可以略去一个字词或多个字词的前缀或后缀或者助词或数词或量词或者标点或空格或形容词或副词的有无或差别。
需要时,在本方法中,如果所述目录或序列中的关键词的邻接词段或间接邻接词段的下一级或下多级邻接词段只有一种,可以将邻接词段或间接邻接词段连同其下一级或下多级邻接词段在其原有位置一起分布或存储或显示。
所述的处理与检索的方法的步骤(4)中可以进一步包括:
在电子文本或目录或语句或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,可以具有其相应的并列子集数目或下级子集数目或者相关词或邻接词段或间接邻接词段所在子集的并列子集数目或间接邻接词段所含的下级子集数目或文本数目的提示。
本发明的方法可以进一步包括步骤(5),即查询者在交互界面上对目录或序列中的文字或图形或符号进行指示,确定或展开或链接相关内容。
所述的处理与检索的方法的第七处理中还可以包括:
编排含有同样关键词的多个电子文本或电子文本部分内容的序列,该序列含有的由多个词组成的邻接词段互不相同,或者该序列中的各个电子文本或电子文本部分内容含有的多个词的关键词邻接词段互不相同。或者可以说,含有相同所述邻接词段的电子文本或电子文本部分内容只有一个或多个作为代表。
这样可以用条数减少大约一半数量级的同关键词的代表性信息序列,来代替原来的海量信息。
本发明的处理与检索的方法,还可以进一步包括步骤(6):
将电子文本的同样关键词的不同邻接词段进行相似比较,将相互符合一定相似要求的多个不同邻接词段划分入同一相似子集;
或者将相互不符合一定相似要求的多个不同邻接词段划分入不同相似子集;
或者将相互不符合一定相似要求的多个不同邻接词段编成彼此不相似邻接词段的序列或目录,将同一相似子集的各元素的共同的内容作为或不作为该相似子集的名称或标记,或将其列入相似子集名称序列或目录。
这里所述的相似比较方式或相似要求可以有很多种,需要时可以规定:所述的一定相似要求可以至少包括对不同邻接词段所含有的同样的字或词或词组或字符的数量或所占比例的要求。
需要时,可以将含有邻接词段或间接邻接词段的子集划为该邻接词段所在的相似子集的下级子集,或者将含有邻接词段的电子文本或其部分内容划入该邻接词段所在的相似子集。
本发明的方法还可以进一步包括步骤(7),即:
并列子集或者并列邻接词段或间接邻接词段或者并列电子文本或者并列的语句或摘要实例或代表性序列信息中的某一个的具体排序位置,部分或完全取决于下列其中一个或多个因素:
第一因素,电子文本或者邻接词段或间接邻接词段或语句或摘要实例或信息所在电子文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低;
第二因素,该子集的下级子集数目或下属电子文本数目的多少或者该子集点击率的高低或者该子集的电子文本佩奇链接值的平均数值的大小;
第三因素,邻接词段或间接邻接词段或者电子文本或者语句或例句或摘要实例所在子集的下级子集数目或下属电子文本数目的多少或者所在子集点击率的高低或者所在子集的电子文本佩奇链接值的平均数值的大小;
第四因素,子集的佩奇链接值最高的电子文本或另外的电子文本实例的佩奇链接值的大小;
第五因素,子集的点击率最高的或关键词出现率最高的电子文本或另外的电子文本实例的点击率或关键词出现率的高低;
第六因素,电子文本或相关子集内的相关电子文本在其他搜索网站或检索***搜索结果中的排序;
第七因素,电子文本或邻接词段或间接邻接词段词段的出资人相关付费或竞价的高低;
第八因素,邻接词段的词字的拼写或拼音的字母顺序或笔划;
第九因素,电子文本的来源网站或单位或人的评分;
第十因素,电子文本收录的时间先后或新旧;
第十一因素,电子文本是否属于某一级的同一子集;
第十二因素,通过一种目标函数值来决定,目标函数值取决于一个或多个变量,所述目标函数的变量部分或全部分别代表上面所述其中某一个或多个因素。
本发明的处理与检索的方法,还可以进一步包括步骤(8),即
增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或范围的限制,得到进一步精炼的结果或更宽泛的结果。
本发明的另一个方面是一种能够运用所述的处理与检索的方法的包括存贮装置的计算机数据***,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部关键词索引或电子文本摘要或电子文本的数据以下列方式分布:
电子文本摘要或电子文本含有同一关键词而该关键词邻接词段相同或不同的索引或文本摘要或文本的数据,位于同一关键词集的同一或不同子集的分布区域。
需要时,允许位于同一子集,而其电子文本摘要或电子文本含有同一扩展关键语句而该语句的邻接词段相同或不同的索引数据,位于同一子集的同一或不同的低一级或多级子集分布区域。
本发明还可以包括具有反映具有同一关键词的电子文本或电子文本摘要或题录中的该关键词不同级别邻接词段之间先后关系的邻接词段树状目录。
本发明的又一个方面是另一种包括存贮装置的计算机数据***,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部的关键词索引的数据结构组成至少包括:
关键词段;
一个或多个邻接词段,由相应电子文本内容中或电子文本摘要中的关键词的依次邻接的预定数目的各级邻接词段按原顺序映射组成,依次为:邻接词段1,邻接词段2,…邻接词段N;
相应电子文本ID段,或其相关信息的ID段;
其中ID段是指地址段;
必要时,可以包括相应电子文本含有的所述关键词的摘要段或标题段;
该***可以允许该计算机数据***依据搜索规定包含的所述关键词段和各邻接词段中的一个或多个的组合或者组合词段数目的增减,来搜索或者以变换方式搜索相应的索引或内容。
显然,可以规定上述的N最小为1,此时相关索引只有一个邻接词段。
本发明的另一个方面是给出了一种能够运用所述电子文本处理与检索的方法的搜索引擎***,该***包括:
服务器5,该服务器经由通讯网络4或线路与所述交互界面2所在的客户机3耦合;
该服务器5包括搜索引擎8,
该搜索引擎包括数据库9和查询器11;
其中,所述数据库存储了关键词索引,所述查询器根据查询者提出的关键词要求在所述数据库进行查询并将查询到的相关数据结果列表提供给交互界面2;
其特征在于:
所述数据库还存储了包含关键词的电子文本摘要或电子文本,该电子文本摘要包含或不包含在关键词索引内;
所述查询器或搜索引擎包括关键词扩展部件10,所述关键词扩展部件能够对正查询的或待查询的关键词进行一次或多次扩展操作,该扩展操作包括:将在含有所述关键词的电子文本内容中或电子文本摘要中出现的关键词及其邻接词段,作为各个不同的扩展关键语句,并将其列表,或将所述关键词的不同邻接词段列表以供查询者经由交互界面选用,或者将含有相同或不同的扩展关键语句的不同索引或电子文本摘要或电子文本进行检索或编排或整理,以供查询者经由交互界面选用。
所述的搜索引擎***,可以存储有反映具有同一关键词的电子文本或电子文本摘要或题录中的关键词不同级别邻接词段之间先后关系的邻接词段树状目录,或者包括反映所述关键词不同级别扩展的关键语句之间先后关系的树状目录(图8)。
所述树状目录,实际上也可以同时反映同级邻接词段或关键语句的并列关系。
所述的搜索引擎***可以还包括用户图形交互界面,所述图形交互界面包括对话框或选择框,以接收查询者对操作方式或模式的选择;所述图形交互界面还包含用于点击的关键语句或邻接词段或语句或段落或操作命令或选择的文字或符号或图形,以使查询者添加附加查询信息。
以上所述的搜索引擎***可以是位于互联网的为网上客户服务的搜索***,也可以是独立的计算机信息库搜索***。所述的服务器5为计算机存储和处理装置,可以是单个的,也可以是多个成组或分散配置的。所述的客户机3可以是个人电脑或工作站或其他计算机装置,需要时,可以配置适当的浏览器。
所述的搜索引擎***还可以允许:所述的搜索引擎包括索引构造部件13,用于对所述数据库内的电子文本或搜索引擎附带的数据采集服务器12从互联网4或其他信息源得到的电子文本进行分析,产生所述电子文本相应的至少包含关键词段和邻接词段和文本ID段的索引,并存储。
需要时,此处可以简单地规定每个邻接词段的词数,例如词数为一。
所述的邻接词段树状目录的相应邻接词段处,或者反映该关键词不同级别扩展的关键语句之间先后关系的树状目录的相应关键语句处,也可以显示其后面的子集数量或所含文件数量。
本发明的又一个方面是一种能够用于所述搜索引擎***的搜索方法,包括以下步骤:
步骤A,经由交互界面接收查询者的关键词查询要求;
步骤B,根据所述关键词查询要求查询所述数据库;
步骤C,将在含有关键词的电子文本内容中或电子文本摘要中出现的关键词连同其邻接词段,作为关键语句;
其中,邻接词段所包含的字词或字符的数量或该邻接词段的截止方式,是由所述搜索引擎***预定的或者查询者默认的或选定的,或者根据邻接词段的端部的符号或字或词或字体或颜色或空格来确定,或者由查询者在交互界面呈现的选择栏里或包含具体索引的电子文本摘要或电子文本的页面上进行的光标指示的位置和方式来确定;
步骤D,根据步骤C中所述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的关键语句;
步骤E,根据得到的邻接词段或关键语句生成搜索结果,即:将含有所述的相同或不同的邻接词段或关键语句的不同索引或电子文本摘要或电子文本或题录进行检索或编排,以供查询者经由交互界面选用。
所述的搜索方法的所述步骤A-E可以由所述搜索引擎***预先或在查询时进行。
所述的搜索方法可以是用于互联网搜索引擎***的,也可以是用于局域的或独立的计算机信息库搜索***的,例如数字图书馆***、文献资料库数字搜索***。
所述的搜索方法还可以进一步包括:
步骤F,将在含有关键语句的电子文本内容中或电子文本摘要中出现的关键语句连同其邻接词段,或者将该关键语句连同其邻接词段,作为扩展的关键语句;
其中,邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容,是由所述搜索引擎***预定的或者查询者默认的或选定的;
步骤G,根据步骤F中所述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的扩展的关键语句;
步骤H,根据步骤G得到的邻接词段或扩展的关键语句生成搜索结果,即:并将含有所述的相同或不同的邻接词段或扩展的关键语句的不同索引或电子文本摘要或电子文本或题录进行检索或编排或分别存储,以供查询者经由交互界面选用;
其中,步骤A-H可以由所述搜索引擎***预先或在查询时进行。
这样,原来关键词搜索庞大初步结果将得到一再细分的子集体系,便于用户选择。
所述的搜索方法需要时还可以包括编组步骤:
即将含有同样关键词的各种不同的关键语句或邻接词段或索引或电子文本摘要或电子文本,或者将含有同样原关键语句的各种不同的扩展的关键语句或邻接词段或索引或电子文本摘要或电子文本,各自编组以目录或序列形式排列或显示,其中对每一种邻接词段所在的关键语句或索引或电子文本摘要或电子文本仅收进各一个或多个。
这样编组,具有一定单一性或代表性,可以帮助用户阅读少量交互界面画面信息就能作出选择。
当我们选择的关键语句的长度达到一定程度时,得到的索引或摘要或题录编组序列的核心内容将基本不重复也无遗漏。
利用所述的搜索方法还可以将部分或全部关键词索引或电子文本摘要或电子文本的数据,根据其含有的关键词或关键语句或者扩展关键语句的不同或相同,分布于不同或相同的子集区域或者不同或相同的更低级的子集区域存储。
在关键词查询时,可以直接提取或提供相应的关键语句或关键词索引或文本摘要或文本的数据。
所述的搜索方法还可以包括:
对所述数据库内的文本或摘要或搜索引擎附带的数据采集服务器从互联网得到的电子文本进行分析,产生并存储电子文本相应的索引,该索引包括关键词段、邻接词段和电子文本ID段。
所述的搜索方法还可以包括编排步骤:
即编排反映具有同一关键词的电子文本或电子文本摘要中的该关键词不同级别邻接词段之间先后或并列关系的树状目录(图8),或者反映该关键词不同级别扩展的关键语句之间先后或并列关系的树状目录,以供查询时使用。
在所述的搜索方法中还可以包括选定步骤:
即所述搜索引擎***根据查询者在交互界面的页面的电子文本或电子文本摘要上或关键语句或邻接词段目录上或者在选择栏或框中的光标指示,确定相应的关键语句,并且对该关键语句对应的各种不同的扩展的关键语句或扩展的邻接词段或索引或电子文本摘要或电子文本进行目录展示,或者进行相应索引或电子文本摘要或电子文本的排序展示,或者根据确定的相应的关键语句进行移除步骤,所述移除步骤将该页面或其他多个页面含有的关键语句的条目或索引或电子文本摘要或电子文本剔除或移动位置。
所述的搜索方法在需要时还可以包括忽视步骤:
即根据查询者浏览包含原关键词的或者包含原关键语句的索引或电子文本摘要或题录或电子文本序列时在交互界面上对页面或在页面上的操作,判断查询者浏览该索引或电子文本序列的即时位置;如果确定排列在该即时位置前面一定范围里包含关键语句的索引或电子文本摘要或电子文本或关键语句本身一直或连续一定次数未被打开或链接,也未被点击或提示保留,则根据该关键语句进行移除步骤,所述移除步骤将该页面或其他多个页面含有的关键语句的条目或索引或电子文本摘要或电子文本剔除或移动位置。
这一方式,可以将查询者在阅读过程中长时间未关注文件的类似文件信息从后面的序列中后移或剔除,减少无用信息过多的困扰。
本发明的以关键词及邻接词为核心的处理与检索及搜索技术,在划分和不断缩小同一关键词搜索结果范围方面,具有词典式的严密性和明显超越现有技术的便捷性,还可以将常常上百万条的同关键词网上信息,浓缩成条数减少2、3个数量级的同关键词的代表性信息序列,而每条信息的核心内容(关键词附近几个邻近词构成的内容)既不重复也不遗漏,将更好地满足广大信息检索与搜索用户长期以来的迫切需求。
(4)附图说明
图1为规定邻接词段所含字词数量或邻接词段截取方式的举例示意图。
图2为同样关键词的不同邻接词段或相应子集的树状目录举例示意图。
图3为同样关键词的不同相似子集及下级不同邻接词段子集的举例示意图。
图4所示为根据本发明的搜索***的一个实施例的结构框图。
图5所示为本发明的一个实施例的关键语句生成的示意图。
图6所示为本发明的实施例的另一种关键语句生成方式的示意图。
图7所示为本发明的一个实施例的用户在交互界面的示例性操作流程图。
图8所示为本发明的一个实施例展示的一个反映关键词不同级别邻接词之间先后关系的邻接词段树状目录示意图。
图9所示为本发明的一个实施例的搜索引擎的工作流程图。
图10所示为本发明的一个实施例的搜索过程中一次光标点击(选定操作)及生成显示结果的局部屏幕画面示意图。
图11所示为本发明的处理与检索方法一个实施例的示例性流程图。
(5)具体实施方式
下面结合附图,在前面“发明内容”的基础上进一步具体说明。
本发明提供的一种计算机执行的对多个含有同样关键词的电子文本进行处理与检索的的方法,具体举例来说包括4步:
首先从计算机或数据库或互联网获得多个含有同样关键词的电子文本;所述的文本可以是电子文件或文档或网页或者它们的摘要或索引或题录或题目,也可以是数据库、著作、词典、手册、专利文献的各种电子化信息内容。
第2步,规定文本里该关键词的邻接词段所含字词数量或邻接词段截取方式:
具体来说所述的邻接词段一般是直接邻接词段,在必要时也可以是间接邻接词段;直接邻接词是指该邻接词段在原电子文本内容中与上述关键词之间没有文字间隔,而间接邻接词段邻接词段指该邻接词段在原电子文本内容中与上述关键词之间有少量文字间隔,间隔大将明显影响本方法的使用效果。
所述的邻接词段可以是关键词前面的,也可以是关键词后面的;一般是文本内容中的一个或多个词或字甚至词根组成的词段,需要时也包括某些字符,如缩写字母、标点等。
所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容可以是计算机***预定的或者查询者同意或默认的或选定的,或者由查询者在交互界面呈现的选择栏里或包含某具体索引的文本摘要或文本或相关内容的页面上的进行的光标指示的位置和方式来确定。
图1和图5、图6给出了规定邻接词段所含字词数量或邻接词段截取方式的几个例子。在图1的例子中,关键词为“搜索引擎”。其中101表示“截取关键词前2实词”的方式;102表示“截取关键词前2+后2实词”的方式;103表示“截取关键词后2实词”的方式;104表示“截取关键词后面第一个逗号或句号前实词”的方式;105表示“截取关键词后面距离不小于2个词的第一个逗号或句号前面的词”的方式。
在某些必要情况下,判断词段的长度,也可以略去或不考虑某些词的前缀或后缀或者某些虚词或助词或数词或量词或非实词或者标点或空格的有无或差别或不同(参见后面的实施例A),甚至也可以略去或不考虑其中的形容词或副词的有无或差别或不同。
当检索时的关键词为可以分开的多个字词时,例如上述邻接词段可以是指其中某一字词(如靠前的字词)或多个字词的各个邻接词段。在后者的情况下,可能需要对关键词的不同部分的邻接词段分别进行比较,才能判断不同文本的关键词邻接词段是否完全相同。
当一个文本中多次出现同一关键词时,可以仅仅考虑任一出现的关键词的邻接内容,还可以将该文本适当分开,当作多个文本来处理。这对于篇幅较长文本的检索来说比较适用。
第3步,根据部分或全部电子文本中的每个电子文本内容中所述关键词的邻接词段与其他电子文本相同还是不同,将该电子文本与其他电子文本划分为相同或不同的子集或类别或者进行相应的相同或不同处理。(参见后面的实施例A)
一般说来,所谓“相同”意味着两个词段完全一样;但在某些必要情况下,判断两个词段的相同或不同,也可以略去或不考虑某些词的前缀或后缀或者某些虚词或助词或数词或量词或非实词或者标点或空格的有无或差别或不同,甚至也可以略去或不考虑其中的形容词或副词的有无或差别或不同。
例如,需要的话,如果按照宽松的标准,可以认为:“科学的力量是十分强大的”与“科学力量十分强大”是两个相同的邻接词段。
按每个电子文本内容中所述关键词的邻接词段与其他电子文本相同还是不同,将该电子文本与其他文本划分为相同或不同类别以后,查询者可以直接根据对关键词的某一种邻接词段的兴趣,按照类型获得或跳过包含该种邻接词段的类别的所有文本。
所述的相应的相同或不同处理可以包括:相应电子文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序,或者编排一种反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或摘要实例的并列或先后关系的一级或多级的目录或序列(参见图2、图8)。
第4步将处理结果按照查询需要在交互界面显示或展示,其方式可参见实施例A和图10、图11所示及相关说明。
对于属于某个或某些同一第一级子集或较高的子集的不同电子文本,或者说其内容含有同样关键词及邻接词段的不同电子文本,可以根据其含有的所述同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部所述电子文本划分入上述子集的同一或不同的下一级或多级子集或者进行相应的相同或不同处理。
此处所述的相应的相同或不同处理如前文同样可以包括:相应电子文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或电子文本进行跨子集组合或排序,或者编排一种反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或摘要实例的并列或先后关系的一级或多级的目录或序列,或在交互界面展示。(参见后面的实施例A及图10的内容)
这实际上就是通过对原有关键词邻接词段的扩大以及对扩大部分相同与否的比较,将原来的同一邻接词段子集进一步细分为若干下一级子集,如果需要,还可以继续下去,直到得到查询者满意的结果。这也是本方法的又一个优势。
例如,我们对关键词为“搜索引擎”的多个电子文本根据邻接词段划分子集,其中的第一邻接词段按“关键词前1词+后1词”的方式截取,这样得到了多个子集,其中含有邻接词段为“专业K公司”子集(此处K代表关键词“搜索引擎”),该子集包含185个文本;如果我们将这185个文本按“K公司”后面的3个词构成的第二邻接词段是否相同进行划分,又得到第二邻接词段为“通过专业技术”、“力图开拓市场”等13个二级子集;如果我们对含有“通过专业技术”词段的二级子集包含的文本继续按第三邻接词段(为其后面的2实词词段)划分下去,还可以得到若干三级子集。(可参考图2、图8)。
利用本发明的处理与检索的方法例如还可以允许依次的邻接词段的合并或分开,以减少或增加子集层次。例如对于上述关键词为“搜索引擎”的多个电子文本,如果我们一开始就按“关键词前1词+后4词”的方式截取第一邻接词段,得到的一级子集的数量应该等于前面方式划分的各个二级子集数量之和,结果相仿,但子集层次减少了。
实际上,面对同样的大量电子文本,如果将关键词的邻接词段的长度定得较长,得到的子集的数目会多一些,但每个子集的文本数会较少;反过来,如果将关键词的邻接词段的长度定得较短,得到的子集的数目会少一些,但每个子集的文本数会较多。
面对上述方法的众多子集或它们的下级子集,为了方便查阅,我们可以编排一个反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句(或例句)或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列。
我们在编排所述的反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句(或例句)或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列时,可以令其包括所述电子文本的一个或多个不同子集各自的所述的相同邻接词段或相同间接邻接词段或者包含该词段的语句(或例句)或摘要实例,或者包括这个或这些子集的下一级或下几级多个子集各自的相同的邻接词段或间接邻接词段或者包含该词段的语句或例句或摘要实例,按照并列或隶属先后关系编排或分布或存储或展示;其中所述的词段或语句或例句或摘要实例可以是跨子集并列的。
图2和图8所示目录就是这种目录的两个例子。图2反映了上述关键词为“搜索引擎”的多个电子文本的不同邻接词段或者这些词段的邻接词段的并列或先后关系的一级或多级的目录或树状目录。(图8所示例子将在后面说明)
图2的树状目录示例中,关键词为“搜索引擎”,用符号“K”代表,其中的第一邻接词段按“关键词前1词+后1词”的方式截取,第二邻接词段为其后面的3词词段,第三邻接词段为其后面的2实词词段。
如果我们在阅读有关文本不同邻接词段的目录时感到对理解其核心内容有困难,就会希望看到包含各个邻接词段的更多内容。因而,我们可能需要编排一个反映所述电子文本的同样关键词的不同邻接词段或者这些词段的邻接词段的并列或先后关系的一级或多级的目录或树状目录的派生序列,其中,原目录或树状目录中的任一邻接词段可以附加或替换为含有该邻接词段的更多内容。
例如这些内容可以是含有该邻接词段的语句(或例句)或摘要实例或题录或代表性文本。其中所述的语句(或例句)或摘要实例或代表性电子文本中的关键词和邻接词段可以具有有别于其他内容的字体或颜色或特点;其中所述的词段或语句(或例句)或摘要实例或代表性电子文本可以是跨子集并列的。
实际上,我们可以允许每个子集或下级子集由相应的邻接词段或者包含该词段的语句(或例句)或摘要实例来代表该子集,这样在有限的交互界面上,就能排列更多子集的代表性内容,形成目录或序列,查询者可以通过点击代表性内容来选择有兴趣的子集及所含文本。例如,我们点击图2所示目录中“不同K技术672”后面的“分别由雅虎公司”后面的“谷歌公司”词段,就可以得到含有“不同K技术分别由雅虎公司谷歌公司”词段的子集的所有文本目录或相关内容。如果我们点击相关序列或目录的相关内容中的邻接词段,也可以得到相同的结果。
实际上,本技术允许查询者在交互界面上对目录或序列或其他内容中的文字或图形或符号进行指示,例如点击光标,确定或展开或链接相关内容。
我们还可以使本方法更方便,例如可以安排:对于所述目录或树状目录或序列中的关键词邻接词段或间接邻接词段,如果其下一级或下几级邻接词段只有一种,该词段可以连同其下一级或下几级邻接词段在其原有位置一起分布或存储或展示。
为了方便查询,例如我们还可以安排本技术,允许在上述的电子文本或目录或语句(或例句)或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,可以具有其相应的并列子集数目或下级子集数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。(如图2)
本发明所述的处理与检索的方法,还可以包括:
还可以进一步利用本发明的处理方法,例如编排含有同样关键词的多个电子文本或电子文本部分内容的序列,它们含有的由多个词组成的邻接词段互不相同或基本上互不相同。可以认为,其中含有相同所述邻接词段的电子文本或电子文本部分内容只有一个或多个作为序列中的代表。
所述电子文本部分内容可以是指含有同样关键词的摘要或索引或题录或例句或词组等。
也可以说该代表性序列各个电子文本或电子文本部分内容含有的多个词(2个或2个以上词)的关键词邻接词段互不相同或基本上互不相同。多个词一般可以更好地反映关键词邻近核心内容的含意。
这样,此种方法可以将动辄上百万条同关键词网上信息,浓缩成条数减少2、3个数量级的同关键词的代表性信息序列,而每条信息的核心内容(关键词附近几个邻近词构成的内容)既不重复也不遗漏。这也是精炼网页核心内容的非常有效的方法,比起已有技术只能剔除镜象网页的方法有了显著进步。
如果我们对已经得到的同样关键词的不同邻接词段的目录和所谓代表性信息序列仍然感到内容太多,我们例如还可以将所述多个电子文本的同样关键词的不同邻接词段进行相似比较,将相互符合一定相似要求的多个不同邻接词段划分入同一相似子集,或者将相互不符合一定相似要求的多个不同邻接词段划分入不同相似子集,或者将相互不符合一定相似要求的多个不同邻接词段,编成彼此不相似邻接词段的序列或目录,可以将同一相似子集的各元素的共同内容作为该相似子集的名称或标记,或者将其列入相似子集名称序列或目录。
所述的相似比较方式或相似要求可以有很多种,需要时可以规定:所述的一定相似要求至少包括对不同邻接词段所含有的同样的字或词或词组或字符的数量或所占比例的要求。
举例来说,如果涉及的是长度为4个词(略去或不略去虚词)的不同邻接词段的序列或目录,可以要求不同的邻接词段之间起码有4个或3个词彼此相同(但词序不一定相同),作为相似要求。相似要求可以由***预设,也可以由查询者选定。在该例中,这4个或3个共同出现的词可以用标点分开后作为相应相似子集的标题或一条目录内容。
图3构成了另一个相似性子集示例,是在关键词不同邻接词段(按后面3个词截取)序列的基础上,经过相似比较形成的。其关键词不同邻接词段相似要求由***预设为“必须具有同样3个词,而彼此的前后顺序不限”。该例中各个电子文本的关键词为“搜索引擎”,用符号“K”代表,其中关键词不同邻接词段构成的相似子集的名称,用其共有的各个词表示,此处分别用大写字母代表。图3所示的第一个相似子集的不同邻接词段都包含了X、Y、Z这3个词。同一相似子集的邻接词段由于共有的各个词的顺序不同,可以构成不同的第一邻接词段,构成了该相似子集的下一级子集。
需要时也可以将含有某种邻接词段或间接邻接词段的子集划为该邻接词段所在的上述相似子集的下级子集,也可以将含有某种邻接词段的电子文本或其部分内容划入该邻接词段所在的上述相似子集。
显然,相似子集可以看作是在原来的邻接词段的目录或序列的基础上编成的,所以相似子集的数量或其目录的篇幅比原目录或原序列明显减少,查询者可以更方便地通过目录中相似子集的名称看出相关邻接词段的主要成分(几个并列的独立的词),如有兴趣,则可以打开该相似子集,得到其所属的各个下级子集的相关信息。
本技术可以采用一种比较高效的方式:规定关键词的邻接词段的词数为2至10之中的一种,例如6个,这样经过处理就会得到不同的邻接词段相关的序列或目录,如果需要(例如内容过多,超过数百条)可以进一步对其进行相似比较,得到不同的相似子集的目录或序列(例如减少到几十条)。这对查询十分便利。
对于利用本方法得到的上述各种目录或序列的内容的排序,例如有时可以是随机分布的,也可以利用公知的已有排序技术,或者在需要时令其中的并列子集或者并列邻接词段或间接邻接词段或者并列文本或者并列的语句或例句或摘要实例或代表性序列信息中的某一个的具体排序位置,部分或完全取决于下列其中某一个或多个因素:
该电子文本或者该词段或语句或例句或摘要实例或信息所在电子文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低,
或者该子集的下级子集数目或下属电子文本数目的多少或者该子集点击率的高低或者该子集的电子文本佩奇链接值的平均数值的大小,
或者该词段或者电子文本或者语句或例句或摘要实例或信息所在子集的下级子集数目或下属电子文本数目的多少或者所在子集点击率的高低或者所在子集的电子文本佩奇链接值的平均数值的大小,
或者该子集的佩奇链接值最高的电子文本或另外的电子文本实例的佩奇链接值的大小,
或者该子集的点击率最高的或关键词出现率最高的文本或另外的电子文本实例的点击率或关键词出现率的高低,
或者相关文本或相关子集内的相关电子文本在其他搜索网站或检索***搜索结果中的排序,
或者有关电子文本或有关词段的出资人相关付费或竞价的高低,
或者相关的邻接词段的词字的拼写或拼音的字母顺序或笔划,
或者文本的来源网站或单位或人的评分,
或者相关文本收录的时间先后或新旧,
或者是否属于某一级的同一子集。需要时,具体排序位置,可以通过一种目标函数值来决定,目标函数值取决于一个或多个变量,该目标函数的部分或全部变量可以分别代表上述所列其中某一个或多个因素。
例如一个目标函数值可以表示为F(x1,x2…xn),
例如可以令F(x1,x2…xn)=F1(x1)+F2(x2)+……+Fn(xn);
其中,x1,x2,……xn分别为前文发明内容部分中所提到的决定具体排序位置的某一个或多个因素(变量)或其他因素。由于已有技术中(如US6285999专利)有许多具体处理方法,此处不再详述。
需要时本发明的处理与检索的方法还可以允许在已有处理的方法或结果上,增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或者其他类型或范围或要求的限制,得到进一步精炼的结果或更宽泛的结果。
例如本发明允许对在宽松要求下(例如忽略邻接词段中虚词的差别)的邻接词段比较而得到的子集的内容,进行较严格要求(例如不忽略虚词的差别)的邻接词段比较,而划分下一级子集或得到更详细的邻接词段目录或相应信息;或进行反向操作。
增减一个关键词(如“中国”),或者改变时间(如一年内改为半年内或两年内)或地域(河北或保定或华北)或语种(如英语或西语)或者其他类型(如物品或玩具)或范围(如男孩或儿童或人)的限制,都可以方便地缩小和扩大搜索范围。
本发明的又一个方面是另一种包括存贮装置的计算机数据***,所述存储装置或其中的数据部分所含有的部分或全部有关电子文本的关键词索引的数据结构组成至少包括:
关键词段;
一个或多个邻接词段,由相应电子文本内容中或电子文本摘要中的关键词的依次邻接的预定数目的各级邻接词段按原顺序映射组成,依次为:邻接词段1,邻接词段2,…邻接词段N;
相应文本ID段,或其相关信息的ID段,(其中ID段是指地址段);
必要时,可以包括相应电子文本含有的所述关键词的摘要段或标题段。
一般说来,关键词索引是为了方便搜索或检索***进行关键词检索而建立的,同一电子文本为了方便多种关键词检索的需要,常常要有多个不同关键词的索引。作为本发明的例子,一个文本针对关键词“长江”的索引数据结构如下:
Figure C200710164298D00281
对于这样的数据结构,搜索引擎无论是搜索“长江”,还是搜索加长的搜索词“长江流域”,还是更长的“长江流域水力”都可以十分方便地访问到该索引,进而按地址找到该文本,有利于本发明的具体实现。也就是该***可以允许该计算机数据***依据搜索规定包含的所述关键词段和各邻接词段中的一个或多个的组合或者组合词段数目的增减,来搜索或者以变换方式搜索相应的索引或内容。
举例来说,如果索引中的每个邻接词段都是一个词的长度,确定查询的关键词和各个邻接词后,计算机很容易得到关键词段和邻接词段内容都符合查询要求的索引。
上述地址可以是数据库文本地址,或网页地址或其他地址。
所述计算机数据***也可以是搜索引擎***。(参见后面的实施例B)
本发明还可以是一种包括存贮装置的计算机数据***,可以安排所述存储装置或其中的数据部分所含有的部分或全部关键词索引或文本摘要或文本的数据以下列方式分布:
其电子文本摘要或电子文本含有同一关键词而该关键词邻接词段相同或不同的索引或电子文本摘要或电子文本的数据,位于同一关键词集的同一或不同子集的分布区域。
需要时,允许位于同一子集,而其电子文本摘要或电子文本含有同一扩展关键语句(扩展关键语句即关键词连同一级或多级邻接词段)而该语句的邻接词段相同或不同的索引数据,位于同一子集的同一或不同的低一级或多级子集分布区域。
例如,可以将具有同一种关键词的各个电子文本或电子文本部分内容(例如摘要或题录或语句或段落等)的各个索引,需要时可以包括该关键词的各种邻接词段的目录表(或子集目录表)的或多级邻接词段树状目录表(或多级子集目录表)的或相应的例句序列表或摘要实例序列表的索引,全部或部分集中分布或连续排列在与该关键词对应的集中存储区域。(例如后面的实施例A)
此处所述各索引的数据结构组成至少包括被索引的存储对象(如文本、目录表、序列表等)的地址段。
这样查询该关键词时,可以方便或连续地访问相关索引,得到索引的地址段(ID段)的地址或编号,访问或提取或展现相关目录或文本或其他内容。
类似地,也可以进一步将具有同一种关键词的各个电子文本或电子文本部分内容的各个索引,需要时可以包括各种更下一级或多级的邻接词段的目录表或树状目录表的或相应的例句序列表或摘要实例序列表的索引,分别全部或部分集中分布或连续排列在与该关键词的不同邻接词段分别对应的集中存储区域。
所述计算机数据***可以是搜索引擎***,这样可以更方便地查询或处理或向用户提供与查询的关键词及邻接词段有关的同一子集及低一级或多级子集的数据。
本发明的对多个含有同样关键词的电子文本进行处理与检索的方法由计算机***实施具体示例流程可以通过图11和图7、图9、图10的几个例子(包括实施例A、B、C等)来说明。以下所述“文本”均指电子文本。在图11的示例中,相关计算机处理设备开始工作61,接收查询者提交的关键词查询62,得到大量含有该关键词的文本,根据预设或查询者指定,确定关键词的邻接词段字词数量或范围(例如5个实词)63,对来自不同文本的该范围内的各个邻接词段进行比较分类64,并划分出其邻接词段分别相同的各个子集65。在此基础上,可以对得到的子集进行再分66,例如根据下一级的邻接词段的相同与否划分下一级子集,或者进行较严格要求的邻接词段比较,而划分下一级子集;也可以安排代表性序列或邻接词段不相同序列或编排相应目录67,(包括标注相应子集的文本数目和进行适当排序71),在界面展示70以供查询者选择操作,展开相关子集或内容或显示相关文本72。如果这些序列或目录的条目过多,还可以对这些条目的关键词查询项邻接词段进行相似比较,在其中划分相似子集68或安排不同相似内容的序列或目录69,这将更便于浏览,查询者发现有兴趣的内容时,再进行点击操作70,展开相关的子集或更详细内容72。(图7、图9、图10的例子将在后面说明)
图4所示实施例A为一个能执行本发明的计算机电子文本处理与检索方法的计算机数据***的例子—能提供扩展的关键语句搜索的互联网搜索引擎***。(本实施例及以下实施例所述“文本”均指电子文本)。它包括:设在带有存储器6和处理器7的服务器5上的搜索引擎8,该搜索引擎8通过互联网的通讯网络4与带有交互界面2的客户机3连接;该搜索引擎8具有数据库9、查询器11和关键词扩展部件10或模块,并且与数据采集器12与索引构造器13连接;
数据采集器12为数据库9的文本库从互联网或其他信息源搜集和增添文本,索引构造器13对文本库的文本分析得到文本索引并提供给数据库9的关键词索引库;
该索引构造器13根据对文本的分析得到的每个索引都包括关键词段、6个单邻接词段、相应文本的ID段、文本标题段、文本摘要段,这样,搜索引擎在需要时可以根据所要求的关键词段,或者和所要求的1个或多个单邻接词段找到所需的文本索引,得到该文本的标题段或文本摘要段或相应文本的ID段,需要时可以方便地链接到原文本。关键词索引库的索引根据各级邻接词段的异同,按多级子集分布,以便于检索或提取。相应的邻接词段目录、邻接词段树状目录(图8)和关键语句目录,也预先存储。
实施例A的客户机3上的客户机应用程序浏览器(微软公司的InternetExplorer)允许用户1通过通讯网络4从服务器5检索HTML文档(包括Web表单)。客户机3上的交互界面2允许用户1利用监视器、键盘或鼠标与检索到的Web表单交互,提交搜索请求,作出选择和接收搜索结果。
本发明的搜索方法的一个重要问题是邻接词段的选择方式(或关键词与邻接词段的结合方式)即关键语句的生成方式。图5所示的实施例A的示范性关键语句是在文本摘要中沿着关键词21逐个增加邻接词段(此例为单词)向后扩展的。其中,22为1级关键语句,23为2级关键语句,24为3级关键语句,25为4级关键语句。
图6所示为另一种实施例B的关键语句生成方式。其第1级邻接词段位于关键词21的前面,第2级邻接词段以及其他邻接词段位于关键词的后面。其中,22为1级关键语句,23为2级关键语句,24为3级关键语句,25为4级关键语句。此种前后兼顾生成方式似乎更适合搜索西文文件。各级关键语句的邻接词段的长度(词数)也可预先规定或由查询者在搜索时选定或默认***的安排。
在其他极端的实施例中,也可以允许从关键词一再向前面的邻接词段扩展,形成各级关键语句。
对于允许分离的多个词的关键词搜索的扩展方式,应该择其一作为核心关键词,通过结合它的邻接词段来形成各级关键语句,这些关键语句都带有可分离的其余关键词。也可以在多个词的关键词的各个词或词段附近,依所需顺序逐次添加邻接词段,形成各级关键语句。
实施例A的***在计算邻接词段的词数以及比较邻接词段的相同与否时,可以选择不把虚词、量词、标点、空格等计算在内,将它们归并邻接的实词内。本例对于西文可以有也有相应的具体规定。在其他实施例中,需要时甚至在计算邻接词段的词数以及比较邻接词段的相同与否时,可以选择不把形容词或副词等计算在内。
在实施例A中,由查询器11认证用户1的查询请求,并根据提出的关键词请求在所述数据库9进行查询并将查询到的相关数据结果列表,以备提供给交互界面;关键词扩展部件10作为查询器11的补充,需要时将暂存或处理该关键词相应的各级关键语句、相应的例句、邻接词段树状结构目录(参见图8)等,以满足而后搜索或显示的需要;如果这些内容在数据库9或关键词扩展部件10中尚未安排,关键词扩展部件10将在查询器11的关键词查询数据基础上将其建立。
实际上,达到上述目的十分容易,可以利用各种方法。例如,无论事后还是事前,对于一个可能的关键词或实际提出的关键词,无论是实施例A的关键词扩展部件10还是计算机或其他搜索***,都可以从含有该关键词的索引或文件序列任找一条(例如第一条)索引或文件查看关键词及邻接的词或词组即邻接词段(按照预定的长度),将它们作为第一条关键语句存储;再找第二条索引或文件查看其关键词邻接的词或词组是否与第一条的相同?如果不同,则依次存储,相同则舍弃;再查看第三条索引或文件并与前两条比较……依此类推,将得到一组彼此各不相同的关键语句;在上述比较过程中,如果顺便将包含同样关键语句的索引或文件分别排列成组,则各个子集已经形成,否则,以各关键语句为标准由查询器11分别检索所述索引或文件序列,即可得到相应各个子集。如果在每一个索引或文件子集的序列里,比照上述方法搜索各种第2级邻接词段,将得到各种第2级关键语句和相应的低一级子集……并依此类推。如果在得到的每一个子集里各选一条(例如第一条)或几条索引或摘要作为例句,则得到所需的目录和例句序列,进而完成编组操作。
这直接表明,本方法无论事后还是事前,无论根据的是可能的关键词或实际提出的关键词,都同样可以对相关文本进行处理,以方便查询。
这实际上就是通过对原有关键词邻接词段的扩大以及对扩大部分相同与否的比较,将原来的同一邻接词段子集进一步细分为若干下一级子集。
对于目录和例句序列的排列顺序,例如可以依据一个目标函数值的大小安排。该目标函数值为相应条目的相应子集之中目标函数最大的文本之值,等于该文本的佩奇链接值与近期点击率之和。所述例句可以由相应子集目标函数值最大的文本中所摘引。
在其他实施例里,目录或例句或题录或摘要等信息的序列的排序,可以根据一个目标函数值F(x1,x2…xn)的大小来决定。
对于附加广告内容的文本,目标函数值可以等于相应出价。
由于已有技术中有许多关于文本排序的具体处理方法,此处不再详述。
实施例A的关键词索引可以采用按各个子集分布的体系,并不比现有的其他关键词索引库占用更大的存贮空间,这是其突出优点之一。
在另一个实施例B里,其关键词索引库没有采用子集分布,由于其索引数据结构包含着关键词项和几个邻接词段项,其查询器11根据关键词段和一个或多个邻接词段组合的关键语句,可以分别直接将应该属于相应子集的索引搜索并展示出来。在实施例B中,只需要安排邻接词段或关键语句的树状目录,甚至可以不改变原有的传统关键词索引数据库。
当然,也可以更一般地得到已有子集的下级子集:
需要时可以利用类似图8所示的邻接词段树状目录来反映关键词不同级别邻接词段之间先后关系,并展示在画面上将有利于用户了解各子集或各级子集的总体状态,以采取更好的搜索策略。此图略去了各个子集相应的文本数目标示。其中关键词为“布林”,邻接词段1、邻接词段2、邻接词段3、邻接词段4都由单个实词构成,它们也分别代表了各级子集分别含有的共同邻接词段。
实施例A可以执行选定操作,即允许所述***根据查询者在交互界面的页面的文本或摘要上或目录上或者选择栏的光标指示,确定相应的关键语句,并且对该关键语句对应的扩展的关键语句或或扩展的邻接词段或索引或文本摘要进行编组操作,或者进行相应索引或文本摘要或文本的排序展示,或者进行移除操作,将所述页面或其他多个页面含有该关键语句的条目或索引或文本摘要或文本剔除或移动位置。
图10所示为本发明的一个实施例的搜索过程中一次光标点击及生成显示结果(即进行编组的选定操作)的局部屏幕画面示意图。
其中搜索框51供输入关键词(此例中为“布林”),52为点击操作的两种选项:‘点击展开’或‘点击剔除’,此例中选择了‘点击展开’。此处供点击的对象是画面上摘要栏53展示的摘要55。查询者阅读时对“布林线指标”的相关内容感兴趣,将光标54对准“标”字点击,这样,从“布林”到“标”之间的“布林线指标”就作为新的关键语句,并按编组操作,列出几种进一步扩展的邻接词段或各自的例句56。
实施例A的搜索方法还包括忽视操作,即可以把查询者浏览包含原关键语句的索引或文本摘要或文本序列时在交互界面2的页面上的操作(如换页)或者在页面上相应条目、内容上所作的“关注点击”或“忽视点击”的数据加以记录或分析,对在一定阅读时间或空间内一直被忽视的或未被关注的关键语句及其在后面的相关索引和摘要进行移除操作。
在实施例A的***里,当用户1通过交互界面2提出关键词要求后,查询器11能够根据要求在所述数据库进行查询并将查询到的相关数据结果列表提供给交互界面2;如果用户1希望扩展关键词,关键词扩展部件10将生成相应关键语句,并提取或由查询器11搜索提供所需数据。
该搜索引擎8(包括查询器11和关键词扩展部件10)的工作流程可以通过图9来说明:
该***按照模块41开始工作,查询有无关键词搜索要求(42),无则返回(48);有则按照模块43查询有无关键词扩展操作要求?若无,则执行44提供普通的搜索结果序列展示,如有,则执行45通过交互界面2的屏幕上的提示框来查询用户1的需求;然后进行相应的操作,按照模块46提供相应的信息,继续查询用户1的选择和需求……几次重复后按照模块47提供相应搜索信息,按照用户1的意愿执行模块48返回或者49结束。
与搜索引擎8相对应的用户1在交互界面的操作流程可以通过图7来表示:
在打开交互界面2开始工作(31)后,选定关键词(32),可以进行常规浏览(34),也可以选择扩展搜索(33);如选择(33),即利用扩展关键语句搜索技术,则需要通过光标点击选择适当的操作方式:例如选取关键词第一邻接词段的长度(所包含的词的数量)。其长度短,相应的关键语句的种类(子集数)较少,但每个子集的内容庞杂;其长度长,相应的关键语句的种类(子集数)较多,而每个子集的核心内容则比较单一或集中。
显然,当我们选择的关键语句的长度达到5到6个词时,得到的如前所述的单一性索引或摘要编组序列,将是一个核心内容基本不重复也无多少遗漏的
“精炼序列”,文件总量却可能减少几个数量级。
在选择较长的关键语句时,第一级所述单一性索引的条数会比较多。本***允许利用点击操作改而适当减少关键语句的邻接词或邻接词段的数量,可以大大减少第一级或该级单一性索引或关键语句或摘要或例句的条数。
如果放弃对关键词第一邻接词段长度的选取以及其他类型的选项,***将自动按照原定的例如以每级邻接词段为单词或双词长度进行成组操作,并将结果呈现(35)。此时用户1可以选择37在结果中直接打开链接文本,也可以按照36在呈现于画面的结果中选定适当的扩展关键语句(可参看图10),并得到模块38所展示的进一步搜索结果(下一级子集目录等内容)。
至此,用户1仍然可以选择40直接打开链接文本,也可以选择39继续选定某个扩展的关键语句……依此类推,直至返回(301)。
这种逐级扩展关键语句即逐级缩小搜索范围的方式,将迅速有效锁定搜索目标。
在实施例A中,当然在本发明的方法的其他实施例中,都可以记录或累计某个或某些或所有查询者在某个时间段内对各种关键词的包含各种邻接词段的各种关键语句的相关内容的点击次数,或在需要时设置相应的统计模块。
在实施例C中,上述的关键语句搜索技术将与现有的关键词搜索技术相结合,在其子集内部的索引排序时,或者在编组操作选择各条例句时,注意尊重或维持相关文件在已有技术的搜索***的搜索结果中的排序或位置。换句话说,本发明的技术包括在上述基本方法和基本结构基础上对已有技术搜索排序原理或方法的运用。实施例B与实施例C在所指明之处以外的方面,与实施例A基本相同。
以上实施例给出的技术特征都是提示性的,一个实施例的各种技术特征是可以独立使用的,不允许用来限制本发明包括的范围。

Claims (31)

1、一种计算机执行的对多个含有同样关键词的电子文本进行处理与检索的方法,包括:
步骤(1)获得多个含有同样关键词的电子文本;
步骤(2)规定邻接词段所含字词数量或邻接词段截取方式;
步骤(3)根据部分或全部电子文本中的电子文本内容中关键词的邻接词段相同还是不同,将所述电子文本进行相应处理;
步骤(4)将处理结果在交互界面显示;
所述相应处理包括下述处理方式之任一:
第一处理,邻接词段相同的电子文本具有相同的分布位置或存储方式,邻接词段不同的电子文本具有不同的分布位置或存储方式;
第二处理,将邻接词段相同的电子文本划分入相同的子集或者得到相同的子集标记,将邻接词段不同的电子文本划分入不同的子集或者得到不同的子集标记;
第三处理,使邻接词段相同的电子文本的索引具有相同的标记或索引项,使邻接词段不同的电子文本的索引具有不同的标记或索引项;
第四处理,使邻接词段相同的电子文本具有相同的编排方式,使邻接词段不同的电子文本具有不同的编排方式;
第五处理,使邻接词段相同的电子文本在交互界面具有相同的显示方式或位置,使邻接词段不同的电子文本在交互界面具有不同的显示方式或位置;
第六处理,将邻接词段相同的电子文本划分入相同的子集,将邻接词段不同的电子文本划分入不同的子集,至少部分子集各有一个或多个邻接词段或电子文本进行跨子集组合或排序;
第七处理,编排一级或多级的目录或序列,所述目录或序列反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段的并列或先后关系,或者反映包含这些不同邻接词段或间接邻接词段的语句或摘要实例的并列或先后关系;
所述的电子文本是电子文件或者其摘要或索引或题录或题目。
2、按照权利要求1所述的处理与检索的方法,其中所述电子文件是网页。
3、按照权利要求1所述的处理与检索的方法,所述第二处理中进一步包括:
编排一级或多级的目录或序列,所述目录或序列反映所述电子文本的同样关键词的不同邻接词段或间接邻接词段的并列或先后关系,或者反映包含这些不同邻接词段或间接邻接词段的语句或摘要实例的并列或先后关系;
并且,包括所述电子文本的一个或多个不同子集各自的相同邻接词段或相同间接邻接词段或者包含相同邻接词段或相同间接邻接词段的语句或摘要实例,或者包括这个或这些子集的下一级或下多级的多个子集各自的相同邻接词段或相同间接邻接词段或者包含相同邻接词段或相同间接邻接词段的语句或摘要实例,按照并列或先后关系编排或分布或存储或显示;
其中相同邻接词段或相同间接邻接词段或者包含相同邻接词段或相同间接邻接词段的语句或摘要实例跨子集或在子集内并列。
4、按照权利要求1所述的处理与检索的方法,其中进一步包括以下步骤:
对于属于某个或某些同一第一级子集或较高级的子集的不同电子文本,根据电子文本含有的同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部电子文本按如下处理方式之任一进行处理:
第八处理,其他邻接词段相同的电子文本具有相同的分布位置或存储方式,其他邻接词段不同的电子文本具有不同的分布位置或存储方式;
第九处理,将其他邻接词段相同的电子文本划分入相同的下一级子集或者得到相同的子集标记,将其他邻接词段不同的电子文本划分入不同的下一级子集或者得到不同的子集标记;
第十处理,使其他邻接词段相同的电子文本的索引具有相同的标记或索引项,使其他邻接词段不同的电子文本的索引具有不同的标记或索引项;
第十一处理,使其他邻接词段相同的电子文本具有相同的编排方式,使其他邻接词段不同的电子文本具有不同的编排方式;
第十二处理,使其他邻接词段相同的电子文本在交互界面具有相同的显示方式或位置,使其他邻接词段不同的电子文本在交互界面具有不同的显示方式或位置;
第十三处理,将其他邻接词段相同的电子文本划分入相同的下一级子集,将其他邻接词段不同的电子文本划分入不同的下一级子集,至少部分子集各有一个或多个邻接词段或电子文本进行跨子集组合或排序;
第十四处理,编排一级或多级的目录或序列,该目录或序列反映所述电子文本的同样关键词及邻接词段的其他不同邻接词段或间接邻接词段的并列或先后关系,或者反映包含这些不同邻接词段或间接邻接词段的语句或摘要实例的并列或先后关系。
5、按照权利要求1或3或4所述的处理与检索的方法,其中对依次的邻接词段进行合并或分开操作,以减少或增加子集层次。
6、按照权利要求1或3所述的处理与检索的方法,其中,判断关键词的邻接词段或关键词的邻接词段的其他邻接词段的相同或不同时,略去邻接词的前缀或后缀或者标点或空格的差别,或者略去助词或数词或量词或形容词或副词的有无或差别,或者略去冠词或连词有无或差别。
7、按照权利要求1或3或4所述的处理与检索的方法,其中当关键词为分开的多个字词时,所述邻接词段是指其中某一字词或多个字词的邻接词段。
8、按照权利要求1或3或4所述的处理与检索的方法,其中邻接词段所包含的字词或字符的数量或邻接词段的截止方式或具体内容是预定的或者查询者默认的或选定的。
9、按照权利要求8所述的处理与检索的方法,其中包括:判断邻接词段或间接邻接词段的字词或字符的数量时,略去一字词或多个字词的前缀或后缀或者助词或数词或量词或者标点或空格或形容词或副词的有无或差别。
10、按照权利要求1或3所述的处理与检索的方法,其中,如果所述目录或序列中的关键词的邻接词段或间接邻接词段的下一级或下多级邻接词段只有一种,则将邻接词段或间接邻接词段连同其下一级或下多级邻接词段在其原有位置一起分布或存储或显示。
11、按照权利要求1或3或4所述的处理与检索的方法,其中,步骤(4)中进一步包括:
在电子文本或目录或语句或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,具有其相应的并列子集数目或下级子集数目或者相关词或邻接词段或间接邻接词段所在子集的并列子集数目或间接邻接词段所含的下级子集数目或文本数目的提示。
12、按照权利要求1或3或4所述的处理与检索的方法,进一步包括步骤(5),即查询者在交互界面上对目录或序列中的文字或图形或符号进行指示,确定或展开或链接相关内容。
13、按照权利要求1所述的处理与检索的方法,第七处理中还包括:
编排含有同样关键词的多个电子文本或电子文本部分内容的序列,该序列含有的由多个词组成的邻接词段互不相同,或者该序列中的各个电子文本或电子文本部分内容含有的多个词的关键词邻接词段互不相同。
14、按照权利要求1所述的处理与检索的方法,进一步包括步骤(6):
将电子文本的同样关键词的不同邻接词段进行相似比较,将相互符合一定相似要求的多个不同邻接词段划分入同一相似子集;
或者将相互不符合一定相似要求的多个不同邻接词段划分入不同相似子集;
或者将相互不符合一定相似要求的多个不同邻接词段编成彼此不相似邻接词段的序列或目录,将同一相似子集的各元素的共同的内容作为或不作为该相似子集的名称或标记,或将其列入相似子集名称序列或目录。
15、按照权利要求14所述的处理与检索的方法,其中,所述的一定相似要求至少包括对不同邻接词段所含有的同样的字或词或词组或字符的数量或所占比例的要求。
16、按照权利要求14所述的处理与检索的方法,其中,将含有邻接词段或间接邻接词段的子集划为该邻接词段所在的相似子集的下级子集,或者将含有邻接词段的电子文本或其部分内容划入该邻接词段所在的相似子集。
17、按照权利要求1或3或4所述的处理与检索的方法,进一步包括步骤(7),即:
并列子集或者并列邻接词段或间接邻接词段或者并列电子文本或者并列的语句或摘要实例或代表性序列信息中的某一个的具体排序位置,部分或完全取决于下列其中一个或多个因素:
第一因素,电子文本或者邻接词段或间接邻接词段或语句或摘要实例或信息所在电子文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低;
第二因素,该子集的下级子集数目或下属电子文本数目的多少或者该子集点击率的高低或者该子集的电子文本佩奇链接值的平均数值的大小;
第三因素,邻接词段或间接邻接词段或者电子文本或者语句或例句或摘要实例所在子集的下级子集数目或下属电子文本数目的多少或者所在子集点击率的高低或者所在子集的电子文本佩奇链接值的平均数值的大小;
第四因素,子集的佩奇链接值最高的电子文本或另外的电子文本实例的佩奇链接值的大小;
第五因素,子集的点击率最高的或关键词出现率最高的电子文本或另外的电子文本实例的点击率或关键词出现率的高低;
第六因素,电子文本或相关子集内的相关电子文本在其他搜索网站或检索***搜索结果中的排序;
第七因素,电子文本或邻接词段或间接邻接词段词段的出资人相关付费或竞价的高低;
第八因素,邻接词段的词字的拼写或拼音的字母顺序或笔划;
第九因素,电子文本的来源网站或单位或人的评分;
第十因素,电子文本收录的时间先后或新旧;
第十一因素,电子文本是否属于某一级的同一子集;
第十二因素,通过一种目标函数值来决定,目标函数值取决于一个或多个变量,所述目标函数的变量部分或全部分别代表上面所述其中某一个或多个因素。
18、按照权利要求1或3或4所述的处理与检索的方法,其中进一步包括步骤(8),即
增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或范围的限制,得到进一步精炼的结果或更宽泛的结果。
19、一种运用权利要求1所述的处理与检索的方法的包括存储装置的计算机数据***,其特征在于,所述存储装置所含有的部分或全部关键词索引或电子文本摘要或电子文本的数据以下列方式分布:
电子文本摘要或电子文本含有同一关键词而该同一关键词的邻接词段相同或不同的索引或电子文本摘要或电子文本的数据,位于同一关键词集的同一或不同子集的分布区域。
20、一种运用权利要求1所述的处理与检索的方法的搜索引擎***,该搜索引擎***包括:
服务器,经由通讯网络或线路与交互界面所在的客户机耦合;
该服务器包括搜索引擎;
该搜索引擎包括数据库和查询器;
其中,所述数据库存储了关键词索引,所述查询器根据查询者提出的关键词要求在所述数据库进行查询并将查询到的相关数据结果列表提供给交互界面;
其特征在于:
所述数据库还存储了包含关键词的电子文本摘要或电子文本,该电子文本摘要包含或不包含在关键词索引内;
所述查询器或搜索引擎包括关键词扩展部件,所述关键词扩展部件能够对正查询的或待查询的关键词进行一次或多次扩展操作,该扩展操作包括:将在含有所述关键词的电子文本内容中或电子文本摘要中出现的关键词及其邻接词段,作为各个不同的扩展关键语句,并将其列表,或将所述关键词的不同邻接词段列表以供查询者经由交互界面选用,或者将含有相同或不同的扩展关键语句的不同索引或电子文本摘要或电子文本进行检索或编排或整理,以供查询者经由交互界面选用。
21、按照权利要求20所述的搜索引擎***,其中
存储有反映具有同一关键词的电子文本或电子文本摘要或题录中的关键词不同级别邻接词段之间先后关系的邻接词段树状目录,或者包括反映所述关键词不同级别扩展的关键语句之间先后关系的树状目录。
22、按照权利要求20所述的搜索引擎***,其中:
还包括用户图形交互界面,所述图形交互界面包括对话框或选择框,以接收查询者对操作方式或模式的选择;所述图形交互界面还包含用于点击的关键语句或邻接词段或语句或段落或操作命令或选择的文字或符号或图形,以使查询者添加附加查询信息。
23、一种用于权利要求20所述搜索引擎***的搜索方法,包括以下步骤:
步骤A,经由交互界面接收查询者的关键词查询要求;
步骤B,根据所述关键词查询要求查询所述数据库;
步骤C,将在含有关键词的电子文本内容中或电子文本摘要中出现的关键词连同其邻接词段,作为关键语句;
其中,邻接词段所包含的字词或字符的数量或该邻接词段的截止方式,是由所述搜索引擎***预定的或者查询者默认的或选定的,或者根据邻接词段的端部的符号或字或词或字体或颜色或空格来确定,或者由查询者在交互界面呈现的选择栏里或包含具体索引的电子文本摘要或电子文本的页面上进行的光标指示的位置和方式来确定;
步骤D,根据步骤C中所述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的关键语句;
步骤E,根据得到的邻接词段或关键语句生成搜索结果,即:将含有所述的相同或不同的邻接词段或关键语句的不同索引或电子文本摘要或电子文本或题录进行检索或编排,以供查询者经由交互界面选用。
24、按照权利要求23所述的搜索方法,所述步骤A-E由所述搜索引擎***预先或在查询时进行。
25、按照权利要求23所述的搜索方法,进一步包括:
步骤F,将在含有关键语句的电子文本内容中或电子文本摘要中出现的关键语句连同其邻接词段,或者将该关键语句连同其邻接词段,作为扩展的关键语句;
其中,邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容,是由所述搜索引擎***预定的或者查询者默认的或选定的;
步骤G,根据步骤F中所述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的扩展的关键语句;
步骤H,根据步骤G得到的邻接词段或扩展的关键语句生成搜索结果,即:并将含有所述的相同或不同的邻接词段或扩展的关键语句的不同索引或电子文本摘要或电子文本或题录进行检索或编排或分别存储,以供查询者经由交互界面选用;
步骤A-H由所述搜索引擎***预先或在查询时进行。
26、按照权利要求23所述的搜索方法,其中还包括编组步骤:
即将含有同样关键词的各种不同的关键语句或邻接词段或索引或电子文本摘要或电子文本,或者将含有同样原关键语句的各种不同的扩展的关键语句或邻接词段或索引或电子文本摘要或电子文本,各自编组以目录或序列形式排列或显示,其中对每一种邻接词段所在的关键语句或索引或电子文本摘要或电子文本仅收进各一个或多个。
27、按照权利要求23所述的搜索方法,其中,
将部分或全部关键词索引或电子文本摘要或电子文本的数据,根据其含有的关键词或关键语句或者扩展关键语句的不同或相同,分布于不同或相同的子集区域或者不同或相同的更低级的子集区域存储。
28、按照权利要求23所述的搜索方法,其中,
对所述数据库内的文本或摘要或搜索引擎附带的数据采集服务器从互联网得到的电子文本进行分析,产生并存储电子文本相应的索引,该索引包括关键词段、邻接词段和电子文本ID段。
29、按照权利要求23所述的搜索方法,其中还包括编排步骤:
即编排反映具有同一关键词的电子文本或电子文本摘要中的该关键词不同级别邻接词段之间先后或并列关系的树状目录,或者反映该关键词不同级别扩展的关键语句之间先后或并列关系的树状目录,以供查询时使用。
30、按照权利要求23或24或25所述的搜索方法,其中还包括选定步骤:
即所述搜索引擎***根据查询者在交互界面的页面的电子文本或电子文本摘要上或关键语句或邻接词段目录上或者在选择栏或框中的光标指示,确定相应的关键语句,并且对该关键语句对应的各种不同的扩展的关键语句或扩展的邻接词段或索引或电子文本摘要或电子文本进行目录展示,或者进行相应索引或电子文本摘要或电子文本的排序展示,或者根据确定的相应的关键语句进行移除步骤,所述移除步骤将该页面或其他多个页面含有的关键语句的条目或索引或电子文本摘要或电子文本剔除或移动位置。
31、按照权利要求23所述的搜索方法,其中还包括忽视步骤:
即根据查询者浏览包含原关键词的或者包含原关键语句的索引或电子文本摘要或题录或电子文本序列时在交互界面上对页面或在页面上的操作,判断查询者浏览该索引或电子文本序列的即时位置;如果确定排列在该即时位置前面一定范围里包含关键语句的索引或电子文本摘要或电子文本或关键语句本身一直或连续一定次数未被打开或链接,也未被点击或提示保留,则根据该关键语句进行移除步骤,所述移除步骤将该页面或其他多个页面含有的关键语句的条目或索引或电子文本摘要或电子文本剔除或移动位置。
CNB200710164298XA 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和*** Expired - Fee Related CN100501745C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200710164298XA CN100501745C (zh) 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和***

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN200710079309.4 2007-02-15
CN200710079309 2007-02-15
CN200710087104.0 2007-03-21
CN200710147578.X 2007-08-28
CNB200710164298XA CN100501745C (zh) 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和***

Publications (2)

Publication Number Publication Date
CN101201841A CN101201841A (zh) 2008-06-18
CN100501745C true CN100501745C (zh) 2009-06-17

Family

ID=39517010

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710164298XA Expired - Fee Related CN100501745C (zh) 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和***

Country Status (1)

Country Link
CN (1) CN100501745C (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103314371B (zh) 2010-12-31 2017-12-15 肖岩 一种检索的方法和***
US9116984B2 (en) * 2011-06-28 2015-08-25 Microsoft Technology Licensing, Llc Summarization of conversation threads
CN103136274A (zh) * 2011-12-02 2013-06-05 北大方正集团有限公司 用于内容资源数据库的日期检索方法和装置
CN103185596A (zh) * 2011-12-30 2013-07-03 上海博泰悦臻电子设备制造有限公司 兴趣点搜索方法、兴趣点搜索装置
CN102819601B (zh) * 2012-08-15 2015-07-01 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN104216934B (zh) * 2013-09-29 2018-02-13 北大方正集团有限公司 一种知识抽取方法及***
CN104050158B (zh) * 2014-06-27 2017-05-17 吴涛军 一种保持语义完整性的引文自动提取方法和装置
JP6594981B2 (ja) * 2015-07-13 2019-10-23 帝人株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
CN108268438B (zh) * 2016-12-30 2021-10-22 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN107168991B (zh) * 2017-03-28 2020-12-04 北京三快在线科技有限公司 一种搜索结果展示方法和装置
CN107544962A (zh) * 2017-09-07 2018-01-05 电子科技大学 基于相似文本反馈的社交媒体文本查询扩展方法
CN109145016A (zh) * 2018-09-10 2019-01-04 合肥科讯金服科技有限公司 一种金融用互联网大数据检索***
CN111444413B (zh) * 2020-04-08 2023-05-12 作业不凡(北京)教育科技有限公司 一种数据查询方法、装置和计算设备

Also Published As

Publication number Publication date
CN101201841A (zh) 2008-06-18

Similar Documents

Publication Publication Date Title
CN100501745C (zh) 电子文本处理与检索的便捷方法和***
US9323827B2 (en) Identifying key terms related to similar passages
US8122032B2 (en) Identifying and linking similar passages in a digital text corpus
CN100375090C (zh) 通过任意国家语言的查询来检索匹配的文档的方法和***
CN101501630B (zh) 计算机化搜索结果列表的排序方法及其数据库搜索引擎
US8145632B2 (en) Systems and methods of identifying chunks within multiple documents
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
US20010049674A1 (en) Methods and systems for enabling efficient employment recruiting
US20070219986A1 (en) Method and apparatus for extracting terms based on a displayed text
CN101063975A (zh) 电子文本处理与检索的方法和***
US7024405B2 (en) Method and apparatus for improved internet searching
CN101246484A (zh) 一种便于查询的电子文本的相似性处理方法和***
CN102945237A (zh) 基于原始用户输入建议和细分用户输入的***和方法
CA2637239A1 (en) System for searching
CN1871605A (zh) 问答式文献检索***和方法
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
CN101520786A (zh) 一种输入法词典的实现方法和输入法***
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎***与方法
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
CN102831131A (zh) 构建标注网页语料库的方法及装置
US8924421B2 (en) Systems and methods of refining chunks identified within multiple documents
CN103136356A (zh) 一种搜索引擎终端用户输入参考文件提示信息的处理方法
KR20020089677A (ko) 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
WO2008098467A1 (fr) Procédé et système pratiques de traitement et d'extraction de texte électrique

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090617

Termination date: 20131024