CN113806491B - 一种信息处理的方法、装置、设备和介质 - Google Patents
一种信息处理的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113806491B CN113806491B CN202111143741.1A CN202111143741A CN113806491B CN 113806491 B CN113806491 B CN 113806491B CN 202111143741 A CN202111143741 A CN 202111143741A CN 113806491 B CN113806491 B CN 113806491B
- Authority
- CN
- China
- Prior art keywords
- document
- text
- query
- similarity
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 15
- 238000003672 processing method Methods 0.000 title abstract description 3
- 239000012634 fragment Substances 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims description 28
- 238000013467 fragmentation Methods 0.000 claims description 21
- 238000006062 fragmentation reaction Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种信息处理的方法、装置、设备和介质,该方法包括:获取查询终端发送的查询请求;所述查询请求中携带有查询文本;根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序;针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。通过采用上述方法,以解决检索结果不够精确的问题。
Description
技术领域
本申请涉及信息处理领域,具体而言,涉及一种信息处理的方法、装置、设备和介质。
背景技术
在技术进步的过程中,会不断的积累科研资料,这些科研资源基本上都是以数值化的形式存储于数据库中,以便在以后的生产过程中用户进行查阅,为了便于查阅数据库中的资料,搜索引擎应运而生,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的***。
但现有的通过搜索引擎查阅资料方式,基本上都是用户输入一个查询文本,检索***就直接提供与这个查询文本相关文档。
发明内容
有鉴于此,本申请的目的在于提供一种信息处理的方法、装置、设备和介质,用于解决现有技术中搜索结果不够精确的问题。
第一方面,本申请实施例提供了一种信息处理的方法,该方法包括:
获取查询终端发送的查询请求;所述查询请求中携带有查询文本;
根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序;
针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;
将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
在一个可行的实施方案中,所述文档的第一标签包括所述文档中每个碎片文本对应的第二标签和所述文档的大标题对应的第三标签;
所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词;
所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。
在一个可行的实施方案中,检索库中所存储的每个文档的第一标签是通过如下步骤得到的:
针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本;
针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述文档的大标题对应的第三标签,整合成所述文档的第一标签。
在一个可行的实施方案中,碎片文本的第二标签是通过如下步骤确定的:
基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;
根据所述关键词与关联词库中每个候选词的相似度,确定与所述关键词存在相关性的关联词;
将所述关键词和与所述关键词存在相关性的关联词,确定为所述碎片文本的第二标签。
在一个可行的实施方案中,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:
针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不包括小标题,则按照分段将所述文档进行碎片化处理,得到至少一个碎片文本。
在一个可行的实时方案中,所述根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,包括:
针对所述检索库中所存储的每个文档,计算所述文档的第一标签中的每一个词汇与所述查询文本中的关键词的词汇相似度;
针对所述检索库中所存储的每个文档,根据计算得到的所述文档的第一标签中的每一个词汇对应的词汇相似度,以及所述文档的第一标签中的每一个词汇的权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度;
根据每个文档的文档相似度,对所述检索库中的文档进行相似度排序。
在一个可行的实施方案中,所述方法还包括:
将所述查询文本中的关键词发送至查询终端,以使所述查询终端将每个文档的目标碎片文本中所包含的所述查询文本中的关键词进行突出显示。
第二方面,本申请实施例提供了一种信息处理的装置,包括:
获取模块,用于获取查询终端发送的查询请求;所述查询请求中携带有查询文本;
排序模块,用于根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序;
确定模块,用于针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;
发送模块,用于将每个文档的目标碎片文本和所述文档的相似度排序,发送至所述查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
在一个可行的实施方案中,所述文档的第一标签包括所述文档中每个碎片文本对应的第二标签和所述文档的大标题对应的第三标签;
所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词;
所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。
在一个可行的实施方案中,所述排序单元中的检索库中所存储的每个文档的第一标签是通过如下步骤得到的:
针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本;
针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述文档的大标题对应的第三标签,整合成所述文档的第一标签。
在一个可行的实施方案中,所述确定单元中碎片文本的第二标签是通过如下步骤确定的:
基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;
根据所述关键词与关联词库中每个候选词的相似度,确定与所述关键词存在相关性的关联词;
将所述关键词和与所述关键词存在相关性的关联词,确定为所述碎片文本的第二标签。
在一个可行的实施方案中,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:
针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不包括小标题,则按照分段将所述文档进行碎片化处理,得到至少一个碎片文本。
在一个可行的实施方案中,所述排序模块在用于根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序时,具体用于:
针对所述检索库中所存储的每个文档,计算所述文档的第一标签中的每一个词汇与所述查询文本中的关键词的词汇相似度;
针对所述检索库中所存储的每个文档,根据计算得到的所述文档的第一标签中的每一个词汇对应的词汇相似度,以及所述文档的第一标签中的每一个词汇的权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度;
根据每个文档的文档相似度,对所述检索库中的文档进行相似度排序。
在一个可行的实施方案中,所述装置还包括:
显示单元,用于将所述查询文本中的关键词发送至查询终端,以使所述查询终端将每个文档的目标碎片文本中所包含的所述查询文本中的关键词进行突出显示。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面所述的方法的步骤。
本申请实施例先获取查询终端发送的携带有查询文本的查询请求,从而根据查询请求中的查询文本确定用户在查询终端想要搜索的内容。根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,从而根据文档与查询文本的相似程度,将文档按照顺序在显示终端进行展示。针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本。将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
通过上述方法,在显示终端展示与查询文本相似度高的目标碎片文本,能够将搜索的结果精确到具体的某个小节或某个段落,并按照相似度由高到低展示该目标碎片文本以及该目标碎片文本对应的文档,与现有技术中直接显示整个文档的方式相比,搜索的结果更加精确。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种信息处理的方法的流程示意图;
图2为本申请实施例提供的一种确定文档的第一标签的方法的流程示意图;
图3为本申请实施例提供的一种信息处理的装置的结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种信息处理的方法的流程示意图,如图1所示,所述方法通过以下步骤实现:
步骤101、获取查询终端发送的查询请求;所述查询请求中携带有查询文本。
具体的,查询文本可以是整篇文档,也可以是词汇或是句子,查询文本的内容为用户通过查询终端想要查找的内容。查询请求中包含查询文本、提交查询文本的时间、用户的信息等,还包括用户选择的文档类型中的一种或多种。文档类型可以包括:资讯、贴吧、百科、文库、网页。具体的,当用户未设置文档查找范围时,默认在检索库中的全部文档中进行查找。
步骤102、根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序。
具体的,查询文本中的关键词,可以是实现标记或查询的时候标记的,也可以是***根据大数据或检索库检索提取得到的。例如,查询文本为“单片机的运行电压是多少”时,若检索库中预先标记了关于“单片机”、“电压”的第一标签,确定查询文本中的关键词为“单片机”、“运行电压”。或者,为查询文本设置关键词提取公式或提取模型,从而提取查询文本中的动词、名词等关键的词汇。在本申请实施例中,可以根据第一标签或该文档对应的领域,对检索库中的文档进行分类,以便用户在检索或搜索的时候进行分类检索,减少***的数据处理量。所述文档的第一标签包括所述文档中每个碎片文本对应的第二标签和所述文档的大标题对应的第三标签;所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词;所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。
根据确定的查询文本中的关键词,确定关键词与检索库中存储的各个文档的第一标签之间的相似度,并根据该关键词和该第一标签,确定检索库中的文档与该查询文本的相似度,根据相似度的数值大小,将检索库中的文档进行排序。
步骤103、针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本。
具体的,文档中的每个碎片对应着文档中一个小节的关键信息或一个段落的关键信息,对文档中的碎片划分的越精细,检索库中存储的该文档的第二标签也就越多。
针对每个文档,根据为该文档标记的第二标签,以及查询文本和查询文本中的关键词,确定该文档与查询文本之间的相似度,并将文档中与查询文本的相似度符合预设要求的词汇、句子或段落构成的文本,作为目标碎片文本。
步骤104、将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
具体的,在步骤103得到与查询文本的相似度符合预设要求的目标碎片文本之后,将目标碎片文本和该目标碎片文本对应的文档与所述查询文本的相似度,按照查询文本的相似度数值的高低进行排序,并将按照相似度高低排列的目标碎片文本、每个目标碎片文本对应的文档发送到查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。在本申请实施例中,显示终端可以有多种显示目标碎片文本的方式,例如,在显示终端中提供能够通往该目标碎片文本对应的文档的路径;或是直接在该目标碎片文本对应的文档中,定位到目标碎片文本所在的区域,在文档中突出显示目标碎片文本中的内容。
具体的,针对每个文档,碎片文本为文档中每个碎片对应的内容构成的文本,当每个碎片为文档中的一个段落时,每个段落中的内容,构成一个碎片文本;当每个碎片为文档中的一节内容时,不论每个小节有几段文字或是图像等内容,都将该小节的所有内容作为一个碎片文本。其中,若出现图像、音频等信息,可以对该部分信息进行删除,或是通过特定手段将该部分信息转换为文本信息,碎片文本中的小标题、小标题中的关键词、碎片文本的正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词,以上任意一个或多个词汇均可以作为该碎片文本的第二标签。碎片文本的第二标签也可以是至少两个以上词汇以及每个词汇之间的对应关系。可以为每个碎片文本设置至少一个第二标签。
本申请实施例先获取查询终端发送的携带有查询文本的查询请求,从而根据查询请求中的查询文本确定用户在查询终端想要搜索的内容。根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,从而根据文档与查询文本的相似程度,将文档按照顺序在显示终端进行展示。针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本。将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
通过上述方法,在显示终端展示与查询文本相似度高的目标碎片文本,能够将搜索的结果精确到具体的某个小节或某个段落,并按照相似度由高到低展示该目标碎片文本以及该目标碎片文本对应的文档,与现有技术中直接显示整个文档的方式相比,搜索的结果更加精确。
在一个可行的实施方案中,图2为本申请实施例提供的一种确定文档的第一标签的方法的流程示意图,如图2所示,检索库中所存储的每个文档的第一标签是通过如下步骤得到的:
步骤201、针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本。
具体的,在将所述文档按照预设分割要求进行碎片化处理之前,所述方法还包括:获取数据库中的每个文档,针对所述数据库中的每个文档,对所述文档的类型进行判断,若所述文档为文字类型,则将所述文档存储到所述检索库中。数据库中的文档可以是上传的、从公开渠道获取的,也可以是根据大数据等方式统计得到的。其中,若所述文档的类型为非文字类型,可以通过文字转换的插件,将所述非文字类型的文档整理成文字类型的文档,然后存储到所述数据库中。
检索库中的文档数量是有限的。针对检索库中的每个文档,对所述文档先进行碎片化处理,将一个文档分割成至少一个碎片文本。根据实际情况,对预设分割要求进行调整,例如,预设分割要求可以是将文档中的每个段落构成的文本作为一个碎片文本;也可以是将文档中的每个小节的内容构成的每个文本作为碎片文本。在本申请实施例中,也可以将判断之后为文字类型的文档存储到数据库中的预设区域,并将数据库中该预设区域的访问接口提供给检索库,使得用户能够通过检索库中的接口,访问数据库中的目标文档。
步骤202、针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述文档的大标题对应的第三标签,整合成所述文档的第一标签。
具体的,在步骤201整理出碎片文本之后,为每个碎片文本标记至少一个第二标签和至少一个第三标签,将该文档对应的第二标签、第三标签成所述文档的第一标签。
在一个可行的实施方案中,碎片文本的第二标签是通过如下步骤确定的:基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;根据所述关键词与关联词库中每个候选词的相似度,确定与所述关键词存在相关性的关联词;将所述关键词和与所述关键词存在相关性的关联词,确定为所述碎片文本的第二标签。
具体的,候选词为碎片文本中每个关键词的近义词、同义词、释义、缩略语等语义相近或相同的词语。内容信息为构成该碎片文本的所有内容,所述内容信息包括但不限于:小标题、大标题、正文文字内容、图像音频等内容。根据碎片文本中的内容信息,确定该碎片文本中的至少一个关键词,所述关键词包括:大标题、小标题、正文文字以及对该碎片文本的总结性文字。针对为该碎片文本确定的每个关键词,确定该碎片文本中的关键词与关联词库中的每个候选词的相似度,并根据得到的相似度结果,将符合预先设置的关联阈值的候选词,确定为该碎片文本中的关键词的关联词。将该碎片文本中的每个关键词以及与每个关键词存在相关性的关联词,确定为所述碎片文本的第二标签。
在一个可行的实施方案中,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不包括小标题,则按照分段将所述文档进行碎片化处理,得到至少一个碎片文本。
具体的,在本申请实施例中,是根据小标题将文档进行划分的,将每个小标题以及该小标题下对应的内容共同构成的文本,作为碎片文本;在文档中没有小标题或只有一个标题的时候,根据段落对文档进行划分,将每个段落对应的内容构成的文本,作为碎片文本。本申请实施例不对碎片文本的划分方式进行限制,例如,可以根据关键词、描述方式、描述内容进行划分。
本申请实施例先获取查询终端发送的携带有查询文本的查询请求,从而根据查询请求中的查询文本确定用户在查询终端想要搜索的内容。根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,从而根据文档与查询文本的相似程度,将文档按照顺序在显示终端进行展示。针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本。将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
通过上述方法,在显示终端展示与查询文本相似度高的目标碎片文本,能够将搜索的结果精确到具体的某个小节或某个段落,并按照相似度由高到低展示该目标碎片文本以及该目标碎片文本对应的文档,与现有技术中直接显示整个文档的方式相比,搜索的结果更加精确。
在一个可行的实施方案中,步骤102所述的根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,包括:
步骤1021、针对所述检索库中所存储的每个文档,计算所述文档的第一标签中的每一个词汇与所述查询文本中的关键词的词汇相似度。
具体的,相似度的计算方法,可以是将第一标签中的词汇与查询文本中的词汇进行逐字对比,也可以通过模型判断第一标签中的词汇与查询文本中的词汇的语义相似度,并计算二者的相似度数值。
步骤1022、针对所述检索库中所存储的每个文档,根据计算得到的所述文档的第一标签中的每一个词汇对应的词汇相似度,以及所述文档的第一标签中的每一个词汇的权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度。
具体的,词汇的权重可以是预先设置的,也可以是根据其所在的标签分组确定的,例如,设置第二标签中词汇的权重与第三标签中词汇的权重不同,或者是,对文档中的词汇进行分级,设置大标题的权重为第一数值、小标题的权重为第二数值、正文关键词的权重为第三数值等。在步骤1021计算出检索库中所有文档的第一标签中的每个词汇与查询文本中的关键词的相似度数值之后,根据计算得到的相似度数值和权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度。通过调整第一标签中每个词汇的权重,能够得到不同的文档相似度排序。
步骤1023、根据每个文档的文档相似度,对所述检索库中的文档进行相似度排序。
具体的,在步骤1022计算出检索库中每个文档与查询文本的相似度之后,将所述文档进行排序。在本申请实施例中,还可以通过设置最低相似度阈值的方法,将低于最低相似度阈值的文档相似度的数值对应的文档不予显示,或是将第一标签中低于最低相似度阈值的词汇进行剔除,不参与文档相似度计算,以减少用户对无用信息的浏览时间或减少***的计算量。
在一个可行的实施方案中,所述方法还包括:
将所述查询文本中的关键词发送至查询终端,以使所述查询终端将每个文档的目标碎片文本中所包含的所述查询文本中的关键词进行突出显示。
具体的,在查询终端,单独显示或突出显示查询文本中的关键词,并显示为该关键词查找的目标碎片文本。在目标碎片文本中,将与查询文本的关键词相似度超过与预设阈值的词汇进行突出显示。
对应于图1中的一种信息处理的方法,图3为本申请实施例提供的一种信息处理的装置的结构示意图,如图3所示,所述装置包括:获取模块301、排序模块302、确定模块303、发送模块304。
获取模块301,用于获取查询终端发送的查询请求;所述查询请求中携带有查询文本。
排序模块302,用于根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序。
确定模块303,用于针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本。
发送模块304,用于将每个文档的目标碎片文本和所述文档的相似度排序,发送至所述查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
在一个可行的实施方案中,所述文档的第一标签包括所述文档中每个碎片文本对应的第二标签和所述文档的大标题对应的第三标签。
所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词。
所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。
在一个可行的实施方案中,所述排序单元中的检索库中所存储的每个文档的第一标签是通过如下步骤得到的。
针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本。
针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述文档的大标题对应的第三标签,整合成所述文档的第一标签。
在一个可行的实施方案中,所述确定单元中碎片文本的第二标签是通过如下步骤确定的。
基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词。
根据所述关键词与关联词库中每个候选词的相似度,确定与所述关键词存在相关性的关联词。
将所述关键词和与所述关键词存在相关性的关联词,确定为所述碎片文本的第二标签。
在一个可行的实施方案中,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:
针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不包括小标题,则按照分段将所述文档进行碎片化处理,得到至少一个碎片文本。
在一个可行的实施方案中,所述排序模块在用于根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序时,具体用于:
针对所述检索库中所存储的每个文档,计算所述文档的第一标签中的每一个词汇与所述查询文本中的关键词的词汇相似度。
针对所述检索库中所存储的每个文档,根据计算得到的所述文档的第一标签中的每一个词汇对应的词汇相似度,以及所述文档的第一标签中的每一个词汇的权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度。
根据每个文档的文档相似度,对所述检索库中的文档进行相似度排序。
在一个可行的实施方案中,所述装置还包括:
显示单元,用于将所述查询文本中的关键词发送至查询终端,以使所述查询终端将每个文档的目标碎片文本中所包含的所述查询文本中的关键词进行突出显示。
本申请实施例先获取查询终端发送的携带有查询文本的查询请求,从而根据查询请求中的查询文本确定用户在查询终端想要搜索的内容。根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,从而根据文档与查询文本的相似程度,将文档按照顺序在显示终端进行展示。针对每个文档,根据该文档中每个碎片对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本。将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本。
通过上述方法,在显示终端展示与查询文本相似度高的目标碎片文本,能够将搜索的结果精确到具体的某个小节或某个段落,并按照相似度由高到低展示该目标碎片文本以及该目标碎片文本对应的文档,与现有技术中直接显示整个文档的方式相比,搜索的结果更加精确。
对应于图1中的方法,本申请实施例还提供了一种计算机设备400,图4为本申请实施例提供的一种计算机设备的结构示意图,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述信息处理的方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述信息处理的方法,解决了现有技术中搜索结果不够精确的问题。
对应于图1中的一种信息处理的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述信息处理的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述信息处理的方法,解决了现有技术中搜索结果不够精确的问题,本申请实施例通过在显示终端展示与查询文本相似度高的目标碎片文本,能够将搜索的结果精确到具体的某个小节或某个段落,并按照相似度由高到低展示该目标碎片文本以及该目标碎片文本对应的文档,与现有技术中直接显示整个文档的方式相比,搜索的结果更加精确。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种信息处理的方法,其特征在于,包括:
获取查询终端发送的查询请求;所述查询请求中携带有查询文本;
根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,所述第一标签包括所述文档中每个碎片文本对应的第二标签,所述第二标签包括关联词库中的关联词;
针对每个文档,根据该文档中每个碎片文本对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;
将每个文档的目标碎片文本和所述文档的相似度排序,发送至查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本;
每个碎片文本对应的的第二标签是通过如下步骤确定的:
基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;
根据所述关键词与关联词库中每个候选词的相似度,将符合预先设置的关联阈值的候选词确定为所述关键词对应的关联词,所述候选词为与碎片文本中每个关键词的语义相近或相同的词语;
将所述关键词和所述关键词对应的关联词,确定为所述碎片文本的第二标签;
所述根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,包括:
针对所述检索库中所存储的每个文档,计算所述文档的第一标签中的每一个词汇与所述查询文本中的关键词的词汇相似度,所述词汇相似度用于表征两个词汇之间的语义近似程度;
针对所述检索库中所存储的每个文档,根据计算得到的所述文档的第一标签中的每一个词汇对应的词汇相似度,以及所述文档的第一标签中的每一个词汇的权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度;
根据每个文档的文档相似度,对所述检索库中的文档进行相似度排序。
2.根据权利要求1所述的方法,其特征在于,所述文档的第一标签还包括所述文档的大标题对应的第三标签;
所述第二标签包括以下词汇中的任意一种或多种:所述碎片文本的小标题关键词和正文关键词、与所述小标题关键词存在相关性的第一关联词、与所述正文关键词存在相关性的第二关联词;
所述第三标签包括以下词汇:所述文档的大标题关键词和与所述大标题关键词存在相关性的第三关联词。
3.根据权利要求1所述的方法,其特征在于,检索库中所存储的每个文档的第一标签是通过如下步骤得到的:
针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本;
针对所述检索库中每个文档,将所述文档中的每一个碎片文本的第二标签和所述文档的大标题对应的第三标签,整合成所述文档的第一标签。
4.根据权利要求3所述的方法,其特征在于,针对所述检索库中每个文档,将所述文档按照预设分割要求进行碎片化处理,得到至少一个碎片文本,包括:
针对所述检索库中每个文档,若所述文档中包括小标题,则按照所述小标题将所述文档进行碎片化处理,得到至少一个碎片文本;若所述文档中不包括小标题,则按照分段将所述文档进行碎片化处理,得到至少一个碎片文本。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述查询文本中的关键词发送至查询终端,以使所述查询终端将每个文档的目标碎片文本中所包含的所述查询文本中的关键词进行突出显示。
6.一种信息处理的装置,其特征在于,包括:
获取模块,用于获取查询终端发送的查询请求;所述查询请求中携带有查询文本;
排序模块,用于根据所述查询文本中的关键词和检索库中所存储的每个文档的第一标签,对所述检索库中的文档进行相似度排序,所述第一标签包括所述文档中每个碎片文本对应的第二标签,所述第二标签包括关联词库中的关联词;
确定模块,用于针对每个文档,根据该文档中每个碎片文本对应的第二标签,确定与所述查询文本相似度符合预设要求的目标碎片文本;
发送模块,用于将每个文档的目标碎片文本和所述文档的相似度排序,发送至所述查询终端,以使所述查询终端按照相似度排序显示每个文档的目标碎片文本;
所述确定模块,还用于:
基于所述碎片文本的内容信息,确定所述碎片文本的至少一个关键词;
根据所述关键词与关联词库中每个候选词的相似度,将符合预先设置的关联阈值的候选词确定为所述关键词对应的关联词,所述候选词为与碎片文本中每个关键词的语义相近或相同的词语;
将所述关键词和所述关键词对应的关联词,确定为所述碎片文本的第二标签;
所述排序模块,具体用于:
针对所述检索库中所存储的每个文档,计算所述文档的第一标签中的每一个词汇与所述查询文本中的关键词的词汇相似度,所述词汇相似度用于表征两个词汇之间的语义近似程度;
针对所述检索库中所存储的每个文档,根据计算得到的所述文档的第一标签中的每一个词汇对应的词汇相似度,以及所述文档的第一标签中的每一个词汇的权重,计算所述查询文本中的关键词和检索库中所存储的每个文档的文档相似度;
根据每个文档的文档相似度,对所述检索库中的文档进行相似度排序。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111143741.1A CN113806491B (zh) | 2021-09-28 | 2021-09-28 | 一种信息处理的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111143741.1A CN113806491B (zh) | 2021-09-28 | 2021-09-28 | 一种信息处理的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806491A CN113806491A (zh) | 2021-12-17 |
CN113806491B true CN113806491B (zh) | 2024-06-25 |
Family
ID=78938891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111143741.1A Active CN113806491B (zh) | 2021-09-28 | 2021-09-28 | 一种信息处理的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806491B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357511A (zh) * | 2021-12-30 | 2022-04-15 | 北京鼎普科技股份有限公司 | 一种对文档关键内容作标记的方法、装置和用户终端 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678412A (zh) * | 2012-09-21 | 2014-03-26 | 北京大学 | 一种文档检索的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110023924A (zh) * | 2016-11-11 | 2019-07-16 | 德尼梅尔奥克提麦恩有限公司 | 用于语义搜索的设备和方法 |
CN108038096A (zh) * | 2017-11-10 | 2018-05-15 | 平安科技(深圳)有限公司 | 知识库文档快速检索方法、应用服务器计算机可读存储介质 |
-
2021
- 2021-09-28 CN CN202111143741.1A patent/CN113806491B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678412A (zh) * | 2012-09-21 | 2014-03-26 | 北京大学 | 一种文档检索的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113806491A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
CA2638558C (en) | Topic word generation method and system | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
TWI431493B (zh) | 用於使用多階段方式之事實摘取的最佳化之方法、電腦可讀取儲存媒體及電腦系統 | |
US9483557B2 (en) | Keyword generation for media content | |
US9390161B2 (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
US8661049B2 (en) | Weight-based stemming for improving search quality | |
US20130268519A1 (en) | Fact verification engine | |
US9754022B2 (en) | System and method for language sensitive contextual searching | |
CN109241319B (zh) | 一种图片检索方法、装置、服务器和存储介质 | |
CN109634436B (zh) | 输入法的联想方法、装置、设备及可读存储介质 | |
US9164981B2 (en) | Information processing apparatus, information processing method, and program | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
CN113806491B (zh) | 一种信息处理的方法、装置、设备和介质 | |
CN111460177B (zh) | 影视类表情搜索方法、装置、存储介质、计算机设备 | |
US20230090601A1 (en) | System and method for polarity analysis | |
WO2019231635A1 (en) | Method and apparatus for generating digest for broadcasting | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
CN112269852B (zh) | 生成舆情专题方法、***及存储介质 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
KR101037091B1 (ko) | 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법 | |
EP3203384A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
Zhang et al. | Automatic semantic annotation for video blogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |