CN115730158A - 一种搜索结果展示方法、装置、计算机设备及存储介质 - Google Patents
一种搜索结果展示方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115730158A CN115730158A CN202211531138.5A CN202211531138A CN115730158A CN 115730158 A CN115730158 A CN 115730158A CN 202211531138 A CN202211531138 A CN 202211531138A CN 115730158 A CN115730158 A CN 115730158A
- Authority
- CN
- China
- Prior art keywords
- information
- search
- key
- sample
- search result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003062 neural network model Methods 0.000 claims description 52
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种搜索结果展示方法、装置、计算机设备及存储介质,其中,该方法包括:响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种;按照与所述搜索结果匹配的展示形式,展示所述搜索结果;其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种搜索结果展示方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的不断发展,用户可以在搜索引擎中搜索其感兴趣的网页内容。
在展示网页搜索结果时,搜索结果展示页面中各搜索结果的展示形式往往是相同的,在同一种展示形式下,某些搜索结果所展示的内容可能无法满足用户的搜索需求,从而会导致用户对搜索结果是否满足自己搜索需求产生错判。比如,某个网页的网页内容中可能包含了很好地匹配用户搜索需求的有效信息,但是因为展示形式的限制,导致在搜索结果展示出的该网页的部分内容并没有很好地体现出该有效信息。
发明内容
本公开实施例至少提供一种搜索结果展示方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种搜索结果展示方法,包括:
响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种;
按照与所述搜索结果匹配的展示形式,展示所述搜索结果;
其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
一种可能的实施方式中,所述与所述搜索信息匹配的搜索结果为根据以下方式确定的:
获取各个搜索结果;所述各个搜索结果包括所述关键信息和所述结构化信息;
基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果。
一种可能的实施方式中,所述结构化信息为根据以下方式预先确定的:
针对所述目标网页内容,基于针对该目标网页内容所属网页类别设置的关键字段组合,提取所述目标网页内容对应的结构化信息;所述结构化信息中包括所述关键字段组合指示的多个关键字段下的字段信息。
一种可能的实施方式中,所述关键信息为根据以下方式确定的:
提取所述目标网页内容中的各个文本段;
确定每个所述文本段与所述搜索信息之间的相关度;
选择对应的相关度最高的文本段作为所述关键信息;或者,选择对应的相关度大于第一设定阈值的至少一个文本段,将所述至少一个文本段整合为所述关键信息。
一种可能的实施方式中,基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果,包括:
将所述搜索信息、所述搜索信息对应的所述关键信息及所述结构化信息,输入至预先训练的神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一相关分数,和用于表征第二相关度的第二相关分数;
根据所述第一相关分数和所述第二相关分数,将相关分数较高的信息作为所述搜索信息匹配的搜索结果进行展示。
一种可能的实施方式中,根据以下步骤训练得到所述神经网络模型:
获取样本搜索信息、所述样本搜索信息对应的网页内容的样本关键信息和样本结构化信息、以及样本标签;其中,所述样本标签用于标注所述样本关键信息与所述样本搜索信息的第一样本相关度,以及所述样本结构化信息与所述样本搜索信息的第二样本相关度;
将所述样本搜索信息、所述样本关键信息、以及所述样本结构化信息,输入至待训练的所述神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一样本相关分数,和用于表征第二相关度的第二样本相关分数;
基于所述第一样本相关分数、所述第二样本相关分数以及所述样本标签,确定本次训练的损失值,并基于所述损失值对待训练的所述神经网络模型进行参数调整。
一种可能的实施方式中,所述对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,包括:
对所述关键信息进行切词处理,得到各个分词;
计算得到的各个分词与所述搜索信息之间的相关度,将所述关键信息中与所述搜索信息之间的相关度大于第二设定阈值的分词设置为突出展示形式。
第二方面,本公开实施例还提供一种搜索结果展示装置,包括:
获取模块,用于响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种;
展示模块,用于按照与所述搜索结果匹配的展示形式,展示所述搜索结果;
其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
一种可能的实施方式中,所述获取模块用于,根据以下方式确定与所述搜索信息匹配的搜索结果:
获取各个搜索结果;所述各个搜索结果包括所述关键信息和所述结构化信息;
基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果。
一种可能的实施方式中,所述获取模块还用于,根据以下方式预先确定所述结构化信息:
针对所述目标网页内容,基于针对该目标网页内容所属网页类别设置的关键字段组合,提取所述目标网页内容对应的结构化信息;所述结构化信息中包括所述关键字段组合指示的多个关键字段下的字段信息。
一种可能的实施方式中,所述获取模块还用于,根据以下方式确定所述关键信息:
提取所述目标网页内容中的各个文本段;
确定每个所述文本段与所述搜索信息之间的相关度;
选择对应的相关度最高的文本段作为所述关键信息;或者,选择对应的相关度大于第一设定阈值的至少一个文本段,将所述至少一个文本段整合为所述关键信息。
一种可能的实施方式中,获取模块,在基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果时,用于:
将所述搜索信息、所述搜索信息对应的所述关键信息及所述结构化信息,输入至预先训练的神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一相关分数,和用于表征第二相关度的第二相关分数;
根据所述第一相关分数和所述第二相关分数,将相关分数较高的信息作为所述搜索信息匹配的搜索结果进行展示。
一种可能的实施方式中,所述获取模块还用于,根据以下步骤训练得到所述神经网络模型:
获取样本搜索信息、所述样本搜索信息对应的网页内容的样本关键信息和样本结构化信息、以及样本标签;其中,所述样本标签用于标注所述样本关键信息与所述样本搜索信息的第一样本相关度,以及所述样本结构化信息与所述样本搜索信息的第二样本相关度;
将所述样本搜索信息、所述样本关键信息、以及所述样本结构化信息,输入至待训练的所述神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一样本相关分数,和用于表征第二相关度的第二样本相关分数;
基于所述第一样本相关分数、所述第二样本相关分数以及所述样本标签,确定本次训练的损失值,并基于所述损失值对待训练的所述神经网络模型进行参数调整。
一种可能的实施方式中,所述展示模块,在对所述关键信息中与所述搜索信息匹配的关键词进行突出展示时,用于:
对所述关键信息进行切词处理,得到各个分词;
计算得到的各个分词与所述搜索信息之间的相关度,将所述关键信息中与所述搜索信息之间的相关度大于第二设定阈值的分词设置为突出展示形式。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的搜索结果展示方法、装置、计算机设备及存储介质,与搜索信息匹配的搜索结果可以包括网页内容的关键信息和结构化信息中的一种,并按照与所述搜索结果匹配的展示形式展示所述搜索结果。本公开实施例中,通过对网页内容中关键字段的字段信息进行结构化展示,或者对与搜索信息匹配的关键信息进行突出展示,能够很好地提炼并展示出网页中的信息,提高用户对搜索结果的浏览效率。而且,本公开实施例中,可以将网页内容对应的关键信息及结构化信息中,最能匹配搜索需求的一种信息作为搜索结果,并按照与其对应的展示形式进行展示,而不是按照单一展示形式,单一限定展示关键信息或结构化信息,这种方式,可以使得搜索结果的展示形式更加灵活,并且使得展示出的搜索结果更好地适配搜索信息,从而更好地满足用户的搜索需求。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种搜索结果展示方法的流程图;
图2a示出了本公开实施例所提供的搜索结果展示方法中,一种搜索结果展示页面的示意图;
图2b示出了本公开实施例所提供的搜索结果展示方法中,另一种搜索结果展示页面的示意图;
图3示出了本公开实施例所提供的一种搜索结果展示装置的架构示意图;
图4示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
本公开实施例提供了一种搜索结果展示方法、装置、计算机设备及存储介质,在需要呈现与网页内容有关的搜索结果时,可以确定预先提取的网页内容的关键信息和结构化信息中的哪一种与搜索信息最匹配,最终呈现的搜索结果可以是网页内容的关键信息和结构化信息中,最匹配搜索信息的一种,并按照与所述搜索结果匹配的展示形式展示所述搜索结果。这种方式通过对网页中关键字段的字段信息进行结构化展示,或者对与搜索信息匹配的关键词进行突出展示,能够很好地提炼并展示出网页中的信息,提高用户对搜索结果的浏览效率。而且,本公开实施例中,可以从网页内容对应的关键信息及结构化信息中选择一种最能匹配搜索需求的信息作为搜索结果,而不是按照单一展示形式,单一限定展示关键信息或结构化信息,这种方式,可以使得搜索结果的展示形式更加灵活,并且使得展示出的搜索结果更好地适配搜索信息,从而更好地满足用户的搜索需求。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种搜索结果展示方法进行详细介绍,本公开实施例所提供的搜索结果展示方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为带有显示功能的智能终端设备,例如,可以为智能手机、平板电脑、智能穿戴设备等。在一些可能的实现方式中,该搜索结果展示方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的搜索结果展示方法的流程图,所述方法包括S101~S102,其中:
S101:响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种。
S102:按照与所述搜索结果匹配的展示形式,展示所述搜索结果;
其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
采用上述步骤,可以预先提炼出网页内容对应的关键信息及结构化信息;在接收到搜索信息后,可以从网页内容对应的关键信息及结构化信息中选择一种最能匹配搜索需求的信息作为搜索结果,并按照与其对应的展示形式进行展示,其中,若选择展示关键信息,则可以将其中解答搜索信息问题的关键词进行突出展示,比如飘红展示,若选择展示结构化信息,则可以将预先提取的网页内容的多个关键字段的字段信息,按照配置好的结构化样式进行展示。这种方式,可以使得搜索结果的展示形式更加灵活,并且使得展示出的搜索结果更好地适配搜索信息,从而更好地满足用户的搜索需求。
以下是对上述步骤的详细介绍。
针对上述S101:
上述搜索信息可以是用户在搜索页面的搜索栏中输入的信息,或者可以是基于推荐搜索词确定的搜索信息;所述目标网页内容为与所述搜索信息匹配的目标网页中的网页内容,所述目标网页的网页内容中可以包含有所述搜索信息对应的答案信息。
所述关键信息可以包含所述目标网页内容的标题、内容简介等概括性内容;所述结构化信息用于对网页内容中多个关键字段的信息进行结构化展示,所述关键字段可以包括封面、标题、分类、作者、更新状态、目录等,所述结构化信息可以通过结构化信息卡片等形式进行展示。
实际应用中,在用户使用搜索信息进行搜索之前,可以预先确定出各网页内容的关键信息和结构化信息,以便于在用户在使用搜索信息进行搜索时,快速的获取到搜索结果中网页内容的关键信息和结构化信息。
下面,将分别介绍结构化信息和关键信息的确定方式:
1、针对结构化信息:
针对所述目标网页内容,可以基于针对该目标网页内容所属网页类别设置的关键字段组合,提取所述目标网页内容对应的结构化信息。
其中,所述结构化信息中包括所述关键字段组合指示的多个关键字段下的字段信息。
具体的,不同的所述字段信息对应网页内容在网页中的不同位置的网页内容,不同的网页类别可以对应有不同的字段,以便从不同类别的网页中提取出不同的网页内容。
此外,由于需要基于目标网页内容所属网页类别设置的关键字段组合,进行结构化信息提取,因此还需要预先确定出目标网页的网页类别,并从目标网页对应的多个字段中确定出关键字段组合。
一种可能的实施方式中,可以通过预先训练好的网页类别确定模型,对各网页进行网页类别识别,从而可以批量确定出各网页的网页类别。
这里,所述网页类别确定模型可以是能够用于执行分类任务的神经网络模型,例如基于Transformer的双向编码器表示(Bidirectional Encoder Representations fromTransformers,BERT)模型等。
其中,所述网页类别确定模型的输入数据可以为,对所述目标网页的网页内容进行数据构造后得到的;进行数据构造得到的输入数据用于表征所述网络内容中的各个内容节点的内容和属性信息;所述属性信息包括深度信息和位置信息,所述深度信息用于表征所述内容节点与其他内容节点之间的层级关系,所述位置信息用于表征所述内容节点在网页中的布局位置。
具体的,在进行数据构造时,可以先基于深度优先遍历算法遍历所述目标网页对应的节点树,确定各内容节点对应的深度信息和位置信息;其中,所述节点树为基于所述目标网页对应的网页代码生成的;按照预设的数据构造顺序,将各内容节点的内容、各内容节点对应的深度信息以及位置信息进行拼接,得到所述目标网页对应的输入数据。
此外,在训练所述网页类别确定模型时,可以将对样本网页进行数据构造后生成的样本输入数据输入至待训练的网页类别确定模型中,得到所述网页类别识别模型输出的样本网页类别,并基于所述样本网页类别和所述样本网页对应的网页类别标签,确定本次训练的损失值,并基于所述损失值对所述网页类别确定模型的网络参数进行调整,直至参数调整次数达到预设调整次数,和/或所述网页类别确定模型的网络精度符合预设精度要求。
进一步的,在根据上述网页类别确定模型确定出各网页的网页类别后,即可配置各网页对应的关键字段组合,以根据所述关键字段组合中各关键字段对应的字段访问路径,提取出各网页中网页内容对应的结构化信息;为了提高关键字段组合的配置效率,还可以为属于同一网页组内的网页配置相同的关键字段组合,所述网页组可以由对应有部分相同网页地址的网页构成。
这样,在提取所述网页内容对应的结构化信息时,即可按照与所述目标网页的网页类别所属网页类别对应的关键字段组合,对所述目标网页的目标网页内容进行提取,从而得到所述目标网页内容对应的结构化信息。
2、针对关键信息:
这里,在确定关键信息时,可以通过以下步骤A1~A3:
A1:提取所述目标网页内容中的各个文本段。
这里,可以对所述目标网页内容进行文本切分处理,以得到所述目标网页内容中的各个文本段。
具体的,在对所述目标网页内容进行文本切分处理时,可以按照预设的文本切分长度进行文本处理处理,得到所述目标网页内容中的各个文本段;
或者,在对所述目标网页内容进行文本切分处理时,还可以按照所述目标网页内容中的目标标点符号进行文本切分处理,可以将第N个目标标点符号到第N+1个目标标点符号之间的文本内容作为一个文本段,其中,N为正整数,第一个目标标点符合之前的文本内容可以作为一个文本段,所述目标标点符合例如可以是逗号、句号等符号;
或者,在对所述目标网页内容进行文本切分处理时,还可以通过预先训练的文本切分模型,从文本语义角度进行文本切分处理,得到所述目标网页内容中的各个文本段。也即,文本切分模型通过进行语义识别,将目标网页内容中的不可分割语义内容切分为一个文本段,将不同语义的内容切分到不同的文本段中。还可以预先对文本进行切词处理,文本切分模型的输入数据可以为网页内容对应的切词结果,也即对所述网页内容进行切词处理后得到的多个待组合词语,所述文本切分模型可以对所述待组合词语进行语义识别,并将语义相同,和/或,语义相近,和/或语义相关且在所述网页内容中位置临近的待组合词语进行组合,得到至少一个词语组合,各所述词语组合即可构成一个文本段。
A2:确定每个所述文本段与所述搜索信息之间的相关度。
这里,所述文本段与所述搜索信息之间的相关度,可以通过计算两者的特征表示向量之间的欧式距离、两者的字符之间的编辑距离等来确定,或者可以直接通过语义识别模型计算两者的语义相关度。本公开实施例对选择何种计算相似度的方式不做具体限制。
A3:选择对应的相关度最高的文本段作为所述关键信息;或者,选择对应的相关度大于第一设定阈值的至少一个文本段,将所述至少一个文本段整合为所述关键信息。
示例性的,以文本段1~5与所述搜索信息的相关度分别为0.6、0.7、0.5、0.4、0.9为例,可以将对应的相关度最高的文本段5作为所述关键信息;或者,还可以选择相关度大于第一设定阈值0.65的文本段2和文本段5,并按照各文本段在网页内容中的排列顺序,对所述文本段2和所述文本段5进行整合,并将整合后的文本内容作为所述关键信息。
实际应用中,所述目标网页内容可以同时对应有关键信息和结构化信息,而若在搜索结果展示页面中同时展示目标网页内容对应的关键信息和结构化信息,则可能会因此展示内容较多,从而影响后续其他搜索结果的展示效果。
一种可能的实施方式中,在获取与所述搜索信息匹配的搜索结果时,可以通过以下步骤B1~B2:
B1:获取各个搜索结果;所述各个搜索结果包括所述关键信息和所述结构化信息。
这里,针对任一所述搜索结果,该搜索结果中可以包含该搜索结果对应的网页内容的关键信息,以及该搜索结果对应的网页内容的结构化信息。
B2:基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果。
这里,所述第一相关度和所述第二相关度可以是文本相关度和/或语义相关度。
一种可能的实施方式中,在从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果时,可以通过以下步骤B21~B22:
B21:将所述搜索信息、所述搜索信息对应的所述关键信息及所述结构化信息,输入至预先训练的神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一相关分数,和用于表征第二相关度的第二相关分数。
这里,所述预先训练的神经网络模型的网络类型例如可以是(基于Transformer的双向编码器表示,BidirectionalEncoder Representations from Transformer)模型。
B22:根据所述第一相关分数和所述第二相关分数,将相关分数较高的信息作为所述搜索信息匹配的搜索结果进行展示。
示例性的,以表征关键信息与搜索信息之间第一相关度的第一相关度分数为0.6,表征结构化信息与搜索信息之间第二相关度的第二相关度分数为0.8为例,则可以将对应的相关度分数较高的结构化信息,作为与所述搜索信息匹配的搜索结果进行展示。
进一步的,可以通过以下步骤C1~C3训练得到所述神经网络模型:
C1:获取样本搜索信息、所述样本搜索信息对应的网页内容的样本关键信息和样本结构化信息、以及样本标签;其中,所述样本标签用于标注所述样本关键信息与所述样本搜索信息的第一样本相关度,以及所述样本结构化信息与所述样本搜索信息的第二样本相关度。
C2:将所述样本搜索信息、所述样本关键信息、以及所述样本结构化信息,输入至待训练的所述神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一样本相关分数,和用于表征第二相关度的第二样本相关分数。
C3:基于所述第一样本相关分数、所述第二样本相关分数以及所述样本标签,确定本次训练的损失值,并基于所述损失值对待训练的所述神经网络模型进行参数调整。
这里,本次训练的损失值可以包括第一损失值和第二损失值;其中,所述第一损失值可以用于表征所述第一样本相关分数,与所述样本标签标注的所述第一样本相关度之间的差异,也即所述第一样本相关分数与标注的相关度是否相同;所述第二损失值可以用于表征所述第二样本相关分数,与所述样本标签标注的所述第二样本相关度之间的差异,也即所述第二样本相关分数与标注的相关度是否相同。
具体的,在确定损失值时,可以基于所述第一损失值、所述第二损失值以及预设的权重参数,对所述第一损失值和所述第二损失值进行加权求和,并基于加权求和后得到的损失值对所述神经网络模型进行参数调整,直至参数调整次数达到预设调整次数,和/或所述神经网络模型的网络精度符合预设精度要求。
这样,通过预先训练好的神经网络模型,即可从网页内容对应的关键信息和结构化信息中,选取出与搜索信息相关度更高的信息作为所述搜索信息匹配的搜索结果,从而使得最终展示的搜索结果与搜索信息的相关度更高,提高用户的搜索结果浏览效率。
针对S102:
这里,在对所述目标网页内容的多个关键字段的字段信息进行结构化展示时,可以按照与所述目标网页的网络类型匹配的结构化展示模板,对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
示例性的,搜索结果展示页面的示意图可以如图2a所示,图2a中用户输入的搜索信息为小说搜索信息“奋斗在XX时代”,与搜索信息匹配的目标网页为目标小说对应的网页,在对搜索结果进行展示时,使用了与目标网页的网页类别匹配的结构化展示模板(即小说卡片),对所述目标网页的结构化信息进行了展示,展示的结构化信息包括作者信息、状态信息、简介信息等,在所述小说卡片中还展示有最近更新的小说内容,用户可以通过触发相应的章节,即可浏览相应的小说章节的内容。
一种可能的实施方式中,在对所述关键信息中与所述搜索信息匹配的关键词进行突出展示时,可以通过以下步骤D1~D2:
D1:对所述关键信息进行切词处理,得到各个分词。
这里,在对所述关键信息进行切词处理时,可以使用中文切词模型(Chinese WordSegmentation,CWS)对所述关键信息进行切词处理,得到切词处理后的各个分词。
需要说明的是,本公开实施例对如何对所述关键信息进行切词处理不做限定,以能够实现为准。
D2:计算得到的各个分词与所述搜索信息之间的相关度,将所述关键信息中与所述搜索信息之间的相关度大于第二设定阈值的分词设置为突出展示形式。
这里,所述分词与所述搜索信息之间的相关度,可以包括欧式距离、编辑距离等文本相关度,和/或,语义相关度;在确定分词与所述搜索信息之间的相关度时,可以根据预设的相关度计算公式进行计算,本公开实施例对选择何种相关度计算公式不做限定,以实际应用中能够实现为准;所述突出展示形式可以包括加粗字体、改变字体颜色、改变字体所在区域的背景颜色、增大字体的大小等形式。
具体的,在计算出各个分词与所述搜索信息之间的相关度之后,可以将与所述搜索信息之间的相关度大于第二设定阈值的分词,或者,相关度排序队列中前M个分词设置为突出展示形式;其中,M为预设正整数。
示例性的,以分词1~分词5与所述搜索信息的相关度依次为0.6、0.8、0.5、0.4、0.2,则可以将大于第二设定阈值0.55的分词1和分词2作为需要进行突出展示的分词,并将分词1和分词2的展示形式设置为突出展示形式,以在展示搜索结果时对所述分词1和分词2进行突出展示;或者,也可以按照相关度由高到低对各分词进行排序,并将排序后得到的相关度队列中前3个分词“分词1”、“分词2”、“分词3”作为需要进行突出展示的分词,并将分词1、分词2、分词3的展示形式设置为突出展示形式,以在展示搜索结果时对所述分词1、分词2、分词3进行突出展示。
示例性的,搜索结果展示页面的示意图还可以如图2b所示,图2b中用户输入的搜索信息为“XX游记”,与搜索信息匹配的目标网页包括目标影视作品对应的网页,在对搜索结果进行展示时,使用了与目标网页的网页类型匹配的展示样式,对所述目标网页的关键信息进行了展示,并对所述关键信息中与所述搜索信息匹配的关键词“XX游记”和“电视剧”进行了突出展示;其中,所述影视作品卡片展示的关键信息包括集数信息、简介信息等。
本公开实施例提供的搜索结果展示方法,通过对网页内容中关键字段的字段信息进行结构化展示,或者对与搜索信息匹配的关键信息进行突出展示,能够很好地提炼并展示出网页中的信息,提高用户对搜索结果的浏览效率。而且,本公开实施例中,可以将网页内容对应的关键信息及结构化信息中,最能匹配搜索需求的一种信息作为搜索结果,而不是单一限定展示关键信息或结构化信息,这种方式,可以使得搜索结果的展示形式更加灵活,并且使得展示出的搜索结果更好地适配搜索信息,从而更好地满足用户的搜索需求。
也即,本公开实施例针对不同的搜索信息,如果匹配上同一网页内容,最终呈现在搜索结果页中的搜索结果,可能有的情况下是该网页内容的关键信息,有的情况下是该网页内容的结构化信息。这样通过在同一网页内容的关键信息和结构化信息中选择一种更加适配搜索信息的搜索结果,并按照匹配的展示形式进行展示,能够使得展示出的搜索结果更好地适配搜索需求,可以使得用户对网页内容是否满足自己搜索需求进行准确预判,进而作出是否进一步消费网页详情内容的决策,提高用户的搜索结果的浏览效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与搜索结果展示方法对应的搜索结果展示装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述搜索结果展示方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图3所示,为本公开实施例提供的一种搜索结果展示装置的架构示意图,所述装置包括:获取模块301和展示模块302;其中,
获取模块301,用于响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种;
展示模块302,用于按照与所述搜索结果匹配的展示形式,展示所述搜索结果;
其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
一种可能的实施方式中,所述获取模块301用于,根据以下方式确定与所述搜索信息匹配的搜索结果:
获取各个搜索结果;所述各个搜索结果包括所述关键信息和所述结构化信息;
基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果。
一种可能的实施方式中,所述获取模块301还用于,根据以下方式预先确定所述结构化信息:
针对所述目标网页内容,基于针对该目标网页内容所属网页类别设置的关键字段组合,提取所述目标网页内容对应的结构化信息;所述结构化信息中包括所述关键字段组合指示的多个关键字段下的字段信息。
一种可能的实施方式中,所述获取模块301还用于,根据以下方式确定所述关键信息:
提取所述目标网页内容中的各个文本段;
确定每个所述文本段与所述搜索信息之间的相关度;
选择对应的相关度最高的文本段作为所述关键信息;或者,选择对应的相关度大于第一设定阈值的至少一个文本段,将所述至少一个文本段整合为所述关键信息。
一种可能的实施方式中,获取模块301,在基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果时,用于:
将所述搜索信息、所述搜索信息对应的所述关键信息及所述结构化信息,输入至预先训练的神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一相关分数,和用于表征第二相关度的第二相关分数;
根据所述第一相关分数和所述第二相关分数,将相关分数较高的信息作为所述搜索信息匹配的搜索结果进行展示。
一种可能的实施方式中,所述获取模块301还用于,根据以下步骤训练得到所述神经网络模型:
获取样本搜索信息、所述样本搜索信息对应的网页内容的样本关键信息和样本结构化信息、以及样本标签;其中,所述样本标签用于标注所述样本关键信息与所述样本搜索信息的第一样本相关度,以及所述样本结构化信息与所述样本搜索信息的第二样本相关度;
将所述样本搜索信息、所述样本关键信息、以及所述样本结构化信息,输入至待训练的所述神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一样本相关分数,和用于表征第二相关度的第二样本相关分数;
基于所述第一样本相关分数、所述第二样本相关分数以及所述样本标签,确定本次训练的损失值,并基于所述损失值对待训练的所述神经网络模型进行参数调整。
一种可能的实施方式中,所述展示模块302,在对所述关键信息中与所述搜索信息匹配的关键词进行突出展示时,用于:
对所述关键信息进行切词处理,得到各个分词;
计算得到的各个分词与所述搜索信息之间的相关度,将所述关键信息中与所述搜索信息之间的相关度大于第二设定阈值的分词设置为突出展示形式。
本公开实施例提供的搜索结果展示装置,与搜索信息匹配的搜索结果可以包括网页内容的关键信息和结构化信息中的一种,并按照与所述搜索结果匹配的展示形式(关键信息和结构化信息分别对应不同的展示形式)展示所述搜索结果。这种方式能够使得搜索结果更好地适配不同的搜索信息,可以使得用户对网页内容是否满足自己搜索需求进行准确预判,进而作出是否进一步消费网页详情内容的决策,提高用户的搜索结果的浏览效率。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图4所示,为本公开实施例提供的计算机设备400的结构示意图,包括处理器401、存储器402、和总线403。其中,存储器402用于存储执行指令,包括内存4021和外部存储器4022;这里的内存4021也称内存储器,用于暂时存放处理器401中的运算数据,以及与硬盘等外部存储器4022交换的数据,处理器401通过内存4021与外部存储器4022进行数据交换,当计算机设备400运行时,处理器401与存储器402之间通过总线403通信,使得处理器401在执行以下指令:
响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种;
按照与所述搜索结果匹配的展示形式,展示所述搜索结果;
其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
一种可能的实施方式中,所述处理器401的指令中,所述与所述搜索信息匹配的搜索结果为根据以下方式确定的:
获取各个搜索结果;所述各个搜索结果包括所述关键信息和所述结构化信息;
基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果。
一种可能的实施方式中,所述处理器401的指令中,所述结构化信息为根据以下方式预先确定的:
针对所述目标网页内容,基于针对该目标网页内容所属网页类别设置的关键字段组合,提取所述目标网页内容对应的结构化信息;所述结构化信息中包括所述关键字段组合指示的多个关键字段下的字段信息。
一种可能的实施方式中,所述处理器401的指令中,所述关键信息为根据以下方式确定的:
提取所述目标网页内容中的各个文本段;
确定每个所述文本段与所述搜索信息之间的相关度;
选择对应的相关度最高的文本段作为所述关键信息;或者,选择对应的相关度大于第一设定阈值的至少一个文本段,将所述至少一个文本段整合为所述关键信息。
一种可能的实施方式中,所述处理器401的指令中,基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果,包括:
将所述搜索信息、所述搜索信息对应的所述关键信息及所述结构化信息,输入至预先训练的神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一相关分数,和用于表征第二相关度的第二相关分数;
根据所述第一相关分数和所述第二相关分数,将相关分数较高的信息作为所述搜索信息匹配的搜索结果进行展示。
一种可能的实施方式中,所述处理器401的指令中,根据以下步骤训练得到所述神经网络模型:
获取样本搜索信息、所述样本搜索信息对应的网页内容的样本关键信息和样本结构化信息、以及样本标签;其中,所述样本标签用于标注所述样本关键信息与所述样本搜索信息的第一样本相关度,以及所述样本结构化信息与所述样本搜索信息的第二样本相关度;
将所述样本搜索信息、所述样本关键信息、以及所述样本结构化信息,输入至待训练的所述神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一样本相关分数,和用于表征第二相关度的第二样本相关分数;
基于所述第一样本相关分数、所述第二样本相关分数以及所述样本标签,确定本次训练的损失值,并基于所述损失值对待训练的所述神经网络模型进行参数调整。
一种可能的实施方式中,所述处理器401的指令中,所述对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,包括:
对所述关键信息进行切词处理,得到各个分词;
计算得到的各个分词与所述搜索信息之间的相关度,将所述关键信息中与所述搜索信息之间的相关度大于第二设定阈值的分词设置为突出展示形式。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的搜索结果展示方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的搜索结果展示方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种搜索结果展示方法,其特征在于,包括:
响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种;
按照与所述搜索结果匹配的展示形式,展示所述搜索结果;
其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
2.根据权利要求1所述的方法,其特征在于,所述与所述搜索信息匹配的搜索结果为根据以下方式确定的:
获取各个搜索结果;所述各个搜索结果包括所述关键信息和所述结构化信息;
基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果。
3.根据权利要求1所述的方法,其特征在于,所述结构化信息为根据以下方式预先确定的:
针对所述目标网页内容,基于针对该目标网页内容所属网页类别设置的关键字段组合,提取所述目标网页内容对应的结构化信息;所述结构化信息中包括所述关键字段组合指示的多个关键字段下的字段信息。
4.根据权利要求1所述的方法,其特征在于,所述关键信息为根据以下方式确定的:
提取所述目标网页内容中的各个文本段;
确定每个所述文本段与所述搜索信息之间的相关度;
选择对应的相关度最高的文本段作为所述关键信息;或者,选择对应的相关度大于第一设定阈值的至少一个文本段,将所述至少一个文本段整合为所述关键信息。
5.根据权利要求2所述的方法,其特征在于,基于所述关键信息与所述搜索信息之间的第一相关度,以及所述结构化信息与所述搜索信息之间的第二相关度,从所述关键信息和所述结构化信息中选择对应的相关度较高的信息,作为与所述搜索信息匹配的搜索结果,包括:
将所述搜索信息、所述搜索信息对应的所述关键信息及所述结构化信息,输入至预先训练的神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一相关分数,和用于表征第二相关度的第二相关分数;
根据所述第一相关分数和所述第二相关分数,将相关分数较高的信息作为所述搜索信息匹配的搜索结果进行展示。
6.根据权利要求5所述的方法,其特征在于,根据以下步骤训练得到所述神经网络模型:
获取样本搜索信息、所述样本搜索信息对应的网页内容的样本关键信息和样本结构化信息、以及样本标签;其中,所述样本标签用于标注所述样本关键信息与所述样本搜索信息的第一样本相关度,以及所述样本结构化信息与所述样本搜索信息的第二样本相关度;
将所述样本搜索信息、所述样本关键信息、以及所述样本结构化信息,输入至待训练的所述神经网络模型中,得到所述神经网络模型输出的用于表征第一相关度的第一样本相关分数,和用于表征第二相关度的第二样本相关分数;
基于所述第一样本相关分数、所述第二样本相关分数以及所述样本标签,确定本次训练的损失值,并基于所述损失值对待训练的所述神经网络模型进行参数调整。
7.根据权利要求1所述的方法,其特征在于,所述对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,包括:
对所述关键信息进行切词处理,得到各个分词;
计算得到的各个分词与所述搜索信息之间的相关度,将所述关键信息中与所述搜索信息之间的相关度大于第二设定阈值的分词设置为突出展示形式。
8.一种搜索结果展示装置,其特征在于,包括:
获取模块,用于响应于接收到搜索信息,获取与所述搜索信息匹配的搜索结果;所述搜索结果包括目标网页内容的关键信息和结构化信息中的一种;
展示模块,用于按照与所述搜索结果匹配的展示形式,展示所述搜索结果;
其中,与所述关键信息对应的展示形式包括对所述关键信息中与所述搜索信息匹配的关键词进行突出展示,与所述结构化信息对应的展示形式包括对所述目标网页内容的多个关键字段的字段信息进行结构化展示。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的搜索结果展示方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的搜索结果展示方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211531138.5A CN115730158A (zh) | 2022-12-01 | 2022-12-01 | 一种搜索结果展示方法、装置、计算机设备及存储介质 |
PCT/CN2023/135012 WO2024114681A1 (zh) | 2022-12-01 | 2023-11-29 | 一种搜索结果展示方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211531138.5A CN115730158A (zh) | 2022-12-01 | 2022-12-01 | 一种搜索结果展示方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115730158A true CN115730158A (zh) | 2023-03-03 |
Family
ID=85300296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211531138.5A Pending CN115730158A (zh) | 2022-12-01 | 2022-12-01 | 一种搜索结果展示方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115730158A (zh) |
WO (1) | WO2024114681A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024114681A1 (zh) * | 2022-12-01 | 2024-06-06 | 北京字跳网络技术有限公司 | 一种搜索结果展示方法、装置、计算机设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786847A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种电商网站中商品网页的结构化摘要的显示方法和*** |
CN105138535A (zh) * | 2015-06-30 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 一种搜索结果的展示方法及装置 |
US11048711B1 (en) * | 2018-12-19 | 2021-06-29 | First American Financial Corporation | System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search |
CN111310078B (zh) * | 2020-02-10 | 2023-06-23 | 北京字节跳动网络技术有限公司 | 一种搜索结果展示策略的确定方法及装置 |
CN115730158A (zh) * | 2022-12-01 | 2023-03-03 | 北京字跳网络技术有限公司 | 一种搜索结果展示方法、装置、计算机设备及存储介质 |
-
2022
- 2022-12-01 CN CN202211531138.5A patent/CN115730158A/zh active Pending
-
2023
- 2023-11-29 WO PCT/CN2023/135012 patent/WO2024114681A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024114681A1 (zh) * | 2022-12-01 | 2024-06-06 | 北京字跳网络技术有限公司 | 一种搜索结果展示方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024114681A1 (zh) | 2024-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bennani-Smires et al. | Simple unsupervised keyphrase extraction using sentence embeddings | |
US9514216B2 (en) | Automatic classification of segmented portions of web pages | |
WO2019229769A1 (en) | An auto-disambiguation bot engine for dynamic corpus selection per query | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
Lev et al. | In defense of word embedding for generic text representation | |
CN111459977B (zh) | 自然语言查询的转换 | |
EP2425353A1 (en) | Method and apparatus for identifying synonyms and using synonyms to search | |
Yilmaz et al. | Improving educational web search for question-like queries through subject classification | |
CN108319583B (zh) | 从中文语料库提取知识的方法与*** | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
CN114443847A (zh) | 文本分类、文本处理方法、装置、计算机设备及存储介质 | |
WO2024114681A1 (zh) | 一种搜索结果展示方法、装置、计算机设备及存储介质 | |
Bellare et al. | Lightly-supervised attribute extraction | |
Zanibbi et al. | Math search for the masses: Multimodal search interfaces and appearance-based retrieval | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN112270189A (zh) | 一种提问式的分析节点生成方法、***及存储介质 | |
CN110688559A (zh) | 一种检索方法及装置 | |
Sato et al. | Text classification and transfer learning based on character-level deep convolutional neural networks | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Yasukochi et al. | Analyzing font style usage and contextual factors in real images | |
Li et al. | Multi-level emotion cause analysis by multi-head attention based multi-task learning | |
WO2014049310A2 (en) | Method and apparatuses for interactive searching of electronic documents | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |