CN111563159B - 文本排序方法及装置 - Google Patents

文本排序方法及装置 Download PDF

Info

Publication number
CN111563159B
CN111563159B CN202010683552.2A CN202010683552A CN111563159B CN 111563159 B CN111563159 B CN 111563159B CN 202010683552 A CN202010683552 A CN 202010683552A CN 111563159 B CN111563159 B CN 111563159B
Authority
CN
China
Prior art keywords
feature vector
text feature
text
vector set
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010683552.2A
Other languages
English (en)
Other versions
CN111563159A (zh
Inventor
王瑞欣
方宽
范力文
申战
周日康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhizhe Sihai Beijing Technology Co Ltd
Original Assignee
Zhizhe Sihai Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhizhe Sihai Beijing Technology Co Ltd filed Critical Zhizhe Sihai Beijing Technology Co Ltd
Priority to CN202010683552.2A priority Critical patent/CN111563159B/zh
Publication of CN111563159A publication Critical patent/CN111563159A/zh
Application granted granted Critical
Publication of CN111563159B publication Critical patent/CN111563159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本排序方法及装置,属于自然语言处理技术领域,旨在提高用户输入的关键词与搜索结果间的相关性。该方法包括:获取查询词对应的至少两个文本,形成文本特征向量集,文本特征向量集包括至少两个文本的特征向量;池化文本特征向量集,得到一个融合特征向量;激化融合特征向量,以产生权重向量;使用权重向量对文本特征向量集进行加权,产生加权后的文本特征向量集;以及根据加权后的文本特征向量集,确定至少两个文本的排序得分。

Description

文本排序方法及装置
技术领域
本公开涉及自然语言处理技术领域,更具体地,涉及一种文本排序方法及装置。
背景技术
在搜索引擎当中,排序模块对召回的文本进行打分,然后按照打分顺序从高到低返回给用户。打分模块准确率越高,用户越容易找到自己想要的结果,体验越好。目前大部分打分模型在训练和预测的时候,每个文本的打分都是相互独立的。这些模型接受一个文本的特征作为输入,输出该文本的得分。该方法忽略了文本之间的特征交互信息,这样使得返回给用户的搜索结果的相关性较低。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文本排序方法及装置,旨在提高用户输入的关键词与搜索结果间的相关性。
根据本发明的第一方面,提供一种文本排序方法,包括:获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括至少两个文本的特征向量;池化所述文本特征向量集,得到一个融合特征向量;激化所述融合特征向量,以产生权重向量;使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。
在一个可能的实施例中,其中,所述池化所述文本特征向量集,得到一个融合特征向量,包括:按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。
在一个可能的实施例中,其中,所述激化所述融合特征向量,以产生权重向量包括:将所述融合特征向量经过全连接层以及激活函数转换,得到权重向量;所述使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集包括:将所述权重向量与所述文本特征向量集点乘,得到加权后的文本特征向量集。
在一个可能的实施例中,所述方法还包括:重复执行所述池化、激化和加权的步骤。
根据本发明的第二方面,提供一种文本排序装置,包括:获取模块,被配置为获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括所述至少两个文本的特征向量;池化模块,被配置为池化所述文本特征向量集,得到一个融合特征向量;激化模块,被配置为激化所述融合特征向量,以产生权重向量;加权模块,使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及确定模块,被配置为根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。
在一个可能的实施例中,其中,所述池化模块具体被配置为:按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。
在一个可能的实施例中,其中,所述激化模块具体被配置为:将所述融合特征向量经过全连接层以及激活函数转换,得到权重向量;所述加权模块具体被配置为:将所述权重向量与所述文本特征向量集点乘,得到加权后的文本特征向量集。
在一个可能的实施例中,所述装置还包括:循环模块,被配置为重复执行所述池化、激化和加权的步骤。
根据本公开的第三方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面所述的方法。
本公开实施例提供的文本排序方法及装置,首先,获取查询词对应的至少两个文本,形成文本特征向量集,文本特征向量集包括至少两个文本的特征向量;其次,池化文本特征向量集,得到一个融合特征向量;然后,激化融合特征向量,以产生权重向量;使用权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;最后,根据加权后的文本特征向量集,确定至少两个文本的排序得分。通过上述的池化、激化以及加权操作使得多个文本间的特征关联起来,从而提高根据用户的搜索词所得到的搜索结果的相关性。
本公开的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本公开实施例提供的传统的排序模型示意图;
图2示出了本公开实施例提供的一种Group-wise打分模型的示意图;
图3示出了本公开实施例提供的一种排序打分模型的示意图;
图4示出了本公开实施例提供的一种池化-激化网络的结构示意图;
图5示出了本公开实施例提供的池化-激化模块的具体结构示意图;
图6示出了本公开实施例提供的一种排序打分模型具体的结构示意图;
图7示出了本公开实施例提供的一种文本排序方法的流程图;
图8示出了本公开实施例提供的一种文本排序装置的结构示意图;
图9示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在搜索引擎当中,排序模块对召回的文本进行打分,然后按照打分顺序从高到低返回给用户。打分模块准确率越高,用户越容易找到自己想要的结果,体验越好。目前大部分打分模型在训练和预测的时候,每个文本的打分都是相互独立的。这些模型接受一个文本的特征作为输入,输出该文本的得分。该方法忽略了文本之间的特征交互信息,这样使得返回给用户的搜索结果的相关性较低。例如,现有的排序学习方法,主要根据模型结构和损失函数来进行分类。模型结构可以是决策树,支持向量机或者神经网络。损失函数上主要为Pointwise,Pairwise和Listwise三种。这些方法在训练和打分的时候都是将每个文本看成独立的样本。
如图1所示,为本发明实施例提供的传统的排序模型示意图。该传统的排序模型输 入是一个文本的特征向量,排序模型的输出是该文本对应的打分;当存在多个输入文本(
Figure 618817DEST_PATH_IMAGE001
Figure 332695DEST_PATH_IMAGE002
,…
Figure 846853DEST_PATH_IMAGE003
)时,对应的输出相应的每个文本对应的得分(共计
Figure 242062DEST_PATH_IMAGE004
个得分),需要注意的 是,在该传统的排序模型中,每个待排序文本之间是相互独立的,即每个文本独立的输入至 排序模型中。
近年来,一种新的打分函数(例如,Group-wise函数),首先将文本进行分组,然后一组文本的所有特征作为输入,输出这组文本里面每个文本的得分。因为一个文本会对应到多个分组,所以最终每个文本的分数就是这个文本在多个分组里面分数的平均值。另一种利用文本间特征交互的方法是将所有文本输入给一个RNN或者Transformer模型,然后得到一个上下文相关的Embedding向量;最后将这个上下文相关的Embedding向量拼接回到每个文本的特征,作为模型的输入。
如图2所示,为本发明实施例提供的一种Group-wise打分模型的示意图。这里展示 的是groupsize=2的情况。在打分的时候,会先随机打乱待排序文本,然后每个文本和其左 边和右边的文本分形成group,每个group里面的所有文本的特征都拼接在一起输入给打分 模型,模型输出一个2维的向量,每个维度代表该group当中每个文本的打分。最终,每个文 本的得分为其所在各个group里面的平均得分。例如,待输入的文本为
Figure 853172DEST_PATH_IMAGE001
Figure 410055DEST_PATH_IMAGE002
Figure 677088DEST_PATH_IMAGE005
Figure 672726DEST_PATH_IMAGE006
, 其中,
Figure 76026DEST_PATH_IMAGE002
Figure 69389DEST_PATH_IMAGE001
形成group1,
Figure 620457DEST_PATH_IMAGE002
Figure 91889DEST_PATH_IMAGE005
形成group2,
Figure 412012DEST_PATH_IMAGE005
Figure 841856DEST_PATH_IMAGE006
形成 group3,该3个group里 面的每个文本特征都拼接在一起输入给打分模型,经过打分模型每个group分别输出一个2 维的向量,每个维度代表该group当中每个文本的打分,相应的
Figure 817903DEST_PATH_IMAGE001
的得分为group1的平均 得分,
Figure 889764DEST_PATH_IMAGE002
的得分为group1和group2的平均得分,
Figure 533235DEST_PATH_IMAGE005
的得分为group2和group3的平均得 分,
Figure 602822DEST_PATH_IMAGE006
的得分为group4的平均得分。
不管是采用上述的Group-wise打分模型还是利用文本间特征交互的方法,通常存在效果和效率的权衡问题。例如,Group-wise打分模型中,时间复杂度和group size呈平方关系。所以在真实的排序***当中,通常把group设置成2。但是较小的group size,带来的效果提升就没有那么明显。而在RNN模型中通过获取每个文本的上下文Embedding向量,因为RNN无法并行处理,当排序文本很长的时候性能会非常低下。而Transformer结构也是O(n^2*d)的时间复杂度,其中n是排序列表长度,d是每个文本的特征维度。
不同于上述的图1和图2的两种实现排序模型,本发明提供一种序列级别的打分模型,通过该模型实现打分能够将文本间特征交互的算法复杂度控制在O(d),这种时间复杂度具有非常良好的性能,不再需要效果和效率的权衡。
如图3所示,为本发明实施例提供的一种排序打分模型的示意图。该模型将文本的所有特征作为输入,直接输出所有文本的打分,该模型将输入的所有文本之间的特征进行交互,每个文本不是独立存在的,而是所有文本的特征之间进行互相融合,利用特征之间的交互来提升模型的效果,从而提升打分的准确性,此外该模型网络具有较低的时间复杂度,在真是场景中具有较好的可扩展性。以下将基于图3对应的排序模型对本发明进行详细的描述。
如图4所示,为本发明实施例提供的一种池化-激化网络的示意图。其主要的思想就是通过收集不同通道之间的统计信息,来做让模型动态的做特征重要性的选择。该网络主要包括两部分:池化操作和激化操作。
在池化操作中,输入一共有L个文本,分别是(
Figure 128481DEST_PATH_IMAGE001
Figure 207296DEST_PATH_IMAGE002
,…
Figure 439694DEST_PATH_IMAGE003
),每个文本都是由一 个D维的向量,即输入为L个D维的向量集。池化操作在每个特征维度,对L个特征做统计操 作,譬如求平均或求最大,将输入从L*D的维度降到D维;在激化操作中,对所有的输入文本, 在得到一个D维的向量以后,然后通过全连接和激活函数,去学习到每个特征维度的权重信 息。
在经过池化操作和激化操作以后,得到了一个D维的权重向量s(对应图4中右侧的 向量C),用于表示在这个上下文下,每个特征的权重。然后将得到的权重向量s,乘以原始的 输入向量集(
Figure 8078DEST_PATH_IMAGE001
Figure 693138DEST_PATH_IMAGE002
,…
Figure 575643DEST_PATH_IMAGE003
),就得到了特征加权变换后的输入:
Figure 724865DEST_PATH_IMAGE007
如图5所示,为本发明实施例提供的池化-激化模块的具体结构示意图。具体实现 过程为:输入L个文本,分别是(
Figure 401834DEST_PATH_IMAGE001
Figure 839768DEST_PATH_IMAGE002
,…
Figure 57123DEST_PATH_IMAGE003
),每个文本都是一个C维的向量,先经过全连 接层和激活层,再经过池化层,将L个C维的向量压缩为一个C维的向量,然后依次经过全连 接层、激活层、全连接层,再通过激活函数输出权重向量s。这里借助sigmoid激活函数使用 了一种简单的门机制进行操作,其具体运算如下式所示:
Figure 264113DEST_PATH_IMAGE008
(公式一)
上述的公式一中,s是输出的权重向量(对应图4中右侧的向量C),δ是线性激活函 数,
Figure 377563DEST_PATH_IMAGE009
Figure 99531DEST_PATH_IMAGE010
为池化后的特征向量(对应图4中的左侧的C)。为 了防止模型变得复杂并且考虑到泛化因素,这里围绕非线性设置了两层全连接层,作为瓶 颈对门机制进行参数化。最终该池化-激化模块的输出在经过Scale操作后输出L*C的特征 向量。
如图6所示,为本发明实施例提供的一种排序打分模型具体的结构示意图。相对于传统的深度神经网络(Deep Neural Networks,DNN)结构,本发明中在每一层都添加了池化-激化模块,通过多层的池化-激化模块使得各文本间的特征能够充分交互,从而改善排序结果,提高搜索的准确性。图6中的输入为(L,C)用于表示L个文本,每个文本是一个C维的向量,输出为Logits为L个文本对应的打分结果。
其中,图5和图6中的英文简称BN全称为batch normalization,用于表示批量归一化,FC全称为full connection,用于表示全连接,Pooling是池化层,ReLu是激活层。
采用上述的池化-激化网络来实现序列级别的打分模型,利用特征交互信息提升了模型效果。同时,上述的网络模型具有较低时间复杂度,能够将文本间特征交互的算法复杂度控制在O(d),这种时间复杂度具有非常良好的性能,不再需要效果和效率的权衡,在真实场景有较好的可扩展性。
下面将基于上述的图6的排序打分模型的具体结构,对本发明的具体应用进行详细描述。其主要内容包括以下步骤:
步骤一:准备训练数据
训练集的格式是:query doc label。其中query代表查询词。doc代表待检索的页面或文本,一般以标题为例。label是在这个查询词下,对应标题的相关程度,label通常分为多个等级,表达页面或文本对于查询词的相关程度。具体来说,本发明将label分为[0,1]两档,0代表查询词和文档不相关,1代表相关。本文的label数据从真实用户行为的点击日志中获取,label为1代表有点击,label为0代表无点击。同一个query会对应多个doc组成一个序列。
步骤二:模型训练
训练数据以一个query和该query对应的全部doc组成的序列作为一次输入,在每一个全连接层之后进入池化-激化模块(如图6),数据在池化-激化模块内一次经过池化操作和激化操作,具体内容如下:
(a)池化操作是将不同doc的特征向量通过池化操作(最大池化或平均池化)压缩为一个特征向量,这个特征向量融合了不同doc的信息,借此实现了不同doc之间的信息交互。
(b)在池化操作后是激化操作,激化操作操作首先将上一步得到的特征向量经过一个全连接层与sigmoid函数转换,得到一个新的特征向量,特征向量的每一维的数值在0-1之间,代表了不同特征的重要性,然后将这个新的特征向量与池化-激化模块结构的输入向量相乘作为池化-激化模块的输出。
池化-激化模块的输出向量与输入向量保持相同的特征维度,且通过池化-激化模块使得输出的特征向量不再是相互独立的,而是互相影响的,更有助于模型的学习。
在输出层与传统的LTR模型结果类似,每个doc会对应一个分数,可以适应各种损失函数计算。
步骤三:模型预测
在预测时,模型要求将同一个query下的全部doc作为一个序列整体作为模型的输入,模型输出为每个doc对应的分数。
如图7所示,为本发明实施例提供的一种文本排序方法的流程图。该方法包括:
701、获取查询词对应的至少两个文本,形成文本特征向量集。
其中,上述的文本特征向量集包括至少两个文本的特征向量。参照图4,该文本特 征向量集包括L个文本,分别是{
Figure 58260DEST_PATH_IMAGE001
Figure 119757DEST_PATH_IMAGE002
,…
Figure 200845DEST_PATH_IMAGE003
},每个文本都是一个D维的特征向量,因此 该文本特征向量集包括L个D维的文本特征向量。
702、池化文本特征向量集,得到一个融合特征向量。
其中,上述的池化是在每个特征维度,对L个文档对应的特征做统计操作,最终使得将输入的特征向量从L*D维度降到D维度。
作为一种优选的实施方式,上述的步骤702具体可以通过以下内容实现:按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。
例如,参照以下的公式二和公式三,其中:X为文本特征向量集,包括L行D列的文本 特征向量,经过池化操作后,
Figure 347793DEST_PATH_IMAGE011
为融合特征向量,是一个1行D列的特征向量,其中,
Figure 172529DEST_PATH_IMAGE012
的 值为文本特征向量集X中第1列中的最大值或者平均值,依次类推,
Figure 354112DEST_PATH_IMAGE013
值为文本特征向量 集X中第n列中的最大值或者平均值,最终可以得到融合特征向量
Figure 278206DEST_PATH_IMAGE011
Figure 974766DEST_PATH_IMAGE014
(公式二)
Figure 540877DEST_PATH_IMAGE015
(公式三)
703、激化融合特征向量,以产生权重向量。
其中,上述的激化操作是指对所有的输入文本,在得到一个D维的向量以后,然后通过全连接和激活函数转换,去学习到每个特征维度的权重信息,从而得到权重向量。关于激活函数具体参照上述的公式一部分的相关内容。参见图4,这里的权重向量对应图4中右侧的向量C。
704、使用权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集。
作为一种优选的实施方式,上述的步骤704具体可以通过以下内容实现:将权重向量与文本特征向量集点乘,得到加权后的文本特征向量集。
可选的,在经过上述的步骤702中的池化操作和步骤703中的激化操作以后,得到了一个权重向量s,该权重向量s表示在这个上下文下,每个特征的权重,然后将该权重向量s,直接乘回输入的文本特征向量集,就得到加权后的文本特征向量集,具体可以参照图4,图4中右侧的C为权重向量s,其与文本特征向量集点乘后,得到加权后的文本特征向量集(对应图4右下角的特征向量集)。
705、根据加权后的文本特征向量集,确定至少两个文本的排序得分。
可选的,在上述的步骤705之后,该方法还包括:根据上述的排序得分输出文本的排序结果。
可选的,上述的方法还包括:重复执行上述的步骤702-704对应的池化、激化和加权的步骤。通过重复执行池化、激化以及加权步骤使得各文本间的特征能够充分交互,从而改善排序结果,提高搜索的准确性。
本公开实施例提供的文本排序方法,首先,获取查询词对应的至少两个文本,形成文本特征向量集,文本特征向量集包括至少两个文本的特征向量;其次,池化文本特征向量集,得到一个融合特征向量;然后,激化融合特征向量,以产生权重向量;使用权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;最后,根据加权后的文本特征向量集,确定至少两个文本的排序得分。通过上述的池化、激化以及加权操作使得多个文本间的特征关联起来,从而提高根据用户的搜索词所得到的搜索结果的相关性。
下面将基于图7对应的文本排序方法的实施例中的相关描述对本公开实施例提供的一种文本排序装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例。
如图8所示,为本公开实施例提供的一种文本排序装置的结构示意图。该装置8包括:获取模块801、池化模块802、激化模块803、加权模块804以及确定模块805,其中:
获取模块801,被配置为获取查询词对应的至少两个文本,形成文本特征向量集,文本特征向量集包括所述至少两个文本的特征向量;池化模块802,被配置为池化文本特征向量集,得到一个融合特征向量;激化模块803,被配置为激化所述融合特征向量,以产生权重向量;加权模块804,使用权重向量对文本特征向量集进行加权,产生加权后的文本特征向量集;以及确定模块805,被配置为根据加权后的文本特征向量集,确定至少两个文本的排序得分。
作为一种优选的实施方式,池化模块802具体被配置为:按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。
作为一种优选的实施方式,激化模块803具体被配置为:将融合特征向量经过全连接层以及激活函数转换,得到权重向量;加权模块804具体被配置为:将权重向量与文本特征向量集点乘,得到加权后的文本特征向量集。
作为一种优选的实施方式,还包括:输出模块806,被配置为根据上述的排序得分输出文本的排序结果。
作为一种优选的实施方式,还包括:循环模块807,被配置为重复执行所述池化、激化和加权的步骤。通过循环模块807重复执行池化、激化以及加权步骤使得各文本间的特征能够充分交互,从而改善排序结果,提高搜索的准确性。
本公开实施例提供的文本排序装置,首先,获取查询词对应的至少两个文本,形成文本特征向量集,文本特征向量集包括至少两个文本的特征向量;其次,池化文本特征向量集,得到一个融合特征向量;然后,激化融合特征向量,以产生权重向量;使用权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;最后,根据加权后的文本特征向量集,确定至少两个文本的排序得分。通过上述的池化、激化以及加权操作使得多个文本间的特征关联起来,从而提高根据用户的搜索词所得到的搜索结果的相关性。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如图7所示的任意一种方法。示例性的,计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘,硬盘、磁带)、光介质(例如,DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
如图9所示,为本公开实施例提供的一种电子设备的结构示意图,该电子设备900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行如图7所示的各种适当的动作和处理。在RAM 903中,还存储有电子设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本排序方法,包括:
获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括至少两个文本的特征向量;
池化所述文本特征向量集,得到一个融合特征向量,包括:按照维度压缩所述文本特征向量集,得到一个经过压缩后的融合特征向量;
激化所述融合特征向量,以产生权重向量,包括:将所述融合特征向量经过全连接层以及激活函数转换,得到权重向量;
使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及
根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。
2.根据权利要求1所述的方法,其中,所述按照维度压缩所述文本特征向量集,得到一个经过压缩后的融合特征向量,包括:
按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个经过压缩后的融合特征向量。
3.根据权利要求1所述的方法,其中,所述使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集包括:
将所述权重向量与所述文本特征向量集点乘,得到加权后的文本特征向量集。
4.根据权利要求1所述的方法,还包括:重复执行池化、激化和加权的步骤。
5.一种文本排序装置,包括:
获取模块,被配置为获取查询词对应的至少两个文本,形成文本特征向量集,所述文本特征向量集包括所述至少两个文本的特征向量;
池化模块,被配置为按照维度压缩池化所述文本特征向量集,得到一个经过压缩后的融合特征向量;
激化模块,被配置为将所述融合特征向量经过全连接层以及激活函数转换,得到权重向量;
加权模块,使用所述权重向量对所述文本特征向量集进行加权,产生加权后的文本特征向量集;以及
确定模块,被配置为根据加权后的文本特征向量集,确定所述至少两个文本的排序得分。
6.根据权利要求5所述的装置,其中,所述池化模块具体被配置为:按照维度最大池化或平均池化压缩所述文本特征向量集,得到一个融合特征向量。
7.根据权利要求5所述的装置,其中,所述加权模块具体被配置为:将所述权重向量与所述文本特征向量集点乘,得到加权后的文本特征向量集。
8.根据权利要求5所述的装置,还包括:循环模块,被配置为重复调用所述池化模块、所述激化模块和所述加权模块。
9.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1-4任一项所述的方法。
CN202010683552.2A 2020-07-16 2020-07-16 文本排序方法及装置 Active CN111563159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010683552.2A CN111563159B (zh) 2020-07-16 2020-07-16 文本排序方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010683552.2A CN111563159B (zh) 2020-07-16 2020-07-16 文本排序方法及装置

Publications (2)

Publication Number Publication Date
CN111563159A CN111563159A (zh) 2020-08-21
CN111563159B true CN111563159B (zh) 2021-05-07

Family

ID=72073939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010683552.2A Active CN111563159B (zh) 2020-07-16 2020-07-16 文本排序方法及装置

Country Status (1)

Country Link
CN (1) CN111563159B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN109086394A (zh) * 2018-07-27 2018-12-25 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109426664A (zh) * 2017-08-30 2019-03-05 上海诺悦智能科技有限公司 一种基于卷积神经网络的句子相似性计算方法
CN110795657A (zh) * 2019-09-25 2020-02-14 腾讯科技(深圳)有限公司 文章推送及模型训练方法、装置、存储介质和计算机设备
CN111144094A (zh) * 2019-12-09 2020-05-12 中国电子科技集团公司第三十研究所 一种基于CNN与Bi-GRU的文本分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866496B (zh) * 2014-02-22 2019-12-10 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
CN110442689A (zh) * 2019-06-25 2019-11-12 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN109426664A (zh) * 2017-08-30 2019-03-05 上海诺悦智能科技有限公司 一种基于卷积神经网络的句子相似性计算方法
CN109086394A (zh) * 2018-07-27 2018-12-25 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN110795657A (zh) * 2019-09-25 2020-02-14 腾讯科技(深圳)有限公司 文章推送及模型训练方法、装置、存储介质和计算机设备
CN111144094A (zh) * 2019-12-09 2020-05-12 中国电子科技集团公司第三十研究所 一种基于CNN与Bi-GRU的文本分类方法

Also Published As

Publication number Publication date
CN111563159A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN109885842B (zh) 处理文本神经网络
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
CN103329126B (zh) 利用联合图像-音频查询的搜索
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
US11782998B2 (en) Embedding based retrieval for image search
WO2021143267A1 (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN106250464B (zh) 排序模型的训练方法及装置
CN111652378B (zh) 学习来选择类别特征的词汇
CN102144231A (zh) 用于基于文本的图像搜索结果重新排序的自适应视觉相似性
CN110737756B (zh) 确定针对用户输入数据的应答的方法、装置、设备和介质
CN109960749B (zh) 模型获取方法、关键词生成方法、装置、介质及计算设备
WO2021012691A1 (zh) 用于检索图像的方法和装置
CN117556067B (zh) 数据检索方法、装置、计算机设备和存储介质
US20240037939A1 (en) Contrastive captioning for image groups
WO2022003991A1 (ja) 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム
CN113535912A (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN111563159B (zh) 文本排序方法及装置
CN114398883B (zh) 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN116522911B (zh) 实体对齐方法及装置
CN113283235B (zh) 一种用户标签的预测方法及***
Dong et al. High-performance image retrieval based on bitrate allocation
CN118227749A (zh) 问答模型的训练方法、问答处理方法及对应装置
CN117194610A (zh) 文本处理方法、装置、计算设备、以及计算机程序产品
CN116977105A (zh) 确定推文标签的方法、装置、设备、存储介质和程序产品
CN117312508A (zh) 基于图像的问答方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant