CN114398993B

CN114398993B - 基于标签数据的搜索信息召回方法、***、装置和介质

Info

Publication number: CN114398993B
Application number: CN202210056086.4A
Authority: CN
Inventors: 金美芝
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2024-05-14
Anticipated expiration: 2042-01-18
Also published as: CN114398993A

Abstract

本发明公开了一种基于标签数据的搜索信息召回方法、***、装置和介质，可应用于人工智能技术领域。本发明通过根据预设标签体系对候选语料池内的语料进行分类，以过滤掉不符合要求的语料，从而得到目标语料集，接着通过生成目标语料集对应的完全图，并根据完全图来构建候选语料的概率转移矩阵，然后通过确定完全图上节点的标签更新顺序，降低随机更新方式对标签更新结果的影响，再通过标签更新顺序、概率转移矩阵和更新后的标签概率矩阵对节点进行标签更新，并在确定标签更新后的目标语料集内的语料对应的标签满足预设条件后，根据完成标签更新后的目标语料集进行预设搜索信息的内容召回，从而提高内容召回的速度和准确度。

Description

基于标签数据的搜索信息召回方法、***、装置和介质

技术领域

本发明涉及人工智能技术领域，尤其是一种基于标签数据的搜索信息召回方法、***、装置和介质。

背景技术

在搜索领域内，一般通过带标签的数据进行预设内容的召回。但是，实际情况中这种带标签的数据是比较少的，基于少量的标签数据难以提高预设内容召回速度和准确度。并且，在实际情况中，所有带标签的数据中，也存在不属于当前预设召回内容所属类型的数据，若通过这些标签数据进行预设内容召回，则会降低召回内的准确度。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于标签数据的搜索信息召回方法、***、装置和介质，能够有效提高信息召回的速度和准确度。

一方面，本发明实施例提供了一种基于标签数据的搜索信息召回方法，包括以下步骤：

根据预设标签体系对候选语料池内的语料进行分类，得到目标语料集；

将所述目标语料集中的每一条语料作为一个节点，根据任意两条语料之间的权重生成所述任意两条语料之间的连接线，根据所述节点和所述连接线生成完全图；

根据所述完全图内任意两节点之间连接线的权重确定所述任意两节点的转移概率值，根据所有所述转移概率值生成所述目标语料集的概率转移矩阵；

获取所述预设标签体系的标签概率矩阵，并根据所述概率转移矩阵更新所述预设标签体系的标签概率矩阵；

获取所述完全图中各节点的标签更新顺序，并根据所述概率转移矩阵和更新后的所述标签概率矩阵，基于所述标签更新顺序依次更新各节点对应语料的标签；

确定标签更新后的所述目标语料集内的语料对应的标签满足预设条件，根据完成标签更新后的所述目标语料集进行预设搜索信息的内容召回。

另一方面，本发明实施例提供了一种基于标签数据的搜索信息召回***，包括：

分类模块，用于根据预设标签体系对候选语料池内的语料进行分类，得到目标语料集；

生成模块，用于将所述目标语料集中的每一条语料作为一个节点，根据任意两条语料之间的权重生成所述任意两条语料之间的连接线，根据所述节点和所述连接线生成完全图；

构建模块，用于根据所述完全图内任意两节点之间连接线的权重确定所述任意两节点的转移概率值，根据所有所述转移概率值生成所述目标语料集的概率转移矩阵；

第一更新模块，用于获取所述预设标签体系的标签概率矩阵，并根据所述概率转移矩阵更新所述预设标签体系的标签概率矩阵；

第二更新模块，用于获取所述完全图中各节点的标签更新顺序，并根据所述概率转移矩阵和更新后的所述标签概率矩阵，基于所述标签更新顺序依次更新各节点对应语料的标签；

内容召回模块，用于确定标签更新后的所述目标语料集内的语料对应的标签满足预设条件，根据完成标签更新后的所述目标语料集进行预设搜索信息的内容召回。

另一方面，本发明实施例提供了一种基于标签数据的搜索信息召回装置，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行所述的基于标签数据的搜索信息召回方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行所述的基于标签数据的搜索信息召回方法。

本发明实施例的有益效果包括：通过根据预设标签体系对候选语料池内的语料进行分类，以过滤掉不符合要求的语料，从而得到目标语料集，接着通过将目标语料集中的每一条语料作为一个节点，以及根据任意两条语料之间的权重生成任意两条语料之间的连接线后，根据节点和连接线生成完全图，并根据完全图内节点之间的转移概率值来生成构建候选语料的概率转移矩阵，以通过概率转移矩阵更新预设标签体系的标签概率矩阵，使标签概率矩阵可用于更新目标语料集内的语料对应的标签，然后通过确定完全图上节点的标签更新顺序，降低随机更新方式对标签更新结果的影响，再通过概率转移矩阵和更新后的标签概率矩阵，并基于标签更新顺序依次对节点进行标签更新，并在确定标签更新后的目标语料集内的语料对应的标签满足预设条件后，根据完成标签更新后的目标语料集进行预设搜索信息的内容召回，从而提高内容召回的速度和准确度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易将，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例的一种基于标签数据的搜索信息召回方法的流程图；

图2为本发明实施例的一种对候选语料池内的语料进行分类的流程图；

图3为本发明实施例的一种孪生神经网络的处理流程图；

图4为本发明实施例的一种完全图的示意图；

图5为本发明实施例的一种进行预设搜索信息的内容召回的流程图；

图6为本发明实施例的另一种完全图的示意图；

图7为本发明实施例的一种基于标签数据的搜索信息召回***的模块框图；

图8为本发明实施例的一种基于标签数据的搜索信息召回装置的示意图；

图9本发明实施例的一种计算机设备的模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

随着互联网的发展，云端产生的数据量越来越多，增加了用户终端获取所需信息的难度。搜索平台作为帮助用户终端获取信息的平台，已经成为了互联网中的一个重要因素。目前，在搜索平台进行内容搜索的方式，大多是基于文本内容进行检索内容的召回，即通过计算搜索问题与候选文本的相似度进行内容召回，例如ES检索、孪生网络检索等检索方式。其中，ES检索是通过URL访问方式进行检索内容的召回。URL(Uniform ResourceLocator，统一资源定位符)又叫做网页地址，是互联网上标准的资源地址。互联网上的每一个文件都有一个唯一的URL，其包含的信息能够指出文件的位置以及浏览器的处理方式。

但是，除开文本内容的召回方式外，在一些业务场景中，还需要通过业务规定的标签进行内容召回，即先对语料打上指定标签，然后基于这些已经打上标签的语料进行内容召回。但是，实际情况中这种带有标签的数据是比较少的，并且，在实际情况中，带有标签的数据中，也存在不属于当前预设召回内容所属类型的数据，若根据这些带有标签的数据进行预设内容的召回，则会降低召回内容的准确度。

基于此，本实施例提供了一种基于标签数据的搜索信息召回方法、***、装置和介质。本实施例首先通过根据预设标签体系对候选语料池内的语料进行分类，以排除不符合预设标签体系的语料，接着通过将分类得到的目标语料集中的每一条语料作为一个节点，以及根据任意两条语料之间的权重生成任意两条语料之间的连接线后，根据节点和连接线生成完全图，并根据完全图来构建候选语料的概率转移矩阵，以通过概率转移矩阵更新预设标签体系的标签概率矩阵，使标签概率矩阵可用于更新目标语料集内的语料对应的标签，然后通过确定完全图上节点的标签更新顺序，降低随机更新方式对标签更新结果的影响，再通过标签更新顺序、概率转移矩阵和更新后的标签概率矩阵对节点进行标签更新，并在确定标签更新后的目标语料集内的语料对应的标签满足预设条件后，根据完成标签更新后的目标语料集进行预设搜索信息的内容召回，从而提高内容召回的速度和准确度。

下面结合附图对具体实施例进行阐述：

参照图1，本实施例一种基于标签数据的搜索信息召回方法。本实施例可以应用于服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本实施例在服务器的应用过程中，包括但不限于以下步骤：

S11、根据预设标签体系对候选语料池内的语料进行分类，得到目标语料集。

在本实施例中，预设标签体系包括当前需要进行搜索信息召回的搜索体系，例如，当前需要进行搜索信息召回的搜索体系是医疗体系，则预设标签体系包括医疗体系。具体地，本实施例可以通过获取指定搜索平台上的所有交互语料，并将获取到的所有交互语料保存在候选语料池内。然后对候选语料池进行分类，得到符合预设标签体系对应类型的语料，即当前需要打标签的语料，并将当前需要打标签的语料保存到目标语料集。可以理解的是，本实施例可以通过预先设置的二分类模型对候选语料池内的所有语料进行分类，过滤掉不属于预设标签体系的语料，并将剩余语料保存到目标语料集。其中，目标语料集中包括正样本和负样本，正样本包括已经打上标签的语料，负样本包括未打上标签的语料。预先设置的二分类模型可以采用fastText分类模型。其中，fastText分类模型是一种快速文本分类算法。

在本实施例中，二分类模型在对候选语料池内的语料进行分类，如图2所示，包括但不限于以下步骤：

S21、获取预先设置的预设标签体系的第一关键词模板；

S22、根据第一关键词模板对候选语料池内的语料进行分类，得到粗分类语料集；

S23、对第一关键词模板内的关键字进行调整，得到的第二关键词模板；

S24、通过第二关键词模板对粗分类语料集内的语料进行分类；

S25、确定对粗分类语料集内的语料进行分类后的语料符合预设要求，将当前语料保存到目标语料集。

在本实施例中，可以先根据预设标签体系的类型设置第一关键词模板，例如，若预设标签体系是保险体系里面的养老保险，则可以先在关键词模板内填充“保险、车险、旅游险、养老险”等关键词，将填充这些关键词的模板作为第一关键词模板。然后通过第一关键词模板对候选语料池内的语料进行初步分类后，过滤掉不属于保险体系的语料，再对第一关键词模板内的关键字进行调整，例如，将第一关键词模板内的关键词调整为“养老、个人养老保险、家庭养老保险”后，得到第二关键词模板，再通过第二关键词模板对初步分类后得到的粗分类语料集进行再次分类，以过滤掉不属于养老保险的语料。当进行再次分类后得到的语料仍然不符合预设标签体系的要求时，可以继续对第二关键词模板内的关键词进行调整，并根据调整后的关键词模板对上一步分类后得到的语料进行再次分类，直至得到语料集内的语料满足预设要求，例如当得到的语料集内的语料属于预设标签体系的比例大于98％，则可以确定最后得到语料集满足预设要求，并将最后分类得到的语料集作为目标语料集。

在本实施例中，当前候选语料池内的语料已经属于预设标签体系的小类，例如，若预设标签体系是保险体系里面的养老保险，而当前候选语料池内的语料已经属于小类保险体系内的语料，则可以直接从养老保险开始过滤。例如，直接在关键词模板上填充“养老、个人养老保险、家庭养老保险”等关键词后，得到第一关键词模板；然后通过第一关键词模板对候选语料池内的语料进行初步分类，得到粗分类语料。在得到粗分类语料后，再对第一关键词模板内的关键词进行调整，得到第二关键词模板，比如，将第一关键词模板内的关键词调整为养老保险过程中的“咨询”、“前期”等关键词；然后通过第二关键词模板对粗分类语料进行再次分类。当进行再次分类后得到的语料仍然不符合预设标签体系的要求时，可以继续对第二关键词模板内的关键词进行调整，并根据调整后的关键词模板对上一步分类后得到的语料进行再次分类，直至得到语料集内的语料满足预设要求，例如当得到的语料集内的语料属于预设标签体系的比例大于90％，则可以确定最后得到语料集满足预设要求，并将最后分类得到的语料集作为目标语料集。

在本实施例中，对候选语料池内的语料进行初步分类时，可以从最大类开始分类，也可以从小类开始分类，具体情况可以根据候选语料池内的语料情况进行调整，以在提高分类准确度的同时，提高分类速度。

可以理解的是，在通过关键词模板对语料集合进行筛选的过程中，还可以通过分别统计每一条语料上出现关键词的次数来确定当前语料是否符合分类要求。当关键词的出现次数大于预设次数，则确定当前语料符合预设要求，将当前语料保存至目标语料集内。在统计关键词的出现次数时，还可以将与关键词的语义相同的词一起统计为当前关键词的次数。例如“咨询”与“询问”这些次的出现次数可以统计在一起，从而减少相近词语对语料分类过程的影响。

S12、将目标语料集中的每一条语料作为一个节点，根据任意两条语料之间的权重生成任意两条语料之间的连接线，根据节点和连接线生成完全图。

在本实施例中，可以采用孪生神经网络计算任意两条语料的相似度，并将该相似度作为任意两条语料的权重。其中，孪生神经网络是基于人工神经网络建立的耦合架构。在孪生神经网络进行数据处理时，以两个样本为输入，输出两个样本对应的嵌入高维空间的表征，以对比两个样本的相似度。具体地，从目标语料集内选取任意两条语料，并将该任意两条语料中的第一条语料输入到孪生神经网络模型的第一神经网络，得到第一条语料在高维特征空间内的第一表征信息，同时，将该任意两条语料中的第二条语料输入到孪生神经网络模型的第二神经网络，得到第二条语料在高维特征空间内的第二表征信息，然后根据第一表征信息和第二表征信息计算该任意两条语料之间的相似度，将该相似度作为该任意两条语料之间的权重，并根据权重生成连接该任意两条语料的连接线。在确定目标语料集内所有语料之间的连接线后，根据连接线和节点生成完全图。

具体地，如图3所示，假设语料一和语料二为目标语料集内任意两条语料，第一神经网络和第二神经网络为孪生神经网络，其具有相同的结构，且两个网络之间的参数可以共享。本实施例通过将语料一输入到第二神经网络、将语料二输入到第二神经网络，以通过第一神经网络将语料一映射到高维特征空间的第一表征，以及通过第二神经网络将语料二映射到高维特征空间的第二表征。然后通过对比第一表征和第二表征的相似度作为语料一和语料二的相似度，并将该相似度作为语料一和语料二之间的连接线对应的权重。具体地，可以通过计算两个表征之间的欧氏距离来确定两个语料之间的相似度。例如，当目标语料集内的语料包括语料A1、语料A2、语料A3、语料A4、语料A5、语料A6、语料A7和语料A8时，则在根据相似度确定任意两个语料之间的连接线后，根据连接线和节点可以生成如图4所示的完全图。

S13、根据完全图内任意两节点之间连接线的权重确定任意两节点的转移概率值，根据所有转移概率值生成目标语料集的概率转移矩阵。

在本实施例中，可以根据完全图上每条边的权重构建概率转移矩阵。其中，概率转移矩阵表示每个候选问跳转到其他候选问的概率矩阵，其每个传播概率值T_ij可通过公式(1)计算得到：

其中，w_ij表示节点i跳转到节点j的权重，即为语料i和语料j的相似度；w_kj表示节点k跳转到节点j的权重，即为语料k到语料j的相似度。例如，节点i分别连接3个其他节点a、b、c，节点i到每个节点的权重(孪生网络计算出的句子相似度)分别为0.5、0.4、0.2，则节点i到a的传播概率T_ia为0.5/(0.5+0.4+0.2)。

在本实施例中，还可以结合相连语料之间的语义关系调整概率转移矩阵上的每个传播概率值。具体地，可以先获取任意两个节点对应语料的语义信息，以及将这两个节点在概率转移矩阵对应的概率值作为第一概率值，根据语义信息调节第一概率值后得到第二概率值，再根据第二概率值构建所述目标语料集的概率转移矩阵。例如，在养老保险中，相邻两个语料的内容分别为“这个保险的价格为XXXX”、“这个价格包含的项目有XXX”。从两个语料的相似度可知，两个语料的相似度并不是很高。但是，这两个语料在语义上很大可能存在直接跳转的概率，也就是在描述完第一个语料后，很大概率会跳转到第二个语料进行描述。若只以相似度来确定概率转移矩阵上每个语料的概率，则可能会导致这两个语料的标签不同或者差别很大。因此，本实施例先通过根据相似度确定概率转移矩阵上两个语料之间的转移概率，然后再根据这个两个语料的语义信息调节这两个语料之间的转移后，生成最终的概率转移矩阵。

S14、获取预设标签体系的标签概率矩阵，并根据概率转移矩阵更新预设标签体系的标签概率矩阵。

在本实施例中，可以初始化生成预设标签体系对应的标签概率矩阵。其中，标签概率矩阵Y_ic表示的是目标语料集内每个语料属于标签c1的概率矩阵。标签概率矩阵是通过概率转移矩阵去不断更新的。初始化就是随机生成一个N×C的概率矩阵，这个矩阵包含U×C和L×C两部分，其中U×C表示未标注数据属于标签c1的概率矩阵，通常可以初始化为-1，L×C表示标注数据属于标签c1的概率矩阵，原始标签c1概率为1，其他标签概率为0。其中，C表示所有标签类型的数量。

具体地，在标签概率矩阵Y_ic上包括已标注标签的语料概率、未标注标签的语料概率，未标注标签的语料概率初始化为-1，已标注标签的语料对应标签属于预设标签的概率初始化为1，已标注标签的语料对应标签不属于预设标签的概率初始化为0。根据这个规律，得到当前目标语料集的初始化标签概率矩阵。然后根据概率转移矩阵内的值不断更新初始化标签概率矩阵，以得到用于进行标签更新的标签概率矩阵。

S15、获取完全图中各节点的标签更新顺序，并根据所述概率转移矩阵和更新后的所述标签概率矩阵，基于所述标签更新顺序依次更新各节点对应语料的标签。

在本实施例中，由于节点标签是根据周围已标注标签的节点进行目标标签更新的，因此节点更新的顺序会严重影响标签更新的结果。而目前的标签传播算法采用的是随机排序的方式更新节点标签，标签更新顺序的随机性会导致标签结果的不稳定，从而影响最终的打标结果。本实施为了减少随机排序的方式对标签更新的影响，通过语料的点击率来确定语料的标签更新顺序。具体地，可以先从搜索平台的对应统计模块内获取完全图中各个节点对应语料的点击率，然后根据每个语料的点击率来确定完全图中各个节点对应语料的标签更新顺序。可以理解的是，由于点击率越大表示语料越重要，因此，还可以选取点击率最大的语料作为最先进行标签更新的语料，即点击率越大的语料对应标签更新顺序越靠前，点击率越小的语料对应标签更新顺序越靠后。

在本实施例中，在得到了标签更新顺序、概率转移矩阵和更新后的标签概率矩阵后，可通过公式(2)对语料的标签进行更新：

F_u←P_uuF_u+P_ulY_l 公式(2)

其中，公式(2)中P_uu表示未标注数据跳转到未标注数据的转移概率；F_u表示未标注数据标签概率；P_ul表示未标注数据跳转到标注数据的转移概率；Y_l表示标注数据标签概率。

在本实施例中，未标注数据跳转到未标注数据的转移概率P_uu和未标注数据跳转到标注数据的转移概率P_ul均可以从概率转移矩阵中确定，标注数据标签概率则可以从更新后的标签概率矩阵中确定。

S16、确定标签更新后的目标语料集内的语料对应的标签满足预设条件，根据完成标签更新后的目标语料集进行预设搜索信息的内容召回。

在本实施例中，如图5所示，可通过以下步骤进行预设条件的判断后，再进行预设搜索信息的内容召回：

S51、获取标签更新后的目标语料集内的所有语料对应的标签；

S52、依次选取一个语料作为待确定语料，确定待确定语料的相邻语料标签中属于相同标签的相邻语料数量；

S53、将相邻语料数量最多的语料对应的标签作为待确定语料的待确定标签；

S54、确定每个待确定语料的当前标签与对应待确定标签相同，根据完成标签更新后的目标语料集进行预设搜索信息的内容召回。

在本实施例中，以图6为例，假设在图6所示的完全图中，标签更新后的目标语料集内包含语料B1、语料B2、语料B3、语料B4、语料B5和语料B6，选取语料B1组作为待确定语料，若语料B1对应的标签为D1、语料B2对应的标签为D1、语料B3对应的标签为D1、语料B4对应的标签为D2、语料B5对应的标签为D3和语料B6对应的标签为D4，则待确定语料B1的相邻语料B2、语料B3、语料B4、语料B5和语料B6中，属于标签D1的语料有2个语料、属于标签D2的语料有1个语料、属于标签D3的语料有1个语料、属于标签D4的语料有1个语料，则可以得知待确定语料的待确定标签为标签D1，且待确定语料的当前标签与待确定标签相同，均为标签D1，则确定语料B1完成标签更新；若语料B1对应的标签为D1、语料B2对应的标签为D1、语料B3对应的标签为D2、语料B4对应的标签为D2、语料B5对应的标签为D3和语料B6对应的标签为D4，则待确定语料B1的相邻语料B2、语料B3、语料B4、语料B5和语料B6中，属于标签D1的语料有1个语料、属于标签D2的语料有2个语料、属于标签D3的语料有1个语料、属于标签D4的语料有1个语料，则可以得知待确定语料的待确定标签为标签D2，且待确定语料的当前标签与待确定标签不相同，因此，需要重复步骤S13至S15，以重新进行标签更新，直到待确定语料的当前标签与待确定标签相同。根据上述的判断方式，依次判断语料B2、语料B3、语料B4、语料B5和语料B6的标签是否完成更新，若图6所示的完全图上所有节点对应的语料均完成了标签更新，则可以根据完成标签更新后的目标语料集进行预设搜索信息的内容召回。

又比如，完全图中的节点a有5个相邻节点b、c、d、e和f，其中b、c和d这三个节点的标签都属于标签c1，若通过标签更新以后Fu矩阵中节点a对应标签c1的概率也最大，则表示节点a的标签与其具有最多相邻节点标签相同，若所有未标注数据都满足这一条件，则停止迭代更新；若存在一个节点对应多个相同最多邻接点标签时，本实施例还可以通过模块度来确定最终的待确定标签。例如，节点a的相邻节点中，属于标签c1的相邻节点数量为2个，属于标签c2的相邻节点数量为2个，在这种情况下，可以根据节点a分别与相邻节点的模块度，来确定节点a对应的最终的待确定标签。其中，模块度是用来衡量一个社区的划分效果，模块度越大，划分效果越好。具体地，模块度可以通过公式(3)和公式(4)计算得到：

其中，Q表示模块度，C表示总的标签类别数量；e_ii表示社区i的所有边数量；k_v表示节点v的度，即节点v连接的所有边；δ(c_v,i)表示节点v是否属于社区i，若节点是属于社区i则为1，否则为0；m表示所有候选语料的数量，包括标注数据和未标注数据。

在本实施例中，在完成标签更新后，可以通过获取预设搜索信息，并在完成标签更新后的目标语料集内，确定预设搜索信息的信息召回标签，然后根据信息召回标签进行预设搜索信息的内容召回。具体地，在获取到搜索信息后，可以对搜索信息进行语义分析，根据语义分析结果对搜索信息进行单词分解。当确定搜索信息中出现错别字或错别词，则可以根据语言分析结果对错别字或错别词进行纠正，以得到纠正后的目标搜索信息；当确定搜索信息中的词语可以采用相似词替换，则可以从预设词库内查找目标相似词，并将搜索信息中对应的词语替换为目标相似词。在完成搜索信息的处理后，再从完成标签更新后的目标语料集确定处理后的搜索信息对应的标签，然后基于这个标签来进行预设搜索信息的内容召回，从而提高召回内容的准确度。

在本实施例中，当根据目标标签未得到召回内容，则生成提示信息，同时获取该当前用户界面在当前搜索软件上的历史搜索信息，并对历史搜索信息进行筛选，以筛选得到与当前搜索信息接近的历史搜索信息作为备用搜索信息，然后根据备用搜索信息进行内容召回。即在当前搜索内容无法得到召回内容时，通过备用搜索信息进行内容召回。但是，在通过备用搜索信息进行内容召回时，用户界面需要同步显示提示信息和备用搜索信息召回的内容，便于用户筛选并确定是否继续查看后面的内容。

参照图7，本实施例提供了一种基于标签数据的搜索信息召回***，包括：

分类模块710，用于根据预设标签体系对候选语料池内的语料进行分类，得到目标语料集；

生成模块720，用于将目标语料集中的每一条语料作为一个节点，根据任意两条语料之间的权重生成任意两条语料之间的连接线，根据节点和所述连接线生成完全图；

构建模块730，用于根据完全图构建目标语料集的概率转移矩阵；

第一更新模块740，用于根据概率转移矩阵更新预设标签体系的标签概率矩阵；

确定模块750，用于确定完全图中各节点的标签更新顺序；

第二更新模块760，用于根据标签更新顺序、概率转移矩阵和更新后的标签概率矩阵对各节点对应的语料进行标签更新；

内容召回模块770，用于确定标签更新后的目标语料集内的语料对应的标签满足预设条件，根据完成标签更新后的目标语料集进行预设搜索信息的内容召回。

本发明方法实施例的内容均适用于本***实施例，本***实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同，在此不在赘述。

参照图8，本发明实施例提供了一种基于标签数据的搜索信息召回装置，包括：

至少一个存储器810，用于存储程序；

至少一个处理器820，用于加载程序以执行图1所示的基于标签数据的搜索信息召回方法。

本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同，在此不在赘述。

在一些可选的实施例中，存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的基于标签数据的搜索信息召回方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的用户搜索意图的处理方法，例如执行以上描述的图1中的方法步骤S11至S16。

在一些可选的实施例中，上述处理装置可以为计算机设备，该计算机设备可以是服务器，可以是用户终端。本实施例以计算机设备是用户终端为例，具体如下：

如图9所示，计算机设备可以包括RF(Radio Frequency，射频)电路1010、包括有一个或一个以上计算机可读存储介质的存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、短距离无线传输模块1070、包括有一个或者一个以上处理核心的处理器1080、以及电源1090等部件。

RF电路1010可用于收发信息，信号的接收和发送，具体地，将基站的下行信息接收后，交由一个或者一个以上处理器1080处理；另外，将涉及上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code DivisionMultiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short MessagingService，短消息服务)等。

存储器1020可用于存储软件程序以及模块。处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音录制功能、图像查看功能等)等；存储数据区可存储根据设备的使用所创建的数据(比如音频数据、文本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1020还可以包括存储器控制器，以提供处理器1080和输入单元1030对存储器1020的访问。

输入单元1030可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1030可包括触敏表面1031以及其他输入设备1032。触敏表面1031，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1031上或在触敏表面1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。除了触敏表面1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及控制的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步的，触敏表面1031可覆盖在显示面板1041之上，当触敏表面1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。

以上所描述的***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行图1所示的基于标签数据的搜索信息召回方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于标签数据的搜索信息召回方法，其特征在于，包括以下步骤：

确定标签更新后的所述目标语料集内的语料对应的标签满足预设条件，根据完成标签更新后的所述目标语料集进行预设搜索信息的内容召回；

其中，所述根据任意两条语料之间的权重生成所述任意两条语料之间的连接线，包括以下步骤：

将所述任意两条语料中的第一条语料输入到孪生神经网络模型的第一神经网络，得到所述第一条语料在高维特征空间内的第一表征信息；

将所述任意两条语料中的第二条语料输入到孪生神经网络模型的第二神经网络，得到所述第二条语料在高维特征空间内的第二表征信息；

根据所述第一表征信息和所述第二表征信息确定所述两条语料之间的权重；

根据所述权重生成连接所述任意两条语料的连接线；

所述根据所述完全图内任意两节点之间连接线的权重确定所述任意两节点的转移概率值，根据所有所述转移概率值生成所述目标语料集的概率转移矩阵，包括以下步骤：

根据所述完全图内任意两个节点之间连接线的权重确定所述任意两个节点的第一概率值；

获取所述任意两个节点对应语料的语义信息；

根据所述语义信息调节所述第一概率值，得到第二概率值；

根据所有所述第二概率值构建所述目标语料集的概率转移矩阵；

所述确定标签更新后的所述目标语料集内的语料对应的标签满足预设条件，根据完成标签更新后的所述目标语料集进行预设搜索信息的内容召回，包括以下步骤：

获取标签更新后的所述目标语料集内的所有语料对应的标签；

依次选取一个语料作为待确定语料，确定所述待确定语料的相邻语料标签中属于相同标签的相邻语料数量；

将所述相邻语料数量最多的语料对应的标签作为所述待确定语料的待确定标签；

确定每个所述待确定语料的当前标签与对应所述待确定标签相同，根据完成标签更新后的所述目标语料集进行预设搜索信息的内容召回。

2.根据权利要求1所述的一种基于标签数据的搜索信息召回方法，其特征在于，所述根据预设标签体系对候选语料池内的语料进行分类，得到目标语料集，包括以下步骤：

获取预先设置的所述预设标签体系的第一关键词模板；

根据所述第一关键词模板对所述候选语料池内的语料进行分类，得到粗分类语料集；

对所述第一关键词模板内的关键字进行调整，得到的第二关键词模板；

通过所述第二关键词模板对所述粗分类语料集内的语料进行分类，得到目标语料集。

3.根据权利要求1所述的一种基于标签数据的搜索信息召回方法，其特征在于，所述获取所述完全图中各节点的标签更新顺序，包括以下步骤：

获取所述完全图中所有节点对应语料的点击率；

根据所述点击率的大小关系确定所述节点的标签更新顺序。

4.根据权利要求1所述的一种基于标签数据的搜索信息召回方法，其特征在于，所述根据完成标签更新后的所述目标语料集进行预设搜索信息的内容召回，包括以下步骤：

获取预设搜索信息；

在完成标签更新后的所述目标语料集内，确定所述预设搜索信息的信息召回标签；

根据所述信息召回标签进行所述预设搜索信息的内容召回。

5.一种基于标签数据的搜索信息召回***，其特征在于，包括：

第二更新模块，用于获取所述完全图中各节点的标签更新顺序并根据所述概率转移矩阵和更新后的所述标签概率矩阵，基于所述标签更新顺序依次更新各节点对应语料的标签；

内容召回模块，用于确定标签更新后的所述目标语料集内的语料对应的标签满足预设条件，根据完成标签更新后的所述目标语料集进行预设搜索信息的内容召回；

根据所述权重生成连接所述任意两条语料的连接线；

获取所述任意两个节点对应语料的语义信息；

根据所述语义信息调节所述第一概率值，得到第二概率值；

6.一种基于标签数据的搜索信息召回装置，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1至4中任意一项所述的基于标签数据的搜索信息召回方法。

7.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至4中任意一项所述的基于标签数据的搜索信息召回方法。