CN114329225A

CN114329225A - 基于搜索语句的搜索方法、装置、设备及存储介质

Info

Publication number: CN114329225A
Application number: CN202210081578.9A
Authority: CN
Inventors: 邹若奇
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-12
Anticipated expiration: 2042-01-24
Also published as: CN114329225B

Abstract

本发明涉及大数据领域，公开了一种基于搜索语句的搜索方法、装置、设备及存储介质。所述方法包括：获取搜索语句和文本数据集，分别对其分词以及编码，得到至少一个搜索关键词向量和多个文本分词向量，对向量进行命名实体识别和语义角色预测；基于搜索关键词向量和文本分词向量，计算搜索语句与文本数据集中每条文本数据之间的文本相似度，并分别基于命名实体识别和语义角色预测的结果，计算其实体相似度和语义角色相似度，进而根据文本相似度、语义角色相似度以及实体相似度计算其全局相似度；按照全局相似度的大小对文本数据对应的网页链接降序显示。本发明通过文本维度、实体维度以及语义角色维度对搜索语句进行数据匹配，搜索更加准确。

Description

基于搜索语句的搜索方法、装置、设备及存储介质

技术领域

本发明涉及大数据领域，尤其涉及一种基于搜索语句的搜索方法、装置、设备及存储介质。

背景技术

随着大数据的应用和发展，如何对数据进行精确搜索成为当前亟需解决的问题，在绝大多数的搜索引擎中，通过共现词的统计从而确定数据对象与搜索语句的关联度。

现有基于搜索语句的搜索方法，搜索维度单一，搜索语句与数据对象之间的语义联系得不到体现，从而导致搜索准确率低下。

发明内容

本发明的主要目的在于解决现有基于搜索语句的搜索方法准确性低的问题。

本发明第一方面提供了一种基于搜索语句的搜索方法，包括：

获取用户输入的搜索语句和预设搜索资源池中的文本数据集，分别对所述搜索语句和所述文本数据集中的每条文本数据进行分词，以及分别对分词的结果进行向量化编码，分别得到至少一个搜索关键词向量和多个文本分词向量；

对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别；

对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测；

基于所述至少一个搜索关键词向量和所述多个文本分词向量，计算所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度，并基于命名实体识别的结果，计算所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度，以及基于语义角色预测的结果，计算所述搜索语句与所述文本数据集中每条文本数据之间的语义角色相似度；

基于预设的计算规则，对所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

获取每条所述文本数据对应的网页链接，按照所述全局相似度的大小，对所述网页链接进行降序排序，并将排序结果在所述终端输出显示。

可选的，在本发明第一方面的第一种实现方式中，所述对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别包括：

获取预设的初始训练数据集，并基于所述至少一个搜索关键词向量和所述多个文本分词向量构建待识别数据集；

以所述初始训练数据集为第一轮训练数据集，对预设的命名实体识别模型进行第一轮监督训练；

基于第一轮监督训练后的命名实体识别模型对所述待识别数据集进行命名实体识别与标注，得到弱标注的待识别数据集；

从本轮得到的弱标注的待识别数据集中提取子集，并将该子集加入所述初始训练数据集中，得到第二轮训练数据集，并基于第二轮训练数据集对第一轮监督训练后的命名实体识别模型再次进行监督训练，如此进行多轮训练，直至所述命名实体识别模型收敛时，输出当前轮次中待识别数据集的实体识别与标注的结果。

可选的，在本发明第一方面的第二种实现方式中，所述以所述初始训练数据集为第一轮训练数据集，对预设的命名实体识别模型进行第一轮监督训练包括：

调用所述命名实体识别模型中的CRF层网络对所述第一轮训练数据集进行处理，得到所述第一轮训练数据集中每个句子的概率矩阵；

基于维特比算法对每个句子的概率矩阵进行计算，得到最优标注序列；

根据所述最优标注序列中的识别结果与第一轮训练数据集中标注结果，调整所述命名实体识别模型的参数。

可选的，在本发明第一方面的第三种实现方式中，所述对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测包括：

基于预设的词性分析模型，依次对目标向量进行正序词性分析和逆序词性分析，并根据分析的结果确定目标向量对应分词的词性类型，其中，所述目标向量包括所述至少一个搜索关键词向量和所述多个文本向量；

根据所述目标向量对应分词的词性类型，在预设的词性向量库中查找所述目标向量对应分词的词性向量；

基于预设的角色分析模型，依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析，并根据分析的结果确定所述搜索关键词向量的语义角色类型和每个所述文本分词向量的语义角色类型。

可选的，在本发明第一方面的第四种实现方式中，所述基于预设的角色分析模型，依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析，并根据分析的结果确定所述搜索关键词向量的语义角色类型和每个所述文本分词向量的语义角色类型包括：

基于预设的角色分析模型，依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析，得到每个词性向量对应的第一输出向量和第二输出向量；

根据预设的概率函数，对每个词性向量对应的第二输出向量和第二输出向量进行计算，得到每个词性向量对应分词的语义角色概率向量；

基于最大值自变量点集算法，对每个词性向量对应分词的语义角色概率向量进行处理，得到用于表示语义角色类型的序号；

根据所述用于表示语义角色类型的序号，确定所述搜索关键词向量的语义角色类型和每个所述文本分词向量的语义角色类型。

可选的，在本发明第一方面的第五种实现方式中，所述基于预设的计算规则，对所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度包括：

当所述搜索关键词向量的数量在第一预设范围内时，以所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度作为全局相似度；

当所述搜索关键词向量的数量在第二预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度。

可选的，在本发明第一方面的第六种实现方式中，在所述当所述搜索关键词向量的数量在第二预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度之后，还包括：

当所述搜索关键词向量的数量在第三预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

当所述搜索关键词向量的数量在第四预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度依次与语义角色相似度以及实体相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度。

本发明第二方面提供了一种基于搜索语句的搜索装置，包括：

词向量生成模块，用于获取用户输入的搜索语句和预设搜索资源池中的文本数据集，分别对所述搜索语句和所述文本数据集中的每条文本数据进行分词，以及分别对分词的结果进行向量化编码，分别得到至少一个搜索关键词向量和多个文本分词向量；

命名实体识别模块，用于对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别；

语义角色预测模块，用于对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测；

相似度分量计算模块，用于基于所述至少一个搜索关键词向量和所述多个文本分词向量，计算所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度，并基于命名实体识别的结果，计算所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度，以及基于语义角色预测的结果，计算所述搜索语句与所述文本数据集中每条文本数据之间的语义角色相似度；

全局相似度计算模块，用于基于预设的计算规则，对所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

可视化模块，用于获取每条所述文本数据对应的网页链接，按照所述全局相似度的大小，对所述网页链接进行降序排序，并将排序结果在所述终端输出显示。

可选的，在本发明第二方面的第一种实现方式中，所述命名实体识别模块具体包括：

数据集构建单元，用于获取预设的初始训练数据集，并基于所述至少一个搜索关键词向量和所述多个文本分词向量构建待识别数据集；

监督训练单元，用于以所述初始训练数据集为第一轮训练数据集，对预设的命名实体识别模型进行第一轮监督训练；

识别标注单元，用于基于第一轮监督训练后的命名实体识别模型对所述待识别数据集进行命名实体识别与标注，得到弱标注的待识别数据集；

迭代训练单元，用于从本轮得到的弱标注的待识别数据集中提取子集，并将该子集加入所述初始训练数据集中，得到第二轮训练数据集，并基于第二轮训练数据集对第一轮监督训练后的命名实体识别模型再次进行监督训练，如此进行多轮训练，直至所述命名实体识别模型收敛时，输出当前轮次中待识别数据集的实体识别与标注的结果。

可选的，在本发明第二方面的第二种实现方式中，所述监督训练单元用于：

可选的，在本发明第二方面的第三种实现方式中，所述语义角色预测模块具体包括：

词性分析单元，用于基于预设的词性分析模型，依次对目标向量进行正序词性分析和逆序词性分析，并根据分析的结果确定目标向量对应分词的词性类型，其中，所述目标向量包括所述至少一个搜索关键词向量和所述多个文本向量；

向量获取单元，用于根据所述目标向量对应分词的词性类型，在预设的词性向量库中查找所述目标向量对应分词的词性向量；

角色分析单元，用于基于预设的角色分析模型，依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析，并根据分析的结果确定所述搜索关键词向量的语义角色类型和每个所述文本分词向量的语义角色类型。

可选的，在本发明第二方面的第四种实现方式中，所述角色分析单元具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述全局相似度计算模块具体包括：

第一计算单元，用于当所述搜索关键词向量的数量在第一预设范围内时，以所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度作为全局相似度；

第二计算单元，用于当所述搜索关键词向量的数量在第二预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度。

可选的，在本发明第二方面的第六种实现方式中，所述全局相似度计算模块具体包括：

第二计算单元，用于当所述搜索关键词向量的数量在第二预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

第三计算单元，用于当所述搜索关键词向量的数量在第三预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

第四计算单元，用于当所述搜索关键词向量的数量在第四预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度依次与语义角色相似度以及实体相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度。

本发明第三方面提供了一种基于搜索语句的搜索设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于搜索语句的搜索设备执行上述的基于搜索语句的搜索方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于搜索语句的搜索方法。

本发明提供的技术方案中，通过获取搜索语句和搜索资源池中的文本数据集，并对其分词及向量化编码，生成相应的向量，其次对生成的向量依次进行命名实体识别和语义角色预测，然后分别计算搜索语句与文本数据集中每条数据之间的文本相似度、实体相似度以及语义角色相似度，最后根据预设的计算规则，对文本相似度、实体相似度以及语义角色相似度进行计算，从而得到全局相似度，最后将按照全局相似度的大小，对文本数据集中对应的网页链接降序显示。本发明通过文本维度、实体维度以及语义角色维度对搜索语句进行数据匹配，搜索更加准确。

附图说明

图1为本发明实施例中基于搜索语句的搜索方法的第一个实施例示意图；

图2为本发明实施例中基于搜索语句的搜索方法的第二个实施例示意图；

图3为本发明实施例中基于搜索语句的搜索方法的第三个实施例示意图；

图4为本发明实施例中基于搜索语句的搜索方法的第四个实施例示意图；

图5为本发明实施例中基于搜索语句的搜索装置的一个实施例示意图；

图6为本发明实施例中基于搜索语句的搜索装置的另一个实施例示意图；

图7为本发明实施例中基于搜索语句的搜索设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于搜索语句的搜索方法、装置、设备及存储介质，搜索结果更加准确。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明中的服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于搜索语句的搜索方法的一个实施例包括：

101、获取用户输入的搜索语句和预设搜索资源池中的文本数据集，分别对搜索语句和文本数据集中的每条文本数据进行分词，以及分别对分词的结果进行向量化编码，分别得到至少一个搜索关键词向量和多个文本分词向量；

可以理解的是，基于不同搜索引擎下对应的搜索资源池之间可能存在差异，搜索资源池通过网页爬虫的方式对网页内容进行爬取从而构建索引数据库，进而服务器根据特定的匹配算法对用户输入的搜索语句进行处理，匹配出相应的网页文本，文本数据集中的文本数据即网页爬虫所爬取的网页数据。

具体的，服务器通过调用分词工具来对搜索语句和文本数据集中的每条文本数据进行分词，例如Jieba、SnowNLP、PkuSeg等，本实施例对其不做限定。受限于搜索语句的长度，服务器将其划分为至少一个分词，进而将每个分词向量化编码为对应的搜索关键词向量。

为便于计算处理，服务器基于预设的词汇表(vocabulary)对每个分词进行one-hot编码，从而将原本的文本表示转换为向量表示，以便于网络模型进行计算处理。例如服务器首先从训练文档中抽取出10000个唯一不重复的单词组成词汇表，其次对这10000个单词进行one-hot编码，得到的每个单词都是一个10000维的向量，向量每个维度的值只有0或者1，假如单词ants在词汇表中的出现位置为第3个，那么ants的向量就是一个第三维度取值为1，其他维度都为0的10000维的向量。具体的，例如搜索语句为“The dog barked atthe mailman”，那么服务器基于这个句子，可以构建一个大小为5的词汇表(忽略大小写和标点符号)：("the","dog","barked","at","mailman")，进一步对这个词汇表的单词进行编号0-4。那么“dog”就可以被表示为一个5维向量[0,1,0,0,0]。

102、对至少一个搜索关键词向量和多个文本分词向量进行命名实体识别；

可以理解的是，命名实体识别是从非结构化文本中识别具有特定意义的实体，例如人名、地名、机构名、专有名词等。服务器分别对搜索关键词向量和文本分词向量进行命名实体识别，具体的，服务器首先识别出实体的边界，然后识别实体对应的类别，识别方法如基于条件随机场(CRF，Conditional Random Field)的命名实体识别、基于多特征的命名实体识别等，本实施例对其不做限定。

103、对至少一个搜索关键词向量和多个文本分词向量进行语义角色预测；

可以理解的是，语义角色预测(SRL，Semantic Role Labeling)是句子分析的核心任务之一，服务器通过对搜索关键词向量和文本分析向量进行语义角色预测，从而恢复其中的谓词-论元结构，进而做出基本判断：“谁对谁做了什么”，“何时”与“哪里”，其中，谓词是指一个句子中对于主语的描述或判断的词，通常为一个动词；论元是指在一个句子中和谓词搭配的名词；语义角色是指在论元的基础上指出其与动词搭配时担任的角色或作用，例如时间、地点、施事者、受事者、客体、经验者、受益者、工具、目标、来源等。具体的，服务器可采用基于浅层句法分析等方式来对搜索关键词向量和文本分词向量进行语义角色预测，本实施例中对服务器进行语义角色预测的方式不做限定。

104、基于至少一个搜索关键词向量和多个文本分词向量，计算搜索语句与文本数据集中每条文本数据之间的文本相似度，并基于命名实体识别的结果，计算搜索语句与文本数据集中每条文本数据之间的实体相似度，以及基于语义角色预测的结果，计算搜索语句与文本数据集中每条文本数据之间的语义角色相似度；

可以理解的是，服务器从多个维度来衡量搜索语句和文本数据集中每条文本数据之间的相似度，将每个维度下对应的相似度作为全局相似度的相似度分量，相似度分量包括文本相似度(即字符之间相似度)、语义角色相似度以及命名实体相似度。

具体的，服务器可基于欧几里得距离(Euclidean distance)、皮尔森相关系数(Pearson correlation coefficient)、余弦相似定理等相似度算法来计算搜索语句A中每个搜索关键词向量a与文本数据B中每个文本分词向量b之间的相似度，本实施例对其不做限定。进而服务器将计算得到的每个相似度求和，得到搜索语句A与文本数据B之间的文本相似度，例如搜索语句A对应的搜索关键词向量包a1、a2,文本数据B对应的文本分词向量包括b1、b2、b3，则搜索语句A与文本数据B之间的文本相似度T_Sim(A,B)＝T_Sim(a1,b1)+T_Sim(a1,b2)+T_Sim(a1,b3)+T_Sim(a2,b1)+T_Sim(a2,b2)+T_Sim(a2,b3)。

进一步的，语义角色相似度和命名实体相似度的计算方式，请分别参考公式一和公式二。

其中，P_Sim(A,B)为搜索语句A与文本数据B之间的语义角色相似度，|A|为搜索语句A中的词性序列总数，P_Seq_A,B为搜索语句A与文本数据B中出现重叠词性的总数。

类似的，N_Sim(A,B)为搜索语句A与文本数据B之间的命名实体相似度，|A|为搜索语句A中的命名实体总数，P_Seq_A,B为搜索语句A与文本数据B中出现重叠实体类型的实体总数。

105、基于预设的计算规则，对搜索语句与文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到搜索语句与文本数据集中每条文本数据之间的全局相似度；

可以理解的是，全局相似度是基于文本相似度、语义相似度以及实体相似度中的至少一种相似度做进一步计算，可根据实际业务场景选择至少一种相似度来计算全局相似度，当仅选择一种相似度时则直接将其作为全局相似度，当选择两种或三种(即全部)相似度时，则依次将每种相似度相乘，将最后相乘或累乘的结果作为全局相似度。优选的，服务器尽可能选择较多种的相似度，从而以多个维度来计算得到全局相似度，请参考公式三：

Sim(A,B)＝T_Sim(A,B)*P_Sim(A,B)*N_Sim(A,B)

公式三

其中，T_Sim(A,B)为文本相似度，P_Sim(A,B)为语义角色相似度，N_Sim(A,B)为实体相似度，A为搜索语句，B为文本数据。

106、获取每条文本数据对应的网页链接，按照全局相似度的大小，对网页链接进行降序排序，并将排序结果在所述终端输出显示。

可以理解的是，文本数据为服务对原始的网页进行数据爬虫(web crawler)而获得的静态文本资源，进而服务器以静态文本资源为计算对象，执行自然语言处理任务(NLP，Natural Language Processing)，得到搜索语句与每个静态文本资源之间的全局相似度，进而对静态文本资源对应的原始网页的网页链接进行降序排序，让用户优先浏览到与该搜索语句关联最紧密的网页。当用户点击网页链接时，通过网页链接元素中包含的统一资源定位符(URL)快速跳转至对应网页内容中。

本实施例中，通过文本维度、实体维度以及语义角色维度对搜索语句进行数据匹配，搜索更加准确。

参阅图2，本发明实施例中基于搜索语句的搜索方法的第二个实施例包括：

201、获取用户输入的搜索语句和预设搜索资源池中的文本数据集，分别对搜索语句和文本数据集中的每条文本数据进行分词，以及分别对分词的结果进行向量化编码，分别得到至少一个搜索关键词向量和多个文本分词向量；

其中，步骤201与上述步骤101的执行步骤类似，具体此处不再赘述。

202、获取预设的初始训练数据集，并基于至少一个搜索关键词向量和多个文本分词向量构建待识别数据集；

可以理解的是，初始训练数据集可以为网络中公开的实体识别训练数据集，例如各个领域内的现象词汇、人名、地名等。

203、以初始训练数据集为第一轮训练数据集，对预设的命名实体识别模型进行第一轮监督训练；

可以理解的是，服务器调用命名实体识别模型中的CRF层网络对第一轮训练数据集进行处理，得到第一轮训练数据集中每个句子的概率矩阵，其次基于维特比算法对每个句子的概率矩阵进行计算，得到最优标注序列，最后根据所述最优标注序列中的识别结果与第一轮训练数据集中标注结果，调整所述命名实体识别模型的参数，从而结束第一轮监督训练。

具体的，服务器调用命名实体识别模型中的CRF层网络，通过条件随机场算法将输入的第一轮训练数据集中的每个数据，根据条件概率输出为满足马尔可夫随机场的概率矩阵。其中，概率矩阵由每个句子中的所有单词对应的标签概率序列组成，而标签概率序列用于表示某个单词与每个实体标签之间的概率分布。而维特比算法(Viterbi Algorithm)是一种动态规划算法，服务器通过该算法对概率矩阵进行解码，从确定其中的最优标注序列。

进一步的，服务器可通过观察实际识别结果与原始标注结果之间的偏差，从而衡量命名实体识别模型的识别准确性，优选的，服务器可通过损失函数对这种偏差进行量化计算，得到相应的损失值，当该损失值小于预设阈值或达到最小值时，表示当前命名实体识别模型达到最优性能。

204、基于第一轮监督训练后的命名实体识别模型对待识别数据集进行命名实体识别与标注，得到弱标注的待识别数据集；

可以理解的是，经过第一轮监督训练后的命名实体识别模型可以粗精度地对实体进行识别，并将对应的识别结果进行标注，其结果虽然准确性不高，但可以对待识别的数据集进行弱标注，从而将弱标注的数据集用于命名识别模型的下一轮监督训练，通过待识别数据自学习的方式实现样本的更新。

205、从本轮得到的弱标注的待识别数据集中提取子集，并将该子集加入初始训练数据集中，得到第二轮训练数据集，并基于第二轮训练数据集对第一轮监督训练后的命名实体识别模型再次进行监督训练，如此进行多轮训练，直至命名实体识别模型收敛时，输出当前轮次中待识别数据集的实体识别与标注的结果；

应当理解的是，服务器所抽取的子集是由弱标注的待识别数据集中句子的置信度大于等于置信度阈值的句子组成，其中，句子的置信度是指该句子中所有被标注为实体的单词的识别标签的平均概率值。优选的，置信度阈值是0.8。以句子“Tony and Tomarefriends”为例，识别出各单词的识别标签依次为B-Person O B-Person O O，假设识别标签的概率值依次为78％、90％、88％、91％、89％，则该句子中所有被标注为实体的单词的识别标签的平均概率值＝(78％+88％)/2＝0.83，该句子的置信度0.83大于置信度阈值0.8，则该句子会被选入子集。

206、对至少一个搜索关键词向量和多个文本分词向量进行语义角色预测；

207、基于至少一个搜索关键词向量和多个文本分词向量，计算搜索语句与文本数据集中每条文本数据之间的文本相似度，并基于命名实体识别的结果，计算搜索语句与文本数据集中每条文本数据之间的实体相似度，以及基于语义角色预测的结果，计算搜索语句与文本数据集中每条文本数据之间的语义角色相似度；

208、基于预设的计算规则，对搜索语句与文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到搜索语句与文本数据集中每条文本数据之间的全局相似度；

209、获取每条文本数据对应的网页链接，按照全局相似度的大小，对网页链接进行降序排序，并将排序结果在所述终端输出显示。

其中，步骤206-209与上述步骤103-106的执行步骤类似，具体此处不再赘述。

本实施例中，详细描述了对搜索语句和文本数据进行命名实体识别的过程，通过同时以训练样本和待识别样本对命名实体识别模型进行多轮监督训练，以及待识别样本自学习，从而让识别结果更加准确。

参阅图3，本发明实施例中基于搜索语句的搜索方法的第三个实施例包括：

301、获取用户输入的搜索语句和预设搜索资源池中的文本数据集，分别对搜索语句和文本数据集中的每条文本数据进行分词，以及分别对分词的结果进行向量化编码，分别得到至少一个搜索关键词向量和多个文本分词向量；

302、对至少一个搜索关键词向量和多个文本分词向量进行命名实体识别；

其中，步骤301-302与上述步骤101-102的执行步骤类似，具体此处不再赘述。

303、基于预设的词性分析模型，依次对目标向量进行正序词性分析和逆序词性分析，并根据分析的结果确定目标向量对应分词的词性类型，其中，目标向量包括至少一个搜索关键词向量和多个文本向量；

可以理解的是，鉴于词性分析时不仅需考虑自身的属性，还需考虑前后词之间的依赖关系，最终确定词性，因此词性分析的顺序会对分析结果产生一定影响。本实施例中，服务器从正序和逆序进行词性分析，得到相应的词性概率向量，并分别为其设定相应的权重后求和，得到最终的词性概率向量。优选的，正序词性分析的词性概率向量与逆序词性概率向量之间的权重比为3:1。进一步的，服务器通过最大自变量函数对最终的词性概率向量进行计算，得到最终的词性类型序号，从而确定分词对应的词性类型，例如动词、名词、形容词等。

304、根据目标向量对应分词的词性类型，在预设的词性向量库中查找目标向量对应分词的词性向量；

可以理解的是，为便于使用该词性类型进行角色分析计算，服务器将词性类型转换为对应的词性向量，具体的，服务器根据预设的词性向量库对词性类型进行匹配，得到相应的向量表示。

305、基于预设的角色分析模型，依次对目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析，并根据分析的结果确定搜索关键词向量的语义角色类型和每个文本分词向量的语义角色类型；

应当理解的是，服务器首先基于预设的角色分析模型，依次对词性向量进行正序语义角色分析和逆序语义角色分析，得到每个词性向量对应的第一输出向量和第二输出向量；然后根据预设的概率函数，对每个词性向量对应的第二输出向量和第二输出向量进行计算，得到每个词性向量对应分词的语义角色概率向量；最后基于最大值自变量点集算法，对每个词性向量对应分词的语义角色概率向量进行处理，得到用于表示语义角色类型的序号以确定搜索关键词向量和每个文本分词向量的语义角色类型。服务器对分词的语义角色分析的过程同词性分析过程相似，同样是正序结合逆序分析，得到正序语义角色概率向量和逆序语义角色概率向量，同样可以引入相应的权重对其进行加权求和，得到分词对应的语义角色概率向量。服务器通过最大值自变量点集(argmax)可以获取分词对应的语义角色概率向量为最大值时分词对应的语义角色类型的序号。

306、基于至少一个搜索关键词向量和多个文本分词向量，计算搜索语句与文本数据集中每条文本数据之间的文本相似度，并基于命名实体识别的结果，计算搜索语句与文本数据集中每条文本数据之间的实体相似度，以及基于语义角色预测的结果，计算搜索语句与文本数据集中每条文本数据之间的语义角色相似度；

307、基于预设的计算规则，对搜索语句与文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到搜索语句与文本数据集中每条文本数据之间的全局相似度；

308、获取每条文本数据对应的网页链接，按照全局相似度的大小，对网页链接进行降序排序，并将排序结果在所述终端输出显示。

其中，步骤306-308与上述步骤104-106的执行步骤类似，具体此处不再赘述。

本实施例中，详细描述对搜索语句和文本数据进行语义角色预测的过程，通过正反向词性分析以及正反向语义角色分析，从而提高预测结果的准确性。

参阅图4，本发明实施例中基于搜索语句的搜索方法的第四个实施例包括：

401、获取用户输入的搜索语句和预设搜索资源池中的文本数据集，分别对搜索语句和文本数据集中的每条文本数据进行分词，以及分别对分词的结果进行向量化编码，分别得到至少一个搜索关键词向量和多个文本分词向量；

402、对至少一个搜索关键词向量和多个文本分词向量进行命名实体识别；

403、对至少一个搜索关键词向量和多个文本分词向量进行语义角色预测；

404、基于至少一个搜索关键词向量和多个文本分词向量，计算搜索语句与文本数据集中每条文本数据之间的文本相似度，并基于命名实体识别的结果，计算搜索语句与文本数据集中每条文本数据之间的实体相似度，以及基于语义角色预测的结果，计算搜索语句与文本数据集中每条文本数据之间的语义角色相似度；

其中，步骤401-404与上述步骤101-105的执行步骤类似，具体此处不再赘述。

405、当搜索关键词向量的数量在第一预设范围内时，以搜索语句与文本数据集中每条文本数据之间的文本相似度作为全局相似度；

可以理解的是，服务器通过解析搜索关键词中分词数量，从而确定对应全局相似度的计算方式。例如在本实施例中第一预设范围为K∈[1,3]且K为整数，鉴于搜索语句较短，关键词较少，故在全局相似度中不考虑语义角色相似度和命名实体相似度，将搜索语句与文本数据之间的文本相似度作为全局相似度；

406、当搜索关键词向量的数量在第二预设范围内时，将搜索语句与文本数据集中每条文本数据之间的实体相似度与语义角色相似度相乘，得到搜索语句与文本数据集中每条文本数据之间的全局相似度；

可以理解的是，例如第二预设范围为K∈[3,5]且K为整数，服务器将搜索语句与文本数据之间的命名实体相似度与语义角色相似度相乘，作为全局相似度。

407、当搜索关键词向量的数量在第三预设范围内时，将搜索语句与文本数据集中每条文本数据之间的文本相似度与语义角色相似度相乘，得到搜索语句与文本数据集中每条文本数据之间的全局相似度；

可以理解的是，例如本实施例中第三预设范围为K∈[5,7]且K为整数，服务器将搜索语句与文本数据之间的文本相似度与语义角色相似度相乘，作为全局相似度。

408、当搜索关键词向量的数量在第四预设范围内时，将搜索语句与文本数据集中每条文本数据之间的文本相似度依次与语义角色相似度以及实体相似度相乘，得到搜索语句与文本数据集中每条文本数据之间的全局相似度；

可以理解的是，例如本实施例中第四预设范围为K∈(7，∞)且K为整数，此时搜索语句过长，包含过多的关键词，服务器将搜索语句与文本数据之间的文本相似度、命名实体相似度以及语义角色相似度依次相乘，作为全局相似度。

409、获取每条文本数据对应的网页链接，按照全局相似度的大小，对网页链接进行降序排序，并将排序结果在所述终端输出显示。

其中，步骤409与上述步骤106的执行步骤类似，具体此处不再赘述。

本实施例中，详细描述了全局相似度的计算过程，通过搜索语句中搜索关键词的个数灵活调整全局相似度的计算方式，以提高搜索效率，合理分配计算资源。

上面对本发明实施例中基于搜索语句的搜索方法进行了描述，下面对本发明实施例中基于搜索语句的搜索装置进行描述，请参阅图5，本发明实施例中基于搜索语句的搜索装置的一个实施例包括：

词向量生成模块501，用于获取用户输入的搜索语句和预设搜索资源池中的文本数据集，分别对所述搜索语句和所述文本数据集中的每条文本数据进行分词，以及分别对分词的结果进行向量化编码，分别得到至少一个搜索关键词向量和多个文本分词向量；

命名实体识别模块502，用于对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别；

语义角色预测模块503，用于对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测；

相似度分量计算模块504，用于基于所述至少一个搜索关键词向量和所述多个文本分词向量，计算所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度，并基于命名实体识别的结果，计算所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度，以及基于语义角色预测的结果，计算所述搜索语句与所述文本数据集中每条文本数据之间的语义角色相似度；

全局相似度计算模块505，用于基于预设的计算规则，对所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

可视化模块506，用于获取每条所述文本数据对应的网页链接，按照所述全局相似度的大小，对所述网页链接进行降序排序，并将排序结果在所述终端输出显示。

参阅图6，本发明实施例中基于搜索语句的搜索装置的另一个实施例包括：

其中，所述命名实体识别模块502具体包括：

数据集构建单元5021，用于获取预设的初始训练数据集，并基于所述至少一个搜索关键词向量和所述多个文本分词向量构建待识别数据集；

监督训练单元5022，用于以所述初始训练数据集为第一轮训练数据集，对预设的命名实体识别模型进行第一轮监督训练；

识别标注单元5023，用于基于第一轮监督训练后的命名实体识别模型对所述待识别数据集进行命名实体识别与标注，得到弱标注的待识别数据集；

迭代训练单元5024，用于从本轮得到的弱标注的待识别数据集中提取子集，并将该子集加入所述初始训练数据集中，得到第二轮训练数据集，并基于第二轮训练数据集对第一轮监督训练后的命名实体识别模型再次进行监督训练，如此进行多轮训练，直至所述命名实体识别模型收敛时，输出当前轮次中待识别数据集的实体识别与标注的结果。

其中，所述监督训练单元5022用于：

其中，所述语义角色预测模块503具体包括：

词性分析单元5031，用于基于预设的词性分析模型，依次对目标向量进行正序词性分析和逆序词性分析，并根据分析的结果确定目标向量对应分词的词性类型，其中，所述目标向量包括所述至少一个搜索关键词向量和所述多个文本向量；

向量获取单元5032，用于根据所述目标向量对应分词的词性类型，在预设的词性向量库中查找所述目标向量对应分词的词性向量；

角色分析单元5033，用于基于预设的角色分析模型，依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析，并根据分析的结果确定所述搜索关键词向量的语义角色类型和每个所述文本分词向量的语义角色类型。

其中，所述角色分析单元5033具体用于：

其中，所述全局相似度计算模块505具体包括：

第一计算单元5051，用于当所述搜索关键词向量的数量在第一预设范围内时，以所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度作为全局相似度；

第二计算单元5052，用于当所述搜索关键词向量的数量在第二预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

第三计算单元5053，用于当所述搜索关键词向量的数量在第三预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度；

第四计算单元5054，用于当所述搜索关键词向量的数量在第四预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度依次与语义角色相似度以及实体相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度。

本发明实施例中，模块化的设计让基于搜索语句的搜索装置各部位的硬件专注于某一功能的实现，最大化实现了硬件的性能，同时模块化的设计也降低了装置的模块之间的耦合性，更加方便维护。

上面图5和图6从模块化功能实体的角度对本发明实施例中的基于搜索语句的搜索装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于搜索语句的搜索设备进行详细描述。

图7是本发明实施例提供的一种基于搜索语句的搜索设备的结构示意图，该基于搜索语句的搜索设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710(例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于搜索语句的搜索设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在基于搜索语句的搜索设备700上执行存储介质730中的一系列指令操作。

基于搜索语句的搜索设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作***731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的基于搜索语句的搜索设备结构并不构成对基于搜索语句的搜索设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于搜索语句的搜索设备，所述基于搜索语句的搜索设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于搜索语句的搜索方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于搜索语句的搜索方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于搜索语句的搜索方法，其特征在于，所述基于搜索语句的搜索方法包括：

2.根据权利要求1所述的基于搜索语句的搜索方法，其特征在于，所述对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别包括：

3.根据权利要求2所述的基于搜索语句的搜索方法，其特征在于，所述以所述初始训练数据集为第一轮训练数据集，对预设的命名实体识别模型进行第一轮监督训练包括：

4.根据权利要求1所述的基于搜索语句的搜索方法，其特征在于，所述对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测包括：

5.根据权利要求4所述的基于搜索语句的搜索方法，其特征在于，所述基于预设的角色分析模型，依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析，并根据分析的结果确定所述搜索关键词向量的语义角色类型和每个所述文本分词向量的语义角色类型包括：

6.根据权利要求1-5中任意一项所述的基于搜索语句的搜索方法，其特征在于，所述基于预设的计算规则，对所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度包括：

7.根据权利要求6所述的基于搜索语句的搜索方法，其特征在于，在所述当所述搜索关键词向量的数量在第二预设范围内时，将所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度与语义角色相似度相乘，得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度之后，还包括：

8.一种基于搜索语句的搜索装置，其特征在于，所述基于搜索语句的搜索装置包括：

9.一种基于搜索语句的搜索设备，其特征在于，所述基于搜索语句的搜索设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于搜索语句的搜索设备执行如权利要求1-7中任意一项所述的基于搜索语句的搜索方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的基于搜索语句的搜索方法。