CN115438166A

CN115438166A - 基于关键词和语义的搜索方法、装置、设备及存储介质

Info

Publication number: CN115438166A
Application number: CN202211202291.3A
Authority: CN
Inventors: 陈先丽; 王阳; 刘屹; 孙猛
Original assignee: China Merchants Finance Technology Co Ltd
Current assignee: China Merchants Finance Technology Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-06

Abstract

本发明涉及人工智能技术，揭露一种基于关键词和语义的搜索方法、装置、设备及介质，所述方法包括：对输入内容进行文本转换及标准化处理，得到标准文本；对标准文本进行意图识别，根据意图识别结果提取标准文本所对应的目标数据库；利用目标数据库对标准文本进行关键词召回，根据召回结果生成第一搜索集合；构建标准文本的样本对，将标准文本及样本对输入语义向量模型中，得到对应的语义向量；根据目标数据库生成目标向量数据库，将语义向量与目标向量数据库中的源向量进行比对查询，根据比对查询的结果生成第二搜索集合；对第一搜索集合与第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合。本发明可以提高搜索结果的准确性以及搜索速度。

Description

基于关键词和语义的搜索方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于关键词和语义的搜索方法、装置、电子设备及计算机可读存储介质。

背景技术

在数字化时代，人们产生的信息量呈***式增长，每天都有海量的新闻资讯被产生和消费，一些高价值信息往往分散在这些海量新闻资讯中，人们想要从海量的信息中获取需要的信息需要借助搜索方法。在现有的搜索方法主要基于关键词进行搜索，将包含有关键词的内容作为搜索结果推送给用户，而单凭词条匹配获得的搜索结果不能准备包含用户真正需要的信息，导致现有的搜索方案不准确；其次，现有搜索方法缺少语义理解能力或语义理解能力弱，存在找不准、找不全等问题，增加了用户直接触达有用信息的难度；并且，在如今互联网信息***的影响下，基于大量的信息进行关键词匹配或者语义分析，效率较为低下，导致搜索结果显示的较慢。

综上所述，现有技术中存在搜索速度较慢以及搜索结果准确性较低的问题。

发明内容

本发明提供一种基于关键词和语义的搜索方法、装置、电子设备及计算机可读存储介质，其主要目的在于解决搜索速度较慢以及搜索结果准确性较低的问题。

为实现上述目的，本发明提供的一种基于关键词和语义的搜索方法，包括：

获取用户的输入内容，对所述输入内容进行文本转换，得到输入文本，并对所述输入文本进行标准化处理，得到标准文本；

对所述标准文本进行意图识别，根据意图识别结果提取所述标准文本所对应的目标数据库；

利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合；

构建所述标准文本的样本对，将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量；

根据所述目标数据库生成目标向量数据库，将所述语义向量与所述目标向量数据库中的源向量进行比对查询，并根据比对查询的结果生成第二搜索集合；

对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合。

可选地，所述对所述输入内容进行文本转换，得到输入文本，包括：

判断输入内容为文本、语音还是图片；

当所述输入内容为文本时，将所述输入内容作为输入文本；

当所述输入内容为语音时，对所述输入内容进行特征提取，得到语音特征，利用预设的声学模型计算所述语音特征，得到输入文本；

当所述输入内容为图片时，对所述输入内容进行OCR图片文字识别，并将识别的结果作为输入文本。

可选地，所述利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合，包括：

获取所述目标数据库的所有内容文档，并提取所述标准文本的关键词；

利用预设是核心搜索公式对所述内容文档以及所述关键词进行匹配计算，得到每个内容文档对应的匹配分值；

对所述内容文档以及所述关键词进行匹配计算如下式所示：

其中，score(D，Q)为内容文档D对应的匹配分值；IDF(q_i)为第i个关键词的逆文档频率(Inverse Document Frequency，IDF)；n为所述标准文本的关键词数量；f(q_i,D)为第i个关键词在文档D中的词频(Term Frequency，TF)；k、b为预设的自由参数，可选地，k∈[1.2,2.0]，b＝0.75；|D|为内容文档D的总词数；avgdl(average document length)为所有内容文档长度的平均值；

根据匹配分值从所述目标数据库中召回得到目标搜索文本，并根据所述目标搜索文档生成第一搜索集合。

可选地，所述构建所述标准文本的样本对，包括：

对所述标准文本进行分词处理，得到文本分词，并对所述文本分词进行分词重复，得到第一正样本；

利用预设的同义词典搜索所述文本分词的同义词，利用所述同义词进行文本分词替换，得到第二正样本；

随机采样生成所述标准文本的负样本，并将所述第一正样本及所述第二样本作为所述标准文本的正样本，根据所述负样本及所述正样本确定所述标准文本的样本对。

可选地，所述将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量，包括：

对所述标准文本及所述样本对进行特征编码，得到编码文本及编码样本对；

利用所述语义向量模型的多层感知器对所述编码样本对进行全连接，得到输出样本对；

利于预设的目标函数对所述编码文本及所述输出样本对计算，得到函数值，并判断所述函数值是否符合预设要求；

利用下式对所述编码文本及所述输出样本对计算：

其中，h₁、h₂为未知编码量；sim(h₁,h₂)为h₁与h₂的余弦相似度；l为所述函数值；sim(h,h_p)为编码文本h与输出样本对中输出正样本h_p的余弦相似度；sim(h,h_q)为编码文本h与输出样本对中输出负样本h_q的余弦相似度；N为输出正样本总数量；M为输出负样本总数量；τ为预设的温度系数；

若所述函数值不符合预设要求，则修正所述语义向量模型的参数；

若所述函数值预设要求，则将所述输出样本中的输出正样本作为语义向量。

可选地，所述根据所述目标数据库生成目标向量数据库，包括：

提取所述目标数据库中的目标数据，对所述目标数据进行特征转换，得到所述目标数据对应的特征向量；

将所述特征向量存储至预设的Milvus数据库中，得到目标向量数据库。

可选地，所述对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合，包括：

剔除所述第一搜索集合与所述第二搜索集合中相同的搜索结果，得到目标搜索结果；

根据所述第一搜索集合与所述第二搜索集合的排序设置所述目标搜索结果的权重；

根据所述权重对所述目标搜索结果重新排序，并根据重新排序后的搜索结果生成目标搜索集合。

为了解决上述问题，本发明还提供一种基于关键词和语义的搜索装置，所述装置包括：

标准文本生成模块，用于获取用户的输入内容，对所述输入内容进行文本转换，得到输入文本，并对所述输入文本进行标准化处理，得到标准文本；

目标数据库选取模块，用于对所述标准文本进行意图识别，根据意图识别结果提取所述标准文本所对应的目标数据库；

第一搜索集合生成模块，用于利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合；

语义向量计算模块，用于构建所述标准文本的样本对，将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量；

第二搜索集合生成模块，用于根据所述目标数据库生成目标向量数据库，将所述语义向量与所述目标向量数据库中的源向量进行比对查询，并根据比对查询的结果生成第二搜索集合；

目标搜索集合生成模块，用于对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的基于关键词和语义的搜索方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于关键词和语义的搜索方法。

本发明实施例通过语义搜索与关键词搜索相结合，提升搜索的语义理解能力，其中，关键词检索与语义检索的过程为并行进行，在最终的搜索结果输出时再将关键词检索生成的第一搜索集合与语义检索生成的第二搜索集合进行组合排序，得到输出的目标搜索结果；通过对标准文本进行意图识别，确认标准文本所对应的目标数据库，再根据该目标数据库进一步进行分析，减少了数据分析量，从而提高了搜索的速度与效率；通过关键词在目标数据库召回，以及将语义向量模型生成的语义向量与向量数据库中的源向量进行比对查询，得到符合条件的搜索结果，提高了搜索结果的准确性以及搜索速度。因此本发明提出的基于关键词和语义的搜索方法、装置、电子设备及计算机可读存储介质，可以解决搜索速度较慢以及搜索结果准确性较低的问题。

附图说明

图1为本发明一实施例提供的基于关键词和语义的搜索方法的流程示意图；

图2为本发明一实施例提供的利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合的流程示意图；

图3为本发明一实施例提供的构建所述标准文本的样本对的流程示意图；

图4为本发明一实施例提供的基于关键词和语义的搜索装置的功能模块图；

图5为本发明一实施例提供的实现所述基于关键词和语义的搜索方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种基于关键词和语义的搜索方法。所述基于关键词和语义的搜索方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述基于关键词和语义的搜索方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本发明一实施例提供的基于关键词和语义的搜索方法的流程示意图。在本实施例中，所述基于关键词和语义的搜索方法包括：

S1、获取用户的输入内容，对所述输入内容进行文本转换，得到输入文本，并对所述输入文本进行标准化处理，得到标准文本。

本发明实施例中，所述输出内容可以包括文本输入、语音输入、图片输入等；本发明实施例可以通过文本内容进行关键词分析以及语义分析，因此，将输入内容转换为文本，便于后续的关键词分析以及语义分析。

本发明实施例中，所述对所述输入内容进行文本转换，得到输入文本，包括：

判断输入内容为文本、语音还是图片；

当所述输入内容为文本时，将所述输入内容作为输入文本；

本发明实施例中，用户在终端输入文本、语音或者图片时，所触发的接口有所不同。例如，用户输入文本内容，则通过搜索框接口完成输入文本的传输；用户输入语音内容，则调用语音监听接口完成输入语音的传输；用户输入图片内容，则调用图片上传接口完成输入图片的传输。因此，可以通过输入内容的传输接口来判断输入内容的类型。

本发明实施例中，对所述输入内容进行特征提取的方法包括线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)，其目的是把每一帧波形变成一个包含声音信息的多维向量；所述声学模型可以为隐马尔可夫模型(Hidden Markov Model，HMM)，通过模型计算可以计算语音特征，得到音素信息；再利用预设的字典与所述音素信息进行概率预测，将预测结果中概率值最大的文本作为输入文本。其中，所述字典为字或者词与音素的对应，例如，中文就是拼音和汉字的对应，英文就是音标与单词的对应。

本发明实施例中，对所述输入文本进行标准化处理的过程可以包括但限于繁简转换、特殊字符识别、敏感词过滤、大小写转换、内容纠错、模糊词识别等。本发明实施例通过对输入文本进行标准化处理，降低了标准文本的内容干扰，提高了标准文本的内容规范性及准确性。

本发明实施例中，在获取用户的输入内容时，受用户输入内容不完整性的影响，可以根据输入内容进行输入联想，辅助用户更快的检索到所需要的内容，并且提高了用户的体验感。

本发明实施例中，所述获取用户的输入内容之前，所述方法还包括：

接收所述输入内容中的第一输入内容，对第一输入内容进行前缀匹配，得到第一匹配内容；

当所述第一匹配内容中不存在用户的需求内容时，接收所述第一输入内容后的第二输入内容，对所述第二输入内容进行中缀匹配，得到第二匹配内容；

当所述第二匹配内容中不存在用户的需求内容时，接收所述第二输入内容后的第三输入内容，对所述第三输入内容进行字段级匹配，得到第三匹配内容；

当所述第三匹配内容中不存在用户的需求内容时，接收第三输入内容后的后续输入内容，并将所述第一输入内容、所述第二输入内容、所述第三输入内容以及所述后续输入内容进行拼接，得到所述用户的输入内容。

本发明实施例中，在得到第一匹配内容、第二匹配内容或者第三匹配内容后，若存在用户需求内容，将则用户所选择的匹配内容作为用户的输入内容。

S2、对所述标准文本进行意图识别，根据意图识别结果提取所述标准文本所对应的目标数据库。

本发明实施例中，在面对目前海量的内容数据时，为了提高基于文本的搜索效率，会根据数据内容的类型对数据进行分类，进而得到多个不同类型标签的数据库。因此，在基于文本进行搜索时，首先需要根据文本内容确定与其对应的目标数据库。

本发明实施例中，所述对所述标准文本进行意图识别，根据意图识别结果提取所述标准文本所对应的目标数据库，包括：

对所述标准文本进行分词及词性标注，得到文本分词，并根据所述文本分词在预设的意图词典中检索；

当在所述意图词典中检索到所述文本分词时，从所述意图词典中提取所述文本分词所对应的意图标签；

当在所述意图词典中未检索到所述文本分词时，计算所述文本分词与预设所述意图词典中多个历史搜索文本的语义相似度，将语义相似度符合预设条件的历史搜索文本所对应的意图标签作为所述文本分词所对应的意图标签；

将所述文本分词所对应的意图标签与预设的多个数据库所对应的数据库标签进行匹配，根据匹配结果从多个所述数据库中选取目标数据库。

本发明实施例中，所述意图词典是根据历史搜索文本以及所述历史搜索文本对应的搜索结果进行机器自学习而得，且所述意图词典包括历史搜索文本以及所述历史搜索文本对应的意图标签。进一步地，标准文本进行识别后得到的意图可以不止一个，因此，每个意图标签可以具有各自的权重，根据意图标签的权重再进一步选取目标意图标签。

本发明另一可选实施例中，还可以计算所述标准文本的文本特征，将所述文本特征输入预先训练好的LSTM+attention网络模型、BERT网络分类模型等进行计算，得到不同意图所对应的概率，从而确定所述标准文本所对应的意图。

S3、利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合。

本发明实施例中，可以采用Elasticsearch搜索引擎对所述标准文本进行关键词召回，所述Elasticsearch搜索引擎是一个分布式、可扩展、实时的基于关键词的搜索引擎，可以通过Elasticsearch搜索引擎的核心搜索公式对所述标准文本进行计算，从而实现搜索结果的召回。

请参阅图2所示，本发明实施例中，所述利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合，包括：

S21、获取所述目标数据库的所有内容文档，并提取所述标准文本的关键词；

S22、利用预设是核心搜索公式对所述内容文档以及所述关键词进行匹配计算，得到每个内容文档对应的匹配分值；

S23、根据匹配分值从所述目标数据库中召回得到目标搜索文本，并根据所述目标搜索文档生成第一搜索集合。

具体地，对所述内容文档以及所述关键词进行匹配计算如下式所示：

其中，score(D，Q)为内容文档D对应的匹配分值；IDF(q_i)为第i个关键词的逆文档频率(Inverse Document Frequency，IDF)；n为所述标准文本的关键词数量；f(q_i,D)为第i个关键词在文档D中的词频(Term Frequency，TF)；k、b为预设的自由参数，可选地，k∈[1.2,2.0]，b＝0.75；|D|为内容文档D的总词数；avgdl(average document length)为所有内容文档长度的平均值。

本发明实施通过核心搜索公式对所述目标数据库中的每个内容文档打分，得到每个内容文档对于标准文本的匹配程度，因此，可以将匹配分值作为排序条件对召回的内容文档进行排序，进而得到第一搜索集合中靠前的内容更加符合用户需求。

本发明实施例中，通过Elasticsearch搜索引擎进行关键词召回，该方法基于关键词的匹配度计算逻辑简单，提高了搜索效率。

S4、构建所述标准文本的样本对，将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量。

本发明实施例中，所述语义向量模型可以为对比学习模型，其通过拉近每个样本与正样本之间的距离，拉远其与负样本之间的距离，通过训练的目标函数结果，实现模型的修正，最终输出符合函数要求的语义向量。其中，正样本是语义相似的样本，负样本是语义不相似的样本。

请参阅图3所示，本发明实施例中，所述构建所述标准文本的样本对，包括：

S31、对所述标准文本进行分词处理，得到文本分词，并对所述文本分词进行分词重复，得到第一正样本；

S32、利用预设的同义词典搜索所述文本分词的同义词，利用所述同义词进行文本分词替换，得到第二正样本；

S33、随机采样生成所述标准文本的负样本，并将所述第一正样本及所述第二样本作为所述标准文本的正样本，根据所述负样本及所述正样本确定所述标准文本的样本对。

本发明实施例中，在句子中***随机选择的分词可能会引入额外的噪音，这可能会扭曲句子的意思，或者从一个句子中删除关键字也会实质上改变它的语义。因此，本发明实施例通过分词重复以及同义词替换的方法，避免了影响语义的情况，使得文本增强更加安全。

本发明实施例中，所述将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量，包括：

本发明实施例中，通过多层感知器对所述编码样本对进行全连接的作用是将两组编码向量投影到共同的空间中进行对比学习。

本发明实施例中，可以通过下式对所述编码文本及所述输出样本对计算：

其中，h₁、h₂为未知编码量；sim(h₁,h₂)为h₁与h₂的余弦相似度；l为所述函数值；sim(h,h_p)为编码文本h与输出样本对中输出正样本h_p的余弦相似度；sim(h,h_q)为编码文本h与输出样本对中输出负样本h_q的余弦相似度；N为输出正样本总数量；M为输出负样本总数量；τ为预设的温度系数。

本发明实施例中，通过构建标准文本的样本对以及语义向量模型，扩展了文本输入的语义捕捉能力，提升原有的语义搜索效果。

S5、根据所述目标数据库生成目标向量数据库，将所述语义向量与所述目标向量数据库中的源向量进行比对查询，并根据比对查询的结果生成第二搜索集合。

本发明实施例中，可以采用Milvus搜索引擎实现基于语义向量的对比查询，Milvus搜索引擎执行相似性搜索的过程分为数据库向量存储以及向量查询。

其中，数据库向量存储的过程即为根据所述目标数据库生成目标向量数据库的过程。

本发明实施例中，所述根据所述目标数据库生成目标向量数据库，包括：

本发明实施例中，在存储特征向量时，可以根据特征向量的属性进行分区储存。在进行比对查询时，可以直接通过语义向量对应的向量属性在目标向量数据库所对应的存储区域进行查询，进而提高了查询的速度及效率。

本发明实施例可以采用计算所述语义向量与所述目标向量数据库中的源向量之间向量相似度的方法，实现比对查询。其中，向量相似度的计算方法包括但不限于余弦相似度计算、皮尔逊相关系数计算、欧氏距离。

进一步地，本发明实施例可以通过相似度计算结果从目标数据库中提取对应的内容文档并对内容文档排序，得到第二搜索集合。

S6、对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合。

本发明实施例中，所述第一搜索集合与所述第二搜索集合中都包含多个内容文档，在进行终端显示时，需要对两个搜索集合中的内容文档进行整合，获取最终需要显示的目标搜索集合。

本发明实施例中，所述对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合，包括：

本发明实施例中，所述目标搜索结果的权重可以通过排序的前后情况而设置，排序靠前的权重可以大于排序靠后的权重。生成权重后，可以根据目标搜索结果的权重大小对目标搜索结果进行排序。

本发明另一可选实施例中，可以直接将第一搜索集合放在所述目标搜索集合的前半部分，将所述第二搜索集合放在所述目标搜索集合的后半部分；或者计算所述标准文本与所述第一搜索集合与所述第二搜索集合中的搜索结果的匹配度，根据匹配度对搜索结果进行排序，得到目标搜索集合。

本发明实施例通过语义搜索与关键词搜索相结合，提升搜索的语义理解能力，其中，关键词检索与语义检索的过程为并行进行，在最终的搜索结果输出时再将关键词检索生成的第一搜索集合与语义检索生成的第二搜索集合进行组合排序，得到输出的目标搜索结果；通过对标准文本进行意图识别，确认标准文本所对应的目标数据库，再根据该目标数据库进一步进行分析，减少了数据分析量，从而提高了搜索的速度与效率；通过关键词在目标数据库召回，以及将语义向量模型生成的语义向量与向量数据库中的源向量进行比对查询，得到符合条件的搜索结果，提高了搜索结果的准确性以及搜索速度。因此本发明提出的基于关键词和语义的搜索方法，可以解决搜索速度较慢以及搜索结果准确性较低的问题。

如图4所示，是本发明一实施例提供的基于关键词和语义的搜索装置的功能模块图。

本发明所述基于关键词和语义的搜索装置100可以安装于电子设备中。根据实现的功能，所述基于关键词和语义的搜索装置100可以包括标准文本生成模块101、目标数据库选取模块102、第一搜索集合生成模块103、语义向量计算模块104、第二搜索集合生成模块105及目标搜索集合生成模块106。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述标准文本生成模块101，用于获取用户的输入内容，对所述输入内容进行文本转换，得到输入文本，并对所述输入文本进行标准化处理，得到标准文本；

所述目标数据库选取模块102，用于对所述标准文本进行意图识别，根据意图识别结果提取所述标准文本所对应的目标数据库；

所述第一搜索集合生成模块103，用于利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合；

所述语义向量计算模块104，用于构建所述标准文本的样本对，将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量；

所述第二搜索集合生成模块105，用于根据所述目标数据库生成目标向量数据库，将所述语义向量与所述目标向量数据库中的源向量进行比对查询，并根据比对查询的结果生成第二搜索集合；

所述目标搜索集合生成模块106，用于对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合。

详细地，本发明实施例中所述基于关键词和语义的搜索装置100中所述的各模块在使用时采用与附图中所述的基于关键词和语义的搜索方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图5所示，是本发明一实施例提供的实现基于关键词和语义的搜索方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于关键词和语义的搜索程序。

其中，所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing Unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于关键词和语义的搜索程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如基于关键词和语义的搜索程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

所述通信接口13用于上述电子设备与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于关键词和语义的搜索程序是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于关键词和语义的搜索方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述对所述输入内容进行文本转换，得到输入文本，包括：

判断输入内容为文本、语音还是图片；

当所述输入内容为文本时，将所述输入内容作为输入文本；

3.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述利用所述目标数据库对所述标准文本进行关键词召回，根据召回结果生成第一搜索集合，包括：

对所述内容文档以及所述关键词进行匹配计算如下式所示：

其中，score(D，Q)为内容文档D对应的匹配分值；IDF(q_i)为第i个关键词的逆文档频率(Inverse Document Frequency，IDF)；n为所述标准文本的关键词数量；f(q_i,D)为第i个关键词在文档D中的词频(Term Frequency，TF)；k、b为预设的自由参数；|D|为内容文档D的总词数；avgdl(average document length)为所有内容文档长度的平均值；

4.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述构建所述标准文本的样本对，包括：

5.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述将所述标准文本及所述样本对输入预设的语义向量模型中，得到所述标准文本所对应的语义向量，包括：

利用下式对所述编码文本及所述输出样本对计算：

6.如权利要求1所述的基于关键词和语义的搜索方法，其特征在于，所述根据所述目标数据库生成目标向量数据库，包括：

7.如权利要求1至6中任一项所述的基于关键词和语义的搜索方法，其特征在于，所述对所述第一搜索集合与所述第二搜索集合中的搜索结果进行排序组合，得到目标搜索集合，包括：

8.一种基于关键词和语义的搜索装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于关键词和语义的搜索方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于关键词和语义的搜索方法。