CN111488451B

CN111488451B - 基于svm分类模型的用户查询信息及意图提取方法及装置

Info

Publication number: CN111488451B
Application number: CN202010600199.7A
Authority: CN
Inventors: 杨贻宏
Original assignee: Shanghai Feiqi Network Technology Co ltd
Current assignee: Shanghai Feiqi Network Technology Co ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-09-18
Anticipated expiration: 2040-06-29
Also published as: CN111488451A

Abstract

本发明提供了一种基于SVM分类模型的用户查询信息及意图提取方法及装置。在执行上述方法时，通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词，避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息，能够将终端设备的历史目标查询记录考虑在内，进而确保目标主题信息能够准确地表达终端设备的意图。如此，通过对关键词进行挖掘和分类，能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息，这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。

Description

基于SVM分类模型的用户查询信息及意图提取方法及装置

技术领域

本发明涉及大数据健康信息搜索查询技术领域，具体而言，涉及一种基于SVM分类模型的用户查询信息及意图提取方法及装置。

背景技术

随着大健康时代的到来，越来越多的用户通过网络进行健康信息的搜索和咨询。搜索引擎作为常用的网络搜索工具之一，可以基于用户输入的查询词句进行健康信息的搜索和展示。但是搜索引擎接收到的查询词句大多是简短且不具有逻辑信息的多个关键词，若直接通过这些关键词进行健康信息的搜索，得到的搜索结果可能与用户的搜索需求和搜索意图存在偏差。

发明内容

为了改善上述问题，本发明提供了一种基于SVM分类模型的用户查询信息及意图提取方法及装置。

所述方案揭示一种基于SVM分类模型的用户查询信息及意图提取方法，应用于搜索引擎，所述方法包括：

获取终端设备发送的多个关键词以及所述终端设备的设备标识；

将每个关键词输入预先训练完成的SVM分类模型进行计算，得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词；

确定每个类别分组下的每个目标关键词的关键词标识，根据所述关键词标识将每个类别分组进行关联，得到多个查询主题信息；

提取每个查询主题信息的第一词向量；从预设的运行日志中确定与所述设备标识对应的目标查询记录，并提取目标查询记录的第二词向量；

计算每个第一词向量与所述第二词向量之间的相似度，将最大相似度对应的查询主题信息确定为目标主题信息；

基于所述目标主题信息进行搜索，并将搜索结果回传给所述终端设备。

优选地，所述方法还包括：

计算所述目标主题信息和预设主题信息之间的词向量相似度；

判断所述词向量相似度是否超过设定阈值；

若所述词向量相似度超过所述设定阈值，则向所述终端设备发送提示信息，以提示所述终端设备基于所述提示信息与目标设备进行通讯。

优选地，确定每个类别分组下的每个目标关键词的关键词标识，根据所述关键词标识将每个类别分组进行关联，得到多个查询主题信息，包括：

确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息；

在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词；

将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。

优选地，从预设的运行日志中确定与所述设备标识对应的目标查询记录，包括：

获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录；

在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息；其中，所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库；

若存在所述反馈信息，将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。

优选地，计算每个第一词向量与所述第二词向量之间的相似度，将最大相似度对应的查询主题信息确定为目标主题信息，包括：

针对每个第一词向量，计算该第一词向量与每个目标查询记录对应的第二词向量之间的相似度，并计算该第一词向量对应的多个相似度的平均值；

将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。

所述方案揭示一种基于SVM分类模型的用户查询信息及意图提取装置，应用于搜索引擎，所述装置包括：

信息获取模块，用于获取终端设备发送的多个关键词以及所述终端设备的设备标识；

分类计算模块，用于将每个关键词输入预先训练完成的SVM分类模型进行计算，得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词；

主题获得模块，用于确定每个类别分组下的每个目标关键词的关键词标识，根据所述关键词标识将每个类别分组进行关联，得到多个查询主题信息；

向量提取模块，用于提取每个查询主题信息的第一词向量；从预设的运行日志中确定与所述设备标识对应的目标查询记录，并提取目标查询记录的第二词向量；

主题确定模块，用于计算每个第一词向量与所述第二词向量之间的相似度，将最大相似度对应的查询主题信息确定为目标主题信息；

信息搜索模块，用于基于所述目标主题信息进行搜索，并将搜索结果回传给所述终端设备。

优选地，所述装置还包括信息提示模块，用于：计算所述目标主题信息和预设主题信息之间的词向量相似度；判断所述词向量相似度是否超过设定阈值；若所述词向量相似度超过所述设定阈值，则向所述终端设备发送提示信息，以提示所述终端设备基于所述提示信息与目标设备进行通讯。

优选地，所述主题获得模块，进一步用于：确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息；在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词；将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。

优选地，所述向量提取模块，进一步用于：获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录；在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息；其中，所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库；若存在所述反馈信息，将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。

优选地，所述主题确定模块，还用于：针对每个第一词向量，计算该第一词向量与每个目标查询记录对应的第二词向量之间的相似度，并计算该第一词向量对应的多个相似度的平均值；将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。

在应用上述方案时，首先获取多个关键词以及终端设备的设备标识，其次基于SVM模型提取每个关键词的类别分组以及每个类别分组下的目标关键词，然后根据每个目标关键词的关键词标识将每个类别分组进行关联得到多个查询主题，进而根据查询主题信息的第一词向量和从运行日志中确定出的与设备标识对应的目标查询记录的第二词向量确定目标主题信息，最后基于目标主题信息进行搜索并将搜索结果回传给终端设备。

另外，通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词，避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息，能够将终端设备的历史目标查询记录考虑在内，进而确保目标主题信息能够准确地表达终端设备的意图。如此，通过对关键词进行挖掘和分类，能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息，这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开揭示的计算机设备与终端设备交互的示意图。

图2为本公开揭示的一种基于SVM分类模型的用户查询信息及意图提取方法的步骤流程示意图。

图3为本公开揭示的一种基于SVM分类模型的用户查询信息及意图提取方法的另一步骤流程示意图。

图4为本公开揭示的一种基于SVM分类模型的用户查询信息及意图提取装置的功能模块框图。

图标：

100-计算机设备；110-搜索引擎；

200-终端设备；

300-基于SVM分类模型的用户查询信息及意图提取装置；

310-信息获取模块；320-分类计算模块；330-主题获得模块；340-向量提取模块；350-主题确定模块；360-信息搜索模块；370-信息提示模块。

具体实施方式

下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为便于对本公开进行阐述，请首先参阅图1，是计算机设备100与终端设备200交互的示意图。在图1中，终端设备200与配置于计算机设备100中的搜索引擎110进行数据交互或通信，终端设备200用于向计算机设备100发送关键词，搜索引擎110可以根据这些关键词进行搜索，并通过计算机设备100将搜索结果回传给终端设备200。

为确保得到的搜索结果与用户的搜索需求和意图相吻合，本公开对计算机设备100的搜索引擎110进行了改进，并通过执行图2所示的方法能够实现上述目的。其中，图2所示的方法可以包括以下步骤所描述的内容。

步骤S210，获取终端设备发送的多个关键词以及所述终端设备的设备标识。

在本实施例中，关键词可以是多个不具有逻辑连接性的关键词，例如感冒、发烧、乏力、跑步和寒冷等。设备标识可以是终端设备的mac地址，也可以是终端设备上登录的用户的用户身份信息，在此不作限定。

步骤S220，将每个关键词输入预先训练完成的SVM分类模型进行计算，得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词。

在本实施例中，支持向量机（Support Vector Machine, SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器。在训练SVM分类模型时，可以基于预先设置了标签的样本关键词以及样本搜索结果（训练集）对SVM分类模型进行训练和学习，然后采用测试集对SVM分类模型进行验证和参数校正。例如，可以采用基于SVM思想的开源工具LIBSVM对SVM分类模型进行参数校正。

通过开源工具LIBSVM对SVM分类模型进行参数校正，能够使得SVM分类模型支持多种主流语言，例如中文、英文和日文等。这样，搜索引擎110在接收到不同语言的关键词的时候，无需将关键词进行翻译即可直接输入SVM分类模型。

进一步地，SVM分类模型的训练过程如下：首先对训练集的格式进行检查，其次基于开源工具LIBSVM选择SVM分类模型的最优参数，然后基于最优参数进行SVM分类模型的训练，最后采用测试集对SVM分类模型进行评价。在完成对SVM分类模型的训练之后，可以将SVM分类模型部署于搜索引擎110中。

在本公开中，关键词的类别分组可以通过语义来进行分组，也可以通过词性来进行分组。例如，若通过语义来进行分组，则发烧和乏力的类别分组为症状，跑步的类别分组为行为，寒冷的类别分组为环境。又例如，若通过词性来分组，发烧和跑步的类别分组为动词，乏力和寒冷的类别分组为形容词。

在具体实施时，可以单独采用其中一种分类方式来分组，也可以结合多种分类方式来分组，在此不作限定。可以理解，不同类别分组下的目标关键词可以是近义词。因此，每个关键词在其类别分组下对应多个近义的目标关键词。

步骤S230，确定每个类别分组下的每个目标关键词的关键词标识，根据所述关键词标识将每个类别分组进行关联，得到多个查询主题信息。

在具体实施过程中，可以通过以下子步骤得到多个查询主题信息。

首先，确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息。

其次，在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词。

最后，将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。

在上述内容中，关键词标识可以理解为关键词的词性信息。每个词性信息的上游词性信息和下游词性信息用于表征可以与该词性信息进行关联的词性信息。例如，若关键词“佩戴”的词性信息为动词，则关键词的“佩戴”的词性信息的上游词性信息可以为名词，上游关键词可以为“医生”、“护士”和“患者”等。关键词的“佩戴”的词性信息的下游词性信息也可以为名词，下游关键词可以为“口罩”和“面罩”等。

在具体实施时，可以在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词，这样可以基于每个目标关键词及其对应的上游关键词和下游关键词进行关联得到多个不同的查询主题信息。例如，其中一个查询主题信息可以是“在人群密集环境下进行跑步，出现畏寒和发热症状”。当然，在具体实施时，通过不同的上下游关键词组合可以得到多个不同的查询主题信息，在本实施例中不再进行一一列举。

步骤S240，提取每个查询主题信息的第一词向量；从预设的运行日志中确定与所述设备标识对应的目标查询记录，并提取目标查询记录的第二词向量。

在步骤S240中，可以基于自然语言处理（Natural Language Processing，NLP）技术对主题信息和目标查询记录进行词向量的提取。

进一步地，从预设的运行日志中确定与所述设备标识对应的目标查询记录，具体可以包括内容。

首先，获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录。

其次，在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息，若存在所述反馈信息，将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。

在本实施例中，所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库。运行日志可以是计算机设备100中保存的搜索记录。可以理解，通过上述内容，能够确保确定出的目标查询记录是满足终端设备200对应的用户查询需求和用户查询意图的。

步骤S250，计算每个第一词向量与所述第二词向量之间的相似度，将最大相似度对应的查询主题信息确定为目标主题信息。

进一步地，若目标查询记录为多个，则可以计算每个第一词向量与每个目标查询记录对应的第二词向量之间的相似度，然后计算每个第一词向量对应的多个相似度的平均值，从而将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。如此，能够将查询主题信息与多个目标查询记录之间的词向量相似度考虑在内，从而确保目标主题信息能够与用户查询需求和意图相吻合。

步骤S260，基于所述目标主题信息进行搜索，并将搜索结果回传给所述终端设备。

在本实施例中，搜索引擎110通过对目标主题信息进行搜索，可以获得一系列的搜索结果，在将搜索结果回传给终端设备200时，可以将点击率靠前的若干个搜索结果进行回传，还可以将编辑时间最近的若干个搜索结果进行回传，在此不作限定。

可以理解，由于搜索结果是基于目标主题信息搜索得到的，而目标主题信息是基于查询主题信息和目标查询记录之间的词向量比较结果得到的，如此，通过对关键词进行挖掘和分类，能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息，这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。

可以理解，在应用上述方案时，首先获取多个关键词以及终端设备的设备标识，其次基于SVM模型提取每个关键词的类别分组以及每个类别分组下的目标关键词，然后根据每个目标关键词的关键词标识将每个类别分组进行关联得到多个查询主题，进而根据查询主题信息的第一词向量和从运行日志中确定出的与设备标识对应的目标查询记录的第二词向量确定目标主题信息，最后基于目标主题信息进行搜索并将搜索结果回传给终端设备。

通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词，避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息，能够将终端设备的历史目标查询记录考虑在内，进而确保目标主题信息能够准确地表达终端设备的意图。

如此，通过对关键词进行挖掘和分类，能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息，这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。

在一个可选的方式中，请结合参阅图3，所述方法还可以包括以下步骤所描述的内容。

步骤S270，计算所述目标主题信息和预设主题信息之间的词向量相似度。

在本实施例中，预设主题信息可以是与大流行病相关的疫情主题信息。

步骤S280，判断所述词向量相似度是否超过设定阈值。

在所述词向量相似度超过设定阈值时，转向步骤S290。

步骤S290，向所述终端设备发送提示信息，以提示所述终端设备基于所述提示信息与目标设备进行通讯。

可以理解，如果词向量相似度超过设定阈值，则可以确定目标主题信息是与疫情相关的查询或访问意图，则计算机设备100可以通过页面提示信息或发送短信的方式向终端设备200发送提示信息。在本实施例中，目标设备可以是咨询中心或者心理疏导机构。这样，可以提示终端设备200对应的用户与咨询中心或者心理疏导机构进行通讯，从而为终端设备200对应的用户提供相应的心理疏导。

在上述基础上，本发明还公开了基于SVM分类模型的用户查询信息及意图提取装置300，该装置包括信息获取模块310、分类计算模块320、主题获得模块330、向量提取模块340、主题确定模块350以及信息搜索模块360。

所述信息获取模块310，用于获取终端设备发送的多个关键词以及所述终端设备的设备标识。

所述分类计算模块320，用于将每个关键词输入预先训练完成的SVM分类模型进行计算，得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词。

所述主题获得模块330，用于确定每个类别分组下的每个目标关键词的关键词标识，根据所述关键词标识将每个类别分组进行关联，得到多个查询主题信息。

所述向量提取模块340，用于提取每个查询主题信息的第一词向量；从预设的运行日志中确定与所述设备标识对应的目标查询记录，并提取目标查询记录的第二词向量。

所述主题确定模块350，用于计算每个第一词向量与所述第二词向量之间的相似度，将最大相似度对应的查询主题信息确定为目标主题信息。

所述信息搜索模块360，用于基于所述目标主题信息进行搜索，并将搜索结果回传给所述终端设备。

可选地，所述装置还包括信息提示模块370，用于：

判断所述词向量相似度是否超过设定阈值；

可选地，所述主题获得模块330，进一步用于：

可选地，所述向量提取模块340，进一步用于：

可选地，所述主题确定模块350，还用于：

关于上述信息获取模块310、分类计算模块320、主题获得模块330、向量提取模块340、主题确定模块350、信息搜索模块360以及信息提示模块370的描述请参照对上述方法步骤的说明。

综上，本发明实施例所提供的一种基于SVM分类模型的用户查询信息及意图提取方法及装置，首先获取多个关键词以及终端设备的设备标识，其次基于SVM模型提取每个关键词的类别分组以及每个类别分组下的目标关键词，然后根据每个目标关键词的关键词标识将每个类别分组进行关联得到多个查询主题，进而根据查询主题信息的第一词向量和从运行日志中确定出的与设备标识对应的目标查询记录的第二词向量确定目标主题信息，最后基于目标主题信息进行搜索并将搜索结果回传给终端设备。

另外，通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词，避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息，能够将终端设备的历史目标查询记录考虑在内，进而确保目标主题信息能够准确地表达终端设备的意图。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于SVM分类模型的用户查询信息及意图提取方法，其特征在于，应用于搜索引擎，所述方法包括：

基于所述目标主题信息进行搜索，并将搜索结果回传给所述终端设备；

其中，从预设的运行日志中确定与所述设备标识对应的目标查询记录，具体包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

判断所述词向量相似度是否超过设定阈值；

3.如权利要求1或2所述的方法，其特征在于，确定每个类别分组下的每个目标关键词的关键词标识，根据所述关键词标识将每个类别分组进行关联，得到多个查询主题信息，包括：

4.如权利要求1所述的方法，其特征在于，计算每个第一词向量与所述第二词向量之间的相似度，将最大相似度对应的查询主题信息确定为目标主题信息，包括：

5.一种基于SVM分类模型的用户查询信息及意图提取装置，其特征在于，应用于搜索引擎，所述装置包括：

信息搜索模块，用于基于所述目标主题信息进行搜索，并将搜索结果回传给所述终端设备；

其中，所述向量提取模块，具体用于：

6.如权利要求5所述的装置，其特征在于，所述装置还包括信息提示模块，用于：

判断所述词向量相似度是否超过设定阈值；

7.如权利要求5或6所述的装置，其特征在于，所述主题获得模块，进一步用于：

8.如权利要求5所述的装置，其特征在于，所述主题确定模块还用于：