CN111680207B

CN111680207B - 一种用于确定用户搜索意图的方法及装置

Info

Publication number: CN111680207B
Application number: CN202010167600.2A
Authority: CN
Inventors: 莫益军; 姚盛楠; 孙焱
Original assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-08-04
Anticipated expiration: 2040-03-11
Also published as: CN111680207A

Abstract

本发明提供用于确定用户搜索意图的方法及装置，包括：根据初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量；构建异构节点图及对应的第一邻接矩阵；接收历史搜索点击事件，建立第一邻接矩阵的监督模型；接收当前搜索关键词，根据当前搜索关键词及待搜目标知识图谱生成候选搜索意图扩展实体集；利用监督模型对候选搜索意图扩展实体集进行意图推理，获得搜索意图对应的待扩展搜索关键词结果集；根据待扩展搜索关键词结果集与语义概念特征向量确定搜索意图对应的目标搜索关键词序列；如此，在用户输入的搜索词具有多样性、模糊性和多义性时，可以利用知识图谱及语义概念特征向量对搜索词进行推理、扩展和填充，使得搜索更加清晰。

Description

一种用于确定用户搜索意图的方法及装置

技术领域

本发明涉及搜索引擎技术领域，尤其涉及一种用于确定用户搜索意图的方法及装置。

背景技术

搜索功能可以辅助用户从海量信息中快速精准获取到所需信息，不仅造就了专业搜索引擎，还是知识社区、娱乐休闲、点评团购、位置导航和电商服务等几乎所有应用必须提供的工具。但是随着信息、数据和服务的***式增长，用户搜索行为呈现出新的特点，主要表现为垂直化、模糊化、多轮化、多意图化和非确定性等。现有技术中以关键词为核心的搜索引擎无法适应新的变化。

为解决上述需求，用户意图检测和表示逐渐成为搜索、问答和对话的核心的功能。其中，以关键词为基础进行意图分类，需要大量的人工标注，也无法适应意图的多样性表达。而基于知识迁移的意图检测采用双向长短期记忆网络LSTM(Long Short-Term Memory)进行低层胶囊网络的特征提取，采用动态协议路由将低层特征转发至高层胶囊网络进行意图表达，虽然能够解决零样本学习问题，但受双向LSTM自身特征影响，仅能反映邻近字词的字面意图，无法检测上下文意图，仍无法适应搜索意图的多样性表达。

综上，现有技术中的搜索技术在用户搜索意图具有多样性、模糊性和多义性的情况时，确保不了搜索结果的命中率，进而不能满足用户的搜索需求。

发明内容

针对现有技术存在的问题，本发明实施例提供了一种用于确定用户搜索意图的方法及装置，用于解决现有技术中的搜索技术在用户搜索意图具有多样性、模糊性和多义性的情况时，确保不了搜索结果的命中率，不能满足用户的搜索需求的技术问题。

本发明提供一种用于确定用户搜索意图的方法，所述方法包括：

根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量；

利用所述待搜目标集与所述初始实体集构建异构节点图，并构建所述异构节点图对应的第一邻接矩阵；

接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，并对所述监督模型进行训练；所述搜索点击事件包括：历史搜索关键词及对应的历史搜索结果；

接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集；

利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集；

根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。

可选地，根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量，包括：

对所述待搜目标集中的当前待搜目标进行分词处理，形成分词集；

针对所述分词集中的当前分词，以所述当前分词为核心基，利用汉语语言模型ngram及中文分词模型BiLSTM-CRF对所述当前分词进行实体修正，生成初始实体集；所述当前分词为所述分词集中的任一分词；

根据所述当前待搜目标的属性及所述初始实体集中的各分词元素构建待搜目标知识图谱；

基于所述待搜目标知识图谱，构建所述初始实体集中的各实体的语义概念特征向量。

可选地，所述基于所述待搜目标知识图谱，构建所述初始实体集中的各实体的语义概念特征向量，包括：

根据公式w_i′＝[word2vector(w_i′),dr(w_i′),r(w_i′),n(w_i′)]构建所述各实体的语义概念特征向量w_i′；其中，所述i为所述初始实体集中的任一实体，所述word2vector(w_i′)为词向量函数；所述dr(w_i′)为所述第i个实体在所述待搜目标知识图谱上与邻近实体的概率分布；所述r(w_i′)为所述第i个实体在待搜目标集的所有知识图谱中出现的概率；所述n(w_i′)为所述第i个实体在待搜目标j的知识图谱中的邻居节点成对出现的次数与所述第i个实体在待搜目标j的知识图谱中的邻居节点的数量之间的比值。

可选地，所述利用所述待搜目标集与所述初始实体集构建异构节点图对应的第一邻接矩阵，包括：

将所述待搜目标集中的待搜目标和所述初始实体集中的实体分别作为节点；针对所述初始实体集中的任一实体，将所述初始实体集中的实体与待搜目标之间的连接关系作为边，将各实体之间的连接关系作为边构建所述异构节点图；所述初始实体集中的实体为所述初始实体集中的分词；

针对所述异构节点图中的节点m和节点n，若所述节点m和所述节点n均为实体节点，则确定所述节点m和所述节点n的共现关系表达因子ce_mn；所述共现关系表达因子ce_mn为所述节点m和所述节点n在所述待搜目标集中同时出现的次数与所述节点m和所述节点n中任意一个节点在所述待搜目标集中出现次数的比值；

确定所述节点m和所述节点n的共搜关系表达因子cs_mn；所述共搜关系表达因子cs_mn为同时搜索所述节点m和所述节点n的用户数量与所述用户搜索所述节点m和所述节点n的总次数的比值；

确定所述节点m和所述节点n的共待搜目标表达因子cd_mn；所述共待搜目标表达因子为所述节点m和所述节点n同时出现的次数与所述待搜目标总数量的比值；

确定所述节点m和所述节点n的语义距离表达因子dis_ij；所述语义距离表达因子为所述节点m和所述节点n之间达到的跳数与任意节点之间的最大跳数的比值；

根据所述共现关系表达因子ce_mn、所述共搜关系表达因子cs_mn、所述待搜目标表达因子cd_mn以及所述共语义距离表达因子dis_mn构建第一子邻接矩阵A₁，所述

若所述节点m和所述节点n均为待搜目标节点时，确定所述节点m与所述节点n的语义相似度cr_mn；确定同时对所述节点m和所述节点n感兴趣的用户占比cf_mn；基于所述语义相似度及所述用户占比构建第二子邻接矩阵A₂，所述

若所述节点m和所述节点n为不同类型的节点时，获取所述节点m中所述节点n对应的语义概念特征向量出现的第一数量，以及所述节点m中的待搜目标的总数量；确定所述第一数量及所述节点m中的待搜目标的总数量之间的第一比例因子f_mn；

获取对所述节点n感兴趣的第一用户数量以及对所述节点m感兴趣的第二用户数量，确定所述第一用户数量与所述第二用户数量之间的第二比例因子rf_mn；基于所述第一比例因子及所述第二比例因子构建第三子邻接矩阵A₃，所述

根据所述第一子邻接矩阵、所述第二子邻接矩阵及所述第三子邻接矩阵构建所述异构节点图对应的第一邻接矩阵。

可选地，所述接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，包括：

以所述历史搜索点击事件中的各历史搜索关键词作为各实体r，将对历史搜索结果的点击集合作为目标集合R，所述目标集合R中包括Q个搜索结果；

判断所述目标集合中搜索结果u与所述搜索结果v是否在同一搜索关键词对应的点击集合中，若在，则将所述结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第一标识；若不在，则将所述搜索结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第二标识；所述搜索结果u与所述搜索结果v为所述目标集合中的任意两个搜索结果；

将出现在所述目标集合中的各所述搜索结果与所述实体r之间的第二搜索意图关系的置位标识设置为所述第一标识；

获取所述目标集合中每个搜索结果对应的历史搜索关键词，基于所述每个搜索结果对应的历史搜索关键词确定实体集合F_q，将所述各实体r分别与所述实体集合F_q中所有实体之间的第三搜索意图关系的置位标识设置为所述第一标识；

根据所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识建立所述第一邻接矩阵的监督模型；其中，所述第一搜索意图关系标记的置位标识、所述第二搜索意图关系的置位标识标记及所述第三搜索意图关系的置位标识为独热编码one-hot向量。

可选地，所述第一邻接矩阵的监督模型包括：

L＝Softmax(Relu(AW+B))；其中，所述L为所述第一索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识的集合；所述A为所述异构节点图对应的第一邻接矩阵，所述W为待训练的权重矩阵，所述B为预设的偏移量，Relu为训练过程的激活函数，Softmax为分类函数。

可选地，所述接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集，包括：

对于所述当前搜索关键词，在所述待搜目标知识图谱上以所述当前搜索关键词为核心扩展预设的跳数，生成所述候选搜索意图扩展实体集；其中，所述预设的跳数为1～3。

可选地，所述利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集，包括：

根据所述当前搜索关键词与所述候选搜索意图扩展实体集构建第二邻接矩阵；

基于所述监督模型，利用公式Y＝Softmax(Relu(A^-1D′^kAP+B))对所述第二邻接矩阵进行k阶图卷积，获得卷积结果，对所述卷积结果进行意图推理，获得所述搜索意图对应的搜索关键词初选结果集Y；

基于所述搜索关键词初选结果集中的第一搜索意图关系、第二搜索意图关系及第三搜索意图关系的置位标识，根据所述异构节点图中各实体之间的连接关系确定所述搜索意图对应的待扩展搜索关键词结果集；

其中，k为卷积次数，所述A为所述异构节点图对应的第一邻接矩阵，所述D′为所述第二邻接矩阵，所述P为待训练的权重矩阵，所述B为预设的偏移量，Relu为训练过程的激活函数，Softmax为分类函数。

可选地，根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列，包括：

将所述各实体的语义概念特征向量作为对应的实体节点的特征向量；

利用卷积函数D′^k＝(Relu(A^-1D′^k-1AP+B))对所述第二邻接矩阵进行k阶卷积，获得卷积结果D′^k；

将所述卷积结果与所述各实体节点的特征向量进行矩阵相乘，生成当前特征向量；

将所述当前特征向量分别与所述待扩展搜索关键词集合中各搜索关键词的特征向量进行点积，获得点积结果；

基于预设的筛选数量对各关键词对应的点积结果按照从大到小的顺序进行筛选，获得所述搜索意图对应的目标搜索关键词序列；其中，k为卷积次数，所述A为所述异构节点图对应的第一邻接矩阵，所述D′为所述第二邻接矩阵，所述P为待训练的权重矩阵，所述B为预设的偏移量，Relu为训练过程的激活函数，Softmax为分类函数。

本发明还提供一种用于确定用户搜索意图的装置，所述装置包括：

构建单元，用于根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量；

建立单元，用于接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，并对所述监督模型进行训练；所述搜索点击事件包括：历史搜索关键词及对应的历史搜索结果；

生成单元，用于接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集；

推理单元，用于利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集；

确定单元，用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。

本发明实施例提供了一种用于确定用户搜索意图的方法及装置，方法包括：根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量；利用所述待搜目标集与所述初始实体集构建异构节点图，并构建所述异构节点图对应的第一邻接矩阵；接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，并对所述监督模型进行训练；所述搜索点击事件包括：历史搜索关键词及对应的历史搜索结果；接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集；利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集；根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列；如此，在用户输入的搜索词具有多样性、模糊性和多义性时，可以利用知识图谱及语义概念特征向量对用户输入的搜索词(搜索意图)进行推理、扩展和填充，使得搜索更加清晰，更贴合用户的实际搜索意图，确保搜索结果的命中率，满足用户的搜索需求。

附图说明

图1为本发明实施例提供的确定用户搜索意图的方法流程示意图；

图2为本发明实施例提供的当待搜目标为歌曲时，确定的待搜目标知识图谱示意图；

图3为本发明实施例提供的当待搜目标为歌曲时，对应的异构节点图；

图4为本发明实施例提供的确定用户搜索意图的装置结构示意图。

具体实施方式

为了解决现有技术中的搜索技术在用户搜索意图具有多样性、模糊性和多义性的情况时，确保不了搜索结果的命中率，不能满足用户的搜索需求的技术问题。本发明提供了一种用于确定用户搜索意图的方法及装置。

下面通过附图及具体实施例对本发明的技术方案做进一步的详细说明。

实施例一

本实施例提供一种用于确定用户搜索意图的方法，如图1所示，方法包括：

S110，根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量；

待搜目标可以包括多种类型的待搜目标，比如网页、文档、歌曲及地点等。针对每种待搜目标，待搜目标集可以包括至少一个对应的待搜目标。比如当待搜目标为歌曲时，待搜目标集中可以包括多首歌曲。

为了提高用户搜索意图的精准度，根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量。

作为一种可选的实施例，所述根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量，包括：

对所述待搜目标集中的当前待搜目标进行分词处理，以能剔除掉停用词、标点符号等，形成分词集W；

针对分词集中的当前分词w_i，以所述当前分词为核心基，利用汉语语言模型ngram及中文分词模型BiLSTM-CRF对所述当前分词进行实体修正，生成初始实体集W′；所述当前分词为所述分词集中的任一分词；

根据所述当前待搜目标的属性及所述初始实体集中的各分词元素构建待搜目标知识图谱；比如，若当前待搜目标为歌曲时，待搜目标的属性可以包括：作词、作曲、歌手、专辑、发行时间和歌曲分类等，那么歌曲对应的待搜目标知识图谱可以如图2所示。

基于待搜目标知识图谱，构建所述初始实体集中的各实体的语义概念特征向量。

作为一种可选的实施例，所述基于待搜目标知识图谱，构建所述初始实体集中的各实体的语义概念特征向量，包括：

根据公式w_i′＝[word2vector(w_i′),dr(w_i′),r(w_i′),n(w_i′)]构建各实体的语义概念特征向量w_i′；其中，初始实体集中的实体可以理解为实体集中的分词；所述i为初始实体集中的任一实体，所述word2vector(w_i′)是词向量函数，用于对实体进行向量化，反映了在所述初始实体集中第i个实体与邻近实体的概率分布；所述dr(w_i′)为所述第i个实体在所述待搜目标知识图谱上与邻近实体的概率分布；所述r(w_i′)为第i个实体在待搜目标集的所有知识图谱中出现的概率，所述n(w_i′)为所述第i个实体在待搜目标j的知识图谱中的邻居节点成对出现的次数与所述第i个实体在待搜目标j的知识图谱中的邻居节点的数量之间的比值。

这里，可以根据公式确定dr(w_i′)；其中，j为待搜目标/>J为待搜目标集；(degree(w_ij′))为实体i在待搜目标j的知识图谱中的连接度，max(degree(w_ij′))为实体i在待搜目标j的知识图谱中的最大连接度，average(degree(w_ij′))为实体i在待搜目标j的知识图谱中的平均连接度。

可以根据公式确定r(w_i′)；其中，count(w_ij′)为实体i在待搜目标j的知识图谱中出现的次数。

可以根据公式确定n(w_i′)；其中，neighbor(w_ij′)为实体i在待搜目标j的知识图谱中的邻居节点的数量，pair(w_ij′,neighbor(w_ij′))为实体i在待搜目标j的知识图谱中的邻居节点成对出现的次数。若w_i′有N个不重复的成对邻居节点，则n(w_i′)为N维向量。

值得注意的是，一个待搜目标对应一个知识图谱，待搜目标集对应多个知识图谱。

S111，利用所述待搜目标集与所述初始实体集构建异构节点图，并构建所述异构节点图对应的第一邻接矩阵；

本步骤中，利用所述待搜目标集与所述初始实体集构建异构节点图，并构建所述异构节点图对应的第一邻接矩阵。

具体的，将待搜目标集中的待搜目标和初始实体集中的实体分别作为节点；针对所述初始实体集中的任一实体，将所述初始实体集中的实体与待搜目标之间的连接关系作为边，将各实体之间的连接关系作为边构建所述异构节点图。可以理解的是，初始实体集中的实体为初始实体集中的分词；待搜目标集中的待搜目标可以包括至少一个。其中，当待搜目标为歌曲时，异构节点图可以由图3所示。

异构节点图构建好之后，针对异构节点图中的节点m和节点n，若节点m和节点n均为实体节点，则确定节点m和节点n的共现关系表达因子ce_mn；共现关系表达因子ce_mn为节点m和节点n同时出现的次数与所述节点m和节点n中任意一个节点出现次数的比值。

这里，共现关系表达因子ce_mn可以根据公式其中，count(w_m′,w_n′)为节点m和节点n在待搜目标集中同时出现的次数，count(w_m′)为节点m在待搜目标集中出现的次数，count(w_n′)为节点n在待搜目标集中出现的次数。

确定所述节点m和所述节点n的共搜关系表达因子cs_mn；所述共搜关系表达因子cs_mn为同时搜索所述节点m和所述节点n的用户数量与所述用户搜索节点m和节点n的总次数的比值。

这里，共搜关系表达因子cs_mn可以根据公式确定；其中，count(search(w_m′,w_n′))为同时搜索所述节点m和所述节点n的用户数量，S为用户搜索节点m和节点n的总次数。

确定所述节点m和所述节点n的共待搜目标表达因子cd_mn；所述共待搜目标表达因子为节点m和节点n同时出现的次数与所述待搜目标总数量的比值。

这里，共待搜目标表达因子cd_mn可以根据公式确定，其中，count(search(w_m′,w_n′))为节点m和节点n同时出现的次数，所述S为待搜目标总数量。

确定所述节点m和所述节点n的语义距离表达因子dis_ij；所述语义距离表达因子为所述节点m和所述节点n之间达到的跳数与任意节点之间的最大跳数的比值。

这里，语义距离表达因子dis_ij可以根据公式确定；其中，distant(w_m′,w_n′)为所述节点m和所述节点n之间达到的跳数；max(distant(w_m′,w_n′))为任意节点之间的最大跳数。

然后可以根据所述共现关系表达因子ce_mn、所述共搜关系表达因子cs_mn、所述待搜目标表达因子cd_mn以及所述共语义距离表达因子dis_mn构建第一子邻接矩阵A₁，所述

作为一种可选的实施例，若节点m和节点n均为待搜目标节点时，确定所述节点m与所述节点n的语义相似度cr_mn；确定同时对所述节点m和所述节点n感兴趣的用户占比cf_mn；基于所述语义相似度及所述用户占比构建第二子邻接矩阵A₂，所述

其中，节点m与所述节点n的语义相似度cr_mn可以根据公式确定；其中，hassame(w_m′,w_n′)为节点m和节点n拥有相同且不重复的实体集合；unique(w_m′)为节点m中不重复的实体集合；unique(w_n′)为节点n中不重复的实体集合；count(hassame(w_m′,w_n′))为节点m和节点n拥有相同且不重复的实体集合的数量；count(unique(w_m′)+unique(w_n′)-hassame(w_m′,w_n′))为节点m和节点n拥有的实体集合的总数量。

同时对所述节点m和所述节点n感兴趣的用户占比cf_mn可以根据公式其中，count(favorite(w_m′,w_n′))为同时对所述节点m和所述节点n感兴趣的用户数量，favorite(w_m′)为对节点m感兴趣的用户数量，favorite(w_n′)为对节点n感兴趣的用户数量；count(favorite(w_m′)+favorite(w_n′)-favorite(w_m′,w_n′))为对所述节点m和所述节点n感兴趣的用户总数量。

作为一种可选的实施例，若节点m和节点n均为不同类型的节点时(也即一个节点为实体节点，一个节点为待搜目标节点)，假设节点m为待搜目标节点，节点n为实体节点时，获取节点m中节点n对应的语义概念特征向量出现的第一数量，以及节点m中的待搜目标的总数量；确定第一数量及节点m中的待搜目标的总数量之间的第一比例因子f_mn。

获取对节点n感兴趣的第一用户数量以及对节点m感兴趣的第二用户数量，确定第一用户数量与所述第二用户数量之间的第二比例因子rf_mn；基于所述第一比例因子及所述第二比例因子构建第三子邻接矩阵A₃，所述

这里，第一数量及节点m中的待搜目标的总数量之间的第一比例因子f_mn可以根据公式确定；其中，count(w_n′)为节点m中节点n对应的语义概念特征向量出现的第一数量，T_m为节点m中的待搜目标的总数量。

第一用户数量与所述第二用户数量之间的第二比例因子rf_mn可以根据公式确定；其中，favorite(w_n′)为对节点n感兴趣的第一用户数量，favorite(w_m′)为对节点m感兴趣的第二用户数量。

最后根据第一子邻接矩阵、第二子邻接矩阵及第三子邻接矩阵构建异构节点图对应的第一邻接矩阵A。第一邻接矩阵A为：

S112，接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，并对所述监督模型进行训练；所述搜索点击事件包括：历史搜索关键词及对应的历史搜索结果；

第一邻接矩阵构建完成后，接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，并对所述监督模型进行训练；所述搜索点击事件包括：历史搜索关键词及对应的历史搜索结果。

具体的，历史搜索点击事件包括至少一个，以历史搜索点击事件中的各历史搜索关键词作为各实体r；将对历史搜索结果的点击集合作为目标集合R，所述目标集合R中包括Q个搜索结果，分别为R_q；q取值为0，1，……Q-1。

这里可以利用独热编码one-hot编码向量来表示各个搜索结果之间的关系，可以包括：

判断所述目标集合R中搜索结果u与所述搜索结果v是否在同一搜索关键词(实体)对应的点击集合中，若在，则将所述结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第一标识；若不在，则将所述搜索结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第二标识；所述搜索结果u与所述搜索结果v为所述目标集合中的任意两个搜索结果。其中，第一标识代表两者之间具有关系，第二标识代表两者之间没有关系；比如：第一标识可以为1，第二标识可以为0。

同样的道理，将出现在所述目标集合中的各所述搜索结果与所述实体r之间的第二搜索意图关系的置位标识设置为所述第一标识；将没有出现在目标集合中的其他搜索结果与实体r之间的第二搜索意图关系的置位标识设置为第二标识。

获取目标集合中每个搜索结果对应的历史搜索关键词，基于每个搜索结果对应的历史搜索关键词确定实体集合F_q，将各实体r分别与实体集合F_q中所有实体之间的第三搜索意图关系的置位标识设置为第一标识；将各实体r与实体集合F_q之外的实体之间的第三搜索意图关系的置位标识设置为第二标识。

根据所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识建立所述第一邻接矩阵的监督模型；其中，第一邻接矩阵的监督模型为弱监督模型，所述第一搜索意图关系标记的置位标识、所述第二搜索意图关系的置位标识标记及所述第三搜索意图关系的置位标识为独热编码one-hot向量。

这里，弱监督模型包括：L＝Softmax(Relu(AW+B))；其中，所述L为所述第一索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识的集合；所述A为所述异构节点图对应的第一邻接矩阵，所述W为待训练的权重矩阵，所述B为预设的偏移量，Relu为训练过程的激活函数，Softmax为与结果相关的分类函数。

S113，接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集；

第一邻接矩阵的监督模型建立好之后，接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集。

具体的，对于所述当前搜索关键词，在所述待搜目标知识图谱上以所述当前搜索关键词为核心，以待搜目标知识图谱上各节点的连接关系扩展预设的跳数，生成所述候选搜索意图扩展实体集D；其中，所述预设的跳数为1～3。为了确保搜索意图的推理精度，本申请中的条数为3。

S114，利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集；

候选搜索意图扩展实体集D确定出之后，利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集。

具体的，根据当前搜索关键词与所述候选搜索意图扩展实体集构建第二邻接矩阵D′；其中第二邻接矩阵的构建方式与第一邻接矩阵的构建方式是相同的，在此不再赘述。

基于监督模型，利用公式Y＝Softmax(Relu(A^-1D′^kAP+B))对第二邻接矩阵进行k阶图卷积，获得卷积结果，对所述卷积结果进行意图推理，获得所述搜索意图对应的搜索关键词初选结果集Y；

基于所述搜索关键词初选结果集中的第一搜索意图关系、第二搜索意图关系及第三搜索意图关系的置位标识，根据所述异构节点图中各实体之间的连接关系确定待扩展搜索关键词结果集。

S115，根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。

将步骤S110生成的各实体的语义概念特征向量作为对应实体节点的特征向量；

利用卷积函数D′^k＝(Relu(A^-1D′^k-1AP+B))对所述第二邻接矩阵进行k阶卷积，获得卷积结果D′^k；其中，k为卷积次数，所述A为所述异构节点图对应的第一邻接矩阵，所述D′为所述第二邻接矩阵，所述P为待训练的权重矩阵，所述B为预设的偏移量，Relu为训练过程的激活函数。

利用公式w_i″＝D′^kw_i′将所述卷积结果与所述各实体节点的特征向量进行矩阵相乘，生成当前特征向量w_i″；

将所述当前特征向量w_i″分别与所述待扩展搜索关键词集合中各搜索关键词的特征向量进行点积，获得点积结果；

基于预设的筛选数量对各关键词对应的点积结果按照从大到小的顺序进行筛选，获得所述搜索意图对应的目标搜索关键词序列；其中，预设的筛选数量包括10，也即目标搜索关键词序列包括10个搜索关键词，将这10个搜索关键词作为意图填充后的搜索关键词序列。

最后，可以以目标搜索关键词序列在待搜目标集中进行搜索，获得搜索结果。

这样，充分利用知识图谱的语义特征和对用户输入的搜索意图进行推理、扩展和填充，让搜索意图更加清晰，解决了用户搜索意图多样性、模糊性和多义性时，搜索不精准的的问题，大幅提高了搜索结果的命中率。

基于同样的发明构思，本申请还提供了一种用于确定用户搜索意图的装置，详见实施例二。

实施例二

本实施例提供一种用于确定用户搜索意图的装置，如图4所示，装置包括：构建单元41、建立单元42、生成单元43、推理单元44及确定单元45；其中，

构建单元41，用于根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量；

建立单元42，用于接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，并对所述监督模型进行训练；所述搜索点击事件包括：历史搜索关键词及对应的历史搜索结果；

生成单元43，用于接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集；

推理单元44，用于利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集；

确定单元45，用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。

具体的，待搜目标可以包括多种类型的待搜目标，比如网页、文档、歌曲及地点等。针对每种待搜目标，待搜目标集可以包括至少一个对应的待搜目标。比如当待搜目标为歌曲时，待搜目标集中可以包括多首歌曲。

为了提高用户搜索意图的精准度，构建单元41用于根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量。

作为一种可选的实施例，构建单元41，具体用于：

作为一种可选的实施例，所述构建单元41具体用于：

根据公式w_i′＝[word2vector(w_i′),dr(w_i′),r(w_i′),n(w_i′)]构建各实体的语义概念特征向量w_i′；其中，初始实体集中的实体可以理解为实体集中的分词；所述i为初始实体集中的任一实体，所述word2vector(w_i′)是词向量函数，用于对实体进行向量化，反映了在所述初始实体集中第i个实体与邻近实体的概率分布；所述dr(w_i′)为所述第i个实体在所述待搜目标知识图谱上与邻近实体的概率分布；所述r(w_i′)为第i个实体在待搜目标集合的所有知识图谱中出现的概率，所述n(w_i′)为实体i在待搜目标j的知识图谱中的邻居节点成对出现的次数与实体i在待搜目标j的知识图谱中的邻居节点的数量之间的比值。

知识图谱与各实体的语义概念特征向量构建完成之后，构建单元41还用于利用所述待搜目标集与所述初始实体集构建异构节点图，并构建所述异构节点图对应的第一邻接矩阵。

然后可以根据根据所述共现关系表达因子ce_mn、所述共搜关系表达因子cs_mn、所述待搜目标表达因子cd_mn以及所述共语义距离表达因子dis_mn构建第一子邻接矩阵A₁，所述

第一邻接矩阵构建完成后，建立单元42用于接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，并对所述监督模型进行训练；所述搜索点击事件包括：历史搜索关键词及对应的历史搜索结果。

第一邻接矩阵的监督模型建立好之后，生成单元43用于接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集。

具体的，对于所述当前搜索关键词，生成单元43在所述待搜目标知识图谱上以所述当前搜索关键词为核心，以待搜目标知识图谱上各节点的连接关系扩展预设的跳数，生成所述候选搜索意图扩展实体集D；其中，所述预设的跳数为1～3。为了确保搜索意图的推理精度，本申请中的条数为3。

候选搜索意图扩展实体集D确定出之后，推理单元44用于利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集。

基于监督模型，利用公式Y＝Softmax(Relu(A-¹D′kAP+B))对第二邻接矩阵进行k阶图卷积，获得卷积结果，对所述卷积结果进行意图推理，获得所述搜索意图对应的搜索关键词初选结果集Y；

确定单元45用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。

将上述生成的各实体的语义概念特征向量作为对应实体节点的特征向量；

利用卷积函数D′k＝(Relu(A-¹D′k^-1AP+B))对所述第二邻接矩阵进行k阶卷积，获得卷积结果D′^k；其中，k为卷积次数，所述A为所述异构节点图对应的第一邻接矩阵，所述D′为所述第二邻接矩阵，所述P为待训练的权重矩阵，所述B为预设的偏移量，Relu为训练过程的激活函数。

本发明实施例提供的确定用户搜索意图的方法及装置能够带来的有益效果至少是：

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于确定用户搜索意图的方法，其特征在于，所述方法包括：

根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列；其中，

所述接收至少一个用户输入的历史搜索点击事件，以所述历史搜索点击事件为弱监督目标，建立所述第一邻接矩阵的监督模型，包括：

2.如权利要求1所述的方法，其特征在于，根据待搜目标集确定初始实体集，并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述待搜目标知识图谱，构建所述初始实体集中的各实体的语义概念特征向量，包括：

4.如权利要求1所述的方法，其特征在于，所述利用所述待搜目标集与所述初始实体集构建异构节点图对应的第一邻接矩阵，包括：

根据所述共现关系表达因子ce_mn、所述共搜关系表达因子cs_mn、所述待搜目标表达因子cd_mn以及所述语义距离表达因子dis_mn构建第一子邻接矩阵A₁，所述

5.如权利要求1所述的方法，其特征在于，所述第一邻接矩阵的监督模型包括：

L＝Softmax(Relu(AW+B))；其中，所述L为所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识的集合；所述A为所述异构节点图对应的第一邻接矩阵，所述W为待训练的权重矩阵，所述B为预设的偏移量，Relu为训练过程的激活函数，Softmax为分类函数。

6.如权利要求1所述的方法，其特征在于，所述接收当前用户输入的当前搜索关键词，根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集，包括：

7.如权利要求1所述的方法，其特征在于，所述利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理，获得所述搜索意图对应的待扩展搜索关键词结果集，包括：

8.如权利要求1所述的方法，其特征在于，根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列，包括：

利用卷积函数D′^k＝(Relu(A^-1D′^k-1AP+B))对第二邻接矩阵进行k阶卷积，获得卷积结果D′^k；

9.一种用于确定用户搜索意图的装置，其特征在于，所述装置包括：

确定单元，用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列；其中，