CN116738054A

CN116738054A - 一种结合用户意图的文本深度分析方法

Info

Publication number: CN116738054A
Application number: CN202310728063.8A
Authority: CN
Inventors: 沈池花; 刘丽娟; 闵宗茹; 谭江浩
Original assignee: Lianyang Guorong Shanghai Technology Co ltd
Current assignee: Lianyang Guorong Shanghai Technology Co ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-12

Abstract

本申请公开了一种结合用户意图的文本深度分析方法，通过获取目标网页文本，提取所述目标网页文本特征向量；所述目标网页文本是搜索引擎根据用户当前查询输入的关键词初步检索得到的；利用基于用户行为日志构建的用户意图子树，通过概念相似度计算，对用户当前查询输入的关键词进行扩展，得到准确涵盖用户意图的检索特征向量；将所述检索特征向量和网页文本特征向量以及概念相似度参数输入到已训练的CNN深度学习模型，得到文本分析结果。通过本申请，能够准确获得符合用户意图的网页文本，而且耗时时间短。

Description

一种结合用户意图的文本深度分析方法

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种文本深度分析方法、计算机设备和存储介质。

背景技术

随着网络迅猛发展，大量负面网络信息井喷式爆发，用户通过网络进行信息搜索时，经常会给用户推送很多与用户搜索目的不符的网页信息，如用户搜索“暴风”，其意在搜索名叫《暴风》的影视剧，结果推送给用户的确是关于暴风雨的天气信息。因此如何从大量网络文本中进行信息的准确快速识别受到越来越多人的关注。

而现有技术中，常利用关键词法和Simrank法用来进行符合意图的网页文本的搜索。但是，关键词法容易遗漏关键信息，而Simrank法在运用过程中考虑节点与边的连接数，忽略不同的边将造成不同权重值，导致耗时长、准确率计算不准，造成搜索的问题不准确的问题。

发明内容

基于此，针对上述技术问题，提供一种结合用户意图的文本深度分析方法，以解决现有技术根据用户输入查找网页搜索不准确以及耗时长的问题。

第一方面，一种结合用户意图的文本深度分析方法，所述方法包括：

获取目标网页文本，并提取目标网页文本特征向量；所述目标网页文本是搜索引擎根据用户当前查询输入的关键词初步检索得到的；

利用基于用户行为日志构建的用户意图子树，通过概念相似度计算，对用户当前查询输入的关键词进行扩展，得到准确涵盖用户意图的检索特征向量；

将所述检索特征向量和网页文本特征向量以及概念相似度参数输入到已训练的CNN深度学习模型，得到文本分析结果。

上述方案中，可选地，所述目标网页文本是搜索引擎根据用户当前查询输入的关键词初步检索得到的，包括：基于领域本体和网页结构定位获取目标网页的抽取规则，利用所述抽取规则获取所述目标网页文本。

上述方案中，进一步可选地，所述利用所述抽取规则获取所述目标网页文本后，还包括：将获取的所述目标网页文本基于爬虫原理对目标网页文本进行规范化处理。

上述方案中，可选地，所述提取目标网页文本特征向量包括：对所述目标网页文本中的数据进行数据预处理并加入约束条件，提取网页文本特征向量。

上述方案中，可选地，利用基于用户行为日志构建的用户意图子树包括：将所述用户行为日志的每一项查询映射为本体中的概念，为每一概念选取用户意图子树的基本节点、非基本节点和根节点，构建候选用户意图子树。

上述方案中，可选地，所述概念相似度计算通过以下公式计算：

其中：C₁,C₂为两个概念，Distance(C₁,C₂)为概念间上下文关系对相似度的影响，Share(C₁,C₂)为两个概念包括相同的上位概念数和所在节点层次比重对相似度的影响，a为语义距离和语义关系，b为加权因子，N表示概念间包含的关系数目，∑_iw_i为C₁,C₂之间所有关系权重，为两个概念间包含的所有关系权重对相似度的影响。

上述方案中，可选地，所述对用户当前查询输入的关键词进行扩展，还包括：明确用户查询过程中关键词的表现形式。

第二方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的结合用户意图的文本深度分析方法的步骤。

第三方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的结合用户意图的文本深度分析方法的步骤。

本申请至少具有以下有益效果：

本申请通过利用用户行为日志构建的用户意图子树，通过计算概念相似度，对当前查询输入的关键词利用所述用户意图子树进行扩展查询，得到准确涵盖用户意图的检索特征向量；然后当输入当前查询关键词时初步获取目标网页文本中的特征向量；将所述检索特征向量和网页文本特征向量以及概念相似度参数输入到已训练的CNN深度学习模型，得到文本分析结果。因此，通过对用户行为日志的分析构建用户意图子树，以此扩展涵盖意图的关键字，如此将扩展后准确涵盖用户意图的检索特征向量和初步检索到文本特征向量输入到CNN深度模型中，能够准确获得符合用户意图的网页文本，而且耗时时间短。

附图说明

图1为本申请一个实施例提供的一种结合用户意图的文本深度分析方法法流程示意图；

图2为本申请一个实施例提供的CNN深度学习模型框架图；

图3为本申请一个实施例中网页文本特征向量选择提取流程示意图；

图4为本申请一个实施例提供的建立用户意图子树流程图；

图5为本申请一个实施例提供的用户意图子树结构图；

图6为本申请一个实施例提供利用本申请方法和关键词法、深度分析法实验结果对比图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本体是指对概念、数据和实体之间的类别、属性和关系的表示、命名和定义，是对于“概念化”的某一部分的明确的总结或表达，本体可重用，从而避免重复的领域知识分析，本体概念使知识共享成为可能。领域本体是以某一领域为描述对象的本体。本体能够对非结构化的信息进行表述，常用于计算机科学、信息科学、人工智能等，是用于解决领域知识的共享与重用的重要手段。

本申请提出一种结合用户意图的文本深度分析方法。在用户意图分析中，根据用户行为，利用本体理论建立符合用户行为习惯的用户意图子树，充分挖掘用户的查询意图，为精准抽取文本结果做基础，在此基础上进行深度分析，首先对文本进行降维，提取特征，其次，利用用户意图子树进行扩展查询，用概念相似度理解用户关键词，挖掘特征，最后，运用CNN(Convolutional Neural Networks，卷积神经网络)深度学习模型训练，输入特征向量，输出文本信息筛选结果。

在一个实施例中，如图1所示，提供了一种结合用户意图的文本深度分析方法，包括以下步骤：

步骤S101，获取目标网页文本，并提取目标网页文本特征向量；所述目标网页文本是搜索引擎根据用户当前查询输入的关键词初步检索得到的；

在步骤S101中，用户利用搜索引擎输入当前用户查询输入的关键词初步得到目标网页文本，这些目标网页文本不是最终展示在用户面前的网页，而是涵盖用户输入的关键字所有目标文本，然后提取目标网页文本中的特征向量。

步骤S102，利用基于用户行为日志构建的用户意图子树，通过概念相似度计算，对用户当前查询输入的关键词进行扩展，得到准确涵盖用户意图的检索特征向量；

在步骤S102中，利用分析用户提交的查询，包括但不限于查询关键词等用户行为日志，构建用户意图子树。

本申请用户意图树的构建基础是用户日志。从用户日志出发，结合上述用户意图树构造方法，在查询过程中全面呈现用户的意图，使得查询结果更为精确。用户行为日志能够反映用户意图。例如，第一次查询“暴风”，用户仅点击2次包含暴风雨图片的网页，点击5次2023年上映的“暴风”影视剧网页；第二次查询“暴风”，用户点击5次“暴风”影视剧的详情介绍网页；第三次查询“暴风”，用户点击8次的“暴风”影视剧的介绍链接网页。通过这三次用户日志，可知用户意图是查找2023年上映的“暴风”影视剧的相关信息，而不是暴风雨天气的信息。将用户日志中的用户行为依次构建到用户意图子树中，能针对相同关键词挖掘用户查询的精准意图，为后续准确信息抽取提供基础。

其中，通过概念相似度的计算基于用户意图子树对用户当前查询输入的关键词进行扩展。基于用户意图子树的查询扩展能够更好帮助理解用户意图，具体流程如下。

在查询关键词的集合中，首先查询集合中元素的数量，遍历用户意图子树的节点，判断概念相似度，如果大于阈值，则添加查询扩展项。其次计算概念相似度，计算概念的语义距离Distance(C₁,C₂)，计算概念的语义共享度Share(C₁,C₂)；最后帮助更好理解用户查询意图，帮助用户明确查询目标。得到相似度函数，结合用户关键词的多种表现形式进行衡量，并对用户意图子树进行遍历。

通过遍历，用户意图子树查询扩展，在整个文本抽取过程中，将用户和文本进行有机结合，这是一个动态的过程，将使得结果更加贴近用户需求，更为准确。

步骤S103，将所述检索特征向量和网页文本特征向量以及概念相似度参数输入到已训练的CNN深度学习模型，得到文本分析结果。

其中，在步骤S103中，将在上述构建用户意图子树的基础上，进行标准知识表示。已有知识来自原始数据，即结构化数据、半结构化数据、非结构化数据，经过实体抽取、关系抽取等理解用户意图，融合多特征，搭建深度学习框架，经数据分析得到标准知识表示，从而推理、发现抽取文本信息。

深度学习框架采用CNN深度学习模型，如图2。分为卷积层、池化层、Softmax层。卷积层：是用以特征提取的层。池化层：进行特征压缩，降低维度。Softmax层：进行分类，分类得到待抽取主题文本信息的目的。

上述结合用户意图的文本深度分析方法中，通过利用用户行为日志构建的用户意图子树，通过计算概念相似度，对当前查询输入的关键词利用所述用户意图子树进行扩展查询，得到准确涵盖用户意图的检索特征向量；然后当输入当前查询关键词时初步获取目标网页文本中的特征向量；将所述检索特征向量和网页文本特征向量以及概念相似度参数输入到已训练的CNN深度学习模型，得到文本分析结果。因此，通过对用户行为日志的分析构建用户意图子树，以此扩展涵盖意图的关键字，如此将扩展后准确涵盖用户意图的检索特征向量和初步检索到文本特征向量输入到CNN深度模型中，能够准确获得符合用户意图的网页文本，而且耗时时间短。

在一个实施例中，所述目标网页文本是搜索引擎根据用户当前查询输入的关键词初步检索得到的，包括：基于领域本体和网页结构定位获取目标网页的抽取规则，利用所述抽取规则获取所述目标网页文本。

在该实施例中，现有技术针对Web信息抽取主要有两种方式：(1)基于本体的信息抽取，将网页信息用本体体征维度进行标识，对网页内容进行分析；(2)基于位置的信息抽取，依赖网页结构，可准确定位位置，然而该方法在位置不变下准确度较高。本申请有机地将二者结合，从本体和位置综合出发进行分析，提升分析效果。

网络信息抽取需要分析页面结构，利用网络爬虫执行，工作原理是，依照网页的层次化结构进行分析，如元素标记，可通过A元素、href元素标签等数量，对网页的结构进行定量分析，甄别待抽取的主题文本网页与普通非主题网页的差别，归纳特征。

本发明将以领域本体的信息抽取为基础,依照网站的视觉特征准确划分信息抽取区域,结合DOM(Document ObjectModel)树技术,获得网页中主题信息的位置，进行启发式深度分析，生成信息项的领域本体,通过信息项的领域本体解析出信息项在网页内容中的抽取规则。

在一个实施例中，所述利用所述抽取规则获取所述目标网页文本后，还包括：将获取的所述目标网页文本基于爬虫原理对目标网页文本进行规范化处理。

在该实施例中，网页信息抽取由爬虫实现，服务节点包括已访问、未访问、待访问的网址、地址库以及队列。主要运行过程如下：

(1)用户向服务器发送检索URL的请求；发送检索URL的请求由抽取规则确定；

(2)服务器发送该请求到客户端；

(3)客户端收到待检索的URL列表后，下载并保存，提取新的URL；

(4)将已访问检索的URL列表和新发现的URL列表发送至服务器；

(5)服务器从库中提取待访问检索URL列表，循环直到待访问检索URL列表为空停止。

上述爬虫的结果，作为分析的来源，该方法使得文本抽取结果更为准确。通过对文本进行规范处理，为体现用户对象的真正查询意图做基础。

在一个实施例中，所述提取网页文本特征向量包括：对所述目标网页文本中的数据进行数据预处理并加入约束条件，提取网页文本特征向量。

如图3所示，深度分析是特征选择提取的基础上，融合多个特征，特征选择提取进行预处理，具体是从原始文本数据集中，通过但不限于分词处理、去停用词、统计词频等手段，得到低维向量，进而提取特征。

融合特征即将所有特征向量放在一起，用数学方法变换为全新的特征表达方式。

可建立1、2、3、4、5…等多个特征，例如1代表是否包含关键词A，2代表是否包含关键词B，3代表网页是否跳转，4代表网页是否包含弹窗等垃圾广告，5代表是否是近一个月内出现，等等，根据文本信息抽取的实际需求，建立多个特征，形成特征向量，作为后期深度学习的输入。

在一个实施例中，利用基于用户行为日志构建的用户意图子树包括：将所述用户行为日志的每一项查询映射为本体中的概念，为所述概念中选取用户意图子树的基本节点、非基本节点和根节点，构建候选用户意图子树。

在该实施例中，运用本体，能够全面清晰的描述用户意图的主体关系和关联关系，将用户意图最直接最关心的需求进行呈现。本申请提出基于领域本体三阶段用户意图子树。如图4，具体步骤是分析用户提交的查询，包括但不限于查询关键词等用户行为日志，并映射为本体中的概念，选取用户意图子树的基本节点、非基本节点和根节点，构建候选用户意图子树，消除歧义。

在一个实施例中，所述概念相似度计算通过以下公式计算：

在该实施例中，两个概念距离为0时，相似度为1；两个概念距离越大，相似度越小。两个概念的语义共享度越大，其相似度越大。此外，用户意图子树的深度也是需要考虑的因素。

利用上述公式，将概念相似度输入到模型训练中。在用户关键词存在多种变化形式的情况下，通过概念相似度完成用户关键词的衡量。

在一个实施例中，所述对用户当前查询输入的关键词进行扩展，还包括：明确用户查询过程中关键词的表现形式。

在该实施例中，用户行为能够体现用户意图外，关键词的准确理解也是全面理解用户意图的一部分。因此需要明确用户查询过程中关键词的表现形式。中文关键词包括多种表现形式，与中文汉字结构、拼音结构密切相关，如同音字、拼音缩写等，它们通过拼音、拆分、简称能呈现为多种形式。

简称的表现形式有，如网络用语热词“yyds”是永远的神的拼音首字母缩写。

缩写的表现形式有，中文表述中常用的缩写和简称，需要准确理解其形式。如“犯罪嫌疑人”常表达为“嫌犯”，上述类似表述在新闻、报纸等各大媒体、日常生活、法律条款中较为普遍。

拆分的表现形式有，词汇“主权”汉字被拆分为主、木、又。

同音字的表现形式有，春节贴春联“福倒了”谐音是“福到了”，利用的是同音字原理。

综上，从用户行为和用户搜索关键词等多方面理解用户意图，为下一步预处理的提供良好基础，能够准确全面抽取文本。

本申请的创新点在于：创新点在于(1)综合本体和位置进行分析网页，提升分析的全面性和丰富性；(2)结合用户行为搜索日志，将用户意图拆分，利用本体理论形成用户意图子树进行分析，使理解主题信息的角度更为立体；(3)理解用户关键词的多种表现形式，通过概念相似度进行衡量，使关键词的使用程度更为量化；(4)综合实际需求挖掘多种特征，使文本信息的抽取更为全面。实验结果表明，本文结合用户意图的文本深度分析方法在相关主题的信息抽取文本返回结果中数量较高，能够更准确地分析文本信息。

在一个实施例中，为说明效果，开展实验一对比不同方法。针对“ChatGPT”主题，分析关键词法、深度分析法、结合用户意图的文本深度分析方法的结果。图6整体反映返回前N个网页满足要求的网页数量情况。随着返回结果的页面数量增加，结合用户意图的分析方法符合要求的网页数比其他二者方法高，表明准确率更高。

本申请针对当前文本信息难以准确提取的问题，提出一种结合用户意图的文本分析方法，通过用户意图子树的获得知识，考虑用户关键词的多种表现形式，用概念相似度进行衡量，并用深度学习模型，挖掘特征，通过用户意图子树进行查询扩展进行分析。

本申请采取目前应用广泛且高效的方法，切实从文本角度、用户角度出发，旨在为降低人力成本，提升挖掘效率，提高分析的准确度。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述一种结合用户意图的文本深度分析方法。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种结合用户意图的文本深度分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的结合用户意图的文本深度分析方法，其特征在于，所述目标网页文本是搜索引擎根据用户当前查询输入的关键词初步检索得到的，包括：基于领域本体和网页结构定位获取目标网页的抽取规则，利用所述抽取规则获取所述目标网页文本。

3.根据权利要求2所述的结合用户意图的文本深度分析方法，其特征在于，所述利用所述抽取规则获取所述目标网页文本后，还包括：将获取的所述目标网页文本基于爬虫原理对目标网页文本进行规范化处理。

4.根据权利要求1所述的结合用户意图的文本深度分析方法，其特征在于，所述提取目标网页文本特征向量包括：对所述目标网页文本中的数据进行数据预处理并加入约束条件，提取网页文本特征向量。

5.根据权利要求1所述的结合用户意图的文本深度分析方法，其特征在于，利用基于用户行为日志构建的用户意图子树包括：将所述用户行为日志的每一项查询映射为本体中的概念，为每一概念选取用户意图子树的基本节点、非基本节点和根节点，构建候选用户意图子树。

6.根据权利要求1所述的结合用户意图的文本深度分析方法，其特征在于，所述概念相似度计算通过以下公式计算：

7.根据权利要求1所述的结合用户意图的文本深度分析方法，其特征在于，所述对用户当前查询输入的关键词进行扩展，还包括：明确用户查询过程中关键词的表现形式。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。