CN117171333A - 一种电力文件问答式智能检索方法及*** - Google Patents
一种电力文件问答式智能检索方法及*** Download PDFInfo
- Publication number
- CN117171333A CN117171333A CN202311451435.3A CN202311451435A CN117171333A CN 117171333 A CN117171333 A CN 117171333A CN 202311451435 A CN202311451435 A CN 202311451435A CN 117171333 A CN117171333 A CN 117171333A
- Authority
- CN
- China
- Prior art keywords
- document
- word
- text
- file
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 65
- 238000012706 support-vector machine Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000007635 classification algorithm Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 7
- 230000009193 crawling Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于信息检索技术领域,具体涉及一种电力文件问答式智能检索方法及***。针对现有检索方法未能兼顾检索准确性与多样性的不足,本发明采用如下技术方案:一种电力文件问答式智能检索方法,包括:步骤S1、用户语义分析,包括:实现用户语义概念提取;实现用户语义拓展;步骤S2、文档检索与处理,包括:建立文件数据库;度量文档相似度;构造一个意向图来表示文档数据和查询语句之间的关系;步骤S3、答案抽取,包括:根据用户的搜索意图结合传统的相关性特征呈现检索结果。本发明的电力文件问答式智能检索方法和***,能够克服传统检索方法无法兼顾精准匹配与多样性匹配的劣势。
Description
技术领域
本发明属于信息检索技术领域,具体涉及一种电力文件问答式智能检索方法及***。
背景技术
近年来,国内外众多研究者提出了许多基于不同理论的信息检索方法,在一定程度上提升了信息检索的能力,但是依旧存在某些局限性。
申请公布号为CN 113987146 A的中国发明专利申请公开了一种电力内网专用的新型智能问答***,包括智能问答模块,包括输入模块和输出模块;所述输入模块用于用户输入检索内容;语义理解模块,用于对所述检索内容进行语义理解;文件爬取和检索模块,用于对文件数据源进行爬取,建立文件索引;数据库爬取和检索模块,用于对业务数据库进行爬取;应用模块数据库,用于根据所述语义理解模块对所述检索内容的理解进行应用模块数据的输出,所述应用模块数据至少包括应用模块的地址链接;所述输出模块,用于输出文件索引和/或业务信息和/或应用模块数据。该***能够解决检索精细化的需求,提高了电力用户获取所需答案的效率。
然而,在电力***中,准确性和多样性均非常重要。兼顾检索准确性与多样性的信息检索方法的提出成为了当务之急。一个良好的检索方法需要实现以下几点:1、提高信息检索的准确率;2、在具备检索准确率的基础上提高推荐的多样性:3、减少计算中的冗余,提高计算速度,从而优化用户体验。
发明内容
本发明针对现有检索方法未能兼顾检索准确性与多样性的不足,提供一种电力文件问答式智能检索方法及***,兼顾检索结果的准确性与多样性。进一步地,提升检索速度,优化用户体验。
为实现上述目的,本发明采用如下技术方案:一种电力文件问答式智能检索方法,所述电力文件问答式智能检索方法包括:
步骤S1、用户语义分析,包括:采用分类算法,以特征向量对语义进行意图分类,得到用户语义的概念集合,实现用户语义概念提取;对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展;
步骤S2、文档检索与处理,包括:对电力文件进行结构化处理,建立文件数据库;通过对文档之间的意图覆盖相似度来度量文档相似度,构建文档意向图数据库;
步骤S3、答案抽取,包括:根据倒排索引完成用户语义扩展概念集与文档概念集的初步匹配;通过预训练模型,将所有稀疏匹配返回的相关文字进行编码;在意向图上更新查询和每个文档的表示,以此获得上下文感知的查询表示和意图感知的文档表示,根据用户的搜索意图结合相关性特征呈现检索结果。
本发明的电力文件问答式智能检索方法,包括用户语义分析步骤、文档检索与处理步骤和答案抽取步骤;用户语义分析步骤主要面向问答端口,采用机器学习方法实现用户语义概念提取与拓展;文档检索与处理步骤主要面向数据端口,通过对电力行业文件进行结构化处理,构建文件数据库,通过对文档之间的意图覆盖相似度来度量文档相似度,构建基于文档意愿覆盖相似性的意向图数据库;答案抽取步骤主要面向连接端口,利用自然语言处理等来实现稀疏向量匹配,后续利用图卷积神经网络结合BERT模型等完成机器阅读理解问答匹配,最终呈现检索结果;能够有效提高检索***的敏感度和检索性能,深度理解并加强用户语义拓展,在保持匹配准确率的基础上根据用户意愿提供多样化的检索结果,最终克服传统检索方法无法兼顾精准匹配与多样性匹配的劣势。
作为改进,步骤S1中,采用支持向量机分类算法,以TF-IDF作为特征向量来对语义进行意图分类,并采用1-gram和2-gram模型得到用户语义的概念集合,从而实现用户语义概念提取;基于同义词表对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展。
作为改进,步骤S1包括:
步骤S11、采用TF-IDF进行特征表示;
步骤S12、训练支持向量机分类器进行意图分类;
步骤S13、训练1-gram和2-gram模型获取用户语义的概念集合。
作为改进,步骤S1中,基于同义词表对概念中关键词做同义词拓展,得到扩展概念集合实现用户语义拓展,包括:
首先,使用现有的专业词典或词汇库构建一个同义词表,其中包含一组同义词或近义词的词语;
其次,将待拓展的概念或文本进行jieba分词,将文本切分成单个的词语;
然后,对于每个分词后的词语,查找同义词表中是否存在其对应的同义词,如果存在同义词,则将同义词添加到概念中,作为该词语的拓展;
最后,将拓展后的同义词与原始概念中的关键词合并,去除重复的词语。
作为改进,步骤S2包括:
步骤S21、构建文件数据库,包括:
首先,收集电力文件,并将它们转换成文本格式;对文本进行预处理,包括去除噪声、标点符号、停用词;将文本文件中的文本内容进行解析,将文件中的文字提取出来;
其次,使用自然语言处理来处理文本,包括:对文件的文本内容进行分段划分,将其划分为章节、条款、段落,对文本内容进行实体识别,识别出文件中涉及的实体,如机构名、地点名、日期,以帮助进一步组织和分类文件;
然后,对文件进行关键词提取,找出文件中的核心词汇和主题,以有助于后续的检索和分类;
最后,根据解析和处理后的文本内容,建立文件数据库,使用关系型数据库来存储结构化的文件数据,并对文件数据库中的数据建立索引,以便快速检索和查询。
作为改进,步骤S2包括:
步骤S22、构建文档意向图数据库,包括:
首先,通过预训练语言模型进行文档意愿相似性分类,判断两篇文档是否存在意愿覆盖关联;
其次,选择neo4j图数据库模型来存储文档之间关联数据和意愿相似性;
然后,将文档数据中的每篇文档表示为图数据库中的节点,并为每两篇相似的文档之间创建一条边;
最后,将预处理后的文档数据和相似性关系导入到图数据库中。
作为改进,步骤S3包括:
步骤S31、倒排索引初次匹配,包括:
首先,对文档集合中的每篇文档进行处理,生成对应的倒排索引,倒排索引的结构是一个词表,其中每个词都对应一个或多个文档ID,这些文档ID是包含该词的文档;
其次,将扩展后的用户查询中的概念词与倒排索引中的词表进行匹配,对于每个概念词,找到对应的文档ID列表,在这一步骤中,利用倒排索引的高效性能,快速找到与用户查询相关的文档;
最终,根据匹配到的文档ID,获取相应的文档内容或概念集,这些文档内容或概念集包含了与用户查询意图相关的信息。
作为改进,步骤S3包括:
步骤S32、采用BERT模型进行编码,包括:
首先,将输入的文本进行分词,使用预训练模型的专用分词器来完成,分词的结果是一系列单词或子词,每个词对应一个编号,用于后续的输入表示;
其次,BERT模型会对文本输入添加一些特殊标记,以便模型能够区分句子的开头和结尾;
然后,BERT模型采用Transformer编码器,将文本的词语逐层进行编码,得到每个词语的向量表示;
在BERT中,每个词语的向量是由它的原始词向量和位置编码组成的,Transformer编码器通过多层自注意力机制和前馈神经网络对文本进行深度编码,从而捕捉上下文信息,多头注意力机制计算如下:
,
其中,Q为询向量query,K为键向量key,V为值向量value,代表输入向量的维度大小;
在注意力的计算上通过线性变换形成查询向量query、键向量key、值向量value三个计算向量,以三个计算向量为基础逐个计算两两序列间的注意力得分,利用关键词去找到最相关的检索结果;另一方面,为了使注意力计算拥有更丰富的层次,表达序列之间在不同空间上的相关联逻辑与注意力特征,对相同输入在不同角度的注意力层中进行计算,得到不同的输出结果与理解。
作为改进,步骤S3包括:
步骤S33、利用图卷积神经网络获取查询表示和文档表示并计算多样性得分,包括:
由图卷积神经网络提取的多样性特征用于产生文档的多样性分数,文档节点通过从它们的邻居收集的信息更新它们的表示,具体公式如下:
,
其中,是图卷积神经网络中每一层的标识符,/>是加入自环的无向意图邻接矩阵,/>为度矩阵,/>是节点特征矩阵,其中/>是节点特征的维数大小,/>是第/>层的层特定可训练权重矩阵,/>表示激活函数,一般为ReLU函数;
基于从当前意向图中提取的多样性特征来计算多样性得分,表示为:
,
其中,为多层感知机(Multilayer Perceptron);
步骤S34、综合倒排索引结果和多样性得分结果,得到兼顾准确性与多样性的检索文档综合排行,按照得分大小依次展示给用户。
一种电力文件问答式智能检索***,所述电力文件问答式智能检索***包括:
用户语义分析模块,用于:采用分类算法,以特征向量对语义进行意图分类,得到用户语义的概念集合,实现用户语义概念提取;对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展;
文档搜索与处理模块,用于:对电力文件进行结构化处理,建立文件数据库;通过对文档之间的意图覆盖相似度来度量文档相似度,构建文档意向图数据库;;
答案抽取模块,用于:根据倒排索引完成用户语义扩展概念集与文档概念集的初步匹配;通过预训练模型,将所有稀疏匹配返回的相关文字进行编码;在意向图上更新查询和每个文档的表示,以此获得上下文感知的查询表示和意图感知的文档表示,根据用户的搜索意图结合传统的相关性特征呈现检索结果。
本发明的电力文件问答式智能检索方法和***,能够有效提高检索***的敏感度和检索性能,深度理解并加强用户语义拓展,在保持匹配准确率的基础上根据用户意愿提供多样化的检索结果,最终克服传统检索方法无法兼顾精准匹配与多样性匹配的劣势;通过图神经网络与自然语言处理处理技术完成机器阅读理解问答匹配,融合语义匹配与意图匹配,从而呈现多样化精确检索结果。
附图说明
图1是本发明实施例的智能检索方法的流程图。
图2是本发明实施例的支持向量机(SVM)分类原理的示意图。
图3是本发明实施例的BERT预训练模型的网络图。
图4是本发明实施例的图卷积神经网络计算图。
图5是发明实施例的智能检索***的结构图。
具体实施方式
下面对本发明创造实施例的技术方案进行解释和说明,但下述实施例仅为本发明创造的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本发明创造的保护范围。
参见图1至图5,本发明实施例的一种电力文件问答式智能检索方法,所述电力文件问答式智能检索方法包括:
步骤S1、用户语义分析,包括:采用分类算法,以特征向量对语义进行意图分类,得到用户语义的概念集合,实现用户语义概念提取;对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展;
步骤S2、文档检索与处理,包括:对电力文件进行结构化处理,建立文件数据库;通过对文档之间的意图覆盖相似度来度量文档相似度,提取出更准确的文档多样化关系;建立分类器来判断两个不同的文档是否包含相同或相似的意图,并构造意向图来表示文档数据和查询语句之间的关系;
步骤S3、答案抽取,包括:根据倒排索引完成用户语义扩展概念集与文档概念集的初步匹配;通过预训练模型,将所有稀疏匹配返回的相关文字进行编码;在意向图上更新查询和每个文档的表示,以此获得上下文感知的查询表示和意图感知的文档表示,根据用户的搜索意图结合传统的相关性特征呈现检索结果。
参见图1,本实施例的电力文件问答式智能检索方法的主要步骤,包括用户语义分析、文档检索与处理与答案抽取。用户语义分析步骤主要包括用户语义概念提取和用户语义拓展。文档检索与处理步骤主要包括建立文件数据库、构造意向图来表示文档数据和查询语句之间的关系。答案抽取步骤主要包括用户语义扩展概念集与文档概念集的初步匹配、对相关文字进行编码、在意向图上更新查询和每个文档的表示、根据用户的搜索意图结合传统的相关性特征呈现检索结果。
本实施例中,步骤S1中,采用支持向量机(Support Vector Machine, SVM)分类算法,以TF-IDF作为特征向量来对语义进行意图分类,并采用1-gram和2-gram模型得到用户语义的概念集合,从而实现用户语义概念提取;基于同义词表对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展。
本实施例中,步骤S1包括:
步骤S11、采用TF-IDF进行特征表示,
具体地,TF是指在一个文本中某个词出现的频率,IDF是指一个词对于整个文集中的文本的重要性,表示为:
TF=某个词在文本中出现的总次数/文本的总词数,
IDF=log(语料库中的文本总数/(包含该词的文本数+1)),
TF-IDF=TF*IDF,
最终得到的TF-IDF编码就是将每个词的重要性考虑了其在文本中出现的频率和在整个文集中的重要性,从而用一个向量表示一个文本;
以“我想查询能源管理平台的收费规定”、“最近的电价是不是涨了?”、“同一个城市不同区的电费是否一致?”这三个查询文本作为例子分别计算对应词的TF-IDF值,并进行文本编码。计算得到的TF-IDF值如下表所示。
。
步骤S12、训练支持向量机分类器进行意图分类,
参见图2,支持向量机模型的目标是找到一个超平面来将两类数据点分开。具体地,给定一个训练样本集合,其中/>表示输入特征向量,/>表示对应的类别标签,/>,二分类支持向量机的目标是找到一个超平面/>,满足以下条件:
对于所有属于类别的样本/>,有/>,
对于所有属于类别的样本/>,有/>,
其中,是法向量,/>是截距,
在该过程中,希望最大化支持向量到超平面的距离,这样的超平面被称为最大间隔超平面,最大化间隔的优化问题表示为:
其中,为对/>向量进行点乘,
对于所有训练样本,约束条件为:
,
采用一对多的策略解决多分类问题,在一对多策略中,将每个类别单独作为一个类别,然后构建 K个二分类支持向量机模型,每个二分类模型都用来将一个类别与其余的所有类别区分开来,对于第个类别,将它的样本标记为正例,而将其他 K-1 个类别的样本标记为负例,每个类别用/>表示,
:将类别/>作为正例,其余所有类别作为负例,
:将类别/>作为正例,其余所有类别作为负例,
...
:将类别/>作为正例,其余所有类别作为负例,
在训练阶段,对每个二分类支持向量机模型进行训练,得到对应的权重向量和偏置项;
在进行预测时,对于新的样本,将其输入到每个支持向量机模型中,然后选择输出得分最高的类别作为最终的预测结果;
经过编码后的以上查询文本进行SVM主题分类可以将其主题进行提取。将上述文本归结为能源费用相关的主题框架下。
步骤S13、训练1-gram和2-gram模型获取用户语义的概念集合,
具体地,通过统计语言模型计算语料库中出现该句段的概率,根据贝叶斯链式分解计算在前部词存在的基础上出现该词的条件概率乘积,表示为:
,
的近似计算表示为:
其中,表示句段中从第一个到第t个词构成的词串,/>表示词串在句段中出现的次数,很显然,一个词出现的概率与它前面所有的词都相关,假设这个词仅与前面n-1个词相关,则可转化为以下形式:
1-gram和2-gram模型是当n=1,2时的特例。
本实施例中,步骤S1中,基于同义词表对概念中关键词做同义词拓展,得到扩展概念集合实现用户语义拓展,包括:
首先,使用现有的专业词典或词汇库构建一个同义词表,其中包含一组同义词或近义词的词语。同义词表如下表所示。
。
其次,将待拓展的概念或文本进行jieba分词,将文本切分成单个的词语。分词结果如下表所示。
。
然后,对于每个分词后的词语,查找同义词表中是否存在其对应的同义词,如果存在同义词,则将同义词添加到概念中,作为该词语的拓展。同义词拓展结果如下表所示。
。
最后,将拓展后的同义词与原始概念中的关键词合并,去除重复的词语。
本实施例中,步骤S2包括:
步骤S21、构建文件数据库,包括:
首先,收集电力文件,并将它们转换成文本格式;对文本进行预处理,包括去除噪声、标点符号、停用词;将文本文件中的文本内容进行解析,将文件中的文字提取出来;
其次,使用自然语言处理(Natural Language Processing, NLP)来处理文本,包括:对文件的文本内容进行分段划分,将其划分为章节、条款、段落,对文本内容进行实体识别,识别出文件中涉及的实体,如机构名、地点名、日期,这些实体可以帮助进一步组织和分类文件;
然后,对文件进行关键词提取,找出文件中的核心词汇和主题,这有助于后续的检索和分类;
最后,根据解析和处理后的文本内容,建立文件数据库,使用关系型数据库来存储结构化的文件数据,并对文件数据库中的数据建立索引,以便快速检索和查询。
本实施例中,步骤S2包括:
步骤S22、构建文档意向图数据库,包括:
首先,通过预训练语言模型进行文档意愿相似性分类,判断两篇文档是否存在意愿覆盖关联;
其次,选择neo4j图数据库模型来存储文档之间关联数据和意愿相似性;
然后,将文档数据中的每篇文档表示为图数据库中的节点,并为每两篇相似的文档之间创建一条边;
最后,将预处理后的文档数据和相似性关系导入到图数据库中。
本实施例中,步骤S3包括:
步骤S31、倒排索引初次匹配,包括:
首先,对文档集合中的每篇文档进行处理,生成对应的倒排索引,倒排索引的结构是一个词表,其中每个词都对应一个或多个文档ID,这些文档ID是包含该词的文档;
其次,将扩展后的用户查询中的概念词与倒排索引中的词表进行匹配,对于每个概念词,找到对应的文档ID列表,在这一步骤中,利用倒排索引的高效性能,快速找到与用户查询相关的文档;
最终,根据匹配到的文档ID,获取相应的文档内容或概念集,这些文档内容或概念集包含了与用户查询意图相关的信息。匹配结果如下表所示。
。
本实施例中,步骤S3包括:
步骤S32、采用BERT(Bidirectional Encoder Representation fromTransformers)模型进行编码。
BERT预训练模型的原理是基于Transformer模型的双向训练。通过在大规模文本语料上进行无监督的预训练,学习得到自然语言的通用表示。参见图3的BERT预训练模型网络图,Trm是Transformer模型中的注意力计算模块,E1-En表示输入的文本序列,每个E使用了双向上下文来学习词语的表示,考虑了词语左右两边的上下文信息,利用双向注意力机制来编码输入的E,由此得到的T1-Tn表示经过编码后输出的序列。这种方式能够充分反映相应范围内不同的依赖关系,使得表示更加丰富、语义更加准确。
具体地,BERT模型的编码过程包括:
首先,将输入的文本进行分词,使用预训练模型的专用分词器来完成,分词的结果是一系列单词或子词,每个词对应一个编号,用于后续的输入表示;
其次,BERT模型会对文本输入添加一些特殊标记,以便模型能够区分句子的开头和结尾,例如,每个文本前面添加[CLS]标记,表示句子的开头;每个句子末尾添加[SEP]标记,表示句子的结束;
然后,BERT模型采用Transformer编码器,将文本的词语逐层进行编码,得到每个词语的向量表示;
在BERT中,每个词语的向量是由它的原始词向量(Word Embedding)和位置编码(Positional Encoding)组成的,Transformer编码器通过多层自注意力机制和前馈神经网络对文本进行深度编码,从而捕捉上下文信息,多头注意力机制计算如下:
,
其中,Q为询向量query,K为键向量key,V为值向量value,代表输入向量的维度大小;
在注意力的计算上通过线性变换形成查询向量query、键向量key、值向量value三个计算向量,以三个计算向量为基础逐个计算两两序列间的注意力得分,利用关键词去找到最相关的检索结果;另一方面,为了使注意力计算拥有更丰富的层次,表达序列之间在不同空间上的相关联逻辑与注意力特征,对相同输入在不同角度的注意力层中进行计算,得到不同的输出结果与理解。
本实施例中,步骤S3包括:
步骤S33、利用图卷积神经网络(Graph Convolutional Network,GCN)获取查询表示和文档表示并计算多样性得分。
参见图4,图卷积神经网络基于文档意向图与检索文本所组成的大型异构图谱,通过卷积的方式学习节点在图上的表示。每个节点有一个特征向量表示它的属性或特征,而边则表示节点之间的关系。图中的节点a-f表示文本向量,图卷积神经网络对节点的邻居信息进行加权聚合来更新相应节点的表示,同时加入自环设定即目标节点的状态野能够影响更新结果。图4中,a节点通过两层聚合汇聚了整个图的信息,堆叠相应的卷积层数可以捕获不同距离的节点之间的关系,从而学习更复杂的图结构特征。
具体地,利用图卷积神经网络获取查询表示和文档表示并计算多样性得分的过程包括:
由图卷积神经网络提取的多样性特征用于产生文档的多样性分数,文档节点通过从它们的邻居收集的信息更新它们的表示,具体公式如下:
,
其中,是图卷积神经网络中每一层的标识符,/>是加入自环的无向意图邻接矩阵,/>为度矩阵,/>是节点特征矩阵,其中/>是节点特征的维数大小,/>是第/>层的层特定可训练权重矩阵,/>表示激活函数,一般为ReLU函数;
基于从当前意向图中提取的多样性特征来计算多样性得分,表示为:
,
其中,MLP为多层感知机。
多样性得分计算结果如下表所示。
。
步骤S34、综合倒排索引结果和多样性得分结果,得到兼顾准确性与多样性的检索文档综合排行,按照得分大小依次展示给用户。展示结果如下表所示。
。
本发明实施例的电力文件问答式智能检索方法,包括用户语义分析步骤、文档检索与处理步骤和答案抽取步骤;用户语义分析步骤主要面向问答端口,采用机器学习方法实现用户语义概念提取与拓展;文档检索与处理步骤主要面向数据端口,通过对电力行业文件进行结构化处理,构建文件数据库,通过对文档之间的意图覆盖相似度来度量文档相似度,构建基于文档意愿覆盖相似性的意向图数据库;答案抽取步骤主要面向连接端口,利用自然语言处理等来实现稀疏向量匹配,后续利用图卷积神经网络结合BERT模型等完成机器阅读理解问答匹配,最终呈现检索结果;能够有效提高检索***的敏感度和检索性能,深度理解并加强用户语义拓展,在保持匹配准确率的基础上根据用户意愿提供多样化的检索结果,最终克服传统检索方法无法兼顾精准匹配与多样性匹配的劣势;图卷积神经网络结合BERT模型,减少计算中的冗余,提高计算速度,优化用户体验。
参见图1至图5,本发明实施例同时提供一种电力文件问答式智能检索***,所述电力文件问答式智能检索***包括:
用户语义分析模块,用于:采用分类算法,以特征向量对语义进行意图分类,得到用户语义的概念集合,实现用户语义概念提取;对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展;
文档搜索与处理模块,用于:对电力文件进行结构化处理,建立文件数据库;通过对文档之间的意图覆盖相似度来度量文档相似度,提取出更准确的文档多样化关系;建立分类器来判断两个不同的文档是否包含相同或相似的意图,并构造意向图来表示文档数据和查询语句之间的关系;
答案抽取模块,用于:根据倒排索引完成用户语义扩展概念集与文档概念集的初步匹配;通过预训练模型,将所有稀疏匹配返回的相关文字进行编码;在意向图上更新查询和每个文档的表示,以此获得上下文感知的查询表示和意图感知的文档表示,根据用户的搜索意图结合传统的相关性特征呈现检索结果。
参见图5,在答案抽取模块,基于文档意向图与查询文本构造异构图谱,图谱中X1-Xn表示不同的文档节点,Xq表示查询文本节点,一方面在BERT模型嵌入的基础上得到不同文本的特征表达向量即相关性特征向量,另一方面根据查询文本的内容得到受选择的文档d2,并进一步调整整体的意向图,将调整过后的意向图输入到图卷积神经网络中,图中Conv1和Conv2代表了不同的图卷积层,对各个文档的语义表征进行更新并聚合得到相应特征向量/>,Z1-Zn表示更新后的文档节点,Zq表示更新后的查询文本节点。由此,将原始相关性特征向量/>与聚合更新后的特征向量/>进一步输入到多层感知机网络中,对输出进行拼接得到最终多样性表示/>。
以上所述,仅为本发明创造的具体实施方式,但本发明创造的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明创造包括但不限于上面具体实施方式中描述的内容。任何不偏离本发明创造的功能和结构原理的修改都将包括在权利要求书的范围中。
Claims (10)
1.一种电力文件问答式智能检索方法,其特征在于:所述电力文件问答式智能检索方法包括:
步骤S1、用户语义分析,包括:采用分类算法,以特征向量对语义进行意图分类,得到用户语义的概念集合,实现用户语义概念提取;对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展;
步骤S2、文档检索与处理,包括:对电力文件进行结构化处理,建立文件数据库;通过对文档之间的意图覆盖相似度来度量文档相似度,构建文档意向图数据库;
步骤S3、答案抽取,包括:根据倒排索引完成用户语义扩展概念集与文档概念集的初步匹配;通过预训练模型,将所有稀疏匹配返回的相关文字进行编码;在意向图上更新查询和每个文档的表示,以此获得上下文感知的查询表示和意图感知的文档表示;根据用户的搜索意图结合相关性特征呈现检索结果。
2.根据权利要求1所述的一种电力文件问答式智能检索方法,其特征在于:步骤S1中,采用支持向量机分类算法,以TF-IDF作为特征向量来对语义进行意图分类,并采用1-gram和2-gram模型得到用户语义的概念集合,从而实现用户语义概念提取;基于同义词表对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展。
3.根据权利要求2所述的一种电力文件问答式智能检索方法,其特征在于:步骤S1包括:
步骤S11、采用TF-IDF进行特征表示,
具体地,TF是指在一个文本中某个词出现的频率,IDF是指一个词对于整个文集中的文本的重要性,表示为:
TF=某个词在文本中出现的总次数/文本的总词数,
IDF=log(语料库中的文本总数/(包含该词的文本数+1)),
TF-IDF=TF*IDF,
最终得到的TF-IDF编码就是将每个词的重要性考虑了其在文本中出现的频率和在整个文集中的重要性,从而用一个向量表示一个文本;
步骤S12、训练支持向量机分类器进行意图分类,
具体地,给定一个训练样本集合,其中/>表示输入特征向量,表示对应的类别标签,/>,二分类支持向量机的目标是找到一个超平面,满足以下条件:
对于所有属于类别的样本/>,有/>,
对于所有属于类别的样本/>,有/>,
其中,是法向量,/>是截距,
在该过程中,希望最大化支持向量到超平面的距离,这样的超平面被称为最大间隔超平面,最大化间隔的优化问题表示为:
,
其中,为对/>向量进行点乘,
对于所有训练样本,约束条件为:
,
采用一对多的策略解决多分类问题,在一对多策略中,将每个类别单独作为一个类别,然后构建 K个二分类支持向量机模型,每个二分类模型都用来将一个类别与其余的所有类别区分开来,对于第 个类别,将它的样本标记为正例,而将其他 K-1 个类别的样本标记为负例,每个类别用 />表示,
:将类别 /> 作为正例,其余所有类别作为负例,
:将类别 /> 作为正例,其余所有类别作为负例,
...
:将类别 /> 作为正例,其余所有类别作为负例,
在训练阶段,对每个二分类支持向量机模型进行训练,得到对应的权重向量和偏置项;
在进行预测时,对于新的样本,将其输入到每个支持向量机模型中,然后选择输出得分最高的类别作为最终的预测结果;
步骤S13、训练1-gram和2-gram模型获取用户语义的概念集合,
具体地,通过统计语言模型计算语料库中出现该句段的概率,根据贝叶斯链式分解计算在前部词存在的基础上出现该词的条件概率乘积,表示为:
,
的近似计算表示为:
其中,表示句段中从第一个到第t个词构成的词串,/>表示词串在句段中出现的次数,很显然,一个词出现的概率与它前面所有的词都相关,假设这个词仅与前面n-1个词相关,则可转化为以下形式:
1-gram和2-gram模型是当n=1,2时的特例。
4.根据权利要求2所述的一种电力文件问答式智能检索方法,其特征在于:步骤S1中,基于同义词表对概念中关键词做同义词拓展,得到扩展概念集合实现用户语义拓展,包括:
首先,使用现有的专业词典或词汇库构建一个同义词表,其中包含一组同义词或近义词的词语;
其次,将待拓展的概念或文本进行分词,将文本切分成单个的词语;
然后,对于每个分词后的词语,查找同义词表中是否存在其对应的同义词,如果存在同义词,则将同义词添加到概念中,作为该词语的拓展;
最后,将拓展后的同义词与原始概念中的关键词合并,去除重复的词语。
5.根据权利要求1所述的一种电力文件问答式智能检索方法,其特征在于:步骤S2包括:
步骤S21、构建文件数据库,包括:
首先,收集电力文件,并将它们转换成文本格式;对文本进行预处理,包括去除噪声、标点符号、停用词;将文本文件中的文本内容进行解析,将文件中的文字提取出来;
其次,使用自然语言处理来处理文本,包括:对文件的文本内容进行分段划分,将其划分为章节、条款、段落,对文本内容进行实体识别,识别出文件中涉及的实体;
然后,对文件进行关键词提取,找出文件中的核心词汇和主题;
最后,根据解析和处理后的文本内容,建立文件数据库,使用关系型数据库来存储结构化的文件数据,并对文件数据库中的数据建立索引。
6.根据权利要求5所述的一种电力文件问答式智能检索方法,其特征在于:步骤S2包括:
步骤S22、构建文档意向图数据库,包括:
首先,通过预训练语言模型进行文档意愿相似性分类,判断两篇文档是否存在意愿覆盖关联;
其次,选择图数据库模型来存储文档之间关联数据和意愿相似性;
然后,将文档数据中的每篇文档表示为图数据库中的节点,并为每两篇相似的文档之间创建一条边;
最后,将预处理后的文档数据和相似性关系导入到图数据库中。
7.根据权利要求1所述的一种电力文件问答式智能检索方法,其特征在于:步骤S3包括:
步骤S31、倒排索引初次匹配,包括:
首先,对文档集合中的每篇文档进行处理,生成对应的倒排索引,倒排索引的结构是一个词表,其中每个词都对应一个或多个文档ID,这些文档ID是包含该词的文档;
其次,将扩展后的用户查询中的概念词与倒排索引中的词表进行匹配,对于每个概念词,找到对应的文档ID列表,在这一步骤中,利用倒排索引的高效性能,快速找到与用户查询相关的文档;
最终,根据匹配到的文档ID,获取相应的文档内容或概念集,这些文档内容或概念集包含了与用户查询意图相关的信息。
8.根据权利要求7所述的一种电力文件问答式智能检索方法,其特征在于:步骤S3包括:
步骤S32、采用BERT模型进行编码,包括:
首先,将输入的文本进行分词,使用预训练模型的专用分词器来完成,分词的结果是一系列单词或子词,每个词对应一个编号,用于后续的输入表示;
其次,BERT模型会对文本输入添加一些特殊标记,以便模型能够区分句子的开头和结尾;
然后,BERT模型采用Transformer编码器,将文本的词语逐层进行编码,得到每个词语的向量表示;
在BERT中,每个词语的向量是由它的原始词向量和位置编码组成的,Transformer编码器通过多层自注意力机制和前馈神经网络对文本进行深度编码,从而捕捉上下文信息,多头注意力机制计算如下:
,
其中,Q为询向量query,K为键向量key,V为值向量value,代表输入向量的维度大小;
在注意力的计算上通过线性变换形成查询向量query、键向量key、值向量value三个计算向量,以三个计算向量为基础逐个计算两两序列间的注意力得分,利用关键词去找到最相关的检索结果;另一方面,为了使注意力计算拥有更丰富的层次,表达序列之间在不同空间上的相关联逻辑与注意力特征,对相同输入在不同角度的注意力层中进行计算,得到不同的输出结果与理解。
9.根据权利要求8所述的一种电力文件问答式智能检索方法,其特征在于:步骤S3包括:
步骤S33、利用图卷积神经网络获取查询表示和文档表示并计算多样性得分,包括:
由图卷积神经网络提取的多样性特征用于产生文档的多样性分数,文档节点通过从它们的邻居收集的信息更新它们的表示,具体公式如下:
,
其中,是图卷积神经网络中每一层的标识符,/>是加入自环的无向意图邻接矩阵,/>为度矩阵,/>是节点特征矩阵,其中/>是节点特征的维数大小,/>是第/>层的层特定可训练权重矩阵,/>表示激活函数;
基于从当前意向图中提取的多样性特征来计算多样性得分,表示为:
,
其中,为多层感知机;
步骤S34、综合倒排索引结果和多样性得分结果,得到兼顾准确性与多样性的检索文档综合排行,按照得分大小依次展示给用户。
10.一种电力文件问答式智能检索***,其特征在于:所述电力文件问答式智能检索***包括:
用户语义分析模块,用于:采用分类算法,以特征向量对语义进行意图分类,得到用户语义的概念集合,实现用户语义概念提取;对概念中关键词做同义词拓展,得到扩展概念集合,实现用户语义拓展;
文档搜索与处理模块,用于:对电力文件进行结构化处理,建立文件数据库;通过对文档之间的意图覆盖相似度来度量文档相似度,构建文档意向图数据库;
答案抽取模块,用于:根据倒排索引完成用户语义扩展概念集与文档概念集的初步匹配;通过预训练模型,将所有稀疏匹配返回的相关文字进行编码;在意向图上更新查询和每个文档的表示,以此获得上下文感知的查询表示和意图感知的文档表示,根据用户的搜索意图结合相关性特征呈现检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451435.3A CN117171333A (zh) | 2023-11-03 | 2023-11-03 | 一种电力文件问答式智能检索方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451435.3A CN117171333A (zh) | 2023-11-03 | 2023-11-03 | 一种电力文件问答式智能检索方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117171333A true CN117171333A (zh) | 2023-12-05 |
Family
ID=88932173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311451435.3A Pending CN117171333A (zh) | 2023-11-03 | 2023-11-03 | 一种电力文件问答式智能检索方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117171333A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
CN118013020A (zh) * | 2024-04-09 | 2024-05-10 | 北京知呱呱科技有限公司 | 一种基于检索生成联合式训练的专利查询方法及*** |
CN118093834A (zh) * | 2024-04-22 | 2024-05-28 | 邦宁数字技术股份有限公司 | 一种基于aigc大模型的语言处理问答***及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO20052215D0 (no) * | 2005-05-06 | 2005-05-06 | Fast Search & Transfer Asa | Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter |
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索*** |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索***及方法 |
WO2019242090A1 (zh) * | 2018-06-19 | 2019-12-26 | 平安科技(深圳)有限公司 | 智能客服应答方法、设备、存储介质及装置 |
CN110674279A (zh) * | 2019-10-15 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答处理方法、装置、设备及存储介质 |
CN111046661A (zh) * | 2019-12-13 | 2020-04-21 | 浙江大学 | 基于图卷积网络的阅读理解方法 |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答*** |
CN114036262A (zh) * | 2021-11-15 | 2022-02-11 | 中国人民大学 | 一种基于图的搜索结果多样化方法 |
KR20230014035A (ko) * | 2021-07-20 | 2023-01-27 | 국민대학교산학협력단 | 사용자 검색 의도 분석을 통한 연관 문서 추천 방법 및 장치 |
CN116431768A (zh) * | 2023-04-27 | 2023-07-14 | 北京理工大学 | 一种基于用户隐式检索意图的信息检索方法及*** |
CN116451699A (zh) * | 2022-01-05 | 2023-07-18 | 重庆邮电大学 | 一种基于注意力机制的片段抽取式机器阅读理解方法 |
CN116881425A (zh) * | 2023-08-08 | 2023-10-13 | 武汉烽火普天信息技术有限公司 | 一种通用型文档问答实现方法、***、设备及存储介质 |
-
2023
- 2023-11-03 CN CN202311451435.3A patent/CN117171333A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO20052215D0 (no) * | 2005-05-06 | 2005-05-06 | Fast Search & Transfer Asa | Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter |
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索*** |
WO2019242090A1 (zh) * | 2018-06-19 | 2019-12-26 | 平安科技(深圳)有限公司 | 智能客服应答方法、设备、存储介质及装置 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索***及方法 |
CN110674279A (zh) * | 2019-10-15 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答处理方法、装置、设备及存储介质 |
CN111046661A (zh) * | 2019-12-13 | 2020-04-21 | 浙江大学 | 基于图卷积网络的阅读理解方法 |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答*** |
KR20230014035A (ko) * | 2021-07-20 | 2023-01-27 | 국민대학교산학협력단 | 사용자 검색 의도 분석을 통한 연관 문서 추천 방법 및 장치 |
CN114036262A (zh) * | 2021-11-15 | 2022-02-11 | 中国人民大学 | 一种基于图的搜索结果多样化方法 |
CN116451699A (zh) * | 2022-01-05 | 2023-07-18 | 重庆邮电大学 | 一种基于注意力机制的片段抽取式机器阅读理解方法 |
CN116431768A (zh) * | 2023-04-27 | 2023-07-14 | 北京理工大学 | 一种基于用户隐式检索意图的信息检索方法及*** |
CN116881425A (zh) * | 2023-08-08 | 2023-10-13 | 武汉烽火普天信息技术有限公司 | 一种通用型文档问答实现方法、***、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
ZHAN SU: "Modeling Intent Graph for Search Result Diversification", SIGIR \'21: PROCEEDINGS OF THE 44TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 11 July 2021 (2021-07-11), pages 736, XP059342383, DOI: 10.1145/3404835.3462872 * |
叶正;林鸿飞;杨志豪;: "基于问句相似度的中文FAQ问答***", 计算机工程与应用, no. 09, 21 March 2007 (2007-03-21), pages 161 - 163 * |
闫蓉;高光来;: "基于检索结果排序的伪相关反馈", 计算机应用, no. 08, 10 August 2016 (2016-08-10), pages 2099 - 2102 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
CN117496542B (zh) * | 2023-12-29 | 2024-03-15 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
CN118013020A (zh) * | 2024-04-09 | 2024-05-10 | 北京知呱呱科技有限公司 | 一种基于检索生成联合式训练的专利查询方法及*** |
CN118093834A (zh) * | 2024-04-22 | 2024-05-28 | 邦宁数字技术股份有限公司 | 一种基于aigc大模型的语言处理问答***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和*** | |
CN117171333A (zh) | 一种电力文件问答式智能检索方法及*** | |
CN113254659A (zh) | 一种基于知识图谱技术的档案研判方法及*** | |
CN110263325A (zh) | 中文分词*** | |
CN111767325B (zh) | 基于深度学习的多源数据深度融合方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及*** | |
CN111639183A (zh) | 一种基于深度学习算法的金融同业舆情分析方法及*** | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及*** | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及*** | |
CN114936277A (zh) | 相似问题匹配方法和户相似问题匹配*** | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索*** | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及*** | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别***及方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配***及方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |