CN112328767B - 基于bert模型和比较聚合框架的问答匹配方法 - Google Patents

基于bert模型和比较聚合框架的问答匹配方法 Download PDF

Info

Publication number
CN112328767B
CN112328767B CN202011255769.XA CN202011255769A CN112328767B CN 112328767 B CN112328767 B CN 112328767B CN 202011255769 A CN202011255769 A CN 202011255769A CN 112328767 B CN112328767 B CN 112328767B
Authority
CN
China
Prior art keywords
question
answer
representing
word
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011255769.XA
Other languages
English (en)
Other versions
CN112328767A (zh
Inventor
张璞
朱洪倩
明欢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011255769.XA priority Critical patent/CN112328767B/zh
Publication of CN112328767A publication Critical patent/CN112328767A/zh
Application granted granted Critical
Publication of CN112328767B publication Critical patent/CN112328767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术与自动问答***领域,具体涉及一种基于BERT模型和比较聚合框架的问答匹配方法,该方法包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架;本发明利用BERT模型获得上下文相关的词嵌入,解决了以往方法中问题句与答案句交互不充分的问题。再单独使用Transformer模型的编码器进一步对用于比较的词向量进行注意力权重分配,使得比较层能够充分探究问题序列和答案序列间复杂的语义匹配关系。

Description

基于BERT模型和比较聚合框架的问答匹配方法
技术领域
本发明属于自然语言处理技术与自动问答***领域,具体涉及一种基于BERT模型和比较聚合框架的问答匹配方法。
背景技术
自动问答***是自然语言处理领域中一个非常重要的研究热点,具有重大的应用价值。早期的问答匹配采用特征工程算法,即通过计算两个句子的相似性,根据相似性的大小输出相应的答案,如Wang等人将句子划分成单词以训练句子中每个词的词向量,然后通过计算每个单词之间的相似性来评估每个问答对的相似性。特征工程方法需要大量的人工定义和抽取特征,并且语料的泛化性差,在一个数据集上使用的特征很可能在另一个数据集上表现不好。
随着深度学习模型在图像识别领域取得优异效果,逐渐将深度学习模型应用到自然语言处理领域。微软研究团队在2013提出的DSSM模型是最早的深度文本匹配模型,通过全连接网络将查询语句和文档并行向量化,然后采用余弦相似度计算得到问题和候选网页文档匹配分值。但DSSM忽略了文本之间的时序关系和空间关系。2014提出的CDSSM将全连接神经网络换为卷积层和池化层,增加词哈希层以得到文本间的语序关系,提升了文本匹配的效果。中科院2016年提出的MV-LSTM模型通过双向长短时记忆网络(BiLSTM)来产生句子多个视角表达的集合,再计算两个句子不同视角下的相似度,得到相似度匹配矩阵。使用单个向量来编码整个序列会忽略序列间某些重要信息,因此,将问题与答案文本先进行交互,综合交互后的特征后再来计算问题与答案的匹配度的方式被提出。如DeepMatch通过使用主题模型查看两个文本的交互情况,然后使用深度学习架构进行不同级别的抽象,以对主题之间的关系进行建模。aNMM直接在问题-答案对之间的相互作用上构建神经网络,然后采用值共享加权方式完成问题相关词的重要性学习。
但是,以上现有技术中是将两个句子分别进行编码表示,且句子中的词嵌入表示没有考虑到上下文,两个句子之间一些重要的信息被忽略,从而无法探究到两个句子间复杂的语义关系。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于BERT模型和比较聚合框架的问答匹配方法,该方法包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架;
训练比较聚合问答匹配模型的过程包括:
S1:获取原始问答数据集,将原始问答数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;
S2:将预处理后的数据输入到BERT模型中,生成问题句和答案句中每个词的词嵌入表示数据;
S3:将问题句和答案句的词嵌入表示数据输入到Transformer编码器中,得到用于比较的词嵌入数据;
S4:对问题和答案中的每个单词的词嵌入数据进行比较,得到问题词嵌入数据和答案词嵌入数据的匹配特征;
S5:对匹配特征进行聚合,得到聚合后的特征;
S6:采用Relu非线性激活函数计算聚合后特征的匹配得分;设置迭代次数的初始值;
S7:采用交叉熵损失函数来训练模型;
S8:采用Adam算法来优化模型,即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数;
S9:判断迭代次数是否达到最大迭代次数,如果达到,则完成比较聚合问答匹配模型的训练,否则返回步骤S7,迭代次数加1。
优选的,对数据进行预处理的过程包括:去除原数据集中的停用词,将每个句子的长度设置为50,长度不足50的句子进行填充处理,长度超过50的则从句末截掉;将数据集中的问题句和答案句进行组合;组合后语句的格式为:
Input(Q,A)=[CLS],q1,…,qn,[SEP],a1,…,an,[SEP]
优选的,BERT模型为:
Ei=BERT(xi)
优选的,Transformer编码器包括多头注意力机制层和前馈神经网络层;Transformer编码器处理数据的过程为:
步骤1:采用多头注意力机制处理问题句和答案句词语的嵌入表示数据,得到每个词的注意力权重表示;
步骤2:采用前馈神经网络层对带有注意力权重的词嵌入数据进行处理,得到词嵌入数据。
进一步的,采用多头注意力机制层处理问题句和答案句的嵌入表示数据的过程包括:
步骤11:确定多头注意力机制层的参数矩阵
Figure BDA0002773056910000031
步骤12:将参数矩阵
Figure BDA0002773056910000032
分别与序列中第i个单词通过BERT生成的嵌入表示Ei相乘,得到查询向量Qh、键向量Kh以及值向量Vh
步骤13:根据查询向量Qh、键向量Kh、值向量Vh以及自注意力计算公式求出headh
步骤14:根据headh和参数矩阵WO求出多头注意力权重矩阵。
进一步的,自注意力计算公式为:
Figure BDA0002773056910000033
多头注意力计算方法为:
MultiHead(Zi)=Concat(head1,...,headn)WO
优选的,问题和答案之间的匹配特征为:
Figure BDA0002773056910000041
Figure BDA0002773056910000042
优选的,计算聚合特征向量的公式为:
Figure BDA0002773056910000043
Figure BDA0002773056910000044
优选的,计算匹配得分的公式为:
Figure BDA0002773056910000045
优选的,损失函数为:
Figure BDA0002773056910000046
优选的,Adam算法的公式为:
Figure BDA0002773056910000047
本发明利用BERT模型获得上下文相关的词嵌入,解决了以往方法中问题句与答案句交互不充分的问题;本发明通过Transformer模型的编码器进一步对用于比较的词向量进行注意力权重分配,使得比较层能够充分探究问题序列和答案序列间复杂的语义匹配关系;本发明将BERT模型和Transformer模型编码器与比较聚合框架进行结合,充分利用了两序列的交互信息,使得问答匹配的准确性提升。
附图说明
图1为本发明的整体流程图;
图2为本发明的训练过程流程图;
图3为本发明的模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于BERT模型和比较聚合框架的问答匹配方法,如图1所述,该方法包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架。
如图2所述,训练比较聚合问答匹配模型的过程包括:
S1:获取原始问答数据集,将原始问答数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;
S2:将预处理后的数据输入到BERT模型中,生成问题句和答案句中每个词的词嵌入表示数据;
S3:将问题句和答案句的词嵌入表示数据输入到Transformer编码器中,得到用于比较的词嵌入数据;
S4:对问题和答案中的每个单词的词嵌入数据进行比较,得到问题词嵌入数据和答案词嵌入数据的匹配特征;
S5:对匹配特征进行聚合,得到聚合后的特征;
S6:采用Relu非线性激活函数计算聚合后特征的匹配得分;设置迭代次数的初始值;
S7:采用交叉熵损失函数来训练模型;
S8:采用Adam算法来优化模型,即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数;
S9:判断迭代次数是否达到最大迭代次数,如果达到,则完成比较聚合问答匹配模型的训练,否则返回步骤S7,迭代次数加1。
采用***公开问答数据集作为原始问答数据集,数据集划分为了三部分,其中训练集包含29258条问答对,测试集有6117条问答对,验证集包含2734条问答对。
对数据进行预处理的过程包括:去除原数据集中的停用词,将每个句子的长度设置为50,长度不足50的句子进行填充padding处理,长度超过50的则从句末截掉;将问题句与其答案句组合为一整段序列输入BERT模型中。其中,问题句为:Q={q1,...,qn},答案句为:A={a1,...,an};输入到BERT模型中的序列为:
Input(Q,A)=[CLS],q1,…,qn,[SEP],a1,…,an,[SEP]
其中,Q表示问题句,A表示答案句,qn表示问题句的单词,an表示答案句中的单词,[CLS]表示分类标志,第一个[SEP]表示分隔标志,末尾[SEP]表示结尾标志。
采用BERT模型对数据进行处理,得到上下文相关的词嵌入以及问题句和答案句之间的信息。BERT模型为:
Ei=BERT(xi)
其中,xi表示输入序列中第i个单词的输入,Ei表示序列中第i个单词通过BERT生成的嵌入表示。
在获取问题句和答案句中每个词的词嵌入表示后,将其输入到Transformer编码器层中获取用于比较的词嵌入。此步骤采用多头自注意力机制和一个前馈神经网络层。多头注意力能够更充分地表示单词之间的联系,多头注意力计算如下:
MultiHead(Zi)=Concat(head1,...,headn)WO
Figure BDA0002773056910000061
其中Ei表示序列中第i个单词通过BERT生成的词嵌入表示。
Figure BDA0002773056910000062
表示查询向量参数矩阵,
Figure BDA0002773056910000063
表示键向量参数矩阵,
Figure BDA0002773056910000064
表示值向量参数矩阵,WO表示压缩各个自注意力矩阵时的参数矩阵,在训练过程会进行更新,headh表示第h个自注意力矩阵。将Ei
Figure BDA0002773056910000065
分别相乘将得到查询向量Qh,键向量Kh,值向量Vh。MultiHead(Zi)表示序列中第i个单词的多头注意力表示。
对于
Figure BDA0002773056910000071
自注意力计算如下:
Figure BDA0002773056910000072
其中,dk表示键向量Kh的维度,Qh表示查询向量、
Figure BDA0002773056910000073
表示键向量的转置、Vh表示值向量。
得到多头注意力表示Zi后,将其输入到前馈神经网络获得用于比较的词向量Ti
如图3所示,比较层左边表示经BERT模型输出的答案词向量与经BERT模型和Transformer编码器输出的问题词向量进行比较,右边则表示经BERT模型输出的问题词向量与经BERT模型和Transformer编码器输出的答案词向量进行比较。两个文本单元的比较函数一般使用标准前馈神经网络,然而基于问答匹配的本质,即需要衡量两个序列语义上的匹配性,所以我们需要选择更合适的比较函数。现已有使用余弦相似度、欧式距离和点积来定义比较函数,但在众多比较函数中有研究证明哈达玛积(Hadamard积)比较函数在问答任务上表现优于其他比较函数。所以本发明使用哈达玛积将问题和答案进行比较,通过此步骤获得两个句子之间匹配特征:
Figure BDA0002773056910000074
Figure BDA0002773056910000075
其中,TQi表示问题中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,TAi表示答案中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,EQi表示问题的第i个位置的词经过BERT模型输出的向量,EAi表示答案的第i个位置的词经过BERT模型输出的向量,⊙表示哈达玛积。
聚合两个句子之间匹配特征,便于后续计算匹配得分。经典文本分类TextCNN模型在短文本领域如问答、对话领域专注于意图分类时效果很好,它的最大优势在网络结构简单,速度快。所以采用TextCNN模型聚合匹配特征
Figure BDA0002773056910000076
Figure BDA0002773056910000081
实现过程如下:
使用与
Figure BDA0002773056910000082
匹配特征的宽度k一致的卷积核进行卷积,每一次卷积操作相当于一次特征向量的提取,通过定义不同的窗口,就可以提取出不同的特征向量,构成卷积层的输出。产生特征h过程如下:
hi=f(w·ci:i+h-1+b)
其中,ci:i+h-1表示由输入矩阵的第i行到第i+h-1行所组成的大小为h×k的窗口,w为h×k维的参数矩阵,b为偏置参数。
将得到的特征拼接起来,然后进行最大池化操作,最后经过softmax层输出聚合结果:
Figure BDA0002773056910000083
Figure BDA0002773056910000084
其中,wq,wa分别为参数矩阵,
Figure BDA0002773056910000085
分别为经最大池化层的问题句和答案句的聚合特征向量,bq为问题句的偏置参数,ba为答案句的偏置参数。
将softmax层输出的结果进行拼接,然后使用Relu非线性激活函数预测问题和答案的匹配得分。计算匹配得分的公式为:
Figure BDA0002773056910000086
其中,[;]表示拼接向量,W表示计算匹配得分时的参数矩阵,
Figure BDA0002773056910000087
表示经TextCNN模型输出的问题句的聚合特征向量,
Figure BDA0002773056910000088
表示经TextCNN模型输出的答案句的聚合特征向量,σ表示非线性激活函数Relu(·)=max(0,·),·表示非线性激活函数的输入。
损失函数为:
Figure BDA0002773056910000089
其中,N表示训练期间使用的样本总数,yn表示第n个样本的目标标签,scoren为第n个样本的模型预测标签。
采用Adam算法对损失函数进行优化,获取最小损失函数。Adam算法是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,能够通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率。主要计算公式如下:
Figure BDA0002773056910000091
其中,
Figure BDA0002773056910000092
表示校正后的一阶矩估计,
Figure BDA0002773056910000093
表示校正后的二阶矩估计;∈和η分别为训练过程中需调整的参数。
采用MRR和MAP的评价指标对模型进行评价,其中,MRR表示平均倒数排名评价指标,MAP表示目标检测评价指标;其具体的过程包括:
在排名前k个答案中,用yi表示第i个答案的真实匹配度,则前k个答案排序的准确度为:
Figure BDA0002773056910000094
其中,P@k表示前k个排序结果的准确度,P指的是准确度,yi表示第i个答案的真实匹配度。
若只考虑排名最靠前的真实匹配的文本k1,则倒数排序指标MRR的定义为:
MRR=P@k1
假设预测排序中的真实匹配的答案文本的排序位置分别为k1,k2,...,kr,其中r为整个列表中所有匹配答案文本的数量。那么指标MAP的计算如下:
Figure BDA0002773056910000095
其中,r表示整个列表中所有匹配答案文本的数量,P@ki表示答案中排在位置ki的准确度。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合层;
训练比较聚合问答匹配模型的过程包括:
S1:获取原始问答数据集,将原始问答数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;
S2:将预处理后的数据输入到BERT模型中,生成问题句和答案句中每个词的词嵌入表示数据;
S3:将问题句和答案句的词嵌入表示输入到Transformer编码器中,得到用于比较的词嵌入数据;Transformer编码器包括多头注意力机制层和前馈神经网络层;Transformer编码器处理数据的过程为:
S31:采用多头注意力机制处理问题句和答案句的词嵌入表示,得到每个词的注意力权重表示;
S311:确定多头注意力机制层的参数矩阵
Figure FDA0003795088030000011
WO
S312:将参数矩阵
Figure FDA0003795088030000012
分别与通过BERT模型生成的第i个词的词嵌入表示Ei相乘,得到查询向量Qh、键向量Kh以及值向量Vh
S313:根据查询向量Qh、键向量Kh、值向量Vh以及自注意力计算公式求出headh
S314:根据headh和参数矩阵WO求出多头注意力权重矩阵;
其中,
Figure FDA0003795088030000013
表示查询向量参数矩阵,
Figure FDA0003795088030000014
表示键向量参数矩阵,
Figure FDA0003795088030000015
表示值向量参数矩阵,WO表示压缩各个自注意力矩阵时的参数矩阵,headh表示第h个自注意力矩阵;
S32:采用前馈神经网络层对带有注意力权重的词嵌入进行处理,得到Transformer编码器的最终输出;
S4:对问题和答案中的每个单词的词嵌入数据进行比较,得到问题词嵌入数据和答案词嵌入数据的匹配特征;
S5:对匹配特征进行聚合,得到聚合后的特征;
S6:采用Relu非线性激活函数计算聚合后特征的匹配得分;设置迭代次数的初始值;
S7:采用交叉熵损失函数训练模型;
S8:采用Adam算法优化模型,即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数;
S9:判断迭代次数是否达到最大迭代次数,如果达到,则完成比较聚合问答匹配模型的训练,否则返回步骤S7,迭代次数加1。
2.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,所述对数据进行预处理的过程包括:去除原数据集中的停用词,将每个句子的长度设置为50,长度不足50的句子进行填充处理,长度超过50的则从句末截掉;将数据集中的问题句和答案句进行组合;组合后语句的格式为:
Input(Q,A)=[CLS],q1,…,qn,[SEP],a1,…,an,[SEP]
其中,Q表示问题句,A表示答案句,qn表示问题句中的单词,an表示答案句中的单词,[CLS]表示分类标志,第一个[SEP]表示分隔标志,末尾[SEP]表示结尾标志。
3.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,自注意力计算公式为:
Figure FDA0003795088030000021
其中,dk表示键向量Kh的维度,Qh表示查询向量、
Figure FDA0003795088030000022
表示键向量的转置、Vh表示值向量;
多头注意力计算方法为:
MultiHead(Zi)=Concat(head1,…,headn)WO
其中,MultiHead(Zi)表示序列中第i个单词的多头注意力表示,Concat(head1,…,headn)表示将各个自注意力矩阵进行拼接。
4.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,问题和答案之间匹配特征为:
Figure FDA0003795088030000031
Figure FDA0003795088030000032
其中,TQi表示问题中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,TAi表示答案中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,EQi表示问题的第i个位置的词经过BERT模型输出的向量,EAi表示答案的第i个位置的词经过BERT模型输出的向量,⊙表示哈达玛积。
5.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,计算聚合特征向量的公式为:
Figure FDA0003795088030000033
Figure FDA0003795088030000034
其中,
Figure FDA0003795088030000035
表示经TextCNN模型输出的问题句的聚合特征向量,
Figure FDA0003795088030000036
表示经TextCNN模型输出的答案句的聚合特征向量,CQ表示问题和答案之间的匹配特征,CA表示答案和问题之间的匹配特征。
6.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,计算匹配得分的公式为:
Figure FDA0003795088030000037
其中,[;]表示拼接向量,W表示计算匹配得分时的参数矩阵,
Figure FDA0003795088030000038
表示经TextCNN模型输出的问题句的聚合特征向量,
Figure FDA0003795088030000039
表示经TextCNN模型输出的答案句的聚合特征向量,σ表示非线性激活函数。
7.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,损失函数为:
Figure FDA0003795088030000041
其中,N表示训练期间使用的样本总数,yn表示第n个样本的目标标签,scoren为第n个样本的预测标签。
8.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,Adam算法的公式为:
Figure FDA0003795088030000042
其中,
Figure FDA0003795088030000043
表示校正后的一阶矩估计,
Figure FDA0003795088030000044
表示校正后的二阶矩估计,∈,η分别为训练过程中需调整的参数。
CN202011255769.XA 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法 Active CN112328767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011255769.XA CN112328767B (zh) 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011255769.XA CN112328767B (zh) 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法

Publications (2)

Publication Number Publication Date
CN112328767A CN112328767A (zh) 2021-02-05
CN112328767B true CN112328767B (zh) 2022-10-14

Family

ID=74317656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011255769.XA Active CN112328767B (zh) 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法

Country Status (1)

Country Link
CN (1) CN112328767B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239690A (zh) * 2021-03-24 2021-08-10 浙江工业大学 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN113283245A (zh) * 2021-03-30 2021-08-20 中国科学院软件研究所 基于双塔结构模型的文本匹配方法及装置
CN113268561B (zh) * 2021-04-25 2021-12-14 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113239162A (zh) * 2021-05-11 2021-08-10 山东新一代信息产业技术研究院有限公司 一种用于智能问答的文本嵌入式表达方法
CN113204633B (zh) * 2021-06-01 2022-12-30 吉林大学 一种语义匹配蒸馏方法及装置
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与***
CN113836266A (zh) * 2021-09-23 2021-12-24 中国平安人寿保险股份有限公司 基于bert的自然语言处理方法及相关设备
CN113687242A (zh) * 2021-09-29 2021-11-23 温州大学 基于ga算法优化改进gru神经网络的锂离子电池soh估计方法
CN114153942B (zh) * 2021-11-17 2024-03-29 中国人民解放军国防科技大学 一种基于动态注意力机制的事件时序关系抽取方法
CN114297357B (zh) * 2021-12-27 2022-08-19 北京中科闻歌科技股份有限公司 一种基于量子计算的问答模型构建方法、装置及电子设备
CN114358023B (zh) * 2022-01-11 2023-08-22 平安科技(深圳)有限公司 智能问答召回方法、装置、计算机设备及存储介质
CN116737894B (zh) * 2023-06-02 2024-02-20 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN110046244A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种用于问答***的答案选择方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111831789A (zh) * 2020-06-17 2020-10-27 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947912B (zh) * 2019-01-25 2020-06-23 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110008322B (zh) * 2019-03-25 2023-04-07 创新先进技术有限公司 多轮对话场景下的话术推荐方法和装置
CN110110063B (zh) * 2019-04-30 2023-07-18 南京大学 一种基于哈希学习的问答***构建方法
CN111125380B (zh) * 2019-12-30 2023-04-21 华南理工大学 一种基于RoBERTa和启发式算法的实体链接方法
CN111324717B (zh) * 2020-02-24 2023-06-27 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答***的实现方法
CN110046244A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种用于问答***的答案选择方法
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111831789A (zh) * 2020-06-17 2020-10-27 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Study of Deep Learning for Factoid Question Answering System;Min-Yuh Day et al.;《2020 IEEE 21st International Conference on Information Reuse and Integration for Data Science》;20200910;1-6 *
基于注意力和字嵌入的中文医疗问答匹配方法;陈志豪 等;《计算机应用》;20190129;第39卷(第6期);1640-1645 *
基于知识图谱的领域问答***研究与实现;郭雅志;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200615(第6期);I138-1216 *

Also Published As

Publication number Publication date
CN112328767A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112328767B (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111241837B (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
WO2021143396A1 (zh) 利用文本分类模型进行分类预测的方法及装置
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN111985369A (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN111274375A (zh) 一种基于双向gru网络的多轮对话方法及***
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN113111152A (zh) 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN115186102A (zh) 基于双流嵌入和深度神经网络的动态知识图谱补全方法
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法
CN112905793B (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及***
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant