CN110427466A - 用于问答匹配的神经网络模型的训练方法和装置 - Google Patents

用于问答匹配的神经网络模型的训练方法和装置 Download PDF

Info

Publication number
CN110427466A
CN110427466A CN201910507153.8A CN201910507153A CN110427466A CN 110427466 A CN110427466 A CN 110427466A CN 201910507153 A CN201910507153 A CN 201910507153A CN 110427466 A CN110427466 A CN 110427466A
Authority
CN
China
Prior art keywords
network model
user
question sentence
training
probability score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910507153.8A
Other languages
English (en)
Other versions
CN110427466B (zh
Inventor
马良庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910507153.8A priority Critical patent/CN110427466B/zh
Publication of CN110427466A publication Critical patent/CN110427466A/zh
Application granted granted Critical
Publication of CN110427466B publication Critical patent/CN110427466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种用于问答匹配的神经网络模型的训练方法和装置,方法包括:获取样本集合中的各用户问句以及各用户问句对应的分类标签;利用已训练的第一神经网络模型,预测各用户问句在各分类上的第一概率得分;利用待训练的第二神经网络模型,预测各用户问句在各分类上的第二概率得分,第二神经网络模型的层数小于第一神经网络模型的层数;根据第二概率得分和第一概率得分,得到第一损失函数;根据第二概率得分和各用户问句的分类标签,得到第二损失函数;将第一损失函数与第二损失函数组合为总损失函数;根据总损失函数,训练第二神经网络模型,能够在准确识别用户问句的基础上,降低资源消耗,提升处理速度。

Description

用于问答匹配的神经网络模型的训练方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及用于问答匹配的神经网络模型的训练方法和装置。
背景技术
自然语言处理(natural language processing,NLP),是一门研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法的科学。在NLP中,一个典型的应用就是针对用户问句的问答匹配,以实现由客服机器人根据问答匹配的结果回答用户问题。
在客服机器人***中,出于准确识别用户问句的目的,通常地,用于问答匹配的神经网络模型结构复杂,非常消耗计算资源,处理速度慢,导致出现服务超时的情况。
因此,希望能有改进的方案,能够在准确识别用户问句的基础上,降低资源消耗,提升处理速度。
发明内容
本说明书一个或多个实施例描述了一种用于问答匹配的神经网络模型的训练方法和装置,能够在准确识别用户问句的基础上,降低资源消耗,提升处理速度。
第一方面,提供了一种用于问答匹配的神经网络模型的训练方法,方法包括:
获取样本集合中的各个用户问句以及各个用户问句对应的分类标签;
利用已训练的第一神经网络模型,预测各个用户问句在各个分类上的第一概率得分,其中所述第一神经网络模型的层数为N;
利用待训练的第二神经网络模型,预测各个用户问句在各个分类上的第二概率得分,其中,所述第二神经网络模型的层数为M,M<N;
根据所述第二概率得分和所述第一概率得分,得到第一损失函数;
根据所述第二概率得分和各个用户问句的分类标签,得到第二损失函数;
将所述第一损失函数与所述第二损失函数进行组合,得到总损失函数;
根据所述总损失函数,对所述第二神经网络模型进行训练,得到初步训练的第二神经网络模型。
在一种可能的实施方式中,所述第一神经网络模型通过以下方式预先训练:
将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对所述第一神经网络模型进行训练,得到所述已训练的第一神经网络模型。
在一种可能的实施方式中,所述根据所述第二概率得分和所述第一概率得分,得到第一损失函数,包括:
将所述第二概率得分除以预定参数后,经过归一化处理,得到各个用户问句的第一输出值;
根据各个用户问句的第一输出值和各个用户问句的第一概率得分,得到第一损失函数;所述第一概率得分为除以所述预定参数,并经过归一化处理后得到的。
在一种可能的实施方式中,所述根据所述第二概率得分和各个用户问句的分类标签,得到第二损失函数,包括:
将所述第二概率得分经过归一化处理,得到各个用户问句的第二输出值;
根据各个用户问句的第二输出值和各个用户问句的分类标签,得到第二损失函数。
在一种可能的实施方式中,所述将所述第一损失函数与所述第二损失函数进行组合,得到总损失函数,包括:
将所述第一损失函数乘以第一权重,将所述第二损失函数乘以第二权重,对二者求和,得到总损失函数,其中,第一权重大于第二权重。
在一种可能的实施方式中,所述得到初步训练的第二神经网络模型之后,所述方法还包括:
将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对初步训练的第二神经网络模型继续进行训练,得到继续训练后的第二神经网络模型。
进一步地,所述方法还包括:
利用所述继续训练后的第二神经网络模型,预测当前用户问句所属的类别。
在一种可能的实施方式中,所述待训练的第二神经网络模型为经过预训练的上下文全向预测模型,所述第二神经网络模型的预训练任务包括完形填空与上下句判断两个任务。
在一种可能的实施方式中,所述第二神经网络模型的层数为2。
第二方面,提供了一种用于问答匹配的神经网络模型的训练装置,装置包括:
获取单元,用于获取样本集合中的各个用户问句以及各个用户问句对应的分类标签;
第一预测单元,用于利用已训练的第一神经网络模型,预测各个用户问句在各个分类上的第一概率得分,其中所述第一神经网络模型的层数为N;
第二预测单元,用于利用待训练的第二神经网络模型,预测各个用户问句在各个分类上的第二概率得分,其中,所述第二神经网络模型的层数为M,M<N;
第一比较单元,用于根据所述第二预测单元预测的第二概率得分和所述第一预测单元预测的第一概率得分,得到第一损失函数;
第二比较单元,用于根据所述第二预测单元预测的第二概率得分和所述获取单元获取的各个用户问句的分类标签,得到第二损失函数;
组合单元,用于将所述第一比较单元得到的第一损失函数与所述第二比较单元得到的第二损失函数进行组合,得到总损失函数;
第一训练单元,用于根据所述组合单元得到的总损失函数,对所述第二神经网络模型进行训练,得到初步训练的第二神经网络模型。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,与通常的训练问答匹配模型的方式不同,在对第二神经网络模型进行训练时,利用了已训练的第一神经网络模型的预测结果,其中,第一神经网络模型相对于第二神经网络模型来说,结构复杂,通过引入第一神经网络模型的预测结果,诱导第二神经网络模型的训练,实现知识迁移,从而使得第二神经网络模型能够在准确识别用户问句的基础上,降低资源消耗,提升处理速度,也就是说,通过这种训练问答匹配模型的方式,节省了大量运算资源而模型效果与之前基本没有大的差异。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的用于问答匹配的神经网络模型的训练方法流程图;
图3示出根据一个实施例的用于问答匹配的神经网络模型的训练装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及用于问答匹配的神经网络模型的训练,该神经网络模型也可称为问答匹配模型。长期以来,问答匹配模型对用户问句识别的准确性与处理速度之间是一对矛盾。如果使用层数较多的大模型(Big Model(s)),则用户问句识别的准确性较高,但处理速度慢;如果使用层数较少的小模型(Smal Model),则处理速度快,但用户问句识别的准确性低。而对于问答匹配模型来说,由于其通常应用于机器人客服对用户问句的实时解答,因此对用户问句识别的准确性和处理速度均有较高的要求。本说明书实施例,针对这一矛盾提出了解决方案,将知识蒸馏的思想引入对问答匹配模型的训练过程中,从而使用训练后的小模型可以实现对用户问句识别的准确性和处理速度均能符合需求。
知识蒸馏,通过引入与教师网络相关的软目标(soft target)作为总损失函数(total loss)的一部分,以诱导学生网络的训练,实现知识迁移。其中,教师网络复杂、但推理性能优越;学生网络精简、低复杂度。
如图1所示,教师网络(即大模型)的预测输出除以预设参数T(divided by T)之后、再做归一化处理(例如softmax变换),可以获得软化的概率分布(即软目标),例如,si[0.1,0.6,…,0.1],预设参数T数值介于0~1之间,取值分布较为缓和。预设参数T数值越大,分布越缓和;而预设参数T数值过小,可能会放大错误分类的概率,引入不必要的噪声。硬目标(hard target)则是样本的真实标注,可以用one-hot矢量表示,例如yi[0,1,…,0]。总损失函数(total loss)设计为软目标与硬目标所对应的交叉熵的加权平均,其中软目标交叉熵的加权系数λ越大,表明迁移诱导越依赖教师网络的贡献,这对训练初期阶段是很有必要的,有助于让学生网络更轻松的鉴别简单样本,但训练后期需要适当减小软目标的比重,让真实标注帮助鉴别困难样本。另外,教师网络的推理性能通常要优于学生网络,而模型容量则无具体限制,且教师网络推理精度越高,越有利于学生网络的学习。
本说明书实施例,通过知识迁移,从而通过训练好的大模型得到更加适合推理的小模型。使用训练好的小模型就可以对用户问句进行问答匹配了,也就是说预测(prediction)用户问句的类别。可以理解的是,模型的输入可以为用户问句的向量(vector)。
图2示出根据一个实施例的用于问答匹配的神经网络模型的训练方法流程图,该方法可以基于图1所示的应用场景。如图2所示,该实施例中用于问答匹配的神经网络模型的训练方法包括以下步骤:步骤21,获取样本集合中的各个用户问句以及各个用户问句对应的分类标签;步骤22,利用已训练的第一神经网络模型,预测各个用户问句在各个分类上的第一概率得分,其中所述第一神经网络模型的层数为N;步骤23,利用待训练的第二神经网络模型,预测各个用户问句在各个分类上的第二概率得分,其中,所述第二神经网络模型的层数为M,M<N;步骤24,根据所述第二概率得分和所述第一概率得分,得到第一损失函数;步骤25,根据所述第二概率得分和各个用户问句的分类标签,得到第二损失函数;步骤26,将所述第一损失函数与所述第二损失函数进行组合,得到总损失函数;步骤27,根据所述总损失函数,对所述第二神经网络模型进行训练,得到初步训练的第二神经网络模型。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取样本集合中的各个用户问句以及各个用户问句对应的分类标签。可以理解的是,该分类标签可以理解为图1所示应用场景中的硬目标,当存在多个分类时,各个用户问句对应的分类标签是唯一确定的。例如,各个用户问句对应的分类标签可以如表一所示。
表一:用户问句与分类标签的对应关系表
用户问句 分类标签
用户问句1 分类1
用户问句2 分类1
用户问句3 分类2
用户问句4 分类3
参见表一,用户问句1和用户问句2对应的分类标签为分类1,也就是说,不同的用户问句可以对应同一分类标签,但是一个用户问句对应的分类标签是唯一的。
接着在步骤22,利用已训练的第一神经网络模型,预测各个用户问句在各个分类上的第一概率得分,其中所述第一神经网络模型的层数为N。可以理解的是,该第一神经网络模型可以理解为图1所示应用场景中的大模型,该第一概率得分可以理解为图1所示应用场景中的软目标。
在一个示例中,所述第一神经网络模型通过以下方式预先训练:
将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对所述第一神经网络模型进行训练,得到所述已训练的第一神经网络模型。
在一个示例中,第一神经网络模型使用完整的基于转换器的双向编码器表征(bidirectional encoder representations from transformers,bert)模型,对用户问句进行分类,并输出用户问句匹配的知识点。
然后在步骤23,利用待训练的第二神经网络模型,预测各个用户问句在各个分类上的第二概率得分,其中,所述第二神经网络模型的层数为M,M<N。可以理解的是,该第二神经网络模型可以理解为图1所示应用场景中的小模型,该第二概率得分可以理解为待训练的第二神经网络模型的预测结果,由于第二神经网络模型还未经过训练,因此第二概率得分相对于第一概率得分来讲不够准确。
在一个示例中,所述待训练的第二神经网络模型为经过预训练的上下文全向预测模型,例如bert模型,所述第二神经网络模型的预训练任务包括完形填空与上下句判断两个任务。
在一个示例中,所述第二神经网络模型的层数为2,例如2层的bert模型,其对于计算资源的消耗,约是完整的bert模型的六分之一。
再在步骤24,根据所述第二概率得分和所述第一概率得分,得到第一损失函数。可以理解的是,上述第一损失函数可以但不限于采用交叉熵损失函数(cross entropyloss)。
参见图1所示的应用场景,在一个示例中,将所述第二概率得分除以预定参数后,经过归一化处理,得到各个用户问句的第一输出值;根据各个用户问句的第一输出值和各个用户问句的第一概率得分,得到第一损失函数;所述第一概率得分为所述第一神经网络模型预设层级的输出除以所述预定参数,并经过归一化处理后得到的。
再在步骤25,根据所述第二概率得分和各个用户问句的分类标签,得到第二损失函数。可以理解的是,上述第二损失函数可以但不限于采用交叉熵损失函数。
参见图1所示的应用场景,在一个示例中,将所述第二概率得分经过归一化处理,得到各个用户问句的第二输出值;根据各个用户问句的第二输出值和各个用户问句的分类标签,得到第二损失函数。
再在步骤26,将所述第一损失函数与所述第二损失函数进行组合,得到总损失函数。可以理解的是,组合的方式可以但不限于采用加权求和的方式。
在一个示例中,将所述第一损失函数乘以第一权重,将所述第二损失函数乘以第二权重,对二者求和,得到总损失函数,其中,第一权重大于第二权重。
最后在步骤27,根据所述总损失函数,对所述第二神经网络模型进行训练,得到初步训练的第二神经网络模型。可以理解的是,可以通过最小化损失函数求解和评估模型。
在一个示例中,在步骤27之后,将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对初步训练的第二神经网络模型继续进行训练,得到继续训练后的第二神经网络模型。
可以理解的是,总损失函数设计为软目标与硬目标所对应的交叉熵的加权平均,其中软目标交叉熵的加权系数越大,表明迁移诱导越依赖教师网络的贡献,这对训练初期阶段是很有必要的,有助于让学生网络更轻松的鉴别简单样本,但训练后期需要适当减小软目标的比重,让分类标签帮助鉴别困难样本。
进一步地,利用所述继续训练后的第二神经网络模型,预测当前用户问句所属的类别。
通过本说明书实施例提供的方法,与通常的训练问答匹配模型的方式不同,在对第二神经网络模型进行训练时,利用了已训练的第一神经网络模型的预测结果,其中,第一神经网络模型相对于第二神经网络模型来说,结构复杂,通过引入第一神经网络模型的预测结果,诱导第二神经网络模型的训练,实现知识迁移,从而使得第二神经网络模型能够在准确识别用户问句的基础上,降低资源消耗,提升处理速度,也就是说,通过这种训练问答匹配模型的方式,节省了大量运算资源而模型效果与之前基本没有大的差异。
根据另一方面的实施例,还提供一种用于问答匹配的神经网络模型的训练装置,该装置用于执行本说明书实施例提供的用于问答匹配的神经网络模型的训练方法。图3示出根据一个实施例的用于问答匹配的神经网络模型的训练装置的示意性框图。如图3所示,该装置300包括:
获取单元31,用于获取样本集合中的各个用户问句以及各个用户问句对应的分类标签;
第一预测单元32,用于利用已训练的第一神经网络模型,预测各个用户问句在各个分类上的第一概率得分,其中所述第一神经网络模型的层数为N;
第二预测单元33,用于利用待训练的第二神经网络模型,预测各个用户问句在各个分类上的第二概率得分,其中,所述第二神经网络模型的层数为M,M<N;
第一比较单元34,用于根据所述第二预测单元33预测的第二概率得分和所述第一预测单元32预测的第一概率得分,得到第一损失函数;
第二比较单元35,用于根据所述第二预测单元33预测的第二概率得分和所述获取单元31获取的各个用户问句的分类标签,得到第二损失函数;
组合单元36,用于将所述第一比较单元34得到的第一损失函数与所述第二比较单元35得到的第二损失函数进行组合,得到总损失函数;
第一训练单元37,用于根据所述组合单元36得到的总损失函数,对所述第二神经网络模型进行训练,得到初步训练的第二神经网络模型。
可选地,作为一个实施例,所述第一神经网络模型通过以下方式预先训练:
将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对所述第一神经网络模型进行训练,得到所述已训练的第一神经网络模型。
可选地,作为一个实施例,所述第一比较单元34,具体用于:
将所述第二概率得分除以预定参数后,经过归一化处理,得到各个用户问句的第一输出值;
根据各个用户问句的第一输出值和各个用户问句的第一概率得分,得到第一损失函数;所述第一概率得分为除以所述预定参数,并经过归一化处理后得到的。
可选地,作为一个实施例,所述第二比较单元35,具体用于:
将所述第二概率得分经过归一化处理,得到各个用户问句的第二输出值;
根据各个用户问句的第二输出值和各个用户问句的分类标签,得到第二损失函数。
可选地,作为一个实施例,所述组合单元36,具体用于将所述第一比较单元34得到的第一损失函数乘以第一权重,将所述第二比较单元35得到的第二损失函数乘以第二权重,对二者求和,得到总损失函数,其中,第一权重大于第二权重。
可选地,作为一个实施例,所述装置还包括:
第二训练单元,用于在所述第一训练单元得到初步训练的第二神经网络模型之后,将所述获取单元31获取的各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对所述第一训练单元得到的初步训练的第二神经网络模型继续进行训练,得到继续训练后的第二神经网络模型。
进一步地,所述装置还包括:
预测单元,用于利用所述第二训练单元得到的继续训练后的第二神经网络模型,预测当前用户问句所属的类别。
可选地,作为一个实施例,所述待训练的第二神经网络模型为经过预训练的上下文全向预测模型,所述第二神经网络模型的预训练任务包括完形填空与上下句判断两个任务。
可选地,作为一个实施例,所述第二神经网络模型的层数为2。
通过本说明书实施例提供的装置,与通常的训练问答匹配模型的方式不同,在对第二神经网络模型进行训练时,利用了已训练的第一神经网络模型的预测结果,其中,第一神经网络模型相对于第二神经网络模型来说,结构复杂,通过引入第一神经网络模型的预测结果,诱导第二神经网络模型的训练,实现知识迁移,从而使得第二神经网络模型能够在准确识别用户问句的基础上,降低资源消耗,提升处理速度,也就是说,通过这种训练问答匹配模型的方式,节省了大量运算资源而模型效果与之前基本没有大的差异。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (20)

1.一种用于问答匹配的神经网络模型的训练方法,所述方法包括:
获取样本集合中的各个用户问句以及各个用户问句对应的分类标签;
利用已训练的第一神经网络模型,预测各个用户问句在各个分类上的第一概率得分,其中所述第一神经网络模型的层数为N;
利用待训练的第二神经网络模型,预测各个用户问句在各个分类上的第二概率得分,其中,所述第二神经网络模型的层数为M,M<N;
根据所述第二概率得分和所述第一概率得分,得到第一损失函数;
根据所述第二概率得分和各个用户问句的分类标签,得到第二损失函数;
将所述第一损失函数与所述第二损失函数进行组合,得到总损失函数;
根据所述总损失函数,对所述第二神经网络模型进行训练,得到初步训练的第二神经网络模型。
2.如权利要求1所述的方法,其中,所述第一神经网络模型通过以下方式预先训练:
将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对所述第一神经网络模型进行训练,得到所述已训练的第一神经网络模型。
3.如权利要求1所述的方法,其中,所述根据所述第二概率得分和所述第一概率得分,得到第一损失函数,包括:
将所述第二概率得分除以预定参数后,经过归一化处理,得到各个用户问句的第一输出值;
根据各个用户问句的第一输出值和各个用户问句的第一概率得分,得到第一损失函数;所述第一概率得分为除以所述预定参数,并经过归一化处理后得到的。
4.如权利要求1所述的方法,其中,所述根据所述第二概率得分和各个用户问句的分类标签,得到第二损失函数,包括:
将所述第二概率得分经过归一化处理,得到各个用户问句的第二输出值;
根据各个用户问句的第二输出值和各个用户问句的分类标签,得到第二损失函数。
5.如权利要求1所述的方法,其中,所述将所述第一损失函数与所述第二损失函数进行组合,得到总损失函数,包括:
将所述第一损失函数乘以第一权重,将所述第二损失函数乘以第二权重,对二者求和,得到总损失函数,其中,第一权重大于第二权重。
6.如权利要求1所述的方法,其中,所述得到初步训练的第二神经网络模型之后,所述方法还包括:
将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对初步训练的第二神经网络模型继续进行训练,得到继续训练后的第二神经网络模型。
7.如权利要求6所述的方法,其中,所述方法还包括:
利用所述继续训练后的第二神经网络模型,预测当前用户问句所属的类别。
8.如权利要求1所述的方法,其中,所述待训练的第二神经网络模型为经过预训练的上下文全向预测模型,所述第二神经网络模型的预训练任务包括完形填空与上下句判断两个任务。
9.如权利要求1所述的方法,其中,所述第二神经网络模型的层数为2。
10.一种用于问答匹配的神经网络模型的训练装置,所述装置包括:
获取单元,用于获取样本集合中的各个用户问句以及各个用户问句对应的分类标签;
第一预测单元,用于利用已训练的第一神经网络模型,预测各个用户问句在各个分类上的第一概率得分,其中所述第一神经网络模型的层数为N;
第二预测单元,用于利用待训练的第二神经网络模型,预测各个用户问句在各个分类上的第二概率得分,其中,所述第二神经网络模型的层数为M,M<N;
第一比较单元,用于根据所述第二预测单元预测的第二概率得分和所述第一预测单元预测的第一概率得分,得到第一损失函数;
第二比较单元,用于根据所述第二预测单元预测的第二概率得分和所述获取单元获取的各个用户问句的分类标签,得到第二损失函数;
组合单元,用于将所述第一比较单元得到的第一损失函数与所述第二比较单元得到的第二损失函数进行组合,得到总损失函数;
第一训练单元,用于根据所述组合单元得到的总损失函数,对所述第二神经网络模型进行训练,得到初步训练的第二神经网络模型。
11.如权利要求10所述的装置,其中,所述第一神经网络模型通过以下方式预先训练:
将各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对所述第一神经网络模型进行训练,得到所述已训练的第一神经网络模型。
12.如权利要求10所述的装置,其中,所述第一比较单元,具体用于:
将所述第二概率得分除以预定参数后,经过归一化处理,得到各个用户问句的第一输出值;
根据各个用户问句的第一输出值和各个用户问句的第一概率得分,得到第一损失函数;所述第一概率得分为除以所述预定参数,并经过归一化处理后得到的。
13.如权利要求10所述的装置,其中,所述第二比较单元,具体用于:
将所述第二概率得分经过归一化处理,得到各个用户问句的第二输出值;
根据各个用户问句的第二输出值和各个用户问句的分类标签,得到第二损失函数。
14.如权利要求10所述的装置,其中,所述组合单元,具体用于将所述第一比较单元得到的第一损失函数乘以第一权重,将所述第二比较单元得到的第二损失函数乘以第二权重,对二者求和,得到总损失函数,其中,第一权重大于第二权重。
15.如权利要求10所述的装置,其中,所述装置还包括:
第二训练单元,用于在所述第一训练单元得到初步训练的第二神经网络模型之后,将所述获取单元获取的各个用户问句以及各个用户问句对应的分类标签作为一组训练样本,对所述第一训练单元得到的初步训练的第二神经网络模型继续进行训练,得到继续训练后的第二神经网络模型。
16.如权利要求15所述的装置,其中,所述装置还包括:
预测单元,用于利用所述第二训练单元得到的继续训练后的第二神经网络模型,预测当前用户问句所属的类别。
17.如权利要求10所述的装置,其中,所述待训练的第二神经网络模型为经过预训练的上下文全向预测模型,所述第二神经网络模型的预训练任务包括完形填空与上下句判断两个任务。
18.如权利要求10所述的装置,其中,所述第二神经网络模型的层数为2。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。
CN201910507153.8A 2019-06-12 2019-06-12 用于问答匹配的神经网络模型的训练方法和装置 Active CN110427466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910507153.8A CN110427466B (zh) 2019-06-12 2019-06-12 用于问答匹配的神经网络模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910507153.8A CN110427466B (zh) 2019-06-12 2019-06-12 用于问答匹配的神经网络模型的训练方法和装置

Publications (2)

Publication Number Publication Date
CN110427466A true CN110427466A (zh) 2019-11-08
CN110427466B CN110427466B (zh) 2023-05-26

Family

ID=68407623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910507153.8A Active CN110427466B (zh) 2019-06-12 2019-06-12 用于问答匹配的神经网络模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN110427466B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909815A (zh) * 2019-11-29 2020-03-24 深圳市商汤科技有限公司 神经网络训练、图像处理方法、装置及电子设备
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN110991613A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 一种训练神经网络的方法及***
CN111078854A (zh) * 2019-12-13 2020-04-28 北京金山数字娱乐科技有限公司 问答预测模型的训练方法及装置、问答预测方法及装置
CN111159397A (zh) * 2019-12-04 2020-05-15 支付宝(杭州)信息技术有限公司 文本分类方法和装置、服务器
CN111199149A (zh) * 2019-12-17 2020-05-26 航天信息股份有限公司 一种对话***的语句智能澄清方法及***
CN111274789A (zh) * 2020-02-06 2020-06-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN111310823A (zh) * 2020-02-12 2020-06-19 北京迈格威科技有限公司 目标分类方法、装置和电子***
CN111339302A (zh) * 2020-03-06 2020-06-26 支付宝(杭州)信息技术有限公司 训练要素分类模型的方法和装置
CN111428765A (zh) * 2020-03-17 2020-07-17 武汉大学 一种基于全局卷积、局部深度卷积融合的目标检测方法
CN111680148A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 针对用户问句进行智能应答的方法和装置
CN111797895A (zh) * 2020-05-30 2020-10-20 华为技术有限公司 一种分类器的训练方法、数据处理方法、***以及设备
CN112434142A (zh) * 2020-11-20 2021-03-02 海信电子科技(武汉)有限公司 一种标记训练样本的方法、服务器、计算设备及存储介质
CN113515614A (zh) * 2021-06-29 2021-10-19 厦门渊亭信息科技有限公司 基于知识蒸馏的属性识别方法、终端设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977707A (zh) * 2017-11-23 2018-05-01 厦门美图之家科技有限公司 一种对抗蒸馏神经网络模型的方法及计算设备
CN108009638A (zh) * 2017-11-23 2018-05-08 深圳市深网视界科技有限公司 一种神经网络模型的训练方法、电子设备及存储介质
KR20180125905A (ko) * 2017-05-16 2018-11-26 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
US20190102678A1 (en) * 2017-09-29 2019-04-04 Samsung Electronics Co., Ltd. Neural network recogntion and training method and apparatus
CN109598331A (zh) * 2018-12-04 2019-04-09 北京芯盾时代科技有限公司 一种欺诈识别模型训练方法、欺诈识别方法及装置
CN109816092A (zh) * 2018-12-13 2019-05-28 北京三快在线科技有限公司 深度神经网络训练方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125905A (ko) * 2017-05-16 2018-11-26 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
US20190102678A1 (en) * 2017-09-29 2019-04-04 Samsung Electronics Co., Ltd. Neural network recogntion and training method and apparatus
CN107977707A (zh) * 2017-11-23 2018-05-01 厦门美图之家科技有限公司 一种对抗蒸馏神经网络模型的方法及计算设备
CN108009638A (zh) * 2017-11-23 2018-05-08 深圳市深网视界科技有限公司 一种神经网络模型的训练方法、电子设备及存储介质
CN109598331A (zh) * 2018-12-04 2019-04-09 北京芯盾时代科技有限公司 一种欺诈识别模型训练方法、欺诈识别方法及装置
CN109816092A (zh) * 2018-12-13 2019-05-28 北京三快在线科技有限公司 深度神经网络训练方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵明等: "基于BIGRU的番茄病虫害问答***问句分类研究", 《农业机械学报》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991613B (zh) * 2019-11-29 2022-08-02 支付宝(杭州)信息技术有限公司 一种训练神经网络的方法及***
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN110991613A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 一种训练神经网络的方法及***
CN110909815A (zh) * 2019-11-29 2020-03-24 深圳市商汤科技有限公司 神经网络训练、图像处理方法、装置及电子设备
CN110909146B (zh) * 2019-11-29 2022-09-09 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN110909815B (zh) * 2019-11-29 2022-08-12 深圳市商汤科技有限公司 神经网络训练、图像处理方法、装置及电子设备
CN111159397A (zh) * 2019-12-04 2020-05-15 支付宝(杭州)信息技术有限公司 文本分类方法和装置、服务器
CN111159397B (zh) * 2019-12-04 2023-04-18 支付宝(杭州)信息技术有限公司 文本分类方法和装置、服务器
CN111078854A (zh) * 2019-12-13 2020-04-28 北京金山数字娱乐科技有限公司 问答预测模型的训练方法及装置、问答预测方法及装置
CN111078854B (zh) * 2019-12-13 2023-10-27 北京金山数字娱乐科技有限公司 问答预测模型的训练方法及装置、问答预测方法及装置
CN111199149A (zh) * 2019-12-17 2020-05-26 航天信息股份有限公司 一种对话***的语句智能澄清方法及***
CN111199149B (zh) * 2019-12-17 2023-10-20 航天信息股份有限公司 一种对话***的语句智能澄清方法及***
CN111274789A (zh) * 2020-02-06 2020-06-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN111310823A (zh) * 2020-02-12 2020-06-19 北京迈格威科技有限公司 目标分类方法、装置和电子***
CN111310823B (zh) * 2020-02-12 2024-03-29 北京迈格威科技有限公司 目标分类方法、装置和电子***
CN111339302A (zh) * 2020-03-06 2020-06-26 支付宝(杭州)信息技术有限公司 训练要素分类模型的方法和装置
CN111428765B (zh) * 2020-03-17 2022-08-30 武汉大学 一种基于全局卷积、局部深度卷积融合的目标检测方法
CN111428765A (zh) * 2020-03-17 2020-07-17 武汉大学 一种基于全局卷积、局部深度卷积融合的目标检测方法
WO2021244249A1 (zh) * 2020-05-30 2021-12-09 华为技术有限公司 一种分类器的训练方法、数据处理方法、***以及设备
CN111797895A (zh) * 2020-05-30 2020-10-20 华为技术有限公司 一种分类器的训练方法、数据处理方法、***以及设备
CN111797895B (zh) * 2020-05-30 2024-04-26 华为技术有限公司 一种分类器的训练方法、数据处理方法、***以及设备
CN111680148A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 针对用户问句进行智能应答的方法和装置
CN112434142A (zh) * 2020-11-20 2021-03-02 海信电子科技(武汉)有限公司 一种标记训练样本的方法、服务器、计算设备及存储介质
CN112434142B (zh) * 2020-11-20 2023-04-07 海信电子科技(武汉)有限公司 一种标记训练样本的方法、服务器、计算设备及存储介质
CN113515614A (zh) * 2021-06-29 2021-10-19 厦门渊亭信息科技有限公司 基于知识蒸馏的属性识别方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN110427466B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110427466A (zh) 用于问答匹配的神经网络模型的训练方法和装置
CN108304355B (zh) 一种基于sarima-wnn模型预测弹性云计算资源的方法
CN110909880B (zh) 一种基于深度知识追踪的众包任务预测方法
KR101961144B1 (ko) 국가직무능력표준 기반 직무적합 매칭 시스템 및 그 방법
CN108363745A (zh) 机器人客服转人工客服的方法和装置
CN109101624A (zh) 对话处理方法、装置、电子设备及存储介质
CN111159419B (zh) 基于图卷积的知识追踪数据处理方法、***和存储介质
CN111339302A (zh) 训练要素分类模型的方法和装置
CN110264036A (zh) 任务调度方法及装置
CN111582500A (zh) 一种提高模型训练效果的方法和***
Chen et al. A cooperative cuckoo search–hierarchical adaptive neuro-fuzzy inference system approach for predicting student academic performance
CN104933428A (zh) 一种基于张量描述的人脸识别方法及装置
CN113435998B (zh) 贷款逾期预测方法、装置、电子设备及存储介质
CN107993019A (zh) 一种简历评估方法及装置
CN107943853A (zh) 知识节点选择测试方法及其所应用计算机设备和存储介质
CN113627545A (zh) 一种基于同构多教师指导知识蒸馏的图像分类方法及***
CN110147905A (zh) 信息处理方法、装置、***及存储介质
CN112528108B (zh) 一种模型训练***、模型训练中梯度聚合的方法及装置
Shmueli et al. Neural network analysis of travel behaviour
CN114372680A (zh) 一种基于工人流失预测的空间众包任务分配方法
CN105225018A (zh) 基于bp神经网络的手机流量的预测方法及预测装置
CN113434651B (zh) 话术推荐方法、装置及相关设备
CN111782774A (zh) 一种问题推荐的方法及装置
CN115203545A (zh) 基于深度学习和知识图谱的康养服务智能匹配方法和***
KR20210152979A (ko) 인공 지능 학습 기반의 학습 컨텐츠 추천 시스템 및 그것의 동작 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant