CN114925185B

CN114925185B - 交互方法、模型的训练方法、装置、设备及介质

Info

Publication number: CN114925185B
Application number: CN202210531471.XA
Authority: CN
Inventors: 吴高升; 田鑫; 程军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-02-07
Anticipated expiration: 2042-05-13
Also published as: CN114925185A

Abstract

本公开提供了交互方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及深度学习、智能搜索、NLP等技术领域。具体实现方案为：利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型；以及利用样本语句对训练第一级模型，得到一级目标模型，样本语句对包括语义相同的两个样本语句。

Description

交互方法、模型的训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、智能搜索、NLP(NaturalLanguage Processing，自然语言处理)等技术领域，尤其涉及交互方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

背景技术

人机交互是一种人类利用自然语言与机器进行交互的技术。随着人工智能技术的不断发展，已经实现让机器能够理解人类输出的自然语言，理解自然语言中的内在含义，并作出相应的反馈。在这些操作中，语义的准确理解、反馈的迅速程度、以及给予相应的意见或者建议，均成为影响人机交互顺畅的因素。

发明内容

本公开提供了一种交互方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种深度学习模型的训练方法，包括：利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型；以及利用样本语句对训练上述第一级模型，得到一级目标模型，其中，上述样本语句对包括语义相同的两个样本语句。

根据本公开的另一方面，提供了一种交互方法，包括：接收来自用户的问题；将上述问题输入至特征提取模型中，得到语义向量；从多个语义索引向量中确定与上述语义向量相匹配的目标索引向量；基于上述目标索引向量，确定与上述问题相匹配的答案，其中，上述特征提取模型是利用本公开的深度学习模型的训练方法训练得到的。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，包括：第一训练模块，用于利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型；以及第二训练模块，用于利用样本语句对训练上述第一级模型，得到一级目标模型，其中，上述样本语句对包括语义相同的两个样本语句。

根据本公开的另一方面，提供了一种交互装置，包括：接收模块，用于接收来自用户的问题；提取模块，用于将上述问题输入至特征提取模型中，得到语义向量；匹配模块，用于从多个语义索引向量中确定与上述语义向量相匹配的目标索引向量；答案确定模块，用于基于上述目标索引向量，确定与上述问题相匹配的答案，其中，上述特征提取模型是利用本公开的深度学习模型的训练装置训练得到的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如本公开的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如本公开的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如本公开的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用交互方法及装置的示例性***架构；

图2示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图；

图3示意性示出了根据本公开实施例的深度学习模型的训练方法的流程示意图；

图4示意性示出了根据本公开另一实施例的深度学习模型的训练方法的流程示意图；

图5示意性示出了根据本公开实施例的交互方法的流程图；

图6示意性示出了根据本公开实施例的交互方法的流程示意图；

图7示意性示出了根据本公开实施例的深度学习模型的训练装置的框图；

图8示意性示出了根据本公开实施例的交互装置的框图；以及

图9示意性示出了根据本公开实施例的适于实现深度学习模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本公开的实施例，提供了一种深度学习模型的训练方法，包括：利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型；以及利用样本语句对训练第一级模型，得到一级目标模型，其中，样本语句对包括语义相同的两个样本语句。

根据本公开的实施例，提供了一种交互方法，包括：接收来自用户的问题；将问题输入至特征提取模型中，得到语义向量；从多个语义索引向量中确定与语义向量相匹配的目标索引向量；基于目标索引向量，确定与问题相匹配的答案，其中，特征提取模型是利用本公开的深度学习模型的训练方法训练得到的。

根据本公开的实施例，本公开实施例提供的交互方法，可以应用于问答***中。问答***在搜索引擎、智能客服和智能助手等场景中有着广泛的应用。利用本公开实施例提供的交互方法，能够准确、简洁的用自然语言回答用户用自然语言提出的问题。例如，政府会经常出台一些政策，政策内容丰富、且涉及广泛，为了方便用户迅速准确的理解政策内容，政府工作人员往往需要为群众解答疑惑。利用本公开实施例提供的交互方法，可以构建一个关于解答相关政策信息的问答***，由此不仅能够提升政府工作人员的工作效率，还能在非政府工作时间段内为群众服务。此外，本公开实施例提供的交互方法，并不局限于应用于政务领域的问答交互中，还可以应用于例如电信、保险、校务等领域的问答交互中。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用交互方法及装置的示例性***架构。

需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。例如，在另一实施例中，可以应用交互方法及装置的示例性***架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的交互方法及装置。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所输入的问题提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户问题进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的交互方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的交互装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的交互方法一般也可以由服务器105执行。相应地，本公开实施例所提供的交互装置一般可以设置于服务器105中。本公开实施例所提供的交互方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的交互装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，在用户在线输入问题时，终端设备101、102、103可以获取问题，然后将获取的问题发送给服务器105，由服务器105利用特征提取模型对问题进行特征提取，得到语义向量；从多个语义索引向量中确定与语义向量相匹配的目标索引向量。基于目标索引向量，确定与问题相匹配的答案。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对问题进行分析，并最终确定与问题相匹配的答案。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。

如图2所示，该方法包括操作S210～S220。

在操作S210，利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型。

在操作S220，利用样本语句对训练第一级模型，得到一级目标模型。样本语句对包括语义相同的两个样本语句。

根据本公开的实施例，深度学习模型的网络结构不做限定，例如，深度学习模型可以包括Transformer(编码解码器)网络，例如双向语言网络模型、单向语言网络模型和端到端语言网络模型。深度学习模型还可以是利用开源数据训练后的模型，例如，可以将预训练模型RocketQA中的其中一个编码网络作为本公开实施例的待训练的深度学习模型。利用预训练模型作为本公开实施例的深度学习模型，可以缩小本公开实施例提供的训练方法与单纯采用有监督的训练方法之间的差异。

根据本公开的实施例，采用无标注样本语句和样本语句对逐级训练深度学习模型，能够使得深度学习模型学习到样本语句中语句级别的语义特征，使得一级目标模型能够用于提取语句中的语义特征，得到语义特征向量，进而使得一级目标模型能够应用于检索式问答的交互场景中。

根据本公开的实施例，可以利用无标注样本语句通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型，利用样本语句对通过有监督的训练方式训练第一级模型，得到一级目标模型。由此，将无监督的训练方式与有监督的训练方式结合，可以通过无监督的训练方式来免去人工标注数据的操作，降低标注成本同时，还可以通过有监督的训练方式来提高模型的训练精度。

根据本公开的实施例，针对操作S210，利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型，可以包括如下操作。

例如，对深度学习模型中的隐藏层进行节点随机失活处理，得到具有随机失活功能的深度学习模型。将无标注样本语句两次输入至具有随机失活功能的深度学习模型中，得到正样本特征向量对。利用正样本特征向量对训练深度学习模型，得到第一级模型。

根据本公开的实施例，可以按照预定节点保留概率，对深度学习模型中的隐藏层进行节点随机失活处理，得到具有随机失活功能的深度学习模型。

根据本公开的实施例，节点随机失活(dropout)处理可以指：对具有深度结构的人工神经网络进行优化的方法，在训练过程中，通过将隐含层的部分权重或者输出随机归零，降低节点问的相互依赖性，从而实现神经网络的正则化。可以采用无监督的SimCSE(SimpleContrastive Learning of Sentence Embeddings，简单的对比学习句子嵌入)的方法，将无标注样本语句两次输入至具有随机失活功能的深度学习模型中，得到正样本特征向量对。该正样本特征向量对中包括两个特征向量，两个特征向量用于表征语义相同，但是内容不完全相同的两个语句。利用正样本特征向量对训练深度学习模型，得到第一级模型可以包括：将正样本特征向量对输入至SimCSE无监督损失函数中，得到损失值，基于损失值对深度学习模型进行调参，直至损失值收敛，将损失值收敛时的模型，作为第一级模型。

利用本公开实施例提供的无监督的对比学习训练方式训练模型，可以直接使用无标注样本语句对深度学习模型进行无监督训练，省去了人工标注的操作。

根据本公开的实施例，利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型，还可以包括调整处理操作。

例如，确定初始无标注样本语句的语句长度。在确定语句长度满足预定处理条件的情况下，对初始无标注样本语句进行调整处理，得到无标注样本语句。

根据本公开的实施例，预定处理条件可以包括第一预定处理条件和第二预定处理条件。

例如，语句长度满足第一预定处理条件用于表征语句长度小于预定长度阈值，在确定语句长度满足第一预定处理条件的情况下，对初始样本语句进行加长调整处理，得到样本语句。加长调整处理可以包括以下至少一项：随机***处理、随机重复词处理、随机重复实体处理、同义实体替换处理、同义词替换处理。

例如，语句长度满足第二预定处理条件用于表征语句长度大于预定长度阈值，在确定语句长度满足第二预定处理条件的情况下，对初始样本语句进行缩短调整处理，得到样本语句。缩短调整处理可以包括以下至少一项：随机删除处理、同义实体替换处理、同义词替换处理。

利用本公开实施例提供的调整处理操作，可以使得未标注样本语句的长度保持一致，与无监督的对比学习训练方式结合，提高模型的训练能力和训练效率。

根据本公开的实施例，针对操作S220，利用样本语句对训练第一级模型，得到一级目标模型，可以包括如下操作。

例如，利用第一级样本语句对训练第一级模型，得到第二级模型。利用第二级样本语句对训练第二级模型，得到一级目标模型。

根据本公开的实施例，样本语句对可以包括第一级样本语句对和第二级样本语句对。第二级样本语句对之间的语义相似度的确定难度等级高于第一级样本语句对之间的语义相似度确定难度等级。例如，第二级样本语句对可以包括两个第二样本语句，第一级样本语句对可以包括两个第一样本语句。两个第二样本语句之间的语义相似度的确定难度等级高于两个第一样本语句之间的语义相似度的确定难度等级。

根据本公开的实施例，利用语义相似度的确定难度能级低的第一级样本语句对先对第一级模型进行训练，然后利用语义相似度的确定难度等级高的第二级样本语句对对第二级模型进行训练，随着语义相似度的确定难度等级越高，模型的训练精度越高，形成课程式训练。将无监督的训练方式与有监督的课程式训练方式相结合，提高模型的训练精度的同时，提高训练效率。

根据本公开的实施例，样本语句对可以包括同义词替换样本语句对和同义实体替换样本语句对。例如，第一级样本语句对可以为同义词替换样本语句对，第二级样本语句对可以为同义实体替换样本语句对。同义词替换样本语句对可以指，两个样本语句中至少有一个词不相同，且不相同的词为同义词。同义实体替换样本语句对可以指，两个样本语句中至少有一个实体不相同，且不相同的实体为同义实体。

例如，可以利用查询同义词表，将第一样本语句中的部分待替换词进行同义词替换，增广构造另一第一样本语句，得到同义词替换样本语句对。此外，还可以限定待替换词的替换数量，例如，待替换词的数量不大于替换阈值例如2，以降低同义词替换后的语义漂移问题。

例如，可以将第二样本语句中的部分待替换实体进行同义实体替换，增广构造另一第二样本语句，得到同义实体替换样本语句对。同义实体可以包括例如公司名、机构名、地名、物品名等。可以利用命名实体识别模型识别出第二样本语句中的实体，然后利用命名实体表来查询别称、英文名称、又称等，以此替换为同义实体，得到另一第二样本语句。例如，土豆的别名可以是“地豆、洋芋、荷兰薯、山药蛋、山药豆”等，可以预先把这些实体补充至命名实体表中。

根据本公开的实施例，采用同义词替换样本语句对作为第一级样本语句对，同义实体替换样本语句对作为第二级样本语句对，可以免去人工标注的操作，提高训练数据构造的能力的同时，提高训练数据的质量。例如，利用同义词替换和同义实体替换的方式，为模型提供额外的信息，丰富训练数据，增强经训练的模型对同义实体变换的样本语句或者同义词变化的样本语句的识别能力。

图3示意性示出了根据本公开实施例的深度学习模型的训练方法的流程示意图。

如图3所示，利用无标注样本语句通过无监督的对比学习训练方式训练深度学习模型310，得到第一级模型320。利用同义词替换样本语句对训练第一级模型320，得到第二级模型330。利用同义实体替换样本语句对训练第二级模型330，得到一级目标模型340。利用训练样本集批量训练一级目标模型340，得到二级目标模型350。

根据本公开的实施例，训练样本集包括无标注样本语句子集和样本语句对子集，将无标注样本语句子集和样本语句对子集作为批量训练(Sample Batch)中的训练数据，进行无监督和有监督的联合训练。

根据本公开的实施例，可以预先设置无标注样本语句子集和语义相同的样本语句对子集的占比，得到数据比例。例如，无标注样本语句子集和语义相同的样本语句对子集作为一个训练批次的训练样本集训练一级目标模型，根据数据比例，确定无标注样本语句子集和语义相同的样本语句对子集的占比。

根据本公开的实施例，可以采用两步式训练的方式，在第一步训练过程中，采用课程式训练，训练得到一级目标模型。在第二步训练过程中，采用批量的联合训练，使得第二步在一级目标模型的基础上，使用少量的训练数据，即可使得模型达到最优。以此利用两种不同的训练方式依次对深度学习模型进行训练，可以将课程式训练和联合训练结合，提高模型的训练精度的同时，在训练数据量比较少的场景下使得训练效果达到提升。

根据本公开的实施例，样本语句对子集可以包括同义词替换样本语句对子集，也可以包括同义词替换样本语句对子集，还可以包括同义词替换样本语句对子集和同义实体替换样本语句对子集。

根据本公开的实施例，可以获取初始样本语句对子集。初始样本语句对子集包括以下至少一项：初始同义词替换样本语句对子集、初始同义实体替换样本语句对子集。在确定初始样本语句对子集的数据量大于或者等于预定数据量阈值的情况下，将初始样本语句对子集作为样本语句对子集。

例如，在确定初始样本语句对子集的数据量大于或者等于预定数据量阈值的情况下，可以将初始样本语句对子集作为样本语句对子集。在确定初始样本语句对子集的数据量小于预定数据量阈值的情况下，可以再采集初始样本语句对子集，直至初始样本语句对子集的数据量大于或者等于预定数据阈值。

根据本公开的实施例，初始样本语句对子集包括初始同义词替换样本语句对子集和初始同义实体替换样本语句对子集，在确定初始同义词替换样本语句对子集的数据量大于或者等于预定数据量阈值，且初始同义实体替换样本语句对子集的数据量大于或者等于预定数据量阈值的情况下，可以将初始同义词替换样本语句对子集和初始同义实体替换样本语句对子集均作为样本语句对子集。还可以对初始同义词替换样本语句对子集的数据量和初始同义实体替换样本语句对子集的数据量进行比较，将数据量高的作为样本语句对子集。

根据本公开的实施例，在进行联合训练的过程中，能够通过预定数据量阈值来把控样本语句对子集的数据量，提高有监督的训练数据的数据量，进而提高训练精度。

图4示意性示出了根据本公开另一实施例的深度学习模型的训练方法的流程示意图。

如图4所示，包括操作S410～S460。

在操作S410，利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型。

在操作S420，利用样本语句对训练第一级模型，得到一级目标模型。

在操作S430，利用第一评估语句和第二评估语句评估一级目标模型，得到评估结果。

在操作S440，确定评估结果是否满足预定训练条件。在确定评估结果满足预定训练条件的情况下，执行操作S450。在确定评估结果不满足预定训练条件的情况下，执行操作S460。

在操作S450，利用训练样本集批量训练一级目标模型，得到二级目标模型。

在操作S460，停止训练。

根据本公开的实施例，评估结果满足预定训练条件可以指：评估结果小于预定评估阈值。例如，评估结果可以用于表征模型的精度或者准确度，预定评估阈值可以用于表征预定精度阈值或者预定准确度阈值。评估结果满足预定训练条件可以指，模型的精度小于预定精度阈值，或者模型的准确度小于预定准确度阈值。评估结果不满足预定训练条件可以指，评估结果大于或者等于预定评估阈值。例如，模型的精度大于或者等于预定精度阈值，或者模型的准确度大于或者等于预定准确度阈值。

根据本公开的实施例，可以在确定模型的评估结果小于预定评估阈值的情况下，利用训练样本集批量训练一级目标模型，得到二级目标模型。利用评估结果对层级训练后的模型进行评价，及时确定模型的收敛情况，提高模型训练的训练效率。

根据本公开的实施例，第一评估语句可以是训练数据中的样本语句，第二评估语句可以是通过对第一评估语句进行同义句增广处理得到的。

根据本公开的实施例，同义句增广处理包括以下至少一项：中英文回译、相似句生成模型生成。

根据本公开的实施例，中英文回译可以指：将中文的第一评估语句翻译成英文语句，再将英文语句翻译为中文语句，作为第二评估语句。利用中英文回译的方式构造第二评估语句，可以使得第一评估语句与第二评估语句之间的语义相似度高，语义信息得到保留。

根据本公开的实施例，相似句生成模型生成可以指：将第一评估语句输入至相似句生成模型中，得到第二评估语句。相似句生成模型可以包括SimBERT模型，但是并不局限于此，还可以是SimBERT模型的衍生模型，例如SimBERTv2模型。只要是能够基于第一评估语句，生成与第一评估语句语义相似的第二评估语句的深度学习模型即可。

根据本公开的实施例，使用中英文回译、相似句生成模型生成的方式来构造评估数据，避免了手工标注的操作。

根据本公开的实施例，将第一评估语句输入至相似句生成模型中，可以生成多个初始第二评估语句。可以从多个初始第二评估语句中确定一个初始第二评估语句，作为第二评估语句。例如，初始第二评估语句中涉及表征日期的数字，可以比较初始第二评估语句中的数字与第一评估语句是否相同，将数字相对第一评估语句改变的初始第二评估语句删除，保留与第一评估语句中的数字相同的初始第二评估语句作为第二评估语句。以此避免将包含“5月12日”的第一评估语句和包含“5月13日”的初始第二评估语句作为语义相似的两个语句。利用相似句生成模型生成的第二评估语句，与第一评估语句结合，作为评价模型的训练情况的评估数据，可以保证评估数据的多样性的同时，提高模型评价的精度。

图5示意性示出了根据本公开实施例的交互方法的流程图。

如图5所示，该方法包括操作S510～S540。

在操作S510，接收来自用户的问题。

在操作S520，将问题输入至特征提取模型中，得到语义向量。

在操作S530，从多个语义索引向量中确定与语义向量相匹配的目标索引向量。

在操作S540，基于目标索引向量，确定与问题相匹配的答案。

根据本公开的实施例，特征提取模型是利用深度学习模型的训练方法训练得到的。

根据本公开的实施例，该交互方法可以是检索式的问答交互，也可以是阅读理解式的问答交互。检索式的问答交互可以应用于解决具体领域常见的问题的回答。可以将经常被问到的高频问题进行总结，并针对高频问题建立问答对。通过理解用户的问题，从问答对中找到与用户的问题相近或者等价的一个问答对，将用户的问题对应的答案返回给用户。阅读理解式的问答交互可以应用于无结构化文本中，适合从无结构化文本中寻找答案。与阅读理解式的问答交互相比，检索式的问答交互更有利于答案比较固定的应用场景，例如政策解读的问答交互。

根据本公开的实施例，针对检索式的问答交互，检索方法可以包括如下三种方式。第一种是基于关键词的匹配方法、第二种是基于单词向量表示的匹配方法、第三种是基于语义向量表示的匹配方法。第三种基于语义向量表示的匹配方法，可以利用特征提取模型从问题中提取语义特征，得到语句级别的语义向量。相比于第一种方式和第二种方式，第三种方式可以利用语句级别的语义向量，流程简单，能够实现端到端的交互方式。

图6示意性示出了根据本公开实施例的交互方法的流程示意图。

如图6所示，可以搭建索引引擎610例如Milvus引擎。把预先积累的高频问题620输入至特征提取模型630中，得到多个语义索引向量，语义索引向量可以为256维度。可以将多个语义索引向量保存至装载有索引引擎的问题索引向量库中。

需要说明的是，语义索引向量和语义向量的维度并不局限于256维度，也可以是64维度、128维度、或者768维度。可根据精度的要求来确定语义索引向量和语义向量的维度，精度要求越高，维度越高。

如图6所示，用户640与问答机器人通过语音交互的方式在线问答，问答机器人可以将用户的问题转发至服务器，服务器可以利用特征提取模型630提取问题的语义特征，得到例如256维的语义向量。可以基于语义向量，利用索引引擎610从多个语义索引向量中查询得到Top K(例如K可以取值为10)的目标索引向量。通过映射关系得到目标索引向量的问题的标识。根据问题的标识找到相应的答案650，服务器将答案650返回给问答机器人，问答机器人以语音的方式把答案650反馈给用户640。

根据本公开的实施例，从多个语义索引向量中确定与语义向量相匹配的目标索引向量可以包括：将语义向量与多个语义索引向量一一匹配，确定多个语义索引向量各自与语义向量之间的语义相似度，得到多个相似度结果。对多个相似度结果按照由高到低的顺序进行排序，将排在前K位的作为目标索引向量。

根据本公开的实施例，多个语义索引向量可以与多个高频问题一一对应。可以将多个高频问题输入至特征提取模型中，得到多个语义索引向量。

图7示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。

如图7所示，深度学习模型的训练装置700包括：第一训练模块710、第二训练模块720。

第一训练模块710，用于利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型。

第二训练模块720，用于利用样本语句对训练第一级模型，得到一级目标模型，其中，样本语句对包括语义相同的两个样本语句。

根据本公开的实施例，样本语句对包括第一级样本语句对和第二级样本语句对，第二级样本语句对之间的语义相似度的确定难度等级高于第一级样本语句对之间的语义相似度确定难度等级。

根据本公开的实施例，第二训练模块包括：第一训练单元、第二训练单元。

第一训练单元，用于利用第一级样本语句对训练第一级模型，得到第二级模型。

第二训练单元，用于利用第二级样本语句对训练第二级模型，得到一级目标模型。

根据本公开的实施例，样本语句对包括同义词替换样本语句对和同义实体替换样本语句对。

根据本公开的实施例，第二训练模块包括：第三训练单元、第四训练单元。

第三训练单元，用于利用同义词替换样本语句对训练第一级模型，得到第二级模型。

第四训练单元，用于利用同义实体替换样本语句对训练第二级模型，得到一级目标模型。

根据本公开的实施例，深度学习模型的训练装置还包括：第三训练模块。

第三训练模块，用于利用训练样本集批量训练一级目标模型，得到二级目标模型，其中，训练样本集包括无标注样本语句子集和样本语句对子集，样本语句对子集中的样本语句对包括语义相同的两个样本语句。

根据本公开的实施例，第三训练模块包括：获取单元、数据量确定单元。

获取单元，用于获取初始样本语句对子集，其中，初始样本语句对子集包括以下至少一项：初始同义词替换样本语句对子集、初始同义实体替换样本语句对子集。

数据量确定单元，用于在确定初始样本语句对子集的数据量大于或者等于预定数据量阈值的情况下，将初始样本语句对子集作为样本语句对子集。

根据本公开的实施例，深度学习模型的训练装置还包括：增广模块、确定模块。

增广模块，用于对第一评估语句进行同义句增广处理，得到第二评估语句，其中，同义句增广处理包括以下至少一项：中英文回译、相似句生成模型生成；以及

确定模块，用于利用第一评估语句和第二评估语句评估一级目标模型，得到评估结果。

根据本公开的实施例，第三训练模块包括：第五训练单元。

第五训练单元，用于在确定评估结果满足预定训练条件的情况下，利用训练样本集批量训练一级目标模型，得到二级目标模型。

根据本公开的实施例，第一训练模块包括：失活单元、输入单元、以及第六训练单元。

失活模块，用于对深度学习模型中的隐藏层进行节点随机失活处理，得到具有随机失活功能的深度学习模型。

输入模块，用于将无标注样本语句两次输入至具有随机失活功能的深度学习模型中，得到正样本特征向量对。

第六训练单元，用于利用正样本特征向量对训练深度学习模型，得到第一级模型。

根据本公开的实施例，第一训练模块还包括：长度确定单元、调整单元。

长度确定单元，用于确定初始无标注样本语句的语句长度。

调整单元，用于在确定语句长度满足预定处理条件的情况下，对初始无标注样本语句进行调整处理，得到无标注样本语句。

图8示意性示出了根据本公开实施例的交互装置的框图。

如图8所示，交互装置800包括：接收模块810、提取模块820、匹配模块830、答案确定模块840。

接收模块810，用于接收来自用户的问题。

提取模块820，用于将问题输入至特征提取模型中，得到语义向量。

匹配模块830，用于从多个语义索引向量中确定与语义向量相匹配的目标索引向量。

答案确定模块840，用于基于目标索引向量，确定与问题相匹配的答案。

根据本公开的实施例，特征提取模型是利用本公开实施例提供的深度学习模型的训练装置训练得到的。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例的方法。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如深度学习模型的训练方法、或者交互方法。例如，在一些实施例中，深度学习模型的训练方法、或者交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的深度学习模型的训练方法、或者交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习模型的训练方法、或者交互方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型的训练方法，包括：

利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型；以及

利用样本语句对训练所述第一级模型，得到一级目标模型，其中，所述样本语句对包括第一级样本语句对和第二级样本语句对，所述第二级样本语句对之间的语义相似度的确定难度等级高于所述第一级样本语句对之间的语义相似度确定难度等级；

其中，所述利用样本语句对训练所述第一级模型，得到一级目标模型，包括：

利用所述第一级样本语句对训练所述第一级模型，得到第二级模型；以及

利用所述第二级样本语句对训练所述第二级模型，得到所述一级目标模型。

2.根据权利要求1所述的方法，其中，所述样本语句对包括同义词替换样本语句对和同义实体替换样本语句对；

所述利用样本语句对训练所述第一级模型，得到一级目标模型，包括：

利用所述同义词替换样本语句对训练所述第一级模型，得到第二级模型；以及

利用所述同义实体替换样本语句对训练所述第二级模型，得到所述一级目标模型。

3.根据权利要求1所述的方法，还包括：

利用训练样本集批量训练所述一级目标模型，得到二级目标模型，其中，所述训练样本集包括无标注样本语句子集和样本语句对子集，所述样本语句对子集中的样本语句对包括语义相同的两个样本语句。

4.根据权利要求3所述的方法，其中，所述利用训练样本集批量训练所述一级目标模型，得到二级目标模型，包括：

获取初始样本语句对子集，其中，所述初始样本语句对子集包括以下至少一项：初始同义词替换样本语句对子集、初始同义实体替换样本语句对子集；以及

在确定所述初始样本语句对子集的数据量大于或者等于预定数据量阈值的情况下，将所述初始样本语句对子集作为所述样本语句对子集。

5.根据权利要求4所述的方法，还包括：

对第一评估语句进行同义句增广处理，得到第二评估语句，其中，所述同义句增广处理包括以下至少一项：中英文回译、相似句生成模型生成；以及

利用所述第一评估语句和所述第二评估语句评估所述一级目标模型，得到评估结果。

6.根据权利要求5所述的方法，所述利用训练样本集批量训练所述一级目标模型，得到二级目标模型，包括：

在确定所述评估结果满足预定训练条件的情况下，利用所述训练样本集批量训练所述一级目标模型，得到二级目标模型。

7.根据权利要求1至6中任一项所述的方法，其中，所述利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型，包括：

对所述深度学习模型中的隐藏层进行节点随机失活处理，得到具有随机失活功能的深度学习模型；

将所述无标注样本语句两次输入至所述具有随机失活功能的深度学习模型中，得到正样本特征向量对；以及

利用所述正样本特征向量对训练所述深度学习模型，得到所述第一级模型。

8.根据权利要求1所述的方法，其中，所述利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型，还包括：

确定初始无标注样本语句的语句长度；以及

在确定所述语句长度满足预定处理条件的情况下，对所述初始无标注样本语句进行调整处理，得到所述无标注样本语句。

9.一种交互方法，包括：

接收来自用户的问题；

将所述问题输入至特征提取模型中，得到语义向量；

从多个语义索引向量中确定与所述语义向量相匹配的目标索引向量；

基于所述目标索引向量，确定与所述问题相匹配的答案，

其中，所述特征提取模型是利用根据权利要求1至8中任一项所述的训练方法训练得到的。

10.一种深度学习模型的训练装置，包括：

第一训练模块，用于利用无标注样本语句，通过无监督的对比学习训练方式训练深度学习模型，得到第一级模型；以及

第二训练模块，用于利用样本语句对训练所述第一级模型，得到一级目标模型，其中，所述样本语句对包括第一级样本语句对和第二级样本语句对，所述第二级样本语句对之间的语义相似度的确定难度等级高于所述第一级样本语句对之间的语义相似度确定难度等级；

所述第二训练模块包括：

第一训练单元，用于利用所述第一级样本语句对训练所述第一级模型，得到第二级模型；以及

第二训练单元，用于利用所述第二级样本语句对训练所述第二级模型，得到所述一级目标模型。

11.根据权利要求10所述的装置，其中，所述样本语句对包括同义词替换样本语句对和同义实体替换样本语句对；

所述第二训练模块包括：

第三训练单元，用于利用所述同义词替换样本语句对训练所述第一级模型，得到第二级模型；以及

第四训练单元，用于利用所述同义实体替换样本语句对训练所述第二级模型，得到所述一级目标模型。

12.根据权利要求10所述的装置，还包括：

第三训练模块，用于利用训练样本集批量训练所述一级目标模型，得到二级目标模型，其中，所述训练样本集包括无标注样本语句子集和样本语句对子集，所述样本语句对子集中的样本语句对包括语义相同的两个样本语句。

13.根据权利要求12所述的装置，其中，所述第三训练模块包括：

获取单元，用于获取初始样本语句对子集，其中，所述初始样本语句对子集包括以下至少一项：初始同义词替换样本语句对子集、初始同义实体替换样本语句对子集；以及

数据量确定单元，用于在确定所述初始样本语句对子集的数据量大于或者等于预定数据量阈值的情况下，将所述初始样本语句对子集作为所述样本语句对子集。

14.根据权利要求13所述的装置，还包括：

增广模块，用于对第一评估语句进行同义句增广处理，得到第二评估语句，其中，所述同义句增广处理包括以下至少一项：中英文回译、相似句生成模型生成；以及

确定模块，用于利用所述第一评估语句和所述第二评估语句评估所述一级目标模型，得到评估结果。

15.根据权利要求14所述的装置，所述第三训练模块包括：

第五训练单元，用于在确定所述评估结果满足预定训练条件的情况下，利用所述训练样本集批量训练所述一级目标模型，得到二级目标模型。

16.根据权利要求10至15中任一项所述的装置，其中，所述第一训练模块包括：

失活单元，用于对所述深度学习模型中的隐藏层进行节点随机失活处理，得到具有随机失活功能的深度学习模型；

输入单元，用于将所述无标注样本语句两次输入至所述具有随机失活功能的深度学习模型中，得到正样本特征向量对；以及

第六训练单元，用于利用所述正样本特征向量对训练所述深度学习模型，得到所述第一级模型。

17.根据权利要求10所述的装置，其中，所述第一训练模块还包括：

长度确定单元，用于确定初始无标注样本语句的语句长度；以及

调整单元，用于在确定所述语句长度满足预定处理条件的情况下，对所述初始无标注样本语句进行调整处理，得到所述无标注样本语句。

18.一种交互装置，包括：

接收模块，用于接收来自用户的问题；

提取模块，用于将所述问题输入至特征提取模型中，得到语义向量；

匹配模块，用于从多个语义索引向量中确定与所述语义向量相匹配的目标索引向量；

答案确定模块，用于基于所述目标索引向量，确定与所述问题相匹配的答案，

其中，所述特征提取模型是利用根据权利要求10至17中任一项所述的训练装置训练得到的。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。