CN112507103A

CN112507103A - 任务型对话及模型训练方法、装置、设备和存储介质

Info

Publication number: CN112507103A
Application number: CN202011505708.4A
Authority: CN
Inventors: 鲍思琪; 何煌; 陆华; 王凡; 牛正雨; 吴华; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-16

Abstract

本公开公开了一种任务型对话及模型训练方法、装置、设备和存储介质，涉及计算机技术领域，尤其涉及自然语言处理领域和深度学习领域等人工智能领域。任务型对话方法包括：接收信息；采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息；根据所述信息和所述知识生成回复。本公开可以提高知识选择性能。

Description

任务型对话及模型训练方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及自然语言处理领域和深度学习技术领域等人工智能领域，尤其涉及任务型对话及模型训练方法、装置、设备和存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

任务型对话***是一种以完成任务或动作为目的的人机交互***。现有的任务型对话***，是使用已有的数据库来回答用户的相关问题，这些数据库信息通常是以结构化知识的形式进行存储的。

发明内容

本公开提供了一种任务型对话及模型训练方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种任务型对话方法，包括：接收信息；采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息；根据所述信息和所述知识生成回复。

根据本公开的另一方面，提供了一种知识选择模型的训练方法，包括：获取训练语料，所述训练语料包括训练信息、训练非结构化知识和训练结构化知识，所述训练结构化知识的槽位包括自然语言描述信息；对所述训练语料进行标注；采用标注后的训练语料进行训练，生成知识选择模型。

根据本公开的另一方面，提供了一种回复生成模型的训练方法，包括：获取训练语料，所述训练语料包括训练信息、训练知识和训练回复；采用输入层将所述训练语料转换为输入向量，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识；采用深度学习网络对所述输入向量和所述训练回复对应的输出向量进行训练，生成回复生成模型。

根据本公开的另一方面，提供了一种任务型对话装置，包括：接收模块，用于接收信息；知识选择模块，用于采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息；回复生成模块，用于根据所述信息和所述知识生成回复。

根据本公开的另一方面，提供了一种知识选择模型的训练装置，包括：获取模块，用于获取训练语料，所述训练语料包括训练信息、训练非结构化知识和训练结构化知识，所述训练结构化知识的槽位包括自然语言描述信息；标注模块，用于对所述训练语料进行标注；训练模块，用于采用标注后的训练语料进行训练，生成知识选择模型。

根据本公开的另一方面，提供了一种回复生成模型的训练装置，包括：获取模块，用于获取训练语料，所述训练语料包括训练信息、训练知识和训练回复；转换模块，用于采用输入层将所述训练语料转换为输入向量，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识；训练模块，用于采用深度学习网络对所述输入向量和所述训练回复对应的输出向量进行训练，生成回复生成模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，一方面，提高了任务型对话***的知识选择性能。另一方面，提高了任务型对话***生成的回复的质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开实施例生成的回复生成模型的架构示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开实施例实现的任务对话方法与现有技术的实验结果比较示意图；

图9是根据本公开第七实施例的示意图；

图10是根据本公开第八实施例的示意图；

图11是根据本公开第九实施例的示意图；

图12是用来实现本公开实施例的任务型对话方法、知识选择模型的训练方法、以及回复生成模型的训练方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，任务型对话***是使用已有的数据库来回答用户的相关问题(或上文)，比如，对话***提取问题中的关键词，在数据库查找关键词相关的知识。这些数据库信息通常是以结构化知识的形式进行存储的，比如酒店领域的数据库，通常包括酒店位置、电话、网络、停车场等信息，这些信息槽位是提前设计的，每个领域的槽位信息也是固定的。但在真实应用场景下，用户的问题会很多样，数据库中的有限信息，不足以回答用户广泛的问题。比如用户在定酒店过程中，可能会询问是否可以带宠物，这种信息并未在事先设置的结构化知识中，那对话***就回答不了用户的问题。

相关技术中，即使引入非结构化知识，一般也是提取上文的关键词，基于该关键词判断是否使用结构化知识，在使用结构化知识时采用上述的在数据库中查找的方式，如果经过判断需要使用外部的非结构化知识，那么再引入外部知识，对外部知识排序选择出合适的知识。因此，这种方式的知识选择过程分为两个任务，第一个任务是判断是否需要使用外部的非结构化知识，第二个任务是选择出合适的知识(不需要使用外部的非结构知识时，从已有的结构化数据库中选择，需要使用外部的非结构化知识时，从外部获取)。

基于关键词在数据库中查找相关知识的方式，需要较多的人工标注量，比如，需要事先在数据库中标注结构化知识的各种槽位信息。另外，数据库采用结构化知识，结构化知识的槽位是依据各领域固定的，存在泛化能力差的问题。另外，先判断选择何种知识再进行知识选择的方式，不能同步应用结构化知识和非结构化知识，使得最终选择的知识与上文的匹配性存在一定不足。

为了解决上述的人工标注量大、泛化能力差、匹配性不足的问题，本公开提供如下一些实施例，以提高知识选择性能。如图1所示，为根据本公开第一实施例的示意图。该实施例提供一种任务对话方法，包括：

101、接收信息。

其中，本申请实施例中，信息还可以称为上文(context)，也可以称为上下文，或者称为对话上文、对话上下文。是指对话过程中的对话内容，由于本公开实施例针对生成回复，上文一般是指对话过程中已经发生的内容，但是，可以理解的是，不限于已经发生的对话内容，也可以包括未发生的对话内容。本公开实施例中，上文比如包括用户已经输入的问题等。

102、采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息。

103、根据所述信息和所述知识生成回复。

一般任务型对话过程包括：用户向对话***输入上文(context)->对话***选择与上文匹配的知识(knowledge)->对话***根据上文和知识生成回复(response)->对话***将回复反馈给用户。

上述流程中，用户与对话***之间可以采用文本、语音等形式进行交互，比如，用户采用语音或文本输入上文，对话***采用语音或文本向用户反馈回复，本公开对此不作限定。

对话***可以基于客户端-服务器端的形式实现，客户端部署在用户终端上；服务器端可以设置在对话服务提供方的服务器上，服务器可以是普通服务器或者云端服务器；或者，服务器端也可以设置在用户终端本地以实现离线对话服务。本公开对此不作限定。用户终端的实例本公开也不作限定，比如可以是手机、平板型电脑、数字助理等。客户端的实例本公开也不作限定，比如可以是APP、网页、程序等。

为了解决相关技术中存在的人工标注量大、泛化能力差、匹配性不足的问题，本公开的一些实施例，在知识选择中，基于知识选择模型进行，知识选择模型的输入为上文，输出为与上文匹配的知识。知识选择模型是预训练得到的，训练时采用的训练样本包括结构化知识和非结构化知识，且结构化知识的槽位包括自然语言描述信息。为了与对话阶段区分，训练时的结构化知识和非结构化知识可以称为训练结构化知识和训练非结构化知识。

比如，参见图2，一些实施例中，任务型对话流程包括：对话***接收后用户输入的上文后，基于知识选择模型选择与上文匹配的知识，该知识选择模型采用结构化知识和非结构化知识预训练得到，且结构化知识的槽位包括自然语言描述信息，在图2中该步骤表示为联合结构化知识和非结构化知识的知识选择(201)，在选择出匹配的知识后，根据上文和匹配的知识生成回复，在图2中该步骤表示为回复生成(202)。

一些实施例中，结构化知识的槽位包括自然语言描述信息。相关技术中，结构化知识的槽位是依据特定领域固定的，比如，酒店领域的网络槽位，固定槽位的方式比如用“hotel-network”表示，但是，这种方式难以泛化，比如，火车出行领域的网络槽位就需要更改为“train-network”。而本公开实施例中，对槽位增加了自然语言描述信息，比如，网络槽位可以包括：“名称：网络；描述信息：酒店是否提供网络”。这种描述信息包含了任务型对话***的领域和槽位信息，这种槽位描述的方式，具有很强的泛化能力，不受具体的实体限制，可以快速扩展到新的领域和槽位。

自然语言描述信息相对于固定的结构化知识而言，比如，一种固定的结构化知识包括：实体1(百度)-关系-实体2(公司)，用自然语言描述则为“百度是一家公司”。

本实施例中，知识选择基于知识选择模型进行，相对于关键词查找的方式，可以降低人工标注量。该知识选择模型采用了结构化知识和非结构知识训练得到，可以称为平衡训练。平衡训练由于引入了非结构化知识，相对于仅有结构化知识的方案，可以丰富知识来源，从而可以在更广的知识范围内进行知识选择，提高选择的知识与上文的匹配性。另外，相对于先判断选择何种知识再进行知识选择的方式，本实施例的知识选择模型由于在训练时同步采用了结构化知识和非结构化知识，因此可以同步实现选择何种知识以及知识选择的任务，在知识选择上同步应用了结构化知识和非结构化知识，可以进一步提高选择的知识与上文的匹配性。另外，本实施例中的结构化知识的槽位包括自然语言描述信息，相对于固定领域的槽位标注方式，可以提高泛化性，非常容易应用到未知领域或实体。

上述实施例对知识选择过程进行了说明，知识选择过程采用了知识选择模型，相应地，本公开还提供一些实施例，以训练得到知识选择模型。

图3是本公开第三实施例的示意图。如图3所示，该实施例提供一种知识选择模型训练方法，包括：

301、获取训练语料，所述训练语料包括训练信息、训练非结构化知识和训练结构化知识，所述训练结构化知识的槽位包括自然语言描述信息。

训练信息、训练非结构化知识和训练结构化知识是指训练阶段的信息、非结构化知识、结构化知识。

对于非结构化知识，可以针对数据库中的每个实体(比如“北京中关村皇冠假日酒店”)，从相应实体的网页中抽取了用户常见问题(作为训练上文)及其答案(作为训练非结构化知识)。非结构化知识表示为K₁。

对于结构化知识，针对各个槽位，使用自然语言的形式对这些槽位进行描述，比如酒店数据库中的网络槽位，它相应的描述信息为“酒店是否提供网络”，在这个描述中包含了任务型对话***的领域和槽位信息。这种槽位描述的方式，具有很强的泛化能力，不受具体的实体限制，可以快速扩展到新的领域和槽位。结构化知识表示为K₂。

包括槽位描述信息的结构化知识和非结构化知识，共同组成了知识集合K＝K₁∪K₂。

302、对所述训练语料进行标注。

本实施例中主要标注出正样本和负样本，正样本和负样本包括对应结构化知识的正样本和负样本，以及，对应非结构化知识的正样本和负样本。

具体可以采用如下方式标注：

对应训练上文标注第一正样本和第一负样本，所述第一正样本为训练结构化知识中的正样本，所述第一负样本为训练结构化知识中的负样本，所述第一正样本包括：所述训练上文对应槽位的自然语言描述信息所属的训练结构化知识；所述第一负样本包括：非所述训练上文对应槽位的自然语言描述信息所属的训练结构化知识、同领域或不同领域的训练非结构化知识；

对应所述训练上文标注第二正样本和第二负样本，所述第二正样本为训练非结构化知识中的正样本，所述第二负样本为训练非结构化知识中的负样本，所述第二正样本包括：与所述训练上文对应的训练非结构化知识；所述第二负样本包括：非与所述训练上文对应的训练非结构化知识；同领域或不同领域的槽位包括自然语言描述信息的训练结构化知识。

比如，假设训练上文为酒店网络相关(比如询问酒店是否有网络)，那么第一正样本包括：网络槽位包括自然语言描述信息的结构化知识，比如，一个结构化知识包括“描述：酒店是否有网络”，则该结构化知识可以标注为正样本。第一负样本包括：非网络槽位的包括自然语言描述信息的结构化知识，比如，另一个结构化知识包括“描述：酒店的价格区间是多少”，则由于该槽位是价格槽位不是网络槽位，而训练上文是关于网络的，则与价格对应的该结构化知识可以标注为负样本。另外，对于结构化知识，与训练上文同领域(如酒店)或者不同领域(如订机票)的非结构化知识可以标注为负样本。第二正样本包括：与酒店网络对应的非结构化信息(如酒店的用户评价中涉及酒店网络的信息)。第二负样本包括：其他的非结构化信息(如酒店的用户评价中涉及价格的信息)、与训练上文同领域(如酒店)或者不同领域(如订机票)的槽位包括自然语言描述信息的结构化知识(如上述的网络或价格的自然语言描述槽位的结构化知识)。

本实施例的标注方法可以使得标注结果更准确全面。

一些实施例中，上述的负样本(第一负样本和/或第二负样本)可以是满足上述条件下的随机采样结果。

303、采用标注后的训练语料进行训练，生成知识选择模型。

本公开对训练的网络架构不限定，比如是Transformer网络。Transformer可以实现高效并行化，以加快模型构建速度，并达到良好的模型识别效果。

本实施例中，由于训练语料中包括结构化知识和非结构化知识，对这两种知识一起训练生成知识选择模型，实现了同步训练结构化知识和非结构化知识，同步训练结构化知识和非结构化知识的训练方式可以称为平衡训练。经过平衡训练，可以得到融合了非结构化知识和包括自然语言描述信息的结构化知识的知识选择模型。进而在对话阶段的知识选择时，可以对所有知识进行联合判断，

选出最合适的知识，其中，c表示上文，ki表示知识集合K中的第i个知识，p()是概率运算。这种训练方式仅需要少量的人工标注，且泛化能力较强。即使对于未见领域/实体/用户询问，模型也可以根据非结构化知识和结构化知识的自然语言描述的槽位信息，进行联合全面的分析，选出最合适的知识。

本实施例中，通过训练知识选择模型，可以使得对话阶段的知识选择基于知识选择模型进行，相对于关键词查找的方式，可以降低人工标注量。通过采用结构化知识和非结构知识训练得到知识选择模型，由于引入了非结构化知识，相对于仅有结构化知识的方案，可以丰富知识来源，从而可以在更广的知识范围内进行知识选择，提高选择的知识与上文的匹配性。由于训练语料包括了结构化知识和非结构化知识，可以实现结构化知识和非结构化知识的同步训练，进而在知识选择时可以联合参考结构化知识和非结构化知识，进一步提高选择的知识与上文的匹配性。通过在结构化知识的槽位中包括自然语言描述信息，相对于固定领域的槽位标注方式，可以提高泛化性，非常容易应用到未知领域或实体。

上述实施例对知识选择过程进行了说明，如上所述的任务对话过程，在知识选择之后，还包括回复生成过程。

相关技术中，可以采用基础的Transformer网络生成回复。但是，这种方式，无法准确区分上文、知识和回复，并且，基础的Transformer网络采用单向自注意力(self-attention)机制，这些都会导致回复质量差的问题。

为了解决回复质量差的问题，本公开还提供了如下的实施例。

图4是本公开第四实施例的示意图。如图4所示，该实施例提供一种任务对话方法，包括：

401、接收信息。

402、采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息。

403：采用预训练的回复生成模型，根据所述信息和所述知识生成回复，所述回复生成模型的输入层包括类型向量层，所述类型向量层的输入包括互不相同的上文类型标识、知识类型标识和回复类型标识。

本实施例中，回复生成模型的输入包括：信息、知识和回复，输出为回复。

相关技术中，采用基础的Transformer网络生成回复时，无法准确区分上文和知识，导致生成的回复质量较差。

为此，本公开提供了一些实施例中，该实施例中，对基础的Transformer网络进行微调(finetune)，使之输入向量包括类型向量(type embeddding)，比如，参见图5的左侧图，回复生成模型的输入层包括：type embeddding层。可以理解的是，图5中的词向量(token embedding)层的输出向量、位置向量(position embedding)层的输出向量与本公开实施例新引入的type embeddding层的输出向量相加后作为Transformer网络的输入向量。图5中，以Transformer网络包括L个Transformer块(Transform Block)为例，x1～x5表示回复生成模型的未向量化的输入，在本实施例中，具体包括上文、知识和回复；h1～h5表示回复生成模型的输出向量，在回复生成阶段，经过向量转换后，可以生成最终的回复，比如，选择概率最大的输出向量对应的词作为最终的回复。

type embeddding是相关参数(上文、知识和回复)的类型标识对应的向量，以更好的区分出上文、知识和回复。不同参数的类型标识(type id)不同，比如，回复类型标识为0，上文类型标识为1，知识类型标识(type id)为2。

本实施例中，通过增加类型向量层，类型向量层的输入是互不相同的上文类型标识、知识类型标识和回复类型标识，由于对上文、知识和回复进行了区分，从而可以提高回复的质量。

相关技术中，基础的Transformer网络包括self-attention层，且self-attention层是单向的，单向自注意力机制参考的信息有限，不能很好地提取上文和知识中的信息，从而生成的回复的质量不是很理想。

为了提高生成的回复的质量，本公开还提供一些实施例，这些实施例中，Transformer网络的self-attention层包括两个部分，第一部分和第二部分，第一部分采用双向自注意力机制，第二部分采用单向自注意力机制。如图5的中间图所示是自注意力部分的可视化(Self-attention Visualization)，第一部分是上文(Context)和知识(Knowledge)对应的部分(实线表示的是双向)，第二部分是回复(Response)对应的部分(虚线表示的是单向)。

本实施例中，通过对上文和知识采用双向自注意力机制，可以更好地提取和利用上文和知识中的信息，提高生成的回复的质量。通过对自注意力层的一部分采用双向，另一部分采用单向，而不是全部单向或双向，可以提高灵活性，进一步提高回复的质量。

上述实施例对回复生成过程进行了说明，回复生成过程采用了回复生成模型，相应地，本公开还提供一些实施例，以训练得到回复生成模型。

图6是本公开第五实施例的示意图。如图6所示，该实施例提供一种回复生成模型的训练方法，包括：

601、获取训练语料，所述训练语料包括训练信息、训练知识和训练回复。

602、采用输入层将所述训练语料转换为输入向量，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识。

603、采用深度学习网络对所述输入向量和所述训练回复对应的输出向量进行训练，生成回复生成模型。

训练信息、训练知识和训练回复是指训练阶段的信息、知识和回复。

可以理解的是，回复生成模型在训练阶段和回复生成阶段是相互匹配的，即，两者采用相同或相应的结构，因此，训练阶段的深度学习网络可以如图5的左侧图和中间图所示，即，在输入层包括type embeddding层，深度学习网络还包括Transformer网络，Transformer网络包括自注意力层，且，所述自注意力层包括第一部分和第二部分，所述第一部分是训练上文和训练知识对应的部分，所述第二部分是训练回复对应的部分，所述第一部分采用双向自注意力机制，所述第二部分采用单向自注意力机制。

与模型应用阶段不同，在模型训练阶段，需要确定训练目标以训练出模型参数，以将训练出的模型参数应用到对话阶段。本实施例中，训练目标是最小化负对数似然(negative log-likelihood，NLL)损失(loss)，如图5的右侧图所示，训练目标(TrainingObjectives)是最小化NLL损失。

本实施例中，通过增加类型向量层，类型向量层的输入是互不相同的上文类型标识、知识类型标识和回复类型标识，由于对上文、知识和回复进行了区分，从而可以提高回复的质量。通过对上文和知识采用双向自注意力机制，可以更好地提取和利用上文和知识中的信息，提高生成的回复的质量。通过对自注意力层的一部分采用双向，另一部分采用单向，而不是全部单向或双向，可以提高灵活性，进一步提高回复的质量。

上述实施例分别对对话阶段(知识选择和回复生成)和训练阶段(两个模型的生成)进行了说明。本公开还提供了一些实施例，以整体展示训练阶段和对话阶段。

图7是本公开第六实施例的示意图。如图7所示，该实施例提供一种任务对话方法，包括：

在第一训练阶段，执行知识选择模型的训练过程，包括：

701、获取训练语料，所述训练语料包括训练上文、训练非结构化知识和训练结构化知识，所述训练结构化知识的槽位包括自然语言描述信息。

702、对所述训练语料进行标注。

703、采用标注后的训练语料进行训练，生成知识选择模型。

在第二训练阶段，执行回复生成模型的训练过程，包括：

704、获取训练语料，所述训练语料包括训练上文、训练知识和训练回复。

705、采用输入层将所述训练语料转换为输入向量，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的上文类型标识、知识类型标识和回复类型标识。

706、采用深度学习网络对所述输入向量和所述训练回复对应的输出向量进行训练，生成回复生成模型。

在对话阶段，执行依据上文生成回复的过程，包括：

707、接收上文。

708、采用知识选择模型，选择与所述上文匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息。

709：采用预训练的回复生成模型，根据所述上文和所述知识生成回复，所述回复生成模型的输入层包括类型向量层，所述类型向量层的输入包括互不相同的上文类型标识、知识类型标识和回复类型标识。

本实施例中，各步骤的具体内容可以参见上述实施例中的相关说明，在此不再详述。

为了验证本公开实施例的方案效果，本公开实施例还提供如下实验：

在公开数据集上进行了实验，参见图8，在各个子任务(如下的任务1～任务3)上，本公开实施例的方法相对于现有技术都取得了更优效果(指标值越大，代表效果越好)，各子任务的指标，如Task1的准确率(Precision)、召回率(Recall)等可以沿用现有技术的相应指标，在此不做详述。值得注意的是，本公开实施例通过基于平衡训练的知识选择，可以同步完成任务1&2，无需额外的模型。

任务1(Task1)：判断是否需要使用外部的非结构化知识(Turn Detection)

任务2(Task2)：知识选择(Knowledge Selection)

任务3(Task3)：回复生成(Response Generation)

可以理解的是，训练阶段的执行者以及对话阶段的执行者可以相同或者不同，比如，对话阶段的执行者为对话***提供方，对话***提供方可以采用自身训练得到的模型，即，训练阶段依然由对话***提供方执行，或者，对话***提供方可以采用第三方训练得到的模型，则此时训练阶段可以由相应的第三方提供。以及，第一训练阶段和第二训练阶段的执行者也可以相同或者不同。本公开对此不作限定。另外，第一训练阶段和第二训练阶段只是用于区分不同的训练阶段，并非是时序限定关系，即，第一训练阶段可以先于第二训练阶段执行，或者，第一训练阶段可以后于第二训练阶段执行，或者，第一训练阶段和第二训练阶段并行执行。

本实施例中，一方面，提高了任务型对话***的知识选择性能。另一方面，提高了任务型对话***生成的回复的质量。具体的，通过训练知识选择模型，可以使得对话阶段的知识选择基于知识选择模型进行，相对于关键词查找的方式，可以降低人工标注量。通过采用结构化知识和非结构知识训练得到知识选择模型，由于引入了非结构化知识，相对于仅有结构化知识的方案，可以丰富知识来源，从而可以在更广的知识范围内进行知识选择，提高选择的知识与上文的匹配性。由于训练语料包括了结构化知识和非结构化知识，可以实现结构化知识和非结构化知识的同步训练，进而在知识选择时可以联合参考结构化知识和非结构化知识，进一步提高选择的知识与上文的匹配性。通过在结构化知识的槽位中包括自然语言描述信息，相对于固定领域的槽位标注方式，可以提高泛化性，非常容易应用到未知领域或实体。通过增加类型向量层，类型向量层的输入是互不相同的上文类型标识、知识类型标识和回复类型标识，由于对上文、知识和回复进行了区分，从而可以提高回复的质量。通过对上文和知识采用双向自注意力机制，可以更好地提取和利用上文和知识中的信息，提高生成的回复的质量。通过对自注意力层的一部分采用双向，另一部分采用单向，而不是全部单向或双向，可以提高灵活性，进一步提高回复的质量。

图9是根据本公开第七实施例的示意图。如图9所示，该实施例提供一种任务对话装置，可以包括接收模块901、知识选择模块902和回复生成模块903。其中，接收模块901，用于接收信息；知识选择模块902，用于采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息；回复生成模块903，用于根据所述信息和所述知识生成回复。

一些实施例中，回复生成模块903具体用于：采用预训练的回复生成模型，根据所述信息和所述知识生成回复，所述回复生成模型的输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识。

一些实施例中，所述回复生成模型还包括：Transformer网络。

一些实施例中，所述Transformer网络包括：

自注意力层，所述自注意力层包括第一部分和第二部分，所述第一部分是所述信息和所述知识对应的部分，所述第二部分是所述回复对应的部分，所述第一部分采用双向自注意力机制，所述第二部分采用单向自注意力机制。

一些实施例中，所述知识选择模型包括Transformer网络。

本实施例中，知识选择基于知识选择模型进行，相对于关键词查找的方式，可以降低人工标注量。该知识选择模型采用了结构化知识和非结构知识训练得到，可以称为平衡训练。平衡训练由于引入了非结构化知识，相对于仅有结构化知识的方案，可以丰富知识来源，从而可以在更广的知识范围内进行知识选择，提高选择的知识与上文的匹配性。另外，相对于先判断选择何种知识再进行知识选择的方式，本实施例的知识选择模型由于在训练时同步采用了结构化知识和非结构化知识，因此可以同步实现选择何种知识以及知识选择的任务，在知识选择上同步应用了结构化知识和非结构化知识，可以进一步提高选择的知识与上文的匹配性。另外，本实施例中的结构化知识的槽位包括自然语言描述信息，相对于固定领域的槽位标注方式，可以提高泛化性，非常容易应用到未知领域或实体。本实施例中，通过增加类型向量层，类型向量层的输入是互不相同的上文类型标识、知识类型标识和回复类型标识，由于对上文、知识和回复进行了区分，从而可以提高回复的质量。本实施例中，通过对上文和知识采用双向自注意力机制，可以更好地提取和利用上文和知识中的信息，提高生成的回复的质量。通过对自注意力层的一部分采用双向，另一部分采用单向，而不是全部单向或双向，可以提高灵活性，进一步提高回复的质量。

图10是根据本公开第八实施例的示意图。如图10所示，该装置提供一种知识选择模型的生成装置，可以包括获取模块1001、标注模块1002和训练模块1003。其中，获取模块1001，用于获取训练语料，所述训练语料包括训练信息、训练非结构化知识和训练结构化知识，所述训练结构化知识的槽位包括自然语言描述信息；标注模块1002，用于对所述训练语料进行标注；训练模块1003，用于采用标注后的训练语料进行训练，生成知识选择模型。

一些实施例中，标注模块1002具体用于：

对应训练信息标注第一正样本和第一负样本，所述第一正样本为训练结构化知识中的正样本，所述第一负样本为训练结构化知识中的负样本，所述第一正样本包括：所述训练信息对应槽位的自然语言描述信息所属的训练结构化知识；所述第一负样本包括：非所述训练信息对应槽位的自然语言描述信息所属的训练结构化知识、同领域或不同领域的训练非结构化知识；

对应所述训练信息标注第二正样本和第二负样本，所述第二正样本为训练非结构化知识中的正样本，所述第二负样本为训练非结构化知识中的负样本，所述第二正样本包括：与所述训练信息对应的训练非结构化知识；所述第二负样本包括：非与所述训练信息对应的训练非结构化知识；同领域或不同领域的槽位包括自然语言描述信息的训练结构化知识。

一些实施例中，训练模块1003具体用于：基于Transformer网络，采用标注后的训练语料进行训练，生成知识选择模型。

图11是根据本公开第九实施例的示意图。如图11所示，该装置可以包括获取模块1101、转换模块1102和训练模块1103。其中，获取模块1101，用于获取训练语料，所述训练语料包括训练信息、训练知识和训练回复；转换模块1102，用于采用输入层将所述训练语料转换为输入向量，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识；训练模块1103，用于采用深度学习网络对所述输入向量和所述训练回复对应的输出向量进行训练，生成回复生成模型。

一些实施例中，所述深度学习网络包括：Transformer网络。

一些实施例中，所述Transformer网络包括：

自注意力层，所述自注意力层包括第一部分和第二部分，所述第一部分是所述训练信息和所述训练知识对应的部分，所述第二部分是所述训练回复对应的部分，所述第一部分采用双向自注意力机制，所述第二部分采用单向自注意力机制。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

电子设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如任务对话方法、知识选择模型的训练方法、或者，回复生成模型的训练方法。例如，在一些实施例中，任务对话方法、知识选择模型的训练方法、或者，回复生成模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的任务对话方法、知识选择模型的训练方法、或者，回复生成模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行任务对话方法、知识选择模型的训练方法、或者，回复生成模型的训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种任务型对话方法，包括：

接收信息；

采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息；

根据所述信息和所述知识生成回复。

2.根据权利要求1所述的方法，其中，所述根据所述信息和所述知识生成回复，包括：

采用预训练的回复生成模型，根据所述信息和所述知识生成回复，所述回复生成模型包括输入层，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识。

3.根据权利要求2所述的方法，其中，所述回复生成模型还包括：

与所述输入层连接的Transformer网络。

4.根据权利要求3所述的方法，其中，所述Transformer网络包括：

5.根据权利要求1所述的方法，其中，所述知识选择模型包括Transformer网络。

6.一种知识选择模型的训练方法，包括：

获取训练语料，所述训练语料包括训练信息、训练非结构化知识和训练结构化知识，所述训练结构化知识的槽位包括自然语言描述信息；

对所述训练语料进行标注；

采用标注后的训练语料进行训练，生成知识选择模型。

7.根据权利要求6所述的方法，其中，所述对所述训练语料进行标注，包括：

8.根据权利要求6所述的方法，其中，所述采用标注后的训练语料进行训练，生成知识选择模型，包括：

基于Transformer网络，采用标注后的训练语料进行训练，生成知识选择模型。

9.一种回复生成模型的训练方法，包括：

获取训练语料，所述训练语料包括训练信息、训练知识和训练回复；

采用输入层将所述训练语料转换为输入向量，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识；

采用深度学习网络对所述输入向量和所述训练回复对应的输出向量进行训练，生成回复生成模型。

10.根据权利要求9所述的方法，其中，所述深度学习网络包括：

Transformer网络。

11.根据权利要求10所述的方法，其中，所述Transformer网络包括：

12.一种任务型对话装置，包括：

接收模块，用于接收信息；

知识选择模块，用于采用知识选择模型，选择与所述信息匹配的知识，所述知识选择模型采用结构化知识和非结构化知识预训练得到，所述结构化知识的槽位包括自然语言描述信息；

回复生成模块，用于根据所述信息和所述知识生成回复。

13.根据权利要求12所述的装置，其中，所述回复生成模块具体用于：

14.根据权利要求13所述的装置，其中，所述回复生成模型还包括：

与所述输入层连接的Transformer网络。

15.根据权利要求14所述的装置，其中，所述Transformer网络包括：

16.根据权利要求12所述的装置，其中，所述知识选择模型包括Transformer网络。

17.一种知识选择模型的训练装置，包括：

获取模块，用于获取训练语料，所述训练语料包括训练信息、训练非结构化知识和训练结构化知识，所述训练结构化知识的槽位包括自然语言描述信息；

标注模块，用于对所述训练语料进行标注；

训练模块，用于采用标注后的训练语料进行训练，生成知识选择模型。

18.根据权利要求17所述的装置，其中，所述标注模块具体用于：

19.根据权利要求17所述的装置，其中，所述训练模块具体用于：

20.一种回复生成模型的训练装置，包括：

获取模块，用于获取训练语料，所述训练语料包括训练信息、训练知识和训练回复；

转换模块，用于采用输入层将所述训练语料转换为输入向量，所述输入层包括类型向量层，所述类型向量层的输入包括互不相同的信息类型标识、知识类型标识和回复类型标识；

训练模块，用于采用深度学习网络对所述输入向量和所述训练回复对应的输出向量进行训练，生成回复生成模型。

21.根据权利要求20所述的装置，其中，所述深度学习网络包括：

Transformer网络。

22.根据权利要求21所述的装置，其中，所述Transformer网络包括：

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5或者6-8或者9-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5或者6-8或者9-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5或者6-8或者9-11中任一项所述的方法。