CN113703883A

CN113703883A - 一种交互方法和相关装置

Info

Publication number: CN113703883A
Application number: CN202110352450.7A
Authority: CN
Inventors: 陆笛; 周霄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-11-26

Abstract

本申请实施例公开了一种交互方法和相关装置，至少涉及人工智能中的自然语言处理技术，包括：通过交互界面获取用户的输入信息；根据不同类型的N个生成模型分别生成对应输入信息的N个回复内容，N≥2；根据N个回复内容中的M个回复内容确定组合回复内容，M个回复内容所包含的内容具有不同的内容侧重，N≥M≥2；通过交互界面向用户返回组合回复内容。由此，相比于仅将通过一个生成模型获得的回复内容，组合回复内容中不同内容侧重的内容信息可以相互补充，使得组合回复内容涵盖用户所需内容的概率更高，提高了组合回复内容的答案命中率，进而提高了人机交互的轮次。

Description

一种交互方法和相关装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种交互方法和相关装置。

背景技术

随着人工智能技术的发展，人机智能交互的应用场景越来越多，例如问答***、智能聊天***等应运而生，用户可以通过输入语义内容从交互***获取所需信息。

为了准确响应用户输入的语义内容，一般通过独立建模的回复生成模型来根据该语义内容生成对应的回复内容，以此回复用户实现交互。

然而这种方式所生成的回复内容较为生硬、局限，常常难以满足用户的交互需求，降低了人机交互的交互轮次。

发明内容

为了解决上述技术问题，本申请提供了一种交互方法和相关装置，用于提高人机交互的交互轮次。

本申请实施例公开了如下技术方案：

一方面，本申请提供一种交互方法，所述方法包括：

通过交互界面获取用户的输入信息；

根据不同类型的N个生成模型分别生成对应所述输入信息的N个回复内容，N≥2；

根据所述N个回复内容中的M个回复内容确定组合回复内容，所述M个回复内容所包含的内容具有不同的内容侧重，N≥M≥2；

通过所述交互界面向所述用户返回所述组合回复内容。

另一方面，本申请提供一种交互装置，所述装置包括：获取单元、生成单元、确定单元和返回单元；

所述获取单元，用于通过交互界面获取用户的输入信息；

所述生成单元，用于根据不同类型的N个生成模型分别生成对应所述输入信息的N个回复内容，N≥2；

所述确定单元，用于根据所述N个回复内容中的M个回复内容确定组合回复内容，所述M个回复内容所包含的内容具有不同的内容侧重，N≥M≥2；

所述返回单元，用于通过所述交互界面向所述用户返回所述组合回复内容。

另一方面，本申请提供一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，通过交互界面获取用户的输入信息后，根据N个生成模型分别生成对应于输入信息的N个回复内容，由于N个生成模型的具有不同的类型，不同类型的生成模型在生成回复内容时，所采用的生成逻辑或者数据来源会有所区别，从而导致这N个生成模型基于同一个输入信息分别生成回复内容时，不同回复内容可能会因为模型类型的区别导致内容侧重有所不同，从而可以从N个回复内容中选取M个回复内容确定组合回复内容，M个回复内容所包含的内容具有不同的内容侧重，使得组合回复内容所包含的内容具有多种内容侧重，包括了更多的内容信息。将组合回复内容通过交互界面返回给用户。由此，相比于仅将通过一个生成模型获得的回复内容，组合回复内容中不同内容侧重的内容信息可以相互补充，使得组合回复内容涵盖用户所需内容的概率更高，提高了组合回复内容的答案命中率，进而提高了人机交互的轮次。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种生成回复内容的示意图；

图2为本申请实施例提供的一种交互方法的应用场景示意图；

图3为本申请实施例提供的一种交互方法的流程图；

图4为本申请实施例提供的一种智能对话产品的示意图；

图5为本申请实施例提供的一种智能对话产品的示意图；

图6为本申请实施例提供的一种智能对话产品的示意图；

图7为本申请实施例提供的一种连贯性分类模型的示意图；

图8为本申请实施例提供的一种连贯性分类模型的示意图；

图9为本申请实施例提供的一种交互方法的应用场景示意图；

图10为本申请实施例提供的一种交互装置的结构示意图；

图11为本申请实施例提供的一种服务器的结构示意图；

图12为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

参见图1，图1为一种生成回复内容的示意图。交互***接收用户输入(query)后，会对用户输入进行上游预处理(perception)，对用户输入进行命名实体识别(NamedEntity Recognition，NER)、实体链接、上下文历史信息检索、意图识别与多标签获取、用户画像获取等上游处理，从而获得用户输入对语义理解的结构化信息，并把这些信息传递给智能体(Agent)。其中，交互***中的智能体能够对用户的输入信息生成回复，每一个智能体对应一个独立建模的生成模型。

由于不同的智能体之间特点、优势、所使用的数据来源等不同，为了便于管理，一般将智能体视为独立、互斥的，把不同智能体生成的回复内容作为候选回复内容(召回过程)，通过排序模型将排序为第一名的回复内容作为最终的回复内容(排序过程)。这样的建模方式，实际上是把生成最终的回复内容的过程建模成一个推荐***(召回-排序)，其实质是根据一个智能体生成回复内容，对应一种生成回复内容的策略。但是人类在思考问题对应答案的过程，不会仅局限于一种生成答案的策略，即前述建模的推荐***不符合人类会话的思考方式，所生成的回复内容较为生硬、局限，常常难以满足用户的交互需求，降低了人机交互的交互轮次。

基于此，本申请实施例提供一种交互方法和相关装置，用于生成符合人类会话思考方式的回复内容，使得用户愿意和交互***不断进行交互，提高人机交互的交互轮次。

本申请实施例提供的交互方法是基于人工智能实现的，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

本申请提供的交互方法可以应用于具有数据处理能力的交互设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表、车载智能语音设备等，但并不局限于此；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

该交互设备可以具备语音处理技术能力。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

该交互设备可以具备自然语言处理技术能力。自然语言处理(Nature Languageprocessing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器人问答、知识图谱等技术。

该交互设备可以具备机器学习能力。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例提供的交互方法中，采用的人工智能模型主要涉及对自然语言处理技术的应用，通过自然语言处理技术中例如语义理解、机器人问答等方法对用户的输入信息生成组合回复内容。

为了便于理解本申请的技术方案，下面结合实际应用场景，以服务器作为交互设备对本申请实施例提供的交互方法进行介绍。

参见图2，图2为本申请实施例提供的一种交互方法的应用场景示意图。在图2所示的应用场景中，前述所述的交互***为服务器210，用于对用户的输入信息生成组合回复内容。其中，输入信息为query，可以是文本、语音、手写等形式的信息，组合回复内容为用户所需的针对输入信息的回复内容，可以是文本、语音等形式的信息。

在实际应用中，用户通过交互界面从服务器中获取组合回复内容。其中，交互界面可以是显示界面，也可以是非显示界面，本申请对此不做具体限定。例如，若交互界面是显示界面，用户可以在显示界面中键入输入信息，并在显示界面中查看组合回复内容。若交互界面是非显示界面，用户可以通过语音等方式发送输入信息，并通过语音等方式获得组合回复内容。

在图2所示的应用场景中，交互界面220为显示界面，用户在交互界面220中键入输入信息“怀念赵老师”。服务器210通过交互界面220获得用户的输入信息“怀念赵老师”。在服务器210中，包括三个生成模型(Agent)，分别为生成模型A、生成模型B和生成模型C，三个生成模型的类型不同。由于不同类型的生成模型在生成回复内容时，所采用的生成逻辑或者数据来源会有所区别，从而导致这三个生成模型基于同一个输入信息会分别生成不同的回复内容。

例如，将输入信息“怀念赵老师”分别输入至三个生成模型中，通过生成模型A会获得回复内容“赵老师啊。”，通过生成模型B会获得回复内容“总有很多美好值得怀念。”，通过生成模型C会获得回复内容“赵老师的主持功底非常好，是一代人的记忆。”。

三个回复内容所包含的内容具有不同的内容侧重，服务器210可以从三个回复内容中选择两个或三个回复内容确定为组合回复内容，如将“总有很多美好值得怀念。”与“赵老师的主持功底非常好，是一代人的记忆。”确定为组合回复内容“总有很多美好值得怀念，赵老师的主持功底非常好，是一代人的记忆。”，使得组合回复内容所包含的内容具有两种内容侧重，包括了更多的内容信息。

服务器210将组合回复内容“总有很多美好值得怀念，赵老师的主持功底非常好，是一代人的记忆。”通过交互界面220展示给用户。

由此，该组合回复内容的生成过程实质是根据多个生成模型共同生成的回复内容，对应多种生成回复内容的策略，所生成的回复内容更加符合人类会话思考方式，相比于仅将通过一个生成模型获得的回复内容，组合回复内容中不同内容侧重的内容信息可以相互补充，使得组合回复内容涵盖用户所需内容的概率更高，提高了组合回复内容的答案命中率，使得用户愿意和交互***不断进行交互，提高人机交互的轮次。

下面结合附图，以服务器作为交互设备，对本申请实施例提供的一种交互方法进行介绍。

参见图3，图3为本申请实施例提供的一种交互方法的流程图。如图2所示，该交互方法包括以下步骤：

S301：通过交互界面获取用户的输入信息。

随着人工智能技术的发展，以对话为载体的智能对话产品越来越多，智能对话产品中使用了交互设备。例如，图4所示的具有智能语音助手的智能音箱，图5所示的具有在线语音交互***的平台，图6所示的具有对话机器人的聊天应用(application，APP)等等。通过智能对话产品，用户可以与交互***实现对话交流。

在实际应用中，用户将输入信息输入至交互界面中，通过交互界面发送给服务器。其中，交互界面为连接用户和服务器的媒介，可以根据智能对话产品的需要将其设置为显示界面或者设置为非显示界面，本申请对此不做具体限定。输入信息可以是文本、语音、手写等形式的信息，也可以根据智能对话产品的需要设置一种或多种。

S302：根据不同类型的N个生成模型分别生成对应输入信息的N个回复内容。

服务器中一般包括多个生成模型，即N≥2，生成模型为前述所述智能体(Agent)。多个生成模型的类型不同，不同类型的生成模型在生成回复内容时，所采用的生成逻辑或者数据来源会有所区别，从而导致不同类型的生成模型基于同一个输入信息会分别生成不同的回复内容。由此，将用户的输入信息分别输入至N个生成模型中，可以获得N个回复内容。

下面以服务器包括三个生成模型为例进行说明。三个生成模型分别为检索式对话模型、生成式对话模型和主动式对话模型。当输入信息为“怀念赵老师”，通过三个生成模型生成的三个回复内容如表1所示。

表1

其中，检索式对话模型一般基于匹配或检索的方式，从预先设置的问答(query-answer，QA)库中获得回复内容，擅长承接用户的输入信息，而且由于检索库是预先设置的，生成的回复内容安全可控。

生成式对话模型可以通过大规模用户的输入信息样本训练语言模型，使其可以预测回复内容，该语言模型依赖输入信息样本的质量以及多样性，生成的回复内容相较于检索式更多样，但其回复内容的信息量不足、可控性不佳，尤其生成敏感的、负面的回复内容会造成严重负面影响。

主动式对话模型一般基于外部数据以及用户画像，通过话术模版或规则生成用户感兴趣的话题回复，引导对话进行，即该种方式擅长通过模版或规则发起用户话题，但是承接输入信息的能力不如检索式对话模型和生成式对话模型。

基于此，不同的生成模型会生成不同的回复内容，不同回复内容的内容侧重有所区别。

相关技术中，会将通过N个成成模型生成的N个回复内容进行排序，将排序为第一名的回复内容作为最终的回复内容。其实质是根据一个生成模型生成回复内容，即通过一种生成策略生成回复内容。但是人类在思***的过程中，不会仅局限于一种生成策略，故根据相关技术生成的回复内容常常难以满足用户的交互需求，降低了人机交互的交互轮次。而且，由于只能取一个生成模型生成的回复内容作为最终回复内容，无法利用不同生成模型的优势。

S303：根据N个回复内容中的M个回复内容确定组合回复内容。

为了提高人机交互的轮次，从N个回复内容中选取M个回复内容，根据M个回复内容确定组合回复内容，将组合回复内容最为最终的回复内容。M个回复内容通过M个生成模型获得，通过多种生成策略生成组合回复内容，其中，N≥M≥2。

由此，根据M个回复内容确定组合回复内容，生成组合回复内容的过程不局限于一种生成策略，使得该生成过程更加符合人类会话的思考方式。

同时，将不同生成模型生成的回复内容视为非互斥、可互补的关系，使得组合回复内容利用了不同生成模型的优势，所包含的内容具有多种内容侧重，不同内容侧重的内容信息可以相互补充，使得组合回复内容包括了更多的内容信息，涵盖用户所需内容的概率更高，提高了组合回复内容的答案命中率，进而提高了人机交互的轮次。

其中，组合回复内容为M个回复内容的组合信息，通过融合M个回复内容获得，本申请对融合方式不做具体限定。下面以两种方式为例进行说明。

方式一：拼接方式。

将M个回复内容拼接获得组合回复内容，下面以表1的例子为例继续进行说明。

若从3个回复内容中选取2个回复内容确定组合回复内容，最多可以有6种拼接方式，参见表2。

表2

通过拼接方式可以快速的融合M个回复内容，在使生成的组合回复内容符合人类思维的同时，减少了用户等待的时间，提升了人机交互的交互轮次。

方式二：端到端(end-to-end)方式。

端到端方式，其实就是从模型的输入端到输出端，不需要经过预处理或者后处理手段，原始数据进入网络后获得输出结果。在本申请的实施例中，输入端为根据M个回复内容拼接后的回复内容，输出端输出流畅的融合结果。例如，在输入端输入“赵老师啊，总有很多美好值得怀念”，输出端可以输出“我们有很多关于赵老师的美好去怀念”。

通过端到端方式，能够捕获输入信息中更多的统计信息，降低了主观性，提高了组合回复内容的客观性。

需要说明的是，根据M个回复内容确定组合回复内容不仅可以采用如前述标所示的枚举的方式获得，还可以通过其他方式获得，本申请对此不做具体限定。下面以两种方式为例进行说明。其中，基于数据来源的方式与基于语义的方式可以单独使用，也可以组合使用。

方式一：基于数据来源的方式。

N个回复内容是根据N个生成模型获得的，不同生成模型在生成回复内容所使用的数据来源可能不同，例如，数据来源可以为内部数据、外部数据、第一内容种类数据、第二内容种类数据等等，根据不同数据来源生成的回复内容的侧重点差异可能较大，回复内容之间互补的可能性更大，由此，可以从N个回复内容中基于生成模型不同的数据来源选取M个回复内容，使得M个回复内容包括根据不同的数据来源生成的回复内容，从而使得根据M个回复内容确定的组合回复内容涵盖用户所需内容的概率更高，提高了组合回复内容的答案命中率，进而提高了人机交互的轮次。

其中，内部数据为在生成回复内容时，预先设置的数据，如QA库等，通过搜索预先设置的数据获得回复内容。外部数据为在生成回复内容时，根据从互联网获取的数据获得回复内容。第一内容种类数据和第二内容种类数据的内容种类不同。

下面以内部数据和外部数据为例，对确定组合回复内容的方式进行说明。

N个生成模型中至少包括第一类模型和第二类模型两种模型，其中第一类模型通过外部数据生成回复内容，第二类模型通过内部数据生成回复内容。在从N个回复内容中选取M个回复内容时，M个回复内容至少包括根据第一类模型生成的回复内容和根据第二类模型生成的回复内容。例如，在表1所示的例子中，从3个回复内容中选取根据生成式对话模型和根据主动式对话模型生成的2个回复内容，其中第一类模型为主动式对话模型，第二类模型为生成式对话模型。

由于两类模型在生成回复内容所使用的数据来源不同，例如，主动式对话模型使用外部数据生成回复内容，生成式对话模型使用内部数据生成回复内容。故两类模型生成的回复内容之间互补的可能性更大，使得根据M个回复内容确定的第一待定内容组合可以包括涵盖用户所需内容的概率更高，提高了第一待定内容组合的答案命中率。

由此，根据N个回复内容可以选取多个M个回复内容的组合，从而得到多个第一待定内容组合，从多个第一待定内容组合中确定组合回复内容。组合回复内容可以是一个第一待定内容，也可以是多个第一待定内容，本申请对此不做具体限定。

方式二：基于语义的方式。

为了使得回复内容之间互补的可能性更大，还可以基于回复内容的语义从N个回复内容中选取在语义上存在不同的M个回复内容，从而使得根据M个回复内容确定的组合回复内容涵盖用户所需内容的概率更高，提高了组合回复内容的答案命中率，进而提高了人机交互的轮次。

根据M个回复内容可以确定第二待定内容组合，根据N个回复内容可以选取多个M个回复内容的组合，从而得到多个第二待定内容组合。将第二待定内容组合输入至内容分类模型中，通过内容分类模型可以获得第二待定内容组合的内容侧重参数，该内容侧重参数用于标识第二待定内容组合中M个回复内容间的内容重复程度。将内容侧重参数满足预设条件的第二待定内容组合确定为组合回复内容。

例如，第二待定内容组合有2个，分别为根据回复内容A和回复内容B确定的第二待定内容组合a，以及根据回复内容A和回复内容C确定的第二待定内容组合b。将2个待定内容组合输入至内容分类模型中，获得回复内容A和回复内容B的内容重复程度为95％，第二待定内容组合a的内容侧重参数为95％，回复内容A和回复内容C的内容重复程度为60％，第二待定内容组合b的内容侧重参数为60％。预设条件为内容侧重参数小于70％，则将第二待定内容组合b确定为组合回复内容。组合回复内容可以是一个第二待定内容，也可以是多个第二待定内容，本申请对此不做具体限定。

本申请实施例不具体限定预设条件的内容，例如，预设条件为内容侧重参数小于预设值，或者预设条件为内容参数符合预设区间，又或者预设条件为内容参数最小等等。

其中，内容分类模型为预先训练的，用于判断两个回复内容之间的重复程度。下面对内容分类模型的训练过程进行说明。

获取内容组合样本，该内容组合样本包括M个样本内容，以及标识该M个内容间是否具有不同内容侧重的样本标签，将M个样本内容输入至初始分类模型，获得M个样本内容间的内容重复程度，以及是否具有不同内容侧重的结果，根据M个样本内容间是否具有不同内容侧重的结果与标识该M个内容间是否具有不同内容侧重的样本标签的差异调整初始分类模型，得到内容分类模型。

S304：通过交互界面向用户返回组合回复内容。

在获得组合回复内容后，可以通过交互界面向用户返回组合回复内容。该组合回复内容可以是文本、语音等形式的信息。例如，将表2中的“总有很多美好值得怀念，赵老师的主持功底非常好，是一代人的记忆。”作为组合回复内容，通过交互界面以文字的形式展示给用户。

在实际应用中，返回给用户的组合回复内容虽然具有多种内容侧重，包括了更多的内容信息，但是有的组合回复内容的可读性较低，使得用户的阅读体验较差。基于此，在向用户返回组合回复内容之前，可以先确定组合回复内容的可读性，将可读性较高的组合回复内容返回给用户，从而提高用户的阅读体验，进一步提高人机交互的交互轮次。

可以通过确定组合回复内容的连贯性参数确定组合回复内容的可读性，该连贯性参数用于标识组合回复内容在语义上的连贯程度，若组合回复内容在语义上的连贯程度较高，则该组合回复内容的可读性较高。

若连贯性参数满足连贯性条件，说明该连贯性参数对应的组合回复内容的可读性较高，可以执行S304，将该组合回复内容返回给用户。本申请实施例不具体限定连贯性条件的内容，例如，可以为连贯性参数大于连贯性阈值，可以为连贯性参数排序第一名等。

若连贯性参数不满足连贯性条件，说明该连贯性参数对应的组合回复内容的可读性较低，为了不降低用户的阅读体验，不能将该组合回复内容返回给用户。由此，可以选择可读性较高的内容返回给用户，例如，可以选择其他可读性较高的组合回复内容通过交互界面返回给用户。又如，虽然M个回复内容虽然难以满足用户的交互需求，但是M个回复内容的可读性较高，从N个组合回复内容中确定目标回复内容，如该目标回复内容可以是通过图1所示的排序模型排序后第一名的回复内容等，将目标回复内容通过交互界面返回给用户。

本申请实施例不具体限定确定组合回复内容连贯性参数的具体方式，例如，若组合回复内容包括通过分隔符确定的多个分句，如M个回复内容之间通过分隔符隔开等，分隔符可以为逗号“，”或者SEP分隔符号(一种编程语言的分隔符号)等。根据多个分句确定组合回复内容的语义向量，将语义向量输入至连贯性分类模型中，通过连贯性分类模型确定用于标识分句间在语义上连贯程度的连贯性参数。

本申请实施例不具体限定连贯性分类模型，下面以连贯性分类模型为句子对分类模型(Sentence Pair Classification)为例，结合表1所示的例子进行说明。

参见图7，图7为本申请实施例提供的一种连贯性分类模型的示意图。将通过主动式对话模型、生成式对话模型和检索式对话模型生成的3个回复内容输入至句子对分类模型进行预测，可以两两组合进行输入，也可以三个组合进行输入，本申请对此不做具体限定。

通过句子对分类模型可以确定组合回复内容的连贯性参数，若通过主动式对话模型和检索式对话模型生成的2个回复内容确定的组合回复内容，其连贯性参数满足连贯性条件，可以输出该组合回复内容，用于执行前述S304。若确定的组合回复内容，其连贯性参数不满足连贯性条件，可以输出3个回复内容中排序第一名的通过主动式对话模型生成的回复内容。

其中，句子对分类模型(Sentence Pair Classification)可以采用基于变形的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)模型、基于生成已训练变换(Generative Pre-trained Transformer，GPT)模型的GPT2、GPT3等延伸模型为基础模型，组合回复内容的分句之间采用分隔符分割后作为整体输出模型进行训练或预测。

参见图8，如图8为本申请实施例提供的一种连贯性分类模型的示意图。以句子分类模型为BERT模型，组合回复内容包括两个分句为例进行说明。

两个分句通过SEP分隔符进行分割，并将每一个分句拆分为多个字或词，例如将第一个分句拆分为x个分词Tok1至Tokx，将第二个分句拆分为y个分词Tok1至Toky，数值x和y可以相等，也可以不相等，本申请对此不做具体限定。

除此之外，BERT模型还在组合回复内容前***一个CLS符号，并将该符号对应的输出向量作为组合回复内容的语义表示，用于确定组合回复内容多个分句之间是否连贯，具体可以理解为：与组合回复内容中已有的其它字或词相比，这个无明显语义信息的符号会更公平地融合组合回复内容中各个字或词的语义信息。

BERT模型可以将CLS符号编码为向量E_CLS，将SEP符号编码为向量E_SEP，将x个分词Tok1至Tokx编码为向量E₁至E_x，将y个分词Tok1至Toky编码为E‘1至E‘y，最后将向量E_SEP解码为T_SEP，将向量E₁至E_x解码为向量T₁至T_x，将向量E‘1至E‘y解码为向量T‘1至T‘y，将向量E_CLS解码获得对应的分类结果C，即第一个分句与第二个分句在语义上是否连贯。

作为一种可能的实现方式，除了采用BERT模型外，还可以采用了基于BERT模型改良的知识增强的语义表示(Enhanced Representation from kNowledge IntEgration，ERNIE)模型，以及将BERT模型的输出作为组合回复内容的分句之间的表示，输入循环神经网络(Recurrent neural network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)、区域卷积神经网络(Region-CNN，RCNN)、深堆砌卷积神经网络(Deep Pyramid CNN，DPCNN)等模型。每个模型的实验效果如表3所示。

表3

模型	准确率	召回率	综合指标
				BERT	0.9503	0.9519	0.9509
ERNIE	0.9504	0.9500	0.9502
				BERT+RNN	0.9223	0.9150	0.8861
BERT+CNN	0.9530	0.9537	0.9533
				BERT+RCNN	0.9529	0.9526	0.9528
BERT+DPCNN	0.9515	0.9507	0.9511

其中，综合指标为综合准确率和召回率的指标。实验表明，对基于M个回复内容确定的组合回复内容的连贯性进行判别，BERT+CNN模型的判别效果最佳。

作为一种可能的实现方式，为了保证组合回复内容的可控性，可以确定组合回复内容中是否包括敏感内容文本，如与政治人物的相关事情等，若组合回复内容中包括敏感内容文本，可以将组合回复内容中的敏感文本进行去敏感处理，例如，将组合回复内容去敏感处理为“我知道他很出名啊”、“XXX是政治人物，我不太懂政治，嘤嘤嘤”等。然后通过交互界面向用户返回去敏感处理后的组合回复内容。

接下来，以用户输入“怀念赵老师”，交互设备为服务器为例对本申请实施例提供的交互方法进行说明。在本应用场景中，服务器中包括三个生成模型，分别为检索式对话模型、主动式对话模型和生成式对话模型。

在实际应用中，用户在交互界面中输入“怀念赵老师”，服务器通过交互界面获取用户的输入信息“怀念赵老师”。服务器根据三个生成模型分别生成对应“怀念赵老师的”三个回复内容，如表1所示。

服务器通过前述基于数据来源的方式选择从三个回复内容中选择两个回复内容，即根据主动式对话模型生成的回复内容(外部数据来源)，以及根据检索式对话模型生成的回复内容(内部数据来源)。

在融合阶段采用拼接方式，将根据主动式对话模型生成的回复内容与根据检索式对话模型生成的回复内容前后拼接起来。其中，通过主动式对话模型发起用户话题能力更强，且外部信息丰富，能有效利用外部有时效的数据生成用户感兴趣的话题回复，引导对话进行，缺点是与用户输入的承接性稍有不足，而检索式对话模型恰好可以弥补主动式对话模型对话的相关性、承接通顺的问题，获得承接性好、信息丰富且相关的组合回复内容。

故可以先由检索式对话模型生成的回复内容承接上文用户输出，再由主动式对话模型负责利用外部数据来源针对用户画像发起话题，从而确定组合回复内容为“总有很多美好值得怀念，赵老师的主持功底非常好，是一代人的记忆”。

为了验证效果进行了A/B测试对照实验，将小部分用户请求进入具有本申请实施例交互设备的服务器，其余请求进入不具有本申请交互设备的服务器，依次比对两个服务器的效果，结果表明本申请实施例的对话效果有明显的提升。

以主动式对话模型为例，若单独上线主动式对话模型，上线前后带频次统计的指标效果好：效果相似：效果差(good:same:bad，G：S：B)显示会有66％(G:B＝1.66:1)的增益，而不带频次统计的指标也反映出有38％(G:B＝1.38:1)的增益，这说明了该主动式对话模型对服务器具有很好的贡献。以此为基准，继续评估本申请实施例带来的效果。

通过检索式对话模型生成的回复内容与由主动式对话模生成的回复内容确定组合回复内容的效果反映，不带频次统计的指标G:B＝1.45:1，相对通过主动是对话生成回复内容的基准(G:B＝1.38:1)提升了7％。但是，带频次统计的指标有明显下降，为G:B＝1.51:1，相对通过主动是对话生成回复内容的基准(G:B＝1.66:1)下降了15％。

虽然在用户输入“怀念赵老师”获得了较好的效果，但是经过实验发现上述融合方式会造成实际线上效果的下降，经过分析，原因是存在高频的检索式对话模型与主动式对话模型生成的回复内容拼接后存在连贯性问题。

基于此，本申请实施例引入句子对分类模型，通过句子分类模型对组合回复内容进行判别(相当于二分类问题)，若通过句子对分类模型获得的连贯性参数满足连贯性条件，将融合后的结果传递给下游，即将该组合回复内容通过交互界面返回给用户；若通过句子对分类模型获得的连贯性参数不满足连贯性条件，将主动式对话模型生成的回复内容通过交互界面返回给用户。

继续前述A/B测试对照实验，融合若采用基于BERT+CNN最为句子对分类模型进行判别，则取得了最佳的效果，不带频次统计的指标G:B＝1.45:1，相对通过主动是对话生成回复内容的基准(G:B＝1.38:1)提升了7％。同时，带频次统计的指标G:B＝1.82:1，相对通过主动是对话生成回复内容的基准(G:B＝1.66:1)提升了16％，具体参见表4。

表4

由此，通过A/B测试对照实验验证了本申请实施例提供的基于句子分类模型融合多种生成模型的技术方案获得了更好的会话效果，在用户对话轮次等指标上获得了较好的提升，可提升对话***回复的质量，改善用户体验，提升会话轮次。

此外，还收集了运用本技术方案进行对话的一些典型用例，参见图9，可以看到，在各个领域(如电影、任务、政治、景点、体育、汽车等)中，均产生较好的回复效果，其中，虚线部分为根据检索式对话模型生成的回复内容，实现部分为根据主动式对话模型生成的回复内容。

需要说明的是，在政治领域，虽然进行了去敏感处理，其回复内容依然较为生动，能够调动用户的兴趣，提高交互轮次。

针对上述实施例提供的交互方法，本申请实施例还提供了一种交互装置。

参见图10，图10为本申请实施例提供的一种交互装置的结构示意图。如图10所示，该交互装置1000包括：获取单元1001，生成单元1002、确定单元1003和返回单元1004；

所述获取单元1001，用于通过交互界面获取用户的输入信息；

所述生成单元1002，用于根据不同类型的N个生成模型分别生成对应所述输入信息的N个回复内容，N≥2；

所述确定单元1003，用于根据所述N个回复内容中的M个回复内容确定组合回复内容，所述M个回复内容所包含的内容具有不同的内容侧重，N≥M≥2；

所述返回单元1004，用于通过所述交互界面向所述用户返回所述组合回复内容。

作为一种可能的实现方式，所述N个生成模型包括通过外部数据生成回复内容的第一类模型，以及通过内部数据生成回复内容的第二类模型；所述确定单元1003，用于：

根据所述N个回复内容得到多个第一待定内容组合，所述第一待定内容组合是根据M个回复内容确定的，所述M个回复内容至少包括根据所述第一类模型生成的回复内容和根据所述第二类模型生成的回复内容；

从所述多个第一待定内容组合中确定所述组合回复内容。

作为一种可能的实现方式，所述确定单元1003，用于：

根据所述N个回复内容得到多个第二待定内容组合，所述第二待定内容组合是根据M个回复内容确定的；

通过内容分类模型确定所述第二待定内容组合的内容侧重参数，所述内容侧重参数用于标识所述第二待定内容组合中M个回复内容间的内容重复程度；

将所述内容侧重参数满足预设条件的第二待定内容组合确定为所述组合回复内容。

作为一种可能的实现方式，所述装置还包括训练单元，用于：

获取内容组合样本，所述内容组合样本包括M个样本内容，以及标识所述M个样本内容间是否具有不同内容侧重的样本标签；

根据所述内容组合样本训练初始分类模型，得到所述内容分类模型。

作为一种可能的实现方式，所述装置还包括连贯性单元，用于：

确定所述组合回复内容的连贯性参数，所述连贯性参数用于标识所述组合回复内容在语义上的连贯程度；

若所述连贯性参数满足连贯性条件，执行所述通过所述交互界面向所述用户返回所述组合回复内容的步骤；

若所述连贯性参数不满足连贯性条件，从所述N个回复内容中确定目标回复内容，并通过所述交互界面向所述用户返回所述目标回复内容。

作为一种可能的实现方式，所述组合回复内容包括通过分隔符确定的多个分句，所述连贯性单元，用于：

根据所述分句确定所述组合回复内容的语义向量；

根据所述语义向量，通过连贯性分类模型确定用于标识所述分句间在语义上连贯程度的连贯性参数。

作为一种可能的实现方式，所述组合回复内容是根据所述M个回复内容拼接得到的。

作为一种可能的实现方式，所述返回单元1004，用于：

确定所述组合回复内容中是否包括敏感内容文本；

若有，将所述组合回复内容中的敏感内容文本进行去敏感处理；

通过所述交互界面向所述用户返回去敏感处理后的所述组合回复内容。

本申请提供的交互装置，通过交互界面获取用户的输入信息后，根据N个生成模型分别生成对应于输入信息的N个回复内容，由于N个生成模型的具有不同的类型，不同类型的生成模型在生成回复内容时，所采用的生成逻辑或者数据来源会有所区别，从而导致这N个生成模型基于同一个输入信息分别生成回复内容时，不同回复内容可能会因为模型类型的区别导致内容侧重有所不同，从而可以从N个回复内容中选取M个回复内容确定组合回复内容，M个回复内容所包含的内容具有不同的内容侧重，使得组合回复内容所包含的内容具有多种内容侧重，包括了更多的内容信息。将组合回复内容通过交互界面返回给用户。由此，相比于仅将通过一个生成模型获得的回复内容，组合回复内容中不同内容侧重的内容信息可以相互补充，使得组合回复内容涵盖用户所需内容的概率更高，提高了组合回复内容的答案命中率，进而提高了人机交互的轮次。

前述所述的交互设备可以为一种计算机设备，该计算机设备可以为服务器，还可以为终端设备，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中，图11所示为服务器的结构示意图，图12所示为终端设备的结构示意图。

参见图11，图11是本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作***1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

通过交互界面获取用户的输入信息；

通过所述交互界面向所述用户返回所述组合回复内容。

可选的，CPU 1422还可以执行本申请实施例中交互方法任一具体实现方式的方法步骤。

参见图12，图12为本申请实施例提供的一种终端设备的结构示意图。图12示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图，该智能手机包括：射频(Radio Frequency，简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity，简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图12中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对智能手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long TermEvolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现智能手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图12中，触控面板1531与显示面板1541是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板1541集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一智能手机，或者将音频数据输出至存储器1520以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1570，但是可以理解的是，其并不属于智能手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

智能手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理***与处理器1580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该智能手机所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该智能手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的交互方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的交互方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的交互方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种交互方法，其特征在于，所述方法包括：

通过交互界面获取用户的输入信息；

通过所述交互界面向所述用户返回所述组合回复内容。

2.根据权利要求1所述的方法，其特征在于，所述N个生成模型包括通过外部数据生成回复内容的第一类模型，以及通过内部数据生成回复内容的第二类模型；

所述根据所述N个回复内容中的M个回复内容确定组合回复内容，包括：

从所述多个第一待定内容组合中确定所述组合回复内容。

3.根据权利要求1所述的方法，其特征在于，所述根据所述N个回复内容中的M个回复内容确定组合回复内容，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述组合回复内容包括通过分隔符确定的多个分句，所述确定所述组合回复内容的连贯性参数，包括：

根据所述分句确定所述组合回复内容的语义向量；

7.根据权利要求1-4任意一项所述的方法，其特征在于，所述组合回复内容是根据所述M个回复内容拼接得到的。

8.根据权利要求1-4任意一项所述的方法，其特征在于，所述通过所述交互界面向所述用户返回所述组合回复内容，包括：

确定所述组合回复内容中是否包括敏感内容文本；

9.一种交互装置，其特征在于，所述装置包括：获取单元、生成单元、确定单元和返回单元；

所述获取单元，用于通过交互界面获取用户的输入信息；

10.根据权利要求9所述的装置，其特征在于，所述N个生成模型包括通过外部数据生成回复内容的第一类模型，以及通过内部数据生成回复内容的第二类模型；所述确定单元，用于：

从所述多个第一待定内容组合中确定所述组合回复内容。

11.根据权利要求9所述的装置，其特征在于，所述确定单元，用于：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括训练单元，用于：

13.根据权利要求9-12任意一项所述的方法，其特征在于，所述装置还包括连贯性单元，用于：

14.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-8任意一项所述的方法。