CN114064870B

CN114064870B - 面向多模态的对话方法、装置、电子设备、存储介质

Info

Publication number: CN114064870B
Application number: CN202111328299.XA
Authority: CN
Inventors: 宋双永; 何晓冬
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2024-04-05
Anticipated expiration: 2041-11-10
Also published as: CN114064870A

Abstract

本公开提出一种面向多模态的对话方法、装置、电子设备、存储介质和计算机程序产品，其中，处理方法包括：获取用户的对话输入信息；对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵；根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。由此，可以通过对多模态用户的对话信息进行统一编码的方式，实现多模态对话的意图识别。

Description

面向多模态的对话方法、装置、电子设备、存储介质

技术领域

本公开涉及人工智能领域，尤其涉及一种面向多模态的对话方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的不断发展，智能对话逐渐运用到各行各业中。例如，能够通过智能对话机器人对接收到的信息进行处理，快速分析出对话的语义并做出反馈。

现有对话技术中，最主流的智能问答是依靠对用户单轮输入内容的理解，对多轮对话的研究主要体现在多轮对话内容都是文本的情况下。

发明内容

本公开提供了一种面向多模态的对话方法、装置、电子设备和存储介质。

根据本公开的第一方面，提供了一种面向多模态的对话方法，包括：获取用户的对话输入信息；对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵；根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。

根据本公开的第二方面，提供了一种面向多模态的对话装置，包括：获取模块，用于获取用户的对话输入信息；编码模块，用于对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵；确定模块，根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的面向多模态的对话方法。

根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的面向多模态的对话方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本公开第一方面所述的面向多模态的对话方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例提供的一面向多模态的对话方法的流程示意图；

图2为本公开实施例提供的另一面向多模态的对话方法的流程示意图；

图3为本公开实施例提供的一面向多模态的对话方法的提供的时序框图；

图4为本公开实施例提供的另一面向多模态的对话方法的流程示意图；

图5为本公开实施例提供的另一面向多模态的对话方法的流程示意图；

图6为本公开实施例提供的另一面向多模态的对话方法的流程示意图；

图7为本公开实施例提供的另一面向多模态的对话方法的流程示意图；

图8为本公开实施例提供的另一面向多模态的对话方法的流程示意图；

图9为本公开实施例提供的单轮对话场景下针对不同模态信息进行编码的流程示意框图；

图10为本公开实施例提供的一面向多模态的对话装置的结构示意图；

图11根据本公开实施例的面向多模态的对话方法的电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参照附图描述本公开实施例的面向多模态的对话方法、装置、电子设备和存储介质。

本公开实施例提供的面向多模态的对话方法，可以由电子设备来执行，该电子设备可为PC(Personal Computer，个人计算机)电脑、平板电脑或服务器等，此处不做任何限定。

在本公开实施例中，电子设备中可以设置有处理组件、存储组件和驱动组件。可选的，该驱动组件和处理组件可以集成设置，该存储组件可以存储操作***、应用程序或其他程序模块，该处理组件通过执行存储组件中存储的应用程序来实现本公开实施例提供的面向多模态的对话方法。

图1为根据本公开一个实施例的面向多模态的对话方法的流程示意图。

本公开实施例的面向多模态的对话方法，还可由本公开实施例提供的面向多模态的对话装置执行，该装置可配置于电子设备中，以实现获取用户的对话输入信息，并对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵，然后根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。由此，可以通过对多模态用户的对话信息进行统一编码的方式，实现多模态对话的意图识别。

作为一种可能的情况，本公开实施例的面向多模态的对话方法还可以在服务器端执行，服务器可以为云服务器，可以在云端执行该面向多模态的对话方法。

如图1所示，该面向多模态的对话方法，可包括：

步骤101，获取用户的对话输入信息。

在本公开实施例中，对话输入信息的模态可为多种。例如，对话输入信息的模态可为文本模态、图像模态和带文字的图像模态等。

可选地，用户可以将对话输入信息输入至终端中，终端通过通信连接将对话输入信息发送给能够实现面向多模态的对话方法的电子设备(例如，服务器)。应该说明的是，该通信连接可以是无线网络连接或者有线网络连接中的至少一种。可选地，当电子设备为电脑、平板电脑、手机等移动终端时还可以通过采集装置采集用户的对话输入信息。在一些实现中，可以通过语音采集装置，采集用户的对话输入信息。在另一些实现中，可以通过图像采集装置，采集用户的输入信息，例如图像采集装置可以为扫描仪、或者电子设备的摄像头等。

步骤102，对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵。

在本公开实施例中，针对不同模态的对话输入信息，都需要进行文本编码和图像编码，通过这样的编码方式，可以使得对话输入信息对应的编码矩阵中同时可以包括不同模态的编码信息，进而可以实现在对话场景中，即使用户可以输入不同的模态的对话输入信息，也可以对不同的模态的对话输入信息进行意图识别。

可选地，还可将对话输入信息通过第一编码矩阵生成算法，以生成对话输入信息的第一编码矩阵。应该说明的是，该第一编码矩阵生成算法可为提前设置好的，并预存在电子设备的存储空间中，以方便在需要时调取使用。

作为另一种可能实现的方式，还可将对话输入信息输入至第一编码矩阵生成模型中，以生成对话输入信息的第一编码矩阵。该第一编码矩阵生成模型可以为提前训练好的，并预存在电子设备的存储空间中。

其中，该存储空间不仅限于基于实体的存储空间，例如，硬盘，上述存储空间还可以是连接电子设备的网络硬盘的存储空间(云存储空间)。

步骤103，根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。

需要说明的是，本实施例中所描述的候选知识点可为多个，每一个候选知识点对应一个用户意图。该候选知识点可为提前准备好的，进一步地，该候选知识点的第二编码矩阵也可为提前设置好的，并预存在电子设备的存储空间中，以便在需要时调用。

通过第一编码矩阵和候选知识点的第二编码矩阵进行处理，确定对话输入信息匹配的候选知识点，从而确定用户的对话意图。

可选地，可将第一编码矩阵和候选知识点的第二编码矩阵进行匹配，以获得匹配相似度值，该相似度值越大，说明候选知识点对应的用户意图为用户的对话意图的可能性越大，通过确定相似度最大的候选知识点从而确认用户的对话意图。

可选地，可将第一编码矩阵和候选知识点的第二编码矩阵进行融合，并对融合后的矩阵进行意图预测，生成预测的得分值，该得分值越大，说明候选知识点对应的用户意图为用户的对话意图相似的可能性越大，由此，可以确定用户的对话意图为得分值最大的候选知识点的用户意图。

在本公开实施例中，首先获取用户的对话输入信息，并对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵，然后根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。由此，针对不同模态的客户输入信息，都需要进行图像编码和文本编码，通过这种统一的编码方式，可以实现多模态对话的意图识别。

上述实施例中，基于第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图，可结合图2进一步理解，该方法包括：

步骤201，根据第一编码矩阵与第二编码矩阵，生成目标编码矩阵。

在本公开实施例中，电子设备在获取到第一编码矩阵后，可将第一编码矩阵分别与第二编码矩阵进行融合处理，以获得目标编码矩阵。

可选地，第一编码矩阵与第二编码矩阵融合方法可为多种，其中，可将第一编码矩阵与第二编码矩阵进行相加处理，以生成目标编码矩阵。作为另一种可能实现的方式，还可以将第一编码矩阵与第二编码矩阵进行拼接处理，以生成目标编码矩阵。具体情况需要根据实际需要进行设定，此处不做过多限定。

步骤202，对目标编码矩阵进行多层感知机预测，获取对话输入信息与候选知识点的语义关联度。

在本公开实施例中，将上述生成的目标编码矩阵输入至多层感知机(MultilayerPerceptron，MLP)中进行感知，以生成对话输入信息与候选知识点的预测结果。应该说明的是，该预测结果为[0,1]之间的数，预测结果越大，说明话输入信息与候选知识点的语义关联度越大。

步骤203，根据语义关联度，从候选知识点中确定目标知识点，其中，目标知识点表征用户的对话意图。

可以理解的是，候选知识点中语义关联度最大的候选知识点可确定为目标知识点，进一步地，该目标知识点对应的用户意图可以确认为用户的对话意图。

在本公开实施例中，首先根据第一编码矩阵与第二编码矩阵，生成目标编码矩阵，并对目标编码矩阵进行多层感知机预测，获取对话输入信息与候选知识点的语义关联度，然后根据语义关联度，从候选知识点中确定目标知识点，其中，目标知识点表征用户的对话意图。通过多层感知机对第一编码矩阵和第二编码矩阵的融合结果进行感知，确定对话输入信息对应的目标知识点，从而可以通过对多模态对话输入信息进行统一编码的方式，实现意图识别。

上述实施例中，在多轮对话场景中，如图3所示，每轮对话对应一个对话输入信息，每轮的对话输入信息都进行图像编码和文本编码，生成各自对应的第一编码矩阵。其中，根据第一编码矩阵与第二编码矩阵，生成目标编码矩阵，可结合图4进一步理解，图4为本公开实施例提供的另一面向多模态的对话方法的流程示意图，如图4所示，该方法可包括：

步骤401，分别将每个单轮对话的第一编码矩阵与第二编码矩阵进行融合，生成单轮对话对应的第一融合编码矩阵。

在本公开实施例中，如图3所示，包括单轮对话1、单轮对话2和单轮对话3，其中，单轮对话1的对话输入信息生成第一编码矩阵A，单轮对话2的对话输入信息生成第一编码矩阵B，单轮对话3的对话输入信息生成第一编码矩阵C。第一编码矩阵A与第二编码矩阵进行融合，生成单轮对话对应的第一融合编码矩阵A’，第一编码矩阵B与第二编码矩阵进行融合，生成单轮对话对应的第一融合编码矩阵B’，第一编码矩阵C与第二编码矩阵进行融合，生成单轮对话对应的第一融合编码矩阵C’。该融合方法可为多种，例如拼接、相加等，具体需要根据实际情况进行设定。

步骤402，分别对每个单轮对话的第一融合编码矩阵进行卷积和池化处理，生成单轮对话对应的第二融合编码矩阵。

在本公开实施例中，如图3所示，电子设备在获取到第一融合编码矩阵A’、B’、C’后，可将第一融合矩阵A’、B’、C’分别进行卷积处理，再将卷积处理后的矩阵分别进行池化操作，以实现将第一融合矩阵A’、B’、C’进行特征降维和压缩数据，从而获取特征明确的第二融合编码矩阵A”、B”、C”。

步骤403，将所有的第二融合编码矩阵进行拼接，生成目标编码矩阵。

如图3所示，将第二融合编码矩阵A”、B”、C”进行拼接，生成目标编码矩阵。

在本公开实施例中，首先分别将每个单轮对话的第一编码矩阵与第二编码矩阵进行融合，生成单轮对话对应的第一融合编码矩阵，并分别对每个单轮对话的第一融合编码矩阵进行卷积和池化处理，生成单轮对话对应的第二融合编码矩阵，将所有的第二融合编码矩阵进行拼接，生成目标编码矩阵。由此，通过上述对矩阵的操作处理，可以使生成的目标编码矩阵包含多轮对话的语义，从而使预测结果更加准确。

需要说明的是，在单轮对话场景中，可直接将第一编码矩阵与第二编码矩阵进行融合，并通过卷积、池化等操作，生成目标编码矩阵，并通过MLP对目标编码矩阵进行意图预测。

上述实施例中，对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵，可结合图5进一步理解，图5为本公开实施例提供的另一面向多模态的对话方法的流程示意图，如图5所示，该方法可包括：

步骤501，对对话输入信息进行文本编码，获取文本编码子矩阵。

步骤502，对对话输入信息进行图像编码，获取图像编码子矩阵。

在本公开实施例中，电子设备可通过调用编码单元对对话输入信息进行文本和图像编码，编码单元可包含文本编码单元和图像编码单元，其中文本编码单元进行文本编码，并提取文本特征，图像编码单元进行图像编码，并提取图像特征。

需要说明的是，当对话输入信息为纯文本输入时，可为纯文本设置空白图像，然后通过编码单元对该纯文本输入进行图像编码和文本编码。

可选地，当对话输入信息为纯图像输入时，可为纯图像设置空白文本，然后通过编码单元对该纯图像输入进行图像编码和文本编码。

需要说明的是，该文本编码生成模型可以为提前训练好的，并预存在电子设备的存储空间中，以便在需要时调取使用。

可选地，该编码单元可基于卷积神经网络模型(Convolutional NeuralNetworks,CNN)训练得到。

步骤503，获取对话输入信息的位置编码子矩阵。

在本公开实施例中，可将对话输入信息输入至位置编码子矩阵生成模型中，以获取对话输入信息的位置编码子矩阵。

需要说明的是，在多轮对话场景中，该对话输入信息的位置可表征对应对话输入信息的输入顺序。

步骤504，将文本编码子矩阵、图像编码子矩阵和位置编码子矩阵相加，生成第一编码矩阵。

需要说明的是，为了将文本编码子矩阵、图像编码子矩阵和位置编码子矩阵相加进行相加操作，该文本编码子矩阵、图像编码子矩阵和位置编码子矩阵的矩阵大小必须一致。

在本公开实施例中，首先对对话输入信息进行文本编码，获取文本编码子矩阵，并获取图像编码子矩阵，然后基于文本编码子矩阵和图像编码子矩阵，生成第一编码矩阵。由此，对对话输入信息进行文本编码和图像编码，进行归一化处理，为后续第一编码矩阵和第二编码矩阵融合提供基础。

上述实施例中，对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵，可结合图6进一步理解，图6为本公开实施例提供的另一面向多模态的对话方法的流程示意图，如图6所示，该方法可包括：

步骤601，获取对话输入信息，对对话输入信息进行模态识别，获取对话输入信息对应的目标模态。

可以理解的是，在单轮对话中，对话输入信息只包含一种模态。在本公开实施例中，可对对话输入信息进行模态识别，以获取话输入信息对应的目标模态。可选地，可以基于模态识别模型对对话输入信息的模态进行识别，该模态识别模型可为提前训练好的，并存储在电子设备的存储空间中。

步骤602，根据目标模态，对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵。

可选地，为了实现多种模态对应的输出结果特征统一，针对不同的目标模态的对话输入信息，需要采用相同的方法进行处理。即对多模态的对话输入信息，都采用文本编码和图像编码。

在本公开实施例中，首先获取对话输入信息，对对话输入信息进行模态识别，获取对话输入信息对应的目标模态，并根据目标模态，对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵。通过针对不同的模态对话输入信息进行统一方式的编码处理，由此可以生成特征相同的第一编码矩阵，为后续统一操作提供基础。

上述实施例中，目标模态为文本模态，则对话输入信息为对话输入文本，其中，根据目标模态，对对话输入信息进行文本编码和图像编码，可结合图7进一步理解，图7为本公开实施例提供的另一面向多模态的对话方法的流程示意图，如图7所示，该方法可包括：

步骤701，提取对话输入文本的文本特征，基于文本特征进行编码，获取文本编码子矩阵。

步骤701的具体介绍可参见上述具体实施例，此处不再赘述。

步骤702，对预设空白图像进行图像编码，获取图像编码子矩阵。

需要说明的是，文本模态无法得到图像编码，根据上述实施例中所描述的内容，为了得到大小相同的第一编码矩阵，可以针对文本模态的对话输入信息，***一个预设空白图像，并对预设空白图像进行编码，获取空白图像的图像编码子矩阵。进一步地，将文本编码子矩阵、图像编码子矩阵和位置编码子矩阵相加，生成第一编码矩阵。

在本公开实施例中，首选提取对话输入文本的文本特征，基于文本特征进行编码，获取文本编码子矩阵，然后对预设空白图像进行图像编码，获取图像编码子矩阵。由此，目标模态为文本模态，可以对对话输入文本通过添加预设空白图像，再进行编码，以保证生成的完整的第一编码矩阵，后续操作提供基础。

上述实施例中，目标模态为图像模态，则对话输入信息为对话输入图像，其中，根据目标模态，对对话输入信息进行文本编码和图像编码，可结合图8进一步理解，图8为本公开实施例提供的另一面向多模态的对话方法的流程示意图，如图8所示，该方法可包括：

步骤801，对对话输入图像进行光学字符识别OCR。

步骤802，响应于对话输入图像中携带文本，提取携带文本的文本特征，并基于文本特征进行编码，获取文本编码子矩阵。

步骤802的具体介绍可参见上述实施例，此处不再赘述。

步骤803，响应于对话输入图像中未携带文本，对预设空白文本进行文本编码，获取文本编码子矩阵。

需要说明的是，图像中未携带文本无法得到文本编码，根据上述实施例中所描述的内容，为了得到大小相同的第一编码矩阵，如图8所示，可以针对图像模态的对话输入信息，***一个预设空白文本，并对预设空白文本进行编码，获取空白文本的文本编码子矩阵。

步骤804，提取对话输入图像的图像特征，并基于图像特征进行编码，获取图像编码子矩阵。

在本公开实施例中，首先对对话输入图像进行光学字符识别OCR，响应于对话输入图像中携带文本，提取携带文本的文本特征，并基于文本特征进行编码，获取文本编码子矩阵，响应于对话输入图像中未携带文本，对预设空白文本进行文本编码，获取文本编码子矩阵，提取对话输入图像的图像特征，并基于图像特征进行编码，获取图像编码子矩阵。由此，针对图像中未携带文本模态，通过对对话输入信息添加一个空白文本的方式，以保证生成完整的第一编码矩阵，为后续操作提供基础。

图9为单轮对话场景下，针对不同模态的对话输入信息，进行编码的流程示意图。如图9所示，在接收到单轮对话输入信息后，首先对对话输入信息进行模态识别，然后获取单轮单轮对话输入信息的目标模态，当目标模态为文本模态时，可对对话输入文本设置空白图像，然后通过编码单元对该文本输入进行图像编码和文本编码；当目标模态为图像模态时，可先通过OCR对对话输入图像进行光学字符识别，响应于对话输入图像为纯图像输入，可对对话输入图像设置空白文本，然后通过编码单元对该对话输入图像进行文本编码和图像编码，响应于对话输入图像为带文字的图像，则对图像中文本进行文本编辑，对图像进行图像编码，而后获取对话输入信息的位置编码，最后将文本编码、图像编码和位置编码进行相加，从而获得第一编码矩阵。

与上述几种实施例提供的面向多模态的对话方法相对应，本公开的一个实施例还提供了一种面向多模态的对话装置，由于本公开实施例提供的面向多模态的对话装置与上述几种实施例提供的面向多模态的对话方法相对应，因此上述面向多模态的对话方法的实施方式也适用于本公开实施例提供的面向多模态的对话装置，在下述实施例中不再详细描述。

图10为根据本公开一个实施例的面向多模态的对话装置的方框示意图。

本公开实施例的面向多模态的对话装置，可配置于电子设备中，以实现接收用户发送的通讯录的权限设定请求，其中，权限设定请求包括至少一组部门之间的可见性设定请求，并对部门之间的可见性设定请求进行解析，以生成第一部门和第二部门之间的目标可见性值，而后根据目标可见性值生成二维可见性关系表，并根据二维可见性关系表对通讯录的权限进行设定，从而降低了数据计算的时间和空间复杂度。

如图10所示，该面向多模态的对话装置100，可包括：获取模块110、编码模块120、确定模块130。

其中，获取模块110，用于获取用户的对话输入信息。

编码模块120，用于对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵。

确定模块130，根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。

在本公开的另一个实施例中，确定模块130，还用于：根据第一编码矩阵与第二编码矩阵，生成目标编码矩阵；对目标编码矩阵进行多层感知机预测，获取对话输入信息与候选知识点的语义关联度；根据语义关联度，从候选知识点中确定目标知识点，其中，目标知识点表征用户的对话意图。

在本公开的另一个实施例中，确定模块130，还用于：分别将每个单轮对话的第一编码矩阵与第二编码矩阵进行融合，生成单轮对话对应的第一融合编码矩阵；分别对每个单轮对话的第一融合编码矩阵进行卷积和池化处理，生成单轮对话对应的第二融合编码矩阵；将所有的第二融合编码矩阵进行拼接，生成目标编码矩阵。

在本公开的另一个实施例中，编码模块120，还用于：对对话输入信息进行文本编码，获取文本编码子矩阵；对对话输入信息进行图像编码，获取图像编码子矩阵；基于文本编码子矩阵和图像编码子矩阵，生成第一编码矩阵。

在本公开的另一个实施例中，编码模块120，还用于：获取对话输入信息的位置编码子矩阵；将文本编码子矩阵、图像编码子矩阵和位置编码子矩阵相加，生成第一编码矩阵。

在本公开的另一个实施例中，编码模块120，还用于：获取对话输入信息，对对话输入信息进行模态识别，获取对话输入信息对应的目标模态；根据目标模态，对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵。

在本公开的另一个实施例中，编码模块120，还用于：提取对话输入文本的文本特征，基于文本特征进行编码，获取文本编码子矩阵；对预设空白图像进行图像编码，获取图像编码子矩阵。

在本公开的另一个实施例中，编码模块120，还用于：对对话输入图像进行光学字符识别OCR；响应于对话输入图像中携带文本，提取携带文本的文本特征，并基于文本特征进行编码，获取文本编码子矩阵；响应于对话输入图像中未携带文本，对预设空白文本进行文本编码，获取文本编码子矩阵；提取对话输入图像的图像特征，并基于图像特征进行编码，获取图像编码子矩阵。

在本公开的另一个实施例中，其特征在于，文本编码子矩阵和图像编码子矩阵的大小相同。

为达到上述实施例，本公开还提出了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括存储器111、处理器112及存储在存储111上并可在处理器112上运行的计算机程序，处理器112执行程序指令时，实现上述实施例提出的面向多模态的对话方法。

本公开实施例提出的电子设备，通过处理器112执行存储在存储器111上的计算机程序，获取用户的对话输入信息，并对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵，然后根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。

进一步地，根据第一编码矩阵与第二编码矩阵，生成目标编码矩阵，并对目标编码矩阵进行多层感知机预测，获取对话输入信息与候选知识点的语义关联度，然后根据语义关联度，从候选知识点中确定目标知识点，其中，目标知识点表征用户的对话意图。通过多层感知机对第一编码矩阵和第二编码矩阵的融合结果进行感知，确定对话输入信息对应的目标知识点。

进一步地，将每个单轮对话的第一编码矩阵与第二编码矩阵进行融合，生成单轮对话对应的第一融合编码矩阵，并分别对每个单轮对话的第一融合编码矩阵进行卷积和池化处理，生成单轮对话对应的第二融合编码矩阵，将所有的第二融合编码矩阵进行拼接，生成目标编码矩阵。

进一步地，对对话输入信息进行文本编码，获取文本编码子矩阵，并获取图像编码子矩阵，然后基于文本编码子矩阵和图像编码子矩阵，生成第一编码矩阵。

进一步地，获取对话输入信息，对对话输入信息进行模态识别，获取对话输入信息对应的目标模态，并根据目标模态，对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵。

进一步地，提取对话输入文本的文本特征，基于文本特征进行编码，获取文本编码子矩阵，然后对预设空白图像进行图像编码，获取图像编码子矩阵。

进一步地，对对话输入图像进行光学字符识别OCR，响应于对话输入图像中携带文本，提取携带文本的文本特征，并基于文本特征进行编码，获取文本编码子矩阵，响应于对话输入图像中未携带文本，对预设空白文本进行文本编码，获取文本编码子矩阵，提取对话输入图像的图像特征，并基于图像特征进行编码，获取图像编码子矩阵。

本公开提出的面向多模态的对话方法，首先获取用户的对话输入信息，并对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵，然后根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。由此，针对不同模态的客户输入信息，都需要进行图像编码和文本编码，通过这种统一的编码方式，可以实现多模态对话的意图识别。

本公开实施例提出的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器112执行时，实现上述实施例提出的面向多模态的对话方法。

本公开实施例的计算机可读存储介质，通过存储计算机程序并被处理器执行，通过处理器112执行存储在存储器111上的计算机程序，获取用户的对话输入信息，并对对话输入信息进行文本编码和图像编码，以获取对话输入信息的第一编码矩阵，然后根据第一编码矩阵和候选知识点的第二编码矩阵，确定用户的对话意图。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本身的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网格浏览器的用户计算机，用户可以通过该图形用户界面或者该网格浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网格)来将***的部件相互连接。通信网格的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网格。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网格进行交互。通过在相应的计算机上运行并且彼此具有客户端服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“VirtualPrivate Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合区块链的服务器。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种面向多模态的对话方法，其特征在于，包括：

获取用户的对话输入信息；

对所述对话输入信息进行文本编码和图像编码，以获取所述对话输入信息的第一编码矩阵；

根据所述第一编码矩阵和候选知识点的第二编码矩阵，确定所述用户的对话意图；

其中，在多轮对话场景中，每轮对话对应一个所述对话输入信息，其中，所述根据所述第一编码矩阵与所述第二编码矩阵，生成目标编码矩阵，包括：

分别将每个单轮对话的所述第一编码矩阵与所述第二编码矩阵进行融合，生成所述单轮对话对应的第一融合编码矩阵；

分别对每个所述单轮对话的第一融合编码矩阵进行卷积和池化处理，生成所述单轮对话对应的第二融合编码矩阵；

将所有的所述第二融合编码矩阵进行拼接，生成目标编码矩阵；

其中，所述根据所述第一编码矩阵和候选知识点的第二编码矩阵，确定所述用户的对话意图，包括：

根据所述第一编码矩阵与所述第二编码矩阵，生成目标编码矩阵；

对所述目标编码矩阵进行多层感知机预测，获取所述对话输入信息与所述候选知识点的语义关联度；

根据所述语义关联度，从所述候选知识点中确定目标知识点，其中，所述目标知识点表征所述用户的对话意图。

2.根据权利要求1所述的方法，其特征在于，所述对所述对话输入信息进行文本编码和图像编码，以获取所述对话输入信息的第一编码矩阵，包括：

对所述对话输入信息进行文本编码，获取文本编码子矩阵；

对所述对话输入信息进行图像编码，获取图像编码子矩阵；

基于所述文本编码子矩阵和所述图像编码子矩阵，生成所述第一编码矩阵。

3.根据权利要求2所述的方法，其特征在于，所述基于所述文本编码子矩阵和所述图像编码子矩阵，生成所述第一编码矩阵，包括：

获取所述对话输入信息的位置编码子矩阵；

将所述文本编码子矩阵、所述图像编码子矩阵和所述位置编码子矩阵相加，生成所述第一编码矩阵。

4.根据权利要求2所述的方法，其特征在于，所述对所述对话输入信息进行文本编码和图像编码，以获取所述对话输入信息的第一编码矩阵，包括：

获取所述对话输入信息，对所述对话输入信息进行模态识别，获取所述对话输入信息对应的目标模态；

根据所述目标模态，对所述对话输入信息进行文本编码和图像编码，以获取所述对话输入信息的第一编码矩阵。

5.根据权利要求4所述的方法，其特征在于，所述目标模态为文本模态，则所述对话输入信息为对话输入文本，其中，所述根据所述目标模态，对所述对话输入信息进行文本编码和图像编码，包括：

提取所述对话输入文本的文本特征，基于所述文本特征进行编码，获取所述文本编码子矩阵；

对预设空白图像进行图像编码，获取所述图像编码子矩阵。

6.根据权利要求4所述的方法，其特征在于，所述目标模态为图像模态，则所述对话输入信息为对话输入图像，其中，所述根据所述目标模态，对所述对话输入信息进行文本编码和图像编码，包括：

对所述对话输入图像进行光学字符识别OCR；

响应于所述对话输入图像中携带文本，提取所述携带文本的文本特征，并基于所述文本特征进行编码，获取所述文本编码子矩阵；

响应于所述对话输入图像中未携带文本，对预设空白文本进行文本编码，获取所述文本编码子矩阵；

提取所述对话输入图像的图像特征，并基于所述图像特征进行编码，获取所述图像编码子矩阵。

7.根据权利要求2所述的方法，其特征在于，所述文本编码子矩阵和所述图像编码子矩阵的大小相同。

8.一种面向多模态的对话装置，其特征在于，包括：

获取模块，用于获取用户的对话输入信息；

编码模块，用于对所述对话输入信息进行文本编码和图像编码，以获取所述对话输入信息的第一编码矩阵；

确定模块，根据所述第一编码矩阵和候选知识点的第二编码矩阵，确定所述用户的对话意图；

其中，所述确定模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述编码模块，包括：

对所述对话输入信息进行文本编码，获取文本编码子矩阵；

对所述对话输入信息进行图像编码，获取图像编码子矩阵；

10.根据权利要求9所述的装置，其特征在于，所述编码模块，包括：

获取所述对话输入信息的位置编码子矩阵；

11.根据权利要求9所述的装置，其特征在于，所述编码模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述编码模块，包括：

对预设空白图像进行图像编码，获取所述图像编码子矩阵。

13.根据权利要求11所述的装置，其特征在于，所述编码模块，包括：

对所述对话输入图像进行光学字符识别OCR；

14.根据权利要求9所述的装置，其特征在于，所述文本编码子矩阵和所述图像编码子矩阵的大小相同。

15.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如权利要求1-7中任一项的面向多模态的对话方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项的面向多模态的对话方法。