CN111400438A

CN111400438A - 用户多意图的识别方法及装置，存储介质及车辆

Info

Publication number: CN111400438A
Application number: CN202010107441.7A
Authority: CN
Inventors: 于洋; 孙珏
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-07-10

Abstract

本公开涉及一种用户多意图的识别方法及装置，存储介质及车辆，以解决现有多意图识别技术的成本过高的问题，所述方法包括：获取对话文本信息；将所述对话文本信息输入分句模型进行分句处理，其中，所述分句模型的训练样本是根据单意图语料组合得到的；若根据所述分句模型的输出得到多个单语句，则将所述多个单语句依次输入单语句识别模型，得到多个意图识别结果。

Description

用户多意图的识别方法及装置，存储介质及车辆

技术领域

本公开涉及智能人机技术领域，具体地，涉及一种用户多意图的识别方法及装置，存储介质及车辆。

背景技术

在智能人机对话***中，有时候用户在一句话可能表述不止一个意图，即一句话中希望智能设备完成多个控制指令，智能终端需要执行一系列的指令。例如，在智能车机中，驾驶员或者乘客在一句话中连贯的表述关闭窗户和开启空调需求，需要智能车载终端能够理解用户的多种意图。

相关技术中，针对用户说的一句话，首先需要经过分词处理，然后将分词处理后的语句输入到神经网络模型中，神经网络模型根据外部数据库收集并标注的词向量，确定并输出用户的意图标签，进而根据意图标签完成相应的控制操作。

发明内容

本公开的目的是提供一种用户多意图的识别方法及装置，存储介质及车辆，以解决现有多意图识别技术的成本过高的问题。

为了实现上述目的，本公开第一方面提供一种用户多意图的识别方法，所述方法包括：

获取对话文本信息；

将所述对话文本信息输入分句模型进行分句处理，其中，所述分句模型的训练样本是根据单意图语料组合得到的；

若根据所述分句模型的输出得到多个单语句，则将所述多个单语句依次输入单语句识别模型，得到多个意图识别结果。

可选地，所述对话文本信息包括对文本进行序列标注得到的输入序列；

所述将所述对话文本信息输入分句模型进行分句处理，包括：将所述输入序列输入所述分句模型，得到所述分句模型输出的分句结果。

可选地，所述方法还包括：

若根据所述分句模型的输出得到不可分句的多意图语句，则将所述多意图语句输入语句改写模型，得到所述语句改写模型输出的多个单语句；

将该多个单语句依次输入单语句识别模型，得到多个意图识别结果。

可选地，所述语句改写模型支持对不同域的语料进行组合。

可选地，所述方法应用于车辆，所述方法还包括：

根据所述多个意图识别结果，依次执行每一意图识别结果，执行相应的车辆控制操作。

本公开第二方面提供一种用户多意图的识别装置，所述装置包括：

获取模块，用于获取对话文本信息；

输入模块，用于将所述对话文本信息输入分句模型进行分句处理，其中，所述分句模型的训练样本是根据单意图语料组合得到的；

第一执行模块，用于在根据所述分句模型的输出得到多个单语句时，将所述多个单语句依次输入单语句识别模型，得到多个意图识别结果。

可选地，所述装置还包括：

第二执行模块，用于在根据所述分句模型的输出得到不可分句的多意图语句时，将所述多意图语句输入语句改写模型，得到所述语句改写模型输出的多个单语句；

第一执行模块，还用于将该多个单语句依次输入单语句识别模型，得到多个意图识别结果。

可选地，所述语句改写模型包括语句改写子模块，用于对不同域的语料进行组合。

可选地，所述装置还包括：

第三执行模块，用于根据所述多个意图识别结果，依次执行每一意图识别结果，执行相应的车辆控制操作。

本公开第三方面提供一种计算机可读存储介质，该程序被处理器执行时实现上述任一项所述方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一项所述方法的步骤。

本公开第五方面提供一种车辆，所述车辆包括上述任一项所述的用户多意图的识别装置。

通过上述技术方案，至少可以达到以下有益效果：

通过获取对话文本信息，并将对话文本信息输入分句模型进行分句处理，分句模型的训练样本是根据单意图语料组合得到的，进一步地，若根据所分句模型的输出得到多个单语句，则将多个单语句依次输入单语句识别模型，得到多个意图识别结果。这样，可以在用户的说话内容是多个单语句时，便捷地完成用户多意图的分句，并最终便捷地得到用户的多个意图。并且不用从外部数据库获取并标注词向量，节省了模型清洗词向量的时间和向外部数据库获取词向量的资金支出，降低了实现成本。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种用户多意图的识别方法的流程图。

图2是根据一示例性实施例示出的一种用户多意图的识别方法的示意图。

图3是根据一示例性实施例示出的一种用户多意图的识别方法的示意图。

图4是根据一示例性实施例示出的另一种用户多意图的识别方法的流程图。

图5是根据一示例性实施例示出的另一种用户多意图的识别方法的流程图。

图6是根据一示例性实施例示出的一种用户多意图的识别装置的框图。

图7是根据一示例性实施例示出的另一种用户多意图的识别装置的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

相关技术中，对于一句话中含有多个意图的情况，需要神经网络模型输出多个意图标签，神经网络模型利用外部数据库收集并标注大量的语料，每次增加一个意图标签，均需要根据外部数据库进行标注，增加了收集和标注语料的数量，资金成本增加。并且多个意图训练，神经网络模型扩展语料规模增大，训练时间加长，神经训练模型与外部数据库之间信息交换时间也会加长。比如为了提供打开车窗的功能，需要收集并标注打开车窗的语料，为了提供关闭空调的功能，需要收集并标注关闭空调的语料。为了提供关闭空调并打开车窗的功能，需要同时收集并标注打开车窗和关闭空调的语料，增加了收集和标注语料的数量，资金成本增加，神经网络模型在训练时，需要处理两条语料，训练时间加长。并且，收集语料的过程中，需要与外部数据库人员沟通，耗费时间较多，涉及工作量成本较高。

图1是根据一示例性实施例示出的一种用户多意图的识别方法的流程图。如图1所示，所述方法包括：

S11、获取对话文本信息。

S12、将所述对话文本信息输入分句模型进行分句处理，其中，所述分句模型的训练样本是根据单意图语料组合得到的。

S13、若根据所述分句模型的输出得到多个单语句，则将所述多个单语句依次输入单语句识别模型，得到多个意图识别结果。

具体地，获取对话文本信息可以是通过智能设备的麦克风，获取用户说话的语音内容，将语音内容转换为对话文本信息。在具体实施时，可以预先根据用户的语音设置用户身份信息，以便智能设备判断用户的身份。当获取的语音内容与预先设置的用户身份信息匹配时，根据语音内容获取到对话文本信息。这样，防止了获取到非预设用户身份信息的语音内容，得到非认证用户想要得到的意图识别结果的情况出现，例如，防止获取到来自车辆外的其他语音内容，造成车辆得到非车辆驾驶员想要得到的意图识别结果。

可选地，对话文本信息也可以是在用户界面输入的文字内容，将文字内容转换为对话文本信息。

值得说明的是，分句模型在对对话文本信息进行分句时，一般是将语料进行分句，因此可以在输入到分句模型之前，对对话文本信息进行预训练，得到对话文本信息的词向量，再将词向量输入到分句模型，也可以将对话文本信息直接输入到分句模型，由分句模型进行训练，得到分句结果。

具体地，分句模型对对话文本信息进行分句，将一句话中的多个意图分为多个单意图分句。如图2所示，对话文本信息为空调开暖风同时打开方向盘加热，分句模型分句处理后得到“空调开暖风”以及“打开方向盘加热”。

最终，将分句处理得到的多个单语句，根据对话文本信息的顺序识别，依次输入单语句识别模型，单语句识别模型通过识别单语句中的单意图，并提取单语句中的关键词，将单意图以及关键词送到云端服务器，服务器可以得到对应的控制指令，并下发该控制指令。

示例地，分句处理后得到单语句为“请把前排空调打开”，单语句模型识别出该单语句的单意图为“空调打开”，并提取出该单语句中的关键词为“前排”，进一步的，将该单意图“空调打开”以及该关键词“前排”发送到云端服务器，云端服务器可以通过与数据库中预设的控制指令进行匹配，搜索单意图以及关键词，得到“打开前排空调”的控制指令，并下发该控制指令。

可选地，分句模型按照用户表述的顺序进行分句处理并输出单语句，单语句模型可以按照分句处理结果得到的单语句顺序，依次进行单语句识别，即按照用户表述的顺序进行识别和输出，得到对应用户表述顺序的多个意图识别结果。

上述技术方案，通过获取对话文本信息，并将对话文本信息输入分句模型进行分句处理，分句模型的训练样本是根据单意图语料组合得到的，进一步地，若根据所分句模型的输出得到多个单语句，则将多个单语句依次输入单语句识别模型，得到多个意图识别结果。这样，可以在用户的说话内容是多个单语句时，便捷地完成用户多意图的分句，并最终便捷地得到用户的多个意图。并且不用从外部数据库获取并标注语料，用已有的单意图意料即可组合得到模型训练样本，节省了模型清洗语料的时间和向外部数据库获取多意图语料的资金支出，降低了实现成本。

在一种可能实现的方式中，所述对话文本信息包括对文本进行序列标注得到的输入序列；

具体地，对文本进行序列标注得到的输入序列是指根据对话文本信息语料中每个词的类型，对语料中每个词进行对应序列的标注，如图3所示，“空调开暖风调到26度座椅加热打开方向盘也加热一下”分词得到语料后，进行对应分句标注后得到“BOOBOOBOOBOOO”的分句结果。进一步的，再根据“B”对标注后的分句结果进行相应的操作，例如，根据标注“B”得到“空调开暖风”“调到26度”“座椅加热打开”以及“方向盘也加热一下”。

图4是根据一示例性实施例示出的另一种用户多意图的识别方法的流程图。如图4所示，所述方法包括：

S41、获取对话文本信息。

S42、将所述对话文本信息输入分句模型进行分句处理，其中，所述分句模型的训练样本是根据单意图语料组合得到的。

S43、若根据所述分句模型的输出得到不可分句的多意图语句，则将所述多意图语句输入语句改写模型，得到所述语句改写模型输出的多个单语句。

S44、将该多个单语句依次输入单语句识别模型，得到多个意图识别结果。

具体地，若对话文本信息为不可分句，而实际该对话文本信息表述了多个意图，需要执行不同的控制操作，则需要语句改写模型将该对话文本信息中的词根据设定组合的方式进行组合，得到所有的组合语料，再根据预设的语料，根据匹配度，得到多个单语句。

示例地，针对对话文本信息“空调开暖风调到26摄氏度”，在分句模型输出得到不可分句的多意图语句时，则将该不可分句的多意图语句输入到语句改写模型，语句改写模型可以对各个词向量进行组合，得到不同的语料，例如，将该文本的词“空调”“开”“暖风”“调到”“26摄氏度”进行排列组合，最终根据预设的语料，得到“空调开暖风”以及“空调调到26摄氏度”两个单语句。最终，将“空调开暖风”以及“空调调到26摄氏度”两个单语句依次输入单语句识别模型，得到多个意图识别结果。

可选地，所述语句改写模型支持对不同域的语料进行组合。

具体地，分句模型在分句处理对话文本信息时，将不同类型的对话文本信息分为不同的域，例如，照明设备属于车辆安全域，座椅加热以及方向盘加热属于车辆舒适性域，空调属于车辆温度域。在分句处理时，若是获取到的对话文本信息属于不同域的语料，则可能出现单语句识别模型无法识别的问题，并且在获取到的对话文本信息属于不同域的语料并且不合理时，需要对语料进行组合，得到合理的语料。

示例地，在车辆领域中，获取到“打开照明设备和音乐”对话文本信息，由于照明设备和音乐属于不同的域，照明设备属于车辆安全域，音乐属于车辆舒适性域。“打开照明设备和音乐”经过分句模型分句处理后，输出得到的是不可分句的多意图语句，语句改写模型可以将该句改写为“打开照明设备和打开音乐”，进而输出两个单语句“打开照明设备”和“打开音乐”，最终将“打开照明设备”和“打开音乐”依次输入单语句识别模型，得到两个意图识别结果，这样可以避免不同域的语料无法识别的问题，提高多意图识别的合理性。

又一示例，在车辆领域中，获取到“打开空调和车窗”对话文本信息，由于空调和车窗属于不同的域，并且可以理解的是，打开空调后车窗应该是关闭的状态，语句改写模型可以将该句改写为“打开空调和关闭车窗”，进而输出两个单语句“打开空调”和“关闭车窗”，最终将“打开空调”和“关闭车窗”依次输入单语句识别模型，得到两个意图识别结果。提高了多意图识别的合理性。

图5是根据一示例性实施例示出的另一种用户多意图的识别方法的流程图。所述方法应用于车辆，如图5所示，所述方法包括：

S51、获取对话文本信息。

S52、将所述对话文本信息输入分句模型进行分句处理，其中，所述分句模型的训练样本是根据单意图语料组合得到的。

S53、若根据所述分句模型的输出得到多个单语句，则将所述多个单语句依次输入单语句识别模型，得到多个意图识别结果。

S54、根据所述多个意图识别结果，依次执行每一意图识别结果，执行相应的车辆控制操作。

可选地，获取对话文本信息可以是通过车载多媒体播放器的麦克风获取驾驶员或者乘客的语音说话内容，也可以是通过车载多媒体播放器的用户界面获取输入的文本内容，还可以是获取遥控终端发送的相关内容，例如，通过蓝牙连接终端电子设备，手机，平板电脑等。

在一种可能实现的方式中，依次执行为按照获取的对话文本信息的顺序，例如，获取的对话文本信息是“空调开暖风调到26摄氏度并打开方向盘加热”，则先执行空调开暖风调到26摄氏度的车辆控制操作，再执行打开方向盘加热的车辆控制操作。可选地，将得到的多个意图识别结果发送到相应的处理器，由相应的处理器各自执行每一意图识别结果，并在收到前一个处理器已经执行相应的车辆控制操作后，再发送下一个意图识别结果。

例如，将“空调开暖风调到26摄氏度”的意图识别结果发送到空调处理器，空调处理器执行空调开暖风调到26摄氏度的车辆控制操作。在收到空调处理器反馈信息已执行空调开暖风调到26摄氏度的车辆控制操作后，将“打开方向盘加热”的意图识别结果发送到BCM(Body Control Module车身控制模块)，BCM执行打开方向盘加热的车辆控制操作。这样，可以实现车辆的控制，提高车辆使用的便捷性。通过语音输入对话文本信息，可以提高驾驶过程中的安全性。

图6是根据一示例性实施例示出的一种用户多意图的识别装置的框图。如图6所示，所述装置600包括：获取模块610，输入模块620，第一执行模块630。

获取模块610，用于获取对话文本信息；

输入模块620，用于将所述对话文本信息输入分句模型进行分句处理，其中，所述分句模型的训练样本是根据单意图语料组合得到的；

第一执行模块630，用于在根据所述分句模型的输出得到多个单语句时，将所述多个单语句依次输入单语句识别模型，得到多个意图识别结果。

上述装置，通过获取对话文本信息，并将对话文本信息输入分句模型进行分句处理，分句模型的训练样本是根据单意图语料组合得到的，进一步地，若根据所分句模型的输出得到多个单语句，则将多个单语句依次输入单语句识别模型，得到多个意图识别结果。这样，可以在用户的说话内容是多个单语句时，便捷地完成用户多意图的分句，并最终便捷地得到用户的多个意图。并且不用从外部数据库获取并标注词向量，节省了模型清洗词向量的时间和向外部数据库获取词向量的资金支出，降低了实现成本。

可选地，所述装置600还包括：第二执行模块710，即如图7所示，所述装置600包括：获取模块610，输入模块620，第一执行模块630，第二执行模块510。

第二执行模块510，用于在根据所述分句模型的输出得到不可分句的多意图语句时，将所述多意图语句输入语句改写模型，得到所述语句改写模型输出的多个单语句；

第一执行模块630，还用于将该多个单语句依次输入单语句识别模型，得到多个意图识别结果。

可选地，所述装置600还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种电子设备800的框图。所述电子设备800可以用于执行所述的用户多意图的识别方法的步骤。如图8所示，该电子设备800可以包括：处理器801，存储器802。该电子设备800还可以包括多媒体组件803，输入/输出(I/O)接口804，以及通信组件805中的一者或多者。

其中，处理器801用于控制该电子设备800的整体操作，以完成上述的用户多意图的识别方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该电子设备800的操作，这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该电子设备800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件805可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignalProcessor，简称DSP)、数字信号处理设备(Digital Signal ProcessingDevice，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的用户多意图的识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的用户多意图的识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由电子设备800的处理器801执行以完成上述的用户多意图的识别方法。

本公开还提供一种车辆，所述车辆包括上述任一项所述的用户多意图的识别装置。上述电子设备800可以设置于所述车辆。具体实施方式已在对应的用户多意图的识别方法中说明，可以参照上述实施例及附图说明，此处不再做详细阐述说明。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种用户多意图的识别方法，其特征在于，所述方法包括：

获取对话文本信息；

2.根据权利要求1所述的方法，其特征在于，所述对话文本信息包括对文本进行序列标注得到的输入序列；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述语句改写模型支持对不同域的语料进行组合。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法应用于车辆，所述方法还包括：

6.一种用户多意图的识别装置，其特征在于，所述装置包括：

获取模块，用于获取对话文本信息；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

9.一种计算机可读存储介质，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

10.一种车辆，其特征在于，所述车辆包括权利要求6-8中任一项所述的用户多意图的识别装置。