CN114138960A

CN114138960A - 用户意图识别方法、装置、设备及介质

Info

Publication number: CN114138960A
Application number: CN202111446091.8A
Authority: CN
Inventors: 李少军
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-04

Abstract

本申请涉及人工智能技术领域，具体公开了一种用户意图识别方法、装置、设备及介质，其中，该方法包括：获取行为文本数据以及用户音频数据；对用户音频数据进行语音识别处理，得到音频文本数据；提取行为文本数据以及音频文本数据的关键词，得到关键词集合；对关键词集合进行关键词统计，得到文本识别结果，以及对会议数据进行情感识别处理，得到情感识别结果；根据文本识别结果以及情感识别结果，得到用户意图识别结果。通过综合分析文本识别结果和情感识别结果，得到用户意图识别结果，以对会议数据进行多方面的分析，提高了用户意图识别结果的准确性。

Description

用户意图识别方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种用户意图识别方法、装置、设备及介质。

背景技术

随着计算机技术的发展，网络会议突破了在空间距离上的限制，让人们可以远程参见会议进行沟通。例如，远程授课、小组讨论、产品介绍等会议场景，这些会议中通常包含有具有挖掘价值的会议数据，通过分析这些会议数据可以对会议中的用户的行为进行分析。

目前对会议数据的分析方法存在分析不全面，分析结果不准确的问题。

发明内容

为解决上述技术问题，本申请的实施例提供了一种用户意图识别方法、装置、设备及介质，以保证生成的标题更准确。

第一方面，本申请提供一种用户意图识别方法，包括：获取会议数据，所述会议数据包括行为文本数据以及用户音频数据；对所述用户音频数据进行语音识别处理，得到音频文本数据；提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合；对所述关键词集合进行关键词统计，得到文本识别结果，以及对所述会议数据进行情感识别处理，得到情感识别结果；根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果。

根据本发明优选实施例，所述对所述用户音频数据进行语音识别处理，得到音频文本数据，包括：分解所述用户音频数据得到音频片段，以及获取所述用户音频数据包含的声纹信息；根据所述声纹信息对所述音频片段进行声源分离，得到所述声纹信息对应的音频片段集合；对所述音频片段集合进行语音识别，得到所述声纹信息对应的音频文本数据。

根据本发明优选实施例，所述分解所述用户音频数据得到音频片段，包括：对所述用户音频数据进行语音活性检测，得到每帧音频的语音能量；提取所述语音能量大于能量阈值的音频帧，得到语音帧；根据所述语音帧的时间偏移量对所述语音帧进行分组，得到所述音频片段。

根据本发明优选实施例，所述提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合，包括：对所述行为文本数据以及所述音频文本数据进行预处理，得到词汇集合；其中，所述预处理包括去停用词预处理和分词预处理中的至少一项；调用预先配置的词典对所述词汇集合进行关键词识别，得到所述关键词集合，所述关键词集合包括关键词以及所述关键词对应的位置信息。

根据本发明优选实施例，所述对所述关键词集合进行关键词统计，得到文本识别结果，包括：根据关键词集合包含的关键词以及所述关键词对应的位置信息，构建倒排索引表；根据所述倒排索引表对每个所述关键词进行统计，以得到所述文本识别结果。

根据本发明优选实施例，所述对所述会议数据进行情感识别处理，得到情感识别结果，包括：对所述行为文本数据以及所述音频文本数据进行情感特征提取，得到文本情感特征参数；对所述用户音频数据进行情感特征提取，得到音频情感特征参数；将所述文本情感特征参数以及所述音频情感特征参数输入预设的情绪识别模型，得到所述情绪识别结果。

根据本发明优选实施例，所述根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果，包括：根据所述文本识别结果以及所述情感识别结果为对应的关键词进行评分，得到所述关键词对应的意向分值；选取所述意向分值大于分值阈值的关键词，得到用户意图识别结果。

第二方面，本申请提供一种用户意图识别装置，包括：数据获取模块，用于获取会议数据，所述会议数据包括行为文本数据以及用户音频数据；语音处理模块，用于对所述用户音频数据进行语音识别处理，得到音频文本数据；关键词提取模块，用于提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合；识别模块，用于对所述关键词集合进行关键词统计，得到文本识别结果，以及对所述会议数据进行情感识别处理，得到情感识别结果；结果获取模块，用于根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果。

第三方面，本申请提供一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现上述用户意图识别方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现上述用户意图识别方法的步骤。

本申请实施例公开的用户意图识别方法、装置、设备及介质，通过获取网络会议中的行为文本数据以及用户音频数据，对用户音频数据进行语音识别得到音频文本数据，然后对音频文本数据和行为文本数据进行关键词识别和统计，分析每个关键词对应的重要程度，得到文本识别结果。且通过对会议频数据进行情感识别，分析在网络会议中用户的情感状态，得到情感识别结果。最后结合文本识别结果和情感识别结果，综合判断用户的意图，得到用户意图识别结果，以对会议数据进行全面分析，提高了用户意图识别结果的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请实施例提供的一种***结构的示意图；

图2是本申请实施例提供的用户意图识别方法的流程图；

图3是本申请实施例提供的用户意图识别装置的示意性框图；

图4是本申请实施例提供的计算机设备的示意性框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的用户意图识别方法，可以应用于如图1所示的应用环境中。其中，该应用环境可以包括终端101、网络以及服务端102，网络用于在终端101和服务端102之间提供通信链路介质，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

服务端102为网络会议所在的应用程序(Application，简称APP)对应的设备，可以管理各个终端101所产生的与该应用程序关联的数据；终端101是指参与该网络会议的会议参与终端，用户可以使用终端101通过网络与服务端102交互，以接收或发送消息等，进而和其他终端进行数据交互。终端101上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端101可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务端102可以是提供各种服务的服务器，例如对终端101上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的用户意图识别方法可以由服务端执行，也可以由终端执行，相应地，用户意图识别装置可以设置于服务端，也可以设置于终端设备中。

应该理解，图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图2，图2为本申请实施例提供的用户意图识别方法的一个流程示意图。如图2所示，该方法包括步骤S201至步骤S205。

步骤S201、获取会议数据，所述会议数据包括行为文本数据以及用户音频数据。

网络会议指的是以网络(例如互联网、局域网)为通信媒介的互动方式，用户的文本、语音、视频等形式的多媒体数据会被实时同步到会议发起者和其他的用户，从而突破用户在空间距离上的交流限制。

在网络会议进行过程中，会产生对应的会议数据，会议数据包括行为文本数据以及用户音频数据。行为文本数据是基于目标网络会议中的文本信息生成的数据。文本信息包括但不限于聊天数据、网页链接对应的文本数据、文件上传数据等。例如，当网络会议中出现网页链接数据时，为了方便后续步骤对行为文本数据的分析，获取的文本信息包括该链接对应的网页的文本数据，例如网页链接数据对应一篇文章，则该网页链接数据对应的文本数据可以包括该文章的文章标题以及文章正文。用户音频数据是基于目标网络会议中的声音信号生成的数据。可以理解，参与目标网络会议的各用户在会议进行过程中，均可产生声音信号，这些声音信号都可以作为用户音频数据的来源。在目标网络会议进行时，可以实时获取该网络会议的用户音频数据，以保证最终获取的用户意图识别结果的时效性。

其中，网络会议的连接形式包括但不限于电话会议、视频会议、文字会议等等。电话会议是一种经由公共交换电话网络(Public Switched Telephone Network，简称PSTN)、网络电话(Voice over Internet Protocol，简称VoIP)等渠道，借助多方互联的信息手段，把分散在各地的用户组织起来，通过电话进行业务会议的沟通形式。视频会议是指两个或两个以上不同地方的个人或群体，通过传输线路以及多媒体设备，将声音、影像及文件资料等数据互相传送，使用户之间进行即时的沟通。文字会议，指的是借助于现有的通讯工具，在用户不方便进行带有语音的会议的时候，通过文字会议参与会议，进行各项会议内容讨论。

对应于上文中的各种会议连接方式，可以提取网络会议中的行为文本数据以及用户音频数据等，作为会议数据。

步骤S202、对所述用户音频数据进行语音识别处理，得到音频文本数据。

语音识别指的是将语音信号转变为相应的文本信号，即将用户音频数据中包含的语音信号转变为相应的文本信号，以得到音频文本数据。通过语音识别将用户音频数据中的词汇内容转换为计算机可读的输入数据，例如二进制编码、字符序列等数据，以便于后续分析。

在一些实施方式中，所述对所述用户音频数据进行语音识别处理，得到音频文本数据，包括：获取所述用户音频数据包含的声纹信息，以及分解所述用户音频数据得到音频片段；根据所述声纹信息对所述音频片段进行声源分离，得到所述声纹信息对应的音频片段集合；对所述音频片段集合进行语音识别，得到所述声纹信息对应的音频文本数据。

在网络会议过程中，用户音频数据可以包括用户之间的交谈声，因此，可以根据交谈场景的语音特征，将用户音频数据划分为多个音频片段。

示例性地，所述分解所述用户音频数据得到音频片段，包括：对所述用户音频数据进行语音活性检测，得到每帧音频的语音能量；提取所述语音能量大于能量阈值的音频帧，得到语音帧；根据所述语音帧的时间偏移量对所述语音帧进行分组，得到所述音频片段。

用户音频数据包括语音帧和非语音帧。语音帧指的是用户音频数据中包括说话人声音的帧，非语音帧指的是用户音频数据中不包括说话人声音的帧。

可以先提取用户音频数据中的语音帧，以过滤掉非语音帧。例如，可以通过语音活性检测技术获取用户音频数据中的中每一帧音频的语音能量，在语音能量大于预先设置的能量阈值的情况下，可以确定该帧音频为语音帧；在语音能量小于该能量阈值的情况下，可以确定该帧音频为非语音帧。

然后根据提取的语音帧之间的时间漂移量，获取每段交谈语音之间的转换点，以根据转换点划分用户音频数据，得到音频片段。语音之间的转换点指的是相邻语音帧之间的时间漂移量大于漂移量阈值的点。通过识别每段交谈语音之间的转换点，将用户音频数据中每段交谈语音区分开，以保证每段音频片段包含一段完整的话，进而提高对用户音频数据进行语音识别的准确性。

进一步地，因为每个用户拥有不同的声纹信息，通过声纹信息可以将音频片段进行声源分离，以得到每个用户对应的音频片段集合。例如，为了确定用户音频数据中的实际发言人数，可以获取用户音频数据的中每个音频片段的声纹信息，并获取与该声纹信息相似的声纹信息对应的音频片段，以得到该声纹信息对应的音频片段集合，其中，音频片段集合中的音频片段是属于相同说话人的音频片段。

例如，可以将用户音频数据中的每个音频片段输入预先训练的声纹信息提取模型，得到每个音频片段对应的声纹信息。然后计算每个声纹信息之间的相似度，将相似度大于相似度阈值的声纹信息对应的音频片段作为同一用户的音频片段。

根据声纹信息对用户音频数据中的每个音频片段进行分组，以得到每个用户对应的音频片段集合。然后对音频片段集合中的音频片段进行语音识别，以得到每个用户的音频文本数据。

示例性地，可以将音频片段通过自动语音识别算法(Automatic SpeechRecognition，简称ASR)进行语音识别，得到该音频片段对应的文本。ASR是将人的语音转换为文本的技术，基本过程为先对音频进行音频帧拆分，并对拆分出的小段波形转换为多维向量，再将多维向量组合成音素，不同的单词由不同的音素组成，通过识别输入语音中存在哪些音素，进而组合成识别出的文字。

步骤S203、提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合。

行为文本数据以及音频文本数据可以反映用户的偏好信息，例如对某个产品的偏好，通过分析行为文本数据以及音频文本数据可以获取用户的意图。

在一些实施方式中，所述提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合，包括：对所述行为文本数据以及所述音频文本数据进行预处理，得到词汇集合；其中，所述预处理包括去停用词预处理和分词预处理中的至少一项；调用预先配置的词典对所述词汇集合进行关键词识别，得到所述关键词集合，所述关键词集合包括关键词以及所述关键词对应的位置信息。

因为行为文本数据以及音频文本数据中包含有各种噪声信息，如语气词、人称、感叹词等停用词以及无意义词，因此，对行为文本数据以及音频文本数据进行无用词的过滤，例如将行为文本数据以及音频文本数据与停用词库进行匹配，以过滤行为文本数据以及音频文本数据中与停用词库匹配成功的词，从而实现对行为文本数据以及音频文本数据进行去噪的效果，进而得到标准文本。其中，停用词库包括：语气词、人称、感叹词等停用词以及无意义词。

然后对行为文本数据以及音频文本数据进行分词预处理，预设的分词方式包括但不限于：通过第三方分词工具或者分词算法等。其中，常见的第三方分词工具包括但不限于：Stanford NLP分词器、ICTClAS分词***、ansj分词工具和HanLP中文分词工具等。分词算法包括但不限于：最大正向匹配(Maximum Matching，简称MM)算法、逆向最大匹配(Reverse Direction Maximum Matching Method，简称RMM)算法、双向最大匹配(Bi-directional Matching method，简称BM)算法、隐马尔科夫模型(Hidden Markov Model，简称HMM)和N-gram模型等。

通过去停用词预处理以及分词预处理，得到词汇集合，然后根据词典对词汇集合进行关键词识别。

其中，词典是预先建立的，词典中包含有预设关键词，可以针对不同的应用场景，建立对应的词典。通过识别词汇集合中是否包含有预设关键词匹配的词汇，以提取行为文本数据以及音频文本数据包含的关键词，并根据该关键词对应的位置信息构建关键词集合。

可以理解的是，在根据词典的预设关键词对词汇集合中的待识别词汇进行匹配时，可以通过计算预设关键词与待识别词汇之间的相似度，判断预设关键词与待识别词汇是否匹配。

根据每个关键词的重要值对关键词进行统计，得到文本识别结果。

步骤S204、对所述关键词集合进行关键词统计，得到文本识别结果，以及对所述会议数据进行情感识别处理，得到情感识别结果。

文本识别结果用于反映每个关键词在行为文本数据以及音频文本数据中的重要程度，当一个关键词越重要，则表明用户对该关键词越关注。通过对关键词集合中的关键词进行统计，以得到每个关键词的重要程度，进而得到文本识别结果。

情感识别结果用于反映用户在提到每个关键词时，对应的情感信息，当用户对一个关键词的情感信息越积极，则表明用户对该关键词越喜爱。通过对会议数据进行情感识别，得到用户的情感识别结果。

在一些实施方式中，所述对所述关键词集合进行关键词统计，得到文本识别结果，包括：根据关键词集合包含的关键词以及所述关键词对应的位置信息，构建倒排索引表；根据所述倒排索引表对每个所述关键词进行统计，以得到所述文本识别结果。

倒排索引由两个部分组成，第一部分是属性值，第二部分是具有该属性值的各记录的地址。因此，根据关键词集合中包含的关键词以及关键词对应的位置信息，构建倒排索引，可以更直观地由关键词获知该关键词出现的位置，由此可以统计该关键词的重要程度。

例如，统计各网络会议中被用户提到次数最多的关键词，可以根据该关键词获知对应参会对应的偏好信息。如网络会议中，对用户A的行为文本数据以及音频文本数据进行关键词提取和统计后，得到出现次数最多的关键词为“产品A”，由此可以获知用户A的偏好信息为“产品A”。

在一些实施方式中，对所述关键词集合进行关键词统计，得到文本识别结果，还可以是计算关键词集合中每个关键词的重要值，以根据重要值对关键词进行统计，得到文本识别结果。可以理解的是，一个关键词的重要值越大，则该关键词在行为文本数据以及音频文本数据中越重要。

对关键词的重要值的计算可以是采用词频逆文本频率(Term Frequency-InverseDocument Frequency，简称TF-IDF)算法计算，也可以是采用TextRank算法计算，本申请实施例在此不做限定。

例如，采用词频逆文本频率算法计算关键词的重要值。计算关键词在行为文本数据以及音频文本数据中的词汇数量，并计算行为文本数据以及音频文本数据的分词总量；将词汇数量除以分词总量，得到该关键词在行为文本数据以及音频文本数据中的词频。然后获取建立词典的对应的生成文件，并计算生成文件的文件总量；从生成文件中获取包含有关键词的目标文件，并计算目标文件的目标数量；计算文件总量与目标数量的比值，并计算比值的对数值，得到目标词汇的逆文档频率。计算词频与逆文档频率的乘积，得到该关键词的重要值。

如果仅仅是对网络会议中的行为文本数据以及音频文本数据进行文本识别，以得到用户意图识别，可能导致识别的结果不准确，如用户在网络会议中虽然频繁提到“产品A”，但是该用户在提到“产品A”时对应的情绪是愤怒的，则其实该用户的偏好信息并不是“产品A”。因此为了保证用户意图识别结果的准确性，对会议数据进行情感识别处理，以根据情感识别结果对用户意图进行更全面的判断。

会议数据包括行为文本数据以及用户音频数据，对行为文本数据以及用户音频数据中的至少一者进行情感识别处理，以得到情感识别结果。

在一些实施方式中，所述对所述会议数据进行情感识别处理，得到情感识别结果，包括：对所述行为文本数据以及所述音频文本数据进行情感特征提取，得到文本情感特征参数；对所述用户音频数据进行情感特征提取，得到音频情感特征参数；将所述文本情感特征参数以及所述音频情感特征参数输入预设的情绪识别模型，得到所述情绪识别结果。

情绪识别结果包括对多个关键词的情绪，例如获取对关键词“产品A”的情绪时，可以根据与“产品A”关联的行为文本数据以及用户音频数据进行情绪识别，得到对应的情绪识别结果。

示例性地，将行为文本数据以及用户音频数据对应的音频文本数据转换为文本向量矩阵，并从文本向量矩阵中提取文本情感特征参数。可采用word2vec模型、自然语言处理(Natural Language Processing，简称NLP)模型等具有词向量转换功能的模型分别将行为文本数据以及音频文本数据转换为文本向量矩阵。在得到文本向量矩阵后，可对所述文本向量矩阵进行特征提取，以获取行为文本数据以及音频文本数据的文本情感特征参数，文本特征包括但不限于文本场景、文本主题、文本关键词。

然后，将用户音频数据进行情感特征提取，得到对应的音频情感特征参数，音频情感特征参数包括振幅能量、基音频率、共振峰中的至少一项。其中，音频数据的振幅的大小影响声音的大小，其中，悲伤的振幅能量明显小于其他高兴、愤怒、平静三类情感，而高兴和愤怒的振幅能量相对较高。因此，利用振幅能量特征，可以将四类情感大致区别开。基音频率是指发浊音时声带振动的频率，它的倒数为基音周期。基音与人的声带长度、质量等物理量有关，因此，与人的年龄、性别、情绪等生理状态有关。共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道的物理特征。共振峰特征可以在一定程度上反映情绪特征趋势。

在一些实施方式中，当会议数据中还包括视频数据时，还可以根据视频数据识别用户的情感。视频数据指的是在会议过程中含有用户影像的数据。例如，通过从视频数据中提取待测用户的人脸图像，基于待测用户的人脸图像提取面部关键特征点的位置作为特征区域，关键特征点可以包括眉毛、眼睑、嘴唇、下巴，并对关键特征点进行强度分级，生成表情特征。通过综合考虑表情特征、文本情感特征以及音频情感特征，可以提高情绪识别的准确性。

将获取的文本情感特征参数以及音频情感特征参数等数据输入预设的情绪识别模型，以得到情绪识别结果。其中，预设的情绪识别模型可以是基于蒸馏神经网络构建情绪识别模型，还可以基于其他神经网络训练情绪识别模型，例如，浅层卷积神经网络与卷积神经网络等，本申请实施例不对情绪识别模型的具体结构进行限定。

步骤S205、根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果。

根据文本识别结果以及情感识别结果，可以准确地对用户意图进行识别，以获知用户的偏好信息。

在一些实施方式中，所述根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果，包括：根据所述文本识别结果以及所述情感识别结果为对应的关键词进行评分，得到所述关键词对应的意向分值；选取所述意向分值大于分值阈值的关键词，得到用户意图识别结果。

可以理解的是，在网络会议中，关键词出现的次数越多，则代表该关键词越重要，且在用户提到对应关键词的场景下，对应的情绪识别结果越积极，则代表该关键词越重要。

因此，根据文本识别结果可以统计每个关键词在网络会议中出现的次数，关键词出现的次数越多，则该关键词的评分越高。同时，根据情感识别结果可以统计每个关键词在网络会议中出现时，用户对应的情感，情感越积极，则对应关键词的评分越高。

根据文本识别结果和情感识别结果分别对每个关键词进行评分，以得到两个评分结果，然后通过对文本识别结果和情感识别结果设定的权重值，对两个评分结果加权求和，以得到最终的意向分值。意向分值用于表征对应的用户对该关键词的偏好程度，选取意向分值大于分值阈值的关键词，以得到用户意图识别结果。

在一些实施方式中，用户意图识别过程中，还可以获取用户的信息历史记录以及调查问卷等用户数据，以根据用户数据、网络会议的文本识别结果以及情感识别结果，得到该网络会议的用户意图识别结果。其中，用户的信息包括但不限于用户的年龄、性别、职业、婚姻情况等等。用户的历史记录包括但不限于用户访问页面相关的数据，用户的商品购买记录等。调查问卷用于直接获取用户对产品的评价，例如，可以向客户端下发问卷调查页面，客户端显示问卷调查页面，并由用户针对问卷调查页面上的问题进行输入答案数据。

进一步地，还可以将文本识别结果以及情感识别结果作为展示数据映射到特定的视图上，可以根据实际情况采用不同的展示方式。展示方式包括但不限于以下一种或者多种方式的组合：以列表的形式展示所述展示数据；以直方图的形式展示所述展示数据；以圆形数据分析图的形式展示所述展示数据；以数据对比分析图的形式展示所述展示数据；以数据走势分析图的形式展示所述展示数据。通过视图展示，技术人员可以根据视图直观地获取网络会议进行过程中用户的偏好信息的变化，有利于及时获取用户的意图。

通过获取网络会议中的行为文本数据以及用户音频数据，对用户音频数据进行语音识别得到音频文本数据，然后对音频文本数据和行为文本数据进行关键词识别和统计，分析每个关键词对应的重要程度，得到文本识别结果。且通过对会议频数据进行情感识别，分析在网络会议中用户的情感状态，得到情感识别结果。最后结合文本识别结果和情感识别结果，综合判断用户的意图，得到用户意图识别结果，以对会议数据进行全面分析，提高了用户意图识别结果的准确性。

应当注意，尽管在附图中以特定顺序描述了本公开实施例中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

请参阅图3，图3是本申请一实施例提供的一种用户意图识别装置的示意框图，该用户意图识别装置可以配置于服务器或终端设备中，用于执行前述的用户意图识别方法。

如图3所示，该装置300包括：数据获取模块301、语音处理模块302、关键词提取模块303、识别模块304以及结果获取模块305。

数据获取模块301，用于获取会议数据，所述会议数据包括行为文本数据以及用户音频数据；

语音处理模块302，用于对所述用户音频数据进行语音识别处理，得到音频文本数据；

关键词提取模块303，用于提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合；

识别模块304，用于对所述关键词集合进行关键词统计，得到文本识别结果，以及对所述会议数据进行情感识别处理，得到情感识别结果。

结果获取模块305，用于根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。

如图4所示，该计算机设备400包括通过***总线402连接的处理器401、存储器403和网络接口404，其中，存储器403可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作***405和计算机程序406。该计算机程序406包括程序指令，该程序指令被执行时，可使得处理器401执行任意一种用户意图识别方法。

处理器401用于提供计算和控制能力，支撑整个计算机设备400的运行。

内存储器403为非易失性存储介质中的计算机程序406的运行提供环境，该计算机程序406被处理器401执行时，可使得处理器401执行任意一种用户意图识别方法。

该网络接口404用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备400的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备400的限定，具体地计算机设备400可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器401可以是中央处理单元(Central Processing Unit，简称CPU)，该处理器401还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器301可以是微处理器或者该处理器401也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器401用于运行存储在存储器中的计算机程序406，以实现如下步骤：

获取会议数据，所述会议数据包括行为文本数据以及用户音频数据；

对所述用户音频数据进行语音识别处理，得到音频文本数据；

提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合；

对所述关键词集合进行关键词统计，得到文本识别结果，以及对所述会议数据进行情感识别处理，得到情感识别结果；

根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果。

在一些实施方式中，所述对所述用户音频数据进行语音识别处理，得到音频文本数据，包括：

获取所述用户音频数据包含的声纹信息，以及分解所述用户音频数据得到音频片段；

根据所述声纹信息对所述音频片段进行声源分离，得到所述声纹信息对应的音频片段集合；

对所述音频片段集合进行语音识别，得到所述声纹信息对应的音频文本数据。

在一些实施方式中，所述分解所述用户音频数据得到音频片段，包括：

对所述用户音频数据进行语音活性检测，得到每帧音频的语音能量；

提取所述语音能量大于能量阈值的音频帧，得到语音帧；

根据所述语音帧的时间偏移量对所述语音帧进行分组，得到所述音频片段。

在一些实施方式中，所述提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合，包括：

对所述行为文本数据以及所述音频文本数据进行预处理，得到词汇集合；其中，所述预处理包括去停用词预处理和分词预处理中的至少一项；

调用预先配置的词典对所述词汇集合进行关键词识别，得到所述关键词集合，所述关键词集合包括关键词以及所述关键词对应的位置信息。

在一些实施方式中，所述对所述关键词集合进行关键词统计，得到文本识别结果，包括：

根据关键词集合包含的关键词以及所述关键词对应的位置信息，构建倒排索引表；

根据所述倒排索引表对每个所述关键词进行统计，以得到所述文本识别结果。

在一些实施方式中，所述对所述会议数据进行情感识别处理，得到情感识别结果，包括：

对所述行为文本数据以及所述音频文本数据进行情感特征提取，得到文本情感特征参数；

对所述用户音频数据进行情感特征提取，得到音频情感特征参数；

将所述文本情感特征参数以及所述音频情感特征参数输入预设的情绪识别模型，得到所述情绪识别结果。

在一些实施方式中，所述根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果，包括：

根据所述文本识别结果以及所述情感识别结果为对应的关键词进行评分，得到所述关键词对应的意向分值；

选取所述意向分值大于分值阈值的关键词，得到用户意图识别结果。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时实现本申请实施例提供的任一种用户意图识别方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，简称SMC)，安全数字(Secure Digital，简称SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种用户意图识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述用户音频数据进行语音识别处理，得到音频文本数据，包括：

分解所述用户音频数据得到音频片段，以及获取所述用户音频数据包含的声纹信息；

3.根据权利要求2所述的方法，其特征在于，所述分解所述用户音频数据得到音频片段，包括：

提取所述语音能量大于能量阈值的音频帧，得到语音帧；

4.根据权利要求1所述的方法，其特征在于，所述提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述关键词集合进行关键词统计，得到文本识别结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述会议数据进行情感识别处理，得到情感识别结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果，包括：

8.一种用户意图识别装置，其特征在于，包括：

数据获取模块，用于获取会议数据，所述会议数据包括行为文本数据以及用户音频数据；

语音处理模块，用于对所述用户音频数据进行语音识别处理，得到音频文本数据；

关键词提取模块，用于提取所述行为文本数据以及所述音频文本数据的关键词，得到关键词集合；

识别模块，用于对所述关键词集合进行关键词统计，得到文本识别结果，以及对所述会议数据进行情感识别处理，得到情感识别结果；

结果获取模块，用于根据所述文本识别结果以及所述情感识别结果，得到用户意图识别结果。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的用户意图识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的用户意图识别方法。