CN110263653A

CN110263653A - 一种基于深度学习技术的场景分析***及其方法

Info

Publication number: CN110263653A
Application number: CN201910433837.8A
Authority: CN
Inventors: 王志宇; 杨嘉欣; 杨嘉烨
Original assignee: Guangdong Dingyi Interconnection Technology Co ltd
Current assignee: Guangdong Dingyi Interconnection Technology Co ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-20

Abstract

本发明公开了一种基于深度学***台；数据采集子***采集图像和语音；云AI平台中人脸识别模块根据深度学习技术对待测图像进行人脸识别；人脸表情分析模块人脸上的表情进行分析判断；语音识别模块根据深度学习技术对待测音频进行语音识别；语音分析模块待测音频的语义、语调进行分析判断；综合分析模块对人脸表情分析模块和语音分析模块所得到的结果进行综合分析。本发明能够同时满足人脸和语音的识别，并根据深度学习技术，得到人脸表情、语音的语义和语调的识别结果，不仅使识别结果更加准确而且保证了识别速度，进一步丰富了场景分析技术。

Description

一种基于深度学习技术的场景分析***及其方法

技术领域

本发明涉及深度学习技术领域，更具体的说是涉及一种基于基于深度学习技术的场景分析***及其方法。

背景技术

随着现代科技的不断进步，智能化时代已经来临，其中自然语言处理和人脸表情识别技术也早已经成为了本领域技术人员研究的重要课题。

然而，一方面，由于传统的浅层模型的局限性，传统的自然语言处理模型需要使用大量的语言学知识来手工构造特征，并且这些特征通常是由具体应用向导的，因此不具体广泛的适用性，如果具体任务发生变化则又必须重新手工构造新的特征；

另一方面，目前的人脸识别技术也主要是基于手工设计的特征提取算法来进行实现的，而在实际复杂环境中，人脸数据往往存在着各种因素的影响，例如光照、遮挡、姿态变化等，在这种情况下，现有基于手工设计特征提取算法的人脸识别方法具有较差的鲁棒性，对上述影响因素的抗干扰能力较差，而这些不可控制的因素使得基于现有方法的人脸识别性能急剧下降，难以保证人脸识别的效果，存在人脸识别准确率低的问题。

而且人们在不同的领域探索图像识别、语音识别、语义分析的应用，但是将自然语言处理、人脸识别和面部表情识别结合起来应用在场景分析的应用仍然较少，尚且处于发展阶段，无法进行准确识别。

因此，研究出一种识别准确且基于深度学习的自然语言处理和人脸表情识别的场景分析***和方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于深度学习技术的场景分析***及其方法，通过深度学习技术来对人脸或语音进行识别，并进一步对人脸的表情以及对语音的语义和语调进行分析，有效保证了识别与分析的准确性。

为了实现上述目的，本发明采用如下技术方案：

一种基于深度学***台；其中，

所述数据采集子***，用于图像和语音的采集；

所述数据库，用于存储数据；

所述云AI平台包括数据预处理模块、人脸识别模块、人脸表情分析模块、语音识别模块、语音分析模块和综合分析模块；

所述数据预处理模块，用于对所述数据采集子***所采集到的图像和语音进行预处理；

所述人脸识别模块，用于根据深度学习技术对待测图像进行人脸识别，并根据所述数据库内的数据判别待测图像内的人脸是否已经存在，并不断进行人脸识别深度学习；

所述人脸表情分析模块，用于对待测图像中人脸上的表情进行分析判断，并不断进行人脸表情分析深度学习；

所述语音识别模块，用于对待测音频进行语音识别，将语音内容转换为文字内容，对语音内容进行语义分析，并不断进行语音识别深度学习；

所述语音分析模块，用于待测音频的语义、语调进行分析判断；

所述综合分析模块，用于对人脸表情分析模块和语音分析模块所得到的结果进行综合分析。

优选的，所述预处理内容包括：对图像进行降维处理，对音频进行降噪处理以及文本输出。

优选的，所述数据采集子***包括图像采集模块和音频采集模块，

所述图像采集模块和所述音频采集模块，分别用于对图像和音频进行采集，并将所采集到的所述图像和所述音频发送至所述数据预处理模块。

优选的，所述人脸识别模块包括第一特征提取单元、第一深度学习模型和第一匹配与识别单元；

所述第一特征提取单元，用于根据第一深度学习模型将预处理后的图像提取人脸图像特征向量；

所述第一匹配与识别单元，用于将提取到的所述人脸图像特征向量与所述数据库中的人脸图像进行匹配，得到第一识别结果，并将所述第一识别结果发送至所述数据库进行存储，所述第一深度学习模型根据数据库的更新而不断更新。

优选的，所述语音识别模块包括第二特征提取单元、第二深度学习模型和第二匹配与识别单元；

所述第二特征提取单元，用于根据第二深度学习模型将预处理后的音频提取音频特征向量；

所述第二匹配与识别单元，用于将提取到的所述音频特征向量与所述数据库中的音频数据进行匹配，得到第二识别结果，并将所述第二识别结果发送至所述数据库进行存储，所述第二深度学习模型根据数据库的更新而不断更新。

优选的，所述语音分析模块包括语义分析单元和语调分析单元；

所述语义分析单元和所述语调分析单元分别根据所述语音识别单元所识别到的语音进行语义和语调分析。

一种基于深度学习技术的场景分析方法，包括以下步骤：

(1)图像和语音的采集；

(2)对所采集到的图像和语音进行预处理；

(3)根据深度学习技术对待测图像进行人脸识别，判断数据库中是否存在待测图像内的人脸，并对识别到的人脸上的表情进行分析判断；

(4)根据深度学习技术对待测音频进行语音识别，将语音转换为文字内容，并对识别到的语音的语义、语调进行分析判断；

(5)步骤(3)和步骤(4)的分析判断结果进行综合分析。

优选的，人脸识别的具体过程为：

根据第一深度学习模型将预处理后的图像提取人脸图像特征向量；

将提取到的人脸图像特征向量与数据库中的人脸图像进行匹配，得到第一识别结果，并将所述第一识别结果发送至所述数据库进行存储，所述第一深度学习模型根据数据库的更新而不断更新。

优选的，语音识别的具体过程为：

根据第二深度学习模型将预处理后的音频提取音频特征向量；

将提取到的所述音频特征向量与数据库中的音频数据进行匹配，得到第二识别结果，并将所述第二识别结果发送至所述数据库进行存储，所述第二深度学习模型根据数据库的更新而不断更新。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于深度学习技术的场景分析***及其方法，其中，首先该***能够同时满足人脸和语音的识别，并根据深度学习技术，得到人脸表情、语音的语义和语调的识别结果，不仅使识别结果更加准确而且保证了识别速度，进一步丰富了场景分析技术，其次，深度学习模型在使用的过程中能够不断迭代更新，更进一步地保证了识别结果的准确性。本发明可用于服务业、智慧城市等领域中，具有及时洞察客户情绪能够更好地满足客户的需求等优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的结构示意图；

图2附图为本发明提供的云AI平台内部结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于深度学***台；其中，

数据采集子***，用于图像和语音的采集；

数据库，用于存储数据；

如图2所示，云AI平台包括数据预处理模块、人脸识别模块、人脸表情分析模块、语音识别模块、语音分析模块和综合分析模块；

数据预处理模块，用于对数据采集子***所采集到的图像和语音进行预处理；

人脸识别模块，用于根据深度学习技术对待测图像进行人脸识别，并根据数据库内的数据判别待测图像内的人脸是否已经存在，并不断进行人脸识别深度学习；

人脸表情分析模块，用于对待测图像中人脸上的表情进行分析判断，并不断进行人脸表情分析深度学习；

语音识别模块，用于对待测音频进行语音识别，将语音内容转换为文字内容，对语音内容进行语义分析，并不断进行语音识别深度学习；

语音分析模块，用于待测音频的语义、语调进行分析判断；

综合分析模块，用于对人脸表情分析模块和语音分析模块所得到的结果进行综合分析。

优选的，预处理内容包括：对图像进行降维处理，对音频进行降噪处理以及文本输出。

更进一步地，该***还包括数据库，用于储存数据；

更进一步地，预处理内容包括：对图像进行降维处理，对音频进行降噪处理以及文本输出。

更进一步地，数据采集子***包括图像采集模块和音频采集模块，

图像采集模块和音频采集模块，分别用于对图像和音频进行采集，并将所采集到的图像和音频发送至数据预处理模块。

更进一步地，人脸识别模块包括第一特征提取单元、第一深度学习模型和第一匹配与识别单元；

第一特征提取单元，用于根据第一深度学习模型将预处理后的图像提取人脸图像特征向量；

第一匹配与识别单元，用于将提取到的人脸图像特征向量与数据库中的人脸图像进行匹配，得到第一识别结果，并将第一识别结果发送至数据库进行存储，第一深度学习模型根据数据库的更新而不断更新。

更进一步地，语音识别模块包括第二特征提取单元、第二深度学习模型和第二匹配与识别单元；

第二特征提取单元，用于根据第二深度学习模型将预处理后的音频提取音频特征向量；

第二匹配与识别单元，用于将提取到的音频特征向量与数据库中的音频数据进行匹配，得到第二识别结果，并将第二识别结果发送至数据库进行存储，第二深度学习模型根据数据库的更新而不断更新。

更进一步地，语音分析模块包括语义分析单元和语调分析单元；

语义分析单元和语调分析单元分别根据语音识别单元所识别到的语音进行语义和语调分析。

本发明的工作原理为：

图像采集模块和语音采集模块分别将采集到的图像和语音发送给数据预处理模块，数据预处理模块将图像进行降维等处理，并对语音进行降噪和文本输出等处理，数据预处理模块将预处理后的图像数据和语音数据分别发送至人脸识别模块和语音识别模块，人脸识别模块通过第一匹配与识别单元将提取到的人脸图像特征向量与数据库中的数据进行匹配，判断是否存在该人脸，并得到人脸识别结果，进一步根据人脸识别结果进行面部表情分析；语音识别模块通过第二匹配与识别单元将提取到的音频特征向量与数据库中的数据进行匹配，进而进行语义、语调分析。

综合分析模块综合人脸面部表情分析和语义语调分析结果，从而得出当前场景中被识别的该人的情绪等结果，完成场景分析。根据场景分析结果可实时获取客户心情，获知客户满意程度，可对突发事件进行预警，另外，对于智慧城市服务来说，可以动态预警，预防社会事件发生。

一种基于深度学习技术的场景分析方法，包括以下步骤：

(1)图像和语音的采集；

(2)对所采集到的图像和语音进行预处理；

(5)步骤(3)和步骤(4)的分析判断结果进行综合分析。

需要说明的是：步骤(3)和步骤(4)的先后顺序是不一定的，可以同时进行，也可以先进行步骤(3)后进行步骤(4)，反之亦然，也可以仅进行其中一个步骤，根据需要决定。

更进一步地，人脸识别的具体过程为：

将提取到的人脸图像特征向量与数据库中的人脸图像进行匹配，得到第一识别结果，并将第一识别结果发送至数据库进行存储，第一深度学习模型根据数据库的更新而不断更新。

更进一步地，语音识别的具体过程为：

将提取到的音频特征向量与数据库中的音频数据进行匹配，得到第二识别结果，并将第二识别结果发送至数据库进行存储，第二深度学习模型根据数据库的更新而不断更新。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学***台；其中，

所述数据采集子***，用于图像和语音的采集；

所述数据库，用于存储数据；

2.根据权利要求1所述的一种基于深度学习技术的场景分析***，其特征在于，所述预处理内容包括：对图像进行降维处理，对音频进行降噪处理以及文本输出。

3.根据权利要求1所述的一种基于深度学习技术的场景分析***，其特征在于，所述数据采集子***包括图像采集模块和音频采集模块，

4.根据权利要求1所述的一种基于深度学习技术的场景分析***，其特征在于，所述人脸识别模块包括第一特征提取单元、第一深度学习模型和第一匹配与识别单元；

5.根据权利要求1所述的一种基于深度学习技术的场景分析***，其特征在于，所述语音识别模块包括第二特征提取单元、第二深度学习模型和第二匹配与识别单元；

6.根据权利要求1所述的一种基于深度学习技术的场景分析***，其特征在于，所述语音分析模块包括语义分析单元和语调分析单元；

7.一种基于深度学习技术的场景分析方法，其特征在于，包括以下步骤：

(1)图像和语音的采集；

(2)对所采集到的图像和语音进行预处理；

(5)步骤(3)和步骤(4)的分析判断结果进行综合分析。

8.根据权利要求8所述的一种基于深度学习技术的场景分析方法，其特征在于，人脸识别的具体过程为：

9.根据权利要求8所述的一种基于深度学习技术的场景分析方法，其特征在于，语音识别的具体过程为：