CN116434027A

CN116434027A - 一种基于图像识别人工智能交互***

Info

Publication number: CN116434027A
Application number: CN202310686364.9A
Authority: CN
Inventors: 全一明; 张雪莹
Original assignee: Shenzhen Xingxun Technology Co ltd
Current assignee: Shenzhen Xingxun Technology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-07-14

Abstract

本发明涉及图像识别技术领域，具体地说，涉及一种基于图像识别人工智能交互***。其包括数据库单元、图像识别单元、特征融合单元和智能交互单元。本发明通过在数据库单元建立多种交互方式的特征数据库，实现在图像识别单元采集用户图像，识别多种特征数据后，可以根据多种数据从数据库单元输出对应的交互内容，根据特征融合单元将多个交互内容融合，输出等级高的交互内容，由智能交互单元进行执行，避免了单一的交互方式造成执行交互操作有局限，不能随意改变交互方式，并且从多个交互内容中识别出等级高的交互内容执行交互操作，确定交互执行的交互操作更准确，提高准确性。

Description

一种基于图像识别人工智能交互***

技术领域

本发明涉及图像识别技术领域，具体地说，涉及一种基于图像识别人工智能交互***。

背景技术

随着计算机、移动设备、物联网和云计算等技术的迅速发展，人工智能技术已经成为当前最为热门的技术之一，其中，人机交互是最具代表性的，人机交互技术应用潜力已经开始展现，比如智能手机配备的地理空间跟踪技术，应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术，应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术，应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术，然而，现有的人工智能交互***存在一些局限性，如识别准确性不高、交互方式单一等，特别是在进行语音识别来进行交互时，若周围的噪音较大，导致不能准确识别用户的声音，导致识别的交互内容不准确，并且若进行单一交互方式，尽管多次重复操作，也可能造成交互不准确，导致识别准确性差，鉴于此，我们提出一种基于图像识别人工智能交互***。

发明内容

本发明的目的在于提供一种基于图像识别人工智能交互***，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供一种基于图像识别人工智能交互***，包括数据库单元、图像识别单元、特征融合单元和智能交互单元；

所述数据库单元用于建立多种交互方式对应的特征数据库，多种交互方式包括语音交互、唇语交互和手势交互；所述图像识别单元用于采集用户图像，通过深度学习算法识别输入图像中的多种特征数据，多种特征数据包括语音特征、唇语特征和手势特征；所述特征融合单元用于将所述图像识别单元识别的特征数据输入到数据库单元，输出多种特征数据分别对应的交互内容，融合多种交互内容生成最终的交互内容，所述智能交互单元用于接收所述特征融合单元最终确定交互内容执行交互操作。

作为本技术方案的进一步改进，所述数据库的表达式为：

其中，

表示特征数据库的集合，/>

表示交互内容，/>

表示语音特征，/>

表示唇语特征，/>

表示手势特征，n为特征数量。

作为本技术方案的进一步改进，所述图像识别单元包括图像采集模块、语音特征识别模块、唇语特征识别模块和手势特征识别模块；

所述图像采集模块用于通过摄像机采集用户对应的图像数据和音频数据，所述语音特征识别模块用于根据图像采集模块采集的音频数据识别语音内容的特征；所述唇语特征识别模块用于根据图像采集模块采集的图像数据对应用户的唇部，识别唇部特征，所述手势特征识别模块用于根据图像采集模块采集的图像数据识别手势特征。

作为本技术方案的进一步改进，所述语音特征识别模块、所述唇语特征识别模块和所述手势特征识别模块均采用深度学习算法的卷积神经网络进行模型训练，包括以下步骤：

预处理：将音频数据和图像数据转换为数字信号，并对其进行预处理；

特征提取：对于预处理后的音频数据和图像数据进行特征提取；

模型训练：使用卷积神经网络对提取的特征进行模型训练；

识别和输出：将采集到的音频数据和图像数据输入到模型中，实现语音信号转换为文本，图像信号转换为唇语特征和手势特征。

作为本技术方案的进一步改进，所述唇语特征识别模块在特征提取时，还包括唇部轮廓识别模块，所述唇部轮廓识别模块用于采用边缘检测算法在图像数据中确定唇部的形态和动态特征。

作为本技术方案的进一步改进，所述特征融合单元包括交互内容确定模块、融合分析模块和优先级定义模块；

所述交互内容确定模块用于将语音特征、唇语特征和手势特征的数据传输至数据库单元，依次存储数据库单元输出的与语音特征、唇语特征和手势特征对应的交互内容；所述融合分析模块用于融合语音特征、唇语特征和手势特征对应的交互内容，比对多个交互内容并列情况；所述优先级定义模块用于根据交互内容并列情况，输出占比高的交互内容，若交互内容并列多个，则根据优先级序列输出交互内容。

作为本技术方案的进一步改进，所述融合分析模块采用并列比对算法判断三个交互内容的并列情况，包括以下步骤：

设三个文本为t1、t2、t3，分别对应语音特征、唇语特征和手势特征；

可以通过计算t1，t2，t3两两编辑距离的平均值，判断交互内容的相似度，得到相似度矩阵，判断三个交互内容的并列情况，表达式为：

其中，

表示文本ti和文本tj的相似度，/>

为ti，tj两个文本的编辑距离，

表示文本ti的长度，/>

表示tj的长度。

作为本技术方案的进一步改进，所述优先级序列包括：

第一级、唇语特征；

第二级、手势特征；

第三级、语音特征；

在多个交互内容并列时，由第一级、第二级和第三级的顺序输出交互内容。

作为本技术方案的进一步改进，所述图像识别单元还包括情绪分析模块，所述情绪分析模块用于根据语音特征分析用户的当前情绪，将情绪信号传输至所述智能交互单元执行相匹配的交互操作。

作为本技术方案的进一步改进，情绪分析模块在分析当前用户的情绪时，包括以下步骤：提取语音特征的相关特征参数，包括声音的基频、共振峰频率，通过特征参数的聚类、分类以及分类器训练，对语音情感进行分类和识别。

与现有技术相比，本发明的有益效果：

该基于图像识别人工智能交互***中，通过在数据库单元建立多种交互方式的特征数据库，实现在图像识别单元采集用户图像，识别多种特征数据后，可以根据多种数据从数据库单元输出对应的交互内容，根据特征融合单元将多个交互内容融合，输出占比高的交互内容，由智能交互单元进行执行，避免了单一的交互方式造成执行交互操作有局限，不能随意改变交互方式，并且从多个交互内容中识别出等级高的交互内容执行交互操作，确定交互执行的交互操作更准确，提高准确性。

附图说明

图1为本发明的整体的原理框图；

图2为本发明的图像识别单元原理框图；

图3为本发明的特征融合单元原理框图。

图中各个标号意义为：

100、数据库单元；

200、图像识别单元；210、图像采集模块；220、语音特征识别模块；230、唇语特征识别模块；240、手势特征识别模块；

300、特征融合单元；310、交互内容确定模块；320、融合分析模块；330、优先级定义模块；

400、智能交互单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着计算机、移动设备、物联网和云计算等技术的迅速发展，人工智能技术已经成为当前最为热门的技术之一，其中，人机交互是最具代表性的，机交互技术应用潜力已经开始展现，比如智能手机配备的地理空间跟踪技术，应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术，应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术，应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术；

请参阅图1-图3示出本发明的第一实施例，本实施例提供一种基于图像识别人工智能交互***，包括数据库单元100、图像识别单元200、特征融合单元300和智能交互单元400；

数据库单元100用于建立多种交互方式对应的特征数据库，多种交互方式包括语音交互、唇语交互和手势交互；

数据库的表达式为：

其中，

表示特征数据库的集合，/>

表示交互内容，/>

表示语音特征，/>

表示唇语特征，/>

表示手势特征，n为特征数量；例如a1对应的交互内容为“你好”，b1为用户发出“你好”的语音包特征，c1为用户发出“你好”语音包对应的唇语特征，d1为用户表示“你好”的手势，通过a1，b1，c1，d1表示，四个元素点之间的对应关系，方便后续在输入其中一个元素点时，可以输出其余的元素点。

图像识别单元200用于采集用户图像，通过深度学习算法识别输入图像中的多种特征数据，多种特征数据包括语音特征、唇语特征和手势特征；

图像识别单元200包括图像采集模块210、语音特征识别模块220、唇语特征识别模块230和手势特征识别模块240；

图像采集模块210用于通过摄像机采集用户对应的图像数据和音频数据，语音特征识别模块220用于根据图像采集模块210采集的音频数据识别语音内容的特征；唇语特征识别模块230用于根据图像采集模块210采集的图像数据对应用户的唇部，识别唇部特征，手势特征识别模块240用于根据图像采集模块210采集的图像数据识别手势特征。

值得说明的，语音特征识别模块220、唇语特征识别模块230和手势特征识别模块240均采用深度学习算法的卷积神经网络进行模型训练，包括以下步骤：

预处理：将音频数据和图像数据转换为数字信号，并对其进行预处理，例如音频数据去除噪音、滤波等操作，图像数据调整亮度、锐化、归一化等操作，以便于后续的处理和分析；

特征提取：对于预处理后的音频数据和图像数据进行特征提取，我们可以使用短时能量、频率和谱图等技术对音频数据进行特征提取，这些特征可以用来描述语音信号的频率、能量、说话人的语调和音色等，从而更好地抓取语音特征对应的内容；

模型训练：使用卷积神经网络对提取的特征进行模型训练，这可以通过对成百上千的样本进行训练，并使用交叉验证等方法进行模型调优来实现；

识别和输出：在模型训练完成后，我们可以将采集到的音频数据和图像数据输入到模型中，实现语音信号转换为文本，图像信号转换为唇语特征和手势特征，即识别出对应的内容，最终，我们将输出转换后的文本，也就实现了通过摄像机采集的语音，识别语音特征对应的内容，完成从采集到的音频数据中，识别出用户实际说的话语，并将其转换为文本。

唇语特征识别模块230在特征提取时，还包括唇部轮廓识别模块，唇部轮廓识别模块用于采用边缘检测算法在图像数据中确定唇部的形态和动态特征；具体的，采用边缘检测算法采用Canny算子：是一种广泛应用的边缘检测算法，其特点是准确性高，能够检测到很细的边缘，具体流程为：

首先对图像进行高斯滤波，使图像平滑化，去除高斯噪声；计算图像的梯度，找到各个像素点的强度变化；针对梯度值，进行非最大抑制处理，只保留局部梯度变化最大的像素点，抑制一些非边缘的像素；通过设定高低阈值来划分边缘和非边缘像素点，最终确定唇部轮廓。

特征融合单元300用于将图像识别单元200识别的特征数据输入到数据库单元100，输出多种特征数据分别对应的交互内容，融合多种交互内容生成最终的交互内容，智能交互单元400用于接收特征融合单元300最终确定交互内容执行交互操作。

特征融合单元300包括交互内容确定模块310、融合分析模块320和优先级定义模块330；

交互内容确定模块310用于将语音特征、唇语特征和手势特征的数据传输至数据库单元100，依次存储数据库单元100输出的与语音特征、唇语特征和手势特征对应的交互内容；融合分析模块320用于融合语音特征、唇语特征和手势特征对应的交互内容，比对多个交互内容并列情况；优先级定义模块330用于根据交互内容并列情况，输出占比高的交互内容，若交互内容并列多个，则根据优先级序列输出交互内容。

例如：语音特征对应的交互内容为“你好”，唇语特征对应的交互内容为“你好”，手势特征对应的交互内容为“再见”，则比对交互内容，可以得出并列关系为：“你好”占2/3，“再见”占1/3，则优先级定义模块330可以输出等级高，也就是占比高的交互内容，为“你好”，然而，若语音特征对应的交互内容为“你好”，唇语特征对应的交互内容为“握手”，手势特征对应的交互内容为“再见”，则交互内容“你好”、“握手”和“再见”各占1/3，则输出的交互内容为并列的多个，分别为“你好”、“握手”和“再见”，则优先级定义模块330根据预设设置的优先级序列选择，对应的交互内容。

融合分析模块320采用并列比对算法判断三个交互内容的并列情况，包括以下步骤：

其中，

表示文本ti和文本tj的相似度，/>

为ti，tj两个文本的编辑距离，

表示文本ti的长度，/>

表示tj的长度，编辑距离越小，相似度就越高，通过比较S(i,j)和一个阈值，可以判断ti和tj是否相同，如果相同，则将相同的交互内容进行合并，否则将它们视为独立的交互内容，对于三个文本，可以得到一个3*3的相似度矩阵，判断三个交互内容的并列情况，可以采用如下规则：

如果三个文本全部相同，则它们是完全相同的，并列关系；

如果有两个文本相同，则它们是部分相同的，并列关系；

如果没有文本相同，则它们是独立的交互内容，不存在并列关系。

优先级序列包括：

第一级、唇语特征，将优先级第一顺序定义的唇语特征对应的交互内容，则在三个交互内容并列时，以唇语特征的交互内容作为输出的交互内容，因为，手势特征会随着外界场景的变化有差异，语音特征会由于外界的噪音影响，导致特征不准确，因此，将唇语特征作为优先级是最佳选择；

第二级、手势特征，在未识别出唇语特征的情况下，则以手势特征作为优先级；

第三级、语音特征，最后以语音特征对应的交互内容为优先级；

综上，考虑到现有的人工智能交互***存在一些局限性，如识别准确性不高、交互方式单一等，特别是在进行语音识别来进行交互时，若周围的噪音较大，导致不能准确识别用户的声音，导致识别的交互内容不准确，并且若进行单一交互方式，尽管多次重复操作，也可能造成交互不准确，导致识别准确性差，因此，通过在数据库单元100建立多种交互方式的特征数据库，实现在图像识别单元200采集用户图像，识别多种特征数据后，可以根据多种数据从数据库单元100输出对应的交互内容，根据特征融合单元300将多个交互内容融合，输出占比高的交互内容，由智能交互单元400进行执行，避免了单一的交互方式造成执行交互操作有局限，不能随意改变交互方式，并且从多个交互内容中识别出等级高的交互内容执行交互操作，确定交互执行的交互操作更准确，提高准确性。

由于人工智能交互时，不能根据用户的情绪切换不同的交互方式，导致交互操作单一，趣味性低，因此，示出本发明的第二实施例，本实施例与第一实施例不同的是，使图像识别单元200还包括情绪分析模块，情绪分析模块用于根据语音特征分析用户的当前情绪，将情绪信号传输至智能交互单元400执行相匹配的交互操作，例如情绪分析模块分析用户的情绪特别暴躁，则智能交互单元400在执行交互操作时则采用温柔有趣的方式进行交互操作，使用户身心愉快，具体的智能交互单元400可以预设多种交互方式，方便在识别出情绪后匹配对应的交互操作方式。

情绪分析模块在分析当前用户的情绪时，包括以下步骤：提取语音特征的相关特征参数，包括声音的基频、共振峰频率，通过特征参数的聚类、分类以及分类器训练，对语音情感进行分类和识别，其中，特征参数包括：

声音基频：反映语音的基本音调特征；

共振峰频率：反映语音中的声调及共振峰特征；

语音时频特征：通过时频分析，提取出语音信号的短时频率谱或梅尔频率倒谱系数MFCC，来反映语音的语音、音位和韵律等特征，综合考虑这些特征参数，我们可以使用分类器模型进行情感识别和分类，得到用户情绪的分类结果，如愉快、沮丧、生气等等，常见的分类器模型包括支持向量机SVM、K-最近邻算法KNN和决策树算法等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于图像识别人工智能交互***，其特征在于：包括数据库单元（100）、图像识别单元（200）、特征融合单元（300）和智能交互单元（400）；

所述数据库单元（100）用于建立多种交互方式对应的特征数据库，多种交互方式包括语音交互、唇语交互和手势交互；所述图像识别单元（200）用于采集用户图像，通过深度学习算法识别输入图像中的多种特征数据，多种特征数据包括语音特征、唇语特征和手势特征；所述特征融合单元（300）用于将所述图像识别单元（200）识别的特征数据输入到数据库单元（100），输出多种特征数据分别对应的交互内容，融合多种交互内容生成最终的交互内容，所述智能交互单元（400）用于接收所述特征融合单元（300）最终确定交互内容执行交互操作。

2.根据权利要求1所述的基于图像识别人工智能交互***，其特征在于：所述数据库的表达式为：

其中，

表示特征数据库的集合，/>

表示交互内容，/>

表示语音特征，/>

表示唇语特征，/>

表示手势特征，n为特征数量。

3.根据权利要求1所述的基于图像识别人工智能交互***，其特征在于：所述图像识别单元（200）包括图像采集模块（210）、语音特征识别模块（220）、唇语特征识别模块（230）和手势特征识别模块（240）；

所述图像采集模块（210）用于通过摄像机采集用户对应的图像数据和音频数据，所述语音特征识别模块（220）用于根据图像采集模块（210）采集的音频数据识别语音内容的特征；所述唇语特征识别模块（230）用于根据图像采集模块（210）采集的图像数据对应用户的唇部，识别唇部特征，所述手势特征识别模块（240）用于根据图像采集模块（210）采集的图像数据识别手势特征。

4.根据权利要求3所述的基于图像识别人工智能交互***，其特征在于：所述语音特征识别模块（220）、所述唇语特征识别模块（230）和所述手势特征识别模块（240）均采用深度学习算法的卷积神经网络进行模型训练，包括以下步骤：

模型训练：使用卷积神经网络对提取的特征进行模型训练；

5.根据权利要求4所述的基于图像识别人工智能交互***，其特征在于：所述唇语特征识别模块（230）在特征提取时，还包括唇部轮廓识别模块，所述唇部轮廓识别模块用于采用边缘检测算法在图像数据中确定唇部的形态和动态特征。

6.根据权利要求4所述的基于图像识别人工智能交互***，其特征在于：所述特征融合单元（300）包括交互内容确定模块（310）、融合分析模块（320）和优先级定义模块（330）；

所述交互内容确定模块（310）用于将语音特征、唇语特征和手势特征的数据传输至数据库单元（100），依次存储数据库单元（100）输出的与语音特征、唇语特征和手势特征对应的交互内容；所述融合分析模块（320）用于融合语音特征、唇语特征和手势特征对应的交互内容，比对多个交互内容并列情况；所述优先级定义模块（330）用于根据交互内容并列情况，输出占比高的交互内容，若交互内容并列多个，则根据优先级序列输出交互内容。

7.根据权利要求6所述的基于图像识别人工智能交互***，其特征在于：所述融合分析模块（320）采用并列比对算法判断三个交互内容的并列情况，包括以下步骤：

通过计算t1，t2，t3两两编辑距离的平均值，判断交互内容的相似度，得到相似度矩阵，判断三个交互内容的并列情况，表达式为：

其中，

表示文本ti和文本tj的相似度，/>

为ti，tj两个文本的编辑距离，/>

表示文本ti的长度，/>

表示tj的长度。

8.根据权利要求7所述的基于图像识别人工智能交互***，其特征在于：所述优先级序列包括：

第一级、唇语特征；

第二级、手势特征；

第三级、语音特征；

9.根据权利要求6所述的基于图像识别人工智能交互***，其特征在于：所述图像识别单元（200）还包括情绪分析模块，所述情绪分析模块用于根据语音特征分析用户的当前情绪，将情绪信号传输至所述智能交互单元（400）执行相匹配的交互操作。

10.根据权利要求8所述的基于图像识别人工智能交互***，其特征在于：情绪分析模块在分析当前用户的情绪时，包括以下步骤：提取语音特征的相关特征参数，包括声音的基频、共振峰频率，通过特征参数的聚类、分类以及分类器训练，对语音情感进行分类和识别。