CN116434027A - 一种基于图像识别人工智能交互*** - Google Patents

一种基于图像识别人工智能交互*** Download PDF

Info

Publication number
CN116434027A
CN116434027A CN202310686364.9A CN202310686364A CN116434027A CN 116434027 A CN116434027 A CN 116434027A CN 202310686364 A CN202310686364 A CN 202310686364A CN 116434027 A CN116434027 A CN 116434027A
Authority
CN
China
Prior art keywords
interaction
feature
features
module
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310686364.9A
Other languages
English (en)
Inventor
全一明
张雪莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xingxun Technology Co ltd
Original Assignee
Shenzhen Xingxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xingxun Technology Co ltd filed Critical Shenzhen Xingxun Technology Co ltd
Priority to CN202310686364.9A priority Critical patent/CN116434027A/zh
Publication of CN116434027A publication Critical patent/CN116434027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Social Psychology (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及图像识别技术领域,具体地说,涉及一种基于图像识别人工智能交互***。其包括数据库单元、图像识别单元、特征融合单元和智能交互单元。本发明通过在数据库单元建立多种交互方式的特征数据库,实现在图像识别单元采集用户图像,识别多种特征数据后,可以根据多种数据从数据库单元输出对应的交互内容,根据特征融合单元将多个交互内容融合,输出等级高的交互内容,由智能交互单元进行执行,避免了单一的交互方式造成执行交互操作有局限,不能随意改变交互方式,并且从多个交互内容中识别出等级高的交互内容执行交互操作,确定交互执行的交互操作更准确,提高准确性。

Description

一种基于图像识别人工智能交互***
技术领域
本发明涉及图像识别技术领域,具体地说,涉及一种基于图像识别人工智能交互***。
背景技术
随着计算机、移动设备、物联网和云计算等技术的迅速发展,人工智能技术已经成为当前最为热门的技术之一,其中,人机交互是最具代表性的,人机交互技术应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术,然而,现有的人工智能交互***存在一些局限性,如识别准确性不高、交互方式单一等,特别是在进行语音识别来进行交互时,若周围的噪音较大,导致不能准确识别用户的声音,导致识别的交互内容不准确,并且若进行单一交互方式,尽管多次重复操作,也可能造成交互不准确,导致识别准确性差,鉴于此,我们提出一种基于图像识别人工智能交互***。
发明内容
本发明的目的在于提供一种基于图像识别人工智能交互***,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种基于图像识别人工智能交互***,包括数据库单元、图像识别单元、特征融合单元和智能交互单元;
所述数据库单元用于建立多种交互方式对应的特征数据库,多种交互方式包括语音交互、唇语交互和手势交互;所述图像识别单元用于采集用户图像,通过深度学习算法识别输入图像中的多种特征数据,多种特征数据包括语音特征、唇语特征和手势特征;所述特征融合单元用于将所述图像识别单元识别的特征数据输入到数据库单元,输出多种特征数据分别对应的交互内容,融合多种交互内容生成最终的交互内容,所述智能交互单元用于接收所述特征融合单元最终确定交互内容执行交互操作。
作为本技术方案的进一步改进,所述数据库的表达式为:
Figure SMS_1
其中,
Figure SMS_2
表示特征数据库的集合,/>
Figure SMS_3
表示交互内容,/>
Figure SMS_4
表示语音特征,/>
Figure SMS_5
表示唇语特征,/>
Figure SMS_6
表示手势特征,n为特征数量。
作为本技术方案的进一步改进,所述图像识别单元包括图像采集模块、语音特征识别模块、唇语特征识别模块和手势特征识别模块;
所述图像采集模块用于通过摄像机采集用户对应的图像数据和音频数据,所述语音特征识别模块用于根据图像采集模块采集的音频数据识别语音内容的特征;所述唇语特征识别模块用于根据图像采集模块采集的图像数据对应用户的唇部,识别唇部特征,所述手势特征识别模块用于根据图像采集模块采集的图像数据识别手势特征。
作为本技术方案的进一步改进,所述语音特征识别模块、所述唇语特征识别模块和所述手势特征识别模块均采用深度学习算法的卷积神经网络进行模型训练,包括以下步骤:
预处理:将音频数据和图像数据转换为数字信号,并对其进行预处理;
特征提取:对于预处理后的音频数据和图像数据进行特征提取;
模型训练:使用卷积神经网络对提取的特征进行模型训练;
识别和输出:将采集到的音频数据和图像数据输入到模型中,实现语音信号转换为文本,图像信号转换为唇语特征和手势特征。
作为本技术方案的进一步改进,所述唇语特征识别模块在特征提取时,还包括唇部轮廓识别模块,所述唇部轮廓识别模块用于采用边缘检测算法在图像数据中确定唇部的形态和动态特征。
作为本技术方案的进一步改进,所述特征融合单元包括交互内容确定模块、融合分析模块和优先级定义模块;
所述交互内容确定模块用于将语音特征、唇语特征和手势特征的数据传输至数据库单元,依次存储数据库单元输出的与语音特征、唇语特征和手势特征对应的交互内容;所述融合分析模块用于融合语音特征、唇语特征和手势特征对应的交互内容,比对多个交互内容并列情况;所述优先级定义模块用于根据交互内容并列情况,输出占比高的交互内容,若交互内容并列多个,则根据优先级序列输出交互内容。
作为本技术方案的进一步改进,所述融合分析模块采用并列比对算法判断三个交互内容的并列情况,包括以下步骤:
设三个文本为t1、t2、t3,分别对应语音特征、唇语特征和手势特征;
可以通过计算t1,t2,t3两两编辑距离的平均值,判断交互内容的相似度,得到相似度矩阵,判断三个交互内容的并列情况,表达式为:
Figure SMS_7
其中,
Figure SMS_8
表示文本ti和文本tj的相似度,/>
Figure SMS_9
为ti,tj两个文本的编辑距离,
Figure SMS_10
表示文本ti的长度,/>
Figure SMS_11
表示tj的长度。
作为本技术方案的进一步改进,所述优先级序列包括:
第一级、唇语特征;
第二级、手势特征;
第三级、语音特征;
在多个交互内容并列时,由第一级、第二级和第三级的顺序输出交互内容。
作为本技术方案的进一步改进,所述图像识别单元还包括情绪分析模块,所述情绪分析模块用于根据语音特征分析用户的当前情绪,将情绪信号传输至所述智能交互单元执行相匹配的交互操作。
作为本技术方案的进一步改进,情绪分析模块在分析当前用户的情绪时,包括以下步骤:提取语音特征的相关特征参数,包括声音的基频、共振峰频率,通过特征参数的聚类、分类以及分类器训练,对语音情感进行分类和识别。
与现有技术相比,本发明的有益效果:
该基于图像识别人工智能交互***中,通过在数据库单元建立多种交互方式的特征数据库,实现在图像识别单元采集用户图像,识别多种特征数据后,可以根据多种数据从数据库单元输出对应的交互内容,根据特征融合单元将多个交互内容融合,输出占比高的交互内容,由智能交互单元进行执行,避免了单一的交互方式造成执行交互操作有局限,不能随意改变交互方式,并且从多个交互内容中识别出等级高的交互内容执行交互操作,确定交互执行的交互操作更准确,提高准确性。
附图说明
图1为本发明的整体的原理框图;
图2为本发明的图像识别单元原理框图;
图3为本发明的特征融合单元原理框图。
图中各个标号意义为:
100、数据库单元;
200、图像识别单元;210、图像采集模块;220、语音特征识别模块;230、唇语特征识别模块;240、手势特征识别模块;
300、特征融合单元;310、交互内容确定模块;320、融合分析模块;330、优先级定义模块;
400、智能交互单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着计算机、移动设备、物联网和云计算等技术的迅速发展,人工智能技术已经成为当前最为热门的技术之一,其中,人机交互是最具代表性的,机交互技术应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术;
请参阅图1-图3示出本发明的第一实施例,本实施例提供一种基于图像识别人工智能交互***,包括数据库单元100、图像识别单元200、特征融合单元300和智能交互单元400;
数据库单元100用于建立多种交互方式对应的特征数据库,多种交互方式包括语音交互、唇语交互和手势交互;
数据库的表达式为:
Figure SMS_12
其中,
Figure SMS_13
表示特征数据库的集合,/>
Figure SMS_14
表示交互内容,/>
Figure SMS_15
表示语音特征,/>
Figure SMS_16
表示唇语特征,/>
Figure SMS_17
表示手势特征,n为特征数量;例如a1对应的交互内容为“你好”,b1为用户发出“你好”的语音包特征,c1为用户发出“你好”语音包对应的唇语特征,d1为用户表示“你好”的手势,通过a1,b1,c1,d1表示,四个元素点之间的对应关系,方便后续在输入其中一个元素点时,可以输出其余的元素点。
图像识别单元200用于采集用户图像,通过深度学习算法识别输入图像中的多种特征数据,多种特征数据包括语音特征、唇语特征和手势特征;
图像识别单元200包括图像采集模块210、语音特征识别模块220、唇语特征识别模块230和手势特征识别模块240;
图像采集模块210用于通过摄像机采集用户对应的图像数据和音频数据,语音特征识别模块220用于根据图像采集模块210采集的音频数据识别语音内容的特征;唇语特征识别模块230用于根据图像采集模块210采集的图像数据对应用户的唇部,识别唇部特征,手势特征识别模块240用于根据图像采集模块210采集的图像数据识别手势特征。
值得说明的,语音特征识别模块220、唇语特征识别模块230和手势特征识别模块240均采用深度学习算法的卷积神经网络进行模型训练,包括以下步骤:
预处理:将音频数据和图像数据转换为数字信号,并对其进行预处理,例如音频数据去除噪音、滤波等操作,图像数据调整亮度、锐化、归一化等操作,以便于后续的处理和分析;
特征提取:对于预处理后的音频数据和图像数据进行特征提取,我们可以使用短时能量、频率和谱图等技术对音频数据进行特征提取,这些特征可以用来描述语音信号的频率、能量、说话人的语调和音色等,从而更好地抓取语音特征对应的内容;
模型训练:使用卷积神经网络对提取的特征进行模型训练,这可以通过对成百上千的样本进行训练,并使用交叉验证等方法进行模型调优来实现;
识别和输出:在模型训练完成后,我们可以将采集到的音频数据和图像数据输入到模型中,实现语音信号转换为文本,图像信号转换为唇语特征和手势特征,即识别出对应的内容,最终,我们将输出转换后的文本,也就实现了通过摄像机采集的语音,识别语音特征对应的内容,完成从采集到的音频数据中,识别出用户实际说的话语,并将其转换为文本。
唇语特征识别模块230在特征提取时,还包括唇部轮廓识别模块,唇部轮廓识别模块用于采用边缘检测算法在图像数据中确定唇部的形态和动态特征;具体的,采用边缘检测算法采用Canny算子:是一种广泛应用的边缘检测算法,其特点是准确性高,能够检测到很细的边缘,具体流程为:
首先对图像进行高斯滤波,使图像平滑化,去除高斯噪声;计算图像的梯度,找到各个像素点的强度变化;针对梯度值,进行非最大抑制处理,只保留局部梯度变化最大的像素点,抑制一些非边缘的像素;通过设定高低阈值来划分边缘和非边缘像素点,最终确定唇部轮廓。
特征融合单元300用于将图像识别单元200识别的特征数据输入到数据库单元100,输出多种特征数据分别对应的交互内容,融合多种交互内容生成最终的交互内容,智能交互单元400用于接收特征融合单元300最终确定交互内容执行交互操作。
特征融合单元300包括交互内容确定模块310、融合分析模块320和优先级定义模块330;
交互内容确定模块310用于将语音特征、唇语特征和手势特征的数据传输至数据库单元100,依次存储数据库单元100输出的与语音特征、唇语特征和手势特征对应的交互内容;融合分析模块320用于融合语音特征、唇语特征和手势特征对应的交互内容,比对多个交互内容并列情况;优先级定义模块330用于根据交互内容并列情况,输出占比高的交互内容,若交互内容并列多个,则根据优先级序列输出交互内容。
例如:语音特征对应的交互内容为“你好”,唇语特征对应的交互内容为“你好”,手势特征对应的交互内容为“再见”,则比对交互内容,可以得出并列关系为:“你好”占2/3,“再见”占1/3,则优先级定义模块330可以输出等级高,也就是占比高的交互内容,为“你好”,然而,若语音特征对应的交互内容为“你好”,唇语特征对应的交互内容为“握手”,手势特征对应的交互内容为“再见”,则交互内容“你好”、“握手”和“再见”各占1/3,则输出的交互内容为并列的多个,分别为“你好”、“握手”和“再见”,则优先级定义模块330根据预设设置的优先级序列选择,对应的交互内容。
融合分析模块320采用并列比对算法判断三个交互内容的并列情况,包括以下步骤:
设三个文本为t1、t2、t3,分别对应语音特征、唇语特征和手势特征;
可以通过计算t1,t2,t3两两编辑距离的平均值,判断交互内容的相似度,得到相似度矩阵,判断三个交互内容的并列情况,表达式为:
Figure SMS_18
其中,
Figure SMS_19
表示文本ti和文本tj的相似度,/>
Figure SMS_20
为ti,tj两个文本的编辑距离,
Figure SMS_21
表示文本ti的长度,/>
Figure SMS_22
表示tj的长度,编辑距离越小,相似度就越高,通过比较S(i,j)和一个阈值,可以判断ti和tj是否相同,如果相同,则将相同的交互内容进行合并,否则将它们视为独立的交互内容,对于三个文本,可以得到一个3*3的相似度矩阵,判断三个交互内容的并列情况,可以采用如下规则:
如果三个文本全部相同,则它们是完全相同的,并列关系;
如果有两个文本相同,则它们是部分相同的,并列关系;
如果没有文本相同,则它们是独立的交互内容,不存在并列关系。
优先级序列包括:
第一级、唇语特征,将优先级第一顺序定义的唇语特征对应的交互内容,则在三个交互内容并列时,以唇语特征的交互内容作为输出的交互内容,因为,手势特征会随着外界场景的变化有差异,语音特征会由于外界的噪音影响,导致特征不准确,因此,将唇语特征作为优先级是最佳选择;
第二级、手势特征,在未识别出唇语特征的情况下,则以手势特征作为优先级;
第三级、语音特征,最后以语音特征对应的交互内容为优先级;
在多个交互内容并列时,由第一级、第二级和第三级的顺序输出交互内容。
综上,考虑到现有的人工智能交互***存在一些局限性,如识别准确性不高、交互方式单一等,特别是在进行语音识别来进行交互时,若周围的噪音较大,导致不能准确识别用户的声音,导致识别的交互内容不准确,并且若进行单一交互方式,尽管多次重复操作,也可能造成交互不准确,导致识别准确性差,因此,通过在数据库单元100建立多种交互方式的特征数据库,实现在图像识别单元200采集用户图像,识别多种特征数据后,可以根据多种数据从数据库单元100输出对应的交互内容,根据特征融合单元300将多个交互内容融合,输出占比高的交互内容,由智能交互单元400进行执行,避免了单一的交互方式造成执行交互操作有局限,不能随意改变交互方式,并且从多个交互内容中识别出等级高的交互内容执行交互操作,确定交互执行的交互操作更准确,提高准确性。
由于人工智能交互时,不能根据用户的情绪切换不同的交互方式,导致交互操作单一,趣味性低,因此,示出本发明的第二实施例,本实施例与第一实施例不同的是,使图像识别单元200还包括情绪分析模块,情绪分析模块用于根据语音特征分析用户的当前情绪,将情绪信号传输至智能交互单元400执行相匹配的交互操作,例如情绪分析模块分析用户的情绪特别暴躁,则智能交互单元400在执行交互操作时则采用温柔有趣的方式进行交互操作,使用户身心愉快,具体的智能交互单元400可以预设多种交互方式,方便在识别出情绪后匹配对应的交互操作方式。
情绪分析模块在分析当前用户的情绪时,包括以下步骤:提取语音特征的相关特征参数,包括声音的基频、共振峰频率,通过特征参数的聚类、分类以及分类器训练,对语音情感进行分类和识别,其中,特征参数包括:
声音基频:反映语音的基本音调特征;
共振峰频率:反映语音中的声调及共振峰特征;
语音时频特征:通过时频分析,提取出语音信号的短时频率谱或梅尔频率倒谱系数MFCC,来反映语音的语音、音位和韵律等特征,综合考虑这些特征参数,我们可以使用分类器模型进行情感识别和分类,得到用户情绪的分类结果,如愉快、沮丧、生气等等,常见的分类器模型包括支持向量机SVM、K-最近邻算法KNN和决策树算法等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于图像识别人工智能交互***,其特征在于:包括数据库单元(100)、图像识别单元(200)、特征融合单元(300)和智能交互单元(400);
所述数据库单元(100)用于建立多种交互方式对应的特征数据库,多种交互方式包括语音交互、唇语交互和手势交互;所述图像识别单元(200)用于采集用户图像,通过深度学习算法识别输入图像中的多种特征数据,多种特征数据包括语音特征、唇语特征和手势特征;所述特征融合单元(300)用于将所述图像识别单元(200)识别的特征数据输入到数据库单元(100),输出多种特征数据分别对应的交互内容,融合多种交互内容生成最终的交互内容,所述智能交互单元(400)用于接收所述特征融合单元(300)最终确定交互内容执行交互操作。
2.根据权利要求1所述的基于图像识别人工智能交互***,其特征在于:所述数据库的表达式为:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示特征数据库的集合,/>
Figure QLYQS_3
表示交互内容,/>
Figure QLYQS_4
表示语音特征,/>
Figure QLYQS_5
表示唇语特征,/>
Figure QLYQS_6
表示手势特征,n为特征数量。
3.根据权利要求1所述的基于图像识别人工智能交互***,其特征在于:所述图像识别单元(200)包括图像采集模块(210)、语音特征识别模块(220)、唇语特征识别模块(230)和手势特征识别模块(240);
所述图像采集模块(210)用于通过摄像机采集用户对应的图像数据和音频数据,所述语音特征识别模块(220)用于根据图像采集模块(210)采集的音频数据识别语音内容的特征;所述唇语特征识别模块(230)用于根据图像采集模块(210)采集的图像数据对应用户的唇部,识别唇部特征,所述手势特征识别模块(240)用于根据图像采集模块(210)采集的图像数据识别手势特征。
4.根据权利要求3所述的基于图像识别人工智能交互***,其特征在于:所述语音特征识别模块(220)、所述唇语特征识别模块(230)和所述手势特征识别模块(240)均采用深度学习算法的卷积神经网络进行模型训练,包括以下步骤:
预处理:将音频数据和图像数据转换为数字信号,并对其进行预处理;
特征提取:对于预处理后的音频数据和图像数据进行特征提取;
模型训练:使用卷积神经网络对提取的特征进行模型训练;
识别和输出:将采集到的音频数据和图像数据输入到模型中,实现语音信号转换为文本,图像信号转换为唇语特征和手势特征。
5.根据权利要求4所述的基于图像识别人工智能交互***,其特征在于:所述唇语特征识别模块(230)在特征提取时,还包括唇部轮廓识别模块,所述唇部轮廓识别模块用于采用边缘检测算法在图像数据中确定唇部的形态和动态特征。
6.根据权利要求4所述的基于图像识别人工智能交互***,其特征在于:所述特征融合单元(300)包括交互内容确定模块(310)、融合分析模块(320)和优先级定义模块(330);
所述交互内容确定模块(310)用于将语音特征、唇语特征和手势特征的数据传输至数据库单元(100),依次存储数据库单元(100)输出的与语音特征、唇语特征和手势特征对应的交互内容;所述融合分析模块(320)用于融合语音特征、唇语特征和手势特征对应的交互内容,比对多个交互内容并列情况;所述优先级定义模块(330)用于根据交互内容并列情况,输出占比高的交互内容,若交互内容并列多个,则根据优先级序列输出交互内容。
7.根据权利要求6所述的基于图像识别人工智能交互***,其特征在于:所述融合分析模块(320)采用并列比对算法判断三个交互内容的并列情况,包括以下步骤:
设三个文本为t1、t2、t3,分别对应语音特征、唇语特征和手势特征;
通过计算t1,t2,t3两两编辑距离的平均值,判断交互内容的相似度,得到相似度矩阵,判断三个交互内容的并列情况,表达式为:
Figure QLYQS_7
其中,
Figure QLYQS_8
表示文本ti和文本tj的相似度,/>
Figure QLYQS_9
为ti,tj两个文本的编辑距离,/>
Figure QLYQS_10
表示文本ti的长度,/>
Figure QLYQS_11
表示tj的长度。
8.根据权利要求7所述的基于图像识别人工智能交互***,其特征在于:所述优先级序列包括:
第一级、唇语特征;
第二级、手势特征;
第三级、语音特征;
在多个交互内容并列时,由第一级、第二级和第三级的顺序输出交互内容。
9.根据权利要求6所述的基于图像识别人工智能交互***,其特征在于:所述图像识别单元(200)还包括情绪分析模块,所述情绪分析模块用于根据语音特征分析用户的当前情绪,将情绪信号传输至所述智能交互单元(400)执行相匹配的交互操作。
10.根据权利要求8所述的基于图像识别人工智能交互***,其特征在于:情绪分析模块在分析当前用户的情绪时,包括以下步骤:提取语音特征的相关特征参数,包括声音的基频、共振峰频率,通过特征参数的聚类、分类以及分类器训练,对语音情感进行分类和识别。
CN202310686364.9A 2023-06-12 2023-06-12 一种基于图像识别人工智能交互*** Pending CN116434027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310686364.9A CN116434027A (zh) 2023-06-12 2023-06-12 一种基于图像识别人工智能交互***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310686364.9A CN116434027A (zh) 2023-06-12 2023-06-12 一种基于图像识别人工智能交互***

Publications (1)

Publication Number Publication Date
CN116434027A true CN116434027A (zh) 2023-07-14

Family

ID=87091051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310686364.9A Pending CN116434027A (zh) 2023-06-12 2023-06-12 一种基于图像识别人工智能交互***

Country Status (1)

Country Link
CN (1) CN116434027A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制***
US20130201105A1 (en) * 2012-02-02 2013-08-08 Raymond William Ptucha Method for controlling interactive display system
US20130300650A1 (en) * 2012-05-09 2013-11-14 Hung-Ta LIU Control system with input method using recognitioin of facial expressions
WO2016150001A1 (zh) * 2015-03-24 2016-09-29 中兴通讯股份有限公司 语音识别的方法、装置及计算机存储介质
CN107239139A (zh) * 2017-05-18 2017-10-10 刘国华 基于正视的人机交互方法与***
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN108052079A (zh) * 2017-12-12 2018-05-18 北京小米移动软件有限公司 设备控制方法、装置、设备控制装置及存储介质
CN111079791A (zh) * 2019-11-18 2020-04-28 京东数字科技控股有限公司 人脸识别方法、设备及计算机可读存储介质
CN111737670A (zh) * 2019-03-25 2020-10-02 广州汽车集团股份有限公司 多模态数据协同人机交互的方法、***及车载多媒体装置
WO2021196802A1 (zh) * 2020-03-31 2021-10-07 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
WO2022110564A1 (zh) * 2020-11-25 2022-06-02 苏州科技大学 智能家居多模态人机自然交互***及其方法
CN115424614A (zh) * 2022-08-31 2022-12-02 长城汽车股份有限公司 人机交互方法、装置、电子设备及车辆
CN115620407A (zh) * 2022-10-28 2023-01-17 浙江吉利控股集团有限公司 一种信息交流方法、装置及车辆
CN115793852A (zh) * 2022-11-15 2023-03-14 长城汽车股份有限公司 基于座舱区域获取操作指示的方法、显示方法及相关设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130201105A1 (en) * 2012-02-02 2013-08-08 Raymond William Ptucha Method for controlling interactive display system
US20130300650A1 (en) * 2012-05-09 2013-11-14 Hung-Ta LIU Control system with input method using recognitioin of facial expressions
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制***
WO2016150001A1 (zh) * 2015-03-24 2016-09-29 中兴通讯股份有限公司 语音识别的方法、装置及计算机存储介质
CN107239139A (zh) * 2017-05-18 2017-10-10 刘国华 基于正视的人机交互方法与***
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN108052079A (zh) * 2017-12-12 2018-05-18 北京小米移动软件有限公司 设备控制方法、装置、设备控制装置及存储介质
CN111737670A (zh) * 2019-03-25 2020-10-02 广州汽车集团股份有限公司 多模态数据协同人机交互的方法、***及车载多媒体装置
CN111079791A (zh) * 2019-11-18 2020-04-28 京东数字科技控股有限公司 人脸识别方法、设备及计算机可读存储介质
WO2021196802A1 (zh) * 2020-03-31 2021-10-07 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
WO2022110564A1 (zh) * 2020-11-25 2022-06-02 苏州科技大学 智能家居多模态人机自然交互***及其方法
CN115424614A (zh) * 2022-08-31 2022-12-02 长城汽车股份有限公司 人机交互方法、装置、电子设备及车辆
CN115620407A (zh) * 2022-10-28 2023-01-17 浙江吉利控股集团有限公司 一种信息交流方法、装置及车辆
CN115793852A (zh) * 2022-11-15 2023-03-14 长城汽车股份有限公司 基于座舱区域获取操作指示的方法、显示方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨钊 等: "组合相似度算法与知识图谱在电网数字化项目统筹中的应用研究", 《电力信息与通信技术》, vol. 21, no. 3, pages 41 - 46 *

Similar Documents

Publication Publication Date Title
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN110838289B (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN108962255B (zh) 语音会话的情绪识别方法、装置、服务器和存储介质
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及***
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及***
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN111292764A (zh) 辨识***及辨识方法
CN107369439B (zh) 一种语音唤醒方法和装置
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN111161726B (zh) 一种智能语音交互方法、设备、介质及***
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
Adiga et al. Multimodal emotion recognition for human robot interaction
CN113989893A (zh) 一种基于表情和语音双模态的儿童情感识别算法
CN110910898A (zh) 一种语音信息处理的方法和装置
CN108847251A (zh) 一种语音去重方法、装置、服务器及存储介质
CN107180629B (zh) 一种语音采集识别方法与***
CN113658582B (zh) 一种音视协同的唇语识别方法及***
CN111048068A (zh) 语音唤醒方法、装置、***及电子设备
CN116434027A (zh) 一种基于图像识别人工智能交互***
CN113111855B (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN114927128A (zh) 语音关键词的检测方法、装置、电子设备及可读存储介质
CN115294947A (zh) 音频数据处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230714

RJ01 Rejection of invention patent application after publication