CN110263653A - 一种基于深度学习技术的场景分析***及其方法 - Google Patents
一种基于深度学习技术的场景分析***及其方法 Download PDFInfo
- Publication number
- CN110263653A CN110263653A CN201910433837.8A CN201910433837A CN110263653A CN 110263653 A CN110263653 A CN 110263653A CN 201910433837 A CN201910433837 A CN 201910433837A CN 110263653 A CN110263653 A CN 110263653A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- recognition
- module
- image
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 70
- 238000005516 engineering process Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000008921 facial expression Effects 0.000 claims abstract description 27
- 238000010195 expression analysis Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000013135 deep learning Methods 0.000 claims description 39
- 238000013136 deep learning model Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 20
- 230000001815 facial effect Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000011946 reduction process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学***台;数据采集子***采集图像和语音;云AI平台中人脸识别模块根据深度学习技术对待测图像进行人脸识别;人脸表情分析模块人脸上的表情进行分析判断;语音识别模块根据深度学习技术对待测音频进行语音识别;语音分析模块待测音频的语义、语调进行分析判断;综合分析模块对人脸表情分析模块和语音分析模块所得到的结果进行综合分析。本发明能够同时满足人脸和语音的识别,并根据深度学习技术,得到人脸表情、语音的语义和语调的识别结果,不仅使识别结果更加准确而且保证了识别速度,进一步丰富了场景分析技术。
Description
技术领域
本发明涉及深度学习技术领域,更具体的说是涉及一种基于基于深度学习技术的场景分析***及其方法。
背景技术
随着现代科技的不断进步,智能化时代已经来临,其中自然语言处理和人脸表情识别技术也早已经成为了本领域技术人员研究的重要课题。
然而,一方面,由于传统的浅层模型的局限性,传统的自然语言处理模型需要使用大量的语言学知识来手工构造特征,并且这些特征通常是由具体应用向导的,因此不具体广泛的适用性,如果具体任务发生变化则又必须重新手工构造新的特征;
另一方面,目前的人脸识别技术也主要是基于手工设计的特征提取算法来进行实现的,而在实际复杂环境中,人脸数据往往存在着各种因素的影响,例如光照、遮挡、姿态变化等,在这种情况下,现有基于手工设计特征提取算法的人脸识别方法具有较差的鲁棒性,对上述影响因素的抗干扰能力较差,而这些不可控制的因素使得基于现有方法的人脸识别性能急剧下降,难以保证人脸识别的效果,存在人脸识别准确率低的问题。
而且人们在不同的领域探索图像识别、语音识别、语义分析的应用,但是将自然语言处理、人脸识别和面部表情识别结合起来应用在场景分析的应用仍然较少,尚且处于发展阶段,无法进行准确识别。
因此,研究出一种识别准确且基于深度学习的自然语言处理和人脸表情识别的场景分析***和方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于深度学习技术的场景分析***及其方法,通过深度学习技术来对人脸或语音进行识别,并进一步对人脸的表情以及对语音的语义和语调进行分析,有效保证了识别与分析的准确性。
为了实现上述目的,本发明采用如下技术方案:
一种基于深度学***台;其中,
所述数据采集子***,用于图像和语音的采集;
所述数据库,用于存储数据;
所述云AI平台包括数据预处理模块、人脸识别模块、人脸表情分析模块、语音识别模块、语音分析模块和综合分析模块;
所述数据预处理模块,用于对所述数据采集子***所采集到的图像和语音进行预处理;
所述人脸识别模块,用于根据深度学习技术对待测图像进行人脸识别,并根据所述数据库内的数据判别待测图像内的人脸是否已经存在,并不断进行人脸识别深度学习;
所述人脸表情分析模块,用于对待测图像中人脸上的表情进行分析判断,并不断进行人脸表情分析深度学习;
所述语音识别模块,用于对待测音频进行语音识别,将语音内容转换为文字内容,对语音内容进行语义分析,并不断进行语音识别深度学习;
所述语音分析模块,用于待测音频的语义、语调进行分析判断;
所述综合分析模块,用于对人脸表情分析模块和语音分析模块所得到的结果进行综合分析。
优选的,所述预处理内容包括:对图像进行降维处理,对音频进行降噪处理以及文本输出。
优选的,所述数据采集子***包括图像采集模块和音频采集模块,
所述图像采集模块和所述音频采集模块,分别用于对图像和音频进行采集,并将所采集到的所述图像和所述音频发送至所述数据预处理模块。
优选的,所述人脸识别模块包括第一特征提取单元、第一深度学习模型和第一匹配与识别单元;
所述第一特征提取单元,用于根据第一深度学习模型将预处理后的图像提取人脸图像特征向量;
所述第一匹配与识别单元,用于将提取到的所述人脸图像特征向量与所述数据库中的人脸图像进行匹配,得到第一识别结果,并将所述第一识别结果发送至所述数据库进行存储,所述第一深度学习模型根据数据库的更新而不断更新。
优选的,所述语音识别模块包括第二特征提取单元、第二深度学习模型和第二匹配与识别单元;
所述第二特征提取单元,用于根据第二深度学习模型将预处理后的音频提取音频特征向量;
所述第二匹配与识别单元,用于将提取到的所述音频特征向量与所述数据库中的音频数据进行匹配,得到第二识别结果,并将所述第二识别结果发送至所述数据库进行存储,所述第二深度学习模型根据数据库的更新而不断更新。
优选的,所述语音分析模块包括语义分析单元和语调分析单元;
所述语义分析单元和所述语调分析单元分别根据所述语音识别单元所识别到的语音进行语义和语调分析。
一种基于深度学习技术的场景分析方法,包括以下步骤:
(1)图像和语音的采集;
(2)对所采集到的图像和语音进行预处理;
(3)根据深度学习技术对待测图像进行人脸识别,判断数据库中是否存在待测图像内的人脸,并对识别到的人脸上的表情进行分析判断;
(4)根据深度学习技术对待测音频进行语音识别,将语音转换为文字内容,并对识别到的语音的语义、语调进行分析判断;
(5)步骤(3)和步骤(4)的分析判断结果进行综合分析。
优选的,人脸识别的具体过程为:
根据第一深度学习模型将预处理后的图像提取人脸图像特征向量;
将提取到的人脸图像特征向量与数据库中的人脸图像进行匹配,得到第一识别结果,并将所述第一识别结果发送至所述数据库进行存储,所述第一深度学习模型根据数据库的更新而不断更新。
优选的,语音识别的具体过程为:
根据第二深度学习模型将预处理后的音频提取音频特征向量;
将提取到的所述音频特征向量与数据库中的音频数据进行匹配,得到第二识别结果,并将所述第二识别结果发送至所述数据库进行存储,所述第二深度学习模型根据数据库的更新而不断更新。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于深度学习技术的场景分析***及其方法,其中,首先该***能够同时满足人脸和语音的识别,并根据深度学习技术,得到人脸表情、语音的语义和语调的识别结果,不仅使识别结果更加准确而且保证了识别速度,进一步丰富了场景分析技术,其次,深度学习模型在使用的过程中能够不断迭代更新,更进一步地保证了识别结果的准确性。本发明可用于服务业、智慧城市等领域中,具有及时洞察客户情绪能够更好地满足客户的需求等优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的结构示意图;
图2附图为本发明提供的云AI平台内部结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于深度学***台;其中,
数据采集子***,用于图像和语音的采集;
数据库,用于存储数据;
如图2所示,云AI平台包括数据预处理模块、人脸识别模块、人脸表情分析模块、语音识别模块、语音分析模块和综合分析模块;
数据预处理模块,用于对数据采集子***所采集到的图像和语音进行预处理;
人脸识别模块,用于根据深度学习技术对待测图像进行人脸识别,并根据数据库内的数据判别待测图像内的人脸是否已经存在,并不断进行人脸识别深度学习;
人脸表情分析模块,用于对待测图像中人脸上的表情进行分析判断,并不断进行人脸表情分析深度学习;
语音识别模块,用于对待测音频进行语音识别,将语音内容转换为文字内容,对语音内容进行语义分析,并不断进行语音识别深度学习;
语音分析模块,用于待测音频的语义、语调进行分析判断;
综合分析模块,用于对人脸表情分析模块和语音分析模块所得到的结果进行综合分析。
优选的,预处理内容包括:对图像进行降维处理,对音频进行降噪处理以及文本输出。
更进一步地,该***还包括数据库,用于储存数据;
更进一步地,预处理内容包括:对图像进行降维处理,对音频进行降噪处理以及文本输出。
更进一步地,数据采集子***包括图像采集模块和音频采集模块,
图像采集模块和音频采集模块,分别用于对图像和音频进行采集,并将所采集到的图像和音频发送至数据预处理模块。
更进一步地,人脸识别模块包括第一特征提取单元、第一深度学习模型和第一匹配与识别单元;
第一特征提取单元,用于根据第一深度学习模型将预处理后的图像提取人脸图像特征向量;
第一匹配与识别单元,用于将提取到的人脸图像特征向量与数据库中的人脸图像进行匹配,得到第一识别结果,并将第一识别结果发送至数据库进行存储,第一深度学习模型根据数据库的更新而不断更新。
更进一步地,语音识别模块包括第二特征提取单元、第二深度学习模型和第二匹配与识别单元;
第二特征提取单元,用于根据第二深度学习模型将预处理后的音频提取音频特征向量;
第二匹配与识别单元,用于将提取到的音频特征向量与数据库中的音频数据进行匹配,得到第二识别结果,并将第二识别结果发送至数据库进行存储,第二深度学习模型根据数据库的更新而不断更新。
更进一步地,语音分析模块包括语义分析单元和语调分析单元;
语义分析单元和语调分析单元分别根据语音识别单元所识别到的语音进行语义和语调分析。
本发明的工作原理为:
图像采集模块和语音采集模块分别将采集到的图像和语音发送给数据预处理模块,数据预处理模块将图像进行降维等处理,并对语音进行降噪和文本输出等处理,数据预处理模块将预处理后的图像数据和语音数据分别发送至人脸识别模块和语音识别模块,人脸识别模块通过第一匹配与识别单元将提取到的人脸图像特征向量与数据库中的数据进行匹配,判断是否存在该人脸,并得到人脸识别结果,进一步根据人脸识别结果进行面部表情分析;语音识别模块通过第二匹配与识别单元将提取到的音频特征向量与数据库中的数据进行匹配,进而进行语义、语调分析。
综合分析模块综合人脸面部表情分析和语义语调分析结果,从而得出当前场景中被识别的该人的情绪等结果,完成场景分析。根据场景分析结果可实时获取客户心情,获知客户满意程度,可对突发事件进行预警,另外,对于智慧城市服务来说,可以动态预警,预防社会事件发生。
一种基于深度学习技术的场景分析方法,包括以下步骤:
(1)图像和语音的采集;
(2)对所采集到的图像和语音进行预处理;
(3)根据深度学习技术对待测图像进行人脸识别,判断数据库中是否存在待测图像内的人脸,并对识别到的人脸上的表情进行分析判断;
(4)根据深度学习技术对待测音频进行语音识别,将语音转换为文字内容,并对识别到的语音的语义、语调进行分析判断;
(5)步骤(3)和步骤(4)的分析判断结果进行综合分析。
需要说明的是:步骤(3)和步骤(4)的先后顺序是不一定的,可以同时进行,也可以先进行步骤(3)后进行步骤(4),反之亦然,也可以仅进行其中一个步骤,根据需要决定。
更进一步地,人脸识别的具体过程为:
根据第一深度学习模型将预处理后的图像提取人脸图像特征向量;
将提取到的人脸图像特征向量与数据库中的人脸图像进行匹配,得到第一识别结果,并将第一识别结果发送至数据库进行存储,第一深度学习模型根据数据库的更新而不断更新。
更进一步地,语音识别的具体过程为:
根据第二深度学习模型将预处理后的音频提取音频特征向量;
将提取到的音频特征向量与数据库中的音频数据进行匹配,得到第二识别结果,并将第二识别结果发送至数据库进行存储,第二深度学习模型根据数据库的更新而不断更新。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于深度学***台;其中,
所述数据采集子***,用于图像和语音的采集;
所述数据库,用于存储数据;
所述云AI平台包括数据预处理模块、人脸识别模块、人脸表情分析模块、语音识别模块、语音分析模块和综合分析模块;
所述数据预处理模块,用于对所述数据采集子***所采集到的图像和语音进行预处理;
所述人脸识别模块,用于根据深度学习技术对待测图像进行人脸识别,并根据所述数据库内的数据判别待测图像内的人脸是否已经存在,并不断进行人脸识别深度学习;
所述人脸表情分析模块,用于对待测图像中人脸上的表情进行分析判断,并不断进行人脸表情分析深度学习;
所述语音识别模块,用于对待测音频进行语音识别,将语音内容转换为文字内容,对语音内容进行语义分析,并不断进行语音识别深度学习;
所述语音分析模块,用于待测音频的语义、语调进行分析判断;
所述综合分析模块,用于对人脸表情分析模块和语音分析模块所得到的结果进行综合分析。
2.根据权利要求1所述的一种基于深度学习技术的场景分析***,其特征在于,所述预处理内容包括:对图像进行降维处理,对音频进行降噪处理以及文本输出。
3.根据权利要求1所述的一种基于深度学习技术的场景分析***,其特征在于,所述数据采集子***包括图像采集模块和音频采集模块,
所述图像采集模块和所述音频采集模块,分别用于对图像和音频进行采集,并将所采集到的所述图像和所述音频发送至所述数据预处理模块。
4.根据权利要求1所述的一种基于深度学习技术的场景分析***,其特征在于,所述人脸识别模块包括第一特征提取单元、第一深度学习模型和第一匹配与识别单元;
所述第一特征提取单元,用于根据第一深度学习模型将预处理后的图像提取人脸图像特征向量;
所述第一匹配与识别单元,用于将提取到的所述人脸图像特征向量与所述数据库中的人脸图像进行匹配,得到第一识别结果,并将所述第一识别结果发送至所述数据库进行存储,所述第一深度学习模型根据数据库的更新而不断更新。
5.根据权利要求1所述的一种基于深度学习技术的场景分析***,其特征在于,所述语音识别模块包括第二特征提取单元、第二深度学习模型和第二匹配与识别单元;
所述第二特征提取单元,用于根据第二深度学习模型将预处理后的音频提取音频特征向量;
所述第二匹配与识别单元,用于将提取到的所述音频特征向量与所述数据库中的音频数据进行匹配,得到第二识别结果,并将所述第二识别结果发送至所述数据库进行存储,所述第二深度学习模型根据数据库的更新而不断更新。
6.根据权利要求1所述的一种基于深度学习技术的场景分析***,其特征在于,所述语音分析模块包括语义分析单元和语调分析单元;
所述语义分析单元和所述语调分析单元分别根据所述语音识别单元所识别到的语音进行语义和语调分析。
7.一种基于深度学习技术的场景分析方法,其特征在于,包括以下步骤:
(1)图像和语音的采集;
(2)对所采集到的图像和语音进行预处理;
(3)根据深度学习技术对待测图像进行人脸识别,判断数据库中是否存在待测图像内的人脸,并对识别到的人脸上的表情进行分析判断;
(4)根据深度学习技术对待测音频进行语音识别,将语音转换为文字内容,并对识别到的语音的语义、语调进行分析判断;
(5)步骤(3)和步骤(4)的分析判断结果进行综合分析。
8.根据权利要求8所述的一种基于深度学习技术的场景分析方法,其特征在于,人脸识别的具体过程为:
根据第一深度学习模型将预处理后的图像提取人脸图像特征向量;
将提取到的人脸图像特征向量与数据库中的人脸图像进行匹配,得到第一识别结果,并将所述第一识别结果发送至所述数据库进行存储,所述第一深度学习模型根据数据库的更新而不断更新。
9.根据权利要求8所述的一种基于深度学习技术的场景分析方法,其特征在于,语音识别的具体过程为:
根据第二深度学习模型将预处理后的音频提取音频特征向量;
将提取到的所述音频特征向量与数据库中的音频数据进行匹配,得到第二识别结果,并将所述第二识别结果发送至所述数据库进行存储,所述第二深度学习模型根据数据库的更新而不断更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910433837.8A CN110263653A (zh) | 2019-05-23 | 2019-05-23 | 一种基于深度学习技术的场景分析***及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910433837.8A CN110263653A (zh) | 2019-05-23 | 2019-05-23 | 一种基于深度学习技术的场景分析***及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110263653A true CN110263653A (zh) | 2019-09-20 |
Family
ID=67915131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910433837.8A Pending CN110263653A (zh) | 2019-05-23 | 2019-05-23 | 一种基于深度学习技术的场景分析***及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263653A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991329A (zh) * | 2019-11-29 | 2020-04-10 | 上海商汤智能科技有限公司 | 一种语义分析方法及装置、电子设备和存储介质 |
CN112001275A (zh) * | 2020-08-09 | 2020-11-27 | 成都未至科技有限公司 | 用于采集学生信息的机器人 |
WO2021134459A1 (en) * | 2019-12-31 | 2021-07-08 | Asiainfo Technologies (China) , Inc. | Ai intelligentialization based on signaling interaction |
CN115328661A (zh) * | 2022-09-09 | 2022-11-11 | 中诚华隆计算机技术有限公司 | 一种基于语音和图像特征的算力均衡执行方法及芯片 |
CN115440000A (zh) * | 2021-06-01 | 2022-12-06 | 广东艾檬电子科技有限公司 | 一种校园预警保护方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104902345A (zh) * | 2015-05-26 | 2015-09-09 | 多维新创(北京)技术有限公司 | 实现商品交互式广告和销售的方法及*** |
CN106095903A (zh) * | 2016-06-08 | 2016-11-09 | 成都三零凯天通信实业有限公司 | 一种基于深度学习技术的广播电视舆情分析方法及*** |
CN106709804A (zh) * | 2015-11-16 | 2017-05-24 | 优化科技(苏州)有限公司 | 一种交互式财富规划咨询机器人*** |
WO2018052561A1 (en) * | 2016-09-13 | 2018-03-22 | Intel Corporation | Speaker segmentation and clustering for video summarization |
CN109558935A (zh) * | 2018-11-28 | 2019-04-02 | 黄欢 | 基于深度学习的情感识别与交互方法及*** |
-
2019
- 2019-05-23 CN CN201910433837.8A patent/CN110263653A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104902345A (zh) * | 2015-05-26 | 2015-09-09 | 多维新创(北京)技术有限公司 | 实现商品交互式广告和销售的方法及*** |
CN106709804A (zh) * | 2015-11-16 | 2017-05-24 | 优化科技(苏州)有限公司 | 一种交互式财富规划咨询机器人*** |
CN106095903A (zh) * | 2016-06-08 | 2016-11-09 | 成都三零凯天通信实业有限公司 | 一种基于深度学习技术的广播电视舆情分析方法及*** |
WO2018052561A1 (en) * | 2016-09-13 | 2018-03-22 | Intel Corporation | Speaker segmentation and clustering for video summarization |
CN109558935A (zh) * | 2018-11-28 | 2019-04-02 | 黄欢 | 基于深度学习的情感识别与交互方法及*** |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991329A (zh) * | 2019-11-29 | 2020-04-10 | 上海商汤智能科技有限公司 | 一种语义分析方法及装置、电子设备和存储介质 |
WO2021134459A1 (en) * | 2019-12-31 | 2021-07-08 | Asiainfo Technologies (China) , Inc. | Ai intelligentialization based on signaling interaction |
CN112001275A (zh) * | 2020-08-09 | 2020-11-27 | 成都未至科技有限公司 | 用于采集学生信息的机器人 |
CN115440000A (zh) * | 2021-06-01 | 2022-12-06 | 广东艾檬电子科技有限公司 | 一种校园预警保护方法和装置 |
CN115328661A (zh) * | 2022-09-09 | 2022-11-11 | 中诚华隆计算机技术有限公司 | 一种基于语音和图像特征的算力均衡执行方法及芯片 |
CN115328661B (zh) * | 2022-09-09 | 2023-07-18 | 中诚华隆计算机技术有限公司 | 一种基于语音和图像特征的算力均衡执行方法及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263653A (zh) | 一种基于深度学习技术的场景分析***及其方法 | |
Chen et al. | A Multi-Scale Fusion Framework for Bimodal Speech Emotion Recognition. | |
CN111461176A (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及*** | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN107945805A (zh) | 一种智能化跨语言语音识别转化方法 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务*** | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN109036437A (zh) | 口音识别方法、装置、计算机装置及计算机可读存储介质 | |
CN110085220A (zh) | 智能交互装置 | |
CN112863529B (zh) | 基于对抗学习的说话人语音转换方法及相关设备 | |
CN106776832B (zh) | 用于问答交互日志的处理方法、装置及*** | |
CN109872713A (zh) | 一种语音唤醒方法及装置 | |
CN106512393A (zh) | 适用于虚拟现实环境中应用语音控制的方法和*** | |
CN113807103B (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、***及存储介质 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN114127849A (zh) | 语音情感识别方法和装置 | |
CN109887510A (zh) | 一种基于经验模态分解与mfcc的声纹识别方法及装置 | |
Zhang et al. | Voice biometric identity authentication system based on android smart phone | |
CN111126280A (zh) | 基于融合手势识别的失语症患者辅助康复训练***及方法 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN109147146A (zh) | 语音取号的方法及终端设备 | |
Palo et al. | Design of neural network model for emotional speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 519000 office 618, No. 2202, xinxiangjiang Road, Hengqin new area, Zhuhai, Guangzhou, Guangdong Applicant after: Guangdong Dingyi Interconnection Technology Co.,Ltd. Address before: 519000 unit 1 and unit 3, 10th floor, convention and Exhibition Center, No. 1, Software Park Road, Zhuhai, Guangdong Applicant before: Guangdong Dingyi Interconnection Technology Co.,Ltd. |