CN113903362B - 一种基于神经网络的语音情感识别方法 - Google Patents
一种基于神经网络的语音情感识别方法 Download PDFInfo
- Publication number
- CN113903362B CN113903362B CN202110990439.3A CN202110990439A CN113903362B CN 113903362 B CN113903362 B CN 113903362B CN 202110990439 A CN202110990439 A CN 202110990439A CN 113903362 B CN113903362 B CN 113903362B
- Authority
- CN
- China
- Prior art keywords
- emotion
- voice
- neural network
- text
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 34
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 25
- 230000008451 emotion Effects 0.000 claims abstract description 121
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经网络的语音情感识别方法,首先将目标语音信号分类为高兴、悲伤、中性以及生气四类情感,再提取语音信号的基于滤波器组的特征,然后将特征分别送入所述卷积神经网络和所述时延神经网络来自动提取情感特征,使用归一化指数函数分类器得到属于每一类情感的概率值,选取最大概率值对应的情感作为该段语音的情感类别;再将所述目标语音信号识别为文本,送入双向编码器预训练模型获取文本情感类别,融合以上三种模型后获得最终情感类别,解决了现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。
Description
技术领域
本发明涉及语音情感识别技术领域,尤其涉及一种基于神经网络的语音情感识别方法。
背景技术
语音情感识别的很多方法是采用将不同的语音情感分类模型进行融合,然而由于都是语音信息,模型的相关性比较高,模型融合的效果提升不大;也有使用不同模型提取特征的方法,然后不同模型按照相同的权重进行融合,同样存在效果提升不大的问题。
当前还有文本情感识别和语音情感识别的多模态方法,但采用的是特征融合,由于不同模型的学习速度不同,特征融合不能很好的发挥不同模态信息优势互补的作用。
发明内容
本发明的目的在于提供一种基于神经网络的语音情感识别方法,旨在解决现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。
为实现上述目的,本发明采用一种基于神经网络的语音情感识别方法,包括下列步骤:
提取语音特征并送入卷积神经网络,获得卷积情感类别;
所述语音特征送入时延神经网络,获得时延情感类别;
识别语音文本并送入双向编码器预训练模型,获得文本情感类别;
模型融合获得最终情感类别。
其中,所述语音特征为目标语音信号的基于滤波器组的特征。
其中,所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类,所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别是四类中的任意一类。
其中,在提取语音特征并送入卷积神经网络,获得卷积情感类别的过程中,所述卷积神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为卷积情感类别。
其中,在所述语音特征送入时延神经网络,获得时延情感类别的过程中,所述时延神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为时延情感类别。
其中,识别语音文本并送入双向编码器预训练模型,获得文本情感类别,包括下列步骤:
利用语音识别技术识别所述目标语音信号对应的文本,获得语音文本;
将所述语音文本中文字映射为相应的标号,形成标号序列;
将所述标号序列送入双向编码器预训练模型,提取文本包含的情感特征;
使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为文本情感类别。
其中,在模型融合获得最终情感类别的过程中,对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加,选取最大值对应的情感特征作为最终情感类别。
其中,进行所述线性相加的过程中,不同模型的权重值设置为相同或不相同。
本发明的一种基于神经网络的语音情感识别方法,首先将目标语音信号分类为高兴、悲伤、中性以及生气四类情感,再提取语音信号的基于滤波器组的特征,然后将特征分别送入所述卷积神经网络和所述时延神经网络来自动提取情感特征,使用归一化指数函数分类器得到属于每一类情感的概率值,选取最大概率值对应的情感作为该段语音的情感类别;再将所述目标语音信号识别为文本,送入双向编码器预训练模型获取文本情感类别,融合以上三种模型后获得最终情感类别,解决了现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于神经网络的语音情感识别方法的流程示意图。
图2是本发明的卷积神经网络的模型架构图。
图3是本发明的时延神经网络的模型架构图。
图4是本发明的单层的双向编码器的结构图。
图5是本发明的模型融合加权重值流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本申请中,相应的术语还可记为其余名称,如基于滤波器组的特征为FBank特征,卷积神经网络为CNN,时延神经网络为ECAPA-TDNN,双向编码器预训练模型为Bert,归一化指数函数为Softmax。
请参阅图1,本发明提出了一种基于神经网络的语音情感识别方法,包括下列步骤:
S1:提取语音特征并送入卷积神经网络,获得卷积情感类别;
S2:所述语音特征送入时延神经网络,获得时延情感类别;
S3:识别语音文本并送入双向编码器预训练模型,获得文本情感类别;
S4:模型融合获得最终情感类别。
所述语音特征为目标语音信号的基于滤波器组的特征。
所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类,所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别可以是四类中的任意一类。
在提取语音特征并送入卷积神经网络,获得卷积情感类别的过程中,所述卷积神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为卷积情感类别。
在所述语音特征送入时延神经网络,获得时延情感类别的过程中,所述时延神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为时延情感类别。
识别语音文本并送入双向编码器预训练模型,获得文本情感类别,包括下列步骤:
利用语音识别技术识别所述目标语音信号对应的文本,获得语音文本;
将所述语音文本中文字映射为相应的标号,形成标号序列;
将所述标号序列送入双向编码器预训练模型,提取文本包含的情感特征;
使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为文本情感类别。
在模型融合获得最终情感类别的过程中,对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加,选取最大值对应的情感特征作为最终情感类别。
进行所述线性相加的过程中,不同模型的权重值可以设置为相同或不相同。
进一步地,请参阅图2,卷积神经网络CNN的模型架构如下:
语音信号基于滤波器组的特征作为卷积神经网络的输入,该模型由5层二维卷积神经网络块组成,每个二维卷积神经网络块由3部分组成,分别是二维卷积神经网络,批标准化层,最大池化层。之后连接一层全局平均池化层。然后连接全连接层,通过激活函数为归一化指数函数softmax得到属于每一类情感的概率值,然后选取最大的概率值所对应的情感作为该语音的情感类别。
时延神经网络ECAPA-TDNN模型架构如图3所示:
语音信号的基于滤波器组的特征作为模型的输入,模型的第一层为时延神经网络,后面连接修正线性单元激活函数和批标准化网络,之后连接3层特征压缩与激发模块,然后将第一个和第二个特征压缩与激发模块的输出以及第三个特征压缩与激发模块的输出一起输入到时延神经网络中,并连接修正线性单元激活函数,然后通过注意力池化计算得到基于滤波器组的特征的统计注意力池化向量,并进行批标准化,然后将其送入全连接网络层,并进行批标准化,最后通过附加角余量归一化指数函数得到属于每一类情感的概率值,选取概率值最大的类别作为该段语音的情感类别。
在Bert预训练模型的过程中:
利用语音识别技术识别出语音对应的文本,然后根据词典将文本中每个字映射为相应的标号,不同字对应不同的标号。然后将文本对应的标号序列为双向编码器(Bert)预训练模型的输入。
Bert预训练模型是一个多层的双向编码器叠加而成的。单层的双向编码器的结构请参阅图4。输入文本,提取得到输入的嵌入,对输入信息进行位置编码,然后送入编码器进行编码,然后将上一层的输出送入解码器,并联合编码器的编码得到的特征送入全连接层和归一化指数函数softmax层进行分类,得到文本的情感类别。
进一步地,在模型融合获得最终情感类别的过程中:
请参阅图5,融合方法:权重1*CNN的softmax之后的概率值+权重2*ECAPA-TDNN的softmax之后的概率值+权重3*Bert的softmax之后的概率值=新的概率值,然后选取最大值对应的情感作为最终的情感类别。
其中:权重1+权重2+权重3=1
本发明还提出了具体实施例说明了识别准确率的提升变化:
相关术语含义:准确率=正确预测的样本数/总共的样本数
加权准确率WA:某一类情感类别的准确率*某一类情感在数据集中所占的比例;
非加权准确率UA:某一类情感类别的准确率。
模型1:输入为语音的基于滤波器组的特征(Fbank特征),使用卷积神经网络cnn模型,加权准确率WA、非加权准确率UA:67%,65%
模型2:输入为语音的基于滤波器组的特征(Fbank特征),使用时延神经网络ECAPA-TDNN模型,加权准确率WA、非加权准确率UA:67%,66%
模型3:输入为文本用的双向编码器Bert预训练模型,加权准确率WA、非加权准确率UA:62%,61%
把设置的不同模型的权重都是相同的,语音情感识别结果为:
#加权准确率WA、非加权准确率UA:76%,74%
(1*模型1的softmax之后的概率值+1*模型2的softmax之后的概率值+1*模型3softmax之后的概率值)/3
在模型融合时,权重更改为不是相同的,性能有了比较大的提升:
#加权准确率WA、非加权准确率UA:81%,80%
(0.5*模型1的softmax之后的概率值+2.1*模型2的softmax之后的概率值+0.4*模型3softmax之后的概率值)/3
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (8)
1.一种基于神经网络的语音情感识别方法,其特征在于,包括下列步骤:
提取语音特征并送入卷积神经网络,获得卷积情感类别;
所述语音特征送入时延神经网络,获得时延情感类别;
识别语音文本并送入双向编码器预训练模型,获得文本情感类别;
模型融合获得最终情感类别;
在模型融合获得最终情感类别的过程中,权重1*CNN的softmax之后的概率值+权重2*ECAPA-TDNN的softmax之后的概率值+权重3*Bert的softmax之后的概率值=新的概率值,然后选取最大值对应的情感作为最终的情感类别,其中,权重1+权重2+权重3=1。
2.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,所述语音特征为目标语音信号的基于滤波器组的特征。
3.如权利要求2所述的基于神经网络的语音情感识别方法,其特征在于,所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类,所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别是四类中的任意一类。
4.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在提取语音特征并送入卷积神经网络,获得卷积情感类别的过程中,所述卷积神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为卷积情感类别。
5.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在所述语音特征送入时延神经网络,获得时延情感类别的过程中,所述时延神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为时延情感类别。
6.如权利要求2所述的基于神经网络的语音情感识别方法,其特征在于,识别语音文本并送入双向编码器预训练模型,获得文本情感类别,包括下列步骤:
利用语音识别技术识别所述目标语音信号对应的文本,获得语音文本;
将所述语音文本中文字映射为相应的标号,形成标号序列;
将所述标号序列送入双向编码器预训练模型,提取文本包含的情感特征;
使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为文本情感类别。
7.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在模型融合获得最终情感类别的过程中,对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加,选取最大值对应的情感特征作为最终情感类别。
8.如权利要求7所述的基于神经网络的语音情感识别方法,其特征在于,进行所述线性相加的过程中,不同模型的权重值设置为相同或不相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110990439.3A CN113903362B (zh) | 2021-08-26 | 2021-08-26 | 一种基于神经网络的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110990439.3A CN113903362B (zh) | 2021-08-26 | 2021-08-26 | 一种基于神经网络的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113903362A CN113903362A (zh) | 2022-01-07 |
CN113903362B true CN113903362B (zh) | 2023-07-21 |
Family
ID=79188027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110990439.3A Active CN113903362B (zh) | 2021-08-26 | 2021-08-26 | 一种基于神经网络的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903362B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107609572A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、*** |
CN111583964A (zh) * | 2020-04-14 | 2020-08-25 | 台州学院 | 一种基于多模深度特征学习的自然语音情感识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564942B (zh) * | 2018-04-04 | 2021-01-26 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及*** |
US11449537B2 (en) * | 2018-12-18 | 2022-09-20 | Adobe Inc. | Detecting affective characteristics of text with gated convolutional encoder-decoder framework |
CN110489521B (zh) * | 2019-07-15 | 2021-03-12 | 北京三快在线科技有限公司 | 文本类别检测方法、装置、电子设备和计算机可读介质 |
CN110534132A (zh) * | 2019-09-23 | 2019-12-03 | 河南工业大学 | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 |
CN111081280B (zh) * | 2019-12-30 | 2022-10-04 | 思必驰科技股份有限公司 | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 |
CN112700796B (zh) * | 2020-12-21 | 2022-09-23 | 北京工业大学 | 一种基于交互式注意力模型的语音情感识别方法 |
-
2021
- 2021-08-26 CN CN202110990439.3A patent/CN113903362B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107609572A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、*** |
CN111583964A (zh) * | 2020-04-14 | 2020-08-25 | 台州学院 | 一种基于多模深度特征学习的自然语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113903362A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及*** | |
CN111476023B (zh) | 识别实体关系的方法及装置 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN108509978A (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及*** | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
CN104361311B (zh) | 多模态在线增量式来访识别***及其识别方法 | |
CN107480723B (zh) | 基于局部二进制阈值学习网络的纹理识别方法 | |
CN110263164A (zh) | 一种基于模型融合的情感倾向分析方法 | |
CN115292463B (zh) | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 | |
CN113836992A (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN108363962B (zh) | 一种基于多层次特征深度学习的人脸检测方法及*** | |
CN111221961A (zh) | 一种基于s-lstm模型与槽值门的说话人意图识别***及方法 | |
CN113569553A (zh) | 基于改进Adaboost算法的句子相似性判断方法 | |
CN111563161A (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN113903362B (zh) | 一种基于神经网络的语音情感识别方法 | |
CN116110059A (zh) | 一种基于深度学习的离线手写数学公式识别的方法 | |
CN112364636A (zh) | 一种基于双重目标编码的用户意图识别*** | |
CN115859989A (zh) | 基于远程监督的实体识别方法及*** | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及*** | |
CN112183513A (zh) | 一种图像中文字的识别方法、装置、电子设备及存储介质 | |
CN115169363A (zh) | 一种融合知识的增量编码的对话情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |