CN113254713A - 基于视频内容生成情感曲线的多源情感计算***及方法 - Google Patents

基于视频内容生成情感曲线的多源情感计算***及方法 Download PDF

Info

Publication number
CN113254713A
CN113254713A CN202110533941.1A CN202110533941A CN113254713A CN 113254713 A CN113254713 A CN 113254713A CN 202110533941 A CN202110533941 A CN 202110533941A CN 113254713 A CN113254713 A CN 113254713A
Authority
CN
China
Prior art keywords
emotion
video
feature
auditory
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110533941.1A
Other languages
English (en)
Other versions
CN113254713B (zh
Inventor
牛建伟
杨森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110533941.1A priority Critical patent/CN113254713B/zh
Publication of CN113254713A publication Critical patent/CN113254713A/zh
Application granted granted Critical
Publication of CN113254713B publication Critical patent/CN113254713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于视频内容生成情感曲线的多源情感计算***及方法,涉及深度学***滑的情感曲线。本发明实现了在计算机上计算视频情感变化曲线的自动化方法和***,保留了观看者手工情感标注的特征,输出结果平滑自然,视觉效果更高,后续分析利用价值更大。

Description

基于视频内容生成情感曲线的多源情感计算***及方法
技术领域
本发明涉及深度学习技术、计算机视觉技术和视频处理技术,具体涉及一种基于视频内容生成情感曲线的多源情感计算***及方法,是一种视频内容到情感曲线的生成技术。
背景技术
本发明所涉及的视频特指时长在1分钟以上的长视频,其通常包含视频内容和对应的音频数据。情感曲线特指视频带给观看者的情感反馈随时间的变化。情感由效价(Valence)和唤起(Arousal)2维情感值组成。效价表示情感的积极消极程度,唤起表示情感的强烈程度。计算视频的情感曲线是一项视频到情感曲线的转换任务,其目的为将输入的视频转化为情感曲线。近年来,基于深度学习的视频内容理解取得了显著进展,最近的研究提出了一系列***的方法。例如,基于卷积神经网络(Convolutional Neural Network,CNN)方法;基于循环神经网络(Recurrent Neural Network,RNN)的方法。
然而,基于现有的技术,面向视频情感曲线的计算方法通常针对视频内容或音频内容进行计算,其难以利用综合的信息和特征,其生成的情感曲线变化与视频给观众带来的情感波动不符,无法直接作为视频的情感表示用于进一步处理。
发明内容
本发明的目的是提供一种基于二维和三维卷积神经网络,根据视频的视觉内容和听觉内容生成情感曲线的自动化方法和***,以解决现有技术由视频生成情感表示的各种性能的综合效果较差的问题。
本发明基于视频内容生成情感曲线的多源情感计算***,包括视频内容特征提取模块、音频内容特征提取模块、特征融合回归模块与长视频分割与处理模块。其中,视频内容特征提取模块用于从输入视频中提取视觉特征。音频内容特征提取模块用于计算输入视频的听觉特征。特征融合回归模块用于对视觉特征和听觉特征进行融合回归,并进行回归预测短视频对应的情感值。长视频分割与处理模块将输入的原始长视频分割成等长的短视频,再利用前述视频内容特征提取模块、音频内容特征提取模块和特征融合回归模块计算每个短视频的情感值,进行拼接组成整个长视频情感序列,然后对拼接后的长视频情感序列进行平滑化处理,得到原始输入视频的情感曲线。
针对上述基于视频内容生成情感曲线的多源情感计算***,其多源情感计算方法为:
步骤1:通过视频切割工具将长视频V切割成等长度的短视频片段。
步骤2:各个短视频片段中提取视频采样帧,然后使用三维残差网络从连续的视频采样帧中提取短视频内容的视觉特征Featurevisual
步骤3:计算各个短视频片段中音频的梅尔频率倒谱系数,将音频的梅尔频率倒谱系数作为输入提取短视频的听觉特征Featureauditory
步骤4:对于每一个短视频片段,将提取的Featurevisual和Featureauditory进行融合,合并成统一的输入向量Feature,然后输入到回归器中,进而得到每一个短视频片段的情感值。
步骤5:对由前述步骤2~4得到每个短视频片段的情感值进行拼接形成长视频片段V的情感序列,并进行平滑处理。
相对于现有技术,本发明方法和***的优点和积极效果在于:
1、本发明基于视频内容生成情感曲线的多源情感计算***及方法,通过不同模态的视频数据(视觉和听觉)计算视频的时空特征,再对两种模态的特征进行融合和回归训练,得到短视频的情感值。再对长视频进行自动分割和情感计算,得到情感序列。由于情感序列在时间上的不连续性,本发明利用三阶样条插值对该序列进行插值处理,输出得到的平滑的情感曲线。
2、本发明基于视频内容生成情感曲线的多源情感计算***及方法,在视频视觉特征提取网络的设计中,利用了三维深度卷积网络,以有效地提取与视频帧上下文相关的时空特征。
3、本发明一种基于视频内容生成情感曲线的多源情感计算***及方法,在视频听觉特征提取网络的设计中,提出了基于梅尔频率倒谱系数的预处理方法,以使得提取出的听觉特征更符合人耳的特点。
5、本发明基于视频内容生成情感曲线的多源情感计算***及方法,在训练网络参数时使用大规模的人工标注的视频情感数据集,生成的视频情感曲线更加接近人类观众的真实体验,有利于后续的视频分析的进一步处理和利用。
附图说明
图1为本发明方法基于视频内容生成情感曲线的多源情感计算***示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明基于视频内容生成情感曲线的多源情感计算***,如图1所示,功能模块包括:视频内容特征提取模块、音频内容特征提取模块、特征融合回归模块与长视频分割与处理模块。
所述视频内容特征提取模块从输入视频中提取视频采样帧,然后使用三维残差网络从连续的视频采样帧中提取视频内容的时空特征(视觉特征),输入特征融合回归模块。
所述音频内容特征提取模块计算输入视频的音频信息,计算其梅尔频率倒谱系数(Mel Frequerncy Cepstrum Coefficient,MFCC),然后输入深度残差网络提取音频特征(听觉特征),输入特征融合回归模块。
所述特征融合回归模块针对视频内容特征提取模块提取出的视觉特征和音频内容提取模块提取出的听觉特征进行融合回归,利用全连接网络进行回归预测短视频对应的情感值。
所述长视频分割与处理模块将输入的原始长视频分割成等长短视频,再对前述视频内容特征提取模块、音频内容特征提取模块和特征融合回归模块计算的都的每个短视频的情感值,进行拼接组成整个长视频情感序列,然后使用三阶样条差值对拼接后的长视频情感序列进行平滑化处理,得到原始输入视频的情感曲线。
针对上述基于视频内容生成情感曲线的多源情感计算***,如图1所示,其多源情感计算方法为:
步骤1:通过视频切割工具(FFmpeg)将长视频V切割成等长度的短视频片段;本发明中设计将长视频V等分为8秒钟的短视频片段,多余的部分被忽略。
步骤2:获取各个短视频片段中代表视觉信息的时空特征Featurevisual。其中,视觉特征提取的方法不限,包括但不限于人工设计特征、卷积神经网络、循环神经网络、长短期记忆网络和注意力机制。
本发明实施实例中,先通过帧采样的方式,每4帧抽取一帧作为关键帧。由于视频连续动态变化的特点,传统的卷积神经网络只能处理单帧图像,无法有效利用连帧的上下文信息。因此本发明中Featurevisual的提取主要使用18层的三维深度残差网络(3DimensionResNet, R3D),3维卷积神经网络可以处理空间和时间信息并将其通过网络向前传播,输入的张量zi在这种情况下是4维的,大小为3×T×H×W,其中3是视频每帧的通道数,通常是RGB; T是一个视频片段中的帧数,H和W分别表示帧的高度和宽度。在本发明实施实例中,每帧图像的大小(高和宽)放缩成112。深度残差网络的感受野在输入张量上沿着空间(H高度和 W宽度)和时间(T帧数)移动,进行卷积操作再经过ReLU激活函数后,生成输出张量。本发明三维深度残差网络采用通用效果最好的R3D结构。第i个3D卷积块的输出如公式:
zi=zi-1+F(zi-1;θi)
其中,F(zi-1;θi)实现了权重为θi的卷积操作和应用了ReLU函数,zi-1表示上一个3D卷积块的输出,zi表示第i个3D卷积块的输出。18个3D卷积块的输出经过时空池化层和一层全连接神经网络生成128维的代表视觉信息的特征Featurevisual。R3D是一种3维时空卷积网络,3D卷积块是其基础组成,具体实现技术可参考文献Du Tran,Heng Wang,LorenzoTorresani, Jamie Ray,Yann LeCun,Manohar Paluri:A Closer Look atSpatiotemporal Convolutions for Action Recognition.CVPR 2018:6450-6459。ReLU函数是一种神经网络激活函数,实现技术可参考文献Xavier Glorot,Antoine Bordes,Yoshua Bengio:Deep Sparse Rectifier Neural Networks. AISTATS 2011:315-323。
步骤3:获取各个短视频片段中代表听觉信息的特征Featureauditory。先计算音频的梅尔频率倒谱系数,再将音频的梅尔频率倒谱系数作为输入提取听觉特征。其中,听觉特征提取的确定方法不限,包括但不限于人工设计特征、神经网络和其它机器学习方法。
本发明实施例中,为了减小输入大小和模型大小,使用正弦差值方法将音频信号的采样率降到2000赫兹。提取音频的梅尔频率倒谱系数的听觉特征Featureauditory主要使用深度残差网络(ResNet)的原理。本发明训练了18层ResNet,采用在ImageNet上预训练好的参数,更改其第一层卷积网络的输入大小为2×64,以将适配自然图像的三颜色通道更改为适配声音双声道的二通道。然后使用视频情感分析数据集训练微调18层ResNet模型的参数,微调后模型得到新的参数,更加适合情感分析的任务。最后输出为128维的代表听觉信息的特征 Featureauditory。ResNet是一种卷积神经网络,实现技术可参考文献:Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun:Deep Residual Learning for ImageRecognition.CVPR 2016:770- 778。
步骤4:如图1所示,对于每一个短视频片段,将获得的Featurevisual和Featureauditory进行融合,合并成统一的输入向量Feature,然后输入到回归器中,进而得到每一个短视频片段的情感值。其中融合方法包括但不限于神经网络、支持向量机等机器学习方法和数据融合技术,回归器包括但不限于支持向量回归、神经网络等机器学习方法,情感值包括但不限于2 维效价-唤起情感,情感离散分类和其它视频情感表示。
本发明实施例中,128维的特征向量Featurevisual和128维的特征向量Featureauditory首先被归一化处理,以统一两者的返回和分布。然后,归一化后的Featurevisual和Featureauditory会被拼接成统一的256维输入特征向量Feature。特征向量输入到2层的全连接网络中,输入为 256维,第一层输出为64维;输出为2维向量,分别表示情感唤起值和情感效价值,即 [Arousal,Valence]。全连接网络采用ReLU激活函数。
步骤5:对由前述步骤2~4得到各个短视频片段的情感值进行拼接,形成长视频V的情感序列,并进行平滑处理;
通过步骤2~4的方法的都每个短视频的情感值,每个短视频的情感值均产生一个2维情感空间中的点。然后再采用常用的拼接方法,将这些离散的点连接成折线。该折线即表示长视频V的情感序列,每个情感序列是一个二维点序列。相比之前的技术,本发明中这种基于深度学习模型预测的情感序列保证了效价-唤起2维情感之间的独立性。再对这个情感序列做三阶样条插值,形成一条光滑的情感曲线,输出该曲线。
步骤6:采用插值算法将平滑后的情感序列作为情感曲线输出。
为了验证生成的情感曲线的有效性,本发明还提出一种定量的情感曲线验证方法。用生成的情感曲线和观看者标注计算而来的情感序列进行相关性分析,计算两者的斯皮尔曼等级相关系数(Spearman's Rank Correlation Coefficient,SRCC)来定量衡量情感曲线的有效性。计算方式如公式:
Figure RE-GDA0003149711560000051
其中,di=rg(Xi)-rg(Yi)是2个序列的排名大小之差,n是序列的长度,X表示本发明计算出来的情感序列,Xi表示其中的第i个值。Y表示对应的观众标注的情感序列,Yi表示其中第i个值。rg(Xi)表示Xi在X中的排名,即按大小排序后的位置。同理rg(Yi)也是。2个序列分别是长视频分割和处理模块输出的情感(Valence和Arousal)序列和对应的观众标注的情感序列。

Claims (6)

1.基于视频内容生成情感曲线的多源情感计算***,其特征在于:包括视频内容特征提取模块、音频内容特征提取模块、特征融合回归模块与长视频分割与处理模块;
所述视频内容特征提取模块用于从输入视频中提取视觉特征;
所述音频内容特征提取模块用于计算输入视频的听觉特征;
所述特征融合回归模块用于对视觉特征和听觉特征进行融合回归,并进行回归预测短视频对应的情感值。
所述长视频分割与处理模块将输入的原始长视频分割成等长的短视频,再对前述视频内容特征提取模块、音频内容特征提取模块和特征融合回归模块计算得到的每个短视频的情感值,进行拼接组成整个长视频情感序列,然后对拼接后的长视频情感序列进行平滑化处理,得到原始输入视频的情感曲线。
2.如权利要求1所述基于视频内容生成情感曲线的多源情感计算***,其特征在于:多源情感计算方法为:
步骤1:通过视频切割工具将长视频V切割成等长度的短视频片段;
步骤2:各个短视频片段中提取视频采样帧,然后使用三维残差网络从连续的视频采样帧中提取短视频内容的视觉特征Featurevisual
步骤3:计算各个短视频片段中音频的梅尔频率倒谱系数,将音频的梅尔频率倒谱系数作为输入提取短视频的听觉特征Featureauditory
步骤4:对于每一个短视频片段,将提取的Featurevisual和Featureauditory进行融合,合并成统一的输入向量Feature,然后输入到回归器中,进而得到每一个短视频片段的情感值;
步骤5:对由前述步骤2~4得到每个短视频片段的情感值进行拼接形成长视频片段V的情感序列,并进行平滑处理;
步骤6:采用插值算法将平滑后的情感序列作为情感曲线输出。
3.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***,其特征在于:步骤2中,三维深度残差网络采用通用效果最好的R3D结构,每帧图像的大小放缩成112;深度残差网络的感受野在输入张量上沿着空间和时间移动,进行卷积操作再经过ReLU激活函数后,生成输出张量。
4.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***,其特征在于:步骤3中,使用正弦差值方法将音频信号的采样率降到2000赫兹,训练18层深度残差网络,并采用在ImageNet上预训练好的参数,更改其第一层卷积网络的输入大小为2×64,以将适配自然图像的三颜色通道更改为适配声音双声道的二通道;然后使用视频情感分析数据集训练微调18层ResNet模型的参数,微调后模型得到新的参数,输出为128维的代表听觉信息的特征Featureauditory
5.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***,其特征在于:步骤3中,本发明实施例中,128维的特征向量Featurevisual和128维的特征向量Featureauditory首先被归一化处理,以统一两者的返回和分布。然后,归一化后的Featurevisual和Featureauditory会被拼接成统一的256维输入特征向量Feature。特征向量输入到2层的全连接网络中,输入为256维,第一层输出为64维;输出为2维向量,分别表示情感唤起值和情感效价值,即[Arousal,Valence]。全连接网络采用ReLU激活函数。
6.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***,其特征在于:将生成的情感曲线和观看者标注计算而来的情感序列进行相关性分析,计算两者的斯皮尔曼等级相关系数来定量衡量情感曲线的有效性。
CN202110533941.1A 2021-05-17 2021-05-17 基于视频内容生成情感曲线的多源情感计算***及方法 Active CN113254713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110533941.1A CN113254713B (zh) 2021-05-17 2021-05-17 基于视频内容生成情感曲线的多源情感计算***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110533941.1A CN113254713B (zh) 2021-05-17 2021-05-17 基于视频内容生成情感曲线的多源情感计算***及方法

Publications (2)

Publication Number Publication Date
CN113254713A true CN113254713A (zh) 2021-08-13
CN113254713B CN113254713B (zh) 2022-05-24

Family

ID=77183212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110533941.1A Active CN113254713B (zh) 2021-05-17 2021-05-17 基于视频内容生成情感曲线的多源情感计算***及方法

Country Status (1)

Country Link
CN (1) CN113254713B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116456262A (zh) * 2023-03-30 2023-07-18 青岛城市轨道交通科技有限公司 一种基于多模态感知的双声道音频生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
US20190278978A1 (en) * 2018-03-08 2019-09-12 Electronics And Telecommunications Research Institute Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
CN110852215A (zh) * 2019-10-30 2020-02-28 国网江苏省电力有限公司电力科学研究院 一种多模态情感识别方法、***及存储介质
CN111382677A (zh) * 2020-02-25 2020-07-07 华南理工大学 基于3d注意力残差模型的人体行为识别方法及***
CN112766172A (zh) * 2021-01-21 2021-05-07 北京师范大学 一种基于时序注意力机制的人脸连续表情识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190278978A1 (en) * 2018-03-08 2019-09-12 Electronics And Telecommunications Research Institute Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN110852215A (zh) * 2019-10-30 2020-02-28 国网江苏省电力有限公司电力科学研究院 一种多模态情感识别方法、***及存储介质
CN111382677A (zh) * 2020-02-25 2020-07-07 华南理工大学 基于3d注意力残差模型的人体行为识别方法及***
CN112766172A (zh) * 2021-01-21 2021-05-07 北京师范大学 一种基于时序注意力机制的人脸连续表情识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116456262A (zh) * 2023-03-30 2023-07-18 青岛城市轨道交通科技有限公司 一种基于多模态感知的双声道音频生成方法
CN116456262B (zh) * 2023-03-30 2024-01-23 青岛城市轨道交通科技有限公司 一种基于多模态感知的双声道音频生成方法

Also Published As

Publication number Publication date
CN113254713B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN109886225B (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN110909658A (zh) 一种基于双流卷积网络的视频中人体行为识别方法
CN109635676B (zh) 一种从视频中定位音源的方法
WO2021238826A1 (zh) 一种实例分割模型的训练方法、装置、实例分割方法
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN113158727A (zh) 一种基于视频和语音信息的双模态融合情绪识别方法
WO2022199215A1 (zh) 一种融合人群信息的语音情感识别方法和***
CN113591770A (zh) 基于人工智能导盲的多模态融合障碍物检测方法及装置
WO2022262098A1 (zh) 一种基于图神经网络的视频情感语义分析方法
Ivanko et al. RUSAVIC Corpus: Russian audio-visual speech in cars
CN113254713B (zh) 基于视频内容生成情感曲线的多源情感计算***及方法
CN111625661A (zh) 一种音视频片段分类方法及装置
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、***、设备及介质
CN117528135A (zh) 语音驱动的脸部视频生成方法、装置、电子设备及介质
CN116167015A (zh) 一种基于联合交叉注意力机制的维度情感分析方法
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及***
CN113269068B (zh) 一种基于多模态特征调节与嵌入表示增强的手势识别方法
Zhang et al. Modeling temporal information using discrete fourier transform for recognizing emotions in user-generated videos
CN114329070A (zh) 视频特征提取方法、装置、计算机设备和存储介质
CN112232302A (zh) 一种人脸识别方法
KR20210035535A (ko) 뇌 연결성 학습 방법 및 이를 위한 시스템
CN116172580B (zh) 一种适用于多声源场景的听觉注意对象解码方法
CN111914777B (zh) 一种跨模态识别机器人指令的方法及***
CN116992309B (zh) 一种语音口型同步检测模型的训练方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant