CN116910302A - 一种多模态视频内容有效性反馈可视分析方法与*** - Google Patents

一种多模态视频内容有效性反馈可视分析方法与*** Download PDF

Info

Publication number
CN116910302A
CN116910302A CN202310976858.0A CN202310976858A CN116910302A CN 116910302 A CN116910302 A CN 116910302A CN 202310976858 A CN202310976858 A CN 202310976858A CN 116910302 A CN116910302 A CN 116910302A
Authority
CN
China
Prior art keywords
video
validity
effectiveness
feedback
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310976858.0A
Other languages
English (en)
Inventor
马翠霞
黄泽远
贺强
邓小明
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202310976858.0A priority Critical patent/CN116910302A/zh
Publication of CN116910302A publication Critical patent/CN116910302A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种多模态视频内容有效性反馈可视分析方法与***。该方法包括:收集某种特定类型的视频与其有效性客观指标的标签;量化抽取视频中所关注内容的多模态数据特征,进而结合领域实际需求确定有效性因素,并计算得出不同内容的有效性因素数值;对有效性因素与有效性客观指标之间的相关性进行分析,并提取待分析视频的有效性反馈结果;结合待分析视频的数据产生参考视频推荐结果;将待分析视频的有效性反馈结果及其多模态数据上下文以不同可视化形式进行展示,供用户进行对有效性反馈结果的层次化探索。本发明提供了一个视频内容有效性反馈可视分析的全流程解决方案,可以更好地支持用户了解有效性反馈的结果,并有针对性地进行探索。

Description

一种多模态视频内容有效性反馈可视分析方法与***
技术领域
本发明属于信息技术、可视化技术领域,具体涉及一种多模态视频内容有效性反馈可视分析方法与***。
背景技术
近年来多媒体视频量蓬勃增长,视频中包含了大量图像、音频、文本等多种模态的信息,蕴含着视频作者的信息传递和思想表达意图,视频内容中不同模态的信息表达方式也与其表达效果息息相关。演讲是生活中常见的表达形式,演讲者的表情、动作、语调等演讲方式都会对演讲内容的传达产生重要的作用,能够让观众产生不同的理解体验和共鸣感受,从而实现更好的演讲效果。演讲者的演讲过程通常会被录制为视频,记录练习、正式等不同场合的演讲成果,支持后续的分析和传播。和其它视频作者类似,演讲者存在演讲有效性反馈的需求,需要了解对一个特定演讲的针对性反馈意见,获取可供改进的建议和参考学习的对象等。
当前在视频内容有效性的分析反馈中,通常依赖于培训师进行人工分析,需要依赖于经验并要耗费大量的人力成本。近年来在相关领域也有工作尝试进行自动化分析。一些演讲培训软件支持对语音等数据进行提取和分析,但分析的手段大都比较基础,也不能结合演讲中的多种演讲技巧进行综合分析。中国专利申请CN113743271A公开的一种基于多模态情感的视频内容有效性可视分析方法与***,主要依赖于多模态情感信息,未能覆盖到其它方面的视频内容,同时也主要是对现有的视频数据库进行探索和对有效性规律进行分析,不能形成对特定视频的有效性反馈,也难以获得潜在调整的参考对象。
发明内容
本发明的目的在于提出一种多模态视频内容有效性反馈可视分析方法与***。
本发明中视频内容有效性是指视频中的多模态内容与其表达效果之间的关联,结合实际领域确定有效性评价方式,包括但不限于演讲视频中开展演讲的方法与演讲表现之间的关系、教学视频中讲授课程的方式与课程效果之间的关系、娱乐视频中娱乐内容展示方式与观众体验之间的关系等。以演讲视频为例,本发明将演讲中的演讲技巧进行量化,引入演讲视频的有效性分析,帮助专家、初学者、评委等获取对特定一个演讲视频的有效性反馈及演讲上下文关系,以一定规则推荐其它演讲片段以供用户参考分析。
本发明采用的技术方案如下:
一种多模态视频内容有效性反馈可视分析方法,其步骤包括:
收集某种特定类型的视频与其有效性客观指标的标签;
量化抽取视频中所关注内容的多模态数据特征;
在抽取得到的多模态数据特征基础上,结合领域实际需求确定有效性因素,并计算得出不同内容的有效性因素数值;
对有效性因素与有效性客观指标之间的相关性进行分析,得出有效性因素的相关性结果;
利用有效性因素与有效性客观指标之间的相关性,提取待分析视频的有效性反馈结果;
结合待分析视频的数据产生推荐视频结果以供用户参考;
将待分析视频的有效性反馈结果及其多模态数据上下文以不同可视化形式进行展示,供用户进行对有效性反馈结果的层次化探索。
进一步地,所述某种特定类型的视频包括演讲视频、教学视频、销售视频、娱乐视频等类型的视频,所述有效性客观指标的标签包括播放量、排名、打分、成交量等。
进一步地,所述多模态数据来源包括视频、图像、声音、文本等,所述多模态数据特征包括视频中人物的面部表情、肢体动作、眼神注视、所处位置、语音语调、节奏停顿等,以及视频画面的背景、色调和背景声音等。
进一步地,所述结合领域实际需求确定有效性因素,包括:根据特定类型视频对应领域的理论和需求,建立影响特定领域有效性的因素,这些因素对应着该特定领域的技巧、方法等,对在该特定领域的表现效果有影响作用。
进一步地,所述有效性因素,包括下列中的至少一种:情感比例、情感平均水平、情感变化程度、情感多样性、动作幅度、动作多样性、眼神范围、眼神变化速度、位置变化幅度、位置变化速度、音调变化幅度、节奏快慢、停顿多少、背景类型、色调明暗等。
进一步地,所述对有效性因素和有效性客观指标之间的相关性进行分析,包括:建立有效性因素与有效性客观指标之间的关联,如分析两者间的正负相关性及相关性程度。
进一步地,所述利用有效性因素与有效性客观指标之间的相关性,提取待分析视频的有效性反馈结果,包括:提取待分析视频的多模态数据特征,计算有效性因素数值,按照有效性因素与客观指标之间的相关性预测待分析视频的有效性反馈结果。
进一步地,所述结合待分析视频的数据产生推荐视频结果,其中待分析视频的数据包括但不限于多模态数据特征、有效性因素数值和有效性反馈结果,推荐方法包括但不限于来自视频数据库的相似性检索,推荐依据包括但不限于视频的整体和局部特征,推荐对象粒度包括但不限于视频的整体和片段。
进一步地,所述对有效性反馈结果的层次化探索,支持以下从整体到局部的联合分析和表达的功能:有效性因素反馈功能、视频上下文理解功能、时间区间分布理解功能、数据摘要及相似性推荐功能。
一种多模态视频内容有效性反馈可视分析***,其包括:
数据收集模块,负责收集某种特定类型的视频与其有效性客观指标的标签;
数据特征提取模块,负责量化抽取视频中所关注内容的多模态数据特征;
有效性因素计算模块,负责基于多模态数据特征,结合领域实际需求确定有效性因素,计算得出不同有效性因素的数值;
有效性分析预测模块,负责建立有效性因素与有效性客观指标之间的关联关系,将分析得出的关联关系结果用于预测待分析视频中的有效性;
参考视频推荐模块,负责根据待分析视频,利用指定的视频内容及相关参数,从数据库中推荐可供参考的视频(推荐的视频可与待分析视频相似或不同,可以根据不同的需求来确定);
可视分析模块,负责将以上各模块的功能和数据整合,以不同的可视化形式展示数据和各模块产生的结果,以完整的界面进行呈现,以供用户通过界面了解待分析视频的有效性反馈结果,并支持更深层次的探索。
通过本发明提出的可视分析方法和***,使用者可以了解针对特定视频内容的有效性反馈结果以发现可以改进的具体方面,可以了解因素有效性的时间分布以发现视频内容中的改进位置,可以结合视频中的多模态上下文了解有效性因素以供深入理解视频表现,可以获取参考的视频实例以供调整提升,可以对视频中多模态有效性因素进行总结摘要以供快速理解和比较。
和现有技术相比,本发明具有的优点和积极效果如下:
1.本发明提出了一个视频中多模态内容的有效性反馈的处理和分析流程,提供了一个视频内容有效性反馈可视分析的全流程解决方案。相比于现有的技术,可以更好地支持用户了解有效性反馈的结果,并有针对性地进行探索。
2.本发明提出了一个对用户视频中多模态内容展示、推荐、分析、探索的交互式可视分析***,允许用户快速了解视频中不同有效性因素的有效性反馈情况,支持用户根据视频的上下文进行详细分析,通过推荐帮助用户快速发现可供参考的视频样例,并对感兴趣的视频样例支持针对性的细致探索,以支持理解待分析视频可能的改进。
3.本发明基于视频内容有效性的反馈,结合多种可视化形式,提出了一种基于多模态视频内容有效性反馈的可视分析方法与***,该***可用于分析视频中内容表达的有效性反馈和可能的改进。借助于可视化方法对视频内容有效性反馈进行分析,通过可视化***展示视频的有效性反馈、增强的视频内容、有效性时间切片和推荐的视频,在形成视频内容有效性反馈方面并支持用户形成改进的见解方面具有优势,通过直观、有效的可视化方法和交互方式辅助用户快速理解和形成深入见解。因此,多模态视频内容有效性反馈可视分析在本发明中被视作为视频分析的主要形式,而不限制于特定领域和特定可视化方法。
附图说明
图1是本发明方法的总体流程和多模态视频内容有效性反馈可视分析***的布局图。
图2是本发明一个实施例的多模态视频内容有效性反馈可视分析***界面图。
具体实施方式
为了使本技术领域的人员更好的理解本发明,以下结合附图进一步详细描述本发明所提供的基于多模态情感的视频内容有效性可视分析方法与***,但不构成对本发明的限制。
本发明主要包括以下内容(其中针对演讲领域进行说明,本发明也可以适用于教学视频、娱乐视频其他视频类型):
1.多模态数据采集与处理流程
多模态数据采集与处理流程主要包括面向特定领域进行的以下步骤:1)数据收集,2)数据特征提取,3)有效性因素计算,4)有效性分析预测,5)参考视频推荐,6)可视化结果生成。多模态数据包括图像、声音、文本等三个模态。如图1所示,以下以演讲视频为例进行说明。
1)数据收集:通过网络爬虫爬取YouTube等公开平台上所发布的世界公开演讲锦标赛视频以及相关描述信息(即有效性客观指标的标签),演讲分为决赛、半决赛、大区、中区、小区、俱乐部等不同级别,以此作为演讲有效性的衡量标准,即比赛的级别越高,演讲者的水准越高、演讲越有效。为了保证相关性分析的效果,各个级别的演讲视频数量应大致相等。除了级别的信息,还收集了演讲者姓名、地区,演讲主题、时长等信息,这类信息按需在可视化***中展示。
2)数据特征提取:为了获取到视频中的多模态的情感数据,需要先从视频中提取出图像帧、演讲音频以及演讲文本,所有模态以文本时间戳进行对齐。以下从不同模态介绍本发明所使用到的特征提取算法及工具:
a.面部表情:从图像帧中进行人脸定位和人脸识别,并使用DBSCAN(参考文献:M.Ester,H.-P.Kriegel,J.Sander,and X.Xu.A density-based algorithm fordiscovering clusters in large spatial databases with noise.In Proceedings ofthe Second International Conference on Knowledge Discovery and Data Mining,KDD’96,p.226–231.AAAIPress,1996.)对人脸聚类,找到视频中出现的所有演讲者的人脸图片。之后使用AffectNet(参考文献:A.Mollahosseini,B.Hasani,andM.H.Mahoor.Affectnet:A database for facial expression,valence,and arousalcomputing in the wild.IEEE Trans.Affect.Comput.,10(1):18–31,Jan.2019.doi:10.1109/TAFFC.2017.2740923)来提取人脸中的连续唤醒度和效价数据,使用网络上的开源方法(参考文献:O.Arriaga,M.Valdenegro-Toro,and P.Real-timeconvolutional neural networks for emotion and gender classification.arXivpreprint arXiv:1710.07557,2017.)进行离散情绪类别的识别。
b.眼神注视:采用OpenFace工具包(参考文献:T.Baltrusaitis,A.Zadeh,Y.C.Lim,and L.-P.Morency.Openface 2.0:Facial behavior analysis toolkit.In2018 13th IEEE International Conference on Automatic Face Gesture Recognition(FG 2018),pp.59–66,2018.和E.Wood,T.Baltruaitis,X.Zhang,Y.Sugano,P.Robinson,and A.Bulling.Rendering of eyes for eye-shape registration and gazeestimation.In 2015IEEE International Conference on Computer Vision(ICCV),pp.3756–3764,2015.)估计两只眼睛的注视方向。演讲看向摄像头的角度通过眼睛相对于相机的坐标位置方向和眼神注视方向的夹角定义。
c.身体姿态:通过MMPose工具包(参考文献:M.Contributors.Openmmlab poseestimation toolbox and benchmark.https://github.com/open-mmlab/mmpose,2022.)估计人体姿态骨架,通过设置规则过滤出演讲人的骨架。进一步计算演讲人的演讲区间骨架能量(参考文献:R.Niewiadomski,M.Mancini,and S.Piana.Human and virtual agentexpressive gesture quality analysis and synthesis.Coverbal Synchrony inHuman-Machine Interaction,pp.269–292,2013.)和演讲区间姿态多样性。后者通过计算对齐和归一化后的所有姿态骨架与区间第一帧的姿态之间的余弦距离,再计算距离矩阵的标准差得到。
d.舞台使用:距离摄像机的距离通过OpenFace工具包估计演讲人的头部位置后得到。如果为线上演讲,演讲人的位置通过在画面上的包围框中心定义;如果为线下演讲,演讲人的位置根据摄像机计算演讲人所处实际位置得到。
e.音量音调:通过Praat工具箱(参考文献:P.Boersma and D.Weenink.Praat:doing phonetics by computer[Computer program].Version 6.1.38,retrieved2January 2021http://www.praat.org/,2021.)计算演讲人说话的响度作为音量值,频率作为音调值。
f.语速停顿:停顿包括字间与句间的间隔时间,计算每个单词音节的时长得到语速值。对单词音节的估计可以通过NLTK语言工具包完成(参考文献:S.Bird,E.Klein,andE.Loper.Natural language processing with Python:analyzing text with thenatural language toolkit.“O’Reilly Media,Inc.",2009.)。
g.文本内容:使用Microsoft Azure(参考文献:https://azure.microsoft.com/en-us/services/cognitive-services/speech-to-text/)提供的音频转文本服务将视频中的音频部分转化为文本,可以获得文字和语句及对应的时间戳。
3)有效性因素计算:上一步所提取的都是随时间变化的特征,并不能直观揭示数据变化趋势和演讲有效性的直接影响因素,本发明在此基础上,结合领域的相关理论和专家观点,在多模态特征数据的基础上,提取不同的有效性因素,计算方式和对应的多模态特征如下:
多样性(diversity):对于情感类别特征表示特定演讲视频中所包含的情绪类别及相对比例情况,通过计算,其中e代表情绪类别的个数,r代表某种情绪类别所占的比例。
平均值(average):表示多模态特征的平均值,通过时间序列的均值来计算。适用于面部连续情感数据(唤醒度和效价)、身体姿态的骨架能量、音量、音调、语速、停顿等特征。
波动性(volatility):表示多模态特征的时序变化程度,通过CID算法(参考文献:G.E.Batista,E.J.Keogh,O.M.Tataw,and V.de Souza.Cid:an efficient complexity-invariant distance for time series.Data Mining and Knowledge Discovery,28(3):634–669,2014.)计算时间序列的复杂度来表示。适用于面部连续情感数据(唤醒度和效价)、眼神注视方向、距离相机的距离、演讲人的位置、身体姿态的骨架能量、音量、音调、语速、停顿等特征。
分布性(dispersion):表示多模态特征的变化幅度,通过将时间序列的标准差除以平均值计算变异系数得到。适用于眼神注视方向、距离相机距离、演讲人的位置等特征。
比例(ratio):表示某种状态所占的比例,通过计算该状态与所有状态的比值得到。适用于面部离散情感类型、眼神是否看向相机镜头等特征。
4)有效性分析预测:为了计算有效性因素和演讲有效性的相关性,以收集的视频所属的比赛级别(决赛、半决赛、大区、中区、小区、俱乐部)为标签,并把它们分别标记为6、5、4、3、2、1等数字,这类标签可以被看作是序数变量,即离散的标签之间具有一定的顺序关系。对于这类问题,本发明使用多类别序数回归(参考文献:P.A.Guti′errez,M.Perez-Ortiz,J.Sanchez-Monedero,F.Fernandez-Navarro,and C.Hervas-Martinez.Ordinalregression methods:survey and experimental study.IEEE Transactions onKnowledge and Data Engineering,28(1):127–146,2015.)的方法进行分析处理,可以得到每个有效性因素与级别标签之间的p值,其中p表示假设检验中的假设几率,p<0.05为显著,p<0.01为非常显著,并以此作为该有效性因素的重要程度。对于待分析的视频,基于已经基于现有数据集计算的有效性关联关系,可以预测待分析视频的有效性反馈结果。
5)参考视频推荐:根据待分析的演讲视频和演讲视频数据库中的数据及相关参数,产生推荐视频的结果。
6)可视化结果生成:结合以上流程产生的数据及分析结果,根据数据特点和实际需求,选择合适的形式生成可视化结果。
通过以上的流程,可以通过视频输入自动化地获取多模态数据,挖掘多模态有效性因素与演讲有效性之间的关系,推荐参考视频,为可视分析方法及***提供数据支撑。
2.多模态视频内容有效性反馈可视分析***
如图1右侧可视分析模块所示,按照从左到右、从上到下的阅读习惯,将***界面划分为四个功能:A.有效性因素反馈(演讲因素面板)、B.视频上下文理解(演讲人面板)、C.时间区间分布理解(时间段切片面板)、D.数据摘要及相似性推荐(镜子面板)。这四个主要功能可以共同协同来帮助用户探索待分析视频的有效性反馈并寻找可以改进的可能性。
A.有效性因素反馈功能以图表的方式展示了待分析视频的有效性反馈,显示基于数据集的有效性规律图示和待分析视频在数据集中的分布情况。该功能中还包含选择一个或多个有效性因素的功能,选择的结果会影响其它功能的结果,可以对特定有效性因素进行探索分析。
B.视频上下文理解功能提供了基于视频播放器理解视频上下文内容中的多模态数据情况,能够在观看视频的同时增强对视频中多模态有效性反馈的理解,同时通过交互的方式提供更进一步的数据视图,支持用户进行深入探索。
C.时间区间分布理解功能提供了视频有效性反馈分布展示和视频区间的选择功能,并按时间顺序对选择区间中的多模态有效性因素分布、多模态数据及文本内容进行可视化展示,可以针对选择的有效性因素和对应的时间区间支持用户进行更精细的探索和分析。
D.数据摘要及相似性推荐功能提供C中选定片段的多模态数据摘要,并根据用户选择的需求,利用所述参考视频推荐模块形成推荐结果并将结果展示在***界面,辅助用户了解可供参考的视频对象。
在这个部分中,本发明所介绍的重点在于功能的排列以及应当提供的能力,不对具体的可视化形式做限制,任何可辅助用户对演讲有效性进行分析的可视化形式都可以被包含在该***中。
3.以有效性反馈为核心的视频多层次探索方法
仅仅对数据进行展示是远远不够的,本发明在2中提出的***上提供了一个以有效性反馈为核心的视频多层次探索方法。图2为本发明一个实施例的***界面图,其中A、B、C、D即以下所述的功能A~D。
功能A提供了待分析视频的有效性因素反馈结果,以及有效性规律和数据分布展示。可以在功能A中直观了解到不同有效性因素的反馈结果(通过A1所示的颜色条映射有效性反馈结果)及分布情况(通过A2所示的面板显示进一步的结果),在A中可以单击不同的有效性因素,功能C、D会发生相应的变化。
功能B通过视频播放器的形式,形成对视频上下文的理解,用户可以在观看视频的同时理解视频内容中的有效性因素,从而增强对有效性因素及其对视频上下文之间关联的理解。在本功能中可以视频中的关键内容进行强调突出(B2-B5),可以通过在视频上叠加可视化的形式实现,也可以在视频上叠加交互功能,在鼠标悬浮等条件下触发更进一步的数据视图(B1),帮助用户更深入理解多模态数据及其有效性。
功能C展示的是视频内容有效性反馈随视频时间的分布情况,以及在选择区间中进行多模态数据展示及有效性因素展示。该功能在视频进度条上映射有效性反馈结果(C1),支持用户选择演讲区间以进行细节探索。在时间轴上等分为多份,展示每个时间切片区间内的有效性因素的变化情况,以及对应的多模态数据情况(C2)。通过有效性反馈结果映射下的文字(C3),便于用户直观了解每个区间内的文本内容及对应的多模态有效性反馈。功能C的作用为辅助用户深入了解分析演讲有效性和多模态数据。
功能D展示所选择视频区间的多模态摘要,显示用户设置的参考视频推荐结果,以便于用户快速了解和比较演讲情况并寻找可供学习的案例。多模态视频摘要将重要的数据特征进行展示,以便用户快速了解视频内容情况(D1)。用户可以对参考视频的推荐选项进行配置(D3),然后获取参考视频推荐的结果,推荐结果可以也以多模态视频摘要的形式进行展示,方便用户寻找合适的参考来源(D2)。在鼠标悬浮等条件下触发有效性因素对比面板(D4),方便了解参考视频与待分析视频之间的差异。点击一个推荐结果可以关注该视频,并将其数据在功能B和功能C中详细展示。
基于同一发明构思,本发明的另一个实施例提供一种多模态视频内容有效性反馈可视分析***,其特征在于,包括:
数据收集模块,负责收集某种特定类型的视频与其有效性客观指标的标签;
特征提取模块,负责采集视频中来自图像、文本、声音等多种模态的情感数据,量化抽取视频中所关注内容的多模态数据特征,包括说话人的面部表情、肢体动作、眼神注视、所处位置、背景、语音语调、语速停顿、背景音、文字内容等数据特征;
有效性因素计算模块,负责基于多模态数据特征,结合领域实际需求确定有效性因素,计算得出不同有效性因素的数值;
有效性分析预测模块,负责建立有效性因素与有效性客观指标之间的关联关系,将分析得出的关联关系结果用于预测待分析视频中的有效性;
参考视频推荐模块,负责根据指定视频内容及相关参数,从数据库中推荐可供参考的与待分析视频相似的视频;
可视分析模块,负责将以上各模块的功能和数据整合,以不同的可视化形式展示数据和模块产生的结果,以完整的界面进行呈现,以供用户通过界面了解特定待分析视频的有效性反馈,并支持更深层次的探索。
其中各模块的具体实施过程参照前文对本发明方法的描述。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上对本发明所述的多模态视频内容有效性反馈可视分析方法与***进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims (10)

1.一种多模态视频内容有效性反馈可视分析方法,其特征在于,包括以下步骤:
收集某种特定类型的视频与其有效性客观指标的标签;
量化抽取视频中所关注内容的多模态数据特征;
在抽取得到的多模态数据特征基础上,结合领域实际需求确定有效性因素,并计算得出不同内容的有效性因素数值;
对有效性因素与有效性客观指标之间的相关性进行分析,得出有效性因素的相关性结果;
利用有效性因素与有效性客观指标之间的相关性,提取待分析视频的有效性反馈结果;
结合待分析视频的数据产生推荐视频结果以供用户参考;
将待分析视频的有效性反馈结果及其多模态数据上下文以不同可视化形式进行展示,供用户进行对有效性反馈结果的层次化探索。
2.根据权利要求1所述的方法,其特征在于,所述某种特定类型的视频包括演讲视频、教学视频、销售视频、娱乐视频中的一种,所述有效性客观指标的标签包括播放量、排名、打分、成交量。
3.根据权利要求1所述的方法,其特征在于,所述多模态数据包括视频、图像、声音、文本,所述多模态数据特征包括视频中人物的面部表情、肢体动作、眼神注视、所处位置、语音语调、节奏停顿,以及视频画面的背景、色调和背景声音。
4.根据权利要求1所述的方法,其特征在于,所述结合领域实际需求确定有效性因素,包括:
根据特定类型视频对应领域的理论和需求,建立影响特定领域有效性的因素,这些因素对应着该特定领域的技巧、方法,对在该特定领域的表现效果有影响作用;所述有效性因素包括下列中的至少一种:情感比例、情感平均水平、情感变化程度、情感多样性、动作幅度、动作多样性、眼神范围、眼神变化速度、位置变化幅度、位置变化速度、音调变化幅度、节奏快慢、停顿多少、背景类型、色调明暗。
5.根据权利要求1所述的方法,其特征在于,所述对有效性因素和有效性客观指标之间的相关性进行分析,是建立有效性因素与有效性客观指标之间的关联,包括分析两者间的正负相关性及相关性程度;所述利用有效性因素与有效性客观指标之间的相关性,提取待分析视频的有效性反馈结果,包括:提取待分析视频的多模态数据特征,计算有效性因素数值,按照有效性因素与客观指标之间的相关性预测待分析视频的有效性反馈结果。
6.根据权利要求1所述的方法,其特征在于,所述结合待分析视频的数据产生推荐视频结果,其中待分析视频的数据包括多模态数据特征、有效性因素数值和有效性反馈结果,推荐方法包括来自视频数据库的相似性检索,推荐依据包括视频的整体和局部特征,推荐对象粒度包括视频的整体和片段。
7.根据权利要求1所述的方法,其特征在于,所述对有效性反馈结果的层次化探索,支持以下从整体到局部的联合分析和表达的功能:有效性因素反馈功能、视频上下文理解功能、时间区间分布理解功能、数据摘要及相似性推荐功能。
8.一种多模态视频内容有效性反馈可视分析***,其特征在于,包括:
数据收集模块,负责收集某种特定类型的视频与其有效性客观指标的标签;
数据特征提取模块,负责量化抽取视频中所关注内容的多模态数据特征;
有效性因素计算模块,负责基于多模态数据特征,结合领域实际需求确定有效性因素,计算得出不同有效性因素的数值;
有效性分析预测模块,负责建立有效性因素与有效性客观指标之间的关联关系,将分析得出的关联关系结果用于预测待分析视频中的有效性;
参考视频推荐模块,负责根据待分析视频,利用指定的视频内容及相关参数,从数据库中推荐可供参考的视频;
可视分析模块,负责将以上各模块的功能和数据整合,以不同的可视化形式展示数据和各模块产生的结果,以完整的界面进行呈现,供用户通过界面了解待分析视频的有效性反馈结果,并支持更深层次的探索。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
CN202310976858.0A 2023-08-04 2023-08-04 一种多模态视频内容有效性反馈可视分析方法与*** Pending CN116910302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310976858.0A CN116910302A (zh) 2023-08-04 2023-08-04 一种多模态视频内容有效性反馈可视分析方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310976858.0A CN116910302A (zh) 2023-08-04 2023-08-04 一种多模态视频内容有效性反馈可视分析方法与***

Publications (1)

Publication Number Publication Date
CN116910302A true CN116910302A (zh) 2023-10-20

Family

ID=88350971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310976858.0A Pending CN116910302A (zh) 2023-08-04 2023-08-04 一种多模态视频内容有效性反馈可视分析方法与***

Country Status (1)

Country Link
CN (1) CN116910302A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591058A (zh) * 2024-01-18 2024-02-23 浙江华创视讯科技有限公司 多人演讲的显示方法、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591058A (zh) * 2024-01-18 2024-02-23 浙江华创视讯科技有限公司 多人演讲的显示方法、设备及存储介质
CN117591058B (zh) * 2024-01-18 2024-05-28 浙江华创视讯科技有限公司 多人演讲的显示方法、设备及存储介质

Similar Documents

Publication Publication Date Title
Ginosar et al. Learning individual styles of conversational gesture
KR102018295B1 (ko) 구간 영상 검색 및 제공 장치, 방법 및 컴퓨터-판독가능 매체
Stappen et al. The multimodal sentiment analysis in car reviews (muse-car) dataset: Collection, insights and improvements
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
CN113395578B (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
Somandepalli et al. Computational media intelligence: Human-centered machine analysis of media
US10592733B1 (en) Computer-implemented systems and methods for evaluating speech dialog system engagement via video
US20240153395A1 (en) Tracking concepts and presenting content in a learning system
US20220405489A1 (en) Formulating natural language descriptions based on temporal sequences of images
CN116910302A (zh) 一种多模态视频内容有效性反馈可视分析方法与***
Sun et al. In your eyes: Modality disentangling for personality analysis in short video
Zeng et al. Gesturelens: Visual analysis of gestures in presentation videos
CN117541321B (zh) 一种基于虚拟数字人的广告制作发布方法及***
Sümer et al. Automated anonymisation of visual and audio data in classroom studies
US20180005116A1 (en) Method and system for automatic real-time identification and presentation of analogies to clarify a concept
Xiao et al. An introduction to audio and visual research and applications in marketing
CN113407778A (zh) 标签识别方法及装置
CN113068077B (zh) 一种字幕文件处理方法及装置
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
Dudzik et al. A blast from the past: Personalizing predictions of video-induced emotions using personal memories as context
WO2022168185A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
CN113743271B (zh) 一种基于多模态情感的视频内容有效性可视分析方法与***
Bustos-López et al. Emotion Detection in Learning Environments Using Facial Expressions: A Brief Review
CN110704737A (zh) 线上教学资源的匹配方法、装置、设备和介质
Schmidt et al. Through the lens of artificial intelligence: A novel study of spherical video-based virtual reality usage in autism and neurotypical participants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination