CN115052126A - 一种基于人工智能的超高清视频会议分析管理*** - Google Patents

一种基于人工智能的超高清视频会议分析管理*** Download PDF

Info

Publication number
CN115052126A
CN115052126A CN202210964383.9A CN202210964383A CN115052126A CN 115052126 A CN115052126 A CN 115052126A CN 202210964383 A CN202210964383 A CN 202210964383A CN 115052126 A CN115052126 A CN 115052126A
Authority
CN
China
Prior art keywords
participant
speech
conference
voice
network transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210964383.9A
Other languages
English (en)
Other versions
CN115052126B (zh
Inventor
陈家豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dualshine Industry Co ltd
Original Assignee
Shenzhen Dualshine Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dualshine Industry Co ltd filed Critical Shenzhen Dualshine Industry Co ltd
Priority to CN202210964383.9A priority Critical patent/CN115052126B/zh
Publication of CN115052126A publication Critical patent/CN115052126A/zh
Application granted granted Critical
Publication of CN115052126B publication Critical patent/CN115052126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/015High-definition television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及视频会议管理技术领域,具体公开一种基于人工智能的超高清视频会议分析管理***,包括目标视频会议参会人员统计模块、目标视频会议网络传输参数检测模块、目标视频会议网络传输异常提示模块、会议管理数据库、参会人员发言语音信息实时提取模块、参会人员发言语音处理模块和参会人员参会视频界面显示亮度调控处理模块,通过对超高清视频会议进行网络传输质量的监测管理、参会人员发言语音信息的字幕添加、音量调控及音色润色多功能管理和参会视频界面的显示亮度统筹调控,实现了超高清视频会议的多方面智能化在线管理,克服了目前超高清视频会议的在线管理存在的不足,能够提升参会人员对超高清视频会议在视觉和听觉上的双重体验感。

Description

一种基于人工智能的超高清视频会议分析管理***
技术领域
本发明涉及视频会议管理技术领域,具体而言,是一种基于人工智能的超高清视频会议分析管理***。
背景技术
随着互联网的迅猛发展和多媒体通信技术的进步,为视频会议的实现提供了可能。视频会议模式打破了传统会议在时间和空间上的限制,能够将处于不同地点、时区的会议对象进行整合,实现会议的召开,因此受到了广泛欢迎。伴随着时代的发展,视频会议也由曾经的标清视频会议升级到超高清视频会议,更加强化了视频会议的视觉体验感,而为了保障超高清视频会议的召开效果,对超高清视频会议进行在线管理显得至关重要。
然而目前对超高清视频会议的在线管理基本都集中在视频会议的图像呈现方面,比如视频界面中的人脸摄像追踪聚焦,不仅忽略了视频会议的网络传输质量监测管理,还对参会人员发言语音信息的管理关注度不够,具体体现在以下几个方面:第一方面:超高清视频会议相对于普通标清会议,其视频界面画质清晰度的改善是通过提高网络传输质量来实现的,当网络传输质量不佳时,视频会议的画质就达不到超高清的画质需求,进而影响参会人员的视觉感受,与此同时还容易造成卡顿,影响视频会议的召开流畅度,从而降低了超高清视频会议的召开效果。
第二方面:目前对超高清视频会议中参会人员发言语音信息的管理集中在音量调控方面,一方面缺乏对参会人员发言语音的字幕处理,由于参会人员大多来自各个地区,对于一些存在普通话发言困难的参会人员,其在发言过程中不可避免地会携带口音,这些携带口音的发言语音对其他参会人员就会造成倾听障碍,为了克服倾听障碍,就需要添加字幕来辅助会议内容理解,另一方面在对参会人员的发言语音进行音量调控时,只是单纯将发言语音的音量调控到人耳倾听的适宜基准音量,但由于发言语音的频率不同,对人耳造成的音量感受会存在差异,因此如果只是将发言语音的音量进行基准调控,就会导致调控精准度下降,不仅降低了倾听的清晰度效果,还可能会造成参会人员听神经的损伤。
发明内容
为解决上述技术问题,本发明是通过以下技术方案实现的:
一种基于人工智能的超高清视频会议分析管理***,包括:目标视频会议参会人员统计模块,用于将当前正在进行的视频会议记为目标视频会议,并统计目标视频会议中存在的参会人员数量,进而将各参会人员依次标记为1,2,...,i,...,n。
目标视频会议网络传输参数检测模块,用于由各参会人员对应的参会终端对其所处参会空间进行网络传输参数检测。
目标视频会议网络传输异常提示模块,用于对各参会人员对应参会空间的网络传输参数进行分析,由此筛选出网络传输异常参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示。
会议管理数据库,用于存储超高清模式对应的标准网络传输参数,存储各种语种对应的口音特征,存储各种字号对应的字体面积,存储各种背景颜色对应匹配的字幕颜色,存储各种人耳倾听敏感度对应的声音频率区间,存储各种人耳倾听敏感度对应的音量需求调控度,存储人耳倾听的适宜基准音量,并存储各种照明亮度对应参会视频界面的适宜显示亮度区间。
参会人员发言语音信息实时提取模块,用于由各参会人员对应参会终端内置的麦克风实时对其发言语音信息进行提取。
参会人员发言语音处理模块,用于对提取的各参会人员的发言语音信息进行处理。
在一种可选的方式中,所述网络传输参数包括网络传输速度和网络信号强度。
在一种可选的方式中,所述筛选出网络传输异常参会人员对应的具体筛选方法如下:将各参会人员对应参会空间的网络传输参数与会议管理数据库中超高清模式对应的标准网络传输参数进行对比,通过网络传输质量系数计算公式
Figure 23525DEST_PATH_IMAGE001
,计算得到各参会人员对应参会空间的网络传输质量系数
Figure 737404DEST_PATH_IMAGE002
,其中
Figure 845037DEST_PATH_IMAGE003
Figure 443508DEST_PATH_IMAGE004
分别表示为第i个参会人员对应参会空间的网络传输速度、网络信号强度,i表示为第i个参会人员的编号,
Figure 320198DEST_PATH_IMAGE005
Figure 972021DEST_PATH_IMAGE006
分别表示为超高清模式对应的标准网络传输速度、标准网络信号强度,a、b分别表示为网络传输速度、网络信号强度对应的影响因子,且
Figure 35792DEST_PATH_IMAGE007
,e表示为自然常数。
将各参会人员对应参会空间的网络传输质量系数与设定阈值进行对比,若某参会人员对应参会空间的网络传输质量系数小于设定阈值,表明该参会人员对应的参会空间存在网络传输异常,并将该参会人员记为网络传输异常参会人员。
在一种可选的方式中,所述参会人员发言语音处理模块包括参会人员发言字幕添加单元、参会人员发言音量调控单元和参会人员发言音色润色单元。
在一种可选的方式中,所述参会人员发言字幕添加单元用于将各参会人员的发言语音信息转化为发言文本信息,并将其在参会视频界面进行字幕添加,其具体执行过程参见以下步骤:从各参会人员的发言语音信息中提取口音特征,并将其与会议管理数据库中各种语种对应的口音特征进行匹配,从中筛选出各参会人员对应的发言语种。
将各参会人员对应的发言语音信息导入到该参会人员对应发言语种的普通话模板,由此将各参会人员对应的发言语音信息转化为普通话语音信息,得到各参会人员对应的发言转化语音信息。
从各参会人员对应的发言转化语音信息中提取转化失败的语音,并将其记为异常语音,同时定位异常语音在发言转化语音信息中的位置,由此提取异常语音对应的前端语音和后端语音。
根据异常语音对应的前端语音和后端语音对异常语音进行修正,得到修正后的异常语音,将修正后的异常语音与发言转化语音信息进行融合,由此得到各参会人员对应的修正发言转化语音信息。
将各参会人员对应的修正发言转化语音信息进行语音分词划分,得到若干语音词组,进而将各参会人员对应修正发言转化语音信息划分的若干语音词组通过语音识别技术转化为发言文本信息。
获取参会视频界面对应的尺寸和背景颜色,并以此确定字幕适配字号和字幕适配颜色。
将各参会人员对应的发言文本信息在参会视频界面按照确定的字幕适配字号和字幕适配颜色进行字幕添加。
在一种可选的方式中,所述确定字幕适配字号和字幕适配颜色对应的具体操作方式如下:根据参会视频界面对应的尺寸获取参会视频界面的面积。
依据参会视频界面的面积与预设的字幕字体面积适配占比计算字幕字体的适配面积,其计算公式为
Figure 562588DEST_PATH_IMAGE008
Figure 293784DEST_PATH_IMAGE009
表示为字幕字体的适配面积,
Figure 842140DEST_PATH_IMAGE010
表示为参会视频界面的面积,
Figure 658787DEST_PATH_IMAGE011
表示为字幕字体面积适配占比。
将字幕字体的适配面积与会议管理数据库中各种字号对应的字体面积进行对比,计算各种字号对应的字体面积相似度,并从中筛选出字体面积相似度最大的字号作为字幕适配字号。
将参会视频界面对应的背景颜色与会议管理数据库中各种背景颜色对应匹配的字幕颜色进行比对,从中匹配出字幕适配颜色。
在一种可选的方式中,所述参会人员发言音量调控单元用于对各参会人员的发言语音进行音量调控,其具体调控过程如下:对各参会人员的发言语音进行声音频率检测,并将其与会议管理数据库中各种人耳倾听敏感度对应的声音频率区间进行匹配,从中匹配出各参会人员对应发言语音所属声音频率的人耳倾听敏感度。
将各参会人员对应发言语音所属声音频率的人耳倾听敏感度与会议管理数据库中各种人耳倾听敏感度对应的音量需求调控度进行匹配,从中筛选出各参会人员对应发言语音的音量需求调控度,记为
Figure 723695DEST_PATH_IMAGE012
从会议管理数据库中提取人耳倾听的适宜基准音量,并将其结合各参会人员对应发言语音的音量需求调控度计算各参会人员对应发言语音的适宜倾听音量,其计算公式为
Figure 309397DEST_PATH_IMAGE013
Figure 568602DEST_PATH_IMAGE014
表示为第i个参会人员对应发言语音的适宜倾听音量,
Figure 13490DEST_PATH_IMAGE015
表示为人耳倾听的适宜基准音量。
对各参会人员对应发言语音的音量进行调控,使其符合该参会人员对应发言语音的适宜倾听音量。
在一种可选的方式中,所述参会人员发言音色润色单元用于对各参会人员对应的发言语音进行音色润色调整,其具体执行过程如下:对各参会人员的发言语音进行声带发育特征提取,由此识别出各参会人员对应的发言音色类别。
将各参会人员对应的发言音色类别与预设的影响倾听效果的发言音色类别进行匹配,若某参会人员对应的发言音色类别匹配成功,则判断该参会人员的发言语音需要进行音色润色调整,此时将该参会人员的发言语音导入到音色润色模型进行音色润色,并在润色结束后将输出的发言语音进行播放。
在一种可选的方式中,还包括参会人员参会视频界面显示亮度调控处理模块,用于通过各参会人员对应参会终端内置的亮度计对其所处参会空间的照明亮度进行检测,并以此对参会人员的参会视频界面进行显示亮度调控处理,其具体调控方法如下:将各参会人员对应参会空间的照明亮度与会议管理数据库中各种照明亮度对应参会视频界面的适宜显示亮度区间进行匹配,从中提取各参会人员对应参会视频界面的适宜显示亮度区间。
将各参会人员对应参会视频界面的适宜显示亮度区间进行重合对比,从中提取重合的适宜显示亮度区间,若重合的适宜显示亮度区间中只有一个显示亮度数据,则将该显示亮度作为参会人员对应参会视频界面的优选显示亮度,若重合的适宜显示亮度区间中含有多个显示亮度数据,则对重合的适宜显示亮度区间进行均值处理,得到平均显示亮度,并将该平均显示亮度作为参会人员对应参会视频界面的优选显示亮度。
将各参会人员对应参会视频界面的显示亮度进行调控,使其符合优选显示亮度。
与现有技术相比,本发明具有以下优点:1.本发明在进行超高清视频会议时,通过对各参会人员对应参会空间的网络传输质量进行检测分析,由此从中筛选出不满足超高清视频会议网络传输质量的参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示,实现了超高清视频会议对应网络传输质量的监测管理,填补了当前超高清视频会议在线管理中存在的管理空白,进而提高了超高清视频会议的画质清晰度,由此增强了参会人员的视觉感受,避免了卡顿现象的发生,在一定程度上提升了视频会议召开的流畅度,从而保障了超高清视频会议的召开效果。
2.本发明在对超高清视频会议进行参会人员发言语音信息管理时,不仅实现了发言语音的音量调控,还增加了发言语音的字幕处理,体现了参会人员发言语音的多功能管理和个性化服务,大大弥补了发言语音的单一化管理造成的管理局限,其增加的发言语音字幕处理能够有效克服因发言口音带来的倾听障碍,为视频会议内容理解提供了行之有效地辅助手段,从而最大程度保障了视频会议的召开价值性。
3.本发明在对参会人员的发言语音信息进行音量调控时,充分考虑到了发言语音的不同频率会对人耳造成存在差异化的音量感受,由此通过对参会人员的发言语音进行声音频率检测,并据此识别出各参会人员对应发言语音的音量需求调控度,从而以人耳倾听的适宜基准音量为音量调控基础,将各参会人员对应发言语音的音量需求调控度与音量调控基础进行结合,得出各参会人员对应发言语音的适宜倾听音量,实现了参会人员发言语音信息对应音量的灵活化、精准性调控,不仅提高了参会人员发言语音的倾听清晰度,还避免因调控不当造成参会人员听神经的损伤,进而保障了参会人员的听力安全,具有较强的实用性价值。
4.本发明还通过设置参会人员参会视频界面显示亮度调控处理模块对参会人员的参会视频界面进行显示亮度调控处理,其调控方式利用参会人员对应参会空间的照明亮度获取各参会人员对应参会视频界面的适宜显示亮度区间,再将其进行重合处理,进而依据重合处理后的适宜显示亮度进行所有参会人员的参会视频界面显示亮度调控,实现了参会视频界面的显示亮度统筹调控,一方面能够提高每个参会人员参会视频界面的视觉感受,降低因显示亮度调控不当造成的视频界面过亮或过暗对眼睛造成的视神经伤害,另一方面由于视频会议界面中每个参会人员可以看到其他人员的显示画面,这样不同参会人员显示画面的显示亮度就会形成对比,而对比越强烈,就会给参会人员造成视觉不适,而通过对参会视频界面的显示亮度进行统筹调控,就会削弱视觉不适感,使得视觉体验感更佳。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的***模块连接示意图。
图2为本发明的参会人员发言语音处理模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参看图1,本发明提供一种基于人工智能的超高清视频会议分析管理***,包括目标视频会议参会人员统计模块、目标视频会议网络传输参数检测模块、目标视频会议网络传输异常提示模块、会议管理数据库、参会人员发言语音信息实时提取模块、参会人员发言语音处理模块和参会人员参会视频界面显示亮度调控处理模块,其中目标视频会议参会人员统计模块分别与目标视频会议网络传输参数检测模块、参会人员发言语音信息实时提取模块和参会人员参会视频界面显示亮度调控处理模块连接,目标视频会议网络传输参数检测模块与目标视频会议网络传输异常提示模块连接,参会人员发言语音信息实时提取模块和参会人员发言语音处理模块连接,会议管理数据库分别与目标视频会议网络传输异常提示模块、参会人员发言语音处理模块和参会人员参会视频界面显示亮度调控处理模块。
所述目标视频会议参会人员统计模块用于将当前正在进行的视频会议记为目标视频会议,并统计目标视频会议中存在的参会人员数量,进而将各参会人员依次标记为1,2,...,i,...,n。
所述目标视频会议网络传输参数检测模块用于由各参会人员对应的参会终端对其所处参会空间进行网络传输参数检测,其中网络传输参数包括网络传输速度和网络信号强度。
需要说明的是,上述提到的参会终端可以是手机、电脑、平板等。
所述目标视频会议网络传输异常提示模块用于对各参会人员对应参会空间的网络传输参数进行分析,由此筛选出网络传输异常参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示,便于该参会人员直观了解其所在空间的网络传输状况,进而保障了该参会人员更换参会空间的及时性。
在本发明的具体实施例中,上述筛选出网络传输异常参会人员对应的具体筛选方法如下:将各参会人员对应参会空间的网络传输参数与会议管理数据库中超高清模式对应的标准网络传输参数进行对比,通过网络传输质量系数计算公式
Figure 350930DEST_PATH_IMAGE016
,计算得到各参会人员对应参会空间的网络传输质量系数
Figure 322297DEST_PATH_IMAGE017
,其中
Figure 985360DEST_PATH_IMAGE018
Figure 540713DEST_PATH_IMAGE019
分别表示为第i个参会人员对应参会空间的网络传输速度、网络信号强度,i表示为第i个参会人员的编号,
Figure 681844DEST_PATH_IMAGE020
Figure 383084DEST_PATH_IMAGE021
分别表示为超高清模式对应的标准网络传输速度、标准网络信号强度,a、b分别表示为网络传输速度、网络信号强度对应的影响因子,且
Figure 482627DEST_PATH_IMAGE022
,e表示为自然常数。
示例性地,上述网络传输质量系数计算公式中若某参会人员的网络传输速度和网络信号强度越接近超高清模式对应的标准网络传输速度、标准网络信号强度时,则该参会人员对应参会空间的网络传输质量系数越大,表明网络传输质量越佳,越不容易出现卡顿现象。
将各参会人员对应参会空间的网络传输质量系数与设定阈值进行对比,若某参会人员对应参会空间的网络传输质量系数小于设定阈值,表明该参会人员对应的参会空间存在网络传输异常,并将该参会人员记为网络传输异常参会人员。
本发明实施例在进行超高清视频会议时,通过对各参会人员对应参会空间的网络传输质量进行检测分析,由此从中筛选出不满足超高清视频会议网络传输质量的参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示,实现了超高清视频会议对应网络传输质量的监测管理,填补了当前超高清视频会议在线管理中存在的管理空白,进而提高了超高清视频会议的画质清晰度,由此增强了参会人员的视觉感受,避免了卡顿现象的发生,在一定程度上提升了视频会议召开的流畅度,从而保障了超高清视频会议的召开效果。
所述会议管理数据库用于存储超高清模式对应的标准网络传输参数,存储各种语种对应的口音特征,存储各种字号对应的字体面积,存储各种背景颜色对应匹配的字幕颜色,存储各种人耳倾听敏感度对应的声音频率区间,存储各种人耳倾听敏感度对应的音量需求调控度,存储人耳倾听的适宜基准音量,并存储各种照明亮度对应参会视频界面的适宜显示亮度区间。
所述参会人员发言语音信息实时提取模块用于由各参会人员对应参会终端内置的麦克风实时对其发言语音信息进行提取。
所述参会人员发言语音处理模块用于对提取的各参会人员的发言语音信息进行处理。
在一个具体实施例中,参看图2,所述参会人员发言语音处理模块包括参会人员发言字幕添加单元、参会人员发言音量调控单元和参会人员发言音色润色单元。
其中参会人员发言字幕添加单元用于将各参会人员的发言语音信息转化为发言文本信息,并将其在参会视频界面进行字幕添加,其具体执行过程参见以下步骤:从各参会人员的发言语音信息中提取口音特征,并将其与会议管理数据库中各种语种对应的口音特征进行匹配,从中筛选出各参会人员对应的发言语种。
将各参会人员对应的发言语音信息导入到该参会人员对应发言语种的普通话模板,由此将各参会人员对应的发言语音信息转化为普通话语音信息,得到各参会人员对应的发言转化语音信息。
从各参会人员对应的发言转化语音信息中提取转化失败的语音,并将其记为异常语音,同时定位异常语音在发言转化语音信息中的位置,由此提取异常语音对应的前端语音和后端语音。
根据异常语音对应的前端语音和后端语音对异常语音进行修正,得到修正后的异常语音,将修正后的异常语音与发言转化语音信息进行融合,由此得到各参会人员对应的修正发言转化语音信息。
在优选方案中,本发明在将参会人员的发言语音信息转化为普通话语音信息中,能够对其中转化失败的异常语音结合前后语音表达的意思进行修正转化,在一定程度上提高了发言语音信息转化的彻底性和精准度,为后续转化为文本信息提供了可靠的参考依据。
将各参会人员对应的修正发言转化语音信息进行语音分词划分,得到若干语音词组,进而将各参会人员对应修正发言转化语音信息划分的若干语音词组通过语音识别技术转化为发言文本信息。
在进一步的优选方案中,本发明在将修正后的发言转化语音信息转化为文本信息时,利用上下文词组在转化文本上的表达连贯精准性,将修正后的发言转化语音信息进行语音词组划分,再依据划分的语音词组进行以词组为基础的文本转化,能够提升文本转化的正确率及文本转化效率,方便参会人员的理解。
获取参会视频界面对应的尺寸和背景颜色,并以此确定字幕适配字号和字幕适配颜色,具体操作方式如下:根据参会视频界面对应的尺寸获取参会视频界面的面积。
依据参会视频界面的面积与预设的字幕字体面积适配占比计算字幕字体的适配面积,其计算公式为
Figure 761161DEST_PATH_IMAGE023
Figure 207448DEST_PATH_IMAGE024
表示为字幕字体的适配面积,
Figure 887829DEST_PATH_IMAGE025
表示为参会视频界面的面积,
Figure 33639DEST_PATH_IMAGE026
表示为字幕字体面积适配占比,其中K的取值一般是小于1的分数,例如¼。
将字幕字体的适配面积与会议管理数据库中各种字号对应的字体面积进行对比,计算各种字号对应的字体面积相似度,其中字体面积相似度的计算公式为
Figure 799470DEST_PATH_IMAGE027
,其中某种字号对应的字体面积与字幕字体的适配面积越接近,该种字号对应的字体面积相似度越大,进而从中筛选出字体面积相似度最大的字号作为字幕适配字号。
将参会视频界面对应的背景颜色与会议管理数据库中各种背景颜色对应匹配的字幕颜色进行比对,从中匹配出字幕适配颜色。
将各参会人员对应的发言文本信息在参会视频界面按照确定的字幕适配字号和字幕适配颜色进行字幕添加。
在更进一步的优选方案中,本发明在对转化的发言文本信息进行字幕添加时,依据参会视频界面对应的尺寸和背景颜色来自动调整字幕的字号和颜色,使得添加的字幕更加适宜参会人员观看,进而提高参会人员的观看欲望。
其中参会人员发言音量调控单元用于对各参会人员的发言语音进行音量调控,其具体调控过程如下:对各参会人员的发言语音进行声音频率检测,并将其与会议管理数据库中各种人耳倾听敏感度对应的声音频率区间进行匹配,从中匹配出各参会人员对应发言语音所属声音频率的人耳倾听敏感度。
将各参会人员对应发言语音所属声音频率的人耳倾听敏感度与会议管理数据库中各种人耳倾听敏感度对应的音量需求调控度进行匹配,从中筛选出各参会人员对应发言语音的音量需求调控度,记为
Figure 282404DEST_PATH_IMAGE028
需要说明的是,上述提到的音量需求调控度可以为正值,也可以为负值,也可以为零。
从会议管理数据库中提取人耳倾听的适宜基准音量,并将其结合各参会人员对应发言语音的音量需求调控度计算各参会人员对应发言语音的适宜倾听音量,其计算公式为
Figure 587264DEST_PATH_IMAGE029
Figure 763030DEST_PATH_IMAGE030
表示为第i个参会人员对应发言语音的适宜倾听音量,
Figure 484999DEST_PATH_IMAGE031
表示为人耳倾听的适宜基准音量。
示例性地,上述适宜倾听音量计算公式中,当某参会人员对应发言语音的音量需求调控度为正值时,该参会人员对应发言语音的适宜倾听音量就比人耳倾听的适宜基准音量大,当某参会人员对应发言语音的音量需求调控度为零时,该参会人员对应发言语音的适宜倾听音量就与人耳倾听的适宜基准音量一致,当某参会人员对应发言语音的音量需求调控度为负值时,该参会人员对应发言语音的适宜倾听音量就比人耳倾听的适宜基准音量小。
对各参会人员对应发言语音的音量进行调控,使其符合该参会人员对应发言语音的适宜倾听音量。
本发明实施例在对参会人员的发言语音信息进行音量调控时,充分考虑到了发言语音的不同频率会对人耳造成存在差异化的音量感受,由此通过对参会人员的发言语音进行声音频率检测,并据此识别出各参会人员对应发言语音的音量需求调控度,从而以人耳倾听的适宜基准音量为音量调控基础,将各参会人员对应发言语音的音量需求调控度与音量调控基础进行结合,得出各参会人员对应发言语音的适宜倾听音量,实现了参会人员发言语音信息对应音量的灵活化、精准性调控,不仅提高了参会人员发言语音的倾听清晰度,还避免因调控不当造成参会人员听神经的损伤,进而保障了参会人员的听力安全,具有较强的实用性价值。
本发明实施例在对超高清视频会议进行参会人员发言语音信息管理时,不仅实现了发言语音的音量调控,还增加了发言语音的字幕处理,体现了参会人员发言语音的多功能管理和个性化服务,大大弥补了发言语音的单一化管理造成的管理局限,其增加的发言语音字幕处理能够有效克服因发言口音带来的倾听障碍,为视频会议内容理解提供了行之有效地辅助手段,从而最大程度保障了视频会议的召开价值性。
其中参会人员发言音色润色单元用于对各参会人员对应的发言语音进行音色润色调整,其具体执行过程如下:对各参会人员的发言语音进行声带发育特征提取,由此识别出各参会人员对应的发言音色类别。
将各参会人员对应的发言音色类别与预设的影响倾听效果的发言音色类别进行匹配,若某参会人员对应的发言音色类别匹配成功,则判断该参会人员的发言语音需要进行音色润色调整,此时将该参会人员的发言语音导入到音色润色模型进行音色润色,并在润色结束后将输出的发言语音进行播放。
在本发明的另一个优选实施例中,对参会人员对应的发言语音进行音色润色的目的在于参会人员受声带发育限制,使得每个参会人员的音色都会存在差异,但大部分的音色都不会影响倾听的效果,而有些音色在一定程度上就影响了倾听效果,例如嘶哑音色、鼻音音色等,如果不对这些音色进行处理,就会严重影响参会人员的倾听欲望,造成视频会议质量下降,因此对影响倾听效果的音色进行润色调整,能够提高参会人员对这些音色的倾听兴趣,从而强化了发言语音的倾听效果,提升了参会人员发言语音信息的管理水平。
所述参会人员参会视频界面显示亮度调控处理模块用于通过各参会人员对应参会终端内置的亮度计对其所处参会空间的照明亮度进行检测,并以此对参会人员的参会视频界面进行显示亮度调控处理,其具体调控方法如下:将各参会人员对应参会空间的照明亮度与会议管理数据库中各种照明亮度对应参会视频界面的适宜显示亮度区间进行匹配,从中提取各参会人员对应参会视频界面的适宜显示亮度区间。
将各参会人员对应参会视频界面的适宜显示亮度区间进行重合对比,从中提取重合的适宜显示亮度区间,若重合的适宜显示亮度区间中只有一个显示亮度数据,则将该显示亮度作为参会人员对应参会视频界面的优选显示亮度,若重合的适宜显示亮度区间中含有多个显示亮度数据,则对重合的适宜显示亮度区间进行均值处理,得到平均显示亮度,并将该平均显示亮度作为参会人员对应参会视频界面的优选显示亮度。
将各参会人员对应参会视频界面的显示亮度进行调控,使其符合优选显示亮度。
本发明实施例通过设置参会人员参会视频界面显示亮度调控处理模块对参会人员的参会视频界面进行显示亮度调控处理,其调控方式利用参会人员对应参会空间的照明亮度获取各参会人员对应参会视频界面的适宜显示亮度区间,再将其进行重合处理,进而依据重合处理后的适宜显示亮度进行所有参会人员的参会视频界面显示亮度调控,实现了参会视频界面的显示亮度统筹调控,一方面能够提高每个参会人员参会视频界面的视觉感受,降低因显示亮度调控不当造成的视频界面过亮或过暗对眼睛造成的视神经伤害,另一方面由于视频会议界面中每个参会人员可以看到其他人员的显示画面,这样不同参会人员显示画面的显示亮度就会形成对比,而对比越强烈,就会给参会人员造成视觉不适,而通过对参会视频界面的显示亮度进行统筹调控,就会削弱视觉不适感,使得视觉体验感更佳。
本发明通过对超高清视频会议进行网络传输质量的监测管理、参会人员发言语音信息的字幕添加、音量调控及音色润色多功能管理和参会视频界面的显示亮度统筹调控,实现了超高清视频会议的多方面智能化在线管理,克服了目前超高清视频会议的在线管理存在的不足和缺失,能够提升参会人员对超高清视频会议在视觉和听觉上的双重体验感,有利于超高清视频会议的长远发展。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (9)

1.一种基于人工智能的超高清视频会议分析管理***,其特征在于,包括:
目标视频会议参会人员统计模块,用于将当前正在进行的视频会议记为目标视频会议,并统计目标视频会议中存在的参会人员数量,进而将各参会人员依次标记为1,2,...,i,...,n;
目标视频会议网络传输参数检测模块,用于由各参会人员对应的参会终端对其所处参会空间进行网络传输参数检测;
目标视频会议网络传输异常提示模块,用于对各参会人员对应参会空间的网络传输参数进行分析,由此筛选出网络传输异常参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示;
会议管理数据库,用于存储超高清模式对应的标准网络传输参数,存储各种语种对应的口音特征,存储各种字号对应的字体面积,存储各种背景颜色对应匹配的字幕颜色,存储各种人耳倾听敏感度对应的声音频率区间,存储各种人耳倾听敏感度对应的音量需求调控度,存储人耳倾听的适宜基准音量,并存储各种照明亮度对应参会视频界面的适宜显示亮度区间;
参会人员发言语音信息实时提取模块,用于由各参会人员对应参会终端内置的麦克风实时对其发言语音信息进行提取;
参会人员发言语音处理模块,用于对提取的各参会人员的发言语音信息进行处理。
2.根据权利要求1所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:所述网络传输参数包括网络传输速度和网络信号强度。
3.根据权利要求2所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:所述筛选出网络传输异常参会人员对应的具体筛选方法如下:
将各参会人员对应参会空间的网络传输参数与会议管理数据库中超高清模式对应的标准网络传输参数进行对比,通过网络传输质量系数计算公式
Figure 561870DEST_PATH_IMAGE001
,计算得到各参会人员对应参会空间的网络传输质量系数
Figure 453471DEST_PATH_IMAGE002
,其中
Figure 401836DEST_PATH_IMAGE003
Figure 49418DEST_PATH_IMAGE004
分别表示为第i个参会人员对应参会空间的网络传输速度、网络信号强度,i表示为第i个参会人员的编号,
Figure 348812DEST_PATH_IMAGE005
Figure 263679DEST_PATH_IMAGE006
分别表示为超高清模式对应的标准网络传输速度、标准网络信号强度,a、b分别表示为网络传输速度、网络信号强度对应的影响因子,且
Figure 846976DEST_PATH_IMAGE007
,e表示为自然常数;
将各参会人员对应参会空间的网络传输质量系数与设定阈值进行对比,若某参会人员对应参会空间的网络传输质量系数小于设定阈值,表明该参会人员对应的参会空间存在网络传输异常,并将该参会人员记为网络传输异常参会人员。
4.根据权利要求1所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:所述参会人员发言语音处理模块包括参会人员发言字幕添加单元、参会人员发言音量调控单元和参会人员发言音色润色单元。
5.根据权利要求4所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:所述参会人员发言字幕添加单元用于将各参会人员的发言语音信息转化为发言文本信息,并将其在参会视频界面进行字幕添加,其具体执行过程参见以下步骤:
从各参会人员的发言语音信息中提取口音特征,并将其与会议管理数据库中各种语种对应的口音特征进行匹配,从中筛选出各参会人员对应的发言语种;
将各参会人员对应的发言语音信息导入到该参会人员对应发言语种的普通话模板,由此将各参会人员对应的发言语音信息转化为普通话语音信息,得到各参会人员对应的发言转化语音信息;
从各参会人员对应的发言转化语音信息中提取转化失败的语音,并将其记为异常语音,同时定位异常语音在发言转化语音信息中的位置,由此提取异常语音对应的前端语音和后端语音;
根据异常语音对应的前端语音和后端语音对异常语音进行修正,得到修正后的异常语音,将修正后的异常语音与发言转化语音信息进行融合,由此得到各参会人员对应的修正发言转化语音信息;
将各参会人员对应的修正发言转化语音信息进行语音分词划分,得到若干语音词组,进而将各参会人员对应修正发言转化语音信息划分的若干语音词组通过语音识别技术转化为发言文本信息;
获取参会视频界面对应的尺寸和背景颜色,并以此确定字幕适配字号和字幕适配颜色;
将各参会人员对应的发言文本信息在参会视频界面按照确定的字幕适配字号和字幕适配颜色进行字幕添加。
6.根据权利要求5所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:所述确定字幕适配字号和字幕适配颜色对应的具体操作方式如下:
根据参会视频界面对应的尺寸获取参会视频界面的面积;
依据参会视频界面的面积与预设的字幕字体面积适配占比计算字幕字体的适配面积,其计算公式为
Figure 923516DEST_PATH_IMAGE008
,
Figure 319994DEST_PATH_IMAGE009
表示为字幕字体的适配面积,
Figure 772972DEST_PATH_IMAGE010
表示为参会视频界面的面积,
Figure 961507DEST_PATH_IMAGE011
表示为字幕字体面积适配占比;
将字幕字体的适配面积与会议管理数据库中各种字号对应的字体面积进行对比,计算各种字号对应的字体面积相似度,并从中筛选出字体面积相似度最大的字号作为字幕适配字号;
将参会视频界面对应的背景颜色与会议管理数据库中各种背景颜色对应匹配的字幕颜色进行比对,从中匹配出字幕适配颜色。
7.根据权利要求4所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:所述参会人员发言音量调控单元用于对各参会人员的发言语音进行音量调控,其具体调控过程如下:
对各参会人员的发言语音进行声音频率检测,并将其与会议管理数据库中各种人耳倾听敏感度对应的声音频率区间进行匹配,从中匹配出各参会人员对应发言语音所属声音频率的人耳倾听敏感度;
将各参会人员对应发言语音所属声音频率的人耳倾听敏感度与会议管理数据库中各种人耳倾听敏感度对应的音量需求调控度进行匹配,从中筛选出各参会人员对应发言语音的音量需求调控度,记为
Figure 222331DEST_PATH_IMAGE012
从会议管理数据库中提取人耳倾听的适宜基准音量,并将其结合各参会人员对应发言语音的音量需求调控度计算各参会人员对应发言语音的适宜倾听音量,其计算公式为
Figure 496318DEST_PATH_IMAGE013
Figure 2254DEST_PATH_IMAGE014
表示为第i个参会人员对应发言语音的适宜倾听音量,
Figure 310876DEST_PATH_IMAGE015
表示为人耳倾听的适宜基准音量;
对各参会人员对应发言语音的音量进行调控,使其符合该参会人员对应发言语音的适宜倾听音量。
8.根据权利要求4所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:所述参会人员发言音色润色单元用于对各参会人员对应的发言语音进行音色润色调整,其具体执行过程如下:
对各参会人员的发言语音进行声带发育特征提取,由此识别出各参会人员对应的发言音色类别;
将各参会人员对应的发言音色类别与预设的影响倾听效果的发言音色类别进行匹配,若某参会人员对应的发言音色类别匹配成功,则判断该参会人员的发言语音需要进行音色润色调整,此时将该参会人员的发言语音导入到音色润色模型进行音色润色,并在润色结束后将输出的发言语音进行播放。
9.根据权利要求1所述的一种基于人工智能的超高清视频会议分析管理***,其特征在于:还包括参会人员参会视频界面显示亮度调控处理模块,用于通过各参会人员对应参会终端内置的亮度计对其所处参会空间的照明亮度进行检测,并以此对参会人员的参会视频界面进行显示亮度调控处理,其具体调控方法如下:
将各参会人员对应参会空间的照明亮度与会议管理数据库中各种照明亮度对应参会视频界面的适宜显示亮度区间进行匹配,从中提取各参会人员对应参会视频界面的适宜显示亮度区间;
将各参会人员对应参会视频界面的适宜显示亮度区间进行重合对比,从中提取重合的适宜显示亮度区间,若重合的适宜显示亮度区间中只有一个显示亮度数据,则将该显示亮度作为参会人员对应参会视频界面的优选显示亮度,若重合的适宜显示亮度区间中含有多个显示亮度数据,则对重合的适宜显示亮度区间进行均值处理,得到平均显示亮度,并将该平均显示亮度作为参会人员对应参会视频界面的优选显示亮度;
将各参会人员对应参会视频界面的显示亮度进行调控,使其符合优选显示亮度。
CN202210964383.9A 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理*** Active CN115052126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210964383.9A CN115052126B (zh) 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210964383.9A CN115052126B (zh) 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理***

Publications (2)

Publication Number Publication Date
CN115052126A true CN115052126A (zh) 2022-09-13
CN115052126B CN115052126B (zh) 2022-10-28

Family

ID=83167242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210964383.9A Active CN115052126B (zh) 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理***

Country Status (1)

Country Link
CN (1) CN115052126B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320613A (zh) * 2023-05-26 2023-06-23 深圳华付技术股份有限公司 一种基于多场景的音视频数据实时处理方法及***
CN116668737A (zh) * 2023-08-02 2023-08-29 成都梵辰科技有限公司 一种基于深度学习的超高清视频清晰度测试方法及***
CN117651111A (zh) * 2023-11-02 2024-03-05 中通服网盈科技有限公司 一种办公室视频会议建立方法及***
CN117877444A (zh) * 2024-03-12 2024-04-12 广东嘀嗒酷显柔性显示技术股份有限公司 一种会议场景下的显示设备色调自适应调节方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070188599A1 (en) * 2006-01-24 2007-08-16 Kenoyer Michael L Speech to Text Conversion in a Videoconference
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN108111799A (zh) * 2017-12-14 2018-06-01 苏州科达科技股份有限公司 视频会议中发言人的标识方法及装置
CN108712627A (zh) * 2018-08-21 2018-10-26 云南电网有限责任公司 视频会议内容和质量检测设备及检测方法
CN112395461A (zh) * 2020-11-17 2021-02-23 南京鼓佳玺电子科技有限公司 一种基于大数据分析的商务会议智能管理***
CN112801608A (zh) * 2021-01-15 2021-05-14 招明香 基于大数据和云计算的远程视频会议智能管理***及云会议管理平台
CN113542903A (zh) * 2021-07-16 2021-10-22 思享智汇(海南)科技有限责任公司 一种支持字号自适应的字幕生成方法及装置
CN114422916A (zh) * 2022-01-20 2022-04-29 温州奇兰网络科技有限公司 一种基于场景分析管控的会议耳机智能调控管理***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070188599A1 (en) * 2006-01-24 2007-08-16 Kenoyer Michael L Speech to Text Conversion in a Videoconference
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN108111799A (zh) * 2017-12-14 2018-06-01 苏州科达科技股份有限公司 视频会议中发言人的标识方法及装置
CN108712627A (zh) * 2018-08-21 2018-10-26 云南电网有限责任公司 视频会议内容和质量检测设备及检测方法
CN112395461A (zh) * 2020-11-17 2021-02-23 南京鼓佳玺电子科技有限公司 一种基于大数据分析的商务会议智能管理***
CN112801608A (zh) * 2021-01-15 2021-05-14 招明香 基于大数据和云计算的远程视频会议智能管理***及云会议管理平台
CN113542903A (zh) * 2021-07-16 2021-10-22 思享智汇(海南)科技有限责任公司 一种支持字号自适应的字幕生成方法及装置
CN114422916A (zh) * 2022-01-20 2022-04-29 温州奇兰网络科技有限公司 一种基于场景分析管控的会议耳机智能调控管理***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320613A (zh) * 2023-05-26 2023-06-23 深圳华付技术股份有限公司 一种基于多场景的音视频数据实时处理方法及***
CN116320613B (zh) * 2023-05-26 2023-08-15 深圳华付技术股份有限公司 一种基于多场景的音视频数据实时处理方法及***
CN116668737A (zh) * 2023-08-02 2023-08-29 成都梵辰科技有限公司 一种基于深度学习的超高清视频清晰度测试方法及***
CN116668737B (zh) * 2023-08-02 2023-10-20 成都梵辰科技有限公司 一种基于深度学习的超高清视频清晰度测试方法及***
CN117651111A (zh) * 2023-11-02 2024-03-05 中通服网盈科技有限公司 一种办公室视频会议建立方法及***
CN117651111B (zh) * 2023-11-02 2024-05-31 中通服网盈科技有限公司 一种办公室视频会议建立方法及***
CN117877444A (zh) * 2024-03-12 2024-04-12 广东嘀嗒酷显柔性显示技术股份有限公司 一种会议场景下的显示设备色调自适应调节方法及***
CN117877444B (zh) * 2024-03-12 2024-06-07 广东嘀嗒酷显柔性显示技术股份有限公司 一种会议场景下的显示设备色调自适应调节方法及***

Also Published As

Publication number Publication date
CN115052126B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN115052126B (zh) 一种基于人工智能的超高清视频会议分析管理***
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及***
CN110298252A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
CN111862934B (zh) 语音合成模型的改进方法和语音合成方法及装置
Chuang et al. Improved lite audio-visual speech enhancement
CN110505504B (zh) 视频节目处理方法、装置、计算机设备及存储介质
CN112786052A (zh) 语音识别方法、电子设备和存储装置
CN113703579B (zh) 数据处理方法、装置、电子设备及存储介质
CN116894442B (zh) 一种纠正引导发音的语言翻译方法及***
CN107886940B (zh) 语音翻译处理方法及装置
CN111091840A (zh) 一种建立性别识别模型的方法及性别识别方法
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
CN117238321A (zh) 语音综合评估方法、装置、设备及存储介质
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置
Um et al. Facetron: A Multi-speaker Face-to-Speech Model based on Cross-Modal Latent Representations
KR102426645B1 (ko) 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템
CN114372476A (zh) 语义截断检测方法、装置、设备和计算机可读存储介质
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
KR20130112581A (ko) 스마트 기기를 이용한 목소리 트레이닝 서비스 제공 방법
CN113490027A (zh) 一种短视频制作生成处理方法、设备及计算机存储介质
CN113611282B (zh) 广播节目智能播报***及方法
CN117275459B (zh) 一种基于大数据服务的信息采集设备及信息采集方法
CN111916106B (zh) 一种提高英语教学中发音质量的方法
CN118197298A (zh) 语音识别方法、语音识别装置、电子设备及可读存储介质
Aguilo et al. A hierarchical architecture for audio segmentation in a broadcast news task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant