CN109274922A

CN109274922A - 一种基于语音识别的视频会议控制***

Info

Publication number: CN109274922A
Application number: CN201811380150.4A
Authority: CN
Inventors: 郑广宁; 魏永静; 田兵; 刘鸿雁; 车四四; 何子亨; 李宗皓; 孙小骏; 杨超
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-01-25

Abstract

本发明属于视频会议控制***领域并公开了一种基于语音识别的视频会议控制***；包括语音指令录入***、语音分析处理***、会场控制***，所述语音指令录入***接收各个会场的语音指令，并将语音指令传输到语音分析处理***，所述语音分析处理***识别语音指令，并对会场控制***发出控制信号，所述会场控制***接收到控制信号后对会场内的设备进行控制；所述语音指令录入***包括多个语音接收装置，且每个参会会场中均设置有至少一个语音接收装置；本发明提供视频会议控制***，可以准确判定秩序不佳的会场，并对其提出警示，这不仅节约了维持会场秩序的成本，同时也减小了对视频会议控制的外界干扰。

Description

一种基于语音识别的视频会议控制***

技术领域

本发明涉及视频会议控制***技术领域，尤其涉及一种基于语音识别的视频会议控制***。

背景技术

随着实时视频技术的发展，在现代商业活动中，视频会议已经变得非常普遍。然而在现有技术中，需要安排相当数量的会议保障人员，如此多的人员不仅难以进行协调配合，而且在衔接配合中的任何失误都会导致会议保障工作出现问题，在多会场视频会议时，该问题表现的更加突出。同时，随着各部门业务需求的增多，与会者对会议自助服务的需求越来越迫切，而现有的会议***中，会议议程必须提前固定下来以确保会议操作按照预先设想进行，难以根据与会者的临时决定作出更改，使用者体验不佳。

因此，如何提供一种能够对视频会议进行智能化控制的***，在简化会议调度流程的同时，能够实现与会者自主调度会议进程，提高视频会议的召开效率，减少失误的发生是本领域技术人员需要解决的技术难题。

发明内容

本发明针对现有技术中视频会议***自主运行能力弱、与会者无法自主调度会议等技术问题，而提供一种自主运行能力强、且可以使与会者自主调度会议进程的视频会议控制***。

本发明为解决上述技术问题，采用以下技术方案来实现：

设计一种基于语音识别的视频会议控制***，包括语音指令录入***、语音分析处理***、会场控制***以及控制指令记录***，所述的语音指令录入***与所述的语音分析处理***连接，所述的语音分析处理***与所述的会场控制***连接；所述的会场控制***与所述的控制指令记录***连接；

所述的语音指令录入***用于接收各个会场的语音指令，并将语音指令传输到语音分析处理***；所述的语音分析处理***识别语音指令，并对会场控制***发出控制信号；所述的会场控制***接收到控制信号后，并根据控制信号对会场内的设备发出控制指令；所述的控制指令记录***用于在会议时间线上的多个时间点中的每个时间点上，基于配置文件提取各个会场的指令信息，并根据提取的指令信息进行互动或编辑；所述的语音指令录入***包括语音接收装置、语音接收装置控制子***以及发言人聚焦子***，发言人聚焦子***的设置，可以使发言人的控制指令能够更加清晰的传递至***中，提高了整个会议控制***的准确度；所述的语音接收装置设有多个且每个参会会场中均设置有至少一个语音接收装置；所述的语音接收装置控制子***包括第一信号获取单元以及控制单元；所述的发言人聚焦子***包括第二信号获取单元、信号生成单元、信号计算单元以及语音接收装置控制单元。由于各个会场的语音接收装置有多个，而在不同会议中，与会者的数量也不尽相同，语音接收装置控制子***的设置可以使没有对应与会者的语音接收装置不开启，节约用电成本，提高了语音接收装置的使用率。

上述技术方案与会场保障人员控制语音接收装置以进行指令控制截然不同，此方案中，由于参会会场中设置有多个语音接收装置，每个会场的与会人员均可以参与会场的调度，省去了专门负责调度会场的调度机构，使会议的进程更为流畅，且可以根据实际会议情况进行调控，不必机械的按照调度机构的指挥进行会议。

优选的，各个会场中的语音接收装置均设有三个，可以避免会场只设置一个语音接收装置时，距离该装置较远的与会者其控制指令不能被清晰接收到的问题，增加了与会者的参与度；且语音接收装置其用于接收与会人的语音信息，所述语音接收装置同时也为发言装置；该方案将会议控制***中的语音接收装置与会议中的发言设备相统一，节约了设备的使用，同时也省去了会议中切换不同设备的操作，使整个视频会议更加流畅。

优选的，所述的第一信号获取单元，用于获取与会人的位置信息，所述的控制单元，用于将第一信号获取单元获取的与会人位置信息所对应的设定范围内的语音接收装置均打开。

优选的，所述的第二信号获取单元包括视频获取单元以及第一语音获取单元，所述的视频获取单用于获取多个与会者的视频信息；所述的第一语音获取单元用于获取会议的音频信息；所述信号生成单元，对视频获取单元获得的视频信息中，每个与会者语音活动相关的视觉信号分别进行检测，生成与每个与会者相匹配的视觉活动检测信号；同时对第一语音获取单元获得的音频信息进行检测，以生成语音活动检测信号；所述信号计算单元，用于将所述多个视觉活动检测信号分别与所述语音活动检测信号进行比较，并将与所述语音活动检测信号相关度最高的视觉活动检测信号所对应的与会者确定为当前发言人；所述语音接收装置控制单元，接收信号计算单元的发言人判定结果，对会场内的语音接收装置进行控制，以使发言人的语音能够更加清晰的传递至***中。

优选的，所述的语音指令录入***还包括警示子***，所述警示子***包括第三信号获取单元、异常会场确定单元以及提醒单元；所述第三信号获取单元，用于获取在预设时间区间内，视频会议中各会场的音频信息、视频信息中的至少一种会议信号，所述音频信息通过语音接收装置获取；所述异常会场确定单元，用于对所述第三信号获取单元获取的各会场的会议信号进行分析，确定影响会议秩序的相关会场；所述异常会场确定单元，包括信号获取模块，用于获取预设时间段内各会场的音频信息；所述异常会场确定单元还包括信号分析模块，用于对所述预设时间段内各会场的音频信息进行分析，确定影响会议秩序的异常会场；所述提醒单元，用于对所述影响会议秩序的异常会场进行提醒。

优选的，所述的信号分析模块还包括第一处理子单元以及第一判定子单元；所述的第一处理子单元，用于根据各会场的音频信息，获取各会场的音频状态，所述音频状态包括讲话状态和非讲话状态；所述的第一判定子单元，当检测到两个或两个以上的会场音频状态均为讲话状态时，判定所述两个或两个以上的会场为影响会议秩序的异常会场。

优选的，所述的语音指令录入***还包括回音处理子***；所述的回音处理子***包括第二语音获取单元以及回音处理模块；所述的第二语音获取单元包括若干个语音获取模块、音频震动模块、语音检测模块和会话控制中心，每个所述的语音获取模块均与一个音频震动模块和一个语音检测模块相连接；所述的语音检测模块，用于检测相应语音获取模块的音频信息，发送至会话控制中心；所述的音频震动模块，用于检测相应语音获取模块的音频震动信息，发送至会话控制中心；所述额会话控制中心，接收并处理语音检测模块的音频信息及音频震动模块的音频震动信息，并发送至回音处理模块；所述的回音处理模块接收音频信息并消除回音，发送消除回音后的音频信息到自适应滤波模块；所述的自适应滤波模块接收回音处理模块的音频信息，滤波处理后发送至语音分析处理***；一些场次的会议中，由于相关与会人员较少，造成会场空旷，发言者的语音会在会场内形成回音，这对会议控制***的语音识别造成了很大影响，回音处理子***的设置，减小了回音的影响，提高了会场控制的准确度。

优选的，所述的控制指令记录***包括提取单元、索引点生成单元、完成单元以及互动与编辑单元；所述的提取单元，用于在会议时间线上的多个时间点中的每个时间点上，基于配置文件提取各个会场的指令信息，其中所述会议时间线与会议时间相关联，所述配置文件用于定义会议的指令信息；所述的索引点生成单元，用于将所述各个会场的指令信息组合成关键索引点，所述关键索引点用作与指令记录进行互动或编辑的索引点；所述的完成单元，用于将对应于多个时间点的多个关键索引点结合为指令记录；所述的互动与编辑单元，用于根据所述指令记录中的关键信息与所述指令记录进行互动或编辑。

本发明提出的一种基于语音识别的视频会议控制***，有益效果在于：

(1)本发明提供视频会议控制***，使每个会场的与会人员均可以参与会场的调度，省去了专门负责调度会场的调度机构，使会议的进程更为流畅，且可以根据实际会议情况进行调控，不必机械的按照调度机构的指挥进行会议；

(2)本发明提供视频会议控制***，还可以更准确的确定发言人，使发言人的控制指令能够更加清晰的传递至***中，提高了整个会议控制***的准确度；

(3)本发明提供视频会议控制***，可以准确判定秩序不佳的会场，并对其提出警示，这不仅节约了维持会场秩序的成本，同时也减小了对视频会议控制的外界干扰。

附图说明

下面结合附图中的实施例对本发明作进一步的详细说明，但并不构成对本发明的任何限制。

图1为为本发明视频会议控制***一种具体实施方式的结构示意图；

图2为本发明语音指令录入***的第一种具体实施方式的结构示意图；

图3为本发明语音指令录入***的一种具体实施方式的结构示意图；

图4为本发明语音指令录入***的一种具体实施方式的结构示意图；

图5为本发明第二信号获取单元一种具体实施方式的结构示意图；

图6为本发明语音指令录入***的一种具体实施方式的结构示意图；

图7为本发明信号分析模块的一种具体实施方式的结构示意图；

图8为本发明信号分析模块的一种具体实施方式的结构示意图；

图9为本发明信号分析模块的一种具体实施方式的结构示意图；

图10为本发明语音指令录入***的一种具体实施方式的结构示意图；

图11为第二语音获取单元一种具体实施方式的结构示意图；

图12为本发明控制指令记录***一种具体实施方式的结构示意图；

图13为本发明视频会议***一种具体实施方式的结构示意图；

图14为本发明语音分析处理***一种具体实施方式的结构示意图。

图中：语音指令录入***1、语音接收装置11、语音接收装置控制子***12、第一信号获取单元121、控制单元122、发言人聚焦子***13、第二信号获取单元131、视频获取单元1311、第一语音获取单元1312、信号生成单元132、信号计算单元133、语音接收装置控制单元134、警示子***14、第三信号获取单元141、异常会场确定单元142、信号获取模块1421、信号分析模块1422、第一处理子单元14221、第一判定子单元14222、第二处理子单元14223、第二统计子单元14224、第二判定子单元14225、语音识别子单元14226、第三判定子单元14227、第三处理子单元14228、第四判定子单元14229、提醒单元143、回音处理子***15、第二语音获取单元151、语音获取模块1511、音频震动模块1512、语音检测模块1513、会话控制中心1514、回音处理模块152、语音分析处理***2、会场控制***3、控制指令记录***4、提取单元41、索引点生成单元42、完成单元43、互动与编辑单元44。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

图1为本发明视频会议控制***的一种实施方式的结构示意图，参考图1，视频会议控制***包括语音指令录入***1、语音分析处理***2、会场控制***3以及控制指令记录***4，所述语音指令录入***2接收各个会场的语音指令，并将语音指令传输到语音分析处理***2，所述语音分析处理***2识别语音指令，并对会场控制***3发出控制信号，所述会场控制***3接收到控制信号后对会场内的设备进行控制；所述的控制指令记录***4在会议时间线上的多个时间点中的每个时间点上，基于配置文件提取各个会场的指令信息，并根据提取的指令信息进行互动或编辑。

图2为本发明语音指令录入***1的第一种实施方式的结构示意图，所述语音指令录入***1包括多个语音接收装置11，且每个参会会场中均设置有多个语音接收装置11，所述语音接收装置11可以为固定在各个会场中的固定设备，也可以为可移动设备，或是固定设备和可移动设备的组合。此方案中，由于参会会场中设置有多个语音接收装置11，每个会场的与会人员均可以参与会场的调度，省去了专门负责调度会场的调度机构，使会议的进程更为流畅，且可以根据实际会议情况进行调控，不必机械的按照调度机构的指挥进行会议，同时，每个会场中的多个语音接收装置11也使处于不同位置的与会者的控制指令均能被清晰的接收到。进一步的，在本实施例中，所述语音接收装置11同时也为发言装置。该方案将会议控制***中的语音接收装置11与会议中的发言设备相统一，节约了设备的使用，同时也省去了会议中切换不同设备的操作，使整个视频会议更加流畅。

图3为本发明语音指令录入***1的另一种实施方式的结构示意图，所述语音指令录入***1还包括语音接收装置控制子***12，所述语音接收装置控制子***12包括第一信号获取单元121、控制单元122，所述第一信号获取单元121设置于各个会场中。会场中，在每个与会者可能就坐的区域均会设置语音接收装置11，一种常规的布置方式为，每个座位对应至少一个语音接收装置11，并将座位与语音接收装置11的对应关系预设到控制单元122中。所述第一信号获取单元121，在会议开始时获取与会人的位置信息，并将该信息传送到控制单元122中；所述控制单元122，根据与会人的位置信息，将所对应的设定范围内的语音接收装置11均打开。语音接收装置控制子***12的设置，可以使会场中暂时无法用到的语音接收装置11不随着会议开始而开启，节约了用电成本，也提高了语音接收装置的使用率。

图4为本发明语音指令录入***1的又一种实施方式的结构示意图，所述语音指令录入***1还包括发言人聚焦子***13，所述发言人聚焦子***13包括第二信号获取单元131、信号生成单元132、信号计算单元133、语音接收装置控制单元134。

如图5所示，所述第二信号获取单元131包括视频获取单元1311，用于获取多个与会者的视频信息；所述第二信号获取单元131还包括第一语音获取单元1312，用于获取会议的音频信息，优选的，所述第一语音获取单元1312为所述的语音接收装置11。

所述信号生成单元132，对视频获取单元1311获得的视频信息中，每个与会者语音活动相关的视觉信号分别进行检测，生成与每个与会者相匹配的视觉活动检测信号，如VVADl、VVAD2、VVAD3等；发言人的发言状态通常伴随着其嘴部的快速、连续运动，该运动导致嘴唇间隙面积的连续变化，因此在一种方案中，所述视觉活动优选为与会者的嘴唇活动方式，所述视频获取单元1311对多个与会者分别进行独立的视觉活动检测，所述视频获取单元1311通过嘴唇与脸部色彩的差异来获得嘴唇轮廓，并基于上下嘴唇的间隙在亮度、颜色上的差异来确定嘴唇间隙的面积。当该面积在视频的连续帧中的差异超过预设的阈值时，该与会者的视觉活动检测信号输出为“1”，否则，该与会者的视觉活动检测信号输出为“0”；同时对第一语音获取单元1312获得的音频信息进行检测，以生成语音活动检测信号AVAD，所述第一语音获取单元1312用于通过检测所述音频信息来获得所述语音活动检测信号；当音频信息中存在语音时，所述语音活动检测信号输出为“1”，否则，所述语音活动检测信号输出为“0”。

所述信号计算单元133，用于将所述多个视觉活动检测信号分别与所述语音活动检测信号进行比较，并将与所述语音活动检测信号相关度最高的视觉活动检测信号所对应的与会者确定为当前发言人。在一种方案中，所述信号计算单元133使用比较电路、比较器等组件，得出各视觉活动检测信号VVAD1、VVAD2、VVAD3等与语音活动检测信号AVAD的相关度，并将相关度最大的与会者确定为发言人。

所述语音接收装置控制单元134，接收信号计算单元133的发言人判定结果，对会场内的语音接收装置11进行控制，以使发言人的语音能够更加清晰的传递至***中。所述对语音接收装置11的控制方法可以为关闭与该发言人不相关的语音接收装置11；也可以为，控制会场内所有的语音接收装置11，使这些语音接收装置朝向该发言人。

发言人聚焦子***13的设置，可以使发言人的控制指令能够更加清晰的传递至***中，提高了整个会议控制***的准确度。

图6为本发明语音指令录入***1的第三种实施方式的结构示意图，所述语音指令录入***1包括警示子***14，所述警示子***14包括第三信号获取单元141、异常会场确定单元142、提醒单元143。

所述第三信号获取单元141，用于获取在预设时间区间内，视频会议中各会场的音频信息、视频信息中的至少一种会议信号，本实施例中，所述音频信息可以通过语音接收装置11获取。所述异常会场确定单元142，用于对所述第三信号获取单元141获取的各会场的会议信号进行分析，确定影响会议秩序的相关会场。所述异常会场确定单元142，包括信号获取模块1421，用于获取预设时间段内各会场的音频信息；所述异常会场确定单元还包括信号分析模块1422，用于对所述预设时间段内各会场的音频信息进行分析，确定影响会议秩序的异常会场。所述提醒单元143，用于对所述影响会议秩序的异常会场进行提醒，提醒方式可以为语音、文字等方式、也可以暂时关闭异常会场的语音接收装置11，防止其影响指令的识别。

所述信号分析模块1422的一种实施方式如图8所示，其控制流程为：

S101，第一处理子单元14221根据各会场的音频信息，获取各会场的音频状态，所述音频状态包括讲话状态和非讲话状态；S102，第一判定子单元14222当检测到两个或两个以上的会场音频状态均为讲话状态时，判定所述两个或两个以上的会场为影响会议秩序的异常会场。

具体的，S101中，各会场语音状态的获取，具体是根据各会场的音频信息来确定各会场是否处于讲话的语音状态，对于某一会场而言，在某一时刻，若根据音频信息，判定为语音时，则可确定该会场在该时刻的语音活动度为1，表示会场处于讲话状态，否则，语音活动度为0，表示会场中没有人讲话，为非讲话状态。对于S102，以具有3个会场的会议为例，来说明各会场的语音状态，若在某一时间段内，会场1和会场2处于交替讲话的状态，这可以认为是两个会场中的人处于交替发言的状态，整个会议的指令控制处于正常状态；若在某一时间段，会场1和会场3处于同时讲话的状态，可以认为在此阶段，会场1和会场3是处于影响会议秩序的状态。

所述信号分析模块1422的第二种实施方式如图9所示，其控制流程为：

S201，第二处理子单元14223根据各会场的音频信息，获取各会场的音频状态，所述音频状态包括讲话状态和非讲话状态；S202，第二统计子单元14224统计各会场中的音频状态为讲话状态的若干会场的讲话时长；S203，第二判定子单元14225计算所述若干会场的讲话时长与所述预设时间区间的比值，并在所述比值大于预设比率阈值时，将该会场判定为异常会场候选会场；S204，语音识别子单元14226对异常会场候选会场的音频信息中的语音进行语音到文字的识别；S205，第三判定子单元14227将识别出的异常会场候选会场的语音对应的文字与预设的关键词进行比对，将未出现关键词的异常会场候选会场判定为影响会议秩序的异常会场。

具体的，S203中，可预先设置一段时间区间，也就是与会人员发出控制指令的常规时间长度，当某会场的讲话时长与常规时间长度的比值超过某一设定的阈值时，说明该会场讲话时间过长，可能出现与会者聊天等非控制指令讲话；S205中，可预先设置会议所要讨论内容的关键字，在S204识别各会场的语音对应的文字后，就可以与关键字语音进行比较，当会场中的人员讨论的内容不涉及，即不包括该关键字语音时，可确定该会场正在讨论与控制指令无关的内容，则可将该会场判定为影响会议秩序的异常会场。例如，某一会议的议题为讨论电力输送过程的节能问题，这样，可根据会议议题，预先为该议题确定一些控制指令的关键词，例如主讲人信息、议程安排、讨论话题、屏幕切换、会议茶歇等，这样，在会议开始后，就可以对各会场的语音进行识别和语义分析，当发现与会者的讲话信息中不包括预先设置的关键词时，则认为相应会场的讨论的话题与会议控制指令无关，为影响会议秩序的异常会场，可对该会场进行提醒。

所述信号分析模块1422的第三种实施方式如图10所示，其控制流程为：

S301，第三处理子单元14228根据各会场的音频信息，获取各会场的音频音量；S302，第四判定子单元14229将音频音量大于预设音量阈值的会场判定为影响会议秩序的异常会场。

具体的，S302中，可根据各会场的音量，来确定各会场的讲话是否正常，例如音量过高，则认为不是正常的控制指令，可能是争吵或喧哗等，因此，可将音量过高的会场判定为影响会议秩序的相关会场，并对这些影响会议秩序的相关会场进行提醒。可预先设定音量阈值，例如90分贝或100分贝，当会场的音量超过该预设音量阈值时，就可判定会场音量过大。

警示子***的设置，可以准确判定秩序不佳的会场，并对其提出警示，甚至暂时对其语音接收装置11进行关闭，这不仅节约了维持会场秩序的成本，同时也减小了视频会议控制的外界干扰。

图10为本发明语音指令录入***1的再一种实施方式的结构示意图，所述语音指令录入***1包括回音处理子***15，所述回音处理子***15包括第二语音获取单元151、回音处理模块152。

所述第二语音获取单元151的结构如图12所示，包括多个语音获取模块1511、音频震动模块1512、语音检测模块1513、会话控制中心1514，每个语音获取模块1511均与一个音频震动模块1512和一个语音检测模块1513相连接，本实施例中，所述第二语音获取单元151为语音接收装置11。

所述语音检测模块1513，检测相应语音获取模块1511的音频信息，发送至会话控制中心1514；所述音频震动模块1512，检测相应语音获取模块1511的音频震动信息，发送至会话控制中心1514；所述会话控制中心1514，接收语音检测模块1513的音频信息，与数据库对比，所述音频信息内容是否包括预设音频，包括预设音频时，发送关闭话筒指令到相应语音获取开关模块；所述相应语音获取开关模块接收指令并关闭对应的语音获取模块1511，继续接收音频震动模块发送的震动信息，发送开启话筒指令到语音获取开关模块，所述语音获取开关模块接收开启指令并开启对应的语音获取模块1511；不包括预设音频时，继续接收语音检测模块信息，且不接收音频震动模块的震动信息；所述会话控制中心1514，接收语音检测模块的语音信息，并发送至回音处理模块152。

所述回音处理模块152接收音频信息并消除回音，发送消除回音后的音频信息到自适应滤波模块；所述自适应滤波模块：接收回音处理模块的音频信息，滤波处理后发送至语音分析处理***2。

一些场次的会议中，由于相关与会人员较少，造成会场空旷，发言者的语音会在会场内形成回音，这对会议控制***的语音识别造成了很大影响，回音处理子***15的设置，减小了回音的影响，提高了会场控制的准确度。

图14为本发明中提供的语音分析处理***2的一种具体实施方式，如无特别说明，本发明中其他实施方式均采用这种方法进行语音分析处理。

在语音识别过程中，随着词表中词语数量的增加，选择错误词语的可能性也可能增加。为了改进，语音识别***必须通过在提高语音到文本转换的准确性的同时减小词表大小来变得更加智能。减小词表的一种方式是个性化该***的词表，例如，***可以被预加载会议所述领域的词表，所述领域例如是石油、电力或知识产权行业。减小词表大小的另一种方式是将词表针对特定个体进行个性化。例如，通过从与会者所用终端设备智能地收获网络数据，来创建个人词表。

语音或音频在一个或多个端点处被接收。解码器接收来自声学模型、词典模型以及语言模型107的输入，以解码该语音。解码器10将语音101转换成文本，该文本作为词网格输出。解码器还可计算置信分值，置信分值可以是置信区间。

语音可以是模拟信号。该模拟信号可以不同的采样速率(即，每秒钟的样本数，最常见的是：8kHz、16kHz、32kHz、44.1kHz、48kHz以及96kHz)和/或不同的每样本比特(最常见的是：8比特、16比特或32比特)来编码。

声学模型、词典模型以及语言模型中的一个或多个可存储在解码器中，或者可从外部数据库接收。

声学模型可以根据对语音和人发展的文字记录的统计学分析而创建。该统计学分析涉及组成每个词的声音。声学模型可以从称作“训练”的程序创建。在训练时，用户向语音识别***讲指定的词。词典模型105是发音词表。例如，存在可以对同一词语进行发音的不同方式。例如，词语“电力”在山东地区与福建地区有不同的发音。语音识别***利用词典模型识别各种发音。声学模型、语言模型均为可选的***。

语言模型限定词语出现在句子中的概率。例如，语音识别***可将语音识别为“输送”或者“舒服”，每种可能性具有相等的似然性。然而，如果随后的词被识别为“电力”，那么语言模型则表明早前的词语有很高的概率是“输送”而非“舒服”。语言模型可以从文本数据构建。语言模型可包括词语序列的概率分布。该概率分布可以是条件概率(即，在另一个词语出现的情况下一个词语的概率)。

解码器可以转换来自正在进行的会议中的音频或语音。这样，会议期间发生的特定观点或文字快速的被记录。

解码器可以是网络设备，如云计算中心。解码器包括控制器、存储器、数据库以及通信接口，该通信接口包括输入接口和输出接口。输入接口接收来自端点的语音。输出接口可以将解码后的文本提供至外部数据库或搜索引擎。或者，解码后的文本可以存储于数据库。

声学模型、词典模型以及语言模型中的一个或多个可被存储于存储器或数据库。存储器可以是任何已知类型的易失性存储器或非易失性存储器。存储器可包括只读存储器(ROM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、可编程随机存取存储器(PROM)、闪存、电子可擦除编程只读存储器(EEPROM)、静态随机存取存储器(RAM)或其他类型存储器中的一个或多个。存储器可包括光的、磁的(硬盘驱动器)或任何其他形式的数据存储装置。存储器可位于远程装置中或者是可移除的，例如安全数字(SD)存储卡。

数据库可以设置在解码器的外部或者被包含在解码器内。数据库可以由存储器来存储或者单独存储。数据库可以为硬件或者软件形式。

存储器可以存储计算机可执行指令。控制器可以执行计算机的可执行指令。计算机可执行指令可包含在计算机代码中。计算机代码可存储于存储器中。计算机代码可以任何计算机语言来编写，例如C、C++、C#、Java、Pascal、VisualBasic、Perl、超文本标记语言(HTML)、JavaScript、汇编语言、可扩展标记语言(XML)及其任意组合。

计算机代码可以是编码在一个或多个有形介质或者一个或多个非暂时有形介质中以便由控制器执行的逻辑。编码在一个或多个有形介质中以便执行的逻辑可被定义为可由控制器执行的指令，并且这些指令是计算机可读取存储介质、存储器或它们的组合上提供的。用来命令网络设备的指令可存储在任何逻辑上。正如本文中使用的，所述“逻辑”包括但不限于硬件、固件、在机器上执行的软件和/或各自的组合，用于实现(一个或多个)功能或(一个或多个)动作，和/或促成来自另一个逻辑、方法和/或***的功能或动作。逻辑可包括例如软件控制的微处理器、ASIC、模拟电路、数字电路、编程的逻辑装置以及包含指令的存储器装置。

指令可存储在任何计算机可读介质上。计算机可读介质可以包括但不限于软盘、硬盘、专用集成电路(ASIC)、紧致盘CD、其他光学介质、随机存取存储器(RAM)、只读存储器(ROM)、存储芯片或卡、存储棒以及计算机、处理器或其他电子设备可以从中进行读取的其他介质。

控制器可以包括一般处理器、数字信号处理器、专用集成电路、现场可编程门阵列、模拟电路、数字电路、服务器处理器、上述各项的组合，或者其他现在已知的或稍后开发的处理器。控制器可以是例如与网络或分布处理有关的单个装置或者多个装置的组合。此外，本领域普通技术人员认识到，控制器可以为语音识别实现维特比(Viterbi)解码算法。可以使用各种处理策略中的任意策略，例如多处理、多任务、并行处理、远程处理、集中处理等等。控制器可以做出响应或可操作来执行作为软件、硬件、集成电路、固件、微代码等而存储的指令。在附图中示出或者在本文中描述的功能、动作、方法或任务可以由执行存储于存储器中的指令的控制器来执行。这些功能、动作、方法或任务独立于指令集、存储介质、处理器或处理策略的具体类型，并且可以由独立地或者组合地运行的软件、硬件、集成电路、固件、微代码等执行。这些指令是为了实现本文中描述的处理、技术、方法或动作。

本领域技术人员应当理解，语音接收装置控制子***12、发言人聚焦子***13、警示子***14、回音处理子***15可以根据实际需求选择，并可组合使用，而上述子***的组合使用方式，本发明并不做特别限制。本领域技术人员还应当理解，在上述子***进行组合使用的情况下，会出现更多的实施方式，这些实施方式并不脱离本发明的原理，也落入本发明保护的范围内。

进一步的，所述视频会议控制***还包括控制指令记录***4，所述控制指令记录***4包括：提取单元41、索引点生成单元42、完成单元43、互动与编辑单元44。其中，S401，提取单元41，在会议时间线上多个时间点中的每个时间点上，基于配置文件提取各个会场的关键信息，其中所述会议时间线与会议时间相关联，所述配置文件用于定义会议的指令信息；S402，索引点生成单元42将所述各个会场的指令信息组合成关键索引点，所述关键索引点用作与指令进行互动或编辑的索引点，即将所述各个会场的关键信息组合为对应于所述关键信息所含的全部信息的关键索引点；S403，完成单元43将对应于多个时间点的多个关键索引点生成指令记录；S404，互动与编辑单元44根据所述指令记录中的关键信息与所述指令记录进行互动或编辑。

S401中，一般而言，配置文件包括语音、视频检测与识别模块、关键信息提取模块、事件判定与分析模块。关键信息包括以下信息中的一个或多个：人脸、肢体动作、语音、关键帧、自定义事件。其中所谓自定义事件可以是指令控制中的一些特殊事件，例如包括如指示、拒绝、争论等场景，也可以包括其他的自定义的事情。指令记录的格式为文本文件、音频文件、视频文件、flash文件或PPT文件。

S402中，例如，配置文件定义的关键信息中包括人脸、语音，那么提取各个会场中对应于会议时间线上的一个时间点处的人脸关键信息以及语音关键信息，然后将人脸关键信息和语音关键信息组合成一个关键索引点。

S403中，在关键索引点的基础上，将多个时间点生成的关键索引点结合在一起就生成了该视频会议的指令记录。具体的，生成指令记录的方式，按照一定的运动模式把多个关键索引点串联起来。

S404中，为了获得更完整的指令记录，与会者可以根据所述指令记录中的关键信息与所述指令记录进行互动或编辑。这种互动和编辑的方式可以为，与会者点击指令记录中的姓名时，实时地显示出该人的简要信息，或提供更进一步的参考索引，以便与会者对该指令进行核实。

控制指令记录***4的设置，可以辅助与会人员记录下整个会议过程中的关键指令，辅助与会人员总结会议过程，通过对关键指令的解读，与会人员可以分析出一些非会议内容相关的内容，如哪些会场秩序好，哪些会场发出的指令更为有效等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于语音识别的视频会议控制***，其特征在于，包括语音指令录入***(1)、语音分析处理***(2)、会场控制***(3)以及控制指令记录***(4)，所述的语音指令录入***(1)与所述的语音分析处理***(2)连接，所述的语音分析处理***(2)与所述的会场控制***(3)连接；所述的会场控制***(3)与所述的控制指令记录***(4)连接；

所述的语音指令录入***(1)用于接收各个会场的语音指令，并将语音指令传输到语音分析处理***(2)；所述的语音分析处理***(2)识别语音指令，并对会场控制***(3)发出控制信号；所述的会场控制***(3)接收到控制信号后，并根据控制信号对会场内的设备发出控制指令；所述的控制指令记录***(4)用于在会议时间线上的多个时间点中的每个时间点上，基于配置文件提取各个会场的指令信息，并根据提取的指令信息进行互动或编辑；

所述的语音指令录入***(1)包括语音接收装置(11)、语音接收装置控制子***(12)以及发言人聚焦子***(13)；所述的语音接收装置(11)设有多个且每个参会会场中均设置有至少一个语音接收装置(11)；所述的语音接收装置控制子***(12)包括第一信号获取单元(121)以及控制单元(122)；所述的发言人聚焦子***(13)包括第二信号获取单元(131)、信号生成单元(132)、信号计算单元(133)以及语音接收装置控制单元(134)。

2.根据权利要求1所述的一种基于语音识别的视频会议控制***，其特征在于，各个会场中的语音接收装置(11)均设有不少于三个，其用于接收与会人的语音信息。

3.根据权利要求1所述的一种基于语音识别的视频会议控制***，其特征在于，所述的第一信号获取单元(121)，用于获取与会人的位置信息，所述的控制单元(122)，用于将第一信号获取单元(121)获取的与会人位置信息所对应的设定范围内的语音接收装置(11)均打开。

4.根据权利要求1所述的一种基于语音识别的视频会议控制***，其特征在于，所述的第二信号获取单元(131)包括视频获取单元(1311)以及第一语音获取单元(1312)，所述的视频获取单元(1311)用于获取多个与会者的视频信息；所述的第一语音获取单元(1312)用于获取会议的音频信息；所述信号生成单元(132)，对视频获取单元获得的视频信息中，每个与会者语音活动相关的视觉信号分别进行检测，生成与每个与会者相匹配的视觉活动检测信号；同时对第一语音获取单元(1312)获得的音频信息进行检测，以生成语音活动检测信号；所述信号计算单元(133)，用于将所述多个视觉活动检测信号分别与所述语音活动检测信号进行比较，并将与所述语音活动检测信号相关度最高的视觉活动检测信号所对应的与会者确定为当前发言人；所述语音接收装置控制单元(134)，接收信号计算单元的发言人判定结果，对会场内的语音接收装置(11)进行控制，以使发言人的语音能够更加清晰的传递至***中。

5.根据权利要求1所述的一种基于语音识别的视频会议控制***，其特征在于，所述的语音指令录入***(1)还包括警示子***(14)，所述警示子***(14)包括第三信号获取单元(141)、异常会场确定单元(142)以及提醒单元(143)；所述第三信号获取单元(141)，用于获取在预设时间区间内，视频会议中各会场的音频信息、视频信息中的至少一种会议信号，所述音频信息通过语音接收装置(11)获取；所述异常会场确定单元(142)，用于对所述第三信号获取单元(141)获取的各会场的会议信号进行分析，确定影响会议秩序的相关会场；所述异常会场确定单元(142)，包括信号获取模块(1421)，用于获取预设时间段内各会场的音频信息；所述异常会场确定单元(142)还包括信号分析模块(1422)，用于对所述预设时间段内各会场的音频信息进行分析，确定影响会议秩序的异常会场；所述提醒单元(143)，用于对所述影响会议秩序的异常会场进行提醒。

6.根据权利要求5所述的一种基于语音识别的视频会议控制***，其特征在于，所述的信号分析模块(1422)还包括第一处理子单元(14221)以及第一判定子单元(14222)；所述的第一处理子单元(14221)，用于根据各会场的音频信息，获取各会场的音频状态，所述音频状态包括讲话状态和非讲话状态；所述的第一判定子单元(14222)，当检测到两个或两个以上的会场音频状态均为讲话状态时，判定所述两个或两个以上的会场为影响会议秩序的异常会场。

7.根据权利要求1所述的一种基于语音识别的视频会议控制***，其特征在于，所述的语音指令录入***(1)还包括回音处理子***(15)；所述的回音处理子***(15)包括第二语音获取单元(151)以及回音处理模块(152)；所述的第二语音获取单元(151)包括若干个语音获取模块(1511)、音频震动模块(1512)、语音检测模块(1513)和会话控制中心(1514)，每个所述的语音获取模块(1511)均与一个音频震动模块(1512)和一个语音检测模块(1513)相连接；所述的语音检测模块(1513)，用于检测相应语音获取模块(1511)的音频信息，发送至会话控制中心(1514)；所述的音频震动模块(1512)，用于检测相应语音获取模块(1511)的音频震动信息，发送至会话控制中心(1514)；所述额会话控制中心(1514)，接收并处理语音检测模块(1513)的音频信息及音频震动模块(1512)的音频震动信息，并发送至回音处理模块(152)；所述的回音处理模块(152)接收音频信息并消除回音，发送消除回音后的音频信息到自适应滤波模块；所述的自适应滤波模块接收回音处理模块(152)的音频信息，滤波处理后发送至语音分析处理***(2)。

8.根据权利要求1所述的一种基于语音识别的视频会议控制***，其特征在于，所述的控制指令记录***(4)包括提取单元(41)、索引点生成单元(42)、完成单元(43)以及互动与编辑单元(44)；所述的提取单元(41)，用于在会议时间线上的多个时间点中的每个时间点上，基于配置文件提取各个会场的指令信息，其中所述会议时间线与会议时间相关联，所述配置文件用于定义会议的指令信息；所述的索引点生成单元(42)，用于将所述各个会场的指令信息组合成关键索引点，所述关键索引点用作与指令记录进行互动或编辑的索引点；所述的完成单元(43)，用于将对应于多个时间点的多个关键索引点结合为指令记录；所述的互动与编辑单元(44)，用于根据所述指令记录中的关键信息与所述指令记录进行互动或编辑。