CN113676691A

CN113676691A - 一种智能视频会议***及方法

Info

Publication number: CN113676691A
Application number: CN202010414853.5A
Authority: CN
Inventors: 陈东
Original assignee: Shanghai Rongguang Information Technology Co ltd
Current assignee: Shanghai Rongguang Information Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-19

Abstract

本发明公开了一种智能视频会议***及方法，涉及视频会议技术领域，所述***包括：声音信息分析单元，用于获取视频会议中预定的声音信息，对所述声音信息进行分析；声音数据获取单元，根据所述声音信息的分析结果对声音信息进行筛选，并获取包含预定词汇的声音数据；所述声音分析单元对所述声音信息进行分析的方法为：采集由用户所发出的输入声音信息；根据存储声音信息的识别词典，对声音信息执行初次声音识别，以产生输入声音信息的声音特征指定的初次声音识别结果；具有智能化程度高和使用方便的优点。

Description

一种智能视频会议***及方法

技术领域

本发明涉及视频会议技术领域，特别是涉及一种智能视频会议***及方法。

背景技术

视频会议，是指位于两个或多个地点的人们，通过通信设备和网络，进行面对面交谈的会议。根据参会地点数目不同，视频会议可分为点对点会议和多点会议。日常生活中的个人，对谈话内容安全性、会议质量、会议规模没有要求，可以采用如腾讯QQ这样的视频软件来进行视频聊天。而政府机关、企业事业单位的商务视频会议，要求有稳定安全的网络、可靠的会议质量、正式的会议环境等条件，则需要使用专业的视频会议设备，组建专门的视频会议***。由于这样的视频会议***都要用到电视来显示，也被称为电视会议、视讯会议。

使用视频会议***，参会者可以听到其它会场的声音、看到其它会场现场参会人的形象、动作和表情，还可以发送电子演示内容，使与会者有身临其境的感觉。

随着中国信息通信网络的持续快速建设，中国通信水平已经大幅度提高，为各行各业的信息交流提供了可靠的保证。在诸多通信业务中，会议电视业务越来越表现出良好的发展势头。

会议电视是利用电视技术和设备，通过通信网络召开会议的一种多媒体通信方式。在召开电视会议时，处于两地或多个不同地点的与会代表，既可以听到对方的声音，又能看到对方的形象，同时还能看到对方会议室的场景以及在会议中展示的实物、图片、表格、文件等，“缩短”了与会代表的距离，增强了会议的气氛，使大家就像在同一处参加会议，显著提高工作效率。

中国公众会议电视业务是通过公众会议电视骨干网实现的。公众会议电视骨干网由会议电视终端设备(含编解码器)、数字信道(光缆、卫星)、多点控制设备(MCU)组成。由此可见，会议电视***由会场和通信传输信道组成。会议电视***的会场通常分为主会场和分会场，主会场为会议电视***的控制中心，主要的控制设备、图像或声音的分配及切换设备均配置在主会场。会议电视***的通信传输信道通常采用光缆(称为地面会议电视***)、卫星(称为卫星会议电视***)及光缆和卫星信道并用(称为混合型会议电视***)。其主要作用是将主会场的实况视频信号、语音信号及用户的数据信号进行采集、压缩编码、多路复用后送到信道上。同时，将从信道接收到的会议电视信号进行多路分解、视音频解码，还原成分会场的视频、音频信号及数据信号。

发明内容

鉴于此，本发明的目的是提供一种智能视频会议***及方法，具有智能化程度高和使用方便的优点。

为了实现上述目的，本发明采用如下技术方案：

一种智能视频会议***，所述***包括：声音信息分析单元，用于获取视频会议中预定的声音信息，对所述声音信息进行分析；声音数据获取单元，根据所述声音信息的分析结果对声音信息进行筛选，并获取包含预定词汇的声音数据；所述声音分析单元对所述声音信息进行分析的方法为：采集由用户所发出的输入声音信息；根据存储声音信息的识别词典，对声音信息执行初次声音识别，以产生输入声音信息的声音特征指定的初次声音识别结果；决定接受还是拒绝由声音特征指定的初次声音识别结果；当拒绝由声音特征指定的初次声音识别结果时，执行二次声音识别；接收二次声音识别结果；向声音识别***外部输出初次声音识别结果或二次声音识别结果；响应于向声音信息分析单元外部输出的初次声音识别结果或二次声音识别结果，输入确定信息；以及根据输入的确定信息，更新识别词典；所述***还包括：手势情况分析单元，用于获取视频会议中预定的手势情况，对所述手势情况进行分析；运动轨迹获取单元，用于根据所述手势情况的分析结果获取所述手势的运动轨迹；图像嵌入单元，用于根据所述声音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中；该图像为所述视频会议中发言人在某段时间内声音数据和/或手势比划时运动轨迹相对应的图案；根据所述声音数据和/或运动轨迹获取相应的图像，包括：根据手势比划时运动轨迹得到相应的图像轮廓，根据所述声音数据修正所述图像轮廓。

进一步的，所述更新识别词典的所述更新步骤包括如下步骤：当识别词典中的单词数量超过声音信息分析单元的处理能力时，根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。

进一步的，所述手势情况分析单元包括：视频流解析单元，用于获取视频会议中预定的手势情况后，将手势情况的视频流解析成若干帧的图像；图像标记时间标签单元，用于根据视频的帧率给各帧图像打上时间标签；图像分析单元，用于根据所述时间标签对所述各帧图像进行分片，对各时间分片的图像进行分析；手势信息获取单元，根据所述对各时间分片的图像进行分析的分析结果获取各时间片内的手势信息。

进一步的，该视频会议***还包括：声音数据标记时间标签单元，用于将所述包含预定词汇的声音数据打上时间标签；同步单元，用于根据所述声音数据的时间标签及各帧图像的时间标签将声音数据与手势进行同步。

进一步的，所述图像嵌入单元包括：声音数据及运动轨迹分析单元，用于对所述声音数据及运动轨迹进行分析；判断单元，用于根据分析结果判断数据库中是否存在与该声音数据及运动轨迹相匹配的图像；图像生成单元，用于在所述判断单元的判断结果为否的情况下，根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。

一种智能视频会议方法，所述方法执行以下步骤：步骤1：声音信息分析单元，获取视频会议中预定的声音信息，对所述声音信息进行分析；步骤2：声音数据获取单元，根据所述声音信息的分析结果对声音信息进行筛选，并获取包含预定词汇的声音数据；步骤3：手势情况分析单元，获取视频会议中预定的手势情况，对所述手势情况进行分析；步骤4：运动轨迹获取单元，根据所述手势情况的分析结果获取所述手势的运动轨迹；步骤5：图像嵌入单元，根据所述声音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中；该图像为所述视频会议中发言人在某段时间内声音数据和/或手势比划时运动轨迹相对应的图案；根据所述声音数据和/或运动轨迹获取相应的图像，包括：根据手势比划时运动轨迹得到相应的图像轮廓，根据所述声音数据修正所述图像轮廓。

进一步的，所述声音分析单元对所述声音信息进行分析的方法为：采集由用户所发出的输入声音信息；根据存储声音信息的识别词典，对声音信息执行初次声音识别，以产生输入声音信息的声音特征指定的初次声音识别结果；决定接受还是拒绝由声音特征指定的初次声音识别结果；当拒绝由声音特征指定的初次声音识别结果时，执行二次声音识别；接收二次声音识别结果；向声音识别***外部输出初次声音识别结果或二次声音识别结果；响应于向声音信息分析单元外部输出的初次声音识别结果或二次声音识别结果，输入确定信息；以及根据输入的确定信息，更新识别词典。

与现有技术相比，本发明实现的有益效果：本发明使用自动识别声音手势，完成视频会议的交流，实现了视频会议的智能化。

附图说明

以下结合附图和具体实施方式来进一步详细说明本发明：

图1为本发明实施例公开的智能视频会议***的***结构示意图。

图2为本发明实施例公开的智能视频会议方法的方法流程示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

请参阅图1。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用于配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用于限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用于限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例1

具体的，采用视频会议，可以实现与多人同时进行通讯，人们还可以面对面讲话。在全球各地的办公室和教育机构，视频会议还能够用于学习、培训和与联系人会面，不需要进行旅行。视频会议不仅能够节省电话费，而且通过取消旅行还有助于改善环境和减少业务开支中安排员工外出开会的旅差费。此外，朋友和家人能够利用视频会议与居住在其它国家的亲人保持联系，甚至在海外作战的士兵也能够利用视频会议与家里的爱人保持联系。视频会议解决方案在经济衰退期间是可行的，在经济好转时是关键的应用。以前的经济衰退表明，在经济危机的时候投资IT和通讯的企业在经济风暴过去之后将处于强有力的竞争地位，甚至能够从竞争对手那里夺取市场份额。那些对于有能力并且愿意在经济衰退期间继续投资IT的企业来说，可视化通讯和协作产品与服务应该是他们生存战略的核心部分。这种投资将使这些企业在经济复苏的时候处于有利的竞争地位。随着社会的发展，视频会议的应用越来越广泛，同时对视音频质量、数据协作共享、灵活易用性、易管理性的要求也越来越严格。早期的视频会议***通常以专用硬件设备的形式构成，包括多点控制单元MCU和视频终端，并且彼此之间要用专网进行连接。硬件及专网的高额成本制约了硬件视频会议***只能用于政府、部队、大型企业集团，很难向中小企业、日常化应用普及。随着计算机处理能力和软件技术的提高，视频会议***也开始向软件化发展，越来越多基于服务器端/客户端模式的软件产品出现，视频会议向办公交流、业务培训、市场营销等多领域扩展，并且这种相对低成本、便捷化的应用正在逐步为大多数中小型企事业单位接受。网络视频会议是软件视频会议的最新发展，它完全基于Internet互联网，支持面向全球的协同工作；同时以互联网时代最常用的浏览器模式使用，极大的扩展了应用场景和地点。

实施例2

在上一实施例的基础上，所述更新识别词典的所述更新步骤包括如下步骤：当识别词典中的单词数量超过声音信息分析单元的处理能力时，根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。

实施例3

在上一实施例的基础上，所述手势情况分析单元包括：视频流解析单元，用于获取视频会议中预定的手势情况后，将手势情况的视频流解析成若干帧的图像；图像标记时间标签单元，用于根据视频的帧率给各帧图像打上时间标签；图像分析单元，用于根据所述时间标签对所述各帧图像进行分片，对各时间分片的图像进行分析；手势信息获取单元，根据所述对各时间分片的图像进行分析的分析结果获取各时间片内的手势信息。

实施例4

在上一实施例的基础上，该视频会议***还包括：声音数据标记时间标签单元，用于将所述包含预定词汇的声音数据打上时间标签；同步单元，用于根据所述声音数据的时间标签及各帧图像的时间标签将声音数据与手势进行同步。

具体的，为了满足随时随地接入会议，并兼顾极致高清和虚拟真实会场的企业用户需求，软件视频会议和硬件视频会议(远程呈现)将走向融合。融合会议的发展会经历三个阶段。

第一个阶段，实现硬件视频会议、软件视频会议及UC(统一通信)的互连互通，初步实现普通电话、IP话机、UC软终端、Web客户端、移动终端和智真会议室终端能同时接入会议。该方案既保留了两种不同类型会议的体验，又可以实现多终端同时参加会议。

如果企业需要开一个非常重要的正式会议，分支机构可以使用智真会议室终端参加会议，出差员工可以通过PC(UC软终端或Web客户端)远程接入到软件视频会议***，然后通过软硬件视频会议的级联接入到智真会场。

第二阶段，从平台架构上实现统一的会场控制和会议管理。在信令控制层面实现基于H.323/MCU的硬件视频会议与基于SIP/HTTP的软件桌面视频会议的统一，通过SIP协议和统一的AS(应用服务器)控制各类终端的接入，对各类会场媒体资源进行管理；并提供统一网管用于融合会议***的整体网络设备管理，提供统一的管理Portal用于业务配置、会议预定提供统一入口和会议管理体验……

第三阶段，实现各类媒体资源服务器的融合，提供统一的媒体综合汇聚和转码中心，媒体中心根据终端的能力，推送合适编码格式的码流给多媒体终端，实现多屏一致体验。通过多媒体能力共平台，可以实现音频、视频、文本和数据统一部署与能力共享，实现各类终端与媒体中心共享音视频引擎，提高复用能力，最终完成各类会议终端和会议***的完全融合。

实施例5

在上一实施例的基础上，所述图像嵌入单元包括：声音数据及运动轨迹分析单元，用于对所述声音数据及运动轨迹进行分析；判断单元，用于根据分析结果判断数据库中是否存在与该声音数据及运动轨迹相匹配的图像；图像生成单元，用于在所述判断单元的判断结果为否的情况下，根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。

实施例6

实施例7

在上一实施例的基础上，所述声音分析单元对所述声音信息进行分析的方法为：采集由用户所发出的输入声音信息；根据存储声音信息的识别词典，对声音信息执行初次声音识别，以产生输入声音信息的声音特征指定的初次声音识别结果；决定接受还是拒绝由声音特征指定的初次声音识别结果；当拒绝由声音特征指定的初次声音识别结果时，执行二次声音识别；接收二次声音识别结果；向声音识别***外部输出初次声音识别结果或二次声音识别结果；响应于向声音信息分析单元外部输出的初次声音识别结果或二次声音识别结果，输入确定信息；以及根据输入的确定信息，更新识别词典。

具体的，随着各类新技术的应用，会议功能变得越来越强大，但是提供给用户的会议业务体验应该朝着更加简便快捷的方向发展。使用会议业务主要包括会议召集和会议加入两个场景。在召集会议时，除了能够登录Portal来进行会议预约外，还能够与UC和其他主流企业应用软件集成，可通过UC软终端、Outlook、Notes、Office、企业OA或其他应用软件客户端一键发起会议召集，使开会习惯与使用其他办公软件方式一致。比如，当用户收到一封邮件后，想直接召集一个会议讨论关于话题，可直接点击邮件中发起会议的按钮进行会议召集，***自动将邮件主题作为会议主题，将邮件内容作为会议资料，将发件人和所有收件人作为会议成员并进行会议预约，从而实现情感感知的会议召集。

另外，还可以创建会议群组和会议模板，使用默认配置发起会议。在会议预约成功后，***自动创建“会议空间”，并向与会者发送会议通知，可以是邮件、短信或者其他方式。与会者在收到会议通知后，能够在Outlook中点击链接一键入会，也可以在UC软终端中点击会议列表一键入会，当无法通过PC接入时，也能够通过回复短信的方式由***外呼手机语音入会。

在会议过程中，与会者能够在多个桌面终端中实现一键转接。比如，当前有一个用户正在通过PC接入参加一个远程培训，此时该用户想到茶水间去倒一杯水，可以通过一键转接功能将会场声音转到自己的手机上，然后可以拿着手机去茶水间倒水，等回到座位之后再将会场通话转回到PC上从而不会漏掉任何培训内容。

这对用户来说，无论是召集会议还是参加会议，都能够用户极致简单的会议体验。

实施例8

需要说明的是，上述实施例提供的***，仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元来完成，即将本发明实施例中的单元或者步骤再分解或者组合，例如，上述实施例的单元可以合并为一个单元，也可以进一步拆分成多个子单元，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的单元、步骤的名称，仅仅是为了区分各个单元或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的单元、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD～ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种智能视频会议***，其特征在于，所述***包括：声音信息分析单元，用于获取视频会议中预定的声音信息，对所述声音信息进行分析；声音数据获取单元，根据所述声音信息的分析结果对声音信息进行筛选，并获取包含预定词汇的声音数据；所述声音分析单元对所述声音信息进行分析的方法为：采集由用户所发出的输入声音信息；根据存储声音信息的识别词典，对声音信息执行初次声音识别，以产生输入声音信息的声音特征指定的初次声音识别结果；决定接受还是拒绝由声音特征指定的初次声音识别结果；当拒绝由声音特征指定的初次声音识别结果时，执行二次声音识别；接收二次声音识别结果；向声音识别***外部输出初次声音识别结果或二次声音识别结果；响应于向声音信息分析单元外部输出的初次声音识别结果或二次声音识别结果，输入确定信息；以及根据输入的确定信息，更新识别词典；所述***还包括：手势情况分析单元，用于获取视频会议中预定的手势情况，对所述手势情况进行分析；运动轨迹获取单元，用于根据所述手势情况的分析结果获取所述手势的运动轨迹；图像嵌入单元，用于根据所述声音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中；该图像为所述视频会议中发言人在某段时间内声音数据和/或手势比划时运动轨迹相对应的图案；根据所述声音数据和/或运动轨迹获取相应的图像，包括：根据手势比划时运动轨迹得到相应的图像轮廓，根据所述声音数据修正所述图像轮廓。

2.如权利要求1所述的***，其特征在于，所述更新识别词典的所述更新步骤包括如下步骤：当识别词典中的单词数量超过声音信息分析单元的处理能力时，根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。

3.如权利要求2所述的***，其特征在于，所述手势情况分析单元包括：视频流解析单元，用于获取视频会议中预定的手势情况后，将手势情况的视频流解析成若干帧的图像；图像标记时间标签单元，用于根据视频的帧率给各帧图像打上时间标签；图像分析单元，用于根据所述时间标签对所述各帧图像进行分片，对各时间分片的图像进行分析；手势信息获取单元，根据所述对各时间分片的图像进行分析的分析结果获取各时间片内的手势信息。

4.如权利要求3所述的***，其特征在于，该视频会议***还包括：声音数据标记时间标签单元，用于将所述包含预定词汇的声音数据打上时间标签；同步单元，用于根据所述声音数据的时间标签及各帧图像的时间标签将声音数据与手势进行同步。

5.如权利要求4所述的***，其特征在于，所述图像嵌入单元包括：声音数据及运动轨迹分析单元，用于对所述声音数据及运动轨迹进行分析；判断单元，用于根据分析结果判断数据库中是否存在与该声音数据及运动轨迹相匹配的图像；图像生成单元，用于在所述判断单元的判断结果为否的情况下，根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。

6.一种基于权利要求1至5之一所述***的智能视频会议方法，其特征在于，所述方法执行以下步骤：步骤1：声音信息分析单元，获取视频会议中预定的声音信息，对所述声音信息进行分析；步骤2：声音数据获取单元，根据所述声音信息的分析结果对声音信息进行筛选，并获取包含预定词汇的声音数据；步骤3：手势情况分析单元，获取视频会议中预定的手势情况，对所述手势情况进行分析；步骤4：运动轨迹获取单元，根据所述手势情况的分析结果获取所述手势的运动轨迹；步骤5：图像嵌入单元，根据所述声音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中；该图像为所述视频会议中发言人在某段时间内声音数据和/或手势比划时运动轨迹相对应的图案；根据所述声音数据和/或运动轨迹获取相应的图像，包括：根据手势比划时运动轨迹得到相应的图像轮廓，根据所述声音数据修正所述图像轮廓。

7.如权利要求6所述的方法，其特征在于，所述声音分析单元对所述声音信息进行分析的方法为：采集由用户所发出的输入声音信息；根据存储声音信息的识别词典，对声音信息执行初次声音识别，以产生输入声音信息的声音特征指定的初次声音识别结果；决定接受还是拒绝由声音特征指定的初次声音识别结果；当拒绝由声音特征指定的初次声音识别结果时，执行二次声音识别；接收二次声音识别结果；向声音识别***外部输出初次声音识别结果或二次声音识别结果；响应于向声音信息分析单元外部输出的初次声音识别结果或二次声音识别结果，输入确定信息；以及根据输入的确定信息，更新识别词典。

8.如权利要求7所述的方法，其特征在于，所述更新识别词典的所述更新步骤包括如下步骤：当识别词典中的单词数量超过声音信息分析单元的处理能力时，根据过去确定信息的顺序和过去确定信息的频率中至少之一，删除单词。