CN111818294A

CN111818294A - 结合音视频的多人会议实时展示的方法、介质和电子设备

Info

Publication number: CN111818294A
Application number: CN202010768772.5A
Authority: CN
Inventors: 吕安旗; 郑达; 李索恒; 张志齐
Original assignee: Shanghai Yitu Information Technology Co ltd
Current assignee: Shanghai Yitu Information Technology Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-23

Abstract

本申请提供一种结合音视频的多人会议实时展示的方法、介质和电子设备，该方法包括：获取参会人员中发言人的音频数据；对音频数据进行语音识别处理，得到发言人的文本信息；将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域，每个发言人的文本信息和每个发言人在会议视频中的位置一一对应。本申请实现了同步且实时地结合发言人文本信息和会议视频，同时将文本信息展示在会议视频中发言人对应区域，使得发言人的说话内容易于区分。因为视频和文字可同步记录，使得记录的形式多样、清晰，方便后续阅读和理解。

Description

结合音视频的多人会议实时展示的方法、介质和电子设备

技术领域

本发明涉及信息处理技术领域，特别涉及结合音视频的多人会议实时展示的方法、介质和电子设备。

背景技术

随着互联网技术的深度应用，各类终端设备的普及程度越来越高，目前已有不少语音产品能够支持对会议发言进行实时转写，并将转写内容展示在屏幕上，方便其他参会者阅读。但现有的会议转写***也存在一些缺陷：在多人同时发言的情况下，往往难以区分多个发言者身份及其对应的发言内容，会议记录的内容较混乱，会议记录内容质量较低，并且通常是基于参会者手动进行记录，非常容易遗漏或者记录错误，效率低；另外仅仅使用文字进行展示/记录会议内容，展示/记录形式上比较单一，无法充分利用会议记录内容。

发明内容

本发明提供一种结合音视频的多人会议实时展示的方法，该方法包括：

获取参会人员中发言人的音频数据；对音频数据进行语音识别处理，得到发言人的文本信息；将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域，每个发言人的文本信息和每个发言人在会议视频中的位置一一对应。

根据本申请的实施方式，在会议中，将发言人的说话的文本信息展示在会议视频中发言人对应的区域，实现了发言内容和发言人的实时对应，提高了参会人员会议沟通时的智能化体验。

在一些实施例中，将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域，包括：分析音频数据，确定发言人的声音特征信息；将发言人的声音特征信息与数据库中参会人员的认证信息进行匹配，得到发言人的脸部特征信息，其中认证信息包括声音特征信息和脸部特征信息；利用发言人的脸部特征信息，获取会议视频；将文本信息同步且实时展示在会议视频中发言人对应的区域。

根据本申请的实施方式，利用声音特征信息和脸部特征信息区分发言人的功能，实现了音频数据和视频中发言人对应关系的确认，从而可实现将发言人的文本信息结合在会议视频中对应发言人的位置。

在一些实施例中，还包括：根据发言人的音频数据判断是否有多人在说话；当判断出发言人数量为多个时，则先对音频数据进行说话人分离，再进行对音频数据进行语音识别处理和分析音频数据；当判断出发言人数量为一个时，则直接进行对音频数据进行语音识别处理和分析音频数据。

根据本申请的实施方式，在一些混合多位发言人的音频数据中，基于音频数据判断出是否有多人在说话，并通过增加说话人分离的方法来确定时间、文本信息和发言人的对应关系，进而实现了将发言人的文本信息结合在会议视频中对应发言人的位置。

在一些实施例中，还包括：根据会议视频判断是否有多人在说话；当判断出发言人数量为多个时，则先对音频数据进行说话人分离，再进行对音频数据进行语音识别处理和分析音频数据；当判断出发言人数量为一个时，则直接进行对音频数据进行语音识别处理和分析音频数据。

根据本申请的实施方式，在一些混合多位发言人的音频数据中，基于会议视频判断出是否有多人在说话，并通过增加说话人分离的方法来确定时间、文本信息和发言人的对应关系，进而实现了将发言人的文本信息结合在会议视频中对应发言人的位置。

在一些实施例中，还包括：根据发言人的音频数据和会议视频判断是否有多人在说话；当判断出发言人数量为多个时，则先对音频数据进行说话人分离，再进行对音频数据进行语音识别处理和分析音频数据；当判断出发言人数量为一个时，则直接进行对音频数据进行语音识别处理和分析音频数据。

根据本申请的实施方式，实现了在一些混合多位发言人的音频数据时，通过发言人的音频数据和会议视频判断是否有多人在说话，并通过增加说话人分离的方法来确定时间、文本信息和发言人的对应关系，进而实现了将发言人的文本信息结合在会议视频中对应发言人的位置。

在一些实施例中，生成会议纪要，会议纪要包括发言人的认证信息和文本信息。

根据本申请的实施方式，认证信息包括发言人的名字、职位等可以区别的个人信息。包含发言人认证信息和文本信息的会议纪要方便后续相关人员的查看、阅读和整理。

在一些实施例中，将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域之后，存储的会议视频，生成会议纪要。

在一些实施例中，声音特征信息为声纹。

在一些实施例中，将发言人的声音特征信息与数据库中参会人员的认证信息进行匹配，得到发言人的脸部特征信息，其中认证信息包括声音特征信息和脸部特征信息，包括：数据库中存储声音特征信息和脸部特征信息映射关系表，根据发言人的声音特征信息查询声音特征信息和脸部特征信息映射关系表，得到发言人的脸部特征信息。

在一些实施例中，根据发言人的声音特征信息查询声音特征信息和脸部特征信息映射关系表，得到发言人的脸部特征信息，包括：

若发言人的声音特征信息与声音特征信息和脸部特征信息映射关系表中的声音特征信息的相似度值大于预设相似度值，则将大于预设相似度值的声音特征信息对应的脸部特征信息确定为发言人的脸部特征信息。

本发明还提供了一种结合音视频的多人会议实时展示的装置，该装置包括：

获取单元，用于获取参会人员中发言人的音频数据；识别单元，用于对音频数据进行语音识别处理，得到发言人的文本信息；同步单元，用于将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域，每个发言人的文本信息和每个发言人在会议视频中的位置一一对应。

在一些实施例中，同步单元包括：

分析单元，用于分析音频数据，确定发言人的声音特征信息；匹配单元，用于将发言人的声音特征信息与数据库中参会人员的认证信息进行匹配，得到发言人的脸部特征信息，其中认证信息包括声音特征信息和脸部特征信息；获取视频单元，用于利用发言人的脸部特征信息，获取会议视频；同步展示单元，用于将文本信息同步且实时展示在会议视频中发言人对应的区域。

在一些实施例中，该装置还包括：

判断单元，用于根据发言人的音频数据判断是否有多人在说话；分离单元，用于当判断出发言人数量为多个时，则先对的音频数据进行说话人分离。

在一些实施例中，该装置还包括：

判断单元，用于根据会议视频判断是否有多人在说话；分离单元，用于当判断出发言人数量为多个时，则先对的音频数据进行说话人分离。

在一些实施例中，该装置还包括：

判断单元，用于根据发言人的音频数据和会议视频判断是否有多人在说话；分离单元，用于当判断出发言人数量为多个时，则先对的音频数据进行说话人分离。

在一些实施例中，该装置还包括：

生成单元，用于生成会议纪要，会议纪要包括发言人的认证信息和文本信息。

在一些实施例中，该装置还包括：

存储单元，用于将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域之后，存储的会议视频，存储的会议视频为会议纪要。

在一些实施例中，匹配单元还用于数据库中存储声音特征信息和脸部特征信息映射关系表，根据发言人的声音特征信息查询声音特征信息和脸部特征信息映射关系表，得到发言人的脸部特征信息。

在一些实施例中，匹配单元还用于若发言人的声音特征信息与声音特征信息和脸部特征信息映射关系表中的声音特征信息的相似度值大于预设相似度值，则将大于预设相似度值的声音特征信息对应的脸部特征信息确定为发言人的脸部特征信息。

本发明还提供了一种可读介质，可读介质上存储有指令，该指令在电子设备上执行时使电子设备执行上述结合音视频的多人会议实时展示的方法。

本发明提供了一种电子设备，包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及处理器，是电子设备的处理器之一，用于执行上述结合音视频的多人会议实时展示的方法。

本申请实施例中，可以实现结合音视频的多人会议实时展示，使得转写内容易于区分，方便阅读和理解，并实现视频和文字的同步记录，使得记录的形式多样、清晰。

附图说明

图1是根据本发明实施例的结合音视频的多人会议实时展示的场景图；

图2是根据本发明实施例的结合音视频的多人会议实时展示的另一种场景图；

图3是根据本发明实施例的结合音视频的多人会议实时展示的方法的电子设备300的硬件结构框图；

图4是根据本发明实施例的结合音视频的多人会议实时展示的方法的流程图；

图5A是根据本发明实施例的结合音视频的多人会议实时展示的场景示意图；

图5B是根据本发明实施例的结合音视频的多人会议实时展示的场景示意图；

图6是根据本发明实施例的结合音视频的多人会议实时展示的方法的流程图；

图7是根据本发明实施例的结合音视频的多人会议实时展示的方法的流程图；

图8是根据本发明实施例的结合音视频的多人会议实时展示的方法的流程图；

图9是根据本发明实施例的结合音视频的多人会议实时展示的装置的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合较佳实施例一起介绍，但这并不代表此发明的特征仅限于该实施方式。恰恰相反，结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解，以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外，为了避免混乱或模糊本发明的重点，有些具体细节将在描述中被省略。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应注意的是，在本说明书中，相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明的实施例可应用的场景可以是移动终端、计算机终端(例如手机、电脑、平板等)上进行线上视频会议，亦可以是包含显示屏和摄像头的线下会议。

图1是根据本发明实施例的结合音视频的多人会议实时展示的场景图，是在手机上进行线上视频会议的应用场景。如图1所示，手机包括摄像头11和麦克风12，在进行线上会议时，屏幕可以显示的一种情况：各参会人可以利用手机进行视频并同时进行语音沟通。其中A区域为参会人中发言人实时视频显示的区域，B区域是未发言的参会人的显示区域。其中B区域显示的内容可以包括未发言的参会人的图片或者社交账号头像、姓名和/或职位等信息。另外也可以不显示B区域，仅显示A区域。

图2是根据本发明实施例的结合音视频的多人会议实时展示的另一种场景图，是线下会议的应用场景。如图2所示，会议场景包括摄像头21、麦克风22和终端设备23。在会议中，可通过麦克风22获取音频信息，通过摄像头21获取视频信息，将音频信息和视频信息传输到终端设备23，经过对音频信息进行语音识别、说话人分离和声纹比对等步骤，生成发言人对应的文本信息，将文本信息和视频信息进行结合，并展示在终端设备23的显示器上，其显示结果与在手机上的显示结果类似，在此不再赘述。

图3是根据本发明实施例的结合音视频的多人会议实时展示的方法的电子设备300的硬件结构框图。电子设备300可以包括耦合到控制器中枢303的一个或多个处理器301，对于至少一个实施例，控制器中枢303经由诸如前端总线(Front Side Bus,FSB)之类的多分支总线、诸如快速通道互连(QuickPath Interconnect,QPI)之类的点对点接口、或者类似的连接306与处理器301进行通信。处理器301执行控制一般类型的数据处理操作的指令。在一些实施例中，控制器中枢303包括，但不局限于，图形存储器控制器中枢(Graphics&Memory Controller Hub,GMCH)(未示出)和输入/输出中枢(Input OutputHub,IOH)(其可以在分开的芯片上)(未示出)，其中GMCH包括存储器和图形控制器并与IOH耦合。

电子设备300还可包括耦合到控制器中枢303的协处理器302和存储器304。或者，存储器和GMCH中的一个或两者可以被集成在处理器内(如本申请中所描述的)，存储器304和协处理器302直接耦合到处理器301以及控制器中枢303，控制器中枢303与IOH处于单个芯片中。

存储器304可以是例如动态随机存取存储器(Dynamic Random Access Memory,DRAM)、相变存储器(Phase Change Memory,PCM)或这两者的组合。存储器304中可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。计算机可读存储介质中存储有指令，具体而言，存储有该指令的暂时和永久副本。该指令可以包括：由处理器中的至少一个执行时导致电子设备实施如图4、图6、图7和图8所示方法的指令。当指令在计算机上运行时，使得计算机执行本申请上述实施方式公开的用于结合音视频的多人会议实时展示的方法。

在一个实施例中，协处理器302是专用处理器，诸如例如高吞吐量集成众核(ManyIntegrated Core,MIC)处理器、网络或通信处理器、压缩引擎、图形处理器、图形处理单元上的通用计算(General-purpose computing on graphics processing units，GPGPU)、或嵌入式处理器等等。协处理器302的任选性质用虚线表示在图1中。

在一个实施例中，电子设备300可以进一步包括网络接口(Network InterfaceController,NIC)306。网络接口306可以包括收发器，用于为电子设备300提供无线电接口，进而与任何其他合适的设备(如前端模块，天线等)进行通信。在各种实施例中，网络接口306可以与电子设备300的其他组件集成。

电子设备300可以进一步包括输入/输出(Input/Output,I/O)设备305。I/O305可以包括：用户界面，该设计使得用户能够与电子设备300进行交互。

值得注意的是，图1仅是示例性的。即虽然图1中示出了电子设备300包括处理器301、控制器中枢303、存储器304等多个器件，但是，在实际的应用中，使用本申请各方法的设备，可以仅包括电子设备300各器件中的一部分器件，例如，可以仅包含处理器301和NIC306。

下面以电子设备为终端设备23为例，结合图4-8对本发明的实施例进行详细描述。

第一个实施例：

图4是根据本发明实施例的结合音视频的多人会议实时展示的方法的流程图，图5A和图5B是根据本发明实施例的结合音视频的多人会议实时展示的场景示意图，下面结合图4、图5A和图5B对本发明的一些实施例进行详细描述。

步骤S42：终端设备23获取参会人员中发言人的音频数据。

步骤S44：终端设备23对音频数据进行语音识别处理，得到发言人的文本信息。

步骤S46：终端设备23将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域，每个发言人的文本信息和每个发言人在会议视频中的位置一一对应。

在一些实施例中，发言人的数量为一个或者多个，而且多个发言人可能同时发言。当每个参会人员采用手机等带有摄像头和麦克风的终端设备23进行线上会议时，终端设备23可直接获取发言人的音频数据，并进行语音识别，得到文本信息，将各发言人对应的文本信息展示在手机屏幕的共享界面上。展示的位置可以如图5A所示的区域1，在发言人的视频窗口3之内，也可以如图5A中所示的区域2，在发言人的视频窗口3之外且与发言人的视频窗口3对应。

另外，当每个参会人员采用手机等终端设备23进行线上会议时，若需要共享桌面，终端设备23可驱动自身摄像头聚焦发言人，将发言人的视频窗口3以悬浮窗的形式展示在显示屏上。此时既能满足区分发言人的说话内容(文本信息)的需求，又能满足实际应用中经常需要演示文件的需求，因此实用性较强。

在一些实施例中，当每个参会人员在有摄像头和麦克风的终端设备23进行线下会议时，可以没有图5B所示的视频窗口3，直接将各发言人对应的文本信息展示在视频中各发言人对应的区域，例如图5B所示的区域2。另外还可以展示在图5B所示的视频窗口3所示的区域，直接将各发言人对应的文本信息展示在视频中各发言人对应的视频窗口3区域内。

在一些实施例中，终端设备23可以将发言人的认证信息，例如，名字、职位、身份证等信息展示在图5A和图5B中1、2或3所示的区域，以区分会议中发言人的身份。

第二个实施例：

可以理解的是，在一些实施例中，尤其是线下会议时，会议中获取的音频信息可能包括多位发言人的音频数据，下面结合图6阐述区分多位发言人的音频数据的方法。图6是根据本发明实施例的结合音视频的多人会议实时展示的方法的流程图。如图6所示，步骤S46可以具体包括：

步骤S461：终端设备23分析获取的音频数据，确定发言人的声音特征信息。

可以理解，声音特征信息可以为能够区分发言人的声纹特征信息，但不限于此。

步骤S462：数据库中匹配得到发言人的脸部特征信息。终端设备23将发言人的声音特征信息与数据库中参会人员的认证信息进行匹配，得到发言人的脸部特征信息，其中认证信息包括声音特征信息和脸部特征信息。

终端设备23获取各参会人员的声音信息和图像信息，对声音信息和图像信息分析后获得各参会人的声音特征信息和脸部特征信息。将各参会人员的声音特征信息、脸部特征信息和/或身份信息等进行存储，得到数据库。

可以理解，声音特征信息和脸部特征信息之间存在映射关系，数据库中存储声音特征信息和脸部特征信息映射关系表，终端设备23根据发言人的声音特征信息查询声音特征信息和脸部特征信息映射关系表，得到发言人的脸部特征信息。

在一些实施例中，根据发言人的声音特征信息查询声音特征信息和脸部特征信息映射关系表，得到发言人的脸部特征信息，包括：若发言人的声音特征信息与声音特征信息和脸部特征信息映射关系表中的声音特征信息的相似度值大于预设相似度值，则将大于预设相似度值的声音特征信息对应的脸部特征信息确定为发言人的脸部特征信息。

可以理解，在线下会议时，可在会议之前利用手机、电脑等终端设备23采集人物图像信息和声音信息、身份信息等作为参会人员的认证信息并将该认证信息传给终端设备23。具体的，对于会议中发言人在会议之前已经确定的情况下，亦可只进行发言人的认证信息采集，例如在超大型线上或者线下会议的情况，可提前只对发言人的信息进行采集，可缩小数据库中匹配次数，有利于进行快速的信息匹配。

步骤S463：终端设备23利用发言人的脸部特征信息，获取会议视频。

在一些实施例中，终端设备23可通过声纹匹配得到数据库中发言人的图像，将发言人的图像信息发送给摄像头，以指示摄像头通过人脸识别找到发言人并采集包含发言人的会议视频，并将采集到的包含发言人的会议视频信息实时显示在显示装置上。

在步骤S464，终端设备23将文本信息同步且实时展示在会议视频中发言人对应的区域，每个发言人的文本信息和每个发言人在会议视频中的位置一一对应。

终端设备23将发言人的文本信息和包含发言人的会议视频同步且实时地结合在会议视频中发言人对应的区域并进行显示。在发言人集中在固定区域情况下，可以将发言人展示在一个画面，即不需要浮框。在发言人无法在一个视频画面或者展示时空间不足以区分发言人对应的文本信息时，可以采用浮框展示。

在其他一些实施例中，音频信息是混合多位发言人的音频数据，终端设备23可以采用说话人分离的方法来确定文本信息和发言人对应关系，实现了实时地将各发言人的文本信息展示在发言人对应的区域上。

第三个实施例：

图7为图4所示方法基础上添加了步骤S431和S432，在一些混合多位发言人的音频数据时，来确定文本信息和发言人的对应关系。具体地，包括：

步骤S42：终端设备23获取参会人员中发言人的音频数据。

步骤S431：终端设备23判断是否有多人在说话。

具体可以根据音频数据来判断是否有多人在说话，例如，对音频数据进行分析，来判断是否有多人在说话。

也可以根据会议视频中的参会人员的脸部动作变化来判断，例如，实时地截取2S的的视频进行人脸识别，根据视频中人物的脸部表情变化来判断是否有人在讲话，如此段视频中人物嘴巴张合、眼神变化来判断是否有人在说话。

步骤S432：当判断出发言人数量为多个时，终端设备23先对音频数据进行说话人分离处理，说话人分离是从多人对话中自动地将语音依据说话人进行划分，并加以标记的过程，可区分出时间和说话人的对应关系；再对音频数据进行语音识别处理，得到文本信息，和分析音频数据，得到发言人的声纹。

当判断出发言人数量为一个时，则直接对音频数据进行语音识别处理，得到文本信息，和分析音频数据，得到发言人的声纹。

步骤S46：终端设备23将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域。

第四个实施例：

在其他一些实施例中，图8为图7所示方法基础上添加步骤S46，可以具体包括：

步骤S42：终端设备23获取参会人员中发言人的音频数据。

步骤S431：终端设备23判断是否有多人在说话，具体可以根据音频数据来判断是否有多人在说话，也可以根据会议视频来判断。

例如，对音频数据进行分析，来判断是否有多人在说话；实时地截取了2S的的视频进行人脸识别，根据视频中人物的脸部表情变化来判断是否有人在讲话，如此段视频中人物嘴巴张合、眼神变化来判断是否有人在说话。

另外，终端设备23也可根据音频数据和会议视频进行两种判断条件来判断是否有多人在说话。若根据音频数据和会议视频两者的判断结果一致时，则最终判断结果与两者的判断结果一致；若根据音频数据判断的结果和会议视频的判断结果不一致，则以音频数据的判断结果为最终判断结果。此判断方式使判断的结果更精确、有效。可以理解的是，当没有人说话时，不需要进行说话人分离，也不需要进行匹配和同步。

在一些实施例中，终端设备23对每个发言人的音频数据进行语音识别处理，得到每个发言人的文本信息。

在一些实施例中，终端设备23对每个发言人的音频数据进行特征提取，确定每个发言人的声音特征信息。

在其他一些实施例中，终端设备23可通过声纹匹配到数据库中发言人的图像，将发言人的图像信息发送给摄像头，以指示摄像头通过人脸识别找到发言人并采集包含发言人的会议视频，并将采集到的包含发言人的会议视频信息实时显示在显示装置上。

终端设备23将发言人的文本信息和包含发言人的会议视频同步且实时地结合在会议视频中发言人对应的区域并进行显示。

另外，终端设备23可同时利用音频数据和会议视频进行判断是否有多人在说话，使判断的结果更精确、有效。

在会议中或者会议结束时，可以将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域之后，存储该会议视频，生成会议纪要。也可将包含发言人认证信息和文本信息的记录生成会议纪要，认证信息包括发言人的名字、职位等可以区别的个人信息。生成的会议纪要方便后续相关人员的查看、阅读和整理。

如图9所示，本发明还提供一种结合音视频的多人会议实时展示的装置，该装置包括：

获取音频单元92，用于获取参会人员中发言人的音频数据；识别单元94，用于对音频数据进行语音识别处理，得到发言人的文本信息；同步单元96，用于将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域，每个发言人的文本信息和每个发言人在会议视频中的位置一一对应。

在一些实施例中，同步单元包括：

在一些实施例中，该装置还包括：

判断单元，用于判断是否有多人在说话，具体可以根据音频数据来判断是否有多人在说话，也可以根据会议视频来判断。

分离单元，用于当判断出发言人数量为多个时，对音频数据进行说话人分离。

在一些实施例中，该装置还包括：

生成单元，在会议中或者会议结束时，将包含发言人认证信息和文本信息的记录生成会议纪要，认证信息包括发言人的名字、职位等可以区别的个人信息。生成的会议纪要方便后续相关人员的查看、阅读和整理。

在一些实施例中，该装置还包括：

存储单元，用于将文本信息同步且实时展示在包含发言人的会议视频中发言人对应的区域之后，存储该会议视频，生成会议纪要。

本发明还提供一种计算机可读的存储介质，该存储介质具有存储在其中的指令，当指令被执行时，使得计算机执行如上的结合音视频的多人会议实时展示的方法。

本发明中，可以利用音频信息和视频信息处理、以及结合音频信息和视频信息，实现结合音视频的多人会议实时展示，可适用于多种会议场景，并且形成结合的音视频信息，生成会议记录。因此，提高了会议的质量，有效地缩短了会议记录的时间、提高会议记录的效果。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

Claims

1.一种结合音视频的多人会议实时展示的方法，其特征在于，所述方法包括：

获取参会人员中发言人的音频数据；

对所述音频数据进行语音识别处理，得到所述发言人的文本信息；

将所述文本信息同步且实时展示在包含所述发言人的会议视频中所述发言人对应的区域，每个所述发言人的文本信息和每个所述发言人在会议视频中的位置一一对应。

2.如权利要求1所述的方法，其特征在于，所述将所述文本信息同步且实时展示在包含所述发言人的会议视频中所述发言人对应的区域，包括：

分析所述音频数据，确定所述发言人的声音特征信息；

将所述发言人的所述声音特征信息与数据库中所述参会人员的认证信息进行匹配，得到所述发言人的脸部特征信息，其中所述认证信息包括所述声音特征信息和所述脸部特征信息；

利用所述发言人的所述脸部特征信息，获取所述会议视频；

将所述文本信息同步且实时展示在所述会议视频中所述发言人对应的区域。

3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据所述发言人的所述音频数据判断是否有多人在说话；

当判断出发言人数量为多个时，则对所述的音频数据进行说话人分离。

4.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据所述会议视频判断是否有多人在说话；

5.如权利要求2所述的方法，其特征在于，所述方法还包括：

生成会议纪要，所述会议纪要包括所述发言人的所述认证信息和所述文本信息。

6.如权利要求2所述的方法，其特征在于，将所述发言人的所述声音特征信息与数据库中所述参会人员的认证信息进行匹配，得到所述发言人的脸部特征信息，包括：数据库中存储声音特征信息和脸部特征信息映射关系表，根据所述发言人的声音特征信息查询所述声音特征信息和脸部特征信息映射关系表，得到所述发言人的脸部特征信息。

7.如权利要求6所述的方法，其特征在于，所述根据所述发言人的声音特征信息查询所述声音特征信息和脸部特征信息映射关系表，得到所述发言人的脸部特征信息，包括：

若所述发言人的声音特征信息与所述声音特征信息和脸部特征信息映射关系表中的声音特征信息的相似度值大于预设相似度值，则将大于预设相似度值的声音特征信息对应的脸部特征信息确定为所述发言人的脸部特征信息。

8.一种结合音视频的多人会议实时展示的装置，其特征在于，所述装置包括：

获取单元，用于获取参会人员中发言人的音频数据；

识别单元，用于对所述音频数据进行语音识别处理，得到所述发言人的文本信息；

同步单元，用于将所述文本信息同步且实时展示在包含所述发言人的会议视频中所述发言人对应的区域，每个所述发言人的文本信息和每个所述发言人在会议视频中的位置一一对应。

9.一种可读介质，其特征在于，所述可读介质上存储有指令，该指令在电子设备上执行时使电子设备执行权利要求1至7中任一项所述的结合音视频的多人会议实时展示的方法。

10.一种电子设备，其特征在于，包括：

存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及

处理器，是电子设备的处理器之一，用于执行权利要求1至7中任一项所述的结合音视频的多人会议实时展示的方法。