CN109698962A

CN109698962A - 实时视频通信方法和***

Info

Publication number: CN109698962A
Application number: CN201811506779.9A
Authority: CN
Inventors: 蔡耀; 韩杰; 安君超; 卢燕青
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Visionvera Information Technology Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-04-30

Abstract

发明实施例提供了一种实时视频通信方法和***，涉及通信领域，为解决现有实时视频通信技术功能单一，无法满足用户多样化的使用需求的问题而发明。其中，方法包括：源终端获取视频数据和音频数据，并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器；所述AI服务器获取所述音频数据的语音识别结果；所述AI服务器将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端；所述目标终端接收所述媒体数据，对所述媒体数据进行解析，显示所述视频数据、所述音频数据以及所述语音识别结果。本实施例提供的技术方案可以应用在视联网领域中。

Description

实时视频通信方法和***

技术领域

本发明实施例涉及通信领域，尤其涉及一种实时视频通信方法和***。

背景技术

视联网是网络发展的重要里程碑，是互联网的更高级形态，是一个实时网络，能够实现目前互联网无法实现的全网高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。

实时视频通信是视联网的一个重要应用场景，在现有技术中，实时视频通信的方法包括：发送端采集用户的视频数据和音频数据，通过视联网发送到视联网服务器，视联网服务器通过会议调度***将视频数据和音频数据发送给各个接收端，接收端接收并显示接收到的视频数据和音频数据。

在实现本发明的过程中，发明人发现，现有技术提供的实时视频通信方法只能简单地进行视频数据和音频数据的实时传输，无法满足用户的其他需求，使得用户的使用体验差。

发明内容

本发明实施例提供一种实时视频通信方法和***，以解决现有实时视频通信技术功能单一，无法满足用户多样化的使用需求的问题。

为了解决上述问题，本发明公开了一种实时视频通信方法，包括：源终端获取视频数据和音频数据，并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器；所述AI服务器获取所述音频数据的语音识别结果；所述AI服务器将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端；所述目标终端接收所述媒体数据，对所述媒体数据进行解析，显示所述视频数据、所述音频数据以及所述语音识别结果。

进一步地，所述AI服务器获取所述音频数据的语音识别结果包括：

所述AI服务器将所述音频数据发送给语音识别服务器，并接收所述语音识别服务器返回的语音识别结果，其中，所述语音识别服务器为实时在线语音识别服务器。

进一步地，所述AI服务器获取所述音频数据的语音识别结果包括：所述源终端在获取所述音频数据的同时，对所述音频数据进行语音识别，获取所述语音识别结果；所述AI服务器获取所述源终端发送的所述语音识别结果。

进一步地，所述AI服务器获取所述音频数据的语音识别结果包括：所述AI服务器获取目标语种信息；所述AI服务器根据所述目标语种信息，获取所述音频数据的语音识别结果。

进一步地，所述AI服务器获取目标语种信息包括：所述AI服务器根据预先获取的用户信息获取目标语种信息。

进一步地，所述AI服务器获取目标语种信息包括：所述目标终端向AI服务器发送目标语种请求；所述AI服务器从所述目标语种请求中获取所述目标语种信息。

另一方面，为了解决上述问题，本发明公开了一种实时视频通信***，包括：

源终端，用于视频数据和音频数据，并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器；

所述AI服务器，用于获取所述音频数据的语音识别结果，所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端；

所述目标终端，用于接收所述媒体数据，对所述媒体数据进行解析，显示所述视频数据、所述音频数据以及所述语音识别结果。

进一步地，所述实时视频通信***，还包括：

语音识别服务器，用于接收所述AI服务器发送的所述音频数据，对所述音频数据进行语音识别，获取语音识别结果，讲所述语音识别结果发送给所述AI服务器。

进一步地，所述AI服务器，还用于获取目标语种信息，根据所述目标语种信息获取所述音频数据的语音识别结果。

进一步地，所述AI服务器，还用于接收所述目标终端发送的目标语种请求，从所述目标语种请求中获取所述目标语种信息；

所述目标终端，还用于向所述AI服务器发送所述目标语种请求。

与现有技术相比，本发明中的技术方案，在实时视频通信过程中，可以对音频数据进行语音识别，并将语音识别结果连同视频数据和音频数据一起封装成一路媒体数据发送给目标终端，使得目标终端可以在接收到该媒体数据以后显示视频数据、音频数据和音频数据的语音识别结果，本发明提供的技术方案不仅仅提供数据传输功能，还对数据进行了相应的语音识别处理，虽然，只是在视频通信过程中增加显示了音频数据的语音识别结果，但是这对于实时视频通信的作用是巨大的，由于可以显示语音识别结果，使得用户可以根据需求显示对应的内容，相当于提供给用户一个与实时视频通信相关的附加输出物，从而提高了用户的使用体验，解决了现有实时视频通信技术只能提供单一的数据传输功能，无法满足用户多样化的使用需求的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的实时视频通信方法的流程图；

图2是图1所示的本发明实施例提供的实时视频通信方法中步骤102的流程图；

图3是本发明实施例一提供的实时视频通信方法的流程图；

图4是本发明实施例二提供的实时视频通信方法的流程图；

图5是本发明实施例三提供的实时视频通信方法的流程图；

图6是本发明另一实施例提供的实时视频通信***的结构示意图一；

图7是本发明另一实施例提供的实时视频通信***的结构示意图二。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了解决现有实时视频通信技术功能单一，无法满足用户多样化的使用需求的问题，本发明实施例提供一种实时视频通信方法和***。

需要说明的是，本发明实施例提供的实时视频通信方法和***，应用在视联网领域中，用以实现用户之间的视频通信功能。

为了使本领域技术人员能够更清楚的理解以下实施例提供的技术方案，需要说明的是，以下所述的源终端为实时视频通信过程中的发送端，目标终端为实时视频通信过程中的接收端，源终端和目标终端可以为两个相互独立的视联网终端设备，也可以为同一个视联网终端设备。另外，再以下的实施例中，并不对源终端和目标中的个数进行限定，源终端和目标终端的个数根据实际的实时视频通信需求设定。

如图1所示，本发明实施例提供的实时视频通信方法，包括：

步骤101，源终端获取视频数据和音频数据，并通过视联网将该视频数据和音频数据发送给人工智能(Artificial Intelligence，AI)服务器。

在本实施例中，源终端可以通过摄像头获取视频数据，通过麦克风获取音频数据。另外，步骤101所述的视频数据和音频数据为参与实时视频通信的用户所产生的。

步骤102，AI服务器获取音频数据的语音识别结果。

在本实施例中，AI服务器可以通过两种方法获取音频数据的语音识别结果。

其中，一种是：AI服务器将音频数据发送给语音识别服务器，并接收语音识别服务器返回的语音识别结果，其中，语音识别服务器为实时在线语音识别服务器。

通过语音识别服务器可以达到实时语音识别的目的，从而可以减小语音识别过程造成的通信延迟，并且，由于语音识别服务器具有大数据存储和处理，以及自学习能理，使得语音识别结果更准确。

另一种是：如图2所示，步骤102包括：

步骤201，源终端在获取音频数据的同时，对音频数据进行语音识别，获取语音识别结果。

在本实施例中，源终端上可以预先设置语音识别模块，当源终端获取语音频数据时，后台可以启动语音识别模块对该音频数据进行实时语音识别，从而获取语音识别结果。

步骤202，AI服务器获取源终端发送的语音识别结果。

通过以上如图2所示的步骤，可以进一步减小语音识别过程造成的通信延迟，进而保证实时视频通信的实时性，提高用户的使用体验。

步骤103，AI服务器将视频数据、音频数据以语音识别结果封装成一路媒体数据发送给目标终端。

步骤104，目标终端接收媒体数据，对媒体数据进行解析，显示视频数据、音频数据以及语音识别结果。

为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案，下面以本发明实施例应用在实时视频会议领域为例进行说明。

实施例一

实时视频会议包括三个用户，分别为用户1、用户2和用户3，其中，用户1通过视联网终端1进行通信，用户2通过视联网终端2进行通信，用户3通过视联网终端3进行通信；用户1、用户2和用户3使用语言均为中文；用户1为信息发送者，即视联网终端1为源终端，用户2和用户3为信息接收者，即视联网终端2和视联网终端3为目标终端；语音识别通过语音识别服务器完成。

如图3所示，本发明实施例提供的实时视频通信方法，包括：

步骤301，视联网终端1获取用户1的视频数据和音频数据，将该视频数据和音频数据发送给AI服务器。

步骤302，AI服务器将用户1的音频数据发送给语音识别服务器，语音识别服务器对其进行解析，获取语音识别结果，并将语音识别结果返回给AI服务器。

步骤303，AI服务器将用户1的视频数据、音频数据以及语音识别结果封装成一路媒体数据分别发送给视联网终端2和视联网终端3。

步骤304，视联网终端2和视联网终端3分别接收到媒体数据，并对其进行解析、显示。

通过实施例一提供的技术方案，可以实现实时视频通信过程中，对音频数据进行语音识别，并将语音识别结果连同视频数据和音频数据一起封装成一路媒体数据发送给目标终端，使得目标终端可以在接收到该媒体数据以后显示视频数据、音频数据和音频数据的语音识别结果，本发明提供的技术方案不仅仅提供数据传输功能，还对数据进行了相应的语音识别处理，虽然，只是在视频通信过程中增加显示了音频数据的语音识别结果，但是这对于实时视频通信的作用是巨大的，由于可以显示语音识别结果，使得用户可以根据需求显示对应的内容，相当于提供给用户一个与实时视频通信相关的附加输出物，从而提高了用户的使用体验，解决了现有实时视频通信技术只能提供单一的数据传输功能，无法满足用户多样化的使用需求的问题。

实施例二

实时视频会议包括三个用户，分别为用户1、用户2和用户3，其中，用户1通过视联网终端1进行通信，用户2通过视联网终端2进行通信，用户3通过视联网终端3进行通信；用户1使用的语言为中文，用户2和用户3使用语言均为英文；用户1为信息发送者，即视联网终端1为源终端，用户2和用户3为信息接收者，即视联网终端2和视联网终端3为目标终端；语音识别通过语音识别服务器完成；AI服务器预先设置英文为目标语种。

如图4所示，本发明实施例提供的实时视频通信方法，包括：

步骤401，视联网终端1获取用户1的视频数据和音频数据，将该视频数据和音频数据发送给AI服务器。

步骤402，AI服务器获取目标语种信息，该目标语种信息指示的目标语种为英文。

步骤403，AI服务器根据目标语种信息向语音识别服务器发送用户1的音频数据，并指示目标语种为英文。

步骤404，语音识别服务器对音频数据进行语音识别，获取中文语音识别结果，根据目标语种为英文的指示，将中文语音识别结果进行翻译，生成英文语音识别结果为所示音频数据的语音识别结果，将该语音识别结果返回给AI服务器。

步骤405，AI服务器将用户1的视频数据、音频数据以及语音识别结果封装成一路媒体数据分别发送给视联网终端2和视联网终端3。

步骤406，视联网终端2和视联网终端3分别接收到媒体数据，并对其进行解析、显示。

实施例三

实时视频会议包括三个用户，分别为用户1、用户2和用户3，其中，用户1通过视联网终端1进行通信，用户2通过视联网终端2进行通信，用户3通过视联网终端3进行通信；用户1使用的语言为中文，用户2使用的语言为日文，用户3使用语言为英文；用户1为信息发送者，即视联网终端1为源终端，用户2和用户3为信息接收者，即视联网终端2和视联网终端3为目标终端；语音识别通过语音识别服务器完成。

如图5所示，本发明实施例提供的实时视频通信方法，包括：

步骤501，视联网终端1获取用户1的视频数据和音频数据，将该视频数据和音频数据发送给AI服务器。

步骤502，视联网终端2和视联网终端3分别向AI服务器发送目标语种请求。

步骤503，AI服务器分别对视联网终端2和视联网终端3发送的目标语种请求进行解析，获取视联网终端2的目标语种信息为日文，视联网终端3的目标语种信息为英文。

步骤504，AI服务器根据目标语种信息向语音识别服务器发送用户1的音频数据，并指示目标语种为日文和英文。

步骤505，语音识别服务器对音频数据进行语音识别，获取中文语音识别结果，根据目标语种为日文和英文的指示，将中文语音识别结果进行翻译，生成日文语音识别结果为所述音频数据的第一语音识别结果，生成英文语音识别结果为所述音频数据的第二语音识别结果，将第一语音识别结果和第二语音识别结果返回给AI服务器。

步骤506，AI服务器将用户1的视频数据、音频数据以及第一语音识别结果封装成一路第一媒体数据发送给视联网终端2，将用户1的视频数据、音频数据以及第二语音识别结果封装成一路第二媒体数据发送给视联网终端3。

步骤507，视联网终端2接收第一媒体数据，并对其进行解析、显示，视联网终端3接收第二媒体数据，并对其进行解析、显示。

通过实施例二和实施例三提供的技术方案，不仅可以达到实施例一提供的所有效果，进一步地，解决了实时视频通信过程中由于语言不同而造成无法正常沟通的问题，进一步提升了用户的使用体验。

如图6所示，本发明另一实施例还提供一种实时视频通信***，包括：

源终端601，用于视频数据和音频数据，并通过视联网将所述视频数据和音频数据发送给AI服务器602；

所述AI服务器602，用于获取所述音频数据的语音识别结果，将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端603；

所述目标终端603，用于接收所述媒体数据，对所述媒体数据进行解析，显示所述视频数据、所述音频数据以及所述语音识别结果。

进一步地，如图7所示，本发明实施例提供的实时视频通信***，还包括：

语音识别服务器604，用于接收所述AI服务器602发送的所述音频数据，对所述音频数据进行语音识别，获取语音识别结果，讲所述语音识别结果发送给所述AI服务器602。

进一步地，所述AI服务器602，还用于获取目标语种信息，根据所述目标语种信息获取所述音频数据的语音识别结果。

进一步地，所述AI服务器602，还用于接收所述目标终端603发送的目标语种请求，从所述目标语种请求中获取所述目标语种信息；

所述目标终端603，还用于向所述AI服务器602发送所述目标语种请求。

本发明实施例提供的实时视频通信***其具体的实现方法可以参见本发明实施例提供的实时视频通信方法所述，此处不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种图片调用方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实时视频通信方法，其特征在于，包括：

源终端获取视频数据和音频数据，并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器；

所述AI服务器获取所述音频数据的语音识别结果；

所述AI服务器将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端；

所述目标终端接收所述媒体数据，对所述媒体数据进行解析，显示所述视频数据、所述音频数据以及所述语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述AI服务器获取所述音频数据的语音识别结果包括：

3.根据权利要求1所述的方法，其特征在于，所述AI服务器获取所述音频数据的语音识别结果包括：

所述源终端在获取所述音频数据的同时，对所述音频数据进行语音识别，获取所述语音识别结果；

所述AI服务器获取所述源终端发送的所述语音识别结果。

4.根据权利要求1所述的方法，其特征在于，所述AI服务器获取所述音频数据的语音识别结果包括：

所述AI服务器获取目标语种信息；

所述AI服务器根据所述目标语种信息，获取所述音频数据的语音识别结果。

5.根据权利要求4所述的方法，其特征在于，所述AI服务器获取目标语种信息包括：

所述AI服务器根据预先获取的用户信息获取目标语种信息。

6.根据权利要求4所述的方法，其特征在于，所述AI服务器获取目标语种信息包括：

所述目标终端向AI服务器发送目标语种请求；

所述AI服务器从所述目标语种请求中获取所述目标语种信息。

7.一种实时视频通信***，其特征在于，包括：

所述AI服务器，用于获取所述音频数据的语音识别结果，将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端；

8.根据权利要求7所述的***，其特征在于，还包括：

9.根据权利要求7所述的***，其特征在于，

所述AI服务器，还用于获取目标语种信息，根据所述目标语种信息获取所述音频数据的语音识别结果。

10.根据权利要求7所述的***，其特征在于，

所述AI服务器，还用于接收所述目标终端发送的目标语种请求，从所述目标语种请求中获取所述目标语种信息；