CN109698962A - 实时视频通信方法和*** - Google Patents

实时视频通信方法和*** Download PDF

Info

Publication number
CN109698962A
CN109698962A CN201811506779.9A CN201811506779A CN109698962A CN 109698962 A CN109698962 A CN 109698962A CN 201811506779 A CN201811506779 A CN 201811506779A CN 109698962 A CN109698962 A CN 109698962A
Authority
CN
China
Prior art keywords
server
speech recognition
audio data
data
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811506779.9A
Other languages
English (en)
Inventor
蔡耀
韩杰
安君超
卢燕青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Visionvera Information Technology Co Ltd
Original Assignee
Visionvera Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visionvera Information Technology Co Ltd filed Critical Visionvera Information Technology Co Ltd
Priority to CN201811506779.9A priority Critical patent/CN109698962A/zh
Publication of CN109698962A publication Critical patent/CN109698962A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

发明实施例提供了一种实时视频通信方法和***,涉及通信领域,为解决现有实时视频通信技术功能单一,无法满足用户多样化的使用需求的问题而发明。其中,方法包括:源终端获取视频数据和音频数据,并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器;所述AI服务器获取所述音频数据的语音识别结果;所述AI服务器将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端;所述目标终端接收所述媒体数据,对所述媒体数据进行解析,显示所述视频数据、所述音频数据以及所述语音识别结果。本实施例提供的技术方案可以应用在视联网领域中。

Description

实时视频通信方法和***
技术领域
本发明实施例涉及通信领域,尤其涉及一种实时视频通信方法和***。
背景技术
视联网是网络发展的重要里程碑,是互联网的更高级形态,是一个实时网络,能够实现目前互联网无法实现的全网高清视频实时传输,将众多互联网应用推向高清视频化,高清面对面。
实时视频通信是视联网的一个重要应用场景,在现有技术中,实时视频通信的方法包括:发送端采集用户的视频数据和音频数据,通过视联网发送到视联网服务器,视联网服务器通过会议调度***将视频数据和音频数据发送给各个接收端,接收端接收并显示接收到的视频数据和音频数据。
在实现本发明的过程中,发明人发现,现有技术提供的实时视频通信方法只能简单地进行视频数据和音频数据的实时传输,无法满足用户的其他需求,使得用户的使用体验差。
发明内容
本发明实施例提供一种实时视频通信方法和***,以解决现有实时视频通信技术功能单一,无法满足用户多样化的使用需求的问题。
为了解决上述问题,本发明公开了一种实时视频通信方法,包括:源终端获取视频数据和音频数据,并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器;所述AI服务器获取所述音频数据的语音识别结果;所述AI服务器将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端;所述目标终端接收所述媒体数据,对所述媒体数据进行解析,显示所述视频数据、所述音频数据以及所述语音识别结果。
进一步地,所述AI服务器获取所述音频数据的语音识别结果包括:
所述AI服务器将所述音频数据发送给语音识别服务器,并接收所述语音识别服务器返回的语音识别结果,其中,所述语音识别服务器为实时在线语音识别服务器。
进一步地,所述AI服务器获取所述音频数据的语音识别结果包括:所述源终端在获取所述音频数据的同时,对所述音频数据进行语音识别,获取所述语音识别结果;所述AI服务器获取所述源终端发送的所述语音识别结果。
进一步地,所述AI服务器获取所述音频数据的语音识别结果包括:所述AI服务器获取目标语种信息;所述AI服务器根据所述目标语种信息,获取所述音频数据的语音识别结果。
进一步地,所述AI服务器获取目标语种信息包括:所述AI服务器根据预先获取的用户信息获取目标语种信息。
进一步地,所述AI服务器获取目标语种信息包括:所述目标终端向AI服务器发送目标语种请求;所述AI服务器从所述目标语种请求中获取所述目标语种信息。
另一方面,为了解决上述问题,本发明公开了一种实时视频通信***,包括:
源终端,用于视频数据和音频数据,并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器;
所述AI服务器,用于获取所述音频数据的语音识别结果,所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端;
所述目标终端,用于接收所述媒体数据,对所述媒体数据进行解析,显示所述视频数据、所述音频数据以及所述语音识别结果。
进一步地,所述实时视频通信***,还包括:
语音识别服务器,用于接收所述AI服务器发送的所述音频数据,对所述音频数据进行语音识别,获取语音识别结果,讲所述语音识别结果发送给所述AI服务器。
进一步地,所述AI服务器,还用于获取目标语种信息,根据所述目标语种信息获取所述音频数据的语音识别结果。
进一步地,所述AI服务器,还用于接收所述目标终端发送的目标语种请求,从所述目标语种请求中获取所述目标语种信息;
所述目标终端,还用于向所述AI服务器发送所述目标语种请求。
与现有技术相比,本发明中的技术方案,在实时视频通信过程中,可以对音频数据进行语音识别,并将语音识别结果连同视频数据和音频数据一起封装成一路媒体数据发送给目标终端,使得目标终端可以在接收到该媒体数据以后显示视频数据、音频数据和音频数据的语音识别结果,本发明提供的技术方案不仅仅提供数据传输功能,还对数据进行了相应的语音识别处理,虽然,只是在视频通信过程中增加显示了音频数据的语音识别结果,但是这对于实时视频通信的作用是巨大的,由于可以显示语音识别结果,使得用户可以根据需求显示对应的内容,相当于提供给用户一个与实时视频通信相关的附加输出物,从而提高了用户的使用体验,解决了现有实时视频通信技术只能提供单一的数据传输功能,无法满足用户多样化的使用需求的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的实时视频通信方法的流程图;
图2是图1所示的本发明实施例提供的实时视频通信方法中步骤102的流程图;
图3是本发明实施例一提供的实时视频通信方法的流程图;
图4是本发明实施例二提供的实时视频通信方法的流程图;
图5是本发明实施例三提供的实时视频通信方法的流程图;
图6是本发明另一实施例提供的实时视频通信***的结构示意图一;
图7是本发明另一实施例提供的实时视频通信***的结构示意图二。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了解决现有实时视频通信技术功能单一,无法满足用户多样化的使用需求的问题,本发明实施例提供一种实时视频通信方法和***。
需要说明的是,本发明实施例提供的实时视频通信方法和***,应用在视联网领域中,用以实现用户之间的视频通信功能。
为了使本领域技术人员能够更清楚的理解以下实施例提供的技术方案,需要说明的是,以下所述的源终端为实时视频通信过程中的发送端,目标终端为实时视频通信过程中的接收端,源终端和目标终端可以为两个相互独立的视联网终端设备,也可以为同一个视联网终端设备。另外,再以下的实施例中,并不对源终端和目标中的个数进行限定,源终端和目标终端的个数根据实际的实时视频通信需求设定。
如图1所示,本发明实施例提供的实时视频通信方法,包括:
步骤101,源终端获取视频数据和音频数据,并通过视联网将该视频数据和音频数据发送给人工智能(Artificial Intelligence,AI)服务器。
在本实施例中,源终端可以通过摄像头获取视频数据,通过麦克风获取音频数据。另外,步骤101所述的视频数据和音频数据为参与实时视频通信的用户所产生的。
步骤102,AI服务器获取音频数据的语音识别结果。
在本实施例中,AI服务器可以通过两种方法获取音频数据的语音识别结果。
其中,一种是:AI服务器将音频数据发送给语音识别服务器,并接收语音识别服务器返回的语音识别结果,其中,语音识别服务器为实时在线语音识别服务器。
通过语音识别服务器可以达到实时语音识别的目的,从而可以减小语音识别过程造成的通信延迟,并且,由于语音识别服务器具有大数据存储和处理,以及自学习能理,使得语音识别结果更准确。
另一种是:如图2所示,步骤102包括:
步骤201,源终端在获取音频数据的同时,对音频数据进行语音识别,获取语音识别结果。
在本实施例中,源终端上可以预先设置语音识别模块,当源终端获取语音频数据时,后台可以启动语音识别模块对该音频数据进行实时语音识别,从而获取语音识别结果。
步骤202,AI服务器获取源终端发送的语音识别结果。
通过以上如图2所示的步骤,可以进一步减小语音识别过程造成的通信延迟,进而保证实时视频通信的实时性,提高用户的使用体验。
步骤103,AI服务器将视频数据、音频数据以语音识别结果封装成一路媒体数据发送给目标终端。
步骤104,目标终端接收媒体数据,对媒体数据进行解析,显示视频数据、音频数据以及语音识别结果。
与现有技术相比,本发明中的技术方案,在实时视频通信过程中,可以对音频数据进行语音识别,并将语音识别结果连同视频数据和音频数据一起封装成一路媒体数据发送给目标终端,使得目标终端可以在接收到该媒体数据以后显示视频数据、音频数据和音频数据的语音识别结果,本发明提供的技术方案不仅仅提供数据传输功能,还对数据进行了相应的语音识别处理,虽然,只是在视频通信过程中增加显示了音频数据的语音识别结果,但是这对于实时视频通信的作用是巨大的,由于可以显示语音识别结果,使得用户可以根据需求显示对应的内容,相当于提供给用户一个与实时视频通信相关的附加输出物,从而提高了用户的使用体验,解决了现有实时视频通信技术只能提供单一的数据传输功能,无法满足用户多样化的使用需求的问题。
为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案,下面以本发明实施例应用在实时视频会议领域为例进行说明。
实施例一
实时视频会议包括三个用户,分别为用户1、用户2和用户3,其中,用户1通过视联网终端1进行通信,用户2通过视联网终端2进行通信,用户3通过视联网终端3进行通信;用户1、用户2和用户3使用语言均为中文;用户1为信息发送者,即视联网终端1为源终端,用户2和用户3为信息接收者,即视联网终端2和视联网终端3为目标终端;语音识别通过语音识别服务器完成。
如图3所示,本发明实施例提供的实时视频通信方法,包括:
步骤301,视联网终端1获取用户1的视频数据和音频数据,将该视频数据和音频数据发送给AI服务器。
步骤302,AI服务器将用户1的音频数据发送给语音识别服务器,语音识别服务器对其进行解析,获取语音识别结果,并将语音识别结果返回给AI服务器。
步骤303,AI服务器将用户1的视频数据、音频数据以及语音识别结果封装成一路媒体数据分别发送给视联网终端2和视联网终端3。
步骤304,视联网终端2和视联网终端3分别接收到媒体数据,并对其进行解析、显示。
通过实施例一提供的技术方案,可以实现实时视频通信过程中,对音频数据进行语音识别,并将语音识别结果连同视频数据和音频数据一起封装成一路媒体数据发送给目标终端,使得目标终端可以在接收到该媒体数据以后显示视频数据、音频数据和音频数据的语音识别结果,本发明提供的技术方案不仅仅提供数据传输功能,还对数据进行了相应的语音识别处理,虽然,只是在视频通信过程中增加显示了音频数据的语音识别结果,但是这对于实时视频通信的作用是巨大的,由于可以显示语音识别结果,使得用户可以根据需求显示对应的内容,相当于提供给用户一个与实时视频通信相关的附加输出物,从而提高了用户的使用体验,解决了现有实时视频通信技术只能提供单一的数据传输功能,无法满足用户多样化的使用需求的问题。
实施例二
实时视频会议包括三个用户,分别为用户1、用户2和用户3,其中,用户1通过视联网终端1进行通信,用户2通过视联网终端2进行通信,用户3通过视联网终端3进行通信;用户1使用的语言为中文,用户2和用户3使用语言均为英文;用户1为信息发送者,即视联网终端1为源终端,用户2和用户3为信息接收者,即视联网终端2和视联网终端3为目标终端;语音识别通过语音识别服务器完成;AI服务器预先设置英文为目标语种。
如图4所示,本发明实施例提供的实时视频通信方法,包括:
步骤401,视联网终端1获取用户1的视频数据和音频数据,将该视频数据和音频数据发送给AI服务器。
步骤402,AI服务器获取目标语种信息,该目标语种信息指示的目标语种为英文。
步骤403,AI服务器根据目标语种信息向语音识别服务器发送用户1的音频数据,并指示目标语种为英文。
步骤404,语音识别服务器对音频数据进行语音识别,获取中文语音识别结果,根据目标语种为英文的指示,将中文语音识别结果进行翻译,生成英文语音识别结果为所示音频数据的语音识别结果,将该语音识别结果返回给AI服务器。
步骤405,AI服务器将用户1的视频数据、音频数据以及语音识别结果封装成一路媒体数据分别发送给视联网终端2和视联网终端3。
步骤406,视联网终端2和视联网终端3分别接收到媒体数据,并对其进行解析、显示。
实施例三
实时视频会议包括三个用户,分别为用户1、用户2和用户3,其中,用户1通过视联网终端1进行通信,用户2通过视联网终端2进行通信,用户3通过视联网终端3进行通信;用户1使用的语言为中文,用户2使用的语言为日文,用户3使用语言为英文;用户1为信息发送者,即视联网终端1为源终端,用户2和用户3为信息接收者,即视联网终端2和视联网终端3为目标终端;语音识别通过语音识别服务器完成。
如图5所示,本发明实施例提供的实时视频通信方法,包括:
步骤501,视联网终端1获取用户1的视频数据和音频数据,将该视频数据和音频数据发送给AI服务器。
步骤502,视联网终端2和视联网终端3分别向AI服务器发送目标语种请求。
步骤503,AI服务器分别对视联网终端2和视联网终端3发送的目标语种请求进行解析,获取视联网终端2的目标语种信息为日文,视联网终端3的目标语种信息为英文。
步骤504,AI服务器根据目标语种信息向语音识别服务器发送用户1的音频数据,并指示目标语种为日文和英文。
步骤505,语音识别服务器对音频数据进行语音识别,获取中文语音识别结果,根据目标语种为日文和英文的指示,将中文语音识别结果进行翻译,生成日文语音识别结果为所述音频数据的第一语音识别结果,生成英文语音识别结果为所述音频数据的第二语音识别结果,将第一语音识别结果和第二语音识别结果返回给AI服务器。
步骤506,AI服务器将用户1的视频数据、音频数据以及第一语音识别结果封装成一路第一媒体数据发送给视联网终端2,将用户1的视频数据、音频数据以及第二语音识别结果封装成一路第二媒体数据发送给视联网终端3。
步骤507,视联网终端2接收第一媒体数据,并对其进行解析、显示,视联网终端3接收第二媒体数据,并对其进行解析、显示。
通过实施例二和实施例三提供的技术方案,不仅可以达到实施例一提供的所有效果,进一步地,解决了实时视频通信过程中由于语言不同而造成无法正常沟通的问题,进一步提升了用户的使用体验。
如图6所示,本发明另一实施例还提供一种实时视频通信***,包括:
源终端601,用于视频数据和音频数据,并通过视联网将所述视频数据和音频数据发送给AI服务器602;
所述AI服务器602,用于获取所述音频数据的语音识别结果,将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端603;
所述目标终端603,用于接收所述媒体数据,对所述媒体数据进行解析,显示所述视频数据、所述音频数据以及所述语音识别结果。
进一步地,如图7所示,本发明实施例提供的实时视频通信***,还包括:
语音识别服务器604,用于接收所述AI服务器602发送的所述音频数据,对所述音频数据进行语音识别,获取语音识别结果,讲所述语音识别结果发送给所述AI服务器602。
进一步地,所述AI服务器602,还用于获取目标语种信息,根据所述目标语种信息获取所述音频数据的语音识别结果。
进一步地,所述AI服务器602,还用于接收所述目标终端603发送的目标语种请求,从所述目标语种请求中获取所述目标语种信息;
所述目标终端603,还用于向所述AI服务器602发送所述目标语种请求。
本发明实施例提供的实时视频通信***其具体的实现方法可以参见本发明实施例提供的实时视频通信方法所述,此处不再赘述。
与现有技术相比,本发明中的技术方案,在实时视频通信过程中,可以对音频数据进行语音识别,并将语音识别结果连同视频数据和音频数据一起封装成一路媒体数据发送给目标终端,使得目标终端可以在接收到该媒体数据以后显示视频数据、音频数据和音频数据的语音识别结果,本发明提供的技术方案不仅仅提供数据传输功能,还对数据进行了相应的语音识别处理,虽然,只是在视频通信过程中增加显示了音频数据的语音识别结果,但是这对于实时视频通信的作用是巨大的,由于可以显示语音识别结果,使得用户可以根据需求显示对应的内容,相当于提供给用户一个与实时视频通信相关的附加输出物,从而提高了用户的使用体验,解决了现有实时视频通信技术只能提供单一的数据传输功能,无法满足用户多样化的使用需求的问题。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种图片调用方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种实时视频通信方法,其特征在于,包括:
源终端获取视频数据和音频数据,并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器;
所述AI服务器获取所述音频数据的语音识别结果;
所述AI服务器将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端;
所述目标终端接收所述媒体数据,对所述媒体数据进行解析,显示所述视频数据、所述音频数据以及所述语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述AI服务器获取所述音频数据的语音识别结果包括:
所述AI服务器将所述音频数据发送给语音识别服务器,并接收所述语音识别服务器返回的语音识别结果,其中,所述语音识别服务器为实时在线语音识别服务器。
3.根据权利要求1所述的方法,其特征在于,所述AI服务器获取所述音频数据的语音识别结果包括:
所述源终端在获取所述音频数据的同时,对所述音频数据进行语音识别,获取所述语音识别结果;
所述AI服务器获取所述源终端发送的所述语音识别结果。
4.根据权利要求1所述的方法,其特征在于,所述AI服务器获取所述音频数据的语音识别结果包括:
所述AI服务器获取目标语种信息;
所述AI服务器根据所述目标语种信息,获取所述音频数据的语音识别结果。
5.根据权利要求4所述的方法,其特征在于,所述AI服务器获取目标语种信息包括:
所述AI服务器根据预先获取的用户信息获取目标语种信息。
6.根据权利要求4所述的方法,其特征在于,所述AI服务器获取目标语种信息包括:
所述目标终端向AI服务器发送目标语种请求;
所述AI服务器从所述目标语种请求中获取所述目标语种信息。
7.一种实时视频通信***,其特征在于,包括:
源终端,用于视频数据和音频数据,并通过视联网将所述视频数据和音频数据发送给人工智能AI服务器;
所述AI服务器,用于获取所述音频数据的语音识别结果,将所述视频数据、所述音频数据以及所述语音识别结果封装成一路媒体数据发送给目标终端;
所述目标终端,用于接收所述媒体数据,对所述媒体数据进行解析,显示所述视频数据、所述音频数据以及所述语音识别结果。
8.根据权利要求7所述的***,其特征在于,还包括:
语音识别服务器,用于接收所述AI服务器发送的所述音频数据,对所述音频数据进行语音识别,获取语音识别结果,讲所述语音识别结果发送给所述AI服务器。
9.根据权利要求7所述的***,其特征在于,
所述AI服务器,还用于获取目标语种信息,根据所述目标语种信息获取所述音频数据的语音识别结果。
10.根据权利要求7所述的***,其特征在于,
所述AI服务器,还用于接收所述目标终端发送的目标语种请求,从所述目标语种请求中获取所述目标语种信息;
所述目标终端,还用于向所述AI服务器发送所述目标语种请求。
CN201811506779.9A 2018-12-10 2018-12-10 实时视频通信方法和*** Pending CN109698962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811506779.9A CN109698962A (zh) 2018-12-10 2018-12-10 实时视频通信方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811506779.9A CN109698962A (zh) 2018-12-10 2018-12-10 实时视频通信方法和***

Publications (1)

Publication Number Publication Date
CN109698962A true CN109698962A (zh) 2019-04-30

Family

ID=66230458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811506779.9A Pending CN109698962A (zh) 2018-12-10 2018-12-10 实时视频通信方法和***

Country Status (1)

Country Link
CN (1) CN109698962A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150181161A1 (en) * 2013-12-23 2015-06-25 Lenovo (Beijing) Co., Ltd. Information Processing Method And Information Processing Apparatus
CN107146623A (zh) * 2017-04-07 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置和***
US20170270948A1 (en) * 2014-07-22 2017-09-21 Zte Corporation Method and device for realizing voice message visualization service
CN108063722A (zh) * 2017-12-20 2018-05-22 北京时代脉搏信息技术有限公司 视频数据生成方法、计算机可读存储介质和电子设备
CN108574689A (zh) * 2017-11-20 2018-09-25 北京视联动力国际信息技术有限公司 一种可视通话的方法和装置
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、***、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150181161A1 (en) * 2013-12-23 2015-06-25 Lenovo (Beijing) Co., Ltd. Information Processing Method And Information Processing Apparatus
US20170270948A1 (en) * 2014-07-22 2017-09-21 Zte Corporation Method and device for realizing voice message visualization service
CN107146623A (zh) * 2017-04-07 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置和***
CN108574689A (zh) * 2017-11-20 2018-09-25 北京视联动力国际信息技术有限公司 一种可视通话的方法和装置
CN108063722A (zh) * 2017-12-20 2018-05-22 北京时代脉搏信息技术有限公司 视频数据生成方法、计算机可读存储介质和电子设备
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、***、存储介质

Similar Documents

Publication Publication Date Title
US9749196B2 (en) Method and device for conference reservation
CA2993704C (en) Voice command processing for conferencing
US20160241494A1 (en) System and method for topic based segregation in instant messaging
CN104639777A (zh) 一种会议控制方法、装置及会议***
CN110418098B (zh) 一种视联网会议的开启方法和装置
CN103346953B (zh) 一种群组通讯数据交互的方法、装置及***
WO2020088209A1 (zh) 会话控制方法及卫星地面站
EP2924985A1 (en) Low-bit-rate video conference system and method, sending end device, and receiving end device
CN108696899A (zh) Sip消息传输与接收方法及传输与接收装置
CN103248654B (zh) 虚拟桌面服务参数的协商方法、装置及***
EP3040877A1 (en) Method and system for processing associated content
CN113949596B (zh) 一种设备连接方法、装置、设备以及存储介质
CN110113298A (zh) 数据传输方法、装置、信令服务器和计算机可读介质
CN109698962A (zh) 实时视频通信方法和***
CN111212043A (zh) 一种多媒体文件的生成方法和装置
CN110442698A (zh) 对话内容生成方法及***
CN110198326A (zh) 一种视联网会议预约消息推送方法、装置及***
US11581007B2 (en) Preventing audio delay-induced miscommunication in audio/video conferences
US9059860B2 (en) Techniques for announcing conference attendance changes in multiple languages
CN110225287A (zh) 音频处理方法及装置
US11431855B1 (en) Encoder pools for conferenced communications
CN110401809B (zh) 一种强制停止视联网会议的方法及装置
US10313405B2 (en) Dynamically configured conferencing
CN106341737B (zh) Ip组播流处理方法、交换机组、服务器及***
Kum et al. A Service Management Method for Distributed Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190430