CN116320175A - 通话过程中实现同声传译的方法、***及存储介质 - Google Patents
通话过程中实现同声传译的方法、***及存储介质 Download PDFInfo
- Publication number
- CN116320175A CN116320175A CN202110929389.8A CN202110929389A CN116320175A CN 116320175 A CN116320175 A CN 116320175A CN 202110929389 A CN202110929389 A CN 202110929389A CN 116320175 A CN116320175 A CN 116320175A
- Authority
- CN
- China
- Prior art keywords
- media
- call
- terminal
- application
- simultaneous interpretation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000008569 process Effects 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 16
- 238000004873 anchoring Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 11
- 210000001503 joint Anatomy 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 230000011664 signaling Effects 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/58—Arrangements for transferring received calls from one subscriber to another; Arrangements affording interim conversations between either the calling or the called party and a third party
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/10—Architectures or entities
- H04L65/1016—IP multimedia subsystem [IMS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种通话过程中实现同声传译的方法、***及存储介质。本申请在网络侧建立数据通道和新的媒体通道,通过数据通道接收同声传译请求,并将点对点音视频通话媒体锚定至新的媒体通道,对语音媒体流进行识别并翻译为目标语言,实现网络侧同声传译,因此,本申请实施例能够在通话过程中网络侧实现同声传译,无需多方人工参与通话或终端侧的语音识别应用的支持即可实现不同语言的一方或多方之间自由通话。
Description
技术领域
本申请涉及但不限于通信技术领域,尤其是一种通话过程中实现同声传译的方法、***及存储介质。
背景技术
在传统通话业务场景中,主叫终端和被叫终端之间仅建立的是点对点的音视频媒体通道,无法实现通话之外的同步交互场景,如果需要在通话过程中实现同声传译,通常需要第三方的多方通话参与,或者是在终端侧通过语音识别应用,对通话内容识别、翻译等方式实现。
当用户在国外旅行时电话订票、改签、订餐等,或者与商务客户进行技术交流,或者在国外紧急呼叫等常见的需要同声传译的场景,会因为没能及时得到第三方的通话支持或者终端上没有相应的语音识别应用而难以进行通话交流,给用户带来了极大的不便。
发明内容
本申请实施例提供了一种通话过程中网络侧实现的同声传译方法,能够在网络侧实现同声传译,为用户提供便利。
第一方面,本申请实施例提供了一种通话过程中实现同声传译的方法,所述方法包括:
根据接收到的通话请求,建立数据通道;
接收终端通过所述数据通道发起的同声传译请求;
将通话媒体锚定至新的媒体通道;
执行同声传译业务;
将所述同声传译业务的处理结果通过所述数据通道发送至终端。
第二方面,本申请实施例还提供了一种通话过程中实现同声传译的***,所述***包括:包括接入控制实体、呼叫应用服务器、业务应用服务器、媒体资源服务器以及应用实体;
所述接入控制实体分别与终端和所述媒体资源服务器建立通道;
所述呼叫应用服务器分别对接所述业务应用服务器、所述媒体资源服务器以及所述应用实体;
所述业务应用服务器与所述呼叫应用服务器和所述应用实体进行信令交互,所述业务应用服务器与所述媒体资源服务器和所述应用实体进行数据传递;
所述媒体资源服务器对接所述应用实体,用于转发应用数据。
第三方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上所述的第一方面所述的方法。
本申请实施例在主叫终端和被叫终端之间进行音视频通话过程中,通过数据通道接收同声传译的请求,并通过将点对点音视频通话媒体锚定至新的媒体通道,将语音媒体流翻译为目标语言,实现网络侧同声传译,因此,本申请实施例能够在网络侧实现同声传译,无需多方人工参与通话或终端侧的语音识别应用的支持即可实现不同语言的一方或多方之间自由通话,为用户提供便利。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请一实施例的通话过程中实现同声传译的方法的流程图;
图2是本申请一实施例的建立数据通道的流程图;
图3是本申请一实施例的进行锚定操作的流程图;
图4是本申请一实施例的执行同声传译业务的流程图;
图5是本申请另一实施例的执行同声传译业务的流程图;
图6是本本申请一实施例的通话过程中实现同声传译的***的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
虽然本申请在附图中示出了逻辑顺序,但是在某些情况下,可以以不同于附图中的顺序执行所示出或描述的步骤。若说明书和权利要求书及上述附图中出现术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
IMS(IP Multimedia Subsystem,网络协议多媒体子***)是3GPP(ThirdGeneration Partnership Project,第三代合作伙伴计划)提出得支持IP多媒体业务的子***,是5G网络VoNR(Voice over New Radio)通话的必选方案。3GPP R16标准引入了IMS数据通道机制(Data Chanel),利用5G网络高带宽、低时延的特性实现了通话业务增强形态,具有高清、可视化、可交互的特征,为用户提供通话的同时,提供了新型交互式和沉浸式业务体验。
在此基础上,本申请提供了一种通话过程中实现同声传译的方法、***及存储介质,建立数据通道进行数据传输,引入新的媒体通道,并将点对点音视频通话媒体锚定到新的媒体通道,进行同声传译,以解决传统的点对点音视频媒体通道无法实现通话之外的同步交互场景的问题。本申请实施例实现了在通话过程中基于IMS网络侧的实时语音识别和同步翻译,同时将识别和翻译结果同步通过数据通道传递给终端,从而实现音视频呼叫的同声传译业务。
在本申请中,终端可以分为主叫终端和被叫终端,其中主叫终端用于表示发起呼叫的终端,被叫终端用于表示被呼叫的终端,并不能表示某一终端被限定为主叫终端或被叫终端。例如,当终端A向终端B发起通话,则终端A为主叫终端,终端B为被叫终端;当终端B向终端A发起通话,则终端B为主叫终端,终端A为被叫终端。
下面结合附图,对本申请实施例作详细阐述。
图1是本申请一个实施例的通话过程中实现同声传译的方法的流程图,如图1所示,方法至少包括:
步骤S100:根据接收到的通话请求,建立数据通道;
步骤S200:接收终端通过数据通道发起的同声传译请求;
步骤S300:将通话媒体锚定至新的媒体通道;
步骤S400:执行同声传译业务;
步骤S500:将同声传译业务的处理结果通过数据通道发送至终端。
当接收到终端的通话请求,如终端A要向终端B发起通话,则根据通话请求,建立数据通道,如分别建立通向终端A和终端B的数据通道。对应地,接收来自终端通过数据通道发起的同声传译请求,应当想到的是,主叫终端可以通过数据通道发起同声传译请求,被叫终端也可以数据通道发起同声传译请求,例如,用户A使用终端A向用户B的终端B通话的过程中,用户A可以使用终端A发起同声传译请求,用户B也可以使用终端B发起同声传译请求。接收到同声传译请求后,将通话媒体锚定至新的媒体通道,即从传统的点对点音视频媒体通道中移出,采用另一新的媒体通道,以避免点对点音视频媒体通道只能进行通话的限制,从而进行同声传译业务,再将同声传译业务的处理结果通过数据通道发送至终端,其中,同声传译业务的处理结果包括但不限于翻译的结果,例如,用户A通过终端A发起的同声传译请求,则将同声传译业务的处理结果发送至终端A。
本申请实施例可在网络侧实现同声传译,通过建立新的媒体通道,将通话媒体锚定至新的媒体通道,并通过数据通道可以实现同声传译,使得不同语言的一方或多方自由通话,为用户提供便利。
在本申请一些实施例中,在建立数据通道之前,还对终端的呼叫状态进行订阅,终端的呼叫状态包括主动呼叫和被动呼叫,进行主动呼叫的终端为主叫终端,被动呼叫的终端为被叫终端。订阅终端的呼叫状态,可以获悉终端当前的呼叫状态,当终端发起通话请求,可以及时地根据通话请求建立数据通道,有助于加快建立数据通道。
图2示出了建立数据通道的流程图,如图2所示,方法至少包括:
步骤S110:接收来自终端的通话请求;
步骤S120:对终端的呼叫状态进行上报操作;
步骤S130:响应终端的呼叫状态并创建数据通道。
在本申请一些实施例中,对于数据通道的创建,进行如图2所示的流程,可以理解的是,终端A作为主叫终端发起通话请求,在接收到终端A的通话请求后,将终端A的呼叫状态(如处于主动呼叫状态)上报,对呼叫状态响应,创建通向终端A的数据通道。
图3是本申请一个实施例的锚定操作的流程图,如图3所示,将通话媒体锚定至新的媒体通道,至少包括:
步骤S310:申请媒体资源并创建新的媒体通道;
步骤S320:执行锚定操作将通话媒体锚定至媒体通道上。
为解决点对点音视频媒体通道无法实现出通话外的同步交互场景,提供了将通话媒体锚定至新的媒体通道的方法,通过申请媒体资源并创建新的媒体通道,进行锚定操作将通话媒体锚定在新的媒体通道上,使得终端可以通过新的媒体通道进行同声传译,而且,锚定至新的媒体通道上可以使终端和网络侧之间传输数据的安全性提高,有效防止信息泄露。
图4是本申请一个实施例的执行同声传译业务的流程图,如图4所示,执行同声传译业务至少包括:
步骤S410:对收到的语音媒体流进行语音识别;
步骤S420:将语音识别后的语音媒体流翻译为目标语言。
在执行同声传译业务的流程中对于接收到的语音媒体流进行语音识别,可以理解的是,终端A作为主叫终端与终端B通话,终端A发起同声传译请求,则对终端B发送的语音媒体流(该语音媒体流承载终端B的语音通话内容)进行与语音识别,如识别语言和语音的内容信息等,将识别后的语音翻译为目标语言,目标语言为发起同声请求的终端所选择的语言,例如,终端A选择中文作为目标语言,则将识别后的语音翻译为中文。
图5是本申请另一个实施例的执行同声传译业务的流程图,如图5所示,执行同声传译业务至少包括:
步骤S410:对收到的语音媒体流进行语音识别;
步骤S421:接收来自终端的语种信息;
步骤S422:根据语种信息对语音媒体流进行翻译。
将语音识别后的语音媒体流翻译为目标语言包括:接收来自终端的语种信息;根据语种信息对语音媒体流进行翻译。可以理解的是,以用户A使用终端A作为主叫终端与终端B通话,终端A发起同声传译请求为例,语种信息为用户A在终端A上选择的目标语言的语种,根据用户A通过终端A所选的语种信息对识别后的语音进行翻译。
在本申请一些实施例中,同声传译业务的处理结果包括但不限于识别和翻译结果,且同声传译业务的处理结果可以显示在终端上,如在终端的用户界面上显示,可以理解的是,从网络侧将同声传译业务的处理结果发送至终端,用户接收到处理结果后,处理结果可在终端上显示。
在本申请一些实施例中,同声传译业务的处理结果以字幕形式在终端上显示,可以理解的是,在对语音媒体流进行翻译后,重新发送至发起同声传译的终端的语音媒体流内包括了翻译后的译文,在终端接收到上述译文后,可以将译文以字幕形式显示,便于用户阅读和交流,为用户提供便利。显示的字幕可以采用滚动显示和固定显示的方式,滚动显示方式是对译文的显示是滚动显示并刷新的,如沿显示界面横向滚动;而固定显示方式则是将译文固定在某一位置显示并刷新的。
图6示出本申请一实施例的通话过程中实现同声传译的***,该***包括接入控制实体(SBC/P-CSCF,Session Border Controller/Proxy-Call Session ControlFunction)、呼叫应用服务器、业务应用服务器、媒体资源服务器以及应用实体,如图6所示,该***还包括会话控制实体(I/S-CSCF,Interrogating/Serving-Call Session ControlFunction)和归属用户服务器(HSS,Home Subscriber Server)。其中,终端与网络侧的***进行交互,为用户提供业务体验,终端与接入控制实体对接建立数据通道,终端与***进行数据通道的会话协商,可通过数据通道从***中接收数据,将数据在终端进行处理和界面呈现;或者将用户操作的数据从数据通道传递给***,实现具体的业务设置和逻辑设置。
接入控制实体为终端提供信令面和媒体面的接入,在本申请中,接入控制实体支持数据通道会话的协商,且作为数据通道的转发实体,分别与终端和媒体资源服务器建立媒体通道,如数据通道,实现数据的转发。
会话控制实体连接接入控制实体和呼叫应用服务器,为终端提供注册鉴权、会话控制、呼叫路由等IMS网络中的基本功能,能够将接入控制实体接收到呼叫触发到呼叫应用服务器。归属用户服务器则负责为终端提供鉴权信息、业务触发规则等信息的保存。
呼叫应用服务器分别对接业务应用服务器、媒体资源服务器以及应用实体,呼叫应用服务器作为***的信令侧控制网元,承接IMS呼叫管理能力,呼叫应用服务器作为多应用接入的能力网元,还提供通信能力的对外开放。
业务应用服务器作为应用服务设置的入口,可以为用户提供不同应用的查询设置入口,返回可设置的应用列表(如同声传译业务列表)。业务应用服务器分别与呼叫应用服务器和应用实体完成业务设置的信令交互,业务应用服务器还分别与媒体资源服务器和应用实体进行交互以完成业务数据的传递。
媒体资源服务器作为***的媒体面控制网元,提供媒体服务,媒体资源服务器与应用实体对接,以实现应用数据的转发。
应用实体用于提供应用的业务逻辑,应用实体与呼叫应用服务器对接,从呼叫应用服务器获取会话事件信息,并根据同声传译业务逻辑对会话进行控制。
***通过对IMS架构的改进,引入媒体资源服务器等,建立新的媒体通道,将传统的音视频媒体锚定至媒体资源服务器建立的新的媒体通道,并通过数据通道可以实现同声传译功能,实现不同语言的一方或者多方自由通话,在新架构下提供交互式、沉浸式通话,提升用户的使用体验。
在本申请一些实施例中,呼叫应用服务器提供音视频呼叫和数据通道呼叫的管理,包括但不限于呼叫的建立、媒体协商控制、呼叫事件上报、应用数据上报(如同声传译结果上报)等;呼叫应用服务器还提供通信能力的对外开放,应用实体可以通过呼叫应用服务器提供的开放接口,实现对新视频呼叫和数据通道的呼叫控制,以及媒体服务资源的申请等;呼叫应用服务器还可以提供媒体资源服务器的管理功能,根据应用实体的控制指令,对媒体资源服务器进行管理,包括但不限于数据通道的申请、修改、删除,音视频会议资源的申请、修改、删除,以及语音识别能力的申请、修改、删除等。
在本申请一些实施例中,媒体资源服务器提供的媒体服务包括但不限于媒体能力管理、数据通道管理以及应用数据转发。其中,对于媒体资源服务器提供的媒体能力的管理,媒体资源服务器分别与呼叫应用服务器、应用实体、接入控制实体、业务应用实体等网元对接,负责媒体资源的创建、修改、删除等;对于数据通道的管理,媒体资源服务器负责数据通道的创建、修改、删除等;对于应用数据转发,媒体资源服务器从应用实体接收(或经由业务应用服务器从应用实体接收)应用数据,通过数据通道转发给终端,或者终端通过数据通道发送应用数据给媒体资源服务器,由媒体资源服务器提取出应用数据(或媒体资源服务器转发给业务应用服务器,由业务应用服务器提取应用数据)并转发给应用实体。
在本申请一些实施例中,应用实体对于会话的控制包括但不限于修改会话的媒体路径。应用实体可以修改会话的媒体路径,将会话媒体锚定到媒体资源服务器;此外,呼叫应用服务器通知应用实体会话事件和同声传译业务数据。应用实体与媒体资源服务器对接,通过数据通道,将应用数据发送给终端,还可以通过数据通道接收从终端接收应用数据。应用实体与业务服务器对接,处理业务服务器通过数据通道发来的业务数据,完成业务设置。
在本申请一些实施例中,以用户使用数据通道进行同声传译业务说明,其中,业务设置以IMS作为通信网络,以SIP协议作为通信协议,其他信令***同样适用。应用实体通过业务应用服务器向呼叫应用服务器订阅终端的呼叫状态,在订阅成狗后呼叫应用服务反馈回复信息。
主叫终端发起呼叫,则呼叫信令传输至接入控制实体,再由接入控制实体转发请求至会话控制实体,会话控制实体将请求触发给呼叫应用服务器,呼叫应用服务器通知应用实体终端的呼叫状态,应用实体回复呼叫状态响应,并指示呼叫应用服务器创建数据通道。
数据通道建立成功后,呼叫应用服务器通知应用实体,主叫终端的显示界面可查询到包含同声传译在内的业务列表。应用实体指示呼叫应用服务器接续呼叫,呼叫应用服务器呼叫到被叫终端。
主叫终端发起同声传译请求,通过数据通道将同声传译的业务设置请求发送给应用实体,应用实体通知业务服务器执行同声传译业务。业务应用服务器向呼叫应用服务器发起创建同声传译媒体资源请求,呼叫应用服务器回复响应。呼叫服务器向媒体资源服务器申请媒体资源,并且把主叫终端和被叫终端之间的点对点音视频通话媒体锚定到媒体资源服务器申请的媒体通道。
呼叫应用服务器指示媒体资源服务器执行同声传译业务,媒体资源服务器对收到的被叫端的语音媒体流进行语音识别,并将语音识别结果通知呼叫应用服务器。呼叫应用服务则通知业务应用服务器同声传译后的目标语言的文字,由业务应用服务器通知应用实体同声传译业务的处理结果,应用实体通过数据通道将翻译成目标语言的文字显示在被叫终端上,如以字幕形式同步翻译原语音的音频。
将传统的音视频媒体锚定到媒体服务器,进行语音识别和翻译后,通过数据通道实现网络侧同声传译功能,可以在IMS架构下提供交互式、沉浸式通话,实现在通话过程中通过实时翻译使得不同语言的一方或多方自由通话。
本申请的一个实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行上述实施例的方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
以上所描述的移动通信设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (13)
1.一种通话过程中实现同声传译的方法,其特征在于,包括:
根据接收到的通话请求,建立数据通道;
接收终端通过所述数据通道发起的同声传译请求;
将通话媒体锚定至新的媒体通道;
执行同声传译业务;
将所述同声传译业务的处理结果通过所述数据通道发送至终端。
2.根据权利要求1所述的方法,其特征在于,所述根据接收到的通话请求,建立数据通道前,还包括:
对终端的呼叫状态进行订阅。
3.根据权利要求1或2所述的方法,其特征在于,所述根据接收到的通话请求,建立数据通道,包括:
接收来自所述终端的通话请求;
对所述终端的呼叫状态进行上报操作;
响应所述终端的呼叫状态并创建所述数据通道。
4.根据权利要求1或2所述的方法,其特征在于,所述将通话媒体锚定至新的媒体通道,包括:
申请媒体资源并创建新的媒体通道;
执行锚定操作将所述通话媒体锚定至所述媒体通道上。
5.根据权利要求1或2所述的方法,其特征在于,所述执行同声传译业务,包括:
对收到的语音媒体流进行语音识别;
将语音识别后的所述语音媒体流翻译为目标语言。
6.根据权利要求5所述的方法,其特征在于,所述将语音识别后的所述语音媒体流翻译为目标语言,包括:
接收来自终端的语种信息;
根据所述语种信息对所述语音媒体流进行翻译。
7.根据权利要求1所述的方法,其特征在于,还包括,将所述同声传译业务的处理结果显示在所述终端上。
8.根据权利要求7所述的方法,其特征在于,所述同声传译业务的处理结果的显示形式为字幕形式。
9.一种通话过程中实现同声传译的***,其特征在于,包括接入控制实体、呼叫应用服务器、业务应用服务器、媒体资源服务器以及应用实体;
所述接入控制实体分别与终端和所述媒体资源服务器建立通道;
所述呼叫应用服务器分别对接所述业务应用服务器、所述媒体资源服务器以及所述应用实体;
所述业务应用服务器与所述呼叫应用服务器和所述应用实体进行信令交互,所述业务应用服务器与所述媒体资源服务器和所述应用实体进行数据传递;
所述媒体资源服务器对接所述应用实体,用于转发应用数据。
10.根据权利要求9所述的***,其特征在于,所述呼叫应用服务器提供音视频呼叫和数据通道呼叫的管理、通信能力的对外开放以及对媒体资源服务器的管理。
11.根据权利要求9所述的***,其特征在于,所述媒体资源服务器提供的媒体服务包括但不限于:
媒体能力管理、数据通道管理以及应用数据转发。
12.根据权利要求9所述的***,其特征在于,所述应用实体对会话的控制包括但不限于:
修改会话的媒体路径。
13.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至8任意一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110929389.8A CN116320175A (zh) | 2021-08-13 | 2021-08-13 | 通话过程中实现同声传译的方法、***及存储介质 |
PCT/CN2022/091522 WO2023015987A1 (zh) | 2021-08-13 | 2022-05-07 | 通话过程中实现同声传译的方法、***及存储介质 |
EP22854982.0A EP4387211A1 (en) | 2021-08-13 | 2022-05-07 | Method and system for implementing simultaneous interpretation during call, and storage medium |
US18/439,644 US20240187529A1 (en) | 2021-08-13 | 2024-02-12 | Method and system for implementing simultaneous interpretation in call procedure, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110929389.8A CN116320175A (zh) | 2021-08-13 | 2021-08-13 | 通话过程中实现同声传译的方法、***及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116320175A true CN116320175A (zh) | 2023-06-23 |
Family
ID=85199785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110929389.8A Pending CN116320175A (zh) | 2021-08-13 | 2021-08-13 | 通话过程中实现同声传译的方法、***及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240187529A1 (zh) |
EP (1) | EP4387211A1 (zh) |
CN (1) | CN116320175A (zh) |
WO (1) | WO2023015987A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8244222B2 (en) * | 2005-05-02 | 2012-08-14 | Stephen William Anthony Sanders | Professional translation and interpretation facilitator system and method |
EP2621140A1 (en) * | 2012-01-24 | 2013-07-31 | Alcatel Lucent | Media enrichment for a call in a communication network |
CN111478971A (zh) * | 2020-04-14 | 2020-07-31 | 青岛联合视界数字传媒有限公司 | 一种多语言翻译电话***及翻译方法 |
CN113079142A (zh) * | 2021-03-24 | 2021-07-06 | 号百信息服务有限公司 | 一种语音通话的双向实时翻译***及方法 |
CN113726952B (zh) * | 2021-08-09 | 2023-04-28 | 北京小米移动软件有限公司 | 通话过程中的同声传译方法及装置、电子设备、存储介质 |
-
2021
- 2021-08-13 CN CN202110929389.8A patent/CN116320175A/zh active Pending
-
2022
- 2022-05-07 EP EP22854982.0A patent/EP4387211A1/en active Pending
- 2022-05-07 WO PCT/CN2022/091522 patent/WO2023015987A1/zh active Application Filing
-
2024
- 2024-02-12 US US18/439,644 patent/US20240187529A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4387211A1 (en) | 2024-06-19 |
WO2023015987A1 (zh) | 2023-02-16 |
US20240187529A1 (en) | 2024-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101049721B1 (ko) | 세션 설정 프로토콜 기반의 얼리 미디어 서비스 제공 방법 및 응용 서버 | |
WO2023071915A1 (zh) | 业务设置方法和装置、存储介质及电子设备 | |
US11950018B2 (en) | Video connection continuity between devices | |
JP2008523662A (ja) | 画像ベースのプッシュ・ツー・トークのユーザインタフェース向き画像交換方法 | |
CN108881149B (zh) | 一种可视电话设备的接入方法和*** | |
US11050801B2 (en) | Call to meeting upgrade | |
CN112543301A (zh) | 一种基于ims的智能会议***及其实现方法 | |
CN108574689B (zh) | 一种可视通话的方法和装置 | |
KR101589195B1 (ko) | 양자간 통화로부터 컨퍼런스로의 끊김 없는 전환을 구현하기 위한 방법 및 장치 | |
WO2019011149A1 (zh) | 一种通信方法、装置、应用服务器、用户设备和*** | |
CN111314647A (zh) | 电子白板的控制方法、移动终端及电子白板*** | |
CN105122761A (zh) | 基于分组的呼叫的附加媒体会话的本地控制 | |
WO2023005524A1 (zh) | 订单支付方法、装置、存储介质、设备及*** | |
CN108322429A (zh) | 实时通信中录制控制方法、实时通信***及通信终端 | |
CN116320175A (zh) | 通话过程中实现同声传译的方法、***及存储介质 | |
CN105391876A (zh) | 一种为通话提供媒体服务的方法与装置 | |
CN113132812A (zh) | 一种基于volte网络的视频通话方法和*** | |
US20240244093A1 (en) | Communication method, signaling control network element, media control network element and communication system | |
US20240236268A1 (en) | Video connection continuity between devices | |
CN113709081B (zh) | 基于ims与移动互联技术的融合通讯方法和*** | |
CN108616485B (zh) | 一种基于融合设备的通信方法和设备 | |
CN117197930A (zh) | 门锁控制方法、装置、终端设备以及存储介质 | |
CN117812049A (zh) | 桌面共享缩放方法、装置、电子设备及存储介质 | |
CN116319692A (zh) | Rcs业务的通信方法、装置、电子设备和可读介质 | |
CN116248929A (zh) | 一种音频通话切换为视频通话的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |