CN110047488B - 语音翻译方法、装置、设备及控制设备 - Google Patents
语音翻译方法、装置、设备及控制设备 Download PDFInfo
- Publication number
- CN110047488B CN110047488B CN201910154764.9A CN201910154764A CN110047488B CN 110047488 B CN110047488 B CN 110047488B CN 201910154764 A CN201910154764 A CN 201910154764A CN 110047488 B CN110047488 B CN 110047488B
- Authority
- CN
- China
- Prior art keywords
- language text
- audio data
- correction rule
- user terminal
- control terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012937 correction Methods 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 82
- 238000012986 modification Methods 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供语音翻译方法、装置、设备及控制设备。方法包括通过获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准。本申请提供的语音翻译方法、装置、设备及控制设备,提高了语言文本翻译结果的准确性,且可实时根据修正规则对语言文本进行校准,不影响会议正常进行。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音翻译方法、装置、设备及控制设备。
背景技术
随着语音识别技术的发展,人们不再满足于文本的自动化翻译,语音翻译的需求也日益增多,广泛的应用于会议的翻译支持。
语音翻译,将语音识别翻译为目标语言文本,即在用户输入语音的同时,翻译***根据用户语音直接生产目标语言的翻译结果。现有技术中,语音翻译一般包括两个***,用户端进行语音的输入及显示,语音处理设备端进行语音的识别和翻译。
由于语音输入以及用户端显示设备的多样性,当前的语音翻译通常存在翻译不准确、语言文字显示效果不佳等问题,与会人员无法正常观看到翻译结果,导致会议中断或干扰会议演讲者的演讲。
发明内容
本申请提供一种语音翻译方法、装置、设备及控制设备,以解决现有技术中语音翻译不准确的技术问题。
第一方面,本发明实施例提供了一种语音翻译方法,包括:
获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;
向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准。
第二方面,本发明实施例提供了一种语音翻译方法,包括:
接收用户终端发送的音频数据及基于所述音频数据转换得到的语言文本;
根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
向用户终端发送所述修正规则,以使所述用户终端根据所述修正规则,对所述语言文本进行校准。
第三方面,本发明实施例提供了一种语音翻译装置,包括:
获取模块,用于获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;
第一发送模块,用于向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
校准模块,用于接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准。
第四方面,本发明实施例提供了一种语音翻译装置,包括:
第二接收模块,用于接收用户终端发送的音频数据及基于所述音频数据转换得到的语言文本;
校验模块,用于根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
第二发送模块,用于向用户终端发送所述修正规则,以使所述用户终端根据所述修正规则,对所述语言文本进行校准。
第五方面,本发明实施例提供了一种语音翻译设备,包括存储器、处理器;
存储器:用于存储所述处理器可执行指令;
其中,所述处理器被配置为:执行所述可执行指令以实现上述第一方面所述的方法。
第六方面,本发明实施例提供了一种控制设备,包括存储器、处理器;
存储器:用于存储所述处理器可执行指令;
其中,所述处理器被配置为:执行所述可执行指令以实现上述第二方面所述的方法。
第七方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述第一方面所述的方法,或者实现上述第二方面所述的方法。
第八方面,本发明实施例提供了一种语音翻译***,包括:
语音处理设备,以及上述第五方面所述的语音翻译设备和上述第六方面所述的控制设备。
本发明实施例提供的语音翻译方法和装置,获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准,获得校准后语言文本,提高了语言文本翻译结果的准确性,且修正规则可实时发送和调整,以对语言文本的进行实时校准,不影响会议的正常进行。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明实施例提供的语音翻译***的架构示意图;
图2为本发明一实施例提供的语音翻译方法的流程示意图;
图3为本发明另一实施例提供的语音翻译方法的流程示意图;
图4为本发明又一实施例提供的语音翻译方法的流程示意图;
图5为本发明再一实施例提供的语音翻译方法的流程示意图;
图6为本发明一实施例提供的语音翻译方法的交互信令图;
图7为本发明另一实施例提供的语音翻译方法的交互信令图;
图8为本发明一实施例提供的语音翻译装置的功能框图;
图9为本发明另一实施例提供的语音翻译装置的功能框图;
图10为本发明一实施例提供的语音翻译设备的硬件结构示意图;
图11为本发明一实施例提供的控制设备的硬件结构示意图;
图12为本发明实施例提供的语音翻译***的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
此外,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。
本申请提供的语音翻译方法,适用于图1所示的语音翻译***的架构示意图。以图1所示的语音翻译***为例,语音翻译***包括用户终端10、语音处理设备20以及控制终端30,其中,用户终端10可以为手机、电脑、车载终端、智能家居设备、机器人等终端设备,在此不作限定。用户可以通过用户终端10进行指定翻译语种、读取并显示语音翻译后的语言文本等业务处理;用户终端10可带有音频采集设备,用于进行音频数据的采集;用户终端10包括至少一个图像或文字显示单元,用于显示语音处理设备20翻译得到的语言文本。
语音处理设备20用于进行音频数据的识别和翻译。
控制终端30可以为桌上型计算机、笔记本、掌上电脑及云端语音处理设备等计算设备,在此不做限定。用户可以通过控制终端30进行指令发送、规则设定等业务处理。
控制终端30通过网络与用户终端10通信;可选地,控制终端30可以通过网络与语音处理设备20通信,语音处理设备20通过网络与用户终端10通信,从而实现控制终端30与用户终端10之间的间接通信。一个控制终端30可以与多个用户终端10进行通信,一个语音处理设备20也可以与多个用户终端10进行通信。上述中的网络可以适用于不同的网络制式。
用户在用户终端10上进行语音输入,并设定语音识别翻译后的语言语种,用户终端10将获取到的音频数据及语言语种发送至语音处理设备20,语音处理设备20对音频数据进行识别和翻译,将音频数据转换成设定语种的语言文本,并将该语言文本反馈至用户终端10,用户终端10将语言文本和音频数据发送至控制终端30,控制终端30根据语言文本和音频数据生成修正规则或控制指令,并将该修正规则或控制指令发送至用户终端10,用户终端10根据修正规则或控制指令,对语言文本进行校准或调整,获得校准后的语言文本,提高了语言文本翻译结果的准确性;控制终端30和用户终端10实时进行交互,实现了语言文本的实时校准;且一个控制终端30可以与多个用户终端10进行交互,适用于多人演讲或与多个用户终端合作的场景。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本发明一实施例提供的语音翻译方法的流程示意图。本实施例的执行主体为图1所示实施例中的用户终端,如图2所示,该方法包括:
S201、获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本。
在本实施例中,音频数据的来源包括如下任意一项:用户终端搭载的音频采集设备和搭载的音频输出单元。
在一种实施方式中,用户终端包括至少一个音频采集设备,用户终端向本机上搭载的音频采集设备发送第一指令信号,以使所述音频采集设备根据所述第一指令信号采集音频数据。其中,所述第一指令信号可以由用户指定,也可以由控制终端发送。可选地,音频采集设备为麦克风。
为了清楚的说明本实施例,在一种可能的会议应用场景中,用户终端为设置在讲台的计算机,包括多个麦克风与投影仪,控制终端为在会议现场的另外一台的计算机,由操作人员进行操作。语音处理设备与用户终端通过无线组网装置实现网络通信。
在会议现场准备时,将听众使用的无线话筒标记为二号麦克风,会议中如听众需要进行提问,操作人员通过控制终端向用户终端发送如下指令信号:把音频采集设备设定为二号麦克风。此时二号麦克风可以采集获得听众的音频数据。
在另一种实施方式中,用户终端搭载有其他音频输出单元,用户终端获取控制终端发送的第二指令信号,并根据所述第二指令信号从本机搭载的音频输出单元上采集获得音频数据。可选地,第二指令信号也可以由用户终端自身生成。
具体地,用户终端以其他音频输出单元的音频输出作为音频数据的来源。如果用户终端运行Windows操作***,用户终端可通过Windows音频会话API(Windows AudioSession API)获取其它音频输出单元的的音频输出数据;如果用户终端运行linux操作***,用户终端可通过Pulse Audio程序获取其它程序的音频输出数据。其中,Pulse Audio是一个声音语音处理设备,一个后台进程从一个或多个音源(进程或输入设备)接受声音输入然后重定向声音到一个或多个槽(声卡,远程网络Pulse Audio服务,或其他进程)。
在一种可能的会议应用场景中,演讲者播放了英文视频,且不带字幕。操作通过控制终端向用户终端发送如下指令:把音频输入来源设定为从视频播放器中获取。于是视频播放的同时,用户终端屏幕上显示中英字幕,其中中文字幕为目标语言语种,由用户在用户终端指定。本方案相较于音频采集设备直接获取音频数据的方案,语音失真少,便于提高语音翻译准确度。
S202、向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则。
在本实施例中,用户终端向控制终端发送音频数据及语言文本。可选地,用户终端还可以向控制终端发送用户终端的编号、音频采集设备的编号、语言文本的显示数据以及用户终端的显示单元的尺寸数据等。其中,语言文本的显示数据包括语言文本在用户终端显示的最终效果。
可选地,控制终端通过操作人员返回修正规则。
S203、接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准。
在本实施例中,修正规则包括语言文本的增加、修改或删除。
可选地,用户终端根据修正规则对语言文本进行校准,获得校准后语言文本并显示。
在一种实施方式中,用户终端接收自语音处理设备转换得到的语言文本后,根据用户终端当前的第一修正规则进行语言文本的校准,获得校准后语言文本并显示,同时将该校准后语言文本发送至控制终端,以使控制终端对校准后语言文本进行校验,并在校验确定校准后语言文本有误时,生成第二修正规则;用户终端接收上述第二修正规则,对下一个转换得到的语言文本进行校准。
在另一种实施方式中,用户终端接收自语音处理设备转换得到的语言文本后,将该语言文本发送至控制终端,以使控制终端根据语言文本进行校验,并在校验确定校准后语言文本有误时,生成修正规则;用户终端接收该修正规则,对上述的语言文本进行校准并显示。
在又一种实施方式中,用户终端接收自语音处理设备转换得到的语言文本后,将该语言文本发送至控制终端,以使控制终端根据语言文本进行校验,并在校验确定校准后语言文本有误时,生成修正规则;用户终端接收修正规则,对上述的语言文本进行校准并显示。同时,用户终端向语音处理设备发送上述修正规则,以使所述语音处理设备根据该修正规则对下一个转换得到的语音文本进行校准。
本发明实施例提供的语音翻译方法,通过获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准,获得校准后语言文本,提高了语言文本翻译结果的准确性,且修正规则可实时发送和调整,实时进行语言文本的校准,不影响会议正常进行。
在实际应用场景中,用户指定语言文本的语种,用户终端将该语种发送至语音处理设备。语音处理设备基于音频数据转换得到语言文本包括音频数据的识别和翻译两个步骤,语音处理设备首先对音频数据进行识别获得与音频数据语种相同的第一语言文本,然后对第一语言文本进行翻译获得与指定语种相同的第二语言文本。
用户终端获取语音处理设备基于音频数据转换得到的语言文本并显示,其中,该语言文本包括上述第一语言文本和第二语言文本。应理解的是,显示的语言文本为第一语言文本和/或第二语言文本。
语言文本的校准既可以基于上述第一语言文本,也可以基于上述第二语言文本,下面通过图3所示的实施例,对语言文本的校准过程进行详细说明。
图3为本发明又一实施例提供的语音翻译方法的流程示意图。语言文本包括基于第一语言文本翻译得到的第二语言文本,其中第一语言文本为基于音频数据识别获得的文本;修正规则为用于校准第一语言文本的识别校准规则。
如图3所示,该方法还可以包括:
S301、根据所述修正规则,对所述第一语言文本进行校准,得到校准后第一语言文本。在本实施例中,修正规则为用于校准第一语言文本的识别校准规则,识别校准规则包括下述中至少一项:第一语言文本的增加、修改和删除。
S302、向所述语音处理设备发送所述校准后第一语言文本,以使语音处理设备对所述校准后第一语言文本进行翻译,获得校准后的语言文本。
S303、接收所述语音处理设备发送的校准后的语言文本。
音频数据的翻译包括语音识别和翻译两个步骤,均由语音处理设备执行完成,语音处理设备对音频数据进行语音识别获取第一语言文本,第一语言文本与音频数据为相同语种,语音处理设备对第一语言文本进行翻译获得第二语言文本,第二语言文本与目标语言文本为相同的语种,本实施例中,用户终端对第一语言文本进行校准,得到校准后第一语言文本,由语音处理设备对校准后第一语言文本进行翻译,得到最终的第二语言文本。
可选地,若修正规则为用于校准第二语言文本的翻译校准规则,用户终端可以根据所述修正规则,对所述第二语言文本进行校准,获得校准后的语言文本。
本发明实施例提供的语音翻译方法,多个用户终端分别接收匹配各自的修正规则并单独进行校准,极大的降低了语音处理设备的工作量,提高了语音翻译校准的效率;可更加及时准确地适用于不同的语音翻译场景;此外可以分别进行第一语言文本和第二语言文本的校准,便于对语音处理设备语音识别中的错误进行统计,方便对后续的语音识别进行优化。
可选地,语音文本的校准可以由语音处理设备进行。在一种实施例中,用户终端向语音处理设备发送上述修正规则,以使所述语音处理设备根据该修正规则对下一个转换得到的语音文本进行校准。
若修正规则为识别校准规则,语音处理设备在后续的语音识别翻译中,根据识别校准规则对音频数据直接识别获取的第一语言文本进行校准,然后对校准后的第一语言文本进行翻译,得到校准后第二语言文本,并将校准后第一语言文本和校准后第二语言文本发送至用户终端。应理解的是,该校准工作发生在语音识别后,文本翻译前。
若修正规则为翻译校准规则,语音处理设备在后续的语音识别翻译中,根据翻译校准规则直接对第二语言文本进行校准。此时,该校准工作发生在文本翻译后,发送用户终端前。
为了清楚的说明本实施例,在一种可能的会议应用场景中,多人会议中,其中演讲者的演讲为中文,第一语言文本为中文,第二语言文本为英文。演讲者一提到"双摄"一词,意为手机中具有两个摄像头,用户终端显示为"Dichromatic"(双色的英文),即语音处理设备在语音识别端出现错误,将“双摄”识别为“双色”,导致后续翻译不准确;用户终端将显示的语言文本及音频数据发送至控制终端,操作人员看到这个错误后,根据音频数据,判断该错误发生在获取第一语言文本时,在控制终端添加了如下识别校准规则,用户终端接收该修正规则,并将该修正规则发送语音处理设备,以使语音处理设备进行校准。
识别校准规则:在下一条的语音处理时,将第一语言文本中的"双色"修改为"双摄"。
语音处理设备对音频数据进行识别获得第一语言文本,根据识别校准规则进行校准,将第一语言文本中的"双色"修改为"双摄",然后对“双摄”进行翻译,获取“Doublecell”的第二语言文本,用户终端获取该第二语言文本并显示。此后,演讲者提到"双摄"的时,字幕上显示为"Double cell"。
可选地,若修正规则为翻译校准规则,则在获取第二语言文本后进行修正。
本发明实施例提供的语音翻译方法,由语音处理设备进行语言文本的校准,将语言文本的校准分为第一语言文本和第二语言文本分别进行,可对语音识别中的错误进行统计,方便对后续的语音识别进行优化。
图4为本发明又一实施例提供的语音翻译方法的流程示意图,本实施例在上述实施例的基础上,增加了对语言文本的显示校准,例如,在图2所示实施例的基础上,该方法还可以包括:
S401、获取所述语言文本在本机上的显示数据;其中,所述显示数据包括所述语言文本在本机上的显示图片或显示视频。
在一种实施方式中,依据时间采样截图获取语言文本的显示图片。
另一种实施方式中,依据视频流的方式获取语言文本的显示视频。
实际应用中,可以根据网络带宽选择上述任一方式。
S402、向控制终端发送所述显示数据,以使所述控制终端根据所述显示数据生成显示参数调整指令。
在本实施例中,还可以向控制终端发送用户终端显示设备的编号及大小。
S403、接收所述控制终端发送的所述显示参数调整指令,并根据所述显示参数调整指令,对所述语言文本在本机上的显示数据进行调整。
在一种实施方式中,用户终端根据所述显示参数调整指令,对本机上用于显示所述语言文本的窗口进行调整,其中对所述窗口的调整包括如下至少一项:窗口的大小、位置、背景颜色、背景透明度;
在另一种实施方式中,用户终端根据所述显示参数调整指令对所述语言文本的如下至少一项进行调整:字号、字体、颜色、透明度以及所述语言文本的停留时间。
可选地,语言文本以半透明窗口置顶显示,即不干涉用户终端搭载的其他演示程序,也可保障用户可以清晰的读取语言文本。
在一种可能的会议应用场景中,有后排的听众表示看不清语言文本内容。操作人员响应该需求,通过控制终端向用户终端发送如下显示参数调整指令:将语言文本的字体大小调整为32px。用户终端接收该显示参数调整指令,并根据该规则将语言文本调整为32px,以解决语言文本显示效果不佳,影响会议进行的技术问题。
本发明实施例提供的语音翻译方法,解决了用户终端显示设备的多样性导致语言文字显示效果不佳的技术问题,如文字显示大小不当,显示面积不当,设备色差导致文字显示颜色不当等问题,并且语言文本的显示调整不影响会议进行,极大的改善了语音翻译的应用效果。
图5为本发明再一实施例提供的语音翻译方法的流程示意图。本实施例的执行主体为图1所示实施例中的控制终端,如图5所示,该方法包括:
S501、接收用户终端发送的音频数据及基于所述音频数据转换得到的语言文本;
S502、根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
S503、向用户终端发送所述修正规则,以使用户终端根据所述修正规则,对所述语言文本进行校准。
本实施例中方法的具体实现原理和过程可以参见上述任一实施例,此处不再赘述。
本实施例提供的语音翻译方法,接收用户终端发送的音频数据及基于所述音频数据转换得到的语言文本;根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;向用户终端发送所述修正规则,以使用户终端根据所述修正规则,对所述语言文本进行校准,能够有效地语言文本的翻译准确率,可以实现语言文本的实时校准,不影响会议正常进行,且同时支持多个用户终端,便于应用于多人演讲或与多个用户终端合作的场景。
图6为本发明一实施例提供的语音翻译方法的交互信令图,如图6所示,该方法可以包括:
S601、用户终端获取音频数据。
S602、用户终端向语音处理设备发送所述音频数据。
S603、语音处理设备基于所述音频数据转换得到语言文本。
S604、语音处理设备向用户终端发送所述语言文本。
S605、用户终端向控制终端发送所述音频数据及所述语言文本。
S606、控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则。
S607、控制终端向用户终端发送所述修正规则。
S608、用户终端根据所述修正规则,对所述语言文本进行校准。
本实施例的具体实施方式可以参见上述图1和图5所示的实施例,此处不再赘述。
图7为本发明另一实施例提供的语音翻译方法的交互信令图,如图7所示,该方法可以包括:
S701、用户终端获取音频数据。
S702、用户终端向语音处理设备发送所述音频数据。
S703、语音处理设备基于所述音频数据转换得到语言文本。
S704、语音处理设备向用户终端发送所述语言文本。
S705、用户终端获取所述语音文本在本机上的显示数据。
S706、用户终端向控制终端发送所述音频数据、所述语言文本及所述显示数据。
S707、控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;同时,控制终端根据所述显示数据生成显示参数调整指令。
应理解的是,控制终端对所述显示数据进行校验,并在所述显示数据的显示效果不佳时,生成显示参数调整指令。
S708、控制终端向用户终端发送所述修正规则及所述显示参数调整指令。
S709、用户终端根据所述显示参数调整指令,对语言文本在本机上的显示数据进行调整。
S710、用户终端向所述语音处理设备发送所述修正规则。
S711、语音处理设备根据所述修正规则,对下一个转换得到的语音文本进行校准。
本实施例的具体实施方式可以参见图1、图4和图5所示的实施例,此处不再赘述。
基于上述实施例所提供的语音翻译方法,本发明实施例进一步给出实现上述方法实施例分别以用户终端为执行主体和以控制终端为执行主体的装置实施例。
图8为本发明一实施例提供的语音翻译装置的结构示意图。该语音翻译装置80应用于用户终端,如图8所示,该语音翻译装置包括获取模块810、第一发送模块820以及校准模块830。
获取模块810,用于获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本。
第一发送模块820,用于向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则。
校准模块830,用于接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准。
本发明实施例提供的语音翻译装置,获取模块获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;第一发送模块向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;校准模块接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准,获得校准后语言文本,提高了语言文本翻译结果的准确性,且修正规则可根据实时发送和调整,实时进行语言文本的校准,不影响会议正常进行。
可选地,语言文本包括对所述音频数据进行语音识别获得的第一语言文本;校准模块830具体用于:根据所述修正规则,对所述第一语言文本进行校准,得到校准后第一语言文本;向所述语音处理设备发送所述校准后第一语言文本,以使语音处理设备对所述校准后第一语言文本进行翻译,获得校准后的语言文本;接收所述语音处理设备发送的校准后的语言文本。
可选地,语言文本包括基于第一语言文本翻译得到的第二语言文本,其中所述第一语言文本为基于所述音频数据识别获得的文本。校准模块830,还具体用于:根据所述修正规则,对所述第二语言文本进行校准,获得校准后的语言文本。
可选地,该语音翻译装置还包括第三发送模块(图8未示出),用于向所述语音处理设备发送所述修正规则,以使所述语音处理设备根据所述修正规则对下一个转换得到的语音文本进行校准。
可选地,该语音翻译装置还包括显示调整模块(图8未示出),具体用于:获取所述语言文本在本机上的显示数据;其中,所述显示数据包括所述语言文本在本机上的显示图片或显示视频;向控制终端发送所述显示数据,以使所述控制终端根据所述显示数据生成显示参数调整指令;接收所述控制终端发送的所述显示参数调整指令,并根据所述显示参数调整指令,对所述语言文本在本机上的显示数据进行调整。
显示调整模块还具体用于,根据所述显示参数调整指令,对本机上用于显示所述语言文本的窗口进行调整,其中对所述窗口的调整包括如下至少一项:窗口的大小、位置、背景颜色、背景透明度;和/或根据所述显示参数调整指令对所述语言文本的如下至少一项进行调整:字号、字体、颜色、透明度以及所述语言文本的停留时间。
可选地,获取模块810,具体用于向本机上搭载的音频采集设备发送第一指令信号,以使所述音频采集设备根据所述第一指令信号采集音频数据;或接收第二指令信号,并根据所述第二指令信号从本机搭载的音频输出单元上采集获得音频数据;其中,所述第二指令信号来源于为所述控制终端或本机。
图8所示实施例的语音翻译装置80可用于执行上述方法中以用户终端为执行主体的技术方案,本实施例此处不再赘述。
图9为本发明另一实施例提供的语音翻译装置的结构示意图。该语音翻译装置90应用于控制终端,如图9所示,该语音翻译装置包括第一接收模块910、校验模块920以及第二发送模块930。
第一接收模块910,用于接收用户终端发送的音频数据及基于所述音频数据转换得到的语言文本。
校验模块920,用于根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则。
第二发送模块930,用于向用户终端发送所述修正规则,以使用户终端根据所述修正规则,对所述语言文本进行校准。
图9所示实施例的语音翻译装置90可用于执行上述方法中以控制终端为执行主体的技术方案,本实施例此处不再赘述。
应理解以上图8和图9所示语音翻译装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开;且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
图10为本发明一实施例提供的语音翻译设备的硬件结构示意图。如图10所示,本实施例提供的语音翻译设备100包括:至少一个存储器101、处理器102以及计算机程序;其中,计算机程序存储在存储器101中,并被配置为由处理器102执行以实现如上述以用户终端为执行主体的语音翻译方法。语音翻译设备100还包括通信部件。其中,处理器102、存储器101以及通信部件通过总线连接。
本领域技术人员可以理解,图10仅仅是语音翻译设备的示例,并不构成对语音翻译设备的限定,语音翻译设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述语音翻译设备还可以包括输入输出设备、网络接入设备、总线等。本实施例中,语音翻译设备包括至少一个音频采集设备和图像显示单元。
图11为本发明一实施例提供的控制设备的硬件结构示意图。如图11所示,该控制设备110包括:至少一个存储器111、处理器112以及计算机程序;其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如上述以控制终端为执行主体的语音翻译方法。
此外,本发明实施例提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行以实现上述以用户终端为执行主体时的任一实现方式所述的方法,或者实现上述以控制终端为执行主体时的任一实现方式所述的方法。
上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
图12为本发明一实施例提供的语音翻译***的硬件结构示意图。如图12所示,语音翻译***120包括语音翻译设备100、语音处理设备20以及控制设备110。其中,语音处理设备20,用于进行音频数据的识别和翻译。语音翻译设备100可以为上述图10所述实施例中的语音翻译设备;控制设备110可以为上述图11所述实施例中的控制设备。
本实施例中未详细描述的部分可参考方法对应的实施例的相关说明。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (13)
1.一种语音翻译方法,其特征在于,应用于用户终端,包括:
获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;
向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准;
所述根据所述修正规则,对所述语言文本进行校准之后,所述方法还包括:
向所述语音处理设备发送所述修正规则,以使所述语音处理设备根据所述修正规则对下一个转换得到的语音文本进行校准。
2.根据权利要求1所述的方法,其特征在于,所述语言文本包括对所述音频数据进行语音识别获得的第一语言文本;
所述根据所述修正规则,对所述语言文本进行校准,包括:
根据所述修正规则,对所述第一语言文本进行校准,得到校准后第一语言文本;
向所述语音处理设备发送所述校准后第一语言文本,以使语音处理设备对所述校准后第一语言文本进行翻译,获得校准后的语言文本;
接收所述语音处理设备发送的所述校准后的语言文本。
3.根据权利要求1所述的方法,其特征在于,所述语言文本包括基于第一语言文本翻译得到的第二语言文本,其中所述第一语言文本为基于所述音频数据识别获得的文本;
所述根据所述修正规则,对所述语言文本进行校准,包括:
根据所述修正规则,对所述第二语言文本进行校准,获得校准后的语言文本。
4.根据权利要求1所述的方法,其特征在于,所述获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本之后,所述方法还包括:
获取所述语言文本在本机上的显示数据;其中,所述显示数据包括所述语言文本在本机上的显示图片或显示视频;
向控制终端发送所述显示数据,以使所述控制终端根据所述显示数据生成显示参数调整指令;
接收所述控制终端发送的所述显示参数调整指令,并根据所述显示参数调整指令,对所述语言文本在本机上的显示数据进行调整。
5.根据权利要求4所述的方法,其特征在于,根据所述显示参数调整指令,对所述语言文本在本机上的显示数据进行调整,包括:
根据所述显示参数调整指令,对本机上用于显示所述语言文本的窗口进行调整,其中对所述窗口的调整包括如下至少一项:窗口的大小、位置、背景颜色、背景透明度;
和/或
根据所述显示参数调整指令对所述语言文本的如下至少一项进行调整:字号、字体、颜色、透明度以及所述语言文本的停留时间。
6.根据权利要求1所述的方法,其特征在于,所述获取音频数据包括:
向本机上搭载的音频采集设备发送第一指令信号,以使所述音频采集设备根据所述第一指令信号采集音频数据;
或
获取第二指令信号,并根据所述第二指令信号从本机上搭载的音频输出单元上采集获得音频数据;其中,所述第二指令信号的来源为所述控制终端或本机。
7.一种语音翻译方法,其特征在于,应用于控制终端,包括:
接收用户终端发送的音频数据及基于所述音频数据转换得到的语言文本;
根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
向用户终端发送所述修正规则,以使所述用户终端根据所述修正规则,对所述语言文本进行校准;所述修正规则还用于语音处理设备对下一个转换得到的语音文本进行校准,所述修正规则是所述用户终端完成对所述语言文本校准后发送至所述语音处理设备的。
8.一种语音翻译装置,其特征在于,应用于用户终端,包括:
获取模块,用于获取音频数据以及语音处理设备基于所述音频数据转换得到的语言文本;
第一发送模块,用于向控制终端发送所述音频数据及所述语言文本,以使所述控制终端根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
校准模块,用于接收所述控制终端发送的所述修正规则,并根据所述修正规则,对所述语言文本进行校准;
所述装置还包括第三发送模块,用于向所述语音处理设备发送所述修正规则,以使所述语音处理设备根据所述修正规则对下一个转换得到的语音文本进行校准。
9.一种语音翻译装置,其特征在于,应用于控制终端,包括:
第二接收模块,用于接收用户终端发送的音频数据及基于所述音频数据转换得到的语言文本;
校验模块,用于根据所述音频数据对所述语言文本进行校验,并在校验确定所述语言文本有误时,生成修正规则;
第二发送模块,用于向用户终端发送所述修正规则,以使所述用户终端根据所述修正规则,对所述语言文本进行校准;所述修正规则还用于语音处理设备对下一个转换得到的语音文本进行校准,所述修正规则是所述用户终端完成对所述语言文本校准后发送至所述语音处理设备的。
10.一种语音翻译设备,其特征在于,包括存储器、处理器;
存储器:用于存储所述处理器可执行指令;
其中,所述处理器被配置为:执行所述可执行指令以实现如权利要求1至6任一项所述的方法。
11.一种控制设备,其特征在于,包括存储器、处理器;
存储器:用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:执行所述可执行指令以实现如权利要求7所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6任一项所述的方法,或者实现如权利要求8所述的方法。
13.一种语音翻译***,其特征在于,包括:
语音处理设备,以及如权利要求10所述的语音翻译设备和权利要求11所述的控制设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910154764.9A CN110047488B (zh) | 2019-03-01 | 2019-03-01 | 语音翻译方法、装置、设备及控制设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910154764.9A CN110047488B (zh) | 2019-03-01 | 2019-03-01 | 语音翻译方法、装置、设备及控制设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047488A CN110047488A (zh) | 2019-07-23 |
CN110047488B true CN110047488B (zh) | 2022-04-12 |
Family
ID=67274331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910154764.9A Active CN110047488B (zh) | 2019-03-01 | 2019-03-01 | 语音翻译方法、装置、设备及控制设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047488B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457717B (zh) * | 2019-08-07 | 2023-04-07 | 深圳市博音科技有限公司 | 远程翻译***及方法 |
CN113591491B (zh) * | 2020-04-30 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 语音翻译文本校正***、方法、装置及设备 |
CN111681643A (zh) * | 2020-05-29 | 2020-09-18 | 标贝(北京)科技有限公司 | 语音识别后处理方法、装置、***及存储介质 |
CN115086753A (zh) * | 2021-03-16 | 2022-09-20 | 北京有竹居网络技术有限公司 | 直播视频流的处理方法、装置、电子设备和存储介质 |
CN113867665A (zh) * | 2021-09-17 | 2021-12-31 | 珠海格力电器股份有限公司 | 显示语言修改方法、装置、电器设备及终端设备 |
CN113891168B (zh) * | 2021-10-19 | 2023-12-19 | 北京有竹居网络技术有限公司 | 字幕处理方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008137341A1 (en) * | 2007-05-07 | 2008-11-13 | Microsoft Corporation | Document translation system |
CN104516876A (zh) * | 2013-09-30 | 2015-04-15 | 株式会社东芝 | 语音翻译***和语音翻译方法 |
CN107844481A (zh) * | 2017-11-21 | 2018-03-27 | 新疆科大讯飞信息科技有限责任公司 | 识别文本检错方法及装置 |
CN108399166A (zh) * | 2018-02-07 | 2018-08-14 | 深圳壹账通智能科技有限公司 | 文本翻译方法、装置、计算机设备和存储介质 |
CN108615527A (zh) * | 2018-05-10 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 基于同声传译的数据处理方法、装置和存储介质 |
CN108710616A (zh) * | 2018-05-23 | 2018-10-26 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
JP2009048003A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | 音声翻訳装置及び方法 |
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
KR100911834B1 (ko) * | 2007-12-11 | 2009-08-13 | 한국전자통신연구원 | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 |
KR101086550B1 (ko) * | 2009-06-24 | 2011-11-23 | 엔에이치엔(주) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
EP2587388A4 (en) * | 2010-06-25 | 2018-01-03 | Rakuten, Inc. | Machine translation system and method of machine translation |
US20130132079A1 (en) * | 2011-11-17 | 2013-05-23 | Microsoft Corporation | Interactive speech recognition |
JP6226321B2 (ja) * | 2013-10-23 | 2017-11-08 | 株式会社サン・フレア | 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム |
CN107632982B (zh) * | 2017-09-12 | 2021-11-16 | 郑州科技学院 | 语音控制外语翻译设备用的方法和装置 |
-
2019
- 2019-03-01 CN CN201910154764.9A patent/CN110047488B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008137341A1 (en) * | 2007-05-07 | 2008-11-13 | Microsoft Corporation | Document translation system |
CN104516876A (zh) * | 2013-09-30 | 2015-04-15 | 株式会社东芝 | 语音翻译***和语音翻译方法 |
CN107844481A (zh) * | 2017-11-21 | 2018-03-27 | 新疆科大讯飞信息科技有限责任公司 | 识别文本检错方法及装置 |
CN108399166A (zh) * | 2018-02-07 | 2018-08-14 | 深圳壹账通智能科技有限公司 | 文本翻译方法、装置、计算机设备和存储介质 |
CN108615527A (zh) * | 2018-05-10 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 基于同声传译的数据处理方法、装置和存储介质 |
CN108710616A (zh) * | 2018-05-23 | 2018-10-26 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110047488A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047488B (zh) | 语音翻译方法、装置、设备及控制设备 | |
US10885318B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US8504375B2 (en) | Conference system, information processor, conference supporting method and information processing method | |
CN110728976A (zh) | 语音识别的方法、装置及*** | |
AU2014412434A1 (en) | Voice recognition method and system | |
KR20180127136A (ko) | 양면으로 표시되는 동기 번역 설비, 방법 장치 및 전자설비 | |
CN112653902B (zh) | 说话人识别方法、装置及电子设备 | |
CN110401810B (zh) | 虚拟画面的处理方法、装置、***、电子设备及存储介质 | |
CN111447397B (zh) | 一种基于视频会议的翻译方法、视频会议***及翻译装置 | |
US10970909B2 (en) | Method and apparatus for eye movement synthesis | |
CN109859759B (zh) | 显示屏颜色的校正方法、装置和显示设备 | |
CN109361527B (zh) | 语音会议记录方法及*** | |
CN108629241B (zh) | 一种数据处理方法和数据处理设备 | |
US20230143452A1 (en) | Method and apparatus for generating image, electronic device and storage medium | |
WO2021120190A1 (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US20140180668A1 (en) | Service server apparatus, service providing method, and service providing program | |
CN113891168B (zh) | 字幕处理方法、装置、电子设备和存储介质 | |
US11881224B2 (en) | Multilingual speech recognition and translation method and related system for a conference which determines quantity of attendees according to their distances from their microphones | |
KR20160080711A (ko) | 통신 기반 통역 장치, 방법 및 시스템 | |
WO2021057957A1 (zh) | 视频通话方法、装置、计算机设备和存储介质 | |
US11600279B2 (en) | Transcription of communications | |
EP2590392A1 (en) | Service server device, service provision method, and service provision program | |
CN112558818A (zh) | 一种基于投影的远程直播的互动方法及*** | |
CN113611308B (zh) | 一种语音识别方法、装置、***、服务器及存储介质 | |
US11848026B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |