WO2021134592A1

WO2021134592A1 - 语音处理方法、装置、设备以及存储介质

Info

Publication number: WO2021134592A1
Application number: PCT/CN2019/130767
Authority: WO
Inventors: 杨林举
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08
Also published as: CN114467141A

Abstract

一种语音处理方法、装置(100)、设备(120)以及存储介质，该方法包括：获取待处理的第一语音数据(S301)；识别第一语音数据对应的语气信息以及语音文本信息(S302)；对语音文本信息进行翻译，得到翻译文本信息(S303)；其中，翻译文本信息对应的语种不同于第一语音数据对应的语种；基于语音文本信息和语气信息的匹配关系，确定翻译文本信息和语气信息的匹配关系(S304)；根据翻译文本信息和语气信息的匹配关系，生成第二语音数据(S305)；其中，第二语音数据对应的语种不同于第一语音数据对应的语种，且第二语音数据用于在播放第一语音数据时在客户端进行呈现。

Description

语音处理方法、装置、设备以及存储介质

技术领域

本申请实施例涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、设备以及存储介质。

背景技术

现有的同传***，可以将用户说话的语音信息转换为另一种语言对应的翻译文字信息，并且利用语音合成模型将该翻译文字信息合成相应的语音进行显示。其中，同传***不仅可以应用于国际会议、产品发布会等会议中，还可以应用于人们的日常生活中。例如，在工作中，可以利用同传***进行技术分享或视频会议；在生活中，可以利用同传***满足社交或旅游场景中的相关需求。然而，在现有的同传过程中，传译方式固定且单一，而且准确度偏低。

发明内容

为解决相关技术问题，本申请实施例期望提供一种语音处理方法、装置、设备以及存储介质。

本申请实施例的技术方案可以如下实现：

第一方面，本申请实施例提供了一种语音处理方法，该方法包括：

获取待处理的第一语音数据；

识别所述第一语音数据对应的语气信息以及语音文本信息；

对所述语音文本信息进行翻译，得到翻译文本信息；其中，所述翻译文本信息对应的语种不同于所述第一语音数据对应的语种；

基于所述语音文本信息和所述语气信息的匹配关系，确定所述翻译文本信息和所述语气信息的匹配关系；

根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据；其中，所述第二语音数据对应的语种不同于所述第一语音数据对应的语种，且所述第二语音数据用于在播放所述第一语音数据时在客户端进行呈现。

第二方面，本申请实施例提供了一种语音处理装置，该语音处理装置包括获取单元、识别单元、翻译单元、匹配单元和生成单元，其中，

获取单元，配置为获取待处理的第一语音数据；

识别单元，配置为识别所述第一语音数据对应的语气信息以及语音文本信息；

翻译单元，配置为对所述语音文本信息进行翻译，得到翻译文本信息；其中，所述翻译文本信息对应的语种不同于所述第一语音数据对应的语种；

匹配单元，配置为基于所述语音文本信息和所述语气信息的匹配关系，确定所述翻译文本信息和所述语气信息的匹配关系；

生成单元，配置为根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据；其中，所述第二语音数据对应的语种不同于所述第一语音数据对应的语种，且所述第二语音数据用于在播放所述第一语音数据时在客户端进行呈现。

第三方面，本申请实施例提供了一种设备，该设备包括存储器和处理器，其中，

存储器，用于存储能够在所述处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质存储有语音处理程序，所述语音处理程序被至少一个处理器执行时实现如第一方面所述的方法。

本申请实施例提供了一种语音处理方法、装置、设备以及存储介质，其中，获取待处理的第一语音数据；识别第一语音数据对应的语气信息以及语音文本信息；对语音文本信息进行翻译，得到翻译文本信息；其中，翻译文本信息对应的语种不同于第一语音数据对应的语种；基于语音文本信息和语气信息的匹配关系，确定翻译文本信息和语气信息的匹配关系；根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据；其中，所述第二语音数据对应的语种不同于所述第一语音数据对应的语种，且所述第二语音数据用于在播放所述第一语音数据时在客户端进行呈现；这样，针对待处理的第一语音数据，不仅能够识别文本信息，还能够识别语气信息，如此在得到第二语音数据的过程中，不仅考虑了翻译文本信息，而且还考虑了语气信息，使得第二语音数据在播放的过程中还能够体现语气变化；也就是说，本申请实施例的技术方案可以方便、实时地获取演讲者的语气变化信息，从而有效避免了用户对同传***中演讲者说话语气变化的判断发生混乱或者错误现象，提高了同传***的准确性。

附图说明

图1为相关技术方案提供的一种同传***应用的***架构示意图

图2为相关技术方案提供的一种同传***的工作流程示意图；

图3为本申请实施例提供的一种语音处理方法的流程示意图；

图4为本申请实施例提供的另一种语音处理方法的流程示意图；

图5为本申请实施例提供的又一种语音处理方法的流程示意图；

图6为本申请实施例提供的再一种语音处理方法的流程示意图；

图7为本申请实施例提供的再一种语音处理方法的流程示意图；

图8为本申请实施例提供的一种语音处理方法的详细流程示意图；

图9为本申请实施例提供的另一种语音处理方法的详细流程示意图；

图10为本申请实施例提供的一种语音处理装置的组成结构示意图；

图11为本申请实施例提供的另一种语音处理装置的组成结构示意图；

图12为本申请实施例提供的一种设备的具体硬件结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

应当理解，在本申请实施例中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请实施例的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

另外，在后续的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

参见图1，其示出了相关技术中同传***应用的***架构示意图。如图1所示，所述***可以包括：机器同传服务端110、语音处理服务器120、观众移动端130、个人电脑(PC，Personal Computer)客户端140和显示屏幕150。

实际应用中，演讲者可以通过PC客户端140进行会议演讲，在进行会议演讲的过程中，PC客户端140采集演讲者的语音数据，将采集的语音数据发送给机器同传服务端110，所述机器同传服务端110通过语音处理服务器120对语音数据进行识别，得到识别结果(所述识别结果可以是与语音数据相同语种的语音文本信息，也可以是对语音文本信息进行翻译后所得到的其它语种的翻译文本信息)；机器同传服务端110可以将识别结果发送给PC客户端140，由PC客户端140将识别结果投屏到显示屏幕150上；还可以将识别结果发送给观众移动端130(具体依据用户所需的语种，对应发送相应语种的识别结果)，为用户展示识别结果，从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。

也就是说，针对相关技术中的同传***，用户在使用的过程中，可以将用户说话的语音信息转换为另一种语言对应的文字，而且文字通过显示装置进行显示，其中，显示装置上所显示的文字代表了用户的语音内容。例如，用户通过同传***进行演讲时，该同传***可以将演讲者的发言内容进行翻译，同时将翻译结果输出在显示装置或显示屏幕上。具体地，参见图2，其示出了相关技术方案提供的一种同传***的工作流程示意图。如图2所示，该工作流程可以包括：

S201：启动同传***；

S202：同传***对用户的发言内容进行语音识别，得到语音文本信息；

S203：同传***对语音文本信息进行机器翻译处理，得到翻译文本信息；

S204：同传***将翻译文本信息输出到显示装置进行显示；

S205：关闭同传***。

在上述的工作流程中，同传***只是将用户的发言内容或者对应的翻译内容在显示装置上显示，但是用户说话的语气信息没有显示出来。例如，用户在使用同传***聆听演讲时，同传***输出演讲者的发言内容或者对应的翻译内容，这时候演讲者已经说完对应的话语，导致用户看到同传***的输出结果与用户听到的演讲者说话中包含的语气并不同步，使得用户对演讲者的说话语气变化的判断容易发生混乱或者错误；尤其是在同传***中，当用户听不清或者听不到演讲者的发音时，这时候用户对演讲者的说话语气变化的判断更容易发生混乱或者错误，使得用户体验变差。

本申请实施例提供了一种语音处理方法，在获取待处理的第一语音数据后，识别第一语音数据对应的语气信息以及语音文本信息；对语音文本信息进行翻译，得到翻译文本信息；其中，翻译文本信息对应的语种不同于第一语音数据对应的语种；基于语音文本信息和语气信息的匹配关系，确定翻译文本信息和语气信息的匹配关系；根据翻译文本信息和语气信息的匹配关系，生成第二语音数据；其中，第二语音数据对应的语种不同于第一语音数据对应的语种，且第二语音数据用于在播放第一语音数据时在客户端进行呈现；这样，针对待处理的第一语音数据，不仅能够识别文本信息，还能够识别语气信息，如此在得到第二语音数据的过程中，不仅考虑了翻译文本信息，而且还考虑了语气信息，使得第二语音数据在播放的过程中还能够体现语气变化；也即在显示文本信息的同时，还可以将语气发生变化的文字以不同的显示策略进行显示；也就是说，用户可以方便、实时地获取演讲者的语气变化信息，从而有效避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象；而且当用户听不清或者听不到演讲者的发音时，也不会影响用户获取演讲者的说话语气信息，提高了同传***的准确性。

下面将结合附图对本申请各实施例进行详细描述。

本申请的一实施例中，参见图3，其示出了本申请实施例提供的一种语音处理方法的流程示意图。如图3所示，该方法可以包括：

S301：获取待处理的第一语音数据；

需要说明的是，本申请实施例的语音处理方法可以应用于同传***，而且该方法的执行主体是语音处理装置。其中，该语音处理装置可以位于服务器侧或终端设备侧，服务器可以为具有语音处理功能的服务器，诸如文件服务器、数据库服务器等；终端设备可以为具有语音处理功能的终端，比如，终端设备可以包括智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、数字电视和台式计算机等，本申请实施例不作具体限定。

还需要说明的是，针对待处理的第一语音数据，可以通过语音采集单元进行语音采集得到的。具体地，所述获取待处理的第一语音数据，可以包括：通过语音采集单元进行语音采集，获得待处理的第一语音数据。

也就是说，语音处理装置中可以包括有语音采集单元。其中，该语音采集单元可以是终端设备中的麦克风或话筒。这样，通过语音采集单元在采集得到待处理的第一语音数据之后，可以对该第一语音数据进行后续的语音识别处理或者语气识别处理。

S302：识别第一语音数据对应的语气信息以及语音文本信息；

需要说明的是，在得到第一语音数据之后，可以对该第一语音数据进行识别处理。具体地，一方面可以识别出第一语音数据对应的语气信息，另一方面还可以识别出第一语音数据对应的语音文本信息。

在一些实施例中，所述识别所述第一语音数据对应的语气信息以及语音文本信息，可以包括：

对所述第一语音数据进行语气识别，确定所述第一语音数据对应的语气信息；

对所述第一语音数据进行语音识别，确定所述第一语音数据对应的语音文本信息。

这里，可以通过语气识别单元对该第一语音数据进行语气识别，以得到第一语音数据对应的语气信息；还可以通过语音识别单元对该第一语音数据进行语音识别，以得到第一语音数据对应的语音识别结果，即语音文本信息；其中，语音文本信息的语种与第一语音数据的语种是相同的。

具体地，语气识别单元的输入为第一语音数据，输出为语气信息；这里，语气信息可以包括第一语气信息，该第一语气信息表示语气信息中的任意一种语气信息。由于不同的语气信息所对应的语气时间是不同的，而且语气类型也是不同的；比如语气类型可以是温柔语气类型、高亢语气类型、低沉语气类型和轻快语气类型等；也就是说，第一语气信息包括有第一语气类型和第一语气时间，即在第一语气时间，此时用户的说话语气为第一语气类型。

语音识别单元的输入为第一语音数据，输出为语音文本信息；这里，语音文本信息表示了第一语音数据所对应语种的文本信息；其中，语音文本信息包括第一文字，第一文字可以是通过语音识别单元所得到的语音识别结果，而且该第一文字表示为语音文本信息中的任意文字。

S303：对所述语音文本信息进行翻译，得到翻译文本信息；

需要说明的是，在得到语音文本信息之后，可以通过翻译单元对语音文本信息进行翻译处理，以得到翻译结果，即翻译文本信息。其中，翻译文本信息对应的语种不同于第一语音数据对应的语种。

还需要说明的是，翻译文本信息包括有第一翻译文字，第一翻译文字可以是通过翻译单元所得到的翻译结果，而且该第一翻译文字对应的语种与第一文字对应的语种不同。

这样，在获取到待处理的第一语音数据之后，可以通过对该第一语音数据的识别以及翻译处理，从而能够得到该第一语音数据对应的语气信息和翻译文本信息，方便后续根据语气信息和翻译文本信息的匹配关系，以选取合适的显示策略对翻译文本信息进行显示。

S304：基于所述语音文本信息和所述语气信息的匹配关系，确定所述翻译文本信息和所述语气信息的匹配关系；

需要说明的是，在识别出第一语音数据对应的语气信息以及语音文本信息之后，可以对语音文本信息和语气信息进行匹配，以确定出语音文本信息中的第一文字与语气信息中的第一语气信息的匹配对；然后还可以根据第一文字与第一语气信息的匹配对，结合与第一文字对应的第一翻译文字，从而可以得到第一翻译文字与第一语气信息的匹配对，也就建立了翻译文本信息与语气信息的匹配关系。

这样，假定后续需要通过显示单元来显示语音识别结果(即语音文本信息)，那么可以根据第一文字与第一语气信息的匹配对，针对语音识别结果在显示语音文本信息的同时，还需要根据显示策略体现出语气信息；或者，假定后续需要通过显示单元来显示翻译结果(即翻译文本信息)，那么可以根据第一翻译文字与第一语气信息的匹配对，针对翻译结果在显示翻译文本信息的同时，也需要根据显示策略体现出语气信息。

S305：根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据。

这里，第二语音数据对应的语种不同于所述第一语音数据对应的语种，但是第二语音数据对应的语种与翻译文本信息对应的语种相同；另外，第二语音数据是根据翻译文本信息和语气信息进行语音合成得到的，而且第二语音数据用于在播放第一语音数据时在客户端进行呈现。

在一些实施例中，对于S305来说，所述根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据，可以包括：

根据所述翻译文本信息，确定目标合成模型；

根据所述翻译文本信息和所述语气信息的匹配关系，利用目标合成模型对所述翻译文本信息和所述语气信息进行语音合成，得到所述第二语音数据。

需要说明的是，目标合成模型为表征对翻译文本信息和语气信息进行语音合成的模型。这样，在得到翻译文本信息和语气信息之后，可以根据翻译文本信息和语气信息的匹配关系，利用目标合成模型得到第二语音数据；如此，由于在呈现第二语音数据时还可以体现语气变化，从而能够提高同传***的准确性。

进一步地，在一些实施例中，对于S305来说，在所述生成第二语音数据之后，该方法还可以包括：

根据所述翻译文本信息和所述语气信息的匹配关系，获得所述翻译文本信息对应的显示结果。

本申请实施例中，显示结果表示在播放第一语音数据时根据所述语气信息在客户端呈现所述翻译文本信息。

需要说明的是，显示策略可以包括有颜色区分策略、文字区分策略、字体大小区分策略、位置区分策略、风格区分策略、图标区分策略、图形区分策略和图像区分策略等等，本申请实施例不作具体限定。

还需要说明的是，在语音处理装置中，可以预先存储有语气信息与显示策略的对应关系；也就是说，不同的语气信息将选择不同的显示策略。如此，根据翻译文本信息和语气信息的匹配关系，可以得到翻译文本信息所对应的语气信息，结合预先存储的语气信息与显示策略的对应关系，从而可以确定出翻译文本信息所对应的显示策略，然后所获得的显示结果即为按照对应的显示策略在客户端呈现翻译文本信息。

在一些实施例中，所述根据所述翻译文本信息和所述语气信息的匹配关系，获得所述翻译文本信息对应的显示结果，可以包括：

获取预设的语气信息与显示策略的对应关系；

根据所获取的语气信息与显示策略的对应关系，确定所述语气信息对应的显示策略；

根据所确定的显示策略以及所述翻译文本信息和所述语气信息的匹配关系，获得所述翻译文本信息对应的显示结果；其中，所述显示结果表示在播放所述第一语音数据时按照所确定的显示策略在客户端呈现所述翻译文本信息。

示例性地，假定显示策略以字体大小区分策略为例，如果语气信息为温柔语气类型，对应的翻译文本信息为文字A，那么文字A在客户端将以常规四号字体作为显示策略进行显示；如果语气信息为轻快语气类型，对应的翻译文本信息为文字B，那么文字B在客户端将以加粗四号字体作为显示策略进行显示；如果语气信息为高亢语气类型，对应的翻译文本信息为文字C，那么文字C在客户端将以常规三号字体作为显示策略进行显示；如果语气信息为低沉语气类型，对应的翻译文本信息为文字D，那么文字D在客户端将以常规五号字体作为显示策略进行显示。或者，假定显示策略以颜色区分策略为例，如果语气信息为温柔语气类型，对应的翻译文本信息为文字A，那么文字A在客户端将以蓝色作为显示策略进行显示；如果语气信息为轻快语气类型，对应的翻译文本信息为文字B，那么文字B在客户端将以绿色作为显示策略进行显示；如果语气信息为高亢语气类型，对应的翻译文本信息为文字C，那么文字C在客户端将以红色作为显示策略进行显示；如果语气信息为低沉语气类型，对应的翻译文本信息为文字D，那么文字D在客户端将以黑色作为显示策略进行显示；本申请实施例对此不作具体限定。

这样，在确定出翻译文本信息对应的显示策略之后，这时候可以按照该显示策略在客户端呈现翻译文本信息。如此，使得用户在观看的时候，不仅可以获得翻译文本信息，还可以获得语气信息；也就是说，本申请实施例的技术方案使得用户可以方便、实时地获取演讲者的语气变化信息，从而避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象；而且当用户听不清或者听不到演讲者的发音时，也不会影响用户获取演讲者的说话语气信息。

进一步地，当需要在客户端呈现语音文本信息时，这时候可以根据所确定的显示策略以及语音文本信息和语气信息的匹配关系，获得所述语音文本信息对应的显示结果。因此，在一些实施例中，在确定所述语气信息对应的显示策略之后，该方法还可以包括：

根据所确定的显示策略以及所述语音文本信息和所述语气信息的匹配关系，获得所述语音文本信息对应的显示结果；其中，所述显示结果表示在播放所述第一语音数据时按照所确定的显示策略在客户端呈现所述语音文本信息。

也就是说，当所显示的文本信息为语音文本信息时，这时候可以确定出语音文本信息中第一文字对应的显示策略，然后按照所确定的显示策略对第一文字进行显示；或者当所显示的文本信息为翻译文本信息时，这时候可以确定出翻译文本信息中第一翻译文字对应的显示策略，然后按照所确定的显示策略对第一翻译文字进行显示。如此，可以使得用户方便、及时地获取演讲者的语气变化信息，避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象。

在本申请实施例中，该语音处理方法不仅可以应用于同传***，还可以应用于其他音视频***中，例如，还可以应用到视频会议***中；即当用户通过视频会议***进行会议时，该视频会议***的显示装置(或显示单元)可以将演讲者的发言内容或者翻译内容显示出来，而且不同文字还可以根据该文字所对应的不同说话语气以不同的显示策略进行显示。如此，在同传***的应用场景中，演讲者的语音数据转为语音文字，然后语音文字翻译成另一语种的翻译文字，由于不同语种所表达语气的方式不同，以及同传***本身的时间延迟，这样，另一语种的聆听者在观看所显示的翻译文字时，将无法同步地感受到说话人的语气信息，这时候可以在翻译文字中实时加入语气信息，有效避免了因用户看到同传***的输出结果与用户听到的演讲者说话中包含的语气不同步而导致用户对演讲者说话语气变化的判断发生混乱或者错误现象，使得另一语种的聆听者能够正确理解到演讲者在表达当前语句时的语气信息。

由于本申请实施例的语音处理装置除了包括语音识别单元、翻译单元和显示单元外，该语音识别装置中还包括有语气识别单元。这样，用户使用本申请实施例所提供的同传***，该同传***不仅可以将演讲者的发言内容(即语音识别结果)或者对应的翻译内容(即翻译结果)在显示单元进行显示，其中，针对发言内容或者对应的翻译内容中的不同文字 (包括不同的字或词)还可以根据该字或词对应的不同语气信息选择不同的显示策略进行显示。例如，用户使用同传***聆听演讲，当同传***输出演讲者的发言内容或者对应的翻译内容时，在发言内容或者对应的翻译内容中说话语气发生变化的词或者字可以以不同的显示方式进行显示；这样，用户在观看的时候，不仅可以获得演讲者的发言内容或者对应的翻译内容，还可以获得演讲者说话的语气信息；从而避免了因用户看到同传***的输出结果与用户听到的演讲者说话中包含的语气不同步而导致用户对演讲者说话语气变化的判断发生混乱或者错误现象；而且当用户听不清或者听不到演讲者的发音时，也不会影响用户获取演讲者说话语气信息。

本实施例提供了一种语音处理方法，获取待处理的第一语音数据；识别第一语音数据对应的语气信息以及语音文本信息；对语音文本信息进行翻译，得到翻译文本信息；其中，翻译文本信息对应的语种不同于第一语音数据对应的语种；基于语音文本信息和语气信息的匹配关系，确定翻译文本信息和语气信息的匹配关系；根据翻译文本信息和语气信息的匹配关系，生成第二语音数据；其中，第二语音数据对应的语种不同于第一语音数据对应的语种，且第二语音数据用于在播放第一语音数据时在客户端进行呈现；这样，针对待处理的第一语音数据，不仅识别出了文本信息，还识别出了语气信息；如此在得到第二语音数据的过程中，不仅考虑了翻译文本信息，而且还考虑了语气信息，使得第二语音数据在播放的过程中还能够体现语气变化；也即在显示文本信息的同时，还可以将语气发生变化的文字以不同的显示策略进行显示；如此，本申请实施例的技术方案可以方便、及时地获取演讲者的语气变化信息，从而避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象；而且当用户听不清或者听不到演讲者的发音时，也不会影响用户获取演讲者的说话语气信息，提高了同传***的准确性。

本申请的另一实施例中，从语气识别单元的角度，参见图4，其示出了本申请实施例提供的另一种语音处理方法的流程示意图。如图4所示，该方法可以包括：

S401：输入待处理的第一语音数据；

S402：判断是否通过第一信息对所述第一语音数据进行语气识别；

需要说明的是，第一信息用于表征第一语音数据中声音的频谱特征，比如谱特征信息，可以包括音频谱、能量谱、LOG能量谱和Mel谱等。其中，针对待处理的第一语音数据进行语气识别，可以是通过第一信息来对第一语音数据进行语气识别，也可以通过其他信息(比如第二信息或第三信息)来对第一语音数据进行语气识别，本申请实施例不作具体限定。

S403：当判断结果为通过第一信息对所述第一语音数据进行语气识别时，从所述第一语音数据中提取第一信息；

S404：根据所述第一信息对所述第一语音数据进行语气识别，确定第一语音数据对应的语气信息；

需要说明的是，如果判断结果为通过第一信息对第一语音数据进行语气识别，那么可以从第一语音数据中提取第一信息，然后根据第一信息对第一语音数据进行语气识别，以确定出第一语音数据对应的语气信息。

具体地，在一些实施例中，所述根据所述第一信息对所述第一语音数据进行语气识别，确定所述第一语音数据对应的语气信息，可以包括：

将第一信息输入预设识别模型，通过预设识别模型输出所述第一语音数据对应的语气信息。

也就是说，当根据第一信息对第一语音数据进行语气识别时，这时候可以采用模型的方式，即将第一信息输入预设识别模型，然后通过该预设识别模型输出第一语音数据对应的语气信息。

在本申请实施例中，预设识别模型可以是预先采用机器学习算法训练得到的模型。具体地，可以采用决策树、支持向量机、神经网络、深度神经网络等机器学习算法，利用训练样本进行模型训练，以得到预设识别模型。其中，训练样本可以是从样本第一语音数据中提取出的多个样本信息，根据多个样本信息进行训练，可以不断优化预设识别模型，使得预设识别模型的识别结果更准确，从而能够提高语气信息的识别准确性。

S405：当判断结果为不通过第一信息对所述第一语音数据进行语气识别时，从所述第一语音数据中提取第二信息；

S406：根据所述第二信息对所述第一语音数据进行语气识别，确定第一语音数据对应的语气信息；

S407：输出第一语音数据对应的语气信息。

需要说明的是，如果判断结果为不通过第一信息对第一语音数据进行语气识别，那么可以从第一语音数据中提取第二信息，然后根据第二信息对第一语音数据进行语气识别，以确定出第一语音数据对应的语气信息。

这里，第二信息表征第一语音数据中声音的能量大小。其中，声音具有能量，例如超声波的应用就体现声音的能量；通常可以利用声强来反映能量的大小；其中，声强是指单位时间内声波通过垂直于传播方向单位面积的声能量。这样，可以通过第一语音数据中声音的能量信息来识别出语气信息，而且通过能量大小就可以反映第一语音数据中的语气变化。

进一步地，在一些实施例中，对于S405来说，当判断结果为不通过第一信息对所述第一语音数据进行语气识别时，该方法还可以包括：

从所述第一语音数据中提取第三信息；

根据所述第三信息对所述第一语音数据进行语气识别，确定第一语音数据对应的语气信息。

需要说明的是，如果判断结果为不通过第一信息对第一语音数据进行语气识别，那么还可以从第一语音数据中提取第三信息，然后根据第三信息对第一语音数据进行语气识别，以确定出第一语音数据对应的语气信息。

这里，第三信息表征第一语音数据中声音的音量大小。其中，音量又称为响度、音强，主要是指人耳对所听到的声音大小强弱的主观感受，其客观评价标准为声音的振幅大小。这样，可以通过第一语音数据中声音的音量信息来识别出语气信息，而且通过音量大小也可以反映第一语音数据中的语气变化；另外，由于音量信息更贴近于人耳的主观感受，可以使得所识别的语气信息更贴近于真实语气信息。

也就是说，当判断结果为不通过第一信息(比如谱特征信息)对第一语音数据进行语气识别时，这时候可以根据第二信息(比如能量信息)对第一语音数据进行语气识别，也可以根据第三信息(比如音量信息)对第一语音数据进行语气识别。另外，对于第二信息或者第三信息来说，可以通过将其与预设信息阈值进行比较，根据比较的结果确定出第一语音数据对应的语气信息。

具体地，在一些实施例中，所述根据所述第二信息对所述第一语音数据进行语气识别，确定所述第一语音数据对应的语气信息，包括：

将第二信息与预设信息阈值进行比较；

当第二信息大于预设信息阈值且所述第二信息大于预设信息阈值的持续时间超过预设时间阈值时，确定第一语音数据对应第一类型的语气信息；

当第二信息小于或等于预设信息阈值或者所述第二信息大于预设信息阈值的持续时间没有超过预设时间阈值时，确定第一语音数据对应第二类型的语气信息。

具体地，在一些实施例中，所述根据所述第三信息对所述第一语音数据进行语气识别，确定第一语音数据对应的语气信息，可以包括：

将第三信息与预设信息阈值进行比较；

当第三信息大于预设信息阈值且所述第三信息大于预设信息阈值的持续时间超过预设时间阈值时，确定第一语音数据对应第一类型的语气信息；

当第三信息小于或等于预设信息阈值或者所述第三信息大于预设信息阈值的持续时间没有超过预设时间阈值时，确定第一语音数据对应第二类型的语气信息。

需要说明的是，语气信息还可以划分为第一类型的语气信息和第二类型的语气信息，且第一类型和第二类型不同。这里，第一类型的语气信息和第一类型的语气信息是根据第二信息或者第三信息来判断的。

示例性地，以第二信息为例，假定第一类型的语气信息可以是重语气信息，第二类型的语气信息可以是轻语气信息；那么当第二信息大于预设信息阈值且第二信息大于预设信息阈值的持续时间超过预设时间阈值时，这时候第一语音数据的语气信息确定为重语气信息；当第二信息小于或等于预设信息阈值或者第二信息大于预设信息阈值的持续时间没有超过预设时间阈值时，这时候第一语音数据的语气信息确定为轻语气信息。

本申请实施例中，应用于同传***的语音处理装置中包括有语气识别单元，该语气识别单元的输入为待处理的第一语音数据，输出为演讲者(说话人)的语气信息。这样，当显示单元上显示演讲者的发言内容(即语音文本信息)或者对应的翻译内容(即翻译文本信息)时，根据所识别出的语气信息可以将发言内容或者对应的翻译内容中的不同文字根据该字或词对应的不同语气信息选择不同的显示策略进行显示。也就是说，语气识别单元可以通过谱特征信息对第一语音数据中的语气变化进行判断，也可以通过音量信息或能量信息对第一语音数据中的语气变化进行判断。其中，通过谱特征信息对第一语音数据中的语气进行判断时，可以使用模型的方式，将谱特征信息输入预设识别模型，通过该预设识别模型输出对应的语气信息；而通过音量信息或者能量信息等对第一语音数据中的语气进行判断时，此时可以通过音量信息或者能量信息的变化规律进行判断；具体地，当音量信息或者能量信息连续在一段时间内超过预设信息阈值时，这时候可以输出加重的语气，比如这时候的语气信息为重语气信息；否则，输出其他语气，比如这时候的语气信息为轻语气信息。由于语气识别模块的输出结果为语气信息，且语气信息可以包括有语气类型和语气时间；这里，语气类型表示了演讲者的说话语气，语气时间表示了演讲者的语气变化时间。如此，根据该语气时间可以更好地得到语音识别结果与语气信息的匹配关系。

本申请的又一实施例中，从语音识别单元的角度，参见图5，其示出了本申请实施例提供的又一种语音处理方法的流程示意图。如图5所示，该方法可以包括：

S501：输入待处理的第一语音数据；

S502：对第一语音数据进行语音识别，确定第一语音数据对应的语音文本信息，所述语音文本信息包括第一文字；

S503：根据语气识别单元所输入的语气信息，将语音文本信息和语气信息进行匹配；

S504：输出语音文本信息中的第一文字与语气信息中的第一语气信息的匹配对。

需要说明的是，语气信息中包括有第一语气信息，而第一语气信息包括第一语气类型和第一语气时间。具体地，针对将所述语音文本信息和所述语气信息进行匹配，可以包括：

将所述语音文本信息和所述语气信息进行匹配，根据所述第一语气信息中的第一语气时间确定所述语音文本信息中的第一文字，并根据所述第一语气时间确定所述第一语气信息中的第一语气类型；

根据所述第一文字、所述第一语气时间以及所述第一语气类型，得到所述第一文字与所述第一语气信息的匹配对。

也就是说，针对第一语气信息中所包括的第一语气时间，可以较准确地确定语音文本信息(即语音识别结果)中的第一文字，从而根据该第一语气时间可以更好地得到语音文本信息与语气信息的匹配关系；另外，该第一语气时间还可以在显示单元进行显示时，能够确定第一文字在对应的显示策略下所需要持续的显示时间，从而能够更好地获取演讲者的语气变化信息，避免用户对演讲者说话语气变化的判断发生混乱或者错误现象。

本申请实施例中，应用于同传***的语音处理装置中还包括有语音识别单元，这里，语音识别单元和语气识别单元是并行工作的；也就是说，语音识别结果和语气信息是同步执行的。在语音识别单元得到语音识别结果之后，可以根据语气识别单元所得到的语气信息，对语音识别结果进行匹配，能够得到语音文本信息中的第一文字(字或词)对应的第一语气信息，从而形成了第一文字与第一语气信息的匹配对。如此，在后续显示单元中对语音文本信息进行显示的时候，不仅可以显示文本信息，还可以将语气发生变化的文字以不同的显示策略进行显示，使得用户在观看的时候，不仅可以获得文字信息，还可以获得该文字对应的语气信息，避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象。

本申请的再一实施例中，从翻译单元的角度，参见图6，其示出了本申请实施例提供的再一种语音处理方法的流程示意图。如图5所示，该方法可以包括：

S601：输入语音文本信息；

S602：对语音文本信息进行翻译处理，确定第一语音数据对应的翻译文本信息；其中，翻译文本信息包括第一翻译文字；

S603：根据语音文本信息中的第一文字与语气信息中的第一语气信息的匹配对，对翻译文本信息和语气信息进行匹配；

S604：输出翻译文本信息中的第一翻译文字与语气信息中的第一语气信息的匹配对。

需要说明的是，第一文字与第一翻译文字之间具有对应关系，即第一文字经过翻译处理后得到第一翻译文字。这样，根据语音文本信息中的第一文字与第一语气信息的匹配对，可以得到第一翻译文字与第一语气信息的匹配对。

本申请实施例中，应用于同传***的语音处理装置中还包括有翻译单元，这里，翻译单元是在语音识别单元之后工作的，即翻译单元和语音识别单元为串行工作。在翻译单元得到翻译文本信息之后，还可以根据语音文本信息中的第一文字与语气信息中的第一语气信息的匹配对，对翻译文本信息进行匹配，能够得到翻译文本信息中的第一翻译文字(字或词)对应的第一语气信息，从而形成了第一翻译文字与第一语气信息的匹配对。如此，在后续显示单元中对翻译文本信息进行显示的时候，不仅可以显示文本信息，还可以将语气发生变化的翻译文字以不同的显示策略进行显示，使得用户在观看的时候，不仅可以获得文字信息，还可以获得该文字对应的语气信息，避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象。

本申请的再一实施例中，从显示单元的角度，参见图7，其示出了本申请实施例提供的再一种语音处理方法的流程示意图。如图7所示，该方法可以包括：

S701：输入待显示的文本信息以及文本信息与语气信息的匹配关系；

S702：根据文本信息与语气信息的匹配关系，确定待显示的文本信息对应的显示策略；

S703：按照所确定的显示策略，输出待显示的文本信息。

需要说明的是，待显示的文本信息可以是语音文本信息中的第一文字，也可以是翻译文本信息中的第一翻译文字，本申请实施例不作具体限定。

还需要说明的是，显示策略可以包括有颜色区分策略、文字区分策略、字体大小区分策略、位置区分策略、风格区分策略、图标区分策略、图形区分策略和图像区分策略等等，本申请实施例不作具体限定。

另外，在语音处理装置中，可以预先存储有语气信息与显示策略的对应关系，即不同的语气信息将选择不同的显示策略。如此，根据翻译文本信息和语气信息的匹配关系，可以得到翻译文本信息所对应的语气信息，结合预先存储的语气信息与显示策略的对应关系，从而可以确定出翻译文本信息所对应的显示策略，然后所获得的显示结果即为按照对应的显示策略在客户端呈现翻译文本信息。还需要注意的是，针对语气信息中的语气时间，一方面可以是根据该语气时间，能够更好地得到语音文本信息中的第一文字与第一语气信息的匹配关系；另一方面还可以是在显示单元进行显示时，能够确定第一文字或第一翻译文字在对应的显示策略下所需要持续的显示时间，从而能够更好地获取演讲者的语气变化信息，避免用户对演讲者说话语气变化的判断发生混乱或者错误现象。

本申请实施例中，应用于同传***的语音处理装置中包括有显示单元，该显示单元可以显示演讲者的发言内容(即语音文本信息)或者对应的翻译内容(即翻译文本信息)；这时候需要根据待显示的文本信息与语气信息的匹配关系，比如语音文本信息中的第一文字与第一语气信息的匹配对，或者翻译文本信息中的第一翻译文字与第一语气信息的匹配对；这样，针对不同文字的不同说话语气，可以选择不同的显示策略，比如可以是按照文字、颜色、位置、字体大小、风格、图标、图形或图像等进行区分显示。如此，在显示单元将演讲者的发言内容或者对应的翻译内容进行显示时，可以将发言内容或者对应的翻译内容中的不同文字根据该字或词对应的不同语气信息选择不同的显示策略进行显示，从而使得用户在观看的时候，不仅可以获得文字信息，还可以获得该文字对应的语气信息，避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象。

下面将通过两个详细流程示例对该语音处理方法的具体应用场景进行详细描述。

基于前述实施例相同的发明构思，参见图8，其示出了本申请实施例提供的一种语音处理方法的详细流程示意图。如图8所示，该详细流程可以包括：

S801：获取待处理的第一语音数据；

S802：对第一语音数据进行语气识别，确定第一语音数据对应的语气信息，所述语气信息包括第一语气信息；

S803：对第一语音数据进行语音识别，确定第一语音数据对应的语音文本信息，所述语音文本信息包括第一文字；

需要说明的是，可以通过语气识别单元对该第一语音数据进行语气识别，以得到第一语音数据对应的语气信息；还可以通过语音识别单元对该第一语音数据进行语音识别，以得到第一语音数据对应的语音识别结果(即语音文本信息)；这里，语气识别单元和语音识别单元两者是并行工作的。

还需要说明的是，第一语气信息包括有第一语气类型和第一语气时间，即在第一语气时间，此时用户的说话语气为第一语气类型；语音文本信息中包括有第一文字，这样，在获得语音文本信息之后，可以确定语音文本信息中的第一文字与第一语气信息的匹配对。

S804：将语音文本信息和语气信息进行匹配，确定所述语音文本信息中的第一文字与所述语气信息中的第一语气信息的匹配对；

S805：根据所述语音文本信息中的第一文字与所述语气信息中的第一语气信息的匹配对，确定所述第一文字对应的显示策略；

S806：将所述第一文字按照所确定的显示策略在客户端进行呈现。

需要说明的是，由于语音信息中包括有第一语气信息，而第一语气信息包括第一语气类型和第一语气时间。具体地，针对将所述语音文本信息和所述语气信息进行匹配，可以包括：将语音文本信息和所述语气信息进行匹配，根据所述第一语气信息中的第一语气时间确定所述语音文本信息中的第一文字，并根据所述第一语气时间确定所述第一语气信息中的第一语气类型；根据所述第一文字、所述第一语气时间以及所述第一语气类型，得到所述第一文字与所述第一语气信息的匹配对。

也就是说，当显示单元需要显示演讲者的发言内容(即语音文本信息)时，这时候在确定出语音文本信息中的第一文字与语气信息中的第一语气信息的匹配对之后，可以根据语音文本信息中的第一文字与语气信息中的第一语气信息的匹配对，确定出第一文字对应的显示策略，然后按照所确定的显示策略对语音文本信息中的第一文字进行显示。也就是说，在客户端(或显示单元)将演讲者的发言内容进行显示时，可以将发言内容中的不同文字根据该字或词对应的不同语气信息选择不同的显示策略进行显示，从而使得用户在观看的时候，能够更好地获取演讲者的语气变化信息，避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象。

通过上述实施例，对前述实施例的具体实现进行了详细阐述，从中可以看出，针对待处理的第一语音数据，不仅识别出了文本信息(比如语音文本信息)，还识别出了语气信息；如此在得到第二语音数据的过程中，不仅考虑了翻译文本信息，而且还考虑了语气信息，使得第二语音数据在播放的过程中还能够体现语气变化；也即在显示文字的同时，还可以将语气发生变化的文字以不同的显示策略进行显示，使得用户在观看的时候，不仅可以获得文字信息，还可以获得该文字对应的语气信息；如此，可以方便、及时地获取演讲者的语气变化信息，从而避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象；而且当用户听不清或者听不到演讲者的发音时，也不会影响用户获取演讲者的说话语气信息。

基于前述实施例相同的发明构思，参见图9，其示出了本申请实施例提供的另一种语音处理方法的详细流程示意图。如图9所示，该详细流程可以包括：

S901：获取待处理的第一语音数据；

S902：对第一语音数据进行语气识别，确定第一语音数据对应的语气信息，所述语气信息包括第一语气信息；

S903：对第一语音数据进行语音识别，确定第一语音数据对应的语音文本信息，所述语音文本信息包括第一文字；

需要说明的是，可以通过语气识别单元对该第一语音数据进行语气识别，以得到第一语音数据对应的语气信息；还可以通过语音识别单元对该第一语音数据进行语音识别，以得到第一语音数据对应的语音文本信息；这里，语气识别单元和语音识别单元两者是并行工作的。

S904：将语音文本信息和语气信息进行匹配，确定所述语音文本信息中的第一文字与所述语气信息中的第一语气信息的匹配对；

S905：对所述语音文本信息进行翻译处理，确定所述第一语音数据对应的翻译文本信息；其中，所述翻译文本信息包括与所述第一文字对应的第一翻译文字；

需要说明的是，可以通过翻译单元对该语音文本信息进行翻译处理，以得到第一语音数据对应的翻译文本信息。这里，翻译单元和语音识别单元两者是串行工作的，而且翻译单元是在语音识别单元之后进行处理。

还需要说明的是，第一文字与第一翻译文字之间具有对应关系，即第一文字经过翻译处理后得到第一翻译文字。这样，根据语音文本信息中的第一文字与第一语气信息的匹配对，后续还可以得到第一翻译文字与第一语气信息的匹配对。

S906：根据第一文字与第一语气信息的匹配对，对翻译文本信息和语气信息进行匹配，确定所述翻译文本信息中的第一翻译文字与所述第一语气信息的匹配对；

S907：根据所述第一翻译文字与所述第一语气信息的匹配对，确定所述第一翻译文字对应的显示策略；

S908：将所述第一翻译文字按照所确定的显示策略在客户端进行呈现。

需要说明的是，当显示单元需要显示演讲者发言对应的翻译内容(即翻译文本信息)时，这时候在确定出翻译文本信息中的第一翻译文字与第一语气信息的匹配对之后，然后根据翻译文本信息中的第一翻译文字与语气信息中的第一语气信息的匹配对，确定出第一翻译文字对应的显示策略，然后按照所确定的显示策略对翻译结果中的第一翻译文字进行显示。也就是说，在客户端(或显示单元)将演讲者发言对应的翻译内容进行显示时，可以将翻译内容中的不同文字根据该字或词对应的不同语气信息选择不同的显示策略进行显示，从而使得用户在观看的时候，能够更好地获取演讲者的语气变化信息，避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象。

也就是说，在本申请实施例中，应用于同传***的语音处理装置新增加了语气识别单元，而且该语气识别单元可以通过谱特征信息进行语气识别，也可以通过音量信息或能量信息进行语气识别；然后根据语气识别单元的输出结果，对语音文本信息进行匹配，可以得到语音文本信息中的第一文字(包括字或词)与语气信息中的第一语气信息的匹配对；再根据语音文本信息中的第一文字与第一语气信息的匹配对，对翻译文本信息进行匹配，可以得到翻译文本信息中第一翻译文字(包括字或词)与第一语气信息的匹配对；最后根据显示单元中待显示的字或词与语气信息的匹配关系，选择与之对应的显示策略，然后在显示单元中按照该显示策略将对应的字或词进行显示。

通过上述实施例，对前述实施例的具体实现进行了详细阐述，从中可以看出，针对待处理的第一语音数据，不仅识别出了文本信息，还识别出了语气信息；如此在得到第二语音数据的过程中，不仅考虑了翻译文本信息，而且还考虑了语气信息，使得第二语音数据在播放的过程中还能够体现语气变化；也即在显示文本信息的同时，还可以将语气发生变化的文字以不同的显示策略进行显示，使得用户在观看的时候，不仅可以获得文字信息，还可以获得该文字对应的语气信息；如此，可以方便、实时地获取演讲者的语气变化信息，从而避免了用户对演讲者说话语气变化的判断发生混乱或者错误现象；而且当用户听不清或者听不到演讲者的发音时，也不会影响用户获取演讲者的说话语气信息，提高了同传***的准确性。

基于前述实施例相同的发明构思，参见图10，其示出了本申请实施例提供的一种语音处理装置100的组成结构示意图。如图10所示，该语音处理装置100可以包括：获取单元1001、识别单元1002、、翻译单元1003、匹配单元1004和生成单元1005，其中，

获取单元1001，配置为获取待处理的第一语音数据；

识别单元1002，配置为识别所述第一语音数据对应的语气信息以及语音文本信息；

翻译单元1003，配置为对所述语音文本信息进行翻译，得到翻译文本信息；其中，翻译文本信息对应的语种不同于所述第一语音数据对应的语种；

匹配单元1004，配置为基于所述语音文本信息和所述语气信息的匹配关系，确定所述翻译文本信息和所述语气信息的匹配关系；

生成单元1005，配置为根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据；其中，所述第二语音数据对应的语种不同于所述第一语音数据对应的语种，且所述第二语音数据用于在播放所述第一语音数据时在客户端进行呈现。

在上述方案中，参见图11，所述识别单元1002还包括有语气识别单元1021和语音识别单元1022，其中，

语气识别单元1021，配置为对所述第一语音数据进行语气识别，确定所述第一语音数据对应的语气信息；

语音识别单元1022，配置为对所述第一语音数据进行语音识别，确定所述第一语音数据对应的语音文本信息。

在上述方案中，参见图11，语音处理装置100还可以包括提取单元1006，配置为从所述第一语音数据中提取第一信息，所述第一信息表征所述第一语音数据中声音的频谱特征；

语气识别单元1021，配置为将所述第一信息输入预设识别模型，通过所述预设识别模型输出所述第一语音数据对应的语气信息。

在上述方案中，参见图11，语音处理装置100还可以包括比较单元1007，其中，

提取单元1006，还配置为从所述第一语音数据中提取第二信息，所述第二信息表征所述第一语音数据中声音的能量大小；

比较单元1007，配置为将所述第二信息与预设信息阈值进行比较；

语气识别单元1021，还配置为根据比较的结果确定所述第一语音数据对应的语气信息。

在上述方案中，语气识别单元1021，具体配置为当所述第二信息大于所述预设信息阈值且所述第二信息大于所述预设信息阈值的持续时间超过预设时间阈值时，确定所述第一语音数据对应第一类型的语气信息；或者，当所述第二信息小于或等于所述预设信息阈值或者所述第二信息大于所述预设信息阈值的持续时间没有超过预设时间阈值时，确定所述第一语音数据对应第二类型的语气信息，所述第一类型与所述第二类型不同。

在上述方案中，匹配单元1004，还配置为对所述语音文本信息和所述语气信息进行匹配，确定所述语音文本信息中的第一文字和所述语气信息中的第一语气信息的匹配对；其中，所述语音文本信息包括所述第一文字，所述语气信息包括所述第一语气信息；以及根据所述第一文字与所述第一语气信息的匹配对，获得所述语音文本信息和所述语气信息的匹配关系。

在上述方案中，匹配单元1004，还配置为根据所述第一文字与所述第一语气信息的匹配对，确定所述翻译文本信息中的第一翻译文字与所述第一语气信息的匹配对；其中，所述翻译文本信息包括与所述第一文字对应的第一翻译文字；以及根据所述第一翻译文字与所述第一语气信息的匹配对，获得所述翻译文本信息和所述语气信息的匹配关系。

在上述方案中，参见图11，语音处理装置100还可以包括确定单元1008，配置为根据所述翻译文本信息，确定目标合成模型；其中，所述目标合成模型表征对所述翻译文本信息和所述语气信息进行语音合成的模型；

生成单元1005，具体配置为根据所述翻译文本信息和所述语气信息的匹配关系，利用目标合成模型对所述翻译文本信息和所述语气信息进行语音合成，得到所述第二语音数据。

在上述方案中，参见图11，语音处理装置100还可以包括显示单元1009，其中，

获取单元1001，还配置为获取预设的语气信息与显示策略的对应关系；

确定单元1008，还配置为根据所获取的语气信息与显示策略的对应关系，确定所述语气信息对应的显示策略；

显示单元1009，配置为根据所确定的显示策略以及所述翻译文本信息和所述语气信息的匹配关系，获得所述翻译文本信息对应的显示结果；其中，所述显示结果表示在播放所述第一语音数据时按照所确定的显示策略在客户端呈现所述翻译文本信息。

在上述方案中，显示单元1009，还配置为根据所确定的显示策略以及所述语音文本信息和所述语气信息的匹配关系，获得所述语音文本信息对应的显示结果；其中，所述显示结果表示在播放所述第一语音数据时按照所确定的显示策略在客户端呈现所述语音文本信息。

可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机存储介质，该计算机存储介质存储有语音处理程序，所述语音处理程序被至少一个处理器执行时实现前述实施例中任一项所述的方法。

参见图12，其示出了本申请实施例提供的一种设备120的具体硬件结构示意图。如图 12所示，该设备120可以包括：通信接口1201、存储器1202和处理器1203；各个组件通过总线***1204耦合在一起。可理解，总线***1204用于实现这些组件之间的连接通信。总线***1204除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图12中将各种总线都标为总线***1204。其中，

通信接口1201，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

存储器1202，用于存储能够在处理器1203上运行的计算机程序；

处理器1203，用于在运行所述计算机程序时，执行：

获取待处理的第一语音数据；

识别所述第一语音数据对应的语气信息以及语音文本信息；

可以理解，本申请实施例中的设备120可以是终端设备，也可以是服务器。这里，存储器1202可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。而处理器1203可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1203中的硬件的集成逻辑电路或者软件形式的指令完成。该处理器1203可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。其中，软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1202，处理器1203读取存储器1202中的信息，结合其硬件完成上述方法的步骤。

还可以理解，本申请描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。其中，对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable Logic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。对于软件实现，可通过执行本申请所述功能的模块(例如过程、函数等)来实现本申请所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，作为另一个实施例，处理器1203还配置为在运行所述计算机程序时，执行前述实施例中任一项所述的方法。

需要说明的是，在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音处理方法，所述方法包括：

获取待处理的第一语音数据；

识别所述第一语音数据对应的语气信息以及语音文本信息；

对所述语音文本信息进行翻译，得到翻译文本信息；其中，所述翻译文本信息对应的语种不同于所述第一语音数据对应的语种；

基于所述语音文本信息和所述语气信息的匹配关系，确定所述翻译文本信息和所述语气信息的匹配关系；

根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据；其中，所述第二语音数据对应的语种不同于所述第一语音数据对应的语种，且所述第二语音数据用于在播放所述第一语音数据时在客户端进行呈现。
根据权利要求1所述的方法，其中，所述根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据，包括：

根据所述翻译文本信息，确定目标合成模型；其中，所述目标合成模型表征对所述翻译文本信息和所述语气信息进行语音合成的模型；

根据所述翻译文本信息和所述语气信息的匹配关系，利用目标合成模型对所述翻译文本信息和所述语气信息进行语音合成，得到所述第二语音数据。
根据权利要求1所述的方法，其中，所述识别所述第一语音数据对应的语气信息以及语音文本信息，包括：

对所述第一语音数据进行语气识别，确定所述第一语音数据对应的语气信息；

对所述第一语音数据进行语音识别，确定所述第一语音数据对应的语音文本信息。
根据权利要求3所述的方法，其中，所述对所述第一语音数据进行语气识别，确定所述第一语音数据对应的语气信息，包括：

从所述第一语音数据中提取第一信息，所述第一信息表征所述第一语音数据中声音的频谱特征；

将所述第一信息输入预设识别模型，通过所述预设识别模型输出所述第一语音数据对应的语气信息。
根据权利要求3所述的方法，其中，所述对所述第一语音数据进行语气识别，确定所述第一语音数据对应的语气信息，包括：

从所述第一语音数据中提取第二信息，所述第二信息表征所述第一语音数据中声音的能量大小；

将所述第二信息与预设信息阈值进行比较，根据比较的结果确定所述第一语音数据对应的语气信息。
根据权利要求5所述的方法，其中，所述根据比较的结果，确定所述第一语音数据对应的语气信息，包括：

当所述第二信息大于所述预设信息阈值且所述第二信息大于所述预设信息阈值的持续时间超过预设时间阈值时，确定所述第一语音数据对应第一类型的语气信息；

或者，

当所述第二信息小于或等于所述预设信息阈值或者所述第二信息大于所述预设信息阈值的持续时间没有超过预设时间阈值时，确定所述第一语音数据对应第二类型的语气信息，所述第一类型与所述第二类型不同。
根据权利要求1所述的方法，其中，在所述识别所述第一语音数据对应的语气信息以及语音文本信息之后，所述方法还包括：

对所述语音文本信息和所述语气信息进行匹配，确定所述语音文本信息中的第一文字和所述语气信息中的第一语气信息的匹配对；其中，所述语音文本信息包括所述第一文字，所述语气信息包括所述第一语气信息；

根据所述第一文字与所述第一语气信息的匹配对，获得所述语音文本信息和所述语气信息的匹配关系。
根据权利要求7所述的方法，其中，所述基于所述语音文本信息和所述语气信息的匹配关系，确定所述翻译文本信息和所述语气信息的匹配关系，包括：

根据所述第一文字与所述第一语气信息的匹配对，确定所述翻译文本信息中的第一翻译文字与所述第一语气信息的匹配对；其中，所述翻译文本信息包括与所述第一文字对应的第一翻译文字；

根据所述第一翻译文字与所述第一语气信息的匹配对，获得所述翻译文本信息和所述语气信息的匹配关系。
根据权利要求1至8任一项所述的方法，其中，在所述生成第二语音数据之后，所述方法还包括：

获取预设的语气信息与显示策略的对应关系；

根据所获取的语气信息与显示策略的对应关系，确定所述语气信息对应的显示策略；

基于所确定的显示策略以及所述翻译文本信息和所述语气信息的匹配关系，获得所述翻译文本信息对应的显示结果；其中，所述显示结果表示在播放所述第一语音数据时按照所确定的显示策略在客户端呈现所述翻译文本信息。
根据权利要求9所述的方法，其中，在所述确定所述语气信息对应的显示策略之后，所述方法还包括：

基于所确定的显示策略以及所述语音文本信息和所述语气信息的匹配关系，获得所述语音文本信息对应的显示结果；其中，所述显示结果表示在播放所述第一语音数据时按照所确定的显示策略在客户端呈现所述语音文本信息。
一种语音处理装置，所述语音处理装置包括获取单元、识别单元、翻译单元、匹配单元和生成单元，其中，

所述获取单元，配置为获取待处理的第一语音数据；

所述识别单元，配置为识别所述第一语音数据对应的语气信息以及语音文本信息；

所述翻译单元，配置为对所述语音文本信息进行翻译，得到翻译文本信息；其中，所述翻译文本信息对应的语种不同于所述第一语音数据对应的语种；

所述匹配单元，配置为基于所述语音文本信息和所述语气信息的匹配关系，确定所述翻译文本信息和所述语气信息的匹配关系；

所述生成单元，配置为根据所述翻译文本信息和所述语气信息的匹配关系，生成第二语音数据；其中，所述第二语音数据对应的语种不同于所述第一语音数据对应的语种，且所述第二语音数据用于在播放所述第一语音数据时在客户端进行呈现。
一种设备，所述设备包括存储器和处理器，其中，

所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于在运行所述计算机程序时，执行如权利要求1至10任一项所述的方法。
一种计算机存储介质，其中，所述计算机存储介质存储有语音处理程序，所述语音处理程序被至少一个处理器执行时实现如权利要求1至10任一项所述的方法。