CN102710539A

CN102710539A - 语音信息传送方法及装置

Info

Publication number: CN102710539A
Application number: CN2012101335145A
Authority: CN
Inventors: 阮亚平; 李加周
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-05-02
Filing date: 2012-05-02
Publication date: 2012-10-03

Abstract

本发明公开了一种语音信息传送方法及装置。该方法包括：在确定语音通话质量降低的情况下，启动语音识别模块；终端通过语音识别模块对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息并发送到对端；或者，终端通过语音识别模块将语音信号发送到语音识别云端，并从语音识别云端获取对应的文本信息并发送到对端。借助于本发明的技术方案，能够提高语音信息传送的有效性和及时性，提升用户体验质量。

Description

语音信息传送方法及装置

技术领域

本发明涉及通讯领域，特别是涉及一种语音信息传送方法及装置。

背景技术

在现有技术中，即时通信技术是互联网的一项基本技术，目前常见的即时通信软件通常集成了文本、语音、视频等多种实时通信方式，以满足用户多样化的沟通需求。

对于双向实时通信而言，相比于文本方式，高质量的语音通话对于网络和终端设备要求更高。一方面，网络的丢包、延时和抖动会严重影响通话质量，另外终端的麦克风、耳机、扬声器以及噪声环境也会影响通话质量。因此，如何在复杂的网络和终端环境下，提升即时通信***中语音通话质量，是一个有待解决的问题。

发明内容

本发明提供一种语音信息传送方法及装置，以解决现有技术中即时通信***的语音通话质量低的问题。

本发明提供一种语音信息传送方法，包括：

在确定语音通话质量降低的情况下，启动语音识别模块；

终端通过语音识别模块对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息并发送到对端；或者，终端通过语音识别模块将语音信号发送到语音识别云端，并从语音识别云端获取对应的文本信息并发送到对端。

本发明还提供了一种语音信息传送装置，包括：

启动模块，用于在确定语音通话质量降低的情况下，启动语音识别模块；

语音识别模块，用于对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息并发送到对端；或者，将语音信号发送到语音识别云端，并从语音识别云端获取对应的文本信息并发送到对端。

本发明有益效果如下：

当网络或终端环境不能保证良好的语音通话质量时，利用语音识别技术，将语音转化为对应的文本信息进行传输，解决了现有技术中即时通信***的语音通话质量低的问题，能够提高语音信息传送的有效性和及时性，提升用户体验质量。

附图说明

图1是本发明实施例的语音信息传送方法的流程图；

图2是本发明实施例的语音信息传送方法的详细处理流程图；

图3是本发明实施例的发送端接收端的示意图；

图4是本发明实施例的实例1的流程图；

图5是本发明实施例的实例2的流程图；

图6是本发明实施例的实例3的场景示意图；

图7是本发明实施例的实例3的流程图；

图8是本发明实施例的语音信息传送装置的结构示意图。

具体实施方式

为了解决现有技术中即时通信***的语音通话质量低的问题，本发明提供了一种语音信息传送方法及装置，对于即时通信***中的语音通话应用，无论是网络出现质量下降，或是终端环境出现不利于实时语音通讯的故障或问题，均可自动满足基本的沟通需求，大大提升了用户的体验质量。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

根据本发明的实施例，提供了一种语音信息传送方法，图1是本发明实施例的语音信息传送方法的流程图，如图1所示，根据本发明实施例的语音信息传送方法包括如下处理：

步骤101，在确定语音通话质量降低的情况下，启动语音识别模块；

步骤101具体包括如下处理：在终端确定当前网络状况、和/或对端的终端环境导致语音通话质量降低的情况下，自动启动语音识别模块；或者，根据用户的操作手动启动语音识别模块。

在步骤101中，终端确定当前网络状况导致语音通话质量降低具体包括如下处理：

1、获取对端发送的反馈信息中携带的网络质量指标，其中，网络质量指标中携带有丢包率、网络抖动、和/或延时值是否超过预先设置的第一阈值的信息；在实际应用中，该第一阈值可以包括分别对应于丢包率、网络抖动、以及延时值的多个阈值。

2、如果网络质量指标中携带有丢包率、网络抖动、和/或延时值超过预先设置的第一阈值的信息，则确定当前网络状况导致语音通话质量降低；

在步骤101中，终端确定对端的终端环境导致语音通话质量降低具体包括如下处理：

1、获取对端发送的反馈信息，根据反馈信息确定对端的语音输出设备无法正常工作，则确定对端的终端环境导致语音通话质量降低；或者

2、获取对端发送的反馈信息，根据反馈信息确定对端的环境噪声值超过预先设置的第二阈值，则确定对端的终端环境导致语音通话质量降低。具体地，上述对端的环境噪声值可以通过对端检测输入语音信号的信噪比并发送反馈信息得到。

优选地，在启动语音识别模块之前，还可以输出提示信息，提示用户选择是否启动语音识别模块；在用户选择否的情况下，禁止启动语音识别模块，以节省资源，如果用户选择是，则启动语音识别模块。

步骤102，终端通过语音识别模块对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息并发送到对端；或者，终端通过语音识别模块将语音信号发送到语音识别云端，并从语音识别云端获取对应的文本信息并发送到对端。

具体地，语音识别模块对本地语音输入设备采集到的语音信号可以进行分段语音识别。

在步骤102中，生成对应的文本信息之后，还可以记录文本信息对应的时间信息，其中，时间信息包括：起始时间、持续时间；

在步骤102中，将文本信息发送到对端具体包括：将携带有时间信息的文本信息通过单独的文本通道或***语音流通道发送到对端，其中，文本信息中携带有语音识别生成属性。

在执行了步骤102之后，对端需要接收并展现文本信息。

具体地，对端判断文本信息的属性为语音识别生成，则可以通过文本语音转换模块将文本信息转换为语音信息，并根据时间信息对转换的语音信息进行播放；其中，根据时间信息对转换的语音信息进行播放具体包括：1、根据时间信息判断文本信息所对应的时间段内的语音包是否仍待播出；2、在判断有语音包待播出的情况下，判断语音包的丢包率是否大于预先设置的第三阈值，如果判断为是，则使用转换后的语音信息替换语音包，并播放语音信息，如果判断为否，则结束操作。

对端也可以通过文本方式直接显示文本信息。

需要说明的是，在对端为转发设备的情况下，则转发文本信息或者转发转换的语音信息。

以下结合附图，对本发明实施例的上述技术方案进行详细说明。

图2是本发明实施例的语音信息传送方法的详细处理流程图，如图2所示，包括如下处理：

步骤201，判断网络质量是否能够保证通话质量，如果判断为否，则执行步骤204，否则，执行步骤202；

步骤202，判断对端的终端环境是否能够保证通话质量，如果判断为否，则执行步骤204，否则，执行步骤203；

步骤203，判断用户是否选择手动开启语音识别模块，如果判断为是，则执行步骤204，否则，结束操作；

步骤204，开启语音识别模块；

步骤205，对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息；

步骤206，将文本信息发送到对端；

步骤207，对端接收并展现该文本信息。

图3是本发明实施例的发送端接收端的示意图，如图3所示，发送端通过网络质量检测、终端环境检测、以及用户设置检测，确定是否将采集的语音信息进行语音识别，如果需要进行语音识别，则将语音信息转换为文本信息并发送到对端，如果不需要进行语音识别，则直接发送该语音信息(语音编码)。接收端如果接收到语音数据包，则对该语音数据包进行解码，生成语音数据，并对其进行播放，如果接收端收到了文本数据，可以直接对该文本数据进行显示，也可以将该文本数据转换为语音数据进行播放。

以下结合实例，对本发明实施例的上述技术方案进行详细说明。

实例1

客户端A在获知当前网络状况不佳的情况下，通过语音识别模块获取语音数据段对应的文本信息，并发送到客户端B，客户端B接收到文本信息后，可以展现给用户，并尝试转换为语音输出。图4是本发明实施例的实例1的流程图，如图4所示，包括如下处理：

步骤401，客户端A和客户端B进行语音通话，客户端B统计收包丢包率，若丢包率高于设定阈值，则跳转402，否则结束操作。

步骤402，客户端B发送反馈信息给客户端A。

步骤403，客户端A接收和解析该反馈信息，并启动语音识别模块。

步骤404，客户端A将采集的语音信号传入语音识别模块，解析得到对应的文本信息。

步骤405，客户端A通过文本传输信道将产生的文本信息打包传送到客户端B。打包的所述文本信息包括：文本信息本身、对应的起始时间，持续时长、“语音识别生成”属性。

步骤406，客户端B接收到该文本信息包，解析出文本信息、起始时间、持续时长、属性值。

步骤407，客户端B在文本对话窗口中显示该文本信息。

步骤408，如果该文本信息属性值为“语音识别生成”，则跳转409，否则结束操作。

步骤409，根据该文本信息起始时间、持续时长，查找所接收到的对应时间段内的语音数据包是否待播出，若仍未播出，跳转410，否则结束操作。

步骤410，判断该段语音数据包的丢包率是否大于设定阈值，若是，则跳转411，否则结束操作。

步骤411，丢弃该文本信息时间段内所有的语音数据包，将上述文本信息进行文本语音转换后进行替换。

实例2

客户端A的用户在听到对方用户告知无法听到声音时，主动开启语音识别模块，通过语音识别模块获取语音数据段对应的文本信息，并发送到客户端B，客户端B接收到文本信息后，可以展现给用户。图5是本发明实施例的实例2的流程图，如图5所示，包括如下处理：

步骤501，客户端A和客户端B间语音开始通话，客户端B的用户无法听到对方语音，则发送话音“听不到”；

步骤502，若客户端A的用户听到客户端B用户语音为“听不到”，则跳转503，否则结束操作。

步骤503，客户端A用户选择开启语音识别功能。

步骤504，客户端A将采集的语音信号传入语音识别模块，解析得到对应的文本信息，客户端A通过文本传输信道将文本信息传送到客户端B。

步骤505，客户端B接收和解析文本信息包。

步骤506，客户端B在文本对话窗口中显示该文本信息。

实例3

图6是本发明实施例的实例3的场景示意图，如图6所示，即时通讯(InstantMessenger，简称为IM)客户端A通过语音网关服务器B呼叫固定电话C，并与C进行语音通话。客户端A在获知当前网络状况不佳的情况下，通过语音识别模块获取到语音数据段对应的文本信息，并发送到语音网关服务器B，语音网关服务器B接收到文本信息后，尝试转换为语音信息，并转发到固定电话C。图7是本发明实施例的实例3的流程图，如图7所示，包括如下处理：

步骤701，客户端A和固定电话C通过语音网关服务器B进行语音通话，语音网关服务器B统计从A接收的收包丢包率，若丢包率高于设定阈值，则跳转702，否则结束操作。

步骤702，语音网关服务器B发送反馈信息给客户端A。

步骤703，客户端A接收和解析该反馈信息，启动语音识别模块。

步骤704，客户端A将采集的语音信号传入语音识别模块，解析得到对应的文本信息。

步骤705，客户端A通过文本传输信道将产生的文本信息打包传送到网关B。所述文本信息打包包括：文本信息本身、对应的起始时间，持续时长。

步骤706，语音网关服务器B接收到该文本信息包，解析出文本信息、起始时间、持续时长。

步骤707，语音网关服务器B根据该文本信息起始时间、持续时长，查找所接收到的对应时间段内语音数据包，若仍未过时，跳转708，否则结束操作。

步骤708，判断该段语音数据包的丢包率是否大于设定阈值，若是，则跳转709，否则结束操作。

步骤709，丢弃该文本信息对应时间段内所有的语音数据包，将上述文本信息进行文本语音转换后，进行替换。并转发到固定电话C。

综上所述，借助于本发明实施例的技术方案，当网络或终端环境不能保证良好的语音通话质量时，利用语音识别技术，将语音转化为对应的文本信息进行传输，解决了现有技术中即时通信***的语音通话质量低的问题，能够提高语音信息传送的有效性和及时性，提升用户体验质量。

装置实施例

根据本发明的实施例，提供了一种语音信息传送装置，图8是本发明实施例的语音信息传送装置的结构示意图，如图8所示，根据本发明实施例的语音信息传送装置包括：启动模块80、以及语音识别模块82，以下对本发明实施例的各个模块进行详细的说明。

启动模块80，用于在确定语音通话质量降低的情况下，启动语音识别模块82；

启动模块80具体用于：在终端确定当前网络状况、和/或对端的终端环境导致语音通话质量降低的情况下，自动启动语音识别模块82；或者，根据用户的操作手动启动语音识别模块82；

启动模块80具体包括：网络状况确定子模块、以及终端环境确定子模块，其中：

网络状况确定子模块，用于获取对端发送的反馈信息中携带的网络质量指标，其中，网络质量指标中携带有丢包率、网络抖动、和/或延时值是否超过预先设置的第一阈值的信息；在实际应用中，该第一阈值可以包括分别对应于丢包率、网络抖动、以及延时值的多个阈值；如果网络质量指标中携带有丢包率、网络抖动、和/或延时值超过预先设置的第一阈值的信息，则确定当前网络状况导致语音通话质量降低；

终端环境确定子模块，用于获取对端发送的反馈信息，根据反馈信息确定对端的语音输出设备无法正常工作，则确定对端的终端环境导致语音通话质量降低；或者获取对端发送的反馈信息，根据反馈信息确定对端的环境噪声值超过预先设置的第二阈值，则确定对端的终端环境导致语音通话质量降低。

语音识别模块82，用于对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息并发送到对端；或者，将语音信号发送到语音识别云端，并从语音识别云端获取对应的文本信息并发送到对端。

语音识别模块82具体用于：对本地语音输入设备采集到的语音信号进行分段语音识别；

语音识别模块82还用于：记录文本信息对应的时间信息，其中，时间信息包括：起始时间、持续时间；将携带有时间信息的文本信息通过单独的文本通道或***语音流通道发送到对端，其中，文本信息中携带有语音识别生成属性；

优选地，上述装置还包括：提示模块、展现模块、以及转发模块。其中，

提示模块，用于在启动模块80启动语音识别模块82之前，输出提示信息，提示用户选择是否启动语音识别模块82；在用户选择否的情况下，禁止启动语音识别模块82；

展现模块，用于接收并展现语音识别模块82发送的文本信息；

其中，展现模块具体包括：

语音展现子模块，用于判断文本信息的属性为语音识别生成，则通过文本语音转换模块将文本信息转换为语音信息，并根据时间信息对转换的语音信息进行播放；

文本展现子模块，用于通过文本方式直接显示文本信息；

语音展现子模块具体用于：根据时间信息判断文本信息所对应的时间段内的语音包是否仍待播出；在判断有语音包待播出的情况下，判断语音包的丢包率是否大于预先设置的第三阈值，如果判断为是，则使用转换到的语音信息替换语音包，并播放语音信息；

转发模块，用于在对端为转发设备的情况下，则转发文本信息或者转发转换的语音信息。

步骤201，确定模块80判断网络质量是否能够保证通话质量，如果判断为否，则执行步骤204，否则，执行步骤202；

步骤202，确定模块80判断对端的终端环境是否能够保证通话质量，如果判断为否，则执行步骤204，否则，执行步骤203；

步骤203，启动模块82判断用户是否选择手动开启语音识别模块，如果判断为是，则执行步骤204，否则，结束操作；

步骤204，启动模块82开启语音识别模块；

步骤205，语音识别模块84对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息；

步骤206，语音识别模块84将文本信息发送到对端；

步骤207，对端的展现模块86接收并展现该文本信息。

实例1

步骤402，客户端B发送反馈信息给客户端A。

步骤407，客户端B在文本对话窗口中显示该文本信息。

实例2

步骤503，客户端A用户选择开启语音识别功能。

步骤505，客户端B接收和解析文本信息包。

步骤506，客户端B在文本对话窗口中显示该文本信息。

实例3

步骤702，语音网关服务器B发送反馈信息给客户端A。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种语音信息传送方法，其特征在于，包括：

在确定语音通话质量降低的情况下，启动语音识别模块；

终端通过所述语音识别模块对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息并发送到对端；或者，终端通过所述语音识别模块将所述语音信号发送到语音识别云端，并从所述语音识别云端获取对应的文本信息并发送到对端。

2.如权利要求1所述的方法，其特征在于，在确定语音通话质量降低的情况下，启动语音识别模块具体包括：

在终端确定当前网络状况、和/或对端的终端环境导致语音通话质量降低的情况下，自动启动所述语音识别模块；或者

根据用户的操作手动启动所述语音识别模块。

3.如权利要求2所述的方法，其特征在于，

终端确定当前网络状况导致语音通话质量降低具体包括：

获取所述对端发送的反馈信息中携带的网络质量指标，其中，所述网络质量指标中携带有丢包率、网络抖动、和/或延时值是否超过预先设置的第一阈值的信息；

如果所述网络质量指标中携带有丢包率、网络抖动、和/或延时值超过预先设置的第一阈值的信息，则确定所述当前网络状况导致语音通话质量降低；

终端确定对端的终端环境导致语音通话质量降低具体包括：

获取所述对端发送的反馈信息，根据所述反馈信息确定所述对端的语音输出设备无法正常工作，则确定所述对端的终端环境导致语音通话质量降低；或者，

获取所述对端发送的反馈信息，根据所述反馈信息确定对端的环境噪声值超过预先设置的第二阈值，则确定所述对端的终端环境导致语音通话质量降低。

4.如权利要求2所述的方法，其特征在于，

自动启动所述语音识别模块之前，所述方法还包括：

输出提示信息，提示用户选择是否启动所述语音识别模块；

在用户选择否的情况下，禁止启动所述语音识别模块；

生成对应的文本信息之后，所述方法还包括：

记录所述文本信息对应的时间信息，其中，所述时间信息包括：起始时间、持续时间；

将所述文本信息发送到对端具体包括：

将携带有所述时间信息的所述文本信息通过单独的文本通道或***语音流通道发送到所述对端，其中，所述文本信息中携带有语音识别生成属性。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：所述对端接收并展现所述文本信息；

所述对端接收并展现所述文本信息具体包括：

所述对端判断所述文本信息的属性为所述语音识别生成，则通过文本语音转换模块将所述文本信息转换为语音信息，并根据所述时间信息对转换的所述语音信息进行播放；或者

所述对端通过文本方式直接显示所述文本信息。

6.如权利要求5所述的方法，其特征在于，根据所述时间信息对转换的所述语音信息进行播放具体包括：

根据所述时间信息判断所述文本信息所对应的时间段内的语音包是否仍待播出；

在判断有语音包待播出的情况下，判断所述语音包的丢包率是否大于预先设置的第三阈值，如果判断为是，则使用转换到的所述语音信息替换所述语音包，并播放所述语音信息。

7.如权利要求5所述的方法，其特征在于，所述方法还包括：

在所述对端为转发设备的情况下，则转发所述文本信息或者转发转换的所述语音信息。

8.一种语音信息传送装置，其特征在于，包括：

所述语音识别模块，用于对本地语音输入设备采集到的语音信号进行语音识别，生成对应的文本信息并发送到对端；或者，将所述语音信号发送到语音识别云端，并从所述语音识别云端获取对应的文本信息并发送到对端。

9.如权利要求8所述的装置，其特征在于，

所述启动模块具体用于：在终端确定当前网络状况、和/或对端的终端环境导致语音通话质量降低的情况下，自动启动所述语音识别模块；或者，根据用户的操作手动启动所述语音识别模块；

所述启动模块具体包括：

网络状况确定子模块，用于获取所述对端发送的反馈信息中携带的网络质量指标，其中，所述网络质量指标中携带有丢包率、网络抖动、和/或延时值是否超过预先设置的第一阈值的信息；如果所述网络质量指标中携带有丢包率、网络抖动、和/或延时值超过预先设置的第一阈值的信息，则确定所述当前网络状况导致语音通话质量降低；

终端环境确定子模块，用于获取所述对端发送的反馈信息，根据所述反馈信息确定所述对端的语音输出设备无法正常工作，则确定所述对端的终端环境导致语音通话质量降低；或者获取所述对端发送的反馈信息，根据所述反馈信息确定对端的环境噪声值超过预先设置的第二阈值，则确定所述对端的终端环境导致语音通话质量降低。

10.如权利要求9所述的装置，其特征在于，

所述语音识别模块具体用于：对所述本地语音输入设备采集到的语音信号进行分段语音识别；

所述语音识别模块还用于：记录所述文本信息对应的时间信息，其中，所述时间信息包括：起始时间、持续时间；将携带有所述时间信息的所述文本信息通过单独的文本通道或***语音流通道发送到所述对端，其中，所述文本信息中携带有语音识别生成属性；

所述装置还包括：提示模块，用于在所述启动模块启动所述语音识别模块之前，输出提示信息，提示用户选择是否启动所述语音识别模块；在用户选择否的情况下，禁止启动所述语音识别模块；

展现模块，用于接收并展现所述语音识别模块发送的文本信息；

所述展现模块具体包括：

语音展现子模块，用于判断所述文本信息的属性为所述语音识别生成，则通过文本语音转换模块将所述文本信息转换为语音信息，并根据所述时间信息对转换的所述语音信息进行播放；

文本展现子模块，用于通过文本方式直接显示所述文本信息；

所述语音展现子模块具体用于：

根据所述时间信息判断所述文本信息所对应的时间段内的语音包是否仍待播出；在判断有语音包待播出的情况下，判断所述语音包的丢包率是否大于预先设置的第三阈值，如果判断为是，则使用转换到的所述语音信息替换所述语音包，并播放所述语音信息；

所述装置还包括：转发模块，用于在所述对端为转发设备的情况下，则转发所述文本信息或者转发转换的所述语音信息。