WO2018133798A1

WO2018133798A1 - 基于语音识别的数据传输方法和装置

Info

Publication number: WO2018133798A1
Application number: PCT/CN2018/073021
Authority: WO
Inventors: 林剑城
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-01-22
Filing date: 2018-01-17
Publication date: 2018-07-26
Also published as: CN108346429A; CN108346429B

Abstract

一种基于语音识别的数据传输方法和装置(1200)，方法包括：当进入语音输入状态时，建立数据传输通道并保持(S302)；依次获取输入的语音片段(S304)；通过数据传输通道，依次发送语音片段(S306)；通过数据传输通道，接收与发送的语音片段匹配的语音识别结果(S308)；当退出语音输入状态时，关闭数据传输通道(S310)。

Description

基于语音识别的数据传输方法和装置

本申请要求于2017年01月22日提交中国专利局、申请号为201710047882.0、发明名称为“基于语音识别的数据传输方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于语音识别的数据传输方法和装置。

背景技术

随着计算机技术的发展，越来越多的计算机用户选择在计算机平台通过语音来进行意愿表达，以使计算机通过对用户语音数据进行识别，从而基于语音识别结果进行进一步处理。伴随着人们生活水平的提高，用户对于语音在线识别的需求越来越强烈。

发明内容

本申请实施例提供了一种基于语音识别的数据传输方法和装置，可以提高在线语音识别的效率。

一种基于语音识别的数据传输方法，所述方法包括：

当进入语音输入状态时，建立数据传输通道并保持；

依次获取输入的语音片段；

通过所述数据传输通道，依次发送所述语音片段；

通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果；

当退出所述语音输入状态时，关闭所述数据传输通道。

一种基于语音识别的数据传输装置，所述装置包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令由所述处理器执行以完成以下操作：

当进入语音输入状态时，建立数据传输通道并保持；

依次获取输入的语音片段；

通过所述数据传输通道，依次发送所述语音片段；

当退出所述语音输入状态时，关闭所述数据传输通道。

一种基于语音识别的数据传输方法，用于终端，该终端包括处理器和存储器，所述方法包括：

当进入语音输入状态时，建立数据传输通道并保持；

依次获取输入的语音片段；

通过所述数据传输通道，依次发送所述语音片段；

当退出所述语音输入状态时，关闭所述数据传输通道。

一种非易失性存储介质，其中存储有计算机可读指令，所述计算机可读指令可以由处理器执行以完成：

当进入语音输入状态时，建立数据传输通道并保持；

依次获取输入的语音片段；

通过所述数据传输通道，依次发送所述语音片段；

当退出所述语音输入状态时，关闭所述数据传输通道。

附图简要说明

图1为一个实施例中基于语音识别的数据传输方法的应用环境图；

图2为一个实施例中用于实现基于语音识别的数据传输方法的终端的内部结构示意图；

图3为一个实施例中基于语音识别的数据传输方法的流程示意图；

图4为一个实施例中进入语音输入状态的步骤的流程示意图；

图5为一个实施例中语音输入界面未开启时的界面示意图；

图6为一个实施例中语音输入界面开启后的界面示意图；

图7为另一个实施例中语音输入界面开启时的界面示意图；

图8为一个实施例中通过数据传输通道，接收与发送的语音片段匹配的语音识别结果的步骤的流程示意图；

图9为一个实施例中建立数据传输通道并保持的步骤的流程示意图；

图10为另一个实施例中基于语音识别的数据传输方法的流程示意图；

图11为一个实施例中基于语音识别的数据传输方法的时序图；

图12为一个实施例中基于语音识别的数据传输装置的结构框图；

图13为另一个实施例中基于语音识别的数据传输装置的结构框图。

实施本发明的方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

传统的语音在线识别方式，每次进行语音识别都需要进行一段时间的等待，语音识别效率较低。尤其对于通过移动网络进行网络通信的移动终端来说，问题更为明显。

图1为一个实施例中基于语音识别的数据传输方法的应用环境图。参照图1，该基于语音识别的数据传输方法应用于基于语音识别的数据传输***。基于语音识别的数据传输***包括终端110和服务器120，终端110通过网络与服务器120连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120具体可以是独立的物理服务器，也可以是物理服务器集群。

图2为一个实施例中终端的内部结构示意图。如图2所示，该终端包括通过***总线连接的处理器、非易失性存储介质、内存储器和网络接口、声音采集装置、显示屏和输入装置。其中，终端的非易失性存储介质存储有操作***，还包括一种基于语音识别的数据传输装置，该基于语音识别的数据传输装置用于实现一种基于语音识别的数据传输方法。该处理器用于提供计算和控制能力，支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的基于语音识别的数据传输装置的运行提供环境，该内存储器中可储存有计算机可读指令，该计算机可读指令被所述处理器执行时，可使得所述处理器执行基于语音识别的数据传输方法。网络接口用于与服务器进行网络通信，如发送语音片段至服务器，接收服务器返回的语音识别结果等。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等，输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该终端可以是手机、平板电脑或者个人数字助理或穿戴式设备等。图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供了一种基于语音识别的数据传输方法，本实施例以该方法应用于上述图1中的终端110来举例说明。该方法具体包括如下步骤：

S302，当进入语音输入状态时，建立数据传输通道并保持。

其中，语音输入状态是指进行语音数据输入的状态。数据传输通道是指用于进行数据传输的通道。在本实施例中，终端上可运行有支持语音输入的客户端，终端可在检测到该客户端进入语音输入状态时，建立数据传输通道，并保持建立的数据传输通道，以传输后续在语音输入状态下输入的语音数据。

在一个实施例中，终端可检测用于进入语音输入状态的指令，根据该指令进入语音输入状态。具体地，终端可检测预定义的用于触发进入语音输入状态的指令的触发操作，在检测到该触发操作时触发相应的进入语音输入状态的指令。触发操作可以是对终端的界面中的控件的操作，比如对控件的触控操作或者光标的点击操作等。触发操作也可以是对预定义的物理按钮的点击，或者针对预定义的可触发进入语音输入状态的指令的界面的晃动操作等。

在一个实施例中，终端也可检测预定义的用于触发进入语音输入状态的界面状态变化，在检测到该界面状态变化时进入语音输入状态。具体地，预定义的界面状态变化可以是终端上运行的客户端启动时，终端界面由桌面变化为客户端主界面时的界面状态变化；也可以是该客户端在运行后，终端界面根据用户操作由客户端主界面变化为可进行语音输入的界面时的界面状态变化。

进一步地，终端在检测到当前进入语音输入状态后，向服务器发送建立数据传输通道的请求，并在接收到服务器反馈的针对该请求的应答消息后，建立与服务器之间的数据传输通道，并保持该数据传输通道。

在一个实施例中，终端可与服务器间建立基于TCP(Transmission Control Protocol传输控制协议)的数据传输通道。具体地，终端在检测到当前进入语音输入状态后，向服务器发送携带SYN(synchronous同步)消息的连接请求报文；处于监听状态的服务器在接收到该连接请求报文后，向终端反馈携带ACK(Acknowledgement确认字符)的应答消息以确认连接请求，并将当前状态由监听状态变化为响应状态；终端在接收到服务器反馈的应答消息后，将当前状态更新为连接建立状态，并向服务器反馈携带ACK(Acknowledgement确认字符)的应答消息以确认连接，使得服务器将当前状态由响应状态变化为连接建立状态。

更进一步地，终端在建立与服务器之间的数据传输通道后，可通过该数据传输通道进行数据传输，并在数据传输通道在未进行数据传输的空闲阶段，通过心跳机制保持该数据传输通道直至终端主动关闭该数据传输通道。

S304，依次获取输入的语音片段。

其中，语音片段是指按照某种方式分段划分后的语音数据。在一个实施例中，语音片段可以是用户在进行语音输入时，人为分次输入的语音数据，终端可在每次检测到用户进行语音输入时，获取用户输入的语音数据，将用户每次输入的语音数据作为一个语音片段。具体地，终端可在检测到用户进行语音输入时调用本地的声音采集装置采集声音，形成语音数据。

在一个实施例中，语音片段可以是预设时长的语音数据。预设时长是预先设置的用于进行语音数据截取的时间间隔，比如200毫秒等。具体地，终端可在检测到用户进行语音输入时开始计时，当计时时长达到预设时长时，获取当前输入的语音数据为一个语音片段，并重新开始计时，且继续执行当计时时长达到预设时长时，截取当前输入的语音数据为一个语音片段，并重新开始计时的操作，直至用户结束语音输入。

S306，通过数据传输通道，依次发送语音片段。

具体地，终端可将依次获取的语音片段，按照获取顺序，依次通过数据传输通道发送至服务器。

S308，通过数据传输通道，接收与发送的语音片段匹配的语音识别结果。

具体地，服务器在接收到终端发送的语音片段后，根据接收到的语音片段进行语音识别，得到与接收到的语音片段匹配的语音识别结果，再将该语音识别结果通过数据传输通道发送至终端。

S310，当退出语音输入状态时，关闭数据传输通道。

具体地，终端上可运行有支持语音输入的客户端，终端可在检测到该客户端退出语音输入状态时，关闭数据传输通道。

在一个实施例中，终端可检测用于退出语音输入状态的指令，根据该指令退出语音输入状态。具体地，终端可检测预定义的用于触发退出语音输入状态的指令的触发操作，在检测到该触发操作时触发相应的退出语音输入状态的指令。终端也可检测预定义的用于触发退出语音输入状态的界面状态变化，在检测到该界面状态变化时退出语音输入状态。具体地，预定义的界面状态变化可以是终端上运行的客户端关闭时，终端界面由客户端主界面变化为桌面时的界面状态变化；也可以是该客户端在运行时，终端界面根据用户操作由可进行语音输入的界面变化为客户端主界面时的界面状态变化。

在一个实施例中，终端在检测到当前退出语音输入状态后，向服务器发送携带FIN(final结束)消息的连接关闭报文；处于连接建立状态的服务器在接收到该连接关闭报文后，向终端反馈携带ACK(Acknowledgement确认字符)的应答消息，以确认知晓终端结束向服务器继续发送数据。服务器在向终端反馈应答消息后，且在将根据该终端发送的语音片段识别得到的语音识别结果发送完毕后，向该终端发送携带FIN(final结束)消息的连接关闭报文，以通知该终端，服务器已将需发送给该终端的数据发送完毕。终端在接收到服务器发送的连接关闭报文后，将当前状态更新为连接关闭状态，并向服务器反馈携带ACK(Acknowledgement确认字符)的应答消息以确认连接关闭，使得服务器将当前状态更新为连接关闭状态。

在一个实施例中，终端在执行步骤S304、S306或S308时，若检测到当前退出语音输入状态，均可执行步骤S310。

上述基于语音识别的数据传输方法，进入语音输入状态时便建立数据传输通道，后续在输入语音片段后可立即传输，可提高数据传输效率，从而提高了语音识别的效率。在建立数据传输通道后，依次获取的各语音片段，以及与发送的语音片段匹配的语音识别结果，均可在该数据传输通道上进行传输，直到退出语音输入状态时才关闭该数据传输通道，不需要在每次进行数据传输时重新建立新的数据传输通道，这样极大地避免了由于频繁地建立和关闭数据传输通道导致的额外耗时，提高了数据传输效率，进一步提高了语音识别效率。

如图4所示，在一个实施例中，基于语音识别的数据传输方法中进入语音输入状态的步骤包括：

S402，显示语音输入界面的开启入口。

其中，语音输入界面是终端主界面中用于进行语音输入的窗口。语音输入界面具有两种状态：收起状态和展开状态。语音输入界面的开启入口是用于改变语音输入界面状态的操作入口。终端检测作用于该开启入口的触发操作，更新语音输入界面的当前状态。若语音输入界面当前被隐藏，处于收起状态，则开启语音输入界面；若语音输入界面当前处于展开状态，则关闭语音输入界面，使得语音输入界面被隐藏。终端主界面中的语音输入界面通常处于收起状态，显示语音输入界面的开启入口。

S404，获取针对开启入口的开启指令。

其中，开启指令是指用于触发开启语音输入界面的指令。终端可获取用户作用于开启入口而触发的针对语音输入界面的开启指令。具体地，终端可检测针对开启入口的预定义的触发操作，在检测到该触发操作时触发相应的开启指令。触发操作是对开启入口的操作，比如对开启入口的触控操作或者光标点击操作等。

S406，根据开启指令，展示语音输入界面。

具体地，终端在检测到针对语音输入界面的开启指令后，根据该开启指令展示语音输入界面。

在本实施例中，基于人因工程学认定用户在展开语音输入界面时意图进行语音输入，并设定展示语音输入界面时进入语音输入状态，以在判定用户意图进行语音输入时便建立数据传输通道，后续在输入语音片段后可立即传输，可提高数据传输效率，从而提高了语音识别的效率。

进一步地，在一个实施例中，基于语音识别的数据传输方法中退出语音输入状态的步骤包括：获取针对语音输入界面的界面隐藏指令；根据界面隐藏指令隐藏语音输入界面。

具体地，终端可检测预定义的用于触发界面隐藏指令的触发操作，在检测到该触发操作时触发界面隐藏指令。触发操作对开启入口的操作，比如对开启入口的触控操作或者光标点击操作等。触发操作也可以是对预定义的物理按钮的点击，或者是对终端主界面中语音输入界面外的其他区域的操作等。

在本实施例中，基于人因工程学认定用户在触发隐藏语音输入界面时意图结束语音输入，并设定隐藏语音输入界面时退出语音输入状态，以在判定用户意图结束语音输入后才关闭数据传输通道，使得在用户可能进行语音输入时，数据传输通道被保持，并在有数据需要传输时即可通过该数据传输通道进行数据传输，可提高数据传输效率，从而提高了语音识别的效率。

举例说明，参照图5，图5为一个实施例中语音输入界面未开启时的界面示意图，该界面包括语音输入界面的开启入口510。参照图6，图6为一个实施例中语音输入界面开启后的界面示意图，当用户点击如图5所示界面中的语音输入界面的开启入口510时，终端将在如图6所示的界面中展示语音输入界面620。当用户点击语音输入控件621时，终端将获取用户输入的语音片段。当用户点击语音输入界面的开启入口610时，终端展示界面将变化至如图5所示的界面。

更进一步地，在一个实施例中，步骤S308之后，基于语音识别的数据传输方法还包括：在语音输入界面输出语音识别结果；当检测到针对输出的语音识别结果的取消操作时，撤销输出的语音识别结果；当检测到针对输出的语音识别结果的确认输入操作时，根据输出的语音识别结果进行文本录入操作。

其中，取消操作是指预先设置的用于取消当前输出的语音识别结果的操作。确认输入操作是指预先设置的用于确认当前输出的语音识别结果的操作。具体地，终端在接收到服务器返回的语音识别结果后，可将该语音识别结果以文本形式在语音输入界面中预定义的区域展示。用户可根据展示的语音识别结果是否符合用户意图表达的内容进行相应的操作，以使得终端进行不同的响应。

终端可在语音输入界面输出语音识别结果后，检测用户针对语音识别结果的操作，在检测到的操作与预先设置的取消操作一致时，判定用户意图取消当前输出的语音识别结果，终端可撤销输出的语音识别结果。终端检测到的操作与预先设置的确认出入操作一致时，判定用户此时意图确认当前输出的语音识别结果，终端可根据输出的语音识别结果进行文本录入操作。

在一个实施例中，基于语音识别的数据传输方法可具体应用于支持会话的客户端的会话场景中。终端可建立与会话服务器间的会话连接，将进行文本录入操作的语音识别结果通过会话连接发送至会话服务器，以使得会话服务器根据终端发送的以语音识别结果为内容的会话消息进行响应。

在本实施例中，将语音识别结果在语音输入界面中输出，通过检测用户针对输出的语音识别结果的不同操作以进行不同的响应，提高语音识别的准确性。

举例说明，参照图7，图7为另一个实施例中语音输入界面开启时的界面示意图，该界面示意图包括语音输入控件710和语音识别结果展示区720。当用户点击语音输入控件710时，终端将获取用户输入的语音片段，并将获取的语音片段发送至服务器，以接收服务器反馈的与发送的语音片段匹配的语音识别结果，并将服务器反馈的语音识别结果在语音识别结果展示区720进行展示。终端可在检测到取消操作时撤销输出的语音识别结果，取消操作比如作用于语音输入控件710且向上滑动的操作。终端可在检测到确认输入操作时向会话服务器发送输出的语言识别结果。确认输入操作比如点击语音输入控件710后的抬起操作。

在一个实施例中，步骤S306具体包括：通过数据传输通道，依次向数据传输通道所连接至的服务器发送语音片段，使得服务器在接收到发送的语音片段后，根据已接收到的多个语音片段进行语音识别，得到与发送的语音片段匹配的语音识别结果。

具体地，终端在将获取的语音片段发送至服务器后，服务器可根据终端发送的语音片段进行语音识别。服务器可在每次接收到语音片段后，基于已完成语音识别的多个语音片段的语音识别结果，对该语音片段进行语音识别，得到与服务器接收到的语音片段匹配的语音识别结果。服务器也可在每次接收到语音片段后，将该语音片段结合已接收到的多个语音片段进行语音识别，得到与服务器接收到的语音片段匹配的语音识别结果。

在本实施例中，进行语音识别的服务器根据已接收到的多个语音片段进行语音识别，得到与发送的语音片段匹配的语音识别结果，这种结合前后语音片段的语境进行语音识别的方式使得语音识别结果更为准确。

进一步地，在一个实施例中，步骤S308包括：在通过数据传输通道发送语音片段时，通过数据传输通道并行接收服务器反馈的与发送的语音识别结果。

具体地，终端通过数据传输通道向服务器发送语音片段与服务器通过数据传输通道向终端发送语音识别结果可异步进行。服务器可在每次接收到终端发送的语音片段后即对已经接收到的语音片段进行语音识别，并在得到语音识别结果时，可立即将得到的语音识别结果通过数据传输通道发送至终端。

在本实施例中，服务器在得到语音识别结果时，即可向终端发送得到的识别结果，无需在终端将需要发送至服务器的语音片段传输完成后再进行发送，提高了数据传输效率，进一步提高了语音识别效率。

如图8所示，在一个实施例中，基于语音识别的数据传输方法中步骤S308具体包括如下步骤：

S802，通过数据传输通道，接收按照应用层协议封装的数据包。

具体地，按照应用层协议封装的数据包是指服务器根据应用层协议规定的数据包格式将需要进行传输的数据进行封装得到的数据包。在本实施例中，服务器在根据终端发送的语音片段得到语音识别结果后，可根据预先设置的加密方式对得到的语音识别结果进行加密。服务器再根据基于应用层的二进制协议制作数据包，按照协议标准调整数据包头，并将加密后的语音识别结果添加的到数据包的包体中，完成数据包的封装，再将封装完成的数据包通过数据传输通道发送至终端。

S804，解析数据包，得到数据包中封装的加密的语音识别结果。

S806，将加密的语音识别结果解密，得到与发送的语音片段匹配的语音识别结果。

在本实施例中，将需要进行传输的语音识别结果进行加密后再传输，提高了语音识别结果传输的安全性。

如图9所示，在一个实施例中，基于语音识别的数据传输方法中建立数据传输通道并保持的步骤包括：

S902，建立数据传输通道。

S904，定期检测数据传输通道是否处于空闲状态。

其中，定期是指周期性地执行某操作。空闲状态是指未进行数据传输的状态。具体地，终端可在建立数据传输通道时开始，定期检测数据传输通道中是否有数据传输。终端在检测到当前有数据通过数据传输通道传输时，判定此时数据传输通道被保持，等待下次检测时间点进行检测；终端在检测到当前未有数据通过数据传输通道传输时，判定此时数据传输通道处于空闲状态。

S906，当检测到数据传输通道处于空闲状态时，通过数据传输通道发送心跳数据包。

具体地，心跳数据包是指终端向服务器通知终端状态的自定义数据包。终端在判定数据传输通道处于空闲状态时，无法判定数据传输通道是否被保持，可通过数据传输通道向服务器发送心跳数据包，以通知服务器终端需要保持与服务器之间的数据传输通道。

S908，若在预设时长内未接收到通过数据传输通道传来的针对心跳数据包的应答包，则关闭数据传输通道，重新建立数据传输通道并保持。

具体地，预设时长是终端预先设置的接收针对心跳数据包的应答包的等到时间。应答包是指服务器向终端通知服务器状态的自定义数据包。在预设时长内接收到通过数据传输通道传来的针对心跳数据包的应答包，则表示数据传输通道被保持。若在预设时长内未接收到通过数据传输通道传来的针对心跳数据包的应答包，则表示数据传输通道异常，终端则关闭出现异常的数据传输通道，重新建立数据传输通道并保持。

在本实施例中，通过心跳机制保证在根据用户意图关闭数据传输通道前，保持有正常可供数据传输的数据传输通道，在需要传输数据时可立即传输，提高了数据传输效率，进一步提高了语音识别效率。

如图10所示，在一个实施例中，提供了一种基于语音识别的数据传输方法，用于终端，该方法具体包括如下步骤：

S1002，显示语音输入界面的开启入口；获取针对开启入口的开启指令；根据开启指令，展示语音输入界面。

S1004，建立数据传输通道。

S1006，定期检测数据传输通道是否处于空闲状态；若是，则跳转到步骤S1008，若否，则继续执行步骤S1006。

S1008，通过数据传输通道发送心跳数据包。

S1010，检测预设时长内是否接收到通过数据传输通道传来的针对心跳数据包的应答包；若是，则继续执行步骤S1006；若否，则跳转到步骤S1012。

S1012，关闭当前数据传输通道，重新建立数据传输通道，并跳转到步骤 S1006。

S1014，依次获取输入的语音片段。

S1016，在准备发送语音片段时检测数据传输通道是否异常；若是，则执行步骤S1018；若否，则执行步骤S1020。

在本实施例中，终端在获取输入的语音片段准备发送时，可先检测当前数据差传输通道是否异常。具体地，终端可调用操作***接口检测当前网络状态，在当前网络状态正常时，判定数据传输通道正常且被保持，并通过该数据传输通道发送语音片段；在当前网络状态异常时，判定数据传输通道出现异常，则关闭该出现异常的数据传输通道，并重新建立数据传输通道，通过重新建立的数据传输通道发送语音片段。

S1018，关闭异常的数据传输通道，重新建立数据传输通道，并执行步骤S1020。

S1020，通过数据传输通道依次向数据传输通道所连接至的服务器发送语音片段，使得服务器在接收到发送的语音片段后，根据已接收到的多个语音片段进行语音识别，得到与发送的语音片段匹配的语音识别结果。

S1022，在通过数据传输通道发送语音片段时，通过数据传输通道并行接收服务器反馈的按照应用层协议封装的数据包。

S1024，解析数据包，得到数据包中封装的加密的语音识别结果；将加密的语音识别结果解密，得到与发送的语音片段匹配的语音识别结果。

S1026，在语音输入界面输出语音识别结果。

S1028，判断针对输出的语音识别结果的操作为取消操作还是确认输入操作；若为取消操作，则执行步骤S1030；若为确认输入操作，则执行步骤S1032。

S1030，撤销输出的语音识别结果。

S1032，根据输出的语音识别结果进行文本录入操作。

S1034，获取针对语音输入界面的界面隐藏指令；根据界面隐藏指令隐藏语音输入界面。

S1036，关闭数据传输通道。

在本实施例中，提供了数据传输通道出现异常时的处理方法，保证了终端在需要进行数据传输时，数据传输通道能被正常保持，提高了数据传输效率，进一步提高了语音识别效率。

在一个实施例中，基于语音识别的数据传输方法中在终端每次通过数据传输通道发送语音片段时，和/或，在终端每次通过数据传输通道接收语音识别结果时，则检测数据传输通道是否异常；当数据传输通道异常时，则关闭数据传输通道，重新建立数据传输通道并保持；通过重新建立的数据传输通道继续发送当次需发送的所述语音片段和/或接收当次需接收的所述语音识别结果。

具体地，终端可在通过数据传输通道传输数据时，检测通过数据传输通道反馈的错误消息，在检测到错误消息时，判定数据传输通道出现异常，则关闭该出现异常的数据传输通道，并重新建立数据传输通道，通过重新建立的数据传输通道传输数据。

图11为一个实施例中基于语音识别的数据传输方法的时序图。参考图11，用户在点击终端界面展示的开启入口后，终端进入语音输入界面，向服务器发起建立数据传输通道的请求，并准备输出语音识别结果。服务器监听到终端的请求后，接受该建立数据传输通道的请求，建立与终端间的数据传输通道并保持。

终端依次获取用户输入的语音片段，并在每次获取一个语音片段后，可立即通过数据传输通道将该语音片段发送至服务器。服务器在接收到该语音片段后，可立即进行语音识别，将得到的语音识别结果加密后通过数据传输通道异步发送至终端。终端对服务器发送的加密后的语音识别结果进行解密，将解密的语音识别结果进行展示。

在数据传输通道保持阶段，终端向服务器发送语音片段与服务器向终端发送语音识别结果可并行进行。在终端隐藏语音输入界面时，结束语音输入，向服务器发起关闭数据传输通道请求，在服务器接受数据传输通道关闭请求后关闭数据传输通道。

如图12所示，在一个实施例中，提供了一种基于语音识别的数据传输装置，包括：通道建立模块1201、获取模块1202、发送模块1203、接收模块1204和通道关闭模块1205。

通道建立模块1201，用于当进入语音输入状态时，建立数据传输通道并保持。

获取模块1202，用于依次获取输入的语音片段。

发送模块1203，用于通过数据传输通道，依次发送语音片段。

接收模块1204，用于通过数据传输通道，接收与发送的语音片段匹配的语音识别结果。

通道关闭模块1205，用于当退出语音输入状态时，关闭数据传输通道。

上述基于语音识别的数据传输装置，进入语音输入状态时便建立数据传输通道，后续在输入语音片段后可立即传输，可提高数据传输效率，从而提高了语音识别的效率。在建立数据传输通道后，依次获取的各语音片段，以及与发送的语音片段匹配的语音识别结果，均可在该数据传输通道上进行传输，直到退出语音输入状态时才关闭该数据传输通道，不需要在每次进行数据传输时重新建立新的数据传输通道，这样极大地避免了由于频繁地建立和关闭数据传输通道导致的额外耗时，提高了数据传输效率，进一步提高了语音识别效率。

在一个实施例中，通道建立模块1201还用于显示语音输入界面的开启入口；获取针对开启入口的开启指令；根据开启指令，展示语音输入界面。

在一个实施例中，通道关闭模块1205还用于获取针对语音输入界面的界面隐藏指令；根据界面隐藏指令隐藏语音输入界面。

在一个实施例中，发送模块1203还用于通过数据传输通道，依次向数据传输通道所连接至的服务器发送语音片段，使得服务器在接收到发送的语音片段后，根据已接收到的多个语音片段进行语音识别，得到与发送的语音片段匹配的语音识别结果。

在一个实施例中，接收模块1204还用于在通过数据传输通道发送语音片段时，通过数据传输通道并行接收服务器反馈的与发送的语音识别结果。

在一个实施例中，接收模块1204还用于通过数据传输通道，接收按照应用层协议封装的数据包；解析数据包，得到数据包中封装的加密的语音识别结果；将加密的语音识别结果解密，得到与发送的语音片段匹配的语音识别结果。

在一个实施例中，通道建立模块1201还用于建立数据传输通道；定期检测数据传输通道是否处于空闲状态；当检测到数据传输通道处于空闲状态时，通过数据传输通道发送心跳数据包；若在预设时长内未接收到通过数据传输通道传来的针对心跳数据包的应答包，则关闭数据传输通道，重新建立数据传输通道并保持。

图13为另一个实施例中基于语音识别的数据传输装置1200的结构框图，参照图13，该基于语音识别的数据传输装置1200还包括：输出模块1206。

输出模块1206，用于在语音输入界面输出语音识别结果；当检测到针对输出的语音识别结果的取消操作时，撤销输出的语音识别结果；当检测到针对输出的语音识别结果的确认输入操作时，根据输出的语音识别结果进行文本录入操作。

在一个实施例中，该基于语音识别的数据传输装置1200还包括：检测模块1207，用于在每次通过数据传输通道发送语音片段时，和/或，在每次通过数据传输通道接收语音识别结果时，则检测数据传输通道是否异常；当数据传输通道异常时，则关闭数据传输通道，重新建立数据传输通道并保持；通过重新建立的数据传输通道继续发送当次需发送的所述语音片段和/或接收当次需接收的所述语音识别结果。

在本实施例中，提供了数据传输通道出现异常时的处理方法，保证了在需要进行数据传输时，数据传输通道能被正常保持，提高了数据传输效率，进一步提高了语音识别效率。

实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种基于语音识别的数据传输方法，所述方法包括：

当进入语音输入状态时，建立数据传输通道并保持；

依次获取输入的语音片段；

通过所述数据传输通道，依次发送所述语音片段；

通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果；

当退出所述语音输入状态时，关闭所述数据传输通道。
根据权利要求1所述的方法，其特征在于，所述进入语音输入状态的步骤包括：

显示语音输入界面的开启入口；

获取针对所述开启入口的开启指令；

根据所述开启指令，展示语音输入界面。
根据权利要求2所述的方法，其特征在于，所述退出所述语音输入状态的步骤包括：

获取针对所述语音输入界面的界面隐藏指令；

根据所述界面隐藏指令隐藏所述语音输入界面。
根据权利要求2所述的方法，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果之后，所述方法还包括：

在所述语音输入界面输出所述语音识别结果；

当检测到针对输出的所述语音识别结果的取消操作时，撤销输出的所述语音识别结果；

当检测到针对输出的所述语音识别结果的确认输入操作时，根据输出的所述语音识别结果进行文本录入操作。
根据权利要求1所述的方法，其特征在于，所述通过所述数据传输通道，依次发送所述语音片段的步骤包括：

通过所述数据传输通道，依次向所述数据传输通道所连接至的服务器发送所述语音片段，使得所述服务器在接收到发送的所述语音片段后，根据已接收到的多个语音片段进行语音识别，得到与发送的所述语音片段匹配的语音识别结果。
根据权利要求5所述的方法，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果的步骤包括：

在通过所述数据传输通道发送语音片段时，通过所述数据传输通道并行接收所述服务器反馈的与发送的语音识别结果。
根据权利要求1至4中任一项所述的方法，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果包括：

通过所述数据传输通道，接收按照应用层协议封装的数据包；

解析所述数据包，得到所述数据包中封装的加密的语音识别结果；

将加密的语音识别结果解密，得到与发送的所述语音片段匹配的语音识别结果。
根据权利要求1至6中任一项所述的方法，其特征在于，所述建立数据传输通道并保持的步骤包括：

建立数据传输通道；

定期检测所述数据传输通道是否处于空闲状态；

当检测到所述数据传输通道处于空闲状态时，通过所述数据传输通道发送心跳数据包；

若在预设时长内未接收到通过所述数据传输通道传来的针对所述心跳数据包的应答包，则关闭所述数据传输通道，重新建立数据传输通道并保持。
根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

在每次通过所述数据传输通道发送所述语音片段时，和/或，在每次通过所述数据传输通道接收所述语音识别结果时，则

检测所述数据传输通道是否异常；

当所述数据传输通道异常时，则

关闭所述数据传输通道，重新建立数据传输通道并保持；

通过重新建立的所述数据传输通道，继续发送当次需发送的所述语音片段和/或接收当次需接收的所述语音识别结果。
一种基于语音识别的数据传输装置，其特征在于，所述装置包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令由所述处理器执行以完成以下操作：

当进入语音输入状态时，建立数据传输通道并保持；

依次获取输入的语音片段；

通过所述数据传输通道，依次发送所述语音片段；

通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果；

当退出所述语音输入状态时，关闭所述数据传输通道。
根据权利要求10所述的装置，其特征在于，所述进入语音输入状态的步骤包括：

显示语音输入界面的开启入口；

获取针对所述开启入口的开启指令；

根据所述开启指令，展示语音输入界面。
根据权利要求11所述的装置，其特征在于，所述退出所述语音输入状态的步骤包括：

获取针对所述语音输入界面的界面隐藏指令；

根据所述界面隐藏指令隐藏所述语音输入界面。
根据权利要求11所述的装置，其特征在于，在所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果之后，所述计算机可读指令还使所述处理器执行以下操作：

在所述语音输入界面输出所述语音识别结果；

当检测到针对输出的所述语音识别结果的取消操作时，撤销输出的所述语音识别结果；

当检测到针对输出的所述语音识别结果的确认输入操作时，根据输出的所述语音识别结果进行文本录入操作。
根据权利要求10所述的装置，其特征在于，所述通过所述数据传输通道，依次发送所述语音片段的步骤包括：

通过所述数据传输通道，依次向所述数据传输通道所连接至的服务器发送所述语音片段，使得所述服务器在接收到发送的所述语音片段后，根据已接收到的多个语音片段进行语音识别，得到与发送的所述语音片段匹配的语音识别结果。
根据权利要求14所述的装置，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果的步骤包括：

在通过所述数据传输通道发送语音片段时，通过所述数据传输通道并行接收所述服务器反馈的与发送的语音识别结果。
根据权利要求10至13中任一项所述的装置，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果包括：

通过所述数据传输通道，接收按照应用层协议封装的数据包；

解析所述数据包，得到所述数据包中封装的加密的语音识别结果；

将加密的语音识别结果解密，得到与发送的所述语音片段匹配的语音识别结果。
根据权利要求10至15中任一项所述的装置，其特征在于，所述建立数据传输通道并保持的步骤包括：

建立数据传输通道；

定期检测所述数据传输通道是否处于空闲状态；

当检测到所述数据传输通道处于空闲状态时，通过所述数据传输通道发送心跳数据包；

若在预设时长内未接收到通过所述数据传输通道传来的针对所述心跳数据包的应答包，则关闭所述数据传输通道，重新建立数据传输通道并保持。
根据权利要求10至15中任一项所述的装置，其特征在于，所述计算机可读指令还使所述处理器执行以下操作：

在每次通过所述数据传输通道发送所述语音片段时，和/或，在每次通过所述数据传输通道接收所述语音识别结果时，则

检测所述数据传输通道是否异常；

当所述数据传输通道异常时，则关闭所述数据传输通道，重新建立数据传输通道并保持；

通过重新建立的所述数据传输通道继续发送当次需发送的所述语音片段和/或接收当次需接收的所述语音识别结果。
一种基于语音识别的数据传输方法，用于终端，该终端包括处理器和存储器，所述方法包括：

当进入语音输入状态时，建立数据传输通道并保持；

依次获取输入的语音片段；

通过所述数据传输通道，依次发送所述语音片段；

通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果；

当退出所述语音输入状态时，关闭所述数据传输通道。
根据权利要求19所述的方法，其特征在于，所述进入语音输入状态的步骤包括：

显示语音输入界面的开启入口；

获取针对所述开启入口的开启指令；

根据所述开启指令，展示语音输入界面。
根据权利要求20所述的方法，其特征在于，所述退出所述语音输入状态的步骤包括：

获取针对所述语音输入界面的界面隐藏指令；

根据所述界面隐藏指令隐藏所述语音输入界面。
根据权利要求20所述的方法，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果之后，所述方法还包括：

在所述语音输入界面输出所述语音识别结果；

当检测到针对输出的所述语音识别结果的取消操作时，撤销输出的所述语音识别结果；

当检测到针对输出的所述语音识别结果的确认输入操作时，根据输出的所述语音识别结果进行文本录入操作。
根据权利要求19所述的方法，其特征在于，所述通过所述数据传输通道，依次发送所述语音片段的步骤包括：

通过所述数据传输通道，依次向所述数据传输通道所连接至的服务器发送所述语音片段，使得所述服务器在接收到发送的所述语音片段后，根据已接收到的多个语音片段进行语音识别，得到与发送的所述语音片段匹配的语音识别结果。
根据权利要求23所述的方法，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果的步骤包括：

在通过所述数据传输通道发送语音片段时，通过所述数据传输通道并行接收所述服务器反馈的与发送的语音识别结果。
根据权利要求19至22中任一项所述的方法，其特征在于，所述通过所述数据传输通道，接收与发送的所述语音片段匹配的语音识别结果包括：

通过所述数据传输通道，接收按照应用层协议封装的数据包；

解析所述数据包，得到所述数据包中封装的加密的语音识别结果；

将加密的语音识别结果解密，得到与发送的所述语音片段匹配的语音识别结果。
根据权利要求19至24中任一项所述的方法，其特征在于，所述建立数据传输通道并保持的步骤包括：

建立数据传输通道；

定期检测所述数据传输通道是否处于空闲状态；

当检测到所述数据传输通道处于空闲状态时，通过所述数据传输通道发送心跳数据包；

若在预设时长内未接收到通过所述数据传输通道传来的针对所述心跳数据包的应答包，则关闭所述数据传输通道，重新建立数据传输通道并保持。
根据权利要求19至24中任一项所述的方法，其特征在于，所述方法还包括：

在每次通过所述数据传输通道发送所述语音片段时，和/或，在每次通过所述数据传输通道接收所述语音识别结果时，则

检测所述数据传输通道是否异常；

当所述数据传输通道异常时，则

关闭所述数据传输通道，重新建立数据传输通道并保持；

通过重新建立的所述数据传输通道，继续发送当次需发送的所述语音片段和/或接收当次需接收的所述语音识别结果。
一种非易失性存储介质，其特征在于，其中存储有计算机可读指令，所述计算机可读指令可以由处理器执行以完成如权利要求1至9中任一项的方法。