CN104795069A

CN104795069A - 语音识别方法和服务器

Info

Publication number: CN104795069A
Application number: CN201410027532.4A
Authority: CN
Inventors: 高舜东; 李陵; 管静娴
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-01-21
Filing date: 2014-01-21
Publication date: 2015-07-22
Anticipated expiration: 2034-01-21
Also published as: CN104795069B

Abstract

本发明公开了一种语音识别方法。所述方法包括：接收客户端发送的语音识别请求，所述语音识别请求携带有语音信息；从多个语音识别引擎中选择最优语音识别引擎；采用所述最优语音识别引擎将所述语音信息转换为文字信息；将所述文字信息传输给所述客户端。本发明还相应公开了一种语音识别服务器。应用本发明技术方案，能够根据不同用户，择优选择不同的语音识别引擎进行服务，提升语音识别的服务效率。

Description

语音识别方法和服务器

技术领域

本发明涉及计算机技术领域，特别是涉及一种语音识别方法和服务器。

背景技术

语音识别技术是对用户输入的语音信号进行识别，最终转换为文本的技术。目前，提供语音识别技术的厂商都是以单一语音识别引擎对用户提交的语音信息进行识别，无法根据不同的用户，提供不同的服务策略，服务效率比较低。

发明内容

基于此，有必要提供一种语音识别方法、服务器，应用本方法、服务器，能够根据不同用户，择优选择不同的语音识别引擎进行服务，提升语音识别的服务效率。

一种语音识别方法，包括：

接收客户端发送的语音识别请求，所述语音识别请求携带有语音信息；

从多个语音识别引擎中选择最优语音识别引擎；

采用所述最优语音识别引擎将所述语音信息转换为文字信息；

将所述文字信息传输给所述客户端。

一种语音识别服务器，包括：收发模块和引擎控制模块；

所述收发模块，用于接收客户端发送的语音识别请求，所述语音识别请求中携带有语音信息；

所述引擎控制模块，用于从多个语音识别引擎中选择最优语音识别引擎，采用所述最优语音识别引擎将所述语音信息转换为文字信息，并获取所述文字信息；

所述收发模块，还用于将所述文字信息传输给所述客户端。

上述语音识别方法、服务器，接收用户客户端发送的语音识别请求和语音信息后，择优选择多个语音识别引擎中的一个，将语音信息转换为文字信息，相比于传统技术中，依靠单一引擎对用户提交的语音信息进行识别，能够为不同用户定制不同的服务策略，提升语音识别效率。

附图说明

图1为一个实施例中的语音识别方法的流程示意图；

图2为一个实施例中的语音识别方法中的交互时序图；

图3为一个实施例中的语音识别方法的流程示意图；

图4为一个实施例中的语音识别方法中的交互时序图；

图5为一个实施例中的语音识别方法的应用场景图；

图6为一个实施例中的语音识别服务器的结构示意图；

图7为一个实施例中的语音识别服务器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

参见图1，在一个实施例中，提供了一种语音识别方法。该方法以应用于语音识别服务器。该语音识别方法包括下列流程：

步骤102，接收用户客户端发送的语音识别请求。

具体的，在语音识别请求中携带有语音信息。该语音信息可以是用户通过客户端的语音输入装置输入的语音信号经过编码得到的语音包，其中语音输入装置可以是但不限于麦克风。语音信息还可以是即时通信中，由信息发送端发送并存储在通信服务器中，再由该客户端下载得到的语音信息。客户端在下载语音信息到本地后，可以按照传统技术，以在界面上“点击语音图标”的形式播放语音，也可以选择向语音识别服务器发送语音识别请求，将语音信息转换为文字。用户可以通过预定义操作产生语音识别请求，例如在个人计算机的界面上点击“转换为文字”按钮、在手机界面中滑动语音信息图标等，其具体形式，在此并不限定。

步骤104，从多个语音识别引擎中选择最优语音识别引擎，采用最优语音识别引擎将语音信息转换为文字信息。

具体的，语音识别服务器在客户端发送的语音识别请求和语音信息后，选择不同的语音识别引擎为不同的用户客户端进行服务。在一个实施例中，语音识别服务器可以根据用户的使用习惯、满意度，确定对应客户端的语音识别引擎，具体的，语音识别服务器接在收到该用户的客户端发送的语音识别请求后，接收其中的用户标识（ID），再查找用户标识对应的语音识别引擎标识，确定最优语音识别引擎为该语音识别引擎标识对应的语音识别引擎。在选定最优语音识别引擎后，最优语音识别引擎将通过算法将语音信息转换为文字信息，其处理过程，可以参照传统技术，例如马尔科夫连续语音识别模型、神经网络算法、支持向量机算法等等。转换完成后，语音识别服务器再获取转换得到的文字信息。

在另一个实施例中，语音识别服务器可以根据多个语音识别引擎的转换置信度，选择转换置信度最高的语音识别引擎，作为最优语音识别引擎将语音信息转换为文字信息。具体的，语音识别服务器中预存有各个语音识别引擎的历史转换置信度，例如为100%。之后，语音识别服务器每次在接收到客户端发送的语音信息后，同时交给所有语音识别引擎进行识别，得到各语音识别引擎的语音识别结果即文字文本，以及各个语音识别引擎对该条语音信息进行语音识别给出的语音识别结果的临时转换置信度，语音识别服务器根据各个语音识别引擎的临时转换置信度，对各个语音识别引擎的历史转换置信度进行实时更新（如可以取平均来计算），并确定更新后历史转换置信度最高的语音识别引擎作为最优语音识别引擎。在其它的实施例中，还可以基于语音识别的便利性，根据多个语音识别引擎的转换时间，选择转换时间最短的语音识别引擎，作为最优语音识别引擎将语音信息转换为文字信息。具体的，语音识别服务器可以根据预定义大小的语音包的平均转换时间，确定转换时间最短的语音识别引擎。

步骤106，将文字信息传输给客户端。

具体的，在最优语音识别服务器完成语音识别，将语音信息转换为对应的文字信息后，语音识别服务器获取该文字信息，并将文字信息传输给客户端，由客户端显示给用户。当客户端为即时通信中，下载语音信息的至少一个客户端，语音识别服务器还可以将文字信息同步推送给所有下载语音信息的客户端。

参见图2，为本实施例中语音识别方法中的交互时序图，其中交互过程包括：

1.用户触发语音识别。

2.客户端向语音识别服务器发送语音识别请求。

语音识别请求中携带有语音信息。

3.语音识别服务器选择最优语音识别引擎，对语音信息进行识别，并转换得到文字信息。

4.最优语音识别引擎向语音识别服务器返回文字信息。

5.语音识别服务器向客户端推送文字信息。

6.客户端将文字信息展示给用户。

本实施例的语音识别方法，接收用户客户端发送的语音识别请求和语音信息后，择优选择多个语音识别引擎中的一个，将语音信息转换为文字信息，相比于传统技术中，依靠单一引擎对用户提交的语音信息进行识别，能够为不同用户定制不同的服务策略，提升服务效率。

参见图3，在一个实施例中也提供了一种语音识别方法。该方法可以应用于通过一语音识别服务器将客户端提交的语音信息转换为对应的文字信息。该方法还可以包括用户客户端对语音识别引擎返回的文字信息进行纠错。该方法的具体流程如下：

步骤302，接收客户端发送的语音识别请求，语音识别请求中携带有语音信息。

步骤304，从多个语音识别引擎中选择最优语音识别引擎，采用最优语音识别引擎将语音信息转换为文字信息。

步骤306，将文字信息传输给客户端。

本实施例中，步骤302～步骤306与前述实施例中的步骤102～106原理相同，其具体执行过程在此不再赘述。

步骤308，接收客户端发送的纠错请求，纠错请求中携带有纠错文字信息。

具体的，在客户端接收到语音识别服务器返回的文字信息并呈现给用户后，用户判断文字信息中存在错漏后，可以选择向语音识别服务器发送纠错请求，其操作方式可以但不限于包括右键选择“纠错”选项等。在用户选择“纠错”后，界面可以进入文字编辑页面，用户可以输入认为正确的纠错文字信息，再点击“确认”将纠错文字信息发送给语音识别服务器。

步骤310，将纠错文字信息提交到最优语音识别引擎进行学习。

语音识别服务器在接收到用户客户端发送的纠错请求后，根据该客户端对应的最优语音识别引擎，将纠错文字信息提交给该最优语音识别引擎进行学习，以供下次用户请求语音识别时，可以获得正确的文字信息。在本实施例所提供的一个学习方式下，最优语音识别引擎可以将纠错文字信息和初次语音识别得到的文字信息进行对比，得到存在错误的文字字元，再由错误的文字字元确定对应的语音片段，最后将最优语音识别引擎中的识别数据库中的语音片段所对应的文字字元替换为纠错文字信息中对应的文字字元。在其它的实施例中，还可以采取其它的学习方式，例如人工修正等方式。

步骤312，将纠错文字信息同步推送到至少一个客户端。

具体的，可以理解，本实施例中的步骤312并不是必须的，即将纠错文字信息提交到最优语音识别引擎进行学习即可结束。本实施例中，语音识别服务器将纠错文字信息发送给客户端，由客户端进行显示。客户端可以着重显示纠错文字信息与初次语音识别得到的文字信息的差异，并提供一个用户再次纠错的窗口。

在其它的实施例中，步骤312还有其它替代方案。语音识别服务器向最优语音识别引擎提交纠错文字进行学习，语音识别引擎对纠错文字信息进行修正，得到修正后的文字信息，根据修正算法的差异，修正后的文字信息可以与纠错文字相同，也可以不同。语音识别服务器获取修正后的文字信息，并将修正后的文字信息同步推送到至少一个客户端，具体的，客户端可以是即时通信中接收语音信息并下载到本地的多个客户端。

参见图4，为本实施例一个应用场景中的交互时序图。其中，交互过程包括：

1.用户触发纠错。

2.客户端向语音识别服务器发送纠错请求。

纠错请求中携带有纠错文字信息。

3.语音识别服务器将纠错文字信息提交给最优语音识别引擎进行识别。

4.语音识别服务器向客户端推送纠错文字信息。

5.客户端将纠错文字信息展示给用户。

本实施例所提供的语音识别方法，不仅能够从多个语音识别引擎中择优选择一个，为不同用户客户端提供语音识别服务，还提供给用户客户端一个纠错的功能机制，在用户客户端长期使用语音识别服务后，进一步提高语音识别的准确率，进一步提升了服务质量。

参见图5，在一个实施例中说明语音识别服务器500的另一种应用场景。在本实施例中，网络501连接语音识别服务器500、通信服务器502、客户端504、客户端506和客户端508。语音识别服务器500直接或通过网络501连接多个语音识别引擎（在本实施例中，示意性绘出语音识别服务器500直接连接语音识别引擎A和语音识别引擎B）。其中，网络500可以是Internet、WCDMA、LTE等形式中的一种。客户端504～508可以是个人计算机、台式电脑、手机、平板电脑等。客户端504、客户端506……之间依靠网络500和通信服务器502实现即时通信，例如客户端504向客户端506和客户端508发送语音信息，通信服务器502可以用于存储该语音信息，客户端506和客户端508在即时通信中需要从通信服务器502下载该语音信息。语音识别服务器500和通信服务器602可以是同一物理服务器，也可以是分立的服务器。客户端506和用户客户端508下载语音信息后，可以播放语音，也可以由客户端506和客户端508中的一个或两个通过必要的操作向语音识别服务器500请求语音识别，语音识别服务器500为不同客户端择优选择不同的语音识别引擎，将语音信息转换为对应的文字信息，再通过网络501返回对应的客户端。在收到语音识别服务器500发送的文字信息后，例如客户端506还可以向语音识别服务器500提出纠错，向语音识别服务器500发送纠错文字信息，语音识别服务器500选择用户客户端506对应的最优语音识别引擎（语音识别引擎A或B）进行学习。最优语音识别引擎可以对纠错文字信息进行修正，将修正后的文字信息通过语音识别服务器同步推送给客户端506和客户端508，或者最优语音识别引擎可以依靠网络501将修正后的文字信息直接发送到客户端506和508。

参见图6，在一个实施例中，提供了一种语音识别服务器，该语音识别服务器具体包括：收发模块602、引擎控制模块604。

本实施例提供的语音识别服务器，其工作原理如下：

收发模块602，用于接收客户端发送的语音识别请求，语音识别请求中携带有语音信息。

具体的，如图6，接收模块602可以接收客户端6a、客户端6b等发送的语音识别请求，在语音识别请求中携带有语音信息。该语音信息可以是客户端6a的用户通过客户端的语音输入装置输入的语音信号经过编码得到的语音包，还可以是即时通信中，由信息发送端发送并存储在通信服务器中，再由该客户端6a、客户端6b等下载到本地的语音信息。客户端6a～6c在下载语音信息到本地后，可以按照传统技术，以在界面上“点击语音图标”的形式播放语音，也可以选择向语音识别服务器发送语音识别请求，将语音信息转换为文字。用户可以通过预定义操作产生语音识别请求，例如在个人计算机的界面上点击“转换为文字”按钮、在手机界面中滑动语音信息图标等。

引擎控制模块604，用于从多个语音识别引擎中选择最优语音识别引擎，采用最优语音识别引擎将语音信息转换为文字信息，并获取文字信息。

具体的，如图6，示意性的绘出语音识别引擎6A和语音识别引擎6B。引擎控制模块604可以根据接收客户端发送的用户标识，查找与用户标识对应的语音识别引擎标识，确定最优语音识别引擎为与该语音识别引擎标识对应的语音识别引擎。引擎控制模块还可以根据多个语音识别引擎的转换置信度，选择转换置信度最高的语音识别引擎作为最优语音识别引擎；或根据多个语音识别引擎的转换时间，选择转换时间最短的语音识别引擎作为最优语音识别引擎。

在确定最优语音识别引擎后（语音识别引擎6A或语音识别引擎6B），最优识别引擎将语音信息转换为文字信息，其具体的转换过程，可以参照传统技术。转换完成后，引擎控制模块604按照通信协议，接收文字信息。

收发模块602，用于将文字信息传输给客户端。

参见图7，在一个实施例中，提供了一种语音识别服务器，包括收发模块702、引擎控制模块704和同步模块706。

在本实施例中，收发模块702接收客户端7a、客户端7b、客户端7c中的一个或多个客户端发送的语音识别请求，在语音识别请求中携带有语音信息。引擎控制模块704分别为上述客户端分别从语音识别引擎7A、语音识别引擎7B等多个中选择最优语音识别引擎，将语音信息转换为文字信息。最优语音识别引擎的选择方式可以参照图6中实施例的描述。转换完成后，引擎控制模块704获取文字信息，通过收发模块702传输给各客户端。

客户端7a～7c等接收到语音识别服务器返回的文字信息并呈现给用户后，用户判断文字信息中存在错漏后，可以选择向语音识别服务器发送纠错请求，收发模块702用于接收纠错请求，在纠错请求中携带有纠错文字信息。具体的，客户端用户的操作方式可以是通过右键选择“纠错”选项等。在用户选择“纠错”后，界面可以进入文字编辑页面，用户可以输入认为正确的纠错文字信息，再点击“确认”将纠错文字信息发送给语音识别服务器。引擎控制模块704根据客户端对应的最优语音识别引擎，将纠错文字信息提交给最优语音识别引擎进行学习。

在本实施例中，语音信息如果对应着多个下载该语音信息的客户端，例如客户端可以是即时通信中以群或讨论组等形式接收语音信息的多个客户端，同步模块706可以通过网络获取下载该语音信息的多个客户端的地址。收发模块702再根据这些客户端的地址，将纠错文字信息同步推送到各个客户端。在其它的实施例中，最优语音识别引擎在学习纠错文字信息后，可以向语音识别服务器返回修正后的文字信息，收发模块702根据同步模块706获取的多个客户端的地址，将修正后的文字信息同步推送到各个客户端。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，所述方法包括：

从多个语音识别引擎中选择最优语音识别引擎；

将所述文字信息传输给所述客户端。

2.根据权利要求1所述的方法，其特征在于，所述从多个语音识别引擎中选择最优语音识别引擎的步骤，包括：

接收所述客户端发送的用户标识，查找与所述用户标识对应的语音识别引擎标识，确定所述最优语音识别引擎为与所述语音识别引擎标识对应的语音识别引擎。

3.根据权利要求1所述的方法，其特征在于，所述从多个语音识别引擎中选择最优语音识别引擎的步骤，包括：

根据多个语音识别引擎的转换置信度，选择转换置信度最高的语音识别引擎作为所述最优语音识别引擎；或

根据多个语音识别引擎的转换时间，选择转换时间最短的语音识别引擎作为所述最优语音识别引擎。

4.根据权利要求2或3所述的方法，其特征在于，在将所述文字信息传输给所述客户端的步骤之后，所述方法还包括：

接收所述客户端发送的纠错请求，所述纠错请求携带有纠错文字信息；

将所述纠错文字信息提交到所述最优语音识别引擎进行学习。

5.根据权利要求4所述的方法，其特征在于，在所述将所述纠错文字信息提交到所述最优语音识别引擎进行学习之后，所述方法还包括：

将所述纠错文字信息同步推送到下载所述语音信息的至少一个客户端。

6.根据权利要求4所述的方法，其特征在于，在所述将所述纠错文字信息提交到所述最优语音识别引擎进行学习之后所述方法还包括：

获取所述最优语音识别引擎返回的修正后的文字信息；

将所述修正后的文字信息同步推送到下载所述语音信息的至少一个客户端。

7.一种语音识别服务器，其特征在于，所述语音识别服务器包括：收发模块和引擎控制模块；

所述收发模块，还用于将所述文字信息传输给所述客户端。

8.根据权利要求7所述的语音识别服务器，其特征在于，所述引擎控制模块，用于接收所述客户端发送的用户标识，查找与所述用户标识对应的语音识别引擎标识，确定所述最优语音识别引擎为与所述语音识别引擎标识对应的语音识别引擎。

9.根据权利要求7所述的语音识别服务器，其特征在于，所述引擎控制模块，用于根据多个语音识别引擎的转换置信度，选择转换置信度最高的语音识别引擎作为所述最优语音识别引擎；或

10.根据权利要求8或9所述的语音识别服务器，其特征在于，所述收发模块，还用于接收所述客户端发送的纠错请求，所述纠错请求中携带有纠错文字信息；

所述引擎控制模块，还用于将所述纠错文字信息提交到所述最优语音识别引擎进行学习。

11.根据权利要求10所述的语音识别服务器，其特征在于，所述语音识别服务器还包括同步模块，所述同步模块用于获取下载所述语音信息的至少一个客户端的地址；

所述收发模块，还用于根据所述至少一个客户端的地址，将所述纠错文字信息同步推送到所述至少一个客户端。

12.根据权利要求10所述的语音识别服务器，其特征在于，所述语音识别服务器还包括同步模块，所述同步模块用于获取下载所述语音信息的至少一个客户端的地址；

所述引擎控制模块，还用于获取所述最优语音识别引擎返回的修正后的文字信息；

所述收发模块，还用于根据所述至少一个客户端的地址，将所述修正后的文字信息同步推送到所述至少一个客户端。