CN112289314A

CN112289314A - 一种语音处理方法和装置

Info

Publication number: CN112289314A
Application number: CN202011039618.0A
Authority: CN
Inventors: 邓练兵; 高妍; 陈小满
Original assignee: Zhuhai Dahengqin Technology Development Co Ltd
Current assignee: Zhuhai Dahengqin Technology Development Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-29

Abstract

本发明实施例提供了一种语音处理方法和装置，应用于语音处理平台，所述语音处理平台部署于开发者门户***，所述开发者门户***集成于城市门户***，所述方法包括：接收所述多个业务平台的用户提出的语音处理服务请求；获取所述用户指定的待处理语音数据；响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果；向所述用户发送所述处理结果。在城市门户***中，通过部署于开发者门户***的语音处理平台接收其他业务平台发送的语音处理服务请求，并调用语音处理服务接口进行处理，便于城市门户***的其他业务平台的用户得到经由语音处理后得到的处理结果。

Description

一种语音处理方法和装置

技术领域

本发明涉及网络技术领域，特别是涉及一种语音处理方法和一种语音处理装置。

背景技术

随着计算机、网络和通信等技术的发展，以人工智能深度应用为途径，建设符合跨域多维理念的城市建设，推进技术融合、业务融合、数据融合、应用融合，实现跨层级、跨地域、跨***、跨部门、跨业务的协同管理和服务，与各行业、企业、团队合作，加速城市建设工作，是智慧城市的发展方向。

目前，多数的城市发展都没有多维度融合的规划方案，各行业、企业、团队的信息平台之间在功能上不关联互助、信息不共享互换以及信息与业务流程和应用相互脱节的问题，导致信息平台中的信息无法得到充分利用。

实现针对城市进行多维度融合的城市门户***，以及如何使城市门户***更利于用户使用是目前急需解决的方案。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音处理方法和相应的一种语音处理装置。

为了解决上述问题，本发明实施例公开了一种语音处理方法，应用于语音处理平台，所述语音处理平台部署于开发者门户***，所述开发者门户***集成于城市门户***，所述语音处理平台提供的语音处理服务接口预先注册到所述城市门户***的统一服务网关并发布，所述城市门户***还包括多个业务平台，所述方法包括：

接收所述多个业务平台的用户提出的语音处理服务请求；

获取所述用户指定的待处理语音数据；

响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果；

向所述用户发送所述处理结果。

可选地，所述多个业务平台包括前端***，所述获取所述用户指定的待处理语音数据，包括：

与所述前端***建立实时流媒体通信连接；

通过所述实时流媒体通信连接，从所述用户的前端***获取待处理语音数据。

可选地，在所述响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果之前，还包括：

对所述待处理语音数据进行端点检测，得到有效语音数据；

所述响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果，包括：

响应所述语音处理服务请求，调用所述语音处理服务接口对所述有效语音数据进行语音处理，得到处理结果。

可选地，在所述向所述用户发送所述处理结果之前，还包括：

对所述处理结果进行优化处理；所述优化处理包括：口语顺滑处理、标点添加处理、逆转文本标准化ITN处理；

所述向所述用户发送所述处理结果，包括：

向所述用户发送经过优化处理之后的处理结果。

可选地，所述响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果，包括：

获取针对所述用户的预设语音处理模型；

响应所述语音处理服务请求，调用所述语音处理服务接口根据所述预设语音处理模型，对所述待处理语音数据进行语音处理，得到处理结果。

可选地，还包括：

获取所述用户上传的词库；

采用所述用户上传的词库，训练预设语音处理模型。

可选地，所述语音处理服务接口包括录音文件识别服务接口、和/或实时语音识别服务接口、和/或短时语音识别服务接口、和/或语音合成服务接口，所述待处理语音数据包括录音文件、和/或实时语音数据、和/或短时语音数据、和/或文本数据，所述语音处理服务请求包括录音文件识别服务请求、和/或实时语音识别服务请求、和/或短时语音识别服务请求、和/或语音合成服务请求；

响应所述录音文件识别服务请求，调用所述录音文件识别服务接口对所述录音文件进行识别处理，得到识别结果；

和/或，响应所述实时语音识别服务请求，调用所述实时语音识别服务接口对所述实时语音数据进行实时识别处理，得到识别结果；

和/或，响应所述短时语音识别服务请求，调用所述短时语音识别服务接口对所述短时语音数据进行识别处理，得到识别结果；

响应所述语音合成服务请求，调用所述语音合成服务接口对所述文本数据进行语音合成处理，得到合成语音结果。

本发明实施例还公开了一种语音处理装置，应用于语音处理平台，所述语音处理平台部署于开发者门户***，所述开发者门户***集成于城市门户***，所述语音处理平台提供的语音处理服务接口预先注册到所述城市门户***的统一服务网关并发布，所述城市门户***还包括多个业务平台，所述装置包括：

服务请求接收模块，用于接收所述多个业务平台的用户提出的语音处理服务请求；

待处理语音数据获取模块，用于获取所述用户指定的待处理语音数据；

语音处理模块，用于响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果；

处理结果发送模块，用于向所述用户发送所述处理结果。

可选地，所述多个业务平台包括前端***，所述待处理语音数据获取模块包括：

通信连接建立子模块，用于与所述前端***建立实时流媒体通信连接；

待处理语音数据获取子模块，用于通过所述实时流媒体通信连接，从所述用户的前端***获取待处理语音数据。

有效语音数据获取模块，用于对所述待处理语音数据进行端点检测，得到有效语音数据；

所述语音处理模块包括：

语音处理子模块，用于响应所述语音处理服务请求，调用所述语音处理服务接口对所述有效语音数据进行语音处理，得到处理结果。

优化处理模块，用于对所述处理结果进行优化处理；所述优化处理包括：口语顺滑处理、标点添加处理、逆转文本标准化ITN处理；

所述处理结果发送模块包括：

处理结果发送子模块，用于向所述用户发送经过优化处理之后的处理结果。

可选地，所述语音处理模块包括：

语音处理模型获取子模块，用于获取针对所述用户的预设语音处理模型；

语音处理模型处理子模块，用于响应所述语音处理服务请求，调用所述语音处理服务接口根据所述预设语音处理模型，对所述待处理语音数据进行语音处理，得到处理结果。

可选地，所述语音处理模块还包括：

词库获取子模块，用于获取所述用户上传的词库；

语音处理模型训练子模块，用于采用所述用户上传的词库，训练预设语音处理模型。

可选地，所述语音处理服务接口包括录音文件识别服务接口，所述待处理语音数据包括录音文件，所述语音处理服务请求包括录音文件识别服务请求；所述语音处理模块包括：

第一语音处理子模块，用于响应所述录音文件识别服务请求，调用所述录音文件识别服务接口对所述录音文件进行识别处理，得到识别结果。

可选地，所述语音处理服务接口包括实时语音识别服务接口，所述待处理语音数据包括实时语音数据，所述语音处理服务请求包括实时语音识别服务请求；所述语音处理模块包括：

第二语音处理子模块，用于响应所述实时语音识别服务请求，调用所述实时语音识别服务接口对所述实时语音数据进行实时识别处理，得到识别结果。

可选地，所述语音处理服务接口包括短时语音识别服务接口，所述待处理语音数据包括短时语音数据，所述语音处理服务请求包括短时语音识别服务请求；所述语音处理模块包括：

第三语音处理子模块，用于响应所述短时语音识别服务请求，调用所述短时语音识别服务接口对所述短时语音数据进行识别处理，得到识别结果。

可选地，所述语音处理服务接口包括语音合成服务接口，所述待处理语音数据包括文本数据，所述语音处理服务请求包括语音合成服务请求；所述语音处理模块包括：

第四语音处理子模块，用于响应所述语音合成服务请求，调用所述语音合成服务接口对所述文本数据进行语音合成处理，得到合成语音结果。

本发明实施例还公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现任一项所述的语音处理方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现任一项所述的语音处理方法的步骤。

本发明实施例包括以下优点：

在本发明实施例中，部署于开发者门户***的语音处理平台可以接收在城市门户***中多个业务平台的用户提出的语音处理服务请求，并获取提出请求的用户所指定的待处理语音数据，通过调用相应的语音处理服务接口对所获取的待处理语音数据进行语音处理，并将处理得到的处理结果返回至提出请求的用户。在城市门户***中，通过部署于开发者门户***的语音处理平台接收其他业务平台发送的语音处理服务请求，并调用语音处理服务接口进行处理，便于城市门户***的其他业务平台的用户得到经由语音处理后得到的处理结果。

附图说明

图1是本发明实施例的一种城市门户***的框图；

图2是本发明的一种语音处理方法实施例一的步骤流程图；

图3是本发明的一种语音处理方法实施例二的步骤流程图；

图4是本发明实施例中对待处理语音数据进行语音处理的流程示意图；

图5是本发明实施例中一句话识别服务的处理流程示意图；

图6是本发明的一种语音处理装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

城市门户***是指集合了针对城市规划的综合性互联网信息，提供综合性应用服务的公共平台门户。城市门户***的服务对象包括：政府、个人、企业、开发者，可以提供政务服务、个人服务、企业服务等多种综合***。

参照图1，示出了本发明实施例的一种城市门户***的框图，具体可以包括：前端***10、后端***11、API开放平台12、开发者门户***13、运营中心14等多个平台。

前端***10，实现多个功能并提供多个页面；所述多个页面包括与所述多个功能对应的多个UI元素；所述多个功能包括由后端***提供服务支持的功能。

前端***是面向用户的客户端，作为用户使用城市门户***中各种内容的工具，用户可以通过前端***使用城市门户***中的资讯、应用、API服务以及***功能等。前端***展现以Vue，React等通用前端开发框架实现多业务***单页面统一呈现。

前端***支持多维用户使用，包括游客、自然人、企业法人、企业员工、政府人员。前端***支持多维业态城市服务，包括政务服务、公共服务、特色服务等。用户可以通过前端***使用多种城市服务。

前端***可以包括APP客户端、Web客户端和Web管理端，Web客户端面向游客、自然人、企业和政府用户，用于城市门户***官网、API开放平台、开发者门户。APP客户端面向游客、自然人、企业和政府用户，用于移动APP；Web管理端面向运营人员和***管理员，用于运营中心和其它后端管理***。

后端***11，用于为所述前端***提供业务支持，响应所述前端***的业务请求，执行相应业务操作。

后端***以通用化业务组件或技术业务为桥梁，打通底层数据。前端***与后端***解耦，后端***为前端***提供业务支撑。前端***与后端***分离部署，后端***服务动态扩容，实现***最大性能。

API开放平台12，用于提供针对API的管理服务，包括API发布服务、购买服务、使用服务。

API开放平台提供统一标准的数据与***开发环境，可应用于各行业、***内，是具有统一解决能力服务且开放的综合服务平台，旨在实现包括服务能力接入、开放管理、能力申请、能力应用等在内的统一能力开放的全流程生命周期管理管控。开发者通过将API服务发布到API开放平台，其它人员可以在平台上申请或购买使用。

开发者门户***13，用于提供API、应用、数据开发和部署的环境，以及通用的程序构件。

开发者门户***可以为开发者提供应用、算法和数据开发和部署的环境，以及通用的AI构件、技术构件和业务构件。包含应用开发、算法开发、应用发布和服务发布等功能。开发者可以基于开发者门户***提供的环境、组件、模板等快速开发和发布应用及API。开发者门户***可以包括算法开发平台、应用开发平台和数据开发平台三个平台。

运营中心14，用于对所述城市门户***的内容、用户、应用、API进行管理。

运营中心是为管理人员和运营人员对城市门户***提供统一日常运营管理的业务中台。管理人员可以通过运营中心对城市门户***的内容、用户、应用、API等进行统一管理。

在本发明实施例提供了一种城市门户***，可以集成前端***、后端***、API开放平台、开发者门户***、运营中心等多个平台。前端***作为客户端面向各种用户，用户可以通过在前端***执行操作，从而获得集成于城市门户***中的各个平台提供的内容。后端***为前端***提供业务支持，响应所述前端***的业务请求，执行相应业务操作。API开放平台提供针对API的管理服务，包括API发布服务、购买服务、使用服务；可以供开发者统一调用API，建立规范统一的信息化平台。开发者门户***可以提供API、应用、数据开发和部署的环境，以及通用的程序构件；可以供开发者实现各种业务发开。运营中心可以对城市门户***的内容、用户、应用、API进行管理。本发明实施例提供了针对城市的综合性的城市门户***，面向城市中的各种用户，用户可以通过城市门户***快捷、便利的实现各种数字化服务；通过城市门户***实现规范化的业务开发。

参照图2，示出了本发明的一种语音处理方法实施例一的步骤流程图，应用于语音处理平台，所述语音处理平台部署于开发者门户***，所述开发者门户***集成于城市门户***，所述语音处理平台提供的语音处理服务接口预先注册到所述城市门户***的统一服务网关并发布，所述城市门户***还包括多个业务平台，具体可以包括如下步骤：

步骤201，接收所述多个业务平台的用户提出的语音处理服务请求；

在本发明的一种实施例中，城市门户***可以包括开发者门户***以及其他业务平台，开发者门户***与其他业务平台之间相互通信，部署于开发者门户***的语音处理平台可以接收其他多个业务平台的用户所提出的语音处理服务请求，以便响应用户所提出的服务请求并进行相应处理。

其中，当其他多个业务平台的用户向部署于开发者门户***的语音处理平台提出语音处理服务请求时，主要表现为城市门户***中的多个业务平台与开发者门户***之间的服务通信请求，城市门户***在检测到多个业务平台的用户提出的服务通信请求时，可以对提出服务请求的用户进行身份认证，即在通过身份认证平台判断具有与该用户对应的session(时域)会话以及与该用户对应的session会话有效的情况下，向部署于开发者门户***的语音处理平台发送多个业务平台的用户所提出的服务请求。

步骤202，获取所述用户指定的待处理语音数据；

在实际应用中，在接收到其他多个平台的用户提出的语音处理服务请求之后，还需要对用户所要进行语音处理的待处理语音数据进行获取，待处理语音数据可以是用户指定的待处理语音数据，用户指定的待处理语音数据可以是所接收的语音处理请求中携带的数据，也可以是其他来源的数据，对此，本发明实施例不加以限制。

步骤203，响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果；

步骤204，向所述用户发送所述处理结果。

在本发明的一种实施例中，语音处理平台在接收到其他业务平台的用户提出的语音处理服务请求以及获取用户指定的待处理语音数据之后，可以为用户提供相应的语音处理服务，具体的，可以响应用户提出的语音处理服务请求，并调用与提供语音处理服务对应的语音处理服务接口对待处理语音数据进行语音处理，得到处理之后的处理结果，并向提出该服务请求的用户发送处理结果。

参照图3，示出了本发明的一种语音处理方法实施例二的步骤流程图，应用于语音处理平台，具体可以包括如下步骤：

步骤301，接收用户发起的语音处理服务请求，并从用户的客户端获取待处理语音数据；

在本发明的一种实施例中，部署于开发者门户***的语音处理平台可以接收用户所提出的语音处理服务请求，以及获取用户所指定的待处理语音数据，以便响应用户所提出的服务请求并对所获取的待处理语音数据进行相应处理。

其中，提出语音处理服务请求的用户可以是集成于城市门户***的开发者门户***的登录用户，还可以是城市门户***中除了开发者门户***以外的其他业务平台的用户；对于提出语音处理服务请求的提出方式，用户在登录开发者门户***或其他业务平台后，可以在出现***的主页面或平台的主页面，该主页面可以包括针对语音处理服务请求的操作栏，或针对语音处理服务请求的链接入口，此时可以通过登录用户的作用于上述操作栏或链接入口的触控操作，实现对语音处理服务请求的提出。

在本发明的一种实施例中，步骤301可以包括如下子步骤：

子步骤S11，与所述前端***建立实时流媒体通信连接；

子步骤S12，通过所述实时流媒体通信连接，从所述用户的前端***获取待处理语音数据。

在实际应用中，用户可以在多个业务平台提出语音处理服务请求，多个业务平台可以包括前端***，此时语音处理平台可以通过RTSP(Real Time Streaming Protocol，一种用来控制声音或影像的多媒体串流协议)建立与多个业务平台的前端***的实时流媒体通信连接，以便可以通过建立的实时流媒体通信连接从用户的前端***获取待处理语音数据。步骤302，对所述待处理语音数据进行端点检测，得到有效语音数据；

在本发明的一种实施例中，在响应其他业务平台的用户提出的语音处理服务请求，调用语音处理服务接口对待处理语音数据进行语音处理，得到处理结果之前，可以对待处理语音数据进行端点检测，得到有效语音数据，以便调用语音处理服务接口对有效语音数据进行语音处理，得到处理结果。

在实际应用中，对待处理语音数据进行端点检测指的是对输入的原始pcm语音流(这里可以指的是通过实时流媒体通信连接从用户的前端***获取的待处理语音数据)进行端点检测，其检测后所得到的语音数据为有效语音部分的有效语音数据。

步骤303，调用相应的语音处理服务接口对所待处理语音数据进行语音处理服务；

在具体实现中，对所接收的语音处理服务接口进行响应，可以通过网关调用语音处理服务接口，对待处理语音数据进行语音处理，其中，语音处理服务接口是预先注册到城市门户***的统一服务网关并发布，以及用于提供语音处理服务的服务接口。

语音处理指的是对音频流语音数据包进行音频处理，其可以支持REST API接口、深度语义解析、自定义识别词库以及语音识别等。所支持的REST API接口指的是可以采用适用于其它任何平台与语音处理平台之间的通信以实现语音处理服务的HTTP请求方式；所支持的深度语义解析指的是可以对多个领域进行的语义理解，例如交通、社交、娱乐等；所支持的自定义识别词库指的是可以支持自定义指令集和问答对的设置，以更准确地理解用户意图；所支持的语音识别可以包括远场语音识别、近场语音识别以及语音唤醒等。

其中，所接收的语音处理服务请求可以包括不同服务请求，不同服务请求对应不同的语音处理服务接口，此时可以调用与服务请求类型匹配的语音处理服务接口对待处理语音数据进行处理。

在本发明的一种实施例中，步骤303可以包括如下子步骤：

子步骤S21，响应所述录音文件识别服务请求，调用所述录音文件识别服务接口对所述录音文件进行识别处理，得到识别结果；

具体的，语音处理服务请求可以包括录音文件识别服务请求，响应录音文件识别服务请求所调用的语音处理服务接口可以是录音文件识别服务接口，录音文件识别服务接口所提供的服务可以是针对录音文件的录音文件识别服务，此时可以采用录音文件识别服务对录音文件进行识别处理，以得到针对录音文件的识别结果。

其中，录音文件识别服务可以预先注册到城市门户***的统一服务网关并发布的，可以是以REST API的方式提供录音文件识别服务接口，且需要进行识别处理的录音文件可以放在某个服务器上，其该服务器可以通过URL进行访问得到。录音文件识别的RESTAPI(即录音文件识别服务接口)可以包括POST方式的录音文件识别服务请求接口以及GET方式的录音文件识别结果查询接口两个部分，录音文件识别服务请求接口可以是POST/stream/v1/filetrans，录音文件识别结果查询接口可以是GET/stream/v1/filetrans。

子步骤S22，响应所述实时语音识别服务请求，调用所述实时语音识别服务接口对所述实时语音数据进行实时识别处理，得到识别结果；

在另一种情况下，语音处理服务请求可以包括实时语音识别服务请求，响应实时语音识别服务请求所调用的语音处理服务接口可以是实时语音识别服务接口，实时语音识别服务接口所提供的服务可以是针对实时语音数据的实时语音识别服务，此时可以采用实时语音识别服务对实时语音数据进行实时识别处理，以得到针对实时语音数据的识别结果。

其中，采用实时语音识别服务对实时语音数据进行实时识别处理，首先可以进行鉴权操作，即在语音处理平台对应的客户端与服务端建立WebSocket链接时，可以采用token进行鉴权；还可以设置请求参数，以便在客户端发起请求时，服务端可以确认所发起的请求有效；此时客户端可以向服务端循环发送语音数据，并持续接收服务端发送的识别结果，且客户端可以通知服务端语音数据发送完成，且服务端可以在对语音数据识别结束后向客户端发送识别完毕的通知。

参照图4，示出了本发明实施例中对待处理语音数据进行语音处理的流程示意图，待处理语音数据可以是实时语音数据，该实时语音数据可以包括不限时长的音频流，所进行的语音处理操作可以是实时语音识别，该流程示意图可以应用于对不限时长的音频流进行实时语音识别的场景。

其中，实时语音识别的语音处理服务可以包括前处理部分、核心识别部分以及后处理三个部分。

具体的，前处理部分可以包含语音解码以及语音端点检测两大功能，语音解码指的是针对opu格式的语音流进行解码，语音端点检测指的是在线自动检测用户发送的语音流的语音前后端点，并同时用户可以通过一些高级的参数配置端检测算法的参数。

核心识别部分可以包含核心识别以及参数控制两大功能。核心识别指的是在对输入的原始pcm语音流进行端点检测后，将检测到的有效语音部分实时的发送给实时语音识别服务进行语音识别，并将识别结果实时返回给用户，其同时识别支持多语种、方言的语音识别；参数控制是指同时可以对识别过程中的各种参数进行参数控制，例如类热词、泛热词、定制模型、模型参数的传递。

后处理部分可以将得到的识别结果进行再次加工包括口语顺滑(disfluencydetection)、标点(puncation)、ITN(Inverse Text Normalization，逆转文本标准化)的处理。

在一种优选的实施例中，在对实时语音数据进行实时识别处理的过程中，还可以提供智能断句的功能，即可以提供每句话开始结束时间。具体的，智能断句可以表现为自动断句以及语音断句。

自动断句的实现可以使用语音检测功能在线自动检测用户发送的语音流的起始和结束端点的时间点信息，方便后续的语音识别，其中每个句子的时间点信息仅与用户发送的数据大小有关，另外若语音流未检测到尾端点，则可以按照默认60s的时间进行强制切断语音；语义断句可以称为流式标点，流式标点是指语音识别后的文本与书面语有很多不同，例如(1)识别后的文本可能具有包含识别错误，(2)没有标点符号，(3)源端为比较长的句子(例如对40～50s的语音标注后的文本)没有断句，(4)由于说话人由于犹豫、情绪、演讲风格等因素在基于VAD端点检测)算法将一个完整的句子切为多个短句子，(5)口语化文本，夹杂语气词等特点。这样可能会导致一下两方面的问题，例如基于不完整的句子片段打标点，标点算法会不准确，影响阅读效率；以及针对不完整句子的输出，可能会严重影响后续任务的效果，譬如机器翻译、摘要、句法分析等。由于上述所导致的两方面的问题，可以通过在后处理部分会将得到的识别结果进行再次加工包括口语顺滑、标点、ITN的处理并加入断句策略使得最终得到的识别结果为符合语义的识别结果。

以上实时语音识别的语音处理服务所包括的前处理部分、核心识别部分以及后处理三个部分，可以用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。

子步骤S23，响应所述语音合成服务请求，调用所述语音合成服务接口对所述文本数据进行语音合成处理，得到合成语音结果；

在另一种情况下，语音处理服务请求可以包括语音合成服务请求，响应语音合成服务请求所调用的语音处理服务接口可以是语音合成服务接口，语音合成服务接口所提供的服务可以是针对文本数据的语音合成服务，此时可以采用语音合成服务对文本数据进行语音合成处理，以得到针对文本数据的合成语音结果。

其中，语音合成服务可以预先注册到城市门户***的统一服务网关并发布的，可以是以REST API的方式提供语音合成服务接口，短时语音识别服务接口可以包括GETtream/v1/tts的GET方法上传文本接口，以及POST tream/v1/tts的POST方法上传文本接口。具体的，语音合成服务接口可以支持HTTP GET和POST两种方法的请求，即可以通过语音处理平台对应的客户端将待合成的文本上传到服务端，服务端可以返回文本的语音合成结果，在这个过程中，需要保证在语音合成结果返回之前持续保持语音处理平台与发起语音处理服务请求的用户所在的业务平台的连接。

在一种优选的实施例中，还可以采用语音合成服务SDK对文本数据进行语音合成处理，首先可以进行鉴权操作，即在语音处理平台对应的客户端与服务端建立WebSocket链接时，可以采用token进行鉴权；还可以设置请求参数，以便在客户端发起请求时，服务端可以确认所发起的请求有效；此时客户端通过POST以及GET两种方法向服务端上传文本数据之后，服务器可以开始返回合成的语音二进制数据，此时语音合成服务SDK可以接收并处理返回的二进制数据，且客户端可以通知服务端语音数据发送完成，且服务端可以向客户端返回最终的语音合成结果。

子步骤S24，响应所述短时语音识别服务请求，调用所述短时语音识别服务接口对所述短时语音数据进行识别处理，得到识别结果。

在另一种情况下，语音处理服务请求可以包括短时语音识别服务请求，响应短时语音识别服务请求所调用的语音处理服务接口可以是短时语音识别服务接口，短时语音识别服务接口所提供的服务可以是针对短时语音数据的短时语音识别服务，此时可以采用短时语音识别服务对短时语音数据进行识别处理，以得到针对短时语音数据的识别结果。

其中，短时语音识别服务可以预先注册到城市门户***的统一服务网关并发布的，可以是以REST API的方式提供短时语音识别服务接口，短时语音识别服务接口可以是POST/stream/v1/asr。

短时语音识别服务可以支持整段上传不超过一分钟的语音文件，且其识别结果可以以JSON格式在请求响应中一次性返回，则在对短时语音数据进行短时语音识别的处理过程中，需要保证在识别结果返回之前持续保持语音处理平台与发起语音处理服务请求的用户所在的业务平台的连接。具体的，语音处理平台对应的客户端可以向服务端发送带有音频数据的HTTP REST POST请求，此时服务端可以返回带有识别结果的HTTP响应，当客户端在向服务端发送上传音频的HTTP请求之后，可以接收到来自服务端的响应，其所携带的识别结果可以是以以JSON字符串的形式保存在该响应中。

参照图5，示出了本发明实施例中一句话识别服务的处理流程示意图，待处理语音数据可以是短时语音数据，该短时语音数据可以包括时长较短(一分钟以内)的语音，所进行的语音处理操作可以是短时语音识别，该流程示意图可以应用于对时长较短的语音进行短时语音识别的场景。

如图5所示，在对短时语音数据进行短时语音识别处理的过程中，可以通过一句话SDK以及通过网关调用短时语音识别服务接口实现。其中，短时语音识别服务接口所提供的短时识别处理操作可以通过自学习平台对针对短时语音识别进行模型的定制，以及泛热词、类热词等对该模型进行训练得到。需要说明的是，该流程示意图可以适用于较短的语音交互场景，例如语音搜索、语音指令、语音短消息等，可集成在各类App、智能家电、智能助手等产品中。

其中，一句话SDK可以指的是一句话识别SDK服务，此时首先可以进行鉴权操作，即在语音处理平台对应的客户端与服务端建立WebSocket链接时，可以采用token进行鉴权；还可以设置请求参数，以便在客户端发起请求时，服务端可以确认所发起的请求有效；此时客户端可以向服务端循环发送语音数据，并持续接收服务端发送的识别结果，且客户端可以通知服务端语音数据发送完成，且服务端可以在对语音数据识别结束后向客户端发送识别完毕的通知。

在一种优选的实施例中，对待处理语音数据进行语音处理，可以获取针对用户的预设语音处理模型，并通过响应语音处理服务请求，以及调用语音处理服务接口根据预设语音处理模型，对待处理语音数据进行语音处理，得到处理结果。其中，所获取的预设语音处理模块可以是由获取的用户上传的词库，进行训练得到的预设语音处理模型。

步骤304，对所述处理结果进行优化处理；所述优化处理包括：口语顺滑处理、标点添加处理、逆转文本标准化ITN处理；

在本发明的一种实施例中，在向其他业务平台的用户发送根据语音处理服务请求调用语音处理服务接口对待处理语音数据进行语音处理得到的处理结果之前，可以对处理结果进行优化处理，得到有效语音数据，以便向用户发送经过优化处理之后的处理结果。

在实际应用中，可以将进行语音处理得到的处理结果进行优化处理，其优化处理可以包括口语顺滑、标点、ITN的处理。其中，口语顺滑处理主要关注的是说话中自带的不流畅现象，目前主要可以针对语气词等的过滤处理让语音识别更流畅；标点处理指的是可以用自动标点模块对测试集合文本进行添加标点，自动标点也属于序列标注任务，使用统计模型或是神经网络的模型进行建模对输入的经过识别结果进行打标点；ITN处理指的是在大多数语音识别***中，核心语音识别器会生成语音形式的标志序列，这个序列随后通过ITN过程被转换成书写形式；ITN可以包括数字、日期和地址等对象。

步骤305，向用户发送通过语音处理后的处理结果。

在本发明的一种实施例中，语音处理平台在接收到其他业务平台的用户提出的语音处理服务请求以及获取用户指定的待处理语音数据，并调用与提供语音处理服务对应的语音处理服务接口对待处理语音数据进行语音处理之后，可以将处理之后的处理结果发送给用户，实现在城市门户***中，通过部署于开发者门户***的语音处理平台为其他业务平台的用户所提供的语音处理服务。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种语音处理装置实施例的结构框图，应用于语音处理平台，所述语音处理平台部署于开发者门户***，所述开发者门户***集成于城市门户***，所述语音处理平台提供的语音处理服务接口预先注册到所述城市门户***的统一服务网关并发布，所述城市门户***还包括多个业务平台，具体可以包括如下模块：

服务请求接收模块601，用于接收所述多个业务平台的用户提出的语音处理服务请求；

待处理语音数据获取模块602，用于获取所述用户指定的待处理语音数据；

语音处理模块603，用于响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果；

处理结果发送模块604，用于向所述用户发送所述处理结果。

在本发明的一种实施例中，待处理语音数据获取模块602可以包括如下子模块：

在本发明的一种实施例中，在所述响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果之前，还可以包括如下模块：

语音处理模块603可以包括如下子模块：

在本发明的一种实施例中，在所述向所述用户发送所述处理结果之前，还可以包括如下模块：

处理结果发送模块604可以包括如下子模块：

在本发明的一种实施例中，语音处理模块603可以包括如下子模块：

在本发明的一种实施例中，语音处理模块603还可以包括如下子模块：

词库获取子模块，用于获取所述用户上传的词库；

在本发明的一种实施例中，所述语音处理服务接口包括录音文件识别服务接口，所述待处理语音数据包括录音文件，所述语音处理服务请求包括录音文件识别服务请求；语音处理模块603可以包括如下子模块：

在本发明的一种实施例中，所述语音处理服务接口包括实时语音识别服务接口，所述待处理语音数据包括实时语音数据，所述语音处理服务请求包括实时语音识别服务请求；语音处理模块603可以包括如下子模块：

在本发明的一种实施例中，所述语音处理服务接口包括短时语音识别服务接口，所述待处理语音数据包括短时语音数据，所述语音处理服务请求包括短时语音识别服务请求；语音处理模块603可以包括如下子模块：

在本发明的一种实施例中，所述语音处理服务接口包括语音合成服务接口，所述待处理语音数据包括文本数据，所述语音处理服务请求包括语音合成服务请求；语音处理模块603可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音处理方法和一种语音处理装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，应用于语音处理平台，所述语音处理平台部署于开发者门户***，所述开发者门户***集成于城市门户***，所述语音处理平台提供的语音处理服务接口预先注册到所述城市门户***的统一服务网关并发布，所述城市门户***还包括多个业务平台，所述方法包括：

接收所述多个业务平台的用户提出的语音处理服务请求；

获取所述用户指定的待处理语音数据；

向所述用户发送所述处理结果。

2.根据权利要求1所述的方法，其特征在于，所述多个业务平台包括前端***，所述获取所述用户指定的待处理语音数据，包括：

与所述前端***建立实时流媒体通信连接；

3.根据权利要求1所述的方法，其特征在于，在所述响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果之前，还包括：

对所述待处理语音数据进行端点检测，得到有效语音数据；

4.根据权利要求1所述的方法，其特征在于，在所述向所述用户发送所述处理结果之前，还包括：

所述向所述用户发送所述处理结果，包括：

向所述用户发送经过优化处理之后的处理结果。

5.根据权利要求1所述的方法，其特征在于，所述响应所述语音处理服务请求，调用所述语音处理服务接口对所述待处理语音数据进行语音处理，得到处理结果，包括：

获取针对所述用户的预设语音处理模型；

6.根据权利要求5所述的方法，其特征在于，还包括：

获取所述用户上传的词库；

采用所述用户上传的词库，训练预设语音处理模型。

7.根据权利要求1所述的方法，其特征在于，所述语音处理服务接口包括录音文件识别服务接口、和/或实时语音识别服务接口、和/或短时语音识别服务接口、和/或语音合成服务接口，所述待处理语音数据包括录音文件、和/或实时语音数据、和/或短时语音数据、和/或文本数据，所述语音处理服务请求包括录音文件识别服务请求、和/或实时语音识别服务请求、和/或短时语音识别服务请求、和/或语音合成服务请求；

8.一种语音处理装置，其特征在于，应用于语音处理平台，所述语音处理平台部署于开发者门户***，所述开发者门户***集成于城市门户***，所述语音处理平台提供的语音处理服务接口预先注册到所述城市门户***的统一服务网关并发布，所述城市门户***还包括多个业务平台，所述装置包括：

处理结果发送模块，用于向所述用户发送所述处理结果。

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音处理方法的步骤。