CN105376429A

CN105376429A - 基于云计算的语音能力服务开放***

Info

Publication number: CN105376429A
Application number: CN201510815457.2A
Authority: CN
Inventors: 兰玉杰
Original assignee: SUZHOU INDUSTRIAL PARK YUNSHI INFORMATION TECHNOLOGY Co Ltd
Current assignee: SUZHOU INDUSTRIAL PARK YUNSHI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-03-02
Anticipated expiration: 2035-11-23
Also published as: CN105376429B

Abstract

本发明公开了一种基于云计算的语音能力服务开放***，部署于云计算平台，依次包括：应用数据库层，提供语音业务所需的各类应用数据库资源；数据服务层，用于数据的存取、同步、验证和转换逻辑；业务实现层，用于实现语音业务能力相关的所有功能组件；所述层，用于封装所有对外发布的语音业务能力；企业服务总线层，用于对外提供服务接入功能；业务流程层，用于把多个服务按照业务流程进行编排，通过对服务的组合或者编排，提供复合服务和流程服务；用户体验层，用于支持所有类型的客户端访问。实现了语音能力的统一管理和输出；只需要申请接入语音能力开放平台，降低了语音能力的使用门槛，使用成本和开发周期。

Description

基于云计算的语音能力服务开放***

技术领域

本发明属于智能语音服务领域，具体涉及一种基于云计算的语音能力服务开放***。

背景技术

随着智能语音技术的不断成熟，语音合成、语音导航及声纹识别的应用不断增加。语音技术的适用范围较为广泛，对于那些需要IVR（自助语音交互）的场景都适用，如电信行业、金融保险行业等。

语音合成实现文本到语音的转换过程，通过特殊的方法产生人造语音。在技术上，可以将任意文本信息（包括文字、字母、数字等）实时转化为标准的人的语音朗读出来。

语音导航属于在线语音识别范畴，该技术通过将用户的有效语音数据实时地传入识别引擎进行解码，用户说话完成后***可以在很短的时间内返回语音识别结果。

声纹识别通过提出说话人语音中能够标识说话人特点的某些特定语音参数，实现用户身份的确定。

如图1所示，现有的语音能力提供方式都是各自独立开发、部署，各语音能力归属于不同的能力平台，能力之间如要配合使用，必须开发新的接口进行通信。

在目前的情况下，企业若要获取所需的语音能力，都是通过单独的***建设来实现，门槛较高，开发周期长，且需要投入高额的成本。

现有语音平台技术实现存在如下缺陷：

1.从能力的建设上来看，现有技术实现都是通过建设独立的能力平台来实现各个能力，各能力之间被彼此分割。在需要多个语音能力配合使用的时候需要各平台开发接口进行通信。

2.现有语音平台的建设，都是基于传统的小型机或者PCServer来部署实现，投资成本较高，资源利用率不高。

3.从能力的使用上来看，企业或者个人若要获取这些语音能力，必须要通过单独的***建设来实现。这样的实现门槛较高，开发周期长，且需要投入高额的成本。对于个人普通应用，如个人应用开发者，根本没有办法享受到这些语音能力服务。

4.从能力的使用范围来看，目前的语音能力使用的范围较为狭窄，多为电信和银行业，很多需要使用到语音能力的行业无法使用。

发明内容

为了解决现有技术在实现语音能力上的单一性、局限性，实现多少个能力就需要创建多少套应用***的发展模式，本发明目的是：提供一种基于云计算的语音能力服务开放***，实现了语音能力的统一管理和输出；同时，对于接入使用语音能力的用户而言，只需要申请接入语音能力开放平台，降低了语音能力的使用门槛，大大降低了用户的使用成本和开发周期。

本发明的技术方案是：

一种基于云计算的语音能力服务开放***，其特征在于，所述***部署于云计算平台，从下到上依次包括应用数据库层、数据服务层、业务实现层、服务层、企业服务总线层、业务流程层以及用户体验层；

所述应用数据库层，用于提供语音业务所需的各类应用数据库资源；

所述数据服务层，用于数据的存取、同步、验证和转换逻辑；

所述业务实现层，用于实现语音业务能力相关的所有功能组件，包括语音合成业务组件、语音导航业务组件及声纹识别业务组件；

所述服务层，用于封装所有对外发布的语音业务能力，包括语音合成服务、语音导航服务及声纹识别服务；

所述企业服务总线层，用于对外提供安全、可靠、高性能的服务接入功能；

所述业务流程层，用于把多个服务按照业务流程进行编排，通过对服务的组合或者编排，提供复合服务和流程服务；

所述用户体验层，用于支持所有类型的客户端访问，包括WEB方式、客户端方式。

优选的，所述业务实现层包括语音合成业务组件、语音导航业务组件及声纹识别业务组件。语音合成业务组件，实现“文本->语音”的转换过程，将任意文字信息实时转化为标准流畅的语音朗读出来；语音导航组件，实现将用户的有效语音数据实时进行解码，在极短的时间内返回语音识别结果；声纹识别组件，通过提出说话人语音中表述说话人特点的语音参数，实现用户身份的确定。

优选的，所述服务层包括语音合成服务、语音导航服务及声纹识别服务。语音合成服务，通过对语音合成组件功能的封装，对外部***提供标准的在线文字合成语音服务；语音导航服务，通过对语音导航组件功能的封装，对外部***提供标准的在线语音识别服务；声纹识别服务，通过对声纹识别组件功能的封装，对外部***提供标准的人声参数识别服务。

优选的，所述***对声纹识别能力、语音导航能力和语音合成能力进行API封装，对外发布，所述声纹识别能力包括声纹注册、声纹验证和声纹注销，所述声纹注册用于在***中注册特定用户的声纹，所述声纹验证根据输入的声纹样本，判断是否为特定用户的声音，所述声纹注销用于注销特定用户的声纹，所述语音导航能力包括启动语音在线识别、暂停语音在线识别、恢复语音在线识别和停止语音在线识别，所述语音合成能力用于对输入的文本进行TTS放音。

本发明还公开了一种基于上述的基于云计算的语音能力服务开放***的用户申请使用能力API的方法，其特征在于，包括如下步骤：

（1）用户通过语音能力服务开放***提供的Portal页面进行应用开发申请，注册用户信息；

（2）语音能力服务开放***管理员对用户应用创建申请进行审核，审核通过后，为用户创建应用证书相关信息；

（3）应用开发者根据语音能力服务开放***提供的证书，在语音能力服务开放***查找所需要的能力API，开发相应的应用，并通过语音能力服务开放***提供的测试环境进行联调测试；

（4）应用与语音能力服务开放***联调测试通过后，应用开发者提交应用接入审核，语音能力服务开放***管理员对应用的接入安全性及性能相关指标进行审核评估，审核通过后，将进行应用的试运行；

（5）语音能力服务开放***管理员根据业务试运行结果，决定该应用是否可以进行上线发布。

优选的，所述步骤（1）中的用户信息至少包括：用户名、联系方式、应用名称、应用类型。

与现有技术相比，本发明的优点是：

1、将智能语音相关技术实现进行能力整合，对外进行能力的输出，通过提供标准接口API的方式对企业和个人用户开放，大大的降低了使用这些能力的门槛、降低了企业和个人的开发周期和成本。同时，本方案利用云计算技术，将***部署在云平台，极大的降低了投资成本，提高了现有计算力的使用率。

2、实现了语音能力的统一管理和输出；同时，对于接入使用语音能力的用户而言，只需要申请接入语音能力开放平台，降低了语音能力的使用门槛，大大降低了用户的使用成本和开发周期。

3、通过能力的整合输出，可以将语音技术的使用范围大大扩展，不仅可以针对传统的电信和银行业，还可以针对所有需要进行个人身份认证、交互式语音服务的行业。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为现有语音能力提供方式框图；

图2为本发明基于云计算的语音能力服务开放平台架构图；

图3为本发明用户申请使用能力API的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

图2是基于云计算的语音能力服务开放***的架构图，该***部署与云计算平台上，主要分为七层，从下到上依次为应用数据库层、数据服务层、业务实现层、服务层、ESB（企业服务总线）层、业务流程层及用户体验层。

1、应用数据库层

提供语音业务所需要的各类应用数据库资源。

2、数据服务层

数据服务作为一种特殊的业务服务的，封装了所有的企业数据，负责数据的存取、同步、验证和转换所需要的逻辑。数据服务层有效地创建了一个抽象层，使业务功能避开了数据的操作细节。

3、业务实现层

包含的组件服务以接口的形式对外公开发布，实现语音业务能力相关的所有功能组件，包括语音合成业务组件、语音导航业务组件及声纹识别业务组件。

4、服务层

封装所有对外发布的语音业务能力，包括语音合成服务、语音导航服务及声纹识别服务。

5、ESB（企业服务总线）层

企业服务总线（EnterpriseServiceBus，缩写ESB），是面向服务架构的骨干，在完成服务的接入，服务间的通信和交互基础上，还提供安全性、可靠性、高性能的服务能力保障。采用SOA架构，基于ESB总线进行企业应用集成，应用***之间的交互通过总线进行，这样可以降低应用***、各个组件及相关技术的耦合度，消除应用***点对点集成瓶颈，降低集成开发难度，提高复用，增进***开发和运行效率，便于业务***灵活重构，快速适应业务及流程变化需要。

6、业务流程层

把多个服务按照业务流程进行编排，通过对服务的组合/编排，实现各种复杂的、需要的复合服务和流程服务。

7、用户体验层

用户体验层提供支持所有类型的客户端访问，包括WEB方式、客户端方式及其他方式。

语音能力服务开放***具备能力发布、能力管理、能力接入、安全管理、性能及异常监控等功能。

能力开放***提供如下的能力API供外部调用，用户（企业或个人）可根据这些API实现其所需要的业务应用。

声纹识别能力API包括：

声纹注册，用于在***中注册特定用户的声纹；

声纹验证，根据输入的声纹样本，判断是否为特定用户的声音；

声纹注销，注销特定用户的声纹。

语音导航能力API包括：

启动语音在线识别，用于开启语音导航功能；

暂停语音在线识别，用于暂停语音导航功能；

恢复语音在线识别，用于恢复语音导航功能；

停止语音在线识别，用于停止语音导航功能。

语音合成能力API包括：

语音合成放音，对输入的特定文本进行TTS放音。

下面结合图3，对用户申请使用能力API的工作流程进行详细阐述：

1.企业/个人开发者使用语音能力服务开放***提供的Portal页面进行应用开发申请，需要在此***上注册用户信息，填写必须的字段（如用户名、联系方式、应用名称、应用类型等）。

2.语音能力服务开放***管理员对用户应用创建申请进行审核，审核通过后，为用户创建应用证书相关信息。

3.应用开发者根据***提供的证书，在***查找所需要的能力API，开发符合自身需要的应用，并通过语音能力服务开放***提供的测试环境进行联调测试。

4.应用与语音能力服务开放***联调测试通过后，应用开发者会提交应用接入审核。语音能力服务开放***的管理员对应用的接入安全性及性能相关指标进行审核评估。审核通过后，将进行应用的试运行。

5.语音能力服务开放***管理员根据业务试运行结果，决定该应用是否可以进行上线发布。如果该应用在试运行阶段各项指标符合相关规定，则对该应用进行正式上线发布；如果该应用在试运行阶段有不符合规定的指标，则通知应用开发者进行修改优化。

实现了语音能力的统一管理和输出；同时，对于接入使用语音能力的用户而言，只需要申请接入语音能力开放平台，降低了语音能力的使用门槛，大大降低了用户的使用成本和开发周期。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于云计算的语音能力服务开放***，其特征在于，所述***部署于云计算平台，从下到上依次包括应用数据库层、数据服务层、业务实现层、服务层、企业服务总线层、业务流程层以及用户体验层；

所述应用数据库层，用于提供语音业务所需的各类应用数据库资源；

所述数据服务层，用于数据的存取、同步、验证和转换逻辑；

所述业务实现层，用于实现语音业务能力相关的所有功能组件，包括语音合成业务组件、语音导航业务组件及声纹识别业务组件；

所述服务层，用于封装所有对外发布的语音业务能力，包括语音合成服务、语音导航服务及声纹识别服务；

所述企业服务总线层，用于对外提供服务接入功能；

所述业务流程层，用于把多个服务按照业务流程进行编排，通过对服务的组合或者编排，提供复合服务和流程服务；

所述用户体验层，用于支持所有类型的客户端访问，包括WEB方式、客户端方式。

2.根据权利要求1所述的基于云计算的语音能力服务开放***，其特征在于，所述语音合成业务组件，用于将文字信息实时转化为语音信息；所述语音导航组件，用于将用户的有效语音数据实时解码，返回语音识别结果；所述声纹识别组件，通过提取语音中具有特色的语音参数，实现用户身份的确定。

3.根据权利要求1所述的基于云计算的语音能力服务开放***，其特征在于，所述语音合成服务，通过对语音合成组件功能的封装，对外部***提供标准的在线文字合成语音服务；所述语音导航服务，通过对语音导航组件功能的封装，对外部***提供标准的在线语音识别服务；所述声纹识别服务，通过对声纹识别组件功能的封装，对外部***提供标准的人声参数识别服务。

4.根据权利要求1所述的基于云计算的语音能力服务开放***，其特征在于，所述***对声纹识别能力、语音导航能力和语音合成能力进行API封装，对外发布，所述声纹识别能力包括声纹注册、声纹验证和声纹注销，所述声纹注册用于在***中注册特定用户的声纹，所述声纹验证根据输入的声纹样本，判断是否为特定用户的声音，所述声纹注销用于注销特定用户的声纹，所述语音导航能力包括启动语音在线识别、暂停语音在线识别、恢复语音在线识别和停止语音在线识别，所述语音合成能力用于对输入的文本进行TTS放音。

5.一种基于权利要求4所述的基于云计算的语音能力服务开放***的用户申请使用能力API的方法，其特征在于，包括如下步骤：

（1）用户通过语音能力服务开放***提供的Portal页面进行应用开发申请，注册用户信息；

（2）语音能力服务开放***管理员对用户应用创建申请进行审核，审核通过后，为用户创建应用证书相关信息；

（5）语音能力服务开放***管理员根据业务试运行结果，决定该应用是否可以进行上线发布。

6.根据权利要求5所述的用户申请使用能力API的方法，其特征在于，所述步骤（1）中的用户信息至少包括：用户名、联系方式、应用名称、应用类型。