CN102438086A

CN102438086A - 一种融合通信中智能语音***及实现方法

Info

Publication number: CN102438086A
Application number: CN2011102766863A
Authority: CN
Inventors: 裴文江; 张书强; 王晓姝; 杨洋; 詹金狮; 朱光辉; 第伟; 缪瑞华; 沈彦真; 王开
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-09-19
Filing date: 2011-09-19
Publication date: 2012-05-02

Abstract

本发明公开了一种融合通信中智能语音***及实现方法，包括普通微机和用户电话，所述普通微机连接一融合通信***服务器，所述融合通信***服务器连接智能语音服务器，所述智能语音服务器连接软电话服务器，所述软电话服务器连接IP-PBX，所述软电话服务器通过所述IP-PBX向所述用户电话进行拨打。本***中包含语音合成框架和语音识别框架。本发明实现了相应的语音合成和语音识别功能页面，用户只需从浏览器中登录融合通信***便可进行验证码发送、消息提醒设置、信息接收策略设置、语音拨号及语音功能选择的相关操作。

Description

一种融合通信中智能语音***及实现方法

技术领域

本发明涉及一种智能语音技术在融合通信中的应用，具体涉及一种融合通信中智能语音***及实现方法。

背景技术

从目前语音技术的研究现状来讲，技术已经有了很大的发展。语音识别和合成技术是实现人机语音通信及建立一个有听和讲能力的口语***所必需的两项关键技术。它们可以使电脑具有类似于人一样的说话和听懂人说话的能力。

语音识别技术主要包含几个方面：语音控制、电子发声、连续语音识别、非连续语音识别和语音学习。目前主要是在支持中英文，实现中英文混合问题上存在一些障碍。同时在识别大量词汇和个别发音方面还很难做到准确。作为语音识别技术新方向的语音学习，它则要求人模仿标准发音，其面临的困难是如何衡量人模仿的好坏。

和语音识别相比，语音合成技术相对来说要成熟一些，是该领域中近期最有希望产生突破并形成产业化的一项技术。语音合成技术是计算机“开口说话”的关键，现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出，相应技术通常称为文语合成或文语转换（TTS）。TTS使得数据通信和语音通信在终端一级实现交融，人们将有希望在获取Internet信息时，使短消息服务、电子邮件等多数以文本方式提供的信息也用语音的方式输出。

随着语音研究的不断进展，已经出项了众多的语音识别开发工具：如Microsoft Speech SDK,IBM ViaVoice等。它们都提供了语音识别和合成的二次开发平台，而Speech SDK和ViaVoice两者主要区别有：Speech SDK是基于com的，只基于windows平台，而ViaVoice是基于动态链接库的，只用拷贝就可以了，在unix平台上也有这样的模块；Speech SDK识别结果可以从消息读出，也可以从回调函数读出，而ViaVoice只能从消息读出，在编程上，必须造一个隐藏窗口，从这个窗口中读出结果，比较麻烦；Speech SDK要求识别的音频文件文件名必须以wav为扩展名。但由于微软的Speech SDK是完全免费的，它已经取得了令人满意的识别率，识别速度快，可移植性好，支持多种开发语言等优点，因此它被广泛应用于各个领域。

微软的Speech SDK中含有语音应用程序接口(SAPI)、微软连续语音识别引擎(MCSR)以及串联语音合成引擎(TTS)等等。SAPI中还包括对于底层控制和高度适应性的直接语音管理、训练向导、事件、语法、编译、资源、语音识别管理以及文本到语音管理。语音引擎通过设备驱动接口(DDI)层和SAPI运行库通信，应用程序(Application)则通过应用程序接口（API）层和SAPI交互。通过使用这些API就能进行语音识别和语音合成方面的软件开发。

发明内容

本发明的目的是提出一种融合通信中智能语音***及实现方法，通过语音合成框架和语音识别框架在融合通信***中的整合，实现了相应的语音合成和语音识别功能页面。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：一种融合通信中智能语音***，包括普通微机和用户电话，所述普通微机连接一融合通信***服务器，所述融合通信***服务器连接智能语音服务器，所述智能语音服务器识别出语音后，直接将识别的内容返回给融合***通信***服务器，融合通信***根据识别出的内容再做进一步处理，以实现语音识别功能，从而将该功能呈现给登陆到融合通信***的普通用户；所述智能语音服务器连接软电话服务器，所述软电话服务器连接IP-PBX ，所述软电话服务器将合成的音频通过注册在所述IP-PBX 上的软电话拨打给所述用户电话，以实现语音合成功能。

进一步的，本***中包含语音合成框架和语音识别框架。

进一步的，所述语音合成框架包括ActiveMQ消息服务器，所述ActiveMQ消息服务器分别连接语音合成管理器和语音电话管理器，所述语音合成管理器连接语音合成WebService，所述语音电话管理器连接软电话，所述语音合成框架预留一个Java接口以供融合通信***开发中的调用。

进一步的，一种融合通信中智能语音***的语音合成框架的实现方法，包括以下步骤：

步骤1）WEB应用程序传入文本以及拨打的用户电话号码至消息列队TextMessage中；

步骤2）语音合成管理器不断地去查询TextMessage消息列队，如果消息到达其列队，则返回文本及电话号码；

步骤3）语音合成管理器将文本送至语音合成WebService合成PCM格式的语音，并返回合成的PCM文件的URL；

步骤4）语音合成管理器将URL、电话号码送至消息列队CallMessage中；

步骤5）语音电话管理器不断地去查询CallMessage消息列队，如果消息到达，则返回URL、电话号码；

步骤6）语音电话管理器根据接收到的URL，获取PCM文件后将PCM文件，电话号码发送给软电话；

步骤7）软电话注册于IP-PBX，软电话根据电话号码将PCM文件播放给用户。

进一步的，所述语音识别框架包括一录音管理器，所述录音管理器连接ActiveMQ消息服务器，所述ActiveMQ消息服务器连接语音识别管理器，所述语音识别管理器连接语音识别WebService。

进一步的，一种融合通信中智能语音***的语音识别框架的实现方法，包括以下步骤：

步骤1）录音管理器录音，并保存成.wav格式的音频文件；

步骤2）发送WAV文件、融合通信***所在主机的IP地址到RecordMessage消息列队；

步骤3）语音管理器不断地去查询RecordMessage消息列队，如果消息到达，返回WAV、IP到语音识别管理器中；

步骤4）语音识别管理器将WAV文件的URL发送至语音识别WebService识别WAV文件并返回识别的文本；

步骤5）语音识别管理器将识别的文本发送至消息列队Recognize_IPMessage；

步骤6）融合通信***不断查询消息列队Recognize_IPMessage，如果消息到达，则获取识别的文本。

本发明的原理如下: 智能语音***包括语音、软电话服务器， IP-PBX,普通微机，用户电话。其中，语音服务器和软电话服务器（主要实现软电话功能，软电话注册在IP-PBX上）运行于服务器的虚机下、融合通信***运行于普通微机上，服务器、普通微机、IP-PBX通过网线相连。

用户可以使用普通微机，通过浏览器登录到融合通信***的Web页面，通过操作将验证码、消息提醒内容、用户在各种状态下接收到IM和电子邮件的响应可选择性地通过音频拨打给用户，还可以进行语音拨号、语音功能选择。

语音合成框架中ActiveMQ、软电话置于Linux操作***下，语音合成管理器、语音电话管理器、语音合成WebService置于Windows操作***下。语音合成管理器、语音电话管理器使用C#^[开发，软电话使用C开发，语音合成WebService使用ASP.NET Web开发后发布到IIS上。该框架预留一个Java接口（输入合成语音的文本以及拨打的用户电话号码）以供融合通信***开发中的调用。

语音识别框架中ActiveMQ置于Linux操作***下，语音识别管理器、语音识别WebService、录音管理器置于Windows操作***下。录音管理器使用Java实现，语音识别管理器使用C#实现，语音识别WebService使用ASP.NET Web现实并发布于IIS上。

与现有技术相比，本发明具有以下有益效果：

本发明实现了相应的语音合成和语音识别功能页面，用户只需从浏览器中登录融合通信***便可进行验证码发送、消息提醒设置、信息接收策略设置、语音拨号及语音功能选择的相关操作。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为融合通信***中智能语音***架构拓扑图；

图2为本发明的语音合成框架图；

图3为本发明的软电话流程图；

图4为本发明的消息提醒用户层流程图；

图5为本发明的消息提醒***层流程图；

图6为本发明的语音识别框架图。

图中标号说明：1、普通微机，2、用户电话，3、融合通信***服务器，4、智能语音服务器，5、软电话服务，6、IP-PBX，7、ActiveMQ消息服务器，8、语音合成管理器，9、语音电话管理器，10、语音合成WebService，11、软电话，12、录音管理器，13、语音识别管理器，14、语音识别WebService。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

参见图1所示，一种融合通信中智能语音***，包括普通微机1和用户电话2，所述普通微机1连接一融合通信***服务器3，所述融合通信***服务器3连接智能语音服务器4，所述智能语音服务器4识别出语音后，直接将识别的内容返回给所述融合通信同服务器3，融合通信***再做进一步处理，以实现语音识别功能，从而将该功能呈现给登陆到融合通信***的普通用户；所述智能语音服务器4连接软电话服务器5，所述软电话服务器5连接IP-PBX 6，所述软电话服务器5将合成的音频通过注册在所述IP-PBX 6上的软电话拨打给所述用户电话，以实现语音合成功能。

进一步的，本***中包含语音合成框架和语音识别框架。

参见图2所示，进一步的，所述语音合成框架包括ActiveMQ消息服务器7，所述ActiveMQ消息服务器7分别连接语音合成管理器8和语音电话管理器9，所述语音合成管理器8连接语音合成WebService10），所述语音电话管理器9连接软电话11，所述语音合成框架预留一个Java接口以供融合通信***开发中的调用。

参见图3所示，进一步的，所述软电话流程包括以下步骤：

步骤1）启动主线程，向服务器发送REGISTER进行注册，若用户注册不成功，继续发送REGISTER请求再次进行注册直到注册成功；若用户注册成功后，启动监听SIP消息的子线程；

步骤2）若要主动发起呼叫，则向被叫用户发送INVITE消息，然后监听被叫的响应消息；若收到200OK，则发送ACK消息，建立对话进入音频传输线程；

步骤3）此时，若收到BYE消息，则回送响应消息ACK，然后退出音频传输线程，通话结束；

步骤4）若用户不主动发起呼叫，等待对方来电，那么就只需要启动子线程监听SIP消息；

步骤5）如果收到INVITE消息，说明有来电；如果接受请求，则给主叫发送180Ring和200OK表明请求已被接受，然后就建立对话进入音频传输线程，和用户主叫时一样，

步骤6）此时若收到BYE消息，则回送响应消息ACK，然后退出音频传输线程，通话结束。

参见图4、图5所示，进一步的，所述消息提醒流程包括以下步骤：

用户层流程：

步骤1）用户创建定时提醒任务；

步骤2）从messageAlert表中生成当前用户的提醒记录；

步骤3）删除当前用户的定时提醒任务表任务；

步骤4）根据messageAlert表重新生成定时提醒任务表当前用户记录。

***层流程：

步骤1）***定时提醒任务管理器每隔一分钟检测定时提醒任务表；

步骤2）若任务管理器检测到应该提醒某个任务时，调用相关接口执行提醒任务；若任务提醒失败，则将该任务的提醒时间向后推迟5分钟；

步骤3）若3次执行都失败，则该任务的最终执行结果为失败，不再执行该任务，同时任务过期也不被执行。

参见图6所示，进一步的，所述语音识别框架包括一录音管理器12，所述录音管理器12连接所述ActiveMQ消息服务器7，所述ActiveMQ消息服务器7连接语音识别管理器13，所述语音识别管理器13连接语音识别WebService 14。

步骤1）录音管理器录音，并保存成.wav格式的音频文件；

Claims

1.一种融合通信中智能语音***，包括普通微机（1）和用户电话（2），其特征在于：所述普通微机（1）连接一融合通信***服务器（3），所述融合通信***服务器（3）连接智能语音服务器（4），所述智能语音服务器（4）连接软电话服务器（5），所述软电话服务器（5）连接IP-PBX（6），所述软电话服务器（5）通过所述IP-PBX（6）向所述用户电话（2）进行拨打。

2.根据权利要求1所述的融合通信中智能语音***，其特征在于：本***中包含语音合成框架和语音识别框架。

3.根据权利要求3所述的融合通信中智能语音***，其特征在于：所述语音合成框架包括ActiveMQ消息服务器（7），所述ActiveMQ消息服务器（7）分别连接语音合成管理器（8）和语音电话管理器（9），所述语音合成管理器（8）连接语音合成WebService（10），所述语音电话管理器（9）连接软电话（11），所述语音合成框架预留一个Java接口以供融合通信***开发中的调用。

4.一种融合通信中智能语音***的语音合成框架的实现方法，其特征在于，包括以下步骤：

5.根据权利要求2所述的融合通信中智能语音***，其特征在于：所述语音识别框架包括一录音管理器（12），所述录音管理器（12）连接所述ActiveMQ消息服务器（7），所述ActiveMQ消息服务器（7）连接语音识别管理器（13），所述语音识别管理器（13）连接语音识别WebService（14）。

6.一种融合通信中智能语音***的语音识别框架的实现方法，其特征在于，包括以下步骤：

步骤1）录音管理器录音，并保存成.wav格式的音频文件；