CN108184032B

CN108184032B - 一种客服***的服务方法及装置

Info

Publication number: CN108184032B
Application number: CN201611116110.XA
Authority: CN
Inventors: 王朝民
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2020-02-21
Anticipated expiration: 2036-12-07
Also published as: CN108184032A

Abstract

本发明公开了一种客服***的服务方法及装置，包括：接收语音合成指令；根据接收到的语音合成指令，确定待合成话音文本；根据确定出的待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成待合成话音文本的具有客服人员音色特征的话音；接收客服人员的指令，并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。由于播放给用户的是具有客服人员音色特征的合成的话音和/或客服人员人工语音组成的语句，因此，极大地减少了客服人员在人工服务过程中的话语量，降低了客服人员的疲劳压力，并且，用户会默认为客服人员一直在和其言语交流，从而提高了客服***的服务质量，增强了用户体验。

Description

一种客服***的服务方法及装置

技术领域

本发明涉及通讯技术领域，尤其涉及一种客服***的服务方法及装置。

背景技术

目前移动、联通、电信三大通讯公司的客服***，通常由机器客服和人工客服组成。在电话服务过程中，当接收到来自用户的会话消息时，先由机器客服进行服务。当用户认为机器客服无法解决其提出的问题时，再手动选择人工客服，向人工客服进行咨询。

目前的这种客服***中，机器客服的语音比较单调乏味，听起来没有自然语言那样生动形象，并且，机器客服不具备临场应变能力，能解决的问题有限，因此，在电话服务过程中，人工客服占据重要的地位。但是，人工客服每次轮班需要连续工作6小时以上，并且在电话服务过程中需要根据用户不用的问题和情况给出大量的回答和解释，非常容易感到疲劳。疲劳会造成人工客服的发音不准或读错等情况发生，从而降低了客户服务的质量，影响用户体验。

因此，如何提高客服***的服务质量，进而提升用户体验，是亟需解决的技术问题。

发明内容

本发明实施例提供一种客服***的服务方法及装置，用以解决现有技术中存在的如何提高客服***的服务质量，进而提升用户体验的问题。

本发明实施例提供了一种客服***的服务方法，包括：

接收语音合成指令；

根据接收到的所述语音合成指令，确定待合成话音文本；

根据确定出的所述待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成所述待合成话音文本的具有所述客服人员音色特征的话音；

接收所述客服人员的指令，并根据所述指令播放由所述合成的话音和/或所述客服人员人工语音组成的语句。

在一种可能的实现方式中，在本发明实施例提供的上述服务方法中，所述根据接收到的所述语音合成指令，确定待合成话音文本，具体包括：

确定接收到的所述语音合成指令对应的待合成话音文本是否为标准话术语句；

若是，则将所述语音合成指令对应的标准话术语句确定为所述待合成话音文本；

若否，则将填入所述语音合成指令携带的文本后的填空式话术语句作为所述待合成话音文本。

在一种可能的实现方式中，在本发明实施例提供的上述服务方法中，所述根据确定出的所述待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成所述待合成话音文本的具有所述客服人员音色特征的话音，具体包括：

采用文本分析器对确定出的所述待合成话音文本进行分词，得到与所述待合成话音文本对应的词语标注文件；

根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库，确定与所述待合成话音文本对应的语音特征参数；

根据所述语音特征参数，合成所述待合成话音文本的具有所述客服人员音色特征的话音。

在一种可能的实现方式中，在本发明实施例提供的上述服务方法中，所述根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库，确定与所述待合成话音文本对应的语音特征参数，具体包括：

在预先按照当前接话的客服人员音色建立的语音参数模型库中，查找与所述词语标注文件中各词语对应的语音参数模型；

按照各词语对应的语音参数模型，通过参数生成算法确定与所述待合成话音文本对应的基频信息换算log域得到的LF0，非周期成分谱信息在不同频带上的平均值BAP，以及声道谱信息在帧内提取的18维线谱对参数LSP。

在一种可能的实现方式中，在本发明实施例提供的上述服务方法中，所述根据所述语音特征参数，合成所述待合成话音文本的具有所述客服人员音色特征的话音，具体包括：

采用确定出的所述LF0和所述BAP形成与所述待合成话音文本对应的混合激励源；

将确定出的所述混合激励源输入滤波器，并通过确定出的所述LSP对所述滤波器进行控制，合成所述待合成话音文本的具有所述客服人员音色特征的话音。

在一种可能的实现方式中，在本发明实施例提供的上述服务方法中，还包括：通过如下方式建立具有所述客服人员音色的语音参数模型库：

分解客服人员的语音数据库中包含的原始语音波形文件，得到所述原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息；

将每个音节的所述基频信息换算到log域得LF0；

将每个音节的所述非周期成分谱信息在预先设定的各频带分别取平均值得到BAP；

将每个音节的所述声道谱信息在帧内提取18维线谱对参数LSP；

按照所述原始语音波形文件对应的词语标注文件，对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型；

对建立好的各语音参数模型进行模型聚类和模型训练后，得到具有所述客服人员音色的语音参数模型库。

本发明实施例还提供了一种客服***的服务装置，包括：

接收单元，用于接收语音合成指令；

确定单元，用于根据接收到的所述语音合成指令，确定待合成话音文本；

合成单元，用于根据确定出的所述待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成所述待合成话音文本的具有所述客服人员音色特征的话音；

播放单元，用于接收所述客服人员的指令，并根据所述指令播放由所述合成的话音和/或所述客服人员人工语音组成的语句。

在一种可能的实现方式中，在本发明实施例提供的上述服务装置中，所述确定单元，具体用于确定接收到的所述语音合成指令对应的待合成话音文本是否为标准话术语句；若是，则将所述语音合成指令对应的标准话术语句确定为所述待合成话音文本；若否，则将填入所述语音合成指令携带的文本后的填空式话术语句作为所述待合成话音文本。

在一种可能的实现方式中，在本发明实施例提供的上述服务装置中，所述合成单元，包括：

第一合成子单元，用于采用文本分析器对确定出的所述待合成话音文本进行分词，得到与所述待合成话音文本对应的词语标注文件；

第二合成子单元，用于根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库，确定与所述待合成话音文本对应的语音特征参数；

第三合成子单元，用于根据所述语音特征参数，合成所述待合成话音文本的具有所述客服人员音色特征的话音。

在一种可能的实现方式中，在本发明实施例提供的上述服务装置中，所述第二合成子单元，具体用于在预先按照当前接话的客服人员音色建立的语音参数模型库中，查找与所述词语标注文件中各词语对应的语音参数模型；按照各词语对应的语音参数模型，通过参数生成算法确定与所述待合成话音文本对应的基频信息换算log域得到的LF0，非周期成分谱信息在不同频带上的平均值BAP，以及声道谱信息在帧内提取的18维线谱对参数LSP。

在一种可能的实现方式中，在本发明实施例提供的上述服务装置中，所述第三合成子单元，具体用于采用确定出的所述LF0和所述BAP形成与所述待合成话音文本对应的混合激励源；将确定出的所述混合激励源输入滤波器，并通过确定出的所述LSP对所述滤波器进行控制，合成所述待合成话音文本的具有所述客服人员音色特征的话音。

在一种可能的实现方式中，在本发明实施例提供的上述服务装置中，还包括：建模单元，用于分解客服人员的语音数据库中包含的原始语音波形文件，得到所述原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息；将每个音节的所述基频信息换算到log域得LF0；将每个音节的所述非周期成分谱信息在预先设定的各频带分别取平均值得到BAP；将每个音节的所述声道谱信息在帧内提取18维线谱对参数LSP；按照所述原始语音波形文件对应的词语标注文件，对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型；对建立好的各语音参数模型进行模型聚类和模型训练后，得到具有所述客服人员音色的语音参数模型库。

本发明有益效果如下：

本发明实施例提供的客服***的服务方法及装置，包括：接收语音合成指令；根据接收到的语音合成指令，确定待合成话音文本；根据确定出的待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成待合成话音文本的具有客服人员音色特征的话音；接收客服人员的指令，并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。由于根据预先按照当前接话的客服人员音色建立的语音参数模型库，得到了待合成话音文本的具有客服人员音色特征的话音，并可以根据客服人员的指令将由合成的话音和/或客服人员人工语音组成的语句播放给用户，因此，可以减少客服人员在人工服务过程中的话语量，降低客服人员的疲劳压力，进而提高了客服***的服务质量，增强了用户体验。并且，播放给用户的是具有客服人员音色特征的话音，听起来生动形象，使得用户感知不到交互过程中有机器较多的参与，默认为客服人员一直在和其言语交流，因此，进一步提高了客服***的服务质量，增强了用户体验。

附图说明

图1为本发明实施例提供的客服***的服务方法的流程图；

图2为本发明实施例中合成待合成话音文本的具有客服人员音色特征的话音的流程图；

图3为本发明实施例中建立具有客服人员音色的语音参数模型库的流程图；

图4为本发明实施例提供的客服***的服务装置的结构示意图;

图5为本发明实施例提供的基于隐马尔可夫模型的参数化语音合成***框架；

图6为本发明实施例提供的通过客服***的服务装置辅助客服人员服务的示意图。

具体实施方式

下面结合附图，对本发明实施例提供的客服***的服务方法及装置的具体实施方式进行详细地说明。

本发明实施例提供的一种客服***的服务方法，如图1所示，具体包括以下步骤：

S101、接收语音合成指令；

S102、根据接收到的语音合成指令，确定待合成话音文本；

S103、根据确定出的待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成待合成话音文本的具有客服人员音色特征的话音；

S104、接收客服人员的指令，并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。

具体地，在本发明实施例提供的上述服务方法中，由于根据预先按照当前接话的客服人员音色建立的语音参数模型库，得到了待合成话音文本的具有客服人员音色特征的话音，并可以根据客服人员的指令将由合成的话音和/或客服人员人工语音组成的语句播放给用户，因此，可以减少客服人员在人工服务过程中的话语量，降低客服人员的疲劳压力，进而提高了客服***的服务质量，增强了用户体验。并且，播放给用户的是具有客服人员音色特征的话音，听起来生动形象，使得用户感知不到交互过程中有机器较多的参与，默认为客服人员一直在和其言语交流，因此，进一步提高了客服***的服务质量，增强了用户体验。

在具体实施时，在本发明实施例提供的上述服务方法中，步骤S102根据接收到的语音合成指令，确定待合成话音文本，具体可以通过以下方式实现：

确定接收到的语音合成指令对应的待合成话音文本是否为标准话术语句；

若是，则将语音合成指令对应的标准话术语句确定为待合成话音文本；

若否，则将填入语音合成指令携带的文本后的填空式话术语句作为待合成话音文本。

具体地，在本发明实施例提供的上述服务方法中，步骤S102的具体实施方式中的标准话术语句为客服人员在为用户电话服务时用到的一些基本的交流语句，例如：“很高兴为您服务”、“请您输入身份证号码”。并且，在将标准话术语句播放给用户的过程中，若用户和客服人员人员任何一方说话，则可以随时中止语音播放，以保证客服人员与用户之间的良好互动，提高用户体验。

具体地，在本发明实施例提供的上述服务方法中，步骤S102的具体实施方式中的填空式话术语句，是需要根据用户的实际消费情况或流量情况进行组句的语句。例如：“您当前的话费余额为XX元”，其中，XX是计费***中的数据，需要将其填入固定的句式中，再通过个性化语音合成技术进行在线合成话音输出。当然，填空式话术语句，还可以有其他实现方式，例如：仍以“您当前的话费余额为XX元”为例，可以仅将“您当前的话费余额为元”进行语音合成输出，而话费余额“XX”可以由客服人员自己说出，在此不做限定。

在具体实施时，在本发明实施例提供的上述服务方法中，步骤S103根据确定出的待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成待合成话音文本的具有客服人员音色特征的话音，如图2所示，具体可以包括以下步骤：

S201、采用文本分析器对确定出的待合成话音文本进行分词，得到与待合成话音文本对应的词语标注文件；

S202、根据词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库，确定与待合成话音文本对应的语音特征参数；

S203、根据语音特征参数，合成待合成话音文本的具有客服人员音色特征的话音。

具体地，在本发明实施例提供的上述服务方法中，例如以“很高兴为您服务”为待合成话音文本为例，采用文本分析器可以得到“很”“高”“兴”“为”“您”“服”“务”及其各自对应的标注文件；然后结合标注文件，在预先按照当前接话的客服人员音色建立的语音参数模型库中，可以查找到与“很”“高”“兴”“为”“您”“服”“务”分别对应的语音特征参数；最后，根据查找到的相应的语音特征参数，可以合成出具有客服人员音色特征的话音的“很高兴为您服务”的语音。

在具体实施时，在本发明实施例提供的上述服务方法中，步骤S202根据词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库，确定与待合成话音文本对应的语音特征参数，具体可以通过以下方式实现：

在预先按照当前接话的客服人员音色建立的语音参数模型库中，查找与词语标注文件中各词语对应的语音参数模型；

按照各词语对应的语音参数模型，通过参数生成算法确定与待合成话音文本对应的基频信息换算log域得到的LF0，非周期成分谱信息在不同频带上的平均值BAP，以及声道谱信息在帧内提取的18维线谱对参数LSP。

具体地，在本发明实施例提供的上述服务方法中，为了提高合成的话音的质量，步骤S202的具体实现方式中非周期成分谱信息在不同频带上的平均值BAP，可以是非周期成分谱Ap按照5个频带取平均值得到BAP，其中，5个频带可以分别为0~1000Hz、1000~2000Hz、2000~4000Hz、4000~6000HZ、6000~8000Hz，在此不做限定。

在具体实施时，在本发明实施例提供的上述服务方法中，步骤S203根据语音特征参数，合成待合成话音文本的具有客服人员音色特征的话音，具体可以通过以下方式实现：

采用确定出的LF0和BAP形成与待合成话音文本对应的混合激励源；

将确定出的混合激励源输入滤波器，并通过确定出的LSP对滤波器进行控制，合成待合成话音文本的具有客服人员音色特征的话音。

在具体实施时，在本发明实施例提供的上述服务方法中，还可以包括：通过如下方式建立具有客服人员音色的语音参数模型库，如图3所示：

S301、分解客服人员的语音数据库中包含的原始语音波形文件，得到原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息；

S302、将每个音节的基频信息换算到log域得LF0；

S303、将每个音节的非周期成分谱信息在预先设定的各频带分别取平均值得到BAP；其中，预先设定的各频带可以为0~1000Hz、1000~2000Hz、2000~4000Hz、4000~6000HZ、6000~8000Hz，在此不做限定；

S304、将每个音节的声道谱信息在帧内提取18维线谱对参数LSP；

S305、按照原始语音波形文件对应的词语标注文件，对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型；

S306、对建立好的各语音参数模型进行模型聚类和模型训练后，得到具有客服人员音色的语音参数模型库。

需要说明的是，本发明实施例提供的上述服务方法中的步骤S302-S304的顺序可以互换，并不限于上述描述的先后顺序。

基于同一发明构思，本发明实施例还提供了一种客服***的服务装置，由于该服务装置解决问题的原理与上述的服务方法相似，因此，该服务装置的实施可以参见上述服务方法的实施，重复之处不再赘述。

本发明实施例提供的客服***的服务装置，如图4所示，可以包括：

接收单元401，用于接收语音合成指令；

确定单元402，用于根据接收到的语音合成指令，确定待合成话音文本；

合成单元403，用于根据确定出的待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成待合成话音文本的具有客服人员音色特征的话音;

播放单元404，用于接收客服人员的指令，并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。

在具体实施时，在本发明实施例提供的上述服务装置中，确定单元402，具体可以用于确定接收到的语音合成指令对应的待合成话音文本是否为标准话术语句；若是，则将语音合成指令对应的标准话术语句确定为待合成话音文本；若否，则将填入语音合成指令携带的文本后的填空式话术语句作为待合成话音文本。

在具体实施时，在本发明实施例提供的上述服务装置中，合成单元403，可以包括：

第一合成子单元4031，用于采用文本分析器对确定出的待合成话音文本进行分词，得到与待合成话音文本对应的词语标注文件；

第二合成子单元4032，用于根据词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库，确定与待合成话音文本对应的语音特征参数；

第三合成子单元4033，用于根据语音特征参数，合成待合成话音文本的具有客服人员音色特征的话音。

在具体实施时，在本发明实施例提供的上述服务装置中，第二合成子单元4032，具体可以用于在预先按照当前接话的客服人员音色建立的语音参数模型库中，查找与词语标注文件中各词语对应的语音参数模型；按照各词语对应的语音参数模型，通过参数生成算法确定与待合成话音文本对应的基频信息换算log域得到的LF0，非周期成分谱信息在不同频带上的平均值BAP，以及声道谱信息在帧内提取的18维线谱对参数LSP。

在具体实施时，在本发明实施例提供的上述服务装置中，第三合成子单元，4033具体可以用于采用确定出的LF0和BAP形成与待合成话音文本对应的混合激励源；将确定出的混合激励源输入滤波器，并通过确定出的LSP对滤波器进行控制，合成待合成话音文本的具有客服人员音色特征的话音。

在具体实施时，在本发明实施例提供的上述服务装置中，还可以包括：建模单元405，用于分解客服人员的语音数据库中包含的原始语音波形文件，得到原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息；将每个音节的基频信息换算到log域得LF0；将每个音节的非周期成分谱信息在预先设定的各频带分别取平均值得到BAP；将每个音节的声道谱信息在帧内提取18维线谱对参数LSP；按照原始语音波形文件对应的词语标注文件，对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型；对建立好的各语音参数模型进行模型聚类和模型训练后，得到具有客服人员音色的语音参数模型库。

为了更好地理解本发明的技术方案，本发明提供了上述服务方法中建立具有客服人员音色的语音参数模型库以及合成待合成话音文本的具有客服人员音色特征的话音的具体实施例，即基于隐马尔可夫模型的参数化语音合成***框架，如图5所示：

图5中A部分所示为建立具有客服人员音色的语音参数模型库的具体实施例。目标客服人员的语音数据库包含wav格式的原始语音波形文件，以及相对应的标注文件label。将原始语音波形文件通过自适应加权普内插技术，即STRAIGHT分析技术，有效分解为源信息和声道信息，其中，源信息包括基频F0和非周期成分谱AP，声道信息为声道谱SP。然后，进一步处理将基频F0换算到log域得到LF0；将非周期成分谱Ap按照5个频带取平均值得到BAP，其中，5个频带分别为0~1000Hz、1000~2000Hz、2000~4000Hz、4000~6000HZ、6000~8000Hz；将声道谱sp在帧内提取18维线谱对参数LSP。最后，结合标注文件label对LF0、BAP及LSP的参数组合，进行隐马尔可夫模型建立语音参数模型，然后对建立好的各语音参数模型进行模型聚类和模型训练，循环3次左右得到目标客服人员的语音参数模型。

图5中B部分所示为合成待合成话音文本的具有客服人员音色特征的话音的具体实施例。待合成话音的文本通过文本分析器得到合成需要的标注文件label形式，然后，结合图5中A部分得出的目标客服人员的语音参数模型库，找到与待合成话音文本对应的语音特征参数， LF0、BAP以及LSP。最后，采用LF0和BAP形成与待合成话音文本对应的混合激励源；将确定出的混合激励源输入滤波器，并通过确定出的LSP对滤波器进行控制，合成待合成话音文本的具有客服人员音色特征的话音。

此外，本发明还提供了客服人员通过上述服务方法及服务装置实现语音服务的具体实施例，如图6所示：

客服人员接入用户电话后，可以将标准话术语句和填空式话术语句等待合成话音文本，通过上述服务装置合成具有该客服人员音色的声音，播放给用户。例如 “您好，很高兴为您服务” 这一标准话术语句，通过上述服务装置合成具有该客服人员音色的声音，播放给用户。又如，当用户需要办理或更改业务时，可以通过上述服务装置，生成“请您输入身份证号码” 这个标准话术语句的具有该客服人员音色的声音，播放给用户。并且为保证较好的用户体验，随时中止语音播放。当用户询问话费余额时，需要将计费***中与当前进行询问的用户对应的话费余额数据XX，填入固定的句式“您当前的话费余额为元”中，再将填入话费余额XX的语句“您当前的话费余额为XX元”通过上述服务装置合成输出。可见，客服人员只需在根据用户的交流方式需随时调整的回答内容的情形下与用户进行语言交流，比如“好的”，“情况是这样的”这类基本交流的语句；而在以上两种情形中，均可以将具有自己音色特征的话音播放给客户，用户感知到的还是该客服人员正在和其交流，体验效果较好。

本发明实施例提供的上述客服***的服务方法及装置，包括：接收语音合成指令；根据接收到的语音合成指令，确定待合成话音文本；根据确定出的待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成待合成话音文本的具有客服人员音色特征的话音；接收客服人员的指令，并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。由于根据预先按照当前接话的客服人员音色建立的语音参数模型库，得到了待合成话音文本的具有客服人员音色特征的话音，并可以根据客服人员的指令将由合成的话音和/或客服人员人工语音组成的语句播放给用户，因此，可以减少客服人员在人工服务过程中的话语量，降低客服人员的疲劳压力，进而提高了客服***的服务质量，增强了用户体验。并且，播放给用户的是具有客服人员音色特征的话音，听起来生动形象，使得用户感知不到交互过程中有机器较多的参与，默认为客服人员一直在和其言语交流，因此，进一步提高了客服***的服务质量，增强了用户体验。

此外，个性化语音合成技术，是一种通过建立目标说话人语音特征模型来合成出目标人说话声音的技术。该技术首先收集有一定音素覆盖性的录音材料，然后提取说话人特点的语音特征，建立目标说话人的特征模型，进而对于任意一段语句文本，可以通过模型生成该文本的语音参数特征，最后通过声码器合成出具有目标说话人特质的该文本的声音。目前的语音合成技术主要为波形拼接语音合成技术和参数化语音合成技术。

但是，目前语音合成技术在客服领域中只用作语音播报，未广泛在客服领域的其他应用中使用。而在本发明实施例提供的客服***的服务方法及装置中，开创了语音合成技术在客服领域中的一个新的应用场景，将个性化语音合成技术在客服呼入呼出电话过程中使用，极大减少了客服人员的工作量，进而提高了客服***的的服务质量和用户体验，有较广阔的应用前景。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种客服***的服务方法，其特征在于，包括：

接收语音合成指令；

根据接收到的所述语音合成指令，确定待合成话音文本；

接收所述客服人员的指令，并根据所述指令播放由合成的话音和/或所述客服人员人工语音组成的语句；

所述根据接收到的所述语音合成指令，确定待合成话音文本，具体包括：

2.如权利要求1所述的服务方法，其特征在于，所述根据确定出的所述待合成话音文本，以及预先按照当前接话的客服人员音色建立的语音参数模型库，合成所述待合成话音文本的具有所述客服人员音色特征的话音，具体包括：

3.如权利要求2所述的服务方法，其特征在于，所述根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库，确定与所述待合成话音文本对应的语音特征参数，具体包括：

4.如权利要求3所述的服务方法，其特征在于，所述根据所述语音特征参数，合成所述待合成话音文本的具有所述客服人员音色特征的话音，具体包括：

5.如权利要求1-4任一项所述的服务方法，其特征在于，还包括：通过如下方式建立具有所述客服人员音色的语音参数模型库：

将每个音节的所述基频信息换算到log域得LF0；

6.一种客服***的服务装置，其特征在于，包括：

接收单元，用于接收语音合成指令；

播放单元，用于接收所述客服人员的指令，并根据所述指令播放由合成的话音和/或所述客服人员人工语音组成的语句；

所述确定单元，具体用于确定接收到的所述语音合成指令对应的待合成话音文本是否为标准话术语句；若是，则将所述语音合成指令对应的标准话术语句确定为所述待合成话音文本；若否，则将填入所述语音合成指令携带的文本后的填空式话术语句作为所述待合成话音文本。

7.如权利要求6所述的服务装置，其特征在于，所述合成单元，包括：

8.如权利要求7所述的服务装置，其特征在于，所述第二合成子单元，具体用于在预先按照当前接话的客服人员音色建立的语音参数模型库中，查找与所述词语标注文件中各词语对应的语音参数模型；按照各词语对应的语音参数模型，通过参数生成算法确定与所述待合成话音文本对应的基频信息换算log域得到的LF0，非周期成分谱信息在不同频带上的平均值BAP，以及声道谱信息在帧内提取的18维线谱对参数LSP。

9.如权利要求8所述的服务装置，其特征在于，所述第三合成子单元，具体用于采用确定出的所述LF0和所述BAP形成与所述待合成话音文本对应的混合激励源；将确定出的所述混合激励源输入滤波器，并通过确定出的所述LSP对所述滤波器进行控制，合成所述待合成话音文本的具有所述客服人员音色特征的话音。

10.如权利要求6-9任一项所述的服务装置，其特征在于，还包括：建模单元，用于分解客服人员的语音数据库中包含的原始语音波形文件，得到所述原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息；将每个音节的所述基频信息换算到log域得LF0；将每个音节的所述非周期成分谱信息在预先设定的各频带分别取平均值得到BAP；将每个音节的所述声道谱信息在帧内提取18维线谱对参数LSP；按照所述原始语音波形文件对应的词语标注文件，对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型；对建立好的各语音参数模型进行模型聚类和模型训练后，得到具有所述客服人员音色的语音参数模型库。