CN108184032B - 一种客服***的服务方法及装置 - Google Patents
一种客服***的服务方法及装置 Download PDFInfo
- Publication number
- CN108184032B CN108184032B CN201611116110.XA CN201611116110A CN108184032B CN 108184032 B CN108184032 B CN 108184032B CN 201611116110 A CN201611116110 A CN 201611116110A CN 108184032 B CN108184032 B CN 108184032B
- Authority
- CN
- China
- Prior art keywords
- voice
- customer service
- synthesized
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 64
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 64
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 36
- 238000001228 spectrum Methods 0.000 claims description 55
- 230000005284 excitation Effects 0.000 claims description 14
- 230000000737 periodic effect Effects 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 230000001755 vocal effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种客服***的服务方法及装置,包括:接收语音合成指令;根据接收到的语音合成指令,确定待合成话音文本;根据确定出的待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成待合成话音文本的具有客服人员音色特征的话音;接收客服人员的指令,并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。由于播放给用户的是具有客服人员音色特征的合成的话音和/或客服人员人工语音组成的语句,因此,极大地减少了客服人员在人工服务过程中的话语量,降低了客服人员的疲劳压力,并且,用户会默认为客服人员一直在和其言语交流,从而提高了客服***的服务质量,增强了用户体验。
Description
技术领域
本发明涉及通讯技术领域,尤其涉及一种客服***的服务方法及装置。
背景技术
目前移动、联通、电信三大通讯公司的客服***,通常由机器客服和人工客服组成。在电话服务过程中,当接收到来自用户的会话消息时,先由机器客服进行服务。当用户认为机器客服无法解决其提出的问题时,再手动选择人工客服,向人工客服进行咨询。
目前的这种客服***中,机器客服的语音比较单调乏味,听起来没有自然语言那样生动形象,并且,机器客服不具备临场应变能力,能解决的问题有限,因此,在电话服务过程中,人工客服占据重要的地位。但是,人工客服每次轮班需要连续工作6小时以上,并且在电话服务过程中需要根据用户不用的问题和情况给出大量的回答和解释,非常容易感到疲劳。疲劳会造成人工客服的发音不准或读错等情况发生,从而降低了客户服务的质量,影响用户体验。
因此,如何提高客服***的服务质量,进而提升用户体验,是亟需解决的技术问题。
发明内容
本发明实施例提供一种客服***的服务方法及装置,用以解决现有技术中存在的如何提高客服***的服务质量,进而提升用户体验的问题。
本发明实施例提供了一种客服***的服务方法,包括:
接收语音合成指令;
根据接收到的所述语音合成指令,确定待合成话音文本;
根据确定出的所述待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成所述待合成话音文本的具有所述客服人员音色特征的话音;
接收所述客服人员的指令,并根据所述指令播放由所述合成的话音和/或所述客服人员人工语音组成的语句。
在一种可能的实现方式中,在本发明实施例提供的上述服务方法中,所述根据接收到的所述语音合成指令,确定待合成话音文本,具体包括:
确定接收到的所述语音合成指令对应的待合成话音文本是否为标准话术语句;
若是,则将所述语音合成指令对应的标准话术语句确定为所述待合成话音文本;
若否,则将填入所述语音合成指令携带的文本后的填空式话术语句作为所述待合成话音文本。
在一种可能的实现方式中,在本发明实施例提供的上述服务方法中,所述根据确定出的所述待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成所述待合成话音文本的具有所述客服人员音色特征的话音,具体包括:
采用文本分析器对确定出的所述待合成话音文本进行分词,得到与所述待合成话音文本对应的词语标注文件;
根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与所述待合成话音文本对应的语音特征参数;
根据所述语音特征参数,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
在一种可能的实现方式中,在本发明实施例提供的上述服务方法中,所述根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与所述待合成话音文本对应的语音特征参数,具体包括:
在预先按照当前接话的客服人员音色建立的语音参数模型库中,查找与所述词语标注文件中各词语对应的语音参数模型;
按照各词语对应的语音参数模型,通过参数生成算法确定与所述待合成话音文本对应的基频信息换算log域得到的LF0,非周期成分谱信息在不同频带上的平均值BAP,以及声道谱信息在帧内提取的18维线谱对参数LSP。
在一种可能的实现方式中,在本发明实施例提供的上述服务方法中,所述根据所述语音特征参数,合成所述待合成话音文本的具有所述客服人员音色特征的话音,具体包括:
采用确定出的所述LF0和所述BAP形成与所述待合成话音文本对应的混合激励源;
将确定出的所述混合激励源输入滤波器,并通过确定出的所述LSP对所述滤波器进行控制,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
在一种可能的实现方式中,在本发明实施例提供的上述服务方法中,还包括:通过如下方式建立具有所述客服人员音色的语音参数模型库:
分解客服人员的语音数据库中包含的原始语音波形文件,得到所述原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息;
将每个音节的所述基频信息换算到log域得LF0;
将每个音节的所述非周期成分谱信息在预先设定的各频带分别取平均值得到BAP;
将每个音节的所述声道谱信息在帧内提取18维线谱对参数LSP;
按照所述原始语音波形文件对应的词语标注文件,对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型;
对建立好的各语音参数模型进行模型聚类和模型训练后,得到具有所述客服人员音色的语音参数模型库。
本发明实施例还提供了一种客服***的服务装置,包括:
接收单元,用于接收语音合成指令;
确定单元,用于根据接收到的所述语音合成指令,确定待合成话音文本;
合成单元,用于根据确定出的所述待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成所述待合成话音文本的具有所述客服人员音色特征的话音;
播放单元,用于接收所述客服人员的指令,并根据所述指令播放由所述合成的话音和/或所述客服人员人工语音组成的语句。
在一种可能的实现方式中,在本发明实施例提供的上述服务装置中,所述确定单元,具体用于确定接收到的所述语音合成指令对应的待合成话音文本是否为标准话术语句;若是,则将所述语音合成指令对应的标准话术语句确定为所述待合成话音文本;若否,则将填入所述语音合成指令携带的文本后的填空式话术语句作为所述待合成话音文本。
在一种可能的实现方式中,在本发明实施例提供的上述服务装置中,所述合成单元,包括:
第一合成子单元,用于采用文本分析器对确定出的所述待合成话音文本进行分词,得到与所述待合成话音文本对应的词语标注文件;
第二合成子单元,用于根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与所述待合成话音文本对应的语音特征参数;
第三合成子单元,用于根据所述语音特征参数,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
在一种可能的实现方式中,在本发明实施例提供的上述服务装置中,所述第二合成子单元,具体用于在预先按照当前接话的客服人员音色建立的语音参数模型库中,查找与所述词语标注文件中各词语对应的语音参数模型;按照各词语对应的语音参数模型,通过参数生成算法确定与所述待合成话音文本对应的基频信息换算log域得到的LF0,非周期成分谱信息在不同频带上的平均值BAP,以及声道谱信息在帧内提取的18维线谱对参数LSP。
在一种可能的实现方式中,在本发明实施例提供的上述服务装置中,所述第三合成子单元,具体用于采用确定出的所述LF0和所述BAP形成与所述待合成话音文本对应的混合激励源;将确定出的所述混合激励源输入滤波器,并通过确定出的所述LSP对所述滤波器进行控制,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
在一种可能的实现方式中,在本发明实施例提供的上述服务装置中,还包括:建模单元,用于分解客服人员的语音数据库中包含的原始语音波形文件,得到所述原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息;将每个音节的所述基频信息换算到log域得LF0;将每个音节的所述非周期成分谱信息在预先设定的各频带分别取平均值得到BAP;将每个音节的所述声道谱信息在帧内提取18维线谱对参数LSP;按照所述原始语音波形文件对应的词语标注文件,对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型;对建立好的各语音参数模型进行模型聚类和模型训练后,得到具有所述客服人员音色的语音参数模型库。
本发明有益效果如下:
本发明实施例提供的客服***的服务方法及装置,包括:接收语音合成指令;根据接收到的语音合成指令,确定待合成话音文本;根据确定出的待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成待合成话音文本的具有客服人员音色特征的话音;接收客服人员的指令,并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。由于根据预先按照当前接话的客服人员音色建立的语音参数模型库,得到了待合成话音文本的具有客服人员音色特征的话音,并可以根据客服人员的指令将由合成的话音和/或客服人员人工语音组成的语句播放给用户,因此,可以减少客服人员在人工服务过程中的话语量,降低客服人员的疲劳压力,进而提高了客服***的服务质量,增强了用户体验。并且,播放给用户的是具有客服人员音色特征的话音,听起来生动形象,使得用户感知不到交互过程中有机器较多的参与,默认为客服人员一直在和其言语交流,因此,进一步提高了客服***的服务质量,增强了用户体验。
附图说明
图1为本发明实施例提供的客服***的服务方法的流程图;
图2为本发明实施例中合成待合成话音文本的具有客服人员音色特征的话音的流程图;
图3为本发明实施例中建立具有客服人员音色的语音参数模型库的流程图;
图4为本发明实施例提供的客服***的服务装置的结构示意图;
图5为本发明实施例提供的基于隐马尔可夫模型的参数化语音合成***框架;
图6为本发明实施例提供的通过客服***的服务装置辅助客服人员服务的示意图。
具体实施方式
下面结合附图,对本发明实施例提供的客服***的服务方法及装置的具体实施方式进行详细地说明。
本发明实施例提供的一种客服***的服务方法,如图1所示,具体包括以下步骤:
S101、接收语音合成指令;
S102、根据接收到的语音合成指令,确定待合成话音文本;
S103、根据确定出的待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成待合成话音文本的具有客服人员音色特征的话音;
S104、接收客服人员的指令,并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。
具体地,在本发明实施例提供的上述服务方法中,由于根据预先按照当前接话的客服人员音色建立的语音参数模型库,得到了待合成话音文本的具有客服人员音色特征的话音,并可以根据客服人员的指令将由合成的话音和/或客服人员人工语音组成的语句播放给用户,因此,可以减少客服人员在人工服务过程中的话语量,降低客服人员的疲劳压力,进而提高了客服***的服务质量,增强了用户体验。并且,播放给用户的是具有客服人员音色特征的话音,听起来生动形象,使得用户感知不到交互过程中有机器较多的参与,默认为客服人员一直在和其言语交流,因此,进一步提高了客服***的服务质量,增强了用户体验。
在具体实施时,在本发明实施例提供的上述服务方法中,步骤S102根据接收到的语音合成指令,确定待合成话音文本,具体可以通过以下方式实现:
确定接收到的语音合成指令对应的待合成话音文本是否为标准话术语句;
若是,则将语音合成指令对应的标准话术语句确定为待合成话音文本;
若否,则将填入语音合成指令携带的文本后的填空式话术语句作为待合成话音文本。
具体地,在本发明实施例提供的上述服务方法中,步骤S102的具体实施方式中的标准话术语句为客服人员在为用户电话服务时用到的一些基本的交流语句,例如:“很高兴为您服务”、“请您输入身份证号码”。并且,在将标准话术语句播放给用户的过程中,若用户和客服人员人员任何一方说话,则可以随时中止语音播放,以保证客服人员与用户之间的良好互动,提高用户体验。
具体地,在本发明实施例提供的上述服务方法中,步骤S102的具体实施方式中的填空式话术语句,是需要根据用户的实际消费情况或流量情况进行组句的语句。例如:“您当前的话费余额为XX元”,其中,XX是计费***中的数据,需要将其填入固定的句式中,再通过个性化语音合成技术进行在线合成话音输出。当然,填空式话术语句,还可以有其他实现方式,例如:仍以“您当前的话费余额为XX元”为例,可以仅将“您当前的话费余额为元”进行语音合成输出,而话费余额“XX”可以由客服人员自己说出,在此不做限定。
在具体实施时,在本发明实施例提供的上述服务方法中,步骤S103根据确定出的待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成待合成话音文本的具有客服人员音色特征的话音,如图2所示,具体可以包括以下步骤:
S201、采用文本分析器对确定出的待合成话音文本进行分词,得到与待合成话音文本对应的词语标注文件;
S202、根据词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与待合成话音文本对应的语音特征参数;
S203、根据语音特征参数,合成待合成话音文本的具有客服人员音色特征的话音。
具体地,在本发明实施例提供的上述服务方法中,例如以“很高兴为您服务”为待合成话音文本为例,采用文本分析器可以得到“很”“高”“兴”“为”“您”“服”“务”及其各自对应的标注文件;然后结合标注文件,在预先按照当前接话的客服人员音色建立的语音参数模型库中,可以查找到与“很”“高”“兴”“为”“您”“服”“务”分别对应的语音特征参数;最后,根据查找到的相应的语音特征参数,可以合成出具有客服人员音色特征的话音的“很高兴为您服务”的语音。
在具体实施时,在本发明实施例提供的上述服务方法中,步骤S202根据词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与待合成话音文本对应的语音特征参数,具体可以通过以下方式实现:
在预先按照当前接话的客服人员音色建立的语音参数模型库中,查找与词语标注文件中各词语对应的语音参数模型;
按照各词语对应的语音参数模型,通过参数生成算法确定与待合成话音文本对应的基频信息换算log域得到的LF0,非周期成分谱信息在不同频带上的平均值BAP,以及声道谱信息在帧内提取的18维线谱对参数LSP。
具体地,在本发明实施例提供的上述服务方法中,为了提高合成的话音的质量,步骤S202的具体实现方式中非周期成分谱信息在不同频带上的平均值BAP,可以是非周期成分谱Ap按照5个频带取平均值得到BAP,其中,5个频带可以分别为0~1000Hz、1000~2000Hz、2000~4000Hz、4000~6000HZ、6000~8000Hz,在此不做限定。
在具体实施时,在本发明实施例提供的上述服务方法中,步骤S203根据语音特征参数,合成待合成话音文本的具有客服人员音色特征的话音,具体可以通过以下方式实现:
采用确定出的LF0和BAP形成与待合成话音文本对应的混合激励源;
将确定出的混合激励源输入滤波器,并通过确定出的LSP对滤波器进行控制,合成待合成话音文本的具有客服人员音色特征的话音。
在具体实施时,在本发明实施例提供的上述服务方法中,还可以包括:通过如下方式建立具有客服人员音色的语音参数模型库,如图3所示:
S301、分解客服人员的语音数据库中包含的原始语音波形文件,得到原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息;
S302、将每个音节的基频信息换算到log域得LF0;
S303、将每个音节的非周期成分谱信息在预先设定的各频带分别取平均值得到BAP;其中,预先设定的各频带可以为0~1000Hz、1000~2000Hz、2000~4000Hz、4000~6000HZ、6000~8000Hz,在此不做限定;
S304、将每个音节的声道谱信息在帧内提取18维线谱对参数LSP;
S305、按照原始语音波形文件对应的词语标注文件,对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型;
S306、对建立好的各语音参数模型进行模型聚类和模型训练后,得到具有客服人员音色的语音参数模型库。
需要说明的是,本发明实施例提供的上述服务方法中的步骤S302-S304的顺序可以互换,并不限于上述描述的先后顺序。
基于同一发明构思,本发明实施例还提供了一种客服***的服务装置,由于该服务装置解决问题的原理与上述的服务方法相似,因此,该服务装置的实施可以参见上述服务方法的实施,重复之处不再赘述。
本发明实施例提供的客服***的服务装置,如图4所示,可以包括:
接收单元401,用于接收语音合成指令;
确定单元402,用于根据接收到的语音合成指令,确定待合成话音文本;
合成单元403,用于根据确定出的待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成待合成话音文本的具有客服人员音色特征的话音;
播放单元404,用于接收客服人员的指令,并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。
在具体实施时,在本发明实施例提供的上述服务装置中,确定单元402,具体可以用于确定接收到的语音合成指令对应的待合成话音文本是否为标准话术语句;若是,则将语音合成指令对应的标准话术语句确定为待合成话音文本;若否,则将填入语音合成指令携带的文本后的填空式话术语句作为待合成话音文本。
在具体实施时,在本发明实施例提供的上述服务装置中,合成单元403,可以包括:
第一合成子单元4031,用于采用文本分析器对确定出的待合成话音文本进行分词,得到与待合成话音文本对应的词语标注文件;
第二合成子单元4032,用于根据词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与待合成话音文本对应的语音特征参数;
第三合成子单元4033,用于根据语音特征参数,合成待合成话音文本的具有客服人员音色特征的话音。
在具体实施时,在本发明实施例提供的上述服务装置中,第二合成子单元4032,具体可以用于在预先按照当前接话的客服人员音色建立的语音参数模型库中,查找与词语标注文件中各词语对应的语音参数模型;按照各词语对应的语音参数模型,通过参数生成算法确定与待合成话音文本对应的基频信息换算log域得到的LF0,非周期成分谱信息在不同频带上的平均值BAP,以及声道谱信息在帧内提取的18维线谱对参数LSP。
在具体实施时,在本发明实施例提供的上述服务装置中,第三合成子单元,4033具体可以用于采用确定出的LF0和BAP形成与待合成话音文本对应的混合激励源;将确定出的混合激励源输入滤波器,并通过确定出的LSP对滤波器进行控制,合成待合成话音文本的具有客服人员音色特征的话音。
在具体实施时,在本发明实施例提供的上述服务装置中,还可以包括:建模单元405,用于分解客服人员的语音数据库中包含的原始语音波形文件,得到原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息;将每个音节的基频信息换算到log域得LF0;将每个音节的非周期成分谱信息在预先设定的各频带分别取平均值得到BAP;将每个音节的声道谱信息在帧内提取18维线谱对参数LSP;按照原始语音波形文件对应的词语标注文件,对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型;对建立好的各语音参数模型进行模型聚类和模型训练后,得到具有客服人员音色的语音参数模型库。
为了更好地理解本发明的技术方案,本发明提供了上述服务方法中建立具有客服人员音色的语音参数模型库以及合成待合成话音文本的具有客服人员音色特征的话音的具体实施例,即基于隐马尔可夫模型的参数化语音合成***框架,如图5所示:
图5中A部分所示为建立具有客服人员音色的语音参数模型库的具体实施例。目标客服人员的语音数据库包含wav格式的原始语音波形文件,以及相对应的标注文件label。将原始语音波形文件通过自适应加权普内插技术,即STRAIGHT分析技术,有效分解为源信息和声道信息,其中,源信息包括基频F0和非周期成分谱AP,声道信息为声道谱SP。然后,进一步处理将基频F0换算到log域得到LF0;将非周期成分谱Ap按照5个频带取平均值得到BAP,其中,5个频带分别为0~1000Hz、1000~2000Hz、2000~4000Hz、4000~6000HZ、6000~8000Hz;将声道谱sp在帧内提取18维线谱对参数LSP。最后,结合标注文件label对LF0、BAP及LSP的参数组合,进行隐马尔可夫模型建立语音参数模型,然后对建立好的各语音参数模型进行模型聚类和模型训练,循环3次左右得到目标客服人员的语音参数模型。
图5中B部分所示为合成待合成话音文本的具有客服人员音色特征的话音的具体实施例。待合成话音的文本通过文本分析器得到合成需要的标注文件label形式,然后,结合图5中A部分得出的目标客服人员的语音参数模型库,找到与待合成话音文本对应的语音特征参数, LF0、BAP以及LSP。最后,采用LF0和BAP形成与待合成话音文本对应的混合激励源;将确定出的混合激励源输入滤波器,并通过确定出的LSP对滤波器进行控制,合成待合成话音文本的具有客服人员音色特征的话音。
此外,本发明还提供了客服人员通过上述服务方法及服务装置实现语音服务的具体实施例,如图6所示:
客服人员接入用户电话后,可以将标准话术语句和填空式话术语句等待合成话音文本,通过上述服务装置合成具有该客服人员音色的声音,播放给用户。例如 “您好,很高兴为您服务” 这一标准话术语句,通过上述服务装置合成具有该客服人员音色的声音,播放给用户。又如,当用户需要办理或更改业务时,可以通过上述服务装置,生成“请您输入身份证号码” 这个标准话术语句的具有该客服人员音色的声音,播放给用户。并且为保证较好的用户体验,随时中止语音播放。当用户询问话费余额时,需要将计费***中与当前进行询问的用户对应的话费余额数据XX,填入固定的句式“您当前的话费余额为 元”中,再将填入话费余额XX的语句“您当前的话费余额为XX元”通过上述服务装置合成输出。可见,客服人员只需在根据用户的交流方式需随时调整的回答内容的情形下与用户进行语言交流,比如“好的”,“情况是这样的”这类基本交流的语句;而在以上两种情形中,均可以将具有自己音色特征的话音播放给客户,用户感知到的还是该客服人员正在和其交流,体验效果较好。
本发明实施例提供的上述客服***的服务方法及装置,包括:接收语音合成指令;根据接收到的语音合成指令,确定待合成话音文本;根据确定出的待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成待合成话音文本的具有客服人员音色特征的话音;接收客服人员的指令,并根据指令播放由合成的话音和/或客服人员人工语音组成的语句。由于根据预先按照当前接话的客服人员音色建立的语音参数模型库,得到了待合成话音文本的具有客服人员音色特征的话音,并可以根据客服人员的指令将由合成的话音和/或客服人员人工语音组成的语句播放给用户,因此,可以减少客服人员在人工服务过程中的话语量,降低客服人员的疲劳压力,进而提高了客服***的服务质量,增强了用户体验。并且,播放给用户的是具有客服人员音色特征的话音,听起来生动形象,使得用户感知不到交互过程中有机器较多的参与,默认为客服人员一直在和其言语交流,因此,进一步提高了客服***的服务质量,增强了用户体验。
此外,个性化语音合成技术,是一种通过建立目标说话人语音特征模型来合成出目标人说话声音的技术。该技术首先收集有一定音素覆盖性的录音材料,然后提取说话人特点的语音特征,建立目标说话人的特征模型,进而对于任意一段语句文本,可以通过模型生成该文本的语音参数特征,最后通过声码器合成出具有目标说话人特质的该文本的声音。目前的语音合成技术主要为波形拼接语音合成技术和参数化语音合成技术。
但是,目前语音合成技术在客服领域中只用作语音播报,未广泛在客服领域的其他应用中使用。而在本发明实施例提供的客服***的服务方法及装置中,开创了语音合成技术在客服领域中的一个新的应用场景,将个性化语音合成技术在客服呼入呼出电话过程中使用,极大减少了客服人员的工作量,进而提高了客服***的的服务质量和用户体验,有较广阔的应用前景。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种客服***的服务方法,其特征在于,包括:
接收语音合成指令;
根据接收到的所述语音合成指令,确定待合成话音文本;
根据确定出的所述待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成所述待合成话音文本的具有所述客服人员音色特征的话音;
接收所述客服人员的指令,并根据所述指令播放由合成的话音和/或所述客服人员人工语音组成的语句;
所述根据接收到的所述语音合成指令,确定待合成话音文本,具体包括:
确定接收到的所述语音合成指令对应的待合成话音文本是否为标准话术语句;
若是,则将所述语音合成指令对应的标准话术语句确定为所述待合成话音文本;
若否,则将填入所述语音合成指令携带的文本后的填空式话术语句作为所述待合成话音文本。
2.如权利要求1所述的服务方法,其特征在于,所述根据确定出的所述待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成所述待合成话音文本的具有所述客服人员音色特征的话音,具体包括:
采用文本分析器对确定出的所述待合成话音文本进行分词,得到与所述待合成话音文本对应的词语标注文件;
根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与所述待合成话音文本对应的语音特征参数;
根据所述语音特征参数,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
3.如权利要求2所述的服务方法,其特征在于,所述根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与所述待合成话音文本对应的语音特征参数,具体包括:
在预先按照当前接话的客服人员音色建立的语音参数模型库中,查找与所述词语标注文件中各词语对应的语音参数模型;
按照各词语对应的语音参数模型,通过参数生成算法确定与所述待合成话音文本对应的基频信息换算log域得到的LF0,非周期成分谱信息在不同频带上的平均值BAP,以及声道谱信息在帧内提取的18维线谱对参数LSP。
4.如权利要求3所述的服务方法,其特征在于,所述根据所述语音特征参数,合成所述待合成话音文本的具有所述客服人员音色特征的话音,具体包括:
采用确定出的所述LF0和所述BAP形成与所述待合成话音文本对应的混合激励源;
将确定出的所述混合激励源输入滤波器,并通过确定出的所述LSP对所述滤波器进行控制,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
5.如权利要求1-4任一项所述的服务方法,其特征在于,还包括:通过如下方式建立具有所述客服人员音色的语音参数模型库:
分解客服人员的语音数据库中包含的原始语音波形文件,得到所述原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息;
将每个音节的所述基频信息换算到log域得LF0;
将每个音节的所述非周期成分谱信息在预先设定的各频带分别取平均值得到BAP;
将每个音节的所述声道谱信息在帧内提取18维线谱对参数LSP;
按照所述原始语音波形文件对应的词语标注文件,对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型;
对建立好的各语音参数模型进行模型聚类和模型训练后,得到具有所述客服人员音色的语音参数模型库。
6.一种客服***的服务装置,其特征在于,包括:
接收单元,用于接收语音合成指令;
确定单元,用于根据接收到的所述语音合成指令,确定待合成话音文本;
合成单元,用于根据确定出的所述待合成话音文本,以及预先按照当前接话的客服人员音色建立的语音参数模型库,合成所述待合成话音文本的具有所述客服人员音色特征的话音;
播放单元,用于接收所述客服人员的指令,并根据所述指令播放由合成的话音和/或所述客服人员人工语音组成的语句;
所述确定单元,具体用于确定接收到的所述语音合成指令对应的待合成话音文本是否为标准话术语句;若是,则将所述语音合成指令对应的标准话术语句确定为所述待合成话音文本;若否,则将填入所述语音合成指令携带的文本后的填空式话术语句作为所述待合成话音文本。
7.如权利要求6所述的服务装置,其特征在于,所述合成单元,包括:
第一合成子单元,用于采用文本分析器对确定出的所述待合成话音文本进行分词,得到与所述待合成话音文本对应的词语标注文件;
第二合成子单元,用于根据所述词语标注文件和预先按照当前接话的客服人员音色建立的语音参数模型库,确定与所述待合成话音文本对应的语音特征参数;
第三合成子单元,用于根据所述语音特征参数,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
8.如权利要求7所述的服务装置,其特征在于,所述第二合成子单元,具体用于在预先按照当前接话的客服人员音色建立的语音参数模型库中,查找与所述词语标注文件中各词语对应的语音参数模型;按照各词语对应的语音参数模型,通过参数生成算法确定与所述待合成话音文本对应的基频信息换算log域得到的LF0,非周期成分谱信息在不同频带上的平均值BAP,以及声道谱信息在帧内提取的18维线谱对参数LSP。
9.如权利要求8所述的服务装置,其特征在于,所述第三合成子单元,具体用于采用确定出的所述LF0和所述BAP形成与所述待合成话音文本对应的混合激励源;将确定出的所述混合激励源输入滤波器,并通过确定出的所述LSP对所述滤波器进行控制,合成所述待合成话音文本的具有所述客服人员音色特征的话音。
10.如权利要求6-9任一项所述的服务装置,其特征在于,还包括:建模单元,用于分解客服人员的语音数据库中包含的原始语音波形文件,得到所述原始语音波形文件中每个音节的基频信息、非周期成分谱信息和声道谱信息;将每个音节的所述基频信息换算到log域得LF0;将每个音节的所述非周期成分谱信息在预先设定的各频带分别取平均值得到BAP;将每个音节的所述声道谱信息在帧内提取18维线谱对参数LSP;按照所述原始语音波形文件对应的词语标注文件,对每个音节确定出的LF0、BAP和LSP按照隐马尔可夫模型建立语音参数模型;对建立好的各语音参数模型进行模型聚类和模型训练后,得到具有所述客服人员音色的语音参数模型库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611116110.XA CN108184032B (zh) | 2016-12-07 | 2016-12-07 | 一种客服***的服务方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611116110.XA CN108184032B (zh) | 2016-12-07 | 2016-12-07 | 一种客服***的服务方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108184032A CN108184032A (zh) | 2018-06-19 |
CN108184032B true CN108184032B (zh) | 2020-02-21 |
Family
ID=62544670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611116110.XA Active CN108184032B (zh) | 2016-12-07 | 2016-12-07 | 一种客服***的服务方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108184032B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785823B (zh) * | 2019-01-22 | 2021-04-02 | 中财颐和科技发展(北京)有限公司 | 语音合成方法及*** |
CN109933658B (zh) * | 2019-03-21 | 2021-05-11 | 中国联合网络通信集团有限公司 | 客服通话分析方法及装置 |
CN110085209B (zh) * | 2019-04-11 | 2021-07-23 | 广州多益网络股份有限公司 | 一种音色筛选方法及装置 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN113808576A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音转换方法、装置及计算机*** |
CN111883133B (zh) * | 2020-07-20 | 2023-08-29 | 深圳乐信软件技术有限公司 | 客服语音识别方法、装置、服务器及存储介质 |
CN112988998B (zh) * | 2021-03-15 | 2023-06-16 | 中国联合网络通信集团有限公司 | 应答方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1336750A (zh) * | 2000-07-27 | 2002-02-20 | 霈捷科技股份有限公司 | 多工服务话务***及其机构 |
CN102231275A (zh) * | 2011-06-01 | 2011-11-02 | 北京宇音天下科技有限公司 | 一种基于加权混合激励的嵌入式语音合成方法 |
CN103065619A (zh) * | 2012-12-26 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 一种语音合成方法和语音合成*** |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN105304080A (zh) * | 2015-09-22 | 2016-02-03 | 科大讯飞股份有限公司 | 语音合成装置及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9042921B2 (en) * | 2005-09-21 | 2015-05-26 | Buckyball Mobile Inc. | Association of context data with a voice-message component |
-
2016
- 2016-12-07 CN CN201611116110.XA patent/CN108184032B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1336750A (zh) * | 2000-07-27 | 2002-02-20 | 霈捷科技股份有限公司 | 多工服务话务***及其机构 |
CN102231275A (zh) * | 2011-06-01 | 2011-11-02 | 北京宇音天下科技有限公司 | 一种基于加权混合激励的嵌入式语音合成方法 |
CN103065619A (zh) * | 2012-12-26 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 一种语音合成方法和语音合成*** |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN105304080A (zh) * | 2015-09-22 | 2016-02-03 | 科大讯飞股份有限公司 | 语音合成装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108184032A (zh) | 2018-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108184032B (zh) | 一种客服***的服务方法及装置 | |
CN108847249B (zh) | 声音转换优化方法和*** | |
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
CN105261355A (zh) | 一种语音合成方法和装置 | |
CN109545197B (zh) | 语音指令的识别方法、装置和智能终端 | |
CN108833722A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
Tanaka et al. | A hybrid approach to electrolaryngeal speech enhancement based on noise reduction and statistical excitation generation | |
CN103165126A (zh) | 一种手机文本短信的语音播放的方法 | |
CN115620699B (zh) | 语音合成方法、语音合成***、语音合成设备及存储介质 | |
CN111508469A (zh) | 一种文语转换方法及装置 | |
CN107705782A (zh) | 用于确定音素发音时长的方法和装置 | |
CN107767881A (zh) | 一种语音信息的满意度的获取方法和装置 | |
CN112634866A (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
CN114663556A (zh) | 数据交互方法、装置、设备、存储介质以及程序产品 | |
Levinson et al. | Speech synthesis in telecommunications | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
CN116798405A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN109616116B (zh) | 通话***及其通话方法 | |
WO2023209632A1 (en) | Voice attribute conversion using speech to speech | |
CN112885326A (zh) | 个性化语音合成模型创建、语音合成和测试方法及装置 | |
CN112242134A (zh) | 语音合成方法及装置 | |
Westall et al. | Speech technology for telecommunications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100053 53a, xibianmennei street, Xuanwu District, Beijing Patentee after: CHINA MOBILE COMMUNICATION LTD., Research Institute Patentee after: CHINA MOBILE COMMUNICATIONS GROUP Co.,Ltd. Address before: 100053 53a, xibianmennei street, Xuanwu District, Beijing Patentee before: CHINA MOBILE COMMUNICATION LTD., Research Institute Patentee before: CHINA MOBILE COMMUNICATIONS Corp. |
|
CP01 | Change in the name or title of a patent holder |