CN113053358A

CN113053358A - 一种分区域方言的语音识别客服***

Info

Publication number: CN113053358A
Application number: CN202110216035.9A
Authority: CN
Inventors: 孙琪
Original assignee: Shanghai Shengtong Information Technology Co ltd
Current assignee: Shanghai Shengtong Information Technology Co ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-29

Abstract

本发明涉及一种分区域方言的语音识别客服***，可以对带有方言用户所表达的语音进行方言分类，在分类基础上进行方言与普通话的模板匹配和语义理解，从而得到识别结果，最后进行智能回复。在传统的语音客服处理基础上，实现不同方言与正确释义的对接。本发明转变传统的输入模式，直接进行语音识别和交互；客服根据语音识别结果自动进行回复，降低成本，减少人力资源消耗，使整个服务过程更加智能化；有效地改善目前因方言影响造成语音***识别正确率下降的情况，提升客户的服务体验。

Description

一种分区域方言的语音识别客服***

技术领域

本发明涉及一种语音识别客服***，特别涉及一种分区域方言的语音识别客服***。

背景技术

语音识别技术是机器通过对语音进行识别和理解后把语音信号转变为文本或者命令的技术。通过语音识别技术可以使机器“听懂”人类的语言，并在此基础上进一步作出“反应”，执行相应的命令，实现机器与人类的交互。近些年随着自然语言处理技术的不断成熟，语音识别***的识别正确率也在不断提升，特别地，对于中文普通话的识别与处理已经日趋成熟。

然而，实际应用时语音识别***的性能往往差强人意：(1)大部分语音录入环境并非理想，往往输入的语音信号存在大量噪声，这样造成了有效信息的缺失；(2)输入的语音信号由于发出语音对象的性别、年龄、情绪等因素的影响，使语音识别***造成误判；(3)语音发出对象的口语发音可能不标准，或是话语中有口音的影响，以及表达时存在迟疑、重复、停顿等情况，或者是使用一些不常用的语言表达形式，造成识别失败。

另外，我国地域辽阔，存在着多民族化导致的普通话受地域影响较为严重的情况。口音问题普遍地存在于各种语言的表达中，并成为影响语音识别***的一个重要因素，国内外的研究方法主要有隐马尔可夫模型(HMM)、支持向量机(SVM)、高斯混合模型(GMM)决策树、模糊高斯分类器等，实现自动语音检测。

针对以上问题，尽管普通话的语音识别技术已经在实践中取得了不错的表现，但仍需要进一步的改善。

发明内容

针对上述问题，本发明提供一种分区域方言的语音识别客服***，可以对带有方言用户所表达的语音进行方言分类，在分类基础上进行方言与普通话的模板匹配和语义理解，从而得到识别结果，最后进行智能回复。在传统的语音客服处理基础上，实现不同方言与正确释义的对接。

本发明的目的通过以下技术方案实现：本发明包括语音采集模块、预处理模块、信号处理模块、智能交互模块。所述的语音采集模块通过麦克风阵列收集语音信号；所述的预处理模块包含对语音的去噪和效果增强等预处理功能；所述的信号处理模块包含参数分析、方言分类、解码等功能；所述的解码由解码器实现，所述的解码器包含了字典、声学模型、语言模型；所述的智能交互模块包含模板匹配、构建回复内容、执行命令等功能。

所述的分区域方言的语音识别客服***包含了功能模块示意图。

进一步地，所述的语音预处理包括特征提取、去噪、语音分段等功能；

进一步地，所述的解码器构建包括构建声学模型、语言模型和发音字典，所述的语言模型用于匹配识别的功能；

进一步地，所述的方言分类模块能够实现对不同区域方言的识别；

进一步地，所述的方言分类模块基于已有声学模型和语言模型进行了加入方言后的自适应和训练适配等过程。

本发明提供一种分区域方言的语音识别客服***。本发明的有益效果是：客服根据带口音的语音识别结果自动进行回复，降低成本，减少人力资源消耗，使整个服务过程更加智能化；有效地改善目前因方言影响造成语音***识别正确率难以继续提高的情况，提升客户的服务体验。

附图说明

附图1是本发明的功能模块示意图。

具体实施方式

结合附图1，对本发明作进一步的描述：

为了使本发明的目的、技术方案及优点更加清晰易懂，结合以下具体实施例，对本发明进行进一步的阐述。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

进一步，为了使公众对本发明有更好的了解，在下文对本发明的详细说明中，描述了一些特定的细节部分。对本领域技术人员而言没有这些细节部分的描述也完全有能力理解本发明。

本实施例提供一种分区域方言的语音识别客服***：

首先，本发明提出的分区域方言语音识别***需要首先确定好声学模型和语言模型；所述的声学模型完成从语音特征到语音音素的映射，可以实现单个因素的识别；所述的语言模型对词串在语料库中出现的概率进行知识表示，作为后期长语音的识别的基础。

所述的声学模型基于双向长短期记忆网络(BiLSTM)对已有数据库中的客服录音音频数据进行预先的模型训练，获得最基本的声学基础模型参数；所述的语言模型利用标准研究语言模型工具(SRILM)，采用n-gram模型(即n-元文法)对客服文本数据进行预先的模型训练，得到词组出现的概率，获得最基本的语言基础模型参数；

所述的基础声学模型和语言模型还需要与方言数据进行融合：选取具有方言特色的不同分类的方言数据，在基本声学和语言基础模型上分别进行训练，得到融合了方言数据的声学模型和语言模型。

所述的语音识别***对客户未经处理的新声音数据进行处理，处理过程如下：

第一步，在语音采集模块利用麦克风阵列收集客户的语音录音文件，传入语音预处理模块。

第二步，所述的语音预处理模块实现对传入语音的背景音弱化与人音增强，实现去噪处理，然后传入语音信号处理模块。

第三步，所述的语音信号处理模块包含字典、解码器；所述的字典中存储音素与词串的映射序列；所述的解码器基于声学模型、语言模型和字典将语音序列转化为字符序列进行解析和处理，得到识别结果。

第四步，得到识别结果，传入智能交互模块。

第五步，所述的智能交互模块中包含模板匹配、构建回复内容、下达执行命令等功能；所述的模板匹配实现对问题的回复匹配；所述的构建回复内容实现答案的文本构建，同时可以根据用户需求转换为语音播报；所述的执行命令功能应对客户提出的仅需要***做出动作执行的情况，直接实现功能跳转。

采用上述技术方案后，本发明的有益效果是：相较于传统的交互模式实现了突破，仅需要用户在语言上提出问题或是下达指令，***便能直接解答问题提供有效解决方案，或是执行用户下达的命令，整个过程自动化实现，不需要进行页面的跳转；使用语音客服代替人工客服，可以直接降低成本，解放人力；与此同时，使用了分区域的语音客服***，除了能够提高用户体验，还可以直接增加用户的受众面，使得原先因为有方言问题而不常使用语音客服的客户更加方便地使用该***，消除了因口音造成的使用门槛。

综上所述，以上对发明内容和技术方案进行了详细说明，若本领域的技术人员对本发明所记载的技术方案进行修改或等同替换，以及对本领域的技术改进，只要不违背本发明技术方案的精神和原则，均应包含在本发明的保护范围内。

Claims

1.本发明涉及一种分区域方言的语音识别客服***，可以对带有口音用户所表达的语音进行方言分类，在分类基础上进行方言与普通话的模板匹配和语义理解，从而得到识别结果，最后进行智能回复。在传统的语音客服处理基础上，实现不同方言与正确释义的对接。

2.如权利要求1所述一种分区域方言的语音识别客服***，其特征在于，本发明包括语音采集模块、预处理模块、信号处理模块、智能交互模块。所述的语音采集模块通过麦克风阵列收集语音信号；所述的预处理模块包含对语音的去噪和效果增强等预处理功能；所述的信号处理模块包含参数分析、口音分类、解码等功能；所述的解码由解码器实现，所述的解码器包含了字典、声学模型、语言模型；所述的智能交互模块包含模板匹配、构建回复内容、执行命令等功能。