CN113053358A - 一种分区域方言的语音识别客服*** - Google Patents
一种分区域方言的语音识别客服*** Download PDFInfo
- Publication number
- CN113053358A CN113053358A CN202110216035.9A CN202110216035A CN113053358A CN 113053358 A CN113053358 A CN 113053358A CN 202110216035 A CN202110216035 A CN 202110216035A CN 113053358 A CN113053358 A CN 113053358A
- Authority
- CN
- China
- Prior art keywords
- voice
- customer service
- dialects
- dialect
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 5
- 238000003032 molecular docking Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种分区域方言的语音识别客服***,可以对带有方言用户所表达的语音进行方言分类,在分类基础上进行方言与普通话的模板匹配和语义理解,从而得到识别结果,最后进行智能回复。在传统的语音客服处理基础上,实现不同方言与正确释义的对接。本发明转变传统的输入模式,直接进行语音识别和交互;客服根据语音识别结果自动进行回复,降低成本,减少人力资源消耗,使整个服务过程更加智能化;有效地改善目前因方言影响造成语音***识别正确率下降的情况,提升客户的服务体验。
Description
技术领域
本发明涉及一种语音识别客服***,特别涉及一种分区域方言的语音识别客服***。
背景技术
语音识别技术是机器通过对语音进行识别和理解后把语音信号转变为文本或者命令的技术。通过语音识别技术可以使机器“听懂”人类的语言,并在此基础上进一步作出“反应”,执行相应的命令,实现机器与人类的交互。近些年随着自然语言处理技术的不断成熟,语音识别***的识别正确率也在不断提升,特别地,对于中文普通话的识别与处理已经日趋成熟。
然而,实际应用时语音识别***的性能往往差强人意:(1)大部分语音录入环境并非理想,往往输入的语音信号存在大量噪声,这样造成了有效信息的缺失;(2)输入的语音信号由于发出语音对象的性别、年龄、情绪等因素的影响,使语音识别***造成误判;(3)语音发出对象的口语发音可能不标准,或是话语中有口音的影响,以及表达时存在迟疑、重复、停顿等情况,或者是使用一些不常用的语言表达形式,造成识别失败。
另外,我国地域辽阔,存在着多民族化导致的普通话受地域影响较为严重的情况。口音问题普遍地存在于各种语言的表达中,并成为影响语音识别***的一个重要因素,国内外的研究方法主要有隐马尔可夫模型(HMM)、支持向量机(SVM)、高斯混合模型(GMM)决策树、模糊高斯分类器等,实现自动语音检测。
针对以上问题,尽管普通话的语音识别技术已经在实践中取得了不错的表现,但仍需要进一步的改善。
发明内容
针对上述问题,本发明提供一种分区域方言的语音识别客服***,可以对带有方言用户所表达的语音进行方言分类,在分类基础上进行方言与普通话的模板匹配和语义理解,从而得到识别结果,最后进行智能回复。在传统的语音客服处理基础上,实现不同方言与正确释义的对接。
本发明的目的通过以下技术方案实现:本发明包括语音采集模块、预处理模块、信号处理模块、智能交互模块。所述的语音采集模块通过麦克风阵列收集语音信号;所述的预处理模块包含对语音的去噪和效果增强等预处理功能;所述的信号处理模块包含参数分析、方言分类、解码等功能;所述的解码由解码器实现,所述的解码器包含了字典、声学模型、语言模型;所述的智能交互模块包含模板匹配、构建回复内容、执行命令等功能。
所述的分区域方言的语音识别客服***包含了功能模块示意图。
进一步地,所述的语音预处理包括特征提取、去噪、语音分段等功能;
进一步地,所述的解码器构建包括构建声学模型、语言模型和发音字典,所述的语言模型用于匹配识别的功能;
进一步地,所述的方言分类模块能够实现对不同区域方言的识别;
进一步地,所述的方言分类模块基于已有声学模型和语言模型进行了加入方言后的自适应和训练适配等过程。
本发明提供一种分区域方言的语音识别客服***。本发明的有益效果是:客服根据带口音的语音识别结果自动进行回复,降低成本,减少人力资源消耗,使整个服务过程更加智能化;有效地改善目前因方言影响造成语音***识别正确率难以继续提高的情况,提升客户的服务体验。
附图说明
附图1是本发明的功能模块示意图。
具体实施方式
结合附图1,对本发明作进一步的描述:
为了使本发明的目的、技术方案及优点更加清晰易懂,结合以下具体实施例,对本发明进行进一步的阐述。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
进一步,为了使公众对本发明有更好的了解,在下文对本发明的详细说明中,描述了一些特定的细节部分。对本领域技术人员而言没有这些细节部分的描述也完全有能力理解本发明。
本实施例提供一种分区域方言的语音识别客服***:
首先,本发明提出的分区域方言语音识别***需要首先确定好声学模型和语言模型;所述的声学模型完成从语音特征到语音音素的映射,可以实现单个因素的识别;所述的语言模型对词串在语料库中出现的概率进行知识表示,作为后期长语音的识别的基础。
所述的声学模型基于双向长短期记忆网络(BiLSTM)对已有数据库中的客服录音音频数据进行预先的模型训练,获得最基本的声学基础模型参数;所述的语言模型利用标准研究语言模型工具(SRILM),采用n-gram模型(即n-元文法)对客服文本数据进行预先的模型训练,得到词组出现的概率,获得最基本的语言基础模型参数;
所述的基础声学模型和语言模型还需要与方言数据进行融合:选取具有方言特色的不同分类的方言数据,在基本声学和语言基础模型上分别进行训练,得到融合了方言数据的声学模型和语言模型。
所述的语音识别***对客户未经处理的新声音数据进行处理,处理过程如下:
第一步,在语音采集模块利用麦克风阵列收集客户的语音录音文件,传入语音预处理模块。
第二步,所述的语音预处理模块实现对传入语音的背景音弱化与人音增强,实现去噪处理,然后传入语音信号处理模块。
第三步,所述的语音信号处理模块包含字典、解码器;所述的字典中存储音素与词串的映射序列;所述的解码器基于声学模型、语言模型和字典将语音序列转化为字符序列进行解析和处理,得到识别结果。
第四步,得到识别结果,传入智能交互模块。
第五步,所述的智能交互模块中包含模板匹配、构建回复内容、下达执行命令等功能;所述的模板匹配实现对问题的回复匹配;所述的构建回复内容实现答案的文本构建,同时可以根据用户需求转换为语音播报;所述的执行命令功能应对客户提出的仅需要***做出动作执行的情况,直接实现功能跳转。
采用上述技术方案后,本发明的有益效果是:相较于传统的交互模式实现了突破,仅需要用户在语言上提出问题或是下达指令,***便能直接解答问题提供有效解决方案,或是执行用户下达的命令,整个过程自动化实现,不需要进行页面的跳转;使用语音客服代替人工客服,可以直接降低成本,解放人力;与此同时,使用了分区域的语音客服***,除了能够提高用户体验,还可以直接增加用户的受众面,使得原先因为有方言问题而不常使用语音客服的客户更加方便地使用该***,消除了因口音造成的使用门槛。
综上所述,以上对发明内容和技术方案进行了详细说明,若本领域的技术人员对本发明所记载的技术方案进行修改或等同替换,以及对本领域的技术改进,只要不违背本发明技术方案的精神和原则,均应包含在本发明的保护范围内。
Claims (2)
1.本发明涉及一种分区域方言的语音识别客服***,可以对带有口音用户所表达的语音进行方言分类,在分类基础上进行方言与普通话的模板匹配和语义理解,从而得到识别结果,最后进行智能回复。在传统的语音客服处理基础上,实现不同方言与正确释义的对接。
2.如权利要求1所述一种分区域方言的语音识别客服***,其特征在于,本发明包括语音采集模块、预处理模块、信号处理模块、智能交互模块。所述的语音采集模块通过麦克风阵列收集语音信号;所述的预处理模块包含对语音的去噪和效果增强等预处理功能;所述的信号处理模块包含参数分析、口音分类、解码等功能;所述的解码由解码器实现,所述的解码器包含了字典、声学模型、语言模型;所述的智能交互模块包含模板匹配、构建回复内容、执行命令等功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110216035.9A CN113053358A (zh) | 2021-02-26 | 2021-02-26 | 一种分区域方言的语音识别客服*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110216035.9A CN113053358A (zh) | 2021-02-26 | 2021-02-26 | 一种分区域方言的语音识别客服*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113053358A true CN113053358A (zh) | 2021-06-29 |
Family
ID=76509177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110216035.9A Pending CN113053358A (zh) | 2021-02-26 | 2021-02-26 | 一种分区域方言的语音识别客服*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053358A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187431A (zh) * | 2022-09-15 | 2022-10-14 | 广州天辰信息科技有限公司 | 一种基于大数据的养老服务机器人*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004624A1 (en) * | 2009-07-02 | 2011-01-06 | International Business Machines Corporation | Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology |
KR101827320B1 (ko) * | 2017-06-08 | 2018-02-09 | 윤준호 | 인공지능 콜센터 서버 |
CN109120513A (zh) * | 2018-08-16 | 2019-01-01 | 湖南畅远信息技术有限公司 | 基于智能机器人应答的全媒体***及实现方法 |
CN109413286A (zh) * | 2018-10-22 | 2019-03-01 | 北京移数通电讯有限公司 | 一种智能客服语音应答***及方法 |
CN110266899A (zh) * | 2019-06-11 | 2019-09-20 | 平安科技(深圳)有限公司 | 客户意图的识别方法和客服*** |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
CN112259093A (zh) * | 2020-10-20 | 2021-01-22 | 南京智能仿真技术研究院有限公司 | 一种基于语音识别的智能客服交互*** |
-
2021
- 2021-02-26 CN CN202110216035.9A patent/CN113053358A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004624A1 (en) * | 2009-07-02 | 2011-01-06 | International Business Machines Corporation | Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology |
KR101827320B1 (ko) * | 2017-06-08 | 2018-02-09 | 윤준호 | 인공지능 콜센터 서버 |
CN109120513A (zh) * | 2018-08-16 | 2019-01-01 | 湖南畅远信息技术有限公司 | 基于智能机器人应答的全媒体***及实现方法 |
CN109413286A (zh) * | 2018-10-22 | 2019-03-01 | 北京移数通电讯有限公司 | 一种智能客服语音应答***及方法 |
CN110266899A (zh) * | 2019-06-11 | 2019-09-20 | 平安科技(深圳)有限公司 | 客户意图的识别方法和客服*** |
CN112259093A (zh) * | 2020-10-20 | 2021-01-22 | 南京智能仿真技术研究院有限公司 | 一种基于语音识别的智能客服交互*** |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187431A (zh) * | 2022-09-15 | 2022-10-14 | 广州天辰信息科技有限公司 | 一种基于大数据的养老服务机器人*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255113B (zh) | 智能校对*** | |
CN110517663B (zh) | 一种语种识别方法及识别*** | |
CN102982811B (zh) | 一种基于实时解码的语音端点检测方法 | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones. | |
CN109887511A (zh) | 一种基于级联dnn的语音唤醒优化方法 | |
WO2022166218A1 (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
US11495234B2 (en) | Data mining apparatus, method and system for speech recognition using the same | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
CN111105785A (zh) | 一种文本韵律边界识别的方法及装置 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN112614514B (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN113744722A (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN114708856A (zh) | 一种语音处理方法及其相关设备 | |
CN108877786A (zh) | 指令识别方法 | |
CN114999463A (zh) | 语音识别方法、装置、设备及介质 | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
CN113053358A (zh) | 一种分区域方言的语音识别客服*** | |
CN112863485A (zh) | 口音语音识别方法、装置、设备及存储介质 | |
JP2000172294A (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
CN115132178B (zh) | 一种基于深度学习的语义端点检测*** | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
Ma et al. | Russian speech recognition system design based on HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210629 |