CN111081219A - 一种端到端的语音意图识别方法 - Google Patents

一种端到端的语音意图识别方法 Download PDF

Info

Publication number
CN111081219A
CN111081219A CN202010061724.2A CN202010061724A CN111081219A CN 111081219 A CN111081219 A CN 111081219A CN 202010061724 A CN202010061724 A CN 202010061724A CN 111081219 A CN111081219 A CN 111081219A
Authority
CN
China
Prior art keywords
voice
intention
recognition
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010061724.2A
Other languages
English (en)
Inventor
司马华鹏
汤毅平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Guiji Intelligent Technology Co ltd
Original Assignee
Nanjing Guiji Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Guiji Intelligent Technology Co ltd filed Critical Nanjing Guiji Intelligent Technology Co ltd
Priority to CN202010061724.2A priority Critical patent/CN111081219A/zh
Publication of CN111081219A publication Critical patent/CN111081219A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种端到端的语音意图识别方法,涉及语音意图识别技术领域。现有语音意图识别的应用,大多都是先通过语音识别获取文本再进行意图识别,这种基于文本的意图识别方式,其准确率严重依赖于语音识别转译文本的准确率,存在语音意图识别不准确的文图。为解决该问题,本发明技术方案要点是输入待识别语音,对其进行降噪、特征提取处理,将待识别语音转化为包含声音信息的特征向量,再将特征向量输入至语音意图识别模型,输出语音意图。其中,语音意图识别模型采用深度学习网络的预训练模型思想。本发明达到了减少语音识别造成的信息缺失,提高语音意图识别准确率的效果。

Description

一种端到端的语音意图识别方法
技术领域
本发明涉及语音意图识别的技术领域,尤其是涉及一种端到端的语音意图识别方法。
背景技术
随着人工智能技术在学术界的快速发展以及在生活中的广泛使用,语音交互成为人与机器之间沟通交流的重要桥梁。机器人***要与用户对话并完成特定任务,其中一个核心技术是语音意图的判定,即让机器人***在接受到用户语音后,能够通过语音判定用户的意图。
语音意图识别技术,是指对输入的语音识别出相应的意图或特征(这里的意图包括单意图、多意图、槽值、情感等多类问题),为后端特定的服务目标提供有效的支撑,高性能的语音意图识别技术,能够最大限度地保证人机对话***正确理解用户的意图,采取相应的应答策略,使得机器人***与用户之间的对话过程正确且流畅地进行。
现传统的意图识别方法通常分成语音识别、意图识别两个独立的阶段,在第一阶段通过语音识别技术(Automatic Speech Recognition,ASR)将语音转化成文字,第二阶段通过自然语言处理技术(Natural Language Processing,NLP)从文字中抽取文本内的语义信息,识别出用户的意图。基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。
现在大多数语音意图识别的应用,都是在通过语音识别获取文本之后,使用文本信息进行后续的语义加工和处理。当语音转文本信息正确率较高时,意图识别的准确率就高;当文本信息识别率较低时,大量的有用信息在识别过程中被语音识别丢弃,导致文本信息传递的用户意图也随之丢失。
发明内容
本发明的目的是提供一种端到端的语音意图识别方法,将语音直接转换为意图,从而达到了减少语音识别造成的信息缺失,提高语音意图识别准确率的效果。
本发明的上述发明目的是通过以下技术方案得以实现的:
一种端到端的语音意图识别方法,其特征在于,包括以下步骤:
S1、输入待识别语音,用语音识别模块对其进行降噪、特征提取处理,将待识别语音转化为特征序列;
S2、将特征序列直接输入至语音意图识别模型,输出语音意图。
本发明进一步设置为:步骤S2中,语音意图识别模型包括有预训练模型和意图识别训练模型两部分,具体模型训练包括以下步骤:
S2.1、收集并截取大量包含用户意图的语音,人工标注用户语音中所包含的用户意图类别,得到大量带有意图标签的用户语音;
S2.2、将带有用户意图的语音,通过预训练模型,训练出包含语音意图特征的音素和字素;
S2.3、将带有意图标签的用户语音作为训练集,载入预训练模型,构建意图识别训练模型。
本发明进一步设置为:预训练模型的构建包括如下步骤:
a、接收声序列数据输入;
b、使用卷积神经网络提取语音特征;
c、使用循环神经网络提取音素、字素特征;
d、调整神经网络参数形成预训练模型。
1. 本发明进一步设置为:在预训练模型的基础上,语音意图识别模型的构建包括如下步骤:
a、接收包含意图标签的语音输入数据;
b、载入预先训练完成的预训练模型,导入循环神经网络中进行意图识别训练模型训练;
c、针对输入的语音数据进行模型参数的调整,完成语音意图识别模型训练。
综上所述,本发明的有益技术效果为:
1.通过将语音识别初步处理后的语音数据输入语音意图识别模型,直接转换为意图,能有效的简化语音到意图识别的构建过程,解决对齐问题,并针对语音结构和词的特性,能充分利用语音中的隐含信息,有效的提高语音意图识别的准确率;
2.通过预训练模型的构建,使用卷积神经网络提取语音特征,卷积神经网络中,一般用卷积核去提取特征,这些初始化的卷积核会在反向传播的过程中,在迭代中被一次又一次的更新,无限地逼近我们的真实语音,形成包含语音特征的特征向量集;
3.通过语音意图训练模型的构建,载入训练模型能避免文字长短不均带来的处理困难,循环神经网络可以对时间序列上的变化进行建模,能够学习到语言先后的关联关系,从而形成了音素、字素到意图的语言模型。
附图说明
图1是本发明实施例的整体流程图;
图2是本发明实施例的预训练模型构建流程图;
图3是本发明实施例的意图识别训练模型构建流程图。
具体实施方式
参照图1,本发明公开了一种端到端的语音意图识别方法,包括以下步骤:
S1、输入待识别语音,对其进行降噪、特征提取处理,将待识别语音转化为包含声音信息的特征向量;
S2、将特征向量输入至语音意图识别模型,输出语音意图。
在步骤S1中,对输入的语音的降噪、特征提取处理包括预处理过程和特征提取过程。预处理过程首先将首尾端的静音切除,降低对后续步骤造成的干扰,静音切除的操作一般称为语音端点检测(Voice Activity Detection,VAD)。然后进行声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧,使用移动窗函数来实现,各帧之间保留有交叠部分。特征处理过程主要的算法有线性预测倒谱系数(Linear Prediction CepstrumCoefficient,LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量。
在步骤S2中,语音意图识别模型通过对语音数据进行训练获得,采用深度学习网络的预训练模型思想,主要包含预训练模型和意图识别训练模型两部分,具体模型训练包括以下步骤:
S2.1、收集并截取大量包含用户意图的语音,人工标注用户语音中所包含的用户意图类别,得到大量带有意图标签的用户语音;
S2.2、将带有用户意图的语音,通过预训练模型,训练出包含语音意图特征的音素和字素;
S2.3、将带有意图标签的用户语音作为训练集,载入预训练模型,构建意图识别训练模型。
其中,预训练模型的构建包括如下步骤:
a、接收声序列数据输入;
b、使用卷积神经网络提取语音特征;
c、使用循环神经网络提取音素、字素特征;
d、调整神经网络参数形成预训练模型。
预训练模型主要对语音数据进行处理,既生成声学序列的音素表示,也生成声学序列的字素表示,使用预训练模型来预测音素和字素。人工整理准备训练集合,收集并截取大量包含用户意图的语音,人工标注用户语音中所包含的用户意图类别。最终得到大量带有意图标注的用户语音作为意图判定服务的训练集合,为进一步训练作基础。
在预训练模型的基础上,语音意图识别模型的构建包括如下步骤:
a、接收包含意图标签的语音输入数据;
b、载入预先训练完成的预训练模型,导入循环神经网络中进行意图识别训练模型训练;
c、针对输入的语音数据进行模型参数的调整,完成语音意图识别模型训练。
意图识别训练模型需要载入预训练模型,把预训练模型得到的音素和字素作为中间的目标结果,进一步来训练语音与意图的模型关联性。
本发明可以应用于包含语音交互的所有对话聊天机器人***。
上述实施例的实施原理为:将语音直接转换为意图,从而达到了减少语音识别造成的信息缺失,提高语音意图识别准确率的效果。
本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

Claims (2)

1.一种端到端的语音意图识别方法,其特征在于,包括以下步骤:
S1、输入待识别语音,对其进行降噪、特征提取处理,将待识别语音转化为包含声音信息的特征向量;
S2、将特征向量输入至语音意图识别模型,输出语音意图。
步骤S2中,语音意图识别模型包括有预训练模型和意图识别训练模型两部分,具体模型训练包括以下步骤:
S2.1、收集并截取大量包含用户意图的语音,人工标注用户语音中所包含的用户意图类别,得到大量带有意图标签的用户语音;
S2.2、将带有用户意图的语音,通过预训练模型,训练出包含语音意图特征的音素和字素;
S2.3、将带有意图标签的用户语音作为训练集,载入预训练模型,构建意图识别训练模型。
预训练模型的构建包括如下步骤:
a、接收声序列数据输入;
b、使用卷积神经网络提取语音特征;
c、使用循环神经网络提取音素、字素特征;
d、调整神经网络参数形成预训练模型。
2.根据权利要求1所述的一种端到端的语音意图识别方法,其特征在于:在预训练模型的基础上,语音意图识别模型的构建包括如下步骤:
a、接收包含意图标签的语音输入数据;
b、载入预先训练完成的预训练模型,导入循环神经网络中进行意图识别训练模型训练;
c、针对输入的语音数据进行模型参数的调整,完成语音意图识别模型训练。
CN202010061724.2A 2020-01-19 2020-01-19 一种端到端的语音意图识别方法 Pending CN111081219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010061724.2A CN111081219A (zh) 2020-01-19 2020-01-19 一种端到端的语音意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010061724.2A CN111081219A (zh) 2020-01-19 2020-01-19 一种端到端的语音意图识别方法

Publications (1)

Publication Number Publication Date
CN111081219A true CN111081219A (zh) 2020-04-28

Family

ID=70323826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010061724.2A Pending CN111081219A (zh) 2020-01-19 2020-01-19 一种端到端的语音意图识别方法

Country Status (1)

Country Link
CN (1) CN111081219A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986653A (zh) * 2020-08-06 2020-11-24 杭州海康威视数字技术股份有限公司 一种语音意图识别方法、装置及设备
CN112256864A (zh) * 2020-09-23 2021-01-22 北京捷通华声科技股份有限公司 多意图识别的方法、装置、电子设备及可读存储介质
CN112489639A (zh) * 2020-11-26 2021-03-12 北京百度网讯科技有限公司 音频信号处理方法及装置、***、电子设备、可读介质
CN112581963A (zh) * 2020-11-23 2021-03-30 厦门快商通科技股份有限公司 一种语音意图识别方法及***
CN112687263A (zh) * 2021-03-11 2021-04-20 南京硅基智能科技有限公司 语音识别神经网络模型及其训练方法、语音识别方法
CN111986653B (zh) * 2020-08-06 2024-06-25 杭州海康威视数字技术股份有限公司 一种语音意图识别方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
US20180137855A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Method and apparatus for processing natural language, method and apparatus for training natural language processing model
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137855A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Method and apparatus for processing natural language, method and apparatus for training natural language processing model
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986653A (zh) * 2020-08-06 2020-11-24 杭州海康威视数字技术股份有限公司 一种语音意图识别方法、装置及设备
WO2022028378A1 (zh) * 2020-08-06 2022-02-10 杭州海康威视数字技术股份有限公司 语音意图识别方法、装置及设备
CN111986653B (zh) * 2020-08-06 2024-06-25 杭州海康威视数字技术股份有限公司 一种语音意图识别方法、装置及设备
CN112256864A (zh) * 2020-09-23 2021-01-22 北京捷通华声科技股份有限公司 多意图识别的方法、装置、电子设备及可读存储介质
CN112256864B (zh) * 2020-09-23 2024-05-14 北京捷通华声科技股份有限公司 多意图识别的方法、装置、电子设备及可读存储介质
CN112581963A (zh) * 2020-11-23 2021-03-30 厦门快商通科技股份有限公司 一种语音意图识别方法及***
CN112581963B (zh) * 2020-11-23 2024-02-20 厦门快商通科技股份有限公司 一种语音意图识别方法及***
CN112489639A (zh) * 2020-11-26 2021-03-12 北京百度网讯科技有限公司 音频信号处理方法及装置、***、电子设备、可读介质
CN112687263A (zh) * 2021-03-11 2021-04-20 南京硅基智能科技有限公司 语音识别神经网络模型及其训练方法、语音识别方法

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN111081219A (zh) 一种端到端的语音意图识别方法
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
EP1279165B1 (en) Speech recognition
CN110853649A (zh) 基于智能语音技术的标签提取方法、***、设备及介质
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及***
KR20090123396A (ko) 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
CN111508498A (zh) 对话式语音识别方法、***、电子设备和存储介质
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
Kumar et al. Machine learning based speech emotions recognition system
Ling An acoustic model for English speech recognition based on deep learning
CN112133292A (zh) 一种针对民航陆空通话领域的端到端的自动语音识别方法
JPH09179581A (ja) 音声認識システム
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
Masumura et al. Improving speech-based end-of-turn detection via cross-modal representation learning with punctuated text data
CN112216270B (zh) 语音音素的识别方法及***、电子设备及存储介质
CN111402887A (zh) 一种语音转义文字的方法及装置
CN111833869B (zh) 一种应用于城市大脑的语音交互方法及***
Tasnia et al. An overview of bengali speech recognition: Methods, challenges, and future direction
Razak et al. Towards automatic recognition of emotion in speech
Shrawankar et al. Speech: a challenge to digital signal processing technology for human-to-computer interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428