CN112037773B - 一种n最优口语语义识别方法、装置及电子设备 - Google Patents
一种n最优口语语义识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112037773B CN112037773B CN202011220689.0A CN202011220689A CN112037773B CN 112037773 B CN112037773 B CN 112037773B CN 202011220689 A CN202011220689 A CN 202011220689A CN 112037773 B CN112037773 B CN 112037773B
- Authority
- CN
- China
- Prior art keywords
- model
- intention
- text data
- recognition
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 101150104012 TOP2 gene Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种N最优口语语义识别方法、装置及电子设备,所述方法包括:获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;通过所述训练集训练口语理解SLU模型;将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出。本发明在SLU模型训练和SLU模型应用中均考虑到ASR模型的前几个概率值的文本数据,再根据前几个概率值的文本数据进行意图识别,能够有效降低因ASR识别错误而导致的用户意图识别错误,提高意图识别准确率。
Description
技术领域
本发明涉及语音智能技术领域,具体而言,涉及一种N最优口语语义识别方法、装置、电子设备及计算机可读介质。
背景技术
随着人工智能技术的发展,语音机器人的应用也越来越广泛。语音机器人基于语音识别、语音合成、自然语言理解等技术,能够为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。目前,语音机器人已广泛应用于电话销售、智能问答、智能质检、实时演讲字幕、访谈录音等场景。
语音机器人首先对用户的语音进行自然语音理解来识别用户意图,再根据用户意图通过自然语音生成技术生成对用户的问答语音,从而完成与用户的语音问答。在自然语音理解过程中语音机器人将用户的语音通过语音识别(Automatic Speech Recognition,ASR)技术转化为文字,再通过口语理解(Spoken Language Understanding,SLU)技术识别用户意图。其中,ASR技术先通过训练数据预先分析出语音特征参数,制作语音模板,并存放在语音参数库中,再将待识语音经过与训练时相同的分析,得到语音参数。将它与语音参数库中的语音模板一一比较,通过模型打分的方式找出最接近语音特征的模板,得出识别的文字结果。由于ASR技术采用模型打分的方式将最接近的语音特征模板对应的文本数据作为识别的文字,而最接近的语音特征模板对应的文本数据有时会与实际的用户语音文字不同,甚至意思相反。因此,现有ASR在转换文字过程中会出现一定的错误,这就导致后续SLU对用户意图识别错误,影响语音机器人与用户的对话效果。
发明内容
本发明旨在降低因ASR识别错误而导致用户意图识别错误的技术问题。
为了解决上述技术问题,本发明第一方面提出一种N最优口语语义识别方法,所述方法包括:
获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;
通过所述训练集训练口语理解SLU模型;
将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;
将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出。
根据本发明一种优选的实施方式,所述ASR模型包括声学模型和语言模型。
根据本发明一种优选的实施方式,所述声学模型为长短记忆LSTM神经网络或者隐马尔可夫模型HMM。
根据本发明一种优选的实施方式,所述语言模型为n-gram模型、神经网络语言模型NNLM、word2vec模型中的任意一种。
根据本发明一种优选的实施方式,所述SLU模型为多任务深度神经网络MT-DNN或者变换器的双向编码表征BERT模型。
根据本发明一种优选的实施方式,所述方法还包括:
通过槽位填充模型获取所述测试音频数据的意图对应的槽位值;
将所述测试音频数据的意图和对应的槽位值发送给语音对答***。
为了解决上述技术问题,本发明第二方面提供一种N最优口语语义识别装置,所述装置包括:
获取模块,用于获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;
训练模块,用于通过所述训练集训练口语理解SLU模型;
输入模块,用于将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;
输出模块,用于将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出。
根据本发明一种优选的实施方式,所述ASR模型包括声学模型和语言模型。
根据本发明一种优选的实施方式,所述声学模型为长短记忆LSTM神经网络或者隐马尔可夫模型HMM。
根据本发明一种优选的实施方式,所述语言模型为n-gram模型、神经网络语言模型NNLM、word2vec模型中的任意一种。
根据本发明一种优选的实施方式,所述SLU模型为多任务深度神经网络MT-DNN或者变换器的双向编码表征BERT模型。
根据本发明一种优选的实施方式,所述装置还包括:
子获取模块,用于通过槽位填充模型获取所述测试音频数据的意图对应的槽位值;
发送模块,用于将所述测试音频数据的意图和对应的槽位值发送给语音对答***。
为解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。
本发明从SLU模型训练和SLU模型应用两个方面出发来降低因ASR识别错误而导致用户意图识别错误的问题。一方面,在SLU模型训练过程中,通过获取ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签完成对训练集数据的增强,通过所述训练集训练口语理解SLU模型,使训练后的SLU模型能够从前N个概率值的文本数据中识别出正确的文本数据。另一方面,在SLU模型应用过程中,将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对M个文本数据的意图识别概率序列,完成对意图识别的增强,最后将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出。本发明在SLU模型训练和SLU模型应用中均考虑到ASR模型的前几个概率值的文本数据,再根据前几个概率值的文本数据进行意图识别,相较于直接将ASR模型的最高概率值的文本数据进行意图识别,能够有效降低因ASR识别错误而导致的用户意图识别错误,提高意图识别准确率。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明一种N最优口语语义识别方法的流程示意图;
图2是本发明获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据步骤的示意图;
图3是本发明将ASR模型对测试音频数据输出的前M个概率值的文本数据输入SLU模型中得到对该M个文本数据的意图识别概率序列步骤的示意图;
图4是本发明BERT模型的结构框架示意图;
图5是本发明一种N最优口语语义识别装置的结构框架示意图;
图6是根据本发明的一种电子设备的示例性实施例的结构框图;
图7是本发明一个计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明实施例提供的方案涉及人工智能的自然语言理解和深度学习等技术,现通过如下实施例进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
自然语言理解(Natural Language Understanding,NLU)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言理解以语音学为基础,融合逻辑学、计算机科学等学科,通过对语义、语法、语用的分析,获取自然语音的语义表示。自然语言理解的主要功能包括实体识别、用户意图识别、用户情感识别、指代消解、省略恢复、回复确认及拒识判断等。
意图识别指运用各种机器学习方法,让机器学习并理解一段文本所表示的语义意图,涉及语音学、计算语言学、人工智能、机器学习等多个学科。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
深度学习是机器学习的核心部分,其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。基于深度学习的自然语音理解技术在获得自然语音的向量化表示后,通过采用端到端的方法直接生产回复,其最典型的框架是Encoder-Decoder框架。其不仅可以应用到聊天机器人领域,还可以应用在机器翻译、文本摘要、句法分析等应用场景中。其中,语言模型是将深度学习引入自然语言理解的核心技术之一。
本发明在SLU模型训练和SLU模型应用中均考虑到ASR模型的前几个概率值的文本数据,再根据前几个概率值的文本数据进行意图识别,相较于直接将ASR模型的最高概率值的文本数据进行意图识别,能够有效降低因ASR识别错误而导致的用户意图识别错误,提高意图识别准确率。
其中,SLU是Spoken Language Understanding的缩写,翻译为口语理解,是应用于对话***的NLU。
请参阅图1,图1是本发明提供的一种N最优口语语义识别方法的流程图,其中,N最优是指将ASR模型输出的前N个概率值的文本数据进行意图识别,最终获得最优识别结果的方式。如图1所示,所述方法包括:
S1、获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;
其中,ASR模型的目的是把语音转换成文字。具体来说,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。这个匹配程度,一般是用概率表示的。用 X表示语音信号,W表示文字序列,则要求解如下公式:
上述公式是语音识别里最核心的公式。P(W)表示一个文字序列本身的概率,也就是这一串词或字本身有多“像话”;P(X)表示给定文字后语音信号的概率,即这句话有多大的可能发成这串音。计算这两项的值,就是语言模型和声学模型各自的任务。因此,本发明的ASR模型包括语言模型和声学模型。
语言模型一般利用链式法则,把一个句子的概率拆解成其中每个词的概率之积。所述语言模型可以是n-gram模型,在n-gram模型中认为每个词的概率分布只依赖于前面n-1个词。此外,所述语言模型还可以是神经网络语言模型NNLM、word2vec模型。
其中,NNLM沿用了n-gram模型的核心观点:句子出现的概率是句子中各单词依次出现的联合概率。NNLM使用向量表示词语,在已知句子W出现概率的情况下,预测最可能出现在k位置的单词Wk。具体的,NNLM是一个三层的神经网络模型,训练样本为单词w上下文的词向量,经过隐含层传递到输出层,输出层为单词w的词向量。
word2vec是由NNLM演进而来,它对NNLM做了重要改进,提高了计算效率。Word2Vec模型有两种主要的实现方式:连续词袋模型(Continuous Bag-of-Word Model,CBOWModel)和skip-gram模型。其中,CBOW模型是一个三层神经网络(输入层、隐含层和哈夫曼树层)。将上下文的词向量输入CBOW模型,由隐含层累加得到中间向量,将中间向量输入哈夫曼树的根节点,根节点会将其分到左子树或右子树,每个非叶节点都会对中间向量进行分类,直到达到某个叶节点,该叶节点对应的单词就是对下个单词的预测。Skip-gram模型也是一个三层神经网络。skip-gram模型输入某个单词输出对它上下文词向量的预测。Skip-gram模型的核心同样是一个哈夫曼树,每一个单词从树根开始到达叶节点可以预测出它上下文中的一个单词,对每个单词进行N-1次迭代,得到对它上下文中所有单词的预测,根据训练数据调整词向量得到足够精确的结果。
声学模型的任务是计算给定文字后发出这段语音的概率。所述声学模型具体可以是长短记忆LSTM神经网络或者隐马尔可夫模型HMM。其中,
长短时记忆神经网络(Long Short Memory Networks,LSTM)是目前在声学模型中广泛应用的一种循环神经网络(Recurrent Neural Networks,RNN)结构。相比于普通的RNN,LSTM通过精心设计的门结构来控制信息的存储,输入和输出,同时可以一定程度上避免普通RNN的梯度消失问题,从而LSTM可以有效的对时序信号的长时相关性进行建模。
本步骤中,如图2,将历史音频数据W输入ASR模型可以得到各个文字序列对应的概率值Pi。其中,所述概率值表示该文字序列与历史音频数据的匹配程度。本发明中,根据概率值的大小将前N个概率值对应的N个文字序列作为文本数据,同时,设置各个文本数据的标签,所述标签用于标识文字序列是否为所述历史音频数据真实的文字序列。
其中,N可以根据意图识别的准确度设置。如图2中,N=3,则将top3的概率值P1、P2和P3对应的3个文字序列R1、R2和R3作为文本数据,并将文字序列R1、R2和R3的标签共同作为训练集。
S2、通过所述训练集训练口语理解SLU模型;
如图2,将文字序列R1、R2和R3及对应的标签输入口语理解SLU模型中对模型进行训练,完成对SLU模型的训练。使训练后的SLU模型能够从前N个概率值的文本数据中识别出正确的文本数据。
S3、将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;
其中,M可以根据意图识别的准确度设置。M可以与N相同,也可以与N不相同,本发明不作具体限定。
如图3,将测试音频数据Q输入ASR模型中,得到表示各个文字序列与测试音频数据Q的匹配程度对应的概率值Qi。根据概率值Qi的大小将top2的概率值Q1、Q2对应的文字序列R1、R2作为文本数据输入SLU模型,分别得到对文字序列R1的意图识别序列PR1和对文字序列R2的意图识别序列PR2。
其中,所述SLU模型可以是多任务深度神经网络MT-DNN或者变换器的双向编码表征BERT模型。
本发明中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器。其中,所述分类器可以采用决策树模型、朴素贝叶斯模型、Logistic分类器、支持向量机分类器等,本发明不作具体限定。
图4示出了BERT模型的结构。其中,BERT模型本质上是由双向Transformer组成的语言模型。BERT模型可以包含12层Transformer(BERT-base模型),也可以包含24层Transformer(BERT-lager模型)。即:N可以取12,也可以取24。 在图4中,BERT模型包括顺次堆叠设置的N层结构相同的特征编码器Trm,并且每层特征编码器Trm都连接一个分类器Fr。其中,所述特征编码器指的是Transformer的encoder。E表示词的embedding,T表示经过BERT模型编码后每个词的新的特征表示,F表示与每层的特征编码器连接的分类器。
具体的,文本数据输入BERT模型后,将所述文本数据依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;判断所述第i层意图识别结果是否满足意图识别要求。具体可以计算所述第i层意图识别结果的信息熵S,当第i层意图识别结果的信息熵S小于预设值,确定所述第i层意图识别结果是否满足意图识别要求。其中,所述预设值可以根据BERT模型的精度要求进行设置。若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述文本数据的意图输出,并删除所述文本数据。
本发明的BERT模型从最底层的特征编码器及与该特征编码器连接的分类器开始逐层进行意图识别;当每层意图识别完成后,判断该层意图识别结果是否满足意图识别要求。若满足,则无需进入下一层意图识别,直接输出该层意图识别结果,结束当前文本的意图识别,从而有效提高模型的意图识别速度,避免在用户与语音机器人的交互中出现语音机器人回答速度慢,用户等待时间久的现象,提升语音机器人与用户的语音交互效果。
此外,由于BERT模型采用多层Transformer对文本进行双向学习,且Transformer采用一次性读取方式对文本进行读取,因此可以更准确地学习到文本中词之间的上下文关系,对语境的理解更加深刻,即双向训练的语言模型对语境的理解会比单向的语言模型更深刻,从而能够准确地对文本进行处理,因此,BERT模型相较于处理自然语言理解任务的其他模型而言,具有更好的任务处理效果。
S4、将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出。
具体的,对文字序列R1的意图识别序列PR1和对文字序列R2的意图识别序列PR2中的意图概率一一进行比较,将最大意图识别概率对应的意图类别作为测试音频数据的意图输出。
进一步的,所述方法还包括:通过槽位填充模型获取所述测试音频数据的意图对应的槽位值;将所述测试音频数据的意图和对应的槽位值发送给语音对答***。以便语音对答***根据意图和对应的槽位值做出语音应答。
图5是本发明一种N最优口语语义识别装置的架构示意图,如图5所示,所述装置包括:
获取模块51,用于获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;
训练模块52,用于通过所述训练集训练口语理解SLU模型;
输入模块53,用于将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;
输出模块54,用于将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出。
其中,所述ASR模型包括声学模型和语言模型。所述声学模型为长短记忆LSTM神经网络或者隐马尔可夫模型HMM。所述语言模型为n-gram模型、神经网络语言模型NNLM、word2vec模型中的任意一种。
所述SLU模型为多任务深度神经网络MT-DNN或者变换器的双向编码表征BERT模型。
进一步的,所述装置还包括:
子获取模块,用于通过槽位填充模型获取所述测试音频数据的意图对应的槽位值;
发送模块,用于将所述测试音频数据的意图和对应的槽位值发送给语音对答***。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图6是根据本发明的一种电子设备的示例性实施例的结构框图。图6显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,该示例性实施例的电子设备600以通用数据处理设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同电子设备组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元620存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元610执行,使得所述处理单元610执行本发明各种实施方式的步骤。例如,所述处理单元610可以执行如图1所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子设备600交互,和/或使得该电子设备600能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口650进行,还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图6中未示出,电子设备600中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。
图7是本发明的一个计算机可读介质实施例的示意图。如图7所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;通过所述训练集训练口语理解SLU模型;将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等,还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种N最优口语语义识别方法,其特征在于,所述方法包括:
获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;
通过所述训练集训练口语理解SLU模型;
将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;
将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出;
其中,所述N最优是指将ASR模型输出的前N个概率值的文本数据进行意图识别,最终获得最优识别结果的方式。
2.根据权利要求1所述的方法,其特征在于,所述ASR模型包括声学模型和语言模型。
3.根据权利要求2所述的方法,其特征在于,所述声学模型为长短记忆LSTM神经网络或者隐马尔可夫模型HMM。
4.根据权利要求2所述的方法,其特征在于,所述语言模型为n-gram模型、神经网络语言模型NNLM、word2vec模型中的任意一种。
5.根据权利要求1所述的方法,其特征在于,所述SLU模型为多任务深度神经网络MT-DNN或者变换器的双向编码表征BERT模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过槽位填充模型获取所述测试音频数据的意图对应的槽位值;
将所述测试音频数据的意图和对应的槽位值发送给语音对答***。
7.一种N最优口语语义识别装置,其特征在于,所述装置包括:
获取模块,用于获取自动语音识别ASR模型对历史音频数据输出的前N个概率值的文本数据和各个文本数据的标签作为训练集;
训练模块,用于通过所述训练集训练口语理解SLU模型;
输入模块,用于将ASR模型对测试音频数据输出的前M个概率值的文本数据输入所述SLU模型中,得到对该M个文本数据的意图识别概率序列;
输出模块,用于将所述意图识别概率序列中概率最大的意图作为所述测试音频数据的意图输出;
其中,所述N最优是指将ASR模型输出的前N个概率值的文本数据进行意图识别,最终获得最优识别结果的方式。
8.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011220689.0A CN112037773B (zh) | 2020-11-05 | 2020-11-05 | 一种n最优口语语义识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011220689.0A CN112037773B (zh) | 2020-11-05 | 2020-11-05 | 一种n最优口语语义识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112037773A CN112037773A (zh) | 2020-12-04 |
CN112037773B true CN112037773B (zh) | 2021-01-29 |
Family
ID=73573580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011220689.0A Active CN112037773B (zh) | 2020-11-05 | 2020-11-05 | 一种n最优口语语义识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037773B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI787755B (zh) * | 2021-03-11 | 2022-12-21 | 碩網資訊股份有限公司 | 一種基於深度學習的跨設備、跨語言問答匹配方法 |
CN113160798B (zh) * | 2021-04-28 | 2024-04-16 | 厦门大学 | 一种中文民航空中交通管制语音识别方法及*** |
CN113035236B (zh) * | 2021-05-24 | 2021-08-27 | 北京爱数智慧科技有限公司 | 语音合成数据的质检方法以及装置 |
CN113591463B (zh) * | 2021-07-30 | 2023-07-18 | 中国平安人寿保险股份有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN115269809B (zh) * | 2022-09-19 | 2022-12-30 | 支付宝(杭州)信息技术有限公司 | 意图识别模型的训练方法和装置及意图识别方法和装置 |
CN115273849B (zh) * | 2022-09-27 | 2022-12-27 | 北京宝兰德软件股份有限公司 | 一种关于音频数据的意图识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895089A (zh) * | 2015-12-30 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN110858480A (zh) * | 2018-08-15 | 2020-03-03 | 中国科学院声学研究所 | 一种基于n元文法神经网络语言模型的语音识别方法 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111564164A (zh) * | 2020-04-01 | 2020-08-21 | 中国电力科学研究院有限公司 | 一种多模态情感识别方法及装置 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10706842B2 (en) * | 2018-01-23 | 2020-07-07 | Google Llc | Selective adaptation and utilization of noise reduction technique in invocation phrase detection |
-
2020
- 2020-11-05 CN CN202011220689.0A patent/CN112037773B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895089A (zh) * | 2015-12-30 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN110858480A (zh) * | 2018-08-15 | 2020-03-03 | 中国科学院声学研究所 | 一种基于n元文法神经网络语言模型的语音识别方法 |
CN111564164A (zh) * | 2020-04-01 | 2020-08-21 | 中国电力科学研究院有限公司 | 一种多模态情感识别方法及装置 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112037773A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN112101045B (zh) | 一种多模态语义完整性识别方法、装置及电子设备 | |
Vashisht et al. | Speech recognition using machine learning | |
CN113205817B (zh) | 语音语义识别方法、***、设备及介质 | |
WO2021072875A1 (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN113569562A (zh) | 一种降低端到端语音翻译跨模态跨语言障碍的方法及*** | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
CN111414745A (zh) | 文本标点确定方法与装置、存储介质、电子设备 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和*** | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN117198267A (zh) | 一种地方方言语音智能识别与问答方法、***、设备及介质 | |
CN115983287A (zh) | 一种声学和文本联合编码的语音翻译模型建模方法和设备 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN113257225B (zh) | 一种融合词汇及音素发音特征的情感语音合成方法及*** | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
Sharan et al. | ASR for Speech based Search in Hindi using Attention based Model | |
Teshite et al. | Afan Oromo Speech‐Based Computer Command and Control: An Evaluation with Selected Commands | |
Teshite et al. | Research Article Afan Oromo Speech-Based Computer Command and Control: An Evaluation with Selected Commands | |
CN116994560A (zh) | 语音识别方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |