CN112101044A - 一种意图识别方法、装置及电子设备 - Google Patents
一种意图识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112101044A CN112101044A CN202011200664.4A CN202011200664A CN112101044A CN 112101044 A CN112101044 A CN 112101044A CN 202011200664 A CN202011200664 A CN 202011200664A CN 112101044 A CN112101044 A CN 112101044A
- Authority
- CN
- China
- Prior art keywords
- intention
- model
- general
- expert
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000010606 normalization Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 18
- 230000000694 effects Effects 0.000 abstract description 10
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种意图识别方法、装置及电子设备,所述方法包括:创建1个通用模型和N个专家模型,其中,所述通用模型用于识别通用意图,所述专家模型用于识别通用意图下的子意图;将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi并进行归一化处理,将归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出。本发明将通用模型识别的通用意图与N个专家模型识别的子意图综合起来确定用户的最终意图,从而能够根据子意图的识别结果从相似意图中快速区分出用户的实际意图,提高了意图识别的准确率,为后续准确的语音问答奠定基础,提升语音机器人与用户的语音交互效果。
Description
技术领域
本发明涉及语音智能技术领域,具体而言,涉及一种意图识别方法、装置、电子设备及计算机可读介质。
背景技术
随着人工智能技术的发展,语音机器人的应用也越来越广泛。语音机器人基于语音识别、语音合成、自然语言理解等技术,能够为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。目前,语音机器人已广泛应用于电话销售、智能问答、智能质检、实时演讲字幕、访谈录音等场景。
语音机器人首先对用户的语音进行自然语音理解来识别用户意图,再根据用户意图通过自然语音生成技术生成对用户的问答语音,从而完成与用户的语音问答。在自然语音理解过程中语音机器人将用户的语音通过语音识别(Automatic Speech Recognition,ASR)技术转化为文字,再通过自然语言理解(Natural Language Understanding,NLU)技术识别用户意图。
其中,NLU过程中主要采用数据量大,参数比较多的机器学习模型,比如,循环神经网络模型(Recurrent Neural Network,RNN)、长短记忆网络模型(Long Short-TermMemory,LSTM)等来处理。目前,NLU识别的意图分类有100个左右,会出现相似但不同的意图。这样,在意图识别过程中用户的意图有可能会被划分到与实际意图相似的意图类别中,导致意图识别的准确率下降,影响语音机器人与用户的通话效果。
发明内容
本发明旨在解决语音机器人对用户意图识别准确率低的技术问题。
为了解决上述技术问题,本发明第一方面提出一种意图识别方法,所述方法包括:
创建1个通用模型和N个专家模型,其中,所述通用模型用于识别通用意图,所述专家模型用于识别通用意图下的子意图;
将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,其中,PT为通用模型输出的意图概率识别序列,PSi为第i个专家模型输出的意图概率识别序列;
将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,得到归一化的意图概率识别序列;
将所述归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出;
其中,i=1、2、…N。
根据本发明一种优选的实施方式,所述创建1个通用模型和N个专家模型包括:
采集用户历史语料和对应的意图数据作为意图训练集;
通过所述意图训练集训练所述通用模型;
将训练后的所述通用模型的参数作为所述N个专家模型的初始化参数;
采集用户第i类通用意图的历史语料和对应的子意图数据作为第i专家模型的训练集;
通过所述第i专家模型的训练集训练第i专家模型。
根据本发明一种优选的实施方式,所述第i专家模型的训练集还包括除了第i类通用意图的历史语料以外的随机语料和所述随机语料对应的意图数据。
根据本发明一种优选的实施方式,所述将待识别文本分别输入所述通用模型和N个专家模型之前,所述方法还包括:
采集用户音频数据;
将所述用户音频数据转换为文本数据;
将所述文本数据转换为词向量;
将所述词向量作为待识别文本。
根据本发明一种优选的实施方式,所述通用模型和所述专家模型为基于变换器的双向编码表征BERT模型。
根据本发明一种优选的实施方式,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器。
为了解决上述技术问题,本发明第二方面提出一种意图识别装置,所述装置包括:
创建模块,用于创建1个通用模型和N个专家模型,其中,所述通用模型用于识别通用意图,所述专家模型用于识别通用意图下的子意图;
输入模块,用于将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,其中,PT为通用模型输出的意图概率识别序列,PSi为第i个专家模型输出的意图概率识别序列;
归一化模块,用于将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,得到归一化的意图概率识别序列;
输出模块,用于将所述归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出;
其中,i=1、2、…N。
根据本发明一种优选的实施方式,所述创建模块包括:
第一采集模块,用于采集用户历史语料和对应的意图数据作为意图训练集;
第一训练模块,用于通过所述意图训练集训练所述通用模型;
初始化模块,用于将训练后的所述通用模型的参数作为所述N个专家模型的初始化参数;
第二采集模块,用于采集用户第i类通用意图的历史语料和对应的子意图数据作为第i专家模型的训练集;
第二训练模块,用于通过所述第i专家模型的训练集训练第i专家模型。
根据本发明一种优选的实施方式,所述第二采集模块还用于采集除了第i类通用意图的历史语料以外的随机语料和所述随机语料对应的意图数据。
根据本发明一种优选的实施方式,所述装置还包括:
采集模块,用于采集用户音频数据;
第一转换模块,用于将所述用户音频数据转换为文本数据;
第二转换模块,用于将所述文本数据转换为词向量;
确定模块,用于将所述词向量作为待识别文本。
根据本发明一种优选的实施方式,所述通用模型和所述专家模型为基于变换器的双向编码表征BERT模型。
根据本发明一种优选的实施方式,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器。
为解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。
本发明通过创建通用模型来识别大类别下的通用意图,通过创建N个专家模型来识别通用意图下的子意图,实现对通用意图的细化识别。待识别文本分别输入通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,并将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,最后将归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出。本发明的意图识别充分考虑到大类别下的通用意图的识别结果,以及针对某些类别下的子意图的识别结果,将通用模型识别的通用意图与N个专家模型识别的子意图综合起来确定用户的最终意图,从而能够根据子意图的识别结果从相似意图中快速区分出用户的实际意图,提高了意图识别的准确率,为后续准确的语音问答奠定基础,提升语音机器人与用户的语音交互效果。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明一种意图识别方法的流程示意图;
图2是本发明BERT模型的结构框架示意图;
图3是本发明将意图概率识别序列PT和PSi中相同的意图概率进行归一化处理步骤的示意图;
图4是本发明一种意图识别装置的结构框架示意图;
图5是根据本发明的一种电子设备的示例性实施例的结构框图;
图6是本发明一个计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明实施例提供的方案涉及人工智能的自然语言理解和深度学习等技术,现通过如下实施例进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
自然语言理解(Natural Language Understanding,NLU)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言理解以语音学为基础,融合逻辑学、计算机科学等学科,通过对语义、语法、语用的分析,获取自然语音的语义表示。自然语言理解的主要功能包括实体识别、用户意图识别、用户情感识别、指代消解、省略恢复、回复确认及拒识判断等。
意图识别指运用各种机器学习方法,让机器学习并理解一段文本所表示的语义意图,涉及语音学、计算语言学、人工智能、机器学习等多个学科。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
深度学习是机器学习的核心部分,其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。基于深度学习的自然语音理解技术在获得自然语音的向量化表示后,通过采用端到端的方法直接生产回复,其最典型的框架是Encoder-Decoder框架。其不仅可以应用到聊天机器人领域,还可以应用在机器翻译、文本摘要、句法分析等应用场景中。其中,语言模型是将深度学习引入自然语言理解的核心技术之一。
针对意图类别中存在相似意图影响意图识别准确率的问题,本发明的意图识别充分考虑到大类别下的通用意图的识别结果,以及针对某些类别下的子意图的识别结果,通过创建通用模型来识别大类别下的通用意图,通过创建N个专家模型来识别通用意图下的子意图,实现对相似的通用意图的细化识别,将通用模型识别的通用意图与N个专家模型识别的子意图综合起来确定用户的最终意图。从而能够根据子意图的识别结果从相似意图中快速区分出用户的实际意图,提高了意图识别的准确率,为后续准确的语音问答奠定基础,提升语音机器人与用户的语音交互效果。
请参阅图1,图1是本发明提供的一种意图识别方法的流程图,如图1所示,所述方法包括:
S1、创建1个通用模型和N个专家模型,
其中,所述通用模型用于识别大的意图类别中的通用意图,所述专家模型用于识别通用意图下的子意图。
例如,在一种意图分类中包含100个通用意图,为了区分相似的通用意图,使意图分类更为精确,可以对相似的通用意图进一步进行分类,得到通用意图下的子意图。具体的,以天气基本信息问答和天气相关应用场景问答两种通用意图为例,可以进一步将天气基本信息问答分为天气情况问答和空气质量问答两个子意图,将天气相关应用场景问答分为旅游场景问答、晾晒场景问答、防晒场景问答、运动场景问答四个子意图。在这种情况下,通用模型用于识别用户意图属于天气基本信息问答还是天气相关应用场景问答,一个专家模型用于识别用户意图属于天气情况问答还是空气质量问答子意图,另一个专家模型用于识别用户意图属于旅游场景问答、晾晒场景问答、防晒场景问答、运动场景问答中的哪一个子意图。
在一种示例中,采集用户历史语料和对应的意图数据作为意图训练集,通过所述意图训练集训练所述通用模型,完成对通用模型的创建。然后将训练后的通用模型的参数作为N个专家模型的初始化参数;对于第i个专家模型,采集用户第i类通用意图的历史语料和对应的子意图数据作为第i专家模型的训练集;通过所述第i专家模型的训练集训练第i专家模型。为了防止专家模型过拟合的问题,所述第i专家模型的训练集还包括除了第i类通用意图的历史语料以外的随机语料和所述随机语料对应的意图数据。
本发明中,所述通用模型和所述专家模型优选为基于变换器的双向编码表征BERT模型。其中,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器。其中,所述分类器可以采用决策树模型、朴素贝叶斯模型、Logistic分类器、支持向量机分类器等,本发明不作具体限定。
图2示出了BERT模型的结构。其中,BERT模型本质上是由双向Transformer组成的语言模型。BERT模型可以包含12层Transformer(BERT-base模型),也可以包含24层Transformer(BERT-lager模型)。即:N可以取12,也可以取24。 在图2中,BERT模型包括顺次堆叠设置的N层结构相同的特征编码器Trm,并且每层特征编码器Trm都连接一个分类器Fr。其中,所述特征编码器指的是Transformer的encoder。E表示词的embedding,T表示经过BERT模型编码后每个词的新的特征表示,F表示与每层的特征编码器连接的分类器。
待识别文本输入BERT模型后,将所述待识别文本依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器,得到所述第i层意图识别结果;判断所述第i层意图识别结果是否满足意图识别要求。具体可以计算所述第i层意图识别结果的信息熵S,当第i层意图识别结果的信息熵S小于预设值,确定所述第i层意图识别结果是否满足意图识别要求。其中,所述预设值可以根据BERT模型的精度要求进行设置。若所述第i层意图识别结果不满足意图识别要求,对所述第i层意图识别结果进行第i+1层意图识别,直至当前层意图识别结果满足意图识别要求,将所述当前层意图识别结果作为所述待识别文本的意图输出,并删除所述待识别文本。
本发明的BERT模型从最底层的特征编码器及与该特征编码器连接的分类器开始逐层进行意图识别;当每层意图识别完成后,判断该层意图识别结果是否满足意图识别要求。若满足,则无需进入下一层意图识别,直接输出该层意图识别结果,结束当前文本的意图识别,从而有效提高模型的意图识别速度,避免在用户与语音机器人的交互中出现语音机器人回答速度慢,用户等待时间久的现象,提升语音机器人与用户的语音交互效果。
此外,由于BERT模型采用多层Transformer对文本进行双向学习,且Transformer采用一次性读取方式对文本进行读取,因此可以更准确地学习到文本中词之间的上下文关系,对语境的理解更加深刻,即双向训练的语言模型对语境的理解会比单向的语言模型更深刻,从而能够准确地对文本进行处理,因此,BERT模型相较于处理自然语言理解任务的其他模型而言,具有更好的任务处理效果。
S2、将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,
其中,PT为通用模型输出的意图概率识别序列,PSi为第i个专家模型输出的意图概率识别序列;即PT是待识别文本被识别为每类通用意图的概率识别序列,PSi是待识别文本被识别为第i个通用意图下的各个子意图的概率识别序列。其中,i=1、2…N。
在本步骤之前,可以先将采集的用户音频数据进行处理,比如,先通过ASR技术将用户音频数据转换为文本数据;再通过word2vec模型将所述文本数据转换为词向量,最后将所述词向量作为待识别文本分别输入所述通用模型和N个专家模型中。
S3、将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,得到归一化的意图概率识别序列;
本发明中,通用模型和N个专家模型所能识别出来的意图种类有可能是相同的。所述相同意图对应的意图概率是指通用模型或专家模型将待识别文本的意图识别为同一意图类别的概率。具体归一化处理可通过如下公式:
其中,Ri为归一化处理后的意图概率,Pi为意图概率识别序列PT和PSi中相同的意图概率,N为专家模型的数量。
例如图3中,***创建了1个通用模型T和三个专家模型S1、S2和S3。其中,通用模型T能够识别P1~P10共10个意图,第一专家模型S1能够识别P2~P4共3个意图,第二专家模型S2能够识别P3、P5~P7、P10共5个意图,第三专家模型S3能够识别P1~P4、P6~P7共6个意图。待识别文本W1输入通用模型T后输出意图概率识别序列pT1~pT10;其中,pTi分别对应通用模型识别P1~P10意图的识别概率,待识别文本W1输入第一专家模型S1后输出意图概率识别序列p1S2~p1S4;其中,p1Si分别对应第一专家模型S1识别P2~P4意图的识别概率,待识别文本W1输入第二专家模型S2后输出意图概率识别序列p2S3、p2S5~p2S7、p2S10;其中,p2Si分别对应第二专家模型S2识别P3、P5~P7、P10意图的识别概率,待识别文本W1输入第三专家模型S3后输出意图概率识别序列p3S1~p3S4、p3S6~p3S7;其中,p3Si分别对应第三专家模型S3识别P1~P4、P6~P7意图的识别概率。则进行归一化处理后,意图类别为P1的归一化意图概率R1=pT1+p3S1/4;意图类别为P2的归一化意图概率R2=pT2+p1S2+p3S2/4;意图类别为P3的归一化意图概率R3=pT3+p1S3+p2S3+p2S3/4;以此类推,最终得到归一化意图概率识别序列Ri。
需要说明的是,本步骤中,若存在通用模型或者专家模型中唯一识别的意图概率,即该意图在其他模型中不存在,或者该意图在其他模型中识别出的意图概率为0,则在归一化过程中,直接将该唯一识别的意图概率作为归一化的意图概率即可。
S4、将所述归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出;
具体的,将归一化的意图概率识别序列中每个意图类别的归一化意图识别概率进行比较,将最大的归一化意图识别概率对应的意图类别作为待识别文本的意图输出。
图4是本发明一种意图识别装置的架构示意图,如图4所示,所述装置包括:
创建模块41,用于创建1个通用模型和N个专家模型,其中,所述通用模型用于识别通用意图,所述专家模型用于识别通用意图下的子意图;
输入模块42,用于将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,其中,PT为通用模型输出的意图概率识别序列,PSi为第i个专家模型输出的意图概率识别序列;
归一化模块43,用于将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,得到归一化的意图概率识别序列;
输出模块44,用于将所述归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出;
其中,i=1、2、…N。
在一种具体实施方式中,所述创建模块41包括:
第一采集模块,用于采集用户历史语料和对应的意图数据作为意图训练集;
第一训练模块,用于通过所述意图训练集训练所述通用模型;
初始化模块,用于将训练后的所述通用模型的参数作为所述N个专家模型的初始化参数;
第二采集模块,用于采集用户第i类通用意图的历史语料和对应的子意图数据作为第i专家模型的训练集;
第二训练模块,用于通过所述第i专家模型的训练集训练第i专家模型。
进一步的,所述第二采集模块还用于采集除了第i类通用意图的历史语料以外的随机语料和所述随机语料对应的意图数据。
在一种优选的实施方式中,所述装置还包括:
采集模块,用于采集用户音频数据;
第一转换模块,用于将所述用户音频数据转换为文本数据;
第二转换模块,用于将所述文本数据转换为词向量;
确定模块,用于将所述词向量作为待识别文本。
优选的,所述通用模型和所述专家模型为基于变换器的双向编码表征BERT模型。所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图5是根据本发明的一种电子设备的示例性实施例的结构框图。图5显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,该示例性实施例的电子设备500以通用数据处理设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同电子设备组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元520存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元510执行,使得所述处理单元510执行本发明各种实施方式的步骤。例如,所述处理单元510可以执行如图1所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子设备500交互,和/或使得该电子设备500能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口550进行,还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图5中未示出,电子设备500中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。
图6是本发明的一个计算机可读介质实施例的示意图。如图6所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:创建1个通用模型和N个专家模型,其中,所述通用模型用于识别通用意图,所述专家模型用于识别通用意图下的子意图;将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,其中,PT为通用模型输出的意图概率识别序列,PSi为第i个专家模型输出的意图概率识别序列;将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,得到归一化的意图概率识别序列;将所述归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出;其中,i=1、2、…N。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等,还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种意图识别方法,其特征在于,所述方法包括:
创建1个通用模型和N个专家模型,其中,所述通用模型用于识别通用意图,所述专家模型用于识别通用意图下的子意图;
将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,其中,PT为通用模型输出的意图概率识别序列,PSi为第i个专家模型输出的意图概率识别序列;
将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,得到归一化的意图概率识别序列;
将所述归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出;
其中,i=1、2、…N。
2.根据权利要求1所述的方法,其特征在于,所述创建1个通用模型和N个专家模型包括:
采集用户历史语料和对应的意图数据作为意图训练集;
通过所述意图训练集训练所述通用模型;
将训练后的所述通用模型的参数作为所述N个专家模型的初始化参数;
采集用户第i类通用意图的历史语料和对应的子意图数据作为第i专家模型的训练集;
通过所述第i专家模型的训练集训练第i专家模型。
3.根据权利要求2所述的方法,其特征在于,所述第i专家模型的训练集还包括除了第i类通用意图的历史语料以外的随机语料和所述随机语料对应的意图数据。
4.根据权利要求1所述的方法,其特征在于,所述将待识别文本分别输入所述通用模型和N个专家模型之前,所述方法还包括:
采集用户音频数据;
将所述用户音频数据转换为文本数据;
将所述文本数据转换为词向量;
将所述词向量作为待识别文本。
5.根据权利要求1所述的方法,其特征在于,所述通用模型和所述专家模型为基于变换器的双向编码表征BERT模型。
6.根据权利要求5所述的方法,其特征在于,所述BERT模型包括N层特征编码器,且每层特征编码器分别连接一个分类器。
7.一种意图识别装置,其特征在于,所述装置包括:
创建模块,用于创建1个通用模型和N个专家模型,其中,所述通用模型用于识别通用意图,所述专家模型用于识别通用意图下的子意图;
输入模块,用于将待识别文本分别输入所述通用模型和N个专家模型中,得到意图概率识别序列PT和PSi,其中,PT为通用模型输出的意图概率识别序列,PSi为第i个专家模型输出的意图概率识别序列;
归一化模块,用于将意图概率识别序列PT和PSi中相同意图对应的意图概率进行归一化处理,得到归一化的意图概率识别序列;
输出模块,用于将所述归一化的意图概率识别序列中概率最大的意图作为所述待识别文本的意图输出;
其中,i=1、2、…N。
8.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200664.4A CN112101044B (zh) | 2020-11-02 | 2020-11-02 | 一种意图识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200664.4A CN112101044B (zh) | 2020-11-02 | 2020-11-02 | 一种意图识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101044A true CN112101044A (zh) | 2020-12-18 |
CN112101044B CN112101044B (zh) | 2021-11-12 |
Family
ID=73785850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011200664.4A Active CN112101044B (zh) | 2020-11-02 | 2020-11-02 | 一种意图识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101044B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767928A (zh) * | 2021-02-22 | 2021-05-07 | 百果园技术(新加坡)有限公司 | 一种语音理解方法、装置、设备及介质 |
CN113569918A (zh) * | 2021-07-05 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 分类温度调节方法、装置、电子设备及介质 |
CN113569578A (zh) * | 2021-08-13 | 2021-10-29 | 上海淇玥信息技术有限公司 | 一种用户意图识别方法、装置和计算机设备 |
CN115168563A (zh) * | 2022-09-05 | 2022-10-11 | 深圳市华付信息技术有限公司 | 一种基于意图识别的机场服务引导方法、***及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763510A (zh) * | 2018-05-30 | 2018-11-06 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
US20190080687A1 (en) * | 2017-09-13 | 2019-03-14 | Hitachi, Ltd. | Learning-type interactive device |
CN109635105A (zh) * | 2018-10-29 | 2019-04-16 | 厦门快商通信息技术有限公司 | 一种中文文本多意图识别方法及*** |
CN109815314A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种意图识别方法、识别设备及计算机可读存储介质 |
CN111708873A (zh) * | 2020-06-15 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN111832589A (zh) * | 2019-04-22 | 2020-10-27 | 北京京东尚科信息技术有限公司 | 一种多级分类对象的分类方法和装置 |
-
2020
- 2020-11-02 CN CN202011200664.4A patent/CN112101044B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080687A1 (en) * | 2017-09-13 | 2019-03-14 | Hitachi, Ltd. | Learning-type interactive device |
CN108763510A (zh) * | 2018-05-30 | 2018-11-06 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
CN109635105A (zh) * | 2018-10-29 | 2019-04-16 | 厦门快商通信息技术有限公司 | 一种中文文本多意图识别方法及*** |
CN109815314A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种意图识别方法、识别设备及计算机可读存储介质 |
CN111832589A (zh) * | 2019-04-22 | 2020-10-27 | 北京京东尚科信息技术有限公司 | 一种多级分类对象的分类方法和装置 |
CN111708873A (zh) * | 2020-06-15 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767928A (zh) * | 2021-02-22 | 2021-05-07 | 百果园技术(新加坡)有限公司 | 一种语音理解方法、装置、设备及介质 |
CN112767928B (zh) * | 2021-02-22 | 2024-04-16 | 百果园技术(新加坡)有限公司 | 一种语音理解方法、装置、设备及介质 |
CN113569918A (zh) * | 2021-07-05 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 分类温度调节方法、装置、电子设备及介质 |
CN113569578A (zh) * | 2021-08-13 | 2021-10-29 | 上海淇玥信息技术有限公司 | 一种用户意图识别方法、装置和计算机设备 |
CN113569578B (zh) * | 2021-08-13 | 2024-03-08 | 上海淇玥信息技术有限公司 | 一种用户意图识别方法、装置和计算机设备 |
CN115168563A (zh) * | 2022-09-05 | 2022-10-11 | 深圳市华付信息技术有限公司 | 一种基于意图识别的机场服务引导方法、***及装置 |
CN115168563B (zh) * | 2022-09-05 | 2022-12-20 | 深圳市华付信息技术有限公司 | 一种基于意图识别的机场服务引导方法、***及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112101044B (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560503B (zh) | 融合深度特征和时序模型的语义情感分析方法 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
Vashisht et al. | Speech recognition using machine learning | |
CN112101045B (zh) | 一种多模态语义完整性识别方法、装置及电子设备 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN110321418B (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN109992669B (zh) | 一种基于语言模型和强化学习的关键词问答方法 | |
CN107315737A (zh) | 一种语义逻辑处理方法及*** | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及*** | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN111651973A (zh) | 一种基于句法感知的文本匹配方法 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及*** | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN114863912B (zh) | 一种基于表面肌电信号的无声语音解码方法 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN113743095A (zh) | 基于词格和相对位置嵌入的中文问题生成统一预训练方法 | |
CN112287690A (zh) | 基于条件句子生成和跨模态重排的手语翻译方法 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及*** | |
Ge et al. | Transformative Advances in English Learning: Harnessing Neural Network-Based Speech Recognition for Proficient Communication | |
Gogoi et al. | Feature Extraction of Assamese Speech Based One Motion Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |