CN111292752B - 一种用户意图识别方法、装置、电子设备及存储介质 - Google Patents

一种用户意图识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111292752B
CN111292752B CN201811490105.4A CN201811490105A CN111292752B CN 111292752 B CN111292752 B CN 111292752B CN 201811490105 A CN201811490105 A CN 201811490105A CN 111292752 B CN111292752 B CN 111292752B
Authority
CN
China
Prior art keywords
text
voice recognition
category
sample
user intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811490105.4A
Other languages
English (en)
Other versions
CN111292752A (zh
Inventor
罗文娟
李奘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811490105.4A priority Critical patent/CN111292752B/zh
Publication of CN111292752A publication Critical patent/CN111292752A/zh
Application granted granted Critical
Publication of CN111292752B publication Critical patent/CN111292752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及数据处理技术领域,尤其涉及一种用户意图识别方法、装置、电子设备及存储介质,其中,所述方法包括:获取目标语音识别文本;从所述目标语音识别文本中提取文本特征向量;将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息。采用上述方案,通过训练出的用户意图识别模型进行用户意图的识别,避免了人工标注方式所带来的人力成本较高的问题,在降低人工成本的同时,确保识别的准确率。

Description

一种用户意图识别方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种用户意图识别方法、装置、电子设备及存储介质。
背景技术
随着人工智能、语音识别、自然语言处理和口语理解(Speech LanguageUnderstanding,SLU)技术的发展,应用型聊天机器人应运而生。应用型聊天机器人主要针对具体的任务,通过与用户的多轮语音交互获得完成任务所需的信息,最后完成用户指定的任务。例如,对于帮助用户订票这个任务,机器人需要从用户的语音输入文本中识别出用户的订票意图。
相关技术中的用户意图识别方法通常需要依赖大量的意图标注数据,也即,通过人工方式对获取的用户的语音输入文本进行意图标注,并基于意图标注后的语音输入文本进行意图识别模型的训练以实现用户意图识别。
然而,相关采用人工标注方式实现用户意图识别的方法,需要耗费大量的人力成本。
发明内容
有鉴于此,本申请实施例的目的在于提供一种用户意图识别方法、装置、电子设备及存储介质,用以在降低人工成本的同时,确保识别的准确率。
主要包括以下几个方面:
第一方面,本申请实施例提供了一种用户意图识别方法,所述方法包括:
获取目标语音识别文本;
从所述目标语音识别文本中提取文本特征向量;
将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息。
在一种实施方式中,根据以下步骤确定目标语音识别文本:
响应于获取到的用户语音,确定所述用户语音对应的参考语音识别文本;
将确定的参考语音识别文本输入至语音搜索引擎中,得到所述参考语音识别文本对应的目标语音识别文本。
在另一种实施方式中,从所述目标语音识别文本中提取文本特征向量,包括:
对所述目标语音识别文本进行顺序划分,得到多个目标语音识别子文本;
依次将各个目标语音识别子文本输入至预先训练的向量转换模型中,得到与每个目标语音识别子文本对应的文本特征向量;
将所有目标语音识别子文本对应的文本特征向量组合为所述目标语音识别文本的文本特征向量。
在又一种实施方式中,根据如下步骤训练所述用户意图识别模型:
获取样本语音识别文本集;
针对所述样本语音识别文本集中的每个样本语音识别文本,提取该样本语音识别文本的文本特征向量,并确定与该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息;
将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型。
在一些实施例中,在获取样本语音识别文本集之后,确定与该样本语音识别文本对应的用户意图类别的类别特征向量之前,还包括:
针对所述样本语音识别文本集中的每个样本语音识别文本,确定该样本语音识别文本对应的用户意图类别;
确定与每个用户意图类别对应的样本语音识别文本子集,所述样本语音识别文本子集包括至少一个样本语音识别文本;
针对每个样本语音识别文本子集,根据该样本语音识别文本子集包括的至少一个样本语音识别文本的文本特征向量,确定该样本语音识别文本子集对应的用户意图类别的类别特征向量;
确定与该样本语音识别文本对应的用户意图类别的类别特征向量,包括:
将确定的该样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本子集包括的任一样本语音识别文本对应的用户意图类别的类别特征向量。
在一些实施例中,在获取样本语音识别文本集之后,确定与该样本语音识别文本对应的用户意图类别的类别特征向量之前,还包括:
针对任一样本语音识别文本,按照预设文本搜索策略对该样本语音识别文本进行搜索,得到扩展后的样本语音识别文本子集,扩展后的样本语音识别文本子集中的样本语音识别文本对应的用户意图类别与所述任一样本语音识别文本对应的用户意图类别相同;
确定扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量;
确定与该样本语音识别文本对应的用户意图类别的类别特征向量,包括:
将确定的扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本对应的用户意图类别的类别特征向量。
在再一种实施方式中,将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型,包括:
确定各个用户意图类别的初始类别特征向量;
针对所述样本语音识别文本集中的每个样本语音识别文本,基于该样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息;
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,直至利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
在一些实施例中,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,包括:
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和在该用户意图类别下的意图信息;
确定计算得到的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量,并基于所述差值向量对所述关注度信息进行调整;
循环执行将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用调整后的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和对应的意图信息,直至在确定的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
第二方面,本申请实施例还提供了一种用户意图识别装置,所述装置包括:
目标获取模块,用于获取目标语音识别文本;
向量提取模块,用于从所述目标语音识别文本中提取文本特征向量;
意图识别模块,用于将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息。
在一种实施方式中,所述目标获取模块,具体用于:
响应于获取到的用户语音,确定所述用户语音对应的参考语音识别文本;
将确定的参考语音识别文本输入至语音搜索引擎中,得到所述参考语音识别文本对应的目标语音识别文本。
在另一种实施方式中,所述向量提取模块,具体用于:
对所述目标语音识别文本进行顺序划分,得到多个目标语音识别子文本;
依次将各个目标语音识别子文本输入至预先训练的向量转换模型中,得到与每个目标语音识别子文本对应的文本特征向量;
将所有目标语音识别子文本对应的文本特征向量组合为所述目标语音识别文本的文本特征向量。
在又一种实施方式中,还包括模型训练模块,所述模型训练模块包括:
样本获取单元,用于获取样本语音识别文本集;
类别确定单元,用于针对所述样本语音识别文本集中的每个样本语音识别文本,提取该样本语音识别文本的文本特征向量,并确定与该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息;
模型训练单元,用于将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型。
在一些实施例中,所述类别确定单元,具体用于:
针对所述样本语音识别文本集中的每个样本语音识别文本,确定该样本语音识别文本对应的用户意图类别;
确定与每个用户意图类别对应的样本语音识别文本子集,所述样本语音识别文本子集包括至少一个样本语音识别文本;
针对每个样本语音识别文本子集,根据该样本语音识别文本子集包括的至少一个样本语音识别文本的文本特征向量,确定该样本语音识别文本子集对应的用户意图类别的类别特征向量;
将确定的该样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本子集包括的任一样本语音识别文本对应的用户意图类别的类别特征向量。
在一些实施例中,所述类别确定单元,具体用于:
针对任一样本语音识别文本,按照预设文本搜索策略对该样本语音识别文本进行搜索,得到扩展后的样本语音识别文本子集,扩展后的样本语音识别文本子集中的样本语音识别文本对应的用户意图类别与所述任一样本语音识别文本对应的用户意图类别相同;
确定扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量;
将确定的扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本对应的用户意图类别的类别特征向量。
在再一种实施方式中,所述模型训练单元,具体用于:
确定各个用户意图类别的初始类别特征向量;
针对所述样本语音识别文本集中的每个样本语音识别文本,基于该样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息;
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,直至利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
在一些实施例中,所述模型训练单元,具体用于:
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和在该用户意图类别下的意图信息;
确定计算得到的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量,并基于所述差值向量对所述关注度信息进行调整;
循环执行将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用调整后的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和对应的意图信息,直至在确定的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如第一方面所述的用户意图识别方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面所述的用户意图识别方法的步骤。
采用上述方案,将样本语音识别文本的文本特征向量,以及该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为用户意图识别模型的输入和输出,预先进行用户意图识别模型的训练,这样,可以基于预先训练到的用户意图识别模型,自动识别目标语音识别文本对应的用户意图。也即,本申请实施例通过训练出的用户意图识别模型进行用户意图的识别,避免了人工标注方式所带来的人力成本较高的问题,在降低人工成本的同时,确保识别的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例一所提供的一种用户意图识别方法的流程图;
图2示出了本申请实施例一所提供的一种用户意图识别方法的应用示意图;
图3示出了本申请实施例二所提供的一种用户意图识别方法的流程图;
图4示出了本申请实施例二所提供的另一种用户意图识别方法的流程图;
图5示出了本申请实施例四所提供的一种用户意图识别装置的结构示意图;
图6示出了本申请实施例五所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到相关采用人工标注方式实现用户意图识别的方法,需要耗费大量的人力。有鉴于此,本申请实施例提供了一种用户意图识别方法,该方法可以应用于音乐搜索技术领域,还可以网络订票技术领域,还可以应用于其他技术领域。接下来通过几个实施例进行具体的说明。
实施例一
如图1所示,为本申请实施例一提供的一种用户意图识别方法的流程示意图,该用户意图识别方法的执行主体可以是电子设备,如私有设备、运营商网络设备(例如,基站设备),也可以是一定行业组织、团体和个人部署的站点(Station)等,具体而言,可以包括但不限于移动台、移动终端、移动电话、用户设备、手机及便携设备(portable equipment)、车辆(vehicle)等,例如,终端设备可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等,终端设备还可以是便携式、袖珍式、手持式、计算机内置或者车载移动装置。上述用户意图识别方法具体包括如下步骤:
S101、获取目标语音识别文本。
这里,目标语音识别文本可以是对用户语音进行语音识别后得到的文本。本申请实施例中,可以采用语音识别***对用户语音进行语音识别,也即,可以通过特征参数提取单元对用户语音进行分析处理,把丰富的语音信息中的冗余信息去除,获取对语音识别有用的信息,再根据模式匹配及模型训练单元对上述获取的信息进行识别以得到语音识别文本。
考虑到现有的语音识别***对环境比较敏感,针对一个场景通常需要进行针对性的语音训练,而且识别得到的语音识别文本通常夹杂有各种噪音,因此,本申请实施例在经过语音识别***进行语音识别得到参考语音识别文本后,可以基于有关的语音搜索引擎,对识别得到的参考语音识别文本进行校准,以得到上述目标语音识别文本。
其中,本申请实施例可以基于语音识别得到的参考语音识别文本与语音搜索引擎所采用的数据库中的各目标语音识别文本之间的文本匹配度来确定与上述参考语音识别文本对应的目标语音识别文本,这样,即使在语音识别阶段存在噪声干扰,本申请实施例仍然可以基于匹配度进行准确的语音搜索。如在进行语音识别时,将陈某迅的浮夸识别成了陈某军的浮夸,在经过语音搜索引擎进行语音搜索后,仍可以反馈正确的语音识别文本,也即,陈某迅的浮夸。
S102、从所述目标语音识别文本中提取文本特征向量。
这里,在获取到目标语音识别文本后,可以基于数字化的方法,如word2vec,将作为自然语言的目标语音识别文本转化为数字形式的文本特征向量,以便于机器识别,此过程称为编码(Encoder)。
考虑到上述目标语音识别文本是由多个词汇组成的,本申请实施例在进行文本特征向量的提取时,可以先进行文本划分,再基于划分结果和预先训练的向量转换模型确定对应的文本特征向量。本申请实施例中,可以首先对目标语音识别文本进行顺序划分,得到多个目标语音识别子文本,然后依次将各个目标语音识别子文本输入至预先训练的向量转换模型中,得到与每个目标语音识别子文本对应的文本特征向量,最后将所有目标语音识别子文本对应的文本特征向量组合为目标语音识别文本的文本特征向量。
本申请实施例中可以采用一次性表示(One-hot Representation)的向量转换模型,还可以采用分布式表示(Distributed Representation)的向量转换模型,还可以采用其他能够将文本转换为向量的向量转换模型。其中,前一种向量转换模型可以用一个很长的向量来表示一个词,向量长度为词典的词量大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典中的位置。也即,前一种向量转换模型是采用稀疏方式存储词信息,也就是给每个词分配一个数字标识,表示形式相对简洁。后一种向量转换模型则需要根据上下文信息进行语义表示,也即,相同语境出现的词,其语义也相近。也即,后一种向量转换模型是采用稠密方式存储词信息,表示形式相对复杂。考虑到前一种基于One-hot Representation的向量转换模型在解决实际问题时经常会遇到维数灾难,且无法揭示词汇之间的潜在联系,在实际实施中可以采用后一种基于DistributedRepresentation的向量转换模型对目标语音识别文本进行向量表示,不但避免维数灾难问题,并且挖掘了词汇之间的关联属性,从而提高了语义表达的准确度。
S103、将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息。
这里,用户意图识别模型可以是预先训练的,本申请实施例可以采用神经网络模型作为用户意图识别模型,模型训练阶段也就是训练神经网络模型中一些未知的参数信息的过程。之后,就可以基于该用户意图识别模型进行目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息的识别了,此时只需要将从目标语音识别文本提取出的文本特征向量输入到训练好的用户意图识别模型中即可。
为了便于对本申请实施例提供的用户意图识别方法进行理解,接下来结合图2进行具体说明。
如图2所示,针对“从北京到上海”这一目标语音识别文本而言,在对该目标语音识别文本进行文本划分后,得到从、北京、到、上海这四个词汇,每个词汇均作为一个目标语音识别子文本。X1,X2,X3,X4是与上述四个目标语音识别子文本对应的文本特征向量。s,c1,c2,c3,c4即是模型训练中的参数信息,h1,h2,h3,h4用于表示模型训练过程中有关隐藏层的输出。这样,在将X1,X2,X3,X4作为文本特征向量输入至训练好的用户意图识别模型后,将会得到与“从北京到上海”这一目标语音识别文本对应的用户意图类别,也即“飞行”,以及在“飞行”这一用户意图类别下的意图信息“北京”和“上海”。
本申请实施例中,上述用户意图识别模型的训练过程是本申请实施例提供的用户意图识别方法的关键步骤。接下来通过如下实施例二对上述用户意图识别模型的训练过程进行具体说明。
实施例二
如图3所示,为本申请实施例提供的一种训练用户意图识别模型的方法流程图,该方法具体通过如下步骤实现:
S301、获取样本语音识别文本集;
S302、针对所述样本语音识别文本集中的每个样本语音识别文本,提取该样本语音识别文本的文本特征向量,并确定与该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息;
S303、将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型。
这里,在用户意图识别模型训练阶段,可以将样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为输出,训练得到用户意图识别模型的参数信息,也即得到训练好的用户意图识别模型。
本申请实施例中,上述用户意图识别模型可以将一个输入文本映射为一个输出类别和该类别下的意图信息。本申请实施例可以采用双向循环神经网络(Recurrent NeuralNetworks,RNN)进行模型训练。也即,本申请实施例采用双向RNN网络通过反复迭代学习,逐渐掌握各种基础知识,并最终学习到如何根据样本语音识别文本得到与样本语音识别文本对应的用户意图类别和该用户意图类别下的意图信息。
其中,与上述目标语音识别文本类似的是,样本语音识别文本集中的每个样本语音识别文本也可以是基于对样本用户的语音进行识别和校准后得到的,这样,能够确保任一样本语音识别文本均是正确的文本。与此对应的是,样本语音识别文本中文本特征向量的提取过程与上述目标语音识别文本中文本特征向量的提取过程类似,在此不在赘述。在进行用户意图识别模型的训练之前,本申请实施例可以预先确认与样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息,这样,基于上述样本语音识别文本的文本特征向量、以及该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息便可以进行用户意图识别模型的训练了,参见图4所示的模型训练的具体实现方法,包括如下步骤:
S401、确定各个用户意图类别的初始类别特征向量;
S402、针对所述样本语音识别文本集中的每个样本语音识别文本,基于该样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息;
S403、针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,直至利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
这里,本申请实施例提供的用户意图识别方法可以首先确定各个用户意图类别的初始类别特征向量,然后基于样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息,最后将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮用户意图识别模型的训练,以训练得到用户意图识别模型。
在整个模型训练的过程中,本申请实施例考虑了各个用户意图类别对任一样本语音识别文本的影响,也即,对于任一样本语音识别文本而言,与该样本语音识别文本对应的用户意图类别越匹配,对应的关注度也越高。这样,经过有选择的注意力机制,在样本语音识别文本被错误标注时,将有效的降低对错误标注类别的样本语音识别文本的关注度,而被正确标注类别的样本语音识别文本对应的关注度却越高,从而能够进一步提升用户意图识别的准确率。
其中,有关样本语音识别文本与任一用户意图类别之间的关注度信息可以基于如下公式确定:
Figure BDA0001895481290000151
其中,αi用于表示样本语音识别文本与任一用户意图类别之间的关注度信息,ei用于表示样本语音识别文本与任一用户意图类别之间的相似度,可以利用如下公式确定:
ei=xiAr   (2)
其中,xi用于表示样本语音识别文本的文本特征向量,r用于表示用户意图类别的类别特征向量,A用于表示加权对角矩阵。
综上,针对任一用户意图类别而言,在样本语音识别文本与该用户意图类别之间的相似度越大时,则该样本语音识别文本对该用户意图类别的关注度也就越高,最终训练好的用户意图识别模型的输出结果也会更倾向于该用户意图类别,且能够确定在该用户意图类别下的意图信息,意图识别的准确率较高。
本申请实施例中,可以经过至少一轮训练得到上述用户意图识别模型。也即,本申请实施例针对所述样本语音识别文本集中的每个样本语音识别文本,可以首先将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和在该用户意图类别下的意图信息,然后确定计算得到的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量,并基于所述差值向量对所述关注度信息进行调整,最后循环执行将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用调整后的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和对应的意图信息,直至在确定的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
这里,可以通过上一轮模型输出得到的类别特征向量不断的调整样本语音识别文本与各用户意图类别之间的关注度信息,该关注度信息可以认为是如图2所示的实现本申请实施例提供的用户意图识别方法的应用场景中,有关训练好的用户意图识别模型中的参数信息s,这样,在确定用户意图类别时,调整后的关注度信息可以参与到以文本粒度确定用户意图类别的模型训练中,在确定用户意图类别对应的意图信息时,调整后的关注度信息可以参与到以词汇粒度确定用户意图类别下的意图信息的模型训练中。可见,本申请实施例训练的用户意图识别模型不仅可以进行用户意图类别的识别,还可以实现特定用户意图类别下意图信息的识别,实用性更佳。
本申请实施例中,有关样本语音识别文本对应的用户意图类别的类别特征向量的确定方式主要有两种,具体参见如下实施三所述。
实施例三
第一方面:针对所述样本语音识别文本集中的每个样本语音识别文本,本申请实施例可以首先确定该样本语音识别文本对应的用户意图类别,然后确定与每个用户意图类别对应的样本语音识别文本子集,所述样本语音识别文本子集包括至少一个样本语音识别文本,并针对每个样本语音识别文本子集,根据该样本语音识别文本子集包括的至少一个样本语音识别文本的文本特征向量,确定该样本语音识别文本子集对应的用户意图类别的类别特征向量,最后将确定的该样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本子集包括的任一样本语音识别文本对应的用户意图类别的类别特征向量。
另一方面:针对任一样本语音识别文本,本申请实施例可以首先按照预设文本搜索策略对该样本语音识别文本进行搜索,得到扩展后的样本语音识别文本子集,扩展后的样本语音识别文本子集中的样本语音识别文本对应的用户意图类别与所述任一样本语音识别文本对应的用户意图类别相同,然后确定扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量,最后将确定的扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本对应的用户意图类别的类别特征向量。
特举如下示例对上述样本扩展进行说明:
例如,在音乐知识图谱这一应用领域,获取到的样本语音识别文本比较有限。在样本语音识别文本为“我要听ABC的X歌”时,可以将该样本语音识别文本输入至文字搜索引擎中,得到的搜索结果可以是“现场版ABC的X歌”,还可以是来一首ABC的歌等等,且上述搜索结果对应的用户类别与上述“我要听ABC的X歌”的用户意图类别相同,从而很大程度的实现了样本语音识别文本的扩展,实用性更佳。
基于上述实施例,本申请还提供了一种用户意图识别装置,下述各种装置的实施可以参见上述方法的实施,重复之处不再赘述。
实施例四
如图5所示,为本申请实施例四提供的用户意图识别装置,所述装置包括:
目标获取模块501,用于获取目标语音识别文本;
向量提取模块502,用于从所述目标语音识别文本中提取文本特征向量;
意图识别模块503,用于将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息。
在一种实施方式中,所述目标获取模块501,具体用于:
响应于获取到的用户语音,确定所述用户语音对应的参考语音识别文本;
将确定的参考语音识别文本输入至搜索引擎中,得到所述参考语音识别文本对应的目标语音识别文本。
在另一种实施方式中,所述向量提取模块502,具体用于:
对所述目标语音识别文本进行顺序划分,得到多个目标语音识别子文本;
依次将各个目标语音识别子文本输入至预先训练的向量转换模型中,得到与每个目标语音识别子文本对应的文本特征向量;
将所有目标语音识别子文本对应的文本特征向量组合为所述目标语音识别文本的文本特征向量。
在又一种实施方式中,还包括模型训练模块504,所述模型训练模块504包括:
样本获取单元,用于获取样本语音识别文本集;
类别确定单元,用于针对所述样本语音识别文本集中的每个样本语音识别文本,提取该样本语音识别文本的文本特征向量,并确定与该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息;
模型训练单元,用于将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型。
在一些实施例中,所述类别确定单元,具体用于:
针对所述样本语音识别文本集中的每个样本语音识别文本,确定该样本语音识别文本对应的用户意图类别;
确定与每个用户意图类别对应的样本语音识别文本子集,所述样本语音识别文本子集包括至少一个样本语音识别文本;
针对每个样本语音识别文本子集,根据该样本语音识别文本子集包括的至少一个样本语音识别文本的文本特征向量,确定该样本语音识别文本子集对应的用户意图类别的类别特征向量;
将确定的该样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本子集包括的任一样本语音识别文本对应的用户意图类别的类别特征向量。
在一些实施例中,所述类别确定单元,具体用于:
针对任一样本语音识别文本,按照预设文本搜索策略对该样本语音识别文本进行搜索,得到扩展后的样本语音识别文本子集,扩展后的样本语音识别文本子集中的样本语音识别文本对应的用户意图类别与所述任一样本语音识别文本对应的用户意图类别相同;
确定扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量;
将确定的扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本对应的用户意图类别的类别特征向量。
在再一种实施方式中,所述模型训练单元,具体用于:
确定各个用户意图类别的初始类别特征向量;
针对所述样本语音识别文本集中的每个样本语音识别文本,基于该样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息;
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,直至利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
在一些实施例中,所述模型训练单元,具体用于:
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和在该用户意图类别下的意图信息;
确定计算得到的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量,并基于所述差值向量对所述关注度信息进行调整;
循环执行将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用调整后的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和对应的意图信息,直至在确定的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
实施例五
如图6所示,为本申请实施例五所提供的一种电子设备的结构示意图,包括:处理器601、存储介质602和总线603,所述存储介质602存储有所述处理器601可执行的机器可读指令,当电子设备运行时,所述处理与所述存储介质602之间通过总线603通信,所述机器可读指令被所述处理器601执行时执行如下处理:
获取目标语音识别文本;
从所述目标语音识别文本中提取文本特征向量;
将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息。
在一种实施方式中,上述处理器601执行的处理中,根据以下步骤确定目标语音识别文本:
响应于获取到的用户语音,确定所述用户语音对应的参考语音识别文本;
将确定的参考语音识别文本输入至搜索引擎中,得到所述参考语音识别文本对应的目标语音识别文本。
在另一种实施方式中,上述处理器601执行的处理中,从所述目标语音识别文本中提取文本特征向量,包括:
对所述目标语音识别文本进行顺序划分,得到多个目标语音识别子文本;
依次将各个目标语音识别子文本输入至预先训练的向量转换模型中,得到与每个目标语音识别子文本对应的文本特征向量;
将所有目标语音识别子文本对应的文本特征向量组合为所述目标语音识别文本的文本特征向量。
在又一种实施方式中,上述处理器601执行的处理中,根据如下步骤训练所述用户意图识别模型:
获取样本语音识别文本集;
针对所述样本语音识别文本集中的每个样本语音识别文本,提取该样本语音识别文本的文本特征向量,并确定与该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息;
将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型。
在一些实施例中,上述处理器601执行的处理中,在获取样本语音识别文本集之后,确定与该样本语音识别文本对应的用户意图类别的类别特征向量之前,还包括:
针对所述样本语音识别文本集中的每个样本语音识别文本,确定该样本语音识别文本对应的用户意图类别;
确定与每个用户意图类别对应的样本语音识别文本子集,所述样本语音识别文本子集包括至少一个样本语音识别文本;
针对每个样本语音识别文本子集,根据该样本语音识别文本子集包括的至少一个样本语音识别文本的文本特征向量,确定该样本语音识别文本子集对应的用户意图类别的类别特征向量;
上述处理器601执行的处理中,确定与该样本语音识别文本对应的用户意图类别的类别特征向量,包括:
将确定的该样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本子集包括的任一样本语音识别文本对应的用户意图类别的类别特征向量。
在一些实施例中,上述处理器601执行的处理中,在获取样本语音识别文本集之后,确定与该样本语音识别文本对应的用户意图类别的类别特征向量之前,还包括:
针对任一样本语音识别文本,按照预设文本搜索策略对该样本语音识别文本进行搜索,得到扩展后的样本语音识别文本子集,扩展后的样本语音识别文本子集中的样本语音识别文本对应的用户意图类别与所述任一样本语音识别文本对应的用户意图类别相同;
确定扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量;
上述处理器601执行的处理中,确定与该样本语音识别文本对应的用户意图类别的类别特征向量,包括:
将确定的扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本对应的用户意图类别的类别特征向量。
在再一种实施方式中,上述处理器601执行的处理中,将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型,包括:
确定各个用户意图类别的初始类别特征向量;
针对所述样本语音识别文本集中的每个样本语音识别文本,基于该样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息;
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,直至利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
在一些实施例中,上述处理器601执行的处理中,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,包括:
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和在该用户意图类别下的意图信息;
确定计算得到的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量,并基于所述差值向量对所述关注度信息进行调整;
循环执行将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用调整后的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和对应的意图信息,直至在确定的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
实施例六
本申请实施例六还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述实施例所对应的用户意图识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述用户意图识别方法,从而解决目前用户意图识别人力成本较高的问题,达到在降低人工成本的同时,确保识别的准确率的效果。
基于相同的技术构思,本申请实施例还提供了一种计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行上述用户意图识别方法的步骤,具体实现可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (18)

1.一种用户意图识别方法,其特征在于,所述方法包括:
获取目标语音识别文本;
从所述目标语音识别文本中提取文本特征向量;
将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息;所述用户意图识别模型是基于每个样本语音识别文本的文本特征向量以及每个样本语音识别文本与每个用户意图类别之间的关注度信息,训练得到的;针对于每一个样本语音识别文本,该样本语音识别文本与每个用户意图类别之间的关注度信息是基于该样本语音识别文本与任一用户意图类别之间的相似度确定的;
该样本语音识别文本与任一用户意图类别之间的相似度通过以下公式确定:
ei=xiAr;
其中,xi用于表示样本语音识别文本的文本特征向量,r用于表示用户意图类别的类别特征向量,A用于表示加权对角矩阵。
2.根据权利要求1所述的方法,其特征在于,根据以下步骤确定目标语音识别文本:
响应于获取到的用户语音,确定所述用户语音对应的参考语音识别文本;
将确定的参考语音识别文本输入至语音搜索引擎中,得到所述参考语音识别文本对应的目标语音识别文本。
3.根据权利要求1所述的方法,其特征在于,从所述目标语音识别文本中提取文本特征向量,包括:
对所述目标语音识别文本进行顺序划分,得到多个目标语音识别子文本;
依次将各个目标语音识别子文本输入至预先训练的向量转换模型中,得到与每个目标语音识别子文本对应的文本特征向量;
将所有目标语音识别子文本对应的文本特征向量组合为所述目标语音识别文本的文本特征向量。
4.根据权利要求1所述的方法,其特征在于,根据如下步骤训练所述用户意图识别模型:
获取样本语音识别文本集;
针对所述样本语音识别文本集中的每个样本语音识别文本,提取该样本语音识别文本的文本特征向量,并确定与该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息;
将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型。
5.根据权利要求4所述的方法,其特征在于,在获取样本语音识别文本集之后,确定与该样本语音识别文本对应的用户意图类别的类别特征向量之前,还包括:
针对所述样本语音识别文本集中的每个样本语音识别文本,确定该样本语音识别文本对应的用户意图类别;
确定与每个用户意图类别对应的样本语音识别文本子集,所述样本语音识别文本子集包括至少一个样本语音识别文本;
针对每个样本语音识别文本子集,根据该样本语音识别文本子集包括的至少一个样本语音识别文本的文本特征向量,确定该样本语音识别文本子集对应的用户意图类别的类别特征向量;
确定与该样本语音识别文本对应的用户意图类别的类别特征向量,包括:
将确定的该样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本子集包括的任一样本语音识别文本对应的用户意图类别的类别特征向量。
6.根据权利要求4所述的方法,其特征在于,在获取样本语音识别文本集之后,确定与该样本语音识别文本对应的用户意图类别的类别特征向量之前,还包括:
针对任一样本语音识别文本,按照预设文本搜索策略对该样本语音识别文本进行搜索,得到扩展后的样本语音识别文本子集,扩展后的样本语音识别文本子集中的样本语音识别文本对应的用户意图类别与所述任一样本语音识别文本对应的用户意图类别相同;
确定扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量;
确定与该样本语音识别文本对应的用户意图类别的类别特征向量,包括:
将确定的扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本对应的用户意图类别的类别特征向量。
7.根据权利要求5或6所述的方法,其特征在于,将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型,包括:
确定各个用户意图类别的初始类别特征向量;
针对所述样本语音识别文本集中的每个样本语音识别文本,基于该样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息;该样本语音识别文本与每个用户意图类别之间的关注度信息是基于该样本语音识别文本与任一用户意图类别之间的相似度确定的;
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,直至利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
8.根据权利要求7所述的方法,其特征在于,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,包括:
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和在该用户意图类别下的意图信息;
确定计算得到的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量,并基于所述差值向量对所述关注度信息进行调整;
循环执行将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用调整后的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和对应的意图信息,直至在确定的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
9.一种用户意图识别装置,其特征在于,所述装置包括:
目标获取模块,用于获取目标语音识别文本;
向量提取模块,用于从所述目标语音识别文本中提取文本特征向量;
意图识别模块,用于将提取的文本特征向量输入至预先训练的用户意图识别模型中,确定与所述目标语音识别文本对应的用户意图类别和该用户意图类别下的意图信息;所述用户意图识别模型是基于每个样本语音识别文本的文本特征向量以及每个样本语音识别文本与每个用户意图类别之间的关注度信息,训练得到的;针对于每一个样本语音识别文本,该样本语音识别文本与每个用户意图类别之间的关注度信息是基于该样本语音识别文本与任一用户意图类别之间的相似度确定的;
该样本语音识别文本与任一用户意图类别之间的相似度通过以下公式确定:
ei=xiAr;
其中,xi用于表示样本语音识别文本的文本特征向量,r用于表示用户意图类别的类别特征向量,A用于表示加权对角矩阵。
10.根据权利要求9所述的装置,其特征在于,所述目标获取模块,具体用于:
响应于获取到的用户语音,确定所述用户语音对应的参考语音识别文本;
将确定的参考语音识别文本输入至语音搜索引擎中,得到所述参考语音识别文本对应的目标语音识别文本。
11.根据权利要求9所述的装置,其特征在于,所述向量提取模块,具体用于:
对所述目标语音识别文本进行顺序划分,得到多个目标语音识别子文本;
依次将各个目标语音识别子文本输入至预先训练的向量转换模型中,得到与每个目标语音识别子文本对应的文本特征向量;
将所有目标语音识别子文本对应的文本特征向量组合为所述目标语音识别文本的文本特征向量。
12.根据权利要求9所述的装置,其特征在于,还包括模型训练模块,所述模型训练模块包括:
样本获取单元,用于获取样本语音识别文本集;
类别确定单元,用于针对所述样本语音识别文本集中的每个样本语音识别文本,提取该样本语音识别文本的文本特征向量,并确定与该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息;
模型训练单元,用于将所述样本语音识别文本的文本特征向量作为待训练的用户意图识别模型的输入,将该样本语音识别文本对应的用户意图类别的类别特征向量和该用户意图类别下的意图信息作为待训练的用户意图识别模型的输出,训练得到所述用户意图识别模型。
13.根据权利要求12所述的装置,其特征在于,所述类别确定单元,具体用于:
针对所述样本语音识别文本集中的每个样本语音识别文本,确定该样本语音识别文本对应的用户意图类别;
确定与每个用户意图类别对应的样本语音识别文本子集,所述样本语音识别文本子集包括至少一个样本语音识别文本;
针对每个样本语音识别文本子集,根据该样本语音识别文本子集包括的至少一个样本语音识别文本的文本特征向量,确定该样本语音识别文本子集对应的用户意图类别的类别特征向量;
将确定的该样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本子集包括的任一样本语音识别文本对应的用户意图类别的类别特征向量。
14.根据权利要求12所述的装置,其特征在于,所述类别确定单元,具体用于:
针对任一样本语音识别文本,按照预设文本搜索策略对该样本语音识别文本进行搜索,得到扩展后的样本语音识别文本子集,扩展后的样本语音识别文本子集中的样本语音识别文本对应的用户意图类别与所述任一样本语音识别文本对应的用户意图类别相同;
确定扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量;
将确定的扩展后的样本语音识别文本子集对应的用户意图类别的类别特征向量作为该样本语音识别文本对应的用户意图类别的类别特征向量。
15.根据权利要求13或14所述的装置,其特征在于,所述模型训练单元,具体用于:
确定各个用户意图类别的初始类别特征向量;
针对所述样本语音识别文本集中的每个样本语音识别文本,基于该样本语音识别文本的文本特征向量和各个用户意图类别的初始类别特征向量,确定该样本语音识别文本与每个用户意图类别之间的关注度信息;该样本语音识别文本与每个用户意图类别之间的关注度信息是基于该样本语音识别文本与任一用户意图类别之间的相似度确定的;
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,进行至少一轮训练,直至利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
16.根据权利要求15所述的装置,其特征在于,所述模型训练单元,具体用于:
针对所述样本语音识别文本集中的每个样本语音识别文本,将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用确定的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和在该用户意图类别下的意图信息;
确定计算得到的类别特征向量以及确定的与该样本语音识别文本对应的用户意图类别的类别特征向量之间的差值向量,并基于所述差值向量对所述关注度信息进行调整;
循环执行将该样本语音识别文本的文本特征向量输入至待训练的用户意图识别模型中,利用调整后的关注度信息计算得到该样本语音识别文本对应的用户意图类别的类别特征向量和对应的意图信息,直至在确定的差值向量符合预设阈值要求时,停止循环,训练得到所述用户意图识别模型。
17.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至8任一所述的用户意图识别方法的步骤。
18.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的用户意图识别方法的步骤。
CN201811490105.4A 2018-12-06 2018-12-06 一种用户意图识别方法、装置、电子设备及存储介质 Active CN111292752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811490105.4A CN111292752B (zh) 2018-12-06 2018-12-06 一种用户意图识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811490105.4A CN111292752B (zh) 2018-12-06 2018-12-06 一种用户意图识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111292752A CN111292752A (zh) 2020-06-16
CN111292752B true CN111292752B (zh) 2023-05-12

Family

ID=71023065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811490105.4A Active CN111292752B (zh) 2018-12-06 2018-12-06 一种用户意图识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111292752B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116910A (zh) * 2020-10-30 2020-12-22 珠海格力电器股份有限公司 语音指令的识别方法和装置、存储介质、电子装置
CN112786041B (zh) * 2020-12-23 2023-11-24 光禹莱特数字科技(上海)有限公司 语音处理方法及相关设备
CN114694645A (zh) * 2020-12-31 2022-07-01 华为技术有限公司 一种确定用户意图的方法及装置
CN112988992B (zh) * 2021-02-08 2022-04-08 北京嘀嘀无限科技发展有限公司 一种信息交互方法、装置及电子设备
CN112966088B (zh) * 2021-03-19 2022-06-03 北京三快在线科技有限公司 未知意图的识别方法、装置、设备及存储介质
CN113326351A (zh) * 2021-06-17 2021-08-31 湖北亿咖通科技有限公司 一种用户意图确定方法及装置
CN113591463B (zh) * 2021-07-30 2023-07-18 中国平安人寿保险股份有限公司 意图识别方法、装置、电子设备及存储介质
CN115563113B (zh) * 2022-09-29 2023-08-22 北京信智特科技有限公司 基于人工智能的数据库索引建立方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193865A (zh) * 2017-04-06 2017-09-22 上海奔影网络科技有限公司 人机交互中自然语言意图理解方法及装置
CN107329949A (zh) * 2017-05-24 2017-11-07 北京捷通华声科技股份有限公司 一种语义匹配方法和***
CN107342075A (zh) * 2016-07-22 2017-11-10 江苏泰格软件有限公司 一种语音控制执行aps***指令的***与方法
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7856351B2 (en) * 2007-01-19 2010-12-21 Microsoft Corporation Integrated speech recognition and semantic classification
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别***及语音评分***
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及***
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム
US10304444B2 (en) * 2016-03-23 2019-05-28 Amazon Technologies, Inc. Fine-grained natural language understanding
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN107943860B (zh) * 2017-11-08 2020-10-27 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN108334891B (zh) * 2017-12-15 2021-01-05 北京奇艺世纪科技有限公司 一种任务型意图分类方法及装置
CN108428447B (zh) * 2018-06-19 2021-02-02 科大讯飞股份有限公司 一种语音意图识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107342075A (zh) * 2016-07-22 2017-11-10 江苏泰格软件有限公司 一种语音控制执行aps***指令的***与方法
CN107193865A (zh) * 2017-04-06 2017-09-22 上海奔影网络科技有限公司 人机交互中自然语言意图理解方法及装置
CN107329949A (zh) * 2017-05-24 2017-11-07 北京捷通华声科技股份有限公司 一种语义匹配方法和***
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置

Also Published As

Publication number Publication date
CN111292752A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111292752B (zh) 一种用户意图识别方法、装置、电子设备及存储介质
CN108334487B (zh) 缺失语意信息补全方法、装置、计算机设备和存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
CN110797016B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN110516253B (zh) 中文口语语义理解方法及***
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
CN110457689B (zh) 语义处理方法及相关装置
CN110597994A (zh) 事件元素识别方法和装置
CN106503231B (zh) 基于人工智能的搜索方法和装置
CN111967224A (zh) 对话文本的处理方法、装置、电子设备及存储介质
CN108681541B (zh) 图片搜索方法、装置及计算机设备
CN109256125B (zh) 语音的离线识别方法、装置与存储介质
CN110866100B (zh) 一种话术泛化方法、装置及电子设备
CN111651600B (zh) 语句多意图识别方法、***、电子设备及存储介质
CN111198936B (zh) 一种语音搜索方法、装置、电子设备及存储介质
CN112906380A (zh) 文本中角色的识别方法、装置、可读介质和电子设备
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN111259170A (zh) 一种语音搜索方法、装置、电子设备及存储介质
EP2447854A1 (en) Method and system of automatic diacritization of Arabic
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN114822519A (zh) 中文语音识别纠错方法、装置及电子设备
CN112100378A (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN112906381B (zh) 对话归属的识别方法、装置、可读介质和电子设备
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant