CN112668337B - 一种语音指令分类方法和装置 - Google Patents

一种语音指令分类方法和装置 Download PDF

Info

Publication number
CN112668337B
CN112668337B CN202011548651.6A CN202011548651A CN112668337B CN 112668337 B CN112668337 B CN 112668337B CN 202011548651 A CN202011548651 A CN 202011548651A CN 112668337 B CN112668337 B CN 112668337B
Authority
CN
China
Prior art keywords
vocabulary
trained
instruction
model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011548651.6A
Other languages
English (en)
Other versions
CN112668337A (zh
Inventor
赵耀
赵鹏
易晖
张又亮
申众
张崇宇
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd, Guangzhou Chengxingzhidong Automotive Technology Co., Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202011548651.6A priority Critical patent/CN112668337B/zh
Publication of CN112668337A publication Critical patent/CN112668337A/zh
Application granted granted Critical
Publication of CN112668337B publication Critical patent/CN112668337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供了一种语音指令分类方法和装置,所述方法包括:针对获取到的语音指令,生成匹配的语音识别信息;提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;采用已训练的分类模型生成与所述命名实体对应的分类结果。本发明实施例可以实现采用两种模型结合,提高对语音指令分类的准确性。

Description

一种语音指令分类方法和装置
技术领域
本发明涉及信息技术领域,特别是涉及一种语音指令分类方法和一种语音指令分类装置。
背景技术
随着车辆技术的发展,逐渐有些电动车中设置有车载终端,用户能够与车载终端进行人车交互。
用户在用语音指令进行车载终端的图形界面交互(Graphic User Interface,GUI)操作时,用户往往不仅希望能通过语音开关页面,而且若当前页面并非用户语音的操作页面,还期望车载终端能自动跳转到语音指令相关页面,同时完成语音操作。
为了完成页面开关、跳转,需丰富现有的语义空间。然而随着产品迭代,每个应用的各个版本的图形页面均有差别,故要对各个车型、各个APP(Applicatinon,应用程序)的各个版本做语义区分,因此带来的页面控制指令运维难度大大提升。现有模型的迭代周期相对较长,不利于做版本管理。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音指令分类方法和相应的一种语音指令分类装置。
为了解决上述问题,本发明实施例公开了一种语音指令分类方法,包括:
针对获取到的语音指令,生成匹配的语音识别信息;
提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;
依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;
采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;
采用已训练的分类模型生成与所述命名实体对应的分类结果。
可选地,所述采用已训练的分类模型识别与所述命名实体对应的分类结果的步骤,包括:
生成与所述命名实体匹配的标准化字符;
采用已训练的分类模型生成与所述标准化字符对应的分类结果。
可选地,还包括:
按照所述分类结果生成与所述语音指令匹配的可执行指令;
响应于所述可执行指令,执行相应的操作。
可选地,还包括:
在采用已训练的实体识别模型无法识别与所述待挖掘数据匹配的命名实体时,采用已训练的分类模型生成与所述语音识别信息对应的分类结果。
可选地,所述词表数据库包含至少一个词表集合以及与所述词表集合对应的第一版本信息;所述提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型的步骤,包括:
确定与所述语音识别信息对应的第二版本信息;
确定与所述第二版本信息匹配的目标第一版本信息;
在与所述目标第一版本信息对应的词表集合中,提取与所述语音识别信息匹配的词表字段以及词表类型。
可选地,所述依据语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据的步骤,包括:
确定与所述词表类型对应的第一类型标识;
采用所述语音识别信息、预设的原文标识、所述词表字段以及所述第一类型标识,生成待挖掘数据。
可选地,还包括:
获取新增指令;
采用所述已训练的实体识别模型以及所述已训练的分类模型判断所述新增指令是否为无效指令;
若是,则采用所述无效指令更新所述已训练的实体识别模型以及所述已训练的分类模型。
可选地,所述采用所述无效指令更新所述已训练的实体识别模型以及所述已训练的分类模型的步骤,包括:
采用预设的模板生成与所述无效指令匹配的指令集合;
确定所述指令集合为训练样本;
采用所述训练样本更新所述已训练的实体识别模型以及所述已训练的分类模型;
其中,所述指令集合包括标准化指令或者泛化指令。
可选地,所述已训练的实体识别模型通过如下方法生成:
获取与交互业务相关的第一语料数据,以及初始实体识别模型;
确定与所述第一语料数据匹配的第二类型标识;
采用所述第一语料数据以及所述第二类型标识训练所述初始实体识别模型,生成已训练的实体识别模型。
可选地,所述已训练的分类模型通过如下方法生成:
获取与交互业务相关的第二语料数据,以及初始分类模型;
采用预设信息对第二语料中部分内容进行替换,得到第三语料数据;
采用所述第二语料数据以及所述第三语料数据训练所述初始分类模型,得到已训练的分类模型。
本发明实施例还公开了一种语音指令分类装置,包括:
语音识别模块,用于针对获取到的语音指令,生成匹配的语音识别信息;
提取模块,用于提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;
待挖掘数据生成模块,用于依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;
命名实体识别模块,用于采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;
分类模块,用于采用已训练的分类模型生成与所述命名实体对应的分类结果。
本发明实施例还公开了一种车辆,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的语音指令分类方法。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的语音指令分类方法。
本发明实施例包括以下优点:通过识别与语音指令对应的词表类型和词表字段,并采用已训练的实体识别模型对基于词表字段、词表类型和语音识别信息得到的待挖掘数据进行实体挖掘,得到匹配的命名实体,并采用已训练的分类模型对命名实体进行识别,得到分类结果,提高语音指令分类的准确性,由于词表类型和词表字段与车辆的版本对应,使得本发明实施例可以针对车辆的版本对语音指令进行分类,进入确定当前车辆的版本可支持的语音指令。
附图说明
图1是本发明的一种语音指令分类方法实施例一的步骤流程图;
图2是本发明的一种语音指令分类方法实施例二的步骤流程图;
图3是本发明实施例的一种词表数据库架构图;
图4是本发明实施例中实体识别模型结构示意图;
图5是本发明实施例中分类模型结构示意图;
图6是本发明的一种语音指令分类方法实施例二的架构图;
图7是本发明的一种语音指令分类装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
近年来,车辆行业发展的主要驱动力已经由过去供给端的产品和技术驱动,逐步转换为不断提高的用户需求驱动,用户对车辆的认知也逐渐从单一的交通工具向生活空间转变,而驾驶舱作为用户直接体验的空间,提高驾驶舱的智能程度,使驾驶舱成为人车交互的体验核心,可以为用户提供更好的车辆乘坐体验。
智能座舱电子***可以指由中控、全液晶仪表、平视显示器、娱乐***、智能音响、车联网模块、流媒体后视镜、远程信息处理***等组成的一整套***。
智能座舱***可以指以驾驶舱区域控制器为中心,在统一的软硬件平台上实现上述智能座舱电子***功能,并融入智能交互、智能场景、个性化服务的***。智能座舱***可以形成人车交互、车与外界互联的基础。
智能座舱***的使用场景通常可以覆盖用户使用车辆的全部场景。具体地,可以包括用户使用车辆前、用户使用车辆过程中,用户使用车辆后的时间场景,也可以包括驾驶员、副驾驶、后排乘客、车外相关人物或物体的空间场景。
智能座舱中的人机交互,与过去的指令式交互相比,可以结合车辆与用户的使用场景,基于图像识别、语音识别、环境感知等基础技术,实现更加符合用户需求的智能化效果。
参照图1,示出了本发明的一种语音请求分类方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,针对获取到的语音指令,生成匹配的语音识别信息;
智能座舱可以设置有具备语音采集功能的显示组件,采用显示组件采集位于智能座舱内的用户的语音指令,并将语音指令发送至与其连接的服务器。
服务器在接收到智能座舱发送的语音指令后,针对语音指令进行ASR(AutomaticSpeech Recognition,自动语音识别)识别,得到ASR识别文本,即语音识别信息。
步骤102,提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;
服务器中可以部署有词表数据库,词表数据库中包含多个词表集,词表集由一个或多个词表字段组成,词表集具有相应的词表类型,词表字段以及词表类型对应于车辆的版本,具体的,车辆的版本可以包括硬件版本和/或软件版本。其中,软件版本可以是指部署在车辆中的软件***的版本。
词表类型与车辆能够响应的语音指令的类型对应,例如:词表类型可以为功能,即与针对车辆的功能性控制的语音指令的类型对应;词表类型可以为页面,即与针对车辆的图形用户界面(Graphical User Interface,GUI)的语音指令的类型对应。
在实际应用中,词表类型还可以包括其他类型,本发明对此不作限制。
步骤103,依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;
对语音识别信息、词表字段、词表类型进行编码和拼接得到待挖掘数据。
步骤104,采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;
服务器中可以部署有已完成训练的实体识别模型,即已训练的实体识别模型。采用已训练的实体识别模型对待挖掘数据进行识别,识别出相应的命名实体。
其中,实体识别模型可以基于FLAT(Flat-Lattice Transformer,扁平化格子结构转换器)模型或者Lattice LSTM(网格结构长短期记忆网络,LatticeLong Short-TermMemory)得到。
由于对于语音识别信息对应的词表字段以及词表类型进行编码和拼接,使得实体识别模型能够准确识别出语音指令匹配的命名实体。由于词表类型和词表字段与车辆的版本对应,使得能够针对不同的车辆的版本得到相应的命名实体。命名实体的类型与词表类型对应。例如:词表类型为页面,命名实体的类型也为页面。
通过引入实体识别模型,能够确定语音识别信息对应的用户意图,进而准确得到相应的命名实体。例如:若功能词表(词表类型为功能的词表集)中存在词汇,但用户表达的是页面,因此通过模型训练无法获取到功能实体(命名实体的类型为功能)。当页面词表中包含XXX,语音识别信息为“XXX页面”,实体识别模型通过训练,将XXX与页面拼接的结果作为页面实体(命名实体的类型为页面)。当功能页面词表都包括的词语,在输出实体时,模型通过训练,会将输出的实体类型合并为功能&页面实体(此时输出的命名实体类型为功能和页面)。
步骤105,采用已训练的分类模型生成与所述命名实体对应的分类结果。
服务器中可以部署有已完成训练的分类模型,即已训练的分类模型,采用已训练的分类模型对命名实体进行识别,识别出于命名实体匹配的语音指令的类型。
其中,分类模型可以是基于Nezha(哪吒)模型、BERT(Bidirectional EncoderRepresentations from Transformers,深度双向预训练转换器)模型模型、RoBERTa模型、ELECTRA(Efficiently Learning an Encoder that Classifies Token ReplacementsAccurately,高效地学习对形符替换进行准确分类的编码器)模型、ALBERT(A LiteBidirectional Encoder Representations from Transformers,一个简化的深度双向预训练转换器)模型、XLNet模型中的至少一个得到。
分类结果可以为车辆的版本当前支持的语音指令对应的类型,例如:命名实体为页面,则分类结果可以为打开支持页面。
在本发明实施例中,通过识别与语音指令对应的词表类型和词表字段,并采用已训练的实体识别模型对基于词表字段、词表类型和语音识别信息得到的待挖掘数据进行实体挖掘,得到匹配的命名实体,并采用已训练的分类模型对命名实体进行识别,得到分类结果,提高语音指令分类的准确性,由于词表类型和词表字段与车辆的版本对应,使得本发明实施例可以针对车辆的版本对语音指令进行分类,进入确定当前车辆的版本可支持的语音指令。
参照图2,示出了本发明的一种语音请求分类方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201,针对获取到的语音指令,生成匹配的语音识别信息;
步骤202,提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;
参照图3,示出了本发明实施例的一种词表数据库架构图。
词表数据库为区分版本的词表数据库。以车辆的版本包括版本1、版本2、版本3、版本4为例,词表数据库中的词表数据库以上述四个版本划分相应的词表字段以及词表类型。
如表1所示,示出了一种词表数据库的示例示意图。在本示例中,以语音识别信息为头枕音响模式和音响为例,不同版本对功能、页面的支持不同。
词表数据库划分为版本1、版本2、版本3、版本4。词表类型包括功能和页面。即数据 库包括功能词表和页面词表。词表数据库中还记录有与功能词表以及不同版本对应的词表 字段,如:与功能词表、版本2对应的“音响”;以及与页面词表以及不同版本对应的词表字 段,如:与页面词表、版本2对应的“头枕音响模式”。
版本 功能词表 页面词表
1 头枕音响模式 \
2 音响 头枕音响模式
3 头枕音响模式、音响 头枕音响模式
4 音响 \
表1
在本发明的一种可选实施例中,所述词表数据库包含至少一个词表集合以及与所述词表集合对应的第一版本信息;步骤201包括:
子步骤S11,确定与所述语音识别信息对应的第二版本信息;
第二版本信息可以为语音识别信息对应的车辆的版本,即传输与语音识别信息匹配的语音指令的车辆的版本。具体的,车辆的版本可以是指硬件版本和/或软件版本。硬件版本可以是指车辆型号。
子步骤S12,确定与所述第二版本信息匹配的目标第一版本信息;
确定与第二版本信息对应的第一版本信息为目标第一版本信息,目标第一版本信息与语音识别信息对应。
子步骤S13,在与所述目标第一版本信息对应的词表集合中,提取与所述语音识别信息匹配的词表字段以及词表类型。
确定与目标第一版本信息对应的词表集合,并在该词表集合中提取与语音识别信息匹配的词表字段和词表类型。
以语音识别信息为“打开头枕音响模式页面”为了当第二版本信息为不同版本时,得到的词表类型和词表字段可能不同。具体的,若第二版本信息为版本1,则得到词表类型为功能,词表字段为“头枕音响模式”;若第二版本信息为3,则词表类型包括功能和音响,词表类型为功能对应的词表字段包括:“头枕音响模式”以及“音响”,词表类型为页面对应的词表字段为“头枕音响模式”。
以下,以第二版本信息为版本1,语音识别信息为“打开头枕音响模式页面”为例,对本发明实施例做进一步说明。
步骤203,依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;
在本发明的一种可选实施例中,步骤203包括:
子步骤S21,确定与所述词表类型对应的第一类型标识;
类型标识可以是针对每一种词表类型预先生成的类型编码。第一类型标识为与语音识别信息匹配的词表类型的类型编码。
子步骤S22,采用所述语音识别信息、预设的原文标识、所述词表字段以及所述第一类型标识,生成待挖掘数据。
对语音识别信息、预设的原文标识、词表字段以及第一类型标识进行拼接,得到待挖掘数据。
原文标识为词编码,具体是指语音识别信息中各个字符的编码。以第二版本信息为版本1,语音识别信息为“打开头枕音响模式页面”为例,得到的待挖掘数据可以为WE(打)WE(开)WE(头)WE(枕)WE(音)WE(响)WE(模)WE(式)WE(页)WE(面)TE(头枕音响模式),其中,WE指词编码(word encoding),TE指词表类型编码(type encoding)。
步骤204,采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;
参照图4,示出了本发明实施例中实体识别模型结构示意图。
实体识别模型包括编码器(embedding)、数据处理模块、输出模块。其中数据处理模块包括自注意力(self-attention)机制、加权(add)和归一化(layerNorm)层、FNN(Feedforward Neural Network,前馈神经网络)。输出模块包括linear(线性)和CRF(Conditional Random Field条件随机场)层,N为自然数,表示数据处理模块的数量。
待挖掘数据包含多个token(形符),head(头部)指token中第一个字符位于语音识别信息的顺序,tail(尾部)指token中最后一个字符位于语音识别信息的顺序,type(类型)指词编码或者类型编码,type中的“原文”指原文标识,“页面”指词表类型为页面对应的类型编码。
在一具体实现中,原文标识为00,页面对应的类型编码为01。
步骤205,生成与所述命名实体匹配的标准化字符;
按照预设规则,将命名实体转化为标准化字符。
例如:命名实体为“头枕音响模式”且类型为页面,得到的标准化字符为“指定页面”;命名实体为“头枕音响模式”且类型为功能,得到的标准化字符为“特定功能”。
进一步地,可以依据语音识别信息确定意图信息,依据意图信息生产与命名实体匹配的标准化字符。例如:语音识别信息为“打开头枕音响模式”,命名实体为“头枕音响模式”且类型为功能,依据语音识别信息得到的意图信息为打开功能,即得到的标准化字符为“打开特定功能”。
步骤206,采用已训练的分类模型生成与所述标准化字符对应的分类结果。
参照图5,示出了本发明实施例中分类模型结构示意图。
分类模型包括编码器(embedding)、数据处理模块、输出模块。其中数据处理模块包括自注意力(self-attention)机制、加权(add)和归一化(layerNorm)层、FNN(Feedforward Neural Network,前馈神经网络)。输出模块包括linear(线性)和softmax层,N为自然数,表示数据处理模块的数量。
以标准化字符作为分类模型的输入,即token,分类模型输出与标准化字符匹配的分类结果。
例如:标准化字符为“打开指定页面”则分类结果为“打开支持页面”;标准化字符为“打开特定功能”则分类结果为“打开支持功能”;标准化字符为“打开特定页面及功能”则分类结果为“打开支持页面和功能”。
在本发明的一种可选实施例中,所述方法还包括:
在采用已训练的实体识别模型无法识别与所述待挖掘数据匹配的命名实体时,采用已训练的分类模型生成与所述语音识别信息对应的分类结果。
在已训练的实体识别模型无法识别出命名实体时,将语音识别信息作为输入数据输入至已训练的分类模型,已训练的分类模型生成相应的分类结果。
例如:第二版本信息为版本1,语音识别信息为“打开头枕音响模式页面”,由于词表数据库中不存在类型为页面的词表字段,则已训练的实体识别模型无法识别出待挖掘数据中的命名实体,则将语音识别信息“打开头枕音响模式页面”输入至已训练的分类模型,生成相应的分类结果为“打开不支持页面”。
可以理解的是,在实体识别模型识别出待挖掘数据中的命名实体时,确定的当前的语音指令为与第二版本信息对应的支持的语音指令;在实体识别模型无法识别出待挖掘数据中的命名实体时,确定的当前的语音指令为与第二版本信息对应的不支持的语音指令;从而实现以车辆的版本对车辆支持的语音指令进行分类。
在本发明的一种可选实施例中,还包括:按照所述分类结果生成与所述语音指令匹配的可执行指令;响应于所述可执行指令,执行相应的操作。
可执行指令为车辆能够响应的指令,车辆能够响应于该可执行指令,执行相应的操作,以完成语音指令的反馈。
以语音识别信息为“打开头枕模式”为例,若分类结果为“打开支持页面”,则可执行指令为打开与头枕模式对应页面的指令,以使车辆输出与语音识别信息相应的页面;若分类结果为“打开支持功能”,则可执行指令为开启与头枕模式对应功能的指令;若分类结果为“打开支持页面和功能”,则可执行指令为打开与头枕模式对应页面的指令,以及开启与头枕模式对应功能的指令;若分类结果为“打开不支持页面”,则可执行指令为提示用户无法打开相应页面的指令。
在本发明实施例中,可以通过在词表数据库中增加新的词表字段设置其对应的字段类型,提高已训练的实体模型和已训练的分类模型输出数据的准确性,从而实现高频、高效、可靠迭代,可快速解决线上问题。
在本发明的一种可选实施例中,还包括:获取新增指令;采用所述已训练的实体识别模型以及所述已训练的分类模型判断所述新增指令是否为无效指令;若是,则采用所述无效指令更新所述已训练的实体识别模型以及所述已训练的分类模型。
在车辆需要进行响应的指令即新增指令时,先采用已训练的实体识别模型和已训练的分类模型判断该新增指令是否为无效指令,如果为无效指令,则采用该新增指令对已训练的实体识别模型以及已训练的分类模型进行进一步训练,以更新模型。
其中,无效指令为任一第二版本信息对应的车辆不支持的指令。通过采用已用的模型推理得到新增指令的有效性,可以避免新增指令能够兼容各个第二版本信息对应的车辆,防止发生错误分类。
可以按照一定周期对实体识别模型以及分类模型进行迭代更新,以解决因泛化引起的坏例。
在本发明的一种可选实施例中,所述采用所述无效指令更新所述已训练的实体识别模型以及所述已训练的分类模型的步骤,包括:采用预设的模板生成与所述无效指令匹配的指令集合;确定所述指令集合为训练样本;采用所述训练样本更新所述已训练的实体识别模型以及所述已训练的分类模型;其中,所述指令集合包括标准化指令或者泛化指令。
预设模板可以设有业务配置和通用配置,业务配置和通用配置,业务配置是用来处理新增业务;通用配置是与业务无关的通用语言能力配置。
在实际应用中,业务配置用于确定无效指令(即新增指令)对应的标准化指令、与标准化指令对应的指令句式、与新增指令的句式对应泛化指令等。通用配置可以用于确定指令句式中的同义词集合、动词后缀、停用词等。
在一示例中,业务配置用于确定新增指令的标准化指令为“打开空调设置页面”,以及设置与该新增指令的句式为“(打开|开启|开) [一下|下] (((空调|温度|风量)(控制|设置))/word=page/(页面|界面|页))/entity=page”其中,“entity=page”表示该新增指令对应的命名实体的类型为页面,以及生成与新增指令的句式相应的泛化指令,例如:生成与“开启空调控制界面”相应的泛化指令为“开启支持页面”;生成与“可否开一下风量控制页”相应的泛化指令为“可否开一下支持页面”。通用配置用于确定与“打开”相应的同义词集合,包括:“开”、“开启”等;确定相应的动词后缀,如“一下”、“下”等;确定相应的停用词,包括:前缀,如“请”、“帮我”、“给我”、“能否”等。
可以理解的是,上述句式、泛化指令、同义词词表、动词后缀、停用词仅为示例,不能作为对本发明实施例的限定。
将标准化指令和/或泛化指令作为训练样本,并采用训练样本训练实体识别模型以及分类模型,以更新实体识别模型和分类模型。
新增说法较少时,利用模板的可逆性,对新增语料进行增强可以有效的扩增模型输入的语料数量,提高模型的精度。
在本发明的一种可选实施例中,所述已训练的实体识别模型通过如下方法生成:获取与交互业务相关的第一语料数据,以及初始实体识别模型;确定与所述第一语料数据匹配的第二类型标识;采用所述第一语料数据以及所述第二类型标识训练所述初始实体识别模型,生成已训练的实体识别模型。
车辆中设置有智能座舱,第一语料为与智能座舱的交互业务相关的正确的语音指令说法。第二类型标识为第一语料匹配的词表类型的类型编码。可以标注第一语料数据对应的类型编码,并采用标注后的第一语料数据对初始实体模型进行训练,生成已训练的实体识别模型。
在本发明的一种可选实施例中,所述已训练的分类模型通过如下方法生成:获取与交互业务相关的第二语料数据,以及初始分类模型;采用预设信息对第二语料中部分内容进行替换,得到第三语料数据;采用所述第二语料数据以及所述第三语料数据训练所述初始分类模型,得到已训练的分类模型。
车辆中设置有智能座舱,第二语料为与智能座舱的交互业务相关的正确的语音指令说法。可以采用预设信息对第二语料中的任意字符进行替换,得到第三语料数据,并标注与第三语料数据对应的第二语料数据,采用第二语料及第三语料训练初始分类模型,完成训练时得到已训练的分类模型。
在本发明实施例中,通过先识别与语音指令对应的第二版本信息匹配的词表类型和词表字段,并采用已训练的实体识别模型对基于词表字段、词表类型和语音识别信息得到的待挖掘数据进行实体挖掘,得到匹配的命名实体,并采用生成与所述命名实体匹配的标准化字符,采用已训练的分类模型生成与所述标准化字符对应的分类结果,提高语音指令分类的准确性,由于词表类型和词表字段与车辆的版本(即第二版本信息)对应,使得本发明实施例可以针对车辆的版本对语音指令进行分类,进入确定当前车辆的版本可支持的语音指令,进一步的,通过将命名实体转换为标准化字符后,采用分类模型对标准化字符的识别,并生成相应的分类结果,提高分类结果识别的准确性。
参照图6,示出了本发明的一种语音指令分类方法实施例二的架构图。
整体架构包含线上推理和线下维护两部分,线下至线上的箭头指线下维护的数据发布到线上的过程。
线上推理是指从用户语音请求到输出分类结果的过程。包含了提取关键词、关键词编码、实体挖掘、实体替换、分类等五个步骤。其中,上述五个步骤依次对应于步骤202~205,query为语音指令。
线下维护分为两种运维方式。第一种是冷启动和周期性迭代阶段。冷启动是指只有少量数据的项目启动前期;周期性迭代阶段是以周、月为时间单位,进行的周期性算法迭代。第二种是区分版本运营的快速迭代阶段,迭代周期以分钟、小时为单位,可以实现高效的线上运营。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了本发明的一种语音指令分类装置实施例的结构框图,具体可以包括如下模块:
语音识别模块701,用于针对获取到的语音指令,生成匹配的语音识别信息;
提取模块702,用于提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;
待挖掘数据生成模块703,用于依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;
命名实体识别模块704,用于采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;
分类模块705,用于采用已训练的分类模型生成与所述命名实体对应的分类结果。
在本发明的一种可选实施例中,所述分类模块705包括:
标准化字符生成子模块,用于生成与所述命名实体匹配的标准化字符;
标准化字符分类子模块,用于采用已训练的分类模型生成与所述标准化字符对应的分类结果。
在本发明的一种可选实施例中,还包括:
指令生成模块,用于按照所述分类结果生成与所述语音指令匹配的可执行指令;
指令响应模块,用于响应于所述可执行指令,执行相应的操作。
在本发明的一种可选实施例中,还包括:
命名实体识别失败模块,用于在采用已训练的实体识别模型无法识别与所述待挖掘数据匹配的命名实体时,采用已训练的分类模型生成与所述语音识别信息对应的分类结果。
在本发明的一种可选实施例中,所述词表数据库包含至少一个词表集合以及与所述词表集合对应的第一版本信息;所述提取模块702包括:
第二版本信息子模块,用于确定与所述语音识别信息对应的第二版本信息;
第一版本信息子模块,用于确定与所述第二版本信息匹配的目标第一版本信息;
词表提取子模块,用于在与所述目标第一版本信息对应的词表集合中,提取与所述语音识别信息匹配的词表字段以及词表类型。
在本发明的一种可选实施例中,所述待挖掘数据生成模块703包括:
第一类型标识子模块,用于确定与所述词表类型对应的第一类型标识;
待挖掘数据子模块,用于采用所述语音识别信息、预设的原文标识、所述词表字段以及所述第一类型标识,生成待挖掘数据。
在本发明的一种可选实施例中,还包括:
新增指令获取模块,用于获取新增指令;
无效指令判断模块,用于采用所述已训练的实体识别模型以及所述已训练的分类模型判断所述新增指令是否为无效指令;
无效指令训练模块,用于若采用所述已训练的实体识别模型以及所述已训练的分类模型判断所述新增指令为无效指令,则采用所述无效指令更新所述已训练的实体识别模型以及所述已训练的分类模型。
在本发明的一种可选实施例中,所述无效指令训练模块包括:
指令集合子模块,用于采用预设的模板生成与所述无效指令匹配的指令集合;
训练样本子模块,用于确定所述指令集合为训练样本;
模型更新子模块,用于采用所述训练样本更新所述已训练的实体识别模型以及所述已训练的分类模型;
其中,所述指令集合包括标准化指令或者泛化指令。
在本发明的一种可选实施例中,所述已训练的实体识别模型通过如下模块生成:
初始实体识别模型模块,用于获取与交互业务相关的第一语料数据,以及初始实体识别模型;
第二类型标识确定模块,用于确定与所述第一语料数据匹配的第二类型标识;
实体识别模型训练模块,用于采用所述第一语料数据以及所述第二类型标识训练所述初始实体识别模型,生成已训练的实体识别模型。
在本发明的一种可选实施例中,所述已训练的分类模型通过如下模块生成:
分类模型获取模块,用于获取与交互业务相关的第二语料数据,以及初始分类模型;
语料处理模块,用于采用预设信息对第二语料中部分内容进行替换,得到第三语料数据;
分类模型训练模块,用于采用所述第二语料数据以及所述第三语料数据训练所述初始分类模型,得到已训练的分类模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还公开了一种车辆,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的语音指令分类方法。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权上所述的语音指令分类方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音指令分类方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种语音指令分类方法,其特征在于,包括:
针对获取到的语音指令,生成匹配的语音识别信息;
提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;所述词表类型与不同车辆的版本对应,所述词表类型包括功能和页面,所述词表数据库对应包括功能词表和页面词表,所述词表数据库中记录有与所述功能词表、所述页面词表以及所述不同车辆的版本对应的词表字段;
依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;
采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;
采用已训练的分类模型生成与所述命名实体对应的分类结果,采用已训练的分类模型识别与所述命名实体对应的分类结果的步骤,包括:生成与所述命名实体匹配的标准化字符;采用已训练的分类模型生成与所述标准化字符对应的分类结果,根据所述命名实体对应的词表类型确定所述标准化字符。
2.根据权利要求1所述的方法,其特征在于,还包括:
按照所述分类结果生成与所述语音指令匹配的可执行指令;
响应于所述可执行指令,执行相应的操作。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
在采用已训练的实体识别模型无法识别与所述待挖掘数据匹配的命名实体时,采用已训练的分类模型生成与所述语音识别信息对应的分类结果。
4.根据权利要求1或2所述的方法,其特征在于,所述词表数据库包含至少一个词表集合以及与所述词表集合对应的第一版本信息;所述提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型的步骤,包括:
确定与所述语音识别信息对应的第二版本信息;
确定与所述第二版本信息匹配的目标第一版本信息;
在与所述目标第一版本信息对应的词表集合中,提取与所述语音识别信息匹配的词表字段以及词表类型。
5.根据权利要求4所述的方法,其特征在于,依据语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据的步骤,包括:
确定与所述词表类型对应的第一类型标识;
采用所述语音识别信息、预设的原文标识、所述词表字段以及所述第一类型标识,生成待挖掘数据。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取新增指令;
采用所述已训练的实体识别模型以及所述已训练的分类模型判断所述新增指令是否为无效指令;
若是,则采用所述无效指令更新所述已训练的实体识别模型以及所述已训练的分类模型。
7.根据权利要求6所述的方法,其特征在于,所述采用所述无效指令更新所述已训练的实体识别模型以及所述已训练的分类模型的步骤,包括:
采用预设的模板生成与所述无效指令匹配的指令集合;
确定所述指令集合为训练样本;
采用所述训练样本更新所述已训练的实体识别模型以及所述已训练的分类模型;
其中,所述指令集合包括标准化指令或者泛化指令。
8.根据权利要求1所述的方法,其特征在于,所述已训练的实体识别模型通过如下方法生成:
获取与交互业务相关的第一语料数据,以及初始实体识别模型;
确定与所述第一语料数据匹配的第二类型标识;
采用所述第一语料数据以及所述第二类型标识训练所述初始实体识别模型,生成已训练的实体识别模型。
9.根据权利要求1所述的方法,其特征在于,所述已训练的分类模型通过如下方法生成:
获取与交互业务相关的第二语料数据,以及初始分类模型;
采用预设信息对第二语料中部分内容进行替换,得到第三语料数据;
采用所述第二语料数据以及所述第三语料数据训练所述初始分类模型,得到已训练的分类模型。
10.一种语音指令分类装置,其特征在于,包括:
语音识别模块,用于针对获取到的语音指令,生成匹配的语音识别信息;
提取模块,用于提取预设的词表数据库中与所述语音识别信息匹配的词表字段以及词表类型;所述词表类型与不同车辆的版本对应,所述词表类型包括功能和页面,所述词表数据库对应包括功能词表和页面词表,所述词表数据库中记录有与所述功能词表、所述页面词表以及所述不同车辆的版本对应的词表字段;
待挖掘数据生成模块,用于依据所述语音识别信息、所述词表字段以及所述词表类型,生成待挖掘数据;
命名实体识别模块,用于采用已训练的实体识别模型识别与所述待挖掘数据匹配的命名实体;
分类模块,用于采用已训练的分类模型生成与所述命名实体对应的分类结果,采用已训练的分类模型识别与所述命名实体对应的分类结果的步骤,包括:生成与所述命名实体匹配的标准化字符;采用已训练的分类模型生成与所述标准化字符对应的分类结果,根据所述命名实体对应的词表类型确定所述标准化字符。
11.一种车辆,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9任一项所述的语音指令分类方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的语音指令分类方法。
CN202011548651.6A 2020-12-23 2020-12-23 一种语音指令分类方法和装置 Active CN112668337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011548651.6A CN112668337B (zh) 2020-12-23 2020-12-23 一种语音指令分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011548651.6A CN112668337B (zh) 2020-12-23 2020-12-23 一种语音指令分类方法和装置

Publications (2)

Publication Number Publication Date
CN112668337A CN112668337A (zh) 2021-04-16
CN112668337B true CN112668337B (zh) 2022-08-19

Family

ID=75408262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011548651.6A Active CN112668337B (zh) 2020-12-23 2020-12-23 一种语音指令分类方法和装置

Country Status (1)

Country Link
CN (1) CN112668337B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743122A (zh) * 2021-09-14 2021-12-03 河南工业大学 一种基于新词发现和Flat-lattice的粮情命名实体识别方法
CN115938365B (zh) * 2023-03-09 2023-06-30 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质
CN116402478B (zh) * 2023-06-07 2023-09-19 成都普朗克科技有限公司 基于语音交互的生成清单的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292254B2 (en) * 2013-05-15 2016-03-22 Maluuba Inc. Interactive user interface for an intelligent assistant
CN104992709B (zh) * 2015-06-25 2019-06-11 广州视源电子科技股份有限公司 一种语音指令的执行方法及语音识别设备
US20190042560A1 (en) * 2017-08-01 2019-02-07 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
CN109767758B (zh) * 2019-01-11 2021-06-08 中山大学 车载语音分析方法、***、存储介质以及设备
CN111739520B (zh) * 2020-08-10 2020-11-20 腾讯科技(深圳)有限公司 一种语音识别模型训练方法、语音识别方法、装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置

Also Published As

Publication number Publication date
CN112668337A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN112668337B (zh) 一种语音指令分类方法和装置
CN107657017B (zh) 用于提供语音服务的方法和装置
KR102462426B1 (ko) 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법
CN110532558B (zh) 一种基于句子结构深层解析的多意图识别方法及***
WO2021147041A1 (zh) 语义分析方法、装置、设备及存储介质
US11450310B2 (en) Spoken language understanding
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
CN111916088B (zh) 一种语音语料的生成方法、设备及计算机可读存储介质
EP4086894A1 (en) Semantic recognition rejection method, semantic recognition rejection apparatus, transportation means, and medium
CN111259112A (zh) 医疗事实的验证方法和装置
CN116959433B (zh) 文本处理方法、装置、电子设备和存储介质
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN115221294A (zh) 对话处理方法、装置、电子设备及存储介质
Lin et al. Towards multilingual end‐to‐end speech recognition for air traffic control
CN115509485A (zh) 一种业务表单的填写方法、装置、电子设备和存储介质
CN114860938A (zh) 一种语句意图识别方法和电子设备
CN117391095A (zh) 一种自然语言解析方法、装置、电子设备及存储介质
US20240020337A1 (en) Multimodal intent discovery system
CN115689603A (zh) 用户反馈信息收集方法、装置及用户反馈***
Stoyanchev et al. Localized error detection for targeted clarification in a virtual assistant
Kalkhoran et al. Detecting Persian speaker-independent voice commands based on LSTM and ontology in communicating with the smart home appliances
CN112883221A (zh) 一种语义信息纠正方法、装置和智能座舱
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN112562668A (zh) 一种语义信息纠偏方法和装置
Li et al. W2V-ATT: research on text-dependent MDD method based on wav2vec2. 0

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant