CN114842847A - 一种车载用语音控制方法以及装置 - Google Patents

一种车载用语音控制方法以及装置 Download PDF

Info

Publication number
CN114842847A
CN114842847A CN202210456056.2A CN202210456056A CN114842847A CN 114842847 A CN114842847 A CN 114842847A CN 202210456056 A CN202210456056 A CN 202210456056A CN 114842847 A CN114842847 A CN 114842847A
Authority
CN
China
Prior art keywords
information
command
slot position
position value
semantic group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210456056.2A
Other languages
English (en)
Inventor
赵晓朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202210456056.2A priority Critical patent/CN114842847A/zh
Publication of CN114842847A publication Critical patent/CN114842847A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种车载用语音控制方法以及装置。所述车载用语音控制方法包括:步骤1:获取结构化语义组;步骤2:判断能否根据结构化语义组执行所需要执行的命令,若否,则步骤3:根据结构化语义组生成引导信息并发送给人机互动装置;步骤4:获取使用者根据所述引导信息所反馈的命令信息;步骤5:将命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作。本申请的车载用语音控制方法当无法通过结构化语义组执行相关命令时,能够根据结构化语义组生成与结构化语义组相关的引导信息,并以引导信息对使用者进行引导的方式来使使用者使用规范的方式与车辆进行互动,从而最终达到使用者所需要执行的目的。

Description

一种车载用语音控制方法以及装置
技术领域
本申请涉及汽车交互控制技术领域,具体涉及一种车载用语音控制方法以及一种车载用语音控制装置。
背景技术
随着智能车渐渐走入千家万户,人们体验到智能交互给行车带来的便捷操控的同时,也对车内的对话交互体验提出更高的要求。按处理流程划分,任务型对话***主要由语音识别、语义解析、对话管理、回复生成、语音合成等处理模块组成。其中,语音识别将用户声音信号识别成文本query;语义解析将文本理解为结构化信息(领域信息domain、意图信息intention、槽位值对信息slots),例如,空调吹脚-->(domain=‘车辆控制’,intention=‘空调控制’,slots={风向=<脚,FOOT>})。对话管理对结构化语义信息进行处理,经过对话状态追踪和对话策略模块,维护当前对话状态(当前轮数、意图、槽位值对等),同时输出***下一步需要采取的动作action(包括:执行、询问、引导等),例如,对于上例的query的语义结果,action=‘执行’,表示可以直接执行用户指令;又如对于query=‘我要导航’,action=(‘询问’,slot=‘目的地’),表示***需要询问用户目的地。回复生成基于对话管理模块的结果,生成回复tts,例如,对于上例的query=空调吹脚,tts=‘好的’;query=我要导航,tts=‘您要导航去哪里’。最后语音合成模块将回复转化为声音信号,通过扬声器播报给用户。播报完毕之后,对话***开始等待用户下一轮的指令。
在车载场景中,用户指令往往是口语化表达的,用词和句法结构上的随意性,导致相同的指令对应的表达方式千差万别,例如,表达空调向人吹(风向=<*,FACE>)的指令,表达方式可能是:(“空调吹我”,“空调吹脸”,“空调吹头”,“空调吹上面”),表达空调向脚吹(风向=<*,FOOT>)的指令,表达方式可能是:(“空调吹脚”,“空调吹下面”,“空调吹腿”,“空调吹刹车”)。这种口语表达数据的多样性和稀疏性,很容易会导致语义理解算法对用户的口语化稀有表达指令理解不准确,进而错误向下传导,对话***难以给出正确的应答。
现有语义解析技术方案:
1.一类是模版匹配。基于文法、句法、槽位值字典等信息,根据要完成的任务编写模版规则,经过模版匹配,判定当前的结构化语义。这类方案的优点是匹配速度快精度高,缺点是规则覆盖度通常不够。主要用于用户的高频指令说法,对于口语化表达覆盖不足。
2.另一类是深度语义模型,基于Bert/LSTM等模型对用户指令文本进行编码,然后输入给全连接层或CRF层进行领域分类、意图分类和槽位填充任务。这类方案的优点是对用户说法的泛化更好。这个模型是以监督学习方式进行训练的,需要大量的训练数据。但是稀有的口语化槽位值往往在训练数据中很少甚至没有出现过,导致模型未充分训练,不能处理此类问题。
因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足。
发明内容
本发明的目的在于提供一种车载用语音控制方法来至少解决上述的一个技术问题。
本发明的一个方面,提供一种车载用语音控制方法,所述车载用语音控制方法包括:
步骤1:获取结构化语义组;
步骤2:判断能否根据所述结构化语义组执行所需要执行的命令,若否,则
步骤3:根据所述结构化语义组生成引导信息并发送给人机互动装置;
步骤4:获取使用者根据所述引导信息所反馈的命令信息;
步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作。
可选地,所述结构化语义组包括槽位值对信息;
所述步骤2:判断能否根据所述结构化语义组执行所需要执行的命令包括:
获取预设槽位值对数据库,所述预设槽位值对数据库包括至少一个预设槽位值对信息;
判断是否有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息中的槽位值对应,若否,则
判断不能根据所述结构化语义组执行所需要执行的命令;
所述步骤3:根据所述结构化语义组生成引导信息包括:
获取引导语数据库,所述引导语数据库包括至少一个引导条件以及各个引导条件对应的引导组;
判断所述结构化语义组是否符合所述引导语数据库中的一个引导条件,若是,则
获取该引导条件所对应的引导组;
根据所述引导组生成引导信息。
可选地,在所述获取结构化语义组之前,所述车载用语音控制方法进一步包括:
获取使用者的语音信息;
解析所述语音信息,从而获取所述结构化语义组。
可选地,所述获取使用者根据所述引导信息所反馈的命令信息为语音信息和/或基于所述引导信息的互动指令信息。
可选地,当所述命令信息为语音信息时,所述步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作包括:
解析所述语音信息,从而获取反馈的结构化语义组;
判断能否根据所述反馈的结构化语义组执行所需要执行的命令,若是,则
根据所述反馈的结构化语义组生成执行命令;
将所述执行命令传递给对应的执行机构,以使对应的执行机构根据所述执行命令进行工作。
可选地,所述步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作进一步包括:
判断能否根据所述结构化语义组执行所需要执行的命令,若否,则
重复所述步骤2至步骤4。
可选地,在所述判断能否根据所述反馈的结构化语义组执行所需要执行的命令,若是后,所述车载用语音控制方法进一步包括:
根据所述反馈的结构化语义组更新所述预设槽位值对数据库,从而使预设槽位值对数据库中有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息对应。
可选地,当所述获取使用者根据所述引导信息所反馈的命令信息为基于所述引导信息的互动指令信息时,所述步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作包括:
根据所述互动指令信息生成执行命令;
将所述执行命令传递给对应的执行机构,以使对应的执行机构根据所述执行命令进行工作。
可选地,在所述根据所述互动指令信息生成执行命令后,所述车载用语音控制方法进一步包括:
根据所述互动指令信息更新所述预设槽位值对数据库,从而使预设槽位值对数据库中有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息对应
本申请还提供了一种车载用语音控制装置,所述车载用多屏控制装置包括:
结构化语义组获取模块,所述结构化语义组获取模块用于获取结构化语义组;
判断模块,所述判断模块用于判断能否根据所述结构化语义组执行所需要执行的命令;
引导信息生成模块,所述引导信息生成模块用于在所述判断模块判断为否后,根据所述结构化语义组生成引导信息并发送给人机互动装置;
反馈获取模块,所述反馈获取模块用于获取使用者根据所述引导信息所反馈的命令信息;
发送模块,所述发送模块用于将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作。
有益效果
本申请的车载用语音控制方法当无法通过结构化语义组执行相关命令时,能够根据结构化语义组生成与结构化语义组相关的引导信息,并以引导信息对使用者进行引导的方式来使使用者使用规范的方式与车辆进行互动,从而最终达到使用者所需要执行的目的。
附图说明
图1是本申请第一实施例的车载用语音控制方法的流程示意图。
图2是用于实现图1所示的车载用语音控制方法的***设备示意图。
图3是本申请第二实施例的车载用语音控制方法的流程示意图。
图4是本申请第三实施例的车载用语音控制方法的流程示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。
图1是本申请一实施例的车载用语音控制方法的流程示意图。
如图1所示的车载用语音控制方法包括:
步骤1:获取结构化语义组;
步骤2:判断能否根据所述结构化语义组执行所需要执行的命令,若否,则
步骤3:根据所述结构化语义组生成引导信息并发送给人机互动装置;
步骤4:获取使用者根据所述引导信息所反馈的命令信息;
步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作。
本申请的车载用语音控制方法当无法通过结构化语义组执行相关命令时,能够根据结构化语义组生成与结构化语义组相关的引导信息,并以引导信息对使用者进行引导的方式来使使用者使用规范的方式与车辆进行互动,从而最终达到使用者所需要执行的目的。
在本实施例中,结构化语义组包括槽位值对信息,可以理解的是,结构化语义组可以包括;领域信息、意图信息。
举例来说,一个结构化语义组可以为如下行驶:(领域信息domain=‘车辆控制’,意图信息intention=‘空调控制’,槽位值对信息slots={风向=<脚,FOOT>})。
在本实施例中,在获取结构化语义组之前,车载用语音控制方法进一步包括:
获取使用者的语音信息;
解析语音信息,从而获取结构化语义组。
例如,使用者语音信息为:空调吹刹车(可以理解的是,该语音信息首先被识别成文本信息),对该语音信息进行处理,从而获取结构化语音组(领域domain=空调,意图intention=空调控制,槽位值对slots={风向=<刹车,?>}。
在本实施例中,步骤2:判断能否根据所述结构化语义组执行所需要执行的命令包括:
获取预设槽位值对数据库,预设槽位值对数据库包括至少一个预设槽位值对信息;
判断是否有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息中的槽位值对应,若否,则
判断不能根据所述结构化语义组执行所需要执行的命令。
以上述为例,结构化语义组为(领域domain=空调,意图intention=空调控制,槽位值对slots={风向=<刹车,?>}。
我们获取预设槽位值对数据库,发现槽位值对中只有slots={匹配=<吹脚,脚>},因此,从上述分析发现,无法将?与脚对应,则判断没有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息中的槽位值对应。
在本实施例中,步骤3:根据结构化语义组生成引导信息包括:
获取引导语数据库,所述引导语数据库包括至少一个引导条件以及各个引导条件对应的引导组;
判断所述结构化语义组是否符合所述引导语数据库中的一个引导条件,若是,则
获取该引导条件所对应的引导组;
根据引导组生成引导信息。
以上述的结构化语义组举例来说,上述的结构化语义组为(领域domain=空调,意图intention=空调控制,槽位值对slots={风向=<刹车,?>},本申请的合引导语数据库中的一个条件为:若结构化语义组为(领域domain=空调,意图intention=空调控制,slots={风向=<刹车,?>),则对应的引导组为:引导组(<风向,候选=【脸,脚,车窗,挡风玻璃】>)。
在本实施例中,根据所述引导组生成引导信息包括:
将引导组转换成语音信息和/或将引导组转换成互动选择信息;
具体而言,将引导组转换为语音信息即将上述的引导信息通过预定义的模板组成回复话术tts,例如,上述的引导组通过预定义的模板转换为:‘找到四个空调风向选项,分别为脸,脚,车窗,挡风玻璃,请问您选哪一个?’。
可以理解的是,还可以转换为互动选择信息,例如,通过人机交互装置(例如车载屏幕)会显示(display)这四个选项:[空调吹脚,空调吹脸,空调吹车窗,空调吹挡风玻璃],供用户选择。
在本实施例中,获取使用者根据引导信息所反馈的命令信息为语音信息和/或基于引导信息的互动指令信息。
举例来说,当本申请给出的引导信息为语音信息时,使用者可以通过语音信息进行回答,若本申请给出的引导信息为互动选择信息时,使用者可以通过互动指令生成互动指令信息,也可以通过语音信息回答。
在本实施例中,当命令信息为语音信息时,步骤5:将命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作包括:
解析语音信息,从而获取反馈的结构化语义组;
判断能否根据反馈的结构化语义组执行所需要执行的命令,若是,则根据反馈的结构化语义组生成执行命令;
将执行命令传递给对应的执行机构,以使对应的执行机构根据所述执行命令进行工作。
例如,使用者回答空调吹脚,则将空调吹脚转换为结构化语义组(领域domain=空调,意图intention=空调控制,slots={风向=<吹脚,脚>),此时,若本申请的预设槽位值对数据库中有对应的槽位值对信息,例如槽位值对slots={匹配=<吹脚,脚>,则认为有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息中的槽位值对应,则根据反馈的结构化语义组生成执行命令;
将执行命令传递给对应的执行机构,以使对应的执行机构根据所述执行命令进行工作。
在本实施例中,步骤5:将命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作进一步包括:
判断能否根据所述结构化语义组执行所需要执行的命令,若否,则
重复步骤2至步骤4。
在本实施例中,在判断能否根据反馈的结构化语义组执行所需要执行的命令,若是后,车载用语音控制方法进一步包括:
根据反馈的结构化语义组更新预设槽位值对数据库,从而使预设槽位值对数据库中有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息对应。
具体而言,首先将用户的反馈的结构化语义组打点记录到日志***中。
从日志平台,从大量用户日志中筛选出满足规则的槽位解析失败且引导成功的记录:例如从上例中的示例,可以筛选出如下日志:
turn 1:query=空调吹刹车
intention=空调控制
slots={风向=<刹车,?>}
action=引导(<风向,候选=[脚,脸,车窗,挡风玻璃]>)
turn 2:query=吹脚
intention=选择
slots=风向=<刹车,FOOT>
基于以上筛选出的日志,挖掘槽位值对数据,并转化为语义理解所需的训练数据。首先由turn 1的slot可知当前风向槽位‘刹车’解析失败,并向用户进行进一步引导澄清;其次,由turn 2可知,用户选择了引导选项中的‘脚’;最后,将风向槽位‘刹车’与规范化选项‘FOOT’建立关联,进而获得槽位值对:风向=<刹车,FOOT>。
将上一步挖掘出的槽位值对,连同原始query和意图intention,合并后扩充入引导语数据库。
可以理解的是,在另一个实施例中,还可以扩充至训练库中,不直接加入引导语数据库,而是当训练数据更新到一定规模或到达预定模型更新时间后,触发语义理解模型训练任务,经过测试后在部署到引导语数据库中。
经过上述数据挖掘和模型迭代流程后,更新后语义模型具备更强的解析能力,例如,下次用户类似的query(空调吹刹车),对话***可以成功解析出风向槽位为FOOT,此时不再需要进行对话引导了,可以直接执行用户指令。
在本实施例中,当获取使用者根据所述引导信息所反馈的命令信息为基于所述引导信息的互动指令信息时,步骤5:将命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作包括:
根据互动指令信息生成执行命令;
将执行命令传递给对应的执行机构,以使对应的执行机构根据所述执行命令进行工作。
在本实施例中,在根据互动指令信息生成执行命令后,车载用语音控制方法进一步包括:
根据互动指令信息更新所述预设槽位值对数据库,从而使预设槽位值对数据库中有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息对应。
具体而言,首先将用户的反馈的互动指令信息打点记录到日志***中。
从日志平台,从大量用户日志中筛选出满足规则的槽位解析失败且引导成功的记录:例如从上例中的示例,可以筛选出如下日志:
turn 1:query=空调吹刹车
intention=空调控制
slots={风向=<刹车,?>}
action=引导(<风向,候选=[脚,脸,车窗,挡风玻璃]>)
turn 2:query=吹脚
intention=选择
slots=风向=<刹车,FOOT>
基于以上筛选出的日志,挖掘槽位值对数据,并转化为语义理解所需的训练数据。首先由turn 1的slot可知当前风向槽位‘刹车’解析失败,并向用户进行进一步引导澄清;其次,由turn 2可知,用户选择了引导选项中的‘脚’;最后,将风向槽位‘刹车’与规范化选项‘FOOT’建立关联,进而获得槽位值对:风向=<刹车,FOOT>。
将上一步挖掘出的槽位值对,连同原始query和意图intention,合并后扩充入引导语数据库。
可以理解的是,在另一个实施例中,还可以扩充至训练库中,不直接加入引导语数据库,而是当训练数据更新到一定规模或到达预定模型更新时间后,触发语义理解模型训练任务,经过测试后在部署到引导语数据库中。
经过上述数据挖掘和模型迭代流程后,更新后语义模型具备更强的解析能力,例如,下次用户类似的query(空调吹刹车),对话***可以成功解析出风向槽位为FOOT,此时不再需要进行对话引导了,可以直接执行用户指令。
本申请在采用互动指令信息的方式时,还可以避免由于方言导致的一直无法解析出正确的槽位值对的问题。
下面以举例的方式对本申请进行进一步详细阐述,可以理解的是,该举例并不构成对本申请的任何限制。
一般对话***包括五个模块,分别是:语音识别、语义理解、对话管理、回复生成、TTS。语音识别将用户声音信号识别成文本query;语义解析将文本理解为结构化信息(领域domain、意图intention、槽位值对slots),例如,空调吹脚-->(domain=‘车辆控制’,intention=‘空调控制’,slots={风向=<脚,FOOT>})。对话管理对结构化语义信息进行处理,经过对话状态追踪和对话策略模块,维护当前对话状态(当前轮数、意图、槽位值对等),同时输出***下一步需要采取的动作action(包括:执行、询问、引导等),例如,对于上例的query的语义结果,action=‘执行’,表示可以直接执行用户指令;又如对于query=‘我要导航’,action=(‘询问’,slot=‘目的地’),表示***需要询问用户目的地。回复生成基于对话管理模块的结果,生成回复tts,例如,对于上例的query=空调吹脚,tts=‘好的’;query=我要导航,tts=‘您要导航去哪里’。最后语音合成模块将回复转化为声音信号,通过扬声器播报给用户。播报完毕之后,对话***开始等待用户下一轮的指令。
参见图3,面对无法解析的口语化槽位,例如,空调吹刹车,语义解析仅能够判断出当前意图是空调控制,设置的目标槽位是风向,但是无法确定刹车对应的槽位值(假设风向槽位可选的设置是:脚FOOT,脸FACE,车窗WINDOW,挡风玻璃WIND_SHIELD。但无法确定当前用户表述的“刹车”对应哪一个设置)。对于传统的对话***,此处语义解析失败,导致当前轮的任务无法执行,用户需求也就没有满足。
本发明提出对于口语化槽位解析失败情形,对话管理模块增加用户多轮引导,给用户列举可选的规范化的表述方式,引导用户在下一轮交互时使用规范用语,进而完成当前对话任务。
第一轮:用户query=空调吹刹车。此时语义解析:领域domain=空调,意图intention=空调控制,槽位slots={风向=<刹车,?>},其中,风向为待设置的槽位,‘刹车’为解析出的槽位字符串,‘?’表示未找到对应的槽位值。此时触发口语化槽位无法解析情形,进入对话管理的多轮对话引导的处理流程。在对话管理中,轮数turn=1,状态state={intention=空调控制,slots={风向=<刹车,?>,温度=?,模式=?,动作=?}},行动action=引导(<风向,候选=【脸,脚,车窗,挡风玻璃】>),表示当前轮需要采取引导,给出空调风向值的候选。经过回复生成模块,根据意图intention和行动action,通过预定义的模版,生成回复话术tts:‘找到四个空调风向选项,您选哪一个?’同时屏幕会显示(display)这四个选项:[空调吹脚,空调吹脸,空调吹车窗,空调吹挡风玻璃],供用户选择。
第二轮:用户query=吹脚。此时语义解析会根据屏幕的显示列表选项与query进行文本匹配,成功匹配后,得到语义结果:领域domain=指令,意图intention=选择,槽位slots={匹配=<吹脚,脚>},表示成功匹配到空调吹脚选项。此时,对话管理模块修改对话状态:turn=2,state={intention=空调控制,slots={风向=<刹车,FOOT>}},action=执行,其中,由于语义解析是选择意图,因此当前对话intention仍然保持上一轮不变,同时将用户选择结果赋值到对话状态的slots的对应位置风向=<刹车,FOOT>},到此槽位成功解析,因此行动action为执行操作。回复生成模块根据当前意图intention和行动action,通过预定义的模版,生成回复话术tts:‘好的’。
参见图4,在以上对话***基础上,利用用户对话中的选择行为数据,经过统计分析,产出槽位值对标注数据,用于语义理解模型的反馈训练和迭代,形成‘确认误差-用户反馈-数据挖掘-模型训练-重新部署’的数据闭环,持续提升口语化槽位的解析效果,达到更好的对话体验。具体流程如下:
对话***将用户的反馈行为打点记录到日志***中。
从日志平台,从大量用户日志中筛选出满足规则的槽位解析失败且引导成功的记录:第一轮对话action为引导,第二轮对话intention为选择意图。例如上例中的示例,可以筛选出如下日志:
turn 1:query=空调吹刹车
intention=空调控制
slots={风向=<刹车,?>}
action=引导(<风向,候选=[脚,脸,车窗,挡风玻璃]>)
turn 2:query=吹脚
intention=选择
slots=风向=<刹车,FOOT>
基于以上筛选出的日志,挖掘槽位值对数据,并转化为语义理解所需的训练数据。首先由turn 1的slot可知当前风向槽位‘刹车’解析失败,并向用户进行进一步引导澄清;其次,由turn 2可知,用户选择了引导选项中的‘脚’;最后,将风向槽位‘刹车’与规范化选项‘FOOT’建立关联,进而获得槽位值对:风向=<刹车,FOOT>。
将上一步挖掘出的槽位值对,连同原始query和意图intention,合并后扩充入库到语义理解模块的训练数据中。
当训练数据更新到一定规模或到达预定模型更新时间后,触发语义理解模型训练任务,经过测试后部署到线上对话***。
经过上述数据挖掘和模型迭代流程后,更新后语义模型具备更强的解析能力,例如,下次用户类似的query(空调吹刹车),对话***可以成功解析出风向槽位为FOOT,此时不再需要进行对话引导了,可以直接执行用户指令。
本申请的车载用语音控制方法能够解决现有的语义解析中口语化槽位解析失败情形下的对话问题,帮助用户通过对话完成指令。这也便于新的对话技能冷启动。
且本申请还提供了针对口语化稀疏性槽位的语义理解模型的反馈训练流程,形成数据驱动的迭代闭环,解决对话***中的口语化槽位稀疏长尾问题,全面提升车内语音交互体验。
本申请还提供了一种车载用语音控制装置,所述车载用多屏控制装置包括结构化语义组获取模块、判断模块、引导信息生成模块、反馈获取模块以及发送模块,结构化语义组获取模块用于获取结构化语义组;判断模块用于判断能否根据结构化语义组执行所需要执行的命令;引导信息生成模块用于在所述判断模块判断为否后,根据结构化语义组生成引导信息并发送给人机互动装置;反馈获取模块用于获取使用者根据引导信息所反馈的命令信息;发送模块用于将所述命令信息传递给对应的执行机构,以使对应的执行机构根据命令信息进行工作。
需要说明的是,前述对方法实施例的解释说明也适用于本实施例的装置,此处不再赘述。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的车载用语音控制方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的车载用语音控制方法。
图2是能够实现根据本申请一个实施例提供的车载用语音控制方法的电子设备的示例性结构图。
如图2所示,电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与电子设备的其他组件连接。具体地,输入设备504接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到电子设备的外部供用户使用。
也就是说,图2所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的车载用语音控制方法。
在一个实施例中,图2所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的车载用语音控制方法。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本实施例中所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上,但其实并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此,本申请的保护范围应当以本申请权利要求所界定的范围为准。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种车载用语音控制方法,其特征在于,所述车载用语音控制方法包括:
步骤1:获取结构化语义组;
步骤2:判断能否根据所述结构化语义组执行所需要执行的命令,若否,则
步骤3:根据所述结构化语义组生成引导信息并发送给人机互动装置;
步骤4:获取使用者根据所述引导信息所反馈的命令信息;
步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作。
2.如权利要求1所述的车载用语音控制方法,其特征在于,
所述结构化语义组包括槽位值对信息;
所述步骤2:判断能否根据所述结构化语义组执行所需要执行的命令包括:
获取预设槽位值对数据库,所述预设槽位值对数据库包括至少一个预设槽位值对信息;
判断是否有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息中的槽位值对应,若否,则
判断不能根据所述结构化语义组执行所需要执行的命令;
所述步骤3:根据所述结构化语义组生成引导信息包括:
获取引导语数据库,所述引导语数据库包括至少一个引导条件以及各个引导条件对应的引导组;
判断所述结构化语义组是否符合所述引导语数据库中的一个引导条件,若是,则
获取该引导条件所对应的引导组;
根据所述引导组生成引导信息。
3.如权利要求2所述的车载用语音控制方法,其特征在于,在所述获取结构化语义组之前,所述车载用语音控制方法进一步包括:
获取使用者的语音信息;
解析所述语音信息,从而获取所述结构化语义组。
4.如权利要求2所述的车载用语音控制方法,其特征在于,所述获取使用者根据所述引导信息所反馈的命令信息为语音信息和/或基于所述引导信息的互动指令信息。
5.如权利要求4所述的车载用语音控制方法,其特征在于,当所述命令信息为语音信息时,所述步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作包括:
解析所述语音信息,从而获取反馈的结构化语义组;
判断能否根据所述反馈的结构化语义组执行所需要执行的命令,若是,则
根据所述反馈的结构化语义组生成执行命令;
将所述执行命令传递给对应的执行机构,以使对应的执行机构根据所述执行命令进行工作。
6.如权利要求5所述的车载用语音控制方法,其特征在于,所述步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作进一步包括:
判断能否根据所述结构化语义组执行所需要执行的命令,若否,则
重复所述步骤2至步骤4。
7.如权利要求6所述的车载用语音控制方法,其特征在于,在所述判断能否根据所述反馈的结构化语义组执行所需要执行的命令,若是后,所述车载用语音控制方法进一步包括:
根据所述反馈的结构化语义组更新所述预设槽位值对数据库,从而使预设槽位值对数据库中有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息对应。
8.如权利要求4所述的车载用语音控制方法,其特征在于,当所述获取使用者根据所述引导信息所反馈的命令信息为基于所述引导信息的互动指令信息时,所述步骤5:将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作包括:
根据所述互动指令信息生成执行命令;
将所述执行命令传递给对应的执行机构,以使对应的执行机构根据所述执行命令进行工作。
9.如权利要求8所述的车载用语音控制方法,其特征在于,在所述根据所述互动指令信息生成执行命令后,所述车载用语音控制方法进一步包括:
根据所述互动指令信息更新所述预设槽位值对数据库,从而使预设槽位值对数据库中有一个预设槽位值对信息中的预设槽位值与所述槽位值对信息对应。
10.一种车载用语音控制装置,其特征在于,所述车载用多屏控制装置包括:
结构化语义组获取模块,所述结构化语义组获取模块用于获取结构化语义组;
判断模块,所述判断模块用于判断能否根据所述结构化语义组执行所需要执行的命令;
引导信息生成模块,所述引导信息生成模块用于在所述判断模块判断为否后,根据所述结构化语义组生成引导信息并发送给人机互动装置;
反馈获取模块,所述反馈获取模块用于获取使用者根据所述引导信息所反馈的命令信息;
发送模块,所述发送模块用于将所述命令信息传递给对应的执行机构,以使对应的执行机构根据所述命令信息进行工作。
CN202210456056.2A 2022-04-27 2022-04-27 一种车载用语音控制方法以及装置 Pending CN114842847A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210456056.2A CN114842847A (zh) 2022-04-27 2022-04-27 一种车载用语音控制方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210456056.2A CN114842847A (zh) 2022-04-27 2022-04-27 一种车载用语音控制方法以及装置

Publications (1)

Publication Number Publication Date
CN114842847A true CN114842847A (zh) 2022-08-02

Family

ID=82568444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210456056.2A Pending CN114842847A (zh) 2022-04-27 2022-04-27 一种车载用语音控制方法以及装置

Country Status (1)

Country Link
CN (1) CN114842847A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565532A (zh) * 2022-12-02 2023-01-03 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5685000A (en) * 1995-01-04 1997-11-04 U S West Technologies, Inc. Method for providing a linguistically competent dialogue with a computerized service representative
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
US20160225370A1 (en) * 2015-01-30 2016-08-04 Microsoft Technology Licensing, Llc Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
DE102018113034A1 (de) * 2017-11-28 2019-05-29 Hyundai Motor Company Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
CN110111787A (zh) * 2019-04-30 2019-08-09 华为技术有限公司 一种语义解析方法及服务器
US20200120395A1 (en) * 2018-10-16 2020-04-16 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111399629A (zh) * 2018-12-29 2020-07-10 Tcl集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN112349283A (zh) * 2019-08-09 2021-02-09 杭州九阳小家电有限公司 一种基于用户意图的家电控制方法及智能家电
US20210065685A1 (en) * 2019-09-02 2021-03-04 Samsung Electronics Co., Ltd. Apparatus and method for providing voice assistant service
CN112530428A (zh) * 2020-11-26 2021-03-19 深圳Tcl新技术有限公司 语音交互方法及装置、终端设备、计算机可读存储介质
WO2022001013A1 (zh) * 2020-06-28 2022-01-06 广州橙行智动汽车科技有限公司 语音交互方法、车辆、服务器、***和存储介质
WO2022059979A1 (ko) * 2020-09-21 2022-03-24 삼성전자주식회사 전자 장치 및 그 제어 방법

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5685000A (en) * 1995-01-04 1997-11-04 U S West Technologies, Inc. Method for providing a linguistically competent dialogue with a computerized service representative
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
US20160225370A1 (en) * 2015-01-30 2016-08-04 Microsoft Technology Licensing, Llc Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
DE102018113034A1 (de) * 2017-11-28 2019-05-29 Hyundai Motor Company Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
US20200120395A1 (en) * 2018-10-16 2020-04-16 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111399629A (zh) * 2018-12-29 2020-07-10 Tcl集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN110111787A (zh) * 2019-04-30 2019-08-09 华为技术有限公司 一种语义解析方法及服务器
CN112349283A (zh) * 2019-08-09 2021-02-09 杭州九阳小家电有限公司 一种基于用户意图的家电控制方法及智能家电
US20210065685A1 (en) * 2019-09-02 2021-03-04 Samsung Electronics Co., Ltd. Apparatus and method for providing voice assistant service
WO2022001013A1 (zh) * 2020-06-28 2022-01-06 广州橙行智动汽车科技有限公司 语音交互方法、车辆、服务器、***和存储介质
WO2022059979A1 (ko) * 2020-09-21 2022-03-24 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112530428A (zh) * 2020-11-26 2021-03-19 深圳Tcl新技术有限公司 语音交互方法及装置、终端设备、计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565532A (zh) * 2022-12-02 2023-01-03 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110807332B (zh) 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN108305634B (zh) 解码方法、解码器及存储介质
KR102447513B1 (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
CN110795945B (zh) 一种语义理解模型训练方法、语义理解方法、装置及存储介质
EP3201770B1 (en) Methods and apparatus for module arbitration
CN110807333B (zh) 一种语义理解模型的语义处理方法、装置及存储介质
CN104538024A (zh) 语音合成方法、装置及设备
CN113539242A (zh) 语音识别方法、装置、计算机设备及存储介质
US11069351B1 (en) Vehicle voice user interface
CN112017642B (zh) 语音识别的方法、装置、设备及计算机可读存储介质
EP4086893A1 (en) Natural language understanding method and device, vehicle and medium
CN113421561B (zh) 语音控制方法、语音控制装置、服务器和存储介质
CN114842847A (zh) 一种车载用语音控制方法以及装置
CN115148212A (zh) 一种语音交互方法、智能设备及***
US20240046931A1 (en) Voice interaction method and apparatus
US11211056B1 (en) Natural language understanding model generation
CN112863496A (zh) 一种语音端点检测方法以及装置
KR102389179B1 (ko) 차량 AVN 시스템의 상태 정보를 이용한 차량앱 제어 방법 및 이를 이용한 AI Service Agent
CN111261149A (zh) 语音信息识别方法和装置
US11907676B1 (en) Processing orchestration for systems including distributed components
CN107967308B (zh) 一种智能交互的处理方法、装置、设备和计算机存储介质
CN117316159B (zh) 车辆语音控制方法、装置、设备及存储介质
CN112509573B (zh) 一种语音识别的方法、装置
CN117496972B (zh) 一种音频识别方法、音频识别装置、车辆和计算机设备
CN116168704B (zh) 语音交互的引导方法、装置、设备、介质及车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination