CN112309373A

CN112309373A - 一种自定义车载语音技能的***及方法

Info

Publication number: CN112309373A
Application number: CN202011039892.8A
Authority: CN
Inventors: 谢志华; 王满红
Original assignee: Huizhou Desay SV Automotive Co Ltd
Current assignee: Huizhou Desay SV Automotive Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-02-02

Abstract

本发明涉及一种自定义车载语音技能的***，包括自定义语音技能训练引擎，用于用户自定义语音技能的触发、训练、验证、生成及场景选配。自定义语音技能执行引擎，用于用户使用语音请求的输入、解析、场景识别、语义仲裁、匹配及执行。自定义语音技能管理公共模块，负责训练生成语音技能配置的统一存储及使用自定义语音技能时提供相应的检索服务。自定义语音技能显示公共模块，负责训练和使用自定义语音技能过程中的界面交互及对话语料管理。本发明通过自定义语音技能，用户能体验到原有车载语音控制产品没有的功能，且更符合个人用户的实际需求，提高技能识别率，特别是模糊意图的识别率。

Description

一种自定义车载语音技能的***及方法

技术领域

本发明涉及汽车电子技术领域，尤其涉及一种自定义车载语音技能的***及方法。

背景技术

许多中高档的汽车车载平台，都配有语音控制的功能，方便主驾或副驾在行车中使用。目前车载语音主要使用三方SDK(SDK就是Software Development Kit的缩写,中文意思就是软件开发工具包)原有语音技能或者聚合三方语音技能的方案，虽然可以满足常用车载语音控制的需求，但造成各车厂语音控制功能大同小异，产品差异化竞争优势很不明显。覆盖三方已有语音技能虽然实现了常用语音功能的控制，但因缺少实际车载场景的感知，实际语音技能执行效果可能无法满足用户在实际场景下的联动需求，另外某些不常用说法三方语音技能也覆盖不全，已有技能用户如果有自己的偏好说法覆盖不到，造成体验不智能。现有三方语音方案CP(CP是Content Provider的简称，即内容提供商或者内容提供器)资源一旦确定不会修改，但实际上用户在车内同一功能可能有不同的CP需求，比如听音乐，有些人喜欢用QQ音乐，有些人喜欢用酷我音乐，等等，现有方案用户设置自己的喜好很不方便。现有车载语音产品的用户参与，仅限于个性化设置和新需求反馈搜集，而缺少用户定义产品功能和及时体验产品功能的特性。

由上可以看出，现有的车载语音控制***，存在以下的缺陷：

(1)大多采用三方语音成品解决方案，功能配置标准化，同质化严重，基本不存在用户专用的个性化语音控制技能，也就很难体现产品的差异化；

(2)功能体验千篇一律，缺乏车载真实场景的感知，也就无法实现响应场景下的个性化联动，另外由于不同用户间存在使用同一功能的语言习惯差异，现有语音技能也无法覆盖所有用户不同的说法指令，特别是模糊意图识别；

(3)提供APP或者服务商出厂时已经固定，用户无法切换为自己喜好的APP或者服务商；

(4)虽然也有一些个性化TTS(TTS是Text To Speech的缩写，即“从文本到语音”，是指一项语音合成技术)设置等功能，但对于语音技能，用户仅有使用的权限，没有增加个性化的语音功能的入口，互动性一般。

针对这些问题，我们发明了一种自定义车载语音技能的***及方法。

发明内容

本发明的发明目的在于解决现有的车载语音控制***，基本不存在用户专用的个性化语音控制技能，很难体现产品的差异化，缺乏车载真实场景的感知，无法覆盖所有用户不同的说法指令，用户无法切换为自己喜好的APP或者服务商，虽然也有一些个性化TTS设置等功能，但对于语音技能，用户仅有使用的权限，没有增加个性化语音功能的入口的问题。其具体解决方案如下：

一种自定义车载语音技能的***，包括：

自定义语音技能训练引擎，作为用户定义个性化功能的部分，用于用户自定义语音技能的触发、训练、验证、生成及场景选配；

自定义语音技能执行引擎，作为用户使用个性化功能的部分，用于用户使用语音请求的输入、解析、场景识别、语义仲裁、匹配及执行；

自定义语音技能管理公共模块，作为自定义语音技能训练和使用的公共存储模块，负责训练生成语音技能配置的统一存储及使用自定义语音技能时提供相应的检索服务；

自定义语音技能显示公共模块，作为自定义语音技能训练和使用的公共显示模块，负责训练和使用自定义语音技能过程中的界面交互及对话语料管理；

所述自定义语音技能训练引擎、自定义语音技能执行引擎、自定义语音技能管理公共模块、自定义语音技能显示公共模块的接口通过软件耦合。

进一步地，所述自定义语音技能训练引擎包括：

自定义语音技能触发模块，负责响应、仲裁和解析用户启动自定义语音技能的请求；

自定义语音技能训练模块，负责通过多轮对话的方式学习用户自定义语音技能的具体过程；

车载语音技能验证模块，负责对自定义语音技能进行有效性验证；

自定义语音技能生成模块，负责将用户自定义语音技能转换为统一的配置协议格式；

车载场景选择模块，负责为用户提供预置的可选自定义语音技能使用场景；

所述自定义语音技能执行引擎包括：

语音请求输入模块，负责响应和分发用户的语音指令；

原语音技能解析模块，负责出厂时自带语音技能意图解析；

车载场景识别模块，负责识别当前的车载语音交互场景，包括对话上下文、用户位置、车机***状态、车身部件状态；

车载语音技能仲裁模块，负责对自定义语音技能和原有语音技能进行仲裁决策；

自定义语音技能匹配模块，负责获取对应自定义语音技能配置；

自定义语音技能执行模块，负责解析配置并执行相关语音技能响应流程。

一种自定义车载语音技能的方法，使用上述一种自定义车载语音技能的***，包括自定义语音技能训练方法和自定义语音技能使用方法两部分，所述自定义语音技能训练方法，按照以下步骤进行：

步骤1，用户自定义语音技能输入，***解析并判断，引导用户选择；

步骤2，启动自定义语音技能训练流程，引导用户完成自定义语音技能的单步配置；

步骤3，***对自定义语音技能进行有效性验证，并判断是否已经支持，提醒和引导用户需要设置目前支持的技能，询问用户是否设置完成或继续训练，若用户确认完成，则训练流程结束，若用户确认未完成或继续训练，则循环步骤2；

步骤4，***配置并存储自定义语音技能，弹出技能确认界面，询问用户是否追加相似指令及确认完成，如果追加，则转步骤2，如果确认完成，则下一步；

步骤5，生成新的自定义语音技能并提示用户选择对应使用车载场景；

所述自定义语音技能使用方法，按照以下步骤进行：

步骤6，用户输入语音指令；

步骤7，获取***分发识别结果；

步骤8，***识别当前车载场景；

步骤9，***进行语义仲裁，***优先选择自定义语音技能，若场景适用，则下一步，若与***不匹配，则选择原有语义技能，若不属于原有语义技能，则引导用户训练新技能，转步骤2；

步骤10，***获取自定义语音技能配置；

步骤11，***执行自定义语音技能指令。

进一步地，步骤1中，所述***通过自定义语音技能触发模块接收用户自定义语音技能的请求输入，解析是否属于已有技能，如果是，则提示用户是否需要更新，用户选择更新后进入自定义语音技能训练流程；如果不是已有技能，则直接进入自定义语音技能训练流程；自定义语音技能触发模块会调用自定义语音技能显示公共模块，获取自定义语音技能训练引导界面和语料。

进一步地，步骤2中，所述自定义语音技能训练流程为多轮对话过程，过程中的交互界面和语料，从自定义语音技能显示公共模块获取。

进一步地，步骤4中，所述***通过自定义语音技能生成模块，调用自定义语音技能显示公共模块，获取技能定义确认界面及提示语，并将多轮对话过程转换成自定义语音技能配置文件或者数据格式；所述用户可选择通过手动或者语音输入追加相似语音指令，若选择追加相似语音指令，等用户完成相似指令录入后，再更新自定义语音技能配置文件或者数据格式；用户可手动修改自定义技能过程中是否需要等待每一步完成后才能进行下一步，默认为需要等待，针对一些特定技能不允许用户修改等待标志。

进一步地，步骤5中，通过自定义语音技能生成模块，调用车载场景选择模块，来为当前自定义语音技能选择适用场景，默认选择全场景通用，用户还可选择子场景，其中子场景可根据访客身份进行细分；自定义语音技能生成模块，将生成的配置文件路径或者数据存储到自定义语音技能管理公共模块。

进一步地，步骤7中，所述***同时分发用户输入语音指令，给自定义语音技能匹配模块及原语音技能解析模块，获取二者的返回结果。

进一步地，步骤8中，所述***通过车载场景识别模块根据用户位置及***状态，识别当前的场景，并将上一步收到的识别结果一起发送给车载语音技能仲裁模块。

进一步地，步骤10中，所述***通过自定义语音技能匹配模块，从自定义语音技能管理公共模块，读取自定义语音技能的具体配置文件内容，并发送给自定义语音技能执行模块。

综上所述，采用本发明的技术方案具有以下有益效果：

本发明解决了现有的车载语音控制***，基本不存在用户专用的个性化语音控制技能，很难体现产品的差异化，缺乏车载真实场景的感知，无法覆盖所有用户不同的说法指令，用户无法切换为自己喜好的APP或者服务商，虽然也有一些个性化TTS设置等功能，但对于语音技能，用户仅有使用的权限，没有增加个性化语音功能的入口的问题。本发明具有以下优点：

(1)通过自定义语音技能，用户能体验到原有车载语音控制产品没有的功能，且更符合个人用户的实际需求；

(2)能同时满足车载场景下的个性化联动需求，又能覆盖到用户偏好的说法；

(3)提高技能识别率，特别是模糊意图的识别率；

(4)能吸引用户用语音的欲望，提升用户参与感和产品体验。

本发明的创新点在于用户可通过语音多轮对话的方式直接训练新建或者修改属于自己的个性化车载语音技能，实现车载语音功能千人千面的体验效果。该发明包括车载语音技能自定义训练引擎和执行引擎，适用于现有车载语音控制无法识别或者识别不符合用户期望的场景，用户通过训练引擎可自定义个性化语音技能，针对无法识别的场景，训练引擎会主动引导用户完成整个自定义语音技能的训练过程；针对识别不符合期望的场景，用户也可以自主控制修改原有语音技能，从而生成个人专属的车载语音控制技能。训练好自定义车载语音技能，用户使用车载语音功能时，除了能使用原有语音技能，还能在已训练的场景下使用自己的专属技能。该发明一方面能解决现有车载语音控制功能同质化严重，缺乏个性化的痛点，另一方面还可以弥补现有车载语音控制意图识别覆盖不全以及识别不符合用户期望的缺点，还能增加用户参与车内语音控制的互动频率，提升车载语音产品的用户粘性。所以该发明能很好的弥补现有车载语音产品的体验不足，提升产品的个性化体验和智能性，同时具备很强的实用性。本发明通过允许用户自定义语音技能，可以实现原有车载语音功能无法覆盖的场景，并且还能实现用户个性化的语音控制功能。出厂时语音功能固定且数量有限，但通过允许用户自定义语音技能，车载语音控制的技能可以无限增加，每个用户都能拥有自己的语音控制功能，如语音联动控制场景，产品差异化明显，智能性和实用性也明显提升。另外，通过自定义语音技能，用户还能训练符合自己语言习惯的语音控制功能，提高技能识别率，特别是模糊意图的识别率，也可以修改原有语音功能不满足个人需求的服务提供商或者APP，充分满足个人喜好。最后通过自定义语音技能，能很大程度上吸引用户用语音的欲望，提升用户参与感和产品体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还能够根据这些附图获得其他的附图。

图1为本发明一种自定义车载语音技能的***的方框图；

图2为本发明一种自定义车载语音技能的方法的流程图。

附图标记说明：

11-自定义语音技能触发模块，12-自定义语音技能训练模块，13-车载语音技能验证模块，14-自定义语音技能生成模块，15-车载场景选择模块，21-语音请求输入模块，22-原语音技能解析模块，23-车载场景识别模块，

24-车载语音技能仲裁模块，25-自定义语音技能匹配模块，26-自定义语音技能执行模块，100-自定义语音技能训练引擎，200-自定义语音技能执行引擎，300-自定义语音技能管理公共模块，400-自定义语音技能显示公共模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种自定义车载语音技能的***，包括：

自定义语音技能训练引擎100，作为用户定义个性化功能的部分，用于用户自定义语音技能的触发、训练、验证、生成及场景选配。

自定义语音技能执行引擎200，作为用户使用个性化功能的部分，用于用户使用语音请求的输入、解析、场景识别、语义仲裁、匹配及执行。

自定义语音技能管理公共模块300，作为自定义语音技能训练和使用的公共存储模块，负责训练生成语音技能配置的统一存储及使用自定义语音技能时提供相应的检索服务。

自定义语音技能显示公共模块400，作为自定义语音技能训练和使用的公共显示模块，负责训练和使用自定义语音技能过程中的界面交互及对话语料管理。

自定义语音技能训练引擎100、自定义语音技能执行引擎200、自定义语音技能管理公共模块300、自定义语音技能显示公共模块400的接口通过软件耦合。

进一步地，自定义语音技能训练引擎100包括：

自定义语音技能触发模块11，负责响应、仲裁和解析用户启动自定义语音技能的请求。

自定义语音技能训练模块12，负责通过多轮对话的方式学习用户自定义语音技能的具体过程。

车载语音技能验证模块13，负责对自定义语音技能进行有效性验证。

自定义语音技能生成模块14，负责将用户自定义语音技能转换为统一的配置协议格式。

车载场景选择模块15，负责为用户提供预置的可选自定义语音技能使用场景。

自定义语音技能执行引擎200包括：

语音请求输入模块21，负责响应和分发用户的语音指令。

原语音技能解析模块22，负责出厂时自带语音技能意图解析。

车载场景识别模块23，负责识别当前的车载语音交互场景，包括对话上下文、用户位置、车机***状态、车身部件状态。

车载语音技能仲裁模块24，负责对自定义语音技能和原有语音技能进行仲裁决策。

自定义语音技能匹配模块25，负责获取对应自定义语音技能配置。

自定义语音技能执行模块26，负责解析配置并执行相关语音技能响应流程。

如图2所示，一种自定义车载语音技能的方法，使用上述一种自定义车载语音技能的***，包括自定义语音技能训练方法和自定义语音技能使用方法两部分，自定义语音技能训练方法，按照以下步骤进行：

步骤S1，用户自定义语音技能输入，***解析并判断，引导用户选择；

(***通过自定义语音技能触发模块11接收用户自定义语音技能的请求输入，解析是否属于已有技能，如果是，则提示用户是否需要更新，用户选择更新后进入自定义语音技能训练流程；如果不是已有技能，则直接进入自定义语音技能训练流程；自定义语音技能触发模块11会调用自定义语音技能显示公共模块400，获取自定义语音技能训练引导界面和语料。)

步骤S2，启动自定义语音技能训练流程，引导用户完成自定义语音技能的单步配置；(自定义语音技能训练流程为多轮对话过程，过程中的交互界面和语料，从自定义语音技能显示公共模块400获取。)

步骤S3，***(通过车载语音技能验证模块13)对自定义语音技能进行有效性验证，并判断是否已经支持，提醒和引导用户需要设置目前支持的技能，S3-1询问用户是否设置完成或继续训练，S3-2若用户确认完成，则训练流程结束，S3-3若用户确认未完成或继续训练，则循环步骤S2；

(当有效性验证通不过时，允许用户重试3-5次，如果仍然无效，则***提示自定义语音技能失败。)

步骤S4，***配置并存储自定义语音技能，弹出技能确认界面，S4-1询问用户是否追加相似指令及确认完成，如果追加，则转步骤S2，如果确认完成，则下一步；

(***通过自定义语音技能生成模块14，调用自定义语音技能显示公共模块400，获取技能定义确认界面及提示语，并将多轮对话过程转换成自定义语音技能配置文件或者数据格式。用户可选择通过手动或者语音输入追加相似语音指令，若选择追加相似语音指令，等用户完成相似指令录入后，再更新自定义语音技能配置文件或者数据格式。用户可手动修改自定义技能过程中是否需要等待每一步完成后才能进行下一步，默认为需要等待，针对一些特定技能不允许用户修改等待标志。)

步骤S5，生成新的自定义语音技能并提示用户选择对应使用车载场景；

(通过自定义语音技能生成模块14，调用车载场景选择模块15，来为当前自定义语音技能选择适用场景，默认选择全场景通用，用户还可选择子场景，其中子场景可根据访客身份进行细分，如车主/副驾等，也可以根据当前***用户模式进行细分，如成人模式/儿童模式等，还可以根据***应用厂技能进行细分，如导航场景/行车记录场景/充电场景等。自定义语音技能生成模块14，将生成的配置文件路径或者数据存储到自定义语音技能管理公共模块300中。)

自定义语音技能使用方法，按照以下步骤进行：

步骤S6，用户(通过语音请求输入模块21)输入语音指令；

步骤S7，获取***分发识别结果；(***同时分发用户输入语音指令，给自定义语音技能匹配模块25及原语音技能解析模块22，获取二者的返回结果。)

步骤S8，***识别当前车载场景；(***通过车载场景识别模块23根据用户位置及***状态，识别当前的场景，并将上一步收到的识别结果一起发送给车载语音技能仲裁模块24。)

步骤S9，***(通过车载语音技能仲裁模块24)进行语义仲裁，***优先选择自定义语音技能，S9-1若场景适用，则下一步，S9-2若与***不匹配，则选择原有语义技能，S9-3若不属于原有语义技能，则引导用户训练新技能，转步骤S2；

步骤S10，***获取自定义语音技能配置；(***通过自定义语音技能匹配模块25，从自定义语音技能管理公共模块300，读取自定义语音技能的具体配置文件内容，并发送给自定义语音技能执行模块26。)

步骤S11，***(通过自定义语音技能执行模块26)执行自定义语音技能指令。

以训练自定义早高峰模式语音技能为例说明如下：

用户输入“早高峰模式”，车载语音助理之前没有该技能，就会提示用户“抱歉，这个我还不会，能教教我嘛”，用户如果说“可以”，则直接进入自定义语音技能训练流程。车载语音助理提示用户“那请问你第一步希望做什么呢”，用户回答“收听头条新闻”。假设车载语音助理已有新闻技能，则提示用户“好的，记下了，是否还要继续？”，用户回答“继续”，车载语音助理又提示用户“下一步又做什么呢？”，用户回答“播放我收藏的音乐”，假设车载语音助理已有音乐技能，则提示用户“好的，记下了，是否还要继续？”，用户回答“不用了”，车载语音助理提示用户记录了所有对话过程。假设用户又手动或者语音输入了一条相似指令“早上好”然后点击确认，车载语音助理会将以上多轮对话过程更新为以下配置文件内容格式：

如用户选择默认场景时，自定义语音技能配置文件内容格式为：

以使用自定义早高峰模式语音技能为例说明如下：

用户输入“早高峰模式”，该技能因是车载语音助理的自定义技能，而原语音技能解析模块不支持该技能，所以返回结果时自定义语音技能识别成功，而原有语音技能解析模块识别失败或识别到闲聊等非垂类技能。车载语音助理识别到目前用户为车主，目前处于导航去公司场景中，会将目前识别到的用户身份、应用场景信息，以及自定义技能存在早高峰模式技能，原语音技能解析不存在早高峰模式技能信息一起发送给仲裁模块。车载语音助理根据之前的输入信息，判断目前用户希望执行的是早高峰模式自定义技能。早高峰模式的语音技能执行流格式如下：

综上所述，采用本发明的技术方案具有以下有益效果：

(3)提高技能识别率，特别是模糊意图的识别率；

(4)能吸引用户用语音的欲望，提升用户参与感和产品体验。

以上所述的实施方式，并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等，均应包含在该技术方案的保护范围之内。

Claims

1.一种自定义车载语音技能的***，其特征在于，包括：

2.根据权利要求1所述一种自定义车载语音技能的***，其特征在于，所述自定义语音技能训练引擎包括：

所述自定义语音技能执行引擎包括：

语音请求输入模块，负责响应和分发用户的语音指令；

原语音技能解析模块，负责出厂时自带语音技能意图解析；

3.一种自定义车载语音技能的方法，使用权利要求1至2中任一项所述一种自定义车载语音技能的***，其特征在于，包括自定义语音技能训练方法和自定义语音技能使用方法两部分，所述自定义语音技能训练方法，按照以下步骤进行：

所述自定义语音技能使用方法，按照以下步骤进行：

步骤6，用户输入语音指令；

步骤7，获取***分发识别结果；

步骤8，***识别当前车载场景；

步骤10，***获取自定义语音技能配置；

步骤11，***执行自定义语音技能指令。

4.根据权利要求3所述一种自定义车载语音技能的方法，其特征在于：步骤1中，所述***通过自定义语音技能触发模块接收用户自定义语音技能的请求输入，解析是否属于已有技能，如果是，则提示用户是否需要更新，用户选择更新后进入自定义语音技能训练流程；如果不是已有技能，则直接进入自定义语音技能训练流程；自定义语音技能触发模块会调用自定义语音技能显示公共模块，获取自定义语音技能训练引导界面和语料。

5.根据权利要求3所述一种自定义车载语音技能的方法，其特征在于：步骤2中，所述自定义语音技能训练流程为多轮对话过程，过程中的交互界面和语料，从自定义语音技能显示公共模块获取。

6.根据权利要求3所述一种自定义车载语音技能的方法，其特征在于：步骤4中，所述***通过自定义语音技能生成模块，调用自定义语音技能显示公共模块，获取技能定义确认界面及提示语，并将多轮对话过程转换成自定义语音技能配置文件或者数据格式；所述用户可选择通过手动或者语音输入追加相似语音指令，若选择追加相似语音指令，等用户完成相似指令录入后，再更新自定义语音技能配置文件或者数据格式；用户可手动修改自定义技能过程中是否需要等待每一步完成后才能进行下一步，默认为需要等待，针对一些特定技能不允许用户修改等待标志。

7.根据权利要求3所述一种自定义车载语音技能的方法，其特征在于：步骤5中，通过自定义语音技能生成模块，调用车载场景选择模块，来为当前自定义语音技能选择适用场景，默认选择全场景通用，用户还可选择子场景，其中子场景可根据访客身份进行细分；自定义语音技能生成模块，将生成的配置文件路径或者数据存储到自定义语音技能管理公共模块。

8.根据权利要求3所述一种自定义车载语音技能的方法，其特征在于：步骤7中，所述***同时分发用户输入语音指令，给自定义语音技能匹配模块及原语音技能解析模块，获取二者的返回结果。

9.根据权利要求3所述一种自定义车载语音技能的方法，其特征在于：步骤8中，所述***通过车载场景识别模块根据用户位置及***状态，识别当前的场景，并将上一步收到的识别结果一起发送给车载语音技能仲裁模块。

10.根据权利要求3所述一种自定义车载语音技能的方法，其特征在于：步骤10中，所述***通过自定义语音技能匹配模块，从自定义语音技能管理公共模块，读取自定义语音技能的具体配置文件内容，并发送给自定义语音技能执行模块。