CN112735387A - 一种自定义车载语音技能***及方法 - Google Patents
一种自定义车载语音技能***及方法 Download PDFInfo
- Publication number
- CN112735387A CN112735387A CN202011567689.8A CN202011567689A CN112735387A CN 112735387 A CN112735387 A CN 112735387A CN 202011567689 A CN202011567689 A CN 202011567689A CN 112735387 A CN112735387 A CN 112735387A
- Authority
- CN
- China
- Prior art keywords
- voice
- skill
- user
- module
- voice skill
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013515 script Methods 0.000 claims abstract description 77
- 230000009471 action Effects 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000003993 interaction Effects 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 19
- 230000004069 differentiation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000000265 homogenisation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及车载语音控制领域,具体公开一种自定义车载语音技能***及方法,通过设置自定义语音技能训练引擎、自定义语音技能执行引擎、自定义语音技能脚本管理公共模块以及自定义语音技能显示公共模块,实现自定义车载语音技能,满足人们车载语音个性化的追求,提升用户参与感和产品体验。通过语音训练流程录制用户的操作动作,将动作转化为统一的脚本格式,使得语音的自定义不受限制于TTS播报文本或者车辆控制指令文本,让语音控制指令有了更多的选择性。
Description
技术领域
本发明涉及车载语音控制领域,尤其涉及一种自定义车载语音技能***及方法。
背景技术
随着语音技术的广泛应用,目前在车辆控制领域,语音助手在汽车里的应用越来越普遍,人们依赖语音完成一些简单的车辆控制,带来操作的便捷性,但现有车载语音控制***存在几个问题:现有车载语音控制***大多采用三方语音成品解决方案,功能配置标准化,同质化严重,基本不存在用户专户的个性化语音控制技能,也就很难体现产品的差异化;现有车载语音控制***功能主要基于API接口对应用进行语音控制,但不是所有应用都会开放API接口给车载语音控制***,导致无法实现所有***应用的全语音控制,另外由于不同用户间存在使用同一功能的语言习惯差异,现有语音技能也无法覆盖所有用户不同的说法指令,特别是模糊意图识别;现有车载语音控制的技能提供APP或者服务商出厂时已经固定,用户无法切换为自己喜好的APP或者服务商;现有车载语音控制虽然也有一些个性化TTS设置等功能,但对于语音技能,用户仅有使用的权限,没有增加个性化的语音功能的入口,互动性一般。
发明内容
本发明提供自定义车载语音技能***及方法,解决的技术问题是现有车载语音控制没有个性化自定义语音控制功能。为解决以上技术问题,本发明提供一种自定义车载语音技能***,包括:自定义语音技能训练引擎、自定义语音技能执行引擎、自定义语音技能脚本管理公共模块以及自定义语音技能显示公共模块;
所述自定义语音技能训练引擎用于自定义语音技能,并将所述自定义语音技能转换为脚本格式;
所述自定义语音技能执行引擎用于接收并解析用户语音指令,判断当前车载语音交互场景,对自定义语音技能和原有语音技能进行仲裁决策,获取对应自定义语音技能脚本,解析并执行相应脚本;
所述自定义语音技能脚本管理公共模块用于训练生成语音技能脚本的统一存储;
所述自定义语音技能显示公共模块用于训练和使用自定义语音技能过程中的界面交互及对话语料管理。
进一步地,所述自定义语音技能训练引擎包括自定义语音技能触发模块、语音动作引擎训练模块、车载场景选择模块、自定义语音技能脚本生成模块;
所述自定义语音技能触发模块负责响应、仲裁和解析用户启动自定义语音技能的请求;
所述语音动作引擎训练模块负责录制用户手动操作演示过程;
所述车载场景选择模块负责为用户提供预置的可选自定义语音技能使用场景;
所述自定义语音技能脚本生成模块负责将用户录制的所述操作演示过程转换为统一的脚本格式。
进一步地,所述自定义语音技能执行引擎包括语音请求输入模块、原语音技能解析模块、车载场景识别模块、车载语音技能仲裁模块、自定义语音技能匹配模块、语音动作引擎执行模块;
所述语音请求输入模块负责响应和分发用户的语音指令;
所述原语音技能解析模块负责解析原有语音技能;
所述车载场景识别模块负责识别当前的车载语音交互场景;
所述车载语音技能仲裁模块负责对自定义语音技能和原有语音技能进行仲裁决策;
所述自定义语音技能匹配模块负责获取对应自定义语音技能脚本;
所述语音动作引擎执行模块负责解析并执行所述自定义语音技能脚本。
更进一步地,所述自定义语音技能脚本管理公共模块还用于使用自定义语音技能时提供相应的脚本检索服务。
更进一步地,所述车载语音交互场景,包括对话上下文、用户位置、车机***状态、车身部件状态。
本发明还提供一种自定义车载语音技能方法,包括步骤:
S1、所述自定义语音技能触发模块接收到用户自定义语音技能的请求,解析是否属于已有语音技能,如果是,则提示用户是否需要更新,用户选择是以后进入自定义语音技能训练流程,如果不是,则直接进入所述自定义语音技能训练流程,所述自定义语音技能触发模块会调用所述自定义语音技能显示公共模块获取自定义语音技能训练引导界面和语料;
S2、所述语音动作引擎训练模块启动录制技能流程,引导用户完成进行手动操作演示;
S3、用户手动操作演示希望执行的操作步骤,所述语音动作引擎训练模块会记录并转换所有的所述操作步骤为所述语音动作引擎执行模块可以识别的脚本。
进一步地,还包括步骤:
S4、所述自定义语音技能脚本生成模块负责调用所述自定义语音技能显示公共模块获取自定义语音技能定义确认界面及提示语;
S5、用户确认所述自定义语音技能训练完毕,所述自定义语音技能脚本生成模块会调用所述车载场景选择模块为当前自定义语音技能选择适用场景;
S6、用户确认场景选择完毕后,所述自定义语音技能脚本生成模块将生成的脚本文件路径或者数据存储到所述自定义语音技能脚本管理公共模块,技能训练完成,并引导用户及时体验。
进一步地,还包括步骤:
S7、所述语音请求输入模块接收到用户输入的语音指令,并同时分发给所述自定义语音技能匹配模块及原语音技能解析模块,判断属于自定义语音技能还是原有语音技能,获取二者的返回结果;
S8、所述车载场景识别模块根据用户位置及***状态识别当前的场景,并将上一步收到的结果一起发送给所述车载语音技能仲裁模块;
S9、所述车载语音技能仲裁模块根据上一步传递的信息决策优先选择自定义语音技能,若是自定义语音技能,且符合该自定义语音技能的适用场景,则不论是否属于原有语音技能,直接进入下一步,若不是自定义语音技能,或者虽然是自定义语音技能,但使用场景不匹配,则选择使用原有语义解析模块解析的技能,原有语义解析模块若识别到所述技能属于垂类技能,则执行该垂类技能,若属于非垂类技能,则引导用户训练新技能;
S10、所述自定义语音技能匹配模块从所述自定义语音技能脚本管理公共模块读取所述自定义语音技能的相应脚本文件内容并发送给所述语音动作引擎执行模块;
S11、所述语音动作引擎执行模块解析收到的所述自定义语音技能的相应脚本文件内容,根据所述脚本内容的顺序生成动作引擎可以识别的语音技能执行流;
S12、所述语音动作引擎执行模块驱动车载语音助理执行所述语音技能执行流,在执行过程中,所述语音动作引擎执行模块会调用所述自定义语音技能显示公共模块获取自定义语音技能执行状态界面和提示语料,直到技能执行完毕。
更进一步地,所述步骤S4还包括:用户还可以选择通过手动或者语音输入追加相似语音指令,若选择追加相似语音指令,则等用户完成相似指令录入后,再更新自定义语音技能脚本文件内容。
更进一步地,所述步骤S5还包括:所述车载场景选择模块默认选择全场景通用,用户还可以选择子场景,其中子场景可以根据访客身份进行细分,或者可以根据当前***用户模式进行细分,或者可以根据***出厂技能进行细分。
本发明实施例提供的一种自定义车载语音技能***及方法,通过允许用户自定义语音技能,可以实现原有车载语音功能无法覆盖的场景,并且还能实现用户个性化的语音控制功能。出厂时语音功能固定且数量有限,但通过允许用户自定义语音技能,车载语音控制的技能实现任意***应用任意操作的语音控制,每个用户都能定义自己的语音控制功能,如语音深度控制地图导航,产品差异化明显,智能性和实用性也明显提升。另外,通过自定义语音技能,用户还能训练符合自己语言习惯的语音控制功能,提高技能识别率,特别是模糊意图的识别率,也可以修改原有语音功能不满足个人需求的服务提供商或则和APP,充分满足个人喜好。最后通过自定义语音技能,能很大程度上吸引用户用语音的欲望,提升用户参与感和产品体验。且本发明方案设置语音动作引擎训练模块,可以录制用户的操作动作以转换为脚本,将语音的自定义不受限制于TTS播报文本或者车辆控制指令文本,使得控制指令有更多的选择性。
附图说明
图1是本发明实施例提供的一种自定义车载语音技能***图;
图2是本发明实施例提供的一种自定义车载语音技能训练方法流程图;
图3是本发明实施例提供的一种自定义车载语音技能实施方法流程图;
图4是本发明实施例提供的一种自定义语音技能执行流程图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
如图1所示,为本发明实施例提供的一种自定义车载语音技能***图,包括:自定义语音技能训练引擎、自定义语音技能执行引擎、自定义语音技能脚本管理公共模块以及自定义语音技能显示公共模块;
所述自定义语音技能训练引擎用于自定义语音技能,并将所述自定义语音技能转换为脚本格式;
所述自定义语音技能执行引擎用于接收并解析用户语音指令,判断当前车载语音交互场景,对自定义语音技能和原有语音技能进行仲裁决策,获取对应自定义语音技能脚本,解析并执行相应脚本;所述原有语音技能为出厂时车辆自带的语音技能。
所述自定义语音技能脚本管理公共模块用于训练生成语音技能脚本的统一存储以及使用自定义语音技能时提供相应的脚本检索服务;
所述自定义语音技能显示公共模块用于训练和使用自定义语音技能过程中的界面交互及对话语料管理。
进一步地,所述自定义语音技能训练引擎包括自定义语音技能触发模块、语音动作引擎训练模块、车载场景选择模块、自定义语音技能脚本生成模块;
所述自定义语音技能触发模块负责响应、仲裁和解析用户启动自定义语音技能的请求;
所述语音动作引擎训练模块负责录制用户手动操作演示过程;
所述车载场景选择模块负责为用户提供预置的可选自定义语音技能使用场景;
所述自定义语音技能脚本生成模块负责将用户录制的所述操作演示过程转换为统一的脚本格式。
进一步地,所述自定义语音技能执行引擎包括语音请求输入模块、原语音技能解析模块、车载场景识别模块、车载语音技能仲裁模块、自定义语音技能匹配模块、语音动作引擎执行模块;
所述语音请求输入模块负责响应和分发用户的语音指令;
所述原语音技能解析模块负责解析出厂时自带语音技能意图;
所述车载场景识别模块负责识别当前的车载语音交互场景,包括对话上下文、用户位置、车机***状态、车身部件状态;
所述车载语音技能仲裁模块负责对自定义语音技能和原有语音技能进行仲裁决策;
所述自定义语音技能匹配模块负责获取对应自定义语音技能脚本;
所述语音动作引擎执行模块负责解析并执行所述自定义语音技能脚本。
如图2所示,本发明方案训练语音技能其中一个实施例的工作流程如下,以训练自定义旅拍语音技能为例,假设车上有自带行车记录仪,并有配套控制APP,但没有旅拍模式功能,用户希望通过语音定义属于自己的旅拍模式功能:
步骤S1、自定义语音技能触发模块接收到用户自定义语音技能的请求,解析是否属于已有技能,如果是,则提示用户是否需要更新,用户选择是以后进入自定义语音技能训练流程,如果不是,则直接进入自定义语音技能训练流程,自定义语音技能触发模块会调用自定义语音技能显示公共模块获取自定义语音技能训练引导界面和语料;所述已有技能可以为已经自定义过的语音技能或者是出厂时***自带的语音技能;
如:用户语音输入“启动旅拍”,车载语音助理之前没有该技能,就会提示用户“抱歉,这个我还不会,能教教我嘛”,用户如果说“可以”或者点击同意,则直接进入自定义语音技能训练流程,若用户不同意则本轮交互结束。
步骤S2、语音动作引擎训练模块启动录制技能流程,引导用户完成进行手动操作演示,过程中的交互界面和语料也是从自定义语音技能显示公共模块获取;
如:车载语音助理提示用户已准备好,是否开始录制技能,用户选择开始则启动技能录制流程,进入动作录制状态;用户若退出录制,则本轮交互结束。
步骤S3、用户手动操作演示希望执行的操作步骤,语音动作引擎训练模块会记录所有步骤并将用户的操作抓换为语音动作引擎可以识别的脚本;
如:此时,用户可以录制以下动作,打开行车记录仪,点击开始录像,将录像切换为风景模式。
步骤S4、自定义语音技能脚本生成模块负责调用自定义语音技能显示公共模块获取技能定义确认界面及提示语,用户还可以选择通过手动或者语音输入追加相似语音指令,若选择追加相似语音指令,则等用户完成相似指令录入后,再更新自定义语音技能脚本文件内容;
如:用户在录制上述动作并确认生成自定义语音技能后,可以相似追加语音指令“我要拍风景”,此时会更新之前生成的自定义语音技能脚本文件内容。之后当用户说出“我要拍风景”时,会执行与“启动旅拍”相同的语音技能。
步骤S5、用户确认自定义语音技能训练完毕,自定义语音技能脚本生成模块会调用车载场景选择模块为当前自定义语音技能选择适用场景,默认选择全场景通用,用户还可以选择子场景,其中子场景可以根据访客身份进行细分,如车主/副驾等,也可以根据当前***用户模式进行细分,如成人模式/儿童模式等,还可以根据***应用厂技能进行细分,如导航场景/行车记录场景/充电场景等。
步骤S6、用户确认场景选择完毕后,自定义语音技能脚本生成模块将生成的配置文件路径或者数据存储到自定义语音技能脚本管理公共模块,技能训练完成,并引导用户及时体验。
如图3,本发明实施例提供的一种自定义车载语音技能实施方法的工作流程如下:
步骤S7、所述语音请求输入模块接收到用户输入的语音指令,并同时分发给所述自定义语音技能匹配模块及原语音技能解析模块,判断属于自定义语音技能还是原有语音技能,获取二者的返回结果;
如:用户输入“启动旅拍”,该技能因是车载语音助理的自定义技能,而原语音技能解析模块不支持该技能,所以返回结果时自定义语音技能识别成功,而原有语音技能解析模块识别失败或识别到闲聊等非垂类技能。
步骤S8、所述车载场景识别模块根据用户位置及***状态识别当前的场景,并将上一步收到的结果一起发送给所述车载语音技能仲裁模块;
如:车载语音助理识别到目前用户为车主,目前处于导航场景中,会将目前识别到的用户身份、应用场景信息,以及自定义语音技能存在旅拍技能,原语音技能解析不存在旅拍技能信息一起发送给车载语音技能仲裁模块;
步骤S9、所述车载语音技能仲裁模块根据上一步传递的信息决策优先选择自定义语音技能,若是自定义语音技能,且符合该自定义语音技能的适用场景,则不论是否属于原有语音技能,直接进入下一步,若不是自定义语音技能,或者虽然是自定义语音技能,但使用场景不匹配,则选择使用原有语义解析模块解析的技能,原有语义解析模块若识别到所述技能属于垂类技能,则执行该垂类技能,若属于非垂类技能,则引导用户训练新技能;
如:车载语音助理根据之前的输入信息,判断目前用户希望执行的是旅拍自定义技能,而非与车主闲聊有关旅行的信息。
S10、所述自定义语音技能匹配模块从所述自定义语音技能脚本管理公共模块读取所述自定义语音技能的相应脚本文件内容并发送给所述语音动作引擎执行模块;
S11、所述语音动作引擎执行模块解析收到的所述自定义语音技能的相应脚本文件内容,根据所述脚本内容的顺序生成动作引擎可以识别的语音技能执行流;
S12、所述语音动作引擎执行模块驱动车载语音助理执行所述语音技能执行流,在执行过程中,所述语音动作引擎执行模块会调用所述自定义语音技能显示公共模块获取自定义语音技能执行状态界面和提示语料,直到技能执行完毕;
如:旅拍自定义技能的执行流可以为,启动旅拍,打开行车记录仪,开始录像,将录像切换为风景模式,如图4所示。
本发明实施例提供的一种自定义车载语音技能***及方法,通过允许用户自定义语音技能,可以实现原有车载语音功能无法覆盖的场景,并且还能实现用户个性化的语音控制功能。出厂时语音功能固定且数量有限,但通过允许用户自定义语音技能,车载语音控制的技能实现任意***应用任意操作的语音控制,每个用户都能定义自己的语音控制功能,如语音深度控制地图导航,产品差异化明显,智能性和实用性也明显提升。另外,通过自定义语音技能,用户还能训练符合自己语言习惯的语音控制功能,提高技能识别率,特别是模糊意图的识别率,也可以修改原有语音功能不满足个人需求的服务提供商或则和APP,充分满足个人喜好。最后通过自定义语音技能,能很大程度上吸引用户用语音的欲望,提升用户参与感和产品体验。且本发明方案设置语音动作引擎训练模块,可以录制用户的操作动作以转换为脚本,将语音的自定义不受限制于TTS播报文本或者车辆控制指令文本,使得控制指令有更多的选择性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种自定义车载语音技能***,其特征在于,包括:自定义语音技能训练引擎、自定义语音技能执行引擎、自定义语音技能脚本管理公共模块以及自定义语音技能显示公共模块;
所述自定义语音技能训练引擎用于自定义语音技能,并将所述自定义语音技能转换为脚本格式;
所述自定义语音技能执行引擎用于接收并解析用户语音指令,判断当前车载语音交互场景,对自定义语音技能和原有语音技能进行仲裁决策,获取对应自定义语音技能脚本,解析并执行相应脚本;
所述自定义语音技能脚本管理公共模块用于训练生成语音技能脚本的统一存储;
所述自定义语音技能显示公共模块用于训练和使用自定义语音技能过程中的界面交互及对话语料管理。
2.如权利要求1所述的自定义车载语音技能***,其特征在于:
所述自定义语音技能训练引擎包括自定义语音技能触发模块、语音动作引擎训练模块、车载场景选择模块、自定义语音技能脚本生成模块;
所述自定义语音技能触发模块负责响应、仲裁和解析用户启动自定义语音技能的请求;
所述语音动作引擎训练模块负责录制用户手动操作演示过程;
所述车载场景选择模块负责为用户提供预置的可选自定义语音技能使用场景;
所述自定义语音技能脚本生成模块负责将用户录制的所述操作演示过程转换为统一的脚本格式。
3.如权利要求2所述的自定义车载语音技能***,其特征在于:
所述自定义语音技能执行引擎包括语音请求输入模块、原语音技能解析模块、车载场景识别模块、车载语音技能仲裁模块、自定义语音技能匹配模块、语音动作引擎执行模块;
所述语音请求输入模块负责响应和分发用户的语音指令;
所述原语音技能解析模块负责解析原有语音技能;
所述车载场景识别模块负责识别当前的车载语音交互场景;
所述车载语音技能仲裁模块负责对自定义语音技能和原有语音技能进行仲裁决策;
所述自定义语音技能匹配模块负责获取对应自定义语音技能脚本;
所述语音动作引擎执行模块负责解析并执行所述自定义语音技能脚本。
4.如权利要求1所述的自定义车载语音技能***,其特征在于:所述自定义语音技能脚本管理公共模块还用于使用自定义语音技能时提供相应的脚本检索服务。
5.如权利要求1所述的自定义车载语音技能***,其特征在于:所述车载语音交互场景,包括对话上下文、用户位置、车机***状态、车身部件状态。
6.一种自定义车载语音技能方法,其特征在于,包括步骤:
S1、所述自定义语音技能触发模块接收到用户自定义语音技能的请求,解析是否属于已有语音技能,如果是,则提示用户是否需要更新,用户选择是以后进入自定义语音技能训练流程,如果不是,则直接进入所述自定义语音技能训练流程,所述自定义语音技能触发模块会调用所述自定义语音技能显示公共模块获取自定义语音技能训练引导界面和语料;
S2、所述语音动作引擎训练模块启动录制技能流程,引导用户完成手动操作演示;
S3、用户手动操作演示希望执行的操作步骤,所述语音动作引擎训练模块会记录并转换所有的所述操作步骤为所述语音动作引擎执行模块可以识别的脚本。
7.如权利要求6所述的自定义车载语音技能方法,其特征在于,还包括步骤:
S4、所述自定义语音技能脚本生成模块负责调用所述自定义语音技能显示公共模块获取自定义语音技能定义确认界面及提示语;
S5、用户确认所述自定义语音技能训练完毕,所述自定义语音技能脚本生成模块会调用所述车载场景选择模块为当前自定义语音技能选择适用场景;
S6、用户确认场景选择完毕后,所述自定义语音技能脚本生成模块将生成的脚本文件路径或者数据存储到所述自定义语音技能脚本管理公共模块,技能训练完成,并引导用户及时体验。
8.如权利要求7所述的自定义车载语音技能方法,其特征在于,还包括步骤:
S7、所述语音请求输入模块接收到用户输入的语音指令,并同时分发给所述自定义语音技能匹配模块及原语音技能解析模块,判断属于已有自定义语音技能还是原有语音技能,获取二者的返回结果;
S8、所述车载场景识别模块根据用户位置及***状态识别当前的场景,并将上一步收到的结果一起发送给所述车载语音技能仲裁模块;
S9、所述车载语音技能仲裁模块根据上一步传递的信息决策优先选择自定义语音技能,若是已有自定义语音技能,且符合该自定义语音技能的适用场景,则不论是否属于原有语音技能,直接进入下一步,若不是自定义语音技能,或者虽然是自定义语音技能,但使用场景不匹配,则选择使用原有语义解析模块解析的技能,原有语义解析模块若识别到所述技能属于垂类技能,则执行该垂类技能,若属于非垂类技能,则引导用户训练新技能;
S10、所述自定义语音技能匹配模块从所述自定义语音技能脚本管理公共模块读取所述自定义语音技能的相应脚本文件内容并发送给所述语音动作引擎执行模块;
S11、所述语音动作引擎执行模块解析收到的所述自定义语音技能的相应脚本文件内容,根据所述脚本内容的顺序生成动作引擎可以识别的语音技能执行流;
S12、所述语音动作引擎执行模块驱动车载语音助理执行所述语音技能执行流,在执行过程中,所述语音动作引擎执行模块会调用所述自定义语音技能显示公共模块获取自定义语音技能执行状态界面和提示语料,直到技能执行完毕。
9.如权利要求7所述的自定义车载语音技能方法,其特征在于,所述步骤S4还包括:用户还可以选择通过手动或者语音输入追加相似语音指令,若选择追加相似语音指令,则等用户完成相似指令录入后,再更新自定义语音技能脚本文件内容。
10.如权利要求7所述的自定义车载语音技能方法,其特征在于,所述步骤S5还包括:所述车载场景选择模块默认选择全场景通用,用户还可以选择子场景,其中子场景可以根据访客身份进行细分,或者可以根据当前***用户模式进行细分,或者可以根据***出厂技能进行细分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567689.8A CN112735387A (zh) | 2020-12-25 | 2020-12-25 | 一种自定义车载语音技能***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567689.8A CN112735387A (zh) | 2020-12-25 | 2020-12-25 | 一种自定义车载语音技能***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735387A true CN112735387A (zh) | 2021-04-30 |
Family
ID=75616674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011567689.8A Pending CN112735387A (zh) | 2020-12-25 | 2020-12-25 | 一种自定义车载语音技能***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735387A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450778A (zh) * | 2021-06-09 | 2021-09-28 | 惠州市德赛西威汽车电子股份有限公司 | 一种基于语音交互控制的训练方法及存储介质 |
CN113553021A (zh) * | 2021-06-15 | 2021-10-26 | 惠州市德赛西威汽车电子股份有限公司 | 一种模拟手动交互的车载语音自动控制方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842306A (zh) * | 2012-08-31 | 2012-12-26 | 深圳Tcl新技术有限公司 | 语音控制方法及装置、语音响应方法及装置 |
CN104065882A (zh) * | 2014-06-23 | 2014-09-24 | 惠州Tcl移动通信有限公司 | 一种基于智能穿戴设备的移动终端拍照控制方法及其*** |
CN104992709A (zh) * | 2015-06-25 | 2015-10-21 | 广州视源电子科技股份有限公司 | 一种语音指令的执行方法及语音识别设备 |
CN105845136A (zh) * | 2015-01-13 | 2016-08-10 | 中兴通讯股份有限公司 | 语音控制方法、装置及终端 |
CN106773817A (zh) * | 2016-12-01 | 2017-05-31 | 北京光年无限科技有限公司 | 一种用于智能机器人的命令解析方法及机器人 |
CN110211584A (zh) * | 2019-06-04 | 2019-09-06 | 广州小鹏汽车科技有限公司 | 车辆控制方法、装置、存储介质及控制终端 |
CN110544471A (zh) * | 2019-09-09 | 2019-12-06 | 扬州莱诺汽车科技有限公司 | 一种车载电器智能控制装置 |
CN111063353A (zh) * | 2019-12-31 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 允许自定义语音交互内容的客户端处理方法及用户终端 |
-
2020
- 2020-12-25 CN CN202011567689.8A patent/CN112735387A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842306A (zh) * | 2012-08-31 | 2012-12-26 | 深圳Tcl新技术有限公司 | 语音控制方法及装置、语音响应方法及装置 |
CN104065882A (zh) * | 2014-06-23 | 2014-09-24 | 惠州Tcl移动通信有限公司 | 一种基于智能穿戴设备的移动终端拍照控制方法及其*** |
CN105845136A (zh) * | 2015-01-13 | 2016-08-10 | 中兴通讯股份有限公司 | 语音控制方法、装置及终端 |
CN104992709A (zh) * | 2015-06-25 | 2015-10-21 | 广州视源电子科技股份有限公司 | 一种语音指令的执行方法及语音识别设备 |
CN106773817A (zh) * | 2016-12-01 | 2017-05-31 | 北京光年无限科技有限公司 | 一种用于智能机器人的命令解析方法及机器人 |
CN110211584A (zh) * | 2019-06-04 | 2019-09-06 | 广州小鹏汽车科技有限公司 | 车辆控制方法、装置、存储介质及控制终端 |
CN110544471A (zh) * | 2019-09-09 | 2019-12-06 | 扬州莱诺汽车科技有限公司 | 一种车载电器智能控制装置 |
CN111063353A (zh) * | 2019-12-31 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 允许自定义语音交互内容的客户端处理方法及用户终端 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450778A (zh) * | 2021-06-09 | 2021-09-28 | 惠州市德赛西威汽车电子股份有限公司 | 一种基于语音交互控制的训练方法及存储介质 |
CN113553021A (zh) * | 2021-06-15 | 2021-10-26 | 惠州市德赛西威汽车电子股份有限公司 | 一种模拟手动交互的车载语音自动控制方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493871A (zh) | 车载***的多屏语音交互方法及装置、存储介质和车机 | |
CN104123936A (zh) | 对话***自动训练方法、对话***及用于车辆的控制装置 | |
CN107819929A (zh) | 优选表情符号的识别和生成 | |
CN112735387A (zh) | 一种自定义车载语音技能***及方法 | |
CN108182093A (zh) | 智能型车辆信息娱乐*** | |
CN102439661A (zh) | 用于车辆内自动交互的面向服务语音识别 | |
CN102693725A (zh) | 依赖于文本信息语境的语音识别 | |
US11688395B2 (en) | Method for operating a virtual assistant for a motor vehicle and corresponding backend system | |
EP3226239B1 (en) | Voice command system | |
CN112309373A (zh) | 一种自定义车载语音技能的***及方法 | |
CN108093653A (zh) | 语音提示方法、语音提示程序、语音提示***及终端装置 | |
CN113139070A (zh) | 车内用户的交互方法、装置、计算机设备和存储介质 | |
CN111933135A (zh) | 终端控制方法、装置、智能终端及计算机可读存储介质 | |
CN110428807A (zh) | 一种基于深度学习的语音识别方法、***及装置 | |
CN112634886B (zh) | 一种智能设备的交互方法、服务器、计算设备及存储介质 | |
CN101243391A (zh) | 介绍交互模式与应用功能的方法 | |
CN111429882B (zh) | 播放语音的方法、装置及电子设备 | |
CN116991992A (zh) | 交互方法、装置和设备 | |
CN116403583A (zh) | 语音数据处理方法和装置、非易失性存储介质及车辆 | |
CN108984146A (zh) | 应用程序的语音控制方法、智能终端及计算机可读存储介质 | |
CN109040324A (zh) | 车载数据服务推广方法、装置及计算机可读存储介质 | |
CN117083581A (zh) | 人机交互方法、装置以及终端设备 | |
CN115050375A (zh) | 一种设备的语音操作方法、装置和电子设备 | |
US11488600B2 (en) | Efficient dialogue configuration | |
CN116112757A (zh) | 弹幕处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |