CN115294976A - 一种基于车载语音场景的纠错交互方法、***及其车辆 - Google Patents
一种基于车载语音场景的纠错交互方法、***及其车辆 Download PDFInfo
- Publication number
- CN115294976A CN115294976A CN202210723740.2A CN202210723740A CN115294976A CN 115294976 A CN115294976 A CN 115294976A CN 202210723740 A CN202210723740 A CN 202210723740A CN 115294976 A CN115294976 A CN 115294976A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- voice
- function
- scene
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012937 correction Methods 0.000 title claims abstract description 32
- 230000003993 interaction Effects 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 117
- 238000004458 analytical method Methods 0.000 claims description 31
- 230000002452 interceptive effect Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 19
- 238000012790 confirmation Methods 0.000 claims description 17
- 230000003213 activating effect Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 3
- 230000004962 physiological condition Effects 0.000 claims description 3
- 230000002650 habitual effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000490229 Eucephalus Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
Abstract
本发明公开了一种基于车载语音场景的纠错交互方法、装置及其车辆,步骤具体包括:获取语音信息,识别语音信息中的车载语音场景的语义信息;建立功能指令,将可自动控制的车辆功能设置激活的语义指令;设置指令激活车辆功能后的立即执行预设条件;当指令激活车辆功能,判断车辆当前所处场景是否满足立即执行预设条件,若满足则立即执行车辆功能;若不满足,则通过语音交互进行确认。通过上述方案,用于在车载语音场景的环境中,语音识别错误,激活汽车功能错误的问题。
Description
技术领域
本发明涉及语音识别领域,尤其是一种基于车载语音场景的纠错交互方法、***及其车辆。
背景技术
由于客户口误,语音ASR识别错误等原因导致解析出来的语义并不合理。但语音技术是一种非常好的非接触式的操控手段,在很多场景适合使用,尤其是基于车载语音场景,驾驶员以安全驾驶为第一要务,需要通过语音来辅助分担压力。而车载语音场景具有复杂性,不完全是固定不变的,而准确简练迅速的指令又是车载语音场景需要的。
发明人发现,造成语音ASR的识别错误的原因,除了输入的语音数据本身具有非标准性的特征,还和应用场景紧密关联。
发明人发现,仅从语音到语义的转换,虽然简练快速,但随着车辆所处场景的变化,会使车辆功能的适应性发生变化,需要经过确认才能更好的达成驾驶员的意图。
发明人认为,针对驾驶车辆的所处场景,应该设计与车辆功能、车辆操作、车辆规则相关的语音指令集合的基础上,对语音信息进行语义识别,从而减少语音ASR识别的语义不合理的问题。
发明内容
本发明的目的在于提供一种基于车载语音场景的纠错交互方法、***及其车辆,解决现有技术现在的缺憾。
包括车辆功能可被语音指令控制的问题,识别适合当前场景下的功能执行的问题,对指令发出者真实意图确认的问题,减小不同驾驶者语音转换偏差的问题,对功能执行范围管理的问题。
本发明提供了下述方案:
根据本发明的一个方面,提供一种基于车载语音场景的纠错交互方法,具体包括:
获取语音信息,识别语音信息中的车载语音场景的语义信息;
建立功能指令,将可自动控制的车辆功能设置激活的语义指令;
设置指令激活车辆功能后的立即执行预设条件;当指令激活车辆功能,判断车辆当前所处场景是否满足立即执行预设条件,若满足则立即执行车辆功能;若不满足,则通过语音交互进行确认;
进一步的,预设窗口时间阈值,若在窗口时间阈值内,得到肯定的语义答复,则执行车辆该功能,得到否定的语义答复,则放弃执行车辆该功能;若在窗口时间阈值内没有得到可定或否定的语义答复,则放弃执行车辆该功能。
进一步的,包括:
获取指令的步骤:
获取语音信息,识别语音信息中的语义信息,过滤出语义中的指令信息;
激活功能的步骤:
为车辆可自动控制的功能设置激活的语音指令,为该功能设置立即执行的预设条件,为该功能设置名称语音信息,为该功能立即执行的预设条件设置语音信息;将多个语音指令建立指令集合;
确认执行的步骤:
获取当前车辆所处场景数据;
当接收到语音信息中包含指令信息,并激活对应的车辆功能,并判断车辆所处场景数据,是否符合该功能立即执行的预设条件;
若车辆所处场景数据符合该功能立即执行的预设条件则立即执行该功能,若不符合该功能立即执行的预设条件则立即在交互确认的步骤发起确认执行的请求;
若交互确认的步骤返回肯定的语义答复则执行,否则放弃执行;
交互确认的步骤:
获取确认执行请求功能名称的语音信息,立即执行预设条件的语音信息;发送包含名称、立即执行预设条件的语音信息,发送请求确认是否执行该功能语义的语音信息,开启时间窗口,捕捉答复肯定或否定语义的语音信息;
若在窗口时间阈值内,得到肯定或否定的语义答复,则立即将答复结果返回到确认执行的步骤;
若在窗口时间阈值内,没有得到肯定或否定的语义答复,则将否定答复结果返回到确认执行的步骤。
进一步的,激活功能的步骤中还设置有不可立即执行的预设条件,包括:
生理条件的判别,时间条件的判别,成本条件的判别,交通法规的判别,天气条件的判别,运行状态的判别,性能范围的判别,云端数据的判别;
当违背乘座人员一般生理特征时,或/和当违背可持续进行的时间长度时,或/和当违背可进行的时间段时,或/和当违背一般资源条件付出能力时,或/和当违背所处位置的包括交通法规在内的法律法规时,或/和当违背可执行的天气条件时,或/和当违背车辆当前所处运行状态的安全时,或/和当违背车辆具有的性能范围时,或/和当违背云端数据库所存储的可执行条件时,设置为不可立即执行的预设条件。
进一步的,获取指令的步骤,包括:
使用ASR技术将语音数据识别成文本形式的语音信息,使用BERT模型从文本中识别出具有语义的词,及其对应的车载语音场景领域;
使用lex_num数值解析模型和模板,根据BERT模型识别出的词,以及该词对应车载语音场景相关的领域,进行数值和模板匹配;根据匹配结果得到语音信息的最终解析结果;
最终解析结果的语音信息投射到指令集合,判断其中是否包含语音指令;记录有效的语音指令。
进一步的,对无效的语音指令进行处理,包括:
对使用口音词、习惯词、高频词、冷门词、非常规词的语音数据进行纠错交互的处理;
显示最接近的语音指令和解析出的语音信息解析结果,并发出对解析结果进行确认的请求;
对肯定或否定的确认结果进行分类数据存储;使用该分类数据训练语音深度学习程序,将该深度学习程序的训练结果用于识别语音指令在车载语音场景相关的领域中。
进一步的,车辆可自动控制的功能包括:功能的开启、关闭,功能的参数设置,功能的步骤和循环,功能的定时和延时。
根据本发明的另一个方面,提供一种基于车载语音场景的纠错交互***,具体包括:
语音识别模块,用于识别语音数据、过滤语音信息,获取语音指令;
汽车功能模块,可被语音指令激活、执行的车载功能,包括功能的开启、关闭,功能的参数设置,功能的步骤和循环,功能的定时和延时;
将语音指令,投射到指令集合中,激活被映射到的车辆功能。
根据本发明的又一个方面,提供一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行所述方法的步骤。
根据本发明的再一个方面,提供一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备所述方法的步骤。
根据本发明的还一个方面,提供基于车载语音场景的纠错交互***的车辆,其特征在于,具体包括:
电子设备,用于实现所述方法的步骤;
处理器,所述处理器运行程序,当所述程序运行时从所述电子设备输出的数据执行所述方法的步骤;
存储介质,用于存储程序,所述程序在运行时对于从电子设备输出的数据执行所述方法的步骤。
本发明与现有技术相比具有以下的优点:
将可被自动控制的车辆功赋予可被激活的语音指令,使得语音可以成为控制车辆功能的指令源。
将功能的执行做预先的分类,把不适合执行的条件作为过滤指令的前提,防止语音指令的错误。
对指令发出者的语音指令进行预先的判别,对不适合执行的指令向指令发出者发出确认的请求,以确保真实意图,防止语音指令的错误识别。
对不完全标准的语音进行进一步筛选,使得语音识别可以应当就有口音的各种驾驶员的情况,减小不同驾驶者语音转换成指令偏差。
当前车辆所处得到场景是变化的,对功能执行范围进行管理,让车辆可以发挥对语音指令响应的智能化。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于车载语音场景的纠错交互主流程图。
图2是基于车载语音场景的纠错交互步骤流程图。
图3是基于车载语音场景的纠错交互的装置图。
图4是一个具体实施例的处理流程图
图5是电子设备的架构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,公开一种基于车载语音场景的纠错交互方法,具体包括:
步骤S1,获取语音信息,识别语音信息中的车载语音场景的语义信息;
步骤S2,建立功能指令,将可自动控制的车辆功能设置激活的语义指令;
步骤S3,设置指令激活车辆功能后的立即执行预设条件;当指令激活车辆功能,判断车辆当前所处场景是否满足立即执行预设条件,若满足则立即执行车辆功能;若不满足,则通过语音交互进行确认;
步骤S4,预设窗口时间阈值,若在窗口时间阈值内,得到肯定的语义答复,则执行车辆该功能,得到否定的语义答复,则放弃执行车辆该功能;若在窗口时间阈值内没有得到可定或否定的语义答复,则放弃执行车辆该功能。
优选的,如图2所示:
步骤P1,获取指令的步骤;
获取语音信息,识别语音信息中的语义信息,过滤出语义中的指令信息;
步骤P2,激活功能的步骤;
为车辆可自动控制的功能设置激活的语音指令,为该功能设置立即执行的预设条件,为该功能设置名称语音信息,为该功能立即执行的预设条件设置语音信息;将多个语音指令建立指令集合;
步骤P3,确认执行的步骤;
获取当前车辆所处场景数据;
当接收到语音信息中包含指令信息,并激活对应的车辆功能,并判断车辆所处场景数据,是否符合该功能立即执行的预设条件;
若车辆所处场景数据符合该功能立即执行的预设条件则立即执行该功能,若不符合该功能立即执行的预设条件则立即在交互确认的步骤发起确认执行的请求;
若交互确认的步骤返回肯定的语义答复则执行,否则放弃执行;
步骤P4,交互确认的步骤;
获取确认执行请求功能名称的语音信息,立即执行预设条件的语音信息;发送包含名称、立即执行预设条件的语音信息,发送请求确认是否执行该功能语义的语音信息,开启时间窗口,捕捉答复肯定或否定语义的语音信息;
若在窗口时间阈值内,得到肯定或否定的语义答复,则立即将答复结果返回到确认执行的步骤;
若在窗口时间阈值内,没有得到肯定或否定的语义答复,则将否定答复结果返回到确认执行的步骤。
优选的,激活功能的步骤中还设置有不可立即执行的预设条件,包括:
生理条件的判别,时间条件的判别,成本条件的判别,交通法规的判别,天气条件的判别,运行状态的判别,性能范围的判别,云端数据的判别;
当违背乘座人员一般生理特征时,或/和当违背可持续进行的时间长度时,或/和当违背可进行的时间段时,或/和当违背一般资源条件付出能力时,或/和当违背所处位置的包括交通法规在内的法律法规时,或/和当违背可执行的天气条件时,或/和当违背车辆当前所处运行状态的安全时,或/和当违背车辆具有的性能范围时,或/和当违背云端数据库所存储的可执行条件时,设置为不可立即执行的预设条件。
优选的,包括:
使用ASR技术将语音数据识别成文本形式的语音信息,使用BERT模型从文本中识别出具有语义的词,及其对应的车载语音场景领域;
使用lex_num数值解析模型和模板,根据BERT模型识别出的词,以及该词对应车载语音场景相关的领域,进行数值和模板匹配;根据匹配结果得到语音信息的最终解析结果;
最终解析结果的语音信息投射到指令集合,判断其中是否包含语音指令;记录有效的语音指令。
优选的,对无效的语音指令进行处理,包括:
对使用口音词、习惯词、高频词、冷门词、非常规词的语音数据进行纠错交互的处理;
显示最接近的语音指令和解析出的语音信息解析结果,并发出对解析结果进行确认的请求;
对肯定或否定的确认结果进行分类数据存储;使用该分类数据训练语音深度学习程序,将该深度学习程序的训练结果用于识别语音指令在车载语音场景相关的领域中。
优选的,车辆可自动控制的功能包括:功能的开启、关闭,功能的参数设置,功能的步骤和循环,功能的定时和延时。
对于本实施例公开的方法步骤,出于简单描述的目的将方法步骤表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
如图3所示,本发明公开一种基于车载语音场景的纠错交互***,具体包括:
语音识别模块,用于识别语音数据、过滤语音信息,获取语音指令;
汽车功能模块,可被语音指令激活、执行的车载功能,包括功能的开启、关闭,功能的参数设置,功能的步骤和循环,功能的定时和延时;
将语音指令,投射到指令集合中,激活被映射到的车辆功能。
值得注意的是,虽然在本***中只披露了语音识别模块、汽车功能模块,但并不意味着本***的组成仅仅局限于上述基本功能模块,相反,本发明所要表达的意思是:在上述基本功能模块的基础之上本领域技术人员可以结合现有技术任意添加一个或多个功能模块,形成无穷多个实施例或技术方案,也就是说本***是开放式而非封闭式的,不能因为本实施例仅仅披露了个别基本功能模块,就认为本发明权利要求的保护范围局限于所公开的基本功能模块。同时,为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
本发明公开一个具体的程序处理的实施例。
模块1:对车内当前的状态信息进行提取和保存,包括车内温度,位置,窗户开关等。方法:运用json模块,将这些状态信息进行存储,提取时以键值对的模式来提取。
模块2:对不合理的集合进行定义和保存,比如:温度提高到40度以上或20度以下,在冬天依然开启制冷模式等。
将定义的不合理的情况都封装到一个判断函数中,比如:
If current_temperature>30and(command[“temperature”][“offset”]>10):return“unreasonable”。如果从当前状态的json数据中提取出的信息,结合客户输入的解析结果提取出的信息,属于不合理的情况,则返回对应的句式。
模块3:对客户的语音输入进行解析,比如:温度提高1度,播放七里香等。方法:客户的语音先经过科大讯飞ASR识别成文本,然后运用自然语言处理领域的BERT模型lex_num数值解析模型和模板相结合进行解析。BERT模型经过大批量数据的训练,可以较好地执行序列标注任务,从当前输入的客户的句子中将识别出的词及其对应的领域,然后lex_num数值解析模型和模板,可以根据BERT模型输出的词以及对应领域,来进行数值和模板匹配,根据匹配结果得到句子中某个词的最终解析结果。
将最终的解析结果保存到json格式的文件中。
模块4:将客户的语音输入解析结果和车内当前的状态信息进行处理,判断处理后的结果是否在模块2定义的不合理集合内。方法:运用json方法,将对应格式的语音输入解析结果和车内当前状态信息进行提取,然后一起输入到模块2的情况判断函数中,得到返回结果,并将返回结果送入模块5。
模块5:根据模块4的判断结果,与客户进行交互。并根据客户的返回结果,选择继续执行还是取消执行。
在一个判断函数中,根据模块4的返回结果,若是不合理情况,则根据具体的情况,返回给客户不同的回复来进行交互,比如:当前车内温度已经达到30℃,但是解析出的客户命令是温度升高10℃,显然并不合理,则返回给客户对应的纠错交互结果,当前温度已经30度,请问您刚才的命令是提高10度么?然后模块3接收用户的反馈并解析,若是肯定结果,则继续执行,若是否定结果,则取消执行。若是合理情况,则直接执行。
在公开的另一程序处理的实施例中,
模块1:当前车内的状态是json格式,
{current_temperature:25,window_set:all_close}
模块2:不合理的集合,定义在函数中:
If current_temperature>=25and(command[“temperature”][“offset”]>=10):return“unreasonable”
模块3:客户说:把温度提高10度。则这句话经过科大讯飞的ASR识别成对应文本,然后经过BERT模型,将温度提高这个词提取出来,并标记到temperature领域的plus标签,然后10这个数字经过数值模型解析成10,最后得到json解析结果{domain:temperature,action:plus,offset:10}
模块4:用json.load加载模块1和模块3的数据,加载送入模块2的判别函数。模块1的current_temperature:25,模块3的command[“temperature”][“offset”]=10,符合模块2对不合理情况的定义,则return“unreasonable”到模块4。然后模块4将这个字符串返回,模块1的当前状态以及模块3的解析结果送入模块5。
模块5:根据模块4送入的结果,给客户返回:当前温度是30度,您确定要升高温度10度么?并将客户后续语音输入送入模块3再次解析。如果解析结果是:对,好之类的肯定回答,则继续执行解析第一次解析结果;如果是否之类的否定结果,则取消执行。
如图4所示,公开一个具体实施例的处理流程。
输入:
第一部分:车内当前的基本信息,包括车目前的位置,车内温度,车内乘客数量和状态等等;
第二部分:语音***通过BERT模型以及模板等方法,对客户指令进行解析得到结果,比如温度调高2度,导航到清华大学等等;
第三部分:装置内部对于不合理指令的定义集合,比如温度调到35度以上或者20度以下,导航到500公里以外的地方等等。
输出:
当基于车内目前的状态,对于客户指令的解析结果落入我们对不合理指令的定义集合时,对客户返回纠错交互信息,
比如:当前温度是30度,您刚才的的指令是温度升高10度么?,或者当前位置是北苑路,您刚才的导航目的地是广州么?
若用户交互反馈是:肯定,则按之前的解析结果处理;否定,则取消刚才的指令执行。
本发明公开一个具体的实施例,用以说明对车辆所处场景和指令要求的矛盾。
当前车内温度已经达到30℃,但是解析出的客户命令是温度升高10℃,若执行则最终温度将达到40度高温,因此不合理,需要提醒;
当车内的摄像头识别出有孕妇或宝宝之类的乘客时,当解析出的语音命令是温度降到15摄氏度,若执行,则过低的温度将会严重影响到老幼妇孺的健康,因此也不合理,则在当前场景下此装置应该进行纠错提醒;
当前车在北京五道口,解析出的地图导航指令是到英国伦敦,两地相距超过万里,开车可能要数月且很难通过这么多边境,因此也不合理,则进行交互纠错提醒;
用户指令的解析结果与一些高频结果非常类似,比如播放周杰伦的歌曲解析结果是播放周杰仑的歌曲,比如导航到五道口解析结果是导航到无道口,应该在这些场景下对客户进行纠错交互,对指令进行确认。
若不进行纠错交互,直接按解析出的冷门语义执行,很可能与客户的原意相悖。
如图5所示,本发明在公开了基于车载语音场景的纠错交互方法、装置的基础之上,还公开了与之对应的电子设备和存储介质:
一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行所述方法的步骤。
一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行所述方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
电子设备包括硬件层,运行在硬件层之上的操作***层,以及运行在操作***上的应用层。该硬件层包括中央处理器(CPU,Central Processing Unit)、内存管理单元(MMU,Memory Management Unit)和内存等硬件。该操作***可以是任意一种或多种通过进程(Process)实现电子设备控制的计算机操作***,例如,Linux操作***、Unix操作***、Android操作***、iOS操作***或windows操作***等。并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备,也可以是桌面计算机、便携式计算机等电子设备,本发明实施例中并未特别限定。
本发明实施例中的电子设备控制的执行主体可以是电子设备,或者是电子设备中能够调用程序并执行程序的功能模块。电子设备可以获取到存储介质对应的固件,存储介质对应的固件由供应商提供,不同存储介质对应的固件可以相同可以不同,在此不做限定。电子设备获取到存储介质对应的固件后,可以将该存储介质对应的固件写入存储介质中,具体地是往该存储介质中烧入该存储介质对应固件。将固件烧入存储介质的过程可以采用现有技术实现,在本发明实施例中不做赘述。
电子设备还可以获取到存储介质对应的重置命令,存储介质对应的重置命令由供应商提供,不同存储介质对应的重置命令可以相同可以不同,在此不做限定。
此时电子设备的存储介质为写入了对应的固件的存储介质,电子设备可以在写入了对应的固件的存储介质中响应该存储介质对应的重置命令,从而电子设备根据存储介质对应的重置命令,对该写入对应的固件的存储介质进行重置。根据重置命令对存储介质进行重置的过程可以现有技术实现,在本发明实施例中不做赘述。
本发明还公开了一种基于TSN时间敏感网络通信技术的雷达数据传输功能的车辆,具体包括:
电子设备,用于实现所述方法的步骤;
处理器,所述处理器运行程序,当所述程序运行时从所述电子设备输出的数据执行所述方法的步骤;
存储介质,用于存储程序,所述程序在运行时对于从电子设备输出的数据执行所述方法的步骤。
为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
需要说明的是,本说明书与权利要求中使用了某些词汇来指称特定元件。本领域技术人员应可以理解,车辆制造商可能会用不同名词来称呼同一个元件。本说明书与权利要求并不以名词的差异来作为区分元件的方式,而是以元件在功能上的差异作为区分的准则。如通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故其应被理解成“包括但不限定于”。后续将对实施本发明的较佳实施方式进行描述说明,但是所述说明是以说明书的一般原则为目的,并非用于限定本发明的范围。本发明的保护范围当根据其所附的权利要求所界定者为准。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算***环境或配置中,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本发明还公开了基于车载语音场景的纠错交互***的车辆,即:具有车载语音场景纠错交互功能的车辆,具体包括:
电子设备,用于实现所述方法的步骤;
处理器,所述处理器运行程序,当所述程序运行时从所述电子设备输出的数据执行所述方法的步骤;
存储介质,用于存储程序,所述程序在运行时对于从电子设备输出的数据执行所述方法的步骤。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于车载语音场景的纠错交互方法,其特征在于,具体包括:
获取语音信息,识别语音信息中的车载语音场景的语义信息;
建立功能指令,将可自动控制的车辆功能设置激活的语义指令;
设置指令激活车辆功能后的立即执行预设条件;当指令激活车辆功能,判断车辆当前所处场景是否满足立即执行预设条件,若满足则立即执行车辆功能;若不满足,则通过语音交互进行确认。
2.根据权利要求1所述的一种基于车载语音场景的纠错交互方法,其特征在于,包括:
获取指令的步骤;获取语音信息,识别语音信息中的语义信息,过滤出语义中的指令信息;
激活功能的步骤:
为车辆可自动控制的功能设置激活的语音指令,为该功能设置立即执行的预设条件,为该功能设置名称语音信息,为该功能立即执行的预设条件设置语音信息;将多个语音指令建立指令集合;
确认执行的步骤:
获取当前车辆所处场景数据;
当接收到语音信息中包含指令信息,并激活对应的车辆功能,并判断车辆所处场景数据,是否符合该功能立即执行的预设条件;
若车辆所处场景数据符合该功能立即执行的预设条件则立即执行该功能,若不符合该功能立即执行的预设条件则立即在交互确认的步骤发起确认执行的请求;
若交互确认的步骤返回肯定的语义答复则执行,否则放弃执行;
交互确认的步骤:
获取确认执行请求功能名称的语音信息,立即执行预设条件的语音信息;发送包含名称、立即执行预设条件的语音信息,发送请求确认是否执行该功能语义的语音信息,开启时间窗口,捕捉答复肯定或否定语义的语音信息;
若在窗口时间阈值内,得到肯定或否定的语义答复,则立即将答复结果返回到确认执行的步骤;
若在窗口时间阈值内,没有得到肯定或否定的语义答复,则将否定答复结果返回到确认执行的步骤。
3.根据权利要求2所述的一种基于车载语音场景的纠错交互方法,其特征在于,激活功能的步骤中还设置有不可立即执行的预设条件,包括:
生理条件的判别,时间条件的判别,成本条件的判别,交通法规的判别,天气条件的判别,运行状态的判别,性能范围的判别,云端数据的判别;
当违背乘座人员一般生理特征时,或/和当违背可持续进行的时间长度时,或/和当违背可进行的时间段时,或/和当违背一般资源条件付出能力时,或/和当违背所处位置的包括交通法规在内的法律法规时,或/和当违背可执行的天气条件时,或/和当违背车辆当前所处运行状态的安全时,或/和当违背车辆具有的性能范围时,或/和当违背云端数据库所存储的可执行条件时,设置为不可立即执行的预设条件。
4.根据权利要求3所述的一种基于车载语音场景的纠错交互方法,其特征在于,获取指令的步骤,包括:
使用ASR技术将语音数据识别成文本形式的语音信息,使用BERT模型从文本中识别出具有语义的词,及其对应的车载语音场景领域;
使用lex_num数值解析模型和模板,根据BERT模型识别出的词,以及该词对应车载语音场景相关的领域,进行数值和模板匹配;根据匹配结果得到语音信息的最终解析结果;
最终解析结果的语音信息投射到指令集合,判断其中是否包含语音指令;记录有效的语音指令。
5.根据权利要求4所述的一种基于车载语音场景的纠错交互方法,其特征在于,对无效的语音指令进行处理,包括:
对使用口音词、习惯词、高频词、冷门词、非常规词的语音数据进行纠错交互的处理;
显示最接近的语音指令和解析出的语音信息解析结果,并发出对解析结果进行确认的请求;
对肯定或否定的确认结果进行分类数据存储;使用该分类数据训练语音深度学习程序,将该深度学习程序的训练结果用于识别语音指令在车载语音场景相关的领域中。
6.根据权利要求5所述的一种基于车载语音场景的纠错交互方法,其特征在于,车辆可自动控制的功能包括:功能的开启、关闭,功能的参数设置,功能的步骤和循环,功能的定时和延时。
7.一种基于车载语音场景的纠错交互***,其特征在于,具体包括:
语音识别模块,用于识别语音数据、过滤语音信息,获取语音指令;
汽车功能模块,可被语音指令激活、执行的车载功能,包括功能的开启、关闭,功能的参数设置,功能的步骤和循环,功能的定时和延时;
将语音指令,投射到指令集合中,激活被映射到的车辆功能。
8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行权利要求1至6中任一项所述方法的步骤。
10.一种基于车载语音场景的纠错交互***的车辆,其特征在于,具体包括:
电子设备,用于实现权利要求1至6中任一项所述方法的步骤;
处理器,所述处理器运行程序,当所述程序运行时从所述电子设备输出的数据执行权利要求1至6中任一项所述方法的步骤;
存储介质,用于存储程序,所述程序在运行时对于从电子设备输出的数据执行权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210723740.2A CN115294976A (zh) | 2022-06-23 | 2022-06-23 | 一种基于车载语音场景的纠错交互方法、***及其车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210723740.2A CN115294976A (zh) | 2022-06-23 | 2022-06-23 | 一种基于车载语音场景的纠错交互方法、***及其车辆 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294976A true CN115294976A (zh) | 2022-11-04 |
Family
ID=83820559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210723740.2A Pending CN115294976A (zh) | 2022-06-23 | 2022-06-23 | 一种基于车载语音场景的纠错交互方法、***及其车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294976A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440221A (zh) * | 2022-11-09 | 2022-12-06 | 佛山市天地行科技有限公司 | 一种基于云计算的车载智能语音交互方法及*** |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219584A (ja) * | 1994-01-31 | 1995-08-18 | Canon Inc | 音声処理装置及び方法 |
JPH11119792A (ja) * | 1997-10-20 | 1999-04-30 | Toyota Motor Corp | 音声認識機能付き機器制御装置および音声認識装置 |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
WO2017075965A1 (zh) * | 2015-11-02 | 2017-05-11 | 乐视控股(北京)有限公司 | 语音信息处理方法及装置 |
CN106992009A (zh) * | 2017-05-03 | 2017-07-28 | 深圳车盒子科技有限公司 | 车载语音交互方法、***及计算机可读存储介质 |
CN107644642A (zh) * | 2017-09-20 | 2018-01-30 | 广东欧珀移动通信有限公司 | 语义识别方法、装置、存储介质及电子设备 |
CN108520747A (zh) * | 2018-03-29 | 2018-09-11 | 浙江吉利汽车研究院有限公司 | 一种具有语音识别功能的车载控制装置 |
CN108564945A (zh) * | 2018-03-13 | 2018-09-21 | 斑马网络技术有限公司 | 车载语音控制方法与装置,以及电子设备与存储介质 |
CN110097877A (zh) * | 2018-01-29 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 权限识别的方法和装置 |
US20190318746A1 (en) * | 2018-04-11 | 2019-10-17 | Subaru Corporation | Speech recognition device and speech recognition method |
CN110992932A (zh) * | 2019-12-18 | 2020-04-10 | 睿住科技有限公司 | 一种自学习的语音控制方法、***及存储介质 |
CN111341309A (zh) * | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
CN114299942A (zh) * | 2021-11-25 | 2022-04-08 | 合众新能源汽车有限公司 | 汽车天窗控制方法及装置 |
-
2022
- 2022-06-23 CN CN202210723740.2A patent/CN115294976A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219584A (ja) * | 1994-01-31 | 1995-08-18 | Canon Inc | 音声処理装置及び方法 |
JPH11119792A (ja) * | 1997-10-20 | 1999-04-30 | Toyota Motor Corp | 音声認識機能付き機器制御装置および音声認識装置 |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
WO2017075965A1 (zh) * | 2015-11-02 | 2017-05-11 | 乐视控股(北京)有限公司 | 语音信息处理方法及装置 |
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN106992009A (zh) * | 2017-05-03 | 2017-07-28 | 深圳车盒子科技有限公司 | 车载语音交互方法、***及计算机可读存储介质 |
CN107644642A (zh) * | 2017-09-20 | 2018-01-30 | 广东欧珀移动通信有限公司 | 语义识别方法、装置、存储介质及电子设备 |
CN110097877A (zh) * | 2018-01-29 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 权限识别的方法和装置 |
CN108564945A (zh) * | 2018-03-13 | 2018-09-21 | 斑马网络技术有限公司 | 车载语音控制方法与装置,以及电子设备与存储介质 |
CN108520747A (zh) * | 2018-03-29 | 2018-09-11 | 浙江吉利汽车研究院有限公司 | 一种具有语音识别功能的车载控制装置 |
US20190318746A1 (en) * | 2018-04-11 | 2019-10-17 | Subaru Corporation | Speech recognition device and speech recognition method |
CN110992932A (zh) * | 2019-12-18 | 2020-04-10 | 睿住科技有限公司 | 一种自学习的语音控制方法、***及存储介质 |
CN111341309A (zh) * | 2020-02-18 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备和计算机存储介质 |
CN114299942A (zh) * | 2021-11-25 | 2022-04-08 | 合众新能源汽车有限公司 | 汽车天窗控制方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440221A (zh) * | 2022-11-09 | 2022-12-06 | 佛山市天地行科技有限公司 | 一种基于云计算的车载智能语音交互方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11270166B2 (en) | Image identification system and image identification method | |
CN112100349B (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
EP3441891A1 (en) | Data source-based service customisation apparatus, method, system, and storage medium | |
US20200027452A1 (en) | Speech recognition for vehicle voice commands | |
JP7213943B2 (ja) | 車載機器の音声処理方法、装置、機器及び記憶媒体 | |
DE102013007502A1 (de) | Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen | |
US20230048112A1 (en) | Warning method and apparatus for driving risk, computing device and storage medium | |
CN105469797A (zh) | 一种智能语音识别转接人工服务的控制方法及*** | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN111540222A (zh) | 基于无人车的智能交互方法、装置及无人车 | |
CN111340355A (zh) | 行程订单的匹配方法、装置、服务器和介质 | |
CN115294976A (zh) | 一种基于车载语音场景的纠错交互方法、***及其车辆 | |
CN113723528A (zh) | 车载语视融合多模态交互方法及***、设备、存储介质 | |
CN111754816B (zh) | 一种移动物体意图识别装置、方法、***、终端和介质 | |
CN113299294A (zh) | 任务型对话机器人交互方法、装置、设备及存储介质 | |
CN112420038A (zh) | 一种自适应场景判断的智能语音播报方法、装置 | |
US20230005490A1 (en) | Packet loss recovery method for audio data packet, electronic device and storage medium | |
CN115098665A (zh) | 一种对话数据扩展方法、装置及设备 | |
CN115544232A (zh) | 车载智能问答和信息推荐方法及装置 | |
EP4318464A1 (en) | Speech interaction method and apparatus | |
CN116583820A (zh) | 语音交互的方法和装置 | |
CN117216249A (zh) | 数据分类方法、装置、电子设备、介质及车辆 | |
CN113851150A (zh) | 一种使用信心分在多套语音识别结果中进行选择的方法 | |
CN116312521A (zh) | 语音识别方法、装置、语音识别设备及车辆 | |
US20220292964A1 (en) | Method and apparatus for controlling vehicle, device, medium, and program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |