CN116670624A - 界面的控制方法、装置和*** - Google Patents
界面的控制方法、装置和*** Download PDFInfo
- Publication number
- CN116670624A CN116670624A CN202180036583.1A CN202180036583A CN116670624A CN 116670624 A CN116670624 A CN 116670624A CN 202180036583 A CN202180036583 A CN 202180036583A CN 116670624 A CN116670624 A CN 116670624A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- window
- priority
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000012545 processing Methods 0.000 claims description 63
- 230000000875 corresponding effect Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 16
- 230000001276 controlling effect Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种界面的控制方法,包括:获取用户的语音指令和用户的声源位置;获取用户的视线信息;根据声源位置和视线信息确定界面上的目标窗口;根据语音指令操控目标窗口。本申请的界面的控制方法,通过结合声源信息、视线追踪信息和语音语义信息与其优先级等多模信息协同决策,快速精准地操控界面多窗口中的页面内容,提升用户体验。
Description
本申请实施例涉及人机交互领域,并且更具体地,涉及一种界面的控制方法、装置和***。
随着科技的发展,智能车机具有越来越丰富的功能,例如导航、手机互联、语音控制、内置应用程序(application,APP)、车载网络等功能,为用户带来更加便捷、智慧的驾驶体验。车机界面是用户与智能汽车交互的主要媒介,用户可以通过触控操作或语音指令对车机界面进行控制,从而实现与智能汽车的交互。如果使用触控操作对车机界面进行控制,用户需要俯身操作,对于流程较复杂的操作耗时较长,增大事故风险,而使用语音指令对车机界面进行控制有助于保障行车安全。因此,当用户使用语音指令对车机界面进行控制时,提升用户的使用体验尤为重要。
发明内容
本申请实施例提供一种界面的控制方法和装置,通过结合声源信息、视线追踪信息和语音语义信息与其优先级等多模信息协同决策,快速精准地操控界面多窗口中的页面内容,提升用户体验。
第一方面,提供了一种界面的控制方法,包括:获取用户的语音指令和用户的声源位置;获取用户的视线信息;根据声源位置和视线信息确定界面上的目标窗口;根据语音指令操控目标窗口。
本申请的界面的控制方法通过用户的语音语义、用户的声源位置和用户的视线信息等多模信息,确定用户所要操控的目标窗口,然后根据语音指令对该目标窗口进行操控,以实现在多个车机界面中用户对于任一窗口的准确操控,提升用户的使用体验。
在某些可能的实现方式中,目标窗口距离声源位置最近且位于视线信息所指示的视线方向上。
本申请的界面的控制方法同时考虑了用户的声源位置和视线信息,使得确定的目标窗口确实为用户所要操控的窗口,提高了精确性。
在某些可能的实现方式中,距离声源位置最近的窗口为第一窗口,位于视线信息所指示的视线方向上的窗口为第二窗口,根据声源位置和视线信息确定界面上的目标窗口,包括:根据声源位置的优先级和视线信息的优先级确定目标窗口,其中,当声源位置的优先级优先于视线信息的优先级时,第一窗口为目标窗口,当视线信息的优先级优先于声源位置的优先级时,第二窗口为目标窗口。
在某些可能的实现方式中,声源位置的优先级和视线信息的优先级是预定义的。
在某些可能的实现方式中,声源位置具有第一优先级信息,视线信息具有第二优先级 信息,第一优先级信息用于确定声源位置的优先级,第二优先级信息用于确定视线信息的优先级。
在某些可能的实现方式中,该方法还包括:获取语音指令的执行结果;根据执行结果调整第一优先级信息和第二优先级信息。
在某些可能的实现方式中,声源位置与语音指令指示的业务具有第一相关度,声源位置与语音指令指示的业务具有第二相关度。
在某些可能的实现方式中,该方法还包括:根据语音指令的执行结果调整第一相关度和第二相关度。
本申请的界面的控制方法还考虑了当用户的语义、声源位置和视线信息分别确定的目标窗口不一致时,可以按照这三者的优先级来确定目标窗口,避免因为用户的语义、声源位置和视线信息分别确定的目标窗口不一致时导致用户的语音指令无法执行,且这三者的优先级可以根据执行结果来调整,以便更加适应用户的习惯。
在某些可能的实现方式中,根据语音指令操控目标窗口,包括:在目标窗口上显示语音指令指示的业务对应的图标,图标包括一个或多个索引。
在某些可能的实现方式中,该方法还包括:在目标窗口上显示第一业务对应的图标,图标包括一个或多个索引,语音指令用于指示目标索引,目标索引属于一个或多个索引,且根据语音指令操控目标窗口,包括:执行目标索引所指示的第一业务的目标操作。
本申请的界面的控制方法还包括在目标窗口上显示图标的索引,图标的索引相较于具体的文字信息更加简单且醒目,便于用户辨认和选择,避免用户分散过多注意力,提高驾驶安全性。
第二方面,提供了一种界面的控制方法,包括:获取用户的第一语音指令,第一语音指令指示第一业务;在目标窗口上显示第一业务的图标,图标包括多个索引;获取用户的第二语音指令,第二语音指令指示目标索引,目标索引属于多个索引;执行目标索引对应的第一业务的任务。
在某些可能的实现方式中,目标窗口为距离用户最近的窗口或用户视线方向上的窗口。
第三方面,提供了一种界面的控制装置,包括:获取单元,用于获取用户的语音指令和用户的声源位置;获取单元还用于获取用户的视线信息;处理单元,用于根据声源位置和视线信息确定界面上的目标窗口;处理单元,用于根据语音指令操控目标窗口。
在某些可能的实现方式中,目标窗口距离声源位置最近且位于视线信息所指示的视线方向上。
在某些可能的实现方式中,距离声源位置最近的窗口为第一窗口,位于视线信息所指示的视线方向上的窗口为第二窗口,处理单元具体用于:根据声源位置的优先级和视线信息的优先级确定目标窗口,其中,当声源位置的优先级优先于视线信息的优先级时,第一窗口为目标窗口,当视线信息的优先级优先于声源位置的优先级时,第二窗口为目标窗口。
在某些可能的实现方式中,声源位置的优先级和视线信息的优先级是预定义的。
在某些可能的实现方式中,声源位置具有第一优先级信息,视线信息具有第二优先级信息,第一优先级信息用于确定声源位置的优先级,第二优先级信息用于确定视线信息的优先级。
在某些可能的实现方式中,装置还用于:获取语音指令的执行结果;根据执行结果调 整第一优先级信息和第二优先级信息。
在某些可能的实现方式中,声源位置与语音指令指示的业务具有第一相关度,视线信息与语音指令指示的业务具有第二相关度。
在某些可能的实现方式中,装置还用于:根据语音指令的执行结果调整第一相关度和第二相关度。
在某些可能的实现方式中,执行单元具体用于:在目标窗口上显示语音指令指示的业务对应的图标,图标包括一个或多个索引。
在某些可能的实现方式中,装置还用于:在目标窗口上显示第一业务对应的图标,图标包括一个或多个索引,语音指令用于指示目标索引,目标索引属于一个或多个索引,且根据语音指令操控目标窗口,包括:执行目标索引所指示的第一业务的目标操作。
第四方面,提供了一种界面的控制装置,包括:获取单元,用于获取用户的第一语音指令,第一语音指令指示第一业务;处理单元,用于在目标窗口上显示第一业务的图标,图标包括多个索引;获取单元还用于获取用户的第二语音指令,第二语音指令指示目标索引,目标索引属于多个索引;处理单元还用于执行目标索引对应的第一业务的任务。
在某些可能的实现方式中,目标窗口为距离用户最近的窗口或用户视线方向上的窗口。
第五方面,提供了一种界面的控制装置,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行上述第一方面和第二方面的任一种实现方式的方法。
第六方面,提供了一种界面的控制装置,所述装置包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行上述第一方面和第二方面的任一种实现方式的方法。
第七方面,提供了一种车辆,包括上述第三方面和第四方面的任一种实现方式的装置。
本申请的界面的控制方法通过用户的语音语义、用户的声源位置和用户的视线信息等多模信息,确定用户所要操控的目标窗口,然后根据语音指令对该目标窗口进行操控,以实现在多个车机界面中用户对于任一窗口的准确操控,提升用户的使用体验。本申请的界面的控制方法还考虑了当用户的语义、声源位置和视线信息分别确定的目标窗口不一致时,可以按照这三者的优先级来确定目标窗口,避免因为用户的语义、声源位置和视线信息分别确定的目标窗口不一致时导致用户的语音指令无法执行,且这三者的优先级可以根据执行结果来调整,以便更加适应用户的习惯。本申请的界面的控制方法还包括在目标窗口上显示图标的索引,图标的索引相较于具体的文字信息更加简单且醒目,便于用户辨认和选择,避免用户分散过多注意力,提高驾驶安全性。
图1是本申请实施例提供的一种车辆内部的结构示意图;
图2是本申请实施例提供的一种界面的控制方法的示例性应用架构示意图;
图3是本申请实施例提供的一种界面的控制方法所涉及的示例性模块的示意图;
图4是本申请实施例提供的根据用户语义、声源位置、视线信息确定目标窗口的示意性流程图;
图5是本申请实施例提供的一种界面的控制方法的示意性流程图;
图6是本申请实施例提供的三种可能的图标的示意图;
图7是本申请实施例提供的一种主驾用户对车机界面的控制的示意图;
图8是本申请实施例提供的一种副驾用户对车机界面的控制的示意图;
图9是本申请实施例提供的一种主驾用户对后排车机界面的控制的示意图;
图10是本申请实施例提供的一种界面多窗口的示意图;
图11是本申请实施例提供一种的用户使用语音指令操控界面的示意性流程图;
图12是本申请实施例提供的另一种界面的操控方法的示意性流程图;
图13是本申请实施例提供的一种界面的控制装置的示意性框图;
图14是本申请实施例提供的一种界面的控制设备的示意性框图。
下面将结合附图,对本申请实施例中的技术方案进行描述。
智能终端在生活中的应用越来越广泛,例如智能终端可以为智能手机,智能家居中的各种智能电器,或智能车辆等,这些智能设备越来越广泛的出现在人们的生活中。为了方便人与智能终端的交互,智能终端往往设置有显示界面,方便向用户显示提示信息或用户所需的信息,例如文字信息,图片信息或视频信息等。因此,随着智能终端的广泛使用,出现了同一空间存在多个显示界面的场景,该显示界面可能为不同智能终端的显示界面,或同一个智能终端的显示界面,例如折叠屏手机具有至少两个显示屏、智能家居中的影音设备可以提供多个显示屏,或智能车可以在座舱中为用户提供多个显示屏,满足不同乘客的使用需求。由于使用语音指令对界面进行控制可以解放用户的双手,使得用户无需触碰即可实现对智能终端的控制,提高用户的使用感受,因此通过语音指令控制智能终端已经成为一种主要的人机交互方式。此外使用语音指令对车机界面(即座舱内的显示屏)进行操控比使用触控操作更能提高行车安全,因此语音指令成为驾驶过程中对车机界面的主要操控方式。
现有的语音指令控制智能终端的方式是通过对语音指令进行语义分析,来确定该语音指令所指示的操作,然而随着同一空间内存在多个显示界面的场景日益增多,这种语音控制方式往往存在执行语音指令的显示界面与用户实际希望执行语音指令的显示界面不同,从而导致用户体验较差的问题。
例如越来越多的智能终端采用大屏或长屏,该大屏或长屏可以支持分屏模式,即可以该大屏或长屏可以作为一个显示界面,也可以划分为多个显示界面,供不同用户使用。以车辆座舱的显示屏为例,可以在主驾驶和副驾驶前方设置长屏,该长屏支持分屏模式,该分屏模式可以理解为车机***所支持的一种场景,即在一个屏幕上同时显示多个应用区(又可以称为窗口或显示界面),在此以两个应用区为例,用于主驾和副驾位置的使用者独立操作各自的应用。当界面分屏为主屏(又可以称为主应用区,主窗口,或主显示界面等)和副屏(又可以称为副应用区,副窗口,或副显示界面等)时,基于现有语音控制技术,无法分辨用户的语音指令是作用于主屏还是副屏。另外,当同一空间内具有多个显示界面时,现有的语音控制技术不够灵活,例如只能支持对有焦点界面的控制,有焦点界面是指距离用户最近以通过语音指令进行操控的界面,如此无法实现用户使用语音指令对所需界面(例如相对较远的界面)的灵活控制,用户体验感较差。
因此本申请实施例提供一种界面的控制方法,通过结合多模信息协同决策,更加准确地操控用户所需界面的内容,提升用户体验。该多模信息可以包括声源位置信息,用户的视线信息,语音指令的语义信息,界面的显示信息等中的至少两种信息。
本申请以下实施例以车辆的智能座舱场景为例,描述一种界面的控制方法,然而本申请实施例不以此为限,以上方法还可以应用于其他有分屏控制或多界面控制的场景中,例如智能家居设备、智能手机等的控制场景中。
图1为本申请实施例提供的一种车辆内部的结构示意图。在车辆内部,车机(也称为车内影音娱乐***)等车载终端可以设置于汽车的中控台,其屏幕也可以称之为中控显示屏或中控屏。另外,有一些高端汽车,座舱内逐步全面数字化显示,座舱内设置有多块或一块显示屏,用于显示数字仪表盘、车载娱乐***等内容。如图1所示,座舱内设置有多块显示屏,如数字仪表显示屏101,中控屏102,副驾驶位上的乘客(也称为前排乘客)面前的显示屏103,其中显示屏103可以是分屏,如图1所示分为两块屏幕,左侧后排乘客面前的显示屏104以及右侧后排乘客面前的显示屏105。另外,图1中,虽然仅在驾驶员侧的A柱(pillar)附近示出一个摄像头106,座舱内可以设置有多个摄像头,且摄像头的位置较为灵活,例如,有的座舱的摄像头可以设置于车辆中控屏上方,有的座舱的摄像头可以设置于车辆中控屏左侧,有的座舱的摄像头可以设置于A柱或B柱,有的座舱的摄像头可以设置于车辆的座舱顶前部。应理解,车内还包括一个或多个麦克风(图1中未示出),麦克风可以位于车辆中控屏上方或车辆的座舱顶前部。在本申请实施例的界面的控制方法中,摄像头可以获取用户的视线信息或动作信息等,麦克风可以获取用户的语音信息,根据获取的用户信息进行协同决策,从而实现用户对车内的多个显示屏的控制。
图2示出了本申请实施例的一种界面的控制方法的应用架构示意图。以车机应用场景为例,如图2所示,该车机***包括显示设备,语音传感器,语音播放器、和处理模块,其中处理模块包括语音信号处理模块(又可以称为语音服务模块)和决策模块。车机上可以安装语音助手的应用,并通过语音信号处理模块与用户进行语音交互,车机在获取了用户的语音后,语音信号处理模块对用户的语音进行语言理解、语义识别等操作,将用户的语音转换为车机可以识别的指令,并执行该指令。进一步的,语音信号处理模块可以根据具体的执行动作生成相应的应答,将应答进行语音合成,再经过对话管理,报给用户,以应答用户的语音指令,从而实现车机与用户的多轮语音交互。其中,车机可以通过语音传感器获取用户的语音信号,例如,麦克风;另外,车机可以通过语音播放器,例如扬声器,输出语音信号。在这个过程中,用户可以通过语音对车机界面进行控制。决策模块用于实现多模信息协同决策,简称多模决策,决策模块根据多模信息来共同确定用户的意图和该意图对应的界面,然后对用户的意图进行处理,以在对应的界面实现操作。多模信息同以上描述,在此不再赘述。决策模块还可以进一步包括界面决策单元和意图处理单元,界面决策单元用于根据多模信息中的至少一种信息确定用户意图对应的界面;意图处理单元用于根据多模信息中的至少一种决策用户的意图,并对用户的意图进行处理,包括对界面上的控件进行点击(该意图称为控件点击类意图),和通用指令的操作(该意图称为通用指令类意图),以及意图泛化、冲突处理等中的至少一项,其中,通用指令是指当界面处于可滑动、或可翻动的状态时,语音输入向上(或向下)滑动、向上(或向下)翻动、返回、后退等一系列全局界面操控指令中的至少一种指令;意图泛化是指具有一定程度的语料扩 展及知识图谱的能力,例如界面上此时可以点击的控件海报为《xx电影》,那么可以支持用户添加一些前缀,例如“我想看xx电影”、“帮我打开xx电影”,也可以支持用户添加一些后缀,例如“帮我打开xx电影吧”等一些后缀语气词的泛化;知识图谱表示和目标内容相关的内容,例如当前界面上的控件海报为《xx电影》,则当用户说出《xx电影》的导演或主要演员时也可以支持对界面上的该《xx电影》执行相应的动作,例如显示或播放该《xx电影》的导演或主要演员的信息;冲突处理是指当用户的语音指令在当前界面上执行会产生冲突时的处理,例如对于当前界面上打开的窗口,当用户说出“关闭”的语音指令时,究竟是表示点击当前界面上窗口的关闭按钮,还是表示关闭整个应用的全局指令,意图处理单元即可处理这些可能产生冲突的指令。在将用户的意图转换为具体的指令后,根据指令对应用进行操作。该车机***还可以包括屏幕感知模块(又可以称为界面感知模块),用于感知多模信息中的界面信息,例如界面上的控件的属性,例如控件上显示的文字、控件的坐标、控件是否可以被点击等至少一种属性,可见屏幕感知模块用于提供多模信息中的界面信息。
图2中的决策模块和应用之间还包括应用控件信息获取模块,图2中的决策模块具体可以分为决策处理模块和决策执行模块,图3示出了该3个模块,其中应用控件信息获取模块、决策执行模块可以设置在端侧,决策处理模块可以设置在端侧或云侧,应理解,当应用控件信息获取模块、决策执行模块、决策处理模块设置在端侧时,具体可以是端侧(例如智能设备)的处理器,当决策处理模块设置在云侧时,具体可以是云侧的服务器等。其中,服务器可以是实体服务器,也可以是虚拟服务器。应用控件信息获取模块用于获取应用的控件信息,包括控件布局、控件内容和控件属性等,例如文本信息、图标、开关、播放器和输入/搜索等;获取方式包括应用上报、屏幕感知模块等方式;应用控件信息获取模块将采集到的界面信息和视线追踪信息、声源位置信息、语义信息共同输入到可见可说处理模块。决策处理模块用于确定目标窗口,结合目标窗口的应用控件信息进行意图匹配,以确定操控指令,其中确定目标操控包括根据声源位置和视线信息确定目标窗口;结合目标窗口的应用控件信息进行意图匹配包括对控件信息中的控件说法进行处理、近音词进行转换、数字转换和特殊字符进行处理等;最后确定的操控指令包括控件点击、列表翻页、开关和滑动等指令。决策处理模块大多被设置在云端,在车机等应用中为了提升指令执行速度,将决策处理模块部署在端侧,从而极大的提升了行车过程中网络不佳场景下的指令执行体验。决策执行模块在收到了决策模块的下发的执行报文后,根据具体的执行报文选择对应的执行方式,包括点击(例如单击、双击、长点击等)、返回(包括返回上一级、返回菜单、返回主页等)、滑动(上滑、下滑、左滑、右滑等)。
图4示出了本申请实施例提供的一种根据用户语义、声源位置、视线信息确定目标窗口(或界面)的示意性流程图,如图4所示,在获取用户的语音指令之后,根据用户的语义信息、声源位置和/或视线信息来确定目标窗口和目标业务,以在目标窗口执行与该目标业务相关的操作。
首先,获取用户的语音指令;而后根据用户的语音指令进行语义识别,以获取用户的语义,这里的对用户的语音指令进行识别可以采用多种的语义识别技术来实现,例如,可以利用深度全序列卷积神经网络(deep fully convolutional neural network,DFCNN)、LFR-DFSMN(lower frame rate deep feedforward sequential memory networks)或截断注意 力模型(streaming truncated multi-layer attention,SMLTA)等进行识别。
而后,可以根据用户的语义,判断用户是否直接通过语音指令表达了主观意图,或者说是否直接通过语音指令指示了目标窗口。例如,在车机界面中分为了主驾屏和副驾屏,如果用户的语音指令为“打开主驾屏的音乐”,则用户的语义已经明确了主观意图即所要操控的目标窗口为主驾屏,直接根据用户的主观意图对主驾屏进行操控。可选的,可以设置多模信息中用户的语义信息优先于用户的其他信息,但在实际应用中,也可以设置用户的其他信息优先于语义信息,或者可以设置为用户自己可调,即用户在应用过程中,可以根据实际需要调整语义信息的优先级。
如果用户的语音指令中没有表达主观意图,则无法直接从用户的语义中确定所要操控的目标窗口,则此时再根据用户的其他信息确定用户所要操控的目标窗口,例如,根据用户的声源位置和/或用户的视线信息。或者可以不判断用户的语音指令是否有表达主观意图,而是直接根据用户的声源位置和/或用户的视线信息确定用户所要操控的目标窗口。根据用户的声源位置和/或用户的视线信息确定用户所要操控的目标窗口的方法可以参照下面对于图5的描述。
在确定用户所要操控的目标窗口后,在目标窗口执行用户的语音指令,具体的,根据用户的语音指令获取用户的操控意图,再根据获取的应用的控件信息对目标窗口执行用户的操控意图,例如点击控件、滑动和翻页等。然后判断用户的语音指令是否在目标窗口上执行成功,如果执行成功,则打点记录本次语音指令执行成功;可选的,如果在目标窗口上对用户的语音指令没有执行成功,则进行自学习优化,例如根据语音指令的执行结果调整声源位置的优先级和视线信息的优先级,具体可以参照下面对于图5中步骤504的描述。
以下结合图5介绍本申请实施例的根据用户的声源位置和/或用户的视线信息对界面的控制方法。
图5示出了本申请实施例提供的一种根据用户的声源位置和/或用户的视线信息对界面的控制方法500的示意性流程图,如图5所示,包括步骤501至步骤504,以下分别进行介绍。为了便于说明,以下介绍中的界面的控制方法的应用场景以车机界面的控制为例,则界面的控制方法500由车机执行,但应理解,本申请实施例的界面的控制方法还可以应用于其他多个界面的场景中,则界面的控制方法500由其他智能终端执行。
S501,获取用户的语音指令和用户的声源位置。
具体的,获取用户的声源位置可以采用声源定位的方法实现,例如可以根据座舱内多个麦克风(以左前、右前、左后、右后为例)在不同方向上采集的语音信号能量(强弱)及前处理的声源定位算法来综合判断当前的声源来源于哪个方向的麦克风;再例如,采用麦克风阵列技术,由多个麦克风,按照一定规则排列组成。多个麦克风同步采集声音信号,利用多个麦克风之间的信号相位差,求得噪声源信号的发出位置;再例如采用声强探头声场测试技术,声强探头由两个传声器相对设置组成一个联合体,可以测量空间多点的声压、声波振速大小和方向,在被测物体表面或包络面附近扫描测试,可以得到被测物体附近的声场分布情况,从而掌握声源位置和分布。
S502,获取用户的视线信息。
具体的,获取用户的视线信息可以采用视线追踪的方法实现,例如可以利用用户眼球转动时相对位置不变的某些眼部结构和特征作为参照,在位置变化特征和这些不变特征 之间提取视线变化参数,然后通过几何模型或映射模型获取视线方向,从而确定用户视线所在的目标窗口位置。可选的,当用户的视线停留在界面(窗口)上超过预设阈值的时间时,才认为用户具有操控该界面(窗口)的意思,从而减少用户没有操控界面窗口的意思但视线短暂停留而引起的目标窗口的误判。
S503,根据声源位置和视线信息确定界面上的目标窗口。
如图4所示,可以根据用户的声源位置和用户的视线信息共同确定界面上的目标窗口,目标窗口即为用户所要操控的界面(或窗口),此时,该目标窗口为距离用户声源位置最近且位于用户的视线信息所指示的视线方向上,也就是说,此时距离用户声源位置最近的窗口和用户的视线所看的窗口为同一个。
然而,在某些情况下,距离用户声源位置最近的窗口和用户的视线所看的窗口可能不相同。将距离用户的声源位置最近的窗口记为第一窗口,将位于用户的视线信息所指示的视线方向上的窗口记为第二窗口,第一窗口和第二窗口不相同。此时,根据声源位置的优先级和视线信息的优先级确定目标窗口,当声源位置优先于视线信息时,将第一窗口作为目标窗口,当视线信息优先于声源位置时,将第二窗口作为目标窗口。其中,声源位置的优先级和视线信息的优先级为预设的,例如考虑用户的一般习惯,或者根据统计的用户的历史数据,在出厂设置时可以设置声源位置优先于视线信息,或视线信息优先于声源位置。这里的声源位置优先于视线信息,或视线信息优先于声源位置,可以通过声源位置和视线信息的优先级体现。可选的,用户可以根据需要调整声源位置和视线信息的优先级。
S504,根据语音指令操控目标窗口。
具体的,根据用户的语音指令获取用户的操控意图,再根据获取的应用的控件信息对目标窗口执行用户的操控意图,例如图3中的点击控件、滑动和翻页等。
可选的,如果在目标窗口上对用户的操控意图没有执行成功,则进行自学习优化,例如根据语音指令的执行结果调整声源位置的优先级和视线信息的优先级。例如,以上车机***还可以包括自学习模块,自学习模块根据语音指令的执行结果调整声源位置的优先级和视线信息的优先级。对优先级的确定和调整可以通过对优先级信息的设置和调整来实现,例如,声源位置具有第一优先级信息,视线信息具有第二优先级信息,第一优先级信息用于确定声源位置的优先级,例如可以是声源位置的权重或置信度,第二优先级信息用于确定视线信息的优先级,例如可以是视线信息的权重或置信度。
此外,声源位置与用户的语音指令指示的业务具有第一相关度,视线信息与用户的语音指令指示的业务具有第二相关度。声源位置和视线信息的优先级信息可以为相关度,或者优先级信息可以独立于相关度,则声源位置和视线信息的优先级可以根据优先级信息和相关度共同确定。由此,本申请实施例的方法还包括,根据在目标窗口上对用户的语音指令的执行结果调整第一优先级信息和第二优先级信息,和/或根据在目标窗口上对用户的语音指令的执行结果调整第一相关度和第二相关度。例如,为声源位置预设的第一优先级信息为60%,为视线信息预设的第二优先级信息为40%,则第一优先级信息高于第二优先级信息,此时声源位置优先于视线信息,当距离用户声源位置最近的窗口和用户的视线所看的窗口不相同时,将距离用户声源位置最近的窗口作为目标窗口。然而,如果此时在距离用户声源位置最近的窗口上执行语音指令没有成功,则适当降低第一优先级信息,例如将第一优先级信息降低为58%,同时适当提高第二优先级信息,例如将第二优先级信息提 升为42%,但此时第一优先级信息依然高于第二优先级信息,当距离用户声源位置最近的窗口和用户的视线所看的窗口不相同时,依然将距离用户声源位置最近的窗口作为目标窗口。如果多次在距离用户声源位置最近的窗口上执行语音指令没有成功,则对第一优先级信息和第二优先级信息进行多次调整后,假如第一优先级信息降低为48%,第二优先级信息提高为52%,使得第二优先级信息高于第一优先级信息,此时视线信息优先于声源位置,当距离用户声源位置最近的窗口和用户的视线所看的窗口不相同时,将用户的视线所看的窗口作为目标窗口。此外,声源位置和视线信息还与用户的语音指令所指示的业务有关,具体的,声源位置与用户的语音指令指示的业务具有第一相关度,视线信息与用户的语音指令指示的业务具有第二相关度。例如当用户的语音指令为“播放电影”,根据一般习惯,电影应当显示在用户视线信息所指示的视线方向上,因此对于“播放电影”的业务,可以将第一相关度预设为20%,将第二相关度预设为80%,与上述第一优先级信息和第二优先级信息的调整类似,如果在用户视线信息所指示的视线方向上的窗口执行“播放电影”的语音指令不成功时,则适当提高第一相关度,并适当降低第二相关度,如果多次调整后使得第一相关度高于第二相关度时,则用户的“播放电影”的语音指令将在距离用户声源位置最近的窗口上执行。对于上述第一优先级信息、第二优先级信息、第一相关度、第二相关度的调整,可以适应用户的操控习惯,提升用户的使用感受。
应理解,上述第一优先级信息、第二优先级信息、第一相关度、第二相关度的具体数值只是示例,还可以是小数、整数等其他形式。
在某些情况下,例如在歌曲选择界面中,有一些歌曲的名称过长,或者有一些歌曲的名称包括符号、外国文字等使得用户难以通过语音表达,并且,如果用户将过多注意力耗费在界面上的文字的辨认上,会降低驾驶的安全性,因此,本申请实施例的方法还包括,在目标窗口上显示图标,图标包括一个或多个索引,用户的语音指令用于指示目标索引,其中目标索引属于前述一个或多个索引中的一个。图6示出了两种可能的图标的示意图,应理解,图6只是对本申请实施例可能的图标的索引形式的举例,并不构成对本申请的限定。(a)图界面中包括3个图标,每个图标表示一部电视剧,电视剧的名称可以显示在每个图标下方,每个图标包括一个索引,例如第一个图标的索引为①,第二个图标的索引为②,第三个图标的索引为③,在实际应用中,用户无需说出界面上电视剧的名称,只需说出要打开的电视剧的图标的索引,即可实现对该图标的打开操作;(b)图界面中包括一个图标,该图标表示一部电视剧,该图标包括12个索引,每个索引表示该电视剧的一个剧集,在实际应用中,用户只需说出对应的索引,即可打开想要观看的剧集。(c)图界面包括一个图标,该图标表示一首音乐曲目的搜索结果,该图标包括3个索引,索引以列表的形式呈现,每个索引表示该音乐曲目“音乐AB”的一个搜索结果,每个搜索结果的音乐曲目名称相同,但歌手或专辑不同,当用户说出对应的索引,即可打开想要打开的音乐曲目。本申请实施例的方法,可以在获取了用户的语音指令后,在目标窗口中显示用户的语音指令所指示的图标,例如根据用户的语音指令后才打开相应的界面,该界面上包括用户的语音指令所指示的业务对应的图标,并且该图标的显示形式为包括一个或多个索引。或者,本申请实施例的方法,也可以在目标窗口上显示图标,例如,目标窗口中本来就显示了一个或多个图标,每个图标包括一个或多个索引,用户根据目标窗口中每个图标的一个或多个索引发出语音指令,该语音指令用于指示目标索引,该目标索引属于目标窗口中的一个或多个 索引,然后根据语音指令对目标索引进行操作。通过在目标窗口中显示图标的索引,可以实现用户对界面更便捷的操作,相较于具体的图标名称,索引更简单且更醒目,用户无需花费过多注意力。
应理解,本申请实施例的方法中,界面上的图标本来就以索引的形式呈现;也可以为索引设置一个开关,当用户打开该开关后,界面上的图标才以索引的形式呈现;还可以设置为,在用户使用语音指令控制界面时,界面上的图标以索引的形式呈现,当用户以手动方式等控制界面时,界面上的图标不以索引的形式呈现。
除了图6所示的索引形式,本申请实施例的方法还可以结合知识图谱为图标打上相关的标签,因此索引形式还包括标签。例如可以在电影《xxx》(电影的名称)的图标上打上标签“欠xxx(电影导演的名字)的一张电影票”,当用户说出该标签内容时,即可对该电影控件进行操控。
现有的语音界面操控技术无法感知用户当前操控的界面的内容,例如,用户当前操控的界面为电影选择界面,其上有一部电影,该电影的名称可能会被智能终端理解为其它功能的语音控制指令,从而引发误操作。例如,电影名称中包括“冷”,以“我好冷”为例,如果用户直接说出该电影的名字,根据上述语音界面操控技术可能会识别为用户当前感到寒冷,从而打开空调热风。采用以上识别方法,可以获得用户当前操控的界面信息,从而实现可见可说的语音操控效果,此外可以支持多界面(窗口)模式,进一步提升用户体验。可见可说也称为可见即可说、所见即可说,意思是用户视线看到的屏幕范围内都可以支持用户使用语音指令进行操控,而不需要用户再进行任何手动触碰,也无需额外的语料学习成本。
在另一种实现中,为了给用户更好的体验,本申请实施例的方法还包括,设置对非娱乐功能的操作优先于对娱乐功能的操作,以保障用户的基本需求为先。其中娱乐功能包括播放影视剧、播放歌曲等,非娱乐功能包括对车机内部的硬件的操控以及车机界面中的打电话、发信息、导航等操作。则在以上场景中,可以优先打开空调;再例如,当用户发出语音指令“回家”,则此时应该优先显示对用户住所的导航和相应的路况信息,而不是播放歌曲“回家”。
可选的,本申请实施例的方法还包括,对于多个窗口甚至多个显示屏的情况,设置将某些业务优先显示在特定窗口上。例如,如果车内包括多个显示屏,其中一个显示屏位于后座的宝宝座椅前方,则可以设置,如果用户语音指令为播放儿童节目,则该语音指令直接作用于宝宝座椅前方的显示屏上,即儿童节目优先显示在宝宝座椅前方的显示屏上,而优先级的调整可以参照上述描述,为了简洁,在此不再赘述。
以下以车机为例,结合附图介绍本申请实施例的界面的控制方法的几种应用。应理解,本申请实施例的界面的控制方法可以应用于同一块物理屏幕被分屏为多个屏幕的场景中,或者一个智能终端包括多个物理屏幕的场景中,例如图1所示的车辆座舱中的显示屏101、中控屏102、显示屏103、显示屏104显示屏105,又或者一个屏幕上的多个窗口的场景中,结合用户的语义信息、视线信息和/或声源位置确定用户所要操控的屏幕或者窗口。例如,用户发出语音指令“导航”,可以根据用户的语义表示的主观意图将导航界面显示在用户想要显示的屏幕或者窗口中,也可以根据用户的视线信息和/或声源位置确定用户所要操控的目标屏幕或者目标窗口,然后将导航界面显示在目标屏幕或目标窗口中。应理 解,上述示例只是对本申请实施例的界面的控制方法的举例说明,并不构成对本申请实施例的限定。
图7示出了主驾用户对车机界面的控制的示意图,如图7所示,该车机界面包括主驾屏和副驾屏,当主驾用户发出语音指令“打开音乐”时,由于用户并没有主观指定是主驾屏还是副驾屏,因此可以结合用户的声源位置和视线信息对用户所要操作的界面做进一步判断。具体的,获取用户的声源位置和视线信息,由于是主驾用户发出的语音指令,因此距离用户声源位置最近的为主驾屏,假设主驾用户同时看向的也为主驾屏,则确定用户所要操作的界面为主驾屏,则根据用户的语音指令对主驾屏进行操作,即打开主驾屏上的音乐应用。图7中的主驾屏示出了3个图标,代表3首不同的音乐曲目,从图7中可知,每首音乐曲目的名称显示的文字较小,用户难以快速辨认,且在驾驶过程中,主驾用户若分散注意力较久可能导致危险,因此本申请实施例的界面的控制方法,显示界面上的图标的索引,如图7中主驾屏上的图标①(图标1被方向盘遮挡)、②、③,图标①、②、③相较于文字更简单且醒目,方便用户的辨认,例如在实际应用中,用户可以询问“图标②表示什么?”,则语音助手可以回答图标②所表示的曲目名称,以便用户做出选择。
应理解,在实际应用中,车机屏幕还可以是一整块屏幕进行分屏或分窗口,操作方法可以参照上述对于图7的描述,本申请实施例在此不再赘述。
图8示出了副驾用户对车机界面的控制的示意图,如图8所示,该车机界面包括主驾屏和副驾屏,当副驾用户发出语音指令“打开音乐”时,由于用户并没有主观指定是主驾屏还是副驾屏,因此可以结合用户的声源位置和视线信息对用户所要操作的界面做进一步判断。具体的,获取用户的声源位置和视线信息,由于是副驾用户发出的语音指令,因此距离用户声源位置最近的为副驾屏,假设用户此时看向的是主驾屏,则根据用户的视线信息所确定的界面为主驾屏,此时根据声源位置和视线信息所确定的界面不一致,则需要根据声源位置和视线信息的优先级做进一步判定。假设预设的优先级为声源位置优先,则确定的目标界面为副驾屏,而副驾用户所要操作的为主驾屏,则此时在副驾屏上执行用户的语音指令不成功,或者此时也可以在副驾屏上执行用户的语音指令,但用户发出“执行错误”的语音,则判定此次执行不成功,则进行相应的优先级信息调整,优先级信息的调整可以参照上述S504的描述,本申请实施例在此不再赘述。在进行一次或多次调整后使得对于副驾用户来说,视线信息优先于声源位置,则副驾用户再发出语音指令,且根据声源位置和视线信息所确定的界面不一致时,以副驾用户的视线信息优先。
图9示出了主驾用户对后排车机界面的控制的示意图,如图9所示,车内包括多个屏幕,其中后排的车机界面可以由主驾用户控制,也可以由后排用户控制。假设右后座位的常坐人员为一儿童,则主驾用户可以设置将动画的播放优先显示在右后座位前的车机界面上,例如主驾用户可以发出语音指令“播放动画AB”,此时语音指令虽然由主驾用户发出,且主驾用户的视线也无法看到右后方的车机界面,但根据预设,动画AB在右后座位前的车机界面上播放。即以上多模信息还可以包括业务信息,该业务信息对应的业务(或应用)与一界面具有关联或对应关系,且优先显示于该界面。
图7至图9中示出了本申请实施例的界面的控制方法在多个分屏中的应用,本申请实施例的界面的控制方法还可以应用于多窗口的界面的场景,图10示出了在一个屏幕上同时显示三个窗口的示意图,如图10所示,在该屏幕的左上窗口显示多个电视剧的图标, 右上窗口显示某部电视剧的具体剧集,下方窗口显示音乐搜索的图标,在实际应用中,可以将距离用户的声源位置最近的窗口确定为目标窗口,或者将用户的视线方向上的窗口确定为目标窗口,具体可以根据声源位置和视线信息的优先级确定,具体可以参照上述对于图5中步骤504的描述,本申请实施例在此不再赘述。
综上所述,本申请实施例的界面的控制方法通过用户的语音语义、用户的声源位置和用户的视线信息,业务信息等多模信息中的至少两种,确定用户所要操控的目标窗口,然后根据语音指令对该目标窗口进行操控,以实现在多个车机界面中用户对于目标界面的准确操控,提升用户的使用体验。本申请实施例的界面的控制方法还考虑了当用户的语义、声源位置和视线信息分别确定的目标窗口不一致时,可以按照这三者的优先级来确定目标窗口,避免因为用户的语义、声源位置和视线信息分别确定的目标窗口不一致时导致用户的语音指令无法执行,且这三者的优先级可以根据执行结果来调整,以便更加适应用户的习惯。本申请实施例的界面的控制方法还包括在目标窗口上显示图标的索引,图标的索引相较于具体的文字信息更加简单且醒目,便于用户辨认和选择,减少用户分散过多注意力的情况发生,提高驾驶安全性。
图11示出了本申请实施例中用户使用语音指令操控界面的一种示意性流程图,图11中的场景以车机场景为例,当车机界面为分屏或具有多个界面时,用户使用语音指令操控车机界面,包括:
S1101,发出语音指令。用户向语音信号处理模块发出语音指令,该语音指令包括唤醒指令和任务指令,例如可以是“xx(语音助手的名字,可以作为唤醒指令),请打开音乐(可以作为任务指令)”,其中唤醒指令和任务指令可以以一句完整的指令同时说出,也可以以独立的指令不同时说出。
S1102,进行语音识别。车机中的语音信号处理模块(又可以称为语音服务模块)接收到语音指令后对用户的语音进行语义识别,该语义识别可以是现有的任一种可行的语义识别技术,也可以是未来发展的语义识别技术,本申请实施例在此不作限制。
S1103,发送语音识别结果。然后语音信号处理模块将语义识别结果发送给决策模块。
S1104,根据声源位置和视线信息确定目标窗口。决策模块根据获取的声源位置和视线信息确定用户所要执行的目标窗口(或界面),其中声源位置是指语音指令的声源位置,视线信息是指发出语音指令的用户的视线信息,具体过程可以参照上述对于图5的描述,此处不再赘述,应理解,这里的声源位置和视线信息可以由麦克风和摄像头等传感器获取,图11中未示出。
S1105,获取目标窗口应用控件信息。确定了目标窗口之后,决策模块获取目标窗口中的应用的控件信息,可选的,决策模块可以向目标窗口中的应用发出指令,目标窗口中的应用可以执行S1106,将控件信息发送给决策模块。
S1107,根据语音识别结果进行意图匹配。决策模块根据语义识别结果和目标窗口中应用的控件信息进行意图匹配,以确定用户的意图。
S1108,对目标控件执行相应操作。然后决策模块根据用户的意图对目标窗口中的目标控件执行相应的操作,例如点击相应的控件等。由此可以实现在多界面(例如分屏或多窗口)情况下,用户可以使用语音指令准确控制界面上的应用。
可选的,用户还可以先发出唤醒指令,例如“xx”(语音助手的名字,可以作为唤醒指 令),决策模块先根据用户的唤醒指令并结合用户的声源位置和视线信息确定目标窗口,并且获取目标窗口的应用的控件信息。然后再结合用户发出的任务指令,例如“打开音乐”,语音信号处理模块进行语义识别,并将语义识别结果发送给决策模块,决策模块再根据语义识别结果和目标窗口中应用的控件信息进行意图匹配,以确定用户的意图,然后根据用户的意图对目标窗口中的目标控件执行相应的操作。
可选的,图11中的方法还包括,在获取了目标窗口的应用的控件信息后,根据控件信息生成目标窗口中图标的索引,使得用户可以根据图标的索引对目标窗口进行操控。
图12示出了本申请实施例的另一种界面的操控方法的示意性流程图,如图12所示,包括步骤1201至步骤1204,为了便于说明,以下介绍中的界面的控制方法的应用场景依然以车机界面的控制为例,但应理解,本申请实施例的界面的控制方法还可以应用于其他多界面的场景中。
S1201,获取用户的第一语音指令,第一语音指令指示第一业务。
具体的,用户对车机中的语音助手等发出语音指令,该语音指令指示某一类型的业务或某一应用,即第一业务包括业务类型或业务应用,指示第一业务可以理解为指示第一业务类型或第一应用。在此为了描述方便,以该业务为音乐业务为例,当然该业务也可以为其类型的业务,本申请实施例不限制业务的类型。此外,该语音指令可以直接指示该业务,例如语音指令为“音乐”或音乐应用(APP)的名称;该语音指令可以间接指示该业务,例如语音指令是对该业务的操作,从而间接确定出该业务,同样以音乐类业务为例,该语音指令可以为“打开音乐”,或打开“xx”(音乐应用的名字)。
S1202,在目标窗口(或界面)上显示第一业务的图标,图标包括多个索引。
根据用户的语音指令,在用户所要操控的目标窗口中打开第一业务对应的应用。当该第一业务为业务类型时,则目标窗口可以包括多个应用,此时可以打开优先级最高的应用或打开后台正在运行的应用,优先级最高的应用可以时用户使用频率最高的应用或用户设定的优先级最高的应用;或者多个应用都打开,供用户通过索引选择。当第一业务为具体的应用时,可以直接打开该应用。同样以音乐应用为例,则车机根据语音指令,在目标窗口显示音乐的图标,该图标包括多个索引,每个索引可以表示一首音乐曲目,或者每个索引可以表示对一首音乐曲目的操作,例如播放、收藏、下一首等。
S1203,获取用户的第二语音指令,第二语音指令指示目标索引,目标索引属于多个索引。
由于目标窗口给与了用户以索引方式的选择方式,因此简化了用户语音指令的需求,使得语音指令更加简单,且识别准确性更高,因此用户可以在多个索引中选择与其意图一致的索引,并发送该索引对应的语音指令,例如简单的数字或编号语音指令。
例如,用户根据目标窗口中的索引,再次发出语音指令,该语音指令用于指示用户在目标窗口中所选择的其中一个索引,例如用户选择了一首音乐曲目的索引,或者选择了对一首音乐曲目的操作为收藏。
S1204,执行目标索引对应的第一业务的任务。
车机得到指示目标索引的语音指令之后,可以执行该语音指令对应的操作,即第一业务的一个或多个任务。
例如,当目标索引表示一首音乐曲目时,则播放该音乐曲目,当目标索引表示对一首 音乐曲目的操作为收藏时,则收藏该音乐曲目。
可选的,上述目标窗口为距离用户最近的窗口或用户视线方向上的窗口。
本申请实施例的界面的控制方法,用户可以语音控制所要操控的目标窗口,无需手动触控,方便且安全,提升用户使用感受;目标窗口中的图标包括索引,用户语音指示目标索引即可实现对目标窗口中的图标的操控,索引相较于具体的文字信息更加简单且醒目,便于用户辨认和选择,避免用户分散过多注意力,在车机界面的控制场景中可以提高驾驶安全性。
以上,结合图1至图12详细说明了本申请实施例的界面的控制方法。以下,结合图13和图14详细说明本申请实施例提供的界面的控制装置。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
图13是本申请实施例提供的界面的控制装置的示意性框图,装置1300具体可以是芯片、车载装置或者整车等。该装置1300包括获取单元1310、处理单元1320。获取单元1310可以实现相应的通信功能,处理单元1320用于进行数据处理。获取单元1310还可以称为通信接口或通信单元。具体的,当装置1300为图1所示的车辆时,获取单元1310可以是图1中的感知***120或者用于实现感知***120的功能的单元,处理单元1320可以是图1中的计算平台150或者用于实现计算平台150的功能的单元。
可选地,该装置1300还可以包括存储单元,该存储单元可以用于存储指令和/或数据,处理单元1320可以读取存储单元中的指令和/或数据,以使得装置实现前述方法实施例。
该装置1300可以用于执行上文方法实施例中的动作,具体的,获取单元1310用于执行上文方法实施例中的获取相关的操作,处理单元1320用于执行上文方法实施例中的处理相关的操作。
该装置1300可实现对应于根据本申请实施例中的方法实施例中的步骤或者流程,该装置1300可以包括用于执行图5、图12中的方法的单元。并且,该装置1300中的各单元和上述其他操作和/或功能分别为了实现图5、图12中的第二节点侧中的方法实施例的相应流程。
其中,当该装置1300用于执行图5中的方法500时,收发单元1310可用于执行方法500中的步骤501和步骤502;处理单元1320可用于执行方法500中的处理步骤503和步骤504。
具体的,获取单元1310,用于获取用户的语音指令和用户的声源位置;获取单元1310还用于获取用户的视线信息;处理单元1320,用于根据声源位置和视线信息确定界面上的目标窗口;处理单元1320,还用于根据语音指令操控目标窗口。
在某些可能的实现方式中,目标窗口距离声源位置最近且位于视线信息所指示的视线方向上。
在某些可能的实现方式中,距离声源位置最近的窗口为第一窗口,位于视线信息所指示的视线方向上的窗口为第二窗口,处理单元1320具体用于:根据声源位置的优先级和视线信息的优先级确定目标窗口,优先级为预先定义的,当声源位置优先于视线信息时,第一窗口为目标窗口,当视线信息优先于声源位置时,第二窗口为目标窗口。
在某些可能的实现方式中,声源位置具有第一优先级信息,视线信息具有第二优先级 信息,第一优先级信息用于确定声源位置的优先级,第二优先级信息用于确定视线信息的优先级。
在某些可能的实现方式中,声源位置与语音指令指示的业务具有第一相关度,视线信息与语音指令指示的业务具有第二相关度。
在某些可能的实现方式中,装置1300还用于:获取语音指令的执行结果;根据执行结果调整第一优先级信息和第二优先级信息;根据执行结果调整第一相关度和第二相关度。
在某些可能的实现方式中,语音指令用于指示图标,处理单元1320具体用于:在目标窗口上显示图标,图标包括一个或多个索引。
在某些可能的实现方式中,装置1300还用于:在目标窗口上显示图标,图标包括一个或多个索引,语音指令用于指示目标索引,目标索引属于一个或多个索引。
当该装置1300用于执行图12中的方法1200时,收发单元1310可用于执行方法1200中的步骤1201和步骤1203;处理单元1320可用于执行方法1200中的处理步骤1202和步骤1204。
具体的,获取单元1310,用于获取用户的第一语音指令,第一语音指令指示第一业务;处理单元1320,用于在目标窗口上显示第一业务的图标,图标包括多个索引;获取单元1310还用于获取用户的第二语音指令,第二语音指令指示目标索引,目标索引属于多个索引;处理单元1320还用于执行目标索引对应的第一业务的任务。
在某些可能的实现方式中,目标窗口为距离用户最近的窗口或用户视线方向上的窗口。
应理解,各单元执行上述相应步骤的具体过程在上述方法实施例中已经详细说明,为了简洁,在此不再赘述。
如图14所示,本申请实施例还提供一种界面的控制设备1400。图14所示的计算设备1400可以包括:存储器1410、处理器1420、以及通信接口1430。其中,存储器1410、处理器1420,通信接口1430通过内部连接通路相连,该存储器1410用于存储指令,该处理器1420用于执行该存储器1420存储的指令,以控制通信接口1430接收输入样本或发送预测结果。可选地,存储器1410既可以和处理器1420通过接口耦合,也可以和处理器1420集成在一起。界面的控制设备1400可以是图1所示的车辆100,通信接口1430可以是图1中的感知***120,用于实现图5中的步骤501和步骤502,处理器1420可以是图1中的计算平台150,用于实现图5中的步骤503和步骤504。
需要说明的是,上述通信接口1430使用例如但不限于收发器一类的收发装置,来实现通信设备1400与其他设备或通信网络之间的通信。上述通信接口1430还可以包括输入/输出接口(input/output interface)。
在实现过程中,上述方法的各步骤可以通过处理器1420中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1410,处理器1420读取存储器1410中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应理解,本申请实施例中,该处理器可以为中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专 用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中,该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。处理器的一部分还可以包括非易失性随机存取存储器。例如,处理器还可以存储设备类型的信息。
本申请实施例还提供了一种芯片,其特征在于,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行上述图5或图12中的方法。
本申请实施例还提供了一种计算设备,包括:存储器,用于存储计算机程序,处理器,用于从所述存储器调用计算机程序,当所述计算机程序被执行时,使得所述计算设备执行上述图5或图12中的方法。
在本说明书中使用的术语“部件”、“模块”、“***”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,部件可以是但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示,在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中,部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地***、分布式***和/或网络间的另一部件交互的二个部件的数据,例如通过信号与其它***交互的互联网)的信号通过本地和/或远程进程来通信。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储 在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (27)
- 一种界面的控制方法,其特征在于,包括:获取用户的语音指令和所述用户的声源位置;获取所述用户的视线信息;根据所述声源位置和所述视线信息确定所述界面上的目标窗口;根据所述语音指令操控所述目标窗口。
- 如权利要求1所述的方法,其特征在于,所述目标窗口距离所述声源位置最近且位于所述视线信息所指示的视线方向上。
- 如权利要求1所述的方法,其特征在于,所述距离所述声源位置最近的窗口为第一窗口,所述位于所述视线信息所指示的视线方向上的窗口为第二窗口,所述根据所述声源位置和所述视线信息确定所述界面上的目标窗口,包括:根据所述声源位置的优先级和所述视线信息的优先级确定目标窗口,其中,当所述声源位置的优先级优先于所述视线信息的优先级时,所述第一窗口为目标窗口,当所述视线信息的优先级优先于所述声源位置的优先级时,所述第二窗口为目标窗口。
- 如权利要求3所述的方法,其特征在于,所述声源位置的优先级和所述视线信息的优先级是预定义的。
- 如权利要求4所述的方法,其特征在于,所述声源位置具有第一优先级信息,所述视线信息具有第二优先级信息,所述第一优先级信息用于确定所述声源位置的优先级,所述第二优先级信息用于确定所述视线信息的优先级。
- 如权利要求5所述的方法,其特征在于,所述方法还包括:获取所述语音指令的执行结果;根据所述执行结果调整所述第一优先级信息和所述第二优先级信息。
- 如权利要求3至6中任一项所述的方法,其特征在于,所述声源位置与所述语音指令指示的业务具有第一相关度,所述视线信息与所述语音指令指示的业务具有第二相关度。
- 如权利要求7所述的方法,其特征在于,还包括:根据所述语音指令的执行结果调整所述第一相关度和所述第二相关度。
- 如权利要求1至8中任一项所述的方法,其特征在于,所述根据所述语音指令操控所述目标窗口,包括:在所述目标窗口上显示所述语音指令指示的业务对应的图标,所述图标包括一个或多个索引。
- 如权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:在所述目标窗口上显示第一业务对应的图标,所述图标包括一个或多个索引,所述语音指令用于指示目标索引,所述目标索引属于所述一个或多个索引,且所述根据所述语音指令操控所述目标窗口,包括:执行所述目标索引所指示的所述第一业务的目标操作。
- 一种界面的控制方法,其特征在于,包括:获取用户的第一语音指令,所述第一语音指令指示第一业务;在目标窗口上显示所述第一业务的图标,所述图标包括多个索引;获取用户的第二语音指令,所述第二语音指令指示目标索引,所述目标索引属于所述多个索引;执行所述目标索引对应的所述第一业务的任务。
- 如权利要求11所述的方法,其特征在于,所述目标窗口为距离用户最近的窗口或用户视线方向上的窗口。
- 一种界面的控制装置,其特征在于,包括:获取单元,用于获取用户的语音指令和所述用户的声源位置;所述获取单元还用于获取所述用户的视线信息;处理单元,用于根据所述声源位置和所述视线信息确定所述界面上的目标窗口;所述处理单元还用于根据所述语音指令操控所述目标窗口。
- 如权利要求13所述的装置,其特征在于,所述目标窗口距离所述声源位置最近且位于所述视线信息所指示的视线方向上。
- 如权利要求13所述的装置,其特征在于,所述距离所述声源位置最近的窗口为第一窗口,所述位于所述视线信息所指示的视线方向上的窗口为第二窗口,所述处理单元具体用于:根据所述声源位置的优先级和所述视线信息的优先级确定目标窗口,其中,当所述声源位置的优先级优先于所述视线信息的优先级时,所述第一窗口为目标窗口,当所述视线信息的优先级优先于所述声源位置的优先级时,所述第二窗口为目标窗口。
- 如权利要求15所述的装置,其特征在于,所述声源位置的优先级和所述视线信息的优先级是预定义的。
- 如权利要求16所述的装置,其特征在于,所述声源位置具有第一优先级信息,所述视线信息具有第二优先级信息,所述第一优先级信息用于确定所述声源位置的优先级,所述第二优先级信息用于确定所述视线信息的优先级。
- 如权利要求17所述的装置,其特征在于,所述装置还用于:获取所述语音指令的执行结果;根据所述执行结果调整所述第一优先级信息和所述第二优先级信息。
- 如权利要求15至18中任一项所述的装置,其特征在于,所述声源位置与所述语音指令指示的业务具有第一相关度,所述视线信息与所述语音指令指示的业务具有第二相关度。
- 如权利要求19所述的装置,其特征在于,所述处理单元还用于:根据所述语音指令的执行结果调整所述第一相关度和所述第二相关度。
- 如权利要求13至20中任一项所述的装置,其特征在于,所述处理单元具体用于:在所述目标窗口上显示所述语音指令指示的业务对应的图标,所述图标包括一个或多个索引。
- 如权利要求13至21中任一项所述的装置,其特征在于,所述处理单元还用于:在所述目标窗口上显示第一业务对应的图标,所述图标包括一个或多个索引,所述语音指令用于指示目标索引,所述目标索引属于所述一个或多个索引,且所述根据所述语音 指令操控所述目标窗口,包括:执行所述目标索引所指示的所述第一业务的目标操作。
- 一种界面的控制装置,其特征在于,包括:获取单元,用于获取用户的第一语音指令,所述第一语音指令指示第一业务;处理单元,用于在目标窗口上显示所述第一业务的图标,所述图标包括多个索引;所述获取单元还用于获取用户的第二语音指令,所述第二语音指令指示目标索引,所述目标索引属于所述多个索引;所述处理单元还用于执行所述目标索引对应的所述第一业务的任务。
- 如权利要求23所述的装置,其特征在于,所述目标窗口为距离用户最近的窗口或用户视线方向上的窗口。
- 一种界面的控制装置,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行如权利要求1至10或11至12中任一项所述的方法。
- 一种界面的控制装置,其特征在于,所述装置包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行如权利要求1至10或11至12中任一项所述的方法。
- 一种车辆,其特征在于,包括如权利要求13至22或23至24中任一项所述的装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/103770 WO2023272629A1 (zh) | 2021-06-30 | 2021-06-30 | 界面的控制方法、装置和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116670624A true CN116670624A (zh) | 2023-08-29 |
Family
ID=84692191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180036583.1A Pending CN116670624A (zh) | 2021-06-30 | 2021-06-30 | 界面的控制方法、装置和*** |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240126503A1 (zh) |
EP (1) | EP4350484A4 (zh) |
CN (1) | CN116670624A (zh) |
WO (1) | WO2023272629A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069165B (zh) * | 2023-02-14 | 2024-02-09 | 中国民用航空总局第二研究所 | 一种远程塔台光学***的目标界面确定方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
JP6739907B2 (ja) * | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
US20170235361A1 (en) * | 2016-01-20 | 2017-08-17 | Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America | Interaction based on capturing user intent via eye gaze |
US20200019373A1 (en) * | 2018-02-14 | 2020-01-16 | Cellepathy Inc. | Multi-device personal assistants |
US11422765B2 (en) * | 2018-07-10 | 2022-08-23 | Apple Inc. | Cross device interactions |
CN111756986A (zh) * | 2019-03-27 | 2020-10-09 | 上海博泰悦臻电子设备制造有限公司 | 一种摄像头控制方法、存储介质、装置及具有其的电子设备 |
CN110211586A (zh) * | 2019-06-19 | 2019-09-06 | 广州小鹏汽车科技有限公司 | 语音交互方法、装置、车辆以及机器可读介质 |
CN115145529B (zh) * | 2019-08-09 | 2023-05-09 | 华为技术有限公司 | 语音控制设备的方法及电子设备 |
US11289086B2 (en) * | 2019-11-01 | 2022-03-29 | Microsoft Technology Licensing, Llc | Selective response rendering for virtual assistants |
CN111767785A (zh) * | 2020-05-11 | 2020-10-13 | 南京奥拓电子科技有限公司 | 人机交互控制方法及装置、智能机器人及存储介质 |
-
2021
- 2021-06-30 CN CN202180036583.1A patent/CN116670624A/zh active Pending
- 2021-06-30 EP EP21947583.7A patent/EP4350484A4/en active Pending
- 2021-06-30 WO PCT/CN2021/103770 patent/WO2023272629A1/zh active Application Filing
-
2023
- 2023-12-27 US US18/397,864 patent/US20240126503A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4350484A4 (en) | 2024-06-26 |
EP4350484A1 (en) | 2024-04-10 |
US20240126503A1 (en) | 2024-04-18 |
WO2023272629A1 (zh) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10845871B2 (en) | Interaction and management of devices using gaze detection | |
EP3497546B1 (en) | Radar-based gestural interface | |
US10209853B2 (en) | System and method for dialog-enabled context-dependent and user-centric content presentation | |
US9103691B2 (en) | Multimode user interface of a driver assistance system for inputting and presentation of information | |
US9261908B2 (en) | System and method for transitioning between operational modes of an in-vehicle device using gestures | |
US20140267035A1 (en) | Multimodal User Interface Design | |
US20140058584A1 (en) | System And Method For Multimodal Interaction With Reduced Distraction In Operating Vehicles | |
US20140168130A1 (en) | User interface device and information processing method | |
WO2014070872A2 (en) | System and method for multimodal interaction with reduced distraction in operating vehicles | |
WO2014196208A1 (ja) | カーナビ用ジェスチャ入力装置 | |
CN112805662A (zh) | 信息处理装置、信息处理方法和计算机程序 | |
US20240126503A1 (en) | Interface control method and apparatus, and system | |
KR102371513B1 (ko) | 대화 시스템 및 대화 처리 방법 | |
JP2014065359A (ja) | 表示制御装置、表示システム及び表示制御方法 | |
US20180143800A1 (en) | Controls for dictated text navigation | |
CN113076079A (zh) | 语音控制方法、服务器、语音控制***和存储介质 | |
US20240127810A1 (en) | Dialogue Management Method, Dialogue Management System, And Computer-Readable Recording Medium | |
CN117396956A (zh) | 显示控制装置和显示控制方法 | |
CN116700558A (zh) | 交互方法、装置、显示界面、终端和车辆 | |
JP2023052452A (ja) | 表示制御装置、表示システム、表示制御方法及び表示制御プログラム | |
JP2004317412A (ja) | 車載装置 | |
CN117396365A (zh) | 对话服务装置和对话***控制方法 | |
KR20190066116A (ko) | 대화 시스템 및 이를 포함하는 차량 | |
JP2018124874A (ja) | 入力装置、入力方法及び入力プログラム | |
Siegl | Speech interaction while driving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |