CN112286487A - 语音引导操作方法、装置、电子设备及存储介质 - Google Patents

语音引导操作方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112286487A
CN112286487A CN202011600793.2A CN202011600793A CN112286487A CN 112286487 A CN112286487 A CN 112286487A CN 202011600793 A CN202011600793 A CN 202011600793A CN 112286487 A CN112286487 A CN 112286487A
Authority
CN
China
Prior art keywords
voice
application program
interface
information
information set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011600793.2A
Other languages
English (en)
Other versions
CN112286487B (zh
Inventor
熊文龙
邓志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhidao Network Technology Beijing Co Ltd
Original Assignee
Zhidao Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhidao Network Technology Beijing Co Ltd filed Critical Zhidao Network Technology Beijing Co Ltd
Priority to CN202011600793.2A priority Critical patent/CN112286487B/zh
Publication of CN112286487A publication Critical patent/CN112286487A/zh
Application granted granted Critical
Publication of CN112286487B publication Critical patent/CN112286487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种语音引导操作方法、装置、电子设备及存储介质,其中方法包括:接收对车载智能终端上的应用程序的语音操作指令;其中,语音操作指令被预先配置为与应用程序的界面上的可执行操作功能具有对应关系,可执行操作功能包括应用程序的当前界面可通过触摸方式执行的随机操作;根据语音操作指令在应用程序中确定可执行操作功能和可通过触摸方式执行的随机操作;根据可执行操作功能和可通过触摸方式执行的随机操作,在应用程序中执行语音操作指令对应的操作指令。本发明应用于现有的智能终端时,无需事先单独为每个应用集成语音操作的工具包,只需在移动终端启动本发明的运行,即可实现在智能终端的后台跨不同应用程序的语音引导操作。

Description

语音引导操作方法、装置、电子设备及存储介质
技术领域
本发明涉及语音控制技术领域,尤其涉及一种语音引导操作方法、装置、电子设备及存储介质。
背景技术
目前,在智能移动终端上运行的应用(Application,APP),通常通过点击触摸屏来实现交互,具体为:用户在控制界面通过手动操作发出命令,智能移动终端接收该命令后进行响应,并将响应结果以可视化的方式反馈给用户,用户根据看到的界面,进行相应的操作。
但是,存在一些应用场景,用户手动发出命令,以及通过眼睛来查看移动终端的响应存在操作上的不便。最为典型的一个应用场景是,用户处于驾驶状态下。显然,用户需要双手把握方向盘,用户的眼睛需要专注于路况,在眼睛和双手不自由的情况下,语音控制成为车载控制***研发的方向。
在基于语音方式对智能移动终端上运行的应用进行控制时,涉及两个方面的技术,其一为,用户命令通过语音发出后,智能终端针对用户语音命令的识别;其二为,智能终端如何将基于语音命令的识别所进行的反馈告知用户。语音识别问题的研究已经非常广泛了,智能终端基于语音命令的反馈,或者说智能终端的语音引导操作,更加值得关注。
现有的应用语音导引操作,通常需要在待控制的应用内部集成用于语音操作的SDK(Software Development Kit,软件开发工具包),以实现对语音引导操作。然而,对于目前的多数应用程序,并未事先集成用于语音操作的SDK,因此,对于本领域技术人员而言,智能终端中跨不同APP的语音引导操作依然是亟需解决的技术问题。
发明内容
本发明提供一种语音引导操作方法、装置、电子设备及存储介质,用以解决现有技术中语音引导操作局限于应用程序内部需要事先集成语音操作工具包的缺陷,实现智能终端中跨不同应用程序的语音引导操作。
本发明提供了一种语音引导操作方法,包括:接收对车载智能终端上的应用程序的语音操作指令;其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作;根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
根据本发明提供的语音引导操作方法,所述语音操作指令通过如下步骤获取:在应用程序的界面发生变化的情况下,收集与所述应用程序发生变化的界面所对应的界面信息集合;将预先存储的与所述应用程序关联的搜索特征信息集合,与所述界面信息集合进行匹配,计算相似度;基于所述相似度,确定所述搜索特征信息集合中与界面变化匹配的搜索特征信息;将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息中;其中,所述引导操作为预先关联设置;基于所述反馈信息,利用语音合成,获取所述语音操作指令。
根据本发明提供的语音引导操作方法,所述界面信息集合为文本信息集合和/或图片信息集合;所述文本信息集合包括至少一个文本信息;所述图片信息集合包括至少一个图片信息。
根据本发明提供的语音引导操作方法,所述收集与所述应用程序发生变化的界面所对应的界面信息集合包括如下步骤:创建文本信息数据链表和图片信息数据链表;对所述应用程序所包含的界面进行扫描,基于扫描获得的结果,将对应的数据分别写入所述文本信息数据链表和所述图片信息数据链表;基于所述文本信息数据链表中存储的数据,确定所述文本信息集合;基于所述图片信息数据链表存储的数据,确定所述图片信息集合。
根据本发明提供的语音引导操作方法,所述搜索特征信息集合通过如下步骤获取:在应用程序被打开时,识别所述应用程序对应的名称标识;将所述名称标识传递至云端服务器,并向所述云端服务器请求与所述名称标识相关联的搜索特征信息;接收所述云端服务器发送的搜索特征信息,并下载到本地移动终端;其中,所述搜索特征信息为预先设置在所述云端服务器中,包括目标文本信息、目标图像信息、应用程序名称标识,以及,与所述应用程序名称标识对应的至少一个引导操作;在所述搜索特征信息中,筛选与所述应用程序名称标识关联的所述目标文本信息和所述目标图像信息,生成所述搜索特征信息集合。
根据本发明提供的语音引导操作方法,所述将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息包括:创建反馈信息数据链表;确定与所述界面变化对应的界面信息集合的相似度超过预置阈值的搜索特征信息;将所述搜索特征信息存储于所述反馈信息数据链表中;获取所述反馈信息数据链表的长度;随机抽取所述反馈信息数据链表中的搜索特征信息在所述引导操作中对应的文本字符串,生成反馈信息。
根据本发明提供的语音引导操作方法,所述应用程序的界面发生变化包括:点击、滑动或窗口切换。
第二方面,本发明还提供了一种语音引导操作装置,包括:接收模块、确认模块和执行模块。其中,接收模块用于接收对车载智能终端上的应用程序的语音操作指令;其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;确认模块用于根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作;执行模块用于根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音引导操作方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音引导操作方法的步骤
本发明提供的一种语音引导操作方法、装置、电子设备及存储介质,通过接收对车载智能终端上的应用程序的语音操作指令,确定可执行操作功能和可通过触摸方式执行的随机操作,并根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在应用程序中执行语音操作指令对应的操作指令。
由此,本发明对应用程序的交互界面因变化呈现的交互功能的变化实现了基于语音的反馈,克服了现有技术中语音引导操作局限于应用程序自身扩展与修改的方式,当本发明应用于现有的智能终端时,无需事先单独为每个应用集成语音操作的工具包,只需在移动终端启动本发明的运行,即可实现在智能终端的后台跨不同应用程序的语音引导操作,方便实用,易于推广。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音引导操作方法流程示意图;
图2是本发明提供的语音引导操作方法中,语音操作指令流程示意图;
图3是本发明提供的语音引导操作方法中,文本信息集合和图片信息集合的收集流程示意图;
图4是本发明提供的语音引导操作方法中,预先存储的与应用程序关联的搜索特征信息集合的获取流程示意图;
图5是本发明提供的语音引导操作方法中,生成语音反馈的流程示意图;
图6是本发明提供的语音引导操作装置的结构示意图;
图7是本发明提供的语音引导操作装置,与接收模块相连接的语音操作指令生成模块的结构示意图;
图8是发明提供的语音引导操作装置中,语音操作指令生成模块的收集单元的结构示意图;
图9是发明提供的语音引导操作装置中,语音操作指令生成模块的计算单元的结构示意图;
图10是发明提供的语音引导操作装置中,语音操作指令生成模块的引导操作对应单元的结构示意图;
图11是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的语音引导操作方法。
需要说明的是,本发明语音引导操作方法,该方法的执行主体可以是终端设备,具体可以是终端设备的处理***,或者终端设备中装载的实现语音控制的插件等,此处的终端设备可以是智能手机、平板电脑、车载控制装置等,本发明对此不作限定。
参照图1,图1为发明提供的语音引导操作方法的流程示意图,包括如下步骤:
步骤110,接收对车载智能终端上的应用程序的语音操作指令。
其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;
步骤120,根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作。
步骤130,根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
本实施例通过接收对车载智能终端上的应用程序的语音操作指令,确定可执行操作功能和可通过触摸方式执行的随机操作,并根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在应用程序中执行语音操作指令对应的操作指令。
由此,本发明对应用程序的交互界面因变化呈现的交互功能的变化实现了基于语音的反馈,克服了现有技术中语音引导操作局限于应用程序自身扩展与修改的方式,当本发明应用于现有的智能终端时,无需事先单独为每个应用集成语音操作的工具包,只需在移动终端启动本发明的运行,即可实现在智能终端的后台跨不同应用程序的语音引导操作,方便实用,易于推广。参照图2,图2为图2是本发明提供的语音引导操作方法中,语音操作指令流程示意图,包括如下步骤:
步骤210,在应用程序的界面发生变化的情况下,收集与所述应用程序发生变化的界面所对应的界面信息集合;
步骤220,将预先存储的与所述应用程序关联的搜索特征信息集合,与所述界面信息集合进行匹配,计算相似度;
步骤230,基于所述相似度,确定所述搜索特征信息集合中与界面变化匹配的搜索特征信息;
步骤240,将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息中;其中,所述引导操作为预先关联设置;
步骤250,基于所述反馈信息,利用语音合成,获取所述语音操作指令。
下面,对各个步骤进行说明。
关于步骤210。
步骤210,在应用程序的界面发生变化的情况下,收集与所述应用程序发生变化的界面所对应的界面信息集合。
该步骤中,应用程序的含义为,不为本发明的语音引导操作的应用;也就是说,除语音引导操作之外的其他应用,都可以被认定为本申请的应用程序。在具体实施时,被监控的应用程序的数目不做限定,可以为一个,也可以为多个。
本实施例中的“变化”,可以为App被点击、滑动、窗口切换等,本发明对此不作限定。每当应用程序的界面发生变化时,就会触发对当前应用程序的界面的信息收集。
这里的“监控”,在实际操作时的实现方式可以为:定期或不定期刷新应用程序的界面,在界面信息发生变化的情况下,收集变化界面所对应的界面信息集合。
在一个实施例中,界面信息集合可以为文本信息集合,也可以为图片信息集合,当然,界面信息集合还可以为文本信息集合和图片信息集合。其中的文本信息集合可以包括一个文本信息,也可以包括多个文本信息。图片信息集合类似,可以包括一个图片信息,也可以包括多个图片信息。
从上述说明可以看出,对应用程序的界面而言,其界面信息集合随着时间的推移,可能是不断地在变化,具体内容可能是界面的文本在变,也可能是界面的图片在变。
在一个优选的实施例中,文本信息集合和图片信息集合的收集可以通过如下方式进行,参照图3,图3为本发明提供的语音引导操作方法中,文本信息集合和图片信息集合的收集流程图,包括如下步骤:
步骤310,创建文本信息数据链表和图片信息数据链表;
步骤320,对所述应用程序所包含的界面进行扫描,基于扫描获得的结果,将对应的数据分别写入所述文本信息数据链表和所述图片信息数据链表;
步骤330,基于所述文本信息数据链表中存储的数据,确定所述文本信息集合;
步骤340,基于所述图片信息数据链表存储的数据,确定所述图片信息集合。
可以看出,通过上述步骤310至步骤340,完成了文本信息集合和图片信息集合的收集。需要说明的是,本实施例只是给出了一种文本信息和图片信息的收集方式,本发明不局限于此,其他对文本信息和图片信息的收集方式也在本发明的保护范围之内。
下面进一步说明步骤220。
步骤220,将预先存储的与应用程序关联的搜索特征信息集合,与界面信息集合进行匹配,计算元素之间的相似度。
下面对搜索特征信息集合、搜索特征信息集合与界面信息集合的匹配、以及,相似度的计算方式,以及搜索特征信息集合如何预先存储逐一进行说明。
1)、搜索特征信息集合
对于每一个安装于移动终端的应用程序而言,其具有多个属性,应用程序的名称标识、与应用程序关联的文本信息、图像信息、以及与应用程序名称标识对应的至少一个引导操作的文本,可以作为搜索特征信息。
2)搜索特征信息集合的获取
在应用程序在移动终端被打开时,应用程序被识别,根据应用程序的名称标识,搜索该应用程序所关联的文本信息集合、图像信息集合,文本操作的文本。该步骤中的搜索特征信息集合,即包括文本信息集合与图像信息集合。
参照图4,图4为本发明语音引导操作方法一个实施例中,预先存储的与应用程序关联的搜索特征信息集合的获取步骤流程图,包括:
步骤410,在应用程序被打开时,识别应用程序对应的名称标识。
步骤420,将名称标识传递至云端服务器,并向所述云端服务器请求与所述名称标识相关联的搜索特征信息。
步骤430,接收所述云端服务器发送的搜索特征信息,并下载到本地移动终端。
其中,所述搜索特征信息为预先设置在所述云端服务器中,包括目标文本信息、目标图像信息、应用程序名称标识,以及,与所述应用程序名称标识对应的至少一个引导操作;
步骤440,在所述搜索特征信息中,筛选与所述应用程序名称标识关联的所述目标文本信息和所述目标图像信息,生成所述搜索特征信息集合。
从上述步骤410至440可以看出,在应用程序没有打开时,移动终端本地并不存储与该应用程序相关的搜索特征信息集合,其是在打开应用时,向云端服务器调取关联信息。当当前应用程序被关闭时,相关的关联信息可以被清除。
3)、搜索特征信息集合与界面信息集合的匹配
例如,在一个实施例中,搜索特征信息集合F包括文本信息集合T与图像信息集合P。
即F={T,P}
其中,文本信息集合为T={t1,t2,t3,t4}
图像信息集合为P={p1,p2,p3}
当前时刻,经过监控,发现应用程序APP的界面发生变化,经过扫描,收集到的应用程序APP发生变化界面所对应的界面信息集合为A:
在该实施例中,界面信息集合为A为图像信息集合,A={a1,a2}
将搜索特征信息集合F与界面信息集合A的匹配的操作具体为:图像信息集合为P={p1,p2,p3}与界面信息集合为A的匹配,包括如下匹配对:
(a1,p1),(a1,p2),(a1,p3),(a2,p1),(a2,p2),
(a2,p3)
当然,上述实施例只是给出界面信息集合为A为图像信息的集合时匹配,在具体实施时,界面信息集合为A还可以为文本信息集合。其匹配方式与上述匹配类似,不再给出具体说明。
4)相似度的计算方式
当完成步骤S120后,获得应用程序关联的搜索特征信息集合与界面信息集合进行匹配,也就是,类似于(a1,p1),(a1,p2),(a1,p3),(a2,p1),(a2,p2),(a2,p3)的匹配。接下来的操作便是计算这些匹配的相似度。
在本实施例中,将图像信息集合为P={p1,p2,p3}中的各个元素与发生变化的界面信息集合为A={a1,a2}中的各个元素进行匹配,并且A为图像信息集合。此时可以通过openCV通用匹配识别算法计算相似度。若发生变化的界面信息集合为文本信息集合,则可以通过字符串相识度算法,计算相似度。
下面说明步骤230。
步骤230,基于所述相似度,确定所述搜索特征信息集合中与界面变化匹配的搜索特征信息。
在该步骤中,以步骤220获得的相似度为基础确定当前应用界面发生变化时对应的搜索特征信息。
一个较为优选的规则是,将搜索特征信息集合中具有最高相似度的搜索特征信息确定为与界面变化匹配的搜索特征信息。
继续接步骤120,在一个实施例中,通过openCV通用匹配识别算法计算相似度,各个匹配对对应的相似度为:
S(a1,p1)=s1
S(a1,p2)=s2
S(a1,p3)=s3
S(a2,p1)=s4
S(a2,p2)=s5
S(a2,p3)=s6
若s4最大,则确定当前应用界面变化对应的搜索特征信息为p1。
步骤240,将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息中;其中,所述引导操作为预先关联设置。
例如,在一个实施例中,在一个实施例中,参照图5,将与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息可以包括如下步骤:
步骤510,创建反馈信息数据链表;
步骤520,确定与所述界面变化对应的界面信息集合的相似度超过预置阈值的搜索特征信息;
步骤530,将所述搜索特征信息存储于所述反馈信息数据链表中;
步骤540,获取所述反馈信息数据链表的长度;
步骤550,随机抽取所述反馈信息数据链表中的搜索特征信息在所述引导操作中对应的文本字符串,生成反馈信息。
步骤250,基于所述反馈信息,利用语音合成,获取语音操作指令。
本实施例通过监控除自身之外的任何应用程序界面的变化,获得界面信息集合,将界面信息集合与预先约定的搜索特征信息集合进行相似度的匹配,确定界面变化对应的搜索特征信息,然后将搜索特征信息关联约定的引导操作作为反馈信息,利用语音合成,发出语音。
下面给出一种语音引导操作方法的一个实例,其在实施中为常驻运行于终端设备后台的应用程序,可以称为Service服务,本实例通过计算机软件实现的视角,对上述实施例的方法进行落地。需要说明是,下述实例仅仅为实现本发明方法其中一种可行的程序实现方式,本发明不局限于下述一种实现方式。
下面结合对该Service服务在通过计算机软件实现过程中的几个环节进行说明:
1、该Service服务内存中创建并缓存一个textCacheList、一个imageCacheList、一个searchTextList、一个searchImageList数据链表和一个feedbackList。
2、该Service服务监控除自己以外的其它任何第三方App界面上的变化,变化包括不限于App被点击、滑动、窗口切换等,每当其它App界面发生变化时,就会触发Service服务对第三方App界面进行一次View节点扫描。
当Service在对其它App扫描完后,会对App界面上所有的View进行数据收集,界面上包括n个View,针对每一个View,会创建1个NodeInfo数据对象,该NodeInfo数据对象保存了该View的Text文本信息和View的Rect(Left、Right、Top、Bottom)信息和View的缓存信息,如果所搜索的View不包含Text信息则该NodeInfo加入到第1条所述imageCacheList链表中,如果Text包含信息则该NodeInfo加入到第1条所述textCacheList链表中。
需要说明的是,在云端服务器中预设了一个数组对象(暂命名为PolicyCaches,数组中的内部对象命名为PolicyCache),PolicyCache由1个文本数据targeText、一个图像数据targetImage、一个第三方App的packageName字符串组成(每个App对应唯一的PackageName)和一个feedBacks数组构成,feedBacks包含多个中文文本。
于是,每当用户在终端设备上打开一个App的时候,Service服务会识别当前App的packageName,并把packageName作为参数传递到云端服务器,从服务器中的PolicyCaches数组中把packageName和该传递上去的packageName相等的PolicyCache对象数据下载到本地,把PolicyCache数据对象中targetText不为空的加入到1中所述searchTextList链表中,targetImage不为空的加入到searchImageList中,PolicyCahce的targetText和targetImage为互斥,只能一个不为空,另一个为空。
3、当用户在终端设备上打开某个App后,Service服务建立好textCacheList、ImageCacheList和searchTextList、searchImageList后开始进行搜索,使用searchTextList中PolicyCache对象的targetText在textCacheList中搜索,搜索的方式为字符串相识度算法,查找匹配度最高的PolicyCache对象,并加入到feedbackList中;同样使用searchImageList中PolicyCache对象的targetImage再imageCacheList中搜索,搜索方式为openCV通用匹配识别算法,搜索匹配度最高的PolicyCache也加入到feedbackList链表中。
4、feedbackList为最终搜到的链表数据,获取feedbackList的长度feedback_lengh,使用new Random().nextInt(feedback_lengh),获取feedbackList中随机的一个PolicyCache对象,在使用Random随机算法从PolicyCache的feedBacks数组中随机抽取一个文本字符串作为最终的speakFeedBackText。
5、Service服务器具有合成语音功能,使用speakFeedBackText合成最终的语音反馈。
需要说明的是,上述5个步骤并非是每一次语音引导操作的均需完整经历的步骤。
在Service服务运行期间,通常是执行步骤3,步骤4和步骤5。而在执行步骤3时,其中的数据链表textCacheList、ImageCacheList是通过步骤2中的NodeInfo数据对象的建立确定的,而searchTextList、searchImageList是根据云端服务器searchTextList、searchImageList建立的。数据链表textCacheList、ImageCacheList每次一次应用的界面刷新都会触发一次页面扫描和搜索以及操作,每一次Service服务都会重新建立textCacheList、ImageCacheList;而searchTextList、searchImageList则是在打开App的时候建立,退出App时候清除。
通过上述说明,可以看出,当用户在终端设备上打开第三方App的时候,Service服务利用云端服务器预设的数据和当前App页面的view数据来对用户及实时的语音提示,提示用户进行操作。
下面结合图6至图9对本发明提供的语音引导操作装置进行描述,下文描述的语音引导操作装置与上文描述的语音引导操作方法可相互对应参照。
参照图6,图6为本发明提供的语音引导操作装置的结构示意图,包括:接收模块61、确认模块62和执行模块63。
接收模块61用于接收对车载智能终端上的应用程序的语音操作指令;其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;
确认模块62用于根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作;
执行模块63用于根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
本实施例通过接收对车载智能终端上的应用程序的语音操作指令,确定可执行操作功能和可通过触摸方式执行的随机操作,并根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在应用程序中执行语音操作指令对应的操作指令。
由此,本发明对应用程序的交互界面因变化呈现的交互功能的变化实现了基于语音的反馈,克服了现有技术中语音引导操作局限于应用程序自身扩展与修改的方式,当本发明应用于现有的智能终端时,无需事先单独为每个应用集成语音操作的工具包,只需在移动终端启动本发明的运行,即可实现在智能终端的后台跨不同应用程序的语音引导操作,方便实用,易于推广。
参照图7,在一个实施例中,接收模块61中还连接有语音操作指令生成模块,该语音操作指令生成模块包括:收集单元601、计算单元602、匹配单元603、引导操作对应单元604和合成单元605。
其中,收集单元601用于在应用程序的界面发生变化的情况下,收集与所述应用程序发生变化的界面所对应的界面信息集合;计算单元602用于将预先存储的与所述应用程序关联的搜索特征信息集合,与所述界面信息集合进行匹配,计算相似度;匹配单元603用于基于所述相似度,确定所述搜索特征信息集合中与界面变化匹配的搜索特征信息;引导操作对应单元604用于将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息中;其中,所述引导操作为预先关联设置。合成单元605用于基于所述反馈信息,利用语音合成,获取所述语音操作指令。
本实施例提供的一种语音引导操作装置,通过监控除自身之外的任何应用程序界面的变化,获得界面信息集合,将界面信息集合与预先约定的搜索特征信息集合进行相似度的匹配,确定界面变化对应的搜索特征信息,然后将搜索特征信息关联约定的引导操作作为反馈信息,利用语音合成,发出语音。
在一个实施例中界面信息集合为文本信息集合和/或图片信息集合;文本信息集合包括至少一个文本信息;图片信息集合包括至少一个图片信息。
并且,在一个实施例中,参照图8,收集单元601还可以进一步包括:创建部6011、扫描部6012、文本信息集合生成部6013和图片信息集合生成部6014。
其中,创建部6011用于创建文本信息数据链表和图片信息数据链表;扫描部6012用于对所述应用程序所包含的界面进行扫描,基于扫描获得的结果,将对应的数据分别写入所述文本信息数据链表和所述图片信息数据链表;文本信息集合生成部6013用于基于所述文本信息数据链表中存储的数据,确定所述文本信息集合;图片信息集合生成部6014用于基于所述图片信息数据链表存储的数据,确定所述图片信息集合。
参照图9,在一个实施例中,图9是发明提供的语音引导操作装置中,语音操作指令生成模块的计算单元中下载子单元的结构示意图,包括:识别部6021、请求部6022、接收部6023和筛选部6024。
其中,识别部6021用于在应用程序被打开时,识别所述应用程序对应的名称标识。请求部6022将所述名称标识传递至云端服务器,并向所述云端服务器请求与所述名称标识相关联的搜索特征信息。接收部6023接收所述云端服务器发送的搜索特征信息,并下载到本地移动终端;其中,所述搜索特征信息为预先设置在所述云端服务器中,包括目标文本信息、目标图像信息、应用程序名称标识,以及,与所述应用程序名称标识对应的至少一个引导操作。筛选部6024用于在所述搜索特征信息中,筛选与所述应用程序名称标识关联的所述目标文本信息和所述目标图像信息,生成所述搜索特征信息集合。
参照图10,图10是发明提供的语音引导操作装置中,语音操作指令生成模块的引导操作对应单元的结构示意图,包括:数据链表创建部6041、搜索特征信息确定部6042、存储部6043、长度获取部6044和反馈信息生成部6045。
其中,数据链表创建部6041,创建反馈信息数据链表;搜索特征信息确定部6042,确定与所述界面变化对应的界面信息集合的相似度超过预置阈值的搜索特征信息;存储部6043,将所述搜索特征信息存储于所述反馈信息数据链表中;长度获取部6044,用于获取所述反馈信息数据链表的长度;反馈信息生成部6045,随机抽取所述反馈信息数据链表中的搜索特征信息在所述引导操作中对应的文本字符串,生成反馈信息。
图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行语音引导操作方法,该方法包括:
监控应用程序的界面,在发生变化的情况下,收集与所述应用程序发生变化的界面所对应的界面信息集合;
将预先存储的与所述应用程序关联的搜索特征信息集合,与所述界面信息集合进行匹配,计算元素之间的相似度;
基于所述相似度,确定所述搜索特征信息集合中与界面变化匹配的搜索特征信息;
将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息中;其中,与所述搜索特征信息对应的所述引导操作为预先关联设置;
基于所述反馈信息,利用语音合成,发出语音,形成语音反馈。
此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的以执行语音引导操作方法,该方法包括:接收对车载智能终端上的应用程序的语音操作指令;其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作;根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的以执行语音引导操作方法,该方法包括:接收对车载智能终端上的应用程序的语音操作指令;其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作;根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音引导操作方法,其特征在于,包括:
接收对车载智能终端上的应用程序的语音操作指令;其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;
根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作;
根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
2.根据权利要求1所述的语音引导操作方法,其特征在于,所述语音操作指令通过如下步骤获取:
在应用程序的界面发生变化的情况下,收集与所述应用程序发生变化的界面所对应的界面信息集合;
将预先存储的与所述应用程序关联的搜索特征信息集合,与所述界面信息集合进行匹配,计算相似度;
基于所述相似度,确定所述搜索特征信息集合中与界面变化匹配的搜索特征信息;
将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息中;其中,所述引导操作为预先关联设置;
基于所述反馈信息,利用语音合成,获取所述语音操作指令。
3.根据权利要求2所述的语音引导操作方法,其特征在于,
所述界面信息集合为文本信息集合和/或图片信息集合;
所述文本信息集合包括至少一个文本信息;
所述图片信息集合包括至少一个图片信息。
4.根据权利要求3所述的语音引导操作方法,其特征在于,所述收集与所述应用程序发生变化的界面所对应的界面信息集合包括如下步骤:
创建文本信息数据链表和图片信息数据链表;
对所述应用程序所包含的界面进行扫描,基于扫描获得的结果,将对应的数据分别写入所述文本信息数据链表和所述图片信息数据链表;
基于所述文本信息数据链表中存储的数据,确定所述文本信息集合;
基于所述图片信息数据链表存储的数据,确定所述图片信息集合。
5.根据权利要求2至4中任一项所述的语音引导操作方法,其特征在于,所述搜索特征信息集合通过如下步骤获取:
在应用程序被打开时,识别所述应用程序对应的名称标识;
将所述名称标识传递至云端服务器,并向所述云端服务器请求与所述名称标识相关联的搜索特征信息;
接收所述云端服务器发送的搜索特征信息,并下载到本地移动终端;其中,所述搜索特征信息为预先设置在所述云端服务器中,包括目标文本信息、目标图像信息、应用程序名称标识,以及,与所述应用程序名称标识对应的至少一个引导操作;
在所述搜索特征信息中,筛选与所述应用程序名称标识关联的所述目标文本信息和所述目标图像信息,生成所述搜索特征信息集合。
6.根据权利要求5所述的语音引导操作方法,其特征在于,所述将所述与界面变化匹配的搜索特征信息对应的至少一个引导操作记录于反馈信息包括:
创建反馈信息数据链表;
确定与所述界面变化对应的界面信息集合的相似度超过预置阈值的搜索特征信息;
将所述搜索特征信息存储于所述反馈信息数据链表中;
获取所述反馈信息数据链表的长度;
随机抽取所述反馈信息数据链表中的搜索特征信息在所述引导操作中对应的文本字符串,生成反馈信息。
7.根据权利要求1所述的语音引导操作方法,其特征在于,
所述应用程序的界面发生变化包括:点击、滑动或窗口切换。
8.一种语音引导操作装置,其特征在于,包括:
接收模块,用于接收对车载智能终端上的应用程序的语音操作指令;其中,所述语音操作指令被预先配置为与所述应用程序的界面上的可执行操作功能具有对应关系,所述可执行操作功能包括所述应用程序的当前界面可通过触摸方式执行的随机操作;
确认模块,用于根据所述语音操作指令在所述应用程序中确定所述可执行操作功能和所述可通过触摸方式执行的随机操作;
执行模块,用于根据所述可执行操作功能和所述可通过触摸方式执行的随机操作,在所述应用程序中执行所述语音操作指令对应的操作指令。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的语音引导操作方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音引导操作方法的步骤。
CN202011600793.2A 2020-12-30 2020-12-30 语音引导操作方法、装置、电子设备及存储介质 Active CN112286487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011600793.2A CN112286487B (zh) 2020-12-30 2020-12-30 语音引导操作方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011600793.2A CN112286487B (zh) 2020-12-30 2020-12-30 语音引导操作方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112286487A true CN112286487A (zh) 2021-01-29
CN112286487B CN112286487B (zh) 2021-03-16

Family

ID=74426672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011600793.2A Active CN112286487B (zh) 2020-12-30 2020-12-30 语音引导操作方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112286487B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN106373570A (zh) * 2016-09-12 2017-02-01 深圳市金立通信设备有限公司 一种语音控制方法及终端
CN108108142A (zh) * 2017-12-14 2018-06-01 广东欧珀移动通信有限公司 语音信息处理方法、装置、终端设备及存储介质
US20180167408A1 (en) * 2016-12-13 2018-06-14 International Business Machines Corporation Method and system to prevent ultrasound data leaks in mobile devices
US10356536B2 (en) * 2016-11-24 2019-07-16 Oticon A/S Hearing device comprising an own voice detector
CN111061452A (zh) * 2019-12-17 2020-04-24 北京小米智能科技有限公司 用户界面的语音控制方法和装置
US10811008B2 (en) * 2017-06-21 2020-10-20 Samsung Electronics Co., Ltd Electronic apparatus for processing user utterance and server
CN111968640A (zh) * 2020-08-17 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN112040442A (zh) * 2020-08-21 2020-12-04 博泰车联网(南京)有限公司 交互方法、移动终端、车载终端及计算机可读存储介质
CN112114770A (zh) * 2019-06-19 2020-12-22 百度在线网络技术(北京)有限公司 基于语音交互的界面引导方法、装置及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN106373570A (zh) * 2016-09-12 2017-02-01 深圳市金立通信设备有限公司 一种语音控制方法及终端
US10356536B2 (en) * 2016-11-24 2019-07-16 Oticon A/S Hearing device comprising an own voice detector
US20180167408A1 (en) * 2016-12-13 2018-06-14 International Business Machines Corporation Method and system to prevent ultrasound data leaks in mobile devices
US10811008B2 (en) * 2017-06-21 2020-10-20 Samsung Electronics Co., Ltd Electronic apparatus for processing user utterance and server
CN108108142A (zh) * 2017-12-14 2018-06-01 广东欧珀移动通信有限公司 语音信息处理方法、装置、终端设备及存储介质
CN112114770A (zh) * 2019-06-19 2020-12-22 百度在线网络技术(北京)有限公司 基于语音交互的界面引导方法、装置及设备
CN111061452A (zh) * 2019-12-17 2020-04-24 北京小米智能科技有限公司 用户界面的语音控制方法和装置
CN111968640A (zh) * 2020-08-17 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN112040442A (zh) * 2020-08-21 2020-12-04 博泰车联网(南京)有限公司 交互方法、移动终端、车载终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN112286487B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN106101789B (zh) 终端的语音交互方法及装置
CN103915095B (zh) 语音识别的方法、交互设备、服务器和***
US11874904B2 (en) Electronic device including mode for using an artificial intelligence assistant function of another electronic device
CN108363811A (zh) 设备识别方法及装置、电子设备、存储介质
EP1899953A2 (en) Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
CN106649446B (zh) 信息推送方法和装置
CN112463106A (zh) 基于智能屏幕的语音交互方法、装置、设备及存储介质
CN109861851A (zh) 一种家电设备的配网方法、装置、存储介质及移动终端
US10950240B2 (en) Information processing device and information processing method
CA3166742A1 (en) Method of generating text plan based on deep learning, device and electronic equipment
CN108733666B (zh) 服务器信息推送方法、终端信息发送方法及装置、***
CN102999628A (zh) 搜索方法和信息搜索终端
CN111479250A (zh) 一种文件共享方法、装置、***及终端设备
WO2018145574A1 (zh) 一种信息处理方法及装置、终端、服务器、存储介质
CN114722292A (zh) 书籍搜索方法、装置、设备和存储介质
KR102205686B1 (ko) 후보 문자 순위화 방법 및 장치와 문자 입력 방법 및 장치
CN112286487B (zh) 语音引导操作方法、装置、电子设备及存储介质
CN113766504A (zh) 通信连接方法、装置、服务器、终端设备、***和介质
CN111225115B (zh) 信息提供方法及装置
CN109727597A (zh) 语音信息的交互辅助方法和装置
CN112331201A (zh) 语音的交互方法和装置、存储介质、电子装置
CN112491940A (zh) 代理服务器的请求转发方法及装置、存储介质及电子设备
CN106254575B (zh) 一种确定用户标识的方法和装置
CN111625746B (zh) 应用程序页面的显示方法、***、电子设备和存储介质
KR20190032129A (ko) 지식재산 거래 서비스 제공 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant