CN113741769A

CN113741769A - 基于图像识别的控制方法和***及车辆、存储介质

Info

Publication number: CN113741769A
Application number: CN202010474388.4A
Authority: CN
Inventors: 叶将涛; 阮洲; 杨世琨; 刘柯
Original assignee: BYD Co Ltd
Current assignee: BYD Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2021-12-03

Abstract

本发明公开了一种基于图像识别的控制方法和***及车辆、存储介质，包括，获取显示界面的状态信息并进行判断；如果所述状态信息发生变化，则获取所述显示界面的图像信息并提取所述图像信息的特征信息；获取对所述特征信息的控制指令；根据所述控制指令对所述特征信息进行控制。由此，不需要对软件进行适配性调试，用户也可以对软件进行语音操控，提升了用户的使用体验。

Description

基于图像识别的控制方法和***及车辆、存储介质

技术领域

本发明涉及应用控制技术领域，尤其是涉及一种基于图像识别的控制方法，以及计算机可读存储介质和基于图像识别的控制***以及车辆。

背景技术

近些年来，随着技术的不断发展，图像识别在生活中的应用也日趋广泛。但是，发明人发现，现有技术中，图像识别的用户使用体验不够完善。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种基于图像识别的控制方法，该方法旨在一定程度上解决现有技术存在的不足。

本发明的目的之二在于提出一种计算机可读存储介质。

本发明的目的之三在于提出一种基于图像识别的控制***。

本发明的目的之四在于提出一种车辆。

为了解决上述问题，本发明第一方面实施例的基于图像识别的控制方法，包括：获取显示界面的状态信息并进行判断；如果所述状态信息发生变化，则获取所述显示界面的图像信息并提取所述图像信息的特征信息；获取对所述特征信息的控制指令；根据所述控制指令对所述特征信息进行控制。

根据本发明实施例提供的基于图像识别的控制方法，特征信息的控制指令能够根据显示界面状态信息的变化自动获取显示界面的图像信息，进而提取图像信息中的特征信息。在获取到对特征信息的控制指令后，根据控制指令对特征信息进行控制。由此，在一定程度上提升了图像识别的用户使用体验。

在一些实施例中，所述获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，获取所述显示界面的图像信息并与之前获取的图像信息进行比对，识别所述图像信息中发生变化的图像区域，提取所述图像区域的特征信息并更新到之前所述提取的特征信息中。

在一些实施例中，所述获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，对所述显示界面进行视频录制并提取所述视频的特征信息。

在一些实施例中，当所述显示界面的状态信息停止变化并且持续时间大于或者等于第一预设时间时，停止对所述显示界面的视频录制；

所述提取所述视频的特征信息包括，提取所述视频中关键帧的特征信息。

在一些实施例中，所述获取显示界面的状态信息包括，获取应用程序在所述显示界面的显示状态信息；

所述如果所述状态信息发生变化，则获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，如果所述应用程序在所述显示界面的显示状态发生了变化，并且所述变化后的显示状态持续时间大于或者等于第二预设时间时，则开始获取所述显示界面的图像信息并提取所述图像信息的特征信息，并当所述变化后的显示状态持续时间大于或者等于第三预设时间时，停止获取所述显示界面的图像信息；

其中，所述第二预设时间小于第三预设时间。

在一些实施例中，所述如果所述应用程序在所述显示界面的显示状态发生了变化包括，所述显示界面显示的应用程序发生了变化或者应用程序的当前显示界面发生了变化。

在一些实施例中，所述特征信息包括，文字控制按钮区域、图形控制按钮区域、文字输入区域；

所述获取对所述特征信息的控制指令包括，获取语音指令、服务器下发的指令、第三方传输的指令或者***自动生成的指令；

所述根据所述控制指令对所述特征信息进行控制包括，对所述特征信息进行点击、滑动、文字输入操作；

所述根据所述控制指令对所述特征信息进行控制之后，所述方法还包括，向用户反馈控制结果。

在一些实施例中，所述特征信息包括，在所述显示界面的坐标位置信息；

所述方法还包括，获取用户在控制所述特征信息时的操作信息，并在根据所述控制指令对所述特征信息进行控制时模拟用户的操作信息；

其中，所述操作信息包括点击动作信息、滑动动作信息、文字输入动作信息。

本发明第二方面实施例的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述实施例所述的基于图像识别的控制方法。

本发明第三方面实施例的基于图像识别的控制***，包括：状态信息获取模块，用于获取显示界面的状态信息并进行判断；图像信息获取模块，用于在所述状态信息发生变化时，获取所述显示界面的图像信息并提取所述图像信息的特征信息；控制指令获取模块，用于获取对所述特征信息的控制指令；控制模块，用于根据所述控制指令对所述特征信息进行控制。

根据本发明实施例提供的基于图像识别的控制***，图像信息获取模块能够根据状态信息获取模块获取的显示界面状态信息的变化自动获取显示界面的图像信息，进而提取图像信息中的特征信息。在控制指令获取模块获取到对特征信息的控制指令后，控制模块根据控制指令对特征信息进行控制。由此，在一定程度上提升了图像识别的用户使用体验特征信息的控制指令。

本发明第四方面实施例的车辆，包括显示装置和上述实施例所述的基于图像识别的控制***。

根据本发明实施例的车辆，通过采用上面实施例的基于图像识别的控制***，图像信息获取模块能够根据状态信息获取模块获取的显示界面状态信息的变化自动获取显示界面的图像信息，进而提取图像信息中的特征信息。在控制指令获取模块获取到对特征信息的控制指令后，控制模块根据控制指令对特征信息进行控制。由此，在一定程度上提升了图像识别的用户使用体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明的一个实施例的基于图像识别的控制方法流程图；

图2是根据本发明的一个实施例的应用于车载中控显示屏的控制方法流程图；

图3是根据本发明的一个实施例的坐标位置示意图；

图4是根据本发明的一个实施例的基于图像识别的控制***示意图；

图5是根据本发明的一个实施例的应用于车载中控显示屏的控制***示意图；

图6是根据本发明的一个实施例车辆示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在有计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块，一般的，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“***”等指应用于计算机的相关实体，如硬件、硬件和软件的结合、软件或执行中的软件等。详细的说，例如，元件可以，但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行，元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地***、分布式***中另一元件交互的，和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例中的基于图像识别的控制方法，对应于一种计算机程序产品，该计算机程序产品安装于智能终端设备上，用于实现对安装于智能终端设备上的第三方应用程序的语音控制(在无需对第三方应用程序进行定制或适配性调试或修改的情况下即可实现对其的语音控制)，该智能终端上配置有显示屏或者该终端设备能够投影出显示界面用于用户进行交互操作，例如，智能手机、平板电脑、PC、车载终端、智能家居、投影仪等任何智能硬件，本发明对此不作限定。

本发明提供的基于图像识别的控制技术方案可以应用于对显示界面应用软件的控制，例如控制音乐播放软件、地图导航软件等的打开、界面切换、应用移除等操作，也可以应用于显示界面界面内容的控制，例如图片的处理等。

如图1所示为本发明的一个实施例提供的一种基于图像识别的控制方法流程图。本发明实施例的基于图像识别的控制方法至少包括步骤S101-S104。

步骤S101，获取显示界面的状态信息并进行判断。

其中，本发明的显示界面可以是显示屏幕的显示界面，也可以是投影的显示界面。显示界面的状态信息可以是显示界面当前所展示的应用程序界面。例如，本发明的显示界面为车载中控显示屏的显示界面，显示界面的状态信息为当前显示界面展示的是应用程序界面，可以是地图导航界面、音乐广播界面、游戏界面等，也可以是应用程序的当前界面，例如音乐播放器的音乐列表界面、音乐搜索界面、音乐播放界面等。获取显示界面的状态信息并进行判断，可以通过获取当前正在运行的应用程序信息，应用程序在显示界面的显示信息，应用程序当前显示界面的信息等。获取显示界面的状态信息后进一步进行分析判断。

步骤S102，如果所述状态信息发生变化，则获取所述显示界面的图像信息并提取所述图像信息的特征信息。

具体的，在获取显示界面的状态信息后分析状态信息是否发生变化。例如，在获取到显示界面当前正在显示的应用程序或者应用程序当前显示界面信息后，与之前获取的状态信息进行分析比对，判断显示的应用程序是否发生了变化或者应用程序的显示界面是否发生了变化。例如，显示界面显示的应用程序由导航应用切换为了音乐播放应用，则可以判断状态信息发生了变化；又或者音乐播放应用的当前显示界面由播放界面变为音乐搜索界面，则可以判断为状态信息发生了变化。并在判断到状态信息发生变化之后，获取显示界面的图像信息并提取图像信息中的特征信息。获取显示界面的图像信息可以采用的方式为对当前显示界面进行截图，也可以是只针对部分显示界面进行截图。例如，显示界面可能显示有多种不同类型的信息、不同应用程序的信息。例如，对于车载中控显示屏，其可以同时显示天气信息、车辆信息（包括车内温度、续航等）、导航信息、音乐播放信息以及多媒体信息（例如微信信息、微博信息等）等，有些显示内容属于常驻显示内容，例如显示车辆信息等，有些应用程序不会在显示界面全屏显示，只占用部分显示界面。因此，当显示界面的状态信息发生变化时，例如打开了一个新的应用程序，但是该应用程序只占用了部分显示界面，这时，如果依然采用获取全部显示界面的图像信息并提取特征信息，会导致信息的冗余处理，造成算力的浪费，同时，可能造成信息处理时间的不必要延长，耽误用户的时间。

其中，提取图像信息的特征信息，特征信息可以包括文字形式的控制按钮、图形形式的控制按钮、文字输入区域等等。例如，提取图像信息中的返回图标控制按钮信息、上一页/下一页控制按钮信息、快进/快退按钮信息、进度条、文字输入框等信息。其中，可以理解的，这里的按钮可以是圆形、矩形、其它不规则按钮等形式，或者直接为文字形式；也可以是非常规按钮形式，例如，现在普遍采用的左滑进入上一页、右滑进入下一页、左侧上/下滑调整亮度、右侧上/下滑调整音量、双击播放/暂停等，在这种情况下，本实施例的按钮也可以是非常规按钮形式的控制按钮，非常规按钮形式的控制按钮信息可以通过如下方式获得：分析应用程序或者应用程序在显示界面的显示坐标区域等信息，按照用户常规的左右滑动、双击操作、上下滑动等操作动作，确定左右滑动、双击操作、上下滑动等的操作坐标区域，并将该操作坐标区域及操作动作作为图像信息的特征信息。由此，实现了对于显示界面的图像信息的特征信息的全面提取。

步骤S103，获取对所述特征信息的控制指令。

在本发明实施例中，获取对特征信息的控制指令，该控制指令可以来自于用户的语音控制指令，也可以是来自于服务器等发送的控制指令。例如，从用户发送的一段语音指令中提取到对特征信息（点击、滑动等）的控制指令。

步骤S104，根据所述控制指令对所述特征信息进行控制。

具体的，在获取到对特征信息的控制指令后，根据控制指令对特征信息进行控制。例如，用户的语音控制指令为播放A歌星的B歌曲，此时，将根据控制指令对特征信息中的音乐搜索框进行文字输入并检索，并播放检索到的B歌曲。

根据本发明实施例提供的基于图像识别方法，能够根据显示界面状态信息的变化自动获取显示界面的图像信息，进而提取图像信息中的特征信息。在获取到对特征信息的控制指令后，根据控制指令对特征信息进行控制。由此，在一定程度上提升了图像识别的用户使用体验。

例如，现有技术中，用户希望通过语音下达指令来对应用程序做出控制。但是，应用软件需要进行适配等修改才能实现语音控制的功能。根据本发明实施例提供的技术方案，通过图像识别技术，提取图像信息中的特征信息，进而根据控制指令对特征信息做出控制。由此，在不需要对软件进行适配性修改等的情况下，能够对绝大部分常规软件应用进行图像识别特征信息，进而根据语音控制指令做出控制。

其中，可以理解的，本发明部分实施例是以用户语音控制为例进行说明，但是本发明的应用领域并不局限于用户语音控制技术领域，还可以应用于多种可以代替用户操作的领域，例如，购票时，可以帮助用户自动刷新、自动输入验证码、自动下单并退出等一系列模拟用户的操作。本发明的基于图像识别的控制方法，通过图像识别，寻找特征信息并进行控制，不需要对应用程序进行定制或者适配性调试或者修改，即可根据接收到的控制指令对特征信息进行控制，提升了智能化体验。

其中，本发明提供的基于图像识别的控制方法，采用获取显示界面的状态信息，并且只有在状态信息发生变化时，才进行后续的图像信息获取及特征信息提取流程，避免了信息的重复处理，降低了对于处理器算力等的消耗，同时还可以降低能耗。

本发明实施例提供的基于图像识别的控制方法，在状态信息发生变化时，即开始获取图像信息并提取特征信息，例如，在一个新的应用程序正在启动加载或者应用程序的一个显示界面正在启动加载的过程中，检测到显示界面的状态信息发生变化，此时，即开始获取图像信息并提取特征信息，充分利用了应用程序启动加载或者应用程序的一个显示界面正在启动加载的这一段时间进行图像信息获取及特征信息提取，由此，可以提前对已加载的内容部分进行图像获取及特征提取。

实际操作中，提取图像中的特征信息需要对图像进行识别，并进行大量的运算，耗费的算力比较多，同时也需要一定的计算时间，并非即可可以识别并提取得到特征信息。因此，根据本发明实施例提供的基于图像识别的控制方法，在检测到新的应用程序正在加载或者应用程序的新显示界面正在加载时，即开始获取图像并提取特征信息，可以加快识别响应速度，大大节约了用户的等待时间，甚至可以让用户感受不到获取图像信息及提取特征信息的时间，实现随时相应用户需求的目的。避免了对用户正常操作的干扰，提升了用户的使用体验。

在一些实施例中，所述获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，获取所述显示界面的图像信息并与之前获取的图像信息进行比对，识别所述图像信息中发生变化的图像区域，提取所述图像区域的特征信息并更新到之前提取的所述特征信息中。

具体的，为提升信息处理效率，避免信息的重复冗余处理，本发明实施例还提供了一种方案，包括，获取所述显示界面的图像信息并与之前获取的图像信息进行比对，识别所述图像信息中发生变化的图像区域，提取所述图像区域的特征信息并更新到之前提取的所述特征信息中。由于很多情况下，显示界面只有部分显示内容发生了变化，此时，只需要对发生变化的部分进行处理，提取该部分的特征信息，并将其更新到之前的特征信息中，从而大大降低了信息处理量，节约了数据处理时间，降低了用户的等待时间，进一步提升了用户的使用体验。

具体的，获取显示界面的图像信息可以采用对显示界面进行视频录制。例如，在显示界面的状态信息发生变化时，例如检测到有新的应用程序正在加载或者切换到应用程序新的显示界面时，开始对显示界面进行视频录制，并提取视频中的特征信息。视频相比于图片的形式，可以获取更多的图像信息，并且图像信息为连续的，由此可以获取更多的更全面的并且连续的特征信息。例如，用户打开了视频应用C，视频应用C加载完成后进入了视频应用C的首页，用户操作视频应用C进入到视频应用C的个人中心，打开播放历史，滑动到上次的播放内容并点击了继续播放。根据本发明提供的实施例，当用户打开视频应用C时，可以判断显示界面的状态信息发生了变化，此时，将开始视频录制，将上述用户的操作进行视频录制，并分析视频中的特征信息。特征信息可以是上述用户操作信息及操作位置信息，由此，当用户下达继续播放的指令时，或者根据大数据判断用户需要继续播放时，将根据获取的连续特征信息进行自动连续操作，不需要用户或者***等一步步的下达操作指令，改善了用户的操作体验，提升了智能化程度。

具体的，在判断到显示界面的状态信息发生变化时，开始进行视频录制，当状态信息变化停止，并且持续时间大于等于第一预设时间，可以认为显示界面的状态信息变化已经结束，此时，将停止视频录制，避免数据的重复处理，节约算力。其中，为进一步节约算力，可以仅对视频中的关键帧进行特征信息的提取。关键帧的确定可以是***设定的，比如每隔一段时间提取视频中的一帧并将其确定为关键帧。也可以是大数据自动分析，当画面中关键部分出现了变动，即可将此时的视频画面作为关键帧。通过选取关键帧进行特征信息提取，可以显著提升处理效率，降低对算力的占用，节约处理时间。

其中，所述第二预设时间小于第三预设时间；

所述如果所述应用程序在所述显示界面的显示状态发生了变化包括，所述显示界面显示的应用程序发生了变化或者应用程序的当前显示界面发生了变化。

具体的，本发明一些实施例中，显示界面的状态信息包括应用程序在显示界面的显示状态信息，例如全屏显示、半屏显示、节约显示等。此外，为进一步节约算力，避免不必要的数据处理，本发明的一些实施例中，当判断到显示界面的显示状态发生变化时，还需进一步判断变化后的显示状态的持续时间，并当持续时间大于或者等于第二预设时间时，开始获取显示界面的图像信息，并当持续时间大于或者等于第三预设时间时，停止获取图像信息，其中，第二预设时间小于第三预设时间。例如，当用户进入某一应用程序后又很快退出，表明用户误操作或者用户信息已获取完毕，不需要进一步处理，此时，可以不获取这一阶段的图像信息，从而节约算力，避免不必要的数据处理。当变化后的显示状态持续时间大于或者等于第二预设时间，此时，可以判断用户需要进行后续操作，此时，开始获取图像信息并提取图像信息中的特征信息。当持续时间大于或者等于第三预设时间，此时，由于图像的获取及特征信息的提取已持续一段时间，可以认为用户需要的特征信息已提取完毕，此时，将停止获取显示界面的图像信息。例如，当用户进入某应用界面的时间超过2秒，此时，可以认为需要进行后续操作，开始进行图像信息的获取，当用户进入某应用界面的时间超过60秒，可以认为特征信息已基本提取完毕，或者用户无需对界面进行进一步操作控制，此时，即停止进行图像获取。

本发明中，第一预设时间、第二预设时间以及第三预设时间可以是***或者用户预先设置的，也可以是***根据不同的应用场景进行自适应调整设置的。

具体的，特征信息可以是操作控制区域信息，例如点击、滑动等操作区域信息，还可以包括文字控制按钮区域、图形控制按钮区域、文字输入区域等。

控制指令可以是用户的语音控制指令、服务器下发的指令、通过第三方传输的指令（例如通过网络或者U盘等传输的控制指令）以及***自动生成的控制指令等。

根据控制指令对特征信息进行控制包括点击、滑动、文字输入等操作形式。

其中，本发明提供的实施例，还包括对控制指令的执行结果进行反馈。

在一些实施例中，所述特征信息还包括在所述显示界面的坐标位置信息；

具体的，特征信息包括在显示界面的坐标位置信息，例如，返回按钮在显示界面的坐标位置信息，由此，通过提取的坐标位置信息，可以模拟用户的操作，例如，模拟用户的滑动、点击、文字输入等操作信息。

本发明还提供了一种应用于车载中控显示屏的具体实施例，如图2所示，包括步骤S201-S204：

步骤S201、车载中控显示屏的显示界面进入***某界面。

具体的，由车载中控显示屏的控制***根据应用程序的运行情况来判断当前显示屏的显示界面是否发生改变，是否进入到***某界面，并以此作为触发条件，触发后续的识别控制等操作。

步骤S202、当车载中控显示屏的控制***检测到车载中控显示屏的当前显示界面已经进入某界面并且停留时间超过2秒，可以认为用户已完整获取了界面内容，此时开始进入视频录制，否则则忽略当前界面的录制，以接下来进入的界面重新作为触发条件。

具体的，由于不同的用户对于界面的感知情况有差异，同时界面的刷新加载速度也有差异，所以视频录制的触发点，会进一步准确到当前界面的内容绘制完毕才开始录制，减少无效录制时间。

步骤S203、视频实时录制并同步上传服务器，服务器获取到本地上传的视频文件后，对每一秒的视频中的图片进行识别，包括确定界面文字或图标内容以及对应文字或图标所处的显示界面中的位置坐标。

具体的，虽然进入某界面可能整体上的内容不会发生太多的变化，但有时会因为后台操作或者界面部分区域进行刷新，所以需要录制整个界面的所有时长的视频并进行文字或图标识别，保证即使出现上述情况，也可以保证新出现的内容也可以进行识别。其中，图标的识别可以采用识别后转换为文字的形式，以便与用户的语音控制指令相匹配。例如，表示返回的图标可能有多种展现形式，识别后将统一转换为“返回”的文本，当用户下达返回指令时，将与该“返回”的文本进行匹配，并进行控制。

步骤S204、如果用户进行语音操作，则分析语义结果，并与视频的识别结果进行匹配，若匹配成功则执行对应语义，并模拟用户对显示界面进行操作控制；当***获知当前已经进入某页面超过60秒，且用户未进行语音控制操作，则表示用户已经无需进行进一步的界面控制，此时停止视频录制

具体的，如当用户说出“播放歌曲”时，如果以目前的技术而言需要对音乐应用进行API的适配或者调试，才能在语音控制的时候进行音乐应用的控制。根据本发明实施例提供的方法，可以通过识别当前显示界面中的歌曲播放按钮及其对应的显示界面坐标，进而通过***模拟用户点击则可完成语音操作。

具体的，如图3所示，获取到目标识别区域的左上角以及右下角坐标，进行该区域的中点位置计算，得到坐标（（x2+x1）/2, (y2+y1)/2），然后通过***模拟用户点击则可完成语音操作。

本发明第二方面实施例提出一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被执行时实现上面实施例的基于图像识别的控制方法。

基于上面实施例的基于图像识别的控制方法，下面描述本发明实施例第三方面提出的基于图像识别的控制***。

如图4所示，本发明实施例的基于图像识别的控制***，包括，

状态信息获取模块，用于获取显示界面的状态信息并进行判断。

本发明的显示界面可以是显示屏幕的显示界面，也可以是投影的显示界面。显示界面的状态信息可以是显示界面当前所展示的应用程序界面。例如，本发明的显示界面为车载中控显示屏的显示界面，显示界面的状态信息为当前显示界面展示的是应用程序界面，可以是地图导航界面、音乐广播界面、游戏界面等，也可以是应用程序的当前界面，例如音乐播放器的音乐列表界面、音乐搜索界面、音乐播放界面等。状态信息获取模块获取显示界面的状态信息并进行判断，可以通过获取当前正在运行的应用程序信息，应用程序在显示界面的显示信息，应用程序当前显示界面的信息等。获取显示界面的状态信息后进一步进行判断分析。

图像信息获取模块，用于在所述状态信息发生变化时，获取所述显示界面的图像信息并提取所述图像信息的特征信息。

具体的，在状态信息获取模块获取显示界面的状态信息后分析状态信息是否发生变化。例如，在获取到显示界面当前正在显示的应用程序或者应用程序当前显示界面信息后，与之前获取的状态信息进行分析比对，判断显示的应用程序是否发生了变化或者应用程序的显示界面是否发生了变化。例如，显示界面显示的应用程序由导航应用切换为了音乐播放应用，则可以判断状态信息发生了变化；又或者音乐播放应用的当前显示界面由播放界面变为音乐搜索界面，则可以判断为状态信息发生了变化。并在判断到状态信息发生变化之后，图像信息获取模块获取显示界面的图像信息并提取图像信息中的特征信息。获取显示界面的图像信息可以采用的方式为对当前显示界面进行截图，也可以是只针对部分显示界面进行截图。例如，显示界面可能显示有多种不同类型、不同应用程序的信息。例如，对于车载中控显示屏，其可以同时显示天气信息、车辆信息（包括车内温度、续航等）、导航信息、音乐播放信息以及多媒体信息（例如微信信息、微博信息等）等，有些显示内容属于常驻显示内容，例如显示车辆信息等，有些应用程序不会在显示界面全屏显示，只占用部分显示界面。因此，当显示界面的状态信息发生变化时，例如打开了一个新的应用程序，但是该应用程序只占用了部分显示界面，这时，如果依然采用获取全部显示界面的图像信息并提取特征信息，会导致信息的冗余处理，造成算力的浪费，同时，可能造成信息处理时间的不必要延长，耽误用户的时间。

控制指令获取模块，用于获取对所述特征信息的控制指令。

在本发明实施例中，控制指令获取模块获取对特征信息的控制指令，该控制指令可以来自于用户的语音控制指令，也可以是来自于服务器等发送的控制指令。例如，从用户发送的一段语音指令中提取到对特征信息（点击、滑动等）的控制指令。

特征信息控制模块，用于根据所述控制指令对所述特征信息进行控制。

具体的，在控制指令获取模块获取到对特征信息的控制指令后，特征信息控制模块根据控制指令对特征信息进行控制。例如，用户的语音控制指令为播放A歌星的B歌曲，此时，将根据控制指令对特征信息中的音乐搜索框进行文字输入并检索，并播放检索到的B歌曲。

能够根据显示界面状态信息的变化自动获取显示界面的图像信息，进而提取图像信息中的特征信息。在获取到对特征信息的控制指令后，根据控制指令对特征信息进行控制。由此，在一定程度上提升了图像识别的用户使用体验。

其中，可以理解的，本发明部分实施例是以用户语音控制为例进行说明，但是本发明的应用领域并不局限于用户语音控制技术领域，还可以应用于多种可以代替用户操作的领域，例如，购票时，可以帮助用户自动刷新、自动输入验证码、自动下单并退出等一系列模拟用户的操作。本发明的基于图像识别的控制***，通过图像识别，寻找特征信息并进行控制，不需要对应用程序进行定制或者适配性调试或者修改，即可根据接收到的控制指令对特征信息进行控制，提升了智能化体验。

其中，本发明提供的基于图像识别的控制***，采用获取显示界面的状态信息，并且只有在状态信息发生变化时，才进行后续的图像信息获取及特征信息提取流程，避免了信息的重复处理，降低了对于处理器算力等的消耗，同时还可以降低能耗。

本发明实施例提供的基于图像识别的控制***，在状态信息发生变化时，即开始获取图像信息并提取特征信息，例如，在一个新的应用程序正在启动加载或者应用程序的一个显示界面正在启动加载的过程中，检测到显示界面的状态信息发生变化，此时，即开始获取图像信息并提取特征信息，充分利用了应用程序启动加载或者应用程序的一个显示界面正在启动加载的这一段时间进行图像信息获取及特征信息提取，由此，可以提前对已加载的内容部分进行图像获取及特征提取。

实际操作中，提取图像中的特征信息需要对图像进行识别，并进行大量的运算，耗费的算力比较多，同时也需要一定的计算时间，并非即刻可以识别并提取。因此，根据本发明实施例提供的基于图像识别的控制***，在检测到新的应用程序正在加载或者应用程序的新显示界面正在加载时，即开始获取图像并提取特征信息，可以加快识别响应速度，大大节约了用户的等待时间，甚至可以让用户感受不到获取图像信息及提取图像信息的时间，实现随时相应用户需求的目的。避免了对用户正常操作的干扰，提升了用户的使用体验。

在一些实施例中，所述图像信息获取模块获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，所述图像信息获取模块获取所述显示界面的图像信息并与之前获取的图像信息进行比对，识别所述图像信息中发生变化的图像区域，提取所述图像区域的特征信息并更新到之前提取的所述特征信息中。

具体的，为提升信息处理效率，避免信息的重复冗余处理，本发明实施例还提供了一种方案，包括，图像信息获取模块获取所述显示界面的图像信息并与之前获取的图像信息进行比对，识别所述图像信息中发生变化的图像区域，提取所述图像区域的特征信息并更新到之前提取的所述特征信息中。由于很多情况下，显示界面只有部分显示内容发生了变化，此时，只需要对发生变化的部分进行处理，提取该部分的特征信息，并将其更新到之前的特征信息中，从而大大降低了信息处理量，节约了数据处理时间，降低了用户的等待时间，进一步提升了用户的使用体验。

在一些实施例中，所述图像信息获取模块获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，对所述显示界面进行视频录制并提取所述视频的特征信息。

具体的，图像信息获取模块获取显示界面的图像信息可以采用对显示界面进行视频录制。例如，在显示界面的状态信息发生变化时，例如检测到有新的应用程序正在加载或者切换到应用程序新的显示界面时，开始对显示界面进行视频录制，并提取视频中的特征信息。视频相比于图片的形式，可以获取更多的图像信息，并且图像信息为连续的，由此可以获取更多的更全面的并且连续的特征信息。例如，用户打开了视频应用C，视频应用C加载完成后进入了视频应用C的首页，用户操作视频应用C进入到视频应用C的个人中心，打开播放历史，滑动到上次的播放内容并点击了继续播放。根据本发明提供的实施例，当用户打开视频应用C时，可以判断显示界面的状态信息发生了变化，此时，将开始视频录制，将上述用户的操作进行视频录制，并分析视频中的特征信息，可以是上述用户操作信息及操作位置信息，由此，当用户下达继续播放的指令时，或者根据大数据判断用户需要继续播放时，将根据获取的连续特征信息进行自动连续操作，不需要用户或者***等一步步下达操作指令，改善了用户的操作体验，提升了智能化程度。

在一些实施例中，当所述显示界面的状态信息停止变化并且持续时间大于或者等于第一预设时间时，所述图像信息获取模块停止对所述显示界面的视频录制；

具体的，在判断到显示界面的状态信息发生变化时，图像信息获取模块开始进行视频录制，当状态信息变化停止，并且持续时间大于等于第一预设时间，可以认为显示界面的状态信息变化已经结束，此时，将停止视频录制，避免数据的重复处理，节约算力。其中，为进一步节约算力，可以仅对视频中的关键帧进行特征信息的提取。关键帧的确定可以是***设定的，比如每隔一段时间提取视频中的一帧并将其确定为关键帧。也可以是大数据自动分析，当画面中关键部分出现了变动，即可将此时的视频画面作为关键帧。通过选取关键帧进行特征信息提取，可以显著提升处理效率，降低算力，节约处理时间。

在一些实施例中，所述状态信息获取模块获取显示界面的状态信息包括，获取应用程序在所述显示界面的显示状态信息；

所述如果所述状态信息发生变化，则所述状态信息获取模块获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，如果所述应用程序在所述显示界面的显示状态发生了变化，并且所述变化后的显示状态持续时间大于或者等于第二预设时间时，则开始获取所述显示界面的图像信息并提取所述图像信息的特征信息，并当所述变化后的显示状态持续时间大于或者等于第三预设时间时，停止获取所述显示界面的图像信息；

其中，所述第二预设时间小于第三预设时间。

具体的，本发明一些实施例中，显示界面的状态信息包括应用程序在显示界面的显示状态信息，例如全屏显示、半屏显示、节约显示等。此外，为进一步节约算力，避免不必要的数据处理，本发明的一些实施例中，当状态信息获取模块判断到显示界面的显示状态发生变化时，还需进一步判断变化后的显示状态的持续时间，并当持续时间大于或者等于第二预设时间时，图像信息获取模块开始获取显示界面的图像信息，并当持续时间大于或者等于第三预设时间时，停止获取图像信息，其中，第二预设时间小于第三预设时间。例如，当用户进入某一应用程序后又很快退出，表明用户误操作或者用户信息已获取完毕，不需要进一步处理，此时，可以不获取这一阶段的图像信息，从而节约算力，避免不必要的数据处理。当变化后的显示状态持续时间大于或者等于第二预设时间，此时，可以判断用户需要进行后续操作，此时，开始获取图像信息并提取图像信息中的特征信息。当持续时间大于或者等于第三预设时间，此时，由于图像的获取及特征信息的提取已持续一段时间，可以认为用户需要的特征信息已提取完毕，此时，将停止获取显示界面的图像信息。例如，当用户进入某应用界面的时间超过2秒，此时，可以认为需要进行后续操作，开始进行图像信息的获取，当用户进入某应用界面的时间超过60秒，可以认为特征信息已基本提取完毕，或者用户无需对界面进行进一步操作控制，此时，即停止进行图像获取。

所述控制指令获取模块获取对所述特征信息的控制指令包括，获取语音指令、服务器下发的指令、第三方传输的指令或者***自动生成的指令；

所述控制模块根据所述控制指令对所述特征信息进行控制包括，对所述特征信息进行点击、滑动、文字输入操作；

所述控制模块根据所述控制指令对所述特征信息进行控制之后，所述***还包括，反馈模块，用于向用户反馈控制结果。

所述***还包括，用户操作信息获取模块，用于获取用户在控制所述特征信息时的操作信息，所述控制模块根据所述控制指令对所述特征信息进行控制时模拟用户的操作信息；

本发明还提供了一种应用于车载中控显示屏具体实施例，如图5所示，包括：

界面状态信息获取单元，获取显示界面的界面变化，并根据界面的加载完成情况，通知视频录制单元进行视频录制的开始以及停止。

具体的，界面状态信息获取单元不仅仅监听界面的变化情况，同时提供给用户对视频录制的响应速度的设置界面，包括，开始录制视频的时间点，以及视频录制的分辨率（分辨率过高，数据量太大，处理时间太长；分辨率过低，识别准确度不高）。

视频录制单元，接收界面状态信息获取单元的视频录制控制信号，同时与服务器进行通信（包括将录制的视频即时上传服务器）。

此外，视频录制单元，不仅负责***界面的视频录制，而且还承担着本地视频文件的管理工作，定时删除本地视频缓存，避免对本地存储空间的过度占用。

视频录制单元还用于接收服务器的图像识别结果，并将对应结果存储到本地进行备用。

当用户进行语音操作的时候，语音指令获取单元获取用户的语音指令并进行语义识别，语音指令执行单元调取图片识别结果，并根据识别结果执行用户的语音指令。

具体的，若当前语音指令与图片识别结果有匹配的部分，则语音指令执行单元执行对应的语音控制指令。

其中，语音指令执行单元在执行用户的语音控制指令时，根据图像识别结果中的坐标信息，模拟用户操作。例如模拟用户点击、滑动等操作。

其中，如果当前的坐标信息有误差无法执行操作，则会反馈到服务器端进行视频图片的重新标记训练。

反馈单元，负责接收***执行语音命令的执行结果，以文字、图片、语音、铃声等提示手段进行用户提示。

具体的，会根据不同的场景进行反馈提示，如果当前处于音乐播放场景，有一定的背景音乐，且当前的语音指令会带来听觉或者视觉上的变化，则语音反馈提醒以文字为主，不进行声音提醒；如果当前语音指令会带来体感（如温度，风量）的变化也是一样，以文字提醒为主，用户无需声音即可感知到语音控制的变化。如此，避免了对用户的打扰，提升了用户体验。

本发明实施例提供的基于图像识别的控制***，根据视频录制获取视频流中的图片数据，全程无需用户点击，自动识别文字以及对应文字的坐标，在用户语音命令发出后，对命令中和当前界面内容直接相同或者相关的进行识别，执行相应语音操作，如打开视频应用后界面中包含“电视剧”的文字，用户可直接发出语音指令“打开电视剧”即可打开，模拟用户点击操作，方便用户操作，在用户开车过程中尤为实用，同时可适配各类应用，无须重新开放适配。

本发明实施例第四方面提出一种车辆，如图6所示，本发明实施例的车辆包括显示装置和实施例中基于图像识别的控制***。例如，显示装置可以包括车载中控显示屏、抬头显示HUD等。

根据本发明实施例的车辆，通过采用上面实施例的基于图像识别的控制***，不需要对软件进行适配性调试，用户也可以对软件进行语音控制，提升了用户的使用体验。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于图像识别的控制方法，其特征在于，包括：

获取显示界面的状态信息并进行判断；

如果所述状态信息发生变化，则获取所述显示界面的图像信息并提取所述图像信息的特征信息；

获取对所述特征信息的控制指令；

根据所述控制指令对所述特征信息进行控制。

2.根据权利要求1所述的基于图像识别的控制方法，其特征在于，所述获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，获取所述显示界面的图像信息并与之前获取的图像信息进行比对，识别所述图像信息中发生变化的图像区域，提取所述图像区域的特征信息并更新到之前提取的所述特征信息中。

3.根据权利要求1所述的基于图像识别的控制方法，其特征在于，所述获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，对所述显示界面进行视频录制并提取所述视频的特征信息。

4.根据权利要求3所述的基于图像识别的控制方法，其特征在于，当所述显示界面的状态信息停止变化并且持续时间大于或者等于第一预设时间时，停止对所述显示界面的视频录制；

5.根据权利要求1所述的基于图像识别的控制方法，其特征在于，所述获取显示界面的状态信息包括，获取应用程序在所述显示界面的显示状态信息；

其中，所述第二预设时间小于第三预设时间；

6.根据权利要求1所述的基于图像识别的控制方法，其特征在于，所述特征信息包括，文字控制按钮区域、图形控制按钮区域、文字输入区域；

7.根据权利要求1所述的基于图像识别的控制方法，其特征在于，所述特征信息包括，在所述显示界面的坐标位置信息；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-7任一项所述的基于图像识别的控制方法。

9.一种基于图像识别的控制***，其特征在于，包括：

状态信息获取模块，用于获取显示界面的状态信息并进行判断；

图像信息获取模块，用于在所述状态信息发生变化时，获取所述显示界面的图像信息并提取所述图像信息的特征信息；

控制指令获取模块，用于获取对所述特征信息的控制指令；

10.根据权利要求9所述的基于图像识别的控制***，其特征在于，所述图像信息获取模块获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，所述图像信息获取模块获取所述显示界面的图像信息并与之前获取的图像信息进行比对，识别所述图像信息中发生变化的图像区域，提取所述图像区域的特征信息并更新到之前提取的所述特征信息中。

11.根据权利要求9所述的基于图像识别的控制***，其特征在于，所述图像信息获取模块获取所述显示界面的图像信息并提取所述图像信息的特征信息包括，对所述显示界面进行视频录制并提取所述视频的特征信息。

12.根据权利要求11所述的基于图像识别的控制***，其特征在于，当所述显示界面的状态信息停止变化并且持续时间大于或者等于第一预设时间时，所述图像信息获取模块停止对所述显示界面的视频录制；

13.根据权利要求9所述的基于图像识别的控制***，其特征在于，所述状态信息获取模块获取显示界面的状态信息包括，获取应用程序在所述显示界面的显示状态信息；

其中，所述第二预设时间小于第三预设时间；

14.根据权利要求9所述的基于图像识别的控制***，其特征在于，所述特征信息包括，文字控制按钮区域、图形控制按钮区域、文字输入区域；

15.根据权利要求9所述的基于图像识别的控制***，其特征在于，所述特征信息包括，在所述显示界面的坐标位置信息；

16.一种车辆，其特征在于，包括显示装置和如权利要求9-16所述的基于图像识别的控制***。