CN110929093B

CN110929093B - 用于搜索控制的方法、装置、设备和介质

Info

Publication number: CN110929093B
Application number: CN201911142528.1A
Authority: CN
Inventors: 张柳清; 李国洪; 余永佳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-08-11
Anticipated expiration: 2039-11-20
Also published as: CN110929093A

Abstract

本申请公开了搜索控制的方法、装置、设备和介质，涉及视觉搜索领域。一种用于搜索控制的方法包括从由电子设备采集到的视频中获取目标时刻的第一帧和与第一帧邻近的第二帧；确定第一帧与第二帧之间的位移幅度；以及基于位移幅度与第一预定阈值的比较来确定用户对第一帧的搜索意图。由此，可以从视频中准确、快速判断用户对位移程度较低、稳定性较好的帧的搜索意图，降低用户在具有搜索意图时的等待时间，并且可以在用户具有搜索意图时利用更稳定、图像质量更好的帧用于执行视觉搜索，提高搜索结果的质量。

Description

用于搜索控制的方法、装置、设备和介质

技术领域

本公开的实施例主要涉及图像处理领域，并且更具体地，涉及视觉搜索领域。

背景技术

视觉搜索是一种以图像、视频等视觉内容作为搜索输入，利用视觉识别相关技术，对输入的视觉内容执行检索，并返回相关图像、文字等多种形态的搜索结果的技术。随着视觉识别技术的不断发展，越来越多的用户在移动终端上通过视觉搜索来满足感知周边物体的搜索需求。

在用于帮助用户感知周边世界的视觉搜索方案中，主要以静态图像搜索为主，即将静态图像作为搜索输入。这样的搜索妨碍存在用户操作多、连续搜索效率低等问题。目前还提出了视频搜索方案，对实时视频流中的一个或多个目标执行连续搜索，实现了“扫哪识别哪”的连续多次目标搜索识别的能力，解决了以图像搜索为主的视觉搜索产品所面临的问题，提升了搜索效率。然而，由于视频流是动态的，由多个连续帧构成，如何判断执行搜索的时机将影响搜索的总体性能。

发明内容

根据本公开的实施例，提供了一种用于搜索控制的方案。

在本公开的第一方面中，提供了一种用于搜索控制的方法。该方法包括：从由电子设备采集到的视频中获取目标时刻的第一帧和与第一帧邻近的第二帧；确定第一帧与第二帧之间的位移幅度；以及基于位移幅度与第一预定阈值的比较来确定用户对第一帧的搜索意图。

在本公开的第二方面中，提供了一种用于搜索控制的装置。该装置包括帧获取模块，被配置为从由电子设备采集到的视频中获取目标时刻的第一帧和与第一帧邻近的第二帧；位移确定模块，被配置为确定第一帧与第二帧之间的位移幅度；以及意图确定模块，被配置为基于位移幅度与第一预定阈值的比较来确定用户对第一帧的搜索意图。

在本公开的第三方面中，提供了一种电子设备。该电子设备包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的用于搜索控制的环境的示意图；

图2示出了根据本公开的一些实施例的用于搜索控制的过程的流程图；

图3示出了根据本公开的另一些实施例的用于搜索控制的过程的流程图；

图4示出了根据本公开的一些实施例的用于搜索控制的装置的框图；以及

图5示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，在视觉搜索中，如何判断执行搜索的时机将影响搜索的总体性能。在基于静态图像的视觉搜索方案中，这个问题是通过用户上传静态图像或者点击移动终端的摄像头的拍摄按钮来解决的。然而，在基于视频的视觉搜索方案中，视频流由非常多的连续帧构成。如果对每个帧均执行搜索往往是不可能性的。因为这将耗费非常大的计算资源，并且提供过多的搜索结果也不一定符合用户的搜索期望。

在基于视频的视觉搜索中，一种可行的方案是定时周期性地触发视觉搜索。具体地，按预定周期从视频中抽取对应的帧，并且对所抽取的帧执行视觉搜索。然而，这样的周期性搜索可能与用户实际搜索意图不匹配，导致不恰当的搜索触发时机。这不仅可能导致用户等待时间过长，而且还可能会使搜索结果质量不高。

举例来说，假设视觉搜索的触发周期是每间隔3秒触发一次，即在第1秒、第3秒、第6秒等抽取视频的帧用于执行视觉搜索。在一种极端情况下，假设用户在第3秒时并没有搜索意图，但在第3.1秒有目标搜索意图，那么视觉搜索设备要等到第6秒才会触发目标搜索，即用户需要等待约一个触发周期的时间(约3秒)。受设备性能和功耗限制，目标搜索和识别不能频繁触发，至少为秒级别触发，因此用户的搜索等待时间较长。此外，如果用户在第3.1秒才有目标搜索意图，但视觉搜索装置在第3秒已经触发了目标搜索，此时抽取的帧中可能并未出现用户期望搜索的目标、或者此时尽管已经出现目标，但用户的移动终端还处于运动状态，因而导致获取的视频帧是模糊的。这两种可能性均会降低视觉搜索结果的质量。

根据本公开的示例实施例，提出了一种用于搜索控制的改进方案。该方案提出相对于视频中的帧，确定用户的搜索意图。具体地，从由电子设备采集到的视频中获取某个时刻的第一帧和与第一帧邻近的第二帧，并且确定这两个帧之间的位移幅度。通过将位移幅度与阈值相比较，来确定用户对第一帧的搜索意图。由此，可以从视频中准确、快速判断用户对位移程度较低、稳定性较好的帧的搜索意图，降低用户在具有搜索意图时的等待时间，并且可以在用户具有搜索意图时利用更稳定、图像质量更好的帧用于执行视觉搜索，提高搜索结果的质量。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的多个实施例能够在其中实现的用于搜索控制的环境100的示意图。在环境100中，电子设备110的用户102期望对搜索场景104中的物体执行基于视频的搜索。因此，电子设备110的视频采集器(例如，摄像头)被打开并且捕获与场景110有关的视频120。由电子设备110捕获的视频120由连续的多个帧122-1、122-2、……122-N组成(统称为或单独称为帧122)，其中N是大于1的正整数。视频120可以被提供给视觉搜索设备130，用于执行视觉搜索。在一些实施例中，由电子设备110捕获的视频120以视频流的形式不断被提供给视觉搜索设备130。

电子设备110可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。单子设备110还能够支持任意类型的针对用户102的接口(诸如“可佩戴”电路等)。

视觉搜索设备130可以是任意具有计算能力的设备。视觉搜索设备130能够提供视觉搜索能力，因此可以称为视觉搜索引擎。在一些实施例中，视觉搜索设备130还可以具有通信能力，以与电子设备110通信。视觉搜索设备130的一些示例包括但不限于：个人计算机、台式计算机、便携式计算机、服务器、服务节点、边缘计算节点等。虽然被示出为分离的设备，在一些实施例中，视觉搜索设备130可以被集成在电子设备110中，以作为电子设备110的视觉搜索引擎。在另一些实施例中，视觉搜索设备130可以是电子设备110的远程计算设备(例如，远程计算节点)。

视觉搜索设备130可以从视频120中获得一个或多个帧122用于执行视觉搜索，并且可以给出各种形式的搜索结果。在本文中，“视觉搜索”指的是基于图像(在视频搜索中对应的是视频中的帧)来执行搜索，包括对帧中的目标对象的识别，提供识别结果，以及还能够基于识别结果提供更多的相关搜索结果，诸如提供与识别的目标对象相关的网页、词条、商品链接等互联网可访问的内容。

例如，在图1的示例中，视觉搜索设备130对视频120的一个帧122执行视觉搜索，并且提供对该帧的目标对象的识别结果140-1，其中显示了帧122中呈现的各个目标对象的类型，例如“台灯”、“显示器”、“书桌”、“椅子”等。这样的识别结果140-1可以被提供给电子设备110，并且例如可以被呈现在电子设备110的输出设备(例如显示屏幕)上。由此，电子设备110的用户102可以清楚看出场景104中各个目标对象的类型的名称。进一步地，根据用户102选择(例如，用户102点击显示屏幕中呈现的已被识别的目标对象)或者以自动的方式，视觉搜索设备130还可以确定与已被识别的目标对象相关的搜索结果，例如“显示器”的相关搜索结果140-2，并且将相关搜索结果140-2提供给电子设备110用于呈现给用户102。由此，电子设备110的用户102可以方便地获得更多的相关结果。

应当理解，图1仅示出了本公开的实施例能够在其中实现的环境的一个示例。图1中示出的场景、设备交互等元素仅是为了解释说明的目的，而不意味着对本公开的实施例的任何限制。

如以上提及的，为了在基于视频的视觉搜索中更好地判断搜索时机，根据本公开的实施例，对视频的特定帧执行用户搜索意图的预测和判断。本申请的发明人发现，在一段时间内的视频中，如果用户在某个时刻具有搜索意图，用户通常将会把用于视频采集的电子设备(例如他/她的移动电话)对着要识别的目标对象，并且保持设备稳定，以等待识别结果或其他相关搜索结果呈现在显示屏幕中。基于这样的发现，本公开的实施例提出至少从视频中帧的稳定性角度出发来准确判断用户搜索意图，从而可以确定执行视觉搜索的时机。

图2示出了根据本公开的一些实施例的用于搜索控制的过程200的流程图。为便于讨论，将参照图1来描述过程200。过程200可以由图1的视觉搜索设备130实现。

在210，视觉搜索设备130从由电子设备110采集到的视频120中获取目标时刻的第一帧和与第一帧邻近的第二帧。根据本公开的示例实施例，第二帧用于与目标时刻的第一帧进行比较，以确定用户在目标时刻的搜索意图。为便于说明，假设目标时刻的第一帧是帧122-1，邻近的第二帧是帧122-2。第一帧122-1和第二帧122-2可以是两个直接相邻的帧，或者可以是间隔一定数目的帧。在一些实施例中，第二帧122-2可以是在第一帧122-1之前。

第一帧122-1和第二帧122-2可以按照预定策略从视频120中被获取。例如，可以从视频120中直接抽取两个连续帧122或两个间隔预定数目的帧122以用于确定帧之间的位移情况，从而预测用户102的搜索意图。此时，两个帧的间隔可以被设置为非常小，因为如以下将清楚的，这两个帧被用于基于位移幅度来判断用户的搜索意图，这个过程的实现所消耗的计算资源相比于执行视觉搜索所需要的计算资源更少。在一些实施例中，第一帧122-1的获取，即视频120中的目标时刻，可以通过电子设备110的运动状态来确定。这将在下文中参考图3来更详细描述。

在220，视觉搜索设备130确定第一帧122-1与第二帧122-2之间的位移幅度。根据本公开的示例实施例，通过确定视频120中帧122的画面稳定程度来确定用户的搜索意图。因此，视觉搜索设备130需确定两个帧之间的位移幅度，以评估目标时刻的第一帧122-1的画面稳定程度。

在一些实施例中，视觉搜索设备130可以基于目标跟踪算法来确定第一帧122-1与第二帧122-2之间的位移幅度。视觉搜索设备130可以利用各种目标追踪算法来确定帧122-1、122-2之间的位移幅度。目标跟踪算法有时也被称为实体跟踪算法。一些目标追踪算法的示例包括但不限于：相关滤波跟踪算法，诸如核化相关滤波(KCF)、多特征尺度自适应***(SAMF)等；Lucas-Kanade(LK)光流算法，Meanshift(均值漂移)算法，以及各类机器学习和深度学习跟踪算法，诸如用于视觉追踪的层级卷积特征(HCF)算法、DeepSRDCF等等。

一般而言，根据目标跟踪算法，视觉搜索设备130可以确定第二帧122-2中存在的某个目标在第一帧122-1中是否仍然存在或者在存在的情况下，该目标在两个帧中的位移距离。给定目标的位移距离可以被认为是两个帧122-1、122-2之间的位移幅度。用于追踪的目标不是基于对第一帧122-1和第二帧122-2执行目标识别后而选择的，而是可以被选择为第一帧122-1和第二帧122-2中给定位置或给定区域处呈现的目标。

在一些实施例中，为更好确定第一帧122-1与第二帧122-2之间的位移幅度，可以基于特征点跟踪来确定帧之间的位移幅度。具体地，假设第二帧122-2在第一帧之前，视觉搜索设备130从第二帧122-2的预定区域中确定一个或多个特征点，然后从第二帧122-2到第一帧122-1不断追踪所确定的特征点，以便确定两帧之间的位移幅度。

用于提取特征点的预定区域可以是第二帧122-2中的任何给定区域。在一些实施例中，预定区域可以是第二帧122-2的中心区域，该中心区域可以具有预定大小(例如，100*100像素点范围)并且可以小于第二帧122-2的总大小，以节约计算资源和提高处理效率。当然，在一些示例中，也可以从第二帧122-2的全部区域中提取特征点。特征点可以是第二帧122-2的预定区域中具有显著特征并且能够表征图像特征的关键点，例如可以是角点、边缘点等。可以利用各种特征点提取的方式来确定第二帧122-2的预定区域中的一个或多个特征点，例如可以利用Shi-Tomasi算法来提取特征点。

在确定第二帧122-2的预定区域中的特征点后，视觉搜索设备130在视频120的随后的帧中追踪这些特征点。具体地，视觉搜索设备130在第一帧122-1中标识与所确定的一个或多个特征点对应的一个或多个追踪特征点。在一些实施例中，视觉搜索设备130可以利用光流法、诸如LK光流算法进行跟踪。视觉搜索设备130可以确定第一帧122-1中的至少一个追踪特征点与第二帧122-2中的至少一个特征点之间的相应点位移幅度。例如，视觉搜索设备130可以在第一帧122-1和第二帧122-2对应的二维空间中确定特征点和对应的跟踪特征点的位置，然后基于位置变化来确定至少一个追踪特征点与至少一个特征点之间的相应点位移幅度。由于第一帧122-1和第二帧122-2来自同一视频120，两个帧的尺寸相同，因此对应的二维空间坐标系也具有相同尺寸，从而使得所确定的点的位置具有可比性。

进一步地，视觉搜索设备130基于相应点位移幅度来确定第一帧122-1与第二帧122-2之间的位移幅度。在一些实施例中，如果第一帧122-1与第二帧122-2直接相邻，两个帧之间的位移幅度可以被确定为相应点位移幅度平均值或者之和。在一些实施例中，如果第一帧122-1与第二帧122-2之间还有一个或多个其他帧，可以对每连续相邻的两个帧进行特征点与跟踪特征点的点位移幅度计算，并且最后基于针对每连续相邻的两个帧之间确定的各个点位移幅度来确定第二帧122-2中的特征点与第一帧122-1中的跟踪特征点之间的点位移幅度。

具体地，假设第二帧122-2为视频120中的第i帧，第一帧122-1为视频120中的第j帧。在步骤1中，视觉搜索设备130在第i帧的预定区域中确定一个或多个特征点。在步骤2中，在后续的第i+1帧中对第i帧的特征点进行跟踪，确定对应的跟踪特征点，并且计算特征点与跟踪特征点之间的相应点位移幅度(被表示为u_i+1)。对第i+1帧，可以重复步骤1的操作，并且对第i+2帧，可以重复步骤2的操作，计算出针对第i+2帧的特征点与跟踪特征点之间的相应点位移幅度(被表示为u_i+2)。重复前述操作，直到针对第j帧(即目标时刻的第一帧122-1)，重复步骤2的操作，计算出针对第j帧的特征点与跟踪特征点之间的相应点位移幅度(被表示为u_j)。将从第i帧到第j帧计算的点位移幅度进行加和，可以计算出从第i帧(即第二帧122-2)到第j帧(第一帧122-1)的特征点与跟踪特征点之间的点位移幅度，并且可以将所确定的点位移幅度作为第一帧122-1与第二帧122-2之间的位移幅度。

在以实体跟踪为目标的场景中，根据常规方案，要求在视频的多个连续帧内，对第i帧执行目标检测，并在第i帧的目标区域内提取特征点以实现跟踪模板初始化。然后，对第i帧之后的多个帧(例如，第i+1帧、第i+2帧、……第j-1(j∈(i+1,+∞))帧)执行特征点跟踪。也就是说，在常规的实体跟踪方案中，只需要对少量帧执行跟踪模板初始化，对其余大量帧执行特征点跟踪。然而，在本公开的上述示例实施例中，为了定位视频中具有搜索意图的帧，可以对视频中相邻两帧均执行跟踪模板初始化(即特征点标识)以及跟踪点计算(即计算点位移幅度)。在这个过程中，无需针对要跟踪的实体(例如目标人物、物品)等所在的特定目标区域进行标识和跟踪，而可以预先配置帧中的任意给定区域(例如中心区域)进行特征点跟踪，这可以降低计算复杂度。此外，不同于以实体跟踪为最终目标的任务，在本公开的示例实施例中，只需要确定视频中各个帧之间的位移幅度即可，不需要定位要追踪的实体的位置信息，这也使得相比于一般实体跟踪任务而言，在本公开的示例实施例中确定位移幅度所要求的计算量和复杂度较低。

在确定第一帧122-1与第二帧122-2之前的位移幅度之后，继续参考图2，在230，视觉搜索设备130基于位移幅度与第一预定阈值的比较来确定用户102对第一帧122-1的搜索意图。位移幅度可以表示第一帧122-1的画面稳定性。如果两个帧之间的位移幅度较大，这意味着电子设备110可能正在晃动，从而导致所捕获的视频120质量较差，或者虽然电子设备110是稳定的，但正在捕获的场景104中的物体正在移动。在上述任何情况出现时，用户102当时可能没有搜索意图(因为电子设备110没有被持稳或者用户102观察到场景104中物体的移动)。相反，如果两个帧之间的位移幅度较小，这意味着电子设备110正在稳定采集视频120并且所捕获的场景中的物***移幅度较小，此时可以确定用户102存在搜索意图。

因此，在一些实施例中，通过将第一帧122-1与第二帧122-2之间的位移幅度与预定阈值(在本文中称为“第一预定阈值”)相比较，如果视觉搜索设备130确定位移幅度超过第一预定阈值，则确定用户102对第一帧122-1不存在搜索意图。如果视觉搜索设备130确定位移幅度未超过第一预定阈值，则可以确定用户102对第一帧122-1存在搜索意图。第一预定阈值可以被设置为较小的值，从而使得在满足未超过第一预定阈值的条件时对应的第一帧的画面稳定性高。当然，第一预定阈值可以根据经验或应用场景的需要来具体设置，本公开的实施例在此方面不受限制。

如果确定用户102对第一帧122-1存在搜索意图，在一些实施例中，视觉搜索设备130可以对第一帧122-1执行视觉搜索。视觉搜索设备130可以利用当前已知的或者将来待开发的视觉搜索技术来执行对第一帧122-1的视觉搜索，本公开的实施例在此方面不受限制。

如以上提及的，视觉搜索设备130可以识别第一帧122-1中一个或多个目标对象的类型，并且可以将所识别的目标对象的类型的名称提供给电子设备110。这样的视觉搜索有时也称为目标识别搜索。例如可以如图1的示例那样，将目标对象的类型的名称与第一帧122-1的画面叠加作为识别结果140-1，以用于呈现在电子设备110的显示屏幕上。在另外一些实现中，视觉搜索设备130还可以基于对帧122-1中目标对象的识别结果执行进一步的搜索，提供与目标对象相关的进一步搜索结果，诸如图1的示例中所给出的相关搜索结果140-2。

在一些实施例中，如果视觉搜索设备130确定用户102对第一帧122-1不存在搜索意图，那么视觉搜索设备130将不会对第一帧122-2执行视觉搜索。视觉搜索设备130可以继续判断用户102对视频120中后续的帧是否存在搜索意图，从而决定何时执行视觉搜索。

如以上提及的，在一些实施例中，从视频120中抽取第一帧122-1的目标时刻可以通过电子设备110的运动状况来确定。图3示出了根据这样的实施例的过程300的流程图。过程300也可以由视觉搜索设备130实现。

在310，视觉搜索设备130获取电子设备110的运动信息。电子设备110通常具有一个或多个传感器，用于监测或辅助监测电子设备110的运动情况。这样的硬件设备信息可以用于确定电子设备110的运动状况。因此，在一些实施例中，视觉搜索设备130可以获得电子设备110的一个或多个传感器采集到的传感器信息，并且基于这样的传感器信息来确定电子设备110的运动信息。

电子设备110的运动信息可以包括电子设备110的运动速度、加速度、运动方向、位置等中的一个或多个方面的信息。可以提供用于确定电子设备110的运动信息的传感器例如可以包括陀螺仪、加速度传感器、速度传感器、重力传感器、光线传感器、距离传感器、磁力计和定位传感器等等。陀螺仪例如可以包括一个或多个单轴陀螺仪，或者可以是三轴陀螺仪等。这些传感器可以提供关于电子设备110的运动信息的一个或多个方面。例如，通过陀螺仪提供的姿态角变化、重力传感器提供的感应信息、加速度传感器提供的加速度变化和/或速度传感器提供的速度信息，可以确定电子设备110的速度和/或加速度大小及其上下运动方向。

磁力计可以提供电子设备110的方位信息，距离传感器可以提供电子设备110与某个物体之间的距离，定位传感器可以采集电子设备110的位置，光线传感器可以采集电子设备110所处环境中的光照强度的度量值，这些信息均可以用于辅助对电子设备110的运动信息的确定。

在一些实施例中，通过电子设备110上的一个或多个传感器采集到的传感器信息，视觉搜索设备130可以确定电子设备110在各个时刻的运动信息，诸如电子设备110的速度、加速度、所处位置、运动方向等。

在320，视觉搜索设备130基于所获取的运动信息来确定电子设备110在目标时刻的运动幅度。

运动幅度可以指示电子设备110本身的稳定程度。例如，如果电子设备110被稳定手持或者被放置在固定表面上，则可以确定电子设备110是稳定的，运动幅度较小。如果用户102携带着电子设备110大幅度晃动，则可以确定电子设备110的运动幅度较大。通常，电子设备110的一个或多个传感器总是实时地或者间隔很短时间(例如，若干毫秒)采集相应的传感器信息，因此视觉搜索设备130可以以较高精确确定电子设备110在各个时刻的运动信息，进而确定电子设备110在各个时刻的运动幅度。

在330，视觉搜索设备130将电子设备110在目标时刻的运动幅度与预定阈值(在此称为“第二预定阈值”)相比较，确定运动幅度是否大于第二预定阈值。第二预定阈值可以根据经验或应用场景的需要来设置，本公开的实施例在此方面不受限制。电子设备110的运动幅度与第二预定阈值的比较可以按照传感器信息的获取频率，或者按照视频120的采样频率(帧速率)来进行，因此，可以实现针对一个帧122或若干帧122所在时刻对电子设备110的运动幅度的确定和比较。

如果确定电子设备110的运动幅度超过第二预定阈值，在340，视觉搜索设备130确定用户102对目标时刻所处的第一帧122-1不存在搜索意图。在这种状况下，视觉搜索设备130将不会对第一帧122-2执行视觉搜索。通过电子设备110的运动幅度，可以筛选掉很多用户不具有搜索意图的帧，因为在电子设备110未稳定之前用户102可能并不期望对其中捕获的画面执行视觉搜索。由此，在电子设备110未稳定之前捕获的视频片段均无需被进一步处理。

如果确定电子设备110的运动幅度未超过第二预定阈值，视觉搜索设备130可以执行过程200，以进一步基于目标时刻的第一帧122-1与邻近的第二帧122-2之间的位移幅度来判断用户102对第一帧122-2是否具有搜索意图。

根据以上描述的一个或多个实施例，通过对视频中的帧的位移情况，和/或对采集视频的电子设备的运动情况，可以从视频中过滤用户没有搜索意图的帧，而仅对用户具有搜索意图的帧进行自适应视觉搜索。这样能够减少用户在具有搜索意图时等待搜索结果的时间，并且基于具有画面更稳定的高质量帧来执行视觉搜索，还能够提升视觉搜索的质量。

图4示出了根据本公开的一些实施例的用于搜索控制的装置400的示意性框图。装置400可以被包括在图1的视觉搜索设备130中或者被实现为视觉搜索设备130。

如图4所示，装置400包括帧获取模块410，被配置为从由电子设备采集到的视频中获取目标时刻的第一帧和与第一帧邻近的第二帧。装置400还包括位移确定模块420，被配置为确定第一帧与第二帧之间的位移幅度。装置400进一步包括意图确定模块430，被配置为基于位移幅度与第一预定阈值的比较来确定用户对第一帧的搜索意图。

在一些实施例中，第二帧在第一帧之前。

在一些实施例中，位移确定模块420包括：特征点确定模块，被配置为从第二帧的预定区域确定至少一个特征点；特征点跟踪模块，被配置为在第一帧中标识与至少一个特征点对应的至少一个追踪特征点；点位移确定模块，被配置为确定至少一个追踪特征点与至少一个特征点之间的相应点位移幅度；以及基于点位移的幅度确定模块，被配置为基于相应点位移幅度来确定第一帧与第二帧之间的位移幅度。

在一些实施例中，帧获取模块410包括：运动信息获取模块，被配置为获取电子设备的运动信息；运动幅度确定模块，被配置为基于运动信息确定电子设备在目标时刻的运动幅度；以及基于运动幅度的帧获取模块，被配置为根据确定电子设备的运动幅度未超过第二预定阈值，从视频中获取目标时刻的第一帧和与第一帧邻近的第二帧。

在一些实施例中，运动信息获取模块包括：传感器信息获取模块，被配置为获取电子设备的至少一个传感器采集到的传感器信息，其中至少一个传感器包括以下至少一项：陀螺仪、加速度传感器、速度传感器、重力传感器、光线传感器、距离传感器、磁力计和定位传感器；以及基于传感器的运动信息获取模块，被配置为基于传感器信息来确定电子设备的运动信息。

在一些实施例中，装置400还包括第一无意图确定模块，被配置为根据确定电子设备的运动幅度超过第二预定阈值，确定用户对第一帧不存在搜索意图。

在一些实施例中，意图确定430模块包括：第二无意图确定模块，被配置为根据确定位移幅度超过第一预定阈值，确定用户对第一帧不存在搜索意图；以及有意图确定模块，被配置为根据确定位移幅度未超过第一预定阈值，确定用户对第一帧具有搜索意图。

一些实施例中，位移确定模块420包括：基于目标追踪的位移确定模块，被配置为利用目标追踪算法来确定第一帧与第二帧之间的位移幅度。

在一些实施例中，装置400还包括视觉搜索模块，被配置为根据确定用户对第一帧具有搜索意图，对第一帧执行视觉搜索。

图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。设备500可以用于实现图1的视觉搜索设备130或电子设备110。如图所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如过程200或过程300。例如，在一些实施例中，过程200或过程300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的过程200或过程300的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200或过程300。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于搜索控制的方法，包括：

从由电子设备采集到的视频中获取目标时刻的第一帧和在所述第一帧之前的第二帧，其中所述第一帧与所述第二帧之间存在多个其他帧；

确定所述第一帧与所述第二帧之间的位移幅度；以及

基于所述位移幅度与第一预定阈值的比较来确定用户对所述第一帧的搜索意图，

其中确定所述第一帧与所述第二帧之间的所述位移幅度包括：

从所述第二帧的预定区域确定第一组特征点，其中所述第一组特征点是能够表征图像特征的关键点；

在所述多个其他帧中与所述第一帧连续相邻的相邻帧的预定区域中标识与所述第一组特征点对应的第一组追踪特征点；

确定所述第一组追踪特征点与所述第一组特征点之间的第一点位移幅度；

基于所述第一点位移幅度来确定所述第一帧与所述相邻帧之间的第一位移幅度；

对所述多个其他帧中的第i帧和与所述第i帧连续相邻的第i+1帧执行以下步骤，其中i大于等于2：

从所述第i帧的预定区域确定第i组特征点，

在所述第i+1帧的预定区域中标识与所述第i组特征点对应的第i组追踪特征点，

确定所述第i组追踪特征点与所述第i组特征点之间的第i点位移幅度，以及

基于所述第i点位移幅度来确定所述第i帧与所述第i+1帧之间的第i位移幅度；以及

将所确定的全部位移幅度进行加和，以获得所述第一帧与所述第二帧之间的所述位移幅度；

其中从所述视频中获取所述第一帧和所述第二帧包括：

获取所述电子设备的运动信息；

基于所述运动信息确定所述电子设备在目标时刻的运动幅度；以及

根据确定所述电子设备的所述运动幅度未超过第二预定阈值，从所述视频中获取所述目标时刻的所述第一帧和与所述第一帧邻近的所述第二帧；

所述方法还包括：

响应于确定所述用户对所述第一帧的所述搜索意图，识别所述第一帧中的一个或多个目标对象的类型；

将所述一个或多个目标对象的类型与所述第一帧的画面叠加作为识别结果；以及

获取与所述一个或多个目标对象相关的搜索结果。

2.根据权利要求1所述的方法，其中获取所述电子设备的所述运动信息包括：

获取所述电子设备的至少一个传感器采集到的传感器信息，其中所述至少一个传感器包括以下至少一项：陀螺仪、加速度传感器、速度传感器、重力传感器、光线传感器、距离传感器、磁力计和定位传感器；以及

基于所述传感器信息来确定所述电子设备的所述运动信息。

3.根据权利要求1所述的方法，还包括：

根据确定所述电子设备的所述运动幅度超过所述第二预定阈值，确定所述用户对所述第一帧不存在搜索意图。

4.根据权利要求1至3中任一项所述的方法，其中确定所述用户对所述第一帧的搜索意图包括：

根据确定所述位移幅度超过所述第一预定阈值，确定所述用户对所述第一帧不存在搜索意图；以及

根据确定所述位移幅度未超过所述第一预定阈值，确定所述用户对所述第一帧具有搜索意图。

5.一种用于搜索控制的装置，包括：

帧获取模块，被配置为从由电子设备采集到的视频中获取目标时刻的第一帧和与在所述第一帧之前的第二帧，其中所述第一帧与所述第二帧之间存在多个其他帧；

位移确定模块，被配置为确定所述第一帧与所述第二帧之间的位移幅度；以及

意图确定模块，被配置为基于所述位移幅度与第一预定阈值的比较来确定用户对所述第一帧的搜索意图，

其中所述位移确定模块被配置为：

从所述第i帧的预定区域确定第i组特征点；

在所述第i+1帧的预定区域中标识与所述第i组特征点对应的第i组追踪特征点；

确定所述第i组追踪特征点与所述第i组特征点之间的第i点位移幅度；以及

所述帧获取模块包括：

运动信息获取模块，被配置为获取所述电子设备的运动信息；

运动幅度确定模块，被配置为基于所述运动信息确定所述电子设备在目标时刻的运动幅度；以及

基于运动幅度的帧获取模块，被配置为根据确定所述电子设备的所述运动幅度未超过第二预定阈值，从所述视频中获取所述目标时刻的所述第一帧和与所述第一帧邻近的所述第二帧；

所述装置还被配置为：

获取与所述一个或多个目标对象相关的搜索结果。

6.根据权利要求5所述的装置，其中所述运动信息获取模块包括：

传感器信息获取模块，被配置为获取所述电子设备的至少一个传感器采集到的传感器信息，其中所述至少一个传感器包括以下至少一项：陀螺仪、加速度传感器、速度传感器、重力传感器、光线传感器、距离传感器、磁力计和定位传感器；以及

基于传感器的运动信息获取模块，被配置为基于所述传感器信息来确定所述电子设备的所述运动信息。

7.根据权利要求5所述的装置，还包括：

第一无意图确定模块，被配置为根据确定所述电子设备的所述运动幅度超过所述第二预定阈值，确定所述用户对所述第一帧不存在搜索意图。

8.根据权利要求5至7中任一项所述的装置，其中所述意图确定模块包括：

第二无意图确定模块，被配置为根据确定所述位移幅度超过所述第一预定阈值，确定所述用户对所述第一帧不存在搜索意图；以及

有意图确定模块，被配置为根据确定所述位移幅度未超过所述第一预定阈值，确定所述用户对所述第一帧具有搜索意图。

9.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至4中任一项所述的方法。