CN110249304B

CN110249304B - 电子设备的视觉智能管理

Info

Publication number: CN110249304B
Application number: CN201880007763.5A
Authority: CN
Inventors: S.安托尔; A.本达尔; S.J.吉布斯; 全元锺; 姜炫在; 金志姬; 李博; A.S.利奥特; 罗璐; P.K.米斯特里; Z.英
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-01-19
Filing date: 2018-01-18
Publication date: 2023-05-23
Anticipated expiration: 2038-01-18
Also published as: WO2018135881A1; EP3559804A4; US20180204061A1; EP3559804A1; EP3559804B1; CN110249304A; KR20190109426A; US10902262B2; KR102585234B1

Abstract

一个实施例提供了一种方法，该方法包括通过在所述输入上执行与域相关联的第一集合模型来对在包括视觉数据的输入中存在的一个或多个对象进行分类。每个模型对应于对象类别。每个模型被训练以生成与输入中的相应对象类别相关的视觉分类符结果，该视觉分类符结果具有指示视觉分类符结果的准确性的相关联的置信度值。该方法还包括基于与第一集合模型的每个模型的每个视觉分类符结果相关联的置信度值来聚合第一集合的视觉分类符结果。基于聚合的第一集合的视觉分类符结果可选择至少一个其它模型用于在输入上运行，以用于对对象的额外分类。一个或多个视觉分类符结果被返回到在电子设备上运行的应用以供显示。

Description

电子设备的视觉智能管理

技术领域

一个或多个实施例一般涉及视觉智能(vision intelligence，VI)，特别是电子设备的VI管理。

背景技术

大量识别模型(例如深度学习模型)可用于电子设备，以用于对视觉数据的视觉分析(例如，对照片和/或视频执行对象识别)。然而，由于电子设备上有限的计算资源，对于电子设备可用的所有模型在运行时间期间同时是活跃的，可能是不可行的。

发明内容

附图说明

图1示出在一个或多个实施例中用于实施视觉智能(VI)***的示例计算架构；

图2示出在一个或多个实施例中托管表示层(presentation layer)的示例应用；

图3示出在一个或多个实施例中的示例模块族；

图4详细示出了在一个或多个实施例中的示例模块；

图5示出在一个或多个实施例中相机应用的示例应用屏幕；

图6示出在一个或多个实施例中相机应用的另一示例应用屏幕；

图7示出在一个或多个实施例中相机应用的另一示例应用屏幕；

图8示出在一个或多个实施例中相机应用的另一示例应用屏幕；

图9示出在一个或多个实施例中相机应用的另一示例应用屏幕；

图10示出在一个或多个实施例中的示例运行管理器；

图11是在一个或多个实施例中用于自动选择模型来激活的示例过程的流程图；

图12示出在一个或多个实施例中包括类别本体(ontology)链接的示例模型图；

图13A是示出在一个或多个实施例中，由运行管理器初始激活的一个或多个模型的模型图；

图13B是示出在一个或多个实施例中，响应于接收到视觉数据，由运行管理器激活的一个或多个额外模型的更新模型图；

图13C是示出在一个或多个实施例中，响应于视觉分类符结果，由运行管理器激活的一个或多个额外模型的更新模型图；

图14示出在一个或多个实施例中包括类别相似性链接的示例模型图；

图15示出在一个或多个实施例中的示例基于特征向量的域选择方法；

图16示出在一个或多个实施例中的示例基于时间的域选择方法；

图17示出在一个或多个实施例中由并行模型运行驱动的示例应用屏幕；

图18A示出在一个或多个实施例中包括一个结果卡的应用屏幕；

图18B示出在一个或多个实施例中包括多个结果卡的应用屏幕；

图18C示出在一个或多个实施例中包括扩展的结果卡的应用屏幕；

图19A示出在一个或多个实施例中，显示与相机视图中存在的第一对象配对的第一结果卡的应用屏幕；

图19B示出在一个或多个实施例中，显示与相机视图中存在的第二对象配对的第二结果卡910的应用屏幕；

图19C示出在一个或多个实施例中显示扩展的第二结果卡的应用屏幕；

图20是在一个或多个实施例中用于处理视觉数据的示例过程的流程图；以及

图21是示出包括用于实施所公开的实施例的计算机***的信息处理***的示例性高级框图。

实施本发明的最佳模式

一个实施例提供了一种方法，该方法包括通过在输入上运行与域相关联的第一集合模型来对包括视觉数据的输入中存在的一个或多个对象进行分类。第一集合模型中的每个模型对应于对象类别。每个模型被训练以生成与所述输入中的相应对象类别相关的视觉分类符结果，该视觉分类符结果具有指示视觉分类符结果的准确性的相关联的置信度值。该方法还包括基于与第一集合模型的每个模型的每个视觉分类符结果相关联的置信度值来聚合第一集合的视觉分类符结果。基于聚合的第一集合的视觉分类符结果可选择至少一个其它模型用于在输入上运行，以用于对一个或多个对象的额外分类。一个或多个视觉分类符结果被返回到在电子设备上运行的应用以供显示。

参考以下描述、所附权利要求和附图，将理解一个或多个实施例的这些和其它特征、方面和优点。

发明模式

做出以下描述是为了示出一个或多个实施例的一般原理的目的，并不意味着限制这里要求保护的发明构思。此外，这里所述的特定特征可以与各种可能的组合和置换中的每一个中的其它描述的特征组合使用。除非这里另有明确定义，否则所有术语都将被给予其最广泛的可能解释，包括说明书中暗示的含义以及本领域技术人员理解的和/或字典、论文等中定义的含义。

一个或多个实施例一般涉及视觉智能，并且具体的涉及电子设备的视觉智能管理。一个实施例提供了一种方法，该方法包括通过运行与输入上的域相关联的第一组模型来对在包括视觉数据的输入中存在的一个或多个对象进行分类。第一组模型中的每个模型对应于对象类别。每个模型被训练成生成与输入中的相应对象类别相关的视觉分类符结果，该视觉分类符结果具有指示视觉分类符结果的准确性的相关联的置信度值。该方法还包括基于与第一组模型的每个模型的每个视觉分类符结果相关联的置信度值来聚集第一组视觉分类符结果。基于聚集的第一组视觉分类符结果可选择至少一个其它模型用于在输入上运行，以用于一个或多个对象的附加分类。一个或多个视觉分类符结果被返回到在电子设备上运行的应用以供显示。

为了说明的目的，这里使用的术语“视觉数据”一般指视觉内容，诸如图像、视频或可显示在显示设备(例如电视、监视器、平板电脑、智能电话等)上的任何其它类型的视觉内容。

为了说明的目的，术语“视觉处理任务”一般指涉及对视觉数据的视觉分析的任务/操作。不同类型的视觉处理任务的示例包括但不限于人脸识别、场景识别、对象识别、对象定位和分割、对象跟踪、3D对象重建等。

随着近年来新的人工智能和计算机视觉技术的引入，电子设备上的相机应用和/或图库(gallery)应用正在演变成智能工具，如各种实施例中所示，该智能工具可用于从视觉域提取信息，并向电子设备上的一个或多个其它应用和服务提供丰富的视觉上下文(context)。虽然为了说明在一个或多个实施例中提到了相机应用和/或图库应用，但是本领域普通技术人员将会理解，其它类型的应用可以同样受益于本发明的特征。

为了执行视觉处理任务，可以利用基于深度学习(deep learning，DL)和神经网络的视觉处理功能来扩展电子设备上的相机应用。一个或多个实施例提供了基于计算机视觉(computer vision，CV)和DL的视觉智能(VI)框架。VI框架是VI的扩展和集成框架，使能够以最小的应用改变在电子设备上部署新的VI和CV技术。例如，VI框架使得不同的自主VI组件(例如，本地和/或第三方/合作伙伴增强现实应用)能够在电子设备上的相机应用和/或图库应用内运行，从而扩展相机应用和/或图库应用的视觉处理功能。每个VI组件具有小的占用空间(footprint)，使能够与相机应用和/或图库应用简单集成。VI框架扩展了电子设备的移动相机或其它类型的感测电路的视觉处理功能，使得移动相机或其它类型的感测电路成为智能相机或感测电路，而不仅仅是用于捕获视觉数据的工具。例如，如果VI组件支持以下视觉处理功能中的一个或多个，则移动相机可以成为VI的来源：(1)对象识别(即，标识视野中的不同类型的对象，诸如汽车)，(2)确定对象之间的属性和关系(例如，响应于标识出视野中的跑车和道路，确定跑车正在道路上行驶)，以及(3)识别特定对象(例如，属于特定个人的汽车)的属性。

在一个实施例中，VI组件形成产生组件生态***的开放架构，其中不同团体(例如，研究团体)、设备供应商、用户、第三方或合作伙伴可以提供与视觉处理功能相关联的深度学习模型。

在一个实施例中，VI组件被沙箱化(sandboxed)，以将相机应用和/或图库应用与VI组件的一个或多个故障隔离。

在一个实施例中，VI框架使能功率优化和资源利用的负载平衡机会，这允许VI组件受益于新形式的软件加速或硬件加速(例如，GPU、FPGA、专用神经网络处理单元)，而不改变相机应用和/或图库应用，从而促进高度模块化。

在一个实施例中，VI框架提供对设备上和云上组件两者以及组合了视觉数据的设备上和云上处理的混合架构的支持。

随着DL和VI技术的快速改变，VI框架允许将当前和新兴的视觉技术与移动应用和服务的快速集成。每个VI组件可以被动态添加、移除、激活、去激活(deactivate)或升级。

图1示出了在一个或多个实施例中用于实施VI管理***300的示例计算架构10。计算架构10包括电子设备100，该电子设备100包括计算资源，诸如一个或多个处理器110和一个或多个存储单元120。一个或多个应用250可以利用电子设备100的计算资源在电子设备100上运行/操作。

电子设备100的示例包括但不限于移动电子设备，诸如平板电脑、智能电话、膝上型电脑、智能手表等。

在一个实施例中，电子设备100包括集成在电子设备100中或耦合到电子设备100的相机140。电子设备100上的一个或多个应用可以利用相机140来捕获呈现给相机140的对象的视觉数据(例如，照片、视频)。

在一个实施例中，电子设备100上的一个或多个应用250包括但不限于，一个或多个视觉数据获取应用和/或获取VI的一个或多个组件。不同的视觉数据获取应用的示例包括但不限于，用于利用相机140捕获视觉数据的相机应用161(图4)、用于由相机140捕获的或从其它源接收的视觉数据的离线存储的图库应用162(图4)。用于VI的不同组件的示例包括但不限于，用于对在图像/视频帧中存在的一个或多个对象进行分类的对象识别应用、用于对在图像/视频帧中存在的一个或多个场景进行分类的场景识别应用、用于对在图像/视频帧中存在的一个或多个汽车进行分类的汽车识别应用、用于基于视觉数据自定义由第三方提供的在线服务的第三方应用(例如，用于基于在图像/视频帧中存在的一个或多个对象提供在线购物推荐的购物应用、用于基于在图像/视频帧中存在的一个或多个食物项目提供营养/饮食信息的营养/饮食应用、用于基于在图像/视频帧中存在的一个或多个食物项目提供商店/餐馆推荐的商店/餐馆***应用等)、用于检测图像/视频帧中存在的一个或多个对象位于哪儿的对象定位和分割应用、用于在一系列图像/视频帧上对象跟踪一个或多个对象的对象跟踪应用等。

在一个实施例中，应用250可以被预加载到电子设备100上或被下载到电子设备100。应用250可以源自电子设备100的设备供应商(例如，原始设备制造商(originalequipment manufacturer，OEM))(即，供应商应用)或源自第三方(例如，团体、用户、合作伙伴)。

如这里稍后详细描述的，VI管理***300提供用于VI的组件和API的集合，其允许应用开发者增强现有的应用250并建立利用视觉数据的处理和理解的新应用250。VI管理***300提供用于VI的扩展和集成框架，该用于VI的扩展和集成框架使得VI的一个或多个组件能够在一个或多个视觉数据获取应用中运行，以扩展视觉数据获取应用的视觉处理功能，诸如对象识别或面部识别。

在一个实施例中，除相机140之外，电子设备100可以进一步包括一个或多个另外的传感器150，诸如但不限于用于确定电子设备100的用户位置的一个或多个定位传感器(例如，GPS)，用于检测用户发声(即，讲话)和音频环境的特征(例如，嘈杂、安静等)的一个或多个音频传感器(例如，麦克风)，用于检测说出的话语的一个或多个话音识别***，用于确定用户感情(例如愤怒、高兴等)、兴趣和意图的一个或多个文本分析***，以及用于基于在电子设备100上收集的数据(例如，应用使用、搜索历史、联系人等)确定关于用户偏好和意图的信息的一个或多个数据分析引擎。应用250可以利用传感器150来捕获基于传感器的上下文信息。

在一个实施例中，电子设备100包括集成在电子设备100中或耦合到电子设备100的一个或多个输入/输出(I/O)单元130，诸如键盘、小键盘、触摸界面或显示屏。

在一个实施例中，电子设备100被配置为通过连接(例如，诸如WiFi连接或蜂窝数据连接的无线连接、有线连接或两者的组合)与一个或多个远程服务器200或远程电子设备交换数据。例如，远程服务器200可以是用于托管(host)一个或多个在线服务(例如，图像和视频托管网站)和/或分发一个或多个应用(例如，应用250)的在线平台。

图2示出了一个或多个实施例中托管表示层255的示例应用250。模块260是被配置为执行特定视觉处理任务(例如，对象识别、对象定位和分割、场景识别、汽车识别、对象跟踪等)的软件抽象。在实施例中，模块260被配置为：(1)接收包括一个或多个图像/视频帧的视觉数据作为输入，基于视觉处理算法(例如，对象识别算法)处理视觉数据，以及生成指示处理结果(例如，视觉数据中存在的对象的分类标签，诸如“狗”)的相应视觉分类符结果(即，识别结果)。模块260还可以依赖于额外的输入，诸如由电子设备100的一个或多个传感器150捕获的基于传感器的上下文信息，或者与电子设备100相关联的设备信息。

应用250可以利用一个或多个模块260来执行一个或多个期望的视觉处理任务。为了允许一个或多个模块260与应用250的简单集成，在一个实施例中，VI管理***300向应用250提供一个或多个表示层255来托管。每个表示层255是包括被配置为处理与在一个或多个模块容器270中运行的一个或多个模块260的通信的小型可嵌入应用的插件(plug-in)机构。

在一个实施例中，表示层255包括用于模块260的配置和状态管理的易于使用的API，托管应用250将经由表示层255与该模块260通信。一旦经由表示层255配置了模块260，托管应用250可以注册用于接收从模块260返回的视觉分类符结果的收听器(listener)。模块260可以将视觉分类符结果返回到表示层255或者直接返回到托管应用250自身。

在一个实施例中，表示层255包括用户界面(UI)元素和相关联的应用逻辑，以用于利用模块260来处理视觉数据，并显示在处理后由模块260返回的视觉分类符结果。

在一个实施例中，模块260可以被配置用于视频流操作或单拍摄操作。视频流操作涉及视觉数据获取应用，诸如相机应用161或图库应用162，将实时(live)图像/视频帧或记录的图像/视频帧连续传递到模块260作为输入用于处理。单拍摄操作涉及视觉数据获取应用，诸如相机应用161或图库应用162，将单个图像/视频帧传递到模块260作为输入用于处理。

在一个实施例中，一个或多个模块260是自主的，使得每个模块260在其自己的模块容器270中运行。这具有如下优点：减少托管应用250的启动时间，并且还确保如果一个或多个模块260故障，托管应用250仍然保持运行。此外，由于模块260可能具有大量的资源需求(例如，大量的存储器和/或处理要求)，所以沙箱化一个或多个模块260对于维持托管应用250的完整性和可靠性是重要的，特别是如果托管应用250是诸如相机应用161或图库应用162的视觉数据获取应用。

在一个实施例中，通过将一个或多个模块260作为分离进程运行来实现托管应用250与一个或多个模块260的隔离。例如，如果托管应用250利用多个模块260，则托管应用250托管多个表示层255用于启动模块260的分离进程，并通过进程间通信(inter-processcommunication，IPC)和共享存储器与模块260通信。利用表示层255，托管应用250不需要直接处理模块260，并且可以容易地接通或断开不同的模块260。

在一个实施例中，表示层255可以通过将一个或多个增强现实(AugmentedReality，AR)模块260与相机应用161隔离来使能轻量应用。这使能与相机应用161相关的AR模块260的动态或选择性添加、移除、激活、去激活或升级。例如，如果由相机应用161捕获到办公室的视图，则用于对象识别的模块260可以对存在的一个或多个家具项目进行分类，并且用于场景识别的不同模块260可以将存在的场景分类为办公室空间。

表示层255具有小占用空间(即，小尺寸)。这样，表示层255对托管应用250的资源利用几乎没有影响。

图3示出了一个或多个实施例中的示例模块族400。在一个实施例中，VI管理***300被配置为将可用模块260分组到不同的模块族400中。每个模块族400包括具有相似视觉处理功能的模块260的集合。例如，模块族400可以包括与诸如对象跟踪的特定问题区域相关联的模块260。作为另一个示例，模块族400可以包括与诸如DL的特定技术相关联的模块260。

如图3所示，在一个实施例中，不同的模块族400可以包括但不限于以下中的一个或多个：(1)用于DL的DL模块族410，(2)用于面部分析的面部模块族420，(3)用于姿态分析的姿态模块族430，(4)用于符号分析的符号模块族440，(5)用于对象跟踪的跟踪模块族450，(6)用于云服务的云模块族460，以及(6)用于测试的测试模块族470。

在一个实施例中，DL模块族410包括但不限于以下模块260中的一个或多个：(1)分类模块411，用于对在图像/视频帧中存在的一个或多个对象进行分类，(2)检测模块412，用于检测在图像/视频帧中存在的一个或多个对象，(3)特征提取模块413，用于从图像/视频帧中提取一个或多个特征，(4)深度估计模块414，用于确定与在图像/视频帧中存在的一个或多个对象相关的一个或多个测量(例如，距离)，(5)图像分割模块415，用于将图像/视频帧分割成多个分段，(6)样式转换模块416，用于以另一图像/视频帧的样式重组图像/视频帧(即，将一个图像/视频帧的样子和感觉应用到不同的图像/视频帧)，以及(7)对象重建模块417，用于捕获在图像/视频帧中存在的一个或多个对象的形状和外观(例如，生成对象的三维模型)。

在一个实施例中，面部模块族420包括但不限于以下模块260中的一个或多个：(1)面部检测模块421，用于检测在图像/视频帧中存在的面部，(2)面部识别模块422，用于识别/标识在图像/视频帧中存在的面部，(3)面部聚集模块423，用于测量在多个图像/视频帧中存在的面部之间的相似性并且将相似的面部聚集成组，以及(4)情绪/年龄/性别模块424，用于确定再图像/视频帧中存在的面部的面部表情、该面部的年龄或该面部的性别中的至少一个。

在一个实施例中，姿态模块族430包括但不限于以下模块260中的一个或多个：(1)注视对象跟踪模块431，用于对象跟踪在图像/视频帧中存在的个人的眼睛注视，(2)手势模块432，用于检测和识别在图像/视频帧中存在的个人展现的手势，以及(3)身体特征/姿势模块433，用于检测和识别在图像/视频帧中存在的个人展现的身体特征和身体姿势中的至少一个。

在一个实施例中，符号模块族440包括但不限于以下模块260中的一个或多个：(1)文本模块441，用于检测和识别视觉数据中的文本，(2)手写模块442，用于检测和识别视觉数据中的手写，以及(3)符号/记号模块443，用于检测和识别视觉数据中的符号和记号中的至少一个。

在一个实施例中，跟踪模块族450包括但不限于以下模块260中的一个或多个：(1)基于帧的DL对象跟踪模块451，用于在一系列图像/视频帧上对一个或多个对象进行基于帧的DL对象跟踪，(2)光流模块452，用于在一系列图像/视频帧上执行光流，(3)基于图案的对象跟踪模块453，用于在一系列图像/视频帧上跟踪图案，(4)特征描述符模型模块454，用于在一系列图像/视频帧上检测和识别特征，以及(5)同步定位和映射(simultaneouslocalization and mapping，SLAM)模块455，用于在一系列图像/视频帧上执行SLAM。

在一个实施例中，云模块族460包括但不限于桥接到一个或多个基于网络的视觉服务(例如，

服务、/>

服务等)的一个或多个模块260。例如，云模块族460可以包括用于执行与一个或多个/>

服务(例如，基于在图像/视频帧中存在的一个或多个对象提供在线购物推荐)相关联的视觉处理任务的/>

模块461。作为另一个示例，云模块族460可以包括用于执行与一个或多个/>

服务(例如，基于在图像/视频帧中存在的一个或多个对象的在线搜索结果)相关联的视觉处理任务的/>

模块462。作为另一个示例，云模块族460可以包括用于执行与一个或多个/>

服务(例如，AI服务)相关联的视觉处理任务的/>

模块463。

在一个实施例中，测试模块族470包括但不限于以下模块260中的一个或多个：(1)Java/Java本地接口(Java Native Interface，JNI)模块471，用于测试Java/JNI代码，和(2)定时模块472，用于测试一个或多个进程的运行时间。

图4详细示出了在一个或多个实施例中的示例模块260。在一个实施例中，模块260具有包括一个或多个模型320、一个或多个引擎340和引擎选择器330的内部结构。模块260利用一个或多个模型320来执行特定的视觉处理任务。每个模型320包括数据集。在一个实施例中，每个模型320是针对特定任务(例如，诸如人脸识别的图像处理任务)训练的神经网络。

在一个实施例中，模块260包括模型生态***310，模型生态***310维护模块260可利用的不同类型的模型320。模型生态***310提供模块260与一个或多个模型320的运行时间绑定，以及允许从不同来源供应不同类型的模型320的高级配置API。例如，模型生态***310可以包括但不限于以下一个或多个：(1)一个或多个团体模型321，其中每个团体模型321由研究团体开发并且是免费可用的，(2)一个或多个供应商模型322，其中每个供应商模型322由电子设备100的设备供应商(例如，OEM)开发并且仅可在来自设备供应商或由供应商许可的电子设备上运行，(3)一个或多个用户模型323，其中每个用户模型323基于用户数据开发(例如，基于用户的图像/视频收集训练以标识用户的朋友或家庭成员的用户模型323)，以及(4)一个或多个第三方/合作伙伴模型324，其中每个第三方/合作伙伴模型324由第三方开发并且可通过合作伙伴关系或许可获得。

模块260被配置为接收来自电子设备100上的视觉数据获取应用的视觉数据作为输入，诸如来自相机应用161的一个或多个相机图像/视频或者来自图库应用162的一个或多个图库图像/视频。模块260还被配置为接收一个或多个额外的输入，诸如来自电子设备100的一个或多个传感器150的基于传感器的上下文信息，或者与电子设备100相关联的设备信息。

在一个实施例中，模块260包括模型压缩单元261，该模型压缩单元261被配置为压缩模块260所利用的模型320。在一个实施例中，模块260包括优化单元262，该优化单元262被配置为优化用于负载平衡的功率优化和资源利用。在一个实施例中，模块260包括软件加速单元263，该软件加速单元263被配置为确定模型320是否受益于软件加速(例如，单指令、多数据(single instruction,multiple data，SIMD)，开放多处理(Open Multi-Processing，OpenMP)等)。在一个实施例中，模块260包括硬件加速单元264，该硬件加速单元264被配置为确定模型320是否受益于硬件加速(例如，中央处理单元(centralprocessing unit，CPU)、图形处理单元(graphics processing unit，GPU)、现场可编程门阵列(field-programmable gate array，FPGA)等)。

在一个实施例中，模块260包括引擎选择器330，该引擎选择器330被配置为从可用引擎340(例如，引擎1、引擎2、…、和引擎N)的收集中选择引擎340来运行模块260。每个可用引擎340包括运行或能够运行模块260的软件活动。引擎选择器330为托管应用250与多个模块260和/或多个模型320提供负载平衡和资源管理。

在一个实施例中，每个模型320可以由引擎340支持。每个引擎340可以支持一个或多个模型320。

在一个实施例中，模块260的应用开发者可以基于由模块260利用的模型320的要求和/或参数来控制哪些引擎340与模块260相关联。在一个实施例中，引擎选择器330被配置为从模块260的应用开发者已经与模块260相关联的可用引擎340的收集中选择合适的引擎340。

在另一个实施例中，引擎选择器330被配置为自动选择一个或多个引擎340以与模块260相关联。具体地，引擎选择器330被配置为：(1)基于运行时间数据动态地确定模块260和可用引擎340的收集中的一个或多个引擎340之间的一个或多个关联，以及(2)基于所确定的一个或多个关联从可用引擎340的集合中选择适当的引擎340以用于运行模块260。动态地确定模块260和引擎340之间的关联的能力去除了对模块260和引擎340之间的预定固定关联(例如，由模块260的应用开发者提供的固定关联)的要求。如这里稍后详细描述的，这种灵活性允许模块260基于诸如本体、模块260的细节、与模块260的操作相关的上下文信息等的信息在不同类型的引擎340(诸如第三方引擎)上运行。

在利用由引擎选择器330选择的引擎340上的模型320运行模块260之后，由模块260生成的视觉分类符结果可以被转发到在一个或多个应用250中托管的一个或多个表示层255，或者直接被转发到一个或多个应用250。例如，视觉分类符结果可以被转发到以下一个或多个：(1)电子设备100上的视觉数据获取应用，诸如图库应用162，或者(2)VI组件或在VI组件中托管的表示层。

作为另一个示例，假设VI管理***300从利用用于对象识别的模型320的模块260接收标识在视觉数据中捕获的动物的视觉分类符结果。如这里稍后详细描述的，基于模型320的本体，VI管理***300可以再次运行相同的模块260，或者利用不同模型320来运行不同的模块260，用于与标识的动物相关的另外信息(诸如动物普遍的地理区域)。

在一个实施例中，用户(例如，电子设备100的用户)可以选择模块260来对视觉数据执行特定的视觉处理任务。在另一个实施例中，应用250被配置为选择一个或多个模块260来激活以执行特定的视觉处理任务。

图5示出了在一个或多个实施例中相机应用161的示例应用屏幕500。在一个实施例中，相机应用161是提供充分使用VI***200的虚拟助手的AR相机应用。虚拟助手具有一个或多个安装的AR操作模式，其提供关于经由相机140实时捕获或存储在图库应用162中的图像/视频的内容的信息。每个安装的AR操作模式被配置为执行特定的视觉处理任务，并且对应于运行用于视觉处理任务的一个或多个模块260的相机应用161中托管的表示层255。例如，一个或多个安装的AR操作模式可以包括但不限于以下一个或多个：(1)神奇镜头操作模式，对应于运行用于对象识别的DL模块族410的一个或多个模块260的相机应用161中托管的第一表示层255，(2)地标操作模式，对应于运行用于地标/位置识别(即，标识图像/视频帧中存在的地标或位置)的云模块族460的一个或多个模块260的相机应用161中托管的第二表示层255，(3)文本操作模式，对应于运行用于文本识别的符号模块族440的一个或多个模块260的相机应用161中托管的第三表示层255，(4)面部操作模式，其对应于运行用于面部识别的面部模块族420的一个或多个模块260的相机应用161中托管的第四表示层255，以及(5)一个或多个第三方操作模式，其中每个第三方操作模式由第三方定制/提供，并且对应于运行用于对象跟踪图像/视频帧中存在的一个或多个对象的轨迹模块族450的一个或多个模块260的相机应用161中托管的第五表示层255。

在一个实施例中，神奇镜头操作模式被配置为运行第一组模型320(即，基础模型)，并且基于由第一组模型320返回的视觉分类符结果，激活并运行一个或多个另外的模型320。

如图5所示，在一个实施例中，相机应用161向用户呈现包括一个或多个可选图形用户界面(graphical user interface，GUI)元素的应用屏幕500，该可选GUI元素对应于用于用户选择的一个或多个安装的AR操作模式。例如，如图5所示，应用屏幕500可以包括但不限于以下GUI元素中的一个或多个：(1)与神奇镜头操作模式相对应的第一GUI元素501，(2)与地标操作模式502相对应的第二GUI元素502，(3)与文本操作模式503相对应的第三GUI元素503，(4)与脸部操作模式对应的第四GUI元素504，以及(5)与特定第三方操作模式相对应的第五GUI元素505。在一个实施例中，应用屏幕500还包括向用户提供在相机应用161中下载和安装一个或多个额外AR操作模式的选项的可选GUI元素506。

在一个实施例中，相机应用161与VI管理***300一起用作现实世界的浏览器，将相机应用的能力扩展超出仅仅捕获图像和视频。相机应用161将用户的数字世界连接到现实世界，允许用户直接在相机应用161内搜索、探索和了解关于视觉数据中存在的对象、场景、任务和体验的更多内容和上下文。

在一个实施例中，安装和下载额外AR操作模式的能力使得AR应用生态***能够允许合作伙伴和应用开发者向电子设备100的用户提供新的和更新的AR应用。

在一个实施例中，相机应用161与VI管理***300一起经由电子设备100的设备供应商提供的移动支付和数字钱包服务和/或一个或多个第三方移动支付和数字钱包服务，提供交易的移动电子商务通道。

在一个实施例中，相机应用161与VI管理***300一起用作智能视觉记忆服务，该智能视觉记忆服务记住用户经由相机应用161和/或图库应用162看到了什么或与什么交互了，并且按照用户的命令推荐和检索视觉数据中存在的对象、场景、人物和体验的内容和上下文。

图6示出了在一个或多个实施例中相机应用161的另一示例应用屏幕510。假设当电子设备100的用户正在使用相机应用161时，VI管理***300接收到包括由电子设备160的GPS捕获的位置数据的基于传感器的上下文信息，其中该位置数据指示用户在电影院。在相机应用161中托管的表示层255可以运行用于海报识别的模块260来处理相机140的相机视图内的海报，以标识海报对应于的电影。如图6所示，响应于从模块260接收到指示标识的电影的视觉分类符结果，相机应用161可以向用户呈现应用屏幕510，其中该应用屏幕510显示视觉分类符结果(即，标识的电影名称)，并且向用户提供调用用于购买标识的电影的电影票的第三方应用的选项。

图7示出在一个或多个实施例中相机应用161的另一示例应用屏幕520。假设用户经由相机应用161捕获或者从图库应用162中选择植物的图像。在相机应用161中托管的表示层255可以运行用于对象识别的模块260，以标识图像中存在的植物的类型。如图7所示，响应于从模块260接收到指示标识的植物类型(例如，肉质植物)的视觉分类符结果，相机应用161可以向用户呈现应用屏幕520，其中该应用屏幕520显示视觉分类符结果(即标识的植物类型)，并且向用户提供与该图像相关的额外信息，诸如但不限于，用户可以购买植物的商店的位置、照顾植物的指南、用户可以用来在线购买植物的第三方应用、以及用户可以用来在在线或亲自购买植物时提供优惠券的另一个第三方应用。

图8示出了在一个或多个实施例中相机应用161的另一示例应用屏幕530。假设用户经由相机应用161捕获或者从图库应用162中选择食物项目的图像。在相机应用161中托管的表示层255可以运行用于对象识别的模块260，以标识图像中存在的食物项目的类型。如图8所示，响应于从模块260接收到指示标识的食物项目的类型(例如，芝士汉堡)的视觉分类符结果，相机应用161可以向用户呈现应用屏幕530，其中该应用屏幕530显示视觉分类符结果(即标识的食物项目的类型)，并且向用户提供与该图像相关的额外信息，诸如但不限于，食物项目的营养信息、供应食物项目的餐馆的在线评论、以及用户可以用来将营养信息记录到他/她的食物日志中的第三方应用(例如，饮食/健康对象跟踪应用)。

图9示出在一个或多个实施例中相机应用161的另一示例应用屏幕540。在一个实施例中，相机应用161基于与应用屏幕540的一个或多个用户交互允许用户在不同的AR操作模式之间切换。例如，如图9所示，用户可以使用手势浏览/滚动不同的AR操作模式(例如，如方向箭头F所示，向左或向右滑动通过与不同AR操作模式相对应的不同GUI元素)。

利用VI管理***300，在电子设备100上可以存在大量模型320。然而，由于电子设备100上有限的计算资源，在运行时间期间，电子设备100上存在的所有模型320同时是活跃的可能是不可行的。在一个实施例中，VI管理***300提供了用于在运行时间期间加载/激活或卸载/去激活一个或多个模型320的功能，从而提供了提高的可扩展性以容纳大量模型320，这反过来也提高了识别能力。在一个实施例中，VI管理***300容纳同时并行运行多个模型320。在一个实施例中，VI管理***300容纳设备上(即，在电子设备100上)和云上(即，远程地在服务器200上，诸如云服务)运行模型320。

在一个实施例中，应用可以在两阶段过程中被部署在电子设备上：1)学习过程，其中使用具有大量训练数据的复杂神经网络架构来创建一个或多个预训练模型，以及2)推理过程，其中基于预训练模型来执行推理。具体地，在推理过程中，一旦一个或多个预训练模型可用，应用可以被开发为使用从一个或多个预训练模型中可用的一个或多个识别能力以分析视觉数据。这可用于开发用于使用一个或多个预训练模型识别特定的一组对象的一个或多个AR应用。此外，每个应用都与特定模型相关联，并且每个模型可以基于训练数据识别特定数量的对象类别。

在一个实施例中，VI管理***300可以利用以下优点：基于多个模型320在运行时间执行推理，并且还可以基于电子设备100的用户的上下文信息(“用户上下文”)在运行时间切换模型320。用户上下文的示例包括但不限于GPS位置、应用使用、用户意图等。

在一个实施例中，VI管理***300基于类别和类别之间的分层关系以智能和分层的方式组织预训练模型，其中每个分层关系(即本体)可以被自动生成(即自动导出)、预定义(即预定)或由应用开发者/用户提供。分层树结构使能够进行通用/一般类别的识别，然后是由指示通用/一般类别的视觉分类符结果触发的特定类别的识别。在一个实施例中，VI管理***300支持在运行时间向一个或多个类别添加和从其去除对分层树结构的简单修改/更新，从而提供具有变化数量的类别的可扩展和动态***架构。

在一个实施例中，VI管理***300可以对相同的视觉数据并行地或顺序地运行多个模型和/或多个DL引擎。

在一个实施例中，VI管理***300允许基于用户上下文在电子设备100中调用/加载不同的模型。VI管理***300可以基于多个模型处理视觉数据，以获得对视觉数据中存在的对象、场景、人物和体验的内容和上下文的不同级别的理解。在一个实施例中，VI管理***300提供了使用电子设备100的CPU资源运行特定模型和使用电子设备100的专用硬件(诸如GPU)运行特定模型的灵活性。在一个实施例中，VI管理***300提供了用于识别电子设备100上可用的一些对象类别和来自云的一些对象类别的混合方案。

域是模型320的集合。在本说明书中，使术语“模型图”一般指代表示类别(例如，对象类别)的分层树结构的有向图(directed graph)。在一个实施例中，模型图包括多个类别节点，该多个类别节点包括：(1)第一类别节点，表示指示由模型图表示的域的域根，和(2)多个额外的类别节点，表示被包括在域中的多个模型320。模型图还包括多个类别节点之间的一个或多个分层链接。每个分层链接表示一对模型之间的分层关系。在一个实施例中，模型图可以包括以下类型的分层链接中的至少一个——类别本体链接或类别相似性链接。如稍后参考图12详细描述的，一对模型之间的类别本体链接基于与该对模型相关的本体信息。如稍后参考图14详细描述的，一对模型之间的类别相似性链接基于该对模型之间的相似性度量。

不同类型的域的示例包括但不限于以下：(1)日常域，表示一个或多个模型320可识别的日常对象和动物，(2)地点域，表示一个或多个模型320可识别的室内和室外位置/地标，(3)汽车域，表示一个或多个模型320可识别的汽车模型，(4)食物域，表示一个或多个模型320可识别的食物项目，(5)海报域，表示一个或多个模型320可识别的电影/影片海报，(6)记号域，表示一个或多个模型320可识别的美国手语(sign language)，(7)年龄域，表示一个或多个模型320可识别的年龄组，(8)性别域，表示一个或多个模型320可识别的性别组，(9)标志域，表示一个或多个模型320可识别的品牌标志，(10)情绪域，表示一个或多个模型320可识别的基本用户情绪，以及(11)花卉域，表示一个或多个模型320可识别的花卉类型。

图10示出了在一个或多个实施例中的示例运行管理器700。在一个实施例中，VI管理***300包括运行管理器700，该运行管理器700用于基于多个模型320在运行时间执行推理，以及基于上下文信息切换在运行时间的模型320(即，对运行时间期间的模型320的实时管理)。运行管理器700促进并行模型运行，其中多个模型320同时运行。

如这里稍后详细描述的，在一个实施例中，为了基于上下文(例如，用户上下文)和应用偏好(例如，服务质量偏好)来确定哪些模型320在运行时间期间运行，运行管理器700被配置为执行以下每一个：(1)域选择过程，其中选择适合于由运行管理器700接收的视觉数据的域，以及(2)模型选择过程，其中被包括在所选择的域中的一个或多个模型320被选择用于在运行时间期间激活。

在一个实施例中，运行管理器700被配置为在运行时间期间访问由VI管理***300维护的活跃模型(即，激活的/加载的模型)320的集合740。活跃模型320是被加载到在运行时间期间运行活跃模型320的相应活跃引擎340中的模型320。活跃引擎340是在运行时间期间活跃的引擎340。集合740可以包括团体模型321、供应商模型322、用户模型323和第三方/合作伙伴模型324中的至少一个。

在一个实施例中，运行管理器700包括模型运行***710，模型运行***710包括分发单元711，该分发单元711被配置为：(1)接收包括一个或多个图像/视频帧的视觉数据作为输入(例如，从相机应用161或图库应用162)，以及(2)将视觉数据转发/传递到运行活跃模型320的集合740的所有活跃引擎340。每个活跃引擎340至少基于加载到活跃引擎340中的活跃模型320来处理视觉数据，并且生成指示视觉数据中存在的一个或多个对象和/或视觉数据中检测到一个或多个对象的一个或多个区域的一个或多个分类标签(例如，对象类别)的相应视觉分类符结果。生成的每个视觉分类符结果可以具有一个或多个相关联的置信度值，其中每个置信度值指示视觉分类符结果的准确性。

在一个实施例中，所有活跃引擎340同时运行加载到活跃引擎340中的活跃模型320，从而并行处理视觉数据(即，并行模型运行)。在另一个实施例中，活跃引擎340顺序地处理视觉数据。在又一实施例中，活跃引擎340部分并行且部分顺序地处理视觉数据。

例如，假设运行管理器700被配置为并行运行不超过N个活跃引擎340。此外，假设在运行时间期间的某个点，要求M个模型来处理视觉数据，其中N<M。运行管理器700可以使用N个活跃引擎340并行运行前N个模型，随后并行运行多达N个模型的组，直到所有的M个模型都已经被运行。

在一个实施例中，模型运行***710包括聚合单元712，该聚合单元712被配置为合并/组合来自所有活跃引擎340的所有视觉分类符结果(即，结果聚合)。

在一个实施例中，模型运行***710包括选择单元713，该选择单元713被配置为：(1)监视由每个活跃引擎340生成的每个视觉分类符结果，以确定运行何时完成，(2)移除重复的视觉分类符结果，以及(3)移除具有相关联的不满足一个或多个预定置信度阈值的置信度值(即，低置信度值)的视觉分类符结果。

在一个实施例中，运行管理器700包括域选择***720，该域选择***720被配置为自动选择适合于由运行管理器700接收的视觉数据的域(即，域选择过程)，其中所选择的域包括作为运行时间期间用于激活的候选的一个或多个模型320。域选择***720被配置为根据但不限于以下方法之一来自动选择域：基于分层的域选择方法、基于特征向量的域选择方法或基于时间的域选择方法。

在一个实施例中，域选择***720包括被配置为应用基于分层的域选择方法的基于分层的域选择器721。基于分层的域选择方法包括基于被包括在分层树结构中的模型320之间的一个或多个分层关系(即，类别本体链接和/或类别相似性链接)来选择域。例如，假设当前选择第一域来处理视觉数据。当通过被包括在第一域中的模型320识别出在视觉数据中存在的对象时，基于分层的域选择器721可以通过沿着从第一域到第二域的类别本体链接或类别相似性链接来选择适合于进一步处理视觉数据的第二域。

在另一个实施例中，域选择***720包括被配置为应用基于特征向量的域选择方法的基于特征向量的域选择器722。基于特征向量的域选择方法包括基于从视觉数据提取的一个或多个特征表示(即，特征向量)来选择域。在一个实施例中，对于每个可用域，基于特征向量的域选择器722被配置为确定对于该域的相应特征表示，并存储关于该域的特征表示与相应元数据信息(例如，在一个或多个存储单元120中)。响应于接收到视觉数据，基于特征向量的域选择器722被配置为，对于视觉数据的每个图像/视频帧，执行以下操作：(1)确定图像/视频帧的相应特征表示，(2)对于每个可用域，确定表示图像/视频帧的相应特征表示和关于该域的存储的特征表示之间的距离的相应距离度量，以及(3)从可用域中选择具有最小距离度量(即，具有最接近图像/视频帧的相应特征表示的特征表示)的域。

在另一个实施例中，域选择***720包括被配置为应用基于时间的域选择方法的基于时间的域选择器723。基于时间的域选择方法包括基于用于一个或多个时间窗口的一个或多个视觉分类符结果来选择域。在一个实施例中，对于每个可用域，基于时间的域选择器723被配置为确定该域的相应特征表示，并存储关于该域的特征表示与相应元数据信息(例如，在一个或多个存储单元120中)。响应于接收到视觉数据，基于时间的域选择器723被配置为将视觉数据分割成多个时间窗口，其中每个时间窗口包括被包括在视觉数据中的图像/视频帧的序列(即子集)。在一个实施例中，视觉数据可以基于场景边界被分割成多个时间窗口。对于每个时间窗口，基于时间的域选择器723被配置为运行以下操作：(1)确定对于时间窗口的相应特征表示，(2)对于每个可用域，确定表示对于时间窗口的相应特征表示和关于该域的存储的特征表示之间的距离的相应距离度量，以及(3)从可用域选择具有最小距离度量(即，具有最接近对于时间窗口的相应特征表示的特征表示)的域。

在一个实施例中，运行管理器700包括模型选择***730，该模型选择***730被配置为：(1)从域选择***720接收所选择的域，(2)基于所选择的域，确定在运行时间期间要加载/活跃和卸载/去活跃(即模型选择)哪些模型320(即，模型选择过程)，以及(3)基于所选择的域，确定在运行时间期间要激活或终止哪些引擎340(即引擎负载平衡)。模型选择***730增强了用户便利性，因为它去除了应用开发者/用户明确地选择模型来激活的需要。

在一个实施例中，模型选择***730应用服务质量(QoS)评分方法来从所选择的域中选择要加载/激活的模型。

使r一般地表示包括使用模型m确定的分类标签n的视觉分类符结果。使链接(m，n)一般地表示基于模型m和分类标签n的类别本体链接的集合和类别相似性链接。使m’一般地表示链接(m，n)指向的模型320的集合。使M’一般地表示通过在视觉分类符结果的集合上取m’的并集而形成的模型320的集合。在一个实施例中，模型选择***730包括模型负载平衡器单元731，该模型负载平衡器单元731被配置为：(1)将集合M’中的每个模型320标识为用于激活的候选，(2)为集合M’中的每个模型320确定相应的运行顺序，以及(3)根据相应的运行顺序协调集合M’中的每个模型320的激活。

在一个实施例中，模型负载平衡器单元731被配置为基于以下信息来确定集合M’中每个模型320的相应运行顺序：(1)QoS偏好信息732，和(2)模型元数据信息733。QoS偏好信息732可以包括但不限于以下中的一个或多个：(1)可以在设备上同时运行的引擎340的预定阈值，(2)引擎340和模型320的资源要求(例如，存储器和诸如GPU的专用硬件)，以及(3)当前被加载到活跃引擎340中的活跃模型320的当前激活，其中一些模型320可能需要保持活跃，而其它模型可能会被“离线”(即，去活跃/卸载)。模型元数据信息733可以包括但不限于以下中的一个或多个：(1)包括在所选择的域中的所有模型320的模型优先级，其中诸如在表示所选择的域的模型图的域根附近的那些模型的一些模型320可以在过程(pass)之间保持活跃，以及(2)包括在所选择的域中的所有模型320的模型驻处(residency)，其中每个模型320或者具有要求模型320在设备上运行的模型驻处(即设备上模型)，或者具有要求模型320在云上运行的不同模型驻处(即云上模型)。

在一个实施例中，运行管理器700无缝地组合设备上模型和云上模型。对于每个设备上模型，模型负载平衡器单元731通过利用适当的超参数激活/启动引擎340并将设备上模型加载到活跃引擎340中来激活设备上模型。对于每个云上模型，模型负载平衡器单元731初始化与将运行云上模型的云服务通信所需的客户端端点。模型负载平衡器单元731可以与每个激活的引擎340和/或每个初始化的客户端端点交换消息(例如，交换激活请求和激活回复)。

图11是在一个或多个实施例中用于自动选择模型320来激活的示例过程750的流程图。在过程块751中，(例如，从域选择***720)接收所选择的域。在过程块752中，获得QoS偏好(例如，QoS偏好信息732)。在过程块753中，获得被包括在所选择的域中的所有模型的元数据(例如，模型元数据信息733)。在过程块754中，对于被包括在所选择的域中的每个模型，基于模型的QoS偏好和元数据，来确定相应延时评分、相应准确性评分、相应存储器评分和相应硬件评分。在过程块755中，对于被包括在所选择的域中的每个模型，基于该模型的相应延时评分、相应准确性评分、相应存储器评分和相应硬件评分来确定相应总体评分。在过程块756中，在被包括在所选择的域中的所有模型中选择具有最高总体评分的模型用于在运行时间期间激活。

在一个实施例中，过程块751-756可以由模型选择***730的一个或多个组件来执行，诸如但不限于模型负载平衡器单元731。

图12示出在一个或多个实施例中包括类别本体链接的示例模型图800。模型图800包括指示由模型图800表示的日常域的域根805。模型图800包括表示多个模型320的多个类别节点，其中多个模型320诸如但不限于，用于识别日常对象的对象识别模型810、用于识别场景的场景识别模型820、用于识别汽车模型的汽车模型830和用于识别自然的自然模型840。

如图12所示，对象识别模型810链接到一个或多个额外的模型320，诸如用于识别鞋类型/品牌的鞋模型811、用于识别包类型/品牌的包模型812和用于识别服装类型/品牌的服装模型813。

在一个实施例中，基于分层的域选择器721假设由模型320识别的每个对象与模型图的类别节点相关联，并且进一步假设模型320与类别节点的集合相关联。在一个实施例中，如果由第一模型m1识别的对象具有与第二模型m2的类别节点之一相同的类别节点，则基于分层的域选择器721生成/形成第一模型m1和第二模型m2之间的类别本体链接。在一个实施例中，模型图800包括一个或多个类别本体链接。例如，如图12所示，模型图800包括在动物模型841和以下设备上模型320中的每一个之间的类别本体链接806A：用于识别狗类型/品种的狗模型841A。如图12所示，模型图800还包括在包模型812和以下云上模型320中的每一个之间的类别本体链接806B：用于识别第一类型品牌(例如，

)的包的第一品牌模型812A、用于识别第二类型品牌(例如，/>

)的包的第二品牌模型812B、以及用于识别第三类型品牌(例如，Kate/>

)的包的第三品牌模型812C。

在一个实施例中，基于分层的域选择器721可以使用规范化的词语空间(例如，WordNet)来生成从一个模型识别的对象到一个或多个其它模型识别的对象的类别本体链接。

图13A-13C示出了在一个或多个实施例中，由运行管理器700执行用于自动选择模型320来激活的操作序列。具体而言，图13A是示出在一个或多个实施例中由运行管理器700初始激活的一个或多个模型320的模型图850。如图13A所示，在初始状态下(即，在运行管理器700接收到视觉数据之前)，运行管理器700仅激活以下两个模型320：(1)用于识别日常对象的对象识别模型860，和(2)用于识别场景的场景识别模型870。图13A所示的所有其它模型320，诸如猫识别模型861、狗识别模型862、电影识别模型871、户外识别模型872和海报识别模型871A，是不活跃的。

图13B是示出在一个或多个实施例中，响应于接收到视觉数据，由运行管理器700激活的一个或多个额外模型320的更新模型图850。如图13B所示，响应于接收到包括狗的图像的视觉数据，对象识别模型860处理该视觉数据并生成包括具有相关联的0.988置信度值的分类标签“狗”的相应视觉分类符结果。假设0.988满足一个或多个预定置信度阈值，则运行管理器700然后基于对象识别模型860和狗识别模型862之间的类别本体链接来激活狗识别模型862。图13A所示的所有其它模型320，诸如猫识别模型861、电影识别模型871、户外识别模型872和海报识别模型871A，保持不活跃。

图13C是示出在一个或多个实施例中，响应于视觉分类符结果，由运行管理器700激活的一个或多个额外模型320的更新模型图850。响应于由对象识别模型860生成的视觉分类符结果，另一激活模型320处理视觉数据。具体而言，如图13C所示，狗识别模型862处理视觉数据，并生成标识视觉数据中存在的狗的狗品种的相应视觉分类符结果。例如，视觉分类符结果可以包括具有相关联的0.461置信度值的分类标签“阿彭策勒犬(Appenzeller)”。

图14示出在一个或多个实施例中包括类别相似性链接的示例模型图800。在一个实施例中，如果由第一模型m1识别的对象具有基于相似性度量类似于第二模型m2的类别节点的类别节点，则基于分层的域选择器721生成/形成第一模型m1和第二模型m2之间的类别相似性链接856。在一个实施例中，模型图800还包括一个或多个类别相似性链接856。例如，如图14所示，模型图800包括场景识别模型820和以下模型中的每一个之间的类别相似性链接856：用于识别电影/影片(例如，电影/影片海报)的电影模型821，因为由场景识别模型820识别的对象“电影院”类似于由电影模型821识别的对象“电影”；以及动物模型841，因为由场景识别模型820识别的对象“动物园”类似于由动物识别模型820识别的对象“动物”。

在一个实施例中，基于分层的域选择器721可以使用规范化词语空间(例如，Word2Vec)上的词语相似性度量来生成从一个模型320识别的对象到一个或多个其它模型320识别的相似对象的类别相似性链接。

图15示出一个或多个实施例中的示例基于特征向量的域选择方法。如上所述，基于特征向量的域选择器722根据基于特征向量的域选择方法选择域。使Imagen一般地表示被包括在由运行管理器700接收的视觉数据中的图像/视频帧，其中n是正整数。在一个实施例中，基于特征向量的域选择器722被配置为：(1)对于每个图像/视频帧Imagen，利用用于特征提取的模型725(诸如包括多层(例如，层1、层2、…、层Z-1、层Z)的神经网络架构)，来提取相应的中间特征表示F(Imagen)，以及(2)通过对提取的每个中间特征表示F(Imagen)应用线性变换G[](例如，平均)，来生成视觉数据的模型特定中间表示(model specificintermediate representation，MSIR)727。在一个实施例中，MSIR 727被维护在VI管理***300的应用高速缓存726中，以供基于特征向量的域选择器722稍后使用(例如，与生成的其它MSIR进行比较)。

在一个实施例中，基于特征向量的域选择器722将视觉数据的特征表示与可用域的特征表示进行比较，并从可用域中选择具有最小距离度量的域。

在一个实施例中，如果使用云服务，则特征向量的使用提高了隐私性，因为是将特征向量发送到云服务而不是实际的图像/视频帧。

图16示出在一个或多个实施例中基于时间的域选择器723的示例实施方式。如上所述，基于时间的域选择器723根据基于时间的域选择方法选择域。使TemporalWindowx一般地表示时间上包括运行管理器700接收的视觉数据中包括的图像/视频帧的序列(即子集)的时间窗口，其中x是正整数。在一个实施例中，基于时间的域选择器723被配置为将视觉数据分割成多个时间窗口。在一个实施例中，基于时间的域选择器723被配置为针对每个时间窗口TemporalWindowx确定相应的特征表示。基于时间的域选择器723将时间窗口的特征表示与可用域的特征表示进行比较，并从可用域中选择具有最小距离度量的域。

使rTemporalWindowx一般地表示时间窗口的视觉分类符结果。在一个实施例中，基于时间的域选择器723被配置为针对每个时间窗口TemporalWindowx确定相应的视觉分类符结果rTemporalWindowx。在一个实施例中，针对每个时间窗口TemporalWindowx确定的每个视觉分类符结果rTemporalWindowx被维护在VI管理***300的应用高速缓存736中，以供基于时间的域选择器723稍后使用。

图17示出在一个或多个实施例中由并行模型运行驱动的示例应用屏幕900。在一个实施例中，相机应用161的虚拟助手生成应用屏幕900以向用户显示。如图17所示，应用屏幕900是包括相机140的相机视图901和结果卡(即，信息卡)910的示例界面。结果卡910包括相机视图901中存在的对象的视觉分类符结果911。在一个实施例中，如果相机视图901中存在的对象包括文本，则视觉分类符结果911可以包括文本的光学字符识别(opticalcharacter recognition，OCR)。

如图17所示，应用屏幕900包括一个或多个可选GUI元素，诸如但不限于以下：(1)用于调用将视觉分类符结果911翻译成所选择的语言(例如，韩语)的第一组件912，(2)用于使用手势(例如，如方向箭头A所示，向左或向右滑动)滚动多个结果卡910的第二组件913，(3)用于话语能力(例如，提供对虚拟分类符结果911的机器生成的朗读)的第三组件914，(4)用于接收用户反馈作为输入的第四组件915，以及(5)用于调用一个或多个云服务以执行与视觉分类符结果911相关的额外信息的进一步搜索的第五组件916。

图18A-18C每个示出在一个或多个实施例中用于显示多个结果卡910的另一示例应用屏幕930。具体地，图18A示出在一个或多个实施例中包括一个结果卡910的应用屏幕930。在一个实施例中，相机应用161的虚拟助手生成应用屏幕930以向用户显示。应用屏幕930是包括结果卡910的上拉(pull-up)列表931的示例界面。如图18A所示，在上拉列表931中仅显示一个结果卡910。用户可以通过向上滑动上拉列表931(如方向箭头B所示)以扩展上拉列表931或者向下滑动上拉列表931以减少/消除所示的上拉列表931来滚动/浏览上拉列表931。

图18B示出在一个或多个实施例中包括多个结果卡910的应用屏幕930。如图18B所示，响应于用户向上滑动上拉列表，应用屏幕930更新以显示额外的结果卡910。用户可以选择显示的结果卡910中的任何一个以扩展所选择的结果卡910，并查看与所选择的结果卡910相关的额外细节。

图18C示出在一个或多个实施例中包括扩展的结果卡910的应用屏幕930。如图18C所示，扩展的结果卡910可以包括与被包括在结果卡910中的虚拟分类符结果相关的额外细节和/或额外图像。

图19A-19C每个示出在一个或多个实施例中用于显示结果卡910的另一示例应用屏幕920，该结果卡910与相机140的相机视图901中存在的对象配对。具体而言，在一个或多个实施例中，图19A示出了显示与相机视图901中存在的第一对象配对的第一结果卡910的应用屏幕920。在一个实施例中，相机应用161的虚拟助手生成应用屏幕920以向用户显示。如图19A所示，应用屏幕920是示例界面，该示例界面包括相机140的相机视图901、相机视图901中存在的第一对象(对象1)的第一结果卡910、以及突出相机视图901中检测到第一对象的第一区域的第一边界框921。用户可以使用手势(例如，如方向箭头C所示，向左滑动)滚动/浏览被包括在应用屏幕920中的多个结果卡910。

图19B示出在一个或多个实施例中，显示与相机视图901中存在的第二对象配对的第二结果卡910的应用屏幕920。如图19B所示，响应于用户滑动第一结果卡910，应用屏幕920更新以显示相机视图901中存在的第二对象(对象2)的第二结果卡910，以及突出相机视图901中检测到第二对象的第二区域的第二边界框922。用户可以使用手势(例如，如方向箭头D所示，向左或向右滑动)滚动其它结果卡910(例如，返回到第一结果卡910或查看其它结果卡910)。

图19C示出在一个或多个实施例中显示扩展的第二结果卡910的应用屏幕920。如图19C所示，用户可以通过向上滑动第二结果卡910(如，方向箭头E所示)来扩展第二结果卡910，以扩展第二结果卡910并查看与所选择的结果卡910相关的额外细节。如图19C所示，扩展的第二结果卡910可以包括与被包括在第二结果卡910中的虚拟分类符结果相关的额外细节和/或额外图像。用户可以通过向下滑动扩展的第二结果卡910来消除扩展的第二结果卡910。

在一个实施例中，如果有多个结果卡910可供用户滚动/浏览，则可以基于被包括在结果卡910中的虚拟分类符结果的准确性(即置信度值)来组织结果卡910。

图20是在一个或多个实施例中用于处理视觉数据的示例过程1000的流程图。在过程块1001中，通过对包括视觉数据的输入运行与域相关联的第一集合模型来对输入中存在的一个或多个对象进行分类，其中第一集合模型中的每个模型对应于对象类别，并且每个模型被训练以生成与输入中的相应对象类别相关的视觉分类符结果，该视觉分类符结果具有指示视觉分类符结果的准确性的相关联的置信度值。

在过程块1002中，基于与第一集合模型中的每个模型的每个视觉分类符结果相关联的置信度值，聚合第一集合的视觉分类符结果。

在过程块1003中，基于聚合的第一集合视觉分类符结果以及第一集合模型和一个或多个其它模型之间的一个或多个分层关系，选择在输入上运行的第二集合模型。

在过程块1004中，基于与第二集合模型相对应的一个或多个服务质量(QoS)偏好和模型元数据信息，确定第二集合模型的运行顺序。

在过程块1005中，根据运行顺序运行第二集合模型。

在一个实施例中，过程块1001-1005可以由VI管理***300的一个或多个组件来执行，诸如运行管理器700。

图21是示出包括用于实施所公开的实施例的计算机***600的信息处理***的高级框图。计算机***600可以结合在电子设备100或服务器设备(例如，服务器200)中。计算机***600包括一个或多个处理器601，并且可以进一步包括电子显示设备602(用于显示视频、图形、文本和其它数据)、主存储器603(例如，随机存取存储器(random access memory，RAM))、存储设备604(例如，硬盘驱动器)、可移除存储设备605(例如，可移除存储驱动器、可移除存储器模块、磁带驱动器、光盘驱动器、其中存储有计算机软件和/或数据的计算机可读介质)、观看者接口设备606(例如键盘、触摸屏、小键盘、定点设备)、通信接口607(例如，调制解调器、网络接口(诸如以太网卡)、通信端口或PCMCIA插槽和卡)以及相机609。通信接口607允许软件和数据在计算机***和外部设备之间传送。***600还包括通信基础设施608(例如，通信总线、交叉条或网络)，前述设备/模块601至607连接到该通信基础设施608。

经由通信接口607传递的信息可以是诸如电子、电磁、光的信号或能够经由通信链路被通信接口607接收的其它信号的形式，其中通信链路携带信号，并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(radio frequency，RF)链路和/或其它通信信道来实施。表示这里的框图和/或流程图的计算机程序指令可以被加载到计算机、可编程数据处理装置或处理设备上，以使得在其上执行的一系列操作生成计算机实施的过程。在一个实施例中，用于过程750(图11)和过程1000(图20)的处理指令可以作为程序指令存储在存储器603、存储设备604和可移除存储设备605上，以用于处理器601运行。

已经参考方法、装置(***)和计算机程序产品的流程图示和/或框图描述了实施例。这种图示/图的每个块或其组合可以由计算机程序指令来实施。计算机程序指令当提供给处理器时产生机器，使得经由处理器运行的指令创建用于实施流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个块可以表示硬件和/或软件模块或逻辑。在替代实施方式中，块中标注的功能可以不按图中标注的顺序发生、同时发生，等等。

术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”用于一般地指诸如主存储器、辅助存储器、可移除存储驱动器、安装在硬盘驱动器中的硬盘和信号的介质。这些计算机程序产品是向计算机***提供软件的装置。计算机可读介质允许计算机***从计算机可读介质读取数据、指令、消息或消息分组以及其它计算机可读信息。例如，计算机可读介质可以包括非易失性存储器，诸如软盘、ROM、闪存、磁盘驱动器存储器、CD-ROM和其它永久存储装置。例如，它可用于在计算机***之间传输诸如数据和计算机指令的信息。计算机程序指令可以被存储在计算机可读介质中，该计算机可读介质可以指导计算机、其它可编程数据处理装置或其它设备以特定方式工作，使得存储在计算机可读介质中的指令产生包括实施流程图和/或框图的一个或多个块中指定的功能/动作的指令的制品。

如一位本领域技术人员将理解的，实施例的各方面可以具体体现为***、方法或计算机程序产品。因此，实施例的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或者组合软件和硬件方面的实施例的形式，所述形式在这里可以全部一般地被称为“电路”、“模块”或“***”。此外，实施例的各方面可以采取具体体现在其上具体体现有计算机可读程序代码的一个或多个计算机可读介质中的计算机程序产品的形式。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以是，例如但不限于，电子、磁、光、电磁、红外或半导体***、装置或设备，或前述的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下：具有一条或多条线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(erasable programmable read-only memory，EPROM或闪存)、光纤、便携式光盘只读存储器(compact disc read-onlymemory，CD-ROM)、光存储设备、磁存储设备或前述的任何合适的组合。在此档的上下文中，计算机可读存储介质可以是能够包含或存储由指令运行***、装置或设备使用或与其结合使用的程序的任何有形介质。

用于运行一个或多个实施例的各方面的操作的计算机程序代码可以以一个或多个编程语言的任意组合来编写，该一个或多个编程语言包括诸如Java、Smalltalk、C++等的面向产品的编程语言，以及诸如“C”编程语言或类似的编程语言的传统过程编程语言。程序代码可以作为独立软件包完全在观看者的计算机上运行，部分在观看者的计算机上运行，部分在观看者的计算机上运行且部分在远程计算机上运行，或者完全在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过包括局域网(local area network，LAN)或广域网(wide area network，WAN)的任何类型的网络连接到观看者的计算机，或者进行到外部计算机的连接(例如，通过使用互联网服务提供商的互联网)。

上面参考方法、装置(***)和计算机程序产品的流程图示和/或框图描述了一个或多个实施例的各方面。应当理解，流程图示和/或框图的每个块，以及流程图示和/或框图中的块的组合，可以由计算机程序指令来实施。这些计算机程序指令可以被提供给专用计算机或其它可编程数据处理装置以产生机器，使得经由计算机的处理器或其它可编程数据处理装置运行的指令创建用于实施流程图和/或框图的一个或多个块中指定的功能/动作的装置。

这些计算机程序指令也可以被存储在计算机可读介质中，该计算机可读介质可以指导计算机、其它可编程数据处理装置或其它设备以特定方式工作，使得存储在计算机可读介质中的指令产生包括实施流程图和/或框图的一个或多个块中指定的功能/动作的指令的制品。

计算机程序指令也可以被加载到计算机、其它可编程数据处理装置或其它设备上，以使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，从而产生计算机实施的过程，使得在计算机或其它可编程装置上运行的指令提供用于实施流程图和/或框图的一个或多个块中指定的功能/动作的过程。

图中的流程图和框图示出了根据各种实施例的***、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这点上，流程图或框图中的每个块可以表示模块、分段或指令部分，其包括用于实施(多个)指定逻辑功能的一个或多个可运行指令。在一些替代实施方式中，块中标注的功能可以不按图中标注的顺序来发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时运行，或者有时可以以相反的顺序运行所述块。还将注意到，框图和/或流程提示的每个块、以及框图和/或流程图示中的块的组合，可以由执行指定功能或动作或者进行专用硬件和计算机指令的组合的基于专用硬件的***来实施。

除非明确声明，否则权利要求中对单数元素的引用并不意味着“一个且仅一个”，而是“一个或多个”。本领域普通技术人员当前已知或以后将知道的上述示例性实施例的元素的所有结构和功能等同物都意图由本权利要求书涵盖。除非使用短语“用于……的装置”或“用于……步骤”明确叙述了权利要求元素，否则这里的权利要求元素不应根据35U.S.C.第112节第6段的规定来解释。

这里使用的术语仅用于描述特定实施例的目的，并不意图限制本发明。如这里所使用的，除非上下文另有明确指示，单数形式“一”、“一个”和“该”意图也包括复数形式。还应当理解，术语“包括”和/或“包含”当在本说明书中使用时，指定所述特征、整数、步骤、操作、元素和/或组件的存在，但是不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或它们的组的存在或添加。

以下权利要求中所有装置或步骤加功能元素的相应结构、材料、动作和等同物意图包括用于结合具体要求保护的其它要求保护的元素执行功能的任何结构、材料或动作。为了说明和描述的目的，已经给出了实施例的描述，但是并不意图是彻底的或者限于所公开形式的实施例。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。

尽管已经参考其某些实施例的版本描述了该实施例；然而，其它版本也是可能的。因此，所附权利要求的精神和范围不应限于这里包含的优选版本的描述。

Claims

1.一种通过使用视觉智能来识别对象的方法，包括：

通过在输入上运行与域相关联的第一集合模型来对在包括视觉数据的输入中存在的对象进行分类，其中所述第一集合模型中的每个模型对应于对象类别，并且每个模型被训练以生成与所述输入中的相应对象类别相关的视觉分类符结果，所述视觉分类符结果具有指示视觉分类符结果的准确性的相关联的置信度值；以及

基于与所述第一集合模型中的每个模型的每个视觉分类符结果相关联的置信度值来聚合第一集合的视觉分类符结果，以从第一集合模型当中选择第一模型，其中，通过基于第一模型的视觉分类符结果和被链接到所选择的第一模型的类别相似性链接来激活第二集合模型用于在所述输入上运行，所述对象被进一步分类，并且一个或多个视觉分类符结果被返回到在电子设备上运行的应用以供显示，

其中，基于指示由第二集合模型中的每一个模型识别的对象与由第一模型识别的对象之间的相似性的相似性度量，所述类别相似性链接被执行，

其中，当运行第一集合模型时，第一集合模型同时处于运行状态，而且，当运行第二集合模型时，第二集合模型同时处于运行状态。

2.根据权利要求1所述的方法，进一步包括：

基于与所述第二集合模型相对应的一个或多个服务质量QoS偏好和模型元数据信息来确定同时运行所述第二集合模型；以及

同时运行所述第二集合模型。

3.根据权利要求2所述的方法，其中，所述一个或多个QoS偏好包括以下中的至少一个：可在所述电子设备上同时运行用于所述第二集合模型的运行的引擎数量的预定阈值、用于所述第二集合模型的运行的一个或多个资源要求、或者指示当前被加载到一个或多个引擎中的一个或多个模型的信息。

4.根据权利要求2所述的方法，其中，与所述第二集合模型相对应的所述模型元数据信息包括以下中的至少一个：所述第二集合模型的一个或多个模型优先级，或者所述第二集合模型的一个或多个模型驻处。

5.根据权利要求1所述的方法，进一步包括：

基于所述输入和域选择方法来选择域，

其中所选择的域与可选择用于所述输入上的运行的至少一个模型相关联。

6.根据权利要求5所述的方法，其中，所述域选择方法是基于分层的域选择方法，并且选择域包括：

基于多个模型之间的一个或多个分层关系来选择域，其中所述多个模型基于与所述多个模型相对应的多个对象类别之间的分层关系被分层地组织到分层结构中，所述多个模型包括第一集合模型。

7.根据权利要求5所述的方法，其中，所述域选择方法是基于特征向量的域选择方法，并且选择域包括：

维护第一集合域的第一集合的特征表示，

其中第一集合表示中的每个特征表示对应于所述第一集合域中的域；以及

对于被包括在所述输入中的每一帧：

从所述帧中提取所述帧的特征表示；以及

通过比较所述帧的特征表示与所述第一集合的特征表示中的每个特征表示来从所述第一集合域中选择域，所选择的域具有最接近于所述帧的特征表示的相应特征表示。

8.根据权利要求5所述的方法，其中，所述域选择方法是基于时间的域选择方法，并且选择域包括：

维护第一集合域的第一集合的特征表示，

其中第一集合表示中的每个特征表示对应于所述第一集合域中的域；

将所述输入分割成多个时间窗口，其中每个时间窗口包括被包括在所述输入中的帧序列；以及

对于每个时间窗口：

从所述时间窗口中提取所述时间窗口的特征表示；以及

通过比较所述时间窗口的特征表示与所述第一集合的特征表示中的每个特征表示来从所述第一集合域中选择域，所选择的域具有最接近于所述时间窗口的特征表示的相应特征表示。

9.根据权利要求5所述的方法，进一步包括：

基于以下至少一个来选择与所选择的域相关联的一个或多个模型以激活用于所述输入上的运行：可在电子设备上同时运行的引擎数量的预定阈值、与所选择的域相关联的所有模型的运行时间资源要求、指示当前活跃的一个或多个模型的信息、指示与所选择的域相关联的所有模型中的哪些必须在运行过程之间保持活跃的信息、指示与所选择的域相关联的所有模型中的哪些必须在电子设备上运行的信息、或者指示与所选择的域相关联的所有模型中的哪些必须在云服务中运行的信息。

10.一种通过使用视觉智能来识别对象的***，包括：

至少一个处理器；和

存储指令的非暂时性处理器可读存储器设备，所述指令当由所述至少一个处理器运行时，使得所述至少一个处理器执行包括以下的操作：

通过在输入上运行与域相关联的第一集合模型来对在包括视觉数据的输入中存在的对象进行分类，其中第一集合模型中的每个模型对应于对象类别，并且每个模型被训练以生成与输入中的相应对象类别相关的视觉分类符结果，所述视觉分类符结果具有指示视觉分类符结果的准确性的相关联的置信度值；以及

11.根据权利要求10所述的***，其中，所述操作进一步包括：

同时运行所述第二集合模型。

12.根据权利要求10所述的***，其中，所述操作进一步包括：

基于所述输入和域选择方法来选择域，

其中所选择的域与可选择用于在所述输入上运行的至少一个模型相关联。

13.根据权利要求12所述的***，其中，所述域选择方法是基于分层的域选择方法，并且选择域包括：

14.根据权利要求12所述的***，其中，所述域选择方法是基于特征向量的域选择方法，并且选择域包括：

维护第一集合域的第一集合的特征表示，

对于被包括在所述输入中的每一帧：

从所述帧中提取所述帧的特征表示；以及

15.根据权利要求12所述的***，其中，所述域选择方法是基于时间的域选择方法，并且选择域包括：

维护第一集合域的第一集合的特征表示，

对于每个时间窗口：

从所述时间窗口中提取所述时间窗口的特征表示；以及

16.根据权利要求12所述的方法，其中所述操作进一步包括：

17.一种非暂时性计算机可读存储介质，包括执行通过使用视觉智能来识别对象的方法的指令，所述方法包括：

通过在输入上运行与域相关联的第一集合模型来对包括视觉数据的输入中存在的对象进行分类，其中所述第一集合模型中的每个模型对应于对象类别，并且每个模型被训练以生成与所述输入中的相应对象类别相关的视觉分类符结果，所述视觉分类符结果具有指示视觉分类符结果的准确性的相关联的置信度值；以及