CN103069415B

CN103069415B - 用于图像处理的计算机实施的方法、计算机程序产品和计算机***

Info

Publication number: CN103069415B
Application number: CN201180039649.9A
Authority: CN
Inventors: G·卡普佐; M·伯希尼; F·玛莫利蒂
Original assignee: Accenture Global Services GmbH
Current assignee: Accenture Global Services GmbH
Priority date: 2010-07-02
Filing date: 2011-06-30
Publication date: 2016-10-26
Anticipated expiration: 2031-06-30
Also published as: US20130170738A1; CA2804230A1; EP2402867B1; CA2804230C; WO2012000675A1; EP2402867A1; CN103069415A; US9349077B2; EP2588974A1

Abstract

本说明书具体涉及一种用于图像处理的计算机实施的方法、计算机程序产品和计算机***，所述方法包括：‑接收至少一个用户图像；‑通过如下操作识别用户图像的多个图像分类元素：‑‑向用户图像分配初始分类，其中初始分类基于与用户图像相关联的时域数据；‑‑确定至少一个全局描述用户图像的内容的图像标签；‑‑针对每个图像标签计算标签正确性值；‑‑识别用户图像的至少一个图像成分；‑‑针对每个图像成分计算成分正确性值；‑‑利用标签正确性值和成分正确性值使图像标签和图像成分相关，由此识别相关的图像标签和相关的图像成分；‑‑应用规则以确定用户图像的类别，其中规则基于如下至少一项：时域数据、相关的图像标签和相关的图像成分；以及‑产生包括以下图像分类元素的用户图像的最终分类：初始分类、相关的图像标签、相关的图像成分和类别。

Description

用于图像处理的计算机实施的方法、计算机程序产品和计算机***

技术领域

本申请总体上涉及用于图像处理的计算机实施的方法、计算机程序产品和计算机***。

背景技术

一篇现有技术文献(US 2009/0161962A1)公开了一种将在共同位置中捕获的图像分组的方法，包括：接收图像的汇集；将图像分类成事件的集合，其中该汇集中的每个图像属于不多于一个事件；分析来自每个事件的图像的背景区域以确定代表该事件的一个或者多个特征；以及比较来自至少两个事件的特征以确定哪些事件在共同位置中发生。

另一篇现有技术文献(US 2003/0108241A1)公开了一种用于提供基于情绪的虚拟相册的方法和***，该基于情绪的虚拟相册基于观看者的感测到的情绪提供相片。

然而，以上两篇现有技术文档并未提供以下技术效果：

1.对图像标签与图像成分的校正消除相似标签；以及

2.用户参与对象加标签并不是必须的，因为对成分和标签的校正可以用于精确地对图像分类。

发明内容

根据一方面，提供了一种用于图像处理的计算机实施方法。该方法可以包括接收至少一个用户图像。该方法还可以包括通过向用户图像分配初始分类来识别用户图像的多个图像分类元素，其中初始分类基于与用户图像相关联的时域数据。识别用户图像的多个图像分类元素还可以包括确定全局性描述用户图像内容的至少一个图像标签以及针对每个图像标签计算标签正确性值。识别用户图像的多个图像分类元素还可以包括识别用户图像的至少一个图像成分并针对每个图像成分计算成分正确性值。识别用户图像的多个图像分类元素还可以包括利用所述标签正确性值和所述成分正确性值使所述图像标签和所述图像成分相关，由此识别相关的图像标签和相关的图像成分。识别用户图像的多个图像分类元素还可以包括应用规则以确定所述用户图像的类别，其中所述规则基于如下至少一项：所述时域数据、所述相关的图像标签和所述相关的图像成分。该方法还可以包括产生包括以下图像分类元素的用户图像最终分类：所述初始分类、所述相关的图像标签、所述相关的图像成分和所述类别。

识别用户图像的多个图像分类元素还可以包括接收与所述图像相关联的地理位置；以及确定与所述地理位置相关联的地名。所述最终分类还可以包括所述地名。

识别用户图像的多个图像分类元素还可以包括基于所述时域数据和所述地理位置确定事件。所述最终分类还可以包括所述事件。

识别用户图像的多个图像分类元素还可以包括从时域数据导出天气指示。所述最终分类还可以包括所述天气指示。

识别用户图像的至少一个图像成分还可以包括识别多个图像成分。此外，识别用户图像的多个图像分类元素还可以包括将所述图像成分分类与所述多个图像成分的第一图像成分相关联。所述最终分类还可以包括所述图像成分分类。

而且，第一图像成分可以被识别为面部。因此，该方法还可以包括将姓名与面部相关联。在这种情况下，该方法还可以包括基于面部表情确定心情。所述最终分类还可以包括姓名和心情。

在一些情况下，该方法还包括验证所述初始分类。此外，该方法可以包括验证所述用户图像的最终分类，其中接收训练信息以产生后续图像的后续最终分类。

该方法还可以包括基于所述初始分类将所述用户图像与存储的图像相关联；和/或基于所述最终分类将所述用户图像与存储的图像相关联。

接收至少一个用户图像还可以包括接收多个用户图像。在这种情况下，该方法还可以包括从图像共享网络检索多个用户图像中的至少一个。

该方法还可以包括显示多个图像分类元素，其中根据与图像分类元素相关联的多个用户图像的数量显示每个图像分类元素。而且，该方法可以包括接收从所述多个图像分类元素选择选定的图像分类元素的用户输入；以及显示从所述多个用户图像选择的图像的预览，其中所选的图像分类元素包括在所选图像的最终分类中。

此外，该方法还可以包括接收包括至少一个查询项的查询，并将查询项匹配到匹配分类元素。该方法还可以包括从多个用户图像检索匹配图像。匹配分类元素可以包括在匹配图像的最终分类中。

此外，多个用户图像可以包括查询图像和响应图像。在这种情况下，该方法还可以包括接收包括查询图像的查询。而且，该方法可以包括匹配所述查询图像的分类元素与所述响应图像的分类元素；以及响应于所述查询检索响应图像。

也可以将该方法实现为一种包括计算机可读指令的计算机程序产品，所述计算机可读指令在计算机***上加载和执行时，令所述***执行根据上述步骤的操作。

根据另一方面，提供了一种可操作为处理图像的客户端-服务器***。该***可以包括客户端。客户端可以包括接收模块，可操作为接收用户图像。客户端还可以包括客户端图像处理模块，可操作为向所述用户图像分配初始分类，其中所述初始分类基于与所述用户图像相关联的时域数据。该***还可以包括服务器。服务器可以包括服务器通信模块，可操作为从所述客户端接收所述用户图像。可以将服务器通信模块实现为网络服务模块。服务器还可以包括情景检测器，可操作为识别全局描述所述用户图像的图像标签并进一步可操作为计算用于所述图像标签的标签正确性值。而且，该服务器可以包括对象识别器，可操作为识别所述用户图像的图像成分，并进一步可操作为计算用于所述图像成分的成分正确性值。此外，该服务器可以包括相关模块，可操作为利用所述标签正确性值和所述成分正确性值对所述图像标签和所述图像成分进行相关，还可操作为识别相关的图像标签和相关的图像成分。此外，该服务器可以包括分类模块，可操作为应用规则以确定所述用户图像的类别，其中所述规则基于如下至少一项：所述时域数据、所述相关的图像标签和所述相关的图像成分。而且，该服务器可以包括最终分类模块，可操作为基于所述初始分类，所述相关的图像标签，所述相关的图像成分和所述类别产生最终分类。分类模块和最终分类模块可以是语义扩展器的一部分。所述服务器通信模块还可操作为向所述客户端发送如下内容：所述最终分类和对所述用户图像的引用。

技术定义

“嵌入式***”可以被理解为设计成执行一种或几种专门功能的计算机***或装置。可以将嵌入式***与通用计算机***，例如桌面计算机PC相比较。

网络附属存储(NAS)可以被理解为提供文件层次计算机数据存储的嵌入式***范例。NAS可以连接到计算机网络并提供对异构网络客户端的访问。此外，NAS可以包括一个或多个硬盘，其中可以将硬盘布置成廉价/独立磁盘冗余阵列(RAID)。

“机顶盒”(STB)可以指嵌入式***的另一范例。STB可以操作为连接到显示装置(例如电视机或计算机)和外部信号源。STB可以操作为将从外部信号源接收的信号转换成稍后在显示装置上显示的内容。

“集成电路”(也称为微电路、微芯片或芯片)可以指在半导体材料的薄衬底表面中制造的微型化电子电路。

“数字信号处理器”(DSP)可以理解为针对特定操作，可能包括信号的处理(例如变换)而优化的专用微处理器。与通用微处理器相比，DSP可以具有更低的硬件复杂性、更少的功能、更低成本、更好性能和降低的功耗。

“片上***”(SoC)可以指在单个集成电路上集成计算机***的部件。为了让SoC实现完整的功能，可能需要外加存储器和/或周边设备。SoC可以包括DSP。

“数字媒体处理器”(DMP)也称为媒体处理器，可以被理解为被设计成实时(或接近实时)处理数据流(例如，像视频或音频的媒体)的SoC。DMP可以包括一个或多个DSP、存储器接口、媒体接口和音频/视频加速器。DMP可以能够对各种类型的媒体(例如图像)和媒体流进行解码、转码(从一个格式转换成另一种)、编码和转速(从较高比特率向较低比特率缩放)。

“图像”可以理解为与对象具有相似外观的人工制品。在下文中，术语图像是指静止或静态图像。可以对图像进行栅格化和/或编码。图像的范例包括图片和照片。活动图像将被称为视频。

附图说明

图1示出了嵌入式***的部件。

图2示出了可操作为处理图像的客户端-服务器***的示范性架构的高层次视图。

图3示出了客户端-服务器***的客户端部分的另一种架构。

图4示出了客户端-服务器***的服务器部分的另一种架构。

图5示出了利用客户端-服务器***识别图像分类元素的示范性方法。

图6示出了由图像处理***执行的图像搜索操作。

图7示出了用于识别图片的图像分类元素的过程的泳道图。

图8示出了为了对从图像共享网络检索的图像进行注释和索引而可以执行的步骤的泳道图。

图9示出了为了搜索图片而可以执行的步骤的泳道图。

具体实施方式

在下文中，将参考附图给出范例的详细描述。应当理解，可以对范例做出各种修改。具体而言，一个范例的要素可以在其他范例中组合以及使用，以形成新的范例。

本说明书中描述的主题可以被实现为方法或在形式可能为一个或多个计算机程序产品的装置上实现。可以在数据信号中或在机器可读介质上实现说明书中描述的主题，其中介质体现在一个或多个信息载体中，例如半导体存储器或硬盘中。这样的计算机程序产品可以让数据处理设备执行说明书中所述的一个或多个操作。

此外，也可以将说明书中描述的主题实现为包括处理器和耦合到处理器的存储器的***。存储器可以编码有一个或多个程序以让处理器执行说明书中描述的一个或多个方法。可以利用各种机器实现说明书中描述的其他主题。

在下面的示范性附图和描述中阐述了一种或多种实施方式的细节。从描述、附图和权利要求将明了其他特征。

图1示出了嵌入式***100的部件，包括芯片组102。在具体范例中，芯片组102可以是SoC，例如32位MIPS 4KeC，包括音频/视频硬件加速器。在另一个范例中，芯片组102可以是DMP，例如德州仪器TMS320DM6446，包括高级RISC架构机器(ARM)ARM926EJ-S CPU(RISC是指简化指令集计算机)。芯片组102可以是微处理器或微控制器。其他实施方式也是可能的。

嵌入式***100可以实现为NAS，其向网络上的装置提供基于文件的数据存储服务。或者，嵌入式***100可以是网络访问网关或住宅网关，向用户网络(例如，包括一个或多个计算机的家庭网络)提供因特网连接。在这种情况下，嵌入式***100也可以配置成提供对因特网之外网络的访问。在具体范例中，嵌入式***100可以是异步数字用户线路(ADSL)调制调解器。支持其他形式DSL的调制调解器也是可能的。

嵌入式***100也可以实现为STB或移动装置。

嵌入式***100可以包括用户接口，例如图形用户接口，用于管理嵌入式***100。此外，嵌入式***100可以运行服务，例如如下的应用，该应用设计成帮助用户执行一个任务或一个模块，使得另一装置能够连接到嵌入式***100。能够运行于嵌入式***100上的服务可以与提供对连接到嵌入式***100的网络的访问相关或不相关。图形用户接口也可以用于管理或控制嵌入式***100上的应用。

嵌入式***100的一些实施方式包括非易失性存储器，例如闪速存储器104。或者，嵌入式***100可以包括另一种形式的非易失性存储器。嵌入式***100的非易失性存储器可以是电子可寻址的。在一些情况下，嵌入式***100的非易失性存储器可以是另一种形式的固态存储器，例如硅-氧化物-氮化物-氧化物-硅(SONOS)存储器或非易失性随机存取存储器。其他类型的非易失性存储器也是可能的。

闪速存储器104可以固定到嵌入式***100上。具体而言，可以将闪速存储器104内置于芯片中，可以将芯片连线到嵌入式***100。闪速存储器104的内容可以称为固件。

在一些情况下，闪速存储器104存储的固件可以包括用于嵌入式***100的操作***。闪速存储器104存储的固件也可以包括能够运行于嵌入式***100上的服务以及用于管理嵌入式***100的图形用户接口。具体而言，操作***可以是Linux，例如包括uClibc库的Linux内核2.6。更具体而言，可以利用具有Linux内核2.6.1的MIPS的Debian Etch实现操作***。操作***可以剥离掉不必要的成分，可以仅包括管理嵌入式***100必需的东西。应用可以适于执行联网任务，例如路由、防火墙维护、域名服务(DNS)和动态主机配置协议(DHCP)。

在一些实施例中，操作***允许为要增加的其他装置的支持服务(例如驱动程序)。例如，操作***可以支持根据需要向操作***内核链接更多功能。换言之，可能向操作***链接动态可加载模块。因此，向固件链接动态可加载模块可以理解为向嵌入式***100的操作***内核链接动态可加载模块。可以使用不同的内核模块支持不同的嵌入式***架构和操作***内核。

除了应用之外，能够在嵌入式***100上执行的服务可以包括内核模块、装置驱动程序或扩展嵌入式***100的功能的其他软件。

嵌入式***100可以包括最少硬件，例如执行基本联网任务所需的硬件，而没有其他硬件，以便降低成本。此外，可以通过单片方式，即作为单个闭合块在嵌入式***100上存储闪速存储器104的内容(例如，操作***和应用)。

例如，可以将闪速存储器104的内容作为单个闭合块加以存储，例如作为二进制映像或压缩二进制映像。换言之，闪速存储器104可包含二进制固件映像或压缩的二进制固件映像。这可以减少嵌入式***100上需要的闪速存储器104的量，从而降低生产嵌入式***100的成本。此外，在嵌入式***100上使用二进制映像可能对于嵌入式***100的制造者或维护者是有利的。此外，使用二进制映像可以使得用户更新嵌入式***100更加简单。

可以将二进制映像理解为包含表示存储介质，例如闪速存储器104的完整内容和结构。可以在单个文件中存储二进制映像。

不过，将闪速存储器104的内容作为二进制映像存储可以具有这样的影响：更新嵌入式***100上存储的应用的唯一方式是执行完整的固件更新，如现有技术方法中执行的那样。换言之，没有方法独立地更新单个应用。相反，即使对嵌入式***100上一个应用的小改变，也需要完整的固件更新。

对于嵌入式***100上软件的任意更新，执行完整固件更新可能是困难或不希望的。完整固件更新可能导致使用更多带宽，可能的误差可能具有更严重后果，完整固件更新可能导致中断嵌入式***100的操作。例如，下载完整的固件，以便对单个应用做出小的改变可能比下载应用中改变的一部分或应用自身需要更多带宽。此外，完整固件更新可能失败，导致嵌入式***100无法使用。而且，完整固件更新常常导致嵌入式***100的运行中断，因为通常需要重新启动嵌入式***100。

嵌入式***100还可以包括易失存储器，例如随机存取存储器(RAM)106。

此外，嵌入式***100可以包括能够连接到外部网络的访问模块，例如电话端口108。根据外部网络的类型，访问模块也可以是光纤端口或以太网端口。外部网络可以是因特网或另一网络。

嵌入式***100也可以包括能够连接到局域网的访问模块，例如以太网端口112。嵌入式***100还可以支持无线访问，例如，利用无线保真(WiFi)。局域网可以是家庭网络或内部网络或另一种网络。

此外，嵌入式***100可以包括复位按钮114，其可用于使嵌入式***100返回标准或默认配置。嵌入式***100还可以包括电力连接器116，其可用于将嵌入式***100连接到电源。

此外，嵌入式***100可以包括硬盘118。硬盘118可以实现为RAID。

图2示出了可操作为处理图像的客户端-服务器***的示范性架构的高层次视图。***可以包括客户端202和服务器204。客户端202可以在嵌入式***100上执行。或者，可以在通用计算机或另一种适当的计算装置上执行客户端202。可以在一个或多个通用计算机上执行服务器204。客户端202可以包括若干模块，例如实现为图形用户接口210的呈现模块、客户端图像处理模块212、客户端存储器214和客户端通信模块216。客户端202可以向服务器204发送图像，还可以处理用户请求。例如，客户端202可以操作为接收图像。从用户接收的图像，例如由客户端202接收的图像，可以称为用户图像。

客户端图像处理模块212可以包括控制客户端操作并管理GUI210和客户端存储器214之间交互的功能。客户端图像处理模块212还可以操作为对要由服务器204分析的图像执行初步操作，并方便图像的人工注释。此外，客户端图像处理模块212可以操作为管理图像检索操作，例如浏览图像和搜索图像。

可以使用客户端存储器214存储图像。也可以使用客户端存储器214存储由服务器204提取的图像分类元素(也称为图像元数据)。此外，客户端202可以操作为基于与图像相关联的时域数据向图像分配初始分类。时域数据可以是生成图像的时间。例如，如果图像是图片，时域数据可以是指拍摄图片的时间。图像的初始分类可以指由客户端202执行的分类。

客户端202可以利用SOAP协议(例如，如在“SOAP Version 1.2Part 1：Messaging Framework”(Second Edition)W3CRecommendation 27April 2007中指定的，可以在如下地址获得：http://www.w3.org/TR/soap12-Part1/)，利用超文本传输协议(http)与服务器204通信。

可以利用一个或多个应用服务器实现服务器204。

协调器218可以执行工作流程管理功能。具体而言，协调器218可以调用服务器204的其他模块以处理图像。协调器218协调图像和语义处理模块220元件之间的交互作用，由此能够进行图像相关和数据丰富。具体而言，协调器218可以通过使信息相关并丢弃在组合中被分析时无意义的结果来改善其他模块的可靠性。参考图4更详细地描述协调器218。

图像和语义处理模块220可以包括服务器204的大部分功能。具体而言，图像和语义处理模块220可以包括图像分割功能，以分割图像并提取图像分类元素。示范性图像分类元素是图像成分，即图像的一部分，例如大海、沙滩、人或树。可以利用图像分割算法提取(即识别)图像成分。图像成分也可以称为对象或段。图像分类元素的其他范例包括在全局识别图像的标签、与图像相关联的时域数据、图像的类别以及图像成分的分类。

图像分类元素还可以包括低层次图像信息，例如图像频谱、颜色变体或强度，以及更复杂的高层次图像信息，例如图像成分、面部、符号和地理特征。低层次信息可以用于基于内容的图像检索(CBIR)，例如范例搜索查询。可以通过发现类似于所提供图像的图像来执行范例搜索查询；提供的图像也可以称为查询图像。例如，在范例查询中，用户可以利用图形用户接口210显示图像，并请求类似于所显示图像的所有图像。也可以基于一组图像进行范例搜索查询。可以使用高层次图像信息进行基于注释的图像检索。

图示注释(也称为图像标签)是图像分类元素的范例。也可以将图像注释理解为描述图像内容的词语。

图像和语义处理模块220也可以确定图像的最重要成分，可能基于图像中的色彩特性的组合，以及所示的对象、纪念物、人、面部和面部表情。用于确定图像最重要成分的技术可以包括提取低层次特征、图像结构、颜色分布、图像段、检测的形状、折点、面部识别和边缘检测。图像和语义处理模块220可以包括标签识别模块和成分识别模块。

此外，从图像提取的分类元素可以与对图像的引用一起被图像和语义处理模块220存储。可以将与图像相关联的所有分类元素称为图像的最终分类。可以由服务器204执行最终分类。最终分类可以基于初始分类。

可以向客户端202发回最终分类和对图像的引用。图像和语义处理模块220可以包括收集图像注释并利用来自语义处理的更多信息丰富图像注释的功能。可以将这种更多信息称为语义信息或语境信息。利用更多信息丰富图像注释可能涉及使用本体论和/或词典。根据具体范例，可以通过应用语义规则以对特定图像分类为诸如暑假，丰富利用特定图像注释(例如大海、海滩、人、树)注释的特定图像。于是，继续该范例，利用语义信息丰富特定图像可能涉及基于分配给图像成分的图像注释向特定图像分配类别。

图像和语义处理模块220可以使图像分割、自动图像注释和多种类型图像搜索技术能够集成，允许利用图像自身的语义分析来丰富图像标签。这样可以方便响应于用自然语言表达的用户查询(即，不利用预定义的术语或查询)检索图像。因为图像和语义处理模块220的缘故，用户无需向图形用户接口210中输入关键字，而是能够利用人类语言的表达请求图像。图像和语义处理模块220可以分析用户查询，例如，通过从用户查询的术语导出一个或多个概念并向图像分类元素(例如，图像注释)匹配导出的概念。图像和语义处理模块220还可以将从用户查询导出的查询概念与从图像分类元素导出的图像概念匹配。

图像和语义处理模块220可以是图像处理***中最复杂的部分。而且，可以将图像和语义处理模块220实现为能够从用户获得反馈以改善其结果的学习机。例如，可以利用支持矢量机实现图像和语义处理模块220。支持矢量机(SVM)可以被理解为能够用于分类的一组相关受监督学习方法。可以为SVM提供一组训练范例，其每个都被标记为属于两个类别之一。然后可以使用训练算法构建模型，模型判断新范例落在一个类别还是另一个类别中。训练范例可以被理解为训练数据的子集。

服务器存储器221可以操作为存储图像信息，例如图像分类元素和对关联图像的引用。例如，服务器存储器221可以包括地理位置信息和地名之间的映射，从事件到地理位置和时域数据的映射，感兴趣点的列表，语义概念，训练数据，用户账户信息等。可以通过若干方式获得地理位置信息。例如，可以通过与照相机集成的GPS装置、独立的GPS装置捕获，或者可以由用户人工输入地理位置信息。

网络服务模块222可以方便客户端202对服务器204的访问。网络服务模块222还可以包括网络服务器和服务器通信模块。在一些情况下，可以将协调器218实现为网络服务模块222的一部分。

图像和语义处理模块220还可以包括社区爬虫模块(未示出)，其可操作为从图像共享网络，即方便共享图像的网络，检索内容。图像共享网络可以是社交网络，例如Facebook(Facebook是FacebookInc.的商标)。在一些情况下，可以将社区爬虫实现为社交网络适配器的一部分。图像共享网络也可以是照片共享网络，例如GooglePicasa(Google和Picasa是Google Corporation的商标)、flickr或Kodak Gallery(Kodak和Kodak Gallery是Kodak Corporation的商标)。具体而言，网络服务模块222的适配器部件可以操作为从用户注册的社交网络(SN)的相册收集图像，并对收集的图像与客户端存储器214中存储的图像一起进行编索引。

有利地，在用户搜索图像时，用户无需访问多个账户(例如社交网络账户)，而是能够利用图形用户接口210搜索图像。因此，客户端202和服务器204将检索与用户搜索匹配的所有图像，不论图像的存储位置在哪里。于是，在单个视图中实现来自不同源的内容。

此外，协调器218可以被配置成协调涉及服务器204的所有通信流。这可以改善服务器204的可缩放性和模块性。具体而言，图像和语义处理模块220可以实现为闭合专有***。因此，利用协调器218，能够向图像处理***中结合新模块而不修改图像和语义处理模块220；仅协调器218会受到影响。

在一些情况下，可以利用客户端存储器214存储大量图像。客户端202可以连接到显示装置，例如电视机，以便显示所存储图像的目录，图像被自动按类别组织。可以利用提取的图像分类元素进行自动分类。此外，可以使用图形用户接口210利用各种方法，例如，使用自然语言查询或上述范例查询搜索图像。

此外，服务器204可以为多个用户，例如家庭网络社区处理图像并存储图像分类元素。可能结合其他应用，例如相册服务，用户可能能够利用与客户端202交互从家庭网络社区的各成员检索照片。服务器204可以包括访问列表，以确保用户仅访问被授权访问的图像。

图3示出了根据公开的特定实施例的客户端202的另一种架构。该架构与图2所示的相比，提供了客户端202更详细的外观。该架构包含多个模块。

图形用户接口(GUI)210可以使用户能够与客户端202交互。在一些情况下，GUI 210可以取决于客户端202的硬件实现。例如，如果将客户端202实现为NAS或网络访问网关，可以将GUI 210实现为一组可以通过以太网端口112访问的动态网页。如果将客户端202实现为STB，可以将GUI 210实现为要显示于电视机上并通过遥控器控制的图形应用。

客户端通信模块216可以管理与服务器204的通信。具体而言，通信模块216可以使用SOAP协议作为网络服务样式的一部分，例如，HTTP上的扩展标记语言(XML)请求。

客户端202也可以包括应用逻辑302。可以使用应用逻辑302，通过管理GUI 210和客户端202其他模块之间的交互来控制客户端202上的操作。

此外，客户端202可以包括预处理器304。预处理器304能够对图像执行预备操作。具体而言，预处理器304可以包括初始分类模块，其可操作为向图像分配初始分类。预处理器304执行的分类可以充当服务器204执行的进一步分类的依据。换言之，图像的初始分类可以充当图像最终分类的依据。

预处理器分配的初始分类可以基于与图像相关联的时域数据(例如，时间戳，包括生成图像的年、月、日)。例如，如果图像为图片，可以从拍摄图片的日期导出图片的初始分类。

在一些情况下，将接收的图像时间戳与先前存储图像的时间戳比较。先前存储的图像可以与一个或多个事件相关联，其中每个事件可以指期间生成多个图像的发生。事件的范例包括个人事件，例如暑假、生日或周年纪念。事件还可以指公众知道的事情，例如啤酒节。

如果发现接收到的图像时间戳充分接近先前存储图像之一的时间戳，也可以将与先前存储图像相关联的事件与接收的图像相关联。例如，如果接收的图像和先前存储图像是彼此相对在三天内拍摄的，就可以将接收的图像和先前存储图像与同一事件相关联。此外，也可以将与事件相关联的图像分类元素与接收的图像相关联。如果接收的图像时间戳不是充分接近任何先前存储图像的时间戳，可以为接收的图像生成新的事件。如果接收到多个图像，且多个图像具有充分彼此接近的关联时间戳，那么可以将多个图像与同一事件相关联。

因此，向接收的图像分配初始分类可以包括将接收的图像与先前存储图像相关联，即将接收的图像和先前存储图像与同一事件相关联。

例如，Alice已经使用图像处理***生成了与Alice和Bob的暑假相关联的用户图像的最终分类。图像具有关联的时域数据，其指示2009年8月1日和15日之间的日期。最终分类包括具有诸如“假期、夏季、大海、Capri、Alice、Bob”注释的相关图像成分。于是，每个图像可以具有多个图像成分和多个图像注释。

继续该范例，Bob向Alice发送他的暑假图片，Alice将Bob的图片上载到客户端202。预处理器304判定与Bob的图片相关联的时域数据指示2009年8月1日和15日之间的日期。预处理器304可以向Bob的图片分配初始分类，其包括针对Alice的图片产生的最终分类的图像分类元素。分配给Bob图片的初始分类可以为服务器204提供用于分析和歧义消除的起点。例如，如果在识别图像分类元素期间，图像处理***不能区分Bob和另一个人，***可以排除另一个人，因为这组图片是与Alice和Bob的假期关联的。

于是，通过将新识别的图像成分，例如识别的面部，与先前存储的最终分类相关，可以补偿特定模块，例如面部识别模块中的限制，这可能是有利的。

可以通过向用户提供初始分类结果来验证初始分类。用户可以接受初始分类或将接收的图像与另一事件相关联。而且，用户可以生成新事件并将接收的图像与新事件相关联。一旦进行验证，就可以在图像存储器306中存储接收的图像。可以从图像存储器306中检索上文提到的先前存储图像。

客户端202还可以包括注释工具308。注释工具308可用于方便图像的人工标记。换言之，注释工具308可用于将说明项与图像关联。可以在初始分类之前、初始分类之后、最终分类之前或最终分类之后使用注释工具308。可以由服务器204使用通过注释工具308获得的输入。

图像检索模块310可以使用户能够从图像存储器306获得图像。具体而言，图像检索模块310可以提供几种方式浏览图像。例如，可以使用以下图像搜索方法之一：

-按照图像分类元素(例如事件、人名、地名、时域数据)浏览，

-按照标签云浏览，

-自然语言查询，

-范例查询。

可以组合图像搜索方法，并可以从GUI 210的同一页访问。在一个范例中，用户能够开始按事件浏览，然后利用标签云、自然语言查询或范例查询细化搜索。将结合图4更详细地解释图像搜索方法。

图像检索模块310也可以与服务器204接口连接，例如用于自然语言查询的语义分析。在一些情况下，语义分析可能涉及用本体论概念替代自然语言术语。本体论概念可以捕获语义，例如具有相同含义的词语、作为其他概念的一部分的概念、子概念或自我定义的关系。可以利用可用的分类元素并考虑到与其他本体论概念的相互关系细化从查询导出的本体论概念。

图像检索模块310可以包括搜索引擎。

可以使用数据库312存储从图像分析、个人用户信息或另一来源导出的图像分类元素。数据库312中的图像分类元素可以包括生日、周年纪念、面部-姓名关联等。

因此，可以通过若干方式在客户端202接收(例如上载)图像。

在第一范例中，可以从个人计算机(PC)访问GUI 210。在这种情况下，用户可以在PC上存储图像。例如，可以从数字照相机向PC上的文件夹拷贝图像，或者从因特网下载或通过另一种方式在PC上放置。GUI 210可以利用标准网页浏览器到GUI 210的连接接收用户输入。可以使用GUI 210选择单个图像或整个文件夹以上载到客户端202。一旦确认选择，就可以向客户端202传输选定的图像，可能用于由预处理器304进行初始分类。一旦已经进行了初始分类，GUI 210可以显示验证页以使用户能够确认初始分类或选择替代分类。

在可以如何接收图像的第二范例中，可以访问客户端202上的共享文件夹，可以从PC向共享文件夹拷贝(例如，通过拖放、拷贝粘贴、使用命令行等)图像。一旦完成图像的拷贝，GUI 210就可以接收外部连接。响应于外部连接，客户端202可以产生通知，即需要处理新的内容。客户端202可以接收对通知的响应，其激活预处理器304并开始图像的初始分类。

在可以如何接收图像的第三范例中，可以将诸如数字照相机的USB存储装置连接到USB端口110。因此，客户端202可以利用先前安装的驱动程序识别USB存储装置。客户端202可以扫描USB存储装置以寻找图像，然后将其传输到图像存储器306。一旦完成传输过程，就可以经由GUI 210激活预处理器304，以便进行图像的初始分类。

图4示出了根据公开的特定实施例的服务器204的另一种架构。该架构与图2所示的相比，提供了服务器204更详细的外观。服务器204包括多个模块。

服务器204包括网络服务模块222。网络服务模块222可以被理解为客户端通信模块216的对应主体，方便与客户端202的通信。而且，网络服务模块222可以包括服务器通信模块，其可操作为从客户端202接收图像。服务器204可以从客户端202接收图像，连同图像的初始分类。或者，服务器204可以连同一个或多个图像分类元素一起接收图像。例如，服务器204可以连同时域数据(例如，生成图像的时间)和地理坐标(例如经纬度)一起接收图像。

网络服务模块222可以包括可操作为通过HTTP接收图像的专用网络服务。

可以从网络服务模块222向图像语义搜索框架(ISSF)协调模块402传递接收的图像。ISSF协调模块可以被理解为协调器218的具体实现。ISSF协调模块402执行工作流程管理功能。具体而言，在服务器204接收新图像时，ISSF协调模块402调用服务器204的其他模块，以便分析图像；ISSF协调模块402可以汇集图像分析的结果并增强图像理解。ISSF协调模块402可以包括最终分类模块。可以在最终分类中组合图像分析的结果。

最终分类可以包括一个或多个以下图像分类元素：

-情景描述(即图像标签)，

-图像中示出的图像成分列表，

-图像成分分类，

-图像中所示的人的姓名，

-图像中所示的人的心情，

-时域数据，

-天气指示，

-事件信息，

-基于语义规则应用导出的类别，

-地名。

图像成分和情景描述可以是相关的。

在一个范例中，ISSF协调模块402可以向情景检测器404发送接收的图像。

情景检测器404可以操作为确定接收的图像的大致含义。换言之，情景检测器404可以识别在全局上描述接收的图像的标签。于是，标签描述接收的图像整体内容(即所有图像成分)。情景检测器404还可以操作为计算针对标签的标签正确性值。

对象识别器406可以操作为识别接收的图像的成分。具体而言，对象识别器406可以分割接收的图像并确定关于所识别成分的信息，例如，如图5的描述中所详述的。提取的信息可以包括接收的图像中每个被识别成分的位置。而且，对象识别器406可以针对每个被识别的成分计算成分正确性值。

情景检测器404和对象识别器406的目标是计算接收的图像中实际表达的特定概念的概率。两个模块都可以被理解为使用类似方法。情景检测器404和对象识别器406之间的差异是分析的目的。对于情景检测器404而言，将接收的图像作为整体考虑和分析，以便识别在全局上描述接收的图像的标签。相反，对于对象识别器406，首先将接收的图像分割成更小区域，然后加以分析以便识别接收的图像的各个成分。

可能是情景检测器404和对象识别器406共有的方法涉及从接收的图像提取一组表征特征并将提取的该组表征特征与词典(也称为码本)匹配。可以将每个表征特征理解为图像的数学表示。表征特征的范例是颜色直方图，即图像中颜色的分布。词典界定表征特征值和概念之间的映射。而且，词典可以定义表征特征值和图像成分之间的映射。

根据要提取的表征特征，情景检测器404和对象识别器406进行的图像处理可以涉及对接收的全色图像进行一些计算，同时在接收的图像的黑白版本上进行其他计算。可以对接收的图像的单色通道进行其他计算。

例如，可以将词典的元素表达为{表征特征值，概念}对。根据该范例，表征特征值涉及从引用图像提取的成分，并且概念是与那些值相关联的注释。通过评估从接收的图像提取的表征特征的值和词典中表征特征值之间的差异，可以计算概念与接收的图像相关联的概率。

在另一个范例中，有若干图像示出了大海，其他图示出了火。针对大海图像的颜色直方图针对蓝色和绿色成分将具有更高值，而针对火图像的颜色直方图针对红色成分将具有更高值。根据该范例，词典中的条目数量等于图像数量。每个条目将包括图像的颜色直方图和人工关联的概念(即，本范例中的大海或火)。一旦构建，将把词典用作对新图片分类的参考：对于每个新图像，通过学习机分类器，例如支持矢量机(SVM)计算颜色直方图并与词典中那些比较。SVM的输出是与新图像相关联的颜色直方图类似于与词典中参考图像相关联的颜色直方图的概率。由于颜色直方图与词典中的概念相关联，所以SVM的输出是图像表达概念(例如，与参考图像相关联的概念)的概率。注意，颜色直方图仅是表征特征的一个范例。

对于情景检测器404而言，分析整个图片，聚焦于背景上。在一个范例中，在提取特征之前，情景检测器404向接收的图像应用高斯滤波以便使不连续性平滑。高斯滤波的视觉效应是使接收的图像模糊，因此其显得平坦化；通过这种方式，将前景要素与背景要素混合，提供了更均质的图像。

在滤波之后，计算表征特征(例如颜色直方图)并匹配到词典中的表征特征。完美的匹配一般是不可能的，除非在接收的图像与词典中的图像相同时。于是，可以利用机器学习分类器，例如支持矢量机(SVM)或Fisher分类器进行匹配。在一些情况下，供应一组训练范例。训练范例也可以称为模型或模板图像。将每个训练范例标记为属于两个类别之一，并且SVM训练算法构建模型，该模型预测新范例落在一个类别还是另一个类别中。在这种情况下，类别为概念，并且扩展SVM以支持超过两个类别(多类SVM)。SVM可以输出标签正确性值。

对象识别器406可以使用类似于情景检测器404的方式。对象识别器406的目标是判断图像成分是否属于图像，而不是分析整个图像。因此，对象识别器406可以分析接收的图像的更小段。可以将段与参考对象(也称为视觉词语)比较。于是，在隔离阶段中，可以利用诸如边缘检测和角部检测的技术分解接收的图像。可以使用这些技术通过梯度分析隔离形状。隔离阶段背后的原理是图像成分的边缘可能位于梯度具有最大值的地方；这与情景检测器404的情况相反，其中应用高斯滤波以使梯度的差异最小化。在隔离阶段之后，可以计算接收的图像每个区域的表征特征(例如颜色直方图和轮廓线)。然后可以将这些表征特征与从参考对象的图像提取的表征特征匹配。可以利用上文结合情景检测器404所述的机器学习分类器进行匹配。机器学习分类器可以输出成分正确性值。

对于每个图像标签和每个图像成分可以有若干训练范例。通常，对于图像标签或图像成分有越多的训练范例，就越可能以高概率识别标签或成分。换言之，随着与图像标签相关联的训练范例数量增大；可以利用该图像标签全局描述的所接收图像的标签正确性值可以增大(即，趋向完美匹配)。对于图像成分正确性值适用同样的情况。有利地，客户端202接收且由图像处理***处理越多图像，训练范例的数量可能增加。此外，可以使用来自用户的反馈，例如通过将识别数据与训练范例关联来改善图像标签的确定和图像成分的识别。

涉及对象识别器406的范例可以帮助例示对象识别器406和情景检测器404对训练范例的使用。如果接收的图像是蜂鸟的图片(或包括蜂鸟的图片)，且该组训练范例中没有鸟类图片，那么对象识别器406可能不会识别出接收的图像中有鸟类。如果该组训练范例中有鸟的图片，且图片被一般地分类为鸟类而没有任何具体分类，那么对象识别器406可以将蜂鸟识别为鸟，关联的图像成分正确性值可以与该组训练范例中蜂鸟的图片数量成比例。于是，图像成分正确性值和标签成分正确性值可能取决于该组训练范例中的图像数量和如何对图像分类(例如，与训练范例相关联的注释)。

在一些情况下，可以将标签正确性值和成分正确性值实现为百分比。标签正确性值可以表示对应标签精确描述接收的图像的可能性。换言之，标签正确性值是图像表示由标签识别的特定情景(例如室外、室内、大海、森林、都市风景)的概率。成分正确性可以表示已经精确识别对应成分的可能性。

语义相关模块408可以利用标签正确性值和成分正确性值将标签与图像成分相关。语义相关模块408可以识别至少一个相关的标签和至少一个相关的图像成分。换言之，语义相关模块408消除情景检测器404输出和对象识别器406输出的歧义。

面部识别模块410可以操作为识别图像中的面部并将名称与识别的面部相关联。例如，如果对象识别器406识别多个图像成分，面部识别模块410可以识别多个成分之内的面部。可以利用不同技术识别不同图像成分。例如，可以利用与其他图像成分相比不同的技术识别面部。在一些实施方式中，图像成分分类仅与面部相关联而不与其他图像成分相关联。

在一些情况下，姓名基于训练数据，例如训练范例与面部相关联。类似于情景检测器404和对象识别器406，面部识别模块410可能需要超过一个训练范例(可能是从不同角度拍摄的照片)，以便识别面部。可以利用面部的已知特征(即面部特征)使面部识别模块410执行的计算更加有效率。下文将更详细地论述用于面部识别模块410的训练数据。

此外，面部识别模块410也可以操作为基于所识别面部的面部表情判断心情。

语义扩展器412处理由服务器204的其他模块识别的图像分类元素以便丰富它们。具体而言，语义扩展器412可以应用规则，以便确定接收的图像的类别。可以利用时域数据、每个相关的图像标签和每个相关的图像成分应用规则。此外，语义扩展器412可以基于基于文本的图像分类元素的语义分析增加上下文信息。语义扩展器412还可以解析从客户端202接收的查询中的查询项。下文通过论述具体范例更详细地阐述语义扩展器412应用的规则(即语义规则)和增加的上下文信息。

服务器204还可以包含对象分类器414。对于特定类型的图像成分，对象分类器414可以操作为将图像成分分类与图像成分相关联。例如，如果图像成分为汽车，对象分类器414可以操作为将型号标志与汽车相关联。可以扩展对象分类器414以简单通过修改ISSF协调模块402中的工作流程来进一步对图像成分分类。在当前场景中，可以将工作流程理解为连接步骤的序列。于是，因为服务器204的特定架构，增加新的对象分类器可能仅仅需要执行额外的步骤以对与新对象分类器相关联的成分分类。图像处理的其余部分和其他成分的操作可以不受影响。

对象分类器414也可以允许将服务器204用于若干不同场景中，例如消费者场景或商务场景中。例如，在消费者场景中，客户端202可以是家庭网络的一部分。或者，在商务场景中，客户端202可以是企业网络的一部分。其他场景也是可能的。

地理数据库416可以包括地理位置和地名之间的映射。地名可以指城市(例如西雅图)、地区(例如Shaw Island)、建筑物(例如西斯廷教堂)等。地理数据库416还可以包括感兴趣点的列表以及与地理位置相关联的场景信息。感兴趣点可以被理解为某人可能发现有用或感兴趣的地点(例如地球上代表Space Needle位置的地点)。场景信息可以包括游览对应地理位置的旅游者感兴趣的材料。地理数据库416中的信息可以方便识别图像标签和图像成分。可以将地理位置表示为地理坐标，可能包括一个或多个以下内容：

-经纬度，

-方位或方向，以及

-街道地址。

社交网络(SN)适配器418可以方便服务器204和与用户相关联的图像共享网络之间的通信。图像共享网络可以是社交网络，例如Facebook或诸如flickr的照片共享网络。SN适配器418可以使图像共享网络的内容能够被服务器204索引。SN适配器418也可以操作为从图像共享网络检索图像。SN适配器418可以与特定类型的图像共享网络集成。可以使用其他适配器方便与不同图像共享网络，例如具有不同API的图像共享网络的通信。每个通过SN适配器418通信的图像共享网络都可以具有一组公共应用编程接口(API)，其允许访问用户的图像画廊。用户的图像画廊可以指图像共享网络上与用户相关联的图像。

为了在图像共享网络上注册，用户可以访问GUI 210。用户然后能够选择一个或多个图像共享网络，并提供针对每个选定网络的验证信息(例如，用户名和口令)。客户端202可以向ISSF协调模块402转发验证信息，ISSF协调模块可以利用选择的图像共享网络验证用户名和口令的有效性并激活SN适配器418。

在激活之后，SN适配器418可以配置成利用用户的验证信息定期(例如一天一次)连接到图像共享网络。在成功连接之后，SN适配器418可以访问用户的图像画廊。由SN适配器418检索图像画廊中没有最终分类的每幅图像并传递到ISSF协调模块402。ISSF协调模块402然后可以识别分类元素，以便产生所检索图像的最终分类。一旦产生了最终分类，可以向客户端202发送最终分类和对所检索图像的引用并在数据库312中存储。

可以背地地，例如在夜间进行从图像共享网络检索图像的过程，以便减小网络和***负载。任选地，客户端202可以操作为在用户连接到GUI 210时提示用户验证所检索图像最终分类的分类元素。

在一些情况下，在预定时间之后自动验证识别的图像分类元素。

有利地，SN适配器418能够使用户能够具有所有其图像的唯一和一致观察。于是，用户能够通过图形用户接口210访问其所有图像。用户不需要独立访问它注册的每个图像共享网络，而是能够从一个地方访问所有图像。换言之，利用单次搜索，用户能够访问其整个图象库，实现简化的搜索过程。

事件DB 420包括关于事件发生的信息，例如公共事件(例如竞赛、节日或体育事件)。事件DB 420还可以包括与特定事件(例如生日或周年纪念)相关联的个人事件信息。事件可以是图像场景的一部分。事件也可以与时域数据或地理位置相关联。

在服务器402结束处理接收的图像之后，可以向客户端202发送最终分类。最终分类可以包括所识别图像分类元素的一些或全部。因此，可以利用GUI 210显示接收的图像。在一些情况下，强调并描述了接收的图像的所识别图像分类元素(例如图像成分，如面部)。

客户端202可以操作为从用户接收所识别图像分类元素的验证。在这种情况下，在数据库312中存储识别的图像分类元素并准备好供将来检索。此外，可以向ISSF协调模块402发送正指示，协调模块接着通知服务器204的其他模块关于验证的结果。因此，服务器204的模块可以基于验证更新其训练数据。

而且，客户端202可以操作为从用户接收修改和/或额外细节。在这种情况下，用户能够修改识别的图像分类元素，例如，用户能够修改与面部相关联的姓名或改变所识别图像成分的标识符。于是，如果不正确地识别了图像成分，不正确地命名了面部或根本未命名面部，客户端202能够从用户接收校正。用户可以提交变化，其可以被存储在数据库312中并转发到ISSF协调模块402。ISSF协调模块402能够向服务器204的其他模块传递修改，使得它们能够相应地更新其训练数据。

现在将描述处理服务器204从客户端202接收的用户图像的具体范例。根据范例，可以从网络服务模块222向ISSF协调模块402传输图像。ISSF协调模块402也可以接收与图像相关联的时域数据(例如对于图片而言，拍摄图片的时间)和与图像相关联的地理位置。

接收的图像可以在前景中示出有很多人的海滩。情景检测器404可以确定五个图像标签，其中每个图像标签全局地描述接收的图像内容。每个图像标签可以与标签正确性值相关联。例如，在下表中示出了图像标签和关联的标签正确性值：

图像标签	正确性值
		海岸	70％
天空	65％
		山峦	30％
森林	5％
		高速公路	3％

因此，最高的标签正确性值与“海岸”图像标签相关联，而最低的标签正确性值与“高速公路”图像标签相关联。从上表可以看出，接收的图像中有一些含糊。在这种情况下，情景检测器404不能决定性地判断海岸还是天空为主，因为两个图像标签都具有类似的标签正确性值。

继续该范例，一旦已经确定了图像标签和对应的标签正确性值，就可以将接收的图像传递到对象识别器406。对象识别器可以产生一组图像成分和成分正确性值，类似于上表中所示的该标签组和值。在范例中，对象识别器406可以判定图像包含“人”、“岩石”和“船”，具有高的关联正确性值。ISSF协调模块402可以利用语义相关模块408使情景检测器404和对象识别器406产生的结果相关。例如，ISSF协调模块402可能能够使用对象识别器406识别的人、岩石和船以便排除“天空”图像标签全局描述接收的图像内容的可能性。例如，如果最高标签正确性值和第二高标签正确性值相似，可以使用对象识别器406识别的图像成分排除图像标签之一。

或者，如果在处理图像期间，决定性图像标签被识别为具有比任何其他识别的图像标签高得多的正确性值，ISSF协调模块402和语义相关模块408可能能够使用决定性图像标签以识别含糊的图像成分。在这种情况下，含糊的图像成分可以具有类似的关联正确性值(例如，彼此在10％之内)并可以对应于同一图示对象。例如，如果将对象A识别为鸟具有50％的关联正确性值，将对象A识别为悬挂的灯具有45％的关联正确性值，那么可以使用决定性的情景标签“沙滩”排除“悬挂的灯”。

在相关之后，ISSF协调模块402可以使用地理数据库416以确定与图像的地理位置相关联的地名。根据该范例，该图像是在Capri拍摄的图片。ISSF协调模块402也可以基于地理位置确定至少一个感兴趣点。在这种情况下，将Faraglioni识别为与Capri相关联的感兴趣点。Faraglioni可以与先前识别为图像成分的岩石相关联。于是，ISSF协调模块402将Capri和Faraglioni识别为接收的图像的图像分类元素。可以将这些图像分类元素结合到最终分类中。

此外，ISSF协调模块402可以从与接收的图像相关联的时域数据导出天气指示。例如，天气指示可以是与时域数据对应的季节(例如夏季)。此外，ISSF协调模块402可以搜索事件数据库424，查找与时域数据和地理位置相关的事件。事件可以是公共事件，例如Faraglioni Capri Prize，或个人事件，例如婚礼或聚会。可以由用户配置个人事件。可以将被发现为与时域数据和地理位置相关的事件识别为分类事件并结合到最终分类中。在这个阶段，识别的图像分类元素可以包括以下内容(为清楚起见，成分位置和其他低层次图像特征已经省略)：

{25/08/2009，夏季，{Faraglioni Capri Prize，Alice的生日}}，海岸，

{Capri，{岩石，{感兴趣点，Faraglioni}}}，人，船

因此，ISSF协调模块402可以向面部识别模块410传递接收的图像。面部识别模块410检测识别的图像成分中的面部并尝试将姓名与每个面部相关联。面部识别模块410可以从识别的面部提取面部表情，还可以基于面部表情确定心情(例如高兴、忧愁、哭泣、欢笑)。于是，在面部识别模块410已经处理接收的图像之后，识别的图像分类元素可以包括以下内容：

{25/08/2009，夏季，{Faraglioni Capri Prize，Alice的生日}}，海岸，{Capri，{岩石，{感兴趣点，Faraglioni}}}，船，{人，{Alice，{欢笑，高兴}}，{Bob，{高兴}}

接下来，可以向语义扩展器412传递识别的图像分类元素。语义扩展器412可以向识别的图像分类元素应用一个或多个语义规则以便确定接收的图像类别。根据范例，因为接收的图像是在夏季拍摄的，接近与旅游相关联的感兴趣点，所以将接收的图像分类为假期。可以向识别的图像分类元素添加类别。此外，可以基于类别，例如，像度假、出差和旅游的类似概念，将额外的场景信息与接收的图像相关联。

可以利用XML定义语义规则。例如，可以将符合以下语义规则标准的图像分类为“假期”，

在完成处理之后，基于识别的图像分类元素产生接收的图像的最终分类。将最终分类发送给客户端202，其在数据库312中与图像一起存储最终分类。

现在将更详细地论述考虑到最终分类由图像检索模块310实现的多种图像搜索方法。

搜索图像的简单方法是选择一组图像分类元素用于在图像存储器316中搜索图像。一旦选择了一组图像分类元素(例如所有事件)，就显示所选组中的图像分类元素列表(即，显示所有事件)。然后可以选择图像分类元素(例如Alice的生日)，并且能够浏览与所选图像分类元素相关联的图像。可以选择的图像分类元素组包括：

-事件，

-人，

-位置，

-时域数据。

也可以选择其他组的图像分类元素，例如心情或图像标签。

搜索图像的另一种方法是通过标签云浏览。可以在数据库312中维持关于分类元素的统计信息。每次向数据库312增加新的最终分类时，都可以更新新的最终分类中的每个图像分类元素的统计信息。可以在云中给出数据库312中分类元素的子集，其中每个图像分类元素具有与数据库312中分类元素出现次数成比例的字体大小。响应于选择云中给出的分类元素，GUI 210可以显示与所选分类元素相关联的预览图像。换言之，预览的图像可以具有包括所选分类元素的最终分类。而且，响应于选择，可以更新标签云，从而仅显示与预览图像最相关的分类元素。可以进一步细化标签云，可以响应于额外的用户输入减少预览图像的数目。

搜索图像的又一种方式是利用自然语言查询。用户可以向文本框中键入包括至少一个查询项的查询(例如语句)。例如，一个查询可以是“为我显示所有我在海边的照片”。客户端202可以将查询传递到ISSF协调模块402，其可以将查询发送到图像和语义处理模块220。图像和语义处理模块220可以处理查询并返回可能合理地与查询相关联的图像分类元素列表。在接收到图像分类元素的列表时，客户端202可以搜索图像存储器306，以查找具有包括所列图像分类元素中的至少一个的最终分类的图像。

搜索图像的另一种方法是范例查询。范例查询涉及发现类似于查询图像的响应图像。可以通过比较诸如低层次图像特征(例如频谱、颜色方差、强度)的图像分类元素来进行范例查询。于是，响应于范例查询找到的响应图像可以包括查询图像的图像分类元素。

与图2到4中所示架构不同的架构也是可能的。不过，图2到4的架构具有如下优点：由服务器204执行图像分割以及语义丰富和语义搜索的处理器密集型任务。因此，提供与服务器204上执行那些服务对应的服务的服务供应者可以能够获得与提供不同服务的服务供应者相比更多的收入。图2到4中所示的架构也可以更可缩放，并提供比替代架构更优化的资源利用。例如，如果由客户端202执行更多任务，嵌入式***100可能需要额外的能力，由此变得更加复杂和昂贵。嵌入式***100的集中化计算能力还可能在长时间内保持未用，因为可能仅在自动标记过程期间需要它。此外，在服务器204处集中计算能力允许在多个客户端应用之间共享计算能力。

上述客户端服务器***可以提供用户简单性和效率。用户不需要知道情景后方运行的是什么。相反，用户能够关注其需要什么，并用其自己的词汇表达；***做剩余的工作。

图5示出了利用客户端202和服务器204识别图像分类元素的示范性方法。

用户502可以利用例如GUI 210上载多个图像504。例如，用户502可以从假期回来，在数字照相机中存储了若干图像。用户502可以将数字照相机连接到嵌入式***100，可以从数字照相机向嵌入式***100自动上载所有图像。

可以例如由对象识别器406和图像分割模块218自动识别上载图像506的图像成分。例如，可以识别上载图像506的一个图像成分并分配“大海”的标签508。可以识别上载图像506的另一图像成分并分配“人”的标签510。如图所示，可以为上载图像的其他成分进行类似分配。

总之，可以利用识别图像中示出的物体、人、地方和自然要素的分割和注释算法识别图像的分类元素。也可以将识别图像的分类元素称为从图像提取分类元素。有利地，可以将从图像提取的分类元素发送到客户端202，用于验证或校正。

图6示出了图像搜索的范例，其中由客户端202和服务器204提供图像搜索的结果。可以将上载图像506的识别的图像分类元素组织成语义组，加以分析并利用概念和场景丰富。可以利用图像和语义处理模块220存储识别的图像分类元素。可以连同对上载图像的引用一起存储识别的图像分类元素，用于对后续查询做出响应。

用户能够通过编制查询来执行面向内容的搜索。可以使用不同类型的查询，例如自然语言或范例查询。可以利用图形用户接口210浏览作为用户查询结果返回的一幅或多幅图像。

例如，在步骤702，用户502利用图形用户接口210编制自然语言查询，并将查询发送到服务器204。在步骤704，基于自然语言查询进行上载图像的语义搜索，并检索上载的图像506。在步骤706，将语义搜索的结果返回到用户，即上载图像506。在图5的具体范例中，自然语言查询可能是“为我显示我在海边的所有照片”。

出于图7到9的目的，图像和语义处理模块220被分成两个部件：服务器图像处理模块220a和服务器语义处理模块220b。服务器图像处理模块220a执行图像分割和注释功能。服务器语义处理模块220b执行分类功能，例如，基于由服务器图像处理模块220a产生的数据。

图7示出了用于识别图片的图像分类元素的过程的泳道图。

在步骤701，用户502利用GUI 210向客户端202上载图片。GUI 210在步骤702中向客户端通信模块216传递图片。可以通过配置GUI 210以在RAM 106中存储图片并向客户端通信模块216传递对图片的引用来实现步骤702。也可以通过传递对表示图片的文件名的引用来实施步骤702。

在步骤703，客户端通信模块216向网络服务模块222传递图片。网络服务模块222在步骤704中向服务器图像处理模块220a传递图片。可以类似于步骤702实施步骤704，例如，可以在服务器204的存储器中存储图片，可以从网络服务模块222向服务器图像处理模块220a传递对图片的引用。

服务器图像处理模块220a在步骤705识别图像分类元素。例如，服务器图像处理模块220a可以进行特征提取和注释。可以在步骤706中向网络服务模块222返回图像分类元素(例如标签)。在步骤707，可以向服务器语义处理模块220b发送图像分类元素。

在步骤708，服务器语义处理模块220b可以进行图像分类元素的语义丰富，即，服务器语义处理模块220b可以利用语义信息丰富图像分类元素。执行语义丰富可以包括基于图像分类元素应用规则以确定图片的一个或多个类别。规则可以是语义规则。在步骤709，可以从服务器语义处理模块220b向网络服务模块222发送图像分类元素，包括类别。

网络服务模块222可以在步骤710中将图像分类元素与图片相关联。在步骤711，可以将对图片的引用，连同被丰富的图像分类元素一起返回到客户端通信模块216。客户端202可以在步骤712中在客户端存储器214中连同图像分类元素存储对图片的引用。

步骤713到717示出了用于人工校正或验证图像分类元素的过程。如果执行步骤713到717，可以执行步骤713作为步骤711和712的替代。换言之，可以在步骤710之后执行步骤713。可以执行步骤701到712，而不执行人工校正或验证。增加额外的步骤或消除步骤也是可能的。

在步骤710之后，作为步骤711和712的替代，可以从网络服务模块222向GUI 210发送对图片的引用和图像分类元素。用户502可以访问GUI 210，并且作为响应，可以在步骤714向用户502发送图片和图像分类元素。在步骤715，用户可以人工校正或验证图像分类元素。在步骤716，用户502可以访问GUI 210以向客户端202返回图片以及可能的校正的图像分类元素。可以在步骤717中在客户端存储器214中存储图片和由用户校正或验证的图像分类元素。

图8示出了用于对用户图片远程标记和索引的过程的泳道图。

在图8的范例中，从社交网络(SN)850，例如Facebook，检索图片，识别图片的一个或多个图像分类元素(即一个或多个与图片相关联的被丰富的标签)，并在客户端存储器214中与图像分类元素一起存储对图片的引用。可以将社交网络850理解为图像共享网络的范例。

可以类似地实施图8中所示的被赋予了与图7所示步骤相同的标志的步骤。例如，可以类似于步骤704到712实施步骤806到814。

在步骤801，访问GUI 210，并且客户端202接收到用于社交网络850的与用户502相关联的用户名和口令。通过GUI 210，客户端202接收指令以对社交网络850存储的用户502的图片进行索引。在步骤802，从GUI 210向客户端通信模块216传递接收的指令。客户端通信模块216在步骤803向网络服务模块322传递接收的指令。

在步骤804，网络服务模块222利用用户名和口令访问社交网络850，以便检索社交网络850上存储的与用户502相关联的图片。在步骤805，向网络服务模块222发送与用户502相关联的图片连同由社交网络850增加的任何图片注释。网络服务模块222在步骤806中向服务器图像处理模块220a传递图片。

在步骤807中，服务器图像处理模块220a可以进行特征提取和注释。换言之，服务器图像处理模块220a可以识别图片的图像分类元素。

可以在步骤808向网络服务模块发送由服务器图像处理模块220a确定的图像分类元素(例如标签)。在步骤809，可以从网络服务模块222向服务器语义处理模块220b发送图像分类元素。

在步骤810，服务器语义处理模块220b可以执行图像分类元素的语义丰富。换言之，服务器语义处理模块220b可以利用语义信息丰富图像分类元素。执行语义丰富可以包括基于图像分类元素应用规则以为每个图片确定一个或多个类别。规则可以指语义规则。

在步骤811，可以从语义模块322向网络服务模块222发送图像分类元素。网络服务模块222可以在步骤812中将图像分类元素与对应图片相关联。在步骤813，可以从网络服务模块222向客户端通信模块216发送图片引用和关联的图像分类元素。客户端202可以在步骤814中在客户端存储器214中存储对图片的引用，连同对应的图像分类元素。

图9示出了为了搜索图片而可以执行的步骤的泳道图。可以在执行图8的步骤之后执行图9中的步骤。在步骤901，用户502可以访问GUI 210以便编制用户查询，以找到一个或多个图片。用户查询可以是自然语言查询，可以包括至少一个查询项(即，至少一个词语)。在步骤902，可以从GUI 210向客户端通信模块216转发用户查询，以便从用户查询提取一个或多个图像分类元素(例如标签)。从用户查询提取标签也可以涉及在步骤903从客户端通信模块216向网络服务模块222发送用户查询，以及在步骤904从网络服务模块222向服务器语义处理模块220b发送用户查询。可以在步骤905由服务器语义处理模块220b执行从用户查询提取标签所需的处理和分析。在一些情况下，从用户查询提取标签可以涉及从用户查询的项导出概念。

在步骤906，可以从服务器语义处理模块220b向网络服务模块222发送提取的标签。网络服务模块222可以在步骤907向客户端通信模块216发送标签，客户端通信模块216可以在步骤908向图像处理模块212传递标签。

在步骤909，图像处理模块212可以与客户端存储器214交互，以便找到匹配从用户查询提取的标签的一个或多个图片。

在步骤910，如果在客户端202存储匹配标签的图片，服务器语义处理模块220b可以向搜索引擎212返回匹配的图片。此外或备选地，如果在社交网络850存储匹配的图片，可以在步骤910向搜索引擎212返回对匹配图片的引用。在步骤911，从搜索引擎212向GUI 210转发匹配图片或图片引用。可以在步骤912显示存储在客户端202或社交网络850的匹配图片。

Claims

1.一种用于图像处理的方法，所述方法包括：

-接收至少一个用户图像；

-通过如下操作识别所述用户图像的多个图像分类元素：

--向所述用户图像分配初始分类，其中所述初始分类基于与所述用户图像相关联的时域数据；

--从所述用户图像提取至少一个表征特征并且将提取的所述表征特征与一个词典匹配，其中所述词典界定表征特征值和概念之间的映射，其中所述词典中的每个概念与引用图像相关联；

--经由学习机分类器比较提取的所述表征特征的值与所述词典中的所述表征特征的值；

--由所述学习机分类器针对多个所述概念计算标签正确性值，

其中所述多个所述概念中的每个概念是全局描述所述用户图像的内容的图像标签，其中每个标签正确性值指示对应的所述图像标签精确描述所述用户图像的概率；

--识别所述用户图像的至少一个图像成分，其中所述图像成分是使用图像分割算法识别的所述用户图像的一部分；

--针对每个图像成分计算成分正确性值，其中所述成分正确性值指示所述图像成分已被精确识别的概率；

--利用所述标签正确性值和所述成分正确性值将多个所述图像标签和所述图像成分相关，其中当最高标签正确性值和第二高标签正确性值足够相似以使得为主的图像标签无法被确定性地确定时，所述相关利用识别的所述图像成分以排除所述图像标签之一，由此识别相关的图像标签和相关的图像成分；

--应用语义规则以确定所述用户图像的类别，其中所述语义规则基于如下至少一项：所述时域数据、所述相关的图像标签和所述相关的图像成分；以及

--产生包括以下图像分类元素的所述用户图像的最终分类：所述初始分类、所述相关的图像标签、所述相关的图像成分和所述类别。

2.根据权利要求1所述的方法，其中识别所述多个图像分类元素还包括：

接收与所述图像相关联的地理位置；以及

确定与所述地理位置相关联的地名；

其中所述最终分类还包括所述地名。

3.根据权利要求2所述的方法，其中识别所述多个图像分类元素还包括：

基于所述时域数据和所述地理位置确定事件；

其中所述最终分类还包括所述事件。

4.根据前述权利要求的任一项所述的方法，其中识别所述多个图像分类元素还包括：

从所述时域数据导出天气指示；

其中所述最终分类还包括所述天气指示。

5.根据权利要求1-3的任一项所述的方法，其中识别所述用户图像的至少一个图像成分还包括：识别多个图像成分，且其中识别所述多个图像分类元素还包括：

将所述图像成分分类与所述多个图像成分的第一图像成分相关联；

其中所述最终分类还包括所述图像成分分类，

其中所述第一图像成分被识别为面部，所述方法还包括：

将姓名与所述面部相关联；以及

基于所述面部的表情确定心情；

其中所述最终分类还包括所述姓名和所述心情。

6.根据权利要求1-3的任一项所述的方法，还包括：

验证所述初始分类；

验证所述用户图像的最终分类，其中接收训练信息以产生后续图像的后续最终分类。

7.根据权利要求1-3的任一项所述的方法，还包括：

基于所述初始分类将所述用户图像与存储的图像相关联；和/或

基于所述最终分类将所述用户图像与存储的图像相关联。

8.根据权利要求1-3的任一项所述的方法，其中接收至少一个用户图像还包括：

接收多个用户图像；以及

从图像共享网络检索多个用户图像中的至少一个。

9.根据权利要求8所述的方法，还包括：

显示多个图像分类元素，其中根据与所述图像分类元素相关联的多个用户图像的数量显示每个图像分类元素；

接收从所述多个图像分类元素选择选定的图像分类元素的用户输入；

显示从所述多个用户图像选择的图像的预览，其中所选的图像分类元素包括在所选图像的最终分类中。

10.根据权利要求8所述的方法，还包括：

接收包括至少一个查询项的查询；

匹配所述查询项到匹配分类元素；

从所述多个用户图像检索匹配图像，其中所述匹配分类元素包括在所述匹配图像的最终分类中。

11.根据权利要求8所述的方法，其中所述多个用户图像包括查询图像和响应图像，所述方法还包括：

接收包括查询图像的查询；

匹配所述查询图像的分类元素与所述响应图像的分类元素；以及

响应于所述查询检索响应图像。

12.一种用于图像处理的设备，所述设备包括：

-用于接收至少一个用户图像的装置；

-用于通过如下装置识别所述用户图像的多个图像分类元素的装置：

--用于向所述用户图像分配初始分类的装置，其中所述初始分类基于与所述用户图像相关联的时域数据；

--用于从所述用户图像提取至少一个表征特征并且将提取的所述表征特征与一个词典匹配的装置，其中所述词典界定表征特征值和概念之间的映射，其中所述词典中的每个概念与引用图像相关联；

--用于经由学习机分类器比较提取的所述表征特征的值与所述词典中的所述表征特征的值的装置；

--用于由所述学习机分类器针对多个所述概念计算标签正确性值的装置，

--用于识别所述用户图像的至少一个图像成分的装置，其中所述图像成分是使用图像分割算法识别的所述用户图像的一部分；

--用于针对每个图像成分计算成分正确性值的装置，其中所述成分正确性值指示所述图像成分已被精确识别的概率；

--用于利用所述标签正确性值和所述成分正确性值将多个所述图像标签和所述图像成分相关的装置，其中当最高标签正确性值和第二高标签正确性值足够相似以使得为主的图像标签无法被确定性地确定时，所述相关包括利用识别的所述图像成分以排除所述图像标签之一，由此识别相关的图像标签和相关的图像成分；

--用于应用语义规则以确定所述用户图像的类别的装置，其中所述语义规则基于如下至少一项：所述时域数据、所述相关的图像标签和所述相关的图像成分；以及

--用于产生包括以下图像分类元素的所述用户图像的最终分类的装置：所述初始分类、所述相关的图像标签、所述相关的图像成分和所述类别。

13.根据权利要求12所述的设备，其中用于识别所述多个图像分类元素的装置还包括：

用于接收与所述图像相关联的地理位置的装置；以及

用于确定与所述地理位置相关联的地名的装置；

其中所述最终分类还包括所述地名。

14.根据权利要求13所述的设备，其中用于识别所述多个图像分类元素的装置还包括：

用于基于所述时域数据和所述地理位置确定事件的装置；

其中所述最终分类还包括所述事件。

15.根据权利要求12-14的任一项所述的设备，其中用于识别所述多个图像分类元素的装置还包括：

用于从所述时域数据导出天气指示的装置；

其中所述最终分类还包括所述天气指示。

16.根据权利要求12-14的任一项所述的设备，其中用于识别所述用户图像的至少一个图像成分的装置还包括：用于识别多个图像成分的装置，且其中用于识别所述多个图像分类元素的装置还包括：

用于将所述图像成分分类与所述多个图像成分的第一图像成分相关联的装置；

其中所述最终分类还包括所述图像成分分类，

其中所述第一图像成分被识别为面部，所述设备还包括：

用于将姓名与所述面部相关联的装置；以及

用于基于所述面部的表情确定心情的装置；

其中所述最终分类还包括所述姓名和所述心情。

17.根据权利要求12-14的任一项所述的设备，还包括：

用于验证所述初始分类的装置；

用于验证所述用户图像的最终分类的装置，其中接收训练信息以产生后续图像的后续最终分类。

18.根据权利要求12-14的任一项所述的设备，还包括：

用于基于所述初始分类将所述用户图像与存储的图像相关联的装置；和/或

用于基于所述最终分类将所述用户图像与存储的图像相关联的装置。

19.根据权利要求12-14的任一项所述的设备，其中用于接收至少一个用户图像的装置还包括：

用于接收多个用户图像的装置；以及

用于从图像共享网络检索多个用户图像中的至少一个的装置。

20.根据权利要求19所述的设备，还包括：

用于显示多个图像分类元素的装置，其中根据与所述图像分类元素相关联的多个用户图像的数量显示每个图像分类元素；

用于接收从所述多个图像分类元素选择选定的图像分类元素的用户输入的装置；

用于显示从所述多个用户图像选择的图像的预览的装置，其中所选的图像分类元素包括在所选图像的最终分类中。

21.根据权利要求19所述的设备，还包括：

用于接收包括至少一个查询项的查询的装置；

用于匹配所述查询项到匹配分类元素的装置；

用于从所述多个用户图像检索匹配图像的装置，其中所述匹配分类元素包括在所述匹配图像的最终分类中。

22.根据权利要求19所述的设备，其中所述多个用户图像包括查询图像和响应图像，所述设备还包括：

用于接收包括查询图像的查询的装置；

用于匹配所述查询图像的分类元素与所述响应图像的分类元素的装置；以及

用于响应于所述查询检索响应图像的装置。

23.一种可操作为处理图像的客户端-服务器***，所述***包括：

-客户端，所述客户端包括：

--接收模块，可操作为接收用户图像；

--客户端图像处理模块，可操作为向所述用户图像

分配初始分类，其中所述初始分类基于与所述用户图像相关联的时域数据；

-服务器，所述服务器包括：

--服务器通信模块，可操作为从所述客户端接收所述用户图像和所述初始分类；

--情景检测器，可操作为：

---从所述用户图像提取至少一个表征特征并且将提取的所述表征特征与一个词典匹配，

其中所述词典中的每个概念与引用图像相关联；

---经由学习机分类器比较提取的所述表征特征的值与所述词典中的所述表征特征的值；以及

---针对多个所述概念计算标签正确性值，

其中所述多个所述概念中的每个概念是全局描述所述用户图像的内容的图像标签，

其中每个标签正确性值指示对应的所述图像标签精确描述所述用户图像的概率；

--对象识别器，可操作为：

---识别所述用户图像的图像成分，其中图像成分是使用图像分割算法识别的所述用户图像的一部分；

---针对所述图像成分计算成分正确性值，其中所述成分正确性值指示所述图像成分已被精确识别的概率；

--相关模块，可操作为：

---利用所述标签正确性值和所述成分正确性值将多个所述图像标签和所述图像成分相关，其中当最高标签正确性值和第二高标签正确性值足够相似以使得为主的图像标签无法被确定性地确定时，所述相关包括利用识别的所述图像成分以排除所述图像标签之一；

---识别相关的图像标签和相关的图像成分；

--分类模块，可操作为应用语义规则以确定所述用户图像的类别，其中所述语义规则基于如下至少一项：所述时域数据、所述相关的图像标签和所述相关的图像成分；以及

--最终分类模块，可操作为基于所述初始分类，所述相关的图像标签，所述相关的图像成分和所述类别产生最终分类；

其中所述服务器通信模块还可操作为向所述客户端发送如下内容：所述最终分类和对所述用户图像的引用。