CN103069415B - 用于图像处理的计算机实施的方法、计算机程序产品和计算机*** - Google Patents

用于图像处理的计算机实施的方法、计算机程序产品和计算机*** Download PDF

Info

Publication number
CN103069415B
CN103069415B CN201180039649.9A CN201180039649A CN103069415B CN 103069415 B CN103069415 B CN 103069415B CN 201180039649 A CN201180039649 A CN 201180039649A CN 103069415 B CN103069415 B CN 103069415B
Authority
CN
China
Prior art keywords
image
classification
user images
relevant
iconic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180039649.9A
Other languages
English (en)
Other versions
CN103069415A (zh
Inventor
G·卡普佐
M·伯希尼
F·玛莫利蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Services GmbH
Original Assignee
Accenture Global Services GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture Global Services GmbH filed Critical Accenture Global Services GmbH
Publication of CN103069415A publication Critical patent/CN103069415A/zh
Application granted granted Critical
Publication of CN103069415B publication Critical patent/CN103069415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书具体涉及一种用于图像处理的计算机实施的方法、计算机程序产品和计算机***,所述方法包括:‑接收至少一个用户图像;‑通过如下操作识别用户图像的多个图像分类元素:‑‑向用户图像分配初始分类,其中初始分类基于与用户图像相关联的时域数据;‑‑确定至少一个全局描述用户图像的内容的图像标签;‑‑针对每个图像标签计算标签正确性值;‑‑识别用户图像的至少一个图像成分;‑‑针对每个图像成分计算成分正确性值;‑‑利用标签正确性值和成分正确性值使图像标签和图像成分相关,由此识别相关的图像标签和相关的图像成分;‑‑应用规则以确定用户图像的类别,其中规则基于如下至少一项:时域数据、相关的图像标签和相关的图像成分;以及‑产生包括以下图像分类元素的用户图像的最终分类:初始分类、相关的图像标签、相关的图像成分和类别。

Description

用于图像处理的计算机实施 的方法、计算机程序产品和计算机***
技术领域
本申请总体上涉及用于图像处理的计算机实施的方法、计算机程序产品和计算机***。
背景技术
一篇现有技术文献(US 2009/0161962A1)公开了一种将在共同位置中捕获的图像分组的方法,包括:接收图像的汇集;将图像分类成事件的集合,其中该汇集中的每个图像属于不多于一个事件;分析来自每个事件的图像的背景区域以确定代表该事件的一个或者多个特征;以及比较来自至少两个事件的特征以确定哪些事件在共同位置中发生。
另一篇现有技术文献(US 2003/0108241A1)公开了一种用于提供基于情绪的虚拟相册的方法和***,该基于情绪的虚拟相册基于观看者的感测到的情绪提供相片。
然而,以上两篇现有技术文档并未提供以下技术效果:
1.对图像标签与图像成分的校正消除相似标签;以及
2.用户参与对象加标签并不是必须的,因为对成分和标签的校正可以用于精确地对图像分类。
发明内容
根据一方面,提供了一种用于图像处理的计算机实施方法。该方法可以包括接收至少一个用户图像。该方法还可以包括通过向用户图像分配初始分类来识别用户图像的多个图像分类元素,其中初始分类基于与用户图像相关联的时域数据。识别用户图像的多个图像分类元素还可以包括确定全局性描述用户图像内容的至少一个图像标签以及针对每个图像标签计算标签正确性值。识别用户图像的多个图像分类元素还可以包括识别用户图像的至少一个图像成分并针对每个图像成分计算成分正确性值。识别用户图像的多个图像分类元素还可以包括利用所述标签正确性值和所述成分正确性值使所述图像标签和所述图像成分相关,由此识别相关的图像标签和相关的图像成分。识别用户图像的多个图像分类元素还可以包括应用规则以确定所述用户图像的类别,其中所述规则基于如下至少一项:所述时域数据、所述相关的图像标签和所述相关的图像成分。该方法还可以包括产生包括以下图像分类元素的用户图像最终分类:所述初始分类、所述相关的图像标签、所述相关的图像成分和所述类别。
识别用户图像的多个图像分类元素还可以包括接收与所述图像相关联的地理位置;以及确定与所述地理位置相关联的地名。所述最终分类还可以包括所述地名。
识别用户图像的多个图像分类元素还可以包括基于所述时域数据和所述地理位置确定事件。所述最终分类还可以包括所述事件。
识别用户图像的多个图像分类元素还可以包括从时域数据导出天气指示。所述最终分类还可以包括所述天气指示。
识别用户图像的至少一个图像成分还可以包括识别多个图像成分。此外,识别用户图像的多个图像分类元素还可以包括将所述图像成分分类与所述多个图像成分的第一图像成分相关联。所述最终分类还可以包括所述图像成分分类。
而且,第一图像成分可以被识别为面部。因此,该方法还可以包括将姓名与面部相关联。在这种情况下,该方法还可以包括基于面部表情确定心情。所述最终分类还可以包括姓名和心情。
在一些情况下,该方法还包括验证所述初始分类。此外,该方法可以包括验证所述用户图像的最终分类,其中接收训练信息以产生后续图像的后续最终分类。
该方法还可以包括基于所述初始分类将所述用户图像与存储的图像相关联;和/或基于所述最终分类将所述用户图像与存储的图像相关联。
接收至少一个用户图像还可以包括接收多个用户图像。在这种情况下,该方法还可以包括从图像共享网络检索多个用户图像中的至少一个。
该方法还可以包括显示多个图像分类元素,其中根据与图像分类元素相关联的多个用户图像的数量显示每个图像分类元素。而且,该方法可以包括接收从所述多个图像分类元素选择选定的图像分类元素的用户输入;以及显示从所述多个用户图像选择的图像的预览,其中所选的图像分类元素包括在所选图像的最终分类中。
此外,该方法还可以包括接收包括至少一个查询项的查询,并将查询项匹配到匹配分类元素。该方法还可以包括从多个用户图像检索匹配图像。匹配分类元素可以包括在匹配图像的最终分类中。
此外,多个用户图像可以包括查询图像和响应图像。在这种情况下,该方法还可以包括接收包括查询图像的查询。而且,该方法可以包括匹配所述查询图像的分类元素与所述响应图像的分类元素;以及响应于所述查询检索响应图像。
也可以将该方法实现为一种包括计算机可读指令的计算机程序产品,所述计算机可读指令在计算机***上加载和执行时,令所述***执行根据上述步骤的操作。
根据另一方面,提供了一种可操作为处理图像的客户端-服务器***。该***可以包括客户端。客户端可以包括接收模块,可操作为接收用户图像。客户端还可以包括客户端图像处理模块,可操作为向所述用户图像分配初始分类,其中所述初始分类基于与所述用户图像相关联的时域数据。该***还可以包括服务器。服务器可以包括服务器通信模块,可操作为从所述客户端接收所述用户图像。可以将服务器通信模块实现为网络服务模块。服务器还可以包括情景检测器,可操作为识别全局描述所述用户图像的图像标签并进一步可操作为计算用于所述图像标签的标签正确性值。而且,该服务器可以包括对象识别器,可操作为识别所述用户图像的图像成分,并进一步可操作为计算用于所述图像成分的成分正确性值。此外,该服务器可以包括相关模块,可操作为利用所述标签正确性值和所述成分正确性值对所述图像标签和所述图像成分进行相关,还可操作为识别相关的图像标签和相关的图像成分。此外,该服务器可以包括分类模块,可操作为应用规则以确定所述用户图像的类别,其中所述规则基于如下至少一项:所述时域数据、所述相关的图像标签和所述相关的图像成分。而且,该服务器可以包括最终分类模块,可操作为基于所述初始分类,所述相关的图像标签,所述相关的图像成分和所述类别产生最终分类。分类模块和最终分类模块可以是语义扩展器的一部分。所述服务器通信模块还可操作为向所述客户端发送如下内容:所述最终分类和对所述用户图像的引用。
技术定义
“嵌入式***”可以被理解为设计成执行一种或几种专门功能的计算机***或装置。可以将嵌入式***与通用计算机***,例如桌面计算机PC相比较。
网络附属存储(NAS)可以被理解为提供文件层次计算机数据存储的嵌入式***范例。NAS可以连接到计算机网络并提供对异构网络客户端的访问。此外,NAS可以包括一个或多个硬盘,其中可以将硬盘布置成廉价/独立磁盘冗余阵列(RAID)。
“机顶盒”(STB)可以指嵌入式***的另一范例。STB可以操作为连接到显示装置(例如电视机或计算机)和外部信号源。STB可以操作为将从外部信号源接收的信号转换成稍后在显示装置上显示的内容。
“集成电路”(也称为微电路、微芯片或芯片)可以指在半导体材料的薄衬底表面中制造的微型化电子电路。
“数字信号处理器”(DSP)可以理解为针对特定操作,可能包括信号的处理(例如变换)而优化的专用微处理器。与通用微处理器相比,DSP可以具有更低的硬件复杂性、更少的功能、更低成本、更好性能和降低的功耗。
“片上***”(SoC)可以指在单个集成电路上集成计算机***的部件。为了让SoC实现完整的功能,可能需要外加存储器和/或周边设备。SoC可以包括DSP。
“数字媒体处理器”(DMP)也称为媒体处理器,可以被理解为被设计成实时(或接近实时)处理数据流(例如,像视频或音频的媒体)的SoC。DMP可以包括一个或多个DSP、存储器接口、媒体接口和音频/视频加速器。DMP可以能够对各种类型的媒体(例如图像)和媒体流进行解码、转码(从一个格式转换成另一种)、编码和转速(从较高比特率向较低比特率缩放)。
“图像”可以理解为与对象具有相似外观的人工制品。在下文中,术语图像是指静止或静态图像。可以对图像进行栅格化和/或编码。图像的范例包括图片和照片。活动图像将被称为视频。
附图说明
图1示出了嵌入式***的部件。
图2示出了可操作为处理图像的客户端-服务器***的示范性架构的高层次视图。
图3示出了客户端-服务器***的客户端部分的另一种架构。
图4示出了客户端-服务器***的服务器部分的另一种架构。
图5示出了利用客户端-服务器***识别图像分类元素的示范性方法。
图6示出了由图像处理***执行的图像搜索操作。
图7示出了用于识别图片的图像分类元素的过程的泳道图。
图8示出了为了对从图像共享网络检索的图像进行注释和索引而可以执行的步骤的泳道图。
图9示出了为了搜索图片而可以执行的步骤的泳道图。
具体实施方式
在下文中,将参考附图给出范例的详细描述。应当理解,可以对范例做出各种修改。具体而言,一个范例的要素可以在其他范例中组合以及使用,以形成新的范例。
本说明书中描述的主题可以被实现为方法或在形式可能为一个或多个计算机程序产品的装置上实现。可以在数据信号中或在机器可读介质上实现说明书中描述的主题,其中介质体现在一个或多个信息载体中,例如半导体存储器或硬盘中。这样的计算机程序产品可以让数据处理设备执行说明书中所述的一个或多个操作。
此外,也可以将说明书中描述的主题实现为包括处理器和耦合到处理器的存储器的***。存储器可以编码有一个或多个程序以让处理器执行说明书中描述的一个或多个方法。可以利用各种机器实现说明书中描述的其他主题。
在下面的示范性附图和描述中阐述了一种或多种实施方式的细节。从描述、附图和权利要求将明了其他特征。
图1示出了嵌入式***100的部件,包括芯片组102。在具体范例中,芯片组102可以是SoC,例如32位MIPS 4KeC,包括音频/视频硬件加速器。在另一个范例中,芯片组102可以是DMP,例如德州仪器TMS320DM6446,包括高级RISC架构机器(ARM)ARM926EJ-S CPU(RISC是指简化指令集计算机)。芯片组102可以是微处理器或微控制器。其他实施方式也是可能的。
嵌入式***100可以实现为NAS,其向网络上的装置提供基于文件的数据存储服务。或者,嵌入式***100可以是网络访问网关或住宅网关,向用户网络(例如,包括一个或多个计算机的家庭网络)提供因特网连接。在这种情况下,嵌入式***100也可以配置成提供对因特网之外网络的访问。在具体范例中,嵌入式***100可以是异步数字用户线路(ADSL)调制调解器。支持其他形式DSL的调制调解器也是可能的。
嵌入式***100也可以实现为STB或移动装置。
嵌入式***100可以包括用户接口,例如图形用户接口,用于管理嵌入式***100。此外,嵌入式***100可以运行服务,例如如下的应用,该应用设计成帮助用户执行一个任务或一个模块,使得另一装置能够连接到嵌入式***100。能够运行于嵌入式***100上的服务可以与提供对连接到嵌入式***100的网络的访问相关或不相关。图形用户接口也可以用于管理或控制嵌入式***100上的应用。
嵌入式***100的一些实施方式包括非易失性存储器,例如闪速存储器104。或者,嵌入式***100可以包括另一种形式的非易失性存储器。嵌入式***100的非易失性存储器可以是电子可寻址的。在一些情况下,嵌入式***100的非易失性存储器可以是另一种形式的固态存储器,例如硅-氧化物-氮化物-氧化物-硅(SONOS)存储器或非易失性随机存取存储器。其他类型的非易失性存储器也是可能的。
闪速存储器104可以固定到嵌入式***100上。具体而言,可以将闪速存储器104内置于芯片中,可以将芯片连线到嵌入式***100。闪速存储器104的内容可以称为固件。
在一些情况下,闪速存储器104存储的固件可以包括用于嵌入式***100的操作***。闪速存储器104存储的固件也可以包括能够运行于嵌入式***100上的服务以及用于管理嵌入式***100的图形用户接口。具体而言,操作***可以是Linux,例如包括uClibc库的Linux内核2.6。更具体而言,可以利用具有Linux内核2.6.1的MIPS的Debian Etch实现操作***。操作***可以剥离掉不必要的成分,可以仅包括管理嵌入式***100必需的东西。应用可以适于执行联网任务,例如路由、防火墙维护、域名服务(DNS)和动态主机配置协议(DHCP)。
在一些实施例中,操作***允许为要增加的其他装置的支持服务(例如驱动程序)。例如,操作***可以支持根据需要向操作***内核链接更多功能。换言之,可能向操作***链接动态可加载模块。因此,向固件链接动态可加载模块可以理解为向嵌入式***100的操作***内核链接动态可加载模块。可以使用不同的内核模块支持不同的嵌入式***架构和操作***内核。
除了应用之外,能够在嵌入式***100上执行的服务可以包括内核模块、装置驱动程序或扩展嵌入式***100的功能的其他软件。
嵌入式***100可以包括最少硬件,例如执行基本联网任务所需的硬件,而没有其他硬件,以便降低成本。此外,可以通过单片方式,即作为单个闭合块在嵌入式***100上存储闪速存储器104的内容(例如,操作***和应用)。
例如,可以将闪速存储器104的内容作为单个闭合块加以存储,例如作为二进制映像或压缩二进制映像。换言之,闪速存储器104可包含二进制固件映像或压缩的二进制固件映像。这可以减少嵌入式***100上需要的闪速存储器104的量,从而降低生产嵌入式***100的成本。此外,在嵌入式***100上使用二进制映像可能对于嵌入式***100的制造者或维护者是有利的。此外,使用二进制映像可以使得用户更新嵌入式***100更加简单。
可以将二进制映像理解为包含表示存储介质,例如闪速存储器104的完整内容和结构。可以在单个文件中存储二进制映像。
不过,将闪速存储器104的内容作为二进制映像存储可以具有这样的影响:更新嵌入式***100上存储的应用的唯一方式是执行完整的固件更新,如现有技术方法中执行的那样。换言之,没有方法独立地更新单个应用。相反,即使对嵌入式***100上一个应用的小改变,也需要完整的固件更新。
对于嵌入式***100上软件的任意更新,执行完整固件更新可能是困难或不希望的。完整固件更新可能导致使用更多带宽,可能的误差可能具有更严重后果,完整固件更新可能导致中断嵌入式***100的操作。例如,下载完整的固件,以便对单个应用做出小的改变可能比下载应用中改变的一部分或应用自身需要更多带宽。此外,完整固件更新可能失败,导致嵌入式***100无法使用。而且,完整固件更新常常导致嵌入式***100的运行中断,因为通常需要重新启动嵌入式***100。
嵌入式***100还可以包括易失存储器,例如随机存取存储器(RAM)106。
此外,嵌入式***100可以包括能够连接到外部网络的访问模块,例如电话端口108。根据外部网络的类型,访问模块也可以是光纤端口或以太网端口。外部网络可以是因特网或另一网络。
嵌入式***100也可以包括能够连接到局域网的访问模块,例如以太网端口112。嵌入式***100还可以支持无线访问,例如,利用无线保真(WiFi)。局域网可以是家庭网络或内部网络或另一种网络。
此外,嵌入式***100可以包括复位按钮114,其可用于使嵌入式***100返回标准或默认配置。嵌入式***100还可以包括电力连接器116,其可用于将嵌入式***100连接到电源。
此外,嵌入式***100可以包括硬盘118。硬盘118可以实现为RAID。
图2示出了可操作为处理图像的客户端-服务器***的示范性架构的高层次视图。***可以包括客户端202和服务器204。客户端202可以在嵌入式***100上执行。或者,可以在通用计算机或另一种适当的计算装置上执行客户端202。可以在一个或多个通用计算机上执行服务器204。客户端202可以包括若干模块,例如实现为图形用户接口210的呈现模块、客户端图像处理模块212、客户端存储器214和客户端通信模块216。客户端202可以向服务器204发送图像,还可以处理用户请求。例如,客户端202可以操作为接收图像。从用户接收的图像,例如由客户端202接收的图像,可以称为用户图像。
客户端图像处理模块212可以包括控制客户端操作并管理GUI210和客户端存储器214之间交互的功能。客户端图像处理模块212还可以操作为对要由服务器204分析的图像执行初步操作,并方便图像的人工注释。此外,客户端图像处理模块212可以操作为管理图像检索操作,例如浏览图像和搜索图像。
可以使用客户端存储器214存储图像。也可以使用客户端存储器214存储由服务器204提取的图像分类元素(也称为图像元数据)。此外,客户端202可以操作为基于与图像相关联的时域数据向图像分配初始分类。时域数据可以是生成图像的时间。例如,如果图像是图片,时域数据可以是指拍摄图片的时间。图像的初始分类可以指由客户端202执行的分类。
客户端202可以利用SOAP协议(例如,如在“SOAP Version 1.2Part 1:Messaging Framework”(Second Edition)W3CRecommendation 27April 2007中指定的,可以在如下地址获得:http://www.w3.org/TR/soap12-Part1/),利用超文本传输协议(http)与服务器204通信。
可以利用一个或多个应用服务器实现服务器204。
协调器218可以执行工作流程管理功能。具体而言,协调器218可以调用服务器204的其他模块以处理图像。协调器218协调图像和语义处理模块220元件之间的交互作用,由此能够进行图像相关和数据丰富。具体而言,协调器218可以通过使信息相关并丢弃在组合中被分析时无意义的结果来改善其他模块的可靠性。参考图4更详细地描述协调器218。
图像和语义处理模块220可以包括服务器204的大部分功能。具体而言,图像和语义处理模块220可以包括图像分割功能,以分割图像并提取图像分类元素。示范性图像分类元素是图像成分,即图像的一部分,例如大海、沙滩、人或树。可以利用图像分割算法提取(即识别)图像成分。图像成分也可以称为对象或段。图像分类元素的其他范例包括在全局识别图像的标签、与图像相关联的时域数据、图像的类别以及图像成分的分类。
图像分类元素还可以包括低层次图像信息,例如图像频谱、颜色变体或强度,以及更复杂的高层次图像信息,例如图像成分、面部、符号和地理特征。低层次信息可以用于基于内容的图像检索(CBIR),例如范例搜索查询。可以通过发现类似于所提供图像的图像来执行范例搜索查询;提供的图像也可以称为查询图像。例如,在范例查询中,用户可以利用图形用户接口210显示图像,并请求类似于所显示图像的所有图像。也可以基于一组图像进行范例搜索查询。可以使用高层次图像信息进行基于注释的图像检索。
图示注释(也称为图像标签)是图像分类元素的范例。也可以将图像注释理解为描述图像内容的词语。
图像和语义处理模块220也可以确定图像的最重要成分,可能基于图像中的色彩特性的组合,以及所示的对象、纪念物、人、面部和面部表情。用于确定图像最重要成分的技术可以包括提取低层次特征、图像结构、颜色分布、图像段、检测的形状、折点、面部识别和边缘检测。图像和语义处理模块220可以包括标签识别模块和成分识别模块。
此外,从图像提取的分类元素可以与对图像的引用一起被图像和语义处理模块220存储。可以将与图像相关联的所有分类元素称为图像的最终分类。可以由服务器204执行最终分类。最终分类可以基于初始分类。
可以向客户端202发回最终分类和对图像的引用。图像和语义处理模块220可以包括收集图像注释并利用来自语义处理的更多信息丰富图像注释的功能。可以将这种更多信息称为语义信息或语境信息。利用更多信息丰富图像注释可能涉及使用本体论和/或词典。根据具体范例,可以通过应用语义规则以对特定图像分类为诸如暑假,丰富利用特定图像注释(例如大海、海滩、人、树)注释的特定图像。于是,继续该范例,利用语义信息丰富特定图像可能涉及基于分配给图像成分的图像注释向特定图像分配类别。
图像和语义处理模块220可以使图像分割、自动图像注释和多种类型图像搜索技术能够集成,允许利用图像自身的语义分析来丰富图像标签。这样可以方便响应于用自然语言表达的用户查询(即,不利用预定义的术语或查询)检索图像。因为图像和语义处理模块220的缘故,用户无需向图形用户接口210中输入关键字,而是能够利用人类语言的表达请求图像。图像和语义处理模块220可以分析用户查询,例如,通过从用户查询的术语导出一个或多个概念并向图像分类元素(例如,图像注释)匹配导出的概念。图像和语义处理模块220还可以将从用户查询导出的查询概念与从图像分类元素导出的图像概念匹配。
图像和语义处理模块220可以是图像处理***中最复杂的部分。而且,可以将图像和语义处理模块220实现为能够从用户获得反馈以改善其结果的学习机。例如,可以利用支持矢量机实现图像和语义处理模块220。支持矢量机(SVM)可以被理解为能够用于分类的一组相关受监督学习方法。可以为SVM提供一组训练范例,其每个都被标记为属于两个类别之一。然后可以使用训练算法构建模型,模型判断新范例落在一个类别还是另一个类别中。训练范例可以被理解为训练数据的子集。
服务器存储器221可以操作为存储图像信息,例如图像分类元素和对关联图像的引用。例如,服务器存储器221可以包括地理位置信息和地名之间的映射,从事件到地理位置和时域数据的映射,感兴趣点的列表,语义概念,训练数据,用户账户信息等。可以通过若干方式获得地理位置信息。例如,可以通过与照相机集成的GPS装置、独立的GPS装置捕获,或者可以由用户人工输入地理位置信息。
网络服务模块222可以方便客户端202对服务器204的访问。网络服务模块222还可以包括网络服务器和服务器通信模块。在一些情况下,可以将协调器218实现为网络服务模块222的一部分。
图像和语义处理模块220还可以包括社区爬虫模块(未示出),其可操作为从图像共享网络,即方便共享图像的网络,检索内容。图像共享网络可以是社交网络,例如Facebook(Facebook是FacebookInc.的商标)。在一些情况下,可以将社区爬虫实现为社交网络适配器的一部分。图像共享网络也可以是照片共享网络,例如GooglePicasa(Google和Picasa是Google Corporation的商标)、flickr或Kodak Gallery(Kodak和Kodak Gallery是Kodak Corporation的商标)。具体而言,网络服务模块222的适配器部件可以操作为从用户注册的社交网络(SN)的相册收集图像,并对收集的图像与客户端存储器214中存储的图像一起进行编索引。
有利地,在用户搜索图像时,用户无需访问多个账户(例如社交网络账户),而是能够利用图形用户接口210搜索图像。因此,客户端202和服务器204将检索与用户搜索匹配的所有图像,不论图像的存储位置在哪里。于是,在单个视图中实现来自不同源的内容。
此外,协调器218可以被配置成协调涉及服务器204的所有通信流。这可以改善服务器204的可缩放性和模块性。具体而言,图像和语义处理模块220可以实现为闭合专有***。因此,利用协调器218,能够向图像处理***中结合新模块而不修改图像和语义处理模块220;仅协调器218会受到影响。
在一些情况下,可以利用客户端存储器214存储大量图像。客户端202可以连接到显示装置,例如电视机,以便显示所存储图像的目录,图像被自动按类别组织。可以利用提取的图像分类元素进行自动分类。此外,可以使用图形用户接口210利用各种方法,例如,使用自然语言查询或上述范例查询搜索图像。
此外,服务器204可以为多个用户,例如家庭网络社区处理图像并存储图像分类元素。可能结合其他应用,例如相册服务,用户可能能够利用与客户端202交互从家庭网络社区的各成员检索照片。服务器204可以包括访问列表,以确保用户仅访问被授权访问的图像。
图3示出了根据公开的特定实施例的客户端202的另一种架构。该架构与图2所示的相比,提供了客户端202更详细的外观。该架构包含多个模块。
图形用户接口(GUI)210可以使用户能够与客户端202交互。在一些情况下,GUI 210可以取决于客户端202的硬件实现。例如,如果将客户端202实现为NAS或网络访问网关,可以将GUI 210实现为一组可以通过以太网端口112访问的动态网页。如果将客户端202实现为STB,可以将GUI 210实现为要显示于电视机上并通过遥控器控制的图形应用。
客户端通信模块216可以管理与服务器204的通信。具体而言,通信模块216可以使用SOAP协议作为网络服务样式的一部分,例如,HTTP上的扩展标记语言(XML)请求。
客户端202也可以包括应用逻辑302。可以使用应用逻辑302,通过管理GUI 210和客户端202其他模块之间的交互来控制客户端202上的操作。
此外,客户端202可以包括预处理器304。预处理器304能够对图像执行预备操作。具体而言,预处理器304可以包括初始分类模块,其可操作为向图像分配初始分类。预处理器304执行的分类可以充当服务器204执行的进一步分类的依据。换言之,图像的初始分类可以充当图像最终分类的依据。
预处理器分配的初始分类可以基于与图像相关联的时域数据(例如,时间戳,包括生成图像的年、月、日)。例如,如果图像为图片,可以从拍摄图片的日期导出图片的初始分类。
在一些情况下,将接收的图像时间戳与先前存储图像的时间戳比较。先前存储的图像可以与一个或多个事件相关联,其中每个事件可以指期间生成多个图像的发生。事件的范例包括个人事件,例如暑假、生日或周年纪念。事件还可以指公众知道的事情,例如啤酒节。
如果发现接收到的图像时间戳充分接近先前存储图像之一的时间戳,也可以将与先前存储图像相关联的事件与接收的图像相关联。例如,如果接收的图像和先前存储图像是彼此相对在三天内拍摄的,就可以将接收的图像和先前存储图像与同一事件相关联。此外,也可以将与事件相关联的图像分类元素与接收的图像相关联。如果接收的图像时间戳不是充分接近任何先前存储图像的时间戳,可以为接收的图像生成新的事件。如果接收到多个图像,且多个图像具有充分彼此接近的关联时间戳,那么可以将多个图像与同一事件相关联。
因此,向接收的图像分配初始分类可以包括将接收的图像与先前存储图像相关联,即将接收的图像和先前存储图像与同一事件相关联。
例如,Alice已经使用图像处理***生成了与Alice和Bob的暑假相关联的用户图像的最终分类。图像具有关联的时域数据,其指示2009年8月1日和15日之间的日期。最终分类包括具有诸如“假期、夏季、大海、Capri、Alice、Bob”注释的相关图像成分。于是,每个图像可以具有多个图像成分和多个图像注释。
继续该范例,Bob向Alice发送他的暑假图片,Alice将Bob的图片上载到客户端202。预处理器304判定与Bob的图片相关联的时域数据指示2009年8月1日和15日之间的日期。预处理器304可以向Bob的图片分配初始分类,其包括针对Alice的图片产生的最终分类的图像分类元素。分配给Bob图片的初始分类可以为服务器204提供用于分析和歧义消除的起点。例如,如果在识别图像分类元素期间,图像处理***不能区分Bob和另一个人,***可以排除另一个人,因为这组图片是与Alice和Bob的假期关联的。
于是,通过将新识别的图像成分,例如识别的面部,与先前存储的最终分类相关,可以补偿特定模块,例如面部识别模块中的限制,这可能是有利的。
可以通过向用户提供初始分类结果来验证初始分类。用户可以接受初始分类或将接收的图像与另一事件相关联。而且,用户可以生成新事件并将接收的图像与新事件相关联。一旦进行验证,就可以在图像存储器306中存储接收的图像。可以从图像存储器306中检索上文提到的先前存储图像。
客户端202还可以包括注释工具308。注释工具308可用于方便图像的人工标记。换言之,注释工具308可用于将说明项与图像关联。可以在初始分类之前、初始分类之后、最终分类之前或最终分类之后使用注释工具308。可以由服务器204使用通过注释工具308获得的输入。
图像检索模块310可以使用户能够从图像存储器306获得图像。具体而言,图像检索模块310可以提供几种方式浏览图像。例如,可以使用以下图像搜索方法之一:
-按照图像分类元素(例如事件、人名、地名、时域数据)浏览,
-按照标签云浏览,
-自然语言查询,
-范例查询。
可以组合图像搜索方法,并可以从GUI 210的同一页访问。在一个范例中,用户能够开始按事件浏览,然后利用标签云、自然语言查询或范例查询细化搜索。将结合图4更详细地解释图像搜索方法。
图像检索模块310也可以与服务器204接口连接,例如用于自然语言查询的语义分析。在一些情况下,语义分析可能涉及用本体论概念替代自然语言术语。本体论概念可以捕获语义,例如具有相同含义的词语、作为其他概念的一部分的概念、子概念或自我定义的关系。可以利用可用的分类元素并考虑到与其他本体论概念的相互关系细化从查询导出的本体论概念。
图像检索模块310可以包括搜索引擎。
可以使用数据库312存储从图像分析、个人用户信息或另一来源导出的图像分类元素。数据库312中的图像分类元素可以包括生日、周年纪念、面部-姓名关联等。
因此,可以通过若干方式在客户端202接收(例如上载)图像。
在第一范例中,可以从个人计算机(PC)访问GUI 210。在这种情况下,用户可以在PC上存储图像。例如,可以从数字照相机向PC上的文件夹拷贝图像,或者从因特网下载或通过另一种方式在PC上放置。GUI 210可以利用标准网页浏览器到GUI 210的连接接收用户输入。可以使用GUI 210选择单个图像或整个文件夹以上载到客户端202。一旦确认选择,就可以向客户端202传输选定的图像,可能用于由预处理器304进行初始分类。一旦已经进行了初始分类,GUI 210可以显示验证页以使用户能够确认初始分类或选择替代分类。
在可以如何接收图像的第二范例中,可以访问客户端202上的共享文件夹,可以从PC向共享文件夹拷贝(例如,通过拖放、拷贝粘贴、使用命令行等)图像。一旦完成图像的拷贝,GUI 210就可以接收外部连接。响应于外部连接,客户端202可以产生通知,即需要处理新的内容。客户端202可以接收对通知的响应,其激活预处理器304并开始图像的初始分类。
在可以如何接收图像的第三范例中,可以将诸如数字照相机的USB存储装置连接到USB端口110。因此,客户端202可以利用先前安装的驱动程序识别USB存储装置。客户端202可以扫描USB存储装置以寻找图像,然后将其传输到图像存储器306。一旦完成传输过程,就可以经由GUI 210激活预处理器304,以便进行图像的初始分类。
图4示出了根据公开的特定实施例的服务器204的另一种架构。该架构与图2所示的相比,提供了服务器204更详细的外观。服务器204包括多个模块。
服务器204包括网络服务模块222。网络服务模块222可以被理解为客户端通信模块216的对应主体,方便与客户端202的通信。而且,网络服务模块222可以包括服务器通信模块,其可操作为从客户端202接收图像。服务器204可以从客户端202接收图像,连同图像的初始分类。或者,服务器204可以连同一个或多个图像分类元素一起接收图像。例如,服务器204可以连同时域数据(例如,生成图像的时间)和地理坐标(例如经纬度)一起接收图像。
网络服务模块222可以包括可操作为通过HTTP接收图像的专用网络服务。
可以从网络服务模块222向图像语义搜索框架(ISSF)协调模块402传递接收的图像。ISSF协调模块可以被理解为协调器218的具体实现。ISSF协调模块402执行工作流程管理功能。具体而言,在服务器204接收新图像时,ISSF协调模块402调用服务器204的其他模块,以便分析图像;ISSF协调模块402可以汇集图像分析的结果并增强图像理解。ISSF协调模块402可以包括最终分类模块。可以在最终分类中组合图像分析的结果。
最终分类可以包括一个或多个以下图像分类元素:
-情景描述(即图像标签),
-图像中示出的图像成分列表,
-图像成分分类,
-图像中所示的人的姓名,
-图像中所示的人的心情,
-时域数据,
-天气指示,
-事件信息,
-基于语义规则应用导出的类别,
-地名。
图像成分和情景描述可以是相关的。
在一个范例中,ISSF协调模块402可以向情景检测器404发送接收的图像。
情景检测器404可以操作为确定接收的图像的大致含义。换言之,情景检测器404可以识别在全局上描述接收的图像的标签。于是,标签描述接收的图像整体内容(即所有图像成分)。情景检测器404还可以操作为计算针对标签的标签正确性值。
对象识别器406可以操作为识别接收的图像的成分。具体而言,对象识别器406可以分割接收的图像并确定关于所识别成分的信息,例如,如图5的描述中所详述的。提取的信息可以包括接收的图像中每个被识别成分的位置。而且,对象识别器406可以针对每个被识别的成分计算成分正确性值。
情景检测器404和对象识别器406的目标是计算接收的图像中实际表达的特定概念的概率。两个模块都可以被理解为使用类似方法。情景检测器404和对象识别器406之间的差异是分析的目的。对于情景检测器404而言,将接收的图像作为整体考虑和分析,以便识别在全局上描述接收的图像的标签。相反,对于对象识别器406,首先将接收的图像分割成更小区域,然后加以分析以便识别接收的图像的各个成分。
可能是情景检测器404和对象识别器406共有的方法涉及从接收的图像提取一组表征特征并将提取的该组表征特征与词典(也称为码本)匹配。可以将每个表征特征理解为图像的数学表示。表征特征的范例是颜色直方图,即图像中颜色的分布。词典界定表征特征值和概念之间的映射。而且,词典可以定义表征特征值和图像成分之间的映射。
根据要提取的表征特征,情景检测器404和对象识别器406进行的图像处理可以涉及对接收的全色图像进行一些计算,同时在接收的图像的黑白版本上进行其他计算。可以对接收的图像的单色通道进行其他计算。
例如,可以将词典的元素表达为{表征特征值,概念}对。根据该范例,表征特征值涉及从引用图像提取的成分,并且概念是与那些值相关联的注释。通过评估从接收的图像提取的表征特征的值和词典中表征特征值之间的差异,可以计算概念与接收的图像相关联的概率。
在另一个范例中,有若干图像示出了大海,其他图示出了火。针对大海图像的颜色直方图针对蓝色和绿色成分将具有更高值,而针对火图像的颜色直方图针对红色成分将具有更高值。根据该范例,词典中的条目数量等于图像数量。每个条目将包括图像的颜色直方图和人工关联的概念(即,本范例中的大海或火)。一旦构建,将把词典用作对新图片分类的参考:对于每个新图像,通过学习机分类器,例如支持矢量机(SVM)计算颜色直方图并与词典中那些比较。SVM的输出是与新图像相关联的颜色直方图类似于与词典中参考图像相关联的颜色直方图的概率。由于颜色直方图与词典中的概念相关联,所以SVM的输出是图像表达概念(例如,与参考图像相关联的概念)的概率。注意,颜色直方图仅是表征特征的一个范例。
对于情景检测器404而言,分析整个图片,聚焦于背景上。在一个范例中,在提取特征之前,情景检测器404向接收的图像应用高斯滤波以便使不连续性平滑。高斯滤波的视觉效应是使接收的图像模糊,因此其显得平坦化;通过这种方式,将前景要素与背景要素混合,提供了更均质的图像。
在滤波之后,计算表征特征(例如颜色直方图)并匹配到词典中的表征特征。完美的匹配一般是不可能的,除非在接收的图像与词典中的图像相同时。于是,可以利用机器学习分类器,例如支持矢量机(SVM)或Fisher分类器进行匹配。在一些情况下,供应一组训练范例。训练范例也可以称为模型或模板图像。将每个训练范例标记为属于两个类别之一,并且SVM训练算法构建模型,该模型预测新范例落在一个类别还是另一个类别中。在这种情况下,类别为概念,并且扩展SVM以支持超过两个类别(多类SVM)。SVM可以输出标签正确性值。
对象识别器406可以使用类似于情景检测器404的方式。对象识别器406的目标是判断图像成分是否属于图像,而不是分析整个图像。因此,对象识别器406可以分析接收的图像的更小段。可以将段与参考对象(也称为视觉词语)比较。于是,在隔离阶段中,可以利用诸如边缘检测和角部检测的技术分解接收的图像。可以使用这些技术通过梯度分析隔离形状。隔离阶段背后的原理是图像成分的边缘可能位于梯度具有最大值的地方;这与情景检测器404的情况相反,其中应用高斯滤波以使梯度的差异最小化。在隔离阶段之后,可以计算接收的图像每个区域的表征特征(例如颜色直方图和轮廓线)。然后可以将这些表征特征与从参考对象的图像提取的表征特征匹配。可以利用上文结合情景检测器404所述的机器学习分类器进行匹配。机器学习分类器可以输出成分正确性值。
对于每个图像标签和每个图像成分可以有若干训练范例。通常,对于图像标签或图像成分有越多的训练范例,就越可能以高概率识别标签或成分。换言之,随着与图像标签相关联的训练范例数量增大;可以利用该图像标签全局描述的所接收图像的标签正确性值可以增大(即,趋向完美匹配)。对于图像成分正确性值适用同样的情况。有利地,客户端202接收且由图像处理***处理越多图像,训练范例的数量可能增加。此外,可以使用来自用户的反馈,例如通过将识别数据与训练范例关联来改善图像标签的确定和图像成分的识别。
涉及对象识别器406的范例可以帮助例示对象识别器406和情景检测器404对训练范例的使用。如果接收的图像是蜂鸟的图片(或包括蜂鸟的图片),且该组训练范例中没有鸟类图片,那么对象识别器406可能不会识别出接收的图像中有鸟类。如果该组训练范例中有鸟的图片,且图片被一般地分类为鸟类而没有任何具体分类,那么对象识别器406可以将蜂鸟识别为鸟,关联的图像成分正确性值可以与该组训练范例中蜂鸟的图片数量成比例。于是,图像成分正确性值和标签成分正确性值可能取决于该组训练范例中的图像数量和如何对图像分类(例如,与训练范例相关联的注释)。
在一些情况下,可以将标签正确性值和成分正确性值实现为百分比。标签正确性值可以表示对应标签精确描述接收的图像的可能性。换言之,标签正确性值是图像表示由标签识别的特定情景(例如室外、室内、大海、森林、都市风景)的概率。成分正确性可以表示已经精确识别对应成分的可能性。
语义相关模块408可以利用标签正确性值和成分正确性值将标签与图像成分相关。语义相关模块408可以识别至少一个相关的标签和至少一个相关的图像成分。换言之,语义相关模块408消除情景检测器404输出和对象识别器406输出的歧义。
面部识别模块410可以操作为识别图像中的面部并将名称与识别的面部相关联。例如,如果对象识别器406识别多个图像成分,面部识别模块410可以识别多个成分之内的面部。可以利用不同技术识别不同图像成分。例如,可以利用与其他图像成分相比不同的技术识别面部。在一些实施方式中,图像成分分类仅与面部相关联而不与其他图像成分相关联。
在一些情况下,姓名基于训练数据,例如训练范例与面部相关联。类似于情景检测器404和对象识别器406,面部识别模块410可能需要超过一个训练范例(可能是从不同角度拍摄的照片),以便识别面部。可以利用面部的已知特征(即面部特征)使面部识别模块410执行的计算更加有效率。下文将更详细地论述用于面部识别模块410的训练数据。
此外,面部识别模块410也可以操作为基于所识别面部的面部表情判断心情。
语义扩展器412处理由服务器204的其他模块识别的图像分类元素以便丰富它们。具体而言,语义扩展器412可以应用规则,以便确定接收的图像的类别。可以利用时域数据、每个相关的图像标签和每个相关的图像成分应用规则。此外,语义扩展器412可以基于基于文本的图像分类元素的语义分析增加上下文信息。语义扩展器412还可以解析从客户端202接收的查询中的查询项。下文通过论述具体范例更详细地阐述语义扩展器412应用的规则(即语义规则)和增加的上下文信息。
服务器204还可以包含对象分类器414。对于特定类型的图像成分,对象分类器414可以操作为将图像成分分类与图像成分相关联。例如,如果图像成分为汽车,对象分类器414可以操作为将型号标志与汽车相关联。可以扩展对象分类器414以简单通过修改ISSF协调模块402中的工作流程来进一步对图像成分分类。在当前场景中,可以将工作流程理解为连接步骤的序列。于是,因为服务器204的特定架构,增加新的对象分类器可能仅仅需要执行额外的步骤以对与新对象分类器相关联的成分分类。图像处理的其余部分和其他成分的操作可以不受影响。
对象分类器414也可以允许将服务器204用于若干不同场景中,例如消费者场景或商务场景中。例如,在消费者场景中,客户端202可以是家庭网络的一部分。或者,在商务场景中,客户端202可以是企业网络的一部分。其他场景也是可能的。
地理数据库416可以包括地理位置和地名之间的映射。地名可以指城市(例如西雅图)、地区(例如Shaw Island)、建筑物(例如西斯廷教堂)等。地理数据库416还可以包括感兴趣点的列表以及与地理位置相关联的场景信息。感兴趣点可以被理解为某人可能发现有用或感兴趣的地点(例如地球上代表Space Needle位置的地点)。场景信息可以包括游览对应地理位置的旅游者感兴趣的材料。地理数据库416中的信息可以方便识别图像标签和图像成分。可以将地理位置表示为地理坐标,可能包括一个或多个以下内容:
-经纬度,
-方位或方向,以及
-街道地址。
社交网络(SN)适配器418可以方便服务器204和与用户相关联的图像共享网络之间的通信。图像共享网络可以是社交网络,例如Facebook或诸如flickr的照片共享网络。SN适配器418可以使图像共享网络的内容能够被服务器204索引。SN适配器418也可以操作为从图像共享网络检索图像。SN适配器418可以与特定类型的图像共享网络集成。可以使用其他适配器方便与不同图像共享网络,例如具有不同API的图像共享网络的通信。每个通过SN适配器418通信的图像共享网络都可以具有一组公共应用编程接口(API),其允许访问用户的图像画廊。用户的图像画廊可以指图像共享网络上与用户相关联的图像。
为了在图像共享网络上注册,用户可以访问GUI 210。用户然后能够选择一个或多个图像共享网络,并提供针对每个选定网络的验证信息(例如,用户名和口令)。客户端202可以向ISSF协调模块402转发验证信息,ISSF协调模块可以利用选择的图像共享网络验证用户名和口令的有效性并激活SN适配器418。
在激活之后,SN适配器418可以配置成利用用户的验证信息定期(例如一天一次)连接到图像共享网络。在成功连接之后,SN适配器418可以访问用户的图像画廊。由SN适配器418检索图像画廊中没有最终分类的每幅图像并传递到ISSF协调模块402。ISSF协调模块402然后可以识别分类元素,以便产生所检索图像的最终分类。一旦产生了最终分类,可以向客户端202发送最终分类和对所检索图像的引用并在数据库312中存储。
可以背地地,例如在夜间进行从图像共享网络检索图像的过程,以便减小网络和***负载。任选地,客户端202可以操作为在用户连接到GUI 210时提示用户验证所检索图像最终分类的分类元素。
在一些情况下,在预定时间之后自动验证识别的图像分类元素。
有利地,SN适配器418能够使用户能够具有所有其图像的唯一和一致观察。于是,用户能够通过图形用户接口210访问其所有图像。用户不需要独立访问它注册的每个图像共享网络,而是能够从一个地方访问所有图像。换言之,利用单次搜索,用户能够访问其整个图象库,实现简化的搜索过程。
事件DB 420包括关于事件发生的信息,例如公共事件(例如竞赛、节日或体育事件)。事件DB 420还可以包括与特定事件(例如生日或周年纪念)相关联的个人事件信息。事件可以是图像场景的一部分。事件也可以与时域数据或地理位置相关联。
在服务器402结束处理接收的图像之后,可以向客户端202发送最终分类。最终分类可以包括所识别图像分类元素的一些或全部。因此,可以利用GUI 210显示接收的图像。在一些情况下,强调并描述了接收的图像的所识别图像分类元素(例如图像成分,如面部)。
客户端202可以操作为从用户接收所识别图像分类元素的验证。在这种情况下,在数据库312中存储识别的图像分类元素并准备好供将来检索。此外,可以向ISSF协调模块402发送正指示,协调模块接着通知服务器204的其他模块关于验证的结果。因此,服务器204的模块可以基于验证更新其训练数据。
而且,客户端202可以操作为从用户接收修改和/或额外细节。在这种情况下,用户能够修改识别的图像分类元素,例如,用户能够修改与面部相关联的姓名或改变所识别图像成分的标识符。于是,如果不正确地识别了图像成分,不正确地命名了面部或根本未命名面部,客户端202能够从用户接收校正。用户可以提交变化,其可以被存储在数据库312中并转发到ISSF协调模块402。ISSF协调模块402能够向服务器204的其他模块传递修改,使得它们能够相应地更新其训练数据。
现在将描述处理服务器204从客户端202接收的用户图像的具体范例。根据范例,可以从网络服务模块222向ISSF协调模块402传输图像。ISSF协调模块402也可以接收与图像相关联的时域数据(例如对于图片而言,拍摄图片的时间)和与图像相关联的地理位置。
接收的图像可以在前景中示出有很多人的海滩。情景检测器404可以确定五个图像标签,其中每个图像标签全局地描述接收的图像内容。每个图像标签可以与标签正确性值相关联。例如,在下表中示出了图像标签和关联的标签正确性值:
图像标签 正确性值
海岸 70%
天空 65%
山峦 30%
森林 5%
高速公路 3%
因此,最高的标签正确性值与“海岸”图像标签相关联,而最低的标签正确性值与“高速公路”图像标签相关联。从上表可以看出,接收的图像中有一些含糊。在这种情况下,情景检测器404不能决定性地判断海岸还是天空为主,因为两个图像标签都具有类似的标签正确性值。
继续该范例,一旦已经确定了图像标签和对应的标签正确性值,就可以将接收的图像传递到对象识别器406。对象识别器可以产生一组图像成分和成分正确性值,类似于上表中所示的该标签组和值。在范例中,对象识别器406可以判定图像包含“人”、“岩石”和“船”,具有高的关联正确性值。ISSF协调模块402可以利用语义相关模块408使情景检测器404和对象识别器406产生的结果相关。例如,ISSF协调模块402可能能够使用对象识别器406识别的人、岩石和船以便排除“天空”图像标签全局描述接收的图像内容的可能性。例如,如果最高标签正确性值和第二高标签正确性值相似,可以使用对象识别器406识别的图像成分排除图像标签之一。
或者,如果在处理图像期间,决定性图像标签被识别为具有比任何其他识别的图像标签高得多的正确性值,ISSF协调模块402和语义相关模块408可能能够使用决定性图像标签以识别含糊的图像成分。在这种情况下,含糊的图像成分可以具有类似的关联正确性值(例如,彼此在10%之内)并可以对应于同一图示对象。例如,如果将对象A识别为鸟具有50%的关联正确性值,将对象A识别为悬挂的灯具有45%的关联正确性值,那么可以使用决定性的情景标签“沙滩”排除“悬挂的灯”。
在相关之后,ISSF协调模块402可以使用地理数据库416以确定与图像的地理位置相关联的地名。根据该范例,该图像是在Capri拍摄的图片。ISSF协调模块402也可以基于地理位置确定至少一个感兴趣点。在这种情况下,将Faraglioni识别为与Capri相关联的感兴趣点。Faraglioni可以与先前识别为图像成分的岩石相关联。于是,ISSF协调模块402将Capri和Faraglioni识别为接收的图像的图像分类元素。可以将这些图像分类元素结合到最终分类中。
此外,ISSF协调模块402可以从与接收的图像相关联的时域数据导出天气指示。例如,天气指示可以是与时域数据对应的季节(例如夏季)。此外,ISSF协调模块402可以搜索事件数据库424,查找与时域数据和地理位置相关的事件。事件可以是公共事件,例如Faraglioni Capri Prize,或个人事件,例如婚礼或聚会。可以由用户配置个人事件。可以将被发现为与时域数据和地理位置相关的事件识别为分类事件并结合到最终分类中。在这个阶段,识别的图像分类元素可以包括以下内容(为清楚起见,成分位置和其他低层次图像特征已经省略):
{25/08/2009,夏季,{Faraglioni Capri Prize,Alice的生日}},海岸,
{Capri,{岩石,{感兴趣点,Faraglioni}}},人,船
因此,ISSF协调模块402可以向面部识别模块410传递接收的图像。面部识别模块410检测识别的图像成分中的面部并尝试将姓名与每个面部相关联。面部识别模块410可以从识别的面部提取面部表情,还可以基于面部表情确定心情(例如高兴、忧愁、哭泣、欢笑)。于是,在面部识别模块410已经处理接收的图像之后,识别的图像分类元素可以包括以下内容:
{25/08/2009,夏季,{Faraglioni Capri Prize,Alice的生日}},海岸,{Capri,{岩石,{感兴趣点,Faraglioni}}},船,{人,{Alice,{欢笑,高兴}},{Bob,{高兴}}
接下来,可以向语义扩展器412传递识别的图像分类元素。语义扩展器412可以向识别的图像分类元素应用一个或多个语义规则以便确定接收的图像类别。根据范例,因为接收的图像是在夏季拍摄的,接近与旅游相关联的感兴趣点,所以将接收的图像分类为假期。可以向识别的图像分类元素添加类别。此外,可以基于类别,例如,像度假、出差和旅游的类似概念,将额外的场景信息与接收的图像相关联。
可以利用XML定义语义规则。例如,可以将符合以下语义规则标准的图像分类为“假期”,
在完成处理之后,基于识别的图像分类元素产生接收的图像的最终分类。将最终分类发送给客户端202,其在数据库312中与图像一起存储最终分类。
现在将更详细地论述考虑到最终分类由图像检索模块310实现的多种图像搜索方法。
搜索图像的简单方法是选择一组图像分类元素用于在图像存储器316中搜索图像。一旦选择了一组图像分类元素(例如所有事件),就显示所选组中的图像分类元素列表(即,显示所有事件)。然后可以选择图像分类元素(例如Alice的生日),并且能够浏览与所选图像分类元素相关联的图像。可以选择的图像分类元素组包括:
-事件,
-人,
-位置,
-时域数据。
也可以选择其他组的图像分类元素,例如心情或图像标签。
搜索图像的另一种方法是通过标签云浏览。可以在数据库312中维持关于分类元素的统计信息。每次向数据库312增加新的最终分类时,都可以更新新的最终分类中的每个图像分类元素的统计信息。可以在云中给出数据库312中分类元素的子集,其中每个图像分类元素具有与数据库312中分类元素出现次数成比例的字体大小。响应于选择云中给出的分类元素,GUI 210可以显示与所选分类元素相关联的预览图像。换言之,预览的图像可以具有包括所选分类元素的最终分类。而且,响应于选择,可以更新标签云,从而仅显示与预览图像最相关的分类元素。可以进一步细化标签云,可以响应于额外的用户输入减少预览图像的数目。
搜索图像的又一种方式是利用自然语言查询。用户可以向文本框中键入包括至少一个查询项的查询(例如语句)。例如,一个查询可以是“为我显示所有我在海边的照片”。客户端202可以将查询传递到ISSF协调模块402,其可以将查询发送到图像和语义处理模块220。图像和语义处理模块220可以处理查询并返回可能合理地与查询相关联的图像分类元素列表。在接收到图像分类元素的列表时,客户端202可以搜索图像存储器306,以查找具有包括所列图像分类元素中的至少一个的最终分类的图像。
搜索图像的另一种方法是范例查询。范例查询涉及发现类似于查询图像的响应图像。可以通过比较诸如低层次图像特征(例如频谱、颜色方差、强度)的图像分类元素来进行范例查询。于是,响应于范例查询找到的响应图像可以包括查询图像的图像分类元素。
与图2到4中所示架构不同的架构也是可能的。不过,图2到4的架构具有如下优点:由服务器204执行图像分割以及语义丰富和语义搜索的处理器密集型任务。因此,提供与服务器204上执行那些服务对应的服务的服务供应者可以能够获得与提供不同服务的服务供应者相比更多的收入。图2到4中所示的架构也可以更可缩放,并提供比替代架构更优化的资源利用。例如,如果由客户端202执行更多任务,嵌入式***100可能需要额外的能力,由此变得更加复杂和昂贵。嵌入式***100的集中化计算能力还可能在长时间内保持未用,因为可能仅在自动标记过程期间需要它。此外,在服务器204处集中计算能力允许在多个客户端应用之间共享计算能力。
上述客户端服务器***可以提供用户简单性和效率。用户不需要知道情景后方运行的是什么。相反,用户能够关注其需要什么,并用其自己的词汇表达;***做剩余的工作。
图5示出了利用客户端202和服务器204识别图像分类元素的示范性方法。
用户502可以利用例如GUI 210上载多个图像504。例如,用户502可以从假期回来,在数字照相机中存储了若干图像。用户502可以将数字照相机连接到嵌入式***100,可以从数字照相机向嵌入式***100自动上载所有图像。
可以例如由对象识别器406和图像分割模块218自动识别上载图像506的图像成分。例如,可以识别上载图像506的一个图像成分并分配“大海”的标签508。可以识别上载图像506的另一图像成分并分配“人”的标签510。如图所示,可以为上载图像的其他成分进行类似分配。
总之,可以利用识别图像中示出的物体、人、地方和自然要素的分割和注释算法识别图像的分类元素。也可以将识别图像的分类元素称为从图像提取分类元素。有利地,可以将从图像提取的分类元素发送到客户端202,用于验证或校正。
图6示出了图像搜索的范例,其中由客户端202和服务器204提供图像搜索的结果。可以将上载图像506的识别的图像分类元素组织成语义组,加以分析并利用概念和场景丰富。可以利用图像和语义处理模块220存储识别的图像分类元素。可以连同对上载图像的引用一起存储识别的图像分类元素,用于对后续查询做出响应。
用户能够通过编制查询来执行面向内容的搜索。可以使用不同类型的查询,例如自然语言或范例查询。可以利用图形用户接口210浏览作为用户查询结果返回的一幅或多幅图像。
例如,在步骤702,用户502利用图形用户接口210编制自然语言查询,并将查询发送到服务器204。在步骤704,基于自然语言查询进行上载图像的语义搜索,并检索上载的图像506。在步骤706,将语义搜索的结果返回到用户,即上载图像506。在图5的具体范例中,自然语言查询可能是“为我显示我在海边的所有照片”。
出于图7到9的目的,图像和语义处理模块220被分成两个部件:服务器图像处理模块220a和服务器语义处理模块220b。服务器图像处理模块220a执行图像分割和注释功能。服务器语义处理模块220b执行分类功能,例如,基于由服务器图像处理模块220a产生的数据。
图7示出了用于识别图片的图像分类元素的过程的泳道图。
在步骤701,用户502利用GUI 210向客户端202上载图片。GUI 210在步骤702中向客户端通信模块216传递图片。可以通过配置GUI 210以在RAM 106中存储图片并向客户端通信模块216传递对图片的引用来实现步骤702。也可以通过传递对表示图片的文件名的引用来实施步骤702。
在步骤703,客户端通信模块216向网络服务模块222传递图片。网络服务模块222在步骤704中向服务器图像处理模块220a传递图片。可以类似于步骤702实施步骤704,例如,可以在服务器204的存储器中存储图片,可以从网络服务模块222向服务器图像处理模块220a传递对图片的引用。
服务器图像处理模块220a在步骤705识别图像分类元素。例如,服务器图像处理模块220a可以进行特征提取和注释。可以在步骤706中向网络服务模块222返回图像分类元素(例如标签)。在步骤707,可以向服务器语义处理模块220b发送图像分类元素。
在步骤708,服务器语义处理模块220b可以进行图像分类元素的语义丰富,即,服务器语义处理模块220b可以利用语义信息丰富图像分类元素。执行语义丰富可以包括基于图像分类元素应用规则以确定图片的一个或多个类别。规则可以是语义规则。在步骤709,可以从服务器语义处理模块220b向网络服务模块222发送图像分类元素,包括类别。
网络服务模块222可以在步骤710中将图像分类元素与图片相关联。在步骤711,可以将对图片的引用,连同被丰富的图像分类元素一起返回到客户端通信模块216。客户端202可以在步骤712中在客户端存储器214中连同图像分类元素存储对图片的引用。
步骤713到717示出了用于人工校正或验证图像分类元素的过程。如果执行步骤713到717,可以执行步骤713作为步骤711和712的替代。换言之,可以在步骤710之后执行步骤713。可以执行步骤701到712,而不执行人工校正或验证。增加额外的步骤或消除步骤也是可能的。
在步骤710之后,作为步骤711和712的替代,可以从网络服务模块222向GUI 210发送对图片的引用和图像分类元素。用户502可以访问GUI 210,并且作为响应,可以在步骤714向用户502发送图片和图像分类元素。在步骤715,用户可以人工校正或验证图像分类元素。在步骤716,用户502可以访问GUI 210以向客户端202返回图片以及可能的校正的图像分类元素。可以在步骤717中在客户端存储器214中存储图片和由用户校正或验证的图像分类元素。
图8示出了用于对用户图片远程标记和索引的过程的泳道图。
在图8的范例中,从社交网络(SN)850,例如Facebook,检索图片,识别图片的一个或多个图像分类元素(即一个或多个与图片相关联的被丰富的标签),并在客户端存储器214中与图像分类元素一起存储对图片的引用。可以将社交网络850理解为图像共享网络的范例。
可以类似地实施图8中所示的被赋予了与图7所示步骤相同的标志的步骤。例如,可以类似于步骤704到712实施步骤806到814。
在步骤801,访问GUI 210,并且客户端202接收到用于社交网络850的与用户502相关联的用户名和口令。通过GUI 210,客户端202接收指令以对社交网络850存储的用户502的图片进行索引。在步骤802,从GUI 210向客户端通信模块216传递接收的指令。客户端通信模块216在步骤803向网络服务模块322传递接收的指令。
在步骤804,网络服务模块222利用用户名和口令访问社交网络850,以便检索社交网络850上存储的与用户502相关联的图片。在步骤805,向网络服务模块222发送与用户502相关联的图片连同由社交网络850增加的任何图片注释。网络服务模块222在步骤806中向服务器图像处理模块220a传递图片。
在步骤807中,服务器图像处理模块220a可以进行特征提取和注释。换言之,服务器图像处理模块220a可以识别图片的图像分类元素。
可以在步骤808向网络服务模块发送由服务器图像处理模块220a确定的图像分类元素(例如标签)。在步骤809,可以从网络服务模块222向服务器语义处理模块220b发送图像分类元素。
在步骤810,服务器语义处理模块220b可以执行图像分类元素的语义丰富。换言之,服务器语义处理模块220b可以利用语义信息丰富图像分类元素。执行语义丰富可以包括基于图像分类元素应用规则以为每个图片确定一个或多个类别。规则可以指语义规则。
在步骤811,可以从语义模块322向网络服务模块222发送图像分类元素。网络服务模块222可以在步骤812中将图像分类元素与对应图片相关联。在步骤813,可以从网络服务模块222向客户端通信模块216发送图片引用和关联的图像分类元素。客户端202可以在步骤814中在客户端存储器214中存储对图片的引用,连同对应的图像分类元素。
图9示出了为了搜索图片而可以执行的步骤的泳道图。可以在执行图8的步骤之后执行图9中的步骤。在步骤901,用户502可以访问GUI 210以便编制用户查询,以找到一个或多个图片。用户查询可以是自然语言查询,可以包括至少一个查询项(即,至少一个词语)。在步骤902,可以从GUI 210向客户端通信模块216转发用户查询,以便从用户查询提取一个或多个图像分类元素(例如标签)。从用户查询提取标签也可以涉及在步骤903从客户端通信模块216向网络服务模块222发送用户查询,以及在步骤904从网络服务模块222向服务器语义处理模块220b发送用户查询。可以在步骤905由服务器语义处理模块220b执行从用户查询提取标签所需的处理和分析。在一些情况下,从用户查询提取标签可以涉及从用户查询的项导出概念。
在步骤906,可以从服务器语义处理模块220b向网络服务模块222发送提取的标签。网络服务模块222可以在步骤907向客户端通信模块216发送标签,客户端通信模块216可以在步骤908向图像处理模块212传递标签。
在步骤909,图像处理模块212可以与客户端存储器214交互,以便找到匹配从用户查询提取的标签的一个或多个图片。
在步骤910,如果在客户端202存储匹配标签的图片,服务器语义处理模块220b可以向搜索引擎212返回匹配的图片。此外或备选地,如果在社交网络850存储匹配的图片,可以在步骤910向搜索引擎212返回对匹配图片的引用。在步骤911,从搜索引擎212向GUI 210转发匹配图片或图片引用。可以在步骤912显示存储在客户端202或社交网络850的匹配图片。

Claims (23)

1.一种用于图像处理的方法,所述方法包括:
-接收至少一个用户图像;
-通过如下操作识别所述用户图像的多个图像分类元素:
--向所述用户图像分配初始分类,其中所述初始分类基于与所述用户图像相关联的时域数据;
--从所述用户图像提取至少一个表征特征并且将提取的所述表征特征与一个词典匹配,其中所述词典界定表征特征值和概念之间的映射,其中所述词典中的每个概念与引用图像相关联;
--经由学习机分类器比较提取的所述表征特征的值与所述词典中的所述表征特征的值;
--由所述学习机分类器针对多个所述概念计算标签正确性值,
其中所述多个所述概念中的每个概念是全局描述所述用户图像的内容的图像标签,其中每个标签正确性值指示对应的所述图像标签精确描述所述用户图像的概率;
--识别所述用户图像的至少一个图像成分,其中所述图像成分是使用图像分割算法识别的所述用户图像的一部分;
--针对每个图像成分计算成分正确性值,其中所述成分正确性值指示所述图像成分已被精确识别的概率;
--利用所述标签正确性值和所述成分正确性值将多个所述图像标签和所述图像成分相关,其中当最高标签正确性值和第二高标签正确性值足够相似以使得为主的图像标签无法被确定性地确定时,所述相关利用识别的所述图像成分以排除所述图像标签之一,由此识别相关的图像标签和相关的图像成分;
--应用语义规则以确定所述用户图像的类别,其中所述语义规则基于如下至少一项:所述时域数据、所述相关的图像标签和所述相关的图像成分;以及
--产生包括以下图像分类元素的所述用户图像的最终分类:所述初始分类、所述相关的图像标签、所述相关的图像成分和所述类别。
2.根据权利要求1所述的方法,其中识别所述多个图像分类元素还包括:
接收与所述图像相关联的地理位置;以及
确定与所述地理位置相关联的地名;
其中所述最终分类还包括所述地名。
3.根据权利要求2所述的方法,其中识别所述多个图像分类元素还包括:
基于所述时域数据和所述地理位置确定事件;
其中所述最终分类还包括所述事件。
4.根据前述权利要求的任一项所述的方法,其中识别所述多个图像分类元素还包括:
从所述时域数据导出天气指示;
其中所述最终分类还包括所述天气指示。
5.根据权利要求1-3的任一项所述的方法,其中识别所述用户图像的至少一个图像成分还包括:识别多个图像成分,且其中识别所述多个图像分类元素还包括:
将所述图像成分分类与所述多个图像成分的第一图像成分相关联;
其中所述最终分类还包括所述图像成分分类,
其中所述第一图像成分被识别为面部,所述方法还包括:
将姓名与所述面部相关联;以及
基于所述面部的表情确定心情;
其中所述最终分类还包括所述姓名和所述心情。
6.根据权利要求1-3的任一项所述的方法,还包括:
验证所述初始分类;
验证所述用户图像的最终分类,其中接收训练信息以产生后续图像的后续最终分类。
7.根据权利要求1-3的任一项所述的方法,还包括:
基于所述初始分类将所述用户图像与存储的图像相关联;和/或
基于所述最终分类将所述用户图像与存储的图像相关联。
8.根据权利要求1-3的任一项所述的方法,其中接收至少一个用户图像还包括:
接收多个用户图像;以及
从图像共享网络检索多个用户图像中的至少一个。
9.根据权利要求8所述的方法,还包括:
显示多个图像分类元素,其中根据与所述图像分类元素相关联的多个用户图像的数量显示每个图像分类元素;
接收从所述多个图像分类元素选择选定的图像分类元素的用户输入;
显示从所述多个用户图像选择的图像的预览,其中所选的图像分类元素包括在所选图像的最终分类中。
10.根据权利要求8所述的方法,还包括:
接收包括至少一个查询项的查询;
匹配所述查询项到匹配分类元素;
从所述多个用户图像检索匹配图像,其中所述匹配分类元素包括在所述匹配图像的最终分类中。
11.根据权利要求8所述的方法,其中所述多个用户图像包括查询图像和响应图像,所述方法还包括:
接收包括查询图像的查询;
匹配所述查询图像的分类元素与所述响应图像的分类元素;以及
响应于所述查询检索响应图像。
12.一种用于图像处理的设备,所述设备包括:
-用于接收至少一个用户图像的装置;
-用于通过如下装置识别所述用户图像的多个图像分类元素的装置:
--用于向所述用户图像分配初始分类的装置,其中所述初始分类基于与所述用户图像相关联的时域数据;
--用于从所述用户图像提取至少一个表征特征并且将提取的所述表征特征与一个词典匹配的装置,其中所述词典界定表征特征值和概念之间的映射,其中所述词典中的每个概念与引用图像相关联;
--用于经由学习机分类器比较提取的所述表征特征的值与所述词典中的所述表征特征的值的装置;
--用于由所述学习机分类器针对多个所述概念计算标签正确性值的装置,
其中所述多个所述概念中的每个概念是全局描述所述用户图像的内容的图像标签,其中每个标签正确性值指示对应的所述图像标签精确描述所述用户图像的概率;
--用于识别所述用户图像的至少一个图像成分的装置,其中所述图像成分是使用图像分割算法识别的所述用户图像的一部分;
--用于针对每个图像成分计算成分正确性值的装置,其中所述成分正确性值指示所述图像成分已被精确识别的概率;
--用于利用所述标签正确性值和所述成分正确性值将多个所述图像标签和所述图像成分相关的装置,其中当最高标签正确性值和第二高标签正确性值足够相似以使得为主的图像标签无法被确定性地确定时,所述相关包括利用识别的所述图像成分以排除所述图像标签之一,由此识别相关的图像标签和相关的图像成分;
--用于应用语义规则以确定所述用户图像的类别的装置,其中所述语义规则基于如下至少一项:所述时域数据、所述相关的图像标签和所述相关的图像成分;以及
--用于产生包括以下图像分类元素的所述用户图像的最终分类的装置:所述初始分类、所述相关的图像标签、所述相关的图像成分和所述类别。
13.根据权利要求12所述的设备,其中用于识别所述多个图像分类元素的装置还包括:
用于接收与所述图像相关联的地理位置的装置;以及
用于确定与所述地理位置相关联的地名的装置;
其中所述最终分类还包括所述地名。
14.根据权利要求13所述的设备,其中用于识别所述多个图像分类元素的装置还包括:
用于基于所述时域数据和所述地理位置确定事件的装置;
其中所述最终分类还包括所述事件。
15.根据权利要求12-14的任一项所述的设备,其中用于识别所述多个图像分类元素的装置还包括:
用于从所述时域数据导出天气指示的装置;
其中所述最终分类还包括所述天气指示。
16.根据权利要求12-14的任一项所述的设备,其中用于识别所述用户图像的至少一个图像成分的装置还包括:用于识别多个图像成分的装置,且其中用于识别所述多个图像分类元素的装置还包括:
用于将所述图像成分分类与所述多个图像成分的第一图像成分相关联的装置;
其中所述最终分类还包括所述图像成分分类,
其中所述第一图像成分被识别为面部,所述设备还包括:
用于将姓名与所述面部相关联的装置;以及
用于基于所述面部的表情确定心情的装置;
其中所述最终分类还包括所述姓名和所述心情。
17.根据权利要求12-14的任一项所述的设备,还包括:
用于验证所述初始分类的装置;
用于验证所述用户图像的最终分类的装置,其中接收训练信息以产生后续图像的后续最终分类。
18.根据权利要求12-14的任一项所述的设备,还包括:
用于基于所述初始分类将所述用户图像与存储的图像相关联的装置;和/或
用于基于所述最终分类将所述用户图像与存储的图像相关联的装置。
19.根据权利要求12-14的任一项所述的设备,其中用于接收至少一个用户图像的装置还包括:
用于接收多个用户图像的装置;以及
用于从图像共享网络检索多个用户图像中的至少一个的装置。
20.根据权利要求19所述的设备,还包括:
用于显示多个图像分类元素的装置,其中根据与所述图像分类元素相关联的多个用户图像的数量显示每个图像分类元素;
用于接收从所述多个图像分类元素选择选定的图像分类元素的用户输入的装置;
用于显示从所述多个用户图像选择的图像的预览的装置,其中所选的图像分类元素包括在所选图像的最终分类中。
21.根据权利要求19所述的设备,还包括:
用于接收包括至少一个查询项的查询的装置;
用于匹配所述查询项到匹配分类元素的装置;
用于从所述多个用户图像检索匹配图像的装置,其中所述匹配分类元素包括在所述匹配图像的最终分类中。
22.根据权利要求19所述的设备,其中所述多个用户图像包括查询图像和响应图像,所述设备还包括:
用于接收包括查询图像的查询的装置;
用于匹配所述查询图像的分类元素与所述响应图像的分类元素的装置;以及
用于响应于所述查询检索响应图像的装置。
23.一种可操作为处理图像的客户端-服务器***,所述***包括:
-客户端,所述客户端包括:
--接收模块,可操作为接收用户图像;
--客户端图像处理模块,可操作为向所述用户图像
分配初始分类,其中所述初始分类基于与所述用户图像相关联的时域数据;
-服务器,所述服务器包括:
--服务器通信模块,可操作为从所述客户端接收所述用户图像和所述初始分类;
--情景检测器,可操作为:
---从所述用户图像提取至少一个表征特征并且将提取的所述表征特征与一个词典匹配,
其中所述词典中的每个概念与引用图像相关联;
---经由学习机分类器比较提取的所述表征特征的值与所述词典中的所述表征特征的值;以及
---针对多个所述概念计算标签正确性值,
其中所述多个所述概念中的每个概念是全局描述所述用户图像的内容的图像标签,
其中每个标签正确性值指示对应的所述图像标签精确描述所述用户图像的概率;
--对象识别器,可操作为:
---识别所述用户图像的图像成分,其中图像成分是使用图像分割算法识别的所述用户图像的一部分;
---针对所述图像成分计算成分正确性值,其中所述成分正确性值指示所述图像成分已被精确识别的概率;
--相关模块,可操作为:
---利用所述标签正确性值和所述成分正确性值将多个所述图像标签和所述图像成分相关,其中当最高标签正确性值和第二高标签正确性值足够相似以使得为主的图像标签无法被确定性地确定时,所述相关包括利用识别的所述图像成分以排除所述图像标签之一;
---识别相关的图像标签和相关的图像成分;
--分类模块,可操作为应用语义规则以确定所述用户图像的类别,其中所述语义规则基于如下至少一项:所述时域数据、所述相关的图像标签和所述相关的图像成分;以及
--最终分类模块,可操作为基于所述初始分类,所述相关的图像标签,所述相关的图像成分和所述类别产生最终分类;
其中所述服务器通信模块还可操作为向所述客户端发送如下内容:所述最终分类和对所述用户图像的引用。
CN201180039649.9A 2010-07-02 2011-06-30 用于图像处理的计算机实施的方法、计算机程序产品和计算机*** Active CN103069415B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10425225.9 2010-07-02
EP10425225.9A EP2402867B1 (en) 2010-07-02 2010-07-02 A computer-implemented method, a computer program product and a computer system for image processing
PCT/EP2011/003235 WO2012000675A1 (en) 2010-07-02 2011-06-30 A computer-implemented method, a computer program product and a computer system for image processing

Publications (2)

Publication Number Publication Date
CN103069415A CN103069415A (zh) 2013-04-24
CN103069415B true CN103069415B (zh) 2016-10-26

Family

ID=43127440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180039649.9A Active CN103069415B (zh) 2010-07-02 2011-06-30 用于图像处理的计算机实施的方法、计算机程序产品和计算机***

Country Status (5)

Country Link
US (1) US9349077B2 (zh)
EP (2) EP2402867B1 (zh)
CN (1) CN103069415B (zh)
CA (1) CA2804230C (zh)
WO (1) WO2012000675A1 (zh)

Families Citing this family (247)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7657550B2 (en) 2005-11-28 2010-02-02 Commvault Systems, Inc. User interfaces and methods for managing data in a metabase
US20200257596A1 (en) 2005-12-19 2020-08-13 Commvault Systems, Inc. Systems and methods of unified reconstruction in storage systems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8879890B2 (en) 2011-02-21 2014-11-04 Kodak Alaris Inc. Method for media reliving playback
US9082452B2 (en) * 2011-02-21 2015-07-14 Kodak Alaris Inc. Method for media reliving on demand
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
KR101251212B1 (ko) * 2011-07-07 2013-04-08 알서포트 주식회사 Usb 장치의 원격 제어 방법 및 이를 수행하는 시스템
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
WO2013030843A1 (en) * 2011-08-30 2013-03-07 Hewlett-Packard Development Company, L.P. Automatically performing a web service operation
KR101262539B1 (ko) * 2011-09-23 2013-05-08 알서포트 주식회사 Usb 단말의 제어 방법 및 이를 수행하는 장치
US9449028B2 (en) 2011-12-30 2016-09-20 Microsoft Technology Licensing, Llc Dynamic definitive image service
US8971644B1 (en) * 2012-01-18 2015-03-03 Google Inc. System and method for determining an annotation for an image
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US20140019264A1 (en) * 2012-05-07 2014-01-16 Ditto Labs, Inc. Framework for product promotion and advertising using social networking services
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8892523B2 (en) 2012-06-08 2014-11-18 Commvault Systems, Inc. Auto summarization of content
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20130346068A1 (en) * 2012-06-25 2013-12-26 Apple Inc. Voice-Based Image Tagging and Searching
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20230137475A (ko) 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10474714B2 (en) * 2013-05-01 2019-11-12 Kble Ltd Method and component for classifying resources of a database
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9177410B2 (en) * 2013-08-09 2015-11-03 Ayla Mandel System and method for creating avatars or animated sequences using human body features extracted from a still image
KR20150039425A (ko) * 2013-10-02 2015-04-10 삼성전자주식회사 비디오/이미지 데이터 처리 방법 및 비디오/이미지 데이터 처리 시스템
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
DE102014113817A1 (de) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN103678611B (zh) * 2013-12-16 2017-10-13 小米科技有限责任公司 一种建立相册目录的方法、装置及终端设备
US10169702B2 (en) * 2013-12-30 2019-01-01 Htc Corporation Method for searching relevant images via active learning, electronic device using the same
CA2885874A1 (en) * 2014-04-04 2015-10-04 Bradford A. Folkens Image processing system including image priority
US20150324395A1 (en) * 2014-05-09 2015-11-12 Lyve Minds, Inc. Image organization by date
US11222044B2 (en) * 2014-05-16 2022-01-11 Microsoft Technology Licensing, Llc Natural language image search
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US20180107660A1 (en) * 2014-06-27 2018-04-19 Amazon Technologies, Inc. System, method and apparatus for organizing photographs stored on a mobile computing device
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10055433B2 (en) * 2014-09-18 2018-08-21 Microsoft Technology Licensing, Llc Referenced content indexing
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN104284131A (zh) * 2014-10-29 2015-01-14 四川智诚天逸科技有限公司 一种调节图像画面的视频通信设备
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9171352B1 (en) * 2014-12-04 2015-10-27 Google Inc. Automatic processing of images
CN104408190B (zh) * 2014-12-15 2018-06-26 北京国双科技有限公司 基于Spark的数据处理方法及装置
CN104615769B (zh) * 2015-02-15 2018-10-19 小米科技有限责任公司 图片分类方法及装置
KR102379171B1 (ko) * 2015-02-27 2022-03-25 삼성전자주식회사 전자 장치 및 그의 영상 표시 방법
US9495614B1 (en) 2015-02-27 2016-11-15 Google Inc. Verifying labels for images using image recognition
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10268886B2 (en) 2015-03-11 2019-04-23 Microsoft Technology Licensing, Llc Context-awareness through biased on-device image classifiers
US10055672B2 (en) 2015-03-11 2018-08-21 Microsoft Technology Licensing, Llc Methods and systems for low-energy image classification
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US20160335493A1 (en) * 2015-05-15 2016-11-17 Jichuan Zheng Method, apparatus, and non-transitory computer-readable storage medium for matching text to images
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN105224589A (zh) * 2015-06-29 2016-01-06 深圳市美贝壳科技有限公司 一种基于色调分类的照片检索方法
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105095911B (zh) * 2015-07-31 2019-02-12 小米科技有限责任公司 敏感图片识别方法、装置以及服务器
US9569213B1 (en) * 2015-08-25 2017-02-14 Adobe Systems Incorporated Semantic visual hash injection into user activity streams
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN105574167B (zh) * 2015-12-17 2020-01-14 惠州Tcl移动通信有限公司 一种基于移动终端的照片自动命名处理方法及***
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US20170185670A1 (en) * 2015-12-28 2017-06-29 Google Inc. Generating labels for images associated with a user
US9881236B2 (en) 2015-12-28 2018-01-30 Google Llc Organizing images associated with a user
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN107766373B (zh) * 2016-08-19 2021-07-20 阿里巴巴集团控股有限公司 图片所属类目的确定方法及其***
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10540516B2 (en) 2016-10-13 2020-01-21 Commvault Systems, Inc. Data protection within an unsecured storage environment
KR101911604B1 (ko) * 2016-10-21 2018-10-25 한국과학기술원 이벤트 검출을 위한 학습형 시스템 트레이닝장치 및 그 방법
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10163227B1 (en) * 2016-12-28 2018-12-25 Shutterstock, Inc. Image file compression using dummy data for non-salient portions of images
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN113014809B (zh) * 2017-02-23 2023-04-18 麦克赛尔株式会社 显示方法
WO2018153469A1 (en) * 2017-02-24 2018-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Classifying an instance using machine learning
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
KR102287043B1 (ko) * 2017-05-22 2021-08-06 삼성전자주식회사 카메라를 이용하여 획득한 이미지를 처리하는 전자 장치 및 그 동작 방법
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10726301B2 (en) * 2017-06-29 2020-07-28 The Procter & Gamble Company Method for treating a surface
CN107257509B (zh) * 2017-07-13 2020-11-17 浙报融媒体科技(浙江)有限责任公司 一种视频内容的过滤方法及装置
US10735514B2 (en) * 2017-08-29 2020-08-04 Western Digital Technologies, Inc. Remote application configuration on network-attached storage
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10795979B2 (en) 2017-09-27 2020-10-06 International Business Machines Corporation Establishing personal identity and user behavior based on identity patterns
US10776467B2 (en) 2017-09-27 2020-09-15 International Business Machines Corporation Establishing personal identity using real time contextual data
US10839003B2 (en) 2017-09-27 2020-11-17 International Business Machines Corporation Passively managed loyalty program using customer images and behaviors
US10803297B2 (en) 2017-09-27 2020-10-13 International Business Machines Corporation Determining quality of images for user identification
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP6919990B2 (ja) * 2017-10-17 2021-08-18 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面
KR102387767B1 (ko) * 2017-11-10 2022-04-19 삼성전자주식회사 사용자 관심 정보 생성 장치 및 그 방법
US10565432B2 (en) 2017-11-29 2020-02-18 International Business Machines Corporation Establishing personal identity based on multiple sub-optimal images
CN107943984A (zh) * 2017-11-30 2018-04-20 广东欧珀移动通信有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US20190251204A1 (en) 2018-02-14 2019-08-15 Commvault Systems, Inc. Targeted search of backup data using calendar event data
US10642886B2 (en) * 2018-02-14 2020-05-05 Commvault Systems, Inc. Targeted search of backup data using facial recognition
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
CN108805198B (zh) * 2018-06-08 2021-08-31 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备
CN108810413B (zh) * 2018-06-15 2020-12-01 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
WO2020047466A1 (en) * 2018-08-30 2020-03-05 The Government Of The United States Of America, As Represented By Thesecretary Of The Navy Human-assisted machine learning through geometric manipulation and refinement
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109754016A (zh) * 2019-01-04 2019-05-14 北京环境特性研究所 图片数据智能识别***
US10902295B2 (en) * 2019-02-08 2021-01-26 Sap Se Using transformations to verify computer vision quality
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11182963B2 (en) * 2019-04-03 2021-11-23 Posnap, Inc. Computerized system and method for providing a mobile augmented reality item display and selection experience
KR102608127B1 (ko) * 2019-04-08 2023-12-01 삼성전자주식회사 이미지 프로세싱을 수행하는 전자 장치 및 방법
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11263482B2 (en) 2019-08-09 2022-03-01 Florida Power & Light Company AI image recognition training tool sets
BR112022002824A2 (pt) * 2019-08-23 2022-05-10 Memorial Sloan Kettering Cancer Center Visualizador de lâminas universal
TWI709094B (zh) * 2019-08-26 2020-11-01 國立交通大學 社群資訊處理方法與系統
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN114631122A (zh) * 2019-10-14 2022-06-14 Pdf决策公司 半导体应用的协作学习模型
WO2021170230A1 (en) * 2020-02-26 2021-09-02 Huawei Technologies Co., Ltd. Devices and methods for providing images and image capturing based on a text and providing images as a text
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112269933A (zh) * 2020-11-04 2021-01-26 杭州卡欧科技有限公司 一种基于有效连接的潜在客户识别方法
US20220351503A1 (en) * 2021-04-30 2022-11-03 Micron Technology, Inc. Interactive Tools to Identify and Label Objects in Video Frames
US20220382811A1 (en) * 2021-06-01 2022-12-01 Apple Inc. Inclusive Holidays
CN115471980B (zh) * 2022-08-16 2024-03-22 智洋创新科技股份有限公司 泥石流灾害预警方法
CN116309081B (zh) * 2023-05-15 2023-08-04 民航成都电子技术有限责任公司 一种基于球形摄像机联动的视频全景拼接方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606411B1 (en) * 1998-09-30 2003-08-12 Eastman Kodak Company Method for automatically classifying images into events
CN101535996A (zh) * 2006-11-14 2009-09-16 皇家飞利浦电子股份有限公司 用于识别由数字图像捕获的对象的方法和设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931147B2 (en) * 2001-12-11 2005-08-16 Koninklijke Philips Electronics N.V. Mood based virtual photo album
US20030198387A1 (en) * 2002-04-22 2003-10-23 Tinku Acharya Method and apparatus for image retrieval
US7788592B2 (en) * 2005-01-12 2010-08-31 Microsoft Corporation Architecture and engine for time line based visualization of data
JP4772544B2 (ja) * 2005-04-27 2011-09-14 富士フイルム株式会社 撮像装置、撮像方法、及びプログラム
US7809192B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
CN101297292A (zh) * 2005-10-27 2008-10-29 皇家飞利浦电子股份有限公司 用于向电子日记本加入内容或从中获取内容的方法和***
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
US20100278396A1 (en) * 2008-01-18 2010-11-04 Nikon Corporation Image group title assigning device, image grouping device, representative image determination device for image group, image display device, camera, and image display program
US8111923B2 (en) * 2008-08-14 2012-02-07 Xerox Corporation System and method for object class localization and semantic class based image segmentation
WO2010075430A1 (en) * 2008-12-24 2010-07-01 Strands, Inc. Sporting event image capture, processing and publication
US8520909B2 (en) * 2009-03-11 2013-08-27 Hong Kong Baptist University Automatic and semi-automatic image classification, annotation and tagging through the use of image acquisition parameters and metadata
US8280958B2 (en) * 2009-07-13 2012-10-02 International Business Machines Corporation List passing in a background file sharing network
US8495057B2 (en) * 2010-05-17 2013-07-23 Microsoft Corporation Image searching with recognition suggestion

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606411B1 (en) * 1998-09-30 2003-08-12 Eastman Kodak Company Method for automatically classifying images into events
CN101535996A (zh) * 2006-11-14 2009-09-16 皇家飞利浦电子股份有限公司 用于识别由数字图像捕获的对象的方法和设备

Also Published As

Publication number Publication date
US20130170738A1 (en) 2013-07-04
CA2804230A1 (en) 2012-01-05
EP2402867B1 (en) 2018-08-22
CA2804230C (en) 2016-10-18
WO2012000675A1 (en) 2012-01-05
EP2402867A1 (en) 2012-01-04
CN103069415A (zh) 2013-04-24
US9349077B2 (en) 2016-05-24
EP2588974A1 (en) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103069415B (zh) 用于图像处理的计算机实施的方法、计算机程序产品和计算机***
US9430719B2 (en) System and method for providing objectified image renderings using recognition information from images
US9483500B2 (en) Automatic discovery of popular landmarks
US11115724B2 (en) Visual hash tags via trending recognition activities, systems and methods
CN102687146B (zh) 用于生成和标记照片集合中的事件的方法和***
US8649572B2 (en) System and method for enabling the use of captured images through recognition
US7809192B2 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
US20140355907A1 (en) Photo and video search
US20120027256A1 (en) Automatic Media Sharing Via Shutter Click
CN104331509A (zh) 照片管理方法及装置
CN102591868A (zh) 用于拍照指南自动生成的***和方法
KR101832680B1 (ko) 참석자들에 의한 이벤트 검색
KR101782590B1 (ko) 이미지 분석기반의 관계형 태그생성 및 추천 방법
US11899719B2 (en) Systems and methods for determining whether to modify content
KR101479260B1 (ko) 사진 기반 인물 친밀도 검색 방법
KR101563238B1 (ko) 사진 기반 인물 친밀도 구축 장치 및 방법, 그리고 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
Lee et al. A scalable service for photo annotation, sharing, and search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant