CN106537387B - 检索/存储与事件相关联的图像 - Google Patents

检索/存储与事件相关联的图像 Download PDF

Info

Publication number
CN106537387B
CN106537387B CN201580040406.5A CN201580040406A CN106537387B CN 106537387 B CN106537387 B CN 106537387B CN 201580040406 A CN201580040406 A CN 201580040406A CN 106537387 B CN106537387 B CN 106537387B
Authority
CN
China
Prior art keywords
event
image
language model
data item
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580040406.5A
Other languages
English (en)
Other versions
CN106537387A (zh
Inventor
R·H·A-M·曼索尔
M·F·阿布德尔-哈迪
H·S·M·A·埃尔巴兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106537387A publication Critical patent/CN106537387A/zh
Application granted granted Critical
Publication of CN106537387B publication Critical patent/CN106537387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述了检索和/或存储与事件相关联的图像。例如,包括文本的事件数据的流被分析以检测事件并且语言组件构建包括多个词语的、针对该事件的事件语言模型。在各种示例中,从web或其他源提取的图像具有相关联的文本。在示例中,具有与事件语言模型相似的相关联的文本的图像被标识为该事件的图像。在各种示例中,图像与事件之间的关联被用于更新图像检索***和/或图像存储***。在各种示例中,在图像检索***处接收与事件有关的查询项,图像检索***基于图像文本与事件语言模型之间的关联来返回与该事件相关的图像。

Description

检索/存储与事件相关联的图像
背景技术
图像检索通常通过利用文本来标记图像并且然后使用基于文本的文档检索方法来找到与由用户输入的查询词语相关的图像来实现。基于自动分析图像的内容的其他方法是更复杂的。
随着互联网上和来自其他源的图像文件的可用性持续增加,存在对高效且有效的图像检索***的不断发展的需求。
下面描述的实施例不限于解决已知图像检索***的缺点中的任何或全部缺点的实现方式。
发明内容
下面呈现了本公开内容的简化概要以便向读者提供基本理解。本概要不是本公开内容的广泛概述并且其不标识关键/重要元件或勾勒本说明书的范围。其唯一目的是以简化的形式呈现本文公开的概念的选集作为对稍后呈现的更详细的描述的前序。
描述了检索和/或存储与事件相关联的图像。例如,利用机器学习分析包括文本的事件数据的流以检测事件并且针对该事件构建包括多个词语的事件语言模型。在各种示例中,从web或其他源提取的图像具有相关联的文本。在示例中,具有与事件语言模型相似的相关联的文本的图像被标识为该事件的图像。在各种示例中,图像与事件之间的关联被用于更新图像检索***和/或图像存储***。在各种示例中,在图像检索***处接收与事件有关的查询项,该图像检索***基于图像文本与事件语言模型之间的关联来返回与事件相关的图像。
将容易认识到伴随的特征中的许多特征,因为其通过参考结合附图来考虑的下面的详细描述而变得更好理解。
附图说明
本说明书将从鉴于附图来理解的下面的详细描述被更好地理解,在附图中:
图1是用于检索与事件有关的图像的图像检索***以及还有图像存储***的示意图;
图2是更详细的图1的事件图像***的示意图;
图3是在图2的事件检测器处的方法的流程图;
图4是在图2的关键短语提取组件处的方法的流程图;
图5是在图2的语言组件处的方法的流程图;
图6是在图2的图像访问和过滤器组件处的方法的流程图;
图7是在图2的事件图像标识器处的过程的流程图;
图8图示了图像存储***和/或图像检索***的实施例可以被实现在其中的示例性基于计算的设备。
类似的参考标号被用于在附图中标示类似的部件。
具体实施方式
以下结合附图提供的详细描述旨在作为当前示例的描述并且不旨在表示当前示例可以在其中被构建或被利用的唯一形式。该描述阐述示例的功能和用于构建并操作示例的步骤的序列。然而,相同的或等效的功能和序列可以由不同的示例实现。
图1是用于检索与事件有关的图像128、130、132的图像检索***102以及还有图像存储***112的示意图。诸如个人计算机116、平板计算机118、移动电话120、膝上型电脑122或其他终端用户设备的终端用户设备114能够与图像检索***102和/或图像存储***112进行通信以使得终端用户能够检索和/或存储与事件有关的图像。在图1的示例中,示出了在终端用户设备处的图形用户界面显示器124。终端用户已经将查询项“西雅图事件”输入到搜索框中并且三行结果被示出,每行示出了个体事件的图像并且具有被显示为标题的、与事件有关的关键短语。在该示例中,示出了具有关键短语“西雅图运动比赛1”的、与事件相关的五幅图像的行128;具有关键短语“西雅图运动事件2”的、与事件相关的五幅图像的第二行130以及具有关键短语“这周末的西雅图舞会”的、与事件相关的五幅图像的第三行132。用于图像检索的先前方法尚未能够以这种方式找到与特定事件相关的图像。
图像检索***102和/或图像存储***112被定位在通信网络100处,通信网络100诸如互联网、内联网或对于终端用户设备104可访问的任何其他通信网络。也在通信网络100处可用的是事件图像***104、一个或多个图像源110以及一个或多个事件流106。图像源110是数据库或图像的其他存储库,图像诸如照片、视频、医学图像、深度图像、或其他类型的图像。图像源中的一个或多个图像源可以为图像社区网站。事件流106是计算机实现的并且输出诸如文本项的事件数据的流,例如其中文本项是具有140个字符或更少字符的消息。事件流106可以为社交媒体文本消息的流。在一些示例中,事件流中的文本项具有相关联的统一资源定位符(URL)。
事件图像***104是计算机实现的并且能够使用通信网络100通过接收事件流106、图像源110、图像检索***102和图像存储***112的输入和/或向事件流106、图像源110、图像检索***102和图像存储***112发送输出来与那些实体进行通信。事件图像***104用于可选地实时地检测事件流106中的事件。事件图像***被布置为从图像源110中找到与检测到的事件的事件模型相似的图像并且被布置为使用找到的图像来改进图像检索***102和/或改进图像存储***112。事件模型是在事件数据中观察到的或与事件数据相关的多个词语。在示例中,事件模型是在事件数据中观察到的或与事件数据相关的词语的频率的直方图。在一些示例中,事件模型是一元语言模型。在一些示例中,事件模型是在词语的词汇表上的多项式概率分布。以下参考图2更详细的描述事件图像***104。
图像检索***102是计算机实现的并且包括图像的索引。在一些示例中,图像已经使用web爬虫或其他手段定位。图像检索***102包括排名算法,其被布置为将查询项应用到索引从而输出图像的经排名的列表。
图像存储***112是数据库或其他存储库,其保持图像以及相关联的事件数据。相关联的事件数据可以包括事件模型、时间间隔或其他时间数据、位置数据。
本文中描述的事件图像***的功能能够至少部分地由一个或多个硬件逻辑组件执行。例如但不限于,能够被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***的***(SOC)、复杂可编程逻辑器件(CPLD)。
图2是更详细的图1的事件图像***的示意图。事件图像***104接收来自事件流106和来自一个或多个图像源110的输入。事件图像***104包括事件检测器200、可选关键短语提取器202、语言组件204、图像访问和过滤器组件206以及事件图像标识器208。
在一些示例中,文本数据项的流是社交媒体流,并且图像是根据文本数据项的流的速率被实时标识的。
事件图像***针对在事件流106中标识的个体事件输出事件语言模型、可选事件标题以及事件图像210。来自事件图像***104的信息被使得对图像检索***212和/或图像存储***可用。
事件检测器200被布置为可选地实时地检测事件流106中的事件。如以上所提到的,事件流包括事件数据项,诸如140个字符的、可选地还具有URL的文本消息。事件数据项可以来源于来自许多不同的源,诸如在不同位置中操作终端用户设备的个体。这些个体已经给予他们针对事件数据项要被使用的同意。可以在通信网络100中的一个或多个实体处接收事件数据项,并且使得事件数据项可用作事件流106。事件数据项可以具有时间戳。事件数据项可以具有位置,诸如事件数据项的发送者的位置。事件数据项中的任何私有数据(诸如发送者信息)从事件流106被省略或者被聚合。发送者位置信息被缩放以便不显现能够标识发送者的发送者的位置。
事件检测器200使用事件数据项的特征将事件数据的流聚类300。这些特征可以是以下的任一项:文本特征、时间特征、位置特征。聚类可以使用任何在线增量聚类技术来实现。
作为结果的簇之后被分类302为事件或者非事件。分类使用机器学习分类器来完成,机器学习分类器提前使用地面实况数据来训练。例如,分类器可以是支持向量机、神经网络、随机决策森林或其他类型的分类器。地面实况数据包括从事件数据项的簇提取的特征,其中簇已知为与真实事件相关。
在测试时间处,获得要被分类为事件或非事件的新的簇,并且从该簇中提取特征。特征被输入到分类器,分类器将输出计算为事件或非事件。特征可以是以下的任何一项或多项:
簇中的唯一词语的数量
簇中的表情符号的数量
簇中的唯一主题标签的数量
簇中的时间戳单元中的事件数据项的频率
最频繁的时间戳单元中的事件数据项的数量除以该簇中的事件数据项的总数量
按时间戳单元的事件数据项的直方图的标准差
簇中在其上观察到事件数据项的最长非零时间跨度
符号@在簇的事件数据项中出现的数量
簇的事件数据项中的URL的数量
簇中的作为已经被转发的先前事件数据项的事件数据项的数量
事件数据项与簇的中心的平均相似度
簇中的事件数据项的数量
簇中的重复事件数据项的数量
已经发现这些特征中的以下特征在事件分类器的总体准确度中给予显著增益:
最频繁的时间戳单元中的事件数据项的数量除以该簇中的事件数据项的总数量
被称为峰值密度特征的该特征对于在事件与不是事件之间进行鉴别有用。例如,考虑足球比赛,其中一队在比赛的最后一个小时中踢进一球。事件数据项在进球的时间处是瞬时的并且然后在两分钟之后再次出现。峰值密度特征实现这种类型的特性,其中簇具有要用于标识事件的、事件数据项的较多峰值。
按时间戳单元的事件数据项的直方图的标准差
该标准差特征在之前尚未被用于将分类器分类为事件或非事件。在标准差较小的情况下,这已经被发现为是事件的良好指示符。
簇中在其上观察到事件数据项的最长非零时间跨度
该特征已经被发现为是作为事件的簇的良好标识符,因为作为事件的簇更有可能包括其中非零时间跨度短的事件数据项。
事件数据项与簇的中心的平均相似度。该特征已经被发现为是良好指示符,因为如果存在大量异常事件数据项,则该簇更有可能表示不是来自事件的数据。
事件检测器200输出被标记为事件的事件数据项的簇304。还输出以上提到的特征中的诸如时间间隔、位置或其他特征的簇特征。
在一些示例中,关键短语提取组件被使用,尽管这是可选的。关键短语提取组件202将被标记为事件的事件数据项的簇304作为输入。关键短语提取组件执行事件数据项的语音标记400的部分。语音标记的部分将事件数据项中的词语标记为名词、动词、副词或语音的其他部分。语音标记的部分由自动化***使用诸如在Voutilainen,Atro的“Part-of-speech tagging”(The Oxford handbook of computational linguistics(2003):219-232)中描述的技术来执行。
使用来自语音标记400的部分的输出,关键短语提取组件202从事件数据项中提取名词短语。例如,这使用被应用到经标记的事件数据项的规则来完成。名词短语按簇中的出现的频率来被排名402。使用规则或其他准则从排名中选择名词短语中的一个名词短语,并且该名词短语是针对簇(被称为事件簇,因为其已经被分类为与事件有关)的关键短语或标题。关键短语提取组件202输出针对每个事件簇的关键短语404。在图1的示例中,关键短语被示出在图形用户界面中。
图5是在图2的语言组件204处的方法的流程图。该组件接收事件簇304作为输入并且计算针对每个事件簇的事件语言模型508。其通过在词语的词汇表上的多项式概率分布来表示500事件。该多项式概率分布是事件语言模型的示例。例如,概率分布可以以簇中的事件数据项中的词语计数的频率的直方图的形式。因此,事件语言模型可以为来自直方图的多个词语,诸如前n个最频繁的词语。在一些示例中,假设词语彼此独立并且在这种情况下事件语言模型为一元语言模型。可以使用的一元语言模型的示例为:
其可以在言语上被表达为,在给定事件E的情况下,来自图像源的图像的文本标注T的概率等于文本标注中的词语的数量的事件簇频率计数的积。例如,如果图像的文本标注在其中具有3个词语,则一元语言模型可以用于通过计算来自事件簇的三个词语的频率计数的积来计算该三个词语将为三个词语的特定集合的可能性。
语言模型组件204对事件数据文本中的个体词语的出现的频率进行计数502。语言模型组件204计算504针对事件的事件语言模型,例如以上的一元语言模型。例如,语言模型组件204可以输出形式为针对事件簇中的词语的词语计数的直方图的事件语言模型。
语言组件204可以使用事件语言模型来从事件簇计算最可能的文本标注(其中语言组件204知道要处于文本标注中的词语的数量)。
语言组件204使用语言模型来计算最可能的文本标注。
图6是在图2的图像访问和过滤器组件206处的方法的流程图。该组件具有对如以上描述的图像源110的访问。该组件将事件数据600作为输入,事件数据600诸如针对事件的时间间隔和/或针对事件的位置数据。位置数据可以为地理地点名、全球定位***数据、地理坐标或其他地理位置数据。
图像访问和过滤器组件使用时间间隔和/或位置数据从源110中的一个或多个中检索图像。例如,图像访问和过滤器组件可以向社交媒体图像源和/或远程文档存储位置发出查询。查询包括时间间隔和/或位置数据。响应于发出的查询,图像访问和过滤器组件接收地址、标识符、链接或者对与查询有关的图像的其他引用。对图像的引用可以根据它们与查询的相关性来被排名。与引用一起,与图像有关的元数据可以被返回到图像访问和过滤器组件。元数据可以包括以下的任何一项或多项:文本标注、时间数据、地理位置数据。
图像访问和过滤器组件206获得604检索到的图像的文本标注。在一些情况下这通过从图像源接收文本标注连同对图像的引用来被实现。在一些示例中,文本标注由图像访问和过滤器组件主动地寻求。例如,通过访问包括引用的图像中的一幅图像的web页面,并且获取来自该web页面的文本来形成文本标注。规则、模板或其他准则可以用于选择要从web页面提取哪个文本。例如,与图像相关联的标题、与图像相关联的锚定文本、或在web页面中的图像处或附近的其他文本。
图像访问和过滤器组件可以包括一个或多个过滤器以移除被标识为垃圾、噪声或具有不合适的内容的任何图像。
图像访问和过滤器组件针对其标识的图像中的每幅图像输出对检索到的图像的引用以及与该图像相关联的文本标注。
图7是在图2的事件图像标识器208处的过程的流程图。该组件将针对事件的事件语言模型508、以及来自图像访问和过滤器组件的对检索到的图像606的引用及其相关联的文本标注作为输入。对检索到的图像606的引用已经使用针对事件的时间间隔和/或位置来获得。
事件图像标识器计算700文本标注与事件语言模型之间的相似度。例如,通过对文本标注中与事件语言模型中的相同的或具有相似含义的词语的数量进行计数。
如果相似度低于阈值,则尝试704下一图像。如果相似度高于阈值702,则利用针对事件的标签来标记所引用的图像。在一些示例中,所引用的图像与针对事件的标签一起被存储。在一些示例中,利用与所引用的图像与事件标签之间的关联有关的信息来更新图像检索***。例如,通过在图像检索***处更新文档的索引。排名算法可以被应用到更新的索引,其中排名算法考虑事件标签数据。
在一些示例中,与所引用的图像与事件标签之间的关联有关的信息被存储用于在两个部分图像检索过程中使用。例如,传统图像检索***用于获得与诸如“西雅图事件”的事件查询有关的图像。然后,作为结果的图像的经排名的列表使用与所引用的图像与事件标签之间的关联有关的信息来被重新排名。
事件图像标识器208通过重复图7的方法对由图像访问和过滤器组件检索到的更多图像引用操作。
图8图示了示例性基于计算的设备800的各种组件,示例性基于计算的设备800可以被实现为任何形式的计算和/或电子设备,并且事件图像***的实施例可以被实现在其中。在一些示例中,事件图像***可以是使用基于计算的设备800实现的图像检索***102的部分。
基于计算的设备800包括一个或多个设备处理器802,其可以为微处理器、控制器、或者任何其他适当类型的处理器,其用于处理计算机可执行指令以控制设备的操作以便定位与事件相关的图像和/或实现通过事件的图像检索。在一些示例中,例如在使用片上***架构的情况下,处理器802可以包括一个或多个固定功能框(还被称为加速器),其在硬件(而非软件或固件)中实现图3-7中的任何图的方法的部分。包括操作***804的平台软件或任何其他适当的平台软件可以被提供在基于计算的设备处以使得应用软件能够被执行在该设备上。如参考图2描述的,可以提供事件图像***806。数据存储808保持图像、对图像的引用、时间间隔、阈值、规则、地理位置数据、图像的经排名的列表、以及其他数据。
计算机可执行指令可以使用由基于计算的设备800可访问的任何计算机可读介质来被提供。计算机可读介质可以包括例如计算机存储介质,诸如存储器812和通信介质。诸如存储器812的计算机存储介质包括以任何方法或技术实现的用于信息的存储的易失性介质和非易失性介质、可移动介质和不可移动介质,信息诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字多用盘(DVD)或其他光学存储装置,磁带盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用于存储用于由计算设备访问的信息的任何其他非传输介质。对比之下,通信介质可以将计算机可读指令、数据结构、程序模块、或其他数据体现在诸如载波或其他传输机构的经调制的数据信号中。如本文中所限定的,计算机存储介质不包括通信介质。因此,计算机存储介质不应当被理解为传播信号本身。传播的信号可以存在于计算机可读介质中,但是传播的信号本身不是计算机存储介质的示例。尽管计算机存储介质(存储器812)被示出在基于计算的设备800内,但是将认识到存储可以被远程地分布或定位、并且经由网络或其他通信链路(例如,使用通信接口814)被访问。
基于计算的设备800还包括输入/输出控制器816,其被布置为将显示信息输出到显示设备818,显示设备818可以与基于计算的设备800分离或集成到基于计算的设备800。显示信息可以提供图形用户界面。输入/输出控制器816还被布置为接收并处理来自一个或多个设备的输入,一个或多个设备诸如用户输入设备820(例如,鼠标、键盘、相机、麦克风或其他传感器)。在一些示例中,用户输入设备820可以检测语音输入、用户手势或其他用户动作并且可以提供自然用户界面(NUI)。该用户输入可以用于设置阈值、输入规则,指定要访问的图像源,查看图像的经排名的列表,或者用于其他目的。在实施例中,如果显示设备818为触敏显示设备,则其还可以用作用户输入设备820。输入/输出控制器816还可以将数据输出到除了显示设备以外的设备,例如本地连接的打印设备。
输入/输出控制器816、显示设备818和用户输入设备820中的任一项可以包括NUI技术,其使得用户能够以自然的方式与基于计算的设备进行交互,免受由诸如鼠标、键盘、远程控制等的输入设备施加的人工约束。可以被提供的NUI技术的示例包括但不限于依赖于声音和/或语音识别、触摸和/或触笔识别(触敏显示器)、在屏幕上的并且邻近屏幕的手势识别、空中手势、头部和眼部跟踪、声音和语音、视觉、触摸、手势、和机器智能的那些技术。可以被使用的NUI技术的其他示例包括意图和目标理解***、使用深度相机(诸如立体相机***、红外相机***、rgb相机***和这些的组合)的运动手势检测***、使用加速度计/陀螺仪的运动手势检测、面部识别、3D显示器、头部、眼部和视线跟踪、沉浸式增强现实和虚拟现实***以及用于使用电场感测电极来感测大脑活动的技术(EEG和相关的方法)。
在示例中,描述了一种用于对描绘事件的图像进行定位的方法。该方法包括:
在处理器处检测来自文本数据项的流的事件;
使用检测到的所述事件来触发语言组件以构建事件语言模型,所述事件语言模型包括从所述文本数据项形成的多个词语;以及
使用所述事件语言模型标识来自一个或多个源的图像。
以这种方式,以快速高效的方式来定位描绘事件的图像。图像随着事件被检测而被定位,从而使结果持续最新。
例如,检测所述事件包括计算来自与所述事件相关联的所述流的多个文本数据项,并且其中所述事件语言模型是所述多个文本数据项中的词语的出现的频率的直方图。通过计算针对每个事件的事件语言模型,结果能够针对每个事件被定制。通过使用词语的出现的频率的直方图,事件语言模型能够在线被简单地且高效地计算。
在示例中,所述事件语言模型是一元语言模型。通过使用一元语言模型,获得简单且又有效的事件语言模型。
在示例中,检测所述事件包括计算来自与所述事件相关联的所述流的多个文本数据项,并且其中所述事件语言模型是按所述多个文本数据项中的出现的频率排名前n位的词语。通过使用排名前n位的词语,事件语言模型是特别简洁的,从而节省存储和传输成本,并且还仍然是有效的。
在示例中,标识来自所述一个或多个源的图像包括获得经标识的所述图像的文本标注。例如,文本标注可以是由人类或自动化***添加的种类标签或关键字,人类或自动化***分析图像的内容和/或使用上下文数据。
在示例中,获得所述文本标注包括访问web页面,经标识的图像源自于所述web页面。这使得文本标注能够以准确的方式来被自动计算。
在示例中,标识所述经的图像中的一幅图像包括计算所述图像的文本标注与所述事件语言模型之间的相似度。计算相似度是找到图像可能描绘哪个事件的快速且有效的方式。
在示例中,计算所述相似度包括将所述文本标注与所述事件语言模型中的词语的标识和/或语义含义进行比较。这使得相似度能够以准确的方式来被计算。
在示例中,所述文本数据项的流是社交媒体流,并且所述图像根据所述文本数据项的流的速率来被实时地标识。这使得结果能够持续最新。
在示例中,检测来自所述文本数据项的流的事件包括对所述文本数据项进行聚类以产生多个簇并使用分类器来将所述簇分类为事件簇或非事件簇;并且其中所述分类器使用以下特征中的一个或多个特征:最频繁的时间戳单元中的事件数据项的数量除以所述簇中的事件数据项的总数量,按时间戳单元的事件数据项的直方图的标准差,在所述簇中观察到事件数据项的最长非零时间跨度,事件数据项与所述簇的中心的平均相似度。用于将簇分类为事件簇或非事件簇的这些特征是新的,并且已经被发现尤其有效。
在各种示例中,一种图像检索的方法,包括:
检索与事件相关的一个或多个查询项;以及
使用与图像相关联的数据并使用所述查询项来访问来自一个或多个图像源的所述图像,所述数据中的至少一些数据来自所述事件的事件语言模型,所述事件语言模型为从文本数据项的流形成的多个词语,已经从文本数据项的所述流检测到所述事件。
在各种示例中,一种事件图像***包括:
至少一个处理器,所述至少一个处理器适于执行存储的指令;以及
包括代码的存储器,所述代码被配置为:
检测来自社交媒体文本项的流的事件;
使用检测到的所述事件来触发语言组件以构建事件语言模型,所述事件语言模型包括从所述社交媒体文本项形成的多个词语;以及
使用所述事件语言模型标识来自一个或多个社交媒体源的图像。
术语‘计算机’或‘基于计算的设备’在本文中用于指代具有处理能力使得其能够运行指令的任何设备。本领域技术人员将意识到,这样的处理能力被并入到许多不同的设备中并且因此术语‘计算机’或‘基于计算的设备’分别包括PC、服务器、移动电话(包括智能电话)、平板计算机、机顶盒、媒体播放器、游戏控制台、个人数字助理以及许多其他设备。
本文中描述的方法可以由有形存储介质上的机器可读形式的软件执行,软件例如以包括程序代码模块的计算机程序的形式,该程序代码模块适于当程序运行在计算机上时执行本文中描述的方法中的任何方法的步骤,并且其中计算机程序可以被体现在计算机可读介质上。有形存储介质的示例包括计算机存储设备并且不包括传播信号,计算机存储设备包括诸如盘、拇指驱动器、存储器等的计算机可读介质。传播的信号可以存在于有形可读介质中,但是传播的信号本身不是有形存储介质的示例。软件可以适合于运行在并行处理器或串行处理器上,使得方法步骤可以以任何适当的顺序或同时地被执行。
这承认,软件可以为有价值的、可单独交易的商品。其旨在包含用于执行期望的功能的软件,该软件运行在“愚蠢的”或标准的硬件上或者控制该“愚蠢的”或标准的硬件。其还旨在包括“描述”或定义硬件的配置的软件,诸如被用于设计硅芯片、或者用于配置通用可编程芯片、以执行期望的功能的HDL(硬件描述语言)软件。
本领域技术人员将意识到,用于存储程序指令的存储设备能够跨网络分布。例如,远程计算机可以存储被描述为软件的过程的示例。本地或终端计算机可以访问远程计算机并下载要运行程序的软件的部分或全部。备选地,本地计算机可以根据需要下载软件的片段,或者在本地终端处执行一些软件指令并在远程计算机(或计算机网络)处执行一些软件指令。本领域技术人员还将意识到,通过利用对于本领域技术人员已知的传统技术,软件指令中的全部或一部分可以由诸如DSP、可编程逻辑阵列等的专用电路来执行。
如将对于技术人员将显而易见的,本文中给出的任何范围或设备值可以在不丧失所寻求的效果的情况下被扩展或更改。
尽管已经以特定于结构特征和/或方法动作的语言描述了本主题,但是将理解在所附权利要求中限定的主题不必限于以上描述的具体特征或动作。更确切地,以上描述的具体特征和动作被公开为实施权利要求的示例形式。
将理解,以上描述的益处和优点可以涉及一个实施例或可以涉及若干实施例。实施例不限于解决所陈述的问题中的任何或全部问题的实施例、或者具有所陈述的益处和优点中的任何或全部益处和优点的实施例。还将理解,对‘一’项的引用指代那些项中的一项或多项。
本文中描述的方法的步骤可以以任何适当的顺序来执行,或者在适当的情况下同时地来执行。附加地,个体框可以在不背离本文描述的主题的精神和范围的情况下从方法中的任何方法中被删除。在不丧失所寻求的效果的情况下,以上描述的示例中的任何示例的方面可以与所描述的其他示例中的任何示例的方面进行组合以形成另外的示例。
术语‘包括’在本文中用于意指包括所标识的方法框或元件,但是这样的框或元件不包括排他性列表并且方法或装置可以包含附加的框或元件。
将理解,以上描述仅仅通过示例的方式给出,并且各种修改可以由本领域技术人员做出。以上说明书、示例和数据提供对示例性实施例的结构和用途的完整描述。尽管以上已经利用某种程度的特殊性或参考一个或多个个体实施例描述了各种实施例,但是本领域技术人员能够在不背离本说明书的精神或范围的情况下对所公开的实施例做出许多更改。

Claims (20)

1.一种对描绘事件的图像进行定位的方法,包括:
由处理器监视多个数据源,所述多个数据源使得数据流可用于经由网络的访问,所述网络对所述处理器可用,所述数据流包括文本数据项的流;
由所述处理器检测来自所述文本数据项的流的事件;
基于所述检测,由所述处理器使用检测到的所述事件来触发语言组件以由所述处理器构建事件语言模型,所述事件语言模型包括从所述文本数据项形成的多个词语;以及
由所述处理器至少部分地基于所述事件语言模型经由所述网络从所述多个数据源中的一个或多个数据源检索图像。
2.根据权利要求1所述的方法,其中检测所述事件包括计算来自与所述事件相关联的所述流的多个文本数据项,并且其中所述事件语言模型是所述多个文本数据项中的词语的出现的频率的直方图。
3.根据权利要求1所述的方法,其中所述事件语言模型是一元语言模型。
4.根据权利要求1所述的方法,其中检测所述事件包括计算来自与所述事件相关联的所述流的多个文本数据项,并且其中所述事件语言模型是按所述多个文本数据项中的出现的频率排名前n位的词语。
5.根据权利要求1所述的方法,其中从所述一个或多个数据源检索所述图像包括获得检索到的所述图像的文本标注。
6.根据权利要求5所述的方法,其中获得所述文本标注包括访问web页面,检索到的所述图像源自于所述web页面。
7.根据权利要求6所述的方法,其中检索所述图像包括至少部分地基于计算所述图像的文本标注与所述事件语言模型之间的相似度来标识所述图像。
8.根据权利要求7所述的方法,其中计算所述相似度包括将所述文本标注与所述事件语言模型中的词语的标识和/或语义含义进行比较。
9.根据权利要求1所述的方法,其中:
所述文本数据项的流是社交媒体流,
检索到的所述图像是至少部分地基于所述事件语言模型检索的多个检索图像中检索到的第一图像,并且
所述多个检索图像根据所述文本数据项的流的速率来被实时地检索。
10.根据权利要求1所述的方法,其中:
检测来自所述文本数据项的流的事件包括:
对所述文本数据项进行聚类以产生多个簇,以及
使用分类器来将所述簇分类为事件簇或非事件簇;并且所述分类器至少部分地基于以下的一项或多项来执行所述检测:
最频繁的时间戳单元中的事件数据项的数量除以所述簇中的事件数据项的总数量,
按时间戳单元的事件数据项的直方图的标准差,
在所述簇中观察到事件数据项的最长非零时间跨度,或者
事件数据项与所述簇的中心的平均相似度。
11.一种图像检索的方法,包括:
在处理器处接收一个或多个查询项,所述查询项与事件相关;
访问与所述事件相关联的事件语言模型,所述事件语言模型被存储在所述处理器可访问的存储器中,所述事件语言模型包括从文本数据项的流形成的并且由机器分类器分类为与所述事件相关联的一个或多个词语或语法;以及
由所述处理器在所述处理器可访问的网络上使用与图像相关联的数据并使用所述查询项来从一个或多个图像源访问在所述网络上可用的所述图像,与所述图像相关联的所述数据中的至少一些数据对应于所述事件的所述事件语言模型的至少一部分。
12.一种事件图像***,包括:
处理器;
通信接口,所述通信接口将所述处理器通信地耦合至网络;以及
存储处理器可执行代码的存储器,所述处理器可执行代码在由所述处理器执行时,将所述处理器配置为:
经由所述网络监视对所述处理器可用的社交媒体文本项的流;
将所述社交媒体文本项的流的至少一部分或所述社交媒体文本项的流的所述部分的属性中的一项或多项聚类成簇;
通过分类器的执行将所述簇分类为与事件相关联;
至少部分地基于所述簇来构建事件语言模型,所述事件语言模型包括从所述簇或所述簇的属性形成的多个词语中的一个或多个词语;以及
经由所述网络使用所述事件语言模型从一个或多个社交媒体源检索图像。
13.根据权利要求12所述的事件图像***,其中检测所述事件包括计算来自与所述事件相关联的所述流的多个文本数据项,并且其中所述事件语言模型是所述多个文本数据项中的词语的出现的频率的直方图。
14.根据权利要求12所述的事件图像***,其中所述事件语言模型是一元语言模型。
15.根据权利要求12所述的事件图像***,其中检测所述事件包括计算来自与所述事件相关联的所述流的多个文本数据项,并且其中所述事件语言模型是按所述多个文本数据项中的出现的频率排名前n位的词语。
16.根据权利要求12所述的事件图像***,其中从所述一个或多个源检索图像包括获得检索到的所述图像的文本标注。
17.根据权利要求16所述的事件图像***,其中获得所述文本标注包括访问web页面,检索到的图像源自于所述web页面。
18.根据权利要求12所述的事件图像***,其中所述处理器被进一步配置为至少部分地基于计算所述图像的文本标注与所述事件语言模型之间的相似度来标识用于检索的图像。
19.根据权利要求12所述的事件图像***,其中:
分类来自所述文本数据项的流的所述事件包括:
对所述文本数据项进行聚类以产生多个簇,以及
使用所述分类器来将所述簇分类为事件簇或非事件簇;并且所述分类器至少部分地基于以下的一项或多项来执行所述分类:
最频繁的时间戳单元中的事件数据项的数量除以所述簇中的事件数据项的总数量,
按时间戳单元的事件数据项的直方图的标准差,
在所述簇中观察到事件数据项的最长非零时间跨度,或者
事件数据项与所述簇的中心的平均相似度。
20.根据权利要求12所述的事件图像***至少部分使用从以下各项中的任何一项或多项选择的硬件逻辑来被实现:现场可编程门阵列、专用集成电路、专用标准产品、片上***、或者复杂可编程逻辑器件。
CN201580040406.5A 2014-07-22 2015-07-22 检索/存储与事件相关联的图像 Active CN106537387B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/337,574 US9881023B2 (en) 2014-07-22 2014-07-22 Retrieving/storing images associated with events
US14/337,574 2014-07-22
PCT/US2015/041432 WO2016014606A1 (en) 2014-07-22 2015-07-22 Retrieving/storing images associated with events

Publications (2)

Publication Number Publication Date
CN106537387A CN106537387A (zh) 2017-03-22
CN106537387B true CN106537387B (zh) 2019-11-05

Family

ID=53765588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580040406.5A Active CN106537387B (zh) 2014-07-22 2015-07-22 检索/存储与事件相关联的图像

Country Status (5)

Country Link
US (1) US9881023B2 (zh)
EP (1) EP3172679A1 (zh)
CN (1) CN106537387B (zh)
BR (1) BR112017000847A2 (zh)
WO (1) WO2016014606A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10599857B2 (en) * 2017-08-29 2020-03-24 Micro Focus Llc Extracting features for authentication events
US10984099B2 (en) 2017-08-29 2021-04-20 Micro Focus Llc Unauthorized authentication events
US11122064B2 (en) 2018-04-23 2021-09-14 Micro Focus Llc Unauthorized authentication event detection
WO2020043267A1 (en) * 2018-08-27 2020-03-05 Huawei Technologies Co., Ltd. Device and method for anomaly detection on an input stream of events
JP7007248B2 (ja) * 2018-09-21 2022-01-24 日立チャネルソリューションズ株式会社 紙葉類処理装置
US20220012525A1 (en) * 2020-07-10 2022-01-13 International Business Machines Corporation Histogram generation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261637A (zh) * 2007-03-08 2008-09-10 国际商业机器公司 用于搜索确定事件发生的关键词的***和方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
US7035789B2 (en) * 2001-09-04 2006-04-25 Sony Corporation Supervised automatic text generation based on word classes for language modeling
US8933967B2 (en) 2005-07-14 2015-01-13 Charles D. Huston System and method for creating and sharing an event using a social network
US9143573B2 (en) 2008-03-20 2015-09-22 Facebook, Inc. Tag suggestions for images on online social networks
KR101667033B1 (ko) 2010-01-04 2016-10-17 삼성전자 주식회사 위치 기반 정보를 이용한 증강 현실 서비스 장치 및 그 방법
US20110196888A1 (en) 2010-02-10 2011-08-11 Apple Inc. Correlating Digital Media with Complementary Content
US8612441B2 (en) * 2011-02-04 2013-12-17 Kodak Alaris Inc. Identifying particular images from a collection
US9009025B1 (en) * 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
US20130239049A1 (en) 2012-03-06 2013-09-12 Apple Inc. Application for creating journals
US20130317912A1 (en) 2012-05-09 2013-11-28 William Bittner Advertising in Augmented Reality Based on Social Networking
US9043205B2 (en) * 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US9002069B2 (en) 2012-09-24 2015-04-07 International Business Machines Corporation Social media event detection and content-based retrieval
US10032233B2 (en) 2012-10-17 2018-07-24 Facebook, Inc. Social context in augmented reality
JP6140991B2 (ja) 2012-12-04 2017-06-07 オリンパス株式会社 サーバシステム、プログラム、サーバシステムの作動方法及び端末装置
WO2014113512A1 (en) 2013-01-15 2014-07-24 Getty Images (Us), Inc. Content-identification engine based on social media

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261637A (zh) * 2007-03-08 2008-09-10 国际商业机器公司 用于搜索确定事件发生的关键词的***和方法

Also Published As

Publication number Publication date
BR112017000847A2 (pt) 2017-12-05
US20160026656A1 (en) 2016-01-28
EP3172679A1 (en) 2017-05-31
CN106537387A (zh) 2017-03-22
WO2016014606A1 (en) 2016-01-28
US9881023B2 (en) 2018-01-30

Similar Documents

Publication Publication Date Title
CN106537387B (zh) 检索/存储与事件相关联的图像
CN108241728B (zh) 对自然语言表述的解译的地理映射
Cappallo et al. New modality: Emoji challenges in prediction, anticipation, and retrieval
CN105824959B (zh) 舆情监控方法及***
Pohl et al. Online indexing and clustering of social media data for emergency management
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
US20150074112A1 (en) Multimedia Question Answering System and Method
US8412650B2 (en) Device and method and program of text analysis based on change points of time-series signals
CN105574067A (zh) 项目推荐装置以及项目推荐方法
CN110413780A (zh) 文本情感分析方法、装置、存储介质及电子设备
US8856109B2 (en) Topical affinity badges in information retrieval
US10963700B2 (en) Character recognition
CN107209861A (zh) 使用否定数据优化多类别多媒体数据分类
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及***
CN112148881B (zh) 用于输出信息的方法和装置
CN110197389A (zh) 一种用户识别方法及装置
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
Kumar et al. Analysis of various machine learning algorithms for enhanced opinion mining using twitter data streams
CN110263169A (zh) 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN111666766A (zh) 数据处理方法、装置和设备
US9830533B2 (en) Analyzing and exploring images posted on social media
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
Hossny et al. Enhancing keyword correlation for event detection in social networks using SVD and k-means: Twitter case study

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant