CN112020709A

CN112020709A - 可视菜单

Info

Publication number: CN112020709A
Application number: CN201880092458.0A
Authority: CN
Inventors: 塞萨尔·莫赖斯·帕洛莫; 哈伦·柏格
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2020-12-01
Also published as: US20210216772A1; US10963696B2; US20200234045A1; US11709881B2; EP4254222A2; EP3785142A1; WO2020013802A1; EP4254222A3

Abstract

增强现实(AR)覆盖利用对应的照片增强了传统菜单项，从而促进用户从菜单中订购的决策过程。除了提供列出的菜单项的影像之外，还可以供给其他信息，诸如评级、评论等。在这方面，用户可以在订购前可视化所期望的内容，并且可以以他们将享受他们选择的菜单项的更高的置信度来订购。

Description

可视菜单

背景技术

从菜单订购可能有些困难，尤其是在不熟悉的地方。例如，当用户去餐馆时，菜单上的某些菜肴可能看起来很有趣，但是菜单通常没有为用户提供足够的信息以确保他们会喜欢某种菜肴。首次访问餐馆、访问位于不同地理位置的餐馆或访问供应与用户习惯不同类型美食的餐馆时，不确定性通常会更加复杂。

看到菜肴的外观将有助于解决不确定性并使体验更加愉悦，但是传统上，大多数餐馆菜单仅具有菜肴的名称和/或描述，而没有图像。用户可以在本地搜索应用中查看餐馆的图像，但是将他们看到的图像与他们在餐馆菜单上读取的菜单项进行手动匹配很麻烦。

发明内容

根据本公开，增强现实(AR)覆盖利用对应的照片增强了传统菜单项，从而促进用户从菜单中订购的决策过程。除了提供列出的菜单项的影像之外，还可以供给其他信息，诸如评级、评论等。在这方面，用户可以在订购前可视化所期望的内容，并且可以以他们将享受他们选择的菜单项的更高的置信度来订购。

本公开的一个方面提供了一种识别与文本项相对应的图像的方法，该方法包括：用一个或多个处理器从图像捕获设备接收文本图像；用一个或多个处理器解析图像中的文本；用一个或多个处理器确定图像捕获设备的位置；用一个或多个处理器确定与所确定的位置相对应的实体；并且，识别与所解析的文本和所述实体相对应的图像。该方法进一步包括利用一个或多个处理器选择所识别的图像中的至少一个所识别的图像，并且提供所选择的图像以显示为关于文本的增强现实覆盖。根据一些示例，选择过程包括：基于所解析的文本为所捕获的图像生成第一标签集合；为所识别的与所解析的文本和实体相对应的图像生成第二标签集合；以及，将第一标签集合与第二标签集合进行比较。例如，将第一标签集合与第二标签集合进行比较可以包括确定第一标签集合与第二标签集合之间的距离，并且选择所识别的图像中的至少一个所识别的图像可以包括识别在第一标签集合和第二标签集合之间的最短距离，并选择与最短距离相对应的图像。根据一些示例，该方法可以进一步包括：为每个所识别的图像生成分数，并基于分数对所识别的图像进行排名。分数可以至少部分地基于图像质量和图像美感。所选择的图像的显示可以在用户设备的屏幕的固定部分中，或者所显示的图像可以被随附到文本。在一个实现中，文本是菜单项，实体是餐馆，并且所识别的图像是与菜单项相对应的在餐馆中供应的菜肴的图像。

本公开的另一方面提供了一种用于识别与文本项相对应的图像的***。该***包括一个或多个存储器，以及与一个或多个存储器通信的一个或多个处理器。一个或多个处理器可以驻留在客户端设备、服务器或它们的某种组合中。一个或多个处理器被配置为从图像捕获设备接收文本的图像，解析图像中的文本，确定图像捕获设备的位置，确定与所确定的位置相对应的实体，识别与所解析的文本和实体相对应的图像，选择所识别的图像中的至少一个所识别的图像，并提供所选择图像以显示为关于文本的增强现实覆盖。在选择所识别的图像中的至少一个中，一个或多个处理器可以进一步被配置为基于所解析的文本为所捕获的图像生成第一标签集合，为与所识别的所解析的文本和实体相对应的图像生成第二标签集合，然后将第一标签集合与第二标签集合进行比较。将第一标签集合与第二标签集合进行比较可以包括确定第一标签集合与第二标签集合之间的距离。选择所识别的图像中的至少一个所识别的图像可以包括识别第一标签集合和第二标签集合之间的最短距离，以及选择与最短距离相对应的图像。根据一些示例，一个或多个处理器还被配置成为所识别的图像中的每一个生成分数，并基于分数来对所识别的图像进行排名。分数可以至少部分地基于图像质量和图像美感。

本公开的又一方面提供了一种非暂时性计算机可读介质，其存储可由一个或多个处理器执行以用于执行识别与文本项相对应的图像的方法的指令，该方法包括从图像捕获设备接收文本的图像，解析图像中的文本，确定图像捕获设备的位置，确定与所确定的位置相对应的实体，识别与所解析的文本和实体相对应的图像，选择所识别的图像中的至少一个，并提供所选择的图像以显示为关于文本的增强现实覆盖。

附图说明

图1是根据本公开的方面的示例***的示意图。

图2是图1的示例***的框图。

图3是根据本公开内容的方面的文本的示例捕获图像的屏幕截图。

图4是在图3的图像中选择文本的部分的示例的屏幕截图。

图5是响应于图4的文本的所选部分而提供的示例增强现实覆盖的屏幕截图。

图6是示出根据本公开的方面的位置确定的示例流程图。

图7示出了根据本公开的方面的标签匹配的示例。

图8是示出根据本公开的方面的示例方法的流程图。

具体实施方式

概述：

本公开提供了增强现实应用，其中，文本被移动设备捕获和辨识，并且对应图像被检索和相对于文本显示为增强现实(AR)覆盖。例如，文本可以是饭馆处的菜单项。一旦捕获并辨识了文本，就可以从诸如因特网之类的网络中检索菜单项的图像，并相对于菜单文本进行显示。

在一些示例中，移动设备的位置可以用于确定对应图像的较窄子集。例如，可以通过确定移动设备的位置并将所确定的位置与已知的餐馆位置进行比较，将用户“捕捉”到特定餐馆。可以基于例如GPS、信标、信号强度、诸如光、噪声、气压等的语义特征或许多其他特征中的任何一个来确定移动设备的位置。通过捕捉到特定位置，可以限制对相关图像的搜索，从而使搜索更快和更有效。在其他示例中，可以基于用户输入来限制搜索，诸如餐馆名称的用户录入或图像辨识等。例如，可以诸如通过比较徽标，解析餐馆名称，将菜名与与餐馆相关联的网页上的菜单信息进行比较等来辨识餐馆菜单的图像。

例如，可以使用光学字符辨识来解析通过相机输入接收的文本。尽管在某些示例中可以自动解析文本，并作为响应检索图像，但在其他示例中，可以通过用户输入来提示操作。例如，可以响应于诸如点击项、语音命令等的用户命令来执行文本的解析和/或图像的检索。

为了生成潜在影像的候选集合，可以从各种来源检索图像。例如，可以从各种网站、支持网站和应用的数据库、用户贡献的图像的数据库等中检索图像。用与用户位置相匹配的地理信息标记或用与用户位置对应的任何其他信息标记的图像可以促进检索。可以为未标记的图像创建标记。例如，图像辨识可以用于创建图像标记。在其他示例中，用户可以为捕获的图像贡献信息。例如，基于标记或其他信息，为候选图像创建图像标签。

可以为捕获的影像创建文本标签集合。例如，对于餐馆处的菜单项，可以将与该菜单项相对应的辨识文本注释为该菜单项的标签。在一些示例中，可以为每个捕获的图像创建多个文本标签，诸如针对菜单项的咖喱、红咖喱、印第安语等。

为了使候选图像与辨识的文本匹配，可以将图像标签与文本标签进行比较。例如，可以计算图像标签和文本标签之间的杰卡德距离。作为比较的结果，提供了每个候选图像的置信值。置信值可以用于对可能最紧密地对应于辨识文本的图像进行排名。根据一些示例，其他信息也可以用于对候选图像进行排名。例如，诸如图像质量、多样性(例如，不同的角度、邻近度等)之类的因素或任何其他因素可以被集成到置信值中。可以选择具有最高置信值的候选图像以在AR覆盖中显示。尽管在一些示例中可以为诸如每个菜单项的每个文本段选择一个图像，但是在其他示例中，用户可以针对每个文本段访问多个图像。

可以多种方式中的任何一种来显示覆盖。例如，可以在移动设备的屏幕上的固定空间中提供覆盖。在其他示例中，覆盖可以被随附到辨识的文本。例如，当用户滚动菜单时，为特定菜单项检索的图像可能会在移动设备捕获关联的文本时出现。随着移动设备继续移动，并且特定菜单项不再位于相机的视场内，检索到的图像可能消失，并且可以显示与已经进入相机视场内的不同菜单项相对应的不同图像。在一些示例中，可以通过包括在特定图像上滚动检索的图像或诸如缩放、平移等的其他图像操纵来接收用户输入。

示例***

图1示出了示例***100，包括用于执行本公开的各方面的计算设备。***100包括通过网络150通信地耦合到服务器计算设备110的各种客户端计算设备160、170-174。用户101使用计算设备160来捕获诸如来自菜单105的文本。服务器计算设备110可以识别与捕获的文本相对应的图像，并提供这样的图像以供显示在计算设备160上。计算设备160可以将图像显示为例如与捕获的文本有关的增强现实覆盖。

客户端计算设备160、170-174可以包括能够捕获图像并通过网络通信的各种类型的设备中的任何一种。作为示例而非限制，这样的设备可以包括智能电话、具有无线网络访问的相机、膝上型计算机、智能手表、平板电脑、头戴式显示器、游戏***等。每个客户端计算设备可以包括例如：用户输入设备，诸如相机、麦克风、操纵杆、按钮、触摸屏等；以及显示器，其可以例如包括LED、LCD、等离子屏幕、投影仪等。

服务器计算设备110实际上可以包括彼此通信的多个处理设备。下面结合图2更详细地描述服务器计算设备110。

服务器110和客户端计算设备160、170-174可以访问数据库140。数据库140可以包括例如来自各种来源的影像的合集。例如，影像可以由实体所有者或顾客提供，从各种网站收集等。实体可以是诸如饭馆的企业。在某些情况下，这样的影像可以与提供有关图像的信息的元数据一起存储。这样的元数据可以包括例如捕获的日期和时间、位置、相机设置、与图像内的对象相对应的标签或标记等。图像可以包括例如静止图像、视频剪辑或其他类型的影像。

这些网络150可以是例如LAN、WAN、因特网等。设备与网络之间的连接可以是有线或无线的。

尽管在该示例中以及在整个公开中的其他示例中，由客户端设备160捕获的文本对应于餐馆的菜单项，但是应当理解，文本的捕获和图像的提供可以应用于各种其他场境中的任何一种，诸如带有如果与可视项的AR覆盖相关联则可以更好地进行解释的项的文本描述的任何内容。例如，该文本可能是家具组装说明，诸如“将螺钉类型1***木板C中”。可以辨识此类文本并将其用于检索可视项覆盖，诸如显示在“螺钉类型1”文本旁边的带有螺钉类型1的图像、在“木板C”文本旁边的木板C的图像和/或螺钉被***木板的图像或视频剪辑的覆盖。

图2示出了示例***100中的组件的更多细节。不应将其视为限制本公开的范围或此处描述的特征的实用性。每个服务器计算设备110可以包含一个或多个处理器220、存储器230和通常存在于通用计算设备中的其他组件。每个计算设备110的存储器230可以存储一个或多个处理器220可访问的信息，包括可以由一个或多个处理器220执行的指令234。

存储器230还可以包括可以由处理器检索、操纵或存储的数据232。存储器可以是能够存储处理器可访问的信息的任何非暂时性类型，例如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、具有写能力的存储器和只读存储器。

指令234可以是诸如机器代码的将由一个或多个处理器直接执行的任何指令集，或诸如脚本的将由一个或多个处理器间接执行的任何指令集。在这方面，术语“指令”、“应用”、“步骤”和“程序”在本文中可以互换使用。指令可以以目标代码格式存储以供处理器直接处理，或者以任何其他计算设备语言存储，包括按需进行解释或预先编译的脚本或独立源代码模块的合集。将在下面更详细地说明指令的功能、方法和例程。

数据232可以由一个或多个处理器220根据指令234进行检索、存储或修改。例如，尽管本文所述的主题不受任何特定数据结构的限制，但是可以将数据在计算机寄存器中、在关系数据库中存储为具有许多不同字段和记录的表或XML文档。数据还可以以任何计算设备可读格式进行格式化，诸如但不限于二进制值、ASCII或Unicode。此外，数据可以包括足以识别相关信息的任何信息，例如数字、描述性文字、专有代码、指针、对存储在诸如在其他网络位置处的其他存储器中的数据的引用或功能用于计算相关数据的信息。

一个或多个处理器220可以是任何常规处理器，诸如可商购获得的CPU。备选地，处理器可以是专用组件，诸如专用集成电路(“ASIC”)或其他基于硬件的处理器。尽管不是必需的，但是计算设备110中的一个或多个可以包括专用硬件组件以执行特定的计算过程，诸如图像匹配、图像编辑、对象辨识或者更快或更有效地执行其他过程。

尽管图2在功能上将计算设备110的处理器、存储器和其他元件示出为在同一块内，但是处理器、计算机、计算设备或存储器实际上可以包括可能会或可能不会存储在同一物理外壳中的多个处理器、计算机、计算设备或存储器。例如，存储器可以是位于不同于计算设备110的壳体中的硬盘驱动器或其他存储介质。因此，对处理器、计算机、计算设备或存储器的引用将被理解为包括对可能并行运行或可能不并行操作的处理器、计算机、计算设备或存储器的合集的引用。例如，计算设备110可以包括作为负载平衡服务器场、分布式***等操作的服务器计算设备。此外，尽管以下描述的一些功能被指示为发生在具有单个处理器的单个计算设备上，但是此处描述的主题的各个方面可以由例如通过网络150传递信息的多个计算设备实现。

计算设备110、160、170每个可以位于网络150的不同节点上，并且能够与网络150的其他节点直接和间接通信。尽管在图2中仅描述了几个计算设备，应当理解，典型的***可以包括大量连接的计算设备，每个不同的计算设备位于网络150的不同节点上。本文所述的网络150和中间节点可以使用各种协议和***互连，使得该网络可以是因特网、万维网、特定Intranet、广域网或局域网的一部分。该网络可以利用诸如以太网、WiFi和HTTP的标准通信协议、一个或多个公司专有的协议以及前述的各种组合。尽管如上所述在传输或接收信息时获得了某些优点，但是本文描述的主题的其他方面不限于信息的任何特定传输方式。

作为示例，每个计算设备110可以包括能够经由网络150与存储***140以及计算设备160、170通信的web服务器。例如，服务器计算设备110中的一个或多个可以使用网络150以在诸如计算设备160的显示器265之类的显示器上向用户传输信息并向用户呈现信息。就这一点而言，计算设备160、170可以被认为是客户端计算设备，并且可以执行本文所述的全部或一些特征。

每个客户端计算设备160、170可以类似于服务器计算设备110配置，具有如上所述的一个或多个处理器、存储器和指令。每个客户端计算设备160、170可以是旨在供用户使用的个人计算设备，并且具有通常与个人计算设备结合使用的所有组件，诸如处理器262、存储数据263和指令264的存储器(例如，RAM和内部硬盘驱动器)、显示器265和用户输入266。客户端计算设备还可以包括用于记录视频流和/或捕获图像的相机267、扬声器、网络接口设备以及用于将这些元件彼此连接的所有组件。客户端计算设备160还可以包括位置确定***，诸如GPS 268。位置确定***的其他示例可以基于无线访问信号强度、诸如地标的地理对象的图像、诸如光或噪声级别的语义指示符等来确定位置。

尽管客户端计算设备160、170每个可以包括全尺寸的个人计算设备，但是它们可以替代地包括能够通过诸如因特网之类的网络与服务器无线交换数据的移动计算设备。仅作为示例，客户端计算设备160可以是移动电话或诸如具有无线功能的PDA、平板电脑、上网本、智能手表、头戴式计算***之类的设备，或者可以是能够通过因特网获得信息的任何其他设备。作为示例，用户可以使用小型键盘、小键盘、麦克风、使用利用相机或触摸屏的可视信号来输入信息。

与存储器230一样，存储***140可以是能够存储服务器计算设备110可访问的信息的任何类型的计算机存储设备，诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、具有写功能和只读的存储器。另外，存储***140可以包括分布式存储***，其中，数据存储在物理上可以位于相同或不同地理位置的多个不同存储设备上。存储***140可以如图1所示经由网络150连接到计算设备和/或可以直接连接到任何计算设备110。

存储***140可以存储数据，诸如对应于特定实体的图像。例如，图像可以描绘特定餐馆处的菜单项。可以用提供各种附加信息的元数据来标记图像。这样的信息可以涉及例如图像的来源、图像的内容、图像的质量等。

一个或多个处理器220可以从客户端设备之一接收包括文本的图像，并且诸如通过使用光学字符辨识或其他文本辨识或分析工具来解析文本。处理器220可以进一步确定发送文本图像的客户端设备的位置，并确定与该位置相对应的实体。例如，处理器220可以确定文本图像是从与特定餐馆相对应的位置发送的。这样的位置信息可以帮助限制对与文本相对应的对象的图像的搜索，从而使得搜索和识别对象的匹配图像的过程更加有效。一旦识别出与文本和位置相对应的图像，就可以选择这些图像中的一个或多个。例如，可以基于图像所描绘的对象与解析的文本匹配的紧密程度、基于图像质量或基于这些或其他因素的任意组合来对图像进行排名。然后提供所选择的图像以作为增强现实覆盖显示在客户端设备上。

图3-5示出了客户端设备360捕获第一文本图像、选择特定文本并将与该文本相对应的第二图像显示为增强现实覆盖的示例。如图3所示，客户端设备360包括显示部分365，诸如触摸屏显示器。显示部分365显示查看窗格380以及多个控件382-388。控件可以用于例如捕获图像，操纵捕获的图像，与其他设备通信等。捕获的图像可以在查看窗格380内可见。在一些示例中，客户端设备360可以连续捕获图像，诸如通过保持相机应用打开或录制视频等。在该示例中，查看窗格380示出了列出各种菜单选择的菜单的部分。

如图4所示，用户可以选择文本的部分380。例如，所选文本的部分382可以对应于用户希望看到其照片的菜单上的项。例如，可以通过下述方式来选择文本：点击屏幕的对应部分，使用触摸屏或控件在文本周围绘制窗口，将对麦克风说出文本或多种其他选项中的任意一个。用户可以利用请求将文本的部分382传输到服务器以获得对应的图像。例如，可以在选择文本后自动发送请求，或者用户可以在选择文本后选择特定的控制选项。在一些示例中，在查看窗格380中捕获的任何文本可以自动触发对应影像的检索。

如图5所示，响应于该请求提供了覆盖390。在该示例中，覆盖390包括诸如被搜索并与图像394、396相对应的文本392之类的信息。在一些示例中，所选文本的部分382可以包括多个词或短语，诸如对菜单项的描述。在这种情况下，可以单独和作为有序组合搜索所有文本。因此，可以显示各种不同的结果，用户可以滚动、滑动或以其他方式整理该结果。覆盖390中的文本392因此可以向用户提供图像394、396对应于选择部分382中的哪个文本的指示。尽管未示出，但是也可以在覆盖390中提供其他信息。例如，这样的其他信息可以包括评级、评论、图像的描述、图像元数据等。

尽管图5将对应的第二图像394、396显示为查看窗格380底部的增强现实覆盖，但是应该理解，这些图像可以替代地以另一种格式呈现。例如，图像可以呈现在文本旁边或文本上方。在一些示例中，诸如在所选文本部分382和对应的图像394、396安置在彼此上的情况下，顶层可以是部分透明的，使得底层仍然可见。这些仅仅是众多可能的显示格式的几个示例。

示例方法

除了上述和附图中示出的操作之外，现在将描述各种操作。应当理解，以下操作不必以下面描述的精确顺序执行。而是，可以以不同顺序或同时处置各种步骤，并且还可以添加或省略步骤。

图6-7涉及识别与所选文本相对应的影像的过程。特别地，可以通过搜索与特定位置相对应的图像来缩小对应影像的候选集合。例如，在餐馆处捕获文本的图像的情况下，候选图像可以限于与该餐馆相对应的图像。因此，可以基于诸如下述部分的各种指示符中的一个或多个来确定客户端设备的位置：GPS坐标、用户输入、接收到的信号(例如，接入点标识符、接收到的信号强度指示符、信标等)、检测到的文本、检测到的条件(例如，光线、噪音、气压等)。图6仅提供了确定用户/设备位置以缩小图像子集的一个可能示例。为了保护用户隐私，仅当用户授权时——诸如当启用移动设备上的位置共享选项时——才执行这种位置确定。

如图6所示，可以初始确定用户的地理位置610，诸如通过使用GPS定位服务。尽管地理位置610在图6中图示为地图视图，但地理位置610可以以诸如坐标的许多其他形式中的任何一种表示。在一些实例中，许多实体可以位于给定地理位置处或附近，因此，将图像搜索进一步限制为该地理位置处的特定实体是有用的。例如，在拥挤的城市社区中，多个商店、咖啡馆、餐馆和其他机构可能位于给定位置处或附近。在一些示例中，可以识别这样的位置620，并且可以使用其他特定信息630来确定用户位于哪个实体中。其他特定信息630可以包括各种类型的信息，诸如语义信息、用户输入等。语义信息可以包括例如客户端设备周围的条件，诸如光、噪声、气压、温度、移动、信号强度等。语义信息可以附加地或可替代地包括由客户端设备检测到的文本，诸如菜单顶部的餐馆名称。用户输入可以包括例如响应于询问用户是否在特定位置的提示的确认、对来自可能位置620的菜单的选择、文本或语音录入等。可以基于这种检测到的或手动录入的信息的任意组合来确定用户所在的实体640。在该示例中，已经确定用户在Indian Restaurant(印度餐馆A)，对于与检测到的文本相对应的图像的搜索的字段可以限于链接到印度餐馆A的图像。例如，可以从诸如实体的网站、用户评论站点等的与印度餐馆A相关联的站点收集图像，图像可以标记有与印度餐馆A相关联的信息，或者图像可以某种其他方式与印度餐馆A相关。

可以从候选集合中选择一个或多个特定图像，以提供给客户端设备进行显示。为了快速有效地选择最相关的图像，可以使用标签创建和匹配过程。例如，如图7所示，可以基于客户端设备捕获的文本生成第一标签集合，诸如该文本是图4的部分382。例如，可以将所选文本注释为一个或多个相机标签的集合。在该示例之后，为所选文本“samosa(炸饺)”创建第一标签782。在所选文本包括附加词的示例中，也可以诸如单独地或组合地生成具有附加词的附加标签。

为可能与所选文本匹配的多个候选图像生成第二标签集合。例如，候选图像可以包括被识别为与用户在其中捕获文本的实体相对应的图像。根据一些示例，可以在来自用户的请求之前生成用于特定实体的影像的候选集合并将其存储在数据库中，使得当接收到用户请求时该候选集合是可用的和可访问的。例如，对于诸如印度餐馆A的特定实体，可以从各种来源或从任何其他来源收集与该特定实体相关的图像，该各种来源诸如是地图数据库、网站、与特定实***置匹配的地理标记图像、在匹配特定实体的名称的web搜索中识别的图像、特定实体上可用的项的名称或与特定实体相关的其他信息。在一些示例中，图像可以由访问特定实体的用户贡献，并且与收集的图像一起存储在候选集合中。这些预先收集的图像可以在收集之前或之后或被加标签。例如，基于在客户端设备或服务器上执行的图像辨识，可以利用用户分配的标记和/或标签来为用户贡献的图像加标签。从网站和其他来源收集的图像可能具有标记或图像标题或与其关联的其他元数据，并且可以基于该元数据和/或图像辨识被分配标签。在一些示例中，机器学习模型可以用于生成用于图像的预先收集的候选集合的标签。根据其他示例，可以响应于用户请求而实时收集图像的候选集合，并且可以在收集图像时对其进行加标签。

如图7所示，候选图像A-H每个都包括一个或多个图像标签，这些图像标签识别图像中的对象，共同形成第二标签集合。例如，图像A包括标签702、704，图像D包括标签742-746，等等。尽管图7所示的标签描绘了菜单项的名称和菜单项中的成分，但是应当理解，标签可以包括其他信息。例如，标签可以包括用于特定实体的标识符、与图像的内容有关的其他细节等。

使用第一相机标签集合和第二图像标签集合，可以执行匹配以识别与所接收的文本最紧密地匹配的图像。例如，可以计算第一标签集合和第二标签集合之间的距离，诸如杰卡德距离。这样的计算可以导致每个图像的分数或置信值，并且分数/置信值可以用于对更有可能描绘接收到的文本的图像进行排名。在某些情况下，诸如当找到多个高置信匹配项时，可以使用附加排名信号。这样的附加排名信号可以仅作为示例包括图像的吸引力、图像的质量、多样性等。例如，可以基于图像基于评级、评论数量、评论内容等的受欢迎程度或由图像清晰度、分辨率或其他图像特征来确定吸引力。图像的多样性可能与不同的相机角度、视角、图像中的对象与视点的接近程度等有关。其他排名信号可能会被作为每个图像的分数或置信值的生成中的因素。在其他示例中，附加排名信号可以用于生成第二分数，并且第二分数可以与第一分数组合或者可以用作附加的过滤回合。例如，基于所计算的标签之间的距离的第一分数可以用于选择在其中距离低于预定阈值的第一图像集合并且过滤在其中距离高于阈值的其余图像。第二分数可以用于进一步限制所选择的第一图像集合。例如，第二分数可以用于对第一图像集合进行排名，并且可以基于第一图像集合的排名选择第一图像集合中的预定数量进行显示。

图8示出了提供与检测到的文本相对应的图像作为相对于文本的增强现实覆盖的示例方法。该方法可以在客户端设备上本地执行，或由一个或多个服务器远程执行，或者由此类设备的某种组合执行。

在框810中，从图像捕获设备接收文本的图像。例如，客户端设备从餐馆处的菜单中捕获文本图像，并且用户选择针对其请求图像的特定文本。所选择的特定文本可以对应于一个或多个菜单项，并且可以包括菜单项的随附描述。包括随附描述可以增加所识别的对应图像的数量或提高最终选择用于显示的图像的准确性。在框820中，诸如通过使用文本辨识工具来解析在捕获的图像中选择的特定文本。

在框830中，确定图像捕获设备的位置。例如，可以使用GPS、来自接收到的信号的信息、检测到的状况、用户输入等来确定位置。所确定的位置可以用于识别在其处捕获图像的特定实体(框840)。

在框850中，识别候选图像，该候选图像对应于所解析的文本和所识别的实体。可以基于地理标记、标签匹配、机器学习或许多其他技术中的任何一种来识别候选图像。

在框860中，选择一个或多个候选图像以在客户端设备上显示。可以基于与图像相关联的标签与为客户端设备捕获的图像中的文本所生成的标签匹配的紧密程度来选择图像。在一些示例中，可以基于多种标准中的任一种来对候选图像进行评分和排名，多种标准诸如是标签匹配的紧密性、图像的质量、图像的角度、图像的来源等。

在框870中，提供选择的图像以在客户端设备上显示为关于文本的增强现实覆盖。例如，图像可以自动地显示在客户端设备的屏幕的一部分中相对于文本位于下方、旁边、上方或其他位置。在其他示例中，图像可以被随附到所选择的文本。例如，当所选择的文本在查看窗格中移动时，对应的图像也随之移动。

当用户继续浏览捕获的文本的菜单或其他来源时，用户可以继续选择文本以检索对应的影像。例如，如果用户使用设备缓慢地扫描菜单，则可以检索和显示与进入视场的文本相对应的图像。当这样的文本离开视场时，对应的图像可用与已经进入视场内的新文本有关的其他图像替换。

本公开的方法可以通过在给定环境中检索与文本相关联的图像数据来提高数据处理的效率。特别地，通过在检索图像数据中利用位置数据，可以实现改进的数据恢复，而无需附加的用户输入。例如，在给定文本字符串可能对应于多个图像的情况下，可以实现歧义消除。通过以这种方式提供影像，可以快速向用户呈现附加信息，以方便他们的决策过程，而无需必需录入各种搜索请求，寻找特定的网站以及对各种不相关的信息进行整理。因此，用户的体验得到了增强并且更加令人愉悦。

除非另有说明，否则前述替代示例不是互相排斥的，而是可以以各种组合实现以实现独特的优点。由于可以在不脱离权利要求所限定的主题的情况下利用以上讨论的特征的这些和其他变形以及组合，因此，对实施例的前述描述应当通过说明的方式而不是通过限制权利要求所限定的主题的方式来进行。另外，在此描述的示例的提供以及用短语表达为“诸如”和“包括”等的用语不应被解释为将权利要求的主题限制于特定示例；而是，这些示例仅旨在说明许多可能的实施例之一。此外，不同附图中的相同附图标记可以标识相同或相似的元件。

Claims

1.一种识别与文本项相对应的图像的方法，包括：

利用一个或多个处理器从图像捕获设备接收文本的图像；

利用所述一个或多个处理器解析所述图像中的所述文本；

利用所述一个或多个处理器确定所述图像捕获设备的位置；

利用所述一个或多个处理器确定与所确定的位置相对应的实体；

识别与所解析的文本和所述实体相对应的图像；

选择所识别的图像中的至少一个所识别的图像；以及

提供所选择的图像以用于显示为关于所述文本的增强现实覆盖。

2.根据权利要求1所述的方法，其中，选择包括：

基于所解析的文本来为所捕获的图像生成第一标签集合；

为与所解析的文本和所述实体相对应的所识别的图像生成第二标签集合；以及

将所述第一标签集合与所述第二标签集合进行比较。

3.根据权利要求2所述的方法，其中，将所述第一标签集合与所述第二标签集合进行比较包括：确定所述第一标签集合与所述第二标签集合之间的距离。

4.根据权利要求3所述的方法，其中，选择所识别的图像中的所述至少一个所识别的图像包括：识别所述第一标签集合和所述第二标签集合之间的最短距离，以及选择与最短距离相对应的图像。

5.根据权利要求1所述的方法，还包括：

为所识别的图像中的每一个生成分数；以及

基于所述分数来对所识别的图像进行排名。

6.根据权利要求5所述的方法，其中，所述分数至少部分地基于图像质量和图像美感。

7.根据权利要求1所述的方法，其中，提供所选择的图像以用于显示包括：将所选择的图像随附到所述文本。

8.根据权利要求1所述的方法，其中，所述文本是菜单项，所述实体是餐馆，并且所识别的图像是与所述菜单项相对应的在所述餐馆处供应的菜肴的图像。

9.根据权利要求1所述的方法，其中，解析所述文本包括：光学字符辨识。

10.根据权利要求1所述的方法，其中，识别与所解析的文本和所述实体相对应的图像包括：从与所述实体相关联的一个或多个网站检索图像。

11.一种用于识别与文本项相对应的图像的***，包括：

一个或多个存储器；

与所述一个或多个存储器通信的一个或多个处理器，所述一个或多个处理器被配置为：

从图像捕获设备接收文本的图像；

解析所述图像中的所述文本；

确定所述图像捕获设备的位置；

确定与所确定的位置相对应的实体；

识别与所解析的文本和所述实体相对应的图像；

选择所识别的图像中的至少一个所识别的图像；以及

12.根据权利要求11所述的***，其中，在选择所识别的图像中的至少一个所识别的图像时，所述一个或多个处理器还被配置为：

基于所解析的文本来为所捕获的图像生成第一标签集合；

为所识别的与所解析的文本和所述实体相对应的图像生成第二标签集合；以及

将所述第一标签集合与所述第二标签集合进行比较。

13.根据权利要求12所述的***，其中，将所述第一标签集合与所述第二标签集合进行比较包括：确定所述第一标签集合与所述第二标签集合之间的距离。

14.根据权利要求13所述的***，其中，选择所识别的图像中的所述至少一个所识别的图像包括：识别所述第一标签集合和所述第二标签集合之间的最短距离，并选择与最短距离相对应的图像。

15.根据权利要求11所述的***，还包括：

为所识别的图像中的每一个生成分数；以及

基于所述分数来对所识别的图像进行排名。

16.根据权利要求15所述的***，其中，所述分数至少部分地基于图像质量和图像美感。

17.根据权利要求11所述的***，其中，提供所选择的图像以用于显示包括：将所选择的图像随附到所述文本。

18.根据权利要求11所述的***，其中，所述文本是菜单项，所述实体是餐馆，并且所识别的图像是与所述菜单项相对应的在所述餐馆处供应的菜肴的图像。

19.根据权利要求11所述的***，其中，所述一个或多个处理器驻留在客户端设备上。

20.一种存储指令的非暂时性计算机可读介质，所述指令能够由一个或多个处理器执行以执行识别与文本项相对应的图像的方法，所述方法包括：

从图像捕获设备接收文本的图像；

解析所述图像中的所述文本；

确定所述图像捕获设备的位置；

确定与所确定的位置相对应的实体；

识别与所解析的文本和所述实体相对应的图像；

选择所识别的图像中的至少一个所识别的图像；以及