CN103688273B

CN103688273B - 辅助弱视用户进行图像拍摄和图像回顾

Info

Publication number: CN103688273B
Application number: CN201280022569.7A
Authority: CN
Inventors: J·霍兰德; E·塞默尔; C·弗雷扎齐; D·胡德森
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2011-06-24
Filing date: 2012-05-10
Publication date: 2017-08-08
Anticipated expiration: 2032-05-10
Also published as: AU2012273435A1; AU2012273435B2; CN103688273A; US20120327258A1; US9536132B2; WO2012177333A3; EP2724290A2; KR101660576B1; KR20140012757A; WO2012177333A2

Abstract

提供了用于简化弱视用户拍摄和回顾可视图像的技术和机构。在一个实现中，这些技术和机构提供了每图像拍摄功能和拍摄图像回顾功能。利用每图像拍摄功能，向用户提供音频消息，来帮助用户适当地定位图像拍摄机构，以拍摄一图片中的希望主体、对图片内的主体适当地取景、对图片内的主体适当地调整大小等。利用图像回顾功能，向用户提供音频消息，来帮助用户欣赏和“看见”已经拍摄并且向用户显示的可视图像。利用这些功能，与当前可能程度相比，弱视用户能够更大程度地拍摄和回顾图像。

Description

辅助弱视用户进行图像拍摄和图像回顾

背景技术

如今，许多电子装置（如移动电话、智能电话、平板计算机，以及膝上型计算机）都具有使得用户能够利用该电子装置拍摄可视图像的图像拍摄装置（例如，摄像机）。一旦拍摄，该可视图像就可以在该电子装置上显示和/或编辑、发送至另一装置、与存储在该电子装置中的联系人相关联、或者由用户以其它方式使用。

当前，大多数（如果不是所有）图像拍摄和再现装置被设计成由能够看见的用户使用。对于弱视用户来说，很难（如果不是无法）有效使用图像拍摄和再现装置。例如，如果弱视用户要尝试利用图像拍摄装置拍摄图片，则对于该用户来说，极难的是：（1）拍摄该图片内的合适主体；（2）将该主体定位在该图片中央；（3）按正确的距离或缩放级别拍摄该主体，以使该主体具有对于该图片的恰当尺寸；等。最可能的是，用户必须争取看得见的人的帮助，以帮助对该图片内的主体取景和调整大小。

类似的是，弱视用户很难（如果不是无法）有意义地回顾和欣赏由图像再现装置再现的图像，则这相当困难。该用户不知道有多少人在该图片中、谁在该图片中、不同的人位于该图片内的什么地方等。此外，用户很可能必须争取看得见的人的帮助以向他/她描述该图片。由此，如当前设计和构造的，图像拍摄和再现装置对于弱视用户来说不是非常用户友好。

附图说明

图1示出了可以实现本发明一个实施例的样本装置的框图。

图2示出了根据本发明一个实施例的、在图像拍摄过程期间由图1的装置执行的操作的流程图。

图3例示了根据本发明的一个实施例的帧跟踪的示例。

图4示出了根据本发明一个实施例的、在图像回顾过程期间由图1的装置执行的操作的流程图。

图5示出了根据本发明的一个实施例的、如何将帧划分成具有九部分的网格。

具体实施方式

概述

根据本发明的一个实施例，提供了用于辅助弱视用户拍摄和回顾可视图像的技术和机构。在一个实施例中，这些技术和机构包括图像预拍摄功能和拍摄图像回顾功能。利用图像预拍摄功能，向用户提供音频消息，以帮助用户适当地定位图像拍摄机构，以拍摄图片中的希望主体、对图片内的主体适当地取景、对图片内的主体适当地调整大小等。利用图像回顾功能，向用户提供音频消息，来帮助用户欣赏和“看见”已经拍摄并显示的可视图像。

利用图像预拍摄功能，用户可以按场景指示具有图像拍摄机构（例如，摄像机）的电子装置。周期性地，或者响应于用户调用该装置的某一控制（例如，通过触摸某一控制部或者进行某一姿势或移动），该装置预拍摄该场景的图像。在预拍摄该图像之后，装置分析该图像。例如，装置可以应用面部检测技术以确定该图像中有多少面部。该装置还可以识别构成每一个面部的像素，以确定该预拍摄图像内的每一个面部的位置。另外，该装置可以应用面部识别技术来识别这些面部。由此，不是将预拍摄图像中的一面部称为“面部1”，而是该装置可以将该面部识别为“Zachary”。而且，该装置可以分析该预拍摄图像以确定这些面部中的任一个是否过于靠近图片的边缘（例如，左侧、右侧、上侧以及下侧）。该装置还可以分析该预拍摄图像，以确定这些面部相对于图片的总尺寸的大小。

在分析该预拍摄图像之后，该装置可以向用户提供一个或多个音频消息。例如，如果该图像包含属于Zachary和Emily的面部，则该装置可以提供说“两个面部”，“Zachary”、“Emily”的音频消息。该装置还可以提供有关该图像内的面部位置的音频消息。例如，如果面部过于靠近该图片左边缘，则装置可以提供说“面部靠近左边缘”的音频消息。如果这些面部在该图像内居中，则该装置可以提供说“面部居中”的音频消息。在某些情况下，面部可以靠近多个边缘（例如，上边缘和左边缘）。在这种情况下，该装置可以提供说“面部靠近左上边缘”的音频消息。该装置还可以提供有关该图像内的面部的尺寸的音频消息。例如，如果面部太小，则该装置可以提供说“面部太小”的音频消息。另一方面，如果一面部几乎填满整个图像，则该装置可以提供说“面部全宽”的音频消息。可以将这些和其它音频消息提供给用户。

响应于这些音频消息，用户可以改变图像拍摄机构的定位、更靠近或更远离主体移动、调节图像拍摄机构的缩放特征等。例如，如果用户希望拍摄该图片中的三个主体，但当前仅检测到两个面部，则该用户可以重定位图像拍摄机构以拍摄全部三个主体。而且，如果一面部过于靠近边缘，则该用户可以移动图像拍摄机构，以将该主体更好居中。而且，如果面部太小或太大，则用户可以更靠近或更远离主体移动，或者调节图像拍摄机构的缩放因子。这些和其它调节可以由用户进行。在进行这些调节之后，用户可以等待来自该装置的更新音频消息（其将在该装置在预拍摄另一图像并分析该图像之后提供）。通过响应于来自该装置的音频消息而进行调节的迭代过程，用户可以获得他/她希望的精确图像。

作为调节过程的一部分，用户可能希望获知各个主***于预拍摄图像内的什么地方。在一个实施例中，该装置具有显示该预拍摄图像的触敏显示器。用户可以触摸该显示器的任何部分，并且响应于该用户输入，该装置确定该预拍摄图像的被用户触摸的部分是否对应于构成该图片中的面部之一的像素。基于该确定，该装置可以提供恰当的音频消息。例如，如果被用户触摸的部分不对应于图片中的任何面部，则该装置可以提供蜂鸣声音（或用户选择的某一其它声音，或完全接受为意指“没有什么”的声音的声音，或者根本没有声音）。另一方面，如果所触摸部分对应于图片中的一面部，则该装置可以提供指示其的音频消息。例如，该音频消息可以说“面部1”、“面部2”等。如果该面部在面部识别处理期间被识别，则该音频消息可以更具体。例如，如果所触摸部分对应于Zachary的面部，则该音频消息可以说“Zachary”。利用该功能，弱视用户能够确定主***于预拍摄图像内的什么地方，并且它们怎样彼此相对定位。这使得用户能够在永久性拍摄该图像之前“视觉化”它。

一旦用户基于来自该装置的音频消息而满意图像拍摄机构相对于主体的定位，该用户就可以使该装置（例如，通过触摸某一控制部或进行某一姿势或移动）永久性拍摄并存储该图像。

在拍摄并存储该图像之后，分析其以导出一组元数据。在一个实施例中，直接在永久性拍摄一图像之后执行该分析。所导出的元数据与该图像一起存储，并且可以被用于增强用户在回顾所拍摄图像时的经验。作为一示例，面部检测技术可以被应用至所拍摄图像以确定该图像中有多少面部。所检测面部的数量可以被存储为针对所拍摄图像的元数据的一部分。另外，作为面部检测过程的一部分，可以识别构成面部的像素。利用该信息，可以指定该图片内的面部的位置。该像素信息可以被存储为针对所拍摄图像的元数据的一部分。而且，可以应用面部识别技术以识别出现在该图片中的面部。由此，不是仅仅获知该图片中存在两个面部，而是该装置例如可以确定其是处于图片中的Zachary和Emily。该识别信息还可以被存储为针对所拍摄图像的元数据的一部分。这些和其它元数据集可以利用所拍摄图像导出并与其一起存储。一旦导出元数据，其就可以被该装置用于向用户提供反馈。在一个实施例中，在永久性拍摄一图像之后，该装置向用户提供有关该图像的音频反馈。例如，该装置可以提供说“两个面部”，“Zachary”、“Emily”的音频消息。该音频反馈向用户提供刚才拍摄了什么图像的确认。

在某一点上，用户可能希望显示并回顾先前拍摄的图像。在一个实施例中，当向弱视用户显示所拍摄图像时，与该拍摄图像一起存储的元数据可以被用于增强用户的回顾经验。例如，当该装置显示一拍摄图像时，该装置可以提供指示该图像中有多少面部的音频消息（例如，“两个面部”）。如果与所拍摄图像一起存储的元数据包括针对该图像中的面部的识别信息，则该装置可以提供指定谁在该图片中的音频消息。例如，该音频消息可以说“Zachary”、“Emily”。

在显示所拍摄图像之后，该装置可以接收指示用户在触摸该图像的特定部分的输入（在一个实施例中，该拍摄图像显示在触敏显示器上）。利用元数据中的像素信息，该装置可以确定该图像的被用户触摸的部分是否为构成该图片中的面部之一的像素。基于该确定，该装置可以提供恰当的音频消息。例如，如果被用户触摸的部分不对应于图片中的任何面部，则该装置可以提供蜂鸣声音（或用户选择的某一其它声音，或完全接受为意指“没有什么”的声音的声音，或者根本没有声音）。另一方面，如果所触摸部分不对应于图片中的一面部，则该装置可以提供指示其的音频消息。例如，该音频消息可以说“面部1”、“面部2”等。如果该元数据包括识别信息，则该音频消息可以更具体。例如，如果所触摸部分对应于Zachary的面部，则该音频消息可以说“Zachary”。利用该功能，弱视用户能够确定主***于所拍摄图像内的什么地方，并且它们怎样彼此相对定位。这使得弱视用户能够“看得见”该图像（例如，创建该图像内的主体的组成和排列的构思模型），由此，产生增强图像回顾经验。

样本装置

参照图1，示出了可以实现本发明一个实施例的样本装置100的框图。如图所示，装置100包括用于辅助信息交换的总线102，和耦接至总线102以执行指令和处理信息的一个或多个处理器104。装置100还包括耦接至总线102的一个或多个存储部106（在此还被称为计算机可读存储介质）。存储部106可以被用于存储可执行程序、永久性数据（例如，拍摄图像、与拍摄图像相关联的元数据等）、在程序执行期间生成的临时数据（例如，预拍摄图像等），以及为执行计算机处理所需的任何其它信息。

存储部106可以包括可以被用于执行计算机处理的任何和所有类型的存储部。例如，存储部106可以包括主存储器（例如，随机存取存储器（RAM）或其它动态存储装置）、高速缓冲存储器、只读存储器（ROM）、永久性存储部（例如，一个或多个磁盘或光盘、闪速存储部等），以及其它类型存储部。各个存储部106可以是易失性或非易失性的。计算机可读存储介质的常见形式例如包括：软盘、柔性盘、硬盘、磁带、或任何其它磁介质，CR-ROM、DVD、或任何其它光学存储介质、穿孔卡、纸带、或具有孔图案的任何其它物理介质、RAM、PROM、EPROM、FLASH-EPROM或任何其它类型的闪速存储器、任何存储器芯片或存储器卡、以及计算机可以读取的任何其它存储介质。

如图1所示，存储部106至少存储若干组可执行指令，包括操作***114和一个或多个应用112。存储器102执行操作***114以提供其它软件集可以操作的平台，并且执行应用112中的一个或多个以提供附加的特定功能。针对本发明的目的，该应用112可例如包括：图像拍摄应用、图像回顾应用、以及其它应用。在一个实施例中，应用112和操作***114协作以实现在此描述的技术。即，部分该技术可以通过应用112来执行，而部分可以通过操作***114来执行。应注意到，这只是一个可能实施例。作为一另选例，所有这种技术可以通过操作***114来执行。作为另一另选例，所有技术可以通过应用112中的一个或多个来执行。所有这种可能实现都处于本发明的范围内。

在图1所示实施例中，处理器104和可执行指令112、114可以被视为形成实现在此描述的技术的图像处理器。在这种实现中，处理器104可以被视为由用于执行该技术的可执行指令112、114“构成”。这只是用于图像处理器的一个可能实现。作为一另选例，该图像处理器可以是利用具有包括逻辑部件的一组部件的装置（例如，可编程逻辑阵列）的硬件，其中，该部件被编程/设置成实现在此描述的技术。作为另一另选例，该图像处理器可以是通过诸如具有包括逻辑部件的部件的专用集成电路（ASIC）的另一装置实现的硬件，其被构造/设置成实现在此描述的技术。总的来说，该图像处理器可以是利用具有包括逻辑部件的部件的任何数量的装置实现的硬件，其被构造/设置成实现在此描述的技术。图像处理器的这些和其它实现都是可以的。所有这种实现都处于本发明的范围内。

装置100还包括耦接至总线102的一个或多个用户接口组件108。这些组件108使得装置100能够接收来自用户的输入并且向用户提供输出。在输入侧上，用户接口组件108例如可以包括：具有字母数字混编键的键盘/小键盘、光标控制装置（例如，鼠标器、轨迹球、触摸板等）、能够接收用户输入的触敏屏、用于接收音频输入的麦克风等。在输出侧上，组件108可以包括用于提供可视和音频内容的图形接口（例如，图形卡）和音频接口（例如，声卡）。用户接口组件108还可以包括用于呈现可视内容的显示器116（在一个实施例中，显示器116是触敏显示器），和用于呈现音频内容的音频装置118（例如，一个或多个扬声器）。在一个实施例中，通过处理器104执行的操作***114和一个或多个应用112可以提供软件用户接口，其采取用户接口组件108的优点并且与其交互以接收来自用户的输入和向用户提供输出。该软件用户接口例如可以提供用户可以利用上述用户输入装置之一、可以经由触摸调用的软按钮、软键盘等导航的菜单。该软件接口还可以与触敏显示器16交互，以接收指示用户触摸该显示器16的哪个（哪些）位置的信息，并将该信息转换成操作***114和应用112可以使用的输入（例如，确定触摸了所显示图像的哪个（哪些）部分，调用了哪个菜单项或按钮等）。这些和其它功能可以通过由操作***114和应用112提供的软件用户接口来执行。

在一个实施例中，用户接口组件108还包括一个或多个图像拍摄机构120。针对本发明的目的，图像拍摄机构120可以是能够拍摄可视图像的任何机构。在一个实施例中，图像拍摄机构120采用数字摄像机的形式，该数字摄像机具有一个或多个透镜和用于感测由该一个或多个透镜引导的光的光学传感器阵列。该光学传感器阵列（其中，每一个光学传感器表示一像素）提供指示所感测光的输出信号。来自光学传感器阵列的输出信号可以被用于导出所拍摄图像。针对本发明的目的，图像拍摄机构120的透镜可以是静止的或可机械移动的以实现光学缩放。

除了上述组件以外，装置100还可以包括耦接至总线102的一个或多个通信接口110。这些接口110使得装置100能够与其它组件通信。该通信接口110例如可以包括用于使得装置100能够向本地网络发送消息和从本地网络接收消息的网络接口（有线或无线）。通信接口110还可以包括用于使得该装置能够在不利用本地网络的情况下接入因特网的3G接口。通信接口110还可以包括用于使能装置110能够进行电话通信的电话网络接口。通信接口110还可以包括用于与附近装置（如无线头戴式耳机、耳塞等）无线通信的无线接口（例如，蓝牙（Bluetooth）。）通信接口110还可以包括用于与一组有线头戴式受话器、头戴式耳机、耳机等连接的插孔。这些和其它接口可以被包括在装置100中。

样本操作

考虑到以上描述的装置并且参照图1-5，下面，对根据本发明一个实施例的装置100的操作进行更详细描述。在下面的描述中，该操作将被描述为通过装置100来执行。应当明白，在一个实施例中，装置100通过使处理器104执行操作***114和应用112中的一个或多个并且使处理器104与各个其它组件（例如，显示器116、音频装置118、图像拍摄机构120等）交互来执行这些操作。

图像预拍摄功能

参照图2，示出了根据本发明一个实施例的、利用由装置100执行的图像预拍摄操作的流程图。为调用这些操作，弱视用户可以与装置100交互，以设置用于采取装置100的音频和消息发送能力的优点的某些用户设置。接着，该用户可以调用采取该音频消息发送能力的优点的应用112（例如，图像拍摄应用）。在进行该调用之后，装置100将执行图2所示的操作。

装置100允许用户沿用户希望拍摄的场景的总方向引导图像拍摄机构120。一旦进行该操作，装置100就利用图像拍摄机构120预拍摄（框204）该场景的图像。该预拍摄图像显示在触敏显示器116上。在一个实施例中，装置100自动且周期性地预拍摄一场景的图像。另选的是，装置100可以在预拍摄图像之前等待某一用户输入（例如，触摸某一控制部或进行某一姿势或移动）。在一个实施例中，该预拍摄图像未永久性地存储；相反的是，其临时存储，并且只用于帮助用户适当地定位/调节图像拍摄机构120以拍摄用户希望拍摄的图像的目的。为简单和方便起见，下面将预拍摄的图像称为帧。

帧分析

在拍摄一帧之后，通过装置100分析其（框208）。针对本发明的目的，可以在一帧上执行任何类型的图像分析。下面的讨论只提供了几个示例。

可以在一帧上执行的一类分析是面部检测。在面部检测期间，装置100处理该帧的像素，以寻找暗示存在面部的特定像素图案。例如，装置100可以寻找类似眼睛、鼻子、以及嘴的像素图案，并且确定这些图案是否按它们形成一面部的这种方式彼此相对定位（注意：按较低程度，装置100可以寻找可能不被人识别为诸如眼睛、鼻子、或嘴的完全面部特征的像素图案）。如果找到特定像素图案，则可以检测到面部。出于本发明的目的，任何面部检测方法都可以应用。下面列出的文档描述了可以使用的一些（而非全部）面部检测技术。所有这些文档通过引用并入于此。

1、P.Viola,M Jones,Robust Real-time Object Detection,SecondInternational Workshop on Statistical and Computational Theories of Vision-Modeling,Learning,Computing,and Sampling,Vancouver,Canada,July13,2001,25pages

2、P.Viola,M Jones,Robust Real-time Face Detection,InternationalJournal of Computer Vision57(2),2004,pp.137-154

3、Froba,Küblbeck:Audio-and Video-Based Biometric PersonAuthentication,3rd International Conference,AVBPA2001,Halmstad,Sweden,June2001.Proceedings,Springer.ISBN 3-540-42216-1

4、Kirchberg,Jesorsky,Frischholz:International ECCV Workshop onBiometric Authentication,Springer,Lecture Notes in Computer Science,LNCS-2359,pp.103-111,Copenhagen,Denmark,June2002

5、Yang,Kriegman,Ahuja:Detecting Faces in Images:A Survey,IEEETransactions on Pattern Analysis and Machine Intelligence,Vol.24,No.1,January2002

在一个实施例中，装置100在整个帧上执行面部检测，以检测该帧中的所有面部。由此，到面部检测过程结束，装置100将具有对该帧中有多少面部的计数。

在一个实施例中，作为面部检测过程的一部分，装置100确定哪些像素构成每一个面部。接着，装置100存储指示哪些像素与哪个面部相关联的像素信息。在一个实施例中，为最小化需要存储的像素信息的量，装置100将每一个面部近似为一矩形框。那样，与面部相关联的像素可以仅用针对x和y个像素坐标的一组范围来表达。例如，假设一面部包含特定的一组像素，还假设该组像素中的最左侧像素具有x坐标x₁，该组像素中的最右侧像素具有x坐标x₂，该组像素中的最上侧像素具有y坐标y₁，而该组像素中的最下侧像素具有y坐标y₂。在这种情况下，该面部可以被表达为包含具有x₁与x₂之间的x坐标（含x₁与x₂）和y₁与y₂之间的y坐标（含y₁与y₂）的所有像素。虽然这不拍摄构成该面部的精确像素，但其足够接近，并且提供了显著的存储节省。利用该像素信息，不仅装置100获知该帧中有多少面部，而且获知该面部位于帧中的什么地方。

可以在一帧上执行的另一类分析是面部识别。利用面部识别，在帧中检测到的每一个面部都被分析以确定该面部是否属于已经被识别给装置100的人。面部识别可以涉及针对每一个所检测面部导出某些面部特征值。接着，可以将这些面部特征值与数据库中的已知被识别面部的面部特征值比较，来确定所检测面部是否足够接近一识别面部，以断定所检测面部和所识别面部属于同一人。如果进行所检测面部和所识别面部属于同一人的断定，则与该识别面部相关联的身份或姓名可以与所检测面部相关联。在一个实施例中，面部识别被应用至该帧中的所有被检测面部。由此，在面部识别过程结束时，可以识别所有被检测面部（假设它们属于已经被识别给装置100的人）。

上面的讨论只提供了可以在面部识别过程期间执行的高层次描述。出于本发明的目的，任何面部识别方法都可以应用。下面的文献描述了可以使用的一些（而非全部）面部识别技术。所有这些文献通过引用并入于此。

1、W.Zhao,R.Chellappa,A.Rosenfeld,P.J.Phillips,Face Recognition:ALiterature Survey,ACM Computing Surveys,2003,pp.399-458

2、G.Shakhnarovich,B.Moghaddam,Face Recognition in Subspaces,Handbookof Face Recognition,Eds.Stan Z.Li and Anil K.Jain,Springer-Verlag,December2004,35pages

3、M.Turk,A.Pentland,Eigenfaces for Recognition,Journal of CognitiveNeurosicence,Vol.3,No.1,Win.1991,pp.71-86

4、R.Brunelli,T.Poggio,Face Recognition:Features versus Templates,IEEETransactions on Pattern Analysis and Machine Intelligence,Vol.15,No.10,October1993,pp.1042-1052

5、L.Wiskott,J.-M.Fellous,N.Krueuger,C.von der Malsburg,FaceRecognition by Elastic Bunch Graph Matching,Chapter11in Intelligent BiometricTechniques in Fingerprint and Face Recognition,Eds.L.C.Jain et al.,CRC Press,1999,pp.355-396

可以在帧上执行的另一类分析是位置分析。利用位置分析，装置100处理帧中检测到的面部，以确定构成该面部的像素是否太靠近帧的一个或多个边缘（例如，左侧、右侧、上侧、下侧）。在一个实施例中，该确定可以通过分析与面部相关联的像素的x和y坐标来进行。例如，为确定任何面部是否过于靠近该帧的左侧边缘，装置100可以选择该帧中的最左侧面部和构成该面部的像素的最左侧x坐标。接着，装置100可以确定该帧的左侧边缘（具有x坐标0）与该面部的最左侧x坐标之间的间隔是否低于特定阈值。该阈值可以由用户或通过装置100来设置。如果是这样，则最左侧面部过于靠近该帧的左侧边缘。类似的是，为确定任何面部是否过于靠近该帧的右侧边缘，装置100可以选择该帧中的最右侧面部和构成该面部的像素的最右侧x坐标。接着，装置100可以确定该帧的右侧边缘（具有x坐标x_max）与最右侧x坐标之间的间隔是否低于该特定阈值。如果是这样，则最右侧面部过于靠近该帧的右侧边缘。

为确定任何面部是否过于靠近该帧的上侧边缘，装置100可以选择该帧中的最上侧面部和构成该面部的像素的最上侧y坐标。接着，装置100可以确定该帧的上侧边缘（具有y坐标0）与最上侧y坐标之间的间隔是否低于特定阈值（该阈值可以和用于x坐标的阈值相同或不同）。如果是这样，则最上侧面部过于靠近该帧的上侧边缘。最后，为确定任何面部是否过于靠近该帧的下侧边缘，装置100可以选择该帧中的最下侧面部和构成该面部的像素的最下侧y坐标。接着，装置100可以确定该帧的下侧边缘（具有y坐标y_max）与最下侧y坐标之间的间隔是否低于该特定阈值。如果是这样，则最下侧面部过于靠近该帧的下侧边缘。如果没有面部过于靠近该帧的任何边缘，则装置100可以断定该帧中的面部居中。

在某些情况下，一面部可能过于靠近多个边缘。例如，面部可能过于靠近上侧边缘以及左侧边缘。在这种情况下，装置100可以确定该面部过于靠近这两个边缘。根据本发明的一个实施例，下面的列表阐述了装置100针对一面部可以达到的九种可能确定。（注意：其它确定也是可以的，并且也在本发明的范围内）。具体来说，装置100可以确定一面部：

（a）靠近帧的左上侧边缘（即，该面部过于靠近该帧的上侧边缘和左侧边缘两者）；

（b）靠近帧的上侧边缘（即，该面部仅仅过于靠近该帧的上侧边缘）；

（c）靠近帧的右上侧边缘（即，该面部过于靠近该帧的上侧边缘和右侧边缘两者）；

（d）靠近帧的左侧边缘（即，该面部仅仅过于靠近该帧的左侧边缘）；

（e）居中；

（f）靠近帧的右侧边缘（即，该面部仅仅过于靠近该帧的右侧边缘）；

（g）靠近帧的左下侧边缘（即，该面部过于靠近该帧的下侧边缘和左侧边缘两者）；

（h）靠近帧的下侧边缘（即，该面部仅仅过于靠近该帧的下侧边缘）；以及

（i）靠近帧的右下侧边缘（即，该面部过于靠近该帧的下侧边缘和右侧边缘两者）。

这九种可能性可以被表示为九种区域，如图5所示。这些区域（A到I）对应于帧的各个区域。在一个实施例中，如果面部的任何部分处于帧的区域A内，则装置100断定该面部靠近该帧的左上侧边缘。如果一面部的任何部分处于帧的区域C内，则装置100断定该面部靠近该帧的右上侧边缘。如果一面部的任何部分处于帧的区域G内，则装置100断定该面部靠近该帧的左下侧边缘，而如果一面部的任何部分处于帧的区域I内，则装置100断定该面部靠近该帧的右下侧边缘。

如果面部的一部分处于区域B内但该面部没有什么部分处于区域A或C内，则装置100断定该面部靠近该帧的上侧边缘。如果面部的一部分处于区域D内但该面部没有什么部分处于区域A或G内，则装置100断定该面部靠近帧的左侧边缘。如果面部的一部分处于区域F内但该面部没有什么部分处于区域C或I内，则装置100断定面部靠近帧的右侧边缘，而如果面部的一部分处于区域H内但该面部没有什么部分处于区域G或I内，则装置100断定该面部靠近该帧的下侧边缘。如果所有面部仅处于区域E内，则装置100断定这些面部居中。

图5所示图形假定图像拍摄机构120按横向取向保持（由此，该帧按横向取向拍摄）。如果相反地，该帧按纵向取向拍摄，则仍可以使用同一区域；然而，它们的标注将不同。例如，假定图像拍摄机构120（并由此，帧）逆时针旋转90度以导致纵向取向。在这种情况下，区域C为帧的左上侧边缘，区域I为右上侧边缘，区域A为左下侧边缘，而区域G为右下侧边缘。在一个实施例中，装置100检测图像拍摄装置120的当前取向，并因此调节赋予区域A-I的标注。由此，与图像拍摄机构120的取向无关地，装置100按适当地与用户所希望作为左侧、右侧、上侧、下侧等相关联的方式来标注区域。

可以在帧上执行的另一类分析是尺寸分析。利用尺寸分析，装置100分析在帧中检测到的一个或多个面部的尺寸，并且确定该尺寸是小于特定下限阈值还是大于特定上限阈值（这些阈值可以由用户指定或者通过装置100设置）。如果是这样，则装置100可以断定其需要向用户发送该一个或多个面部可能太小或太大的警告。出于尺寸分析的目的，装置100可以分析与所检测面部相关联的任一个或多个尺寸度量。例如，装置100可以基于面部的宽度、面部的长度、面部的面积等进行尺寸分析。

在一个实施例中，装置100使用帧中的最大面部来执行尺寸分析。如果该最大面部的尺寸低于一特定下限阈值，则装置100可以断定该帧中的面部太小。如果该最大面部的尺寸高于一特定上限阈值，则该装置可以断定该帧中的面部太大。基于最大面部的尺寸分析考虑了其中帧中的一个面部可能比该帧中的其它面部更加靠近图像拍摄机构120并由此比其它面部更大得多的情况。在这种情况下，即使该帧可能包含比下限阈值小的许多面部，但不希望装置100断定该帧中包含过小的面部。事实上，最大面部（其很可能是图像的主要主体）的尺寸可能正好。

这些和其它类型的分析可以针对该帧执行。在一个实施例中，在分析该帧之后，存储属于该帧的一组元数据。该元数据例如可以包括：指示帧中检测到多少面部的信息、指配给这些面部的标注或名称（例如，面部1、Zachary等）、构成每一个面部的像素、有关每一个面部的特征信息（例如，尺寸、颜色、面部特征值等）、有关这些面部的位置信息（例如，这些面部是否居中、过于靠近一边缘等）、有关这些面部的尺寸信息（例如，这些面部是可能太小还是太大）等。如在稍后部分中详细说明的，该元数据将在执行随后处理中使用。

音频消息

在分析该帧之后，装置100可以经由音频装置118提供（框212）一个或多个音频消息，以向用户传达分析结果。这些音频消息可以是预记录消息，或者它们可以利用文本至语音技术自动地生成。

音频消息可以包括宣告帧中检测到的面部数的音频消息。例如，如果检测到两个面部，该装置可以提供说“两个面部”的音频消息。如果在面部识别过程期间，面部被识别，则装置100可以提供附加的更具体音频消息。例如，如果该帧中的两个面部属于Zachary和Emily，则该装置100可以提供说“Zachary”、“Emily”的附加音频消息。在一个实施例中，只有当存在来自先前帧的变化时，装置100才提供这些音频消息（是否存在来自先前帧的变化可以通过比较来自当前帧的元数据与来自先前帧的元数据来确定）。如果先前帧中仅具有Zachary和Emily，由此意指先前已经提供了音频消息“两个面部”、“Zachary”、“Emily”，则装置100不重复这些消息。然而，如果当前帧现在包含不同数量或不同组的面部识别，例如，添加属于Anna的第三面部，则该装置提供更新音频消息（例如，“三个面部”、“Zachary”、“Emily”、“Anna”）。在某些情况下，可以识别该帧中的一些面部而其它面部不识别。在这种情况下，装置100可以宣告所识别面部的姓名，并且向该一个或多个其它面部指配标志（例如，“四个面部”、“Zachary”、“Emily”、“未知面部1”、“未知面部2”）。

该装置100还可以提供有关该帧内的面部尺寸的音频消息。例如，如果面部过于靠近该帧的左侧边缘，则装置100可以提供说“面部靠左边”的音频消息。如果一面部过于靠近该帧的左侧边缘和上侧边缘两者，则装置100可以提供说“面部靠左上边”的音频消息。如果一面部过于靠近该帧的上侧边缘、右侧边缘、下侧边缘、右上侧边缘、左下侧边缘，或右下侧边缘（参见图5，针对该帧的各个区域），则可以提供类似音频消息。如果这些面部在该帧内居中，则装置100可以提供说“面部居中”的音频消息（或者根本不提供位置消息）。

装置100还可以提供有关该帧内的面部尺寸的音频消息。例如，如果面部太小，则装置100可以提供说“面部小”的音频消息。如果另一方面，一面部几乎充满整个帧，则该装置可以提供说“面部全宽”的音频消息。如果面部既不太小也不太大，则装置100可以根本不提供尺寸消息（或者可以可选地提供说“面部大小适当”的音频消息）。

可以将这些和其它音频消息提供给用户。响应于这些音频消息，用户可以改变图像拍摄机构120的定位、更靠近或更远离主体移动、调节图像拍摄机构120的缩放因子等。例如，如果用户希望拍摄三个主体，但当前仅检测到两个面部，则用户可以重定位图像拍摄机构120以拍摄全部三个主体。而且，如果面部过于靠近帧的边缘，则该用户可以移动图像拍摄机构120，以将该主体更好居中。而且，如果面部太小或太大，则用户可以更靠近或更远离主体移动，或者调节图像拍摄机构120的缩放因子。这些和其它调节可以由用户进行。

响应用户输入

作为调节过程的一部分，用户可能希望获知各个面部位于帧内的什么地方。在这点上，为帮助用户，装置100允许用户触摸其上显示了该帧的触敏显示器116。装置100检查（框216）该用户输入，以确定该用户当前是否在触摸显示器116的一部分。如果没有检测到这种用户输入，则装置100进行至框224。然而，如果检测到指示用户当前在触摸显示器116的一部分的用户输入，则装置100响应于该用户输入继续进行以提供恰当的音频消息（框220）。在一个实施例中，装置100通过确定触敏显示器116的哪部分当前被触摸来这样做。装置100将其与帧中的一个或多个像素相关联。接着，装置100确定这些像素是否对应于构成该帧中的面部之一的像素。基于该确定，装置100向用户提供恰当的音频消息。例如，如果被用户触摸的部分不对应于该帧中的任何面部，则装置100可以提供蜂鸣声音（或用户选择的某一其它声音，或完全接受为意指“没有什么”的声音的声音，或者根本没有声音）。另一方面，如果所触摸部分的确对应于该帧中的一面部，则该装置可以提供指示其的音频消息。例如，音频消息可以说“面部1”。如果该面部在面部识别处理期间被识别，则音频消息可以更具体。例如，如果所触摸部分对应于Zachary的面部，则音频消息可以说“Zachary”。利用这种功能，用户能够确定面部位于帧内的什么地方，并且它们怎样彼此相对定位。这使得用户能够在永久性拍摄一图像之前“视觉化”该帧（例如，创建主体的组成和排列的构思模型）。

在一个实施例中，当在框220中提供音频消息之后，装置循环回至框216以确定用户是否仍在触摸显示器116。如果是，则装置100可以进行至框220以向用户提供另一音频消息。在一个实施例中，只有当改变了用户输入时，装置100才提供另一音频消息（例如，用户在触摸显示器116的不同部分）。利用该循环，用户能够触摸显示器116，将他/她的手指移动至帧的各个部分，并且接收针对他/她触摸的各个部分的音频反馈。在一个实施例中，装置100在进行至框224之前，执行该循环达特定次数或者特定时段。

在框224，装置110检查指示用户希望拍摄图像拍摄机构120对着的场景的永久性图像的用户输入（例如，触摸一控制部或进行移动或手势）。如果没有检测到这种用户输入，则装置100循环回至框204以重复上述操作。由此，预拍摄帧、分析该帧、以及向用户提供音频反馈的过程是一迭代过程。每一迭代都提供更新信息以帮助用户重定位和/或调节图像拍摄机构120，更靠近或更远离主体移动等。通过响应于经由该迭代过程接收的音频消息而进行调节，用户可以获得他/她希望的精确图像。

帧跟踪

如上明确的，该图像预拍摄调节过程涉及拍摄和分析多个帧。为防止混淆用户，一个帧中的一面部所使用的标志应当在其它帧中保持相同。例如，如果一面部在一个帧中被称为“面部1”，则该面部在随后帧中也应被称为“面部1”，即使该面部在随后帧中已经移动至显著不同的位置。在一个实施例中，为保持这种帧至帧的一致性，装置100执行帧跟踪。利用帧跟踪，该装置尝试从一个帧至下一个帧来跟踪每一个面部。更具体地说，对于一帧中的每一个面部，装置100尝试关联该面部与前一个帧中的面部。这可以利用来自当前帧的元数据和来自前一个帧的元数据来进行。

这种关联可以基于各种因素来进行。例如，装置100可以基于面部具有类似尺寸、形状、颜色或其它面部特征的事实来关联一个帧中的面部与之前帧中的面部。面部关键点还可以被用于跟踪面部移动，并且跨多个帧保持面部关联（例如，即使该面部在移动，也保持跟踪该面部为面部1）。关键点是可以被选择为在跟踪一对象（例如，面部）的运动中使用的良好点的图像特征。关联还可以基于面部在两个帧中的相对位置来进行。在一面部不太可能从一个帧到下一帧移动非常多的假定下，装置100可以关联一个帧中的一面部与之前帧中的位置相对靠近的一面部。如果在当前帧中的一面部与前一帧中的一面部之间进行关联，则用于之前帧中的面部的标志将被用于当前帧中的关联面部。由此，将面部标志从一帧至一帧传递，以促进一致性。

为例示面部跟踪，对图3的示例进行说明，其例示了四个帧。在帧1中，较大的“面部1”处于左侧，而较小的“面部2”处于右侧。在帧2中，较小面部已经稍微向上并向左移动，而较大面部已经稍微向下并向右移动。基于多个因素，其可以包括面部的尺寸和它们在帧1与2之间的相对定位，装置100继续将较大面部标志为“面部1”而将较小面部标志为“面部2”。在帧3中，较小面部已经进一步移动到左侧，而较大面部已经进一步移动到右侧。此外，基于多个因素（可以包括面部的尺寸和它们在帧2与3之间的相对定位），装置100继续将较大面部标志为“面部1”而将较小面部标志为“面部2”。最后，在帧4中，较小面部已经稍微向下移动，而较大面部已经稍微向上移动。此外，基于多个因素，其可以包括面部的尺寸和它们在帧3与4之间的相对定位，装置100继续将较大面部标志为“面部1”而将较小面部标志为“面部2”。由此，即使这两个面部完成交换位置，装置100也因帧跟踪而获知，仍继续将较大面部标志为“面部1”而将较小面部标志为“面部2”。该功能帮助防止在用户收听由装置100提供的音频消息时混淆用户。

图像拍摄

有时，用户将满意处于帧中的图像。此时，用户提供指示用户希望拍摄该场景的永久性图像的某一输入（例如，触摸一控制部或进行移动或手势）。该输入在框224处通过装置100检测，并且作为响应，该装置拍摄（框228）该图像（利用图像拍摄机构120），并将该图像永久性地存储在存储部106中。

在一个实施例中，一拍摄永久性图像，装置100就分析该图像，以导出（框232）一组元数据（该元数据可以被称为面部/对象位置和识别元数据）。此后，将该元数据存储。在一个实施例中，该元数据与该图像一起存储（为例示起见，在下面的讨论中，假定元数据与图像一起存储）。另选的是，该元数据可以存储在储存库（例如，数据库、文件***等）中，并且与该图像相关联。如果该图像的元数据已经预先导出（例如，作为在图像取景过程期间向用户提供音频反馈的一部分），则该元数据（其之前被存储）可以被用作所拍摄图像的元数据。另外，所拍摄图像的元数据可以新导出。在导出元数据时，装置100可以执行若干功能。例如，装置100可以向所拍摄图像应用面部检测技术（按先前描述的方式）以确定图像中有多少面部。所检测面部的数量可以被存储为所拍摄图像的元数据的一部分。另外，作为面部检测过程的一部分，装置100可以识别（按先前描述的方式）构成该图像中的面部的像素。利用该信息，装置100将能够在稍后时间确定这些面部位于所拍摄图像内的什么地方。另外，装置100可以将该面部内的特定像素组识别为面部的子组分（例如，眼睛、鼻子、嘴等）。全部该像素信息可以被存储为所拍摄图像的元数据的一部分。而且，装置100可以应用面部识别技术（按先前描述的方式）以识别呈现在所拍摄图像中的面部。利用该信息，装置100可能够关联姓名与所拍摄图像中的面部。该识别信息还可以被存储为所拍摄图像的元数据的一部分。这些和其它元数据集可以导出并与所拍摄图像一起存储。

一旦导出元数据，其就可以被装置100使用。在一个实施例中，恰好在永久性拍摄该图像之后或此后不久，装置100使用该元数据来向用户提供有关所拍摄图像的音频反馈（框236）。例如，如果元数据指示所拍摄图像具有属于Zachary和Emily的两个面部，则装置可以向用户提供说“两个面部”、“Zachary”、“Emily”的音频消息。该音频反馈向用户提供刚才拍摄了什么图像的确认。在一个实施例中，在提供该音频反馈之后，装置100循环回至框204以帮助用户准备拍摄另一图像。

拍摄图像回顾功能

在永久性拍摄并存储一图像之后的某个时间，用户可能希望回顾该图像。参照图4，示出了根据本发明一个实施例的、例示由装置100执行的用于帮助用户回顾图像的操作的流程图。为调用这些操作，弱视用户可以与装置100交互，以设置用于利用装置100的音频消息发送能力的某些用户设置（如果这尚未进行过）。接着，该用户可以调用利用音频消息发送能力的应用112（例如，图像回顾应用）。在进行该调用之后，装置100将执行图4所示操作。

最初，装置100检索并在触敏显示器116上显示（框404）所拍摄图像。作为该检索的一部分，装置100还存取与该图像一起存储的元数据。基于该元数据，装置100向用户提供（框408）一个或多个音频消息以向用户通知该图像的内容。例如，装置100可以提供指示该图像中有多少面部的音频消息。如果该图像中存在两个面部，则音频消息可以说“两个面部”。如果与所拍摄图像一起存储的元数据包括针对图像中的面部的识别信息，则装置可以提供指定谁处于该图片中的一个或多个音频消息。例如，如果该图像中的面部属于Zachary和Emily，则装置100可以提供说“Zachary”、“Emily”的音频消息。在某些情况下，可以识别该图像中的一些面部而其它面部不识别。在这种情况下，装置100可以宣告所识别面部的姓名，并且向该一个或多个其它面部分配标志。例如，装置100可以提供说“Zachary”、“Emily”、“未知面部1”、“未知面部2”的音频消息。

属于其它元数据的其它音频消息也可以提供给用户。例如，装置100可以提供宣告图像拍摄的日期、图像拍摄的地点、图像所关联的相册等的音频消息。所有这种信息都提供帮助用户欣赏该图像的上下文。

作为回顾该图像的一部分，用户可希望获知各个面部位于图像内的什么地方。在这点上，为帮助用户，装置100允许用户触摸其上显示了该图像的触敏显示器116。装置100检查（框412）该用户输入以确定该用户当前是否在触摸显示器116的一部分。如果没有检测到这种用户输入，则装置100循环并继续检查用户输入。然而，如果检测到指示用户当前在触摸显示器116的一部分的用户输入，则装置100响应于该用户输入继续进行以提供（框416）恰当的音频消息。在一个实施例中，装置100通过确定哪部分，并由此确定该图像的哪些像素当前被用户触摸来进行这些操作。接着，装置100确定这些像素是否对应于构成图片中的面部之一的像素。该确定可以利用与图像一起存储的像素元数据来进行（该像素元数据指定构成图像中的每一个面部的像素）。基于该确定，装置100向用户提供恰当的音频消息。例如，如果被用户触摸的部分不对应于帧中的任何面部，则装置100可以提供蜂鸣声音（或用户选择的某一其它声音，或完全接受为意指“什么都没有”的声音的声音，或者根本没有声音）。另一方面，如果所触摸部分的确对应于该帧中的一面部，则该装置可以提供指示其的音频消息。例如，该音频消息可以说“未知面部1”。如果该面部在面部识别处理期间被识别，则该音频消息可以更具体。例如，如果所触摸部分对应于Zachary的面部，则该音频消息可以说“Zachary”。而且，如果该面部的所触摸部分对应于该面部的子组分之一（例如，眼睛、鼻子、嘴等），则该装置可以提供甚至更加具体的音频消息。例如，如果所触摸部分对应于Zachary的嘴，则装置100可以提供说“Zachary”、“嘴”的音频消息。利用该功能，用户能够确定面部位于图像内的什么地方，并且它们怎样彼此相对定位。这使得用户能够“看得见”图像。

在一个实施例中，在在框416中提供音频消息之后，装置100循环回至框412以确定用户是否仍在触摸显示器116。如果是这样，装置100可以进行至框416以向用户提供另一音频消息。在一个实施例中，只有当改变了用户输入时，装置100才提供另一音频消息（例如，用户在触摸显示器116的不同部分）。利用该循环，用户能够触摸显示器116，将他/她的手指移动至图像的各个部分，并且接收针对他/她触摸的各个部分的音频反馈。利用这种功能，弱视用户能够确定面部位于所拍摄图像内的什么地方，并且它们怎样彼此相对定位。这使得用户能够“视觉化”该图像（例如，创建该图像内的主体的组成和排列的构思模型），由此产生增强的图像回顾体验。

不仅在图像回顾期间，而且在其它背景下也可以向用户提供音频反馈。例如，音频反馈可以在用户在编辑（不是仅回顾）图像的同时提供给该用户。例如，如果用户在与剪裁调节交互，则可以提供音频消息以向用户通知已经改变了面部的数量（例如，作为剪裁操作的结果，以此前相比，现在该图像中存在更少的面部）。总的来说，在图像预拍摄过程期间提供的所有音频消息可以在编辑/裁剪过程期间提供。在这些和其它背景中使用音频反馈处于本发明的范围内。

在上面的讨论中，假定用户回顾的图像是利用装置100拍摄的图像；因此，针对该图像的面部/对象位置和识别元数据已经生成并存储。然而，可能存在其中图像可能没有任何面部/对象位置和识别元数据的情况。例如，该图像可以是在没有任何这种元数据的情况下接收的图像，或者利用不生成这种元数据的装置拍摄的图像。如果该图像没有任何关联面部/对象位置和识别元数据，则装置100可以按先前描述的方法分析该图像（例如，利用面部检测和识别分析），以生成所需求的面部/对象位置和识别元数据。一旦导出，该元数据就可以被装置100用于按上述方式向用户提供音频反馈。

修改例/增强例

在上面的描述中，应用该检测和识别技术以检测并且识别面部。应注意到，本发明并不因而受限。相反地，该检测和识别技术同样可以被应用于检测和识别其它项目，如接合至面部的身体、图像中的其它物体和区域（例如，房子、汽车、树木、天空、草等）等。而且，该检测和识别可以扩展至任何希望颗粒度。例如，它们可以不仅被用于检测接合至面部的身体，而是也被用于区分身体的躯干与腿和胳膊，以区分手指与胳膊等。另外，收集并存储的像素信息可以更加详细说明。利用更详细的像素信息，并且利用叙述该像素信息的更多音频消息，用户可以在他/她触摸其上显示了一图像的触敏显示器时获得更多信息。例如，当用户触摸示出了一棵树的图像的一部分时，装置100可以说“树”。当用户触摸诸如天空或草的区域时，可以播放一个或多个音频消息，以允许用户在探测该图像时听到这些要素。当用户触摸与Zachary的胳膊相对应的一部分时，装置100可以说“Zachary的胳膊”。通过跟踪胳膊的位置，用户能够觉察该胳膊是抬高还是放低。胳膊末端的手指是否在做“安静”手势等。利用该附加细节，用户可以获得拍摄图像的设置和该图像中的主体在做什么的更清晰概念。可以制成这些和其它修改例和增强例，并且处于本发明的范围内。

在前述说明书中，本发明的实施例已经参照可以从实现至实现改变的许多具体细节进行了描述。由此，作为本发明内容、并且是本发明的申请人所希望的单独且排它的指示是，采用发布这种权利要求的具体形式（包括任何随后修正）的、根据该申请发布的该组权利要求。在此针对包含在这种权利要求中的术语明确地阐述的任何定义应约束如在权利要求中使用的这种术语的含义。因此，权利要求书中未明确记载的限制、要素、特性、特征、优点或属性无论如何都不应限制这种权利要求书的范围。本说明书和附图因此按例示性意义而非限制性意义来考虑。

Claims

1.一种装置，包括：

图像拍摄机构；和

图像处理器，耦接至图像拍摄机构，其中，图像处理器被配置成使所述装置执行以下操作：

拍摄包括一个或多个面部的场景的图像；

分析该图像，其中，分析该图像包括检测该图像中的所述一个或多个面部；

执行面部辨认以识别所检测的面部；

基于所述面部辨认确定用于每个所检测的面部的唯一标识符；

保持所述唯一标识符以在后续的所拍摄的图像中识别所检测的面部；以及

基于至少一个所检测的面部各自的唯一标识符并响应于检测到显示器内所述至少一个所检测的面部的特定位置处的触敏输入，向用户提供识别所述至少一个所检测的面部的一个或多个音频消息。

2.根据权利要求1所述的装置，其中，提供一个或多个音频消息包括：向用户提供指示在图像中检测到多少面部的音频消息。

3.根据权利要求1所述的装置，其中，保持所述唯一标识符还包括：

拍摄所述场景的包括至少一个所检测的面部的随后图像；

检测随后图像中的所述至少一个所检测的面部；

关联初始图像中的所述至少一个所检测的面部与随后图像中的相同的面部；以及

关联分配给初始图像中的第一特定面部的标志与随后图像中的第一特定面部，以使跨多个图像对于所述第一特定面部使用同一标志。

4.根据权利要求1所述的装置，其中，分析该图像包括：确定所述一个或多个面部如何相对于图像的一个或多个边缘定位，并且其中，提供一个或多个音频消息包括：向用户提供指示所述一个或多个面部如何相对于图像的一个或多个边缘定位的音频消息。

5.根据权利要求4所述的装置，其中，向用户提供指示所述一个或多个面部如何相对于图像的一个或多个边缘定位的音频消息包括：向用户提供指示所述一个或多个面部靠近图像的一个或多个边缘的音频消息。

6.根据权利要求4所述的装置，其中，向用户提供指示所述一个或多个面部如何相对于图像的一个或多个边缘定位的音频消息包括：向用户提供指示所述一个或多个面部处于图像的中央部分内的音频消息。

7.根据权利要求4所述的装置，其中，确定所述一个或多个面部如何相对于图像的一个或多个边缘定位包括：确定所述一个或多个面部中的一特定面部与图像的一特定边缘之间的间隔是否低于一阈值。

8.根据权利要求1所述的装置，其中，分析该图像包括：确定所述一个或多个面部中的至少一特定面部的尺寸，并且其中，提供一个或多个音频消息包括：向用户提供指示该特定面部的尺寸的音频消息。

9.根据权利要求8所述的装置，其中，确定该特定面部的尺寸包括：确定该特定面部的尺寸是否小于一下限值或大于一上限值，并且其中，向用户提供指示该特定面部的尺寸的音频消息包括：提供以下音频消息之一：

(a)指示该特定面部小于下限值的音频消息；或者

(b)指示该特定面部大于上限值的音频消息。

10.根据权利要求1所述的装置，其中，所述装置还包括触敏输入机构，并且其中，所述图像处理器被配置成使所述装置还执行以下操作：

检测到用户正在触摸输入机构的特定部分；

关联所述输入机构的特定部分与图像的一特定部分；

确定所述图像的特定部分是否对应于所述一个或多个面部中的一个面部；以及

响应于确定所述图像的特定部分对应于所述一个或多个面部中的一个面部，向用户提供具有有关所述图像的特定部分所对应的面部的信息的一个或多个音频消息。

11.根据权利要求10所述的装置，其中，分析该图像包括：执行面部识别以识别图像中的所述一个或多个面部中的一个或多个，并且其中，向用户提供具有有关所述图像的特定部分所对应的面部的信息的一个或多个音频消息包括：向用户提供有关所述图像的特定部分所对应的面部的识别信息的音频消息。

12.根据权利要求1所述的装置，其中，所述图像是初始图像，其中，所述一个或多个面部包括一特定面部，并且其中，所述图像处理器被配置成使所述装置还执行以下操作：

拍摄所述场景的包括该特定面部的随后图像；

检测随后图像中的该特定面部；

关联初始图像中该特定面部与随后图像中的该特定面部；以及

关联分配给初始图像中的该特定面部的标志与随后图像中的该特定面部，以使跨多个图像对于该特定面部使用同一标志。

13.根据权利要求1所述的装置，其中，所述图像是未存储为永久性图像的初始临时图像，并且其中，所述图像处理器被配置成使所述装置还执行以下操作：

在用户已经响应于所述一个或多个音频消息而进行了场景取景调节之后，拍摄该场景的随后临时图像，其中，该随后临时图像未存储为永久性图像；

分析随后临时图像，其中，分析随后临时图像包括检测随后临时图像中的一个或多个面部；

执行面部辨认以识别所检测的面部；

向用户提供基于其各自的唯一标识符识别至少一个所检测的面部并指示所述至少一个所检测的面部如何定位在随后临时图像中的一个或多个音频消息；

检测指示用户希望拍摄如当前取景的场景的永久性图像的用户输入；以及

响应于用户输入，拍摄如当前取景的场景的永久性图像。

14.根据权利要求1所述的装置，其中，所述图像处理器包括一个或多个处理器和存储指令的一个或多个存储部，所述指令在通过所述一个或多个处理器执行时使所述一个或多个处理器使所述装置执行根据权利要求1所述的操作。

15.根据权利要求1所述的装置，其中，所述图像处理器包括多个部件，包括逻辑部件，其被配置成使所述装置执行根据权利要求1所述的操作。

16.一种方法，包括：

拍摄包括一个或多个面部的一场景的图像；

分析该图像，其中，分析该图像包括检测该图像中的一个或多个面部；

执行面部辨认以识别所检测的面部；

17.根据权利要求16所述的方法，其中，提供一个或多个音频消息包括：向用户提供指示在该图像中检测到多少面部的音频消息。

18.根据权利要求16所述的方法，其中，保持所述唯一标识符还包括：

拍摄所述场景的包括至少一个所检测的面部的随后图像；

检测随后图像中的所述至少一个所检测的面部；

19.根据权利要求16所述的方法，其中，分析该图像包括：确定所述一个或多个面部中的至少一特定面部的尺寸，并且其中，提供一个或多个音频消息包括：向用户提供指示该特定面部的尺寸的音频消息。

20.根据权利要求19所述的方法，其中，确定该特定面部的尺寸包括：确定该特定面部的尺寸是否小于一下限值或大于一上限值，并且其中，向用户提供指示该特定面部的尺寸的音频消息包括：提供以下音频消息之一：

(a)指示该特定面部小于下限值的音频消息；或者

(b)指示该特定面部大于上限值的音频消息。

21.根据权利要求16所述的方法，还包括：

检测到用户在触摸输入机构的特定部分；

关联输入机构的该特定部分与所述图像的特定部分；

确定所述图像的该特定部分是否对应于所述一个或多个面部中的一个面部；以及

响应于确定所述图像的该特定部分对应于所述一个或多个面部中的一个面部，向用户提供具有有关所述图像的该特定部分所对应的面部的信息的一个或多个音频消息。

22.根据权利要求21所述的方法，其中，分析该图像包括：执行面部识别以识别所述图像中的所述一个或多个面部中的一个或多个，并且其中，向用户提供具有有关所述图像的该特定部分所对应的面部的信息的一个或多个音频消息包括：向用户提供有关所述图像的该特定部分所对应的面部的识别信息的音频消息。

23.一种装置，包括：

摄像机；

音频装置；以及

图像处理器，耦接至摄像机和音频装置，其中，所述图像处理器被配置成使所述装置执行以下操作：

拍摄包括一个或多个面部的一场景的图像；

检测所述图像中的一个或多个面部；

执行面部辨认以识别所检测的面部；

保持所述唯一标识符以在后续的所拍摄的图像中识别所检测的面部；

确定所述一个或多个面部相距所述图像的一个或多个边缘是否小于一阈值距离；以及

基于至少一个所检测的面部各自的唯一标识符并响应于检测到显示器内所述至少一个所检测的面部的特定位置处的触敏输入，向用户提供识别所述至少一个所检测的面部的音频消息。

24.根据权利要求23所述的装置，

其中，确定所述一个或多个面部相距所述图像的一个或多个边缘是否小于一阈值距离包括：

确定所述一个或多个面部相距所述图像的哪个或哪些特定边缘小于阈值距离；

其中，向用户提供指示所述一个或多个面部靠近所述图像的一个或多个边缘的音频消息包括：

在音频消息中指定一个或多个特定边缘。

25.根据权利要求23所述的装置，其中，所述图像处理器被配置成使所述装置还执行以下操作：

响应于确定所述一个或多个面部相距所述图像的任何边缘不小于阈值距离，向用户提供指示所述一个或多个面部位于所述图像的中央部分内的音频消息。

26.根据权利要求23所述的装置，其中，所述图像处理器被配置成使所述装置还执行以下操作：

确定所述一个或多个面部中的至少一特定面部的尺寸；以及

向用户提供指示该特定面部的尺寸的音频消息。

27.根据权利要求26所述的装置，

其中，确定该特定面部的尺寸包括：

确定该特定面部的尺寸是否小于一下限值或大于一上限值；

其中，向用户提供指示该特定面部的尺寸的音频消息包括：提供以下之一：

(a)指示该特定面部小于下限值的音频消息；或者

(b)指示该特定面部大于上限值的音频消息。

28.根据权利要求23所述的装置，其中，所述图像处理器被配置成使所述装置还执行以下操作：

针对所述一个或多个面部执行面部识别以识别所述一个或多个面部中的一个或多个；并且

向用户提供有关所述一个或多个面部中的一个或多个的识别信息的一个或多个音频消息。

29.根据权利要求23所述的装置，其中，所述装置还包括触敏输入机构，并且其中，所述图像处理器被配置成使所述装置还执行以下操作：

检测到用户在触摸输入机构的特定部分；

关联所述输入机构的该特定部分与所述图像的特定部分；

响应于确定所述图像的该特定部分对应于所述一个或多个面部中的一个面部，向用户提供具有有关所述图像的该特定部分所对应的面部的信息的音频消息。

30.一种方法，包括：

拍摄包括一个或多个面部的一场景的图像；

检测所述图像中的所述一个或多个面部；

执行面部辨认以识别所检测的面部；

基于至少一个所检测的面部各自的唯一标识符，响应于检测到显示器内所述至少一个所检测的面部的特定位置处的触敏输入，向用户提供识别所述至少一个所检测的面部的音频消息。

31.根据权利要求30所述的方法，

指定所述音频消息中的一个或多个特定边缘。

32.根据权利要求30所述的方法，还包括：

33.根据权利要求30所述的方法，还包括：

确定所述一个或多个面部中的至少一特定面部的尺寸；以及

向用户提供指示该特定面部的尺寸的音频消息。

34.根据权利要求33所述的方法，

其中，确定该特定面部的尺寸包括：

确定该特定面部的尺寸是否小于一下限值或大于一上限值；

(a)指示该特定面部小于下限值的音频消息；或者

(b)指示该特定面部大于上限值的音频消息。

35.根据权利要求30所述的方法，还包括：

针对所述一个或多个面部执行面部识别以识别所述一个或多个面部中的一个或多个；以及

向用户提供具有有关所述一个或多个面部中的一个或多个的识别信息的一个或多个音频消息。

36.根据权利要求30所述的方法，还包括：

检测到用户正在触摸输入机构的特定部分；

关联所述输入机构的该特定部分与所述图像的特定部分；

37.一种装置，包括：

摄像机；

音频装置；

触敏输入机构；以及

拍摄包括一个或多个面部的一场景的图像；

检测所述图像中的所述一个或多个面部；

执行面部辨认以识别所检测的面部；

基于至少一个所检测的面部各自的唯一标识符并响应于检测到显示器内所述至少一个所检测的面部的特定位置处的触敏输入，向用户提供识别所述至少一个所检测的面部的一个或多个音频消息；

确定所述一个或多个面部如何相对于所述图像的一个或多个边缘定位；

向用户提供指示所述一个或多个面部如何相对于所述图像的一个或多个边缘定位的一个或多个音频消息；

确定所述一个或多个面部中的至少一特定面部的尺寸；以及

向用户提供指示该特定面部的尺寸的音频消息。

38.根据权利要求37所述的装置，其中，基于至少一个所检测的面部各自的唯一标识符并响应于检测到显示器内所述至少一个所检测的面部的特定位置处的触敏输入，向用户提供识别所述至少一个所检测的面部的一个或多个音频消息包括：

检测到用户正在触摸输入机构的特定部分；

关联所述输入机构的该特定部分与所述图像的特定部分；