CN112040115A

CN112040115A - 图像处理设备及其控制方法和存储介质

Info

Publication number: CN112040115A
Application number: CN202010489286.XA
Authority: CN
Inventors: 长尾淳史
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-06-03
Filing date: 2020-06-02
Publication date: 2020-12-04
Anticipated expiration: 2040-06-02
Also published as: US20200382697A1; GB2599012B; JP2020198556A; GB2587453A; GB202007909D0; US20220377234A1; US11438501B2; JP7348754B2; DE102020114615A1; GB2587453B; GB2599012A; CN112040115B

Abstract

本发明涉及一种图像处理设备及其控制方法和存储介质。所述图像处理设备包括：判断部件，用于在用户给出用以删除存储部件中所存储的图像数据的指示、并且所述图像数据满足预定条件的情况下，判断为所述存储部件中所存储的图像数据是要用于学习摄像部件要进行自动摄像的状况的图像数据。

Description

图像处理设备及其控制方法和存储介质

技术领域

本发明涉及用于使得摄像设备拍摄与用户的品味匹配的图像的机器学习。

背景技术

通常，在诸如照相机等的摄像设备所进行的静止图像/运动图像拍摄中，用户经由取景器等确定要拍摄的被摄体，自己检查拍摄状况并调整要拍摄的图像的取景，并且通过对快门按钮进行操作来拍摄图像。

与根据用户所进行的这样的操作来执行拍摄的摄像设备相对比，日本特开2016-536868公开了在无需用户给出拍摄指示的情况下周期性地且连续地进行拍摄的照相机(所谓的生活记录照相机)。生活记录照相机是在通过使用带子等而附着至用户的身体的状态下被使用的，并且将用户在他们的日常生活中看见的景象按一定时间间隔记录为视频图像。生活记录照相机所进行的拍摄不是在通过用户对快门进行操作等所意图的定时进行的，而是按一定间隔进行的，因而可以保留通常不会拍摄的意外瞬间作为视频图像。

然而，在如日本特开2016-536868那样、按一定时间间隔进行自动摄像的情况下，存在可能拍摄与用户的品味不匹配的场景的问题。

通过经由机器学习使用与用户的品味匹配的图像来训练摄像设备，可以使得摄像设备进行与用户的品味匹配的自动摄像。在学习了与用户的品味匹配的图像以及与用户的品味不匹配的图像的情况下，可以获得改进的效果。

这里，出现与如何对与用户的品味不匹配的图像进行判断有关的问题。例如，可想到将根据用户的指示所删除的图像判断为与用户的品味不匹配的图像。然而，用户删除图像的最合适原因不仅仅是图像与用户的品味不匹配，并且诸如存在多个相似图像等的情况也被视为用户删除图像的原因。

发明内容

本发明是有鉴于上述问题而作出的，并且使得能够在无需用户进行特定操作的情况下，进行反映用户的品味的学习。

根据本发明的第一方面，提供一种图像处理设备，包括：判断部件，用于在用户给出用以删除存储部件中所存储的图像数据的指示、并且所述图像数据满足预定条件的情况下，判断为所述存储部件中所存储的图像数据是要用于学习摄像部件要进行自动摄像的状况的图像数据。

根据本发明的第二方面，提供一种图像处理设备的控制方法，所述控制方法包括：在用户给出用以删除存储部件中所存储的图像数据的指示、并且所述图像数据满足预定条件的情况下，判断为所述存储部件中所存储的图像数据是要用于学习摄像部件要进行自动摄像的状况的图像数据。

根据本发明的第三方面，提供一种存储有程序的非暂时性计算机可读存储介质，所述程序用于使得计算机执行上述的控制方法。

通过以下参考附图对典型实施例的说明，本发明的更多特征将变得明显。

附图说明

图1A和1B是示意性示出摄像设备的图。

图2是示出摄像设备的结构的图。

图3是示出摄像设备和外部装置的结构的图。

图4是示出外部装置的结构的图。

图5是说明控制电路的操作的流程图。

图6是说明自动摄像模式处理的流程图。

图7是说明神经网络的图。

图8是用于说明图像显示处理的图。

图9是说明学习模式判断的流程图。

图10是说明学习模式处理的流程图。

图11是用于说明基于删除操作的学习处理的流程图。

具体实施方式

以下将参考附图来详细说明实施例。注意，以下实施例并不意图限制要求保护的发明的范围。在实施例中说明了多个特征，但并未限制成需要所有这些特征的发明，并且可以适当组合多个这样的特征。此外，在附图中，向相同或相似的结构给予相同的附图标记，并且省略了对这些结构的重复说明。

摄像设备的结构

图1A和1B是示意性示出根据本发明实施例的摄像设备的图。本发明不仅可应用于数字照相机和数字摄像机，而且也可应用于监视照相机、Web照相机和移动电话等。在本实施例中，将假定摄像设备本身用作进行机器学习的图像处理设备的结构来给出说明，但也可以采用在与摄像设备分开且能够与摄像设备进行通信的图像处理设备中进行针对摄像设备的机器学习的结构。

图1A所示的摄像设备101设置有使得能够对电源开关进行操作的操作构件(以下称为“电源按钮”，并且该操作可以是对触摸面板的轻击、轻拂或滑动操作等)等。镜筒102是包括进行摄像的拍摄透镜组和图像传感器的壳体，并且设置有转动机构，该转动机构附接至摄像设备101，且可以相对于固定单元103可转动地驱动镜筒102。俯仰转动单元104是可以使镜筒102沿图1B所示的纵摇方向转动的马达驱动机构，并且平摇转动单元105是可以使镜筒102沿横摆方向转动的马达驱动机构。因而，镜筒102可以沿一个或多个轴的方向转动。注意，图1B示出针对固定单元103的位置的轴的定义。在摄像设备101的固定单元103上安装角速度计106和加速率计107这两者。然后，基于角速度计106和加速率计107来检测摄像设备101的振动，并且基于所检测到的抖动角度来可转动地驱动俯仰转动单元和平摇转动单元。采用对作为可动单元的镜筒102的抖动和倾斜进行相应校正的结构。

图2是示出本实施例的摄像设备的结构的框图。在图2中，控制电路221由处理器(例如，CPU、GPU、微处理器和MPU)以及存储器(例如，DRAM和SRAM)等构成。这些组件执行各种类型的处理，以控制摄像设备101的各块并控制各块之间的数据传送。非易失性存储器(EEPROM)214是电可擦除/可记录的存储器，并且存储控制电路221工作所用的常数、以及程序等。

在图2中，变焦单元201包括进行变倍的变焦透镜。变焦驱动控制电路202进行变焦单元201的驱动控制。调焦单元203包括进行焦点调整的透镜。调焦驱动控制电路204进行调焦单元203的驱动控制。

摄像单元206包括图像传感器和A/D转换器，并且图像传感器接收经由透镜组入射的光，并将与该光量相对应的电荷有关的信息作为模拟图像信号输出至图像处理电路207。图像处理电路207是安装有多个ALU(算术和逻辑单元)的计算电路，并且对经由A/D转换输出的数字图像数据进行诸如失真校正、白平衡调整和颜色插值处理等的图像处理，并输出处理后的数字图像。从图像处理电路207输出的数字图像数据由图像记录电路208转换成诸如JPEG等的记录格式，并被发送至存储器213和后面要说明的视频图像输出电路215。

镜筒转动驱动电路205驱动俯仰转动单元104和平摇转动单元105，从而沿俯仰方向和平摇方向驱动镜筒102。

例如，在设备抖动检测电路209中安装有用于检测摄像设备101在三个轴方向上的角速度的角速度计(陀螺仪传感器)106和用于检测该设备在三个轴方向上的加速率的加速率计(加速率传感器)107。在设备抖动检测电路209中，基于所检测到的信号来计算设备的转动角度和设备的偏移量等。

音频输入电路211从摄像设备101中所设置的麦克风获取摄像设备101的周围的音频信号，进行模数转换，并将处理后的信号发送至音频处理电路212。音频处理电路212对所输入的数字音频信号进行诸如优化处理等的与声音有关的处理。然后，音频处理电路212处理后的音频信号由控制电路221发送至存储器213。存储器213暂时存储由图像处理电路207和音频处理电路212分别获得的图像信号和音频信号。

图像处理电路207和音频处理电路212读出存储器213中暂时存储的图像信号和音频信号，对这些图像信号和音频信号进行编码，并且分别生成压缩图像信号和压缩音频信号。控制电路221将这些压缩图像信号和压缩音频信号发送至记录和再现电路218。

记录和再现电路218将图像处理电路207和音频处理电路212所生成的压缩图像信号和压缩音频信号、以及与拍摄相关的其它控制数据等记录到记录介质219。另外，在音频信号未被压缩和编码的情况下，控制电路221将音频处理电路212所生成的音频信号和图像处理电路207所生成的压缩图像信号发送至记录和再现电路218，并将这些信号记录在记录介质219中。

记录介质219可以是并入摄像设备101的记录介质或可移除的记录介质。在记录介质219中可以记录诸如摄像设备101所生成的压缩图像信号、压缩音频信号和音频信号等的各种类型的数据，并且通常使用与非易失性存储器214相比具有更大容量的介质。记录介质219的示例包括所有格式的记录介质，诸如硬盘、光盘、磁光盘、CD-R、DVD-R、磁带、非易失性半导体存储器和闪速存储器等。

记录和再现电路218读出(再现)记录介质219中所记录的压缩图像信号、压缩音频信号、音频信号、各种类型的数据和程序。然后，控制电路221将所读出的压缩图像信号和压缩音频信号发送至图像处理电路207和音频处理电路212。图像处理电路207和音频处理电路212将压缩图像信号和压缩音频信号暂时存储在存储器213中，使用预定过程对这些信号进行解码，并将解码后的信号发送至视频图像输出电路215和音频输出电路216。

摄像设备101中所安装的多个麦克风连接至音频输入电路211，并且音频处理电路212可以检测安装有多个麦克风的平面上的声音的方向。该信息用在后面所述的针对被摄体的搜索以及自动摄像中。此外，音频处理电路212检测特定音频命令。关于音频命令，可以使用预先登记的多个音频命令，或者也可以采用用户可以将特定音频登记在摄像设备中的结构。另外，还进行音频场景识别。在音频场景识别中，使用基于大量音频数据通过机器学习预先训练的网络来进行音频场景判断。例如，在音频处理电路212中设置用于检测诸如“欢呼声响起”、“进行鼓掌”和“某人正在说话”的场景等的特定场景的网络。然后，在检测到特定音频场景或特定音频命令时，将检测触发信号输出至控制电路221。电源电路210供给用于使得控制电路221工作的电源。

音频输出电路216例如在拍摄时等，从并入摄像设备101的扬声器输出预先设置的音频模式。LED控制电路222例如在拍摄时等，使用预先设置的照明闪烁模式来控制摄像设备101中所设置的LED。视频图像输出电路215例如由视频图像输出端子构成，并且发送图像信号以将视频图像显示在连接至摄像设备101的外部显示器等上。另外，音频输出电路216和视频图像输出电路215可以是一个集成端子，例如，HDMI(注册商标，高清晰度多媒体接口)端子等的端子。

通信电路220在摄像设备101和外部装置之间进行通信，并且发送和接收诸如音频信号、图像信号、压缩音频信号和压缩图像信号等的数据。通信电路220还接收拍摄开始命令和拍摄结束命令、以及诸如用于平摇-俯仰操作和变焦驱动等的控制信号等的与拍摄有关的控制信号，并且根据来自可以与摄像设备101进行相互通信的外部装置的指示来驱动摄像设备101。另外，在摄像设备101和外部装置之间发送/接收诸如通过后面要说明的学习处理电路217要处理的与学习有关的各种参数等的信息。通信电路220是无线通信模块，诸如红外线通信模块、蓝牙(Bluetooth(注册商标))通信模块、无线LAN通信模块、无线USB或GPS接收器等。

摄像设备和外部通信装置的结构

图3是示出包括摄像设备101和外部装置301的无线通信***的结构示例的图。摄像设备101是具有拍摄功能的数字照相机，并且外部装置301是包括蓝牙通信模块和无线LAN通信模块的智能装置。

摄像设备101和外部装置301例如通过经由符合IEEE802.11标准系列的无线LAN的通信302和经由蓝牙低功耗(以下称为“BLE”)等的通信303，可以彼此进行通信，其中通信303涉及例如控制站和从属站之间的主从关系。注意，无线LAN和BLE是通信技术的示例，且各通信设备具有两个或更多个通信功能，并且例如，只要基于控制站和从属站之间的关系来进行通信的通信功能其中之一可以控制其它通信功能，就可以使用不同的通信技术。注意，在不失一般性的情况下，诸如经由无线LAN的通信等的第一通信与诸如经由BLE的通信等的第二通信相比可以以更高的速度进行，并且第二通信的电力消耗和可通信距离至少之一与第一通信的情况相比更小/更短。

将参考图4来说明外部装置301的结构。外部装置301例如包括无线LAN所用的无线LAN控制电路401和BLE所用的BLE控制电路402，并且还包括公共无线通信所用的公共线路控制电路406。外部装置301还包括分组发送/接收电路403。无线LAN控制电路401进行无线LAN的RF控制、通信处理和协议处理，该协议处理与用于进行经由符合IEEE802.11标准系列的无线LAN的通信的各种类型的控制的驱动程序和经由无线LAN的通信有关。BLE控制电路402进行BLE的RF控制、通信处理和协议处理，该协议处理与用于进行经由BLE的通信的各种类型的控制的驱动程序和经由BLE的通信有关。公共线路控制电路406进行公共无线通信的RF控制、通信处理和协议处理，该协议处理与用于进行公共无线通信的各种类型的控制的驱动程序和公共无线通信有关。公共无线通信例如是符合IMT(国际多媒体电信)标准或LTE(长期演进)标准等的通信。分组发送/接收电路403进行用于执行与经由无线LAN和BLE的通信以及公共无线通信有关的分组的发送和接收至少之一的处理。注意，在本示例中，将假定外部装置301在通信中进行分组的发送和接收至少之一来给出说明，但可以使用例如线路交换的除分组交换以外的通信格式。

外部装置301例如还包括控制电路411、存储电路404、GPS接收电路405、显示装置407、操作构件408、音频输入/处理电路409和电源电路410。控制电路411例如通过执行存储电路404中所存储的控制程序来进行外部装置301的整体控制。存储电路404例如存储控制电路411所执行的控制程序、以及诸如通信所需的参数等的各种类型的信息。通过控制电路411执行存储电路404中所存储的控制程序来实现后面将说明的各种操作。

电源电路410向外部装置301供给电源。显示装置407例如具有如LCD或LED的情况那样输出从视觉上可识别的信息、或者从扬声器等输出声音的功能，并且显示各种类型的信息。操作构件408例如是接受用户对外部装置301进行的操作的按钮等。注意，显示装置407和操作构件408例如可以由诸如触摸面板等的共同构件构成。

也可以采用如下的结构：音频输入/处理电路409例如从并入外部装置301的通用麦克风获取用户所发出的声音，并且通过语音识别处理获取来自用户的操作指示。

另外，经由外部装置301中的专用应用来从用户的音频获取音频命令。该音频命令通过经由无线LAN的通信302可被登记为特定音频命令，该特定音频命令用于使得摄像设备101的音频处理电路212识别特定音频命令。

GPS(全球定位***)接收电路405被通知并接收来自卫星的GPS信号，分析该GPS信号，并且估计外部装置301的当前位置(经度-纬度信息)。可选地，关于位置估计，基于与在外部装置301的周围中的无线网络有关的信息，可以使用WPS(Wi-Fi定位***)等来估计外部装置301的当前位置。在所获取到的当前GPS位置信息表示外部装置301位于预先设置的位置范围内(预定半径范围内)的情况下，经由BLE控制电路402向摄像设备101通知移动信息，并且将该移动信息用于后面将说明的自动摄像和自动编辑所用的参数。另外，在GPS位置信息包括大于或等于预定值的位置变化的情况下，经由BLE控制电路402向摄像设备101通知移动信息，并且将该移动信息用于后面要说明的自动摄像和自动编辑所用的参数。

如上所述，摄像设备101和外部装置301通过使用无线LAN控制电路401和BLE控制电路402的通信来相对于彼此发送/接收数据。例如，发送和接收诸如音频信号、图像信号、压缩音频信号和压缩图像信号等的数据。此外，从外部装置301向摄像设备101，给出针对诸如拍摄等的操作的指示，发送音频命令登记数据，并且进行基于GPS位置信息的预定位置检测和场所移动的通知。另外，经由外部装置301中的专用应用来发送/接收学习数据。

摄像操作的序列

图5是示出本实施例中的摄像设备101的控制电路221负责的操作的示例的流程图。

在用户对摄像设备101上所设置的电源按钮进行操作时，电源电路210向控制电路221和摄像设备101的各块供给电源。在供给电源时，图5的处理开始。在步骤S501(在下文，“步骤S”缩写为“S”)中，读取启动条件。在本实施例中，可以手动按下电源按钮以启动电源，或者可以响应于经由外部通信(例如，BLE通信)进行的来自外部装置(例如，301)的指示而启动电源。可选地，可以通过检测到用户轻击摄像设备101来启动电源，或者也可以通过检测到特定音频命令的输入来启动电源。另外，使用这里读取的启动条件作为被摄体搜索和自动摄像时的一个参数元素，但这将在后面进行说明。在启动条件的读取结束时，过程进入S502。

在S502中，读取各种传感器的检测值。这里，所读取的传感器的检测值包括诸如设备抖动检测电路209的陀螺仪传感器和加速度传感器等的、用于检测振动的传感器的检测值。检测值还包括俯仰转动单元104和平摇转动单元105的转动位置。此外，检测值还包括音频处理电路212所检测到的音频级别、特定语音识别的检测触发、以及声音方向的检测值。

另外，尽管未在图1至图4中示出，但也利用用于检测环境信息的传感器来获取信息。例如，包括用于在预定周期中检测摄像设备101的周围的温度的温度传感器和用于检测摄像设备101的周围的气压的变化的气动传感器。另外，还可以包括用于检测摄像设备101的周围的亮度的照度传感器、用于检测摄像设备101的周围的湿度的湿度传感器、以及用于检测摄像设备101的周围的紫外光的量的UV传感器等。所检测到的温度信息、气压信息、亮度信息、湿度信息和UV信息、以及根据所检测到的各种类型的信息且使用变化率按预定时间间隔所计算出的温度变化量、气压变化量、亮度变化量、湿度变化量和紫外光变化量等被用于后面要说明的自动摄像等中的判断。

一旦在S502中读取了各种传感器的检测值，过程进入S503。在S503中，进行与是否从外部装置给出了通信指示有关的检测，并且在给出了通信指示的情况下，进行与外部装置的通信。例如，经由无线LAN或BLE从外部装置301接收到远程操作，并且发送和接收诸如音频信号、图像信号、压缩音频信号和压缩图像信号等的数据。另外，进行与以下有关的读取：外部装置301是否给出了针对摄像设备101进行拍摄等的操作指示、发送了音频命令登记数据、进行了与基于GPS位置信息的预定位置检测和移动有关的通知、以及给出了用以发送/接收学习数据的指示。

另外，用于检测上述的环境信息的各种传感器可以安装在摄像设备101中，但可以安装在外部装置301中，在这种情况下，也经由BLE读取环境信息。一旦在S503中经由通信从外部装置进行了读取，过程进入S504。

在S504中，进行模式设置判断。在S504中设置的模式是从以下列出的模式中判断并选择的。

1.手动摄像模式

模式判断条件

在检测到从外部装置301发送了用以设置手动摄像模式的命令的情况下，设置手动摄像模式。

模式下的处理

在手动摄像模式处理(S506)中，根据用户所输入的内容来驱动平摇-俯仰或变焦，并且根据用户的拍摄指示来开始静止图像的拍摄和运动图像的记录。

2.自动摄像模式

模式判断条件

在判断为要进行自动摄像的情况下，基于通过后面要说明的学习所设置的各种检测信息(图像、声音、时间、振动、场所、人体的变化、环境变化)、从摄像模式改变为自动摄像模式起所经过的时间、以及过去的拍摄信息等，来设置自动摄像模式。

模式下的处理

在自动摄像模式处理(S508)中，基于各种检测信息(图像、声音、时间、振动、场所、人体的变化、环境变化)来驱动平摇-俯仰和变焦，并且自动搜索被摄体。然后，在判断为可以进行与用户的品味匹配的拍摄的定时已到来的情况下，自动进行拍摄。注意，在从用户给出了拍摄指示的情况下，根据该指示来进行拍摄。

3.学习模式

模式判断条件

在基于从上次进行学习处理起所经过的时间、与可用于学习的图像相关联的信息、以及训练数据的数量等判断为要进行学习的情况下，设置学习模式。可选地，同样在经由通信从外部装置301给出用以设置学习参数的指示的情况下，设置学习模式。

模式下的处理

在学习模式处理(S510)中，进行与用户的品味匹配的学习。使用神经网络，基于与外部装置301中(进行)的操作有关的信息、以及来自外部装置301的训练数据的通知等，来进行与用户的品味匹配的学习。与外部装置301中(进行)的操作有关的信息的示例包括与从摄像设备101的图像获取有关的信息、与经由专用应用给出的用以进行手动编辑的指示有关的信息、以及与用户针对摄像设备中的图像所输入的判断值有关的信息。

注意，后面将详细说明自动摄像模式处理和学习模式处理。

在图5的S505中，进行与在S504的模式设置判断中是否设置了手动摄像模式有关的判断。在判断为设置了手动摄像模式的情况下，过程进入S506，并且进行手动摄像模式处理。在手动摄像模式处理中，如上所述，根据用户所进行的输入的内容来驱动摄像设备101。在该处理结束时，过程返回到S502。

另一方面，在S505中判断为未设置手动摄像模式的情况下，流程进入S507，并且进行与在模式设置中是否设置了自动摄像模式有关的判断，并且在设置了自动摄像模式的情况下，过程进入S508，并进行自动摄像模式处理。在该处理结束时，过程返回到S502。在S507中判断为在模式设置中未设置自动摄像模式的情况下，过程进入S509。

在S509中，进行与在模式设置中是否设置了学习模式有关的判断，并且在设置了学习模式的情况下，过程进入S510，并进行学习模式处理。在该处理结束时，过程返回到S502，并且重复该处理。在S509中判断为未设置学习模式的情况下，过程返回到S502，并且重复该处理。

自动摄像模式处理

将参考图6来详细说明图5的S508中的自动摄像模式处理。如上所述，本实施例中的摄像设备101的控制电路221控制以下的处理。

在S601中，图像处理电路207对摄像单元206所拍摄到的图像信号进行图像处理，并且生成被摄体识别所用的图像。对所生成的图像进行诸如人物和物体的识别等的被摄体识别。

在进行人物的识别的情况下，检测到被检体的面部和身体。在面部检测处理中，预先定义用于判断人物的面部的图案，并且在所拍摄到的图像内所包括的区域中，与该图案匹配的部分可被检测为人物的面部图像。另外，还同时计算表示该部分是被摄体的面部的概率的可靠度。该可靠度是基于图像中的面部区域的大小和与面部图案的匹配度等来计算的。

同样，在物体识别中，可以识别与预先登记的图案匹配的物体。另外，例如，存在用于使用利用所拍摄到的图像中的色相和饱和度等的直方图的方法来提取特征被摄体的方法。在这种情况下，关于在拍摄视场角内拍摄到的被摄体的图像，执行用于将从色相和饱和度等的直方图导出的分布划分成多个区间、并针对各区间对所拍摄到的图像进行分类的处理。

例如，针对所拍摄到的图像创建多个颜色分量的直方图，对其抛物线分布范围进行划分，并且将该所拍摄到的图像分类在属于同一区间的组合的区域中，并且识别被摄体的图像区域。

通过针对所识别的被摄体的各图像区域计算评价值，可以将评价值最高的被摄体的图像区域识别为主被摄体区域。

可以使用上述方法来从所拍摄到的图像获得各被摄体信息。

在S602中，计算抖动校正量。具体地，首先，基于设备抖动检测电路209所获取到的角速度和加速率信息来计算摄像设备101的姿态变化的绝对角度。然后，获得用于使俯仰转动单元104和平摇转动单元105沿抵消绝对角度的角度方向移动的抖动校正角度，并将该抖动校正角度设置为抖动校正量。

在S603中，判断摄像设备101的状态。使用基于角速度信息、加速率信息和GPS位置信息等所检测到的角度和移动量，来进行与摄像设备101当前处于何种振动/移动状态有关的判断。例如，在摄像设备101安装在车辆中并进行拍摄的情况下，诸如周围风景等的被摄体信息根据移动的距离而大幅改变。

因此，进行与摄像设备101是否处于“车载移动(moving-in-vehicle)状态”(即，安装在车辆等中并高速移动的状态)有关的判断，并且可以将结果用于后面要说明的自动被摄体搜索。

另外，进行与角度的变化是否大有关的判断，并且进行与摄像设备101是否处于几乎不存在摆动角度的“放置拍摄(placed-to-shoot)”状态有关的判断。在“放置拍摄”状态中，可以认为摄像设备101本身的角度没有变化，因而可以进行“放置拍摄”状态所用的被摄体搜索。此外，在角度变化相对大的情况下，判断为摄像设备101处于“手持(held-in-hand)”状态，并且可以进行“手持”状态所用的被摄体搜索。

在S604中，进行被摄体搜索处理。控制电路221对以摄像设备101的位置(图1B中的原点O表示摄像设备的位置)为中心的整个区域进行分割。针对各分割得到的区域，根据该区域中的被摄体和该区域的场景状况来计算表示进行搜索的优先级顺序的重要度级别。

基于例如区域中的人物的数量、人物的面部的大小、面部的朝向、面部检测的概率、人物的面部表情和人物的个人认证结果，来计算基于被摄体的状况的重要度级别。另外，基于例如普通物体识别结果、场景判断结果(蓝天、背光场景、夜景等)、从区域的方向听到的声音的级别和语音识别结果、以及区域中的移动检测信息等，来计算基于场景的状况的重要度级别。另外，在摄像设备101的状态的判断(S603)中，检测摄像设备101的振动状态，并且可以采用重要度级别也根据振动状态而改变的结构。例如，在判断为摄像设备101处于“放置拍摄”状态的情况下，并且在检测到了特定人物的面部的情况下，重要度级别被判断为高，以从通过面部认证所登记的被摄体中进行以优先级高的被摄体(例如，摄像设备的用户)为中心的被摄体搜索。另外，还优先特定人物的面部来进行后面要说明的自动摄像，并且即使摄像设备101的用户佩戴并携带摄像设备、并且进行拍摄的时间长，也可以例如通过将摄像设备拆卸并放置在桌子上来获得用户的大量图像。此时，由于可以通过平摇-俯仰操作进行搜索，因此可以在不考虑摄像设备被放置的角度等的情况下，通过仅仅随机地放置摄像设备101来获得用户的图像和大量面部的合影等。

注意，仅在上述条件下，只要在各区域中不存在变化，重要度级别最高的区域就保持相同，结果，所搜索的区域将永远不会改变。有鉴于此，根据过去拍摄信息来改变重要度级别。具体地，可以降低在预定时间期间被连续指定为搜索区域的区域的重要度级别，或者可以在预定时间期间降低通过在后面将说明的S610中进行拍摄所获取到的区域的重要度级别。

在如上所述计算各个区域的重要度级别的情况下，将重要度级别高的区域确定为要搜索的区域。然后，计算在视场角内拍摄要搜索的区域所需的平摇-俯仰搜索目标角度。

在S605中，进行平摇-俯仰驱动。具体地，通过基于图像模糊校正量和平摇-俯仰搜索目标角度来加上控制采样中的驱动角度，计算平摇-俯仰驱动量。然后，使用镜筒转动驱动电路205来进行俯仰转动单元104和平摇转动单元105的驱动控制。

在S606中，控制变焦单元201以驱动变焦。具体地，根据在S604中确定的要搜索的被摄体的状态来驱动变焦。例如，在要搜索的被摄体是人物的面部、并且图像中的面部的大小过小的情况下，存在大小小于可检测的最小大小、无法检测到面部、并且看不见面部这一风险。在这种情况下，通过使镜头移动到远摄侧，来进行控制，使得图像中的面部的大小增大。另一方面，在图像中的面部的大小过大的情况下，由于被摄体和摄像设备101本身的移动而导致被摄体有可能离开视场角。在这种情况下，通过使镜头移动到广角侧，来进行控制，使得画面上的面部的大小减小。可以通过以这种方式进行变焦控制来维持适合于追踪被摄体的状态。

在S604～S606中，说明了用于通过平摇-俯仰操作和变焦驱动来进行被摄体搜索的方法，但也可以利用用于使用多个广角镜头一次拍摄全方位图像的摄像***来进行被摄体搜索。在全方位照相机的情况下，当使用通过摄像所获得的所有信号作为输入图像来进行诸如被摄体检测等的图像处理时，需要大量处理。有鉴于此，采用如下的结构：提取图像的一部分，并且在所提取的图像的范围内进行用于搜索被摄体的处理。与上述方法相似，针对各区域计算重要度级别，基于该重要度级别来改变提取位置，并且进行后面要说明的自动摄像的判断。这使得能够减少在图像处理和高速被摄体搜索中消耗的电力。

在S607中，进行与是否在设置了自动摄像模式的状态下从用户(手动地)给出了拍摄指示有关的判断，并且在给出了拍摄指示的情况下，过程进入S610。此时，用户(手动地)给出的拍摄指示可以是作为以下操作的结果而给出的：按下快门按钮；使用手指等轻敲(轻击)摄像设备101的壳体；输入音频命令；或者接收到来自外部装置的指示；等等。通过轻击操作给出的拍摄指示是指如下的拍摄指示方法：用户轻击摄像设备101的壳体时的振动被设备抖动检测电路209检测为持续了短时间段的高频率的加速率，并被用作拍摄的触发。音频命令的输入是指如下的拍摄指示方法：在用户说出用于指示拍摄的预定短语(例如，“拍摄照片”)的情况下，音频处理电路212识别出该音频，并将该音频用作拍摄的触发。来自外部装置的拍摄指示是指如下的拍摄指示方法：从蓝牙连接至摄像设备101的智能电话等经由专用应用发送来的快门指示信号被用作触发。

在S607中判断为不存在拍摄指示的情况下，过程进入S608，并且进行自动摄像判断。在自动摄像判断中，进行与是否进行自动摄像有关的判断。

基于作为机器学习的机制的神经网络来进行与是否进行自动摄像有关的判断。图7示出使用多层感知器的网络的示例作为神经网络的示例。神经网络用于根据输入值估计输出值，并且预先学习输入值和作为针对输入的模型值的输出值，因而可以基于所学习的模型值来针对新的输入值推断输出值。注意，后面将说明学习方法。

由图7中的附图标记701表示的圆和在圆701的下方垂直排列的圆表示输入层的神经元，由附图标记703表示的圆和在圆703的下方垂直排列的圆表示中间层的神经元，并且由附图标记704表示的圆表示输出层的神经元。包括由附图标记702表示的箭头的箭头表示神经元之间的连接。在基于神经网络的判断中，将基于在当前视场角内出现的被摄体、场景和摄像设备的状态的特征量作为输入而提供至输入层的神经元，进行基于多层感知器的前向传播规则的计算，并且获得从输出层输出的值。然后，如果输出值大于或等于阈值，则判断为要执行自动摄像。

注意，作为被摄体的特征，使用当前变焦倍率和当前视场角处的普通物体识别结果和面部检测结果、在当前视场角中出现的面部的数量、面部的微笑程度/面部的眼睛的闭合程度、面部角度、面部认证ID号、被摄体人物的视线角度、场景判断结果、以及特定构图的检测结果等。另外，还可以使用从前次拍摄起所经过的时间、当前时刻、GPS位置信息和从前次拍摄位置起的变化量、当前音频级别、正在说话的人物、以及掌声和欢呼声是否响起等。另外，还可以使用振动信息(加速率信息和摄像设备的状态)和环境信息(温度、气压、照度、湿度和紫外光量)等。将这些特征转换成预定范围内的数值，并且将作为特征量添加至输入层的神经元。因此，输入层的所需的神经元的数量与上述的特征量的数量相同。

注意，作为由于后面要说明的学习处理而导致神经元之间的耦合权重改变的结果，该基于神经网络的判断的输出值改变，并且判断的结果可以适应于学习结果。

另外，与是否要进行自动摄像有关的判断也根据在图5的S501中读取的启动条件而改变。例如，基于轻击检测的启动和基于特定音频命令的启动很有可能是用户期望立即进行拍摄时的操作。有鉴于此，设置被设置成增加拍摄频率。

在S609中，在S608中所判断的自动摄像中判断为进行拍摄的情况下，过程进入S610，并且在判断为不进行拍摄的情况下，摄像模式处理结束，并且过程进入图5的S502。

在S610中，开始拍摄。此时，在手动摄像中，进行静止图像的拍摄、或者使用用户手动设置的拍摄方法来进行拍摄，并且在自动摄像中，在S608中判断的定时开始拍摄。此时，利用调焦驱动控制电路204进行自动调焦控制。另外，使用未示出的光阑控制电路、传感器增益控制电路和快门控制电路，来进行曝光控制，使得被摄体的亮度是适当的。此外，在拍摄之后，在图像处理电路207中，进行诸如自动白平衡处理、降噪处理和伽马校正处理等的各种类型的图像处理，并且生成图像。

注意，在该拍摄时满足预定条件的情况下，摄像设备101可以采取向作为拍摄的对象的人物通知要进行拍摄的措施，然后进行拍摄。在该通知方法中，例如，可以使用来自音频输出电路216的音频和来自LED控制电路222的LED照明光，并且还可以使用用于通过驱动平摇-俯仰来从视觉上引导被摄体的视线的运动操作。预定条件的示例包括视场角内的面部的数量、微笑程度/面部的眼睛的闭合程度、被摄体人物的视线角度和面部角度、面部认证ID号、以及为了个人认证所登记的人物的数量等。此外，还可以使用拍摄时的普通物体识别结果、场景判断结果、从前次拍摄起所经过的时间、拍摄时刻、基于GPS信息的当前位置是否是景点、拍摄时的音频级别、是否存在说话的人物、以及掌声或欢呼声是否响起等。另外，还可以使用振动信息(加速率信息和摄像设备的状态)和环境信息(温度、气压、照度、湿度和紫外光量)等。通过基于这些条件进行拍摄通知，可以在重要度更高的场景中获得用户正观看照相机的优选图像。

另外，还可以采用如下的结构：提供多个预定条件，并且根据各条件来改变音频、LED的照明方法(颜色、闪烁时间等)、或者平摇-俯仰运动方法(如何移动以及驱动速度)。

在S611中，进行编辑处理，诸如对S610中所生成的图像进行处理以及将该图像添加到运动图像等。图像处理的具体示例包括基于人物的面部和聚焦位置的裁切处理、图像的旋转处理、用于添加诸如HDR(高动态范围)效果、散景效果和颜色转换滤波器效果等的各种效果的处理。在图像处理中，可以通过组合上述处理来基于在S610中生成的图像生成多个图像，并且可以将这些图像与在S610中生成的图像分开地记录。另外，在运动图像处理中，可以进行如下的处理，该处理用于在应用幻灯片、缩放和淡入淡出的特殊效果处理的同时，将所拍摄的运动图像或静止图像添加到已生成的编辑运动图像。此外，在S611的编辑中，可以基于神经网络来对与拍摄图像有关的信息或在拍摄之前检测到的各种信息进行判断，并且也可以对图像处理方法进行判断。另外，在该判断处理中，可以通过后面要说明的学习处理来改变判断条件。

在S612中，进行用于根据拍摄图像生成训练数据的处理。这里，生成并记录用于后面要说明的学习处理的信息。该信息的具体示例包括当前拍摄图像中的：拍摄期间的变焦倍率、拍摄期间的普通物体识别结果、面部检测结果、拍摄图像中的面部的数量、面部的微笑程度/面部的眼睛的闭合程度、面部角度、面部认证ID号、以及被摄体人物的视线角度。另外，还包括场景判断结果、从前次拍摄起所经过的时间、拍摄时刻、GPS位置信息和从前次拍摄位置起的变化量、拍摄时的音频级别、正在说话的人物、以及掌声和欢呼声是否响起等。另外，还可以包括振动信息(加速率信息和摄像设备的状态)、环境信息(温度、气压、照度、湿度和紫外光量)、运动图像拍摄时间、以及是否响应于手动摄像指示而进行拍摄等。此外，还计算得分，该得分是从神经网络输出的并且是通过将用户对图像的品味转换成数值所获取到的。

生成这些信息，并将这些信息作为标签信息记录到拍摄图像文件。可选地，这种信息可被写入非易失性存储器214，或者可被以将与拍摄图像(所拍摄到的图像)有关的信息作为所谓的目录数据列出的格式存储在记录介质219中。

在S613，更新过去的拍摄信息。具体地，从在S608的说明中所述的针对各区域的拍摄图像的数量、在个人认证中登记的针对各人物的拍摄图像的数量、在普通物体识别中识别的针对各被摄体的拍摄图像的数量、以及场景判断中的针对各场景的拍摄图像的数量中，使与最近拍摄的图像相对应的图像的数量增加1。

学习模式处理

接着，将说明本实施例中的与用户的品味匹配的学习。

在本实施例中，使用如图7所示的神经网络，并且学习处理电路217使用机器学习算法来进行与用户的品味匹配的学习。例如，学习处理电路217使用NVIDIA Jetson TX2。神经网络用于根据输入值估计输出值，并且可以通过预先学习实际输入值和实际输出值来针对新的输入值推断输出值。通过使用神经网络，可以对上述的自动摄像和被摄体搜索进行与用户的品味匹配的学习。

另外，还进行用作输入至神经网络的特征数据的被摄体登记(面部认证、普通物体识别等)。

将说明本实施例中的针对自动摄像的学习。在自动摄像中，进行用于自动拍摄与用户的品味匹配的图像的学习。如参考图6的流程图所示，在拍摄之后进行用于生成训练数据的处理(S612)。使用后面要说明的方法来选择要学习的图像，并且作为基于图像中所包括的训练数据改变神经网络的神经元之间的耦合权重的结果来学习这些要学习的图像。

接着，将说明学习方法。学习方法包括“摄像设备内的学习”和“与通信装置协作进行的学习”。以下将说明“摄像设备内的学习”的方法。

使用以下的方法其中之一来进行本实施例中的“摄像设备内的学习”。

1.使用在用户给出拍摄指示时的检测信息而进行的学习

如图6的S607～S613所述，在本实施例中，摄像设备101可以进行手动摄像和自动摄像这两个类型的摄像。在S607中通过手动操作给出了(如上所述基于三个判断所进行的)拍摄指示的情况下，在S612中添加表示拍摄图像是手动拍摄图像的信息。另外，在S609中判断为自动摄像为开启(ON)并且进行拍摄的情况下，在S612中添加表示拍摄图像是自动拍摄图像的信息。另外，还将表示拍摄图像是手动拍摄图像的信息添加到S506中的在手动摄像模式下拍摄到的图像。

这里，在拍摄图像是手动拍摄图像的情况下，该图像很有可能是基于与用户的品味匹配的被摄体、场景、场所和时间间隔来拍摄的。因而，基于在手动摄像期间获得的特征数据和拍摄图像的训练数据来进行学习。

另外，根据手动摄像期间的检测信息，关于拍摄图像中的特征量的提取、个人认证的登记、针对各个人的面部表情的登记、以及人的组合的登记，进行学习。另外，例如，根据被摄体搜索期间的检测信息，进行学习，使得基于个人登记中所记录的被摄体的面部表情来改变附近的人物和物体的重要度。

2.基于用户所进行的删除操作而进行的学习

根据用户所进行的操作而删除的图像也可用于学习。在根据用户所进行的操作来删除记录介质219或非易失性存储器214中所存储的图像的情况下，存在该图像已被判断为具有低价值的可能性。此外，在可想到图像的价值低的原因是用于自动摄像的神经网络的学习不成熟的情况下，可以将所删除图像和与该图像相关联的检测信息作为不利场景的样本来用于学习。因此，可以抑制不利场景的自动摄像。

将参考图11的流程图来说明基于用户的删除操作的学习处理。图11是示出在用户进行删除图像的操作时的学习处理的流程图。在通过用户进行操作来删除图像时，进行该学习处理。用户所进行的操作可以是对摄像设备101的直接操作，或者可以是对与摄像设备连接的智能装置或配件装置的操作，以通过通信给出删除指示。

在S1101中，进行与在记录介质219或非易失性存储器214中是否存在与所删除图像相似的图像有关的判断。在存在相似图像的情况下，可以判断为：由于在记录介质219或非易失性存储器214中存在相似图像，因此所删除图像的相对价值下降并被删除，换句话说，所删除图像的绝对评价不一定是低的。

判断方法可以是用于通过将所删除图像与记录介质219或非易失性存储器214中的比较图像的图像数据直接比较来获得相似度的(相似度判断)方法、或者用于通过比较与图像相关联的检测信息来获得相似度的方法。

以下将说明用于比较图像并获得相似度的方法的示例。首先，通过特征点提取处理来从要比较的图像中提取多个特征点(特征点组)。对于特征点提取处理，可以使用诸如SIFT(Scale-Invariant Feature Transform(尺度不变特征变换))和FAST(Features fromAccelerated Segment Test(加速分割测试特征))等的任何方法。接着，执行用于将在图像之间相似的特征点进行配对的特征点匹配处理，并且设置被设置成：匹配的特征点的对的数量越多，输出的相似度越高。

用于比较图像并获得相似度的方法不限于此，并且例如，可以使用被训练为输出两个输入图像的相似度的神经网络。

另外，作为用于比较与图像相关联的检测信息并获得相似度的方法的示例，可想到如下的方法，该方法用于计算表示为矢量的两个检测信息之间的欧几里得距离，并且随着两个检测信息之间的距离下降，判断为相似度更高。所计算出的距离不限于欧几里得距离，并且可以使用任何定义的距离。另外，还可以使用为了通过距离测量学习等判断检测信息的相似度而优化的距离计算器。另外，还可以采用比较如下的图像的结构，对于这些图像，与图像数据相关联的拍摄时刻信息和拍摄位置信息至少之一跟与所删除图像相关联的拍摄时刻信息和拍摄位置信息至少之一相差了预定阈值以内。

在记录介质219或非易失性存储器214中存在通过如上所述的判断处理将相似度判断为大于预定阈值的图像的情况下，过程进入S1105，否则过程进入S1102。

在S1102中，进行与所删除图像是否是在摄像设备101的焦点位置控制和曝光控制不适当的状态下拍摄到的图像有关的判断。在该图像是在焦点位置控制和曝光控制不适当的状态下拍摄(这使得被摄体不清晰或被摄体模糊并导致被摄体的不适当曝光)的情况下，可以判断为这是用户的低评价的原因。

可以使用日本特开2015-170306中所述的基于边缘检测的方法作为用于对被摄体不清晰和被摄体模糊进行判断的方法。另外，也可以使用被训练为针对输入图像输出与被摄体不清晰和被摄体模糊的有无有关的数据的神经网络。

例如，可以使用用于使用基于图像所计算出的亮度直方图的方法作为用于判断被摄体的曝光是否适当的方法。在亮度直方图极度偏重于低亮度或高亮度的情况下，可以判断为被摄体的图像不是用适当亮度拍摄的。此外，也可以使用被训练为针对输入图像输出与被摄体的亮度是否适当有关的数据的神经网络。

在如上所述的判断处理中判断为所删除图像是发生了被摄体不清晰或被摄体模糊的图像、或者被摄体亮度不适当的图像的情况下，过程进入S1105，否则过程进入S1103。

在S1103中，进行与在拍摄所删除图像的定时前后、在场景中是否存在显著变化有关的判断。

作为判断方法，将紧挨在拍摄所删除图像之前获取到的检测信息与紧接在执行拍摄之后获取到的检测信息进行比较，并且在这两个检测信息之间的相似度小于预定阈值的情况下，可以判断为在场景中发生了显著变化。作为用于比较检测信息的方法，可以使用与在S1101中所述的相似度判断处理相似的技术。

在上述判断处理中判断为在拍摄所删除图像的定时前后在场景中存在显著变化的情况下，过程进入S1105，否则过程进入S1104。

在S1104中，将所删除图像和与所删除图像相关联的检测信息作为不利场景的样本添加到训练数据，并且针对自动摄像训练神经网络。注意，可以在每次添加训练数据时训练神经网络，或者也可以在添加了预定数量的训练数据时集体训练神经网络。

在S1105中，判断为将所删除图像作为不利场景的样本来学习是不合适的，并且在不进行学习的情况下，该学习处理结束。

以上说明了基于用户的删除操作的学习处理，但该学习处理不一定需要响应于用户的删除操作而立即进行，并且也可以采用如下的结构：存储用户所进行的删除操作的历史，并且随后进行学习处理。

另外，上述学习处理不一定需要在摄像设备101中进行，并且也可以采用如下的结构：将所需的信息发送至与摄像设备连接的服务器等，并且服务器单独进行学习处理。通过接收利用服务器进行学习的结果，摄像设备101可以获得与在对摄像设备101本身进行训练时的效果相似的效果。另外，已经说明了所删除图像是存储介质219或非易失性存储器214中所存储的图像，但是所删除图像可以是不同于摄像设备101的服务器中所存储的图像。注意，用于使得摄像设备使用学习结果来进行自动摄像的处理、用于将摄像设备所拍摄到的图像存储到存储介质的处理、用于对来自存储介质的学习所使用的图像进行判断的处理、以及用于使用所判断出的图像来进行学习的处理可以由各个设备进行，或者这些处理的一部分或全部可以在同一设备中进行。

接着，将说明本实施例中的与外部通信装置协作进行的学习。在本实施例中的与外部通信装置协作进行的学习中，可以使用以下的方法。

3.基于外部通信装置获取图像的学习

如参考图3所述，摄像设备101和外部装置301具有用于进行通信302和通信303的通信部件。图像主要通过通信302来发送/接收，并且外部装置301可以经由外部装置301中的专用应用、通过通信获取摄像设备101中的图像。另外，在外部装置301中，可以经由外部装置301中的专用应用查看摄像设备101中所存储的图像数据的缩略图图像。因此，用户从这些缩略图图像中选择用户偏好的缩略图图像，确认该图像，给出获取指示，由此可以在外部装置301中获取到图像。

此时，由于用户所选择的图像是响应于发送指示(发送请求)而获取到的，因此所获取到的图像很有可能是与用户的品味匹配的图像。因而，判断为所获取到的图像是要学习的图像，并且与图6的S612相似，根据所获取到的图像生成训练数据，并且基于该训练数据来进行学习。因此，可以进行与用户的品味匹配的各种类型的学习。

将说明操作示例。图8示出经由作为智能装置的外部装置301的专用应用正查看摄像设备101中的图像的示例。将摄像设备101中所存储的图像数据的缩略图图像(804～809)显示在显示装置407上，并且用户可以选择用户偏好的图像，并获取该图像。这里，提供用于改变显示方式的改变按钮图标801、802和803。在按下改变按钮图标801的情况下，显示顺序改变为日期和时间优先显示模式，并且将摄像设备101中的图像按拍摄日期和时间的顺序显示在显示装置407上。例如，图像804被显示为新的(新的日期和时间)，并且图像809被显示为旧的(旧的日期和时间)。在按下改变按钮图标802的情况下，显示顺序改变为推荐图像优先显示模式。基于通过针对各图像判断用户的品味所获取到的评价结果的得分，来将摄像设备101中的图像按得分最高的顺序显示在显示装置407上，其中该评价结果是在图6的S612中计算出的。例如，图像804被显示为具有高得分，并且图像809被显示为具有低得分。在按下改变按钮图标803的情况下，可以指定人物或物体的被摄体，并且在然后指定特定的人物或物体的被摄体的情况下，将仅显示特定被摄体。

可以使用改变按钮图标801～803来将这些设置同时设置为开启(ON)，并且，例如，在所有的设置都为开启的情况下，仅显示所指定的被摄体，并且通过使拍摄日期和时间新的图像以及得分高的图像优先来进行该显示。

如上所述，通过简单的确认作业，可以容易地从大量拍摄图像中仅提取与用户的品味匹配的图像，从而还在拍摄图像中对用户的品味进行学习。

4.通过经由外部通信装置向图像输入判断值而进行的学习

如上所述，摄像设备101和外部装置301具有通信部件，并且可以经由外部装置301中的专用应用查看摄像设备101中所存储的图像。这里，可以采用用户向图像赋予得分的结构。采用如下的结构：可以向用户感觉与他们的品味匹配的图像赋予高得分(例如，5)，可以向用户感觉与他们的品味不匹配的图像赋予低得分(例如，1)，并且根据用户的操作来训练摄像设备101。将图像的得分连同训练数据一起用于在摄像设备中再次进行的学习。进行学习，使得使用来自所指定的图像信息的特征数据作为输入的神经网络的输出接近用户所指定的得分。

在本实施例中，采用用户经由外部装置301对拍摄图像输入得分的结构，但也可以采用操作摄像设备101以对图像直接输入得分的结构。在这种情况下，例如，在摄像设备101中设置触摸面板显示器，并且根据用户按下触摸面板显示器上所显示的GUI按钮来设置用于显示拍摄图像的模式。然后，用户可以在确认拍摄图像的同时，使用用于向图像输入得分的方法等来进行相似的学习。

5.通过在外部通信装置中改变参数而进行的学习

如上所述，摄像设备101和外部装置301具有通信部件，并且摄像设备101中当前设置的学习参数可被发送至外部装置301，并存储在外部装置301的存储电路404中。学习参数的可想到的示例包括神经网络的神经元之间的耦合权重和输入至神经网络的被摄体的选择。另外，采用如下的结构：使用外部装置301中的专用应用，可以经由公共线路控制电路406获取在专用服务器中设置的学习参数，并将这些学习参数设置为摄像设备101中的学习参数。因此，通过将某个时间点的参数存储到外部装置301、并将这些参数设置在摄像设备101中，可以返回学习参数，并且可以经由专用服务器获取到其它用户的学习参数，并将这些学习参数设置在摄像设备101中。

接着，将说明学习处理序列。在图5的S504的模式设置判断中，进行与是否进行学习处理有关的判断，并且在判断为进行学习处理的情况下，判断为设置了学习模式，并且进行S510中的学习模式处理。

将说明学习模式的判断条件。基于从上次进行学习处理起所经过的时间、可用于学习的信息的数量、以及是否经由通信装置给出了学习处理指示等来判断是否转变为学习模式。图9示出与是否转变为学习模式有关的判断处理流程，该判断是在S504中的模式设置判断处理中进行的。

在S504的模式设置判断处理中给出用以开始学习模式判断的指示的情况下，图9的处理开始。在S901中，进行与是否从外部装置给出了学习指示有关的判断。这里，如“5.通过在外部通信装置中改变参数而进行的学习”那样，与是否给出了学习指示有关的判断是与是否给出了用以设置学习参数的指示有关的判断。在S901中判断为从外部装置301给出了学习指示的情况下，过程进入S907，其中在S907中，学习模式判断被设置为真(TRUE)，设置成进行S510的处理，并且学习模式判断处理结束。在S901中判断为没有从外部装置给出学习指示的情况下，过程进入S902。

在S902中，获取从上次进行学习模式处理起所经过的时间TimeN，并且过程进入S903。在S903中，获取要学习的新数据的数量DN(在从上次进行学习处理起直到时间TimeN为止的时间段期间指定用于学习的图像的数量)，并且过程进入S904。在S904中，基于TimeN来计算阈值DT。可选地，可以准备用于从TimeN获得阈值DT的表。例如，在TimeN小于预定值时的阈值DTa被设置得大于在TimeN大于预定值时的阈值DTb，并且阈值被设置成随着时间的经过而减小。因此，可以采用如下的结构：即使训练数据的量小，通过在经过了长时间段的情况下再次进行学习，在摄像设备使用了长时间时，摄像设备也可以容易地改变为学习模式。注意，阈值DT优选被设置得大，使得摄像设备在从进行学习模式处理的时间起的一定时间段内不会转变为学习模式。

在S904中计算出阈值DT时，过程进入S905，并且进行与要学习的数据的数量DN是否大于或等于阈值DT有关的判断。如果数据的数量DN大于或等于阈值DT，则过程进入S906，并且DN被设置为0。然后，过程进入S907，其中在S907中，学习模式判断被设置为真，设置成进行S510的处理，并且结束学习模式判断处理。

如果在S905中判断为数据的数量DN小于阈值DT，则过程进入S908。在S908中，由于不存在来自外部装置301的登记指示和来自外部装置的学习指示、并且训练数据的数量小于预定值，因此将学习模式判断设置为假(FALSE)，使得设置成不进行S510的处理，并且结束学习模式判断处理。

如果在图5的S509中判断为设置了学习模式、并且过程进入S510，则图10的处理开始。在S1001中，进行与是否从外部装置301给出了用以设置学习参数的指示有关的判断。如果从外部装置301给出了用以设置学习参数的指示，则过程进入S1006，其中在S1006中，将从外部装置发送来的学习参数设置到各个判断元素(神经网络的神经元之间的耦合权重等)，并且过程进入S1007。如果在S1001中判断为没有从外部装置301给出学习指示，则过程进入S1002。

在S1002中，选择一个训练数据，并且进行机器学习。该训练数据可以包括：从添加了表示图像是手动拍摄图像的信息的拍摄图像生成的训练数据；基于用户所进行的删除操作的训练数据；从外部通信装置所获取到的图像生成的训练数据；以及从经由外部通信装置将判断值输入至的拍摄图像生成的训练数据。使用诸如反向传播法或梯度下降法等的方法来进行学习，并再次计算神经网络的神经元之间的耦合权重，并且改变判断元素的参数。如果用户向生成训练数据所基于的图像赋予了得分，则进行考虑到这些得分的学习。

在S1003中，进行与是否使用针对机器学习所准备的所有训练数据进行了学习有关的判断。如果仍存在剩余的训练数据，则过程返回到S1002，并且如果使用所有的训练数据进行了学习，则过程进入S1004。

在S1004中，将通过机器学习所获得的学习参数与基准次数相关联地存储在非易失性存储器214中。

在S1005中，将在S1004中存储的最新学习参数设置到判断元素(神经网络的神经元之间的耦合权重等)，并且过程进入S1007。

在S1007中，向记录介质219或非易失性存储器214中的图像重新赋予得分(重新评价)。在本实施例中，采用如下的结构：基于新的学习结果来向记录介质219或非易失性存储器214中所记录的所有拍摄图像赋予得分，并且根据所赋予的得分来进行自动编辑和自动文件删除。因此，在再次进行学习或者从外部装置设置学习参数时，需要更新拍摄图像的得分。因而，在S1007中，进行用于向记录介质219或非易失性存储器214中所存储的拍摄图像赋予新得分的重新计算，并且在该处理结束时，结束学习模式处理。注意，用于赋予新得分的重新计算也可以根据用户的指示来进行。

在本实施例中，基于在摄像设备101内进行学习的结构给出了说明，但可以通过采用如下的结构来实现相似的学习效果：外部装置301配备有学习功能，将学习所需的数据发送至外部装置301，并且仅在外部装置侧执行学习。在这种情况下，如以上在“5.通过在外部通信装置中改变参数而进行的学习”中所述，可以采用如下的结构：将在外部装置侧训练的诸如神经网络的神经元之间的耦合权重等的参数发送至摄像设备101并进行设置，由此进行学习。

另外，还可以采用摄像设备101和外部装置301这两者都具有学习处理功能的结构。还可以采用如下的结构：例如在摄像设备101中进行学习模式处理的定时，将外部装置301中所保持的训练数据发送至摄像设备101，合并学习参数，由此进行学习。

如上所述，根据上述实施例，从用户所删除的图像中，仅将被判断为由于纯粹不匹配用户的品味而不是由于拍摄错误等而被删除的图像作为不利场景的图像来学习。该学习使得可以在无需用户进行特定操作的情况下，不拍摄与用户的品味不匹配的场景。

其它实施例

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给***或装置，该***或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

尽管已经参考典型实施例说明了本发明，但是应该理解，本发明不限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释，以包含所有这类修改、等同结构和功能。

Claims

1.一种图像处理设备，包括：

判断部件，用于在用户给出用以删除存储部件中所存储的图像数据的指示、并且所述图像数据满足预定条件的情况下，判断为所述存储部件中所存储的图像数据是要用于学习摄像部件要进行自动摄像的状况的图像数据。

2.根据权利要求1所述的图像处理设备，

其中，所述判断部件基于所述图像数据和与所述图像数据相关联的信息至少之一，来判断所述图像数据是否满足所述预定条件。

3.根据权利要求1所述的图像处理设备，还包括：

相似度判断部件，用于判断用户给出了删除指示的图像数据和所述存储部件中所存储的其它图像数据之间的相似度，

其中，在所述相似度判断部件判断为所述存储部件中所存储的图像数据包括与用户给出了删除指示的图像数据相似的图像数据的情况下，所述判断部件判断为不满足所述预定条件。

4.根据权利要求3所述的图像处理设备，

其中，所述相似度判断部件通过特征点提取处理来从用户给出了删除指示的图像数据中提取第一特征点组，通过所述特征点提取处理来从所述存储部件中所存储的其它图像数据中提取第二特征点组，对所述第一特征点组和所述第二特征点组进行匹配处理，并且相似的特征点的对的数量越多，判断为相似度越高。

5.根据权利要求3所述的图像处理设备，

其中，所述相似度判断部件通过将与所述存储部件中所存储的其它图像数据相关联的信息和与用户给出了删除指示的图像数据相关联的信息进行比较，来判断图像之间的相似度。

6.根据权利要求3所述的图像处理设备，

其中，所述相似度判断部件判断如下的图像之间的相似度，对于这些图像，与所述存储部件中所存储的其它图像数据相关联的拍摄时刻信息和拍摄位置信息至少之一跟与用户给出了删除指示的图像数据相关联的拍摄时刻信息和拍摄位置信息至少之一相差了预定阈值以内。

7.根据权利要求1所述的图像处理设备，

其中，在用户给出了删除指示的图像数据的状态是被摄体不清晰的状态、被摄体模糊的状态和被摄体的曝光不适当的状态至少之一的情况下，所述判断部件判断为不满足所述预定条件。

8.根据权利要求1所述的图像处理设备，

其中，与用户给出了删除指示的图像数据相关联的信息在对用户给出了删除指示的图像数据进行拍摄的前后的差异大的情况下，所述判断部件判断为不满足所述预定条件。

9.根据权利要求1所述的图像处理设备，还包括：

学习部件，用于使用如下的图像数据和与该图像数据相关联的信息至少之一，来学习将不进行自动摄像的状况，该图像数据被所述判断部件判断为用于学习要进行自动摄像的状况的图像数据。

10.根据权利要求9所述的图像处理设备，还包括：

所述摄像部件，用于基于所述学习部件所进行的学习的结果来进行自动摄像。

11.根据权利要求10所述的图像处理设备，

其中，所述存储部件存储所述摄像部件所生成的图像数据。

12.一种图像处理设备的控制方法，所述控制方法包括：

在用户给出用以删除存储部件中所存储的图像数据的指示、并且所述图像数据满足预定条件的情况下，判断为所述存储部件中所存储的图像数据是要用于学习摄像部件要进行自动摄像的状况的图像数据。

13.一种存储有程序的非暂时性计算机可读存储介质，所述程序用于使得计算机执行根据权利要求12所述的控制方法。