CN114467293A

CN114467293A - 数据创建方法及数据创建程序

Info

Publication number: CN114467293A
Application number: CN202080057693.1A
Authority: CN
Inventors: 西山幸德; 西尾祐也; 和田哲; 田中康一
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2019-08-15
Filing date: 2020-08-05
Publication date: 2022-05-10
Also published as: WO2021029294A8; US20220270388A1; JP7397084B2; JPWO2021029294A1; WO2021029294A1

Abstract

本发明提供一种动态图像数据的生成方法，其可根据多个被摄体的每一个被摄体的状态有效地进行各被摄体的音频的音量调节。数据创建方法包含如下工序：关联建立工序(步骤S10及步骤S11)，对麦克风和拥有各麦克风的各被摄体建立关联；录像工序(步骤S12、步骤S20、步骤S21)，利用摄像装置对动态图像数据进行录像；录音工序(步骤S13)，与录像工序的开始同步地利用各麦克风分别对各被摄体的音频数据进行录音；检测工序(步骤S14、步骤S15)，在录像工序期间自动检测被摄体的状态；及赋予工序(步骤S16～步骤S19)，根据检测工序的结果，对动态图像数据赋予与各被摄体的音频数据的音量调节相关的识别码。

Description

数据创建方法及数据创建程序

技术领域

本发明涉及一种数据创建方法及数据创建程序。

背景技术

以往，存在一种对拍摄动态图像数据的摄像装置，例如利用通过无线连接的麦克风收集音频，获取与动态图像数据同步的音频数据的技术。

专利文献1中，记载有一种与摄像装置连接的无线麦克风无法向摄像装置发送音频信号时，将音频信号存储于记录介质的技术。

专利文献2中，记载有一种与麦克风和无线通信装置之间的通信相关的日志信息建立关联来生成录音文件的无线通信装置。

以往技术文献

专利文献

专利文献1：日本特开2015-73170号公报

专利文献2：日本特开2015-119229号公报

发明内容

本发明的技术所涉及的一个实施方式提供一种动态图像数据的生成方法，其可根据多个被摄体的每一个被摄体的状态有效地进行各被摄体的音频的音量调节。

用于解决技术课题的手段

作为本发明的一方式的数据创建方法在具备摄像装置及与摄像装置连接的多个麦克风的相机***中使用，所述数据创建方法包含如下工序：关联建立工序，对麦克风和拥有各麦克风的各被摄体建立关联；录像工序，利用摄像装置对动态图像数据进行录像；录音工序，与录像工序的开始同步地利用各麦克风分别对各被摄体的音频数据进行录音；检测工序，在录像工序期间自动检测被摄体的状态；及赋予工序，根据检测工序的结果，对动态图像数据赋予与各被摄体的音频数据的音量调节相关的识别码。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别被摄体正在发出声音的状态，在赋予工序中，对动态图像数据赋予使正在发出声音的被摄体的音频数据的音量相对于其他音频数据相对增大的识别码。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别各被摄体所朝向的方向，在赋予工序中，对动态图像数据赋予根据相对于摄像装置的各被摄体的脸部的方向调节音频数据的音量的识别码。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别各被摄体与摄像装置之间的距离，在赋予工序中，对动态图像数据赋予根据各被摄体的距离调节音频数据的音量的识别码。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别各被摄体是否存在于摄像装置的视场角内，在赋予工序中，对动态图像数据赋予根据被摄体是否存在于摄像装置的视场角内来调节音频数据的音量的识别码。

优选如下，数据创建方法包含位置获取工序，从多个被摄体的每一个被摄体所具有的位置检测***获得多个被摄体的每一个被摄体的位置，检测工序检测通过位置获取工序获得的多个被摄体的每一个被摄体的位置，在赋予工序中，根据检测工序的结果，对动态图像数据赋予与各被摄体的音频数据的音量调节相关的识别码。

优选如下，即，数据创建方法在赋予工序之后包含接受基于用户的音频数据的音量调节的接受工序。

作为本发明的另一方式的数据创建方法在具备摄像装置及与摄像装置连接的多个麦克风的相机***中使用，所述数据创建方法包含如下工序：关联建立工序，对麦克风和拥有各麦克风的各被摄体建立关联；录像工序，利用摄像装置对动态图像数据进行录像；录音工序，与录像工序的开始同步地利用各麦克风分别对各被摄体的音频数据进行录音；检测工序，在录像工序期间自动检测被摄体的状态；合成工序，对音频数据和动态图像数据进行合成；及调节工序，根据检测工序的结果，在合成工序之前或之后，自动调节各被摄体的音频数据的音量。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别被摄体正在发出声音的状态，在调节工序中，使正在发出声音的被摄体的音频数据的音量相对于其他音频数据相对增大。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别各被摄体所朝向的方向，在调节工序中，根据相对于摄像装置的各被摄体的脸部的方向来调节音频数据的音量。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别各被摄体与摄像装置之间的距离，在调节工序中，根据各被摄体的距离调节音频数据的音量。

优选如下，即，在检测工序中，在动态图像数据中通过图像处理识别各被摄体是否存在于摄像装置的视场角内，在调节工序中，根据被摄体是否存在于摄像装置的视场角内来调节音频数据的音量。

优选如下，数据创建方法包含位置获取工序，从多个被摄体的每一个被摄体所具有的位置检测***获得多个被摄体的每一个被摄体的位置，在调节工序中，根据位置获取工序的结果及检测工序的结果，进行各被摄体的音频数据的音量的调节。

作为本发明的另一方式的数据创建程序在具备摄像装置及与摄像装置连接的多个麦克风的相机***中使用，所述数据创建程序包含如下工序：关联建立工序，对麦克风和拥有各麦克风的各被摄体建立关联；录像工序，利用摄像装置对动态图像数据进行录像；录音工序，与录像工序的开始同步地利用各麦克风分别对各被摄体的音频数据进行录音；检测工序，在录像工序期间从动态图像数据自动检测被摄体的状态；及赋予工序，根据检测工序的结果，对动态图像数据赋予与各被摄体的音频数据的音量调节相关的识别码。

作为本发明的另一方式的数据创建程序在具备摄像装置及与摄像装置连接的多个麦克风的相机***中使用，所述数据创建程序包含如下工序：关联建立工序，对麦克风和拥有各麦克风的各被摄体建立关联；录像工序，利用摄像装置对动态图像数据进行录像；录音工序，与录像工序的开始同步地利用各麦克风分别对各被摄体的音频数据进行录音；检测工序，在录像工序期间从动态图像数据自动检测被摄体的状态；合成工序，对音频数据和动态图像数据进行合成；及调节工序，根据检测工序的结果，在合成工序之前或之后，自动调节各被摄体的音频数据的音量。

附图说明

图1是概念性地表示相机***的图。

图2是表示相机***的概略结构的框图。

图3是在记录动态图像数据及音频数据时由CPU实现的主要功能的框图。

图4是说明数据创建方法的流程图。

图5是说明被赋予识别码的动态图像数据的例子的图。

图6是在记录动态图像数据及音频数据时由CPU实现的主要功能的框图。

图7是说明数据创建方法的流程图。

图8是关于第1音频数据及第2音频数据的音量调节进行说明的图。

图9是表示相机***的概略结构的框图。

图10是在记录动态图像数据及音频数据时由CPU实现的主要功能的框图。

图11是说明具体例的图。

图12是说明具体例的图。

图13是说明具体例的图。

图14是说明具体例的图。

具体实施方式

以下，根据附图对本发明所涉及的数据创建方法及数据创建程序的优选实施方式进行说明。

图1是概念性地表示使用本发明的数据创建方法的相机***的图。

构成相机***100的摄像装置1通过拍摄人物A及人物B的视频来获取动态图像数据。人物A拥有第1麦克风12，人物B拥有第2麦克风14。第1麦克风12及第2麦克风14通过无线与摄像装置1连接。

另外，在以下的说明中，对利用两个麦克风(第1麦克风12及第2麦克风14)的例子进行说明，但麦克风的数量并无特别限定，相机***100能够使用多个麦克风。并且，第1麦克风12及第2麦克风通过无线与摄像装置1连接，但也可以通过有线连接。

图2是表示相机***100的概略结构的框图。

相机***100由摄像装置1、第1麦克风12及第2麦克风14构成。

摄像装置1具备摄像部10、显示部16、存储部18、音频输出部20、操作部22、CPU(Central Processing Unit，中央处理器)24、ROM(Read Only Memory，只读存储器)26、RAM(Random Access Memory，随机存取存储器)28及第3无线通信部30等。并且，在摄像装置1，经由第1无线通信部12B及第3无线通信部30通过无线连接有第1麦克风12，并经由第2无线通信部14B及第3无线通信部30通过无线连接有第2麦克风14。

摄像部10拍摄视频来获取动态图像数据。摄像部10具备摄像光学***10A、摄像元件10B及图像信号处理部10C等。摄像光学***10A使被摄体的像成像于摄像元件10B的受光面上。摄像元件10B将通过摄像光学***10A成像于其受光面上的被摄体的像转换为电信号。图像信号处理部10C对从摄像元件10B输出的信号实施规定的信号处理来生成动态图像数据。

第1麦克风12收集人物A的音频(第1音频)。第1麦克风12具备第1音频信号处理部12A及第1无线通信部12B。第1音频信号处理部12A对来自麦克风的信号实施规定的信号处理来生成第1音频的第1音频数据。第1无线通信部12B根据按照Bluetooth(蓝牙，注册商标)的规格规定的通信方式将第1音频数据转换为无线信号，并且进行无线通信所需的处理，将其无线输出至摄像装置1。另外，无线通信方式并不特别限定于Bluetooth，还可采用其他方式。例如，作为无线通信方式可采用DECT(Digital Enhanced CordlessTelecommunication，数字增强型无绳电信设备)、无线LAN(Local Area Network，局域网)或Zigbee(紫蜂，注册商标)。另外，第2麦克风14具有与上述第1麦克风12相同的结构，因此省略说明。

显示部16实时显示与利用摄像部10获取的动态图像数据对应的视频。并且，显示部16显示要播放的视频。并且，显示部16根据需要显示操作画面、菜单画面及消息等。显示部16例如包含LCD(Liquid Crystal Display，液晶显示器)等显示器件及其驱动电路等而构成。

存储部18主要记录所获取的动态图像数据及音频数据。存储部18例如包含非易失性存储器等存储介质及其控制电路等而构成。

音频输出部20输出根据音频数据播放的音频。并且，音频输出部20根据需要输出警告音等。音频输出部20包含扬声器及对从该扬声器输出的音频的音频数据进行处理的数据处理电路等而构成。

操作部22接受来自用户的操作输入。操作部22包含录像按钮等各种操作按钮类、显示于显示部16的按钮类及其操作的检测电路等而构成。

CPU24通过执行规定的控制程序，作为整个装置的控制部发挥作用。CPU24根据用户的操作控制各部的动作，集中控制整个装置的动作。ROM26记录由CPU24执行的各种程序及控制所需的数据等。RAM28对CPU24提供工作用存储空间。

第3无线通信部30接收从第1无线通信部12B及第2无线通信部14B输出的无线信号，根据Bluetooth的规格对所接收的无线信号进行处理。摄像装置1经由第3无线通信部30获得第1音频数据及第2音频数据。

＜第1实施方式＞

对本发明的第1实施方式进行说明。在本实施方式中，根据从动态图像数据自动检测的被摄体的状态，对动态图像数据赋予与音频数据的音量调节相关的识别码。由此，在本实施方式中，在获取动态图像数据之后进行的编辑工作中，用户能够根据识别码进行音量调节，因此能够省去逐一确认图像的麻烦，能够有效地进行音频数据的音量调节。

图3是在记录动态图像数据及音频数据时由CPU实现的主要功能的框图。如图3所示，CPU24作为摄像控制部101、图像处理部102、第1音频录音部104及第2音频录音部106等发挥作用。

摄像控制部101控制基于摄像部10的拍摄。摄像控制部101根据从摄像部10获得的视频，以使其以适当的曝光拍摄视频的方式控制摄像部10。并且，摄像控制部101根据从摄像部10获得的视频，以焦点对焦于主要被摄体的方式控制摄像部10。

图像处理部102将利用摄像部10拍摄的视频实时输出至显示部16。由此，在显示部16显示实时取景。

图像处理部102具备关联建立部102A、第1检测部102B、赋予部102C及录像部102D。

关联建立部102A接受第1麦克风12与人物A的关联建立以及第2麦克风14与人物B的关联建立。关联建立的接受方法可采用各种方法。例如，进行第1麦克风12的关联建立时，在显示部16映现人物A并由用户触摸来选择人物A，由此进行第1麦克风12与人物A的关联建立。在此，关联建立是指例如预先设定为经由第1麦克风12收集人物A的音频。

第1检测部102B在通过摄像装置1拍摄视频的期间，自动检测被摄体的状态。第1检测部102B适用各种技术，使得能够通过图像处理识别被摄体的状态。例如，第1检测部102B利用脸部识别技术对动态图像数据进行图像处理，由此识别人物A及人物B是否正在发出声音的状态。

赋予部102C根据检测工序的结果，对动态图像数据赋予与各被摄体的音频数据的音量调节相关的识别码。所赋予的识别码在编辑动态图像数据时显示，用户能够确认识别码。

录像部102D通过将从摄像部10输出的动态图像数据记录于存储部18来进行录像。另外，动态图像数据可以以附加有通过赋予部102C赋予的识别码的状态记录，也可以是附加识别码之前的动态图像数据记录于存储部18。录像部102D根据来自用户的指示开始动态图像数据的记录。并且，根据来自用户的指示结束动态图像数据的记录。用户经由操作部22指示记录的开始及结束。

第1音频录音部104与动态图像数据同步地将从第1麦克风12输入的第1音频数据记录于存储部18。第1音频数据与动态图像数据建立关联而记录于存储部18。

第2音频录音部106与动态图像数据同步地将从第2麦克风14输入的第2音频数据记录于存储部18。第2音频数据与动态图像数据建立关联而记录于存储部18。

接着，对图1中说明的获取人物A及人物B的动态图像数据的具体例进行说明。

图4是说明使用相机***100实施的数据创建方法的流程图。

[关联建立工序]

在关联建立工序中，通过由用户触摸显示于摄像装置1的显示部16的人物A来指定，进行第1麦克风12与人物A的关联建立(步骤S10)。并且，由用户指定显示于摄像装置1的显示部16的人物B，进行第2麦克风14与人物B的关联建立(步骤S11)。

[录像工序]

在录像工序中，用户经由操作部22进行动态图像数据的记录开始(步骤S12)。之后，在摄像控制部101进行动态图像数据的继续记录的判定(步骤S20)，进行视频记录，直至由用户经由操作部22进行视频记录的中止指示。另一方面，若用户经由操作部22输入视频记录的中止指示，则动态图像数据的记录结束(步骤S21)。另外，在录像工序期间，进行以下说明的录音工序、检测工序及赋予工序。

[录音工序]

在录音工序中，利用第1麦克风12将人物A的第1音频数据录音在存储部18，并利用第2麦克风14将人物B的第2音频数据录音在存储部18(步骤S13)。

[检测工序]

在检测工序中，由第1检测部102B通过图像处理检测在动态图像数据中人物A正在发出声音(正在说话)的情况(步骤S14)。并且，在检测工序中，由第1检测部102B通过图像处理检测在动态图像数据中人物B正在发出声音(正在说话)的情况(步骤S15)。例如，第1检测部102B使用脸部识别技术识别人物A及人物B的脸部，通过分析人物A及人物B的嘴部图像来检测人物A及人物B是否正在说话。

[赋予工序]

在赋予工序中，人物A没有在说话时，通过赋予部102C对动态图像数据赋予使利用第1麦克风12收集的第1音频数据(图中，记载为第1MP)的音量相对减小的识别码(步骤S16)。另一方面，人物A正在说话时，对动态图像数据赋予使利用第1麦克风12收集的第1音频数据的音量相对增大的识别码(步骤S17)。并且，同样地，人物B没有在说话时，对动态图像数据赋予使利用第2麦克风14收集的第2音频数据(图中，记载为第2MP)的音量相对减小的识别码(步骤S18)，人物B正在说话时，赋予使利用第2麦克风14收集的第2音频数据的音量相对增大的识别码(步骤S19)。以下，对被赋予识别码的动态图像数据进行说明。

图5是说明被赋予识别码的动态图像数据的例子的图。

第1检测部102B检测出在动态图像数据中在t1至t2的期间人物A正在说话。并且，赋予部102C根据第1检测部102B的检测结果，对动态图像数据赋予增大第1麦克风12的音量的识别码“第1麦克风：大”(附图标记130)。并且，第1检测部102B检测出在动态图像数据中在t2至t3的期间人物B正在说话。并且，赋予部102C根据第1检测部102B的检测结果，赋予增大第2麦克风14的音量的识别码“第2麦克风：大”(附图标记132)。并且，第1检测部102B检测出在动态图像数据中在t3至t4的期间人物A正在说话。并且，赋予部102C根据第1检测部102B的检测结果，对动态图像数据赋予增大第1麦克风12的音量的识别码“第1麦克风：大”(附图标记134)。并且，也可以为了使第1麦克风12的音量相对增大，对动态图像赋予识别码“第2麦克风：小”，以此代替“第1麦克风：大”。另外，识别码并不限定于上述识别码，只要表示第1音频数据及第2音频数据的音量调节，则能够采用各种形式。例如，作为识别码，可以与“第1麦克风：大”一同附加减小第2音频数据的音量的“第2音频数据：小”。并且，作为识别码，可以附加标注了第1音频数据的音量级别的“第1音频数据：级别10”的识别码。另外，音量级别的数值越大，表示音量越大。

[视频的显示工序]

在视频的显示工序中，显示基于所记录的动态图像数据的视频(步骤S22)。基于动态图像数据的视频显示于与摄像装置1分开设置的计算机的监视器。例如，用户在监视器显示视频来进行视频的编辑工作。用户将视频显示于监视器，调节第1音频数据及第2音频数据的音量。另外，在摄像装置1的显示部16显示基于动态图像数据的视频来进行编辑工作时，可以将视频显示于显示部16来进行编辑。

[音量调节的接受工序]

在音量调节的接受工序中，接受基于用户的音频数据的音量调节(步骤S23)。具体而言，用户一边确认显示于监视器的动态图像数据及对动态图像数据赋予的识别码一边进行第1音频数据和/或第2音频数据的音量调节。例如，用户在确认到图5所示的被赋予识别码的动态图像数据时，在t1至t2的期间，将第1音频数据的音量级别设为10，并将第2音频数据的音量级别设为1，由此使第1音频数据的音量相对增大。并且，用户在t2至t3的期间，将第2音频数据的音量级别设为10，并将第1音频数据的音量级别设为1，由此使第2音频数据的音量相对增大。并且，用户在t3至t4的期间，将第1音频数据的音量级别设为10，并将第2音频数据的音量级别设为1，由此使第1音频数据的音量相对增大。

如以上说明，本实施方式的数据创建方法中，通过图像处理自动检测在动态图像数据中人物A及人物B是否正在说话，并根据其检测结果对动态图像数据赋予与音量调节相关的识别码。由此，用户能够在进行动态图像数据的编辑时确认识别码来调节第1音频数据及第2音频数据的音量，能够省去再次确认图像的麻烦，并能够有效地进行与人物A及人物B的状态相应的音量调节。

另外，在上述实施方式中，执行各种处理的处理部(processing unit)(图像处理部102、摄像控制部101、第1音频录音部104、第2音频录音部106)的硬件结构为如下示出的各种处理器(processor)。各种处理器中，包含执行软件(程序)来作为各种处理部而发挥作用的通用的处理器即CPU(中央处理单元，Central Processing Unit)、FPGA(现场可编程门阵列，Field Programmable Gate Array)等能够在制造之后变更电路结构的处理器即可编程逻辑器件(Programmable Logic Device：PLD)、具有ASIC(专用集成电路，ApplicationSpecific Integrated Circuit)等为了执行特定的处理而专门设计的电路结构的处理器即专用电路等。

1个处理部可以由这些各种处理器中的1个构成，也可以由相同种类或不同种类的2个以上的处理器(例如，多个FPGA、或者CPU与FPGA的组合)构成。并且，也可以由1个处理器构成多个处理部。作为由1个处理器构成多个处理部的例子，第1，有如客户机及服务器等计算机为代表，由1个以上的CPU和软件的组合构成1个处理器，该处理器作为多个处理部发挥作用的方式。第2，有如***芯片(System On Chip:SoC)等为代表，使用通过1个IC(集成电路，Integrated Circuit)芯片实现包含多个处理部的整个***的功能的处理器的方式。如此，各种处理部作为硬件结构利用上述各种处理器的1个以上来构成。

而且，作为这些各种处理器的硬件结构，更具体而言，是组合了半导体元件等电路元件的电路(circuitry)。

上述各结构及功能能够通过任意的硬件、软件或者两者的组合适当实现。例如，对使计算机执行上述处理步骤的程序、记录有这种程序的计算机可读取的记录介质(非暂时性记录介质)或者能够安装这种程序的计算机也能够适用本发明。

＜第2实施方式＞

接着，对本发明的第2实施方式进行说明。在本实施方式中，根据从动态图像数据自动检测的被摄体的状态，对与动态图像数据合成的音频数据进行音量调节。由此，在本实施方式中，能够有效地获得进行了与被摄体的状态相应的音量调节的带音频的动态图像数据。

图6是在记录动态图像数据及音频数据时由CPU实现的主要功能的框图。另外，对在图3中已经进行说明的部分，标注相同符号并省略说明。

如图6所示，CPU24作为摄像控制部101、图像处理部102、第1音频录音部104、第2音频录音部106、调节部108及合成部110等发挥作用。另外，本实施方式的图像处理部102具备关联建立部102A、第1检测部102B及录像部102D。

调节部108根据第1检测部102B的检测结果，自动调节记录于存储部18的第1音频数据和记录于存储部18的第2音频数据的音量。调节部108根据第1检测部102B的检测结果，将各音频数据调节为根据第1检测部102B的被摄体的状态预先设定的音量。另外，调节部108可以调节通过合成部110合成之前的音频数据的音量，也可以调节通过合成部110合成之后的音频数据的音量。

合成部110对记录于存储部18的动态图像数据和音频数据进行合成，生成带音频的动态图像数据。合成部110对动态图像数据和同步的音频数据进行合成，生成一个视频文件。通过合成部110生成的文件为视频文件形式，例如生成AVI、MP4、MOV形式的文件。

图7是说明使用相机***100实施的数据创建方法的流程图。在以下的说明中，对图1中说明的获取人物A及人物B的动态图像数据的具体例进行说明。另外，在图4中已经进行说明的关联建立工序、录像工序、录音工序、检测工序为相同的内容，因此简化了说明。

[关联建立工序]

在关联建立工序中，进行第1麦克风12与人物A以及第2麦克风14与人物B的关联建立(步骤S30及步骤S31)。

[录像工序]

在录像工序中，进行动态图像数据的记录，根据用户的指示结束动态图像数据的记录(步骤S32、步骤S41及步骤S42)。

[录音工序]

在录音工序中，第1音频数据及第2音频数据录音在存储部18(步骤S33)。

[检测工序]

在检测工序中，检测在动态图像数据中人物A是否正在说话(步骤S34)。并且，在检测工序中，检测在动态图像数据中人物B是否正在说话(步骤S35)。

[调节工序]

在调节工序中，人物A没有在说话时，通过调节部108减小第1音频数据的音量(步骤S36)，人物A正在说话时，通过调节部108增大第1音频数据的音量(步骤S37)。并且，同样地，人物B没有在说话时，减小第2音频数据的音量(步骤S38)，人物B正在说话时，增大第2音频数据的音量(步骤S39)。以下，关于音频数据的音量的自动调节进行具体说明。

在动态图像数据的t1至t2的期间，人物A正在说话，因此调节部108将第1音频数据的音量调节为级别10。另一方面，在动态图像数据的t1至t2的期间，人物B没有在说话，因此调节部108将第2音频数据的音量调节为级别1。并且，在动态图像数据的t2至t3的期间，人物A没有在说话，因此调节部108将第1音频数据的音量调节为级别1。另一方面，在动态图像数据的t2至t3的期间，人物B正在说话，因此调节部108将第2音频数据的音量调节为级别10。并且，在动态图像数据的t3至t4的期间，人物A正在说话，因此调节部108将第1音频数据的音量调节为级别10。另一方面，在动态图像数据的t3至t4的期间，人物B没有在说话，因此调节部108将第2音频数据的音量调节为级别1。另外，在上述说明中，关于记录于存储部18的第1音频数据及第2音频数据的音量的调节进行了说明，但本实施方式并不限定于该例。例如，也可以在第1音频数据及第2音频数据记录于存储部18之前进行调节。此时，在第1音频录音部104及第2音频录音部106设置调节部108。

[合成工序]

在合成工序中，通过合成部110进行已进行了音量调节的第1音频数据及第2音频数据和动态图像数据的合成(步骤S40)。例如，在合成部110中，对已进行了音量调节的第1音频数据及第2音频数据和动态图像数据进行合成，由此生成AVI形式的视频文件。

如以上说明，本实施方式的数据创建方法自动检测在动态图像数据中人物A及人物B是否正在说话，根据其检测结果调节音频数据的音量。由此，用户无需由用户手动进行音量调节就能够有效地获取根据动态图像数据的被摄体的状态调节了第1音频数据及第2音频数据的音量的带音频的动态图像数据。

接着，对本发明的变形例进行说明。在上述说明中，对根据被摄体(人物A及人物B)是否正在说话来进行音量调节的例子进行了说明。但是，本发明的适用并不限定于该例。以下，作为变形例，对根据被摄体的各种状态进行音量调节的情况进行说明。另外，以下说明的变形例适用于上述的对动态图像数据赋予识别码的方式(第1实施方式)及调节音频数据的音量的方式(第2实施方式)。

＜变形例1＞

对变形例1进行说明。在本例中，各被摄体具有位置检测***，从位置检测***检测各被摄体的位置。并且，根据检测出的各被摄体的位置，赋予调节音频数据的音量的识别码或调节音频数据的音量。

图9是表示相机***100的概略结构的框图。另外，对在图2中已经进行说明的部分，标注相同符号并省略说明。

第1麦克风12具备第1音频信号处理部12A、第1无线通信部12B及第1位置检测***12C。第1位置检测***12C检测第1麦克风12的位置。例如，第1位置检测***12C通过GPS(Global Positioning System)(全球定位***)检测第1麦克风12的位置。并且，人物A拥有第1麦克风12，因此第1位置检测***12C检测人物A的位置。通过第1位置检测***12C检测出的人物A的位置经由第1无线通信部12B及第3无线通信部30输入至摄像装置1。另外，第2麦克风14具有与上述第1麦克风12相同的结构，因此省略说明。

图10是在记录动态图像数据及音频数据时由CPU24实现的主要功能的框图。另外，对在图3中已经进行说明的部分，标注相同符号并省略说明。

如图10所示，CPU24作为摄像控制部101、图像处理部102、第1音频录音部104、第2音频录音部106及第2检测部112发挥作用。

第2检测部112从第1麦克风12获得与人物A的位置相关的信息，并从第2麦克风14获得与人物B的位置相关的信息。具体而言，第2检测部112获取通过第1麦克风12的第1位置检测***12C检测出的与人物A的位置相关的信息及通过第2麦克风14的第2位置检测***14C检测出的与人物B的位置相关的信息。并且，第2检测部112检测人物A与摄像装置1之间的距离、人物B与摄像装置1之间的距离。

赋予部102C根据第2检测部112的结果，对动态图像数据赋予与各被摄体的音频数据的音量调节相关的识别码。例如，赋予部102C根据人物A与摄像装置1之间的距离，赋予与第1音频数据的音量调节相关的识别码，并根据人物B与摄像装置1之间的距离，赋予与第2音频数据的音量调节相关的识别码。例如，人物A与摄像装置1之间的距离比距离α远时，赋予部102C赋予减小音量的识别码。并且，人物A与摄像装置1之间的距离在距离β以内时，赋予部102C赋予增大音量的识别码。并且，例如作为音频数据的调节，第1麦克风12及第2麦克风14也可以随着人物A(或人物B)与摄像装置1之间的距离变长而阶段性地减小音量。

如以上说明，在本例中，通过位置检测***获取与人物A及人物B的位置相关的信息，根据与该位置相关的信息，通过第2检测部112准确地检测出人物A及人物B的位置。并且，能够根据人物A及人物B的位置有效地进行音量的调节。

＜变形例2＞

接着，对变形例2进行说明。在变形例2中，根据被摄体所朝向的方向赋予识别码或进行音频数据的音量调节。

在本例中，第1检测部102B在动态图像数据中通过图像处理识别各被摄体所朝向的方向。例如，第1检测部102B使用脸部识别技术识别人物A及人物B所朝向的方向。并且，根据人物A及人物B所朝向的方向赋予识别码或调节音频数据的音量。例如，作为音频数据的调节，人物A朝向摄像装置1的方向(正面)时，增大第1音频数据的音量，人物A未朝向摄像装置1的方向时，减小第1音频数据的音量。

图11是说明本例的具体例的图。

在图11(A)所示的情况下，人物A相对于摄像装置1朝向正面。此时，通过第1检测部102B检测出人物A朝向正面，进行增大作为人物A的音频数据的第1音频数据的音量的音量调节。另一方面，在图11(B)所示的情况下，人物A相对于摄像装置1朝向侧面(未朝向正面)。此时，通过第1检测部102B检测出人物A朝向侧面，进行减小作为人物A的音频数据的第1音频数据的音量的音量调节。

如以上说明，在本例中，第1检测部102B检测被摄体所朝向的方向，根据被摄体所朝向的方向有效地进行音量调节。

＜变形例3＞

接着，对变形例3进行说明。在变形例3中，根据被摄体的距离赋予与音频数据的音量调节相关的识别码或进行音频数据的音量调节。

在本例中，第1检测部102B在动态图像数据中通过图像处理识别各被摄体与摄像装置1之间的距离。例如，第1检测部102B通过基于图像处理的被摄体距离的估计技术检测人物A及人物B与摄像装置1之间的距离。并且，根据人物A及人物B与摄像装置1之间的距离赋予识别码或调节音频数据。例如，作为音频数据的调节，人物A与摄像装置1之间的距离大于阈值γ时，减小第1音频数据的音量。

图12是说明本例的具体例的图。

在图12(A)所示的情况下，人物A位于阈值γ以内的位置。此时，通过第1检测部102B检测出人物A位于阈值γ以内的位置，进行增大作为人物A的音频数据的第1音频数据的音量的音量调节。另一方面，在图12(B)所示的情况下，人物A位于比阈值γ远的位置。此时，通过第1检测部102B检测出人物A位于比阈值γ远的位置，进行减小作为人物A的音频数据的第1音频数据的音量的音量调节。

如以上说明，在本例中，检测被摄体与摄像装置1之间的距离，根据被摄体与摄像装置1之间的距离有效地进行音量调节。

＜变形例4＞

接着，对变形例4进行说明。在变形例4中，根据被摄体是否存在于摄像装置1的视场角来赋予识别码或进行音频数据的音量的调节。

在本例中，第1检测部102B在动态图像数据中通过图像处理识别各被摄体是否存在于摄像装置1的视场角内。例如，第1检测部102B使用图像识别技术识别人物A及人物B是否存在于摄像装置1的视场角内。并且，根据人物A及人物B是否存在于视场角内来赋予识别码或调节音频数据。例如，作为音频数据的音量的调节，人物A映现在摄像装置1的视场角内时，增大第1音频数据的音量，人物A未映现在摄像装置1的视场角内时，减小第1音频数据的音量。

另外，关于摄像装置1的视场角，例如如日本特开2017-46355号公报，摄像装置1所拍摄的动态图像数据的视场角与实际存储于存储部18的动态图像数据的视场角不同时，是指存储于存储部18的动态图像数据的视场角。

图13是说明本例的具体例的图。

在图13所示的情况下，人物A位于摄像装置1的视场角151内，人物B位于视场角151外。此时，通过第1检测部102B检测出人物A位于视场角151内，进行增大作为人物A的音频数据的第1音频数据的音量的音量调节。另一方面，通过第1检测部102B检测出人物B不位于视场角151内，进行减小作为人物B的音频数据的第2音频数据的音量的音量调节。

如以上说明，在本例中，第1检测部102B检测被摄体是否存在于摄像装置1的视场角内，根据被摄体是否存在于视场角内来有效地进行音量调节。

＜变形例5＞

在本例中，摄像装置1或第1麦克风12及第2麦克风14记录立体声音频的音频数据。立体声音频包含人的左耳用音频和右耳用音频。第1检测部102B在动态图像数据中通过图像处理识别被摄体相对于摄像装置1的中心是存在于左侧还是存在于右侧，并赋予识别码或调节音频数据的音量。例如，作为音频数据的音量的调节，人物相对于摄像装置1存在于左侧时，相对增大左耳用音频数据的音量。另外，作为用于识别人物位置的方法，例如有使用图像识别技术的方法和如变形例1那样的利用GPS的方法。

图14是说明本例的具体例的图。

在图14(A)所示的情况下，人物A相对于摄像装置1的光轴M位于L侧。此时，通过第1检测部102B检测出人物A位于L侧，相对增大作为人物A的音频数据的第1音频数据中的左耳用音频数据。另一方面，在图14(B)所示的情况下，人物A相对于摄像装置1的光轴M位于R侧。此时，通过第1检测部102B检测出人物A位于R侧，相对增大作为人物A的音频数据的第1音频数据中的右耳用音频数据。

如以上说明，在本例中，第1检测部102B检测被摄体相对于摄像装置1存在于哪一侧，对左耳用音频数据和右耳用的音频数据的音量赋予差异，由此成为更具有临场感的带音频的动态图像数据。

第1麦克风12及第2麦克风14可以是移动电话或智能手机。此时，优选移动电话或智能手机具有对自身和摄像装置1进行无线连接的应用程序。

以上，对本发明的例子进行了说明，但本发明并不限定于上述实施方式，能够在不脱离本发明精神的范围内进行各种变形是理所当然的。

符号说明

1-摄像装置，10-摄像部，10A-摄像光学***，10B-摄像元件，10C-图像信号处理部，12-第1麦克风，12A-第1音频信号处理部，12B-第1无线通信部，12C-第1位置检测***，14-第2麦克风，14B-第2无线通信部，14C-第2位置检测***，16-显示部，18-存储部，20-音频输出部，22-操作部，24-CPU，26-ROM，28-RAM，30-第3无线通信部，100-相机***，101-摄像控制部，102-图像处理部，102A-关联建立部，102B-第1检测部，102C-赋予部，102D-录像部，104-第1音频录音部，106-第2音频录音部，112-第2检测部，A-人物，B-人物。

Claims

1.一种数据创建方法，其在具备摄像装置及与所述摄像装置连接的多个麦克风的相机***中使用，所述数据创建方法包含如下工序：

关联建立工序，对所述麦克风和拥有各所述麦克风的各被摄体建立关联；

录像工序，利用所述摄像装置对动态图像数据进行录像；

录音工序，与所述录像工序的开始同步地利用各所述麦克风分别对所述各被摄体的音频数据进行录音；

检测工序，在所述录像工序期间自动检测所述被摄体的状态；及

赋予工序，根据所述检测工序的结果，对所述动态图像数据赋予与所述各被摄体的所述音频数据的音量调节相关的识别码。

2.根据权利要求1所述的数据创建方法，其中，

在所述检测工序中，在所述动态图像数据中通过图像处理识别所述被摄体正在发出声音的状态，

在所述赋予工序中，对所述动态图像数据赋予使正在发出声音的所述被摄体的所述音频数据的音量相对于其他所述音频数据相对增大的所述识别码。

3.根据权利要求1或2所述的数据创建方法，其中，

在所述检测工序中，在所述动态图像数据中通过图像处理识别所述各被摄体所朝向的方向，

在所述赋予工序中，对所述动态图像数据赋予根据相对于所述摄像装置的所述各被摄体的脸部的方向调节所述音频数据的音量的所述识别码。

4.根据权利要求1至3中任一项所述的数据创建方法，其中，

在所述检测工序中，在所述动态图像数据中通过图像处理识别所述各被摄体与所述摄像装置之间的距离，

所述赋予工序中，对所述动态图像数据赋予根据所述各被摄体的所述距离调节所述音频数据的音量的所述识别码。

5.根据权利要求1至4中任一项所述的数据创建方法，其中，

在所述检测工序中，在所述动态图像数据中通过图像处理识别所述各被摄体是否存在于所述摄像装置的视场角内，

在所述赋予工序中，对所述动态图像数据赋予根据所述被摄体是否存在于所述摄像装置的视场角内来调节所述音频数据的音量的所述识别码。

6.根据权利要求1至5中任一项所述的数据创建方法，其包含：

位置获取工序，从所述多个被摄体的每一个被摄体所具有的位置检测***获取所述多个被摄体的每一个被摄体的位置，

所述检测工序检测通过所述位置获取工序获得的所述多个被摄体的每一个被摄体的位置，

在所述赋予工序中，根据所述检测工序的结果，对所述动态图像数据赋予与所述各被摄体的所述音频数据的音量调节相关的所述识别码。

7.根据权利要求1至6中任一项所述的数据创建方法，其中，

在所述赋予工序之后，包含接受基于用户的所述音频数据的音量调节的接受工序。

8.一种数据创建方法，其在具备摄像装置及与所述摄像装置连接的多个麦克风的相机***中使用，所述数据创建方法包含如下工序：

录像工序，利用所述摄像装置对动态图像数据进行录像；

合成工序，对所述音频数据和所述动态图像数据进行合成；及

调节工序，根据所述检测工序的结果，在所述合成工序之前或之后，自动调节所述各被摄体的所述音频数据的音量。

9.根据权利要求8所述的数据创建方法，其中，

在所述调节工序中，使正在发出声音的所述被摄体的所述音频数据的音量相对于其他所述音频数据相对增大。

10.根据权利要求8或9所述的数据创建方法，其中，

在所述调节工序中，根据相对于所述摄像装置的所述各被摄体的脸部的方向调节所述音频数据的音量。

11.根据权利要求8至10中任一项所述的数据创建方法，其中，

在所述调节工序中，根据所述各被摄体的所述距离调节所述音频数据的音量。

12.根据权利要求8至11中任一项所述的数据创建方法，其中，

在所述调节工序中，根据所述被摄体是否存在于所述摄像装置的视场角内来调节所述音频数据的音量。

13.根据权利要求8至12中任一项所述的数据创建方法，其包含：

在所述调节工序中，根据所述位置获取工序的结果及所述检测工序的结果，进行所述各被摄体的所述音频数据的音量的调节。

14.一种数据创建程序，其在具备摄像装置及与所述摄像装置连接的多个麦克风的相机***中使用，所述数据创建程序包含如下工序：

录像工序，利用所述摄像装置对动态图像数据进行录像；

检测工序，在所述录像工序期间，从所述动态图像数据自动检测所述被摄体的状态；及

15.一种记录介质，其为非临时性且计算机可读取的记录介质，其中，

通过计算机读取存储于所述记录介质的指令时，使计算机执行权利要求14所述的程序。

16.一种数据创建程序，其在具备摄像装置及与所述摄像装置连接的多个麦克风的相机***中使用，所述数据创建程序包含如下工序：

录像工序，利用所述摄像装置对动态图像数据进行录像；

17.一种记录介质，其为非临时性且计算机可读取的记录介质，其中，

通过计算机读取到存储于所述记录介质的指令时，使计算机执行权利要求16所述的图像处理程序。