CN116504206A

CN116504206A - 一种识别环境并生成音乐的摄像头

Info

Publication number: CN116504206A
Application number: CN202310264005.4A
Authority: CN
Inventors: 孙鸣
Original assignee: Shenzhen Wolf Vision Technology Co ltd
Current assignee: Shenzhen Wolf Vision Technology Co ltd
Priority date: 2023-03-18
Filing date: 2023-03-18
Publication date: 2023-07-28
Anticipated expiration: 2043-03-18
Also published as: CN116504206B

Abstract

本发明涉及一种识别环境并生成音乐的摄像头，包括摄像模块、扬声器、场景分析模块、情绪识别模块和音乐生成模块，当通过摄像模块获取到用户表情图像时，则通过情绪识别模块获得用户的情绪特征，则通过数据库检索标签为对应情绪特征的音乐片段，将音乐片段数据输入音乐生成模型，通过音乐生成模型生成对应情绪特征的音乐并向扬声器输出；本发明通过摄像头获取周围环境图像和人脸图像，并可以根据周边环境和用户情绪生成对应风格的背景旋律，同时还可以根据表情变化切换不同风格的音乐，让人们在面对生活或者工作压力时可以便捷的体验音乐减压治疗，缓解压力。

Description

一种识别环境并生成音乐的摄像头

技术领域

本发明涉及音乐生成技术领域，更具体地说，涉及一种识别环境并生成音乐的摄像头。

背景技术

音乐对人的身心有着潜移默化影响，伴随着互联网与云音乐的发展与进步，音乐在人们的日常生活中所占用的时间越来越多，并默默地调节着人们的身心健康。在平时生活中我们可以深刻的感受到音乐的作用。合适场合听合适的音乐也可以让人们的身心得到极大的舒展，如在情绪低落时听激情澎拜的交响乐可以使人们低落的心情得到一定的释放，在心情烦躁时听轻音乐也可以让人们烦躁的心情得到一定的平抚。为了缓解压力，也为了营造舒适，积极向上的环境氛围，工厂、企业及商场会通过广播播放音乐遮蔽环境噪音，创造轻松舒适的环境。但是目前背景音乐控制***只能通过随机选择曲目，不能根据人的心情自动调节音量，选择曲目，改变音效，无法和人的心情相匹配，缺乏人性化，同时音乐重复也容易导致乏味，不利于舒缓压力。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种识别环境并生成音乐的摄像头。

本发明解决其技术问题所采用的技术方案是：

构造一种识别环境并生成音乐的摄像头，包括摄像模块、扬声器、场景分析模块、情绪识别模块和音乐生成模块；

所述摄像模块，包括角度调节机构，和设置在角度调节结构上的摄像头，所述摄像头通过角度调节机构获取多角度环境图像，并将图像传送至情绪识别模块和场景分析模块；

所述情绪识别模块，用于检测环境图像中是否存在人脸，若存在，则通过表情识别技术来识别用户的面部表情，获取与面部表情对应的情绪特征，并将结果输送到音乐生成模块；

所述场景分析模块，用于通过互联网获取场景特征，并将场景特征输送到音乐生成模块，所述场景特征包括天气特征和时间段特征，所述时间段特征包括夜晚、早晨、中午、下午和黄昏；

所述音乐生成模块，包括音乐数据库和音乐生成模型，所述音乐数据库储存有多个音乐片段，所述音乐片段标注有对应场景特征或情绪特征的风格标签，用于随机选择多个对应场景特征或情绪特征的风格标签的音乐片段，将音乐片段转换为矩阵，将矩阵输入音乐生成模型生成对应风格的背景旋律；

所述音乐生成模型为深度信念网络模型，所述深度信念网络模型包括输入层、隐含层和输出层，所述隐含层设置有五层，第一层隐含层到第三层隐含层的节点数量依次减少，第四层隐含层的节点数与第二层隐含层的节点数相同，第五层隐含层的节点数与第一层隐含层的节点数相同；每一隐含层均从其前方的隐含层接收数据，并输出到其后方的隐含层；所述音乐生成模型输出二进制矩阵，将二进制矩阵转换为音乐并输出到扬声器；所述二进制矩阵中每列代表一个音长，每行代表一个音高；

所述扬声器，用于播放音乐生成模块生成的背景旋律。

优选的，情绪识别模块内设有表情识别模型，所述表情识别模型的训练方法包括预处理步骤，深度特征学习步骤和深度特征分类步骤；其中，

预处理步骤包括：通过人脸检测器检测人脸，并删除背景和非人脸区域，获得面部图像，并对面部图像进行对齐处理；从面部图像的四个角和中心随机裁剪，然后水平翻转；再对面部图像进行照明归一化和姿势归一化处理；

所述深度学***均池化，最后通过全连接层使2D特征图转换为1D特征图并输出；获得所述人脸的全局特征，根据人脸的全局特征，训练所述表情识别模型的模型参数，得到表情识别模型；

所述深度特征分类步骤包括：对参数学习完成后的表情识别模型，加入SoftMax分类算法，通过SoftMax分类算法计算人脸图像属于各个表情的概率值，并将其中概率值最大的一个情绪类别判定为该人脸图像的情绪；情绪特征分为愤怒、厌恶、恐惧、快乐、悲伤、惊喜和中立七种。

优选的，所述对齐处理步骤包括：将已经被检测到面部标准化为48*48的大小，使得面部的眼间距达到预设值，并且双眼位于预设的的垂直坐标。

优选的，所述音乐片段以MIDI文件的形式保存在音乐数据库中，MIDI文件中的音乐信息以的矩阵形式提取出来，从MIDI文件提取出的矩阵为二进制矩阵，以二维散点图的形式保存，矩阵中每列代表一个16分音符的音值，每行代表一个音高。

优选的，所述可见层为受限玻尔兹曼机的输入层，隐含层为受限玻尔兹曼机的特征提取层，第二层隐含层的节点数为第一层隐含层的四分之一，第三层隐含层的节点数为第二层隐含层的四分之一。

优选的，所述音乐生成模块将愤怒、厌恶、恐惧和悲伤表情划分为负面情绪，将快乐、惊喜划分为正面情绪，将中立划分为正常情绪；当识别的情绪所属正面情绪时，扬声器将输出的音量提高4-5db，重低音和高音均提高2-3db，并开启环绕声；当识别的情绪所属正常情绪时，扬声器将输出的音量调节至45-50db，重低音调节至22-25db，高音调节至18-21db，并开启环绕声；当识别的情绪所属负面情绪时，扬声器将输出的音量降低5-6db，关闭重低音，高音降低2-3db，关闭环绕声。

优选的，还包括雷达模块和拾音器，所述雷达模块包括微波雷达和激光雷达，所述激光雷达用于检测预设范围内是否存在人员目标，并获取人员目标的移动速度；所述微波雷达获取所述目标人员的微动信号，根据微动信号筛选出心跳信号，获取人员心跳信息；所述拾音器用于采集环境声音并将采集的声音信息传输至场景分析模块。

优选的，所述场景分析模块还用于识别声音信息中的背景音，同时识别环境图像中的多个物体并获取对应物体的名称，所述场景分析模块内设有场景数据库，所述场景数据库内储存有对应物体的文字，和对应背景音的文字；所述场景分析模块将对应物体的文字，和对应背景音的文字拼接形成场景文字，并获取场景文字中的每个文字的音节，并按照每个文字在场景语音中的顺序排列文字的音节，所述音乐生成模块将背景旋律中的每个音符与场景语音中的每个文字的音节依序对应；所述音乐生成模块将文字的音节的音长做拉伸或者压缩处理，使得文字的音节的音长与对应的音符的音长相同，将汉字的音节进行变音处理，并与音乐生成模块生成的背景旋律进行混音。

优选的，所述场景分析模块还用于获取一段时间内人员目标的移动速度变化和声音信息响度变化，并分析该段时间内环境图像中的亮度值，所述场景数据库内储存有运动速度与音高对照表、背景噪声响度与音长对照表和亮度与音色对照表，若雷达模块检测到人员目标存在，则场景分析模块通过人员目标的运动速度变化获得对应音高变化，通过背景噪声响度获得对应的音长变化，通过亮度值化获得对应的音色，再将音高、音长和音色拼接成为一个完整的乐谱，并将乐谱转换为音乐。

本发明的有益效果在于：将本申请的摄像模块设置在商场、工厂及公园等公共场所，通过摄像模块获取环境图像，并将环境图像传输至情绪识别模块，情绪识别模块检测环境图像中是否存在人脸，若存在人脸，则通过表情识别技术来识别用户的面部表情，获取与面部表情对应的情绪特征，若识别到情绪特征为负面情绪或正面情绪，则将情绪特征传输至音乐生成模块，若识别到的情绪特征为正常情绪或未识别到人脸，则通过场景分析模块获取时间段特征和天气特征将其传输至音乐生成模块；根据情绪特征或场景特征获取对应的音乐片段，一一将音乐片段的转化为二进制矩阵并分别将其输入音乐生成模型，音乐生成模型根据输入的数据生成音乐并将其传输至扬声器，扬声器播放音乐生成模块生成的背景旋律；本发明通过摄像头获取周围环境图像和人脸图像，并可以根据周边环境和用户情绪生成对应风格的背景旋律，同时还可以根据表情变化切换不同风格的音乐，让人们在面对生活或者工作压力时可以便捷的体验音乐减压治疗，缓解压力；根据识别的表情结果生成适合用户的音乐，可用于医疗方面如心理诊疗，使病人情绪放松，提高治疗效果；或应用于商场、饭店等公共场所的音乐选择，提高顾客消费体验；还可以缓解工业园区噪音污染，显著降低噪音对人群健康的不良影响，同时实现降低工作压力的作用，具有调节心情的功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图及实施例对本发明作进一步说明，下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图：

图1是本发明较佳实施例的识别环境并生成音乐的摄像头的结构框图；

图2是本发明较佳实施例的识别环境并生成音乐的摄像头的音乐生成模型示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明较佳实施例的识别环境并生成音乐的摄像头，如图1所示，包括摄像模块、扬声器、场景分析模块、情绪识别模块和音乐生成模块；

摄像模块，包括角度调节机构，和设置在角度调节结构上的摄像头，摄像头通过角度调节机构获取多角度环境图像，并将图像传送至情绪识别模块和场景分析模块；摄像头通过角度调节机构一次获取多张角度不同环境图像，可以获取多次，多次时间间隔可以自由设置，本实施例优选为30分钟一次；角度调节机构具体为电动机械臂；

情绪识别模块，用于检测环境图像中是否存在人脸，若存在，则通过表情识别技术来识别用户的面部表情，获取与面部表情对应的情绪特征，并将结果输送到音乐生成模块；获取的表情为愤怒、厌恶、恐惧、快乐、悲伤、惊喜和中立中的一种，将愤怒、厌恶、恐惧和悲伤表情划分为负面情绪，将快乐、惊喜划分为正面情绪，将中立划分为正常情绪；

场景分析模块，用于通过互联网获取场景特征，并将场景特征输送到音乐生成模块，场景特征包括天气特征和时间段特征，时间段特征包括夜晚、早晨、中午、下午和黄昏；天气特征包括晴朗、小雨、大雨、多云和大雾；

音乐生成模块，包括音乐数据库和音乐生成模型，音乐数据库储存有多个音乐片段，音乐片段标注有对应场景特征或情绪特征的风格标签，用于随机选择多个对应场景特征或情绪特征的风格标签的音乐片段，将音乐片段转换为矩阵，将矩阵输入音乐生成模型生成对应风格的背景旋律；

音乐生成模型为深度信念网络模型，深度信念网络模型包括输入层、隐含层和输出层，隐含层设置有五层，第一层隐含层到第三层隐含层的节点数量依次减少，第四层隐含层的节点数与第二层隐含层的节点数相同，第五层隐含层的节点数与第一层隐含层的节点数相同；每一隐含层均从其前方的隐含层接收数据，并输出到其后方的隐含层；音乐生成模型输出二进制矩阵，将二进制矩阵转换为音乐并输出到扬声器；二进制矩阵中每列代表一个音长，每行代表一个音高；

扬声器，用于播放音乐生成模块生成的背景旋律。

在工厂等环境的人员压力较大，在工作之余往往需要放松，通过音乐舒缓压力是行之有效的方式，现有的广播当在音乐播放过程中选择随机功能的情况下，从存储于所述外置存储器的数百首MP3音乐中随机选择播放音乐，但由于所述随机播放的音乐根本没有考虑到用户的心情或爱好，只是单纯地从存储于所述外置存储器中选择播放任意一首MP3音乐，因此若播放的该音乐不符合用户爱好，则不利于缓解压力，反而心情低落，影响其工作效率和身心健康。本发明的识别环境并生成音乐的摄像头，可以通过摄像头获取周围的环境图像，并将环境图像传输至情绪识别模块，用于检测环境图像中是否存在人脸，并对人脸的表情进行识别，针对不同的表情生成不同风格的音乐。用户可以通过人脸识别***录入自身人脸并关联自身喜欢的音乐，当通过摄像头是被到对应的用户时，从与该用户关联的音乐中选取片段，将其输入音乐生成模块，通过音乐生成模型生成相同风格的音乐，可以避免用户对音乐重复的乏味。摄像头可以对用户进行面部情绪的准确检测，并且表情检测应该是实时的，对于音乐生成模型生成的音乐，可以在音乐的节拍、节奏等方面上进行调制，可以趋于缓慢从而引导用户平静下来；也可使节奏适当加快，让用户适度提高心跳变得兴奋愉悦(节奏的加快有上限阈值，不能高于一定的心跳速率，否则不利于健康)。

将本申请的摄像模块设置在室内，通过摄像模块获取环境图像，并将环境图像传输至情绪识别模块，情绪识别模块检测环境图像中是否存在人脸，若存在人脸，则通过表情识别技术来识别用户的面部表情，获取与面部表情对应的情绪特征，若识别到情绪特征为负面情绪或正面情绪，则将情绪特征传输至音乐生成模块，若识别到的情绪特征为正常情绪或未识别到人脸，则通过场景分析模块获取时间段特征和天气特征将其传输至音乐生成模块；

举例而言，若情绪识别模块检测到环境图像中不存在人脸，然后场景分析模块获取到的天气特征为晴天，获取的时间段特征为早晨，则通过数据库检索标签为晴天以及标签为早晨的音乐片段，并从中选取多个音乐片段，可选数量为12-36个，本实施例优选20个音乐片段，一一将音乐片段的转化为二进制矩阵并分别将其输入音乐生成模型，音乐生成模型根据输入的数据生成音乐并将其传输至扬声器，扬声器播放音乐生成模块生成的背景旋律；本发明通过摄像头获取周围环境图像和人脸图像，并可以根据周边环境和用户情绪生成对应风格的背景旋律，同时还可以根据表情变化切换不同风格的音乐，让人们在面对生活或者工作压力时可以便捷的体验音乐减压治疗，缓解压力。

本申请也可以设置室外或门口，具体可以设置在公园和广场等休闲公共场所，在室外可以摄像模块通过角度调节机构获取多个角度的环境图像，通过表情检测模块检测环境图像中的多个人脸，并对多个人脸分别进行表情识别，判定表情出现的次数最多，则将该情绪特征发送音乐生成模块，音乐生成模块生成对应该情绪特征的音乐，并通过扬声器播放，可以让过路的人放松压力。

如图2所示，本实施例的音乐生成模型的输入层为受限玻尔兹曼机(RBM)的输入层，隐含层为受限玻尔兹曼机的特征提取层；音乐生成模型初始包括一个输入层、一个隐含层和一个输出层，通过受限玻尔兹曼机对输入层进行训练，然后保留编码部分做为新的隐含层(即第一层隐含层)，并在输出层和隐含层间建立一个新的隐含层(即第五层隐含层)，第五层隐含层的权重初始化为第一层隐含层的权重，进一步的，对第一层隐含层进行受限玻尔兹曼机训练，同样保留编码部分做为新的隐含层(即第二层隐含层)，并在输出层和隐含层间添加一个新的隐含层(即第四层隐含层)，第四层隐含层的权重初始化为第二层隐含层的权重，初始存在的隐含层为第三层隐含层，添加所有层后，在整个深度信念网络上运行反向传播来微调参数；

所述音乐片段以MIDI文件的形式保存在数据库中，MIDI文件中的音乐信息以(时间，音高)的矩阵形式提取出来，并以稀疏矩阵的形式来保存到npz文件中。pretty_midi库提供了在每一个音轨中遍历音符(Note)，并得到每个音符的音高(pitch)，音符开始时间(note_on)和音符结束时间(note_off)，将开始和结束时间分别除以十六分音符的长度(60秒/120BPM/4)，就可以得到开始和结束的时间在矩阵中对应的位置。

从MIDI文件提取出的矩阵为二进制矩阵，以二维散点图的形式保存，二进制矩阵中每列代表一个16分音符的音值，每行代表一个音高。图中1和0表示特定时间音符的存在和不存在。

可见层为受限玻尔兹曼机的输入层，隐含层为受限玻尔兹曼机的特征提取层，第二层隐含层的节点数为第一层隐含层的四分之一，第三层隐含层的节点数为第二层隐含层的四分之一；输出的数据为二进制矩阵，其中每列代表一个16分音符的音值，每行代表一个音高。1和0表示特定时间音符的存在和不存在，将二进制矩阵转换为音乐并向扬声器输出，第一隐含层的节点数为1024，第二隐含层节点数为256，第三隐含层节点数为16。

如图1所示，情绪识别模块内设有表情识别模型，所述表情识别模型的训练方法包括预处理步骤，深度特征学习步骤和深度特征分类步骤；其中，

对齐处理步骤包括：将已经被检测到面部标准化为48*48的大小，使得面部的眼间距达到预设值，并且双眼位于预设的垂直坐标。

音乐生成模块通过大数据确定对应情绪的音乐风格，音乐数据库内储存的音乐片段标注有对应的音乐风格；在音乐播放达到预设时间后，通过摄像头再次对人脸表情再次进行采集，并通过情绪识别模块获取人员情绪，将前后情绪进行对比分析；在检测到用户的情绪为正面情绪或负面情绪时，摄像模块获取环境图像的频次不再为30分钟一次，而是改为3分钟一次，以便于实时获取人员情绪，并根据情绪变化调整对应的音乐。

情绪识别模块连接有抑郁检测模块，用于对长期处于负面情绪的人员进行进一步的抑郁检测，由人脸情绪识别模块得到的七种情绪的情绪分值，进一步地引入正负中性视频引导，对用户的情绪反馈特征进行具体分析，将正性负性中性引导的反馈分开对其分别从平稳性，变化性，灵敏性三个角度分析，再通过心理学统计正负中性材料对人群的影响程度附上对应权重结合得到抑郁指标量化分数，对得到的分数进行分布分析，基于大数据的情况下，以分布集中的值为基准，并在此分值之上增加两个阈值划分为三种不同的抑郁程度，分别为正常抑郁，轻度抑郁，重度抑郁。正常抑郁则代表用户的压力程度正常，轻度抑郁则代表用户压力程度较大，重度抑郁则代表用户的压力程度很大。音乐库中的音乐片段的风格标签包括正常抑郁，轻度抑郁，重度抑郁，抑郁检测模块检测到人员的抑郁程度传输至音乐生成模块，音乐生成模块通过音乐库获取对应风格标签的音乐，并从中选取多个音乐片段，一一将音乐片段的转化为二进制矩阵并分别将其输入音乐生成模型，音乐生成模型根据输入的数据生成音乐并将其传输至扬声器，扬声器播放音乐生成模块生成的背景旋律。

音乐生成模块还可以设置为另一结构，具体包括乐曲预测模型和预设动机旋律模型，基于所述乐曲预测模型和预设动机旋律模型，生成第一声部音高序列和第一声部时值序列；所述预设动机旋律模型是基于所述MIDI数据集所属的乐曲风格类型和马尔科夫模型得到的能够生成动机旋律规则的模型；

基于所述第一声部音高序列和所述第一声部时值序列进行曲线拟合，得到第二声部音高序列和第二声部时值序列；

将所述第一声部音高序列、所述第一声部时值序列、所述第二声部音高序列及所述第二声部时值序列进行合成，得到二声部作曲旋律。

获取目标音频文件，并确定针对所述目标音频文件的音乐特征序列；其中，所述音乐特征序列包括多个音乐特征片段；

对预设MIDI数据集进行升采样编码，得到MIDI数据升采样序列；所述预设MIDI数据集包括若干段预设风格乐曲；

获取所述隐马尔可夫模型输出针对所述音乐特征序列的环境数据序列；

其中，所述隐马尔可夫模型采用如下方式生成针对所述音乐特征序列的环境数据序列：在第N个音乐特征片段时，确定所述动画状态转移关系中每个动作节点对应的最小代价及所述最小代价对应的最小代价路径；其中，N为大于1的正整数，所述最小代价路径包括一个或多个动作节点；

在所述第N个音乐特征片段为最后一个音乐特征片段时，比较每个动作节点对应的最小代价，得到目标动作节点；

采用所述目标动作节点对应的最小代价路径，生成针对所述音乐特征序列的环境数据序列。

音乐生成模块将愤怒、厌恶、恐惧和悲伤表情划分为负面情绪，将快乐、惊喜划分为正面情绪，将中立划分为正常情绪；当识别的情绪所属正面情绪时，扬声器将输出的音量提高4-5db，重低音和高音均提高2-3db，并开启环绕声；当识别的情绪所属正常情绪时，扬声器将输出的音量调节至45-50db，重低音调节至22-25db，高音调节至18-21db，并开启环绕声；当识别的情绪所属负面情绪时，扬声器将输出的音量降低5-6db，关闭重低音，高音降低2-3db，关闭环绕声。

本实施例还包括雷达模块和拾音器，雷达模块包括微波雷达和激光雷达，激光雷达用于检测预设范围内是否存在人员目标，并获取人员目标的移动速度；微波雷达获取目标人员的微动信号，根据微动信号筛选出心跳信号，获取人员心跳信息；拾音器用于采集环境声音并将采集的声音信息传输至场景分析模块；根据微动信号筛选出心跳信号，并绘制心率曲线图，若检测到人员的表情为愤怒、恐惧和惊喜，则通过心跳信号判断人员心跳频率是否超过预设值，若未超过，则判断人员的情绪为正常情绪，若超过，则判断表情为愤怒、恐惧的人员处于负面情绪，判断表情为惊喜的人员处于正面情绪。

场景分析模块还用于识别声音信息中的背景音，所述背景音包括风声、雨声、笑声和哭声等；同时识别环境图像中的多个物体并获取对应物体的名称，物体可以包括树木、草坪、桌椅、路灯、门窗和楼房等，场景分析模块内设有场景数据库，场景数据库内储存有对应物体的文字(该文字为与该物体相关的文章)，和对应背景音的文字(该文字为对与背景音相关的文章)；场景分析模块将对应物体的文字，和对应背景音的文字拼接形成场景文字，并获取场景文字中的每个文字的音节，并按照每个文字在场景语音中的顺序排列文字的音节，音乐生成模块将背景旋律中的每个音符与场景语音中的每个文字的音节依序对应；音乐生成模块将文字的音节的音长做拉伸或者压缩处理，使得文字的音节的音长与对应的音符的音长相同，将汉字的音节进行变音处理，并与音乐生成模块生成的背景旋律进行混音。通过将场景转换为汉字，再将汉字音节与音乐生成模块生成的背景旋律的音符对应，将音乐生成模块生成的背景旋律和场景、人员通过细节对应，加强了最终生成的乐谱与场景、人员之间的关联关系，为行人提供更深的音乐沉浸感。

根据音乐生成模块生成的背景旋律，确定每个音节的音节时长；所述每个音节与所述每个文字一一对应；所述每个音节至少包括一个音素；根据每个音节时长，确定所述每个音节中每个音素的音素时长；所述每个文字的发音时长为所述每个文字的全部音素时长；可以理解的是，每个音节由音素组成，音素是最小的语音单位。例如：音节“feng”由音素“f”和音素“eng”组成。每个音节至少包括一个音素。可以预先训练一个用于预测模型，通过该预设时长预测模型，可以根据每个音节时长，确定出每个音节中每个音素的音素时长，可以对每个音素的音素时长做拉伸或者压缩处理。根据每个音素的音素时长，可以得到每个文字的发音时间。例如，音节“feng”的音节时长是80ms，通过预设的预测模型，可以得到音素“f”的音素时长是30ms，音素“eng”的音素时长是50ms。

若从背景音中识别到风声，则从书库中获取与风相关的文章，如获取的文字第一句是“风急天高猿啸哀”，其对应的音节是“feng/ji/tian/gao/yuan/xiao/ai”。根据每个背景旋律的对应音符的演唱时长，确定出对应文字的音节的时长，对于音素时长做拉伸或者压缩处理是通过改变末尾因素实现的，举例而言，若文字背景旋律的音符的演唱时长为90ms，对应的音节“feng”的音节时长为80ms，则因素“f”的音素时长是30ms，音素“eng”的音素时长是60ms，以此使场景文字和背景旋律一一对应。

所述场景分析模块还用于获取一段时间内人员目标的移动速度变化和声音信息响度变化，并分析该段时间内环境图像中的亮度值，所述场景数据库内储存有运动速度与音高对照表、背景噪声响度与音长对照表和亮度与音色对照表，获取人员运动速度、背景噪声响度的间隔为20ms/次，获取亮度的间隔为2小时/次，若雷达模块检测到人员目标存在，则场景分析模块通过人员目标的运动速度变化获得对应音高变化，通过背景噪声响度获得对应的音长变化，通过亮度值化获得对应的音色，再将音高、音长和音色拼接成为一个完整的乐谱，并将乐谱转换为音乐，将乐谱和场景、人员通过细节对应，加强了最终生成的乐谱与场景、人员之间的关联关系，为行人提供更深的音乐沉浸感。

当场景分析模块检测到一个以上的人员目标速度达到1m/s且移动时间超过预设值(具体可以设定为2分钟以上)，则获取该段时间内背景噪声响度变化，根据数据库内的对照表获取运动速度对应的音高，背景噪声响度对应的音长，通过亮度值化获得对应的音色，具体对照表如下：

当亮度值为1-100nit，则音色为风琴音色，当亮度值为100-1000nit，则音色为吉他音色，当亮度值为1000-2000nit，则音色为吉他音色，当亮度值为2000-5000nit，则音色为吹管音色，当亮度值为5000nit以上，则音色为合成主音音色。

雷达检测人员目标的移动速度范围为1m/s-5m/s，其对应的音高范围1kz-3khz。

背景噪声响度为2-20db，音长包括全音符、二分音符、四分音符、八分音符、十六分音符、三十二分音符，若背景噪声响度为2-5db，则音长为全音符，背景噪声响度为6-8db，则音长为二分音符，背景噪声响度为9-11db，则音长为四分音符，背景噪声响度为12-14db，则音长为八分音符，背景噪声响度为15-17db，则音长为十六分音符，背景噪声响度为18-20db，则音长为三十二分音符。

乐谱转换为音乐，将乐谱和场景、人员通过细节对应，加强了最终生成的乐谱与场景、人员之间的关联关系，为摄像头场景下人员提供更深的音乐沉浸感，将音乐的乐谱和环境因素都拆分为细粒度的元素之后再进行对应，在保证根据环境因素能够成功生成对应乐谱的情况下，确保了乐谱的变化性，避免生成乐谱较多时，乐谱可能重复的问题；并且将用户行动速度和音乐的创作过程相结合，提升用户的使用体验，提升用户的参与感，特别适用于在公共场所放松心情，大自然声音、音乐、人类声音、动物鸣叫声音、鸟声及流水声来配合音乐生成，使得场景中的人员享受的个人强烈氛围效果。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种识别环境并生成音乐的摄像头，其特征在于，包括摄像模块、扬声器、场景分析模块、情绪识别模块和音乐生成模块；

所述扬声器，用于播放音乐生成模块生成的背景旋律。

2.根据权利要求1所述的识别环境并生成音乐的摄像头，其特征在于，还包括雷达模块和拾音器，所述雷达模块包括微波雷达和激光雷达，所述激光雷达用于检测预设范围内是否存在人员目标，并获取人员目标的移动速度；所述微波雷达获取所述目标人员的微动信号，根据微动信号筛选出心跳信号，获取人员心跳信息；所述拾音器用于采集环境声音并将采集的声音信息传输至场景分析模块。

3.根据权利要求1所述的识别环境并生成音乐的摄像头，其特征在于，所述场景分析模块还用于识别声音信息中的背景音，同时识别环境图像中的多个物体并获取对应物体的名称，所述场景分析模块内设有场景数据库，所述场景数据库内储存有对应物体的文字，和对应背景音的文字；所述场景分析模块将对应物体的文字，和对应背景音的文字拼接形成场景文字，并获取场景文字中的每个文字的音节，并按照每个文字在场景语音中的顺序排列文字的音节，所述音乐生成模块将背景旋律中的每个音符与场景语音中的每个文字的音节依序对应；所述音乐生成模块将文字的音节的音长做拉伸或者压缩处理，使得文字的音节的音长与对应的音符的音长相同，将汉字的音节进行变音处理，并与音乐生成模块生成的背景旋律进行混音。

4.根据权利要求2或3所述的识别环境并生成音乐的摄像头，其特征在于，所述场景分析模块还用于获取一段时间内人员目标的移动速度变化和声音信息响度变化，并分析该段时间内环境图像中的亮度值，所述场景数据库内储存有运动速度与音高对照表、背景噪声响度与音长对照表和亮度与音色对照表，若雷达模块检测到人员目标存在，则场景分析模块通过人员目标的运动速度变化获得对应音高变化，通过背景噪声响度获得对应的音长变化，通过亮度值化获得对应的音色，再将音高、音长和音色拼接成为一个完整的乐谱，并将乐谱转换为音乐。

5.根据权利要求1所述的识别环境并生成音乐的摄像头，其特征在于，所述情绪识别模块内设有表情识别模型，所述表情识别模型的训练方法包括预处理步骤，深度特征学习步骤和深度特征分类步骤；其中，

预处理步骤包括：检测人脸，并删除背景和非人脸区域，获得面部图像，并对面部图像进行对齐处理；从面部图像的四个角和中心随机裁剪，然后水平翻转；再对面部图像进行照明归一化和姿势归一化处理；

6.根据权利要求1所述的识别环境并生成音乐的摄像头，其特征在于，所述音乐生成模块将愤怒、厌恶、恐惧和悲伤表情划分为负面情绪，将快乐、惊喜划分为正面情绪，将中立划分为正常情绪；当识别的情绪所属正面情绪时，扬声器将输出的音量提高4-5db，重低音和高音均提高2-3db，并开启环绕声；当识别的情绪所属正常情绪时，扬声器将输出的音量调节至45-50db，重低音调节至22-25db，高音调节至18-21db，并开启环绕声；当识别的情绪所属负面情绪时，扬声器将输出的音量降低5-6db，关闭重低音，高音降低2-3db，关闭环绕声。

7.根据权利要求1所述的识别环境并生成音乐的摄像头，其特征在于，所述音乐片段以MIDI文件的形式保存在音乐数据库中，MIDI文件中的音乐信息以的矩阵形式提取出来，从MIDI文件提取出的矩阵为二进制矩阵，以二维散点图的形式保存，矩阵中每列代表一个16分音符的音值，每行代表一个音高。

8.根据权利要求1所述的识别环境并生成音乐的摄像头，其特征在于，所述可见层为受限玻尔兹曼机的输入层，隐含层为受限玻尔兹曼机的特征提取层，第二层隐含层的节点数为第一层隐含层的四分之一，第三层隐含层的节点数为第二层隐含层的四分之一。