CN109599094A

CN109599094A - 声音美容与情感修饰的方法

Info

Publication number: CN109599094A
Application number: CN201811538693.4A
Authority: CN
Inventors: 段玉聪; 李亚婷; 宋正阳
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-04-09

Abstract

本发明公开了一种声音美容与情感修饰的方法，主要通过用户的需求，对语音进行声音处理以及情感修饰，改变原来语音的音色、音调、以及原来所包含的情感，并且也可以去噪使得所听到的语音更清晰易懂。不仅可以满足用户对想听声音的需求，并且也可通过调整对方说话的情绪使得自己更为舒适放松。

Description

声音美容与情感修饰的方法

技术领域

本发明属于情感、声音识别与声音处理领域，主要是将用户所听到的语音处理为含有用户想要情绪的、想听到声音类型的语音，同时也需要对口音以及不清楚的地方进行去噪使得用户听的更清楚，满足用户需求，提高用户的满意度。

背景技术

随着人工智能语音识别领域的迅速发展，Google、讯飞等企业在语音识别领域已经做出了很大的成果，可以通过识别语音将其转化为文字，再转化为其他语言；目前家居、电器、手机等都可以通过语音控制其行为，例如可以通过声音控制空调的开关，直接通过Siri告知自己想打给的联系人，会自动拨通，这些都是语音识别的一步步发展。

每个人都有不顺心的时候，如果这时还受到别人严厉的批评，会给他再加一层压力。并且我们作为有情感的高等生物，希望在一些特定的情景之下听到特殊情感表达的话语，或是一些不同音色、音调的声音，所以将人的情感与声音识别与处理相结合，对用户是一种很好的享受。

在日常的通话中，我们经常会遇到由于方言、普通话不标准或是周围噪音的影响，造成我们的通话有些许困难或是障碍，为了解决这样的问题，我们可以通过声音美容来增强效果。

发明内容

技术问题：本发明公开了一种声音美容与情感修饰的方法，主要通过用户的需求，对语音进行声音处理以及情感修饰，改变原来语音的音色、音调、以及原来所包含的情感，并且也可以去噪使得所听到的语音更清晰易懂。

技术方案：为了解决上述背景技术中所存在的问题，本发明提出一种声音美容与情感修饰的方法。首先，需要采集声音数据，将每个字都通过语音识别识别出来，注意对带有口音的语音的识别；然后根据关联词之间的相对强度以及词语与词语之间的间隔标记出重点词汇；其次根据每个词语的语调、声音的强弱以及句子整体的说话方式奠定情感基调；然后根据以上的数据积累，对声音进行处理，通过语调、声音强弱、间隔等改变原语音的情绪，并且可通过收集特殊人的声音信息对声音进行美容，使其听起来像某位明星的声音；最后，可对最后输出的结果消除白噪音，或增强声音的辨识度。本发明不仅可以满足用户对想听声音的需求，并且也可通过调整对方说话的情绪使得自己更为舒适放松。

体系结构

（1）通过语音识别采集声音数据，对于有口音的声音数据要进行模糊识别（若包含国内外的方言，则需要在过程中查询方言语音数据库，来较为精确地确定该用户所说话的语义以及词义），将输入的声音转化为特征量方便进一步处理。

（2）根据关联词之间的相对强度以及词语与词语之间的间隔标记出重点词汇，其次根据每个词语的语调、声音的强弱以及句子整体的说话方式奠定情感基调。可以根据关键词之间的相对强度识别出模糊语句的大概意思，词语与词语之间的间隔可以避免不同词连接在一起有不同的意思，有助于分辨哪些字应该组成一个词，并表达出这个词的含义。对于每句话、每个词甚至每个字，语调以及强弱不同，都能表达出不一样的情感，我们可以根据这个基础来确定用户所听到或者自己说的话是饱含一种怎样的情感，并且也可以根据这些因素来改变语音使得其具有用户所需要的情绪。具体做法根据在存储有读音与音素之间的转换规则或读音与音素串之间的转换规则的转换规则的存储部内存储的转换规则，将在存储有识别词的读音的识别此存储部内存储的识别词的读音转换成音素串。再提取出标准模式，最后进行连接。对识别词读音多的情况下也非常适用。

（3）根据以上的数据积累，对声音进行处理，通过语调、声音强弱、间隔等改变原语音的情绪，并且可通过收集特殊人的声音信息对声音进行美容，使其听起来像某位明星的声音；详细一点说，采集一些特殊声音的数据，例如某位主持人声音的音调、音频、音色、语调等等，可以根据得到的这些数据来调整用户希望改变的那一段语音，对它的各种值进行修改，从而尽最大程度上满足用户需要。即详细解释为：对所拥有的声音数据存为数据库，将他们的一些特征都转化为参数存入，在用户要求转变时，即可通过改变这些参数来改变声音的收听效果；我们不仅仅需要建立声音转化模型，情感转化模型也是必须的。先获取训练数据（可根据动态时间规整算法对输入输出数据做时长对齐），再对其进行预处理，提取训练数据的情绪影响因素（包括字词的音调、说话间隔等），根据初始化声音转换模型的参数，训练模型建立，因为该模型可以是神经网络模型，由编码器组成，每个编码器代表某一类相似原发音人语音信息的本证空间，需要对其语音信号的频谱特征进行变换。

（其中表示输入编码层i的第n个本征空间模型的输出，表示输入层i的第n个本征空间模型对于的网络参数，δ表示激励函数）。

（4）对最后输出的结果消除影响效果的各种噪音噪音（白噪音或其他有色噪音），或增强声音的辨识度。通过信号处理消除噪音，可通过在声学上输出与向可移动体的空间里面泄露的噪音的相位具有相反相位的声音来消除噪音。使得声音美容和情绪化之后的语音更加清晰，让用户听觉上也更加舒适。

有益效果

（1）有利于用户调节自身情绪，营造舒适的听觉氛围；

（2）给用户制造新的娱乐环境，使得自己可以通过自己的需求改变他人或自己的声音以及声音中蕴含的情感；

（3）一定程度上可以促进互相通话的两人的交流。

附图说明

图1是声音美容与情感修饰的方法的实现流程图。

具体实施方式

（其中表示输入编码层i的第n个本征空间模型的输出，表示输入层i的第 n个本征空间模型对于的网络参数，δ表示激励函数）。

Claims

1.本发明公开了一种声音美容与情感修饰的方法，主要通过用户的需求，对语音进行声音处理以及情感修饰，改变原来语音的音色、音调、以及原来所包含的情感，并且也可以去噪使得所听到的语音更清晰易懂；

不仅可以满足用户对想听声音的需求，并且也可通过调整对方说话的情绪使得自己更为舒适放松；

（1）通过语音识别采集声音数据，对于有口音的声音数据要进行模糊识别（若包含国内外的方言，则需要在过程中查询方言语音数据库，来较为精确地确定该用户所说话的语义以及词义），将输入的声音转化为特征量方便进一步处理；

（2）根据关联词之间的相对强度以及词语与词语之间的间隔标记出重点词汇，其次根据每个词语的语调、声音的强弱以及句子整体的说话方式奠定情感基调；

可以根据关键词之间的相对强度识别出模糊语句的大概意思，词语与词语之间的间隔可以避免不同词连接在一起有不同的意思，有助于分辨哪些字应该组成一个词，并表达出这个词的含义；

对于每句话、每个词甚至每个字，语调以及强弱不同，都能表达出不一样的情感，我们可以根据这个基础来确定用户所听到或者自己说的话是饱含一种怎样的情感，并且也可以根据这些因素来改变语音使得其具有用户所需要的情绪；

具体做法根据在存储有读音与音素之间的转换规则或读音与音素串之间的转换规则的转换规则的存储部内存储的转换规则，将在存储有识别词的读音的识别此存储部内存储的识别词的读音转换成音素串；

再提取出标准模式，最后进行连接；

对识别词读音多的情况下也非常适用；

（3）根据以上的数据积累，对声音进行处理，通过语调、声音强弱、间隔等改变原语音的情绪，并且可通过收集特殊人的声音信息对声音进行美容，使其听起来像某位明星的声音；详细一点说，采集一些特殊声音的数据，例如某位主持人声音的音调、音频、音色、语调等等，可以根据得到的这些数据来调整用户希望改变的那一段语音，对它的各种值进行修改，从而尽最大程度上满足用户需要；

即详细解释为：对所拥有的声音数据存为数据库，将他们的一些特征都转化为参数存入，在用户要求转变时，即可通过改变这些参数来改变声音的收听效果；我们不仅仅需要建立声音转化模型，情感转化模型也是必须的；

先获取训练数据（可根据动态时间规整算法对输入输出数据做时长对齐），再对其进行预处理，提取训练数据的情绪影响因素（包括字词的音调、说话间隔等），根据初始化声音转换模型的参数，训练模型建立，因为该模型可以是神经网络模型，由编码器组成，每个编码器代表某一类相似原发音人语音信息的本证空间，需要对其语音信号的频谱特征进行变换

（其中表示输入编码层i的第n个本征空间模型的输出，表示输入层i的第 n个本征空间模型对于的网络参数，δ表示激励函数）；

（4）对最后输出的结果消除影响效果的各种噪音噪音（白噪音或其他有色噪音），或增强声音的辨识度；

通过信号处理消除噪音，可通过在声学上输出与向可移动体的空间里面泄露的噪音的相位具有相反相位的声音来消除噪音；

使得声音美容和情绪化之后的语音更加清晰，让用户听觉上也更加舒适。