CN110910895B

CN110910895B - 一种声音处理的方法、装置、设备和介质

Info

Publication number: CN110910895B
Application number: CN201910806475.2A
Authority: CN
Inventors: 王伟航
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2021-04-30
Anticipated expiration: 2039-08-29
Also published as: CN110910895A

Abstract

本申请属于人工智能中的语音处理技术领域，公开了一种声音处理的方法、装置、设备和介质，本申请公开的一种声音处理的方法包括，提取采集的语音数据的音色特征以及音调特征，并根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器，获得该乐器按照该音调特征弹奏的音乐和对应音调特征设置的色彩特征，以及根据弹奏的音乐和色彩特征生成语音转换内容。这样，将用户的语音数据转换为匹配的乐器弹奏的相应音乐以及色彩特征，从而可以通过音乐和色彩呈现用户语音，提高了用户声音的辨识度。

Description

一种声音处理的方法、装置、设备和介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种声音处理的方法、装置、设备和介质。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。

其中，语音技术是AI软件技术的方向之一。语音技术的关键技术有自动语音识别技术、语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在陌生人语音社交产品领域，声音是用户之间相互接触的重要媒介。人们通常通过用户的声音标签，辨识用户的声音。用户在通过语音应用发布或回复语音时，语音应用通常通过声纹识别技术对待发布的语音进行识别，对用户的声音进行简单分类，为不同声音的用户建立声音标签。

但是，采用这种方式，声音标签的类别较少，听众难以辨识用户声音。

由此，在语音发布或回复时，如何提高用户声音的辨识度，是一个亟待解决的问题。

发明内容

本申请实施例提供一种声音处理的方法、装置、设备和介质，用以在语音发布时，提高声音的辨识度。

一方面，提供一种声音处理的方法，包括：

响应于针对语音应用页面的录音操作，采集语音数据；

提取语音数据的音色特征和音调特征，音色特征表示振动频率与声音振幅之间的对应关系，音调特征表示时间与振动频率之间的对应关系；

根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器；

获得乐器按照音调特征弹奏的音乐；

根据弹奏的音乐生成语音转换内容。

一方面，提供一种声音处理的装置，包括：

采集单元，用于响应于针对语音应用页面的录音操作，采集语音数据；

提取单元，用于提取语音数据的音色特征和音调特征，音色特征表示振动频率与声音振幅之间的对应关系，音调特征表示时间与振动频率之间的对应关系；

确定单元，用于根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器；

获得单元，用于获得乐器按照音调特征弹奏的音乐；

生成单元，用于根据弹奏的音乐生成语音转换内容。

较佳的，采集单元用于：

实时采集输入的语音数据，当采集时长高于指定时长时，结束该次语音采集。

较佳的，确定单元用于：

根据语音数据的音色特征，生成用户声音频谱；

获取各乐器的乐器声音频谱，乐器声音频谱是根据乐器的音色特征生成的，用户声音频谱和乐器声音频谱均表示振动频率与声音振幅之间的对应关系；

确定与用户声音频谱最相近的乐器声音频谱所对应的乐器。

较佳的，确定单元用于：

确定用户声音频谱中指定频率范围对应的声音振幅，分别与每一乐器声音频谱中指定频率范围对应的声音振幅之间的差异度，指定频率范围是根据用户声音频谱中的共振峰确定的；

将最小差异度的乐器声音频谱所对应的乐器，确定为与用户声音频谱最相近的乐器声音频谱所对应的乐器。

一方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行上述任一种声音处理的方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种声音处理的方法的步骤。

本申请实施例提供的一种声音处理的方法、装置、设备和介质中，提取采集的语音数据的音色特征和音调特征，并根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器，以及获得乐器按照音调特征弹奏的音乐，并根据弹奏的音乐生成语音转换内容。这样，将用户的语音数据转换为匹配的乐器弹奏的相应音乐，从而可以通过音乐呈现用户语音，提高了用户声音的辨识度。

进一步地，还根据音调特征获得相应的色彩特征，并根据色彩特征和音乐生成语音转换内容，使得用户可以简单直观的了解用户声音形象，进而提高了用户之间互动的趣味性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施方式中一种终端设备的架构示意图；

图2为本申请实施方式中一种声音处理的方法的实施流程图；

图3为本申请实施方式中一种语音采集页面示例图；

图4a为本申请实施方式中一种色彩与振动频率的关系示例图；

图4b为本申请实施方式中一种语音发布页面示例图；

图4c为本申请实施方式中一种声音处理的方法的详细实施流程图；

图5为本申请实施方式中一种声音处理的装置的结构示意图；

图6为本申请实施方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

AI：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术：是AI软件技术的方向之一。关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

音调：声音频率的高低叫做音调(Pitch)，是声音的三个主要的主观属性，即音量(响度)、音调、音色(也称音品)之一。表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定，同时也与声音强度有关。对一定强度的纯音，音调随频率的升降而升降；对一定频率的纯音、低频纯音的音调随声强增加而下降，高频纯音的音调却随强度增加而上升。

音色：直译为声音的颜色、声音的色彩，指的是声音的个性特征。音色的形成和差异是物体振动的不同分量组合变化关系在人耳的听觉上感受的效应。

频谱：是频率的分布曲线，复杂振荡分解为振幅不同和频率不同的谐振荡，这些谐振荡的幅值按频率排列的图形叫做频谱。

声音频谱：是声音(通常指复合声)的一种图形表示，绘出不同频率的振幅。得到的图形表示各个频率分量对总体音响的相对贡献。在频谱坐标图中，横坐标为频率，以赫兹(Hz)为单位(越往右越高)，纵坐标为振幅，即音量，以杜比(db)为单位(越往上越强)。其基频(音高)为440Hz，音量为-10db。

共振峰：指的是声音频谱峰值。在人声和大多数乐器的很宽的频谱分布中都存在一些固定的频率峰值(Formant Synthesis)，这种频率峰值在声音频谱中就叫做共振峰(Formants)。

在声音频谱中我们可以发现有一些谐波振幅比较强的频率区域呈现峰状，若用一条平滑的曲线将声谱的谐波振幅连接起来，则会形成一起伏的包络曲线，曲线的颠峰位置被定义为“共振峰”，其频率为“共振峰频率”。从低频到高频顺序为第一共振峰、第二共振峰、第三共振峰等，在截频为5000赫兹时通常会出现五个共振峰，它们和基频可以反映出所发声音的元音音色(包括元音音色和音乐音色)。一般来讲，其中较低的两个峰即第一共振峰和第二共振峰基本上规定了声音的元音音色，而较高的第三共振峰、第四共振峰和第五共振峰影响着声音的个人特征和音乐音色。声道的固有频率的数值是由声道的形态所决定的，改变声道的形态就会产生不同的声音，因此每种声道形态都有一套共振峰作为其特征。

共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(ResonantPhysical Structure)。无论是人声还是乐器，它们的声音特性都源自两个因素，一个是发声***，如人的声带或乐器的振动簧片，另一个是共鸣***。乐器不同的共鸣***使其在一定频域中的分音的振幅得以突出，这样，这些区域就产生了这个乐器所特有的共振峰值，这些共振峰值同共鸣体的大小、形状、材料密切相关。由于一件乐器的结构是稳定的，因此在一件乐器发出的所有音调中，不论基频如何，都会表现出相同的共振峰值，只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中，同一乐器所发出的不同音调具有相同的音质。拿一把小提琴的琴体为例，根据它的共鸣物理结构，体现了一套特殊的共振峰。既然所有的小提琴内置外形都是一样的，它们就有着相同的共振峰值，人听起来音色也比较一致。人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响，有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形)，我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音，主要也是依靠它们的共振峰分布的位置。而在计算机的数字合成环境下，共振峰主要是通过音频数字来计算的，共振峰区尽管不直接与基本频率的音高有关联，但或多或少有间接的影响。

通用MIDI(General MIDI，GM)音色列表：即通用MIDI标准***第一级(GeneralMIDI system Level1)，制定于1991年。规定了MIDI设备的最大同时发音数不得少于24个、鼓镲等打击乐器作为一组单独排列、128种乐器音色有统一的排列方式等。

基音：一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的震动，由它发出的音就是基音，其余为泛音。振动越长，频率越小，决定音高。

泛音：发音体部分振动产生的音，叫做泛音，决定音色。

下面介绍本申请实施例的设计思想。

语音技术是AI软件技术的方向之一。语音技术的关键技术有自动语音识别技术、语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在陌生人语音社交产品领域，声音是用户之间相互接触的重要媒介。人们通常通过用户的声音标签，辨识用户的声音。

现有技术下，用户在通过语音应用发布或回复语音时，语音应用通常通过声纹识别技术对待发布的语音进行识别，对用户的声音进行简单分类，为不同声音的用户建立声音标签，以便人们辨识用户声音。声音标签包括：正太音、青年音、少女音、少年音、萝莉音、***以及御姐音。

但是，采用这种方式，声音标签的类别较少，无法体现声音的独特性，难以被用户理解，听众难以辨识用户声音。

显然，传统技术中并没有提供一种在语音发布时可以提高声音辨识度的声音处理技术方案。因此，亟待需要一种声音处理的技术方案，在声音处理时，对语音进行转换，提高用户的声音辨识度和趣味性。

鉴于以上分析和考虑，本申请实施例中提供了一种声音处理的方案，该方案中，响应于针对语音应用页面的录音操作，采集待发布的语音数据，提取语音数据的音色特征以及音调特征，确定与该音色特征最相近的乐器，并获得通过该乐器按照该音调特征弹奏的音乐，以及获得音调特征对应的色彩特征，发布通过获得的音乐和色彩特征生成的语音转换内容。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

参阅图1所示，为一种终端设备的架构示意图，终端设备100可以包括处理器110、存储器120、输入单元130、显示单元140、音频电路150、扬声器151、麦克风152耳机插孔153等部件。

本领域技术人员可以理解，图1仅仅是终端设备的举例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所述输入单元130可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触摸屏131以及其他输入设备132。所述触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器110，并能接收所述处理器110发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏131可以提供所述终端设备100和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏131，输入单元130还可以包括其他输入设备。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键132、开关按键133等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备100的各种菜单。进一步的，触摸屏131可覆盖显示面板，当触摸屏131检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现终端设备100的输入、输出、显示功能；为便于描述，本发明实施例以触摸屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

存储器120可用于存储指令和数据，存储器120可主要包括存储指令区和存储数据区，存储数据区可存储关节触摸手势与应用程序功能的关联关系；存储指令区可存储操作***、至少一个功能所需的指令等。

处理器110是终端设备100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的指令以及调用存储在存储器120内的数据，执行终端设备100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。

音频电路150、扬声器151、麦克风152可提供用户与终端设备100之间的音频接口。音频电路150可将接收到的音频数据转换后的电信号，传输到扬声器151，由扬声器151转换为声音信号输出；另一方面，麦克风152将收集的声音信号转换为电信号，由音频电路150接收后转换为音频数据，再将音频数据输出处理器110处理后，经射频单元110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理，音频电路也可以包括耳机插孔153，用于提供音频电路和耳机之间的连接的接口。

尽管未示出，终端设备100还可以包括摄像头、闪光灯等，在此不再赘述。

本申请实施例中，仅以安装在终端设备100中的用于陌生人语音社交的声音发布的语音应用为例进行说明。语音应用还可以为用于通讯以及听书的应用，在此不再赘述。

参阅图2所示，为本申请提供的一种声音处理的方法的实施流程图。该方法的具体流程如下：

步骤200：语音应用响应于针对语音应用页面的录音操作，采集语音数据。

具体的，用户通过终端中语音应用的语音应用页面进行录音，语音应用响应于针对语音应用页面的录音操作，实时采集输入的语音数据，当采集时长高于指定时长时，结束该次语音采集。

一种实施方式中，语音应用开始采集输入的语音数据，直至采集时长达到指定时长，或者接收到用户的停止语音采集操作。

其中，指定时长可以根据实际应用场景进行设定，例如，指定时长可以为60s，在此不再赘述。语音应用页面可以为用于语音发布的页面，也可以为用于语音回复的会话窗口。

例如，参阅图3所示为一种语音采集页面示例图，包括图(a)和图(b)。用户点击图(a)所示的入口页面的点击进入按键，入口页面跳转至图(b)所示的录音页面，用户通过录音按键进行录音，语音应用采集用户录制的语音数据。

步骤201：语音应用提取语音数据的音色特征和音调特征。

具体的，执行步骤201时，语音应用可以采用以下步骤：

S2011：通过终端中的音频电路将采集的语音数据转换为用波形图表示的电信号。

其中，波形图的横坐标是时间，纵坐标是幅值。

需要说明的是，语音数据是声波，而声波是一种纵波，是来回振动导致空气分子产生疏密相间的排列。但是，这种二维空间的方式非常不便于表示声音的属性，于是我们取任意一个点，测量这个点的气压随时间的变化，这样就变成了横轴为时间，纵轴为压力变化的波形图。气压距离标准值偏差越大，说明振动越剧烈，响度越大，所以振幅越大的波形表示声音越大。波形越紧密说明单位时间内振动的次数越多，频率越高，音高越高。

S2012：将波形信号进行傅里叶变换，获得各时间点上的振动频率和声音振幅。

需要说明的是，声音的三个主要属性为：即音量(响度)、音调以及音色(也称音品)。音色由泛音决定，可由振动频率与声音振幅获得。音调由基音决定，为振动频率。音量为声音振幅。

其中，音色：直译为声音的颜色、声音的色彩，指的是声音的个性特征。音色的形成和差异是物体振动的不同分量组合变化关系在人耳的听觉上感受的效应。

音调：声音频率的高低叫做音调(Pitch)，表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定，同时也与声音强度有关。对一定强度的纯音，音调随频率的升降而升降；对一定频率的纯音、低频纯音的音调随声强增加而下降，高频纯音的音调却随强度增加而上升。

进一步地，语音应用还可以提取语音数据的音量，以便可以在后续的步骤中，根据语音数据的音量调整语音转换内容的音量。

这样，语音应用就可以根据振动频率确定音调，根据声音振幅确定音量，以及根据振动频率与声音振幅确定音色。

S2013：各时间点上的振动频率和声音振幅，获得音色特征和音调特征。

具体的，根据各时间点上的振动频率和声音振幅，获得表示振动频率与声音振幅之间的对应关系的音色特征，并获得表示时间与振动频率之间的对应关系的音调特征。

其中，音色特征表示振动频率与声音振幅之间的对应关系，音调特征表示时间与振动频率之间的对应关系。音色特征和音调特征可以通过特征向量或者波形图表示，在此不作限制。

步骤202：语音应用根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器。

具体的，一种实施方式中，执行步骤202时可以采用以下步骤：

子步骤a：语音应用获取预先存储的各乐器的音色特征。

具体的，音色特征可以采用以下方式获取：

一种方式为：服务器分别针对获取的每一乐器的音频数据，提取并存储音频数据的音色特征。语音应用预先通过服务器获取并存储各乐器的音色特征，或者，在对语音数据进行转换时，通过服务器获取各乐器的音色特征。

其中，获取各乐器的音色特征时，详细步骤可以参见上述步骤201中语音数据的音色特征获取的内容。

一种方式为：语音应用预先对获取的每一乐器的音频数据进行分析，提取并存储各乐器的音色特征。

子步骤b：语音应用根据预设的距离算法分别确定语音数据的音色特征与每一乐器的音色特征之间的特征距离。

具体的，音色特征之间的特征距离表示音色特征之间的差异。距离算法可以采用欧式距离、明式距离以及马式距离等算法。实际应用中，距离算法可以根据实际应用场景确定，在此不作限制。

例如，分别将语音数据的音色特征和乐器的音色特征转换为音色特征向量，并通过欧式距离，分别计算语音数据的音色特征向量与每一乐器的音色特征向量之间的距离，从而确定语音数据的音色特征与每一乐器的音色特征之间的特征距离。

子步骤c：语音应用确定获取的各特征距离中的最小特征距离，并获取最小特征距离对应的乐器，以及将该乐器确定为与语音数据最相近的乐器。

这样，就可以根据语音数据的音色特征与各乐器的音色特征之间的特征距离，确定与语音数据最匹配的乐器。

另一种实施方式中，语音应用还可以采用以下步骤：

S2021：根据语音数据的音色特征，生成用户声音频谱。

需要说明的是，声音频谱：是声音(通常指复合声)的一种图形表示，绘出不同振动频率的声音振幅。即声音频谱为：横坐标为振动频率，纵坐标为声音振幅的曲线。用户声音频谱是一种声音频谱，表示振动频率与声音振幅之间的对应关系，则语音应用可以根据音色特征中各振动频率对应的声音振幅，获得将各声音振幅按照相应的振动频率排列的图形，即用户声音频谱。

也就是说，用户声音频谱是语音数据的音色特征的一种图形表示形式。

S2022：获取各乐器的乐器声音频谱。

需要说明的是，乐器声音频谱均也为一种声音频谱，表示振动频率与声音振幅之间的对应关系。基于与用户声音频谱生成相似的原理，可以根据乐器的音色特征生成相应的乐器声音频谱，在此不再赘述。可选的，各乐器的乐器声音频谱可以是预先存储的，也可以为对语音数据进行转换时，根据乐器的音色特征生成。

一种实施方式中，各乐器可以按照GM音色列表归类，可得到128种乐器的音色库。

S2023：确定与用户声音频谱最相近的乐器声音频谱所对应的乐器。

具体的，首先，确定用户声音频谱中指定频率范围对应的声音频谱，分别与每一乐器声音频谱中指定范围频率范围对应的声音振幅之间的差异度。

然后，将最小差异度的乐器声音频谱所对应的乐器，确定为与用户声音频谱最相近的乐器声音频谱所对应的乐器。

其中，指定频率范围是根据用户声音频谱中的共振峰确定的。可选的，指定频率范围可以为用户声音频谱中以共振峰频率为中心的指定半径长度内的频率范围。

例如，用户语音频谱的共振峰频率为500hz，指定半径长度为100hz，则指定频率范围为400hz至600hz。

在声音频谱中我们可以发现有一些声音振幅比较强的频率区域呈现峰状，若用一条平滑的曲线将声谱的声音振幅连接起来，则会形成一起伏的包络曲线，曲线的颠峰位置被定义为“共振峰”，其振动频率为“共振峰频率”。

需要说明的是，无论是人声还是乐器，它们的声音特性都源自两个因素，一个是发声***，如人的声带或乐器的振动簧片，另一个是共鸣***。乐器不同的共鸣***使其在一定频域中的分音的振幅得以突出。共振峰出现在较低的频率上，音色就黯淡，例如长笛；共振峰出现在较高的频率上，声音就明亮，例如小号。共振峰在声音频谱上表现为波形，每个谐音在频谱上只呈现一个峰。

这样，这些区域就产生了这个乐器所特有的共振峰值。由于一件乐器的结构是稳定的，因此在一件乐器发出的所有音调中，不论基频如何，都会表现出相同的共振峰值。而人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响，有自身的共振峰区。

拿一把小提琴的琴体为例，根据它的共鸣物理结构，体现了一套特殊的共振峰。既然所有的小提琴内置外形都是一样的，它们就有着相同的共振峰区。

由于相同的乐器会表现出相同的共振峰，不同乐器的共振峰不同，则可以找到与人声的共振峰最相近的乐器。

本申请实施例中，用户声音频谱和乐器声音频谱均为横坐标为振动频率，纵坐标为声音振幅的波形曲线，则将用户声音频谱分别与每一乐器声音频谱进行匹配，确定与用户声音频谱最相近的波形曲线。这样，就可以确定与用户声音的音色最相近的乐器。

步骤203：语音应用获得通过确定出的乐器按照语音数据的音调特征弹奏的音乐。

具体的，语音应用获取预先针对乐器设置的乐器模型，并将语音数据的音调特征输入至该乐器模型，输出模拟确定出的乐器弹奏的音乐。

其中，语音应用预先存储通过服务器获取的各乐器对应的各乐器模型。乐器模型是服务器预先通过拾音器等装置对各真实的乐器进行声音采样，并根据采样结果识别各乐器的声音振幅和振动频率，以及根据识别结果调整音色的乐器模型。乐器模型用于根据音调数据中包含的时间和振动频率，在各时间点上，按照乐器的音色，输出相应振动频率对应的音调。可选的，音色可以通过效果器进行调整。

其中，音调特征表示时间与振动频率之间的对应关系，则将乐器根据振动频率与音调之间的对应关系，按照音调特征的时间弹奏振动频率对应的音调，获得弹奏出的音乐。

步骤204：语音应用获取音调特征对应的色彩特征。

具体的，根据振动频率与色彩之间的对应关系，获得音调特征对应的色彩特征。

参阅图4a所示，为一种色彩与振动频率的关系示例图。图4a中，不同振动频率对应不同的色彩。振动频率与色彩之间具有对应关系。

其中，色彩特征表示时间与色彩之间的对应关系，可以通过横坐标为时间，纵坐标为色彩的曲线形式呈现色彩特征。

也就是说，将时间与振动频率之间的对应关系，转换为时间与色彩之间的对应关系。

例如，语音应用采集用户小明的语音数据，并提取语音数据的音色特征和音调特征，根据音色特征生成用户声音频谱。由小明的用户声音频谱可知，小明的共振峰频率范围为340hz-380hz，与通通鼓的共振峰最为相近，则确定小明对应的乐器为通通鼓，并通过通通鼓，按照音调特征，获得相应的音乐。进一步地，根据小明的振动频率与色彩之间的对应关系，确定小明的色彩特征。由于小明的振动频率位于200hz-380hz，因此，确定对应色彩均为红色。

需要说明的是，步骤204可以在与步骤201之后以及步骤205之前的任意步骤执行，即步骤204和步骤203的执行顺序不做限制，步骤204与步骤202之间的执行顺序不做限制。

步骤205：语音应用根据获取的音乐和色彩特征生成语音转换内容。

具体的，一种实施方式中，语音应用将语音数据，获得的音乐以及色彩特征进行合成，获得包含语音数据的语音转换内容，并将获得的音乐和色彩特征进行合成，获得不包含语音数据的语音转换内容。

另一种实施方式中，采用以下两种方式：

一种方式为：当接收到表征原声发布的操作指令时，将语音数据，获得的音乐以及色彩特征进行合成，获得包含语音数据的语音转换内容。

也就是说，将用户的原声与获得的相应音乐和色彩特征合成。

一种方式中，当接收到表征非原声发布的操作指令时，将获得的音乐和色彩特征进行合成，获得不包含语音数据的语音转换内容。

也就是说，仅合成音乐和色彩特征，而不包含用户的原声。

这样，就可以将用户的语音数据进行转换，获得包含音乐和色彩特征的语音转换内容，通过音乐和色彩特征呈现用户语音的声音形象。

进一步地，在合成包含语音数据的语音转换内容时，语音应用还可以根据语音数据的音量特征，对音乐的音量特征进行调整。

一种实施方式中，根据语音数据的音量特征以及预设音量权重，调整音乐的音量特征。

也就是说，音乐的音量特征是通过语音数据的音量特征与预设音量权重的乘积获得的。

一种实施方式中，将音乐的音量特征调整为指定音量，其中，指定音量低于语音数据的平均音量。

需要说明的是，音乐的音量特征中每一时间对应的音量均低于音量数据的音量特征中的相应音量，使得用户的声音将呈现以原声为主，音乐和色彩为辅的声音。

步骤206：语音应用发布语音转换内容。

具体的，当接收到表征原声发布的操作指令时，语音应用发布包含语音数据的语音转换内容。

当接收到不表征原声发布的操作指令时，语音应用发布不包含语音数据的语音转换内容。

其中，所谓发布，即语音应用将用户上传的语音转换内容提交至服务器，服务器根据语音转换内容生成可以播放或下载该语音转换内容的页面，使得用户可以通过语音应用播放或下载该语音内容。

参阅图4b所示，为一种语音发布页面示例图，包括图(A)和图(B)。其中，用户通过图(A)，可以在语音发布之前，试听合成的语音转换内容，通过图(B)可以将合成的语音转换内容进行发布。

进一步地，基于与语音转换内容发布相似的原理，语音应用还可以根据回复操作指令，通过通讯窗口回复包含语音数据的语音转换内容，或回复不包含语音数据的语音转换内容。在此不再赘述。

这样，用户可以自行选择是否播放原声。若选择不呈现原声，则仅呈现纯粹的音乐和颜色。听众可以通过感受音乐的旋律以及色彩获得发布声音的用户的声音形象。若选择呈现原声，则通过以语音为主，音乐和色彩为辅的方式呈现用户的声音。

本申请实施例中，根据用户语音的音色特征，确定相应的乐器，以及将确定出的乐器与用户语音的音调特征相结合，生成语音对应的音乐，使得用户可以根据音乐对待发布的语音进行客观评价，提高了用户发布以及回复语音的信心，提高发布内容的积极性，提高用户发布声音动态的数量，进而提高用户通过声音认识新用户的连接效率。再者，通过大量种类的乐器为用户的声音进行匹配，并根据匹配的乐器以及用户的音调特征生成音乐，提高了声音辨识度。进一步地，通过声音的音乐与色彩特征结合呈现的方式，使得用户更加容易理解，促进了陌生人语音社交的趣味性和互动性。

参阅图4c所示，为本申请提供的一种声音处理的方法的详细实施流程图。该方法的具体流程如下：

步骤400：语音应用响应于针对语音应用页面的录音操作，采集语音数据。

具体的，执行步骤400时，详细步骤参见上述步骤200。

步骤401：语音应用提取语音数据的音色特征和音调特征，执行步骤402和步骤404。

具体的，执行步骤401时，详细步骤参见上述步骤201。

步骤402：语音应用确定根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器。

具体的，执行步骤402时，详细步骤参见上述步骤202。

步骤403：语音应用获得通过确定出的乐器按照语音数据的音调特征弹奏的音乐。

具体的，执行步骤403时，详细步骤参见上述步骤203。

步骤404：语音应用获取音调特征对应的色彩特征。

具体的，执行步骤404时，详细步骤参见上述步骤204。

步骤405：语音应用根据获取的音乐和色彩特征生成语音转换内容。

语音应用将语音数据，获得的音乐以及色彩特征进行合成，获得包含语音数据的语音转换内容，并将获得的音乐和色彩特征进行合成，获得不包含语音数据的语音转换内容。

步骤406：语音应用判断是否接收到表征原声发布的操作指令，若是，则执行步骤407，否则，执行步骤408。

步骤407：语音应用发布包含语音数据的语音转换内容。

步骤408：语音应用发布不包含语音数据的语音转换内容。

基于同一发明构思，本申请实施例中还提供了一种声音处理的装置，由于上述装置及设备解决问题的原理与一种声音处理的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5示，其为本申请实施例提供的一种声音处理的装置的结构示意图。一种声音处理的装置包括：

采集单元501，用于响应于针对语音应用页面的录音操作，采集语音数据；

提取单元502，用于提取语音数据的音色特征和音调特征，音色特征表示振动频率与声音振幅之间的对应关系，音调特征表示时间与振动频率之间的对应关系；

确定单元503，用于根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器；

获得单元504，用于获得乐器按照音调特征弹奏的音乐；

生成单元505，用于根据弹奏的音乐生成语音转换内容。

较佳的，生成单元505还用于：

根据振动频率与色彩之间的对应关系，获得音调特征对应的色彩特征，色彩特征表示时间与色彩之间的对应关系；

根据音乐和色彩特征生成语音转换内容。

较佳的，生成单元505还用于：

当接收到表征原声发布的操作指令时，将语音数据、音乐以及色彩特征进行合成，获得包含语音数据的语音转换内容。

较佳的，生成单元505还用于：

当接收到表征非原声发布的操作指令时，将音乐和色彩特征进行合成，获得不包含语音数据的语音转换内容。

较佳的，生成单元505还用于：

提取语音数据的音量特征，音量特征表示时间与音量之间的对应关系；

根据语音数据的音量特征以及预设音量权重，调整音乐的音量特征，音乐的音量特征中每一时间对应的音量均低于语音数据的音量特征中的相应音量；

将语音数据、调整后的音乐以及色彩特征进行合成，获得包含语音数据的语音转换内容。

较佳的，采集单元501用于：

较佳的，确定单元503用于：

根据语音数据的音色特征，生成用户声音频谱；

确定与用户声音频谱最相近的乐器声音频谱所对应的乐器。

较佳的，确定单元503用于：

提取采集的语音数据的音色特征和音调特征，根据获取的各乐器的音色特征，确定与语音数据的音色特征最相近的音色特征对应的乐器，获得乐器按照音调特征弹奏的音乐，并根据弹奏的音乐生成语音转换内容。这样，将用户的语音数据转换为匹配的乐器弹奏的相应音乐，从而可以通过音乐呈现用户语音，提高了用户声音的辨识度。

参阅图6所示，为一种控制设备的结构示意图。基于同一技术构思，本申请实施例还提供了一种控制设备，可以包括存储器601和处理器602。

存储器601，用于存储处理器602执行的计算机程序。存储器601可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。处理器602，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。本申请实施例中不限定上述存储器601和处理器602之间的具体连接介质。本申请实施例在图6中以存储器601和处理器602之间通过总线603连接，总线603在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线603可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器601可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器601也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器601可以是上述存储器的组合。

处理器602，用于调用存储器601中存储的计算机程序时执行如图2中所示的实施例提供的声音处理的方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意方法实施例中的声音处理的方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台控制设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种声音处理的方法，应用于语音社交，其特征在于，所述方法包括：

响应于用户通过终端中语音应用的语音应用页面进行的录音操作，采集用户的语音数据；所述语音应用页面为语音社交中用于语音发布的页面或语音回复的会话窗口；

提取所述语音数据的音色特征和音调特征，所述音色特征表示振动频率与声音振幅之间的对应关系，所述音调特征表示时间与振动频率之间的对应关系；

根据获取的各乐器的音色特征，确定与所述语音数据的音色特征最相近的音色特征对应的乐器；

获得所述乐器按照所述音调特征弹奏的音乐；

根据所述弹奏的音乐生成语音转换内容。

2.如权利要求1所述的方法，其特征在于，还包括：

根据振动频率与色彩之间的对应关系，获得所述音调特征对应的色彩特征，所述色彩特征表示时间与色彩之间的对应关系；

根据所述音乐和所述色彩特征生成语音转换内容。

3.如权利要求2所述的方法，其特征在于，根据所述音乐和所述色彩特征生成语音转换内容，包括：

当接收到表征原声发布的操作指令时，将所述语音数据、所述音乐以及所述色彩特征进行合成，获得包含所述语音数据的语音转换内容。

4.如权利要求2所述的方法，其特征在于，根据所述音乐和所述色彩特征生成语音转换内容，包括：

当接收到表征非原声发布的操作指令时，将所述音乐和所述色彩特征进行合成，获得不包含所述语音数据的语音转换内容。

5.如权利要求3所述的方法，其特征在于，将所述语音数据、所述音乐以及所述色彩特征进行合成，获得包含所述语音数据的语音转换内容，包括：

提取所述语音数据的音量特征，所述音量特征表示时间与音量之间的对应关系；

根据所述语音数据的音量特征以及预设音量权重，调整所述音乐的音量特征，所述音乐的音量特征中每一时间对应的音量均低于所述语音数据的音量特征中的相应音量；

将所述语音数据、调整后的音乐以及所述色彩特征进行合成，获得包含所述语音数据的语音转换内容。

6.如权利要求1-5任一项所述的方法，其特征在于，采集语音数据，包括：

7.如权利要求1-5任一项所述的方法，其特征在于，根据获取的各乐器的音色特征，确定与所述语音数据的音色特征最相近的音色特征对应的乐器，包括：

根据所述语音数据的音色特征，生成用户声音频谱；

获取各乐器的乐器声音频谱，所述乐器声音频谱是根据所述乐器的音色特征生成的，所述用户声音频谱和所述乐器声音频谱均表示振动频率与声音振幅之间的对应关系；

确定与所述用户声音频谱最相近的乐器声音频谱所对应的乐器。

8.如权利要求7所述的方法，其特征在于，确定与所述用户声音频谱最相近的乐器声音频谱所对应的乐器，包括：

确定用户声音频谱中指定频率范围对应的声音振幅，分别与每一乐器声音频谱中所述指定频率范围对应的声音振幅之间的差异度，所述指定频率范围是根据所述用户声音频谱中的共振峰确定的；

将最小差异度的乐器声音频谱所对应的乐器，确定为与所述用户声音频谱最相近的乐器声音频谱所对应的乐器。

9.一种声音处理的装置，应用于语音社交，其特征在于，所述装置包括：

采集单元，用于响应于用户通过终端中语音应用的语音应用页面进行的录音操作，采集用户的语音数据，所述语音应用页面为语音社交中用于语音发布的页面或语音回复的会话窗口；

提取单元，用于提取所述语音数据的音色特征和音调特征，所述音色特征表示振动频率与声音振幅之间的对应关系，所述音调特征表示时间与振动频率之间的对应关系；

确定单元，用于根据获取的各乐器的音色特征，确定与所述语音数据的音色特征最相近的音色特征对应的乐器；

获得单元，用于获得所述乐器按照所述音调特征弹奏的音乐；

生成单元，用于根据所述弹奏的音乐生成语音转换内容。

10.如权利要求9所述的装置，其特征在于，所述生成单元还用于：

根据所述音乐和所述色彩特征生成语音转换内容。

11.如权利要求10所述的装置，其特征在于，所述生成单元还用于：

12.如权利要求10所述的装置，其特征在于，所述生成单元还用于：

13.如权利要求11所述的装置，其特征在于，所述生成单元还用于：

14.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-8任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1～8任一所述方法的步骤。