CN113360129A

CN113360129A - 声音播放方法、装置、电子设备及可读存储介质

Info

Publication number: CN113360129A
Application number: CN202110677717.XA
Authority: CN
Inventors: 谢芳
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-07

Abstract

本申请提供一种声音播放方法、装置、电子设备及可读存储介质，电子设备播放目标文件之前，对于目标文件的音频的每个音频片段，根据该音频片段中大部分采样点的采样值对音频片段处理并播放，使得电子设备的媒体播放音量设置好后，电子设备播放不同的目标文件时都能够输出一致的音量，使得用户的听感一致，无需用户手动调节电子设备的媒体播放音量，运算速度快、过程简单，给用户带来更好的音乐体验的同时，不影响现有的音乐播放逻辑。

Description

声音播放方法、装置、电子设备及可读存储介质

技术领域

本申请涉及多媒体控制技术领域，具体涉及一种声音播放方法、装置、电子设备及可读存储介质。

背景技术

随着技术的飞速发展，声音播放功能成为电子设备必不可缺的功能。用户能够利用电子设备播放音乐、录音等。

通常情况下，不同音频的音量是不同的，有的音频音量大，有的音频音量小。其中，音频也称之为播放源、声音源、音乐源等。对于经过音量标定的电子设备而言，播放音量不同的声音文件时，播放出来的音量大小差异很大。以播放音乐A和音乐B为例，音乐A的音量大，音乐B的音量小。假设电子设备的音量级别包括30级，用户将音量级别设定为15级并依次播放音乐A和音乐B，则音乐A可能比音乐B听起来音量大很多，导致用户感觉音乐A太大声或者音乐B音量太小。为克服该问题，使得电子设备播放音乐A和音乐B时用户听到的音量一致，则播放音乐A或播放音乐B时，需要用户对电子设备的音量级别进行调整。假设电子设备的媒体音量为15级时，音乐A的音量太大，用户将音量级别调整为14级，14级比15级低3分贝(dB)。

上述声音播放过程中，需要用户根据音乐自身音量的大小调节电子设备的媒体音量，过程繁琐。

发明内容

本申请实施例公开了一种声音播放方法、装置、电子设备及可读存储介质，通过将目标文件中大多数采样点的采样值统一到目标采样值，使得电子设备播放不同目标文件时输出一致的音量，无需手动调节电子设备的媒体音量，过程简单、方便。

第一方面，本申请实施例提供一种声音播放方法，包括：

接收请求播放包含音频的目标文件的播放指令；

响应所述播放指令，确定所述音频中滑动窗对应的音频片段的各采样点的采样值；

从所述音频片段各采样点的采样值中确定出参考采样值，所述参考采样值是所述滑动窗内出现次数最多的采样值；

根据所述参考采样值处理所述音频片段并播放。

第二方面，本申请实施例提供一种声音播放装置，包括：

接收模块，用于接收请求播放包含音频的目标文件的播放指令；

处理模块，用于响应所述播放指令，确定所述音频中滑动窗对应的音频片段的各采样点的采样值；

确定模块，用于从所述音频片段各采样点的采样值中确定出参考采样值，所述参考采样值是所述滑动窗内出现次数最多的采样值；

所述处理模块，还用于根据所述参考采样值处理所述音频片段；

播放模块，用于播放所述处理模块处理后的音频片段。

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时使得所述电子设备实现如上所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令在被处理器执行时用于实现如上所述的方法。

第五方面，本申请实施例提供一种包含计算程序的计算机程序产品，所述计算机程序被处理器执行时实现如上所述的方法。

本申请实施例提供的声音播放方法、装置、电子设备及可读存储介质，电子设备接收到请求播放包含音频的目标文件的播放指令后，响应该播放指令，确定音频中滑动窗口对应的音频片段中各采样点的采样值，从各采样点的采样值中确定出出现次数最多的采样值，将该采样值作为参考采样值，根据参考采样值处理音频片段中的各采样值并播放。采用该种方案，电子设备播放目标文件之前，对于目标文件的音频的每个音频片段，根据该音频片段中大部分采样点的采样值对音频片段处理并播放，使得电子设备的媒体播放音量设置好后，电子设备播放不同的目标文件时都能够输出一致的音量，使得用户的听感一致，无需用户手动调节电子设备的媒体播放音量，运算速度快、过程简单，给用户带来更好的音乐体验的同时，不影响现有的音乐播放逻辑。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是峰值标准化的过程示意图；

图2是本申请实施例提供的声音播放方法所适用的播放***框架图；

图3是本申请实施例提供的声音播放方法的流程图；

图4是本申请实施例提供的声音播放方法中的直方图；

图5是本申请实施例提供的声音播放方法中根据参考采样值处理音频片段的流程图；

图6是本申请实施例提供的声音播放方法的另一个流程图；

图7是本申请实施例所述的方法与依赖最大采样值标准化方案的对比图；

图8是本申请实施例提供的声音处理方法中大音量滑动窗的示意图；

图9为本申请实施例提供的声音播放装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着智能汽车的快速发展，车载多媒体***也越来越受用户的青睐。音乐播放就是车载多媒体***的一个重要功能，用户使用车载多媒体***播放音乐的频率越来越高。车载多媒体***之所以能够呈现给用户身临其境的听感体验，一方面得益于车辆高配置的音响***，另一方面得益于先进的音效算法。例如，一些车载终端配置13声道扬声器以及先进的音效算法，让音乐体验更加身临其境。

然而，目前市面上很多车载多媒体***以及传统的播放***都存在如下问题：不同的播放源的音量不同，有的播放源音量大，有的播放源音量小。其中，播放源例如为音乐等。对于已经经过音量标定的车辆而言，由于播放源的不同，导致该车辆的车载多媒体***播放不同的音乐时，播放出的音量大小差异很大。加之车载扬声器本身也是一个高功率的设备，播放源的微小差异会被后端功率放大器放大，带来巨大差异。

简言之，假设音乐A的音量大于音乐B的音量，标定后的车辆的媒体播放音量共有30个级别，将多媒体***的媒体播放音量设置为某个级别，如15级，利用车载多媒体***依次播放音乐A和音乐B。从用户的角度，音乐A听起来比音乐B的音量大很多。给用户带来不好的体验。

若用户想要音乐A和音乐B具有相同的听感，则需要在播放音乐A或音乐B时调节媒体播放音量。例如，播放音乐A时，将媒体播放音量从15级调节为14级。之后，播放音乐B时，再将媒体播放音量从14级调节为15级。该调节过程繁琐，很可能每次播放不同音乐时，都需要调节媒体播放音量，以适配不同音量的音乐。

而且，即使调节媒体播放音量，多媒体***播放音乐A和音乐B时，也不一定能给用户带来相同的听感。例如，音乐B比音乐A大了2分贝(dB)，相邻的两个媒体播放音量级别对应的音量的差值为3dB，若播放音乐A时，将媒体播放音量设置为15级。之后，播放音乐B时，将媒体播放音量从15级调整为14级后，则音乐B的音量少了3dB，少了3dB的音乐B带给用户的听感和音乐A带给用户的听感依旧不一样。

为解决多媒体***播放不同音乐输出音量不一致的问题，传统的解决方法是峰值标准化。

图1是峰值标准化的过程示意图。请参照图1，车载多媒体***对音乐进行解码后形成流媒体数据，对流媒体数据进行采样，得到最大采样值，最大采样值即为采样峰值。之后，根据最大采样值确定统一系数，根据统一系数对所有采样点进行峰值统一。峰值统一过程中，对流媒体数据的每个采样点的采样值乘以统一系数，得到新的采样值。该峰值统一过程相当于对流媒体数据的各采样点的采样值进行一次等比放大或衰减。之后，对峰值统一后的流媒体数据进行音量调节、音效调节等，对调节后的数字信号进行数模转换并播放。

然而，上述的峰值标准化方案的效果严重依赖于采样峰值的音量，导致即使标准化后，非峰值采样点的音量依然比较小，播放效果差。

基于此，本申请实施例提供一种声音播放方法、装置、电子设备及可读存储介质，通过将目标文件中大多数采样点的采样值统一到目标采样值，使得电子设备播放不同目标文件时输出一致的音量，无需手动调节电子设备的媒体音量，过程简单、方便。

本申请实施例提供的声音播放方法，应用于具备声音播放功能的电子设备，包括但不限于手机、平板电脑、运动相机、智能手表、智能手环、智能眼镜、车载终端设备等。上述的电子设备可以为便携式设备，如搭载IOS、Android、Windows或者其他操作***的电子设备。应当理解的是，在本申请其他一些实施例中，上述电子设备也可以不是便携式电子设备，而是具有触敏表面(例如触控面板)的台式计算机。

电子设备出厂时具有不同级别的媒体播放音量。例如，30级媒体播放音量，相邻级别的媒体播放音量之间的差值相同、呈倍数增大等。用户可灵活的根据语音指令、触摸指令、硬件按键等调节媒体播放音量。用户将电子设备的媒体播放音量设置为某个级别后，通话过程中，当用户对话筒小声或大声讲话时，对方的听感是不同的。播放不同目标文件时，例如播放目标文件1和目标文件2，目标文件1包含音频A，目标文件2包含音频B，音频A自身的音量大于音频B自身的音量，则电子设备通过执行本申请实施例所述的方法，使得电子设备输出音量一致，给用户带来相同的听感，无需用户调整媒体播放音量以适配不同的目标文件。

本申请实施例提供的声音播放方法可用于各种能够播放声音的应用程序(application，APP)等。服务器将本申请实施例提供的声音播放方法通过软件实现。电子设备可通过空中下载(Over-the-Air Technology，OTA)方式对APP进行升级，从而具备本申请实施例所述的声音播放的功能。升级过程简单。

图2是本申请实施例提供的声音播放方法所适用的播放***框架图。请参照图2，该播放框架包括：片上***(System-on-a-Chip，SoC)芯片、数字信号处理器(DigitalSignal Processing，DSP)、数模转换器(Digital to analog converter，DAC)、功率放大器(Power Amplifier，PA)以及扬声器等。SoC和DSP之间可通过I2C、I2S等进行通信，DSP和DAC连接，DAC和PA连接，PA和扬声器连接。其中，I2S例如为MI2S等。

开始播放目标文件时，对目标文件包含的音频进行解码后形成流媒体数据，该流媒体数据被发送至SoC。SoC中运行软件，用于控制播放器的暂停、播放等。电子设备可利用滑动窗的概念，从音频中确定出一个或多个音频片段。对于每个滑动窗，SoC中的软件还对该滑动窗对应的流媒体数据进行分析，以确定音频片段的参考采样值。之后，SoC根据参考采样值对音频片段的各采样点进行处理，调节处理后的音频片段的音量等。其中，音量调节例如：根据各级媒体播放音量，放大音频文件的音量、平滑处理等。另外，Soc还能够对音频片段的音效进行调节。

由于SoC的音量调节、音效调节功能有限，因此，Soc通过I2S接口将调节后的音频片段输出给DSP。该DSP也称之为音效DSP，由音效DSP进一步对音频片段进行音量调节和音效调节。例如，对音频片段进行均衡器(Equalize，EQ)、扬声器效果处理等。

DAC将经过DSP处理的流媒体数据转化为模拟信号，该模拟信号被PA放大后通过扬声器输出，从而使得用户听到声音。

图3是本申请实施例提供的声音播放方法的流程图。本实施的执行主体是电子设备，本实施例包括：

301、接收请求播放包含音频的目标文件的播放指令。

本申请实施例中，目标文件为包含音频的文件，例如，目标文件为音频文件或包含音频的视频文件。音频文件例如为音乐、录音等，音频的格式包括但不限于WAV、CDA、乐器数字接口(Musical Instrument Digital Interface，MIDI)、MP3等。

用户可通过语音、触摸等方式输入请求播放包含目标文件的播放指令。以目标文件为音乐A为例，用户通过语音的方式向电子设备说：“请播放音乐A”，则电子设备播放本地音乐A，或者在线搜索音乐A并播放。或者，用户点击电子设备显示屏上音乐A的图标，以使得电子设备播放音乐A。

302、响应所述播放指令，确定所述音频中滑动窗对应的音频片段中各采样点的采样值。

本申请实施例中，滑动窗的长度小于或等于音频。电子设备识别出播放指令后，可对全部滑动窗或部分滑动窗各自对应的音频片段进行处理。

处理过程中，电子设备从音频中确定出滑动窗对应的音频片段，并对音频片段对应的流媒体数据进行采样，以确定音频片段各采样点的采样值。例如，滑动窗的长度为10毫秒(ms)，即0.01秒，采样率为48000赫兹(Hz)，采用两声道采样，则采样点的数量为：48000×2×0.01＝960。电子设备确定该960个采样点中每个采样点的采样值。

303、从所述音频片段各采样点的采样值中确定出参考采样值，所述参考采样值是所述滑动窗内出现次数最多的采样值。

示例性的，每个采样点都有自己的采样值，不同采样点的采样值可能相同或不同。也就是说，有些采样值对应的采样点的数量比较大，有些采样值对应的采样点的数量比较小。电子设备统计各采样值对应的采样点的数量，从而确定出出现次数最多的采样值。

继续沿用上述的例子，当960个采样点中各采样点的采样值不同时，则有960个采样值。当960个采样点中部分采样点的采样值相同时，则采样值的数量小于或等于960。当采样值的数量小于或等于960时，电子设备确定各采样值对应的采样点的数量，将采样点的数量最多的采样值作为参考采样值。

当采样值的数量等于960时，电子设备对960个采样值按照从小到达的顺序排序，将序列划分为多个区间，不同区间采样值的范围不同。从多个区间中确定出采样点最多的区间，将该区间内的采样点的采样值的平均值作为参考采样值。

304、根据参考采样值播放所述音频片段。

示例性的，电子设备播放目标文件的过程中，当播放到音频片段时，根据参考采样值对音频片段中的每个采样点的采样值进行处理后再播放。

电子设备可以在识别出播放指令后，对每个滑动窗对应的音频片段进行上述步骤302和302的处理之后，存储各处理后的音频片段。之后，执行步骤304时，播放处理后的音频片段。

另外，电子设备也可以在识别出播放指令后，预测未来一个时间点之后一定时长内将要播放的内容。例如，此时为6点35分，电子设备预测6点36分起100ms播放的内容，并对该100ms的内容执行上述的步骤302和303。比如，确定出10个滑动窗对应的音频片段，确定每个音频片段各自的参考采样值等。之后，6点36分开始，电子设备播放经过步骤302和步骤303处理后的内容。该种方式中，电子设备边播放边进行声音播放处理，调节颗粒小，精准度高且时间成本低。

本申请实施例提供的声音播放方法，电子设备接收到请求播放包含音频的目标文件的播放指令后，响应该播放指令，确定音频中滑动窗口对应的音频片段中各采样点的采样值，从各采样点的采样值中确定出出现次数最多的采样值，将该采样值作为参考采样值，根据参考采样值处理音频片段中的各采样值并播放。采用该种方案，电子设备播放目标文件之前，对于目标文件的音频的每个音频片段，根据该音频片段中大部分采样点的采样值对音频片段处理并播放，使得电子设备的媒体播放音量设置好后，电子设备播放不同的目标文件时都能够输出一致的音量，使得用户的听感一致，无需用户手动调节电子设备的媒体播放音量，运算速度快、过程简单，给用户带来更好的音乐体验的同时，不影响现有的音乐播放逻辑。

可选的，上述实施例中，电子设备从所述音频片段中各采样点的采样值中确定出参考采样值时，根据音频片段中各采样点的采样值确定直方图，所述直方图用于指示不同采样值出现的次数。之后，电子设备根据所述直方图，确定所述参考采样值。

示例性的，电子设备对音频片段采样得到各采样点的采样值后，根据各采样点的采样值确定一个直方图，直方图的横坐标表示采样值，纵坐标表示采样值的出现次数。示例性的，请参照图4。

图4是本申请实施例提供的声音播放方法中的直方图。请参照图4，横坐标表示不同的采样值，每个采样值对应一个出现次数。粗黑实线表示采样值对应的采样点数量最多。也就是说，大部分采样点的采样值如图中粗黑实线指示的采样值。因此，根据直方图就能够确定出出现次数最多的采样值，即参考采样值。

若一段音频片段包含大音量部分和小音频部分，且小音频占比比较大，倘若采用求平均值的方式确定参考采样值，则大音量附近的声音被平均，对大音量造成影响。

采用该种方案，通过直方图确定参考采样值，而非通过求平均值等方式确定参考采样值，能够兼顾大部分采样点，避免影响音频片段中占比比较小的音量，准确度高。

图5是本申请实施例提供的声音播放方法中根据参考采样值处理音频片段的流程图。本实施例包括：

501、确定所述音频片段的目标采样值。

示例性的，音频片段出理论采样最大值(以下称之为理论采样值)是固定的，理论采样值通常用overload表示。理论采样值通常由采样位数决定。例如，对于16bit的音乐，可以用两个字节表示，即采样位数占用2个字节，也就是16比特，数据范围为-32768-32767。因此，overload＝32767。

电子设备可根据理论采样值确定目标采样值，目标采样值(以下用p_std)例如为0.8×overload。因此，对于16bit的音乐而言，p_std＝0.8×32767＝26213。

502、根据所述目标采样值和所述参考采样值确定统一系数。

假设大多数采样值为sample_most，则参考采样值等于sample_most。电子设备能够根据参考采样值和目标采样值得到一个统一系数g，g＝p_std/smple_most。

503、根据所述统一系数调整所述音频片段中各采样点的采样值。

示例性的，电子设备将滑动窗内每个采样点的采样值乘以统一系数，就能够将滑动窗内大多数采样值统一到目标采样值，从而实现统一音量输出的目的。

以滑动窗为10ms、采样率为48000赫兹(Hz)，采用两声道采样为例，则采样点的数量N＝48000×2×0.01＝960，共960个采样点，采样值分别表示为sample0、sample1、sample2……sample959。

将960个采样点中第i(0≤i≤959)个采样点的采样值表示为sample i，则电子设备确定出统一系数g后，对所有采样点进行统一化处理，得到新的采样值。用sample_newi表示新的采样值，则：

Sample_newi＝sample i×g。

504、播放调整采样值后的音频片段。

采用该种方案，通过根据目标采样值和参考采样值确定出一个统一系数，将滑动窗内各采样点的采样值乘以一个统一系数，从而将滑动窗内大多数采样点的采样值统一到目标采样值，实现统一音量输出的目的。

上述实施例中，电子设备从音频片段中各采样点的采样值中确定出参考采样值之前，还从所述音频片段中各采样点的采样值中确定出最大采样值，若最大采样值小于预设采样值，才进一步地确定参考采样值，根据参考采样值和目标采样值确定统一系数。当所述最大采样值大于或等于所述预设采样值时，直接播放所述音频片段，而不对音频片段中各采样点的采样值进行处理。

示例性的，电子设备确定出音频片段中各采样点的采样值后，能够从该些采样值中确定出最大采样值。例如，通过遍历采样值的方式确定出最大采样值，遍历函数如下：

p_max＝MAX(sample i)，i＝0,1,2……。

上述遍历函数中，p_max表示最大采样值。

一种实施例中，可以通过如下接口获得音频片段的最大采样值，最大采样值也称之为采样峰值。接口如下：

static int get_peak(int samples[],int offset,int N)

其中，samples指向音频片段的采样点的采样值数组，offset是需要获取峰值的数据位置，即音频片段的首个采样点在音频中的位置，N为音频片段的采样点的个数。

电子设备还能够根据音频片段的理论采样值确定出一个预设采样值，该预设采样值例如大于上述的目标采样值。当音频片段的一个或多个采样值个大于预设采样值时，比如，音频片段的最大采样值大于预设采样值、音频片段的最小采样值大于预设采样值，或者，该音频片段中除了最大采样值大于预设采样值外，还存在其他采样值大于预设采样值，但是该音频片段的最小采样值小于预设采样值。此时，电子设备直接播放该音频片段。

以理论采样值为overload为例，预设采样值例如为0.9×overload。当音频片段中所有采样值都小于或等于预设采样值时，执行本申请的方法，即根据各采样点的采样值确定参考采样值，根据参考采样值调整音频片段中每个采样点的采样值并播放。当音频片段中存在一个或多个大于预设采样值的采样值时，电子设备不对音频片段的各采样点的采样值进行处理，而是直接播放该音频片段。

采用该种方案，当滑动窗内出现大音量时，不对滑动窗内的声音做统一化处理，能够保留大音量输出，让音量输出具有更大的动态范围。也就是说，本申请提供的声音播放方法，既能标准化输出音量，又能兼容声音的动态范围。在一些需要高动态范围的播放场景，如电影院等，具有更好的听觉体验。

可选的，上述实施例中，音频片段的长度可以等于或小于目标文件包含的音频。当音频片段的长度小于音频的长度时，说明音频包含一个或多个滑动窗。对于每个滑动窗，电子设备从声音文件对应的采样点中确定出所述音频片段的首个采样点。之后，根据滑动窗的长度和所述首个采样点，从所述声音文件中确定出所述音频片段。

示例性的，假设音频的长度为3分钟(min)，当采样率为48000赫兹(Hz)，采用两声道采样时，采样点的数量为：48000×2×3×60。假设滑动窗为10ms，则3分钟的音频包含300个10ms的音频片段。电子设备可以对该300个音频片段中的一个或多个执行上述的声音播放方法。对于每个音频音频，电子设备根据滑动窗长度、音频片段的首个采样点的位置，就能够确定出音频片段。

采用该种方案，电子设备根据首个采样点的位置和滑动窗的长度，从音频中确定出音频片段，从而有针对性的进行声音播放处理，灵活度高、速度快。

可选的，上述实施例中，电子设备根据所述参考采样值处理所述音频片段并播放之前，还调节电子设备的媒体播放音量。

本申请实施例中，媒体播放音频为电子设备本身的音量，用户可通过语音、触摸或按压物理按键的方式调整媒体播放音量。例如，按压手机的物理案件能够调整手机的媒体播放音量；再如，电子设备为智能音箱时，用户对智能音箱讲出唤醒词并发出语音指令“声音调大一些”，从而对智能音箱的媒体播放音量进行调节。

另外，很多应用程序(application，APP)也具备音量调节功能，例如视频播放APP、音乐播放APP等，用户可通过语音方式、触摸方式调节APP的音量。

当媒体音量设置不合理时，采用本申请所述的声音播放方法无法达到良好的效果。例如，音乐A的声音比较大，媒体播放音量也很大，即使采用本申请实施例所述的声音播放方法调节音乐A，但是由于媒体播放音量也很大，使得调节后的音乐A的音量依旧很大。

因此，电子设备播放音乐A之前，对电子设备的媒体播放音量进行调节，使得电子设备的媒体播放音量处于合理的位置。在此基础上，对音频进行声音播放处理，从而使得最终播放出的声音效果最佳。

图6是本申请实施例提供的声音播放方法的另一个流程图。本实施例包括：

601、设置媒体播放音量。

以电子设备为车载终端为例，车载终端的媒体播放音量通常有30个等级。用户可根据喜好、当前环境等设置媒体播放音量。例如，若当前环境嘈杂，则将媒体播放音量设置的比较高，比如20级。再如，若用户喜欢听音量较小的音乐，则将媒体播放音量设置的比较低。

602、接收请求播放包含音频的目标文件的播放指令。

603、响应播放指令，获取滑动窗内音频片段的最大采样值。

604、对比最大采样值和预设采样值，当最大采样值大于或等于预设采样值时，执行步骤605；当最大采样值小于预设采样值时，执行步骤606。其中，预设采样值例如为0.9×理论最大采样值overload、0.85×overload等。

需要说明的是，虽然本步骤是以对比音频的最大采样值和预设采样值为进行说明，然而本申请实施例并不以此为限制，其他可行的实现方式中，也可以是只要音频片段对应的采样值中存在大于预设采样值的采样值时，就直接播放音频片段。

605、播放音频片段。

电子设备播放目标文件的过程中，不对音频片段的采样点的采样值进行处理，而是直接播放。

606、获取滑动窗内音频片段的参考采样点。

具体可参见上述图3步骤302和303的描述，此处不再赘述。

607、根据参考采样点和目标采样点确定统一系数。

其中，目标采样点例如为0.8×理论最大采样值。

608、根据统一系数处理音频片段的各采样点的采样值。

例如，将每个采样值乘以统一系数，从而得到新的采样值。

609、播放调整采样值后的音频片段。

电子设备播放目标文件的过程中，当播放音频片段时，播放对采样点的采样值进行处理后的音频片段。

图7是本申请实施例所述的方法与依赖最大采样值标准化方案的对比图。请参照图7，目标文件的波形如左边波形所示，中间的波形表示采用现有技术中依赖最大采样值标准化方案得到的波形，右边的波形表示采用本申请实施例所述的声音播放方法处理后的波形。

左边波形包括音量较小部分和音量较大部分的的波形。例如，目标文件是一段音乐片段，开始是唱歌的声音，后面出现的大音量部分为鼓声等。

采用传统的峰值标准化方案后，非鼓声部分的音量依然比较小，而鼓声音量很大。

采用本申请实施例所述的声音播放方法处理目标文件的音频时，利用滑动窗能够从目标文件的音频中得到至少两个音频片段，一个音频片段为鼓声部分，另一个音频片段为非鼓声部分。其中，滑动窗如图中矩形框所示。

显然，该两个音频片段各自的参考采样值不同，因此，该两个音频片段各自的统一系数也不同。非鼓声部分，利用该部分的统一系数乘以各采样点的采样值，从而将非鼓声部分的音量增大。鼓声部分，利用另一个统一系数乘以鼓声部分各采样点的采样值，从而增大鼓声部分的音量，但是增幅小于非鼓声部分的增幅。

另外，当滑动窗内出现大音量时，例如，滑动窗内的最大采样值大于预设采样值时，可以不对滑动窗内的声音做统一处理。从而保留大音量输出，让音量输出具有更大的动态范围。示例性的，请参照图8。

图8是本申请实施例提供的声音处理方法中大音量滑动窗的示意图。请参照图8：鼓声部分的音量比较大，最大采样值超过一个预设采样值，该预设采样值例如为0.9乘以理论最大采样值overload。此时，可以不对滑动窗内的各采样点的采样值进行缩放，从而保留最大音量输出。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图9为本申请实施例提供的声音播放装置的结构示意图。该声音播放装置900包括：接收模块91、处理模块92、确定模块93、播放模块94。

接收模块91，用于接收请求播放包含音频的目标文件的播放指令；

处理模块92，用于响应所述播放指令，确定所述音频中滑动窗对应的音频片段的各采样点的采样值；

确定模块93，用于从所述音频片段各采样点的采样值中确定出参考采样值，所述参考采样值是所述滑动窗内出现次数最多的采样值；

所述处理模块92，还用于根据所述参考采样值处理所述音频片段；

播放模块94，用于播放所述处理模块92处理后的音频片段。

一种可行的实现方式中，所述确定模块93，用于根据音频片段中各采样点的采样值确定直方图，所述直方图用于指示不同采样值出现的次数；根据所述直方图，确定所述参考采样值。

一种可行的实现方式中，所述处理模块92根据所述参考采样值处理所述音频片段时，用于确定所述音频片段的目标采样值；根据所述目标采样值和所述参考采样值确定统一系数；根据所述统一系数调整所述音频片段中各采样点的采样值；

所述播放模块94，用于播放调整采样值后的音频片段。

一种可行的实现方式中，所述确定模块93从所述音频片段中各采样点的采样值中确定出参考采样值之前，还用于从所述音频片段中各采样点的采样值中确定出最大采样值，确定所述最大采样值小于预设采样值。

一种可行的实现方式中，所述播放模块94，还用于当所述确定模块93确定出所述最大采样值大于或等于所述预设采样值时，播放所述音频片段。

一种可行的实现方式中，所述确定模块93确定所述声音文件中滑动窗对应的音频片段中各采样点的采样值之前，还用于确定所述声音文件对应的采样点中确定出所述音频片段的首个采样点；根据所述滑动窗的长度和所述首个采样点，从所述声音文件中确定出所述音频片段。

一种可行的实现方式中，所述处理模块92根据所述参考采样值处理所述音频片段之前，还用于调节所述电子设备的媒体播放音量。

本申请实施例提供的声音播放装置，可以执行上述实施例中电子设备的动作，其实现原理和技术效果类似，在此不再赘述。

图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示，该电子设备1000包括：

处理器1001和存储器1002；

所述存储器1002存储计算机指令；

所述处理器1001执行所述存储器1002存储的计算机指令，使得所述处理器1001执行如上所述的声音播放方法。

处理器1001的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该电子设备10000还包括通信部件1003。其中，处理器1001、存储器1002以及通信部件1003可以通过总线1004连接。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器执行时用于实现如上所述的声音播放方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包含计算机程序，计算机程序被处理器执行时实现如上所述的声音播放方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种声音播放方法，其特征在于，应用于电子设备，所述方法包括：

接收请求播放包含音频的目标文件的播放指令；

根据所述参考采样值处理所述音频片段并播放。

2.根据权利要求1所述的方法，其特征在于，所述从所述音频片段中各采样点的采样值中确定出参考采样值，包括：

根据音频片段中各采样点的采样值确定直方图，所述直方图用于指示不同采样值出现的次数；

根据所述直方图，确定所述参考采样值。

3.根据权利要求1所述的方法，其特征在于，所述根据所述参考采样值处理所述音频片段并播放，包括：

确定所述音频片段的目标采样值；

根据所述目标采样值和所述参考采样值确定统一系数；

根据所述统一系数调整所述音频片段中各采样点的采样值；

播放调整采样值后的音频片段。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述从所述音频片段中各采样点的采样值中确定出参考采样值之前，还包括：

从所述音频片段中各采样点的采样值中确定出最大采样值；

确定所述最大采样值小于预设采样值。

5.根据权利要求4所述的方法，其特征在于，还包括：

当所述最大采样值大于或等于所述预设采样值时，播放所述音频片段。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述确定所述声音文件中滑动窗对应的音频片段中各采样点的采样值之前，还包括：

确定所述声音文件对应的采样点中确定出所述音频片段的首个采样点；

根据所述滑动窗的长度和所述首个采样点，从所述声音文件中确定出所述音频片段。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述参考采样值处理所述音频片段并播放之前，还包括：

调节所述电子设备的媒体播放音量。

8.一种使用播放装置，其特征在于，包括：

播放模块，用于播放所述处理模块处理后的音频片段。

9.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时使得所述电子设备实现如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的方法。