CN107680614A

CN107680614A - 音频信号处理方法、装置和存储介质

Info

Publication number: CN107680614A
Application number: CN201710919028.9A
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2018-02-09
Anticipated expiration: 2037-09-30
Also published as: CN107680614B

Abstract

本发明公开了一种音频信号处理方法、装置和存储介质，属于视频处理技术领域。方法包括：当终端检测到识别指令时，先确定指定用户的音频信号的第一频谱序列，该识别指令用于指示检测该指定用户是否在演唱指定曲目；终端根据该第一频谱序列，确定该音频信号的突变时间集合，该突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；对比所述音频信号的突变时间集合和所述指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出所述对比结果对应的提示信息，所述提示信息用于指示所述指定用户是否在演唱。通过突变时间集合和指定曲目的基准突变时间集合进行识别，提高该识别指定用户是否在演唱的方法的实用性。

Description

音频信号处理方法、装置和存储介质

技术领域

本发明涉及视频处理技术领域，特别涉及一种音频文件处理方法、装置和存储介质。

背景技术

网络直播是通过直播应用提供的一种网络服务，是目前广受欢迎的一种娱乐形式。直播应用设置不同的直播间，例如，唱歌直播间、讲故事直播间或者教学直播间等。主播用户可以在不同的直播间进行不同类型的视频直播。然而有些主播用户在直播间中不进行该直播间对应的视频直播。例如，主播用户在唱歌直播间中并不进行唱歌直播，而是在做其他事情。因此，当主播用户在唱歌直播间时，需要检测该主播用户是否在唱歌。

相关技术中，当主播用户在唱歌直播间中演唱指定歌曲时，识别该主播用户是否在唱歌的过程可以为：终端采集主播用户的音频信号，提取该音频信号的音高序列，获取该指定歌曲对应标准音高序列，该标准音高序列为工作人员事先通过人工标注的方式得到的。终端计算该音频信号的音高序列与该标准音高序列之间的相似度，如果该相似度不小于一定数值，则终端确定该主播用户在唱歌，否则，终端确定该主播用户没有在唱歌。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

上述方法需要事先通过人工标注的方式进行人工识别出标准音高序列，然而，由于目前市场上原创歌曲数量繁多，人工识别的效率极低，目前，大部分的原创歌曲没有对应的标准应高序列，当主播用户唱歌直播的原创歌曲没有对应的标准音高序列时，将无法进行识别，从而导致上述方法的实用性差。

发明内容

本发明提供了一种音频信号处理方法、装置和存储介质，可以解决现有技术实用性差的问题。技术方案如下：

第一方面，提供一种音频信号处理方法，所述方法包括：

当检测到识别指令时，确定指定用户的音频信号的第一频谱序列，所述识别指令用于指示检测所述指定用户是否在演唱指定曲目；

根据所述第一频谱序列，确定所述音频信号的突变时间集合，所述突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；

对比所述音频信号的突变时间集合和所述指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出所述对比结果对应的提示信息，所述提示信息用于指示所述指定用户是否在演唱。

在一种可能的设计中，所述根据所述第一频谱序列，确定所述音频信号的突变时间集合，包括：

根据所述第一频谱序列中的每个频谱值，确定相邻两个频谱值之间的差异度；

当相邻两个频谱值之间的差异度大于预设差异度时，将大于预设差异度的相邻两个频谱值对应的时间点中的一个时间点组成突变时间集合。

在一种可能的设计中，所述对比所述音频信号的突变时间集合和所述指定曲目对应的基准突变时间集合之间的相似度，得到比对结果，输出所述比对结果对应的提示信息，包括：

确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度；

当所述比对结果为所述相似度大于预设相似度时，确定所述比对结果对应的提示信息指示所述指定用户在演唱，输出指示所述指定用户在演唱的提示信息；

当所述比对结果为所述相似度不大于所述预设相似度时，确定所述比对结果对应的提示信息指示所述指定用户没在演唱，输出指示所述指定用户没在演唱的提示信息。

在一种可能的设计中，所述确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度，包括：

确定所述基准突变时间集合中的匹配点的数目，匹配点为所述基准突变时间集合中与所述音频信号的突变时间集合中的时间点匹配的时间点；

根据所述数目和所述基准突变时间集合中的时间的总数目，确定所述相似度。

在一种可能的设计中，所述基准突变时间集合包括多个基准突变时间子集合，一个基准突变时间子集合对应所述指定曲目的一个基准音频子信号；

所述确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度，包括：

将所述音频信号的突变时间集合划分为多个突变时间子集合；

确定多组子集合，一组子集合包括同一个基准音频子信号对应的基准突变时间子集合和突变时间子集合；

分别确定每组子集合的相似度；

根据所述每组子集合的相似度，确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度。

在一种可能的设计中，所述第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列中的任一序列；所述确定指定用户的音频信号的第一频谱序列，包括：

当所述第一频谱序列为短时频谱序列时，采集所述指定用户的音频信号，对所述音频信号进行分帧、加窗处理和短时傅里叶变换，得到所述音频信号的短时频谱序列，将所述短时频谱序列作为第一频谱序列；

当所述第一频谱序列为短时对数频谱序列时，采集所述指定用户的音频信号，对所述音频信号进行分帧、加窗处理和短时傅里叶变换，得到所述音频信号的短时频谱序列，对所述短时频谱序列进行对数变换，得到所述短时对数频谱序列，将所述短时对数频谱序列作为所述音频信号的第一频谱序列；

当所述第一频谱序列为短时倒谱序列时，采集所述指定用户的音频信号，对所述音频信号进行分帧、加窗处理和短时傅里叶变换，得到所述音频信号的短时频谱序列，对所述短时频谱序列进行对数变换，得到所述短时对数频谱序列，对所述短时对数频谱序列进行逆傅里叶变换，得到所述短时倒谱序列，将所述短时倒谱序列作为所述音频信号的第一频谱序列。

在一种可能的设计中，所述对比所述音频信号的突变时间集合和所述指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出所述对比结果对应的提示信息之前，所述方法包括：

获取所述指定曲目的歌词或曲谱；

获取所述制定曲目的时间戳，确定所述歌词中每个字符或曲谱中每个音符所对应的时间点；

将所述歌词中每个字符或曲谱中每个音符所对应的时间点组成所述指定曲目对应的基准突变时间集合。

第二方面，提供一种音频信号处理装置，所述装置包括：

第一确定模块，用于当检测到识别指令时，确定指定用户的音频信号的第一频谱序列，所述识别指令用于指示检测所述指定用户是否在演唱指定曲目；

第二确定模块，用于根据所述第一频谱序列，确定所述音频信号的突变时间集合，所述突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；

输出模块，用于对比所述音频信号的突变时间集合和所述指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出所述对比结果对应的提示信息，所述提示信息用于指示所述指定用户是否在演唱。

在一种可能的设计中，所述第二确定模块，包括：

第一确定单元，用于根据所述第一频谱序列中的每个频谱值，确定相邻两个频谱值之间的差异度；

组成单元，用于当相邻两个频谱值之间的差异度大于预设差异度时，将大于预设差异度的相邻两个频谱值对应的时间点中的一个时间点组成突变时间集合。

在一种可能的设计中，所述输出模块，还用于确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度；当所述比对结果为所述相似度大于预设相似度时，确定所述比对结果对应的提示信息指示所述指定用户在演唱，输出指示所述指定用户在演唱的提示信息；当所述比对结果为所述相似度不大于所述预设相似度时，确定所述比对结果对应的提示信息指示所述指定用户没在演唱，输出指示所述指定用户没在演唱的提示信息。

在一种可能的设计中，所述输出模块，还用于确定所述基准突变时间集合中的匹配点的数目，匹配点为所述基准突变时间集合中与所述音频信号的突变时间集合中的时间点匹配的时间点；根据所述数目和所述基准突变时间集合中的时间的总数目，确定所述相似度。

所述输出模块，包括：

划分单元，用于将所述音频信号的突变时间集合划分为多个突变时间子集合；

第二确定单元，用于确定多组子集合，一组子集合包括同一个基准音频子信号对应的基准突变时间子集合和突变时间子集合；

所述第二确定单元，还用于分别确定每组子集合的相似度；根据所述每组子集合的相似度，确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度。

在一种可能的设计中，所述第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列中的任一序列；

所述第一确定模块，还用于当所述第一频谱序列为短时频谱序列时，采集所述指定用户的音频信号，对所述音频信号进行分帧、加窗处理和短时傅里叶变换，得到所述音频信号的短时频谱序列，将所述短时频谱序列作为第一频谱序列；

所述第一确定模块，还用于当所述第一频谱序列为短时对数频谱序列时，采集所述指定用户的音频信号，对所述音频信号进行分帧、加窗处理和短时傅里叶变换，得到所述音频信号的短时频谱序列，对所述短时频谱序列进行对数变换，得到所述短时对数频谱序列，将所述短时对数频谱序列作为所述音频信号的第一频谱序列；

所述第一确定模块，还用于当所述第一频谱序列为短时倒谱序列时，采集所述指定用户的音频信号，对所述音频信号进行分帧、加窗处理和短时傅里叶变换，得到所述音频信号的短时频谱序列，对所述短时频谱序列进行对数变换，得到所述短时对数频谱序列，对所述短时对数频谱序列进行逆傅里叶变换，得到所述短时倒谱序列，将所述短时倒谱序列作为所述音频信号的第一频谱序列。

在一种可能的设计中，所述装置包括：

获取模块，用于获取所述指定曲目的歌词或曲谱；

第三确定模块，用于获取所述制定曲目的时间戳，确定所述歌词中每个字符或曲谱中每个音符所对应的时间点；

组成模块，用于所述歌词中每个字符或曲谱中每个音符所对应的时间点组成所述指定曲目对应的基准突变时间集合。

第三方面，提供一种音频信号处理装置，包括处理器和存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的计算机程序，实现第一方面所述的方法步骤。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法步骤。

本发明实施例中，当终端检测到识别指令时，先确定指定用户的音频信号的第一频谱序列，该识别指令用于指示检测该指定用户是否在演唱指定曲目；终端根据该第一频谱序列，确定该音频信号的突变时间集合，该突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；对比音频信号的突变时间集合和指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出对比结果对应的提示信息，提示信息用于指示指定用户是否在演唱。由于基于音频信号的第一频谱序列确定突变时间集合，通过该突变时间集合和指定曲目的基准突变时间集合进行识别，目前的曲目均有基准突变时间集合，因此，本发明实施例提供的识别方法应用较为广泛，提高该识别指定用户是否在演唱的方法的实用性。

附图说明

图1是本发明实施例提供的一种音频信号处理方法的实施环境示意图；

图2是本发明实施例提供的一种音频信号处理方法流程图；

图3是本发明实施例提供的一种音频信号处理方法流程图；

图4是本发明实施例提供的一种音频信号处理装置结构示意图；

图5是本发明实施例提供的一种音频信号处理装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1为音频信号处理方法的实施环境示意图，该实施环境包括：指定用户的终端101和服务器102。终端101和服务器102之间通过有线或者无线网络连接。终端101中运行服务器102关联的应用程序，终端101可以基于用户标识登录该应用程序，以登录服务器102，从而与服务器102进行交互。

应用程序为任一可以采集音频信号的应用程序，例如，直播应用或者K歌应用等。指定用户为正在进行演唱的用户。例如，当该应用程序为直播应用时，该指定用户可以为主播用户；当该应用程序为K歌应用时，该指定用户可以为当前K歌的用户。

然而，有时指定用户在直播应用的直播间内并不进行演唱，从而对该直播间的观众用户带来较差的用户体验，因此，当指定用户在标记自己在演唱指定曲目时，检测该指定用户是否真的在演唱指定曲目。在本发明实施例中，可以由终端101检测该指定用户是否在演唱，也可以由服务器102检测该用户是否在演唱。在本发明实施例中，以终端101检测指定用户是否在演唱为例进行说明。该指定曲目可以为指定的歌曲、小品、相声等曲目。

终端101可以为手机设备、PAD(Portable Android Device，平板电脑)设备或者电脑设备等任一能够采集音频信号的设备。服务器102是指为终端101提供后台服务的服务器102，可以为一台服务器102，或者由若干台服务器102组成的服务器102集群，或者是一个云计算服务器102中心，本发明实施例对此不做限定。在一种可能的实现方式中，服务器102可以为终端101中安装的直播应用的后台服务器。

图2为本发明实施例提供的一种音频信号处理方法流程图，该方法可以应用在终端中，如图2所示，该方法包括以下步骤。

步骤201：当检测到识别指令时，确定指定用户的音频信号的第一频谱序列，该识别指令用于指示检测该指定用户是否在演唱指定曲目；

步骤202：根据该第一频谱序列，确定该音频信号的突变时间集合，该突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；

步骤203：对比该音频信号的突变时间集合和该指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出该对比结果对应的提示信息，该提示信息用于指示该指定用户是否在演唱。

在一种可能的设计中，该根据该第一频谱序列，确定该音频信号的突变时间集合，包括：

根据该第一频谱序列中的每个频谱值，确定相邻两个频谱值之间的差异度；

在一种可能的设计中，对比该音频信号的突变时间集合和该指定曲目对应的基准突变时间集合之间的相似度，得到比对结果，输出该比对结果对应的提示信息，包括：

确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度；

当该比对结果为该相似度大于预设相似度时，确定该比对结果对应的提示信息指示该指定用户在演唱，输出指示该指定用户在演唱的提示信息；

当该比对结果为该相似度不大于该预设相似度时，确定该比对结果对应的提示信息指示该指定用户没在演唱，输出指示该指定用户没在演唱的提示信息。

在一种可能的设计中，该确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度，包括：

确定该基准突变时间集合中的匹配点的数目，匹配点为该基准突变时间集合中与该音频信号的突变时间集合中的时间点匹配的时间点；

根据该数目和该基准突变时间集合中的时间的总数目，确定该相似度。

在一种可能的设计中，该基准突变时间集合包括多个基准突变时间子集合，一个基准突变时间子集合对应该指定曲目的一个基准音频子信号；

该确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度，包括：

将该音频信号的突变时间集合划分为多个突变时间子集合；

分别确定每组子集合的相似度；

根据该每组子集合的相似度，确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度。

在一种可能的设计中，该方法还包括：

当确定该指定用户没在演唱时，向服务器发送指示消息，该指示消息用于指示该指定用户没在演唱，以使该服务器对该指定用户进行指定处理，该指定处理包括：提醒该指定用户的观众用户该指定用户没在演唱和/或对该指定用户进行惩罚。

在一种可能的设计中，该第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列中的任一序列；该确定指定用户的音频信号的第一频谱序列，包括：

当该第一频谱序列为短时频谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，将该短时频谱序列作为第一频谱序列；

当该第一频谱序列为短时对数频谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，对该短时频谱序列进行对数变换，得到该短时对数频谱序列，将该短时对数频谱序列作为该音频信号的第一频谱序列；

当该第一频谱序列为短时倒谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，对该短时频谱序列进行对数变换，得到该短时对数频谱序列，对该短时对数频谱序列进行逆傅里叶变换，得到该短时倒谱序列，将该短时倒谱序列作为该音频信号的第一频谱序列。

在一种可能的设计中，该对比该音频信号的突变时间集合和该指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出该对比结果对应的提示信息之前，该方法包括：

获取该指定曲目的歌词或曲谱；

获取该制定曲目的时间戳，确定该歌词中每个字符或曲谱中每个音符所对应的时间点；

将该歌词中每个字符或曲谱中每个音符所对应的时间点组成该指定曲目对应的基准突变时间集合。

本发明实施例中，当终端检测到识别指令时，先确定指定用户的音频信号的第一频谱序列，该第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列，该识别指令用于指示检测该指定用户是否在演唱指定曲目；终端根据该第一频谱序列，确定该音频信号的突变时间集合，该突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；对比音频信号的突变时间集合和指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出对比结果对应的提示信息，提示信息用于指示指定用户是否在演唱。由于基于音频信号的第一频谱序列确定突变时间集合，通过该突变时间集合和指定曲目的基准突变时间集合进行识别，目前的曲目均有基准突变时间集合，因此，本发明实施例提供的识别方法应用较为广泛，提高该识别指定用户是否在演唱的方法的实用性。

图3为本发明实施例提供的一种音频信号处理方法流程图，该方法可以应用在终端中，也可以应用在服务器中，本发明实施例对此不作具体限定，本发明实施例仅以终端为例进行说明，如图3所示，该方法包括以下步骤。

步骤301：当检测到识别指令时，终端确定指定用户的音频信号的第一频谱序列，该识别指令用于指示检测该指定用户是否在演唱指定曲目。

本发明实施例中，终端可以在该直播应用的界面中显示直播按钮，指定用户可以通过触发该直播按钮，开启该演唱曲目的直播间，从而向观众用户进行直播。然而，该指定用户在该演唱曲目的直播间内可能并不进行演唱，从而白白浪费进入该直播间的等待观看的观众用户的时间，或者，该指定用户实际演唱时，由于该指定用户的终端的故障、网络信号较差等原因，使得该直播间内显示该指定用户未在演唱，从而导致直播间内的观众用户无法观看，给指定用户以及观众用户带来较差的用户体验。因此，为了提升指定用户和观众用户的用户体验，终端可以识别直播间内的指定用户是否在演唱。当终端检测到达到预设识别条件时，终端获取识别指令，该识别指令用于指示终端检测该指定用户是否在演唱指定曲目。

其中，该预设识别条件可以包括但不限于：当该直播按钮被触发时，或者该直播间被开启后达到一定时间时，或者观众用户的终端中的识别按钮被触发时，或者，该预设识别条件还可以为终端检测到该直播间内没有声音时等。相应的，终端获取识别指令的实现方式包括但不限于以下(1)-(4)中任一种方式：

(1)：当终端检测到该直播按钮被触发时，终端生成识别指令。

(2)：当终端检测到当前时间与该直播间的开启时间之差大于预设时间差时，终端生成识别指令。

其中，该预设时间差可以根据用户需要设置并更改，本发明实施例对此不做具体限定。例如，该预设时间差可以为2秒、6秒等。

(3)：终端接收服务器发送的识别指令，该识别指令为观众终端检测到当前的直播界面中的识别按钮被触发时发送给服务器的。

其中，观众用户可以通过触发直播间的直播界面中的识别按钮，以触发观众终端生成识别指令，观众终端向服务器发送该识别指令，服务器向该指定用户的终端转发识别指令，该指定用户的终端接收该服务器转发的识别指令。

需要说明的是，本发明实施例中的终端是指指定用户使用的终端，观众终端是指观看该指定用户的观众用户使用的终端。

(4)：当终端检测到该直播间内的音频信号在预设时长内不发生变化时，终端生成识别指令。

其中，该直播间被开启时，终端开始实时检测该直播间内的音频信号的变化情况，该预设时长可以根据用户需要设置并更改，本发明实施例对此不做具体限定。例如，该预设时长可以为10秒、6秒等。

其中，终端可以基于该指定用户在该演唱曲目的直播间中播放的音频信号进行检测，因此，当终端检测到该识别指令时，终端确定指定用户的音频信号的第一频谱序列，该第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列中的任一序列，相应的，终端确定指定用户的音频信号的第一频谱序列的实现方式可以包括以下三种。

对于第一种实现方式，当该第一频谱序列为短时频谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，将该短时频谱序列作为第一频谱序列。

本发明实施例中，当该终端检测到识别指令时，终端采集指定用户在该直播间内的音频信号，按照预设帧长，将该音频信号划分为多帧音频子信号，每帧音频子信号的长度为该预设帧长；同时，为了防止频谱泄漏，对于每帧音频子信号，终端通过预设窗函数，对该帧音频子信号进行加窗处理，得到加窗处理后的多帧音频子信号；终端对加窗处理后的每帧音频子信号进行短时傅里叶变换，得到多帧短时频谱信号，将该多帧短时频谱信号的频谱值组成第一频谱序列。

其中，该预设帧长和预设窗函数可以根据用户需要设置并更改，本发明实施例对此不作具体限定。例如，该预设帧长可以为25毫秒、30毫秒等。该预设窗函数可以为汉宁窗函数、汉明窗函数等。

对于第二种实现方式，当该第一频谱序列为短时对数频谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，对该短时频谱序列进行对数变换，得到该短时对数频谱序列，将该短时对数频谱序列作为该音频信号的第一频谱序列。

其中，终端得到该短时频普序列后，对于该短时频谱序列中的每帧短时频谱信号，终端将每帧短时频谱信号进行对数变换，得到每帧短时对数频谱信号，将每帧短时对数频谱信号的频谱值组成第一频谱序列。终端得到短时频谱序列的方式同上述第一种实现方式中涉及的方式一致，此处不再一一赘述。

需要说明的是，短时对数频谱信号较为平滑，可以更好的体现出该音频信号中声音的细节波动，从而使得该第一频谱序列与该音频信号对应的实际声音更为贴近，提高了识别指定用户是否在唱歌的准确率。

对于第三种实现方式，当该第一频谱序列为短时倒谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，对该短时频谱序列进行对数变换，得到该短时对数频谱序列，对该短时对数频谱序列进行逆傅里叶变换，得到该短时倒谱序列，将该短时倒谱序列作为该音频信号的第一频谱序列。

其中，基于上述第二种实现方式中的方法，终端得到短时对数频谱序列，对于每帧短时对数频谱信号，将每帧短时对数频谱信号进行逆傅里叶变换，得到每帧短时倒谱信号，将每帧短时倒谱信号的频谱值组成第一频谱序列。

需要说明的是，短时倒谱信号的抗干扰性能较好，因此，终端将每帧短时倒谱信号的频谱值组成第一频谱序列，从而有效减少环境因素带来的干扰，提高了确定该第一频谱序列的准确性。

本发明实施例中，由于人的发声模型在发出不同的字符时，人发出的音频信号在频域上的频谱值可以更为稳健的体现出该音频信号的节奏特征，相较于该音频信号的音高、发生密度等特征，该音频信号的第一频谱序列可以更为准确的体现出人声的发声模型发出不同字符时的变化，从而大大提高了识别指定用户是否在演唱的准确率。

步骤302：终端根据该第一频谱序列，确定该音频信号的突变时间集合，该突变时间集合包括多个时间点，一个时间点对应一个突变频谱值。

本发明实施例中，由于指定用户在演唱指定曲目时，指定用户可以根据该指定曲目的歌词或曲谱进行演唱，该指定曲目的歌词包括多个字符，该字符可以为汉字、英文单词或者其他任意语种的单词；该指定曲目的曲谱包括多个音符，该音符可以为简谱音符或五线谱音符等，不同的字符或音符对应的频谱值也不相同，即演唱时连续多个字符或音符对应的多个频谱值之间的差异也较大，该突变时间集合包括的多个时间点即为曲目的歌词中不同的字符在该曲目的总时长中对应的时间点。因此，终端获取第一频谱序列后，先获取该第一频谱序列中存在差异的突变频谱值，根据该多个突变频谱值，确定该音频信号的突变时间集合。

本步骤可以通过以下步骤3021-3022实现。

步骤3021：终端根据该第一频谱序列中的每个频谱值，确定相邻两个频谱值之间的差异度。

本步骤中，对于该第一频谱序列中的每相邻两个频谱值，终端通过预设算法，计算该相邻两个频谱值之间的差异度，并存储该相邻两个频谱值和该差异度之间的对应关系，以便于终端后续根据该差异度，从该对应关系中查找差异度对应的频谱值。其中，该预设算法可以根据用户需要设置并更改，本发明实施例对此不作具体限定。例如，该预设算法可以为计算方差的算法、计算差值的算法、计算欧氏距离的算法或者计算余弦距离的算法等，相应的，该差异度可以为该频谱值与相邻频谱值之间的方差、差值、欧氏距离或者余弦距离等。

步骤3022：当相邻两个频谱值之间的差异度大于预设差异度时，终端将大于预设差异度的相邻两个频谱值对应的时间点中的一个时间点组成突变时间集合。

本步骤中，终端通过上述步骤3021，得到多个差异度，从该多个差异度中选择出大于预设差异度的差异度，从差异度和相邻两个频谱值的对应关系中，查找该选择的多个差异度对应的相邻两个频谱值。终端获取查找的相邻两个频谱值中前一个频谱值对应的时间点，将该获取的时间点组成突变时间集合；或者，终端获取查找的相邻两个频谱值中后一个频谱值对应的时间点，将该获取的时间点组成突变时间集合。

需要说明的是，由于终端根据预设帧长，将一段已采集的音频信号划分为多个音频子信号，因此，每个音频子信号可以对应该段音频信号的总时长中的一个时间点，该时间点可以为该音频子信号在音频信号的总时长中对应的播放时段的起始时间点、终止时间点或者中间时间点等，例如，某段总时长为100秒的音频信号共包括300个音频子信号，每个音频子信号的帧长为20毫秒，则第30个音频子信号在该音频信号的总时长中对应的播放时段为：第9秒40毫秒～第10秒，该第30个音频自信号对应的时间点可以为起始时间点，即第9秒40毫秒，或者终止时间点，即第10秒，或者中间时间点，即第9秒50毫秒。每个频谱值为基于划分后的每个音频子信号得到的，一个频谱值对应一个音频子信号，则每个频谱值对应的时间点即为该音频子信号对应的时间点，因此，终端将获取的频谱值对应的时间点组成该突变时间集合的步骤可以为：终端查找每个获取的频谱值对应的音频子信号，将查找到的每个音频子信号对应的时间点组成突变时间集合。

本发明实施例中，当指定用户演唱指定曲目时，终端可以将该指定用户的音频信号对应的突变时间集合，与指定曲目对应的基准突变时间集合进行对比，通过以下步骤303，识别出该指定用户是否在演唱。

因此，在进行识别之前，终端还需先获取该指定曲目对应的基准突变时间集合，该步骤可以为：终端获取该指定曲目的歌词或曲谱；获取该制定曲目的时间戳，确定该歌词中每个字符或曲谱中每个音符所对应的时间点；将该歌词中每个字符或曲谱中每个音符所对应的时间点组成该指定曲目对应的基准突变时间集合。

其中，该指定曲目一般对应有歌词或曲谱，该指定曲目的时间戳为标准情况下演唱该指定曲目时，该指定曲目的歌词中每个字符对应的时间点，以及该指定曲目的曲谱中每个音符对应的时间点，一般的，可以将该指定曲目的原创曲目作为一个基准参考曲目，该每个字符或音符对应的时间点可以为该指定曲目的原创曲目中字符或音符的时间点。一般来说，目前网络中已经收录大多数曲目的歌词和曲谱，以及歌词中每个字符对应的时间点和曲谱中每个音符的时间点，因此，基于该每个字符或音符的时间点获取该指定曲目的基准突变时间集合，并基于该基准突变时间集合对指定用户进行识别，从而使得本发明实施例的应用范围更为广泛，大大提高了本发明实施例的实用性。

需要说明的是，当终端检测到该直播按钮被触发时，可以在终端的当前界面中显示输入框，该输入框用于指示指定用户输入待演唱的指定曲目的曲目标识；指定用户可以根据该输入框的指示，在该输入框中输入待演唱的指定曲目的曲目标识，输入结束时，通过触发确认按钮以确认输入已结束。

其中，终端检测到识别指令时，才开始对指定用户进行识别，由步骤3011中终端获取识别指令的至少四种实现方式可知，终端可以在指定用户开始直播时进行识别，此时，终端检测到该直播按钮被触发时，即获取该指定曲目的歌词或曲谱，即以下第一种方式。另外，终端还可以在开启直播间之后，再进行识别，此时，终端需结合当前时间，确定指定曲目的歌词或曲谱，即以下第二种方式。

对于第一种方式。当终端获取指定曲目的歌词时，该获取指定曲目的歌词的步骤可以为：当终端检测到确认按钮被触发时，获取该输入框中的曲目标识，终端中可以事先存储指定数目个曲目的曲目标识和歌词之间的对应关系，终端根据该曲目标识，查找本地存储的曲目标识和歌词的对应关系中是否存在该指定曲目曲目标识。当存在时，终端从该对应关系中获取该曲目标识对应的歌词。当不存在时，终端向服务器发送获取请求，以使服务器向终端发送该曲目标识对应的歌词，终端接收该歌词。当终端获取指定曲目的曲谱时，该获取指定曲目的曲谱的实现方式同上述获取歌词的方式一致，此处不再一一赘述。

对于第二种方式。当终端获取指定曲目的歌词时，该获取指定曲目的歌词的步骤可以为：当终端检测到识别指令时，获取指定曲目的曲目标识，终端根据该曲目标识，获取该曲目标识对应的歌词，终端获取检测到该识别指令时，获取当前时间该直播间对应的开启时长，确定该开启时长在该指定曲目的总时长中对应的时间点，终端获取该时间点之后的该指定曲目对应的歌词。

当终端获取指定曲目的曲谱时，该获取指定曲目的曲谱的实现方式同上述获取歌词的方式一致，此处不再一一赘述。

步骤303：终端对比该音频信号的突变时间集合和该指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出该对比结果对应的提示信息。

本发明实施例中，该提示信息用于指示该指定用户是否在演唱，终端可以基于该突变时间集合和该基准突变时间集合之间的相似度进行识别。相应的，本步骤可以通过以下步骤3031-3032实现。

步骤3031：终端确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度。

本步骤中，终端可以直接基于该基准突变时间集合中的匹配点数目进行确定，即以下第一种方式。或者，终端还可以基于基准突变时间集合包括的多个基准突变时间子集合，以及突变时间集合包括的多个突变时间子集合进行确定，即以下第二种方式。

对于第一种方式，本步骤可以通过以下步骤a实现。

步骤a：终端确定该基准突变时间集合中的匹配点的数目，根据该数目和该基准突变时间集合中的时间的总数目，确定该相似度。

其中，该匹配点为基准突变时间集合中与该音频信号的突变时间集合中的时间点匹配的时间点。对于该基准突变时间集合中的每个时间点，终端从突变时间集合中选择出与该基准突变时间集合中的时间点之差在预设范围内的时间点，将选择的时间点确定为与该基准突变时间集合中的时间点相匹配的时间点。终端获取该基准突变时间集合中时间点的总数目，并计算该基准突变时间集合中匹配点的数目，将该匹配点的数目除以该时间点的总数目所得到的商作为该相似度。

其中，该预设范围可以根据用户需要设置并更改，本发明实施例对此不做具体限定。例如，该预设范围可以为(-0.1s，0.1s)，如果该基准突变时间集合中的某一时间点为3.10秒，该当突变时间集合中存在时间点为3.09秒，该两个时间点之差在该预设范围内，则突变时间集合中存在与该3.10秒匹配的时间点，即为3.09秒。

对于第二种方式，本步骤可以通过以下步骤b-c实现。

步骤b：终端将该音频信号的突变时间集合划分为多个突变时间子集合；终端确定多组子集合，一组子集合包括同一个基准音频子信号对应的基准突变时间子集合和突变时间子集合。

本发明实施例中，标准情况下演唱该指定曲目时，该指定曲目的往往包括多句歌词，每句歌词包括多个连续的字符，可以将一句歌词包括的多个连续的字符组成一个字符串，或者将一句歌词对应的多个连续的音符组成一个音符串，即一句歌词对应一个字符串或一个音符串，为了提高计算突变时间集合和基准突变时间集合之间的相似度的准确性，可以基于该指定曲目对应的多个字符串或音符串，将该基准突变时间集合划分为多个基准突变时间子集合，将突变时间集合划分为多个突变时间子集合，基于每个基准突变时间子集合和与其对应的突变时间子集合之间的相似度，确定突变时间集合和基准突变时间集合之间的相似度。

其中，该基准突变时间集合包括多个基准突变时间子集合，一个基准突变时间子集合对应该指定曲目的一个基准音频子信号，该基准音频子信号可以为该指定曲目中一个字符串或一个音符串在基准音频信号中对应的基准音频子信号。因此，终端可以根据该多个基准突变时间子集合的起始时间点，将该突变时间子集合划分为多个突变时间子集合，每个突变时间子集合的起始时间点与其对应的基准突变时间子集合的起始时间点相同。然后，终端将该突变时间子集合和与其对应的基准时间子集合确定为一组子集合，得到多组子集合。

在一种可能的设计中，终端还可以直接根据突变时间集合包括的每个时间点与相邻时间点之间的时间差，对突变时间集合进行划分，该步骤可以为：对于该突变时间集合中每个时间点，计算该时间点和相邻时间点之间的时间差；从而得到多个时间点对应的时间差，从该多个时间差中选择出大于预设阈值的时间差，将该选择的时间差对应的时间点作为突变时间集合的分割时间，根据该分割时间，将该突变时间集合划分为多个突变时间子集合。终端根据该分割时间，确定每个突变时间子集合对应的时间段。对于基准突变时间集合，根据每个基准突变时间子集合的起始时间，确定该基准突变时间子集合对应的时间段。对于每个突变时间子集合，根据该突变时间子集合的时间段，从基准突变时间集合中查找时间段与该突变时间子集合的时间段重叠度最高的基准突变时间子集合；将该重叠度最高的基准突变时间子集合与该突变时间子集合确定为一组集合，从而得到多组子集合。

步骤c：终端分别确定每组子集合的相似度，根据该每组子集合的相似度，确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度。

本步骤中，对于每组子集合，该基准突变时间子集合包括一个字符串中多个字符对应的不同时间点，或一个音符串中多个音符对应的不同时间点，对于该基准突变时间子集合中的每个时间点，终端从该组子集合的突变时间子集合中查找与该基准突变时间子集合中的时间点之差在预设范围内的时间点，将该突变时间子集合中与基准突变时间子集合的时间点之差在预设范围内的时间点确定为与该基准突变时间子集合中的时间点相匹配的时间点。终端获取该基准突变时间子集合中时间点的数目，并计算该基准突变时间子集合中匹配点的数目，将该匹配点的数目除以该突变时间子集合中时间点的数目所得到的商作为该组子集合的相似度。

终端依次计算每组子集合的相似度，得到多组子集合的相似度，对于每组集合，终端计算该组子集合的权重和该组子集合的相似度的乘积，从而得到多个乘积，每组子集合对应一个乘积，终端对该多乘积进行求和，将求和后的加权相似度确定为该音频信号的突变时间集合和该基准突变时间集合之间的相似度。

步骤3032：当该比对结果为该相似度大于预设相似度时，终端确定该比对结果对应的提示信息指示该指定用户在演唱，输出指示该指定用户在演唱的提示信息；当该比对结果为该相似度不大于该预设相似度时，终端确定该比对结果对应的提示信息指示该指定用户没在演唱，输出指示该指定用户没在演唱的提示信息。

本发明实施例中，当该相似度大于预设相似度时，说明该指定用户的突变时间集合和指定曲目的基准突变时间集合较为吻合，终端确定该指定用户在演唱，当该相似度不大于预设相似度时，说明该指定用户的突变时间集合与指定曲目之间存在差异，即指定用户没有在演唱。

进一步的，当指定用户没有演唱时，终端还可以通过以下步骤304，向服务器发送提示指定用户没有演唱的通知消息。

步骤304：当提示信息指示指定用户没在演唱时，终端向服务器发送通知消息，该通知消息用于通知服务器该指定用户没在演唱，以使该服务器对该指定用户进行指定处理，该指定处理包括：提醒该指定用户的观众用户该指定用户没在演唱和/或对该指定用户进行惩罚。

本发明实施例中，终端检测到指定用户没有在演唱时，终端生成通知消息，并向服务器发送该通知消息，服务器接收终端发送的通知消息，向观看该指定用户的观众终端发送该通知消息，观众终端接收并在直播间内显示该通知消息，从而提醒观众用户该直播间的指定用户没有在演唱。

其中，服务器还可以基于该指定用户进入直播应用的直播间却不演唱的用户行为进行惩罚，例如，从该指定用户的指定账户中扣除相应资源数值，或者向该指定用户发送警告消息等。其中，资源数值可以为该指定账户的金币、游戏币或者该指定用户获得的点赞量等。

需要说明的是，本发明实施例中上述方法还可以由服务器来执行，即，通过服务器来识别该指定用户是否在演唱。该过程可以为：指定用户在直播应用中进行直播时，指定用户的终端实时将录制的音频信号发送至服务器，服务器实时接收终端发送的音频信号。当检测到识别指令时，服务器确定指定用户的音频信号的第一频谱序列，根据该第一频谱序列，确定该音频信号的突变时间集合。服务器根据该音频信号的突变时间集合和该指定曲目对应的基准突变时间集合，确定该指定用户是否在演唱。当确定该指定用户没在演唱时，服务器向该直播间的观众用户的终端发送通知消息，从而提醒该指定用户的观众用户该指定用户没在演唱，以及服务器向指定用户的终端发送通知消息，从而对该指定用户进行惩罚。其中，通过服务器进行识别的实现方式，与通过终端进行识别的实现方式类似，此处不再一一赘述。

本发明实施例中，当终端检测到识别指令时，先确定指定用户的音频信号的第一频谱序列，该识别指令用于指示检测该指定用户是否在演唱指定曲目；终端根据该第一频谱序列，确定该音频信号的突变时间集合，该突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；对比音频信号的突变时间集合和指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出对比结果对应的提示信息，提示信息用于指示指定用户是否在演唱。由于基于音频信号的第一频谱序列确定突变时间集合，通过该突变时间集合和指定曲目的基准突变时间集合进行识别，目前的曲目均有基准突变时间集合，因此，本发明实施例提供的识别方法应用较为广泛，提高该识别指定用户是否在演唱的实用性。

图4为本发明实施例提供的一种音频信号处理装置的结构示意图，该装置可以应用在终端中，如图4所示，该装置包括：

第一确定模块401，用于当检测到识别指令时，确定指定用户的音频信号的第一频谱序列，该识别指令用于指示检测该指定用户是否在演唱指定曲目；

第二确定模块402，用于根据该第一频谱序列，确定该音频信号的突变时间集合，该突变时间集合包括多个时间点，一个时间点对应一个突变频谱值；

输出模块403，用于对比该音频信号的突变时间集合和该指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出该对比结果对应的提示信息，该提示信息用于指示该指定用户是否在演唱。

在一种可能的设计中，该第二确定模块402，包括：

第一确定单元，用于根据该第一频谱序列中的每个频谱值，确定相邻两个频谱值之间的差异度；

在一种可能的设计中，该输出模块403，还用于确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度；当该比对结果为该相似度大于预设相似度时，确定该比对结果对应的提示信息指示该指定用户在演唱，输出指示该指定用户在演唱的提示信息；当该比对结果为该相似度不大于该预设相似度时，确定该比对结果对应的提示信息指示该指定用户没在演唱，输出指示该指定用户没在演唱的提示信息。

在一种可能的设计中，该输出模块403，还用于确定该基准突变时间集合中的匹配点的数目，匹配点为该基准突变时间集合中与该音频信号的突变时间集合中的时间点匹配的时间点；根据该数目和该基准突变时间集合中的时间的总数目，确定该相似度。

该输出模块403，包括：

划分单元，用于将该音频信号的突变时间集合划分为多个突变时间子集合；

该第二确定单元，还用于分别确定每组子集合的相似度；根据该每组子集合的相似度，确定该音频信号的突变时间集合和该基准突变时间集合之间的相似度。

在一种可能的设计中，该装置还包括：

发送模块，用于当该提示信息指示该指定用户没在演唱时时，向服务器发送通知消息，该通知消息用于通知该服务器该指定用户没在演唱，以使该服务器对该指定用户进行指定处理，该指定处理包括：提醒该指定用户的观众用户该指定用户没在演唱和/或对该指定用户进行惩罚。

在一种可能的设计中，该第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列中的任一序列；

该第一确定模块401，还用于当该第一频谱序列为短时频谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，将该短时频谱序列作为第一频谱序列；

该第一确定模块401，还用于当该第一频谱序列为短时对数频谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，对该短时频谱序列进行对数变换，得到该短时对数频谱序列，将该短时对数频谱序列作为该音频信号的第一频谱序列；

该第一确定模块401，还用于当该第一频谱序列为短时倒谱序列时，采集该指定用户的音频信号，对该音频信号进行分帧、加窗处理和短时傅里叶变换，得到该音频信号的短时频谱序列，对该短时频谱序列进行对数变换，得到该短时对数频谱序列，对该短时对数频谱序列进行逆傅里叶变换，得到该短时倒谱序列，将该短时倒谱序列作为该音频信号的第一频谱序列。

在一种可能的设计中，该装置包括：

获取模块，用于获取该指定曲目的歌词或曲谱；

第三确定模块，用于获取该制定曲目的时间戳，确定该歌词中每个字符或曲谱中每个音符所对应的时间点；

组成模块，用于该歌词中每个字符或曲谱中每个音符所对应的时间点组成该指定曲目对应的基准突变时间集合。

需要说明的是：上述实施例提供的音频信号处理装置在音频信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频信号处理装置与音频信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种音频信号处理装置的结构示意图。该装置可以用于实施上述实施例所示出的音频信号处理方法中的终端所执行的功能。具体来讲：

终端500可以包括RF(Radio Frequency，射频)电路510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、传输模块570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器580处理；另外，将涉及上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器520可用于存储软件程序以及模块，如上述示例性实施例所示出的终端所对应的软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理，如实现基于视频的交互等。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端500的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器580和输入单元530对存储器520的访问。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元530可包括触敏表面531以及其他输入终端532。触敏表面531，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作)，并根据预先设定的程式驱动相应的链接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531，输入单元530还可以包括其他输入终端532。具体地，其他输入终端532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及终端500的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板551。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面531与显示面板541集成而实现输入和输出功能。

终端500还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在终端500移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与终端500之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一终端，或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔，以提供外设耳机与终端500的通信。

终端500通过传输模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线或有线的宽带互联网访问。虽然图5示出了传输模块570，但是可以理解的是，其并不属于终端500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是终端500的控制中心，利用各种接口和线路链接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行终端500的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理核心；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

终端500还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端500的显示单元是触摸屏显示器，终端500还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于实施上述实施例中终端所执行操作的指令。

在示例性实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，例如存储有计算机程序的存储器，上述计算机程序被处理器执行时实现上述实施例中的音频信号处理方法。例如，所述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一频谱序列，确定所述音频信号的突变时间集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述对比所述音频信号的突变时间集合和所述指定曲目对应的基准突变时间集合之间的相似度，得到比对结果，输出所述比对结果对应的提示信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度，包括：

5.根据权利要求3所述的方法，其特征在于，所述基准突变时间集合包括多个基准突变时间子集合，一个基准突变时间子集合对应所述指定曲目的一个基准音频子信号；

分别确定每组子集合的相似度；

6.根据权利要求1所述的方法，其特征在于，所述第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列中的任一序列；所述确定指定用户的音频信号的第一频谱序列，包括：

7.根据权利要求1所述的方法，其特征在于，所述对比所述音频信号的突变时间集合和所述指定曲目对应的基准突变时间集合之间的相似度，得到对比结果，输出所述对比结果对应的提示信息之前，所述方法包括：

获取所述指定曲目的歌词或曲谱；

8.一种音频信号处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第二确定模块，包括：

10.根据权利要求8所述的装置，其特征在于，

所述输出模块，还用于确定所述音频信号的突变时间集合和所述基准突变时间集合之间的相似度；当所述比对结果为所述相似度大于预设相似度时，确定所述比对结果对应的提示信息指示所述指定用户在演唱，输出指示所述指定用户在演唱的提示信息；当所述比对结果为所述相似度不大于所述预设相似度时，确定所述比对结果对应的提示信息指示所述指定用户没在演唱，输出指示所述指定用户没在演唱的提示信息。

11.根据权利要求10所述的装置，其特征在于，

所述输出模块，还用于确定所述基准突变时间集合中的匹配点的数目，匹配点为所述基准突变时间集合中与所述音频信号的突变时间集合中的时间点匹配的时间点；根据所述数目和所述基准突变时间集合中的时间的总数目，确定所述相似度。

12.根据权利要求10所述的装置，其特征在于，所述基准突变时间集合包括多个基准突变时间子集合，一个基准突变时间子集合对应所述指定曲目的一个基准音频子信号；

所述输出模块，包括：

13.根据权利要求8所述的装置，其特征在于，所述第一频谱序列为短时频谱序列、短时对数频谱序列或者短时倒谱序列中的任一序列；

14.根据权利要求8所述的装置，其特征在于，所述装置包括：

获取模块，用于获取所述指定曲目的歌词或曲谱；

15.一种音频信号处理装置，其特征在于，包括处理器和存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的计算机程序，实现权利要求1-7任一项所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。