CN110290280A

CN110290280A - 一种终端状态的识别方法、装置及存储介质

Info

Publication number: CN110290280A
Application number: CN201910453671.6A
Authority: CN
Inventors: 张文博
Original assignee: Tong Shield Holdings Ltd
Current assignee: Tong Shield Holdings Ltd; Tongdun Holdings Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-27
Anticipated expiration: 2039-05-28
Also published as: CN110290280B

Abstract

本申请实施例提供了一种终端状态的识别方法、装置及存储介质，所述方法包括：获取主叫终端向被叫终端发送的呼叫请求；呼叫请求中包括被叫终端的终端标识；根据终端标识，获取被叫终端针对呼叫请求发送的音频数据；对音频数据进行特征提取得到音频特征；将音频特征输入至预设的状态识别模型，识别到被叫终端的终端状态；其中，状态识别模型是通过音频数据样本对应的音频特征样本以及音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到。这样，通过从被叫终端的音频数据中提取音频特征，利用该音频特征确定被叫终端的终端状态，无需执行现有技术中的将音频数据转换为文本数据的过程，从而解决现有技术中的识别准确率较低的问题。

Description

一种终端状态的识别方法、装置及存储介质

技术领域

本申请涉及通信技术领域，特别是涉及一种终端状态的识别方法、装置及存储介质。

背景技术

随着通信技术的快速发展，移动终端已经成为了人们进行交互的必不可少工具。考虑到在外呼场景中，通常存在被叫终端未被接通的情况，此时，主叫终端需要获取到被叫终端当前的终端状态(如关机状态、占线状态、无人接听状态、停机状态、空号状态、拒接状态等)，从而使得主叫终端可以根据终端状态执行智能策略，如若该终端状态为停机状态，则不再执行重播操作，若该终端状态为占线状态，则在预设时间段后执行重播操作等等，这样，可以避免盲目重拨，节约***资源。

在现有技术中，通常采用ASR(自动语音识别；Automatic Speech Recognition)技术，将被叫终端返回的音频数据转换为文本数据，然后根据文本数据进行终端状态的识别。但是，发明人在研究上述方案中发现，将音频数据转换为文本数据，使得音频数据中的音调，音频间距等信息丢失，导致识别准确率较低。

发明内容

鉴于上述问题，本申请实施例提供一种终端状态的识别方法、装置及存储介质，通过从被叫终端的音频数据中提取音频特征，利用该音频特征确定被叫终端的终端状态，无需执行现有技术中的将音频数据转换为文本数据的过程，从而解决现有技术中的识别准确率较低的问题。

根据本申请实施例的第一方面，提供一种终端状态的识别方法，所述方法包括：

获取主叫终端向被叫终端发送的呼叫请求；所述呼叫请求中包括所述被叫终端的终端标识；

根据所述终端标识，获取所述被叫终端针对所述呼叫请求发送的音频数据；

对所述音频数据进行特征提取得到音频特征；

将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态；其中，所述状态识别模型是通过音频数据样本对应的音频特征样本以及所述音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到。

根据本申请实施例的第二方面，提供一种终端状态的识别装置，所述装置包括：

请求获取模块，用于获取主叫终端向被叫终端发送的呼叫请求；所述呼叫请求中包括所述被叫终端的终端标识；

音频数据获取模块，用于根据所述终端标识，获取所述被叫终端针对所述呼叫请求发送的音频数据；

特征提取模块，用于对所述音频数据进行特征提取得到音频特征；

状态识别模块，用于将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态；其中，所述状态识别模型是通过音频数据样本对应的音频特征样本以及所述音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到。

根据本申请实施例的第三方面，提供一种终端状态的识别装置，包括处理器以及存储器，其中，

所述处理器执行所述存储器所存放的计算机程序代码，以实现本申请所述的终端状态的识别方法的步骤。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现本申请所述的终端状态的识别方法的步骤。

本申请实施例包括以下优点：

本申请实施例通过获取主叫终端向被叫终端发送的呼叫请求；所述呼叫请求中包括所述被叫终端的终端标识；根据所述终端标识，获取所述被叫终端针对所述呼叫请求发送的音频数据；对所述音频数据进行特征提取得到音频特征；将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态；其中，所述状态识别模型是通过音频数据样本对应的音频特征样本以及所述音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到。这样，通过从被叫终端的音频数据中提取音频特征，利用该音频特征确定被叫终端的终端状态，无需执行现有技术中的将音频数据转换为文本数据的过程，从而解决现有技术中的识别准确率较低的问题，并且提高了识别效率。

附图说明

图1是本申请的一种终端状态的识别方法实施例的步骤流程图；

图2是本申请的一种终端状态的识别方法可选实施例的步骤流程图；

图3是本申请的一种终端状态的识别方法可选实施例的步骤流程图；

图4是本申请的一种终端状态的识别方法可选实施例的步骤流程图；

图5是本申请的一种终端状态的识别装置实施例的结构框图；

图6是本申请的一种终端状态的识别装置可选实施例的结构框图；

图7是本申请的一种终端状态的识别装置可选实施例的结构框图；

图8是本申请的一种终端状态的识别装置可选实施例的结构框图；

图9为本申请的另一实施例提供的终端状态的识别装置的硬件结构示意图；

图10为本申请的另一实施例提供的终端状态的识别装置的硬件结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种终端状态的识别方法实施例的步骤流程图，所述方法可以应用于主叫终端或者服务器等，其中，该服务器分别与主叫终端和被叫终端连接；

具体可以包括如下步骤：

步骤101，获取主叫终端向被叫终端发送的呼叫请求。

在本申请实施例中，呼叫请求中可以包括被叫终端的终端标识，其中，主叫终端的用户通过主叫终端拨打被叫终端的用户号码，从而可以根据拨打操作生成呼叫请求。

本申请实施例中的主叫终端和被叫终端可以分别为以下任一种：智能手机、智能手表以及平板电脑等具备呼叫功能的终端，上述示例只是举例说明，本申请对此不作限定。

需要说明的是，若本申请通过服务器获取终端状态，则本步骤可以由服务器监控多个终端是否生成呼叫请求，在监控到某个终端生成呼叫请求的情况下，确定该某个终端即为本申请中的主叫终端，此时，服务器可以获取该主叫终端向被叫终端发送的呼叫请求。

步骤102，根据终端标识，获取被叫终端针对呼叫请求发送的音频数据。

由于被叫终端在接收到主叫终端的呼叫请求的情况下，若被叫终端未被接通，则需要对主叫终端的呼叫请求进行请求响应，即可以生成针对该呼叫请求对应的音频数据，并将音频数据发送至主叫终端，其中，若本申请中通过服务器获取终端状态，则在该音频数据发送至主叫终端之前，本步骤可以由服务器从被叫终端中获取到音频数据，当然，本申请还可以在将该音频数据发送至主叫终端后，从主叫终端获取该音频数据，上述示例只是举例说明，本申请对此不作限定。

示例地，该音频数据可以为预先录制的未接通语音提示数据，通常该音频数据可以包含10秒至40秒的未接通语音提示数据，该音频数据可以为8000Hz单声道波形音频，如该音频数据包括“您好，您拨打的电话暂时无法接通，请稍后再拨”、“请不要挂机，您拨打的电话正在通话中”等等。

步骤103，对音频数据进行特征提取得到音频特征。

其中，该音频特征包括以下至少一种：梅尔频率倒谱系数特征、声谱图特征、色谱图特征。当然，还可以包括其他音频特征，如时域声学特征、频域声学特征等等，本申请对此不作限定。

需要说明的是，由于音频数据中通常包括噪声，而噪声可能会导致有用的音频数据被湮没，因此，可以对该音频数据进行去噪，从而本申请可以针对去噪后的音频数据进行特征提取。

在本申请实施例中，在该音频特征包括梅尔频率倒谱系数特征的情况下，可以对该音频数据执行分帧处理得到音频分帧，并对每个音频分帧计算周期功率谱，将不同滤波器应用到周期功率谱中计算每个滤波器的能量值，并计算能量值对应的对数值，对每个对数值进行离散余弦变换得到多个待选择数值，从多个待选择数值中提取指定数量的待选择数值得到该音频分帧的分帧梅尔频率倒谱系数特征，由全部音频分帧的分帧梅尔频率倒谱系数特征构成该音频数据的梅尔频率倒谱系数特征，目前，可以采用mfcc(Mel频率倒谱系数；Mel Frequency Cepstrum Coefficient)库函数执行上述过程。示例地，获取到的梅尔频率倒谱系数特征可以为一个n*m的矩阵，其中，n可以表示音频数据包括的音频分帧的分帧序号，m表示分帧梅尔频率倒谱系数特征对应的特征维度。为了提高处理速度，可以对n*m的矩阵进行简化，在一种可能的实现方式中，将该n*m的矩阵进行矩阵转换得到1*m的矩阵，具体过程包括：对第i列中的数据进行平均值计算得到第i列对应的特征数据，i为n*m的矩阵中的任一列。

在该音频特征包括声谱图特征的情况下，同样可以对该音频数据执行分帧处理得到音频分帧，并对每个音频分帧进行傅里叶变换得到每个音频分帧对应的声谱图，基于声谱图能量分布的特征提取算法，对每个音频分帧对应的声谱图进行特征提取得到每个音频分帧的多个声谱评价值，该多个声谱评价值即为该音频分帧的分帧声谱图特征，由该全部音频分帧的分帧声谱图特征构成该音频数据的声谱图特征。示例地，获取到的声谱图特征可以为一个v*u的矩阵，其中，v可以表示音频数据的音频分帧的分帧序号，u表示分帧声谱图特征的特征维度。同样地，为了提高处理速度，可以将该v*u的矩阵进行矩阵转换得到1*v的矩阵，具体过程包括：对第j列中的数据进行平均值计算得到第j列对应的特征数据，j为v*u的矩阵中的任一列。

在该音频特征包括色谱图特征的情况下，同样可以对该音频数据执行分帧处理得到音频分帧，并对每个音频分帧进行傅里叶变换得到每个音频分帧对应的色谱图，基于预设色谱特征提取算法，对每个音频分帧对应的色谱图进行特征提取得到每个音频分帧的多个色谱评价值，该多个色谱评价值即为该音频分帧的分帧色谱图特征，由该全部音频分帧的分帧色谱图特征构成该音频数据的色谱图特征。示例地，获取到的色谱图特征可以为一个b*d的矩阵，其中，b可以表示音频数据的音频分帧的分帧序号，d表示分帧色谱图特征的特征维度。同样地，为了提高处理速度，可以将该b*d的矩阵进行矩阵转换得到1*d的矩阵，具体过程包括：对第h列中的数据进行平均值计算得到第h列对应的特征数据，h为b*d的矩阵中的任一列。上述获取音频特征的具体过程可以参考现有技术，不再赘述。

需要说明的是，若该音频特征包括以下至少两种：梅尔频率倒谱系数特征、声谱图特征、色谱图特征，考虑到至少两种音频特征对应的矩阵大小可能不同，因此，无法将至少两种音频特征合并为一个特征矩阵，为了解决该问题，本申请可以将至少两种音频特征分别进行矩阵转换得到对应的行矩阵，并将至少两种音频特征的行矩阵进行合并得到目标行矩阵，这样，本申请中的音频特征即为该目标行矩阵。当然，本申请还可以不对至少两种音频特征进行矩阵转换，从而使得本申请中的音频特征即为该至少两种音频特征分别对应的特征矩阵。

步骤104，将音频特征输入至预设的状态识别模型，识别到被叫终端的终端状态。

在本申请实施例中，状态识别模型是通过音频数据样本对应的音频特征样本以及音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到，该预设训练模型可以为RNN(循环神经网络，Recurrent Neural Network)、CNN(卷积神经网络，Convolutional Neural Networks)、支持向量机等，本申请对此不作限定。

其中，若该状态识别模型包括的终端状态标记样本包括关机状态、占线状态、无人接听状态、停机状态、空号状态、拒接状态等，则本步骤中的终端状态即为上述所述的终端状态标记样本中的某一个，上述示例只是举例说明，本申请对此不作限定。

需要说明的是，上述根据音频数据进行终端状态的识别过程，音频数据通常文件较大，计算较为复杂，因此，可能存在处理速度较慢的问题，本申请通过压力测试发现：采用多线程方式进行终端状态的识别，可以提高整体吞吐量，以及提高处理能力，另外，还可以通过增加集群方案，以使得由集群中的多个服务器共同执行终端状态的识别过程。

另外，本申请可以通过Web服务容器发布的RestFull接口方式对外提供服务，即可以检测该主叫终端发送的呼叫请求，并在检测到主叫终端发送的呼叫请求后，根据呼叫请求获取被叫终端的音频协议数据，由于该音频协议数据通常为协议数据，因此需要对该音频协议数据进行协议解析得到解析后的音频数据，并将音频数据发送至音频处理器，以使得音频处理器可以对该音频数据进行特征提取得到音频特征，接着调用Tensorflow机器学习引擎执行训练好的状态识别模型，得到该被叫终端的终端状态，最后通过Web容器发布的RestFull接口将终端状态发送至主叫终端。其中，为了提高识别效率，可以在Web容器启动的同时，对Tensorflow机器学习引擎进行加载和初始化，避免了大量的计算浪费，以及减少了大量的等待时间，从而提高了识别效率。

采用上述方法，获取主叫终端向被叫终端发送的呼叫请求；呼叫请求中包括被叫终端的终端标识；根据终端标识，获取被叫终端针对呼叫请求发送的音频数据；对音频数据进行特征提取得到音频特征；将音频特征输入至预设的状态识别模型，识别到被叫终端的终端状态；其中，状态识别模型是通过音频数据样本对应的音频特征样本以及音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到。这样，通过从被叫终端的音频数据中提取音频特征，利用该音频特征确定被叫终端的终端状态，无需执行现有技术中的将音频数据转换为文本数据的过程，从而解决现有技术中的识别准确率较低的问题，并且提高了识别效率。

参照图2，示出了本申请的一种终端状态的识别方法可选实施例的步骤流程图，步骤104所述的将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态，可以包括如下步骤：

步骤1041，将音频特征输入至状态识别模型，得到音频特征对应不同终端状态标记样本的识别评价值。

在本申请实施中，该不同终端状态标记样本为该状态识别模型中包括的终端状态。在一种可能的实现方式中，该状态识别模型中可以设置有softmax网络层，从而通过softmax网络层将不同终端状态标记样本对应的输出结果值映射到(0,1)区间，以得到该被叫终端属于不同终端状态标记样本的概率值，上述示例只是举例说明，本申请对此不作限定。

步骤1042，根据识别评价值从终端状态标记样本中获取终端状态。

若该识别评价值为被叫终端属于不同终端状态标记样本的概率值，则可以确定最大识别评价值对应的终端状态标记样本为该终端状态。

参照图3，示出了本申请的一种终端状态的识别方法可选实施例的步骤流程图，在步骤104所述的将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态之前，还可以包括如下步骤：

步骤105，获取音频数据样本，以及音频数据样本对应的终端状态标记样本。

在一种可能的实现方式中，可以通过人工标记方式对该音频数据样本进行标记得到对应的终端状态标记样本，在另一种可能的实现方式中，由于该音频数据样本的样本数量较多，为了减少人工标记量，以及提高标记速度，本申请还可以对该音频数据样本转换为文本数据样本，从而通过对文本数据样本进行识别得到对应的终端状态标记样本，考虑到可能存在部分文本数据样本未能进行标记，此时，需要采用人工标记方式对该部分文本数据样本进行标记。示例地，通常可以选取10万个音频数据样本进行训练。

另外，为了便于数据管理，在获取到上述所述的音频数据样本以及音频数据样本对应的终端状态标记样本的情况下，可以将各个音频数据样本按照预设文件名称设置格式存储于文件目录中，示例地，该预设文件名称设置格式可以包括：音频数据样本对应的样本标识，以及音频数据样本对应的终端状态标记样本的状态标记标识，如若不同终端状态标记样本包括关机状态、占线状态、无人接听状态、停机状态、空号状态、拒接状态，则设置关机状态对应的状态标记标识为“1”，占线状态对应的状态标记标识为“2”，无人接听状态对应的状态标记标识为“3”，停机状态对应的状态标记标识为“4”，空号状态对应的状态标记标识为“5”，拒接状态对应的状态标记标识为“6”，这样，基于不同终端状态标记样本与不同状态标记标识之间的对应关系，若某个音频数据样本的文件名称为“S201811043132343590231_4.wav”，则“S201811043132343590231”表示该某个音频数据样本的样本标识，“4”表示该某个音频数据样本对应的终端状态标记样本为停机状态，“wav”表示音频文件格式。

步骤106，分别对每个音频数据样本进行特征提取，得到每个音频数据样本对应的音频特征样本。

在本申请实施例中，该音频特征样本同样可以包括以下至少一种：梅尔频率倒谱系数特征、声谱图特征、色谱图特征。其中，该音频特征样本的种类与该音频特征的种类相同，例如，若该音频特征样本为梅尔频率倒谱系数特征，则在步骤103中获取到的音频特征即为该音频数据的梅尔频率倒谱系数特征，又如，若该音频特征样本为梅尔频率倒谱系数特征和声谱图特征，则在步骤103中获取到的音频特征即为该音频数据的梅尔频率倒谱系数特征以及声谱图特征，该音频特征样本的获取过程可以参考步骤103，不再赘述。

步骤107，通过音频数据样本对应的音频特征样本以及音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到状态识别模型。

在本申请实施例中，通过对预设训练模型进行训练得到的状态识别模型的识别准确率可达95％以上。

可见，通过步骤105至步骤107可以得到状态识别模型，从而本申请可以利用该状态识别模型对音频数据进行终端状态的识别。

参照图4，示出了本申请的一种终端状态的识别方法可选实施例的步骤流程图，考虑到随着终端的快速发展，可能出现新终端状态，以及该状态识别模型存在识别错误的情况，因此，需要对该状态识别模型按照预设周期进行更新，从而使得该状态识别模型不断完善。

在步骤104所述的将音频特征输入至预设的状态识别模型，识别到被叫终端的终端状态之后，还可以包括如下步骤：

步骤108，按照预设周期从历史音频数据中获取待校验音频数据。

其中，该历史音频数据可以为通过该状态识别模型进行终端状态识别后的数据。由于该历史音频数据的数据数量较大，若对全部历史音频数据进行校验，则耗费大量时间，因此，本申请可以从历史音频数据中获取该待校验音频数据，在一种可能的实现方式中，可以从历史音频数据中随机获取该待校验音频数据，在另一种可能的实现方式中，根据历史音频数据对应的目标终端状态的识别评价值，获取该待校验音频数据，该目标终端状态为通过状态识别模型确定的终端状态，具体地，在该历史音频数据对应的目标终端状态的识别评价值在预设评价值范围外的情况下，确定该历史音频数据为该待校验音频数据，上述示例只是举例说明，本申请对此不作限定。

步骤109，获取待校验音频数据对应的人工标记终端状态。

在本步骤中，由于待校验音频数据对应的目标终端状态可能不准确，因此需要采用人工标记方式获取该待校验音频数据对应的人工标记终端状态。

步骤110，根据待校验音频数据和人工标记终端状态，更新状态识别模型。

在本申请实施例中，若该待校验音频数据的人工标记终端状态与该目标终端状态不同，则将该待校验音频数据作为待训练音频数据，若该待校验音频数据的人工标记终端状态与该目标终端状态相同，则无需通过该待校验音频数据对该状态识别模型进行进一步训练，因此，可以将该待校验音频数据过滤掉，这样，可以将该待训练音频数据和该待训练音频数据对应的人工标记终端状态输入至该状态识别模型，以对该状态识别模型进行进一步地训练，从而达到增强模型的目的。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图5，示出了本申请的一种终端状态的识别装置50实施例的结构框图，具体可以包括如下模块：

请求获取模块501，用于获取主叫终端向被叫终端发送的呼叫请求；所述呼叫请求中包括所述被叫终端的终端标识；

音频数据获取模块502，用于根据所述终端标识，获取所述被叫终端针对所述呼叫请求发送的音频数据；

特征提取模块503，用于对所述音频数据进行特征提取得到音频特征；

状态识别模块504，用于将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态；其中，所述状态识别模型是通过音频数据样本对应的音频特征样本以及所述音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到。

参照图6，在本申请的一个可选实施例中，所述装置50还包括如下模块：

数据样本获取模块505，用于获取所述音频数据样本，以及所述音频数据样本对应的终端状态标记样本；

特征样本获取模块506，用于分别对每个所述音频数据样本进行特征提取，得到每个所述音频数据样本对应的音频特征样本；

模型训练模块507，用于通过所述音频数据样本对应的音频特征样本以及所述音频数据样本对应的终端状态标记样本，对所述预设训练模型进行训练得到所述状态识别模型。

在本申请的一个可选实施例中，所述音频特征包括以下至少一种：梅尔频率倒谱系数特征、声谱图特征、色谱图特征。

参照图7，在本申请的一个可选实施例中，所述装置50还包括如下模块：

待校验数据获取模块508，用于按照预设周期从历史音频数据中获取待校验音频数据；

状态获取模块509，用于获取所述待校验音频数据对应的人工标记终端状态；

模型更新模块510，用于根据所述待校验音频数据和所述人工标记终端状态，更新所述状态识别模型。

参照图8，在本申请的一个可选实施例中，所述状态识别模块504，包括：

评价值获取子模块5041，用于将所述音频特征输入至所述状态识别模型，得到所述音频特征对应不同终端状态标记样本的识别评价值；

状态获取子模块5042，用于根据所述识别评价值从所述终端状态标记样本中获取所述终端状态。

采用上述装置，获取主叫终端向被叫终端发送的呼叫请求；呼叫请求中包括被叫终端的终端标识；根据终端标识，获取被叫终端针对呼叫请求发送的音频数据；对音频数据进行特征提取得到音频特征；将音频特征输入至预设的状态识别模型，识别到被叫终端的终端状态；其中，状态识别模型是通过音频数据样本对应的音频特征样本以及音频数据样本对应的终端状态标记样本，对预设训练模型进行训练得到。这样，通过从被叫终端的音频数据中提取音频特征，利用该音频特征确定被叫终端的终端状态，无需执行现有技术中的将音频数据转换为文本数据的过程，从而解决现有技术中的识别准确率较低的问题，并且提高了识别效率。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在终端设备时，可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。

图9为本申请一实施例提供的终端状态的识别装置的硬件结构示意图。如图9所示，该终端状态的识别装置可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器93中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述处理器91例如可以为中央处理器(Central Processing Unit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。

可选的，上述输入设备90可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件***接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；可选的，上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。

在本实施例中，该终端状态的识别装置的处理器包括用于执行终端状态的识别装置中各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图10为本申请另一实施例提供的终端状态的识别装置的硬件结构示意图。图10是对图9在实现过程中的一个具体的实施例。如图10所示，本实施例的终端状态的识别装置包括处理器101以及存储器102。

处理器101执行存储器102所存放的计算机程序代码，实现上述实施例中图1至图4的终端状态的识别方法。

存储器102被配置为存储各种类型的数据以支持在终端状态的识别方法的操作。这些数据的示例包括用于在终端状态的识别装置上操作的任何应用程序或方法的指令，例如消息，图片，视频等。存储器102可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，处理器101设置在处理组件100中。该终端状态的识别装置还可以包括：通信组件103，电源组件104，多媒体组件105，音频组件106，输入/输出接口107和/或传感器组件108。终端状态的识别装置具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件100通常控制终端状态的识别装置的整体操作。处理组件100可以包括一个或多个处理器101来执行指令，以完成上述图1至图4方法的全部或部分步骤。此外，处理组件100可以包括一个或多个模块，便于处理组件100和其他组件之间的交互。例如，处理组件100可以包括多媒体模块，以方便多媒体组件105和处理组件100之间的交互。

电源组件104为终端状态的识别装置的各种组件提供电力。电源组件104可以包括电源管理***，一个或多个电源，及其他与为终端状态的识别装置生成、管理和分配电力相关联的组件。

多媒体组件105包括在终端状态的识别装置和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件106被配置为输出和/或输入音频信号。例如，音频组件106包括一个麦克风(MIC)。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中，音频组件106还包括一个扬声器，用于输出音频信号。

输入/输出接口107为处理组件100和***接口模块之间提供接口，上述***接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件108包括一个或多个传感器，用于为终端状态的识别装置提供各个方面的状态评估。例如，传感器组件108可以检测到终端状态的识别装置的打开/关闭状态，组件的相对定位，用户与终端状态的识别装置接触的存在或不存在。传感器组件108可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。在一些实施例中，该传感器组件108还可以包括摄像头等。

通信组件103被配置为便于终端状态的识别装置和其他设备之间有线或无线方式的通信。终端状态的识别装置可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。

由上可知，在图10实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图9实施例中的输入设备的实现方式。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种终端状态的识别方法和一种终端状态的识别装置及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种终端状态的识别方法，其特征在于，所述方法包括：

对所述音频数据进行特征提取得到音频特征；

2.根据权利要求1所述的方法，其特征在于，在所述将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态之前，还包括：

获取所述音频数据样本，以及所述音频数据样本对应的终端状态标记样本；

分别对每个所述音频数据样本进行特征提取，得到每个所述音频数据样本对应的音频特征样本；

通过所述音频数据样本对应的音频特征样本以及所述音频数据样本对应的终端状态标记样本，对所述预设训练模型进行训练得到所述状态识别模型。

3.根据权利要求1所述的方法，其特征在于，所述音频特征包括以下至少一种：梅尔频率倒谱系数特征、声谱图特征、色谱图特征。

4.根据权利要求1所述的方法，其特征在于，在所述将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态之后，还包括：

按照预设周期从历史音频数据中获取待校验音频数据；

获取所述待校验音频数据对应的人工标记终端状态；

根据所述待校验音频数据和所述人工标记终端状态，更新所述状态识别模型。

5.根据权利要求1所述的方法，其特征在于，所述将所述音频特征输入至预设的状态识别模型，识别到所述被叫终端的终端状态，包括：

将所述音频特征输入至所述状态识别模型，得到所述音频特征对应不同终端状态标记样本的识别评价值；

根据所述识别评价值从所述终端状态标记样本中获取所述终端状态。

6.一种终端状态的识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

数据样本获取模块，用于获取所述音频数据样本，以及所述音频数据样本对应的终端状态标记样本；

特征样本获取模块，用于分别对每个所述音频数据样本进行特征提取，得到每个所述音频数据样本对应的音频特征样本；

模型训练模块，用于通过所述音频数据样本对应的音频特征样本以及所述音频数据样本对应的终端状态标记样本，对所述预设训练模型进行训练得到所述状态识别模型。

8.根据权利要求6所述的装置，其特征在于，所述音频特征包括以下至少一种：梅尔频率倒谱系数特征、声谱图特征、色谱图特征。

9.根据权利要求6所述的装置，其特征在于，还包括：

待校验数据获取模块，用于按照预设周期从历史音频数据中获取待校验音频数据；

状态获取模块，用于获取所述待校验音频数据对应的人工标记终端状态；

模型更新模块，用于根据所述待校验音频数据和所述人工标记终端状态，更新所述状态识别模型。

10.根据权利要求6所述的装置，其特征在于，所述状态识别模块，包括：

评价值获取子模块，用于将所述音频特征输入至所述状态识别模型，得到所述音频特征对应不同终端状态标记样本的识别评价值；

状态获取子模块，用于根据所述识别评价值从所述终端状态标记样本中获取所述终端状态。

11.一种终端状态的识别装置，其特征在于，所述装置包括处理器以及存储器，其中，

所述处理器执行所述存储器所存放的计算机程序代码，以实现权利要求1至5任一项所述的终端状态的识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现权利要求1至5任一项所述的终端状态的识别方法的步骤。