CN108764304B

CN108764304B - 场景识别方法、装置、存储介质及电子设备

Info

Publication number: CN108764304B
Application number: CN201810449304.4A
Authority: CN
Inventors: 陈岩; 刘耀勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2020-03-06
Anticipated expiration: 2038-05-11
Also published as: CN108764304A

Abstract

本申请实施例公开了一种场景识别方法、装置、存储介质及电子设备，其中，本申请实施例首先获取不同类型场景的音频数据；然后根据获取到的音频数据，构建对应不同类型场景的音频样本集；再获取场景识别模型，并根据音频样本集对场景识别模型进行训练；最后获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。本方案中，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，能够更灵活的对电子设备所处的环境场景进行识别。

Description

场景识别方法、装置、存储介质及电子设备

技术领域

本申请涉及电子设备技术领域，具体涉及一种场景识别方法、装置、存储介质及电子设备。

背景技术

目前，如平板电脑、手机等电子设备可以通过分析用户所处的场景，根据分析结果进行对应的处理操作，由此来提升用户体验。相关技术中，电子设备在分析用户所处的场景时，通常利用GPS定位来实现，即通过GPS定位获得当前的位置信息，根据该位置信息来确定电子设备所处的场景，也即是用户所处的场景。然而，对于室内，或者较多遮蔽物的环境中，相关技术难以实现GPS定位，也就无法对电子设备所处的环境场景进行识别。

发明内容

本申请实施例提供了一种场景识别方法、装置、存储介质及电子设备，能够对电子设备所处的环境场景进行识别。

第一方面，本申请实施例了提供了的一种场景识别方法，包括：

获取不同类型场景的音频数据；

根据所述音频数据，构建对应所述不同类型场景的音频样本集；

获取场景识别模型，并根据所述音频样本集对所述场景识别模型进行训练；

获取待识别场景的待识别音频数据，并根据训练后的所述场景识别模型，对所述待识别音频数据进行识别，得到所述待识别场景的场景类型信息。

第二方面，本申请实施例了提供了的一种场景识别装置，包括：

获取模块，用于获取不同类型场景的音频数据；

构建模块，用于根据所述音频数据，构建对应所述不同类型场景的音频样本集；

训练模块，用于获取场景识别模型，并根据所述音频样本集对所述场景识别模型进行训练；

识别模块，用于获取待识别场景的待识别音频数据，并根据训练后的所述场景识别模型，对所述待识别音频数据进行识别，得到所述待识别场景的场景类型信息。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的场景识别方法。

第四方面，本申请实施例提供的电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的场景识别方法。

本申请实施例首先获取不同类型场景的音频数据；然后根据获取到的音频数据，构建对应不同类型场景的音频样本集；再获取场景识别模型，并根据音频样本集对场景识别模型进行训练；最后获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。本方案中，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，能够更灵活的对电子设备所处的环境场景进行识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的场景识别方法的应用场景示意图；

图2是本申请实施例提供的场景识别方法的一流程示意图；

图3是本申请实施例中场景类型信息输入界面的示例图；

图4是本申请实施例中音量设置界面的示例图；

图5是本申请实施例提供的场景识别方法的另一流程示意图；

图6是本申请实施例提供的场景识别装置的一结构示意图；

图7是本申请实施例提供的电子设备的一结构示意图；

图8是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实***置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看做为在该运算***上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算***上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种场景识别方法，该场景识别方法的执行主体可以是本申请实施例提供的场景识别装置，或者集成了该场景识别装置的电子设备，其中该场景识别装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参照图1，图1为本申请实施例提供的场景识别方法的应用场景示意图，以场景识别装置集成在电子设备中为例，电子设备可以获取不同类型场景的音频数据；根据获取到的音频数据，构建对应不同类型场景的音频样本集；获取场景识别模型，并根据音频样本集对场景识别模型进行训练；获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。

其中，首先获取不同类型场景的音频数据，比如，获取餐厅场景、地铁车厢场景、公交车场景、办公室场景以及街道场景等已知类型的场景的音频数据；然后根据获取到的这些音频数据，构建对应不同类型场景的音频样本集，比如，构建分别对应餐厅场景、地铁车厢场景、公交车场景、办公室场景以及街道场景的音频样本集；再获取场景识别模型，比如，从识别模型集合(包括多个不同的识别模型，如决策树模型、逻辑回归模型、贝叶斯模型、神经网络模型、聚类模型等)中选取一个模型作为场景识别模型，并利用之前构建的音频样本集对场景识别模型进行训练；最后，获取待识别场景的待识别音频数据，并根据训练后的场景识别模型对待识别音频数据进行识别，得到待识别场景的场景类型信息，比如，得到待识别场景的场景类型信息为“办公室场景”。

请参照图2，图2为本申请实施例提供的场景识别方法的流程示意图。本申请实施例提供的场景识别方法的具体流程可以如下：

在步骤101中，获取不同类型场景的音频数据。

本申请实施例中，电子设备可以通过音频采集设备来进行音频数据的采集，以获取到不同类型场景的音频数据，其中，音频采集设备可以电子设备内置的麦克风，也可以是电子设备外部接入的麦克风，本申请对此不做具体限制，可由本领域技术人员根据实际需要进行选取。比如，本申请实施例中，电子设备通过内置的麦克风来获取不同类型场景的音频数据。

在获取不同类型场景的音频数据时，一方面，电子设备可由相关技术人员携带至不同的、已知类型的环境场景中，并在将携带至各个已知类型的环境场景中时，触发电子设备进行音频数据的获取。另一方面，电子设备在触发获取音频数据时，通过内置的麦克风采集第一预设时长(可由本领域技术人员根据实际需要配置合适时长，比如，可以配置为5分钟)的音频数据；请参照图3，在采集到第一预设时长的音频数据之后，提供场景类型信息输入界面，并通过该场景类型信息输入界面接收输入的场景类型信息(该场景类型信息由相关技术人员输入，比如，在相关技术人员将电子设备携带在地铁车厢内进行音频数据采集时，则可以输入场景类型信息为地铁车厢场景)；在接收到输入的场景类型信息之后，将采集到的音频数据与接收到的场景类型信息关联。

由此，电子设备可以获取到对应不同类型场景的音频数据，比如，电子设备获取到了餐厅场景、地铁车厢场景、公交车场景、办公室场景以及街道场景等已知类型场景的音频数据。

此外，在获取不同类型场景的音频数据时，对于同一类型场景，可以获取该类型场景预设数量的(可由本领域技术人员根据实际需要配置合适数量，比如，可以配置为50)音频数据，比如，对于公交车场景，可以获取同一辆公交车在不同时段的音频数据，共获取到该公交车50条音频数据，还可以获取不同公交车的音频数据，共获取到50辆公交车的音频数据。

需要说明的是，在获取同一类型场景的多条音频数据时，可以创建以接收到的场景类型信息命名的文件夹，将获取到的同一类型的多条音频数据存入同一文件夹中。

此外，还可以通过网络获取、或者从其它电子设备导入对应不同类型场景的音频数据，比如，服务器维护有音频数据库，该数据库中存储有各种场景的音频数据，如街道的喧闹声；在获取不同类型场景的音频数据时，电子设备可以向服务器发送音频数据获取请求，指示服务器返回不同类型场景的音频数据，并接收服务器所返回的、不同类型的音频数据。

在步骤102中，根据获取到的音频数据，构建对应不同类型场景的音频样本集。

本申请实施例中，电子设备在获取到不同类型场景的音频数据之后，即可根据获取到的音频数据，构建对应不同类型场景的音频样本集，比如，根据获取到地铁车厢场景的音频数据，构建对应地铁车厢场景的音频样本集，根据获取到公交车场景的音频数据，构建对应公交车场景的音频样本集等。

其中，在构建对应不同类型场景的音频样本集时，可以直接将获取到的音频数据作为音频样本，来构建音频样本集，比如，直接将获取到公交车场景的音频数据作为音频样本，构建对应公交车场景的音频样本集，该音频样本集中包括50个音频样本(分别对应获取到公交车场景的50条音频数据)。

此外，还可以对获取到的音频数据进行预处理，将完成预处理后音频数据作为音频样本，来构建音频样本集。

在步骤103中，获取场景识别模型，并根据音频样本集对场景识别模型进行训练。

本申请实施例中，在获取场景识别模型时，可以从识别模型集合中选取一个识别模型作为场景识别模型。其中，识别模型集合包括多个识别模型，如包括多种不同类型的识别模型。

需要说明的是，识别模型为机器学习算法，机器学习算法可以通过不断特征学习来对数据进行识别，比如，可以根据实时采集的音频数据来识别出当前所处环境场景的类型。其中，机器学习算法可以包括：决策树模型、逻辑回归模型、贝叶斯模型、神经网络模型、聚类模型等等。

机器学习算法的算法类型可以根据各种情况划分，比如，可以基于学习方式可以将机器学习算法划分成：监督式学习算法、非监控式学习算法、半监督式学习算法、强化学习算法等等。

在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件***中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。在建立识别模型的时候，监督式学习建立一个学习过程，将场景类型信息与“训练数据”的实际结果进行比较，不断的调整识别模型，直到模型的场景类型信息达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)。

在非监督式学习中，数据并不被特别标识，识别模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法等。

半监督式学习算法，在此学习方式下，输入数据被部分标识，这种学习模型可以用来进行类型识别，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等。

强化学习算法，在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态***以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)。

此外，还可以基于根据算法的功能和形式的类似性将机器学习算法划分成：

回归算法，常见的回归算法包括：最小二乘法(Ordinary Least Square)，逻辑回归(Logistic Regression)，逐步式回归(Stepwise Regression)，多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(LocallyEstimated Scatterplot Smoothing)。

基于实例的算法，包括k-Nearest Neighbor(KNN),学习矢量量化(LearningVector Quantization，LVQ)，以及自组织映射算法(Self-Organizing Map，SOM)。

正则化方法，常见的算法包括：Ridge Regression，Least Absolute Shrinkageand Selection Operator(LASSO)，以及弹性网络(Elastic Net)。

决策树算法，常见的算法包括：分类及回归树(Classification And RegressionTree，CART)，ID3(Iterative Dichotomiser 3)，C4.5，Chi-squared AutomaticInteraction Detection(CHAID),Decision Stump,随机森林(Random Forest)，多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine，GBM)。

贝叶斯方法算法，包括：朴素贝叶斯算法，平均单依赖估计(Averaged One-Dependence Estimators，AODE)，以及Bayesian Belief Network(BBN)。

例如，特征类型对应的识别模型类型包括：监督式学习算法、非监控式学习算法、半监督式学习算法；此时，可以从识别模型集合中选取逻辑回归(Logistic Regression)模型、k-Means算法、图论推理算法等等属于该识别模型类型的算法。

又例如，特征类型对应的识别模型类型包括：回归算法模型、决策树算法模型；此时，可以从模型集合中选取逻辑回归(Logistic Regression)模型、分类及回归树模型等等属于该识别模型类型的算法。

本申请实施例中，对于选取何种识别模型作为场景识别模型不做具体限制，可由本领域技术人员根据实际需要进行选取，比如，本申请实施例可以选取卷积神经网络作为场景识别模型。

其中，对场景识别模型进行的训练操作并不会改变场景识别模型的构型，仅会改变场景识别模型的参数。需要说明的是，对于无法通过训练得到的参数，可以采用相应的经验参数。

形象的说，可以将场景识别模型想象成一个小孩子，你带小孩去公园。公园里有很多人在遛狗。你告诉小孩这个动物是狗，那个也是狗。但突然一只猫跑过来，你告诉他，这个是猫。久而久之，小孩就会产生认知模式。这个学习过程，就叫“训练”。所形成的认知模式，就是“模型”。

训练之后。这时，再跑过来一个动物时，你问小孩，这个是什么动物？他会回答，是狗，或者是猫。这个就叫“识别”。

在步骤104中，获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。

本申请实施例中，在完成对场景识别模型的训练之后，即可利用训练后的场景识别模型来识别待识别场景的场景类型，比如，电子设备可以对其当前所处的环境场景进行识别。

其中，在将当前所处场景作为待识别场景时，电子设备首先对当前所处场景的音频数据进行获取，并将获取到的音频数据作为当前所处场景的待识别音频数据。比如，电子设备可以通过内置的麦克风采集第二预设时长(该第二预设时长可以前述第一预设时长相同，也可与第一预设时长不同，由本领域技术人员根据实际需要选取合适时长)的音频数据，将采集到的音频数据作为待识别音频数据。

比如，在电子设备被用户携带至地铁车厢内时，电子设备通过内置麦克风采集音频数据作为其当前所处环境的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到其当前所处环境的环境类型信息为“地铁车厢场景”。

又比如，在电子设备被用户携带至公交车内时，电子设备通过内置麦克风采集音频数据作为其当前所处环境的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到其当前所处环境的环境类型信息为“公交车场景”。

需要说明的是，本申请实施例中，获取的待识别音频数据的长度，与获取的已知类型环境场景的音频数据的长度可以相同，也可以不同。

由上可知，本申请实施例首先获取不同类型场景的音频数据；然后根据获取到的音频数据，构建对应不同类型场景的音频样本集；再获取场景识别模型，并根据音频样本集对场景识别模型进行训练；最后获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。本方案中，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，能够更灵活的对电子设备所处的环境场景进行识别。

在一实施例中，根据获取到的音频数据，构建对应不同类型场景的音频样本集，包括：

按照预设分段长度，对获取到的、不同类型场景的音频数据进行分段处理，得到多个第一音频分段；

根据分段得到的多个第一音频分段，构建对应不同类型场景的音频样本集。

本申请实施例中，在构建对应不同类型场景的音频样本集时，电子设备首先按照预设长度，对获取到的不同类型场景的音频数据进行分段处理，得到多个第一音频分段；然后根据分段得到的多个第一音频分段，构建对应不同类型场景的音频样本集。

其中，在根据第一音频分段构建对应不同类型场景的音频样本集时，可以将第一音频分段看做完整的音频数据，参照以上实施例中根据音频数据构建对应不同类型场景的音频样本集的方案，来构建音频样本集。

需要说明的是，本申请实施例中对于预设分段长度的设置不做具体限制，可由本领域技术人员根据实际需要设置合适值，比如，可以设置预设分段长度为100毫秒。

以对应地铁车厢场景的音频数据为例，假设获取到地铁车厢场景的音频数据的长度为20秒，则在对该音频数据进行分段处理时，可将该音频数据划分为200个长度为100毫秒的第一音频分段。

本申请实施例中，通过对音频数据进行分段处理，可以消除音频数据中随机出现的突变所带来的影响，能够使得构建的音频样本集更准确的反映其所对应的已知类型的环境场景。

在一实施例中，根据分段得到的多个第一音频分段，构建对应不同类型场景的音频样本集，包括：

将各第一音频分段转换为对应的语谱图，得到多个语谱图；

根据得到的多个语谱图，构建对应不同类型场景的音频样本集。

其中，对于每一个第一音频分段，电子设备对其进行快速傅里叶变换，得到其频谱值，然后对得到的频谱值进行归一化处理，将频谱值转换为0至255件的值，得到对应的语谱图。

在将第一音频分段转换为语谱图之后，即可将转换得到的语谱图作为音频样本，来构建音频样本集。比如，对于地铁车厢场景，共获取到地铁车厢场景的50条长度为20秒的音频数据，将每条音频数据分段为长度为100毫秒的第一音频分段，共得到10000个第一音频分段；分别将这10000个第一音频分段转换为对应的语谱图，共得到10000个语谱图；将得到的这10000个语谱图作为音频样本，构建对应地铁车厢场景的音频样本集。

在一实施例中，根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息，包括：

按照预设分段长度，对待识别音频数据进行分段处理，得到多个第二音频分段；

根据训练后的场景识别模型，分别对各第二音频分段进行识别，得到多个场景类型信息；

根据得到的多个场景类型信息，确定待识别场景的场景类型信息。

本申请实施例中，在对待识别音频数据进行识别时，同样对待识别音频数据进行分段处理，由此来得到多个第二音频分段。其中，对待识别音频数据进行的分段处理，可以参照以上对音频数据进行分段处理的方案相应实施。

在得到多个第二音频分段之后，根据训练后的场景识别模型，分别对得到的多个第二音频分段进行识别，得到多个场景类型信息。

之后，即可根据得到的多个场景类型信息来确定待识别场景的场景类信息。

其中，在根据多个场景类型信息确定待识别场景的场景类型信息时，可以判断多个场景类型信息中、相同场景类型信息占全部场景类型信息的比例是否达到预设比例，若达到，则可确定待识别场景的场景类型信息为该相同场景类型信息。需要说明的是，对于预设比例的具体取值，本申请实施例不做具体设置，可由本领域技术人员根据实际需要进行设置，比如，本申请实施例中将预设比例设置为90％。

比如，对待识别音频数据进行分段处理，共得到10000个第二音频分段，根据训练后的场景识别模型，分别对10000个第二音频分段进行识别，得到10000个场景类型信息，若这10000个场景类型信息中有9527场景类型信息相同，均为“地铁车厢场景”，此时可确定待识别场景的场景类型信息为“地铁车厢场景”。

在一实施例中，获取场景识别模型，包括：

获取多个不同的神经网络模型；

从获取到的各神经网络模型中选取一层或多层；

将所选取的层组合为新的神经网络模型，作为场景识别模型。

其中，对于获取到的多个神经网络模型，可以从每个神经网络模型中选择一层或者多层，然后将所选择的层组合在一起，得到一个新的神经网络模型，将这个新的神经网络模型作为场景识别模型。

比如，从识别模型集合中选择5个不同的的卷积神经网络，从第一个卷积神经网络中提取出数据输入层，从第二个卷积神经网络中提取出卷积计算层，从第三个卷积神经网络中提取出激励层，从第四个卷积神经网络中提取出池化层，从第五个卷积神经网络中提取出全向连接层，然后将提取出的数据输入层、卷积计算层、激励层、池化层以及全向连接层组合为一个新的卷积神经网络，将这个新的卷积神经网络作为场景识别模型。

在一实施例中，获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息之后，还包括：

根据识别得到的场景类型信息，以及预设的场景类型信息和音量的对应关系，确定对应待识别场景的目标音量；

将当前音量调整为确定的目标音量。

其中，电子设备可根据用户输入数据预先设置场景类型信息和音量的对应关系，也可以缺省设置场景类型信息和音量的对应关系。比如，请参照图4，电子设备提供有音量设置界面，如图4所示，用户可以通过移动滑块来输入对应不同场景的音量，数值越大，表示音量越大。

在识别得到待识别场景的场景类型信息之后，即可根据识别得到的场景类型信息，以及预设的场景类型信息和音量的对应关系，来确定对应待识别场景的目标音量，并将当前音量调整为确定的目标音量，实现音量的自动调整。

本申请实施例中，电子设备在将其当前所处场景作为待识别场景时，通过根据识别得到的场景类型信息，自动对音量进行调整，使之与当前所处场景所匹配，减少了用户操作，提升了音量调整的效率。

向预设服务器发送信息推送请求，该信息推送请求携带识别得到的场景类型信息，用于指示预设服务器返回对应场景类型信息的推送信息；

接收预设服务器返回的推送信息。

本申请实施例中，电子设备在将其当前所处场景作为待识别场景时，在识别得到当前所处场景的场景类型信息之后，一方面，电子设备首先按照预定报文格式构建信息推送请求，该信息推送请求至少包括识别得到场景类型信息；之后，将构建的信息推送请求发送至预设服务器，指示预设服务器返回对应场景类型信息的推送信息，并接收预设服务器返回的推送信息；另一方面，预设服务器存储有场景类型信息和推送信息的对应关系，在接收到电子设备发送的信息推送请求之后，根据信息推送请求携带的场景类型信息，以及场景类型信息和推送信息的对应关系，获取到对应信息推送请求所携带的场景类型信息的推送信息，将该推送信息返回至电子设备。比如，在推送信息为广告信息时，可由此实现广告信息的定向推送。

下面将在上述实施例描述的方法基础上，对本申请的场景识别方法做进一步介绍。请参照图5，该场景识别方法可以包括：

在步骤201中，获取不同类型场景的音频数据。

在步骤202中，按照预设分段长度，对获取到的音频数据进行分段处理，得到多个第一音频分段。

本申请实施例中，电子设备在获取到不同类型场景的音频数据之后，即可根据获取到的音频数据，构建对应不同类型场景的音频样本集。

在构建对应不同类型场景的音频样本集时，电子设备首先按照预设长度，对获取到的不同类型场景的音频数据进行分段处理，得到多个第一音频分段；然后根据分段得到的多个第一音频分段，构建对应不同类型场景的音频样本集。

在步骤203中，将各第一音频分段转换为对应的语谱图，得到多个语谱图。

在步骤204中，根据得到的多个语谱图，构建对应不同类型场景的音频样本集。

在步骤205中，获取场景识别模型，并根据音频样本集对场景识别模型进行训练。

在步骤206中，获取待识别场景的待识别音频数据，并按照预设分段长度，对待识别音频数据进行分段处理，得到多个第二音频分段。

在步骤207中，根据训练后的场景识别模型，分别对各第二音频分段进行识别，得到多个场景类型信息。

其中，在得到多个第二音频分段之后，根据训练后的场景识别模型，分别对得到的各第二音频分段进行识别，得到多个场景类型信息。比如，对一第二音频分段进行识别，得到的场景类型信息为“地铁车厢场景”，对另一第二音频分段进行识别，得到的场景类型信息为“公交车场景”，对又一第二音频分段进行识别，得到的场景类型信息为“地铁车厢场景”等等。

在步骤208中，根据识别得到的多个场景类型信息，确定待识别场景的场景类型信息。

在一实施例中，还提供了一种场景识别装置。请参照图6，图6为本申请实施例提供的场景识别装置400的结构示意图。其中该场景识别装置应用于电子设备，该场景识别装置包括获取模块401、构建模块402、训练模块403和识别模块404，如下：

获取模块401，用于获取不同类型场景的音频数据；

构建模块402，用于根据获取到的音频数据，构建对应不同类型场景的音频样本集；

训练模块403，用于获取场景识别模型，并根据音频样本集对场景识别模型进行训练；

识别模块404，用于获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。

在一实施例中，构建模块402，可以用于：

将各第一音频分段转换为对应的语谱图，得到多个语谱图；

在一实施例中，识别模块404，可以用于：

在一实施例中，训练模块403，可以用于：

获取多个不同的神经网络模型；

从获取到的各神经网络模型中选取一层或多层；

在一实施例中，场景识别装置400还包括调整模块，用于：

将当前音量调整为确定的目标音量。

在一实施例中，场景识别装置400还包括推送模块，用于：

接收预设服务器返回的推送信息。

其中，场景识别装置400中各模块执行的步骤可以参考上述方法实施例描述的方法步骤。该场景识别装置400可以集成在电子设备中，如手机、平板电脑等。

具体实施时，以上各个模块可以作为独立的实体实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单位的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例场景识别装置可以由获取模块401获取不同类型场景的音频数据；由构建模块402根据获取到的音频数据，构建对应不同类型场景的音频样本集；由训练模块403获取场景识别模型，并根据音频样本集对场景识别模型进行训练；由识别模块404获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。本方案中，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，能够更灵活的对电子设备所处的环境场景进行识别。

在一实施例中，还提供一种电子设备。请参照图7，电子设备500包括处理器501以及存储器502。其中，处理器501与存储器502电性连接。

处理器500是电子设备500的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器502内的计算机程序，以及调用存储在存储器502内的数据，执行电子设备500的各种功能并处理数据。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

在本申请实施例中，电子设备500中的处理器501会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中，并由处理器501运行存储在存储器502中的计算机程序，从而实现各种功能，如下：

获取不同类型场景的音频数据；

根据获取到的音频数据，构建对应不同类型场景的音频样本集；

获取场景识别模型，并根据音频样本集对场景识别模型进行训练；

获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。

由上述可知，本申请实施例首先获取不同类型场景的音频数据；然后根据获取到的音频数据，构建对应不同类型场景的音频样本集；再获取场景识别模型，并根据音频样本集对场景识别模型进行训练；最后获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。本方案中，无需结合定位技术来实现对电子设备所处场景的识别，也就对电子设备所处的环境无任何限制，相较于相关技术，能够更灵活的对电子设备所处的环境场景进行识别。

请一并参阅图8，在某些实施方式中，电子设备500还可以包括：显示器503、射频电路504、音频电路505以及电源506。其中，其中，显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。

显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板，在某些实施方式中，可以采用液晶显示器(Liquid Crystal Display，LCD)、或者有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

射频电路504可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

电源506可以用于给电子设备500的各个部件供电。在一些实施例中，电源506可以通过电源管理***与处理器501逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管图8中未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。

在某些实施方式中，在根据获取到的音频数据，构建对应不同类型场景的音频样本集时，处理器501可以执行以下步骤：

在某些实施方式中，在根据分段得到的多个第一音频分段，构建对应不同类型场景的音频样本集时，处理器501可以执行以下步骤：

将各第一音频分段转换为对应的语谱图，得到多个语谱图；

在某些实施方式中，在根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息时，处理器501可以执行以下步骤：

在某些实施方式中，在获取场景识别模型时，处理器501还可以执行以下步骤：

获取多个不同的神经网络模型；

从获取到的各神经网络模型中选取一层或多层；

在某些实施方式中，在对待识别音频数据进行识别，得到待识别场景的场景类型信息之后，处理器501还可以执行以下步骤：

将当前音量调整为确定的目标音量。

接收预设服务器返回的推送信息。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一实施例中的场景识别方法，比如：获取不同类型场景的音频数据；根据获取到的音频数据，构建对应不同类型场景的音频样本集；获取场景识别模型，并根据音频样本集对场景识别模型进行训练；获取待识别场景的待识别音频数据，并根据训练后的场景识别模型，对待识别音频数据进行识别，得到待识别场景的场景类型信息。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的场景识别方法而言，本领域普通测试人员可以理解实现本申请实施例的场景识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如场景识别方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的场景识别装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种场景识别方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种场景识别方法，其特征在于，包括：

获取不同类型场景的音频数据；

按照预设分段长度，对所述音频数据进行分段处理，得到多个第一音频分段；

根据所述多个第一音频分段，构建对应所述不同类型场景的音频样本集；

获取当前所处环境场景的音频数据作为待识别音频数据，并按照所述预设分段长度，对所述待识别音频数据进行分段处理，得到多个第二音频分段；

根据训练后的所述场景识别模型，分别对各所述第二音频分段进行识别，得到多个场景类型信息，所述场景类型信息用于描述所述当前所处环境场景；

判断所述多个场景类型信息中相同场景类型信息占全部场景类型信息的比例是否达到预设比例，若达到，则将所述相同场景类型信息作为所述当前所处环境场景的场景类型信息；

根据所述当前所处环境场景的场景类型信息执行音量调整操作和/或信息推送操作。

2.如权利要求1所述的场景识别方法，其特征在于，根据所述多个第一音频分段，构建所述音频样本集，包括：

将各所述第一音频分段转换为对应的语谱图，得到多个语谱图；

根据所述多个语谱图，构建所述音频样本集。

3.如权利要求1所述的场景识别方法，其特征在于，获取场景识别模型，包括：

获取多个不同的神经网络模型；

从各所述神经网络模型中选取一层或多层；

将所选取的层组合为新的神经网络模型，作为所述场景识别模型。

4.如权利要求1-3任一项所述的场景识别方法，其特征在于，所述根据所述当前所处环境场景的场景类型信息执行音量调整操作，包括：

根据所述当前所处环境场景的场景类型信息，以及预设的场景类型信息和音量的对应关系，确定对应所述当前所处环境场景的目标音量；

将当前音量调整为所述目标音量。

5.如权利要求1-3任一项所述的场景识别方法，其特征在于，所述根据所述当前所处环境场景的场景类型信息执行信息推送操作，包括：

向预设服务器发送信息推送请求，所述信息推送请求携带所述当前所处环境场景的场景类型信息，用于指示所述预设服务器返回对应所述当前所处环境场景的推送信息；

接收所述预设服务器返回的所述推送信息。

6.一种场景识别装置，其特征在于，包括：

获取模块，用于获取不同类型场景的音频数据；

构建模块，用于按照预设分段长度，对所述音频数据进行分段处理，得到多个第一音频分段；以及根据所述多个第一音频分段，构建对应所述不同类型场景的音频样本集，构建对应所述不同类型场景的音频样本集；

识别模块，用于获取当前所处环境场景的音频数据作为待识别音频数据，并按照所述预设分段长度，对所述待识别音频数据进行分段处理，得到多个第二音频分段；以及根据训练后的所述场景识别模型，分别对各所述第二音频分段进行识别，得到多个场景类型信息，所述场景类型信息用于描述所述当前所处环境场景；以及判断所述多个场景类型信息中相同场景类型信息占全部场景类型信息的比例是否达到预设比例，若达到，则将所述相同场景类型信息作为所述当前所处环境场景的场景类型信息。

7.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至5任一项所述的场景识别方法。

8.一种电子设备，包括处理器和存储器，所述存储器储存有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至5任一项所述的场景识别方法。