CN111797288B - 数据筛选方法、装置、存储介质及电子设备 - Google Patents

数据筛选方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111797288B
CN111797288B CN201910282172.5A CN201910282172A CN111797288B CN 111797288 B CN111797288 B CN 111797288B CN 201910282172 A CN201910282172 A CN 201910282172A CN 111797288 B CN111797288 B CN 111797288B
Authority
CN
China
Prior art keywords
information
data
scene information
scene
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910282172.5A
Other languages
English (en)
Other versions
CN111797288A (zh
Inventor
何明
陈仲铭
杨统
刘耀勇
陈岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910282172.5A priority Critical patent/CN111797288B/zh
Publication of CN111797288A publication Critical patent/CN111797288A/zh
Application granted granted Critical
Publication of CN111797288B publication Critical patent/CN111797288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据筛选方法、装置、存储介质及电子设备,其中,本申请实施例通过采集终端发送的数据,并对数据进行分析,以确定数据相应的场景信息;确定场景信息中的目标场景信息,并提取出目标场景信息相应的特征信息;获取特征信息的权重值,并根据权重值确定符合预设条件的特征信息;通过分类神经网络模型对符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。以此可以在云端实现根据终端的数据进行分析,确定出相应的场景信息,自动将场景信息中的共现场景相应的特征信息进行二重筛选,获取与共现场景强相关的目标特征信息,提升了数据的筛选效率。

Description

数据筛选方法、装置、存储介质及电子设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据筛选方法、装置、存储介质及电子设备。
背景技术
随着人工智能的不断发展,终端如手机的功能越来越智能化,手机可以通过各种各样的算法模型对数据进行处理,从而为用户提供各种各样的智能服务,例如,手机可以根据算法模型对用户的行为特征进行学习,从而提供符合当前场景的个性化服务,但是,由于学习过程比较复杂,导致需要处理的数据较多,会影响手机的正常使用。
发明内容
本申请实施例提供一种数据筛选方法、装置、存储介质及电子设备,可以提升数据筛选的效率。
第一方面,本申请实施例了提供了一种数据筛选方法,包括:
采集终端发送的数据,并对所述数据进行分析,以确定所述数据相应的场景信息;
确定所述场景信息中的目标场景信息,并提取出所述目标场景信息相应的特征信息;
获取所述特征信息的权重值,并根据所述权重值确定符合预设条件的特征信息;
通过分类神经网络模型对所述符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
第二方面,本申请实施例了提供了的一种数据筛选装置,包括:
分析单元,用于采集终端发送的数据,并对所述数据进行分析,以确定所述数据相应的场景信息;
确定单元,用于确定所述场景信息中的目标场景信息,并提取出所述目标场景信息相应的特征信息;
获取单元,用于获取所述特征信息的权重值,并根据所述权重值确定符合预设条件的特征信息;
筛选单元,用于通过分类神经网络模型对所述符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
在一些实施方式中,所述分析单元,包括:
采集子单元,用于采集终端发送的数据;
计算子单元,用于通过邻近算法对所述数据进行分析,计算所述数据与所述场景信息的空间距离;
确定子单元,用于根据所述空间距离确定出相应的场景信息。
在一些实施方式中,所述确定单元,包括:
获取子单元,用于获取每一场景信息相应的时序属性;
确定子单元,用于确定时序属性相同的场景信息,并将所述时序属性相同的场景信息确定为目标场景信息;
提取子单元,用于提取出所述目标场景信息相关的特征信息。
在一些实施方式中,所述获取单元,具体用于:
通过线性回归模型计算出每一特征信息相应的权重值;
判断所述权重值是否大于第一预设阈值;
当判断出所述权重值大于第一预设阈值时,确定相应的特征信息符合预设条件;
当判断出所述权重值不大于第一预设阈值时,确定相应的特征信息不符合预设条件,并将所述相应的特征信息删除。
在一些实施方式中,所述筛选单元,具体用于:
将所述符合预设条件的特征信息输入至分类神经网络模型中;
对所述分类神经网络进行收敛训练,直至所述分类神经网络收敛;
提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值;
将所述目标权重值大于第二预设阈值的特征信息确定为目标特征信息;
将所述目标权重值不大于第二预设阈值的特征信息确定为冗余特征信息,并将所述冗余特征信息删除。
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的数据筛选方法。
第四方面,本申请实施例提供的电子设备,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的数据筛选方法。
本申请实施例通过采集终端发送的数据,并对数据进行分析,以确定数据相应的场景信息;确定场景信息中的目标场景信息,并提取出目标场景信息相应的特征信息;获取特征信息的权重值,并根据权重值确定符合预设条件的特征信息;通过分类神经网络模型对符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。以此可以在云端实现根据终端的数据进行分析,确定出相应的场景信息,自动将场景信息中的共现场景相应的特征信息进行二重筛选,获取与共现场景强相关的目标特征信息,提升了数据的筛选效率。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1是本申请实施例提供的数据筛选方法的应用场景示意图。
图2是本申请实施例提供的数据筛选方法的流程示意图。
图3为本申请实施例提供的数据筛选方法的另一流程示意图。
图4为本申请实施例提供的数据筛选装置的模块示意图。
图5为本申请实施例提供的数据筛选装置的另一模块示意图。
图6为本申请实施例提供的电子设备的结构示意图。
图7为本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
本文所使用的术语「模块」可看做为在该运算***上执行的软件对象。本文该的不同组件、模块、引擎及服务可看做为在该运算***上的实施对象。而本文该的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
参考图1,图1为本申请实施例提供的数据筛选方法的应用场景示意图。该数据筛选方法应用于电子设备。该电子设备中设置有全景感知架构。该全景感知架构为电子设备中用于实现该数据筛选方法的硬件和软件的集成。
其中,全景感知架构包括信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。
信息感知层用于获取电子设备自身的信息或者外部环境中的信息。该信息感知层可以包括多个传感器。例如,该信息感知层包括距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪、惯性传感器、姿态感应器、气压计、心率传感器等多个传感器。
其中,距离传感器可以用于检测电子设备与外部物体之间的距离。磁场传感器可以用于检测电子设备所处环境的磁场信息。光线传感器可以用于检测电子设备所处环境的光线信息。加速度传感器可以用于检测电子设备的加速度数据。指纹传感器可以用于采集用户的指纹信息。霍尔传感器是根据霍尔效应制作的一种磁场传感器,可以用于实现电子设备的自动控制。位置传感器可以用于检测电子设备当前所处的地理位置。陀螺仪可以用于检测电子设备在各个方向上的角速度。惯性传感器可以用于检测电子设备的运动数据。姿态感应器可以用于感应电子设备的姿态信息。气压计可以用于检测电子设备所处环境的气压。心率传感器可以用于检测用户的心率信息。
数据处理层用于对信息感知层获取到的数据进行处理。例如,数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。
其中,数据清理是指对信息感知层获取到的大量数据进行清理,以剔除无效数据和重复数据。数据集成是指将信息感知层获取到的多个单维度数据集成到一个更高或者更抽象的维度,以对多个单维度的数据进行综合处理。数据变换是指对信息感知层获取到的数据进行数据类型的转换或者格式的转换等,以使变换后的数据满足处理的需求。数据归约是指在尽可能保持数据原貌的前提下,最大限度的精简数据量。
特征抽取层用于对数据处理层处理后的数据进行特征抽取,以提取该数据中包括的特征。提取到的特征可以反映出电子设备自身的状态或者用户的状态或者电子设备所处环境的环境状态等。
其中,特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。
过滤法是指对提取到的特征进行过滤,以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起,以构建一种更加高效、更加准确的特征提取方法,用于提取特征。
情景建模层用于根据特征抽取层提取到的特征来构建模型,所得到的模型可以用于表示电子设备的状态或者用户的状态或者环境状态等。例如,情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。
智能服务层用于根据情景建模层所构建的模型为用户提供智能化的服务。例如,智能服务层可以为用户提供基础应用服务,可以为电子设备进行***智能优化,还可以为用户提供个性化智能服务。
此外,全景感知架构中还可以包括多种算法,每一种算法都可以用于对数据进行分析处理,该多种算法可以构成算法库。例如,该算法库中可以包括马尔科夫算法、隐含狄里克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络、循环神经网络等算法。
在一些实施方式中,该数据处理层可以采集终端发送的数据,并对数据进行分析,以确定所述数据相应的场景信息,特征抽取层可以确定场景信息中的目标场景信息,并提取出该目标场景信息相应的特征信息,获取特征信息的权重值,并根据该权重值确定符合预设条件的特征信息,通过情景建模层的分类神经网络模型对符合预设条件的特征信息进行筛选处理,确定相应的目标特征信息。
本申请实施例提供一种数据筛选方法,该数据筛选方法的执行主体可以是本申请实施例提供的数据筛选装置,或者集成了该数据筛选装置的电子设备,其中该数据筛选装置可以采用硬件或者软件的方式实现。其中,电子设备可以是服务器、云服务器等。
以下进行具体分析说明。
本申请实施例提供一种数据筛选方法,如图2所示,图2为本申请实施例提供的数据筛选方法的流程示意图,该数据筛选方法可以包括以下步骤:
在步骤S101中,采集终端发送的数据,并对数据进行分析,以确定数据相应的场景信息。
其中,该数据为用户使用终端如手机时的数据类型,可以包括三类,如环境类、用户行为类以及终端运行类,该环境类为当前的环境特征类型,可以为当前的天气以及温度等等,该用户行为类为用户的行为特征,可以为应用程序使用历史以及听歌历史等等,该终端运行类为终端的使用情况,可以为进程、电量以及存储空间等等。
进一步的,服务器或者云端服务器与终端可以通过网络连接,实时接收终端发送的数据,并通过数据识别方法对用户数据进行分析识别,以确定出数据相应的场景信息,由于数据包含了用户的行为习惯,所以通过人工智能算法对该数据进行训练学习,可以得到相应的场景信息,如逛街、步行、工作以及娱乐等等。
在一些实施方式中,该对数据进行分析,以确定数据相应的场景信息的步骤,可以包括:
(1)通过邻近算法对该数据进行分析,计算该数据与该场景信息的空间距离;
(2)根据该空间距离确定出相应的场景信息。
其中,该邻近算法(k-NearestNeighbor,KNN)的工作原理为:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。因此,可以根据邻近算法对数据进行分析,计算出与数据与每一场景信息的空间距离,该空间距离可以为曼哈顿距离或者欧式距离等等,并确定出综合空间距离最近的场景信息,该场景信息可以为多个,如逛街场景和步行场景等等。
在步骤S102中,确定场景信息中的目标场景信息,并提取出目标场景信息相应的特征信息。
可以理解的是,场景中有很多共现场景,如逛街场景和步行场景为共现场景,步行场景和旅游场景也可以为共现场景,相应的,共现场景中同时存在的特征成为并发特征,该并发特征能够同时刻画多个场景的特征,如何提取并筛选出最佳的并发特征对于数据处理速度有很好的帮助。
其中,分析每一场景信息,挑选出共现场景,即挑选出在同一时刻,同时出现的两个以上的场景信息,将同时出现的两个以上的场景信息确定为目标场景信息,即共现场景。
进一步的,可以通过常规的特征提取方法抽取出共现场景中与相应场景关联度较大的特征信息。
在一些实施方式中,该确定场景信息中的目标场景信息,并提取出目标场景信息相应的特征信息的步骤,可以包括:
(1)获取每一场景信息相应的时序属性;
(2)确定时序属性相同的场景信息,并将该时序属性相同的场景信息确定为目标场景信息;
(3)提取出该目标场景信息相关的特征信息。
其中,可以获取每一场景信息相应的时序属性,该时序属性即场景信息生成时的时间值,确定场景信息生成时的时间值相同的场景信息,即为同一时刻出现的场景信息,将该场景信息生成时的时间值相同的场景信息确定为目标场景信息,即共现场景,并通过常规的特征提取方法抽取出共现场景中与相应场景关联度较大的特征信息。
在步骤S103中,获取特征信息的权重值,并根据权重值确定符合预设条件的特征信息。
其中,可以通过回归模型,该回归模型是统计关系进行定量描述的一种数学模型,如线性回归模型对共现场景中与相应场景关联度较大的特征信息进行计算,确定出每一特征信息相应的权重值,该权重值越大,与共现场景的关联度越高,该权重值越小,与共现场景的关联度越低。
进一步的,根据权重值的大小确定符合预设条件,可以为权重值大于一定阈值时,判定为权重值符合预设条件,该符合预设条件的特征信息即为并发特征,即能够同时刻画共现场景的特征。
在一些实施方式中,该获取特征信息的权重值,并根据权重值确定符合预设条件的特征信息的步骤,可以包括:
(1)通过线性回归模型计算出每一特征信息相应的权重值;
(2)判断该权重值是否大于第一预设阈值;
(3)当判断出该权重值大于第一预设阈值时,确定相应的特征信息符合预设条件。
其中,可以通过线性回归模型对每一特征信息之间的因果关系进行计算,得到每一特征信息相应的权重值,该第一预设阈值为专家设定不同场景特征的并发阈值,即每一场景特征的并发阈值可以不同。
进一步的,判断该权重值是否大于相应场景特征的并发阈值,当判断出该权重值大于相应场景特征的并发阈值时,确定该特征信息符合预设条件,即该特征信息为并发特征信息。
在一实施方式中,当判断出该权重值不大于相应场景特征的并发阈值时,确定该特征信息不符合预设条件,即该特征信息不为并发特征信息,可以将该不为并发特征信息的特征信息删除。
在步骤S104中,通过分类神经网络模型对符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
其中,该分类神经网络可以为常规意义上的神经网络,如卷积神经网络(Convolutional Neural Networks,CNN),可以将该符合预设条件的特征信息输入到该分类神经网络模型中,该神经网络模型进行训练学习后,进行特征信息的筛选处理,将符合分类条件的特征信息确定为目标特征信息,因此,通过分类神经网络模型对并发特征信息进行二次筛选,使得筛选后的并发特征信息更为准确,针对性更好。
在一些实施方式中,该通过分类神经网络模型对符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息的步骤,可以包括:
(1)将该符合预设条件的特征信息输入至分类神经网络模型中;
(2)对该分类神经网络进行收敛训练,直至该分类神经网络收敛;
(3)提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值;
(4)将该目标权重值大于第二预设阈值的特征信息确定为目标特征信息。
其中,服务器或者云端服务器将符合预设条件的特征信息输入至具有学习能力的分类神经网络模型中,对该分类神经网络模型进行收敛训练,直至该分类神经网络中的数据收敛,提取收敛后的分类神经网络的输入层相应的特征信息和该特征信息相应的目标权重值,由于该目标权重值为输入层收敛的权重值,所以该目标权重值的值更能表达与共现场景的真实关联性,该目标权重值越大,与共现场景的真实关联性越大,该目标权重值越小,与共现场景的真实关联性越小。
进一步的,该第二预设阈值为人为制定的专家阈值,将该目标权重值大于第二预设阈值的特征信息确定为目标特征信息,即将通过分类神经网络进行二次筛选后目标权重值确定为最终的并发特征信息。
由上述可知,本实施例提供的一种数据筛选方法,通过采集终端发送的数据,并对数据进行分析,以确定数据相应的场景信息;确定场景信息中的目标场景信息,并提取出目标场景信息相应的特征信息;获取特征信息的权重值,并根据权重值确定符合预设条件的特征信息;通过分类神经网络模型对符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。以此可以在云端实现根据终端的数据进行分析,确定出相应的场景信息,自动将场景信息中的共现场景相应的特征信息进行二重筛选,获取与共现场景强相关的目标特征信息,提升了数据的筛选效率。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
请参阅图3,图3为本申请实施例提供的数据筛选方法的另一流程示意图。
具体而言,该方法包括:
在步骤S201中,采集终端发送的数据,通过邻近算法对数据进行分析,计算数据与场景信息的空间距离。
需要说明的是,为了更好的说明本申请,以下将终端以手机进行举例说明,以电子设备为云端服务器进行举例说明。
其中,在本申请中,手机可以预先记录一段时间的数据,即环境类数据、用户行为类数据以及终端运行类数据,并在连接网络的状态下自动将该数据上传到云端服务器中,云端服务器在接受到手机发送的数据后,会存储到数据库中,以构建云端数据库,并通过KNN算法对该云端数据库进行训练,生成可以识别场景信息的KNN模型。
进一步的,云端服务器可以实时采集终端发送的数据,并通过KNN模型对该数据进行处理,计算该数据与每一场景信息相应的空间距离,该空间距离越大,说明与场景的关联度越大,该空间距离越小,说明与场景的关联度越小。
在步骤S202中,根据空间距离确定出相应的场景信息。
其中,获取空间距离小于一定距离,即获取场景关联度较高的场景信息,该场景信息可以有多个,如逛街场景、旅游场景。
在步骤S203中,获取每一场景信息相应的时序属性,确定时序属性相同的场景信息,并将时序属性相同的场景信息确定为目标场景信息。
其中,可以获取每一场景信息相应的时序属性,该时序属性场景相应的时间值,如逛街场景的时序属性和旅游场景的时序属性都为同一天21点52分的话,即为时序属性相同的场景信息,说明该逛街场景和旅游场景为同时发生,确定为目标场景信息,即为共现场景。
在步骤S204中,提取出目标场景信息相关的特征信息。
其中,可以通过现有的特征提取方法提取出逛街场景相关的特征信息和旅游场景相关的特征信息。
在步骤S205中,通过线性回归模型计算出每一特征信息相应的权重值。
其中,通过线性回归模型对每一特征信息之间的因果关系进行计算,得到每一特征信息相应的权重值,该权重值即代表了相应的特征信息与共现场景的关联度。
在步骤S206中,判断权重值是否大于第一预设阈值。
其中,该第一预设阈值为专家设定不同场景特征的并发阈值,每一场景特征的并发阈值不同,如逛街场景相应的并发阈值可以为0.6,该旅游场景相应的并发阈值可以为0.7。
进一步的,将逛街场景相应的特征信息的权重值与0.6比较,将旅游场景相应的特征信息的权重值与0.7比较,当判断出权重值大于第一预设阈值时,执行步骤S207,当判断出权重值不大于第一预设阈值时,执行步骤S208。
在步骤S207中,确定相应的特征信息符合预设条件。
其中,当判断出权重值大于第一预设阈值时,说明该权重值相应的特征信息符合预设条件,将该符合预设条件的特征信息认定为并发特征信息。
在步骤S208中,确定相应的特征信息不符合预设条件,并将相应的特征信息删除。
其中,当判断出权重值不大于第一预设阈值时,说明该权重值相应的特征信息不符合预设条件,为了避免对冗余数据进行处理,影响运算速度,可以将该不符合预设条件的特征信息删除。
在步骤S209中,将符合预设条件的特征信息输入至分类神经网络模型中。
其中,该分类神经网络为常规的神经网络,比如KNN或者CNN,在确定出相应的并发特征信息后,可以将该并发特征信息输入到分类神经网络模型中。
在步骤S210中,对分类神经网络进行收敛训练,直至分类神经网络收敛,提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值。
其中,对该分类神经网络模型进行收敛训练,直至该分类神经网络中的数据收敛,即数据靠近某一点,提取收敛后的神经网络的输入层的特征信息相应的目标权重值,由于该目标权重值为收敛后的权重值,所以该目标权重值的值与共现场景的真实关联性越强,该目标权重值越大,与共现场景的真实关联性越大,该目标权重值越小,与共现场景的真实关联性越小。
在步骤S211中,将目标权重值大于第二预设阈值的特征信息确定为目标特征信息,将目标权重值不大于第二预设阈值的特征信息确定为冗余特征信息,并将冗余特征信息删除。
其中,该第二预设阈值为认为制定的专家阈值,如为0.6,将提取的目标权重值与该第二预设阈值0.6进行比较,将权重值大于第二预设阈值的特征信息确定为最后的目标特征信息,即最终的并发特征信息。将权重值不大于第二预设阈值的特征信息确定为冗余特征信息,该冗余特征信息虽然在上一次处理中判定为并发特征信息,但经过收敛后不符合要求,即为伪并发特征信息,可以进行删除,使得并发特征信息更加准确和精炼。
由上述可知,由上述可知,本实施例提供的一种数据筛选方法,通过采集终端发送的数据,通过邻近算法对数据进行分析,计算数据与场景信息的空间距离,将空间距离较近的场景信息确定为场景信息,并将时序属性相同的场景信息确定为目标场景信息,提取出目标场景信息相应的特征信息,通过线性回归模型获取每一特征信息的权重值,并根据权重值确定大于第一预设阈值的特征信息,将符合预设条件的特征信息输入到分类神经网路,对分类神经网络进行收敛训练,直至分类神经网络收敛,提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值,将目标权重值大于第二预设阈值的特征信息确定为目标特征信息。以此可以在云端实现根据终端的数据进行分析,确定出相应的场景信息,根据算法模型自动对场景信息中的共现场景相应的特征信息进行二重筛选,获取与共现场景强相关的目标特征信息,提升了数据的筛选效率。
为便于更好的实施本申请实施例提供的数据筛选方法,本申请实施例还提供一种基于上述数据筛选方法的装置。其中名词的含义与上述数据筛选方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图4,图4为本申请实施例提供的数据筛选装置的模块示意图。具体而言,该数据筛选装置300,包括:分析单元31、确定单元32、获取单元33以及筛选单元34。
分析单元31,用于采集终端发送的数据,并对该数据进行分析,以确定该数据相应的场景信息。
其中,该数据为用户使用终端如手机时的数据类型,可以包括三类,如环境类、用户行为类以及终端运行类,该环境类为当前的环境特征类型,可以为当前的天气以及温度等等,该用户行为类为用户的行为特征,可以为应用程序使用历史以及听歌历史等等,该终端运行类为终端的使用情况,可以为进程、电量以及存储空间等等。
进一步的,分析单元31与终端可以通过网络连接,实时接收终端发送的数据,并通过数据识别方法对用户数据进行分析识别,以确定出数据相应的场景信息,由于数据包含了用户的行为习惯,所以通过人工智能算法对该数据进行训练学习,可以得到相应的场景信息,如逛街、步行、工作以及娱乐等等。
确定单元32,,用于确定该场景信息中的目标场景信息,并提取出该目标场景信息相应的特征信息。
其中,确定单元32分析每一场景信息,挑选出共现场景,即挑选出在同一时刻,同时出现的两个以上的场景信息,将同时出现的两个以上的场景信息确定为目标场景信息,即共现场景。
进一步的,确定单元32可以通过常规的特征提取方法抽取出共现场景中与相应场景关联度较大的特征信息。
获取单元33,用于获取该特征信息的权重值,并根据该权重值确定符合预设条件的特征信息。
其中,获取单元33可以通过回归模型,该回归模型是统计关系进行定量描述的一种数学模型,如线性回归模型对共现场景中与相应场景关联度较大的特征信息进行计算,确定出每一特征信息相应的权重值,该权重值越大,与共现场景的关联度越高,该权重值越小,与共现场景的关联度越低。
进一步的,获取单元33根据权重值的大小确定符合预设条件,可以为权重值大于一定阈值时,判定为权重值符合预设条件,该符合预设条件的特征信息即为并发特征,即能够同时刻画共现场景的特征。
在一些实施方式中,该获取单元33,具体用于通过线性回归模型计算出每一特征信息相应的权重值;判断该权重值是否大于第一预设阈值;当判断出该权重值大于第一预设阈值时,确定相应的特征信息符合预设条件;当判断出该权重值不大于第一预设阈值时,确定相应的特征信息不符合预设条件,并将该相应的特征信息删除。
筛选单元34,用于通过分类神经网络模型对该符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
其中,该分类神经网络可以为常规意义上的神经网络,如卷积神经网络,筛选单元34可以将该符合预设条件的特征信息输入到该分类神经网络模型中,该神经网络模型进行训练学习后,进行特征信息的筛选处理,将符合分类条件的特征信息确定为目标特征信息,因此,通过分类神经网络模型对并发特征信息进行二次筛选,使得筛选后的并发特征信息更为准确,针对性更好。
在一些实施方式中,该筛选单元34,具体用于将该符合预设条件的特征信息输入至分类神经网络模型中;对该分类神经网络进行收敛训练,直至该分类神经网络收敛;提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值;将该目标权重值大于第二预设阈值的特征信息确定为目标特征信息;将该目标权重值不大于第二预设阈值的特征信息确定为冗余特征信息,并将该冗余特征信息删除。
可一并参考图5,图5为本申请实施例提供的数据筛选装置的另一模块示意图,该数据筛选装置300还可以包括:
其中,该分析单元31可以包括采集子单元311、计算子单元312以及确定子单元313。
进一步的,该采集子单元311,用于采集终端发送的数据。该计算子单元312,用于通过邻近算法对该数据进行分析,计算该数据与该场景信息的空间距离。该确定子单元313,用于根据该空间距离确定出相应的场景信息。
其中,该确定单元32可以包括获取子单元321、确定子单元322以及提取子单元323。
进一步的,该获取子单元321,用于获取每一场景信息相应的时序属性。该确定子单元322,用于确定时序属性相同的场景信息,并将该时序属性相同的场景信息确定为目标场景信息。该提取子单元323,用于提取出该目标场景信息相关的特征信息。
由上述可知,本实施例提供的一种数据筛选装置,通过分析单元31采集终端发送的数据,并对数据进行分析,以确定数据相应的场景信息;确定单元32确定场景信息中的目标场景信息,并提取出目标场景信息相应的特征信息;获取单元33获取特征信息的权重值,并根据权重值确定符合预设条件的特征信息;筛选单元34通过分类神经网络模型对符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。以此可以在云端实现根据终端的数据进行分析,确定出相应的场景信息,自动将场景信息中的共现场景相应的特征信息进行二重筛选,获取与共现场景强相关的目标特征信息,提升了数据的筛选效率。
本申请实施例还提供一种电子设备。请参阅图6,电子设备500包括处理器501以及存储器502。其中,处理器501与存储器502电性连接。
该处理器500是电子设备500的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器502内的计算机程序,以及调用存储在存储器502内的数据,执行电子设备500的各种功能并处理数据,从而对电子设备500进行整体监控。
该存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
在本申请实施例中,电子设备500中的处理器501会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中,并由处理器501运行存储在存储器502中的计算机程序,从而实现各种功能,如下:
采集终端发送的数据,并对该数据进行分析,以确定该数据相应的场景信息;
确定该场景信息中的目标场景信息,并提取出该目标场景信息相应的特征信息;
获取该特征信息的权重值,并根据该权重值确定符合预设条件的特征信息;
通过分类神经网络模型对该符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
在某些实施方式中,在对该数据进行分析,以确定该数据相应的场景信息时,处理器501可以具体执行以下步骤:
通过邻近算法对该数据进行分析,计算该数据与该场景信息的空间距离;
根据该空间距离确定出相应的场景信息。
在某些实施方式中,在确定该场景信息中的目标场景信息,并提取出该目标场景信息相应的特征信息时,处理器501可以具体执行以下步骤:
获取每一场景信息相应的时序属性;
确定时序属性相同的场景信息,并将该时序属性相同的场景信息确定为目标场景信息;
提取出该目标场景信息相关的特征信息。
在某些实施方式中,在获取该特征信息的权重值,并根据该权重值确定符合预设条件的特征信息时,处理器501可以具体执行以下步骤:
通过线性回归模型计算出每一特征信息相应的权重值;
判断该权重值是否大于第一预设阈值;
当判断出该权重值大于第一预设阈值时,确定相应的特征信息符合预设条件。
在某些实施方式中,在判断该权重值是否大于第一预设阈值之后,处理器501还可以具体执行以下步骤:
当判断出该权重值不大于第一预设阈值时,确定相应的特征信息不符合预设条件,并将该相应的特征信息删除。
在某些实施方式中,在通过分类神经网络模型对该符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息时,处理器501可以具体执行以下步骤:
将该符合预设条件的特征信息输入至分类神经网络模型中;
对该分类神经网络进行收敛训练,直至该分类神经网络收敛;
提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值;
将该目标权重值大于第二预设阈值的特征信息确定为目标特征信息。
在某些实施方式中,在提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值之后,处理器501还可以具体执行以下步骤:
将该目标权重值不大于第二预设阈值的特征信息确定为冗余特征信息,并将该冗余特征信息删除。
由上述可知,本申请实施例的电子设备,通过采集终端发送的数据,并对数据进行分析,以确定数据相应的场景信息;确定场景信息中的目标场景信息,并提取出目标场景信息相应的特征信息;获取特征信息的权重值,并根据权重值确定符合预设条件的特征信息;通过分类神经网络模型对符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。以此可以在云端实现根据终端的数据进行分析,确定出相应的场景信息,自动将场景信息中的共现场景相应的特征信息进行二重筛选,获取与共现场景强相关的目标特征信息,提升了数据的筛选效率。
请一并参阅图7,在某些实施方式中,电子设备500还可以包括:显示器503、射频电路504、音频电路505以及电源506。其中,其中,显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。
该显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板,在某些实施方式中,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
该射频电路504可以用于收发射频信号,以通过无线通信与网络设备或其他终端建立无线通讯,与网络设备或其他终端之间收发信号。
该音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
该电源506可以用于给电子设备500的各个部件供电。在一些实施例中,电源506可以通过电源管理***与处理器501逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
本申请实施例还提供一种存储介质,该存储介质存储有计算机程序,当该计算机程序在计算机上运行时,使得该计算机执行上述任一实施例中的数据筛选方法,比如:采集终端发送的数据,并对该数据进行分析,以确定该数据相应的场景信息;确定该场景信息中的目标场景信息,并提取出该目标场景信息相应的特征信息;获取该特征信息的权重值,并根据该权重值确定符合预设条件的特征信息;通过分类神经网络模型对该符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的数据筛选方法而言,本领域普通测试人员可以理解实现本申请实施例的数据筛选方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如数据筛选方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的数据筛选装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,该存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种数据筛选方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种数据筛选方法,其特征在于,包括:
采集终端发送的数据,并对所述数据进行分析,以确定所述数据相应的场景信息;
确定所述场景信息中的目标场景信息,并提取出所述目标场景信息相应的特征信息,包括:获取每一场景信息相应的时序属性;确定时序属性相同的场景信息,并将所述时序属性相同的场景信息确定为目标场景信息;提取出所述目标场景信息相关的特征信息;其中,所述时序属性即场景信息生成时的时间值,确定场景信息生成时的时间值相同的场景信息,即为同一时刻出现的场景信息,将所述场景信息生成时的时间值相同的场景信息确定为目标场景信息;
获取所述特征信息的权重值,并根据所述权重值确定符合预设条件的特征信息;
通过分类神经网络模型对所述符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
2.如权利要求1所述的数据筛选方法,其特征在于,所述对所述数据进行分析,以确定所述数据相应的场景信息的步骤,包括:
通过邻近算法对所述数据进行分析,计算所述数据与所述场景信息的空间距离;
根据所述空间距离确定出相应的场景信息。
3.如权利要求1所述的数据筛选方法,其特征在于,所述获取所述特征信息的权重值,并根据所述权重值确定符合预设条件的特征信息的步骤,包括:
通过线性回归模型计算出每一特征信息相应的权重值;
判断所述权重值是否大于第一预设阈值;
当判断出所述权重值大于第一预设阈值时,确定相应的特征信息符合预设条件。
4.如权利要求3所述的数据筛选方法,其特征在于,所述判断所述权重值是否大于第一预设阈值的步骤之后,还包括:
当判断出所述权重值不大于第一预设阈值时,确定相应的特征信息不符合预设条件,并将所述相应的特征信息删除。
5.如权利要求1所述的数据筛选方法,其特征在于,所述通过分类神经网络模型对所述符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息的步骤,包括:
将所述符合预设条件的特征信息输入至分类神经网络模型中;
对所述分类神经网络进行收敛训练,直至所述分类神经网络收敛;
提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值;
将所述目标权重值大于第二预设阈值的特征信息确定为目标特征信息。
6.如权利要求5所述的数据筛选方法,其特征在于,所述提取收敛后的分类神经网络的输入层相应的特征信息以及特征信息相应的目标权重值的步骤之后,还包括:
将所述目标权重值不大于第二预设阈值的特征信息确定为冗余特征信息,并将所述冗余特征信息删除。
7.一种数据筛选装置,其特征在于,包括:
分析单元,用于采集终端发送的数据,并对所述数据进行分析,以确定所述数据相应的场景信息;
确定单元,用于确定所述场景信息中的目标场景信息,并提取出所述目标场景信息相应的特征信息,包括:获取每一场景信息相应的时序属性;确定时序属性相同的场景信息,并将所述时序属性相同的场景信息确定为目标场景信息;提取出所述目标场景信息相关的特征信息;其中,所述时序属性即场景信息生成时的时间值,确定场景信息生成时的时间值相同的场景信息,即为同一时刻出现的场景信息,将所述场景信息生成时的时间值相同的场景信息确定为目标场景信息;
获取单元,用于获取所述特征信息的权重值,并根据所述权重值确定符合预设条件的特征信息;
筛选单元,用于通过分类神经网络模型对所述符合预设条件的特征信息进行筛选处理,以确定相应的目标特征信息。
8.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至6任一项所述的数据筛选方法。
9.一种电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至6任一项所述的数据筛选方法。
CN201910282172.5A 2019-04-09 2019-04-09 数据筛选方法、装置、存储介质及电子设备 Active CN111797288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910282172.5A CN111797288B (zh) 2019-04-09 2019-04-09 数据筛选方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910282172.5A CN111797288B (zh) 2019-04-09 2019-04-09 数据筛选方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111797288A CN111797288A (zh) 2020-10-20
CN111797288B true CN111797288B (zh) 2024-06-28

Family

ID=72805292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910282172.5A Active CN111797288B (zh) 2019-04-09 2019-04-09 数据筛选方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111797288B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328658B (zh) * 2020-11-03 2023-08-08 北京百度网讯科技有限公司 用户档案数据处理方法、装置、设备及存储介质
CN113159487A (zh) * 2021-01-21 2021-07-23 全球能源互联网研究院有限公司 一种电力数据管理方法、装置、电子设备及存储介质
CN113408601B (zh) * 2021-06-10 2024-06-18 共达地创新技术(深圳)有限公司 模型生成方法、电子设备及存储介质
CN113360313B (zh) * 2021-07-07 2022-07-01 时代云英(深圳)科技有限公司 一种基于海量***日志的行为分析方法
CN115378880B (zh) * 2022-08-16 2023-08-22 平安科技(深圳)有限公司 流量分类方法、装置、计算机设备及存储介质
CN118107614A (zh) * 2024-04-30 2024-05-31 知行汽车科技(苏州)股份有限公司 一种车辆接管时间预测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886345A (zh) * 2016-09-30 2018-04-06 阿里巴巴集团控股有限公司 选取数据对象的方法及装置
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304368B (zh) * 2017-04-20 2022-02-08 腾讯科技(深圳)有限公司 文本信息的类型识别方法和装置及存储介质和处理器
CN109389135B (zh) * 2017-08-03 2020-11-13 杭州海康威视数字技术股份有限公司 一种图像筛选方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886345A (zh) * 2016-09-30 2018-04-06 阿里巴巴集团控股有限公司 选取数据对象的方法及装置
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质

Also Published As

Publication number Publication date
CN111797288A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN111797288B (zh) 数据筛选方法、装置、存储介质及电子设备
CN108280458B (zh) 群体关系类型识别方法及装置
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
CN112990390B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
CN111800331A (zh) 通知消息的推送方法、装置、存储介质及电子设备
CN111797861A (zh) 信息处理方法、装置、存储介质及电子设备
CN111796979B (zh) 数据采集策略的确定方法、装置、存储介质及电子设备
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN111797076A (zh) 数据清理方法、装置、存储介质及电子设备
CN111797870A (zh) 算法模型的优化方法、装置、存储介质及电子设备
CN111800445A (zh) 消息推送方法、装置、存储介质及电子设备
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN111797849B (zh) 用户活动识别方法、装置、存储介质及电子设备
CN111797857A (zh) 数据处理方法、装置、存储介质及电子设备
CN111798019B (zh) 意图预测方法、装置、存储介质及电子设备
CN111797874B (zh) 行为预测方法、装置、存储介质及电子设备
CN111797856B (zh) 建模方法、装置、存储介质及电子设备
CN111797261A (zh) 特征提取方法、装置、存储介质及电子设备
CN111797127B (zh) 时序数据分割方法、装置、存储介质及电子设备
CN111800535B (zh) 终端运行状态的评估方法、装置、存储介质及电子设备
CN111797860B (zh) 特征提取方法、装置、存储介质及电子设备
CN111612280A (zh) 一种数据分析方法和装置
CN111797880A (zh) 数据处理方法、装置、存储介质及电子设备
CN111800287B (zh) 数据处理方法、装置、存储介质及电子设备
CN111797227A (zh) 信息处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant