CN109740750B - 数据收集方法及装置 - Google Patents

数据收集方法及装置 Download PDF

Info

Publication number
CN109740750B
CN109740750B CN201811542893.7A CN201811542893A CN109740750B CN 109740750 B CN109740750 B CN 109740750B CN 201811542893 A CN201811542893 A CN 201811542893A CN 109740750 B CN109740750 B CN 109740750B
Authority
CN
China
Prior art keywords
collection
sample data
sample
data
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811542893.7A
Other languages
English (en)
Other versions
CN109740750A (zh
Inventor
李超然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811542893.7A priority Critical patent/CN109740750B/zh
Publication of CN109740750A publication Critical patent/CN109740750A/zh
Application granted granted Critical
Publication of CN109740750B publication Critical patent/CN109740750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据收集方法及装置,该方法包括:接收待收集样本数据;获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型。通过上述方案能够在不断有新样本生成的情况下得到满足机器学习的类别分布要求的样本数据集。

Description

数据收集方法及装置
技术领域
本发明涉及深度学习技术领域,尤其涉及一种数据收集方法及装置。
背景技术
深度学习中常用的神经网络需要使用大量样本数据进行训练。如果样本数据集中样本数据的类别分布不均衡,神经网络模型将会训练失败。对于分类问题而言,样本数据不均衡,即,数据集中每个类别的样本数据的数目差别很大。更具体地,例如,在一个二分类问题中,如果共有100个样本数据(100行数据,每一行数据为一个样本的表征),其中80个样本数据属于类别1,其余20个样本数据属于类别2,类别1:类别2=80:20=4:1,这便属于类别不均衡。在强化学习中,AI(人工智能)与环境互动会产生大量样本数据,如果将样本数据进行分类,那么不同类别的样本数据的生成概率是不同的。
样本数据集中样本数据的类别不均衡是机器学***衡的样本数据集;另一种方式是,利用现有样本数据人工生成新样本数据;还有方法不是从数据集本身出发,而是通过惩罚分类器的算法来改进模型训练的效果。这些方法针对的都是固定数据集的模型训练问题。
而对于样本量非常大或者样本量未知且不断有新样本生成的情况来说,重新抽样是很难做到的。所以,对于强化学习中样本数据不断产生的情况,类别不均衡问题尚没有得到很好的解决。
发明内容
有鉴于此,本发明提供一种数据收集方法及装置,以在不断有新样本生成的情况下得到满足机器学习的类别分布要求的样本数据集。
为了实现上述目的,本发明采用以下方案实现:
在本发明一实施例中,数据收集方法,包括:
接收待收集样本数据;
获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;
根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;
根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型。
在本发明一实施例中,计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。
在本发明一实施例中,计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述实施例所述方法的步骤。
本发明的数据收集方法、计算机设备及计算机可读存储介质,通过利用大小固定的数据集收集样本数据,可以能够得知各类别样本数据的当前占比;根据某一类别样本数据的当前占比和期望占比能够确定合理的收集概率;根据收集概率确定是否将新的样本数据添加至数据集中,能够使得数据集中的样本数据变得更符合神经网络模型训练所需要的类别分布情况。因此,能够在不断有新样本数据生成的情况下收集得到满足神经网络模型训练的类别分布要求的样本数据集。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的数据收集方法的流程示意图;
图2是本发明一实施例中确定收集概率的方法流程示意图;
图3是本发明另一实施例中确定收集概率的方法流程示意图;
图4是本发明一实施例中根据收集概率将待收集样本数据添加至样本收集数据集中的方法流程示意图;
图5是本发明另一实施例的数据收集方法的流程示意图;
图6是本发明一实施例的数据收集方法的流程示意图;
图7是本发明一实施例的数据收集装置的结构示意图;
图8是本发明一实施例中收集概率确定模块的结构示意图;
图9是本发明另一实施例中收集概率确定模块的结构示意图;
图10是本发明一实施例中数据收集单元的结构示意图;
图11是本发明另一实施例的数据收集装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明一实施例的数据收集方法的流程示意图。如图1所示,一些实施例的数据收集方法,可包括:
步骤S110:接收待收集样本数据;
步骤S120:获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;
步骤S130:根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;
步骤S140:根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型。
在上述步骤S110中,该待收集的样本数据可以为数据流中的样本数据,可以不需要知道样本总量,实时从数据流中抽取数据。可以由信号源持续不断地产生,例如,在强化学习中,不断产生的新样本数据。该些样本数据可以包含元数据(即数据本身)和类别标签,它们的类别可以不同。接收的待收集样本数据可以暂存在一个数据集中,待被读取出进行后续处理。
在上述步骤S120中,该样本收集数据集中的数据可以直接用于神经网络模型训练,根据需要可以仅包含元数据,或者包含由元数据和类别标签构成的数据对。该样本收集数据集的大小是指数据集所能容纳最多数据的数目,可以通过各种不同方式实现,例如,队列、链表等。样本收集数据集的大小通常应大于数据的总类别数,具体数值可视神经网络模型训练的需要而定,例如可以为类别总数的一百倍。该样本收集数据集中可以已经收集了大量信号源产生的样本数据。该样本收集数据集中某一类别的样本数据的当前占比,可以通过统计该类别的样本的总数,然后除以该样本收集数据集中样本数据的总数或该样本收集数据集的大小得到。其中,类别可以根据存储在该样本收集数据集中的数据对中的类别标签得到,或者通过统计专门存储的该样本收集数据集中所对应的类别标签数据集中的类别标签得到。
在上述步骤S130中,某类别的样本数据的目标占比是指期望的占比,可以根据神经网络模型训练的要求设定,具体可根据类别总数等确定,例如,在要求类别完全均衡的情况下,当类别总数为nc时,一种类别的样本数据的目标占比可以为1/nc。如果某一类别样本数据的当前占比小于其期望的占比,说明该类别的样本数据较少,反之,较多。如果当前占比小于目标比例,可以设置较大的收集概率,如果当前占比大于目标比例,可以设置较小的收集概率。
在上述步骤S140中,该收集概率可以通过随机数来实现。在样本收集数据集已满的情况下,可以利用新添加进来的样本数据代替旧的样本数据,例如最早添加至样本收集数据集中的样本数据。在样本收集数据集不满的情况下,可以直接添加至样本收集数据集中。
本实施例中,通过利用大小固定的数据集收集样本数据,可以能够得知各类别样本数据的当前占比;根据某一类别样本数据的当前占比和期望占比能够确定合理的收集概率;根据收集概率确定是否将新的样本数据添加至数据集中,能够使得数据集中的样本数据变得更符合神经网络模型训练所需要的类别分布情况。因此,本方案能够在不断有新样本数据生成的情况下收集得到满足机器学习的类别分布要求的样本数据集。在不同类别的样本数据的生成概率不同的情况下,对生成的样本数据进行过滤并收集,能够使得收集到的样本数据集中的数据类别趋近期望的类别分布,例如趋于均衡,并且数据集是可以不断收集数据流产生的新数据,从而更新用于模型训练的样本。
在一些实施例中,上述步骤S120,即,获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,可包括:
统计计算类别标签数据集中所述待收集样本数据所属类别的标签的占比,得到样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比;所述类别标签数据集用于存储所述样本收集数据集中各样本数据的类别标签,所述类别标签数据集的大小与所述样本收集数据集的大小相同。
类别标签数据集中的类别标签,可以是在样本收集数据集收集的样本数据的时候添加至类别标签数据集的,或者可以是在得到了样本收集数据的当前所有样本数据后再一一将类别标签添加至类别标签数据集中。当需要将一个样本数据的类别标签添加至类别标签数据集中时,可以从样本数据中分离出类别标签,并经过所需的转化过程后,添加至类别标签数据集中。类别标签数据集可以仅用于存储上述样本收集数据集的样本数据对应的类别标签。
本实施例中,通过利用类别标签数据集专门存储样本收集数据集中各样本数据的类别标签,能够便于快速统计样本收集数据集中样本数据的当前类别情况。
在一些实施例中,上述步骤S130,即,根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率,可包括:
步骤S131:在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率;所述第一概率大于所述第二概率。
该第一概率和该第二概率的具体值可以根据上述当前占比和目标占比的差别(例如,差值、均方差等)来确定。
本实施例中,在某一类别的当前占比小于或等于目标占比时,说明该类别的数据较少,通过较大的第一概率,可以获得更多的该类别的样本数据;在该类别的当前占比大于目标占比时,说明该类别的数据较多,通过较小的第二概率,可以获得较少的该类别的样本数据;以此,随着不断接收新的样本数据,可使该类别的样本数据可以越来越接近期望的占比。
图2是本发明一实施例中确定收集概率的方法流程示意图。如图2所示,上述步骤S131,即,在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率,可包括:
步骤S1311:获取所述样本收集数据集中样本数据的当前类别分布;
步骤S1312:计算所述当前类别分布和所述样本收集数据集中样本数据的目标类别分布之间的均方差;
步骤S1313:在所述均方差小于或等于根据所述样本收集数据集的样本总数设定的误差阈值的情况下,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将由0.5加上所述均方差得到的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比大于所述目标占比时,将由0.5减去所述均方差得到的第二概率确定为所述待收集样本数据所属类别的样本数据的收集概率。
在上述步骤S1311中,该当前类别分布可以是样本收集数据集中各类样本数据的比例、占比等。在上述步骤S1312中,假设类别的总数为nc,在其中第i类样本数据的当前占比为pi且目标占比为
Figure BDA0001908630330000062
的情况下,均方差可以表示为
Figure BDA0001908630330000061
在上述步骤S1313中,该误差阈值可以根据样本收集数据集的大小ntar确定,例如,可以为5/ntar。所述均方差小于或等于根据所述样本收集数据集的样本总数设定的误差阈值时,可以认为当前类别分布接近目标类别分布,根据0.5加上所述均方差得到的第一概率,可使以稍大的概率收集某一类别的样本数据。当所述当前占比大于所述目标占比时,可以认为当前类别分布与目标类别分布相差较大,根据0.5减去所述均方差得到的第二概率,可使以稍小的概率收集某一类别的样本数据。
本实施例中,根据当前类别分布与目标类别分布计算均方差,并以该均方差在一半概率上下波动的方式确定第一概率或第二概率,可以收集概率满足类别调整需要,且不至样本类别分布振荡太大。
在其他实施例中,可以分别计算所述当前类别分布中各类别占比的均值和所述样本收集数据集中各类别占比的均值,计算所述当前类别分布中各类别占比的均值和所述样本收集数据集中各类别占比的均值之间的差值,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将由0.5加上该差值得到的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比大于所述目标占比时,将由0.5减去该差值得到的第二概率确定为所述待收集样本数据所属类别的样本数据的收集概率。
图3是本发明另一实施例中确定收集概率的方法流程示意图。如图3所示,图2所示的确定收集概率的方法,还可包括:
步骤S1314:在所述均方差大于根据所述样本收集数据集的样本总数设定的误差阈值的情况下,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将从(0.5,1)范围内靠近1的一端所取的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比小于或等于所述目标占比时,将从(0,0.5)范围内靠近0的一端所取的第二概率确定为所述待收集样本数据所属类别的样本数据的收集概率。
在上述步骤S1314中,当所述均方差大于根据所述样本收集数据集的样本总数设定的误差阈值时,说明当前类别分布与目标样本分布相差较大。靠近1可以指(0.75,1)范围内的取值,例如,0.9、0.99等。靠近0可以指(0,0.25)范围内的取值,例如,0.1、0.15等。所述均方差大于根据所述样本收集数据集的样本总数设定的误差阈值,通过从(0.5,1)范围内靠近1的一端取值作为收集概率,可以更快地达到所需类别的样本数据的目标占比,通过从(0,0.5)范围内靠近0的一端取值作为收集概率,可以尽可能减小样本数据较多的类别的数据量的增加速度。
本实施例中,通过在当前类别分布与目标样本分布相差较大的情况下,通过设置很大的收集概率来快速增加所需类别的样本数据的收集速度,通过设置很小的收集概率来尽可能减小不需要的类别的样本数据,能够使某一类别的样本数据尽快达到其目标占比。
图4是本发明一实施例中根据收集概率将待收集样本数据添加至样本收集数据集中的方法流程示意图。如图4所示,上述步骤S140中,根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,可包括:
步骤S141:生成一随机数;
步骤S142:在所述随机数小于或等于所述收集概率的情况下,将所述待收集样本数据添加至所述样本收集数据集中;在所述随机数大于所述收集概率的情况下,不将所述待收集样本数据添加至所述样本收集数据集中。
在上述步骤S141中,可以通过各种随机数产生装置生成随机数。在上述步骤S142中,在所述随机数小于或等于所述收集概率的情况下,可以确定需要将上述待收集样本数据添加至样本收集数据集中,此时,可以返回添加标识值,根据该添加标识值可以将待收集样本数据添加至样本收集数据集中。在所述随机数大于所述收集概率的情况下,可以确定不需要将上述待收集样本数据添加至样本收集数据集中,那么可以直接丢弃该待收集样本数据,或者进行其他处理。
本实施例中,通过利用随机数实现以前述确定的收集概率收集样本数据,可以使得样本数据自动按目标类别分布进行收集。
在一些实施例中,上述步骤S142中,在所述随机数小于或等于所述收集概率的情况下,将所述待收集样本数据添加至所述样本收集数据集中,可包括:
在所述随机数小于或等于所述收集概率的情况下,若所述样本收集数据集已满,利用所述待收集样本数据替换所述样本收集数据集中最早添加的样本数据。
本实施例中,在样本收集数据集已满的情况下,通过利用新的样本数据替换掉旧的样本数据,可以在保持固定数据集大小的情况下收集到所需的样本数据。
若所述样本收集数据集未满,可以直接将待收集样本数据添加至样本收集数据集中,以提高样本数据的收集速度。
在其他实施例中,若所述样本收集数据集已满,可以根据找到当前类别占比比其目标占比高出较多的类别的样本数据,进行剔除。以此,可以提高达到目标类别分布的速度。
图5是本发明另一实施例的数据收集方法的流程示意图。如图5所示,图1所示的数据收集方法,在步骤S140之后,即,根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中之后,还可包括:
步骤S150:将所述待收集样本数据所对应的类别标签添加至所述类别标签数据集中。
所述类别标签数据集为用于存储所述样本收集数据集中各样本数据的类别标签,所述类别标签数据集的大小与所述样本收集数据集的大小相同。
本实施例中,根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,说明已确定将所述待收集样本数据添加至所述样本收集数据集中,在此情况下,将所述待收集样本数据所对应的类别标签添加至所述类别标签数据集中,可以同步更新类别标签数据集,以使类别标签数据集中的类别标签与待收集样本数据中的样本数据相对应,从而便于统计各类别样本数据的当前占比。
为使本领域技术人员更好地了解本发明,下面将以一具体实施例说明本发明的实施过程。
图6是本发明一实施例的数据收集方法的流程示意图。如图6所示,假设通过一个信号源持续产生不同类别的样本数据。产生的样本数据包括数据本身(元数据)和类别标签。利用本发明实施例的数据收集方法可以通过对数据流中的样本数据进行分析统计,然后决定是否需要将样本数据添加到一个固定大小的样本收集数据集中。
定义信号源为S,将持续产生样本数据Dsm。产生的样本数据Dsm包含元数据d和类别标签l,即Dsm={d,l}。假设标签中类别的个数为nc。本实施例中,利用固定大小的样本收集数据集收集信号源S产生的样本数据。固定大小的数据集是指数据集中最多拥有的数据的最大数目。例如,设定样本收集数据集的总大小为n,那么该样本收集数据集中最多会拥有n项样本数据。当样本收集数据集已满,而且还需要添加新的样本数据时,可以以一种设定规则替换掉样本收集数据集中的旧样本数据,例如,使用新的样本数据替换掉样本收集数据集当中当前最旧的样本数据。
首先,可以初始化用于统计的数据集和用于存放真实样本数据的数据集。用于统计的数据集可以仅用于存放样本数据的类别标签,可包括,数据流统计数据集Dst1用于存放、类别标签数据集Dst2等。用于存放真实样本数据的数据集,可以仅用于存放样本数据的元数据,或者同时用于存放由元数据和相应类别标签构成的数据对(样本数据),可包括样本收集数据集Dtar
数据流统计数据集Dst1可以用于统计数据流中每个类别的样本数据出现的概率,其大小例如可设定为nst1=nc*100。数据流统计数据集Dst1的总大小设定的越大,统计得到的每个类别的样本数据出现的概率的精度越高。开始时,数据流统计数据集Dst1将收集数据流当中的每一个样本数据,当数据流统计数据集Dst1已满时,可以使用新的样本数据替换掉数据流统计数据集Dst1当中当前最旧的样本数据。
类别标签数据集Dst2可以用于统计当前样本收集数据集Dtar中每个类别的样本数据存储的比例是多少,其总大小nst2与样本收集数据集Dtar的总大小ntar一致,即,nst2=ntar。类别标签数据集Dst2与样本收集数据集Dtar的不同之处在于,类别标签数据集Dst2只存储样本数据的类别标签,不存储样本数据的元数据(数据本身)。当一条新的样本数据到来的时候,样本收集数据集Dtar将会通过对类别标签数据集Dst2的统计结果按一定规则进行判断后来决定是否要将新的样本数据加入到样本收集数据集Dtar当中。
假设需要样本数据在样本收集数据集Dtar中的分布是,每个类别的样本数据在样本收集数据集Dtar当中占有的比例是相等的。目标类别分布是指期望的样本数据类别的分布,即ddst={pi|i=1,2,3…nc},其中pi代表第i类在样本收集数据集Dtar中的期望比例。当前类别分布是指当前样本收集数据集Dtar中样本数据类别的分布,
Figure BDA0001908630330000101
即,其中
Figure BDA0001908630330000102
代表第i类样本数据在样本收集数据集Dtar中的期望比例。当样本收集数据集Dtar没有满的时候,可以将所有的新样本数据添加进来,当已满时,可根据类别标签数据集Dst2的统计结果执行设定的判断规则,根据设定规则的判断结果来确定是否添加新样本数据到样本收集数据集Dtar
数据收集过程可以包括以下步骤:
(1)更新数据流统计数据集Dst1的数据,可以得到当前数据流的分布情况,可以用于统计数据流中样本数据的类别分布,用作后续概率取值的参考。该数据流统计数据集Dst1还可以用于暂存新的样本数据,并在需要的情况下将新的样本数据取出并添加至样本收集数据集Dtar中。在其他实施例中,可以不用数据流统计数据集Dst1,而是直接从信号源接收新的样本数据,用于判断是否添加至样本收集数据集Dtar中。
(2)根据期望的类别分布(目标类别分布)进行判断,可以将当前的类别分为两个不同的集合。当判断一个类别的期望比例(目标占比)大于当前样本收集数据集Dtar中的该类别样本数据的比例(或占比),即样本收集数据集Dtar中的这个类别的样本数据太少,此时可以将新的样本数据加入到集合Sx,否则加入集合Sy
(3)计算当前类别分布与目标类别分布之间的均方误差mse,即
Figure BDA0001908630330000103
如果mse<5/nst2,则执行后续步骤(4),否则执行后续步骤(5)。
(4)如果新的样本数据的类别在集合Sx中,则可以以pacc=0.5+mse的概率添加新的样本数据到样本收集数据集Dtar当中,否则以pacc=0.5-mse的概率添加新的样本数据到样本收集数据集Dtar当中,然后可以执行后续步骤(6)。
(5)如果新的样本数据的类别在集合Sx中,则以pxthr的概率添加新数据到数据集当中,否则以pythr的概率添加新样本数据到样本收集数据集Dtar当中。概率pxthr和概率pythr为设定的阈值。概率pxthr的取值范围可为(0.5,1),为了更快的达到目标概率,概率pxthr可以取0.99。概率pythr的取值范围可为(0,0.5),为了更快的达到目标概率,概率pythr可以取0.01。然后,执行后续步骤(6)。
(6)生成随机数,若随机数小于上述概率,则确定添加新的样本数据到样本收集数据集Dtar中,则返回True,否则返回False。随后可以将判断的结果返回给样本收集数据集Dtar,如果返回了True,则新的样本数据将会被添加到样本收集数据集Dtar中,同时将新的样本的类别标签添加到类别标签数据集Dst2,否则丢弃数据。当样本收集数据集Dtar没有满的时候,将添加所有的新样本数据到样本收集数据集Dtar,同时将新的样本的类别标签添加到类别标签数据集Dst2,当样本收集数据集Dtar已满,可以通过执行上述判断规则判断是否加入新的样本数据。
本实施例中,针对不断有新数据产生的情况,解决了在这种情况下数据流产生的数据的类别不均衡的问题,解决的情况是数据量总体大小是不确定的。而利用现有技术不能通过对固定大小的所有数据进行抽样来解决类别不均衡的问题。不需要知道样本总量,实时从数据流中抽取数据。可以使用新数据替换掉数据集中的旧数据,从而可以一直更新数据集中的内容。解决了在不断有新样本生成的情况下怎么去收集一个固定大小的数据集,以及在数据集已满的情况下如何判断是否需要用新数据替换现有数据集中的数据的问题。
基于与图1所示的数据收集方法相同的发明构思,本发明实施例还提供了一种数据收集装置,如下面实施例所述。由于该数据收集装置解决问题的原理与数据收集方法相似,因此该数据收集装置的实施可以参见数据收集方法的实施,重复之处不再赘述。
图7是本发明一实施例的数据收集装置的结构示意图。如图7所示,一些实施例的数据收集装置,可包括:数据接收单元210、当前占比获取单元220、收集概率确定单元230及数据收集单元240,上述各单元顺序链接。
数据接收单元210,用于接收待收集样本数据;
当前占比获取单元220,用于获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;
收集概率确定单元230,用于根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;
数据收集单元240,用于根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型。
在一些实施例中,当前占比获取单元220,可包括:当前占比获取模块。
当前占比获取模块,用于统计计算类别标签数据集中所述待收集样本数据所属类别的标签的占比,得到样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比;所述类别标签数据集用于存储所述样本收集数据集中各样本数据的类别标签,所述类别标签数据集的大小与所述样本收集数据集的大小相同。
在一些实施例中,收集概率确定单元230,可包括:收集概率确定模块。
收集概率确定模块,用于在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率;所述第一概率大于所述第二概率。
图8是本发明一实施例中收集概率确定模块的结构示意图。如图8所示,收集概率确定模块,可包括:当前类别分布获取模块2311、均方差计算模块2312及第一收集概率生成模块2313,上述各模块顺序连接。
当前类别分布获取模块2311,用于获取所述样本收集数据集中样本数据的当前类别分布;
均方差计算模块2312,用于计算所述当前类别分布和所述样本收集数据集中样本数据的目标类别分布之间的均方差;
第一收集概率生成模块2313,用于在所述均方差小于或等于根据所述样本收集数据集的样本总数设定的误差阈值的情况下,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将由0.5加上所述均方差得到的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比大于所述目标占比时,将由0.5减去所述均方差得到的第二概率确定为所述待收集样本数据所属类别的样本数据的收集概率。
图9是本发明另一实施例中收集概率确定模块的结构示意图。如图9所示,图8所示的收集概率确定模块,还可包括:第二收集概率生成模块2314,与均方差计算模块2312连接。
第二收集概率生成模块2314,用于在所述均方差大于根据所述样本收集数据集的样本总数设定的误差阈值的情况下,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将从(0.5,1)范围内靠近1的一端所取的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比小于或等于所述目标占比时,将从(0,0.5)范围内靠近0的一端所取的第二概率确定为所述待收集样本数据所属类别的样本数据的收集概率。
图10是本发明一实施例中数据收集单元的结构示意图。如图10所示,数据收集单元240,可包括:随机数生成模块241和数据收集模块242,二者相互连接。
随机数生成模块241,用于生成一随机数;
数据收集模块242,用于在所述随机数小于或等于所述收集概率的情况下,将所述待收集样本数据添加至所述样本收集数据集中;在所述随机数大于所述收集概率的情况下,不将所述待收集样本数据添加至所述样本收集数据集中。
在一些实施例中,数据收集模块242,可包括:样本收集数据集更新模块。
样本收集数据集更新模块,用于在所述随机数小于或等于所述收集概率的情况下,若所述样本收集数据集已满,利用所述待收集样本数据替换所述样本收集数据集中最早添加的样本数据。
图11是本发明另一实施例的数据收集装置的结构示意图。如图11所示,图7所示的数据收集装置,还可包括:类别标签数据集更新模块250,与数据收集单元240连接。
类别标签数据集更新模块250,用于将所述待收集样本数据所对应的类别标签添加至所述类别标签数据集中。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述方法的步骤。
综上所述,本发明实施例的数据收集方法、数据收集装置、计算机设备及计算机可读存储介质,通过利用大小固定的数据集收集样本数据,可以能够得知各类别样本数据的当前占比;根据某一类别样本数据的当前占比和期望占比能够确定合理的收集概率;根据收集概率确定是否将新的样本数据添加至数据集中,能够使得数据集中的样本数据变得更符合神经网络模型训练所需要的类别分布情况。因此,本方案能够在不断有新样本数据生成的情况下收集得到满足机器学习的类别分布要求的样本数据集。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据收集方法,其特征在于,包括:
接收待收集样本数据;
获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;
根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;
根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型;
其中,所述根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率,包括:
根据当前类别分布和所述样本收集数据集中样本数据的目标类别分布计算均方差,并以该均方差在一半概率上下波动的方式确定收集概率,其中,当前类别分布为所述样本收集数据集中样本数据的分布。
2.如权利要求1所述的数据收集方法,其特征在于,获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,包括:
统计计算类别标签数据集中所述待收集样本数据所属类别的标签的占比,得到样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比;所述类别标签数据集用于存储所述样本收集数据集中各样本数据的类别标签,所述类别标签数据集的大小与所述样本收集数据集的大小相同。
3.如权利要求1所述的数据收集方法,其特征在于,根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率,包括:
在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率;所述第一概率大于所述第二概率。
4.如权利要求3所述的数据收集方法,其特征在于,在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率,包括:
获取所述样本收集数据集中样本数据的当前类别分布;
计算所述当前类别分布和所述样本收集数据集中样本数据的目标类别分布之间的均方差;
在所述均方差小于或等于根据所述样本收集数据集的样本总数设定的误差阈值的情况下,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将由0.5加上所述均方差得到的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比大于所述目标占比时,将由0.5减去所述均方差得到的第二概率确定为所述待收集样本数据所属类别的样本数据的收集概率。
5.如权利要求4所述的数据收集方法,其特征在于,在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率,还包括:
在所述均方差大于根据所述样本收集数据集的样本总数设定的误差阈值的情况下,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将从(0.5,1)范围内靠近1的一端所取的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比小于或等于所述目标占比时,将从(0,0.5)范围内靠近0的一端所取的第二概率确定为所述待收集样本数据所属类别的样本数据的收集概率。
6.如权利要求1所述的数据收集方法,其特征在于,根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,包括:
生成一随机数;
在所述随机数小于或等于所述收集概率的情况下,将所述待收集样本数据添加至所述样本收集数据集中;在所述随机数大于所述收集概率的情况下,不将所述待收集样本数据添加至所述样本收集数据集中。
7.如权利要求6所述的数据收集方法,其特征在于,在所述随机数小于或等于所述收集概率的情况下,将所述待收集样本数据添加至所述样本收集数据集中,包括:
在所述随机数小于或等于所述收集概率的情况下,若所述样本收集数据集已满,利用所述待收集样本数据替换所述样本收集数据集中最早添加的样本数据。
8.如权利要求2所述的数据收集方法,其特征在于,根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中之后,还包括:
将所述待收集样本数据所对应的类别标签添加至所述类别标签数据集中。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8所述方法的步骤。
CN201811542893.7A 2018-12-17 2018-12-17 数据收集方法及装置 Active CN109740750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811542893.7A CN109740750B (zh) 2018-12-17 2018-12-17 数据收集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811542893.7A CN109740750B (zh) 2018-12-17 2018-12-17 数据收集方法及装置

Publications (2)

Publication Number Publication Date
CN109740750A CN109740750A (zh) 2019-05-10
CN109740750B true CN109740750B (zh) 2021-06-15

Family

ID=66360404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811542893.7A Active CN109740750B (zh) 2018-12-17 2018-12-17 数据收集方法及装置

Country Status (1)

Country Link
CN (1) CN109740750B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529172A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 数据处理方法和数据处理设备
US20220147668A1 (en) * 2020-11-10 2022-05-12 Advanced Micro Devices, Inc. Reducing burn-in for monte-carlo simulations via machine learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909981B (zh) * 2015-12-23 2020-08-25 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分***
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN108920477A (zh) * 2018-04-11 2018-11-30 华南理工大学 一种基于二叉树结构的不平衡数据处理方法
CN108960561A (zh) * 2018-05-04 2018-12-07 阿里巴巴集团控股有限公司 一种基于不平衡数据的风控模型处理方法、装置及设备
CN108647727A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类欠采样方法、装置、设备及介质
CN108694413A (zh) * 2018-05-10 2018-10-23 广州大学 自适应采样不平衡数据分类处理方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法

Also Published As

Publication number Publication date
CN109740750A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN112241494B (zh) 基于用户行为数据的关键信息推送方法及装置
CN109327480B (zh) 一种多步攻击场景挖掘方法
CN111754345A (zh) 一种基于改进随机森林的比特币地址分类方法
CN107003992A (zh) 用于神经语言行为识别***的感知联想记忆
CN109740750B (zh) 数据收集方法及装置
CN106911591A (zh) 网络流量的分类方法和***
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN112907632A (zh) 一种单拖船只目标的识别方法及装置
Li et al. Scalable random forests for massive data
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN106909492B (zh) 业务数据的追踪方法及装置
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN116188834B (zh) 基于自适应训练模型的全切片图像分类方法及装置
D’Este et al. Predicting shellfish farm closures with class balancing methods
CN116610987A (zh) 基于分布式样本筛选的kmeans日志分类方法和装置
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关***、设备
CN114064434B (zh) 一种日志异常的预警方法、装置、电子设备及存储介质
CN111027599B (zh) 基于随机抽样的聚类可视化方法及装置
CN113569879B (zh) 异常识别模型的训练方法、异常账号识别方法及相关装置
CN113888318A (zh) 风险检测方法及***
CN111860334A (zh) 一种基于混淆度矩阵的级联车型分类方法及装置
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备
Köktürk et al. Model-free expectation maximization for divisive hierarchical clustering of multicolor flow cytometry data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200201

Address after: 100041, room 2, building 3, building 30, Xing Xing street, Shijingshan District, Beijing,

Applicant after: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address before: 100083 the first floor of the western small building, No. 18, No. 18, Xue Qing Lu Jia, Beijing

Applicant before: Beijing Shenji Intelligent Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant