CN112463844B - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents

一种数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112463844B
CN112463844B CN202011479460.9A CN202011479460A CN112463844B CN 112463844 B CN112463844 B CN 112463844B CN 202011479460 A CN202011479460 A CN 202011479460A CN 112463844 B CN112463844 B CN 112463844B
Authority
CN
China
Prior art keywords
cell
classification
cells
sampling
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011479460.9A
Other languages
English (en)
Other versions
CN112463844A (zh
Inventor
李辰威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baiaozhihui Technology Co ltd
Original Assignee
Beijing Baiaozhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baiaozhihui Technology Co ltd filed Critical Beijing Baiaozhihui Technology Co ltd
Priority to CN202011479460.9A priority Critical patent/CN112463844B/zh
Publication of CN112463844A publication Critical patent/CN112463844A/zh
Application granted granted Critical
Publication of CN112463844B publication Critical patent/CN112463844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据处理方法、装置、电子设备及存储介质。该方法包括:基于细胞的分类标签,确定各所述分类标签对应的细胞数量;根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。以实现细胞抽样,从而在保留细胞集合的数据结构的基础上,减少细胞的降维可视化运算的时间。

Description

一种数据处理方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着单细胞转录组数据集中细胞数量不断增加,但是有些类别的细胞数量却占有的比例很少,即数据集的类别比呈现出非平衡的特性,而这些数据往往是人们的研究重点。
目前,大多通过从原始数据集中随机无放回抽取细胞,将抽取的细胞进行降维计算并进行可视化展示。然而通过此方式抽取细胞,无法保证细胞种类的完整性。
发明内容
本发明提供一种数据处理方法、装置、电子设备及存储介质,以实现细胞抽样,从而提高细胞的完整性,减少细胞的降维运算的时间。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
基于细胞的分类标签,确定各所述分类标签对应的细胞数量;
根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;
基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;
将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
细胞数量确定模块,用于基于细胞的分类标签,确定各所述分类标签对应的细胞数量;
细胞抽样数量确定模块,用于根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;
目标抽样细胞集合得到模块,用于基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;
可视化展示模块,用于将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述程序被所述处理器执行,使得所述处理器实现如本发明任意实施例所提供的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的数据处理方法。
本发明实施例的技术方案,通过根据细胞的分类标签,确定各分类标签对应的细胞数量,根据各分类标签对应的细胞数量,确定各分类标签对应的细胞抽样数量,基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合,将目标抽样细胞集合中的各目标抽样细胞进行可视化展示。解决了细胞数据集抽取细胞种类完整性的问题,实现细胞抽样,从而在保留细胞集合的数据结构的基础上,减少细胞的降维可视化运算的时间。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1是本发明实施例一提供的一种数据处理方法流程示意图;
图2是本发明实施例二提供的一种数据处理方法流程示意图;
图3是本发明实施例三提供的一种数据处理装置模块示意图;
图4是本发明实施例四提供的一种电子设备结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种数据处理方法的流程示意图,本实施例可适用于通过抽取各个类型的细胞,从而得到完整细胞数据集的情况,该方法可以由数据处理装置来执行,数据处理装置可通过软件和/或硬件方式实现,该数据处理装置可集成于诸如计算机或者服务器等的电子设备中。
如图1所示,本实施例的方法包括:
S110、基于细胞的分类标签,确定各分类标签对应的细胞数量。
其中,细胞可以理解为数据形式的细胞,如,可以是单细胞转录组数据集中的细胞,细胞的分类标签可以包括细胞的群类信息,用于区分细胞的类型。
具体的,根据细胞的分类标签,将数据集中细胞的分类标签相同的细胞作为一种类型的细胞集合,例如,细胞数据集中的细胞分类标签包括分类标签1、分类标签2以及分类标签3,将细胞的分类标签为分类标签1的细胞作为类1,同理将细胞的分类标签分别为分类标签2、分类标签3的细胞分别分为类2和类3。基于细胞的分类标签,得到各类型的细胞的数据集,例如类1、类2和类3分别对应的细胞数据集,根据细胞的分类,得到细胞分类标签对应的细胞数量,也就是说,根据分别确定类1、类2和类3对应的细胞数量。
S120、根据各分类标签对应的细胞数量,确定各分类标签对应的细胞抽样数量。
其中,抽样是从总体中抽取样本,其中,总体是所考察对象的某一指标的全体构成的集合,样本是构成总体中的每一个元素作为个体,从总体中抽取一部分的个体所组成的集合叫做样本,样本中的个体数据叫做样本数量,也就是抽样本数量。各分类标签对应的细胞抽样数量的确定可以通过预先设定抽样规则。
本实施例中,总体可以理解为单细胞转录组数据集,该单细胞转录组数据包括各类型的细胞数据集,即包括全部待抽样的细胞。细胞抽样数量理解为待抽取作为样本的细胞数量,通过将总体数据集根据细胞的分类标签进行细胞类型的划分,确定每一个分类标签的细胞数据集中的细胞抽取数量,以保证每一分类标签的细胞数据集均存在细胞被抽取。
在一些实施例中,各分类标签对应的细胞抽样数量可以是随机确定,还可以是基于预设算法对分类标签对应的细胞数量计算得到。在一些实施例中,不同分类标签对应的细胞抽样数量等比例分布。
示例性的,当分类标签为类1的细胞数量为500个,以及分类标签分别为类2和类3的细胞数量分别为700个和900个时,根据提前预设的细胞抽样规则,得到类1的细胞抽样数量为50个,类2的细胞抽样数量为70个以及类3的细胞抽样数量为90个。
S130、基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合。
其中,细胞的抽取方式可以包括简单随机抽样、***抽样、分层抽样等方式。目标抽样细胞集合可以理解为从各个分类标签对应的细胞数据集中抽取细胞,得到抽取的细胞集合。目标抽样细胞集合用于存储各种类型的细胞。
需要说明的是,本实施例的细胞抽取方式是无放回随机抽样。
示例性的,从分类标签为类1的500个细胞中无放回抽取50个细胞,从分类标签为类2的700个细胞中无放回抽取70个细胞,从分类标签为类2的900个细胞中无放回抽取90个细胞,将抽取分类标签为类1的50个细胞、分类标签为类2的70个细胞以及分类标签为类3的90个的细胞组合成目标抽样细胞集合。
S140、将目标抽样细胞集合中的各目标抽样细胞进行可视化展示。
其中,目标抽样细胞可以理解为各个分类标签对应的抽样细胞。可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来。
具体的,将目标抽样细胞集合中的各个目标抽样细胞进行可视化展示,以直观的方式展示单细胞转录组数据集中不同类型的细胞。
为了能够及时发现单细胞转录组数据集中的稀有类型的细胞,在上述实施例的基础上,可选的,在根据各分类标签对应的细胞数量,确定各分类标签对应的细胞抽样数量之前,还包括,获取原始细胞数据集,基于细胞的分类标签对原始细胞数据集中的细胞进行处理,得到各分类标签对应的细胞数据集;当存在无标签细胞时,基于已有分类标签和已有分类标签对应的细胞数据集对无标签细胞进行无监督分类处理,得到分类标签。
其中,原始细胞数据集可以理解为包括有分类标签细胞和无标签细胞,本实施例中,原始细胞数据集可以是单细胞转录组数据集,细胞的分类标签可以是通过预设标识的形式写入细胞数据的预设字段,在获取原始数据集之后,依次确定各细胞数据中的预设字段中是否包括分类标签,若否,则确定该细胞数据为无标签细胞,若是,则确定该细胞数据为有分类标签细胞。
对于有分类标签细胞,将分类标签相同的细胞归为一类,得到各个分类标签对应的数据集。
对于无标签细胞,通过无监督分类的形式确定分类标签,其中,无监督分类可以是通过无监督聚类实现,聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,示例性的,无监督聚类可以是k均值聚类。在确定分类标签后,基于确定的分类标签对细胞划分至各分类数据集中。若不存在分类标签对应的数据集时,形成一新的数据集,用于存储该新的分类标签对应的细胞。
在一些实施例中,为了实现细胞准确分类,可选的,基于已有分类标签和已有分类标签对应的细胞数据集对所述无标签细胞进行无监督分类处理,得到分类标签,包括:分别确定所述无标签细胞与各所述已有分类标签对应的细胞数据集的距离,将最小距离对应的分类标签确定为所述无标签细胞的标签;当所述最小距离大于预设距离时,创建所述无标签细胞对应的新增分类标签。
其中,无标签细胞与细胞数据集的距离可以理解为该无标签细胞与细胞数据集中细胞之间的差异,距离可以是欧式距离、也可以是闵式距离,距离数值大表示两个细胞之间的差异大。距离数值小表示两个细胞之间的差异小,本实施例中,通过距离数值的大小对无标签细胞进行标记,以使无分类标签细胞具有分类标签。可选的,可以是设置一度量空间,将细胞数据集中的各细胞映射到上述度量空间中,确定各细胞的映射位置点,基于该细胞数据集中各细胞的映射位置点可确定该细胞数据集对应的分类标签的中心位置点,相应的,对于各分类标签的细胞数据集,确定各分类标签的中心位置点。对于无标签细胞在度量空间的位置点,分别计算与各分类标签的中心位置点的距离,将该距离视为无标签细胞与各细胞数据集的距离。
需要说明的是,本实施例中对距离的确定方式不做限定,只要能够量化表示两个细胞之间的差异即可。
在一个实施例中,具体的,基于单细胞转录组数据集中的各个细胞的特征向量,计算无标签细胞的特征向量与各个已有分类标签的细胞的特征向量之间的各个距离,从各个距离中选取最小距离,根据最小距离确定该最小距离对应的分类标签,将最小距离对应的分类标签作为无标签细胞的分类标签。
示例性的,已有分类标签的细胞与无标签细胞之间的距离分别是0.1、0.2、0.12、0.04、0.3等,通过得到的距离进行排序,获取做小的距离,也就是0.1,得到0.1对应的已有分类标签的细胞的分类标签,即分类标签为类1,将分类标签为类1作为该无标签细胞的分类标签。
在另一实施例中,获取各个已分类标签对应的细胞数据集的各个中心细胞,分别计算各个中心细胞的特征向量与无标签细胞的特征向量之间的距离,将计算得到的各个距离进行排序,将最小的距离对应的中心细胞的分类标签作为无标签细胞的分类标签。
在一些实施例中,当最小距离大于预设距离时,创建无标签细胞对应的新增分类标签。
其中,预设距离用于划分无标签细胞与已有类型的细胞之间的距离,以使无标签细胞成为一个新类型的细胞。
具体的,在检测无标签细胞与各个已有标签的细胞之间的到最小距离大于预设距离时,表征无标签细胞不属于细胞数据集中各个分类标签,创建无标签细胞对应的新增分类标签。
本发明实施例的技术方案,通过根据细胞的分类标签,确定各分类标签对应的细胞数量,根据各分类标签对应的细胞数量,确定各分类标签对应的细胞抽样数量,基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合,将目标抽样细胞集合中的各目标抽样细胞进行可视化展示。解决了细胞数据集抽取细胞种类完整性的问题,保证了每一个分类的细胞均被抽样,提高了细胞的完整性,减少细胞的降维可视化运算的时间效果。
实施例二
图2是本发明实施例二提供的一种数据处理方法流程示意图,在前述实施例的基础上,本实施例细化细胞抽样规则,以及对得到的抽样细胞进行动态展示。
其中,与上述实施例相同或者相应的技术术语在此不再赘述。
如图2所示,本实施例的方法具体可包括:
S210、基于细胞的分类标签,确定各分类标签对应的细胞数量。
S220、根据分类标签对应的细胞数量,通过公式y=k-k*e-(x/k),得到与分类标签对应的细胞抽样数量。
其中,x表示所述分类标签对应的细胞数量,参数k为预设常数,y表示与所述分类标签对应的细胞抽样数量,其中公式的y的值需要向下取整。
具体的,根据各个分类标签对应的细胞数量,通过公式y=k-k*e-(x/k)计算与所述分类标签对应的细胞抽样数量,为了使稀有细胞能够更高比例的保留,本实施例中计算分类标签对应的细胞抽样数量,通过y=k-k*e-(x/k)公式计算,其中,公式y=k-k*e-(x/k)满足以下条件:(1)x在0到正无穷的定义域上是连续的且单调递增,以使细胞数量越多,抽取的细胞数量也越多;(2)、公式的一阶导数小于0,公式单调递减,以实现随着分类标签中某类细胞数量的增多,表征该类型的细胞从稀有到普通;3)在分类标签对应的细胞数量为0时,得到的该分类标签对应的细胞抽样数量为0,且公式的一阶导数为1,也就是说该公式的麦克劳林展开为x+o(x),以使稀有细胞类型抽取数量达到最大值;4)、公式时有上界,以使分类标签对应的细胞数量达到一定数量后,抽取的细胞数量总小于常数,也就是说y总小于k,并且当分类标签对应的细胞数量趋近于无穷时,对应分类标签的细胞抽样数量接近参数k。
进一步,为了快速、便捷的得到公式y=k-k*e-(x/k)中参数k的值,可选的,参数k的确定方法可以是获取样本细胞数量、标准细胞抽样数量和k的初始参数,迭代执行如下步骤:基于所述样本细胞数量和k的初始参数确定测试细胞抽样数量,当所述测试细胞抽样数量小于标准细胞抽样数量时,基于预设倍数更新初始参数,并基于更新后的参数执行下一迭代;当测试细胞抽样数量大于标准细胞抽样数量时,基于参数k的当前范围更新所述初始参数,并基于更新后的参数执行下一迭代,其中,更新后的参数为当前范围的中间值;当测试细胞抽样数量等于标准细胞抽样数量时,将k的当前参数确定为目标参数,并停止迭代过程。
其中,样本细胞数量可以理解为任一分类标签对应的细胞数量。标准细胞抽样数量可以理解为预期细胞抽样数量。k的初始参数可以理解为参数k的初始值,其中k的初始参数可以是根据经验提前预设参数值。测试细胞抽样数量是通过公式y=k-k*e-(x/k)计算的到的y值,可以理解为用于动态调整参数k的变化量。
示例性的,当预设k为100时,样本细胞数量为X,预设标准细胞抽样数量为Y,通过公式y=k-k*e-(x/k),计算得到测试细胞抽样数量为50,在检测到测试细胞抽样数量小于Y,则将k的值变为2*100=200,重复计算,更新参数,并基于更新后的参数执行下一迭代,直到测试细胞抽样数量不小于Y。
当测试细胞抽样数量大于标准细胞抽样数量时,基于参数k的当前范围更新初始参数,并基于更新后的参数执行下一迭代,其中,更新后的参数为当前范围的中间值。
示例性的,在检测到测试细胞抽样数量大于Y时,根据参数k的当前范围100-200,将参数k变为k=(100+200)/2,基于公式计算测试细胞抽样数量,更新参数,并基于更新后的参数执行下一迭代,直到测试细胞抽样数量不大于Y。
在检测到测试细胞抽样数量等于Y时,将参数k的当前的值作为目标参数,并停止迭代过程。
S230、基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合。
S240、将目标抽样细胞进行降维处理,得到待展示抽样细胞数据,其中,待展示抽样细胞数据包括静态图或动态图。
其中,降维处理是将高维数据化为低维数据的操作,降维处理的基本思路力争在不改变高维数据结构的前提下,将高维空间的数据投影到低维空间,一般为二维或二维空间中,然后进行分析,本实施例的降维处理可以理解为将高维空间的细胞数据投影到二维空间中。待展示抽样细胞可以理解为将目标抽样细胞进行降维处理的细胞,通过降维处理的细胞数据可以是包括但不限于静态图和动态图。
可选的,将所述目标抽样细胞进行降维处理,包括:基于非线性降维算法对所述目标抽样细胞进行降维处理。
需要说明的是,本实施例中,对目标抽样细胞进行降维处理的非线性降维算法不做限定,只要能够实现细胞降维即可。
S250、将待展示抽样细胞数据通过进行静态渲染或者web动态显示。
其中,静态渲染可以理解为将细胞数据集中各个细胞画在页面上,web动态显示可以理解为按照预设的加载规则将待展示抽样细胞数据加载到页面中,并进行显示。
本发明实施例的技术方案,通过根据细胞的分类标签,确定各分类标签对应的细胞数量,根据分类标签对应的细胞数量,通过公式y=k-k*e-(x/k),得到与分类标签对应的细胞抽样数量,基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合,将目标抽样细胞进行降维处理,得到待展示抽样细胞数据,其中,待展示抽样细胞数据包括静态图或动态图,将待展示抽样细胞数据通过进行静态渲染或者web动态显示。解决了细胞数据集抽取细胞种类完整性的问题,保证了每一个分类的细胞均被抽样,提高了细胞的完整性,减少细胞的降维运算的时间效果。
实施例三
图3是本发明实施例三提供的一种数据处理装置模块示意图,本发明提供了一种数据处理装置,包括:细胞数量确定模块310、细胞抽样数量确定模块320、目标抽样细胞集合得到模块330和可视化展示模块340。
其中,细胞数量确定模块310,用于基于细胞的分类标签,确定各所述分类标签对应的细胞数量;细胞抽样数量确定模块320,用于根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;目标抽样细胞集合得到模块330,用于基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;可视化展示模块340,用于将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。
本实施例的技术方案,通过细胞数量确定模块基于细胞的分类标签,确定各分类标签对应的细胞数量,通过细胞抽样数量确定模块根据各分类标签对应的细胞数量,确定各分类标签对应的细胞抽样数量,通过目标抽样细胞集合得到模块基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合,通过可视化展示模块将目标抽样细胞集合中的各目标抽样细胞进行可视化展示。解决了细胞数据集抽取细胞种类完整性的问题,保证了每一个分类的细胞均被抽样,提高了细胞的完整性,减少细胞的降维可视化运算的时间效果。
可选的,该装置还包括:细胞数据集得到模块350,用于获取原始细胞数据集,基于细胞的分类标签对所述原始细胞数据集中的细胞进行处理,得到各分类标签对应的细胞数据集;当存在无标签细胞时,基于已有分类标签和所述已有分类标签对应的细胞数据集对所述无标签细胞进行无监督分类处理,得到分类标签。
可选的,细胞数据集得到模块350,用于分别确定所述无标签细胞与各所述已有分类标签对应的细胞数据集的距离,将最小距离对应的分类标签确定为所述无标签细胞的标签;当所述最小距离大于预设距离时,创建所述无标签细胞对应的新增分类标签。
可选的,目标抽样细胞集合得到模块330,用于根据分类标签对应的细胞数量,通过公式y=k-k*e-(x/k),得到与所述分类标签对应的细胞抽样数量;其中,x表示所述分类标签对应的细胞数量,参数k,y表示与所述分类标签对应的细胞抽样数量。
可选的,目标抽样细胞集合得到模块330,用于获取样本细胞数量、标准细胞抽样数量和所述k的初始参数,迭代执行如下步骤:
基于所述样本细胞数量和所述k的初始参数确定测试细胞抽样数量,当所述测试细胞抽样数量小于所述标准细胞抽样数量时,基于预设倍数更新所述初始参数,并基于更新后的参数执行下一迭代;
当所述测试细胞抽样数量大于所述标准细胞抽样数量时,基于所述参数k的当前范围更新所述初始参数,并基于更新后的参数执行下一迭代,其中,更新后的参数为当前范围的中间值;
当所述测试细胞抽样数量等于所述标准细胞抽样数量时,将所述k的当前参数确定为目标参数,并停止迭代过程。
可选的,可视化展示模块340,用于将所述目标抽样细胞进行降维处理,得到待展示抽样细胞数据,其中,所述待展示抽样细胞数据包括静态图或动态图;将所述待展示抽样细胞数据通过进行静态渲染或者web动态显示。
可选的,可视化展示模块340,用于基于非线性降维算法对所述目标抽样细胞进行降维处理。
上述装置可执行本发明任意实施例所提供的数据处理方法,具备执行数据处理方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施例实施方式的示例性设备40的框图。图4显示的设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备40以通用计算设备的形式表现。设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,***存储器402,连接不同***组件(包括***存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
设备40典型地包括多种计算机***可读介质。这些介质可以是任何能够被设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器402可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该设备40交互的设备通信,和/或与使得该设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与设备40的其它模块通信。应当明白,尽管图4中未示出,可以结合设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元401通过运行存储在***存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据处理方法。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行数据处理方法。
该方法包括:
基于细胞的分类标签,确定各所述分类标签对应的细胞数量;
根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;
基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;
将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
基于细胞的分类标签,确定各所述分类标签对应的细胞数量;
根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;
基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;
将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示;
其中,所述根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量,包括:
根据分类标签对应的细胞数量,通过公式
Figure DEST_PATH_IMAGE002
,得到与所述分类标签对应的细胞抽样数量;
其中,x表示所述分类标签对应的细胞数量,参数k,y表示与所述分类标签对应的细胞抽样数量;
所述参数k的确定方法包括:
获取样本细胞数量、标准细胞抽样数量和所述k的初始参数,迭代执行如下步骤:
基于所述样本细胞数量和所述k的初始参数确定测试细胞抽样数量,当所述测试细胞抽样数量小于所述标准细胞抽样数量时,基于预设倍数更新所述初始参数,并基于更新后的参数执行下一迭代;
当所述测试细胞抽样数量大于所述标准细胞抽样数量时,基于所述参数k的当前范围更新所述初始参数,并基于更新后的参数执行下一迭代,其中,更新后的参数为当前范围的中间值;
当所述测试细胞抽样数量等于所述标准细胞抽样数量时,将所述k的当前参数确定为目标参数,并停止迭代过程。
2.根据权利要求1所述的方法,其特征在于,在根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量之前,还包括:
获取原始细胞数据集,基于细胞的分类标签对所述原始细胞数据集中的细胞进行处理,得到各分类标签对应的细胞数据集;
当存在无标签细胞时,基于已有分类标签和所述已有分类标签对应的细胞数据集对所述无标签细胞进行无监督分类处理,得到分类标签。
3.根据权利要求2所述的方法,其特征在于,所述基于已有分类标签和所述已有分类标签对应的细胞数据集对所述无标签细胞进行无监督分类处理,得到分类标签,包括:
分别确定所述无标签细胞与各所述已有分类标签对应的细胞数据集的距离,将最小距离对应的分类标签确定为所述无标签细胞的标签;
当所述最小距离大于预设距离时,创建所述无标签细胞对应的新增分类标签。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示,包括:
将所述目标抽样细胞进行降维处理,得到待展示抽样细胞数据,其中,所述待展示抽样细胞数据包括静态图或动态图;
将所述待展示抽样细胞数据通过进行静态渲染或者web动态显示。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标抽样细胞进行降维处理,包括:
基于非线性降维算法对所述目标抽样细胞进行降维处理。
6.一种数据处理装置,其特征在于,包括:
细胞数量确定模块,用于基于细胞的分类标签,确定各所述分类标签对应的细胞数量;
细胞抽样数量确定模块,用于根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;
目标抽样细胞集合得到模块,用于基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;
可视化展示模块,用于将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示;
所述细胞抽样数量确定模块,具体用于根据分类标签对应的细胞数量,通过公式
Figure DEST_PATH_IMAGE003
,得到与所述分类标签对应的细胞抽样数量;其中,x表示所述分类标签对应的细胞数量,参数k,y表示与所述分类标签对应的细胞抽样数量;
所述目标抽样细胞集合得到模块,具体用于获取样本细胞数量、标准细胞抽样数量和所述k的初始参数,迭代执行如下步骤:
基于所述样本细胞数量和所述k的初始参数确定测试细胞抽样数量,当所述测试细胞抽样数量小于所述标准细胞抽样数量时,基于预设倍数更新所述初始参数,并基于更新后的参数执行下一迭代;
当所述测试细胞抽样数量大于所述标准细胞抽样数量时,基于所述参数k的当前范围更新所述初始参数,并基于更新后的参数执行下一迭代,其中,更新后的参数为当前范围的中间值;
当所述测试细胞抽样数量等于所述标准细胞抽样数量时,将所述k的当前参数确定为目标参数,并停止迭代过程。
7.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述程序被所述处理器执行,使得所述处理器实现如权利要求1-5中任一所述的数据处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据处理方法。
CN202011479460.9A 2020-12-15 2020-12-15 一种数据处理方法、装置、电子设备及存储介质 Active CN112463844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011479460.9A CN112463844B (zh) 2020-12-15 2020-12-15 一种数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011479460.9A CN112463844B (zh) 2020-12-15 2020-12-15 一种数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112463844A CN112463844A (zh) 2021-03-09
CN112463844B true CN112463844B (zh) 2022-10-18

Family

ID=74804373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011479460.9A Active CN112463844B (zh) 2020-12-15 2020-12-15 一种数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112463844B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116483881B (zh) * 2023-04-26 2024-05-03 北京远舢智能科技有限公司 基于拉丁超立方的数据抽样方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及***
CN110991538A (zh) * 2019-12-05 2020-04-10 腾讯科技(深圳)有限公司 样本分类方法、装置、存储介质和计算机设备
CN111753863A (zh) * 2019-04-12 2020-10-09 北京京东尚科信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779134B2 (en) * 2014-12-26 2017-10-03 Business Objects Software Ltd. System and method of data wrangling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及***
CN111753863A (zh) * 2019-04-12 2020-10-09 北京京东尚科信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN110991538A (zh) * 2019-12-05 2020-04-10 腾讯科技(深圳)有限公司 样本分类方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN112463844A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN109918513B (zh) 图像处理方法、装置、服务器及存储介质
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN111950279B (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
CN112863683A (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN113238922B (zh) 一种日志分析方法、装置、电子设备及介质
CN111241123A (zh) 视图数据查询方法、装置、服务器及存储介质
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN112181490B (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN111124920A (zh) 设备性能测试方法、装置及电子设备
CN112463844B (zh) 一种数据处理方法、装置、电子设备及存储介质
US20200381084A1 (en) Identifying salient features for instances of data
MX2007007247A (es) Metodo para la reduccion de caracteristicas para maquinas de decision.
CN117391466A (zh) 一种新型矛盾纠纷案件的预警方法和***
CN115544257B (zh) 网盘文档快速分类方法、装置、网盘及存储介质
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN115757844A (zh) 一种医学图像检索网络训练方法、应用方法及电子设备
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
CN109918367B (zh) 一种结构化数据的清洗方法、装置、电子设备及存储介质
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
CN118172547B (zh) 图像目标识别方法、装置、电子设备和计算机可读介质
CN114139657B (zh) 客群画像生成方法、装置、电子设备和储存介质
CN113569986B (zh) 计算机视觉数据分类方法、装置、电子设备及存储介质
CN112131296B (zh) 一种数据探查方法、装置、电子设备和存储介质
CN109992712B (zh) 数据处理方法、装置、介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant