CN105183914A - 数据特征格式化方法及装置 - Google Patents

数据特征格式化方法及装置 Download PDF

Info

Publication number
CN105183914A
CN105183914A CN201510660660.7A CN201510660660A CN105183914A CN 105183914 A CN105183914 A CN 105183914A CN 201510660660 A CN201510660660 A CN 201510660660A CN 105183914 A CN105183914 A CN 105183914A
Authority
CN
China
Prior art keywords
attribute
feature
format
characteristic
configuration file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510660660.7A
Other languages
English (en)
Inventor
章岑
杨田
雷龙艳
周盛
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
1Verge Internet Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201510660660.7A priority Critical patent/CN105183914A/zh
Publication of CN105183914A publication Critical patent/CN105183914A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘技术领域,公开了一种数据特征格式化方法及装置。该方法包括步骤:获取第一配置文件,根据第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序;获取第二配置文件,根据第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义;根据各个属性的格式化顺序及属性中待格式化特征的特征顺序确定各个特征的特征序号,根据实际样本的属性值及特征值含义确定对应特征的特征值;将各个实际样本按照特征序号及特征值格式化为特征向量。本发明技术方案无需预先为每个特征设置既定的顺序来固定特征序号,处理的属性/特征还可以随时进行增删,可大幅提升特征格式化的效率。

Description

数据特征格式化方法及装置
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种数据特征格式化方法及装置。
背景技术
在网络大数据环境下,数据挖掘工作的主要任务就是从海量信息中发现数据的共同特征以便进行数据统计和分析。依赖人工进行大数据的数据挖掘显然是不可取的,而依赖机器进行的数据挖掘在识别率上又有天然的缺陷;故现有技术中主要通过基于模型训练的机器学习来提高自动挖掘的识别率。在有关机器学习的过程中,往往需要从原始数据中抽取一些特征来表示一个样本,然后把每个样本的特征集合表示成算法能够识别的格式,以便算法能够读取这些样本特征来进行模型训练。
目前,现有的机器学习算法库,如libsvm、xgboost、sparkmllib等,都基于共识格式对训练数据进行格式化。在共识格式中,首先对全部特征设定序号,随后以“特征序号:特征值”方式来数字化表示和记录样本的各个特征。为节省空间,通常只需存储特征值不为0的特征,但相应地,各特征的序号及含义必须固定,以便通过序号即可确定特征的真实含义。
然而,在实际工程中,由于特征空间维度很大(几百上千,甚至万亿维特征也很常见),在格式化之前为每个样本的特征设定一个既定顺序的难度很大,而且实际数据处理过程中还有可能随时新增特征或删除特征,所以采用现有技术确定特征的共识格式需要耗费大量的时间和精力,如何高效地进行特征格式化是一个比较困难的问题。
发明内容
基于现有技术的缺陷,本发明的目的是提供一种数据特征格式化方法及装置,以高效地进行数据的特征格式化。
根据本发明的一个方面,提供了一种数据特征格式化方法,包括步骤:
获取第一配置文件,根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序;
获取第二配置文件,根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义;
根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号,根据实际样本的属性值及所述特征值含义确定对应特征的特征值;
将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。
优选地,所述开关设置包括:属性开关标记或属性记录情况;所述格式化顺序依照所述实际样本原始数据的自然属性顺序或根据模型训练的需要自由指定。
优选地,所述特征配置包括:离散化开关和所述属性的格式化方式。
优选地,所述离散化开关和所述属性的格式化方式视模型训练的算法模型的需求而自由设置。
优选地,所述特征向量中只选取特征值不为0的特征进行存储。
根据本发明的另一个方面,还提供了一种数据特征格式化装置,包括:
第一配置模块,用于获取第一配置文件,根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序;
第二配置模块,用于获取第二配置文件,根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义;
特征处理模块,用于根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号,根据实际样本的属性值及所述特征值含义确定对应特征的特征值;
格式化模块,用于将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。
优选地,所述第一配置模块包括:
属性开关模块,用于根据属性开关标记或属性记录情况确定本次格式化需要处理的属性;
属性顺序模块,用于依照所述实际样本原始数据的自然属性顺序或根据模型训练的需要自由指定的顺序确定各个属性的格式化顺序。
优选地,所述第二配置模块包括:
离散化开关模块,用于根据离散化开关确定是否需要进行离散化;
格式化配置模块,用于配置所述属性的格式化方式。
优选地,所述离散化开关模块和所述格式化配置模块视模型训练的算法模型的需求而自由设置。
优选地,所述格式化模块包括:向量处理模块,用于只选取特征值不为0的特征生成所述特征向量并进行存储。
本发明实施例提供了一种数据特征格式化方法及装置,其技术方案通过两级配置可自由设定需处理的属性及其特征表示形式,从而可实现按需执行的特征格式化和模型训练,由于本发明实施例的技术方案无需预先为每个特征设置既定的顺序来固定特征序号,处理的属性/特征还可以随时进行增删,因而可大幅提升特征格式化的效率。
附图说明
图1是本发明一个实施例中数据特征格式化方法的基本流程示意图;
图2是本发明一个实施例中数据特征格式化装置的模块结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在模型训练中,数据特征格式化往往是必不可少的一步,只有经过特征格式化的数据才能在模型训练时被快速而高效地识别、归类和分析。现有技术的特征格式化主要基于共识格式进行,顾名思义,使用共识格式的前提是需要就全体特征达成共识,即使用前需要识别全部特征且为每一特征安排序号,这无形中给特征格式化带来了极大的压力,严重影响了数据特征格式化的效率。
在本发明实施例中,通过使用特征配置文件来辅助识别特征,确定特征及其属性的应用方式,从而可灵活地选择特征进行相对自由的格式化,提高了数据特征格式化的效率。如图1所示,在本发明实施例中,数据特征格式化方法包括步骤:
S1,获取第一配置文件,根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序;
S2,获取第二配置文件,根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义;
S3,根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号,根据实际样本的属性值及所述特征值含义确定对应特征的特征值;
S4,将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。
具体地,在本发明实施例中,需要将多个实际样本分别格式化为多个特征向量。每个实际样本的原始数据是采用带有具体属性值的多个属性表示,比如样本“用户A”的原始数据为“性别:男年龄:24客户端类型:PC端”;而每个特征向量则是包括多个形式为“特征序号:特征值”的数字化表示,比如样本“用户A”格式化后的特征向量可能为“2:1.06:1.013:1.0”。要完成一个样本的格式化需要实现原始数据到数字化表示的转换,而要统一完成全部样本的格式化则需要确定统一的转换方式。
首先,步骤S1中,第一配置文件优选为特征开关配置文件,其中提供了样本中需要处理的属性的开关。该第一配置文件中可以是全部属性的开关,比如在初始化过程中,将本次格式化需要处理的属性的开关标记设置为打开状态(比如置1),将本次格式化无需处理的属性的开关标记设置为关闭状态(比如置0);也可以仅仅记录本次格式化要处理的属性,未记录的则视为无需处理。第一配置文件中还同时设置了各个属性的格式化顺序,在格式化时按照该顺序将特征排列成特征向量;格式化顺序可以依照样本原始数据的自然属性顺序,也可以根据模型训练的需要自由指定。
步骤S2中,第二配置文件优选为各个属性的特征配置文件中。特征配置文件中首先标明了该属性的特征是否需要离散化(比如将离散化开关置1),在需要离散化时进一步标明了该属性的格式化方式:特征维度、属性值对应特征含义以及对应特征的内部顺序。比如,对于“性别”属性,其特征配置文件中首先标明了该属性的特征需要离散化,其次标明了离散化时该属性的特征占3个维度,其中0表示女性、1表示男性、2表示未知,生成特征向量时根据样本实际属性将对应维度置1。若无需离散化(比如将离散化开关置0),则该属性的格式化方式为:特征只有1个维度(特征顺序为0或最优先),属性值即为实际特征值;比如,“年龄”属性无需离散化时,“年龄:24”的特征值即为“24”;若需要离散化,进一步假设其离散化占8个维度,其中,0为无法分段、1为18岁以下、2为18-24岁、3为25-29岁、4为30-34岁、5为35-39岁、6为40-49岁、7为50岁以上,则“年龄:24”的特征值即为将维度2(即第3维度)置1。
步骤S3中,根据各属性的格式化顺序及各属性中特征顺序依次分配特征序号,同时根据属性值与特征值含义的对应关系将属性值与具体特征序号的特征值相关联。比如,假设属性格式化顺序为“性别”→“年龄”→“客户端类型”,三个属性均离散化,“性别”和“年龄”的离散化方式如上文所述,“客户端类型”离散化占3个维度,0为移动App端、1为PC端、2为未知;则在特征向量中,1-3维为“性别”属性的特征,对应分配特征序号1-3,4-11维为“年龄”属性的特征,对应分配特征序号4-11,12-14维为“客户端类型”属性的特征,对应分配特征序号12-14;相应特征序号的特征值置1时表示实际属性值与该特征序号/维度相符。
步骤S4中,按照上述方式将各个样本格式化为特征向量。具体地,比如上述“用户A”样本,由“性别:男”的属性值将第2维(即特征序号2)的特征值置1,由“年龄:24”的属性值将第6维(即特征序号6)的特征值置1,由“客户端类型:PC端”的属性值将第13维(即特征序号13)的特征值置1;只选取特征值不为0的特征进行存储,则上述“用户A”样本格式化后的特征向量表示为“2:1.06:1.013:1.0”。
在本发明实施例中,可自由设定格式化需要处理的属性及属性的特征表示形式,从而可以根据模型训练的需求自由选择特定特征进行统计分析。更重要的是,本发明实施例中,无需预先为每个特征设置既定的顺序来固定特征序号,处理的属性/特征还可以随时进行增删,因而可大幅提升特征格式化的效率。
具体地,在很多机器学习问题比如点击率预估模型中可能用到很多种属性特征,有些属性天然具有离散性质,比如“性别”属性;而某些属性则具备连续性质,比如“年龄”或“视频时长”等属性。对连续特征进行格式化需要视算法模型的选择而做不同的改变,这里以“视频时长”属性为例分别描述对连续特征不同的格式化方式:第一种,需要离散化;比如广告素材时长一般在5秒到1分钟不等,可以将时长以5秒为一小段进行分段离散,在第二配置文件(即该属性的特征配置文件)中设置特征离散时的维度、特征含义及内部顺序:其中,0为0-4秒、1为5-9秒、2为10-14秒、3为15-19秒、…、11为55-59秒、12为1分钟以上,最终该属性的特征在特征向量空间里占据13个维度,每一个样本在这13个维度里只有一个维度的特征值为1。第二种,不需要离散化;这种情况下的素材时长将直接作为一个特征维度的特征值加入特征向量中,配置文件中可以写入素材ID与长度的对应表,在做特征抽取的时候查找该表得到具体的素材时长特征值。
离散化可利于在模型训练时进行分类统计,而非离散化的连续特征则可准确分析样本,同时可降低特征向量的维度。具体地,如果使用线性模型比如逻辑回归模型,则有必要对连续特征进行离散化;如果使用非线性的比如树模型,则可以不进行离散化。本发明实施例中进一步通过在配置文件中自由设定是否进行离散化以及如何进行离散化,可针对不同的算法需求进行格式化和模型训练,也大幅提高了特征格式化的自由度和适用性。
如图2所示,本发明实施例还同时提供了一种数据特征格式化装置1,包括:
第一配置模块101,用于获取第一配置文件,根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序;
第二配置模块102,用于获取第二配置文件,根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义;
特征处理模块103,用于根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号,根据实际样本的属性值及所述特征值含义确定对应特征的特征值;
格式化模块104,用于将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。
本领域相关技术人员可以理解,与上述方法一一对应地,本发明实施例的装置中也同时存在与各方法步骤相对应的各功能模块,在此不再一一赘述。在实际应用中,上述数据特征格式化装置可以是独立的计算设备,也可以是由计算设备加载的独立功能单元,还可以是计算设备直接实现的虚拟/实体单元。同样,装置中的各模块均可由位于计算设备中的中央处理器CPU、微处理器MPU、数字信号处理器DSP或现场可编程门阵列FPGA等实现,上述装置及模块的实现手段不应视为对本发明具体实施方式的限制。
本发明实施例提供了一种数据特征格式化方法及装置,其技术方案通过两级配置可自由设定需处理的属性及其特征表示形式,从而可实现按需执行的特征格式化和模型训练,由于本发明实施例的技术方案无需预先为每个特征设置既定的顺序来固定特征序号,处理的属性/特征还可以随时进行增删,因而可大幅提升特征格式化的效率。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种数据特征格式化方法,其特征在于,所述方法包括步骤:
获取第一配置文件,根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序;
获取第二配置文件,根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义;
根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号,根据实际样本的属性值及所述特征值含义确定对应特征的特征值;
将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。
2.根据权利要求1所述的方法,其特征在于,所述开关设置包括:属性开关标记或属性记录情况;
所述格式化顺序依照所述实际样本原始数据的自然属性顺序或根据模型训练的需要自由指定。
3.根据权利要求1所述的方法,其特征在于,所述特征配置包括:离散化开关和所述属性的格式化方式。
4.根据权利要求3所述的方法,其特征在于,所述离散化开关和所述属性的格式化方式视模型训练的算法模型的需求而自由设置。
5.根据权利要求1所述的方法,其特征在于,所述特征向量中只选取特征值不为0的特征进行存储。
6.一种数据特征格式化装置,其特征在于,所述装置包括:
第一配置模块,用于获取第一配置文件,根据所述第一配置文件中的开关设置确定本次格式化需要处理的属性及各个属性的格式化顺序;
第二配置模块,用于获取第二配置文件,根据所述第二配置文件中属性的特征配置确定属性中待格式化特征的特征顺序和特征值含义;
特征处理模块,用于根据所述各个属性的格式化顺序及所述属性中待格式化特征的特征顺序确定各个特征的特征序号,根据实际样本的属性值及所述特征值含义确定对应特征的特征值;
格式化模块,用于将各个所述实际样本按照所述特征序号及所述特征值格式化为特征向量。
7.根据权利要求6所述的装置,其特征在于,所述第一配置模块包括:
属性开关模块,用于根据属性开关标记或属性记录情况确定本次格式化需要处理的属性;
属性顺序模块,用于依照所述实际样本原始数据的自然属性顺序或根据模型训练的需要自由指定的顺序确定各个属性的格式化顺序。
8.根据权利要求6所述的装置,其特征在于,所述第二配置模块包括:
离散化开关模块,用于根据离散化开关确定是否需要进行离散化;
格式化配置模块,用于配置所述属性的格式化方式。
9.根据权利要求8所述的装置,其特征在于,所述离散化开关模块和所述格式化配置模块视模型训练的算法模型的需求而自由设置。
10.根据权利要求6所述的装置,其特征在于,所述格式化模块包括:
向量处理模块,用于只选取特征值不为0的特征生成所述特征向量并进行存储。
CN201510660660.7A 2015-10-14 2015-10-14 数据特征格式化方法及装置 Pending CN105183914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510660660.7A CN105183914A (zh) 2015-10-14 2015-10-14 数据特征格式化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510660660.7A CN105183914A (zh) 2015-10-14 2015-10-14 数据特征格式化方法及装置

Publications (1)

Publication Number Publication Date
CN105183914A true CN105183914A (zh) 2015-12-23

Family

ID=54905995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510660660.7A Pending CN105183914A (zh) 2015-10-14 2015-10-14 数据特征格式化方法及装置

Country Status (1)

Country Link
CN (1) CN105183914A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262329A (zh) * 2019-06-11 2019-09-20 华强方特文化科技集团股份有限公司 载人设备数据采集***及数据格式化存储方法
CN110995815A (zh) * 2019-11-27 2020-04-10 大连民族大学 一种基于Gaia大数据分析***的信息传输方法
CN113610239A (zh) * 2016-09-27 2021-11-05 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059151A1 (en) * 2006-09-01 2008-03-06 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
CN101655914A (zh) * 2008-08-18 2010-02-24 索尼(中国)有限公司 训练装置、训练方法及检测方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059151A1 (en) * 2006-09-01 2008-03-06 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
CN101655914A (zh) * 2008-08-18 2010-02-24 索尼(中国)有限公司 训练装置、训练方法及检测方法
CN102629904A (zh) * 2012-02-24 2012-08-08 安徽博约信息科技有限责任公司 一种网络水军的探测与判定方法
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄祥林: "《图像检索原理与实践》", 30 June 2014, 中国传媒大学出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610239A (zh) * 2016-09-27 2021-11-05 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理***
CN113610239B (zh) * 2016-09-27 2024-04-12 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理***
CN110262329A (zh) * 2019-06-11 2019-09-20 华强方特文化科技集团股份有限公司 载人设备数据采集***及数据格式化存储方法
CN110995815A (zh) * 2019-11-27 2020-04-10 大连民族大学 一种基于Gaia大数据分析***的信息传输方法
CN110995815B (zh) * 2019-11-27 2022-08-05 大连民族大学 一种基于Gaia大数据分析***的信息传输方法

Similar Documents

Publication Publication Date Title
CN107066537A (zh) 热点新闻生成方法、设备、电子设备
CN107766371A (zh) 一种文本信息分类方法及其装置
CN109857803B (zh) 数据同步方法、装置、设备、***及计算机可读存储介质
CN107392655A (zh) 优惠券推送方法、***、存储介质、电子设备及分流方法
CN107343223A (zh) 视频片段的识别方法和装置
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN105975466A (zh) 一种面向短新闻的机器写稿方法及装置
CN109710933A (zh) 训练语料的获取方法、装置、计算机设备和存储介质
CN109446689A (zh) 直流换流站二次***图纸识别方法及***
CN110275963A (zh) 用于输出信息的方法和装置
CN109933671A (zh) 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN105183914A (zh) 数据特征格式化方法及装置
CN111611239A (zh) 实现自动机器学习的方法、装置、设备及存储介质
CN107516516A (zh) 基于语音交互的仪器智能控制方法及***
CN113094512B (zh) 一种工业生产制造中故障分析***及方法
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN111444677A (zh) 基于大数据的阅读模型优化方法、装置、设备及介质
CN113190694A (zh) 一种知识图谱的知识管理平台
CN115757124A (zh) 一种基于神经网络的测试用例生成方法
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN107122401A (zh) 向数据库存储数据的方法、设备、中间件设备和服务器
CN103793519A (zh) 一种支持海量数据导出的自动化工具
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储***
CN111079809A (zh) 电连接器智能统型方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151223

WD01 Invention patent application deemed withdrawn after publication