CN113157978B - 数据的标签建立方法和装置 - Google Patents
数据的标签建立方法和装置 Download PDFInfo
- Publication number
- CN113157978B CN113157978B CN202110052485.9A CN202110052485A CN113157978B CN 113157978 B CN113157978 B CN 113157978B CN 202110052485 A CN202110052485 A CN 202110052485A CN 113157978 B CN113157978 B CN 113157978B
- Authority
- CN
- China
- Prior art keywords
- label
- data
- marked
- judging
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了数据的标签建立方法和装置,该方法包括:获取数据注册库;其中,数据注册库包括:数据来源库和标签库,数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签信息;根据业务需求和预先设定的标记规则,确定数据来源库所对应的标签类型;确定与标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个标签库;利用研判模型和与之相绑定的至少一个标签库对待标记数据进行标签构建。本方案能够通过模型实现对数据建立标签,从而能够节省大量的时间和人力。
Description
技术领域
本发明涉及计算机技术领域,特别涉及数据的标签建立方法和装置。
背景技术
标签是一种用来描述业务实体特征的数据形式,通过标签可以有效扩展业务实体的角度,且通过对不同标签的简单操作,便可以进行数据筛选和分析,从而帮助用户更全面、更准确地对分析对象进行刻画。
传统的标签方式主要有人工标记和接口标记,然而人工标记和接口标记需要耗费大量的时间和人力。而且还容易出现标记错误的问题,尤其在现阶段大数据普遍存在的情况下,人工标记和接口标记变得更加不现实。因此,需要提供一种数据的标签建立方案,以解决传统的标签方式的不足。
发明内容
本发明提供了一种数据的标签建立方法和装置,能够通过模型实现对数据建立标签,从而能够节省大量的时间和人力。
第一方面,本发明实施例提供了一种数据的标签建立方法,该方法包括:
获取数据注册库;其中,所述数据注册库包括:数据来源库和标签库,所述数据来源库存储有待进行标签建立的待标记数据,所述标签库存储有标签信息;
根据业务需求和预先设定的标记规则,确定所述数据来源库所对应的标签类型;
确定与所述标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个所述标签库;
利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建。
在一种可能的实现方式中,所述研判模型的构建方法,包括:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条件因素;
利用优化后的所述初级映射关系建立所述研判模型。
在一种可能的实现方式中,所述待标记数据的获取方法包括:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后,则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当前数据已经建立过标签。
在一种可能的实现方式中,在利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
在一种可能的实现方式中,在利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述搜索引擎根据所述待标记数据的标签对数据进行搜索。
第二方面,本发明实施例提供了一种数据的标签建立装置,该装置包括:获取模块、第一确定模块、第二确定模块和输出模块;
所述获取模块,用于获取数据注册库;其中,所述数据注册库包括:数据来源库和标签库,所述数据来源库存储有待进行标签建立的待标记数据,所述标签库存储有标签信息;
所述第一确定模块,用于根据业务需求和预先设定的标记规则,确定所述获取模块获取到的所述数据来源库所对应的标签类型;
所述第二确定模块,用于确定与所述第一确定模块确定的所述标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个所述标签库;
所述输出模块,用于利用所述第二确定模块确定的所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建。
在一种可能的实现方式中,还包括:研判模型构建模块;
所述研判模型构建模块,用于执行如下操作:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条件因素;
利用优化后的所述初级映射关系建立所述研判模型。
在一种可能的实现方式中,所述获取模块,用于执行如下操作:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后,则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当前数据已经建立过标签。
在一种可能的实现方式中,还包括:标签时效判断模块;
所述标签时效判断模块,用于执行如下操作:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
在一种可能的实现方式中,还包括:同步模块;
所述同步模块,用于执行如下操作:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述搜索引擎根据所述待标记数据的标签对数据进行搜索。
由上述技术方案可知,在对数据建立标签时,首先需要获取包含数据来源库和标签库的数据注册库,其中该数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签信息,当确定了业务性质后,根据该业务性质的需求可以确定出数据来源库所对应的标签类型,进一步根据该标签类型,可以确定出与该标签类型相对应的研判模型,以及与该研判模型相绑定的标签库,从而通过利用该研判模型和标签库即可实现对待标记数据进行标签构建。由此可见,本方案不需要通过人工对数据进行标签定义和构建,通过建立的模型即可实现标签的自动构建,从而能够节省大量的时间和人力。此外可以避免由于人为导致的标签定义错误的情况,即能够提升标签构建的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据的标签建立方法的流程图;
图2是本发明一个实施例提供的一种数据的标签建立装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据的标签构建方法,该方法具体可以包括如下步骤:
步骤101:获取数据注册库;其中,数据注册库包括:数据来源库和标签库,数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签信息;
步骤102:根据业务需求和预先设定的标记规则,确定数据来源库所对应的标签类型;
步骤103:确定与标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个标签库;
步骤104:利用研判模型和与之相绑定的至少一个标签库对待标记数据进行标签构建。
在本发明实施例中,在对数据建立标签时,首先需要获取包含数据来源库和标签库的数据注册库,其中该数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签信息,当确定了业务性质后,根据该业务性质的需求可以确定出数据来源库所对应的标签类型,进一步根据该标签类型,可以确定出与该标签类型相对应的研判模型,以及与该研判模型相绑定的标签库,从而通过利用该研判模型和标签库即可实现对待标记数据进行标签构建。由此可见,本方案不需要进行人工对数据进行标签定义和构建,通过建立的模型即可实现标签的自动构建,从而能够节省大量的时间和人力。此外可以避免由于人为导致的标签定义错误的情况,即能够提升标签构建的准确性。
在一种可能的实现方式中,在对研判模型进行构建时,具体可以包括如下步骤:
获取用于构建模型的历史待标记数据的关键字段;其中,关键字段能够表征所属语句的语义信息;
将关键字段作为输入参数,以及将标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对初级映射关系进行优化;其中,研判规则用于表征由输入参数获得输出参数的条件因素;
利用优化后的初级映射关系建立研判模型。
在本发明实施例中,通过利用历史待标记数据中的能够表征所属语句的语义信息的关键字段,并将该关键字段作为输入参数以及标签信息作为输出参数建立初级映射关系,进一步通过研判规则对该初级映射关系进行优化,从而利用优化后的初级映射关系建立研判模型,由此可见,本方案通过利用能够表征语义信息的关键字段和标签信息来作为模型训练的输入和输出,以及通过研判规则对模型的映射关系进行优化,从而提高了研判模型的标签建立准确性。
在一种可能的实现方式中,在对待标记的数据进行获取时,具体可以通过如下步骤实现:
获取当前数据的第一标识符;其中,第一标识符用于表征当前数据的时间信息,第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,第二标识符用于表征历史数据建立标签的时间信息;
判断第一标识符所表征的时间和第二标识符所表征的时间的先后顺序;
若第一标识符所表征的时间在第二标识符所表征的时间之后,则将当前数据确定为未经过标签建立的待标记数据;否则,将确定当前数据已经建立过标签。
在本发明实施例中,可以设置数据的定时查询任务,即根据预设的时间间隔对数据进行查询,然后将新的数据进行标签建立。如此在查询过程中需要判定当前的数据是否已经建立过标签,具体的可以通过判断当前数据的第一标识符和进行过标签建立的历史数据的第二标识符各自所表征的时间的先后顺序,如此即可将时间位于第二标识符所对应的时间之后的第一标识符所表征的当前数据确定为待标记数据。也就是说,本方案不仅能够实现对新数据进行自动标签建立的过程,而且通过标识符的判断可以将已经进行过标签建立的数据和新数据进行区分,从而避免了数据的重复标签建立,进一步提升了处理器的执行效率。
在一种可能的实现方式中,在利用研判模型和与之相绑定的至少一个标签库对待标记数据进行标签构建之后,进一步包括:
针对建立标签后的各个待标记数据设置标签时效期;其中,标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
在本发明实施例中,通过对标签建立标签时效期,然后根据预先设定的时间间隔对该标签是否有效进行判定,并将判定为过期的标签进行清除,避免了僵尸标签的存在,即能够解放处理器的占用内存,提高执行效率。
在一种可能的实现方式中,在利用研判模型和与之相绑定的至少一个标签库对待标记数据进行标签构建之后,进一步包括:
将建立过标签的待标记数据同步到至少一个搜索引擎中,以使搜索引擎根据待标记数据的标签对数据进行搜索。
在本发明实施例中,可以将建立过标签的待标记数据同步到搜索引擎中,如此搜索引擎在进行数据搜索时,通过标签可以更加高效快捷的实现数据的搜索查询。
下面对本发明提供的数据的标签建立方法作进一步详细的说明。
标签是一种用来描述业务实体特征的数据形式,通过标签可以有效扩展业务实体的分析角度,且通过对不同标签的简单操作,便可以进行数据筛选和分析。对人进行标签刻画,可以从“性别”、“年龄”、“地区”、“法定代表人”、“老赖”、“诚信”等角度进行描述,对市场主体,可以从“经营状态”、“违法记录”等角度进行描述,尽可能多的扩展分析系角度,能够帮助用户更全面、更准确地分析对象进行刻画,这些数据特征具有一定的通用性和价值。本方案的构架主要是在人工标签和接口标签的基础上,提供了一种研判标签的方式,以使先对大数据的自动标签,建立标签库。
总的来说,本发明实施例提供的数据的标签建立方法主要可以包括:数据源和数据资源的注册、标签定义、研判模型和标签模型、以及标签分析。数据源和数据资源的注册只要是对标签库和需要建立标签的数据资源进行注册;标签定义主要包括标签分类、标签执行、标签审核和标签发布;研判模型和标签研判主要是制定标签研判的模型,配置标签库,以及基于研判模型制定标签模型;标签分析主要是对标记过的数据进行查询和统计分析。具体地可以包括如下内容:
1)数据源和数据资源注册:将需要标记的数据来源库和标签库注册到数据源中,可以是关系型数据库或着非结构化查询语言NOSQL数据库,关系型数据库支持ORACLE、MYSQL、SQLSERVER、DB2等主流数据库,NOSQL数据库支持HBASE、MONGODB等,注册完数据源,基于注册的数据源注册需要标记的表信息,包括字段信息、主键信息等,支持在线浏览表中的数据。可以将注册的数据资源发布成数据服务,供第三方调用。
2)标签定义:依赖业务需求和业务经验,通过人为定义标记规则。先对标签进行分类,根据业务需求不同,将标签分为不同的类型。在不同分类下建立不同的标签,需要设置标签的时效,定时检测标签数据,防止僵尸标签。具有审核权限的人对标签审核通过后方可发布。
3)研判模型和标签研判:定义制定研判规则,依赖机器学习算法,通过将影响因子提供给机器算法模型,将标签库和研判模型进行绑定,配置模型输入参数,获取模型输出结果字段,并将结果与数据资源字段对应、返回结果与标签对应,设置定时任务,高效快捷智能的给数据打标记。
4)标签分析:可以对标签数据进行查询,查看标签记录的方式和标签时限,查看标记信息详情。基于标签数据,查看标签统计分析信息。可以将标签数据同步到ELASTICSEARCH或者SOLR等搜索引擎中,更快捷高效的搜索数据。
由此可见,本方案实现了对传统的人工标记和接口标记的标签建立方式的丰富,通过研判标记的方式,可以高效、快捷地自动生成标签,而且本方案还可以实现对外提供标签查询和标记接口,可以与其他需要标记数据的***进行对接。此外,本方案全程可视化操作,了解业务需求的实施人员可以根据业务需要,定制标签研判,较低***的使用门槛,减少后期***运维的工作,以及根据业务需求进行灵活配置。
如图2所示,本发明实施例还提供了一种数据的标签建立装置,该装置可以包括:获取模块201、第一确定模块202、第二确定模块203和输出模块204;
获取模块201,用于获取数据注册库;其中,数据注册库包括:数据来源库和标签库,数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签信息;
第一确定模块202,用于根据业务需求和预先设定的标记规则,确定获取模块201获取到的数据来源库所对应的标签类型;
第二确定模块203,用于确定与第一确定模块202确定的标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个标签库;
输出模块204,用于利用第二确定模块203确定的研判模型和与之相绑定的至少一个标签库对待标记数据进行标签构建。
在一种可能的实现方式中,该数据的标签建立装置,还包括:研判模型构建模块;
研判模型构建模块,用于执行如下操作:
获取用于构建模型的历史待标记数据的关键字段;其中,关键字段能够表征所属语句的语义信息;
将关键字段作为输入参数,以及将标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对初级映射关系进行优化;其中,研判规则用于表征由输入参数获得输出参数的条件因素;
利用优化后的初级映射关系建立研判模型。
在一种可能的实现方式中,获取模块201,用于执行如下操作:
获取当前数据的第一标识符;其中,第一标识符用于表征当前数据的时间信息,第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,第二标识符用于表征历史数据建立标签的时间信息;
判断第一标识符所表征的时间和第二标识符所表征的时间的先后顺序;
若第一标识符所表征的时间在第二标识符所表征的时间之后,则将当前数据确定为未经过标签建立的待标记数据;否则,将确定当前数据已经建立过标签。
在一种可能的实现方式中,该数据的标签建立装置,还包括:标签时效判断模块;
标签时效判断模块,用于执行如下操作:
针对建立标签后的各个待标记数据设置标签时效期;其中,标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
在一种可能的实现方式中,该数据的标签建立装置,还包括:同步模块;
同步模块,用于执行如下操作:
将建立过标签的待标记数据同步到至少一个搜索引擎中,以使搜索引擎根据待标记数据的标签对数据进行搜索。
本发明一个实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本发明一个实施例还提供了一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对数据的标签建立装置的具体限定。在说明书的另一些实施例中,数据的标签建立装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
综上,本发明各个实施例提供的一种数据的标签建立方法和装置,至少具有如下有益效果:
1、在本发明实施例中,在对数据建立标签时,首先需要获取包含数据来源库和标签库的数据注册库,其中该数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签信息,当确定了业务性质后,根据该业务性质的需求可以确定出数据来源库所对应的标签类型,进一步根据该标签类型,可以确定出与该标签类型相对应的研判模型,以及与该研判模型相绑定的标签库,从而通过利用该研判模型和标签库即可实现对待标记数据进行标签构建。由此可见,本方案不需要进行人工对数据进行标签定义和构建,通过建立的模型即可实现标签的自动构建,从而能够节省大量的时间和人力。此外可以避免由于人为导致的标签定义错误的情况,即能够提升标签构建的准确性。
2、在本发明实施例中,通过利用历史待标记数据中的能够表征所属语句的语义信息的关键字段,并将该关键字段作为输入参数以及标签信息作为输出参数建立初级映射关系,进一步通过研判规则对该初级映射关系进行优化,从而利用优化后的初级映射关系建立研判模型,由此可见,本方案通过利用能够表征语义信息的关键字段和标签信息来作为模型训练的输入和输出,以及通过研判规则对模型的映射关系进行优化,从而提高了研判模型的标签建立准确性。
3、在本发明实施例中,可以设置数据的定时查询任务,即根据预设的时间间隔对数据进行查询,然后将新的数据进行标签建立。如此在查询过程中需要判定当前的数据是否已经建立过标签,具体的可以通过判断当前数据的第一标识符和进行过标签建立的历史数据的第二标识符各自所表征的时间的先后顺序,如此即可将时间位于第二标识符所对应的时间之后的第一标识符所表征的当前数据确定为待标记数据。也就是说,本方案不仅能够实现对新数据进行自动标签建立的过程,而且通过标识符的判断可以将已经进行过标签建立的数据和新数据进行区分,从而避免了数据的重复标签建立,进一步提升了处理器的执行效率。
4、在本发明实施例中,通过对标签建立标签时效期,然后根据预先设定的时间间隔对该标签是否有效进行判定,并将判定为过期的标签进行清除,避免了僵尸标签的存在,即能够解放处理器的占用内存,提高执行效率。
5、在本发明实施例中,可以将建立过标签的待标记数据同步到搜索引擎中,如此搜索引擎在进行数据搜索时,通过标签可以更加高效快捷的实现数据的搜索查询。
Claims (8)
1.数据的标签建立方法,其特征在于,包括:
获取数据注册库;其中,所述数据注册库包括:数据来源库和标签库,所述数据来源库存储有待进行标签建立的待标记数据,所述标签库存储有标签信息;
根据业务需求和预先设定的标记规则,确定所述数据来源库所对应的标签类型;
确定与所述标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个所述标签库;
利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建;
所述研判模型的构建方法,包括:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条件因素;
利用优化后的所述初级映射关系建立所述研判模型。
2.根据权利要求1所述的方法,其特征在于,所述待标记数据的获取方法包括:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后,则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当前数据已经建立过标签。
3.根据权利要求1所述的方法,其特征在于,在利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
4.根据权利要求1至3中任一所述的方法,其特征在于,在利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述搜索引擎根据所述待标记数据的标签对数据进行搜索。
5.数据的标签建立装置,其特征在于,包括:获取模块、第一确定模块、第二确定模块和输出模块;
所述获取模块,用于获取数据注册库;其中,所述数据注册库包括:数据来源库和标签库,所述数据来源库存储有待进行标签建立的待标记数据,所述标签库存储有标签信息;
所述第一确定模块,用于根据业务需求和预先设定的标记规则,确定所述获取模块获取到的所述数据来源库所对应的标签类型;
所述第二确定模块,用于确定与所述第一确定模块确定的所述标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个所述标签库;
所述输出模块,用于利用所述第二确定模块确定的所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建;
还包括:研判模型构建模块;
所述研判模型构建模块,用于执行如下操作:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条件因素;
利用优化后的所述初级映射关系建立所述研判模型。
6.根据权利要求5所述的装置,其特征在于,
所述获取模块,用于执行如下操作:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后,则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当前数据已经建立过标签。
7.根据权利要求5所述的装置,其特征在于,还包括:标签时效判断模块;
所述标签时效判断模块,用于执行如下操作:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
8.根据权利要求5至7中任一所述的装置,其特征在于,还包括:同步模块;
所述同步模块,用于执行如下操作:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述搜索引擎根据所述待标记数据的标签对数据进行搜索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110052485.9A CN113157978B (zh) | 2021-01-15 | 2021-01-15 | 数据的标签建立方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110052485.9A CN113157978B (zh) | 2021-01-15 | 2021-01-15 | 数据的标签建立方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113157978A CN113157978A (zh) | 2021-07-23 |
CN113157978B true CN113157978B (zh) | 2023-03-28 |
Family
ID=76878389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110052485.9A Active CN113157978B (zh) | 2021-01-15 | 2021-01-15 | 数据的标签建立方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157978B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836146B (zh) * | 2021-09-29 | 2024-04-26 | 五八同城信息技术有限公司 | 一种特征标签生成方法、装置、电子设备及存储介质 |
CN115062233B (zh) * | 2022-08-18 | 2022-11-04 | 中航信移动科技有限公司 | 一种用于民航数据的组合标签生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104662535A (zh) * | 2012-07-24 | 2015-05-27 | 起元科技有限公司 | 数据模型中的实体映射 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN111522901A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 文本中地址信息的处理方法及装置 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN112163428A (zh) * | 2020-09-18 | 2021-01-01 | 中国人民大学 | 语义标签的获取方法、装置、节点设备及存储介质 |
CN112199084A (zh) * | 2020-10-22 | 2021-01-08 | 北京计算机技术及应用研究所 | 基于Django的文本标注平台 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552376B2 (en) * | 2011-06-09 | 2017-01-24 | MemoryWeb, LLC | Method and apparatus for managing digital files |
CN103412910A (zh) * | 2013-08-02 | 2013-11-27 | 北京小米科技有限责任公司 | 一种建立标签库及搜索用户的方法和装置 |
CN110263934B (zh) * | 2019-05-31 | 2021-08-06 | 中国信息通信研究院 | 一种人工智能数据标注方法和装置 |
CN110765101B (zh) * | 2019-09-09 | 2022-08-02 | 天云软件技术有限公司 | 标签的生成方法、装置、计算机可读存储介质及服务器 |
CN111737225A (zh) * | 2020-05-25 | 2020-10-02 | 贵州华泰智远大数据服务有限公司 | 一种基于分词技术的数据标签数据库建立方法 |
CN111639284A (zh) * | 2020-05-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 网页标注方法、装置、电子设备及介质 |
CN111861216A (zh) * | 2020-07-22 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种基于业务数据的高效预警方法及*** |
-
2021
- 2021-01-15 CN CN202110052485.9A patent/CN113157978B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104662535A (zh) * | 2012-07-24 | 2015-05-27 | 起元科技有限公司 | 数据模型中的实体映射 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN111522901A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 文本中地址信息的处理方法及装置 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN112163428A (zh) * | 2020-09-18 | 2021-01-01 | 中国人民大学 | 语义标签的获取方法、装置、节点设备及存储介质 |
CN112199084A (zh) * | 2020-10-22 | 2021-01-08 | 北京计算机技术及应用研究所 | 基于Django的文本标注平台 |
Also Published As
Publication number | Publication date |
---|---|
CN113157978A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
US9104720B2 (en) | Generation of technical description of report from functional description of report | |
CN107784026B (zh) | 一种etl数据处理方法及装置 | |
US20110161132A1 (en) | Method and system for extracting process sequences | |
JP2019502979A (ja) | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 | |
CN108647357B (zh) | 数据查询的方法及装置 | |
CN111459985A (zh) | 标识信息处理方法及装置 | |
CN113157978B (zh) | 数据的标签建立方法和装置 | |
CN112784062B (zh) | 一种成语知识图谱构建方法及装置 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及*** | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN111061733A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN107871055B (zh) | 一种数据分析方法和装置 | |
CN112883202A (zh) | 一种基于知识图谱的多组件建模方法和*** | |
CN116303641A (zh) | 一种支持多数据源可视化配置的实验室报告管理方法 | |
JP6763967B2 (ja) | データ変換装置とデータ変換方法 | |
CN108205564B (zh) | 知识体系构建方法及*** | |
Eyal-Salman et al. | Identifying traceability links between product variants and their features | |
CN113221528A (zh) | 基于openEHR模型的临床数据质量评估规则的自动生成与执行方法 | |
CN112380264A (zh) | 一种基于个人全生命周期的政策解析和匹配的方法及装置 | |
US20230169052A1 (en) | Methods, systems, and computer readable media for utilizing machine learning for merging duplicate data records | |
CN111221846B (zh) | 一种sql语句的自动翻译方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |