CN116910163A - 数据分类方法、数据查询方法及其*** - Google Patents

数据分类方法、数据查询方法及其*** Download PDF

Info

Publication number
CN116910163A
CN116910163A CN202310869661.7A CN202310869661A CN116910163A CN 116910163 A CN116910163 A CN 116910163A CN 202310869661 A CN202310869661 A CN 202310869661A CN 116910163 A CN116910163 A CN 116910163A
Authority
CN
China
Prior art keywords
data
predefined
classification
type
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310869661.7A
Other languages
English (en)
Inventor
赵培龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310869661.7A priority Critical patent/CN116910163A/zh
Publication of CN116910163A publication Critical patent/CN116910163A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了数据分类、数据查询方法及其***。为了实现数据分类,***可以获取基础数据,以及获取与一个或多个预定义类型分别关联的一个或多个分类规则。其中,基础数据包括多个实体实例以及至少部分实体实例之间的关系实例。与任一预定义类型关联的分类规则用于在执行针对该预定义类型的数据查询任务时被调用,以从基础数据中确定属于该预定义类型的部分,进而至少基于所述部分获取所述数据查询任务的查询结果。

Description

数据分类方法、数据查询方法及其***
技术领域
本说明书涉及信息技术领域,特别涉及数据分类方法、数据查询方法及其***。
背景技术
当今社会正处在信息爆发的时代,数据已然成为了一种具有高价值的资产。数据服务平台旨在向用户提供数据服务,例如数据存储、数据处理、数据查询、数据隐私保护等。为了有效组织数据,数据分类是数据服务平台不可回避的问题。传统做法中,数据在进入平台之前就已经完成了面向某项业务需求的自定义分类,这种分类相较于数据天然的基础类型更加抽象或意图倾向明显。例如,自然人、公司、支付终端这些属于基础类型,更接近对数据的客观描述;风险用户、非法交易、老年人、电子产品爱好者等这些则属于自定义分类,相较于基础类型更加抽象或业务意图倾向较强。
传统做法将数据与自定义分类强绑定,不仅使得分类依据无法追溯、且使得数据的使用十分受限。有鉴于此,希望提供一种可靠、高效的数据分类方法。
发明内容
本说明书实施例之一提供一种数据分类方法,所述方法可以包括:获取基础数据,所述基础数据可以包括多个实体实例以及至少部分实体实例之间的关系实例;获取与一个或多个预定义类型分别关联的一个或多个分类规则。其中,与任一预定义类型关联的分类规则可以用于在执行针对该预定义类型的数据查询任务时被调用,以从基础数据中确定属于该预定义类型的部分,进而至少基于所述部分获取所述数据查询任务的查询结果。
本说明书实施例之一提供一种数据分类***,所述***可以包括第一获取模块和第二获取模块。所述第一获取模块可以用于获取基础数据,所述基础数据可以包括多个实体实例以及至少部分实体实例之间的关系实例。所述第二获取模块可以用于获取与一个或多个预定义类型分别关联的一个或多个分类规则。其中,与任一预定义类型关联的分类规则可以用于在执行针对该预定义类型的数据查询任务时被调用,以从基础数据中确定属于该预定义类型的部分,进而至少基于所述部分获取所述数据查询任务的查询结果。
本说明书实施例之一提供一种数据分类装置,所述装置包括处理器和存储设备,所述存储设备用于存储指令。其中,当所述处理器执行指令时,可以实现如本说明书任一实施例所述的数据分类方法。
本说明书实施例之一提供一种数据查询方法,所述方法可以包括:确定与目标预定义类型关联的分类规则,所述与目标预定义类型关联的分类规则选自与一个或多个预定义类型分别关联的一个或多个分类规则;基于与目标预定义类型关联的分类规则从基础数据中确定属于目标预定义类型的部分,所述基础数据包括多个实体实例以及至少部分实体实例之间的关系实例;至少基于所述部分获取数据查询结果。
本说明书实施例之一提供一种数据查询***,所述***可以包括第一确定模块、第二确定模块和查询模块。所述第一确定模块可以用于确定与目标预定义类型关联的分类规则,所述与目标预定义类型关联的分类规则选自与一个或多个预定义类型分别关联的一个或多个分类规则。所述第二确定模块可以用于基于与目标预定义类型关联的分类规则从基础数据中确定属于目标预定义类型的部分,所述基础数据可以包括多个实体实例以及至少部分实体实例之间的关系实例。所述查询模块可以用于至少基于所述部分获取数据查询结果。
本说明书实施例之一提供一种数据查询装置,所述装置包括处理器和存储设备,所述存储设备用于存储指令。其中,当所述处理器执行指令时,可以实现如本说明书任一实施例所述的数据查询方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的数据服务平台的应用场景示意图;
图2是根据本说明书一些实施例所示的数据分类方法的示例性流程图;
图3是根据本说明书一些实施例所示的数据查询方法的示例性流程图;
图4是根据本说明书一些实施例所示的数据分类***的示例性模块图;
图5是根据本说明书一些实施例所示的数据查询***的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“***”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的***所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的数据服务平台的应用场景示意图。
如图1所示,场景100可以包括服务端110、一个或多个用户端120以及网络130。
服务端110可以提供数据服务,其可以是数据服务平台或其中的组成部分。在一些实施例中,服务端110可以提供数据存储、数据处理、数据查询、数据隐私保护等中的一种或多种数据服务。数据服务可以面向不同的业务领域,如风险管控、商品推荐等。用户可以通过用户端120向服务端110发起数据服务请求,服务端110可以响应用户的请求返回相应的数据结果。以风控数据查询为例,服务端110可以接收来自用户端120的针对风险用户的数据查询请求,并向用户端120返回查询结果。
在一些实施例中,服务端110可以是独立的服务器或者服务器组,该服务器组可以是集中式的或者分布式的。在一些实施例中,服务器可以是区域的或者远程的。在一些实施例中,服务器可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
用户端120可以包括各类具备输入/输出功能的设备,例如,智能电话120-1、平板计算机120-2、膝上型计算机120-3、台式计算机120-4等。在一些实施例中,用户端120可以提供服务接口,例如,图形用户界面。用户通过用户端120可以请求数据存储、数据处理、数据查询、数据隐私保护等中的一种或多种数据服务。以数据查询为例,用户(如个人用户)可以在用户端120上发起数据查询请求,并接收服务端110返回的查询结果。
在一些实施例中,用户(如企业用户)还可以通过用户端120向服务端110导入数据,以便服务端110对数据进行存储维护或处理,进而提供各种数据服务。
网络130连接场景100的各组成部分,使得各部分之间可以进行通讯。在***中各部分之间的网络可以包括有线网络和/或无线网络。例如,网络130可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigBee)、近场通信(NFC)、设备内总线、设备内线路、线缆连接等或其任意组合。每两个部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。
不难理解,为了有效组织数据,数据分类是数据服务平台不可回避的问题。例如,在信贷场景下,需要识别逾期风险较高的用户(简称“黑户”),以提前规避风险。又如,在数据分析场景下,需要针对特定群体(例如,有车家庭)进行分析,以便获取可为商业决策提供参考的结论。又如,在搜索场景下,平台需要将信息(如人物、物品、事件、交易等)划分为不同类型(如领域、用途、风格、话题等),以便为用户提供快速精准的搜索服务。又如,在统计场景下,相关部门需要统计特定人群(如有子女的老人)的比例。又如,在营销场景下,需要将用户按产品偏好划分为多个分组,其中,每个分组对应一种产品,***可以向任一分组中的用户推销该分组对应的产品。
如前示例,出于业务要求,人们会将数据进行抽象的归类,如将数据分为风险用户、非法交易、老年人、电子产品爱好者等类别。本说明书一些实施例中将这种基于业务需求抽象、归纳出的类别称为自定义类型或预定义类型。与预定义类型相对的是基础类型,本说明书一些实施例所说的基础类型是由数据自身的可区分性决定的,例如,自然人、公司、移动终端等类型,这些类型更接近对数据的客观描述,与业务需求无关。可以认为预定义类型是基于基础类型得到的,同时比基础类型更加抽象或业务意图倾向明显。
在一些场景下,数据在进入平台之前就已经完成了面向某项业务需求的预定义分类。例如,预定义类型包括保险客户以及消费金融客户,用户在向数据服务平台导入客户数据时,便会将客户数据划分为保险客户类别下的数据以及消费金融客户类别下的数据分别导入。这种做法将数据与预定义分类强绑定,从而会出现以下两方面的问题:其一,数据进入平台时就自带预定义类型,然而平台并不知晓导入这些数据的用户是基于何种标准或规则对数据进行分类,即分类依据无法追溯、其可靠性无法保证;其二,如前所述,数据除了可以具有预定义类型以外,还自带有基础类型,当数据仅以基础类型划分时可以更具通用性,而以预定义类型划分时则难以应用于其他业务场景。例如,可以将购买过保险的客户归类为保险客户类型,但实际上这些客户也完全可以是其他商品的消费者,也就是说保险客户类型的数据除了用于保险推荐外,还可以用于其他商品推荐,如果客户数据一开始便以保险客户类型进入数据服务平台,则难以复用到其他商品推荐的业务场景。
有鉴于此,本说明书实施例提供了一种基于基础数据与分类规则分离的动态的数据分类方法。进入平台的数据不再自带预定义类型,在使用时(如数据查询时)基于与预定义类型关联的分类规则对基础数据进行分类,再基于分类后的数据得到处理结果。本说明书一些实施例提供的数据分类方法使得数据能够适用于多种不同的业务需求,有效提高了数据复用率,同时分类依据以分类规则进行表达、记录,具备良好的可追溯性。
图2是根据本说明书一些实施例所示的数据分类方法的示例性流程图。在一些实施例中,流程200可以由一个或多个处理器(例如,服务端110的一个或多个处理器)执行,具体地,可以由图4所示的在服务端110上实现的***400实现。如图2所示,流程200可以包括以下步骤。
步骤210,获取基础数据。在一些实施例中,步骤210可以由第一获取模块410执行。
基础数据是未经过知识加工或预定义分类的数据,其可以是业务领域直接产生的原始数据,如交易数据,一条交易数据可以包括交易时间、交易金额、交易方账户等,又如客户数据,一条客户数据可以保留客户的姓名、年龄、性别以及职业等。在一些实施例中,所述基础数据可以包括多个实体实例以及至少部分实体实例之间的关系实例。
实体具有可区分性,例如,实体可以包括用户、商户、账户、城市、药物、公司、设备等等。实体实例指具体的实体,例如,“张三”可以作为用户实体下的一个实体实例,“XX银行XX支行”可以作为公司实体下的一个实体实例。在不引起歧义的情况下,术语“实体”和“实体实例”可以互换使用。
实体之间可以具有关系,如朋友关系、雇佣关系、子母公司关系等。关系实例指实体实例之间的具体关系。仅作为示例,以下为5个关系实例:(1)张三和李四之间的好友关系;(2)社交账号X在终端Y的某次登录行为;(3)账户A和账户B之间的一笔转账;(4)用户C发送给用户D的一条消息;(5)成都到上海的某趟航班。在不引起歧义的情况下,术语“关系”和“关系实例”可以互换使用。
在一些实施例中,所述基础数据可以表现为知识图谱。知识图谱可以包括多个节点实例以及至少部分节点实例之间的边实例。此时,知识图谱中的节点实例和关系实例可以基于数据的基础类型进行分类,如知识图谱中包含用户类型节点、公司类型节点以及雇佣关系。不同基础类型的节点实例对应于相应基础类型下的实体实例,不同基础类型的边实例对应于相应基础类型下的关系实例。
在一些实施例中,所述基础数据也可以表现为其它类型的图或者其它数据形式(如表格形式)。
需要注意的是,虽然本说明书中主要以知识图谱为例进行相关说明,但是本说明书中的数据分类原理适用于任意表现形式的数据。
在一些实施例中,所述基础数据可以由用户导入。例如,用户可以在用户端120的操作界面点击“数据导入”按钮,以进行基础数据导入。
步骤220,获取与一个或多个预定义类型分别关联的一个或多个分类规则。在一些实施例中,步骤220可以由第二获取模块420执行。
在一些实施例中,所述一个或多个预定义类型可以包括一个或多个预定义实体类型以及一个或多个预定义关系类型。以知识图谱为例,所述一个或多个预定义类型可以包括一个或多个预定义节点类型以及一个或多个预定义边类型。
如前所述,预定义类型可以基于数据的基础类型得到。如,预定义类型可以作为基础类型下的子类型。作为示例,基础类型可以包括自然人,在自然人类型下用户可以定义有孩老人类型。又如,基础类型可以包括企业类型,在企业类型下用户可以定义小微企业、中型企业、大型企业等实体类型。又如,基础类型可以包括交易类型,在交易类型下用户可以定义小额交易、大额交易、异常交易等关系类型。应当理解,基础类型层面的分类结果已然包含在基础数据中,而预定义类型层面的分类才是本文讨论的数据分类问题。
与预定义类型关联的分类规则可以看作是对预定义类型的定义性描述,通过分类规则,可以判断实体实例或关系实例是否属于该预定义类型。
在一些实施例中,与预定义实体类型关联的分类规则可以包括条件描述信息,以便用于确定实体实例是否属于该预定义实体类型。即,与预定义实体类型关联的分类规则可以指示属于该预定义实体类型的实体实例需要满足的条件。仅作为示例,假设用户定义了有孩老人类型,与有孩老人类型关联的分类规则可以指示属于有孩老人类型的实体实例(简称有孩老人)需要同时满足以下条件:1)有子女;2)年龄超60周岁;3)子女未满18周岁。
在一些实施例中,与预定义关系类型关联的分类规则可以包括条件描述信息,以便用于确定关系实例是否属于该预定义关系类型。即,与预定义关系类型关联的分类规则可以指示属于该预定义关系类型的关系实例需要满足的条件。假设用户定义了关系类型“异常交易”,与异常交易类型关联的分类规则可以指示属于异常交易类型的关系实例需要满足以下任一条件:1)交易金额超过设定值(如超过500万元);2)交易账户存在异地登录行为(例如,交易账户最近一周都在甲地登录,但交易时登录地为乙地)。
在一些实施例中,分类规则可以包括条件描述信息和动作函数。其中,条件描述信息可以用于引用相关的基础类型以及指定筛选条件,动作函数可以用于根据条件描述信息对属于相关的基础类型的实体实例和/关系实例进行筛选,并返回满足条件的实体实例或关系实例。可以理解,对于与预定义实体类型关联的分类规则,动作函数返回的实体实例即属于该预定义实体类型的实体实例;对于与预定义关系类型关联的分类规则,动作函数返回的关系实例即属于该预定义关系类型的关系实例。
在一些实施例中,分类规则可以表现为可执行文件或描述脚本。
当基础数据表现为知识图谱时,所述条件描述信息可以包括目标图模式(或称为目标图结构)。继续以前述有孩老人为例,所述条件描述信息可以包括基础类型为老人(意味着年龄超过60周岁)的第一节点、基础类型为未成年人(意味着年龄小于18周岁)的第二节点以及连接于这两个节点之间且基础类型为父母-子女的边组成的目标图模式。相应地,当分类规则被执行时,动作函数可以在基础数据(知识图谱)中搜索符合目标图模式的子图,并返回搜索到的第一节点实例(基础类型为老人的实体实例),动作函数返回的第一节点实例即属于有孩老人类型的实体实例。
在一些实施例中,分类规则可以由用户导入。由于分类规则与基础数据分离,用户可以方便的对分类规则进行制定或更新。例如,对于同一预定义类型,用户可以更新与该预定义类型关联的分类规则,即导入与该预定义类型关联的更新后的分类规则。
可以看出,流程200可以分别基础数据与分类规则,并存储。在执行针对某预定义类型的数据查询任务时,与该预定义类型关联的分类规则可以被调用,以从基础数据中确定属于该预定义类型的部分,进而至少基于所述部分获取所述数据查询任务的查询结果。即,获取基础数据以及与任一预定义类型关联的分类规则后,数据服务平台就已具备执行针对该预定义类型的数据查询任务的能力。
图3是根据本说明书一些实施例所示的数据查询方法的示例性流程图。流程300可以由一个或多个处理器(例如,服务端110的一个或多个处理器)执行,具体地,可以由图5所示的在服务端110上实现的***500实现。在一些实施例中,流程300可以由来自用户端120的数据查询请求触发。如图3所示,流程300可以包括以下步骤。
步骤310,确定与目标预定义类型关联的分类规则。在一些实施例中,步骤310可以由第一确定模块510执行。
在一些实施例中,分类规则可以以预定义类型来命名,如命名为“有孩老人”,通过预定义类型便可调用其关联的分类规则。来自用户端的数据查询请求中可以指定需要查询的预定义类型,或称为目标预定义类型。第一确定模块510可以进一步确定与目标预定义类型关联的分类规则。其中,与目标预定义类型关联的分类规则选自与一个或多个预定义类型分别关联的一个或多个分类规则。关于分类规则的详细说明,可以在步骤220的相关描述中找到。
步骤320,基于与目标预定义类型关联的分类规则从基础数据中确定属于目标预定义类型的部分。在一些实施例中,步骤320可以由第二确定模块520执行。
关于基础数据的详细说明,可以在步骤220的相关描述中找到。
在一些实施例中,第二确定模块520可以基于与目标预定义类型关联的分类规则从基础数据中确定属于目标预定义类型的所有实例(所有实体实例或所有关系实例)。值得说明的是,当涉及目标预定义类型的查询需求较为频繁或实例数据量较大时,服务端110获取与目标预定义类型关联的分类规则后,即可根据与目标预定义类型关联的分类规则从基础数据中确定属于目标预定义类型的所有实例并保存,以备后续查询使用。
在一些实施例中,当分类规则表现为可执行文件时,第二确定模块520可以执行与目标预定义类型关联的可执行文件,从而从基础数据中确定属于目标预定义类型的部分。
关于步骤320的更多实现细节,可以参考前文有关分类规则的描述。
步骤330,至少基于所述部分获取数据查询结果。在一些实施例中,步骤330可以由查询模块530执行。
在一些实施例中,数据查询请求仅要求返回目标预定义类型下的实例数据,所述数据查询结果可以包括基础数据中属于目标预定义类型的所有实例(所有实体实例或所有关系实例)。在一些实施例中,当提前保存了基础数据中属于目标预定义类型的所有实例时,服务端110可以从中确定基础数据中的指定实例(指定实体实例或指定关系实例)是否属于目标预定义类型,进而获取查询结果。在一些实施例中,数据查询请求还包括对目标预定义下的实例数据进行进一步运算,如统计数量、对实例数据中的某项属性值计算均值或求出最大值等。所述数据查询结果可以是对目标预定义下的实例数据进行运算的结果。
当然,所述查询结果不限于以上提到的几种情形,只要所述查询结果的获取依赖于基于分类规则的数据分类即可。例如,用户可以输入多个查询条件,以查询基础数据中同时满足这些查询条件的部分,所述多个查询条件之一为相关实例属于预定义类型。具体地,用户可以查询交易时间为2022年01月01日的异常交易(异常交易为预定义类型),相应地,服务端110可以在找到基础数据中的所有异常交易后,进一步验证各异常交易的交易时间是否为2022年01月01日,以获得查询结果。或者,服务端110可以先在基础数据中找出交易时间为2022年01月01日的交易,再基于与异常交易类型关联的分类规则从交易时间为2022年01月01日的交易中确定异常交易,以获得查询结果。又如,所述查询结果可以包括属于目标预定义类型的实例(实体实例或关系实例)的子图数据,即,服务端110在从基础数据中确定属于目标预定义类型的实例(简称目标实例)后,可以进一步从基础数据中确定目标实例的子图数据,以获取查询结果。
在一些实施例中,为了实现流程300,服务端110可以基于用户的数据查询请求生成对应的查询脚本,查询脚本可以通过预定义类型名调用目标预定义类型关联的分类规则,当查询脚本被执行的同时,其调用的分类规则也会被执行,以从平台的基础数据中获取目标预定义类型下的实例数据。在一些实施例中,查询脚本还可以包括运算指令,以进一步对获取到的目标预定义类型下的实例数据进行运算,得到用户所需的查询结果。在执行分类规则时,目标预定义类型下的实例数据可以被重复拷贝,且得到的查询结果也不会写入基础数据,从而保证了基础数据的独立性,以便提高其复用率。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图4是根据本说明书一些实施例所示的数据分类***的示例性模块图。在一些实施例中,***400可以在图1所示的服务端110上实现。
如图4所示,***400可以包括第一获取模块410和第二获取模块420。
第一获取模块410可以用于获取基础数据。在一些实施例中,基础数据可以包括多个实体实例以及至少部分实体实例之间的关系实例。
第二获取模块420可以用于获取与一个或多个预定义类型分别关联的一个或多个分类规则。
在一些实施例中,基础数据和/或分类规则可以由用户导入。
关于***400及其模块的更多细节,可以参考图2及其相关描述。
图5是根据本说明书一些实施例所示的数据查询***的示例性模块图。在一些实施例中,***500可以在图1所示的服务端110上实现。
如图5所示,***500可以包括第一确定模块510、第二确定模块520和查询模块530。
第一确定模块510可以用于确定与目标预定义类型关联的分类规则。
第二确定模块520可以用于基于与目标预定义类型关联的分类规则从基础数据中确定属于目标预定义类型的部分。在一些实施例中,基础数据可以包括多个实体实例以及至少部分实体实例之间的关系实例。
查询模块530可以用于至少基于所述部分获取数据查询结果。
关于***500及其模块的更多细节,可以参考图3及其相关描述。
应当理解,图4、图5所示的***及其模块可以利用各种方式来实现。例如,在一些实施例中,***及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和***可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的***及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于***及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解***的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子***与其他模块连接。例如,在一些实施例中,第一确定模块510和第二确定模块520可以是两个模块,也可以合并为一个模块。又如,在一些实施例中,数据分类***400和数据查询***500可以是两个***,也可以合并为一个***。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)提供了基于规则的动态数据分类方法,基础数据能够适用于多种不同的业务需求,有效提高了数据复用率,同时分类依据以分类规则进行表达、记录,具备良好的可追溯性;(2)业务应用时产生的分类结果或查询结果与基础数据分开存储(例如,执行分类或查询不会改变知识图谱),便于在分类标准发生变化后更新分类结果。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的***。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (10)

1.一种数据分类方法,包括:
获取基础数据,所述基础数据包括多个实体实例以及至少部分实体实例之间的关系实例;
获取与一个或多个预定义类型分别关联的一个或多个分类规则;
其中,与任一预定义类型关联的分类规则用于在执行针对该预定义类型的数据查询任务时被调用,以从基础数据中确定属于该预定义类型的部分,进而至少基于所述部分获取所述数据查询任务的查询结果。
2.如权利要求1所述的方法,其中,所述一个或多个预定义类型包括一个或多个预定义实体类型,与预定义实体类型关联的分类规则包括条件描述信息,以便用于确定实体实例是否属于该预定义实体类型。
3.如权利要求1所述的方法,其中,所述实体实例和/或所述关系实例具有基础类型,所述预定义类型基于所述基础类型得到。
4.如权利要求3所述的方法,其中,所述分类规则包括条件描述信息和动作函数;所述条件描述信息用于引用相关的基础类型以及指定筛选条件,所述动作函数用于根据所述条件描述信息对属于所述相关的基础类型的实体实例和/关系实例进行筛选,并返回满足条件的实体实例或关系实例。
5.如权利要求1所述的方法,其中,所述基础数据和/或所述分类规则由用户导入。
6.如权利要求1所述的方法,其中,所述基础数据表现为知识图谱。
7.一种数据分类***,包括第一获取模块和第二获取模块;
所述第一获取模块用于获取基础数据,所述基础数据包括多个实体实例以及至少部分实体实例之间的关系实例;
所述第二获取模块用于获取与一个或多个预定义类型分别关联的一个或多个分类规则;
其中,与任一预定义类型关联的分类规则用于在执行针对该预定义类型的数据查询任务时被调用,以从基础数据中确定属于该预定义类型的部分,进而至少基于所述部分获取所述数据查询任务的查询结果。
8.如权利要求7所述的***,其中,所述基础数据和/或所述分类规则由用户导入。
9.一种数据分类装置,包括处理器和存储设备,所述存储设备用于存储指令,其中,当所述处理器执行指令时,实现如权利要求1~6中任一项所述的数据分类方法。
10.一种数据查询方法,包括:
确定与目标预定义类型关联的分类规则;所述与目标预定义类型关联的分类规则选自与一个或多个预定义类型分别关联的一个或多个分类规则;
基于与目标预定义类型关联的分类规则从基础数据中确定属于目标预定义类型的部分;所述基础数据包括多个实体实例以及至少部分实体实例之间的关系实例;
至少基于所述部分获取数据查询结果。
CN202310869661.7A 2023-07-14 2023-07-14 数据分类方法、数据查询方法及其*** Pending CN116910163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310869661.7A CN116910163A (zh) 2023-07-14 2023-07-14 数据分类方法、数据查询方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310869661.7A CN116910163A (zh) 2023-07-14 2023-07-14 数据分类方法、数据查询方法及其***

Publications (1)

Publication Number Publication Date
CN116910163A true CN116910163A (zh) 2023-10-20

Family

ID=88364225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310869661.7A Pending CN116910163A (zh) 2023-07-14 2023-07-14 数据分类方法、数据查询方法及其***

Country Status (1)

Country Link
CN (1) CN116910163A (zh)

Similar Documents

Publication Publication Date Title
US10346638B2 (en) Data processing systems for identifying and modifying processes that are subject to data subject access requests
US10942946B2 (en) Automatic triage model execution in machine data driven monitoring automation apparatus
US11645321B2 (en) Calculating relationship strength using an activity-based distributed graph
US20180349482A1 (en) Automatic triage model execution in machine data driven monitoring automation apparatus with visualization
US11803555B2 (en) Integrated entity view across distributed systems
US11366805B2 (en) Integrated entity view across distributed systems
US20200334370A1 (en) Data privacy pipeline providing collaborative intelligence and constraint computing
US11409897B2 (en) Constraint querying for collaborative intelligence and constraint computing
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
US20200334259A1 (en) Constraint manager for collaborative intelligence and constraint computing
US10599985B2 (en) Systems and methods for expediting rule-based data processing
US9275125B1 (en) System for organizing data from a plurality of users to create individual user profiles
US10713573B2 (en) Methods and systems for identifying and prioritizing insights from hidden patterns
US8839449B1 (en) Assessing risk of information leakage
US11562319B1 (en) Machine learned item destination prediction system and associated machine learning techniques
US11170046B2 (en) Network node consolidation
US11961060B2 (en) Systems and methods for assigning attribution weights to nodes
US8832110B2 (en) Management of class of service
CN116910163A (zh) 数据分类方法、数据查询方法及其***
US20200201829A1 (en) Systems and methods for compiling a database
US11200518B2 (en) Network effect classification
US20240061866A1 (en) Methods and systems for a standardized data asset generator based on ontologies detected in knowledge graphs of keywords for existing data assets
US20160307207A1 (en) Analytical Functionality Selecting Relevant Market Research Data for Global Reporting
CN116975774A (zh) 机构名称融合方法、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination