CN113806526B - 特征抽取方法、设备和存储介质 - Google Patents

特征抽取方法、设备和存储介质 Download PDF

Info

Publication number
CN113806526B
CN113806526B CN202110178466.0A CN202110178466A CN113806526B CN 113806526 B CN113806526 B CN 113806526B CN 202110178466 A CN202110178466 A CN 202110178466A CN 113806526 B CN113806526 B CN 113806526B
Authority
CN
China
Prior art keywords
data
processed
feature
acquiring
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110178466.0A
Other languages
English (en)
Other versions
CN113806526A (zh
Inventor
杨泽森
王军伟
李双义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110178466.0A priority Critical patent/CN113806526B/zh
Publication of CN113806526A publication Critical patent/CN113806526A/zh
Application granted granted Critical
Publication of CN113806526B publication Critical patent/CN113806526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种特征抽取方法、设备和存储介质,其中,该方法包括:在对待处理数据进行特征提取的过程中,结合为待处理数据预先设置的实体类型,获取该实体类型的特征模板,并根据特征模板,对待处理数据进行特征提取,以得到特征模板中特征要素对应的要素内容,并根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。由此,通过与实体类型对应的统一特征模板,实现了对待处理数据进行特征提取,实现了对特征数据的统一管理,使得所得到的特征抽取结果信息统一,有利于对特征抽取结果进行使用以及维护。

Description

特征抽取方法、设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及特征抽取方法、装置、电子设备和存储介质。
背景技术
目前,在一个机构组织中通常会涉及到多个业务部门,不同业务部门会涉及到与该业务部门的业务类型对应的业务数据。
相关技术中,通常是不同业务部门的非数据专业人员采用手工整理或结合脚本编程半自动化的实现方式,实现对业务数据进行特征抽取,并由各个业务部门进行特征数据维护。然而,这种方式,由于并不是基于统一的特征标准进行数据管理。因此,各个部门管理的特征数据的质量残差不齐,不利于特征的使用和维护。
发明内容
本申请提出一种特征抽取方法、装置、电子设备和存储介质。
本申请一方面实施例提出了一种特征抽取方法,包括:获取待处理数据;获取为所述待处理数据预先设置的实体类型;获取与所述实体类型对应的特征模板,其中,所述特征模板包括特征要素;从所述待处理数据中,确定出所述特征要素对应的要素内容;根据所述特征要素以及对应的要素内容,确定所述待处理数据的特征抽取结果。
在本申请的一个实施例中,所述从所述待处理数据中,确定出所述特征要素对应的要素内容,包括:获取与所述实体类型对应的特征要素分析模型;将所述待处理数据输入到所述特征要素分析模型中,以得到所述待处理数据的要素分析结果;从所述要素分析结果中,确定出所述特征要素对应的要素内容。
在本申请的一个实施例中,所述特征要素分析模型中包括语义表示层以及要素分类层,所述将所述待处理数据输入到所述特征要素分析模型中,以得到所述待处理数据的要素分析结果,包括:将所述待处理数据切分为多个数据单元;通过所述语义表示层对所述多个数据单元进行语义分析,以得到所述待处理数据中各个数据的语义表示特征;将各个数据的语义表示特征输入到要素分类层,以得到各个数据的要素分类结果;所述从所述要素分析结果中,确定出所述特征要素对应的要素内容,包括:从各个数据的要素分类结果,获取与所述特征要素匹配的数据,并将匹配到的数据作为所述特征要素的要素内容。
在本申请的一个实施例中,所述方法还包括:获取所述待处理数据对应的业务类型;获取与所述业务类型对应的数据存储表;获取所述特征要素在所述业务类型下对应的字段信息;根据所述字段信息,在所述数据存储表中存储所述要素内容。
在本申请的一个实施例中,所述方法还包括:接收数据查询请求,其中,所述数据查询请求包括待查询的业务类型;获取与所述待查询的业务类型对应的目标数据存储表;在查询结果界面上显示所述目标数据存储表中的数据内容。
本申请实施例的特征抽取方法,在对待处理数据进行特征提取的过程中,结合为待处理数据预先设置的实体类型,获取该实体类型的特征模板,并根据特征模板,对待处理数据进行特征提取,以得到特征模板中特征要素对应的要素内容,并根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。由此,通过与实体类型对应的统一特征模板,实现了对待处理数据进行特征提取,实现了对特征数据的统一管理,使得所得到的特征抽取结果信息统一,有利于对特征抽取结果进行使用以及维护。
本申请另一方面实施例提出了一种特征抽取装置,包括:第一获取模块,用于获取待处理数据;第二获取模块,用于获取为所述待处理数据预先设置的实体类型;第三获取模块,用于获取与所述实体类型对应的特征模板,其中,所述特征模板包括特征要素;第一确定模块,用于从所述待处理数据中,确定出所述特征要素对应的要素内容;第二确定模块,用于根据所述特征要素以及对应的要素内容,确定所述待处理数据的特征抽取结果。
在本申请的一个实施例中,所述第一确定模块,包括:获取子模块,用于获取与所述实体类型对应的特征要素分析模型;要素分析子模块,用于将所述待处理数据输入到所述特征要素分析模型中,以得到所述待处理数据的要素分析结果;确定子模块,用于从所述要素分析结果中,确定出所述特征要素对应的要素内容。
在本申请的一个实施例中,所述特征要素分析模型中包括语义表示层以及要素分类层,所述要素分析子模块,包括:切分单元,用于将所述待处理数据切分为多个数据单元;语义分析单元,用于通过所述语义表示层对所述多个数据单元进行语义分析,以得到所述待处理数据中各个数据的语义表示特征;要素分类单元,用于将各个数据的语义表示特征输入到要素分类层,以得到各个数据的要素分类结果;所述确定子模块,具体用于从各个数据的要素分类结果,获取与所述特征要素匹配的数据,并将匹配到的数据作为所述特征要素的要素内容。
在本申请的一个实施例中,所述装置还包括:第四获取模块,用于获取所述待处理数据对应的业务类型;第五获取模块,用于获取与所述业务类型对应的数据存储表;第六获取模块,用于获取所述特征要素在所述业务类型下对应的字段信息;存储模块,用于根据所述字段信息,在所述数据存储表中存储所述要素内容。
在本申请的一个实施例中,所述装置还包括:接收模块,用于接收数据查询请求,其中,所述数据查询请求包括待查询的业务类型;第七获取模块,用于获取与所述待查询的业务类型对应的目标数据存储表;显示模块,用于在查询结果界面上显示所述目标数据存储表中的数据内容。
本申请实施例的特征抽取装置,在对待处理数据进行特征提取的过程中,结合为待处理数据预先设置的实体类型,获取该实体类型的特征模板,并根据特征模板,对待处理数据进行特征提取,以得到特征模板中特征要素对应的要素内容,并根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。由此,通过与实体类型对应的统一特征模板,实现了对待处理数据进行特征提取,实现了对特征数据的统一管理,使得所得到的特征抽取结果信息统一,有利于对特征抽取结果进行使用以及维护。
本申请另一方面实施例提出了一种电子设备,包括:一种电子设备,包括:存储器,处理器;所述存储器中存储有计算机指令,当所述计算机指令被所述处理器执行时,实现本申请实施例的特征抽取方法。
本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请实施例公开的特征抽取方法。
本申请另一方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现本申请实施例中的特征抽取方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请一个实施例的特征抽取方法的流程示意图。
图2是根据本申请另一个实施例的特征抽取方法的流程示意图。
图3是根据本申请另一个实施例的特征抽取方法的流程示意图。
图4是根据本申请另一个实施例的特征抽取方法的流程示意图。
图5是根据本申请一个实施例的特征抽取装置的结构示意图。
图6是根据本申请另一个实施例的特征抽取装置的结构示意图。
图7是根据本申请一个实施例的电子设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的特征抽取方法、装置、电子设备和存储介质。
图1是根据本申请一个实施例的特征抽取方法的流程示意图。其中,需要说明的是,本实施例提供的特征抽取方法的执行主体为特征抽取装置,该特征抽取装置可以由软件和/或硬件的方式实现,该实施例中特征抽取装置可以配置在特征管理***中,该特征管理***可以配置在电子设备中,本实施例中的电子设备可以包括终端设备和服务器等设备,该实施例对电子设备不作具体限定。
如图1所示,该特征抽取方法可以包括:
步骤101,获取待处理数据。
其中,待处理数据可以为数据源中任意一个待处理的数据。
在本实施例中,上述数据源可以包括但不限于零售业务数据、金融业务数据、用户浏览数据、用户订单数据、用户订单配送数据,以及外部采购的用户数据等。
步骤102,获取为待处理数据预先设置的实体类型。
在本实施例中,上述实体类型可以是在特征抽取装置中预先设置的。
其中,上述实体类型可以包括用户实体、商品实体、设备实体等类型。
在本实施例中,为了可以对各个业务部门的用户特征数据进行集中管理,以满足特征上行的业务时间要求,本实施例中以为待处理数据预先设置的实体类型为用户实体为例进行描述。
步骤103,获取与实体类型对应的特征模板,其中,特征模板包括特征要素。
其中,可以理解的是,对于不同实体类型,其对应的特征模板是不同的。
作为一种示例性的实施方式,在上述实体类型为用户实体的情况下,上述特征模板可以包括多个特征要素,特征要素可以包括行为主体、行为对象、行为地点、行为时间、行为自身、其他共六项要素。
步骤104,从待处理数据中,确定出特征要素对应的要素内容。
步骤105,根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。
本申请实施例的特征抽取方法,在对待处理数据进行特征提取的过程中,结合为待处理数据预先设置的实体类型,获取该实体类型的特征模板,并根据特征模板,对待处理数据进行特征提取,以得到特征模板中特征要素对应的要素内容,并根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。由此,通过与实体类型对应的统一特征模板,实现了对待处理数据进行特征提取,实现了对特征数据的统一管理,使得所得到的特征抽取结果信息统一,有利于对特征抽取结果进行使用以及维护。
图2是根据本申请另一个实施例的特征抽取方法的流程示意图。该实施例是对上述实施例的进一步细化或者优化。
步骤201,获取待处理数据。
步骤202,获取为待处理数据预先设置的实体类型。
其中,关于步骤201-步骤202的相关描述,可参见上述实施例中的描述,此处不再赘述。
步骤203,获取与实体类型对应的特征模板,其中,特征模板包括特征要素。
在本实施例中,在上述实体类型为用户实体的情况下,上述特征模板可以包括多个特征要素,特征要素可以包括行为主体、行为对象、行为地点、行为时间、行为自身、其他共六项要素。
步骤204,获取与实体类型对应的特征要素分析模型。
其中,可以理解的是,对于不同实体类型,其对应的特征要素分析模型是不同的。
在本实施例中,可通过预先保存的实体类型信息与模型信息的对应关系,获取与该实体类型对应的模型信息,并根据模型信息,获取对应的特征要素分析模型,所获取到的特征要素分析模型即为与实体类型对应的特征要素分析模型。
步骤205,将待处理数据输入到特征要素分析模型中,以得到待处理数据的要素分析结果。
其中,要素分析结果中包括待处理数据中各个数据单元各自对应的特征要素类别。
其中,特征要素类别可以包括行为主体、行为对象、行为地点、行为时间、行为自身、其他共六项要素。
步骤206,从要素分析结果中,确定出特征要素对应的要素内容。
在本实施例中,为了可快速且准确确定特征要素对应的要素内容,特征要素分析模型中包括语义表示层以及要素分类层,将待处理数据输入到特征要素分析模型中,以得到待处理数据的要素分析结果的一种可能实现方式为:将待处理数据切分为多个数据单元;通过语义表示层对多个数据单元进行语义分析,以得到待处理数据中各个数据的语义表示特征;将各个数据的语义表示特征输入到要素分类层,以得到各个数据的要素分类结果。
对应的,从要素分析结果中,确定出特征要素对应的要素内容的可能实现方式为:从各个数据的要素分类结果,获取与特征要素匹配的数据,并将匹配到的数据作为特征要素的要素内容。
在本实施例中,上述待处理数据可以包括非结构化数据以及结构化数据。
在一些实施例中,非结构化数据可以包括文本数据。
例如,待处理数据为文本数据,文本数据为河北的小张今天在某某APP上买了一个某某手机。在确定实体类型为用户实体,将该文本数据输入到用户实体对应的特征要素分析模型后,特征要素分析模型输出的要素分析结果。其中,要素分析结果为“行为主体为:小张,主体属性为河北;行为地点:某某APP,地点属性:暂无;行为对象:手机,对象属性:某某品牌;行为时间:今天,行为自身:买,行为属性:暂无;其他:暂无”。
在本实施例中,结构化数据,例如:mysql、oracle、hive等结构化数据库中存储的实体信息(例如商品、用户、商铺等)以及实体信息对应的交易信息等信息。例如,可从结构化数据库中读取到用户实体的一条商品购买记录信息,并将所读取到的商品购买记录信息作为待处理数据,其中,商品购买记录信息包括用户信息、商品购买时间、购买商品对应的店铺信息以及商品品牌信息等。对应地,通过特征要素分析模型,也可以确定出待处理数据中的特征要素以及对应的要素内容。
步骤207,根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。
在本实施例中,可将特征要素以及对应的要素内容作为待处理数据的特征抽取结果。
本申请实施例的特征抽取方法,在对待处理数据进行特征提取的过程中,结合为待处理数据预先设置的实体类型,获取该实体类型的特征模板,并结合与实体类型对应的特征要素分析模型,对待处理数据进行分析,以得到待处理数据的要素分析结果,并根据要素分析结果,确定出特征要素对应的要素内容,确定待处理数据的特征抽取结果。由此,通过与实体类型对应的特征要素分析模型对待处理数据实现了快速要素分析,并根据模型的输出结果,可快速确定出特征要素对应的要素内容,实现了对特征数据的统一管理,使得所得到的特征抽取结果信息统一,有利于对特征抽取结果进行使用以及维护。
在本实施例中,为了可以准确确定对特征抽取结果进行特征标签,在本申请的一个实施例中,还可以获取待处理数据的业务类型,并获取业务类型对应的特征标签集合,以及从特征标签集合中,获取与特征抽取结果匹配的目标特征标签,并通过目标特征标签对特征抽结果进行标记。
其中,不同业务类型对应的特征标签可能是不同的。例如,业务类型为流量业务,流量业务对应的特征标签可以包括点击、关注、加购、搜索等标签。又例如,业务类型为订单,订单对应的特征标签可以包括金额以及单量等特征标签。
可以理解的是,为了满足实际业务需求,可在特征抽取装置中设置不同业务类型对应的特征标签。例如,特征抽取装置可以提供特征标签配置界面,其中,可在特征标签配置界面上显示业务类型以及对应的特征标签,并显示与业务类型对应的编辑操作控件,用户可根据实际业务需要,通过触发对应编辑操作控件,对业务类型对应的特征标签进行编辑。其中,特征标签配置界面上显示对应的删除控件,用户可根据实际业务需求,通过触发对应删除控件,以将对应业务类型的特征标签删除。
其中,上述特征标签可以是在特征抽取装置中预先设置的。在实际应用中,可在特征抽取装置中提供的特征注册模型中,对特征标签进行注册。
可以理解的是,为了方便用户可视化查看对应业务类型下的特征标签,在本申请的一些实施例中,特征抽取装置还可以根据查询请求,获取查询请求所请求的业务类型的特征标签查询结果,并在查询结果界面上展示特征标签查询结果。基于上述任意一个实施例的基础上,为了方便可对待处理数据的特征抽取结果进行使用以及维护,如图3所示,在根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果之后,该方法还包括:
步骤301,获取待处理数据对应的业务类型。
其中,在不同场景中,上述业务类型的具体类型不同。在电商场景中,上述业务类型可以包括订单、配送、金融、浏览等一级业务分类。
对于上述的每个一级业务分类,还可以根据实际业务需求进行进一步的细分。例如,一级业务分类为金融类型,金融类型还可以包括白条、保险、基金等二级业务分类。
其中,还可以根据实际业务需求对二级业务分类进行进一步细分,以得到二级业务分类对应的三级业务分类。例如,二级业务分类为白条,还可以分为还款以及逾期等三级业务分类。
其中,可以理解的是,本实施例中的特征抽取装置可以提供设置业务分类的配置界面,在实际应用中,可根据实际业务需求在业务分类的配置界面中进行预先设置。例如,可在配置界面上显示各级业务分类,并显示与各级业务分类各自对应的分类添加控件,用户可根据实际业务需要通过触发对应分类添加控件,对对应级别的业务分类进行进一步分类。
其中,可以理解的是,还可以根据实际业务需求,在特征抽取装置中添加业务类型,该实施例对此不作具体限定。
步骤302,获取与业务类型对应的数据存储表。
在本实施例中,不同业务类型对应的数据存储表可以是相同的,或者是不同的,该实施例对此不作具体限定。
其中,可以理解的是,上述数据存储表是设置在数据库中,该实施例对数据库不作具体限定。
其中,上述数据库可以包括hive、hbase、redis等类型的数据库,在实际应用中,可根据实际业务需求,选择适合进行数据存储的数据库,该实施例对此不作具体限定。
步骤303,获取特征要素在业务类型下对应的字段信息。
其中,对于特征要素在不同业务类型下,其对应的字段信息可以是相同,也可以是不同的,该实施例对此具体限定。
步骤304,根据字段信息,在数据存储表中存储要素内容。
基于上述实施例的基础上,为了方便查看对应业务类型的特征数据,在上述实施例的基础上,如图4所示,方法还包括:
步骤401,接收数据查询请求,其中,数据查询请求包括待查询的业务类型。
步骤402,获取与待查询的业务类型对应的目标数据存储表。
步骤403,在查询结果界面上显示目标数据存储表中的数据内容。
在本实施例中,根据数据查询请求中待查询业务类型,获取与待查询业务类型对应的目标数据存储表,并在查询结果界面上显示目标数据存储表中的数据内容。由此,使得用户可通过可视化的方式查看对应业务类型的数据内容。
与上述几种实施例提供的特征抽取方法相对应,本申请的一种实施例还提供一种特征抽取装置,由于本申请实施例提供的特征抽取装置与上述几种实施例提供的特征抽取方法相对应,因此在特征抽取方法的实施方式也适用于本实施例提供的特征抽取装置,在本实施例中不再详细描述。
图5是根据本申请一个实施例的特征抽取装置的结构示意图。
如图5所示,该特征抽取装置500包括第一获取模块501、第二获取模块502、第三获取模块503、第一确定模块504、第二确定模块505,其中:
第一获取模块501,用于获取待处理数据。
第二获取模块502,用于获取为待处理数据预先设置的实体类型。
第三获取模块503,用于获取与实体类型对应的特征模板,其中,特征模板包括特征要素。
第一确定模块504,用于从待处理数据中,确定出特征要素对应的要素内容。
第二确定模块505,用于根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。
在本申请的一个实施例中,在图5所示的装置实施例中,上述第一确定模块504,包括:
获取子模块5041,用于获取与实体类型对应的特征要素分析模型。
要素分析子模块5042,用于将待处理数据输入到特征要素分析模型中,以得到待处理数据的要素分析结果。
确定子模块5043,用于从要素分析结果中,确定出特征要素对应的要素内容。
在本申请的一个实施例中,特征要素分析模型中包括语义表示层以及要素分类层,如图6所示,要素分析子模块5042,包括:
切分单元50421,用于将待处理数据切分为多个数据单元。
语义分析单元50422,用于通过语义表示层对多个数据单元进行语义分析,以得到待处理数据中各个数据的语义表示特征。
要素分类单元50423,用于将各个数据的语义表示特征输入到要素分类层,以得到各个数据的要素分类结果。
确定子模块5043,具体用于:从各个数据的要素分类结果,获取与特征要素匹配的数据,并将匹配到的数据作为特征要素的要素内容。
在本申请的一个实施例中,如图6所示,装置还包括:
第四获取模块506,用于获取待处理数据对应的业务类型。
第五获取模块507,用于获取与业务类型对应的数据存储表。
第六获取模块508,用于获取特征要素在业务类型下对应的字段信息。
存储模块509,用于根据字段信息,在数据存储表中存储要素内容。
在本申请的一个实施例中,如图6所示,装置还包括:
接收模块510,用于接收数据查询请求,其中,数据查询请求包括待查询的业务类型。
第七获取模块511,用于获取与待查询的业务类型对应的目标数据存储表。
显示模块512,用于在查询结果界面上显示目标数据存储表中的数据内容。
本申请实施例的特征抽取装置,在对待处理数据进行特征提取的过程中,结合为待处理数据预先设置的实体类型,获取该实体类型的特征模板,并根据特征模板,对待处理数据进行特征提取,以得到特征模板中特征要素对应的要素内容,并根据特征要素以及对应的要素内容,确定待处理数据的特征抽取结果。由此,通过与实体类型对应的统一特征模板,实现了对待处理数据进行特征提取,实现了对特征数据的统一管理,使得所得到的特征抽取结果信息统一,有利于对特征抽取结果进行使用以及维护。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是根据本申请一个实施例的电子设备的框图。
如图7所示,该电子设备该电子设备包括:
存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机指令。
处理器702执行指令时实现上述实施例中提供的特征抽取方法。
进一步地,电子设备还包括:
通信接口703,用于存储器701和处理器702之间的通信。
存储器701,用于存放可在处理器702上运行的计算机指令。
存储器701可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器702,用于执行程序时实现上述实施例的特征抽取方法。
如果存储器701、处理器702和通信接口703独立实现,则通信接口703、存储器701和处理器702可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器701、处理器702及通信接口703,集成在一块芯片上实现,则存储器701、处理器702及通信接口703可以通过内部接口完成相互间的通信。
处理器702可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时实现本申请实施例的特征抽取方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种特征抽取方法,其特征在于,包括:
获取待处理数据;
获取为所述待处理数据预先设置的实体类型;
获取与所述实体类型对应的特征模板,其中,所述特征模板包括特征要素;
获取与所述实体类型对应的特征要素分析模型;
将所述待处理数据输入到所述特征要素分析模型中,以得到所述待处理数据的要素分析结果;
从所述要素分析结果中,确定出所述特征要素对应的要素内容;
根据所述特征要素以及对应的要素内容,确定所述待处理数据的特征抽取结果;
所述特征要素分析模型中包括语义表示层以及要素分类层,所述将所述待处理数据输入到所述特征要素分析模型中,以得到所述待处理数据的要素分析结果,包括:
将所述待处理数据切分为多个数据单元;
通过所述语义表示层对所述多个数据单元进行语义分析,以得到所述待处理数据中各个数据的语义表示特征;
将各个数据的语义表示特征输入到要素分类层,以得到各个数据的要素分类结果;
所述从所述要素分析结果中,确定出所述特征要素对应的要素内容,包括:
从各个数据的要素分类结果,获取与所述特征要素匹配的数据,并将匹配到的数据作为所述特征要素的要素内容。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待处理数据对应的业务类型;
获取与所述业务类型对应的数据存储表;
获取所述特征要素在所述业务类型下对应的字段信息;
根据所述字段信息,在所述数据存储表中存储所述要素内容。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
接收数据查询请求,其中,所述数据查询请求包括待查询的业务类型;
获取与所述待查询的业务类型对应的目标数据存储表;
在查询结果界面上显示所述目标数据存储表中的数据内容。
4.一种特征抽取装置,其特征在于,包括:
第一获取模块,用于获取待处理数据;
第二获取模块,用于获取为所述待处理数据预先设置的实体类型;
第三获取模块,用于获取与所述实体类型对应的特征模板,其中,所述特征模板包括特征要素;
第一确定模块,用于从所述待处理数据中,确定出所述特征要素对应的要素内容;
第二确定模块,用于根据所述特征要素以及对应的要素内容,确定所述待处理数据的特征抽取结果;
所述第一确定模块,包括:
获取子模块,用于获取与所述实体类型对应的特征要素分析模型;
要素分析子模块,用于将所述待处理数据输入到所述特征要素分析模型中,以得到所述待处理数据的要素分析结果;
所述特征要素分析模型中包括语义表示层以及要素分类层,所述要素分析子模块,包括:
切分单元,用于将所述待处理数据切分为多个数据单元;
语义分析单元,用于通过所述语义表示层对所述多个数据单元进行语义分析,以得到所述待处理数据中各个数据的语义表示特征;
要素分类单元,用于将各个数据的语义表示特征输入到要素分类层,以得到各个数据的要素分类结果;
确定子模块,用于从所述要素分析结果中,确定出所述特征要素对应的要素内容;
所述确定子模块,具体用于:从各个数据的要素分类结果,获取与所述特征要素匹配的数据,并将匹配到的数据作为所述特征要素的要素内容。
5.如权利要求4所述的装置,其特征在于,所述装置还包括:
第四获取模块,用于获取所述待处理数据对应的业务类型;
第五获取模块,用于获取与所述业务类型对应的数据存储表;
第六获取模块,用于获取所述特征要素在所述业务类型下对应的字段信息;
存储模块,用于根据所述字段信息,在所述数据存储表中存储所述要素内容。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收数据查询请求,其中,所述数据查询请求包括待查询的业务类型;
第七获取模块,用于获取与所述待查询的业务类型对应的目标数据存储表;
显示模块,用于在查询结果界面上显示所述目标数据存储表中的数据内容。
7.一种电子设备,包括:存储器,处理器;所述存储器中存储有计算机指令,当所述计算机指令被所述处理器执行时,实现如权利要求1-3中任一项所述的特征抽取方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的特征抽取方法。
CN202110178466.0A 2021-02-09 2021-02-09 特征抽取方法、设备和存储介质 Active CN113806526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110178466.0A CN113806526B (zh) 2021-02-09 2021-02-09 特征抽取方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110178466.0A CN113806526B (zh) 2021-02-09 2021-02-09 特征抽取方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113806526A CN113806526A (zh) 2021-12-17
CN113806526B true CN113806526B (zh) 2024-03-05

Family

ID=78892831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110178466.0A Active CN113806526B (zh) 2021-02-09 2021-02-09 特征抽取方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113806526B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781383A (zh) * 2022-05-05 2022-07-22 医渡云(北京)技术有限公司 特征数据提取方法及装置、可读存储介质、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897285A (zh) * 2015-12-17 2017-06-27 北京宸瑞国新科技有限公司 数据要素抽取分析***及数据要素抽取分析方法
CN109684392A (zh) * 2018-12-04 2019-04-26 小草数语(北京)科技有限公司 数据处理方法、装置、计算机设备及存储介质
CN110472062A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 识别命名实体的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11276010B2 (en) * 2017-03-06 2022-03-15 Wipro Limited Method and system for extracting relevant entities from a text corpus
US11074250B2 (en) * 2017-06-27 2021-07-27 OWOX Limted Technologies for implementing ontological models for natural language queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897285A (zh) * 2015-12-17 2017-06-27 北京宸瑞国新科技有限公司 数据要素抽取分析***及数据要素抽取分析方法
CN109684392A (zh) * 2018-12-04 2019-04-26 小草数语(北京)科技有限公司 数据处理方法、装置、计算机设备及存储介质
CN110472062A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 识别命名实体的方法及装置

Also Published As

Publication number Publication date
CN113806526A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN111125560A (zh) 数据可视化处理方法、装置及计算机***
CN110765750B (zh) 报表数据录入方法及终端设备
CN111126019A (zh) 基于模式定制的报表生成方法、装置和电子设备
CN110990274A (zh) 一种生成测试案例的数据处理方法、装置及***
CN116090867A (zh) 指标规则生成方法、装置、电子设备及存储介质
CN113806526B (zh) 特征抽取方法、设备和存储介质
CN110058992B (zh) 一种文案模板效果反馈方法、装置及电子设备
CN108038125B (zh) 基金***测试值的自动对比方法、装置、设备及存储介质
CN107562710B (zh) 一种图表处理装置及方法
CN112099801A (zh) 一种基于元数据驱动的Excel解析方法及***
CN110544467A (zh) 语音数据的审核方法、装置、设备及存储介质
CN114415911B (zh) 一种数据录入的方法和装置
CN108345600B (zh) 一种搜索应用的管理、数据搜索方法及其装置
CN114371762A (zh) 一种打印定制标签的方法、装置和存储介质
CN113704650A (zh) 信息展示方法、装置、***、设备及存储介质
CN108319640B (zh) 根据用户偏好进行车源展现的方法及装置
CN112508284A (zh) 展示物料预处理方法、投放方法、***、装置与设备
CN112487771A (zh) 报表生成方法、报表生成装置及终端
CN110851568A (zh) 商品信息处理方法、终端设备及计算机可读存储介质
CN113822692B (zh) 商品信息的处理方法、装置、电子设备和存储介质
CN110909112A (zh) 数据提取方法、装置、终端设备及介质
CN115357604B (zh) 一种数据查询方法和装置
CN115904380B (zh) 页面栏位创建组装方法、电子设备及计算机可读存储介质
KR102645612B1 (ko) 데이터 가치 산출 방법과 시스템
CN114840743B (zh) 一种模型推荐方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant