CN115099310A - 训练模型、对企业进行行业分类的方法和装置 - Google Patents

训练模型、对企业进行行业分类的方法和装置 Download PDF

Info

Publication number
CN115099310A
CN115099310A CN202210620380.3A CN202210620380A CN115099310A CN 115099310 A CN115099310 A CN 115099310A CN 202210620380 A CN202210620380 A CN 202210620380A CN 115099310 A CN115099310 A CN 115099310A
Authority
CN
China
Prior art keywords
industry
basic data
enterprise
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210620380.3A
Other languages
English (en)
Inventor
张端阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Blockchain Technology Shanghai Co Ltd
Original Assignee
Ant Blockchain Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ant Blockchain Technology Shanghai Co Ltd filed Critical Ant Blockchain Technology Shanghai Co Ltd
Priority to CN202210620380.3A priority Critical patent/CN115099310A/zh
Publication of CN115099310A publication Critical patent/CN115099310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种训练模型、对企业进行行业分类的方法和装置,训练行业数据提取器的方法包括:获取若干个正样本对和若干个负样本对构成的样本对集合;任一正样本对包括同一企业的不同类型的两项基础数据;任一负样本对包括不同企业的两项基础数据;将正样本对和负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;通过最小化总表征损失,训练行业数据提取器;总表征损失基于样本对集合中各个样本对的相似度计算得到。依赖于该行业数据提取器对基础数据的特征表示,能够高效、准确地确定企业的行业类别。

Description

训练模型、对企业进行行业分类的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及训练行业数据提取器、训练行业分类模型及对企业进行行业分类的方法和装置。
背景技术
基于业务需求,常常需要对企业所归属的行业进行精准的分类。行业指的是从事相同性质的经济活动的所有单位的集合。企业工商登记信息中的行业分类是公司在工商税务总局登记之初设定的,人为误差比较大,且与企业真实的行业分类存在较大差异,所以需要再对企业的行业进行准确的分类。
现有技术中,主要使用的仍然是传统的方法,采用人工统计分析对企业的行业进行分类,需要消耗大量的人力物力,工作量繁重,工作效率低。另外,现有技术中对企业的行业进行分类时,分类结果准确性较低。
发明内容
本说明书一个或多个实施例描述了一种训练行业数据提取器、训练行业分类模型及对企业进行行业分类的方法和装置,能够高效、准确地确定企业的行业类别。
第一方面,提供了一种训练行业数据提取器的方法,方法包括:
获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;
将所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;
根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;
通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述样本对集合中各个样本对的相似度计算得到。
在一种可能的实施方式中,所述获取若干个正样本对和若干个负样本对构成的样本对集合,包括:
获取预设数目个企业的基础数据;
将所述预设数目个企业中的任一企业作为第一企业,其他企业作为第二企业,根据所述第一企业的不同类型的两项基础数据构造所述正样本对,根据所述第一企业的一项基础数据和所述第二企业的一项基础数据构造所述负样本对。
在一种可能的实施方式中,所述基础数据的类型包括:
企业名称、经营范围数据、招聘数据、专利数据。
在一种可能的实施方式中,所述根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度,包括:
根据各项基础数据分别对应的特征向量,以余弦相似度作为相似度函数,计算正样本对的相似度和负样本对的相似度。
在一种可能的实施方式中,所述总表征损失与所述样本对集合中各个样本对的相似度之和负相关,与所述样本对集合中各个正样本对的相似度之和正相关。
第二方面,提供了一种训练行业分类模型的方法,方法包括:
获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;
将任一训练样本包括的所述多项不同类型的基础数据逐项输入第一方面所述的方法训练后的行业数据提取器,得到多个特征向量;
将所述多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;
根据所述行业类别标签和所述预测类别,计算该训练样本的预测损失;
通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述训练样本集合中各个训练样本的预测损失计算得到。
第三方面,提供了一种对企业进行行业分类的方法,方法包括:
获取目标企业的多项不同类型的基础数据;
将所述多项不同类型的基础数据逐项输入第一方面所述的方法训练后的行业数据提取器,得到多个特征向量;
将所述多个特征向量输入第二方面所述的方法训练后的行业分类模型,得到所述目标企业对应的预测行业类别。
在一种可能的实施方式中,所述方法还包括:
在针对所述目标企业进行的企业征信服务中,采集所述预测行业类别的行业发展数据,以对所述目标企业的信用状况进行评估。
第四方面,提供了一种训练行业数据提取器的装置,装置包括:
获取单元,用于获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;
特征提取单元,用于将所述获取单元获取的所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;
相似度计算单元,用于根据所述特征提取单元得到的各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;
训练单元,用于通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述相似度计算单元得到的样本对集合中各个样本对的相似度计算得到。
第五方面,提供了一种训练行业分类模型的装置,装置包括:
获取单元,用于获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;
特征提取单元,用于将所述获取单元获取的任一训练样本包括的所述多项不同类型的基础数据逐项输入第四方面所述的装置训练后的行业数据提取器,得到多个特征向量;
预测单元,用于将所述特征提取单元得到的多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;
损失计算单元,用于根据所述获取单元获取的行业类别标签和所述预测单元得到的预测类别,计算该训练样本的预测损失;
训练单元,用于通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述损失计算单元得到的训练样本集合中各个训练样本的预测损失计算得到。
第六方面,提供了一种对企业进行行业分类的装置,装置包括:
获取单元,用于获取目标企业的多项不同类型的基础数据;
特征提取单元,用于将所述获取单元获取的所述多项不同类型的基础数据逐项输入第四方面所述的装置训练后的行业数据提取器,得到多个特征向量;
预测单元,用于将所述特征提取单元得到的多个特征向量输入第五方面所述的装置训练后的行业分类模型,得到所述目标企业对应的预测行业类别。
第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面、第二方面或第三方面的方法。
第八方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面、第二方面或第三方面的方法。
通过本说明书实施例提供的训练行业数据提取器的方法和装置,首先获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;然后将所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;接着根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;最后通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述样本对集合中各个样本对的相似度计算得到。由上可见,本说明书实施例,利用同一企业的不同类型的两项基础数据构造正样本对,利用不同企业的两项基础数据构造负样本对,通过将正样本对中的两项基础数据在特征空间进行对比,以及将负样本对中的两项基础数据在特征空间进行对比,来学习每项基础数据的特征表示,使得训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,从而依赖于该行业数据提取器对基础数据的特征表示,能够高效、准确地确定企业的行业类别。
通过本说明书实施例提供的训练行业分类模型的方法和装置,首先获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;然后将任一训练样本包括的所述多项不同类型的基础数据逐项输入第一方面所述的方法训练后的行业数据提取器,得到多个特征向量;接着将所述多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;再根据所述行业类别标签和所述预测类别,计算该训练样本的预测损失;最后通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述训练样本集合中各个训练样本的预测损失计算得到。由上可见,本说明书实施例,由于训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,从而依赖于该行业数据提取器对基础数据的特征表示,来训练行业分类模型,会提升行业分类模型的训练效果,能够高效、准确地确定企业的行业类别。
通过本说明书实施例提供的对企业进行行业分类的方法和装置,首先获取目标企业的多项不同类型的基础数据;然后将所述多项不同类型的基础数据逐项输入第一方面所述的方法训练后的行业数据提取器,得到多个特征向量;最后将所述多个特征向量输入第二方面所述的方法训练后的行业分类模型,得到所述目标企业对应的预测行业类别。由上可见,本说明书实施例,由于训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,并且依赖于该行业数据提取器对基础数据的特征表示,来训练行业分类模型,会提升行业分类模型的训练效果,因此在对企业进行行业分类时,先利用行业数据提取器得到基础数据的特征表示,再利用行业分类模型基于该特征表示进行分类,能够高效、准确地确定企业的行业类别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2为本说明书披露的另一个实施例的实施场景示意图;
图3示出根据一个实施例的训练行业数据提取器的方法流程图;
图4示出根据一个实施例的行业数据提取器的训练过程示意图;
图5示出根据一个实施例的训练行业分类模型的方法流程图;
图6示出根据一个实施例的对企业进行行业分类的方法流程图;
图7示出根据一个实施例的训练行业数据提取器的装置的示意性框图;
图8示出根据一个实施例的训练行业分类模型的装置的示意性框图;
图9示出根据一个实施例的对企业进行行业分类的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及对企业进行行业分类。参照图1,本说明书实施例,基于企业的基础数据,利用自然语言处理技术得到该企业的预测行业类别,其中,企业的基础数据通常为文本类型的数据,采用自然语言来表示,可以包括多项不同类型的基础数据,例如,企业名称、经营范围数据、招聘数据、专利数据等。
自然语言处理(natural language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
针对企业的各项基础数据之间的不自洽性和低质量性,如企业的经营范围数据中存在大量人为误填写的情况,以及企业的招聘数据中存在很多与行业分类无关的语句,本说明书实施例,通过基于对比学习、深度学习的方法来训练行业数据提取器,使得行业数据提取器输出的特征向量更能够反映与行业分类相关的关键数据,以提高后续基于该特征向量进行分类的行业分类模型的准确度。
对比学习:指一种无监督的图像或文本的表示学习方法,着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。
深度学习(deep learning):是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。
图2为本说明书披露的另一个实施例的实施场景示意图。该实施场景涉及对企业进行行业分类时所基于的企业的多项基础数据。参照图2,一家企业的多项基础数据包括企业名称、经营范围数据、招聘数据、专利数据,其中添加有下划线的部分是这些企业基础数据中与行业相关的词汇,也就是企业基础数据中的有效特征,比如企业名称中的烤烟烘烤,经营范围数据中的烤烟烘烤和烤烟规范化育苗,专利数据中的香烟生产,招聘数据中的香烟调烟师;而未添加有下划线的部分则是企业基础数据中无效和错误的特征,比如企业名称中的有限公司属于无效特征,经营范围数据中的水果和蔬菜属于错误特征,这些无效和错误的特征会严重损害行业分类的准确度。本说明书实施例,通过训练后的行业数据提取器,可以提取企业基础数据中的有效特征,从而提高后续分类的准确性。
图3示出根据一个实施例的训练行业数据提取器的方法流程图,该方法可以基于图1和图2所示的实施场景。如图3所示,该实施例中训练行业数据提取器的方法包括以下步骤:步骤31,获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;步骤32,将所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;步骤33,根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;步骤34,通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述样本对集合中各个样本对的相似度计算得到。下面描述以上各个步骤的具体执行方式。
首先在步骤31,获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据。可以理解的是,正样本对中的两项基础数据被认为相似度较高,负样本对中的两项基础数据被认为相似度较低。
其中,正样本对包括同一企业的不同类型的两项基础数据,例如,企业A的经营范围数据与企业A的招聘数据可以构成一个正样本对,企业A的企业名称与企业A的招聘数据也可以构成一个正样本对;负样本对包括不同企业的两项基础数据,这两项基础数据可以是同一类型的,也可以是不同类型的,例如,企业A的专利数据与企业B的专利数据可以构成一个负样本对,企业A的专利数据与企业B的招聘数据也可以构成一个负样本对。
在一个示例中,所述获取若干个正样本对和若干个负样本对构成的样本对集合,包括:
获取预设数目个企业的基础数据;
将所述预设数目个企业中的任一企业作为第一企业,其他企业作为第二企业,根据所述第一企业的不同类型的两项基础数据构造所述正样本对,根据所述第一企业的一项基础数据和所述第二企业的一项基础数据构造所述负样本对。
该示例中,每个企业都具有若干项不同类型的基础数据,通过组合同一企业的两项基础数据可以构造正样本对,通过组合不同企业的两项基础数据可以构造负样本对,这种方式容易构造出数量众多的正样本对和负样本对。
在一个示例中,所述基础数据的类型包括:
企业名称、经营范围数据、招聘数据、专利数据。
本说明书实施例,采用了多种类型的基础数据,便于剔除数据本身的噪声。基础数据的类型可以但不限于包括以上列举的若干类型,例如,还可以包括企业自己填写的行业分类数据,或者,还可以包括企业的招投标数据等。
然后在步骤32,将所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量。可以理解的是,行业数据提取器也可以称为编码器,将一项基础数据输入行业数据提取器,可以得到该项基础数据对应的特征向量。
本说明书实施例,通过训练行业数据提取器,可以使得特征向量能够代表基础数据中的与行业分类相关的关键数据,剔除基础数据中的噪声。
接着在步骤33,根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度。可以理解的是,正样本对中包括两项基础数据,根据这两项基础数据分别对应的特征向量,可以计算出该正样本对的相似度,也就是说,计算出正样本对所包含的两项基础数据之间的相似度。负样本对中包括两项基础数据,根据这两项基础数据分别对应的特征向量,可以计算出该负样本对的相似度,也就是说,计算出负样本对所包含的两项基础数据之间的相似度。
在一个示例中,所述根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度,包括:
根据各项基础数据分别对应的特征向量,以余弦相似度作为相似度函数,计算正样本对的相似度和负样本对的相似度。
举例来说,一个企业的一项基础数据为x,该企业的另一项基础数据为x+,这两项基础数据构成的正样本对可以表示为(x,x+),其中,x的特征向量表示为f(x),x+的特征向量表示为f(x+),该正样本对的相似度可以表示为score(f(x),f(x+))=f(x)Tf(x+)。一个企业的一项基础数据为x,另一个企业的一项基础数据为x-,这两项基础数据构成的负样本对可以表示为(x,x-),其中,x的特征向量表示为f(x),x-的特征向量表示为f(x-),该负样本对的相似度可以表示为score(f(x),f(x-))=f(x)Tf(x-)。
最后在步骤34,通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述样本对集合中各个样本对的相似度计算得到。可以理解的是,所述样本对集合中既包括正样本对又包括负样本对,因此所述总表征损失既与正样本对的相似度有关,又与负样本对的相似度有关。
在一个示例中,所述总表征损失与所述样本对集合中各个样本对的相似度之和负相关,与所述样本对集合中各个正样本对的相似度之和正相关。
本说明书实施例,采用对比学习的方式训练所述行业数据提取器,所述总表征损失又称为对比损失。对比学习是通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示。其中,可以用x来表示一项基础数据,x+表示x的正例样本,x与x+构成一个正样本对;x-表示x的负例样本,x与x-构成一个负样本对。
图4示出根据一个实施例的行业数据提取器的训练过程示意图。参照图4,行业数据提取器也可以称为编码器,训练阶段利用来自相同企业、不同类型的基础数据构成正样本对,不同企业、不同或相同类型的基础数据构成负样本对。例如,x为企业A的企业名称,该企业名称具体为“河北安丰钢铁有限公司”;一个x+为企业A的经营范围数据,该经营范围数据具体为“带钢、连铸坯、热轧卷板…”;另一个x+为企业A的专利数据,该专利数据具体为“专利号A63B23/035”;x-为企业B的招聘数据,该招聘数据具体为“公司诚聘…五险一金…主要业务是国内互联网科技的…”。本说明书实施例,以正样本对的相似度大于负样本对的相似度为训练方向,若以余弦相似度作为相似度函数,则对比损失的值可以表示为:
Figure BDA0003676386030000091
其中,N代表获取N个企业的基础数据,利用N个企业的基础数据构造正负样本对,从而对行业数据提取器进行训练。使用梯度下降的方式优化编码器的参数即可获得体现行业关键词的行业数据提取器。
通过本说明书实施例提供的训练行业数据提取器的方法,首先获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;然后将所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;接着根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;最后通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述样本对集合中各个样本对的相似度计算得到。由上可见,本说明书实施例,利用同一企业的不同类型的两项基础数据构造正样本对,利用不同企业的两项基础数据构造负样本对,通过将正样本对中的两项基础数据在特征空间进行对比,以及将负样本对中的两项基础数据在特征空间进行对比,来学习每项基础数据的特征表示,使得训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,从而依赖于该行业数据提取器对基础数据的特征表示,能够高效、准确地确定企业的行业类别。
图5示出根据一个实施例的训练行业分类模型的方法流程图,该方法可以基于图1和图2所示的实施场景。如图5所示,该实施例中训练行业分类模型的方法包括以下步骤:步骤51,获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;步骤52,将任一训练样本包括的所述多项不同类型的基础数据逐项输入图3所示的方法训练后的行业数据提取器,得到多个特征向量;步骤53,将所述多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;步骤54,根据所述行业类别标签和所述预测类别,计算该训练样本的预测损失;步骤55,通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述训练样本集合中各个训练样本的预测损失计算得到。下面描述以上各个步骤的具体执行方式。
首先在步骤51,获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签。可以理解的是,上述行业类别标签可以但不限于通过人工标记的方式得到。
其中,基础数据的类型可以但不限于包括如下任意一种:企业名称、经营范围数据、招聘数据、专利数据。
本说明书实施例,上述行业类别标签可以依据国标行业分类得到。
国标行业分类:指国民经济行业分类体系,由国家质检总局、国家标准委发布,用于在统计、计划、财政、税收、工商等国家宏观管理中,对经济活动的分类,并用于信息处理和信息交换。
然后在步骤52,将任一训练样本包括的所述多项不同类型的基础数据逐项输入图3所示的方法训练后的行业数据提取器,得到多个特征向量。可以理解的是,上述特征向量更能够体现行业关键词,剔除企业基础数据中的无效和错误的特征。
接着在步骤53,将所述多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别。可以理解的是,行业分类模型可以输出一个或多个预测类别,当有多个预测类别时,还可以给出各个预测类别分别对应的概率。
由于训练后的行业数据提取器剔除了与行业分类无关的文本数据,因此将行业数据提取器的输出作为行业分类模型的输入,可以有效降低行业分类模型的训练成本。
再在步骤54,根据所述行业类别标签和所述预测类别,计算该训练样本的预测损失。可以理解的是,当只有一个预测类别时,如果该预测类别与行业类别标签相同,则该训练样本的预测损失为0;当有多个预测类别时,可以结合各个预测类别分别对应的概率和行业类别标签,计算该训练样本的预测损失。
最后在步骤55,通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述训练样本集合中各个训练样本的预测损失计算得到。可以理解的是,通常地,总预测损失与各个训练样本的预测损失之和相关。
本说明书实施例,训练所述行业分类模型属于有监督学习。有监督学习(supervised learning)是机器学习的一种方法,指给定事先标记过的训练示例,对输入的数据进行分类或拟合。
通过本说明书实施例提供的训练行业分类模型的方法,首先获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;然后将任一训练样本包括的所述多项不同类型的基础数据逐项输入图3所示的方法训练后的行业数据提取器,得到多个特征向量;接着将所述多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;再根据所述行业类别标签和所述预测类别,计算该训练样本的预测损失;最后通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述训练样本集合中各个训练样本的预测损失计算得到。由上可见,本说明书实施例,由于训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,从而依赖于该行业数据提取器对基础数据的特征表示,来训练行业分类模型,会提升行业分类模型的训练效果,能够高效、准确地确定企业的行业类别。
图6示出根据一个实施例的对企业进行行业分类的方法流程图,该方法可以基于图1和图2所示的实施场景。如图6所示,该实施例中对企业进行行业分类的方法包括以下步骤:步骤61,获取目标企业的多项不同类型的基础数据;步骤62,将所述多项不同类型的基础数据逐项输入图3所示的方法训练后的行业数据提取器,得到多个特征向量;步骤63,将所述多个特征向量输入图5所示的方法训练后的行业分类模型,得到所述目标企业对应的预测行业类别。下面描述以上各个步骤的具体执行方式。
首先在步骤61,获取目标企业的多项不同类型的基础数据。可以理解的是,不同类型的基础数据可以实现信息互补,有利于提升预测行业类别的准确度。
其中,基础数据的类型可以但不限于包括如下任意一种:企业名称、经营范围数据、招聘数据、专利数据。
然后在步骤62,将所述多项不同类型的基础数据逐项输入图3所示的方法训练后的行业数据提取器,得到多个特征向量。可以理解的是,上述特征向量更能够体现行业关键词,剔除企业基础数据中的无效和错误的特征。
最后在步骤63,将所述多个特征向量输入图5所示的方法训练后的行业分类模型,得到所述目标企业对应的预测行业类别。可以理解的是,基于前述训练后的行业数据提取器和行业分类模型,得到的该预测行业类别具有较高的准确度。
在很多业务场景中,都会涉及预测一个企业的行业类别,比如,企业风控场景中对目标企业的企业征信服务中,常常要确定该目标企业的行业类别。
企业征信:是指征信机构作为提供信用信息服务的企业,按一定规则合法采集企业、个人的信用信息,加工整理形成企业、个人的信用报告等征信产品,有偿提供给经济活动中的贷款方、赊销方、招标方、出租方、保险方等有合法需求的信息使用者,为其了解交易对方的信用状况提供便利。
在一个示例中,所述方法还包括:
在针对所述目标企业进行的企业征信服务中,采集所述预测行业类别的行业发展数据,以对所述目标企业的信用状况进行评估。
通过本说明书实施例提供的对企业进行行业分类的方法,首先获取目标企业的多项不同类型的基础数据;然后将所述多项不同类型的基础数据逐项输入图3所示的方法训练后的行业数据提取器,得到多个特征向量;最后将所述多个特征向量输入图5所示的方法训练后的行业分类模型,得到所述目标企业对应的预测行业类别。由上可见,本说明书实施例,由于训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,并且依赖于该行业数据提取器对基础数据的特征表示,来训练行业分类模型,会提升行业分类模型的训练效果,因此在对企业进行行业分类时,先利用行业数据提取器得到基础数据的特征表示,再利用行业分类模型基于该特征表示进行分类,能够高效、准确地确定企业的行业类别。
根据另一方面的实施例,还提供一种训练行业数据提取器的装置,该装置用于执行本说明书实施例提供的图3所示的方法。图7示出根据一个实施例的训练行业数据提取器的装置的示意性框图。如图7所示,该装置700包括:
获取单元71,用于获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;
特征提取单元72,用于将所述获取单元71获取的所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;
相似度计算单元73,用于根据所述特征提取单元72得到的各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;
训练单元74,用于通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述相似度计算单元73得到的样本对集合中各个样本对的相似度计算得到。
可选地,作为一个实施例,所述获取单元71包括:
获取子单元,用于获取预设数目个企业的基础数据;
构造子单元,用于将所述预设数目个企业中的任一企业作为第一企业,其他企业作为第二企业,根据所述获取子单元获取的所述第一企业的不同类型的两项基础数据构造所述正样本对,根据所述获取子单元获取的所述第一企业的一项基础数据和所述第二企业的一项基础数据构造所述负样本对。
可选地,作为一个实施例,所述基础数据的类型包括:
企业名称、经营范围数据、招聘数据、专利数据。
可选地,作为一个实施例,所述相似度计算单元73,具体用于根据各项基础数据分别对应的特征向量,以余弦相似度作为相似度函数,计算正样本对的第一相似度和负样本对的第二相似度。
可选地,作为一个实施例,所述总表征损失与所述样本对集合中各个样本对的相似度之和负相关,与所述样本对集合中各个正样本对的相似度之和正相关。
通过本说明书实施例提供的训练行业数据提取器的装置,首先获取单元71获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;然后特征提取单元72将所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;接着相似度计算单元73根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;最后训练单元74通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述样本对集合中各个样本对的相似度计算得到。由上可见,本说明书实施例,利用同一企业的不同类型的两项基础数据构造正样本对,利用不同企业的两项基础数据构造负样本对,通过将正样本对中的两项基础数据在特征空间进行对比,以及将负样本对中的两项基础数据在特征空间进行对比,来学习每项基础数据的特征表示,使得训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,从而依赖于该行业数据提取器对基础数据的特征表示,能够高效、准确地确定企业的行业类别。
根据另一方面的实施例,还提供一种训练行业分类模型的装置,该装置用于执行本说明书实施例提供的图5所示的方法。图8示出根据一个实施例的训练行业分类模型的装置的示意性框图。如图8所示,该装置800包括:
获取单元81,用于获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;
特征提取单元82,用于将所述获取单元81获取的任一训练样本包括的所述多项不同类型的基础数据逐项输入图7所示的装置训练后的行业数据提取器,得到多个特征向量;
预测单元83,用于将所述特征提取单元82得到的多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;
损失计算单元84,用于根据所述获取单元81获取的行业类别标签和所述预测单元83得到的预测类别,计算该训练样本的预测损失;
训练单元85,用于通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述损失计算单元84得到的训练样本集合中各个训练样本的预测损失计算得到。
通过本说明书实施例提供的训练行业分类模型的装置,首先获取单元81获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;然后特征提取单元82将任一训练样本包括的所述多项不同类型的基础数据逐项输入图7所示的装置训练后的行业数据提取器,得到多个特征向量;接着预测单元83将所述多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;再由损失计算单元84根据所述行业类别标签和所述预测类别,计算该训练样本的预测损失;最后训练单元85通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述训练样本集合中各个训练样本的预测损失计算得到。由上可见,本说明书实施例,由于训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,从而依赖于该行业数据提取器对基础数据的特征表示,来训练行业分类模型,会提升行业分类模型的训练效果,能够高效、准确地确定企业的行业类别。
根据另一方面的实施例,还提供一种对企业进行行业分类的装置,该装置用于执行本说明书实施例提供的图6所示的方法。图9示出根据一个实施例的对企业进行行业分类的装置的示意性框图。如图9所示,该装置900包括:
获取单元91,用于获取目标企业的多项不同类型的基础数据;
特征提取单元92,用于将所述获取单元91获取的所述多项不同类型的基础数据逐项输入图7所示的装置训练后的行业数据提取器,得到多个特征向量;
预测单元93,用于将所述特征提取单元92得到的多个特征向量输入图8所示的装置训练后的行业分类模型,得到所述目标企业对应的预测行业类别。
可选地,作为一个实施例,所述装置还包括:
采集单元,用于在针对所述目标企业进行的企业征信服务中,采集所述预测单元得到的预测行业类别的行业发展数据,以对所述目标企业的信用状况进行评估。
通过本说明书实施例提供的对企业进行行业分类的装置,首先获取单元91获取目标企业的多项不同类型的基础数据;然后特征提取单元92将所述多项不同类型的基础数据逐项输入图7所示的装置训练后的行业数据提取器,得到多个特征向量;最后预测单元93将所述多个特征向量输入图8所示的装置训练后的行业分类模型,得到所述目标企业对应的预测行业类别。由上可见,本说明书实施例,由于训练后的行业数据提取器能够挖掘出同类企业基础数据之间的共性,剔除企业基础数据中的无效和错误的特征,并且依赖于该行业数据提取器对基础数据的特征表示,来训练行业分类模型,会提升行业分类模型的训练效果,因此在对企业进行行业分类时,先利用行业数据提取器得到基础数据的特征表示,再利用行业分类模型基于该特征表示进行分类,能够高效、准确地确定企业的行业类别。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3、图5或图6所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3、图5或图6所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种训练行业数据提取器的方法,所述方法包括:
获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;
将所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;
根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;
通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述样本对集合中各个样本对的相似度计算得到。
2.如权利要求1所述的方法,其中,所述获取若干个正样本对和若干个负样本对构成的样本对集合,包括:
获取预设数目个企业的基础数据;
将所述预设数目个企业中的任一企业作为第一企业,其他企业作为第二企业,根据所述第一企业的不同类型的两项基础数据构造所述正样本对,根据所述第一企业的一项基础数据和所述第二企业的一项基础数据构造所述负样本对。
3.如权利要求1所述的方法,其中,所述基础数据的类型包括:
企业名称、经营范围数据、招聘数据、专利数据。
4.如权利要求1所述的方法,其中,所述根据各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度,包括:
根据各项基础数据分别对应的特征向量,以余弦相似度作为相似度函数,计算正样本对的相似度和负样本对的相似度。
5.如权利要求1所述的方法,其中,所述总表征损失与所述样本对集合中各个样本对的相似度之和负相关,与所述样本对集合中各个正样本对的相似度之和正相关。
6.一种训练行业分类模型的方法,所述方法包括:
获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;
将任一训练样本包括的所述多项不同类型的基础数据逐项输入权利要求1所述的方法训练后的行业数据提取器,得到多个特征向量;
将所述多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;
根据所述行业类别标签和所述预测类别,计算该训练样本的预测损失;
通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述训练样本集合中各个训练样本的预测损失计算得到。
7.一种对企业进行行业分类的方法,所述方法包括:
获取目标企业的多项不同类型的基础数据;
将所述多项不同类型的基础数据逐项输入权利要求1所述的方法训练后的行业数据提取器,得到多个特征向量;
将所述多个特征向量输入权利要求6所述的方法训练后的行业分类模型,得到所述目标企业对应的预测行业类别。
8.如权利要求7所述的方法,其中,所述方法还包括:
在针对所述目标企业进行的企业征信服务中,采集所述预测行业类别的行业发展数据,以对所述目标企业的信用状况进行评估。
9.一种训练行业数据提取器的装置,所述装置包括:
获取单元,用于获取若干个正样本对和若干个负样本对构成的样本对集合;其中,任一所述正样本对包括同一企业的不同类型的两项基础数据;任一所述负样本对包括不同企业的两项基础数据;
特征提取单元,用于将所述获取单元获取的所述正样本对和所述负样本对包括的各项基础数据分别输入待训练的行业数据提取器,得到各项基础数据分别对应的特征向量;
相似度计算单元,用于根据所述特征提取单元得到的各项基础数据分别对应的特征向量,计算正样本对的相似度和负样本对的相似度;
训练单元,用于通过最小化总表征损失,训练所述行业数据提取器;所述总表征损失基于所述相似度计算单元得到的样本对集合中各个样本对的相似度计算得到。
10.如权利要求9所述的装置,其中,所述获取单元包括:
获取子单元,用于获取预设数目个企业的基础数据;
构造子单元,用于将所述预设数目个企业中的任一企业作为第一企业,其他企业作为第二企业,根据所述获取子单元获取的所述第一企业的不同类型的两项基础数据构造所述正样本对,根据所述获取子单元获取的所述第一企业的一项基础数据和所述第二企业的一项基础数据构造所述负样本对。
11.如权利要求9所述的装置,其中,所述基础数据的类型包括:
企业名称、经营范围数据、招聘数据、专利数据。
12.如权利要求9所述的装置,其中,所述相似度计算单元,具体用于根据各项基础数据分别对应的特征向量,以余弦相似度作为相似度函数,计算正样本对的第一相似度和负样本对的第二相似度。
13.如权利要求9所述的装置,其中,所述总表征损失与所述样本对集合中各个样本对的相似度之和负相关,与所述样本对集合中各个正样本对的相似度之和正相关。
14.一种训练行业分类模型的装置,所述装置包括:
获取单元,用于获取训练样本集合,所述训练样本集合中的任一训练样本包括样本企业的多项不同类型的基础数据和行业类别标签;
特征提取单元,用于将所述获取单元获取的任一训练样本包括的所述多项不同类型的基础数据逐项输入权利要求9所述的装置训练后的行业数据提取器,得到多个特征向量;
预测单元,用于将所述特征提取单元得到的多个特征向量输入待训练的行业分类模型,得到相应样本企业对应的预测类别;
损失计算单元,用于根据所述获取单元获取的行业类别标签和所述预测单元得到的预测类别,计算该训练样本的预测损失;
训练单元,用于通过最小化总预测损失,训练所述行业分类模型;所述总预测损失基于所述损失计算单元得到的训练样本集合中各个训练样本的预测损失计算得到。
15.一种对企业进行行业分类的装置,所述装置包括:
获取单元,用于获取目标企业的多项不同类型的基础数据;
特征提取单元,用于将所述获取单元获取的所述多项不同类型的基础数据逐项输入权利要求9所述的装置训练后的行业数据提取器,得到多个特征向量;
预测单元,用于将所述特征提取单元得到的多个特征向量输入权利要求14所述的装置训练后的行业分类模型,得到所述目标企业对应的预测行业类别。
16.如权利要求15所述的装置,其中,所述装置还包括:
采集单元,用于在针对所述目标企业进行的企业征信服务中,采集所述预测单元得到的预测行业类别的行业发展数据,以对所述目标企业的信用状况进行评估。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
CN202210620380.3A 2022-06-02 2022-06-02 训练模型、对企业进行行业分类的方法和装置 Pending CN115099310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210620380.3A CN115099310A (zh) 2022-06-02 2022-06-02 训练模型、对企业进行行业分类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210620380.3A CN115099310A (zh) 2022-06-02 2022-06-02 训练模型、对企业进行行业分类的方法和装置

Publications (1)

Publication Number Publication Date
CN115099310A true CN115099310A (zh) 2022-09-23

Family

ID=83288773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210620380.3A Pending CN115099310A (zh) 2022-06-02 2022-06-02 训练模型、对企业进行行业分类的方法和装置

Country Status (1)

Country Link
CN (1) CN115099310A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361726A (zh) * 2023-04-03 2023-06-30 全拓科技(杭州)股份有限公司 一种基于多维大数据分析的数据处理方法
CN116884077A (zh) * 2023-09-04 2023-10-13 上海任意门科技有限公司 一种人脸图像类别确定方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361726A (zh) * 2023-04-03 2023-06-30 全拓科技(杭州)股份有限公司 一种基于多维大数据分析的数据处理方法
CN116361726B (zh) * 2023-04-03 2024-03-29 全拓科技(杭州)股份有限公司 一种基于多维大数据分析的数据处理方法
CN116884077A (zh) * 2023-09-04 2023-10-13 上海任意门科技有限公司 一种人脸图像类别确定方法、装置、电子设备及存储介质
CN116884077B (zh) * 2023-09-04 2023-12-08 上海任意门科技有限公司 一种人脸图像类别确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106095942B (zh) 强变量提取方法及装置
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN106445988A (zh) 一种大数据的智能处理方法和***
CN111738589B (zh) 基于内容推荐的大数据项目工作量评估方法、装置及设备
CN111738532B (zh) 一种事件对对象影响度的获取方法和***
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN107239564B (zh) 一种基于监督主题模型的文本标签推荐方法
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
CN112836509A (zh) 一种专家***知识库构建方法及***
CN113283795B (zh) 基于二分类模型的数据处理方法及装置、介质、设备
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN110956278A (zh) 重新训练机器学习模型的方法和***
CN114491034B (zh) 一种文本分类方法及智能设备
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN111930944B (zh) 文件标签分类方法及装置
CN116561432B (zh) 智能员工内容数据推荐***
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识***
CN117114705A (zh) 一种基于持续学习的电商欺诈识别方法与***
CN115345710A (zh) 一种电商商务大数据决策分析与数据处理方法
CN109754000A (zh) 一种基于依赖度的半监督多标签分类方法
CN115146912A (zh) 企业专利集与业务相关性测量方法和***
CN113627997A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination