CN108733778A - 对象的行业类型识别方法和装置 - Google Patents

对象的行业类型识别方法和装置 Download PDF

Info

Publication number
CN108733778A
CN108733778A CN201810420223.1A CN201810420223A CN108733778A CN 108733778 A CN108733778 A CN 108733778A CN 201810420223 A CN201810420223 A CN 201810420223A CN 108733778 A CN108733778 A CN 108733778A
Authority
CN
China
Prior art keywords
identified
industry type
vector space
training sample
industry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810420223.1A
Other languages
English (en)
Other versions
CN108733778B (zh
Inventor
赵辉
崔燕
岳爱珍
谭静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810420223.1A priority Critical patent/CN108733778B/zh
Publication of CN108733778A publication Critical patent/CN108733778A/zh
Application granted granted Critical
Publication of CN108733778B publication Critical patent/CN108733778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种对象的行业类型识别方法和装置,其中,方法包括:将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到待识别对象的与行业类型相关的向量空间;根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象,获取训练样本对象的标注数据;利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;针对除训练样本对象之外的每个第二待识别对象,将第二待识别对象的向量空间,输入到目标行业类型识别模型中进行学习,得到第二待识别对象所隶属的行业类型。该方法能够提升行业类型识别模型的识别结果的准确率。

Description

对象的行业类型识别方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种对象的行业类型识别方法和装置。
背景技术
随着互联网技术的不断发展以及终端设备的普及,用户和企业在各个维度上的信息数据越来越多,而技术的不断进步使得对这些信息数据的计算成为了可能,对用户和企业的分析和画像及在此技术上的营销、推荐等越来越个性化及细粒度化。在这种越来越面向个性化及细粒度化的应用场景中,行业信息是其中至关重要的环节,用户的行业兴趣等是这些个性化数据中的基础,而对企业进行行业类型的分类,可以辅助各大网络平台进行潜在客户的挖掘。
现有技术中,通过从网络日志、浏览信息等文本信息中提取关键词,通过从标注有行业标签的文本信息中挖掘行业词集,对于待分类的企业的文本信息,判断其是否包含行业词集中的行业词,作为文本信息的行业特征,基于朴素贝叶斯、逻辑回归(logisticregression)、梯度提升决策树(Gradient Boosting Decision Tree,简称GBDT)等算法,构建行业类型识别模型。其中,采用贝叶斯方法从标注有行业标签的企业的文本信息中筛选出跟行业相关的高后验概率词,经过人工筛选后,产生行业词集。
这种方式下,行业类型识别模型的识别结果受限于从有行业标签的文本信息中所挖掘整理得到的行业词集对所有行业词的覆盖程度,如果待分类的企业的文本信息中包含较少甚至出现行业词集中未包含的行业词时,则行业类型识别模型的识别结果的准确率较低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种对象的行业类型识别方法,以实现提升行业类型识别模型的识别结果的准确率,避免现有技术中行业类型识别模型的召回率被训练数据的规模所限制的情况。
本发明的第二个目的在于提出一种对象的行业类型识别装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种对象的行业类型识别方法,包括:
将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到所述待识别对象的与行业类型相关的向量空间;
根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象;
获取所述训练样本对象的标注数据,其中,所述标注数据用于指示出所述训练样本对象所隶属的行业类型;
利用所述训练样本对象的所述向量空间和所述标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;
针对除所述训练样本对象之外的每个第二待识别对象,将所述第二待识别的对象的向量空间,输入到所述目标行业类型识别模型中进行学习,得到所述第二待识别对象所隶属的行业类型。
本发明实施例的对象的行业类型识别方法,由于语言模型可以从所有的待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,因此基于有限的训练样本的目标行业类型识别模型,仍然能够识别出第二待识别对象所隶属的行业类型,从而可以避免现有技术中行业类型识别模型只能对包含已有行业词集中行业词的文本信息进行分类,当第二待识别对象的文本信息中出现未在行业词集中的行业词时,则无法被行业类型识别模型识别出的情况,即避免现有技术中行业类型识别模型的召回率被训练数据的规模所限制的情况。
为达上述目的,本发明第二方面实施例提出了一种对象的行业类型识别装置,包括:
第一输入模块,用于将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到所述待识别对象的与行业类型相关的向量空间;
选取模块,用于根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象;
获取模块,用于获取所述训练样本对象的标注数据,其中,所述标注数据用于指示出所述训练样本对象所隶属的行业类型;
训练模块,用于利用所述训练样本对象的所述向量空间和所述标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;;
第二输入模块,用于针对除所述训练样本对象之外的每个第二待识别对象,将所述第二待识别的对象的向量空间,输入到所述目标行业类型识别模型中进行学习,得到所述第二待识别对象所隶属的行业类型。
本发明实施例的对象的行业类型识别装置,由于语言模型可以从所有的待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,因此基于有限的训练样本的目标行业类型识别模型,仍然能够识别出第二待识别对象所隶属的行业类型,从而可以避免现有技术中行业类型识别模型只能对包含已有行业词集中行业词的文本信息进行分类,当第二待识别对象的文本信息中出现未在行业词集中的行业词时,则无法被行业类型识别模型识别出的情况,即避免现有技术中行业类型识别模型的召回率被训练数据的规模所限制的情况。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如本发明第一方面实施例所述的对象的行业类型识别方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明第一方面实施例所述的对象的行业类型识别方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如本发明第一方面实施例所述的对象的行业类型识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一所提供的对象的行业类型识别方法的流程示意图;
图2为本发明实施例二所提供的对象的行业类型识别方法的流程示意图;
图3为本发明实施例三所提供的对象的行业类型识别方法的流程示意图;
图4为本发明实施例四所提供的应用场景示意图;
图5为本发明实施例提供的一种对象的行业类型识别装置的结构示意图;
图6为本发明实施例提供的另一种对象的行业类型识别装置的结构示意图;
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的对象的行业类型识别方法和装置。在具体描述本发明实施例之前,为了便于理解,首先对常用技术词进行介绍:
行业,是指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分,如林业,汽车业,银行业等。
图1为本发明实施例一所提供的对象的行业类型识别方法的流程示意图。
如图1所示,该对象的行业类型识别方法包括以下步骤:
步骤101,将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到待识别对象的与行业类型相关的向量空间。
本发明实施例中,待识别对象为需要进行行业类型识别的对象,待识别对象的文本信息可以包括待识别对象的名称以及待识别对象在工商局注册的行业经营范围描述字段。例如,当待识别对象为百度时,其经营范围为网络信息服务,因此,百度的文本信息可以包括:百度以及网络信息服务。
本发明实施例中,语言模型为预先训练好的,语言模型用于将文本信息生成段落向量,例如语言模型可以为无监督的文档向量(Doc2vec)模型。可选地,可以采用无监督的语言模型从所有待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,从而基于用于生成段落向量的语言模型,得到的向量空间可以包含更多更全面的行业信息。
本发明实施例中,语言模型是根据所有的待识别对象的文本信息进行训练的,通过选择跟行业相关性较大的待识别对象的文本信息,例如待识别对象的名称以及待识别对象在工商局注册的行业经营范围描述字段,训练无监督的语言模型,得到的向量空间会倾向于以行业信息为主。
步骤102,根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象。
可选地,可以从所有的待识别对象中随机选取第一待识别对象,作为训练样本对象;或者,可以按照预设顺序选取第一待识别对象,作为训练样本对象,例如,可以将所有的待识别对象进行排序,而后按照从前到后或者从后到前的顺序,选取预设个数第一待识别对象,作为训练样本对象;或者,可以按照预设算法,从所有的待识别对象中选取第一待识别对象,作为训练样本对象,对此不作限制。
其中,预设算法为预先设置的,例如预设算法可以为聚类算法,可以根据聚类算法对于所有的待识别对象进行聚簇,得到各个聚簇,而后从每个聚簇中随机的抽取第一待识别对象,作为训练样本对象。
步骤103,获取训练样本对象的标注数据,其中,标注数据用于指示出训练样本对象所隶属的行业类型。
作为一种可能的实现方式,可以通过人工标注的方式,标注训练样本对象所隶属的行业类型,例如,可以根据训练样本对象的文本信息中的行业经营范围描述字段,标注训练样本对象所隶属的行业类型。在人工标注后,可以获取训练样本对象的标注数据。
步骤104,利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型。
本发明实施例中,可以基于逻辑回归(Logistic Regression)算法构建行业类型识别模型,或者,可以基于卷积神经网络(Convolutional Neural Networks,简称CNN)和全链接层算法构建行业类型识别模型,或者,还可以基于其他算法构建行业类型识别模型,对此不作限制。
本发明实施例中,由于训练样本对象的标注数据可以指示出训练样本对象所隶属的行业类型,且训练样本对象的向量空间包含了训练样本对象的行业信息,因此,利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练后,得到的目标行业类型识别模型可以对待识别对象的向量空间进行识别,确定待识别对象所隶属的行业类型。
步骤105,针对除训练样本对象之外的每个第二待识别对象,将第二待识别的对象的向量空间,输入到目标行业类型识别模型中进行学习,得到第二待识别对象所隶属的行业类型。
本发明实施例中,第二待识别对象为待识别对象中,除训练样本对象之外的对象。
可以理解的是,针对除训练样本对象之外的每个第二待识别对象,将第二待识别对象的向量空间,输入到目标行业类型识别模型中进行学习,得到的是每个行业类型的识别概率。因此,本发明实施例中,可以选择识别概率最大值对应的行业类型,作为第二待识别对象所隶属的行业类型。
举例而言,当行业类型分为:A、B、C、D、E、F、G时,将第二待识别对象的向量空间,输入到目标行业类型识别模型中,得到的是A、B、C、D、E、F、G对应的识别概率,假设A、B、C、D、E、F、G对应的识别概率分别为:P1、P2、P3、P4、P5、P6、P7,且P3值最大时,则可以将C作为第二待识别对象所隶属的行业类型。
本发明实施例中,如果出现某个第二待识别对象的文本信息中的行业描述词未出现在训练样本对象的行业词集中时,由于步骤101中的语言模型可以从所有的待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,因此基于有限的训练样本的目标行业类型识别模型,仍然能够识别该第二待识别对象所隶属的行业类型,从而保证行业类型识别模型的识别结果的准确性。
本实施例的对象的行业类型识别方法,由于语言模型可以从所有的待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,因此基于有限的训练样本的目标行业类型识别模型,仍然能够识别出第二待识别对象所隶属的行业类型,从而可以避免现有技术中行业类型识别模型只能对包含已有行业词集中行业词的文本信息进行分类,当第二待识别对象的文本信息中出现未在行业词集中的行业词时,则无法被行业类型识别模型识别出的情况,即避免现有技术中行业类型识别模型的召回率被训练数据的规模所限制的情况。
为了清楚说明上一实施例,本实施例提供了另一种对象的行业类型识别方法,图2为本发明实施例二所提供的对象的行业类型识别方法的流程示意图。
如图2所示,该对象的行业类型识别方法可以包括以下步骤:
步骤201,将待识别对象的文本信息分别输入到基于不同算法构建的语言模型中,得到每个语言模型输出的第一向量空间。
本发明实施例中,可以预先基于不同算法构建语言模型,例如可以基于分布式词袋(Distributed Bag of Words,简称DBOW)算法和分布式内存(Distributed Memory,简称DM)算法构建语言模型,得到DBOW模型和DM模型。
可选地,在基于不同算法构建得到每个语言模型后,可以将待识别对象的文本信息分别输入到每个语言模型中进行学习,得到每个语言模型输出的第一向量空间。
步骤202,将不同语言模型输出的第一向量空间,组合成待识别对象的向量空间。
本发明实施例中,为了便于将不同语言模型输出的第一向量空间进行组合,每个语言模型输出的第一向量空间的维度相同。例如,标记每个语言模型输出的第一向量空间为n维。
可选地,标记语言模型的个数为m个,则将不同语言模型输出的第一向量空间,组合成待识别对象的向量空间后,向量空间的维数为mn维。在后续步骤中,可以利用mn维的向量空间,对行业类型识别模型进行训练,从而可以提升目标行业类型识别模型识别待识别对象所隶属的行业类型的准确率。
例如,当基于DBOW算法和DM算法构建语言模型,可以得到DBOW模型和DM模型,将待识别对象的文本信息分别输入DBOW模型和DM模型中进行学习,可以得到DBOW模型输出的第一向量空间和DM模型输出的第一向量空间。将DBOW模型输出的第一向量空间和DM模型输出的第一向量空间进行组合,得到的待识别对象的向量空间为2n维,在后续步骤中,可以利用2n维的向量空间,对行业类型识别模型进行训练,从而提升目标行业类型识别模型识别待识别对象所隶属的行业类型的准确率。
步骤203,根据待识别对象的向量空间,计算待识别对象之间的相似度,根据相似度对所有的待识别对象进行聚簇。
可以理解的是,根据待识别对象之间的距离,例如cos相似度、欧式距离等,可以判断待识别对象之间的语义相似度,进而可以将语义相似度较高的待识别对象进行聚簇,得到同一行业类型的待识别对象。因此,本发明实施例中,可以根据待识别对象的向量空间,计算待识别对象之间的相似度,而后可以将相似度超过预设阈值的待识别对象进行聚簇,可以得到语义相似的各个聚簇,即将同一行业类型的待识别对象进行聚簇。
可选地,可以从所有的待识别对象中随机选择一个对象,作为基础对象,而后从其他对象(除基础对象之外的待识别对象)中选择一个对象,根据该对象的向量空间与基础对象的向量空间,计算两者之间的相似度,若相似度高于预设阈值,则将该对象与基础对象进行聚簇处理,否则,丢弃该对象。而后从其他对象中再选择一个对象,继续计算该对象与基础对象之间的相似度,直到所有待识别对象均与基础对象完成聚簇处理,从而可以得到与基础对象同一行业类型的待识别对象。
步骤204,从每个聚簇中随机抽取第一待识别对象,作为训练样本对象。
本发明实施例中,从每个聚簇中随机抽取第一待识别对象,作为训练样本对象,从而训练样本对象可以涉及每个行业类型,保证抽取的训练样本对象具有代表性。
步骤205,获取训练样本对象的标注数据,其中,标注数据用于指示出训练样本对象所隶属的行业类型。
步骤206,利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型。
步骤207,针对除训练样本对象之外的每个第二待识别对象,将第二待识别的对象的向量空间,输入到目标行业类型识别模型中进行学习,得到第二待识别对象所隶属的行业类型。
步骤205~207的执行过程可以参见上述实施例中步骤103~105的执行过程,在此不做赘述。
本实施例的对象的行业类型识别方法,由于语言模型可以从所有的待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,因此基于有限的训练样本的目标行业类型识别模型,仍然能够识别出第二待识别对象所隶属的行业类型,从而可以避免现有技术中行业类型识别模型只能对包含已有行业词集中行业词的文本信息进行分类,当第二待识别对象的文本信息中出现未在行业词集中的行业词时,则无法被行业类型识别模型识别出的情况,即避免现有技术中行业类型识别模型的召回率被训练数据的规模所限制的情况。
为了清楚说明上一实施例,本实施例提供了另一种对象的行业类型识别方法,图3为本发明实施例三所提供的对象的行业类型识别方法的流程示意图。
如图3所示,该对象的行业类型识别方法可以包括以下步骤:
步骤301,将待识别对象的文本信息分别输入到基于不同算法构建的语言模型中,得到每个语言模型输出的第一向量空间。
步骤302,将不同语言模型输出的第一向量空间,组合成待识别对象的向量空间。
步骤301~302的执行过程可以参见上述实施例中步骤201~202的执行过程,在此不做赘述。
步骤303,建立待识别对象的向量空间与待识别对象的标识信息之间的映射关系。
本发明实施例中,待识别对象的标识信息用于唯一标识该待识别对象,待识别对象的标识信息例如可以为待识别对象的名称,或者,待识别对象的标识信息可以为待识别对象的ID,对此不作限制。
本发明实施例中,建立待识别对象的向量空间与待识别对象的标识信息之间的映射关系,从而在确定需要进行行业类型识别的待识别对象后,可以通过该待识别对象的标识信息,查询上述映射关系,获取与该待识别对象的标识信息对应的向量空间,从而无需利用语音模型重新识别该待识别对象的文本信息,得到待识别对象与行业类型相关的向量空间,操作简单且易于实现。
步骤304,根据映射关系,将待识别对象的向量空间存储在词典中。
步骤305,根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象。
步骤306,获取训练样本对象的标注数据,其中,标注数据用于指示出训练样本对象所隶属的行业类型。
步骤307,利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型。
步骤305~306的执行过程可以参见上述实施例中步骤102~104的执行过程,在此不做赘述。
步骤308,获取第二待识别对象的标识信息。
可选地,在确定除训练样本对象之外的每个第二待识别对象后,即确定需要进行行业类型识别的第二待识别对象后,可以获取该第二待识别对象的标识信息,例如第二待识别对象的ID。具体地,可以提供语音或者文字输入第二待识别对象的标识信息的页面,而后通过该页面获取用户语音或者文字输入的需要进行行业类型识别的第二待识别对象的标识信息。
步骤309,根据第二待识别对象的标识信息,查询映射关系,从词典中得到第二待识别对象的向量空间。
本发明实施例中,在确定需要进行行业类型识别的第二待识别对象后,可以通过该第二待识别对象的标识信息,查询上述映射关系,从词典中获取与该第二待识别对象的标识信息对应的向量空间,从而无需利用语音模型重新识别该第二待识别对象的文本信息,得到第二待识别对象与行业类型相关的向量空间,操作简单且易于实现。
步骤310,针对除训练样本对象之外的每个第二待识别对象,将第二待识别的对象的向量空间,输入到目标行业类型识别模型中进行学习,得到第二待识别对象所隶属的行业类型。
步骤309的执行过程可以参见上述实施例中步骤105的执行过程,在此不做赘述。
本实施例的对象的行业类型识别方法,由于语言模型可以从所有的待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,因此基于有限的训练样本的目标行业类型识别模型,仍然能够识别出第二待识别对象所隶属的行业类型,从而可以避免现有技术中行业类型识别模型只能对包含已有行业词集中行业词的文本信息进行分类,当第二待识别对象的文本信息中出现未在行业词集中的行业词时,则无法被行业类型识别模型识别出的情况,即避免现有技术中行业类型识别模型的召回率被训练数据的规模所限制的情况。
作为一种示例,参加图4,图4为本发明实施例四所提供的应用场景示意图。其中,Argmax为寻找具有最大评分的参量函数;Softmax为柔性最大值传输函数。
如图4所示,可以对所有的待识别对象(1亿以上)进行无监督的Doc2vec学习,得到待识别对象的与行业类型相关的向量空间,而后从所有的待识别对象中选取第一待识别对象,作为训练样本对象,需要说明的是,为了使得选取的训练样本对象具有代表性,选取的第一待识别对象个数可以达到1000万以上。而后通过人工标注的方式,对训练样本对象所隶属的行业类型进行标注,而后基于CNN+全链接层算法,利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型。最后将需要进行行业类型识别的第二待识别对象的向量空间,输入到目标行业类型识别模型中进行学习,可以得到每个行业类型的识别概率,进而可以选择识别概率最大值对应的行业类型,作为第二待识别对象所隶属的行业类型。
为了实现上述实施例,本发明还提出一种对象的行业类型识别装置。
图5为本发明实施例提供的一种对象的行业类型识别装置的结构示意图。
如图5所示,该对象的行业类型识别装置100包括:第一输入模块110、选取模块120、第一获取模块130、训练模块140,第二输入模块150。其中,
第一输入模块110,用于将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到待识别对象的与行业类型相关的向量空间。
作为一种可能的实现方式,第一输入模块110,具体用于将文本信息分别输入到基于不同算法构建的语言模型中,得到每个语言模型输出的第一向量空间;将不同语言模型输出的第一向量空间,组合成待识别对象的向量空间。
其中,每个语言模型输出的第一向量空间的维度相同。
选取模块120,用于根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象。
作为一种可能的实现方式,选取模块120,具体用于根据待识别对象的向量空间,计算待识别对象之间的相似度,根据相似度对所有的待识别对象进行聚簇;从每个聚簇中随机抽取第一待识别对象,作为训练样本对象。
第一获取模块130,用于获取训练样本对象的标注数据,其中,标注数据用于指示出训练样本对象所隶属的行业类型。
训练模块140,用于利用训练样本对象的向量空间和标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型。
第二输入模块150,用于针对除训练样本对象之外的每个第二待识别对象,将第二待识别的对象的向量空间,输入到目标行业类型识别模型中进行学习,得到第二待识别对象所隶属的行业类型。
进一步地,在本发明实施例的一种可能的实现方式中,参见图6,在图5所示实施例的基础上,该对象的行业类型识别装置100还可以包括:
建立模块160,用于建立待识别对象的向量空间与待识别对象的标识信息之间的映射关系。
存储模块170,用于根据映射关系,将待识别对象的向量空间存储在词典中。
第二获取模块180,用于获取第二待识别对象的标识信息。
查询模块190,用于根据第二待识别对象的标识信息,查询映射关系,从词典中得到第二待识别对象的向量空间。
需要说明的是,前述对对象的行业类型识别方法实施例的解释说明也适用于该实施例的对象的行业类型识别装置100,此处不再赘述。
本实施例的对象的行业类型识别装置,由于语言模型可以从所有的待识别对象的文本信息中进行段落向量的语义学习,在学习后的向量空间上,同行业的词和信息会在向量空间中进行聚簇,因此基于有限的训练样本的目标行业类型识别模型,仍然能够识别出第二待识别对象所隶属的行业类型,从而可以避免现有技术中行业类型识别模型只能对包含已有行业词集中行业词的文本信息进行分类,当第二待识别对象的文本信息中出现未在行业词集中的行业词时,则无法被行业类型识别模型识别出的情况,即避免现有技术中行业类型识别模型的召回率被训练数据的规模所限制的情况。
为了实现上述实施例,本发明还提出一种计算机设备,包括:处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如本发明前述实施例提出的对象的行业类型识别方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明前述实施例提出的对象的行业类型识别方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如本发明前述实施例提出的对象的行业类型识别方法。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的对象的行业类型识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种对象的行业类型识别方法,其特征在于,包括:
将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到所述待识别对象的与行业类型相关的向量空间;
根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象;
获取所述训练样本对象的标注数据,其中,所述标注数据用于指示出所述训练样本对象所隶属的行业类型;
利用所述训练样本对象的所述向量空间和所述标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;
针对除所述训练样本对象之外的每个第二待识别对象,将所述第二待识别的对象的向量空间,输入到所述目标行业类型识别模型中进行学习,得到所述第二待识别对象所隶属的行业类型。
2.根据权利要求1所述的方法,其特征在于,所述得到所述待识别对象的与行业类型相关的向量空间之后,还包括:
建立所述待识别对象的向量空间与所述待识别对象的标识信息之间的映射关系;
根据所述映射关系,将所述待识别对象的向量空间存储在词典中。
3.根据权利要求1所述的方法,其特征在于,所述将待识别对象的文本信息输入用于生成段落向量的语言模型中,得到所述待识别对象的与行业类型相关的向量空间,包括:
将所述文本信息分别输入到基于不同算法构建的所述语言模型中,得到每个语言模型输出的第一向量空间;
将不同语言模型输出的第一向量空间,组合成所述待识别对象的向量空间。
4.根据权利要求3所述的方法,其特征在于,所述每个语言模型输出的所述第一向量空间的维度相同。
5.根据权利要求1所述的方法,其特征在于,所述根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象,包括:
根据所述待识别对象的向量空间,计算所述待识别对象之间的相似度,根据所述相似度对所有的待识别对象进行聚簇;
从每个聚簇中随机抽取第一待识别对象,作为所述训练样本对象。
6.根据权利要求2所述的方法,其特征在于,所述将所述第二待识别对象的向量空间,输入到所述目标行业类型识别模型中之前,还包括:
获取所述第二待识别对象的标识信息;
根据所述第二待识别对象的标识信息,查询所述映射关系,从所述词典中得到所述第二待识别对象的向量空间。
7.一种对象的行业类型识别装置,其特征在于,包括:
第一输入模块,用于将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到所述待识别对象的与行业类型相关的向量空间;
选取模块,用于根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象;
获取模块,用于获取所述训练样本对象的标注数据,其中,所述标注数据用于指示出所述训练样本对象所隶属的行业类型;
训练模块,用于利用所述训练样本对象的所述向量空间和所述标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;;
第二输入模块,用于针对除所述训练样本对象之外的每个第二待识别对象,将所述第二待识别的对象的向量空间,输入到所述目标行业类型识别模型中进行学习,得到所述第二待识别对象所隶属的行业类型。
8.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一所述的对象的行业类型识别方法。
9.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令处理器执行时实现如权利要求1-6中任一所述的对象的行业类型识别方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的对象的行业类型识别方法。
CN201810420223.1A 2018-05-04 2018-05-04 对象的行业类型识别方法和装置 Active CN108733778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810420223.1A CN108733778B (zh) 2018-05-04 2018-05-04 对象的行业类型识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810420223.1A CN108733778B (zh) 2018-05-04 2018-05-04 对象的行业类型识别方法和装置

Publications (2)

Publication Number Publication Date
CN108733778A true CN108733778A (zh) 2018-11-02
CN108733778B CN108733778B (zh) 2022-05-17

Family

ID=63937073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810420223.1A Active CN108733778B (zh) 2018-05-04 2018-05-04 对象的行业类型识别方法和装置

Country Status (1)

Country Link
CN (1) CN108733778B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670267A (zh) * 2018-12-29 2019-04-23 北京航天数据股份有限公司 一种数据处理方法和装置
CN109960808A (zh) * 2019-03-26 2019-07-02 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN110009364A (zh) * 2019-01-08 2019-07-12 阿里巴巴集团控股有限公司 一种行业识别模型确定方法和装置
CN110188357A (zh) * 2019-05-31 2019-08-30 阿里巴巴集团控股有限公司 对象的行业识别方法及装置
CN111444334A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111523315A (zh) * 2019-01-16 2020-08-11 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN112115710A (zh) * 2019-06-03 2020-12-22 腾讯科技(深圳)有限公司 一种行业信息识别方法及装置
CN112148959A (zh) * 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN112417150A (zh) * 2020-11-16 2021-02-26 建信金融科技有限责任公司 行业分类模型训练、使用方法、装置、设备及介质
CN112819106A (zh) * 2021-04-16 2021-05-18 江西博微新技术有限公司 一种ifc构件类型识别方法、装置、存储介质及设备
CN113377904A (zh) * 2021-06-04 2021-09-10 百度在线网络技术(北京)有限公司 行业动作识别方法、装置、电子设备及存储介质
CN113807749A (zh) * 2021-11-19 2021-12-17 北京金堤科技有限公司 一种对象评分方法和装置
CN117216688A (zh) * 2023-11-07 2023-12-12 西南科技大学 基于层次标签树与神经网络的企业行业识别方法与***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN104834940A (zh) * 2015-05-12 2015-08-12 杭州电子科技大学 一种基于支持向量机的医疗影像检查疾病分类方法
US20160253596A1 (en) * 2015-02-26 2016-09-01 International Business Machines Corporation Geometry-directed active question selection for question answering systems
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
US20160253596A1 (en) * 2015-02-26 2016-09-01 International Business Machines Corporation Geometry-directed active question selection for question answering systems
CN104834940A (zh) * 2015-05-12 2015-08-12 杭州电子科技大学 一种基于支持向量机的医疗影像检查疾病分类方法
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670267A (zh) * 2018-12-29 2019-04-23 北京航天数据股份有限公司 一种数据处理方法和装置
CN110009364A (zh) * 2019-01-08 2019-07-12 阿里巴巴集团控股有限公司 一种行业识别模型确定方法和装置
CN111444334B (zh) * 2019-01-16 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111444334A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111523315A (zh) * 2019-01-16 2020-08-11 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111523315B (zh) * 2019-01-16 2023-04-18 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN109960808B (zh) * 2019-03-26 2023-02-07 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN109960808A (zh) * 2019-03-26 2019-07-02 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN110188357A (zh) * 2019-05-31 2019-08-30 阿里巴巴集团控股有限公司 对象的行业识别方法及装置
CN110188357B (zh) * 2019-05-31 2023-06-20 创新先进技术有限公司 对象的行业识别方法及装置
CN112115710A (zh) * 2019-06-03 2020-12-22 腾讯科技(深圳)有限公司 一种行业信息识别方法及装置
CN112115710B (zh) * 2019-06-03 2023-08-08 腾讯科技(深圳)有限公司 一种行业信息识别方法及装置
CN112148959A (zh) * 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN112417150A (zh) * 2020-11-16 2021-02-26 建信金融科技有限责任公司 行业分类模型训练、使用方法、装置、设备及介质
CN112819106B (zh) * 2021-04-16 2021-07-13 江西博微新技术有限公司 一种ifc构件类型识别方法、装置、存储介质及设备
CN112819106A (zh) * 2021-04-16 2021-05-18 江西博微新技术有限公司 一种ifc构件类型识别方法、装置、存储介质及设备
CN113377904A (zh) * 2021-06-04 2021-09-10 百度在线网络技术(北京)有限公司 行业动作识别方法、装置、电子设备及存储介质
CN113377904B (zh) * 2021-06-04 2024-05-10 百度在线网络技术(北京)有限公司 行业动作识别方法、装置、电子设备及存储介质
CN113807749A (zh) * 2021-11-19 2021-12-17 北京金堤科技有限公司 一种对象评分方法和装置
CN117216688A (zh) * 2023-11-07 2023-12-12 西南科技大学 基于层次标签树与神经网络的企业行业识别方法与***
CN117216688B (zh) * 2023-11-07 2024-01-23 西南科技大学 基于层次标签树与神经网络的企业行业识别方法与***

Also Published As

Publication number Publication date
CN108733778B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN108733778A (zh) 对象的行业类型识别方法和装置
WO2022022163A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
US8682896B2 (en) Smart attribute classification (SAC) for online reviews
CN110245348A (zh) 一种意图识别方法及***
CN108319720A (zh) 基于人工智能的人机交互方法、装置及计算机设备
Liang et al. AC-BLSTM: asymmetric convolutional bidirectional LSTM networks for text classification
CN108563655A (zh) 基于文本的事件识别方法和装置
JP2020149686A (ja) 画像処理方法、装置、サーバ及び記憶媒体
CN108460098A (zh) 信息推荐方法、装置和计算机设备
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
WO2022203899A1 (en) Document distinguishing based on page sequence learning
CN107992602A (zh) 搜索结果展示方法和装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Kumar et al. BERT based semi-supervised hybrid approach for aspect and sentiment classification
CN113139664A (zh) 一种跨模态的迁移学习方法
Joshua Thomas et al. A deep learning framework on generation of image descriptions with bidirectional recurrent neural networks
CN109815500A (zh) 非结构化公文的管理方法、装置、计算机设备及存储介质
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN113849653A (zh) 一种文本分类方法及装置
US11321397B2 (en) Composition engine for analytical models
Tüselmann et al. Recognition-free question answering on handwritten document collections
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN105844207B (zh) 文本行提取方法和文本行提取设备
US20240028952A1 (en) Apparatus for attribute path generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant