CN110059692A - 一种识别企业所属行业的方法及终端 - Google Patents

一种识别企业所属行业的方法及终端 Download PDF

Info

Publication number
CN110059692A
CN110059692A CN201910302994.5A CN201910302994A CN110059692A CN 110059692 A CN110059692 A CN 110059692A CN 201910302994 A CN201910302994 A CN 201910302994A CN 110059692 A CN110059692 A CN 110059692A
Authority
CN
China
Prior art keywords
category
enterprise
industry
employment
bill
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910302994.5A
Other languages
English (en)
Inventor
邱涛
吴胜杰
翁安栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Shang Ji Network Technology Co Ltd
Original Assignee
Xiamen Shang Ji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Shang Ji Network Technology Co Ltd filed Critical Xiamen Shang Ji Network Technology Co Ltd
Priority to CN201910302994.5A priority Critical patent/CN110059692A/zh
Publication of CN110059692A publication Critical patent/CN110059692A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种识别企业所属行业的方法及终端,属于数据处理领域。本发明通过根据多个票据样本训练第一深度学习模型;所述第一深度学习模型用于根据票据信息得到一企业所属的行业类别;每一所述票据样本包括一票据和与所述一票据对应的行业类别;获取一企业的票据,得到票据集合;所述票据集合包括与所述一企业的主营业务经营范围对应的票据;调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表;所述行业类别表中包括一条以上记录;每一所述记录包括一行业类别的名称和所述一企业属于所述一行业类别的概率。实现提高智能终端识别企业所属行业的准确度。

Description

一种识别企业所属行业的方法及终端
技术领域
本发明涉及一种识别企业所属行业的方法及终端,属于数据处理领域。
背景技术
智能终端判断企业所属行业,历来都是难点。其原因在于,第一,小企业的经营方向一直在变化;第二,中大型企业一般是跨领域经营;第三,对同一行业的定义存在多种表述。
由于缺乏对企业所属行业的信息,很多需要基于行业数据的分析,政策制定,都会面临没有数据支撑的困窘。此外,由于政策不断调整,企业的运作模式也越发的复杂化,但是却无法跟踪企业所属行业的变化,不利于社会的整体发展。
发明内容
本发明所要解决的技术问题是:如何提高智能终端识别企业所属行业的准确度。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种识别企业所属行业的方法,包括:
根据多个票据样本训练第一深度学习模型;所述第一深度学习模型用于根据票据信息得到一企业所属的行业类别;每一所述票据样本包括一票据和与所述一票据对应的行业类别;
获取一企业的票据,得到票据集合;所述票据集合包括与所述一企业的主营业务经营范围对应的票据;
调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表;所述行业类别表中包括一条以上记录;每一所述记录包括一行业类别的名称和所述一企业属于所述一行业类别的概率。
优选地,调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表之前,还包括:
统计所述一企业的所有票据的数量,得到票据总数;
若所述一企业的所有票据中属于一类别的票据的数量占所述票据总数的比例大于预设的比例阈值,则添加属于所述一类别的所有票据至所述票据集合。
优选地,还包括:
获取所述一企业的工商注册信息;
调用预设的第二深度学习模型识别所述工商注册信息,得到第二行业类别表;所述第二深度学习模型用于根据工商注册信息得到一企业所属的行业类别;
获取与所述一企业对应的社会舆情信息;
调用预设的第三深度学习模型识别所述社会舆情信息,得到第三行业类别表;所述第三深度学习模型用于根据社会舆情信息得到一企业所属的行业类别;
获取与所述一企业的商标信息;
调用预设的第四深度学习模型识别所述商标信息,得到第四行业类别表;所述第四深度学习模型用于根据商标信息得到一企业所属的行业类别;
获取所述一企业的上游企业的行业类别,得到第五行业类别表;
获取所述一企业的下游企业的行业类别,得到第六行业类别表;
加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表。
优选地,加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表之前,还包括:
调用Attention Mechanism为所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表分配权重。
本发明还提供一种识别企业所属行业的终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
根据多个票据样本训练第一深度学习模型;所述第一深度学习模型用于根据票据信息得到一企业所属的行业类别;每一所述票据样本包括一票据和与所述一票据对应的行业类别;
获取一企业的票据,得到票据集合;所述票据集合包括与所述一企业的主营业务经营范围对应的票据;
调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表;所述行业类别表中包括一条以上记录;每一所述记录包括一行业类别的名称和所述一企业属于所述一行业类别的概率。
优选地,调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表之前,还包括:
统计所述一企业的所有票据的数量,得到票据总数;
若所述一企业的所有票据中属于一类别的票据的数量占所述票据总数的比例大于预设的比例阈值,则添加属于所述一类别的所有票据至所述票据集合。
优选地,还包括:
获取所述一企业的工商注册信息;
调用预设的第二深度学习模型识别所述工商注册信息,得到第二行业类别表;所述第二深度学习模型用于根据工商注册信息得到一企业所属的行业类别;
获取与所述一企业对应的社会舆情信息;
调用预设的第三深度学习模型识别所述社会舆情信息,得到第三行业类别表;所述第三深度学习模型用于根据社会舆情信息得到一企业所属的行业类别;
获取与所述一企业的商标信息;
调用预设的第四深度学习模型识别所述商标信息,得到第四行业类别表;所述第四深度学习模型用于根据商标信息得到一企业所属的行业类别;
获取所述一企业的上游企业的行业类别,得到第五行业类别表;
获取所述一企业的下游企业的行业类别,得到第六行业类别表;
加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表。
优选地,加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表之前,还包括:
调用Attention Mechanism分别为所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表分配权重。
本发明具有如下有益效果:
1、本发明提供一种识别企业所属行业的方法和终端,通过事先使用大量票据样本训练第一深度学习模型,使得第一深度学习模型具有根据票据信息识别企业所属行业类别的能力。本发明使用第一深度学习模型对能够指向企业所属行业的票据进行识别,包括与企业的主营业务经营范围相关的票据,从而自动地、高效地识别出一企业所属的行业类别。其中,企业的主营业务经营范围相关***包括原材料采购单和供货单。例如,根据企业主营业务经营范围的相关票据,从票面可以读到开票明细“方糖”得知该票据是交易“方便食品”的票据,即开票货物明细与货物类型之间可以直接映射,通过销售方和购买方读到票据是进项***还是销项***,通过票据类型可以读取到该票据是增值税***,三种信息合集起来使深度学习模型可以理解到该票据是“方便食品的增值税销项***”,通过对票据信息进行综合分析,可以提高智能终端识别企业所述行业类别的准确度。
2、进一步地,大型企业往往是跨领域的,同一企业可能属于多个行业类别,例如,一企业兼顾房地产和对外贸易。若一类别票据的数量占企业所有票据的总数的比例较大,则表明该类别票据包含了企业的关键业务往来信息。本发明通过对这样的类别票据进行分析,能够提高对企业所属行业类型分析的完整性,以免遗漏企业所述的行业类别。
3、进一步地,企业工商注册信息中的经营范围信息,往往是企业可提供的服务能力体现,如“酒、饮料及茶叶类预包装食品批发”,就可以认为是和“方便食品”有直接映射关系可能的;另外,企业往往会通过网络途径宣传自己的产品,而这些产品推介往往是以文章、评论以及新闻稿出现的,即所谓的社会舆情信息,那么社会舆情信息就和企业的产品间可以建立映射关系;企业所注册的商标,往往也是和企业的经营有关的信息,那么“商标信息”和商品类别之间就有映射关系;通过这些映射关系的集合,即可对企业所属行业有一个基本的判断认识了。而基于上游企业的行业类别,主要是交易双方直接存在一个供应链的关联关系,通过这层关系可以类比映射出相关企业的所属行业。因此,通过综合分析工商注册信息、商标信息、舆情信息和上下游企业,能够提高智能终端识别企业所述行业的准确度。
4、进一步地,Attention Mechanism可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断。本发明采用AttentionMechanism为根据工商注册信息、社会舆情信息、商标信息、上游企业和下游企业得到的行业类别初步识别结果分配权重,从而综合考虑根据不同信息得到的初步识别结果,有利于提高智能终端识别企业所属行业的准确度。
附图说明
图1为本发明提供的一种识别企业所属行业的方法的具体实施方式的流程框图;
图2为本发明提供的一种识别企业所属行业的终端的具体实施方式的结构框图;
标号说明:
1、处理器;2、存储器。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
请参照图1至图2,
本发明的实施例一为:
如图1所示,本实施例提供一种识别企业所属行业的方法,包括:
S1、根据多个票据样本训练第一深度学习模型;所述第一深度学习模型用于根据票据信息得到一企业所属的行业类别;每一所述票据样本包括一票据和与所述一票据对应的行业类别。
例如,针对开有茶、巧克力、红糖、方糖、乌龙茶、薄荷糖、冰糖、咖啡、白糖等货物在内的增值税销项***,通过开票明细、开票单位、***属性等,可以对开票企业所属行业进行判断。
S2、获取一企业的票据,得到票据集合;所述票据集合包括与所述一企业的主营业务经营范围对应的票据。
优选地,所述一企业的主营业务经营范围对应的票据包括原材料采购单和供货单。
S3、统计所述一企业的所有票据的数量,得到票据总数;
若所述一企业的所有票据中属于一类别的票据的数量(或金额)占所述票据总数的比例大于预设的比例阈值,则添加属于所述一类别的所有票据至所述票据集合。
其中,大型企业往往是跨领域的,同一企业可能属于多个行业类别,例如,一企业兼顾房地产和对外贸易。若一类别票据的数量占企业所有票据的总数的比例较大,则表明该类别票据包含了企业的关键业务往来信息。本实施例通过对这样的类别票据进行分析,能够提高对企业所属行业类型分析的完整性,以免遗漏企业所述的行业类别。
例如,针对一企业开有茶、巧克力、红糖、方糖、乌龙茶、薄荷糖、冰糖、咖啡、白糖等货物的***,也有“房屋契税”等的开票,而且票据数量和开票金额均属于前两位的,可以判断该企业属于多个行业。
例如,一企业90%的经营票据均为茶、巧克力、红糖、方糖、乌龙茶、薄荷糖、冰糖、咖啡、白糖等货物***,但是有一少部分票据,金额较大,且和前面的货物截然不同,为“房屋契税”票据,则这一信息暗示该企业还从事了房地产行业。
S4、调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表;所述行业类别表中包括一条以上记录;每一所述记录包括一行业类别的名称和所述一企业属于所述一行业类别的概率。
其中,第一深度学习模型使用word2vec训练词向量;并将词向量输入网络抽取单词级特征得到表示句子的特征向量;句子向量输入网络抽取句子级特征得到最终的文档级特征向量;采用Attention-based BiLSTM模型计算提取特征,其中,双向量关系识别模型,能更好地捕获句子中上下文的信息;词层次和句子层次分别引入Attention机制,从而使该模型具有对文本中重要性不同的句子和词给予不同的“注意力”的能力;针对多分类,最后经过softmax函数就可以产生对分类的预测。
其中,word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。词向量具有良好的语义特性,是表示词语特征的常用方式。词向量的每一维称为一个词语特征,在训练词向量的过程中,将词语的不同句法和语义特征分布到它的每一个维度去表示。
例如,根据票据集合得到的第一行业类别表如表1所示;
表1
行业类别名称 概率
批发零售 70%
制造业 30%
其中,本实施例通过事先使用大量票据样本训练第一深度学习模型,使得第一深度学习模型具有根据票据信息识别企业所属行业类别的能力。本实施例使用第一深度学习模型对能够指向企业所属行业的票据进行识别,包括与企业的主营业务经营范围相关的票据,从而自动地、高效地识别出一企业所属的行业类别。其中,企业的主营业务经营范围相关***包括原材料采购单和供货单。例如,根据企业主营业务经营范围的相关票据,从票面可以读到开票明细“方糖”得知该票据是交易“方便食品”的票据,即开票货物明细与货物类型之间可以直接映射,通过销售方和购买方读到票据是进项***还是销项***,通过票据类型可以读取到该票据是增值税***,三种信息合集起来使深度学习模型可以理解到该票据是“方便食品的增值税销项***”,通过对票据信息进行综合分析,可以提高智能终端识别企业所述行业类别的准确度。
S5、获取所述一企业的工商注册信息;调用预设的第二深度学习模型识别所述工商注册信息,得到第二行业类别表;所述第二深度学习模型用于根据工商注册信息得到一企业所属的行业类别。
例如,根据所述一企业的工商注册信息得到的第二行业类别表如表2所示;
表2
行业类别名称 概率
批发零售 100%
S6、获取与所述一企业对应的社会舆情信息;调用预设的第三深度学习模型识别所述社会舆情信息,得到第三行业类别表;所述第三深度学习模型用于根据社会舆情信息得到一企业所属的行业类别。
例如,根据所述一企业的社会舆情信息得到的第三行业类别表如表3所示;
表3
行业类别名称 概率
批发零售 100%
S7、获取与所述一企业的商标信息;调用预设的第四深度学习模型识别所述商标信息,得到第四行业类别表;所述第四深度学习模型用于根据商标信息得到一企业所属的行业类别。
例如,根据所述一企业的商标信息得到的第四行业类别表如表4所示;
表4
行业类别名称 概率
批发零售 100%
S8、获取所述一企业的上游企业的行业类别,得到第五行业类别表。
其中,企业的上游企业需要通过进项***来判断,进项***中的开票方,即为该企业的上游企业。
例如,所述一企业的上游企业为:“厦门AAA商贸有限公司”,属于批发零售行业。第五行业类别表如表5所示;
表5
行业类别名称 概率
批发零售 100%
S9、获取所述一企业的下游企业的行业类别,得到第六行业类别表。
其中,企业的下游企业需要通过销项***来判断,销项***中的受票方,即为该企业的下游企业。
例如,所述一企业的下游企业为:“厦门BBB零售有限公司”,属于批发零售行业。第五行业类别表如表6所示;
表6
行业类别名称 概率
批发零售 100%
其中,企业工商注册信息中的经营范围信息,往往是企业可提供的服务能力体现,如“酒、饮料及茶叶类预包装食品批发”,就可以认为是和“方便食品”有直接映射关系可能的;另外,企业往往会通过网络途径宣传自己的产品,而这些产品推介往往是以文章、评论以及新闻稿出现的,即所谓的社会舆情信息,那么社会舆情信息就和企业的产品间可以建立映射关系;企业所注册的商标,往往也是和企业的经营有关的信息,那么“商标信息”和商品类别之间就有映射关系;通过这些映射关系的集合,即可对企业所属行业有一个基本的判断认识了。而基于上游企业的行业类别,主要是交易双方直接存在一个供应链的关联关系,通过这层关系可以类比映射出相关企业的所属行业。因此,通过综合分析工商注册信息、商标信息、舆情信息和上下游企业,能够提高智能终端识别企业所述行业的准确度。
S10、调用Attention Mechanism为所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表分配权重。
其中,Attention Mechanism与人类对外界事物的观察机制类似,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部分,比如我们看到一个人时,往往先注意到这个人的脸,然后再把不同区域的信息组合起来,形成一个队被观察事物的整体印象。
Attention Mechanism为待识别的目标对象每个词赋予不同的权重,使神经网络模型的学习变得更加灵活(soft),同时Attention本身可以做为一种对齐关系,解释翻译输入/输出句子之间的对齐关系,解释模型到底学到了什么知识,为我们打开深度学习的黑箱,提供了一个窗口,方便抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销。Attention Mechanism可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断。本实施例采用 Attention Mechanism为根据工商注册信息、社会舆情信息、商标信息、上游企业和下游企业得到的行业类别初步识别结果分配权重,从而综合考虑根据不同信息得到的初步识别结果,有利于提高智能终端识别企业所属行业的准确度。
例如,第一行业类别表的权重为60%、第二行业类别表的权重为20%、第三行业类别表的权重为5%、第四行业类别表的权重为5%、第五行业类别表的权重为5%、第六行业类别表的权重为5%。
S11、加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表。
例如,对第一行业类别表至第六行业类别表进行加权计算,该企业属于批发零售行业的概率为:
60%*70%+20%*100%+5%*100%+5%*100%+5%*100%+5%*100%=82%;
该企业属于制造业的概率为:
60%*30%=18%;
第七行业类别表如表7所示;
表7
行业类别名称 概率
批发零售 82%
制造业 18%
因此,通过对该企业的票据信息、工商注册信息、舆情信息、商标信息和上下游企业信息进行分析,得出结论:该企业有82%的概率属于批发零售行业,该企业有18%的概率属于制造业。
本发明的实施例二为:
如图2所示,本实施例提供一种识别企业所述行业的终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:
S1、根据多个票据样本训练第一深度学习模型;所述第一深度学习模型用于根据票据信息得到一企业所属的行业类别;每一所述票据样本包括一票据和与所述一票据对应的行业类别。
例如,针对开有茶、巧克力、红糖、方糖、乌龙茶、薄荷糖、冰糖、咖啡、白糖等货物在内的增值税销项***,通过开票明细、开票单位、***属性等,可以对开票企业所属行业进行判断。
S2、获取一企业的票据,得到票据集合;所述票据集合包括与所述一企业的主营业务经营范围对应的票据。
优选地,所述一企业的主营业务经营范围对应的票据包括原材料采购单和供货单。
S3、统计所述一企业的所有票据的数量,得到票据总数;
若所述一企业的所有票据中属于一类别的票据的数量(或金额)占所述票据总数的比例大于预设的比例阈值,则添加属于所述一类别的所有票据至所述票据集合。
其中,大型企业往往是跨领域的,同一企业可能属于多个行业类别,例如,一企业兼顾房地产和对外贸易。若一类别票据的数量占企业所有票据的总数的比例较大,则表明该类别票据包含了企业的关键业务往来信息。本实施例通过对这样的类别票据进行分析,能够提高对企业所属行业类型分析的完整性,以免遗漏企业所述的行业类别。
例如,针对一企业开有茶、巧克力、红糖、方糖、乌龙茶、薄荷糖、冰糖、咖啡、白糖等货物的***,也有“房屋契税”等的开票,而且票据数量和开票金额均属于前两位的,可以判断该企业属于多个行业。
例如,一企业90%的经营票据均为茶、巧克力、红糖、方糖、乌龙茶、薄荷糖、冰糖、咖啡、白糖等货物***,但是有一少部分票据,金额较大,且和前面的货物截然不同,为“房屋契税”票据,则这一信息暗示该企业还从事了房地产行业。
S4、调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表;所述行业类别表中包括一条以上记录;每一所述记录包括一行业类别的名称和所述一企业属于所述一行业类别的概率。
其中,第一深度学习模型使用word2vec训练词向量;并将词向量输入网络抽取单词级特征得到表示句子的特征向量;句子向量输入网络抽取句子级特征得到最终的文档级特征向量;采用Attention-based BiLSTM模型计算提取特征;词层次和句子层次分别引入Attention机制,从而使该模型具有对文本中重要性不同的句子和词给予不同的“注意力”的能力;针对多分类,最后经过softmax 函数就可以产生对分类的预测。
例如,根据票据集合得到的第一行业类别表如表8所示;
表8
其中,本实施例通过事先使用大量票据样本训练第一深度学习模型,使得第一深度学习模型具有根据票据信息识别企业所属行业类别的能力。本实施例使用第一深度学习模型对能够指向企业所属行业的票据进行识别,包括与企业的主营业务经营范围相关的票据,从而自动地、高效地识别出一企业所属的行业类别。其中,企业的主营业务经营范围相关***包括原材料采购单和供货单。例如,根据企业主营业务经营范围的相关票据,从票面可以读到开票明细“方糖”得知该票据是交易“方便食品”的票据,即开票货物明细与货物类型之间可以直接映射,通过销售方和购买方读到票据是进项***还是销项***,通过票据类型可以读取到该票据是增值税***,三种信息合集起来使深度学习模型可以理解到该票据是“方便食品的增值税销项***”,通过对票据信息进行综合分析,可以提高智能终端识别企业所述行业类别的准确度。
S5、获取所述一企业的工商注册信息;调用预设的第二深度学习模型识别所述工商注册信息,得到第二行业类别表;所述第二深度学习模型用于根据工商注册信息得到一企业所属的行业类别。
例如,根据所述一企业的工商注册信息得到的第二行业类别表如表9所示;
表9
行业类别名称 概率
批发零售 100%
S6、获取与所述一企业对应的社会舆情信息;调用预设的第三深度学习模型识别所述社会舆情信息,得到第三行业类别表;所述第三深度学习模型用于根据社会舆情信息得到一企业所属的行业类别。
例如,根据所述一企业的社会舆情信息得到的第三行业类别表如表10所示;
表10
行业类别名称 概率
批发零售 100%
S7、获取与所述一企业的商标信息;调用预设的第四深度学习模型识别所述商标信息,得到第四行业类别表;所述第四深度学习模型用于根据商标信息得到一企业所属的行业类别。
例如,根据所述一企业的商标信息得到的第四行业类别表如表11所示;
表11
行业类别名称 概率
批发零售 100%
S8、获取所述一企业的上游企业的行业类别,得到第五行业类别表。
其中,企业的上游企业需要通过进项***来判断,进项***中的开票方,即为该企业的上游企业。
例如,所述一企业的上游企业为:“厦门AAA商贸有限公司”,属于批发零售行业。第五行业类别表如表12所示;
表12
行业类别名称 概率
批发零售 100%
S9、获取所述一企业的下游企业的行业类别,得到第六行业类别表。
其中,企业的下游企业需要通过销项***来判断,销项***中的受票方,即为该企业的下游企业。
例如,所述一企业的下游企业为:“厦门BBB零售有限公司”,属于批发零售行业。第五行业类别表如表13所示;
表13
行业类别名称 概率
批发零售 100%
其中,企业工商注册信息中的经营范围信息,往往是企业可提供的服务能力体现,如“酒、饮料及茶叶类预包装食品批发”,就可以认为是和“方便食品”有直接映射关系可能的;另外,企业往往会通过网络途径宣传自己的产品,而这些产品推介往往是以文章、评论以及新闻稿出现的,即所谓的社会舆情信息,那么社会舆情信息就和企业的产品间可以建立映射关系;企业所注册的商标,往往也是和企业的经营有关的信息,那么“商标信息”和商品类别之间就有映射关系;通过这些映射关系的集合,即可对企业所属行业有一个基本的判断认识了。而基于上游企业的行业类别,主要是交易双方直接存在一个供应链的关联关系,通过这层关系可以类比映射出相关企业的所属行业。因此,通过综合分析工商注册信息、商标信息、舆情信息和上下游企业,能够提高智能终端识别企业所述行业的准确度。
S10、调用Attention Mechanism为所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表分配权重。
其中,Attention Mechanism与人类对外界事物的观察机制类似,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部分,比如我们看到一个人时,往往先注意到这个人的脸,然后再把不同区域的信息组合起来,形成一个队被观察事物的整体印象。
Attention Mechanism可以帮助模型对输入的每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断。本实施例采用 AttentionMechanism为根据工商注册信息、社会舆情信息、商标信息、上游企业和下游企业得到的行业类别初步识别结果分配权重,从而综合考虑根据不同信息得到的初步识别结果,有利于提高智能终端识别企业所属行业的准确度。
例如,第一行业类别表的权重为60%、第二行业类别表的权重为20%、第三行业类别表的权重为5%、第四行业类别表的权重为5%、第五行业类别表的权重为5%、第六行业类别表的权重为5%。
S11、加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表。
例如,对第一行业类别表至第六行业类别表进行加权计算,该企业属于批发零售行业的概率为:
60%*70%+20%*100%+5%*100%+5%*100%+5%*100%+5%*100%=82%;
该企业属于制造业的概率为:
60%*30%=18%;
第七行业类别表如表14所示;
表14
因此,通过对该企业的票据信息、工商注册信息、舆情信息、商标信息和上下游企业信息进行分析,得出结论:该企业有82%的概率属于批发零售行业,该企业有18%的概率属于制造业。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种识别企业所属行业的方法,其特征在于,包括:
根据多个票据样本训练第一深度学习模型;所述第一深度学习模型用于根据票据信息得到一企业所属的行业类别;每一所述票据样本包括一票据和与所述一票据对应的行业类别;
获取一企业的票据,得到票据集合;所述票据集合包括与所述一企业的主营业务经营范围对应的票据;
调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表;所述行业类别表中包括一条以上记录;每一所述记录包括一行业类别的名称和所述一企业属于所述一行业类别的概率。
2.根据权利要求1所述的识别企业所属行业的方法,其特征在于,调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表之前,还包括:
统计所述一企业的所有票据的数量,得到票据总数;
若所述一企业的所有票据中属于一类别的票据的数量占所述票据总数的比例大于预设的比例阈值,则添加属于所述一类别的所有票据至所述票据集合。
3.根据权利要求1所述的识别企业所属行业的方法,其特征在于,还包括:
获取所述一企业的工商注册信息;
调用预设的第二深度学习模型识别所述工商注册信息,得到第二行业类别表;所述第二深度学习模型用于根据工商注册信息得到一企业所属的行业类别;
获取与所述一企业对应的社会舆情信息;
调用预设的第三深度学习模型识别所述社会舆情信息,得到第三行业类别表;所述第三深度学习模型用于根据社会舆情信息得到一企业所属的行业类别;
获取与所述一企业的商标信息;
调用预设的第四深度学习模型识别所述商标信息,得到第四行业类别表;所述第四深度学习模型用于根据商标信息得到一企业所属的行业类别;
获取所述一企业的上游企业的行业类别,得到第五行业类别表;
获取所述一企业的下游企业的行业类别,得到第六行业类别表;
加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表。
4.根据权利要求3所述的识别企业所属行业的方法,其特征在于,加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表之前,还包括:
调用Attention Mechanism为所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表分配权重。
5.一种识别企业所属行业的终端,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
根据多个票据样本训练第一深度学习模型;所述第一深度学习模型用于根据票据信息得到一企业所属的行业类别;每一所述票据样本包括一票据和与所述一票据对应的行业类别;
获取一企业的票据,得到票据集合;所述票据集合包括与所述一企业的主营业务经营范围对应的票据;
调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表;
所述行业类别表中包括一条以上记录;每一所述记录包括一行业类别的名称和所述一企业属于所述一行业类别的概率。
6.根据权利要求5所述的识别企业所属行业的终端,其特征在于,调用预设的第一深度学习模型识别所述票据集合,得到第一行业类别表之前,还包括:
统计所述一企业的所有票据的数量,得到票据总数;
若所述一企业的所有票据中属于一类别的票据的数量占所述票据总数的比例大于预设的比例阈值,则添加属于所述一类别的所有票据至所述票据集合。
7.根据权利要求5所述的识别企业所属行业的终端,其特征在于,还包括:
获取所述一企业的工商注册信息;
调用预设的第二深度学习模型识别所述工商注册信息,得到第二行业类别表;所述第二深度学习模型用于根据工商注册信息得到一企业所属的行业类别;
获取与所述一企业对应的社会舆情信息;
调用预设的第三深度学习模型识别所述社会舆情信息,得到第三行业类别表;所述第三深度学习模型用于根据社会舆情信息得到一企业所属的行业类别;
获取与所述一企业的商标信息;
调用预设的第四深度学习模型识别所述商标信息,得到第四行业类别表;所述第四深度学习模型用于根据商标信息得到一企业所属的行业类别;
获取所述一企业的上游企业的行业类别,得到第五行业类别表;
获取所述一企业的下游企业的行业类别,得到第六行业类别表;
加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表。
8.根据权利要求7所述的识别企业所属行业的终端,其特征在于,加权计算所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表,得到第七行业类别表之前,还包括:
调用Attention Mechanism分别为所述第一行业类别表、所述第二行业类别表、所述第三行业类别表、所述第四行业类别表、所述第五行业类别表和所述第六行业类别表分配权重。
CN201910302994.5A 2019-04-16 2019-04-16 一种识别企业所属行业的方法及终端 Pending CN110059692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910302994.5A CN110059692A (zh) 2019-04-16 2019-04-16 一种识别企业所属行业的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910302994.5A CN110059692A (zh) 2019-04-16 2019-04-16 一种识别企业所属行业的方法及终端

Publications (1)

Publication Number Publication Date
CN110059692A true CN110059692A (zh) 2019-07-26

Family

ID=67319199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910302994.5A Pending CN110059692A (zh) 2019-04-16 2019-04-16 一种识别企业所属行业的方法及终端

Country Status (1)

Country Link
CN (1) CN110059692A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种***数据识别装置、相关方法及相关装置
CN111539782A (zh) * 2020-01-21 2020-08-14 ***股份有限公司 基于深度学习的商户信息数据处理方法及其***
CN111581242A (zh) * 2020-04-30 2020-08-25 北京贝禾无忧科技有限公司 识别企业票据用途的方法和***
CN111860981A (zh) * 2020-07-03 2020-10-30 航天信息(山东)科技有限公司 一种基于lstm深度学习的企业国民行业类别预测方法及***
CN112560433A (zh) * 2020-12-15 2021-03-26 北京百炼智能科技有限公司 一种信息处理的方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN105975457A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于全自动学习的信息分类预测***
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
US20170255858A1 (en) * 2009-08-28 2017-09-07 Pneuron Corp. Distributed processing network
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及***
CN108268880A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种行业类别的识别方法及装置
CN109165950A (zh) * 2018-08-10 2019-01-08 哈尔滨工业大学(威海) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170255858A1 (en) * 2009-08-28 2017-09-07 Pneuron Corp. Distributed processing network
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN105975457A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于全自动学习的信息分类预测***
CN108268880A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种行业类别的识别方法及装置
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及***
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN109165950A (zh) * 2018-08-10 2019-01-08 哈尔滨工业大学(威海) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种***数据识别装置、相关方法及相关装置
CN111539782A (zh) * 2020-01-21 2020-08-14 ***股份有限公司 基于深度学习的商户信息数据处理方法及其***
CN111539782B (zh) * 2020-01-21 2024-04-30 ***股份有限公司 基于深度学习的商户信息数据处理方法及其***
CN111581242A (zh) * 2020-04-30 2020-08-25 北京贝禾无忧科技有限公司 识别企业票据用途的方法和***
CN111860981A (zh) * 2020-07-03 2020-10-30 航天信息(山东)科技有限公司 一种基于lstm深度学习的企业国民行业类别预测方法及***
CN111860981B (zh) * 2020-07-03 2024-01-19 航天信息(山东)科技有限公司 一种基于lstm深度学习的企业国民行业类别预测方法及***
CN112560433A (zh) * 2020-12-15 2021-03-26 北京百炼智能科技有限公司 一种信息处理的方法及装置
CN112560433B (zh) * 2020-12-15 2024-04-19 北京百炼智能科技有限公司 一种信息处理的方法及装置

Similar Documents

Publication Publication Date Title
CN110059692A (zh) 一种识别企业所属行业的方法及终端
Ferwerda et al. Gravity models of trade-based money laundering
Brida et al. Has the tourism-led growth hypothesis been validated? A literature review
Uddin et al. Customer satisfaction in mobile phone services in Bangladesh: A survey research.
Bellone et al. Financial constraints and firm export behaviour
McCarthy et al. Bank financing and credit rationing of Australian SMEs
Beckerman et al. Crisis and Dollarization in Ecuador”¯: Stability, Growth, and Social Equity
Antón et al. The culture of gift giving: what do consumers expect from commercial and personal contexts?
Serrano et al. The long-run decline in the share of agricultural and food products in international trade: a gravity equation approach to its causes
Gao Mimetic isomorphism, market competition, perceived benefit and bribery of firms in transitional China
Fernandes et al. Scale, scope, and trade dynamics of export processing plants
Parinduri et al. Bank ownership and efficiency in the aftermath of financial crises: Evidence from I ndonesia
Oczkowski Analysing Firm‐level Price Effects for Differentiated Products: The Case of Australian Wine Producers
Cheng et al. What precludes the development of noninterest activities in Chinese commercial banks from the perspective of the price of interest activities?
Lee et al. Social media and values
Widiawati et al. Analysis of The Effect Of Sharia Financial Technology (Fintech) on Increasing Literacy and Inclusion of Sharia Financial Inclusion of Msmes in Dki Jakarta
Sarno et al. The persistence of capital inflows and the behaviour of stock prices in East Asia emerging markets: Some empirical evidence
Du Toit et al. Supplementary mineral resources and mineral reserves reports: readability and textual choice
Heid et al. Is competition from China so special?
Sun Deep learning applications in audit decision making
Nguyen et al. News Sentiment and the Economy| Bulletin–June 2020
Dryver et al. Validating risk models with a focus on credit scoring models
Black et al. Comparing lending decisions of minority-owned and White-owned banks: Is there discrimination in mortgage lending?
Xiao-hong et al. Impact of demographic traits of entrepreneurs on financing constraints of SMEs
Cai et al. The Peer Effects of the Usage of Credit Cards in Rural Areas of China: Evidence from Rural China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination