CN116502603A - 编码方法、设备、***及存储介质 - Google Patents
编码方法、设备、***及存储介质 Download PDFInfo
- Publication number
- CN116502603A CN116502603A CN202310496691.8A CN202310496691A CN116502603A CN 116502603 A CN116502603 A CN 116502603A CN 202310496691 A CN202310496691 A CN 202310496691A CN 116502603 A CN116502603 A CN 116502603A
- Authority
- CN
- China
- Prior art keywords
- coding
- description information
- target object
- coding result
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 230000010354 integration Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 133
- 238000009826 distribution Methods 0.000 claims description 117
- 238000012545 processing Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 26
- 238000004519 manufacturing process Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 21
- 235000014101 wine Nutrition 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 235000020097 white wine Nutrition 0.000 description 5
- 244000269722 Thea sinensis Species 0.000 description 3
- 235000013361 beverage Nutrition 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 235000013616 tea Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 235000019505 tobacco product Nutrition 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种编码方法、设备、***及存储介质,涉及人工智能领域,该编码方法,包括:获取目标对象的描述信息,通过预设的编码知识库获取与目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取目标对象的描述信息对应的第二编码结果;通过对第一编码结果和第二编码结果进行数据整合,得到目标对象的描述信息对应的第三编码结果,第三编码结果用于指示所述目标对象的类别编码。通过编码知识库能够快速获取具有可解释性的目标对象的描述信息对应的第一编码结果,通过编码预测模型能够获取准确率更高的目标对象的描述信息对应的第二编码结果,通过编码结果整合,为用户推荐准确性高的编码结果。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种编码方法、设备、***及存储介质。
背景技术
在日常统计业务中,统计部门需要对新入库企业以及主要业务活动变更的企业进行行业编码。由于编码规则过于复杂,一般由业务人员进行手动编码,存在学习成本高、编码工作专业性强、投入高产出低、编码正确率较低等问题。
相关技术中,可基于关键词匹配的全文检索方式,从编码知识库中快速获取与查询对象(如,某企业)匹配度较高的目标对象(如,业务相似的其他企业),将目标对象对应的编码信息作为查询对象的编码信息。
然而,由于上述方案主要基于文本的相似度信息,并未考虑对象的语义信息,导致召回的编码结果(如,企业的行业编码)不准确。
发明内容
本申请实施例提供一种编码方法、设备、***及存储介质,提升编码结果的准确率。
本申请的第一方面提供一种编码方法,包括:获取目标对象的描述信息;通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型分析所述目标对象的描述信息的全局信息和局部信息,获取所述目标对象的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标对象的类别编码。
本申请第一方面的一个可选实施例中,所述通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果,包括:通过预训练语言模型获取所述目标对象的描述信息的第一向量表示;通过调用向量检索引擎确定与所述第一向量表示的相似度大于第一阈值的向量表示结果,所述向量表示结果包括一个或多个第二向量表示;从所述编码知识库获取与所述一个或多个第二向量表示对应的描述信息对应的编码信息,将所述一个或多个第二向量表示对应的描述信息对应的编码信息作为所述第一编码结果。
本申请第一方面的一个可选实施例中,所述编码预测模型包括层次多标签分类器;所述通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果,包括:获取所述目标对象的描述信息的第一向量表示;将所述第一向量表示输入所述层次多标签分类器,获取所述目标对象的描述信息对应的全局概率分布信息和局部概率分布信息;根据所述全局概率分布信息和所述局部概率分布信息,确定所述目标对象的描述信息对应的第二编码结果。
本申请第一方面的一个可选实施例中,所述根据所述全局概率分布信息和所述局部概率分布信息,确定所述目标对象的描述信息对应的第二编码结果,包括:通过对所述全局概率分布信息和所述局部概率分布信息进行加权处理,获取所述目标对象的描述信息对应的总概率分布信息;将所述总概率分布信息中概率值大于第二阈值的编码结果,作为所述目标对象的描述信息对应的第二编码结果。
本申请第一方面的一个可选实施例中,所述层次多标签分类器包括依次连接的N个全连接层,N为大于或等于2的正整数;所述将所述第一向量表示输入所述层次多标签分类器,获取所述目标对象的描述信息对应的全局概率分布信息和局部概率分布信息,包括:所述第一向量表示依次经过所述N个全连接层的数据处理,得到第一概率分布信息;根据所述第一概率分布信息和所述第一向量表示,得到所述目标对象的描述信息对应的全局概率分布信息;从所述N个全连接层的各层获取输出的概率分布信息,将N个全连接层输出的概率分布信息进行拼接,得到所述目标对象的描述信息对应的局部概率分布信息。
本申请第一方面的一个可选实施例中,所述方法还包括:从预设的知识图谱获取与所述目标对象直接连接的一个或多个对象的候选描述信息;从所述一个或多个对象的候选描述信息中,获取与所述目标对象的描述信息相似的描述信息;将与所述目标对象的描述信息相似的描述信息添加至所述目标对象的描述信息中。
本申请第一方面的一个可选实施例中,所述通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,包括:若所述第二编码结果中存在概率大于或等于第三阈值的编码结果,根据第一规则对所述第一编码结果和所述第二编码结果进行排序,得到所述第三编码结果;或者,若所述第二编码结果中不存在概率大于或等于所述第三阈值的编码结果,根据第二规则对所述第一编码结果和所述第二编码结果进行排序,得到所述第三编码结果。
本申请的第二方面提供一种企业编码方法,包括:接收来自客户端的编码查询请求,所述编码查询请求中包括目标企业的描述信息;通过预设的编码知识库获取与所述目标企业的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标企业的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标企业的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标企业的行业编码;向所述客户端发送编码查询响应,所述编码查询响应包括所述第三编码结果。
本申请的第三方面提供一种编码设备,包括:获取模块,用于获取目标对象的描述信息;处理模块,用于通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标对象的类别编码。
本申请的第四方面提供一种编码设备,包括:接收模块,用于接收来自客户端的编码查询请求,所述编码查询请求中包括目标企业的描述信息;处理模块,用于通过预设的编码知识库获取与所述目标企业的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标企业的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标企业的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标企业的行业编码;发送模块,用于向所述客户端发送编码查询响应,所述编码查询响应包括所述第三编码结果。
本申请的第五方面提供一种电子设备,包括:存储器,处理器以及计算机程序;所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本申请第一方面任一项所述的方法,或者如本申请第二方面所述的方法。
本申请的第六方面提供一种编码***,包括:端侧设备和云侧设备;所述端侧设备,用于向云侧设备发送编码查询请求,所述编码查询请求中包括目标对象的描述信息;所述云侧设备,用于通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标对象的类别编码;所述云侧设备,还用于向所述端侧设备发送所述第三编码结果。
本申请的第七方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如本申请第一方面任一项所述的方法,或者如本申请第二方面所述的方法。
本申请的第八方面提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请第一方面任一项所述的方法,或者如本申请第二方面所述的方法。
本申请的第九方面提供一种芯片,芯片包括处理器,处理器用于调用存储器中的计算机程序,以执行如本申请第一方面任一项所述的方法,或者如本申请第二方面所述的方法。
本申请提供一种编码方法、设备、***及存储介质,涉及人工智能领域,该编码方法,包括:获取目标对象的描述信息,通过预设的编码知识库获取与目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取目标对象的描述信息对应的第二编码结果;通过对第一编码结果和第二编码结果进行数据整合,得到目标对象的描述信息对应的第三编码结果,第三编码结果用于指示所述目标对象的类别编码。通过编码知识库能够快速获取具有可解释性的目标对象的描述信息对应的第一编码结果,通过编码预测模型能够获取准确率更高的目标对象的描述信息对应的第二编码结果,通过编码结果整合,为用户推荐准确性高的编码结果。
附图说明
图1为本申请实施例提供的一种编码方法的应用场景示意图;
图2为本申请实施例提供的一种编码方法的流程示意图;
图3为本申请实施例提供的一种编码预测模型的结构示意图;
图4为本申请实施例提供的一种编码方法的流程示意图;
图5为本申请实施例提供的一种知识图谱的结构示意图;
图6为本申请实施例提供的一种编码方法的流程示意图;
图7为本申请实施例提供的通过编码知识库获取编码结果的示意图;
图8为本申请实施例提供的应用于预测行业编码的编码预测模型的原理示意图;
图9为本申请实施例提供的一种编码方法的流程示意图;
图10为本申请实施例提供的一种企业图谱的结构示意图;
图11为本申请实施例提供的一种编码设备的结构示意图;
图12为本申请实施例提供的一种编码设备的结构示意图;
图13为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被理解为比其他实施例或设计方案更优选或更具优势。确定而言,使用“示例性的”或“例如”等词旨在以具体方式呈现相关概念。
下面首先对本申请实施例涉及的专业术语进行简要介绍。
第一,向量检索:是在一个给定的向量数据集中,按照某种度量方式,检索出与查询向量相近的K个向量。
第二,企业图谱:通过图数据结构来展示企业的多维度信息、企业内在和外在的多种关系信息等。
第三,Bert(Bidirectional Encoder Representation from Transformers,即双向Transformer的编码器):一种预训练语言模型。StructBert/Roberta为Bert的变体模型。
第四,国民经济行业:从事相同性质的经济活动的所有单位的集合。
第五,单位主要活动:当一个单位对外从事两种以上的经济活动时,占其单位增加值份额最大的一种活动称为主要活动。
基于背景技术部分的描述,针对新入库企业或主要业务活动变更的企业,在对这些企业进行行业编码时,可以基于关键词匹配的全文检索方式,在已有的编码知识库中查询字面匹配度大于阈值的知识点所对应的行业编码,将其作为查询企业对应的行业编码。然而,由于该方案依赖分词效果,且字符相似度计算未考虑语义信息,因此召回的编码结果并不准确。
针对上述问题,本申请实施例提出一种编码方法,其主要发明思路如下:在获取用户输入的目标对象的描述信息(如,企业的名称和主要活动描述等),可通过以下两路数据处理过程获取目标对象的描述信息对应的编码结果(如,企业的行业编码):一路是通过预先构建的编码知识库,在该编码知识库中查询与目标对象的描述信息匹配度高的描述信息所对应的编码结果;另一路是通过预训练的编码预测模型,基于该模型学习目标对象的描述信息的语义信息,获取目标对象的描述信息对应的编码结果。上述两路并行执行,通过整合上述两路的编码结果,输出最终的目标对象的描述信息对应的编码结果。
上述方案整合了两路数据处理结果,为用户推荐高准确率的编码结果,编码结果中:利用编码知识库得到的编码结果具有可解释性和实时性,利用编码预测模型得到的编码结果,由于学习了目标对象描述信息的语义信息,准确率高。
为便于理解本申请实施例技术方案,下面首先对本申请实施例提供的技术方案的应用场景进行简要介绍。
图1为本申请实施例提供的一种编码方法的应用场景示意图。如图1所示,该场景包括客户端110和服务器120,客户端110通过通信网络与服务器120连接。
服务器120可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中,服务器120可以执行任何适当的功能。例如,在一些实施例中,服务器120中部署用于实现本申请技术方案的执行代码,用于处理来自客户端110的编码查询请求,编码查询请求中包括用户输入的目标对象的描述信息,通过部署在服务器120的编码知识库和编码预测模型,获得目标对象的描述信息对应的编码结果,并向客户端110返回该编码结果。
在另一些实施例中,可以通过调用向量检索引擎,从编码知识库中获取与目标对象的描述信息的向量相似度大于第一阈值的描述信息对应的编码信息,将该编码信息作为目标对象的描述信息对应的编码结果。需要说明的是,向量相似度为两个描述信息的向量表示的相似度,例如,一个描述信息为目标对象的描述信息“酒的生产”,另一个描述信息为编码知识库中某一对象的描述信息“白酒制造”,获取“酒的生产”的向量表示,以及“白酒制造”的向量表示,这两个向量表示的相似度指示两个对象的语义信息的相似程度。
在另一些实施例中,还可以基于知识图谱扩充用户输入的目标对象的描述信息,实现对编码预测模型的输入数据的数据增强。
可选的,向量检索引擎可以部署在服务器120中,也可以部署在其他服务器。若向量检索引擎部署在其他服务器,服务器120可通过调用其他服务器的向量检索引擎获取编码知识库中描述信息对应的向量表示。
通信网络可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。客户端110能够通过一个或多个通信链路连接到通信网络,该通信网络能够经由一个或多个通信链路被链接到服务器120。通信链路可以是适合于在客户端110和服务器120之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
客户端110可以包括适合于接收用户输入的编码查询请求的任何一个或多个用户设备,用户输入包括目标对象的描述信息,如目标对象为企业名称和主要活动描述等,对此本申请不做具体限定。在一些实施例中,客户端110可以包括任何合适类型的设备。例如,在一些实施例中,客户端110可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、任何其他合适类型的用户设备,对此本申请实施例不作任何限制。
尽管将服务器120图示为一个设备,但是在一些实施例中,可以使用任何适当数量的设备来执行由服务器120执行的功能。例如,在一些实施例中,可以使用多个设备来实现由服务器120执行的功能。或者,可使用云服务实现服务器120的功能,即服务器120可以是云服务器。
在一种可能的场景中,服务器120部署的编码知识库为行业编码知识库,行业编码知识库中的其中一条知识点包括行业描述信息、行业描述信息对应的编码信息以及向量表示。服务器120部署的编码预测模型用于预测目标企业的描述信息对应的编码信息,编码预测模型的输入为目标企业的描述信息,编码预测模型的输出为目标企业的描述信息对应的行业编码。一种示例中,服务器120接收来自客户端110的编码查询请求,该编码查询请求中包括目标企业的描述信息,如企业的名称和主要活动描述等。服务器120通过部署的行业编码知识库和编码预测模型,获得目标企业的描述信息对应的编码结果,向客户端110返回编码查询响应,该编码查询响应包括目标企业的描述信息对应的编码结果。
在一种可能的场景中,服务器120部署的编码知识库为产品编码知识库,产品编码知识库中的其中一条知识点包括产品描述信息、产品描述信息对应的编码信息以及向量表示。服务器120部署的编码预测模型用于预测目标产品的描述信息对应的编码信息,编码预测模型的输入为目标产品的描述信息,编码预测模型的输出为目标产品的描述信息对应的产品编码。一种示例中,服务器120接收来自客户端110的编码查询请求,该编码查询请求中包括目标产品的描述信息,如产品的名称、性能、参数等。服务器120通过部署的产品编码知识库和编码预测模型,获得目标产品的描述信息对应的编码结果,向客户端110返回编码查询响应,该编码查询响应包括目标产品的描述信息对应的编码结果。
需要说明的是,本申请实施例提供的编码方案除了应用于上述两种应用场景之外,可以推广至其他领域的对象编码,需要构建该领域的编码知识库,以及预训练该领域的预测编码模型,以便基于编码知识库和预测编码模型,获取查询对象的描述信息对应的编码结果。
下面通过具体实施例对本申请提供的编码方案进行详细说明。需要说明的是,本申请实施例提供的技术方案可以包括以下内容中的部分或全部,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本申请实施例提供的一种编码方法的流程示意图。该编码方法可应用于图1所示的服务器,或者其他执行装置,如图2所示,该方法包括以下步骤:
S201、获取目标对象的描述信息。
本实施例中,目标对象的描述信息包括但不限于目标对象的名称、属性信息等。
一种示例中,目标对象可以是企业,企业的描述信息包括例如企业的名称、主要活动描述等。另一种示例中,目标对象可以是产品,产品的描述信息包括例如产品的名称、性能、参数等。
S202、通过预设的编码知识库获取与目标对象的描述信息相似的描述信息对应的第一编码结果。
本实施例中,预设的编码知识库包括多条描述信息,以及多条描述信息对应的编码信息。
一种可选的实施方式中,S202包括:从预设的编码知识库中获取与目标对象的描述信息的字符相似度大于预设阈值的一条或多条描述信息;将一条或多条描述信息对应的编码信息作为第一编码结果。
本实施例通过从预设的编码知识库中获取与目标对象的描述信息字符相似的描述信息,将与目标对象的描述信息字符相似的描述信息对应的编码信息,作为目标对象的描述信息对应的编码信息,能够快速查询到可能匹配目标对象描述信息的编码信息。
一种可选的实施方式中,S202包括:通过预训练语言模型获取目标对象的描述信息的第一向量表示;通过调用向量检索引擎确定与第一向量表示的相似度大于第一阈值的向量表示结果,向量表示结果包括一个或多个第二向量表示;从编码知识库中获取与将一个或多个第二向量表示对应的描述信息对应的编码信息,将该编码信息作为第一编码结果。本实施例中,预训练语言模型可采用Bert、StructBert、Roberta等模型结构,对此本申请不做限定。向量检索引擎可以部署在服务器,或者其他服务器,对此本申请不做限定。
需要说明的是,目标对象和编码知识库中的对象需要生成向量表示,这是向量检索的关键环节。本示例采用离线方式生成编码知识库中各个对象的描述信息对应的向量表示,并基于这些对象的描述信息及其向量表示构建向量索引,加载到向量检索引擎中,或者说向量检索引擎包括编码知识库中各个对象的描述信息以及对应的向量表示。在实际应用中,通过在线方式实时查询时,用查询向量在之前构建的向量索引中查找相似度大于第一阈值的向量对应的编码信息。
本实施例基于向量检索,从向量检索引擎中获取与目标对象的描述信息相似的描述信息,并从编码知识库获取与目标对象的描述信息相似的描述信息对应的编码信息,作为目标对象的描述信息对应的编码信息,向量相似度计算是对描述信息语义层面的相似度计算,得到的编码信息准确率更高。
S203、通过预训练的编码预测模型,获取目标对象的描述信息对应的第二编码结果。
一种可选的实施例中,编码预测模型包括层次多标签分类器。S203包括:获取目标对象的描述信息的第一向量表示;将第一向量表示输入层次多标签分类器,获取目标对象的描述信息对应的全局概率分布信息和局部概率分布信息;根据全局概率分布信息和局部概率分布信息,确定目标对象的描述信息对应的第二编码结果。
图3为本申请实施例提供的一种编码预测模型的结构示意图。如图3所示,编码预测模型中的层次多标签分类器,包括依次连接的N个全连接层,N为大于或等于2的正整数,图3以N取3为例,通过预训练语言模型获取目标对象的描述信息的第一向量表示后,可通过如下步骤确定目标对象的描述信息对应的第二编码结果:
S31、将第一向量表示输入层次多标签分类器的第一层全连接层,依次经过3个全连接层的数据处理,得到第一概率分布信息,根据第一概率分布信息和第一向量表示,得到目标对象的描述信息对应的全局概率分布信息。
S32、从N个全连接层的各层获取输出的概率分布信息,将3个全连接层输出的概率分布信息进行拼接,得到目标对象的描述信息对应的局部概率分布信息。
S33、通过对全局概率分布信息和局部概率分布信息进行加权处理,获取目标对象的描述信息对应的总概率分布信息,将总概率分布信息中概率值大于第二阈值的编码结果,作为目标对象的描述信息对应的第二编码结果。
本示例中,第一向量表示经第一层全连接层处理后,与第一向量表示叠加后,作为第二层全连接层的输入,经第二层全连接层处理后,再与第一向量表示叠加后,作为第三层全连接层的输入,经第三层全连接层处理后,再与第一向量表示叠加后,得到目标对象的描述信息对应的全局概率分布信息。与此同时,分别从第一层全连接层、第二层全连接层和第三层全连接层的输出端获取:第二概率分布信息、第三概率分布信息和第四概率分布信息。将第二概率分布信息、第三概率分布信息和第四概率分布信息进行拼接,得到目标对象的描述信息对应的局部概率分布信息。
其中,第一概率分布信息也可以描述为第一概率分布向量,第二概率分布信息也可以描述为第二概率分布向量,第三概率分布信息也可以描述为第三概率分布向量,第四概率分布信息也可以描述为第四概率分布向量,全局概率分布信息也可以描述为全局概率分布向量,局部概率分布信息也可以描述为局部概率分布向量。
一种可选的实施例中,根据预设的全局概率分布信息和局部概率分布信息的权重,目标对象的描述信息对应的全局概率分布信息和局部概率分布信息,确定目标对象的描述信息对应的总概率分布信息。可通过如下公式表示总概率分布信息:
式中,PF表示目标对象的描述信息对应的总概率分布信息,PG表示目标对象的描述信息对应的全局概率分布信息,表示层次多标签分类器的第一层全连接层输出的第二概率分布信息,/>表示层次多标签分类器的第二层全连接层输出的第三概率分布信息,/>表示层次多标签分类器的第三层全连接层输出的第四概率分布信息,β表示全局概率分布信息的权重,1-β表示局部概率分布信息的权重。
S204、通过对第一编码结果和第二编码结果进行数据整合,得到目标对象的描述信息对应的第三编码结果,第三编码结果用于指示目标对象的类别编码。
一种可选的实施例中,若第二编码结果中存在概率大于或等于第三阈值的编码结果,根据第一规则对第一编码结果和第二编码结果进行排序,得到第三编码结果。其中,第一规则是指将第一编码结果和第二编码结果中排序相同的编码结果,按照第一编码结果在前第二编码结果在后的规则进行排序。
一种可选的实施例中,若第二编码结果中不存在概率大于或等于第三阈值的编码结果,根据第二规则对第一编码结果和第二编码结果进行排序,得到第三编码结果。其中,第二规则是指将第一编码结果和第二编码结果中排序相同的编码结果,按照第二编码结果在前第一编码结果在后的规则进行排序。
示例性的,假设第一编码结果按照向量相似度值从大到小推荐前3个编码知识库对象对应的类别编码,分别为A1,A2,A3。第二编码结果按照模型预测概率值从大到小推荐前3个类别编码,分别为B1,B2,B3。若B1≥0.5(第三阈值),则第三编码结果推荐的目标对象的描述信息对应的类别编码排序为B1,A1,B2,A2,B3,A3。若B1<0.5,则第三编码结果推荐的目标对象的描述信息对应的类别编码排序为A1,B1,A2,B2,A3,B3。
综上,本实施例示出的编码方法,在获取目标对象的描述信息后,通过预设的编码知识库获取与目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取目标对象的描述信息对应的第二编码结果;通过对第一编码结果和第二编码结果进行数据整合,得到目标对象的描述信息对应的第三编码结果,第三编码结果用于指示所述目标对象的类别编码。通过编码知识库能够快速获取具有可解释性的目标对象的描述信息对应的第一编码结果,通过编码预测模型能够获取准确率更高的目标对象的描述信息对应的第二编码结果,通过编码结果整合,为用户推荐准确性高的编码结果。
图4为本申请实施例提供的一种编码方法的流程示意图。在图2所示实施例的基础上,如图4所示,本实施例的编码方法还包括以下步骤:
S401、从预设的知识图谱获取与目标对象直接连接的一个或多个对象的候选描述信息。示例性的,图5为本申请实施例提供的一种知识图谱的结构示意图。图5所示的知识图谱包括:多个对象,如图5中的对象1、对象2、对象3,对象4,其中对象1分别与对象2、对象3和对象4连接,对象3和对象4连接;对象的一条或多条描述信息,如图5中的对象2连接一条描述信息a,对象4连接两条描述信息b和c。基于图5所示的知识图谱,假设目标对象为对象1,与其直接连接的对象有:对象2、对象3和对象4,可将对象2的描述信息a,以及对象4的描述信息b和c作为对象1的候选描述信息。
通过知识图谱的查询,可以对用户输入的目标对象的描述信息进行补充和数据增强。
S402、从一个或多个对象的候选描述信息中,获取与目标对象的描述信息相似的描述信息。
一种可选的实施例中,可基于预训练语言模型获取候选描述信息对应的向量表示,以及目标对象的描述信息的向量表示,采用向量余弦相似度计算的方法,从一个或多个对象的候选描述信息中,获取与目标对象的描述信息相似的描述信息。
本实施例主要是针对候选描述信息较多的情形,通过向量余弦相似度计算尽可能准确地从候选描述信息中进行内容筛选,使得为目标对象扩充的描述信息更贴近其描述。
S403、将与目标对象的描述信息相似的描述信息添加至目标对象的描述信息中。
在另一些实施例中,若S401中的候选描述信息只有一条,也可以直接将该条候选描述信息添加至目标对象的描述信息中,以扩充目标对象的描述信息。
本实施例示出的方法步骤是对S203中编码预测模型的输入内容的扩充,可在获取目标对象的描述信息后,执行本实施例的方法步骤。该方法步骤可避免由于用户输入内容质量低而导致模型预测效果不佳的问题,借助预设的知识图谱可以获取到目标对象相关的对象的描述信息,为后续模型预测提供数据支撑。
下面以服务器部署的编码知识库为行业编码知识库,编码预测模型用于预测目标企业的描述信息对应的编码信息为例,对本申请提供的编码方法进行详细说明。
图6为本申请实施例提供的一种编码方法的流程示意图。本实施例提供的编码方法涉及客户端与服务器的交互,如图6所示,该方法包括以下步骤:
S601、客户端向服务器发送编码查询请求,编码查询请求中包括目标企业的描述信息。
本实施例中,用户通过客户端访问服务器,在服务器提供的用户界面上输入目标企业的描述信息。响应于用户的输入操作,客户端向服务器发送编码查询请求,该编码查询请求中包括用户输入的目标企业的描述信息。示例性的,目标企业的描述信息包括:企业名称:A企业;主要活动描述:软件信息技术服务。
S602、服务器通过预设的编码知识库获取与目标企业的描述信息相似的描述信息对应的第一编码结果。
本实施例中,编码知识库为行业编码知识库。一种示例中,行业编码知识库中的其中一条知识点包括企业对象的描述信息,以及企业对象的描述信息对应的编码信息。另一种示例中,行业编码知识库中的其中一条知识点包括企业对象的描述信息、企业对象的描述信息对应的编码信息以及向量表示。
下面对行业编码知识库的构建过程进行说明。
通常情况下,行业编码划分为大类、中类和小类三级。下面以最细粒度的小类编码为例进行说明。小类编码由四位数字编码表示,前两位数字表示大类编码,前三位数字表示中类编码。例如,1512为小类“白酒制造”的编码,15为大类“酒、饮料和精制茶制造业”的编码,151为中类“酒的制造”的编码。
行业编码知识库中知识点的来源包括三部分:
1)国民经济行业分类体系中,每个小类的标签名称,如“白酒制造”和“烟草制品零售”。
2)分类体系的注释文档中提及的实例,例如“白酒制造”包括“固态法白酒”、“半固态法白酒”、“液态法白酒”、“固态法白酒”等等。
3)来源于用户填报的主要活动描述,如“酒的生产”等等。
针对1)和2)可以直接构建标准知识点;针对3),可以通过人工标注、与标准知识点匹配等方式获得知识点。知识点通常表示为三元组形式,即<知识点名称,行业编码,知识来源>,并存储于行业编码知识库中。例如,知识点<白酒制造,1512,注释本>来源于注释文档,是专家总结的知识,而<白酒的生产,1512,填报>来源于用户填报,通过1)和2)构建的知识点质量高于3)。
本实施例中,预设的编码知识库包括多条行业描述信息,以及多条行业描述信息对应的编码信息。
一种可选的实施方式中,S602包括:从预设的行业编码知识库中获取与目标企业的描述信息的字符相似度大于预设阈值的一个或多条行业描述信息;将一个或多条行业描述信息对应的编码信息作为第一编码结果。
本实施例通过从预设的行业编码知识库中获取与目标企业的描述信息字符相似的描述信息,将与目标企业的描述信息字符相似的描述信息对应的编码信息,作为目标企业的描述信息对应的编码信息,能够快速查询到可能匹配目标企业描述信息的编码信息。
一种可选的实施方式中,S602包括:通过预训练语言模型获取目标企业的描述信息的第一向量表示;通过调用向量检索引擎确定与第一向量表示的相似度大于第一阈值的向量表示结果,向量表示结果包括一个或多个第二向量表示;从行业编码知识库获取与一个或多个第二向量表示对应的行业描述信息对应的编码信息,将该编码信息作为第一编码结果。本实施例中,预训练语言模型可采用Bert、StructBert、Roberta等模型结构,对此本申请不做限定。向量检索引擎可以部署在服务器,或者其他服务器,对此本申请不做限定。
示例性的,图7为本申请实施例提供的通过编码知识库获取编码结果的示意图。如图7所示,行业编码知识库包括多条行业描述信息(即图7中的行业词条)以及各条行业描述信息对应的编码。假设用户输入的目标企业的描述信息包括例如“酒的生产”,将该目标企业的描述信息输入在线的预训练语言模型,可获得“酒的生产”的向量表示。行业编码知识库中的多条行业描述信息对应的向量表示可通过离线的预训练语言模型提前获得,可将行业编码知识库中多条行业描述信息对应的向量表示存储至向量检索引擎中,服务器可通过调用向量检索引擎,确定与目标企业的描述信息的向量表示的相似度大于第一阈值的行业描述信息,从而将该行业描述信息对应的编码作为目标企业的描述信息对应的行业编码。
具体来说,基于图7所示的余弦相似度计算模块,服务器可得到行业编码知识库中的各条行业描述信息与目标企业的描述信息“酒的生产”之间的向量余弦相似度得分,例如行业编码知识库中“白酒制造”与目标企业的描述信息“酒的生产”之间的向量余弦相似度得分为0.88,该得分为所有得分中的最高得分,行业编码知识库中的其他行业描述信息与“酒的生产”之间的向量余弦相似度得分均小于第一阈值(例如0.5),则第一编码结果为行业编码知识库中“白酒制造”对应的编码“1512”。
值得注意的是,基于关键字匹配的全文检索方法相较于向量检索存在召回率低的缺点,如图7所示,目标企业的描述信息“酒的生产”和行业编码知识库中的行业描述信息“白酒制造”、“酒、饮料及茶叶批发”、“酒、饮料及茶叶零售”均只含有一个共同词“酒”,若设定推荐行业编码知识库中的N个行业描述信息,例如N取2,则其推荐结果可能会遗漏“白酒制造”这个最相关的行业描述信息。然而,向量检索考虑了描述信息的语义信息,因此“酒的生产”与“白酒制造”在语义上更为贴切,向量检索具有更好的召回准确率。
本实施例基于向量检索,从向量检索引擎中获取与目标企业的描述信息相似的描述信息,并从行业编码知识库中获取与目标企业的描述信息相似的描述信息对应的编码信息,将其作为目标企业的描述信息对应的编码信息,向量相似度计算是对描述信息语义层面的相似度计算,得到的编码信息准确率更高。
S603、服务器通过预训练的编码预测模型,获取目标企业的描述信息对应的第二编码结果。
一种可选的实施例中,编码预测模型包括层次多标签分类器。S603包括:获取目标企业的描述信息的第一向量表示;将第一向量表示输入层次多标签分类器,获取目标企业的描述信息对应的全局概率分布信息和局部概率分布信息;根据全局概率分布信息和局部概率分布信息,确定目标企业的描述信息对应的第二编码结果。
一种可选的实施例中,根据预设的全局概率分布信息和局部概率分布信息的权重,目标企业的描述信息对应的全局概率分布信息和局部概率分布信息,确定目标企业的描述信息对应的总概率分布信息。
下面结合一个具体示例对S603进行详细说明。图8为本申请实施例提供的应用于预测行业编码的编码预测模型的原理示意图。如图8所示,编码预测模型包括层次多标签分类器,层次多标签分类器包括依次连接的三个全连接层,第一层全连接层可用于预测行业大类的概率分布信息,第二层全连接层可用于预测行业中类的概率分布信息,第三层全连接层用于预测行业小类的概率分布信息。示例性的,用户输入的目标企业的描述信息包括:企业名称:A企业;主要活动描述:软件信息技术服务。将目标企业的描述信息输入预训练语言模型,得到目标企业的描述信息的向量表示X。向量表示X输入第一层全连接层,得到行业大类的概率分布信息 叠加向量表示X后,输入第二层全连接层,得到行业中类的概率分布信息/> 叠加向量表示X后,输入第三层全连接层,得到行业小类的概率分布信息 叠加向量表示X后,得到目标企业的描述信息对应的全局概率分布信息PG。此外,将各层全连接层输出的概率分布信息作拼接,得到目标企业的描述信息对应的局部概率分布信息/>随后,基于上述实施例示出的公式(1),获得目标企业的描述信息对应的总概率分布信息,基于总概率分布信息确定目标企业对应的第二编码结果,第二编码结果包括:应用软件开发(6513)。
通过预训练语言模型和编码预测模型的层次多标签分类器,可以充分学习不同层级的行业类别信息,提升编码结果的准确率。
S604、服务器通过对第一编码结果和第二编码结果进行数据整合,得到目标企业的描述信息对应的第三编码结果,第三编码结果用于指示目标企业的行业编码。
本实施例的S604可参加上述实施例的S204,此处不再赘述。
S605、服务器向客户端发送编码查询响应,编码查询响应包括第三编码结果。
综上,实施例示出的编码方法,在获取目标企业的描述信息后,通过预设的行业编码知识库获取与目标企业的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取目标企业的描述信息对应的第二编码结果;通过对第一编码结果和第二编码结果进行数据整合,得到目标企业的描述信息对应的第三编码结果,第三编码结果用于指示目标企业的行业编码。通过行业编码知识库能够快速获取具有可解释性的目标企业的描述信息对应的第一编码结果,通过编码预测模型能够获取准确率更高的目标企业的描述信息对应的第二编码结果,通过编码结果整合,为用户推荐准确性高的编码结果。
图9为本申请实施例提供的一种编码方法的流程示意图。在图6所示实施例的基础上,如图9所示,该编码方法还可以包括以下步骤:
S901、从预设的企业图谱获取与目标企业直接连接的一个或多个企业的候选描述信息。示例性的,图10为本申请实施例提供的一种企业图谱的结构示意图。图10所示的企业图谱包括:A企业,B企业,C企业和D企业,其中A企业分别与B企业、C企业和D企业连接,企业C和企业D连接;企业的主要活动描述,如B企业的主要活动描述为“新能源汽车整车销售”,C企业的主要活动描述为“软件开发”。基于图10所示的企业图谱,假设目标企业为企业A,与其直接连接的企业有:企业B、企业C和企业D,可将企业B的主要活动描述和企业C的主要活动描述作为企业A的候选描述信息。
通过企业图谱的查询,可以对用户输入的目标企业的描述信息进行补充和数据增强。
S902、从一个或多个企业的候选描述信息中,获取与目标企业的描述信息相似的描述信息。
一种可选的实施例中,可基于预训练语言模型获取候选描述信息对应的向量表示,以及目标企业的描述信息的向量表示,采用向量余弦相似度计算的方法,从一个或多个企业的候选描述信息中,获取与目标企业的描述信息相似的描述信息。
本实施例主要是针对候选描述信息较多的情形,通过向量余弦相似度计算尽可能准确地从候选描述信息中进行内容筛选,使得为目标企业扩充的描述信息更贴近其描述。
S903、将与目标企业的描述信息相似的描述信息添加至目标企业的描述信息中。
在另一些实施例中,若S901中的候选描述信息只有一条,也可以直接将该条候选描述信息添加至目标企业的描述信息中,以扩充目标企业的描述信息。
本实施例示出的方法步骤是对S603中编码预测模型的输入内容的扩充,避免由于用户输入内容质量低而导致模型预测效果不佳的问题,借助预设的企业图谱可以获取到与目标企业相关的企业的描述信息,为后续模型预测提供数据支撑。
示例性的,参照附图8和图10,通过企业图谱可获取与A企业相关的B企业的主要活动描述“新能源汽车整车销售”,将该主要活动描述作为A企业的补充描述信息,输入至图8所示的预训练语言模型,再经预测编码模型的分析处理,得到包括应用软件开发(6513)和新能源整车制造(3612)的编码结果。
需要说明的是,在上述实施例及附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
上文描述了本申请实施例提供的编码方法,下面将描述本申请实施例提供的编码设备。本申请实施例可以根据上述方法实施例对编码设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现,也可以使用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。
图11为本申请实施例提供的一种编码设备的结构示意图。如图11所示,本实施例的编码设备1100,包括:获取模块1101和处理模块1102。
获取模块1101,用于获取目标对象的描述信息;
处理模块1102,用于通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果;
通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果;
通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标对象的类别编码。
本实施例的一个可选实施例中,处理模块1102,用于:
通过预训练语言模型获取所述目标对象的描述信息的第一向量表示;
通过调用向量检索引擎确定与所述第一向量表示的相似度大于第一阈值的向量表示结果,所述向量表示结果包括一个或多个第二向量表示;
从所述编码知识库获取与所述一个或多个第二向量表示对应的描述信息对应的编码信息,将所述一个或多个第二向量表示对应的描述信息对应的编码信息作为所述第一编码结果。
本实施例的一个可选实施例中,所述编码预测模型包括层次多标签分类器,处理模块1102,用于:
获取所述目标对象的描述信息的第一向量表示;
将所述第一向量表示输入所述层次多标签分类器,获取所述目标对象的描述信息对应的全局概率分布信息和局部概率分布信息;
根据所述全局概率分布信息和所述局部概率分布信息,确定所述目标对象的描述信息对应的第二编码结果。
本实施例的一个可选实施例中,处理模块1102,用于:
通过对所述全局概率分布信息和所述局部概率分布信息进行加权处理,获取所述目标对象的描述信息对应的总概率分布信息;
将所述总概率分布信息中概率值大于第二阈值的编码结果,作为所述目标对象的描述信息对应的第二编码结果。
本实施例的一个可选实施例中,所述层次多标签分类器包括依次连接的N个全连接层,N为大于或等于2的正整数,处理模块1102,用于:
所述第一向量表示依次经过所述N个全连接层的数据处理,得到第一概率分布信息;
根据所述第一概率分布信息和所述第一向量表示,得到所述目标对象的描述信息对应的全局概率分布信息;
从所述N个全连接层的各层获取输出的概率分布信息,将N个全连接层输出的概率分布信息进行拼接,得到所述目标对象的描述信息对应的局部概率分布信息。
本实施例的一个可选实施例中,处理模块1102,用于:
从预设的知识图谱获取与所述目标对象直接连接的一个或多个对象的候选描述信息;
从所述一个或多个对象的候选描述信息中,获取与所述目标对象的描述信息相似的描述信息;
将与所述目标对象的描述信息相似的描述信息添加至所述目标对象的描述信息中。
本实施例的一个可选实施例中,处理模块1102,用于:
若所述第二编码结果中存在概率大于或等于第三阈值的编码结果,根据第一规则对所述第一编码结果和所述第二编码结果进行排序,得到所述第三编码结果;或者
若所述第二编码结果中不存在概率大于或等于所述第三阈值的编码结果,根据第二规则对所述第一编码结果和所述第二编码结果进行排序,得到所述第三编码结果。
本实施例提供的编码设备,可用于执行上述图2或图4所示方法实施例的编码方法,其实现原理和技术效果类似,本实施例此处不再赘述。
图12为本申请实施例提供的一种编码设备的结构示意图。如图12所示,本实施例的编码设备1200,包括:接收模块1201,处理模块1202和发送模块1203。
接收模块1201,用于接收来自客户端的编码查询请求,所述编码查询请求中包括目标企业的描述信息;
处理模块1202,用于通过预设的编码知识库获取与所述目标企业的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标企业的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标企业的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标企业的行业编码;
发送模块1203,用于向所述客户端发送编码查询响应,所述编码查询响应包括所述第三编码结果。
本实施例提供的编码设备,可用于执行上述图6或图9所示方法实施例的编码方法,其实现原理和技术效果类似,本实施例此处不再赘述。
图13为本申请实施例提供的一种电子设备的结构示意图。如图13所示,该电子设备包括:存储器1301和处理器1302。存储器1301,用于存储计算机程序,并可被配置为存储其它各种数据以支持在编码设备上的操作。处理器1302,与存储器1301耦合,用于执行存储器1301中的计算机程序,以实现前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在一些实施例中,如图13所示,该电子设备还包括:防火墙1303、负载均衡器1304、通信组件1305、电源组件1306等其它组件。图13中仅示意性给出部分组件,并不意味着电子设备只包括图13所示组件。
本申请实施例还提供一种编码***,参照附图1,本实施例的编码***可以包括端侧设备和云侧设备。云侧设备上部署有预设的编码知识库和预训练的编码预测模型。
端侧设备,用于向云侧设备发送编码查询请求,编码查询请求中包括目标对象的描述信息;云侧设备,用于通过预设的编码知识库获取与目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取目标对象的描述信息对应的第二编码结果;通过对第一编码结果和第二编码结果进行数据整合,得到目标对象的描述信息对应的第三编码结果,第三编码结果用于指示目标对象的类别编码;云侧设备,还用于向端侧设备发送第三编码结果。
可选的,云侧设备上还可以部署知识图谱,以扩展目标对象的描述信息。例如,知识图谱为企业图谱。
本实施例的云侧设备可用于执行上述实施例中服务器的方法步骤,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序/指令被处理器执行时,以使处理器实现如前述方法实施例的技术方案。
本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,以使处理器实现如前述方法实施例中的技术方案。
本申请实施例还提供一种芯片,包括:处理模块与通信接口,该处理模块能执行前述方法实施例中的技术方案。在一些实施例中,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述方法实施例中的技术方案。
上述存储器可以是对象存储(Object Storage Service,OSS)。
上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,例如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,本申请涉及到的用户信息(包括但不限于用户设备信息、企业用户信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (13)
1.一种编码方法,其特征在于,包括:
获取目标对象的描述信息;
通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果;
通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果;
通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标对象的类别编码。
2.根据权利要求1所述的方法,其特征在于,所述通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果,包括:
通过预训练语言模型获取所述目标对象的描述信息的第一向量表示;
通过调用向量检索引擎确定与所述第一向量表示的相似度大于第一阈值的向量表示结果,所述向量表示结果包括一个或多个第二向量表示;
从所述编码知识库获取与所述一个或多个第二向量表示对应的描述信息对应的编码信息,将所述一个或多个第二向量表示对应的描述信息对应的编码信息作为所述第一编码结果。
3.根据权利要求1或2所述的方法,其特征在于,所述编码预测模型包括层次多标签分类器;所述通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果,包括:
获取所述目标对象的描述信息的第一向量表示;
将所述第一向量表示输入所述层次多标签分类器,获取所述目标对象的描述信息对应的全局概率分布信息和局部概率分布信息;
根据所述全局概率分布信息和所述局部概率分布信息,确定所述目标对象的描述信息对应的第二编码结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述全局概率分布信息和所述局部概率分布信息,确定所述目标对象的描述信息对应的第二编码结果,包括:
通过对所述全局概率分布信息和所述局部概率分布信息进行加权处理,获取所述目标对象的描述信息对应的总概率分布信息;
将所述总概率分布信息中概率值大于第二阈值的编码结果,作为所述目标对象的描述信息对应的第二编码结果。
5.根据权利要求3所述的方法,其特征在于,所述层次多标签分类器包括依次连接的N个全连接层,N为大于或等于2的正整数;
将所述第一向量表示输入所述层次多标签分类器,获取所述目标对象的描述信息对应的全局概率分布信息和局部概率分布信息,包括:
所述第一向量表示依次经过所述N个全连接层的数据处理,得到第一概率分布信息;
根据所述第一概率分布信息和所述第一向量表示,得到所述目标对象的描述信息对应的全局概率分布信息;
从所述N个全连接层的各层获取输出的概率分布信息,将N个全连接层输出的概率分布信息进行拼接,得到所述目标对象的描述信息对应的局部概率分布信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
从预设的知识图谱获取与所述目标对象直接连接的一个或多个对象的候选描述信息;
从所述一个或多个对象的候选描述信息中,获取与所述目标对象的描述信息相似的描述信息;
将与所述目标对象的描述信息相似的描述信息添加至所述目标对象的描述信息中。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,包括:
若所述第二编码结果中存在概率大于或等于第三阈值的编码结果,根据第一规则对所述第一编码结果和所述第二编码结果进行排序,得到所述第三编码结果;或者
若所述第二编码结果中不存在概率大于或等于所述第三阈值的编码结果,根据第二规则对所述第一编码结果和所述第二编码结果进行排序,得到所述第三编码结果。
8.一种编码方法,其特征在于,包括:
接收来自客户端的编码查询请求,所述编码查询请求中包括目标企业的描述信息;
通过预设的编码知识库获取与所述目标企业的描述信息相似的描述信息对应的第一编码结果;
通过预训练的编码预测模型,获取所述目标企业的描述信息对应的第二编码结果;
通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标企业的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标企业的行业编码;
向所述客户端发送编码查询响应,所述编码查询响应包括所述第三编码结果。
9.一种编码设备,其特征在于,包括:
获取模块,用于获取目标对象的描述信息;
处理模块,用于通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标对象的类别编码。
10.一种编码设备,其特征在于,包括:
接收模块,用于接收来自客户端的编码查询请求,所述编码查询请求中包括目标企业的描述信息;
处理模块,用于通过预设的编码知识库获取与所述目标企业的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标企业的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标企业的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标企业的行业编码;
发送模块,用于向所述客户端发送编码查询响应,所述编码查询响应包括所述第三编码结果。
11.一种电子设备,其特征在于,包括:存储器,处理器以及计算机程序;所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1至8任一项所述的方法。
12.一种编码***,其特征在于,包括:端侧设备和云侧设备;
所述端侧设备,用于向云侧设备发送编码查询请求,所述编码查询请求中包括目标对象的描述信息;
所述云侧设备,用于通过预设的编码知识库获取与所述目标对象的描述信息相似的描述信息对应的第一编码结果;通过预训练的编码预测模型,获取所述目标对象的描述信息对应的第二编码结果;通过对所述第一编码结果和所述第二编码结果进行数据整合,得到所述目标对象的描述信息对应的第三编码结果,所述第三编码结果用于指示所述目标对象的类别编码;
所述云侧设备,还用于向所述端侧设备发送所述第三编码结果。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496691.8A CN116502603A (zh) | 2023-04-27 | 2023-04-27 | 编码方法、设备、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496691.8A CN116502603A (zh) | 2023-04-27 | 2023-04-27 | 编码方法、设备、***及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116502603A true CN116502603A (zh) | 2023-07-28 |
Family
ID=87330037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310496691.8A Pending CN116502603A (zh) | 2023-04-27 | 2023-04-27 | 编码方法、设备、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502603A (zh) |
-
2023
- 2023-04-27 CN CN202310496691.8A patent/CN116502603A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10042939B2 (en) | Techniques for personalizing expertise related searches | |
US20220365939A1 (en) | Methods and systems for client side search ranking improvements | |
US10042940B2 (en) | Enhancing rankings of search results for member profile queries | |
US20210133271A1 (en) | Uniform resource identifier encoding | |
US20120102018A1 (en) | Ranking Model Adaptation for Domain-Specific Search | |
US20120317087A1 (en) | Location-Aware Search Ranking | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
US11347758B2 (en) | Method and apparatus for processing search data | |
Smirnov et al. | Recommendation system for tourist attraction information service | |
US20190163780A1 (en) | Generalized linear mixed models for improving search | |
US20190065455A1 (en) | Intelligent form creation | |
KR20200102500A (ko) | 비디오들의 분류 매칭을 위한 방법, 장치 및 선택 엔진 | |
CN111625638B (zh) | 一种问句处理方法、装置、设备及可读存储介质 | |
CN104615723B (zh) | 查询词权重值的确定方法和装置 | |
JP2016051460A (ja) | コンテキストアウェアネスに基づくユーザ関心情報サービスを提供するための状況認識オントロジー実現方法 | |
US10324986B2 (en) | Search deconstruction, reconstruction, and allocation | |
WO2017019239A1 (en) | Hybrid facet counting | |
CN108446296A (zh) | 一种信息处理方法及装置 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
US20080158160A1 (en) | Central storage for data entry processing | |
KR101650888B1 (ko) | 컨텐츠 수집, 추천 시스템 및 방법 | |
CN116502603A (zh) | 编码方法、设备、***及存储介质 | |
EP4060579A1 (en) | Method and system for evaluating performance of developers using artificial intelligence (ai) | |
CN113515687B (zh) | 物流信息的获取方法和装置 | |
Pasi et al. | An introduction to quality issues in the management of web information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |