CN114943234B - 企业名称链接方法、装置、计算机设备、存储介质 - Google Patents

企业名称链接方法、装置、计算机设备、存储介质 Download PDF

Info

Publication number
CN114943234B
CN114943234B CN202210733052.4A CN202210733052A CN114943234B CN 114943234 B CN114943234 B CN 114943234B CN 202210733052 A CN202210733052 A CN 202210733052A CN 114943234 B CN114943234 B CN 114943234B
Authority
CN
China
Prior art keywords
data
enterprise
target entity
decomposition
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210733052.4A
Other languages
English (en)
Other versions
CN114943234A (zh
Inventor
刘天赏
龚朝辉
陈汝龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichacha Technology Co ltd
Original Assignee
Qichacha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qichacha Technology Co ltd filed Critical Qichacha Technology Co ltd
Priority to CN202210733052.4A priority Critical patent/CN114943234B/zh
Publication of CN114943234A publication Critical patent/CN114943234A/zh
Application granted granted Critical
Publication of CN114943234B publication Critical patent/CN114943234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种企业名称链接方法、装置、计算机设备、存储介质。所述方法包括:获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据;通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据;根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性;将所述相关性符合匹配条件的企业数据与所述目标实体数据链接。采用本方法能够识别输入文本中的实体,且能够对公司名称更细粒度特征的提取,以及针对不规则的公司名称进行分解,从而准确的进行公司名称的链接。

Description

企业名称链接方法、装置、计算机设备、存储介质
技术领域
本公开涉及数据处理技术领域,特别是涉及一种企业名称链接方法、装置、计算机设备、存储介质。
背景技术
随着信息技术的发展,出现了实体链接技术,实体链接技术是将文本中提及的实体关联到实体库或者知识图谱中的某一个实体的技术。
目前的实体链接技术中,一般是默认输入侧短文本中的实体是已经被识别好的,目前一般是拿输入侧的实体及其上下文作为输入,从实体库中找出与输入实体匹配的所有候选实体,然后用文本匹配模型计算输入实体与候选实体之间的匹配得分,然后对匹配得分进行排序,匹配得分最高的候选实体作为被链接到的实体返回。
然而目前实体链接技术在对企业名称链接时,需要在输入时对输入的文本进行实体识别,并且在企业名称的分解上缺乏更细粒度特征的提取,针对不规则的企业或公司名称如果使用传统的名称分解方法可能会出现名称分解错误,进而造成企业名称链接错误。
发明内容
基于此,有必要针对上述技术问题,提供一种能够识别输入文本中的实体,且能够对公司名称更细粒度特征的提取,以及针对不规则的公司名称进行分解的企业名称链接方法、装置、计算机设备、存储介质。
第一方面,本公开提供了一种企业名称链接方法。所述方法包括:
获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据;
通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据,所述语言模型是通过标注数据以及增广标注数据训练预训练模型得到的;
根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性;
将所述相关性符合匹配条件的企业数据与所述目标实体数据链接。
在其中一个实施例中,所述通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,包括:
根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据;
通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据;
根据所述目标实体数据和企业数据的规则分解数据和模型分解数据确定目标实体数据分解数据和企业分解数据。
在其中一个实施例中,所述规则分解数据包括:目标实体数据和所述企业数据中的区域数据、组织形式数据、非词库数据;所述根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据,包括:
根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据;
根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据;
根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据。
在其中一个实施例中,所述语言模型采用包括下述方式训练得到:
根据预先设置的标注体系标注训练数据,得到标注数据;
将所述标注数据进行数据增广,得到增广标注数据;
基于所述标注数据、增广标注数据通过微调方式训练预训练模型,得到所述语言模型。
在其中一个实施例中,所述根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性,包括:
计算所述目标实体数据与企业数据之间的匹配得分;
根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数计算所述目标实体数据和企业数据之间相似度;
根据所述匹配得分和所述相似度确定所述目标实体数据和企业数据之间的相关性。
在其中一个实施例中,所述匹配得分采用包括下述方式得到:
将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中目标企业数据作为训练正样本数据;
将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中非目标企业数据作为训练负样本数据;
根据所述训练正样本数据和训练负样本数据训练模型,得到文本匹配模型;
通过所述文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
在其中一个实施例中,所述获取目标文本中目标实体数据、多个企业数据,之前还包括:
对所述目标文本进行数据清洗,所述数据清洗包括:删除所述目标文本中空格,提取所述目标文本中英文、中文、括号、特定符号。
第二方面,本公开还提供了一种企业名称链接装置,所述装置包括:
数据获取模块,用于获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据;
语言模型训练模块,用于通过标注数据以及增广标注数据训练得到语言模型;
数据分解模块,用于通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据;
相关性确定模块,用于根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性;
企业链接模块,用于将所述相关性符合匹配条件的企业数据与所述目标实体数据链接。
在所述装置的其中一个实施例中,所述数据分解模块包括:规则数据分解模块、模型数据分解模块、分解数据确定模块;
所述规则数据分解模块,用于根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据;
所述模型数据分解模块,用于通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据;
所述分解数据确定模块,用于根据所述目标实体数据和企业数据的规则分解数据和模型分解数据确定目标实体数据分解数据和企业分解数据。
在所述装置的其中一个实施例中,所述规则分解数据包括:目标实体数据和所述企业数据中的区域数据、组织形式数据、非词库数据;所述规则数据分解模块包括:区域词库匹配模块、组织词库匹配模块、非词库数据确定模块;
所述区域词库匹配模块,用于根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据;
所述组织词库匹配模块,用于根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据;
所述非词库数据确定模块,用于根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据。
在所述装置的其中一个实施例中,所述语言模型训练模块还用于根据预先设置的标注体系标注训练数据,得到标注数据;将所述标注数据进行数据增广,得到增广标注数据;基于所述标注数据、增广标注数据通过微调方式训练预训练模型,得到所述语言模型。
在所述装置的其中一个实施例中,所述相关性确定模块,包括:匹配得分计算模块、相似度计算模块、综合模块;
所述匹配得分计算模块,用于计算所述目标实体数据和企业数据之间的模型得分;
所述相似度计算模块,用于根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数计算所述目标实体数据和企业数据之间的相似度;
所述综合模块,用于根据所述匹配得分和所述相似度确定所述目标实体数据和企业数据之间的相关性。
在所述装置的其中一个实施例中,所述匹配得分计算模块,包括:文本匹配模型训练模块,用于将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中目标企业数据作为训练正样本数据;将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中非目标企业数据作为训练负样本数据;根据所述训练正样本数据和训练负样本数据训练模型,得到文本匹配模型;
模型计算模块,用于通过所述文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
上述各实施例中,通过获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据,所以可以对符合目标实体数据链接条件的数据进行粗筛选,便于后续精准的确定符合匹配条件的企业数据,减少计算量,提高效率。并且通过预先设置的分解规则、预先训练的语言模型分解目标实体数据和企业数据,综合分解规则的结果和语言模型的分解结果。而分解规则的词库中包括了最小单位的数据,所以确定最终的分解结果能够更细粒度特征的提取,且通过标注数据和增广标注数据训练得到的语言模型能够在公司名称不规则的情况,弥补了分解规则解析比较死板的问题。进而能够准确的得到目标实体分解数据和企业分解数据。在得到目标实体分解数据和企业分解数据后,能够根据匹配得分以及权重系数确定相关性,根据相关性确定与目标实体链接的企业数据,能够综合多种方面的结果,提升了企业链接的准确率。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中企业名称链接方法的应用环境示意图;
图2为一个实施例中企业名称链接方法的流程示意图;
图3为一个实施例中S20步骤的流程示意图;
图4为一个实施例中S30步骤的流程示意图;
图5为一个实施例中S40步骤的流程示意图;
图6为一个实施例中S42步骤的流程示意图;
图7为一个实施例中企业名称链接方法的流程示意图;
图8为一个实施例中企业名称链接装置的结构示意框图;
图9为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本公开实施例提供的企业名称链接方法,可以应用于如图1所示的应用环境中。其中,终端102通过有线或者无线的方式与企业链接服务器104进行通信。数据存储***可以存储服务器104需要处理/获取的数据,如目标文本。数据存储***可以集成在企业链接服务器104上,也可以放在云上或其他网络服务器上。终端102将目标文本输入至企业链接服务器104中。企业链接服务器104获取终端102输入的目标文本中的目标实体数据。企业链接服务器104根据目标实体数据在数据存储***中匹配对应的多个企业数据。企业链接服务器104通过预先设置的分解规则、预先训练的语言模型分解获取到的目标实体数据和多个企业数据,分解后可以得到目标实体分解数据和每个企业数据的企业分解数据。其中,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据,语言模型是企业链接服务器104通过标注数据以及增广标注数据训练预训练模型得到的。企业链接服务器104计算目标实体数据与每个企业数据的匹配得分,并根据匹配得分以及目标实体分解数据和企业分解数据的权重系数确定目标实体数据和每个企业数据之间的相关性。企业链接服务器104将相关性符合匹配条件的企业数据与目标实体数据进行链接。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
需要说明的是,该方法也可单独用于终端102或者企业链接服务器104。
在一个实施例中,如图2所示,提供了一种企业名称链接方法,以该方法应用于图1中的企业链接服务器104为例进行说明,包括以下步骤:
S20,获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据。
其中,目标文本通常可以是输入的文本,其中可以包括企业名称或者包括含有企业名称的短文本。目标实体数据通常可以是目标文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等,在本实施例中目标实体通常可以指的是企业或者公司名称。企业数据通常可以是与目标实体数据近似或者相关的数据,通常情况下可以是企业或者公司名称。匹配在本公开的一些实施例中,可以是选择与目标实体数据相关的一定数量的数据的方式。具体地,获取输入的目标文本,可以通过NER(Named Entity Recognition)识别目标文本中的目标实体数据,在识别到目标实体数据的情况下,获取目标文本中目标实体数据。根据目标实体数据在企业数据库中匹配与其相关的多个企业数据。
在一些实施方式中,可以通过NLT(Natural Language Toolkit)自然语言处理工具包识别目标文本中的目标实体数据,还可以通过ERNIE-Gram识别目标文本中的目标实体数据。可以调用搜索接口,通过搜索接口获取企业数据库中与目标实体数据匹配与其相关的多个企业数据。该企业数据库中通常可以存储了若干个企业数据(如企业名称或公司名称)和对应的其他数据(如企业地址、法人等等)。ERNIE-Gram模型可以是一种预训练语言模型。可以理解的是,匹配的企业数据的数量本领域技术人员可根据实际情况进行确定,如得到一百个企业数据或者五百个企业数据等。通常情况下,匹配得到的企业数据的数量越多,企业链接的效果越好。
S30,通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据,所述语言模型是通过标注数据以及增广标注数据训练预训练模型得到的。
其中,分解规则通常可以是将目标实体数据和企业数据分解的方式。标注数据通常可以是需要分解的数据,可以包括:区域,商号,行业,组织形式,补充说明等。通常情况下企业/公司在进行注册名称时,可以通过如下方式确定名称:1、区域+商号+行业+组织形式;2、商号+(区域)+行业+组织形式;3、商号+行业+(区域)+组织形式;且在公司注册时不会通过已经重名的公司。区域如:北京xx公司或者杭州xx公司,其中,北京和杭州可以为区域。行业如:xx科技有限公司、xx智能科技有限公司、xx信息技术有限公司,其中,科技、智能科技、信息技术可以为行业。组织形式如:xx有限公司、xx有限责任公司,其中,有限公司、有限责任公司可以为组织形式。补充说明如:普通合伙人、特殊合伙人、有限合伙等。商号如:某查查、某手、某东等等。匹配词库可以是匹配分解的数据的词库,通常可以包括了分解的最小单位数据。增广标注数据通常可以是将标注数据进行数据增广得到的数据,通过增广数据可以制造不规范的表达,从而让语言模型见到更多的数据,提升语言模型的泛化性。预训练模型通常可以是ERNIE-Gram。
具体地,通过预先设置的分解规则分解目标实体数据和企业数据。然后通过标注数据以及增广标注数据训练预训练模型得到语言模型。通过语言模型分解目标实体数据和企业数据。根据分解规则分解得到的数据和语言模型分解得到的数据得到目标实体分解数据和企业分解数据。
S40,根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性。
其中,匹配得分通常可以是代表目标实体数据和企业数据是否匹配的得分,通常情况下匹配得分越高,目标实体数据和企业数据越匹配。权重系数通常可以目标实体分解数据和企业分解数据中每种类型的数据所代表的权重系数,如商号的权重系数大于行业的权重系数大于组织形式的权重系数。需要说明的是,此处的权重系数本领域技术人员可根据实际情况进行调整。
具体的,计算目标实体数据和企业数据的匹配得分,根据目标实体分解数据和每个企业分解数据中每种类型数据所代表的权重系数计算目标实体数据和每个企业数据之间的相似度,进而可以根据匹配得分和相似度确定所述目标实体数据和企业数据之间的相关性。
S50,将所述相关性符合匹配条件的企业数据与所述目标实体数据链接。
其中,匹配条件通常可以是根据相关性确定企业数据的条件,通常可以是选择相关性最高的企业数据,并且企业经营状态为在业状态的企业。
具体地,获取每个企业数据和目标实体数据的相关性。将相关性最高的企业数据与目标实体数据链接。
在一些实施方式中,找到将相关性最高的企业数据后,还可以判断该企业数据对应的企业的经营性状况,当企业的经营性状况为在业时,将该企业数据与所述目标实体数据链接。当企业的经营状况为非在业(可以包括停业、注销、吊销等),获取相关性第二高的企业数据,以此类推直至能够将企业数据与目标实体数据链接。链接的具体方式可以包括:可以是将目标实体数据与企业数据对应的知识图谱进行关联。也可以是将目标实体数据与企业数据对应的企业信息进行关联。能够根据目标实体数据找到企业数据以及对应的企业信息。在本实施方式中,能够结合公司的经营状态,在多个候选的情况下优先关联经营状态正常的公司。
上述企业名称链接方法中,通过获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据,因为多个企业数据是根据目标实体匹配得到的,所以可以对符合目标实体数据链接条件的数据进行粗筛选,便于后续精准的确定符合匹配条件的企业数据,减少计算量,提高效率。并且通过预先设置的分解规则、预先训练的语言模型分解目标实体数据和企业数据,综合分解规则的结果和语言模型的分解结果。而分解规则的词库中包括了最小单位的数据,所以确定最终的分解结果能够更细粒度特征的提取,且通过标注数据和增广标注数据训练得到的语言模型能够在公司名称不规则的情况,弥补了分解规则解析比较死板的问题。进而能够准确的得到目标实体分解数据和企业分解数据。在得到目标实体分解数据和企业分解数据后,能够根据匹配得分以及权重系数确定相关性,根据相关性确定与目标实体链接的企业数据,能够综合多种方面的结果,提升了企业链接的准确率。
在一个实施例中,S20,获取目标文本中目标实体数据之前,还所述方法还包括:
对所述目标文本进行数据清洗,所述数据清洗包括:删除所述目标文本中空格,提取所述目标文本中英文、中文、括号、特定符号,特殊符号可以如:-、/等等。
需要说明的是,此处仅仅写以删除所述目标文本中空格,提取所述目标文本中英文、中文、括号、特定符号,进行举例,本领域技术人员可根据目标文本的实际情况对上述删除、提取的部分进行增加、删除或修改。
在一些实施方式中,可以通过正则方式实现对目标文本的数据清洗。
在本实施例中,通过进行数据清洗能够去除对公司名称分解无效的数据,当无效数据过多时,不是枚举想要过滤掉的字符,因为特殊字符枚举不完,仅仅保留需要保留的数据,能够减少后续处理目标文本的计算量。
在一个实施例中,如图3所示,S30,通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,包括:
S32,根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据。
其中,规则分解数据通常可以是通过匹配词库匹配到的数据,其中可以包括多种类型,如区域数据、组织形式数据、除区域数据、组织形式数据之外的数据。
具体地,匹配词库中可以包括了多种词库,可以根据匹配词库中每种不同类型的词库匹配目标实体数据,得到目标实体数据的规则分解数据,可以根据匹配词库中每种不同类型的词库匹配企业数据,得到企业数据的规则分解数据。
S34,通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据。
其中,模型分解数据通常可以是与标注数据类型对应的数据,可以包括:区域,商号,行业,组织形式,补充说明等。
具体地,可以将目标实体数据输入至语言模型中,通过语言模型分解目标实体数据,得到目标实体数据的模型分解数据。可以将多个企业数据分别输入至语言模型中,通过语言模型依次分解每个企业数据,得到多个企业数据的模型分解数据。
S36,根据所述目标实体数据和企业数据的规则分解数据和模型分解数据确定目标实体数据分解数据和企业分解数据。
其中,目标实体数据分解数据和企业分解数据通常可以是根据目标实体数据和企业数据的规则分解数据和模型分解数据选择的最准确的分解数据。目标实体数据分解数据和企业分解数据通常可以包括:区域,商号,行业,组织形式,补充说明等。
具体地,在所述目标实体数据和企业数据的规则分解数据和模型分解数据相同的情况下,可以根据目标实体数据和企业数据的规则分解数据和模型分解数据中任意一种确定目标实体数据分解数据和企业分解数据。在所述目标实体数据和企业数据的规则分解数据和模型分解数据不相同的情况下,可以证明目标实体数据和企业数据是不规则的名称。根据规则分解数据确定目标实体数据和企业数据中的区域数据、组织形式数据;根据模型分解数据确定目标实体数据和企业数据中的商号数据、行业数据和补充说明等。综合规则分解数据和模型分解数据确定的数据,最终确定目标实体数据分解数据和企业分解数据。
在本实施例中,通过匹配词库确定目标实体数据和企业数据的规则分解数据以及通过语言模型得到目标实体数据和企业数据的模型分解数据,在规则分解数据和模型分解数据不相同的情况下,能够结合规则分解数据和模型分解数据,能将公司/企业名称解析到更细的粒度,同时对不规范的输入比较鲁棒,而且可解释性、可修改性强,能够及时更改匹配词库,当遇到解析突发的情况时,能够及时的应对。
在一个实施例中,所述规则分解数据包括:目标实体数据和所述企业数据中的区域数据、组织形式数据、非词库数据。如图4所示,S32,根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据,包括:
S321,根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据。
其中,区域词库通常可以是根据行政区域确定的词库,可以是省级行政区,如黑龙江省、江苏省、北京市、上海市等;地级行政区,如苏州市、杭州市等、县级行政区,如xx县等;乡级行政区,如xx街道、xx镇。区域数据通常情况下可以目标实体数据和企业数据中通过区域词库匹配到的数据。
具体地,可以根据匹配词库中的区域词库进行匹配目标实体数据和企业数据,匹配后,得到目标实体数据和企业数据与区域词库对应的区域数据。
S322,根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据。
其中,组织形式词库通常根据组织形式确定的词库,组织形式可以指企业存在的形态和类型。组织形式数据通常情况下可以是目标实体数据和企业数据中通过组织形式词库匹配到的数据。
具体地,可以根据匹配词库中组织形式词库进行匹配目标实体数据和企业数据,匹配后,得到目标实体数据和企业数据中的组织形式数据。
S323,根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据。
其中,非词库数据通常可以是目标实体数据和企业数据中除区域数据和组织形式之外的数据。
具体地,获取目标实体数据和企业数据中除区域数据和组织形式数据之外的数据,得到非词库数据,非词库数据通常情况下可以由商号+行业组成。
在一些示例性的实施方式中,如目标实体数据为杭州某手科技有限公司。则通过区域词库从左向右匹配目标实体数据,可以匹配出杭州,通过组织形式词库可以从右向左匹配目标实体数据,可以匹配出有限公司。则最终可以确定非词库数据为某手科技。
本实施例中,通过匹配词库中的区域词库和组织形式词库进行匹配区域和组织形式,能够提升识别区域和组织形式数据的准确度。
在一个实施例中,所述语言模型采用包括下述方式训练得到:
根据预先设置的标注体系标注训练数据,得到标注数据;
将所述标注数据进行数据增广,得到增广标注数据;
基于所述标注数据、增广标注数据通过微调方式训练预训练模型,得到所述语言模型。
其中,标注体系通常可以是根据区域,商号,行业,组织形式,补充说明等进行标注的方式。训练数据通常情况下可以是公司或者企业名称数据。数据增广是深度学习中常用的技巧之一,主要用于增加训练数据,让训练数据尽可能的多样化,使得训练的模型具有更强的泛化能力。微调通常可以是对模型进行调整的方式,能够使得语言模型分解效果更好。预训练模型通常情况下可以是使用训练集训练好的模型。
具体地,根据预先设置的标注体系标注训练数据,训练数据标注完成后得到标注数据,通常情况下不可能将训练数据全部标注,并且可能会存在不规范的名称表达的情况,所以可以利用标注数据进行数据增广,进而进行制造不规范的名称表达,得到增广标注数据。使用标注数据和增广标注数据并采用微调的方式训练预训练模型,得到语言模型。
在一些示例性的实施方式中,如训练数据为杭州某手科技有限公司。通过标注体系对该训练数据进行标注。得到区域-杭州,商号-某手,行业-科技,组织形式-有限公司,该形式可以为标注数据。可以对上述标注后的得到的标注数据任意组合,得到增广标注数据,如杭州某手,杭州有限公司某手科技,有限公司杭州科技某手等等。根据标注数据和增广标注数据并通过微调的方式训练预训练模型,得到语言模型。
需要说明的是,此处仅仅以上述几种标注形式的数据进行举例,本领域技术人员可根据实际情况对上述标注数据进行修改或删除,能将训练数据中名称分解即可。
在本实施例中,通过数据增广能够将完整的标注数据增广出多个数据,制造不规范的表达,从而让语言模型见到更多的数据,提升语言模型的泛化性能,并且在训练语言模型时是使用微调的方式,所以不需要大量的数据进行训练,节省了训练时间和训练资源。
在一个实施例中,如图5所示,S40,所述根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性,包括:
S42,计算所述目标实体数据与企业数据之间的匹配得分。
其中,匹配得分通常可以表示目标实体数据和企业数据相匹配程度。
具体地,可以通过关键词匹配的方式计算目标实体数据与企业数据之间的匹配得分。可以通过深度学习的方式,如文本匹配模型计算目标实体数据与企业数据之间的匹配得分。还可以将目标实体数据和企业数据映射到向量空间,通过向量空间计算目标实体数据与企业数据之间的匹配得分,匹配得分通常情况下在0-1之间。
S44,根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数计算所述目标实体数据和企业数据之间相似度。
其中,相似度可以是另一种表示目标实体数据和企业数据相匹配程度。
具体地,可以根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数并通过文本相似度算法计算目标实体数据和企业数据之间的相似度。还可以根据每种数据类型的权重系数进行加权求和来计算所述目标实体数据和企业数据之间相似度。
在一些示例性的实施方式中,如商号的权重系数为0.6,行业的权重系数为0.3,组织形式的权重系数为0.1。可以将目标实体分解数据和企业分解数据相同的权重系数进行加权求和并将结果映射至0-1之间。从而确定目标实体数据和企业数据之间相似度。
需要说明的是,此处的权重系数仅仅举例说明,本领域技术人员可根据实际情况进行调整。
S46,根据所述匹配得分和所述相似度确定所述目标实体数据和企业数据之间的相关性。
其中,相关性可以是代表目标实体数据和企业数据关联程度的数据。
具体地,可以综合匹配得分和所述相似度确定所述目标实体数据和企业数据确定目标实体数据和企业数据之间的相关性。
在一些实施方式中,可以将匹配得分数据乘以第一预设系数得到第一数据,将相似度乘以第二预设系数得到第二数据,将第一数据和第二数据相加,得到相关数据,该相关数据通常情况下可以代表目标实体数据和企业数据之间的相关性。相关数据越大,则相关性越高。通常情况下第二预设系数大于第一预设系数。
需要说明的是,本领域技术人员可根据实际情况调整权重系数、第一预设系数和第二预设系数。
在本实施例中,通过匹配得分和相似度能够综合多种方面的结果确定目标实体数据和企业数据之间的相关性,能够更准确的确定需要链接的企业数据,进一步提升了企业链接的准确率。
在一个实施例中,如图6所示,S42,所述匹配得分采用包括下述方式得到:
S421,将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中目标企业数据作为训练正样本数据。
S422,将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中非目标企业数据作为训练负样本数据。
S423,根据所述训练正样本数据和训练负样本数据训练模型,得到文本匹配模型。
S424,通过所述文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
其中,历史目标文本中目标实体数据通常可以是已经进行链接的企业名称。目标企业数据通常可以是与历史目标文本中目标实体数据进行链接的企业名称。训练正样本数据通常可以代表正确匹配结果的数据,训练负样本数据通常可以代表错误匹配结果的数据。文本匹配模型通常可以是能够计算两个文本之间的匹配得分的模型。
具体地,获取历史目标文本的目标实体数据,可以调用搜索接口找到与史目标文本匹配的多个企业数据,因为历史目标文本的目标实体数据已经进行链接,所以找到多个企业数据中与历史目标文本的目标实体数据链接的企业数据,该企业数据可以为目标企业数据。多个企业数据中除目标企业数据之外的企业数据可以为非目标企业数据。可以将历史目标文本中目标实体数据、目标企业数据作为训练正样本数据。将历史目标文本中目标实体数据、非目标企业数据作为训练负样本数据,进行训练模型,训练完成可以得到文本匹配模型。可以使用训练完成的文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
在本实施例中,通过历史目标文本中目标实体数据、目标企业数据和非目标企业数据能够确定训练正样本数据和训练负样本数据,因为训练正样本数据通常代表了正确的匹配结果,其匹配得分较高,所以通过训练正样本数据和训练负样本数据训练模型,能够更准确的计算目标实体数据和多个企业数据之间的匹配得分。
在另一个实施例中,如图7所示,本公开还提供了一种企业名称链接方法,以该方法应用于图1中的企业链接服务器104为例进行说明,包括以下步骤:
S702,对目标文本进行数据清洗。
S704,获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据。
S706,根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据。
S708,根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据。
S710,根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据。
S712,根据预先设置的标注体系标注训练数据,得到标注数据,将所述标注数据进行数据增广,得到增广标注数据,基于所述标注数据、增广标注数据通过微调方式训练预训练模型,得到所述语言模型。
S714,通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据。
S716,根据所述目标实体数据和企业数据的区域数据、组织形式数据、非词库数据和模型分解数据确定目标实体数据分解数据和企业分解数据。
S718,计算所述目标实体数据与企业数据之间的匹配得分。
S720,根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数计算所述目标实体数据和企业数据之间相似度。
S722,根据所述匹配得分和所述相似度确定所述目标实体数据和企业数据之间的相关性。
S724,将所述相关性符合匹配条件的企业数据与所述目标实体数据链接。
需要说明的是,本实施例的具体实施方式可参见上述实施例,在此不进行重复赘述。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的企业名称链接方法的企业名称链接装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个企业名称链接装置实施例中的具体限定可以参见上文中对于企业名称链接方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种企业名称链接装置800,包括:数据获取模块802、语言模型训练模块804、数据分解模块806、相关性确定模块808、企业链接模块810,其中:
数据获取模块802,用于获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据。
语言模型训练模块804,用于通过标注数据以及增广标注数据训练得到语言模型。
数据分解模块806,用于通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据。
相关性确定模块808,用于根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性。
企业链接模块810,用于将所述相关性符合匹配条件的企业数据与所述目标实体数据链接。
在所述装置的一个实施例中,所述数据分解模块806包括:规则数据分解模块、模型数据分解模块、分解数据确定模块;
所述规则数据分解模块,用于根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据。
所述模型数据分解模块,用于通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据。
所述分解数据确定模块,用于根据所述目标实体数据和企业数据的规则分解数据和模型分解数据确定目标实体数据分解数据和企业分解数据。
在所述装置的一个实施例中,所述规则分解数据包括:目标实体数据和所述企业数据中的区域数据、组织形式数据、非词库数据;所述规则数据分解模块包括:区域词库匹配模块、组织词库匹配模块、非词库数据确定模块;
所述区域词库匹配模块,用于根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据;
所述组织词库匹配模块,用于根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据;
所述非词库数据确定模块,用于根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据。
在所述装置的一个实施例中,所述语言模型训练模块804还用于根据预先设置的标注体系标注训练数据,得到标注数据;将所述标注数据进行数据增广,得到增广标注数据;基于所述标注数据、增广标注数据通过微调方式训练预训练模型,得到所述语言模型。
在所述装置的一个实施例中,所述相关性确定模块808,包括:匹配得分计算模块、相似度计算模块、综合模块;
所述匹配得分计算模块,用于计算所述目标实体数据和企业数据之间的模型得分。
所述相似度计算模块,用于根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数计算所述目标实体数据和企业数据之间的相似度。
所述综合模块,用于根据所述匹配得分和所述相似度确定所述目标实体数据和企业数据之间的相关性。
在所述装置的一个实施例中,所述匹配得分计算模块,包括:文本匹配模型训练模块,用于将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中目标企业数据作为训练正样本数据;将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中非目标企业数据作为训练负样本数据;根据所述训练正样本数据和训练负样本数据训练模型,得到文本匹配模型;
模型计算模块,用于通过所述文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
在所述装置的一个实施例中,所述装置还包括:数据清洗模块,用于对所述目标文本进行数据清洗,所述数据清洗包括:删除所述目标文本中空格,提取所述目标文本中英文、中文、括号、特定符号。
上述企业名称链接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种企业名称链接方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开所涉及的目标实体数据、企业数据,均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。

Claims (10)

1.一种企业名称链接方法,其特征在于,所述方法包括:
获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据;
通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据,所述语言模型是通过标注数据以及增广标注数据训练预训练模型得到的;所述预训练模型为:ERNIE-Gram;
所述通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,包括:根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据;通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据;根据所述目标实体数据和企业数据的规则分解数据和模型分解数据确定目标实体数据分解数据和企业分解数据;所述规则分解数据包括:目标实体数据和所述企业数据中的区域数据、组织形式数据、非词库数据;所述根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据,包括:根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据;根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据;根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据;
根据所述目标实体数据与所述企业数据的匹配得分,以及目标实体分解数据和企业分解数据的权重系数,确定所述目标实体数据和企业数据之间的相关性;
所述匹配得分采用包括下述方式得到:将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中目标企业数据作为训练正样本数据;将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中非目标企业数据作为训练负样本数据;根据所述训练正样本数据和训练负样本数据训练模型,得到文本匹配模型;通过所述文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
2.根据权利要求1所述的企业名称链接方法,其特征在于,所述语言模型采用包括下述方式训练得到:
根据预先设置的标注体系标注训练数据,得到标注数据;
将所述标注数据进行数据增广,得到增广标注数据;
基于所述标注数据、增广标注数据通过微调方式训练预训练模型,得到所述语言模型。
3.根据权利要求1所述的企业名称链接方法,其特征在于,所述根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性,包括:
计算所述目标实体数据与企业数据之间的匹配得分;
根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数计算所述目标实体数据和企业数据之间相似度;
根据所述匹配得分和所述相似度确定所述目标实体数据和企业数据之间的相关性。
4.根据权利要求1所述的企业名称链接方法,其特征在于,所述获取目标文本中目标实体数据之前,所述方法还包括:
对所述目标文本进行数据清洗,所述数据清洗包括:删除所述目标文本中空格,提取所述目标文本中英文、中文、括号。
5.一种企业名称链接装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据;
语言模型训练模块,用于通过标注数据以及增广标注数据训练预训练模型得到语言模型,所述预训练模型为:ERNIE-Gram;
数据分解模块,用于通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据;
相关性确定模块,用于根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性;
企业链接模块,用于将所述相关性符合匹配条件的企业数据与所述目标实体数据链接;
所述数据分解模块包括:规则数据分解模块、模型数据分解模块、分解数据确定模块;
所述规则数据分解模块,用于根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据;
所述模型数据分解模块,用于通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据;
所述分解数据确定模块,用于根据所述目标实体数据和企业数据的规则分解数据和模型分解数据确定目标实体数据分解数据和企业分解数据;
所述规则分解数据包括:目标实体数据和所述企业数据中的区域数据、组织形式数据、非词库数据;所述规则数据分解模块包括:区域词库匹配模块、组织词库匹配模块、非词库数据确定模块;
所述区域词库匹配模块,用于根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据;
所述组织词库匹配模块,用于根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据;
所述非词库数据确定模块,用于根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据;
所述相关性确定模块,包括:匹配得分计算模块;所述匹配得分计算模块,包括:文本匹配模型训练模块,用于将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中目标企业数据作为训练正样本数据;将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中非目标企业数据作为训练负样本数据;根据所述训练正样本数据和训练负样本数据训练模型,得到文本匹配模型;
模型计算模块,用于通过所述文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
6.根据权利要求5所述的企业名称链接装置,其特征在于,所述语言模型训练模块还用于根据预先设置的标注体系标注训练数据,得到标注数据;将所述标注数据进行数据增广,得到增广标注数据;基于所述标注数据、增广标注数据通过微调方式训练预训练模型,得到所述语言模型。
7.根据权利要求5所述的企业名称链接装置,其特征在于,所述相关性确定模块,包括:匹配得分计算模块、相似度计算模块、综合模块;
所述匹配得分计算模块,用于计算所述目标实体数据和企业数据之间的模型得分;
所述相似度计算模块,用于根据所述目标实体分解数据和企业分解数据中每种数据类型的权重系数计算所述目标实体数据和企业数据之间的相似度;
所述综合模块,用于根据所述匹配得分和所述相似度确定所述目标实体数据和企业数据之间的相关性。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202210733052.4A 2022-06-27 2022-06-27 企业名称链接方法、装置、计算机设备、存储介质 Active CN114943234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210733052.4A CN114943234B (zh) 2022-06-27 2022-06-27 企业名称链接方法、装置、计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210733052.4A CN114943234B (zh) 2022-06-27 2022-06-27 企业名称链接方法、装置、计算机设备、存储介质

Publications (2)

Publication Number Publication Date
CN114943234A CN114943234A (zh) 2022-08-26
CN114943234B true CN114943234B (zh) 2024-03-19

Family

ID=82911584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210733052.4A Active CN114943234B (zh) 2022-06-27 2022-06-27 企业名称链接方法、装置、计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN114943234B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977300A (zh) * 2019-02-22 2019-07-05 深圳壹账通智能科技有限公司 企业舆情获取方法、装置、终端及计算机存储介质
CN111382254A (zh) * 2020-03-04 2020-07-07 深圳前海微众银行股份有限公司 电子名片推荐方法、装置、设备及计算机可读存储介质
CN111597304A (zh) * 2020-05-15 2020-08-28 上海财经大学 一种中文企业名实体精准识别二次匹配方法
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CA3138556A1 (en) * 2020-11-06 2022-05-06 10353744 Canada Ltd. Apparatuses, storage medium and method of querying data based on vertical search

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220188974A1 (en) * 2020-12-14 2022-06-16 International Business Machines Corporation Deep learning of entity resolution rules

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977300A (zh) * 2019-02-22 2019-07-05 深圳壹账通智能科技有限公司 企业舆情获取方法、装置、终端及计算机存储介质
CN111382254A (zh) * 2020-03-04 2020-07-07 深圳前海微众银行股份有限公司 电子名片推荐方法、装置、设备及计算机可读存储介质
CN111597304A (zh) * 2020-05-15 2020-08-28 上海财经大学 一种中文企业名实体精准识别二次匹配方法
CA3138556A1 (en) * 2020-11-06 2022-05-06 10353744 Canada Ltd. Apparatuses, storage medium and method of querying data based on vertical search
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
企业信息集成中基于混合模式匹配策略的语义发现技术研究;王明微;张树生;周竞涛;赵寒;;西北工业大学学报(第05期);全文 *

Also Published As

Publication number Publication date
CN114943234A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
US12056583B2 (en) Target variable distribution-based acceptance of machine learning test data sets
US10102220B2 (en) Activity based analytics
CN110569322A (zh) 地址信息解析方法、装置、***及数据获取方法
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN115409111A (zh) 命名实体识别模型的训练方法和命名实体识别方法
CN113761867A (zh) 地址识别方法、装置、计算机设备及存储介质
CN114943234B (zh) 企业名称链接方法、装置、计算机设备、存储介质
CN116451074A (zh) 目标对象的画像生成方法、装置、计算机设备、存储介质
CN115759742A (zh) 企业风险评估方法、装置、计算机设备和存储介质
CN115878864A (zh) 一种数据检索方法、装置、设备及可读存储介质
CN114692573A (zh) 文本结构化处理方法、装置、计算机设备、介质和产品
CN114817572A (zh) 基于知识图谱的知识分类方法、***、设备及介质
CN114595389A (zh) 通讯录查询方法、装置、设备、存储介质和程序产品
CN112668332A (zh) 一种三元组抽取方法、装置、设备及存储介质
CN115577065B (zh) 一种地址解析的方法及装置
CN116702024B (zh) 流水数据类型识别方法、装置、计算机设备和存储介质
CN115774793B (zh) 机构时效性的检测方法、***、电子设备及存储介质
US20230419102A1 (en) Token synthesis for machine learning models
CN118095205A (zh) 版式文件的信息提取方法、装置、设备及存储介质
JP2024015819A (ja) 指標算出装置、指標算出方法及びプログラム
CN116911801A (zh) 活动方案生成方法、装置、设备及存储介质
CN115953136A (zh) 合同审核方法、装置、计算机设备和存储介质
CN115526183A (zh) 术语在上下文中的语义一致性识别方法、存储介质及设备
CN115510201A (zh) 信息录入方法、装置、计算机设备、存储介质和程序产品
CN114756654A (zh) 动态地名地址匹配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000

Applicant after: Qichacha Technology Co.,Ltd.

Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province

Applicant before: Qicha Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant