CN116244421A - 项目名称匹配的方法、装置、设备及可读存储介质 - Google Patents

项目名称匹配的方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116244421A
CN116244421A CN202310228411.5A CN202310228411A CN116244421A CN 116244421 A CN116244421 A CN 116244421A CN 202310228411 A CN202310228411 A CN 202310228411A CN 116244421 A CN116244421 A CN 116244421A
Authority
CN
China
Prior art keywords
project
name
standard
construction
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310228411.5A
Other languages
English (en)
Inventor
张亚军
李政泰
陈静
吴哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glodon Co Ltd
Original Assignee
Glodon Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glodon Co Ltd filed Critical Glodon Co Ltd
Priority to CN202310228411.5A priority Critical patent/CN116244421A/zh
Publication of CN116244421A publication Critical patent/CN116244421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种项目名称匹配的方法、装置、设备及可读存储介质,该方法包括:获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述项目施工名称的关联关系;本发明能够将施工项目名称与核心标准项目名称进行匹配。

Description

项目名称匹配的方法、装置、设备及可读存储介质
技术领域
本发明涉及数据处理领域,特别涉及一种项目名称匹配的方法、装置、设备及可读存储介质。
背景技术
建筑施工数据库中存放大量用于记录施工项目的项目信息的清单文件,现有的建筑施工数据库中的清单文件多由人工搜集填写,当不同人员在填写施工项目的具体的施工项目名称时,由于人工填写习惯不规范,难以做到所有施工项目名称都是按照标准项目名称的规范完成填写的,可能会出现省略部分清单编码或者省略清单编码对应的施工项目名称的情况,这样就会导致同一施工项目出现多个对应的施工项目名称或者相同项目名称实则对应不同的施工项目的情况,从而造成建筑施工数据库中的数据冗余,影响后续查阅使用。
而在现有技术中,若需要将建筑施工数据库中的项目名称转化为标准项目名称,常常需要进行人工逐一查询,为每个施工项目名称匹配到对应的标准项目名称,这种人工处理的效率极其低下,难以处理海量数据;此外,还可以使用关键词匹配算法为每个施工项目名称匹配一个标准项目名称,而关键词匹配算法过于僵硬,输出的匹配结果往往并不准确,甚至出现为一个施工项目名称匹配到多个标准项目名称的情况,严重影响匹配准确率。
综上所述,如何为建筑施工数据库中每一个施工项目名称准确匹配一个标准项目名称来实现数据规范化处理,成为了本领域技术人员亟待解决的技术难题。
发明内容
本发明的目的在于提供一种项目名称匹配的方法、装置、设备及可读存储介质,能够高效地进行项目名称匹配。
根据本发明的一个方面,提供了一种项目名称匹配的方法,所述方法包括:
获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;
利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;
分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;
根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
可选的,所述获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称,包括:
从所述清单文件中确定出一个候选施工项目名称以及与所述候选施工项目名称对应的候选清单编码;
从所述清单文件中获取位于所述候选施工项目名称所在行的上一行的父施工项目名称以及与所述父施工项目名称对应的父清单编码;其中,所述父施工项目名称与所述候选施工项目名称具有从属关系;
判断所述父清单编码是否存在于所述候选清单编码中,若是,则将所述父项目名称添加到所述候选施工项目名称中,若否,则将所述父清单编码添加到所述候选清单编码中并将所述父项目名称添加到所述候选施工项目名称中;
将添加后得到的候选清单编码和候选施工项目名称进行组合以作为所述施工项目名称。
可选的,所述利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中,包括:
对所述施工项目名称进行分词以得到多个施工分词;
依次遍历所述预设的多个标准项目名称,确定出当前遍历到的标准项目名称中所包含的施工分词的数量,并根据所述数量计算出当前遍历到的标准项目名称的匹配分值;
将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,并将所有核心标准项目名称构成所述预设标准名称集合。
可选的,所述利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中,包括:
对所述施工项目名称进行分词以得到多个施工分词;
依次遍历各个施工分词,统计在所述预设的多个标准项目名称中,包含当前遍历到的施工分词的标准项目名称的数量,以作为所述当前遍历到的施工分词的文档频率;
依次遍历各个施工分词,按照如下公式分别计算当前遍历到的施工分词与所述预设的多个标准项目名称的权重值;
Figure BDA0004119353790000031
其中,所述词频为当前遍历到的施工分词在一个标准项目名称中出现的次数;
依次遍历所述预设的多个标准项目名称,根据各个施工分词对当前遍历到的标准项目名称的权重值,利用加权算法计算出当前遍历到的标准项目名称的匹配分值;
将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,并将所有核心标准项目名称构成所述预设标准名称集合。
可选的,所述分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中,包括:
将所述施工项目名称转化为施工词向量,并分别将所述预设的多个标准项目名称转化为对应的标准词向量;
分别计算所述施工词向量与各个标准词向量的余弦距离,将余弦距离大于预设距离阈值的标准词向量所对应的标准项目名称添加到所述预设标准名称集合中。
可选的,所述根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,包括:
按照如下公式分别计算所述施工项目名称与所述预设标准名称集合中的各个核心标准项目名称的综合分值:
综合分值=sigmoid(a*N+b);
其中,a是利用预设模型计算出的表征所述施工项目名称与所述核心标准项目名称的语义相似度的值;b为匹配分值;N为权重系数。
为了实现上述目的,本发明还提供一种项目名称匹配的装置,所述装置包括:
解析模块,用于获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;
筛选模块,用于利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;
相似模块,用于分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;
添加模块,用于根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
可选的,所述装置还包括:
从所述清单文件中确定出一个候选施工项目名称以及与所述候选施工项目名称对应的候选清单编码;
从所述清单文件中获取位于所述候选施工项目名称所在行的上一行的父施工项目名称以及与所述父施工项目名称对应的父清单编码;其中,所述父施工项目名称与所述候选施工项目名称具有从属关系;
判断所述父清单编码是否存在于所述候选清单编码中,若是,则将所述父项目名称添加到所述候选施工项目名称中,若否,则将所述父清单编码添加到所述候选清单编码中并将所述父项目名称添加到所述候选施工项目名称中;
将添加后得到的候选清单编码和候选施工项目名称进行组合以作为所述施工项目名称。
为了实现上述目的,本发明还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的项目名称匹配的方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的项目名称匹配的方法的步骤。
本发明提供的项目名称匹配的方法、装置、设备及可读存储介质,本发明提供的项目名称匹配的方法、装置、设备及可读存储介质,通过对清单文件中的项目信息进行预处理,筛选出符合处理条件的施工项目,并对筛选出的施工项目金像奖那个解析,得到标准化处理后的施工项目名称,对处理后的施工项目名称利用倒排索引召回在字面上与施工项目名称相匹配的核心标准项目名称,再通过计算相似度召回在语义上与施工项目名称相匹配的核心标准项目名称,最后对通过两种召回途径召回的核心标准项目名称进行综合分值计算,以得到与施工项目名称最为匹配的标准项目名称,使得清单文件中的所有施工项目名称可以得到与之匹配的标准项目名称,以便于管理、查询、使用清单文件中的项目信息,实现信息标准化处理。同时,该匹配逻辑高效准确,提高了匹配速度和匹配准确度,节约人力物力资源,提高信息管理效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为实施例一提供的项目名称匹配的方法的一种可选的流程示意图;
图2为实施例二提供的项目名称匹配的装置的一种可选的组成结构示意图;
图3为实施例三提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种项目名称匹配的方法,如图1所示,该方法具体包括以下步骤:
步骤S101:获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称。
其中,一个清单文件中会记录大量施工项目以及每个施工项目对应的合同价格,在从清单文件中解析出施工项目名称之前,需要对清单文件中的施工项目进行预处理,首先将合同价格所在字段作为待筛选字段,将清单文件中合同价格字段大于零且携带清单编号的施工项目所在行筛选出来,以作为待解析项目信息。
在清单文件中每个施工项目对应一个施工项目名称,但由于不同人员在填写施工项目的具体的施工项目名称时,人工填写习惯不规范,难以做到所有施工项目名称都是按照标准项目名称的规范完成填写的,所以需要按照如下步骤对清单文件中的候选施工项目名称进行预处理,以使得施工项目名称实现标准化。
具体的,所述步骤S101,包括:
步骤A1:从所述清单文件中确定出一个候选施工项目名称以及与所述候选施工项目名称对应的候选清单编码。
其中,在所述清单文件中每个候选施工项目名称对应一个候选清单编码,用于标识该候选施工项目名称的ID,例如,候选施工项目名称为“路基处理”,与之对应的候选清单编码为“204-1”。
步骤A2:从所述清单文件中获取位于所述候选施工项目名称所在行的上一行的父施工项目名称以及与所述父施工项目名称对应的父清单编码;其中,所述父施工项目名称与所述候选施工项目名称具有从属关系。
具体的,所述父施工项目名称是所述候选施工项目名称上一层级的施工项目,父施工项目名称对应的施工项目包含候选施工项目名称对应的施工项目,例如,候选施工项目名称为“路基处理”,那么与“路基处理”对应的父施工项目名称为“填方路基”,即在施工项目“填方路基”中还包括“路基处理”等施工项目。同时,若“填方路基”对应的父清单编码为“204”,则“路基处理”对应的候选清单编码为“204-1”,候选清单编码中应包含父清单编码。
步骤A3:判断所述父清单编码是否存在于所述候选清单编码中,若是,则将所述父项目名称添加到所述候选施工项目名称中,若否,则将所述父清单编码添加到所述候选清单编码中并将所述父项目名称添加到所述候选施工项目名称中。
其中,当候选清单编码中不包含父清单编码时,表示该候选清单编码不完整,例如,父清单编码为“204”,而此时的候选清单编码为“-2”,候选清单编码不完整,导致在生成施工项目名称时无法根据候选清单编码得到完整的施工项目名称。
步骤A4:将添加后得到的候选清单编码和候选施工项目名称进行组合以作为所述施工项目名称。
其中,完整的候选施工项目名称为全路径名称,所述施工项目名称是由完整的候选清单编码和全路径名称名称构成,对候选施工项目名称进行标准化处理以使得施工项目名称的格式符合名称命名规范:“清单编码[UNK]全路径名称”。处理后得到的施工项目名称形如:“204-2-a[UNK]填方路基##路基处理##回填土方”。其中,“[UNK]”为连接符,无具体含义。
在本实施例中,由于施工项目价格库中收录大量清单文件,且不同工作人员在填写清单文件时,对于清单编码及候选施工项目名称的填写存在不按照标准填写规范进行处理的情况,所以当进行数据查询时,存在难以准确获取数据的情况,此时,需要为每个施工项目匹配一个预设的标准施工项目名称,以便对清单文件进行规范化处理,方便后续对清单文件的查询和使用。现有的匹配手段多为人工填写或关键词匹配,存在效率低下以及匹配准确率低的现象所以本实施例中预先通过对清单文件进行筛选,得到合同价格字段大于零且包含清单编码的待解析项目信息,再对带解析项目信息进行标准化处理,得到标准化处理后的施工项目名称,作为该施工项目的施工项目名称,以待后续进行标准项目名称匹配。
步骤S102:利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中。
其中,所述倒排索引是一种索引方式,用来表示存储在全文搜索下某个搜索词在一个或多个文档中的存储位置的映射以及从一个或多个文档中召回与搜索词的匹配度符合预设阈值的文档。
优选的,利用ElasticSearch搭建索引工具。
具体的,所述步骤S102,包括:
步骤B1:对所述施工项目名称进行分词以得到多个施工分词。
其中,在所述步骤B1之前,还需要对预设的标准项目名称进行分词,并统计分词后得到的分词的词频,按照分词和词频构成施工领域词库。然后利用施工领域词库对施工项目名称进行分词,保证了施工项目相关的词语可以完整保留,不会被分开。
优选的,利用Hanlp分词工具进行分词。
步骤B2:依次遍历所述预设的多个标准项目名称,确定出当前遍历到的标准项目名称中所包含的施工分词的数量,并根据所述数量计算出当前遍历到的标准项目名称的匹配分值。
其中,所述匹配分值的计算公式为:当前遍历到的标准项目名称中所包含的施工分词的数量除以当前遍历到的标准项目名称的字数。
步骤B3:将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,并将所有核心标准项目名称构成所述预设标准名称集合。
进一步地,所述步骤S102,包括:
步骤C1:对所述施工项目名称进行分词以得到多个施工分词。
步骤C2:依次遍历各个施工分词,统计在所述预设的多个标准项目名称中,包含当前遍历到的施工分词的标准项目名称的数量,以作为所述当前遍历到的施工分词的文档频率。
其中,所述文档频率表示一个施工分词出现在所有标准项目名称中的概率,文档频率越高,表示该施工分词的使用频率越高,即该施工分词的在标准项目名称中的权重值越高。
步骤C3:依次遍历各个施工分词,按照如下公式分别计算当前遍历到的施工分词与所述预设的多个标准项目名称的权重值;
Figure BDA0004119353790000091
其中,所述词频为当前遍历到的施工分词在一个标准项目名称中出现的次数,该施工分词的词频越高,即该施工分词的在标准项目名称中的权重值越高。
步骤C4:依次遍历所述预设的多个标准项目名称,根据各个施工分词对当前遍历到的标准项目名称的权重值,利用加权算法计算出当前遍历到的标准项目名称的匹配分值。
其中,利用sigmoid函数对匹配分值进行计算以使得每个匹配分值均被映射到[0,1]之间。
步骤C5:将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,并将所有核心标准项目名称构成所述预设标准名称集合。
在本实施例中,利用倒排索引手段,对施工项目名称进行处理,以从预设的标准项目名称中召回与施工项目名称匹配分值大于预设阈值的核心标准项目名称,但此时召回的核心标准项目名称仅表示核心标准项目名称在字面上与施工项目名称匹配,但无法召回表述不同但语义相同的标准项目名称,所以仅将通过倒排索引召回的核心标准项目名称作为标准名称集合中的部分候选名称。此外,通过步骤B1-B3,或通过步骤C1-C5得到的核心标准项目名称是两种不同的匹配分值计算方法,在实际实施过程中,择适合方法进行计算即可,在此不做具体限定。
步骤S103:分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中。
其中,计算施工项目名称与预设的多个标准项目名称的相似度是从语义上召回符合预设相似度阈值的核心标准项目名称。同时,通过相似度召回的核心标准项目名称可能存在与通过倒排索引召回的核心标准项目名称重合的部分,在向标准名称集合中添加时,需要做去重处理。
具体的,所述步骤S103,包括:
步骤D1:将所述施工项目名称转化为施工词向量,并分别将所述预设的多个标准项目名称转化为对应的标准词向量。
其中,通过word2vec将名称转化为词向量。
步骤D2:分别计算所述施工词向量与各个标准词向量的余弦距离,将余弦距离大于预设距离阈值的标准词向量所对应的标准项目名称添加到所述预设标准名称集合中。
其中,所述欧氏距离表示两个词向量之间的语义相似度,余弦距离越大,语义相似度越高。
在本实施例中,通过计算施工项目名称与每个标准项目名称的语义相似度,从语义层面上召回了与施工项目名称语义相似的核心标准项目名称,丰富了标准名称集合。
步骤S104:根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
具体的,所述步骤S104,包括:
步骤E1:按照如下公式分别计算所述施工项目名称与所述预设标准名称集合中的各个核心标准项目名称的综合分值:
综合分值=sigmoid(a*N+b);
其中,a是利用预设模型计算出的表征所述施工项目名称与所述核心标准项目名称的语义相似度的值;b为匹配分值;N为权重系数。
具体的,所述预设模型是对交互结构预训练模型Rocketqa-base-cross-encoder进行模型微调训练,以使得交互结构预训练模型可以对施工领域的词语进行语义识别和深度学习,最后能够基于训练好的交互结构模型得到排序模型,用排序模型计算施工项目名称与标准名称集合中的每一个核心标准项目名称的语义相似度。需要注意的是,语义相似度的数值在[0,1]之间。
进一步的,所述权重系数N是根据预设模型计算得到的a和匹配分值之间的权重比例,进行适应性设置得到的。在本实施例中,优选的权重系数N为2。将匹配分值添加到综合分值的计算中,可以提高综合分值计算的准确率。
需要注意的是,Sigmoid函数是一种可以将综合分值映射到[0,1]之间的激活函数,利用Sigmoid函数可以使得综合分值为[0,1]之间的数值,便于直观显示每个核心标准项目名称与施工项目名称的匹配程度,综合分值越大,表示核心标准项目名称与施工项目名称的匹配程度越高。
在本实施例中,通过对清单文件中的项目信息进行预处理,筛选出符合处理条件的施工项目,并对筛选出的施工项目金像奖那个解析,得到标准化处理后的施工项目名称,对处理后的施工项目名称利用倒排索引召回在字面上与施工项目名称相匹配的核心标准项目名称,再通过计算相似度召回在语义上与施工项目名称相匹配的核心标准项目名称,最后对通过两种召回途径召回的核心标准项目名称进行综合分值计算,以得到与施工项目名称最为匹配的标准项目名称,使得清单文件中的所有施工项目名称可以得到与之匹配的标准项目名称,以便于管理、查询、使用清单文件中的项目信息,实现信息标准化处理。同时,该匹配逻辑高效准确,提高了匹配速度和匹配准确度,节约人力物力资源,提高信息管理效率。
实施例二
本发明实施例提供了一种项目名称匹配的装置,如图2所示,该装置具体包括以下组成部分:
解析模块201,用于获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;
筛选模块202,用于利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;
相似模块203,用于分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;
添加模块204,用于根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
其中,解析模块201,用于:
从所述清单文件中确定出一个候选施工项目名称以及与所述候选施工项目名称对应的候选清单编码;
从所述清单文件中获取位于所述候选施工项目名称所在行的上一行的父施工项目名称以及与所述父施工项目名称对应的父清单编码;其中,所述父施工项目名称与所述候选施工项目名称具有从属关系;
判断所述父清单编码是否存在于所述候选清单编码中,若是,则将所述父项目名称添加到所述候选施工项目名称中,若否,则将所述父清单编码添加到所述候选清单编码中并将所述父项目名称添加到所述候选施工项目名称中;
将添加后得到的候选清单编码和候选施工项目名称进行组合以作为所述施工项目名称。
具体的,筛选模块202,用于:
对所述施工项目名称进行分词以得到多个施工分词;
依次遍历所述预设的多个标准项目名称,确定出当前遍历到的标准项目名称中所包含的施工分词的数量,并根据所述数量计算出当前遍历到的标准项目名称的匹配分值;
将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,并将所有核心标准项目名称构成所述预设标准名称集合。
进一步的,筛选模块202,还用于:
对所述施工项目名称进行分词以得到多个施工分词;
依次遍历各个施工分词,统计在所述预设的多个标准项目名称中,包含当前遍历到的施工分词的标准项目名称的数量,以作为所述当前遍历到的施工分词的文档频率;
依次遍历各个施工分词,按照如下公式分别计算当前遍历到的施工分词与所述预设的多个标准项目名称的权重值;
Figure BDA0004119353790000131
其中,所述词频为当前遍历到的施工分词在一个标准项目名称中出现的次数;
依次遍历所述预设的多个标准项目名称,根据各个施工分词对当前遍历到的标准项目名称的权重值,利用加权算法计算出当前遍历到的标准项目名称的匹配分值;
将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,
并将所有核心标准项目名称构成所述预设标准名称集合。
具体的,相似模块203,包括:
将所述施工项目名称转化为施工词向量,并分别将所述预设的多个标准项目名称转化为对应的标准词向量;
分别计算所述施工词向量与各个标准词向量的余弦距离,将余弦距离大于预设距离阈值的标准词向量所对应的标准项目名称添加到所述预设标准名称集合中。
进一步的,添加模块204,用于:
按照如下公式分别计算所述施工项目名称与所述预设标准名称集合中的各个核心标准项目名称的综合分值:
综合分值=sigmoid(a*N+b);
其中,a是利用预设模型计算出的表征所述施工项目名称与所述核心标准项目名称的语义相似度的值;b为匹配分值;N为权重系数。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,本实施例的计算机设备30至少包括但不限于:可通过***总线相互通信连接的存储器301、处理器302。需要指出的是,图3仅示出了具有组件301-302的计算机设备30,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器301(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器301可以是计算机设备30的内部存储单元,例如该计算机设备30的硬盘或内存。在另一些实施例中,存储器301也可以是计算机设备30的外部存储设备,例如该计算机设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中,存储器301通常用于存储安装于计算机设备30的操作***和各类应用软件。此外,存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器302在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他项目名称匹配的芯片。该处理器302通常用于控制计算机设备30的总体操作。
具体的,在本实施例中,处理器302用于执行存储器301中存储的项目名称匹配的方法的程序,所述项目名称匹配的方法的程序被执行时实现如下步骤:
获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;
利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;
分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;
根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;
利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;
分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;
根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种项目名称匹配的方法,其特征在于,所述方法包括:
获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;
利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;
分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;
根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
2.根据权利要求1所述的项目名称匹配的方法,其特征在于,所述获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称,包括:
从所述清单文件中确定出一个候选施工项目名称以及与所述候选施工项目名称对应的候选清单编码;
从所述清单文件中获取位于所述候选施工项目名称所在行的上一行的父施工项目名称以及与所述父施工项目名称对应的父清单编码;其中,所述父施工项目名称与所述候选施工项目名称具有从属关系;
判断所述父清单编码是否存在于所述候选清单编码中,若是,则将所述父项目名称添加到所述候选施工项目名称中,若否,则将所述父清单编码添加到所述候选清单编码中并将所述父项目名称添加到所述候选施工项目名称中;
将添加后得到的候选清单编码和候选施工项目名称进行组合以作为所述施工项目名称。
3.根据权利要求1所述的项目名称匹配的方法,其特征在于,所述利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中,包括:
对所述施工项目名称进行分词以得到多个施工分词;
依次遍历所述预设的多个标准项目名称,确定出当前遍历到的标准项目名称中所包含的施工分词的数量,并根据所述数量计算出当前遍历到的标准项目名称的匹配分值;
将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,并将所有核心标准项目名称构成所述预设标准名称集合。
4.根据权利要求1所述的项目名称匹配的方法,其特征在于,所述利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中,包括:
对所述施工项目名称进行分词以得到多个施工分词;
依次遍历各个施工分词,统计在所述预设的多个标准项目名称中,包含当前遍历到的施工分词的标准项目名称的数量,以作为所述当前遍历到的施工分词的文档频率;
依次遍历各个施工分词,按照如下公式分别计算当前遍历到的施工分词与所述预设的多个标准项目名称的权重值;
Figure FDA0004119353780000021
其中,所述词频为当前遍历到的施工分词在一个标准项目名称中出现的次数;
依次遍历所述预设的多个标准项目名称,根据各个施工分词对当前遍历到的标准项目名称的权重值,利用加权算法计算出当前遍历到的标准项目名称的匹配分值;
将匹配分值大于预设匹配阈值的标准项目名称设置为核心标准项目名称,并将所有核心标准项目名称构成所述预设标准名称集合。
5.根据权利要求1所述的项目名称匹配的方法,其特征在于,所述分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中,包括:
将所述施工项目名称转化为施工词向量,并分别将所述预设的多个标准项目名称转化为对应的标准词向量;
分别计算所述施工词向量与各个标准词向量的余弦距离,将余弦距离大于预设距离阈值的标准词向量所对应的标准项目名称添加到所述预设标准名称集合中。
6.根据权利要求3或4所述的项目名称匹配的方法,其特征在于,所述根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,包括:
按照如下公式分别计算所述施工项目名称与所述预设标准名称集合中的各个核心标准项目名称的综合分值:
综合分值=sigmoid(a*N+b);
其中,a是利用预设模型计算出的表征所述施工项目名称与所述核心标准项目名称的语义相似度的值;b为匹配分值;N为权重系数。
7.一种项目名称匹配的装置,其特征在于,所述装置包括:
解析模块,用于获取用于记录各个施工项目的项目信息的清单文件,并从所述清单文件中解析出一个施工项目名称;
筛选模块,用于利用倒排索引,从预设的多个标准项目名称中筛选出与所述施工项目名称相匹配的核心标准项目名称并添加到预设标准名称集合中;
相似模块,用于分别计算所述施工项目名称与所述预设的多个标准项目名称的相似度,并将相似度大于预设相似度阈值的核心标准项目名称添加到所述预设标准名称集合中;
添加模块,用于根据预设算法分别计算所述施工项目名称与所述预设标准名称集合中各个核心标准项目名称的综合分值,并建立综合分值最大的核心标准项目名称与所述施工项目名称的关联关系。
8.根据权利要求7所述的项目名称匹配的装置,其特征在于,所述解析模块,还用于:
从所述清单文件中确定出一个候选施工项目名称以及与所述候选施工项目名称对应的候选清单编码;
从所述清单文件中获取位于所述候选施工项目名称所在行的上一行的父施工项目名称以及与所述父施工项目名称对应的父清单编码;其中,所述父施工项目名称与所述候选施工项目名称具有从属关系;
判断所述父清单编码是否存在于所述候选清单编码中,若是,则将所述父项目名称添加到所述候选施工项目名称中,若否,则将所述父清单编码添加到所述候选清单编码中并将所述父项目名称添加到所述候选施工项目名称中;
将添加后得到的候选清单编码和候选施工项目名称进行组合以作为所述施工项目名称。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202310228411.5A 2023-03-03 2023-03-03 项目名称匹配的方法、装置、设备及可读存储介质 Pending CN116244421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310228411.5A CN116244421A (zh) 2023-03-03 2023-03-03 项目名称匹配的方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310228411.5A CN116244421A (zh) 2023-03-03 2023-03-03 项目名称匹配的方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116244421A true CN116244421A (zh) 2023-06-09

Family

ID=86623980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310228411.5A Pending CN116244421A (zh) 2023-03-03 2023-03-03 项目名称匹配的方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116244421A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118152575A (zh) * 2024-05-09 2024-06-07 中电云计算技术有限公司 一种基于召回排序的事件分类方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118152575A (zh) * 2024-05-09 2024-06-07 中电云计算技术有限公司 一种基于召回排序的事件分类方法及相关装置

Similar Documents

Publication Publication Date Title
CN110765770B (zh) 一种合同自动生成方法及装置
US7519607B2 (en) Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN114297140A (zh) 一种基于人工智能的档案管理***
CN116244421A (zh) 项目名称匹配的方法、装置、设备及可读存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN117494711A (zh) 一种基于语义的用电地址相似度匹配的方法
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN117195319A (zh) 保函文件电子件的验真方法、装置、电子设备和介质
CN114168751B (zh) 一种基于医学知识概念图的医学文本标签识别方法及***
CN111858860A (zh) 搜索信息处理方法及***、服务器、计算机可读介质
CN115688729A (zh) 一种输变电工程造价数据集成管理***及其方法
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
CN112307235B (zh) 前端页面元素的命名方法、装置及电子设备
CN110750976A (zh) 语言模型构建方法、***、计算机设备及可读存储介质
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN114238588B (zh) 数据检索方法、***、可读存储介质及计算机设备
CN114492308B (zh) 一种结合知识发现与文本挖掘的产业信息标引方法和***
CN109977269B (zh) 一种针对xml文件的数据自适应融合方法
CN115994538A (zh) 一种实体抽取方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination