CN117252194B - 一种基于自然语义模型的投标文件检测方法及*** - Google Patents
一种基于自然语义模型的投标文件检测方法及*** Download PDFInfo
- Publication number
- CN117252194B CN117252194B CN202311531314.XA CN202311531314A CN117252194B CN 117252194 B CN117252194 B CN 117252194B CN 202311531314 A CN202311531314 A CN 202311531314A CN 117252194 B CN117252194 B CN 117252194B
- Authority
- CN
- China
- Prior art keywords
- contents
- processing
- similarity
- group
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 130
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000015654 memory Effects 0.000 claims description 24
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003252 repetitive effect Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013329 compounding Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0611—Request for offers or quotes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于自然语义模型的投标文件检测方法及***,方法包括对投标文件进行检索,将涉及到同一个和/或同一组技术词语的内容提取到一个归集组;选取任意两个属于同一个和/或同一组技术词语的归集组并对归集组中的内容进行查重处理;将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比并计算相似度;将相似度符合要求的处理区域划入重复内容以及根据重复内容给出相似度。本申请公开的基于自然语义模型的投标文件检测方法及***,通过采取智能化的分析手段来确定投标文件是否存在相似内容并给出这些相似内容供给工作人员进行进一步分析,这种方式解决了前期数据量大和处理速度慢的问题,具有好的实用性。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种基于自然语义模型的投标文件检测方法及***。
背景技术
围标是指招标者与投标者之间或者投标者与投标者之间采用不正当手段,对招投标事项进行串通,以排挤竞争对手或者损害招标者利益的行为。串标是招标单位之间或者投标单位与招标单位相互串通骗取中标。
针对于围标和串标情况,目前采用的解决方案有电子信息识别和数据分析等,电子信息识别是获取投标人的IP地址、Mac地址和供应商基本信息(如联系人姓名、电话、邮箱、公司地址等),如果这些信息存在重复,或者多个供应商的股东存在关联关系,则会对投标文件进行标记。数据分析是基于收集到的投标文件进行分析,从中发现线索,例如投标文件内容雷同,最后的保存者和公司等内容相同;报价呈规律性递减或递增,多个投标人的投标报价组成异常一致等方式。
对于电子信息,可以使用电子招标的方式解决,例如投标人需要在网络中上传投标文件,该过程中就会对使用的电子设备相关信息甚至操作人员进行记录,如***中记录了投标人历史投标的IP地址或Mac地址;但是在数据分析方面,如技术方案的核查,目前主要是依赖于人工查看,但当存在数据量大和时间要求紧急等现实问题时,人工查看的实际效果不佳。
现有技术已经不能满足现阶段人们的需求,基于现状,急需对现有技术进行改进,以使用技术手段来进行规避。
发明内容
本申请提供一种基于自然语义模型的投标文件检测方法及***,本申请的上述目的是通过以下技术方案得以实现的:
第一方面,本申请提供了一种基于自然语义模型的投标文件检测方法,包括:
使用技术词库中的技术词语对收到的多个电子投标文件进行检索,将与同一个和/或同一组技术词语关联的内容提取到一个归集组,每一个归集组中的内容属于同一个电子投标文件;
任意两个属于同一个和/或同一组技术词语的归集组中的内容均进行查重处理,将归集组中的内容分为重复内容与非重复内容;
使用段落标记对非重复内容进行区域划分,得到多个处理区域;
将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比并计算相似度;
将相似度符合要求的处理区域划入重复内容;以及
根据重复内容给出两个属于同一个和/或同一组技术词语的归集组的相似度。
在第一方面的一种可能的实现方式中,将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比包括:
使用段落标记对剩余归集组中的内容进行区域划分,得到多个对比处理区域;以及
将属于一个归集组中的多个处理区域顺序与全部的对比处理区域进行相似度对比。
在第一方面的一种可能的实现方式中,还包括:
统计一个处理区域与一个对比处理区域中的重合文字的数量;以及
在重合文字的数量大于等于设定数量值时将所述处理区域划入重复内容。
在第一方面的一种可能的实现方式中,统计一个处理区域与一个对比处理区域中的重合文字的数量还包括:
将处理区域和对比处理区域中的文字分为重合文字段与非重合文字段;以及
使用语义识别计算两个重合文字段之间的非重合文字段的相似度,将相似度符合要求的非重合文字段划入重合文字段。
在第一方面的一种可能的实现方式中,还包括:
识别电子投标文件中的表格并提取表格中的内容;以及
将表格中一个单元格中的内容作为一个处理区域。
在第一方面的一种可能的实现方式中,将表格第一行和/表格第一列中的内容加入到每一个处理区域。
在第一方面的一种可能的实现方式中,表格第一行和/表格第一列中的内容位于加入的处理区域中的内容之前或者之后;
表格第一行和/表格第一列中的内容与加入的处理区域中的内容之间存在空白区域。
第二方面,本申请提供了一种投标文件的检测装置,包括:
归集单元,用于用技术词库中的技术词语对收到的电子投标文件进行检索,将与同一个和/或同一组技术词语关联的内容提取到一个归集组,每一个归集组中的内容属于同一个电子投标文件;
第一查重处理单元,用于任意两个属于同一个和/或同一组技术词语的归集组中的内容均进行查重处理,将归集组中的内容分为重复内容与非重复内容;
第一区域划分单元,用于使用段落标记对非重复内容进行区域划分,得到多个处理区域;
第一相似度处理单元,用于将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比并计算相似度;
第二查重处理单元,用于将相似度符合要求的处理区域划入重复内容;以及
结果单元,用于根据重复内容给出两个属于同一个和/或同一组技术词语的归集组的相似度。
第三方面,本申请提供了一种投标文件的检测***,所述***包括:
一个或多个存储器,用于存储指令;以及
一个或多个处理器,用于从所述存储器中调用并运行所述指令,执行如第一方面及第一方面任意可能的实现方式中所述的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质包括:
程序,当所述程序被处理器运行时,如第一方面及第一方面任意可能的实现方式中所述的方法被执行。
第五方面,本申请提供了一种计算机程序产品,包括程序指令,当所述程序指令被计算设备运行时,如第一方面及第一方面任意可能的实现方式中所述的方法被执行。
第六方面,本申请提供了一种芯片***,该芯片***包括处理器,用于实现上述各方面中所涉及的功能,例如,生成,接收,发送,或处理上述方法中所涉及的数据和/或信息。该芯片***,可以由芯片构成,也可以包括芯片和其他分立器件。在一种可能的设计中,该芯片***还包括存储器,该存储器,用于保存必要的程序指令和数据。该处理器和该存储器可以解耦,分别设置在不同的设备上,通过有线或者无线的方式连接,或者处理器和该存储器也可以耦合在同一个设备上。
本申请提供的基于自然语义模型的投标文件检测方法及***,通过采取智能化的分析手段来确定投标文件是否存在相似内容并给出这些相似内容供给工作人员进行进一步分析,这种方式解决了前期数据量大和处理速度慢的问题,具有更佳的指向性。
附图说明
图1是本申请提供的一种基于自然语义模型的投标文件检测方法的步骤流程示意框图。
图2是本申请提供的一种使用技术词语得到一个归集组的原理性示意图。
图3是本申请提供的一种处理区域与对比处理区域进行相似度比较的原理性示意图。
图4是本申请提供的一种非重合文字段进行相似度比较的原理性示意图。
图5是本申请提供的一种表格进行相似度比较的原理性示意图。
实施方式
以下结合附图,对本申请中的技术方案作进一步详细说明。
本申请公开了一种基于自然语义模型的投标文件检测方法,请参阅图1,检测方法包括以下步骤:
S101,使用技术词库中的技术词语对收到的多个电子投标文件进行检索,将与同一个和/或同一组技术词语关联的内容提取到一个归集组,每一个归集组中的内容属于同一个电子投标文件;
S102,任意两个属于同一个和/或同一组技术词语的归集组中的内容均进行查重处理,将归集组中的内容分为重复内容与非重复内容;
S103,使用段落标记对非重复内容进行区域划分,得到多个处理区域;
S104,将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比并计算相似度;
S105,将相似度符合要求的处理区域划入重复内容;以及
S106,根据重复内容给出两个属于同一个和/或同一组技术词语的归集组的相似度。
首先需要说明,本申请公开的基于自然语义模型的投标文件检测方法,应用于服务器,该服务器可以提供电子招标服务,招标过程中,首先将投标文件发送至服务器并赋予账号下载权限或者查看权限。
当账号查看投标文件或者下载投标文件后,自行决定是否参与到招标过程中,参与招标时,账号登录后上传投标文件,上传投标文件过程中,服务器会同时记录上传投标文件过程中使用的IP地址和Mac地址等基本信息,必要时还会对供应商基本信息上传投标文件的工作人员进行人像信息采集。
投标文件上传完成后,服务器首先对投标文件的基本信息进行分析,例如投标人的IP地址、Mac地址和供应商基本信息(如联系人姓名、电话、邮箱、公司地址等),如果这些信息存在重复,如两份标书投递人的Mac地址相同,则会对投标文件进行标记。另外,对于报价,如果呈现规律性递减或递增等方式,也会对投标文件进行标记。
上述经过标记的投标文件发送至人工审核处进行审查,审查完成后取消标记,或者标记为无效的投标文件。
经过上述处理过程后,开始对剩余的(即未进行标记的)投标文件进行分析,具体而言,在步骤S101中,使用技术词库中的技术词语对收到的多个电子投标文件进行检索,将涉及到同一个和/或同一组技术词语的内容提取到一个归集组,每一个归集组中的内容属于同一个电子招标文件,如图2所示。
此处的技术名词指的是招标过程中涉及到的专业名词,其中主要涉及技术内容(例如产品、规格、型号、维护、保养)和商务内容(与投标人相关的信息,例如资质、业绩证明等)。这些技术名词来自于业内常用词汇或者来自于招标文件。
如土建行业招标,技术名词包括沉井基础、地基系数、地基承载力、复合地基、刚性基础、地基处理等。又如政府办公家具采购招标所涉及的技术名词,包括检测、安装调试、备品备件等。
在本实施例中,在招标***中已构建相关行业的技术词库,从技术词库中提取相关技术名词对同一招标项目中的多个电子投标文件进行检索,例如针对一项地建工程的投标文件,使用技术词库中的“地基系数、地基承载力”作为一组技术词语,采用“沉井基础”作为另一组技术词,分别将属于各组技术词语的内容提取到相应的归集组。此外,在一种可能的实现方式中,也可以通过向***中输入技术词语,同时拓展已构建的技术词库。
通过技术词语将相关内容进行集合,可以使后续的查重过程更具有针对性,此处需要考虑,与技术词语相关连的内容与招标具有更大的关联度。
在一般的查重方式中,会计算重复内容在整体内容中的占比,但是投标文件可能会复制招标文件中的一些技术和商务条款,使得标书中存在大量重复,基于该方法的判定则具备相似度高,但这种重复是合理的,显然,该方式的劣势在于无法区分重要内容与非重要内容,重要内容重复率高、非重要内容重复率低的情况,当重要内容的占比较低时,存在计算重复内容在整体内容中的占比较低但是实际上存在围标串标的潜在可能。因此在本申请中,使用了技术词语提取内容的处理方式,将出现技术名词部分的内容从投标文件中提取出来,然后进行相似度判定。技术词语提取内容的方式还能够规避基于同一个投标要求编制的招标文件,因为在设定技术词语时,可以将这些制式内容或者格式化内容直接划入到相似度判定范围以外。同时通过技术词语可以将相关内容集中起来进行处理,避免了使用打乱顺序带来的实质相似但是无法被判定为相似的问题。
在一些可能的实现方式中,提取技术词语出现位置处的句子,此处以句号(或和其他特定符号)为位置标记,同时提取该位置处的前一个句子和后一个句子,总共三个句子。
对于自然语义模型,具体解释如下:在自然语言中,存在着词和词之间的关系,字和字之间的关系。例如近义词,反义词,同属性的词语,因此对于中文信息的处理过程,可以分为“字处理”、“词处理”和“句处理”,自然语义模型是在“字处理”和“词处理”的基础上,将“字”和“词”在 “句子”中结合语境进行分析,目的是提高使用技术词语得到归集组的准确性。
在步骤S102中,任意两个属于同一个和/或同一组技术词语的归集组中的内容均进行查重处理,将归集组中的内容分为重复内容与非重复内容。该步骤中,会对剩余的投标文件进行相似度分析,分析过程中,每一份投标文件均会与剩余的投标文件进行逐一对比进行查重处理。如在同一招标项目中的电子投标文件中,存在属于“地基系数、地基承载力”技术词语组的五个归集组,五个归集组的任意一个归集组均需要与剩余四个归集组进行查重处理,得到重复内容与非重复内容。
在步骤S103中,使用段落标记再对非重复内容进行区域划分,得到多个处理区域。对非重复内容进行区域划分的目的是进一步计算任意两个属于同一个和/或同一组技术词语的归集组中内容的相似度。因为在步骤S102中得到的非重复内容中,还可能存在一些实质上属于重复的内容没有被发现。
在一些可能的实现方式中,可采用换行符、空行、首行缩进,或者特殊字符和代码作为段落标记。例如采用换行符作为段落标记的,基于检测到的换行符,将非重复内容划分为不同区域,得到多个处理区域;又例如采用首行缩进用作段落标记,即基于检测到的首行缩进,将非重复内容划分为多个不同的区域。
在步骤S104中,将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比并计算相似度。该步骤中执行的内容就是发现实质上属于重复的内容。具体的方式是将一个归集组中的每一个处理区域与剩余归集组中的内容进行相似度对比。
该方式是将归集组中的多个处理区域分散到每一个剩余归集组中,这种方式的优势在于能够尽可能的发现剩余的投标文件中是否存在相似内容。在实际应用中,归集组中的多个处理区域会分别与不同的投标文件存在相似内容,当将任意两份投标文件进行相似度对比时,可能出现相似度符合要求的情况,但是将样本分散到剩余的全部投标文件中时,存在相似内容的情况就会更加容易被发现。
接着在步骤S105中将相似度符合要求的处理区域划入重复内容,最后根据重复内容给出两个属于同一个和/或同一组技术词语的归集组的相似度,也就是步骤S106中的内容。
具体而言,对于一个投标文件中的归集组,如果其分别与不同投标文件中的内容出现相似,那么可以认为这些投标文件存在围标和串标的可能,因为从行为上判断,两份投标文件进行相似性规避具有一定的技术可行性,但是多份投标文件进行相似性规避具有困难,因为这涉及到更加复杂和繁琐的工作,为了规避该问题,每一份投标文件都需要重新撰写,如果出现每一份投标文件都需要重新撰写的情况,则意味着从技术角度上,围标和串标的问题已经消失。
但是从另一个方面,如果一些企业经常性的出现在同一个招标场景中,其出现的频率越高,则越容易被发现,这种场景中记录的内容会被录入到信息库中,提供给投标前的基础信息筛选使用。
在一些可能的实现方式中,将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比包括以下步骤:
S201,使用段落标记对剩余归集组中的内容进行区域划分,得到多个对比处理区域;以及
S202,将属于一个归集组中的多个处理区域顺序与全部的对比处理区域进行相似度对比。
具体而言,会使用段落标记对剩余归集组中的内容进行区域划分,得到多个对比处理区域,每一个对比处理区域中均包括多个文字,然后属于一个归集组中的多个处理区域顺序与全部的对比处理区域进行相似度对比,如图3所示。
这种对比方式可以看作是将句子进行相似度对比,使用句子进行相似度对比的优势在于可以得到更高的处理效率和更加准确的对比结果。并且在本申请提供的方式中,并不限制于句子所在的位置,而是将句子独立后与其他归集组中的内容进行相似度对比。
在一些可能的实现方式中,进一步:
S301,统计一个处理区域与一个对比处理区域中的重合文字的数量;以及
S302,在重合文字的数量大于等于设定数量值时将所述处理区域划入重复内容。
步骤S301至步骤S302中的内容是在出现一个处理区域与一个对比处理区域中的重合文字的数量大于等于设定数量值时将整个处理区域划入重复内容,该种方式的优势在于能够扩大重复内容的覆盖范围,避免了调整语序导致的无法被识别到。
在一些例子中,统计一个处理区域与一个对比处理区域中的重合文字的数量还包括:
S401,将处理区域和对比处理区域中的文字分为重合文字段与非重合文字段;以及
S402,使用语义识别计算两个重合文字段之间的非重合文字段的相似度,将相似度复合要求的非重合文字段划入重合文字段。
具体地说,将文字分为重合文字段与非重合文字段,然后使用语义识别计算两个重合文字段之间的非重合文字段的相似度,最后将相似度复合要求的非重合文字段划入重合文字段。语义识别的作用是针对于文字替换的情况,与能够被识别为是具有相似度,如图4所示。
在一些例子中,对于出现的表格,使用如下方式进行处理:
S501,识别电子投标文件中的表格并提取表格中的内容;以及
S502,将表格中一个单元格中的内容作为一个处理区域。
具体的说,就是将表格中每一个单元格中的内容作为一个独立的处理区域,然后使用上述内容中记载的方式进行处理。目的是避免将文字表格化出现的规避查重现象。
进一步地,请参阅图5,将表格第一行和/表格第一列中的内容加入到每一个处理区域,这种方式会更具有针对性,因为表格中的第一行(最上方)和第一列(最左侧)中往往包含有引导性信息,对于这部分引导性信息,可以将其键入到每一个处理区域中,使处理区域中的内容更具有针对性。
在一些可能的实现方式中,表格第一行和/表格第一列中的内容位于加入的处理区域中的内容之前或者之后,后者,使用位于之前和位于之后两种方式进行两次处理。
在另一些可能的实现方式中,表格第一行和/表格第一列中的内容与加入的处理区域中的内容之间存在空白区域,空白区域表示表格第一行和/表格第一列中的内容与加入的处理区域中的内容不连贯,可以得到更大的搜索范围,对于空白区域的长度,则可以根据具体的经验值设定。
本申请还提供了一种投标文件的检测装置,包括:
归集单元,用于用技术词库中的技术词语对收到的电子投标文件进行检索,将与同一个和/或同一组技术词语关联的内容提取到一个归集组,每一个归集组中的内容属于同一个电子投标文件;
第一查重处理单元,用于任意两个属于同一个和/或同一组技术词语的归集组中的内容均进行查重处理,将归集组中的内容分为重复内容与非重复内容;
第一区域划分单元,用于使用段落标记对非重复内容进行区域划分,得到多个处理区域;
第一相似度处理单元,用于将属于一个归集组中的多个处理区域顺序与剩余归集组中的内容进行相似度对比并计算相似度;
第二查重处理单元,用于将相似度符合要求的处理区域划入重复内容;以及
结果单元,用于根据重复内容给出两个属于同一个和/或同一组技术词语的归集组的相似度。
进一步地,还包括:
第二区域划分单元,用于使用段落标记对剩余归集组中的内容进行区域划分,得到多个对比处理区域;以及
第二相似度处理单元,用于将属于一个归集组中的多个处理区域顺序与全部的对比处理区域进行相似度对比。
进一步地,还包括:
数量统计单元,用于统计一个处理区域与一个对比处理区域中的重合文字的数量;以及
第一再划分单元,用于在重合文字的数量大于等于设定数量值时将所述处理区域划入重复内容。
进一步地,还包括:
字段划分单元,用于将处理区域和对比处理区域中的文字分为重合文字段与非重合文字段;以及
第二再划分单元,用于使用语义识别计算两个重合文字段之间的非重合文字段的相似度,将相似度复合要求的非重合文字段划入重合文字段。
进一步地,还包括:
识别单元,用于识别电子投标文件中的表格并提取表格中的内容;以及
处理单元,用于将表格中一个单元格中的内容作为一个处理区域。
进一步地,将表格第一行和/表格第一列中的内容加入到每一个处理区域。
进一步地,表格第一行和/表格第一列中的内容位于加入的处理区域中的内容之前或者之后;
表格第一行和/表格第一列中的内容与加入的处理区域中的内容之间存在空白区域。
在一个例子中,以上任一装置中的单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个专用集成电路(application specificintegratedcircuit,ASIC),或,一个或多个数字信号处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA),或这些集成电路形式中至少两种的组合。
再如,当装置中的单元可以通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,CPU)或其它可以调用程序的处理器。再如,这些单元可以集成在一起,以片上***(system-on-a-chip,SOC)的形式实现。
在本申请中可能出现的对各种消息/信息/设备/网元/***/装置/动作/操作/流程/概念等各类客体进行了赋名,可以理解的是,这些具体的名称并不构成对相关客体的限定,所赋名称可随着场景,语境或者使用习惯等因素而变更,对本申请中技术术语的技术含义的理解,应主要从其在技术方案中所体现/执行的功能和技术效果来确定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
还应理解,在本申请的各个实施例中,第一、第二等只是为了表示多个对象是不同的。例如第一时间窗和第二时间窗只是为了表示出不同的时间窗。而不应该对时间窗的本身产生任何影响,上述的第一、第二等不应该对本申请的实施例造成任何限制。
还应理解,在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种投标文件的检测***,所述***包括:
一个或多个存储器,用于存储指令;以及
一个或多个处理器,用于从所述存储器中调用并运行所述指令,执行如上述内容中所述的方法。
本申请还提供了一种计算机程序产品,该计算机程序产品包括指令,当该指令被执行时,以使得该投标文件的检测***执行对应于上述方法的投标文件的检测***的操作。
本申请还提供了一种芯片***,该芯片***包括处理器,用于实现上述内容中所涉及的功能,例如,生成,接收,发送,或处理上述方法中所涉及的数据和/或信息。
该芯片***,可以由芯片构成,也可以包括芯片和其他分立器件。
上述任一处提到的处理器,可以是一个CPU,微处理器,ASIC,或一个或多个用于控制上述的反馈信息传输的方法的程序执行的集成电路。
在一种可能的设计中,该芯片***还包括存储器,该存储器,用于保存必要的程序指令和数据。该处理器和该存储器可以解耦,分别设置在不同的设备上,通过有线或者无线的方式连接,以支持该芯片***实现上述实施例中的各种功能。或者,该处理器和该存储器也可以耦合在同一个设备上。
可选地,该计算机指令被存储在存储器中。
可选地,该存储器为该芯片内的存储单元,如寄存器、缓存等,该存储器还可以是该终端内的位于该芯片外部的存储单元,如ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM等。
可以理解,本申请中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
非易失性存储器可以是ROM、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electricallyEPROM,EEPROM)或闪存。
易失性存储器可以是RAM,其用作外部高速缓存。RAM有多种不同的类型,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器。
本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (10)
1.一种基于自然语义模型的投标文件检测方法,其特征在于,包括:
使用技术词库中的技术词语对收到的多个电子投标文件进行检索,将与同一个和/或同一组技术词语关联的内容提取到一个归集组,每一个归集组中的内容属于同一个电子投标文件;
任意两个属于同一个和/或同一组技术词语的归集组中的内容均进行查重处理,将归集组中的内容分为重复内容与非重复内容;
使用段落标记对非重复内容进行区域划分,得到多个处理区域;
将属于一个归集组中的多个处理区域顺序与归属于同一个和/或同一组技术词语中的剩余归集组中的内容进行相似度对比并计算相似度;
将相似度符合要求的处理区域划入重复内容;以及
根据重复内容给出两个属于同一个和/或同一组技术词语的归集组的相似度。
2.根据权利要求1所述的基于自然语义模型的投标文件检测方法,其特征在于,将属于一个归集组中的多个处理区域顺序与归属于同一个和/或同一组技术词语中的剩余归集组中的内容进行相似度对比包括:
使用段落标记对其他归集组中的内容进行区域划分,得到多个对比处理区域;以及
将属于一个归集组中的多个处理区域顺序与全部的对比处理区域进行相似度对比。
3. 根据权利要求2所述的基于自然语义模型的投标文件检测方法,其特征在于,还包括:
统计一个处理区域与一个对比处理区域中的重合文字的数量;以及
在重合文字的数量大于等于设定数量值时将所述处理区域划入重复内容。
4. 根据权利要求3所述的基于自然语义模型的投标文件检测方法,其特征在于,统计一个处理区域与一个对比处理区域中的重合文字的数量还包括:
将处理区域和对比处理区域中的文字分为重合文字段与非重合文字段;以及
使用语义识别计算两个重合文字段之间的非重合文字段的相似度,将相似度符合要求的非重合文字段划入重合文字段。
5. 根据权利要求1至4中任意一项所述的基于自然语义模型的投标文件检测方法,其特征在于,还包括:
识别电子投标文件中的表格并提取表格中的内容;以及
将表格中一个单元格中的内容作为一个处理区域。
6.根据权利要求5所述的基于自然语义模型的投标文件检测方法,其特征在于,将表格第一行和/表格第一列中的内容加入到每一个处理区域。
7.根据权利要求6所述的基于自然语义模型的投标文件检测方法,其特征在于,表格第一行和/表格第一列中的内容位于加入的处理区域中的内容之前或者之后;
表格第一行和/表格第一列中的内容与加入的处理区域中的内容之间存在空白区域。
8.一种投标文件的检测装置,其特征在于,包括:
归集单元,用于用技术词库中的技术词语对收到的电子投标文件进行检索,将与同一个和/或同一组技术词语关联的内容提取到一个归集组,每一个归集组中的内容属于同一个电子投标文件;
第一查重处理单元,用于任意两个属于同一个和/或同一组技术词语的归集组中的内容均进行查重处理,将归集组中的内容分为重复内容与非重复内容;
第一区域划分单元,用于使用段落标记对非重复内容进行区域划分,得到多个处理区域;
第一相似度处理单元,用于将属于一个归集组中的多个处理区域顺序与归属于同一个和/或同一组技术词语中的剩余归集组中的内容进行相似度对比并计算相似度;
第二查重处理单元,用于将相似度符合要求的处理区域划入重复内容;以及
结果单元,用于根据重复内容给出两个属于同一个和/或同一组技术词语的归集组的相似度。
9.一种投标文件的检测***,其特征在于,所述***包括:
一个或多个存储器,用于存储指令;以及
一个或多个处理器,用于从所述存储器中调用并运行所述指令,执行如权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括:
程序,当所述程序被处理器运行时,如权利要求1至7中任意一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311531314.XA CN117252194B (zh) | 2023-11-17 | 2023-11-17 | 一种基于自然语义模型的投标文件检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311531314.XA CN117252194B (zh) | 2023-11-17 | 2023-11-17 | 一种基于自然语义模型的投标文件检测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252194A CN117252194A (zh) | 2023-12-19 |
CN117252194B true CN117252194B (zh) | 2024-02-23 |
Family
ID=89128005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311531314.XA Active CN117252194B (zh) | 2023-11-17 | 2023-11-17 | 一种基于自然语义模型的投标文件检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252194B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258303A (zh) * | 2020-11-16 | 2021-01-22 | 北京筑龙信息技术有限责任公司 | 围串标预警分析方法、装置、电子设备及存储介质 |
CN112800113A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于数据挖掘分析技术的招投标审计方法及*** |
CN114492323A (zh) * | 2021-12-27 | 2022-05-13 | 博思数采科技发展有限公司 | 一种基于电子投标文件比对的围串标行为检测方法及装置 |
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
CN116485190A (zh) * | 2023-06-26 | 2023-07-25 | 中招联合信息股份有限公司 | 基于多文件对比分析的企业投标信息文件风险预测*** |
CN116484231A (zh) * | 2023-03-14 | 2023-07-25 | 厦门市民数据服务股份有限公司 | 异常抱团投标、围标行为识别方法、装置、设备及介质 |
US11748577B1 (en) * | 2022-08-22 | 2023-09-05 | Rohirrim, Inc. | Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10453101B2 (en) * | 2016-10-14 | 2019-10-22 | SoundHound Inc. | Ad bidding based on a buyer-defined function |
-
2023
- 2023-11-17 CN CN202311531314.XA patent/CN117252194B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258303A (zh) * | 2020-11-16 | 2021-01-22 | 北京筑龙信息技术有限责任公司 | 围串标预警分析方法、装置、电子设备及存储介质 |
CN112800113A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于数据挖掘分析技术的招投标审计方法及*** |
CN114492323A (zh) * | 2021-12-27 | 2022-05-13 | 博思数采科技发展有限公司 | 一种基于电子投标文件比对的围串标行为检测方法及装置 |
CN115249007A (zh) * | 2021-12-27 | 2022-10-28 | 博思数采科技发展有限公司 | 一种基于电子投标文件比对的围串标行为检测方法及装置 |
US11748577B1 (en) * | 2022-08-22 | 2023-09-05 | Rohirrim, Inc. | Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models |
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
CN116484231A (zh) * | 2023-03-14 | 2023-07-25 | 厦门市民数据服务股份有限公司 | 异常抱团投标、围标行为识别方法、装置、设备及介质 |
CN116485190A (zh) * | 2023-06-26 | 2023-07-25 | 中招联合信息股份有限公司 | 基于多文件对比分析的企业投标信息文件风险预测*** |
Also Published As
Publication number | Publication date |
---|---|
CN117252194A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6734946B2 (ja) | 情報を生成するための方法及び装置 | |
CN109657137B (zh) | 舆情新闻分类模型构建方法、装置、计算机设备和存储介质 | |
US20080155527A1 (en) | System and method for optimizing changes of data sets | |
CN110781246A (zh) | 一种企业关联关系构建方法及*** | |
CN108153824B (zh) | 目标用户群体的确定方法及装置 | |
CN109376273B (zh) | 企业信息图谱构建方法、装置、计算机设备及存储介质 | |
CN109635084B (zh) | 一种多源数据文档实时快速去重方法及*** | |
CN110275965A (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
CN102591855A (zh) | 一种数据标识方法及*** | |
CN105099729A (zh) | 一种识别用户身份标识的方法和装置 | |
CN105045911B (zh) | 一种用于用户进行标记的标签生成方法及设备 | |
CN110377576A (zh) | 创建日志模板的方法和装置、日志分析方法 | |
CN111224859A (zh) | 删除聊天记录的方法、计算机设备以及存储介质 | |
CN117252194B (zh) | 一种基于自然语义模型的投标文件检测方法及*** | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
CN113268567A (zh) | 多属性文本匹配方法、装置、设备和存储介质 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN110489416B (zh) | 一种基于数据处理的信息存储方法及相关设备 | |
CN111161088A (zh) | 票据处理方法、装置和设备 | |
CN110688995A (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
CN115994534A (zh) | 政务场景热词挖掘方法、装置、设备及存储介质 | |
CN110941952A (zh) | 一种完善审计分析模型的方法及装置 | |
CN104252488A (zh) | 处理数据的方法和服务器 | |
CN111209733B (zh) | 文本记录处理方法及装置 | |
CN110019771B (zh) | 文本处理的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |