CN117093548B - 一种招投标管理稽核*** - Google Patents

一种招投标管理稽核*** Download PDF

Info

Publication number
CN117093548B
CN117093548B CN202311359635.6A CN202311359635A CN117093548B CN 117093548 B CN117093548 B CN 117093548B CN 202311359635 A CN202311359635 A CN 202311359635A CN 117093548 B CN117093548 B CN 117093548B
Authority
CN
China
Prior art keywords
comparison
text
file
auditing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311359635.6A
Other languages
English (en)
Other versions
CN117093548A (zh
Inventor
宋晋刚
盛菲
冯靖圆
李广峰
李倩
钟龙华
杨颖�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gongcheng Management Consulting Co ltd
Original Assignee
Gongcheng Management Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gongcheng Management Consulting Co ltd filed Critical Gongcheng Management Consulting Co ltd
Priority to CN202311359635.6A priority Critical patent/CN117093548B/zh
Publication of CN117093548A publication Critical patent/CN117093548A/zh
Application granted granted Critical
Publication of CN117093548B publication Critical patent/CN117093548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种招投标管理稽核***,属于信息处理技术领域,包括联网数据获取模块根据所需获取的企业信息获取对应的企业信息;稽核分析模块,用于根据所述企业信息进行企业信息稽核以及根据所述比对项文件进行比对项稽核;图片提取模块提取文件中的图片;标注识别及分析模块识别图片中的标注信息并分析所述标注信息对应的字符信息,得到标注习惯;标注习惯对比模块将文件中的图片的标注习惯进行相互对比,当其中一项标注信息中的其中一项标注习惯相同,则累积一分,当分值超过设定的分值阈值,则判定图片异常。本发明通过识别图片标注信息分析得到字符信息进而对相同的标注习惯进行积分计算,从而根据标注习惯判断是否具有串标等异常情况。

Description

一种招投标管理稽核***
技术领域
本发明涉及信息处理技术领域,特别是一种招投标管理稽核***。
背景技术
在招投标过程中,需要对各大投标企业的投标文件进行稽核,传统稽核方式需要人工逐个查阅各投标文件,进行记录和对大量数据的计算分析、比对,在招标项目较多以及投标企业较多时,人工稽核则无法对海量投标文件做到无遗漏审核以及无法在海量且关系复杂的数据中做到准确计算和分析。
申请号为 CN202110166523.3的发明专利公开了一种基于数据挖掘分析技术的招投标审计方法及***,通过OCR、文本抽取技术,自动从投标商务文件、技术方案文件中抽取投标审计关键信息,利用关联分析、文本挖掘等数据挖掘技术,从招投标关键信息中智能识别存在交换投标代理人、技术方案雷同等招投标违规行为的投标企业和项目。该专利只实现对商务文件、技术文件进行文本稽核,而无法对商务文件或技术文件的配图进行稽核,在传统的图像对比中一般只识别图像画面的结构和色彩,而为清楚说明,通常在文件配图中进行信息标注,各人的标注习惯都不同,因而标注习惯能够一定程度反映文件之间的相似性进而反映是否具有串标等异常情况,因此需要一种招投标管理稽核***对图片的标注信息进行稽核。
发明内容
本发明为解决现有技术中存在的技术问题,提供了一种招投标管理稽核***,包括:项目配置模块和项目稽核模块;
项目配置模块包括:比对项配置模块和文件模板获取模块;
比对项配置模块,用于从比对项中选择一项或多项进行比对;所述比对项包括商务文件和技术文件;
文件模板获取模块,用于根据选择的比对项获取对应的比对项文件模板;所述比对项文件模板包括商务文件模板和技术文件模板;
项目稽核模块包括:联网数据获取模块和稽核分析模块;
联网数据获取模块,用于根据所需获取的企业信息获取对应的企业信息;
稽核分析模块,用于根据所述企业信息进行企业信息稽核以及根据所述比对项文件进行比对项稽核;
所述比对项稽核包括商务技术稽核;所述商务技术稽核包括图片对比;
所述稽核分析模块包括图片提取模块、标注识别及分析模块和标注习惯对比模块;
图片提取模块,用于提取商务文件和/或技术文件中的图片;
标注识别及分析模块,用于识别图片中的标注信息并分析所述标注信息对应的字符信息,得到标注习惯;
标注习惯对比模块,用于将各企业的商务文件和/或技术文件中的图片的标注习惯进行相互对比,当其中一项标注信息中的其中一项标注习惯相同,则累积一分,当分值超过设定的分值阈值,则判定该图片为标注异常图;若企业在当次对比中的标注异常图数与文件中的图片数的比值超过设定异常阈值,则判定该企业存在图片标注异常。
进一步地,所述标注信息包括中文标注、英文标注和数字标注;所述字符信息包括字体、字间距、字体大小和指引方式;所述标注习惯包括字体习惯、间距习惯、大小习惯和指引方式习惯。
进一步地,所述标注识别及分析模块识别图片中的字符标注信息并分析字符标注信息,具体为:
先将所述图片转化为灰度图并进行二值化处理得到预处理图像;
使用OCR算法识别所述预处理图像中的字符,得到Unicode编码,通过Unicode编码分析得到字体大小;
通过字体库识别所述预处理图像中字符的字体;
通过预处理图像的像素尺寸按比例计算得到字符的像素间距,所述像素间距为字间距。
进一步地,所述商务技术稽核还包括文本对比,将企业的商务文件和/或技术文件与其他企业逐一对比分析文本相似度,每次对比都重新分析一次文本相似度,若存在任意一次文本对比中的文本相似度超过设定的商务技术相似阈值则判定为文本异常。
进一步地,所述稽核分析模块还包括:
过滤词库,用于存储停用词和行业术语;
相似关键词分析模块,用于关键词相似度分析;
相似文段分析模块,用于文段相似度分析;
所述文本相似度为所述关键词相似度和所述文段相似度的平均值。
进一步地,所述相似关键词分析模块分析关键词相似度,具体为:
从文本中提取出现次数超过设定第一阈值并经过所述过滤词库将停用词和行业术语过滤后的词作为关键词,若在当次对比中,当前文本的关键词中,存在与对比文本中的关键词词义相同且出现次数超过设定第二阈值的关键词,则将该关键词作为异常关键词;将当前文本的异常关键词数量与关键词数量的比值作为当前文本在当次文本对比中的关键词相似度。
进一步地,所述相似文段分析模块分析文段相似度,具体为:
从文本中划分多个文段,将文段进行分词后进行词频统计,构建词频向量;计算当前文段的词频向量与对比文段的词频向量的余弦值,若余弦值大于预设余弦阈值,则当前文段为异常文段,当前文本的异常文段数量与当前文本的文段总数量的比值作为当前文本在当次文本对比中的文段相似度。
进一步地,所述项目稽核模块还包括第一判断模块,用于根据上传的企业名单和选择的比对项识别上传的比对项文件的文件格式、文件名称和文件内容是否正确。
进一步地,所述文件名称包括公司名称和比对项名称;
所述第一判断模块识别上传的比对项文件的文件名称是否正确,具体为:识别公司名称是否与当前上传通道的所属公司名称相同以及识别比对项名称是否与当前上传通道的所属比对项名称相同;
所述第一判断模块识别上传的比对项文件的文件内容是否正确,具体为:根据上传的比对项文件的比对项名称获取对应的比对项文件模板,识别上传的比对项文件的文件内容是否与对应的比对项文件模板是否匹配,若是,则上传的比对项文件的文件内容正确。
进一步地,所述比对项还包括:报价文件、人员名单和***;所述比对项文件模板还包括报价文件模板、人员名单模板和***模板;所述比对项稽核还包括:报价稽核、人员稽核和***稽核。
相比于现有技术,本发明的有益效果在于:通过标注识别及分析模块和标注习惯对比模块进行图片标注信息的标注习惯分析,得到标注异常图片,进而根据标注异常图片的数量占比判定是否存在图片标注异常;
通过设置过滤词库在进行关键词相似度对比时进行停用词和行业术语过滤,提高关键词相似度分析的准确性,同时结合相似文段分析模块分别对文段相似度进行分析,综合计算得到文本相似度,进一步提高文本相似度分析的准确性;
通过第一判断模块根据上传的企业名单和选择的比对项识别上传的比对项文件的文件格式、文件名称和文件内容是否正确,避免人工核对,提高稽核效率。
附图说明
图1是本发明招投标管理稽核***的***框图;
图2是本发明对指引方式的举例说明图;
图3是本发明一实施例的稽核分析模块的结构框图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是,本发明可以用许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1所示,本发明提供的一种招投标管理稽核***,包括:项目配置模块和项目稽核模块;
项目配置模块包括:比对项配置模块和文件模板获取模块;
比对项配置模块,用于从比对项中选择一项或多项进行比对;所述比对项包括商务文件和技术文件;
文件模板获取模块,用于根据选择的比对项获取对应的比对项文件模板;所述比对项文件模板包括商务文件模板和技术文件模板;
比对项文件模板由用户自行设置上传,商务文件模板和技术文件模板所支持上传的文件格式包括:doc、docx和pdf。
项目稽核模块包括:联网数据获取模块和稽核分析模块;
联网数据获取模块,用于根据所需获取的企业信息获取对应的企业信息;
所述企业信息项包括工商信息、司法风险信息和资质信息;
所述工商信息包括企业基本信息、企业股东信息和历史主要人员;企业基本信息包括地址、联系方式、邮箱、法人信息等等;
所述司法风险信息包括历史法律诉讼、被执行人、失信人、行政处罚信息和疑似实际控制人;行政处罚信息包括当前处罚信息和历史处罚信息;
资质信息包括营业执照、税务登记信息、一般纳税人信息、企业信用评级、行政许可、税务评级和行业资质信息;行业资质信息为企业所在行业所需的专业资质证书,如建筑、金融、信息技术等行业所需的专业资质证书,证明公司在相关领域的专业能力和资质。
本方案可通过联网数据获取模块选择获取所需的企业信息,比如用户选择获取企业基本信息和企业股东信息,则联网数据获取模块通过网络查询获取在该稽核项目中的企业的企业基本信息和企业股东信息。
稽核分析模块,用于根据所述企业信息进行企业信息稽核以及根据所述比对项文件进行比对项稽核。
所述企业信息稽核即根据获取的企业信息进行稽核比对,比如企业是否存在行政处罚,是否存在企业之间相互控股,是否存在不同企业的主要人员相同的情况等等。
所述比对项稽核包括商务技术稽核;所述商务技术稽核包括图片对比;
所述稽核分析模块包括图片提取模块、标注识别及分析模块和标注习惯对比模块;
图片提取模块,用于提取商务文件和/或技术文件中的图片;
标注识别及分析模块,用于识别图片中的标注信息并分析所述标注信息对应的字符信息,得到标注习惯;
标注习惯对比模块,用于将各企业的商务文件和/或技术文件中的图片的标注习惯进行相互对比,当其中一项标注信息中的其中一项标注习惯相同,则累积一分,当分值超过设定的分值阈值,则判定该图片为标注异常图;若企业在当次对比中的标注异常图数与文件中的图片数的比值超过设定异常阈值,则判定该企业存在图片标注异常。
所述标注信息包括中文标注、英文标注和数字标注;所述字符信息包括字体、字间距、字体大小和指引方式;所述标注习惯包括字体习惯、间距习惯、大小习惯和指引方式习惯。
将每种标注信息所使用次数最多的字符信息作为自身的标注习惯,比如在某个商务文件或技术文件的所有图片中,中文标注当中,采用楷体的中文字符进行标注的次数最多,则将采用楷体作为该文件中文标注的字体习惯。
所述标注识别及分析模块识别图片中的字符标注信息并分析字符标注信息,具体为:
先将所述图片转化为灰度图并进行二值化处理得到预处理图像;
使用OCR算法识别所述预处理图像中的字符,得到Unicode编码,通过Unicode编码分析得到字体大小;
通过字体库识别所述预处理图像中字符的字体;
通过预处理图像的像素尺寸按比例计算得到字符的像素间距,所述像素间距为字间距;
所述指引方式为图片中的某一结构指向对应的标注信息的方式,比如图2所示,图2左图中采用将标注信息1直接标在图片对应的结构中,图2右图则采用引导线将结构与标注信息1连接对应;
在一些实施例中,所述商务技术稽核还包括文本对比,将企业的商务文件和/或技术文件与其他企业逐一对比分析文本相似度,每次对比都重新分析一次文本相似度,若存在任意一次文本对比中的文本相似度超过设定的商务技术相似阈值则判定为文本异常。
比如商务技术相似阈值设为30%,A、B、C三家企业进行技术文件的文本对比,A与B进行文本比对分析得到A与B的文本相似度为50%,在A与C比对时则需要重新独立分析文本相似度,A与C的文本相似度为20%,B与C进行分析得到文本相似度为35%,则A、B、C均存在文本异常。
参阅图3所示,所述稽核分析模块还包括:
过滤词库,用于存储停用词、行业术语和模板语句;所述停用词即为常用词汇以及无实际含义的词汇,比如“这个”、“一些”等等;
相似关键词分析模块,用于关键词相似度分析,具体为:
从文本中提取出现次数超过设定第一阈值并经过所述过滤词库将停用词和行业术语过滤后的词作为关键词,若当前文本的关键词中,存在与其他对比文本中的关键词的词义相同且出现次数超过设定第二阈值的关键词,则将该关键词作为异常关键词;将当前文本的异常关键词数量与关键词数量的比值作为关键词相似度。
相似文段分析模块,用于文段相似度分析,具体为:
从文本中划分多个文段,将文段进行分词后进行词频统计,构建词频向量;计算当前文段的词频向量与对比文段的词频向量的余弦值,若余弦值大于预设余弦阈值,则当前文段为异常文段,当前文本的异常文段数量与当前文本的文段总数量的比值作为当前文本在当次文本对比中的文段相似度。
比如文段A为“我喜欢足球,不喜欢篮球”,与之对比的文段B为“我不喜欢足球,也不喜欢篮球”;经过分词和词频统计得到文段A为“我1、喜欢2、足球1、不1、篮球1、也0”,文段B为“我1、喜欢2、足球1、不2、篮球1、也1”;所以文段A的词频向量为[1,2,1,1,1,0],文段B的词频向量为[1,2,1,2,1,1];文段A与文段B的词频向量的余弦值约为0.9,所以在当次文本对比中,文段A和文段B各自文本的异常文段。
所述文本相似度为所述关键词相似度和所述文段相似度的平均值。
在一些实施例中,所述项目稽核模块还包括第一判断模块,用于根据上传的企业名单和选择的比对项识别上传的比对项文件的文件格式、文件名称和文件内容是否正确。
所述第一判断模块识别上传的比对项文件的文件名称是否正确,具体为:识别公司名称是否与当前上传通道的所属公司名称相同以及识别比对项名称是否与当前上传通道的所属比对项名称相同,若都相同则文件名称无误;
比如A公司的技术文件上传通道上传比对项文件,若该文件名称为“A公司-技术文件”,则该比对项文件的文件名称无误,若该文件名称为“B公司-技术文件”或“A公司-商务文件”,则文件名称有误。
所述第一判断模块识别上传的比对项文件的文件内容是否正确,具体为:根据上传的比对项文件的比对项名称获取对应的比对项文件模板,识别上传的比对项文件的文件内容是否与对应的比对项文件模板是否匹配,若是,则上传的比对项文件的文件内容正确。
所述商务文件和技术文件所支持上传的文件格式包括:doc、docx和pdf。
所述第一判断模块还识别是否缺少比对项文件,需要说明的是,当识别到缺少比对项文件时,***仍可继续对所有企业未缺少比对项文件的比对项进行稽核分析。
在一些实施例中,所述比对项还包括:报价文件、人员名单和***;所述比对项文件模板还包括报价文件模板、人员名单模板和***模板;所述比对项稽核还包括:报价稽核、人员稽核和***稽核。
所述报价文件模板和人员名单文件模板所支持上传的文件格式包括:xls和xlsx。所述报价文件和人员名单文件所支持上传的文件格式包括:xls和xlsx;所述***所支持上传的文件格式包括:jpg、jpeg、png、doc、docx和pdf。
本发明***还包括报价配置模块,在检测到比对项配置模块所选择的比对项包含报价文件对并且比对项文件模板获取模块获取到报价文件模板时启动;
所述报价配置模块包括:
报价对比项选择模块,用于选择所需配置的报价对比项;
单元格圈选模块,用于根据选择配置的报价对比项,在报价文件模板上圈选对应的单元格;
第二判断模块,用于识别所圈选的单元格的行列位置并进行位置数据存储,以及根据报价对比项判断所圈选的单元格内填写的是否为数值,若不是,则报错,用户进行重新修改圈选或重新上传新的报价文件模板;
所述报价对比项包括最高限价、多格最高限价、计算公式和规律性差异;
所述报价对比项选择模块在选择配置最高限价时,圈选一个单元格并为该单元设定最高阈值;
所述报价对比项选择模块在选择配置多格最高限价时,圈选一个以上的单元格,并为每个单元格单独设定最高阈值;
所述报价对比项选择模块在选择配置计算公式时,所述第一判断模块还识别所圈选的单元格的数值是否以预设公式计算的数值;每个需要公式计算的单元格都设有对应的预设公式。
报价稽核,根据第二判断模块所存储的位置数据,查询对应位置的单元格,分析所述单元格的内容是否为数值,若不是则存在异常;若是,则对比是否超过该单元格对应的最高阈值,若超过则显示存在超过最高限价;同时分析所需公式计算的单元格所对应的公式与该单元格对应的预设公式是否一致,若不一致则存在异常。
报价稽核在进行规律性差异分析时,可通过对两个企业的所有对应的需要规律性差异分析的单元格逐一进行比值计算,分析是否存在相似的比值,若相似比值数量超过设定的相似比值数阈值,则该两个企业之间存在规律性报价。
人员稽核,根据各企业的人员名单文件进行人名比对,若两个企业之间的人员名单出现的相同人名数超过设定的相同人名数阈值,则判定该两个企业存在人员异常;
***稽核,通过查询***的***代码和/或***号码验证***是否存在,同时比对***的***号码是否存在相同,若存在***号码相同的***,则判定对应企业的***异常;
在一些实施例中,招投标管理稽核***还包括稽核报告生成及存储模块和邮箱配置及发送模块;
稽核报告生成及存储模块,用于根据企业信息稽核和比对项稽核的稽核结果生成稽核报告并进行存储;
邮箱配置及发送模块,用于存储多个邮箱地址,并从稽核报告生成及存储模块中选择稽核报告发送至所需发送的邮箱地址。
本发明方案的所有实施例均可相互结合形成新的实施例。
本发明的有益效果在于:通过标注识别及分析模块和标注习惯对比模块进行图片标注信息的标注习惯分析,得到标注异常图片,进而根据标注异常图片的数量占比判定是否存在图片标注异常;
通过设置过滤词库在进行关键词相似度对比时进行停用词和行业术语过滤,提高关键词相似度分析的准确性,同时结合相似文段分析模块分别进行对文段相似度进行分析,综合计算得到文本相似度,进一步提高文本相似度分析的准确性;
通过第一判断模块根据上传的企业名单和选择的比对项识别上传的比对项文件的文件格式、文件名称和文件内容是否正确,避免人工核对,提高稽核效率。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种招投标管理稽核***,其特征在于,包括:项目配置模块和项目稽核模块;
项目配置模块包括:比对项配置模块和文件模板获取模块;
比对项配置模块,用于从比对项中选择一项或多项进行比对;所述比对项包括商务文件和技术文件;
文件模板获取模块,用于根据选择的比对项获取对应的比对项文件模板;所述比对项文件模板包括商务文件模板和技术文件模板;
项目稽核模块包括:联网数据获取模块和稽核分析模块;
联网数据获取模块,用于根据所需获取的企业信息获取对应的企业信息;
稽核分析模块,用于根据所述企业信息进行企业信息稽核以及根据所述比对项文件进行比对项稽核;
所述比对项稽核包括商务技术稽核;所述商务技术稽核包括图片对比;
所述稽核分析模块包括图片提取模块、标注识别及分析模块和标注习惯对比模块;
图片提取模块,用于提取商务文件和/或技术文件中的图片;
标注识别及分析模块,用于识别图片中的标注信息并分析所述标注信息对应的字符信息,得到标注习惯;
标注习惯对比模块,用于将各企业的商务文件和/或技术文件中的图片的标注习惯进行相互对比,当其中一项标注信息中的其中一项标注习惯相同,则累积一分,当分值超过设定的分值阈值,则判定该图片为标注异常图;若企业在当次对比中的标注异常图数与文件中的图片数的比值超过设定异常阈值,则判定企业存在图片标注异常;
所述标注信息包括中文标注、英文标注和数字标注;所述字符信息包括字体、字间距、字体大小和指引方式;所述标注习惯包括字体习惯、间距习惯、大小习惯和指引方式习惯;
所述商务技术稽核还包括文本对比,将企业的商务文件和/或技术文件与其他企业逐一对比分析文本相似度,每次对比都重新分析一次文本相似度,若存在任意一次文本对比中的文本相似度超过设定的商务技术相似阈值则判定为文本异常;
所述稽核分析模块还包括:
过滤词库,用于存储停用词和行业术语;
相似关键词分析模块,用于关键词相似度分析;
相似文段分析模块,用于文段相似度分析;
所述文本相似度为所述关键词相似度和所述文段相似度的平均值;
所述相似关键词分析模块分析关键词相似度,具体为:
从文本中提取出现次数超过设定第一阈值并经过所述过滤词库将停用词和行业术语过滤后的词作为关键词,若在当次对比中,当前文本的关键词中,存在与对比文本中的关键词词义相同且出现次数超过设定第二阈值的关键词,则将该关键词作为异常关键词;将当前文本的异常关键词数量与关键词数量的比值作为当前文本在当次文本对比中的关键词相似度;
所述相似文段分析模块分析文段相似度,具体为:
从文本中划分多个文段,将文段进行分词后进行词频统计,构建词频向量;计算当前文段的词频向量与对比文段的词频向量的余弦值,若余弦值大于预设余弦阈值,则当前文段为异常文段,当前文本的异常文段数量与当前文本的文段总数量的比值作为当前文本在当次文本对比中的文段相似度。
2.根据权利要求1所述的招投标管理稽核***,其特征在于,所述标注识别及分析模块识别图片中的字符标注信息并分析字符标注信息,具体为:
先将所述图片转化为灰度图并进行二值化处理得到预处理图像;
使用OCR算法识别所述预处理图像中的字符,得到Unicode编码,通过Unicode编码分析得到字体大小;
通过字体库识别所述预处理图像中字符的字体;
通过预处理图像的像素尺寸按比例计算得到字符的像素间距,所述像素间距为字间距。
3.根据权利要求1所述的招投标管理稽核***,其特征在于,所述项目稽核模块还包括第一判断模块,用于根据上传的企业名单和选择的比对项识别上传的比对项文件的文件格式、文件名称和文件内容是否正确。
4.根据权利要求3所述的招投标管理稽核***,其特征在于,所述文件名称包括公司名称和比对项名称;
所述第一判断模块识别上传的比对项文件的文件名称是否正确,具体为:识别公司名称是否与当前上传通道的所属公司名称相同以及识别比对项名称是否与当前上传通道的所属比对项名称相同;
所述第一判断模块识别上传的比对项文件的文件内容是否正确,具体为:根据上传的比对项文件的比对项名称获取对应的比对项文件模板,识别上传的比对项文件的文件内容是否与对应的比对项文件模板是否匹配,若是,则上传的比对项文件的文件内容正确。
5.根据权利要求1所述的招投标管理稽核***,其特征在于,所述比对项还包括:报价文件、人员名单和***;所述比对项文件模板还包括报价文件模板、人员名单模板和***模板;所述比对项稽核还包括:报价稽核、人员稽核和***稽核。
CN202311359635.6A 2023-10-20 2023-10-20 一种招投标管理稽核*** Active CN117093548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311359635.6A CN117093548B (zh) 2023-10-20 2023-10-20 一种招投标管理稽核***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311359635.6A CN117093548B (zh) 2023-10-20 2023-10-20 一种招投标管理稽核***

Publications (2)

Publication Number Publication Date
CN117093548A CN117093548A (zh) 2023-11-21
CN117093548B true CN117093548B (zh) 2024-01-26

Family

ID=88773890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311359635.6A Active CN117093548B (zh) 2023-10-20 2023-10-20 一种招投标管理稽核***

Country Status (1)

Country Link
CN (1) CN117093548B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2398829A1 (es) * 2012-12-05 2013-03-22 Tkt Brainpower, S.L. Cartucho de tinta
CN108848337A (zh) * 2018-06-12 2018-11-20 中国联合网络通信集团有限公司 线路工程的远程稽核方法、装置、终端及计算机存储介质
WO2020187118A1 (zh) * 2019-03-18 2020-09-24 智慧芽信息科技(苏州)有限公司 页面的展示方法和装置
WO2021017372A1 (zh) * 2019-08-01 2021-02-04 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、***及电子设备
CN112800113A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于数据挖掘分析技术的招投标审计方法及***
CN112906817A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种智能图像标注方法
CN114462960A (zh) * 2022-01-07 2022-05-10 武汉理工大学 一种电子化招标中的资质自动审核方法及***
CN114639173A (zh) * 2022-05-18 2022-06-17 国网浙江省电力有限公司 基于ocr技术的稽查佐证材料智能审核方法及装置
CN115309582A (zh) * 2021-05-07 2022-11-08 ***通信集团有限公司 数据稽核方法、装置、电子设备及存储介质
CN115795000A (zh) * 2023-02-07 2023-03-14 南方电网数字电网研究院有限公司 基于联合相似度算法对比的围标识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260568B2 (en) * 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2398829A1 (es) * 2012-12-05 2013-03-22 Tkt Brainpower, S.L. Cartucho de tinta
CN108848337A (zh) * 2018-06-12 2018-11-20 中国联合网络通信集团有限公司 线路工程的远程稽核方法、装置、终端及计算机存储介质
WO2020187118A1 (zh) * 2019-03-18 2020-09-24 智慧芽信息科技(苏州)有限公司 页面的展示方法和装置
WO2021017372A1 (zh) * 2019-08-01 2021-02-04 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、***及电子设备
CN112800113A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于数据挖掘分析技术的招投标审计方法及***
CN112906817A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种智能图像标注方法
CN115309582A (zh) * 2021-05-07 2022-11-08 ***通信集团有限公司 数据稽核方法、装置、电子设备及存储介质
CN114462960A (zh) * 2022-01-07 2022-05-10 武汉理工大学 一种电子化招标中的资质自动审核方法及***
CN114639173A (zh) * 2022-05-18 2022-06-17 国网浙江省电力有限公司 基于ocr技术的稽查佐证材料智能审核方法及装置
CN115795000A (zh) * 2023-02-07 2023-03-14 南方电网数字电网研究院有限公司 基于联合相似度算法对比的围标识别方法和装置

Also Published As

Publication number Publication date
CN117093548A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN109887153B (zh) 一种财税处理方法和处理***
US20200019767A1 (en) Document classification system
US20180268448A1 (en) System and methods of an expense management system based upon business document analysis
US9025890B2 (en) Information classification device, information classification method, and information classification program
US11501344B2 (en) Partial perceptual image hashing for invoice deconstruction
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
CN111680073A (zh) 一种基于用户数据的金融服务平台政策资讯推荐方法
US11880435B2 (en) Determination of intermediate representations of discovered document structures
US20130218913A1 (en) Parsing tables by probabilistic modeling of perceptual cues
US20230205800A1 (en) System and method for detection and auto-validation of key data in any non-handwritten document
CN114492323A (zh) 一种基于电子投标文件比对的围串标行为检测方法及装置
CN114495139A (zh) 一种基于图像的作业查重***及方法
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
TW202018616A (zh) 智能會計帳務系統與會計憑證的辨識入帳方法
CN117093548B (zh) 一种招投标管理稽核***
CN111967246A (zh) 一种购物票据识别结果纠错方法
KR102392644B1 (ko) 유사도 기반의 문서 분류 장치 및 방법
Blomqvist et al. Reading the ransom: Methodological advancements in extracting the swedish wealth tax of 1571
Slavin et al. Models and methods flexible documents matching based on the recognized words
CN115482075A (zh) 财务数据的异常分析方法、装置、电子设备及存储介质
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN115099213A (zh) 一种信息处理方法和信息处理***
CN113763143A (zh) 审计处理方法、计算机设备及存储装置
US20230055042A1 (en) Partial Perceptual Image Hashing for Document Deconstruction
Blomqvist et al. Joint handwritten text recognition and word classification for tabular information extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant