CN112381458A - 项目评审方法、项目评审装置、设备及存储介质 - Google Patents

项目评审方法、项目评审装置、设备及存储介质 Download PDF

Info

Publication number
CN112381458A
CN112381458A CN202011423889.6A CN202011423889A CN112381458A CN 112381458 A CN112381458 A CN 112381458A CN 202011423889 A CN202011423889 A CN 202011423889A CN 112381458 A CN112381458 A CN 112381458A
Authority
CN
China
Prior art keywords
scale
index
project
category
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011423889.6A
Other languages
English (en)
Inventor
杨婉琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202011423889.6A priority Critical patent/CN112381458A/zh
Publication of CN112381458A publication Critical patent/CN112381458A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及自然语言处理技术领域,具体公开了一种项目评审方法、项目评审装置、设备及存储介质,所述方法包括:获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标;根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据;对所述表格数据进行聚类分析,得到规模类别数据;根据所述规模类别数据拟合生成所述规模指标的计算公式;根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准,旨在解决目前项目评审依赖人工操作,成本高,效率低的问题,提升用户的体验。

Description

项目评审方法、项目评审装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及项目评审方法、项目评审装置、设备及存储介质。
背景技术
目前,项目评审是对待评审项目申请规模进行审核,即判断其是否在国家规定指标范围中。传统的规模指标审核是通过人工审阅项目规模及投资匡算表,根据项目中每个规模指标的类别和指标名查阅国家标准规范(书本)中对应的指标规定范围,并判断项目规模及投资匡算表中的规模指标是否符合。传统的审核依赖人工操作,面对不同领域项目的大量指标,不仅成本高,而且由于对准确率的要求高,进一步降低了处理速度。
发明内容
本申请提供了一种项目评审方法、项目评审装置、设备及存储介质,旨在解决目前项目评审依赖人工操作,成本高,效率低的问题。
为实现上述目的,本申请提供一种项目评审方法,所述方法包括:
获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标;
根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据;
对所述表格数据进行聚类分析,得到规模类别数据;
根据所述规模类别数据拟合生成所述规模指标的计算公式;
根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准。
为实现上述目的,本申请还提供一种项目评审装置,所述项目评审装置包括:
参数获取模块,用于获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标;
表格识别模块,用于根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据;
聚类分析模块,用于对表格数据进行聚类分析,得到规模类别数据;
公式确定模块,用于根据所述规模类别数据拟合生成所述规模指标的计算公式;
对比反馈模块,用于根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准。
此外,为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的项目评审方法。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的项目评审方法。
本申请实施例公开的项目评审方法、项目评审装置、设备及存储介质,通过对标准规范书本的指标规模规定表格进行OCR技术识别,生成规模指标的计算公式,把规模指标代入计算公式确定所述规模指标是否符合标准。实现了项目评审的智能化,不仅解决了人工操作的繁琐问题,还降低了成本,提高了准确率和效率,大大提高了用户体验。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种项目评审方法的流程示意图;
图2是本申请实施例提供的一种确定表格数据是否存在表格表头的子步骤流程示意图;
图3是本申请实施例提供的一种确定指标规模规定表格是否跨页表格的子步骤流程示意图;
图4是本申请实施例提供的一种确定所述规模指标是否符合所述规定表格的规模指标的子步骤流程示意图;
图5是本申请实施例提供的一种项目评审装置的示意性框图;
图6是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
目前,传统的规模指标审核是通过人工审阅项目规模及投资匡算表,根据项目中每个规模指标的类别和指标名查阅国家标准规范(书本)中对应的指标规定范围,并判断项目规模及投资匡算表中的规模指标是否符合。传统的审核依赖人工操作,面对不同领域项目的大量指标,不仅成本高,而且效率和速度也非常低,十分浪费人力物力。
为此,本申请提供了一种项目评审方法、项目评审装置、计算机设备及存储介质,以解决上述问题。在详细介绍本申请提供的项目评审之前,对本申请涉及的技术手段进行解释。
本申请提供了一种项目评审方法,通过利用自然语言处理(NLP)对文本进行识别,能快速提取关键信息并分析得到结果,大幅度降低成本,为后续工作打下良好基础并降低了时间成本。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。自然语言处理广泛应用于包括文本分析、信息抽取等众多方向。
其中,上述项目评审方法可以应用在服务器中,当然也可以应用于终端设备上,实现对待评审的项目的申请规模对应的指标参数进行智能审核,其中,终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、以及诸如数字TV、台式计算机等固定终端。服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的项目评审方法进行详细介绍。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种项目评审方法的示意流程图。该项目评审方法可以应用于服务器中,实现了项目评审的智能化,不仅解决了人工操作的繁琐问题,还降低了成本,提高了准确率和效率,大大提高了用户体验。
如图1所示,该项目评审方法包括步骤S101至步骤S105。
S101、获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标。
获取用户提供的待评审的项目文本的项目申请规模的指标参数,所述指标参数包括规模类别和规模指标。所述待评审的项目文本包括项目申请规模的指标参数,即用户想要确定的项目申请规模的指标参数文本。
具体地,所述规模类别包括第一规模类别和第二规模类别,其中第一规模类别包括第二规模类别,即第一规模类别为大类别,第二规模类别为大类别中的小类别。其中,第一规模类别用于确定对应的标准规范书,第二规模类别用于从标准规范书中确定指标规模规定表格。
示例性的,比如用户想在某个学校申请图书馆项目,则用户可以通过终端设备发送待评审的项目文本,该项目文本的项目申请规模的指标参数的规模指标为办学规模6000人,欲申请的图书馆面积为10000平方米,规模类别为第一规模类别为文体大学,第二规模类别为文体大学的图书馆。
示例性的,还可以在应用程序(APP)上,当用户打开该APP时,该APP显示待评审的项目文本界面,以便用户在待评审的项目文本界面上填写待评审的项目申请规模对应的指标参数,并获取用户在待评审的项目文本界面上填写的指标参数,将所述指标参数发送给服务器,由服务器根据该指标参数执行本申请实施例提供的项目评审方法进行项目评审,并将待评审的项目是否符合标准的反馈发送给用户,以便用户确认。
在一些实施例中,还可以从终端设备获取用户的语音,比如终端设备设置有语音按键,以提示用户通过语音发布待评审的项目文本,通过对用户的语音进行识别以获取用户的待评审的项目文本。
在一些实施例中,也可以使用OCR技术对用户提供的待评审的项目文本进行识别,通过对识别后项目文本进行关键字查询,关键字比如为“申请规模”、“规模指标”等,可以确定待评审的项目文本的项目申请规模的指标参数。
S102、根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据。
具体地,根据所述第一规模类别确定对应的标准规范书本,根据所述第二规模类别在所述标准规范书本中搜索对应的指标规模规定表格,对所述指标规模规定表格进行OCR技术识别,得到表格数据。其中,表格数据是指所述指标规模规定表格中的指标参数。
示例性的,可以根据第一规模类别如文体大学确定对应的文体大学的标准规范书本,根据第二规模类别如图书馆确定图书馆对应的指标规模规定表格。
在一些实施例中,为了根据表格表头得到表格数据对应的具体类别,如图2所示,即确定所述表格数据是否存在表格表头,具体包括以下步骤:
S1021、检测所述表格数据是否存在表格表头;
S1022、根据所述表格表头得到规模指标对应的第一规模类别和第二规模类别;
S1023、通过表格表头预测工具确定规模指标对应的第一规模类别和第二规模类别。
检测所述表格数据是否存在表格表头;若所述表格数据存在表格表头,根据所述表格表头得到规模指标对应的第一规模类别和第二规模类别;若所述表格数据不存在表格表头,通过表格表头预测工具确定规模指标对应的第一规模类别和第二规模类别。
具体地,可以用图像识别技术在标准规范书本中确定指标规模规定表格是否存在表头表格,例如可以利用图像识别技术在表格表头的位置上检测是否存在文字信息,提取该文字信息的内容进行分词处理,得到规模指标对应的第一规模类别和第二规模类别。
具体地,用训练好的BiLstm-CRF实体抽取模型从无表头表格所在页的文字中抽取出表格表头,得到规模指标对应的第一规模类别和第二规模类别。
示例性的,通过BiLstm-CRF分析技术识别后的指标规模规定表格的文字,生成表格表头预测结果,根据表头预测结果得出规模指标对应的第一规模类别和第二规模类别。
具体地,通过BiLSTM学习指标规模规定表格上下文的信息,但是上下文的信息相互之间并没有影响,它只是在每一步预测一个最大概率值的规模类别,同时可以利用CRF弥补了传统BiLSTM的不足,它将每一步的最大概率值和关键词的权重值结合判断,学习一个最优判断路径,从而确定规模类别,进而提高了项目评审的准确性。
在一些实施例中,可以先对整本标准规范书本进行OCR(光学字符识别)技术识别,再根据用户提供的规模类别确定对应的指标规模规定表格。
在一些实施例中,还可以先确定标准规范书本中的指标规模规定表格,再对确定的指标规模规定表格进行OCR识别,得到表格数据。其中,先确定标准规范书本中的指标规模规定表格,可以用图像识别技术在标准规范书本中确定指标规模规定表格。由此可以有针对地对指标规模规定表格进行识别,从而提高识别效率,进而提高了项目评审效率。
在一些实施例中,可以通过对标准规范书本进行OCR(光学字符识别)技术识别。
示例性的,用OpenCV对指标规模规定表格扫描页预处理,即将表格图像进行二值化处理并转为灰度图像,然后对图像进行高斯滤波处理,即用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用所述模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值;再进行Canny边缘检测,即使用Sobel核在水平和垂直方向上对平滑的图像进行滤波,以在水平方向和垂直方向上获得一阶导数,找到每个像素的边缘渐变和方向后,将对图像进行全面扫描,以去除可能不构成边缘的所有不需要的像素,再根据预设的双阈值筛选边缘。
再使用OpenCV-hough变换检测直线,即将边缘化图片像素空间量化,赋初值一个二维矩阵累加器A(其中斜率和截距分别为p和q),从f(x,y)的指定区域中取(xi,yi),按方程q=-p×xi+yi在[p(min),p(max)]中遍取可能的p值计算得到可能的q值;根据p和q的值对累加器进行累加计算;再对图像中的每个点计算后得到A(p,q)数组中最大值所对应的p,q,就是方程y=p×x+q中的p、q值,根据y=p×x+q得到所有直线。
根据两直线交点公式得到所有的交点,根据交点位置分割图片并保存位置信息,对每个分割的图片进行图像OCR(光学字符识别)技术识别得到对应文字,再根据保存的分割图像位置和识别得到的文字还原表格,得到表格数据。
在一些实施例中,为了确定指标规模规定表格的连续性,如图3所示,即确定指标规模规定表格是否跨页表格,具体包括以下步骤:
S1024、检测指标规模规定表格是否跨页表格;
S1025、若检测到指标规模规定表格为跨页表格,利用跨页合并工具对指标规模规定表格进行合并。
在一些实施例中,可以在OCR技术识别后通过检测指标规模规定表格是否具有连续性来确定指标规模规定表格是否跨页表格。
在一些实施例中,还可以通过在OCR技术识别前通过图像技术识别出指标规模规定表格是否跨页表格。
检测指标规模规定表格是否跨页表格;若检测到指标规模规定表格为跨页表格,利用跨页合并工具对指标规模规定表格进行合并。
示例性的,若检测到指标规模规定表格为跨页表格,利用跨页合并工具比如pandas对指标规模规定表格进行合并,其中使用pandas对跨页表格进行合并方式包括:利用相同字段的表首尾相接合并、横向表拼接合并和表格列字段不同的表合并。
示例性的,以pandas对跨页表格进行合并为例,通过在跨页表格相接的地方在加上一个层次的key参数来识别数据来源,从而实现跨页表格合并。
示例性的,若遇到两张表的列字段本来就不一样,但又想将两个表合并,其中,两张表中无效的值用nan来表示,再通过使用ignore_index参数实现合并表格。
S103、对所述表格数据进行聚类分析,得到规模类别数据。
通过对所述表格数据进行聚类分析,搜索第一规模类别对应的第二规模类别的规模指标,生成分析结果,根据分析结果重新整合第一规模类别的指标规模规定表格,得到规模类别数据,用于生成对应规模指标的计算公式,其中规模类别数据是通过聚类分析后重新整理规模类别后生成的指标规模规定表格。
具体地,利用文本聚类工具在所述表格数据中搜索第一规模类别对应的第二规模类别的规模指标,生成分析结果,根据所述分析结果重新整合第一规模类别的规模指标,得到规模类别数据,其中,所述文本聚类工具包括K-means聚类、均值漂移聚类、基于密度的聚类和K-Medians聚类中的至少一种。
以K-means算法为例,K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个规模指标的距离越近,其相似度就越大,最终统计出相似度较大的规模指标。
示例性的,首先我们选择一些类/组,并随机初始化它们各自的中心点,计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中,其中,中心点是与每个数据点向量长度相同的位置。
示例性的,项目申报以一个大学或医院为单位,但是同类大学或医院的不同小类如学校教学楼和图书馆的规模指标表格是单独的,可以通过聚类分析把同类型学校或医院的所有规模指标整合。
示例性的,还可以通过K-Means文本聚类模型将同属于综合大学类别下的第二规模类别进行重新整合如将综合大学图书馆规模指标和综合大学教学楼规模指标整合在综合大学类别下,得到规模类别数据。由此可以对指标规模规定表格进行分类,更清晰直观地了解表格数据,从而提高识别效率,进而提高了项目评审效率。
S104、根据所述规模类别数据拟合生成所述规模指标的计算公式。
具体地,可以根据所述规模类别数据通过插值法生成对应规模指标的计算公式,用于确定所述规模指标与所述规定表格的规模指标的对比结果。
示例性的,如表1所示,若所述指标规模规定表格为综合大学图书馆规模指标表格:
人数/人 300 500 800 1000
规模/平方米 1500 3000 5000 20000
根据插值法公式:
Figure BDA0002823840030000091
可以拟合生成所述规模指标的计算公式。其中y为规模指标中的图书馆面积,x为规模指标中的综合大学规模人数;根据所述指标规模规定表格可得到5个分段函数:
当x小于300时,即综合大学规模人数小于300时,y为1500;
当x为300-500时,即综合大学规模人数在300-500之间时,即x1=300,x2=500,y1=1500,y2=3000,代入得到公式为y=7.5x-750;
当x为500-800时,即综合大学规模人数在500-800之间时,即x1=500,x2=800,y1=3000,y2=5000,代入得到公式为y=6.67x-333;
当x为800-1000时,即综合大学规模人数在800-1000之间时,即x1=800,x2=1000,y1=5000,y2=20000,代入得到公式为y=75x-55000;
当x大于1000时,即综合大学规模人数大于1000时,y为20000。
在一些实施例中,可以首先确定所述综合大学规模人数的区间范围,根据所述区间范围确定对应的分段函数,并生成计算公式。由此可以有针对性地生成对应的公式,节省了时间,提高了效率。
S105、根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准。
把所述待评审的项目文本的项目申请规模对应的规模指标代入所述对应的计算公式得出计算结果,所述计算结果为待审核的项目申请规模的标准指标参数,以比较所述计算结果与所述规模指标,生成对比结果,以根据所述对比结果确定所述规模指标是否符合标准。
示例性的,某综合大学项目办学规模为400人,根据上述公式可得到综合大学办学规模为400人时,代入公式y=7.5x-750,得到y值为2250,即应建图书馆面积在2250平方米以下时,符合标准。
在一些实施例中,通过比较所述计算结果与用户提供的规模指标,得到对比结果,并生成对比反馈发送给用户。
在一些实施例中,如图4所示,即确定所述规模指标是否符合所述规定表格的规模指标,具体包括以下步骤:
S1051、确定所述规模指标是否符合所述规定表格的规模指标;
S1052、生成符合规模指标的对比反馈;
S1053、生成不符合规模指标的对比反馈。
确定所述规模指标是否符合所述规定表格的规模指标;若所述规模指标符合所述规定表格的规模指标,则生成符合规模指标的对比反馈,并将所述对比反馈发送给用户;若所述规模指标不符合所述规定表格的规模指标,则生成不符合规模指标的对比反馈,并将所述对比反馈发送给用户。
在一些实施例中,若生成不符合规模指标的对比反馈时,将所述对比反馈和所述计算结果发送给用户以供用户修改。
示例性的,获取用户提供的待评审的项目文本的项目申请规模对应的指标参数为:某综合大学项目办学规模为400人,申请建设图书馆2700平方米,根据上述公式可得到综合大学办学规模为400人时应建图书馆面积在2250平方米以下,生成申请面积不符合该项规模指标的对比反馈,并将所述对比反馈和应建面积发送给用户。
请参阅图5,图5是本申请一实施例提供的一种项目评审装置的示意性框图,该项目评审装置可以配置于服务器中,用于执行前述的项目评审方法。
如图5所示,该项目评审装置200包括:参数获取模块201、表格识别模块202、聚类分析模块203、公式确定模块204和对比反馈模块模块205。
参数获取模块201,用于获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标;
表格识别模块202,用于根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据;
聚类分析模块203,用于对表格数据进行聚类分析,得到规模类别数据;
公式确定模块204,用于根据所述规模类别数据拟合生成所述规模指标的计算公式;
对比反馈模块205,用于根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
示例性地,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。
如图6所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种项目评审方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种项目评审方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标;根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据;对所述表格数据进行聚类分析,得到规模类别数据;根据所述规模类别数据拟合生成所述规模指标的计算公式;根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准。
在一些实施例中,所述规模类别包括第一规模类别和第二规模类别,其中,所述第一规模类别包括所述第二规模类别。
在一些实施例中,根据所述第一规模类别确定对应的标准规范书本;根据所述第二规模类别在所述标准规范书本中搜索对应的指标规模规定表格;对所述指标规模规定表格进行OCR技术识别,得到表格数据。
在一些实施例中,所述处理器在实现根据表格表头得到表格数据对应的具体类别,确定所述表格数据是否存在表格表头,具体用于:
检测所述表格数据是否存在表格表头;若所述表格数据存在表格表头,根据所述表格表头得到规模指标对应的第一规模类别和第二规模类别;若所述表格数据不存在表格表头,通过表格表头预测工具确定规模指标对应的第一规模类别和第二规模类别。
在一些实施例中,所述处理器在实现确定指标规模规定表格的连续性,即确定指标规模规定表格是否跨页表格时,具体用于:
检测指标规模规定表格是否跨页表格;若检测到指标规模规定表格为跨页表格;利用跨页合并工具对指标规模规定表格进行合并。
在一些实施例中,所述处理器在确定所述规模指标是否符合所述规定表格的规模指标时,具体实现:
确定所述规模指标是否符合所述规定表格的规模指标;若所述规模指标符合所述规定表格的规模指标,则生成符合规模指标的对比反馈,并将所述对比反馈发送给用户;若所述规模指标不符合所述规定表格的规模指标,则生成不符合规模指标的对比反馈,并将所述对比反馈发送给用户。
在一些实施例中,把所述待评审的项目文本的项目申请规模对应的规模指标代入所述对应的计算公式得出计算结果;比较所述计算结果与所述规模指标,生成对比结果,以根据所述对比结果确定所述规模指标是否符合标准。
在一些实施例中,利用文本聚类工具在所述表格数据中搜索第一规模类别对应的第二规模类别的规模指标,生成分析结果;根据所述分析结果重新整合第一规模类别的规模指标,得到规模类别数据;其中,所述文本聚类工具包括包括K-means聚类、均值漂移聚类、基于密度的聚类和高斯混合模型的最大期望聚类中的至少一种。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本申请实施例提供的任一种项目评审方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种项目评审方法,其特征在于,所述方法包括:
获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标;
根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据;
对所述表格数据进行聚类分析,得到规模类别数据;
根据所述规模类别数据拟合生成所述规模指标的计算公式;
根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准。
2.根据权利要求1所述的方法,其特征在于,所述规模类别包括第一规模类别和第二规模类别,其中,所述第一规模类别包括所述第二规模类别。
3.根据权利要求2所述的方法,其特征在于,所述根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据,包括:
根据所述第一规模类别确定对应的标准规范书本;
根据所述第二规模类别在所述标准规范书本中搜索对应的指标规模规定表格;
对所述指标规模规定表格进行OCR技术识别,得到表格数据。
4.根据权利要求2所述的方法,其特征在于,所述方法包括:
检测所述表格数据是否存在表格表头;
若所述表格数据存在表格表头,根据所述表格表头得到规模指标对应的第一规模类别和第二规模类别;
若所述表格数据不存在表格表头,通过表格表头预测工具确定规模指标对应的第一规模类别和第二规模类别。
5.根据权利要求3所述的方法,其特征在于,所述对所述指标规模规定表格进行OCR技术识别,得到表格数据之后,还包括:
确定所述指标规模规定表格是否为跨页表格;
若检测到所述指标规模规定表格为跨页表格,利用跨页合并工具对所述指标规模规定表格进行合并。
6.根据权利要求1所述的方法,其特征在于,所述对所述表格数据进行聚类分析,得到规模类别数据,包括:
利用文本聚类工具在所述表格数据中搜索第一规模类别对应的第二规模类别的规模指标,生成分析结果;
根据所述分析结果重新整合第一规模类别的规模指标,得到规模类别数据;
其中,所述文本聚类工具包括包括K-means聚类、均值漂移聚类、基于密度的聚类和K-Medians聚类中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准,包括:
把所述待评审的项目文本的项目申请规模对应的规模指标代入所述对应的计算公式得出计算结果;
比较所述计算结果与所述规模指标,生成对比结果,以根据所述对比结果确定所述规模指标是否符合标准。
8.一种项目评审装置,其特征在于,包括:
参数获取模块,用于获取待评审的项目文本的项目申请规模对应的指标参数,所述指标参数包括规模类别和规模指标;
表格识别模块,用于根据所述规模类别确定对应的标准规范书本以及指标规模规定表格,并通过OCR技术识别所述指标规模规定表格,得到表格数据;
聚类分析模块,用于对表格数据进行聚类分析,得到规模类别数据;
公式确定模块,用于根据所述规模类别数据拟合生成所述规模指标的计算公式;
对比反馈模块,用于根据所述计算公式确定所述待评审的项目文本的项目申请规模对应的规模指标是否符合标准。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现:
如权利要求1-7任一项所述的项目评审方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的项目评审方法。
CN202011423889.6A 2020-12-08 2020-12-08 项目评审方法、项目评审装置、设备及存储介质 Pending CN112381458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011423889.6A CN112381458A (zh) 2020-12-08 2020-12-08 项目评审方法、项目评审装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011423889.6A CN112381458A (zh) 2020-12-08 2020-12-08 项目评审方法、项目评审装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112381458A true CN112381458A (zh) 2021-02-19

Family

ID=74589434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011423889.6A Pending CN112381458A (zh) 2020-12-08 2020-12-08 项目评审方法、项目评审装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112381458A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112950176A (zh) * 2021-04-23 2021-06-11 广东电网有限责任公司 电力设计指标自动判定方法、设备及存储介质
CN114399199A (zh) * 2022-01-14 2022-04-26 中国建设银行股份有限公司 评审数据处理方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112950176A (zh) * 2021-04-23 2021-06-11 广东电网有限责任公司 电力设计指标自动判定方法、设备及存储介质
CN114399199A (zh) * 2022-01-14 2022-04-26 中国建设银行股份有限公司 评审数据处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN110414502B (zh) 图像处理方法及装置、电子设备和计算机可读介质
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
JP2017527894A (ja) 手書きを使用するユーザ識別登録の管理
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN113657274A (zh) 表格生成方法、装置、电子设备、存储介质及产品
CN112330331A (zh) 基于人脸识别的身份验证方法、装置、设备及存储介质
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN114120299A (zh) 信息获取方法、装置、存储介质及设备
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN112839185A (zh) 用于处理图像的方法、装置、设备和介质
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN114049646A (zh) 一种银行卡识别方法、装置、计算机设备及存储介质
CN112733645A (zh) 手写签名校验方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination