CN115620317A - 一种电子工程文档真实性验证方法和*** - Google Patents
一种电子工程文档真实性验证方法和*** Download PDFInfo
- Publication number
- CN115620317A CN115620317A CN202211316941.7A CN202211316941A CN115620317A CN 115620317 A CN115620317 A CN 115620317A CN 202211316941 A CN202211316941 A CN 202211316941A CN 115620317 A CN115620317 A CN 115620317A
- Authority
- CN
- China
- Prior art keywords
- document
- electronic engineering
- information
- preset
- engineering document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文档检测技术领域,具体公开了一种电子工程文档真实性验证方法和***,所述方法包括根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;对所有信息进行识别,统计识别结果,生成真实度;上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。本发明在对电子文档进行识别的过程中,实时生成干扰项,尽量保证识别性能的同时,提高了安全性。
Description
技术领域
本发明涉及文档检测技术领域,具体是一种电子工程文档真实性验证方法和***。
背景技术
电子文档(Electronic document)是指人们在社会活动中形成的,以计算机盘片、磁盘和光盘等化学磁性材料为载体的文字材料。依赖计算机***存取并可在通信网络上传输。它主要包括电子文书、电子信件、电子报表、电子图纸等等。
电子文档的便捷性一方面在于其便捷性,无论是填写速度还是传输速度;另一方面在于其安全性,对于电子文档的审查可以借助现有的智能识别技术,它与传统的人工识别技术相比,不会“疲劳”,结合人工检测,可以使得电子文档的检测过程更加全面。
但是,现有的电子文档检测方法大都是基于预设的算法,在这些算法工作的过程中,根据计算机后台的进程运行情况,很容易确定算法的位置及相关的执行特征,使得电子文档的检测方法存在被破译的可能,因此,如何进一步提高安全性是本发明技术方案想要解决的技术问题。
发明内容
本发明的目的在于提供一种电子工程文档真实性验证方法和***,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种电子工程文档真实性验证方法,所述方法包括:
根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
对所有信息进行识别,统计识别结果,生成真实度;
上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。
作为本发明进一步的方案:所述根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档的步骤包括:
建立与各文档接口对应的缓存区;
将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。
作为本发明进一步的方案:所述根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;
基于所述内容类型在备案的方式库读取查询方式;
基于所述查询方式提取所述电子工程文档中的信息。
作为本发明进一步的方案:所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
当所述内容类型为文本类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
根据训练好的文本识别模型提取所述待检网格中的文本内容,将所述文本内容输入预设的字词识别模型,得到文本内容中各字词的类型;所述类型包括虚词、名词和描述词;
根据文本内容的顺序提取并排列得到的类型,得到文本内容的文本架构;
根据所述文本架构判定文本内容的正确率;
根据所述正确率缩放所述待检网络,重复上述内容直至所述正确率达到预设的正确率阈值。
作为本发明进一步的方案:所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
当所述内容类型为图像类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
根据训练好的图像识别算法定位目标图像,并提取目标图像中的轮廓特征和色值特征;所述轮廓特征用于表征目标图像中的边界位置,所述色值特征用于表征目标图像在预设的遍历方向下的色值参数;
将所述轮廓特征和所述色值特征输入训练好的简化统计模型,输出图像特征。
作为本发明进一步的方案:所述对所有信息进行识别,统计识别结果,生成真实度的步骤包括:
读取提取到的信息及其区域切分网格的位置信息;
根据位置信息查询参考信息,比对所述信息和参考信息,确定第一真实度;
当所述第一真实度小于预设的真实度阈值时,将信息向人工端发送;
接收人工端反馈的第二真实度。
作为本发明进一步的方案:所述根据预设的波动生成规则实时生成波动干扰的步骤包括:
实时监测步骤执行过程中的进程数及其CPU占用率;
根据所述CPU占用率随机生成虚拟进程;
其中,所述虚拟进程的进程数与执行过程中的进程数的比值为预设值;多个虚拟进程中仅有一个虚拟进程的CPU占用率达到执行过程中各进程的最大CPU占用率,且随机选取;所述虚拟进程的执行时间窗为随机值。
本发明技术方案还提供了一种电子工程文档真实性验证***,所述***包括:
基准文档查询模块,用于根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
信息提取模块,用于根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
真实度生成模块,用于对所有信息进行识别,统计识别结果,生成真实度;
上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。
作为本发明进一步的方案:所述基准文档查询模块包括:
缓存区建立单元,用于建立与各文档接口对应的缓存区;
数据获取单元,用于将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
数据提取单元,用于根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
遍历查询单元,用于根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。
作为本发明进一步的方案:所述信息提取模块包括:
网络读取单元,用于依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
类型判定单元,用于依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;
方式读取单元,用于基于所述内容类型在备案的方式库读取查询方式;
执行单元,用于基于所述查询方式提取所述电子工程文档中的信息。
与现有技术相比,本发明的有益效果是:本发明根据预设的文档接口实时接收不同时空距离的上传者上传的电子文档,根据预设的模板确定电子文档的区域切分信息,进而对各区域进行文本识别和图形识别,得到电子文档中各区域的信息,根据信息判断真实性;在这一过程中,实时生成干扰项,尽量保证识别性能的同时,提高了安全性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为电子工程文档真实性验证方法的流程框图。
图2为电子工程文档真实性验证方法的第一子流程框图。
图3为电子工程文档真实性验证方法的第二子流程框图。
图4为电子工程文档真实性验证方法的第三子流程框图。
图5为电子工程文档真实性验证***的组成结构框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
图1为电子工程文档真实性验证方法的流程框图,本发明实施例中,一种电子工程文档真实性验证方法,所述方法包括:
步骤S100:根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
上传电子工程文档的主体有很多,不同主体之间存在空间距离,而且不同主体之间的权限也是不同的,因此,需要使用不同的文档接口获取电子工程文档;其中,所述标签信息是电子工程文档的索引,它可以是一种集成式的信息,包含电子工程文档的名称、建立时间和摘要信息等等;由标签信息可以查询到基准文档,所述基准文档是预存的模板,接收到的电子工程文档就是基于该模板生成的工程文档。
步骤S200:根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
基准文件中各个位置填充何种信息都是预先规定的,因此,对电子工程文档进行识别时,根据位置确定相应的识别方式,执行识别即可提取到电子工程文档中的信息。
步骤S300:对所有信息进行识别,统计识别结果,生成真实度;
借助现有的识别模型对提取的信息进行处理,得到识别结果并进行统计,由统计的识别结果可以得到真实度。
值得一提的是,上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰;在电子工程文档的真实性验证过程中,计算机设备的后台会监控到相关的行为,对这些行为进行分析,可以定位识别算法的位置及执行特征,这存在一定的隐患,因此,在执行过程中,设置一些干扰项,可以提高真实性验证过程的安全性,变相地提高真实性验证过程的准确度。
图2为电子工程文档真实性验证方法的第一子流程框图,所述根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档的步骤包括:
步骤S101:建立与各文档接口对应的缓存区;
步骤S102:将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
文档接口获取电子工程文档的过程需要时间,由文档接口向数据处理端发送的过程也需要时间,时间长短与文档接口的数据传输速度相关;设置缓存区的目的是使得文档接口获取电子工程文档的过程能够持续进行,当电子工程文档接收完成后,由缓存区向数据处理端发送;在缓存区中可以增设一些处理算法,比如记录获取时间,由获取时间对电子工程文档进行排序等。
具体的,当电子工程文档接收完成后,文档接口关闭即可,缓存区的数据提取过程可以慢慢地进行。
步骤S103:根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
一个文档接口对应一个缓存区,缓存区的数据读取顺序由文档接口的遍历线程和获取时间共同确定,所述文档接口的遍历线程就是文档接口的遍历顺序。
步骤S104:根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项;
当提取到一个电子工程文档时,根据电子工程文档的标签信息,可以查询到基准文件。
图3为电子工程文档真实性验证方法的第二子流程框图,所述根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
步骤S201:依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
基准文件中各区域用于填写哪些内容,都是预先规定的;不同区域之间采用区域切分网格进行切分;
步骤S202:依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;
区域切分网格中的内容就是一个小区域中的内容,提取该内容,可以判断出内容类型,所述内容类型只有两种,一种是文本,一种是图像。
步骤S203:基于所述内容类型在备案的方式库读取查询方式;
步骤S204:基于所述查询方式提取所述电子工程文档中的信息;
步骤S203和步骤S204是执行步骤,具体陈述如下。
在本发明技术方案的一个实例中,所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
当所述内容类型为文本类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
根据训练好的文本识别模型提取所述待检网格中的文本内容,将所述文本内容输入预设的字词识别模型,得到文本内容中各字词的类型;所述类型包括虚词、名词和描述词;
根据文本内容的顺序提取并排列得到的类型,得到文本内容的文本架构;
根据所述文本架构判定文本内容的正确率;
根据所述正确率缩放所述待检网络,重复上述内容直至所述正确率达到预设的正确率阈值。
针对文本类型的内容,首先,根据基准文件定位电子工程文档中的文本区域,对所述文本区域进行文本识别,文本识别方式可以采用现有的文本识别技术,得到文本内容;然后,根据现有的文本内容分析技术,可以判断出各字词的词性,对所述词性进行排列,可以判断出文本内容是否明显不通顺;如果明显不通顺,就缩放调节对应的待检网格,调节文本识别的区域大小;最后,重复上述内容,直至文本内容通顺。
值得一提的是,所述缩放过程一般是扩充,几乎不会有缩小。
在本发明技术方案的一个实例中,所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
当所述内容类型为图像类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
根据训练好的图像识别算法定位目标图像,并提取目标图像中的轮廓特征和色值特征;所述轮廓特征用于表征目标图像中的边界位置,所述色值特征用于表征目标图像在预设的遍历方向下的色值参数;
将所述轮廓特征和所述色值特征输入训练好的简化统计模型,输出图像特征。
当所述内容类型为图像类型时,对应的内容就是一些签章信息等,借助现有的图像识别技术对签章信息进行识别,可以确定轮廓特征和色值特征,按照预设的转换规则将轮廓特征和色值特征转换为图像特征,即可作为从签章信息中提取到的信息。
图4为电子工程文档真实性验证方法的第三子流程框图,所述对所有信息进行识别,统计识别结果,生成真实度的步骤包括:
步骤S301:读取提取到的信息及其区域切分网格的位置信息;
步骤S302:根据位置信息查询参考信息,比对所述信息和参考信息,确定第一真实度;
步骤S303:当所述第一真实度小于预设的真实度阈值时,将信息向人工端发送;
步骤S304:接收人工端反馈的第二真实度。
第一真实度和第二真实度都可以作为最终真实度,第二真实度更加准确,只有在第一真实度异常的情况下,才会生成。
作为本发明技术方案的一个优选实施例,所述根据预设的波动生成规则实时生成波动干扰的步骤包括:
实时监测步骤执行过程中的进程数及其CPU占用率;
根据所述CPU占用率随机生成虚拟进程;
其中,所述虚拟进程的进程数与执行过程中的进程数的比值为预设值;多个虚拟进程中仅有一个虚拟进程的CPU占用率达到执行过程中各进程的最大CPU占用率,且随机选取;所述虚拟进程的执行时间窗为随机值。
在本发明技术方案的一个实例中,监测计算机设备中的进程数及其CPU占用率,由进程数和CPU占用率共同确定虚拟进程的运行数量和运行程度;具体的,虚拟进程的进程数量应该是有限的,是真实性验证过程产生的进程数的预设比例;这众多虚拟进程中,随机有一个虚拟进程的CPU占用率与正常进程的最大CPU占用率相同且持续随机时长。这样可以保证正常进程尽量正常运行的同时,具备较强的干扰能力。
实施例2
图5为电子工程文档真实性验证***的组成结构框图,本发明实施例中,一种电子工程文档真实性验证***,所述***10包括:
基准文档查询模块11,用于根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
信息提取模块12,用于根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
真实度生成模块13,用于对所有信息进行识别,统计识别结果,生成真实度;
上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。
所述基准文档查询模块11包括:
缓存区建立单元,用于建立与各文档接口对应的缓存区;
数据获取单元,用于将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
数据提取单元,用于根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
遍历查询单元,用于根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。
所述信息提取模块12包括:
网络读取单元,用于依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
类型判定单元,用于依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;
方式读取单元,用于基于所述内容类型在备案的方式库读取查询方式;
执行单元,用于基于所述查询方式提取所述电子工程文档中的信息。
所述电子工程文档真实性验证方法所能实现的功能均由计算机设备完成,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述电子工程文档真实性验证方法的功能。
处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示***的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例***中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个***实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电子工程文档真实性验证方法,其特征在于,所述方法包括:
根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
对所有信息进行识别,统计识别结果,生成真实度;
上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。
2.根据权利要求1所述的电子工程文档真实性验证方法,其特征在于,所述根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档的步骤包括:
建立与各文档接口对应的缓存区;
将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。
3.根据权利要求1所述的电子工程文档真实性验证方法,其特征在于,所述根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;
基于所述内容类型在备案的方式库读取查询方式;
基于所述查询方式提取所述电子工程文档中的信息。
4.根据权利要求3所述的电子工程文档真实性验证方法,其特征在于,所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
当所述内容类型为文本类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
根据训练好的文本识别模型提取所述待检网格中的文本内容,将所述文本内容输入预设的字词识别模型,得到文本内容中各字词的类型;所述类型包括虚词、名词和描述词;
根据文本内容的顺序提取并排列得到的类型,得到文本内容的文本架构;
根据所述文本架构判定文本内容的正确率;
根据所述正确率缩放所述待检网络,重复上述内容直至所述正确率达到预设的正确率阈值。
5.根据权利要求4所述的电子工程文档真实性验证方法,其特征在于,所述基于所述查询方式提取所述电子工程文档中的信息的步骤包括:
当所述内容类型为图像类型时,在所述电子工程文档中标记与区域切分网格对应的待检网格;
根据训练好的图像识别算法定位目标图像,并提取目标图像中的轮廓特征和色值特征;所述轮廓特征用于表征目标图像中的边界位置,所述色值特征用于表征目标图像在预设的遍历方向下的色值参数;
将所述轮廓特征和所述色值特征输入训练好的简化统计模型,输出图像特征。
6.根据权利要求1所述的电子工程文档真实性验证方法,其特征在于,所述对所有信息进行识别,统计识别结果,生成真实度的步骤包括:
读取提取到的信息及其区域切分网格的位置信息;
根据位置信息查询参考信息,比对所述信息和参考信息,确定第一真实度;
当所述第一真实度小于预设的真实度阈值时,将信息向人工端发送;
接收人工端反馈的第二真实度。
7.根据权利要求1至6任一项所述的电子工程文档真实性验证方法,其特征在于,所述根据预设的波动生成规则实时生成波动干扰的步骤包括:
实时监测步骤执行过程中的进程数及其CPU占用率;
根据所述CPU占用率随机生成虚拟进程;
其中,所述虚拟进程的进程数与执行过程中的进程数的比值为预设值;多个虚拟进程中仅有一个虚拟进程的CPU占用率达到执行过程中各进程的最大CPU占用率,且随机选取;所述虚拟进程的执行时间窗为随机值。
8.一种电子工程文档真实性验证***,其特征在于,所述***包括:
基准文档查询模块,用于根据预设的文档接口获取含有标签信息的电子工程文档,根据所述标签信息在预设的模板库中查询基准文档;
信息提取模块,用于根据所述基准文件确定电子工程文档中各位置的查询方式,基于所述查询方式提取所述电子工程文档中的信息;所述查询方式预先设置;
真实度生成模块,用于对所有信息进行识别,统计识别结果,生成真实度;
上述内容的执行过程中,根据预设的波动生成规则实时生成波动干扰。
9.根据权利要求8所述的电子工程文档真实性验证***,其特征在于,所述基准文档查询模块包括:
缓存区建立单元,用于建立与各文档接口对应的缓存区;
数据获取单元,用于将文档接口获取到的含有标签信息的电子工程文档输入所述缓存区,并记录获取时间;
数据提取单元,用于根据所述文档接口的预设的遍历线程和所述获取时间提取所述缓存区中的电子工程文档;
遍历查询单元,用于根据标签信息遍历预设的模板库,查询对应的基准文件;所述模板库中包括标签信息项和基准文档项。
10.根据权利要求8所述的电子工程文档真实性验证***,其特征在于,所述信息提取模块包括:
网络读取单元,用于依次读取基准文件的区域切分网格;所述区域切分网格为矩形网格,其位置信息包括页码和顶点在该页码中的坐标;
类型判定单元,用于依次提取区域切分网格中的内容,判断内容类型;所述内容类型包括文本类型和图像类型;
方式读取单元,用于基于所述内容类型在备案的方式库读取查询方式;
执行单元,用于基于所述查询方式提取所述电子工程文档中的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316941.7A CN115620317A (zh) | 2022-10-26 | 2022-10-26 | 一种电子工程文档真实性验证方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316941.7A CN115620317A (zh) | 2022-10-26 | 2022-10-26 | 一种电子工程文档真实性验证方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620317A true CN115620317A (zh) | 2023-01-17 |
Family
ID=84864431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211316941.7A Withdrawn CN115620317A (zh) | 2022-10-26 | 2022-10-26 | 一种电子工程文档真实性验证方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620317A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117149716A (zh) * | 2023-10-27 | 2023-12-01 | 北京美络克思科技有限公司 | 一种电子文档真实性检测方法、装置和设备 |
-
2022
- 2022-10-26 CN CN202211316941.7A patent/CN115620317A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117149716A (zh) * | 2023-10-27 | 2023-12-01 | 北京美络克思科技有限公司 | 一种电子文档真实性检测方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
CN110706206A (zh) | 荧光细胞计数方法、装置、终端设备及存储介质 | |
CN113746758B (zh) | 一种动态识别流量协议的方法和终端 | |
CN114414935A (zh) | 基于大数据的配电网馈线故障区域自动化定位方法和*** | |
CN114581442A (zh) | 用于mes***的产品检测方法及装置 | |
CN111858977B (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN113486350A (zh) | 恶意软件的识别方法、装置、设备及存储介质 | |
CN115620317A (zh) | 一种电子工程文档真实性验证方法和*** | |
CN113886627A (zh) | 一种基于信息同步的移动通信*** | |
CN111797396B (zh) | 恶意代码可视化及变种检测方法、装置、设备及存储介质 | |
CN116052848B (zh) | 一种医学成像质控的数据编码方法及*** | |
CN112839047A (zh) | 一种云平台上的资产漏洞扫描方法、装置、设备及介质 | |
CN114491134B (zh) | 一种商标注册成功率分析方法及*** | |
CN111581499A (zh) | 一种数据归一化方法、装置、设备及可读存储介质 | |
CN110970100A (zh) | 检测项目编码方法、装置、设备和计算机可读存储介质 | |
CN114612919B (zh) | 一种票据信息处理***及方法、装置 | |
CN115734072A (zh) | 一种工业自动化设备的物联网集中监控方法及装置 | |
CN112949305B (zh) | 负反馈信息采集方法、装置、设备及存储介质 | |
CN113283677A (zh) | 指标数据处理方法、装置、设备及存储介质 | |
CN113806737A (zh) | 一种恶意进程风险等级评估方法、终端设备及存储介质 | |
CN115730283B (zh) | 一种账号登录风控***、方法、计算机设备及存储介质 | |
CN117555428B (zh) | 一种人工智能交互方法、***、计算机设备及其存储介质 | |
CN115720148B (zh) | 一种工业物联网信息可视化方法、服务器和存储介质 | |
CN114327615B (zh) | 一种基于大数据的接口文档生成方法及*** | |
CN115438270B (zh) | 设备信息智能推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230117 |