CN117252514B - 基于深度学习和模型训练的建筑物资库数据处理方法 - Google Patents

基于深度学习和模型训练的建筑物资库数据处理方法 Download PDF

Info

Publication number
CN117252514B
CN117252514B CN202311541425.9A CN202311541425A CN117252514B CN 117252514 B CN117252514 B CN 117252514B CN 202311541425 A CN202311541425 A CN 202311541425A CN 117252514 B CN117252514 B CN 117252514B
Authority
CN
China
Prior art keywords
file
unstructured
structured
word
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311541425.9A
Other languages
English (en)
Other versions
CN117252514A (zh
Inventor
汪哲语
胡伟
赵晶丽
穆明辉
杨飞飞
吴祥祥
付雪丽
郝彬彬
潘成浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Shuzhi Construction Research Institute Co ltd
China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Original Assignee
Anhui Shuzhi Construction Research Institute Co ltd
China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Shuzhi Construction Research Institute Co ltd, China Tiesiju Civil Engineering Group Co Ltd CTCE Group filed Critical Anhui Shuzhi Construction Research Institute Co ltd
Priority to CN202311541425.9A priority Critical patent/CN117252514B/zh
Publication of CN117252514A publication Critical patent/CN117252514A/zh
Application granted granted Critical
Publication of CN117252514B publication Critical patent/CN117252514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及建筑物资库数据处理领域,具体公开基于深度学习和模型训练的建筑物资库数据处理方法,本发明通过对建筑物资库中结构化文件进行去重、删误和标准化处理,并进行存储,实现对建筑物资库中结构化数据的自动清洗、整理、标准化,有利于用户的筛选和引用,同时减少数据手动录入的工作量;获取建筑物资库中非结构化文件的特征词集,分析非结构化文件的属性模型,并进行存储,通过提取非结构化数据的关键信息,获取非结构化数据的标签,方便检索,能够降低重复录入的工作量;从而实现对建筑工程物资库的自动化管理,以提高物资管理的效率和准确性,降低人工操作的复杂度,从而为企业节省大量的人力和时间成本。

Description

基于深度学习和模型训练的建筑物资库数据处理方法
技术领域
本发明涉及建筑物资库数据处理领域,涉及到基于深度学习和模型训练的建筑物资库数据处理方法。
背景技术
在建筑施工行业,物资管理是项目实施的核心要素之一,直接影响到工程的质量、进度和成本,对于施工企业来说,如何提升物资管理效率、降低误差并精确控制成本,无疑是提高整体竞争力和盈利能力的重要环节,因此,对建筑物资库数据进行处理具有重要意义。
现有的建筑物资库数据处理方法存在一些不足:一方面,大部分的物资数据需要由业务人员手动录入,这使得数据的标准化程度较低,且存在大量的错误和冗余,这些错误和冗余的数据不仅增加了数据处理的工作量,而且对用户的筛选和引用构成了障碍,同时数据录入工作量庞大且重复性强,耗费了大量的人力资源。
另一方面,物资数据中存在大量的非结构化数据,这些非结构化数据无法直接采取结构化数据导入的方式进行数据录入,导致了很多非结构化数据需要反复录入,进而加重物资管理部门的负担,也加剧了施工企业基层物资管理的复杂性和困难度。
发明内容
针对上述问题,本发明提出了基于深度学习和模型训练的建筑物资库数据处理方法,具体技术方案如下:基于深度学习和模型训练的建筑物资库数据处理方法,包括如下步骤:步骤一、建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件。
步骤二、结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
步骤三、结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件。
步骤四、结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储。
步骤五、非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集。
步骤六、非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型。
步骤七、非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模型,并进行存储。
在上述实施例的基础上,所述步骤二的具体分析过程包括:S1:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件。
S2:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,/>表示初次文件间去重后的第/>个结构化文件的编号,/>,/>表示第/>个对照结构化文件编号,/>,获取初次文件间去重后的各结构化文件的文字总数量,将其记为/>
获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和/>
在上述实施例的基础上,所述步骤二的具体分析过程还包括:通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>,其中/>表示预设的近似系数的修正因子,/>表示自然常数,/>分别表示预设的标题区域和非标题区域的权值,/>
将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件。
在上述实施例的基础上,所述步骤二的具体分析过程还包括:F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除。
F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词汇进行逐词比对,若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内,则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇,并进行删除。
F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
在上述实施例的基础上,所述步骤四的具体分析过程包括:通过中文分词方法获取各指定结构化文件文本内容中各词汇,将其与预设的建筑行业专业术语词汇库进行比对,若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库,则将该指定结构化文件文本内容中该词汇记为要点词汇,统计得到各指定结构化文件的要点词汇集。
将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对,筛选得到各指定结构化文件的各标准名要点词和各别名要点词,并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词,得到用词标准化后的各指定结构化文件。
在上述实施例的基础上,所述步骤四的具体分析过程还包括:获取用词标准化后的各指定结构化文件文本对应的标准格式,进一步对用词标准化后的各指定结构化文件进行格式标准化,得到标准化处理后的各指定结构化文件,将其存入建筑物资库中,对建筑物资库的结构化数据进行更新。
在上述实施例的基础上,所述步骤五的具体分析过程包括:通过文字识别技术获取建筑物资库中各非结构化文件对应的文本,进一步对各非结构化文件的文本进行关键词提取,得到各非结构化文件的各关键词。
获取各非结构化文件中各关键词的词频。
将各非结构化文件中各关键词的词频与预设的词频阈值进行比较,若某非结构化文件中某关键词的词频大于或等于预设的词频阈值,则将该非结构化文件中该关键词记为特征词,统计各非结构化文件的各特征词,得到各非结构化文件的特征词集。
在上述实施例的基础上,所述步骤五的具体分析过程还包括:按照预设的原则对各非结构化文件的文本进行划分,得到各非结构化文件文本的各区域,获取各非结构化文件中各特征词的位置,筛选得到各非结构化文件中各特征词所处的区域,将各非结构化文件的特征词集按照特征词所处的区域进行划分,得到各非结构化文件的各特征词子集。
按照预设的训练集与验证集之间的比例对各非结构化文件的各特征词子集进行划分,得到各非结构化文件中各特征词子集对应的训练特征词数量和验证特征词数量,统计得到各非结构化文件的训练特征词总数量和验证特征词总数量,构建各非结构化文件的特征词训练集和特征词验证集。
在上述实施例的基础上,所述步骤六的具体分析过程为:将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词训练集中各特征词对应的标签,统计得到各非结构化文件的标签集合,构建各非结构化文件的属性模型。
在上述实施例的基础上,所述步骤七的具体分析过程为:获取各非结构化文件的特征词验证集中各特征词对应的标签,将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对,若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内,则该非结构化文件的标签集合需要变动,将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内,进而对各非结构化文件的属性模型进行优化,得到优化后的各非结构化文件的属性模型,将其存入建筑物资库中,对建筑物资库的非结构化数据进行更新。
相对于现有技术,本发明所述的基于深度学习和模型训练的建筑物资库数据处理方法以下有益效果:1.本发明通过对建筑物资库中结构化文件依次进行去重处理、删误处理和标准化处理,并存入建筑物资库对建筑物资库中结构化数据进行更新,实现对建筑物资库中结构化数据的自动清洗、整理、标准化,减少建筑物资库中结构化数据的错误、冗余和非标准化,有利于用户的筛选和引用,同时减少数据手动录入的工作量,节省人力资源。
2.本发明通过提取建筑物资库中非结构化数据的关键信息,获取非结构化数据的标签,在按需求查询非结构化数据时,只需要对非结构化数据的标签进行检索,不需要将非结构化数据分别存入不同需求下的文件夹中进而造成重复录入,只需录入非结构化数据的元数据及其标签,从而能够降低非结构化数据重复录入的工作量,提高建筑物资库数据处理的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图。
图2为本发明的非结构化文件的属性模型构建示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1和图2所示,本发明提供的基于深度学习和模型训练的建筑物资库数据处理方法,包括如下步骤:步骤一、建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件。
需要说明的是,所述步骤一的具体分析过程为:对目标建筑施工企业的建筑物资库中存储的各文件进行检测,获取建筑物资库中各文件的文件格式,将建筑物资库中各文件的文件格式分别与预设的结构化数据和非结构化数据对应的文件格式类型集合进行比对,筛选得到建筑物资库中各结构化文件和各非结构化文件。
需要说明的是,筛选得到建筑物资库中各结构化文件和各非结构化文件,具体方法为:将建筑物资库中各文件的文件格式分别与预设的结构化数据和非结构化数据对应的文件格式类型集合进行比对,若建筑物资库中某文件的文件格式属于结构化数据对应的文件格式类型集合内,则将该文件记为结构化文件,若建筑物资库中某文件的文件格式属于非结构化数据对应的文件格式类型集合内,则将该文件记为非结构化文件,筛选得到建筑物资库中各结构化文件和各非结构化文件。
需要说明的是,建筑物资库中的数据包括但不限于:物资基本信息、物资价格和成本、物资库存信息、供应商信息、采购与销售记录、物资质量和检测信息、物资使用记录和物资归还与报废信息等。
需要说明的是,建筑物资库中的文件可以是文本文档、电子表格、图片、音频和视频等。
需要说明的是,建筑物资库中文件的文件格式可以是.docx、.xlsx、.pdf、.jpg、.mp3和.mp4等。
需要说明的是,建筑物资库中结构化数据是指具有固定格式和预定义模式的数据,可以被组织、存储和管理,通常是以表格或数据库的形式存在,非结构化数据是指没有固定格式和预定义模式的数据,通常以自由文本、图像、音频或视频的形式存在。
步骤二、结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
作为一种优选方案,所述步骤二的具体分析过程包括:S1:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件。
S2:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,/>表示初次文件间去重后的第/>个结构化文件的编号,/>,/>表示第/>个对照结构化文件编号,/>,获取初次文件间去重后的各结构化文件的文字总数量,将其记为/>
获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和/>
需要说明的是,获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,具体方法为:获取初次文件间去重后的各结构化文件的各标题区域,根据初次文件间去重后的各结构化文件与除其自身外的各结构化文件的各差异文字的位置,筛选得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量。
需要说明的是,获取初次文件间去重后的各结构化文件的各标题区域,具体方法为:获取初次文件间去重后的各结构化文件文本的框架形式,并与数据库中存储的各文本框架形式对应的各标题区域进行比对,筛选得到初次文件间去重后的各结构化文件的各标题区域。
在一个具体实施例中,结构化文件文本的框架形式为文档的框架形式,标题区域为一级标题区域和二级标题区域等。
在另一个具体实施例中,结构化文件文本的框架形式为表格的框架形式,标题区域为行标题区域和列标题区域。
作为一种优选方案,所述步骤二的具体分析过程还包括:通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>,其中/>表示预设的近似系数的修正因子,/>表示自然常数,分别表示预设的标题区域和非标题区域的权值,/>
将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件。
作为一种优选方案,所述步骤二的具体分析过程还包括:F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除。
F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词汇进行逐词比对,若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内,则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇,并进行删除。
F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
需要说明的是,所述词汇包括单词和词组。
需要说明的是,中文分词是将中文文本切分成一个个单词或词组的过程,常用的中文分词方法有基于词典的方法、基于统计的方法和基于规则的方法等。
需要说明的是,结构化文件文本中两个词汇相邻表示两个词汇之间没有夹杂字、词或者分隔符。
步骤三、结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件。
需要说明的是,所述步骤三的具体分析过程为:通过文本错别字检测技术获取各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件。
需要说明的是,文本错别字检测技术包括但不限于:拼写检查、语法检查、语义分析、机器学习算法、基于规则的方法和上下文检查等。
步骤四、结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储。
作为一种优选方案,所述步骤四的具体分析过程包括:通过中文分词方法获取各指定结构化文件文本内容中各词汇,将其与预设的建筑行业专业术语词汇库进行比对,若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库,则将该指定结构化文件文本内容中该词汇记为要点词汇,统计得到各指定结构化文件的要点词汇集。
将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对,筛选得到各指定结构化文件的各标准名要点词和各别名要点词,并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词,得到用词标准化后的各指定结构化文件。
需要说明的是,建筑行业专业术语词汇库中的词汇包括标准名词汇和别名词汇。
需要说明的是,建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合由建筑行业相关专家录入。
作为一种优选方案,所述步骤四的具体分析过程还包括:获取用词标准化后的各指定结构化文件文本对应的标准格式,进一步对用词标准化后的各指定结构化文件进行格式标准化,得到标准化处理后的各指定结构化文件,将其存入建筑物资库中,对建筑物资库的结构化数据进行更新。
需要说明的是,获取用词标准化后的各指定结构化文件文本对应的标准格式,具体方法为:获取用词标准化后的各指定结构化文件文本的框架形式,提取数据库中存储的文本各种框架形式对应的标准格式,筛选得到用词标准化后的各指定结构化文件文本对应的标准格式。
需要说明的是,文本的框架形式包括但不限于:文档的框架形式和表格的框架形式等。
需要说明的是,文本的格式包括但不限于:字体、字号和行距等。
需要说明的是,将标准化处理后的各指定结构化文件存入建筑物资库时,将建筑物资库中原始各指定结构化文件替换为标准化处理后的各指定结构化文件。
在本实施例中,本发明通过对建筑物资库中结构化文件依次进行去重处理、删误处理和标准化处理,并存入建筑物资库对建筑物资库中结构化数据进行更新,实现对建筑物资库中结构化数据的自动清洗、整理、标准化,减少建筑物资库中结构化数据的错误、冗余和非标准化,有利于用户的筛选和引用,同时减少数据手动录入的工作量,节省人力资源。
步骤五、非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集。
作为一种优选方案,所述步骤五的具体分析过程包括:通过文字识别技术获取建筑物资库中各非结构化文件对应的文本,进一步对各非结构化文件的文本进行关键词提取,得到各非结构化文件的各关键词。
获取各非结构化文件中各关键词的词频。
需要说明的是,获取各非结构化文件中各关键词的词频,具体方法为:获取各非结构化文件中各关键词出现的频次和各非结构化文件的词汇数量,将各非结构化文件中各关键词出现的频次除以其非结构化文件的词汇数量,得到各非结构化文件中各关键词的词频。
将各非结构化文件中各关键词的词频与预设的词频阈值进行比较,若某非结构化文件中某关键词的词频大于或等于预设的词频阈值,则将该非结构化文件中该关键词记为特征词,统计各非结构化文件的各特征词,得到各非结构化文件的特征词集。
需要说明的是,获取建筑物资库中各非结构化文件对应的文本的文字识别技术包括但不限于:图像识别技术和语音转文字技术等。
需要说明的是,关键词提取技术是现有的一种较为成熟的技术,此处不加以赘述。
需要说明的是,可以通过中文分词方法获取各非结构化文件的词汇数量。
作为一种优选方案,所述步骤五的具体分析过程还包括:按照预设的原则对各非结构化文件的文本进行划分,得到各非结构化文件文本的各区域,获取各非结构化文件中各特征词的位置,筛选得到各非结构化文件中各特征词所处的区域,将各非结构化文件的特征词集按照特征词所处的区域进行划分,得到各非结构化文件的各特征词子集。
按照预设的训练集与验证集之间的比例对各非结构化文件的各特征词子集进行划分,得到各非结构化文件中各特征词子集对应的训练特征词数量和验证特征词数量,统计得到各非结构化文件的训练特征词总数量和验证特征词总数量,构建各非结构化文件的特征词训练集和特征词验证集。
步骤六、非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型。
作为一种优选方案,所述步骤六的具体分析过程为:将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词训练集中各特征词对应的标签,统计得到各非结构化文件的标签集合,构建各非结构化文件的属性模型。
步骤七、非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模型,并进行存储。
作为一种优选方案,所述步骤七的具体分析过程为:获取各非结构化文件的特征词验证集中各特征词对应的标签,将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对,若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内,则该非结构化文件的标签集合需要变动,将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内,进而对各非结构化文件的属性模型进行优化,得到优化后的各非结构化文件的属性模型,将其存入建筑物资库中,对建筑物资库的非结构化数据进行更新。
需要说明的是,获取各非结构化文件的特征词验证集中各特征词对应的标签,具体方法为:将各非结构化文件的特征词验证集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词验证集中各特征词对应的标签。
需要说明的是,将优化后的各非结构化文件的属性模型存入建筑物资库时,将各非结构化文件及其属性模型一同存入建筑物资库。
在本实施例中,本发明通过提取建筑物资库中非结构化数据的关键信息,获取非结构化数据的标签,在按需求查询非结构化数据时,只需要对非结构化数据的标签进行检索,不需要将非结构化数据分别存入不同需求下的文件夹中进而造成重复录入,只需录入非结构化数据的元数据及其标签,从而能够降低非结构化数据重复录入的工作量,提高建筑物资库数据处理的效率。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本发明所定义的范围,均应属于本发明的保护范围。

Claims (5)

1.基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于,包括如下步骤:
步骤一、建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件;
步骤二、结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件;
步骤三、结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件;
步骤四、结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储;
步骤五、非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集;
步骤六、非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型;
步骤七、非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模型,并进行存储;
所述步骤二的具体分析过程包括:
S1:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件;
S2:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,/>表示初次文件间去重后的第/>个结构化文件的编号,/>,/>表示第/>个对照结构化文件编号,/>,获取初次文件间去重后的各结构化文件的文字总数量,将其记为/>
获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和/>
所述步骤二的具体分析过程还包括:
通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>,其中/>表示预设的近似系数的修正因子,/>表示自然常数,/>分别表示预设的标题区域和非标题区域的权值,/>
将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件;
所述步骤二的具体分析过程还包括:
F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除;
F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词汇进行逐词比对,若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内,则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇,并进行删除;
F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件;
所述步骤四的具体分析过程包括:
通过中文分词方法获取各指定结构化文件文本内容中各词汇,将其与预设的建筑行业专业术语词汇库进行比对,若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库,则将该指定结构化文件文本内容中该词汇记为要点词汇,统计得到各指定结构化文件的要点词汇集;
将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对,筛选得到各指定结构化文件的各标准名要点词和各别名要点词,并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词,得到用词标准化后的各指定结构化文件;
所述步骤四的具体分析过程还包括:
获取用词标准化后的各指定结构化文件文本对应的标准格式,进一步对用词标准化后的各指定结构化文件进行格式标准化,得到标准化处理后的各指定结构化文件,将其存入建筑物资库中,对建筑物资库的结构化数据进行更新。
2.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤五的具体分析过程包括:
通过文字识别技术获取建筑物资库中各非结构化文件对应的文本,进一步对各非结构化文件的文本进行关键词提取,得到各非结构化文件的各关键词;
获取各非结构化文件中各关键词的词频;
将各非结构化文件中各关键词的词频与预设的词频阈值进行比较,若某非结构化文件中某关键词的词频大于或等于预设的词频阈值,则将该非结构化文件中该关键词记为特征词,统计各非结构化文件的各特征词,得到各非结构化文件的特征词集。
3.根据权利要求2所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤五的具体分析过程还包括:
按照预设的原则对各非结构化文件的文本进行划分,得到各非结构化文件文本的各区域,获取各非结构化文件中各特征词的位置,筛选得到各非结构化文件中各特征词所处的区域,将各非结构化文件的特征词集按照特征词所处的区域进行划分,得到各非结构化文件的各特征词子集;
按照预设的训练集与验证集之间的比例对各非结构化文件的各特征词子集进行划分,得到各非结构化文件中各特征词子集对应的训练特征词数量和验证特征词数量,统计得到各非结构化文件的训练特征词总数量和验证特征词总数量,构建各非结构化文件的特征词训练集和特征词验证集。
4.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤六的具体分析过程为:
将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词训练集中各特征词对应的标签,统计得到各非结构化文件的标签集合,构建各非结构化文件的属性模型。
5.根据权利要求4所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤七的具体分析过程为:
获取各非结构化文件的特征词验证集中各特征词对应的标签,将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对,若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内,则该非结构化文件的标签集合需要变动,将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内,进而对各非结构化文件的属性模型进行优化,得到优化后的各非结构化文件的属性模型,将其存入建筑物资库中,对建筑物资库的非结构化数据进行更新。
CN202311541425.9A 2023-11-20 2023-11-20 基于深度学习和模型训练的建筑物资库数据处理方法 Active CN117252514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311541425.9A CN117252514B (zh) 2023-11-20 2023-11-20 基于深度学习和模型训练的建筑物资库数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311541425.9A CN117252514B (zh) 2023-11-20 2023-11-20 基于深度学习和模型训练的建筑物资库数据处理方法

Publications (2)

Publication Number Publication Date
CN117252514A CN117252514A (zh) 2023-12-19
CN117252514B true CN117252514B (zh) 2024-01-30

Family

ID=89126873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311541425.9A Active CN117252514B (zh) 2023-11-20 2023-11-20 基于深度学习和模型训练的建筑物资库数据处理方法

Country Status (1)

Country Link
CN (1) CN117252514B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007213158A (ja) * 2006-02-07 2007-08-23 Toshiba Corp 構造化文書検索装置および構造化文書検索方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析***及方法
GB201417807D0 (en) * 2014-10-08 2014-11-19 Univ Lancaster Data structuring and searching methods and apparatus
CN110442702A (zh) * 2019-08-15 2019-11-12 北京上格云技术有限公司 搜索方法、装置、可读存储介质和电子设备
CN111489748A (zh) * 2019-10-18 2020-08-04 广西电网有限责任公司 一种调度智能语音辅助***
CN112270604A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 信息结构化处理方法、装置及计算机可读存储介质
CN113220885A (zh) * 2021-05-21 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本处理方法和***
CN113961786A (zh) * 2021-10-22 2022-01-21 苏州棱镜七彩信息科技有限公司 多元异构漏洞整合建库方法
CN114154484A (zh) * 2021-11-12 2022-03-08 中国长江三峡集团有限公司 基于混合深度语义挖掘的施工专业术语库智能构建方法
WO2022227207A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
WO2022240906A1 (en) * 2021-05-11 2022-11-17 Strong Force Vcn Portfolio 2019, Llc Systems, methods, kits, and apparatuses for edge-distributed storage and querying in value chain networks
CN115374222A (zh) * 2021-05-19 2022-11-22 中移(苏州)软件技术有限公司 一种知识图谱构建方法、装置和存储介质
CN115952520A (zh) * 2022-12-29 2023-04-11 四川新网银行股份有限公司 应用于数据文件的大数据平台数据标准化处理***及方法
CN115964418A (zh) * 2022-10-21 2023-04-14 中国电子科技集团公司第五十二研究所 一种面向物联网的多源异构数据接入***及方法
CN116362245A (zh) * 2022-12-22 2023-06-30 浙江大学 基于非结构化文本数据的opc ua信息模型构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200395008A1 (en) * 2019-06-15 2020-12-17 Very Important Puppets Inc. Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007213158A (ja) * 2006-02-07 2007-08-23 Toshiba Corp 構造化文書検索装置および構造化文書検索方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析***及方法
GB201417807D0 (en) * 2014-10-08 2014-11-19 Univ Lancaster Data structuring and searching methods and apparatus
CN110442702A (zh) * 2019-08-15 2019-11-12 北京上格云技术有限公司 搜索方法、装置、可读存储介质和电子设备
CN111489748A (zh) * 2019-10-18 2020-08-04 广西电网有限责任公司 一种调度智能语音辅助***
CN112270604A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 信息结构化处理方法、装置及计算机可读存储介质
WO2022227207A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
WO2022240906A1 (en) * 2021-05-11 2022-11-17 Strong Force Vcn Portfolio 2019, Llc Systems, methods, kits, and apparatuses for edge-distributed storage and querying in value chain networks
CN115374222A (zh) * 2021-05-19 2022-11-22 中移(苏州)软件技术有限公司 一种知识图谱构建方法、装置和存储介质
CN113220885A (zh) * 2021-05-21 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本处理方法和***
CN113961786A (zh) * 2021-10-22 2022-01-21 苏州棱镜七彩信息科技有限公司 多元异构漏洞整合建库方法
CN114154484A (zh) * 2021-11-12 2022-03-08 中国长江三峡集团有限公司 基于混合深度语义挖掘的施工专业术语库智能构建方法
CN115964418A (zh) * 2022-10-21 2023-04-14 中国电子科技集团公司第五十二研究所 一种面向物联网的多源异构数据接入***及方法
CN116362245A (zh) * 2022-12-22 2023-06-30 浙江大学 基于非结构化文本数据的opc ua信息模型构建方法
CN115952520A (zh) * 2022-12-29 2023-04-11 四川新网银行股份有限公司 应用于数据文件的大数据平台数据标准化处理***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于规则的海事自由文本信息抽取方法研究;余晨 等;交通信息与安全;第35卷(第3期);第40-47页 *

Also Published As

Publication number Publication date
CN117252514A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理***及方法
US11036808B2 (en) System and method for indexing electronic discovery data
US20190236102A1 (en) System and method for differential document analysis and storage
CN109190092A (zh) 不同来源文件的一致性审核方法
WO2017092337A1 (zh) 评论标签提取方法和装置
US20080104506A1 (en) Method for producing a document summary
CN113961685A (zh) 信息抽取方法及装置
WO2023274047A1 (zh) 标准知识图谱构建、标准查询方法及装置
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN106815605B (zh) 一种基于机器学习的数据分类方法及设备
WO2023124647A1 (zh) 一种纪要确定方法及其相关设备
CN111259645A (zh) 一种裁判文书结构化方法及装置
CN115618866A (zh) 一种工程项目投标文件的段落识别与主题提取方法及***
CN111563372A (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
TWI793432B (zh) 工程專案文件管理方法與系統
CN102591920A (zh) 对文档管理***中的文档集合进行分类的方法以及***
CN117252514B (zh) 基于深度学习和模型训练的建筑物资库数据处理方法
Gephart et al. Qualitative Data Analysis: Three Microcomputer-Supported Approaches.
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
CN112488593B (zh) 一种用于招标的辅助评标***及方法
Hast et al. Making large collections of handwritten material easily accessible and searchable
CN115858738B (zh) 一种企业舆情信息相似性识别方法
CN114492419B (zh) 基于标注中新增关键词语的文本标注方法、***及装置
CN115221871B (zh) 多特征融合的英文科技文献关键词提取方法
CN117496545B (zh) 一种面向pdf文档的表格数据融合处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant