CN117252514B

CN117252514B - 基于深度学习和模型训练的建筑物资库数据处理方法

Info

Publication number: CN117252514B
Application number: CN202311541425.9A
Authority: CN
Inventors: 汪哲语; 胡伟; 赵晶丽; 穆明辉; 杨飞飞; 吴祥祥; 付雪丽; 郝彬彬; 潘成浩
Original assignee: Anhui Shuzhi Construction Research Institute Co ltd; China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Current assignee: Anhui Shuzhi Construction Research Institute Co ltd; China Tiesiju Civil Engineering Group Co Ltd CTCE Group
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-01-30
Anticipated expiration: 2043-11-20
Also published as: CN117252514A

Abstract

本发明涉及建筑物资库数据处理领域，具体公开基于深度学习和模型训练的建筑物资库数据处理方法，本发明通过对建筑物资库中结构化文件进行去重、删误和标准化处理，并进行存储，实现对建筑物资库中结构化数据的自动清洗、整理、标准化，有利于用户的筛选和引用，同时减少数据手动录入的工作量；获取建筑物资库中非结构化文件的特征词集，分析非结构化文件的属性模型，并进行存储，通过提取非结构化数据的关键信息，获取非结构化数据的标签，方便检索，能够降低重复录入的工作量；从而实现对建筑工程物资库的自动化管理，以提高物资管理的效率和准确性，降低人工操作的复杂度，从而为企业节省大量的人力和时间成本。

Description

基于深度学习和模型训练的建筑物资库数据处理方法

技术领域

本发明涉及建筑物资库数据处理领域，涉及到基于深度学习和模型训练的建筑物资库数据处理方法。

背景技术

在建筑施工行业，物资管理是项目实施的核心要素之一，直接影响到工程的质量、进度和成本，对于施工企业来说，如何提升物资管理效率、降低误差并精确控制成本，无疑是提高整体竞争力和盈利能力的重要环节，因此，对建筑物资库数据进行处理具有重要意义。

现有的建筑物资库数据处理方法存在一些不足：一方面，大部分的物资数据需要由业务人员手动录入，这使得数据的标准化程度较低，且存在大量的错误和冗余，这些错误和冗余的数据不仅增加了数据处理的工作量，而且对用户的筛选和引用构成了障碍，同时数据录入工作量庞大且重复性强，耗费了大量的人力资源。

另一方面，物资数据中存在大量的非结构化数据，这些非结构化数据无法直接采取结构化数据导入的方式进行数据录入，导致了很多非结构化数据需要反复录入，进而加重物资管理部门的负担，也加剧了施工企业基层物资管理的复杂性和困难度。

发明内容

针对上述问题，本发明提出了基于深度学习和模型训练的建筑物资库数据处理方法，具体技术方案如下：基于深度学习和模型训练的建筑物资库数据处理方法，包括如下步骤：步骤一、建筑物资库数据分类：对目标建筑施工企业的建筑物资库数据进行分类，获取建筑物资库中各结构化文件和各非结构化文件。

步骤二、结构化数据去重处理：对建筑物资库中各结构化文件依次进行文件间去重和文件内去重，得到去重处理后的各结构化文件，将其记为各目标结构化文件。

步骤三、结构化数据删误处理：识别各目标结构化文件文本内容中各错误字并进行修正，得到删误处理后的各目标结构化文件，将其记为各指定结构化文件。

步骤四、结构化数据标准化处理：获取各指定结构化文件的要点词汇集，对各指定结构化文件依次进行用词标准化和格式标准化，得到标准化处理后的各指定结构化文件，并进行存储。

步骤五、非结构化数据特征词提取：获取建筑物资库中各非结构化文件对应的文本，对各非结构化文件的文本进行关键词提取和词频分析，得到各非结构化文件的特征词集，并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集。

步骤六、非结构化数据属性模型分析：根据各非结构化文件的特征词训练集，分析各非结构化文件的标签集合，构建各非结构化文件的属性模型。

步骤七、非结构化数据属性模型优化：根据各非结构化文件的特征词验证集，判断各非结构化文件的标签集合是否需要变动，进一步得到优化后的各非结构化文件的属性模型，并进行存储。

在上述实施例的基础上，所述步骤二的具体分析过程包括：S1：获取建筑物资库中各结构化文件的文本内容，将各结构化文件的文本内容互相进行比对，若某两个结构化文件的文本内容完全一致，则该两个结构化文件互为彼此的重复性结构化文件，并进行删除，进而得到初次文件间去重后的各结构化文件。

S2：将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对，得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量，将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量，并表示为，/>表示初次文件间去重后的第/>个结构化文件的编号，/>，/>表示第/>个对照结构化文件编号，/>，获取初次文件间去重后的各结构化文件的文字总数量，将其记为/>。

获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量，将其分别记为和/>。

在上述实施例的基础上，所述步骤二的具体分析过程还包括：通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>，其中/>表示预设的近似系数的修正因子，/>表示自然常数，/>分别表示预设的标题区域和非标题区域的权值，/>。

将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较，若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值，则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件，并进行删除，进而得到二次文件间去重后的各结构化文件，将其记为文件间去重后的各结构化文件。

在上述实施例的基础上，所述步骤二的具体分析过程还包括：F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对，若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内，则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字，并进行删除。

F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇，将文件间去重后的各结构化文件文本的各词汇进行逐词比对，若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内，则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇，并进行删除。

F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重，得到去重处理后的各结构化文件，将其记为各目标结构化文件。

在上述实施例的基础上，所述步骤四的具体分析过程包括：通过中文分词方法获取各指定结构化文件文本内容中各词汇，将其与预设的建筑行业专业术语词汇库进行比对，若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库，则将该指定结构化文件文本内容中该词汇记为要点词汇，统计得到各指定结构化文件的要点词汇集。

将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对，筛选得到各指定结构化文件的各标准名要点词和各别名要点词，并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词，得到用词标准化后的各指定结构化文件。

在上述实施例的基础上，所述步骤四的具体分析过程还包括：获取用词标准化后的各指定结构化文件文本对应的标准格式，进一步对用词标准化后的各指定结构化文件进行格式标准化，得到标准化处理后的各指定结构化文件，将其存入建筑物资库中，对建筑物资库的结构化数据进行更新。

在上述实施例的基础上，所述步骤五的具体分析过程包括：通过文字识别技术获取建筑物资库中各非结构化文件对应的文本，进一步对各非结构化文件的文本进行关键词提取，得到各非结构化文件的各关键词。

获取各非结构化文件中各关键词的词频。

将各非结构化文件中各关键词的词频与预设的词频阈值进行比较，若某非结构化文件中某关键词的词频大于或等于预设的词频阈值，则将该非结构化文件中该关键词记为特征词，统计各非结构化文件的各特征词，得到各非结构化文件的特征词集。

在上述实施例的基础上，所述步骤五的具体分析过程还包括：按照预设的原则对各非结构化文件的文本进行划分，得到各非结构化文件文本的各区域，获取各非结构化文件中各特征词的位置，筛选得到各非结构化文件中各特征词所处的区域，将各非结构化文件的特征词集按照特征词所处的区域进行划分，得到各非结构化文件的各特征词子集。

按照预设的训练集与验证集之间的比例对各非结构化文件的各特征词子集进行划分，得到各非结构化文件中各特征词子集对应的训练特征词数量和验证特征词数量，统计得到各非结构化文件的训练特征词总数量和验证特征词总数量，构建各非结构化文件的特征词训练集和特征词验证集。

在上述实施例的基础上，所述步骤六的具体分析过程为：将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对，筛选得到各非结构化文件的特征词训练集中各特征词对应的标签，统计得到各非结构化文件的标签集合，构建各非结构化文件的属性模型。

在上述实施例的基础上，所述步骤七的具体分析过程为：获取各非结构化文件的特征词验证集中各特征词对应的标签，将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对，若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内，则该非结构化文件的标签集合需要变动，将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内，进而对各非结构化文件的属性模型进行优化，得到优化后的各非结构化文件的属性模型，将其存入建筑物资库中，对建筑物资库的非结构化数据进行更新。

相对于现有技术，本发明所述的基于深度学习和模型训练的建筑物资库数据处理方法以下有益效果：1.本发明通过对建筑物资库中结构化文件依次进行去重处理、删误处理和标准化处理，并存入建筑物资库对建筑物资库中结构化数据进行更新，实现对建筑物资库中结构化数据的自动清洗、整理、标准化，减少建筑物资库中结构化数据的错误、冗余和非标准化，有利于用户的筛选和引用，同时减少数据手动录入的工作量，节省人力资源。

2.本发明通过提取建筑物资库中非结构化数据的关键信息，获取非结构化数据的标签，在按需求查询非结构化数据时，只需要对非结构化数据的标签进行检索，不需要将非结构化数据分别存入不同需求下的文件夹中进而造成重复录入，只需录入非结构化数据的元数据及其标签，从而能够降低非结构化数据重复录入的工作量，提高建筑物资库数据处理的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程示意图。

图2为本发明的非结构化文件的属性模型构建示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1和图2所示，本发明提供的基于深度学习和模型训练的建筑物资库数据处理方法，包括如下步骤：步骤一、建筑物资库数据分类：对目标建筑施工企业的建筑物资库数据进行分类，获取建筑物资库中各结构化文件和各非结构化文件。

需要说明的是，所述步骤一的具体分析过程为：对目标建筑施工企业的建筑物资库中存储的各文件进行检测，获取建筑物资库中各文件的文件格式，将建筑物资库中各文件的文件格式分别与预设的结构化数据和非结构化数据对应的文件格式类型集合进行比对，筛选得到建筑物资库中各结构化文件和各非结构化文件。

需要说明的是，筛选得到建筑物资库中各结构化文件和各非结构化文件，具体方法为：将建筑物资库中各文件的文件格式分别与预设的结构化数据和非结构化数据对应的文件格式类型集合进行比对，若建筑物资库中某文件的文件格式属于结构化数据对应的文件格式类型集合内，则将该文件记为结构化文件，若建筑物资库中某文件的文件格式属于非结构化数据对应的文件格式类型集合内，则将该文件记为非结构化文件，筛选得到建筑物资库中各结构化文件和各非结构化文件。

需要说明的是，建筑物资库中的数据包括但不限于：物资基本信息、物资价格和成本、物资库存信息、供应商信息、采购与销售记录、物资质量和检测信息、物资使用记录和物资归还与报废信息等。

需要说明的是，建筑物资库中的文件可以是文本文档、电子表格、图片、音频和视频等。

需要说明的是，建筑物资库中文件的文件格式可以是.docx、.xlsx、.pdf、.jpg、.mp3和.mp4等。

需要说明的是，建筑物资库中结构化数据是指具有固定格式和预定义模式的数据，可以被组织、存储和管理，通常是以表格或数据库的形式存在，非结构化数据是指没有固定格式和预定义模式的数据，通常以自由文本、图像、音频或视频的形式存在。

作为一种优选方案，所述步骤二的具体分析过程包括：S1：获取建筑物资库中各结构化文件的文本内容，将各结构化文件的文本内容互相进行比对，若某两个结构化文件的文本内容完全一致，则该两个结构化文件互为彼此的重复性结构化文件，并进行删除，进而得到初次文件间去重后的各结构化文件。

需要说明的是，获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量，具体方法为：获取初次文件间去重后的各结构化文件的各标题区域，根据初次文件间去重后的各结构化文件与除其自身外的各结构化文件的各差异文字的位置，筛选得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量。

需要说明的是，获取初次文件间去重后的各结构化文件的各标题区域，具体方法为：获取初次文件间去重后的各结构化文件文本的框架形式，并与数据库中存储的各文本框架形式对应的各标题区域进行比对，筛选得到初次文件间去重后的各结构化文件的各标题区域。

在一个具体实施例中，结构化文件文本的框架形式为文档的框架形式，标题区域为一级标题区域和二级标题区域等。

在另一个具体实施例中，结构化文件文本的框架形式为表格的框架形式，标题区域为行标题区域和列标题区域。

作为一种优选方案，所述步骤二的具体分析过程还包括：通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>，其中/>表示预设的近似系数的修正因子，/>表示自然常数，分别表示预设的标题区域和非标题区域的权值，/>。

作为一种优选方案，所述步骤二的具体分析过程还包括：F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对，若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内，则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字，并进行删除。

需要说明的是，所述词汇包括单词和词组。

需要说明的是，中文分词是将中文文本切分成一个个单词或词组的过程，常用的中文分词方法有基于词典的方法、基于统计的方法和基于规则的方法等。

需要说明的是，结构化文件文本中两个词汇相邻表示两个词汇之间没有夹杂字、词或者分隔符。

需要说明的是，所述步骤三的具体分析过程为：通过文本错别字检测技术获取各目标结构化文件文本内容中各错误字并进行修正，得到删误处理后的各目标结构化文件，将其记为各指定结构化文件。

需要说明的是，文本错别字检测技术包括但不限于：拼写检查、语法检查、语义分析、机器学习算法、基于规则的方法和上下文检查等。

作为一种优选方案，所述步骤四的具体分析过程包括：通过中文分词方法获取各指定结构化文件文本内容中各词汇，将其与预设的建筑行业专业术语词汇库进行比对，若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库，则将该指定结构化文件文本内容中该词汇记为要点词汇，统计得到各指定结构化文件的要点词汇集。

需要说明的是，建筑行业专业术语词汇库中的词汇包括标准名词汇和别名词汇。

需要说明的是，建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合由建筑行业相关专家录入。

作为一种优选方案，所述步骤四的具体分析过程还包括：获取用词标准化后的各指定结构化文件文本对应的标准格式，进一步对用词标准化后的各指定结构化文件进行格式标准化，得到标准化处理后的各指定结构化文件，将其存入建筑物资库中，对建筑物资库的结构化数据进行更新。

需要说明的是，获取用词标准化后的各指定结构化文件文本对应的标准格式，具体方法为：获取用词标准化后的各指定结构化文件文本的框架形式，提取数据库中存储的文本各种框架形式对应的标准格式，筛选得到用词标准化后的各指定结构化文件文本对应的标准格式。

需要说明的是，文本的框架形式包括但不限于：文档的框架形式和表格的框架形式等。

需要说明的是，文本的格式包括但不限于：字体、字号和行距等。

需要说明的是，将标准化处理后的各指定结构化文件存入建筑物资库时，将建筑物资库中原始各指定结构化文件替换为标准化处理后的各指定结构化文件。

在本实施例中，本发明通过对建筑物资库中结构化文件依次进行去重处理、删误处理和标准化处理，并存入建筑物资库对建筑物资库中结构化数据进行更新，实现对建筑物资库中结构化数据的自动清洗、整理、标准化，减少建筑物资库中结构化数据的错误、冗余和非标准化，有利于用户的筛选和引用，同时减少数据手动录入的工作量，节省人力资源。

作为一种优选方案，所述步骤五的具体分析过程包括：通过文字识别技术获取建筑物资库中各非结构化文件对应的文本，进一步对各非结构化文件的文本进行关键词提取，得到各非结构化文件的各关键词。

获取各非结构化文件中各关键词的词频。

需要说明的是，获取各非结构化文件中各关键词的词频，具体方法为：获取各非结构化文件中各关键词出现的频次和各非结构化文件的词汇数量，将各非结构化文件中各关键词出现的频次除以其非结构化文件的词汇数量，得到各非结构化文件中各关键词的词频。

需要说明的是，获取建筑物资库中各非结构化文件对应的文本的文字识别技术包括但不限于：图像识别技术和语音转文字技术等。

需要说明的是，关键词提取技术是现有的一种较为成熟的技术，此处不加以赘述。

需要说明的是，可以通过中文分词方法获取各非结构化文件的词汇数量。

作为一种优选方案，所述步骤五的具体分析过程还包括：按照预设的原则对各非结构化文件的文本进行划分，得到各非结构化文件文本的各区域，获取各非结构化文件中各特征词的位置，筛选得到各非结构化文件中各特征词所处的区域，将各非结构化文件的特征词集按照特征词所处的区域进行划分，得到各非结构化文件的各特征词子集。

作为一种优选方案，所述步骤六的具体分析过程为：将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对，筛选得到各非结构化文件的特征词训练集中各特征词对应的标签，统计得到各非结构化文件的标签集合，构建各非结构化文件的属性模型。

作为一种优选方案，所述步骤七的具体分析过程为：获取各非结构化文件的特征词验证集中各特征词对应的标签，将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对，若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内，则该非结构化文件的标签集合需要变动，将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内，进而对各非结构化文件的属性模型进行优化，得到优化后的各非结构化文件的属性模型，将其存入建筑物资库中，对建筑物资库的非结构化数据进行更新。

需要说明的是，获取各非结构化文件的特征词验证集中各特征词对应的标签，具体方法为：将各非结构化文件的特征词验证集中各特征词与预设的各标签对应的特征词库进行比对，筛选得到各非结构化文件的特征词验证集中各特征词对应的标签。

需要说明的是，将优化后的各非结构化文件的属性模型存入建筑物资库时，将各非结构化文件及其属性模型一同存入建筑物资库。

在本实施例中，本发明通过提取建筑物资库中非结构化数据的关键信息，获取非结构化数据的标签，在按需求查询非结构化数据时，只需要对非结构化数据的标签进行检索，不需要将非结构化数据分别存入不同需求下的文件夹中进而造成重复录入，只需录入非结构化数据的元数据及其标签，从而能够降低非结构化数据重复录入的工作量，提高建筑物资库数据处理的效率。

以上内容仅仅是对本发明的构思所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的构思或者超越本发明所定义的范围，均应属于本发明的保护范围。

Claims

1.基于深度学习和模型训练的建筑物资库数据处理方法，其特征在于，包括如下步骤：

步骤一、建筑物资库数据分类：对目标建筑施工企业的建筑物资库数据进行分类，获取建筑物资库中各结构化文件和各非结构化文件；

步骤二、结构化数据去重处理：对建筑物资库中各结构化文件依次进行文件间去重和文件内去重，得到去重处理后的各结构化文件，将其记为各目标结构化文件；

步骤三、结构化数据删误处理：识别各目标结构化文件文本内容中各错误字并进行修正，得到删误处理后的各目标结构化文件，将其记为各指定结构化文件；

步骤四、结构化数据标准化处理：获取各指定结构化文件的要点词汇集，对各指定结构化文件依次进行用词标准化和格式标准化，得到标准化处理后的各指定结构化文件，并进行存储；

步骤五、非结构化数据特征词提取：获取建筑物资库中各非结构化文件对应的文本，对各非结构化文件的文本进行关键词提取和词频分析，得到各非结构化文件的特征词集，并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集；

步骤六、非结构化数据属性模型分析：根据各非结构化文件的特征词训练集，分析各非结构化文件的标签集合，构建各非结构化文件的属性模型；

步骤七、非结构化数据属性模型优化：根据各非结构化文件的特征词验证集，判断各非结构化文件的标签集合是否需要变动，进一步得到优化后的各非结构化文件的属性模型，并进行存储；

所述步骤二的具体分析过程包括：

S1：获取建筑物资库中各结构化文件的文本内容，将各结构化文件的文本内容互相进行比对，若某两个结构化文件的文本内容完全一致，则该两个结构化文件互为彼此的重复性结构化文件，并进行删除，进而得到初次文件间去重后的各结构化文件；

S2：将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对，得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量，将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量，并表示为，/>表示初次文件间去重后的第/>个结构化文件的编号，/>，/>表示第/>个对照结构化文件编号，/>，获取初次文件间去重后的各结构化文件的文字总数量，将其记为/>；

获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量，将其分别记为和/>；

所述步骤二的具体分析过程还包括：

通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>，其中/>表示预设的近似系数的修正因子，/>表示自然常数，/>分别表示预设的标题区域和非标题区域的权值，/>；

将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较，若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值，则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件，并进行删除，进而得到二次文件间去重后的各结构化文件，将其记为文件间去重后的各结构化文件；

所述步骤二的具体分析过程还包括：

F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对，若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内，则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字，并进行删除；

F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇，将文件间去重后的各结构化文件文本的各词汇进行逐词比对，若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内，则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇，并进行删除；

F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重，得到去重处理后的各结构化文件，将其记为各目标结构化文件；

所述步骤四的具体分析过程包括：

通过中文分词方法获取各指定结构化文件文本内容中各词汇，将其与预设的建筑行业专业术语词汇库进行比对，若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库，则将该指定结构化文件文本内容中该词汇记为要点词汇，统计得到各指定结构化文件的要点词汇集；

将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对，筛选得到各指定结构化文件的各标准名要点词和各别名要点词，并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词，得到用词标准化后的各指定结构化文件；

所述步骤四的具体分析过程还包括：

获取用词标准化后的各指定结构化文件文本对应的标准格式，进一步对用词标准化后的各指定结构化文件进行格式标准化，得到标准化处理后的各指定结构化文件，将其存入建筑物资库中，对建筑物资库的结构化数据进行更新。

2.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法，其特征在于：所述步骤五的具体分析过程包括：

通过文字识别技术获取建筑物资库中各非结构化文件对应的文本，进一步对各非结构化文件的文本进行关键词提取，得到各非结构化文件的各关键词；

获取各非结构化文件中各关键词的词频；

3.根据权利要求2所述的基于深度学习和模型训练的建筑物资库数据处理方法，其特征在于：所述步骤五的具体分析过程还包括：

按照预设的原则对各非结构化文件的文本进行划分，得到各非结构化文件文本的各区域，获取各非结构化文件中各特征词的位置，筛选得到各非结构化文件中各特征词所处的区域，将各非结构化文件的特征词集按照特征词所处的区域进行划分，得到各非结构化文件的各特征词子集；

4.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法，其特征在于：所述步骤六的具体分析过程为：

将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对，筛选得到各非结构化文件的特征词训练集中各特征词对应的标签，统计得到各非结构化文件的标签集合，构建各非结构化文件的属性模型。

5.根据权利要求4所述的基于深度学习和模型训练的建筑物资库数据处理方法，其特征在于：所述步骤七的具体分析过程为：

获取各非结构化文件的特征词验证集中各特征词对应的标签，将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对，若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内，则该非结构化文件的标签集合需要变动，将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内，进而对各非结构化文件的属性模型进行优化，得到优化后的各非结构化文件的属性模型，将其存入建筑物资库中，对建筑物资库的非结构化数据进行更新。