CN111737498A

CN111737498A - 一种应用于离散制造业生产过程的领域知识库建立方法

Info

Publication number: CN111737498A
Application number: CN202010641359.2A
Authority: CN
Inventors: 曹亮; 刘魁; 马启杰
Original assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Current assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-02

Abstract

本发明公开了一种应用于离散制造业生产过程的领域知识库建立方法，包括以下步骤：S1：文本语料管理；S2：文本预处理；S3：知识网络检索；S4：领域知识库构建。本发明通过建立领域知识库，采用有效的排序算法，使得在领域知识库的检索结果排序合理，且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索，结果排列做到科学合理，且可针对检索结果进行二次检索。支持多个条件的筛选，平均检索时间控制在0.5秒以内。另外，本方法支持PDF、word、excel等不同格式文件的检索，支持对资源的全文检索，支持在词表和知识库内的检索，调用可视化工具，提供可视化的展示结果。

Description

一种应用于离散制造业生产过程的领域知识库建立方法

技术领域

本发明涉及数据库技术领域，尤其涉及一种应用于离散制造业生产过程的领域知识库建立方法。

背景技术

零件喷漆作为零件生产过程中重要的加工手段，有着防腐、装饰的作用。热表厂每年零件喷漆超过170万件，因加工手段老旧自动化程度低，导致质量波动、人工职业健康、特种工艺质量记录繁琐数据失真、过程数据深度挖掘与利用不足等问题突显。迫切需要通过自动化、信息化改造，采用机器取代人工进行物流输送与喷涂，实现喷涂过程的节拍化生产，生产数据的实时采集与反馈，喷涂单元内的无人化生产。解决质量波动、职业健康、数据利用不足等问题。

发明内容

本发明的目的在于，针对上述问题，提出一种应用于离散制造业生产过程的领域知识库建立方法，通过采用有效的排序算法，使得在领域知识库的检索结果排序合理，且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索，结果排列做到科学合理，且可针对检索结果进行二次检索。并且支持多个条件的筛选，平均检索时间控制在0.5秒以内。另外，本方法支持PDF、word、excel等不同格式文件的检索，支持对资源的全文检索，支持在词表和知识库内的检索，调用可视化工具，提供可视化的展示结果。

一种应用于离散制造业生产过程的领域知识库建立方法，包括以下步骤：

S1：文本语料管理；

S2：文本预处理；

S3：知识网络检索；

S4：领域知识库构建。

进一步的，步骤S1具体为：

S11：通过接口从大数据平台获取离散制造业生产过程所需的数据资源；

S12：将格式多样性的语料数据转换为统一格式。

进一步的，语料数据包括离散制造生产过程的工艺数据、质量数据、计划数据、生产过程数据、检验数据和成本数据。

进一步的，步骤S3具体为：

S31：领域关键词抽取；抽取文本语料中与领域相关性高、能够代表文本特征的词汇作为关键词；

S32：领域实体抽取；给文本中的每个词汇指定一个类别标签；

S33：领域知识关联识别；根据领域知识网络索引词表中既定的实体间关系，通过关系学习、关系识别机器学习算法在相关文本语料上进行学习，自动的判断实体间关系方法，判定领域关联知识的类型和新获取的实体所属的类别；

S34：领域知识管理；用户可手动的实现词表创建、修改和删除、词条加工、词表导入和词表导出。

进一步的，步骤S4具体为：

S41：文本预处理；

S42：概述、术语、定义的抽取；

S43：自动标引；利用出版社积累的标注了关键词、中图分类、地区分类文本核心要素字段的资源，采用自动化算法对这些经验数据进行学习，产生数学模型，用于对新的文本自动标引；

S44：文本自动分类；从一个训练数据集产生分类函数或分类器，然后把若干数据映射到给定类别中的一个；

S45：关联分析；围绕不同粒度的文本资源以及实体与这些不同粒度文本资源的关联关系，运用词***、语篇结构模式、句间关系模式将主题要素提取出来，加入语义标签，形成可计算的知识单元；

S46：文本聚类；利用文档特征向量本身的特征，将具有相似特性的数据文档归为簇，使簇内的文档有高的相似度，簇间的文档具有高的相异度；

S47：基于算法辅助的人工优化，包括关联关系的协同建设和信息手动矫正。

进一步的，文本预处理具体为：

S21：领域文本分词，将中文字串转变成词串；

S22：领域词汇词性标注，根据句子的上下文信息给句中的每个词汇标注一个正确的词性；

S23：显著程度计算，在分词、词性标注的基础上，去除停用词，对语料中实词出现频率、位置以及共现信息的显著程度因素计算实词的显著程度；

S24：领域关键词抽取，在显著程度计算基础上将显著实词作为领域关键词；

S25：领域实体抽取，给文本中的每个词汇指定一个类别标签；

S26：领域词汇自动分类，依据已有的分类训练语料对新输入的词汇进行分类预测。

本发明的有益效果：通过采用有效的排序算法，使得在领域知识库的检索结果排序合理，且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索，结果排列做到科学合理，且可针对检索结果进行二次检索。并且支持多个条件的筛选，平均检索时间控制在0.5秒以内。另外，本方法支持PDF、word、excel等不同格式文件的检索，支持对资源的全文检索，支持在词表和知识库内的检索，调用可视化工具，提供可视化的展示结果。

附图说明

图1是本发明方法流程框图。

图2是文本语料管理流程框图。

图3是文本预处理流程框图。

图4是知识网络检索流程框图。

图5是领域知识库构建流程框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1-5所示，一种应用于离散制造业生产过程的领域知识库建立方法，包含以下步骤：

步骤S1，文本语料管理，通过接口获取大数据平台数据资源。把格式多样性的语料数据转换为一致的或统一的可以进一步处理的格式；

步骤S2，文本预处理，实现了文本数据的初始处理和信息抽取，具体内容包括：领域文本分词、领域词汇词性标注、显著程度计算、领域关键词抽取、领域实体抽取、领域词汇自动分类。

领域文本分词是指将中文字串转变成词串，主要难点在于切分歧义消除和未登录词的识别；

领域词汇词性标注是指根据句子的上下文信息给句中的每个词汇标注一个正确的词性，即确定每个词是名词、动词、介词、前缀、后缀或其他，主要难点在于词性兼类。词性兼类是指自然语言中一个词语的词性多余一个的语言现象；

显著程度计算指在分词、词性标注的基础上，去除停用词，对语料中实词出现频率、位置以及共现信息的显著程度等因素计算实词的显著程度；

领域关键词抽取是指在显著程度计算基础上将显著实词作为领域关键词；

领域实体抽取是指是一项重要的自然语言处理任务，其旨在给文本中的每个词汇指定一个类别标签，如：人名、地名、机构名以及其他类别；

领域词汇自动分类是指依据已有的分类训练语料对新输入的词汇进行分类预测。

步骤S3，知识网络检索，具体内容包括领域关键词抽取、领域实体抽取、领域知识关联识别、领域知识管理模块。

领域关键词抽取指利用自然语言处理、统计学等技术手段，抽取文本语料中与领域相关性高、能够代表文本特征的词汇作为关键词；

领域实体抽取指给文本中的每个词汇指定一个类别标签，如：人名、地名、机构名以及其他类别、领域知识关联识别指根据领域知识网络索引词表中既定的实体间关系，通过关系学习、关系识别等机器学习算法在相关文本语料上进行学习，利用经验数据上的训练和语法、句法分析自动的判断实体间关系方法，判定领域关联知识的类型和新获取的实体所属的类别；

领域知识管理模块指自动建设的基础上，提供具有专业流程控制的人工干预功能，支持用户手动的实现词表创建、修改和删除、词条加工、词表导入和词表导出等功能，为提高用户操作的效率应提供优质的交互设计。

步骤S4，相关知识关联关系构建，具体内容包括文本预处理、概述/术语/定义的抽取、自动标引、文本自动分类、关联分析、文本聚类、基于算法辅助的人工优化。

文本预处理如上步骤2所述；

概述/术语/定义的抽取指识别和抽取概述/术语/定义；自动标引指重新利用出版社积累的标注了关键词、中图分类、地区分类等文本核心要素字段的资源，采用设计的自动化算法对这些经验数据进行学习，产生数学模型，用于对新的文本自动标引，提高编辑工作效率；

文本自动分类指是指从一个训练数据集产生分类函数或分类器，然后把若干数据映射到给定类别中的一个；

关联分析围绕不同粒度的文本资源间以及实体与这些不同粒度文本资源的关联关系展开，将篇章语言学与文本抽取技术相结合，运用词***、语篇结构模式、句间关系模式等资源将主题要素提取出来，加入语义标签，形成可计算的知识单元；

文本聚类指一般事先不指定文档类别集，而是利用文档特征向量本身的特征，采用某种度量方法，将具有相似特性的数据文档归为簇，使簇内的文档有高的相似度，簇间的文档具有较高的相异度；基于算法辅助的人工优化包括关联关系的协同建设和信息手动矫正。

在本实施例中，提出的一种应用于离散制造业生产过程的领域知识库建立方法，通过采用有效的排序算法，使得在领域知识库的检索结果排序合理，且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索，结果排列做到科学合理，且可针对检索结果进行二次检索。并且支持多个条件的筛选，平均检索时间控制在0.5秒以内。另外，本方法支持PDF、word、excel等不同格式文件的检索，支持对资源的全文检索，支持在词表和知识库内的检索，调用可视化工具，提供可视化的展示结果。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种应用于离散制造业生产过程的领域知识库建立方法，其特征在于，包括以下步骤：

S1：文本语料管理；

S2：文本预处理；

S3：知识网络检索；

S4：领域知识库构建。

2.根据权利要求1所述的一种应用于离散制造业生产过程的领域知识库建立方法，其特征在于，步骤S1具体为：

S12：将格式多样性的语料数据转换为统一格式。

3.根据权利要求2所述的一种应用于离散制造业生产过程的领域知识库建立方法，其特征在于，所述语料数据包括离散制造生产过程的工艺数据、质量数据、计划数据、生产过程数据、检验数据和成本数据。

4.根据权利要求1所述的一种应用于离散制造业生产过程的领域知识库建立方法，其特征在于，步骤S3具体为：

5.根据权利要求1所述的一种应用于离散制造业生产过程的领域知识库建立方法，其特征在于，步骤S4具体为：

S41：文本预处理；

S42：概述、术语、定义的抽取；

6.根据权利要求1或5所述的一种应用于离散制造业生产过程的领域知识库建立方法，其特征在于，所述文本预处理具体为：

S21：领域文本分词，将中文字串转变成词串；