CN111737498A - 一种应用于离散制造业生产过程的领域知识库建立方法 - Google Patents
一种应用于离散制造业生产过程的领域知识库建立方法 Download PDFInfo
- Publication number
- CN111737498A CN111737498A CN202010641359.2A CN202010641359A CN111737498A CN 111737498 A CN111737498 A CN 111737498A CN 202010641359 A CN202010641359 A CN 202010641359A CN 111737498 A CN111737498 A CN 111737498A
- Authority
- CN
- China
- Prior art keywords
- text
- domain
- data
- knowledge base
- domain knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种应用于离散制造业生产过程的领域知识库建立方法,包括以下步骤:S1:文本语料管理;S2:文本预处理;S3:知识网络检索;S4:领域知识库构建。本发明通过建立领域知识库,采用有效的排序算法,使得在领域知识库的检索结果排序合理,且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索,结果排列做到科学合理,且可针对检索结果进行二次检索。支持多个条件的筛选,平均检索时间控制在0.5秒以内。另外,本方法支持PDF、word、excel等不同格式文件的检索,支持对资源的全文检索,支持在词表和知识库内的检索,调用可视化工具,提供可视化的展示结果。
Description
技术领域
本发明涉及数据库技术领域,尤其涉及一种应用于离散制造业生产过程的领域知识库建立方法。
背景技术
零件喷漆作为零件生产过程中重要的加工手段,有着防腐、装饰的作用。热表厂每年零件喷漆超过170万件,因加工手段老旧自动化程度低,导致质量波动、人工职业健康、特种工艺质量记录繁琐数据失真、过程数据深度挖掘与利用不足等问题突显。迫切需要通过自动化、信息化改造,采用机器取代人工进行物流输送与喷涂,实现喷涂过程的节拍化生产,生产数据的实时采集与反馈,喷涂单元内的无人化生产。解决质量波动、职业健康、数据利用不足等问题。
发明内容
本发明的目的在于,针对上述问题,提出一种应用于离散制造业生产过程的领域知识库建立方法,通过采用有效的排序算法,使得在领域知识库的检索结果排序合理,且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索,结果排列做到科学合理,且可针对检索结果进行二次检索。并且支持多个条件的筛选,平均检索时间控制在0.5秒以内。另外,本方法支持PDF、word、excel等不同格式文件的检索,支持对资源的全文检索,支持在词表和知识库内的检索,调用可视化工具,提供可视化的展示结果。
一种应用于离散制造业生产过程的领域知识库建立方法,包括以下步骤:
S1:文本语料管理;
S2:文本预处理;
S3:知识网络检索;
S4:领域知识库构建。
进一步的,步骤S1具体为:
S11:通过接口从大数据平台获取离散制造业生产过程所需的数据资源;
S12:将格式多样性的语料数据转换为统一格式。
进一步的,语料数据包括离散制造生产过程的工艺数据、质量数据、计划数据、生产过程数据、检验数据和成本数据。
进一步的,步骤S3具体为:
S31:领域关键词抽取;抽取文本语料中与领域相关性高、能够代表文本特征的词汇作为关键词;
S32:领域实体抽取;给文本中的每个词汇指定一个类别标签;
S33:领域知识关联识别;根据领域知识网络索引词表中既定的实体间关系,通过关系学习、关系识别机器学习算法在相关文本语料上进行学习,自动的判断实体间关系方法,判定领域关联知识的类型和新获取的实体所属的类别;
S34:领域知识管理;用户可手动的实现词表创建、修改和删除、词条加工、词表导入和词表导出。
进一步的,步骤S4具体为:
S41:文本预处理;
S42:概述、术语、定义的抽取;
S43:自动标引;利用出版社积累的标注了关键词、中图分 类、地区分类文本核心要素字段的资源,采用自动化算法对这些经验数据进行学习,产生数学模型,用于对新的文本自动标引;
S44:文本自动分类;从一个训练数据集产生分类函数或分类器,然后把若干数据映射到给定类别中的一个;
S45:关联分析;围绕不同粒度的文本资源以及实体与这些不同粒度文本资源的关联关系,运用词***、语篇结构模式、句间关系模式将主题要素提取出来,加入语义标签,形成可计算的知识单元;
S46:文本聚类;利用文档特征向量本身的特征,将具有相似特性的数据文档归为簇,使簇内的文档有高的相似度,簇间的文档具有高的相异度;
S47:基于算法辅助的人工优化,包括关联关系的协同建设和信息手动矫正。
进一步的,文本预处理具体为:
S21:领域文本分词,将中文字串转变成词串;
S22:领域词汇词性标注,根据句子的上下文信息给句中的每个词汇标注一个正确的词性;
S23:显著程度计算,在分词、词性标注的基础上,去除停用词,对语料中实词出现频率、位置以及共现信息的显著程度因素计算实词的显著程度;
S24:领域关键词抽取,在显著程度计算基础上将显著实词作为领域关键词;
S25:领域实体抽取,给文本中的每个词汇指定一个类别标签;
S26:领域词汇自动分类,依据已有的分类训练语料对新输入的词汇进行分类预测。
本发明的有益效果:通过采用有效的排序算法,使得在领域知识库的检索结果排序合理,且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索,结果排列做到科学合理,且可针对检索结果进行二次检索。并且支持多个条件的筛选,平均检索时间控制在0.5秒以内。另外,本方法支持PDF、word、excel等不同格式文件的检索,支持对资源的全文检索,支持在词表和知识库内的检索,调用可视化工具,提供可视化的展示结果。
附图说明
图1是本发明方法流程框图。
图2是文本语料管理流程框图。
图3是文本预处理流程框图。
图4是知识网络检索流程框图。
图5是领域知识库构建流程框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
如图1-5所示,一种应用于离散制造业生产过程的领域知识库建立方法,包含以下步骤:
步骤S1,文本语料管理,通过接口获取大数据平台数据资源。把格式多样性的语料数据转换为一致的或统一的可以进一步处理的格式;
步骤S2,文本预处理,实现了文本数据的初始处理和信息抽取,具体内容包括:领域文本分词、领域词汇词性标注、显著程度计算、领域关键词抽取、领域实体抽取、领域词汇自动分类。
领域文本分词是指将中文字串转变成词串,主要难点在于切分歧义消除和未登录词的识别;
领域词汇词性标注是指根据句子的上下文信息给句中的每个词汇标注一个正确的词性,即确定每个词是名词、动词、介词、前缀、后缀或其他,主要难点在于词性兼类。词性兼类是指自然语言中一个词语的词性多余一个的语言现象;
显著程度计算指在分词、词性标注的基础上,去除停用词,对语料中实词出现频率、位置以及共现信息的显著程度等因素计算实词的显著程度;
领域关键词抽取是指在显著程度计算基础上将显著实词作为领域关键词;
领域实体抽取是指是一项重要的自然语言处理任务,其旨在给文本中的每个词汇指定一个类别标签,如:人名、地名、机构名以及其他类别;
领域词汇自动分类是指依据已有的分类训练语料对新输入的词汇进行分类预测。
步骤S3,知识网络检索,具体内容包括领域关键词抽取、领域实体抽取、领域知识关联识别、领域知识管理模块。
领域关键词抽取指利用自然语言处理、统计学等技术手段,抽取文本语料中与领域相关性高、能够代表文本特征的词汇作为关键词;
领域实体抽取指给文本中的每个词汇指定一个类别标签,如:人名、地名、机构名以及其他类别、领域知识关联识别指根据领域知识网络索引词表中既定的实体间关系,通过关系学习、关系识别等机器学习算法在相关文本语料上进行学习,利用经验数据上的训练和语法、句法分析自动的判断实体间关系方法,判定领域关联知识的类型和新获取的实体所属的类别;
领域知识管理模块指自动建设的基础上,提供具有专业流程控制的人工干预功能,支持用户手动的实现词表创建、修改和删除、词条加工、词表导入和词表导出等功能,为提高用户操作的效率应提供优质的交互设计。
步骤S4,相关知识关联关系构建,具体内容包括文本预处理、概述/术语/定义的抽取、自动标引、文本自动分类、关联分析、文本聚类、基于算法辅助的人工优化。
文本预处理如上步骤2所述;
概述/术语/定义的抽取指识别和抽取概述/术语/定义;自动标引指重新利用出版社积累的标注了关键词、中图分 类、地区分类等文本核心要素字段的资源,采用设计的自动化算法对这些经验数 据进行学习,产生数学模型,用于对新的文本自动标引,提高编辑工作效率;
文本自动分类指是指从一个 训练数据集产生分类函数或分类器,然后把若干数据映射到给定类别中的一个;
关联分析围绕不同粒度的文本资源间以及实体与这些不同粒度文 本资源的关联关系展开,将篇章语言学与文本抽取技术相结合,运用词***、语篇结构模式、句间关系模式等资源将主题要素提取出来,加入语义标签,形成可 计算的知识单元;
文本聚类指一般事先不指定文档类别集,而是利用文档特征向量本身的特征,采用某种度量方法,将具有相似特性的数据文档归为簇,使簇内的文档有高的相似度,簇间的文档具有较高的相异度;基于算法辅助的人工优化包括关联关系的协同建设和信息手动矫正。
在本实施例中,提出的一种应用于离散制造业生产过程的领域知识库建立方法,通过采用有效的排序算法,使得在领域知识库的检索结果排序合理,且检索结果可按照相关度、日期或来源等进行排列。当需要借助词表等经验数据的检索,结果排列做到科学合理,且可针对检索结果进行二次检索。并且支持多个条件的筛选,平均检索时间控制在0.5秒以内。另外,本方法支持PDF、word、excel等不同格式文件的检索,支持对资源的全文检索,支持在词表和知识库内的检索,调用可视化工具,提供可视化的展示结果。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种应用于离散制造业生产过程的领域知识库建立方法,其特征在于,包括以下步骤:
S1:文本语料管理;
S2:文本预处理;
S3:知识网络检索;
S4:领域知识库构建。
2.根据权利要求1所述的一种应用于离散制造业生产过程的领域知识库建立方法,其特征在于,步骤S1具体为:
S11:通过接口从大数据平台获取离散制造业生产过程所需的数据资源;
S12:将格式多样性的语料数据转换为统一格式。
3.根据权利要求2所述的一种应用于离散制造业生产过程的领域知识库建立方法,其特征在于,所述语料数据包括离散制造生产过程的工艺数据、质量数据、计划数据、生产过程数据、检验数据和成本数据。
4.根据权利要求1所述的一种应用于离散制造业生产过程的领域知识库建立方法,其特征在于,步骤S3具体为:
S31:领域关键词抽取;抽取文本语料中与领域相关性高、能够代表文本特征的词汇作为关键词;
S32:领域实体抽取;给文本中的每个词汇指定一个类别标签;
S33:领域知识关联识别;根据领域知识网络索引词表中既定的实体间关系,通过关系学习、关系识别机器学习算法在相关文本语料上进行学习,自动的判断实体间关系方法,判定领域关联知识的类型和新获取的实体所属的类别;
S34:领域知识管理;用户可手动的实现词表创建、修改和删除、词条加工、词表导入和词表导出。
5.根据权利要求1所述的一种应用于离散制造业生产过程的领域知识库建立方法,其特征在于,步骤S4具体为:
S41:文本预处理;
S42:概述、术语、定义的抽取;
S43:自动标引;利用出版社积累的标注了关键词、中图分 类、地区分类文本核心要素字段的资源,采用自动化算法对这些经验数据进行学习,产生数学模型,用于对新的文本自动标引;
S44:文本自动分类;从一个训练数据集产生分类函数或分类器,然后把若干数据映射到给定类别中的一个;
S45:关联分析;围绕不同粒度的文本资源以及实体与这些不同粒度文本资源的关联关系,运用词***、语篇结构模式、句间关系模式将主题要素提取出来,加入语义标签,形成可计算的知识单元;
S46:文本聚类;利用文档特征向量本身的特征,将具有相似特性的数据文档归为簇,使簇内的文档有高的相似度,簇间的文档具有高的相异度;
S47:基于算法辅助的人工优化,包括关联关系的协同建设和信息手动矫正。
6.根据权利要求1或5所述的一种应用于离散制造业生产过程的领域知识库建立方法,其特征在于,所述文本预处理具体为:
S21:领域文本分词,将中文字串转变成词串;
S22:领域词汇词性标注,根据句子的上下文信息给句中的每个词汇标注一个正确的词性;
S23:显著程度计算,在分词、词性标注的基础上,去除停用词,对语料中实词出现频率、位置以及共现信息的显著程度因素计算实词的显著程度;
S24:领域关键词抽取,在显著程度计算基础上将显著实词作为领域关键词;
S25:领域实体抽取,给文本中的每个词汇指定一个类别标签;
S26:领域词汇自动分类,依据已有的分类训练语料对新输入的词汇进行分类预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010641359.2A CN111737498A (zh) | 2020-07-06 | 2020-07-06 | 一种应用于离散制造业生产过程的领域知识库建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010641359.2A CN111737498A (zh) | 2020-07-06 | 2020-07-06 | 一种应用于离散制造业生产过程的领域知识库建立方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737498A true CN111737498A (zh) | 2020-10-02 |
Family
ID=72653465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010641359.2A Pending CN111737498A (zh) | 2020-07-06 | 2020-07-06 | 一种应用于离散制造业生产过程的领域知识库建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737498A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及*** |
CN112800175A (zh) * | 2020-11-03 | 2021-05-14 | 广东电网有限责任公司 | 一种电力***知识实体跨文档搜索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析***及方法 |
CN109491642A (zh) * | 2018-11-01 | 2019-03-19 | 成都信息工程大学 | 一种基于场景的需求建模***及方法、信息数据处理终端 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN111159356A (zh) * | 2019-12-31 | 2020-05-15 | 重庆和贯科技有限公司 | 基于教学内容的知识图谱构建方法 |
-
2020
- 2020-07-06 CN CN202010641359.2A patent/CN111737498A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析***及方法 |
CN109491642A (zh) * | 2018-11-01 | 2019-03-19 | 成都信息工程大学 | 一种基于场景的需求建模***及方法、信息数据处理终端 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN111159356A (zh) * | 2019-12-31 | 2020-05-15 | 重庆和贯科技有限公司 | 基于教学内容的知识图谱构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800175A (zh) * | 2020-11-03 | 2021-05-14 | 广东电网有限责任公司 | 一种电力***知识实体跨文档搜索方法 |
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN110929149B (zh) | 一种工业设备故障维修推荐方法和*** | |
CN108287911B (zh) | 一种基于约束化远程监督的关系抽取方法 | |
WO2001093102A1 (en) | Method and apparatus for making predictions about entities represented in documents | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及*** | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、***及存储介质 | |
CN113886604A (zh) | 一种职位知识图谱生成方法和*** | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱*** | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN110929007A (zh) | 一种电力营销知识体系平台及应用方法 | |
CN112445894A (zh) | 基于人工智能的商务智能***及其分析方法 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN111737498A (zh) | 一种应用于离散制造业生产过程的领域知识库建立方法 | |
CN112101014A (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN114548072A (zh) | 用于合同类文件的自动内容解析与信息评测方法及*** | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及*** | |
CN115827871A (zh) | 互联网企业分类的方法、装置和*** | |
CN115952282A (zh) | 基于nlp技术的银行客户投诉智能分流处置方法和*** | |
CN112488593B (zh) | 一种用于招标的辅助评标***及方法 | |
CN115952794A (zh) | 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201002 |
|
RJ01 | Rejection of invention patent application after publication |