CN111563173A - 一种基于制造领域的知识图谱构建方法及*** - Google Patents

一种基于制造领域的知识图谱构建方法及*** Download PDF

Info

Publication number
CN111563173A
CN111563173A CN202010386990.2A CN202010386990A CN111563173A CN 111563173 A CN111563173 A CN 111563173A CN 202010386990 A CN202010386990 A CN 202010386990A CN 111563173 A CN111563173 A CN 111563173A
Authority
CN
China
Prior art keywords
words
manufacturing field
knowledge
thesaurus
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010386990.2A
Other languages
English (en)
Inventor
赵亮
栗磊磊
魏星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Software Engineering Center Chinese Academy Sciences
Original Assignee
Software Engineering Center Chinese Academy Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Software Engineering Center Chinese Academy Sciences filed Critical Software Engineering Center Chinese Academy Sciences
Priority to CN202010386990.2A priority Critical patent/CN111563173A/zh
Priority to PCT/CN2020/089698 priority patent/WO2021226809A1/zh
Publication of CN111563173A publication Critical patent/CN111563173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Manufacturing & Machinery (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于制造领域的知识图谱构建方法及***,包括:获取制造领域加工过程的描述语句;基于预先建立的知识词典对所述制造领域加工过程的描述语句进行语句拆分和语义分析以提取出相应的词语;根据所述知识词典进行自动匹配以将所述词语进行分类;查询所述知识词典,将分类后的词语进行置换以获得该分类后的词语在知识词典中所对应的标准词;根据所述标准词生成三元组关系结构;根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;根据所述多个实体名称所对应的基准实体名称对所述结构化数据进行更新获得所述制造领域的知识图谱。本发明构建的制造领域的知识图谱准确性高。

Description

一种基于制造领域的知识图谱构建方法及***
技术领域
本发明涉数据处理领域,特别是涉及一种基于制造领域的知识图谱构建方法及***。
背景技术
制造流程是指被加工对象不间断地通过生产设备和一系列的加工装置使原材料进行化学或物理变化、最终得到产品的过程,制造流程是制造领域的专业范畴,其中包含了大量的专有性工业加工术语,例如粗车、车削、磨削和精车等。
制造领域知识数据涉及多组织、多流程和多产品,具有多源、互联等特点,制造业的加工流程每个细分领域都会有自己的术语与习惯的表达用法,使用自然语言描述的加工操作记录由于人员的差异性、自然语言的丰富性,导致表达这种加工方法具有复杂的多样性,如同一加工方法可能会有很多种显著不同的表达方式,另外,数据的多源性导致数据的描述差异大及语义跨度大,难以统一理解和交流,例如:数据的多源性导致数据的描述差异大及语义跨度大,即制造知识的统一表达及知识图谱的构建问题。
1、传统基于关键词的输入方法会导致很多同义语句的内容重复存储,让使用者或者参考者无法快速准确地得到他想要获取的相关知识;
2、构建的制造领域知识图谱不统一、准确性低。
基于上述技术问题,特提出本发明。
发明内容
为了解决现有技术中存在的上述问题,本发明的目的在于解决以上技术问题中的至少一个。
本发明的技术方案是:
第一方面,本发明提供一种基于制造领域的知识图谱构建方法,该方法包括:
S100:获取制造领域加工过程的描述语句;
S200:基于预先建立的知识词典对所述制造领域加工过程的描述语句进行语句拆分和语义分析以提取出相应的词语;
S300:根据所述知识词典进行自动匹配以将所述词语进行分类;查询所述知识词典,将分类后的词语进行置换以获得该分类后的词语在知识词典中所对应的标准词;
S400:根据所述标准词生成三元组关系结构;
S500:根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;
S600:根据所述多个实体名称所对应的基准实体名称对所述结构化数据进行更新以获得所述制造领域的知识图谱。
进一步的,所述制造领域加工过程的描述语句包括元件、元件属性、加工过程和最终产品中的一项或多项。
进一步的,所述知识词典包括元件词库、状态词库、同义词词库和关系词库。
进一步的,所述步骤S200包括以下子步骤:
利用元件词库、状态词库和关系词库,对该制造领域加工过程的描述语句进行匹配,以提取出与元件、元件状态和关系相关的词语。
进一步的,所述步骤S300包括以下子步骤:
将提取出的词语与同义词词库中的子节点进行自动匹配,并根据匹配结果将提取的词语进行同义置换为所述同义词词库中的子节点所对应的主节点标准词。
进一步的,将所述词语分类为元件类、状态类或关系类。
进一步的,所述步骤S400包括以下子步骤:
利用三元组建立相应的关系神经网络,将分类为元件类的词语作为实体以形成节点,将分类为状态类的词语作为状态以形成分节点,将分类为关系类的词语作为关系以形成传递线。
进一步的,所述三元组结构包括图形数据结构和表数据结构。
进一步的,所述知识词典还包括临时词库,用于存储在元件词库、同义词词库、关系词库和状态词库中均无法查到的临时用词。
第二方面,本发明提供一种基于制造领域知识图谱的构建***,该构建***包括语句获取模块、语句拆分和分析模块、置换模块、三元组生成模块、构建模块和更新模块;其中,
所述语句获取模块用于获取制造领域加工过程的描述语句;
所述语句拆分和分析模块基于预先建立的知识词典对所述制造领域加工过程的描述语句进行语句拆分和语义分析以提取出相应的词语;
所述置换模块根据所述知识词典进行自动匹配以将所述词语进行分类;查询所述知识词典,将分类后的词语进行置换以获得该分类后的词语在知识词典中所对应的标准词;
所述三元组生成模块根据所述标准词生成三元组关系结构;
所述构建模块根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;
所述更新模块根据所述多个实体名称所对应的基准实体名称对所述结构化数据进行更新以获得所述制造领域的知识图谱。
本发明的优点:
本发明可以根据已有加工程序转化为一个或多个最小化的三元组结构,从而可以更为方便、精准地了解和获得工艺加工处理的优化方案;并且避免了由于工人经验不足导致的加工方法的低效,尽可能降低了工艺加工对于员工经验的要求度;而且,本发明的构建的制造领域知识图谱构建的效率高,成本较低,省时省力,所构建的制造领域的知识图谱准确性高。
附图说明
图1是本发明实施例提供的一种基于制造领域的知识图谱构建方法的流程图。
图2是本发明实施例提供的一种将加工过程描述语句转换为三元组结构的方法的语句拆分示意图。
图3是本发明实施例提供的一种将加工过程描述语句转换为三元组结构的方法的同义词词库结构示意图。
图4是本发明实施例提供的一种将加工过程描述语句转换为三元组结构的方法的最小化三元组结构图。
图5是本发明实施例提供的一种基于制造领域的知识图谱构建***的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下根据附图1-5,对本发明的一种基于制造领域的知识图谱构建方法及***作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,一种基于制造领域的知识图谱构建方法,该方法包括如下的步骤:
S100:获取制造领域加工过程的描述语句;
S200:基于预先建立的知识词典对所述制造领域加工过程的描述语句进行语句拆分和语义分析以提取出相应的词语;
S300:根据所述知识词典进行自动匹配以将所述词语进行分类;查询所述知识词典,将分类后的词语进行置换以获得该分类后的词语在知识词典中所对应的标准词;
S400:根据所述标准词生成三元组关系结构;
S500:根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;
S600:根据所述多个实体名称所对应的基准实体名称对所述结构化数据进行更新以获得所述制造领域的知识图谱。
在步骤S100中,制造领域加工过程的描述语句是对制造领域加工流程过程的一个语境较为简单的描述,一般是运用某个元件或者某些元件通过某种方法形成一个新的元件或者是不同属性的元件的过程,这种描述能清楚表达出该元件或者某些元件的属性和属性值。一条制造领域加工过程的描述语句通常包括四部分内容,分别为元件、元件属性、加工过程和最终产品。
步骤S100中的知识词典包括元件词库、状态词库、同义词词库和关系词库;其中,元件词库来源于制造业产品配置知识库、制造流程库和其他知识库等制造业数据库。通常意义上元件是指在常用电器中可以互换使用的零件,比如说是电器﹑无线电﹑仪表等工业的某些零件,如电容﹑晶体管﹑游丝﹑发条等。但是本实施例中,元件词库有更加宽广的解释,它是基于制造领域知识库,不仅仅限于工业上的零配件知识,也包括其他制造业的信息、资源和数据等元数据,甚至是没有实体形态的数据也可以作为元件在知识词典中存在。
需要说明的是元件词库中包含的不仅限制与零件类的实体,也包括信息、资源、矿产、食品原材料或半成品。这里元件指的是可以通过加工等技术手段从而生产为一个新的产品的代名词。元件词库在使用过程中,可以不断更新升级。
状态词库用来记录描述元件的当时的状态属性特征的属性值,是存储元件词库的属性及属性值的词库。
同义词词库用于存储普遍通用的元件,初始的同义词词库可以参考别名词库创建而成(这种别名数据库网上可以轻松搜索到)。在同义词词库中,例如px是二甲苯的一种表达方式,实际上二者是同一个词,表达了相同的内容。需要注意的是,如果有些元件名词进行了更新换代,那么主节点词语发生变化时,需要人工修改主节点名词,并把原主节点名词加入子节点中。同义词词库需要不断地进行人工更新,对于首次遇见加工、操作这类词语,这些词语想要表达的都是同一个意思,但是首次电脑无法自动识别,需要通过人工干预的方法,将无法识别的词语与同义词词库的词汇相匹配,也就是完成了一次同义词词库的更新。
关系词库是用于存储元件与元件之间的关系的词库,包含同一个元件不同属性之间的关系,以及不同的元件之间的关系。
通常情况下,知识词典中还包括其他词库,也可以称作临时词库,用于存储临时用词,是为了给在元件词库、同义词词库、关系词库和状态词库中均无法查到的词语临时设置一个放置地带。
制造领域加工过程的描述语句是对加工流程过程的描述,通常是一个语境较为简单的陈述句,描述的内容一般是运用某个元件或者某些元件通过某种方法形成一个新的元件或者是不同属性的元件的过程。
在本实施例提供的基于制造领域知识图谱的构建方法中,对于获取的某一个确定的制造领域加工过程描述语句,首先根据知识词典对该制造领域加工过程的描述语句进行语句的拆分与解析;步骤300中利用元件词库、状态词库和关系词库,对该制造领域加工过程的描述语句进行匹配,提取出与元件、元件属性和属性值以及关系等相关的词语,然后对这些词语进行大体分类,例如把这些提取出来的词语,分入元件类、状态类或关系类。
步骤S200还包括,对制造领域加工过程的描述语句进行语句拆分的时候也进行语句的标识,拆分后的词语自动匹配相应归属的知识词典里面的数据表,并被标示为所对应的数据表的属性,即被标示为元件类、状态类或关系类。例如汽车发动机的数据表属性为汽车,汽车数据表属于元件数据库,那么汽车发动机这个语句标识为元件和汽车。
举例来说,对于“氢气H2和氧气02点燃生成H20”这一制造领域加工过程的描述语句,首先根据元件词库进行匹配,提取出“H2”、“O2”和“H2O”这三个元件,通过关系词库可以提取出“点燃”这个关系动作词,根据状态词库进行匹配,没有匹配到相应的状态,这里就不需要输出状态,采用***的默认值即可。该制造领域加工过程的描述语句拆分后,将“H2”、“O2”和“H2O”标记为元件类,将“点燃”标记为状态类;该制造领域加工过程的描述语句拆分后有两种关系,如图2所示,把该加工过程描述语句拆分为两个元件之间的关系,即H2与H20之间的关系和02与H2O之间的关系。
在步骤S300中,将提取的词语与同义词词库中的子节点进行匹配,并根据匹配结果将提取的词语置换为所述同义词词库中的子节点所对应的主节点标准词。
根据制造领域加工过程的描述语句中语义在同义词词库中进行筛查并替换。由于很多语句的描述都不是标准的句式,尽管多数情况下技术人员输入了较为标准的操作流程语句,而且很多元件名词为有固定意义的名词,但是在描述过程中不免会有口语化的名词出现,或者同一个元件可能会有很多个名称,这多个名称中只有一个是国际通用的标准名称(以下简称为标准词)。为了更为准确的进行信息的匹配,本实施例中将制造领域加工过程的描述语句在同义词词库中进行同义词的置换,一般同义词词库里面多个同义词仅能匹配唯一的标准词。例如加热、加温等都是增加元件温度的一种说法,在此时就会通过同义词词库进行转换。例如六角螺母、防松螺母、开槽螺母等其实都属于六角螺母,通过同义词词库转换后,这些词均转化为六角螺母。
参见图3,图3是本发明实施例提供的一种基于制造领域的知识图谱构建方法的同义词词库结构示意图,在很多对金属的加工工艺操作中可能都会用到氢氧化钠这个化学品,但是这个化学品在不同行业或者不同的加工步骤中有很多不同的名称,比如烧碱、火碱、苛性钠等,但实际上它们是同一个东西。在步骤S300中,遇到这种多个同义词的情况,就需要进行同义词的置换,同义词词库中为该组名词定义的标准词是“氢氧化钠”,所以如果加工过程描述语句中有烧碱、火碱等用语的词语,都会被转换为“氢氧化钠”这个标准词来表达。
上述步骤S400包括以下子步骤:利用三元组建立相应的关系神经网络,将分类为元件类的词语作为实体以形成节点,将分类为状态类的词语作为状态以形成分节点,将分类为关系类的词语作为关系以形成传递线;具体的,
利用三元组建立相应的关系神经网络,元件词库里面的词语作为实体Entity,状态词库里面的词语作为状态State,关系词库里面的词语作为关系Relation,其中,实体作为节点Node,属性作为分节点,关系Relation作为传递线。
在数据库中建立相应的标准,进行字段的标注,元件为Element,其中分别单设子表,例如六角螺母不但为Element这个大类列表,同时它还属于该大类列表中的子分类:螺母。Element中包含字段Element_Id、Element_Value、Element_Features。其他分别设立属性Nature表和加工方法关系Method表。
构建的三元组结构主要通过图形数据库进行存储,同时建立Relation关系表,用于存储这些元件之间的关系,包含字段relation_id、relation_star和relation_end。把每一个加工过程描述语句转换构成的三元组结构关系存储到备用relation关系表中。一般地,默认将关系前的节点存储于relation_star字段中,关系后的节点存储于relation_end字段中,关系字段存储于relation_id字段中。
通过下面例子说明如何实现将制造领域加工过程的描述语句转换为知识表示。
例如制造领域加工过程语句描述:圆钢公差等级为IT12,表面粗糙度为30Ra/um通过粗车加工方式进行加工得到外圆表面加工制品。把它转化为三元组结构的方法的最小化三元组结构图,如图4所示,其中,把标识为元件的语句“圆钢”和“外圆表面加工制品”当做节点,“公差等级为IT12,表面粗糙度为30Ra/um”作为该“圆钢”节点的属性,“粗车”作为“圆钢”和“外圆表面加工制品”这两节点之间的关系连接。将该三元组结构存储于图数据库中,为后续生成知识图谱做准备。同时存储后备数据关系表,relation_star=圆钢,圆钢来自于元件Element表;relation_end=外圆表面加工制品,“外圆表面加工制品”也可以来源于元件Element表,如果此名词没有在Element里进行匹配,那就直接标记属性加入元件词库里面。“公差等级为IT12,表面粗糙度为30Ra/um”都是圆钢的属性,来源于状态词库里面,标记于该元件相应的属性字段中,同时该属性添加在关于圆钢的三元组结构的属性位置上。这相当于同时生成一个图数据结构和表数据的结构。其中,图形数据用于为后续的知识图谱的生成作准备,关系型数据表用于为后续数据库的扩充做准备。
根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;
上述待构建的制造领域的知识图谱的结构化数据可以通过二维表的形式来表示,如表1所示,为待构建的制造领域的知识图谱的部分结构化数据示例,分别为化工产品名称、关系和名称类别,此处的化工产品名称即为实体名称(为便于区分也可以称为第一实体名称)。
表1:待构建的制造领域的知识图谱的部分结构化数据表
化工产品名称 关系 中文名称
烧碱 中文名 氢氧化钠
火碱 中文名 氢氧化钠
液碱 中文名 液态氢氧化钠
熟石灰 中文名 氢氧化钙
苛性钾 中文名 氢氧化钾
钾灰 中文名 氢氧化钾
表1中除第一行外的每一行可以理解为一条数据。由于氢氧化钠和液态氢氧化钠这两个实体名称对应的为同一名称,因此在构建制造领域的知识图谱时应映射为同一实体。上述示例中的实体名称也可以理解为一种实体名称,由于不同实体名称代表不同的实体,因此可以将不同的化工产品名称识别为不同实体;但不同的中文名称可能对应于同一名称,将相似度较高的两个或两个以上中文名称识别为不同的实体,可能会导致构建的知识图谱不准确。
将第一实体名称与预设映射表中的第二实体名称进行比较,若确定预设映射表中存在与第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则将目标第二实体名称对应的基准实体名称作为第一实体名称对应的基准实体名称。
其中,预设映射表可以为一个二维表,具体来说可以包括两列,分别为第二实体名称所在的列和第二实体名称对应的基准实体名称所在的列。
表2所示为预设映射表的一种示例,如表2所示,该预设映射表在初始状态时包含三个第二实体名称及其对应的基准实体名称。
表2:预设映射表
第二实体名称 基准实体名称
氢氧化钠 BEN1
氢氧化钙 BEN2
以表1中第二行所代表的一条数据为例,将该条数据中的第一实体名称(即化工产品名称)与表2中所包括的三个第二实体名称分别进行比较,液态氢氧化钠与三个第二实体名称的相似度。其中,计算相似度的方式可以有多种,比如可以通过模糊匹配将第一实体名称进行标准化,进而将标准化后的第一实体名称与第二实体名称进行比较,从而得到第一实体名称与第二实体名称之间的相似度,从而使得匹配结果更加准确。
由此类推,第一实体名称为氢氧化钠,通过比较,能够确定在预设映射表中存在两个第二实体名称与第一实体名称的相似度大于第二预设阈值,通过选取其中相似度最大的第二实体名称作为目标第二实体名称,进而确定对应的目标第二实体名称为氢氧化钠,如此,可以将氢氧化钠所对应的基准实体名称(BEN2)作为氢氧化钠对应的基准实体名称。
若将第一实体名称与预设映射表中的每一个第二实体名称进行对比后,得到的相似度均小于第二预设阈值,则说明预设映射表中不存在目标第二实体名称,此时,可以生成第一实体名称对应的基准实体名称,并根据第一实体名称及其对应的基准实体名称对预设映射表进行更新,具体的更新方式可以为在预设映射表中***第一实体名称及其对应的基准实体名称。
能够确定在预设映射表中不存在与第一实体名称的相似度大于第二预设阈值的第二实体名称,此时,通过在预设映射表中***一行新的空映射关系表,将氢氧化钾***空映射关系表中的第二实体名称所在的列,对应地,将氢氧化钾对应的基准实体名称(BEN3)***空映射关系表中的基准实体名称所在的列,进而得到更新后的预设映射表。
表3:更新后的预设映射表
第二实体名称 基准实体名称
氢氧化钠 BEN1
氢氧化钙 BEN2
氢氧化钾 BEN3
进一步地,确定获取到多个第一实体名称对应的基准实体名称后,可以根据多个第一实体名称分别对应的基准实体名称对结构化数据进行更新,具体地,在待构建知识图谱的结构化数据中,使用多个第一实体名称分别对应的基准实体名称替换多个第一实体名称。
以表1中所示的结构化数据和表3所示的更新后的预设映射表为例,在结构化数据中***一个新列,该列可以为空的数据列,且可以***在结构化数据表格的任意位置,比如将新的数据列***第一实体名称右侧的位置,将结构化数据中第一实体名称所在的列删除,从而实现使用多个第一实体名称分别对应的基准实体名称替换多个第一实体名称,得到更新后的结构化数据,如表4所示。表4中的结构化数据将第一实体名称替换为对应的基准实体名称,从而可以直接用来构建制造领域的知识图谱,且构建的制造领域的知识谱图的质量高、准确性好。
Figure BDA0002484150410000101
根据更新后的结构化数据构建制造领域的知识图谱,能够避免将具有两个或两个以上相似实体名称的同一实体识别为两个或两个以上不同实体,相比于现有技术直接使用结构化数据构建制造领域的知识图谱来说,能够有效提高构建出制造领域的知识图谱的质量。
实施例二
图5是本发明实施例提供的一种基于制造领域的知识图谱构建***的结构示意图,参见图5,该***包括语句获取模块、语句拆分和分析模块、置换模块、三元组生成模块、构建模块和更新模块;其中,
所述语句获取模块用于获取制造领域加工过程的描述语句;
所述语句拆分和分析模块基于预先建立的知识词典对所述制造领域加工过程的描述语句进行语句拆分和语义分析以提取出相应的词语;
所述置换模块根据所述知识词典进行自动匹配以将所述词语进行分类;查询所述知识词典,将分类后的词语进行置换以获得该分类后的词语在知识词典中所对应的标准词;
所述三元组生成模块根据所述标准词生成三元组关系结构;
所述构建模块根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;
所述更新模块根据所述多个实体名称所对应的基准实体名称对所述结构化数据进行更新以获得所述制造领域的知识图谱。
本实施例中的基于制造领域的知识图谱构建***与上述实施例一的基于制造领域的知识图谱构建方法的工作过程基本一致,在此不再赘述。
本发明的有益效果:
本发明可以根据已有加工程序转化为一个或多个最小化的三元组结构,从而可以更为方便、精准地了解和获得工艺加工处理的优化方案;并且避免了由于工人经验不足导致的加工方法的低效,尽可能降低了工艺加工对于员工经验的要求度;而且,本发明的构建的制造领域知识图谱构建的效率高,成本较低,省时省力,所构建的制造领域的知识图谱准确性高。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于制造领域的知识图谱构建方法,该方法包括:
S100:获取制造领域加工过程的描述语句;
S200:基于预先建立的知识词典对所述制造领域加工过程的描述语句进行语句拆分和语义分析以提取出相应的词语;
S300:根据所述知识词典进行自动匹配以将所述词语进行分类;查询所述知识词典,将分类后的词语进行置换以获得该分类后的词语在知识词典中所对应的标准词;
S400:根据所述标准词生成三元组关系结构;
S500:根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;
S600:根据所述多个实体名称所对应的基准实体名称对所述结构化数据进行更新以获得所述制造领域的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述制造领域加工过程的描述语句包括元件、元件属性、加工过程和最终产品中的一项或多项。
3.根据权利要求1所述的方法,其特征在于,所述知识词典包括元件词库、状态词库、同义词词库和关系词库。
4.根据权利要求3所述的方法,其特征在于,所述步骤S200包括以下子步骤:
利用元件词库、状态词库和关系词库,对该制造领域加工过程的描述语句进行匹配,以提取出与元件、元件状态和关系相关的词语。
5.根据权利要求3所述的方法,其特征在于,所述步骤S300包括以下子步骤:
将提取出的词语与同义词词库中的子节点进行自动匹配,并根据匹配结果将提取的词语进行同义置换为所述同义词词库中的子节点所对应的主节点标准词。
6.根据权利要求1所述的方法,其特征在于,将所述词语分类为元件类、状态类或关系类。
7.根据权利要求6所述的方法,其特征在于,所述步骤S400包括以下子步骤:
利用三元组建立相应的关系神经网络,将分类为元件类的词语作为实体以形成节点,将分类为状态类的词语作为状态以形成分节点,将分类为关系类的词语作为关系以形成传递线。
8.根据权利要求1所述的方法,其特征在于,所述三元组结构包括图形数据结构和表数据结构。
9.根据权利要求1-8所述的方法,其特征在于,所述知识词典还包括临时词库,用于存储在元件词库、同义词词库、关系词库和状态词库中均无法查到的临时用词。
10.一种基于制造领域的知识图谱构建***,该***包括语句获取模块、语句拆分和分析模块、置换模块、三元组生成模块、构建模块和更新模块;其中,
所述语句获取模块用于获取制造领域加工过程的描述语句;
所述语句拆分和分析模块基于预先建立的知识词典对所述制造领域加工过程的描述语句进行语句拆分和语义分析以提取出相应的词语;
所述置换模块根据所述知识词典进行自动匹配以将所述词语进行分类;查询所述知识词典,将分类后的词语进行置换以获得该分类后的词语在知识词典中所对应的标准词;
所述三元组生成模块根据所述标准词生成三元组关系结构;
所述构建模块根据所述三元组关系结构获取待构建的制造领域的知识图谱的结构化数据,该结构化数据中包括多个实体名称;
所述更新模块根据所述多个实体名称所对应的基准实体名称对所述结构化数据进行更新以获得所述制造领域的知识图谱。
CN202010386990.2A 2020-05-09 2020-05-09 一种基于制造领域的知识图谱构建方法及*** Pending CN111563173A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010386990.2A CN111563173A (zh) 2020-05-09 2020-05-09 一种基于制造领域的知识图谱构建方法及***
PCT/CN2020/089698 WO2021226809A1 (zh) 2020-05-09 2020-05-12 一种基于制造领域的知识图谱构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010386990.2A CN111563173A (zh) 2020-05-09 2020-05-09 一种基于制造领域的知识图谱构建方法及***

Publications (1)

Publication Number Publication Date
CN111563173A true CN111563173A (zh) 2020-08-21

Family

ID=72072045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010386990.2A Pending CN111563173A (zh) 2020-05-09 2020-05-09 一种基于制造领域的知识图谱构建方法及***

Country Status (2)

Country Link
CN (1) CN111563173A (zh)
WO (1) WO2021226809A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559772A (zh) * 2020-12-29 2021-03-26 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
CN112836018A (zh) * 2021-02-07 2021-05-25 北京联创众升科技有限公司 应急预案的处理方法及装置
CN113191540A (zh) * 2021-04-23 2021-07-30 南京航空航天大学 一种产业链路制造资源的构建方法及装置
CN113434760A (zh) * 2021-06-25 2021-09-24 平安国际智慧城市科技股份有限公司 工法推荐方法、装置、设备及存储介质
CN113850454A (zh) * 2020-10-27 2021-12-28 上海飞机制造有限公司 基于工业神经网络的零件制造方法、装置、设备及介质
CN114722158A (zh) * 2022-06-01 2022-07-08 中科航迈数控软件(深圳)有限公司 一种基于主题词聚类的数控机床制造工艺匹配方法及***
CN115982386A (zh) * 2023-02-13 2023-04-18 创意信息技术股份有限公司 一种企业元数据解释的自动生成方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168608B (zh) * 2021-12-16 2022-07-15 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理***
CN115658911A (zh) * 2022-09-07 2023-01-31 中国标准化研究院 一种食品安全标准关联知识图谱构建方法及***
CN115905455B (zh) * 2022-12-31 2023-09-29 北京和兴创联健康科技有限公司 一种基于自动探测技术规范化医院数据库的方法
CN117236432B (zh) * 2023-09-26 2024-07-02 中国科学院沈阳自动化研究所 一种面向多模态数据的制造工艺知识图谱构建方法及***
CN117953532A (zh) * 2024-02-04 2024-04-30 北京城建信捷轨道交通工程咨询有限公司 轨道交通施工图人工智能审查方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145003A (zh) * 2018-08-24 2019-01-04 蜜小蜂智慧(北京)科技有限公司 一种构建知识图谱的方法及装置
CN109189946A (zh) * 2018-11-06 2019-01-11 湖南云智迅联科技发展有限公司 一种将设备故障语句描述转换为知识图谱表达的方法
CN110837568A (zh) * 2019-11-26 2020-02-25 精硕科技(北京)股份有限公司 实体对齐方法及装置、电子设备、存储介质
US20200073932A1 (en) * 2018-08-30 2020-03-05 Intelligent Fusion Technology, Inc Method and system for pattern discovery and real-time anomaly detection based on knowledge graph
CN110969008A (zh) * 2019-12-03 2020-04-07 北京中科院软件中心有限公司 一种将加工过程描述语句转换为三元组结构的方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145003A (zh) * 2018-08-24 2019-01-04 蜜小蜂智慧(北京)科技有限公司 一种构建知识图谱的方法及装置
US20200073932A1 (en) * 2018-08-30 2020-03-05 Intelligent Fusion Technology, Inc Method and system for pattern discovery and real-time anomaly detection based on knowledge graph
CN109189946A (zh) * 2018-11-06 2019-01-11 湖南云智迅联科技发展有限公司 一种将设备故障语句描述转换为知识图谱表达的方法
CN110837568A (zh) * 2019-11-26 2020-02-25 精硕科技(北京)股份有限公司 实体对齐方法及装置、电子设备、存储介质
CN110969008A (zh) * 2019-12-03 2020-04-07 北京中科院软件中心有限公司 一种将加工过程描述语句转换为三元组结构的方法及***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850454A (zh) * 2020-10-27 2021-12-28 上海飞机制造有限公司 基于工业神经网络的零件制造方法、装置、设备及介质
CN112559772A (zh) * 2020-12-29 2021-03-26 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
CN112559772B (zh) * 2020-12-29 2022-09-09 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
CN112836018A (zh) * 2021-02-07 2021-05-25 北京联创众升科技有限公司 应急预案的处理方法及装置
CN113191540A (zh) * 2021-04-23 2021-07-30 南京航空航天大学 一种产业链路制造资源的构建方法及装置
CN113434760A (zh) * 2021-06-25 2021-09-24 平安国际智慧城市科技股份有限公司 工法推荐方法、装置、设备及存储介质
CN114722158A (zh) * 2022-06-01 2022-07-08 中科航迈数控软件(深圳)有限公司 一种基于主题词聚类的数控机床制造工艺匹配方法及***
CN114722158B (zh) * 2022-06-01 2022-09-02 中科航迈数控软件(深圳)有限公司 一种基于主题词聚类的数控机床制造工艺匹配方法及***
CN115982386A (zh) * 2023-02-13 2023-04-18 创意信息技术股份有限公司 一种企业元数据解释的自动生成方法

Also Published As

Publication number Publication date
WO2021226809A1 (zh) 2021-11-18

Similar Documents

Publication Publication Date Title
CN111563173A (zh) 一种基于制造领域的知识图谱构建方法及***
CN110969008B (zh) 一种将加工过程描述语句转换为三元组结构的方法及***
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN113987212A (zh) 一种数控加工领域工艺数据的知识图谱构建方法
CN111858649B (zh) 一种基于本体映射的异构数据融合方法
US9489646B2 (en) Approach for intelligently parsing non-conformant encoded domain names and generating a conforming domain hierarchy
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN106528684B (zh) 一种建立工程材料数据库的方法及***
JP4862072B2 (ja) 設計チェック知識構築方法及びシステム
US8180808B2 (en) Spend data clustering engine with outlier detection
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
Betti et al. Expert concept-modeling ground truth construction for word embeddings evaluation in concept-focused domains
CN115858513A (zh) 数据治理方法、装置、计算机设备和存储介质
CN110795453A (zh) 一种基于关系数据库自动构建rdf的方法
Bhattacharjee et al. ETL based cleaning on database
Mambrini et al. The LiLa Lemma Bank: A Knowledge Base of Latin Canonical Forms
CN114997001B (zh) 一种基于替代模型和知识图谱的复杂机电装备性能评价方法
Pazos et al. Wizard for creating semantic views in a natural language interface to databases.
CN113609296B (zh) 用于舆情数据识别的数据处理方法和装置
US11704343B2 (en) Method and system for advanced adaptive database matching
CN115795057B (zh) 一种基于ai技术的审计知识处理方法与***
CN113360518B (zh) 一种基于多源异构数据的层次本体构造方法
CN113821618B (zh) 一种电子病历是否类细项提取方法与***
CN115934857A (zh) 一种适用于工程领域的数据资产分类管理与存储方法
Bao et al. System design for location name recognition in ancient local chronicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination