CN110458397A - 一种核电材料服役性能信息提取方法 - Google Patents

一种核电材料服役性能信息提取方法 Download PDF

Info

Publication number
CN110458397A
CN110458397A CN201910604461.2A CN201910604461A CN110458397A CN 110458397 A CN110458397 A CN 110458397A CN 201910604461 A CN201910604461 A CN 201910604461A CN 110458397 A CN110458397 A CN 110458397A
Authority
CN
China
Prior art keywords
information
military service
material military
service performance
nuclear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910604461.2A
Other languages
English (en)
Inventor
刘啸天
张彦召
孙大健
张晏玮
薛飞
遆文新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China General Nuclear Power Corp
CGN Power Co Ltd
Suzhou Nuclear Power Research Institute Co Ltd
Original Assignee
China General Nuclear Power Corp
CGN Power Co Ltd
Suzhou Nuclear Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, CGN Power Co Ltd, Suzhou Nuclear Power Research Institute Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN201910604461.2A priority Critical patent/CN110458397A/zh
Publication of CN110458397A publication Critical patent/CN110458397A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种核电材料服役性能信息提取方法,包括以下步骤:步骤1:利用基于机器学习的信息清洗***和术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,得到清洗后的信息;步骤2:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,获得若干信息样本,再按照对应的排布规则对信息样本进行排序,获得样本库;步骤3:利用样本库进行机器学习而得到信息提取***,利用信息提取***处理清洗后的信息,得到所要提取的信息。本发明利用机器学习后的***实现对核电材料服役性能信息的提取,可以提高信息提取的效率和准确性,适用于核电厂中对各类与材料服役性能相关的信息的处理。

Description

一种核电材料服役性能信息提取方法
技术领域
本发明属于核电厂信息处理领域,具体涉及一种核电材料服役性能信息提取方法。
背景技术
核电厂的材料服役性能是关于核电厂运行的安全性、可靠性和经济性的研究内容,是核电领域重要的研究方向。进行相关研究所需的相关的数据,种类繁多,数量巨大。同时由于国内核电厂的建设、运行经历了从无到有的摸索过程,设备、材料的国产化程度也从低到高,所以整个过程中各种数据的记录方式并不统一,同时数据的产生、传递过程的巨大差别也造成了数据种类多,整体结构化程度低。
针对现状,需要一种可以适用于大量、低结构化程度数据的核电厂服役性能信息提取方法。核电材料服役性能相关的数据描述的专业性、对于同类问题描述的差异性较大,还可能存在不同的缩写、简写、不规范表达等情况,现有的通用文本挖掘和处理技术无法直接应用,且面对核电厂与材料服役性能相关数据中普遍的短文本等问题也存在根本上的技术障碍。故需要一套适用于核电材料服役性能信息特征的数据清洗、模型训练方法和信息提取方法。
发明内容
本发明的目的是提供一种适用于核电厂信息处理,能够提高准确性和效率的核电材料服役性能信息提取方法。
为达到上述目的,本发明采用的技术方案是:
一种核电材料服役性能信息提取方法,包括以下步骤:
步骤1:数据清洗:利用基于机器学习的信息清洗***和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息;
步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项所述信息样本进行排序,从而获得样本库;
步骤3:信息提取:利用所述样本库进行机器学习而得到用于提取信息的信息提取***,利用所述信息提取***处理清洗后的信息,从而得到所要提取的信息
所述步骤1中,所述信息清洗***进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用所述核电材料服役性能专用术语集和所述惯用表达规则表进行机器学习而得到所述信息清洗***。
所述步骤2包括以下子步骤:
子步骤a:目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息;
子步骤b:确定分类方法:针对各类所述待处理的信息,确定其对应的分类原则和/或阈值;
子步骤c:人工标记:对各类所述待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得所述信息样本;
子步骤d:样本排布:依据选定的排布规则将各项所述信息样本进行排序,从而获得所述样本库。
所述子步骤a中,筛选出的所述待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论。
所述子步骤b中,依据所述待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值。
所述子步骤c中,随着分类标记的进行而优化所述标记原则。
所述子步骤d中,以提高机器学习的准确性为目标而选定所述排布规则。
所述步骤3中,采用通过所述样本库优化后的基于预训练的双向编码器表征方案,来进行机器学习。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:本发明利用机器学习后的***实现对核电材料服役性能信息的提取,可以提高信息提取的效率和准确性,适用于核电厂中对各类材料服役性能相关信息进行处理。
具体实施方式
下面结合实施例对本发明作进一步描述。
实施例一:一种核电材料服役性能信息提取方法,包括以下步骤:
步骤1:
数据清洗:利用基于机器学习的信息清洗***和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息。
在该步骤中,信息清洗***进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用核电材料服役性能专用术语集和惯用表达规则表进行机器学习而得到信息清洗***。进而利用信息清洗***对由核电厂获取的各类信息,即原始数据进行处理,提取主题词和表达,将简写、缩写等标准化,并判断可能的笔误、遗漏等,从而提高信息的规范化程度和可用度。
步骤2:
建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项信息样本进行排序,从而获得样本库。
该步骤具体包括以下子步骤:
子步骤a:
目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息。筛选出的待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论等。
子步骤b:
确定分类方法:针对各类待处理的信息,依据待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值,其中阈值针对存在可量化数据的待处理的信息。例如,对于核电厂运行经验反馈等价值密度较低数据,其分类原则应尽可能普适,提高其可操作性,一般只注重其定性分类;对于机理分析数据、专项评估数据等高价值密度数据,应尽量提取其专业特征并充分利用可定量的特征以提高其与材料服役性能表征之间的相关性。
子步骤c:
人工标记:对各类待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得信息样本。在人工标记过程中,首先,需要确定所需的人工标记资质,例如工作年限、专业、标记一致性等,并且需随着分类标记的进行而优化标记原则,通过有效的可追溯记录以及有反馈的优化体系保证其标记的持续有效性。在标记初期,可通过先验知识制定初始的标记原则,并通过渐进明细的方式不断优化标记原则来逼近其不同特征真实区别。对于标记原则的优化应反映至整个待标记的数据样本上,不断提升整个标记数据样本的价值。
子步骤d:
样本排布:以提高机器学习的准确性为目标而选定排布规则,依据选定的排布规则将各项信息样本进行排序,从而获得样本库。该子步骤中,对于子步骤c中人工标记后的信息样本,需要针对机器学习特点以及数据特点,确定其排布规则,以便提高利用其进行机器学习的准确性。例如通过不同的表达精度、覆盖度等进行合理排序,以充分利用标记后的数据价值。
步骤3:
信息提取:利用样本库进行机器学习,针对核电材料服役性能相关数据的特点,采用不同于传统技术的基于预训练的双向编码器表征,并使用步骤2中的样本库对其进行针对性优化,使之适用于核电厂的与材料服役性能相关信息的机器学习过程,而得到专门用于提取与材料服役性能相关信息的信息提取***,利用信息提取***处理清洗后的信息,从而得到所要提取的信息。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种核电材料服役性能信息提取方法,其特征在于:所述核电材料服役性能信息提取方法包括以下步骤:
步骤1:数据清洗:利用基于机器学习的信息清洗***和为提取材料服役性能相关信息所专门建立的术语集与表达规则表,对由核电厂获取的各类与材料服役性能相关的信息进行处理,从而得到清洗后的信息;
步骤2:建模:采用人工方法对部分由核电厂获取的各类与材料服役性能相关的信息进行分类标记和信息提取,从而获得满足数量要求的若干项信息样本,再按照对应的排布规则对各项所述信息样本进行排序,从而获得样本库;
步骤3:信息提取:利用所述样本库进行机器学习而得到用于提取信息的信息提取***,利用所述信息提取***处理清洗后的信息,从而得到所要提取的信息。
2.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤1中,所述信息清洗***进行机器学习的方法为:建立核电材料服役性能专用术语集以及惯用表达规则表,利用所述核电材料服役性能专用术语集和所述惯用表达规则表进行机器学习而得到所述信息清洗***。
3.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤2包括以下子步骤:
子步骤a:目标信息筛选:按照与材料服役性能的相关性强弱,从部分由核电厂获取的各类与材料服役性能相关的信息中筛选出若干类待处理的信息;
子步骤b:确定分类方法:针对各类所述待处理的信息,确定其对应的分类原则和/或阈值;
子步骤c:人工标记:对各类所述待处理的信息,依据其对应的分类原则和/或阈值结合指定的标记原则进行人工分类标记和信息提取,从而获得所述信息样本;
子步骤d:样本排布:依据选定的排布规则将各项所述信息样本进行排序,从而获得所述样本库。
4.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤a中,筛选出的所述待处理的信息包括核电厂设备材料/机理分析数据、核电厂运行经验反馈信息、设备专项评估结论和审查结论。
5.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤b中,依据所述待处理信息的价值密度、获取形式、与材料服役性能表征之间的关系,确定其对应的分类原则和/或阈值。
6.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤c中,随着分类标记的进行而优化所述标记原则。
7.根据权利要求3所述的一种核电材料服役性能信息提取方法,其特征在于:所述子步骤d中,以提高机器学习的准确性为目标而选定所述排布规则。
8.根据权利要求1所述的一种核电材料服役性能信息提取方法,其特征在于:所述步骤3中,采用通过所述样本库优化后的基于预训练的双向编码器表征方案,来进行机器学习。
CN201910604461.2A 2019-07-05 2019-07-05 一种核电材料服役性能信息提取方法 Pending CN110458397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910604461.2A CN110458397A (zh) 2019-07-05 2019-07-05 一种核电材料服役性能信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910604461.2A CN110458397A (zh) 2019-07-05 2019-07-05 一种核电材料服役性能信息提取方法

Publications (1)

Publication Number Publication Date
CN110458397A true CN110458397A (zh) 2019-11-15

Family

ID=68482214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910604461.2A Pending CN110458397A (zh) 2019-07-05 2019-07-05 一种核电材料服役性能信息提取方法

Country Status (1)

Country Link
CN (1) CN110458397A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取***及方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN107944454A (zh) * 2017-11-08 2018-04-20 国网电力科学研究院武汉南瑞有限责任公司 一种针对变电站的基于机器学习的语义标注方法
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和***
CN109885607A (zh) * 2019-01-11 2019-06-14 中广核工程有限公司 一种工业海量非结构化数据处理方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取***及方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN107944454A (zh) * 2017-11-08 2018-04-20 国网电力科学研究院武汉南瑞有限责任公司 一种针对变电站的基于机器学习的语义标注方法
CN109885607A (zh) * 2019-01-11 2019-06-14 中广核工程有限公司 一种工业海量非结构化数据处理方法及***
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
袁长江,戴永: "核电厂调试试验信息化与结构化方法研究", 《中国核电》 *
高扬: "《智能摘要与深度学习》", 30 April 2019, 北京:北京理工大学出版社 *

Similar Documents

Publication Publication Date Title
CN102662930B (zh) 一种语料标注方法及装置
LaPorte et al. What is the Leninist legacy? Assessing twenty years of scholarship
CN109492549A (zh) 一种训练样本集处理、模型训练方法及***
CN110222715B (zh) 一种基于动态行为链和动态特征的样本同源分析方法
CN106503074B (zh) 一种题目细化分类方法
CN1806501B (zh) 海洋浮游植物自动识别方法及装置
CN107103005A (zh) 问答语料的收集方法及装置
Yang et al. A CNN-based active learning framework to identify mycobacteria in digitized Ziehl-Neelsen stained human tissues
CN109634994A (zh) 一种简历与职位的匹配推送方法及计算机设备和存储介质
CN110458397A (zh) 一种核电材料服役性能信息提取方法
Forghani et al. Critical technical design principles for maximizing the reuse of building components
CN116229278A (zh) 一种输电线路防震锤锈蚀缺陷检测方法和***
CN106528412B (zh) 一种安卓应用的相关手势投放测试框架
CN113377962B (zh) 一种基于图像识别和自然语言处理的智能过程模拟方法
Tafelmaier et al. Methods for the analysis of stone artefacts: An overview
Sekiya et al. Investigation on university websites for semi-automated syllabus crawling
CN110175177A (zh) 基于建筑信息模型的数据处理方法
Paris et al. Novel uses of task models: two case studies
Jang et al. Using machine learning to understand students’ learning patterns in simulations
Vooijs et al. CytosafePLUS A Workstation for Screening, Supervision, Reviewing, Quality Assurance and Education in Cytopathology
Tscheliesnig et al. Inspection of flat-bottomed storage tanks by acoustical methods; classification of corrosion related signals
Humble et al. Learning Analytics For Programming Education: Obstacles And Opportunities
Ani Empirical analysis on factors affecting the Employee Retention practices in the private Organizations: A survey in Bangladesh
CN113344114A (zh) 一种人工智能模型训练***及训练方法
CN117133010A (zh) 一种面向焊接坡口示意图的坡口尺寸信息自动解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115

RJ01 Rejection of invention patent application after publication