CN116467430B - 一种材料制备加工工艺信息文本挖掘方法及*** - Google Patents

一种材料制备加工工艺信息文本挖掘方法及*** Download PDF

Info

Publication number
CN116467430B
CN116467430B CN202310510440.0A CN202310510440A CN116467430B CN 116467430 B CN116467430 B CN 116467430B CN 202310510440 A CN202310510440 A CN 202310510440A CN 116467430 B CN116467430 B CN 116467430B
Authority
CN
China
Prior art keywords
entity
word
process action
level
word block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310510440.0A
Other languages
English (en)
Other versions
CN116467430A (zh
Inventor
宿彦京
王伟仁
姜雪
田少晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202310510440.0A priority Critical patent/CN116467430B/zh
Publication of CN116467430A publication Critical patent/CN116467430A/zh
Application granted granted Critical
Publication of CN116467430B publication Critical patent/CN116467430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种材料制备加工工艺信息文本挖掘方法及***,属于材料和计算机应用技术领域,能够实现工艺文本分类、工艺动作及参数实体识别、依存解析和数据依赖解析,形成包含材料名称、工艺动作和工艺参数的数据库;该方法包括:S1、选定单词级别和词块级别初始启动种子;S2、基于预定义词性规则在材料语料中匹配筛选获得单词级别和词块级别工艺动作实体集;S3、根据单词级别初始启动种子和工艺动作实体之间词向量相似度获得单词级别工艺动作词典;S4、利用词块级别初始启动种子和工艺动作实体集通过算法获得词块级别工艺动作词典;S5、对待处理新语料进行动作和参数的实体识别;S6、依存解析、依赖解析,并形成所需数据库。

Description

一种材料制备加工工艺信息文本挖掘方法及***
技术领域
本发明涉及材料和计算机应用技术领域,尤其涉及一种基于半监督学习的材料制备加工工艺信息文本挖掘方法及***。
背景技术
针对具有特定性质材料的探索需要结合实验、理论和计算等方法,材料的成分-工艺-结构-性质四大范式通常被认为是指导新材料设计的基本方针,其中的工艺信息是新材料探索过程中不可或缺的一环。
如今人工智能和机器学习技术已经引导着材料科学逐渐由传统的试错法向着数据驱动的方法进行转变,材料的合成制备工艺通过结合机器学习技术和自动机器人技术得到了迅速的发展。然而缺少高质量的数据极大地阻碍了人工智能和机器学习技术的施展。文本挖掘技术凭借着快速获取文献中数据和知识的能力逐渐受到大家的关注,通过预处理、段落分类、实体识别、依存解析等处理可以实现对科技文献中的目标数据进行自动抽取,从而为数据驱动的机器学习技术助力前行。
因此,非常有必要研究一种基于半监督学习的材料制备加工工艺信息文本挖掘方法及***,以便能够自动快速抽取材料科技文献中的工艺路线数据,为数据驱动的材料研发提供高质量大规模基础数据。
发明内容
有鉴于此,本发明提供了一种基于半监督学习的材料制备加工工艺信息文本挖掘方法及***,能够实现工艺文本分类、工艺动作及参数实体识别、依存解析和数据依赖解析,自动形成包含材料名称、工艺动作和工艺参数的数据库。
一方面,本发明提供一种材料制备加工工艺信息文本挖掘方法,所述方法的步骤包括:
S1、选取若干单词级别和词块级别的工艺动作实体作为单词级别初始启动种子和词块级别初始启动种子;
S2、基于预定义的单词级别词性规则和词块级别词性规则,在全部材料语料中进行匹配筛选,分别获得候选的单词级别工艺动作实体集和候选的词块级别工艺动作实体集;
S3、计算S1中各单词级别初始启动种子和S2中各候选的单词级别工艺动作实体之间的词向量相似度,并根据词向量相似度筛选,从而获得单词级别工艺动作词典;
S4、利用词块级别初始启动种子和候选的词块级别工艺动作实体集,通过multi-level bootstrapping算法获得词块级别工艺动作词典;
S5、针对待处理的新语料,进行工艺动作实体识别和工艺参数实体识别;
工艺动作实体识别的内容包括:利用S3和S4中获得的单词级别工艺动作词典和词块级别工艺动作词典并配合S2中的两种词性规则进行松弛匹配,实现工艺动作实体识别;
工艺参数实体识别的内容包括:利用预定义的工艺参数匹配规则进行工艺参数实体识别;
S6、对识别的工艺动作实体和工艺参数实体进行依存解析,获得工艺动作和工艺参数之间的关联信息;
S7、对S6得到的关联信息进行依赖解析,抽取对应的材料名称,形成包含材料名称、工艺动作和工艺参数的数据库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S1中单词级别和词块级别的工艺动作实体的数量均为10-20个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S3中计算词向量相似度并进行筛选的内容包括:
S31、利用现有的材料语料训练词向量模型;
所述词向量模型为Word2vec模型和FastText模型;
S32、利用训练好的词向量模型,计算每一个初始启动种子和每一个候选工艺动作实体的词向量相似度;
S33、针对每一个候选的工艺动作实体,若某一个初始启动种子的Word2vec词向量相似度大于第一阈值并且FastText词向量相似度大于第二阈值,则认为该初始启动种子与该候选工艺动作实体相似,否则不相似。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S3还包括:
S34、根据S32计算出的词向量相似度和S33中的判断结果,筛选出和2个及2个以上初始启动种子均相似的工艺动作实体;
S35、对S34筛选出的工艺动作实体进行经验性筛选,以进一步保证筛选出的工艺动作实体为真正的工艺动作实体,从而获得当前的单词级别工艺动作词典;同时将经验性筛选得到的工艺动作实体加入到单次级别初始启动种子中用于后续迭代,迭代结束后得到最终的单词级别工艺动作词典。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S4中通过multi-level bootstrapping算法获得词块级别工艺动作词典的步骤包括:
S41、针对S1中的词块级别初始启动种子,配合S2中的词块级别词性规则,在包含初始启动种子的语料中进行规则匹配;
S42、将能成功匹配词性规则的初始启动种子所在的上下文提取出来作为候选的句法模板;
S43、针对候选的句法模板,通过置信度计算得到所有句法模板的置信度,并将置信度最高的句法模板保存到特征模板集合中;
S44、针对特征模板集合中的句法模板,在全语料中搜索与句法模板存在上下文共现的词块级别工艺动作实体;
S45:计算词块级别工艺动作实体集中所有实体的置信度;
S46、根据S45得到的置信度,将置信度最高的词块级别工艺动作实体加入词块级别工艺动词词典中形成当前的词块级别工艺动词词典;同时将该词块级别工艺动作实体加入词块级别初始启动种子中用于后续迭代;迭代结束后得到最终的词块级别工艺动词词典。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S42中提取的上下文的窗口大小为2。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S43中置信度计算的公式为:
Ri=Fi/Ni (1)
Score(Patterni)=Ri*log2Fi (2)
其中,Patterni代表第i个句法模板,Fi代表被句法模板i所能抽取的初始启动种子的种类数目,Ni代表第i个句法模板能抽取词块级别工艺动作实体的种类数目,Ri代表第i个句法模板抽取相关信息的精度,Score(Patterni)平衡考虑了句法模板的实体抽取精度和与模板上下文共现的工艺动作实体数量;
步骤S45中词块级别工艺动作实体的置信度的计算公式为:
其中,Ni代表能抽取相应候选实体的特征模板数量,Countseed代表特征模板能抽取的种子数量,k是特征模板的权重值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S5中工艺动作实体识别的步骤包括:
S511:利用NLTK中的词性解析工具对待处理新语料进行词性解析;
S512:将S511的解析结果用于词性规则进行匹配,将成功匹配词性规则的实体进行保留以待下一步筛选;
S513:针对S512得到的实体,利用单词级别工艺动作实体词典和词块级别工艺动作实体词典进行松弛匹配;具体内容包括:首先将实体进行词性还原,若工艺动作实体词典中存在某一词块级别工艺动作实体是以目标实体结尾或者目标实体包含某一单词级别工艺动作实体,则认为匹配成功,将该实体识别为工艺动作实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S6的具体步骤包括:
S61、针对前面步骤得到的工艺动作实体和工艺参数实体,基于实体的词性在原始句子中利用标签进行替换;
S62、使用依存解析工具对标签替换后的句子进行解析,获得依存解析树和其中实体间的三元关系,从而得到结构化的数据集。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,步骤S7的具体步骤包括:
S71:通过表格解析获得同一文章中的材料成分;
S72:针对S6得到的关联信息,在相应工艺动作的前文中寻找材料名称,将寻找到的材料名称与相应的工艺动作和工艺参数进行匹配,形成包含材料名称、工艺动作和工艺参数的结构数据库。
另一方面,本发明提供一种材料制备加工工艺信息文本挖掘***,用于实现如上任一所述的基于半监督学习的材料制备加工工艺信息文本挖掘方法的步骤;所述***包括:
初始启动种子模块,用于存放单词级别初始启动种子和词块级别初始启动种子;
工艺动作词典模块,用于生成单词级别工艺动作词典和词块级别工艺动作词典,并保存;
实体识别模块,用于对待处理的新语料进行工艺动作实体识别和工艺参数实体识别;
解析模块,用于对实体识别模块识别的工艺动作实体和工艺参数实体进行依存解析,获得工艺动作和工艺参数之间的关联信息;并对该关联信息进行依赖解析,得到材料名称;
输出模块:用于形成包含材料名称、工艺动作和工艺参数的数据库并存储和输出。
与现有技术相比,上述技术方案中的一个技术方案具有如下优点或有益效果:本发明通过半监督的抽取算法获得工艺动作词典,通过词性解析、词性规则匹配和松弛匹配策略实现工艺动作实体的识别,通过基于规则的方法实现工艺参数的抽取,通过依存解析捕捉工艺动作和工艺参数之间的关系,通过依赖解析捕捉工艺动作和材料名称之间的关系,最终得到同一自然段中的相关工艺数据;
上述技术方案中的另一个技术方案具有如下优点或有益效果:本发明能同时形成工艺数据的挖掘软件***,支持图形化界面进行目标数据抽取,解决了自动阅读文献抽取数据的问题;
上述技术方案中的另一个技术方案具有如下优点或有益效果:本发明的方案全流程自动化,具有很强的可操作性和实用性。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例提供的材料工艺路线数据自动提取流程示意图;
图2是本发明一个实施例提供的半监督工艺动作词典生成流程示意图;
图3是本发明一个实施例提供的工艺动作实体识别流程示意图;
图4是本发明一个实施例提供的依存解析流程示意图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种基于半监督学习的材料制备加工工艺信息文本挖掘技术,具体包括如下步骤:
步骤1、根据专家经验分别提供工艺动作实体作为后续算法的初始启动种子;
该步骤的具体方法为:根据专家经验分别提供10-20个单词级别和词块级别的工艺动作实体作为算法的初始启动种子;
步骤2、利用所有材料文章中工艺自然段的语料训练词向量模型;
该步骤的具体方法为:利用所有材料文章中工艺自然段的语料分别训练Word2vec和FastText模型;所有材料文章是指发明人能够获得的所有的材料文章内容;
步骤3、利用词性解析器对材料全部工艺语料进行解析;
该步骤的具体方法为:利用NLTK中的词性解析器对材料全部工艺语料进行解析,获得各个词的词性标签;
步骤4、利用人工定义词性规则对全语料词性解析结果进行匹配,将能匹配成功的单词级别实体加入候选单词级别实体集,将匹配成功的词块级别实体加入候选词块级别实体集;
步骤5、基于初始种子和候选单词级别实体集,利用经过训练得到的两个词向量模型,计算每一个初始种子和每一个候选实体的词向量相似度;
该步骤的具体方法为:基于初始种子和候选单词级别实体集,利用在全部语料中经过训练得到的两个词向量模型,计算每一个初始种子和每一个候选实体的词向量相似度。针对每一个候选单词级别实体而言,若某一个初始种子的Word2vec词向量相似度大于w并且FastText词向量相似度大于fw,则认为这个初始种子与这个候选实体相似。w和fw的取值范围均为(0,1),w和fw朝着能同时获得更多工艺动作实体和更高精度词典的方向进行优化;
步骤6、对种子和候选实体的相似性计算结果进行筛选;
该步骤的具体方法为:针对上一步中全部的相似性计算结果,若存在2个以及2个以上初始种子和某个候选实体相似,那么这个候选实体将被保留以进行下一步的筛选;
步骤7、针对上一步筛选得到的相似候选实体,根据专家知识进一步的筛选,将其中真正属于工艺动作的实体保留下来并加入到初始种子中重复迭代运行;
步骤8、当没有新的单词级别工艺动作实体被推荐时,整个单词级别的工艺动词推荐流程停止,形成单词级别的工艺动作实体词典;
该步骤的具体方法为:从步骤5至步骤7进行反复迭代,当没有新的单词级别工艺动作实体被推荐时,整个单词级别的工艺动词推荐流程停止,采用现有已得到的单词级别工艺动作实体形成单词级别的工艺动作实体词典;
步骤9、利用初始提供的词块级别启动种子,配合人工预定义的词块级别词性规则,在包含初始启动种子的语料中进行规则匹配;
该步骤的具体方法为:针对专家提供的词块级别初始启动种子,配合人工预定义的词块级别词性规则,在包含初始启动种子的语料中进行规则匹配;
步骤10、将词块级别词性规则能成功匹配的上/下文部分(窗口大小为2)提取出来作为候选的句法模板;
步骤11、利用词块级别规则匹配得到的候选句法模板,通过置信度计算得到所有句法模板的置信度评分并筛选得到置信度最高的模板保存到特征模板集合中;
该步骤的具体方法为:针对步骤10得到的候选句法模板,通过以下置信度计算得到所有句法模板的置信度评分并筛选得到置信度最高的模板保存到特征模板集合中,每一轮算法迭代将更新特征模板集合。
Ri=Fi/Ni (1)
Score(Patterni)=Ri*log2Fi (2)
其中,Patterni代表所有候选句法模板中的第i个模板,Fi代表被模板i所能抽取的种子种类数目,Ni代表第i个模板能抽取词块级别实体种类数目,Ri代表第i个模板抽取相关信息的精度,Score(Patterni)表示置信度评分,其平衡考虑了模板的实体抽取精度和与模版上下文共现的工艺动作实体数量。
步骤12、基于上一步筛选得到的特征模板集合,在全语料中搜索与这些模板存在上下文共现的候选词块级别实体,特征模板可以作为前文或者后文出现在相应实体周围;
步骤13、针对前面已计算得到的特征模板的置信度,通过计算得到所有候选词块级别实体的置信度;
该步骤的具体方法为:针对上一步计算所得的特征模板置信度,根据以下公式计算步骤4所得所有候选词块级别实体的置信度:
其中,Patternk代表经过置信度筛选得到的特征模版中的第k个模板,Ni代表能抽取相应候选实体的特征模板数量,Countseed代表特征模板能抽取的种子数量,k是它的权重值,Score(Patternk)代表经过置信度筛选的第k个特征模版的置信度评分;
步骤14、针对筛选得到的实体以及相应的置信度,将置信度最高的词块级别实体保留下来并加入到种子词块实体集中迭代运行算法;
该步骤的具体方法为:针对上一步得到的实体以及相应的置信度,将置信度最高的词块级别实体保留下来并加入到种子词块实体集中迭代运行算法,当词块的最高置信度低于所设定的阈值Tc时流程停止,形成词块级别工艺动作词典。其中Tc的取值范围是(1,+∞),Tc朝着能同时获得更多工艺动作实体和更高精度词典的方向进行优化;
步骤15、针对要抽取工艺动作信息的新语料,利用NLTK中的词性解析工具进行词性解析,获得新语料中每个词对应的词性标签;
步骤16、将新语料的词性解析结果用于词性规则进行匹配,将成功匹配词性规则的实体进行保留以待下一步筛选;
步骤17、基于词性规则匹配得到的实体集,利用已有的单词级别和词块级别工艺动作实体词典进行松弛匹配进行识别;
该步骤的具体方法为:针对上一步得到的实体集,利用已有的单词级别和词块级别工艺动作实体词典进行松弛匹配:首先将实体进行词性还原,若词典中存在某一词块级别实体是以目标实体结尾或者目标实体包含某一单词级别实体,则认为匹配成功,即将目标实体识别为工艺动作实体;
步骤18、针对步骤15中要抽取工艺动作信息的新语料,利用人工预定义的工艺参数匹配规则进行实体识别,获得语料中所有的工艺参数;
步骤19、针对新语料中识别得到的工艺参数和工艺动作实体,基于它们的词性在原始句子中利用自定义的标签进行替换;
该步骤的具体方法为:针对得到的工艺参数和工艺动作实体,基于它们的词性在原始句子中利用标签进行替换:比如当词性为VBN或VBD,该实体被替换为“id+Ved”的形式,如“1Ved”。id指的是它在句子中出现的顺序。VBG实体用“id+Ving”代替,如“2Ving”。对于NP实体,其格式为“id+NP”,如“1NP”。
步骤20、基于标签替换之后的语料,使用依存解析工具对句子进行解析,为工艺动作和工艺参数建立关联;
该步骤的具体方法为:经过上一步的预处理后,使用Stanford CoreNLP中的依存解析工具对句子进行解析,以获得依存解析树和实体间的三元关系,从而得到结构化的数据集;
步骤21、通过表格解析获得同一文章中的材料成分;
步骤22、针对步骤8得到的关联数据,在相应工艺动作的前文中寻找出现的材料名称,将它与相应的工艺动作和工艺参数进行匹配,从而形成包含材料名称、工艺动作和工艺参数的结构数据库。该数据库还可以根据需要包含文献DOI和工艺自然段。
实施例1:
针对材料科学领域中的高温合金科技文献工艺路线数据自动抽取需求,提供一种基于文本挖掘的科技文献工艺路线数据自动抽取方法及***具体实施过程如下,流程如图1所示:
1)建立单词级别的工艺动作词典。具体地:
根据专家经验分别提供工艺动作实体作为后续算法的初始启动种子。利用所有高温合金文章中工艺自然段的语料训练词向量模型。利用词性解析器对高温合金全部工艺语料进行解析。利用人工定义词性规则对全语料词性解析结果进行匹配,如表1所示,将能成功匹配词性规则的工艺实体放入候选集中。利用预训练的Word2vec和FastText模型基于初始种子进行相似词推荐(w=0.46,fw=0.7),相似词与任意一个种子满足相似阈值时都视为该种子给它投了一票,统计所有相似词的票数之后,将满足票数阈值且存在于候选集中的单词级别实体给专家进一步筛选,将真实的工艺动作放回初始种子中进行新一轮的迭代推荐,直到算法无法推荐出新的工艺动作之后结束。
2)建立词块级别的工艺动作词典。利用人工预定义的词块级别词性规则在全部语料上进行匹配,如表1所示,将成功匹配词性规则的词块级别实体加入候选词块级别实体集,流程如图2(左)所示。专家初始提供一部分词块级别启动种子,在包含初始启动种子的语料中进行规则匹配;将词块级别的词性规则能成功匹配的上/下文部分(窗口大小为2)提取出来作为候选的句法模板;利用词块级别规则匹配得到的候选句法模板,通过置信度计算得到所有句法模板的置信度评分并筛选得到置信度最高的模板保存到特征模板集合中;基于上一步筛选得到的特征模板集合,在全语料中搜索与这些模板存在上下文共现的候选词块级别实体,特征模板可以作为前文或者后文出现在相应实体周围。针对上一步计算所得的特征模板置信度,通过计算得到所有候选词块级别实体的置信度(Tc=2,k=1);针对筛选得到的实体以及相应的置信度,将置信度最高的工艺词块级别实体保留下来并加入到种子词块实体集中迭代运行算法,如图2(右)所示。
表1:
3)工艺动作实体和参数实体识别。利用NLTK中的词性解析工具对要进行信息抽取的新语料进行词性解析,将解析结果用于词性规则进行匹配,基于成功匹配词性规则的实体,利用已有的单词级别和词块级别工艺动作实体词典进行松弛匹配:首先将实体进行词性还原,若词典中存在某一词块级别实体是以目标实体结尾或者目标实体包含某一单词级别实体,则认为匹配成功,即将目标实体识别为工艺动作实体,如图3所示;利用人工预定义的工艺参数匹配规则进行实体识别,从而获得语料中所有的工艺参数。
4)工艺动作和参数实体依存解析。针对得到的工艺参数和工艺动作实体,基于它们的词性在原始句子中利用标签进行替换:比如当词性为VBN或VBD,该实体被替换为“id+Ved”的形式,如“1Ved”。id指的是它在句子中出现的顺序。VBG实体用“id+Ving”代替,如“2Ving”。对于NP实体,其格式为“id+NP”,即“1NP”;之后对句子进行解析,以获得依存解析树和实体间的三元关系,从而得到结构化的数据集。在所有类型的关系中,Nsubj被定义为从主语到动词的关系,当动词属于动作实体时,它表示从样本到动作的关系。Obl被定义为从对象到动词的关系,当动词属于动作实体而对象属于参数实体时,它表示从参数到动作的关系,如图4所示。
5)成分表格解析。利用表格解析工具获得同一文章中的合金成分表格并抽取得到所有合金的名称;
6)工艺动作材料名称的依赖解析。基于文章表格中的合金名称,在相应工艺动作的前文中寻找第一个出现的合金名称,将它与相应的工艺动作和工艺参数进行匹配。若无法找到,文中成分表格中只有一个合金,那么直接默认该合金与所有抽取到的合成工艺动作相关联。
以上对本申请实施例所提供的一种基于半监督学习的材料制备加工工艺信息文本挖掘方法,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

Claims (9)

1.一种材料制备加工工艺信息文本挖掘方法,其特征在于,所述方法的步骤包括:
S1、选取若干单词级别和词块级别的工艺动作实体作为单词级别初始启动种子和词块级别初始启动种子;
S2、基于预定义的单词级别词性规则和词块级别词性规则,在全部材料语料中进行匹配筛选,分别获得候选的单词级别工艺动作实体集和候选的词块级别工艺动作实体集;
S3、计算S1中各单词级别初始启动种子和S2中各候选的单词级别工艺动作实体之间的词向量相似度,并根据词向量相似度筛选,从而获得单词级别工艺动作词典;
S4、利用词块级别初始启动种子和候选的词块级别工艺动作实体集,通过multi-levelbootstrapping算法获得词块级别工艺动作词典;
S5、针对待处理的新语料,进行工艺动作实体识别和工艺参数实体识别;
工艺动作实体识别的内容包括:利用S3和S4中获得的单词级别工艺动作词典和词块级别工艺动作词典并配合S2中的两种词性规则进行松弛匹配,实现工艺动作实体识别;
工艺参数实体识别的内容包括:利用预定义的工艺参数匹配规则进行工艺参数实体识别;
步骤S5中工艺动作实体识别的步骤具体为:
S511:利用NLTK中的词性解析工具对待处理新语料进行词性解析;
S512:将S511的解析结果用于词性规则进行匹配,将成功匹配词性规则的实体进行保留以待下一步筛选;
S513:针对S512得到的实体,利用单词级别工艺动作实体词典和词块级别工艺动作实体词典进行松弛匹配;具体内容包括:首先将实体进行词性还原,若工艺动作实体词典中存在某一词块级别工艺动作实体是以目标实体结尾或者目标实体包含某一单词级别工艺动作实体,则认为匹配成功,将该实体识别为工艺动作实体;
S6、对识别的工艺动作实体和工艺参数实体进行依存解析,获得工艺动作和工艺参数之间的关联信息;
S7、对S6得到的关联信息进行依赖解析,抽取对应的材料名称,形成包含材料名称、工艺动作和工艺参数的数据库。
2.根据权利要求1所述的材料制备加工工艺信息文本挖掘方法,其特征在于,步骤S1中单词级别和词块级别的工艺动作实体的数量均为10-20个。
3.根据权利要求1所述的材料制备加工工艺信息文本挖掘方法,其特征在于,步骤S3中计算词向量相似度并进行筛选的内容包括:
S31、利用现有的材料语料训练词向量模型;
所述词向量模型为Word2vec模型和FastText模型;
S32、利用训练好的词向量模型,计算每一个初始启动种子和每一个候选工艺动作实体的词向量相似度;
S33、针对每一个候选的工艺动作实体,若某一个初始启动种子的Word2vec词向量相似度大于第一阈值并且FastText词向量相似度大于第二阈值,则认为该初始启动种子与该候选工艺动作实体相似,否则不相似。
4.根据权利要求3所述的材料制备加工工艺信息文本挖掘方法,其特征在于,步骤S3还包括:
S34、根据S32计算出的词向量相似度和S33中的判断结果,筛选出和2个及2个以上初始启动种子均相似的工艺动作实体;
S35、对S34筛选出的工艺动作实体进行经验性筛选,以进一步保证筛选出的工艺动作实体为真正的工艺动作实体,从而获得当前的单词级别工艺动作词典;同时将经验性筛选得到的工艺动作实体加入到单次级别初始启动种子中用于后续迭代,迭代结束后得到最终的单词级别工艺动作词典。
5.根据权利要求1所述的材料制备加工工艺信息文本挖掘方法,其特征在于,步骤S4中通过multi-level bootstrapping算法获得词块级别工艺动作词典的步骤包括:
S41、针对S1中的词块级别初始启动种子,配合S2中的词块级别词性规则,在包含初始启动种子的语料中进行规则匹配;
S42、将能成功匹配词性规则的初始启动种子所在的上下文提取出来作为候选的句法模板;
S43、针对候选的句法模板,通过置信度计算得到所有句法模板的置信度,并将置信度最高的句法模板保存到特征模板集合中;
S44、针对特征模板集合中的句法模板,在全语料中搜索与句法模板存在上下文共现的词块级别工艺动作实体;
S45:计算词块级别工艺动作实体集中所有实体的置信度;
S46、根据S45得到的置信度,将置信度最高的词块级别工艺动作实体加入词块级别工艺动词词典中形成当前的词块级别工艺动词词典;同时将该词块级别工艺动作实体加入词块级别初始启动种子中用于后续迭代;迭代结束后得到最终的词块级别工艺动词词典。
6.根据权利要求5所述的材料制备加工工艺信息文本挖掘方法,其特征在于,步骤S43中置信度计算的公式为:
Ri=Fi/Ni (1)
Score(Patterni)=Ri*log2Fi (2)
其中,Patterni代表第i个句法模板,Fi代表被句法模板i所能抽取的初始启动种子的种类数目,Ni代表第i个句法模板能抽取词块级别工艺动作实体的种类数目,Ri代表第i个句法模板抽取相关信息的精度,Score(Patterni)平衡考虑了句法模板的实体抽取精度和与模板上下文共现的工艺动作实体数量;
步骤S45中词块级别工艺动作实体的置信度的计算公式为:
其中,Ni代表能抽取相应候选实体的特征模板数量,Countseed代表特征模板能抽取的种子数量,k是特征模板的权重值。
7.根据权利要求1所述的材料制备加工工艺信息文本挖掘方法,其特征在于,步骤S6的具体步骤包括:
S61、针对前面步骤得到的工艺动作实体和工艺参数实体,基于实体的词性在原始句子中利用标签进行替换;
S62、使用依存解析工具对标签替换后的句子进行解析,获得依存解析树以及其中实体间的三元关系,从而得到结构化的数据集。
8.根据权利要求1所述的材料制备加工工艺信息文本挖掘方法,其特征在于,步骤S7的具体步骤包括:
S71:通过表格解析获得同一文章中的材料成分;
S72:针对S6得到的关联信息,在相应工艺动作的前文中寻找材料名称,将寻找到的材料名称与相应的工艺动作和工艺参数进行匹配,形成包含材料名称、工艺动作和工艺参数的结构数据库。
9.一种材料制备加工工艺信息文本挖掘***,其特征在于,用于实现权利要求1-8任一所述的材料制备加工工艺信息文本挖掘方法的步骤;所述***包括:
初始启动种子模块,用于存放单词级别初始启动种子和词块级别初始启动种子;
工艺动作词典模块,用于生成单词级别工艺动作词典和词块级别工艺动作词典,并保存;
实体识别模块,用于对待处理的新语料进行工艺动作实体识别和工艺参数实体识别;
解析模块,用于对实体识别模块识别的工艺动作实体和工艺参数实体进行依存解析,获得工艺动作和工艺参数之间的关联信息;并对该关联信息进行依赖解析,得到材料名称;
输出模块:用于形成包含材料名称、工艺动作和工艺参数的数据库并存储和输出。
CN202310510440.0A 2023-05-08 2023-05-08 一种材料制备加工工艺信息文本挖掘方法及*** Active CN116467430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310510440.0A CN116467430B (zh) 2023-05-08 2023-05-08 一种材料制备加工工艺信息文本挖掘方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310510440.0A CN116467430B (zh) 2023-05-08 2023-05-08 一种材料制备加工工艺信息文本挖掘方法及***

Publications (2)

Publication Number Publication Date
CN116467430A CN116467430A (zh) 2023-07-21
CN116467430B true CN116467430B (zh) 2023-09-19

Family

ID=87173610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310510440.0A Active CN116467430B (zh) 2023-05-08 2023-05-08 一种材料制备加工工艺信息文本挖掘方法及***

Country Status (1)

Country Link
CN (1) CN116467430B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN113779995A (zh) * 2021-08-26 2021-12-10 北京科技大学 一种基于文本挖掘的科技文献数据自动抽取方法及***
CN114254653A (zh) * 2021-12-23 2022-03-29 深圳供电局有限公司 一种科技项目文本语义抽取与表示分析方法
CN115796157A (zh) * 2022-12-28 2023-03-14 智学慧教(湖北)教育科技有限公司 基于规则的领域词典构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026551B2 (en) * 2013-06-25 2015-05-05 Hartford Fire Insurance Company System and method for evaluating text to support multiple insurance applications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN113779995A (zh) * 2021-08-26 2021-12-10 北京科技大学 一种基于文本挖掘的科技文献数据自动抽取方法及***
CN114254653A (zh) * 2021-12-23 2022-03-29 深圳供电局有限公司 一种科技项目文本语义抽取与表示分析方法
CN115796157A (zh) * 2022-12-28 2023-03-14 智学慧教(湖北)教育科技有限公司 基于规则的领域词典构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
依存句法特征的科研命名实体识别算法;赵华茗;钱力;余丽;;图书情报工作(第11期);全文 *

Also Published As

Publication number Publication date
CN116467430A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN105868184B (zh) 一种基于循环神经网络的中文人名识别方法
CN111209738A (zh) 一种联合文本分类的多任务命名实体识别方法
CN110276069B (zh) 一种中国盲文错误自动检测方法、***及存储介质
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及***
CN110114776A (zh) 使用全卷积神经网络的字符识别的***和方法
CN110457690A (zh) 一种专利创造性的判断方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
Li et al. Publication date estimation for printed historical documents using convolutional neural networks
CN114860930A (zh) 一种文本分类方法、装置以及存储介质
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN111753088A (zh) 一种自然语言信息的处理方法
CN111324692A (zh) 基于人工智能的主观题自动评分方法和装置
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN111930937A (zh) 基于bert的智慧政务文本多分类方法及***
CN111400449A (zh) 一种正则表达式抽取方法及装置
CN114139537A (zh) 词向量的生成方法及装置
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN110705306B (zh) 一种作文文题一致性的测评方法
CN116467430B (zh) 一种材料制备加工工艺信息文本挖掘方法及***
CN115438655A (zh) 人物性别识别方法、装置、电子设备及存储介质
CN114298048A (zh) 命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant