CN113468890B - 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 - Google Patents

基于nlp信息萃取与词性规则的沉积学文献挖掘方法 Download PDF

Info

Publication number
CN113468890B
CN113468890B CN202110818775.XA CN202110818775A CN113468890B CN 113468890 B CN113468890 B CN 113468890B CN 202110818775 A CN202110818775 A CN 202110818775A CN 113468890 B CN113468890 B CN 113468890B
Authority
CN
China
Prior art keywords
text
representing
entity
download
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110818775.XA
Other languages
English (en)
Other versions
CN113468890A (zh
Inventor
胡志臣
许小龙
胡祥奔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110818775.XA priority Critical patent/CN113468890B/zh
Publication of CN113468890A publication Critical patent/CN113468890A/zh
Application granted granted Critical
Publication of CN113468890B publication Critical patent/CN113468890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于NLP信息萃取与词性规则的沉积学文献挖掘方法,步骤1:根据最低流量限制和期望下载时间预期值,对相关文件进行下载;步骤2:根据机器视觉,对文本内容进行识别;步骤3:分析文档上下文语段,获取语句文本中自定义多类实体关键词词典列表;步骤4:采用余弦相似度测量分析技术,根据关键词种类,对文本中相同词性关键词进行识别,生成非结构化多分类文本;步骤5:对分类实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;步骤6:针对步骤5生成大样本数据集和步骤3需要识别文献文本,利用双向长短期记忆神经网络模型结合条件随机场进行实体识别,实现对所需实体的识别,筛选出文本中实体进行存储。

Description

基于NLP信息萃取与词性规则的沉积学文献挖掘方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及基于NLP信息萃取与词性规则的沉积学文献挖掘方法。
背景技术
自然语言处理是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科,自然语言处理技术逐渐渗透到各行各业用于文本数据挖掘和信息存储。当前,大量的企业和组织将与日俱增的数据信息完全或者部分通过自然语言处理技术,筛选出有价值的核心热点,以降低检索时间并提高分析信息能力。从命名实体识别的角度来看,在满足将对非结构化文本分析和理解的同时,需要保证数据的可扩展性。沉积学领域中对文本数据分析量的不断增加,特别是在大数据时代,数据挖掘处理需要学习分析海量的标签数据集。为了应对与日俱增的分析需求,沉积学领域需要领域专家建立庞大的规则模板和词典。当前沉积学领域普遍依赖人工标注文本信息,人工标注会消耗大量时间,影响数据时效性,制约了信息化产业的动态发展。
为了应对沉积学领域节约时间开销的迫切需求,在自然语言处理支撑的文本数据中,如何实现面向异构数据源的文本信息挖掘方法是工业界和学术界关注的热点。通过命名体识别,可以实现文本关键信息的筛选。而词性分析技术的发展则推动文本数据的高效处理能力。通过词性分析,可以实现关键信息的自定义,从而减少数据中干扰信息数量,降低数据集生成过程中,多路匹配所产生的标签噪音。但是,在词性分析过程中,除了标准文本读取文字产生的误差之外,还需要综合考虑词性规则所引起的噪声冲突。因此,需要设计合理的词性分析技术,实现文本数据的命名体识别。
文本信息萃取技术已经广泛应用于文本数据挖掘和存储。通过词性分析技术可以实现对不同关键词热点的信息筛选。例如文献“N.Piazza,Classification BetweenMachine Translated Text and Original Text By Part Of Speech TaggingRepresentation,2020 IEEE 7th International Conference on Data Science andAdvanced Analytics(DSAA),Sydney,NSW,Australia,2020,pp.739-740.”主要运用词性标签创建一个具有BIO字母的频率概率分布模型,减少数据词典的使用。文献“F.Hussain,U.Qamar and S.Zeb,A Novel Approach for Searching Linguistic Synonyms throughParts of Speech Tagging,2016 IEEE/WIC/ACM International Conference on WebIntelligence(WI),Omaha,NE,USA,2016,pp.465-468,doi:10.1109/WI.2016.0076.”提出一种面向开放文本数据的词性标记方法,是面向短文本数据,通过同义词标注实现了相近文本语句的信息萃取。当前的词性分析忽略了在专业领域数据挖掘过程中价值信息的识别。随着词性分析技术的广泛应用,领域的文本产生热点的数据日益增长,将会对构建领域数据集标签带来技术挑战。因此,需要设计基于基于关键词语和可扩展词性的文本挖掘方法,以实现文本数据动态萃取。
发明内容
本发明针对沉积学领域标注数据时耗日益突出的特点,提供基于NLP信息萃取与词性规则的沉积学文献挖掘方法,适用于异构数据的信息获取工作。
为实现上述目的,本发明采用以下技术方案:
基于NLP信息萃取与词性规则的沉积学文献挖掘方法,
步骤1:根据最低流量限制和期望下载时间的预期值,利用RPA分布式读取网站中包含有关沉积学内容的文件进行下载;
步骤2:根据机器视觉,识别步骤1中下载的文件,从而获取内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到文档的物理结构和逻辑结构,并对文本内容进行识别;
步骤3:分析文本内容上下文语段,获取文本内容中自定义多类实体关键词的词典列表;
步骤4:利用步骤2获取的文本内容和步骤3获得的词典列表,采用余弦相似度测量分析技术,根据实体关键词种类,对文本内容中相同词性的实体关键词进行识别,生成非结构化多分类文本;
步骤5:利用步骤4输出的非结构化多分类文本,对分类的实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;
步骤6:针对步骤5生成的大样本数据集,利用BiLSTM结合CRF进行NER预训练,实现对步骤2文档中可读性文本内容进行实体识别,从而根据上下文筛选实体关键词。
为优化上述技术方案,采取的具体措施还包括:
进一步地,当任务请求网络服务***进行文件下载时,网络平台产生一条访问请求记录,该记录包含本地网络IP地址和期望下载时间,利用RPA的无侵入特性接入通讯***提供对相关沉积学研究内容热点进行交叉访问,将多路IP地址交叉复制到服务器中;
当服务器在任意时段收到一个下载请求时,计算出单个下载任务响应时间T为:
T=tdeparture-tarrival
式中,tdeparture代表请求到达时间,tarrival代表请求完成时间,其中单个下载任务响应时间T的指数随机变量为e.r.v,e代表在单个下载任务响应时间T下所期望下载时间的预期值,r代表服务器下载流量占总带宽的比例,v代表下载热点的速度;
当下载请求申请成功,对下载热点进行交叉访问时,对任意一段时间x≤TimeN≤y内进行下载请求,下载请求的响应时间为βn,因此,下载请求的最小响应时间β(x,y)的表达式为:
Figure BDA0003171124530000031
式中,x为最低下载时间,y为最高下载时间,TimeN为在此时间段内的任意下载时间;在单个下载任务响应时间T下所期望下载时间的预期值E[T(r,t)]的表达式为:
Figure BDA0003171124530000032
式中,β(t+1,1/r)代表在t+1的时间到1/r的时间内的最小响应时间,μ表示在不同的下载请求指令和服务器之间的响应速率,E[T(r,t)]与e均代表在单个下载任务响应时间T下所期望下载时间的预期值;
选择满足预期值E[T(r,t)]的服务IP地址进行多路下载。
进一步地,关于对文本内容进行识别的具体内容为:
利用机器视觉识别文档,在文档中(xnn,ynn)代表字符左上角坐标、(xnm,ynm)代表字符右下角坐标;在物理结构中(xmn,ymn)代表字符左上角坐标,(xmm,ymm)代表字符右下角坐标;计算字符之间的间距面积Xoverlap和物理设定的阈值面积Yoverlap的表达式如下:
Xoverlap=max(0,min(xnm,xmm)-max(xnn,xmn));
Yoverlap=max(0,min(ynm,ymm)-max(ynn,ymn));
式中,min(xnm,xmm)代表选取字符边框的左上角坐标最小值,max(xnn,xmn)代表选取字符边框的右下角坐标最大值,min(xnm,xmm)-max(xnn,xmn)代表字符边框对角线值;min(ynm,ymm)代表选取字符物理结构边框的左上角坐标最小值,max(ynn,ymn)代表选取字符物理结构边框的右下角坐标最大值,min(ynm,ymm)-max(ynn,ymn)代表字符边框对角线值;
根据Xoverlap和Yoverlap从而得到最大字符结构化区域面积Soverlap,表达式如下:
Soverlap=Xoverlap×Yoverlap
由于字符结构化面积Soverlap远小于物理结构面积,比较重叠面比例Ratiooverlap将文字进行聚类,将单词聚类为句子,句子组成为段落,从而读取文本内容,其中重叠面比例Ratiooverlap将表达式如下:
Figure BDA0003171124530000041
式中,xnn代表文档中字符左上角的x轴坐标,xnm代表文档中字符右下角的x轴坐标,ynn代表文档中字符左上角的y轴坐标,ynm代表文档中字符右下角的y轴坐标。
进一步地,分析文本内容上下文语段,获取文本语句中自定义多类实体关键词的词典列表,并整合成词典列表数据集ER={er1,er2,...,erN},其中,er1表示第一个种类的实体关键词词典列表,er2表示第二个种类的实体关键词词典列表,erN表示第N个种类的实体关键词词典列表;
实体关键词词典列表的种类记录是一个多属性元组,ER中第n个种类的实体关键词词典列表的元组表示为ern=(timn,geon,natn,orgn,pern),其中1≤n≤N,其中timn代表实体关键词存在时间,geon代表所发现实体关键词的地理位置,natn代表ern中对应的实体关键词名称,orgn代表发现实体关键词的组织,pern代表该实体关键词的发现者。
进一步地,利用大型文本语料库计算文本内容和术语之间的关系概率,设定意义相同的词为同种词性;
使用余弦相似度测量,将给定的实体关键词词典列表在大型文本语料库进行文本挖掘,确定实体关键词的语义接近度与词向量;ern在词向量中表示为vcn=(B-vcn,I-vcn),其中B-vcn代表多属性元组在词向量空间的开头位置,I-vcn代表多属性元组在词向量空间中间位置,并利用正则表达式扩充ern属性元组与英文字符[A-Z]以及数字字符[0-9]的表现形式;
余弦相似度cos(θ)值计算表达式如下:
Figure BDA0003171124530000042
式中,vci表示在总数m为个词向量中的第i个词向量变量,wci表示在总数为m个文本句短语词向量中的第i个文本句短语词向量变量;当余弦相似度cos(θ)值为1时,表示能够在vci所对应的实体关键词词典列表中找到wci所对应的文本语料库所需要的词语,从而实现实体关键词词典列表的挖掘;
实体关键词词典列表经过文本语料库挖掘后,再对文本内容进行抽取相关内容从而生成非结构化多分类文本。
进一步地,将非结构化多分类文本的文本语句与ern进行分类匹配,若文本语句无法匹配ern,则表示为O;
将ern中所有多分类结构子集匹配对应的文本语句实体集合表示为ERn={B-ern,O,I-ern},从而生成带有标签BIO的训练数据集。
进一步地,将crf作为BiLSTM的输出层,对于每个输入标签ERn终会得到与之对应的输出标签PLn,预测输入ERn的连续正确的概率为Score(ERn,PLn),Score(ERn,PLn)的表达式如下:
Figure BDA0003171124530000051
式中,R表示训练数据集中总数为R个标签,
Figure BDA0003171124530000056
为对于第i个输入标签ERi输出为PLi的概率,A(PLi,PLi+1)为从PLi到PLi+1的转移概率;
求出所有输入标签ERn的连续正确概率Score(ERn,PLn),利用维特比算法对输入标签ERn及输出标签PLn进行概率归一化处理P(PLn|ERn),从而完成与训练并挖掘文本数据,其中概率归一化处理P(PLn|ERn)表达式如下:
Figure BDA0003171124530000052
式中,
Figure BDA0003171124530000053
表示预测第i个输入标签ERi的连续正确概率的指数值,/>
Figure BDA0003171124530000054
表示为对于第i个输入标签ERi,得到错误的输出标签率,/>
Figure BDA0003171124530000055
表示错误预测输入标签ERi的连续概率的指数值。
本发明的有益效果是:
1:在多路IP地址交叉配置在服务器过程中,下载文本数据情况,更加贴切实际中最低流量限制和期望下载时间。
2:文本内容识别过程中,采用启发式的方法进行目标文本的选择,提高文字识别准确率,能够更快速、便捷地寻找到识别目标。
3:在关键词词性分析中,优先将词性规则结合关键词字典列表,有利于提升整体的沉积学关键词挖掘效率,减少人工标注所带来的时间成本。
4:在针对沉积学数据集进行数据挖掘过程中,采用双向长短期神经网络并结合条件随机场,提升沉积学文献挖掘策略设计的准确率,降低由于数据集错误标签所带来的识别噪音。
附图说明
图1是本发明整体工作步骤流程图。
图2是本发明在BiLSTM模型结合条件随机场CRF中训练集测试的准确率。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
本发明公开了基于NLP(Nature language processing,NLP)信息萃取与词性规则的沉积学文献挖掘方法,包括以下步骤:步骤1:根据最低流量限制和期望下载时间预期值,利用机器人流程自动化(Robotic Process Automation,RPA)分布式读取网站中包含有关沉积学内容的研究及会议文件;步骤2:根据机器视觉,识别步骤1文件,从而获取内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到文档的物理结构和逻辑结构;步骤3:分析文档上下文语段,获取语句文本中自定义多类实体关键词词典列表;步骤4:利用步骤2获取的文档文件和步骤3获得的关键词词典,采用余弦相似度测量分析技术,根据关键词种类,对文本中相同词性关键词进行识别,生成非结构化多分类文本;步骤5:利用步骤4输出的非结构化多分类文本,对分类实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;步骤6:针对步骤5生成大样本数据集和步骤3需要识别文献文本,利用双向长短期记忆神经网络模型(Biomedical Long Short-Term Memory,BiLSTM)结合条件随机场(Conditional Random Field,CRF)进行命名体识别(NamedEntity Recognition,NER),实现对所需实体的识别,筛选出文本中实体进行存储。
本发明提出的基于NLP信息萃取与词性规则的沉积学文献挖掘方法包括下述步骤,流程如图1-2所示:
步骤1:从最低流量限制MF和期望下载时间ET的预期值,利用RPA分布式读取网站中包含有关沉积学内容的研究及会议文件。
当任务请求网络服务***进行文件下载时,网络平台将产生一条访问请求记录,该记录包含本地网络地址和期望下载时间,在已有的网络服务***可用性代码,分析分布式存储和期望下载时间的基础上,利用RPA可无侵入式接入通讯***并对相关沉积学研究内容热点进行交叉访问,将多路IP地址交叉复制到服务器中,其多路IP集合记作LR={lr1,lr2,…,lrN},其中,N代表LR中交叉IP的数量。
当服务器在任意时段收到一个下载请求时,结合请求资源大小和当前带宽拥挤程度,计算出最低流量限制,如公式(1)所示,其中T为单个下载任务响应时间,tdeparture代表请求到达时间,tarrival代表请求完成时间。最低流量限制影响请求到达时间和请求完成时间,在最低流量限制下单个下载任务的响应时间最长,且最低流量限制默认为,满足网站文件最低下载需求的宽带流量,最低流量限制在任何时间点最低能包含一个下载任务请求;
T=tdeparture-tarrival (1)。
当请求申请成功时,对下载热点进行交叉访问。T被假定为独立的,并且在不同的请求和服务器之间假定响应速率为μ,其指数随机变量为e.r.v,即T=(e*r)/v,其中e代表下载时间预期值,r代表下载服务器下载流量占总带宽比例,v代表下载热点文件的速度,如公式(2)所示,对任意一段时间内下载请求x≤TimeN≤y,其响应内下载时间为βn,其中x为最低下载时间,y为最高下载时间,最低下载时间x为最高宽带服务时对所需下载请求用时最少的时间,且满足服务器安全不会因为请求时间过短而停止下载服务,最高下载时间y为服务器对下载请求最长的响应时间,且服务器安全不会因为下载时间过长出现服务超时而暂停下载服务,TimeN为在此时间段内的任意下载时间,因此,请求内最小响应时间β(x,y)
Figure BDA0003171124530000071
其中
Figure BDA0003171124530000072
为最低下载时间x和最高下载时间y,在0到1范围内关于下载速度进行积分,其中假设最快速度为1即100%,最慢速度为0,从求出最小响应时间。
下载预期值与下载速率呈线性反比,当部署高频流量信号时,下载速率呈现服务满载,下载预期值则出现曲线递减,β(x,y)对于低流量状态可推导出可用***叉IP地址,S代表任意随机变量e.r.v的下载时间,从而S(r,v)~Exp(μ)为均匀地分布在***中,如公式(3)表示求出分布值P,其中T大于任意随机变量下载时间S,公式(4)表示在T时刻期望下载时间的预期值E的表达式公式,选择满足预期值的服务IP地址进行多路下载,从而减少下载所需时间,最大程度单位时间内下载更多的文本。其中,
P{T(r,t)>S}=exp(-μs)(1-(1-exp(-μs))r)t (3);
Figure BDA0003171124530000073
式中,P{T(r,t)>S}代表分布值P中关于下载服务器下载流量占总带宽比例r和下载时间t的单个下载任务响应时间T大于任意随机变量下载时间S,exp(-us)表示对任意随机变量下载时间S和假定速率μ的积求出指数的反函数;β(t+1,1/r)代表在t+1的时间到1/r的时间内的最小响应时间,μ表示在不同的下载请求指令和服务器之间的响应速率,E[T(r,t)]与e均代表在单个下载任务响应时间T下所期望下载时间的预期值。
其中,期望下载时间的含义为:例如有一班发车间隔时间为20分钟的公交车,期望等车时间是,公交车的发车时间满足[0,20]的均匀分布,故期望等车时间为10分钟。同理这里的期望时间随着IP地址的增多在减少,预期值为对进行分布IP值进行估算,期望时间能少于预期值,也能能略大于预期值,但不是无限大,或者无穷小,都要满足对方网站服务器最短的下载时间和最长的延时停止时间,否则将无法下载。
步骤2:根据机器视觉,识别下载标准文件,从而获取文本中的表格图片几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到文档的物理结构和逻辑结构,对标准文件文本进行识别。
首先,利用机器视觉(机器视觉无需对物理结构之间的距离进行参数设置),如公式(5)所示,其中在文档中(xnn,ynn)代表字符左上角坐标、(xnm,ynm)右下角坐标,如公式(6)所示,其中在物理结构中(xmn,ymn)、(xmm,ymm)分别代表左上角和右下角坐标。计算出字符之间的间距面积Xoverlap和物理设定的阈值面积Yoverlap
Xoverlap=max(0,min(xnm,xmm)-max(xnn,xmn)) (5);
Yoverlap=max(0,min(ynm,ymm)-max(ynn,ymn)) (6);
将字符看作一个长方形方框,其中min(xnm,xmm)代表选取字符边框的左上角坐标最小值,max(xnn,xmn)代表选取字符边框的右下角坐标最大值,min(xnm,xmm)-max(xnn,xmn)代表字符边框对角线值,最后求出最长对角线,从而求出字符的间距面积,同理,其中min(ynm,ymm)代表选取字符物理结构边框的左上角坐标最小值,max(ynn,ymn)代表选取字符物理结构边框的右下角坐标最大值,min(ynm,ymm)-max(ynn,ymn)代表字符边框对角线值,最后求出最长对角线,从而求出字符物理结构边框的间距面积。
然后,根据Xoverlap和Yoverlap计算出最大字符结构化区域面积记作Soverlap,如公式(7)所示:
Soverlap=Xoverlap×Yoverlap (7);
最后,由于字符结构化面积Soverlap远小于物理结构面积,比较重叠面比例Ratiooverlap将文字进行聚类,从而读取文本内容,如公式(8)所示:
Figure BDA0003171124530000081
步骤3:根据文档上下文语段,获取语句文本中自定义多类实体关键词词典列表。
将多类实体关键词词典列表数据集记作ER,ER是关于实体种类的记录集合,表示为ER={er1,er2,...,erN},其中,N代表ER中实体关键词词典列表的数量;
实体种类的记录是一个多属性元组,ER中第n(1≤n≤N)个元组表示为ern=(timn,geon,natn,orgn,pern),其中timn代表实体存在时间,geon代表所发现实体的地理位置,natn代表ern中对应的实体名称,orgn代表发现实体的组织,pern代表该实体发现者。
步骤4:采用余弦相似度测量分析技术,根据关键词种类,对文本中相同词性关键词进行识别,生成非结构化多分类文本。
使用大型文本语料库计算文档和术语之间的关系概率,设定意义相同的词将产生相似的文本,即同类词性。随后,使用余弦相似度测量,将给定词典文档与数据库进行文本挖掘,确定语义接近度与词向量,ern在词向量表示为vcn=(B-vcn,I-vcn),其中B-vcn代表多属性元组在词向量空间开头,I-vcn代表多属性元组在词向量空间中间位置,并利用正则表达式扩充ern属性元组与英文字符[A-Z]以及数字字符[0-9]的表现形式,?表示匹配前表达式一次,*表示匹配前表达式任意次数,^表示从当前位置开始匹配,$表示匹配前表达式结尾,例如时间词性VB有三种表现形式,如公式(9-11)所示:
VB1=r'^~?[0-9]'+r'^[A-Z].*$' (9);
VB2=r'^±'+r'^~?[0-9]+(.[0-9]+)?$'+r'.*' (10);
VB3=r'^~?[0-9]+(.[0-9]+)?$'+r'and$'+r'.*' (11);
公式9处理过程如下:
第一步:~?匹配句子中有~符号的语句或者没有~的语句。
第二步:在满足第一步的情况下,[0-9]表示匹配数字0到9之间任意一个数字。
第三步,在满足第二步的情况下,^[A-Z]表示匹配字母字A到Z之间任意一个字母。
第四步,在满足第三步的情况下,.*$'表示匹配第三步字母多次,并且可以位于句子结尾,例如~9Ma或者9Ma。
公式10处理过程如下:
第一步:^±表示匹配句子中有±的语句。
第二步:在满足第一步的情况下,~?匹配句子中有~符号的语句或者没有~的语句。
第三步:在满足第二步的情况下,[0-9]表示匹配数字0到9之间任意一个数字。
第四步,在满足第三步的情况下,(.[0-9]+)表示首先匹配小数点.,其次匹配数字0到9之间任意一个数字。
第五步,在满足第四步的情况下,
Figure BDA0003171124530000091
表示匹配前面步骤任意次,例如±9.38或者±~9.1。
公式11处理过程如下:
第一步:~?匹配句子中有~符号的语句或者没有~的语句。
第二步:在满足第一步的情况下,[0-9]表示匹配数字0到9之间任意一个数字。
第三步,在满足第二步的情况下,(.[0-9]+)表示首先匹配小数点.,其次匹配数字0到9之间任意一个数字。
第四步:在满足第三步的情况下,and$表示匹配句子中有and的语句。
第五步,在满足第四步的情况下,
Figure BDA0003171124530000102
表示匹配前面步骤任意次,例如~1and2或者1.5and 1.68。
余弦相似度最高值cos(θ)与vcn的组成部分vci(1≤i≤m)与文本各句短语词向量属性wcn的组成部分wci相关(1≤i≤m),vci表示在m个词向量中其中第i个词向量变量,wci表示在m个文本句短语词向量中其中第i个文本句短语词向量变量,如公式(12)所示,当cos(θ)值为1时表示指向同一词向量空间,指向同一空间则将给定词典文档与数据库成功匹配,能够在文档中找到数据库中所需的词语;
Figure BDA0003171124530000101
步骤5:通过cos(θ)输出生成非结构化多分类文本,遍历多分类文本对分类实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集。
将文本语句进行ern分类匹配,若文本语句无法匹配ern,则表示为O;ern中所有多分类结构子集对应的语句实体集合(这里的多分类结构子集和前面的ern表示多个种类的实体关键词词典列表集合含义相同),表示为ERn={B-ern,O,I-ern},从而生成带有标签BIO的训练集数据;其中B-ern表示为为语句实体的开头第一个字母,I-ern表示为除开头第一个字母外各剩余字母表达方式,生成的数据集会表示为B-tim、B-geo、B-nat、O、I-tim、I-geo、I-nat,B-ern包括B-tim、B-geo、B-nat,I-ern包括I-tim、I-geo、I-nat。
步骤6:利用BiLSTM结合CRF进行NER预训练,将沉积学实体识别,从而根据上下文信息筛选出有价值的热点。
首先,用crf中转移矩阵避免出现多个连续B-ern的特性,将crf作为BiLSTM的输出层,如公式(13)所示,其中对于每个输入ERn终会得到与之对应预测标签PLn,则预测输入ERn的连续概率为Score(ERn,PLn)(例如输入标签为O,会得到对应的输出标签,并预测连续输入为O的概率),
Figure BDA0003171124530000117
为第i个位置输出为PLi(0≤PLi≤1)的概率,A(PLi,PLi+1)为从PLi到PLi+1的转移概率;
Figure BDA0003171124530000111
其中,连续输入O,或者I-ern是正确情况,如果连续三个出现B-ern是不正确情况。对于转移概率,简单来说上面BIO标签中,可能会出现错误,将I-ern标称O这种类似错误,转移概率,就是直接从O跳到I-ern这种可能的概率。
然后,对于每一个ERn,求出所有PLn的Score(ERn,PLn),利用维特比算法对输入标签即输出标签进行概率归一化处理P(PLn|ERn),从而挖掘文本数据,如公式(14)所示:
Figure BDA0003171124530000112
式中,
Figure BDA0003171124530000113
表示预测第i个输入标签ERi的连续正确概率;/>
Figure BDA0003171124530000114
表示预测第i个ERi的错误概率;/>
Figure BDA0003171124530000115
表示为对于第i个输入标签ERi,得到错误的输出标签率(例如原本ERn终会得到与之对应的输出标签PLi,它是正确的概率为0.7,/>
Figure BDA0003171124530000116
就表示他不正确的概率为0.3)。
本发明的思想为:首先根据最低流量限制和期望下载时间预期值,利用机器人流程自动化分布式读取网站中包含有关沉积学内容的研究及会议文件;然后根据机器视觉,获取研究内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到文档的物理结构和逻辑结构;进一步,分析文档上下文语段,获取语句文本中自定义多类实体关键词词典列表;在此基础上,采用余弦相似度测量分析技术,根据关键词种类,对文本中相同词性关键词进行识别,生成非结构化多分类文本,从而输出的非结构化多分类文本;接着针对非结构化文本,对分类实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;最后,在大样本数据集中,利用双向长短期记忆神经网络模型结合条件随机场进行名体识别实现对所需实体的识别,筛选出文本中实体进行存储。
实施例,本实施例选择沉积学文本匹配数据作为输入数据集进行实验,并选择tensorflow作为仿真平台。
实验环境中所涉及的参数如表1所示。
表1 方法执行过程所涉及的参数设置
实验参数 取值
物质开头 B-nat
物质中间 I-nat
时间开头 B-tim
时间中间 I-tim
地点开头 B-geo
地点中间 I-geo
其他 O
数据集记录数量 274292
图2为本发明在BiLSTM模型结合条件随机场CRF中训练集测试的准确率。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:
步骤1:根据最低流量限制和期望下载时间的预期值,利用RPA分布式读取网站中包含有关沉积学内容的文件进行下载;
步骤2:根据机器视觉,识别步骤1中下载的文件,从而获取内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到文档的物理结构和逻辑结构,并对文本内容进行识别;
步骤3:分析文本内容上下文语段,获取文本内容中自定义多类实体关键词的词典列表;
步骤4:利用步骤2获取的文本内容和步骤3获得的词典列表,采用余弦相似度测量分析技术,根据实体关键词种类,对文本内容中相同词性的实体关键词进行识别,生成非结构化多分类文本;
步骤5:利用步骤4输出的非结构化多分类文本,对分类的实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;
步骤6:针对步骤5生成的大样本数据集,利用BiLSTM结合CRF进行NER预训练,实现对步骤2文档中可读性文本内容进行实体识别,从而根据上下文筛选实体关键词;
将CRF作为BiLSTM的输出层,对于每个输入标签ERn终会得到与之对应的输出标签PLn,预测输入ERn的连续正确的概率为Score(ERn,PLn),Score(ERn,PLn)的表达式如下:
Figure FDA0004178611780000011
式中,R表示训练数据集中总数为R个标签,
Figure FDA0004178611780000012
为对于第i个输入标签ERi输出为PLi的概率,A(PLi,PLi+1)为从PLi到PLi+1的转移概率;
求出所有输入标签ERn的连续正确概率Score(ERn,PLn),利用维特比算法对输入标签ERn及输出标签PLn进行概率归一化处理P(PLn|ERn),从而完成与训练并挖掘文本数据,其中概率归一化处理P(PLn|ERn)表达式如下:
Figure FDA0004178611780000013
式中,
Figure FDA0004178611780000014
表示预测第i个输入标签ERi的连续正确概率的指数值,/>
Figure FDA0004178611780000015
表示为对于第i个输入标签ERi,得到错误的输出标签概率,/>
Figure FDA0004178611780000016
表示错误预测输入标签ERi的连续概率的指数值。
2.根据权利要求1所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:所述步骤1包括:
当任务请求网络服务***进行文件下载时,网络平台产生一条访问请求记录,该记录包含本地网络IP地址和期望下载时间,利用RPA的无侵入特性接入通讯***提供对相关沉积学研究内容热点进行交叉访问,将多路IP地址交叉复制到服务器中;
当服务器在任意时段收到一个下载请求时,计算出单个下载任务响应时间T为:
T=tdeparture-tarrival
式中,tdeparture代表请求到达时间,tarrival代表请求完成时间,其中单个下载任务响应时间T的指数随机变量为e.r.v,e代表在单个下载任务响应时间T下所期望下载时间的预期值,r代表服务器下载流量占总带宽的比例,v代表下载热点的速度;
当下载请求申请成功,对下载热点进行交叉访问时,对任意一段时间x≤TimeN≤y内进行下载请求,下载请求的响应时间为βn,因此,下载请求的最小响应时间β(x,y)的表达式为:
Figure FDA0004178611780000021
式中,x为最低下载时间,y为最高下载时间,TimeN为在此时间段内的任意下载时间;
在单个下载任务响应时间T下所期望下载时间的预期值E[T(r,t)]的表达式为:
Figure FDA0004178611780000022
式中,β(t+1,1/r)代表在t+1的时间到1/r的时间内的最小响应时间,μ表示在不同的下载请求指令和服务器之间的响应速率,E[T(r,t)]与e均代表在单个下载任务响应时间T下所期望下载时间的预期值;
选择满足预期值E[T(r,t)]的服务IP地址进行多路下载。
3.根据权利要求1所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于,关于对文本内容进行识别的具体内容为:
利用机器视觉识别文档,在文档中(xnn,ynn)代表字符左上角坐标、(xnm,ynm)代表字符右下角坐标;在物理结构中(xmn,ymn)代表字符左上角坐标,(xmm,ymm)代表字符右下角坐标;计算字符之间的间距面积Xoverlap和物理设定的阈值面积Yoverlap的表达式如下:
Xoverlap=max(0,min(xnm,xmm)-max(xnn,xmn));
Yoverlap=max(0,min(ynm,ymm)-max(ynn,ymn));
式中,min(xnm,xmm)代表选取字符边框的左上角坐标最小值,max(xnn,xmn)代表选取字符边框的右下角坐标最大值,min(xnm,xmm)-max(xnn,xmn)代表字符边框对角线值;min(ynm,ymm)代表选取字符物理结构边框的左上角坐标最小值,max(ynn,ymn)代表选取字符物理结构边框的右下角坐标最大值,min(ynm,ymm)-max(ynn,ymn)代表字符边框对角线值;
根据Xoverlap和Yoverlap从而得到最大字符结构化区域面积Soverlap,表达式如下:
Soverlap=Xoverlap×Yoverlap
由于字符结构化面积Soverlap小于物理结构面积,比较重叠面比例Ratiooverlap将文字进行聚类,将单词聚类为句子,句子组成为段落,从而读取文本内容,其中重叠面比例Ratiooverlap将表达式如下:
Figure FDA0004178611780000031
式中,xnn代表文档中字符左上角的x轴坐标,xnm代表文档中字符右下角的x轴坐标,ynn代表文档中字符左上角的y轴坐标,ynm代表文档中字符右下角的y轴坐标。
4.根据权利要求1所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:所述步骤3包括:
分析文本内容上下文语段,获取文本语句中自定义多类实体关键词的词典列表,并整合成词典列表数据集ER={er1,er2,...,erN},其中,er1表示第一个种类的实体关键词词典列表,er2表示第二个种类的实体关键词词典列表,erN表示第N个种类的实体关键词词典列表;
实体关键词词典列表的种类记录是一个多属性元组,ER中第n个种类的实体关键词词典列表的元组表示为ern=(timn,geon,natn,orgn,pern),其中1≤n≤N,其中timn代表实体关键词存在时间,geon代表所发现实体关键词的地理位置,natn代表ern中对应的实体关键词名称,orgn代表发现实体关键词的组织,pern代表该实体关键词的发现者。
5.根据权利要求4所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:所述步骤4包括:
利用大型文本语料库计算文本内容和术语之间的关系概率,设定意义相同的词为同种词性;
使用余弦相似度测量,将给定的实体关键词词典列表在大型文本语料库进行文本挖掘,确定实体关键词的语义接近度与词向量;ern在词向量中表示为vcn=(B-vcn,I-vcn),其中B-vcn代表多属性元组在词向量空间的开头位置,I-vcn代表多属性元组在词向量空间中间位置,并利用正则表达式扩充ern属性元组与英文字符[A-Z]以及数字字符[0-9]的表现形式;
余弦相似度cos(θ)值计算表达式如下:
Figure FDA0004178611780000041
式中,vci表示在总数m为个词向量中的第i个词向量变量,wci表示在总数为m个文本句短语词向量中的第i个文本句短语词向量变量;当余弦相似度cos(θ)值为1时,表示能够在vci所对应的实体关键词词典列表中找到wci所对应的文本语料库所需要的词语,从而实现实体关键词词典列表的挖掘;
实体关键词词典列表经过文本语料库挖掘后,再对文本内容进行抽取相关内容从而生成非结构化多分类文本。
6.根据权利要求5所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于,所述步骤5包括:
将非结构化多分类文本的文本语句与ern进行分类匹配,若文本语句无法匹配ern,则表示为O;
将ern中所有多分类结构子集匹配对应的文本语句实体集合表示为ERn={B-ern,O,I-ern},从而生成带有标签BIO的训练数据集。
CN202110818775.XA 2021-07-20 2021-07-20 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 Active CN113468890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110818775.XA CN113468890B (zh) 2021-07-20 2021-07-20 基于nlp信息萃取与词性规则的沉积学文献挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110818775.XA CN113468890B (zh) 2021-07-20 2021-07-20 基于nlp信息萃取与词性规则的沉积学文献挖掘方法

Publications (2)

Publication Number Publication Date
CN113468890A CN113468890A (zh) 2021-10-01
CN113468890B true CN113468890B (zh) 2023-05-26

Family

ID=77881608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110818775.XA Active CN113468890B (zh) 2021-07-20 2021-07-20 基于nlp信息萃取与词性规则的沉积学文献挖掘方法

Country Status (1)

Country Link
CN (1) CN113468890B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117061B (zh) * 2021-10-27 2024-07-16 南京信息工程大学 基于数据挖掘和树状结构的河流相知识图谱反推方法
CN117076703B (zh) * 2023-10-11 2024-02-06 中邮消费金融有限公司 一种自动化的卡证结构化信息抽取技术方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558569A (zh) * 2018-12-14 2019-04-02 昆明理工大学 一种基于BiLSTM+CRF模型的老挝语词性标注方法
CN109672613A (zh) * 2018-12-12 2019-04-23 北京数码视讯软件技术发展有限公司 自适应访问方法、装置及电子设备
KR20200044176A (ko) * 2018-10-05 2020-04-29 동아대학교 산학협력단 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
CN111950287A (zh) * 2020-08-20 2020-11-17 广东工业大学 一种基于文本的实体识别方法及相关装置
CN112417880A (zh) * 2020-11-30 2021-02-26 太极计算机股份有限公司 一种面向法院电子卷宗的案情信息自动抽取方法
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及***
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN112817561A (zh) * 2021-02-02 2021-05-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200044176A (ko) * 2018-10-05 2020-04-29 동아대학교 산학협력단 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
CN109672613A (zh) * 2018-12-12 2019-04-23 北京数码视讯软件技术发展有限公司 自适应访问方法、装置及电子设备
CN109558569A (zh) * 2018-12-14 2019-04-02 昆明理工大学 一种基于BiLSTM+CRF模型的老挝语词性标注方法
CN111950287A (zh) * 2020-08-20 2020-11-17 广东工业大学 一种基于文本的实体识别方法及相关装置
CN112417880A (zh) * 2020-11-30 2021-02-26 太极计算机股份有限公司 一种面向法院电子卷宗的案情信息自动抽取方法
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及***
CN112817561A (zh) * 2021-02-02 2021-05-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及***
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BELMiner:adapting a rule-based relation extraction system to extract biological expression language statements from bio-medical literature evidence sentences;K.E.Ravikumar;《Database》;1-12 *
一种面向突发事件的文本语料自动标注方法;刘炜 等;《中文信息学报》;第31卷(第2期);76-85 *

Also Published As

Publication number Publication date
CN113468890A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN108875051B (zh) 面向海量非结构化文本的知识图谱自动构建方法及***
US11210468B2 (en) System and method for comparing plurality of documents
US10089581B2 (en) Data driven classification and data quality checking system
CN110674317B (zh) 一种基于图神经网络的实体链接方法及装置
Florian Named entity recognition as a house of cards: Classifier stacking
CN112163424B (zh) 数据的标注方法、装置、设备和介质
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN110704626B (zh) 一种用于短文本的分类方法及装置
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
WO2018151856A1 (en) Intelligent matching system with ontology-aided relation extraction
CN107844533A (zh) 一种智能问答***及分析方法
CN113468890B (zh) 基于nlp信息萃取与词性规则的沉积学文献挖掘方法
US10083403B2 (en) Data driven classification and data quality checking method
CN113641833B (zh) 服务需求匹配方法及装置
US20220358379A1 (en) System, apparatus and method of managing knowledge generated from technical data
Han et al. Text Summarization Using FrameNet‐Based Semantic Graph Model
CN114840685A (zh) 一种应急预案知识图谱构建方法
He et al. Sentiment classification technology based on Markov logic networks
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
CN112202889A (zh) 信息的推送方法、装置和存储介质
CN116804998A (zh) 基于医学语义理解的医学术语检索方法和***
CN112215006B (zh) 机构命名实体归一化方法和***
CN114969341A (zh) 一种针对餐饮行业评论的细粒度情感分析方法及装置
Zhang et al. A text mining based method for policy recommendation
CN113946668A (zh) 基于边缘节点的语义处理方法、***、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant