CN113609861A - 基于食品文献数据的多维度特征命名实体识别方法及*** - Google Patents

基于食品文献数据的多维度特征命名实体识别方法及*** Download PDF

Info

Publication number
CN113609861A
CN113609861A CN202110913799.3A CN202110913799A CN113609861A CN 113609861 A CN113609861 A CN 113609861A CN 202110913799 A CN202110913799 A CN 202110913799A CN 113609861 A CN113609861 A CN 113609861A
Authority
CN
China
Prior art keywords
character
feature vector
model
food
literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110913799.3A
Other languages
English (en)
Other versions
CN113609861B (zh
Inventor
雷雪
方德英
张青川
蔡圆媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202110913799.3A priority Critical patent/CN113609861B/zh
Publication of CN113609861A publication Critical patent/CN113609861A/zh
Application granted granted Critical
Publication of CN113609861B publication Critical patent/CN113609861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于食品文献数据的多维度特征命名实体识别方法及***,其方法包括:S1:获得食品领域文献的语料;S2:获取食品领域文献的字偏旁和字拼音,分别输入BiLSTM模型,获得字偏旁特征向量S和字拼音特征向量P;S3:对Bert模型进行预训练,得到训练好的预训练模型;把S1得到语料输入训练好的预训练模型,得到字维度的特征向量;S4:将字维度的特征向量、字偏旁特征向量和字拼音特征向量输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;S5:将融合全文语义信息的特征向量输入CRF模型,最后得到命名实体识别结果。本发明通过将字的偏旁特征、拼音特征加入字维度向量表示中,提高了面向食品领域的文献数据的命名实体识别的准确性。

Description

基于食品文献数据的多维度特征命名实体识别方法及***
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于食品文献数据的多维度特征命名实体识别方法及***。
背景技术
随着人们对食品领域的重视,与食品相关的文献资源迅速增长。面向食品领域的文献是展示科研成果的主要方式之一,内容包括研究目的、研究方法、实验过程、研究结果、研究意义等。学术文献是具有高度专业价值的知识资源类型,是一种较为规范的文本形式,食品领域的学术文献包含了专业术语、概念,以及权威数据。这些文本内容以非结构化方式存在,包含大量食品专业领域的实体。通过对食品领域的文献数据信息建模,自动抽取文献中的关键实体,提取出有效的语义知识,该研究成果可应用在实体关系抽取、自动问答、语义网标注、知识图谱等食品研究领域,成为更好研究自然语言处理方向的基石。
早期用来命名实体识别的方法主要是基于规则的方法和基于字典的方法,但随着语料的增加制定的规则也将越来越繁琐,使用基于规则的方法和基于字典的方法就会过于费时费力。随着大数据时代的到来,如HMM、SVM和CRF等传统的机器学习方法也被学者用于命名实体识别的任务上,到后期的深度学习方法,将神经网络模型引入进行命名实体识别和近期开始将注意力机制和迁移学习应用其中,还尝试使用BERT等模型进行语言预训练,提高命名实体识别准确率。由于中文的多样性且并没有可以将其划分开的明显标注,实体能否被准确的从文本中识别出来主要在这两个方面:是否可以准确的划分出实体的边界;是否可以准确的判断出实体属类。因此,如何更好的提取中文语料的文本特征、提取有效的实体有效信息成为中文命名实体识别的技术难题。
发明内容
为了解决上述技术问题,本发明提供一种基于食品文献数据的多维度特征命名实体识别方法及***。
本发明技术解决方案为:一种基于食品文献数据的多维度特征命名实体识别方法,包括:
步骤S1:利用爬虫技术在网络上获取食品领域文献摘要,通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作,获得食品领域文献的语料;
步骤S2:利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P;
步骤S3:利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把所述食品领域文献的语料输入所述训练好的预训练模型中进行增量训练,得到字维度的特征向量Z;
步骤S4:将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;
步骤S5:将所述融合全文语义信息的特征向量输入CRF模型,计算标签结果,最后得到命名实体识别结果。
本发明与现有技术相比,具有以下优点:
本发明公开的一种基于食品文献数据的多维度特征命名实体识别方法,能够通过Bert模型得到食品领域文献的增强语义表示,根据其上下文生成字维度的向量,并充分利用中文字体的特征,即字的拼音和偏旁中含有的中文字的语义信息,得到字的偏旁特征表示、字的拼音特征表示。将以上三者字维度表示结合作为命名实体识别模型的输入,从单个字级别对语料信息进行充分的挖掘,避免非结构化的、缺少规范的文本语料等问题造成的特征提取不全面而损失结果精度。本发明再利用BiLSTM与CRF结合对食品领域的文献数据进行实体识别。本发明充分考虑中文食品语料文献数据的语义信息,命名实体识别准确率高。
附图说明
图1为本发明实施例中一种基于食品文献数据的多维度特征命名实体识别方法的流程图;
图2为本发明实施例中实体识别方法流程示意图;
图3为本发明实施例中一种基于食品文献数据的多维度特征命名实体识别***的结构框图。
具体实施方式
本发明提供了一种基于食品文献数据的多维度特征命名实体识别方法,本发明充分利用中文字词本身的特征属性,通过构建新的命名实体识别模型,将字的偏旁特征、拼音特征加入字维度向量表示中,提高了面向食品领域的文献数据的命名实体识别的准确性。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于食品文献数据的多维度特征命名实体识别方法,包括下述步骤:
步骤S1:利用爬虫技术在网络上获取食品领域文献摘要,通过人工与算法结合的方式对食品领域文献摘要进行数据处理工作,获得食品领域文献的语料;
步骤S2:利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P;
步骤S3:利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把食品领域文献的语料输入训练好的预训练模型中进行增量训练,得到字维度的特征向量Z;
步骤S4:将字维度的特征向量Z、字偏旁特征向量S和字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;
步骤S5:将融合全文语义信息的特征向量输入CRF模型,计算标签结果,最后得到命名实体识别结果。
在一个实施例中,上述步骤S1:利用爬虫技术在网络上获取食品领域文献摘要,通过人工与算法结合的方式对食品领域文献摘要进行数据处理工作,获得食品领域文献的语料,具体包括:
在中国知网等多个学术网站上,利用python爬虫技术上爬取“食品营养”、“食品追溯”、“食品物流”、“食品冷链”等与食品相关的主题词的相关文献的摘要,再用人工与机器结合的方式对摘要进行数据处理工作,建立面向食品领域文献的数据库,从而获取食品领域文献的语料。
在一个实施例中,上述步骤S2:利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P,具体包括:
由于中文字体具有多维度特征的特点,字体的含义与字体的偏旁和拼音有关,因此首先利用python爬虫技术在百度字词等网站获得食品领域文献的字偏旁和字拼音,分别将其输入单独的BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P;
字偏旁特征向量S=[s1,s2,s3...sn]是利用中文偏旁能间接代表中文字的含义,获取与食物有关的字偏旁,其中,si是与食物有关的字偏旁向量;举例来说,获取跟食物有关的偏旁:“口”“饣”字偏旁;
字拼音特征向量P=[p1,p2,p3...pm]是利用汉语拼音中包含字词语义的有效信息,其中,pi是与食物有关的字拼音向量;通过引入拼音相当于引入了一种与食品相关的附加信息,举例来说,“食”“品”可分为“sh i 2”和“p in 3”(数字表示声调)。
在一个实施例中,上述步骤S3:利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把食品领域文献的数据库中的数据输入所述训练好的Bert模型中进行增量训练,得到字维度的特征向量Z,具体包括:
步骤S31:利用开放领域的语料对Bert模型进行预训练,得到“Bert-Base-Uncased”预训练模型;
步骤S32:利用步骤S1中食品领域文献的语料对预训练模型进行增量训练,加入额外的中文食品领域特征,得到基于Bert模型的食品领域文献语料的字维度的特征向量Z=[z1,z2,z3...zk]。
训练好的“Bert-Base-Uncased”预训练模型的输入句子分为三个部分:字向量、文本向量和位置向量。预训练模型通过查询字向量表将文本中的每个字转换为一维向量,文本向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,位置向量对不同位置的字分别附加一个不同的向量以作区分,预训练模型将三种向量作为输入;模型输出则是输入各字对应的融合全文语义信息后的特征向量Z。
在一个实施例中,上述步骤S4:将字维度的特征向量Z、字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量,具体包括:
将字维度向量表示Z、字偏旁特征向量S和字拼音特征向量P进行拼接,得到X=concatenate(Z,S,P),将X输入如下述公式(1)~公式(6)所示BiLSTM的神经网络模型:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (2)
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc) (3)
ct=itgt+ftct-1ct=itgt+ftct-1 (4)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo (5)
ht=ottanh(ct) (6)
其中,W和b表示权重矩阵和偏置向量参数;xt是t时刻的输入变量;ht-1是t-1时刻隐藏层状态;ht是t时刻的隐藏层状态;ct是t时刻细胞层状态;it、ft、ot和ct分别表示输入门、遗忘门、输出门和细胞的激活向量,σ是sigmoid函数;ot为BiLSTM的输出门在t时刻的输出结果。
在本步骤中,以字维度向量表示为主,字偏旁特征和字拼音特征为辅的方式,构建BiLSTM的神经网络模型的输入X,用于训练BiLSTM的神经网络模型,通过利用某时刻t的输出依赖于文本序列中某个单词前面的单词,也依赖于后面的单词,模型的输出为融合全文语义信息的特征向量O,可以充分表示每个单词的上下文信息,有效解决两个实体之间存在的长时间依赖的问题。
将BiLSTM神经网络模型的输出O,输入到条件随机场CRF(Conditional RandomFields)。CRF是一种概率统计模型,它能利用“BIOES”(B-begin,I-inside,E-end,S-single,O-outside)标签体系对融合全文语义信息的特征向量O进行概率统计与标注,将得到命名实体识别结果。
在一个实施例中,上述S5中利用CRF模型计算标签结果的计算公式(7)如下所示:
Figure BDA0003204685780000051
其中,Score(X,y)为输出序列,X为输入的句子,y=[y1,y2,y3...yn]为相应的输出标签结果序列;CRF模型由两部分组成,矩阵A和矩阵B:将BiLSTM的输出结果O=[o1,o2,o3...on]进行全连接,得到输出矩阵A=[a1,a2,a3...an],以及基于t时刻的标签yt和t+1时刻的标签yt+1之间的转移矩阵B;
最后利用维特比算法计算输出序列,得到预测标签结果y*,最后得到命名实体识别结果。
本发明实施例根据食品领域的文献数据特征,将命名实体分为4类:食品对象(foodobject)、模型(model)、方法(method)、结果(result)。例如输入句子为:本文选择了一种创新的研究思路——全面***干预方法,针对食品冷链物流质量管理存在的问题,以期实现对食品冷链物流质量管理体系完善的研究设想。利用本发明的多维度特征命名实体识别方法,识别结果为3类命名实体,分别为:方法为“全面***干预方法”,食品对象为“食品冷链物流”,结果为“研究设想”。
如图2所示,举例展示了命名实体识别方法的流程图。
本发明公开的一种基于食品文献数据的多维度特征命名实体识别方法,能够通过Bert模型得到食品领域文献的增强语义表示,根据其上下文生成字维度的向量,并充分利用中文字体的特征,即字的拼音和偏旁中含有的中文字的语义信息,得到字的偏旁特征表示、字的拼音特征表示。将以上三者字维度表示结合作为命名实体识别模型的输入,从单个字级别对语料信息进行充分的挖掘,避免非结构化的、缺少规范的文本语料等问题造成的特征提取不全面而损失结果精度。本发明再利用BiLSTM与CRF结合对食品领域的文献数据进行实体识别。本发明充分考虑中文食品语料文献数据的语义信息,命名实体识别准确率高。
实施例二
如图3所示,本发明实施例提供了一种基于食品文献数据的多维度特征命名实体识别***,包括下述模块:
获取文献语料模块21,用于利用爬虫技术在网络上获取食品领域文献摘要,通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作,获得食品领域文献的语料;
获取字偏旁和字拼音特征向量模块22,用于利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P;
获取字维度的特征向量模块23,用于利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把食品领域文献的语料输入所述训练好的预训练模型中进行增量训练,得到字维度的特征向量Z;
获取融合全文语义信息的特征向量模块24,用于将字维度的特征向量Z、字偏旁特征向量S和字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;
获取命名实体识别结果模块25,用于将融合全文语义信息的特征向量输入CRF模型,计算标签结果,最后得到命名实体识别结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (6)

1.一种基于食品文献数据的多维度特征命名实体识别方法,其特征在于,包括:
步骤S1:利用爬虫技术在网络上获取食品领域文献摘要,通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作,获得食品领域文献的语料;
步骤S2:利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P;
步骤S3:利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把所述食品领域文献的语料输入所述训练好的预训练模型中进行增量训练,得到字维度的特征向量Z;
步骤S4:将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;
步骤S5:将所述融合全文语义信息的特征向量输入CRF模型,计算标签结果,最后得到命名实体识别结果。
2.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法,其特征在于,所述步骤S2:利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P,具体包括:
获取所述字偏旁特征向量S=[s1,s2,s3...sn]是利用中文偏旁能间接代表中文字的含义,获取与食物有关的字偏旁,其中,si是与食物有关的字偏旁向量;
获取所述字拼音特征向量P=[p1,p2,p3...pm]是利用汉语拼音中包含字词语义的有效信息,其中,pi是与食物有关的字拼音向量。
3.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法,其特征在于,所述步骤S3:利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把所述食品领域文献的数据库中的数据输入所述训练好的Bert模型中进行增量训练,得到字维度的特征向量Z,具体包括:
步骤S31:利用开放领域的语料对Bert模型进行预训练,得到“Bert-Base-Uncased”预训练模型;
步骤S32:利用步骤S1中所述食品领域文献的语料对所述预训练模型进行增量训练,加入额外的中文食品领域特征,得到基于Bert模型的食品领域文献语料的字维度的特征向量Z=[z1,z2,z3...zk]。
4.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法,其特征在于,所述步骤S4:将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量,具体包括:
将所述字维度向量表示Z、所述字偏旁特征向量S和所述字拼音特征向量P进行拼接,得到X=concatenate(Z,S,P),将X输入如下述公式(1)~公式(6)所示BiLSTM的神经网络模型:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (2)
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc) (3)
ct=itgt+ftct-1ct=itgt+ftct-1 (4)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo (5)
ht=ottanh(ct) (6)
其中,W和b表示权重矩阵和偏置向量参数;xt是t时刻的输入变量,xt依赖于文本序列中位于其之前的单词,也依赖于位于其之后的单词;ht-1是t-1时刻隐藏层状态;ht是t时刻的隐藏层状态;ct是t时刻细胞层状态;it、ft、ot和ct分别表示输入门、遗忘门、输出门和细胞的激活向量,σ是sigmoid函数;ot为BiLSTM的输出门在t时刻的输出结果。
5.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法,其特征在于,所述步骤S5中利用CRF模型计算标签结果的计算公式(7)如下所示:
Figure FDA0003204685770000021
其中,Score(X,y)为输出序列,X为输入的句子,y=[y1,y2,y3...yn]为相应的输出标签结果序列;CRF模型由两部分组成,矩阵A和矩阵B:将BiLSTM的输出结果O=[o1,o2,o3...on]进行全连接,得到输出矩阵A=[a1,a2,a3...an],以及基于t时刻的标签yt和t+1时刻的标签yt+1之间的转移矩阵B;
最后利用维特比算法计算输出序列,得到预测标签结果y*。
6.一种基于食品文献数据的多维度特征命名实体识别***,其特征在于,包括下述模块:
获取文献语料模块,用于利用爬虫技术在网络上获取食品领域文献摘要,通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作,获得食品领域文献的语料;
获取字偏旁和字拼音特征向量模块,用于利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P;
获取字维度的特征向量模块,用于利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把所述食品领域文献的语料输入所述训练好的预训练模型中进行增量训练,得到字维度的特征向量Z;
获取融合全文语义信息的特征向量模块,用于将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;
获取命名实体识别结果模块,用于将所述融合全文语义信息的特征向量输入CRF模型,计算标签结果,最后得到命名实体识别结果。
CN202110913799.3A 2021-08-10 2021-08-10 基于食品文献数据的多维度特征命名实体识别方法及*** Active CN113609861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110913799.3A CN113609861B (zh) 2021-08-10 2021-08-10 基于食品文献数据的多维度特征命名实体识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110913799.3A CN113609861B (zh) 2021-08-10 2021-08-10 基于食品文献数据的多维度特征命名实体识别方法及***

Publications (2)

Publication Number Publication Date
CN113609861A true CN113609861A (zh) 2021-11-05
CN113609861B CN113609861B (zh) 2024-02-23

Family

ID=78307989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110913799.3A Active CN113609861B (zh) 2021-08-10 2021-08-10 基于食品文献数据的多维度特征命名实体识别方法及***

Country Status (1)

Country Link
CN (1) CN113609861B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110162784A (zh) * 2019-04-19 2019-08-23 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
CN110705294A (zh) * 2019-09-11 2020-01-17 苏宁云计算有限公司 命名实体识别模型训练方法、命名实体识别方法及装置
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
WO2021114840A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 基于语义分析的评分方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110162784A (zh) * 2019-04-19 2019-08-23 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
CN110705294A (zh) * 2019-09-11 2020-01-17 苏宁云计算有限公司 命名实体识别模型训练方法、命名实体识别方法及装置
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
WO2021114840A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 基于语义分析的评分方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN113609861B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110598203B (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及***
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN114943230B (zh) 一种融合常识知识的中文特定领域实体链接方法
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化***构建方法
CN110956041A (zh) 一种基于深度学习的并购重组公告摘要方法
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN112100413A (zh) 一种跨模态的哈希检索方法
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及***
CN112101014A (zh) 一种混合特征融合的中文化工文献分词方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN111428501A (zh) 命名实体的识别方法、识别***及计算机可读存储介质
CN111444720A (zh) 一种英文文本的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant