CN113609861A

CN113609861A - 基于食品文献数据的多维度特征命名实体识别方法及***

Info

Publication number: CN113609861A
Application number: CN202110913799.3A
Authority: CN
Inventors: 雷雪; 方德英; 张青川; 蔡圆媛
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-05
Anticipated expiration: 2041-08-10
Also published as: CN113609861B

Abstract

本发明涉及一种基于食品文献数据的多维度特征命名实体识别方法及***，其方法包括：S1：获得食品领域文献的语料；S2：获取食品领域文献的字偏旁和字拼音，分别输入BiLSTM模型，获得字偏旁特征向量S和字拼音特征向量P；S3：对Bert模型进行预训练，得到训练好的预训练模型；把S1得到语料输入训练好的预训练模型，得到字维度的特征向量；S4：将字维度的特征向量、字偏旁特征向量和字拼音特征向量输入基于BiLSTM的神经网络模型，得到融合全文语义信息的特征向量；S5：将融合全文语义信息的特征向量输入CRF模型，最后得到命名实体识别结果。本发明通过将字的偏旁特征、拼音特征加入字维度向量表示中，提高了面向食品领域的文献数据的命名实体识别的准确性。

Description

基于食品文献数据的多维度特征命名实体识别方法及***

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于食品文献数据的多维度特征命名实体识别方法及***。

背景技术

随着人们对食品领域的重视，与食品相关的文献资源迅速增长。面向食品领域的文献是展示科研成果的主要方式之一，内容包括研究目的、研究方法、实验过程、研究结果、研究意义等。学术文献是具有高度专业价值的知识资源类型，是一种较为规范的文本形式，食品领域的学术文献包含了专业术语、概念，以及权威数据。这些文本内容以非结构化方式存在，包含大量食品专业领域的实体。通过对食品领域的文献数据信息建模，自动抽取文献中的关键实体，提取出有效的语义知识，该研究成果可应用在实体关系抽取、自动问答、语义网标注、知识图谱等食品研究领域，成为更好研究自然语言处理方向的基石。

早期用来命名实体识别的方法主要是基于规则的方法和基于字典的方法，但随着语料的增加制定的规则也将越来越繁琐，使用基于规则的方法和基于字典的方法就会过于费时费力。随着大数据时代的到来，如HMM、SVM和CRF等传统的机器学习方法也被学者用于命名实体识别的任务上，到后期的深度学习方法，将神经网络模型引入进行命名实体识别和近期开始将注意力机制和迁移学习应用其中，还尝试使用BERT等模型进行语言预训练，提高命名实体识别准确率。由于中文的多样性且并没有可以将其划分开的明显标注，实体能否被准确的从文本中识别出来主要在这两个方面：是否可以准确的划分出实体的边界；是否可以准确的判断出实体属类。因此，如何更好的提取中文语料的文本特征、提取有效的实体有效信息成为中文命名实体识别的技术难题。

发明内容

为了解决上述技术问题，本发明提供一种基于食品文献数据的多维度特征命名实体识别方法及***。

本发明技术解决方案为：一种基于食品文献数据的多维度特征命名实体识别方法，包括：

步骤S1：利用爬虫技术在网络上获取食品领域文献摘要，通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作，获得食品领域文献的语料；

步骤S2：利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音，分别将其输入到BiLSTM模型中进行编码，获得字偏旁特征向量S和字拼音特征向量P；

步骤S3：利用开放领域语料对Bert模型进行预训练，得到训练好的预训练模型；把所述食品领域文献的语料输入所述训练好的预训练模型中进行增量训练，得到字维度的特征向量Z；

步骤S4：将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型，得到融合全文语义信息的特征向量；

步骤S5：将所述融合全文语义信息的特征向量输入CRF模型，计算标签结果，最后得到命名实体识别结果。

本发明与现有技术相比，具有以下优点：

本发明公开的一种基于食品文献数据的多维度特征命名实体识别方法，能够通过Bert模型得到食品领域文献的增强语义表示，根据其上下文生成字维度的向量，并充分利用中文字体的特征，即字的拼音和偏旁中含有的中文字的语义信息，得到字的偏旁特征表示、字的拼音特征表示。将以上三者字维度表示结合作为命名实体识别模型的输入，从单个字级别对语料信息进行充分的挖掘，避免非结构化的、缺少规范的文本语料等问题造成的特征提取不全面而损失结果精度。本发明再利用BiLSTM与CRF结合对食品领域的文献数据进行实体识别。本发明充分考虑中文食品语料文献数据的语义信息，命名实体识别准确率高。

附图说明

图1为本发明实施例中一种基于食品文献数据的多维度特征命名实体识别方法的流程图；

图2为本发明实施例中实体识别方法流程示意图；

图3为本发明实施例中一种基于食品文献数据的多维度特征命名实体识别***的结构框图。

具体实施方式

本发明提供了一种基于食品文献数据的多维度特征命名实体识别方法，本发明充分利用中文字词本身的特征属性，通过构建新的命名实体识别模型，将字的偏旁特征、拼音特征加入字维度向量表示中，提高了面向食品领域的文献数据的命名实体识别的准确性。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于食品文献数据的多维度特征命名实体识别方法，包括下述步骤：

步骤S1：利用爬虫技术在网络上获取食品领域文献摘要，通过人工与算法结合的方式对食品领域文献摘要进行数据处理工作，获得食品领域文献的语料；

步骤S3：利用开放领域语料对Bert模型进行预训练，得到训练好的预训练模型；把食品领域文献的语料输入训练好的预训练模型中进行增量训练，得到字维度的特征向量Z；

步骤S4：将字维度的特征向量Z、字偏旁特征向量S和字拼音特征向量P输入基于BiLSTM的神经网络模型，得到融合全文语义信息的特征向量；

步骤S5：将融合全文语义信息的特征向量输入CRF模型，计算标签结果，最后得到命名实体识别结果。

在一个实施例中，上述步骤S1：利用爬虫技术在网络上获取食品领域文献摘要，通过人工与算法结合的方式对食品领域文献摘要进行数据处理工作，获得食品领域文献的语料，具体包括：

在中国知网等多个学术网站上，利用python爬虫技术上爬取“食品营养”、“食品追溯”、“食品物流”、“食品冷链”等与食品相关的主题词的相关文献的摘要，再用人工与机器结合的方式对摘要进行数据处理工作，建立面向食品领域文献的数据库，从而获取食品领域文献的语料。

在一个实施例中，上述步骤S2：利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音，分别将其输入到BiLSTM模型中进行编码，获得字偏旁特征向量S和字拼音特征向量P，具体包括：

由于中文字体具有多维度特征的特点，字体的含义与字体的偏旁和拼音有关，因此首先利用python爬虫技术在百度字词等网站获得食品领域文献的字偏旁和字拼音，分别将其输入单独的BiLSTM模型中进行编码，获得字偏旁特征向量S和字拼音特征向量P；

字偏旁特征向量S＝[s₁,s₂,s₃...s_n]是利用中文偏旁能间接代表中文字的含义，获取与食物有关的字偏旁，其中，s_i是与食物有关的字偏旁向量；举例来说，获取跟食物有关的偏旁：“口”“饣”字偏旁；

字拼音特征向量P＝[p₁,p₂,p₃...p_m]是利用汉语拼音中包含字词语义的有效信息，其中，p_i是与食物有关的字拼音向量；通过引入拼音相当于引入了一种与食品相关的附加信息，举例来说，“食”“品”可分为“sh i 2”和“p in 3”(数字表示声调)。

在一个实施例中，上述步骤S3：利用开放领域语料对Bert模型进行预训练，得到训练好的预训练模型；把食品领域文献的数据库中的数据输入所述训练好的Bert模型中进行增量训练，得到字维度的特征向量Z，具体包括：

步骤S31：利用开放领域的语料对Bert模型进行预训练，得到“Bert-Base-Uncased”预训练模型；

步骤S32：利用步骤S1中食品领域文献的语料对预训练模型进行增量训练，加入额外的中文食品领域特征，得到基于Bert模型的食品领域文献语料的字维度的特征向量Z＝[z₁,z₂,z₃...z_k]。

训练好的“Bert-Base-Uncased”预训练模型的输入句子分为三个部分：字向量、文本向量和位置向量。预训练模型通过查询字向量表将文本中的每个字转换为一维向量，文本向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，位置向量对不同位置的字分别附加一个不同的向量以作区分，预训练模型将三种向量作为输入；模型输出则是输入各字对应的融合全文语义信息后的特征向量Z。

在一个实施例中，上述步骤S4：将字维度的特征向量Z、字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型，得到融合全文语义信息的特征向量，具体包括：

将字维度向量表示Z、字偏旁特征向量S和字拼音特征向量P进行拼接，得到X＝concatenate(Z，S，P)，将X输入如下述公式(1)～公式(6)所示BiLSTM的神经网络模型：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (1)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (2)

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c) (3)

c_t＝i_tg_t+f_tc_t-1c_t＝i_tg_t+f_tc_t-1 (4)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o (5)

h_t＝o_ttanh(c_t) (6)

其中，W和b表示权重矩阵和偏置向量参数；x_t是t时刻的输入变量；h_t-1是t-1时刻隐藏层状态；h_t是t时刻的隐藏层状态；c_t是t时刻细胞层状态；i_t、f_t、o_t和c_t分别表示输入门、遗忘门、输出门和细胞的激活向量，σ是sigmoid函数；o_t为BiLSTM的输出门在t时刻的输出结果。

在本步骤中，以字维度向量表示为主，字偏旁特征和字拼音特征为辅的方式，构建BiLSTM的神经网络模型的输入X，用于训练BiLSTM的神经网络模型，通过利用某时刻t的输出依赖于文本序列中某个单词前面的单词，也依赖于后面的单词，模型的输出为融合全文语义信息的特征向量O，可以充分表示每个单词的上下文信息，有效解决两个实体之间存在的长时间依赖的问题。

将BiLSTM神经网络模型的输出O，输入到条件随机场CRF(Conditional RandomFields)。CRF是一种概率统计模型，它能利用“BIOES”(B-begin,I-inside,E-end,S-single,O-outside)标签体系对融合全文语义信息的特征向量O进行概率统计与标注，将得到命名实体识别结果。

在一个实施例中，上述S5中利用CRF模型计算标签结果的计算公式(7)如下所示：

其中，Score(X，y)为输出序列，X为输入的句子，y＝[y₁,y₂,y₃...y_n]为相应的输出标签结果序列；CRF模型由两部分组成，矩阵A和矩阵B：将BiLSTM的输出结果O＝[o₁,o₂,o₃...o_n]进行全连接，得到输出矩阵A＝[a₁,a₂,a₃...a_n]，以及基于t时刻的标签y_t和t+1时刻的标签y_t+1之间的转移矩阵B；

最后利用维特比算法计算输出序列，得到预测标签结果y*，最后得到命名实体识别结果。

本发明实施例根据食品领域的文献数据特征，将命名实体分为4类：食品对象(foodobject)、模型(model)、方法(method)、结果(result)。例如输入句子为：本文选择了一种创新的研究思路——全面***干预方法,针对食品冷链物流质量管理存在的问题,以期实现对食品冷链物流质量管理体系完善的研究设想。利用本发明的多维度特征命名实体识别方法，识别结果为3类命名实体，分别为：方法为“全面***干预方法”，食品对象为“食品冷链物流”,结果为“研究设想”。

如图2所示，举例展示了命名实体识别方法的流程图。

实施例二

如图3所示，本发明实施例提供了一种基于食品文献数据的多维度特征命名实体识别***，包括下述模块：

获取文献语料模块21，用于利用爬虫技术在网络上获取食品领域文献摘要，通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作，获得食品领域文献的语料；

获取字偏旁和字拼音特征向量模块22，用于利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音，分别将其输入到BiLSTM模型中进行编码，获得字偏旁特征向量S和字拼音特征向量P；

获取字维度的特征向量模块23，用于利用开放领域语料对Bert模型进行预训练，得到训练好的预训练模型；把食品领域文献的语料输入所述训练好的预训练模型中进行增量训练，得到字维度的特征向量Z；

获取融合全文语义信息的特征向量模块24，用于将字维度的特征向量Z、字偏旁特征向量S和字拼音特征向量P输入基于BiLSTM的神经网络模型，得到融合全文语义信息的特征向量；

获取命名实体识别结果模块25，用于将融合全文语义信息的特征向量输入CRF模型，计算标签结果，最后得到命名实体识别结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于食品文献数据的多维度特征命名实体识别方法，其特征在于，包括：

2.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法，其特征在于，所述步骤S2：利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音，分别将其输入到BiLSTM模型中进行编码，获得字偏旁特征向量S和字拼音特征向量P，具体包括：

获取所述字偏旁特征向量S＝[s₁,s₂,s₃...s_n]是利用中文偏旁能间接代表中文字的含义，获取与食物有关的字偏旁，其中，s_i是与食物有关的字偏旁向量；

获取所述字拼音特征向量P＝[p₁,p₂,p₃...p_m]是利用汉语拼音中包含字词语义的有效信息，其中，p_i是与食物有关的字拼音向量。

3.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法，其特征在于，所述步骤S3：利用开放领域语料对Bert模型进行预训练，得到训练好的预训练模型；把所述食品领域文献的数据库中的数据输入所述训练好的Bert模型中进行增量训练，得到字维度的特征向量Z，具体包括：

步骤S32：利用步骤S1中所述食品领域文献的语料对所述预训练模型进行增量训练，加入额外的中文食品领域特征，得到基于Bert模型的食品领域文献语料的字维度的特征向量Z＝[z₁，z₂，z₃...z_k]。

4.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法，其特征在于，所述步骤S4：将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型，得到融合全文语义信息的特征向量，具体包括：

将所述字维度向量表示Z、所述字偏旁特征向量S和所述字拼音特征向量P进行拼接，得到X＝concatenate(Z，S，P)，将X输入如下述公式(1)～公式(6)所示BiLSTM的神经网络模型：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (1)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (2)

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c) (3)

c_t＝i_tg_t+f_tc_t-1c_t＝i_tg_t+f_tc_t-1 (4)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o (5)

h_t＝o_ttanh(c_t) (6)

其中，W和b表示权重矩阵和偏置向量参数；x_t是t时刻的输入变量，x_t依赖于文本序列中位于其之前的单词，也依赖于位于其之后的单词；h_t-1是t-1时刻隐藏层状态；h_t是t时刻的隐藏层状态；c_t是t时刻细胞层状态；i_t、f_t、o_t和c_t分别表示输入门、遗忘门、输出门和细胞的激活向量，σ是sigmoid函数；o_t为BiLSTM的输出门在t时刻的输出结果。

5.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法，其特征在于，所述步骤S5中利用CRF模型计算标签结果的计算公式(7)如下所示：

其中，Score(X，y)为输出序列，X为输入的句子，y＝[y₁，y₂，y₃...y_n]为相应的输出标签结果序列；CRF模型由两部分组成，矩阵A和矩阵B：将BiLSTM的输出结果O＝[o₁，o₂，o₃...o_n]进行全连接，得到输出矩阵A＝[a₁，a₂，a₃...a_n]，以及基于t时刻的标签y_t和t+1时刻的标签y_t+1之间的转移矩阵B；

最后利用维特比算法计算输出序列，得到预测标签结果y*。

6.一种基于食品文献数据的多维度特征命名实体识别***，其特征在于，包括下述模块：

获取文献语料模块，用于利用爬虫技术在网络上获取食品领域文献摘要，通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作，获得食品领域文献的语料；

获取字偏旁和字拼音特征向量模块，用于利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音，分别将其输入到BiLSTM模型中进行编码，获得字偏旁特征向量S和字拼音特征向量P；

获取字维度的特征向量模块，用于利用开放领域语料对Bert模型进行预训练，得到训练好的预训练模型；把所述食品领域文献的语料输入所述训练好的预训练模型中进行增量训练，得到字维度的特征向量Z；

获取融合全文语义信息的特征向量模块，用于将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型，得到融合全文语义信息的特征向量；

获取命名实体识别结果模块，用于将所述融合全文语义信息的特征向量输入CRF模型，计算标签结果，最后得到命名实体识别结果。