CN110298042A

CN110298042A - 基于Bilstm-crf与知识图谱影视实体识别方法

Info

Publication number: CN110298042A
Application number: CN201910572843.1A
Authority: CN
Inventors: 孙云云; 唐军
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-01

Abstract

本发明公开了基于Bilstm‑crf与知识图谱影视实体识别方法，通过获取待识别文本的字符向量和词性向量，对字符向量和词性向量进行加权求和，并将结果输入至目标双向LSTM模型中进行处理，得到文本特征序列；将文本特征序列输入至目标CRF模型中进行处理，得到待识别文本的命名实体识别结果；将命名实体识别结果去影视知识图谱中查询进一步验证结果。本发明能够有效对用户偏口语化的影视搜索文本进行实体提取，并充分利用影视知识图谱挖掘用户抽象的影视搜索意图，提升用户的使用体验。在标注数据少的情况下通过语言模型训练的词向量作为神经网络的底层输入，提高了训练效率，具有很好的应用前景，可以广泛应用于各领域的实体识别场景。

Description

基于Bilstm-crf与知识图谱影视实体识别方法

技术领域

本发明深度学习自然语言处理技术领域，尤其涉及基于Bilstm-crf与知识图谱影视实体识别方法。

背景技术

电视是每个家庭必备的设备，几乎每天都有新的影视剧上架，这使得人们可从电视上搜索到大量的影视资源，如人们可通过导演、演员、片名、类型等信息搜索影视资源，如何用一种有效地方式能够准确的提取影视实体，以帮助用户快速找到其心仪的影视剧，成为了一个重要的需求。

传统的命名实体识别多采用基于规则和统计机器学习的方法。最初，命名实体识别采用基于词典和规则的方法。这些方法大多以语言学专家建立的规则知识库和词典为基础，采用模式匹配或者字符串匹配的方法识别命名实体。对于规律性强的文本，基于规则的方法准确而且高效。但对于规律性不强的文本，规则的编写变得困难，识别效果也不理想，且基于词典的命名实体识别严重依赖于词典库，不能够识别未登录词。所以人们开始将目光投向机器学习的方法。

在命名实体识别领域常用的机器学习方法有隐马尔可夫模型(HiddenMarkovModel，HMM)、条件随机场模型(Conditional Random Fields，CRF)、最大熵模型(MaximumEntropy)、支持向量机模型(Support Vector Machine，SVM)等。其中最典型的也是应用比较成功的是隐马尔可夫模型和条件随机场模型。基于机器学习的方法在迁移性、识别效果等方面的表现优于基于规则的方法，但使用统计机器学习方法的命名实体识别模型也存在一些局限性。一方面，为了使推理易于处理，它需要明确的依赖性假设；另一方面，以统计模型为基础的机器学习方法对特征选取的要求比较高，需要选择对命名实体识别任务有影响的各种特征，即特征工程(feature engineering)，它对识别结果有重要影响，但是该过程费时费力，而且基于词频统计的HMM和CRF方法只能关联当前词的前一个词的语义，识别精度不够高，尤其是未登录词的识别率较低；最后，它们通常需要大量的与任务相关的特定知识，如设计HMM的状态模型，或选择CRF的输入特征。

近年来，随着硬件能力的发展以及词的分布式表示(word embedding)的出现，神经网络成为可以有效处理许多NLP(自然语言处理)任务的模型。这类方法对于序列标注任务(如POS(词性标注)、NER(命名实体识别))的处理方式是类似的，将token(标记)从离散one-hot(独热码)表示映射到低维空间中成为稠密的embedding(向量嵌入)，随后将句子的embedding(向量嵌入)序列输入到RNN(循环神经网络)中，用神经网络自动提取特征，Softmax(归一化指数函数)来预测每个token(标记)的标签。这种方法使得模型的训练成为一个端到端的整体过程，而非传统的pipeline(管道)，不依赖特征工程，是一种数据驱动的方法；但网络变种多、对参数设置依赖大，模型可解释性差。此外，这种方法的一个缺点是对每个token打标签的过程中是独立的分类，不能直接利用上文已经预测的标签(只能靠隐状态传递上文信息)，进而导致预测出的标签序列可能是非法的，例如标签B-PER(BIO序列标注模式)后面是不可能紧跟着I-LOC(BIO序列标注模式)的，但Softmax(归一化指数函数)不会利用到这个信息。

目前，学界提出了LSTM-CRF(长短期记忆网络加条件随机场)模型做序列标注。在LSTM(长短期记忆网络)层后接入CRF(条件随机场)层来做句子级别的标签预测，使得标注过程不再是对各个token(标记)独立分类。

发明内容

针对上述问题，本发明提出了基于Bilstm-crf与知识图谱影视实体识别方法，解决标注数据少及文本简短、口语化的影视文本数据的实体识别问题。

本发明通过以下技术方案来实现上述目的：

基于Bilstm-crf与知识图谱影视实体识别方法，包括以下步骤：

步骤1：从各大影视数据源实时收集影视数据信息，如，豆瓣、百度百科等，爬取各影视名、演员、角色、人物关系等各实体信息，建立影视知识图谱；

步骤2：从电视端收集通过语音转换为文本的用户搜索影视的数据；分析收集到的数据，对有一定规律用户常用的搜索语句打标签，用于模型训练及词向量训练；

步骤3：实体识别模型训练，该模型由特征表示层、BiLSTM和CRF层3部分构成：

(1)、特征表示层：由词性向量和字符向量组成；字符向量是通过LM模型训练得到的，词性向量由分词后词性标注得到one-hot词性向量，最终将词性向量层和字符向量层按权重拼接为最终的词向量层；最后，将词性向量和字符级向量进行拼接以表示单词在特定语义空间下的特征；

(2)、BiLSTM：由正向和反向的长短时记忆网络LSTM组成；正向和反向LSTM接收特征表示层的出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成待解码的得分信息；

(3)、CRF：CRF层接受BiLSTM的输出得分作为输入，同时引入转移得分矩阵，根据序列得分选择全最优的标签序列；

步骤4：结果验证，对模型预测结果验证，规则与知识图谱的结合提高实体识别效率。

进一步方案为，所述步骤2中，对从电视端采集的大量用户数据做频次统计、k-Means聚类分析。

本发明的有益效果在于：

本发明能够有效对用户偏口语化的影视搜索文本进行实体提取，并充分利用影视知识图谱挖掘用户抽象的影视搜索意图，提升用户的使用体验。在标注数据少的情况下通过语言模型训练的词向量作为神经网络的底层输入，提高了训练效率，具有很好的应用前景，可以广泛应用于各领域的实体识别场景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的影视实体识别流程图；

图2为本发明方法中的Bilstm-crf模型结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在任一实施例中，如图1所示，本发明的基于Bilstm-crf与知识图谱影视实体识别方法，包括以下步骤：

所述步骤2中，对从电视端采集的大量用户数据做频次统计、k-Means聚类分析。

k-Means聚类分析算法简述如下：

选择K个点作为初始质心；

将每个点指派到最近的质心，形成K个簇；

重新计算每个簇的质心；

until簇不发生变化或达到最大迭代次数；

经过测试调参这里选择15个聚类点，会将用户说法意图相似的语句聚类到一起；

结合频次分析及聚类分析的结果，大概预知用户常用的影视搜查语句，确定要识别的实体类型、标签统一命名，目前有27个标签。

语言模型预训练过程：词向量训练前对数据预处理去除特殊标点符号、英文大小写转换等，将处理后的数据大量用户规范数据使用gensim工具包的word2vec训练，训练为维度300维的词向量；词性向量，首先将每个句子用jieba分词，分词的词典是经过数据分析后得到的用户常用的如‘我想看’、‘我想听’等固定的词，这个词典已经按权重标注了其词性；然后将每句话对应的词性序列转换为300维的one-hot词向量，最后将词性向量与word2vec训练出的字符向量按一定权重相加，最终得到词向量作为双向lstm网络的初始参数。

用大量真实数据训练的词向量一定程度上解决了标注数据少的情况下使用深度神经网络做实体识别的问题，BIlstm神经网络的初始参数不再是没有意义的随机参数，大量数据训练的词向量会得到中文字偏旁等初始信息作为神经网络的底层输入，本来还加入了词性向量，能有效的对输入本文领域的进行识别。

模型训练数据准备：数据标注；

从用户数据中筛选出包含各个标签的常用数据来人工标注，使用Bakeoff-3评测中所采用的的BIO标注集，如下标注形式：

我想看刘德华的天下无贼；

0 0 0 B-actor I-actor I-actor 0 B-movie_name I-movie_name I_movie_name I_movie_name；

为了让每个标签数据不会出现太多的倾斜，我们将出现频次少的tag，type都标注成一个标签，预测出来后再按优先级去查知识图谱验证。目前模型训练数据25674条，随着用户需求的改变，模型会不算迭代更新，相应的训练数据也会增加。

模型训练：

将所有标注的训练数据按0.6、0.3、0.1的比例划分为训练数据集、测试数据集和验证数据集。

以句子为单位，将一个含有n个字的句子(字的序列)记作：

x＝(x₁，x₂，...，x_n)；

其中，x_i表示句子的第i个字在字典中的id，进而可以得到每个字的的word2Id向量，维数是字典大小。

这里的字典是从所有训练数据中统计每个频次，并按从大到小排序后，得到每个字对应的唯一的id，为登录词标记位‘UNK’。

模型的第一层是look-up层，利用预训练或随机初始化的embedding矩阵将句子中的每个字x_i由one-hot向量映射为低维稠密的字向量(character embedding)x_i∈R²是embedding的维度。在输入下一层之前，设置dropout以缓解过拟合。

模型的第二层是双向LSTM层，自动提取句子特征。将一个句子的各个字的character embedding序列(x₁，x₂，...，x_n)作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列：

(h₁，h₂，...，h_n)∈R^n*m；

在设置dropout后，接入一个线性层，将隐状态向量从m维映射到k维，k是标注集的标签数，从而得到自动提取的句子特征，记作矩阵P＝(p₁，p₂，...，p_n)∈R^n*k。可以把p_i∈R^k的每一维p_ij都视作字x_i分类到第j个标签的打分值，如果再对P进行Softmax的话，就相当于对各个位置独立进行k类分类。但是这样对各个位置进行标注时无法利用已经标注过的信息，所以接下来将进入一个CRF层来进行标注。

模型的第三层是CRF层，进行句子级的序列标注，CRF层的参数是一个(k+2)×(k+2)的矩阵A，

A_ij表示的是从第i个标签到第j个标签的转移得分，进而在一个位置进行标注的时候可以利用此前已经标注过的标签，之所以要加2是应为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y＝(y₁，y₂，...，y_n)，那么模型对于句子x的标签等于y的打分为

可以看出整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由LSTM输出p_i决定，另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率：

模型训练时通过最大化对数似然函数，下式给出了对一个训练样本(x，y^x)的对数似然：

logP(y^x|x)＝score(x，y^x)-log(∑exp(score(x，y′)))；

如果这个算法要式子实现的话，需要注意的是指数的和的对数要转换成在CRF中上式的第二项使用前向后向算法来高效计算。

模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径：

Bilstm加crf而不是原因，CRF层能从训练数据中获得约束性的规则，CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到。

这些约束可以是：

I：句子中第一个词总是以标签“B-“或“0”开始，而不是“I-”；

II：标签“B-label1 I-label2 I-label3 I-…”，label1，label2，Iabel3应该属于同一类实体。例如，“B-Person I-Person”是合法的序列，但是“B-Person I-Organization”是非法标签序列；

III：标签序列“0 I-labe1”is非法的.实体标签的首个标签应该是“B-“，而非“I-“，换句话说，有效的标签序列应该是“0 B-labe1”。

有了这些约束，标签序列预测中非法序列出现的概率将会大大降低，由于BiLSTM的输出为单元的每一个标签分值，我们可以挑选分值最高的一个作为该单元的标签；虽然我们可以得到句子x中每个单元的正确标签，但是我们不能保证标签每次都是预测正确的，整个模型的结构如图2所示。

另外，本发明的数据分析流程如下：

从大量采集到的用户数据中通过K-means聚类、频次等分析用户影视搜索的基本需求，如常用搜索句式、按什么条件搜索视频等，结合业务需求，确定实体类别及命名；然后人工按BIO标准标注训练数据，由于没现成可用的标注数据，利用大量用户真实数据及word2vec语言模型训练300维度的字符向量及one-hot词性向量，并按一定权重合并文本的字符向量和词性向量，作为双向lstm的底层输入。

实体识别模型的训练如下：

以句子为单位，将一个含有n个字的句子(字的序列)记作：

x＝(x₁，x₂，...，x_n)；

这里的字典是从所有训练数据中统计每个词的频次，并按从大到小排序后，得到每个字对应的唯一的id，未登录词标记位‘UNK’。

模型训练主要包括以下3部分：

1.输入字/词向量表示。

使用紧密(dense)向量表示每个词，加载预先训练好的字向量(Word2Vec)与词性向量。将从单个字(单个字母)中提取一些含义，从词性向量中获取句子的含义。对每一个字，我们需要构建一个向量来获取这个字的意思以及对实体识别有用的一些特征，这个向量由Word2Vec训练的字向量和从词性中提取出特征的向量按权重堆叠而成的

2.上下文字的语义表示：对上下文中的每一个字，需要有一个有意义的向量表示。使用BILSTM来获取上下文中字的向量表示。当我们得到字最终的向量表示后，对字向量的序列进行bi-LSTM。使用每一个时间点的隐藏状态，而不仅仅是最终状态。输入m个词向量，获得m个隐藏状态的向量，然而字向量只是包含字级别的信息，而隐藏状态的向量考虑了上下文。

3.解码：当我们有每个字的向量表示后，来进行实体标签的预测。

在解码阶段计算标签得分，使用每个词对应的隐藏状态向量来做最后预测，可以使用一个全连接神经网络来获取每个实体标签的得分。

假设有9个类别，使用W∈R^9×k和b∈R⁹来计算得分s∈R⁹＝W·h+b，可以将s[i]理解为词w对应标签i的得分。

使用线性crf给实体标签的得分：softmax方法是做局部选择，换句话说，即使bi-LSTM产生的h中包含了一些上下文信息，但标签决策仍然是局部的。没有利用周围的标签来帮助决策。例如：“杨幂”，当我们给了幂“I-actor”这个标签后，这应该帮助我们决定“杨”对应I-actor的起始位置，线性CRF定义了全局得分。

最后，将训练的模型及相应参数保存。

数据预处理过程如下：

这里主要对模型预测前的数据处理，去特殊符号等；将文本数据处理为模型预测要求的格式，即将文本转换为wordId词向量，维度是训练数据词库字典的长度。

模型预测如下：

将处理后的数据输入模型进行预测，预测结果可能的情况如下：

(1)、我想看张艺谋导演的归来；

0 0 0 B-director_name I-director_name I-director_name 0 0 B-movie_name I-movie_name；

(2)、刘德华的大话西游；

B-actor I-actor I-actor 0 B-movie_name I-movie_name I-movie_name；

(3)、邓超老婆演的电影；

B-actor I-actor 0 0 B-relation I-relation 0 00；

(4)、凉生可不可以不悲伤；

0 0 0 0 0 0 B-movie_name I-movie_name I-movie_name；

(5)、推荐一部最火的电影；

0 0 0 0 0 0 0 0 0；

1、预测结果无实体处理；

对模型预测中预测结果(5)中没有实体出现的情况：

数据处理：1、去除前后冗余部门‘我想看’，‘我要看’、‘播放’、‘有吗’等；

2、对film集/季/部、版本、语言等实体规则提取，事先维护了语言、版本、国家等不长变动、有线的特殊数据，这个数据同时在存在于知识图谱，本发明是将这部分数据存以字典的形式存入内存的。类似{‘英语’：‘英语’，‘英文’：‘英语’，‘外语’：‘英语’}形式，会将其所有同义词考虑在内。将对应的实体用正则匹配后并将实体替换为空如‘我想看速度与激情英文版’，如果模型没有预测实体结果，去掉前后冗余部分和特定实体后‘速度与激情英’在将其搜索知识图谱得到对应的实体结果。

3、预测结果有实体处理；

如上模型预测中预测结果(1)、(2)、(3)、(4)有实体结果标签的将对应实体搜索知识图谱验证是否有真实存在这样的实体，如(2)中刘德华实际没有演过大话西游，将向用户推荐刘德华的其他电影，而不是返回用户没找到该影片，提高用户的体验；预测结果(3)实际用户想要观看的是孙俪的电影，此是实体抽象关系的挖掘，能够更好的满足用户需求。知识图谱验证进一步提高了实体的效果。对(4)这种虽然实体结果，但在知识图谱中没找到对应的影视名称实体视为预测失败，再执行下面的实体结果封装输出处理。

实体结果封装输出如下：

不符合逻辑的实体预测结果处理，如‘刘德华第三个’识别actor：刘德华，season：将删除season实体，结果封装。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.基于Bilstm-crf与知识图谱影视实体识别方法，其特征在于，包括以下步骤：

步骤1：从各大影视数据源实时收集影视数据信息，爬取各影视名、演员、角色、人物关系等各实体信息，建立影视知识图谱；

2.如权利要求1所述基于Bilstm-crf与知识图谱影视实体识别方法，其特征在于，所述步骤2中，对从电视端采集的大量用户数据做频次统计、k-Means聚类分析。