CN111832282B

CN111832282B - 融合外部知识的bert模型的微调方法、装置及计算机设备

Info

Publication number: CN111832282B
Application number: CN202010688347.5A
Authority: CN
Inventors: 阮鸿涛; 郑立颖; 徐亮; 阮晓雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-04-14
Anticipated expiration: 2040-07-16
Also published as: WO2021139266A1; CN111832282A

Abstract

本发明公开了一种融合外部知识的BERT模型的微调方法、装置及计算机设备，该方法包括：若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量；从预设的外部知识库中提取所述中文语句的义原集合；将所述义原集合中的义原输入至所述BERT模型中以得到义原集合的义原向量集合；从所述义原向量集合中筛选出所述中文语句的义原向量；根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。本发明基于人工智能中的自然语言处理技术，不仅成功的将外部知识融合到所述BERT模型中以完成对所述BERT模型的微调，提高了BERT模型对文本的分析的准确率，而且还可根据外部知识扩展BERT模型对文本的分析领域。

Description

融合外部知识的BERT模型的微调方法、装置及计算机设备

技术领域

本发明涉及分类模型技术领域，尤其涉及一种融合外部知识的BERT模型的微调方法、装置及计算机设备。

背景技术

预训练模型(PTM，Pre training model)是一个在某个大型的数据集上进行了训练后保存下来的网络模型。预训练模型用于迁移学习，可被当成特征提取装置来进行使用。预训练模型的应用通常为一下过程：首先在计算性能满足的情况下先用某个较大的数据集训练出预训练模型，然后根据不同的任务改造预训练模型，最后用新任务的数据集在改造后预训练模型上进行微调。预训练模型的好处是训练代价较小，配合下游任务可以实现更快的收敛速度，并且能够有效地提高模型性能，尤其是对一些训练数据比较稀缺的任务，具有更好的效果，即让模型基于一个更好的初始状态进行学习，从而能够达到更好的性能。采用预训练模型无需重新训练整个网络结构，只需要针对其中的几层网络进行训练即可。

目前预训练模型用于下游分类任务有两种方法：基于特征(Feature-based)的方法和微调(Fine-tuning)的方法，其中Feature-based是指使用预训练语言模型训练出的词向量作为特征，输入到下游目标任务中，主要采用ELMO(Embedding from language model)模型，ELMO模型的网络结构采用了双层双向LSTM，ELMO给下游提供的是每个单词的特征形式，即上下文信息的Word Embedding，然后直接输入到其它网络(GRU、CNN)结构中，下游任务中需要训练的参数只是上文中提到的每个Embedding的权重即可。Fine-tuning是指在已经训练好的语言模型的基础上，加入少量的Task-specific parameters，然后在新的语料上重新训练来进行微调，其中，Fine-tuning中包括BERT(Bidirectional EncoderRepresentations fromTransformers，双向注意力神经网络模型)模型，BERT模型中的特征抽取使用的是Transformer，比LSTM具有更强的特征抽取能力，其中BERT使用MLM(MaskLanguage Model)的方式使得Transformer的encoder实现了融合双向特征，但是在BERT模型通过大规模无标注语料库的预训练后以及后续的微调过程中仍无法完全胜任特定领域的知识信息的分析任务。

发明内容

本发明实施例提供了一种融合外部知识的BERT模型的微调方法、装置及计算机设备，解决了BERT模型后续的微调过程中仍无法完全胜任特定领域的知识信息的分析任务的问题。

第一方面，本发明实施例提供了一种融合外部知识的BERT模型的微调方法，其包括：

若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量；

从预设的外部知识库中提取所述中文语句的义原集合；

将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合；

从所述义原向量集合中筛选出所述中文语句的义原向量；

根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。

第二方面，本发明实施例提供了一种融合外部知识的BERT模型的微调装置，其包括：

第一获取单元，用于若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量；

义原提取单元，用于从预设的外部知识库中提取所述中文语句的义原集合；

第二获取单元，用于将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合；

筛选单元，用于从所述义原向量集合中筛选出所述中文语句的义原向量；

融合单元，用于根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。

第三方面，本发明实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的融合外部知识的BERT模型的微调方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的融合外部知识的BERT模型的微调方法。

本发明实施例提供了一种融合外部知识的BERT模型的微调方法、装置及计算机设备，通过接收输入的中文语句后，通过预训练的BERT模型得到所述中文语句的句向量和词性向量，同时从预设的外部知识库中提取所述中文语句中所有语句的义原，然后对提取的义原进行筛选并输入至该预训练的BERT模型中以得到所述中文语句的义原向量，通过将所述中文语句的句向量、词性向量以及义原向量进行融合以完成所述BERT模型的微调。本发明所述的融合外部知识的BERT模型的微调方法不仅成功的将外部知识融合到所述BERT模型中以完成对所述BERT模型的微调，提高了BERT模型对文本的分析的准确率，而且还可根据外部知识以提高BERT模型对文本的分析领域。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的融合外部知识的BERT模型的微调方法的流程示意图；

图2为本发明实施例提供的融合外部知识的BERT模型的微调方法的子流程示意图；

图3为本发明实施例提供的融合外部知识的BERT模型的微调方法的另一子流程示意图；

图4为本发明实施例提供的融合外部知识的BERT模型的微调方法的另一子流程示意图；

图5为本发明实施例提供的融合外部知识的BERT模型的微调方法的另一子流程示意图；

图6为本发明实施例提供的融合外部知识的BERT模型的微调方法的另一子流程示意图；

图7为本发明实施例提供的融合外部知识的BERT模型的微调装置的示意性框图；

图8为本发明实施例提供的融合外部知识的BERT模型的微调装置的子单元示意性框图；

图9为本发明实施例提供的融合外部知识的BERT模型的微调装置的另一子单元示意性框图；

图10为本发明实施例提供的融合外部知识的BERT模型的微调装置的另一子单元示意性框图；

图11为本发明实施例提供的融合外部知识的BERT模型的微调装置的另一子单元示意性框图；

图12为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的融合外部知识的BERT模型的微调方法的流程示意图。所述融合外部知识的BERT模型的微调方法在服务器中进行搭建并运行，在服务器中对BERT模型进行微调的过程中接收输入的中文语句后，通过预训练的BERT模型得到所述中文语句的句向量和词性向量，同时从预设的外部知识库中提取所述中文语句中所有语句的义原，然后对提取的义原进行筛选并输入至该预训练的BERT模型中以得到所述中文语句的义原向量，通过将所述中文语句的句向量、词性向量以及义原向量进行融合不仅可以更新该预训练的BERT模型的外部网络，而且还可完成对该预训练的BERT模型的微调。

如图1所示，该方法包括步骤S110～S150。

S110、若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量。

若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量。其中，所述中文语句为对所述BERT模型进行微调的语句，所述BERT模型为预先已经训练好的语言模型，所述中文语句的词性向量为所述中文语句中包含有词语的词性的句向量。所述中文语句以字符串的形式输入至服务器中，当所述服务器接收到所述中文语句的字符串时，可通过两种方式根据所述BERT模型获取所述中文语句的句向量和词性向量。第一种方法为：对将所述中文语句进行分词处理以得到所述中文语句的词语后对所述词语进行词性标注以得到词性标注后的词语，然后将所述中文语句、所述词性标注后的词语分别输入至所述BERT模型中以得到所述中文语句的句向量和所述词语的词性向量，最后根据所述词语的词性向量便可构造所述中文语句的词性向量；第二种方法为：对将所述中文语句进行分词处理以得到所述中文语句的词语后对所述词语进行词性标注以得到词性标注后的词语，然后将所述词语、所述词性标注后的词语分别输入至所述BERT模型中以得到所述词语的词向量和词性向量，最后分别根据所述词语的词向量和词性向量便可构造所述中文语句的句向量和词性向量。

在一实施例中，如图2所示，步骤S110中根据所述BERT模型获取所述中文语句的句向量，包括步骤S111和S112。

S111、对所述中文语句进行分词处理以得到所述中文语句中的词语。

对所述中文语句进行分词处理以得到所述中文语句中的词语。具体的，在对所述中文语句进行分词处理的过程中，通常有三种方法对所述中文语句进行分词处理，包括：基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法，其中，所述基于字符串的分词方法为将汉字串与字典中的词条进行匹配的分词方法；所述基于统计的分词方法通过对语料中相邻共现的各个字的组合的频度进行统计，计算它们相邻共现的概率，从而判断相邻字是否可以成词；所述基于理解的分词方法通过让计算机模拟人对所述中文语句的理解以达到识别词的效果。在本发明实施例中，采用所述基于字符串的分词方法中的逆向最大匹配法对所述中文语句进行分词处理，其分词过程为：设定预置的词典中最长词条所包含的汉字数量为L，从所述中文语句的字符串末尾开始处理。在每一次循环开始时，都取所述字符串最后的L个字作为处理对象，查找所述词典。若所述词典中存在这样的一个L字词，则匹配成功，所述处理对象则被作为一个词被切分；若不成功，则去掉该处理对象的第一个汉字，剩下的字符串作为新的处理对象，再次进行匹配，直到切分成功为止，即完成一轮匹配，切分出一个词，类此循环直至所述中文语句中的词语全部被切分出来为止。

例如，词典中最长的词的长度为6，对于所述中文语句为“计算机科学与技术”这一个字符串，首先取“机科学与技术”6个字作为待处理字符串，词典中没有该词，所以匹配失败；去掉第一个字，剩下的“科学与技术”作为新的待处理的字符串，再次匹配失败；如此进行，最后去“技术”作为匹配字段，所述词典中有该词语，则匹配成功，切分处第一个词“技术”。再取所述中文语句中剩下的字符串“计算机科学与”，切分处第二个词“与”。如此循环，最后切分的结果为：“计算机”、“科学”、“与”、“技术”。

S112、将所述词语输入至所述BERT模型中以得到所述词语的词向量并根据所述词向量构造所述中文语句的句向量。

将所述词语输入至所述BERT模型中以得到所述词语的词向量并根据所述词向量构造所述中文语句的句向量。具体的，所述BERT模型是一个句子级别的语言模型，不像ELMo模型在与下游具体NLP任务拼接时需要每层加上权重做全局池化，BERT可以直接获得一整个句子的唯一向量表示。它在每个input前面加一个特殊的记号.[CL].，然后让Transformer对.[CL].进行深度encoding，由于Transformer是可以无视空间和距离的把全局信息encoding进每个位置的，而.[CL].的最高隐层作为句子/句对的表示直接跟softmax的输出层连接，因此其作为梯度反向传播路径上的“关卡”，可以学到整个input的上层特征。根据所述词向量构造所述中文语句的句向量的过程为：将所述中文语句中所有的词语输入至所述BERT模型中后便可得到所述中文语句中所有词语的词向量，然后将所述中文语句中所有词语的词向量以所述中文语句中字符的排列顺序进行矢量叠加便可得到所述中文语句的句向量。

在一实施例中，如图3所示，步骤S110中根据所述BERT模型获取所述中文语句的词性向量，包括步骤S113和S114。

S113、根据预设的词性标注规则对所述词语进行词性标注以得到词性标注后的词语。

根据预设的词性标注规则对所述词语进行词性标注以得到词性标注后的词语。其中，所述词性标注规则为对所述词语进行词性标注以得到所述词性标注后的词语的规则信息。所述词性标注是指为对所述词语标注一个正确的词性的程序，也即确定所述词语是名词、动词、形容词或者其他词性的过程。所述词性为所述词语的语法属性，是依据词在组合中的语法功能确定的。汉语中的词语的语法属性包括名词、动词、形容词、数词、量词、代词、区别词、副词、介词、连词、助词、叹词、语气词、拟声词共十四类属性。具体的，在对所述词语进行词性标注的过程中首先对所述中文语句进行句法分析以确定所述词语在所述语句中的位置关系，根据所述词语在所述语句中的位置关系从预设的词性标注集获取所述词语的词性信息，然后根据BIES标注标准对所述词语进行标注，即以B表示所述词语开头的字符，以E表示所述词语结尾的字符，以I表示所述词语中间的字符，以S表示单字成为所述词语的字符，X表示所述词语的词性信息。若所述词语为两个字符的词语，则所述词语表示为B-E-X；若所述词语为单个字符的，则所述词语表示为S-X；若所述词语为三个字符的词语，则所述词语表示为B-I-E-X；若所述词语为四个字符的词语，则所述词语表示为B-I-I-E-X。

S114、将所述词性标注后的词语输入至所述BERT模型中以得到所述词语的词性向量并根据所述词语的词性向量构造所述中文语句的词性向量。

将所述词性标注后的词语输入至所述BERT模型中以得到所述词语的词性向量并根据所述词语的词性向量构造所述中文语句的词性向量。具体的，所述词性标注后的词语携带有所述语句的词性信息，所述词语的词性向量为所述语句经所述BERT模型中的进行词向量化后得到的具有词性标注的词语向量，所述根据所述词语的词性向量构造所述中文语句的词性向量为：将所述中文语句中所有词语的词性向量以所述中文语句中字符的排列顺序进行矢量叠加便可得到所述中文语句的句向量。

S120、从预设的外部知识库中提取所述中文语句的义原集合。

从预设的外部知识库中提取所述中文语句的义原集合。具体的，所述外部知识库为开源知网(OpenHowNet)，OpenHowNet是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。所述义原为在语言学中是指最小的不可再分的语义单位，即一个词语可对应多个义原，所述义原集合为所述中文语句中的义原的集合。从所述外部知识库中提取所述中文语句的义原集合的过程为：对所述中文语句进行分词处理以得到所述中文语句的词语，根据所述词语与OpenHowNet中义原的映射关系从OpenHowNet中获取所有与所述词语相对应的义原并将所有与所述词语相对应的义原作为所述中文语句的义原集合。

S130、将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合。

将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合。具体的，所述义原集合的义原向量集合为所述义原集合中的义原向量的集合，所述义原集合中的义原在输入至所述BERT模型中之前以字符串的形式存在所述服务器中，故将所述义原集合中所有的义原均输入至所述BERT模型中进行向量化以获得所述义原集合中所有义原的义原向量，即为所述义原向量集合。

S140、从所述义原向量集合中筛选出所述中文语句的义原向量。

从所述义原向量集合中筛选出所述中文语句的义原向量。具体的，由于所述义原集合中的多个义原可对应所述中文语句中的每一个词语，将所述义原集合中的义原输入至所述BERT模型中后得到的所述义原向量集合，所述义原向量集合中的多个义原向量与所述中文语句中的每一个词语向量相对应，因此，需从所述义原向量集合中进行筛选以使得所述中文语句中每一个词语的只与所述义原向量集合中的一个义原向量相对应，即根据所述中文语句中每一个词语在所述中文语句中的词性从所述义原向量集合中进行筛选以得到所述中文语句的义原向量。

在一实施例中，如图4所示，步骤S140包括子步骤S141和S142。

S141、计算所述义原向量集合中的义原向量与所述词语的词性向量的相似度。

计算所述义原向量集合中的义原向量与所述词语的词性向量的相似度。具体的，所述相似度为所述义原向量集合中多个与所述词语相对应的义原向量分别与所述词语的词性向量进行距离计算而得到的距离的反应，距离越长，所述义原向量集合中的义原向量与所述词语词性向量的相似度越低，反之则相似度越高，并将相似度最高的义原向量作为所述中文语句中对应的词语的义原向量。其中，所述距离计算包括欧式距离计算、曼哈顿距离计算、切比雪夫距离计算、闵可夫斯基距离计算、标准化欧氏距离计算、马氏距离计算、夹角余弦计算、汉明距离计算、杰卡德相似系数计算、相关系数计算、信息熵计算等计算方法。在本实施例中采用欧式距离计算方式得到所述相似度得分。所述欧式距离是一个通常采用的距离定义，指在n维空间中两个点之间的真实距离，或者向量的自然长度。所述义原向量集合中的义原向量与所述词语的词性向量的欧式距离计算公式为：

其中，n表示向量的维度，x_1k为所述词语的词性向量，x_2k为所述义原向量集合中的义原向量。

S142、根据所述相似度从所述义原向量集合中获取所述中文语句的义原向量。

根据所述相似度从所述义原向量集合中获取所述中文语句的义原向量。由于所述相似度为所述义原向量集合中多个与所述词语相对应的义原向量分别与所述词语的词性向量进行距离计算而得到的距离的反应，距离越长，所述义原向量集合中的义原向量与所述词语词性向量的相似度越低，反之则相似度越高，因此，将所述义原向量集合中所有的义原向量均通过相似度计算，当所述义原向量集合中的某一个义原向量与所述词语的词性向量的距离最短时，则该义原向量与所述词语的词性向量的相似度最高，即为所述中文语句中的一个义原向量。

S150、根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。

根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。所述融合规则为将所述中文语句的句向量、词向量以及义原向量进行融合以完成所述BERT模型的微调的规则信息。具体的，通过所述融合规则不仅可以完成所述BERT模型的微调，而且还可对所述BERT模型的外部网络进行更新，进而提高所述BERT模型的对文本中语句进行分类的准确性。

在一实施例中，如图4所示，步骤S150包括子步骤S151和S152。

S151、将所述中文语句的词性向量、义原向量、句向量进行拼接以得到拼接后的句向量。

将所述中文语句的词性向量、义原向量、句向量进行拼接以得到拼接后的句向量。具体的，将所述中文语句的词性向量、义原向量、句向量进行拼接为将所述中文语句的词性向量、义原向量、句向量进行矢量叠加，进而得到一个拼接后的句向量，该拼接后的句向量不仅包含了所述中文语句的语义信息，而且还包含了与所述中文语句相对应的义原信息。

S152、将所述拼接后的句向量输入至预置的第一循环神经网络中以完成所述BERT模型的微调。

将所述拼接后的句向量输入至预置的第一循环神经网络中以完成所述BERT模型的微调。具体的，所述第一循环神经网络为所述BERT模型的已经训练好的外部网络，所述第一循环神经网络既可以为GRU循环神经网络，也可以为BiLSTM循环神经网络，所述拼接后的句向量输入至所述第一循环神经网络中后便可更新所述第一循环神经网络，即更新了所述BERT的外部网络，从而完成了所述BERT模型的微调。

在另一实施例中，如图6所示，步骤S150包括子步骤S1501和S1502。

S1501、将所述中文语句的词性向量、义原向量分别输入至预置的第二循环神经网络中以得到所述中文语句的词性句向量和义原句向量。

将所述中文语句的词性向量、义原向量分别输入至预置的第二循环神经网络中以得到所述中文语句的词性句向量和义原句向量。具体的，所述第二循环神经网路为所述BERT模型的已经训练好的外部网络，所述第二循环神经网络既可以为GRU循环神经网络，也可以为BiLSTM循环神经网络，将所述中文语句的词性向量、义原向量分别输入至所述第二循环神经网络中可对所述第二循环神经网络进行语义更新，所述第二循环神经网络输出的所述中文语句的词性句向量和义原句向量可用于所述后续对所述中文语句进行分析。

S1502、将所述中文语句的词性句向量、义原句向量、句向量进行拼接以完成所述BERT模型的微调。

将所述中文语句的词性句向量、义原句向量、句向量进行拼接以完成所述BERT模型的微调。具体的，所述中文语句的词性句向量、义原句向量、句向量进行拼接即为将所述中文语句的词性句向量、义原句向量、句向量进行矢量叠加，得到所述中文语句的语义向量，进而完成了对所述BERT模型的微调，解决了后续无法对同领域的中文语句的分析的问题。

本发明实施例还提供了一种融合外部知识的BERT模型的微调装置100，该装置用于执行前述融合外部知识的BERT模型的微调方法的任一实施例。具体地，请参阅图7，图7是本发明实施例提供的融合外部知识的BERT模型的微调装置100的示意性框图。

如图7所示，所述的融合外部知识的BERT模型的微调装置100，该装置包括第一获取单元110、义原提取单元120、第二获取单元130、筛选单元140和融合单元150。

第一获取单元110，用于若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量。

在其他发明实施例中，如图8所示，所述第一获取单元110包括分词单元111、第三获取单元112、词性标注单元113和第四获取单元114。

分词单元111，用于对所述中文语句进行分词处理以得到所述中文语句中的词语。

第三获取单元112，用于将所述词语输入至所述BERT模型中以得到所述词语的词向量并根据所述词向量构造所述中文语句的句向量。

词性标注单元113，用于根据预设的词性标注规则对所述词语进行词性标注以得到词性标注后的词语。

第四获取单元114，用于将所述词性标注后的词语输入至所述BERT模型中以得到所述词语的词性向量并根据所述词语的词性向量构造所述中文语句的词性向量。

义原提取单元120，用于从预设的外部知识库中提取所述中文语句的义原集合。

第二获取单元130，用于将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合。

筛选单元140，用于从所述义原向量集合中筛选出所述中文语句的义原向量。

在其他发明实施例中，如图9所示，所述筛选单元140包括计算单元141和选择单元142。

计算单元141，用于计算所述义原向量集合中的义原向量与所述词语的词性向量的相似度。

选择单元142，用于根据所述相似度从所述义原向量集合中获取所述中文语句的义原向量。

融合单元150，用于根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。

在其他发明实施例中，如图10所示，所述融合单元150包括第一拼接单元151和第一生成单元152。

第一拼接单元151，用于将所述中文语句的词性向量、义原向量、句向量进行拼接以得到拼接后的句向量。

第一生成单元152，用于将所述拼接后的句向量输入至预置的第一循环神经网络中以完成所述BERT模型的微调。

在其他发明实施例中，如图11所示，所述融合单元150包括第二生成单元1501和第二拼接单元1502。

第二生成单元1501，用于将所述中文语句的词性向量、义原向量分别输入至预置的第二循环神经网络中以得到所述中文语句的词性句向量和义原句向量。

第二拼接单元1502，用于将所述中文语句的词性句向量、义原句向量、句向量进行拼接以完成所述BERT模型的微调。

本发明实施例所提供的融合外部知识的BERT模型的微调装置100用于执行上述用于若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量；从预设的外部知识库中提取所述中文语句的义原集合；将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合；从所述义原向量集合中筛选出所述中文语句的义原向量；根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。

请参阅图12，图12是本发明实施例提供的计算机设备的示意性框图。

参阅图12，该设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行融合外部知识的BERT模型的微调方法。

该处理器502用于提供计算和控制能力，支撑整个设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行融合外部知识的BERT模型的微调方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图12中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量；从预设的外部知识库中提取所述中文语句的义原集合；将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合；从所述义原向量集合中筛选出所述中文语句的义原向量；根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。

本领域技术人员可以理解，图12中示出的设备500的实施例并不构成对设备500具体构成的限定，在其他实施例中，设备500可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，设备500可以仅包括存储器及处理器502，在这样的实施例中，存储器及处理器502的结构及功能与图12所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。

在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032，其中计算机程序5032被处理器502执行时实现以下步骤：若接收到输入的中文语句，根据所述BERT模型获取所述中文语句的句向量和词性向量；从预设的外部知识库中提取所述中文语句的义原集合；将所述义原集合中的义原输入至所述BERT模型中以得到所述义原集合的义原向量集合；从所述义原向量集合中筛选出所述中文语句的义原向量；根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备500(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种融合外部知识的BERT模型的微调方法，其特征在于，包括以下步骤：

若接收到输入的中文语句，根据BERT模型获取所述中文语句的句向量和词性向量；

从预设的外部知识库中提取所述中文语句的义原集合；

从所述义原向量集合中筛选出所述中文语句的义原向量；

根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调；

根据所述BERT模型获取所述中文语句的词性向量，包括：

根据预设的词性标注规则对词语进行词性标注以得到词性标注后的词语；所述词性标注包括词语在所述语句中的位置关系及词语的词性信息，所述位置关系包括词语开头、词语结尾、词语中间及单字词语；

将所述词性标注后的词语输入至所述BERT模型中以得到所述词语的词性向量并根据所述词语的词性向量构造所述中文语句的词性向量；

所述根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调，包括：

将所述中文语句的词性向量、义原向量、句向量进行拼接以得到拼接后的句向量；所述将所述中文语句的词性向量、义原向量、句向量进行拼接包括：将所述中文语句的词性向量、义原向量、句向量进行矢量叠加；

将所述拼接后的句向量输入至预置的第一循环神经网络中以完成所述BERT模型的微调；

或者是，所述根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调，包括：将所述中文语句的词性向量、义原向量分别输入至预置的第二循环神经网络中以得到所述中文语句的词性句向量和义原句向量；

将所述中文语句的词性句向量、义原句向量、句向量进行拼接以完成所述BERT模型的微调；所述将所述中文语句的词性句向量、义原句向量、句向量进行拼接，包括：将所述中文语句的词性句向量、义原句向量、句向量进行矢量叠加。

2.根据权利要求1所述的融合外部知识的BERT模型的微调方法，其特征在于，根据所述BERT模型获取所述中文语句的句向量，包括：

对所述中文语句进行分词处理以得到所述中文语句中的词语；

将所述词语输入至所述BERT模型中以得到所述词语的词向量并根据所述词向量构造所述中文语句的句向量。

3.根据权利要求1所述的融合外部知识的BERT模型的微调方法，其特征在于，所述从所述义原向量集合中筛选出所述中文语句的义原向量，包括：

计算所述义原向量集合中的义原向量与所述词语的词性向量的相似度；

根据所述相似度从所述义原向量集合中获取所述中文语句的义原向量。

4.一种融合外部知识的BERT模型的微调装置，其特征在于，包括：

第一获取单元，用于若接收到输入的中文语句，根据BERT模型获取所述中文语句的句向量和词性向量；

融合单元，用于根据预设的融合规则将所述中文语句的句向量、词性向量、义原向量进行融合以完成所述BERT模型的微调；

所述第一获取单元包括：

词性标注单元，用于根据预设的词性标注规则对词语进行词性标注以得到词性标注后的词语；所述词性标注包括词语在所述语句中的位置关系及词语的词性信息，所述位置关系包括词语开头、词语结尾、词语中间及单字词语；

第四获取单元，用于BERT模型中以得到所述词语的词性向量并根据所述词语的词性向量构造所述中文语句的词性向量；

所述融合单元，包括：第一拼接单元，用于将所述中文语句的词性向量、义原向量、句向量进行拼接以得到拼接后的句向量；所述将所述中文语句的词性向量、义原向量、句向量进行拼接包括：将所述中文语句的词性向量、义原向量、句向量进行矢量叠加；第一生成单元，用于将所述拼接后的句向量输入至预置的第一循环神经网络中以完成所述BERT模型的微调；

或者是，所述融合单元，包括：第二生成单元，用于将所述中文语句的词性向量、义原向量分别输入至预置的第二循环神经网络中以得到所述中文语句的词性句向量和义原句向量；

第二拼接单元，用于将所述中文语句的词性句向量、义原句向量、句向量进行拼接以完成所述BERT模型的微调；所述将所述中文语句的词性句向量、义原句向量、句向量进行拼接，包括：将所述中文语句的词性句向量、义原句向量、句向量进行矢量叠加。

5.根据权利要求4所述的融合外部知识的BERT模型的微调装置，其特征在于，所述第一获取单元，包括：

分词单元，用于对所述中文语句进行分词处理以得到所述中文语句中的词语；

第三获取单元，用于将所述词语输入至所述BERT模型中以得到所述词语的词向量并根据所述词向量构造所述中文语句的句向量。

6.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的融合外部知识的BERT模型的微调方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至3任一项所述的融合外部知识的BERT模型的微调方法。