CN115238683B

CN115238683B - 循环自注意力的停用词识别方法、装置、设备及介质

Info

Publication number: CN115238683B
Application number: CN202210949814.4A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2023-06-20
Anticipated expiration: 2042-08-09
Also published as: CN115238683A

Abstract

本发明涉及语音语义技术领域，揭露了一种循环自注意力的停用词识别方法、装置、设备及介质。所述方法包括：将文本语句进行分词，得到词组集合；对词组集合进行量化编码，并根据预设的填充排序策略，将编码结果进行填充连接操作，得到初始量化文本矩阵；利用随机初始化权重矩阵对初始量化文本矩阵进行矩阵乘积，得到文本量化矩阵；利用预构建的注意力配置网络，对文本量化矩阵中各个词组对应的词向量进行注意力权重配置，得到注意力文本量化矩阵，并遍历预设次数，得到更新注意力文本量化矩阵；对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量。本发明可以不通过停用词字典的查询过程，实现动态识别停用词。

Description

循环自注意力的停用词识别方法、装置、设备及介质

技术领域

本发明涉及语音语义技术领域，尤其涉及一种循环自注意力的停用词识别方法、装置、设备及介质。

背景技术

随着算法水平的提高，语义识别已经成为智能文本处理中的常用方法，在语义识别过程中，需要对文本进行分词处理，然后对分词中的停用词进行删除，最后对剩下的词语进行语义识别。其中，所述停用词是指一些无实际意义但经常出现的词语，在语义识别过程中中，删除停用词能够节省存储空间和提高识别效率。

目前停用词处理方面使用的是手动收集一系列词语，做成停用词的字典。在文本句子输入模型前，先分词，然后把分好的词依次与停用词字典里的词进行比较，如果当前的词出现在停用词字典里，则删除。其中，停用词字典的构建过程及词语遍历对比过程需要消耗大量的计算资源。

发明内容

本发明提供一种循环自注意力的停用词识别方法、装置、设备及介质，其主要目的在于不通过停用词字典的查询过程，实现动态识别停用词。

为实现上述目的，本发明提供的一种循环自注意力的停用词识别方法，包括：

利用分词工具将预构建的文本语句进行分词处理，得到词组集合；

利用one-hot量化工具对所述词组集合进行量化编码，得到初始词向量集合，并根据预设的填充排序策略，将所述初始词向量集合中的各个初始词向量进行填充连接操作，得到初始量化文本矩阵；

利用预构建的随机初始化权重矩阵对所述初始量化文本矩阵进行矩阵乘积操作，得到文本量化矩阵；

利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置，得到注意力文本量化矩阵；

根据预设的循环策略，对所述利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置的操作循环预设次数，得到更新注意力文本量化矩阵；

利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量。

可选的，所述利用预构建的注意力配置网络，对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置操作，得到注意力文本量化矩阵，包括：

利用预构建的注意力配置网络，从所述文本量化矩阵中依次提取一个词组对应的词向量，并在根据预设的第一张量、第二张量及第三张量分别对所述词向量进行加权计算，得到第一词向量集合、第二词向量集合及第三词向量集合；

依次从所述第一词向量集合中提取一个第一词向量，并利用所述第一词向量与所述第二词向量集合中各个第二词向量依次进行向量内积，得到向量关联数值集合，并利用softmax函数对所述向量关联数值集合进行归一化操作，得到注意力权重集合；

将所述第三词向量集合中各个第三词向量与所述注意力权重集合中各个注意力权重，根据各个词组的对应关系进行权重计算，得到加权向量集合；

根据预构建的第一随机权重矩阵、第二随机权重矩阵及第三随机权重矩阵分别对所述加权向量集合进行加权计算，得到第一加权词向量集合、第二加权词向量集合及第三加权词向量集合；

依次从所述第一加权词向量集合中提取一个加权词向量，并利用所述加权词向量与所述第二加权词向量集合中各个第二加权词向量依次进行向量内积，得到加权向量关联数值集合，并利用所述softmax函数对所述加权向量关联数值集合进行归一化操作，得到加权注意力权重集合；

将所述第三加权词向量集合中各个第三加权词向量与所述加权注意力权重集合中各个加权注意力权重，根据各个词组的对应关系进行权重计算，得到重加权向量集合；

对所述重加权向量集合中的各个重加权向量进行基于字级别的全连接操作，得到注意力文本量化矩阵。

可选的，所述根据预设的填充排序策略，将所述初始词向量集合中的各个初始词向量进行填充连接操作，得到初始量化文本矩阵，包括：

根据所述词组集合中词组的个数，配置词向量长度；

将所述初始词向量集合中各个初始词向量进行长度补全操作，得到补全词向量；

根据各个词组在所述文本语句中的顺序，将各个词组对应的补全词向量进行连接，得到初始量化文本矩阵。

可选的，所述利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作之前，所述方法还包括：

将所述注意力配置网络与预构建的下游任务分类器进行连接，得到下游任务分类模型；

获取下游任务对应的训练样本集，并利用所述训练样本集中的训练样本，对所述下游任务分类模型进行正向网络计算，得到预测结果，并利用交叉熵损失函数计算所述预测结果与所述训练样本对应的真实结果的损失值；

最小化所述损失值，得到损失值最小时的模型参数，并利用所述模型参数进行网络逆向更新所述下游任务分类模型；

判断所述损失值是否收敛；

当所述损失值未收敛时，返回获取下游任务对应的训练样本集的步骤，获取新样本对所述下游任务分类模型进行迭代训练；

当所述损失值收敛时，得到训练完成的下游任务分类模型。

可选的，所述利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量之后，所述方法还可以包括：

根据所述停用词向量，对更新注意力文本量化矩阵进行停用词过滤，得到文本筛选量化矩阵；

利用所述下游任务分类器对所述文本筛选量化矩阵进行下游任务处理。

为了解决上述问题，本发明还提供一种循环自注意力的停用词识别装置，所述装置包括：

分词模块，用于利用分词工具将预构建的文本语句进行分词处理，得到词组集合；

量化模块，用于利用one-hot量化工具对所述词组集合进行量化编码，得到初始词向量集合，并根据预设的填充排序策略，将所述初始词向量集合中的各个初始词向量进行填充连接操作，得到初始量化文本矩阵，及利用预构建的随机初始化权重矩阵对所述初始量化文本矩阵进行矩阵乘积操作，得到文本量化矩阵；

注意力配置模块，用于利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置，得到注意力文本量化矩阵，及根据预设的循环策略，对所述利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置的操作循环预设次数，得到更新注意力文本量化矩阵；

停用词识别模块，用于利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量。

根据预构建的第一随机权重矩阵、第二随机权重矩阵及第三随机权重矩阵对所述加权向量集合进行加权计算，得到第一加权词向量集合、第二加权词向量集合及第三加权词向量集合；

对所述重加权向量集合进行基于字级别的全连接操作，得到注意力文本量化矩阵。

根据所述词组集合中词组的个数，配置词向量长度；

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的循环自注意力的停用词识别方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的循环自注意力的停用词识别方法。

本发明实施例利用分词工具获取词组集合，然后进行量化编码，得到文本量化矩阵，其中，所述文本量化矩阵中没有进行停用词的删除操作，节约了停用词查询及停用词字典的构建、更新过程，节约了计算资源与时间；然后本发明利用预构建的注意力配置网络，对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置操作，得到注意力文本量化矩阵，其中，所述注意力配置网络为多个基于循环注意力机制和全连接网络构成的单元而组合得到的网络，其中，每一单元包含一次注意力分配的循环过程，可以对词组之间重要程度进行权重配置，自动降低停用词的权重，其中，所述根据预设的循环策略所述注意力配置网络中有多个单元，可以进一步的降低停用词的权重，最后进行低权重识别即可得知停用词。因此，本发明实施例提供的一种循环自注意力的停用词识别方法、装置、设备及存储介质，能够在于不通过停用词字典的查询过程，实现动态识别停用词。

附图说明

图1为本发明一实施例提供的循环自注意力的停用词识别方法的流程示意图；

图2为本发明一实施例提供的循环自注意力的停用词识别方法中一个步骤的详细流程示意图；

图3为本发明一实施例提供的循环自注意力的停用词识别方法中一个步骤的详细流程示意图；

图4为本发明一实施例提供的循环自注意力的停用词识别方法中一个步骤的详细流程示意图；

图5为本发明一实施例提供的循环自注意力的停用词识别装置的功能模块图；

图6为本发明一实施例提供的实现所述循环自注意力的停用词识别方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种循环自注意力的停用词识别方法。本申请实施例中，所述循环自注意力的停用词识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述循环自注意力的停用词识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本发明一实施例提供的循环自注意力的停用词识别方法的流程示意图。在本实施例中，所述循环自注意力的停用词识别方法包括以下步骤S1～S6：

S1、利用分词工具将预构建的文本语句进行分词处理，得到词组集合。

本发明实施例中，所述分词工具可以为开源的jieba或NLPIR汉语分词***等工具进行分词操作，得到词组集合。

其中，本发明实施例中，所述文本语句可以为“我已经开始在家工作了”，通过分词过程可以得到词组集合【“我”、“已经”、“在”、“家”、“工作”、“了”】。

S2、利用one-hot量化工具对所述词组集合进行量化编码，得到初始词向量集合，并根据预设的填充排序策略，将所述初始词向量集合中的各个初始词向量进行填充连接操作，得到初始量化文本矩阵。

所述one-hot量化工具为使用多位状态寄存器来对多个状态进行编码的编码工具，其中，每个词组可以作为一个状态。

详细的，参考图2所示，本发明实施例中，所述根据预设的填充排序策略，将所述初始词向量集合中的各个初始词向量进行填充连接操作，得到初始量化文本矩阵，包括步骤S21～S23：

S21、根据词组集合中词组的个数，配置词向量长度；

S22、将所述初始词向量集合中各个初始词向量进行长度补全操作，得到补全词向量；

S23、根据各个词组在所述文本语句中的顺序，将各个词组对应的补全词向量进行连接，得到初始量化文本矩阵。

本发明实施例中，通过量化工具进行量化编码，可以将所述“我”量化为“1”、所述“已经”可以量化为“10”、所述“在”可以量化为“100”，……。

根据所述词组集合可知词组数量为6，则编码长度可以为6，可以将各个量化编码进行填充，得到所述“我”量化为“000001”，所述“已经”量化为“000010”、……、所述“了”量化为“100000”。

进一步的，本发明实施例中，分词工具得到的词组集合中的各个词组的顺序被打乱，为增强文本识别准确性，需要根据所述文本语句的顺序进行排布，得到初始量化文本矩阵，如：

S3、利用预构建的随机初始化权重矩阵对所述初始量化文本矩阵进行矩阵乘积操作，得到文本量化矩阵。

本发明实施例中，通过矩阵生成工具生成一个随机初始化权重矩阵W，其中，所述随机初始化权重矩阵W为N*512，其中，N为所述词组集合中词组的数量为6。则根据6*6的初始量化文本矩阵与6*512的随机初始化权重矩阵W进行举证乘积，则可以得到一个6*512的文本量化矩阵。

S4、利用预构建的注意力配置网络，对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置操作，得到注意力文本量化矩阵。

本发明实施例中，所述注意力配置网络为一个有注意力机制及全连接层构成的多单元网络，用于通过注意力机制不断增加普通词组与停用词之间的差距。

进一步的，所述文本量化矩阵为6行，每一行的512个字节可以代表一个词组的词向量。

详细的，参考图3所示，本发明实施例中，所述利用预构建的注意力配置网络，对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置操作，得到注意力文本量化矩阵，包括步骤S41～S47：

S41、利用预构建的注意力配置网络，从所述文本量化矩阵中依次提取一个词组对应的词向量，并在根据预设的第一张量、第二张量及第三张量分别对所述词向量进行加权计算，得到第一词向量集合、第二词向量集合及第三词向量集合；

S42、依次从所述第一词向量集合中提取一个第一词向量，并利用所述第一词向量与所述第二词向量集合中各个第二词向量依次进行向量内积，得到向量关联数值集合，并利用softmax函数对所述向量关联数值集合进行归一化操作，得到注意力权重集合；

S43、将所述第三词向量集合中各个第三词向量与所述注意力权重集合中各个注意力权重，根据各个词组的对应关系进行权重计算，得到加权向量集合；

S44、根据预构建的第一随机权重矩阵、第二随机权重矩阵及第三随机权重矩阵分别对所述加权向量集合进行加权计算，得到第一加权词向量集合、第二加权词向量集合及第三加权词向量集合；

S45、依次从所述第一加权词向量集合中提取一个加权词向量，并利用所述加权词向量与所述第二加权词向量集合中各个第二加权词向量依次进行向量内积，得到加权向量关联数值集合，并利用所述softmax函数对所述加权向量关联数值集合进行归一化操作，得到加权注意力权重集合；

S46、将所述第三加权词向量集合中各个第三加权词向量与所述加权注意力权重集合中各个加权注意力权重，根据各个词组的对应关系进行权重计算，得到重加权向量集合；

S47、对所述重加权向量集合中的各个重加权向量进行基于字级别的全连接操作，得到注意力文本量化矩阵。

本发明实施例中，从所述文本量化矩阵中依次提取一个词组对应的词向量x为1*512，然后将所述词向量通过权重配置分为三份，作为一张量q、第二张量k及第三张量v，其中，所述权重配置可以相同。

当所述文本量化矩阵中个的全部词向量均提取完成后，得到第一词向量集合qi、第二词向量集合ki及第三词向量集合ki，所述i属于1～6。

然后从所述第一词向量集合qi中依次提取一个第一词向量，如q1，然后将q1与k1，k2，k3等分别做向量内积计算，q1与k1内积得到a1，q1与k2内积得到a2，q1与k3内积得到a3，……，其中，所述q1与k1均为1*512的向量，根据向量内积为两向量的关联度的数学经验，因此a1、a2等均为一个数值，而不是向量，所以通过把a1，a2，a3等作为softmax的输入，进行归一化，得到注意力权重集合a1’，a2’，a3’等，其中，a1’+a2’+a3’+……＝1。再用a1’乘以v1，a2’乘以v2，a3’乘以v3，……，得到加权向量集合v1’，v2’，v3’等。

其中，所述加权向量集合v1’，v2’，v3’等，分别为经过注意力权重配置过的词向量x，为实现模型数据对齐，本发明实施例通过第一随机权重矩阵Wq、第二随机权重矩阵Wk及第三随机权重矩阵Wv，对所述v1’，v2’，v3’……进行再一次权重注意力配置操作，得到得到v1”，v2”，v3”……，其中，所述Wq，Wk，Wv，这三个矩阵都是512*512的。

然后，本发明实施例通过基于字级别的全连接层将v1”，v2”，v3”进行赋予全新的权重进行全连接操作，得到包含w1*v1”，w2*v2”，w3*v3”等的x’，其中，所述w1、w2、w3等各个全连接中各个神经原上的权重系数，可以通过后续训练过程进行优化。

S5根据预设的循环策略，对所述利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置的操作循环预设次数，得到更新注意力文本量化矩阵。

本发明实施例中，所述循环策略是指，将上一单元中产生的注意力文本量化矩阵作为下一单元的输入，如此重复预设次数，得到更新注意力文本量化矩阵。

其中，本发明制定所述预测次数为10次时，得到较好的注意力权重配置效果。

S6、利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量。

本发明实施例中，所述下游任务分类器为文本识别领域的常用模型，比如文本二分类或者多分类模型等。

本发明实施例中，所述下游任务分类器类似于TransForm中的Decoder，而所述注意力配置网络可以作为Encoder，本发明实施例通过将训练好的下游任务分类器连接到所述注意力配置网络中，即可进行正常的下游任务。

详细的，参考图4所示，本发明实施例中，所述利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作之前，所述方法还包括步骤S61～S65：

S61、将所述注意力配置网络与预构建的下游任务分类器进行连接，得到下游任务分类模型；

S62、获取下游任务对应的训练样本集，并利用所述训练样本集中的训练样本，对所述下游任务分类模型进行正向网络计算，得到预测结果，并利用交叉熵损失函数计算所述预测结果与所述训练样本对应的真实结果的损失值；

S63、最小化所述损失值，得到损失值最小时的模型参数，并利用所述模型参数进行网络逆向更新所述下游任务分类模型；

S64、判断所述损失值是否收敛；

当所述损失值未收敛时，返回上述S62的步骤，获取新样本对所述下游任务分类模型进行迭代训练；

当所述损失值收敛时，S65、得到训练完成的下游任务分类模型。

本发明通过获取下游任务对应的训练样本集，对所述对所述下游任务分类模型进行训练，通过梯度下降方法及交叉熵损失函数，获取训练结果，再通过预设的BP神经网络将训练结果进行逆向反馈，即可得到更新下游任务分类模型，其中，训练过程可以通过损失值的收敛程度进行把控，当所述当所述损失值收敛时，得到训练完成的下游任务分类模型，表明模型训练的效果趋于稳定，因此，避免过拟合现象及时进行停止，得到训练完成的下游任务分类模型。

此外，本发明另一实施例中，所述利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量之后，所述方法还可以包括：根据所述停用词向量，对更新注意力文本量化矩阵进行停用词过滤，得到文本筛选量化矩阵；利用所述下游任务分类器对所述文本筛选量化矩阵进行下游任务处理。

本发明实施例是通过不断进行自注意力循环与全连接操作，根据各个文字之间的相关性，将有意义的词组与停用词的权重进行差距增加，使得后续过程中，无用词的权重越来越小，产生与传统停用词删除一样的效果，此外，本发明实施例还能根据自注意力循环，将非停用词字典中、但无实际意义的词语进行删除，进一步的，增加停用词的范围，更好的节省存储空间和提高识别效率。

本发明实施例利用分词工具获取词组集合，然后进行量化编码，得到文本量化矩阵，其中，所述文本量化矩阵中没有进行停用词的删除操作，节约了停用词查询及停用词字典的构建、更新过程，节约了计算资源与时间；然后本发明利用预构建的注意力配置网络，对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置操作，得到注意力文本量化矩阵，其中，所述注意力配置网络为多个基于循环注意力机制和全连接网络构成的单元而组合得到的网络，其中，每一单元包含一次注意力分配的循环过程，可以对词组之间重要程度进行权重配置，自动降低停用词的权重，其中，所述根据预设的循环策略所述注意力配置网络中有多个单元，可以进一步的降低停用词的权重，最后进行低权重识别即可得知停用词。因此，本发明实施例提供的一种循环自注意力的停用词识别方法，能够在于不通过停用词字典的查询过程，实现动态识别停用词。

如图5所示，是本发明一实施例提供的循环自注意力的停用词识别装置的功能模块图。

本发明所述循环自注意力的停用词识别装置100可以安装于电子设备中。根据实现的功能，所述循环自注意力的停用词识别装置100可以包括分词模块101、量化模块102、注意力配置模块103及停用词识别模块104。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述分词模块101，用于利用分词工具将预构建的文本语句进行分词处理，得到词组集合；

所述量化模块102，用于利用one-hot量化工具对所述词组集合进行量化编码，得到初始词向量集合，并根据预设的填充排序策略，将所述初始词向量集合中的各个初始词向量进行填充连接操作，得到初始量化文本矩阵，及利用预构建的随机初始化权重矩阵对所述初始量化文本矩阵进行矩阵乘积操作，得到文本量化矩阵；

所述注意力配置模块103，用于利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置，得到注意力文本量化矩阵，及根据预设的循环策略，对所述利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置的操作循环预设次数，得到更新注意力文本量化矩阵；

所述停用词识别模块104，用于利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量。

详细地，本申请实施例中所述循环自注意力的停用词识别装置100中所述的各模块在使用时采用与上述图1至图5中所述的循环自注意力的停用词识别方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图6所示，是本发明一实施例提供的实现循环自注意力的停用词识别方法的电子设备1的结构示意图。

所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如循环自注意力的停用词识别程序。

其中，所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing Unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行循环自注意力的停用词识别程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如循环自注意力的停用词识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

所述通信接口13用于上述电子设备1与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

图6仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图6示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的循环自注意力的停用词识别程序是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种循环自注意力的停用词识别方法，其特征在于，所述方法包括：

利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量；

其中，所述利用预构建的注意力配置网络对所述文本量化矩阵中各个词组对应的词向量进行注意力权重配置，得到注意力文本量化矩阵，包括：利用预构建的注意力配置网络，从所述文本量化矩阵中依次提取一个词组对应的词向量，并根据预设的第一张量、第二张量及第三张量分别对所述词向量进行加权计算，得到第一词向量集合、第二词向量集合及第三词向量集合；依次从所述第一词向量集合中提取一个第一词向量，并利用所述第一词向量与所述第二词向量集合中各个第二词向量依次进行向量内积，得到向量关联数值集合，并利用softmax函数对所述向量关联数值集合进行归一化操作，得到注意力权重集合；将所述第三词向量集合中各个第三词向量与所述注意力权重集合中各个注意力权重，根据各个词组的对应关系进行权重计算，得到加权向量集合；根据预构建的第一随机权重矩阵、第二随机权重矩阵及第三随机权重矩阵分别对所述加权向量集合进行加权计算，得到第一加权词向量集合、第二加权词向量集合及第三加权词向量集合；依次从所述第一加权词向量集合中提取一个加权词向量，并利用所述加权词向量与所述第二加权词向量集合中各个第二加权词向量依次进行向量内积，得到加权向量关联数值集合，并利用所述softmax函数对所述加权向量关联数值集合进行归一化操作，得到加权注意力权重集合；将所述第三加权词向量集合中各个第三加权词向量与所述加权注意力权重集合中各个加权注意力权重，根据各个词组的对应关系进行权重计算，得到重加权向量集合；对所述重加权向量集合中的各个重加权向量进行基于字级别的全连接操作，得到注意力文本量化矩阵；

所述根据预设的填充排序策略，将所述初始词向量集合中的各个初始词向量进行填充连接操作，得到初始量化文本矩阵，包括：根据所述词组集合中词组的个数，配置词向量长度；将所述初始词向量集合中各个初始词向量进行长度补全操作，得到补全词向量；根据各个词组在所述文本语句中的顺序，将各个词组对应的补全词向量进行连接，得到初始量化文本矩阵。

2.如权利要求1所述的循环自注意力的停用词识别方法，其特征在于，所述利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作之前，所述方法还包括：

判断所述损失值是否收敛；

当所述损失值收敛时，得到训练完成的下游任务分类模型。

3.如权利要求1所述的循环自注意力的停用词识别方法，其特征在于，所述利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量之后，所述方法还可以包括：

4.一种循环自注意力的停用词识别装置，其特征在于，所述装置包括：

停用词识别模块，用于利用预训练的下游任务分类器，对所述更新注意力文本量化矩阵进行低权重向量识别操作，得到停用词向量；

5.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至3中任意一项所述的循环自注意力的停用词识别方法。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任意一项所述的循环自注意力的停用词识别方法。