CN109783801A

CN109783801A - 一种电子装置、多标签分类方法及存储介质

Info

Publication number: CN109783801A
Application number: CN201811529912.2A
Authority: CN
Inventors: 刘俊; 肖龙源; ***; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-21
Anticipated expiration: 2038-12-14
Also published as: CN109783801B

Abstract

本发明公开了一种电子装置、多标签分类方法及存储介质，该方法包括：零代词的识别与消解步骤：将待分类语句进行零代词的识别与消解以获得扩充语句；语句拆分步骤：将所述扩充语句进行句法分析，提取所述扩充语句中的并列关系项；通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句；或者针对性地设计语料标注，人工标记指代消解后的扩充语句中的并列关系项以及其他项，训练一个句子拆分的Bi‑LSTM‑CRF模型，使用训练后的分Bi‑LSTM‑CRF模型对所述扩充语句进行分类拆分形成若干个拆句。本发明可以有效拆分复杂多标签语句为多个简单的单标签语句。

Description

一种电子装置、多标签分类方法及存储介质

技术领域

本发明涉及多标签分类技术领域，具体涉及一种电子装置、多标签分类方法及存储介质。

背景技术

现有深度学习语句多标签分类技术有两大方向：一是采用多标签分类指标，如：hamming loss直接预测标签集合；二是将语句转变为多个单标签二分类问题，分别预测每个标签符合的概率。这二者深度学习语句多标签分类技术均有其缺点，前者标签集合自由度高，训练难度大，需要大量独立训练样本，无法共享单标签训练样本等缺点；后者预测结果会受到非当次预测标签信息的干扰，或者说因为单标签的训练样本与多标签的测试样本分布不一致，其预测结果会存在可预见的偏差。

发明内容

本发明的目的在于，克服针对现有技术的不足之处，提出一种电子装置、多标签分类方法及存储介质。

为了实现上述目的，本发明提供了一种电子装置，包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理***，所述处理***被所述处理器执行时实现如下步骤：

零代词的识别与消解步骤：

将待分类语句进行零代词的识别与消解以获得扩充语句，所述零代词是待分类语句中可识别的短语或词的空位；

语句拆分步骤：

将所述扩充语句进行句法分析，提取所述扩充语句中的并列关系项；通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句；

或者针对性地设计语料标注，人工标记指代消解后的扩充语句中的并列关系项以及其他项，训练一个句子拆分的Bi-LSTM-CRF模型，使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句；所述其他项包含共享项与删除项。

进一步的，上述电子装置的所述处理***被所述处理器执行时还实现意图识别步骤，所述意图识别步骤：将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入，获得多个意图。

上述电子装置，优选地，所述零代词的识别与消解步骤，具体包括：

采用全模式的结巴分词将待分类语句切分获得候选先行语集合；

利用第一循环神经网络，根据零代词的上文进行特征学***均得到候选先行语的表示，将候选先行语的表示与零代词的上文向量表示拼接在一起，通过第一前馈神经网络来计算该候选先行语是否是该零代词先行语的概率；

利用第二循环神经网络，根据零代词的下文进行特征学***均得到候选先行语的表示，将候选先行语的表示与零代词的下文向量表示拼接在一起，通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率。

所述处理***被所述处理器执行时实现步骤中，所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能，对零代词消解后得到的扩充语句进行句法分析得到句法结构树，提取所述扩充语句中的并列关系项。

相应的，本发明还提供了一种多标签分类方法，包括：

零代词的识别与消解步骤：

语句拆分步骤：

进一步的，所述多标签分类方法还包括，

意图识别步骤：将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入，获得多个意图。

进一步的，由选地，所述零代词的识别与消解步骤，具体包括：

进一步的，所述多标签分类方法中，所述扩充语句进行句法分析是采用StanfordNLP工具中的句法分析功能，对零代词消解后得到的扩充语句进行句法分析得到句法结构树，提取所述扩充语句中的并列关系项。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有处理***，所述处理***被处理器执行时实现上述的多标签分类方法的步骤。

本发明的有益效果是：通过将多标签的待分类语句样本拆分成有效的单标签语句样本集合，从而可以有效利用已训练好的单标签分类模型在不损害预测精度的前提下进行多标签预测，无需担心预测样本与训练样本的分布不一致问题。有利于工业应用上节省大量多标签分类算法的开发成本与训练成本，有效整合已有资源，最大限度发挥已有单标签训练数据与模型的用处。另外，本发明具备可扩展性，可以满足工业应用中对快速变化的市场迅速反馈的需求。比如说市场上新出现一种需求标签，只需要搜集该需求标签相应的单标签数据进行建模训练即可添加到该多标签分类***中，而无需重新训练一个多标签模型。也可以方便快速地“移植”他人优秀的开源分类模型，而无需待研究透彻后方可“嫁接”到本模型中。

附图说明

此处所说明的附图用来提供对发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的电子装置的原理示意图；

图2为本发明的多标签分类方法的流程示意图。

图3一实施例中，零代词消解后得到的扩充语句进行句法分析得到句法结构树示意图；

图4本发明一实施例的通过Bi-LSTM-CRF模型进行分类拆分的示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

本发明提供了一种电子装置，电子装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备。本发明所指的电子装置包括电子计算机、单个服务器、多个服务器组成的服务器组或者基于云计算的大量主机或者服务器构成的云服务器。如附图1所示，本发明实施例中，所述电子装置，包括但不限于包括存储器2及与所述存储器2连接的处理器1，所述存储器2中存储有可在所述处理器1上运行的处理***。

本发明所指的存储器1包括内存以及至少一种类型的可读存储介质。其中，内存为电子装置的运行提供缓存，可读存储介质包括但不限于包括但不限于U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所指的处理器1可以是中央处理器或者其他数据处理芯片。所述处理器1用于控制所述电子装置的总体操作，用于运行所述存储器2中存储的程序代码或者处理数据，如运行处理***等。

所述处理***被所述处理器1执行时实现如下步骤：

零代词的识别与消解步骤：

语句拆分步骤：

进一步的，上述电子装置的所述处理***被所述处理器1执行时还实现意图识别步骤，所述意图识别步骤：将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入，获得多个意图。

上述所述处理***被所述处理器1执行时实现如下步骤中，在一实施例中，优选地，所述零代词的识别与消解步骤，具体包括：

利用第二循环神经网络，根据零代词的下文进行特征学***均得到候选先行语的表示，将候选先行语的表示与零代词的下文向量表示拼接在一起，通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率，将获得最大的消解概率的候选先行语放入原句中相应零代词的空位，即可得到零代消解后的句子。

另外，本发明还提供了一种多标签分类方法，如附图2所示，包括：

步骤S1，零代词的识别与消解步骤：

例如，待分类语句：“我想和女朋友一起去北京故宫博物院参观和闲逛。”切分获得候选先行语集合：我,想,和,女朋友,朋友,一起,去,北京,北京故宫,北京故宫博物院,故宫,故宫博物院,博物,博物院,参观,和,闲逛

步骤S2，语句拆分步骤：

需要说明的是，传统零代词是指代一个可识别的名词短语的语法空位，但在本发明中，出于实际需求考虑，本发明所指的零代词不仅仅指代名词短语，也可以是各种词性的字词或者短语。比如待分类语句：“请问现在您们唇部和腋下脱毛什么价位？”在这句待分类语句中零代词在“唇部”后，它指代的是“脱毛”这个动词短语。零代词指代的词“脱毛”便是该零代词的先行词。由此可见，先行词有可能出现在零代词之后。

进一步的，所述多标签分类方法还包括，

步骤S3，意图识别步骤：将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入，获得多个意图。

本发明的候选先行语是指将待分类语句切分后得到的词，本发明采用的技术方案并不确定候选先行语的粒度，因此，本发明优选地采用全模式的切分方式，全模式充分地考虑了待分类语句切分的各种粒度，尽可能多地考虑候选先行语的可能性。

例如：待分类语句：“请问现在您们唇部和腋下脱毛什么价位？”，所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能，对零代词消解后得到的扩充语句进行句法分析得到句法结构树如附图3所示，

该待分类语句中并列关系指示词是“和”，并列关系项是“唇部”和“腋下”。接下来将并列关系项分别替换并列关系指示词与相应的所有并列关系项部分，得到拆句1和拆句2，其中，拆句1：请问现在您们唇部脱毛什么价位？拆句2：请问现在您们腋下脱毛什么价位？

在本发明的另一实施例中，提供了另外，本发明还提供了一种多标签分类方法，包括：

零代词的识别与消解步骤：将待分类语句进行零代词的识别与消解以获得扩充语句，所述零代词是待分类语句中可识别的短语或词的空位；

语句拆分步骤：针对性地设计语料标注，人工标记指代消解后的扩充语句中的并列关系项以及其他项，训练一个句子拆分的Bi-LSTM-CRF模型，使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句；所述其他项包含共享项与删除项。所述共享项是两个拆句中都会保留下来的原始句部分，所述删除项是两个拆句中都不会保留下来的原始句部分，所述并列关系项是两个拆句中分别会保留下来的原始句部分。待分类语句：“我想要手臂和小腿脱毛。”通过人工标记指代消解后的扩充语句中的并列关系项：“手臂”、“小腿”以及其共享项：“我”、“想要”、“脱毛”、“。”与删除项“和”。再通过使用训练后的Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成拆句1：“我想要手臂脱毛。”、拆句2：“我想要小腿脱毛。”其中，Bi-LSTM-CRF模型如附图4所示，将字向量(word embedding)传入一个双向长短时记忆模型(Bi-LSTM)。li表征字i和它的下文内容，ri表征字i和它的上文内容，将这两个表征向量拼接生成表征字i和它的上下文内容的向量ci。根据ci通过全连接层得到每个字映射到相应标记的非归一化概率，最后通过CRF层选出一个相应于每句话概率最大的标记序列。

另外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有处理***，所述处理***被处理器执行时实现上述的多标签分类方法的步骤，所述多标签分类方法的步骤，在此不再赘述。

本发明通过将多标签的待分类语句样本拆分成有效的单标签语句样本集合，从而可以有效利用已训练好的单标签分类模型在不损害预测精度的前提下进行多标签预测，无需担心预测样本与训练样本的分布不一致问题。有利于工业应用上节省大量多标签分类算法的开发成本与训练成本，有效整合已有资源，最大限度发挥已有单标签训练数据与模型的用处。另外，本发明具备可扩展性，可以满足工业应用中对快速变化的市场迅速反馈的需求。比如说市场上新出现一种需求标签，只需要搜集该需求标签相应的单标签数据进行建模训练即可添加到该多标签分类***中，而无需重新训练一个多标签模型。也可以方便快速地“移植”他人优秀的开源分类模型，而无需待研究透彻后方可“嫁接”到本模型中。

上述说明描述了本发明的优选实施例，但应当理解本发明并非局限于上述实施例，且不应看作对其他实施例的排除。在不脱离本发明的原理和宗旨的情况下，本领域技术人员结合公知或现有技术、知识对这些实施例进行多种变化、修改、替换和变型也应视为在本发明的保护范围内。

Claims

1.一种电子装置，其特征在于，

所述电子装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理***，所述处理***被所述处理器执行时实现如下步骤：

零代词的识别与消解步骤：

语句拆分步骤：

2.根据权利要求1所述的电子装置，其特征在于，

所述处理***被所述处理器执行时还实现意图识别步骤，

所述意图识别步骤：将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入，获得多个意图。

3.根据权利要求1所述的电子装置，其特征在于，

所述零代词的识别与消解步骤，具体包括：

4.根据权利要求1所述的电子装置，其特征在于，

所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能，对零代词消解后得到的扩充语句进行句法分析得到句法结构树，提取所述扩充语句中的并列关系项。

5.一种多标签分类方法，其特征在于，所述多标签分类方法包括：

零代词的识别与消解步骤：

语句拆分步骤：

6.根据权利要求5所述的多标签分类方法，其特征在于，

所述多标签分类方法还包括，

7.根据权利要求5所述的多标签分类方法，其特征在于，

所述零代词的识别与消解步骤，具体包括：

8.根据权利要求5所述的多标签分类方法，其特征在于，

9.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质上存储有处理***，所述处理***被处理器执行时实现如权利要求4至6中任一项所述的多标签分类方法的步骤。