CN113919338A

CN113919338A - 处理文本数据的方法及设备

Info

Publication number: CN113919338A
Application number: CN202010655433.6A
Authority: CN
Inventors: 彭颖鸿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-01-11
Anticipated expiration: 2040-07-09
Also published as: CN113919338B

Abstract

公开了一种处理文本数据的方法及设备、一种将复杂文本处理模型简化为轻量文本处理模型的方法及设备、和计算机可读存储介质。该处理文本数据的方法包括：获取待分类的文本数据；将所述待分类的文本数据转化为数值向量；利用轻量文本处理模型，将所述数值向量转化为句向量；以及基于所述句向量，确定所述文本数据的类别标签。该方法利用三个支路模型的轻量文本处理模型，能够快速、准确地对文本数据进行识别和分类。

Description

处理文本数据的方法及设备

技术领域

本公开涉及人工智能服务领域，更具体地涉及一种基于文本处理的方法、设备和计算机可读存储介质。本公开还涉及一种将复杂文本处理模型简化为轻量文本处理模型的方法和设备。

背景技术

当前互联网中存在着海量的信息。许多移动端的应用已经内置了内容聚合器。这些内容聚合器聚合了这些应用上已经发布的信息。内容聚合器对应的内容聚合服务器可以根据用户的订阅信息、用户兴趣等向用户推送相应的文章、图片、长视频、短视频和音乐等等数据源。

目前为了吸引读者或观看者，一些数据源发布者(如公众号博主、视频号博主、音乐创作者等)会给其发布的数据源添加些夸大其词、误导性、虚假、色情、低俗、违反国家政策法规等的标题。有些数据源发布者甚至会设置一些虚假性、欺骗性、误导性的用户名(昵称)、简介来吸引读者或观看者。

如果上述的内容大量出现的话，会降低内容质量以及用户的使用应用的体验，给内容聚合类产品带来负面的影响。目前主要通过人工审核和用户举报方式来对标题、用户名、简介等文本信息进行识别和分类的，其识别率低且成本高。

发明内容

本公开的实施例提供了一种处理文本数据的方法及设备、一种将复杂文本处理模型简化为轻量文本处理模型的方法及设备、和计算机可读存储介质。

本公开的实施例提供了一种处理文本数据的方法，还包括：获取待分类的文本数据；将所述待分类的文本数据转化为数值向量；利用轻量文本处理模型，将所述数值向量转化为句向量；以及基于所述句向量，确定所述文本数据的类别标签；其中，所述利用所述轻量文本处理模型，将所述数值向量转化为句向量包括：利用所述轻量文本处理模型的第一支路模型，从所述数值向量中获取表征所述文本数据的顺序信息的第一子句向量；利用所述轻量文本处理模型的第二支路模型，从所述数值向量中获取表征所述文本数据中的各个词语之间的关联关系的第二子句向量；利用所述轻量文本处理模型的第三支路模型，从所述数值向量中获取表征所述文本数据中的关键词信息的第三子句向量；将第一子句向量、第二子句向量和第三子句向量融合成句向量。

本公开的实施例提供了一种将复杂文本处理模型简化为轻量文本处理模型的方法，包括：获取基于第一训练文本库训练的复杂文本处理模型，所述第一训练文本库中的每个样本包括所述样本的文本数据；获取第二训练文本库，所述第二训练文本库中的每个样本包括所述样本的类别标签和所述样本的分词序列，第二训练文本库中的样本量小于第一训练文本库的样本量；利用所述复杂文本处理模型，将第二训练文本库中的样本的类别标签和分词序列转化为第一样本句向量；以及基于第二训练文本库中的每个样本的类别标签、分词序列和第一样本句向量，训练轻量文本处理模型，其中，所述轻量文本处理模型的复杂度低于复杂文本处理模型。

本公开的实施例提供了一种处理文本数据的设备，包括：处理器；以及存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行上述的方法。

本公开的实施例提供了一种将复杂文本处理模型简化为轻量文本处理模型的设备，包括：处理器；存储器，存储器存储有计算机指令，该计算机指令被处理器执行时实现上述方法。

本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现上述方法。

根据本公开的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个方面或者上述各个方面的各种可选实现方式中提供的方法。

本公开的实施例提供一种处理文本数据的方法，该方法利用三个支路模型的轻量文本处理模型，能够快速、准确地对标题、用户名、简介等文本数据进行识别和分类，从而帮助内容聚合器避免向用户推荐夸大其词、误导性、虚假、色情、低俗、违反国家政策法规等的数据源，进而提高了内容聚合平台提供的内容的质量。

本公开的实施例所提供的处理文本数据的方法还通过将复杂文本处理模型中的信息融合至轻量文本处理模型中，从而使得轻量文本处理模型具有低复杂度的基础上仍能快速、准确地对文本数据进行识别和分类，提高了轻量文本处理模型的训练速度和推理速度。

本公开的实施例提供一种将复杂文本处理模型简化为轻量文本处理模型的方法，提高了文本数据的处理效率。在工业的应用上，利用简化后的轻量文本处理模型来处理文本数据，其能够实现与利用复杂文本处理模型处理文本数据近似的准确度和召回率，同时还能大大的提高推理和训练的效率，更够更广泛的应用于计算力不足的设备中。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。

图1是示出根据本公开实施例的通过分析数据源相关的文本数据向用户推荐数据源的场景的示例示意图。

图2A是示出根据本公开实施例的处理文本数据的方法的流程图。

图2B是示出根据本公开实施例的处理文本数据的方法的示意图。

图2C和图2D是示出根据本公开实施例的轻量文本处理模型的示意图。

图3A是示出根据本公开实施例的训练轻量文本处理模型的过程的流程图。

图3B是示出根据本公开实施例的训练轻量文本处理模型的示意图。

图3C是示出根据本公开实施例的复杂文本处理模型的示意图。

图3D是示出根据本公开实施例的计算处理损失的示意图。

图4A是示出根据本公开实施例的复杂文本处理模型简化为轻量文本处理模型的方法的流程图。

图4B是示出根据本公开实施例的复杂文本处理模型简化为轻量文本处理模型的方法的示意图。

图5是示出根据本公开实施例的处理文本数据的设备的结构图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

为便于描述本公开，以下介绍与本公开有关的概念。

上述的内容聚合器可以是基于人工智能(Artificial intelligence，AI)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如，对于基于人工智能的内容聚合器而言，其能够以类似于人类阅读数据源相关的文本数据的方式对数据源进行分类。人工智能通过研究各种智能机器的设计原理与实现方法，使内容聚合器具有感知文本数据、对文本数据进行推理与决策的功能。

数据源的标题、发布者的用户名(昵称)和简介等都可以被称为与该数据源相关联的文本数据。具体地，每种数据源也有不同的文本数据。比如对于图片类和文章类的数据源，与该数据源相关联的文本数据可以包括评论、标题、摘要、作者、作者昵称等等。对于音乐类的数据源，其相关联的文本数据可以包括歌手、作词者、作曲者、专辑名、音乐评论、歌词等。对于视频类的数据源，其相关联的文本数据可以包括演员、导演、编剧、台词、电影名、剧本等。

处理上述的文本数据的内容聚合器采用了自然语言处理(Nature Languageprocessing,NLP)技术。自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向，其能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。由此，基于自然语言处理技术，内容聚合器可以分析数据源相关联的文本数据，将文本数据进行分类，识别出劣质的文本数据(例如，夸大其词、误导性、虚假、色情、低俗、违反国家政策法规的文本数据)，以便于内容社区的运营者进行下一步处理。

自然语言处理技术还可以是基于机器学习(Machine Learning,ML)和深度学习的。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。自然语言处理技术利用机器学习研究计算机怎样模拟或实现人类的学习语言的行为，通过分析已有的、已分类的文本数据来获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

可选地，下文中的可用于内容聚合器的各个模型都可以是人工智能模型，尤其是基于人工智能的神经网络模型。通常，基于人工智能的神经网络模型被实现为无环图，其中神经元布置在不同的层中。通常，神经网络模型包括输入层和输出层，输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点经由边全连接至相邻层中的节点，并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式，本公开对此不作限制。

本公开的实施例提供的方案涉及人工智能、自然语言处理和机器学习等技术，具体通过如下实施例进行说明。

图1是示出根据本公开实施例的通过分析数据源相关的文本数据向用户推荐数据源的场景100的示例示意图。

目前，已经存在多个内容聚合和分享平台。数据源发布者可以通过网络将数据源上传至内容聚合和分享平台的服务器，从而实现在内容聚合和分享平台发布视频。网络可以是基于互联网和/或电信网的物联网(Internet of Things)，其可以是有线网也可以是无线网，例如，其可以是局域网(LAN)、城域网(MAN)、广域网(WAN)、蜂窝数据通信网络等能实现信息交换功能的电子网络。

如图1所示，内容聚合和分享平台的服务器可以接收多个数据源发布者发布的数据源。假设有两个数据源发布者(数据源A的发布者和数据源B的发布者)分别向服务器上传了数据源A和数据源B。其中，数据源A相关联的文本数据为：“专业人士教你如何下单，胜率高达90％！”。数据源B相关联的文本数据为：“省气象台发布暴雨黄色预警，今日省内大部分市州全域进入预警范围！”。

服务器可以利用本公开的实施例公开的方法将判断数据源A的内容为赌博竞彩相关，其违反了国家政策法规。因此，服务器可以将数据源A分类为竞彩，可能会对数据源A的发布者进行账号限制，同时在内容聚合和分享平台上不发布数据源A。

服务器可以利用本公开的实施例公开的方法确定数据源B分类为天气预报，同时服务器还可能认定数据源B的发布者为机构号。因此，如果数据源接收者订阅了天气相关信息，服务器可以向数据源接收者推送数据源B。

本公开的实施例通过提供一种将复杂文本处理模型简化为轻量文本处理模型的方法，提高了文本数据的处理效率。在工业的应用上，利用简化后的轻量文本处理模型来处理文本数据，其能够实现与利用复杂文本处理模型处理文本数据近似的准确度和召回率，同时还能大大的提高推理和训练的效率，更够更广泛的应用于计算力不足的设备中。

图2A是示出根据本公开实施例的处理文本数据的方法200的流程图。图2B是示出根据本公开实施例的处理文本数据的方法200的示意图。图2C和图2D是示出根据本公开实施例的轻量文本处理模型的示意图。

根据本公开的实施例的处理文本数据的方法200可以应用于任何的电子设备中。可以理解，电子设备可以是不同种类的硬件设备，例如个人数字助理(PDA)、音频/视频设备、移动电话、MP3播放器、个人计算机、膝上型计算机、服务器等等。例如，该电子设备可以是图1中的服务器、数据源A的发布者的应用终端、数据源B的发布者的应用终端、数据源接收者的应用终端等等。以下，本公开以服务器为例进行说明，本领域技术人员应当理解本公开并不以此为限。

首先，在步骤S201中，服务器获取待分类的文本数据。

可选地，所述待分类的文本数据与至少一个数据源相关联，并且所述待分类的文本数据以文本的形式表征所述数据源。数据源的标题、发布者的用户名(昵称)和简介等都可以被称为与该数据源相关联的文本数据。具体地，每种数据源也有不同的文本数据。比如对于图片类和文章类的数据源，与该数据源相关联的文本数据可以包括评论、标题、摘要、作者、作者昵称等等。对于音乐类的数据源，其相关联的文本数据可以包括歌手、作词者、作曲者、专辑名、音乐评论、歌词等。对于视频类的数据源，其相关联的文本数据可以包括演员、导演、编剧、台词、电影名、剧本等。

接着，在步骤S202中，服务器将所述待分类的文本数据转化为数值向量。

参考图2B，服务器可以通过嵌入(Embedding)操作来将待分类的文本数据转换为数值向量。例如，服务器可以将待分类的文本数据分割成多个分词，然后通过将这些分词通过词嵌入(word embedding)的方式转换成词向量，最后将这些词向量拼接起来作为数值向量。

可选地，服务器还可以先将所述待分类的文本数据分割成多个分词，所述多个分词组成分词序列。例如，假设待分类的文本数据为“专业人士教你如何下单”，分词序列可以为{专业人士，教，你，如何，下单}。

然后服务器将分词序列中的每一个分词编码成数值。

可选地，服务器可以利用预设的字典，分别将每个分词转换为数值。预设的字典可以是这样的集合，其中的每个元素包括一个分词和其对应的数值。以下以<分词，数值>的方式表示字典中的元素。假设该字典为{<专业人士，5>，<教，7>，<你，4>，<如何，1>，<下单，2>}。分词序列中的每个分词可以依次被转换为：5，7，4，1，2。

可选地，服务器还可以动态地对分词序列中的每一个分词进行编码。例如，服务器可以动态地构建字典，并且只要字典中不包括某个分词，就将该分词编码为字典的元素数量加一，并添加进字典。例如，针对上述的分词序列：{专业人士，教，你，如何，下单}，服务器可以动态地构建字典{<专业人士，1>，<教，2>，<你，3>，<如何，4>，<下单，5>}。从而，分词序列中的每个分词可以依次被转换为：1，2，3，4，5。在动态地构建字典之后，如果获取到新的分词序列{专业人士，教，你，如何，穿衣}，那么对应地，字典将变为{<专业人士，1>，<教，2>，<你，3>，<如何，4>，<下单，5>,<穿衣，6>}。根据该字典，新的分词序列中的每个分词可以依次被转换为：1，2，3，4，6。

接着，服务器将所述分词序列中的每一个分词对应的数值进行组合，以将所述分词序列转换为数值向量。

接下来，在步骤S203中，服务器利用轻量文本处理模型，将所述数值向量转化为句向量。

轻量文本处理模型可以如图2C和图2D所示。参见图2C和图2D，轻量文本处理模型可以包括三个支路模型：第一支路模型、第二支路模型、和第三支路模型。

步骤S203可以包括：利用所述轻量文本处理模型的第一支路模型，从所述数值向量中获取表征所述文本数据的顺序信息的第一子句向量；利用所述轻量文本处理模型的第二支路模型，从所述数值向量中获取表征所述文本数据中的各个词语之间的关联关系的第二子句向量；利用所述轻量文本处理模型的第三支路模型，从所述数值向量中获取表征所述文本数据中的关键词信息的第三子句向量；将第一子句向量、第二子句向量和第三子句向量融合成句向量。

可选地，第一支路模型可以是Bi-LSTM(Bi-directional Long Short-TermMemory，双向长短期记忆)模型。Bi-LSTM模型是一种时间递归神经网络，适合于处理和预测有序序列中的顺序信息，其可有效解决传统循环神经网络长路径依赖的问题。Bi-LSTM模型在通常的长短期记忆模型的基础上，实现双向记忆(LSTM仅正向记忆，而Bi-LSTM可以实现正向和反向记忆)。参见图2D，Bi-LSTM模型充分考虑上下文词与词之间的顺序关系，充分利用了双向信息，从而可以充分地提取文本数据的顺序信息，构建包含文本数据的顺序信息的第一子句向量。

可选地，第二支路模型可以是TextCNN(文本卷积神经网络模型)。TextCNN模型是基于卷积神经网络模型(CNN)的文本处理模型。典型的TextCNN模型可以包括卷积层(convolution)，池化层(pooling)和全连接层(FC)，其可以有效的抓住伪随机性特征。因此，利用TextCNN模型可以有效地从数值向量中提取表示所述文本数据中的各个词语之间的关联关系的信息(如图2D所示，该信息又称为共现信息)，进而构建包含文本数据的共现信息的第二子句向量。

可选地，第三支路模型是FastText模型。FastText模型是一个快速的文本分类算法，在保持高精度的情况下加快了训练和测试速度。FastText模型考虑了单词之间的相似性，以使得其有利于快速训练词向量。FastText模型通常具有1层神经网络，因而其具备学习和预测速度快的优势。

可选地，如图2D所示，第三支路模型还可以是改进的FastText模型。例如，第三支路模型还可以是将FastText模型和TextBank模型进行混合后的模型。例如，第三支路模型可以是FastText模型和TextBank模型进行串联或并联后得到的模型。TextBank模型是一种可以迅速提取句子中的关键词的权重的神经网络模型，其利用句子之间的相似性对关键词的权重进行提取。第三支路模型还可以是通过FastText模型和TextBank模型进行混合(例如通过哈希，将关键词的权重与关键词进行匹配)，可以更准确的捕获文本数据中的关键词信息，其将通过FastText模型获取的词向量与通过TextBank模型中获取的关键词权重进行加权平均，以构建包含文本数据的关键词信息的第三子句向量。

本公开对关键词的权重的提取方式并不进行限制。例如，第三支路模型还可以是FastText模型和N-gram模型(词袋模型)的混合。N-gram模型通过单词的顺序来提取关键词的权重。第三支路模型将通过FastText模型获取的词向量与通过TextBank模型中获取的关键词权重进行加权平均，以构建包含文本数据的关键词信息的第三子句向量。例如，第三支路模型还可以通过TF-IDF(term frequency–inverse document frequency，词频-逆文档频率)来提取权重。TF-IDF将在文本数据中出现频率越高、在整个语言环境出现频率越低的词赋予更高的权重。第三支路模型甚至可以综合上述三种方法所得到的权重值，以获取更为准确的第三子句向量。

上述的三个支路模型可以是并联的关系。数值向量分别输入至这三个支路模型得到三个子句向量，然后再将这三个子句向量进行融合，从而获取句向量。

例如，如图2C所示，每个支路模型可以通过一个全连接层得到一个加权后的子句向量。将这三个子句向量组合起来，然后通过一个池化层(即，对这三个子句向量进行平均)，以融合成最终的句向量。当然，还可以使用其他方式来对这三个支路模型输出的子句向量进行融合，本申请对此不进行限制。

最后，在步骤S204中，服务器基于所述句向量，确定所述文本数据的类别标签。

例如，服务器可以根据该句向量，利用一个全连接层/分类模型，计算出该文本数据属于各个类别标签的概率。例如，服务器可以根据数据源A相关联的文本数据“专业人士教你如何下单，胜率高达90％！”，计算数据源A相关联的文本数据的句向量。然后根据该句向量中的各个元素的数值，计算其的类别标签为赌博的概率远远大于其他类别，进而确定该文本数据的类别标签为赌博。类似的，如果数据源B相关联的文本数据为：“省气象台发布暴雨黄色预警，今日省内大部分市州全域进入预警范围！”，服务器也可以采用类似的方法确定该文本数据的类别标签为机构号。

可选地，方法200还包括基于所述待分类的文本数据的类别标签，生成所述数据源的推荐信息。服务器利用方法200自动地生成待分类的文本数据的类别标签，并将符合国家政策法规、内容良性的数据源推荐给对该类别的数据源感兴趣的用户。由此，在提高了良性内容的曝光度的同时，避免了向用户推荐劣质内容，提高了内容聚合平台提供的内容的质量。

根据本公开的实施例的处理文本数据的方法利用三个支路模型的轻量文本处理模型，能够快速、准确地对标题、用户名、简介等文本数据进行识别和分类，从而帮助内容聚合器向避免向用户推荐夸大其词、误导性、虚假、色情、低俗、违反国家政策法规等的数据源，进而提高了内容聚合平台提供的内容的质量。

图3A是示出根据本公开实施例的训练轻量文本处理模型的过程300的流程图。图3B是示出根据本公开实施例的训练轻量文本处理模型的示意图。图3C是示出根据本公开实施例的复杂文本处理模型的示意图。图3D是示出根据本公开实施例的计算处理损失的示意图。

上述的轻量文本处理模型是基于复杂文本处理模型训练的，其中，所述轻量文本处理模型的复杂度低于所述复杂文本处理模型。

参见图3A，训练轻量文本处理模型可以包括以下步骤。

在步骤S301中，获取基于第一训练文本库训练的复杂文本处理模型，所述第一训练文本库中的每个样本包括所述样本的文本数据。

该复杂文本处理模型可以包括多个转换器(Transformer)。例如，该复杂文本处理模型可以为如图3C所示的BERT(Bidirectional Encoder Representations fromTransformers，基于转换器的双向编码器表征)模型。BERT模型是一种语义编码模型，该模型经过训练之后，输入字、词或句子可以得到相应的语义信息(也即句向量)。BERT模型将双向转换用于语言模型。传统的语言模型都是单向的语言模型。BERT模型通过其双向转换的结构，可以得到比单向的语言模型更深刻的理解，也即捕获到更多的词语中字与字之间的上下文信息、句子之间单词与单词之间的上下文信息。相比于传统的语言模型，BERT模型的学习能力更强，其预测效果更好。

BERT模型可以是BERT-BASE模型，其中包括12个运算层，即12个转换器，各个转换器可以基于注意力机制对文本数据进行特征提取，以及对文本数据进行编码和解码。BERT-BASE模型，还可以包括768个隐单元和12个注意力头部(Attention head)。BERT-BASE模型的参数量大约在11亿个左右。此外，该BERT模型还可以是BERT-LARGE模型，其中包括24个转换器、1024个隐单元和16个注意力头部。BERT-LARGE模型的参数量大约在34亿左右。本公开对使用哪一种BERT模型并不进行限制。

如果使用BERT-BASE模型，则其输出的将是12个维度为768的子向量。接着可以使用池化层(例如，均值池化层)将这12个子向量合并为一个768维的向量作为该复杂文本处理模型输出的句向量。如果使用BERT-LARGE模型，则其输出的将是24个维度为1024的子向量。接着可以使用池化层(例如，均值池化层)将这24个子向量合并为一个1024维的向量作为该复杂文本处理模型输出的句向量。本公开对最终输出的句向量的维度不进行限制。

上述的复杂文本处理模型可以是预先利用第一训练文本库进行训练的。所述第一训练文本库中的每个样本包括所述样本的文本数据。例如，第一训练文本库可以是网络上公开的语料信息。例如，在复杂文本处理模型是BERT模型的情况下，第一训练文本库可以是***，其大概包括25亿个词以及这些词对应的解释。第一训练样本库还可以包括从各种公开/私密数据库中获取的文本数据，例如百科、词典、新闻、问答等。第一训练文本库的样本量通常较大。由此，通过第一训练文本库训练的复杂文本处理模型，其包含了对先验知识(例如，大部分单词、术语等)的通常理解。由此，利用复杂文本处理模型来处理文本数据(尤其是短文本数据)，可以获取到较为准确的、包含足够信息的句向量。

由于复杂文本处理模型的参数量较大，在工业上，如果直接使用复杂文本处理模型将导致训练和推理效率低。为了在工业上提高文本处理模型的处理效率，需要将复杂文本处理模型进行压缩和简化，以获得一个工业上能够使用的轻量文本处理模型。通过压缩和简化后获得轻量文本处理模型将在具有较少的参数量的同时还融入了复杂文本处理模型对第一训练文本库的理解，从而提高了训练和推理的效率。同时该轻量文本处理模型和复杂文本处理模型在面对相同的输入的情况下，可以获得近似句向量，从而保证文本数据处理的准确性。

在步骤S302中，将所述复杂文本处理模型中的、关于第一训练文本库中的信息融合至所述轻量文本处理模型。

可选地，步骤S302还可以包括步骤S3021、步骤S3022和步骤S3023。

在步骤S3021中，获取第二训练文本库，所述第二训练文本库中的每个样本包括所述样本的类别标签和所述样本的分词序列，所述第二训练文本库中的样本量小于第一训练文本库的样本量。

以下给出几个第二训练文本库中的样本的示例。以下示例中示出了第二训练文本库中的一些样本的标签以及样本的分词序列。下面的示例中用斜杠分隔分词序列中的每个分词。

第二训练文本库中的样本可以是从内容聚合平台中收集的。例如，可以通过人工审核和用户举报方式，对数据源的文本数据进行标记。然后将带有类别标签的文本数据进行分词处理后存储至第二训练文本库。本公开并不对分词序列的表达形式和第二训练文本库中的样本的获取方式进行限制。

在步骤S3022中，利用所述复杂文本处理模型，将第二训练文本库中的样本的分词序列转化为第一样本句向量。

可选地，在将第二训练文本库中的样本输入至复杂文本处理模型之前，可以对分词序列进行预处理。例如可以使用bert tokenizer(BERT模型中内置的分词工具)对该分词序列进行编码。例如，假设分词序列包括{基金、组合、资讯}三个分词。将这三个分词中的每个分词赋予一个编码，例如，“基金”可以具有编码0，“组合”可以具有编码1，“资讯”可以具有编码2。由此，该分词序列对应的“分词-编码”词典可以为{基金-0，组合-1，资讯-2}。本领域技术人员应当理解，该词典可以与步骤S202中的字典相同，也可以不同，本公开对此不进行限制。

基于上述词典对该分词序列中的各个分词进行替换，将一个分词转换为一个数值，得到该一个分词序列对应的数值序列。将该数值序列输入复杂文本处理模型。在复杂文本处理模型是BERT-BASE模型的情况下，由该BERT-BASE模型中的12个转换器对该数值序列进行编码运算和解码运算，以提取该样本的文本特征，并使用类别标签进行标注，以形成包括该样本的文本特征的第一样本句向量。

在步骤S3023中，基于第二训练文本库中的每个样本的类别标签、分词序列和第一样本句向量，训练轻量文本处理模型。

参见图3B，训练轻量文本处理模型包括：利用轻量文本处理模型将第二训练文本库中的每一个样本的分词序列转化为所述样本的第二样本句向量，基于第一样本句向量和第二样本句向量，确定所述轻量文本处理模型的处理损失。

可以将第二训练文本库中的样本对应的分词序列利用步骤S202中所描述的方法进行编码，以获得一个数值向量。然后通过轻量文本处理模型将该数值向量转换为第二样本句向量。

接着可以通过比较第一样本句向量和第二样本句向量之间的差异来确定轻量文本处理模型相对于复杂文本处理模型的处理损失。

例如，可以利用损失函数确定所述轻量文本处理模型的处理损失。

该处理损失可以是欧式空间上的L2损失(平方损失函数)。例如，假设第一样本句向量中的i个元素记为T(x_i)，第二样本句向量的i个元素记为S(x_i)。第一样本句向量和第二样本句向量具有相同的维度N。i小于等于N，大于0。

则对应于L2损失(记为L2)的损失函数可以记为：

其中，j小于等于N且大约0。

该处理损失还可以是RKHS空间上(再生核希尔伯特空间)的核损失。其中，所述损失函数为基于再生核希尔伯特空间的核函数，所述处理损失为核损失。上述的L2损失的计算涉及到大量的内积项，计算量巨大。因此，可以将欧式空间上的L2损失转换到RKHS空间上的核损失来进行计算。

在计算RKHS空间上的核损失的过程中，可以使用核函数来替代内积项，以简化计算量。同时，RKHS空间是一个高维空间，其往往的能够捕捉到向量之间更多的关联信息。

假设使用核函数K(m，n)来计算核损失其中m和n表示不同的参数。则对应于核损失(记为L_kernel)的损失函数可以记为：

由于核函数K(m，n)具有可再生性、正定性和对称性，因此，利用核技巧公式(2)又可以被写为：

其中，φ(T(x_i))表示将T(x_i)映射到RKHS空间，φ(S(x_i))表示将S(x_i)映射到RKHS空间。

例如假设核函数K(m，n)是高斯核函数，高斯核函数可以以如下式子进行表示：

则上述的公式(2)可以写作：

可见公式(5)的计算量相对于公式(1)的计算量在很大程度上降低了。

此外，处理损失还可以是余弦损失。本公开不对处理损失进行进一步地限定。

可选地，损失函数还可以分别计算第一样本句向量和通过轻量文本处理模型的三个支路模型得到三个子句向量之间的处理损失分量，并将这三个处理损失分量相加以获取最终的处理损失。

也即，可以使用下面的公式(6)来计算模型总的处理损失L_处理损失：

L_处理损失＝L_{第一支路模型}+L_{第二支路模型}+L_{第三支路模型} (6)

其中，L_{第一支路模型}表示第一样本句向量与第一子句向量之间的处理损失，L_{第二支路模型}表示第一样本句向量与第二子句向量之间的处理损失，L_{第三支路模型}表示第一样本句向量与第三子句向量之间的处理损失。

接着，可以通过更新轻量文本处理模型中参数，以使得所述处理损失最小化。例如，可以迭代地更新轻量文本处理模型中的参数，每一次迭代尽量使得处理损失减少。当上述的处理损失收敛时，可以说明利用第二训练文本库完成了对轻量文本处理模型的训练。

此外，在工业的实际应用中，还可以动态地训练轻量文本处理模型(也即图3B中的下游任务)。例如，不断地通过从内容聚合平台中收集更多的文本数据和其对应的类别标签，然后将文本数据转换成数值向量后输入轻量文本处理模型。通过所述轻量文本处理模型输出的句向量计算该文本数据的预测类别标签。将预测类别标签与文本数据和其对应的类别标签相比较，以调整轻量文本处理模型中的参数。

由此，本公开的实施例所提供的处理文本数据的方法还通过将复杂文本处理模型中的信息融合至轻量文本处理模型中，从而使得轻量文本处理模型具有低复杂度的基础上仍能快速、准确地对文本数据进行识别和分类，提高了轻量文本处理模型的训练速度和推理速度。

图4A是示出根据本公开实施例的复杂文本处理模型简化为轻量文本处理模型的方法400的流程图。图4B是示出根据本公开实施例的复杂文本处理模型简化为轻量文本处理模型的方法400的示意图。

参见图4A，复杂文本处理模型简化为轻量文本处理模型可以包括以下步骤。

在步骤S401中，获取基于第一训练文本库训练的复杂文本处理模型，所述第一训练文本库中的每个样本包括所述样本的文本数据。

该复杂文本处理模型可以包括多个转换器(Transformer)。例如，该复杂文本处理模型可以为BERT(Bidirectional Encoder Representations from Transformers，基于转换器的双向编码器表征)模型。BERT模型是一种语义编码模型，该模型经过训练之后，输入字、词或句子可以得到相应的语义信息(也即句向量)。BERT模型将双向转换用于语言模型。传统的语言模型都是单向的语言模型。BERT模型通过其双向转换的结构，可以得到比单向的语言模型更深刻的理解，也即捕获到更多的词语中字与字之间的上下文信息、句子之间单词与单词之间的上下文信息。相比于传统的语言模型，BERT模型的学习能力更强，其预测效果更好。

在步骤S402中，获取第二训练文本库，所述第二训练文本库中的每个样本包括所述样本的类别标签和所述样本的分词序列，所述第二训练文本库中的样本量小于第一训练文本库的样本量。

在步骤S403中，利用所述复杂文本处理模型，将第二训练文本库中的样本的分词序列转化为第一样本句向量。

在步骤S404中，基于第二训练文本库中的每个样本的类别标签、分词序列和第一样本句向量，训练轻量文本处理模型。

所述轻量文本处理模型包括用于提取分词序列的顺序信息的第一支路模型、用于提取分词序列中的分词之间的关联信息的第二支路模型、以及用于提取分词序列中的关键词信息的第三支路模型。

训练轻量文本处理模型包括：利用轻量文本处理模型将第二训练文本库中的每一个样本的类别标签和分词序列转化为所述样本的第二样本句向量，基于第一样本句向量和第二样本句向量，确定所述轻量文本处理模型的处理损失。

例如，所述利用所述轻量文本处理模型，将第二训练文本库中的每一个样本的分词序列转化为所述样本的第二样本句向量还包括：利用所述轻量文本处理模型的第一支路模型，从所述分词序列中获取表征所述文本数据的顺序信息的第一样本子句向量；利用所述轻量文本处理模型的第二支路模型，从所述分词序列中获取表征所述文本数据中的各个词语之间的关联关系的第二样本子句向量；利用所述轻量文本处理模型的第三支路模型，从所述分词序列中获取表征所述文本数据中的关键词信息的第三样本子句向量；将第一样本子句向量、第二样本子句向量和第三样本子句向量融合成第二样本句向量。

该处理损失可以是欧式空间上的L2损失(平方损失函数)、RKHS空间上(再生核希尔伯特空间)的核损失、或余弦损失。本公开不对处理损失进行进一步地限定。

接着，可以通过更新轻量文本处理模型中参数，以使得所述处理损失最小化。当上述的处理损失收敛时，可以说明利用第二训练文本库完成了对轻量文本处理模型的训练。

此外，在工业的实际应用中，还可以动态地训练轻量文本处理模型。例如，不断地通过从内容聚合平台中收集更多的文本数据和其对应的类别标签，然后将，将带有类别标签的文本数据转换成数值向量后输入轻量文本处理模型，以获得句向量。接着将该句向量通过归一化，计算出该文本数据的预测类别标签。将预测类别标签和该文本数据的类别标签进行比较以调整轻量文本处理模型中的参数。

由此，本公开的实施例所提供的将复杂文本处理模型简化为轻量文本处理模型的方法，通过将复杂文本处理模型中的信息融合至轻量文本处理模型中，从而使得轻量文本处理模型具有低复杂度的基础上仍能快速、准确地对文本数据进行识别和分类，提高了轻量文本处理模型的训练速度和推理速度。

图5是示出根据本公开实施例的处理文本数据的设备500的结构图。

参见图5，设备500可以包括处理器501和存储器502。处理器501和存储器502可以通过总线503相连。

处理器501可以根据存储在存储器502中的程序执行各种动作和处理。具体地，处理器501可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X87架构或ARM架构的。

存储器502上存储有计算机指令，该计算机指令被微处理器执行时实现方法200。存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本公开描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例提供的将复杂文本处理模型简化为轻量文本处理模型的设备也具有和设备500相同或相似的结构，因此本公开不再赘述。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、***、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种处理文本数据的方法，包括：

获取待分类的文本数据；

将所述待分类的文本数据转化为数值向量；

利用轻量文本处理模型，将所述数值向量转化为句向量；以及

基于所述句向量，确定所述文本数据的类别标签；

其中，所述利用所述轻量文本处理模型，将所述数值向量转化为句向量包括：

利用所述轻量文本处理模型的第一支路模型，从所述数值向量中获取表征所述文本数据的顺序信息的第一子句向量；

利用所述轻量文本处理模型的第二支路模型，从所述数值向量中获取表征所述文本数据中的各个词语之间的关联关系的第二子句向量；

利用所述轻量文本处理模型的第三支路模型，从所述数值向量中获取表征所述文本数据中的关键词信息的第三子句向量；

将第一子句向量、第二子句向量和第三子句向量融合成句向量。

2.如权利要求1所述的方法，其中，所述轻量文本处理模型是基于复杂文本处理模型训练的，其中，所述轻量文本处理模型的复杂度低于所述复杂文本处理模型，所述训练包括：

获取基于第一训练文本库训练的复杂文本处理模型，所述第一训练文本库中的每个样本包括所述样本的文本数据；

将所述复杂文本处理模型中的、关于第一训练文本库中的信息融合至所述轻量文本处理模型。

3.如权利要求2所述的方法，所述将所述复杂文本处理模型中的信息融合至所述轻量文本处理模型包括：

获取第二训练文本库，所述第二训练文本库中的每个样本包括所述样本的类别标签和所述样本的分词序列，所述第二训练文本库中的样本量小于第一训练文本库的样本量；

利用所述复杂文本处理模型，将第二训练文本库中的样本的分词序列转化为第一样本句向量；以及

基于第二训练文本库中的每个样本的类别标签、分词序列和第一样本句向量，训练轻量文本处理模型。

4.如权利要求3所述的方法，其中，所述训练轻量文本处理模型包括：

利用轻量文本处理模型将第二训练文本库中的每一个样本的分词序列转化为所述样本的第二样本句向量，

基于第一样本句向量和第二样本句向量，确定所述轻量文本处理模型的处理损失；

更新轻量文本处理模型中参数，以使得所述处理损失最小化。

5.如权利要求1所述的方法，其中，所述将所述待分类的文本数据转化为数值向量还包括：

将所述待分类的文本数据分割成多个分词，所述多个分词组成分词序列；

将所述分词序列中的每一个分词编码成数值；

将所述分词序列中的每一个分词对应的数值进行组合，以将所述分词序列转换为数值向量。

6.如权利要求1所述的方法，其中，所述待分类的文本数据与至少一个数据源相关联，并且所述待分类的文本数据以文本的形式表征所述数据源。

7.如权利要求6所述的方法，还包括：基于所述待分类的文本数据的类别标签，生成所述数据源的推荐信息。

8.如权利要求2所述的方法，其中，所述复杂文本处理模型包括多个转换器。

9.如权利要求3所述的方法，其中，所述确定所述轻量文本处理模型的处理损失还包括：

利用损失函数确定所述轻量文本处理模型的处理损失；

其中，所述损失函数为基于再生核希尔伯特空间的核函数，所述损失为核损失。

10.一种将复杂文本处理模型简化为轻量文本处理模型的方法，包括：

获取第二训练文本库，所述第二训练文本库中的每个样本包括所述样本的类别标签和所述样本的分词序列，第二训练文本库中的样本量小于第一训练文本库的样本量；

基于第二训练文本库中的每个样本的类别标签、分词序列和第一样本句向量，训练轻量文本处理模型，其中，所述轻量文本处理模型的复杂度低于复杂文本处理模型。

11.如权利要求10所述的方法，其中，所述训练轻量文本处理模型包括：

12.如权利要求11所述的方法，其中，所述利用所述轻量文本处理模型，将第二训练文本库中的每一个样本的分词序列转化为所述样本的第二样本句向量：

利用所述轻量文本处理模型的第一支路模型，从所述分词序列中获取表征所述文本数据的顺序信息的第一样本子句向量；

利用所述轻量文本处理模型的第二支路模型，从所述分词序列中获取表征所述文本数据中的各个词语之间的关联关系的第二样本子句向量；

利用所述轻量文本处理模型的第三支路模型，从所述分词序列中获取表征所述文本数据中的关键词信息的第三样本子句向量；

将第一样本子句向量、第二样本子句向量和第三样本子句向量融合成第二样本句向量。

13.一种处理文本数据的设备，包括：

处理器；以及

存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行权利要求1-9中任一项所述的方法。

14.一种将复杂文本处理模型简化为轻量文本处理模型的设备，包括：

处理器；以及

存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行权利要求10-12中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-12中的任一项所述的方法。