CN113283238A

CN113283238A - 文本数据处理的方法和装置、电子设备和存储介质

Info

Publication number: CN113283238A
Application number: CN202110547645.7A
Authority: CN
Inventors: 杨康; 徐凯波; 孙泽懿; 徐成国; 王硕
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-20
Anticipated expiration: 2041-05-19
Also published as: CN113283238B

Abstract

本申请提供了一种文本数据处理的方法和装置、存储介质和电子设备，该方法包括：获取交互软件中存储的聊天记录，其中，交互软件用于记录目标帐号的通讯信息；利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，得到多个关键词组，其中，关键词组内包括实体和关系词；利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合，其中，目标词组集合中的各个词组之间的关联度大于预设阈值；对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格。本申请解决了相关技术中存在的人工整理工作总结文本数据所花费的时间较多的问题。

Description

文本数据处理的方法和装置、电子设备和存储介质

技术领域

本申请涉及机器学习领域，尤其涉及一种文本数据处理的方法和装置、电子设备和存储介质。

背景技术

随着互联网的发展，网络社交工具(如微信、企业微信等)已经在人们的日常生活和工作中的普及度越来越高，同时也为人们的生活和工作带来了极大的便利。同时，伴随着大量信息的流转，对于信息的有效过滤，以及信息的整理，已经成为目前社会高度关注的话题。尤其在日常的工作的过程中，不可避免的会加入到很多的群聊之中，或者与许多有联系的人进行交流，因此每天都会收到大量关于工作的信息，同时在许多工作的过程中不可避免的需要整理工作总结，对大量的聊天数据进行过滤归纳，然后整理成工作总结本身是一件很花费时间的事情，并且很容易遗漏很多关键的节点和细节。

因此，相关技术中存在人工整理工作总结文本数据所花费的时间较多，经常出现遗漏工作内容的问题。

发明内容

本申请提供了一种文本数据处理的方法和装置、存储介质和电子设备，以至少解决相关技术中存在人工整理工作总结文本数据所花费的时间较多，经常出现遗漏工作内容的问题。

根据本申请实施例的一个方面，提供了一种文本数据处理的方法，该方法包括：获取交互软件中存储的聊天记录，其中，所述交互软件用于记录目标帐号的通讯信息，所述目标帐号为在所述交互软件中使用的帐号；利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取，得到多个关键词组，其中，所述关键词组内包括所述实体和所述关系词；利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合，其中，所述目标词组集合中的各个词组之间的关联度大于预设阈值；对所述目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。

根据本申请实施例的另一个方面，还提供了一种文本数据处理的装置，该装置包括：获取单元，用于获取交互软件中存储的聊天记录，其中，所述交互软件用于记录目标帐号的通讯信息，所述目标帐号为在所述交互软件中使用的帐号；提取单元，用于利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取，得到多个关键词组，其中，所述关键词组内包括所述实体和所述关系词；分类单元，用于利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合，其中，所述目标词组集合中的各个词组之间的关联度大于预设阈值；编码单元，用于对所述目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。

可选地，分类单元包括：获取模块，用于获取所述聊天记录对应的时间信息；第一确定模块，用于确定对所述时间信息进行划分的预设步长，其中，所述预设步长为一固定数值；第一划分模块，用于利用所述预设步长对所述时间信息进行划分，得到多个所述目标词组集合。

可选地，获取模块包括：获取子单元，用于获取所述聊天记录的数量信息；计算子单元，用于对所述数量信息进行平均计算，得到均值信息；设置子单元，用于将所述均值信息作为所述预设步长。

可选地，分类单元包括：排序模块，用于将所述时间信息按照时间先后顺序进行排序，得到排序结果；第二划分模块，用于将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合，除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合，其中，所述第一目标词组集合和所述第二目标词组集合均为所述目标词组集合的子集。

可选地，该装置还包括：第一划分单元，用于在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度大于或者等于所述预设阈值的情况下，将所述第二聊天记录划分到所述第一目标词组集合中；第二划分单元，用于在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度小于所述预设阈值的情况下，将所述第二聊天记录划分到所述第二目标词组集合中。

可选地，分类单元包括：匹配模块，用于利用字节匹配方案，将所述关键词组中的所述实体与预设项目字节进行匹配，其中，所述预设项目字节用于指示所述实体所属的项目；归属模块，用于在所述预设项目字节中存在目标项目字节与所述实体之间的匹配结果大于预设匹配阈值的情况下，将所述实体归属到所述目标项目字节对应的目标项目内，得到所述目标词组集合，其中，一个所述目标词组集合中的所述实体归属于同一个项目，所述目标项目字节为所述预设项目字节中的任意一个项目字节。

可选地，分类单元还包括：第二确定模块，用于根据所述聊天记录确定所述目标帐号内第一用户和第二用户之间存在工作关系；提取模块，用于从所述工作关系中提取工作关键词，其中，所述工作关键词用于表征用户之间的工作关系；分类模块，用于利用所述工作关键词对多个所述关键词组进行分类，得到多个分类后的目标词组集合。

可选地，编码单元包括：编码模块，用于对所述目标词组集合内的各个词组进行词向量编码，得到编码数据；解码模块，用于利用多任务解码器对所述编码数据进行解码，得到满足所述目标风格的文本数据，其中，所述多任务解码器用于根据所述预设样式风格对所述编码数据进行解码，所述预设样式风格的数量为至少一个，所述文本数据表达的语义与各个词组表达的语义相同。

根据本申请实施例的又一个方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；其中，存储器，用于存储计算机程序；处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的文本数据处理的方法步骤。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一实施例中的文本数据处理的方法步骤。

本申请可以应用于在深度学习技术领域进行自然语言处理，在本申请实施例中，采用获取工作交互软件的聊天记录数据，对其进行处理和整合的方式，通过获取交互软件中存储的聊天记录，其中，交互软件用于记录目标帐号的通讯信息，目标帐号为在交互软件中使用的帐号；利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，得到多个关键词组，其中，关键词组内包括实体和关系词；利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合，其中，目标词组集合中的各个词组之间的关联度大于预设阈值；对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格。由于本申请通过对数据的搜集、过滤、整理，筛选到有用的数据，并对有用的数据进行精细化的整理和分类，最终对分类后的多个目标词组集合进行编码，生成符合目标帐号的目标风格文本数据，这样，实现了对数据的高效整合，一定程度的实现了数据的高效利用，节约用户的时间的技术效果，进而解决了相关技术中存在的人工整理工作总结文本数据所花费的时间较多，经常出现遗漏工作内容的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的文本数据处理的方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的文本数据处理的方法的流程示意图；

图3是根据本申请实施例的一种可选的TextCNN结构示意图；

图4是根据本申请实施例的一种可选的词组提取的方法的整体流程示意图；

图5是根据本申请实施例的一种可选的生成目标风格的文本数据的模型示意图；

图6是根据本申请实施例的一种可选的文本数据处理的装置的结构框图；

图7是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种文本数据处理的方法。可选地，在本实施例中，上述文本数据处理的方法可以应用于如图1所示的硬件环境中。如图1所示，终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接，该服务器112可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器112上或独立于服务器112设置数据库114，用于为服务器112提供数据存储服务。此外，服务器112中可以运行有处理引擎116，该处理引擎116可以用于执行由服务器112所执行的步骤。

可选地，终端102可以但不限于为可以计算数据的终端，如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer，个人计算机)机等终端上，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI(Wireless Fidelity，无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。

此外，在本实施例中，上述文本数据处理的方法还可以但不限于应用于处理能力较强大的独立的处理设备中，而无需进行数据交互。例如，该处理设备可以但不限于为处理能力较强大的终端设备，即，上述文本数据处理的方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述文本数据处理的方法可以由服务器112来执行，也可以由终端102来执行，还可以是由服务器112和终端102共同执行。其中，终端102执行本申请实施例的文本数据处理的方法也可以是由安装在其上的客户端来执行。

以运行在服务器为例，图2是根据本申请实施例的一种可选的文本数据处理的方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤：

步骤S201，获取交互软件中存储的聊天记录，其中，交互软件用于记录目标帐号的通讯信息，目标帐号为在交互软件中使用的帐号。

可选地，本申请实施例可以利用交互软件(比如一些工作通讯软件：xx)得到用户在目标帐号上的相关聊天记录信息，其中，目标帐号为使用交互软件的用户在交互软件上注册的帐号，用户利用交互软件与其他用户进行通讯交互的所有信息都会保存在该目标帐号中。

在本申请实施例中，在获取到目标帐号在交互软件中存储的聊天记录后，会对聊天记录进行数据预处理，其中，数据预处理块主要作用是对基于某用户该段时间内在工作交互软件后台的数据进行过滤，清理掉一些与工作内容进度无关的聊天内容。在此主要采用一个文本分类算法，对一条条的语句信息进行分类，找出与工作相关的内容的聊天语句，作为后续抽取的语料。

其中，文本分类算法可采取多种不同的模型结构(如，TextCNN(TextConvolutional Neural Networks，文本卷积神经网络)、Transformer等)，但由于考虑到聊天语句普遍较简短且句式结构不是很复杂的缘故，本申请实施例可以使用TextCNN算法实现文本的分类，完成数据预处理。具体可参见图3所示。

图3是根据本申请实施例的一种可选的TextCNN结构示意图，在图3中，inputLayer表示模型的输入层，Embedding表示模型的词向量表示结构，Conv1Dv表示1维CNN结构，MaxPooling1D表示1维最大池化层，Concatenate表示对不同的分支结构输出的隐藏信息进行拼接，Flatten表示将拼接后的二维向量进行展开变成1维向量，Dense表示全连接结构，input表示输入，output表示输出，最后通过softMax计算输出分类结果。

步骤S202，利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，得到多个关键词组，其中，关键词组内包括实体和关系词。

可选地，选用抽取算法的目标模型(如BiLSTM(Bi-directional Long Short-TermMemory，双向长短时记忆循环神经网络)、Bert等)，对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，获取到对应的实体或者实体之间的关系，以得到多个关键词组，其中，每一关键词组内都包含多个实体以及实体之间相关联的关系词。

其中，本申请实施例是通过构建相应的深度学习算法模型以及规则，对关键的名词，动词，关系词进行抽取的，具体可参见图4所示的词组提取的方法的整体流程示意图，该整体流程示意图分为两个部分，分别是三元组产品处理部分和抽取流程部分：

三元组产品处理部分：获取三元组产品，根据该三元组产品建立项目信息，进行本体构建，在该本体中导入词典，导入规则，人工标注以及实体识别。

抽取流程部分分为训练子部分和预测子部分。首先，根据本体构建需要确定出本体(即实体和实体间的关系)，这时，需要将人工标注的数据放入训练子部分的训练数据中，生成训练模型；

根据三元组产品处理部分导入词典(如NER(Named Entity Recognition，命名实体识别)词典)和导入规则(如NER(Named Entity Recognition，命名实体识别)规则)对训练模型进行调参等处理，进而确定出输出模型(即图中的算法模型)，然后利用确定的算法模型即可对实体以及实体关系词等进行提取。

步骤S203，利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合，其中，目标词组集合中的各个词组之间的关联度大于预设阈值。

可选地，在获取到多个关键词组后，利用聊天纪录的时间以及不同的项目群和项目关联人员的类别进行归纳和整理，形成一个一个分类后的目标词组集合，该目标词组集合中的词组可以表征某个工作在某段时间内的工作关键词，同时，该目标词组集合中包含的各个词组之间的关联度大于预设阈值，也即，在一目标词组集合中各个词组之间的关联度是较大的，可以划分到一个类别中的，其中，这里的预设阈值是各个词组之间的关联度的最低值，在目标词组集合中包含的各个词组之间的关联度通常需要是大于该预设阈值的。

步骤S204，对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格。

可选地，确定出目标帐号的文本风格，服务器可以利用编码器对目标词组集合内的各个词组进行编码处理，得到满足目标帐号对应的目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格，预设样式风格可以是用户提前在服务器中设置的，在编码处理后，可以根据用户需求，解码出符合用户撰写风格要求的文本数据。

需要说明的是，这里的文本数据可以是工作总结等文本数据，本申请实施例不对文本数据的具体内容做限定。预设样式风格可以是商务风格、可爱风格、标准风格等，而目标风格可以是上述三种预设样式风格中的任意一种。

在本申请实施例中，采用获取工作交互软件的聊天记录数据，对其进行处理和整合的方式，通过获取交互软件中存储的聊天记录，其中，交互软件用于记录目标帐号的通讯信息，目标帐号为在交互软件中使用的帐号；利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，得到多个关键词组，其中，关键词组内包括实体和关系词；利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合，其中，目标词组集合中的各个词组之间的关联度大于预设阈值；对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格。由于本申请通过对数据的搜集、过滤、整理，筛选到有用的数据，并对有用的数据进行精细化的整理和分类，最终对分类后的多个目标词组集合进行编码，生成符合目标帐号的目标风格文本数据，这样，实现了对数据的高效整合，一定程度的实现了数据的高效利用，节约用户的时间的技术效果，进而解决了相关技术中存在的人工整理工作总结文本数据所花费的时间较多，经常出现遗漏工作内容的问题。

作为一种可选实施例，利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合包括：

获取聊天记录对应的时间信息；

确定对时间信息进行划分的预设步长，其中，预设步长为一固定数值；

利用预设步长对时间信息进行划分，得到多个目标词组集合。

可选地，本申请可以按照提前设置的预设步长对聊天记录进行归类，更具体地，服务器获取到聊天记录对应的时间信息，并利用设置的预设步长对时间信息进行固定的划分，这样就可以得到多个目标词组集合。

比如，设置预设步长为5分钟，这样每五分钟得到的聊天记录归纳到同一个目标词组集合内。

本申请实施例通过利用设置的预设步长对时间信息进行划分，得到一个个目标词组集合，便于词组中实体或其他信息的提取。

作为一种可选实施例，获取聊天记录对应的时间信息包括：

获取聊天记录的数量信息；

对数量信息进行平均计算，得到均值信息；

将均值信息作为预设步长。

可选地，本申请实施例可以对获取到的聊天记录的数量进行平均计算，得到均值，将该均值作为预设步长以作为划分时间信息的依据。

比如，获取到6个聊天记录，其平均值为3，可以将数字3作为预设步长，对时间信息进行划分，这时可以得到两个目标词组集合。

将时间信息按照时间先后顺序进行排序，得到排序结果；

将排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合，除了第一聊天记录以外的第二聊天记录划分到第二目标词组集合，其中，第一目标词组集合和第二目标词组集合均为目标词组集合的子集。

可选地，本申请实施例需要对获取的时间信息进行时间先后顺序的排列，以形成一个有时序的排序结果。

获取到预先设置的预设差值，利用该预设差值对聊天记录进行划分，更进一步地，需要获取到排序结果中的相邻两个时间信息之间的时间差，将该时间差与预设差值进行比较，将时间差小于或者等于预设差值的聊天记录划分到第一目标词组集合中，将时间差大于预设差值的聊天记录划分到第二目标词组集合中。其中，第一目标词组集合和第二目标词组集合都为目标词组集合的子集。

比如，排序结果中包含时间信息8:00的聊天记录，8:03的聊天记录、8:10的聊天记录和8:20的聊天记录，这时8:00与8:03之间的时间差为3，8:03与8:10之间的时间差为7，8:10与8:20之间的时间差为10。如果预设差值设置为5，那么聊天记录为8:00和8:03的需要划分到第一目标词组集合，剩下的8:10和8:20需要划分到第二目标词组集合。同时，由于8:03已经划分到第一目标词组集合中了，不能因为8:03与8:10之间的时间差为7，再将8:03划分到第一目标词组集合中，也即，每个聊天记录只能划分到一个目标词组集合中，不可重复划分。

在本申请实施例中，可以根据相邻两个时间信息之间的时间差与预设差值间的比较情况，确定出划分结果，有利于关键词组的划分。

作为一种可选实施例，将排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合，除了第一聊天记录以外的第二聊天记录划分到第二目标词组集合之前，方法还包括：

在确定第二聊天记录中的实体与第一聊天记录中的实体之间的关联度大于或者等于预设阈值的情况下，将第二聊天记录划分到第一目标词组集合中；

在确定第二聊天记录中的实体与第一聊天记录中的实体之间的关联度小于预设阈值的情况下，将第二聊天记录划分到第二目标词组集合中。

可选地，在依据预设差值进行对第二聊天记录划分之前，还可以根据第二聊天记录与第一聊天记录之间的关联度，确定是否可以将第二聊天记录也划分到第一目标词组集合中。

更进一步地，可以判断第二聊天记录中的实体与第一聊天记录中的实体之间的关联度，在第二聊天记录中的实体与第一聊天记录中的实体之间的关联度大于或者等于预设阈值的情况下，将第二聊天记录划分到第一目标词组集合中，否则将第二聊天记录划分到第二目标词组集合中。

在本申请实施例中，可以根据实体间的关联关系，确定出划分结果，有利于提高关键词组的划分准确度。

作为一种可选实施例，利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合还包括：

利用字节匹配方案，将关键词组中的实体与预设项目字节进行匹配，其中，预设项目字节用于指示实体所属的项目；

在预设项目字节中存在目标项目字节与实体之间的匹配结果大于预设匹配阈值的情况下，将实体归属到目标项目字节对应的目标项目内，得到目标词组集合，其中，一个目标词组集合中的实体归属于同一个项目，目标项目字节为预设项目字节中的任意一个项目字节。

可选地，本申请实施例还可以根据关键词组所属的项目群进行分类的划分，更具体地，可以利用字节匹配方案，将关键词组中的实体与预设项目字节进行匹配，这里的预设项目字节通常是代表每一项目的关键字，比如，EV项目施工状态中“EV施工”，“状态”就是预设项目字节，这时，根据关键词组中的实体与预设项目字节的匹配结果，若预设项目字节中存在目标项目字节，比如，目标项目字节设置为“EV施工”，在其与实体之间的匹配结果大于预设匹配阈值(可以是80％)的情况下，将实体归属到目标项目字节对应的目标项目内，这时，是归属到EV项目中，进而得到目标词组集合。

由于预设项目字节包含的项目字节较多，这时只要预设项目字节中存在一目标项目字节与关键词组中的实体间的匹配结果大于预设匹配阈值，就认为该实体属于目标项目，上述实施例的目标项目即为“EV项目”。同时，可以理解的是，因为本申请实施例是由归属于同一个目标项目的实体组成的目标词组集合，所以，一个目标词组集合中的实体归属于同一个项目。

在本申请实施例中，可以根据实体所属项目来划分归类，得到多个类别的目标词组集合，有利于后续关键词组的准确划分。

根据聊天记录确定目标帐号内第一用户和第二用户之间存在工作关系；

从工作关系中提取工作关键词，其中，工作关键词用于表征用户之间的工作关系；

利用工作关键词对多个关键词组进行分类，得到多个分类后的目标词组集合。

可选地，本申请实施例还可以利用用户之间的工作关系来进行分类，进一步地，获取到目标帐号内记录的第一用户和第二用户之间存在工作关系，比如，聊天记录内记载第一用户和第二用户之间存在上下属关系，这时，需要从工作关系中进一步提取出工作关键词，比如，“修理”，“电器”等工作关键词，这时，根据该关键词可以得知第一用户和第二用户之间是电工类的工作关联，这时，只需要将聊天记录中有关工作关键词“修理”，“电器”的词组进行归类，进而得到多个根据工作关键词归类的目标词组集合。

在本申请实施例中，可以根项目关联人员的类别进行归纳和整理，得到多个目标词组集合，有利于后续关键词组的准确划分。

作为一种可选实施例，对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据包括：

对目标词组集合内的各个词组进行词向量编码，得到编码数据；

利用多任务解码器对编码数据进行解码，得到满足目标风格的文本数据，其中，多任务解码器用于根据预设样式风格对编码数据进行解码，预设样式风格的数量为至少一个，文本数据表达的语义与各个词组表达的语义相同。

可选地，如图5所示，图5中包含同一个统一的编码器(如，BiLSTM/Transformer)和多任务解码器(如，BiLSTM/Transformer+beamsearch/greety/HMM等)，这时，可以将多个目标词组集合内的各个词组输入编码器中进行词向量编码，得到编码数据；

然后利用多任务解码器对编码数据进行解码，可以得到多个解码后的文本数据，其中，这些文本数据是符合预设样式风格的文本数据。由于预设样式风格的数量有多个，任务解码器也是多个，这样，得到的文本数据的风格也是多样的，当然这些文本数据的风格中包含使用目标帐号的用户日常撰写风格，比如，预设样式风格可以包含商务风格、可爱风格、标准风格，利用多任务解码器解码出的文本数据可以对应上述三种风格，也可以只得到一种满足目标帐号的目标风格的文本数据。

可以理解的是，不管解码器得出的文本数据是商务风格还是可爱风格还是标准风格，其对应的文本数据表达的语义都应是一样的，只有风格不同的差异。

在本申请实施例中，通过对各个词组的词向量编码和多任务解码器的解码处理，可以生成多样化的文本数据，以得到符合自身风格的工作总结，这样可以增强文本多样性，提高用户兴趣度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述文本数据处理的方法的文本数据处理的装置。图6是根据本申请实施例的一种可选的文本数据处理的装置的结构框图，如图6所示，该装置可以包括：

获取单元601，用于获取交互软件中存储的聊天记录，其中，交互软件用于记录目标帐号的通讯信息，目标帐号为在交互软件中使用的帐号；

提取单元602，与获取单元601相连，用于利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，得到多个关键词组，其中，关键词组内包括实体和关系词；

分类单元603，与提取单元602相连，用于利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合，其中，目标词组集合中的各个词组之间的关联度大于预设阈值；

编码单元604，与分类单元603相连，用于对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格。

需要说明的是，该实施例中的获取单元601可以用于执行上述步骤S201，该实施例中的提取单元602可以用于执行上述步骤S202，该实施例中的分类单元603可以用于执行上述步骤S203，该实施例中的编码单元604可以用于执行上述步骤S204。

通过上述模块，采用获取工作交互软件的聊天记录数据，对其进行处理和整合的方式，通过获取交互软件中存储的聊天记录，其中，交互软件用于记录目标帐号的通讯信息，目标帐号为在交互软件中使用的帐号；利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，得到多个关键词组，其中，关键词组内包括实体和关系词；利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合，其中，目标词组集合中的各个词组之间的关联度大于预设阈值；对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格。由于本申请通过对数据的搜集、过滤、整理，筛选到有用的数据，并对有用的数据进行精细化的整理和分类，最终对分类后的多个目标词组集合进行编码，生成符合目标帐号的目标风格文本数据，这样，实现了对数据的高效整合，一定程度的实现了数据的高效利用，节约用户的时间的技术效果，进而解决了相关技术中存在的人工整理工作总结文本数据所花费的时间较多，经常出现遗漏工作内容的问题。

作为一种可选的实施例，分类单元包括：获取模块，用于获取聊天记录对应的时间信息；第一确定模块，用于确定对时间信息进行划分的预设步长，其中，预设步长为一固定数值；第一划分模块，用于利用预设步长对时间信息进行划分，得到多个目标词组集合。

作为一种可选的实施例，获取模块包括：获取子单元，用于获取聊天记录的数量信息；计算子单元，用于对数量信息进行平均计算，得到均值信息；设置子单元，用于将均值信息作为预设步长。

作为一种可选的实施例，分类单元包括：排序模块，用于将时间信息按照时间先后顺序进行排序，得到排序结果；第二划分模块，用于将排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合，除了第一聊天记录以外的第二聊天记录划分到第二目标词组集合，其中，第一目标词组集合和第二目标词组集合均为目标词组集合的子集。

作为一种可选的实施例，该装置还包括：第一划分单元，用于在确定第二聊天记录中的实体与第一聊天记录中的实体之间的关联度大于或者等于预设阈值的情况下，将第二聊天记录划分到第一目标词组集合中；第二划分单元，用于在确定第二聊天记录中的实体与第一聊天记录中的实体之间的关联度小于预设阈值的情况下，将第二聊天记录划分到第二目标词组集合中。

作为一种可选的实施例，分类单元包括：匹配模块，用于利用字节匹配方案，将关键词组中的实体与预设项目字节进行匹配，其中，预设项目字节用于指示实体所属的项目；归属模块，用于在预设项目字节中存在目标项目字节与实体之间的匹配结果大于预设匹配阈值的情况下，将实体归属到目标项目字节对应的目标项目内，得到目标词组集合，其中，一个目标词组集合中的实体归属于同一个项目，目标项目字节为预设项目字节中的任意一个项目字节。

作为一种可选的实施例，分类单元还包括：第二确定模块，用于根据聊天记录确定目标帐号内第一用户和第二用户之间存在工作关系；提取模块，用于从工作关系中提取工作关键词，其中，工作关键词用于表征用户之间的工作关系；分类模块，用于利用工作关键词对多个关键词组进行分类，得到多个分类后的目标词组集合。

作为一种可选的实施例，编码单元包括：编码模块，用于对目标词组集合内的各个词组进行词向量编码，得到编码数据；解码模块，用于利用多任务解码器对编码数据进行解码，得到满足目标风格的文本数据，其中，多任务解码器用于根据预设样式风格对编码数据进行解码，预设样式风格的数量为至少一个，文本数据表达的语义与各个词组表达的语义相同。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种用于实施上述文本数据处理的方法的电子设备，该电子设备可以是服务器、终端、或者其组合。

图7是根据本申请实施例的一种可选的电子设备的结构框图，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信，其中，

存储器703，用于存储计算机程序；

处理器701，用于执行存储器703上所存放的计算机程序时，实现如下步骤：

S1，获取交互软件中存储的聊天记录，其中，交互软件用于记录目标帐号的通讯信息，目标帐号为在交互软件中使用的帐号；

S2，利用目标模型对聊天记录中的词组进行实体的提取以及实体之间关系词的提取，得到多个关键词组，其中，关键词组内包括实体和关系词；

S3，利用目标方案对多个关键词组进行分类，得到多个分类后的目标词组集合，其中，目标词组集合中的各个词组之间的关联度大于预设阈值；

S4，对目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，目标风格为多个预设样式风格中与目标帐号匹配的风格。

可选地，在本实施例中，上述的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，如图7所示，上述存储器703中可以但不限于包括上述文本数据处理的装置中的获取单元601、提取单元602、分类单元603、编码单元604。此外，还可以包括但不限于上述文本数据处理的装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

此外，上述电子设备还包括：显示器，用于显示文本数据处理结果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图7所示的结构仅为示意，实施上述文本数据处理的方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子设备的结构造成限定。例如，终端设备还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行文本数据处理的方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请实施例的又一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一个实施例中的文本数据处理的方法步骤。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例文本数据处理的方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本数据处理的方法，其特征在于，所述方法包括：

获取交互软件中存储的聊天记录，其中，所述交互软件用于记录目标帐号的通讯信息，所述目标帐号为在所述交互软件中使用的帐号；

利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取，得到多个关键词组，其中，所述关键词组内包括所述实体和所述关系词；

利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合，其中，所述目标词组集合中的各个词组之间的关联度大于预设阈值；

对所述目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。

2.根据权利要求1所述的方法，其特征在于，所述利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合包括：

获取所述聊天记录对应的时间信息；

确定对所述时间信息进行划分的预设步长，其中，所述预设步长为一固定数值；

利用所述预设步长对所述时间信息进行划分，得到多个所述目标词组集合。

3.根据权利要求2所述的方法，其特征在于，所述获取所述聊天记录对应的时间信息包括：

获取所述聊天记录的数量信息；

对所述数量信息进行平均计算，得到均值信息；

将所述均值信息作为所述预设步长。

4.根据权利要求2所述的方法，其特征在于，所述利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合包括：

将所述时间信息按照时间先后顺序进行排序，得到排序结果；

将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合，除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合，其中，所述第一目标词组集合和所述第二目标词组集合均为所述目标词组集合的子集。

5.根据权利要求4所述的方法，其特征在于，所述将所述排序结果中的相邻两个时间信息之间的时间差小于或者等于预设差值的第一聊天记录划分到第一目标词组集合，除了所述第一聊天记录以外的第二聊天记录划分到第二目标词组集合之前，所述方法还包括：

在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度大于或者等于所述预设阈值的情况下，将所述第二聊天记录划分到所述第一目标词组集合中；

在确定所述第二聊天记录中的实体与第一聊天记录中的实体之间的所述关联度小于所述预设阈值的情况下，将所述第二聊天记录划分到所述第二目标词组集合中。

6.根据权利要求1所述的方法，其特征在于，所述利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合还包括：

利用字节匹配方案，将所述关键词组中的所述实体与预设项目字节进行匹配，其中，所述预设项目字节用于指示所述实体所属的项目；

在所述预设项目字节中存在目标项目字节与所述实体之间的匹配结果大于预设匹配阈值的情况下，将所述实体归属到所述目标项目字节对应的目标项目内，得到所述目标词组集合，其中，一个所述目标词组集合中的所述实体归属于同一个项目，所述目标项目字节为所述预设项目字节中的任意一个项目字节。

7.根据权利要求1所述的方法，其特征在于，所述利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合还包括：

根据所述聊天记录确定所述目标帐号内第一用户和第二用户之间存在工作关系；

从所述工作关系中提取工作关键词，其中，所述工作关键词用于表征用户之间的工作关系；

利用所述工作关键词对多个所述关键词组进行分类，得到多个分类后的目标词组集合。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述对所述目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据包括：

对所述目标词组集合内的各个词组进行词向量编码，得到编码数据；

利用多任务解码器对所述编码数据进行解码，得到满足所述目标风格的文本数据，其中，所述多任务解码器用于根据所述预设样式风格对所述编码数据进行解码，所述预设样式风格的数量为至少一个，所述文本数据表达的语义与各个词组表达的语义相同。

9.一种文本数据处理的装置，其特征在于，所述装置包括：

获取单元，用于获取交互软件中存储的聊天记录，其中，所述交互软件用于记录目标帐号的通讯信息，所述目标帐号为在所述交互软件中使用的帐号；

提取单元，用于利用目标模型对所述聊天记录中的词组进行实体的提取以及所述实体之间关系词的提取，得到多个关键词组，其中，所述关键词组内包括所述实体和所述关系词；

分类单元，用于利用目标方案对多个所述关键词组进行分类，得到多个分类后的目标词组集合，其中，所述目标词组集合中的各个词组之间的关联度大于预设阈值；

编码单元，用于对所述目标词组集合内的各个词组进行编码，得到满足目标风格的文本数据，其中，所述目标风格为多个预设样式风格中与所述目标帐号匹配的风格。

10.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，其特征在于，

所述存储器，用于存储计算机程序；

所述处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至8中任一项所述的文本数据处理的方法步骤。

11.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至8中任一项中所述的文本数据处理的方法步骤。