CN114154461A

CN114154461A - 一种文本数据的处理方法、装置及***

Info

Publication number: CN114154461A
Application number: CN202010933970.2A
Authority: CN
Inventors: 陶冶; 陈伟; 周安
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-08
Also published as: WO2022052959A1

Abstract

本公开提供了一种文本数据的处理方法、装置及***，该方法包括：在机器学***台中的所述本文处理算子，进行文本数据处理。

Description

一种文本数据的处理方法、装置及***

技术领域

本发明涉及文本数据处理技术领域，更具体地，涉及一种文本数据的处理方法、一种文本数据的处理装置、一种包括至少一个计算装置和至少一个存储装置的***、及一种可读存储介质。

背景技术

随着人工智能的发展，数据的价值不断凸显，将文本数据通过自然语言处理技术对文章进行摘要自动输出、对两篇文章进行相似度比对的需求越来越常见。这些需求主要包括对相应的文本处理模型的训练、预测、上线等。

但是，对文本处理模型的训练、预测、上线等事项，需要自然语言处理相关专业人员来完成。缺少自然语言处理相关经验的人员，很难完成相关能力在业务场景中的落地。因此，处理人员的水平很大程度的限制了文章摘要和文本相似度能力在业务场景中的落地，使得大量的非常有价值的文本数据被浪费、无法被利用起来。

发明内容

本公开的一个目的是提供一种处理文本数据的新技术方案。

根据本公开的第一方面，提供了一种文本数据的处理方法，包括：

在机器学习平台的算子集合中增加用于对文本数据进行处理的文本处理算子，所述文本处理算子包括：摘要抽取算子和/或文本相似度分析算子；

基于所述机器学习平台中的所述本文处理算子，进行文本数据处理。

可选的，所述基于所述机器学习平台中的所述本文处理算子，进行文本数据处理包括：

提供用户配置界面，所述用户配置界面包括算子展示区域和用于创建数据处理流程图的画布区域；其中，所述算子展示区域中展示有用于对文本数据进行处理的所述文本处理算子；

获取上传的目标文本数据；

响应于创建目标数据处理流程图的操作，根据所述目标文本数据和所述文本处理算子，在所述画布区域创建所述目标数据处理流程图；

响应于运行所述目标数据处理流程图的操作，依据所述目标数据处理流程图运行所述文本处理算子对所述目标文本数据进行处理，得到文本处理结果。

可选的，所述响应于创建目标数据处理流程图的操作，根据所述目标文本数据和所述文本处理算子，在所述画布区域创建所述目标数据处理流程图包括：

响应于选择所述目标文本数据的操作，在所述画布区域展示所述目标文本数据；

响应于选择所述算子展示区域中的所述文本处理算子的操作，在所述画布区域展示所述文本处理算子；

响应于连接所述目标文本数据和所述文本处理算子的操作，在所述画布区域中连接所述目标文本数据和所述文本处理算子，得到所述目标数据处理流程图。

可选的，还包括：

响应于对所述文本处理算子进行资源配置的请求，提供所述文本处理算子的第一配置界面；

通过所述第一配置界面获取所述文本处理算子的资源配置参数，以根据所述资源配置参数运行所述文本处理算子。

可选的，所述获取上传的目标文本数据包括：

提供用于上传数据的入口；

响应于上传目标文本数据的操作，获取通过所述入口所上传的所述目标文本数据。

可选的，所述文本处理算子为用于对文本数据进行摘要抽取处理的摘要抽取算子；

所述依据所述目标数据处理流程图运行所述文本处理算子对所述目标文本数据进行处理，得到文本处理结果包括：

运行所述摘要抽取算子以对所述目标文本数据进行如下处理：

对所述目标文本数据中目标行文本数据进行断句处理，得到多个语句；其中，所述目标行文本数据为目标文本数据中任一行的文本数据；

确定每两个语句之间的相似度，并对每两个语句之间的相似度进行正则化处理，得到相似度矩阵；

根据相似度矩阵和指定语句的预设的分数，得到其他语句的分数；其中，其他语句为所述多个语句中除所述指定语句以外的语句；

根据所述分数，从所述多个语句中选取设定数量个语句，作为摘要语句；

根据所述摘要语句，生成所述目标行文本数据所对应文本摘要，作为所述文本处理结果。

可选的，所述确定每两个语句之间的相似度包括：

对每个语句进行编码，得到每个语句的语句向量；

对于每两个语句，确定对应语句向量之间的余弦值，作为对应两个语句之间的相似度。

可选的，所述根据所述摘要语句，生成所述目标行文本数据所对应文本摘要，作为所述文本处理结果包括：

获取每个所述摘要语句在所述目标行文本数据中的顺序；

按照所述顺序对所述摘要语句进行排序，并在每一摘要语句之后中添加预设的标点，得到所述目标行文本数据所对应文本摘要，作为所述文本处理结果。

可选的，所述文本处理算子为用于对文本数据进行相似度分析处理的文本相似度分析算子；

所述依据所述目标数据处理流程图运行所述文本处理算子对所述目标文件数据进行处理，得到文本处理结果包括：

运行所述文本相似度分析算子以对所述目标文本数据进行如下处理：

对所述目标文本数据中位于同一行的第一文本数据和第二文本数据分别进行编码，得到第一文本数据的第一向量和第二文本数据的第二向量；其中，所述第一文本数据位于所述目标文本数据中的第一目标列，所述第二文本数据位于所述目标文本数据中的第二目标列；

根据所述第一向量和所述第二向量，确定所述第一文本数据和所述第二文本数据之间的预测相似度，作为所述文本处理结果。

可选的，所述根据所述第一向量和所述第二向量，确定所述第一文本数据和所述第二文本数据之间的预测相似度包括：

确定所述第一向量和所述第二向量的余弦相似度；

确定所述第一向量和所述第二向量的平方的最大值；

确定所述第一向量和所述第二向量的差值的绝对值；

确定所述第一向量和所述第二向量的点积；

对所述余弦相似度、所述平方的最大值、所述差值的绝对值、所述点积、所述第一向量和所述第二向量进行拼接，得到所述第一文本数据和所述第二文本数据的目标拼接向量；

获取拼接向量与相似度之间的映射函数；

根据所述映射函数和所述目标拼接向量，确定所述第一文本数据和所述第二文本数据之间的预测相似度。

可选的，还包括：

响应于对所述文本相似度分析算子进行处理对象的配置的请求，提供所述文本相似度分析算子的第二配置界面；

通过所述第二配置界面获取所述第一目标列和所述第二目标列，以使所述文本相似度分析算子对所述目标文本数据中所述第一目标列的文本数据和所述第二目标列的文本数据进行相似度分析处理。

可选的，还包括：

展示所述文本处理结果。

响应于将所述文本处理算子上线的请求，对所述文本处理算子进行打包处理，得到目标预估服务，以供目标用户使用；

运行所述目标预估服务，对所述目标用户提供至所述目标预估服务的文本数据进行处理，并向所述目标用户返回对应的文本处理结果。

可选的，所述响应于将所述文本处理算子上线的请求，对所述文本处理算子进行打包处理，得到目标预估服务包括：

响应于创建预估服务的请求，提供至少一个预估模块供用户选择；

获取用户选择的目标预估模块，并提供模型选择界面；

获取用户通过所述模型选择界面所选择的所述文本处理算子；

根据所述目标预估模块，对所述文本处理算子进行打包处理，得到所述目标预估服务。

可选的，还包括：

响应于对所述目标预估服务进行配置的请求，提供第三配置界面；

通过所述第三配置界面，获取所述目标预估服务的配置信息，以根据所述配置信息运行所述目标预估服务。

可选的，所述配置信息包括以下执行一项：使用的GPU资源，使用的CPU资源，使用的内存资源，运行时调用的镜像所在地址。

可选的，还包括：

响应于查看所述目标预估服务的状态的请求，展示所述目标预估服务的状态。

可选的，所述目标预估服务的状态包括以下至少一项：所述目标预估服务在运行过程中所占用的资源，所述目标预估服务的上线历史，所述目标预估服务的版本号，所述目标预估服务的部署时间，所述目标预估服务的运行时间。

根据本公开的第二方面，提供了一种文本数据的处理装置，包括：

算子增加模块，用于在机器学习平台的算子集合中增加用于对文本数据进行处理的文本处理算子，所述文本处理算子包括：摘要抽取算子和/或文本相似度分析算子；

文本处理模块，用于基于所述机器学习平台中的所述本文处理算子，进行文本数据处理。

可选的，所述文本处理模块还用于：

获取上传的目标文本数据；

可选的，还包括：

用于响应于对所述文本处理算子进行资源配置的请求，提供所述文本处理算子的第一配置界面的模块；

用于通过所述第一配置界面获取所述文本处理算子的资源配置参数，以根据所述资源配置参数运行所述文本处理算子的模块。

可选的，所述获取上传的目标文本数据包括：

提供用于上传数据的入口；

可选的，所述确定每两个语句之间的相似度包括：

对每个语句进行编码，得到每个语句的语句向量；

获取每个所述摘要语句在所述目标行文本数据中的顺序；

确定所述第一向量和所述第二向量的余弦相似度；

确定所述第一向量和所述第二向量的平方的最大值；

确定所述第一向量和所述第二向量的差值的绝对值；

确定所述第一向量和所述第二向量的点积；

获取拼接向量与相似度之间的映射函数；

可选的，还包括：

用于响应于对所述文本相似度分析算子进行处理对象的配置的请求，提供所述文本相似度分析算子的第二配置界面的模块；

用于通过所述第二配置界面获取所述第一目标列和所述第二目标列，以使所述文本相似度分析算子对所述目标文本数据中所述第一目标列的文本数据和所述第二目标列的文本数据进行相似度分析处理的模块。

可选的，还包括：

用于展示所述文本处理结果的模块。

可选的，所述文本处理模块还用于：

获取用户选择的目标预估模块，并提供模型选择界面；

可选的，还包括：

用于响应于对所述目标预估服务进行配置的请求，提供第三配置界面的模块；

用于通过所述第三配置界面，获取所述目标预估服务的配置信息，以根据所述配置信息运行所述目标预估服务的模块。

可选的，还包括：

用于响应于查看所述目标预估服务的状态的请求，展示所述目标预估服务的状态的模块。

根据本公开的第三方面，提供了一种包括至少一个计算装置和至少一个存储装置的***，其中，所述至少一个存储装置用于存储指令，所述指令用于控制所述至少一个计算装置执行根据本公开第一方面所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如本公开第一方面所述的方法。

本公开实施例的数据处理方法，通过预先在机器学***台中就可以直接调用该文本处理算子对文本数据进行相应的处理，无需在对文本数据进行处理时重新构建对应的文本处理流程。使得用户无需专业的自然语音处理相关知识和场景相关经验，也可以完成文本数据的处理，真正做到开箱即用，降低了使用门槛。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是可用于实现本公开的实施例的电子设备的硬件配置的一个例子的框图。

图2是根据本公开实施例的文本数据的处理方法的流程示意图；

图3是根据本公开实施例的文本数据的处理方法的一个例子的流程示意图；

图4是根据本公开实施例的上传目标文本数据的示意图；

图5是根据本公开实施例的文本数据的处理方法的另一个例子的流程示意图；

图6是根据本公开实施例的目标数据处理流程图的示意图；

图7是根据本公开实施例的预估服务的选择界面的示意图；

图8是根据本公开实施例的选择模型界面的示意图；

图9是根据本公开实施例的文本数据的处理装置的方框原理图；

图10是根据本公开实施例的***的方框原理图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

下面，参照附图描述根据本发明实施例的各个实施例和例子。

<硬件配置>

图1是示出可以实现本公开的实施例的电子设备1000的硬件配置的框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示，电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本公开、其应用或使用的任何限制。应用于本公开的实施例中，电子设备1000的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本公开实施例提供的任意一项方法。本领域技术人员应当理解，尽管在图1中对电子设备1000示出了多个装置，但是，本公开可以仅涉及其中的部分装置，例如，电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本公开所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<方法实施例>

<实施例一>

在本实施例中，提供了一种文本数据的处理方法。该文本数据的处理方法可以是由电子设备实施。该电子设备可以是如图1所示的电子设备1000。

根据图2所示，本实施例的文本数据的处理方法可以包括如下步骤S2100～S2200：

步骤S2100，在机器学习平台的算子集合中增加用于对文本数据进行处理的文本处理算子。

在本公开的一个实施例中，该文本处理算子可以包括摘要抽取算子和/或文本相似度分析算子。

在文本处理算子包括摘要抽取算子的实施例中，该摘要抽取算子可以用于文本数据进行摘要抽取处理，得到文本数据的摘要。

在文本处理算子包括文本相似度分析算子的实施例中，该文本相似度分析算子可以用于对第一文本数据和第二文本数据进行相似度分析处理，得到第一文本数据和第二文本数据的相似度。

本实施例在机器学***台直接调用，

步骤S2200，基于机器学习平台中的文本处理算子，进行文本数据处理。

<实施例二>

在前述的实施例一的基础上，本实施例中提供了一种基于机器学习平台中的文本处理算子，进行文本数据处理的方法，具体可以包括如图3所示的步骤S3100～S3400：

步骤S3100，提供用户配置界面，用户配置界面包括算子展示区域和画布区域。

本实施例的算子展示区域中展示有用于对文本数据进行处理的文本处理算子，包括摘要抽取算子和/或文本相似度分析算子。本实施例的画布区域可以用于根据算子展示区域所展示的算子创建数据处理流程图。

数据处理流程图可以用于表示相应的数据处理流程。在一个实施例中，数据处理流程图为有向无环图。有向无环图简称DAG图，指的是一个无回路的有向图。

步骤S3200，获取上传的目标文本数据。

本实施例中的目标文本数据，可以是预先上传至机器学***台中的目标文本数据进行调用。

在本公开的一个实施例中，获取上传的目标文本数据还可以包括：

提供用于上传数据的入口；响应于上传目标文本数据的操作，获取通过该入口所上传的目标文本数据。

例如，如图4所示，可以提供目标文本数据的上传方式，包括本地上传(支持csv、tsv、txt、parquet、orc格式)、从FTP导入(支持csv、tsv、txt格式)、从HDFS导入(支持csv、tsv、txt、parquet、orc格式)、从HDFS浅拷贝(支持parquet格式)、从数据库导入(支持Oracle、MySQL、Teradata、Vertica等数据库)、从Hive导入(支持Simple Auth或Kerberos认证)。用户可以根据自身需求选择上传方式，并通过点击“点击上传”按钮，即用于上传数据的入口，提供可以用于上传至机器学习平台中的数据，由用户根据自身需求来选择需要上传的目标文本数据，触发上传目标文本数据的操作。

步骤S3300，响应于创建目标数据处理流程图的操作，根据目标文本数据和文本处理算子，在画布区域创建目标数据处理流程图。

在本公开的一个实施例中，响应于创建目标数据处理流程图的操作，根据目标文本数据和文本处理算子，在画布区域创建目标数据处理流程图可以包括如下所示的步骤S3310～S3330：

步骤S3310，响应于选择目标文本数据的操作，在画布区域展示目标文本数据。

在本公开的一个实施例中，选择目标文本数据的操作，可以是前述的上传目标文本数据的操作。通过将目标文本数据上传，可以直接在画布区域展示目标文本数据。

在本公开的另一个实施例中，用户配置界面还可以包括数据展示区域，在用户预先将目标文本数据上传至机器学习平台的情况下，数据展示区域可以展示有目标文本数据。

在本实施例的基础上，选择目标文本数据的操作，可以是将数据展示区域中的目标文本数据拖拽至画布区域的操作。用户通过将数据展示区域中的目标文本数据拖拽至画布区域，可以触发电子设备在画布区域展示所拖拽的目标文本数据。

在本实施例的基础上，选择目标文本数据的操作，还可以是针对数据展示区域中的目标文本数据执行选择操作。其中，该选择操作可以包括双击操作，单击操作，或者是右击并点击选择按钮的操作。用户通过针对数据展示区域中的目标文本数据执行选择操作，可以在画布区域展示目标文本数据。

步骤S3320，响应于选择算子展示区域中的文本处理算子的操作，在画布区域展示文本处理算子。

在本公开的一个实施例中，选择算子展示区域中的文本处理算子的操作，可以是将算子展示区域中的文本处理算子拖拽至画布区域的操作。用户通过将算子展示区域中的文本处理算子拖拽至画布区域，可以触发电子设备在画布区域展示所拖拽的文本处理算子。

在本公开的另一个实施例中，选择算子展示区域中的文本处理算子的操作，还可以是针对算子展示区域中的文本处理算子执行选择操作。其中，该选择操作可以包括双击操作，单击操作，或者是右击并点击选择按钮的操作。用户通过针对算子展示区域中的文本处理算子执行选择操作，可以在画布区域展示文本处理算子。

步骤S3330，响应于连接目标文本数据和文本处理算子的操作，在画布区域中连接目标文本数据和文本处理算子，得到目标数据处理流程图。

在本公开的一个实施例中，在画布区域中，目标文本数据具有下游连接点，用于表示数据的输出；文本处理算子至少可以具有上游连接点，用于表示数据的输入。

用户可以是通过分别点击目标文本数据的下游连接点和文本处理算子的上游连接点，触发在画布区域中连接目标文本数据和文本处理算子的操作，电子设备响应于该操作，将画布区域所展示的目标文本数据和文本处理算子进行连接。

在本公开的另一个实施例中，可以是用户在画布区域中将文本处理算子放置在目标文本数据下方，触发连接目标文本数据和文本处理算子的操作，电子设备响应于该操作，自动将画布区域所展示的目标文本数据的下游连接点和文本处理算子的上游连接点进行连接。

在本公开的一个实施例中，在画布区域中连接目标文本数据和文本处理算子，所得到的目标数据处理流程图可以是如图6所示。

在本公开的一个实施例中，该方法还可以包括：

响应于对文本处理算子进行资源配置的请求，提供文本处理算子的第一配置界面；通过第一配置界面获取文本处理算子的资源配置参数，以根据资源配置参数运行文本处理算子。

本实施例中的资源配置参数可以包括CPU使用率，GPU使用率，内存使用量等。

步骤S3400，响应于运行目标数据处理流程图的操作，依据目标数据处理流程图运行文本处理算子对目标文本数据进行处理，得到文本处理结果。

在文本处理算子为摘要抽取算子的实施例中，响应于运行目标数据处理流程图的操作，依据目标数据处理流程图运行文本处理算子对目标文本数据进行处理，得到文本处理结果可以包括：运行摘要抽取算子以对目标文本数据执行如下处理步骤S3410～S3450：

步骤S3410，对目标文本数据中目标行文本数据进行断句处理，得到多个语句。

其中，目标行文本数据为目标文本数据中任一行的文本数据。

在本公开的一个实施例中，目标文本数据可以是结构化数据，每一行数据可以代表一个完整的文章。具体可以是遍历目标文本数据的每一行数据，作为目标行文本数据。

对目标行文本数据进行断句处理的方式，可以是根据预设的标点符号对对目标行文本数据进行断句处理，将任意相邻的两个预设的标点符号之间的部分作为一个语句。

步骤S3420，确定每两个语句之间的相似度，并对每两个语句之间的相似度进行正则化处理，得到相似度矩阵。

在本公开的一个实施例中，确定每两个语句之间的相似度可以包括如下所示的步骤S3421～S3422：

步骤S3421，对每个语句进行编码，得到每个语句的语句向量。

在本公开的一个实施例中，可以是通过embedding模型，分别对每个语句进行编码，得到对应语句的语句向量。

步骤S3422，对于每两个语句，确定对应语句向量之间的余弦值，作为对应两个语句之间的相似度。

例如，对于第1个语句和第2个语句，第1个语句的语句向量可以表示为A，第2个语句的语句向量可以表示为B，那么第1个语句和第2个语句之间的相似度S_1,2可以表示为：

在得到每两个语句之间的相似度的情况下，可以是根据每两个语句之间的相似度得到相似度矩阵。

具体的，在相似度矩阵中，第i行第j列所对应的元素，可以是第i个语句和第j个语句之间的相似度，其中，i，j∈[1，N]，N为对目标行语句进行断句处理所得到的多个语句的数量。

步骤S3430，根据相似度矩阵和指定语句的预设的分数，得到其他语句的分数。

其中，其他语句为多个语句中除指定语句以外的语句。

在本公开的一个实施例中，指定语句可以是预先根据应用场景或具体需求所设定的第n个语句，n∈[1，N]，N为对目标行语句进行断句处理所得到的多个语句的数量。即n为用户预先根据应用场景或具体需求所设定的。例如，n可以是1，那么，第1个语句即为指定语句。

指定语句的预设的分数，可以是预先根据应用场景或具体需求所设定的。例如，指定语句的预设的分数可以是1。

在通常情况下，文章的首句，即第1个语句是较为重要的语句，因此，可以是将第1个语句作为指定语句。

在本公开的一个实施例中，根据相似度矩阵和第n个语句(指定语句)的预设的分数，得到第k个语句的分数f(k)可以表示为：

f(k)＝α*S*f(k-1)+(1-α)*y

其中，k为[1，N]中除n以外的整数，S为相似度矩阵，α为预设的大于0且小于1的参数，f(k-1)为第k-1个语句的分数。

y为用于表示指定语句的向量，该向量中第n个元素的值为第一设定值，其他元素的值为第二设定值。其中，第一设定值和第二设定值为根据应用场景或具体需求所设定的不同的值，例如第一设定值可以是1，第二设定值可以是0。

例如，在第1个语句为指定语句的情况下，y可以表示为[1,0,…0,0]。在第2个语句为指定语句的情况下，y可以表示为[0,1,…0,0]。在第N个语句为指定语句的情况下，y可以表示为[0,0,…0,N]。

步骤S3440，根据分数，从多个语句中选取设定数量个语句，作为摘要语句。

在本公开的一个实施例中，可以是选取分数最高的设定数量个语句，作为摘要语句。具体的，可以是根据分数由高到低的顺序，对多个语句进行降序排序，并记录每个语句的排序值。选取排序值小于或等于设定数量的语句，作为摘要语句。

步骤S3450，根据摘要语句，生成目标行文本数据所对应文本摘要，作为文本处理结果。

在本公开的一个实施例中，根据摘要语句，生成目标行文本数据所对应文本摘要，作为文本处理结果可以包括如下所示的步骤S3451～S3452：

步骤S3451，获取每个摘要语句在目标行文本数据中的顺序。

步骤S3452，按照顺序对摘要语句进行排序，并在每一摘要语句之后中添加预设的标点，得到目标行文本数据所对应文本摘要，作为文本处理结果。

在本实施例中，可以是按照在目标行文本数据中的先后顺序，对摘要语句进行排序，并在每个摘要语句之后添加预设的标点，即得到对应的文本摘要。

每个摘要语句之后所添加的标点，可以是预先根据应用场景或具体需求所设定的，也可以是根据对应摘要语句在目标行文本数据中的标点所确定的。

在预先根据应用场景或具体需求设定每个摘要语句之后所添加的标点的实施例中，每个摘要语句之后所添加的标点可以相同也可以不同。例如，在除最后一个摘要语句之后所添加的标点可以均为逗号，在最后一个摘要语句之后所添加的标点可以是句号或者是感叹号。

在根据每个摘要语句在目标行文本数据中的标点设定对应摘要语句之后所添加的标点的实施例中，可以是将除最后一个摘要语句在目标行文本数据中的标点添加至对应的摘要语句之后。在最后一个摘要语句在目标行文本数据中的标点为除逗号以外的标点的情况下，可以是将最后一个摘要语句在目标行文本数据中的标点添加至该摘要语句之后。在最后一个摘要语句在目标行文本数据中的标点为逗号的情况下，在最后一个摘要语句之后所添加的标点可以是句号或者是感叹号。

这样，通过本实施例的摘要抽取算子，就可以对目标文本数据中多行的文本数据进行批量的摘要抽取处理，得到每行文本数据的文本摘要。

在文本处理算子为文本相似度分析算子的实施例中，响应于运行目标数据处理流程图的操作，依据目标数据处理流程图运行文本处理算子对目标文本数据进行处理，得到文本处理结果可以包括：运行摘要抽取算子以对目标文本数据执行如下处理步骤S3460～S3470：

步骤S3460，对目标文本数据中位于同一行的第一文本数据和第二文本数据分别进行编码，得到第一文本数据的第一向量和第二文本数据的第二向量。

其中，第一文本数据位于目标文本数据中的第一目标列，第二文本数据位于目标文本数据中的第二目标列。

在本公开的一个实施例中，目标文本数据可以是多列的结构化数据。该方法还可以包括：

响应于对文本相似度分析算子进行处理对象的配置的请求，提供文本相似度分析算子的第二配置界面；通过第二配置界面获取第一目标列和第二目标列，以使文本相似度分析算子对目标文本数据中第一目标列的文本数据和第二目标列的文本数据进行相似度分析处理。

具体的，用户可以通过第二配置界面填入第一目标列所对应序号和第二目标列所对应的序号。

电子设备通过第二配置界面获取用户输入的序号，以获取该序号所对应的第一目标列和第二目标列，进而使得文本相似度分析算子对目标文本数据中第一目标列的文本数据和第二目标列的文本数据进行相似度分析处理。

本实施例中的目标文本数据就可以包括M行，那么，可以是遍历这M行数据，分别将每一行中第一目标列和第二目标列的文本数据作为第一文本数据和第二文本数据。

对于位于同一行的第一文本数据和第二文本数据，可以是根据embedding模型，对第一文本数据进行编码得到第一向量，对第二文本数据进行编码得到第二向量。

步骤S3470，根据第一向量和第二向量，确定第一文本数据和第二文本数据之间的预测相似度，作为文本处理结果。

在本公开的一个实施例中，根据第一向量和第二向量，确定第一文本数据和第二文本数据之间的预测相似度可以包括如下所示的步骤S3471～S3477：

步骤S3471，确定第一向量和第二向量的余弦相似度。

例如，第一文本数据的第一向量可以表示为v₁，第二文本数据的第二向量可以表示为v₂，那么，第一向量和第二向量的余弦相似度cos(v₁,v₂)可以通过如下方式确定：

步骤S3472，确定第一向量和第二向量的平方的最大值。

具体的，可以是分别计算第一向量的平方和第二向量的平方，并确定其中较大的一个，作为第一向量和第二向量的平方的最大值，可以表示为max(v₁,v₂)²。

步骤S3473，确定第一向量和第二向量的差值的绝对值。

第一向量和第二向量的差值的绝对值可以表示为|v₁-v₂|。

步骤S3474，确定第一向量和第二向量的点积。

步骤S3475，对余弦相似度、平方的最大值、差值的绝对值、点积、第一向量和第二向量进行拼接，得到第一文本数据和第二文本数据的目标拼接向量。

具体的，可以是按照预设的顺序对余弦相似度、平方的最大值、差值的绝对值、点积、第一向量和第二向量进行拼接，得到第一文本数据和第二文本数据的目标拼接向量。

其中，预设的顺序可以是预先根据应用场景或具体需求所设定的。

步骤S3476，获取拼接向量与相似度之间的映射函数。

在本公开的一个实施例中，该映射函数可以是预先根据训练样本所训练得到的。其中，每条训练样本可以包括对应的两条文本数据的拼接向量的值和预先标注的这两条文本数据之间的相似度。

具体的，根据训练样本训练映射函数的步骤可以包括如下所示的步骤S3476-1～S3476-：

步骤S3476-1，根据每一训练样本的拼接向量的值，以预设的机器学习算法的待定参数为变量，确定每一训练样本的预测相似度表达式。

例如，对于第m个训练样本x_m，该训练样本的预测相似度表达式可以表示为F(x_m)。

步骤S3476-2，根据每一训练样本的预测相似度表达式和对应的标注相似度，构建损失函数。

在本公开的一个实施例中，可以是确定训练样本的预测相似度表达式及标注相似度之间的交叉熵损失函数。

在本实施例中，可以工程师预先根据经验确定每一训练样本所对应的两条文本是否相似，将对应的标注相似度标注为0或者1。例如可以是在训练样本所对应的两条文本相似的情况下，将对应的标注相似度标注为1，在训练样本所对应的两条文本不相似的情况下，将对应的标注相似度标注为0。

在第m个训练样本对应的预测相似度表达式为p_m，第m个训练样本对应的标注相似度表示为y_m，训练样本的数量为Z的情况下，损失函数L可以表示为：

步骤S3476-3，根据损失函数确定待定参数，完成对映射函数的训练。

在本公开的一个实施例中，可以是确定损失函数最小的情况下，待定参数的值，得到映射函数。

步骤S3477，根据映射函数和目标拼接向量，确定第一文本数据和第二文本数据之间的预测相似度。

具体的，可以是将步骤S3475所得到的目标拼接向量输入到映射函数中，即可得到与该目标拼接向量所对应的相似度，即为第一文本数据和第二文本数据之间的预测相似度。

通过本实施例的文本相似度分析算子，可以批量对目标文本数据中的第一目标列和第二目标列中位于同一行的第一文本数据和第二文本数据进行相似度分析，得到每一行的第一文本数据和第二文本数据之间的预测相似度。

在以上任一实施例的基础上，该方法还可以包括：展示文本处理结果，以供用户查看。

<实施例三>

在前述的实施例一或者实施例二的基础上，本实施例中提供了一种基于机器学习平台中的文本处理算子，进行文本数据处理的方法，具体可以包括如图5所示的步骤S5100～S5200：

步骤S5100，响应于将文本处理算子上线的请求，对文本处理算子进行打包处理，得到目标预估服务，以供目标用户使用。

在本公开的一个实施例中，响应于将文本处理算子上线的请求，对文本处理算子进行打包处理，得到目标预估服务可以包括如下所示的步骤S5110～S5140：

步骤S5110，响应于创建预估服务的请求，提供至少一个预估模块供用户选择。

在本公开的一个实施例中，可以是提供用于触发创建预估服务的请求的按钮，用户可以通过点击该按钮，触发创建预估服务的请求。

本实施例中所提供的预估模块可以是预先根据应用场景或具体需求所设定好的。例如，至少一个预估模块可以包括：自学习模块、批量预估模块、GDBT实时预估模块、TensorFlow实时预估模块、H2O实时预估模块、PMML实时预估模块、自定义算子预估模块、和自定义应用模块中的至少一个，如图6所示。

步骤S5120，获取用户选择的目标预估模块，并提供模型选择界面。

用户可以针对如图7所示的预估模块中的任一个执行选择操作，电子设备响应于该操作，提供模型选择界面。

在一个实施例中，针对目标预估模块的选择操作，可以是双击目标预估模块的操作，也可以是右击目标预估模块、并在弹出的菜单(包括选择按钮)中点击选择按钮的操作。

在本公开的一个实施例中，模型选择界面可以是如图8所示。

步骤S5130，获取用户通过模型选择界面所选择的文本处理算子。

在如图8所示的例子中，用户可以通过输入框输入搜索条件，电子设备可以展示与该搜索条件匹配的模型算子，以供用户选择。

步骤S5140，根据目标预估模块，对文本处理算子进行打包处理，得到目标预估服务。

步骤S5200，运行目标预估服务，对目标用户提供至目标预估服务的文本数据进行处理，并向目标用户返回对应的文本处理结果。

在本公开的一个实施例中，目标用户可以是将实时获取的文本数据提供至目标预估服务中，以供目标预估服务对目标用户所提供的文本数据进行处理，并向目标用户返回对应的文本处理结果。

在文本处理算子为摘要抽取算子的情况下，目标预估服务对目标用户所提供的文本数据进行摘要抽取处理的方式，可以参照前述的实施例二中摘要抽取算子对目标文本数据进行摘要抽取处理的方式，在此不再赘述。

在文本处理算子为文本相似度分析算子的情况下，目标预估服务对目标用户所提供的文本数据进行相似度分析处理的方式，可以参照前述的实施例二中文本相似度分析算子对目标文本数据进行相似度分析处理的方式，在此不再赘述。

通过本实施例，将文本处理算子打包为目标预估服务，并根据目标预估服务对目标用户所提供的文本数据进行实时处理，并向目标用户返回对应的文本处理结果。这样，就可以对目标用户所提供的实时文本数据进行文本处理。

在本公开的一个实施例中，该方法还可以包括：

响应于对目标预估服务进行配置的请求，提供第三配置界面；通过第三配置界面，获取目标预估服务的配置信息，以根据配置信息运行目标预估服务。

在本公开的一个实施例中，配置信息可以包括以下执行一项：使用的GPU资源，使用的CPU资源，使用的内存资源，运行时调用的镜像所在地址。

在本公开的一个实施例中，该方法还可以包括：响应于查看目标预估服务的状态的请求，展示目标预估服务的状态。

具体的，可以是提供用户触发查看目标预估服务的状态的请求的按钮，用户通过点击该按钮，触发查看目标预估服务的状态的请求。

在本公开的一个实施例中，目标预估服务的状态可以包括以下至少一项：目标预估服务在运行过程中所占用的资源，目标预估服务的上线历史，目标预估服务的版本号，目标预估服务的部署时间，目标预估服务的运行时间。

<装置实施例>

在本实施例中，提供一种文本数据的处理装置5000，如图9所示，包括算子增加模块5100和文本处理模块5200。该算子增加模块5100用于在机器学***台中的本文处理算子，进行文本数据处理。

在本公开的一个实施例中，文本处理模块5200还可以用于：

提供用户配置界面，用户配置界面包括算子展示区域和用于创建数据处理流程图的画布区域；其中，算子展示区域中展示有用于对文本数据进行处理的文本处理算子；

获取上传的目标文本数据；

响应于创建目标数据处理流程图的操作，根据目标文本数据和文本处理算子，在画布区域创建目标数据处理流程图；

响应于运行目标数据处理流程图的操作，依据目标数据处理流程图运行文本处理算子对目标文本数据进行处理，得到文本处理结果。

在本公开的一个实施例中，响应于创建目标数据处理流程图的操作，根据目标文本数据和文本处理算子，在画布区域创建目标数据处理流程图包括：

响应于选择目标文本数据的操作，在画布区域展示目标文本数据；

响应于选择算子展示区域中的文本处理算子的操作，在画布区域展示文本处理算子；

响应于连接目标文本数据和文本处理算子的操作，在画布区域中连接目标文本数据和文本处理算子，得到目标数据处理流程图。

在本公开的一个实施例中，该文本数据的处理装置5000还可以包括：

用于响应于对文本处理算子进行资源配置的请求，提供文本处理算子的第一配置界面的模块；

用于通过第一配置界面获取文本处理算子的资源配置参数，以根据资源配置参数运行文本处理算子的模块。

在本公开的一个实施例中，获取上传的目标文本数据包括：

提供用于上传数据的入口；

响应于上传目标文本数据的操作，获取通过入口所上传的目标文本数据。

在本公开的一个实施例中，文本处理算子为用于对文本数据进行摘要抽取处理的摘要抽取算子；

依据目标数据处理流程图运行文本处理算子对目标文本数据进行处理，得到文本处理结果包括：

运行摘要抽取算子以对目标文本数据进行如下处理：

对目标文本数据中目标行文本数据进行断句处理，得到多个语句；其中，目标行文本数据为目标文本数据中任一行的文本数据；

根据相似度矩阵和指定语句的预设的分数，得到其他语句的分数；其中，其他语句为多个语句中除指定语句以外的语句；

根据分数，从多个语句中选取设定数量个语句，作为摘要语句；

根据摘要语句，生成目标行文本数据所对应文本摘要，作为文本处理结果。

在本公开的一个实施例中，确定每两个语句之间的相似度包括：

对每个语句进行编码，得到每个语句的语句向量；

在本公开的一个实施例中，根据摘要语句，生成目标行文本数据所对应文本摘要，作为文本处理结果包括：

获取每个摘要语句在目标行文本数据中的顺序；

按照顺序对摘要语句进行排序，并在每一摘要语句之后中添加预设的标点，得到目标行文本数据所对应文本摘要，作为文本处理结果。

在本公开的一个实施例中，文本处理算子为用于对文本数据进行相似度分析处理的文本相似度分析算子；

依据目标数据处理流程图运行文本处理算子对目标文件数据进行处理，得到文本处理结果包括：

运行文本相似度分析算子以对目标文本数据进行如下处理：

对目标文本数据中位于同一行的第一文本数据和第二文本数据分别进行编码，得到第一文本数据的第一向量和第二文本数据的第二向量；其中，第一文本数据位于目标文本数据中的第一目标列，第二文本数据位于目标文本数据中的第二目标列；

根据第一向量和第二向量，确定第一文本数据和第二文本数据之间的预测相似度，作为文本处理结果。

在本公开的一个实施例中，根据第一向量和第二向量，确定第一文本数据和第二文本数据之间的预测相似度包括：

确定第一向量和第二向量的余弦相似度；

确定第一向量和第二向量的平方的最大值；

确定第一向量和第二向量的差值的绝对值；

确定第一向量和第二向量的点积；

对余弦相似度、平方的最大值、差值的绝对值、点积、第一向量和第二向量进行拼接，得到第一文本数据和第二文本数据的目标拼接向量；

获取拼接向量与相似度之间的映射函数；

根据映射函数和目标拼接向量，确定第一文本数据和第二文本数据之间的预测相似度。

用于响应于对文本相似度分析算子进行处理对象的配置的请求，提供文本相似度分析算子的第二配置界面的模块；

用于通过第二配置界面获取第一目标列和第二目标列，以使文本相似度分析算子对目标文本数据中第一目标列的文本数据和第二目标列的文本数据进行相似度分析处理的模块。

用于展示文本处理结果的模块。

在本公开的一个实施例中，文本处理模块5200还可以用于：

响应于将文本处理算子上线的请求，对文本处理算子进行打包处理，得到目标预估服务，以供目标用户使用；

运行目标预估服务，对目标用户提供至目标预估服务的文本数据进行处理，并向目标用户返回对应的文本处理结果。

在本公开的一个实施例中，响应于将文本处理算子上线的请求，对文本处理算子进行打包处理，得到目标预估服务包括：

获取用户选择的目标预估模块，并提供模型选择界面；

获取用户通过模型选择界面所选择的文本处理算子；

根据目标预估模块，对文本处理算子进行打包处理，得到目标预估服务。

用于响应于对目标预估服务进行配置的请求，提供第三配置界面的模块；

用于通过第三配置界面，获取目标预估服务的配置信息，以根据配置信息运行目标预估服务的模块。

在本公开的一个实施例中，配置信息包括以下执行一项：使用的GPU资源，使用的CPU资源，使用的内存资源，运行时调用的镜像所在地址。

用于响应于查看目标预估服务的状态的请求，展示目标预估服务的状态的模块。

在本公开的一个实施例中，目标预估服务的状态包括以下至少一项：目标预估服务在运行过程中所占用的资源，目标预估服务的上线历史，目标预估服务的版本号，目标预估服务的部署时间，目标预估服务的运行时间。

本领域技术人员应当明白，可以通过各种方式来实现文本数据的处理装置5000。例如，可以通过指令配置处理器来实现文本数据的处理装置5000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现文本数据的处理装置5000。例如，可以将文本数据的处理装置5000固化到专用器件(例如ASIC)中。可以将文本数据的处理装置5000分成相互独立的单元，或者可以将它们合并在一起实现。文本数据的处理装置5000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，文本数据的处理装置5000可以具有多种实现形式，例如，文本数据的处理装置5000可以是任何的提供文本处理服务的软件产品或者应用程序中运行的功能模块，或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等，还可以是这些软件产品或者应用程序本身。

<***实施例>

在本实施例中，如图10所示，还提供一种至少一个计算装置6100和至少一个存储装置6200的***6000。该至少一个存储装置6200用于存储可执行的指令；该指令用于控制至少一个计算装置6100执行根据本公开任意实施例的方法。

在本实施例中，该***6000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机等设备，也可以是由多个设备构成的分布式***。

<计算机可读存储介质>

在本实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时实现如本公开任意实施例的方法。

本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种文本数据的处理方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述机器学习平台中的所述本文处理算子，进行文本数据处理包括：

获取上传的目标文本数据；

3.根据权利要求2所述的方法，所述响应于创建目标数据处理流程图的操作，根据所述目标文本数据和所述文本处理算子，在所述画布区域创建所述目标数据处理流程图包括：

4.根据权利要求2所述的方法，还包括：

5.根据权利要求2所述的方法，所述获取上传的目标文本数据包括：

提供用于上传数据的入口；

6.根据权利要求2所述的方法，所述文本处理算子为用于对文本数据进行摘要抽取处理的摘要抽取算子；

7.根据权利要求6所述的方法，所述确定每两个语句之间的相似度包括：

对每个语句进行编码，得到每个语句的语句向量；

8.一种文本数据的处理装置，包括：

9.一种包括至少一个计算装置和至少一个存储装置的***，其中，所述至少一个存储装置用于存储指令，所述指令用于控制所述至少一个计算装置执行根据权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如权利要求1至7中任一项所述的方法。