CN113449489B

CN113449489B - 标点符号标注方法、装置、计算机设备和存储介质

Info

Publication number: CN113449489B
Application number: CN202110828958.XA
Authority: CN
Inventors: 耿思晴; 潘晟锋; 文博; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2023-08-08
Anticipated expiration: 2041-07-22
Also published as: CN113449489A

Abstract

本申请涉及一种标点符号标注方法、装置、计算机设备和存储介质。该方法包括：获取包括多组样本数据的训练数据集，每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列；根据各样本文本的文本长度，确定待训练的标点预测模型的卷积核数量和各卷积核的长度，对待训练的标点预测模型进行迭代训练，得到标点预测模型；标点预测模型中包括用于获取长距离的上下文信息的第一卷积核和用于获取短距离的上下文信息的第二卷积核；将无标点符号的待标注文本输入至标点预测模型中，输出对应于待标注文本的标点符号标签序列，并将待标注文本和标点符号标签序列整合，生成标注有标号符号的文本。采用本方法能为文本进行更为准确地预测标点符号。

Description

标点符号标注方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种标点符号标注方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的飞速发展，人们能够利用计算机实现很多自动化处理。在一些情况下，需要使用计算机自动地对没有标点符号的文本标注标点符号，比如，通过自动语音识别得到的文本通常是没有标注标点符号的，无标点符号会大大降低文本的可读性以及影响下游任务处理的准确性，所以，需要对自动语音识别得到的文本预测标点符号。

基于词汇特征训练机器学习模型进行标点符号预测是一种重要的方法。目前，基于词汇特征序列的机器学习模型在进行标点符号预测时，会按固定的单一长度提取上下文信息，比较局限，从而导致预测准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高准确性的标点符号标注方法、装置、计算机设备和存储介质。

一种标点符号标注方法，所述方法包括：

获取训练数据集；所述训练数据集中包括多组样本数据，每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列；

分析所述训练数据集中的各样本文本的文本长度，并根据各所述样本文本的文本长度，确定卷积核数量和各卷积核的长度；

根据所述卷积核数量和各卷积核的长度，构建待训练的标点预测模型；

基于所述训练数据集对所述待训练的标点预测模型进行迭代训练，得到标点预测模型；所述标点预测模型中包括多个卷积核，所述多个卷积核中包括第一卷积核和第二卷积核；所述第一卷积核，用于获取长距离的上下文信息；所述第二卷积核用于获取短距离的上下文信息；

将无标点符号的待标注文本输入至所述标点预测模型中，输出对应于所述待标注文本的标点符号标签序列，并将所述待标注文本和所述标点符号标签序列整合，生成标注有标号符号的文本。

在其中一个实施例中，所述基于所述训练数据集对所述待训练的标点预测模型进行迭代训练，得到标点预测模型包括：

在每轮迭代中，将所述训练数据集中的所述样本文本输入至本轮待训练的标点预测模型中，输出对所述样本文本对应的标点符号预测标签序列；

根据所述标点符号预测标签序列与相应的标点符号样本标签序列之间的损失值，调整本轮待训练的标点预测模型的模型参数，直至满足迭代停止条件，得到训练完毕的标点预测模型。

在其中一个实施例中，所述将无标点符号的待标注文本输入至所述标点预测模型中，输出对应于所述待标注文本的标点符号标签序列包括：

将所述待标注文本输入至所述标点预测模型中，以通过所述标点预测模型中的多个卷积核对所述待标注文本序列进行卷积处理；

将各个所述卷积核进行卷积处理得到的特征向量拼接；所述特征向量中包括基于所述第一卷积核提取的全局特征向量和基于所述第二卷积核专注于关键字所提取的特征向量；

基于拼接后的向量进行标点预测，得到对应于所述待标注文本的标点符号标签序列。

在其中一个实施例中，所述基于拼接后的向量进行标点预测，得到对应于所述待标注文本的标点符号标签序列包括：

基于拼接后的向量，对所述待标注文本中每个文字进行标点符号标签预测，得到每个文字对应的标点预测结果；所述每个文字对应的标点预测结果中包括所述文字对应于每个预设的标点符号标签的概率；

针对所述待标注文本中每个文字，从所述文字所对应的标点预测结果中，选取概率值最大的标点符号标签作为所述文字最终对应的标点符号标签，得到对应于所述待标注文本的标点符号标签序列。

在其中一个实施例中，所述待标注文本中的每个文字在所述标点符号标签序列中具有相对应的标点符号标签；

所述将所述待标注文本和所述标点符号标签序列整合，生成标注有标号符号的文本包括：

从所述标点符号标签序列中，确定具有相对应标点符号的标点符号标签；

针对确定的每个所述标点符号标签，在所述标点符号标签在所述待标注文本中对应的文字后，***与所述标点符号标签相对应的标点符号，生成标注有标号符号的文本。

在其中一个实施例中，所述标点预测模型，是用于对文本进行标点预测的文本卷积神经网络模型；

所述将所述待标注文本输入至所述标点预测模型中，以通过所述标点预测模型中的多个卷积核对所述待标注文本序列进行卷积处理包括：

对所述待标注文本的每个文字编码为对应的字向量，得到字向量集合，把所述字向量集合输入至所述文本卷积神经网络模型；

通过所述文本卷积神经网络模型对所述字向量集合中的字向量并行进行卷积处理。

一种标点符号标注装置，所述装置包括：

获取模块，用于获取训练数据集；所述训练数据集中包括多组样本数据，每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列；

确定模块，用于分析所述训练数据集中的各样本文本的文本长度，并根据各所述样本文本的文本长度，确定卷积核数量和各卷积核的长度；根据所述卷积核数量和各卷积核的长度，构建待训练的标点预测模型；

训练模块，用于基于所述训练数据集对所述待训练的标点预测模型进行迭代训练，得到标点预测模型；所述标点预测模型中包括多个卷积核，所述多个卷积核中包括第一卷积核和第二卷积核；所述第一卷积核，用于获取长距离的上下文信息；所述第二卷积核用于获取短距离的上下文信息；

标注模块，用于将无标点符号的待标注文本输入至所述标点预测模型中，输出对应于所述待标注文本的标点符号标签序列，并将所述待标注文本和所述标点符号标签序列整合，生成标注有标号符号的文本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述标点符号标注方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述标点符号标注方法的步骤。

上述标点符号标注方法、装置、计算机设备和存储介质，通过获取训练数据集；所述训练数据集中包括多组样本数据，每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列；分析所述训练数据集中的各样本文本的文本长度，并根据各所述样本文本的文本长度，确定卷积核数量和和各卷积核的长度；根据卷积核数量和各卷积核的长度，构建待训练的标点预测模型；基于所述训练数据集对所述待训练的标点预测模型进行迭代训练，得到标点预测模型。通过对训练数据集中的文本的长度进行分析，能够确定出合适的卷积核数量以及各卷积核的合适长度，从而构建模型进行训练，那么，得到的标点预测模型中则会包括多个卷积核，所述多个卷积核中包括长度不同的第一卷积核和第二卷积核。将无标点符号的待标注文本输入至所述标点预测模型中，则能够基于长度较长的第一卷积核获取长距离的上下文信息，以及基于长度较短的第二卷积核获取短距离的上下文信息，从而基于长距离的上下文信息和短距离的上下文信息来进行标点符号预测，能保证进行预测的上下文信息的全面性，避免了单一长度的上下文信息所存在的局限性，进而，能够输出更为准确地标点符号标签序列。从而，将所述待标注文本和所述标点符号标签序列整合，生成的标注有标号符号的文本也就更为准确，即，能够为文本进行更为准确地预测标点符号。

附图说明

图1为一个实施例中标点符号标注方法的应用环境图；

图2为一个实施例中标点符号标注方法的流程示意图；

图3为一个实施例中标点符号标签序列预测步骤的流程示意图；

图4为一个实施例中标点符号标注装置的结构框图；

图5为一个实施例中标注模块的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的标点符号标注方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行通信。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

服务器120可以获取训练数据集；训练数据集中包括多组样本数据，每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列。服务器120可以分析训练数据集中的各样本文本的文本长度，并根据各样本文本的文本长度，确定卷积核数量和各卷积核的长度；根据卷积核数量和各卷积核的长度，构建待训练的标点预测模型；基于训练数据集对待训练的标点预测模型进行迭代训练，得到标点预测模型；标点预测模型中包括多个卷积核，多个卷积核中包括第一卷积核和第二卷积核；第一卷积核，用于获取长距离的上下文信息；第二卷积核用于获取短距离的上下文信息。服务器120可以将根据终端110获取的无标点符号的待标注文本，输入至标点预测模型中，输出对应于待标注文本的标点符号标签序列，并将待标注文本和标点符号标签序列整合，生成标注有标号符号的文本。服务器120可以将标注有标号符号的文本返回给终端110。

在一个实施例中，用户通过终端110的麦克风输入语音问题，终端110可以将该语音问题上传给服务器120，服务器120可以将该语音问题进行语音转文字处理后得到文本，该文本即可以为无标点符号的待标注文本。服务器120可以通过标点预测模型对这些待标注文本分别进行标点符号预测，得到标注有标号符号的文本。

需要说明的是，上述的应用环境只是一个示例，在一些实施例中，终端110可以获取标点预测模型，在获取无标点符号的待标注文本后，还可以由终端110自身使用标点预测模型对这些待标注文本分别进行标点符号预测，得到标注有标号符号的文本。终端110可以自身训练得到标点预测模型，还可以获取服务器120发送的训练好的标点预测模型，对此不做限定。可以理解，由终端110训练标点预测模型，并使用标点预测模型来对待标注文本进行标点符号的预测的情况下，即属于由终端110执行本申请各实施例中的标点符号标注方法。

在一个实施例中，如图2所示，提供了一种标点符号标注方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

S202，获取训练数据集；训练数据集中包括多组样本数据，每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列。

其中，标点符号样本标签序列，是作为样本的标点符号标签的集合。标点符号标签，是用于表示标点符号情况的特定符号。比如，标点符号是逗号，可以用“C”来表示，则“C”即为标点符号标签。

在一个实施例中，特定符号可以包括数字、字母以及特殊字符等中的至少一种，对此不做限定。

在一个实施例中，服务器可以获取带标点符号的初始文本，服务器可以对获取的初始文本中进行标点符号的拆分，根据初始文本中每个文字后的标点符号情况，按顺序生成标点符号样本标签序列。

具体地，初始文本中每个文字会对应一个标点符号标签，此标点符号标签用来表示每个文字后面对应的标点符号情况。针对后面没有标点符号的文字，可以统一对应相同的标点符号标签，针对后面具有对应标点符号的文字，可以对应用于表示该标点符号的标点符号标签。比如，用数字来表示标点符号情况，0对应无标点、1对应逗号、2对应句号、3对应问号、4对应感叹号，初始文本为“我今天忘记带伞了，请问会下雨吗？”，那么，这句话对应的标点符号样本标签序列就是(0，0，0，0，0，0，0，1，0，0，0，0，0，3)。

在另一个实施例中，训练数据集是预先得到的数据，服务器可以直接获取该训练数据集。

在一个实施例中，标点符号可以包括逗号、句话、问号和感叹号等中的至少一种。

S204，分析训练数据集中的各样本文本的文本长度，并根据各样本文本的文本长度，确定卷积核数量和各卷积核的长度。

具体地，卷积核数量和各卷积核的长度，会对样本文本的特征提取起到比较重要的作用，卷积核过少或者过短，都会影响到样本文本特征提取的准确性，卷积核过多或者过长，又会带来卷积处理时的***压力，因此，本申请实施例中，会分析各样本文本的文本长度，根据各样本文本的文本长度，估算出相匹配的卷积核数量和各卷积核的合适长度，这样一来，所确定的卷积核就能更为准确地、有针对性地对样本文本进行特征提取。

在一个实施例中，服务器可以分析训练数据集中的各样本文本的文本长度，确定各样本文本的文本长度所对应的预设文本长度范围。服务器中预先设置了预设文本长度范围与卷积核选取策略之间的对应关系，根据该对应关系，可以获取与所确定的预设文本长度范围对应的卷积核选取策略。该卷积核选取策略中包括卷积核数量和各卷积核的长度。比如，预设文本长度范围为5-50时，对应的卷积核选取策略为“使用长度为3的短卷积核和长度为6的长卷积核搭配”。

S206，根据卷积核数量和各卷积核的长度，构建待训练的标点预测模型；基于训练数据集对待训练的标点预测模型进行迭代训练，得到标点预测模型。

其中，标点预测模型中包括多个卷积核，多个卷积核中包括第一卷积核和第二卷积核；第一卷积核用于获取长距离的上下文信息；第二卷积核用于获取短距离的上下文信息。

可以理解，相同的文本片段在不同的文本里面表达的信息是不完全一样，每个文本片段都会有上下文信息，比如，一句话在不同的完整的一段话中表达的信息是不完全一样的，每个句子都会有上下文信息。该标点预测模型中的第一卷积核则用于获取长距离的上下文信息，第二卷积核用于获取短距离的上下文信息，从而在使用该标点预测模型进行预测时，可以通过不同卷积核来获取得到不同距离的上下文信息进行预测，能够提高预测的准确率。

在一个实施例中，待训练的标点预测模型，可以是任意类型的网络结构，对此不作限定。

S208，将无标点符号的待标注文本输入至标点预测模型中，输出对应于待标注文本的标点符号标签序列。

其中，输出的标点符号标签序列，是预测出的标点符号标签的集合。

具体地，服务器可以对无标点符号的待标注文本中的每个文字做向量转换，以针对每个文字生成相应的字向量，得到字向量集合。服务器可以将字向量集合输入至标点预测模型，通过标点预测模型中的不同长度的多个卷积核，对字向量集合进行卷积处理，得到长距离的上下文信息和短距离的上下文信息，进而基于获取的不同距离的上下文的信息再做预测，得到每个文字对应的预测结果。预测结果里描述了每个文字后面的标点符号情况，标点符号情况包括字后面没有符号这种情况、以及字后面带有的具体标点符号的情况。服务器可以将待标注文本中每个文字的预测结果按照字的先后顺序组合起来，得到待标注文本的标点符号标签序列。

在一个实施例中，用户可以通过终端的语音采集设备输入语音问题，终端可以将该语音问题上传给服务器，服务器可以将该语音问题进行语音转文字处理后得到文本，该文本即可以为无标点符号的待标注文本。服务器可以将转换得到的无标点符号的待标注文本，输入至标点预测模型以进行标点符号预测。

S210，将待标注文本和标点符号标签序列整合，生成标注有标号符号的文本。

具体地，标点符号标签序列里面记录了每个文字对应的标点符号标签，服务器可以基于预设规则，将待标注文本和标点符号标签序列整合，生成标注有标点符号的文本，即是需要的最终文本。

上述标点符号标注方法中，通过获取包括多组样本数据的训练数据集；每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列；分析训练数据集中的各样本文本的文本长度，并根据各样本文本的文本长度，确定卷积核数量和和各卷积核的长度；根据卷积核数量和各卷积核的长度，构建待训练的标点预测模型；基于训练数据集对待训练的标点预测模型进行迭代训练，得到标点预测模型。通过对训练数据集中的文本的长度进行分析，能够确定出合适的卷积核数量以及各卷积核的合适长度，从而构建模型进行训练，那么，得到的标点预测模型中则会包括多个卷积核，其中，多个卷积核中包括长度不同的第一卷积核和第二卷积核。将无标点符号的待标注文本输入至标点预测模型中，则能够基于长度较长的第一卷积核获取长距离的上下文信息，以及基于长度较短的第二卷积核获取短距离的上下文信息，从而基于长距离的上下文信息和短距离的上下文信息来进行标点符号预测，能保证进行预测的上下文信息的全面性，避免了单一长度的上下文信息所存在的局限性，进而，能够输出更为准确地标点符号标签序列。从而，将待标注文本和标点符号标签序列整合，生成的标注有标号符号的文本也就更为准确，即，能够为文本进行更为准确地预测标点符号。

此外，选取合适的卷积核数量以及各卷积核的合适长度来构建并训练模型，在保证模型最终效果的同时，也能够合理地控制模型的大小，从而减少***开销。

在一个实施例中，步骤S206基于所述训练数据集对所述待训练的标点预测模型进行迭代训练，得到标点预测模型包括：在每轮迭代中，将训练数据集中的样本文本输入至本轮待训练的标点预测模型中，输出对样本文本对应的标点符号预测标签序列；根据标点符号预测标签序列与相应的标点符号样本标签序列之间的损失值，调整本轮待训练的标点预测模型的模型参数，直至满足迭代停止条件，得到训练完毕的标点预测模型。

其中，标点符号预测标签序列，是在迭代训练过程中预测出的标点符号标签的集合。

为便于理解标点符号预测标签序列和标点符号样本标签序列，现举例说明。比如，用数字表示标点符号情况，其中，0对应无标点，1对应逗号，2对应句号，3对应问号，4对应感叹号。假设，初始文本为“我今天忘记带伞了，请问会下雨吗？”，那么，针对这句话预先标记的标点符号样本标签序列就是(0，0，0，0，0，0，0，1，0，0，0，0，0，3)。在迭代训练过程中，通过标点预测模型对这句话预测出的标点符号预测标签序列可以是(0，0，0，0，0，0，0，1，0，0，0，0，0，2)，从中可知，标点符号样本标签序列(0，0，0，0，0，0，0，1，0，0，0，0，0，3)与标点符号预测标签序列(0，0，0，0，0，0，0，1，0，0，0，0，0，2)之间存在差异。

具体地，服务器可以对训练数据集中的样本文本中的每个文字做向量转换，以针对每个文字生成相应的字向量，得到字向量集合。服务器将字向量集合输入至待训练的标点预测模型，通过待训练的标点预测模型中的不同长度的多个卷积核，对字向量集合进行卷积处理，将多个卷积核的输出向量拼接后输入全连接层,进行分类训练，得到标点符号预测标签序列。服务器可以判断标点符号预测标签序列与相应的标点符号样本标签序列之间的损失值，调整待训练的标点预测模型的模型参数。可以理解，可以朝着损失值减少的方向，调整待训练的标点预测模型的模型参数。

在一个实施例中，待训练的标点预测模型可以是文本卷积神经网络模型。文本卷积神经网络模型是基于TextCNN(Text Convolutional Neural Networks)模型框架的、用于对文本进行标点预测的神经网络模型。服务器可以将对样本文本中的每个文字转换得到的字向量集合，按照顺序输入至文本卷积神经网络模型。文本卷积神经网络模型可以使用多个卷积核对输入的字向量集合中的每个文字做并行编码和并行预测，将多个卷积核的输出向量拼接后输入全连接层,进行分类训练。可以理解，使用文本卷积神经网络模型进行模型训练，能够实现并行编码及并行预测，从而降低模型的推理时间，从而提高了模型训练效率。

在一个实施例中，待训练的文本卷积神经网络模型中的多个卷积核可以包括用于获取短距离的上下文信息的卷积核，以及用于获取长距离的上下文信息的卷积核，文本卷积神经网络模型可以将上述卷积核输出的特征向量，拼接后输入到全连接层进行分类训练。可以理解，通过将用于获取短距离的上下文信息的卷积核和用于获取长距离的上下文信息的卷积核进行卷积处理，能够在卷积处理时兼顾短距离上下文信息和长距离上下文信息，使得训练的标点预测模型更准确，进而提高后续的预测准确率。

上述实施例中，根据标点符号预测标签序列与相应的标点符号样本标签序列之间的损失值，迭代地训练标点预测模型，能够得到准确的标点预测模型，从而提高后续的预测准确率。

在一个实施例中，如图3所示，步骤S208，也就是将无标点符号的待标注文本输入至标点预测模型中，输出对应于待标注文本的标点符号标签序列(简称标点符号标签序列预测步骤)具体包括以下步骤：

S302,将待标注文本输入至标点预测模型中，以通过标点预测模型中的多个卷积核对待标注文本序列进行卷积处理。

具体地，服务器可以将待标注文本输入至标点预测模型中。标点预测模型中包括了用于获取长距离的上下文信息的第一卷积核、以及用于获取短距离的上下文信息的第二卷积核，所以，可以通过标点预测模型中的第一卷积核和第二卷积核，来分别对待标注文本序列进行短距离的上下文信息提取以及长距离的上下文信息提取，从而得到特征向量。特征向量包括基于第一卷积核提取的全局特征向量和基于第二卷积核专注于关键字所提取的特征向量。

比如，标点预测模型类型为文本卷积神经网络模型，该文本卷积神经网络模型使用长度为3的第二卷积核和长度为6的第一卷积核，其中，长度为3的第二卷积核用于专注于关键字进行特征提取，得到专注于关键字所提取的特征向量，长度为6的第一卷积核用于全局特征提取，得到全局特征向量。

S304,将各个卷积核进行卷积处理得到的特征向量拼接。

可以理解，服务器可以将提取的全局特征向量和专注于关键字所提取的特征向量进行拼接，得到拼接后的向量。

在一个实施例中，服务器可以将全局特征向量和专注于关键字所提取的特征向量直接首尾拼接，得到拼接后的向量。

在其他实施例中，服务器也可以将全局特征向量和专注于关键字所提取的特征向量按照预设拆解规则拆解后，再按照预设组合规则将拆解后的向量进行组合拼接，得到拼接后的向量。

需要说明的是，进行拼接的向量，并不限于全局特征向量和专注于关键字所提取的特征向量，还可以包括其他能够起到特征表征作用的向量，对此不做限定。

S306,基于拼接后的向量进行标点预测，得到对应于待标注文本的标点符号标签序列。

具体地，服务器可以通过标点预测模型基于拼接后的向量进行标点预测，预测得到待标注文本中每个文字对应的标点符号标签，然后，将每个文字对应的标点符号标签按照每个文字在待标注文本中的顺序排列，得到对应于待标注文本的标点符号标签序列。

在一个实施例中，服务器可以直接根据预测出的标点符号标签按序排列生成对应于待标注文本的标点符号标签序列。在另一个实施例中，服务器也可以对预测出的标点符号标签进行转换，根据转换后的标点符号标签按序排列生成对应于待标注文本的标点符号标签序列。

本实施例中，在对待标注文本进行标点符号预测时，根据标点预测模型中的多个卷积核，分别提取全局特征向量和专注于关键字所提取的特征向量，将二者进行拼接后进行预测，能够兼顾短距离上下文信息和长距离上下文信息，从而做出更加准确的预测。

在一个实施例中，基于拼接后的向量进行标点预测，得到对应于待标注文本的标点符号标签序列包括：基于拼接后的向量，对待标注文本中每个文字进行标点符号标签预测，得到每个文字对应的标点预测结果；每个文字对应的标点预测结果中包括每个预设的标点符号标签的概率；针对待标注文本中每个文字，从文字所对应的标点预测结果中，选取概率值最大的标点符号标签作为文字最终对应的标点符号标签，得到对应于待标注文本的标点符号标签序列。

具体地，服务器可以基于拼接后的向量，对待标注文本中每个文字进行标点符号标签预测，得到每个文字对应的标点预测结果；每个文字对应的标点预测结果中包括每个预设的标点符号标签的概率。可以理解，预设的标点符号标签为多个，因此，每个文字在每个预设的标点符号标签下都具有对应的概率，服务器可以从中选取概率值最大的标点符号标签作为文字最终对应的标点符号标签。服务器可以将每个文字最终对应的标点符号标签按序排列，即可以得到对应于待标注文本的标点符号标签序列。

比如，预设的标点符号标签可以是无标点、逗号、句话、问号和感叹号的集合。标点预测结果包含着文字的后面没有符号、文字的后面是逗号、文字的后面是句话、文字的后面是问号、文字的后面是感叹号这五种标点符号情况的概率，通过计算得到概率值最大的，就是对应的标点符号情况，其中，标点符号情况用特定的字符表示文字后面没有符号这种情况、以及文字后面带有逗号或者句话或者问号或者感叹号的情况。

在一个实施例中，服务器中预先设置有一个存放标点符号标签的内存，称为标点符号标签系列内存，其大小为待标注文本中文字的总数，以及设置有一个存放标点符号情况概率的内存，简称概率存放内存，内存大小为预设的标点符号标签的数量*待标注文本字的总数*浮点数占用字节空间，每个文字所占用内存大小为标点符号标签的数量*浮点数占用字节空间。针对每个文字预测得到的每个预设的标点符号标签的概率存放在概率存放内存中，可以将概率存放内存存放的每个预设的标点符号标签的概率进行大小比对，选取最大概率值的预设的标点符号标签作为该文字的最终的标点符号标签。然后，将各个文字对应的最终的标点符号标签按顺序添加至标点符号标签系列内存。

在一个实施例中，服务器可以选取最大概率值在概率存放内存中所对应的位置序号，作为该文字的最终的标点符号标签。然后，可以将各个文字对应的标点符号标签按顺序添加至标点符号标签系列内存。比如，在“我今天忘记带伞了请问会下雨吗”这句话中的“了”预测结果为(0.1，0.4，0.2,0.1，0.2)，该预测结果存放于概率存放内存中。可以理解，0.1对应的位置序号为0,0.4对应的位置序号为1。将最大概率值0.4所对应的位置序号1作为标点符号标签写入标点符号标签系列内存中。

本实施例中，基于拼接后的向量，对待标注文本中每个文字进行标点符号标签预测，得到每个文字对应的标点预测结果；每个文字对应的标点预测结果中包括每个预设的标点符号标签的概率，从中选取概率值最大的标点符号标签作为文字最终对应的标点符号标签，能够更为准确地得到每个文字的标点符号标签，进而能够得到更为准确的标点符号标签序列。

在一个实施例中，步骤S210，也就是将待标注文本和标点符号标签序列整合，生成标注有标号符号的文本的步骤具体包括：待标注文本中的每个文字在标点符号标签序列中具有相对应的标点符号标签；从标点符号标签序列中，确定具有相对应标点符号的标点符号标签；针对确定的每个标点符号标签，在待标注文本中对应的文字后，***与标点符号标签相对应的标点符号，生成标注有标号符号的文本。

可以理解，每个文字在标点符号标签序列中具有相对应的标点符号标签，标点符号标签中包括两种类型的标点符号标签，一种是具有相对应标点符号的标点符号标签，一种是不对应标点符号的标点符号标签(即用于表示该文字后面不具有标点符号)。服务器可以从标点符号标签序列中识别具有相对应标点符号的标点符号标签，进而，针对识别的每个具有相对应标点符号的标点符号标签，可以在该标点符号标签所对应的文字之后，***与该标点符号标签相对应的标点符号，生成标注有标号符号的文本。

比如，“我今天忘记带伞了请问会下雨吗”这句话的标点符号标签依次为(0，0，0，0，0，0，0，1，0，0，0，0，0，3)，其中，“0”是属于是不对应标点符号的标点符号标签，1和3为具有相对应标点符号的标点符号标签，其中，1，代表的是逗号，3代表的是问号，服务器可以在1对应的文字‘了’后面***1所代表的逗号，在3对应的文字‘吗’后面***3所代表的问号，至于“0”所对应的文字后面则不***标点符号，从而得到有标号符号的文本。

本实施例中，每个文字都具有相应的标点符号标签，即文字与标点符号标签是一一对应的关系，在进行文本和标点符号标签的整合的时候，只需要从标点符号标签序列中，识别具有相对应标点符号的标点符号标签；针对具有相对应标点符号的每个标点符号标签，可以直接在其所对应的文字后***相应的标点符号，这种情况下，就可以依据文字与标签之间的对应关系，快速***标点符号，从而快速生成标注有标号符号的文本。

在一个实施例中，标点预测模型，是用于对文本进行标点预测的文本卷积神经网络模型。将待标注文本输入至标点预测模型中，以通过标点预测模型中的多个卷积核对待标注文本序列进行卷积处理包括：对待标注文本的每个文字编码为对应的字向量，得到字向量集合，把字向量集合输入至文本卷积神经网络模型；通过文本卷积神经网络模型对字向量集合中的字向量并行进行卷积处理。

可以理解，文本卷积神经网络模型，能够实现并行处理。服务器可以将对待标注文本的每个文字编码为对应的字向量，得到字向量集合，把字向量集合输入至文本卷积神经网络模型，以通过文本卷积神经网络模型对字向量集合中各个字向量并行进行卷积处理。

比如，待标注文本为“我今天忘记带伞了请问会下雨吗”，则对其中每个文字编码为字向量，则可以得到“我今天忘记带伞了请问会下雨吗”所对应的字向量集合，将其输入至文本卷积神经网络模型中，则可以并行地对各个字向量并行卷积处理。

本实施例中，可以使用文本卷积神经网络模型并行地进行卷积处理，从而提高了标点符号预测的效率。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种标点符号标注装置400，包括：获取模块402、确定模块404、训练模块406和标注模块408，其中：

获取模块402，用于获取训练数据集；训练数据集中包括多组样本数据，每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列。

确定模块404，用于分析训练数据集中的各样本文本的文本长度，并根据各样本文本的文本长度，确定卷积核数量和各卷积核的长度；根据卷积核数量和各卷积核的长度，构建待训练的标点预测模型。

训练模块406，用于基于训练数据集对待训练的标点预测模型进行迭代训练，得到标点预测模型；标点预测模型中包括多个卷积核，多个卷积核中包括第一卷积核和第二卷积核；第一卷积核用于获取长距离的上下文信息；第二卷积核用于获取短距离的上下文信息。

标注模块408，用于将无标点符号的待标注文本输入至标点预测模型中，输出对应于待标注文本的标点符号标签序列，并将待标注文本和标点符号标签序列整合，生成标注有标号符号的文本。

在一个实施例中，训练模块406还用于在每轮迭代中，将训练数据集中的样本文本输入至本轮待训练的标点预测模型中，输出对样本文本对应的标点符号预测标签序列；根据标点符号预测标签序列与相应的标点符号样本标签序列之间的损失值，调整本轮待训练的标点预测模型的模型参数，直至满足迭代停止条件，得到训练完毕的标点预测模型。

在一个实施例中，如图5所示，标注模块408包括：模型输入模块408a、模型输出模块408b和标点预测模块408c；其中：

模型输入模块408a，用于将待标注文本输入至标点预测模型中，以通过标点预测模型中的多个卷积核对待标注文本序列进行卷积处理。

模型输出模块408b用于将各个卷积核进行卷积处理得到的特征向量拼接；特征向量中包括基于第一卷积核提取的全局特征向量和基于第二卷积核专注于关键字所提取的特征向量。

标点预测模块408c用于基于拼接后的向量进行标点预测，得到对应于待标注文本的标点符号标签序列。

在一个实施例中，标点预测模块408c还用于基于拼接后的向量，对所述待标注文本中每个文字进行标点符号标签预测，得到每个文字对应的标点预测结果；所述每个文字对应的标点预测结果中包括所述文字对应于每个预设的标点符号标签的概率；针对所述待标注文本中每个文字，从所述文字所对应的标点预测结果中，选取概率值最大的标点符号标签作为所述文字最终对应的标点符号标签，得到对应于所述待标注文本的标点符号标签序列。

在一个实施例中，所述待标注文本中的每个文字在所述标点符号标签序列中具有相对应的标点符号标签；标注模块408还用于从所述标点符号标签序列中，确定具有相对应标点符号的标点符号标签；针对确定的每个所述标点符号标签，在所述标点符号标签在所述待标注文本中对应的文字后，***与所述标点符号标签相对应的标点符号，生成标注有标号符号的文本。

在一个实施例中，标点预测模型，是用于对文本进行标点预测的文本卷积神经网络模型。模型输入模块408a还用于对待标注文本的每个文字编码为对应的字向量，得到字向量集合，把字向量集合输入至文本卷积神经网络模型，文本卷积神经网络模型对字向量集合中的字向量并行进行卷积处理。

上述标点符号标注装置，上述标点符号标注方法中，通过获取包括多组样本数据的训练数据集；每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列；分析训练数据集中的各样本文本的文本长度，并根据各样本文本的文本长度，确定卷积核数量和和各卷积核的长度；根据卷积核数量和各卷积核的长度，构建待训练的标点预测模型；基于训练数据集对待训练的标点预测模型进行迭代训练，得到标点预测模型。通过对训练数据集中的文本的长度进行分析，能够确定出合适的卷积核数量以及各卷积核的合适长度，从而构建模型进行训练，那么，得到的标点预测模型中则会包括多个卷积核，其中，多个卷积核中包括长度不同的第一卷积核和第二卷积核。将无标点符号的待标注文本输入至标点预测模型中，则能够基于长度较长的第一卷积核获取长距离的上下文信息，以及基于长度较短的第二卷积核获取短距离的上下文信息，从而基于长距离的上下文信息和短距离的上下文信息来进行标点符号预测，能保证进行预测的上下文信息的全面性，避免了单一长度的上下文信息所存在的局限性，进而，能够输出更为准确地标点符号标签序列。从而，将待标注文本和标点符号标签序列整合，生成的标注有标号符号的文本也就更为准确，即，能够为文本进行更为准确地预测标点符号。

关于标点符号标注装置的具体限定可以参见上文中对于标点符号标注方法的限定，在此不再赘述。上述标点符号标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标点符号标注方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种标点符号标注方法，其特征在于，所述方法包括：

分析所述训练数据集中的各样本文本的文本长度，确定各所述样本文本的文本长度所对应的预设文本长度范围；

根据预先设置的预设文本长度范围与卷积核选取策略之间的对应关系，获取与所确定的预设文本长度范围对应的卷积核选取策略；所述卷积核选取策略中包括卷积核数量和各卷积核的长度；

对无标点符号的待标注文本中的每个文字做向量转换，以针对每个文字生成相应的字向量，得到字向量集合；

将字向量集合输入至标点预测模型，通过标点预测模型中的不同长度的多个卷积核，对字向量集合进行卷积处理，得到长距离的上下文信息和短距离的上下文信息，进而基于获取的不同距离的上下文的信息再做预测，得到每个文字对应的预测结果；

将待标注文本中每个文字的预测结果按照字的先后顺序组合起来，得到待标注文本的标点符号标签序列；

将所述待标注文本和所述标点符号标签序列整合，生成标注有标号符号的文本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练数据集对所述待训练的标点预测模型进行迭代训练，得到标点预测模型包括：

3.根据权利要求1所述的方法，其特征在于，所述长距离的上下文信息是基于所述第一卷积核提取的全局特征向量；所述短距离的上下文信息是基于所述第二卷积核专注于关键字所提取的特征向量；所述基于获取的不同距离的上下文的信息再做预测，得到每个文字对应的预测结果包括：

将各个所述卷积核进行卷积处理得到的特征向量拼接；所述特征向量中包括全局特征向量和专注于关键字所提取的特征向量；

基于拼接后的向量进行标点预测，得到每个文字对应的预测结果。

4.根据权利要求3所述的方法，其特征在于，所述基于拼接后的向量进行标点预测，得到每个文字对应的预测结果包括：

针对所述待标注文本中每个文字，从所述文字所对应的标点预测结果中，选取概率值最大的标点符号标签作为所述文字最终对应的标点符号标签，得到每个文字对应的预测结果。

5.根据权利要求1所述的方法，其特征在于，所述待标注文本中的每个文字在所述标点符号标签序列中具有相对应的标点符号标签；

6.根据权利要求1所述的方法，其特征在于，所述标点预测模型，是用于对文本进行标点预测的文本卷积神经网络模型；

所述将字向量集合输入至标点预测模型，通过标点预测模型中的不同长度的多个卷积核，对字向量集合进行卷积处理包括：

将所述字向量集合输入至所述文本卷积神经网络模型；

通过所述文本卷积神经网络模型中的不同长度的多个卷积核，对所述字向量集合中的字向量并行进行卷积处理。

7.一种标点符号标注装置，其特征在于，所述装置包括：

确定模块，用于分析所述训练数据集中的各样本文本的文本长度，确定各所述样本文本的文本长度所对应的预设文本长度范围；根据预先设置的预设文本长度范围与卷积核选取策略之间的对应关系，获取与所确定的预设文本长度范围对应的卷积核选取策略；所述卷积核选取策略中包括卷积核数量和各卷积核的长度；根据所述卷积核数量和各卷积核的长度，构建待训练的标点预测模型；

标注模块，用于对无标点符号的待标注文本中的每个文字做向量转换，以针对每个文字生成相应的字向量，得到字向量集合；将字向量集合输入至标点预测模型，通过标点预测模型中的不同长度的多个卷积核，对字向量集合进行卷积处理，得到长距离的上下文信息和短距离的上下文信息，进而基于获取的不同距离的上下文的信息再做预测，得到每个文字对应的预测结果；将待标注文本中每个文字的预测结果按照字的先后顺序组合起来，得到待标注文本的标点符号标签序列，并将所述待标注文本和所述标点符号标签序列整合，生成标注有标号符号的文本。

8.根据权利要求7所述的装置，其特征在于，所述训练模块还用于在每轮迭代中，将所述训练数据集中的所述样本文本输入至本轮待训练的标点预测模型中，输出对所述样本文本对应的标点符号预测标签序列；根据所述标点符号预测标签序列与相应的标点符号样本标签序列之间的损失值，调整本轮待训练的标点预测模型的模型参数，直至满足迭代停止条件，得到训练完毕的标点预测模型。

9.根据权利要求7所述的装置，其特征在于，所述长距离的上下文信息是基于所述第一卷积核提取的全局特征向量；所述短距离的上下文信息是基于所述第二卷积核专注于关键字所提取的特征向量；所述标注模块，具体用于将各个所述卷积核进行卷积处理得到的特征向量拼接；所述特征向量中包括全局特征向量和专注于关键字所提取的特征向量；基于拼接后的向量进行标点预测，得到每个文字对应的预测结果。

10.根据权利要求9所述的装置，其特征在于，所述标注模块，具体用于基于拼接后的向量，对所述待标注文本中每个文字进行标点符号标签预测，得到每个文字对应的标点预测结果；所述每个文字对应的标点预测结果中包括所述文字对应于每个预设的标点符号标签的概率；针对所述待标注文本中每个文字，从所述文字所对应的标点预测结果中，选取概率值最大的标点符号标签作为所述文字最终对应的标点符号标签，得到每个文字对应的预测结果。

11.根据权利要求7所述的装置，其特征在于，所述待标注文本中的每个文字在所述标点符号标签序列中具有相对应的标点符号标签；所述标注模块，具体用于从所述标点符号标签序列中，确定具有相对应标点符号的标点符号标签；针对确定的每个所述标点符号标签，在所述标点符号标签在所述待标注文本中对应的文字后，***与所述标点符号标签相对应的标点符号，生成标注有标号符号的文本。

12.根据权利要求7所述的装置，其特征在于，所述标点预测模型，是用于对文本进行标点预测的文本卷积神经网络模型；所述标注模块，具体用于将所述字向量集合输入至所述文本卷积神经网络模型；通过所述文本卷积神经网络模型中的不同长度的多个卷积核，对所述字向量集合中的字向量并行进行卷积处理。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。