CN116070628A

CN116070628A - 一种文本断句的方法、装置、电子设备及存储介质

Info

Publication number: CN116070628A
Application number: CN202310037328.XA
Authority: CN
Inventors: 庄文彬
Original assignee: Great Wall Motor Co Ltd
Current assignee: Great Wall Motor Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-05-05

Abstract

本申请提供了一种文本断句的方法、装置、电子设备及存储介质，该方法包括：获取待处理文本，该待处理文本为经过语音识别之后得到的无标点的文本；将待处理文本输入到预设神经网络进行处理，得到每一个词后添加预设标点后的概率值；根据每一个词后添加预设标点后的概率值，从预设标点中确定该待处理文本的目标标点和该目标标点的位置，输出添加了目标标点的目标文本。该方法能够在经过语音识别之后得到的文本中添加标点，可以方便用户阅读，避免阅读时出现歧义。

Description

一种文本断句的方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种文本断句的方法、装置、电子设备及存储介质。

背景技术

随着科技水平的不断进步，人工智能技术在日常生活中的应用也越来越广泛，比如人工智能技术中的语音识别技术就广泛应用于语音助手、语音翻译等设备或应用中。语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是：利用计算机将获取的人类语音信号自动转换为文本内容的一项技术，再进一步将文本内容转换为计算机可读的输入指令，例如按键、二进制编码或者字符序列等。

但是现在通过语音识别技术对语音信号进行识别之后输出的结果大多都是没有标点的纯文本内容，这样阅读起来的话会比较困难，有时还会出现歧义，会影响语义的理解效果。

因此，在阅读经过语音识别后输出的文本内容时，如何提高文本内容的可读性，避免出现歧义及阅读不畅等情况成为亟待解决的问题。

发明内容

本申请提供了一种文本断句的方法、装置、电子设备及存储介质，该方法能够在经过语音识别之后输出的文本中添加标点，可以方便用户阅读，避免阅读时出现歧义。

第一方面，提供了一种文本断句的方法，该方法包括：获取待处理文本，该待处理文本为经过语音识别之后得到的无标点的文本；将该待处理文本输入到预设神经网络进行处理，得到每一个词后添加该预设标点后的概率值；根据该每一个词后添加该预设标点后的概率值，从该预设标点中确定该待处理文本的目标标点和该目标标点的位置，输出添加了该目标标点的目标文本。

应理解，一般通过语音识别输出的文本都是无标点的文本，所以，该待处理文本为经过语音识别之后得到的无标点的文本。可选地，待处理文本可以是实时的语音识别输出的文本，也可以是其他场景中需要添加标点的文本。本申请实施例对此不作限定。

通过上述方法，能够在经过语音识别之后输出的文本中添加标点，可以方便用户阅读，避免阅读时出现歧义。

结合第一方面，在第一方面的某些实现方式中，将该待处理文本输入到预设神经网络进行处理，得到每一个词后添加该预设标点后的概率值，包括：通过该预设神经网络中的断句模型，输出该待处理文本中每一个词后添加该预设标点的概率值，其中，该断句模型中包括经过训练生成的词表，该词表中每一个词前添加该预设标点的概率值以及该词表中每一个词后添加该预设标点的概率值。

应理解，该断句模型的存储大小有160M左右，根据断句模型训练所得的数据进行估算，可以得出该断句模型的模型参数有14.3M左右。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，根据该每一个词后添加该预设标点后的概率值，从该预设标点中确定该待处理文本的目标标点和该目标标点的位置，包括：将该概率值大于或等于预设概率的标点确定为该待处理文本的目标标点并确定该目标标点的位置。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，该方法还包括：在断句模型的词表中添加新的词表，对该断句模型进行修复；和/或，在断句模型的词表中加入场景数据，更新得到包括该场景数据的该断句模型。

应理解，在通过断句模型进行文本断句时也可能出现错误。

示例性的，在断句模型中输入待处理文本“你好我想去4S店”，经过断句模型处理后，输出“你好，我想去4、S店。”，这时我们发现这句话出现了断句错误。“4S店”是一个词，不应该添加标点。我们可以在断句模型的词表中添加“4S店”这个词，形成新的词表，再次出现“4S店”时，就可以避免断句错误的出现。

通过上述方法，可以自行定制词表，可以快速地修复断句模型，避免再次出现断句错误。

一种可能的情况中，如果断句模型在训练时采用的训练集中不包含某个场景下的文本，那么在实际应用中，在这个场景下使用断句模型时，可能会出现大量的断句错误。可选地，可以将该场景下的词添加在该断句模型的词表中，也可以以该断句模型作为预训练模型，在该断句模型的词表中加入场景数据，更新得到包括该场景数据的断句模型。

示例性的，当断句模型应用于语音质检时，该断句模型在训练时使用的训练集通常是在“客服”场景下的一些文本。如果需要进行质检的是在试驾汽车的过程中工作人员向客户介绍汽车时的语音，那么通过语音识别输出的文本可能会涉及到一些“汽车”、“试驾”领域的文本，而训练该断句模型所使用的“客服”场景下的文本可能并不包含“汽车”、“试驾”领域的文本，因此在语音质检的过程中，可能会出现大量的断句错误，导致质检工作困难。此时，可以以该断句模型作为预训练模型，在该断句模型的基础上加入“试驾”场景下的文本继续训练，可以基于错误的例子以及现有的带标点的文本快速构建适用于“试驾”场景的词表，这样能够快速完成训练。

通过上述方法，能够提高断句模型使用的准确性，在原有断句模型的基础上快速进行更新并迭代优化，可以有效地减少训练时间，并且在集成到语音识别程序中时不会影响语音识别的识别速度。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，在该获取待处理文本之前，该方法还包括：获取训练集，将该训练集输入至该预设神经网络中训练，得到该断句模型，该训练集包括已经添加了该预设标点的文本。

可选地，训练集可以采用时政、法律、汽车、地理、名著小说等多领域的文本。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，该预设标点包括逗号、句号、问号、顿号、感叹号以及无标点空格中的一种或多种。

第二方面，提供了一种文本断句的装置，该装置包括：获取模块，用于获取待处理文本，该待处理文本为经过语音识别之后得到的无标点的文本；处理模块，用于将该待处理文本输入到预设神经网络进行处理，得到每一个词后添加该预设标点后的概率值；输出模块，用于根据该每一个词后添加该预设标点后的概率值，从该预设标点中确定该待处理文本的目标标点和该目标标点的位置，输出添加了该目标标点的目标文本。

结合第二方面，在第二方面的某些实现方式中，该处理模块具体用于：通过该预设神经网络中的断句模型，输出该待处理文本中每一个词后添加该预设标点的概率值，其中，该断句模型中包括经过训练生成的词表，该词表中每一个词前添加该预设标点的概率值以及该词表中每一个词后添加该预设标点的概率值。结合第二方面和上述实现方式，在第二方面的某些实现方式中，输出模块具体用于：将该概率值大于或等于预设概率的标点确定为该待处理文本的目标标点并确定该目标标点的位置。

结合第二方面和上述实现方式，在第二方面的某些实现方式中，该装置还包括：修复模块，用于在断句模型的词表中添加新的词表，对该断句模型进行修复；和/或，在断句模型的词表中加入场景数据，更新得到包括该场景数据的该断句模型。

结合第二方面和上述实现方式，在第二方面的某些实现方式中，该装置还包括：训练模块，用于获取训练集，将该训练集输入至该预设神经网络中训练，得到该断句模型，该训练集包括已经添加了该预设标点的文本。

第三方面，提供一种电子设备，包括存储器和处理器。该存储器用于存储可执行程序代码，该处理器用于从存储器中调用并运行该可执行程序代码，使得该车辆执行上述第一方面和第一方面任一项可能的实现中的文本断句的方法。

第四方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行上述第一方面和第一方面任一项可能的实现中的文本断句的方法。

第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行上述第一方面和第一方面任一项可能的实现中的文本断句的方法。

综上所述，本申请实施例提供的文本断句的方法，通过将训练所得的断句模型集成在语音识别技术中，在经过语音识别之后输出的文本中添加标点，可以方便用户阅读，避免阅读时出现歧义；在使用断句模型的过程中，出现断句错误时，通过在断句模型的词表中添加新的词表，可以快速地修复断句错误，还可以通过在断句模型的词表中加入场景数据，更新断句模型，能够提高断句模型使用的准确性。

附图说明

图1是本申请实施例提供的一种文本断句的方法的示意性流程图；

图2是本申请实施例提供的一种实现文本断句的神经网络结构示意图；

图3是本申请实施例提供的一种文本断句的装置的结构示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B：文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。

图1是本申请实施例提供的一种文本断句的方法的示意性流程图。

示例性的，如图1所示，该方法100包括：

S101，获取待处理文本。

应理解，一般通过语音识别输出的文本都是无标点的文本，所以，该待处理文本为经过语音识别之后得到的无标点的文本。可选地，待处理文本可以是实时的语音识别输出的文本，也可以是其他场景中需要添加标点的文本。本申请实施例对此不作限定。示例性的，待处理文本可以是“你好怎么去沙河”。

一种可能的实现方式中，在获取待处理文本之前，该方法还包括：获取训练集，将该训练集输入至该预设神经网络中训练，得到该断句模型，该训练集包括已经添加了该预设标点的文本。可选地，训练集可以采用时政、法律、汽车、地理、名著小说等多领域的文本。

具体的，将训练集输入至预设神经网络中，先经过分词处理，得到词表，再经过计算输出每个词后以及每个词前添加标点的概率。其中，词表中可以包含单个文字、两字词语、三字词语、四字词语、成语等。示例性的，输入“你好，请问怎么去北京？”，经过分词处理得到“你好请问怎么去北京”，然后再经过计算输出“你好”、“请问”、“怎么”、“去”、“北京”每个词后以及每个词前添加标点的概率。

S102，将所述待处理文本输入到预设神经网络进行处理，得到每一个词后添加所述预设标点后的概率值。

一种可能的实现方式中，预设标点包括逗号、句号、问号、顿号、感叹号以及无标点空格中的一种或多种。

具体的，通过该预设神经网络中的断句模型，输出待处理文本中每一个词后添加该预设标点的概率值，其中，该断句模型中包括经过训练生成的词表，该词表中每一个词前添加预设标点的概率值以及该词表中每一个词后添加预设标点的概率值。

应理解，输入断句模型中的待处理文本可以是已经分好词的无标点文本。经过训练生成的词表中可以包含单个文字、两字词语、三字词语、四字词语、成语等。本申请实施例对此不作限定。

应理解，断句模型可以应用于语音质检过程中，语音质检就是通过语音识别技术将客户和客服的语音识别成文字，再对语音识别输出的文字做分析质检，检查客服有没有说“你好”，有没有说不敬的话语，是否按照规定话术沟通，是否存在服务禁语，是否有违规行为等。当断句模型应用于语音质检过程中时，通常在语音识别技术识别语音之后被调用，可以通过断句模型对语音识别后输出的不带标点的文本进行断句处理。还应理解，本申请实施例中生成的断句模型的存储大小有160M左右，根据断句模型训练所得的数据进行估算，可以得出该断句模型的模型参数有14.3M左右。因此，将本申请实施例中生成的断句模型集成到语音识别程序中，并不会影响语音识别的速度。

在本申请实施例中，通过多次训练，可以获得断句模型，再将获得的断句模型集成到语音识别程序中，可以更方便地阅读语音识别输出的文本并且不会影响语音识别的识别速度。

一种可能的实现方式中，该预设神经网络可以是双向长短时记忆(Bi-directional Long Short Term Memory，BLSTM)网络。BLSTM网络可以分为2个独立的长短时记忆(Long Short Term Memory，LSTM)网络层，输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取，将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。

具体的，BLSTM网络可以包括：输入层、嵌入层(Embedding层)、前向LSTM层、反向LSTM层以及输出层，上述每个层都包含多个单元。

其中，输入层输入的是无标点的文本，即待处理文本。输入层可以实现字符到字符索引之间的变换，还可以实现索引到字符向量的变换。

Embedding层可以实现字符向量的索引，还可以将输入的待处理文本中的文字转换为统一维度的字符向量。此外，Embedding层中还包含丰富的语义信息。

前向LSTM层和反向LSTM层都连接着一个输出层，可以给输出层提供每个字符向量完整的上下文信息。

示例性的，将待处理文本如“你好怎么去沙河”输入BLSTM中，其处理流程如图2所示。首先将“你好”、“怎么”、“去”、“沙河”分别通过Embedding层转化为字符向量，再将“你好”、“怎么”、“去”、“沙河”的字符向量以正序输入到前向LSTM层，同时将“你好”、“怎么”、“去”、“沙河”的字符向量以倒序输入到反向LSTM层，聚合前向LSTM层和反向LSTM层的字符向量信息，根据断句模型，通过输出层分别输出“你好”、“怎么”、“去”、“沙河”每个词后添加预设标点的概率值，比如“你好”后添加逗号、句号、问号、顿号、感叹号以及无标点空格等等的概率值。

在本申请实施例中，通过BLSTM网络对待处理文本进行处理，可以更快速地提取待处理文本中的每个文字的特征，并且获取的特征信息是待处理文本中每个文字的完整的上下文信息，因此，得到的特征信息更加准确。

应理解，在通过断句模型进行文本断句时也可能出现错误。一种可能的情况中，在断句模型中输入待处理文本“你好我想去4S店”，可能会输出“你好，我想去4、S店。”，这时就出现了断句错误。

一种可能的实现方式中，可以在断句模型的词表中添加新的词表，对断句模型进行修复；和/或，在断句模型的词表中加入场景数据，更新得到包括该场景数据的断句模型。

可选地，断句模型可以应用于语音质检、会议纪要、字幕生成等场景。本申请实施例对断句模型应用的场景类型不作限定。

应理解，当断句模型应用于语音质检时，可以构建“汽车客服”场景模型，还可以构建“用户试驾”等场景模型。本申请实施例对构建的场景模型不作限定。

S103，根据所述每一个词后添加所述预设标点后的概率值，从所述预设标点中确定所述待处理文本的目标标点和所述目标标点的位置，输出添加了所述目标标点的目标文本。

一种可能的实现方式中，将所述概率值大于或等于预设概率的标点确定为所述待处理文本的目标标点并确定所述目标标点的位置。

示例性的，根据断句模型获得“你好”、“怎么”、“去”、“沙河”中每个词后添加预设标点后的概率值，通过比较，可以得出在“你好怎么去沙河”这句话中“你好”这个词后添加逗号的概率值大于预设概率，“怎么”这个词后不添加标点的概率值大于预设概率，“去”这个词后不添加标点的概率值大于预设概率，“沙河”这个词后添加问号的概率值大于预设概率，最终输出目标文本“你好，怎么去沙河？”。

根据上述方法，利用断句模型对输入文本进行断句处理，可以得到如表1所示的输出文本。

表1

本申请实施例提供的文本断句的方法，通过将训练所得的断句模型集成在语音识别技术中，在经过语音识别之后输出的文本中添加标点，可以方便用户阅读，避免阅读时出现歧义；在使用断句模型的过程中出现断句错误时，通过在断句模型的词表中添加新的词表，可以快速地修复断句错误，还可以通过在断句模型的词表中加入场景数据，更新断句模型，能够提高断句模型使用的准确性。

图3是本申请实施例提供的一种文本断句的装置的结构示意图。

示例性的，如图3所示，该装置300包括：

获取模块301，用于获取待处理文本，该待处理文本为经过语音识别之后得到的无标点的文本；

处理模块302，用于将该待处理文本输入到预设神经网络进行处理，得到每一个词后添加该预设标点后的概率值；

输出模块303，用于根据每一个词后添加该预设标点后的概率值，从该预设标点中确定该待处理文本的目标标点和该目标标点的位置，输出添加了该目标标点的目标文本。

一种可能的实现方式中，处理模块302具体用于：通过该预设神经网络中的断句模型，输出该待处理文本中每一个词后添加该预设标点的概率值，其中，该断句模型中包括经过训练生成的词表，该词表中每一个词前添加该预设标点的概率值以及该词表中每一个词后添加该预设标点的概率值。一种可能的实现方式中，输出模块303具体用于：将该概率值大于或等于预设概率的标点确定为该待处理文本的目标标点并确定该目标标点的位置。

可选地，该装置还包括：修复模块，用于在断句模型的词表中添加新的词表，对该断句模型进行修复；和/或，在断句模型的词表中加入场景数据，更新得到包括该场景数据的该断句模型。

可选地，该装置还包括：训练模块，用于获取训练集，将该训练集输入至该预设神经网络中训练，得到该断句模型，该训练集包括已经添加了该预设标点的文本。

图4是本申请实施例提供的一种电子设备的结构示意图。

示例性的，如图4所示，该电子设备400包括：存储器401和处理器402，其中，存储器401中存储有可执行程序代码4011，处理器402用于调用并执行该可执行程序代码4011执行一种文本断句的方法。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中，上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，该电子设备可以包括：获取模块、处理模块、输出模块等。需要说明的是，上述方法实施例涉及的各个步骤的所有相关内容的可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备，用于执行上述一种文本断句的方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备可以包括处理模块、存储模块。其中，处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行相互程序代码和数据等。

其中，处理模块可以是处理器或控制器，其可以实现或执行结合本申请公开内容所藐视的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等，存储模块可以是存储器。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述相关方法步骤实现上述实施例中的一种文本断句的方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的一种文本断句的方法。

另外，本申请的实施例提供的电子设备具体可以是芯片，组件或模块，该电子设备可包括相连的处理器和存储器；其中，存储器用于存储指令，当电子设备运行时，处理器可调用并执行指令，以使芯片执行上述实施例中的一种文本断句的方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本断句的方法，其特征在于，所述方法包括：

获取待处理文本，所述待处理文本为经过语音识别之后得到的无标点的文本；

将所述待处理文本输入到预设神经网络进行处理，得到每一个词后添加所述预设标点后的概率值；

根据所述每一个词后添加所述预设标点后的概率值，从所述预设标点中确定所述待处理文本的目标标点和所述目标标点的位置，输出添加了所述目标标点的目标文本。

2.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本输入到预设神经网络进行处理，得到每一个词后添加所述预设标点后的概率值，包括：

通过所述预设神经网络中的断句模型，输出所述待处理文本中每一个词后添加所述预设标点的概率值，其中，所述断句模型中包括经过训练生成的词表，所述词表中每一个词前添加所述预设标点的概率值以及所述词表中每一个词后添加所述预设标点的概率值。

3.根据权利要求2所述的方法，所述根据所述每一个词后添加所述预设标点后的概率值，从所述预设标点中确定所述待处理文本的目标标点和所述目标标点的位置，包括：

将所述概率值大于或等于预设概率的标点确定为所述待处理文本的目标标点并确定所述目标标点的位置。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

在断句模型的词表中添加新的词表，对所述断句模型进行修复；

和/或，

在所述断句模型的所述词表中加入场景数据，更新得到包括所述场景数据的所述断句模型。

5.根据权利要求1至3中任一项所述的方法，其特征在于，在所述获取待处理文本之前，所述方法还包括：

获取训练集，将所述训练集输入至所述预设神经网络中训练，得到所述断句模型，所述训练集包括已经添加了所述预设标点的文本。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述预设标点包括逗号、句号、问号、顿号、感叹号以及无标点空格中的一种或多种。

7.一种文本断句的装置，其特征在于，所述装置包括：

获取模块，用于获取待处理文本，所述待处理文本为经过语音识别之后得到的无标点的文本；

处理模块，用于将所述待处理文本输入到预设神经网络进行处理，得到每一个词后添加所述预设标点后的概率值；

输出模块，用于根据所述每一个词后添加所述预设标点后的概率值，从所述预设标点中确定所述待处理文本的目标标点和所述目标标点的位置，输出添加了所述目标标点的目标文本。

8.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行程序代码；

处理器，用于从所述存储器中调用并运行所述可执行程序代码，使得所述电子设备执行如权利要求1至6中任意一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被执行时，实现如权利要求1至6中任意一项所述的方法。