CN108090038A

CN108090038A - 文本断句方法及***

Info

Publication number: CN108090038A
Application number: CN201610993731.XA
Authority: CN
Inventors: 占吉清; 高建清; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2018-05-29
Anticipated expiration: 2036-11-11
Also published as: CN108090038B

Abstract

本发明公开了一种文本断句方法及***，该方法包括：预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；在对文本断句时，获取待断句文本及其对应的语音数据；分别根据所述待断句文本及所述待断句文本对应的语音数据提取文本断句特征和声学断句特征；根据提取的文本断句特征、声学断句特征以及所述长时记忆断句模型，对所述待断句文本进行断句。本发明可以有效提高文本断句的准确度。

Description

文本断句方法及***

技术领域

本发明涉及自然语言处理领域，具体涉及一种文本断句方法及***。

背景技术

近年来，随着语音识别技术的实用化及硬件存储的快速发展，越来越多的人们习惯利用存储设备将声音记录下来，利用转写工具将录制的语音数据转成文本数据进行信息保存，而不是传统的人工记录边听边记的方式来记录重要信息。然而，对语音数据进行语音识别得到对应识别文本时，文本数据经常是连续不间断的，这非常不利于用户的阅读和理解，如识别文本为“这个行政服务大厅才能办事厄一方面是现在这个交通压力很大停车也难另一方面呢在这个窗口在这个行政服务中心里面我们可以看到经常是某些因为办事他是分季节性的分月份的”，这么长的一段文字没有任何断句标记，用户读起来非常吃力，而添加过断句标记的识别文本则易懂的多，如添加断句标记后的识别文本“这个行政服务大厅才能办事厄/一方面是现在这个交通压力很大/停车也难/另一方面呢/在这个窗口/在这个行政服务中心里面/我们可以看到/经常是某些/因为办事/他是分季节性的分月份的”。因此，研究人员开始研究如何给文本断句，以便于提高用户的阅读体验。

现有的断句方法一般通过序列标注的方法直接利用文本数据的词向量信息进行断句，然而所述词向量仅能对文本数据进行描述，并不能描述文本数据对应语音数据的相关信息，从而使得断句的准确度较低；此外，现有技术一般使用序列标注模型进行断句，所述序列标注模型只能记忆较少的历史信息，不能记忆每个词的未来信息，进一步降低了断句的准确度。比如“我该怎么去做一件让她回心转意的事情”，构建的序列模型当前词为“事情”，如果模型不能记忆“事情的”历史信息“怎么”，则在“事情”处的断句判断，很有可能出现错误；再比如“你说的吗字是个代表疑问的词”，如果模型无法记忆“吗”字的未来信息，在“吗”字处的断句判断时，也会出错。

发明内容

本发明实施例提供一种文本断句方法及***，以提高文本断句的准确度。

为此，本发明提供如下技术方案：

一种文本断句方法，包括：

预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；

在对文本断句时，获取待断句文本及其对应的语音数据；

分别根据所述待断句文本及所述待断句文本对应的语音数据提取文本断句特征和声学断句特征；

根据提取的文本断句特征、声学断句特征以及所述长时记忆断句模型，对所述待断句文本进行断句。

优选地，所述收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型包括：

收集少量文本数据及其对应的语音数据；

将所述文本数据作为训练数据，并标注所述训练数据的断句标签；

根据所述训练数据提取文本断句特征，并根据所述训练数据对应的语音数据提取声学断句特征；

将提取的文本断句特征及声学断句特征作为训练特征，利用所述训练特征及所述训练数据的断句标签构建长时记忆断句模型。

优选地，所述方法还包括：预先收集大量纯文本数据，构建文本断句模型，所述文本断句模型包括输入层、一个或多个隐层、及输出层；

所述根据所述训练数据提取文本断句特征包括：

对所述训练数据进行分词，并计算得到的各词的词向量；

依次将各词的词向量输入所述文本断句模型，根据所述文本断句模型最后一个隐层的输出得到各词的文本断句特征。

优选地，所述收集大量纯文本数据，构建文本断句模型包括：

收集大量纯文本数据；

根据所述纯文本数据的标点位置，标注文本数据的断句标签；

对所述纯文本数据进行分词，并计算各词的词向量；

根据所述纯文本数据中每个词的词向量及所述断句标签，构建文本断句模型。

优选地，所述文本断句模型为：双向LSTM结构、或双向RNN结构，并且每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出。

优选地，所述根据所述训练数据对应的语音数据提取声学断句特征包括：

将所述训练数据与其对应的语音数据进行对齐；

根据对齐后的训练数据及其语音数据提取声学断句特征，所述声学断句特征包括以下任意一种或多种：词间停顿时长、词尾基频走势、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词尾能量走势、词声调。

优选地，所述长时记忆断句模型包括输入层、规整层、一个或多个隐层、输出层；规整层用于对输入层输入的不同断句特征进行规整；每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出。

优选地，所述方法还包括：

在得到待断句文本的断句结果后，将断句后的文本反馈给用户；或者

在得到待断句文本的断句结果后，将在需要断句处添加断句标记后的文本反馈给用户。

一种文本断句***，包括：

长时记忆断句模型构建模块，用于预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；

接收模块，用于在对文本断句时，获取待断句文本及其对应的语音数据；

文本断句特征提取模块，用于根据所述待断句文本提取文本断句特征；

声学断句特征提取模块，用于根据所述待断句文本对应的语音数据提取声学断句特征；

判断模块，用于根据所述文本断句特征、声学断句特征以及所述长时记忆断句模型，对所述待断句文本进行断句。

优选地，所述长时记忆断句模型构建模块包括：

第一数据收集单元，用于收集少量文本数据及其对应的语音数据；

第一标注单元，用于将所述文本数据作为训练数据，并标注所述训练数据的断句标签；

第一特征提取单元，用于根据所述训练数据提取文本断句特征；

第二特征提取单元，用于根据所述训练数据对应的语音数据提取声学断句特征；

第一训练单元，用于将所述第一特征提取单元提取的文本断句特征及所述第二特征提取单元提取的声学断句特征作为训练特征，利用所述训练特征及所述训练数据的断句标签构建长时记忆断句模型。

优选地，所述***还包括：

文本断句模型构建模块，用于预先收集大量纯文本数据，构建文本断句模型，所述文本断句模型包括输入层、一个或多个隐层、及输出层；

所述第一特征提取单元包括：

第一分词子单元，用于对所述训练数据进行分词，并计算得到的各词的词向量；

第一提取子单元，用于依次将所述分词子单元得到的各词的词向量输入所述文本断句模型，根据所述文本断句模型最后一个隐层的输出得到各词的文本断句特征。

优选地，所述文本断句模型构建模块包括：

第二数据收集单元，用于收集大量纯文本数据；

第二标注单元，用于根据所述纯文本数据的标点位置，标注文本数据的断句标签；

第二分词单元，用于对所述纯文本数据进行分词，并计算各词的词向量；

第二训练单元，用于根据所述纯文本数据中每个词的词向量及所述断句标签，构建文本断句模型。

优选地，所述第二特征提取单元包括：

对齐子单元，用于将所述训练数据与其对应的语音数据进行对齐；

第二提取子单元，用于根据对齐后的训练数据及其语音数据提取声学断句特征，所述声学断句特征包括以下任意一种或多种：词间停顿时长、词尾基频走势、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词尾能量走势、词声调。

优选地，所述***还包括：

反馈模块，用于在所述判断模块得到待断句文本的断句结果后，将断句后的文本反馈给用户；或者在所述判断模块得到待断句文本的断句结果后，将在需要断句处添加断句标记后的文本反馈给用户。

本发明实施例提供的文本断句方法及***，预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；在对文本断句时，分别根据待断句文本及其对应的语音数据提取文本断句特征和声学断句特征，利用提取的断句特征和预先构建的长时记忆断句模型进行断句判断。由于充分利用了文本断句信息和相应的语音数据的声学断句信息，作为长时记忆断句模型的输入，从而使得可以同时记忆每个词或字的历史信息和未来信息，并且记忆的长度不限定，有效地保证了对文本断句预测的准确性。进一步地，本发明实施例的方法及***还可以将断句后的文本显示给用户，或将文本添加标点后显示给用户，提高了用户阅读文本的体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中构建长时记忆断句模型的流程图；

图2是本发明实施例中文本断句模型的拓扑结构示意图；

图3是本发明实施例中构建文本断句模型的流程图；

图4是本发明实施例中长时记忆断句模型的拓扑结构示意图；

图5是本发明实施例文本断句方法的流程图；

图6是本发明实施例文本断句***的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

由于文本数据的词向量仅能对文本数据进行描述，并不能描述文本数据对应的语音数据的相关信息，实际上，在说话过程中，语音数据中也会包含很强的断句信息，如在语音数据中断句处的声调往往为降调，断句处词尾的基频值会越来越小，同时在语音数据的能量上，词与词之间的停顿时长也会有较明显的变化。考虑到这一特点，本发明实施例提供一种文本断句方法及***，预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；在对文本断句时，分别根据待断句文本及其对应的语音数据提取文本断句特征和声学断句特征，利用提取的断句特征和预先构建的长时记忆断句模型逐词进行断句判断。由于充分利用了文本断句信息和相应的语音数据的声学断句信息，作为长时记忆断句模型的输入，从而使得可以同时记忆每个词或字的历史信息和未来信息，并且记忆的长度不限定，有效地保证了对文本断句预测的准确性。

所述长时记忆断句模型的构建过程如图1所示，包括以下步骤：

步骤101，收集少量文本数据及其对应的语音数据。

与文本数据对应的语音数据是指文本数据与语音数据的内容相同，具体收集时，可以直接收集语音数据及其对应的识别文本，也可以收集其它与语音数据对应的文本数据，如有声小说的文本数据和语音数据。另外，根据应用需求可以收集多个领域的文本数据，也可以只收集同一领域的文本数据，如待断句文本数据为教育领域文本数据，则收集文本数据时，可以直接收集教育领域带有语音数据的文本数据。

步骤102，将所述文本数据作为训练数据，并标注所述训练数据的断句标签。

如果收集的文本数据包含标点信息，则以标点所在位置作为断句位置，在该位置标注断句标签，所述标点如逗号、句号、问号、感叹号等，当然也可为其它标点符号，如省略号、顿号、冒号、分号等；如果收集的文本数据不包含标点信息，如所述文本数据为识别文本数据，则可以由人工标注相应断句标签，即在文本数据的每个断句位置添加断句标签，如使用0或1标注断句位置，1表示断句，0表示不断句，或反之。

步骤103，根据所述训练数据提取文本断句特征，并根据所述训练数据对应的语音数据提取声学断句特征。

需要说明的是，所述文本断句特征和所述声学断句特征是可以是针对单个词或字的，也就是说，需要提取所述训练数据中每个词或字的文本断句特征和声学断句特征。具体地，所述文本断句特征可以直接利用各词或字的词向量或字向量信息，也可以是从各词向量或字向量中提取的相关信息，对此本发明实施例不做限定。

具体的文本断句特征及声学断句特征的提取将在后面详细说明。

步骤104，将提取的文本断句特征及声学断句特征作为训练特征，利用所述训练特征及所述训练数据的断句标签构建长时记忆断句模型。

在本发明实施例中，所述长时记忆断句模型具体可以采用双向LSTM(Long Short-Term Memory)结构、或双向RNN(Recurrent neural Network)结构等，包括输入层、规整层、一个或多个隐层、输出层；规整层用于对输入层输入的不同断句特征进行规整。以词为单位为例，在该模型中，每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出，这样，经过隐层记忆文本中每个词的历史信息和未来信息后，将每个词对应隐层节点的输出作为输出层的输入，输出层的输出可以为每个词断句及不断句的概率，或者输出层的输出也可以是每个词是否断句的判断结果。

利用收集的少量带有语音数据的文本数据提取的断句特征及文本数据的断句标签对模型参数进行训练，训练结束后，得到长时记忆断句模型，具体训练过程与现有技术类似，在此不再详细描述。

在前面提到，在本发明实施例中，所述文本断句特征可以是从各词向量或字向量中提取的相关信息，比如，预先收集大量纯文本数据，构建文本断句模型，利用所述文本断句模型提取各词或字的文本断句特征。

所述文本断句模型包括输入层、一个或多个隐层、及输出层，具体可以采用DNN(Deep Neural Networks)、CNN(Convolutional Neural Network)、双向LSTM、或双向RNN等结构，下面以双向LSTM结构为例进行说明。

本发明实施例中文本断句模型的构建过程如图2所示，包括以下步骤：

步骤201，收集大量纯文本数据。

所述纯文本数据指没有对应语音数据的文本数据，比如可以通过网络收集到。

步骤202，根据所述纯文本数据的标点位置，标注文本数据的断句标签。

依次查找所述纯文本数据中的标点位置，所述标点可以为句号、逗号、问号及感叹号等，当然也可为其它标点符号，如省略号、顿号、冒号、分号等，具体标点不作限定。将所述标点的位置作为断句位置，有标点的地方即为需要断句的地方，在每个断句位置处标注断句标签，如使用0或1表示断句标签，1表示断句，0表示不断句；或反之。

步骤203，对所述纯文本数据进行分词，并计算各词的词向量。

对所述纯文本数据进行分词时，保留文本数据中的标点，将标点单独作为一个词。具体分词方法与现有技术相同，如基于条件随机场的方法对纯文本数据进行分词。所述词向量的获取方法与现有技术相同，如使用word2vec将每个词直接向量化，得到每个词的词向量；也可以随机初始化每个词的词向量，采用基于神经网络的方法对所述初始化的词向量进行训练。

获取分词后每个词的词向量，所述词向量的获取方法与现有技术相同，如使用word2vec将每个词直接向量化，得到每个词的词向量；也可以随机初始化每个词的词向量，采用基于神经网络的方法对所述初始化的词向量进行训练。

步骤204，根据所述纯文本数据中每个词的词向量及所述断句标签，构建文本断句模型。

所述文本断句模型能够同时记忆每个词的历史信息和未来信息，所述历史信息指当前词之前一个或多个词的信息；所述未来信息指当前词之后一个或多个词的信息，具体记忆当前词之前或之后多少个词的信息，根据应用需求确定，如可以记忆当前词之前所有词的信息，记忆当前词之后词的信息时，随机确定记忆当前词之后的词数。

如图3所示为所述文本断句模型的一种拓扑结构，具体包括输入层、隐层、及输出层；为了增加对每个词历史信息及未来信息的记忆能力，隐层节点之间采用双向连接，即每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出，其中第一个词隐层节点的输入为最后一个词隐层节点的输出、第二个词隐层节点的输出，及当前词上一层节点的输出；最后一个词隐层节点的输入为其前一个词隐层节点的输出、第一个词隐层节点的输出及当前词上一层节点的输出；隐层可以为一层或多层，图3中仅给出了一层隐层的示意图。

模型训练时，由输入层依次分别输入每句文本数据中的各词向量，经过隐层记忆文本数据中每个词的历史信息和未来信息后，将每个词对应隐层节点的输出作为输出层的输入，输出为每个词断句及不断句的概率或者是每个词断句或不断句的判断结果。

使用收集的大量纯文本数据对模型参数进行训练，所述模型参数为每层特征进行变换时的转换矩阵及偏置，训练结束后，得到文本断句模型。具体训练过程与现有技术类似，在此不再详述。

需要说明的是，如果以字为单位进行断句判断，则在上述文本断句模型的构建过程中，步骤203中无需进行分词处理，但需要计算各字的字向量，相应地，在步骤204中，需要根据纯文本数据中每个字的字向量，构建文本断句模型。模型训练时，由输入层依次分别输入每句文本数据中的各字向量，经过隐层记忆文本数据中每个字的历史信息和未来信息后，将每个字对应隐层节点的输出作为输出层的输入，输出为每个字断句及不断句的概率或者是每个字断句或不断句的判断结果。

为了描述方便，下面均以词为单位进行断句判断为例进行说明。基于上述文本断句模型在前面图1的步骤103中提取训练数据的文本断句特征的过程如下：首先，对所述训练数据进行分词，并计算各词的词向量；然后依次将各训练数据的词向量输入所述文本断句模型，根据所述文本断句模型最后一个隐层的输出得到各词的文本断句特征。

由于上述文本断句模型是根据海量纯文本数据训练得到的，从而使文本断句模型包含了海量纯文本数据的断句信息。根据该模型提取的文本断句特征(即隐层信息)不仅包含了海量纯文本数据的断句信息，同时包含了每个词的历史信息及未来信息，因此更有利于准确构建所述长时记忆断句模型。

下面继续说明图1的步骤103中根据所述训练数据对应的语音数据提取声学断句特征的过程，具体包括以下步骤：

(1)将训练数据与其对应的语音数据进行对齐，比如使用动态规划方法将文本数据与语音数据进行对齐，或使用其它方法进行对齐，本发明实施例不做限定。

(2)根据对齐后的训练数据及其语音数据提取声学断句特征。

由于在断句前后，在语音数据的声学上有不同的声学表现，因此，为了更好的构建长时记忆模型，本发明实施例从语音数据的声学上提取声学断句特征，用于描述文本数据在声学上的表现。在本发明实施例中，提取的声学断句特征可以包括以下任意一种或多种：词间停顿时长、词尾基频走势、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词尾能量走势、词声调等。

下面对上述各声学断句特征分别进行详细说明。

1)词间停顿时长

所述词间停顿时长指当前词对应语音数据与后一个词对应语音数据之间的时间间隔，具体提取时，直接获取当前词结束位置与后一个词开始位置的时间长度即可，如果是最后一个词，取值为0。

2)词尾基频走势

所述词尾基频走势指当前词的词尾处连续基频值，具体提取时，在语音数据上找到当前词的结束位置，从该结束位置依次分别向前和向后取多帧语音数据的基频值作为当前词词尾的基频走势，具体可以使用1×n的向量表示，其中n表示向前向后及当前帧的总帧数，具体向前及向后取多少帧，根据应用需求或实验结果确定，如向前取7帧向后取4帧的基频值，加上当前帧共12帧基频值，从而得到的一个12维的基频走势向量。

3)词内音素平均时长

所述词内音素平均时长指当前词中包含每个音素的平均时长，具体提取时，先将当前词转换为音素序列，具体转换过程与现有技术相同，统计词中包含的音素数，再获取当前词对应语音数据的时长，计算当前词时长与音素数的比值，得到词内音素平均时长。

4)词内元音音素平均时长

所述词内元音音素平均时长指当前词中包含的每个元音音素的平均时长，具体提取时，根据当前词的音素序列，统计词中包含的元音音素数，根据当前词对应的语音数据，找到每个元音对应的语音数据，得到每个元音音素的时长，将当前词内所有元音音素的时长相加后得到当前词元音音素总时长，计算元音音素总时长与元音音素数的比值得到词内元音音素平均时长。

5)说话人历史平均语速

所述说话人历史平均语速指截止到当前词对应语音数据中说话人的平均说话速度，具体计算时，直接统计截止到当前词的词总数，及截止到当前词的语音数据总时长，计算所述词总数与总时长的比值得到说话人历史平均语速。

6)词尾能量走势

所述词尾能量走势指当前的词尾对应语音数据的能量变化；具体提取时，在语音数据上找到当前词的结束位置，从该结束位置分别依次向前向后计算多帧语音数据的能量值、一阶差分、二阶差分，使用大小为m×3的矩阵表示，其中m表示向前向后及当前帧的总帧数，具体可以根据应用需求或实验结果确定，3维分别对应表示能量值、一阶差分值、二阶差分值。

7)词声调

所述词声调特征，指当前词的声调，具体提取方法与现有技术相同，每个词的声调共5种，即轻声、阴平、阳平、上声、去声，具体每个词是哪个声调可以使用数字表示，如使用0到4分别表示轻声、阴平、阳平、上声、去声。

需要说明的是，如果是以字为单位进行断句判断，则上述各声学断句特征也同样需要做适应性调整。

基于上面提取的文本断句特征及声学断句特征，构建的长时记忆断句模型的一种拓扑结构如图4所示，具体包括输入层、规整层、隐层、输出层；规整层用于对输入不同断句特征进行规整，在图4中，采用了两层规整层对输入断句特征进行规整，隐层节点之间的结构与图3所示的文本断句模型相同，隐层可以有一层或多层，图4中仅给出一层作为示例。

由于上述不同断句特征取值的动态范围差异较大，因此，在实际应用中，可以将不同的断句特征分成不同的组作为模型的输入，如图4中将上述这些断句特征分成了四组，分别为：

第一组：词间停顿时长、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词声调，使用SentDVec1表示；

第二组：词尾基频变化，使用SentDVec2表示；

第三组：词尾能量变化，使用SentDVec3表示；

第四组：文本断句特征，使用HiddenVec表示；

如图4所示，将SentDVec1直接经过规整层，得到规整后的特征Vec1，将SentDVec2和SentDVec3拼接成一个向量后，经过规整层，得到规整后的特征Vec2，特征规整方法如式(1)所示：

Veci＝f(W*sentDVeci+b) (1)

其中，Veci为规整后特征向量，sentDVeci为规整前特征向量，W和b为规整权重和规整偏置，同时也是长时记忆断句模型参数，具体取值可以根据大量数据训练得到。

分别对第一层规整层规整后得到的特征向量进行拼接，将拼接后的特征向量作为第二规整层的输入特征，得到第二规整后的特征向量SEDVec，具体规整方法与式(1)相同，在此不再赘述。

将第二层规整层规整后的特征向量SEDVec，与文本断句特征HiddenVec共同作为隐层的输入，经过隐层记忆文本中每个词的历史信息和未来信息后，将每个词对应隐层节点的输出作为输出层的输入，输出为每个词断句及不断句的概率，或为每个词是否断句的判断结果。

需要说明的是，在实际应用中，所述长时记忆断句模型也可以仅采用一层规整层的结构，当然也可以不包括规整层，而是在模型训练前，将相应的断句特征进行规整处理，对此本发明实施例不做限定。

基于上述通过预先收集少量文本数据及其对应的语音数据，构建的基于文本断句特征和声学断句特征的长时记忆断句模型，本发明实施例文本断句方法的流程如图5所示，包括以下步骤：

步骤501，预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型。

长时记忆断句模型的具体构建过程前面已有详细说明，在此不再赘述。

步骤502，在对文本断句时，获取待断句文本及其对应的语音数据。

所述语音数据可以根据应用需求录制，对录制的语音数据进行语音识别后得到对应的识别文本。

步骤503，分别根据所述待断句文本及所述待断句文本对应的语音数据提取文本断句特征和声学断句特征。

需要说明的是，在实际应用中，所述文本断句特征可以直接利用各词或字的词向量或字向量信息，也可以是从各词向量或字向量中提取的相关信息，比如前面介绍的基于文本断句模型提取的文本断句特征，即文本断句模型最后一个隐层的输出。

同样，根据文本数据对应语音数据提取的声学断句特征可以包括以下任意一种或多种：词间停顿时长、词尾基频走势、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词尾能量走势、词声调等。

步骤504，根据提取的文本断句特征、声学断句特征以及所述长时记忆断句模型，对所述待断句文本进行断句。

将待断句文本的断句特征作为长时记忆断句模型的输入特征，利用长时记忆断句模型对待断句文本进行断句，得到每个词或字对应断句及不断句的概率，如果所述断句概率大于预先设定的阈值，则在当前词或字后断句；否则在当前词或字后不断句。当然，所述长时记忆断句模型的输出结果也可以是当前词或字后是否断句的判断结果。

需要说明的是，在得到文本的断句结果后，可以将断句后的文本直接反馈给用户，也可以在相应断句处添加标记后再反馈给用户，所述断句标记如使用斜线、空格等，将该断句的文本划分开，具体标记符号本发明实施例不作限定，当然，还可以在断句处添加适合的标点后再反馈给用户，可以进一步提升用户阅读体验。

本发明实施例提供的文本断句方法，预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；在对文本断句时，分别根据待断句文本及其对应的语音数据提取文本断句特征和声学断句特征，利用提取的断句特征和预先构建的长时记忆断句模型逐词进行断句判断。由于充分利用了文本断句信息和相应的语音数据的声学断句信息，作为长时记忆断句模型的输入，从而使得可以同时记忆每个词的历史信息和未来信息，并且记忆的长度不限定，可以根据应用需求确定所述记忆长度，有效地保证了对文本断句预测的准确性。进一步地，本发明实施例的方法还可以将断句后的文本显示给用户，或将所述文本添加标点后显示给用户，提高了用户阅读文本的体验。

相应地，本发明实施例还提供一种文本断句***，如图6所示，是该***的一种结构示意图。

在该实施例中，所述***包括：

长时记忆断句模型构建模块601，用于预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；

接收模块602，用于在对文本断句时，获取待断句文本及其对应的语音数据；

文本断句特征提取模块603，用于根据所述待断句文本提取文本断句特征；

声学断句特征提取模块604，用于根据所述待断句文本对应的语音数据提取声学断句特征；

判断模块605，用于根据所述文本断句特征、声学断句特征以及所述长时记忆断句模型，对所述待断句文本进行断句。

需要说明的是，在实际应用中，所述文本断句特征可以直接利用各词的词向量或各字的字向量信息，也可以是从各词向量或字向量中提取的相关信息，比如前面介绍的基于文本断句模型提取的文本断句特征，即文本断句模型最后一个隐层的输出。

上述长时记忆断句模型构建模块601具体可以包括以下各单元：

同样，上述第一特征提取单元可以直接将所述训练数据中各词的词向量或各字的字向量信息作为该词或字的文本断句特征，也可以是从各词向量或字向量中提取相关信息作为该词或字的文本断句特征，比如，由文本断句模型构建模块预先收集大量纯文本数据，构建文本断句模型，利用所述文本断句模型提取各词或字的文本断句特征。比如，所述第一特征提取单元一种具体结构可以包括：第一分词子单元和第一提取子单元，其中，第一分词子单元用于对所述训练数据进行分词，并计算得到的各词的词向量；第一提取子单元，用于依次将所述分词子单元得到的各词的词向量输入所述文本断句模型，根据所述文本断句模型最后一个隐层的输出得到各词的文本断句特征。

所述文本断句模型构建模块可以作为本发明***的一部分，也可以是独立于本发明***的一个物理实体或逻辑单元。该文本断句模型构建模块的一种具体结构可包括以下各单元：

第二数据收集单元，用于收集大量纯文本数据；

所述文本断句模型的一种拓扑结构如图3所示，包括输入层、一个或多个隐层、及输出层，具体可以采用DNN、CNN、双向LSTM、或双向RNN等结构，对此本发明实施例不做限定。

基于上述文本断句模型，所述第一特征提取单元可以依次将各词的词向量输入该文本断句模型，根据所述文本断句模型最后一个隐层的输出得到各词的文本断句特征。

上述第二特征提取单元可以包括：对齐子单元和第二提取子单元，其中：所述对齐子单元用于将所述训练数据与其对应的语音数据进行对齐；所述第二提取子单元用于根据对齐后的训练数据及其语音数据提取声学断句特征，所述声学断句特征包括以下任意一种或多种：词间停顿时长、词尾基频走势、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词尾能量走势、词声调，各声学断句特征的定义及提取方式前面已有详细说明，在此不再赘述。

所述长时记忆断句模型的一种拓扑结构如图4所示，包括输入层、规整层、一个或多个隐层、输出层；规整层用于对输入层输入的不同断句特征进行规整；每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出。

利用所述长时记忆断句模型，上述判断模块606将待断句文本的断句特征作为长时记忆断句模型的输入特征，利用长时记忆断句模型对待断句文本进行断句，得到每个词对应断句及不断句的概率，如果所述断句概率大于预先设定的阈值，则在当前词后断句；否则在当前词后不断句。当然，所述长时记忆断句模型的输出结果也可以是当前词后是否断句的判断结果。

在本发明***另一实施例中，所述***还可进一步包括：反馈模块，用于在所述判断模块606得到待断句文本的断句结果后，将断句后的文本反馈给用户；或者在所述判断模块606得到待断句文本的断句结果后，在需要断句处添加断句标记后反馈给用户。

本发明实施例提供的文本断句***，预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；在对文本断句时，分别根据待断句文本及其对应的语音数据提取文本断句特征和声学断句特征，利用提取的断句特征和预先构建的长时记忆断句模型逐词进行断句判断。由于充分利用了文本断句信息和相应的语音数据的声学断句信息，作为长时记忆断句模型的输入，从而使得可以同时记忆每个词的历史信息和未来信息，并且记忆的长度不限定，具体可以根据应用需求确定所述记忆长度，有效地保证了对文本断句预测的准确性。进一步地，本发明实施例的***还可以将断句后的文本显示给用户，或将所述文本添加标点后显示给用户，提高了用户阅读文本的体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及***；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本断句方法，其特征在于，包括：

在对文本断句时，获取待断句文本及其对应的语音数据；

2.根据权利要求1所述的方法，其特征在于，所述收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型包括：

收集少量文本数据及其对应的语音数据；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：预先收集大量纯文本数据，构建文本断句模型，所述文本断句模型包括输入层、一个或多个隐层、及输出层；

所述根据所述训练数据提取文本断句特征包括：

对所述训练数据进行分词，并计算得到的各词的词向量；

4.根据权利要求3所述的方法，其特征在于，所述收集大量纯文本数据，构建文本断句模型包括：

收集大量纯文本数据；

对所述纯文本数据进行分词，并计算各词的词向量；

5.根据权利要求3所述的方法，其特征在于，所述文本断句模型为：双向LSTM结构、或双向RNN结构，并且每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出。

6.根据权利要求2所述的方法，其特征在于，所述根据所述训练数据对应的语音数据提取声学断句特征包括：

将所述训练数据与其对应的语音数据进行对齐；

7.根据权利要求1所述的方法，其特征在于，所述长时记忆断句模型包括输入层、规整层、一个或多个隐层、输出层；规整层用于对输入层输入的不同断句特征进行规整；每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

9.一种文本断句***，其特征在于，包括：

10.根据权利要求9所述的***，其特征在于，所述长时记忆断句模型构建模块包括：

11.根据权利要求10所述的***，其特征在于，所述***还包括：

所述第一特征提取单元包括：

12.根据权利要求11所述的***，其特征在于，所述文本断句模型构建模块包括：

第二数据收集单元，用于收集大量纯文本数据；

13.根据权利要求11所述的***，其特征在于，所述文本断句模型为：双向LSTM结构、或双向RNN结构，并且每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出。

14.根据权利要求10所述的***，其特征在于，所述第二特征提取单元包括：

15.根据权利要求9所述的***，其特征在于，所述长时记忆断句模型包括输入层、规整层、一个或多个隐层、输出层；规整层用于对输入层输入的不同断句特征进行规整；每个词的隐层节点的输入分别为当前词前一个词及后一个词隐层节点的输出以及当前词上一层的输出。

16.根据权利要求9-15任一项所述的***，其特征在于，所述***还包括：