CN112036174B

CN112036174B - 一种标点标注方法及装置

Info

Publication number: CN112036174B
Application number: CN201910407855.9A
Authority: CN
Inventors: 黄书剑; 苏一凡; 尹存燕; 戴新宇; 何亮
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2023-11-07
Anticipated expiration: 2039-05-15
Also published as: CN112036174A

Abstract

本公开涉及一种标点标注方法及装置。包括：获取语音识别得到的动态文本，所述动态文本中包括至少一个词语；依次获取所述词语，并将所述词语输入至标注模型，经所述标注模型输出所述词语的预测标点；判断所述预测标点的置信度是否不小于预设值，若所述置信度不小于所述预设值，则在所述词语之后标注所述预测标点。本公开以字或词语作为最小的处理单元，首先通过预测模型对所述字或词进行标点预测，并通过判断置信度的方式，对预测的准确性进行校准，显著的缩短了从音频中出现某个字或词到输出标注结果的时延，输出结果实时性较高，且准确性较强，不需要对标注结果进行二次修正，用户体验好。

Description

一种标点标注方法及装置

技术领域

本公开涉及自然语言处理技术领域，尤其涉及一种标点标注方法及装置。

背景技术

语音识别技术是指让机器能够自动的从音频信号中提取出文字信息的技术，是人工智能的重要组成部分。对于一个顺畅的阅读过程，标点符号在文本中是不可或缺的。因此，标点标注任务，即为语音识别文本在合适的位置添加正确类型的标点，是语音识别不可或缺的后续任务。

相关技术中，标点标注技术通常需要对一个静态的文本进行标注，所述静态文本包括：根据一定的时间间隔截取的一段文本，或根据说话者语音停顿信息进行截取的一段文本。且相关技术中，为了提高对标注结果的准确性，需要对文本进行二次标注，在获得第一段文本的标注结果后，需要利用下一段文本的内容对第一段文本进行再次标注。现有的标点标注方法对截取的一段文本进行标注，需要经历所述文本的第一个词的发音时刻到最后一个词的发音时刻之间的一段时间，才进行标注，用户需要等待一段时间后才能看到已经讲过内容的标注结果，用户体验差；且二次标注对上一次标注结果可能进行修改，使得用户需要对修改后的文本进行二次阅读，严重影响了阅读效率。

发明内容

为克服相关技术中存在的问题，本公开提供一种标点标注方法及装置。

根据本公开实施例的第一方面，提供一种标点标注方法，包括：

获取语音识别得到的动态文本，所述动态文本中包括至少一个词语；

依次获取所述词语，并将所述词语输入至标注模型，经所述标注模型输出所述词语的预测标点；

判断所述预测标点的置信度是否不小于预设值，若所述置信度不小于所述预设值，则在所述词语之后标注所述预测标点。

在一种可能的实现方式中，在所述判断所述预测标点的置信度是否不小于预设值之后，还包括：

若所述置信度小于所述预设值，则延迟对所述词语的标点标注，并根据所述词语之后至少一个位置处的词语确定所述词语的标点。

在一种可能的实现方式中，还包括设置延迟对所述词语进行标点标注的时间间隔的上限值。

在一种可能的实现方式中，在所述时间间隔大于所述上限值的情况下，在所述词语之后标注所述预测标点。

在一种可能的实现方式中，所述方法还包括获取语音信息，识别所述语音信息得到所述动态文本。

在一种可能的实现方式中，所述方法还包括显示所述词语及标注完成的所述词语对应的预测标点于显示界面上。

在一种可能的实现方式中，所述标注模型被设置为按照下述方式训练得到：

获取语句样本集，所述语句样本集中包括多个标注有标点的语句样本；

分别对多个所述语句样本进行分词处理，生成所述语句样本的多个词语样本以及多个标点样本；

构建标注模型组件，所述标注模型组件中设置有训练参数；

分别将所述多个词语样本输入至所述标注模型组件中，生成预测结果；

基于所述预测结果与所述标点样本之间的差异，对所述训练参数进行迭代调整，直至所述差异满足预设要求。

在一种可能的实现方式中，所述判断所述预测标点的置信度是否不小于预设值，包括：

采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度。

在一种可能的实现方式中，所述采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度，包括：

基于马尔可夫决策过程(MDP)，将所述词语的预测标点、所述词语之前历史输入词语的标注信息、所述词语前后位置对应词语的语义信息作为状态；

将所述预测标点的置信度作为动作；

计算当所述状态及所述动作形成的状态动作对应的奖赏值，将奖赏值满足预设条件时所对应的预测标点的置信度作为输出决策。

根据本公开实施例的第二方面，提供一种标点标注装置，包括：

第一获取模块，用于获取语音识别得到的动态文本，所述动态文本中包括至少一个词语；

预测模块，用于依次获取所述词语，并将所述词语输入至标注模型，经所述标注模型输出所述词语的预测标点；

判断模块，用于判断所述预测标点的置信度是否不小于预设值，若所述置信度不小于所述预设值，则在所述词语之后标注所述预测标点。

在一种可能的实现方式中，所述判断模块包括：判断子模块，用于若所述置信度小于所述预设值，则延迟对所述词语的标点标注，并根据所述词语之后至少一个位置处的词语确定所述词语的标点。

在一种可能的实现方式中，所述装置还包括：

设置模块，用于设置延迟对所述词语进行标点标注的时间间隔的上限值。

在一种可能的实现方式中，所述判断模块包括标注子模块，在所述时间间隔大于所述上限值的情况下，在所述词语之后标注所述预测标点。

在一种可能的实现方式中，所述装置还包括：

第二获取模块，用于获取语音信息，识别所述语音信息得到所述动态文本。

在一种可能的实现方式中，所述装置还包括：

显示模块，用于显示所述词语及标注完成的所述词语对应的预测标点于显示界面上。

在一种可能的实现方式中，所述标注模型包括：

获取子模块，用于获取语句样本集，所述语句样本集中包括多个标注有标点的语句样本；

处理子模块，用于分别对多个所述语句样本进行分词处理，生成所述语句样本的多个词语样本以及多个标点样本；

构建子模块，用于构建标注模型组件，所述标注模型组件中设置有训练参数；

生成子模块，用于分别将所述多个词语样本输入至所述标注模型组件中，生成预测结果；

调整子模块，用于基于所述预测结果与所述标点样本之间的差异，对所述训练参数进行迭代调整，直至所述差异满足预设要求。

在一种可能的实现方式中，所述判断模块包括：

训练子模块，用于采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度。

在一种可能的实现方式中，所述训练子模块包括：

第一处理单元，用于基于马尔可夫决策过程(MDP)，将所述词语的预测标点、所述词语之前历史输入词语的标注信息、所述词语前后位置对应词语的语义信息作为状态；

设置单元，将所述预测标点的置信度作为动作；

第二处理单元，用于计算当所述状态及所述动作形成的状态动作对应的奖赏值，将奖赏值满足预设条件时所对应的预测标点的置信度作为输出决策。

根据本公开实施例的第三方面，提供一种电子设备，包括：

语音输入模块，用于接收语音输入；

存储器，用于存储响应于所述语音输入而提供文本及标点内容的语音识别应用，所述语音识别应用被配置为包含权利要求1至7中任一项所述的方法；

处理器，用于执行所述语音识别应用；

显示器，用于显示所述文本及标点。

根据本公开实施例的第四方面，提供一种标点标注装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行本公开任一实施例所述的方法。

根据本公开实施例的第五方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得处理器能够执行根据本公开任一实施例所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：本公开以字或词语作为最小的处理单元，首先通过预测模型对所述字或词进行标点预测，并通过判断置信度的方式，对预测的准确性进行校准，显著的缩短了从音频中出现某个字或词到输出标注结果的时延，输出实时性较高，且准确性较强，不需要对标注结果进行二次修正，用户体验好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种标点标注方法的流程图。

图2是根据一示例性实施例示出的一种标点标注方法的流程图。

图3是根据一示例性实施例示出的一种标点标注方法的流程图。

图4是根据一示例性实施例示出的一种标点标注方法的流程图。

图5是根据一示例性实施例示出的一种预测模型训练方法的流程图。

图6是根据一示例性实施例示出的深度语言学习模型复合层的结果示意图。

图7是根据一示例性实施例示出的一种预测模型的结构示意图。

图8是根据一示例性实施例示出的一种利用强化学习的决策模型训练方法。

图9是根据一示例性实施例示出的一种标点标注装置的框图。

图10是根据一示例性实施例示出的一种标点标注装置的框图。

图11是根据一示例性实施例示出的一种标点标注装置的框图。

图12是根据一示例性实施例示出的一种标点标注装置的框图。

图13是根据一示例性实施例示出的一种标点标注装置的框图。

图14是根据一示例性实施例示出的一种标点标注装置的框图。

图15是根据一示例性实施例示出的一种标点标注装置的框图。

图16是根据一示例性实施例示出的一种电子设备的框图。

图17是根据一示例性实施例示出的标点标注应用运行在前台电子设备的示意图。

图18是根据一示例性实施例示出的一种标点标注装置的框图。

图19是根据一示例性实施例示出的一种标点标注装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了方便本领域技术人员理解本公开实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

语音识别技术的应用较为广泛，比如一些大型的会议中，受会议场地、或话筒质量的限制，演讲者的语音信息不能完全传达给听众，需要语音识别技术将演讲者的语音转化为文字听众作辅助；再比如一些活动直播，主持人的语言具有随机性，没有预先准备的文本，需要语音识别技术将直播中的对话转换成文字，供双方理解；又比如一些应用程序中，如导航或交互类的社交软件，用户通过语音实现某种操作或对话，通过语音识别技术将所述语音转化为文字，可以让用户进一步确定，程序是否准确识别了用户的语音命令；或用户不方便接听语音消息，将对方的语音转换为文字信息。

对于一个顺畅的阅读过程，标点符号所起到的作用是不可或缺的，而现有的标点标注方法：对截取的一段文本进行标注，需要经历所述文本的第一个词的发音时刻到最后一个词的发音时刻之间的一段时间，才进行标注，比如，截取到的一段文本是“今天天气晴朗适合外出”，现有的标点标注方法，需要从所述文本的第一个字“今”开始，一直读到最后一个字“出”，才开始对这段文本进行标注，可见，语音发音到最后一个字“出”时，中间部分“朗”字后面应该标注的“，”还没有出现，现有方法不能做到实时的标点输出；并且现有方法可能对标注的结果可能进行再次修正，比如，第一次标注结果是“今天天气晴朗适合外出。”，修正后的结果是“今天天气晴朗，适合外出。”致使用户对修改后的文本进行了二次阅读，用户体验较差。

基于类似于上文所述的实际技术需求，提出了一种标点标注方法及装置。所述标点标注方法，可以在语音输入后实时的呈现带有标点符号的文本内容，且标点符号的配准度较高。

下面结合附图1对本公开所述的标点标注方法进行详细的说明。图1是本公开提供的一种标点标注方法的一种实施例的方法流程图。虽然本公开提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的，本公开提供的标点标注方法一种实施例如图1所示，包括以下步骤：

在步骤S11中，获取语音识别得到的动态文本，所述动态文本中包括至少一个词语；

在步骤S12中，依次获取所述词语，并将所述词语输入至标注模型，经所述标注模型输出所述词语的预测标点；

在步骤S13中，判断所述预测标点的置信度是否不小于预设值，若所述置信度不小于所述预设值，则在所述词语之后标注所述预测标点。

本公开实施例中，对所述文本的语种类型不做限制，所述文本可以是中文文本、也可以是英文文本、法文文本等。所述文本是一种随语音的变化而变化的动态文本，经语音识别后，以单个词语或单个字作为最小的处理单元，存储于缓冲区中。所述单个字或单个词语的选择依据是：模型训练的数据素材不同，比如当以“字”作为最小单元进行模型训练时，所述语音信息包括“今天天气晴朗适合外出”，语音识别出第一个字“今”时，将所述“今”输入至标注模型，所述标注模型开始对文本“今”进行标点预测；当以“词语”作为最小单元进行模型训练时，上述实施例中，语音识别出第一个词语“今天”，将所述“今天”输入至标注模型，所述标注模型开始对文本“今天”进行标点预测。

本公开实施例中，在所述语音识别后的文本中，按照所述词语出现的先后顺序，输入至预先建立的标注模型中，所述标注输出所述词语对应的某一类型的标点，即预测标点。所述标点类型包括逗号、句号、感叹号、疑问号等，另外，没有标点也是一种标点类型。进一步的，对所述预测标点的置信度，即所述词语与所述标点的匹配概率，进行判断，如果所述预测标点的置信度不小于预先设置的预设值，则在所述词语之后标注所述预测标点。

在一种可能的实现方式中，可以根据判断后的输出决策设置所述预设值，如，当所述判断后的输出决策只有标注并输出所述预测标点，和不标注且不输出所述预测标点两种情况时，所述预设值可以设置如0.5。在一个示例中，通过语音识别后的动态文本包括“今天天气晴朗适合……”，所述标注模型依次获取所述字，如“今”、“天”、“天”，并对第一个字“今”做出“没有标点”的预测，设所述预设值为0.5，对所述“今”后不加标点的概率进行判断，若所述概率不小于0.5，则判断为可靠信息，并输出结果：输出“今”，且“今”后不添加标点；所述标注模型对第二个字“天”的预测标点是“逗号”，判断“天”后面添加“逗号”的概率是否不小于0.5，若所述概率不小于0.5，则判断为可靠信息，并输出结果：输出“天”，且“天”字后面添加逗号；接着，标注模型对第三个字“天”进行标点预测。

本公开以字或词语作为最小的处理单元，首先通过预测模型对所述字或词进行标点预测，并通过判断置信度的方式，对预测的准确性进行校准，显著的缩短了从音频中出现某个字或词到输出标注结果的时延，输出结果实时性较高，且准确性较强，不需要对标注结果进行二次修正，用户体验好。

下面结合附图2对本公开所述的标点标注方法进行详细的说明。图2是本公开提供的一种标点标注方法的一种实施例的方法流程图。虽然本公开提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的，本公开提供的标点标注方法一种实施例如图2所示，在所述判断所述预测标点的置信度是否不小于预设值之后，包括以下步骤：

在步骤S14中，若所述置信度小于所述预设值，则延迟对所述词语的标点标注，并根据所述词语之后至少一个位置处的词语确定所述词语的标点。

本公开实施例中，如果所述预测标点的置信度小于预先设置的预设值，则延迟对所述词语的标点标注，等待所述词语之后位置处的词语输入进来后，预测模型根据所述词语以及所述词语之后位置处的词语，对所述词语的预测标点进行重新预测。在一个示例中，通过语音识别后的动态文本包括“今天天气晴朗适合……”，所述标注模型依次获取所述字，如“今”、“天”、“天”，并对第一个字“今”做出“没有标点”的预测，设所述预设值为0.5，对所述“没有标点”的置信度进行判断，即对所述“今”后不加标点的概率进行判断，如所述概率不小于0.5，则判断为可靠信息，并输出结果：输出“今”，且“今”后不添加标点；接着，所述标注模型对第二个字“天”的预测标点是“逗号”，判断“天”后面添加“逗号”的概率是否不小于0.5，如所述概率小于0.5，则判断为不可靠信息，不输出预测标点，等待所述第二个字“天”后面字的输入；接着，所述标注模型对获取到第三个字“天”，并根据第三个字“天”，对第二个字“天”和第三个字“天”同时做出“没有标点”的预测，对第二个字“天”后不加标点和第三个字“天”后不加标点的置信度进行判断，如所述第二个字“天”后不加标点和第三个字“天”后不加标点的置信度均不小于0.5，则判断为可靠信息，输出结果：“今天天”，两个“天”字后面都没有标点符号。

本公开实施例通过对预测标点进行置信度判断，当所述词语与所述预测标点匹配概率值较大时，给出输出所述词语和所述预测标点的指令；当所述词语与所述预测标点匹配概率值较小时，延迟对所述词语和所述预测标点的输出，等待更多内容的输入后，再对所述词语进行标点预测，可以提高预测的精准度，输出结果较为可靠。

下面结合附图3对本公开所述的标点标注方法进行详细的说明。图3是本公开提供的一种标点标注方法的一种实施例的方法流程图。虽然本公开提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的，本公开提供的标点标注方法一种实施例如图3所示，所述方法还包括以下步骤：

在步骤S15中，设置延迟对所述词语进行标点标注的时间间隔的上限值。

本公开实施例中，若所述置信度小于所述预设值，则延迟对所述词语的标点标注，并根据所述词语之后至少一个位置处的词语确定所述词语的标点，在延迟对所述词语的标点标注中，如等待后续输入词的数量较多抑或者等待时间过长，则会影响整体的实时性，因此，有必要对延迟标注的时间间隔设置上限值。在一种可能的实现方式中，可以从时间维度进行限制，如设置所述上限值为5秒，则意味着判断所述词语的预测标点，最多可以以所述词语为起始时刻，经5秒内后续输入词语作为预测模型的输入数据；在另一种可能的实现方式中，还可以从词语数量维度进行限制，如设置所述上限值为5个词语，则意味着，判断所述词语的预测标点，最多可以以所述词语后续5个位置对应的词语作为预测模型的输入数据。

本公开实施例通过限制所述词语进行标点标注的时间时间间隔，在一定程度上避免***为了达到极高的准确度而忽略了延迟时间造成的影响，有利于保证输出结果的及时性以及用户的良好体验。

下面结合附图4对本公开所述的标点标注方法进行详细的说明。图4是本公开提供的一种标点标注方法的一种实施例的方法流程图。虽然本公开提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的，本公开提供的标点标注方法一种实施例如图4所示，所述方法还包括以下步骤：

在步骤S16中，在所述时间间隔大于所述上限值的情况下，在所述词语之后标注所述预测标点。

本公开实施例中，若所述置信度小于所述预设值，则延迟对所述词语的标点标注，若延迟的时间间隔较长，甚至大于所述上限值时，需要在所述词语的多个预测标点中选择一个作为输出，优选最后一次做出的预测标点作为输出标点。在一个示例中，通过语音识别后的动态文本包括“今天天气晴朗适合……”，所述标注模型依次获取所述字，如“今”、“天”、“天”，预测模型对当前字“今”，给出的预测标点是“逗号”，对所述“今”后面加“逗号”的置信度进行判断，得出不可靠的判断；因此，需要输入后面的“天”，预测模型继续对“今”进行标点预测，给出的预测标点是“问号”，对所述“今”后面加“问号”的置信度进行判断，得出不可靠的判断；因此需要输入再后面的“天”，并继续对“今”进行标点预测……。若设置的时间间隔上限值是5个字，那么，判断当前字“今”的预测标点最多依据其后面五个字：“天”、“天”、“气”、“朗”、“适”，预测模型继续输入“天”、“天”、“气”、“朗”、“适”，给出所述“今”的预测标点是“没有标点”的标点类型，判断“今”字后面不加标点的置信度仍然是不可靠，此时，以最后一次的预测标点作为输出结果，即输出“今”，今字后面没有加标点。

本公开实施例考虑到了在所述时间间隔大于所述上限值情况下，预测模型仍然没有做出可靠预测结果的情况下，可选择最后一次做出的预测标点作为输出结果，这是因为，最后一次的预测标点利用了更多的所述词语之后位置对应词语的信息，且最有可能接近正确的预测标点，本公开实施例能够满足实时性要求的同时最大程度的保证预测的准确度。

在一种可能的实现方式中，所述标点标注方法还包括步骤S17：

在步骤S17中，获取语音信息，识别所述语音信息得到所述动态文本。

本公开实施例中，所述语音信息可以包括实时的语音信息，如会议现场中演讲者的发言、活动直播中，主持人的评述抑或是正在进行的语音交互活动，也可以包括收集好的语音文本，如一段录音、视频文件或语音文件。可以采用现有或未来出现的任意一种语音识别方法，将所述语音信息转换成文本信息。不论是实时的语音还是已录制好的语音，识别后的词语序列输入至动态缓冲区中，供标注模型中进行标点预测，预测的实时性强。

在一种可能的实现方式中，所述标点标注方法还包括步骤S18:

在步骤S18中，显示所述词语及标注完成的所述词语对应的预测标点于显示界面上。

本公开实施例中，标注模型对输入的动态文本词语，依次预测所述词语对应的预测标点，若所述预测标点满足置信度条件设置时，则将所述词语，以及所述词语对应的预测标点同时显示在显示界面上，预测标点和文本词语同时出现在显示界面上，避免了现有技术中，语音输入后，较长时间文字显示等待，或标点滞后于文字内容、或二次标注产生的二次阅读，因此，本公开实施例标点预测的实时性高，给用户更好的阅读体验。

下面结合附图5和图7对本公开所述的预测模型的训练方法进行详细的说明。图5是本公开提供的预测模型训练方法的一种实施例的方法流程图。图7是本公开提供的预测模型的结构示意图，虽然本公开提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的，本公开提供的标点标注方法预测模型的训练方法一种实施例如图5所示，所述方法包括以下步骤：

在步骤S21中，获取语句样本集，所述语句样本集中包括多个标注有标点的语句样本；

在步骤S22中，分别对多个所述语句样本进行分词处理，生成所述语句样本的多个词语样本以及多个标点样本；

在步骤S23中，构建标注模型组件，所述标注模型组件中设置有训练参数；

在步骤S24中，分别将所述多个词语样本输入至所述标注模型组件中，生成预测结果；

在步骤S25中，基于所述预测结果与所述标点样本之间的差异，对所述训练参数进行迭代调整，直至所述差异满足预设要求。

本公开实施例中，所述语句样本集可以从已有的数据集或网络中获取，所述语句样本集中包括多个标注有标点的单语语句样本，对所述语句样本进行断句、分词，得到了所述语句样本的多个词语样本以及标点样本，所述词语样本用于模型训练，所述标点样本用于检验模型效果。如对获取的语句样本集进行断句、分词处理后的文本是“我们今天很难想象昔日的登山先驱们是多么辛苦。除了泽曼特和夏蒙尼等一两个很快”，得到所述词语样本：“我们今天很难想象昔日的登山先驱们是多么辛苦除了泽曼特和夏蒙尼等一两个很快”，和标点样本：“____________________。______________”。这里用下划线“_”表示“没有标点”的标点类型。

本公开实施例中，所述标注模型组件可以包括：语言模型组件、循环神经网络组件、注意力机制组件、后期融合机制组件。具体的，可采用如下步骤进行参数训练：

获取所述词语样本，如“我们”、“今天”、“很难”、“想象”；

根据所述预先建立的词表，将所述词语样本转化为对应的词向量{v₁，v₂，...，v_T}，其中，下标T表示输入的词语样本中词语的数量，当所述词语的位置与标注时刻一一对应时，下标T又表示T时刻的词语样本，这里的词向量包含了所述词语的词义信息和位置信息，所述词义信息指的是所述词语的语义，且该语义能够使整个句子最为通顺；

利用语言模型组件对所述词向量进行编码，获得所述词语样本的编码向量表示{h₁，h₂，...，h_T}，其中h_T中包含了当前词语与历史输入词语，即v₁，v₂，...，v_T的所有语义信息，所述语言模型可以利用，但不限于预训练的深度语言模型GPT2，所述GPT2包含包含12层复合层。复合层的结构参考图6所示，每层复合网络包含两个标准化层，一个自注意力层和一个前馈层。其中两个标准化层各768维；自注意力层中注意力头的数量为12个，输入为768维，上下文为1024维；

利用循环神经网络组件对所述编码向量进行处理，获得所述词语样本的标注状态信息{s₁，s₂，...，s_T}，将所述词语样本的编码向量{h₁，h₂，...，h_T}输入至循环神经网络组件，所述循环神经网络组件，如循环神经网络模型RNN(Recurrent Neural Network)、时间循环神经网络模型LSTM(Long Short-Term Memory)、门控循环神经网络模型GRU(GatedRecurrent Unit)、简单循环神经网络模型SRU(Simple Recurrent Units)，得到所述词语样本的标注状态信息{s₁，s₂，...，s_T}，其中标注状态信息s_T包含了当前词语与历史输入词语的标点标注状态信息；

利用注意力机制组件获得所述词语的相关信息{a₁，a₂，...，a_T}，所述相关信息a_t中包含历史输入词语或者将来输入词语中对当前词语最有预测价值的信息，注意力机制的输入是编码向量{h₁，h₂，...，h_T}和标注状态信息{s₁，s₂，...，s_T}，输出是{a₁，a₂，...，a_T}，例如，输入词语文本是“今天天气晴朗”，对应的编码向量是{h₁，h₂，h₃}和标注状态向量{s₁，s₂，s₃}，注意力机制输入的是{h₁，h₂，h₃}和{s₁，s₂，s₃}，输出的是{a₁，a₂，a₃}，在输出a₂的时候也会利用h₃的信息，即，相关信息a₂中包含历史输入词语h₁或者将来输入词语h₃中对当前词语最有预测价值的信息；

利用后期融合机制组件，根据标注状态信息和相关信息的权重，融合所述词语的标注状态信息s_t和相关信息a_t获得z_t，利用Softmax函数，根据预设的标点符号对应的向量、和z_t计算标注概率p_t，其中，标注概率p_t指的是，标点符号向量中与当前词语匹配概率，选择概率最大的作为当前词语的预测标点，基于所述预测标点与所述标点样本之间的差异，利用极大似然估计算法对上述训练参数进行迭代调整，直至所述差异满足预设要求。

采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度。在一个示例中，通过利用强化学习的决策模型，根据输入内容对当前可能输出的结果进行打分，若满足要求则进行输出，否则等待后续内容输入再进行预测输出。

下面结合附图8对本公开所述的强化学习的决策模型训练方法进行详细的说明。图8是本公开提供的强化学习决策模型的训练方法的一种实施例的方法流程图。虽然本公开提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的，本公开提供的标点标注方法强化学习的决策模型训练方法一种实施例如图8所示，所述方法包括以下步骤：

在步骤S31中，基于马尔可夫决策过程(MDP)，将所述词语的预测标点、所述词语之前历史输入词语的标注信息、所述词语前后位置对应词语的语义信息作为状态；

在步骤S32中，将所述预测标点的置信度作为动作；

在步骤S33中，计算当所述状态及所述动作形成的状态动作对应的奖赏值，将奖赏值满足预设条件时所对应的预测标点的置信度作为输出决策。

本公开实施例中，基于马尔可夫决策过程(MDP)，将所述词语的预测标点，用向量表示为{w₁，w₂，...，w_T}，所述词语之前历史输入词语的标注信息{s₁，s₂，...，s_T}，所述词语前后位置对应词语的语义信息{a₁，a₂，...，a_T}，三者进行拼接，得到观测变量{o₁，o₂，...，o_T}，利用循环神经网络模型，所述循环神经网络模型包括RNN、LSTM、GRU、SRU中的一种，输入观测变量{o₁，o₂，...，o_T}，输入观测变量o_t，获得决策模型的状态

本公开实施例中，可以利用Softmax函数对状态计算输出概率/>根据概率分布采样输出决策。所述输出概率/>即所述预测标点的置信度，表示了所述预测标点与所述词语匹配正确的可能性。在训练的过程中，对同一位置或同一时刻的词语对应的预测标点进行多次采样，在更新的时候，使用多次采样的均值去更新，即多次采样求均值计算输出概率，例如，输出概率/>表示，对当前位置的词语，输入对应的预测标点10，有8次表示预测正确，2次表示预测不正确。

本公开实施例中，奖赏值包括标注质量和标注时延两个方面，所述标注质量即预测标点的准确度，根据所述输出概率计算每个时刻或每个位置的所述词语的奖赏值{R₁，R₂，...，R_t}，其中R_t采用公式(1)进行计算，标注质量作为奖励/>表达式为式(2)，标注时延表达式为式(3)。

/>

其中，T表示输入的语句样本中最后一个词语对应的预测时刻，t＜T是指除了最后一次预测之前所有执行预测的时刻，Y表示预测值，Y^*表示真实值在式(2)中，ACC(Y，Y^*)表示准确率(accuracy)函数，如果执行了一次标注，而且标注出来的结果是对的，那么对这句话而言，它的准确率就会上涨，ΔACC(Y，Y^*)表示的是每次执行标注会带来多少准确率的提升，也就是当前的准确率减去上次标注的时候的准确率，ACC(Y，Y^*)是整个序列的准确率。在式(3)中，w_t表示当前词语延迟标注的时间间隔，w^*表示延迟标注时间间隔的上限值，READ表示输入词语，WRITE表示输出词语。

本公开实施例中，计算当所述状态及所述动作形成的状态动作对应的奖赏值，将奖赏值满足预设条件时所对应的预测标点的置信度作为输出决策包括：利用基线模型根据观测变量{o₁，o₂，...，o_T}，获得预测均值b_t；利用平方误误差对基线模型进行参数优化，利用预测均值b_t对预期奖励期望R_t进行修正并归一化，得到其中，所述基线模型可以使用但不局限于单隐层的前馈网络；计算整个标注序列的奖励期望/>利用策略梯度方法对决策模型进行求导和参数优化。

在一种可能的实现方式中，为了训练标注模型每个位置读多少词才能进行标注，利用决策模型生成的动作序列，对通用标注模型进行再训练。这样可以提高标注模型预测的准确性，因为决策模型产生了很多短小的语句，在标注模型一开始输入的训练集是没有的。比如原始训练集的语句样本：“今天天气晴朗适合”，标点样本：“_____，__”。决策模型生成多个不同长度的新的训练集，语句样本如：“今”，“今天天”，“今天天气晴”，“今天天气晴朗适合”；标点样本如：“_”，“___”，“____”，“_____，__”。

图9是根据一示例性实施例示出的一种标点标注装置框图。参照图8，该装置包括第一获取模块11，预测模块12和判断模块13。

第一获取模块11，用于获取语音识别得到的动态文本，所述动态文本中包括至少一个词语；

预测模块12，用于依次获取所述词语，并将所述词语输入至标注模型，经所述标注模型输出所述词语的预测标点；

判断模块13，用于判断所述预测标点的置信度是否不小于预设值，若所述置信度不小于所述预设值，则在所述词语之后标注所述预测标点。

图10是根据一示例性实施例示出的一种标点标注装置的框图。参考图10，所述判断模块13包括：

判断子模块131，用于若所述置信度小于所述预设值，则延迟对所述词语的标点标注，并根据所述词语之后至少一个位置处的词语确定所述词语的标点。

图11是根据一示例性实施例示出的一种标点标注装置的框图。参考图11，所述装置还包括：

设置模块14，用于设置延迟对所述词语进行标点标注的时间间隔的上限值。

图12是根据一示例性实施例示出的一种标点标注装置的框图。参考图12，所述判断模块13包括：

标注子模块132，用于在所述时间间隔大于所述上限值的情况下，在所述词语之后标注所述预测标点。

在一种可能的实现方式中，所述标点标注装置还包括：

第二获取模块15，用于获取语音信息，识别所述语音信息得到所述动态文本。

在一种可能的实现方式中，所述标点标注装置还包括：

显示模块16，用于显示所述词语及标注完成的所述词语对应的预测标点于显示界面上。

图13是根据一示例性实施例示出的标注模型的框图。参考图13，所述标注模型包括：

获取子模块21，用于获取语句样本集，所述语句样本集中包括多个标注有标点的语句样本；

处理子模块22，用于分别对多个所述语句样本进行分词处理，生成所述语句样本的多个词语样本以及多个标点样本；

构建子模块23，用于构建标注模型组件，所述标注模型组件中设置有训练参数；

生成子模块24，用于分别将所述多个词语样本输入至所述标注模型组件中，生成预测结果；

调整子模块25，用于基于所述预测结果与所述标点样本之间的差异，对所述训练参数进行迭代调整，直至所述差异满足预设要求。

图14是根据一示例性实施例示出的一种标点标注装置的框图。参考图14，所述判断模块13包括：

训练子模块133，用于采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度。

图15是根据一示例性实施例示出的一种标点标注装置的框图。参考图15，所述训练子模块133包括：

设置单元，将所述预测标点的置信度作为动作；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图16是根据一示例性实施例示出的一种电子设备的框图。参照图16，一种电子设备100，包括：

语音输入模块31，用于接收语音输入；

存储器32，用于存储响应于所述语音输入而提供文本及标点内容的语音识别应用，所述语音识别应用被配置为包含本公开任一实施例所述的方法；

处理器33，用于执行所述语音识别应用；

显示器34，用于显示所述文本及标点。

本公开实施例中，电子设备100可以包括智能电话机、平板个人计算机、移动电话机、视频电话机、电子书籍阅读器、桌面PC、膝上PC、上网本计算机、工作站、服务器、个人数字助力(PDA)、便携多媒体播放器(PMP)、音频层3(MP3)播放器、移动医疗设备、相机、或可穿戴设备中的至少一个。其中，可穿戴设备可以包括首饰型(例如，手表、戒指、手镯、脚镯、项链、眼镜、隐形眼镜、或头戴式设备(HDM))、织物或衣物型(如，电子服装)、物理附件型(如，皮肤垫或纹身)、或身体植入性(如，可植入电路)中的至少一个，电子设备100可以是上述设备之一或其组合，根据实施例的电子设备100可以不限于上述电子设备，且可以包括其他电子设备和根据技术的发展的新电子设备。

本公开实施例中，所述语音输入模块31、存储器32、处理器33和显示器34，可以通过总线35进行连接。所述总线35包括用于在上述组件之间传达通信(如控制消息和/或数据)的电路。所述处理器33可以包括中央处理单元(CPU)、应用处理器(AP)、或通信处理器(CP)中的一个或多个，所述处理器33可以执行存储在所述存储器32中的语音识别应用，并可以基于语音识别应用将语音输入转换为对应的文本及标点内容，所述文本及标点内容通过显示器34显示出来。

图17是根据一示例性实施例示出的标点标注应用运行在前台电子设备的示意图。参考图17，根据本公开实施例，用户向所述电子设备100提供动态的语音文本之前，可以选择(如触摸)所述电子设备100屏幕(即显示器34)上所示的麦克风的形状对象，使得语音识别应用被唤醒，所述语音识别应用自动识别用户输入的语音文本，将其转换成动态文本，并根据本公开任一实施例所述的标点标注方法，为所述动态文本标注标点，输出显示到所述电子设备100的屏幕上。

图18是根据一示例性实施例示出的一种标点标注装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图18，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图19是根据一示例性实施例示出的一种标点标注装置1900的框图。例如，装置1900可以被提供为一服务器。参照图19，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作***，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由装置1900的处理组件1922执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种标点标注方法，其特征在于，包括：

判断所述预测标点的置信度是否不小于预设值，若所述置信度不小于所述预设值，则在所述词语之后标注所述预测标点；

其中，在所述判断所述预测标点的置信度是否不小于预设值之后，还包括：若所述置信度小于所述预设值，则延迟对所述词语的标点标注，并根据所述词语之后至少一个位置处的词语确定所述词语的标点；

其中，所述方法还包括：设置延迟对所述词语进行标点标注的时间间隔的上限值；

其中，所述方法还包括：在所述时间间隔大于所述上限值的情况下，在所述词语之后标注所述预测标点；

其中，所述判断所述预测标点的置信度是否不小于预设值，包括：采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度；

其中，所述采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度，包括：基于马尔可夫决策过程（MDP），将所述词语的预测标点、所述词语之前历史输入词语的标注信息、所述词语前后位置对应词语的语义信息作为状态；将所述预测标点的置信度作为动作；计算当所述状态及所述动作形成的状态动作对应的奖赏值，将奖赏值满足预设条件时所对应的预测标点的置信度作为输出决策。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取语音信息，识别所述语音信息得到所述动态文本。

3.根据权利要求1所述的方法，其特征在于，还包括：

显示所述词语及标注完成的所述词语对应的预测标点于显示界面上。

4.根据权利要求1所述的方法，其特征在于，所述标注模型被设置为按照下述方式训练得到：

构建标注模型组件，所述标注模型组件中设置有训练参数；

5.一种标点标注装置，其特征在于，包括：

判断模块，用于判断所述预测标点的置信度是否不小于预设值，若所述置信度不小于所述预设值，则在所述词语之后标注所述预测标点；

其中，所述判断模块包括：判断子模块，用于若所述置信度小于所述预设值，则延迟对所述词语的标点标注，并根据所述词语之后至少一个位置处的词语确定所述词语的标点；

其中，所述装置还包括：设置模块，用于设置延迟对所述词语进行标点标注的时间间隔的上限值；

其中，所述判断模块还包括标注子模块，用于在所述时间间隔大于所述上限值的情况下，在所述词语之后标注所述预测标点；

其中，所述判断模块还包括：训练子模块，用于采用强化学习的方法，对所述预测标点的置信度大小进行学习处理，得到所述预测标点的置信度；

其中，所述训练子模块包括：第一处理单元，用于基于马尔可夫决策过程（MDP），将所述词语的预测标点、所述词语之前历史输入词语的标注信息、所述词语前后位置对应词语的语义信息作为状态；设置单元，将所述预测标点的置信度作为动作；第二处理单元，用于计算当所述状态及所述动作形成的状态动作对应的奖赏值，将奖赏值满足预设条件时所对应的预测标点的置信度作为输出决策。

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求5所述的装置，其特征在于，还包括：

8.根据权利要求5所述的装置，其特征在于，所述标注模型包括：

9.一种电子设备，其特征在于，包括：

语音输入模块，用于接收语音输入；

存储器，用于存储响应于所述语音输入而提供文本及标点内容的语音识别应用，所述语音识别应用被配置为包含权利要求1至4中任一项所述的方法；

处理器，用于执行所述语音识别应用；

显示器，用于显示所述文本及标点。

10.一种标点标注装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至4中任一项所述的方法。

11.一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得处理器能够执行根据权利要求1至4中任一项所述的方法。