CN108733649A

CN108733649A - 一种语音识别文本笔录文档的方法、装置及

Info

Publication number: CN108733649A
Application number: CN201810377108.0A
Authority: CN
Inventors: 卢闪明; 张亚鹏; 李行; 单衍景
Original assignee: BEIJING HUAXIA DIANTONG TECHNOLOGY Co Ltd
Current assignee: BEIJING HUAXIA DIANTONG TECHNOLOGY Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-11-02
Anticipated expiration: 2038-04-25
Also published as: CN108733649B

Abstract

本申请实施方式公开了一种语音识别文本***笔录文档的方法、装置及***，其中，语音识别文本***笔录文档的方法包括:接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置。本方案中识别服务器返回的文本识别内容不管是否确认，均及时***笔录文档中，既解决了不同发言人语言习惯等无法统一矫正的问题又保证了由于网络或服务器自身问题导致的识别文本确认速度低进而导致文本识别内容***笔录文档慢的问题，大大增加用户体验感。

Description

一种语音识别文本***笔录文档的方法、装置及***

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音识别文本***笔录文档的方法、装置及***。

背景技术

随着语音识别技术的发展，在各行各业中语音识别技术得到越来越广泛应用。例如：在法庭庭审或会议过程中，如果可以将语音识别技术应用在庭审或会议当中，将声音转换为文字同时将文字实时分角色***笔录文档，这样将大大减轻庭审或会议记录人员的工作量，并且避免出现漏记错记的问题甚至完全替代记录人员的工作节省人力。

在语音识别过程中，识别服务器获得当前某个角色发言的音频流，通过对该音频流的重复多次切片并结合上下文的语境、语义进行分析，逐次生成针对当前音频流的识别文本。如果文本识别信息中的文本识别内容不能被确认，则识别服务器会反复对当前音频流进行识别处理，直至当前音频流的文本识别信息中的文本识别内容被确认，文本识别内容才被***至笔录文档中。在识别过程中，如果发言者的语速过快且发言停顿时间较短均会导致识别服务器自动断句计算出现误差(将发言者的两句发言对应的音频流视为一句进行处理)，由于识别服务器针对当前音频流进行比对分析次数增加进而获取最终确认状态识别文本时间增加，最终导致用户体验感差。

发明内容

本申请实施方式的目的是提供一种语音识别文本***笔录文档的方法、装置及***，解决现有的***笔录文档体验感差的技术问题。

为实现上述目的，本申请实施方式提供一种语音识别文本***笔录文档的方法，包括:

接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；

根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置。

优选地，所述根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置的步骤包括：

所述当前文本识别信息中的文本识别状态标识为非确认标识，且上一文本识别信息中的文本识别标识为非确定标识，则根据上一文本识别信息中的文本长度和文本识别内容与当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置；

所述当前文本识别信息中的文本识别状态标识为非确认标识，且上一文本识别信息中的文本识别标识为确认标识，则将当前文本识别信息的文本识别内容***笔录文档的相应位置；

所述当前文本识别信息中的文本识别状态标识为确认标识，且上一文本识别信息中的文本识别标识为非确认标识，则根据上一文本识别信息中的文本长度和文本识别内容与当前文本识别信息中的文本长度和文本识别内容将当前文本信息的文本识别内容***笔录文档的相应位置；

所述当前文本识别信息中的文本识别状态标识为确认标识，且上一文本识别信息中的文本识别标识为确认标识，则将当前文本识别信息的文本识别内容***笔录文档的相应位置。

优选地，根据上一文本识别信息中的文本长度和文本识别内容与当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

将当前文本识别信息的文本识别内容中从起始位置开始至与上一文本识别信息中的文本长度相同的位置的内容与上一文本识别信息中的文本识别内容进行比较，如果比较结果相同，则将当前文本识别信息的文本识别内容中除去从起始位置开始至与上一文本识别信息中的文本长度相同的位置的内容，把剩余内容***笔录文档中上一文本识别信息的文本识别内容的后面；如果比较结果不相同，删除上一文本识别信息的文本识别内容，将当前文本识别信息的文本识别内容***至笔录文档的上一文本识别信息的文本识别内容的位置。

优选地，将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

所述上一文本识别信息中的文本识别标识为非确定标识，所述当前文本识别信息中的文本识别状态标识为非确认标识，则通过上一文本识别信息中的文本识别内容***时使用的书签获得当前文本识别信息中的文本识别内容的***位置，将所述当前文本识别信息中的文本识别内容***到相应位置处，并更新所述书签的包含范围；

所述上一文本识别信息中的文本识别标识为确认标识，则通过定位函数获取当前文本识别信息中的文本识别内容的***位置，将所述当前文本识别信息中的文本识别内容***到相应位置处，清除上一文本识别信息中的文本识别内容***时使用的书签包含文本内容的底纹效果，并重新创建对应的书签，所述书签包含当前文本识别信息中的文本识别内容的位置区域。

为实现上述目的，本申请实施方式还提供一种语音识别文本***笔录文档的方法，包括:

接收音频流；

将所述音频流进行切分，获得音频子流；

根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流；

对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；

将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

优选地，确定当前需要识别的目标音频子流的步骤包括：

如果上一文本识别信息中的文本识别状态标识为非确认标识，则当前需要识别的目标音频子流为上一文本识别信息对应的音频子流；

如果上一文本识别信息中的文本识别状态标识为确认标识，则当前需要识别的目标音频子流为下一音频子流。

为实现上述目的，本申请实施方式提供一种语音识别文本***笔录文档的装置，包括:

接收单元，用于接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；

***笔录单元，用于根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置。

优选地，所述***笔录单元包括：

第一***笔录模块，用于所述当前文本识别信息中的文本识别状态标识为非确认标识，且上一文本识别信息中的文本识别标识为非确定标识，则根据上一文本识别信息中的文本长度和文本识别内容与当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置；

第二***笔录模块，用于所述当前文本识别信息中的文本识别状态标识为非确认标识，且上一文本识别信息中的文本识别标识为确认标识，则将当前文本识别信息的文本识别内容***笔录文档的相应位置；

第三***笔录模块，用于所述当前文本识别信息中的文本识别状态标识为确认标识，且上一文本识别信息中的文本识别标识为非确认标识，则根据上一文本识别信息中的文本长度和文本识别内容与当前文本识别信息中的文本长度和文本识别内容将当前文本信息的文本识别内容***笔录文档的相应位置；

第四***笔录模块，用于所述当前文本识别信息中的文本识别状态标识为确认标识，且上一文本识别信息中的文本识别标识为确认标识，则将当前文本识别信息的文本识别内容***笔录文档的相应位置。

为实现上述目的，本申请实施方式还提供一种语音识别文本***笔录文档的装置，包括:

接收单元，用于接收音频流；

切分单元，用于将所述音频流进行切分，获得音频子流；

目标音频子流确认单元，用于根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流；

识别单元，用于对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；

发送单元，用于将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

优选地，所述目标音频子流确认单元包括：

第一确认模块，用于如果上一文本识别信息中的文本识别状态标识为非确认标识，则当前需要识别的目标音频子流为上一文本识别信息对应的音频子流；

第二确认模块，用于如果上一文本识别信息中的文本识别状态标识为确认标识，则当前需要识别的目标音频子流为下一音频子流。

由上可见，由于发言人各人发言习惯、网络及识别服务器配置及只有在识别确认情况下返回文本识别内容而导致识别文本返回过慢用户体验感差。基于此，提出本方案，识别服务器返回的文本识别内容不管是否确认，均及时***笔录文档中，既解决了不同发言人语言习惯等无法统一矫正的问题又保证了由于网络或服务器自身问题导致的识别文本确认速度低进而导致文本识别内容***笔录文档慢的问题，大大增加用户体验感。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提出的一种语音识别文本***笔录文档的***示意图；

图2为本申请实施例提出的一种语音识别文本***笔录文档的方法流程图之一；

图3为本申请实施例提出的一种语音识别文本***笔录文档的方法流程图之二；

图4为本申请实施例提出的一种语音识别文本***笔录文档的装置功能框图之一；

图5为本申请实施例提出的一种语音识别文本***笔录文档的装置功能框图之二；

图6为本申请实施例提出的一种电子设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

如图1所示，为本申请实施例提出的一种语音识别文本***笔录文档的***示意图。包括：***笔录终端和语音识别服务器。其中，语音识别服务器从语音采集器上获取音频流，对音频流经过噪音处理之后，切分为多个音频子流。语音识别服务器对每个音频子流进行识别处理，将识别处理的结果构建成文本识别信息，不管音频子流的识别内容是否确认，语音服务器将文本识别信息发送至***笔录终端。如果当前识别的音频子流的识别内容被确认，则语音识别服务器就可以进行下一音频子流的识别工作。如果当前识别的音频子流的识别内容处于非确认状态，则语音识别服务器继续对当前音频子流进行识别工作。只不过不管音频子流的识别内容是非确认状态还是确认状态，语音识别服务器均将文本识别信息返回至***笔录终端。***笔录终端根据文本识别状态将语音识别服务器返回的文本识别信息中的文本识别内容***至笔录文档的相应位置。

本技术方案应用于在同一时刻仅一个角色发言的应用场景。在本技术方案中，***笔录文档创建存储单元，将识别服务器返回的文本识别信息存储至存储单元中。该存储单元存储语音内容、识别状态标识等信息，每次接收到实时识别文本时，***笔录终端通过存储单元中的识别状态标识计算获取文本***位置，实现单角色发言的识别文本内容***笔录文档的相应位置。

在本技术方案中，识别内容的非确认状态的意思为：语音识别服务器对获取到的音频流进行切片分析等识别操作过程中生成的文本识别内容，该文本识别内容是当前音频子流识别生成最终文本的一部分，且文本识别内容中存个别字段需要通过再次识别处理进行矫正修改。识别内容的确认状态的意思为：识别服务器对获取到的音频流进行切片分析等识别操作过程中生的文本识别内容，该文本识别内容通过结合上下文语义分析最终确认无需再次进行识别操作的文本。

基于上述描述，本申请实施例提出一种语音识别文本***笔录文档的方法，如图2所示。对于本技术方案来说，应用于***笔录终端，具体地，所述***笔录终端例如可以是具备数据处理功能的台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机等。或者，所述客户端也可以为能够运行于上述电子设备中的软件。所述方法应用于多角色同时发言情况，可以包括以下步骤：

步骤201)：接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度。

在本技术方案中，文本识别内容为当前目标音频子流中语音内容。文本识别状态标识为标识当前目标音频子流中识别出的语音内容是否无需再次识别操作。在本实施例中，文本识别状态标识为1，表示当前音频子流中识别出的语音内容通过结合上下文语义分析最终确认无需再次进行识别操作的文本。文本识别状态标识为0，标识当前音频子流中识别出的语音内容是当前音频子流识别生成最终文本的一部分，且文本识别内容中存个别字段需要通过再次识别处理进行矫正修改。文本长度为识别服务器识别出的当前目标音频子流的语音内容的长度。

在本实施例中，***笔录终端在处理器上设置一存储单元，专门用于存储语音识别服务器返回的当前文本识别信息。该存储单元分为多个存储区域，不同区域分别存储文本识别信息中的不同内容，比如有专门存储文本识别状态标识的，有专门存储文本识别内容的等等。对于本技术方案来说，存储单元存储上一文本识别信息，***笔录终端接受语音识别服务器返回的当前文本识别信息，***笔录终端根据当前文本识别信息中的文本识别状态标识以及上一文本识别信息中的文本识别状态标识将当前文本识别信息中的文本识别内容***相应的笔录文档中，并在存储单元中删除上一文本识别信息，将当前文本识别信息存储至存储单元。***笔录终端上设置一存储器，用于存储笔录文档中***的结果信息，上文描述的存储单元存储的上一文本识别信息中的内容是用于在***文本识别内容时精确确认***位置的，存储器与存储单元在本技术方案中存储的内容不同。

步骤202)：根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置。

在本技术方案中，所述根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置的步骤包括：

在本技术方案中，根据上一文本识别信息中的文本长度和文本识别内容与当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

在本技术方案中，将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

具体地，为详细说明单角色发言情况下***笔录文档的过程，***笔录终端处理流程为：

1.角色A首次发言，音频采集器对角色A发言进行音频采集，获得音频流，识别服务器对音频流进行切分处理，获得音频子流，识别服务器对第一个音频子流进行识别处理，首次返回文本识别内容Sa1、文本识别状态标识Ta1和文本长度L1，创建角色A对应的存储单元，存储文本识别信息中的文本识别内容、文本识别状态标识和文本长度。其中，Ta1＝1，表明识别服务器对当前返回的文本识别内容Sa1为确认文本，在存储单元中存储当前返回的文本识别信息中的文本识别内容Sa1和文本识别状态标识Ta1，并将文本识别内容Sa1***笔录文档中。等待识别服务器返回下一文本识别信息。Ta1＝0，表明识别服务器对当前返回的文本识别内容Sa1位非确认文本，在存储单元中存储当前返回的文本识别信息中的文本识别内容Sa1和文本识别状态标识Ta1，并将文本识别内容Sa1***笔录文档中。等待识别服务器返回下一文本识别信息。

2.识别服务器返回下一文本识别信息，获得文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2。如果上一文本识别信息的文本识别状态标识Ta1＝1，则当前文本识别信息是识别服务器对当前音频子流识别获取的。如果上一文本识别信息的文本识别状态标识Ta1＝0，则当前文本识别信息是识别服务器对上一文本识别信息对应的音频子流识别获取的。

2.1如果Ta2＝0，文本识别信息中的识别文本状态为非确认，则将文本识别内容S2的起始位置开始的L1长度内容与文本识别内容S1进行比较，若比较结果相同，则通过字符串截取获取文本识别内容S2的L2-L1内容部分S21并以尾部追加的方式将内容S21***笔录文档；若比较结果不相同，则无需对文本识别内容S2进行截取而是直接将文本识别内容S2以覆盖***方式(删除文本识别内容S1、***文本识别内容S2)***笔录文档。更新存储单元中存储的内容，将上一文本识别信息的文本识别内容Sa1、文本识别状态标识Ta1和文本长度L1删除，将当前文本识别信息的文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2存储至存储单元中。

2.2如果Ta2＝1，文本识别信息中的识别文本状态为确认(Ta2＝1)，文本长度为L2，文本识别内容为S2。则在当前获取到文本识别信息中的文本识别内容S2的起始位置开始到长度L1的内容与文本内容S1进行比较。若比较结果相同，则通过字符串截取获取文本内容S2的L2-L1部分内容并将该内容以尾部追加的方式***笔录文档中；若比较结果不相同，则无需对文本内容S2进行截取，直接将文本内容S2以覆盖***方式(删除文档中S1内容***S2)***笔录文档中。同时，将上一文本识别信息的文本识别内容Sa1、文本识别状态标识Ta1和文本长度L1删除，将当前文本识别信息的文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2存储至存储单元中。

3.识别服务器返回第三个文本识别信息，***笔录终端接收该信息，不管第三个文本识别信息中的文本识别状态标识Ta3是1还是0，如果上一文本识别信息中的文本识别状态标识Ta2＝0，则按照上述***笔录终端处理流程中的步骤2.1执行***逻辑。如果上一文本识别信息中的文本识别状态标识Ta2＝1，则按照上述***笔录终端处理流程中的步骤1顺序重新开始执行文本处理及***逻辑。最后，将上一文本识别信息的文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2删除，将当前文本识别信息的文本识别内容Sa3、文本识别状态标识Ta3和文本长度L3存储至存储单元中。

在文本识别内容***笔录文档的同时，对各角色实时***笔录文档的新文本添加底纹效果，检测清除文档中上次返回并***的文本识别内容中识别状态为确认状态的文本的底纹效果，保证底纹效果跟随当前最新***的识别文本。具体而言，所述根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置的步骤还包括：

当前文本识别信息中的文本识别内容***相应的位置之后，判断上一文本识别信息的文本识别状态标识，如果上一文本识别信息的文本识别状态标识为确认标识，则清除上一文本识别信息的文本识别内容的底纹效果，并***当前文本识别信息中的文本识别内容，并设置底纹效果；如果上一文本识别信息的文本识别状态标识为非确认标识，则***当前文本识别信息中的文本识别内容，并设置底纹效果。

那么，在上述实例的基础上，角色A发言情况下各文本识别内容对应的底纹效果添置逻辑：

1.***笔录终端将识别服务器返回的角色A第一个文本识别信息，创建该角色A对应的存储单元，以覆盖存储的方式存储当前文本识别信息中的文本识别内容Sa1、文本识别状态标识Ta1以及文本长度L1。

1.1若Ta1＝0，通过WordAPI提供的相关定位函数计算获取当前文本识别信息的文本识别内容***位置，并将文本识别内容***笔录文档，创建角色A对应的书签(Bookmark)B<a>包含Sa1，通过书签为***文本内容添加对应底纹色效果，并转入步骤2继续执行逻辑流程。

1.2若Ta1＝1，通过WordAPI提供的相关定位函数计算获取当前文本识别信息的文本识别内容***位置，并将文本识别内容***笔录文档，创建角色A对应的书签(Bookmark)B<a>包含Sa1，通过书签为***文本内容添加对应底纹色效果。并转入步骤1继续执行逻辑流程。

2.识别服务器将第二个文本识别信息返回至***笔录终端。***笔录终端将当前文本识别信息中的文本识别内容Sa2、文本识别状态标识Ta2以及文本长度L2以覆盖存储的方式存储至存储单元，删除第一文本识别信息中的文本识别内容Sa1、文本识别状态标识Ta1以及文本长度L1。

2.1如果文本识别状态标识Ta2＝0，通过书签B<a>计算获取文本识别内容Sa2的***位置并将文本识别内容Sa2***笔录文档的同时更新书签B<a>的包含范围，为更新后的书签B<a>添加对应底纹效果，并转入步骤3继续执行逻辑流程。

2.2如果文本识别状态标识Ta2＝1，通过书签B<a>计算获取文本识别内容Sa2的***位置并将文本识别内容Sa2***笔录文档的同时更新书签B<a>的包含范围，为更新后的书签B<a>添加对应底纹效果，并转入步骤3继续执行逻辑流程。

3识别服务器将第三个文本识别信息返回至***笔录终端，***笔录终端将当前文本识别信息中的文本识别内容Sa3、文本识别状态标识Ta3以及文本长度L3以覆盖存储的方式存储至存储单元，删除第二文本识别信息中的文本识别内容Sa2、文本识别状态标识Ta2以及文本长度L2。

3.1如果Ta2＝0，Ta3＝0，执行步骤2.1操作。

3.2如果Ta2＝0，Ta3＝1，执行步骤2.2操作。

3.3如果Ta2＝1、Ta3＝0或Ta2＝1、Ta3＝1，从步骤1重新开始执行***逻辑流程，清楚书签B<a>包含文本的底纹效果。

本申请实施方式提供另一种语音识别文本***笔录文档的方法，如图3所示。对于本技术方案来说，应用于***语音识别服务器，具体地，所述语音识别服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备；也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件。在本实施方式中并不具体限定所述服务器的数量。所述服务器可以为一个服务器，还可以为几个服务器，或者，若干服务器形成的服务器集群。所述语音识别文本***笔录文档的方法可以包括以下步骤：

步骤301：接收音频流。

在本实施例中，语音采集器实时采集应用场景下用户的语音，并将采集到的语音经降噪处理，获得音频流。

步骤302)：将所述音频流进行切分，获得音频子流。

在本实施例中，为了提高语音识别的精度，将语音采集器反馈过来的音频流经过切分处理，一大段音频流经切分处理，获得多个小段的音频流。每次识别时音频流的数据不是特别大，大大提高识别精度。

步骤303)：根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流。

在本技术方案中，如果识别服务器对当前需识别处理的音频信息识别的结果无法确认，将识别结果仍然反馈至***笔录终端，将非确认的内容***笔录文档中，然后识别服务器继续对该音频信息再次识别，不管本次识别结果是否确认，仍然将识别结果反馈至***笔录终端，将本次识别结果***笔录文档中。直至识别服务器识别处理的音频信息的文本识别信息进行了确认，才进行下一音频信息进行识别处理。如果识别服务器对当前需识别处理的音频信息识别的结果为确认状态，将识别结果反馈至***笔录终端，将确认的内容***笔录文档中，然后识别服务器对下一音频信息进行识别处理。

对于常规技术方案而言，识别服务器对当前需要识别的音频信息识别的结果无法确认，则识别结果是不会反馈至***笔录终端，直至识别服务器将当前需要识别的音频信息识别的结果进行了确认，识别结果才反馈至***笔录终端进行***。常规技术方案在***时需要花费的时间比本技术方案要长，大大降低了用户的体验度。本技术方案将每一次识别信息不管是否确认均实时***笔录文档中，提高了用户的体验度。因此，在本技术方案中，确定当前需要识别的目标音频子流的步骤包括：

步骤304)：对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；

步骤305)：将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

本技术方案通过将识别服务器针对音频流进行切片对比分析计算过程中生成的文本不管是否确认均实时***文档解决由于识别文本返回速度慢用户体验差的问题。

如图4所示，为本申请实施例提出的一种语音识别文本***笔录文档的装置的功能框图之一。该装置在实际应用中为***笔录终端。包括:

接收单元401，用于接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；

***笔录单元402，用于根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置。

在本实施例中，所述***笔录单元包括：

如图5所示，为本申请实施例提出的一种语音识别文本***笔录文档的装置功能框图之二。该装置在实际应用中为***笔录终端。包括:

接收单元501，用于接收音频流；

切分单元502，用于将所述音频流进行切分，获得音频子流；

目标音频子流确认单元503，用于根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流；

识别单元504，用于对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识和文本长度；

发送单元505，用于将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

如图6所示，为本申请实施例提出的一种电子***示意图。所述电子设备包括：存储器a和处理器b，所述存储器a中存储计算机程序，所述计算机程序被所述处理器b执行时，实现以下功能：

在本实施例中，所述根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置，所述计算机程序被所述处理器b执行时，实现以下功能：

所述当前文本识别信息中的文本识别状态标识为非确认标识，且上一文本识别信息中的文本识别标识为非确定标识，则根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置；

所述当前文本识别信息中的文本识别状态标识为确认标识，且上一文本识别信息中的文本识别标识为非确认标识，则根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本信息的文本识别内容***笔录文档的相应位置；

在本实施例中，根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置，所述计算机程序被所述处理器b执行时，实现以下功能：

本申请实施例提出另一种电子设备，所述电子设备包括：存储器a和处理器b，所述存储器a中存储计算机程序，所述计算机程序被所述处理器b执行时，实现以下功能：

接收音频流；

将所述音频流进行切分，获得音频子流；

在本实施例中，确定当前需要识别的目标音频子流，所述计算机程序被所述处理器b执行时，实现以下功能：

在本实施方式中，所述存储器包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的电子设备，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现客户端、服务器以外，完全可以通过将方法步骤进行逻辑编程来使得客户端、服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种客户端、服务器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对客户端的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种语音识别文本***笔录文档的方法，其特征在于，包括:

2.如权利要求1所述的方法，其特征在于，所述根据当前文本识别信息的文本识别状态标识将对应的文本识别内容***笔录文档的相应位置的步骤包括：

3.如权利要求2所述的方法，其特征在于，根据上一文本识别信息中的文本长度和文本识别内容与当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

4.如权利要求3所述的方法，其特征在于，将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

5.一种语音识别文本***笔录文档的方法，其特征在于，包括:

接收音频流；

将所述音频流进行切分，获得音频子流；

6.如权利要求5所述的方法，其特征在于，确定当前需要识别的目标音频子流的步骤包括：

7.一种语音识别文本***笔录文档的装置，其特征在于，包括:

8.如权利要求7所述的装置，其特征在于，所述***笔录单元包括：

9.一种语音识别文本***笔录文档的装置，其特征在于，包括:

接收单元，用于接收音频流；

切分单元，用于将所述音频流进行切分，获得音频子流；

10.如权利要求9所述的装置，其特征在于，所述目标音频子流确认单元包括：