CN108647190A

CN108647190A - 一种语音识别文本笔录文档的方法、装置及

Info

Publication number: CN108647190A
Application number: CN201810377094.2A
Authority: CN
Inventors: 卢闪明; 张亚鹏; 李行; 单衍景
Original assignee: BEIJING HUAXIA DIANTONG TECHNOLOGY Co Ltd
Current assignee: BEIJING HUAXIA DIANTONG TECHNOLOGY Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-10-12
Anticipated expiration: 2038-04-25
Also published as: CN108647190B

Abstract

本申请实施方式公开了一种语音识别文本***笔录文档的方法、装置及***，其中，语音识别文本***笔录文档的方法包括:接收目标音频子流的当前文本识别信息；其中，当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置。本技术方案在多角色同时发言场景下，语音识别服务器交叉返回不同角色的实时识别文本，***的文本识别信息中的文本识别内容不管是否被确认，均正确、有序、分角色***笔录文档，并不是只有将文本识别内容在确认状态下才***笔录文档，提高识别文本***文档速度的同时动态***效果更加明显，大大增加用户体验感。

Description

一种语音识别文本***笔录文档的方法、装置及***

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音识别文本***笔录文档的方法、装置及***。

背景技术

随着语音识别技术的发展，在各行各业中语音识别技术得到越来越广泛应用。例如：在法庭庭审或会议过程中，如果可以将语音识别技术应用在庭审或会议当中，将声音转换为文字同时将文字实时分角色***笔录文档，这样将大大减轻庭审或会议记录人员的工作量，并且避免出现漏记错记的问题甚至完全替代记录人员的工作节省人力。

在语音识别过程中，识别服务器获得当前某个角色发言的音频流，通过对该音频流的重复多次切片并结合上下文的语境、语义进行分析，逐次生成针对当前音频流的识别文本。如果文本识别信息中的文本识别内容不能被确认，则识别服务器会反复对当前音频流进行识别处理，直至当前音频流的文本识别信息中的文本识别内容被确认，文本识别内容才被***至笔录文档中。在识别过程中，如果发言者的语速过快且发言停顿时间较短均会导致识别服务器自动断句计算出现误差(将发言者的两句发言对应的音频流视为一句进行处理)，由于识别服务器针对当前音频流进行比对分析次数增加进而获取最终确认状态识别文本时间增加，最终导致用户体验感差。

发明内容

本申请实施方式的目的是提供一种语音识别文本***笔录文档的方法、装置及***，解决现有的***笔录文档体验感差的技术问题。

为实现上述目的，本申请实施方式提供一种语音识别文本***笔录文档的方法，包括:

接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；

根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置。

优选地，所述根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置的步骤包括：

获取第一角色的第一文本识别信息，通过定位函数获取第一文本识别信息中的文本识别内容的***位置，将所述第一角色的第一文本识别信息中的文本识别内容***相应位置，设置第一角色为换行角色；

获取第二角色的第一文本识别信息，以当前换行角色对应的书签为基准获取第二角色的第一文本识别信息中的文本识别内容的***位置，将所述第二角色的第一文本识别信息中的文本识别内容***相应位置，更新换行角色，以第二角色为换行角色；

获取第一角色的第二文本识别信息，如果第一文本识别信息中的文本识别状态标识为非确认标识，通过第一角色的上一文本识别信息中的文本识别内容***时使用的书签为基准，获取第一角色的第二文本识别信息中的文本识别内容的***位置，将所述第一角色的第二文本识别信息中的文本识别内容***相应位置，无需更新换行角色，第二角色为换行角色；如果第一文本识别信息中的文本识别状态标识为确认标识，以当前换行角色对应的书签为基准获得第一角色的第二文本识别信息中文本识别内容的***位置，将所述第一角色的第二文本识别信息中的文本识别内容***相应位置，更新换行角色，以第一角色为换行角色；

获取第二角色的第二文本识别信息，如果当前换行角色为第一角色，且第二角色的第一文本识别信息中的文本识别状态标识为确认标识，则以第一角色的第二文本识别信息中的文本识别内容***时使用的书签为基准，获取第二角色的第二文本识别信息中的文本识别内容的***位置，将所述第二角色的第二文本识别信息中的文本识别内容***相应位置，更新换行角色；如果当前换行角色为第一角色，且第二角色的第一文本识别信息中的文本识别状态标识为非确认标识，或当前换行角色为第二角色，以第二角色的第一文本识别信息中的文本识别内容***时使用的书签为基准，获得第二角色的第二文本识别信息中的文本识别内容的***位置，将所述第二角色的第二文本识别信息中的文本识别内容***相应的位置，无需更新换行角色；

获取其他角色的第一文本识别信息，以当前换行角色标识对应的书签为基准，获取其他角色的第一文本识别信息中的文本识别内容的***位置，将所述其他角色的第一文本识别信息中的文本识别内容***相应的位置，更新换行角色，以其他角色为换行角色。

优选地，将每个角色的文本识别信息中的文本识别内容***相应位置的步骤包括：

对于每个角色，所述当前文本识别信息中的文本识别状态标识为非确认标识，且上一文本识别信息中的文本识别标识为非确定标识，则根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置；

对于每个角色，所述当前文本识别信息中的文本识别状态标识为非确认标识，且上一文本识别信息中的文本识别标识为确认标识，则将当前文本识别信息的文本识别内容***笔录文档的相应位置；

对于每个角色，所述当前文本识别信息中的文本识别状态标识为确认标识，且上一文本识别信息中的文本识别标识为非确认标识，则根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本信息的文本识别内容***笔录文档的相应位置；

对于每个角色，所述当前文本识别信息中的文本识别状态标识为确认标识，且上一文本识别信息中的文本识别标识为确认标识，则将当前文本识别信息的文本识别内容***笔录文档的相应位置。

优选地，根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

将当前文本识别信息的文本识别内容中从起始位置开始至与上一文本识别信息中的文本长度相同的位置的内容与上一文本识别信息中的文本识别内容进行比较，如果比较结果相同，则将当前文本识别信息的文本识别内容中除去从起始位置开始至与上一文本识别信息中的文本长度相同的位置的内容，把剩余内容***笔录文档中上一文本识别信息的文本识别内容的后面；如果比较结果不相同，删除上一文本识别信息的文本识别内容，将当前文本识别信息的文本识别内容***至笔录文档的上一文本识别信息的文本识别内容的位置。

优选地，所述根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置的步骤还包括：

当前文本识别信息中的文本识别内容***相应的位置之后，判断上一文本识别信息的文本识别状态标识，如果上一文本识别信息的文本识别状态标识为确认标识，则清除上一文本识别信息的文本识别内容的底纹效果，并***当前文本识别信息中的文本识别内容，并设置底纹效果；如果上一文本识别信息的文本识别状态标识为非确认标识，则***当前文本识别信息中的文本识别内容，并设置底纹效果。

接收音频流；

将所述音频流进行切分，获得音频子流；

根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流；

对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；

将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

优选地，确定当前需要识别的目标音频子流的步骤包括：

如果上一文本识别信息中的文本识别状态标识为非确认标识，则当前需要识别的目标音频子流为上一文本识别信息对应的音频子流；

如果上一文本识别信息中的文本识别状态标识为确认标识，则当前需要识别的目标音频子流为下一音频子流。

为实现上述目的，本申请实施方式提供一种语音识别文本***笔录文档的装置，包括:

接收单元，用于接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；

***笔录单元，用于根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置。

优选地，所述***笔录单元包括：

第一角色的第一文本识别信息***模块，用于获取第一角色的第一文本识别信息，通过定位函数获取第一文本识别信息中的文本识别内容的***位置，将所述第一角色的第一文本识别信息中的文本识别内容***相应位置，设置第一角色为换行角色；

第二角色的第一文本识别信息***模块，用于获取第二角色的第一文本识别信息，以当前换行角色对应的书签为基准获取第二角色的第一文本识别信息中的文本识别内容的***位置，将所述第二角色的第一文本识别信息中的文本识别内容***相应位置，更新换行角色，以第二角色为换行角色；

第一角色的第二文本识别信息***模块，用于获取第一角色的第二文本识别信息，如果第一文本识别信息中的文本识别状态标识为非确认标识，通过第一角色的上一文本识别信息中的文本识别内容***时使用的书签为基准，获取第一角色的第二文本识别信息中的文本识别内容的***位置，将所述第一角色的第二文本识别信息中的文本识别内容***相应位置，无需更新换行角色，第二角色为换行角色；如果第一文本识别信息中的文本识别状态标识为确认标识，以当前换行角色对应的书签为基准获得第一角色的第二文本识别信息中文本识别内容的***位置，将所述第一角色的第二文本识别信息中的文本识别内容***相应位置，更新换行角色，以第一角色为换行角色；

第二角色的第二文本识别信息***模块，用于获取第二角色的第二文本识别信息，如果当前换行角色为第一角色，且第二角色的第一文本识别信息中的文本识别状态标识为确认标识，则以第一角色的第二文本识别信息中的文本识别内容***时使用的书签为基准，获取第二角色的第二文本识别信息中的文本识别内容的***位置，将所述第二角色的第二文本识别信息中的文本识别内容***相应位置，更新换行角色；如果当前换行角色为第一角色，且第二角色的第一文本识别信息中的文本识别状态标识为非确认标识，或当前换行角色为第二角色，以第二角色的第一文本识别信息中的文本识别内容***时使用的书签为基准，获得第二角色的第二文本识别信息中的文本识别内容的***位置，将所述第二角色的第二文本识别信息中的文本识别内容***相应的位置，无需更新换行角色；

其他角色的第一文本识别信息***模块，用于获取其他角色的第一文本识别信息，以当前换行角色标识对应的书签为基准，获取其他角色的第一文本识别信息中的文本识别内容的***位置，将所述其他角色的第一文本识别信息中的文本识别内容***相应的位置，更新换行角色，以其他角色为换行角色。

接收单元，用于接收音频流；

切分单元，用于将所述音频流进行切分，获得音频子流；

目标音频子流确认单元，用于根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流；

识别单元，用于对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；

发送单元，用于将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

由上可见，与现有技术相比较，本技术方案在多角色同时发言场景下，语音识别服务器交叉返回不同角色的实时识别文本，***的文本识别信息中的文本识别内容不管是否被确认，均正确、有序、分角色***笔录文档，并不是只有将文本识别内容在确认状态下才***笔录文档，提高识别文本***文档速度的同时动态***效果更加明显，大大增加用户体验感。还有，动态添加底纹色效果问题，增加语音识别实时识别文本***技术使用场景扩大技术应用范围。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提出的一种语音识别文本***笔录文档的***示意图；

图2为本申请实施例提出的一种语音识别文本***笔录文档的方法流程图之一；

图3为本申请实施例提出的一种语音识别文本***笔录文档的方法流程图之二；

图4为本申请实施例提出的一种语音识别文本***笔录文档的装置功能框图之一；

图5为本申请实施例提出的一种语音识别文本***笔录文档的装置功能框图之二；

图6为本申请实施例提出的一种电子设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

如图1所示，为本申请实施例提出的一种语音识别文本***笔录文档的***示意图。包括：***笔录终端和语音识别服务器。其中，语音识别服务器从语音采集器上获取音频流，对音频流经过噪音处理之后，切分为多个音频子流。语音识别服务器对每个音频子流进行识别处理，将识别处理的结果构建成文本识别信息，不管音频子流的识别内容是否确认，语音服务器将文本识别信息发送至***笔录终端。如果当前识别的音频子流的识别内容被确认，则语音识别服务器就可以进行下一音频子流的识别工作。如果当前识别的音频子流的识别内容处于非确认状态，则语音识别服务器继续对当前音频子流进行识别工作。只不过不管音频子流的识别内容是非确认状态还是确认状态，语音识别服务器均将文本识别信息返回至***笔录终端。***笔录终端根据角色标识和文本识别状态标识将语音识别服务器返回的文本识别信息中的文本识别内容***至笔录文档的相应位置。

在本技术方案中，每次识别结果同时带回识别服务器区分该角色的唯一标识，***笔录终端根据各角色标识动态创建并维护各角色的语音内容存储单元，该存储单元存储语音内容、识别状态标识等信息，每次接收到实时识别文本时，***笔录终端通过带回的角色标识动态获取各角色对应存储单元中的识别状态标识计算获取文本***位置并区分角色，实现同一时刻下多角色同时发言或单角色发言的识别文本内容正确、有序的***笔录文档的相应位置。

在本技术方案中，识别内容的非确认状态的意思为：语音识别服务器对获取到的音频流进行切片分析等识别操作过程中生成的文本识别内容，该文本识别内容是当前音频子流识别生成最终文本的一部分，且文本识别内容中存个别字段需要通过再次识别处理进行矫正修改。识别内容的确认状态的意思为：识别服务器对获取到的音频流进行切片分析等识别操作过程中生的文本识别内容，该文本识别内容通过结合上下文语义分析最终确认无需再次进行识别操作的文本。

基于上述描述，本申请实施例提出一种语音识别文本***笔录文档的方法，如图2所示。对于本技术方案来说，应用于***笔录终端，具体地，所述***笔录终端例如可以是具备数据处理功能的台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机等。或者，所述客户端也可以为能够运行于上述电子设备中的软件。所述方法应用于多角色同时发言情况，可以包括以下步骤：

步骤201)：接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度。

在本技术方案中，文本识别内容为当前目标音频子流中语音内容。文本识别状态标识为标识当前目标音频子流中识别出的语音内容是否无需再次识别操作。在本实施例中，文本识别状态标识为1，表示当前音频子流中识别出的语音内容通过结合上下文语义分析最终确认无需再次进行识别操作的文本。文本识别状态标识为0，标识当前音频子流中识别出的语音内容是当前音频子流识别生成最终文本的一部分，且文本识别内容中存个别字段需要通过再次识别处理进行矫正修改。角色标识为识别服务器针对不同角色设置的标识，便于将不同角色的语音内容归为相应角色。文本长度为识别服务器识别出的当前目标音频子流的语音内容的长度。

在本实施例中，***笔录终端在处理器上设置一存储单元，专门用于存储语音识别服务器返回的当前文本识别信息。该存储单元分为多个存储区域，不同区域分别存储文本识别信息中的不同内容。对于本技术方案来说，存储单元存储上一文本识别信息，***笔录终端接受语音识别服务器返回的当前文本识别信息，***笔录终端根据当前文本识别信息以及上一文本识别信息将当前文本识别信息中的文本识别内容***相应的笔录文档中，并在存储单元中删除上一文本识别信息，将当前文本识别信息存储至存储单元。***笔录终端上设置一存储器，用于存储笔录文档中***的结果信息，上文描述的存储单元存储的上一文本识别信息中的内容是用于在***文本识别内容时精确确认***位置的。

步骤202)：根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置。

在本技术方案中，所述根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置的步骤包括：

具体地，为详细说明多角色同时发言情况下***笔录文档的过程，以三个角色在某一应用场景下发言为例，其中，两个角色同时发言，第三个角色在某一时刻发言。***笔录终端处理流程为：

1.角色A、B同时首次发言。

2.角色A识别文本首次返回文本识别内容Sa1，文本识别状态标识Ta1，***文本识别内容Sa1同时设置A为换行角色(LastRole＝A)。

3.角色B识别文本首次返回文本识别内容Sb1、文本识别状态标识Tb1。以当前换行角色(LastRole)A书签为基准，计算获取角色B的文本识别内容Sb1在文档中的***位置(角色A的下一行)，***角色B对应文本同时更新换行角色为B(LastRole＝B)。

4.角色A识别文本第二次返回文本识别内容Sa2,、文本识别状态标识Ta2。

4.1Ta1＝0，通过角色A书签计算文本***位置完成文本***，无需更新换行角色(LastRole＝B)。

4.2Ta1＝1,以当前换行角色(LastRole)B书签为基准，计算获取角色A文本识别内容Sa2在文档中的***位置(角色B的下一行)，***角色A对应文本同时更新换行角色为A(LastRole＝A)。

5.角色B识别文本第二次返回文本识别内容Sb2、文本识别状态标识Tb2。

5.1若LastRole＝＝A且Tb1＝1，以角色A书签为基准，计算获取文本识别内容Sb2***位置，更新换行角色为角色B(LastRole＝B)。

5.2若LastRole＝＝A且Tb1＝0，以角色B书签为基准，计算文本识别内容Sb2***位置，无需更换换行角色。

5.3若LastRole＝＝B，以角色B书签为基准，计算文本识别内容Sb2***位置，无需更换换行角色。

6.若新角色C首次发言，无论当前换行角色为A或B,以当前换行角色对应书签为基准计算角色C返回文本***位置，更新换行角色为C(LastRole＝C)。

在本实施例中，将每个角色的文本识别信息中的文本识别内容***相应位置的步骤包括：

在本实施例中，根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

具体地，针对多角色当中的每个角色来说，***的逻辑流程为：

1.角色A首次发言，音频采集器对角色A发言进行音频采集，获得音频流，识别服务器对音频流进行切分处理，获得音频子流，识别服务器对第一个音频子流进行识别处理，首次返回文本识别内容Sa1、文本识别状态标识Ta1和文本长度L1，创建角色A对应的存储单元，存储文本识别信息中的文本识别内容、文本识别状态标识和文本长度。其中，Ta1＝1，表明识别服务器对当前返回的文本识别内容Sa1为确认文本，在存储单元中存储当前返回的文本识别信息中的文本识别内容Sa1和文本识别状态标识Ta1，并将文本识别内容Sa1***笔录文档中。等待识别服务器返回下一文本识别信息。Ta1＝0，表明识别服务器对当前返回的文本识别内容Sa1位非确认文本，在存储单元中存储当前返回的文本识别信息中的文本识别内容Sa1和文本识别状态标识Ta1，并将文本识别内容Sa1***笔录文档中。等待识别服务器返回下一文本识别信息。

2.识别服务器返回一文本识别信息，获得文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2。如果上一文本识别信息的文本识别状态标识Ta1＝1，则当前文本识别信息是识别服务器对当前音频子流识别获取的。如果上一文本识别信息的文本识别状态标识Ta1＝0，则当前文本识别信息是识别服务器对上一文本识别信息对应的音频子流识别获取的。

2.1如果Ta2＝0，文本识别信息中的识别文本状态为非确认，则将文本识别内容S2的起始位置开始的L1长度内容与文本识别内容S1进行比较，若比较结果相同，则通过字符串截取获取文本识别内容S2的L2-L1内容部分S21并以尾部追加的方式将内容S21***笔录文档；若比较结果不相同，则无需对文本识别内容S2进行截取而是直接将文本识别内容S2以覆盖***方式(删除文本识别内容S1、***文本识别内容S2)***笔录文档。更新存储单元中存储的内容，将上一文本识别信息的文本识别内容Sa1、文本识别状态标识Ta1和文本长度L1删除，将当前文本识别信息的文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2存储至存储单元中。

2.2如果Ta2＝1，文本识别信息中的识别文本状态为确认(Ta2＝1)，文本长度为L2，文本识别内容为S2。则在当前获取到文本识别信息中的文本识别内容S2的起始位置开始到长度L1的内容与文本内容S1进行比较。若比较结果相同，则通过字符串截取获取文本内容S2的L2-L1部分内容并将该内容以尾部追加的方式***笔录文档中；若比较结果不相同，则无需对文本内容S2进行截取，直接将文本内容S2以覆盖***方式(删除文档中S1内容***S2)***笔录文档中。同时，将上一文本识别信息的文本识别内容Sa1、文本识别状态标识Ta1和文本长度L1删除，将当前文本识别信息的文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2存储至存储单元中。

3.识别服务器返回第三个文本识别信息，***笔录终端接收该信息，不管第三个文本识别信息中的文本识别状态标识Ta3是1还是0，如果上一文本识别信息中的文本识别状态标识Ta2＝0，则按照上述***笔录终端处理流程中的步骤2.1执行***逻辑。如果上一文本识别信息中的文本识别状态标识Ta2＝1，则按照上述***笔录终端处理流程中的步骤1顺序重新开始执行文本处理及***逻辑。最后，将上一文本识别信息的文本识别内容Sa2、文本识别状态标识Ta2和文本长度L2删除，将当前文本识别信息的文本识别内容Sa3、文本识别状态标识Ta3和文本长度L3存储至存储单元中。

在文本识别内容***笔录文档的同时，对各角色实时***笔录文档的新文本添加底纹效果，检测清除文档中上次返回并***的文本识别内容中识别状态为确认状态的文本的底纹效果，保证底纹效果跟随当前最新***的识别文本。具体而言，所述根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置的步骤还包括：

在本实施例中，针对多角色同时发言情况下识别文本实时***的逻辑流程为：

1.角色A、B、C同时发言。

2.角色A/B/C处理后识别文本首次返回文本识别内容Sa1/Sb1/Sc1及角色标识A/B/C。

2.1文本识别状态标识Ta1/Tb1/Tc1＝0，根据角色标识A/B/C，通过WordAPI提供定位函数计算获取***位置PA1/PB1/PC1，***文本识别内容之后添加底纹效果，更新各角色对应存储单元中存储的内容。

2.2文本识别状态标识Ta1/Tb1/Tc1＝1，执行步骤2.1操作，后续对应角色的下一文本识别信息***流程直接从步骤3开始执行。

3.角色A/B/C处理后识别文本第二次返回文本识别内容Sa2/Sb2/Sc2及角色标识A/B/C。

3.1文本识别状态标识Ta2/Tb2/Tc2＝0，根据角色标识A/B/C，通过相应角色对应的书签获取***位置PA2/PB2/PC2，***文本识别内容之后添加底纹效果，更新各角色对应存储单元中存储的内容。

3.2文本识别状态标识Ta1＝1，执行步骤3.1操作，后续对应角色的下一文本识别信息***流程直接从步骤3开始执行。

4.角色A/B/C处理后识别文本第三次返回文本识别内容Sa3/Sb3/Sc3及角色标识A/B/C。

若文本识别状态标识Ta3/Tb3/Tc3仍为0，则继续执行步骤3的流程，直至Ta3/Tb3/Tc3为1为止完成多角色首次发言文本***。

在此基础上，多角色同时发言情况下各角色文本识别内容对应的底纹效果添置逻辑：

1.多角色A、B、C同时首次发言。

2.角色A识别文本首次返回文本识别内容Sa1，文本识别状态标识Ta1，文本***笔录文档，并设置对应底纹效果。

3.角色B识别文本首次返回文本识别内容Sb1，文本识别状态标识Tb1。

3.1文本识别状态标识Ta1＝0，正常***文本识别内容Sb1，设置文本识别内容Sb1对应的底纹效果。

3.2文本识别状态标识Ta1＝1，去除文本识别内容Sa1底纹效果，***文本识别内容Sb1，设置文本识别内容Sb1对应的底纹效果。

4.角色A识别文本第二次返回文本识别内容Sa2，文本识别状态标识Ta2。

4.1文本识别状态标识Tb1＝0,正常计算***文本识别内容Sa2(追加于文本识别内容Sa1尾部添加底纹效果或完全替换文本识别内容Sa1添加底纹效果)。

4.2文本识别状态标识Tb1＝1，去除文本识别内容Sb1底纹效果,正常计算***文本识别内容Sa2(追加于文本识别内容Sa1尾部添加底纹效果或完全替换文本识别内容Sa1添加底纹效果)。

每次有新的文本识别信息中的文本识别内容***时，判断上一文本识别信息中的文本识别状态标识，若标识为确认，清除上一文本识别信息中的文本识别内容的底纹效果，正常***当前文本识别信息中的文本识别内容；若标识为非确认，正常***当前文本识别信息中文本识别内容，无需清除上一文本识别信息中的文本识别内容的底纹效果。当任务关闭时***清除文本中所有角色对应的书签及底纹效果。

本申请实施方式提供另一种语音识别文本***笔录文档的方法，如图3所示。对于本技术方案来说，应用于语音识别服务器，具体地，所述语音识别服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备；也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件。在本实施方式中并不具体限定所述服务器的数量。所述服务器可以为一个服务器，还可以为几个服务器，或者，若干服务器形成的服务器集群。所述语音识别文本***笔录文档的方法可以包括以下步骤：

步骤301)：接收音频流。

在本实施例中，语音采集器实时采集应用场景下用户的语音，并将采集到的语音经降噪处理，获得音频流。

步骤302)：将所述音频流进行切分，获得音频子流。

在本实施例中，为了提高语音识别的精度，将语音采集器反馈过来的音频流经过切分处理，一大段音频流经切分处理，获得多个小段的音频流。每次识别时音频流的数据不是特别大，大大提高识别精度。

步骤303)：根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流。

在本技术方案中，如果识别服务器对当前需识别处理的音频信息识别的结果无法确认，将识别结果仍然反馈至***笔录终端，将非确认的内容***笔录文档中，然后识别服务器继续对该音频信息再次识别，不管本次识别结果是否确认，仍然将识别结果反馈至***笔录终端，将本次识别结果***笔录文档中。直至识别服务器识别处理的音频信息的文本识别信息进行了确认，才进行下一音频信息进行识别处理。如果识别服务器对当前需识别处理的音频信息识别的结果为确认状态，将识别结果反馈至***笔录终端，将确认的内容***笔录文档中，然后识别服务器对下一音频信息进行识别处理。

对于常规技术方案而言，识别服务器对当前需要识别的音频信息识别的结果无法确认，则识别结果是不会反馈至***笔录终端，直至识别服务器将当前需要识别的音频信息识别的结果进行了确认，识别结果才反馈至***笔录终端进行***。常规技术方案在***时需要花费的时间比本技术方案要长，大大降低了用户的体验度。本技术方案将每一次识别信息不管是否确认均实时***笔录文档中，提高了用户的体验度。因此，在本技术方案中，确定当前需要识别的目标音频子流的步骤包括：

步骤304)：对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；

步骤305)：将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

本技术方案通过将识别服务器针对音频流进行切片对比分析计算过程中生成的文本不管是否确认均实时***文档解决由于识别文本返回速度慢用户体验差的问题。同时，由于在语音识别过程中，单角色逐次发言的情况下，我们可以按角色逐次有序对识别服务器实时返回的识别文本进行处理***工作，但庭审或会议过程中可能会出现多角色同时发言的情况，在此情况下识别服务器以并发方式同时对各发言角色对应的音频流进行切片处理，按照并发处理速度交叉返回各角色实时识别文本，这种情况下若仍然按照单角色逐次发言逻辑进行***，会出现***文本顺序及角色错乱问题进而导致底纹色效果动态添加效果紊乱问题，最终导致生成笔录/会议文档失去意义而作废。基于此，本技术方案通过识别服务器每次返回识别文本同时带回识别服务器区分该角色的唯一标识，根据各角色标识每次接收到实时识别文本时，通过带回的角色标识动态获取各角色对应的当前文本识别状态标识，并根据这些标识计算获取文本***位置并区分角色，解决上述多角色同时发言文本***位置、角色区分、底纹色效果添加错乱问题。

如图4所示，为本申请实施例提出的一种语音识别文本***笔录文档的装置的功能框图之一。该装置在实际应用中为***笔录终端。包括：

接收单元401，用于接收目标音频子流的当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；

***笔录单元402，用于根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置。

在本实施例中，所述***笔录单元包括：

如图5所示，为本申请实施例提出的一种语音识别文本***笔录文档的装置功能框图之二。该装置在实际应用中为***笔录终端。包括:

接收单元501，用于接收音频流；

切分单元502，用于将所述音频流进行切分，获得音频子流；

目标音频子流确认单元503，用于根据上一文本识别信息中的文本识别状态标识，确定当前需要识别的目标音频子流；

识别单元504，用于对所述目标音频子流进行识别，获得当前文本识别信息；其中，所述当前文本信息包括文本识别内容、文本识别状态标识、角色标识和文本长度；

发送单元505，用于将所述当前文本识别信息发送至***笔录端，实现当前文本识别信息中的文本识别内容***笔录文档。

如图6所示，为本申请实施例提出的一种电子***示意图。所述电子设备包括：存储器a和处理器b，所述存储器a中存储计算机程序，所述计算机程序被所述处理器b执行时，实现以下功能：

在本实施例中，所述根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置，所述计算机程序被所述处理器b执行时，实现以下功能：

在本实施例中，将每个角色的文本识别信息中的文本识别内容***相应位置，所述计算机程序被所述处理器b执行时，实现以下功能：

在本实施例中，根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置，所述计算机程序被所述处理器b执行时，实现以下功能：

将当前文本识别信息的文本识别内容中从起始位置开始至与上一文本识别信息中的文本长度相同的位置的内容与上一文本识别信息中的文本识别内容进行比较，如果比较结果相同，则将当前文本识别信息的文本识别内容中除去从起始位置开始至与上一文本识别信息中的文本长度相同的位置的内容，把剩余内容***笔录文档中上一文本识别信息的文本识别内容的后面；如果比较结果不相同，将当前文本识别信息的文本识别内容***至笔录文档的上一文本识别信息的文本识别内容的位置，删除上一文本识别信息的文本识别内容。

本申请实施例提出另一种电子设备，所述电子设备包括：存储器a和处理器b，所述存储器a中存储计算机程序，所述计算机程序被所述处理器b执行时，实现以下功能：

接收音频流；

将所述音频流进行切分，获得音频子流；

在本实施例中，确定当前需要识别的目标音频子流，所述计算机程序被所述处理器b执行时，实现以下功能：

在本实施方式中，所述存储器包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的电子设备，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现客户端、服务器以外，完全可以通过将方法步骤进行逻辑编程来使得客户端、服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种客户端、服务器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对客户端的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种语音识别文本***笔录文档的方法，其特征在于，包括:

2.如权利要求1所述的方法，其特征在于，所述根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置的步骤包括：

3.如权利要求2所述的方法，其特征在于，将每个角色的文本识别信息中的文本识别内容***相应位置的步骤包括：

4.如权利要求3所述的方法，其特征在于，根据上一文本识别信息中的文本长度和文本识别内容、当前文本识别信息中的文本长度和文本识别内容将当前文本识别信息的文本识别内容***笔录文档的相应位置的步骤包括：

5.如权利要求2所述的方法，其特征在于，所述根据当前文本识别信息的文本识别状态标识和角色标识将对应的文本识别内容***笔录文档的相应位置的步骤还包括：

6.一种语音识别文本***笔录文档的方法，其特征在于，包括:

接收音频流；

将所述音频流进行切分，获得音频子流；

7.如权利要求6所述的方法，其特征在于，确定当前需要识别的目标音频子流的步骤包括：

8.一种语音识别文本***笔录文档的装置，其特征在于，包括:

9.如权利要求8所述的装置，其特征在于，所述***笔录单元包括：

10.一种语音识别文本***笔录文档的装置，其特征在于，包括:

接收单元，用于接收音频流；

切分单元，用于将所述音频流进行切分，获得音频子流；