CN110265026B

CN110265026B - 一种会议速记***以及会议速记方法

Info

Publication number: CN110265026B
Application number: CN201910532570.8A
Authority: CN
Inventors: 虞焰兴; 徐勇
Original assignee: Anhui Semxum Information Technology Co ltd
Current assignee: Anhui Semxum Information Technology Co ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2021-07-27
Anticipated expiration: 2039-06-19
Also published as: CN110265026A

Abstract

本发明公开了一种会议速记***以及会议速记方法，会议速记***主要由收录会议音频的会议速记终端、提供语音识别服务的ASR服务器、提供自然语言处理服务的NLP服务器、提供后台支持的协同编辑服务器和用于修正会议记录的人工编辑终端构成，会议速记终端分别于ASR服务器、NLP服务器、协同编辑服务器双向连接，协同编辑服务器与人工编辑终端双向连接。会议速记终端按照自然句对音频流进行切割，减小了音频传输过程中占比的带宽，使其传输更加快速，ASR服务器和NLP服务器的文本返回速度也更快；一段音频段及其对应文本传输至人工编辑终端后，即可根据该音频段及其对应的文本进行修正，从而实现对动态生成的会议记录的实时修正。

Description

一种会议速记***以及会议速记方法

技术领域

本发明涉及语音速记技术领域，尤其是一种能够对会议记录进行实时修正的会议速记***以及会议速记方法。

背景技术

在会议过程中，由记录人员把会议的组织情况和具体内容记录下来，就形成了会议记录。最传统的形式是由记录人员现场速记并在会议结束之后根据会议录音整理核对会议记录。

随着语音识别技术(ASR)和自然语言处理技术(NLP)的发展，会议中产生的音频能够在会议现场直接实时转换成文字并生成会议记录，极大地减少了记录人员的工作量。

语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列；自然语言处理技术研究的是如何实现人与计算机之间用自然语言进行有效通信；两者相结合，就能够将人类语音转换为人类语言的书面表达形式——文本。但是，这个转换过程不能保证百分百精准，尤其对于一些没有录入***中的术语、人物姓名等，***没有办法判断具体应该是何字。例如输入语音“章子怡”，***对于这个明星的姓名能够予以识别并转换成正确的文字；输入语音“张二雷”，对于这个陌生的词组，***只能逐字音译并选择***设置的默认选项，如***默认“zhang”优先“章”时，语音“张二雷”可能就会被转换成文字“章二雷”，这就导致了错误的存在。当然，实际的错误不仅限于此。

现有的会议速记***的准确率基本在90-95％左右，对于文本中存在的错误，有必要进行修正。目前，采用的修正方式，主要还是会议结束之后，记录人员根据会议录音对会议记录进行整理核对，使得会议记录成稿的生成存在一定的延时性，存在一定的不便之处。随之容易想到的，最优的修正方式，当然是对音频转换而成的文本进行实时修改，但是存在的技术障碍是，如何实现一边音频正在录入，一边文本正在生成的同时，对文本进行及时、快速地修正，也就是如何对正在动态生成的文本进行及时、快速地修正。

发明内容

针对上述问题，本发明提供一种能够对会议记录进行实时修正的会议速记***以及会议速记方法。

本发明保护一种会议速记***，主要由收录会议音频的会议速记终端、提供语音识别服务的ASR服务器、提供自然语言处理服务的NLP服务器、提供后台支持的协同编辑服务器和用于修正会议记录的人工编辑终端构成，所述会议速记终端分别与所述ASR服务器、所述NLP服务器、所述协同编辑服务器双向连接，所述协同编辑服务器与所述人工编辑终端双向连接。

进一步的，所述会议速记终端设有显示器，用于对会议记录进行实时显示，还用于显示会议记录二维码，参会人员通过扫描该二维码即可通过所述协同编辑服务器获取会议音频和会议记录。

本发明还保护一种会议速记方法，至少包括以下步骤：1.会议速记终端按照自然句对音频流进行切割，并将切割后的音频段(限制在60s以内)按序发送至ASR服务器；2.ASR服务器将音频段内容转换成一次文本并返回至会议速记终端，会议速记终端再将ASR服务器返回的一次文本发送至NLP服务器；3.NLP服务器用于将ASR服务器生成的一次文本按照自然语言进行自动修正，并将修正后的二次文本返回至会议速记终端；4.会议速记终端将音频段、二次文本和日志文件(包括但不限于音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本)发送至协同编辑服务器，协同编辑服务器根据日志文件将音频段和二次文本进行一一对应；5.人工编辑终端用于根据一一对应的音频段和二次文本进行会议记录的人工修正。

进一步的，会议速记终端对每一段音频和文本进行编号；若音频段没有对应的文本，会议速记终端在日志文件中予以标记。

进一步的，会议速记终端切割音频流的同时，复制音频流并发送至协同编辑服务器。

进一步的，当会议速记终端检测到网络中断时，停止向ASR服务器/NLP服务器发送数据，并将数据暂时存放于内存中，当网络再次连接时，通过内存将数据有序发送给ASR服务器/NLP服务器。

本发明的有益效果：1.会议速记终端按照自然句对音频流进行切割，减小了音频传输过程中占比的带宽，使其传输更加快速，ASR服务器和NLP服务器的文本返回速度也更快；一段音频段及其对应文本传输至人工编辑终端后，即可根据该音频段及其对应的文本进行修正，从而实现了对动态生成的会议记录的实时修正；2.应对断网时的处理机制，能够很好地解决网络重连后的音频和文本发送问题；3.不存在二次转码，减少了因不同编码之间相互转换带来的错误率；4.参会人员通过扫描二维码即可获取会议音频和会议记录。

附图说明

图1为实施例1的框图；

图2为音频波形示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

一种会议速记***，如图1所示，主要由收录会议音频的会议速记终端、提供语音识别服务的ASR服务器、提供自然语言处理服务的NLP服务器、提供后台支持的协同编辑服务器和用于修正会议记录的人工编辑终端构成，所述会议速记终端分别与所述ASR服务器、所述NLP服务器、所述协同编辑服务器双向连接，所述协同编辑服务器与所述人工编辑终端双向连接。

会议速记终端是放置于会议现场，对会议音频进行收录和预处理的独立设备；人工编辑终端是安装了特定软件的台式机、笔记本等设备，所述特定软件指的是能够实现其必备功能的软件。

人工编辑终端与会议速记终端可以位于不同地点，例如会议开在北京，记录人员在上海进行会议记录的修正。

会议速记终端、ASR服务器、NLP服务器、协同编辑服务器、人工编辑终端之间的连接方式可以采用但不限于有线网络、WiFi网络、4G网络。

本实施例公开的会议速记***涉及的会议速记方法，包括以下步骤：

1.会议进行时，会议速记终端按照自然句对音频流进行切割，并将切割后的音频段按序发送至ASR服务器。

人在正常说话时是有停顿的，本实施例中的自然句指的是相邻停顿之间的这句话，如图2中的“我那黄河一样粗狂的声音”、“不光响在***的大厦里”。按照自然句进行音频流切割，一是可以保证音频信息地完整性，防止音频数据丢失的情况发生；二是减少音频发送过程中占用的带宽，便于音频快速到达语音文本转换服务器，减少因网络塞车导致音频堵塞于发往语音文本转换服务器的路途当中，这就好比在一条拥堵的马路上，自行车、电瓶车，尤其是行人，可以从汽车缝隙中穿梭，网络传输同理。

当检测到一段时间内没有音频波动，就对音频流进行切割，然后在0.00001ms后继续开始处理。将音频段之间的间隔设置为0.00001ms，是为了尽可能减少音频的丢失和错位。例如，5s音频中间包含一个音频段间隔，若音频段间隔为0.1ms，则平均下来，1h音频会产生72ms偏差，4h音频产生的偏差达288ms；若音频段间隔为0.00001ms，则平均下来，1h音频仅产生0.0072ms偏差，4h音频产生的偏差也仅为0.0288ms。

如果在60s内都没有检测到足够长时间的停顿，那么强行对音频流进行切割，避免音频段过长，影响音频段的传输速度以及ASR服务器和NLP服务器的响应速度。

当音频流被切割形成音频段时，它与正在生成的音频流就独立开来，意味着这段音频的结束，也意味着可以对这段音频进行回放，便于对其对应的文本进行修正。

2.ASR服务器将音频段内容转换成一次文本并返回至会议速记终端，会议速记终端再将ASR服务器返回的一次文本发送至NLP服务器。

3.NLP服务器用于将ASR服务器生成的一次文本按照自然语言进行自动修正，并将修正后的二次文本返回至会议速记终端。

ASR服务器和NLP服务器均为既有的第三方服务器。ASR服务器将音频段内容转换成一次文本，这个转换过程中是机械式的转换，其中存在为数不少的错别字(多为同音字错误)；NLP服务器对一次文本按照自然语言进行自动修正，这个转换过程就是基于人类自然语言的习惯，对一次文本进行自动纠错的过程。NLP服务器返回至会议速记终端的二次文本，正确率可达90-95％，但是仍存在一定的错误率。

4.会议速记终端将音频段、二次文本和日志文件发送至协同编辑服务器，协同编辑服务器根据日志文件将音频段和二次文本进行一一对应。

日志文件包括但不限于音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。

5.人工编辑终端用于根据一一对应的音频段和二次文本进行会议记录的人工修正，人工编辑终端具有查找、替换功能，可以直接修改某个文字或词组，也可以通过查找和替换对文本中的相同的错误进行一次性修正，并会对当前修正的内容进行特殊显示(如改变文字背景色)，以供记录人员查看。

在人工对会议记录进行修正的过程中，为了便于操作，可以按照音频段对文本进行分段显示，即一个音频段对应的文本显示为一段。记录人员手动点击某段文本时，人工编辑终端对该段文本对应的音频波形予以框选显示并播放，协助记录人员进行判断和文本修正。例如，当点击“大声高喊着中国得分”，则该段文字对应的音频波形被框选显示并播放。

在音频段和文本的传输过程中，音频段大而文本小，因此文本往往比音频段更早地传输到协同编辑服务器，即音频段和文本并非同时传输到协同编辑服务器，协同编辑服务器如何知晓哪一段文本要对应哪一段音频。在本实施例中，通过会议速记终端对每一段音频和文本进行编号来解决这一问题。

音频段的开始时间、结束时间均以北京时间为准。音频段的开始时间、结束时间、及其对应的音频代码是会议速记终端在音频切割过程中就能够获取的信息，但是音频段对应的文本是NLP服务器返回的二次文本。

理想情况下，一段音频对应一段文字，按照顺序进行对应即可，但是可能存在一段音频没有对应文字的可能性，如现场播放歌曲等情况。这就涉及到如何将NLP服务器返回的二次文本与音频段一一对应的问题。本实施例中，解决这一问题的方法是，若音频段没有与之对应的文本，会议速记终端在日志文件中予以标记，协同编辑服务器根据日志文件将音频段和二次文本进行一一对应，如果遇到某个音频段存在标记，就将其跳过，以免出现文本与音频段对应错误的问题出现。会议速记终端如何知晓哪一段音频段没有对应的文本，这是通过ASR服务器返回的数据判断，例如将开始时间、结束时间、音频编号其中的一种信息或多种信息进行融合形成特征信息连通音频段一起发送给ASR服务器，ASR服务器返回携带该特征信息的一次文本，会议速记终端就可以知晓此音频段有没有对应文本发送过来。当然，实现方法不限于此。

由于会议速记终端、ASR服务器、NLP服务器、协同编辑服务器、人工编辑终端都是通过网络连接，会议进行过程中，可能发生网络中断的情况。当会议速记终端检测到网络中断时，停止向ASR服务器/NLP服务器发送数据，并将数据暂时存放于内存中，当网络再次连接时，通过内存将数据有序发送给ASR服务器/NLP服务器，避免网络重连后，ASR服务器/NLP服务器集中接收到音频数据，误认为遭受到攻击，而关闭会议速记终端与其之间的连接。为防止会议速记终端与协同编辑服务器之间出现断网情况，协同编辑服务器内存有备份的会议音频。备份的会议音频，可以用于会议结束后，人工编辑终端再调取会议音频对会议记录进行修正，而不是必须在会议过程中对会议记录进行修正；同时，也可以防止会议速记终端与协同编辑服务器之间存在传输障碍时，人工编辑终端无法获取音频信息的问题发生。

人工编辑终端具备多种形式的汉字编码转换功能，直接将输入的文本格式转换成输出的文本格式，不存在二次转换，减少因文字转码产生的错误。

为了方便参会人员获取会议音频和会议记录，所述会议速记终端设有显示器，用于对会议记录进行实时显示，还用于显示会议记录二维码，参会人员通过扫描该二维码即可通过协同编辑服务器获取会议音频和会议记录，具体的方式可以是，参会人员关注微信公众号，扫描该二维码后，协同编辑服务器通过公众号向参会人员发送包含会议音频和会议记录的链接，链接中还可以包括会议名称、会议时间等信息，参会人员打开微信公众号中对应的会议链接，即可获取会议音频和会议记录。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种会议速记***，其特征在于，主要由收录会议音频的会议速记终端、提供语音识别服务的ASR服务器、提供自然语言处理服务的NLP服务器、提供后台支持的协同编辑服务器和用于修正会议记录的人工编辑终端构成，所述会议速记终端分别与所述ASR服务器、所述NLP服务器、所述协同编辑服务器双向连接，所述协同编辑服务器与所述人工编辑终端双向连接；

所述会议速记终端按照自然句对音频流进行切割，并将切割后的音频段按序发送至所述ASR服务器；

所述ASR服务器将音频段内容转换成一次文本并返回至所述会议速记终端，所述会议速记终端再将所述ASR服务器返回的一次文本发送至所述NLP服务器；

所述NLP服务器用于将所述ASR服务器生成的一次文本按照自然语言进行自动修正，并将修正后的二次文本返回至所述会议速记终端；

所述会议速记终端将音频段、二次文本和日志文件发送至所述协同编辑服务器，所述日志文件包括但不限于音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本；

所述协同编辑服务器根据所述日志文件将音频段和二次文本进行一一对应；所述人工编辑终端用于根据一一对应的音频段和二次文本进行会议记录的人工修正。

2.根据权利要求1所述的会议速记***，其特征在于，所述会议速记终端设有显示器，用于对会议记录进行实时显示，还用于显示会议记录二维码，参会人员通过扫描该二维码即可通过所述协同编辑服务器获取会议音频和会议记录。

3.一种基于权利要求1所述的会议速记***的会议速记方法，其特征在于，至少包括以下步骤：

S1，会议进行时，会议速记终端按照自然句对音频流进行切割，并将切割后的音频段按序发送至ASR服务器；

S2，ASR服务器将音频段内容转换成一次文本并返回至会议速记终端，会议速记终端再将ASR服务器返回的一次文本发送至NLP服务器；

S3，NLP服务器用于将ASR服务器生成的一次文本按照自然语言进行自动修正，并将修正后的二次文本返回至会议速记终端；

S4，会议速记终端将音频段、二次文本和日志文件发送至协同编辑服务器，协同编辑服务器根据日志文件将音频段和二次文本进行一一对应；

S5，人工编辑终端用于根据一一对应的音频段和二次文本进行会议记录的人工修正。

4.根据权利要求3所述的会议速记方法，其特征在于，会议速记终端对每一段音频和文本进行编号。

5.根据权利要求4所述的会议速记方法，其特征在于，若音频段没有对应的文本，会议速记终端在日志文件中予以标记。

6.根据权利要求4所述的会议速记方法，其特征在于，音频段时长限制在60s以内。

7.根据权利要求4所述的会议速记方法，其特征在于，会议速记终端切割音频流的同时，复制音频流并发送至协同编辑服务器。

8.根据权利要求4所述的会议速记方法，其特征在于，当会议速记终端检测到网络中断时，停止向ASR服务器/NLP服务器发送数据，并将数据暂时存放于内存中，当网络再次连接时，通过内存将数据有序发送给ASR服务器/NLP服务器。