CN109741754A

CN109741754A - 一种会议语音识别方法及***、存储介质及终端

Info

Publication number: CN109741754A
Application number: CN201811504259.4A
Authority: CN
Inventors: 杨进玉; 许佑骏; 刘旭峰
Original assignee: Shanghai Huaxin Strong Information Technology Co Ltd
Current assignee: Shanghai Huaxin Strong Information Technology Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-10

Abstract

本发明提供一种会议语音识别方法及***、存储介质及终端，包括以下步骤：提取会议参与人的声纹特征，构建会议参与人的声纹特征库；获取会议语音数据，当会议语音数据包含至少两个会议发言人的语音数据时，将会议语音数据分离为与至少两个会议发言人一一对应的发言人语音数据；对于每个发言人语音数据，提取发言人语音数据的声纹特征，查找匹配的声纹特征并判定匹配的声纹特征对应的会议参与人为发言人语音数据对应的会议发言人；对于每个发言人语音数据，文本输出文本数据、会议发言人和发言时间信息。本发明的会议语音识别方法及***、存储介质及终端。本发明的会议语音识别方法及***、存储介质及终端提升了多人会议语音识别的实用性。

Description

一种会议语音识别方法及***、存储介质及终端

技术领域

本发明涉及语音识别的技术领域，特别是涉及一种会议语音识别方法及***、存储介质及终端。

背景技术

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

现有技术中，语音识别的应用场景越来越多，常见的应用***有：

(1)语音输入***

相对于键盘输入方法，语音输入更符合人的日常习惯，也更自然、更高效。

(2)语音控制***

用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号***、智能家电、声控智能玩具等许多领域。

(3)智能对话查询***

根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务***、订票***、医疗服务、银行服务、股票查询服务等等。

(4)会议记录

在目前智能会议的时代，对于会议中报告及记录的方式，早已摆脱了早期传统的利用专人将会议过程记录于纸张中的人工操作及人工记录时代，而是迈入了利用将会议成员的电脑与投影机连接以播放PPT报告资料，及利用摄影机、麦克风等影音采集设备来直接拍摄、收集会议过程的电子资料的会议时代。然而，现有技术中的智能会议的方式虽可改善早期浪费人力的缺点，但是对于会议开始后的会议记录的整理及备份，说话人的标识、分段、会议纪要的提取等仍需浪费大量人力资源及时间成本。另一方面，保存摄影机及麦克风所采集的资料需要很多电子存储设备进行储存，不便于日后查找、检索与回顾。

随着语音识别技术的飞速发展，语音识别率有很大的提高，并且能够识别的语音内容，经过持续的训练和语料库的不断沉淀也极大的丰富了语音识别的应用场景。智慧会议时代，将会议语音信息转化为文字资料的趋势逐渐成型，一部分公司如讯飞、BAT等已在通用语音识别转换领域有了非常广泛的应用。

然而，通过一个通用的语音识别平台，通过在单人发言时将语音转化为文本来记录会议过程的原始信息已经不是智慧会议的核心任务和功能。智能会议的核心任务和功能是在复杂场景下，当多个人同时参与讨论发言时进行语音识别。然而，多个人同时参与的会议的语音识别存在语音的多模场景，导致多种声纹模型重叠，故存在以下缺陷：

(1)指代词不明确，不知道发言人身份，导致会议记录混乱；

(2)无法还原会议时的场景，会议记录仍然需要大量人力对会议记录进行整理分段。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种会议语音识别方法及***、存储介质及终端，能够在多人发言讨论时，通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录，从而能够重现会议场景。

为实现上述目的及其他相关目的，本发明提供一种会议语音识别方法，包括以下步骤：提取会议参与人的声纹特征，构建所述会议参与人的声纹特征库；获取会议语音数据，当所述会议语音数据包含至少两个会议发言人的语音数据时，将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据；对于每个发言人语音数据，提取所述发言人语音数据的声纹特征，在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人；对于每个发言人语音数据，将所述发言人语音数据转换为文本数据和发言人时间信息，并文本输出所述文本数据、对应的会议发言人和发言时间信息。

于本发明一实施例中，每个发言人语音数据对应的所述文本数据、对应的会议发言人和发言时间信息单独作为一段输出。

于本发明一实施例中，在所述声纹特征库中查找匹配的声纹特征时，若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值，则判定二者匹配；若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时，选取匹配度最高的声纹特征作为匹配声纹特征，并在输出的会议发言人上设置提醒信息。

于本发明一实施例中，在所述声纹特征库中查找匹配的声纹特征时，若没有匹配的声纹特征，则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息。

于本发明一实施例中，还包括对于下一会议语音数据，判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同，若是，则将下一会议语音数据的文本数据与所述在前会议语音数据的文本合并输出；若否，单独输出所述下一会议语音数据的文本数据、对应的会议发言人和发言时间信息。

于本发明一实施例中，按照时间先后顺序依次输出所述会议语音数据对应的文本数据、会议发言人和发言时间信息；当同一时间有多个会议发言人时，所述多个会议发言人对应的文本数据、会议发言人和发言时间信息随机输出。

对应地，本发明提供一种会议语音识别***，包括构建模块、分离模块、匹配模块和识别模块；

所述构建模块用于提取会议参与人的声纹特征，构建所述会议参与人的声纹特征库；

所述分离模块用于获取会议语音数据，当所述会议语音数据包含至少两个会议发言人的语音数据时，将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据；

所述匹配模块用于对于每个发言人语音数据，提取所述发言人语音数据的声纹特征，在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人；

所述识别模块用于对于每个发言人语音数据，将所述发言人语音数据转换为文本数据和发言人时间信息，并文本输出所述文本数据、对应的会议发言人和发言时间信息。

本发明提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的会议语音识别方法。

本发明提供一种终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的会议语音识别方法。

最后，本发明提供一种会议语音识别***，包括上述的终端和语音采集模块；

所述语音采集模块用于采集会议语音数据并发送至所述终端。

如上所述，本发明的会议语音识别方法及***、存储介质及终端，具有以下有益效果：

(1)能够在多人发言讨论时，通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录，从而能够重现会议场景；

(2)标识分段功能使会议记录更加清晰，发言人身份和发言时间的记录功能省去了因会议记录混乱而需要人工整理的时间；

(3)文档化的会议记录便于储存查阅。

附图说明

图1显示为本发明的会议语音识别方法于一实施例中的流程图；

图2显示为本发明的会议语音识别方法于一实施例中的框架图；

图3显示为本发明的会议语音识别***于一实施例中的结构示意图；

图4显示为本发明的终端于一实施例中的结构示意图；

图5显示为本发明的会议语音识别***于另一实施例中的结构示意图。

元件标号说明

31 构建模块

32 分离模块

33 匹配模块

34 识别模块

41 处理器

42 存储器

51 终端

52 语音采集模块

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

本发明的会议语音识别方法及***、存储介质及终端能够在多人发言讨论时，通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录，从而能够重现会议场景，减少了人工会议记录的工作量，便于整理查阅。

如图1所示，于一实施例中，本发明的会议语音识别方法包括以下步骤：

步骤S1、提取会议参与人的声纹特征，构建所述会议参与人的声纹特征库。

具体地，声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。基于声纹的这两个特征，可以基于声纹进行说话人识别。在本发明中，预先提取会议参与人的声纹特征，并利用提取的声纹特征构建声纹特征库。在所述声纹特征库中，记录有声纹特征及声纹特征对应的会议参与人的识别信息。其中，所述识别信息可以是会议参与人的姓名、身份证号码、工作编号中的一种或多种组合。

具体地，在提取声纹特征时，根据声纹储备***的提示，会议参与人读一段10s以上的语音，***提取该会议参与人的音色、频率、响度等声纹特征，并将所有的声纹特征储存起来，与会议参与人的个人信息相匹配，建立声纹特征库。如有新的会议参与人进入，或有会议参与人尚未储存声纹特征，可进行声纹特征的补充提取，将声纹特征添加到声纹特征库中。需要说明的是，本发明的声纹特征库有覆盖功能，若不够精确或其他特殊原因，会议参与人可重新录入声纹特征，进行信息覆盖，上一次声纹特征自动删除。其中，可以通过统一的终端进行声纹提取，也可以通过移动终端进行声纹提取。

步骤S2、获取会议语音数据，当所述会议语音数据包含至少两个会议发言人的语音数据时，将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据。

具体地，通过内置或外置的语音采集模块采集会议进行时的会议语音数据。其中，所述会议语音数据包括语音音频、发言时间信息等组合信息。所述发言时间信息可以包括发言起始时间和发言结束时间中的一种或组合。

其中，在理想会议场景情况下，整个会议过程会有多个人发言，假定会议发言有序进行，没有相互打断、干扰、不存在多人同时发言情景，则识别到不同声纹特征时，进而能够识别每个声纹特征对应的会议发言人。

在复杂会议场景情况下，整个会议过程会有多个发言人，并且发言过程存在各种各样突发情况，有可能突然被打断被另外发言人进行反驳、或者其他发言人***式的干扰、存在多人同时发言情景。此时需要对所述会议语音数据进行语音分离，将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据，即各个发言人语音数据相互独立，互不干扰。优选地，基于开源语音识别框架ASRT_SpeechRecognition进行会议语音数据分离及语音识别。

步骤S3、对于每个发言人语音数据，提取所述发言人语音数据的声纹特征，在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人。

具体地，对于分离得到的每个发言人语音数据，提取所述发言人语音数据的声纹特征，基于声纹特征匹配的原则，在所述声纹特征库中查找与所述发言人语音数据的声纹特征相匹配的声纹特征，并将匹配的声纹特征对应的会议参与人判定为所述发言人语音数据对应的会议发言人，从而完成了发言人语音识别。

于本发明一实施例中，在所述声纹特征库中查找匹配的声纹特征时，若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值，则判定二者匹配，匹配的声纹特征对应的会议参与人判定为所述发言人语音数据对应的会议发言人。若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时，选取匹配度最高的声纹特征作为匹配声纹特征，并将匹配得到的会议发言人进行高亮显示，以提示后续进行人工校正。若没有匹配的声纹特征，则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息，如参与人1、参与人2等等。若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度小于预设阈值，则将匹配得到的会议发言人进行高亮显示，以提示后续进行人工校正。

步骤S4、对于每个发言人语音数据，将所述发言人语音数据转换为文本数据和发言人时间信息，并文本输出所述文本数据、对应的会议发言人和发言时间信息。

具体地，完成语音分离之后，对于每个发言人语音数据，通过ASRT平台将所述发言人语音数据转换为文本数据和发言人时间信息，从而得到文本化的语音数据和发言人时间信息。其中，所述文本转换可以是实时转换，也可以是离线转换。

在获取所述文本数据之后，将文本数据、对应的会议发言人和发言时间信息一同以文本形式进行输出，作为一条完整的会议记录。也就是说，每条会议记录不仅包含有记录发言内容的文本数据，还包含有发言人信息和发言时间信息，从而能够重现整个会议过程。其中，按照时间先后顺序依次输出所述会议语音数据对应的文本数据、会议发言人和发言时间信息；当同一时间有多个会议发言人时，所述多个会议发言人对应的文本数据、会议发言人和发言时间信息随机输出，先后顺序不做要求。

如图2所示的实施例中，2018年11月2日的一次会议中，John在13：:00发言：“关于这个议题大家有什么问题？”Bob在13:02发言：“我有一个问题，这个项目的截止时间是什么时候？”Mike在13:02与Bob同时发言：“我没什么问题了。”John在13：08发言：“时间问题我们有必要进一步进行探讨。”以上对话，经过语音分离以及分段处理***的处理后，应识别为以下文字会议记录：

John：关于这个议题大家有什么问题？

(2018/11/02 13:00)

Mike：我没什么问题了。

(2018/11/02 13:03)

Bob：我有一个问题，这个项目的截止时间是什么时候？

(2018/11/02 13:03)

John：时间问题我们有必要进一步进行探讨。

(2018/11/02 13:08)

于本发明一实施例中，对于每个发言人语音数据，均单独作为一段输出其对应的文本数据、对应的会议发言人和发言时间信息，从而实现狐会议记录的自动分段。具体地，当一个会议发言人发言完毕，识别到另一会议发言人发言时，自动切换到下一段进行会议记录。

于本发明一实施例中，由于会议发言人的发言可能要持续一段时间，对当前会议语音数据进行识别完毕后，获取下一会议语音数据，判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同，若是，则将下一会议语音数据的文本数据与所述在前会议语音数据的文本合，作为一个段落合并输出；若否，自动切换至下一段落，单独输出所述下一会议语音数据的文本数据、对应的会议发言人和发言时间信息。

如图3所示，于一实施例中，本发明的会议语音识别***包括构建模块31、分离模块32、匹配模块33和识别模块34。

所述构建模块31用于提取会议参与人的声纹特征，构建所述会议参与人的声纹特征库；

所述分离模块32用于获取会议语音数据，当所述会议语音数据包含至少两个会议发言人的语音数据时，将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据；

所述匹配模块33与所述构建模块31和所述分离模块32相连，用于对于每个发言人语音数据，提取所述发言人语音数据的声纹特征，在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人；

所述识别模块34与所述匹配模块33和所述分离模块32相连，用于对于每个发言人语音数据，将所述发言人语音数据转换为文本数据和发言人时间信息，并文本输出所述文本数据、对应的会议发言人和发言时间信息。

需要说明的是，上述构建模块31、分离模块32、匹配模块33和识别模块34的结构和原理与所述会议语音识别方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的会议语音识别方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图4所示，于一实施例中，本发明的终端包括：处理器41及存储器42。

所述存储器42用于存储计算机程序。

所述存储器42包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器41与所述存储器42相连，用于执行所述存储器42存储的计算机程序，以使所述终端执行上述的会议语音识别方法。

优选地，所述处理器41可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图5所示，于一实施例中，本发明的会议语音识别***包括上述的终端51和语音采集模块52。

所述语音采集模块52与所述终端51相连，用于采集会议语音数据并发送至所述终端51。

优选地，所述语音采集模块52内置于所述终端51，或设置在所述终端51外部，通过无线方式与所述终端51通信。

综上所述，本发明的会议语音识别方法及***、存储介质及终端能够在多人发言讨论时，通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录，从而能够重现会议场景；标识分段功能使会议记录更加清晰，发言人身份和发言时间的记录功能省去了因会议记录混乱而需要人工整理的时间；文档化的会议记录便于储存查阅。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种会议语音识别方法，其特征在于：包括以下步骤：

提取会议参与人的声纹特征，构建所述会议参与人的声纹特征库；

获取会议语音数据，当所述会议语音数据包含至少两个会议发言人的语音数据时，将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据；

对于每个发言人语音数据，提取所述发言人语音数据的声纹特征，在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人；

对于每个发言人语音数据，将所述发言人语音数据转换为文本数据和发言人时间信息，并文本输出所述文本数据、对应的会议发言人和发言时间信息。

2.根据权利要求1所述的会议语音识别方法，其特征在于：每个发言人语音数据对应的所述文本数据、对应的会议发言人和发言时间信息单独作为一段输出。

3.根据权利要求1所述的会议语音识别方法，其特征在于：在所述声纹特征库中查找匹配的声纹特征时，若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值，则判定二者匹配；若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时，选取匹配度最高的声纹特征作为匹配声纹特征，并在输出的会议发言人上设置提醒信息。

4.根据权利要求1所述的会议语音识别方法，其特征在于：在所述声纹特征库中查找匹配的声纹特征时，若没有匹配的声纹特征，则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息。

5.根据权利要求1所述的会议语音识别方法，其特征在于：还包括对于下一会议语音数据，判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同，若是，则将下一会议语音数据的文本数据与所述在前会议语音数据的文本合并输出；若否，单独输出所述下一会议语音数据的文本数据、对应的会议发言人和发言时间信息。

6.根据权利要求1所述的会议语音识别方法，其特征在于：按照时间先后顺序依次输出所述会议语音数据对应的文本数据、会议发言人和发言时间信息；当同一时间有多个会议发言人时，所述多个会议发言人对应的文本数据、会议发言人和发言时间信息随机输出。

7.一种会议语音识别***，其特征在于：包括构建模块、分离模块、匹配模块和识别模块；

8.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一所述的会议语音识别方法。

9.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至6中任一所述的会议语音识别方法。

10.一种会议语音识别***，其特征在于：包括权利要求9所述的终端和语音采集模块；