CN109741754A - 一种会议语音识别方法及***、存储介质及终端 - Google Patents

一种会议语音识别方法及***、存储介质及终端 Download PDF

Info

Publication number
CN109741754A
CN109741754A CN201811504259.4A CN201811504259A CN109741754A CN 109741754 A CN109741754 A CN 109741754A CN 201811504259 A CN201811504259 A CN 201811504259A CN 109741754 A CN109741754 A CN 109741754A
Authority
CN
China
Prior art keywords
conference
voice data
vocal print
spokesman
print feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811504259.4A
Other languages
English (en)
Inventor
杨进玉
许佑骏
刘旭峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huaxin Strong Information Technology Co Ltd
Original Assignee
Shanghai Huaxin Strong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huaxin Strong Information Technology Co Ltd filed Critical Shanghai Huaxin Strong Information Technology Co Ltd
Priority to CN201811504259.4A priority Critical patent/CN109741754A/zh
Publication of CN109741754A publication Critical patent/CN109741754A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种会议语音识别方法及***、存储介质及终端,包括以下步骤:提取会议参与人的声纹特征,构建会议参与人的声纹特征库;获取会议语音数据,当会议语音数据包含至少两个会议发言人的语音数据时,将会议语音数据分离为与至少两个会议发言人一一对应的发言人语音数据;对于每个发言人语音数据,提取发言人语音数据的声纹特征,查找匹配的声纹特征并判定匹配的声纹特征对应的会议参与人为发言人语音数据对应的会议发言人;对于每个发言人语音数据,文本输出文本数据、会议发言人和发言时间信息。本发明的会议语音识别方法及***、存储介质及终端。本发明的会议语音识别方法及***、存储介质及终端提升了多人会议语音识别的实用性。

Description

一种会议语音识别方法及***、存储介质及终端
技术领域
本发明涉及语音识别的技术领域,特别是涉及一种会议语音识别方法及***、存储介质及终端。
背景技术
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
现有技术中,语音识别的应用场景越来越多,常见的应用***有:
(1)语音输入***
相对于键盘输入方法,语音输入更符合人的日常习惯,也更自然、更高效。
(2)语音控制***
用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号***、智能家电、声控智能玩具等许多领域。
(3)智能对话查询***
根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务***、订票***、医疗服务、银行服务、股票查询服务等等。
(4)会议记录
在目前智能会议的时代,对于会议中报告及记录的方式,早已摆脱了早期传统的利用专人将会议过程记录于纸张中的人工操作及人工记录时代,而是迈入了利用将会议成员的电脑与投影机连接以播放PPT报告资料,及利用摄影机、麦克风等影音采集设备来直接拍摄、收集会议过程的电子资料的会议时代。然而,现有技术中的智能会议的方式虽可改善早期浪费人力的缺点,但是对于会议开始后的会议记录的整理及备份,说话人的标识、分段、会议纪要的提取等仍需浪费大量人力资源及时间成本。另一方面,保存摄影机及麦克风所采集的资料需要很多电子存储设备进行储存,不便于日后查找、检索与回顾。
随着语音识别技术的飞速发展,语音识别率有很大的提高,并且能够识别的语音内容,经过持续的训练和语料库的不断沉淀也极大的丰富了语音识别的应用场景。智慧会议时代,将会议语音信息转化为文字资料的趋势逐渐成型,一部分公司如讯飞、BAT等已在通用语音识别转换领域有了非常广泛的应用。
然而,通过一个通用的语音识别平台,通过在单人发言时将语音转化为文本来记录会议过程的原始信息已经不是智慧会议的核心任务和功能。智能会议的核心任务和功能是在复杂场景下,当多个人同时参与讨论发言时进行语音识别。然而,多个人同时参与的会议的语音识别存在语音的多模场景,导致多种声纹模型重叠,故存在以下缺陷:
(1)指代词不明确,不知道发言人身份,导致会议记录混乱;
(2)无法还原会议时的场景,会议记录仍然需要大量人力对会议记录进行整理分段。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种会议语音识别方法及***、存储介质及终端,能够在多人发言讨论时,通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录,从而能够重现会议场景。
为实现上述目的及其他相关目的,本发明提供一种会议语音识别方法,包括以下步骤:提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。
于本发明一实施例中,每个发言人语音数据对应的所述文本数据、对应的会议发言人和发言时间信息单独作为一段输出。
于本发明一实施例中,在所述声纹特征库中查找匹配的声纹特征时,若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值,则判定二者匹配;若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时,选取匹配度最高的声纹特征作为匹配声纹特征,并在输出的会议发言人上设置提醒信息。
于本发明一实施例中,在所述声纹特征库中查找匹配的声纹特征时,若没有匹配的声纹特征,则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息。
于本发明一实施例中,还包括对于下一会议语音数据,判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同,若是,则将下一会议语音数据的文本数据与所述在前会议语音数据的文本合并输出;若否,单独输出所述下一会议语音数据的文本数据、对应的会议发言人和发言时间信息。
于本发明一实施例中,按照时间先后顺序依次输出所述会议语音数据对应的文本数据、会议发言人和发言时间信息;当同一时间有多个会议发言人时,所述多个会议发言人对应的文本数据、会议发言人和发言时间信息随机输出。
对应地,本发明提供一种会议语音识别***,包括构建模块、分离模块、匹配模块和识别模块;
所述构建模块用于提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;
所述分离模块用于获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;
所述匹配模块用于对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;
所述识别模块用于对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。
本发明提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的会议语音识别方法。
本发明提供一种终端,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的会议语音识别方法。
最后,本发明提供一种会议语音识别***,包括上述的终端和语音采集模块;
所述语音采集模块用于采集会议语音数据并发送至所述终端。
如上所述,本发明的会议语音识别方法及***、存储介质及终端,具有以下有益效果:
(1)能够在多人发言讨论时,通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录,从而能够重现会议场景;
(2)标识分段功能使会议记录更加清晰,发言人身份和发言时间的记录功能省去了因会议记录混乱而需要人工整理的时间;
(3)文档化的会议记录便于储存查阅。
附图说明
图1显示为本发明的会议语音识别方法于一实施例中的流程图;
图2显示为本发明的会议语音识别方法于一实施例中的框架图;
图3显示为本发明的会议语音识别***于一实施例中的结构示意图;
图4显示为本发明的终端于一实施例中的结构示意图;
图5显示为本发明的会议语音识别***于另一实施例中的结构示意图。
元件标号说明
31 构建模块
32 分离模块
33 匹配模块
34 识别模块
41 处理器
42 存储器
51 终端
52 语音采集模块
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
本发明的会议语音识别方法及***、存储介质及终端能够在多人发言讨论时,通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录,从而能够重现会议场景,减少了人工会议记录的工作量,便于整理查阅。
如图1所示,于一实施例中,本发明的会议语音识别方法包括以下步骤:
步骤S1、提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库。
具体地,声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不相同。基于声纹的这两个特征,可以基于声纹进行说话人识别。在本发明中,预先提取会议参与人的声纹特征,并利用提取的声纹特征构建声纹特征库。在所述声纹特征库中,记录有声纹特征及声纹特征对应的会议参与人的识别信息。其中,所述识别信息可以是会议参与人的姓名、身份证号码、工作编号中的一种或多种组合。
具体地,在提取声纹特征时,根据声纹储备***的提示,会议参与人读一段10s以上的语音,***提取该会议参与人的音色、频率、响度等声纹特征,并将所有的声纹特征储存起来,与会议参与人的个人信息相匹配,建立声纹特征库。如有新的会议参与人进入,或有会议参与人尚未储存声纹特征,可进行声纹特征的补充提取,将声纹特征添加到声纹特征库中。需要说明的是,本发明的声纹特征库有覆盖功能,若不够精确或其他特殊原因,会议参与人可重新录入声纹特征,进行信息覆盖,上一次声纹特征自动删除。其中,可以通过统一的终端进行声纹提取,也可以通过移动终端进行声纹提取。
步骤S2、获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据。
具体地,通过内置或外置的语音采集模块采集会议进行时的会议语音数据。其中,所述会议语音数据包括语音音频、发言时间信息等组合信息。所述发言时间信息可以包括发言起始时间和发言结束时间中的一种或组合。
其中,在理想会议场景情况下,整个会议过程会有多个人发言,假定会议发言有序进行,没有相互打断、干扰、不存在多人同时发言情景,则识别到不同声纹特征时,进而能够识别每个声纹特征对应的会议发言人。
在复杂会议场景情况下,整个会议过程会有多个发言人,并且发言过程存在各种各样突发情况,有可能突然被打断被另外发言人进行反驳、或者其他发言人***式的干扰、存在多人同时发言情景。此时需要对所述会议语音数据进行语音分离,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据,即各个发言人语音数据相互独立,互不干扰。优选地,基于开源语音识别框架ASRT_SpeechRecognition进行会议语音数据分离及语音识别。
步骤S3、对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人。
具体地,对于分离得到的每个发言人语音数据,提取所述发言人语音数据的声纹特征,基于声纹特征匹配的原则,在所述声纹特征库中查找与所述发言人语音数据的声纹特征相匹配的声纹特征,并将匹配的声纹特征对应的会议参与人判定为所述发言人语音数据对应的会议发言人,从而完成了发言人语音识别。
于本发明一实施例中,在所述声纹特征库中查找匹配的声纹特征时,若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值,则判定二者匹配,匹配的声纹特征对应的会议参与人判定为所述发言人语音数据对应的会议发言人。若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时,选取匹配度最高的声纹特征作为匹配声纹特征,并将匹配得到的会议发言人进行高亮显示,以提示后续进行人工校正。若没有匹配的声纹特征,则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息,如参与人1、参与人2等等。若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度小于预设阈值,则将匹配得到的会议发言人进行高亮显示,以提示后续进行人工校正。
步骤S4、对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。
具体地,完成语音分离之后,对于每个发言人语音数据,通过ASRT平台将所述发言人语音数据转换为文本数据和发言人时间信息,从而得到文本化的语音数据和发言人时间信息。其中,所述文本转换可以是实时转换,也可以是离线转换。
在获取所述文本数据之后,将文本数据、对应的会议发言人和发言时间信息一同以文本形式进行输出,作为一条完整的会议记录。也就是说,每条会议记录不仅包含有记录发言内容的文本数据,还包含有发言人信息和发言时间信息,从而能够重现整个会议过程。其中,按照时间先后顺序依次输出所述会议语音数据对应的文本数据、会议发言人和发言时间信息;当同一时间有多个会议发言人时,所述多个会议发言人对应的文本数据、会议发言人和发言时间信息随机输出,先后顺序不做要求。
如图2所示的实施例中,2018年11月2日的一次会议中,John在13::00发言:“关于这个议题大家有什么问题?”Bob在13:02发言:“我有一个问题,这个项目的截止时间是什么时候?”Mike在13:02与Bob同时发言:“我没什么问题了。”John在13:08发言:“时间问题我们有必要进一步进行探讨。”以上对话,经过语音分离以及分段处理***的处理后,应识别为以下文字会议记录:
John:关于这个议题大家有什么问题?
(2018/11/02 13:00)
Mike:我没什么问题了。
(2018/11/02 13:03)
Bob:我有一个问题,这个项目的截止时间是什么时候?
(2018/11/02 13:03)
John:时间问题我们有必要进一步进行探讨。
(2018/11/02 13:08)
于本发明一实施例中,对于每个发言人语音数据,均单独作为一段输出其对应的文本数据、对应的会议发言人和发言时间信息,从而实现狐会议记录的自动分段。具体地,当一个会议发言人发言完毕,识别到另一会议发言人发言时,自动切换到下一段进行会议记录。
于本发明一实施例中,由于会议发言人的发言可能要持续一段时间,对当前会议语音数据进行识别完毕后,获取下一会议语音数据,判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同,若是,则将下一会议语音数据的文本数据与所述在前会议语音数据的文本合,作为一个段落合并输出;若否,自动切换至下一段落,单独输出所述下一会议语音数据的文本数据、对应的会议发言人和发言时间信息。
如图3所示,于一实施例中,本发明的会议语音识别***包括构建模块31、分离模块32、匹配模块33和识别模块34。
所述构建模块31用于提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;
所述分离模块32用于获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;
所述匹配模块33与所述构建模块31和所述分离模块32相连,用于对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;
所述识别模块34与所述匹配模块33和所述分离模块32相连,用于对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。
需要说明的是,上述构建模块31、分离模块32、匹配模块33和识别模块34的结构和原理与所述会议语音识别方法中的步骤一一对应,故在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的会议语音识别方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图4所示,于一实施例中,本发明的终端包括:处理器41及存储器42。
所述存储器42用于存储计算机程序。
所述存储器42包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器41与所述存储器42相连,用于执行所述存储器42存储的计算机程序,以使所述终端执行上述的会议语音识别方法。
优选地,所述处理器41可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图5所示,于一实施例中,本发明的会议语音识别***包括上述的终端51和语音采集模块52。
所述语音采集模块52与所述终端51相连,用于采集会议语音数据并发送至所述终端51。
优选地,所述语音采集模块52内置于所述终端51,或设置在所述终端51外部,通过无线方式与所述终端51通信。
综上所述,本发明的会议语音识别方法及***、存储介质及终端能够在多人发言讨论时,通过语音分离、发言人标识、发言分段将会议语音转为包含有发言人标识且自动分段的会议记录,从而能够重现会议场景;标识分段功能使会议记录更加清晰,发言人身份和发言时间的记录功能省去了因会议记录混乱而需要人工整理的时间;文档化的会议记录便于储存查阅。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种会议语音识别方法,其特征在于:包括以下步骤:
提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;
获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;
对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;
对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。
2.根据权利要求1所述的会议语音识别方法,其特征在于:每个发言人语音数据对应的所述文本数据、对应的会议发言人和发言时间信息单独作为一段输出。
3.根据权利要求1所述的会议语音识别方法,其特征在于:在所述声纹特征库中查找匹配的声纹特征时,若所述声纹特征库中某一声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值,则判定二者匹配;若所述声纹特征库中至少两个声纹特征与所述发言人语音数据的声纹特征的匹配度大于预设阈值时,选取匹配度最高的声纹特征作为匹配声纹特征,并在输出的会议发言人上设置提醒信息。
4.根据权利要求1所述的会议语音识别方法,其特征在于:在所述声纹特征库中查找匹配的声纹特征时,若没有匹配的声纹特征,则将所述发言人语音数据对应的会议发言人设置为预设发言人标识信息。
5.根据权利要求1所述的会议语音识别方法,其特征在于:还包括对于下一会议语音数据,判断所述下一会议语音数据的会议发言人是否与在前会议语音数据的会议发言人相同,若是,则将下一会议语音数据的文本数据与所述在前会议语音数据的文本合并输出;若否,单独输出所述下一会议语音数据的文本数据、对应的会议发言人和发言时间信息。
6.根据权利要求1所述的会议语音识别方法,其特征在于:按照时间先后顺序依次输出所述会议语音数据对应的文本数据、会议发言人和发言时间信息;当同一时间有多个会议发言人时,所述多个会议发言人对应的文本数据、会议发言人和发言时间信息随机输出。
7.一种会议语音识别***,其特征在于:包括构建模块、分离模块、匹配模块和识别模块;
所述构建模块用于提取会议参与人的声纹特征,构建所述会议参与人的声纹特征库;
所述分离模块用于获取会议语音数据,当所述会议语音数据包含至少两个会议发言人的语音数据时,将所述会议语音数据分离为与所述至少两个会议发言人一一对应的发言人语音数据;
所述匹配模块用于对于每个发言人语音数据,提取所述发言人语音数据的声纹特征,在所述声纹特征库中查找匹配的声纹特征并判定所述匹配的声纹特征对应的会议参与人为所述发言人语音数据对应的会议发言人;
所述识别模块用于对于每个发言人语音数据,将所述发言人语音数据转换为文本数据和发言人时间信息,并文本输出所述文本数据、对应的会议发言人和发言时间信息。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一所述的会议语音识别方法。
9.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至6中任一所述的会议语音识别方法。
10.一种会议语音识别***,其特征在于:包括权利要求9所述的终端和语音采集模块;
所述语音采集模块用于采集会议语音数据并发送至所述终端。
CN201811504259.4A 2018-12-10 2018-12-10 一种会议语音识别方法及***、存储介质及终端 Pending CN109741754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811504259.4A CN109741754A (zh) 2018-12-10 2018-12-10 一种会议语音识别方法及***、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811504259.4A CN109741754A (zh) 2018-12-10 2018-12-10 一种会议语音识别方法及***、存储介质及终端

Publications (1)

Publication Number Publication Date
CN109741754A true CN109741754A (zh) 2019-05-10

Family

ID=66358803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811504259.4A Pending CN109741754A (zh) 2018-12-10 2018-12-10 一种会议语音识别方法及***、存储介质及终端

Country Status (1)

Country Link
CN (1) CN109741754A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110335621A (zh) * 2019-05-28 2019-10-15 深圳追一科技有限公司 音频处理的方法、***及相关设备
CN110580907A (zh) * 2019-08-28 2019-12-17 云知声智能科技股份有限公司 一种多人发言场景的语音识别方法和***
CN110648553A (zh) * 2019-09-26 2020-01-03 北京声智科技有限公司 一种站点提醒方法、电子设备及计算机可读存储介质
CN110827849A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
CN110827853A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 语音特征信息提取方法、终端及可读存储介质
CN111048095A (zh) * 2019-12-24 2020-04-21 苏州思必驰信息科技有限公司 一种语音转写方法、设备及计算机可读存储介质
CN111312260A (zh) * 2020-04-16 2020-06-19 厦门快商通科技股份有限公司 一种人声分离方法和装置以及设备
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质
CN111523126A (zh) * 2020-03-19 2020-08-11 浙江省北大信息技术高等研究院 会议记录的权限管理方法、装置及存储介质
CN111583932A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种基于人声模型的声音分离方法和装置以及设备
CN111583953A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种基于声纹特征的人声分离方法和装置以及设备
CN111785271A (zh) * 2020-05-15 2020-10-16 深圳奥尼电子股份有限公司 语音识别处理方法及***、电子设备
CN111833876A (zh) * 2020-07-14 2020-10-27 科大讯飞股份有限公司 会议发言控制方法、***、电子设备及存储介质
CN111933144A (zh) * 2020-10-09 2020-11-13 融智通科技(北京)股份有限公司 后创建声纹的会议语音转写方法、装置及存储介质
CN111968657A (zh) * 2020-08-17 2020-11-20 北京字节跳动网络技术有限公司 语音处理方法、装置、电子设备和计算机可读介质
CN112053691A (zh) * 2020-09-21 2020-12-08 广东迷听科技有限公司 会议辅助方法、装置、电子设备及存储介质
WO2021031575A1 (zh) * 2019-08-20 2021-02-25 华为技术有限公司 媒体能力动态调整方法及装置
CN112652313A (zh) * 2020-12-24 2021-04-13 北京百度网讯科技有限公司 声纹识别的方法、装置、设备、存储介质以及程序产品
CN112820292A (zh) * 2020-12-29 2021-05-18 平安银行股份有限公司 生成会议纪要的方法、装置、电子装置及存储介质
CN113055529A (zh) * 2021-03-29 2021-06-29 深圳市艾酷通信软件有限公司 录音控制方法和录音控制装置
WO2021134284A1 (zh) * 2019-12-30 2021-07-08 深圳市欢太科技有限公司 语音信息处理方法、中枢设备、控制终端及存储介质
CN113132542A (zh) * 2021-05-06 2021-07-16 上海纽偲钽文化传媒有限公司 一种基于互联网的线上会议***及方法
CN113139392A (zh) * 2020-01-17 2021-07-20 青岛海信商用显示股份有限公司 会议纪要的生成方法、装置及存储介质
CN113271430A (zh) * 2021-05-13 2021-08-17 中国联合网络通信集团有限公司 网络视频会议中防干扰方法、***、设备及存储介质
CN113539269A (zh) * 2021-07-20 2021-10-22 上海明略人工智能(集团)有限公司 音频信息处理方法、***和计算机可读存储介质
CN113674755A (zh) * 2021-08-19 2021-11-19 北京百度网讯科技有限公司 语音处理方法、装置、电子设备和介质
CN113949838A (zh) * 2021-11-17 2022-01-18 深圳英飞数字技术有限公司 一种无纸化会议***、方法、设备及存储介质
CN115050393A (zh) * 2022-06-23 2022-09-13 安徽听见科技有限公司 获取回听音频的方法、装置、设备及存储介质
CN115171702A (zh) * 2022-05-30 2022-10-11 青岛海尔科技有限公司 数字孪生声纹特征处理方法、存储介质及电子装置
CN115828907A (zh) * 2023-02-16 2023-03-21 南昌航天广信科技有限责任公司 智能会议管理方法、***、可读存储介质及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议***
CN107171816A (zh) * 2017-06-21 2017-09-15 歌尔科技有限公司 电话会议中的数据处理方法及装置
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN107862071A (zh) * 2017-11-22 2018-03-30 三星电子(中国)研发中心 生成会议记录的方法和装置
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议***
CN107171816A (zh) * 2017-06-21 2017-09-15 歌尔科技有限公司 电话会议中的数据处理方法及装置
CN107862071A (zh) * 2017-11-22 2018-03-30 三星电子(中国)研发中心 生成会议记录的方法和装置
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335621A (zh) * 2019-05-28 2019-10-15 深圳追一科技有限公司 音频处理的方法、***及相关设备
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
WO2021031575A1 (zh) * 2019-08-20 2021-02-25 华为技术有限公司 媒体能力动态调整方法及装置
CN110580907B (zh) * 2019-08-28 2021-09-24 云知声智能科技股份有限公司 一种多人发言场景的语音识别方法和***
CN110580907A (zh) * 2019-08-28 2019-12-17 云知声智能科技股份有限公司 一种多人发言场景的语音识别方法和***
CN110648553A (zh) * 2019-09-26 2020-01-03 北京声智科技有限公司 一种站点提醒方法、电子设备及计算机可读存储介质
CN110827849A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
CN110827853A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 语音特征信息提取方法、终端及可读存储介质
CN110827849B (zh) * 2019-11-11 2022-07-26 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
CN111048095A (zh) * 2019-12-24 2020-04-21 苏州思必驰信息科技有限公司 一种语音转写方法、设备及计算机可读存储介质
WO2021134284A1 (zh) * 2019-12-30 2021-07-08 深圳市欢太科技有限公司 语音信息处理方法、中枢设备、控制终端及存储介质
CN113139392A (zh) * 2020-01-17 2021-07-20 青岛海信商用显示股份有限公司 会议纪要的生成方法、装置及存储介质
CN113139392B (zh) * 2020-01-17 2023-08-15 青岛海信商用显示股份有限公司 会议纪要的生成方法、装置及存储介质
CN111523126A (zh) * 2020-03-19 2020-08-11 浙江省北大信息技术高等研究院 会议记录的权限管理方法、装置及存储介质
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质
CN111312260A (zh) * 2020-04-16 2020-06-19 厦门快商通科技股份有限公司 一种人声分离方法和装置以及设备
CN111583932A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种基于人声模型的声音分离方法和装置以及设备
CN111583953A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种基于声纹特征的人声分离方法和装置以及设备
CN111785271A (zh) * 2020-05-15 2020-10-16 深圳奥尼电子股份有限公司 语音识别处理方法及***、电子设备
CN111833876A (zh) * 2020-07-14 2020-10-27 科大讯飞股份有限公司 会议发言控制方法、***、电子设备及存储介质
CN111968657A (zh) * 2020-08-17 2020-11-20 北京字节跳动网络技术有限公司 语音处理方法、装置、电子设备和计算机可读介质
CN112053691A (zh) * 2020-09-21 2020-12-08 广东迷听科技有限公司 会议辅助方法、装置、电子设备及存储介质
CN111933144A (zh) * 2020-10-09 2020-11-13 融智通科技(北京)股份有限公司 后创建声纹的会议语音转写方法、装置及存储介质
CN112652313A (zh) * 2020-12-24 2021-04-13 北京百度网讯科技有限公司 声纹识别的方法、装置、设备、存储介质以及程序产品
CN112652313B (zh) * 2020-12-24 2023-04-07 北京百度网讯科技有限公司 声纹识别的方法、装置、设备、存储介质以及程序产品
CN112820292A (zh) * 2020-12-29 2021-05-18 平安银行股份有限公司 生成会议纪要的方法、装置、电子装置及存储介质
CN112820292B (zh) * 2020-12-29 2023-07-18 平安银行股份有限公司 生成会议纪要的方法、装置、电子装置及存储介质
CN113055529B (zh) * 2021-03-29 2022-12-13 深圳市艾酷通信软件有限公司 录音控制方法和录音控制装置
CN113055529A (zh) * 2021-03-29 2021-06-29 深圳市艾酷通信软件有限公司 录音控制方法和录音控制装置
CN113132542A (zh) * 2021-05-06 2021-07-16 上海纽偲钽文化传媒有限公司 一种基于互联网的线上会议***及方法
CN113271430A (zh) * 2021-05-13 2021-08-17 中国联合网络通信集团有限公司 网络视频会议中防干扰方法、***、设备及存储介质
CN113271430B (zh) * 2021-05-13 2022-11-18 中国联合网络通信集团有限公司 网络视频会议中防干扰方法、***、设备及存储介质
CN113539269A (zh) * 2021-07-20 2021-10-22 上海明略人工智能(集团)有限公司 音频信息处理方法、***和计算机可读存储介质
CN113674755A (zh) * 2021-08-19 2021-11-19 北京百度网讯科技有限公司 语音处理方法、装置、电子设备和介质
CN113674755B (zh) * 2021-08-19 2024-04-02 北京百度网讯科技有限公司 语音处理方法、装置、电子设备和介质
CN113949838A (zh) * 2021-11-17 2022-01-18 深圳英飞数字技术有限公司 一种无纸化会议***、方法、设备及存储介质
CN115171702A (zh) * 2022-05-30 2022-10-11 青岛海尔科技有限公司 数字孪生声纹特征处理方法、存储介质及电子装置
CN115050393A (zh) * 2022-06-23 2022-09-13 安徽听见科技有限公司 获取回听音频的方法、装置、设备及存储介质
CN115828907A (zh) * 2023-02-16 2023-03-21 南昌航天广信科技有限责任公司 智能会议管理方法、***、可读存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN109741754A (zh) 一种会议语音识别方法及***、存储介质及终端
US11645547B2 (en) Human-machine interactive method and device based on artificial intelligence
CN106407178B (zh) 一种会话摘要生成方法、装置、服务器设备以及终端设备
CN107623614A (zh) 用于推送信息的方法和装置
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN109326289A (zh) 免唤醒语音交互方法、装置、设备及存储介质
JP6732703B2 (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
CN107704482A (zh) 方法、装置以及程序
WO2020015479A1 (zh) 播报语音的确定方法、装置和设备
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
Triantafyllopoulos et al. Deep speaker conditioning for speech emotion recognition
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN109325091A (zh) 兴趣点属性信息的更新方法、装置、设备及介质
CN102404278A (zh) 一种基于声纹识别的点歌***及其应用方法
Kinoshita et al. Tight integration of neural-and clustering-based diarization through deep unfolding of infinite gaussian mixture model
CN112287082A (zh) 结合rpa与ai的数据的处理方法、装置、设备及存储介质
CN106710591A (zh) 用于电力终端的语音客服***
CN117253478A (zh) 一种语音交互方法和相关装置
CN114283820A (zh) 多角色语音的交互方法、电子设备和存储介质
JP6448950B2 (ja) 音声対話装置及び電子機器
CN110379419A (zh) 基于卷积神经网络的语音特征匹配方法
CN113724690A (zh) Ppg特征的输出方法、目标音频的输出方法及装置
CN112908313A (zh) 智慧路灯语音交互方法、装置、计算机设备及存储介质
CN112820292A (zh) 生成会议纪要的方法、装置、电子装置及存储介质
Kinoshita et al. Utterance-by-utterance overlap-aware neural diarization with Graph-PIT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 501G, Building No. 1, No. 19, 641 Tianshan Road, Changning District, Shanghai, 2003

Applicant after: Shanghai Yunsi Intelligent Information Technology Co., Ltd

Address before: Room 501G, Building No. 1, No. 19, 641 Tianshan Road, Changning District, Shanghai, 2003

Applicant before: Shanghai Huaxin strong information technology Co. Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510