CN113763925B - 语音识别方法、装置、计算机设备及存储介质 - Google Patents

语音识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113763925B
CN113763925B CN202110578432.0A CN202110578432A CN113763925B CN 113763925 B CN113763925 B CN 113763925B CN 202110578432 A CN202110578432 A CN 202110578432A CN 113763925 B CN113763925 B CN 113763925B
Authority
CN
China
Prior art keywords
hotword
voice
auxiliary content
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110578432.0A
Other languages
English (en)
Other versions
CN113763925A (zh
Inventor
曹立新
苏丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110578432.0A priority Critical patent/CN113763925B/zh
Publication of CN113763925A publication Critical patent/CN113763925A/zh
Application granted granted Critical
Publication of CN113763925B publication Critical patent/CN113763925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请是关于一种语音识别方法、装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:获取目标语音,目标语音是在指定环境中采集的实时语音;基于辅助内容,确定第一语音识别模型;所述辅助内容包括在所述指定环境中采集的历史语音的语音识别结果,以及,在所述指定环境中展示的目标文件的文件内容中的至少一种;基于第一语音识别模型对目标语音进行解码处理,获得第一语音识别模型输出的候选识别结果;对候选识别结果进行概率预测处理,获得目标语音的语音识别结果。通过上述方案,使得对目标语音进行语音识别的第一语言识别模型可以在指定环境中进行自适应的调节,提高了语音识别的准确性。

Description

语音识别方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
如今,随着人工智能的日益发展,人工智能技术在生活中的应用越来越广泛,其中包括进行语音识别。
在相关技术中,进行语音识别的传统方案是在进行语音识别之前预先训练一个通用的语音识别模型,将语音输入到该语音识别模型中,通过语音识别模型中的固定的声学模型以及固定的语言模型,对语音进行处理,由语音识别模型输出该语音对应的识别结果。
然而,采用上述方案进行指定主题的语音内容的语音识别时,由于语音识别模型是在语音识别之前基于该指定主题进行预先训练完成的固定模型,所以可能会出现当语音内容的主题发生改变时,通过该语音识别模型进行语音识别准确性较差的问题。
发明内容
本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质,可以提高进行语音识别的准确性。该技术方案如下:
一方面,提供了一种语音识别方法,所述方法包括:
获取目标语音,所述目标语音是在指定环境中采集的实时语音;
基于辅助内容,确定第一语音识别模型;所述辅助内容包括在所述指定环境中采集的历史语音的语音识别结果,以及,在所述指定环境中展示的目标文件的文件内容中的至少一种;
基于所述第一语音识别模型对所述目标语音进行解码处理,获得所述第一语音识别模型输出的候选识别结果;
对所述候选识别结果进行概率预测处理,获得所述目标语音的语音识别结果。
又一方面,提供了一种语音识别装置,所述装置包括:
语音获取模块,用于获取目标语音,所述目标语音是在指定环境中采集的实时语音;
模型确定模块,用于基于辅助内容,确定第一语音识别模型;所述辅助内容包括在所述指定环境中采集的历史语音的语音识别结果,以及,在所述指定环境中展示的目标文件的文件内容中的至少一种;
候选获取模块,用于基于所述第一语音识别模型对所述目标语音进行解码处理,获得所述第一语音识别模型输出的候选识别结果;
结果获取模块,用于对所述候选识别结果进行处理,获得所述目标语音的语音识别结果。
在一种可能的实现方式中,响应于所述第一语音识别模型中使用的语言模型是从至少两个候选语言模型中确定的,至少两个所述候选语言模型分别对应各自的领域种类;
所述模型确定模块,包括:
领域确定子模块,用于基于第一语音识别模型对所述目标语音进行处理,获得所述第一语音识别模型输出的候选识别结果之前,基于所述辅助内容,确定目标领域种类;
语言模型确定子模块,用于将至少两个所述候选语言模型中,对应所述目标领域种类的所述候选语言模型,确定为所述第一语音识别模型中使用的语言模型。
在一种可能的实现方式中,所述领域确定子模块,包括:
领域概率获取单元,用于将所述辅助内容输入到领域检测模型中,获取所述领域概率分布;所述领域概率分布用于指示所述辅助内容对应各个所述领域种类的概率;所述领域检测模型是基于辅助内容样本,以及所述辅助内容样本对应的领域种类训练得到的;
领域确定单元,用于基于所述领域概率分布,确定所述目标领域种类。
在一种可能的实现方式中,所述装置还包括:
预测概率获取模块,用于获取目标语音之前,将所述辅助内容样本输入所述领域检测模型,获取预测领域概率分布;
第一模型更新模块,用于基于所述预测领域概率分布,以及所述辅助内容样本对应的领域种类,对所述领域检测模型进行参数更新。
在一种可能的实现方式中,所述装置还包括:
热词信息获取模块,用于基于第一语音识别模型对所述目标语音进行处理,获得所述第一语音识别模型输出的候选识别结果之前,获取所述辅助内容对应的至少一个热词的热词信息;所述热词信息包括所述热词的概率分布;
所述候选获取模块,包括:
候选获取子模块,用于将所述目标语音、以及所述辅助内容对应的至少一个热词的热词信息输入所述第一语音识别模型进行解码处理,获得所述第一语音识别模型输出的所述候选识别结果。
在一种可能的实现方式中,所述热词信息获取模块,包括:
第一信息提取子模块,用于提取所述辅助内容包含的第一热词对应的第一热词信息;
第二信息提取子模块,用于基于所述第一热词,从词网中确定所述第一热词的相关词语对应的第二热词信息;所述词网是以词为顶点,以词之间的关系为边的图型数据结构;
信息合并子模块,用于将所述第一热词信息和所述第二热词信息合并为所述辅助内容对应的至少一个热词的热词信息。
在一种可能的实现方式中,所述第一信息提取子模块,包括:
第一信息获取单元,用于将所述辅助内容输入到热词检测模型,获得所述热词检测模型输出的,所述第一热词对应的第一热词信息;所述热词检测模型是基于辅助内容样本,以及所述辅助内容样本包含的热词训练得到的。
在一种可能的实现方式中,所述装置还包括:
预测信息获取模块,用于获取目标语音之前,将所述辅助内容样本输入所述热词检测模型,获得所述热词检测模型输出的预测热词的热词信息;
第二模型更新模块,用于基于所述预测热词的热词信息,以及所述辅助内容样本中的热词,对所述热词检测模型进行参数更新。
在一种可能的实现方式中,所述结果获取模块,包括:
分数获取子模块,用于将所述候选识别结果、以及所述辅助内容对应的概率分布信息输入第二语言模型,获得所述第二语言模型输出的所述候选识别结果对应的预测分数;
内容确定子模块,用于基于所述预测分数,确定所述目标识别内容。
在一种可能的实现方式中,所述辅助内容对应的概率分布信息包括:
领域概率分布、以及所述辅助内容对应的至少一个热词的热词信息;
其中,所述领域概率分布用于指示所述辅助内容对应各个领域种类的概率;所述热词信息包括对应的所述热词的概率分布。
在一种可能的实现方式中,所述装置还包括:
概率获取模块,用于获取目标语音之前,获取辅助内容样本对应的概率分布信息;
模型确定模块,用于基于所述辅助内容样本对应的领域概率分布,确定所述第一语音识别模型中使用的语言模型;
候选样本获取模块,用于将所述辅助内容样本对应的至少一个热词的热词信息,以及所述辅助内容样本对应的语音样本,输入所述第一语音识别模型,获得所述第一语音识别模型输出的候选识别结果样本;
预测结果获取模块,用于将所述辅助内容样本对应的概率分布信息,以及所述候选识别结果样本输入所述第二语音识别模型,获得所述第二语音识别模型输出的预测语音识别结果;
更新模块,用于基于所述预测语音识别结果,以及所述语音样本对应的真实文本,对所述第一语音识别模型以及所述第二语音识别模型进行参数更新。
在一种可能的实现方式中,所述指定环境是会议环境、视频播放环境以及智能家居环境中的至少一种;所述目标文件是在所述指定环境中使用的文件。
另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的语音识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的语音识别方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的语音识别方法。
本申请提供的技术方案可以包括以下有益效果:
在本申请实施例所示的方案中,通过指定环境中的历史语音的语音识别结果以及展示的目标文件的文件内容中的至少一种,实时确定第一语音识别模型中的语言模型,使得对目标语音进行语音识别的第一语言识别模型可以在指定环境中进行自适应的调节,避免了使用提前训练完成的固定的语音识别模型进行语音识别的过程中出现部分语音无法识别清楚的情况,从而提高了语音识别的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种语音识别方法的流程图;
图2是图1所示实施例涉及的一种语音识别流程框架图;
图3是根据一示例性实施例示出的一种语音识别***的示意图;
图4是根据一示例性实施例示出的一种语音识别方法的流程图;
图5是图4所示实施例涉及的一种会议***中的语音识别示意图;
图6是根据一示例性实施例示出的一种会议场景下的语音识别***的结构示意图;
图7是根据一示例性实施例示出的一种语音识别装置的框图;
图8是根据一示例性实施例示出的一种计算机设备的结构示意图;
图9是根据一示例性实施例示出的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请后续各个实施例所示的方案,可以借助于人工智能(ArtificialIntelligence,AI)实现在医疗领域,通过命名实体识别技术从自然语言文本中获取至少两个命名实体所处的位置信息,将至少两个命名实体以及对应的位置信息输入到实体匹配模型中,通过实体匹配模型可以输出各个命名实体中的第一类型实体与第二类型实体之间的匹配关系,从而基于匹配关系生成结构化信息。进而提高了生成的结构化信息中匹配关系的准确性。为了方便理解,下面对本公开实施例中涉及的名词进行说明。
1)人工智能AI;
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、智能视频服务等,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
2)自然语言处理(Nature Language Processing,NLP);
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3)机器学习(Machine Learning,ML);
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
4)语音技术(Speech Technology);
语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)和语音合成技术(Text To Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
5)语音识别技术;
语音识别技术是将语音转换为文字的技术,语音识别***主要是由声学模型、语言模型以及解码器三部分组成的,声学模型是通过统计声音数据中的发音分布,以音节建模为例,用于描述一段语音对应一个音节的概率。语言模型是通过统计文本语料中的文法分布,获得对于语言的统计模型,用于描述一个文本串成为自然语言的概率。解码器是语音识别的引擎,主要利用声学模型和语言模型,以用户的语音作为输入,在搜索网络中进行搜索,最终得到识别的文本结果。通常,解码器解码的过程,也被称为一遍解码。进行一遍语音识别过程后,也可以继续进行二遍语音识别,二遍语音识别解码器也可以称为二遍解码器,二遍解码器的输入为一编解码器的输出结果,通常是一段语音的若干条候选文本。在一遍解码的基础上,二遍解码利用构建更加精准的神经网络语言模型,对一遍解码器输出结果进行重打分以及排序,进而得到最优的识别结果,通过二遍解码器解码的过程,可以称为二遍解码。
6)云计算;
云计算(Cloud Computing)是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
7)云会议;
云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。
目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,基于云计算的视频会议就叫云会议。
在云会议时代,数据的传输、处理、存储全部由视频会议厂家的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开浏览器,登录相应界面,就能进行高效的远程会议。
云会议***支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问,视频会议运用云计算以后,在方便性、快捷性、易用性上具有更强的吸引力,必将激发视频会议应用新高潮的到来。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明。
图1是根据一示例性实施例示出的一种语音识别方法的流程图。该语音识别方法可以由计算机设备执行。比如,该计算机设备可以包括终端或者服务器中的至少一种。如图1所示,该语音识别方法包括的步骤如下:
步骤101,获取目标语音,目标语音是在指定环境中采集的实时语音。
在本申请实施例中,用户在指定环境中发出实时语音,计算机设备可以采集实时语音,并且将实时语音获取为目标语音,该目标语音需要进行后续语音识别处理。
其中,计算机设备可以通过单一麦克风或者麦克风阵列采集用户的实时语音。
在一种可能的实现方式中,在同一时刻的指定环境中,采集到至少一个用户的实时语音,将至少一个用户各自对应的实时语音,分别获取为目标语音。
比如,当计算机设备在同一时间段内,采集到的用户A的实时语音为语音A,用户B的实时语音为语音B,则计算机设备分别将语音A获取为目标语音A,语音B获取为目标语音B。
其中,指定环境是支持进行语音识别的环境,在指定环境中采集的实时语音是用户在指定环境中发言时采集到的,或者是通过具有音频播功能的设备播放语音时采集到的。
比如,指定环境是需要记录与会人员实时语音发言的线上会议环境或者线下会议环境,或者是需要进行同步字幕添加的视频播放环境,或者是需要通过语音识别用户发布的语音指令,实现控制语音指令对应的智能设备的智能家居环境。
步骤102,基于辅助内容,确定第一语音识别模型;辅助内容包括在指定环境中采集的历史语音的语音识别结果,以及,在指定环境中展示的目标文件的文件内容中的至少一种。
其中,第一语音识别模型的模型中包括声学模型、语言模型以及利用该声学模型以及该语言模型的一遍解码器。该语言模型是计算机设备依据接收到的辅助内容,从预先存储在计算机设备中的至少两个候选语言模型中确定的。声学模型是通过统计声音数据中的发音分布,用于描述一段语音中对应的各个音节的概率,语言模型是通过统计文本语料中的文法分布,用于描述文本串成为自然语言的概率的统计模型。而一遍解码器是第一语音识别模型的引擎,用于通过声学模型和语言模型,以需要识别的语音作为输入,在搜索网络中进行搜索,最终得到识别的文本结果,通过一遍解码器对语音进行解码的过程为一遍解码。
在一种可能的实现方式中,计算机设备获取采集该目标语音之前,接收到的语音识别结果作为历史语音的语音识别结果,将历史语音的语音识别结果以及在指定环境中展示的目标文件的文件内容中的至少一种作为辅助内容,基于该辅助内容,确定第一语音识别模型中的语言模型。
步骤103,基于第一语音识别模型对目标语音进行解码处理,获得第一语音识别模型输出的候选识别结果。
在本申请实施例中,计算机设备通过确定的第一语音识别模型对获取到的目标语音进行解码处理,可以获得第一语音识别模型输出的候选识别结果。
步骤104,对候选识别结果进行概率预测处理,获得目标语音的语音识别结果。
在本申请实施例中,将第一语音识别模型输出的候选识别结果进行概率预测处理,获得概率预测结果最高的候选识别结果作为目标语音对应的语音识别结果。
在一种可能的实现方式中,基于第二语音识别模型对候选识别结果进行概率预测处理,获得第二语音识别模型输出的目标语音的语音识别结果。
比如,若第一语音识别模型输出的候选识别结果是文本A、文本B以及文本C,将文本A、文本B以及文本C经过第二语音识别模型的处理,可以获取其中的文本A作为目标语音对应的语音识别结果。
示例性的,图2是本申请实施例涉及的一种语音识别流程框架图,如图2所示,以指定环境是会议场景为例,参会人员21的语音通过网络发送到解码器端22,解码器22通过声学模型、语言模型进行解码,得到若干候选识别结果,即N-best(搜索算法)结果。N-best结果中可以包含一遍解码器的N-Gram语言模型分数以及声学模型分数。接着,N-best结果可以被发送到二遍解码器端23,二遍解码器端23可以利用一遍解码器端22对应的N-Gram语言模型分数,声学模型分数,以及二遍解码器端的神经网络语言模型分数进行重新排序,最终得到最优的识别结果,并将识别结果返回给参会人员侧的终端。
其中,二遍解码器23是进行第二遍语音识别所使用的解码器,用于对一遍解码的结果进行二遍解码,通过输入的一遍解码的结果,利用神经网络语言模型对一遍解码的结果进行重新打分以及排序,获得最终最优的识别结果。
综上所述,在本申请实施例所示的方案中,通过指定环境中的历史语音的语音识别结果以及展示的目标文件的文件内容中的至少一种,实时确定第一语音识别模型中的语言模型,使得对目标语音进行语音识别的第一语言识别模型可以在指定环境中进行自适应的调节,避免了使用提前训练完成的固定的语音识别模型进行语音识别的过程中出现部分语音无法识别清楚的情况,从而提高了语音识别的准确性。
本申请上述实施例所示的方案,可以应用在任意需要进行语音识别的场景。
比如,针对于线上或者线下召开会议,可以通过本申请上述实施例所示的方案结合会议中的相关文件,对参会人员在会议过程中的发言进行语音识别,实时记录生成文本内容,有利于提高会议记录的效率,在保证记录内容准确的前提下,减轻了会议过程中记录参会人员发言所带来的负担。
再比如,针对于为视频作品进行字幕添加的过程中,可以通过本申请上述实施例所示的方案在视频作品播放的过程中结合实时播放画面,进行语音识别,并将识别得到的文本内容添加在对应的画面下方,实现对视频作品的字幕添加,有利于提高字幕识别的准确性。
再比如,针对于在智能家居环境中控制指定智能设备,可以结合用户近期的历史语音识别内容,以及用户上传到智能家居***中的文件内容,进行当前的语音识别,基于语音识别内容控制指定的智能设备,有利于提高指定智能设备的响应速度。
在一种示例性的方案中,本申请上述实施例的方案涉及的语音识别***包括语音识别处理部分和模型训练更新部分。图3是根据一示例性实施例示出的一种语音识别***的示意图。如图3所示,对于语音识别处理部分,在采集获取到目标语音时,基于获取到的辅助内容,确定第一语音识别模型,然后将目标语音输入到确定的第一语音识别模型中,经过第一语音识别模型对目标语音的处理,输出对应的候选识别结果,然后将候选识别结果输入第二语音识别模型,由第二语音识别模型输出目标语音对应的语音识别结果。对于模型训练更新部分,模型训练设备310通过各组语音样本,对第一语音识别模型以及第二语音识别模型进行模型更新,更新完成的第二语音识别模型可以上传到云端中或者数据库中,供语音识别处理部分进行使用。
其中,上述模型训练设备310可以是具有机器学***板电脑、电子书阅读器等移动式计算机设备。本申请实施例对于模型训练设备310的具体类型不做限定。
其中,终端340可以是具有屏幕显示功能的计算机设备。服务器330可以是终端340的后台服务器,也可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一种可能的实现方式中,以该语音识别***应用于会议场景下为例,当终端340采集到用户的实时语音时,会议场景下的辅助内容可以是用户提供的演示文本中的文本内容以及图片内容,还可以是历史语音的语音识别结果,将实时语音作为目标语音发送给服务器330,在计算机设备中通过从服务器330获取对应的第一语音识别模型以及第二语音识别模型,将目标语音以及辅助内容通过第一语音识别模型以及第二语音识别模型可以完成目标语音的语音识别,其中,第一语音识别模型中的语言模型可以是基于辅助内容进行选取的。
终端340与服务器330之间可以通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。
图4是根据一示例性实施例示出的一种语音识别方法的流程图。该语音识别方法可以运用在语音识别***中。比如,上述语音识别***可以是图3所示,并且该语音识别方法可以由其中的模型训练设备310、服务器330以及终端340执行。如图4所示,该语音识别方法包括的步骤如下:
在步骤401中,获取目标语音。
在本申请实施例中,终端通过语音采集组件采集目标语音,将采集到的目标语音发送给服务器,服务器获取到目标语音。
其中,目标语音是在指定环境中采集的实时语音。
可选的,指定环境是会议环境、视频播放环境以及智能家居环境中的至少一种。
示例性的,在会议环境下,与会人员进行发言时,终端可以通过包含单一麦克风或者麦克风阵列的语音采集组件,对发言进行语音采集,将采集到的发言语音作为目标语音上传到云端服务器或者是后台服务器进行处理;在视频播放环境下,进行视频字幕添加的过程中,终端直接获取当前终端或者其它终端上播放的视频中的语音数据作为目标语音,获取实时播放画面作为辅助内容,上传到云端服务器或者是后台服务器进行处理;在智能家居环境中,终端采集该环境中用户发布的语音指令,将采集到的语音指令作为目标语音上传到云端服务器或者是后台服务器进行处理。
在步骤402中,基于辅助内容,确定目标领域种类。
在本申请实施例中,在采集指定环境下的实时语音的过程中,终端可以同时获取辅助内容,通过服务器基于辅助内容确定对应的目标领域种类。
其中,辅助内容是包括在指定环境中采集的历史语音的语音识别结果,以及,在指定环境中展示的目标文件的文件内容中的至少一种。
在一种可能的实现方式中,当指定环境是会议环境时,目标文件是会议进行中使用的文档文件;当指定环境是视频播放环境时,目标文件是视频播放环境中正在播放的视频文件;当指定环境是智能家居环境时,目标文件是智能家居环境中的用户上传到智能家居***中的文件。
也就是说,目标文件可以是会议进行中由与会人员展示的演示文档文件,辅助内容可以包括演示文档文件中的文字内容以及图片内容。辅助内容中还可能包括的历史语音的语音识别结果可以存储在服务器中,当一次目标语音识别完成后,将识别得到的语音识别结果存储在后台服务器或者云端服务器中,作为接下来进行语音识别时使用的历史语音的语音识别结果,以供调用。
在一种可能的实现方式中,将辅助内容输入到领域检测模型中,获取领域概率分布,基于领域概率分布,确定目标领域种类。
其中,领域概率分布用于指示辅助内容对应各个领域种类的概率。领域检测模型是基于辅助内容样本,以及辅助内容样本对应的领域种类训练得到的。
示例性的,服务器中存储有训练完成的领域检测模型,将获取的辅助内容输入到领域检测模型中,由该领域检测模型输出该辅助内容对应的领域概率分布。
在一种可能的实现方式中,将领域概率分布中概率最大的领域确定为目标领域种类。
比如,若输入领域检测模型的辅助内容为辅助内容A,通过领域检测模型进行处理后,由领域检测模型输出的是至少一个领域对应的概率分布,可以是“汽车领域:0.8,时尚领域:0.1,宠物领域:0.02等”,其中,由于该概率分布中汽车领域对应的概率最大,则可以将汽车领域确定为目标领域种类。
另外,在基于辅助内容,确定目标领域种类之前,服务器可以预先接收到训练完成的领域检测模型。
在一种可能的实现方式中,领域检测模型的模型训练过程是将辅助内容样本输入领域检测模型,获取预测领域概率分布,然后,基于预测领域概率分布,以及辅助内容样本对应的领域种类,对领域检测模型进行参数更新。
示例性的,通过将辅助内容样本转换为矩阵或者向量形式,输入到领域检测模型中,其中,辅助内容样本对应的领域概率设置为1,其他领域概率设置为0,通过领域检测模型处理后输出的矩阵或者向量包含预测各个领域对应的概率分布信息,基于该输出的矩阵或者向量与辅助内容样本转换生成的矩阵或者向量计算对应的损失函数,然后对领域检测模型中的模型参数进行更新。
在步骤403中,将至少两个候选语言模型中,对应目标领域种类的候选语言模型,确定为第一语音识别模型中使用的语言模型。
在本申请实施例中,在服务器中存储有至少两个候选语言模型,至少两个候选语言模型分别与一种领域种类相对应,基于领域检测模型输出的领域概率分布确定的目标领域种类,从候选语言模型中选取该目标领域种类对应的候选语言模型作为第一语音识别模型中使用的语言模型。
其中,至少两个候选语言模型分别对应各自的领域种类,至少两个候选语言模型是利用大量的文本数据,经过离线训练得到的多领域对应的统计语言模型。统计语言模型可以是N-Gram模型。
N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型中第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。
示例性的,离线训练得到的多领域对应的统计语言模型可以包括汽车领域语言模型、房产领域语言模型、游戏领域语言模型、时尚领域语言模型等。
多领域对应的统计语言模型可以针对于各自领域下的语音大幅度的提高进行语音识别的准确度。相比较于传统的统计语言模型,即通用在各个领域种类下的统计语言模型,可以提高识别语音的专一性,提升语音识别的效果。
在步骤404中,获取辅助内容对应的至少一个热词的热词信息。
在本申请实施例中,在进行领域种类识别之后,服务器还可以获取到辅助内容对应的至少一个热词以及热词信息。
其中,热词信息包括对应的热词的概率分布。辅助内容对应的至少一个热词可以包括辅助内容中的至少一个热词以及基于辅助内容在词网中进行搜索得到的热词的相关词。
在一种可能的实现方式中,提取辅助内容包含的第一热词对应的第一热词信息,基于第一热词,从词网中确定第一热词的相关词语对应的第二热词信息,将第一热词信息和第二热词信息合并为辅助内容对应的至少一个热词的热词信息。
其中,词网是以词为顶点,以词之间的关系为边的图型数据结构。
示例性的,在词网上,语义具有紧密联系的词语之间可以存在边连接,比如“汽车”与“火车、飞机”之间有边连接,“汽车品牌A”与“汽车品牌B”之间有边连接,或者“汽车品牌C”与“汽车系列c”之间可以有边连接。词网可以是离线构建图形数据结构,可以利用知识图谱去除词语之间的关系特征进行构建,也可以从大量文本数据中进行挖掘获得,比如,可以通过统计哪些词语经常一起出现,即“共现”现象,共现现象高的词语互相之间的联系可以判断为更加紧密,即具有边连接且边连接对应的概率较高。
其中,提取辅助内容包含的第一热词对应的第一热词信息时,可以通过将辅助内容输入到热词检测模型,获得热词检测模型输出的,第一热词对应的第一热词信息。
其中,热词检测模型是基于辅助内容样本,以及辅助内容样本包含的热词训练得到的。
另外,在获取辅助内容对应的至少一个热词的热词信息之前,服务器可以预先接收到训练完成的热词检测模型。
在一种可能的实现方式中,热词检测模型的模型训练过程是将辅助内容样本输入热词检测模型,获得热词检测模型输出的预测热词的热词信息;基于预测热词的热词信息,以及辅助内容样本包含的热词,对热词检测模型进行参数更新。
示例性的,通过将辅助内容样本转换为矩阵或者向量形式,输入到热词检测模型中,其中,辅助内容中的热词内容概率设置为1,非热词内容的概率设置为0,通过热词检测模型处理后输出的矩阵或者向量包含预测热词对应的概率分布信息,基于该输出的矩阵或者向量与辅助内容样本转换生成的矩阵或者向量计算对应的损失函数,然后对热词检测模型中的模型参数进行更新。
在步骤405中,将目标语音、以及辅助内容对应的至少一个热词的热词信息输入第一语音识别模型,获得第一语音识别模型输出的候选识别结果。
在本申请实施例中,将获取到的目标语音、以及辅助内容对应的至少一个热词的热词概率分布输入第一语音识别模型,该语音识别模型中的语言模型是基于辅助内容确定的目标领域种类对应的候选语言模型,由第一语音识别模型输出的处理后的候选识别结果。
其中,候选识别结果包括目标语音对应的若干条语音识别文本内容,以及若干条语音识别文本内容分别对应的概率分布信息。
在一种可能的实现方式中,第一语音识别模型是通过一遍解码器作为语音识别的引擎,利用声学模型以及语言模型对输入的目标语音进行语音识别处理的模型。
示例性的,一遍解码器接收到目标语音,一遍解码器利用辅助内容对应的领域概率分布确定选择作为语言模型的候选语言模型,将声学模型输出的声学模型分数以及语言模型输出的语言模型分数进行结合,获得识别得到的N-best语音识别结果,即候选识别结果。
比如,当输入第一语音识别模型的目标语音是“你好”时,一遍解码器可以利用声学模型以及语言模型对目标语音进行处理,生成的候选识别结果可以是N个文本内容。其中,N个文本内容可以是按照模型识别的分数进行排序后输出的,若候选识别结果为3个识别内容,则可以是3-best:“你好”,“尼好”以及“你号”。其中,“你好”对应的候选识别概率分数为0.8,“尼好”对应的候选识别概率分数为0.08,以及“你号”对应的候选识别概率分数为0.02。
在步骤406中,将候选识别结果、以及辅助内容对应的概率分布信息输入第二语言模型,获得第二语言模型输出的候选识别结果对应的预测分数。
在本申请实施例中,将从第一语音识别模型中输出的候选识别结果,以及经过领域检测模型和热词检测模型输出的概率分布信息输入第二语言模型,获得第二语言模型输出的各个候选识别结果分别对应的预测分数。
其中,辅助内容对应的概率分布信息包括领域概率分布、以及辅助内容对应的至少一个热词的热词信息。领域概率分布用于指示辅助内容对应各个领域种类的概率;热词信息包括对应的热词的概率分布。第二语言模型是基于辅助内容样本训练的神经网络模型。
示例性的,第二语言模型是循环神经网络(Recurrent Neural Network,RNN)模型,长短期记忆(Long Short Term Memory,LSTM)循环神经网络,门限循环单元(GatedRecurrent Unit,GRU)神经网络模型以及卷积神经网络模型中的至少一种。
在一种可能的实现方式中,第二语音识别模型是通过二遍解码器作为语音识别的引擎,利用第二语言模型对输入的候选识别结果进行重新打分排序处理的语音识别模型。
示例性的,二遍解码器接收到一遍解码器处理生成的候选识别结果,结合领域概率分布、以及辅助内容对应的至少一个热词的热词信息,对各个候选识别结果进行打分,由第二语言模型输出各个候选识别结果对应的概率分数,其中,该概率分数是综合一遍解码的声学模型分数、一遍解码的语言模型分数以及二遍解码的神经网络语言模型,即第二语言模型的分数得到的。
另外,在将候选识别结果输入第二语言模型之前,服务器可以预先接收到训练完成的第二语言模型。
在一种可能的实现方式中,第二语言模型的模型训练过程是获取辅助内容样本对应的概率分布信息;基于辅助内容样本对应的领域概率分布,确定第一语音识别模型中使用的语言模型;将辅助内容样本对应的至少一个热词的热词信息,以及辅助内容样本对应的语音样本,输入第一语音识别模型,获得第一语音识别模型输出的候选识别结果样本;将辅助内容样本对应的概率分布信息,以及候选识别结果样本输入第二语音识别模型,获得第二语音识别模型输出的预测语音识别结果;基于预测语音识别结果,以及语音样本对应的真实文本,对第一语音识别模型以及第二语音识别模型进行参数更新。
其中,第二语言模型训练的过程需要与第一语音识别模型、热词检测模型以及领域检测模型一同进行离线训练更新。
由于二遍解码的神经网络语言模型,即第二语言模型在进行离线训练时,引入了领域和热词特征,所以可以根据辅助内容中获得的领域概率分布以及热词信息动态的调整第二语言模型概率,以达到使语言模型自适应指定环境的目的。
在步骤407中,基于预测分数,确定目标识别内容。
在本申请实施例中,基于第二语言模型输出的各个候选识别结果对应的预测分数,从候选识别结果中选择确定目标识别内容。
在一种可能的实现方式中,基于候选识别内容对应的预测分数,将预测分数最高的候选识别内容确定为目标识别内容。
比如,若候选识别结果中的“你好”,“尼好”以及“你号”对应的预测分数分别是0.9、0.02以及0.01,可以将“你好”确定为目标识别内容。
在一种可能的实现方式中,当指定环境是会议环境时,服务器将目标识别内容发送给终端,由终端进行展示,并且将该目标识别内容存储为历史语音对应的语音识别结果。当指定环境是视频播放环境时,服务器将目标识别内容发送给播放视频的终端,在播放的视频画面的某一区域展示目标识别内容,该目标识别内容作为该视频对应的实时字幕,并且将该目标识别内容存储为历史语音对应的语音识别结果。当指定环境是智能家居环境时,服务器基于目标识别内容控制智能家居***中的智能设备完成目标识别内容对应的指令,并且将该目标识别内容存储为历史语音对应的语音识别结果。
示例性的,以本申请实施例应用于会议场景中为例,图5是本申请实施例涉及的一种会议***中的语音识别示意图。如图5所示,步骤51,从在会议中进行发言的人员处采集实时语音作为目标语音,步骤52,基于会议过程中上传的演示文稿(PowerPoint,PPT)等稿件上的文字内容、图片内容,以及之前识别语音得到的文字内容作为会议中的辅助内容,输入到领域检测模型以及热词检测模型中。先通过领域检测模型输出各个领域对应的概率分布,然后通过热词检测模型输出检测到的热词列表,以及对应的热词概率分布。步骤53,从词网中确定热词列表中的各个热词的相关词。步骤54,然后基于各个领域对应的概率分布从多领域统计语言模型中选择一遍编码器对应的语音识别模型中使用的语言模型。步骤55,将采集到的用户的实时语音作为目标语音输入到一遍编码器对应的语音识别模型中,然后输出各个候选文本内容N-best结果。步骤56,将各个候选文本内容、热词信息以及领域概率分布输入到二遍解码器对应的语音识别模型中,其中,该语言模型是一个神经网络模型,该神经网络模型是基于语音样本对应的领域概率分布样本以及热词概率分布样本训练调整的神经网络模型,由二遍解码器对应的语音识别模型可以输出最优的语音识别结果该语音识别结果可以发送给与会人员侧的终端进行显示,也可以作为历史语音识别得到的文字内容作为接下来的辅助内容。
综上所述,在本申请实施例所示的方案中,通过指定环境中的历史语音的语音识别结果以及展示的目标文件的文件内容中的至少一种,实时确定第一语音识别模型中的语言模型,使得对目标语音进行语音识别的第一语言识别模型可以在指定环境中进行自适应的调节,避免了使用提前训练完成的固定的语音识别模型进行语音识别的过程中出现部分语音无法识别清楚的情况,从而提高了语音识别的准确性。
图6是根据一示例性实施例示出的一种会议场景下的语音识别***的结构示意图,如图6所示,在会议环境60中,包括与会人员以及与会人员准备的会议演示文档61,还包括用于采集与会人员实时语音以及接受与会人员上传的演示文档的终端62,其中,采集到的与会人员的实时语音作为目标语音,与会人员准备的会议演示文档作为一部分辅助内容,终端62将目标语音以及演示文档上传到服务器63中,由于辅助内容还包括历史语音的语音识别结果,所以,从服务器63中的存储装置中获取历史语音的语音识别结果作为另一部分辅助内容,将两部分辅助内容依次输入领域检测模型以及热词检测模型中,在存储装置中存储有预先训练完成的各个领域对应的语言模型,基于领域检测模型输出的领域概率分布结果,从各个领域对应的语言模型中确定目标领域语言模型,作为第一语音识别模型中的语言模型,通过热词检测模型输出得到的是辅助内容中各个热词以及各个热词对应的概率分布结果,通过从存储装置中获取预先构建的词网,获取各个热词对应的相关词,以及各个相关词对应的概率分布,将各个热词以及各个热词对应的概率分布结果、各个相关词以及对应的概率分布,以及目标领域语言模型发送给一遍编码器,结合一遍编码器中的声学模型、语言模型分数得到一遍语音识别结果,即候选识别结果。然后将候选识别结果、领域检测模型输出的领域概率分布以及热词检测模型中的热词信息输入第二语言模型,通过第二语言模型进行神经网络语言模型打分,输出各个候选识别结果对应的概率分数,基于该概率分数结合一遍解码器对应的声学模型分数以及目标领域语言模型对应的语言模型分数,进行重新排序,获得最终的语音识别结果,将最终获得的语音识别结果存储在存储装置中作为历史语音的语音识别结果,同时将该语音识别结果发送给终端62进行展示。与会人员可以通过终端62获取语音识别结果。
综上所述,在本申请实施例所示的方案中,通过指定环境中的历史语音的语音识别结果以及展示的目标文件的文件内容中的至少一种,实时确定第一语音识别模型中的语言模型,使得对目标语音进行语音识别的第一语言识别模型可以在指定环境中进行自适应的调节,避免了使用提前训练完成的固定的语音识别模型进行语音识别的过程中出现部分语音无法识别清楚的情况,从而提高了语音识别的准确性。
图7是根据一示例性实施例示出的一种语音识别装置的框图,如图7所示,该结构化信息构建装置可以通过硬件或者软硬结合的方式实现为计算机设备中的全部或者部分,以执行图1或图4对应实施例所示的方法的全部或部分步骤。该语音识别装置可以包括:
语音获取模块710,用于获取目标语音,所述目标语音是在指定环境中采集的实时语音;
模型确定模块720,用于基于辅助内容,确定第一语音识别模型;所述辅助内容包括在所述指定环境中采集的历史语音的语音识别结果,以及,在所述指定环境中展示的目标文件的文件内容中的至少一种;
候选获取模块730,用于基于所述第一语音识别模型对所述目标语音进行解码处理,获得所述第一语音识别模型输出的候选识别结果;
结果获取模块740,用于对所述候选识别结果进行概率预测处理,获得所述目标语音的语音识别结果。
在一种可能的实现方式中,响应于所述第一语音识别模型中使用的语言模型是从至少两个候选语言模型中确定的,至少两个所述候选语言模型分别对应各自的领域种类;
所述模型确定模块720,包括:
领域确定子模块,用于基于第一语音识别模型对所述目标语音进行处理,获得所述第一语音识别模型输出的候选识别结果之前,基于所述辅助内容,确定目标领域种类;
语言模型确定子模块,用于将至少两个所述候选语言模型中,对应所述目标领域种类的所述候选语言模型,确定为所述第一语音识别模型中使用的语言模型。
在一种可能的实现方式中,所述领域确定子模块,包括:
领域概率获取单元,用于将所述辅助内容输入到领域检测模型中,获取所述领域概率分布;所述领域概率分布用于指示所述辅助内容对应各个所述领域种类的概率;所述领域检测模型是基于辅助内容样本,以及所述辅助内容样本对应的领域种类训练得到的;
领域确定单元,用于基于所述领域概率分布,确定所述目标领域种类。
在一种可能的实现方式中,所述装置还包括:
预测概率获取模块,用于获取目标语音之前,将所述辅助内容样本输入所述领域检测模型,获取预测领域概率分布;
第一模型更新模块,用于基于所述预测领域概率分布,以及所述辅助内容样本对应的领域种类,对所述领域检测模型进行参数更新。
在一种可能的实现方式中,所述装置还包括:
热词信息获取模块,用于基于第一语音识别模型对所述目标语音进行处理,获得所述第一语音识别模型输出的候选识别结果之前,获取所述辅助内容对应的至少一个热词的热词信息;所述热词信息包括所述热词的概率分布;
所述候选获取模块730,包括:
候选获取子模块,用于将所述目标语音、以及所述辅助内容对应的至少一个热词的热词信息输入所述第一语音识别模型进行解码处理,获得所述第一语音识别模型输出的所述候选识别结果。
在一种可能的实现方式中,所述热词信息获取模块,包括:
第一信息提取子模块,用于提取所述辅助内容包含的第一热词对应的第一热词信息;
第二信息提取子模块,用于基于所述第一热词,从词网中确定所述第一热词的相关词语对应的第二热词信息;所述词网是以词为顶点,以词之间的关系为边的图型数据结构;
信息合并子模块,用于将所述第一热词信息和所述第二热词信息合并为所述辅助内容对应的至少一个热词的热词信息。
在一种可能的实现方式中,所述第一信息提取子模块,包括:
第一信息获取单元,用于将所述辅助内容输入到热词检测模型,获得所述热词检测模型输出的,所述第一热词对应的第一热词信息;所述热词检测模型是基于辅助内容样本,以及所述辅助内容样本包含的热词训练得到的。
在一种可能的实现方式中,所述装置还包括:
预测信息获取模块,用于获取目标语音之前,将所述辅助内容样本输入所述热词检测模型,获得所述热词检测模型输出的预测热词的热词信息;
第二模型更新模块,用于基于所述预测热词的热词信息,以及所述辅助内容样本中的热词,对所述热词检测模型进行参数更新。
在一种可能的实现方式中,所述结果获取模块740,包括:
分数获取子模块,用于将所述候选识别结果、以及所述辅助内容对应的概率分布信息输入第二语言模型,获得所述第二语言模型输出的所述候选识别结果对应的预测分数;
内容确定子模块,用于基于所述预测分数,确定所述目标识别内容。
在一种可能的实现方式中,所述辅助内容对应的概率分布信息包括:
领域概率分布、以及所述辅助内容对应的至少一个热词的热词信息;
其中,所述领域概率分布用于指示所述辅助内容对应各个领域种类的概率;所述热词信息包括对应的所述热词的概率分布。
在一种可能的实现方式中,所述装置还包括:
概率获取模块,用于获取目标语音之前,获取辅助内容样本对应的概率分布信息;
模型确定模块,用于基于所述辅助内容样本对应的领域概率分布,确定所述第一语音识别模型中使用的语言模型;
候选样本获取模块,用于将所述辅助内容样本对应的至少一个热词的热词信息,以及所述辅助内容样本对应的语音样本,输入所述第一语音识别模型,获得所述第一语音识别模型输出的候选识别结果样本;
预测结果获取模块,用于将所述辅助内容样本对应的概率分布信息,以及所述候选识别结果样本输入所述第二语音识别模型,获得所述第二语音识别模型输出的预测语音识别结果;
更新模块,用于基于所述预测语音识别结果,以及所述语音样本对应的真实文本,对所述第一语音识别模型以及所述第二语音识别模型进行参数更新。
在一种可能的实现方式中,所述指定环境是会议环境、视频播放环境以及智能家居环境中的至少一种;所述目标文件是在所述指定环境中使用的文件。
综上所述,在本申请实施例所示的方案中,通过指定环境中的历史语音的语音识别结果以及展示的目标文件的文件内容中的至少一种,实时确定第一语音识别模型中的语言模型,使得对目标语音进行语音识别的第一语言识别模型可以在指定环境中进行自适应的调节,避免了使用提前训练完成的固定的语音识别模型进行语音识别的过程中出现部分语音无法识别清楚的情况,从而提高了语音识别的准确性。
图8是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器(Random Access Memory,RAM)802和只读存储器(Read-Only Memory,ROM)803的***存储器804,以及连接***存储器804和中央处理单元801的***总线805。所述计算机设备800还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(Input/Output,I/O***)806,和用于存储操作***813、应用程序814和其他程序模块815的大容量存储设备807。
所述基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机设备可读介质为计算机设备800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。
根据本公开的各种实施例,所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备800可以通过连接在所述***总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机设备***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理单元801通过执行该一个或一个以上程序来实现图1或图4所示的方法的全部或者部分步骤。
图9是根据一示例性实施例示出的计算机设备900的结构框图。该计算机设备900可以是图1所示的结构化信息构建***中的终端。
通常,计算机设备900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的方法。
在一些实施例中,计算机设备900还可选包括有:***设备接口903和至少一个***设备。处理器901、存储器902和***设备接口903之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口903相连。具体地,***设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907和电源909中的至少一种。
***设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和***设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和***设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。摄像头组件906用于采集图像或视频。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
在一些实施例中,计算机设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、光学传感器915以及接近传感器916。
本领域技术人员可以理解,图9中示出的结构并不构成对计算机设备900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括至少一条指令、至少一段程序、代码集或指令集的存储器,上述至少一条指令、至少一段程序、代码集或指令集可由处理器执行以完成上述图1或图4任一实施例所示的方法的全部或者部分步骤。例如,非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机设备可读介质中或者作为计算机设备可读介质上的一个或多个指令或代码进行传输。计算机设备可读介质包括计算机设备存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机设备程序的任何介质。存储介质可以是通用或专用计算机设备能够存取的任何可用介质。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的语音识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (14)

1.一种语音识别方法,其特征在于,所述方法包括:
获取目标语音,所述目标语音是在指定环境中采集的实时语音;
基于辅助内容,确定目标领域种类;
将至少两个候选语言模型中,对应所述目标领域种类的所述候选语言模型,确定为第一语音识别模型中使用的语言模型;至少两个所述候选语言模型分别对应各自的领域种类;所述辅助内容包括在所述指定环境中采集的历史语音的语音识别结果,以及,在所述指定环境中展示的目标文件的文件内容中的至少一种;
获取所述辅助内容对应的至少一个热词的热词信息;所述热词信息包括所述热词的概率分布;
将所述目标语音、以及所述辅助内容对应的至少一个热词的热词信息输入所述第一语音识别模型进行解码处理,获得所述第一语音识别模型输出的候选识别结果;
对所述候选识别结果进行概率预测处理,获得所述目标语音的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述辅助内容,确定目标领域种类,包括:
将所述辅助内容输入到领域检测模型中,获取所述领域概率分布;所述领域概率分布用于指示所述辅助内容对应各个所述领域种类的概率;所述领域检测模型是基于辅助内容样本,以及所述辅助内容样本对应的领域种类训练得到的;
基于所述领域概率分布,确定所述目标领域种类。
3.根据权利要求2所述的方法,其特征在于,所述获取目标语音之前,还包括:
将所述辅助内容样本输入所述领域检测模型,获取预测领域概率分布;
基于所述预测领域概率分布,以及所述辅助内容样本对应的领域种类,对所述领域检测模型进行参数更新。
4.根据权利要求1所述的方法,其特征在于,所述获取所述辅助内容对应的至少一个热词的热词信息,包括:
提取所述辅助内容包含的第一热词对应的第一热词信息;
基于所述第一热词,从词网中确定所述第一热词的相关词语对应的第二热词信息;所述词网是以词为顶点,以词之间的关系为边的图型数据结构;
将所述第一热词信息和所述第二热词信息合并为所述辅助内容对应的至少一个热词的热词信息。
5.根据权利要求4所述的方法,其特征在于,所述提取所述辅助内容包含的第一热词对应的第一热词信息,包括:
将所述辅助内容输入到热词检测模型,获得所述热词检测模型输出的,所述第一热词对应的第一热词信息;所述热词检测模型是基于辅助内容样本,以及所述辅助内容样本包含的热词训练得到的。
6.根据权利要求5所述的方法,其特征在于,所述获取目标语音之前,还包括:
将所述辅助内容样本输入所述热词检测模型,获得所述热词检测模型输出的预测热词的热词信息;
基于所述预测热词的热词信息,以及所述辅助内容样本中的热词,对所述热词检测模型进行参数更新。
7.根据权利要求1所述的方法,其特征在于,所述对所述候选识别结果进行概率预测处理,获得所述目标语音的语音识别结果,包括:
将所述候选识别结果、以及所述辅助内容对应的概率分布信息输入第二语言模型,获得所述第二语言模型输出的所述候选识别结果对应的预测分数;
基于所述预测分数,确定所述目标识别内容。
8.根据权利要求7所述的方法,其特征在于,所述辅助内容对应的概率分布信息包括:
领域概率分布、以及所述辅助内容对应的至少一个热词的热词信息;
其中,所述领域概率分布用于指示所述辅助内容对应各个领域种类的概率;所述热词信息包括对应的所述热词的概率分布。
9.根据权利要求8所述的方法,其特征在于,所述获取目标语音之前,还包括:
获取辅助内容样本对应的概率分布信息;
基于所述辅助内容样本对应的领域概率分布,确定所述第一语音识别模型中使用的语言模型;
将所述辅助内容样本对应的至少一个热词的热词信息,以及所述辅助内容样本对应的语音样本,输入所述第一语音识别模型,获得所述第一语音识别模型输出的候选识别结果样本;
将所述辅助内容样本对应的概率分布信息,以及所述候选识别结果样本输入所述第二语言模型,获得所述第二语言模型输出的预测语音识别结果;
基于所述预测语音识别结果,以及所述语音样本对应的真实文本,对所述第一语音识别模型以及所述第二语言模型进行参数更新。
10.根据权利要求1至9任一所述的方法,其特征在于,所述指定环境是会议环境、视频播放环境以及智能家居环境中的至少一种;所述目标文件是在所述指定环境中使用的文件。
11.一种语音识别装置,其特征在于,所述装置包括:
语音获取模块,用于获取目标语音,所述目标语音是在指定环境中采集的实时语音;
领域确定子模块,用于基于辅助内容,确定目标领域种类;
语言模型确定子模块,用于将至少两个候选语言模型中,对应所述目标领域种类的所述候选语言模型,确定为第一语音识别模型中使用的语言模型;至少两个所述候选语言模型分别对应各自的领域种类;所述辅助内容包括在所述指定环境中采集的历史语音的语音识别结果,以及,在所述指定环境中展示的目标文件的文件内容中的至少一种;
热词信息获取模块,用于获取所述辅助内容对应的至少一个热词的热词信息;所述热词信息包括所述热词的概率分布;
候选获取子模块,用于将所述目标语音、以及所述辅助内容对应的至少一个热词的热词信息输入所述第一语音识别模型进行解码处理,获得所述第一语音识别模型输出的候选识别结果;
结果获取模块,用于对所述候选识别结果进行概率预测处理,获得所述目标语音的语音识别结果。
12.一种计算机设备,其特征在于,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的语音识别方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的语音识别方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;所述计算机指令由计算机设备的处理器读取并执行,以使得所述计算机设备实现如权利要求1至10任一所述的语音识别方法。
CN202110578432.0A 2021-05-26 2021-05-26 语音识别方法、装置、计算机设备及存储介质 Active CN113763925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110578432.0A CN113763925B (zh) 2021-05-26 2021-05-26 语音识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110578432.0A CN113763925B (zh) 2021-05-26 2021-05-26 语音识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113763925A CN113763925A (zh) 2021-12-07
CN113763925B true CN113763925B (zh) 2024-03-12

Family

ID=78787225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110578432.0A Active CN113763925B (zh) 2021-05-26 2021-05-26 语音识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113763925B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188381B (zh) * 2022-05-17 2023-10-24 贝壳找房(北京)科技有限公司 基于点击排序的语音识别结果优化方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别***和方法
CN106486126A (zh) * 2016-12-19 2017-03-08 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN109272995A (zh) * 2018-09-26 2019-01-25 出门问问信息科技有限公司 语音识别方法、装置及电子设备
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN112017645A (zh) * 2020-08-31 2020-12-01 广州市百果园信息技术有限公司 一种语音识别方法及装置
CN112102815A (zh) * 2020-11-13 2020-12-18 深圳追一科技有限公司 语音识别方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别***和方法
CN106486126A (zh) * 2016-12-19 2017-03-08 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN109272995A (zh) * 2018-09-26 2019-01-25 出门问问信息科技有限公司 语音识别方法、装置及电子设备
CN112017645A (zh) * 2020-08-31 2020-12-01 广州市百果园信息技术有限公司 一种语音识别方法及装置
CN112102815A (zh) * 2020-11-13 2020-12-18 深圳追一科技有限公司 语音识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113763925A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
US11842164B2 (en) Method and apparatus for training dialog generation model, dialog generation method and apparatus, and medium
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN111933115B (zh) 语音识别方法、装置、设备以及存储介质
CN107657017A (zh) 用于提供语音服务的方法和装置
CN107623614A (zh) 用于推送信息的方法和装置
CN112214591A (zh) 一种对话预测的方法及装置
CN113392687A (zh) 视频标题生成方法、装置、计算机设备及存储介质
WO2023272616A1 (zh) 一种文本理解方法、***、终端设备和存储介质
CN110825164A (zh) 基于儿童专用穿戴智能设备的交互方法及***
CN117093687A (zh) 问题应答方法和装置、电子设备、存储介质
CN111354362A (zh) 用于辅助听障者交流的方法和装置
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN117275476A (zh) 数字人的交互方法、装置、电子设备及存储介质
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN116978359A (zh) 音素识别方法、装置、电子设备及存储介质
CN113961680A (zh) 基于人机交互的会话处理方法及装置、介质、电子设备
CN113792537A (zh) 一种动作生成方法以及装置
CN112307186A (zh) 基于情绪识别的问答服务方法、***、终端设备及介质
CN113571063A (zh) 语音信号的识别方法、装置、电子设备及存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN113205569B (zh) 图像绘制方法及装置、计算机可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant