CN111933129A

CN111933129A - 音频处理方法、语言模型的训练方法、装置及计算机设备

Info

Publication number: CN111933129A
Application number: CN202010952838.6A
Authority: CN
Inventors: 黄江泉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-11-13
Anticipated expiration: 2040-09-11
Also published as: CN111933129B

Abstract

本申请公开了一种音频处理方法、语言模型的训练方法、装置、***、计算机设备及存储介质，属于信号处理技术领域。本申请通过在获取到目标音频的音素序列之后，基于传统的语音识别方式获取到第一词序列，此外还引入了上下文信息再次进行特定语境下的语音识别，以获取到符合特定语境的上下文信息的第二词序列，综合考虑第一词序列和第二词序列，规划解码出最终的语义信息，相当于通过引入第二词序列，强化了某些符合特定语境的词语在语义信息中的出现概率，降低了对语义信息中一些关键词的误判情况，提升了自动语音识别过程的准确性，从而提升了音频处理过程的准确性。

Description

音频处理方法、语言模型的训练方法、装置及计算机设备

技术领域

本申请涉及信号处理技术领域，特别涉及一种音频处理方法、语言模型的训练方法、装置、***、计算机设备及存储介质。

背景技术

在信号处理领域中，自动语音识别（Automatic Speech Recognition，ASR）是一个热门议题，ASR作为一种将人的语音转换为文本的技术，能够应用于教育领域中口语考试的智能阅卷***。

在智能阅卷***中，通过ASR技术能够将考生音频识别成文本，接着再基于指定规则（比如关键词匹配）、机器学习或者自然语言处理（Natural Language Processing，NLP）等***进行智能阅卷评分。目前的ASR技术，都是以考生音频作为输入信号，提取考生音频的波形、频谱、音调等特征，输入到ASR模型中，解码得到最终的备选文本列表，经过对备选文本的打分机制筛选出最终的识别文本。

在上述过程中，由于题目的得分点经常使用关键词来进行控制，比如在问答题目“How do you go home after school（你放学后怎么回家）”中，如果ASR模型将考生音频从“Walking home（走路回家）”错误地识别为“Working home（在家办公）”，那么由于“Walking”这个关键词的错误识别，会导致对考生成绩的错误评判，因此，亟需一种能够提升音频处理过程的准确率的方法。

发明内容

本申请实施例提供了一种音频处理方法、语言模型的训练方法、装置、***、计算机设备及存储介质，能够提升音频处理过程的准确率。该技术方案包括以下内容。

一方面，提供了一种音频处理方法，该方法包括：

获取用于表示目标音频中音节发音顺序的音素序列；

基于所述音素序列，获取与所述音素序列相匹配的第一词序列；

基于所述目标音频的上下文信息和所述音素序列，获取与所述音素序列及所述上下文信息均匹配的第二词序列，所述上下文信息用于表示所述目标音频相关联的语境；

基于所述第一词序列和所述第二词序列，确定所述目标音频对应的语义信息。

一方面，提供了一种语言模型的训练方法，该方法包括：

基于样本音频的参考文本，获取与所述参考文本之间语义相似度高于第一阈值的扩展文本，其中，所述参考文本为与所述样本音频的产生语境相关的上下文文本；

基于所述参考文本中的参考关键词，获取与所述参考关键词之间语义相似度高于第二阈值的扩展关键词；

将所述参考文本、所述参考关键词、所述扩展文本以及所述扩展关键词，获取为所述样本音频的上下文信息；

基于所述样本音频的音素序列、所述样本音频的语义信息及所述样本音频的上下文信息，对初始语言模型进行训练，得到上下文语言模型。

一方面，提供了一种音频处理***，包括终端和服务器；

所述终端用于向所述服务器发送目标音频；

所述服务器用于获取用于表示目标音频中音节发音顺序的音素序列；基于所述音素序列，获取与所述音素序列相匹配的第一词序列；基于所述目标音频的上下文信息和所述音素序列，获取与所述音素序列及所述上下文信息均匹配的第二词序列，所述上下文信息用于表示所述目标音频相关联的语境；基于所述第一词序列和所述第二词序列，确定所述目标音频对应的语义信息。

一方面，提供了一种音频处理装置，该装置包括：

第一获取模块，用于获取用于表示目标音频中音节发音顺序的音素序列；

第二获取模块，用于基于所述音素序列，获取与所述音素序列相匹配的第一词序列；

第三获取模块，用于基于所述目标音频的上下文信息和所述音素序列，获取与所述音素序列及所述上下文信息均匹配的第二词序列，所述上下文信息用于表示所述目标音频相关联的语境；

确定模块，用于基于所述第一词序列和所述第二词序列，确定所述目标音频对应的语义信息。

在一种可能实施方式中，所述第三获取模块包括：

处理单元，用于调用上下文语言模型对所述音素序列进行处理，输出所述第二词序列，所述上下文语言模型用于将输入的音素序列转换成与所述上下文信息相匹配的第二词序列。

在一种可能实施方式中，所述处理单元用于：

将所述音素序列中的至少一个音素输入到所述上下文语言模型，通过所述上下文语言模型获取多个匹配概率，一个匹配概率用于表示一个音素与所述上下文信息中的一个备选词之间的匹配程度；

将与所述至少一个音素之间匹配概率最大的至少一个备选词所构成的序列确定为所述第二词序列。

在一种可能实施方式中，所述确定模块用于：

基于所述第一词序列和所述第二词序列，确定多个备选文本，一个备选文本用于表示对所述第一词序列和所述第二词序列中备选词的一种组合情况；

对所述多个备选文本进行评分，将评分最高的备选文本确定为所述语义信息。

在一种可能实施方式中，所述第二获取模块用于：

调用基础语言模型对所述音素序列进行处理，输出所述第一词序列，所述基础语言模型用于将输入的音素序列转换成发音相符的第一词序列。

一方面，提供了一种语言模型的训练装置，该装置包括：

第一获取模块，用于基于样本音频的参考文本，获取与所述参考文本之间语义相似度高于第一阈值的扩展文本，其中，所述参考文本为与所述样本音频的产生语境相关的上下文文本；

第二获取模块，用于基于所述参考文本中的参考关键词，获取与所述参考关键词之间语义相似度高于第二阈值的扩展关键词；

第三获取模块，用于将所述参考文本、所述参考关键词、所述扩展文本以及所述扩展关键词，获取为所述样本音频的上下文信息；

训练模块，用于基于所述样本音频的音素序列、所述样本音频的语义信息及所述样本音频的上下文信息，对初始语言模型进行训练，得到上下文语言模型。

在一种可能实施方式中，所述第一获取模块用于：

获取所述参考文本中的非停用词；

在所述参考文本中将所述非停用词替换为与所述非停用词之间语义相似度高于第三阈值的近义词，得到一个扩展文本。

在一种可能实施方式中，所述第二获取模块用于：

对所述参考关键词进行嵌入处理，得到所述参考关键词的目标嵌入向量；

查询与所述目标嵌入向量之间距离最近的目标数量个嵌入向量；

将查询到的所述目标数量个嵌入向量所对应的目标数量个词语确定为所述扩展关键词。

在一种可能实施方式中，若所述目标音频为考试录音，则所述参考文本包括考试题目或者***中至少一项。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的音频处理方法或语言模型的训练方法。

一方面，提供了一种存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的音频处理方法或语言模型的训练方法。

一方面，提供一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得计算机设备能够执行上述任一种可能实施方式的音频处理方法或语言模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过在获取到目标音频的音素序列之后，基于传统的语音识别方式获取到第一词序列，此外还引入了上下文信息再次进行特定语境下的语音识别，以获取到符合特定语境的上下文信息的第二词序列，综合考虑第一词序列和第二词序列，规划解码出最终的语义信息，相当于通过引入第二词序列，强化了某些符合特定语境的词语在语义信息中的出现概率，降低了对语义信息中一些关键词的误判情况，提升了自动语音识别过程的准确性，从而提升了音频处理过程的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频处理方法的实施环境示意图；

图2是本申请实施例提供的一种音频处理方法的流程图；

图3是本申请实施例提供的一种ASR***的原理性流程图；

图4是本申请实施例提供的一种语言模型的训练方法的流程图；

图5是本申请实施例提供的一种获取扩展文本的程序框图；

图6是本申请实施例提供的一种音频处理方法的流程图；

图7是本申请实施例提供的一种音频处理方法的输入输出结果示意图；

图8是本申请实施例提供的一种音频处理方法的输入输出结果示意图；

图9是本申请实施例提供的一种音频处理方法的输入输出结果示意图；

图10是本申请实施例提供的一种音频处理装置的结构示意图；

图11是本申请实施例提供的一种语言模型的训练装置的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。

让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中音频处理技术（Speech Technology，也称语音处理技术）成为未来最被看好的人机交互方式之一，具体包括自动语音识别技术（Automatic Speech Recognition，ASR）、语音合成技术（Text ToSpeech，TTS，也称文语转换技术）、语音分离技术以及声纹识别技术等。

随着AI技术的发展，音频处理技术在多个领域展开了研究和应用，例如常见的智能语音助手、语音购物***、智能音箱、车载或电视盒子上的语音前端处理、语音识别产品、声纹识别产品等，相信随着AI技术的发展，音频处理技术将在更多的领域得到应用，发挥越来越重要的价值。

本申请实施例涉及音频处理领域内的ASR技术，是一种将人的语音转换为文本的技术。ASR技术是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于音频信号的多样性和复杂性，ASR***只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。

在一个示例性场景中，在口语考试智能阅卷***中，ASR通常作为***入口，考生音频通过ASR技术识别转换成文本之后，才能够通过基于规则（比如关键词匹配）、机器学习、自然语言处理（Natural Language Processing，NLP）等技术，对ASR识别出的文本进行智能阅卷评分。因此，ASR的准确率是整个口语考试智能阅卷***的关键。

传统的ASR在进行语音识别时，采用音频信号作为输入，通过提取音频信号中的波形、频谱、音调等特征，将提取到的特征输入到使用大量音频数据训练好的ASR模型中，解码得到最终的备选文本列表，经过对备选文本的打分机制筛选出最终的识别文本。

但在口语考试场景中，由于题目的得分点经常使用关键词来控制，因此针对考生音频中给分点所对应的关键词的识别准确率非常重要。比如，在问答题目“How do you gohome after school（你放学后怎么回家）”中，如果ASR模型将考生音频从“Walking home（走路回家）”错误地识别为“Working home（在家办公）”，那么由于“Walking”这个关键词的错误识别，会导致该考生的正确回答反而不能得分，造成对考生成绩的错误评判。

有鉴于此，在本申请实施例提供一种音频处理方法，基于音频所关联语境下的参考文本、参考关键词，利用NLP技术生成对应的扩展文本、扩展关键词，将参考文本、参考关键词、扩展文本、扩展关键词作为上下文信息，以此训练出具有针对性的上下文语言模型，将这一上下文语言模型应用到ASR识别技术中，可以提升对某些语音关键词的识别准确率，从而提升ASR语音识别过程的准确性，也即提升音频处理过程的准确性。

图1是本申请实施例提供的一种音频处理方法的实施环境示意图。参见图1，在该实施环境中包括终端101和服务器102，终端101和服务器102均为一种计算机设备。

终端101上安装有音频信号的采集组件，用于采集说话人的音频信号，例如该采集组件为麦克风等录音组件，或者，终端101下载一段音频文件，将该音频文件进行解码得到音频信号。

在一些实施例中，终端101在通过采集组件采集到待处理的目标音频之后，将目标音频发送至服务器102，由服务器102对目标音频进行ASR处理，比如，服务器102对目标音频进行预处理之后，调用声学模型分离出预处理后的目标音频的音素序列，调用基础语言模型对音素序列识别出第一词序列，调用上下文语言模型对音素序列识别出第二词序列，接着综合第一词序列和第二词序列进行语音解码，基于打分机制确定出最终的语义信息。

终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

服务器102可以用于处理音频信号，服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地，服务器102可以承担主要计算工作，终端101可以承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，终端101和服务器102两者之间采用分布式计算架构进行协同计算。

可选地，终端101泛指多个终端中的一个，终端101的设备类型包括但不限于：智能手机、平板电脑、电子书阅读器、MP3（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）播放器、MP4（Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4）播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例，以终端包括台式计算机来进行举例说明。

可选地，服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本领域技术人员可以知晓，上述终端101的数量能够更多或更少。比如上述终端101仅为一个，或者上述终端101为几十个或几百个，或者更多数量。本申请实施例对终端101的数量和设备类型不加以限定。

在一个示例性场景中，以口语考试为例，考生在机房的终端101上录入目标音频，终端101对目标音频采集完毕后，将目标音频上传到后台的服务器102，服务器102上通过口语考试智能阅卷***进行阅卷评分，首先将目标音频输入到ASR部分，ASR部分对目标音频进行语音识别，识别出语义信息，接着可以基于规则、机器学习、NLP等技术来对语义信息进行阅卷评分，最终输出考生的口语考试成绩。

图2是本申请实施例提供的一种音频处理方法的流程图。参见图2，该实施例可以应用于计算机设备，下面以计算机设备为服务器为例进行说明，该实施例包括下述步骤。

201、服务器获取用于表示目标音频中音节发音顺序的音素序列。

其中，目标音频是指本次ASR语音识别过程中待处理的音频信号。

在一些实施例中，服务器获取目标音频，对该目标音频进行预处理，将预处理后的目标音频输入声学模型（Acoustic Model，AM）中，通过声学模型提取该音素序列，其中，该声学模型用于将输入的音频信号转化为其音节发音顺序的音素序列。

可选地，服务器接收终端发送的目标音频，目标音频是由用户在终端上录制的音频，比如，目标音频是由考生在终端上录制的口语考试音频，或者，目标音频是用户在语音点餐时输入的语音指令，或者，目标音频是用户在语音点歌时输入的语音指令。在一个示例中，用户在终端上的应用程序中触发音频采集指令，终端操作***响应于该音频采集指令，调用录音接口，驱动音频信号的采集组件以音频流的形式采集目标音频，在采集完毕后将目标音频上传至服务器。

可选地，服务器从本地数据库中读取一段音频作为目标音频，或者，服务器从云数据库中下载一段音频作为目标音频，本申请实施例不对目标音频的获取方式进行具体限定。

在一些实施例中，服务器在对目标音频进行预处理时，采取下述方式：对目标音频进行语音活动检测（Voice Activity Detection，VAD，又称语音端点检测），识别出目标音频中信号能量低于能量阈值的部分（这一部分俗称“静音期”），接着从目标音频中删除这一静音期部分，得到第一音频；再者，对第一音频进行预加重处理，以对第一音频中的高频分量进行增强，得到第二音频，预加重处理能够避免高频分量由于信号衰减而受损，从而提升信噪比；接着，通过窗函数对第二音频进行加窗处理，将第二音频分帧为多个音频帧，窗函数可以包括哈明（Hamming）窗、汉宁（Hanning）窗、矩形窗等；接着，对第二音频的多个音频帧进行短时傅里叶变换（Short-Time Fourier Transform，STFT），将该多个音频帧从时域转换到频域，得到第三音频；接着，通过梅尔滤波器组滤除掉第三音频中与人耳听觉感知不匹配的频率分量，输出目标音频的梅尔非线性谱；再者，对目标音频的梅尔非线性谱取对数，得到目标音频的对数谱；最终，对目标音频的对数谱进行离散余弦变换（DiscreteCosine Transform，DCT），得到目标音频的倒谱，基于目标音频的倒谱，提取得到目标音频的梅尔频率倒谱系数（Mel Frequency Cepstral Coefficents，MFCC）。这一目标音频的MFCC即可作为目标音频的特征向量，代表预处理后的目标音频。

在上述过程中，仅以预处理提取目标音频的MFCC为例进行说明，在一些实施例中，还能够预处理以提取目标音频的线性预测倒谱系数（Linear Prediction CepstrumCoefficient，LPCC），本申请实施例不对预处理过程具体提取哪种音频特征进行限定。通过对目标音频进行预处理，能够把每一音频帧的波形变成一个包含声音信息的多维向量，以便于声学模型提取音素序列。

在对目标音频进行预处理后，将预处理后的目标音频（也即MFCC特征向量）输入到声学模型中，由声学模型计算MFCC向量在声学特征上的得分，输出目标音频的音素序列。可选地，该声学模型通过大量音频数据训练得到，声学模型的输入是目标音频的特征向量，输出是目标音频的音素序列，比如，该声学模型包括但不限于：隐马尔科夫模型（HiddenMarkov Model，HMM）、深度神经网络（Deep Neural Networks，DNN）、卷积神经网络（Convolutional Neural Networks，CNN）、循环神经网络（Recurrent Neural Network，RNN）等，本申请实施例不对声学模型的模型结构进行具体限定。

202、服务器基于该音素序列，获取与该音素序列相匹配的第一词序列。

可选地，服务器调用基础语言模型对该音素序列进行处理，输出该第一词序列，其中，该基础语言模型用于将输入的音素序列转换成发音相符的第一词序列，例如，该基础语言模型包括但不限于：N元语言模型（N-gram Language Model，N-gram LM）、马尔科夫N元模型（Markov N-gram）、指数模型（Exponential Models）、决策树模型（Decision TreeModels）、RNN等，具体地，N元语言模型还划分为二元语言模型（Bi-gram）、三元语言模型（Tri-gram）等，本申请实施例不对基础语言模型的模型结构进行具体限定。

在一些实施例中，服务器基于样本数据对初始语言模型进行训练，得到基础语言模型，这里的基础语言模型是指一种与上下文无关的语言模型，是随着ASR***整体（包括声学模型和基础语言模型）进行训练而得到的，在ASR***训练完毕后，基础语言模型是不会随着不同的上下文信息而改变的。

203、服务器基于该目标音频的上下文信息和该音素序列，获取与该音素序列及该上下文信息均匹配的第二词序列，该上下文信息用于表示该目标音频相关联的语境。

可选地，服务器调用上下文语言模型对该音素序列进行处理，输出该第二词序列，其中，该上下文语言模型用于将输入的音素序列转换成与该上下文信息相匹配的第二词序列。例如，该上下文语言模型包括但不限于：N-gram模型、Markov N-gram模型、指数模型、决策树模型、RNN等，具体地，N元语言模型还划分为Bi-gram、Tri-gram等，本申请实施例不对上下文语言模型的模型结构进行具体限定。

在一些实施例中，服务器基于样本音频的音素序列、样本音频的语义信息以及样本音频的上下文信息对初始语言模型进行训练，得到上下文语言模型，其中，该样本音频的上下文信息与该目标音频的上下文信息相同，也即样本音频与目标音频与同一语境相关联，这里的上下文语言模型是指一种与上下文有关的语言模型，利用上下文信息能够有针对性地构建出一个上下文语言模型，以提升在特定语境下的ASR识别准确率。

可选地，该上下文信息包括参考文本、参考关键词、扩展文本及扩展关键词，该参考文本是指与样本音频的产生语境相关的上下文文本，该参考关键词是指该参考文本中提取出的一个或多个关键词，该扩展文本是指利用NLP技术对参考文本进行扩充所得的文本，该扩展关键词是指利用NLP技术对参考关键词进行扩充所得的词语。

示意性地，在口语考试场景中，参考文本包括试题题目和参***，参考关键词为参***中的给分点，扩展文本为利用NLP技术对试题题目和参***进行扩充后的文本，扩展关键词为参考关键词的同义词或近义词。

示意性地，在语音点餐场景中，参考文本包括菜单信息和前几轮的历史人机会话信息，参考关键词为菜品及份数，扩展文本为利用NLP技术对菜单信息和历史人机会话信息进行扩充后的文本，扩展关键词为参考关键词的同义词或近义词。

在上述过程中，针对不同的上下文信息，能够训练出不同的上下文语言模型，使得最终在音频解码过程中倾向于输出符合上下文信息的语义信息，例如针对不同的口语考试试题训练不同的上下文语言模型，但采用相同的基础语言模型，能够提升ASR过程的准确率。

204、服务器基于该第一词序列和该第二词序列，确定该目标音频对应的语义信息。

在上述过程中，服务器在音频解码过程中，综合考虑基础语言模型输出的第一词序列和上下文语言模型输出的第二词序列，将两个不同语言模型的输出结果进行叠加，并增加上下文信息中某些词语的路径权重，使得解码算法在计算最优的词序列路径时，倾向于输出符合上下文信息的词语，从而能够提升确定出的语义信息的准确率。

图3是本申请实施例提供的一种ASR***的原理性流程图，请参考图3，在ASR***中，先对输入语音进行编码（包含了预处理过程），在其后的解码过程中，利用声学模型301获取输入语音的音素序列，分别利用基础语言模型302（lm_base）和上下文语言模型303（lm_context）进行语音识别，输出第一词序列和第二词序列，其中，基础语言模型302是随着声学模型301一起训练的，其训练数据来源于海量的互联网音频样本，而上下文语言模型303则是针对当前特定语境而专门训练出来的，其训练数据来源于样本音频的上下文信息。比如在口语考试场景中，先获取试题题目、参***和参考关键词，再对试题题目、参***和参考关键词进行扩充，最终将扩充前后的信息一起获取为上下文信息，从而可以训练出一个具有较强的语境针对性的上下文语言模型303，能够理解的是，在ASR***识别新的题目之前，需要重新针对新的题目训练新的上下文语言模型303，但无需重新训练声学模型301和基础语言模型302。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过在获取到目标音频的音素序列之后，基于传统的语音识别方式获取到第一词序列，此外还引入了上下文信息再次进行特定语境下的语音识别，以获取到符合特定语境的上下文信息的第二词序列，综合考虑第一词序列和第二词序列，规划解码出最终的语义信息，相当于通过引入第二词序列，强化了某些符合特定语境的词语在语义信息中的出现概率，降低了对语义信息中一些关键词的误判情况，提升了自动语音识别过程的准确性，从而提升了音频处理过程的准确性。

图4是本申请实施例提供的一种语音模型的训练方法的流程图，请参考图4，该实施例应用于计算机设备，以计算机设备为服务器为例进行说明，将对ASR***中声学模型、基础语言模型以及上下文语言模型的训练过程进行介绍，该实施例包括下述步骤。

401、服务器基于样本数据对初始语言模型和初始声学模型进行联合训练，分别得到基础语言模型和声学模型。

可选地，该初始语言模型包括但不限于：N-gram模型、Markov N-gram模型、指数模型、决策树模型、RNN等，具体地，N元语言模型还划分为Bi-gram、Tri-gram等，本申请实施例不对初始语言模型的模型结构进行具体限定。

可选地，该初始声学模型包括但不限于：HMM模型、DNN、CNN、RNN等，本申请实施例不对初始声学模型的模型结构进行具体限定。

在上述过程中，服务器从音频库中抽取多个样本音频，可由业务人员人工标注出该多个样本音频所对应的多个样本文本，以该多个样本音频作为输入信号，先后输入到初始声学模型和初始语言模型中，由初始语言模型预测出对应的多个预测文本，根据该多个样本文本与该多个预测文本之间的误差，计算本次训练过程的损失函数值，响应于损失函数值小于或等于损失阈值或者迭代次数大于或等于次数阈值，停止训练，得到基础语言模型和声学模型，否则，响应于损失函数值大于损失阈值或者迭代次数小于次数阈值，迭代执行下一轮训练过程。

402、服务器获取该样本音频的参考文本和该参考文本中的参考关键词，该参考文本为与该样本音频的产生语境相关的上下文文本。

其中，该参考文本为与样本音频的产生语境相关的上下文文本，在一个示例性场景中，若该样本音频为考试录音，则该参考文本包括考试题目或者***中至少一项，比如在口语考试场景中，参考文本包括试题题目（上文）和参***（下文）。在另一个示例性场景中，若该样本音频为人机对话语音，则参考文本包括一轮或多轮历史人机会话信息，比如在语音问答场景中，参考文本是指前N（N≥1）轮的人机对话内容。

其中，该参考关键词是指与参考文本对应的用于提炼参考文本的主要内容或者中心思想的核心词语，比如在口语考试场景中，参考关键词是指参***中的给分点，比如在语音问答场景中，参考关键词是指前N轮人机对话内容中提炼出的语义标签。

在上述过程中，用户在服务器上输入参考文本和参考关键词，或者，用户在管理设备上输入参考文本和参考关键词，服务器从管理设备导入该参考文本和参考关键词，或者，用户在服务器上输入参考文本，由服务器基于机器学习模型智能提取出参考关键词，比如，提取出词频最高的词，又比如，提取出语义相似度最高的语义标签等，本申请实施例不对获取参考文本和参考关键词的方式进行具体限定。

403、服务器基于该参考文本，获取与该参考文本之间语义相似度高于第一阈值的扩展文本。

在一些实施例中，服务器获取该参考文本中的非停用词，接着，在该参考文本中将该非停用词替换为与该非停用词之间语义相似度高于第三阈值的近义词，得到一个扩展文本。

其中，非停用词是指在参考文本中不属于停用词（Stopword）的词语，停用词的含义为：在文本处理过程中如果遇到了这类词语，那么服务器会立即停止处理并将这类词语丢弃。停用词能够由用户在服务器上进行自定义设置，在设置完毕后以生成一个停用词表，以供服务器在参考文本中筛选出非停用词。

可选地，服务器遍历参考文本中的每个词语，对任一个词语来说，如果该任一个词语命中停用词表中的任一项，将该任一个词语丢弃，否则，如果该任一个词语没有命中停用词表中的所有项，将该任一个词语确定为一个非停用词，继续对参考文本中的下一个词语迭代执行上述步骤。

可选地，对于任一个非停用词而言，服务器在获取扩展文本时将该任一个非停用词替换为其近义词，即可得到一个扩展文本，可选地，继续在扩展文本中选出新一轮的非停用词并采用其近义词进行替换，从而生成新的扩展文本，可选地，在每轮生成扩展文本时替换掉的非停用词的数量为一个或多个，也即能够一次性替换掉多个非停用词，以生成新的扩展文本。需要说明的是，由于生成扩展文本的方式多种多样，比如一次性替换多个非停用词，或者多轮处理中每轮替换单个非停用词，因此有可能会产生重复的扩展文本，需要对扩展文本进行去重处理，删除掉重复的扩展文本。

在一些实施例中，服务器在确定非停用词的近义词时，利用词向量模型对词库内的各个词语进行映射，得到各个词语在嵌入空间内的向量表示（称为词向量或者嵌入向量），接着，在嵌入空间中确定非停用词的嵌入（Embedding）向量，查询在该嵌入空间中与非停用词的Embedding向量之间距离最近的N（N≥1）个词语作为N个近义词，分别将该非停用词替换为该N个近义词，可以一次性得到N个扩展文本。例如，N通常取3、4、5，或者根据测试效果而指定。可选地，上述词向量模型包括Glove、Word2Vec等基于Embedding的模型。

可选地，上述“距离最近”的含义，是指欧式距离最近，或者余弦相似度最高。比如，对任一个非停用词，获取词库中剩余词语与该任一个非停用词之间的欧式距离，按照欧氏距离从小到大的顺序对该剩余词语进行排序，选取排序位于前N位的词语作为该非停用词的N个近义词。又比如，对任一个非停用词，获取词库中剩余词语与该任一个非停用词之间的余弦相似度，按照余弦相似度从大到小的顺序对该剩余词语进行排序，选取排序位于前N位的词语作为该非停用词的N个近义词。

在一个示例中，假设参考文本为“By bike（乘自行车）”，其中“by”和“bike”均为非停用词，在词库中搜索与“by”距离最近的词为“ride”，与“bike”距离最近的词为“bicycle”，那么即可得到2个扩展文本：“By bicycle（乘自行车）”、“Ride bike（骑自行车）”；同理，假设参考文本中存在一个非停用词为“walking”，那么能够将其替换为近义词“walk”。

图5是本申请实施例提供的一种获取扩展文本的程序框图，请参考500，示出了一种在参考文本的基础上，基于循环遍历方式生成多个扩展文本的处理逻辑，以口语考试场景为例，首先准备试题题目、参***作为参考文本，创建出参考文本的句子列表sens，令句子下标i = 0（将i初始化为0），且设置expandsens = []（将扩展文本的句子列表初始化为空），接着，如果i＜len(sens)（如果句子下标i小于句子列表的列表长度），令i+=1（令i自增1），然后对第i个句子sens[i]进行分词（tokenize）处理，得到第i个句子内的多个词语（words），令词语下标j = 0（将j初始化为0），如果j＜len(words)（如果词语下标j小于第i个句子的词语数量），令j+=1（令j自增1），接着如果第j个词语words[j]为非停用词（如果words[j] not 停用词），找到words[j]语义相近词words[j]’，在第i个句子sens[i]中将第j个词语words[j]替换为其近义词words[j]’，得到新的句子sens[i]’，将扩展得到的新句子sens[i]’添加到扩展文本的句子列表expandsens中。

在一些实施例中，在进行文本扩充时，服务器还能够将本轮中需要替换的非停用词采用掩码（MASK）遮盖掉，然后利用语言模型来预测与非停用词语义相近的近义词，同样能够达到文本扩充的目的，比如，该语言模型包括BERT（Bidirectional EncoderRepresentation from Transformers，采用双向编码表示的翻译模型）、NNLM（NeuralNetwork Language Model，神经网络语言模型）、ELMo（Embeddings from LanguageModels，采用嵌入处理的语言模型）等，本申请实施例不对文本扩充过程中具体采用何种语言模型预测近义词进行具体限定。

在一些实施例中，在进行文本扩充时，服务器收集大量的相关语境下的文本数据，在给定了特定的上下文信息之后，通过LDA（Latent Dirichlet Allocation层贝叶斯概率模型，是一种文档主题生成模型）等机器学习方法或深度学习方法，从收集到的文本数据中筛选出与该上下文信息相关的语料数据，然后采用筛选出的语料数据作为扩展文本，参与到其上下文语言模型的训练过程即可。比如，口语考试场景中，收集大量的日常口语对话、口语考试和日常口语练习的文本数据，在给定某一场口语考试的试题题目和参***的文本信息之后，通过LDA模型进行文本分类，从收集到的海量日常文本数据中筛选出与本场口语考试相关度最高的语料数据，这些语料数据作为扩充文本应用到上下文语言模型的训练过程中。

404、服务器基于该参考关键词，获取与该参考关键词之间语义相似度高于第二阈值的扩展关键词。

在一些实施例中，服务器对该参考关键词进行嵌入处理，得到该参考关键词的目标嵌入向量，查询与该目标嵌入向量之间距离最近的目标数量个嵌入向量，将查询到的该目标数量个嵌入向量所对应的目标数量个词语确定为该扩展关键词。其中，查询扩展关键词的过程与上述步骤403中查询参考文本中非停用词的近义词的过程类似，这里不做赘述。

在一些实施例中，服务器对词库中的每个词语，对应存储一个近义词表，接着对任一个参考关键词，查询与该任一个参考关键词对应存储的近义词表，将近义词表中的一个或多个近义词获取为其扩展关键词，这样能够简化获取扩展关键词过程的处理逻辑。

405、服务器将该参考文本、该参考关键词、该扩展文本以及该扩展关键词获取为该样本音频的上下文信息。

在上述过程中，服务器不仅获取了简单易得的参考文本、参考关键词，而且还利用NLP技术对参考文本、参考关键词进行了充分扩展，得到了扩展文本、扩展关键词，从而大大丰富了可供采集的上下文信息，扩大了上下文信息的词语覆盖范围，提升了用于训练上下文语言模型的样本容量，有利于提升上下文语言模型的准确度，避免漏判掉一些近义词出现的情况。

在一些实施例中，服务器直接将参考文本和参考关键词作为上下文信息，并执行下述步骤406来训练上下文语言模型，这样可以简化模型训练过程，简化繁琐训练流程。

406、服务器基于该样本音频的音素序列、该样本音频的语义信息、该样本音频的上下文信息，对初始语言模型进行训练，得到上下文语言模型。

其中，该上下文语言模型用于将输入的音素序列转换成与该上下文信息相匹配的第二词序列。

可选地，该初始语言模型包括但不限于：N-gram模型、Markov N-gram模型、指数模型、决策树模型、RNN等，具体地，N元语言模型还划分为Bi-gram、Tri-gram等，本申请实施例不对初始语言模型的模型结构进行具体限定。需要说明的是，上述步骤406中的初始语言模型与上述步骤401中的初始语言模型可以是相同结构的语言模型，或者是不同结构的语言模型，本申请实施例不对两者是否采用同种结构的语言模型进行具体限定，比如，两者均为N-gram模型。

在一些实施例中，以符合上下文信息的一个样本音频（比如回答正确的考生音频）为例，将该样本音频作为输入信号，输入到训练完毕的声学模型中，以获取该样本音频的音素序列，接着将该样本音频的音素序列输入到初始语言模型中，由初始语言模型预测出该音素序列中每个音素对应于给定的上下文信息中每个词语的概率，将每个音素所对应的概率最大的词语抽取构成一个词序列，获取模型输出的词序列与对该样本音频进行人工标注得到的语义信息之间的误差，基于该误差计算本次训练过程的损失函数值，响应于损失函数值小于或等于损失阈值或者迭代次数大于或等于次数阈值，停止训练，得到上下文语言模型，否则，响应于损失函数值大于损失阈值或者迭代次数小于次数阈值，迭代执行下一轮训练过程。

在一个示例性场景中，以口语考试场景为例，假设问答题目为“How do you gohome after school（你放学后怎么回家）”，参考***括：“I go home by bus（我乘公交车回家）”、“I go home by bike（我骑自行车回家）”、“I go home on foot（我走路回家）”、“I walk home（我走路回家）”，那么通过上述步骤403对问答题目进行扩充之后，得到扩展文本“How do you ride home after school（你放学后怎么回家）”以及“How do you gethome（你怎么回家）”，对参***进行扩充后，得到扩展文本“I come home by bus（我乘公交车回家）”、“I come home by bicycle（我骑自行车回家）”、“I come home on foot（我走路回家）”、“I ride home（我搭车回家）”等。

接着，采用原始的问答题目“How do you go home after school（你放学后怎么回家）”、原始的参***“I go home by bus（我乘公交车回家）”、“I go home by bike（我骑自行车回家）”、“I go home on foot（我走路回家）”、“I walk home（我走路回家）”，以及扩展得到的扩展文本“How do you ride home after school（你放学后怎么回家）”、“Howdo you get home（你怎么回家）”、“I come home by bus（我乘公交车回家）”、“I comehome by bicycle（我骑自行车回家）”、“I come home on foot（我走路回家）”、“I ridehome（我搭车回家）”等语料，即可训练得到一个上下文相关的N-gram语言模型。

在本申请实施例中，通过大量音频数据训练得到声学模型以及与上下文无关的基础语言模型，该声学模型和该基础语言模型能够迁移至任意的语境、任意的场景中，具有较好的普适性和泛化性，接着，针对当前样本音频的上下文信息单独训练一个个性化的上下文语言模型，能够在保持泛化能力的基础上，提升针对特定语境下语音识别的准确性，在ASR***中综合利用声学模型、基础语言模型以及上下文语言模型，能够大大提升ASR***的准确性，提升音频处理准确性，并且，针对全新的语境或者全新的场景，只需要通过少量计算训练一个新的上下文语言模型即可，而无需重新训练新的声学模型和基础语言模型，因此使得ASR***在保持高准确率的基础上兼具了极高的可移植性。

图6是本申请实施例提供的一种音频处理方法的流程图，请参考图6，该实施例应用于计算机设备，以计算机设备为服务器为例进行说明，在上述实施例训练得到了声学模型、基础语言模型以及上下文语言模型的基础上，将对如何应用这三种模型来进行音频处理的过程进行介绍，该实施例包括下述步骤。

601、服务器获取目标音频。

可选地，服务器接收终端发送的目标音频，目标音频是由用户在终端上录制的音频，比如，目标音频是由考生在终端上录制的口语考试音频，或者，目标音频是用户在语音点餐时输入的语音指令，或者，目标音频是用户在语音点歌时输入的语音指令。

在一个示例中，用户在终端上的应用程序中触发音频采集指令，终端操作***响应于该音频采集指令，调用录音接口，驱动音频信号的采集组件以音频流的形式采集目标音频，在采集完毕后将目标音频上传至服务器。

602、服务器调用声学模型对目标音频进行处理，获取用于表示目标音频中音节发音顺序的音素序列。

在上述过程中，服务器对该目标音频进行预处理，将预处理后的目标音频输入声学模型中，通过声学模型提取该音素序列，其中，该声学模型用于将输入的音频信号转化为其音节发音顺序的音素序列。

在一些实施例中，服务器在对目标音频进行预处理时，采取下述方式：对目标音频进行VAD检测，识别出目标音频中信号能量低于能量阈值的部分（这一部分俗称“静音期”），接着从目标音频中删除这一静音期部分，得到第一音频；再者，对第一音频进行预加重处理，以对第一音频中的高频分量进行增强，得到第二音频，预加重处理能够避免高频分量由于信号衰减而受损，从而提升信噪比；接着，通过窗函数对第二音频进行加窗处理，将第二音频分帧为多个音频帧，窗函数可以包括哈明窗、汉宁窗、矩形窗等；接着，对第二音频的多个音频帧进行STFT变换，将该多个音频帧从时域转换到频域，得到第三音频；接着，通过梅尔滤波器组滤除掉第三音频中与人耳听觉感知不匹配的频率分量，输出目标音频的梅尔非线性谱；再者，对目标音频的梅尔非线性谱取对数，得到目标音频的对数谱；最终，对目标音频的对数谱进行DCT变换，得到目标音频的倒谱，基于目标音频的倒谱，提取得到目标音频的MFCC向量。这一目标音频的MFCC向量即可作为目标音频的特征向量，代表预处理后的目标音频。

在上述过程中，仅以预处理提取目标音频的MFCC向量为例进行说明，在一些实施例中，还能够预处理以提取目标音频的LPCC向量，本申请实施例不对预处理过程具体提取哪种音频特征进行限定。通过对目标音频进行预处理，能够把每一音频帧的波形变成一个包含声音信息的多维向量，以便于声学模型提取音素序列。

在对目标音频进行预处理后，将预处理后的目标音频（也即MFCC特征向量）输入到声学模型中，由声学模型计算MFCC向量在声学特征上的得分，输出目标音频的音素序列。可选地，该声学模型通过大量音频数据训练得到，声学模型的输入是目标音频的特征向量，输出是目标音频的音素序列，比如，该声学模型包括但不限于：HMM模型、DNN、CNN、RNN等，本申请实施例不对声学模型的模型结构进行具体限定。

603、服务器调用基础语言模型对该音素序列进行处理，输出与该音素序列相匹配的第一词序列。

其中，该基础语言模型用于将输入的音素序列转换成发音相符的第一词序列。该基础语言模型包括但不限于：N-gram模型、Markov N-gram模型、指数模型、决策树模型、RNN等，具体地，N-gram模型还划分为Bi-gram、Tri-gram等，本申请实施例不对基础语言模型的模型结构进行具体限定。

在上述过程中，服务器基于该音素序列，获取与该音素序列相匹配的第一词序列。具体地，该音素序列中包括至少一个音素，以音素序列中任一个音素为例，通过基础语言模型预测该任一个音素匹配于词库中多个词语的概率，将概率最大的词语添加到第一词序列中与该任一个音素对应的位置，重复执行上述过程，即可得到与音素序列相匹配的第一词序列。这里的匹配是指，音素的发音与词语的发音相匹配。

在一些实施例中，对音素序列中每个音素，基础语言模型保留预测出的概率位于前N（N≥1）位的N个词语，从而在第一词序列中每个位置上以一个N元数组的形式进行表示，本申请实施例不对第一词序列的数据结构进行具体限定。

604、服务器调用上下文语言模型对该音素序列进行处理，输出与该音素序列及该目标音频的上下文信息均匹配的第二词序列。

其中，该上下文信息用于表示该目标音频相关联的语境。

可选地，该上下文信息包括参考文本、参考关键词、扩展文本及扩展关键词，示意性地，在口语考试场景中，参考文本包括试题题目和参***，参考关键词为参***中的给分点，扩展文本为利用NLP技术对试题题目和参***进行扩充后的文本，扩展关键词为参考关键词的同义词或近义词。

其中，该上下文语言模型用于将输入的音素序列转换成与该上下文信息相匹配的第二词序列。这里的上下文语言模型是指一种与上下文有关的语言模型，利用上下文信息能够有针对性地构建出一个上下文语言模型，以提升在特定语境下的ASR识别准确率。

可选地，该上下文语言模型包括但不限于：N-gram模型、Markov N-gram模型、指数模型、决策树模型、RNN等，具体地，N元语言模型还划分为Bi-gram、Tri-gram等，本申请实施例不对上下文语言模型的模型结构进行具体限定。

在一些实施例中，服务器将该音素序列中的至少一个音素输入到该上下文语言模型，通过该上下文语言模型获取多个匹配概率，一个匹配概率用于表示一个音素与该上下文信息中的一个备选词之间的匹配程度；将与该至少一个音素之间匹配概率最大的至少一个备选词所构成的序列确定为该第二词序列。上述备选词是指该上下文信息中的任一个词语，比如参考文本中的词语、扩展文本中的词语、参考关键词或者扩展关键词，均称为备选词。

在一些实施例中，对音素序列中每个音素，上下文语言模型保留匹配概率位于前N（N≥1）位的N个备选词，从而在第二词序列中每个位置上以一个N元数组的形式进行表示，本申请实施例不对第二词序列的数据结构进行具体限定。

在上述过程中，服务器基于该目标音频的上下文信息和该音素序列，获取与该音素序列及该上下文信息均匹配的第二词序列。在第二词序列中，倾向于匹配到上下文信息中的备选词，从而使得对音素序列进行处理时，重复利用到目标音频的上下文信息，避免将一些发音相似的音素识别为另外语境下的同音词，能够提升语音识别的准确率。

605、服务器基于该第一词序列和该第二词序列，确定该目标音频对应的语义信息。

在一些实施例中，服务器基于该第一词序列和该第二词序列，确定多个备选文本，一个备选文本用于表示对该第一词序列和该第二词序列中备选词的一种组合情况；对该多个备选文本进行评分，将评分最高的备选文本确定为该语义信息。

在上述过程中，在确定备选文本时，是指将第一词序列中的任一备选词与第二词序列中的一个或多个备选词按照原定词序进行排列组合所得的新的词序列，能够理解的是，备选文本中包括第一词序列本身以及第二词序列本身，当然，还包括对第一词序列和第二词序列进行打乱重组所得的新的词序列。

在一个示例中中，第一词序列为“Working home（在家办公）”，第二词序列为“Walking the road（走在路上）”，那么将第一词序列中的词语与第二词序列中的词语进行排列组合，得到的备选文本至少包括以下两种：“Working the road”、“Walking home”。

在上述过程中，对多个备选文本进行打分的过程，可选地，利用动态规划算法Viterbi进行路径规划，对于第一词序列和第二词序列中同时出现的词语，通过提高这些同时出现的词语的路径权重，能够增大参考文本、扩展文本、参考关键词以及扩展关键词中备选词的路径权重，以增加最终确定的语义信息中备选词的出现概率。

上述过程也即是利用声学模型和两种语言模型的输出结果进行语音解码的过程，解码过程是ASR***的核心组件，通过训练好的解码器对目标音频进行解码，能够获得可能性最大的词串（也即语义信息）。解码器的核心算法是动态规划算法Viterbi，在利用Viterbi算法打分的过程中，使得解码器倾向于在语义信息中输出这些符合上下文信息的词语。

在上述服务器音频解码过程中，综合考虑基础语言模型输出的第一词序列和上下文语言模型输出的第二词序列，将两个不同语言模型的输出结果进行叠加，并增加上下文信息中某些词语的路径权重，使得解码算法在计算最优的词序列路径时，倾向于输出符合上下文信息的词语，从而能够提升确定出的语义信息的准确率。

在一个示例性场景中，比如在口语考试场景中，考生回答的内容与试题题目、参***相关的可能性较大，通过提升这些备选词的输出概率，能够有效降低ASR***的字错误率（Word Error Rate，WER，指ASR识别错误的单词数占所有单词数的比例）。通过提升ASR***的识别准确率并降低其WER，使得智能阅卷***能够基于正确的ASR识别结果（语义信息）给出正确的评分，这一还能够提升整体口语考试的智能阅卷***的可靠度和稳定性。

图7是本申请实施例提供的一种音频处理方法的输入输出结果示意图，请参考700，示出了针对口语考试中短文朗读题型的ASR识别结果。图8是本申请实施例提供的一种音频处理方法的输入输出结果示意图，请参考800，示出了针对口语考试中问答题型的ASR识别结果。图9是本申请实施例提供的一种音频处理方法的输入输出结果示意图，请参考900，示出了针对口语考试中半开放题型的ASR识别结果。能够看出，本申请实施例提供的音频处理方法，可以灵活应用到口语考试中的各类题型，除此以外，情景提问、图片描述等题型均能够涵盖在ASR***的应用范围内，并且，还可以对外提供API（ApplicationProgramming Interface，应用程序接口）访问版本和私有化部署版本，以满足不同安全需求场景下的阅卷评分要求，比如，在高保密级别的口语考试中，由于数据严格保密，那么这一智能阅卷***应当采用私有化部署方案，部署在考试院的机房中离线完成评分过程，而对于一些保密级别较低的口语考试，那么直接通过线上API接口访问到智能阅卷***，由于部署在云端，也就避免了私有化部署的繁琐部署过程。

图10是本申请实施例提供的一种音频处理装置的结构示意图，请参考图10，该装置包括：

第一获取模块1001，用于获取用于表示目标音频中音节发音顺序的音素序列；

第二获取模块1002，用于基于该音素序列，获取与该音素序列相匹配的第一词序列；

第三获取模块1003，用于基于该目标音频的上下文信息和该音素序列，获取与该音素序列及该上下文信息均匹配的第二词序列，该上下文信息用于表示该目标音频相关联的语境；

确定模块1004，用于基于该第一词序列和该第二词序列，确定该目标音频对应的语义信息。

本申请实施例提供的装置，通过在获取到目标音频的音素序列之后，基于传统的语音识别方式获取到第一词序列，此外还引入了上下文信息再次进行特定语境下的语音识别，以获取到符合特定语境的上下文信息的第二词序列，综合考虑第一词序列和第二词序列，规划解码出最终的语义信息，相当于通过引入第二词序列，强化了某些符合特定语境的词语在语义信息中的出现概率，降低了对语义信息中一些关键词的误判情况，提升了自动语音识别过程的准确性，从而提升了音频处理过程的准确性。

在一种可能实施方式中，基于图10的装置组成，该第三获取模块1003包括：

处理单元，用于调用上下文语言模型对该音素序列进行处理，输出该第二词序列，该上下文语言模型用于将输入的音素序列转换成与该上下文信息相匹配的第二词序列。

在一种可能实施方式中，该处理单元用于：

将该音素序列中的至少一个音素输入到该上下文语言模型，通过该上下文语言模型获取多个匹配概率，一个匹配概率用于表示一个音素与该上下文信息中的一个备选词之间的匹配程度；

将与该至少一个音素之间匹配概率最大的至少一个备选词所构成的序列确定为该第二词序列。

在一种可能实施方式中，该确定模块1004用于：

基于该第一词序列和该第二词序列，确定多个备选文本，一个备选文本用于表示对该第一词序列和该第二词序列中备选词的一种组合情况；

对该多个备选文本进行评分，将评分最高的备选文本确定为该语义信息。

在一种可能实施方式中，该第二获取模块1002用于：

调用基础语言模型对该音素序列进行处理，输出该第一词序列，该基础语言模型用于将输入的音素序列转换成发音相符的第一词序列。

需要说明的是：上述实施例提供的音频处理装置在处理音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见音频处理方法实施例，这里不再赘述。

图11是本申请实施例提供的一种语言模型的训练装置的结构示意图，请参考图11，该装置包括：

第一获取模块1101，用于基于样本音频的参考文本，获取与该参考文本之间语义相似度高于第一阈值的扩展文本，其中，该参考文本为与该样本音频的产生语境相关的上下文文本；

第二获取模块1102，用于基于该参考文本中的参考关键词，获取与该参考关键词之间语义相似度高于第二阈值的扩展关键词；

第三获取模块1103，用于将该参考文本、该参考关键词、该扩展文本以及该扩展关键词，获取为该样本音频的上下文信息；

训练模块1104，用于基于该样本音频的音素序列、该样本音频的语义信息及该样本音频的上下文信息，对初始语言模型进行训练，得到上下文语言模型。

本申请实施例提供的装置，针对样本音频的上下文信息单独训练一个个性化的上下文语言模型，能够提升针对特定语境下语音识别的准确性，在ASR***中综合利用声学模型、基础语言模型以及该上下文语言模型，能够大大提升ASR***的准确性，提升音频处理准确性，并且，针对全新的语境或者全新的场景，只需要通过少量计算训练一个新的上下文语言模型即可，而无需重新训练新的声学模型和基础语言模型，因此使得ASR***在保持高准确率的基础上兼具了极高的可移植性。

在一种可能实施方式中，该第一获取模块1101用于：

获取该参考文本中的非停用词；

在该参考文本中将该非停用词替换为与该非停用词之间语义相似度高于第三阈值的近义词，得到一个扩展文本。

在一种可能实施方式中，该第二获取模块1102用于：

对该参考关键词进行嵌入处理，得到该参考关键词的目标嵌入向量；

查询与该目标嵌入向量之间距离最近的目标数量个嵌入向量；

将查询到的该目标数量个嵌入向量所对应的目标数量个词语确定为该扩展关键词。

在一种可能实施方式中，若该目标音频为考试录音，则该参考文本包括考试题目或者***中至少一项。

需要说明的是：上述实施例提供的语言模型的训练装置在训练语言模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语言模型的训练装置与语言模型的训练方法实施例属于同一构思，其具体实现过程详见语言模型的训练方法实施例，这里不再赘述。

图12是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1200可因配置或性能不同而产生比较大的差异，该计算机设备1200包括一个或一个以上处理器（Central Processing Units，CPU）1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条程序代码，该至少一条程序代码由该处理器1201加载并执行以实现上述各个实施例提供的音频处理方法或语言模型的训练方法。可选地，该计算机设备1200还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备1200还包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由终端中的处理器执行以完成上述实施例中音频处理方法或语言模型的训练方法。例如，该计算机可读存储介质包括ROM（Read-OnlyMemory，只读存储器）、RAM（Random-Access Memory，随机存取存储器）、CD-ROM（CompactDisc Read-Only Memory，只读光盘）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得计算机设备能够执行以完成上述实施例中音频处理方法或语言模型的训练方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，可选地，该程序存储于一种计算机可读存储介质中，可选地，上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取用于表示目标音频中音节发音顺序的音素序列；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频的上下文信息和所述音素序列，获取与所述音素序列及所述上下文信息均匹配的第二词序列包括：

调用上下文语言模型对所述音素序列进行处理，输出所述第二词序列，所述上下文语言模型用于将输入的音素序列转换成与所述上下文信息相匹配的第二词序列。

3.根据权利要求2所述的方法，其特征在于，所述调用上下文语言模型对所述音素序列进行处理，输出所述第二词序列包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一词序列和所述第二词序列，确定所述目标音频对应的语义信息包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述音素序列，获取与所述音素序列相匹配的第一词序列包括：

6.一种语言模型的训练方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述基于样本音频的参考文本，获取与所述参考文本之间语义相似度高于第一阈值的扩展文本包括：

获取所述参考文本中的非停用词；

8.根据权利要求6所述的方法，其特征在于，所述基于所述参考文本中的参考关键词，获取与所述参考关键词之间语义相似度高于第二阈值的扩展关键词包括：

9.根据权利要求6所述的方法，其特征在于，若所述样本音频为考试录音，则所述参考文本包括考试题目或者***中至少一项。

10.一种音频处理***，其特征在于，包括终端和服务器；

所述终端用于向所述服务器发送目标音频；

11.一种音频处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述第三获取模块包括：

13.一种语言模型的训练装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频处理方法；或，以实现如权利要求6至权利要求9任一项所述的语言模型的训练方法。

15.一种存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频处理方法；或，以实现如权利要求6至权利要求9任一项所述的语言模型的训练方法。