CN113611311A - 语音转写方法、装置、录音设备和存储介质 - Google Patents
语音转写方法、装置、录音设备和存储介质 Download PDFInfo
- Publication number
- CN113611311A CN113611311A CN202110963345.7A CN202110963345A CN113611311A CN 113611311 A CN113611311 A CN 113611311A CN 202110963345 A CN202110963345 A CN 202110963345A CN 113611311 A CN113611311 A CN 113611311A
- Authority
- CN
- China
- Prior art keywords
- transcription
- audio
- transcribed
- voice transcription
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 377
- 230000035897 transcription Effects 0.000 title claims abstract description 377
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000010438 heat treatment Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 39
- 238000009826 distribution Methods 0.000 claims description 34
- 238000004821 distillation Methods 0.000 claims description 21
- 238000005265 energy consumption Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 18
- 238000004364 calculation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000013021 overheating Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/16—Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音转写方法、装置、录音设备和存储介质,其中方法包括:确定待转写音频;基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的,通过本地存储的语音转写引擎,实现实时性更强、安全性更高且不再依赖网络的离线语音转写。在离线语音转写过程中,考虑了语音转写引擎在不同负荷量下的转写效率以及智能设备功耗,从而使得语音转写引擎在调用分配到的运算资源对待转写音频进行语音转写时,能够平衡智能设备功耗以及转写效率之间的关系,从而实现在保证转写效率的前提下,降低智能设备功耗,缓解发热严重以及续航不佳的情况。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音转写方法、装置、录音设备和存储介质。
背景技术
录音笔凭借携带方便、操作简单等优点,被广泛应用于会议、演讲记录、采访和课堂等场合。
然而,目前市面上的主流录音笔为传统录音笔,传统录音笔的功能局限于录音层面,若要进行语音转写,还需在录音完成后人工将录制的音频文件转换为文字,或是将音频数据上传到云端进行转写。
但是,上述方法操作复杂、灵活性较差,并且将音频文件上传至云端进行语音转写,不仅使得语音转写的及时性很大程度上受到网络状态影响,还存在泄露用户隐私的风险。
发明内容
本发明提供一种语音转写方法、装置、电子设备、录音设备和存储介质,用以解决现有技术中在线语音转写依托于网络状态,稳定性差,且数据安全性差的缺陷。
本发明提供一种语音转写方法,包括:
确定待转写音频;
基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
根据本发明提供的一种语音转写方法,所述语音转写引擎的运算资源是基于如下步骤确定的:
基于所述待转写音频的数据规格,以及设备能耗状态和/或设备发热状态,或,基于所述待转写音频的数据规格,确定所述语音转写引擎的资源占比;
基于所述资源占比,从设备计算资源中确定所述语音转写引擎的运算资源。
根据本发明提供的一种语音转写方法,所述数据规格是基于待转写音频的数据量与存储空间的存储量确定的,所述存储空间用于存储所述待转写音频。
根据本发明提供的一种语音转写方法,所述基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,包括:
基于所述语音转写引擎中的声学模型,编码所述待转写音频的声学特征,并基于所述声学特征确定第一转写结果;
基于所述语音转写引擎中的解码模型,对所述声学特征进行解码,得到第二转写结果;
基于所述语音转写引擎,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本。
根据本发明提供的一种语音转写方法,所述声学模型是基于样本音频,对原始声学模型进行蒸馏训练得到的。
根据本发明提供的一种语音转写方法,所述声学模型是基于如下步骤训练得到的:
基于所述原始声学模型,确定所述样本音频的第一声学特征概率分布;
基于训练阶段的声学模型,确定所述样本音频的第二声学特征概率分布;
基于所述第一声学特征概率分布和所述第二声学特征概率分布,确定蒸馏损失值;
基于所述蒸馏损失值,对所述训练阶段的声学模型进行参数调整,得到所述声学模型。
根据本发明提供的一种语音转写方法,所述基于所述语音转写引擎,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本,包括:
基于所述语音转写引擎中的文本生成模型,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本;
所述文本生成模型是基于样本音频和所述样本音频的样本转写文本,联合所述声学模型和解码模型训练得到的。
本发明还提供的一种语音转写装置,包括:
音频确定单元,用于确定待转写音频;
语音转写单元,用于基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
本发明还提供一种录音设备,包括拾音设备、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述拾音设备用于录制待转写音频,所述处理器执行所述程序时实现如上述任一种所述的语音转写方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的语音转写方法的步骤。
本发明提供的语音转写方法、装置、录音设备和存储介质,通过本地存储的语音转写引擎,实现实时性更强、安全性更高且不再依赖网络的离线语音转写。在离线语音转写过程中,根据待转写音频的数据规格确定语音转写引擎的运算资源,考虑了语音转写引擎在不同负荷量下的转写效率以及智能设备功耗,从而使得语音转写引擎在调用分配到的运算资源对待转写音频进行语音转写时,能够平衡智能设备功耗以及转写效率之间的关系,从而实现在保证转写效率的前提下,降低智能设备功耗,缓解发热严重以及续航不佳的情况。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音转写方法的流程示意图;
图2是本发明提供的语音转写引擎的运算资源的确定过程的示意图;
图3是本发明提供的语音转写方法中步骤120的流程示意图;
图4是本发明提供的声学模型的确定过程的示意图;
图5是本发明提供的声学模型的训练流程图;
图6是本发明提供的转写结果融合的流程示意图;
图7是本发明提供的语音转写方法的总体框架图;
图8是本发明提供的语音转写装置的结构示意图;
图9是本发明提供的录音设备的结构示意图;
图10是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,市面上的主流录音笔为传统录音笔,传统录音笔的功能局限于录音层面,若要将声音转换为文字,则需在录音完成后由人工将录制的音频文件转换为文字,显然,此种仅具备单一功能的传统录音笔限制了用户使用时的灵活性,不仅会导致使用效率低下,还会造成额外的重复性工作,大量耗费了用户的时间和精力。
除此之外,目前市面上还存在一种具备语音转写功能的录音笔,而该录音笔中语音转写功能的实现是先将录制好的音频文件导出,再将导出的音频文件上传至云端,由云端实现语音转写功能,此种语音转写方法相较于由人工进行语音转写的方法,虽然在一定程度上节省了用户的使用时间和所耗费的精力,但是其进行语音转写的过程依然较为繁琐,依托于云端的语音转写,不可避免地需要应用到网络进行音频文件的传输,传输的速率与网络的状态息息相关,在弱网或者无网的情况下,文件传输的速率会受到严重影响,文件传输延时会导致语音转写结果不能及时获取,影响用户的使用体验。此外,在将音频文件上传至云端的过程中,可能会存在泄露用户信息的风险,无法从根本上保证数据安全。
针对上述情况,本发明提供一种语音转写方法,旨在实现离线语音转写。图1是本发明提供的语音转写方法的流程示意图,如图1所示,该方法应用于语音转写处理器,语音转写处理器可以设置在任何具有语音转写功能的智能设备内部,此处的智能设备可以是录音笔、智能手机、智能手环等,该方法包括:
步骤110,确定待转写音频;
具体地,在进行语音转写之前,需要首先确定需进行语音转写的音频,即待转写音频。待转写音频可以是通过拾音设备得到,此处拾音设备可以是麦克风或者麦克风阵列本身,也可以是装设有麦克风或者麦克风阵列的录音笔、智能手机、智能手环等智能设备。拾音设备在拾音得到待转写音频后,也可以直接将待转写音频存储在智能设备内部的存储单元以供同在智能设备内部的语音转写处理器调用。
语音转写处理器在检测到待转写音频之后,还可以对待转写音频进行放大和降噪,本发明实施例对此不作具体限定。
需要说明的是,此处的待转写音频可以是拾音结束后生成的完整音频文件,可以是拾音过程中不断生成的音频数据流,本发明实施例对此不作具体限定。
步骤120,基于本地存储的语音转写引擎,对待转写音频进行离线语音转写,语音转写引擎的运算资源是基于待转写音频的数据规格确定的。
具体地,考虑到目前的语音转写多依托于云端实现,语音转写的及时性很大程度上受到网络状态影响,且云端语音转写需要通过网络传输待转写音频,导致用户隐私存在泄露风险。对此,本发明实施例中在本地存储语音转写引擎,仅需通过语音转写引擎即可实现待转写音频的离线语音转写,离线语音转写无需进行网络传输,整个转写过程均在智能设备本地进行,因而离线转写模式的安全性和私密性相较于在线转写模式更强,实时性更高,且无需网络的支持,可以避免在进行语音转写的过程中会泄露用户信息的风险,从根本上解决了数据安全得不到保障的问题,以及在弱网甚至无网情况下语音转写效率低下的问题,改善了用户的使用体验。
然而需要本地进行离线语音转写的智能设备通常是手持移动设备,例如录音笔,其散热能力较差,持续发热不仅会损耗智能设备的电量,还会对语音转写的效率产生影响,当部署在智能设备内的语音转写引擎持续高负荷运转时,智能设备功耗较高,持续高负荷运转会导致发热以及续航不佳等问题;反之,若语音转写引擎分配到的运算资源有限,则会导致智能设备内存储的待转写音频逐渐累加,语音转写的延迟越来越大,对语音转写的实时性和效率产生极大影响,导致用户体验较差。
考虑到这一问题,本发明实施例在运行本地存储的语音转写引擎时,充分考虑到了语音转写效率和语音转写功耗之间的平衡,具体通过待转写音频的数据规格,动态调整语音转写引擎的运算资源,进而协调语音转写引擎在智能设备中的功耗问题。
此处,待转写音频的数据规格可以反映待转写音频的数据量大小,进而反映当前需要的运算资源的多少。在为语音转写音频分配运算资源时,可以参考语音数据流的数据规格,例如数据规格较小时,为语音转写引擎分配较少的语音转写运算资源,从而避免运算资源浪费,降低智能设备功耗;在数据规格较大时,为语音转写引擎分配较多的语音转写运算资源,从而保证语音转写任务的及时性。
本发明提供的语音转写方法,通过本地存储的语音转写引擎,实现实时性更强、安全性更高且不再依赖网络的离线语音转写。在离线语音转写过程中,根据待转写音频的数据规格确定语音转写引擎的运算资源,考虑了语音转写引擎在不同负荷量下的转写效率以及智能设备功耗,从而使得语音转写引擎在调用分配到的运算资源对待转写音频进行语音转写时,能够平衡智能设备功耗以及转写效率之间的关系,从而实现在保证转写效率的前提下,降低智能设备功耗,缓解发热严重以及续航不佳的情况。
基于上述实施例,图2是本发明提供的语音转写引擎的运算资源的确定过程的示意图,如图2所示,语音转写引擎的运算资源是基于如下步骤确定的:
步骤210,基于待转写音频的数据规格,以及设备能耗状态和/或设备发热状态,或,基于待转写音频的数据规格,确定语音转写引擎的资源占比;
步骤220,基于资源占比,从设备计算资源中确定语音转写引擎的运算资源。
具体地,在根据语音转写引擎对待转写音频进行语音转写之前,还需确定语音转写引擎的运算资源,从而使得语音转写引擎能够调用分配到的运算资源对待转写音频进行语音转写。
语音转写引擎的运算资源是根据语音转写引擎的资源占比,对应到设备计算资源中进行分配的。此处的资源占比即语音转写引擎所需的运算资源在设备计算资源中所占的比例,设备计算资源即智能设备所具备的用于运算的所有资源。
步骤210中,语音转写引擎所需的运算资源的资源占比可以是根据待转写音频的数据规格确定的;在此基础上,考虑到智能设备可能存在资源不足或电量不足导致语音转写中断的情况,为避免上述情况,延长智能设备的续航时间,也可以根据待转写音频的数据规格,以及设备能耗状态和设备发热状态中的任意一种或两种的组合,确定语音转写引擎的资源占比。
其中,设备能耗状态可以反映设备当前的工作状态,例如设备的剩余电量、设备预估的可持续工作时间等,在为语音转写引擎分配运算资源时,可以参***能耗状态,例如设备电量充足的情况下,可以为语音转写引擎分配更多的运算资源,从而提高离线语音转写效率,在设备电量不足的情况下,需要优先保障设备运行,可以为语音转写引擎分配较少的运算资源,以达到节约能耗的功能。
设备发热状态可以反映设备当前的温度状态,例如设备当前的温度、是否存在过热情况等,在为语音转写引擎分配运算资源时,可以参***发热状态,例如在设备明显过热的情况下,持续为语音转写引擎分配更多的运算资源可能会导致设备温度持续升高,甚至影响设备的正常运行,此时可以减小运算资源,以缓解设备过热的问题。
此外,若基于待转写音频的数据规格,以及设备能耗状态和设备发热状态中的任意一种或两种的组合,确定语音转写引擎的资源占比时,可以根据待转写音频的数据规格、设备能耗状态以及设备发热状态对于语音转写的重要性,为三者分别设置对应的权重,并结合三者对应的权重,确定语音转写引擎的资源占比。
例如,由于待转写音频的数据规格表明待转写音频的堆积程度,对语音转写的实时性有着较大影响,因而,待转写音频的数据规格较之设备能耗状态和设备发热状态具有更高的优先级,即重要程度更高,可以对待转写音频的数据规格设置最高的权重;又由于设备的电量也会对语音转写产生影响,尤其是设备电量不足时无法进行语音转写,因此,设备能耗状态相较于设备发热状态的重要性更高,可以对设备能耗状态设置次高的权重。
经过步骤210得到的语音转写引擎的资源占比后,步骤220中,根据语音转写引擎的资源占比,从设备计算资源中确定语音转写引擎的运算资源,具体可以是将语音转写引擎的资源占比乘以设备计算资源,从而得到语音转写引擎的运算资源。
本发明实施例提供的方法,基于待转写音频的数据规格,确定语音转写引擎的资源占比,或,基于待转写音频的数据规格,以及设备能耗状态和/或设备发热状态,确定语音转写引擎的资源占比,综合了多方因素确定的语音转写引擎的资源占比,可以使得语音转写引擎在调用根据资源占比确定的运算资源进行语音转写时,能够在保证转写效率的前提下,在最大程度上节省设备的能耗,延长了设备的续航时间,并且还可以满足不同的场景下的转写需求,提高了语音转写的灵活性和适用范围。
基于上述实施例,数据规格是基于待转写音频的数据量与存储空间的存储量确定的,存储空间用于存储待转写音频。
具体地,在经过步骤110确定待转写音频后,还需确定存储空间内存储的待转写音频的数据量,以及存储空间的存储量,从而可根据待转写音频的数据量以及存储空间的存储量,确定待转写音频的数据规格,进而便于后续根据待转写音频的数据规格,确定语音转写引擎的运算资源。此处,待转写音频的数据量即存储空间内存储的需要进行语音转写的音频的数据量大小,待转写音频的数据量可以用帧数表示,存储空间的存储量即存储空间能够存储待转写音频的数据量大小。
基于上述实施例,语音转写引擎的运算资源可通过如下公式计算得到:
其中,n表示语音转写引擎的运算资源,N表示设备计算资源,m表示存储空间内存储的待转写音频的数据量,M表示存储空间的存储量,a表示调整系数。
当存储空间内存储的待转写音频的数据量最大时,语音转写引擎的运算资源最大,为N;当存储空间内存储的待转写音频的数据量为空时,语音转写引擎的运算资源最小,根据待转写音频的数据规格,为语音转写引擎动态分配运算资源,有效降低了智能设备整体的功耗,缓解了发热严重以及续航效果不佳的情况。
基于上述实施例,图3是本发明提供的语音转写方法中步骤120的流程示意图,如图3所示,步骤120包括:
步骤121,基于语音转写引擎中的声学模型,编码待转写音频的声学特征,并基于声学特征确定第一转写结果;
步骤122,基于语音转写引擎中的解码模型,对声学特征进行解码,得到第二转写结果;
步骤123,基于语音转写引擎,对第一转写结果和第二转写结果进行融合,得到待转写音频的转写文本。
考虑到智能设备在实际使用的过程中可能会面临各种复杂场景,例如噪声过大、多人会议、旁白、语种混说等,在此类场景下,录制的音频的质量较低,若通过传统的语音转写方法进行语音转写,则会导致转写结果中存在大量转写错误的情况,严重影响了语音转写结果的准确性,针对这一情况,本发明实施例在传统语音转写方法的基础上,提出了一种应用两种转写方式分别对待转写音频进行离线语音转写,并对两者的转写结果进行融合的语音转写方法,旨在克服传统方案中得到的转写结果精确度不高的问题,实现语音转写结果准确率的提升。
具体地,在确定语音转写引擎的运算资源后,即可对待转写音频进行语音转写。步骤121中,根据语音转写引擎的声学特征,编码待转写音频的声学特征具体可以是将待转写音频输入至语音转写引擎中的声学模型,由声学模型对输入的待转写音频进行编码,从而得到待转写音频的声学特征,并根据待转写音频的声学特征确定待转写音频的第一转写结果。此处的第一转写结果,是基于声学模型输出的声学特征确定的,即第一转写结果是从声学层面上进行传统语音转写所得的结果。
经过步骤121中的声学模型得到声学特征之后,步骤122中,可根据语音转写引擎中的解码模型对步骤121中的待转写音频的声学特征进行解码,具体可以是将待转写音频的声学特征输入至语音转写引擎中的解码模型,由解码模型对输入的待转写音频的声学特征进行解码,从而得到待转写音频的第二转写结果,并输出第二转写结果。此处的第二转写结果,是基于声学模型和解码模型确定的,声学模型和解码模型结合的整体,可以视为一个端到端的编解码模型,其中声学模型作为Encoder(编码器),解码模型作为Decoder(解码器),即第二转写结果是基于端到端的编解码模型进行语音转写所得的结果。
经过步骤121和步骤122得到第一转写结果和第二转写结果后,步骤123中,即可对第一转写结果和第二转写结果此两种通过不同语音转写方式分别得到的转写结果进行融合,由此得到融合了基于声学层面的传统语音转写思路和端到端的语音转写思路的转写文本,缓解复杂场景下可能存在大量转写错误的问题。
本发明实施例提供的语音转写方法,结合声学模型和解码模型,融合基于声学层面的传统语音转写思路和端到端的语音转写思路进行语音转写,以使最终得到的待转写音频的转写文本能够克服传统方案中得到的转写结果精确度不高的问题,缓解复杂场景下可能存在大量转写错误的问题。
基于上述实施例,声学模型是基于样本音频,对原始声学模型进行蒸馏训练得到的。
具体地,考虑到需要本地进行离线语音转写的智能设备通常是手持移动设备,手持移动设备本地的处理能力较为有限,常用于云端的声学模型规模庞大,很难直接部署在智能设备本地。因此,需要缩减本地部署的声学模型的模型规模。
此处,原始声学模型是相较于语音转写引擎中的声学模型而言,模型规模更大、更加复杂、任务执行效果更优的声学模型。为了在本地部署规模更小的声学模型,可以利用教师-学生网络的思想,进行知识迁移,此处的知识迁移,是指将教师模型中的知识迁移到学生模型,从而提高学生模型的网络性能,其中教师模型即原始声学模型,学生模型即最终部署在本地的声学模型,知识迁移的过程,即为知识蒸馏。通过对原始声学模型的蒸馏训练得到声学模型,其性能更加接近原始声学模型的性能。
在执行步骤121之前,还需进行预先训练得到本地存储的声学模型,具体训练方式可以是:首先收集大量样本音频,并对样本音频进行数据处理,得到样本音频的样本声学特征以及样本音频的样本转写文本,并获取原始声学模型,此处原始声学模型可以是根据样本音频和样本音频的样本转写文本训练得到的,也可以是直接获取原先部署在云端的声学模型。随后,基于样本音频,以及原始声学模型针对样本音频输出的第一声学特征概率分布,对原始声学模型进行蒸馏训练,从而得到训练完成的声学模型。
对样本音频进行数据处理主要是对样本音频进行对应标注处理,即将已标注的样本音频按照边界进行切分,得到一个个小句子,并对每一小句子进行加窗和分帧处理,得到样本音频的样本声学特征。此处的样本声学特征可以是Filter Bank滤波器组,或者是MFCC特征,本发明实施例对此不做具体限定。确定样本音频的声学特征后,还需将已标注的样本音频的文字转化为与样本声学特征对应的样本转写文本,此处进行文字转化的方法可以是强制切分算法。
本发明实施例提供的方法,通过对原始声学模型进行蒸馏训练方式,得到声学模型,在保证模型转写的准确度的同时,压缩了模型规模,降低了运算量。
基于上述实施例,图4是本发明提供的声学模型的确定过程的示意图,如图4所示,声学模型是基于如下步骤训练得到的:
步骤410,基于原始声学模型,确定样本音频的第一声学特征概率分布;
步骤420,基于训练阶段的声学模型,确定样本音频的第二声学特征概率分布;
步骤430,基于第一声学特征概率分布和第二声学特征概率分布,确定蒸馏损失值;
步骤440,基于蒸馏损失值,对训练阶段的声学模型进行参数调整,得到声学模型。
具体地,在执行步骤121之前,还可以预先训练得到语音转写引擎中的声学模型,声学模型的训练过程其实是根据训练阶段的声学模型的蒸馏损失值对其模型参数进行调整,从而得到声学模型。蒸馏损失值的确定是基于原始声学模型和声学模型两部分分别输出的第一声学特征概率分布和第二声学特征概率分布实现的。
图5是本发明提供的声学模型的训练流程图,如图5所示,声学模型的训练过程中:
步骤410中,可以将样本音频输入至原始声学模型,原始声学模型对输入的样本音频进行分析,并输出样本音频的声学特征概率分布,记为第一声学特征概率分布。
步骤420中,可以将样本音频输入到训练阶段的声学模型,由训练阶段的声学模型对样本音频进行分析,并输出样本音频的声学特征概率分布,记为第二声学特征概率分布。此处,第一声学特征概率分布和第二声学特征概率分布均用于反映样本音频中各音频帧属于各种声学状态的概率或者得分,而第一声学特征概率分布和第二声学特征概率分布的区别在于输出两者的模型不同,第一声学特征概率分布来自于承担教师角色的原始声学模型,第二声学特征概率分布来自于承担学生角色的训练阶段的声学模型。
步骤430中,在基于原始声学模型和声学模型分别得到针对相同样本音频的声学特征概率分布后,即可结合第一声学特征概率分布和第二声学特征概率分布之间的差距,确定该语音转写任务的蒸馏损失值。例如,蒸馏损失值可以采用KLD(Kullback-LeiblerDistance,交叉熵的距离)准则进行表示。
步骤440中,即可将步骤430中得到的蒸馏损失值作用于训练阶段的声学模型,即对训练阶段的声学模型进行参数调整,从而得到声学模型。需要说明的是,训练阶段的声学模型可以是根据设备计算资源构建的。
本发明实施例提供的方法,在传统声学模型的基础上,引入了针对声学特征的原始声学模型,根据原始声学模型输出的第一声学特征概率分布,以及声学模型输出的第二声学特征概率分布之间的差距确定蒸馏损失值,并根据蒸馏损失值对训练阶段的声学模型进行参数迭代,从而得到声学模型,在保证语音转写引擎中的声学模型本身运算量和模型规模尽可能小的前提下,提高通过声学模型进行语音转写的实现效果。
基于上述实施例,步骤123包括:
基于语音转写引擎中的文本生成模型,对第一转写结果和第二转写结果进行融合,得到待转写音频的转写文本;
文本生成模型是基于样本音频和样本音频的样本转写文本,联合声学模型和解码模型训练得到的。
具体地,在经过步骤121和步骤122得到第一转写结果和第二转写结果后,为了提升转写结果的准确度,还可以根据语音转写引擎的文本生成模型,对第一转写结果和第二转写结果进行融合。图6是本发明提供的转写结果融合的流程示意图,如图6所示,具体的融合过程是将第一转写结果和第二转写结果输入至语音转写引擎中的文本生成模型,由语音转写引擎中的文本生成模型对第一转写结果和第二转写结果进行文本纠错,并生成转写文本,最终得到文本生成模型输出的待转写音频的转写文本。
在根据语音转写引擎中的文本生成模型对第一转写结果和第二转写结果进行融合之前,还可以预先训练得到文本生成模型,文本生成模型的训练方法包括如下步骤:首先,收集大量样本音频,并对样本音频进行数据处理,得到样本音频的样本转写文本。随即,基于样本音频和样本转写文本,联合声学模型和解码模型,对初始文本生成模型进行训练,得到训练完成的文本生成模型。具体在联合训练的过程中,声学模型可以基于样本音频输出声学特征和第一转写结果,解码模型可以基于样本音频的声学特征输出第二转写结果,初始文本生成模型可以基于样本音频的第一转写结果和第二转写结果输出转写文本,随后基于样本音频的样本转写文本和初始文本生成模型输出的转写文本,确定初始文本生成模型的损失值,由此对初始文本生成模型进行参数迭代,从而得到文本生成模型。
本发明实施例提供的语音转写方法,在传统方案的基础上,设计结果融合方案,将声学模型输出的第一转写结果和解码模型输出的第二转写结果进行动态融合,得到最终识别结果,兼顾了基于声学层面的传统语音转写思路和端到端的语音转写思路所具备的优势,通过语音转写引擎中的文本生成模型动态择优,有效改善了语音转写效果,提高了语音转写的准确度。
图7是本发明提供的语音转写方法的总体框架图,如图7所示,该方法包括训练阶段和应用阶段。
训练阶段包括声学模型、解码模型以及文本生成模型的训练,上述已详细说明,此处不在赘述。
应用阶段包括:
步骤710,确定待转写音频;
步骤720,基于待转写音频的数据规格,以及设备能耗状态和/或设备发热状态,或,基于待转写音频的数据规格,确定语音转写引擎的资源占比;
步骤730,基于资源占比,从设备计算资源中确定语音转写引擎的运算资源;
步骤740,基于语音转写引擎中的声学模型,编码待转写音频的声学特征,并基于声学特征确定第一转写结果;
步骤750,基于语音转写引擎中的解码模型,对声学特征进行解码,得到第二转写结果;
步骤760,基于语音转写引擎,对第一转写结果和第二转写结果进行融合,得到待转写音频的转写文本。
下面对本发明提供的语音转写装置进行描述,下文描述的语音转写装置与上文描述的语音转写方法可相互对应参照。
图8是本发明提供的语音转写装置的结构示意图,如图8所示,该装置包括:
音频确定单元810,用于确定待转写音频;
语音转写单元820,用于基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
本发明提供的语音转写装置,通过本地存储的语音转写引擎,实现实时性更强、安全性更高且不再依赖网络的离线语音转写。在离线语音转写过程中,根据待转写音频的数据规格确定语音转写引擎的运算资源,考虑了语音转写引擎在不同负荷量下的转写效率以及智能设备功耗,从而使得语音转写引擎在调用分配到的运算资源对待转写音频进行语音转写时,能够平衡智能设备功耗以及转写效率之间的关系,从而实现在保证转写效率的前提下,降低智能设备功耗,缓解发热严重以及续航不佳的情况。
基于上述实施例,所述装置还包括运算资源确定单元,用于:
基于所述待转写音频的数据规格,以及设备能耗状态和/或设备发热状态,或,基于所述待转写音频的数据规格,确定所述语音转写引擎的资源占比;
基于所述资源占比,从设备计算资源中确定所述语音转写引擎的运算资源。
基于上述实施例,所述数据规格是基于待转写音频的数据量与存储空间的存储量确定的,所述存储空间用于存储所述待转写音频。
基于上述实施例,语音转写单元820用于:
基于所述语音转写引擎中的声学模型,编码所述待转写音频的声学特征,并基于所述声学特征确定第一转写结果;
基于所述语音转写引擎中的解码模型,对所述声学特征进行解码,得到第二转写结果;
基于所述语音转写引擎,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本。
基于上述实施例,所述声学模型是基于样本音频,对原始声学模型进行蒸馏训练得到的。
基于上述实施例,所述装置还包括声学模型确定单元,用于:
基于所述原始声学模型,确定所述样本音频的第一声学特征概率分布;
基于训练阶段的声学模型,确定所述样本音频的第二声学特征概率分布;
基于所述第一声学特征概率分布和所述第二声学特征概率分布,确定蒸馏损失值;
基于所述蒸馏损失值,对所述训练阶段的声学模型进行参数调整,得到所述声学模型。
基于上述实施例,语音转写单元820用于:
基于所述语音转写引擎中的文本生成模型,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本;
所述文本生成模型是基于样本音频和所述样本音频的样本转写文本,联合所述声学模型和解码模型训练得到的。
图9是本发明提供的录音设备的结构示意图,如图9所示,该设备包括拾音设备910以及电子设备1000,所述拾音设备910用于录制待转写音频。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行语音转写方法,该方法包括:确定待转写音频;基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语音转写方法,该方法包括:确定待转写音频;基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音转写方法,该方法包括:确定待转写音频;基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音转写方法,其特征在于,包括:
确定待转写音频;
基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
2.根据权利要求1所述的语音转写方法,其特征在于,所述语音转写引擎的运算资源是基于如下步骤确定的:
基于所述待转写音频的数据规格,以及设备能耗状态和/或设备发热状态,或,基于所述待转写音频的数据规格,确定所述语音转写引擎的资源占比;
基于所述资源占比,从设备计算资源中确定所述语音转写引擎的运算资源。
3.根据权利要求1或2所述的语音转写方法,其特征在于,所述数据规格是基于待转写音频的数据量与存储空间的存储量确定的,所述存储空间用于存储所述待转写音频。
4.根据权利要求1或2所述的语音转写方法,其特征在于,所述基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,包括:
基于所述语音转写引擎中的声学模型,编码所述待转写音频的声学特征,并基于所述声学特征确定第一转写结果;
基于所述语音转写引擎中的解码模型,对所述声学特征进行解码,得到第二转写结果;
基于所述语音转写引擎,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本。
5.根据权利要求4所述的语音转写方法,其特征在于,所述声学模型是基于样本音频,对原始声学模型进行蒸馏训练得到的。
6.根据权利要求5所述的语音转写方法,其特征在于,所述声学模型是基于如下步骤训练得到的:
基于所述原始声学模型,确定所述样本音频的第一声学特征概率分布;
基于训练阶段的声学模型,确定所述样本音频的第二声学特征概率分布;
基于所述第一声学特征概率分布和所述第二声学特征概率分布,确定蒸馏损失值;
基于所述蒸馏损失值,对所述训练阶段的声学模型进行参数调整,得到所述声学模型。
7.根据权利要求4所述的语音转写方法,其特征在于,所述基于所述语音转写引擎,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本,包括:
基于所述语音转写引擎中的文本生成模型,对所述第一转写结果和所述第二转写结果进行融合,得到所述待转写音频的转写文本;
所述文本生成模型是基于样本音频和所述样本音频的样本转写文本,联合所述声学模型和解码模型训练得到的。
8.一种语音转写装置,其特征在于,包括:
音频确定单元,用于确定待转写音频;
语音转写单元,用于基于本地存储的语音转写引擎,对所述待转写音频进行离线语音转写,所述语音转写引擎的运算资源是基于所述待转写音频的数据规格确定的。
9.一种录音设备,包括拾音设备、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述拾音设备用于录制待转写音频,所述处理器执行所述程序时实现如权利要求1至7任一项所述的语音转写方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音转写方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110963345.7A CN113611311A (zh) | 2021-08-20 | 2021-08-20 | 语音转写方法、装置、录音设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110963345.7A CN113611311A (zh) | 2021-08-20 | 2021-08-20 | 语音转写方法、装置、录音设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113611311A true CN113611311A (zh) | 2021-11-05 |
Family
ID=78341564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110963345.7A Pending CN113611311A (zh) | 2021-08-20 | 2021-08-20 | 语音转写方法、装置、录音设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611311A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9224387B1 (en) * | 2012-12-04 | 2015-12-29 | Amazon Technologies, Inc. | Targeted detection of regions in speech processing data streams |
CN108766434A (zh) * | 2018-05-11 | 2018-11-06 | 东北大学 | 一种手语识别翻译***及方法 |
CN112002303A (zh) * | 2020-07-23 | 2020-11-27 | 云知声智能科技股份有限公司 | 一种基于知识蒸馏的端到端语音合成训练方法及*** |
CN112035247A (zh) * | 2020-08-12 | 2020-12-04 | 博泰车联网(南京)有限公司 | 一种资源调度方法、车机及计算机存储介质 |
CN112562688A (zh) * | 2020-12-11 | 2021-03-26 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音笔和存储介质 |
CN112581965A (zh) * | 2020-12-11 | 2021-03-30 | 天津讯飞极智科技有限公司 | 转写方法、装置、录音笔和存储介质 |
CN112634902A (zh) * | 2020-12-11 | 2021-04-09 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音笔和存储介质 |
CN112908359A (zh) * | 2021-01-31 | 2021-06-04 | 云知声智能科技股份有限公司 | 语音测评方法、装置、电子设备及计算机可读介质 |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
-
2021
- 2021-08-20 CN CN202110963345.7A patent/CN113611311A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9224387B1 (en) * | 2012-12-04 | 2015-12-29 | Amazon Technologies, Inc. | Targeted detection of regions in speech processing data streams |
CN108766434A (zh) * | 2018-05-11 | 2018-11-06 | 东北大学 | 一种手语识别翻译***及方法 |
CN112002303A (zh) * | 2020-07-23 | 2020-11-27 | 云知声智能科技股份有限公司 | 一种基于知识蒸馏的端到端语音合成训练方法及*** |
CN112035247A (zh) * | 2020-08-12 | 2020-12-04 | 博泰车联网(南京)有限公司 | 一种资源调度方法、车机及计算机存储介质 |
CN112562688A (zh) * | 2020-12-11 | 2021-03-26 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音笔和存储介质 |
CN112581965A (zh) * | 2020-12-11 | 2021-03-30 | 天津讯飞极智科技有限公司 | 转写方法、装置、录音笔和存储介质 |
CN112634902A (zh) * | 2020-12-11 | 2021-04-09 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音笔和存储介质 |
CN112908359A (zh) * | 2021-01-31 | 2021-06-04 | 云知声智能科技股份有限公司 | 语音测评方法、装置、电子设备及计算机可读介质 |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016192410A1 (zh) | 一种音频信号增强方法和装置 | |
WO2021147237A1 (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
CN105845128A (zh) | 基于动态剪枝束宽预测的语音识别效率优化方法 | |
US12046249B2 (en) | Bandwidth extension of incoming data using neural networks | |
CN107316635B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
WO2023216760A1 (zh) | 语音处理方法、装置、存储介质、计算机设备及程序产品 | |
CN102376306B (zh) | 语音帧等级的获取方法及装置 | |
CN116075887A (zh) | 使用来自分离的音频输入的语音内容的数据分析和扩张的语音识别 | |
CN112634902A (zh) | 语音转写方法、装置、录音笔和存储介质 | |
CN113611296A (zh) | 语音识别装置和拾音设备 | |
US20180082703A1 (en) | Suitability score based on attribute scores | |
US11017790B2 (en) | Avoiding speech collisions among participants during teleconferences | |
CN113611311A (zh) | 语音转写方法、装置、录音设备和存储介质 | |
CN106256001A (zh) | 信号分类方法和装置以及使用其的音频编码方法和装置 | |
CN111951821A (zh) | 通话方法和装置 | |
Li et al. | A mapping model of spectral tilt in normal-to-Lombard speech conversion for intelligibility enhancement | |
Grassucci et al. | Enhancing Semantic Communication with Deep Generative Models--An ICASSP Special Session Overview | |
WO2022012215A1 (zh) | 一种识别说话对象的方法、装置、设备及可读存储介质 | |
CN114783409A (zh) | 语音合成模型的训练方法、语音合成方法及装置 | |
CN114743540A (zh) | 语音识别方法、***、电子设备和存储介质 | |
CN110930985B (zh) | 电话语音识别模型、方法、***、设备及介质 | |
JP2023517973A (ja) | 音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム | |
CN114783428A (zh) | 语音翻译、模型训练方法、装置、设备及存储介质 | |
CN113689866A (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
US20230075562A1 (en) | Audio Transcoding Method and Apparatus, Audio Transcoder, Device, and Storage Medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |