CN110060667B - 语音信息的批量处理方法、装置、计算机设备及存储介质 - Google Patents

语音信息的批量处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110060667B
CN110060667B CN201910197848.0A CN201910197848A CN110060667B CN 110060667 B CN110060667 B CN 110060667B CN 201910197848 A CN201910197848 A CN 201910197848A CN 110060667 B CN110060667 B CN 110060667B
Authority
CN
China
Prior art keywords
voice information
preset
script
running
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910197848.0A
Other languages
English (en)
Other versions
CN110060667A (zh
Inventor
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910197848.0A priority Critical patent/CN110060667B/zh
Publication of CN110060667A publication Critical patent/CN110060667A/zh
Priority to PCT/CN2019/103345 priority patent/WO2020186695A1/zh
Application granted granted Critical
Publication of CN110060667B publication Critical patent/CN110060667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种语音信息的批量处理方法、装置、计算机设备及存储介质,其中所述方法包括若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息;通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。本发明能够高效准确地实现对多个待处理语音信息的统一转换,并减少转换过程的错误。

Description

语音信息的批量处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种语音信息的批量处理方法、装置、计算机设备及存储介质。
背景技术
在语音识别项目中通常需要从各种渠道收集或采集大量语音信息,并利用这些语音信息作为训练集中的训练样本对神经网络进行训练,从而得到相应的用于进行特征的语音识别的识别模型。而为了确保神经网络的训练过程的顺利以及所获取的识别模型的精准性,通常需要对所获取的语音信息进行训练前的预先处理,而实现对大量的语音信息的预处理工作需要逐步迭代才能完成,但是重复迭代处理的过程因数据量大,非常容易出现操作失误,造成语音信息处理不准确的问题。
发明内容
本发明实施例提供一种语音信息的批量处理方法、装置、计算机设备及存储介质,能够高效准确地实现对多个待处理语音信息的统一转换,并减少转换过程的错误。
第一方面,本发明实施例提供了一种语音信息的批量处理方法,该方法包括:
若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;
根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,其中,所述预设的Bash脚本至少包括一个预设的子运行脚本,每个子运行脚本均用于实现对所有待处理语音信息的批量处理,所述目标语音信息的数量小于或等于所述待处理语音信息的数量;
通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;
通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
第二方面,本发明实施例还提供了一种语音信息的批量处理装置,该装置包括:
获取单元,用于若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;
批量处理单元,用于根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,其中,所述预设的Bash脚本至少包括一个预设的子运行脚本,每个子运行脚本均用于实现对所有待处理语音信息的批量处理,所述目标语音信息的数量小于或等于所述待处理语音信息的数量;
除噪单元,用于通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;
分帧单元,通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种语音信息的批量处理方法、装置、计算机设备及存储介质。其中,所述方法包括:若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;根据所述信息处理指令调用并运行预设的Bash脚本以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息,其中,所述预设的Bash脚本至少包括一个预设的子运行脚本,每个子运行脚本均实现对待处理语音信息的批量处理,所述目标语音信息的数量小于或等于所述待处理语音信息的数量;通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。本发明实施例能够通过多次批量处理,高效准确地实现对训练集中的多个待处理语音信息的统一转换,并减少转换过程的错误,以便于精准地实现神经网络的训练。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音信息的批量处理方法的流程示意图;
图2是本发明实施例提供的一种语音信息的批量处理方法的子流程示意图;
图3是本发明实施例提供的一种语音信息的批量处理方法的子流程示意图;
图4是本发明实施例提供的一种语音信息的批量处理方法的子流程示意图;
图5是本发明实施例提供的一种语音信息的批量处理装置的示意性框图;
图6是本发明实施例提供的一种语音信息的批量处理装置的批量处理单元的示意性框图;
图7是本发明实施例提供的一种语音信息的批量处理装置的批量处理单元的另一示意性框图;
图8是本发明实施例提供的一种语音信息的批量处理装置的批量处理单元的另一示意性框图;
图9是本发明实施例提供的一种计算机设备结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1是本发明实施例提供的一种语音信息的批量处理方法的示意流程图。该语音信息的批量处理方法应用于管理服务器中。该管理服务器通过训练集对神经网络进行训练之前,对获取到的训练集中的待处理语音信息进行批量预处理,如将损坏的待处理语音信息、过短的待处理语音信息从训练集中剔除;将训练集中的待处理语音信息的音频格式、采样率均转换为统一的音频格式和采样率;按照特定的规则进行对所有的待处理语音信息进行重命名等,通过上述的分次批处理能够高效准确地实现对训练集中的多个待处理语音信息的统一转换,并能有效减少因每个待处理语音信息完成处理转换后再对另一待处理语音信息进行处理转换的过程中发生的错误,以便于精准地实现神经网络的训练。如图1所示,该方法的步骤包括步骤S101~S104。
步骤S101,若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息。
在本实施例中,为了对神经网络进行训练从而得到相应的语音识别模型,需要对获取到的训练集中的语音信息进行批量的预处理,从而达到符合训练神经网络的要求,提高训练得到的语音识别模型的精准度。而训练集可以是预先设置的,即可以从各个能够进行语音信息获取的应用程序中收集语音信息进行存储,此时存储在训练集中的语音信息即为待处理的语音信息。当管理服务器接收到用户发起的信息处理指令,那么则获取预先设置的训练集,即获取训练集中的多个待处理的语音信息,以便于后续操作。
步骤S102,根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,其中,所述预设的Bash脚本至少包括一个预设的子运行脚本,每个子运行脚本均用于实现对所有待处理语音信息的批量处理,所述目标语音信息的数量小于或等于所述待处理语音信息的数量。
在本实施例中,预设的Bash脚本能够集成有多个预先设置的子运行脚本,每个子运行脚本均能够实现对所有待处理音频文件的实现同一个处理步骤的批量处理,具体是指每运行一个子运行脚本即能够对所有的待处理音频文件的进行同一项转换或改变的处理,并且要在所有的待处理音频文件完成相应的处理后,管理服务器才能调用另一个子运行脚本从而在上一项处理的基础上实现另一项转换或改变的处理。
具体的,管理服务器能够根据所述信息处理指令依次调用预设的Bash脚本中的子运行脚本,每调用一个子运行脚本即运行一次,从而对所有的待处理语音信息进行相应的批量处理,然后再次调用Bash脚本中的另一个子运行脚本,并直至运行完所有的子运行脚本,从而得到多个已完成全部转换或者改变的目标语音信息,上述的每次批量转换或改变都要所有的待处理语音信息完成之后才会进行下一次批量转换或改变,可以有效减少当前转换过程中因待处理语音信息的数量以及转换步骤过多造成的错误,从而能大大提高对待处理语音信息的处理效率。
其中,管理服务器一般可以通过Python执行Bash脚本,即可以通过Python依次执行Bash脚本中的多个预设的子运行脚本从而依次实现对训练集的待处理语音信息的批量处理操作,减少逐步迭代处理过程中出现的错误,提高转换的效率和准确度。
在一实施例中,如图2所述,所述步骤S102可以包括步骤S201~S202。
S201,根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本。
其中,管理服务器可以根据接收到的信息处理指令调用预设的Bash脚本中的第一运行脚本,以便于进行后续处理。所述第一运行脚本能够实现对预设的训练集中的所有的待处理语音信息进行音频格式和采样率的转换。
作为可选的,所述第一运行脚本可以是FFMPEG脚本。所述FFmpeg脚本是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。在本申请中FFmpeg脚本能够对实现对待测语音信息的音频格式的转换和采样率的转换。
S202,运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到多个具有预设音频格式以及预设采样率的目标语音信息。
其中,为了使得训练集中的待测语音信息在训练神经网络的过程中快速地进行特征提取,可使得所有的待测语音信息转换为统一的音频格式以及统一的采样率。管理服务器运行了所述第一运行脚本后,可以根据第一运行脚本中设置的预设音频格式和预设采样率将所有的待处理语音信息批量地转换为具有预设音频格式和预设采样率的目标语音信息。
具体的,常见的音频格式可以包括WAV、MIDI、MP3、RA、MP4等格式类型,为了统一音频格式,预设音频格式可以设置为WAV格式,即当所有音频格式为非预设音频格式时,可以通过运行第一运行脚本将其转换为WAV格式。
而所述采样率也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样率的倒数是采样周期或者叫作采样时间,它是采样之间的时间间隔。通俗的讲采样频率是指计算机每秒钟采集多少个信号样本。采样率表示每秒采多少个采样点,那么8k就是1s采8000次,而16k表示1s采集16000次,即若预设采样率为8k,而待转换语音信息的采样率为16k,那么则通过第一运行脚本将该待处理语音信息的采样率从16k转换为8k。
在一实施例中,如图3所述,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本以及用于进行有效音频筛选的第二运行脚本,所述步骤S102可以包括步骤S301~S304。
S301,根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本。
其中,管理服务器可以根据接收到的信息处理指令调用预设的Bash脚本中的第一运行脚本,以便于进行后续处理。所述第一运行脚本能够实现对预设的训练集中的所有的待处理语音信息进行音频格式和采样率的转换。
S302,运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有预设音频格式以及预设采样率的第一语音信息。
其中,为了使得训练集中的待测语音信息在训练神经网络的过程中快速地进行特征提取,可使得所有的待测语音信息转换为统一的音频格式以及统一的采样率。管理服务器运行了所述第一运行脚本后,可以根据第一运行脚本中设置的预设音频格式和预设采样率将所有的待处理语音信息批量地转换为具有预设音频格式和预设采样率的目标语音信息。
S303,调用预设的Bash脚本中的第二运行脚本。
其中,为了对当前的已经转换音频格式和采样率的第一语音信息进行筛选,需要管理服务器调用预设的Bash脚本中的用于进行有效音频筛选的第二运行脚本。该第二运行脚本中的预设规格为筛选语音信息设定了条件,从而能够从多个第一语音信息中筛选符合该预设规格的语音信息作为有效的语音信息。作为可选的,所述第二运行脚本可以是SOX,SOX作为语音处理工具,能够根据设置的预设规格从多个第一语音信息中筛选出有效的语音信息。
S304,运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的目标语音信息,所述目标语音信息的数量小于或等于第一语音信息的数量。
其中,管理服务器运行所述第二运行脚本后,能够根据预设规格对所有的第一语音信息进行筛选,得到符合条件的目标语音信息,故筛选之后,所述目标语音信息的数量小于或等于第一语音信息的数量。再者,该预设规格可以是预先设置语音时长的阀值,例如若第一语音信息的时长低于预设阀值,则删除该第一语音信息。同理,该预设规格还可以是预先设置的语音信息的采样点的阀值,也可以是预先设置的语音信息的缩放系数的阀值,还可以是预先设置的语音信息的最大幅度的阀值。
在一实施例中,如图4所述,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本、用于进行有效音频筛选的第二运行脚本以及用于进行重命名的第三运行脚本,所述步骤S102可以包括步骤S401~S406。
S401,根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本。
其中,管理服务器可以根据接收到的信息处理指令调用预设的Bash脚本中的第一运行脚本,以便于进行后续处理。所述第一运行脚本能够实现对预设的训练集中的所有的待处理语音信息进行音频格式和采样率的转换。
S402,运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有相同音频格式以及采样率的第一语音信息。
其中,为了使得训练集中的待测语音信息在训练神经网络的过程中快速地进行特征提取,可使得所有的待测语音信息转换为统一的音频格式以及统一的采样率。管理服务器运行了所述第一运行脚本后,可以根据第一运行脚本中设置的预设音频格式和预设采样率将所有的待处理语音信息批量地转换为具有预设音频格式和预设采样率的目标语音信息。
S403,调用预设的Bash脚本中的第二运行脚本。
其中,为了对当前的已经转换音频格式和采样率的第一语音信息进行筛选,需要管理服务器调用预设的Bash脚本中的用于进行有效音频筛选的第二运行脚本。该第二运行脚本中的预设规格为筛选语音信息设定了条件,从而能够从多个第一语音信息中筛选符合该预设规格的语音信息作为有效的语音信息。作为可选的,所述第二运行脚本可以是SOX,SOX作为语音处理工具,能够根据设置的预设规格从多个第一语音信息中筛选出有效的语音信息。
S404,运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的第二语音信息,所述第二语音信息的数量小于或等于第一语音信息的数量。
其中,管理服务器运行所述第二运行脚本后,能够根据预设规格对所有的第一语音信息进行筛选,得到符合条件的目标语音信息,故筛选之后,所述目标语音信息的数量小于或等于第一语音信息的数量。再者,该预设规格可以是预先设置语音时长的阀值,例如若第一语音信息的时长低于预设阀值,则删除该第一语音信息。同理,该预设规格还可以是预先设置的语音信息的采样点的阀值,也可以是预先设置的语音信息的缩放系数的阀值,还可以是预先设置的语音信息的最大幅度的阀值。
S405,调用预设的Bash脚本中的第三运行脚本。
其中,为了对当前的第二语音信息重命名,需要管理服务器调用预设的Bash脚本中的用于进行重命名的第三运行脚本,以便于重命名后的语音信息能够更为准确快速地被读取。该第三运行脚本中预先设置有预设名称格式,从而能够根据预设名称格式对多个第二语音信息进行重命名。作为可选的,第三运行脚本为重命名函数,该重命名函数可是函数rename()用于重命名文件。
S406,运行所述第三运行脚本以对所有的第二语音信息进行重命名,从而得到相应数量的具有预设名称格式的目标语音信息。
其中,训练集中的所有的语音信息可以是同一个主体生成,即每一个主体可以对应多条不同的语音信息,为便于进行区分设置,需要根据预先设置的预设名称格式以及第二语音信息的现有信息对其进行重命名。管理服务器在运行所述第三运行脚本后即能够得到相应的被重命名的目标语音信息,同时目标语音信息的命名是符合预设名称格式的,再者,目标语音信息的数量跟第二语音信息的数量是相等的,且两者之间是一一对应的关系。
步骤S103,通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息。
在本实施例中,在进行神经网络训练之前,还需要通过语音激活检测来对目标语音信息进行滤波处理,其中所述语音激活检测是Voice Activity Detection,简称VAD,其能够区分语音信号中的语音信号和背景噪音,从而提高训练神经网络的准确度,减少训练所需的时间。其中,语音激活检测能够将语音信息的首尾端的静音切除,降低对后续步骤造成的干扰,即该语音激活检测能够将所有目标语音信息进行滤波批量处理,得到除噪之后的多个相应的中间语音信息。
步骤S104,通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
在本实施例中,管理服务器还需要根据预设分帧规则对所有中间语音信息进行分帧处理,从而得到相应数量的分帧后的测试语音信息。其中,测试语音信息能够用于训练语音识别模型,从而得到能够进行相应的语音识别的语音识别模型。具体的,所述预设的分帧规则可以是指通过移动窗函数进行声音分帧,也就是把语音信息切开成一小段一小段,每小段称为一帧,其中各帧之间一般是有交叠的。
在另一实施例中,所述步骤S104具体可以包括:通过Enframe函数对所述中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
其中,所述Enframe函数即为具体的分帧函数,管理服务器调用该分帧函数后能够将所有的中间语音信息进行统一的分帧处理,从而得到最终的用于进行训练的测试语音信息。
综上,本发明实施例能够高效准确地实现对训练集中的多个待处理语音信息的统一转换,并减少转换过程的错误,以便于精准地实现神经网络的训练。
本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
请参阅图5,对应上述一种语音信息的批量处理方法,本发明实施例还提出一种语音信息的批量处理装置,该装置100包括:获取单元101、批量处理单元102、除噪单元103以及分帧单元104。
所述获取单元101,用于若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息。
在本实施例中,为了对神经网络进行训练从而得到相应的语音识别模型,需要对获取到的训练集中的语音信息进行批量的预处理,从而达到符合训练神经网络的要求,提高训练得到的语音识别模型的精准度。而训练集可以是预先设置的,即可以从各个能够进行语音信息获取的应用程序中收集语音信息进行存储,此时存储在训练集中的语音信息即为待处理的语音信息。当管理服务器接收到用户发起的信息处理指令,那么则获取预先设置的训练集,即获取训练集中的多个待处理的语音信息,以便于后续操作。
所述批量处理单元102,用于根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,其中,所述预设的Bash脚本至少包括一个预设的子运行脚本,每个子运行脚本均用于实现对所有待处理语音信息的批量处理,所述目标语音信息的数量小于或等于所述待处理语音信息的数量。
在本实施例中,预设的Bash脚本能够集成有多个预先设置的子运行脚本,每个子运行脚本均能够实现对所有待处理音频文件的实现同一个处理步骤的批量处理,具体是指每运行一个子运行脚本即能够对所有的待处理音频文件的进行同一项转换或改变的处理,并且要在所有的待处理音频文件完成相应的处理后,管理服务器才能调用另一个子运行脚本从而在上一项处理的基础上实现另一项转换或改变的处理。
其中,管理服务器一般可以通过Python执行Bash脚本,即可以通过Python依次执行Bash脚本中的多个预设的子运行脚本从而依次实现对训练集的待处理语音信息的批量处理操作,减少逐步迭代处理过程中出现的错误,提高转换的效率和准确度。
在一实施例中,如图6所述,所述预设的Bash脚本包括用于进行音频格式以及采样率转换的第一运行脚本,所述批量处理单元102可以包括:第一调用单元201以及第一运行单元202。
所述第一调用单元201,用于根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本。
其中,管理服务器可以根据接收到的信息处理指令调用预设的Bash脚本中的第一运行脚本,以便于进行后续处理。所述第一运行脚本能够实现对预设的训练集中的所有的待处理语音信息进行音频格式和采样率的转换。作为可选的,所述第一运行脚本可以是FFMPEG脚本。
所述第一运行单元202,用于运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到多个具有预设音频格式以及预设采样率的目标语音信息。
其中,为了使得训练集中的待测语音信息在训练神经网络的过程中快速地进行特征提取,可使得所有的待测语音信息转换为统一的音频格式以及统一的采样率。具体的,常见的音频格式可以包括WAV、MIDI、MP3、RA、MP4等格式类型,为了统一音频格式,预设音频格式可以设置为WAV格式,即当所有音频格式为非预设音频格式时,可以通过运行第一运行脚本将其转换为WAV格式。而所述采样率也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
在一实施例中,如图7所述,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本以及用于进行有效音频筛选的第二运行脚本,所述批量处理单元102可以包括第一调用单元301、第一运行单元302、第二调用单元303以及第二运行单元304。
所述第一调用单元301,用于根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本。其中,管理服务器可以根据接收到的信息处理指令调用预设的Bash脚本中的第一运行脚本,以便于进行后续处理。
所述第一运行单元302,用于运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有预设音频格式以及预设采样率的第一语音信息。其中,为了使得训练集中的待测语音信息在训练神经网络的过程中快速地进行特征提取,可使得所有的待测语音信息转换为统一的音频格式以及统一的采样率。
所述第二调用单元303,用于调用预设的Bash脚本中的第二运行脚本。其中,为了对当前的已经转换音频格式和采样率的第一语音信息进行筛选,需要管理服务器调用预设的Bash脚本中的用于进行有效音频筛选的第二运行脚本。作为可选的,所述第二运行脚本可以是SOX,SOX作为语音处理工具,能够根据设置的预设规格从多个第一语音信息中筛选出有效的语音信息。
所述第二运行单元304,用于运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的目标语音信息,所述目标语音信息的数量小于或等于第一语音信息的数量。
其中,管理服务器运行所述第二运行脚本后,能够根据预设规格对所有的第一语音信息进行筛选,得到符合条件的目标语音信息,故筛选之后,所述目标语音信息的数量小于或等于第一语音信息的数量。再者,该预设规格可以是预先设置语音时长的阀值,例如若第一语音信息的时长低于预设阀值,则删除该第一语音信息。同理,该预设规格还可以是预先设置的语音信息的采样点的阀值,也可以是预先设置的语音信息的缩放系数的阀值,还可以是预先设置的语音信息的最大幅度的阀值。
在一实施例中,如图8所述,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本、用于进行有效音频筛选的第二运行脚本以及用于进行重命名的第三运行脚本,所述批量处理单元102可以包括第一调用单元401、第一运行单元402、第二调用单元403、第二运行单元404、第三调用单元405以及第三运行单元406。
所述第一调用单元401,用于根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本。其中,管理服务器可以根据接收到的信息处理指令调用预设的Bash脚本中的第一运行脚本,以便于进行后续处理。所述第一运行脚本能够实现对预设的训练集中的所有的待处理语音信息进行音频格式和采样率的转换。
所述第一运行单元402,用于运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有相同音频格式以及采样率的第一语音信息。其中,为了使得训练集中的待测语音信息在训练神经网络的过程中快速地进行特征提取,可使得所有的待测语音信息转换为统一的音频格式以及统一的采样率。管理服务器运行了所述第一运行脚本后,可以根据第一运行脚本中设置的预设音频格式和预设采样率将所有的待处理语音信息批量地转换为具有预设音频格式和预设采样率的目标语音信息。
所述第二调用单元403,用于调用预设的Bash脚本中的第二运行脚本。其中,为了对当前的已经转换音频格式和采样率的第一语音信息进行筛选,需要管理服务器调用预设的Bash脚本中的用于进行有效音频筛选的第二运行脚本。该第二运行脚本中的预设规格为筛选语音信息设定了条件,从而能够从多个第一语音信息中筛选符合该预设规格的语音信息作为有效的语音信息。作为可选的,所述第二运行脚本可以是SOX,SOX作为语音处理工具,能够根据设置的预设规格从多个第一语音信息中筛选出有效的语音信息。
所述第二运行单元404,用于运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的第二语音信息,所述第二语音信息的数量小于或等于第一语音信息的数量。其中,管理服务器运行所述第二运行脚本后,能够根据预设规格对所有的第一语音信息进行筛选,得到符合条件的目标语音信息,故筛选之后,所述目标语音信息的数量小于或等于第一语音信息的数量。再者,该预设规格可以是预先设置语音时长的阀值,例如若第一语音信息的时长低于预设阀值,则删除该第一语音信息。同理,该预设规格还可以是预先设置的语音信息的采样点的阀值,也可以是预先设置的语音信息的缩放系数的阀值,还可以是预先设置的语音信息的最大幅度的阀值。
所述第三调用单元405,用于调用预设的Bash脚本中的第三运行脚本。其中,为了对当前的第二语音信息重命名,需要管理服务器调用预设的Bash脚本中的用于进行重命名的第三运行脚本,以便于重命名后的语音信息能够更为准确快速地被读取。该第三运行脚本中预先设置有预设名称格式,从而能够根据预设名称格式对多个第二语音信息进行重命名。作为可选的,第三运行脚本为重命名函数,该重命名函数可是函数rename()用于重命名文件。
所述第三运行单元406,用于运行所述第三运行脚本以对所有的第二语音信息进行重命名,从而得到相应数量的具有预设名称格式的目标语音信息。其中,训练集中的所有的语音信息可以是同一个主体生成,即每一个主体可以对应多条不同的语音信息,为便于进行区分设置,需要根据预先设置的预设名称格式以及第二语音信息的现有信息对其进行重命名。管理服务器在运行所述第三运行脚本后即能够得到相应的被重命名的目标语音信息,同时目标语音信息的命名是符合预设名称格式的,再者,目标语音信息的数量跟第二语音信息的数量是相等的,且两者之间是一一对应的关系。
除噪单元103,用于通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息。
在本实施例中,在进行神经网络训练之前,还需要通过语音激活检测来对目标语音信息进行滤波处理,其中所述语音激活检测是Voice Activity Detection,简称VAD,其能够区分语音信号中的语音信号和背景噪音,从而提高训练神经网络的准确度,减少训练所需的时间。其中,语音激活检测能够将语音信息的首尾端的静音切除,降低对后续步骤造成的干扰,即该语音激活检测能够将所有目标语音信息进行滤波批量处理,得到除噪之后的多个相应的中间语音信息。
分帧单元104,通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
在本实施例中,管理服务器还需要根据预设分帧规则对所有中间语音信息进行分帧处理,从而得到相应数量的分帧后的测试语音信息。其中,测试语音信息能够用于训练语音识别模型,从而得到能够进行相应的语音识别的语音识别模型。具体的,所述预设的分帧规则可以是指通过移动窗函数进行声音分帧,也就是把语音信息切开成一小段一小段,每小段称为一帧,其中各帧之间一般是有交叠的。
在另一实施例中,所述分帧单元104具体可以用于通过Enframe函数对所述中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
其中,所述Enframe函数即为具体的分帧函数,管理服务器调用该分帧函数后能够将所有的中间语音信息进行统一的分帧处理,从而得到最终的用于进行训练的测试语音信息。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述语音信息的批量处理装置100和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
由以上可见,在硬件实现上,以上获取单元101、批量处理单元102、除噪单元103以及分帧单元104等可以以硬件形式内嵌于或独立于寿险报案的装置中,也可以以软件形式存储于语音信息的批量处理装置的存储器中,以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述语音信息的批量处理装置可以实现为一种计算机程序的形式,计算机程序可以在如图9所示的计算机设备上运行。
图9为本发明一种计算机设备的结构组成示意图。该设备可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参照图9,该计算机设备500包括通过***总线501连接的处理器502、存储器、内存储器504和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种语音信息的批量处理方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种语音信息的批量处理方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息;通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
在一实施例中,所述预设的Bash脚本包括用于进行音频格式以及采样率转换的第一运行脚本,处理器502在实现所述根据所述信息处理指令调用并运行预设的Bash脚本以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息的步骤时,具体实现如下步骤:根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到多个具有预设音频格式以及预设采样率的目标语音信息。
在一实施例中,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本以及用于进行有效音频筛选的第二运行脚本,处理器502在实现所述根据所述信息处理指令调用并运行预设的Bash脚本以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息的步骤时,具体实现如下步骤:根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有预设音频格式以及预设采样率的第一语音信息;调用预设的Bash脚本中的第二运行脚本;运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的目标语音信息,所述目标语音信息的数量小于或等于第一语音信息的数量。
在一实施例中,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本、用于进行有效音频筛选的第二运行脚本以及用于进行重命名的第三运行脚本,处理器502在实现所述根据所述信息处理指令调用并运行预设的Bash脚本以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息的步骤时,具体实现如下步骤:根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有相同音频格式以及采样率的第一语音信息;调用预设的Bash脚本中的第二运行脚本;运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的第二语音信息,所述第二语音信息的数量小于或等于第一语音信息的数量;调用预设的Bash脚本中的第三运行脚本;运行所述第三运行脚本以对所有的第二语音信息进行重命名,从而得到相应数量的具有预设名称格式的目标语音信息。
在一实施例中,处理器502在实现所述通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息的步骤之时,具体实现如下步骤:通过Enframe函数对所述中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息;通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
在一实施例中,所述预设的Bash脚本包括用于进行音频格式以及采样率转换的第一运行脚本,所述处理器在执行所述计算机程序而实现所述根据所述信息处理指令调用并运行预设的Bash脚本以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息的步骤时,具体实现如下步骤:根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到多个具有预设音频格式以及预设采样率的目标语音信息。
在一实施例中,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本以及用于进行有效音频筛选的第二运行脚本,所述处理器在执行所述计算机程序而实现所述根据所述信息处理指令调用并运行预设的Bash脚本以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息的步骤时,具体实现如下步骤:根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有预设音频格式以及预设采样率的第一语音信息;调用预设的Bash脚本中的第二运行脚本;运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的目标语音信息,所述目标语音信息的数量小于或等于第一语音信息的数量。
在一实施例中,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本、用于进行有效音频筛选的第二运行脚本以及用于进行重命名的第三运行脚本,所述处理器在执行所述计算机程序而实现所述根据所述信息处理指令调用并运行预设的Bash脚本以对所有的待处理语音信息进行相应的批量处理,从而得到多个目标语音信息的步骤时,具体实现如下步骤:根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有相同音频格式以及采样率的第一语音信息;调用预设的Bash脚本中的第二运行脚本;运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的第二语音信息,所述第二语音信息的数量小于或等于第一语音信息的数量;调用预设的Bash脚本中的第三运行脚本;运行所述第三运行脚本以对所有的第二语音信息进行重命名,从而得到相应数量的具有预设名称格式的目标语音信息。
在一实施例中,所述处理器在执行所述计算机程序而实现所述通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息的步骤时,具体实现如下步骤:通过Enframe函数对所述中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音信息的批量处理方法,其特征在于,所述方法包括:
若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;
根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,其中,所述预设的Bash脚本至少包括一个预设的子运行脚本,每个子运行脚本均用于实现对所有待处理语音信息的批量处理,所述目标语音信息的数量小于或等于所述待处理语音信息的数量;
通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;
通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
2.如权利要求1所述的方法,其特征在于,所述预设的Bash脚本包括用于进行音频格式以及采样率转换的第一运行脚本,所述根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,包括:
根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;
运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到多个具有预设音频格式以及预设采样率的目标语音信息。
3.如权利要求1所述的方法,其特征在于,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本以及用于进行有效音频筛选的第二运行脚本,所述根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,包括:
根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;
运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有预设音频格式以及预设采样率的第一语音信息;
调用预设的Bash脚本中的第二运行脚本;
运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的目标语音信息,所述目标语音信息的数量小于或等于第一语音信息的数量。
4.如权利要求1所述的方法,其特征在于,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本、用于进行有效音频筛选的第二运行脚本以及用于进行重命名的第三运行脚本,所述根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,包括:
根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;
运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有相同音频格式以及采样率的第一语音信息;
调用预设的Bash脚本中的第二运行脚本;
运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的第二语音信息,所述第二语音信息的数量小于或等于第一语音信息的数量;
调用预设的Bash脚本中的第三运行脚本;
运行所述第三运行脚本以对所有的第二语音信息进行重命名,从而得到相应数量的具有预设名称格式的目标语音信息。
5.如权利要求1所述的方法,其特征在于,所述通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息,包括:
通过Enframe函数对所述中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
6.一种语音信息的批量处理装置,其特征在于,所述装置包括:
获取单元,用于若接收到信息处理指令,获取预设的训练集,所述训练集包括多个待处理语音信息;
批量处理单元,用于根据所述信息处理指令依次调用并运行预设的Bash脚本中的子运行脚本,以运行其中一个子运行脚本时即对所有的待处理语音信息进行相应的批量处理并直至运行完所有的子运行脚本,从而得到多个目标语音信息,其中,所述预设的Bash脚本至少包括一个预设的子运行脚本,每个子运行脚本均用于实现对所有待处理语音信息的批量处理,所述目标语音信息的数量小于或等于所述待处理语音信息的数量;
除噪单元,用于通过预设的语音激活检测对所有目标语音信息进行滤波处理以得到除噪之后的中间语音信息;
分帧单元,通过预设分帧规则对所有中间语音信息进行分帧处理以得到用于训练语音识别模型的测试语音信息。
7.如权利要求6所述的装置,其特征在于,所述预设的Bash脚本包括用于进行音频格式以及采样率转换的第一运行脚本,所述批量处理单元,包括:
第一调用单元,用于根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;
第一运行单元,用于运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到多个具有预设音频格式以及预设采样率的目标语音信息。
8.如权利要求6所述的装置,其特征在于,所述预设的Bash脚本包括用于进行音频格式转换的第一运行脚本以及用于进行有效音频筛选的第二运行脚本,所述装置还包括:
第一调用单元,用于根据所述信息处理指令调用预设的Bash脚本中的第一运行脚本;
第一运行单元,用于运行所述第一运行脚本以对所有的待处理语音信息进行音频格式转换以及采样率转换,从而得到相应数量的具有预设音频格式以及预设采样率的第一语音信息;
第二调用单元,用于调用预设的Bash脚本中的第二运行脚本;
第二运行单元,用于运行所述第二运行脚本以对所有的第一语音信息进行筛选,从而得到多个符合预设规格的目标语音信息,所述目标语音信息的数量小于或等于第一语音信息的数量。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-5中任一项所述的方法。
CN201910197848.0A 2019-03-15 2019-03-15 语音信息的批量处理方法、装置、计算机设备及存储介质 Active CN110060667B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910197848.0A CN110060667B (zh) 2019-03-15 2019-03-15 语音信息的批量处理方法、装置、计算机设备及存储介质
PCT/CN2019/103345 WO2020186695A1 (zh) 2019-03-15 2019-08-29 语音信息的批量处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910197848.0A CN110060667B (zh) 2019-03-15 2019-03-15 语音信息的批量处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110060667A CN110060667A (zh) 2019-07-26
CN110060667B true CN110060667B (zh) 2023-05-30

Family

ID=67317009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910197848.0A Active CN110060667B (zh) 2019-03-15 2019-03-15 语音信息的批量处理方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110060667B (zh)
WO (1) WO2020186695A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060667B (zh) * 2019-03-15 2023-05-30 平安科技(深圳)有限公司 语音信息的批量处理方法、装置、计算机设备及存储介质
CN112820309A (zh) * 2020-12-31 2021-05-18 北京天润融通科技股份有限公司 基于rnn的降噪处理方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908679A (zh) * 2017-10-26 2018-04-13 平安科技(深圳)有限公司 脚本语句转换方法、装置及计算机可读存储介质
CN108595656A (zh) * 2018-04-28 2018-09-28 宁波银行股份有限公司 一种数据的处理方法及***
CN108877775A (zh) * 2018-06-04 2018-11-23 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN109326305A (zh) * 2018-09-18 2019-02-12 易诚博睿(南京)科技有限公司 一种批量测试语音识别和文本合成的方法和测试***
CN109376166A (zh) * 2018-08-20 2019-02-22 中国平安财产保险股份有限公司 脚本转换方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别***的训练方法
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
CN110060667B (zh) * 2019-03-15 2023-05-30 平安科技(深圳)有限公司 语音信息的批量处理方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908679A (zh) * 2017-10-26 2018-04-13 平安科技(深圳)有限公司 脚本语句转换方法、装置及计算机可读存储介质
CN108595656A (zh) * 2018-04-28 2018-09-28 宁波银行股份有限公司 一种数据的处理方法及***
CN108877775A (zh) * 2018-06-04 2018-11-23 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN109376166A (zh) * 2018-08-20 2019-02-22 中国平安财产保险股份有限公司 脚本转换方法、装置、计算机设备及存储介质
CN109326305A (zh) * 2018-09-18 2019-02-12 易诚博睿(南京)科技有限公司 一种批量测试语音识别和文本合成的方法和测试***

Also Published As

Publication number Publication date
WO2020186695A1 (zh) 2020-09-24
CN110060667A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN108833722B (zh) 语音识别方法、装置、计算机设备及存储介质
CN107068161B (zh) 基于人工智能的语音降噪方法、装置和计算机设备
CN110060667B (zh) 语音信息的批量处理方法、装置、计算机设备及存储介质
WO2015188581A1 (zh) 一种利用音频控制马达震动的方法及装置
CN111312219A (zh) 电话录音标注方法、***、存储介质和电子设备
CN1271593C (zh) 一种语音信号检测方法
US9424743B2 (en) Real-time traffic detection
CN110265001B (zh) 用于语音识别训练的语料筛选方法、装置及计算机设备
CN109862396A (zh) 一种视频码流的分析方法、电子设备及可读存储介质
CN110264999A (zh) 一种音频处理方法、设备及计算机可读介质
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
US20080281599A1 (en) Processing audio data
Towsey Noise removal from wave-forms and spectrograms derived from natural recordings of the environment
CN112185424A (zh) 一种语音文件裁剪还原方法、装置、设备和存储介质
US20100172479A1 (en) Dynamically improving performance of an interactive voice response (ivr) system using a complex events processor (cep)
CN110096479B (zh) 语音信息的批量重命名方法、装置、计算机设备及存储介质
WO2024099359A1 (zh) 语音检测的方法和装置、电子设备和存储介质
CN112151055B (zh) 音频处理方法及装置
US20160232923A1 (en) Method and system for speech detection
KR20160145711A (ko) 정보 손실을 감소시킨 전자 통신들을 위한 시스템들, 방법들 및 디바이스들
US9978393B1 (en) System and method for automatically removing noise defects from sound recordings
CN105355206A (zh) 一种声纹特征提取方法和电子设备
CN111148005B (zh) 一种检测mic顺序的方法及装置
CN110059059B (zh) 语音信息的批量筛选方法、装置、计算机设备及存储介质
CN111354365B (zh) 一种纯语音数据采样率识别方法、装置、***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant