CN112201227A - 语音样本生成方法及装置、存储介质、电子装置 - Google Patents

语音样本生成方法及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN112201227A
CN112201227A CN202011044992.XA CN202011044992A CN112201227A CN 112201227 A CN112201227 A CN 112201227A CN 202011044992 A CN202011044992 A CN 202011044992A CN 112201227 A CN112201227 A CN 112201227A
Authority
CN
China
Prior art keywords
sample
voice
voice sample
target
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011044992.XA
Other languages
English (en)
Other versions
CN112201227B (zh
Inventor
葛路奇
赵培
马路
赵欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haier Uplus Intelligent Technology Beijing Co Ltd
Original Assignee
Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haier Uplus Intelligent Technology Beijing Co Ltd filed Critical Haier Uplus Intelligent Technology Beijing Co Ltd
Priority to CN202011044992.XA priority Critical patent/CN112201227B/zh
Priority claimed from CN202011044992.XA external-priority patent/CN112201227B/zh
Publication of CN112201227A publication Critical patent/CN112201227A/zh
Application granted granted Critical
Publication of CN112201227B publication Critical patent/CN112201227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种语音样本生成方法及装置、存储介质、电子装置,其中,语音样本生成方法包括:获取第一语音样本与第二语音样本,其中,第一语音样本为第一对象未佩戴口罩的情形下产生的语音样本,第二语音样本为第一对象佩戴口罩的情形下产生的语音样本;根据第一语音样本与第二语音样本建立样本生成模型;获取第三语音样本,并根据第三语音样本与样本生成模型生成目标语音样本;其中,第三语音样本为第二对象未佩戴口罩的情形下产生的语音样本。因此,本发明实施例可以解决相关技术中对于用户佩戴口罩的情形下产生的语音样本无法有效获取的问题,以达到高效获取用户佩戴口罩的情形下产生的语音样本的效果。

Description

语音样本生成方法及装置、存储介质、电子装置
技术领域
本发明涉及物联网设备领域,具体而言,涉及一种语音样本生成方法及装置、存储介质、电子装置。
背景技术
随着现今智能家居的发展,语音功能已成为绝大多数智能家居的必要功能之一,语音功能的实现包括语音算法与用于对语音算法进行训练的语音样本数据集两部分。现实使用环境中存在诸多复杂场景,由于复杂场景下的语音样本与标准场景下存在不同,故为提升语音功能的准确性,需单独收集上述复杂场景下的语音样本。现有技术对上述复杂场景下的语音样本多从各种场景中去采集足量的语音样本数据,其需耗费相当的人力与时间成本。
目前,随着人们佩戴口罩成为习惯,用户所产生的语音指令中部分是在佩戴口罩的情形下发出的,由于声音在佩戴口罩与未佩戴口罩的情形下存在一定的区别,故提高用户佩戴口罩的情形下的语音的识别效率已成为大多数智能家居的需求。但大规模的获取用户佩戴口罩的情形下所产生的语音样本,以进行相应模型的训练,存在人力与时间成本过高,甚至无法有效获取的问题。
针对上述相关技术中,对于用户佩戴口罩的情形下产生的语音样本无法有效获取的问题,相关技术中尚未提出有效的解决方案。
发明内容
本发明实施例提供一种语音样本生成方法及装置、存储介质、电子装置,以至少解决相关技术中对于用户佩戴口罩的情形下产生的语音样本无法有效获取的问题。
根据本发明的一个实施例,提供了一种语音样本生成方法,包括:
获取第一语音样本与第二语音样本,其中,所述第一语音样本为第一对象未佩戴口罩的情形下产生的语音样本,所述第二语音样本为所述第一对象佩戴口罩的情形下产生的语音样本;
根据所述第一语音样本与所述第二语音样本建立样本生成模型;其中,所述样本生成模型用于指示所述第一语音样本与所述第二语音样本之间的关系;
获取第三语音样本,并根据所述第三语音样本与所述样本生成模型生成目标语音样本;其中,所述第三语音样本为第二对象未佩戴口罩的情形下产生的语音样本,所述目标语音样本用于指示所述第二对象佩戴口罩的情形下对应的语音样本。
在一可选实施例中,所述根据所述第一语音样本与所述第二语音样本建立样本生成模型,还包括:
获取所述第一语音样本中的第一语音片段,以及所述第二语音样本中的第二语音片段;其中,所述第一语音片段为所述第一语音样本中的有效片段,所述第二语音片段为所述第二语音样本中的有效片段;
将所述第一语音片段与所述第二语音片段进行时域上的对齐处理,并根据所述第一语音片段与所述第二语音片段建立所述样本生成模型。
在一可选实施例中,所述根据所述第一语音片段与所述第二语音片段建立所述样本生成模型,包括:
将所述第一语音片段与所述第二语音片段由时域转换至频域,并获取所述第一语音片段中每一帧对应的第一频域值,以及所述第二语音片段中每一帧对应的第二频域值;
根据所述第一频域值与所述第二频域值确定每一帧对应的传递系数,其中,所述传递系数用于指示所述第一频域值与对应的所述第二频域值之间的关系;
根据所述传递系数建立所述样本生成模型。
在一可选实施例中,所述根据所述传递系数建立所述样本生成模型,包括:
对多帧对应的多个所述传递系数进行聚类处理,以确定样本生成系数;其中,所述样本生成系数用于指示多个所述传递系数进行聚类处理所得的中心点对应的所述传递系数。
在一可选实施例中,所述根据所述第三语音样本与所述样本生成模型生成目标语音样本,包括:
将所述第三语音样本由时域转换至频域,以获取所述第三语音样本中每一帧对应的第三频域值;
根据所述第三频域值与所述样本生成系数以得到每一帧对应的目标频域值;其中,所述目标频域值用于指示所述目标语音样本由时域转换至频域后每一帧对应的频域值;
将每一帧对应的所述目标频域值转换至时域,以得到所述目标语音样本。
在一可选实施例中,将每一帧对应的所述目标频域值转换至时域,以得到所述目标语音样本,包括:
将第一帧对应的所述目标频域值转换为第一目标时域信息,将第二帧对应的所述目标频域值转换为第二目标时域信息;其中,所述第一帧与第二帧为相邻帧;
将所述第一目标时域信息的至少部分与所述第二目标时域信息的至少部分进行叠加,以得到所述目标语音样本。
根据本发明的另一个实施例,还提供了一种语音样本生成装置,包括:
获取模块,用于获取第一语音样本与第二语音样本,其中,所述第一语音样本为第一对象未佩戴口罩的情形下产生的语音样本,所述第二语音样本为所述第一对象佩戴口罩的情形下产生的语音样本;
建立模块,用于根据所述第一语音样本与所述第二语音样本建立样本生成模型;其中,所述样本生成模型用于指示所述第一语音样本与所述第二语音样本之间的关系;
生成模块,用于获取第三语音样本,并根据所述第三语音样本与所述样本生成模型生成目标语音样本;其中,所述第三语音样本为第二对象未佩戴口罩的情形下产生的语音样本,所述目标语音样本用于指示所述第二对象佩戴口罩的情形下对应的语音样本。
根据本发明的另一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的另一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明实施例,由于可在获取同一个第一对象分别在未佩戴口罩与佩戴口罩的情形下所产生的第一语音样本与第二语音样本的基础上,根据上述第一语音样本与第二语音样本建立用于指示两者之间关系的样本生成模型,进而通过该样本生成模型对于第二对象在未佩戴口罩的情形下产生的第三语音样本进行转换,以生成用于指示第二对象佩戴口罩的情形下对应的目标语音样本。
以此,本发明实施例无需对于第二对象佩戴口罩的情形下所产生的语音样本一一进行采集,而是可根据预先建立的样本生成模型,以对于未佩戴口罩的情形下产生的样本进行转化,即可生成佩戴口罩的情形下对应的语音样本。因此,本发明实施例可以解决相关技术中对于用户佩戴口罩的情形下产生的语音样本无法有效获取的问题,以达到高效获取用户佩戴口罩的情形下产生的语音样本的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的语音样本生成方法的流程图;
图2是根据本发明示例性实施例提供的语音样本生成方法的流程示意图;
图3是根据本发明实施例提供的语音样本生成装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为进一步说明本发明实施例中的设备连接状态上报方法及装置、存储介质、电子装置,以下对本发明实施例中的设备连接状态上报方法及装置、存储介质、电子装置的应用场景进行阐述:
一方面,本发明实施例提供了一种语音样本生成方法,图1是根据本发明实施例提供的语音样本生成方法的流程图,如图1所示,本发明实施例中的语音样本生成方法包括:
S102,获取第一语音样本与第二语音样本,其中,第一语音样本为第一对象未佩戴口罩的情形下产生的语音样本,第二语音样本为第一对象佩戴口罩的情形下产生的语音样本。
本发明实施例中,上述第一语音样本与第二语音样本为多个,且第一语音样本与第二语音样本是一一对应的;上述第一对象可以为一个或者多个,即第一语音样本与第二语音样本可以为同一个第一对象产生的多组语音样本,也可以为多个不同的第一对象分别产生的多组语音样本,本发明实施例对此不做限定。第一语音样本与第二语音样本为同一个第一对象在未佩戴口罩与佩戴口罩的情形下分别产生的语音样本,通常而言,第一语音样本与第二语音样本的语音内容应相同。
为确保第一语音样本与第二语音样本之间的一致性,在第一语音样本与第二语音样本内容相同的基础上,在一可选实施例中,第一语音样本与第二语音样本之间的音频相似度小于预设阈值。需要说明的是,上述音频相似度用于指示音频的发音,例如,语速、语调、响度等参数之间的差异值,即第二语音样本应与第一语音样本在音频的内容上相同,在音频的发音上尽可能的相似乃至相同。在一示例中,可由作为第一对象的用户A在未佩戴口罩的情形下录入以下音频“打开音箱播放歌曲N”,以此作为第一语音样本,并由用户A在佩戴口罩的情形下,以同样的语速、语调、响度等重新录入“打开音箱播放歌曲N”,以此作为第二语音样本。
S104,根据第一语音样本与第二语音样本建立样本生成模型;其中,样本生成模型用于指示第一语音样本与第二语音样本之间的关系。
本发明实施例中,在获取第一语音样本与第二语音样本的基础上,即可根据该第一语音样本与第二语音样本建立用于指示第一语音样本与第二语音样本之间的关系的样本生成模型。由于第一语音样本与第二语音样本分别对应未佩戴口罩与佩戴口罩两种情形下产生的同一音频内容对应的语音样本,故样本生成模型可指示同一音频内容在未佩戴口罩与佩戴口罩两种情形下对应产生的语音样本之间的关系。在一示例中,样本生成模型可通过函数关系进行表征,例如:
Y=K×X。
上述X用于表示未佩戴口罩的情形下一音频内容产生的语音样本频域值,Y用于表示佩戴口罩的情形下同一音频内容产生的语音样本频域值,K用于表示上述Y与X之间的系数。
以下通过一可选实施例说明上述样本生成模型建立的过程:
在一可选实施例中,上述步骤S104中,根据第一语音样本与第二语音样本建立样本生成模型,还包括:
获取第一语音样本中的第一语音片段,以及第二语音样本中的第二语音片段;其中,第一语音片段为第一语音样本中的有效片段,第二语音片段为第二语音样本中的有效片段;
将第一语音片段与第二语音片段进行时域上的对齐处理,并根据第一语音片段与第二语音片段建立样本生成模型。
上述可选实施例中,对于第一语音样本与第二语音样本而言,在音频的开始或末尾位置可能存在无音频部分,在音频的中间位置可能存在过长的停顿部分等,上述部分即为无效部分,相应的,上述第一语音片段与第二语音片段即为第一语音样本与第二语音样本中,去除上述无效部分后保留的有效部分。以此,通过第一语音片段与第二语音片段的提取,可避免不必要的信号处理,以及信号处理过程中可能存在的偏差。
另一方面,将第一语音片段与第二语音片段进行时域上的对齐处理,即令第一语音片段与第二语音片段每一时刻对应的音频内容均是对应的,以此,在第一语音片段与第二语音片段由时域转化为频域后,即可另其相互间的每一帧都是对应的。在一可选实施例中,上述根据第一语音片段与第二语音片段建立样本生成模型,包括:
将第一语音片段与第二语音片段由时域转换至频域,并获取第一语音片段中每一帧对应的第一频域值,以及第二语音片段中每一帧对应的第二频域值;
根据第一频域值与第二频域值确定每一帧对应的传递系数,其中,传递系数用于指示第一频域值与对应的第二频域值之间的关系;
根据传递系数建立样本生成模型。
需要说明的是,上述频域值包括幅度值与相位值,以第一语音片段为例,第一语音片段经由傅里叶变换进行时频转化后,其每一帧的频率所对应的幅度值与相位值即构成该帧对应的第一频域值。该第一频域值为一复数,通过欧拉公式可以得到第一频域值的幅度与相位值。类似的,第二语音片段经由傅里叶变换进行时频转化后,其每一帧的频率所对应的幅度值与相位值即构成该帧对应的第二频域值,第二频域值同样为一复数。
在确定每一帧分别对应的第一频域值与第二频域值的情形下,即可根据该帧对应的第一频域值与第二频域值之间的关系,确定该帧对应的一组传递系数。在一示例中,传递系数用于指示第一频域值与第二频域值之间的比例关系。
需要说明的是,每一帧均对应有第一频域值与第二频域值,故每一帧均可对应确定一组传递系数,多帧则对应有多组传递系数。在一可选实施例中,根据传递系数建立样本生成模型,包括:
对多帧对应的多组传递系数幅度值(与相位值分别)进行聚类处理,以确定一组样本生成系数;其中,样本生成系数用于指示多组传递系数各对应值进行聚类处理所得的中心点对应的一组传递系数。
上述过程中,每帧数据转换到频域值得到的是一组值,传递系数也是一组值,如P1={p11,p12,p13,…,p1n},多帧得到多组系数{p1,p2,p3,..,pm},对多组系数的各个值进行聚类An=聚类({p1n,p2n,p3n,..,pmn}),聚类选择一类或多类,取数据最集中部分的类的中心点An,得到最终的传递系数P={A1,A2,A3,..,An})。
上述可选实施例中,对多帧对应的多个传递系数进行聚类处理即确定多个传递系数的分布,具体而言,可选取进行聚类处理所得的中心点,即多个传递系数中分布最为集中的某点对应的传递系数,以作为样本生成系数。在一示例中,可基于K均值聚类算法(K-means)进行聚类处理,聚类的维度可以为幅度,或者为幅度与相位分别聚类后重新组合。
以此,即可选择分布最为密集的传递系数作为样本生成系数进而建立样本生成模型,该样本生成模型实际可指示同一音频内容在未佩戴口罩与佩戴口罩两种情形下产生的语音信号在转化至频域后的频域值之间的关系。
需要说明的是,在第一语音样本与第二语音样本为多个的情形下,可在对每一组第一语音样本与第二语音样本中多帧对应的传递系数进行确定后,对多组第一语音样本与第二语音样本对应的多个传递系数进行聚类,以进一步提高样本生成模型的准确性。
可以理解的是,本领域技术人员也可通过其它方式以根据第一语音样本与第二语音样本建立样本生成模型,例如,根据第一频域值与第二频域值进行拟合等,本发明实施例对此不做限定。
S106,获取第三语音样本,并根据第三语音样本与样本生成模型生成目标语音样本;其中,第三语音样本为第二对象未佩戴口罩的情形下产生的语音样本,目标语音样本用于指示第二对象佩戴口罩的情形下对应的语音样本。
本发明实施例中,上述第三语音样本由第二对象产生,第二对象可以是与第一对象不同的对象,也可以与第一对象相同的对象。第三语音样本可以为一个或多个,第二对象也可以为一个或多个,即第三语音样本可以为同一个第二对象产生的多个语音样本,也可以是多个第二对象分别产生的多个语音样本。第三语音样本即为第二对象在未佩戴口罩的情形下产生的语音样本,目标语音样本即为本发明实施例中所生成的语音样本,该目标语音样本用于模拟第二对象在佩戴口罩的情形下产生的语音样本。以下通过一可选实施例说明目标语音样本的生成过程:
在一可选实施例中,上述步骤S106,根据第三语音样本与样本生成模型生成目标语音样本,包括:
将第三语音样本由时域转换至频域,以获取第三语音样本中每一帧对应的第三频域值;
根据第三频域值与样本生成系数以得到每一帧对应的目标频域值;其中,目标频域值用于指示目标语音样本由时域转换至频域后每一帧对应的频域值;
将每一帧对应的目标频域值转换至时域,以得到目标语音样本。
上述可选实施例中,第三语音片段经由傅里叶变换进行时频转化后,其每一帧的频率所对应的幅度值与相位值即构成该帧对应的第三频域值,该第三频域值同样为一复数。由于前述样本生成模型可指示同一音频内容在未佩戴口罩与佩戴口罩两种情形下产生的语音信号在转化至频域后的频域值之间的关系。因此,在确定第三语音样本中每一帧对应的第三频域值的基础上,即可将每一个第三频域值依次带入至上述样本生成模型中以生成对应的目标频域值,该目标频域值即为第三语音样本对应的音频内容在佩戴口罩的情形下所对应的目标语音样本转化至频域后对应的频域值。以此,将上述多帧对应的多个目标频域值转换至时域,即可得到目标语音样本。在一示例中,可由作为第二对象的用户B在未佩戴口罩的情形下录入以下音频“打开空调至24℃”,以此作为第三语音样本;将上述第三语音样本按照前述方法转化后,所得到的目标语音样本应为模拟用户B在佩戴口罩的情形下产生的音频“打开空调至24℃”。
需要说明的是,通常而言,第三语音样本的数量集远大于第一语音样本和/或第二语音样本的数量集,以此,在通过较少数量的第一语音样本与第二语音样本以得到样本生成模型的情形下,即可通过对较多数量的第三语音样本进行转化,进而得到大量的目标语音样本。第三语音样本可以为录制的样本,也可以直接选取现有的语音样本数据库内的语音样本作为第三语音样本。
通过本发明实施例,由于可在获取同一个第一对象分别在未佩戴口罩与佩戴口罩的情形下所产生的第一语音样本与第二语音样本的基础上,根据上述第一语音样本与第二语音样本建立用于指示两者之间关系的样本生成模型,进而通过该样本生成模型对于第二对象在未佩戴口罩的情形下产生的第三语音样本进行转换,以生成用于指示第二对象佩戴口罩的情形下对应的目标语音样本。
以此,本发明实施例无需对于第二对象佩戴口罩的情形下所产生的语音样本一一进行采集,而是可根据预先建立的样本生成模型,以通过该样本生成模型对于未佩戴口罩的情形下产生的语音样本进行转化,即可生成佩戴口罩的情形下对应的语音样本。因此,本发明实施例可以解决相关技术中对于用户佩戴口罩的情形下产生的语音样本无法有效获取的问题,以达到高效获取用户佩戴口罩的情形下产生的语音样本的效果。
与此同时,通过上述生成方式以获得的大量佩戴口罩的情形下对应的目标语音样本,可基于该目标语音样本对语音模型进行训练,进而令语音模型针对上述是否佩戴口罩等复杂声学场景下的数据缺少状况得以改观,以使得语音模型可适用于佩戴口罩的场景下的语音识别处理,从而显著改善用户体验。
在一可选实施例中,上述将每一帧对应的目标频域值转换至时域,以得到目标语音样本,包括:
将第一帧对应的目标频域值转换为第一目标时域信息,将第二帧对应的目标频域值转换为第二目标时域信息;其中,第一帧与第二帧为相邻帧;
将第一目标时域信息的至少部分与第二目标时域信息的至少部分进行叠加,以得到目标语音样本。
上述可选实施例中,由于语音信号进行分帧过程中,相邻两个前后帧之间的数据存在一定的重合现象,故在将目标频域值进行时频转换以得到目标语音样本的过程中,对于相邻的第一帧与第二帧,可将其重合部分进行重叠拼接,进而避免目标语音样本中的语音重复现象。在一示例中,第二帧在第一帧之后,则可将第一帧对应的第一目标频域信息的后半部分与第二帧对应的第二目标频率信息的前半部分之间进行拼接;上述叠加方式即重叠相加的过程。
需要说明的是,上述第一帧与第二帧可以为任意两个相邻帧,即通过上述可选实施例中的技术方案,可对于每两个相邻帧的目标频域值对应转换的目标时域信息均进行上述拼接处理。
为进一步描述本发明实施例中的语音样本生成方法,以下通过一示例性实施例进行说明:
图2是根据本发明示例性实施例提供的语音样本生成方法的流程示意图,如图2所示,本示例性实施例中语音样本生成方法的工作流程如下:
S201,录制同一说话人未佩戴口罩和佩戴口罩下的语音样本,分别作为第一语音样本与第二语音样本,要求两次录制的音频,即第一语音样本与第二语音样本之间对应发声的相似度接近,包括语速、语调以及时长等;保留两次录制的音频的有效声音片段,并进行对齐。
S202,对上述第一语音样本与第二语音样本进行时频转换,将第一语音样本与第二语音样本转换到频域;用第一语音样本与第二语音样本各帧频域上频域值(包括幅度值与相位值)比值作为各帧的一组传递系数,该系数为复数。
S203,对上述各帧对应系数求幅度谱,并通过K-means算法对幅度谱中各帧对应系数进行聚类,聚类的维度可以为幅度与相位;聚类后得到各帧对应系数的中心值,将该值作为用于建立第一语音样本与第二语音样本之间关系模型的传递系数。
S204,重新获取一未佩戴口罩下的音频,作为第三语音样本,将该第三语音样本进行时频转换至频域,并给第三语音样本中每帧的频域值乘以上述步骤S203中最终确定的传递系数,以得到待生成的目标语音样本各帧对应的频域值。
S205,将目标语音样本各帧对应的频域值进行时频转换至时域,即可生成目标语音样本。该目标语音样本即为第三语音样本对应的佩戴口罩下产生的音频。
需要说明的是,在上述生成目标语音样本过程中,由于信号分帧时前后帧数据有重合,故生成时是将相邻两帧信号中后一帧的后半部分与前一帧的后半部分进行叠加,以得到目标语音样本。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
另一方面,本发明实施例还提供了一种语音样本生成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例提供的语音样本生成装置的结构框图,如图3所示,本发明实施例中的语音样本生成装置包括:
获取模块302,用于获取第一语音样本与第二语音样本,其中,第一语音样本为第一对象未佩戴口罩的情形下产生的语音样本,第二语音样本为第一对象佩戴口罩的情形下产生的语音样本;
建立模块304,用于根据第一语音样本与第二语音样本,建立样本生成模型;其中,样本生成模型用于指示第一语音样本与第二语音样本之间的关系;
生成模块306,用于获取第三语音样本,并根据第三语音样本与样本生成模型生成目标语音样本;其中,第三语音样本为第二对象未佩戴口罩的情形下产生的语音样本,目标语音样本用于指示第二对象佩戴口罩的情形下对应的语音样本。
需要说明的是,本发明实施例中的语音样本生成装置的其余可选实施例以及技术效果均与前述语音样本生成方法相对应,故在此不再赘述。
在一可选实施例中,第一语音样本与第二语音样本之间的音频相似度小于预设阈值。
在一可选实施例中,根据第一语音样本与第二语音样本建立样本生成模型,还包括:
获取第一语音样本中的第一语音片段,以及第二语音样本中的第二语音片段;其中,第一语音片段为第一语音样本中的有效片段,第二语音片段为第二语音样本中的有效片段;
将第一语音片段与第二语音片段进行时域上的对齐处理,并根据第一语音片段与第二语音片段建立样本生成模型。
在一可选实施例中,根据第一语音片段与第二语音片段建立样本生成模型,包括:
将第一语音片段与第二语音片段由时域转换至频域,并获取第一语音片段中每一帧对应的第一频域值,以及第二语音片段中每一帧对应的第二频域值;
根据第一频域值与第二频域值确定每一帧对应的传递系数,其中,传递系数用于指示第一频域值与对应的第二频域值之间的关系;
根据传递系数建立样本生成模型。
在一可选实施例中,根据传递系数建立样本生成模型,包括:
对多帧对应的多个传递系数进行聚类处理,以确定样本生成系数;其中,样本生成系数用于指示多个传递系数进行聚类处理所得的中心点对应的传递系数。
在一可选实施例中,根据第三语音样本与样本生成模型生成目标语音样本,包括:
将第三语音样本由时域转换至频域,以获取第三语音样本中每一帧对应的第三频域值;
根据第三频域值与样本生成系数以得到每一帧对应的目标频域值;其中,目标频域值用于指示目标语音样本由时域转换至频域后每一帧对应的频域值;
将每一帧对应的目标频域值转换至时域,以得到目标语音样本。
在一可选实施例中,将每一帧对应的目标频域值转换至时域,以得到目标语音样本,包括:
将第一帧对应的目标频域值转换为第一目标时域信息,将第二帧对应的目标频域值转换为第二目标时域信息;其中,第一帧与第二帧为相邻帧;
将第一目标时域信息的至少部分与第二目标时域信息的至少部分进行叠加,以得到目标语音样本。
另一方面,本发明实施例还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本发明实施例中,上述计算机可读的存储介质可以被设置为存储用于执行上述实施例中的计算机程序。
可选地,在本发明实施例中,上述计算机可读的存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
另一方面,本发明实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行上述实施例中的步骤。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音样本生成方法,其特征在于,包括:
获取第一语音样本与第二语音样本,其中,所述第一语音样本为第一对象未佩戴口罩的情形下产生的语音样本,所述第二语音样本为所述第一对象佩戴口罩的情形下产生的语音样本;
根据所述第一语音样本与所述第二语音样本建立样本生成模型;其中,所述样本生成模型用于指示所述第一语音样本与所述第二语音样本之间的关系;
获取第三语音样本,并根据所述第三语音样本与所述样本生成模型生成目标语音样本;其中,所述第三语音样本为第二对象未佩戴口罩的情形下产生的语音样本,所述目标语音样本用于指示所述第二对象佩戴口罩的情形下对应的语音样本。
2.根据权利要求1所述的方法,其特征在于,所述第一语音样本与所述第二语音样本之间的音频相似度小于预设阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一语音样本与所述第二语音样本建立样本生成模型,还包括:
获取所述第一语音样本中的第一语音片段,以及所述第二语音样本中的第二语音片段;其中,所述第一语音片段为所述第一语音样本中的有效片段,所述第二语音片段为所述第二语音样本中的有效片段;
将所述第一语音片段与所述第二语音片段进行时域上的对齐处理,并根据所述第一语音片段与所述第二语音片段建立所述样本生成模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一语音片段与所述第二语音片段建立所述样本生成模型,包括:
将所述第一语音片段与所述第二语音片段由时域转换至频域,并获取所述第一语音片段中每一帧对应的第一频域值,以及所述第二语音片段中每一帧对应的第二频域值;
根据所述第一频域值与所述第二频域值确定每一帧对应的传递系数,其中,所述传递系数用于指示所述第一频域值与对应的所述第二频域值之间的关系;
根据所述传递系数建立所述样本生成模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述传递系数建立所述样本生成模型,包括:
对多帧对应的多个所述传递系数进行聚类处理,以确定样本生成系数;其中,所述样本生成系数用于指示多个所述传递系数进行聚类处理所得的中心点对应的所述传递系数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第三语音样本与所述样本生成模型生成目标语音样本,包括:
将所述第三语音样本由时域转换至频域,以获取所述第三语音样本中每一帧对应的第三频域值;
根据所述第三频域值与所述样本生成系数以得到每一帧对应的目标频域值;其中,所述目标频域值用于指示所述目标语音样本由时域转换至频域后每一帧对应的频域值;
将每一帧对应的所述目标频域值转换至时域,以得到所述目标语音样本。
7.根据权利要求6所述的方法,其特征在于,将每一帧对应的所述目标频域值转换至时域,以得到所述目标语音样本,包括:
将第一帧对应的所述目标频域值转换为第一目标时域信息,将第二帧对应的所述目标频域值转换为第二目标时域信息;其中,所述第一帧与第二帧为相邻帧;
将所述第一目标时域信息的至少部分与所述第二目标时域信息的至少部分进行叠加,以得到所述目标语音样本。
8.一种语音样本生成装置,其特征在于,包括:
获取模块,用于获取第一语音样本与第二语音样本,其中,所述第一语音样本为第一对象未佩戴口罩的情形下产生的语音样本,所述第二语音样本为所述第一对象佩戴口罩的情形下产生的语音样本;
建立模块,用于根据所述第一语音样本与所述第二语音样本建立样本生成模型;其中,所述样本生成模型用于指示所述第一语音样本与所述第二语音样本之间的关系;
生成模块,用于获取第三语音样本,并根据所述第三语音样本与所述样本生成模型生成目标语音样本;其中,所述第三语音样本为第二对象未佩戴口罩的情形下产生的语音样本,所述目标语音样本用于指示所述第二对象佩戴口罩的情形下对应的语音样本。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
CN202011044992.XA 2020-09-28 语音样本生成方法及装置、存储介质、电子装置 Active CN112201227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011044992.XA CN112201227B (zh) 2020-09-28 语音样本生成方法及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011044992.XA CN112201227B (zh) 2020-09-28 语音样本生成方法及装置、存储介质、电子装置

Publications (2)

Publication Number Publication Date
CN112201227A true CN112201227A (zh) 2021-01-08
CN112201227B CN112201227B (zh) 2024-06-28

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674737A (zh) * 2021-08-09 2021-11-19 维沃移动通信(杭州)有限公司 语音数据处理方法、装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及***
CN108597505A (zh) * 2018-04-20 2018-09-28 北京元心科技有限公司 语音识别方法、装置及终端设备
CN109120779A (zh) * 2018-07-24 2019-01-01 Oppo(重庆)智能科技有限公司 麦克风堵塞提醒方法及相关装置
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110910865A (zh) * 2019-11-25 2020-03-24 秒针信息技术有限公司 语音转换方法和装置、存储介质及电子装置
US20200160877A1 (en) * 2018-11-20 2020-05-21 Airbus Operations Sas Method and system for processing audio signals for a microphone of an aircraft oxygen mask
CN111348499A (zh) * 2020-03-02 2020-06-30 北京声智科技有限公司 电梯控制方法、装置、电子设备及计算机可读存储介质
CN111358066A (zh) * 2020-03-10 2020-07-03 中国人民解放军陆军军医大学第一附属医院 基于语音识别的防护服
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及***
CN108597505A (zh) * 2018-04-20 2018-09-28 北京元心科技有限公司 语音识别方法、装置及终端设备
CN109120779A (zh) * 2018-07-24 2019-01-01 Oppo(重庆)智能科技有限公司 麦克风堵塞提醒方法及相关装置
US20200160877A1 (en) * 2018-11-20 2020-05-21 Airbus Operations Sas Method and system for processing audio signals for a microphone of an aircraft oxygen mask
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110910865A (zh) * 2019-11-25 2020-03-24 秒针信息技术有限公司 语音转换方法和装置、存储介质及电子装置
CN111348499A (zh) * 2020-03-02 2020-06-30 北京声智科技有限公司 电梯控制方法、装置、电子设备及计算机可读存储介质
CN111358066A (zh) * 2020-03-10 2020-07-03 中国人民解放军陆军军医大学第一附属医院 基于语音识别的防护服
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674737A (zh) * 2021-08-09 2021-11-19 维沃移动通信(杭州)有限公司 语音数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP6876752B2 (ja) 応答方法及び装置
CN110415687A (zh) 语音处理方法、装置、介质、电子设备
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN111354332A (zh) 一种歌声合成方法及装置
CN100585663C (zh) 语言学习***
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
CN112820315A (zh) 音频信号处理方法、装置、计算机设备及存储介质
JP2014089420A (ja) 信号処理装置、方法およびプログラム
CN106375780A (zh) 一种多媒体文件生成方法及其设备
CN110600014A (zh) 一种模型训练方法、装置、存储介质及电子设备
CN112289343B (zh) 音频修复方法、装置及电子设备和计算机可读存储介质
CN111142066A (zh) 波达方向估计方法、服务器以及计算机可读存储介质
CN112837670B (zh) 语音合成方法、装置及电子设备
CN112652309A (zh) 一种方言语音转换方法、装置、设备及存储介质
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN113450811B (zh) 对音乐进行通透处理的方法及设备
CN112201227B (zh) 语音样本生成方法及装置、存储介质、电子装置
CN111103568A (zh) 一种声源定位方法、装置、介质和设备
CN112201227A (zh) 语音样本生成方法及装置、存储介质、电子装置
CN115188363A (zh) 语音处理方法、***、设备及存储介质
CN114974281A (zh) 语音降噪模型的训练方法、装置、存储介质及电子装置
CN113793623A (zh) 音效设置方法、装置、设备以及计算机可读存储介质
CN113823318A (zh) 一种基于人工智能的倍率确定方法、音量调节方法及装置
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant