CN110875036A - 语音分类方法、装置、设备及计算机可读存储介质 - Google Patents
语音分类方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110875036A CN110875036A CN201911103349.7A CN201911103349A CN110875036A CN 110875036 A CN110875036 A CN 110875036A CN 201911103349 A CN201911103349 A CN 201911103349A CN 110875036 A CN110875036 A CN 110875036A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- target
- classification
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种语音分类方法,该方法包括:当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型;当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段;将所述目标语音段输出,得到目标语音。本发明还公开了一种语音分类装置、设备及计算机可读存储介质。本发明语音分类程序在接收到目标语音分类指令时,获取预设语音模型库中与目标语音分类指令对应的目标语音模型,通过获取接收到的语音信息中与目标语音模型匹配的目标语音段,将获取的目标语音段输出,即可得到目标语音。实现了对语音信息进行分类。
Description
技术领域
本发明涉及语音处理领域,尤其涉及一种语音分类方法、装置、设备及计算机可读存储介质。
背景技术
随着音频识别和语音识别技术的快速发展,语音分类被应用在越来越多的领域。
在一份会议录音(时间较长)文件中,用户想要获取特定人的录音内容,现有的方法用户只能从头到尾听一遍,特定人的录音内容可能较少,且存在用户无法区分哪些是特定人的录音内容的情况;在播放一段音频(包含多人的说话内容)并为之制作字幕时,现有的办法需要人工确定一段语音内容和与之对应的说话者,在不容易确定说话者的情况下,增加了工作难度。因此,如何根据每个人的语音特征对一段语音信息按说话人进行分类成为了亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种语音分类方法,旨在解决如何根据语音特征对一段语音信息进行分类的技术问题。
此外,为实现上述目的,本发明还提供一种语音分类方法,所述语音分类方法包括以下步骤:
当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型;
当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段;
将所述目标语音段输出,得到目标语音。
可选地,所述当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型的步骤之前,包括:
当接收到语音样本时,获取所述语音样本的语音特征;
将所述语音特征输入语音训练模型,得到与所述语音样本对应的语音模型;
基于所述语音模型建立预设语音模型库。
可选地,所述当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段的步骤包括:
当接收到语音信息时,将所述语音信息分解,得到语音段;
将所述语音段输入目标语音模型,得到所述语音段与所述目标语音模型的匹配度;
将匹配度大于预设匹配度的所述语音段作为目标语音段。
可选地,所述当接收到语音信息时,将所述语音信息分解,得到语音段的步骤包括:
当接收到语音信息时,获取所述语音信息中的无声音片段和仅包含噪音的片段;
将所述无声音片段和所述仅包含噪音的片段作为无效语音片段,截除所述无效语音片段,得到语音段。
可选地,所述当接收到语音信息时,将所述语音信息分解,得到语音段的步骤之后,包括:
若所述语音段存在多个,则将所有语音段依次输入目标语音模型,得到每个语音段与所述目标语音模型的匹配度;
若不存在大于预设匹配度的语音段,则输出不存在目标语音的提示信息。
可选地,所述当接收到目标语音分类指令时的步骤之后,包括:
若未获取到预设语音模型库中与所述目标语音分类指令对应的目标语音模型,则当接收到语音信息时,将所述语音信息分解,得到多个语音段;
获取每个语音段对应的语音特征;
根据每个语音段对应的语音特征,对所有语音段进行分类,并获取参考语音,输出各所述参考语音,以供用户在各所述参考语音中确定目标语音。
可选地,所述根据每个语音段对应的语音特征,对所有语音段进行分类的步骤包括:
若每个语音段仅对应一类语音特征,则获取每个语音段对应的语音特征之间的相似程度;
将相似程度大于预设相似度的语音特征对应的语音段划分为一类。
此外,为实现上述目的,本发明还提供一种语音分类装置,所述语音分类装置包括:
接收模块,用于当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型;
获取模块,用于当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段;
输出模块,用于将所述目标语音段输出,得到目标语音。
此外,为实现上述目的,本发明还提供一种语音分类设备,所述语音分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音分类程序,所述语音分类程序被所述处理器执行时实现如上述的语音分类方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音分类程序,所述语音分类程序被处理器执行时实现如上述的语音分类方法的步骤。
本发明实施例提出的一种语音分类方法、装置、设备及计算机可读存储介质。本发明实施例中语音分类程序在接收到目标语音分类指令时,获取预设语音模型库中与目标语音分类指令对应的目标语音模型,其中,预设语音模型库是基于预先训练的语音模型建立的,当接收到待分类的语音信息后,语音分类程序会将语音信息分解成具体数量的语音段,将分解后的语音段与目标语音模型进行匹配,语音分类程序会将匹配成功的语音段作为目标语音段,将目标语音段输出即可得到目标语音。通过筛选与目标语音模型匹配的语音段可实现对语音信息的部分选择,而这种选择实现了对语音信息的分类。
附图说明
图1为本发明实施例提供的语音分类设备一种实施方式的硬件结构示意图;
图2为本发明语音分类方法第一实施例的流程示意图;
图3为本发明语音分类方法第二实施例的流程示意图;
图4为本发明语音分类方法第一实施例与第二实施例的示意图;
图5为本发明语音分类方法第三实施例的流程示意图;
图6为本发明装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例语音分类终端(又叫终端、设备或者终端设备)可以是PC,也可以是智能手机、平板电脑和便携计算机等具有显示功能和音频处理功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语音分类程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音分类程序,所述语音分类程序被处理器执行时实现下述实施例提供的语音分类方法中的操作。
基于上述设备硬件结构,提出了本发明语音分类方法的实施例。
参照图2,在本发明语音分类方法的第一实施例中,所述语音分类方法包括:
步骤S10,当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型。
本实施例中语音分类方法应用于语音分类设备(又叫终端、设备或者终端设备),语音分类设备包括智能手机、个人电脑、电子书和智能音箱等具有获取数据和处理数据能力的设备。
本实施例中目标语音分类指令是指,语音分类设备自动生成或者用户手动操作产生的,用于将语音信息进行分类得出特定类型的语音的操作指令,它实质上是一种计算机语言。预设语音模型库是指,用于存放语音模型的存储空间,本实施例中不对存储空间的具体形式做限制和详述,存放在存储空间内的语音模型是用于对语音信息进行分类的标准,可以理解为,符合同一个标准(语音模型)的语音信息属于同一类,以此实现对语音信息的分类。
本实施例给出一种具体应用场景,用户得到一份录音文件,录音内容为用户参加的一场会议,会议中有多人交替发言,会议召开时间较长,用户在会后想要记录会议中陈某的发言内容,用户操作语音分类设备以提取陈某的语音,语音分类程序接收到目标语音(即,陈某的语音)分类指令后,语音分类程序将从预先设置的语音模型库中获取与陈某对应的语音模型,这里,与陈某对应的语音模型就是目标语音模型。可知地,若预设语音模型库中不存在与陈某对应的语音模型,则语音分类程序还可以输出不存在相关语音模型的提示信息,提示信息的具体形式和内容本实施例不做详述和限制。已知,可通过声纹的特定性区分每个人不同的语音,结合本实施例给出的具体应用场景,本实施例中语音分类方法能够实现,从包含多种语音信息的音频文件中提取出特定语音的功能。
步骤S20,当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段。
本实施例中语音信息是指,待做分类处理的一段语音,它可以以任意格式的文件的形式输入语音分类程序,也可以以即时录音的形式输入。已知,语音信息中肯定包含多种语音(即,多个人的语音内容),因为,如果语音信息中仅包含一种语音的话,语音分类将毫无意义。本实施例中语音分类方法能够实现将多种语音进行分类以选出特定语音,选出的特定语音即是目标语音,而选出的判定标准即是目标语音模型。
本实施例给出一种具体应用场景,有一份语音文件,内容为一段包含多人语音的音频,在进行语音分类之前对原始语音文件进行降噪,去除空白部分(即,不包含有效音频的片段)在现有技术中是很容易实现的,所以本实施例中的语音信息在进行语音分类前默认就已经做过上述基本操作。已知去除语音信息空白部分的操作可得到语音段,得到语音段的具体数量,则由空白部分的判定标准和语音信息的大小(即,时间长短)决定。如图4所示,B部分为空白部分(不包含有效声音),AC两部分为两个语音段,本实施不对空白部分的判定标准和语音信息的大小做详述和限制。得到语音段后,通过将语音段输入目标语音模型的对比计算过程,判断语音段是否为与目标语音模型匹配的目标语音段。
步骤S30,将所述目标语音段输出,得到目标语音。
本实施例给出一种具体应用场景,有一份语音文件,内容为一段包含多人语音的音频,图4为这段包含多人语音的音频中的一小部分,以这一小部分举例说明。已知,去除空白部分B后,这一小部分音频被分成了A和C两个语音段,已知用户想从这份语音文件中分类出张某的语音,语音分类程序在接收到张某语音分类指令后,从预设语音模型库中获取与张某对应的语音模型,获取到张某对应的语音模型后,语音分类程序将判断语音段A和语音段B与张某对应的语音模型是否匹配,判断匹配的方法可以是基于声纹的语音识别方法,本实施例不对判断匹配的方法进行详述和限制性说明。若语音段A与张某对应的语音模型匹配,而B匹配,则语音分类程序将语音段A作为目标语音段输出,可知地图4所示仅为语音文件的一小部分,待语音分类程序将语音文件中的所有语音段都判断完毕后,将所有与张某对应的语音模型匹配的语音段(进行简单的组合后)输出,可得到仅含有张某语音的音频,即,目标语音。
具体地,步骤S10之前的步骤,还包括:
步骤a1,当接收到语音样本时,获取所述语音样本的语音特征。
本实施例中语音样本是指,用于建立特定语音模型的参数,语音样本实质上是一些不含噪音和空白部分的语音片段,且用于建立同一个语音模型的语音样本采集自同一个人。语音特征是指,语音样本信息中关于说话人所发出的声音特点,语音特征包括稳态特征(例如,基音,声门增益和低阶反射系数等)和时变特征(例如,语速,语调,重音和韵律等),可知地,由于语音样本的大小越大,数量越多,建立的相关语音模型更加具有代表性,又由于语音样本越大,数量越多由此造成的计算量也会随之增大。综合考虑,本实施例并不对语音样本的大小(即,语音片段的时间长度)和数量做限制。当语音分类程序接收到语音样本时,将获取语音样本的语音特征。具体地,语音分类程序获取语音特征中的哪些特征,怎么获取这些特征,本实施例不做详述。
步骤a2,将所述语音特征输入语音训练模型,得到与所述语音样本对应的语音模型。
本实施例中语音训练模型可以理解为,用于生成特定语音模型的初始模型,可知地,将获取自语音样本的语音特征输入到语音训练模型后,经过有限次的训练便可得到语音模型。可知地,语音训练模型到语音模型过程中的训练方法,本实施例不做详述。
步骤a3,基于所述语音模型建立预设语音模型库。
将语音特征输入语音训练模型,并经过有限次的训练后,得到语音模型,将得到的语音模型加入到预设语音模型库中,以便于在后续的语音分类中使用语音模型。
在本实施例中语音分类程序在接收到目标语音分类指令时,获取预设语音模型库中与目标语音分类指令对应的目标语音模型,通过获取接收到的语音信息中与目标语音模型匹配的目标语音段,将获取的目标语音段输出,即可得到目标语音。实现了以人的语音对一段语音信息进行分类。
进一步地,参照图3,在本发明上述实施例的基础上,提出了本发明语音分类方法的第二实施例。
本实施例是第一实施例中步骤S20细化的步骤,本实施例与本发明上述实施例的区别在于:
步骤S21,当接收到语音信息时,将所述语音信息分解,得到语音段。
本实施例中对语音信息进行分解得到语音段的目的是,其一,对语音信息的优化处理,分解语音信息的过程伴随着对语音信息中不包含有效语音部分的去除,和基本的降噪处理。其二,将语音信息分解成具体大小(时间长度)的语音段,有利于单独对每个语音段进行模型训练,从而确定该语音段对应匹配的语音模型。如图4所示的一段语音信息,若去除B部分的空白,则可得到A和C两个部分的语音段,因此可知,语音段的长度和数量受空白部分的影响。考虑到本实施例中语音分类方法解决的技术问题,A和C两个语音段为人说话的声音,每个人在说话时都会产生停顿,这也是空白部分存在的原因,如何判定声音停顿的具体时间长短会产生空白部分,本实施例不做限制。
步骤S22,将所述语音段输入目标语音模型,得到所述语音段与所述目标语音模型的匹配度。
本实施例中的匹配度是,用于判定语音段属于哪个人的声音,已知,语音模型是与每个人有关的,即,一个人对应一个语音模型。若一个语音段与目标语音模型匹配,则可证明该语音段为目标人的声音。得到语音段与目标语音模型的匹配度的方法是,首先,获取语音段的语音特征,然后,将获取到的语音特征输入到目标语音模型,得到语音段与目标语音模型的匹配度。
步骤S23,将匹配度大于预设匹配度的所述语音段作为目标语音段。
本实施例中预设匹配度是指,用于判定语音段是否与目标语音模型匹配的一个衡量标准。
语音特征包括稳态特征和时变特征,可知地,存在两种不同的语音,却可能具有同一个特征,例如语速。所以,不同语音的语音段与目标语音模型匹配时都可能得到一定的匹配度,这种情况下,对匹配度做进一步判断就显得尤为重要。已知,包含目标语音的语音段跟目标语音模型匹配时,会得到更高的匹配度,以此来区别其他语音段。当语音段与目标语音模型匹配后得到的匹配度大于预设匹配度时,语音分类程序判定语音段为包含目标语音的目标语音段。
具体地,步骤S21细化的步骤包括:
步骤b1,当接收到语音信息时,获取所述语音信息中的无声音片段和仅包含噪音的片段。
已知,语音信息中可能包含多人的声音片段,也可能仅包含一个人的声音片段。但不论包含多少种声音,语音分类程序在接收到语音信息时,都会首先获取语音信息中的无声音片段(即,空白部分)和仅包含噪音的片段,获取这些片段的目的是,去除这些片段以得到仅包含语音的语音信息。获取仅包含噪音的片段的方法,可以利用噪音相对于语音特有的不规律性的特点。若语音段中掺杂了噪音,则可以使用现有的降噪方法,本实施例中语音分类方法并不是为了得到纯净的语音,所以对除噪过程不再详述。
步骤b2,将所述无声音片段和所述仅包含噪音的片段作为无效语音片段,截除所述无效语音片段,得到语音段。
结合本实施例中语音分类方法所要实现的功能来看,无声音片段和仅包含噪音的片段对于本申请来说均是无用的,语音分类程序在获取到无声音片段和仅包含噪音的片段后,会把这些片段作为无效语音片段,进而将无效语音片段截除,得到语音片段。
具体地,步骤S21之后的步骤,还包括:
步骤c1,若所述语音段存在多个,则将所有语音段依次输入目标语音模型,得到每个语音段与所述目标语音模型的匹配度。
已知,根据语音信息的分解方法,可确定语音段的数量。若分解后的语音段有多个,则语音分类程序会将所有的语音段依次输入目标语音模型,进而得到每个语音段与目标语音模型的匹配度,通过对匹配度进行判断,可知语音段是否与目标语音模型匹配。
步骤c2,若不存在大于预设匹配度的语音段,则输出不存在目标语音的提示信息。
已知,若语音段与目标语音模型的匹配度大于预设匹配度,则可判定语音段与目标语音模型匹配。则如果不存在大于预设匹配度的语音段,可判定所有语音段中并不存在包含目标语音的语音段。这种情况下,语音分类程序将会输出不存在目标语音的提示信息,提示信息的具体形式和内容本实施例不做详述和限制。
在本实施例中通过分解语音信息得到语音段,进而判断语音段是否与目标语音模型匹配,并将匹配的语音段作为目标语音段,实现了通过匹配得到包含目标语音的目标语音段的目的。
参照图5,在本发明上述实施例的基础上,提出了本发明语音分类方法的第三实施例。
本实施例是第一实施例中步骤S10细化的步骤,本实施例与本发明上述实施例的区别在于:
步骤S11,若未获取到预设语音模型库中与所述目标语音分类指令对应的目标语音模型,则当接收到语音信息时,将所述语音信息分解,得到多个语音段。
本实施例中目标语音分类指令是指,语音分类设备自动生成或者用户手动操作产生的,用于将语音信息进行分类得出特定类型的语音的操作指令,它实质上是一种计算机语言。语音信息是指,待做分类处理的一段语音,它可以以任意格式的文件的形式输入语音分类程序,也可以以即时录音的形式输入。语音段是指,对语音信息进行分解后得到的包含人声音的片段。在本实施例中,若语音分类程序在预设语音模型库中未获取到目标语音模型,则在接收到语音信息后,语音分类程序将语音信息分解后,得到多个语音段。
本实施例给出一种具体应用场景,有一份语音文件,内容为一段包含多人语音的音频,但用户不知多人具体是谁。已知,对语音信息进行分解的步骤包括,去除语音信息空白部分和降噪,分解完成后可得到语音段,而得到的语音段的具体数量,则由空白部分的判定标准和语音信息的时间长短决定。
步骤S12,获取每个语音段对应的语音特征。
本实施例中语音特征是指,语音段中关于说话人所发出的声音特点,语音特征包括稳态特征,例如,基音,声门增益和低阶反射系数等,和时变特征例如,语速,语调,重音和韵律等。获取每个语音段对应的语音特征的目的是,通过语音特征之间的差别对语音段进行分类。
步骤S13,根据每个语音段对应的语音特征,对所有语音段进行分类,并获取参考语音,输出各所述参考语音,以供用户在各所述参考语音中确定目标语音。
已知,语音特征包括很多种,也存在,包含不同语音的语音段某种语音特征相同的情况,但却不存在,包含不同语音的语音段所有语音特征都相同的情况。因此,在两个语音段的大部分语音特征都相近时,语音分类程序将会判定两个语音段属于同一类,即,属于同一个人。以此可以将所有的语音段进行分类,对语音段进行分类后,得到参考语音,参考语音实质上是同一类语音段的集合。在不知分类后的语音属于哪个人的情况下,语音分类程序将会把所有的参考语音输出,以供用户自主判断。
具体地,步骤S13细化的步骤包括:
步骤d1,若每个语音段仅对应一类语音特征,则获取每个语音段对应的语音特征之间的相似程度。
已知,本实施例中语音分类方法适用于多人交替说话的声音场景中,对于多人同时说话的声音场景可以使用现有的语音分离方法,对多人同时说话的语音片段进行语音分离操作,得到仅包含一个人语音的语音段后,在采用本实施例中的语音分类方法。本实施例中对语音信息分解后得到的每个语音段都仅对应一类语音特征,语音分类程序获取到每个语音段对应的语音特征后,会将所有的语音特征对应比较,得出语音特征之间的相似程度。相似程度的具体计算方法本实施例不做详述。
步骤d2,将相似程度大于预设相似度的语音特征对应的语音段划分为一类。
本实施例中语音分类程序在获取到两类语音特征相似度之后,会判断相似度是否大于预设相似度,若相似度大于预设相似度,则语音分类程序判定两类语音特征对应的语音段为同一类,以此完成对语音信息的分类。
在本实施例中语音分类程序在接收到语音分类指令和待分类的语音信息时,语音分类程序将语音信息分解后得到语音段,进而语音分类程序获取语音段的语音特征,通过对比每类语音特征之间的相似度,将相似度高于预设相似度的语音特征对应的语音段分成一类,进而完成对语音信息的分类。
可以理解的是,本领域的技术人员可以清楚地了解到上述实施例的方法,并从第二至第三实施例中任意选择一个或多个实施例与第一实施例的技术方案结合。
例如,上述第二实施例可以与第三实施例进行简单的结合,即,当接收到语音分类指令和语音信息时,获取所述语音信息中的无声音片段和仅包含噪音的片段,进而执行将所述无声音片段和所述仅包含噪音的片段作为无效语音片段,截除所述无效语音片段,得到语音段的步骤。
可以理解的是,上述实施例之间的结合仅做举例说明,并不代表所有的可以结合的实施例。
此外,参照图6,本发明实施例还提出一种语音分类装置,所述语音分类装置包括:
接收模块10,用于当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型;
获取模块20,用于当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段;
输出模块30,用于将所述目标语音段输出,得到目标语音。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来,该计算机软件商品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机和平板电脑等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音分类方法,其特征在于,所述语音分类方法包括以下步骤:
当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型;
当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段;
将所述目标语音段输出,得到目标语音。
2.如权利要求1所述的语音分类方法,其特征在于,所述当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型的步骤之前,包括:
当接收到语音样本时,获取所述语音样本的语音特征;
将所述语音特征输入语音训练模型,得到与所述语音样本对应的语音模型;
基于所述语音模型建立预设语音模型库。
3.如权利要求1所述的语音分类方法,其特征在于,所述当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段的步骤包括:
当接收到语音信息时,将所述语音信息分解,得到语音段;
将所述语音段输入目标语音模型,得到所述语音段与所述目标语音模型的匹配度;
将匹配度大于预设匹配度的所述语音段作为目标语音段。
4.如权利要求3所述的语音分类方法,其特征在于,所述当接收到语音信息时,将所述语音信息分解,得到语音段的步骤包括:
当接收到语音信息时,获取所述语音信息中的无声音片段和仅包含噪音的片段;
将所述无声音片段和所述仅包含噪音的片段作为无效语音片段,截除所述无效语音片段,得到语音段。
5.如权利要求3所述的语音分类方法,其特征在于,所述当接收到语音信息时,将所述语音信息分解,得到语音段的步骤之后,包括:
若所述语音段存在多个,则将所有语音段依次输入目标语音模型,得到每个语音段与所述目标语音模型的匹配度;
若不存在大于预设匹配度的语音段,则输出不存在目标语音的提示信息。
6.如权利要求1所述的语音分类方法,其特征在于,所述当接收到目标语音分类指令时的步骤之后,包括:
若未获取到预设语音模型库中与所述目标语音分类指令对应的目标语音模型,则当接收到语音信息时,将所述语音信息分解,得到多个语音段;
获取每个语音段对应的语音特征;
根据每个语音段对应的语音特征,对所有语音段进行分类,并获取参考语音,输出各所述参考语音,以供用户在各所述参考语音中确定目标语音。
7.如权利要求6所述的语音分类方法,其特征在于,所述根据每个语音段对应的语音特征,对所有语音段进行分类的步骤包括:
若每个语音段仅对应一类语音特征,则获取每个语音段对应的语音特征之间的相似程度;
将相似程度大于预设相似度的语音特征对应的语音段划分为一类。
8.一种语音分类装置,其特征在于,所述语音分类装置包括:
接收模块,用于当接收到目标语音分类指令时,获取预设语音模型库中与所述目标语音分类指令对应的目标语音模型;
获取模块,用于当接收到语音信息时,获取所述语音信息中与所述目标语音模型匹配的目标语音段;
输出模块,用于将所述目标语音段输出,得到目标语音。
9.一种语音分类设备,其特征在于,所述语音分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音分类程序,所述语音分类程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音分类程序,所述语音分类程序被处理器执行时实现如权利要求1至7中任一项所述的语音分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103349.7A CN110875036A (zh) | 2019-11-11 | 2019-11-11 | 语音分类方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103349.7A CN110875036A (zh) | 2019-11-11 | 2019-11-11 | 语音分类方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110875036A true CN110875036A (zh) | 2020-03-10 |
Family
ID=69717934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911103349.7A Pending CN110875036A (zh) | 2019-11-11 | 2019-11-11 | 语音分类方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110875036A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640421A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语音对比方法、装置、设备及计算机可读存储介质 |
CN112581959A (zh) * | 2020-12-15 | 2021-03-30 | 四川虹美智能科技有限公司 | 智能设备控制方法、***和语音服务器 |
CN113593578A (zh) * | 2021-09-03 | 2021-11-02 | 北京紫涓科技有限公司 | 一种会议语音数据采集方法及*** |
CN113599823A (zh) * | 2021-07-05 | 2021-11-05 | 三峡大学 | 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102347060A (zh) * | 2010-08-04 | 2012-02-08 | 鸿富锦精密工业(深圳)有限公司 | 电子记录装置及方法 |
CN103165131A (zh) * | 2011-12-17 | 2013-06-19 | 富泰华工业(深圳)有限公司 | 语音处理***及语音处理方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
-
2019
- 2019-11-11 CN CN201911103349.7A patent/CN110875036A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102347060A (zh) * | 2010-08-04 | 2012-02-08 | 鸿富锦精密工业(深圳)有限公司 | 电子记录装置及方法 |
CN103165131A (zh) * | 2011-12-17 | 2013-06-19 | 富泰华工业(深圳)有限公司 | 语音处理***及语音处理方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
申时凯: "《物联网的技术开发与应用研究》", 30 October 2017 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640421A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语音对比方法、装置、设备及计算机可读存储介质 |
CN111640421B (zh) * | 2020-05-13 | 2023-06-16 | 广州国音智能科技有限公司 | 语音对比方法、装置、设备及计算机可读存储介质 |
CN112581959A (zh) * | 2020-12-15 | 2021-03-30 | 四川虹美智能科技有限公司 | 智能设备控制方法、***和语音服务器 |
CN113599823A (zh) * | 2021-07-05 | 2021-11-05 | 三峡大学 | 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法 |
CN113599823B (zh) * | 2021-07-05 | 2023-08-25 | 三峡大学 | 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法 |
CN113593578A (zh) * | 2021-09-03 | 2021-11-02 | 北京紫涓科技有限公司 | 一种会议语音数据采集方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110246512B (zh) | 声音分离方法、装置及计算机可读存储介质 | |
CN110875036A (zh) | 语音分类方法、装置、设备及计算机可读存储介质 | |
CN109254669B (zh) | 一种表情图片输入方法、装置、电子设备及*** | |
KR20180120146A (ko) | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 | |
KR101326651B1 (ko) | 이모티콘을 이용한 화상통화장치 및 방법 | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
CN110992989B (zh) | 语音采集方法、装置及计算机可读存储介质 | |
EP2306450A1 (en) | Voice synthesis model generation device, voice synthesis model generation system, communication terminal device and method for generating voice synthesis model | |
CN110826637A (zh) | 情绪识别方法、***及计算机可读存储介质 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
CN111627457A (zh) | 语音分离方法、***及计算机可读存储介质 | |
KR102312993B1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
CN110908631A (zh) | 情感交互方法、装置、设备及计算机可读存储介质 | |
US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
CN104851423B (zh) | 一种声音信息处理方法及装置 | |
CN107767862B (zh) | 语音数据处理方法、***及存储介质 | |
CN110827849A (zh) | 数据建库的人声分离方法、装置、终端及可读存储介质 | |
CN114038484A (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN110767229B (zh) | 基于声纹的音频输出方法、装置、设备及可读存储介质 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN110992930A (zh) | 声纹特征提取方法、装置、终端及可读存储介质 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
GB2516208B (en) | Noise reduction in voice communications | |
CN112699720B (zh) | 基于人物信息集的监控方法、设备、存储介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200310 |
|
RJ01 | Rejection of invention patent application after publication |