CN112259126A - 一种自闭症语音特征辅助识别机器人及方法 - Google Patents

一种自闭症语音特征辅助识别机器人及方法 Download PDF

Info

Publication number
CN112259126A
CN112259126A CN202011016520.3A CN202011016520A CN112259126A CN 112259126 A CN112259126 A CN 112259126A CN 202011016520 A CN202011016520 A CN 202011016520A CN 112259126 A CN112259126 A CN 112259126A
Authority
CN
China
Prior art keywords
voice
autism
layer
voice feature
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011016520.3A
Other languages
English (en)
Other versions
CN112259126B (zh
Inventor
陈首彦
张铭焰
杨晓芬
赵志甲
朱大昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202011016520.3A priority Critical patent/CN112259126B/zh
Publication of CN112259126A publication Critical patent/CN112259126A/zh
Application granted granted Critical
Publication of CN112259126B publication Critical patent/CN112259126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Hospice & Palliative Care (AREA)
  • Epidemiology (AREA)
  • Psychiatry (AREA)
  • Pathology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种自闭症语音特征辅助识别机器人及方法,所述机器人包括:自闭症语音特征识别模型构建及训练单元,利用长短记忆神经网络和卷积神经网络构建自闭症语音特征识别模型,以量化的语音特征作为传感信号输入模型,对语音特征在传感信号的表现特征进行学习,并利用反向传播法对所述模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型;语音采集单元,采集机器人与被测者互动过程中被测者的语音信息;语音信息预处理单元,用于将采集的语音信息进行预处理,将语音特征量化为M维的语音特征向量;语音特征识别单元,利用训练好的模型,对经预处理后的语音信号进行语音特征识别。

Description

一种自闭症语音特征辅助识别机器人及方法
技术领域
本发明涉及语音情感识别技术领域,特别是涉及一种基于LSTM(Long Short-TermMemory,长短期记忆网络)与CNN(Convolutional Neural Networks,卷积神经网络)的自闭症语音特征辅助识别机器人及方法。
背景技术
孤独症谱系障碍(autism spectrum disorder,ASD)又称自闭症,已经越来越被社会所关注。在中国,0至14岁的自闭症儿童患者数量在300万至500万之间。目前对孤独症的评估方法,主要集中在语言交流障碍、社会交往障碍、重复刻板行为三方面。对ASD进行有效的、准确的评估需要临床经验丰富的专业医疗人员对儿童进行观察,并一同进行试验。这样的方法需要大量的人力对数据进行整理,效率低下并存在一定的人为主观性,评估结果的误差会比较大。
另一方面,现有的语音情感识别方法中,主要有基于深度信念网络的语音情感识别方法、基于长短期记忆网络(LSTM)的语音情感识别方法和基于卷积神经网络(CNN)的语音情感识别方法。上述三种方法中,存在的主要缺点是无法兼顾各个网络模型的优点。比如,深度信念网络可以将一维序列用作输入,但是无法利用序列前后间的相关性;长短期记忆网络虽然能够利用序列前后间的相关性,但是提取的特征维数较高;卷积神经网络无法直接对语音序列进行处理,需先对语音信号进行傅里叶变换,将其转换为频谱后作为输入。传统的语音情感识别方法在特征提取和分类发展前景小,以及现有的基于深度学习的语音情感方法网络结构比较单一。
综上所述,现有自闭症筛查技术中,人工筛查依然是主导,但人工筛查需要花费大量的人力整理数据,并且人工筛查存在一定的主观性,因此筛查结果有一定的误差,而现有自闭症语音特征识别技术中,只是单纯将语音里的内容转换成文字内容,这种方法只适合低功能自闭症对象,并不适合高功能自闭症对象;另一方面,现有语音情感识别技术中,大部分人使用支持向量机(SVM)、隐马尔可夫模型(HMM)进行语音识别,但是模型精度不高,容易受噪声的影响。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种自闭症语音特征辅助识别机器人及方法,以辅助解决现有自闭症筛查中存在的人工筛选误差大、效率低的问题,并提高了语音特征识别的鲁棒性和准确性。
为达上述及其它目的,本发明提出一种自闭症语音特征辅助识别机器人,包括:
自闭症语音特征识别模型构建及训练单元,利用长短记忆神经网络和卷积神经网络构建自闭症语音特征识别模型,以量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征进行学习,并利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型;
语音采集单元,用于采集机器人与被测者互动过程中被测者的语音信息;
语音信息预处理单元,用于将采集的语音信息进行预处理,将语音特征量化为M维的语音特征向量;
语音特征识别单元,用于利用训练好的自闭症语音特征识别模型,对经所述语音采集单元采集、所述语音信息预处理单元处理后的语音信号进行语音特征识别。
优选地,所述所述自闭症语音特征识别模型由输入层、LSTM网络层、BN1层、CNN网络层、池化层、BN2层、Flatten层、dropout层、全连接层、输出层依次连接。
优选地,所述LSTM网络用于对长序列语音进行处理,其由LSTM1层、LSTM2层依次连接,所述LSTM1层与所述LSTM2层激活函数均为Tanh,所述LSTM网络输出为语音特征序列。
优选地,所述LSTM网络的LSTM1层和LSTM2层分别包括输出门、输入门、遗忘门,通过各个门的参数来控制输出信息
Figure BDA0002699252490000031
输入门it由当前输入数据xt和前一时刻单元输出ht-1决定,遗忘门ft控制历史信息的传递,输出门Ot计算LSTM网络的输出值ht
优选地,所述CNN网络为卷积层,将经过上层处理的特征向量和当前层的卷积核执行卷积运算,增强原始信号的特征并减少噪声,最后由激活函数给出卷积计算结果。
优选地,所述CNN网络由conv1D1层、池化层、conv1D2层依次连接。
优选地,所述语音信息预处理单元进一步包括:
预加重处理模块,用于对输入的语音信号进行预加重;
分帧加窗模块,用于将语音信号分段来分析其特征参数,分析出由每一帧特征参数组成的特征参数时间序列;
快速傅立叶变换模块,用于对每一帧信号,通过快速傅立叶变换得到对应的频谱;
三角带通滤波模块,用于将经过快速傅里叶得到的频谱通过一组Mel尺度的三角形滤波器组,得到Mel频谱;
计算对数能量模块,用于计算每一帧信号的对数能量,以区分清音和浊音、判断每一帧中的无声段和有声段;
离散余弦变换模块,用于将计算出的对数能量代入离散余弦变换公式,计算出L阶的MEL倒普参数C(n)。
优选地,所述预加重中语音通过的数字滤波器为:
H(z)=1-μz-1
其中μ为预加重系数,z为一个复数,指的是语音信号的频率;
预加重网络的输出和输入的语音信号S(n)的关系为:
Figure BDA0002699252490000041
其中a也为预加重系数。
优选地,所述分帧加窗模块用可移动的有限长度窗口进行加权的方式来实现的,加窗信号为:
S_W(n)=S(n)*w(n)
窗函数为:
Figure BDA0002699252490000042
为达到上述目的,本发明还提供一种自闭症语音特征辅助识别方法,包括如下步骤:
步骤S1,基于长短记忆神经网络和卷积神经网络构建自闭症语音特征识别模型,以量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征进行学习,并利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型;
步骤S2,采集机器人与被测者互动过程中被测者的语音信息;
步骤S3,将采集的语音信息进行预处理,将语音特征量化为M维的语音特征向量;
步骤S4,对经步骤S2采集、步骤S3处理后的语音信号利用训练好的自闭症语音特征识别模型进行语音特征识别。
与现有技术相比,本发明提供一种自闭症语音特征辅助识别机器人及方法,通过利用长短期记忆神经网络(LSTM)和卷积神经网络(CNN)设计自闭症语音特征识别模型。采集自闭症语音特征,以语音传感信号作为传感信号输入,利用上述自闭症识别模型对自闭症语音特征在传感信号的表现特征进行学习,利用反向传播法对所述的自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得自闭症语音特征识别模型,然后利用所获取的自闭症语音特征识别模型,对自闭症患者的语音信号进行识别,可辅助解决目前自闭症筛查技术中人工筛选误差大、效率低的问题,同时本发明通过将长短期记忆神经网络(LSTM)和卷积神经网络(CNN)结合,对语音序列进行处理,提高了语音特征识别的鲁棒性和准确性。
附图说明
图1为本发明一种自闭症语音特征辅助识别机器人的***架构图;
图2为本发明具体实施例中所构建的自闭症语音特征识别模型的结构示意图;
图3为本发明一种自闭症语音特征辅助识别方法的步骤流程图;
图4为本发明实施例中实验场地的布局示意图;
图5为本发明实施例的流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种自闭症语音特征辅助识别机器人的***架构图。如图1所示,本发明一种自闭症语音特征辅助识别机器人,包括:
自闭症语音特征识别模型构建及训练单元101,利用长短记忆神经网络(LSTM)和卷积神经网络(CNN)构建自闭症语音特征识别模型,以量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征(例如描述语音特征的量有音量、音调、期间语音的停顿时长等等,在传感信号中可以表现为达到某一个值或者是某一类特定的序列矩阵)进行学习,并利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型。
在本发明中,所述自闭症语音特征识别模型由输入层、LSTM网络层、BN1层、CNN网络层、池化层、BN2层、Flatten层、dropout层、全连接层、输出层依次连接,如图2所示。
其中,所述输入层用于获取量化的M维语音特征向量,在本发明中,所述输入层为NxN的特征矩阵,即获取语音信息预处理单元103量化处理后转换为N×N的特征矩阵的M维特征向量。
LSTM网络作为传统递归神经网路的一种改进网络,对语音信息进行长时存储,是一种具有记忆功能的神经网络,能对时间序列数据建模。在本发明中,所述LSTM网络,由LSTM1层、LSTM2层依次连接,所述LSTM1层,输出维度50,所述LSTM2层输出维度为30,激活函数均为Tanh;所述LSTM网络的作用为对长序列语音进行处理,所述LSTM网络模型输出的是一个维度为30的语音特征序列。
具体地,所述LSTM网络的LSTM1层和LSTM2层分别包括:输出门,输入门,遗忘门,通过各个门的参数来控制输出信息
Figure BDA0002699252490000061
用xt和ht分别表示LSTM网络的输入值与输出值,t时刻候选记忆单元信息
Figure BDA0002699252490000062
计算如下:
Figure BDA0002699252490000063
输入门it由当前输入数据xt和前一时刻单元输出ht-1决定,计算公式为:
Figure BDA0002699252490000066
遗忘门ft控制历史信息的传递,计算公式为:
Figure BDA0002699252490000065
输出门Ot计算LSTM单元的输出值ht,计算公式为:
Figure BDA0002699252490000064
所述CNN网络,即卷积层可视为模糊滤波器,它将经过上层处理的特征向量和当前层的卷积核执行卷积运算,增强原始信号的特征并减少噪声。最后由激活函数给出卷积计算结果。所述卷积层可描述为:
Figure BDA0002699252490000071
其中信号x(n)为语音信号经过两层LSTM层和一层BN层后输出的维度为30的语音特征序列,w(n)为卷积核,通过将信号x(n)与大小为L的卷积核w(n)进行卷积来获得该卷积层的输出结果z(n)。
在本发明具体实施例中,所述CNN网络由conv1D1层、池化层、conv1D2层依次连接,所述conv1D1层滤波器个数为512,卷积核大小为3,所述conv1D2层滤波器个数为256,卷积核大小为3,激活函数均为Relu;所述最大池化层的池大小为2;CNN网络输出层则是经过滤波以后的语音特征序列。
当然,所述自闭症语音特征识别模型还包括池化层、BN2层、Flatten层、dropout层、全连接层、输出层,其中池化层主要是用于去除冗杂信息、对特征进行压缩并简化神经网络的复杂程度,BN2层,主要是用于加快网络的训练和收敛速度并防止过拟合,Flatten层,主要是将多维的输入一维化,全连接层,主要用于对信息进行分类,输出层,主要是指从全连接层输出序列,由于池化层、BN2层、Flatten层、dropout层、全连接层、输出层等不是本发明的重点,其实现与现有技术相同,因此在此不予追述,本发明关键在于LSTM层和CNN层的结合。
当建立好上述自闭症语音特征识别模型后,则以语音采集单元102、语音信息预处理单元103获得的量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征进行学习,利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型。
语音采集单元102,用于采集机器人与被测者互动过程中被测者的语音信息。
在本发明具体实施例中,语音采集单元102可通过机器人内置的麦克风或评估者、被试者身上的可穿戴麦克风采集机器人与被测者互动筛查过程中的语音信息。本发明中,机器人作为筛查过程中的主体,具有类人的特点,通过向被试者展示歌曲和舞蹈吸引被试者的兴趣,并引导被试者尽可能地发出更多语音信息。
语音信息预处理单元103,用于将采集的语音信息进行预处理,将语音特征量化为M维的语音特征向量。
具体地,语音信息预处理单元103进一步包括:
预加重处理模块,用于对输入的语音信号进行预加重。
在本发明具体实施例中,采用数字滤波器实现预加重,预加重中语音通过的数字滤波器为:
H(z)=1-μz-1
其中μ为预加重系数,z为一个复数,指的是语音信号的频率。
预加重网络的输出和输入的语音信号S(n)的关系为:
Figure BDA0002699252490000081
其中a也为预加重系数。
分帧加窗模块,用于将语音信号分段来分析其特征参数,分析出由每一帧特征参数组成的特征参数时间序列。
在本发明具体实施例中,分帧加窗是用可移动的有限长度窗口进行加权的方式来实现的,也就是用一定的窗函数w(n)来乘s(n),加窗信号为:
S_W(n)=S(n)*w(n)
本发明所用的是汉明窗,窗函数为:
Figure BDA0002699252490000082
快速傅立叶变换模块,用于对每一帧信号,通过快速傅立叶变换(FFT)得到对应的频谱。具体地说,在分帧加窗模块中语音信号s(n)乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布,也就是得到对应的频谱。
三角带通滤波模块,用于将经过快速傅里叶得到的频谱通过一组Mel尺度的三角形滤波器组,得到Mel频谱,本发明中定义一共有M个滤波器的滤波器组,采用的滤波器为三角滤波器,M通常取22-26。三角带通滤波模块目的是对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。
计算对数能量模块,用于计算每一帧信号的对数能量,以区分清音和浊音、判断每一帧中的无声段和有声段,所述对数能量指的是音量,计算方法是一帧内信号的平方和,再取以10为底的对数值,再乘以10,使得每一帧基本的语音特征多一维。
能量对数S(m)
Figure BDA0002699252490000091
离散余弦变换(DCT)模块,用于将上述的对数能量代入离散余弦变换公式,求出L阶的MEL倒普参数C(n)。L是语音特征阶数,通常取12-16,M是三角滤波器个数。下面是离散余弦变换的公式:
Figure BDA0002699252490000092
其中,C(n)则为最终所需要的语音特征,即M维特征向量转换成的NxN的特征矩阵。
语音特征识别单元103,用于利用训练好的自闭症语音特征识别模型,对经语音采集单元102采集、语音信息预处理单元103处理后的语音信号进行语音特征识别。在本发明具体实施例中,所述自闭症语音特征识别模型输出的情感分类结果包括但不限制于:高兴、生气、害怕、悲伤、惊讶、中性。
图3为本发明一种自闭症语音特征辅助识别方法的步骤流程图。如图3所示,本发明一种自闭症语音特征辅助识别方法,包括如下步骤:
步骤S1,基于长短记忆神经网络(LSTM)和卷积神经网络(CNN)构建自闭症语音特征识别模型,以量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征进行学习(例如描述语音特征的量有音量、音调、期间语音的停顿时长等等,在传感信号中可以表现为达到某一个值或者是某一类特定的序列矩阵),并利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型。
在本发明中,所述自闭症语音特征识别模型由输入层、LSTM网络层、BN1层、CNN网络层、池化层、BN2层、Flatten层、dropout层、全连接层、输出层依次连接。
其中,所述输入层用于获取量化的M维语音特征向量,在本发明中,所述输入层为NxN的特征矩阵,即获取语音信息预处理单元103量化处理后转换为N×N的特征矩阵的M维特征向量。
LSTM网络作为传统递归神经网路的一种改进网络,对语音信息进行长时存储,是一种具有记忆功能的神经网络,能对时间序列数据建模。在本发明中,所述LSTM网络,由LSTM1层、LSTM2层依次连接,所述LSTM1层,输出维度50,所述LSTM2层输出维度为30,激活函数均为Tanh;所述LSTM网络的作用为对长序列语音进行处理,所述LSTM网络模型输出的是一个维度为30的语音特征序列。
具体地,所述LSTM网络的LSTM1层和LSTM2层分别主要包括:输出门,输入门,遗忘门,通过各个门的参数来控制输出信息
Figure BDA0002699252490000101
用xt和ht分别表示LSTM网络的输入值与输出值,t时刻候选记忆单元信息
Figure BDA0002699252490000102
计算如下:
Figure BDA0002699252490000103
输入门it由当前输入数据xt和前一时刻单元输出ht-1决定,计算公式为:
Figure BDA0002699252490000104
遗忘门ft控制历史信息的传递,计算公式为:
Figure BDA0002699252490000105
输出门Ot计算LSTM单元的输出值ht,计算公式为:
Figure BDA0002699252490000106
所述CNN网络,即卷积层可视为模糊滤波器,它将经过上层处理的特征向量和当前层的卷积核执行卷积运算,增强原始信号的特征并减少噪声。最后由激活函数给出卷积计算结果。所述卷积层可描述为:
Figure BDA0002699252490000111
其中信号x(n)为语音信号经过两层LSTM层和一层BN层后输出的维度为30的语音特征序列,w(n)为卷积核,通过将信号x(n)与大小为L的卷积核w(n)进行卷积来获得该卷积层的输出结果z(n)。
在本发明具体实施例中,所述CNN网络由conv1D1层、池化层、conv1D2层依次连接,所述conv1D1层滤波器个数为512,卷积核大小为3,所述conv1D2层滤波器个数为256,卷积核大小为3,激活函数均为Relu;所述最大池化层的池大小为2;CNN网络输出层则是经过滤波以后的语音特征序列。
当然,所述自闭症语音特征识别模型还包括池化层、BN2层、Flatten层、dropout层、全连接层、输出层,其中池化层主要是用于去除冗杂信息、对特征进行压缩并简化神经网络的复杂程度,BN2层,主要是用于加快网络的训练和收敛速度并防止过拟合,Flatten层,主要是将多维的输入一维化,全连接层,主要用于对信息进行分类,输出层,主要是指从全连接层输出序列,由于池化层、BN2层、Flatten层、dropout层、全连接层、输出层等不是本发明的重点,其实现与现有技术相同,因此在此不予追述,本发明关键在于LSTM层和CNN层的结合。
当建立好自闭症语音特征识别模型后,则以语音采集单元102、语音信息预处理单元103获得的量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征进行学习,利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型。
步骤S2,采集机器人与被测者互动过程中被测者的语音信息。
在本发明具体实施例中,可通过机器人内置的麦克风或评估者、被试者身上的可穿戴麦克风采集机器人与被测者互动筛查过程中的语音信息。本发明中,机器人作为筛查过程中的主体,具有类人的特点,通过向被试者展示歌曲和舞蹈吸引被试者的兴趣,并引导被试者尽可能地发出更多语音信息。
步骤S3,用于将采集的语音信息进行预处理,将语音特征量化为M维的语音特征向量。
具体地,步骤S3进一步包括:
步骤S300,对输入的语音信号进行预加重。
在本发明具体实施例中,采用数字滤波器实现预加重,预加重中语音通过的数字滤波器为:
H(z)=1-μz-1
其中μ为预加重系数,z为一个复数,指的是语音信号的频率。
预加重网络的输出和输入的语音信号S(n)的关系为:
Figure BDA0002699252490000121
其中a也为预加重系数。
步骤S301,将语音信号分段来分析其特征参数,分析出由每一帧特征参数组成的特征参数时间序列。
在本发明具体实施例中,分帧加窗是用可移动的有限长度窗口进行加权的方式来实现的,也就是用一定的窗函数w(n)来乘s(n),加窗信号为:
S_W(n)=S(n)*w(n)
本发明所用的是汉明窗,窗函数为:
Figure BDA0002699252490000122
步骤S302,对每一帧信号,通过快速傅立叶变换(FFT)得到对应的频谱。具体地说,在步骤S301的分帧加窗中语音信号s(n)乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布,也就是得到对应的频谱。
步骤S303,将经过快速傅里叶得到的频谱通过一组Mel尺度的三角形滤波器组,得到Mel频谱,本发明中定义一共有M个滤波器的滤波器组,采用的滤波器为三角滤波器,M通常取22-26。三角带通滤波模块目的是对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。
步骤S304,计算每一帧信号的对数能量,以区分清音和浊音、判断每一帧中的无声段和有声段,所述对数能量指的是音量,计算方法是一帧内信号的平方和,再取以10为底的对数值,再乘以10,使得每一帧基本的语音特征多一维。
能量对数S(m)
Figure BDA0002699252490000131
步骤S305,将上述的对数能量代入离散余弦变换公式,求出L阶的MEL倒普参数C(n)。L是语音特征阶数,通常取12-16,M是三角滤波器个数。下面是离散余弦变换的公式:
Figure BDA0002699252490000132
其中,C(n)则为最终所需要的语音特征,即M维特征向量转换成的NxN的特征矩阵。
步骤S4,对经步骤S2采集、步骤S3量化处理后的语音信号利用训练好的自闭症语音特征识别模型,进行语音特征识别。在本发明具体实施例中,所述自闭症语音特征识别模型输出的情感分类结果包括但不限制于:高兴、生气、害怕、悲伤、惊讶、中性。
实施例
图4为本发明实施例中实验场地的布局示意图。如图1场景中,本发明之机器人设计为人形机器人,实验场景中有被试者一名、评估者一名、人形机器人一台,本发明之人形机器人置于试验场地的桌面,正面正对被试者,背对评估者,人形机器人与被试者面对面相隔0.7-1米距离。
如图5所示,本实施例的处理流程如下:
步骤S1,人机互动,全程主要由人形机器人参与。
步骤S1.1,人形机器人向被试进行简单的自我介绍,同时测试相关设备的运行情况。
步骤S1.2,人形机器人向被试进行简单的提问,如“你好,我是XXX机器人,请问你叫什么名字?”等等。
步骤S1.3,人形机器人向被试展示歌曲,对于疑似低功能自闭症对象,可由评估者向机器人发出相应的语音指令进行触发,若对于疑似高功能自闭症对象,评估者可以对被试作一定的引导,通过被试的语音信息来触发指令。评估者可以通过现场观察被试的的反应,做相关记录。
步骤S1.4,人形机器人向被试展示舞蹈,对于疑似低功能自闭症对象,可由评估者向人形机器人发出相应的语音指令进行触发,若对于疑似高功能自闭症对象,评估者可以对被试作一定的引导,通过被试的语音信息来触发指令。评估者可以通过现场观察被试的的反应,做相关记录。
步骤S2,数据采集,在互动的过程中,人形机器人内置的麦克风、被试者和评估者身上的可穿戴麦克风会全程录音。通过软件wincsp,从PC端获取人形机器人***里保存到的录音文件。
步骤S3,预处理,在PC端上对语音进行相关处理。
步骤S3.1,采用数字滤波器实现预加重,预加重网络的输出和输入的语音信号S(n)的关系为:
Figure BDA0002699252490000141
步骤S3.2,分帧,将语音信号分段来分析其特征参数,分析出由每一帧特征参数组成的特征参数时间序列。
步骤S3.3,加窗,对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。
步骤S3.4,快速傅立叶变换,当分帧加窗中语音信号s(n)乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布,也就是得到对应的频谱。
步骤S5,特征量化,包括三角带通滤波、计算对数能量以及离散余弦变换,具体步骤已在说明书中说明,本部分不再赘述。
步骤S6,识别分析,运用自闭症语音特征识别模型对被试者的语音特征进行识别。
步骤S7,将所有实验过程中的语音文件进行预处理后存入数据集文件夹。
步骤S7.1,再次提取更新后的数据集中的语音特征。
步骤S7.2,再次训练语音特征识别模型,根据训练结果不断调整模型结构。
综上所述,本发明提供一种自闭症语音特征辅助识别机器人及方法,通过利用长短期记忆神经网络(LSTM)和卷积神经网络(CNN)设计自闭症语音特征识别模型。采集自闭症语音特征,以语音传感信号作为传感信号输入,利用上述自闭症识别模型对自闭症语音特征在传感信号的表现特征进行学习,利用反向传播法对所述的自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得自闭症语音特征识别模型,然后利用所获取的自闭症语音特征识别模型,对自闭症患者的语音信号进行识别,可辅助解决目前自闭症筛查技术中人工筛选误差大、效率低的问题,同时本发明通过将长短期记忆神经网络(LSTM)和卷积神经网络(CNN)结合,对语音序列进行处理,提高了语音特征识别的鲁棒性和准确性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种自闭症语音特征辅助识别机器人,包括:
自闭症语音特征识别模型构建及训练单元,利用长短记忆神经网络和卷积神经网络构建自闭症语音特征识别模型,以量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征进行学习,并利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型;
语音采集单元,用于采集机器人与被测者互动过程中被测者的语音信息;
语音信息预处理单元,用于将采集的语音信息进行预处理,将语音特征量化为M维的语音特征向量;
语音特征识别单元,用于利用训练好的自闭症语音特征识别模型,对经所述语音采集单元采集、所述语音信息预处理单元处理后的语音信号进行语音特征识别。
2.如权利要求1所述的一种自闭症语音特征辅助识别机器人,其特征在于:所述所述自闭症语音特征识别模型由输入层、LSTM网络层、BN1层、CNN网络层、池化层、BN2层、Flatten层、dropout层、全连接层、输出层依次连接。
3.如权利要求2所述的一种自闭症语音特征辅助识别机器人,其特征在于:所述LSTM网络用于对长序列语音进行处理,其由LSTM1层、LSTM2层依次连接,所述LSTM1层与所述LSTM2层激活函数均为Tanh,所述LSTM网络输出为语音特征序列。
4.如权利要求3所述的一种自闭症语音特征辅助识别机器人,其特征在于:所述LSTM网络的LSTM1层和LSTM2层分别包括输出门、输入门、遗忘门,通过各个门的参数来控制输出信息
Figure FDA0002699252480000011
输入门it由当前输入数据xt和前一时刻单元输出ht-1决定,遗忘门ft控制历史信息的传递,输出门Ot计算LSTM网络的输出值ht
5.如权利要求4所述的一种自闭症语音特征辅助识别机器人,其特征在于:所述CNN网络为卷积层,将经过上层处理的特征向量和当前层的卷积核执行卷积运算,增强原始信号的特征并减少噪声,最后由激活函数给出卷积计算结果。
6.如权利要求5所述的一种自闭症语音特征辅助识别机器人,其特征在于:所述CNN网络由conv1D1层、池化层、conv1D2层依次连接。
7.如权利要求6所述的一种自闭症语音特征辅助识别机器人,其特征在于,所述语音信息预处理单元进一步包括:
预加重处理模块,用于对输入的语音信号进行预加重;
分帧加窗模块,用于将语音信号分段来分析其特征参数,分析出由每一帧特征参数组成的特征参数时间序列;
快速傅立叶变换模块,用于对每一帧信号,通过快速傅立叶变换得到对应的频谱;
三角带通滤波模块,用于将经过快速傅里叶得到的频谱通过一组Mel尺度的三角形滤波器组,得到Mel频谱;
计算对数能量模块,用于计算每一帧信号的对数能量,以区分清音和浊音、判断每一帧中的无声段和有声段;
离散余弦变换模块,用于将计算出的对数能量代入离散余弦变换公式,计算出L阶的MEL倒普参数C(n)。
8.如权利要求7所述的一种自闭症语音特征辅助识别机器人,其特征在于,所述预加重中语音通过的数字滤波器为:
H(z)=1-μz-1
其中μ为预加重系数,z为一个复数,指的是语音信号的频率;
预加重网络的输出和输入的语音信号S(n)的关系为:
Figure FDA0002699252480000021
其中a也为预加重系数。
9.如权利要求8所述的一种自闭症语音特征辅助识别机器人,其特征在于,所述分帧加窗模块用可移动的有限长度窗口进行加权的方式来实现的,加窗信号为:
S_W(n)=S(n)*w(n)
窗函数为:
Figure FDA0002699252480000031
10.一种自闭症语音特征辅助识别方法,包括如下步骤:
步骤S1,基于长短记忆神经网络和卷积神经网络构建自闭症语音特征识别模型,以量化的语音特征作为传感信号输入所述自闭症语音特征识别模型,对语音特征在传感信号的表现特征进行学习,并利用反向传播法对所述自闭症语音特征识别模型进行训练,实现分类器在网络权重的优化,最终获得可用于语音信号识别的自闭症语音特征识别模型;
步骤S2,采集机器人与被测者互动过程中被测者的语音信息;
步骤S3,将采集的语音信息进行预处理,将语音特征量化为M维的语音特征向量;
步骤S4,对经步骤S2采集、步骤S3处理后的语音信号利用训练好的自闭症语音特征识别模型进行语音特征识别。
CN202011016520.3A 2020-09-24 2020-09-24 一种自闭症语音特征辅助识别机器人及方法 Active CN112259126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011016520.3A CN112259126B (zh) 2020-09-24 2020-09-24 一种自闭症语音特征辅助识别机器人及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011016520.3A CN112259126B (zh) 2020-09-24 2020-09-24 一种自闭症语音特征辅助识别机器人及方法

Publications (2)

Publication Number Publication Date
CN112259126A true CN112259126A (zh) 2021-01-22
CN112259126B CN112259126B (zh) 2023-06-20

Family

ID=74231240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011016520.3A Active CN112259126B (zh) 2020-09-24 2020-09-24 一种自闭症语音特征辅助识别机器人及方法

Country Status (1)

Country Link
CN (1) CN112259126B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108053841A (zh) * 2017-10-23 2018-05-18 平安科技(深圳)有限公司 利用语音进行疾病预测的方法及应用服务器
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN109192221A (zh) * 2018-03-30 2019-01-11 大连理工大学 一种基于聚类的使用语音判断帕金森严重程度检测方法
US20200075040A1 (en) * 2018-08-31 2020-03-05 The Regents Of The University Of Michigan Automatic speech-based longitudinal emotion and mood recognition for mental health treatment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108053841A (zh) * 2017-10-23 2018-05-18 平安科技(深圳)有限公司 利用语音进行疾病预测的方法及应用服务器
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN109192221A (zh) * 2018-03-30 2019-01-11 大连理工大学 一种基于聚类的使用语音判断帕金森严重程度检测方法
US20200075040A1 (en) * 2018-08-31 2020-03-05 The Regents Of The University Of Michigan Automatic speech-based longitudinal emotion and mood recognition for mental health treatment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴坤: "《面向自闭症儿童早期筛查的声学特征提取与分类模型研究》", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Also Published As

Publication number Publication date
CN112259126B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN109044396B (zh) 一种基于双向长短时记忆神经网络的智能心音识别方法
CN103065629A (zh) 一种仿人机器人的语音识别***
CN113707176A (zh) 一种基于声信号及深度学习技术的变压器故障检测方法
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN108520753A (zh) 基于卷积双向长短时记忆网络的语音测谎方法
CN113539294A (zh) 一种生猪异常状态声音采集及识别方法
CN113807249A (zh) 基于多模态特征融合的情感识别方法、***、装置及介质
CN115346561B (zh) 基于语音特征的抑郁情绪评估预测方法及***
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
CN116741148A (zh) 一种基于数字孪生的语音识别***
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和***
CN115457980A (zh) 一种无参考语音的自动化语音质量评估方法及***
CN114299995A (zh) 一种用于情绪评估的语言情感识别方法
Kharamat et al. Durian ripeness classification from the knocking sounds using convolutional neural network
CN113380418A (zh) 一种通过对话文本分析识别抑郁症的***
CN116965819A (zh) 基于语音表征的抑郁症识别方法和***
CN112329819A (zh) 基于多网络融合的水下目标识别方法
Chinmayi et al. Emotion Classification Using Deep Learning
Zhang et al. A novel insect sound recognition algorithm based on MFCC and CNN
CN111862991A (zh) 一种婴儿哭声的识别方法及***
CN112259126B (zh) 一种自闭症语音特征辅助识别机器人及方法
CN115171878A (zh) 基于BiGRU和BiLSTM的抑郁症检测方法
CN113571050A (zh) 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant