CN117219127A - 认知状态识别方法以及相关设备 - Google Patents
认知状态识别方法以及相关设备 Download PDFInfo
- Publication number
- CN117219127A CN117219127A CN202311128687.2A CN202311128687A CN117219127A CN 117219127 A CN117219127 A CN 117219127A CN 202311128687 A CN202311128687 A CN 202311128687A CN 117219127 A CN117219127 A CN 117219127A
- Authority
- CN
- China
- Prior art keywords
- sample
- voice
- cognitive state
- recognition
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006998 cognitive state Effects 0.000 title claims abstract description 401
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims description 206
- 238000012795 verification Methods 0.000 claims description 91
- 238000012549 training Methods 0.000 claims description 80
- 230000008449 language Effects 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 25
- 238000003745 diagnosis Methods 0.000 claims description 21
- 230000001149 cognitive effect Effects 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 26
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000012706 support-vector machine Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 26
- 208000010877 cognitive disease Diseases 0.000 description 23
- 230000006870 function Effects 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 12
- 208000027061 mild cognitive impairment Diseases 0.000 description 12
- 206010012289 Dementia Diseases 0.000 description 10
- 238000013145 classification model Methods 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 208000028698 Cognitive impairment Diseases 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003930 cognitive ability Effects 0.000 description 2
- 230000003920 cognitive function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003557 neuropsychological effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 208000027534 Emotional disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241001112258 Moca Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000007425 progressive decline Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种认知状态识别方法以及相关设备,该相关设备可以包括认知状态识别装置、电子设备、计算机程序产品和计算机可读存储介质;本发明实施例在获取语音样本集,并在语音样本集中采样出多个语音样本子集后,对语音样本子集进行多维特征提取,基于提取出的多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型的识别性能,基于评估的识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出认知状态;该方案可以提升认知状态识别的准确性。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
Description
技术领域
本发明涉及认知状态识别领域,具体涉及一种认知状态识别方法以及相关设备,该相关设备可以包括认知状态识别装置、电子设备、计算机程序产品和计算机可读存储介质。
背景技术
近年来,随着我国老龄化程度日渐加深,痴呆防治成为国民健康老龄化的重要工作。在痴呆防治过程中,最重要的就是要识别出老年人的认知状态,认知状态通常可以包括正常、轻度认知障碍(Mild Cognitive Impairment,MCI)和认知障碍。所谓轻度认知障碍是指记忆力或其他认知功能进行性减退,但不影响日常生活能力,是介于正常和痴呆之间的过渡状态。轻度认知障碍老年人向痴呆进展远高于正常老年人,常常也伴有复杂的情绪问题,会使得照顾者负担变重,因此,需要识别出对象(老年人)的认知状态。当前的认知状态识别方法往往通过人机交互对的方式采用认知障碍分类模型对待识别对象进行认知状态的分类。
在对当前技术的研究和实践过程中,本申请的发明人发现当前的认知障碍分类模型在训练过程中,通常直接通过语音特征训练得到,而采用这种训练方式得到训练后的认知障碍分类模型并不能达到最佳的模型效果,而且,在训练过程中,还存在过拟合的风险,从而影响了认知障碍分类模型的分类精度和性能,因此,导致认知状态识别的准确率较低。
发明内容
本发明实施例提供一种认知状态识别方法以及相关设备,该相关设备可以包括认知状态识别装置、电子设备、计算机程序产品和计算机可读存储介质,可以提高认知状态识别的准确性。
一种认知状态识别方法,包括:
获取语音样本集,并在所述语音样本集中采样出多个语音样本子集,所述语音样本子集包括至少一个样本对象的语音样本;
对所述语音样本进行多维特征提取,得到所述语音样本子集中每一语音样本的多维度语音特征;
基于所述多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型;
根据所述候选识别模型的网络参数,构建目标识别模型,并评估所述目标识别模型针对每一认知状态的识别性能,得到识别性能参数;
基于所述识别性能参数,利用所述目标识别模型在待识别对象的语音数据中识别出所述待识别对象的认知状态。
相应的,本发明实施例提供一种认知状态识别装置,包括:
获取单元,用于获取语音样本集,并在所述语音样本集中采样出多个语音样本子集,所述语音样本子集包括至少一个样本对象的语音样本;
提取单元,用于对所述语音样本进行多维特征提取,得到所述语音样本子集中每一语音样本的多维度语音特征;
训练单元,用于基于所述多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型;
评估单元,用于根据所述候选识别模型的网络参数,构建目标识别模型,并评估所述目标识别模型针对每一认知状态的识别性能,得到识别性能参数;
识别单元,用于基于所述识别性能参数,利用所述目标识别模型在待识别对象的语音数据中识别出所述待识别对象的认知状态。
在一些实施例中,所述训练单元,具体可以用于采用预设识别模型预测所述多维度语音特征对应的样本对象的认知状态,得到预测认知状态;基于所述预测认知状态,确定每一语音样本子集对应的目标识别损失;根据所述目标识别损失,对所述预设识别模型进行收敛,得到每一语音样本子集对应的候选识别模型。
在一些实施例中,所述训练单元,具体可以用于在所述样本对象中识别出每一多维度语音特征对应的目标样本对象;采用所述预设识别模型对所述多维度语音特征进行特征转换,得到所述目标样本对象的对象认知特征;对所述对象认知特征进行认知状态分类,以得到所述目标样本对象的预测认知状态。
在一些实施例中,所述训练单元,具体可以用于基于所述目标识别损失,在所述预设识别模型的预设网络参数集合中筛选出至少一个候选网络参数,得到候选网络参数集合;利用所述目标识别损失,对所述候选网络参数集合进行更新,得到更新后网络参数集合和所述更新后网络参数集合对应的更新后识别模型将所述更新网络参数集合作为所述预设网络参数集合,并将所述更新后识别模型作为所述预设识别模型;返回执行所述采用预设识别模型预测所述多维度语音特征对应的样本对象的认知状态的步骤,直至所述目标识别损失小于预设损失阈值,得到每一语音样本子集合对应的候选识别模型。
在一些实施例中,所述评估单元,具体可以用于获取所述候选识别模型的分类评估参数;基于所述分类评估参数,在所述网络参数中筛选出至少一个目标网络参数;在所述预设识别模型中配置所述目标网络参数,得到目标识别模型。
在一些实施例中,所述评估单元,具体可以用于获取所述候选识别模型的分类评估参数;基于所述分类评估参数,对所述候选识别模型进行排序;根据排序结果,在所述候选识别模型中筛选出目标识别模型。
在一些实施例中,所述认知状态识别装置还可以包括更新单元,所述更新单元,具体可以用于获取至少一个增量语音样本,所述增量语音样本包括当前标注认知状态;基于所述当前标注认知状态,对所述目标识别模型的网络参数进行更新,得到当前识别模型;根据所述增量语音样本,对所述当前识别模型进行训练,并将训练后的识别模型作为所述目标识别模型。
在一些实施例中,所述评估单元,具体可以用于将所述语音样本集拆分为预设数量的语音样本子集,得到所述预设数量的评估样本集,所述评估样本集包括每一认知状态对应的当前样本对象的语音样本;利用所述目标识别模型预测所述当前样本对象的认知状态,以得到每一评估样本集对应的初始识别性能参数;将所述初始识别性能参数进行融合,得到所述目标识别模型的识别性能参数。
在一些实施例中,所述评估单元,具体可以用于在所述评估样本集中确定出验证样本集,并将所述评估样本集中除所述验证样本集以外的评估样本集作为训练样本集;采用所述训练样本集对所述目标识别模型进行训练,并采用训练后的目标识别模型预测所述验证样本集对应的当前样本对象的认知状态,以得到所述验证样本集对应的初始识别性能参数;返回执行所述在所述评估样本集中确定出验证样本集的步骤,直至每一评估样本集均为所述验证样本集时为止,得到每一评估样本集对应的初始识别性能参数。
在一些实施例中,所述评估单元,具体可以用于采用训练后的目标识别模型预测所述验证样本集对应的当前样本对象的认知状态,得到所述当前样本对象的当前预测认知状态;获取所述当前样本对象的标注认知状态,并基于所述标注认知状态和当前预测认知状态,确定所述验证样本集对应的至少一个基础识别性能参数;将所述基础识别性能参数进行融合,得到所述验证样本集对应的初始识别性能参数。
在一些实施例中,所述评估单元,具体可以用于将所述标注认知状态与当前预测认知状态进行对比,得到每一当前样本对象的认知状态预测结果;基于所述认知状态预测结果,在所述验证样本集中统计出正确样本数量和错误样本数量,所述正确样本数量包括认知状态预测正确的样本数量,所述错误样本数量包括认知状态预测错误的样本数量;获取所述验证样本集的样本数量,并基于所述样本数量、正确样本数量和错误样本数量,确定所述验证样本集对应的至少一个基础识别性能参数。
在一些实施例中,所述评估单元,具体可以用于基于所述正样本数量、负样本数量、正确正样本数量、正确负样本数量、错误正样本数量和错误负样本数量,确定所述验证样本集对应的至少一个基础分类评价参数;在所述基础分类评价参数中筛选出至少一个目标分类评价参数,并将所述目标分类评价参数进行融合,得到调和分类评价参数;基于所述确正样本数量、错误负样本数量和样本数量,确定所述验证样本集对应的当前分类评估参数,并将所述基础分类评价参数、调和评价分类参数和当前分类评估参数作为所述基础识别性能参数。
在一些实施例中,所述评估单元,具体可以用于获取每一基础识别性能参数对应的融合权重,并基于所述融合权重,对所述基础识别性能参数进行加权;计算加权后的基础识别性能参数的均值,得到所述验证样本集对应的初始识别性能参数。
在一些实施例中,所述识别单元,具体可以用于当所述识别性能参数指示所述目标识别模型达到预设识别性能时,获取待识别对象在执行至少一个语言流畅性任务时的语音数据;对所述语音数据进行多维特征提取,以得到所述待识别对象的目标多维度语音特征;采用所述目标识别模型在所述目标多维度语音特征中识别出所述待识别对象对的认知状态。
在一些实施例中,所述获取单元,具体可以用于获取样本对象集合中每一样本对象在执行至少一个语言流畅性任务下的语音数据,得到每一样本对象的样本语音数据;获取所述样本对象的认知状态诊断信息和认知状态评估信息,并基于所述认知状态诊断信息和认知状态评估信息,确定所述样本对象的当前认知状态;在所述样本语音数据中标注所述当前认知状态,以得到语音样本集。
在一些实施例中,所述提取单元,具体可以用于对所述语音样本进行预处理,得到目标语音样本;对所述目标语音样本进行多维特征提取,得到多个维度的初始语音特征;对所述初始语音特征进行标准化,并将标准化后的初始语音特征作为所述语音样本的多维度语音特征。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行本发明实施例提供的认知状态识别方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种认知状态识别方法中的步骤。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请实施例提供的认知状态识别方法中的步骤。
本申请实施例在获取语音样本集,并在语音样本集中采样出多个语音样本子集后,对语音样本子集中的至少一个样本对象的语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,然后,基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,然后,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,然后,基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态;由于该方案在认知状态模型的训练过程中可以通过采样出不同的语音样本子集进行模型训练,通过多个训练后认知状态识别模型的网络参数,确定出目标网络参数,从而可以构建出具备最佳模型效果的目标识别模型,而且,还可以对目标识别模型的识别性能进行评估,从而避免训练过程中的过拟合,进而提升了认知状态识别模型的精度和性能,因此,可以提升认知状态识别的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的认知状态识别方法的场景示意图;
图2是本发明实施例提供的认知状态识别方法的流程示意图;
图3是本发明实施例提供的老年人的认知状态识别的流程示意图;
图4是本发明实施例提供的认知状态识别方法的另一流程示意图;
图5是本发明实施例提供的认知状态识别装置的结构示意图;
图6是本发明实施例提供的认知状态识别装置的另一结构示意图;
图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种认知状态识别方法以及相关设备,该相关设备可以包括认知状态识别装置、电子设备、计算机程序产品和计算机可读存储介质。其中,该认知状态识别装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
例如,参见图1,以认知状态识别装置集成在电子设备中为例,电子设备在获取语音样本集,并在语音样本集中采样出多个语音样本子集后,对语音样本子集中的至少一个样本对象的语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,然后,基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,然后,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,然后,基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态,进而可以提升认知状态识别的准确性。
其中,本申请实施例提供的认知状态识别方法涉及人工智能中ArtificialIntelligence,AI)的语音技术(Speech Technology)和机器学习(MachineLearning,ML)方向。本申请实施例可以获取语音样本集,并通过语音样本集中的多个语音样本子集训练出目标识别模型,通过目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态。
其中,人工智能(是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革,WavLM,UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性,可以优秀完成各方向的语音处理任务。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
其中,可以理解的是,在本申请的具体实施方式中,涉及到样本对象语音样本、待识别对象的语音数据或者与认知状态相关的数据等相关数据,当本申请以下实施例运用到具体产品或技术中时,需要获得许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从认知状态识别装置的角度进行描述,该认知状态识别装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,PersonalComputer)、可穿戴设备、虚拟现实设备或其他可以进行认知状态识别的智能设备等设备。
一种认知状态识别方法,包括:
获取语音样本集,并在语音样本集中采样出多个语音样本子集,该语音样本子集包括至少一个样本对象的语音样本,对语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态。
如图2所示,该认知状态识别方法的具体流程如下:
101、获取语音样本集,并在语音样本集中采样出多个语音样本子集。
其中,语音样本子集包括至少一个样本对象的语音样本。所谓语音样本可以包括样本对象在执行至少一个语言流畅性任务时的语音数据样本。所谓语言流畅性任务可以为指示或表征样本对象的认知功能状态的任务。流畅性任务的类型可以有多种,比如,可以包括词语联想、图像描述、数字记忆或者其他可以指示对象的认知状态的语音采集任务,等等。词语联想任务的类型可以有多种,比如,可以在规定时间内描述特定的相关词语,譬如,在1分钟内尽可能说出所知道的动物/城市/植物/大学等的名称。图像描述任务的类型可以有多种,比如,可以包括在规定时间内描述至少一张图像的内容,等等。数字记忆的任务类型可以有多种,比如,可以按照规定的顺序重复朗读或背出播放的数字,等等。
其中,样本对象可以为可能存在认知障碍(MCI或痴呆)的对象,比如,可以包括老年人,或者年龄超过预设阈值的个人,等等。
其中,获取语音样本集的方式可以有多种,具体可以如下:
例如,可以获取样本对象集合中每一样本对象在执行至少一个语言流畅性任务下的语音数据,得到每一样本对象的样本语音数据,获取样本对象的认知状态诊断信息和认知状态评估信息,并基于认知状态诊断信息和认知状态评估信息,确定样本对象的当前认知状态,在样本语音数据中标注当前认知状态,以得到语音样本集。
其中,获取样本对象集合中每一样本对象在执行至少一个语言流畅任务下的语音数据的方式可以有多种,比如,可以获取至少一个样本对象的目标终端或客户端上传的该样本对象在执行至少一个语言流畅任务下的语音数据,从而得到每一样本对象的样本语音数据,或者,还可以通过音频采集组件/设备采集至少一个样本对象在执行至少一个语言流畅任务下的语音数据,从而得到每一样本对象的样本语音数据,或者,还可以在网络或音频数据平台获取至少一个样本对象在执行至少一个语言流畅任务下的语音数据,从而得到每一样本对象的样本语音数据,或者,当样本对象的数量较多或者样本语音数据占用的内存较大时,还可以接收模型训练请求,该模型训练请求可以携带至少一个样本对象在执行至少一个语言流畅性任务下的样本语音数据的存储地址,基于该存储地址,获取每一样本对象的样本语音数据,等等。
其中,通过音频采集组件或设备采集至少一个样本对象在执行至少一个语言流畅性任务下的语音数据的方式可以有多种,比如,可以播报或显示至少一个语言流畅任务下的语音采集信息,通过音频采集组件/设备采集或录制样本对象基于语音采集信息发出的声音,从而得到该样本对象的样本语音数据。譬如,以语言流畅性任务为图像描述任务为例,就可以显示待描述的目标图像,通过音频采集组件/设备采集样本对象针对目标图像的描述音频数据,从而得到该样本对象的样本语音数据。
其中,需要说明的时候,在采用音频采集组件/设备采集样本对象的样本语音数据时,可以将音频采集组件/设备放置在样本对象的预设位置,并采用预设频率进行录制,得到预设格式的样本语音数据。预设位置可以为样本对象的正前方20-30厘米处或者其他便于采集的位置。预设频率的类型可以有多种,比如,可以为48KHz或者其他任意频率,等等。预设格式的类型可以有多种,比如,可以为MP3(一种音频格式)或者其他类型的音频格式,等等。
其中,认知状态诊断信息可以包括医疗机构对样本对象的认知状态进行诊断后得到的诊断结果。认知状态评估信息可以为采用神经心理量表或者其他形式的认知状态评估表对样本对象进行认知状态评估后的结果。认知状态评估信息可以包括样本对象的认知状态的评估值,该评估值可以指示样本对象的认知状态的程度或者类别,等等。基于认知状态诊断信息和认知状态评估信息,确定样本对象的当前认知状态的方式可以有多种,比如,在认知状态诊断信息中识别出样本对象在诊断后的认知状态,在认知状态评估信息识别出样本对象在评估后的认知状态,基于所述诊断后的认知状态和评估后的认知状态,确定样本对象的当前认知状态。
其中,诊断后的认知状态就可以理解为医疗机构诊断的样本对象的认知状态,该认知状态可以包括正常、轻度认知障碍和痴呆,等。
其中,在认知状态评估信息中识别出样本对象在评估后的认知状态的方式可以有多种,比如,在认知状态评估信息中提取出样本对象的当前评估值,获取样本对象的教育信息,在教育信息中识别出样本对象的目标教育时间,在预设评估值阈值集合中筛选出目标教育时间对应的目标评估值阈值,将当前评估值与目标评估值阈值进行对比,并基于对比结果,确定样本对象的评估后的认知状态。
其中,目标教育时间可以理解为样本对象接受教育的时间。不同的教育时间可以对应不同的评估值阈值,比如,以神经心理量表为蒙特利尔认知评估量表基础版(MontrealCognitive Assessment Basic Version,MoCA)为例,该评估量表可以包括注意、执行功能、记忆、语言、视空间、抽象思维、计算力和定向力8个方面,评估值的总分为30分,分值越高则提示认知能力越好,即为认知障碍或轻度认知障碍的概率越小,在认知状态为轻度认知障碍下,受教育年限≤6年的目标评估值阈值就可以为19/20,6年<受教育年限≤12年的目标评估值阈值就可以为22/23,受教育年限>12年的目标评估值阈值就可以为24/25,或者,也可以设定为其他值。
在筛选出目标教育时间对应的目标评估值阈值之后,便可以将当前评估值与目标评估值阈值进行对比,并基于对比结果,确定样本对象的评估后的认知状态。基于对比结果,确定样本对象的评估后的认知状态的方式可以有多种,比如,当当前评估值大于目标评估阈值时,就可以确定该样本对象的评估后的认知状态为非轻度认知障碍,即认知状态正常,当当前评估值小于或等于目标评估阈值,就可以确定该样本对象的评估后的认知状态为轻度认知障碍,等等。
在识别出诊断后的认知状态和评估后的认知状态之后,便可以基于所述诊断后的认知状态和评估后的认知状态,确定样本对象的当前认知状态。确定样本对象的当前认知状态的方式可以有多种,比如,当诊断后的认知状态和评估后的认知状态相同时,将相同的认知状态作为样本对象的当前认知状态,当诊断后的认知状态和评估后的认知状态不同时,将诊断后的认知状态或者评估后的认知状态作为样本对象的当前认知状态。
在确定出样本对象的当前认知状态之后,便可以在样本语音数据中标注当前认知状态,从而得到每一样本对象的语音样本,并将这些语音样本作为语音样本集。
在获取语音样本集之后,便可以在语音样本集中采样出多个语音样本子集。采样出多个语音样本子集的方式可以有多种,比如,可以基于预设采样次数,采用采样算法在语音样本集中有放回的采样出至少一个语言样本子集,或者,还可以基于预设采样次数,采用采样算法在语音样本集中无放回的采样出至少一个语言样本子集,等等。
其中,预设采样次数可以为预先设定的采样次数,预设采样次数可以包括4000、5000、6000或者其他任意采样次数,等等。采样算法的类型可以多种,比如,可以包括Bootstrap采样(一种采样算法)或者其他可以进行样本采样的算法,等等。
102、对语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征。
其中,多维度语音特征可以包括多个维度的语音特征。语音特征的类型可以有多种,比如,可以包括频率特征、能量特征、频谱特征和时间特征,等等。
其中,对语音样本进行多维特征提取的方式可以有多种,具体可以如下:
例如,可以对语音样本进行预处理,得到目标语音样本,对目标语音样本进行多维特征提取,得到多个维度的初始语音特征,对初始语音特征进行标准化,并将标准化后的初始语音特征作为语音样本的多维度语音特征。
其中,对语音样本进行预处理的方式可以有多种,比如,可以对语音样本进行去噪、降噪或均衡化等处理,从而每一样本对象的目标语音样本。
在对语音样本进行预处理之后,便可以对预处理后的目标语音样本进行多维特征提取,从而得到多个维度的初始语音特征。对目标语音样本进行多维特征提取的方式可以有多种,比如,可以采用声学参数集在目标语音样本中提取出多个维度的语音特征,得到多个维度的初始语音特征,或者,还可以采用多维度语音特征提取网络对目标语音样本进行多维特征提取,从而得到多个维度的初始语音特征,等等。
其中,声学参数集的类型可以有多种,比如,可以包括扩展版日内瓦极简主义声学参数集(Extended Version Geneva Minimalistic Acoustic Parameter Set,eGeMAPS)、日内瓦极简主义声学参数集(GeMAPS)或者其他可以进行声学特征/语音特征提取的声学参数集,等等。以声学参数集为eGeMAPS为例,eGeMAPS可以包含88个声学特征,主要分为6个类别:基频、能量、谐波、MFCC(Mel频率倒谱系数)、光滑度和语音质量。这些特征覆盖了音频信号的多个方面,如声调、语音流畅性、情感、声音强度等等。eGeMAPS还包括一些新的特征,例如基于周期语音的短时谱包络、基于对数压缩的谐波特征等等。eGeMAPS广泛应用于语音情感识别、语音识别、说话人识别、行为识别等领域,其特点是简单、高效、准确,因此可以应用eGeMAPS提取出多个维度的语音特征,从而得到多个维度的初始语音特征。
在提取出多个维度的初始语音特征之后,便可以对初始语音特征进行标准化,从而得到标准化后的初始语音特征。对初始语音特征进行标准化的方式可以有多种,比如,可以对初始语音特征的特征值进行归一化,得到标准化后的初始语音特征,或者,还可以采用其他标准化方式,对初始语音特征进行标准化,从而得到标准化后的初始语音特征。
其中,需要说明的是,对多个维度的初始语音特征进行标准化,是为了确保这些初始语音特征在同一范围内,这样就可以避免一些因为特征值差异太大而导致的问题。
在对初始语音特征进行标准化之后,便可以将标准化后的初始语音特征作为语音样本的多维度语音特征。
103、基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型。
其中,预设识别模型可以为预先设定的识别样本对象或对象的认知状态的识别模型,该识别模型的网络结构可以有多种,比如,可以包括SVM(支持向量机)、决策树、随机森林、GBDT(一种分类模型)、XGB(一种分类模型)、CNN或其他可以进行认知状态分类的模型,等等。
例如,可以采用预设识别模型预测多维度语音特征对应的样本对象的认知状态,得到预测认知状态,基于预测认知状态,确定每一语音样本子集对应的目标识别损失,根据目标识别损失,对预设识别模型进行收敛,每一语音样本子集对应的候选识别模型,具体可以如下:
S1、采用预设识别模型预测多维度语音特征对应的样本对象的认知状态,得到预测认知状态。
其中,采用预设识别模型预测多维度语音特征对应的样本对象的认知状态的方式可以有多种,比如,可以在样本对象中识别出每一多维度语音特征对应的目标样本对象,采用预设识别模型对多维度语音特征进行特征转换,得到目标样本对象的对象认知特征,对对象认知特征进行认知状态分类,以得到目标样本对象的预测认知状态。
其中,采用预设识别模型对多维度语音特征进行特征转化的方式可有多种,比如,可以获取预设识别模型的核函数,根据核函数将多维度语音特征从原始空间映射到高维空间,从而得到目标样本对象的对象认知特征,或者,还可以采用其他映射函数,将多维度语音特征映射至对象认知特征对应的特征空间,从而得到目标样本对象的对象认知特征,等等。
其中,核函数可以为预设识别模型中的一个网络参数。核函数的类型可以有多种,比如,可以包括线性核函数、多项式核函数或高斯核函数,等等。不同的核函数适用于不同的数据类型和分类问题,预设识别模型中的核函数可以根据具体情况进行选择或设置。
其中,网络参数可以包括模型的超参数、模型参数或者其他模型相关的参数,等等。所谓超参数可以为在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习选择一组最优超参数,以提高学习性能和效果。所谓模型参数就可以为模型中可学习的参数,它们是在训练过程中通过优化算法(如梯度下降)自动学习得到的。网络参数包括权重和偏置等,它们用于表示模型的各个层之间的连接关系和特征表示。网络参数的数量和取值是根据模型的结构和超参数的设置而确定的。在训练过程中,通过反向传播算法,网络参数不断地更新和优化,以最小化损失函数并提高模型的性能。
在采用预设识别模型对多维度语音特征对多维度语音特征进行特征转换之后,便可以对对象认知特征进行认知状态分类,以得到目标样本对象的预测认知状态。对对象认知特征进行认知状态分类的方式可以有多种,比如,可以获取预设识别模型的最优超平面,通过最优超平面对对象认知特征进行认知状态分类,将认知状态分类结果作为目标样本对象的预测认知状态。譬如,当对象认知特征的分类结果为轻度认知障碍,则目标样本对象的预测认知状态就可以为轻度认知障碍,当对象认知特征的分类结果为正常,则目标样本对象的预测认知状态就可以为正常,当对象认知状态的分类结果为痴呆时,则目标样本对象的预测认知状态就可以为痴呆,等等。
S2、基于所述预测认知状态,确定每一语音样本子集对应的目标识别损失。
其中,目标识别损失可以为采用预设识别模型对语音样本子集中的语音样本对应的样本对象进行认知状态预测时产生的差异。
其中,基于预测认知状态,确定每一语音样本子集对应的目标识别损失的方式可以有多种,具体可以如下:
例如,可以获取语音样本中标注的样本对象的当前认知状态,将当前认知状态与预测认知状态进行对比,并基于对比结果,确定每一语音样本对应的初始识别损失,将同一个语音样本子集中的语音样本对应的初始识别损失进行融合,从而得到每一语音样本子集对应的目标识别损失。
S3、根据目标识别损失,对预设识别模型进行收敛,得到每一语音样本子集对应的候选识别模型。
例如,可以基于目标识别损失,在预设识别模型的预测网络参数集合中筛选出至少一个候选网络参数,得到候选网络参数集合,利用目标识别损失,对候选网络参数集合进行更新,得到更新后网络参数集合和更新后网络参数集合对应的更新后识别模型,将更新网络参数集合作为预设网络参数集合,并将更新后识别模型作为预设识别模型,返回执行采用预设识别模型预测多维度语音特征对应的样本对象的认知状态的步骤,直至目标识别损失小于预设损失阈值,得到每一语音样本子集对应的候选识别模型。
其中,利用目标识别损失,对候选网络参数集合进行更新的方式可以有多种,比如,采用梯度下降的算法,基于目标识别损失对候选网络参数集合中的网络参数进行更新,得到更新后网络参数集合,将配置更新后网络参数集合的网络参数的预设识别模型作为更新后识别模型,或者,还可以采用其他网络参数更新算法,基于目标识别损失对候选网络参数集合中的网络参数进行更新,得到更新后网络参数集合,将配置更新后网络参数集合的网络参数的预设识别模型作为更新后识别模型,等等。
在利用目标识别损失,对候选网络参数集合进行更新之后,便可以将更新网络参数集合作为预设网络参数集合,并将更新后识别模型作为预设识别模型。然后,就可以返回执行采用预设识别模型预测多维度语音特征对应的样本对象的认知状态的步骤,直至目标识别损失小于预设损失阈值,从而得到每一语音样本子集对应的候选识别模型。
其中,需要说明的是,在对预设识别模型进行训练时,可以采用超参数调节(Hyperparameters Optimization),即选择最相关的模型超参数(网络参数),通过迭代过程,不断调整参数达到最佳模型效果,其余值保持默认值,从而得到每一语音样本子集对应的候选识别模型。
104、根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数。
其中,识别性能参数可以理解为指示目标识别模型针对每一认知状态的识别性能的参数。通过该识别性能参数就可以确定目标识别模型的识别效果或性能。
其中,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能的的方式可以有多种,具体可以如下:
C1、根据候选识别模型的网络参数,构建目标识别模型。
例如,可以获取候选识别模型的分类评估参数,基于分类评估参数,在网络参数中筛选出至少一个目标网络参数,在预设识别模型中配置目标网络参数,得到目标识别模型,或者,还可以获取候选识别模型的分类评估参数,基于分类评估参数,对候选识别模型进行排序,根据排序结果,在候选识别模型中筛选出目标识别模型,等等。
其中,分类评估参数可以为评估候选识别模型的分类效果的参数。分类评估参数的类型可以有多种,比如,可以包括AUC(最佳ROC(受试者特征曲线)下的面积)、准确率、精度或F1分数(精度和召回率的调和平均值)等中的至少一个。
其中,基于分类评估参数,在网络参数中筛选出至少一个目标网络参数的方式可以有多种,比如,可以基于分类评估参数,不同候选识别模型的网络参数进行排序,基于排序结果,在网络参数中筛选出分类评估参数最佳或最高的至少一个网络参数作为目标网络参数。以分类评估参数为AUC为例,就可以在网络参数中筛选出AUC最大值对应的至少一个网络参数,从而得到目标网络参数。
在筛选出目标网络参数之后,便可以在预设识别模型中配置目标网络参数,从而得到目标识别模型。
其中,根据排序结果,在候选识别模型中筛选出目标识别模型的方式可以有多种,比如,可以在候选识别模型中筛选出分类评估参数最优或最高的候选识别模型作为目标识别模型。以分类评估参数为AUC为例,就可以在候选识别模型中筛选出AUC最佳或最大的候选识别模型作为目标识别模型。
其中,需要说明的是,本方案中可以采用超参数优化包(Hyperopt),其能够在相对较短的时间内获取优于手动调参的结果。为了保证结果的可靠性,对于每个分类模型执行5000次或者其他次数的Bootstrap采样并训练分类器(预设识别模型),以最佳ROC曲线下面积(AUC)为依据确定分类模型的超参数(网络参数),进而构建出目标识别模型。
可选的,在一些实施例中,在构建出目标识别模型之后,还可以对目标识别模型进行增量学习(更新),从而实现不断优化目标识别模型。对目标识别模型进行增量学习(更新)的方式可以有多种,比如,可以获取至少一个增量语音样本,该增量语音样本包括当前标注认知状态,基于当前标注认知状态,对目标识别模型的网络参数进行更新,得到当前识别模型,根据增量语音样本,对当前识别模型进行训练,并将训练后的识别模型作为目标识别模型。
其中,以目标识别模型为SVM为例,目标识别模型中需要增量更新的网络参数就可以包括超平面的法向量w和截距b。基于当前标注状态,分别对w和b进行更新,更新过程如公式(6)所示,具体可以如下;
其中,w‘为更新后的法向量,w为法向量,a为学习速率,y为当前认知状态,x为增量语音样本的多维度语音特征,b′为更新后的截距,b为截距,
在对网络参数进行更新之后,便可以将配置更新后网络参数的目标识别模型作为当前识别模型。然后,根据增量语音样本,对当前识别模型进行训练,并将训练后的识别模型作为目标识别模型。
其中,需要说明的是,在对当前识别模型进行训练的过程中,在预测增量语音样本对应的认知状态时,需要采用更新后网络参数来计算增量语音样本的输出(预测认知状态),对于增量语音样本来说,预测认知状态可以入公式(7)所示,具体可以如下:
F(x)=sign(w‘*x+b′) (7)
其中,F(x)为预测认知状态(即输出),w‘为更新后的法向量,b′为更新后的截距,x为增量语音样本的多维度语音特征,sign为符号函数,用于将(w‘*x+b′)转换为+1或-1的标签,进而得到预测认知状态的类别。
在预测出认知状态之后,便可以基于预测认知状态对当前识别模型进行收敛,从而得到训练后的识别模型。基于预测认知状态对当前识别模型进行收敛的方式与对预设识别模型进行收敛的方式类似,详见上文所述,在此就不再一一赘述。
在对当前识别模型进行训练之后,便可以将训练后的识别模型作为目标识别模型。进而对目标识别模型针对每一认知状态的识别性能进行评估,从而得到识别性能参数,具体可以参见下文所述。
C2、评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数。
例如,可以将语音样本集拆分为预设数量的语音样本子集,得到预设数量的评估样本集,该评估样本集中包括每一认知状态对应的当前样本对象的语音样本,利用目标识别模型预测当前样本对象的认知状态,以得到每一评估样本集对应的初始识别性能参数,将初始识别性能参数进行融合,得到目标识别模型的识别性能参数。
其中,以预设数量为10为例,就可以将语音样本集拆分为10份,从而得到10个评估样本集。需要说明的是,每个评估样本集中的语音样本的数量可以相同,也可以不同。
在将语音样本集拆分为预设数量的语音样本子集,得到预设数量的评估样本集之后,便可以利用目标识别模型预测评估样本集中的当前样本对象的认知状态,从而得到每一评估样本集对应的初始识别性能参数。利用目标识别模型预测评估样本集中的当前样本对象的认知状态的方式可以有多种,比如,可以在评估样本集中确定出验证样本集,并将评估样本集中除验证样本集以外的评估样本集作为训练样本集,采用训练样本集对目标识别模型进行训练,并采用训练后的目标识别模型预测验证样本集对应的当前样本对象的认知状态,以得到验证样本集对应的初始识别性能参数,返回执行在评估样本集中确定出验证样本集对的步骤,直至每一评估样本集均为验证样本集时为止,得到每一评估样本集对应的初始识别性能参数。
其中,验证样本集可以为对训练后的识别模型进行验证的评估样本集,验证样本集的数量可以为1个或者多个。在评估样本集中确定出验证样本集的方式可以有多种,比如,可以在评估样本集中随机选取出一个或多个评估样本集作为验证样本集,或者,当不同的验证样本集中的语音样本数量不同时,还可以基于语音样本的数量,对评估样本集进行排序,并基于排序结果,依次将一个或多个评估样本集作为验证样本集,等等。
在确定出验证样本集之后,便可以将评估样本集中除验证样本集以外的评估样本集作为训练样本集。然后,采用训练样本集对目标识别模型进行训练。采用训练样本集对目标识别模型进行训练的方式与对预设识别模型进行训练的方式类似,详见上文所述,在此就不再一一赘述。
在采用训练样本集对目标识别模型进行训练之后,便可以采用训练后的目标识别模型预测验证样本集对应的当前样本对象的认知状态,从而得到验证样本集对应的初始识别性能参数。采用训练后的目标识别模型预测验证样本集对应的当前样本对象的认知状态的方式可以有多种,比如,可以采用训练后的目标识别模型预测验证样本集对应的当前样本对象的认知状态,得到当前样本对象的当前预测认知状态,获取当前样本对象的标注认知状态,并基于标注认知状态和当前预测认知状态,确定验证样本集对应的至少一个基础识别性能参数,将基础识别性能参数进行融合,得到验证样本集对应的初始识别性能参数。
其中,采用训练后的目标识别模型预测验证样本集对应的当前样本对象的认知状态的方式与采用预设识别模型预测语音样本子集对应的样本对象的认知状态的方式类似,详见上文所述,在此就不再一一赘述。
其中,标注认知状态就可以为当前样本对象的语音样本中标注的当前认知状态。基于标注状态和当前预测认知状态,确定验证样本集对应的至少一个基础识别性能参数的方式可以有多种,比如,将标注认知状态与当前预测认知状态进行对比,得到每一当前样本对象的认知状态预测结果,基于认知状态预测结果,在验证样本集中统计出正确样本数据和错误样本数量,获取验证样本集的样本数量,并基于样本数量、正确样本数量和错误样本数量,确定验证样本集对应的至少一个基础识别性能参数。
其中,正确样本数量包括认知状态预测正确的样本数量。正确样本数量包括正确正样本数量(TP,即实际为正例,模型分类为正例的样本数量)和正确负样本数量(TN,即实际为负例,模型分类为负例的样本数量),所谓正确正样本数量可以为正样本中认知状态预测正确的样本数量,正确负样本数量就可以为负样本中认知状态预测正确的样本数量。错误样本数量可以包括认知状态预测错误的样本数量。错误样本数量可以包括错误正样本数量(FN,即实际为正例,模型分类为负例的样本数量)和错误负样本数量(FP,即实际为负例,模型分类为正例的样本数量)。所谓错误正样本数量可以包括正样本中认知状态预测错误的样本数量,错误负样本可以包括负样本中认知状态预测错误的样本数量。样本数量可以包括正样本数量和负样本数量。
其中,基础识别性能参数可以为指示目标识别模型的识别性能的一些基础的参数。基础识别性能参数可以包括准确率、精度、召回率、特异度、F1分数和AUC中的至少一种。基于样本数量、正确样本数量和错误样本数量,确定验证样本集对应的至少一个基础识别性能参数的方式可以有多种,比如,可以基于正样本数量、负样本数量、正确正样本数量、正确负样本数量、错误正样本数量和错误负样本数量,确定验证样本集对应的至少一个基础分类评价参数,在基础分类评价参数中筛选出至少一个目标分类评价参数,并想目标分类评价参数进行融合,得到调和分类评价参数,基于正确正样本数量、错误负样本数量和样本数量,确定验证样本集对应的当前分类评价参数,并将基础分类评价参数、调和分类评价参数和当前分类评价参数作为基础识别性能参数。
其中,基础分类评价参数可以包括准确率、精度、召回率和特异度中的至少一种。当基础分类评价参数为准确率时,就可以计算正确样本数量与样本数量的比值,从而得到样本验证集对应的准确率,而样本数量可以为正确样本数量和错误样本数量的和,因此,准确率的计算可以入公式(1)所示,具体可以如下:
其中,Accuracy为准确率,TP为正确正样本数量,TN为正确负样本数量,FN为错误正样本数量,FP为错误负样本数量。
当基础分类评价参数为精度时,就可以计算正确正样本数量与预测出正类的样本数量(即正确正样本数量和错误负样本数量的和)的比值,从而得到验证验证集对应的精度,如公式(2)所示,具体可以如下:
其中,Precision为精度,TP为正确正样本数量,FP为错误负样本数量。
当基础分类评价参数为召回率时,就可以计算正确正样本数量与正样本数量的比值,从而得到验证集对应的召回率,如公式(3)所示,具体可以如下:
其中,Recall/Sensitivity为召回率,TP为正确正样本数量,FN为错误正样本数量。
当基础分类评价参数为特异度时,所谓特异度又称真阴性率,即实际为负样本,同时被诊断试验正确地判为负样本的百分比。计算特异度的方式可以有多种,比如,可以计算正确负样本数量与负样本数量之间的比值,从而得到验证样本集对应的特异度,如公式(4)所示,具体可以如下:
其中,specificity为特异度,TN为正确负样本数量,FP为错误负样本数量。
在确定出验证样本集对应的至少一个基础分类评价参数之后,便可以在基础分类评价参数中筛选出至少一个目标分类评价参数。在基础分类评价参数中筛选出至少一个目标分类评价参数的方式可以有多种,比如,可以在基础分类评价参数中筛选出精度和召回率作为目标分类评价参数。
在筛选出目标分类评价参数之后,便可以将目标分类评价参数进行融合,得到调和分类评价参数。所谓调和分类评价参数可以理解为综合考虑多个目标分类评价参数的评价参数。以目标分类评价参数为精度和为召回率为例,调和分类评价参数(F1分数)可以为精度和召回率的调和平均值。将目标分类评价参数进行融合的方式可以有多种,比如,可以计算精度与召回率之间的乘积与和,然后,计算乘积与和之间的比值,从而得到调和分类评价参数,如公式(5)所示,具体可以如下:
其中,F1为调和分类评级参数,Precision为精度,Recall为召回率。
其中,当前分类评估参数可以为AUC,即ROC曲线下的面积,AUC可以为评价分类器(目标识别模型)的一种常用指标,ROC曲线是真正类率(True Positive Rate,TPR)与假正类率(False Positive Rate,FPR)之间的关系曲线,ROC曲线下面积越大,分类器(目标识别模型)性能越好。基于正确正样本数量、错误负样本数量和样本数量,确定验证样本集对应的当前分类评估参数的方式可以有多种,比如,可以计算正确正样本数量与样本数量的比值,得到真正类率,并计算错误负样本数量与样本数量的比值,得到假正类率,基于真正类与假正类率,确定验证样本集对应的当前分类评估参数。
在确定出基础分类评价参数、调和分类评价参数和当前分类评估参数作为基础识别性能参数。
在确定验证样本集对应的至少一个基础识别性能参数之后,便可以将基础识别性能参数进行融合,得到验证样本集对应的初始识别性能参数。由于认知状态可以包括正常、MCI和痴呆三种情况,属于多分类问题,因此,目标识别模型就可以为一个多分类的机器模型,在计算基础识别性能参数(指标)的基础上,还需要计算多分类的平均值来衡量模型整体效果,因此,需要将基础识别性能参数进行融合。将基础识别性能参数进行融合的方式可以有多种,比如,可以获取每一基础识别性能参数对应的融合权重,并基于融合权重,对基础识别性能参数进行加权,计算加权后的基础识别性能参数的均值,得到验证样本集对应的初始识别性能参数,或者,可以采用其他融合算法,将基础识别性能参数进行融合,从而得到验证样本集对应的初始识别性能参数,等等。
其中,获取每一基础识别性能参数的方式可以有多种,比如,可以计算验证样本集中正样本数量与样本数量的比值,得到正样本比值,并计算验证样本集中负样本数量与样本数量的比值,得到负样本比值,基于正样本比值和负样本比值,确定每一基础识别性能参数对应的融合权重。
其中,其他融合算法的类型可以有多种,比如,可以包括宏平均(Macro-Average)、微平均(Micro-Average)或者其他算法。所谓宏平均是将每个类别的指标(如准确率、精度、召回率等)单独计算后取平均值。它适用于各个类别的样本数量相同或接近的情况下,可以反映每个类别的分类性能。微平均是将所有类别的指标(如准确率、精度、召回率等)加权平均得到的指标。它适用于各个类别的样本数量差异很大的情况下,可以反映整个分类器(目标识别模型)的分类性能。
其中,本方案中采用的融合权重进行融合的方式属于权重平均(Weighted-Average),权重平均是将每个类别的指标(如准确率、精度、召回率等)按照其在总样本中的比例加权平均得到的指标。它适用于各个类别的样本数量差异很大的情况下,可以反映每个类别对整个分类器(目标识别模型)性能的贡献。当各认知状态分组样本存在不平衡的情况时,可以选用权重平均评价多分类模型的效果。具体实施过程使用Python(一种程序语言)的数据分析包Scikit-learn(一种数据分析包)、Scipy(一种数据分析包)、NumPy(一种数据分析包)、Pandas(一种数据分析包)、SMOTE(一种数据分析包)、TomeLinks(一种数据分析包)、Hyperopt(一种数据分析包)包实现。
在将基础识别性能参数进行融合,得到没有验证样本集对应的初始识别性能参数之后,便可以将初始识别性能参数进行融合,从而得到目标识别模型的识别性能参数。将初始识别性能参数进行融合的方式可以有多种,比如,可以计算初始识别性能参数的均值,得到目标识别模型的识别性能参数,或者,可以将初始识别性能参数进行累加,得到目标识别模型的识别性能参数,或者,还可以在初始识别性能参数进行剔除误差较大的数据,并计算剩余的初始识别性能参数的均值,从而得到目标识别模型的识别性能参数,等等。
其中,在对目标识别模型的识别性能进行验证和评估时,可以采用10折交叉验证算法进行验证和评估,即将语音样本集随机分为10份,每次利用其中的9份作为训练集,剩余1份作为验证集,并重复这一过程。在交叉验证中,允许调整超参数,模型评价指标是10次计算结果的平均值。其能够有效利用数据,并防止模型过拟合问题。
105、基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态。
例如,当识别性能参数指示目标识别模型达到预设识别性能时,获取待识别对象在执行至少一个语言流畅性任务时的语音数据,对语音数据进行多维特征提取,以得到待识别对象的目标多维度语音特征,采用目标识别模型在目标多维度语音特征中识别出待识别对象的认知状态。
其中,预设识别性能可以为预先设定的目标识别模型可以进行认知状态识别的性能或精度。当识别性能指示目标识别模型达到预设识别性能时,就可以表示目标识别模型已经满足训练精度,可以进行对待识别对象进行认知状态的识别。此时,就可以获取待识别对象在执行至少一个语言流畅性任务时的语音数据。获取语音数据的方式可以与获取样本语音数据的方式类似,详见上文所述,在此就不再一一赘述。
可选的,在一些实施例中,在获取待识别对象的语音数据之后,还可以基于语音数据,对待识别对象进行对象检测,当待识别对象为目标对象时,对语音数据进行多维特征提取,进而识别出待识别对象的认知状态,当待识别对象为其他对象(目标对象以外的对象)时,就可以停止对待识别对象进行认知状态的识别。譬如,以目标对象为老年人为例,即当待识别对象为老年人时,才可以对待识别对象进行认知状态的识别,当待识别对象不为老年人时,通常非老年人群体的话,存在认知障碍的可能性就较低,此时,就可以停止认知状态的识别。
在获取语音数据之后,便可以对语音数据进行多维特征提取,从而得到待识别对象的目标多维度语音特征。对语音数据进行多维特征提取的方式可以与对语音样本进行多维特征提取的方式类似,详见上文所述,在此就不再一一赘述。
在对语音数据进行多维特征提取之后,便可以利用目标识别模型在提取出的目标多维度语音特征中识别出待识别对象的认知状态。在目标多维度语音特征中识别出待识别对象的认知状态可以与采用预设识别模型基于多维度语音特征预测样本对象的认知状态的方式类似,详见上文所述,在此就不再一一赘述。
其中,需要说明的是,本方案中输出的待识别对象的认知状态(类型)可以作为一个认知状态的参考信息,并不能直接替代医疗机构的实际检测/诊断结果。
其中,以待识别对象为老年人为例,本方案中针对老年人进行认知状态进行识别的过程可以入如图3所示,通过认知能力检测页面中包含的语音任务(语言流畅性任务),收集老年人的语音数据,将语音数据存储在云端,并将通过云端将语音数据传输到模型训练端,通过训练好并评估通过的目标识别模型,基于语音数据对待识别对象进行认知状态分类,从而得到老年人的认知状态,具体呈现出的认知状态可以包括正常、轻度认知障碍(MCI)或痴呆(AD)中的一种。
其中,本方案可以应用到语音筛查***等多个项目和产品应用中,可以帮助老机构、社区卫生服务中心/社康中的医务人员、社工、老年人家属应用语音自动识别***,早期发现认知障碍老年人,提高认知障碍老年人的识别率。
由以上可知,本申请实施例在获取语音样本集,并在语音样本集中采样出多个语音样本子集后,对语音样本子集中的至少一个样本对象的语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,然后,基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,然后,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,然后,基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态;由于该方案在认知状态模型的训练过程中可以通过采样出不同的语音样本子集进行模型训练,通过多个训练后认知状态识别模型的网络参数,确定出目标网络参数,从而可以构建出具备最佳模型效果的目标识别模型,而且,还可以对目标识别模型的识别性能进行评估,从而避免训练过程中的过拟合,进而提升了认知状态识别模型的精度和性能,因此,可以提升认知状态识别的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该认知状态识别装置具体集成在电子设备,电子设备为服务器,样本对象为老年人样本,识别模型为SVM模型,网络参数为超参数,分类评估参数为AUC,调和分类评价参数为F1分数,基础分类评级参数包括准确率、精度、召回率和特异度为例进行说明。
如图4所示,一种认知状态识别方法,具体流程如下:
201、服务器获取语音样本集。
例如,服务器可以可以获取至少一个老年人样本的目标终端或客户端上传的该老年人样本在执行至少一个语言流畅任务下的语音数据,从而得到每一老年人样本的样本语音数据,或者,还可以通过音频采集组件/设备采集至少一个老年人样本在执行至少一个语言流畅任务下的语音数据,从而得到每一老年人样本的样本语音数据,或者,还可以在网络或音频数据平台获取至少一个老年人样本在执行至少一个语言流畅任务下的语音数据,从而得到每一老年人样本的样本语音数据,或者,当老年人样本的数量较多或者样本语音数据占用的内存较大时,还可以接收模型训练请求,该模型训练请求可以携带至少一个老年人样本在执行至少一个语言流畅性任务下的样本语音数据的存储地址,基于该存储地址,获取每一老年人样本的样本语音数据,等等。
服务器获取老年人样本的认知状态诊断信息和认知状态评估信息。在认知状态评估信息中提取出老年人样本的当前评估值,获取老年人样本的教育信息,在教育信息中识别出老年人样本的目标教育时间,在预设评估值阈值集合中筛选出目标教育时间对应的目标评估值阈值,将当前评估值与目标评估值阈值进行对比,当当前评估值大于目标评估阈值时,就可以确定该老年人样本的评估后的认知状态为非轻度认知障碍,即认知状态正常,当当前评估值小于或等于目标评估阈值,就可以确定该老年人样本的评估后的认知状态为轻度认知障碍,等等。
服务器在认知状态诊断信息中识别出老年人样本在诊断后的认知状态。当诊断后的认知状态和评估后的认知状态相同时,将相同的认知状态作为老年人样本的当前认知状态,当诊断后的认知状态和评估后的认知状态不同时,将诊断后的认知状态或者评估后的认知状态作为老年人样本的当前认知状态,等等。
服务器在样本语音数据中标注当前认知状态,从而得到每一老年人样本的语音样本,并将这些语音样本作为语音样本集。
202、服务器在语音样本集中采样出多个语音样本子集。
例如,服务器可以通过Bootstrap采样算法在语音样本集中有放回或无放回的采样5000次,从而得到多个语音样本子集。
203、服务器对语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征。
例如,服务器可以对语音样本进行去噪、降噪或均衡化等处理,从而每一老年人样本的目标语音样本。以采用eGeMAPS在目标语音样本中提取出多个维度的语音特征,得到多个维度的初始语音特征。
服务器对初始语音特征的特征值进行归一化,得到标准化后的初始语音特征,或者,还可以采用其他标准化方式,对初始语音特征进行标准化,从而得到标准化后的初始语音特征。将标准化后的初始语音特征作为语音样本的多维度语音特征。
204、服务器基于多维度语音特征,对预设SVM模型进行训练,以得到每一语音样本子集对应的候选SVM模型。
例如,服务器可以在老年人样本中识别出每一多维度语音特征对应的目标老年人样本。获取预设SVM模型的核函数,根据核函数将多维度语音特征从原始空间映射到高维空间,从而得到目标老年人样本的对象认知特征。获取预设SVM模型的最优超平面,通过最优超平面对对象认知特征进行认知状态分类,将认知状态分类结果作为目标老年人样本的预测认知状态。
服务器可以获取语音样本中标注的老年人样本的当前认知状态,将当前认知状态与预测认知状态进行对比,并基于对比结果,确定每一语音样本对应的初始识别损失,将同一个语音样本子集中的语音样本对应的初始识别损失进行融合,从而得到每一语音样本子集对应的目标识别损失。
服务器基于目标识别损失,在预设SVM模型的预测超参数集合中筛选出至少一个候选超参数,得到候选超参数集合。采用超参数调节方式,基于目标识别损失对候选超参数集合中的超参数进行更新,得到更新后超参数集合,将配置更新后超参数集合的超参数的预设SVM模型作为更新后SVM模型。将更新超参数集合作为预设超参数集合,并将更新后SVM模型作为预设SVM模型。然后,就可以返回执行采用预设SVM模型预测多维度语音特征对应的老年人样本的认知状态的步骤,直至目标识别损失小于预设损失阈值,从而得到每一语音样本子集对应的候选SVM模型。
205、服务器根据候选SVM模型的超参数,构建目标SVM模型。
例如,服务器可以获取候选SVM模型的AUC,基于AUC,在超参数中筛选出AUC最大值对应的至少一个超参数,从而得到目标超参数,在预设SVM模型中配置目标超参数,得到目标SVM模型,或者,还可以获取候选SVM模型的AUC,基于AUC,对候选SVM模型进行排序,在候选SVM模型中筛选出AUC最佳或最大的候选SVM模型作为目标SVM模型,等等。
可选的,在一些实施例中,可以获取至少一个增量语音样本,该增量语音样本包括当前标注认知状态,基于当前标注认知状态,对目标SVM模型的超平面的法向量w和截距b进行更新,得到当前SVM模型,根据增量语音样本,对当前SVM模型进行训练,并将训练后的SVM模型作为目标SVM模型。
206、服务器评估目标SVM模型针对每一认知状态的识别性能,得到识别性能参数。
例如,服务器可以将语音样本集拆分为10份,从而得到10个评估样本集。在评估样本集中随机筛选出1个验证样本集,并将评估样本集中除验证样本集以外的9个评估样本集作为训练样本集。采用训练样本集对目标SVM模型进行训练,得到训练后的目标SVM模型。
服务器采用训练后的目标SVM模型预测验证样本集对应的当前老年人样本的认知状态,得到当前老年人样本的当前预测认知状态,获取当前老年人样本的标注认知状态。
服务器将标注认知状态与当前预测认知状态进行对比,得到每一当前老年人样本的认知状态预测结果,基于认知状态预测结果,在验证样本集中统计出正确样本数据和错误样本数量,正确样本数量包括正确正样本数量和正确负样本数量,错误样本数量包括错误正样本数量和错误负样本数量。
服务器获取验证样本集的样本数量,样本数量包括正样本数量和负样本数量。计算正确样本数量与样本数量的比值,从而得到样本验证集对应的准确率,可以如公式(1)所示。计算正确正样本数量与预测出正类的样本数量(即正确正样本数量和错误负样本数量的和)的比值,从而得到验证验证集对应的精度,如公式(2)所示。计算正确正样本数量与正样本数量的比值,从而得到验证集对应的召回率,如公式(3)所示。计算正确负样本数量与负样本数量之间的比值,从而得到验证样本集对应的特异度,如公式(4)所示。
服务器可以将准确率、精度、召回率和特异度作为基础分类评价参数。在基础分类评价参数中筛选出精度和召回率作为目标分类评价参数。计算精度与召回率之间的乘积与和,然后,计算乘积与和之间的比值,从而得到F1分数,如公式(5)所示。
服务器计算正确正样本数量与样本数量的比值,得到真正类率,并计算错误负样本数量与样本数量的比值,得到假正类率,基于真正类与假正类率,确定验证样本集对应的当前AUC。将准确率、精度、召回率、特异度、F1分数和当前AUC作为基础识别性能参数。
服务器计算验证样本集中正样本数量与样本数量的比值,得到正样本比值,并计算验证样本集中负样本数量与样本数量的比值,得到负样本比值,基于正样本比值和负样本比值,确定每一基础识别性能参数对应的融合权重。基于融合权重,对基础识别性能参数进行加权,计算加权后的基础识别性能参数的均值,得到验证样本集对应的初始识别性能参数。
服务器返回执行在评估样本集中确定出验证样本集对的步骤,直至每一评估样本集均为验证样本集时为止,得到每一评估样本集对应的初始识别性能参数。
服务器可以计算初始识别性能参数的均值,得到目标SVM模型的识别性能参数,或者,可以将初始识别性能参数进行累加,得到目标SVM模型的识别性能参数,或者,还可以在初始识别性能参数进行剔除误差较大的数据,并计算剩余的初始识别性能参数的均值,从而得到目标SVM模型的识别性能参数,等等。
207、服务器基于识别性能参数,利用目标SVM模型在待识别对象的语音数据中识别出待识别对象的认知状态。
例如,当识别性能指示目标SVM模型达到预设识别性能时,服务器就可以获取待识别对象在执行至少一个语言流畅性任务时的语音数据,对语音数据进行多维特征提取,以得到待识别对象的目标多维度语音特征,采用目标SVM模型在目标多维度语音特征中识别出待识别对象的认知状态。
可选的,在一些实施例中,在获取待识别对象的语音数据之后,还可以基于语音数据,对待识别对象进行对象检测,当待识别对象为老年人时,对语音数据进行多维特征提取,进而识别出待识别对象的认知状态,当待识别对象为其他人群(老年人以外的群体)时,就可以停止对待识别对象进行认知状态的识别。
由以上可知,本实施例服务器在获取语音样本集,并在语音样本集中采样出多个语音样本子集后,对语音样本子集中的至少一个老年人样本的语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,然后,基于多维度语音特征,对预设SVM模型进行训练,以得到每一语音样本子集对应的候选SVM模型,然后,根据候选SVM模型的超参数,构建目标SVM模型,并评估目标SVM模型针对每一认知状态的识别性能,得到识别性能参数,然后,基于识别性能参数,利用目标SVM模型在待识别对象的语音数据中识别出待识别对象的认知状态;由于该方案在认知状态模型的训练过程中可以通过采样出不同的语音样本子集进行模型训练,通过多个训练后认知状态SVM模型的超参数,确定出目标超参数,从而可以构建出具备最佳模型效果的目标SVM模型,而且,还可以对目标SVM模型的识别性能进行评估,从而避免训练过程中的过拟合,进而提升了认知状态的SVM模型的精度和性能,因此,可以提升认知状态识别的准确性。
为了更好地实施以上方法,本发明实施例还提供一种认知状态识别装置,该认知状态识别装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图5所示,该认知状态识别装置可以包括获取单元301、提取单元302、训练单元303、评估单元304和识别单元305,如下:
(1)获取单元301;
获取单元301,用于获取语音样本集,并在语音样本集中采样出多个语音样本子集,该语音样本子集包括至少一个样本对象的语音样本。
例如,获取单元301,具体可以用于获取样本对象集合中每一样本对象在执行至少一个语言流畅性任务下的语音数据,得到每一样本对象的样本语音数据,获取样本对象的认知状态诊断信息和认知状态评估信息,并基于认知状态诊断信息和认知状态评估信息,确定样本对象的当前认知状态,在样本语音数据中标注当前认知状态,以得到语音样本集,在语音样本集中采样出多个语音样本子集。
(2)提取单元302;
提取单元302,用于对语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征。
例如,提取单元302,具体可以用于对语音样本进行预处理,得到目标语音样本,对目标语音样本进行多维特征提取,得到多个维度的初始语音特征,对初始语音特征进行标准化,并将标准化后的初始语音特征作为语音样本的多维度语音特征。
(3)训练单元303;
训练单元303,用于基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型。
例如,训练单元303,具体可以用于采用预设识别模型预测多维度语音特征对应的样本对象的认知状态,得到预测认知状态,基于预测认知状态,确定每一语音样本子集对应的目标识别损失,根据目标识别损失,对预设识别模型进行收敛,每一语音样本子集对应的候选识别模型。
(4)评估单元304;
评估单元304,用于根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数。
例如,评估单元304,具体可以用于根据候选识别模型的网络参数,构建目标识别模型,将语音样本集拆分为预设数量的语音样本子集,得到预设数量的评估样本集,该评估样本集中包括每一认知状态对应的当前样本对象的语音样本,利用目标识别模型预测当前样本对象的认知状态,以得到每一评估样本集对应的初始识别性能参数,将初始识别性能参数进行融合,得到目标识别模型的识别性能参数。
(5)识别单元305;
识别单元305,用于基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态。
例如,识别单元305,具体可以用于当识别性能参数指示目标识别模型达到预设识别性能时,获取待识别对象在执行至少一个语言流畅性任务时的语音数据,对语音数据进行多维特征提取,以得到待识别对象的目标多维度语音特征,采用目标识别模型在目标多维度语音特征中识别出待识别对象的认知状态。
可选的,在一些实施例中,认知状态识别装置还可以包括更新单元306,如图6所示:
更新单元306,用于对目标识别模型进行增量学习(更新)。
例如,更新单元306,具体可以用于获取至少一个增量语音样本,该增量语音样本包括当前标注认知状态,基于当前标注认知状态,对目标识别模型的网络参数进行更新,得到当前识别模型,根据增量语音样本,对当前识别模型进行训练,并将训练后的识别模型作为目标识别模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取语音样本集,并在语音样本集中采样出多个语音样本子集后,提取单元302对语音样本子集中的至少一个样本对象的语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,然后,训练单元303基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,然后,评估单元304根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,然后,识别单元305基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态;由于该方案在认知状态模型的训练过程中可以通过采样出不同的语音样本子集进行模型训练,通过多个训练后认知状态识别模型的网络参数,确定出目标网络参数,从而可以构建出具备最佳模型效果的目标识别模型,而且,还可以对目标识别模型的识别性能进行评估,从而避免训练过程中的过拟合,进而提升了认知状态识别模型的精度和性能,因此,可以提升认知状态识别的准确性。
本发明实施例还提供一种电子设备,如图7所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取语音样本集,并在语音样本集中采样出多个语音样本子集,该语音样本子集包括至少一个样本对象的语音样本,对语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态。
例如,电子设备可以获取样本对象集合中每一样本对象在执行至少一个语言流畅性任务下的语音数据,得到每一样本对象的样本语音数据,获取样本对象的认知状态诊断信息和认知状态评估信息,并基于认知状态诊断信息和认知状态评估信息,确定样本对象的当前认知状态,在样本语音数据中标注当前认知状态,以得到语音样本集,在语音样本集中采样出多个语音样本子集。对语音样本进行预处理,得到目标语音样本,对目标语音样本进行多维特征提取,得到多个维度的初始语音特征,对初始语音特征进行标准化,并将标准化后的初始语音特征作为语音样本的多维度语音特征。采用预设识别模型预测多维度语音特征对应的样本对象的认知状态,得到预测认知状态,基于预测认知状态,确定每一语音样本子集对应的目标识别损失,根据目标识别损失,对预设识别模型进行收敛,每一语音样本子集对应的候选识别模型。根据候选识别模型的网络参数,构建目标识别模型,将语音样本集拆分为预设数量的语音样本子集,得到预设数量的评估样本集,该评估样本集中包括每一认知状态对应的当前样本对象的语音样本,利用目标识别模型预测当前样本对象的认知状态,以得到每一评估样本集对应的初始识别性能参数,将初始识别性能参数进行融合,得到目标识别模型的识别性能参数。当识别性能参数指示目标识别模型达到预设识别性能时,获取待识别对象在执行至少一个语言流畅性任务时的语音数据,对语音数据进行多维特征提取,以得到待识别对象的目标多维度语音特征,采用目标识别模型在目标多维度语音特征中识别出待识别对象的认知状态。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本申请实施例在获取语音样本集,并在语音样本集中采样出多个语音样本子集后,对语音样本子集中的至少一个样本对象的语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,然后,基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,然后,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,然后,基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态;由于该方案在认知状态模型的训练过程中可以通过采样出不同的语音样本子集进行模型训练,通过多个训练后认知状态识别模型的网络参数,确定出目标网络参数,从而可以构建出具备最佳模型效果的目标识别模型,而且,还可以对目标识别模型的识别性能进行评估,从而避免训练过程中的过拟合,进而提升了认知状态识别模型的精度和性能,因此,可以提升认知状态识别的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种认知状态识别方法中的步骤。例如,该指令可以执行如下步骤:
获取语音样本集,并在语音样本集中采样出多个语音样本子集,该语音样本子集包括至少一个样本对象的语音样本,对语音样本进行多维特征提取,得到语音样本子集中每一语音样本的多维度语音特征,基于多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,根据候选识别模型的网络参数,构建目标识别模型,并评估目标识别模型针对每一认知状态的识别性能,得到识别性能参数,基于识别性能参数,利用目标识别模型在待识别对象的语音数据中识别出待识别对象的认知状态。
例如,获取样本对象集合中每一样本对象在执行至少一个语言流畅性任务下的语音数据,得到每一样本对象的样本语音数据,获取样本对象的认知状态诊断信息和认知状态评估信息,并基于认知状态诊断信息和认知状态评估信息,确定样本对象的当前认知状态,在样本语音数据中标注当前认知状态,以得到语音样本集,在语音样本集中采样出多个语音样本子集。对语音样本进行预处理,得到目标语音样本,对目标语音样本进行多维特征提取,得到多个维度的初始语音特征,对初始语音特征进行标准化,并将标准化后的初始语音特征作为语音样本的多维度语音特征。采用预设识别模型预测多维度语音特征对应的样本对象的认知状态,得到预测认知状态,基于预测认知状态,确定每一语音样本子集对应的目标识别损失,根据目标识别损失,对预设识别模型进行收敛,每一语音样本子集对应的候选识别模型。根据候选识别模型的网络参数,构建目标识别模型,将语音样本集拆分为预设数量的语音样本子集,得到预设数量的评估样本集,该评估样本集中包括每一认知状态对应的当前样本对象的语音样本,利用目标识别模型预测当前样本对象的认知状态,以得到每一评估样本集对应的初始识别性能参数,将初始识别性能参数进行融合,得到目标识别模型的识别性能参数。当识别性能参数指示目标识别模型达到预设识别性能时,获取待识别对象在执行至少一个语言流畅性任务时的语音数据,对语音数据进行多维特征提取,以得到待识别对象的目标多维度语音特征,采用目标识别模型在目标多维度语音特征中识别出待识别对象的认知状态。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种认知状态识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种认知状态识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述认知状态识别方面或者认知状态分类方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种认知状态识别方法以及相关设备,该相关设备可以包括认知状态识别装置、电子设备、计算机程序产品和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种认知状态识别方法,其特征在于,包括:
获取语音样本集,并在所述语音样本集中采样出多个语音样本子集,所述语音样本子集包括至少一个样本对象的语音样本;
对所述语音样本进行多维特征提取,得到所述语音样本子集中每一语音样本的多维度语音特征;
基于所述多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型;
根据所述候选识别模型的网络参数,构建目标识别模型,并评估所述目标识别模型针对每一认知状态的识别性能,得到识别性能参数;
基于所述识别性能参数,利用所述目标识别模型在待识别对象的语音数据中识别出所述待识别对象的认知状态。
2.根据权利要求1所述的认知状态识别方法,其特征在于,所述基于所述多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型,包括:
采用预设识别模型预测所述多维度语音特征对应的样本对象的认知状态,得到预测认知状态;
基于所述预测认知状态,确定每一语音样本子集对应的目标识别损失;
根据所述目标识别损失,对所述预设识别模型进行收敛,得到每一语音样本子集对应的候选识别模型。
3.根据权利要求2所述的认知状态识别方法,其特征在于,所述采用预设识别模型预测所述多维度语音特征对应的样本对象的认知状态,得到预测认知状态,包括:
在所述样本对象中识别出每一多维度语音特征对应的目标样本对象;
采用所述预设识别模型对所述多维度语音特征进行特征转换,得到所述目标样本对象的对象认知特征;
对所述对象认知特征进行认知状态分类,以得到所述目标样本对象的预测认知状态。
4.根据权利要求2所述的认知状态识别方法,其特征在于,所述根据所述目标识别损失,对所述预设识别模型进行收敛,得到每一语音样本子集对应的候选识别模型,包括:
基于所述目标识别损失,在所述预设识别模型的预设网络参数集合中筛选出至少一个候选网络参数,得到候选网络参数集合;
利用所述目标识别损失,对所述候选网络参数集合进行更新,得到更新后网络参数集合和所述更新后网络参数集合对应的更新后识别模型;
将所述更新网络参数集合作为所述预设网络参数集合,并将所述更新后识别模型作为所述预设识别模型;
返回执行所述采用预设识别模型预测所述多维度语音特征对应的样本对象的认知状态的步骤,直至所述目标识别损失小于预设损失阈值,得到每一语音样本子集合对应的候选识别模型。
5.根据权利要求4所述的认知状态识别方法,其特征在于,所述根据所述候选识别模型的网络参数,构建目标识别模型,包括:
获取所述候选识别模型的分类评估参数;
基于所述分类评估参数,在所述网络参数中筛选出至少一个目标网络参数;
在所述预设识别模型中配置所述目标网络参数,得到目标识别模型。
6.根据权利要求1所述的认知状态识别方法,其特征在于,所述根据所述候选识别模型的网络参数,构建目标识别模型,包括:
获取所述候选识别模型的分类评估参数;
基于所述分类评估参数,对所述候选识别模型进行排序;
根据排序结果,在所述候选识别模型中筛选出目标识别模型。
7.根据权利要求1所述的认知状态识别方法,其特征在于,所述根据所述候选识别模型的网络参数,构建目标识别模型之后,还包括:
获取至少一个增量语音样本,所述增量语音样本包括当前标注认知状态;
基于所述当前标注认知状态,对所述目标识别模型的网络参数进行更新,得到当前识别模型;
根据所述增量语音样本,对所述当前识别模型进行训练,并将训练后的识别模型作为所述目标识别模型。
8.根据权利要求1至5任一项所述的认知状态识别方法,其特征在于,所述评估所述目标识别模型针对每一认知状态的识别性能,得到识别性能参数,包括:
将所述语音样本集拆分为预设数量的语音样本子集,得到所述预设数量的评估样本集,所述评估样本集包括每一认知状态对应的当前样本对象的语音样本;
利用所述目标识别模型预测所述当前样本对象的认知状态,以得到每一评估样本集对应的初始识别性能参数;
将所述初始识别性能参数进行融合,得到所述目标识别模型的识别性能参数。
9.根据权利要求8所述的认知状态识别方法,其特征在于,所述利用所述目标识别模型预测所述当前样本对象的认知状态,以得到每一评估样本集对应的初始识别性能参数,包括:
在所述评估样本集中确定出验证样本集,并将所述评估样本集中除所述验证样本集以外的评估样本集作为训练样本集;
采用所述训练样本集对所述目标识别模型进行训练,并采用训练后的目标识别模型预测所述验证样本集对应的当前样本对象的认知状态,以得到所述验证样本集对应的初始识别性能参数;
返回执行所述在所述评估样本集中确定出验证样本集的步骤,直至每一评估样本集均为所述验证样本集时为止,得到每一评估样本集对应的初始识别性能参数。
10.根据权利要求9所述的认知状态识别方法,其特征在于,所述采用训练后的目标识别模型预测所述验证样本集对应的当前样本对象的认知状态,以得到所述验证样本集对应的初始识别性能参数,包括:
采用训练后的目标识别模型预测所述验证样本集对应的当前样本对象的认知状态,得到所述当前样本对象的当前预测认知状态;
获取所述当前样本对象的标注认知状态,并基于所述标注认知状态和当前预测认知状态,确定所述验证样本集对应的至少一个基础识别性能参数;
将所述基础识别性能参数进行融合,得到所述验证样本集对应的初始识别性能参数。
11.根据权利要求10所述的认知状态识别方法,其特征在于,所述于所述标注认知状态和当前预测认知状态,确定所述验证样本集对应的至少一个基础识别性能参数,包括:
将所述标注认知状态与当前预测认知状态进行对比,得到每一当前样本对象的认知状态预测结果;
基于所述认知状态预测结果,在所述验证样本集中统计出正确样本数量和错误样本数量,所述正确样本数量包括认知状态预测正确的样本数量,所述错误样本数量包括认知状态预测错误的样本数量;
获取所述验证样本集的样本数量,并基于所述样本数量、正确样本数量和错误样本数量,确定所述验证样本集对应的至少一个基础识别性能参数。
12.根据权利要求11所述的认知状态识别方法,其特征在于,所述样本数量包括正样本数量和负样本数量,所述正确样本数量包括正确正样本数量和正确负样本数量,所述错误样本数量包括错误正样本数量和错误负样本数量,所述基于所述样本数量、正确样本数量和错误样本数量,确定所述验证样本集对应的至少一个基础识别性能参数,包括:
基于所述正样本数量、负样本数量、正确正样本数量、正确负样本数量、错误正样本数量和错误负样本数量,确定所述验证样本集对应的至少一个基础分类评价参数;
在所述基础分类评价参数中筛选出至少一个目标分类评价参数,并将所述目标分类评价参数进行融合,得到调和分类评价参数;
基于所述确正样本数量、错误负样本数量和样本数量,确定所述验证样本集对应的当前分类评估参数,并将所述基础分类评价参数、调和评价分类参数和当前分类评估参数作为所述基础识别性能参数。
13.根据权利要求10所述的认知状态识别方法,其特征在于,所述将所述基础识别性能参数进行融合,得到所述验证样本集对应的初始识别性能参数,包括:
获取每一基础识别性能参数对应的融合权重,并基于所述融合权重,对所述基础识别性能参数进行加权;
计算加权后的基础识别性能参数的均值,得到所述验证样本集对应的初始识别性能参数。
14.根据权利要求1至5任一项所述的认知状态识别方法,其特征在于,所述基于所述识别性能参数,利用所述目标识别模型在待识别对象的语音数据中识别出所述待识别对象的认知状态,包括:
当所述识别性能参数指示所述目标识别模型达到预设识别性能时,获取待识别对象在执行至少一个语言流畅性任务时的语音数据;
对所述语音数据进行多维特征提取,以得到所述待识别对象的目标多维度语音特征;
采用所述目标识别模型在所述目标多维度语音特征中识别出所述待识别对象对的认知状态。
15.根据权利要求1至5任一项所述的认知状态识别方法,其特征在于,所述获取语音样本集,包括:
获取样本对象集合中每一样本对象在执行至少一个语言流畅性任务下的语音数据,得到每一样本对象的样本语音数据;
获取所述样本对象的认知状态诊断信息和认知状态评估信息,并基于所述认知状态诊断信息和认知状态评估信息,确定所述样本对象的当前认知状态;
在所述样本语音数据中标注所述当前认知状态,以得到语音样本集。
16.根据权利要求1至5任一项所述的认知状态识别方法,其特征在于,所述对所述语音样本进行多维特征提取,得到所述语音样本子集中每一语音样本的多维度语音特征,包括:
对所述语音样本进行预处理,得到目标语音样本;
对所述目标语音样本进行多维特征提取,得到多个维度的初始语音特征;
对所述初始语音特征进行标准化,并将标准化后的初始语音特征作为所述语音样本的多维度语音特征。
17.一种认知状态识别装置,其特征在于,包括:
获取单元,用于获取语音样本集,并在所述语音样本集中采样出多个语音样本子集,所述语音样本子集包括至少一个样本对象的语音样本;
提取单元,用于对所述语音样本进行多维特征提取,得到所述语音样本子集中每一语音样本的多维度语音特征;
训练单元,用于基于所述多维度语音特征,对预设识别模型进行训练,以得到每一语音样本子集对应的候选识别模型;
评估单元,用于根据所述候选识别模型的网络参数,构建目标识别模型,并评估所述目标识别模型针对每一认知状态的识别性能,得到识别性能参数;
识别单元,用于基于所述识别性能参数,利用所述目标识别模型在待识别对象的语音数据中识别出所述待识别对象的认知状态。
18.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至16任一项所述的认知状态方法中的步骤。
19.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至16任一项所述的认知状态识别方法中的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至16任一项所述的认知状态识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128687.2A CN117219127A (zh) | 2023-08-30 | 2023-08-30 | 认知状态识别方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128687.2A CN117219127A (zh) | 2023-08-30 | 2023-08-30 | 认知状态识别方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117219127A true CN117219127A (zh) | 2023-12-12 |
Family
ID=89038071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311128687.2A Pending CN117219127A (zh) | 2023-08-30 | 2023-08-30 | 认知状态识别方法以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117219127A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648572A (zh) * | 2024-01-30 | 2024-03-05 | 西南石油大学 | 基于虚拟现实和集成学习的认知评估方法和*** |
-
2023
- 2023-08-30 CN CN202311128687.2A patent/CN117219127A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648572A (zh) * | 2024-01-30 | 2024-03-05 | 西南石油大学 | 基于虚拟现实和集成学习的认知评估方法和*** |
CN117648572B (zh) * | 2024-01-30 | 2024-04-05 | 西南石油大学 | 基于虚拟现实和集成学习的认知评估方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103730130B (zh) | 一种病理嗓音的检测*** | |
Tsanas et al. | Novel speech signal processing algorithms for high-accuracy classification of Parkinson's disease | |
Alghowinem et al. | A comparative study of different classifiers for detecting depression from spontaneous speech | |
Anupam et al. | Preliminary diagnosis of COVID-19 based on cough sounds using machine learning algorithms | |
Sujatha et al. | Performance evaluation of machine learning algorithms in the classification of Parkinson disease using voice attributes | |
KR20210075511A (ko) | 재난대응 추천방법 및 그 장치 | |
CN117219127A (zh) | 认知状态识别方法以及相关设备 | |
CN103578480B (zh) | 负面情绪检测中的基于上下文修正的语音情感识别方法 | |
CN116502742A (zh) | 一种基于梯度提升决策树的风险行为信息预测方法及*** | |
Lu et al. | Speech depression recognition based on attentional residual network | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Hashim et al. | Comparison of classifiers using robust features for depression detection on Bahasa Malaysia speech | |
Rosdi et al. | An FPN-based classification method for speech intelligibility detection of children with speech impairments | |
TJ et al. | D-ResNet-PVKELM: deep neural network and paragraph vector based kernel extreme machine learning model for multimodal depression analysis | |
CN115862897A (zh) | 一种基于临床数据的症候群监测方法及*** | |
Liu et al. | Comprehensive analysis of resting tremor based on acceleration signals of patients with Parkinson’s disease | |
Ade | Students performance prediction using hybrid classifier technique in incremental learning | |
Wang et al. | MFCC-based deep convolutional neural network for audio depression recognition | |
Tran et al. | Detecting network anomalies in mixed-attribute data sets | |
Zhang et al. | Multiple Classification Models Based Student's Phobia Prediction Study | |
CN116978106B (zh) | 批处理混合对比学习的跨模态情绪异常检测方法和装置 | |
Karaarslan et al. | Respiratory sound-base disease classification and characterization with deep/machine learning techniques | |
Shah et al. | Machine Learning-Based Approaches for Early Prediction of Depression | |
John | Practical cough detection in presence of background noise and preliminary differential diagnosis from cough sound using artificial intelligence | |
US20240099623A1 (en) | System and methods for diagnosing attention deficit hyperactivity disorder via machine learning and deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |