CN108763459A

CN108763459A - 基于心理测试及dnn算法的专业倾向分析方法及***

Info

Publication number: CN108763459A
Application number: CN201810523474.2A
Authority: CN
Inventors: 王春宁; 赵敏翔; 官晨晔
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-06
Anticipated expiration: 2038-05-28
Also published as: CN108763459B

Abstract

本发明公开了一种基于心理测试及DNN算法的专业倾向分析方法，包括：收集心理测试数据和高中成绩数据，存入样本数据库；从样本数据库中提取出属于该考生生源地的数据库子集；训练多标签DNN分类器，将该考生的心理测试数据和高中成绩数据输入多标签DNN分类器进行分类计算，得到初步专业倾向分析结果；根据该考生的设定的分析条件，对数据库子集中的样本数据进行筛选，筛选后训练多标签DNN分类器，将该考生心理测试数据和高中成绩数据输入多标签DNN分类器进行分类计算，得出最终专业倾向分析结果。本发明还提供了一种基于心理测试及DNN算法的专业倾向分析***。本发明的有益效果：去除人为主观性影响，匹配度更高，选择更为科学。

Description

基于心理测试及DNN算法的专业倾向分析方法及***

技术领域

本发明涉及数据分析技术领域，具体而言，涉及一种基于心理测试及DNN算法的专业倾向分析方法及***。

背景技术

随着国内社会对于青少年教育领域的重视程度及投入愈发逐年提高，学生的专业选择问题作为在一定意义上决定学生未来发展方向的决定性因素也受到了越来越多的重视。由于家长及学生所掌握的相关信息存在着缺失及信息不对称的问题，现阶段的学生专业选择主要包括以下几种：

1)某些报考公司或组织的人为选择；

2)学生及家长的主观选择；

3)利用霍兰德职业兴趣测验结果作为参考，根据此结果进行人为选择；

4)利用简单的数据库检索***进行相关数据的匹配。

总结来看，现有的专业选择技术，绝大多数需要人工进行经验性选择，受主观性影响较大，缺乏科学性，其选择效果一般较差。而部分应用数据库检索的***由于其采用的技术难以利用数据的深层次联系及特征，仅仅是进行简单的数据匹配，其精度较差，无法全面的利用数据来解决现有的专业选择问题。再有利用霍兰德职业兴趣测验进行专业选择的***，则存在不适用于我国国情及其存在测试结果为职业倾向，无法与现有大学专业进行较好的匹配的问题。

发明内容

为解决上述问题，本发明的目的在于提供一种基于心理测试及DNN算法的专业倾向分析方法及***，去除人为主观性影响，数据的匹配度更高，使得选择更为科学。

本发明提供了一种基于心理测试及DNN算法的专业倾向分析方法，包括：

步骤1，收集各类别、各高校、各级别、各专业、各生源地、各年级、各成绩水平、各毕业意向的高校生的心理测试数据和各科目、各题型的高中成绩数据，存入专业倾向样本数据库；

步骤2，从专业倾向样本数据库中提取出属于该考生生源地的数据库子集，数据库子集中所有的样本数据作为多标签DNN分类器的训练数据；

步骤3，通过数据库子集中所有的样本数据训练多标签DNN分类器，并将该考生的心理测试数据和高中成绩数据输入多标签DNN分类器进行分类计算，得到初步专业倾向分析结果；

步骤4，根据该考生的设定的分析条件，对数据库子集中的样本数据进行筛选，通过筛选后的样本数据训练多标签DNN分类器，并将该考生的心理测试数据和高中成绩数据输入筛选训练后的多标签DNN分类器进行分类计算，得出最终专业倾向分析结果。

作为本发明进一步的改进，步骤3具体包括：

步骤301，根据数据库子集中各年级样本在专业倾向分析中的年级影响因子i_grade；

步骤302，根据数据库子集中样本的高中成绩数据，计算得出其在专业倾向分析中的成绩影响因子i_goal；

步骤303，计算年级影响因子与成绩影响因子的乘积后，对其进行归一化处理，得到样本偏差：bias_sample＝Normal(i_grade*i_goal)；

步骤304，将数据库子集中的样本数据输入多标签DNN分类器进行前向传播，即每层将上一层输出视为输入，对输入根据连接权值进行加权运算，并加以偏置项后，通过激活函数得到该层输出，循环计算，输出各专业概率prob；

步骤305，通过对专业概率的计算结果与实际专业概率prob之间差异性的衡量，确定损失函数为L1：L1＝|prob-prob|；

步骤306，进行多标签DNN分类器的反向传播，采用随机梯度下降方法，沿着目标函数的梯度相反方向不断更新模型参数以使得目标函数达到极小值，其中，目标函数为θ＝θ-γ*▽_θL1(θ)，式中，更新步长γ为学习率，θ为每一层的权值；

步骤307，根据样本偏差对学习率进行调整，将样本偏差作为学习率的权值以修正学习率：γ′＝bias_sample*γ；

步骤308，不断输入数据库子集中的样本数据以训练多标签DNN分类器，直到损失函数L1收敛；

步骤309，完成对多标签DNN分类器的训练后，将该考生的心理测试数据和高中成绩数据作为多标签DNN分类器的输入，计算后输出选择各专业机率；

步骤310，根据选择各专业机率prob，以所有专业最大机率prob_max与最小机率prob_min为基准进行标准化，计算得出各专业的推荐指数index为

步骤311，对计算出来的各推荐指数进行从高到低的排名，即为初步专业倾向分析结果，并将排名结果推向该考生。

作为本发明进一步的改进，激活函数除了最后一层采用Sigmoid函数外，其余皆为ReLU函数。

作为本发明进一步的改进，训练多标签DNN分类器过程中，在网络中添加dropout层，网络的输出神经元个数等同于专业个数，各神经元中的值为选择各专业机率。

作为本发明进一步的改进，步骤4中，考生在设定分析条件时：

当给定目标高校类别时，则筛选出数据库子集中对应该高校类别的心理测试数据训练多标签DNN分类器；

当给定目标高校级别时，则筛选出数据库子集中对应该高校级别的心理测试数据训练多标签DNN分类器；

当给定有效学生成绩水平时，则筛选出数据库子集中对应该有效学生成绩水平的心理测试数据训练多标签DNN分类器；

当给定毕业意向时，则筛选出数据库子集中对应该毕业意向的心理测试数据训练多标签DNN分类器；

当给定高中成绩科目时，则筛选出数据库子集中对应该科目的高中成绩数据训练多标签DNN分类器；

当给定高中成绩题型时，则筛选出数据库子集中对应该科目的高中成绩数据训练多标签DNN分类器。

本发明还提供了一种基于心理测试及DNN算法的专业倾向分析***，包括：

数据收集模块，其用于收集各类别、各高校、各级别、各专业、各生源地、各年级、各成绩水平、各毕业意向的高校生的心理测试数据和各科目、各题型的高中成绩数据，存入专业倾向样本数据库；

数据提取模块，其用于从专业倾向样本数据库中提取出属于该考生生源地的数据库子集，数据库子集中所有的样本数据作为多标签DNN分类器的训练数据；

统筹倾向分析模块，其用于通过数据库子集中所有的样本数据训练DNN分类器，并将该考生的心理测试数据和高中成绩数据输入多标签DNN分类器进行分类计算，得到初步专业倾向分析结果；

条件倾向分析模块，其用于根据该考生的设定的分析条件，对数据库子集中的样本数据进行筛选，通过筛选后的样本数据训练多标签DNN分类器，并将该考生的心理测试数据和高中成绩数据输入筛选训练后的多标签DNN分类器进行分类计算，得出最终专业倾向分析结果。

作为本发明进一步的改进，统筹倾向分析模块具体包括：

年级影响因子模块，其用于根据数据库子集中各年级样本在专业倾向分析中的年级影响因子i_grade；

成绩影响因子模块，其用于根据数据库子集中样本的高中成绩数据，计算得出其在专业倾向分析中的成绩影响因子i_goal；

样本偏差模块，其用于计算年级影响因子与成绩影响因子的乘积后，对其进行归一化处理，得到样本偏差：bias_sample＝Normal(i_grade*i_goal)；

前向传播模块，其用于将数据库子集中的样本数据输入多标签DNN分类器进行前向传播，即每层将上一层输出视为输入，对输入根据连接权值进行加权运算，并加以偏置项后，通过激活函数得到该层输出，循环计算，输出各专业概率prob；

损失函数模块，其用于通过对专业概率的计算结果与实际专业概率prob之间差异性的衡量，确定损失函数为L1：L1＝|prob-prob|；

反向传播模块，其用于进行多标签DNN分类器的反向传播，采用随机梯度下降方法，沿着目标函数的梯度相反方向不断更新模型参数以使得目标函数达到极小值，其中，目标函数为θ＝θ-γ*▽_θL1(θ)，式中，更新步长γ为学习率，θ为每一层的权值；

学习率修正模块，其用于根据样本偏差对学习率进行调整，将样本偏差作为学习率的权值以修正学习率：γ′＝bias_sample*γ；

损失函数验证模块，其用于不断输入数据库子集中的样本数据以训练多标签DNN分类器，直到损失函数L1收敛；

选择各专业机率计算模块，其用于将该考生的心理测试数据和高中成绩数据作为多标签DNN分类器的输入，计算后输出选择各专业机率；

推荐指数计算模块，其用于根据选择各专业机率prob，以所有专业最大机率prob_max与最小机率prob_min为基准进行标准化，计算得出各专业的推荐指数index为

结果输出模块，其用于对计算出来的各推荐指数进行从高到低的排名，即为初步专业倾向分析结果，并将排名结果推向该考生。

作为本发明进一步的改进，条件倾向分析模块中，考生在设定分析条件时：

本发明的有益效果为：

1、去除了人工选择的主观性影响，更具备科学性，选择效果更好；

2、样本数据库囊括了多种数据，每一种数据设定多个标签，利用了数据深层次联系及其各自对应的特征，使得匹配精度更高；

3、还可对样本数据库中的数据进行精确设定，提取出设定条件下对应的数据，其他数据舍弃不进行训练，使得分析结果更为精确；

4、样本数据库中的心理测试数据更贴近国情，可实现与国内现有大学专业的更好的匹配。

附图说明

图1为本发明实施例所述的一种基于心理测试及DNN算法的专业倾向分析方法流程示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

实施例1，如图1所示，本发明实施例的一种基于心理测试及DNN算法的专业倾向分析方法，包括：

步骤1，收集各类别、各高校、各级别、各专业、各生源地、各年级、各成绩水平、各毕业意向的高校生的心理测试数据和各科目、各题型的高中成绩数据，存入专业倾向样本数据库。

国外编制的一般职业主题量表与经验性量表和同质性量表具有高度的一致性，对于进一步理解不同职业群体的兴趣特点是非常有益的，在实际使用中也得到了较为长远的发展，如美国大学测验中心的职业兴趣量表(ACT-VIP)、兴趣测查量表(ACT-IV)和UNISEX版兴趣量表(UNIACT-VIP)等，但由于国内外的文化环境差异与测试目的的差异造成了这些量表并不适用于国内大学专业倾向的测试。本申请的专业倾向的心理测试参考国内外较为成熟的职业倾向心理测试并综合考虑国内专业倾向测试的实际情况，将人格类型和专业环境分为多种类型，从而达到学生选择那些能够使自己的人格特点与专业环境要求达到最大限度匹配的专业的目的。具体考虑了几个方面：

1、结合国内有专业倾向测试需求学生的具体情况来建立量表，以国内当代目标群体为常模，避免了国内外被测试对象的社会性心理发展的不平衡以及考试***的差异带来的不兼容效应，产生的测题也将来自于目标群体的生活资料，删除了如：你是否喜欢开卡车或拖拉机？这种和当代国内目标群体生活关联性较小的题目，以对象的平时成绩作为预测的效标。

2、提高量表的同时效度和预测效度，在传统的自我定向探查表的第二部分，加入了朋友、教师或家长的评价，使测试结果的比较手段上更加丰富。

3、以国内的大学主要专业为考察目标，对国外职业兴趣自我定向探查表的职业码重新比较，编制一个新的专业码寻找表。

本申请专业倾向的心理测试与自我定向探查量表的结构类似，共分为四个部分。第一部分列出自己理想的专业，第二部分为测查主体部分，分别测量活动、潜能、爱好的职业、自我能力评定以及他人评价五个方面，每个方面都按相关的心理学理论编制测六种类型的项目，每个方面题数相同。第三部分为测量结果的罗列，按照得分由大到小取六种类型中前三种类型，并以它们代表的字母构成一个专业码。第四部分为专业寻找表，每种专业都有对应的专业码。

本申请的专业倾向样本数据库在收集数据时，主要包括定量问卷与定性访谈，前者的数据在本申请的专业倾向分析中起决定性作用，后者的数据则作为主补充数据。本申请的心理测试数据及测试结果、各高中成绩数据(包括最后若干次摸考各科目各题型成绩、大型权威竞赛成绩等)均属于前者，采集途径有线下物理采集与线上云采集两种，前者保持及时录入分析***，后者则直接与云数据库进行对接，以实现对样本数据库的实时云更新。

其中，心理测试数据中，各类别包括综合、理工、文科、军科、医科、师范、军校等，各级别包括顶尖、双一流、一本、二本、职专等，各专业包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等，各生源地包括北京、福建、内蒙等，各年级包括大一、大二、研一、毕业一年等，各成绩水平包括前1％、前5％、前10％、前20％等，各毕业意向包括保研、考研、考公务员、出国等；高中成绩数据中，各科目包括语文、数学、英语等，各题型包括例如语文的阅读理解、作文等。

步骤2，从专业倾向样本数据库中提取出属于该考生生源地的数据库子集，数据库子集中所有的样本数据作为多标签DNN分类器的训练数据。

考虑到生源地之间高中成绩数据不存在直接可比性，且地区间的文化差异也一定程度影响分析成分的倾向占比，因此，本申请对各个生源地分别进行分析，以提高分析的准确可靠性。

步骤3，通过数据库子集中所有的样本数据训练多标签DNN分类器，并将该考生的心理测试数据和高中成绩数据输入多标签DNN分类器进行分类计算，得到初步专业倾向分析结果。

步骤3具体包括：

步骤301，根据数据库子集中各年级样本在专业倾向分析中的年级影响因子i_grade。

步骤302，根据数据库子集中样本的高中成绩数据，计算得出其在专业倾向分析中的成绩影响因子i_goal。

例如，成绩影响因子可以为成绩水平的倒数，即若成绩水平为前1％，则成绩影响因子取为100。

步骤303，计算年级影响因子与成绩影响因子的乘积后，对其进行归一化处理，得到样本偏差：bias_sample＝Normal(i_grade*i_goal)。

步骤304，将数据库子集中的样本数据输入多标签DNN分类器进行前向传播，即每层将上一层输出视为输入，对输入根据连接权值进行加权运算，并加以偏置项后，通过激活函数得到该层输出，循环计算，输出各专业概率prob。

其中，激活函数除了最后一层采用Sigmoid函数外，其余皆为ReLU函数，训练多标签DNN分类器过程中，在网络中添加dropout层，网络的输出神经元个数等同于专业个数，各神经元中的值为选择各专业机率。网络结构的设计则主要根据对最终实验结果的比对完成，例如采用Encoder-Decoder模型。

步骤305，通过对专业概率prob的计算结果与实际专业概率prob之间差异性的衡量，确定损失函数为L1：L1＝|prob-prob|。

其中，专业概率prob的计算结果为机率向量，实际专业概率prob为0-1向量。

步骤306，进行多标签DNN分类器的反向传播，采用随机梯度下降方法，沿着目标函数的梯度相反方向不断更新模型参数以使得目标函数达到极小值，其中，目标函数为θ＝θ-γ*▽θL1(θ)，式中，更新步长γ为学习率，θ为每一层的权值。

步骤307，根据样本偏差对学习率进行调整，将样本偏差作为学习率的权值以修正学习率：γ′＝bias_sample*γ。

步骤308，不断输入数据库子集中的样本数据以训练多标签DNN分类器，直到损失函数L1收敛、准确率稳定。

步骤309，完成对多标签DNN分类器的训练后，将该考生的心理测试数据和高中成绩数据作为多标签DNN分类器的输入，计算后输出选择各专业机率。

为了进一步提高分析的精确度，考生可以根据自己的情况和需求设定条件，其中所指各条件主要包括对各高校类别、各高校级别的选定，各学生成绩水平、各学生毕业意向的截选，以及高中成绩各精确度的设定等等。具体如下：

当给定目标高校类别(如军校)时，则筛选出数据库子集中对应该高校类别的心理测试数据训练多标签DNN分类器。也即将数据库子集中标签为军校的数据作为训练数据，其他类别学校的数据不再输入分类器作为训练样本以免影响其分析结果。

当给定目标高校级别(如双一流)时，则筛选出数据库子集中对应该高校级别的心理测试数据训练多标签DNN分类器。也即将数据库子集中标签为双一流的数据作为训练数据，其他级别学校的数据不再输入分类器作为训练样本以免影响其分析结果。

当给定有效学生成绩水平(如前10％)时，则筛选出数据库子集中对应该有效学生成绩水平的心理测试数据训练多标签DNN分类器。也即将数据库子集中标签为前10％的学生成绩的数据作为训练数据，剩余90％的数据不再输入分类器作为训练样本以免影响其分析结果。

当给定毕业意向(如毕业后计划出国)时，则筛选出数据库子集中对应该毕业意向的心理测试数据训练多标签DNN分类器。也即将数据库子集中标签为出国的数据作为训练数据，其他意向(如考研、考公务员等)的数据不再输入分类器作为训练样本以免影响其分析结果，使得结果愈加精确。

当给定高中成绩科目(如语文)时，则筛选出数据库子集中对应该科目的高中成绩数据训练多标签DNN分类器。也即将数据库子集中标签为语文的数据作为训练数据，其他科目的数据不再输入分类器作为训练样本以免影响其分析结果。

当给定高中成绩题型(如语文的阅读理解)时，则筛选出数据库子集中对应该科目的高中成绩数据训练多标签DNN分类器。也即将数据库子集中标签为阅读理解的数据作为训练数据，其他题型的数据不再输入分类器作为训练样本以免影响其分析结果。

对筛选后的样本数据训练多标签DNN分类器时，其具体步骤与步骤3相同，这里不再详述。

实施例2，本发明实施例所述的一种基于心理测试及DNN算法的专业倾向分析***，包括：

数据收集模块，其用于收集各类别、各高校、各级别、各专业、各生源地、各年级、各成绩水平、各毕业意向的高校生的心理测试数据和各科目、各题型的高中成绩数据，存入专业倾向样本数据库。

数据提取模块，其用于从专业倾向样本数据库中提取出属于该考生生源地的数据库子集，数据库子集中所有的样本数据作为多标签DNN分类器的训练数据。

统筹倾向分析模块，其用于通过数据库子集中所有的样本数据训练DNN分类器，并将该考生的心理测试数据和高中成绩数据输入多标签DNN分类器进行分类计算，得到初步专业倾向分析结果。统筹倾向分析模块具体包括：

前向传播模块，其用于将数据库子集中的样本数据输入多标签DNN分类器进行前向传播，即每层将上一层输出视为输入，对输入根据连接权值进行加权运算，并加以偏置项后，通过激活函数得到该层输出，循环计算，输出各专业概率prob；其中，激活函数除了最后一层采用Sigmoid函数外，其余皆为ReLU函数，训练多标签DNN分类器过程中，在网络中添加dropout层，网络的输出神经元个数等同于专业个数，各神经元中的值为选择各专业机率；

反向传播模块，其用于进行多标签DNN分类器的反向传播，采用随机梯度下降方法，沿着目标函数的梯度相反方向不断更新模型参数以使得目标函数达到极小值，其中，目标函数为θ＝θ-γ*▽θL1(θ)，式中，更新步长γ为学习率，θ为每一层的权值；

条件倾向分析模块中，考生在设定分析条件时：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于心理测试及DNN算法的专业倾向分析方法，其特征在于，包括：

2.根据权利要求1所述的专业倾向分析方法，其特征在于，步骤3具体包括：

步骤306，进行多标签DNN分类器的反向传播，采用随机梯度下降方法，沿着目标函数的梯度相反方向不断更新模型参数以使得目标函数达到极小值，其中，目标函数为式中，更新步长γ为学习率，θ为每一层的权值；

3.根据权利要求2所述的专业倾向分析方法，其特征在于，激活函数除了最后一层采用Sigmoid函数外，其余皆为ReLU函数。

4.根据权利要求2所述的专业倾向分析方法，其特征在于，训练多标签DNN分类器过程中，在网络中添加dropout层，网络的输出神经元个数等同于专业个数，各神经元中的值为选择各专业机率。

5.根据权利要求1所述的专业倾向分析方法，其特征在于，步骤4中，考生在设定分析条件时：

6.一种基于心理测试及DNN算法的专业倾向分析***，其特征在于，包括：

7.根据权利要求6所述的专业倾向分析***，其特征在于，统筹倾向分析模块具体包括：

反向传播模块，其用于进行多标签DNN分类器的反向传播，采用随机梯度下降方法，沿着目标函数的梯度相反方向不断更新模型参数以使得目标函数达到极小值，其中，目标函数为式中，更新步长γ为学习率，θ为每一层的权值；

8.根据权利要求7所述的专业倾向分析***，其特征在于，激活函数除了最后一层采用Sigmoid函数外，其余皆为ReLU函数。

9.根据权利要求7所述的专业倾向分析***，其特征在于，训练多标签DNN分类器过程中，在网络中添加dropout层，网络的输出神经元个数等同于专业个数，各神经元中的值为选择各专业机率。

10.根据权利要求6所述的专业倾向分析***，其特征在于，条件倾向分析模块中，考生在设定分析条件时：