CN108763246A - 人员分组方法及装置、存储介质、电子设备 - Google Patents
人员分组方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN108763246A CN108763246A CN201810273041.6A CN201810273041A CN108763246A CN 108763246 A CN108763246 A CN 108763246A CN 201810273041 A CN201810273041 A CN 201810273041A CN 108763246 A CN108763246 A CN 108763246A
- Authority
- CN
- China
- Prior art keywords
- phrase
- classification
- sample
- vectorization
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 114
- 238000013145 classification model Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 30
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000013139 quantization Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种人员分组方法及装置、存储介质、电子设备。该方法包括:获取待分配人员的关注信息,将所述关注信息拆分为至少一个短语,获取每个短语的向量化表示;基于短语的向量化表示进行聚类处理,得到M1个第一类别,每个第一类别表示一种维度信息,M1≥1;设置每个维度信息对应的权重,利用所述维度信息以及该维度信息对应的权重,得到所述待分配人员的分组结果。如此方案,有助于提高分组结果的准确性、合理性,进而提高待分配人员对分组结果的满意度。
Description
技术领域
本公开涉及信息处理技术领域,具体地,涉及一种人员分组方法及装置、存储介质、电子设备。
背景技术
在日常生活中,经常会遇到人员分组问题。例如,学校、企业针对学生或员工分配宿舍,班级针对学生划分学习小组,部门针对员工划分工作小组等等,均涉及人员分组问题。
为了提高分组的合理性,通常会预先设置一些与分组相关的维度信息,再根据这些维度信息进行聚类分析,得到最终的分组结果。以学校分配学生宿舍为例,可能考虑的维度信息有:年级、院系、性别、年龄、作息时间、爱好,可以人为设置各维度信息的权重值,计算学生在各维度信息下的加权和,并依据加权和对学生进行聚类处理,得到的聚类结果即为宿舍分配的分组结果。
如此分配方案,通常会选取一些常用信息作为维度信息,维度信息比较固定,且未考虑待分配人员比较关注的个性维度信息,导致分组结果的准确性、合理性较低,影响人员对分组结果的满意度。
发明内容
本公开的主要目的是提供一种人员分组方法及装置、存储介质、电子设备,有助于提高分组结果的准确性、合理性,进而提高待分配人员对分组结果的满意度。
为了实现上述目的,本公开提供一种人员分组方法,所述方法包括:
获取待分配人员的关注信息,将所述关注信息拆分为至少一个短语,获取每个短语的向量化表示;
基于短语的向量化表示进行聚类处理,得到M1个第一类别,每个第一类别表示一种维度信息,M1≥1;
设置每个维度信息对应的权重,利用所述维度信息以及该维度信息对应的权重,得到所述待分配人员的分组结果。
可选地,所述获取每个短语的向量化表示,包括:
获取每个短语的初始向量化表示,并基于短语的初始向量化表示进行聚类处理,得到M2个第二类别,M2>1;
将从所述M2个第二类别中选取出的第一样本短语,两两组合为第一样本短语对,并获取每个第一样本短语对的标注信息,所述标注信息为相似或者不相似;
利用所述第一样本短语对以及该第一样本短语对的标注信息,训练得到短语分类模型,所述短语分类模型包括用于进行向量化处理的短语表示层;
将所述关注信息拆分出的短语作为输入,经所述短语表示层输出新的向量化表示,作为所述短语的向量化表示。
可选地,在获得所述短语的新的向量化表示后,所述获取每个短语的向量化表示还包括:
基于短语的新的向量化表示进行聚类处理,得到M3个第三类别,M3>1;
选取距离差(d2-d1)最小的N1个第二样本短语,d1为所述第二样本短语与最近的第三类别的类中心的距离,d2为所述第二样本短语与次近的第三类别的类中心的距离;
将所述第二样本短语与最近的第三类别的类中心,和/或所述第二样本短语与次近的第三类别的类中心,两两组合为第二样本短语对,并获取每个第二样本短语对的标注信息;
利用所述第二样本短语对以及该第二样本短语对的标注信息,更新所述短语分类模型,直至更新后的短语分类模型满足预设条件为止,所述更新后的短语分类模型包括更新后的短语表示层;
将所述关注信息拆分出的短语作为输入,经所述更新后的短语表示层输出更新向量化表示,作为所述短语的向量化表示。
可选地,所述方法还包括:
获取所述待分配人员针对所述分组结果的反馈信息,以及每条反馈信息的向量化表示;
基于反馈信息的向量化表示进行聚类处理,得到M4个第四类别,每个第四类别对应一种满意度等级,M4≥1;
判断所述M4个第四类别中是否包括待调整类别,所述待调整类别对应的满意度等级用于表示属于所述待调整类别的待调整人员不满意所述分组结果,所述待调整人员属于所述待分配人员;
如果所述M4个第四类别中包括所述待调整类别,则获取所述待调整人员的分组更新信息;
利用所述分组更新信息,调整所述待调整人员的分组结果。
可选地,所述获取每条反馈信息的向量化表示,包括:
获取每条反馈信息的初始向量化表示,并基于反馈信息的初始向量化表示进行聚类处理,得到M5个第五类别,M5>1;
从所述M5个第五类别中选取第一样本反馈信息,并标注每个第一样本反馈信息的满意度等级;
利用所述第一样本反馈信息以及该第一样本反馈信息的满意度等级,训练得到满意度分类模型,所述满意度分类模型包括用于进行向量化处理的文本表示层;
将所述反馈信息作为输入,经所述文本表示层输出新的向量化表示,作为所述反馈信息的向量化表示。
可选地,在获得所述反馈信息的新的向量化表示后,所述获取每条反馈信息的向量化表示还包括:
基于反馈信息的新的向量化表示进行聚类处理,得到M6个第六类别,M6>1;
选取距离差(d4-d3)最小的N2个第二样本反馈信息,并标注每个第二样本反馈信息的满意度等级,d3为第二样本反馈信息与最近的第六类别的类中心的距离,d4为第二样本反馈信息与次近的第六类别的类中心的距离;
基于所述第一样本反馈信息的满意度等级、所述第二样本反馈信息的满意度等级、以及除所述第一样本反馈信息和所述第二样本反馈信息之外的剩余反馈信息的满意度等级,计算更新类中心,所述剩余反馈信息的满意度等级由所述剩余反馈信息所属的类别确定;
基于所述更新类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的更新类别,每个更新类别对应一个更新类中心;
利用所述反馈信息以及所述反馈信息所属的更新类别,更新所述满意度分类模型,直至更新后的满意度分类模型满足预定条件为止,所述更新后的满意度分类模型包括更新后的文本表示层;
将所述反馈信息作为输入,经所述更新后的文本表示层输出更新向量化表示,作为所述反馈信息的向量化表示。
可选地,所述得到M6个第六类别后,所述获取每条反馈信息的向量化表示还包括:
确定出M7个可用类中心,所述M7个可用类中心与所述M6个第六类别的类中心之间的距离不小于预设距离;
基于新的类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的新的类别,每个新的类别对应一个新的类中心,所述新的类中心包括所述M7个可用类中心和所述M6个第六类别的类中心;
则,按照以下方式选取所述第二样本反馈信息:选取距离差(d6-d5)最小的N2个第二样本反馈信息,d5为第二样本反馈信息与最近的新的类中心的距离,d6为第二样本反馈信息与次近的新的类中心的距离。
本公开提供一种人员分组装置,所述装置包括:
关注信息拆分模块,用于获取待分配人员的关注信息,将所述关注信息拆分为至少一个短语;
短语向量化表示获取模块,用于获取每个短语的向量化表示;
短语聚类处理模块,用于基于短语的向量化表示进行聚类处理,得到M1个第一类别,每个第一类别表示一种维度信息,M1≥1;
分组结果得到模块,用于设置每个维度信息对应的权重,利用所述维度信息以及该维度信息对应的权重,得到所述待分配人员的分组结果。
可选地,所述短语向量化表示获取模块包括:
第一向量化表示获取模块,用于获取每个短语的初始向量化表示;
第一聚类处理模块,用于基于短语的初始向量化表示进行聚类处理,得到M2个第二类别,M2>1;
第一样本短语选取模块,用于将从所述M2个第二类别中选取出的第一样本短语,两两组合为第一样本短语对,并获取每个第一样本短语对的标注信息,所述标注信息为相似或者不相似;
短语分类模型训练模块,用于利用所述第一样本短语对以及该第一样本短语对的标注信息,训练得到短语分类模型,所述短语分类模型包括用于进行向量化处理的短语表示层;
第二向量化表示输出模块,用于将所述关注信息拆分出的短语作为输入,经所述短语表示层输出新的向量化表示,作为所述短语的向量化表示。
可选地,所述短语向量化表示获取模块还包括:
第二聚类处理模块,用于在获得所述短语的新的向量化表示后,基于短语的新的向量化表示进行聚类处理,得到M3个第三类别,M3>1;
第二样本短语选取模块,用于选取距离差(d2-d1)最小的N1个第二样本短语,d1为所述第二样本短语与最近的第三类别的类中心的距离,d2为所述第二样本短语与次近的第三类别的类中心的距离;将所述第二样本短语与最近的第三类别的类中心,和/或所述第二样本短语与次近的第三类别的类中心,两两组合为第二样本短语对,并获取每个第二样本短语对的标注信息;
短语分类模型更新模块,用于利用所述第二样本短语对以及该第二样本短语对的标注信息,更新所述短语分类模型,直至更新后的短语分类模型满足预设条件为止,所述更新后的短语分类模型包括更新后的短语表示层;
第三向量化表示输出模块,用于将所述关注信息拆分出的短语作为输入,经所述更新后的短语表示层输出更新向量化表示,作为所述短语的向量化表示。
可选地,所述装置还包括:
反馈信息获取模块,用于获取所述待分配人员针对所述分组结果的反馈信息;
反馈信息向量化表示获取模块,用于获取每条反馈信息的向量化表示;
反馈信息聚类处理模块,用于基于反馈信息的向量化表示进行聚类处理,得到M4个第四类别,每个第四类别对应一种满意度等级,M4≥1;
待调整类别判断模块,用于判断所述M4个第四类别中是否包括待调整类别,所述待调整类别对应的满意度等级用于表示属于所述待调整类别的待调整人员不满意所述分组结果,所述待调整人员属于所述待分配人员;
分组更新信息获取模块,用于在所述M4个第四类别中包括所述待调整类别时,获取所述待调整人员的分组更新信息;
分组结果调整模块,用于利用所述分组更新信息,调整所述待调整人员的分组结果。
可选地,所述反馈信息向量化表示获取模块包括:
第四向量化表示获取模块,用于获取每条反馈信息的初始向量化表示;
第三聚类处理模块,用于基于反馈信息的初始向量化表示进行聚类处理,得到M5个第五类别,M5>1;
第一样本反馈信息选取模块,用于从所述M5个第五类别中选取第一样本反馈信息,并标注每个第一样本反馈信息的满意度等级;
满意度分类模型训练模块,用于利用所述第一样本反馈信息以及该第一样本反馈信息的满意度等级,训练得到满意度分类模型,所述满意度分类模型包括用于进行向量化处理的文本表示层;
第五向量化表示输出模块,用于将所述反馈信息作为输入,经所述文本表示层输出新的向量化表示,作为所述反馈信息的向量化表示。
可选地,所述反馈信息向量化表示获取模块还包括:
第四聚类处理模块,用于在获得所述反馈信息的新的向量化表示后,基于反馈信息的新的向量化表示进行聚类处理,得到M6个第六类别,M6>1;
第二样本反馈信息选取模块,用于选取距离差(d4-d3)最小的N2个第二样本反馈信息,并标注每个第二样本反馈信息的满意度等级,d3为第二样本反馈信息与最近的第六类别的类中心的距离,d4为第二样本反馈信息与次近的第六类别的类中心的距离;
更新类中心计算模块,用于基于所述第一样本反馈信息的满意度等级、所述第二样本反馈信息的满意度等级、以及除所述第一样本反馈信息和所述第二样本反馈信息之外的剩余反馈信息的满意度等级,计算更新类中心,所述剩余反馈信息的满意度等级由所述剩余反馈信息所属的类别确定;
第五聚类处理模块,用于基于所述更新类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的更新类别,每个更新类别对应一个更新类中心;
满意度分类模型更新模块,用于利用所述反馈信息以及所述反馈信息所属的更新类别,更新所述满意度分类模型,直至更新后的满意度分类模型满足预定条件为止,所述更新后的满意度分类模型包括更新后的文本表示层;
第六向量化表示输出模块,用于将所述反馈信息作为输入,经所述更新后的文本表示层输出更新向量化表示,作为所述反馈信息的向量化表示。
可选地,所述反馈信息向量化表示获取模块还包括:
可用类中心确定模块,用于在所述得到M6个第六类别后,确定出M7个可用类中心,所述M7个可用类中心与所述M6个第六类别的类中心之间的距离不小于预设距离;
第六聚类处理模块,用于基于新的类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的新的类别,每个新的类别对应一个新的类中心,所述新的类中心包括所述M7个可用类中心和所述M6个第六类别的类中心;
则,所述第二样本反馈信息选取模块,用于选取距离差(d6-d5)最小的N2个第二样本反馈信息,d5为第二样本反馈信息与最近的新的类中心的距离,d6为第二样本反馈信息与次近的新的类中心的距离。
本公开提供一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述人员分组方法的步骤。
本公开提供一种电子设备,所述电子设备包括;
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本公开方案中,可以分析待分配人员的关注信息,以聚类方式确定出更能体现待分配人员需求的维度信息,进而基于确定出的维度信息进行人员分组,相对于现有技术仅通过常用维度信息进行人员分组的方案,本公开方案有助于提高分组结果的准确性、合理性,进而提高待分配人员对分组结果的满意度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本公开方案人员分组方法实施例1的流程示意图;
图2为本公开方案中获取短语的向量化表示实施例1的流程示意图;
图3为本公开方案中短语分类模型的网络示意图;
图4为本公开方案中获取短语的向量化表示实施例2的流程示意图;
图5为本公开方案人员分组方法实施例2的流程示意图;
图6为本公开方案中获取反馈信息的向量化表示实施例1的流程示意图;
图7为本公开方案中满意度分类模型的网络示意图;
图8为本公开方案中中间节点对应的节点示意图;
图9为本公开方案中获取反馈信息的向量化表示实施例2的流程示意图;
图10为本公开方案人员分组装置的构成示意图;
图11为本公开方案用于人员分组的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
参见图1,示出了本公开人员分组方法实施例1的流程示意图。可以包括以下步骤:
S101,获取待分配人员的关注信息,将所述关注信息拆分为至少一个短语,获取每个短语的向量化表示。
为了提高分组结果的准确性、合理性,本公开方案可以基于待分配人员关注的信息,进行维度分析,确定出更能体现待分配人员需求的维度信息。可以理解地,本公开方案确定出的维度信息是相对现有技术中的常用维度信息而言的,并非代表单个待分配人员个性化需求的维度信息,也即,本公开方案确定出的维度信息也是待分配人员具有的共性需求,只不过现有技术可能未将其作为影响分组结果的因素。
作为一种示例,可以通过问卷调查的方式,获得待分配人员的关注信息,本公开方案对此可不做具体限定。获得关注信息后,可以对关注信息进行拆分处理,得到至少一个短语,通过分析这些短语,发现用于体现待分配人员需求的维度信息。可以理解地,在实际应用过程中,进行短语拆分时,可以滤除掉一些自身并无明确意义的停用词,例如“的”、“在”等,本公开方案对此可不做具体限定。
S102,基于短语的向量化表示进行聚类处理,得到M1个第一类别,每个第一类别表示一种维度信息,M1≥1。
本公开方案可以在获得短语的向量化表示后,基于此进行聚类处理,得到M1个第一类别,即发现M1个维度信息。举例来说,可以通过k-means算法、K近邻算法等进行聚类处理,本公开方案对此可不做具体限定。
在实际应用过程中,从关注信息中拆分出的短语可能存在大量的同义词,为了提高同义短语的聚类准确度,可以基于word embedding(中文:词嵌入)方式,获得短语的向量化表示,进而基于短语的向量化表示进行聚类处理。
作为一种示例,可以先基于通用语料库得到短语包括的每个单词的向量化表示;再将每个单词的向量化表示的均值,确定为短语的初始向量化表示,进而基于短语的初始向量化表示进行聚类处理,得到M1个第一类别。
此外,考虑到通用语料库与关注信息拆分出的短语形成的语料库之间具有一定的差异,为了提高短语向量化表示的准确性,本公开方案还提供一种新的获取短语的向量化表示的方法,具体可参见下文图2、图4处所做介绍,此处暂不详述。
S103,设置每个维度信息对应的权重,利用所述维度信息以及该维度信息对应的权重,得到所述待分配人员的分组结果。
基于关注信息拆分出的短语,得到M1个维度信息后,可以设置每个维度信息对应的权重,进而基于维度信息和维度信息对应的权重计算加权和,并依据加权和对待分配人员进行聚类处理,得到的聚类结果即为待分配人员的分组结果。作为一种示例,可以人为设置各维度信息的权重值,本公开方案对此可不做具体限定。
在实际应用过程中,可以仅基于发现的维度信息进行人员分组,或者可以综合发现的维度信息以及现有的常用维度信息进行人员分组;对于发现的维度信息来说,可以基于M1个维度信息进行人员分组,或者可以基于从M1个维度信息中选取出的部分维度信息进行人员分组。本公开方案对利用维度信息进行人员分组的具体实现方式可不做限定,具体可结合实际应用需求确定。
综上,本公开方案通过分析待分配人员的关注信息,以聚类方式确定出M1个更能体现待分配人员需求的维度信息,相对于现有技术仅通过常用维度信息进行人员分组的方案,本公开方案有助于提高分组结果的准确性、合理性,进而提高待分配人员对分组结果的满意度。
参见图2,示出了本公开获取短语的向量化表示实施例1的流程示意图。可以包括以下步骤:
S201,获取每个短语的初始向量化表示,并基于短语的初始向量化表示进行聚类处理,得到M2个第二类别,M2>1。
S202,将从所述M2个第二类别中选取出的第一样本短语,两两组合为第一样本短语对,并获取每个第一样本短语对的标注信息,所述标注信息为相似或者不相似。
按照上文所做介绍,基于通用语料库得到短语的初始向量化表示后,可以先利用短语的初始向量化表示进行一次聚类处理,得到M2个第二类别,考虑到短语的初始向量化表示的准确性相对较低,由此得到的M2个第二类别的准确性也相对较低。针对于此,本公开方案可以训练一个包括短语表示层的短语分类模型,通过短语表示层对关注信息中拆分出的短语进行向量化处理,可以提高向量化表示的准确性,进而提高聚类准确性。
具体地,训练短语分类模型的样本数据可以包括:
(1)第一样本短语对。具体地,可以先从M2个第二类别中选取出第一样本短语,再将第一样本短语两两组合得到第一样本短语对。
(2)第一样本短语对的标注信息。具体地,标注信息可以体现为相似或者不相似,可以人为设置第一样本短语对的标注信息。
作为一种示例,可以随机从M2个第二类别中选取第一样本短语;或者,可以从位于第二类别的边界处、容易混叠的短语中,选取第一样本短语。具体地,可以分别计算各短语与最近的第二类别的类中心的距离dM21、各短语与次近的第二类别的类中心的距离dM22;通常,短语对应的距离差(dM22-dM21)越大,越不容易出现类间混叠,故可根据(dM22-dM21)对短语进行排序,选取一定数量的距离差最小的短语作为第一样本短语。
本公开方案对选取第一样本短语的方式、第一样本短语的数量、第一样本短语对的数量可不做具体限定,为了保证训练用样本的数据均衡性,可以使类内短语组成的第一样本短语对、类间短语组成的第一样本短语对的数量相当,以使训练得到的短语分类模型具有较好的区分性。
作为一种示例,基于短语的初始向量化表示进行聚类处理,可以具体体现为自动聚类,即不限定第二类别的数量;或者,为了提高聚类效率,还可以通过设置超参的方式,预先确定好第二类别的数量,再进行聚类。本公开方案对聚类处理的具体实现方式可不做限定。
S203,利用所述第一样本短语对以及该第一样本短语对的标注信息,训练得到短语分类模型,所述短语分类模型包括用于进行向量化处理的短语表示层。
作为一种示例,可以利用图3所示网络训练短语分类模型。其中,短语表示层包括左右两部分,这两部分具有相同的网络层,各网络层之间的权重也保持一致,即左右两部分共享参数,模型的输入为第一样本短语对,模型的输出为第一样本短语对的标注信息。举例来说,短语表示层的拓扑结构可以体现为CNN(英文:Convolutional Neural Network,中文:卷积神经网络)、RNN(英文:Recurrent Neural Network,中文:循环神经网络)、递归自编码Recursive Autoencoder等,本公开方案对此可不做具体限定。
具体地,第一样本短语对中的两个短语分别输入短语表示层的左右两部分,经卷积层、池化层、全连接层后,得到短语的向量化表示;然后,由串联层将短语表示层输出的两个向量化表示结果进行拼接合并,再经前馈层输出该第一样本短语对的标注信息。可以理解地,当短语分类模型输出的第一样本短语对的标注信息,与人为设置的标注信息相符时,可以认为模型训练完成。
S204,将所述关注信息拆分出的短语作为输入,经所述短语表示层输出新的向量化表示,作为所述短语的向量化表示。
相对于通用语料库,利用关注信息拆分出的短语训练得到的短语分类模型,进行向量化处理的准确性更高,故可以将短语表示层输出的新的向量化表示,作为短语的向量化表示。对应地,S102可以基于短语的新的向量化表示进行聚类处理,得到M1个第一类别。
参见图4,示出了本公开获取短语的向量化表示实施例2的流程示意图。可以包括以下步骤:
S301,获取每个短语的初始向量化表示,并基于短语的初始向量化表示进行聚类处理,得到M2个第二类别,M2>1。
S302,将从所述M2个第二类别中选取出的第一样本短语,两两组合为第一样本短语对,并获取每个第一样本短语对的标注信息,所述标注信息为相似或者不相似。
S303,利用所述第一样本短语对以及该第一样本短语对的标注信息,训练得到短语分类模型,所述短语分类模型包括用于进行向量化处理的短语表示层。
S304,将所述关注信息拆分出的短语作为输入,经所述短语表示层输出新的向量化表示。
步骤S301~S304的实现过程,可参照上文S201~S204处所做介绍,此处不再赘述。
S305,基于短语的新的向量化表示进行聚类处理,得到M3个第三类别,M3>1。
S306,选取距离差(d2-d1)最小的N1个第二样本短语,d1为所述第二样本短语与最近的第三类别的类中心的距离,d2为所述第二样本短语与次近的第三类别的类中心的距离。
S307,将所述第二样本短语与最近的第三类别的类中心,和/或所述第二样本短语与次近的第三类别的类中心,两两组合为第二样本短语对,并获取每个第二样本短语对的标注信息。
为了进一步提高短语向量化表示的准确性,本公开方案还提供一种优化短语分类模型的方案。具体地,优化短语分类模型的样本数据可以包括:
(1)第二样本短语对。
具体地,可以先基于短语的新的向量化表示进行聚类处理,得到M3个第三类别;然后从位于第三类别的边界处、容易混叠的短语中,选取出第二样本短语;再将第二样本短语与对应的类中心两两组合,得到第二样本短语对。
作为一种示例,选取第二样本短语的方式可以体现为:分别计算各短语与最近的第三类别的类中心的距离d1、各短语与次近的第三类别的类中心的距离d2;通常,短语对应的距离差(d2-d1)越大,越不容易出现类间混叠,故可根据(d2-d1)对短语进行排序,选取最小的前N1个短语作为第二样本短语。在实际应用过程中,可以优先从除第一样本短语之外的短语中选取第二样本短语,本公开方案对此可不做具体限定。
上文所说将第二样本短语与对应的类中心两两组合指的是,将第二样本短语与最近的第三类别的类中心,和/或将第二样本短语与次近的第三类别的类中心,两两组合得到第二样本短语对。
此外,需要说明的是,M3个第三类别可以通过自动聚类,或者设置超参的方式进行聚类处理,本公开方案对此可不做具体限定。
(2)第二样本短语对的标注信息。具体地,标注信息可以体现为相似或者不相似,可以人为设置第二样本短语对的标注信息。
S308,利用所述第二样本短语对以及该第二样本短语对的标注信息,更新所述短语分类模型,直至更新后的短语分类模型满足预设条件为止,所述更新后的短语分类模型包括更新后的短语表示层。
本公开方案中,满足预设条件可以体现为:短语分类模型更新迭代的次数不小于预设次数;或者,利用更新后的短语表示层输出的更新向量化表示进行聚类处理,满足以下条件:(d2-d1)不小于预设距离差;或者,(d2-d1)不小于预设距离差的短语数量不小于预设数量,等等,本公开方案对预设条件、预设次数、预设距离差、预设数量等不做限定,具体可结合实际应用需求设置。
S309,将所述关注信息拆分出的短语作为输入,经所述更新后的短语表示层输出更新向量化表示,作为所述短语的向量化表示。
利用第二样本短语对优化更新后的短语分类模型,可以进一步提高向量化表示的准确性,故可以将更新后的短语表示层输出的更新向量化表示,作为短语的向量化表示。对应地,S102可以基于短语的更新向量化表示进行聚类处理,得到M1个第一类别。
作为一种示例,为了进一步提高分组结果的准确性、合理性,本公开方案还提供一种基于待分配人员的反馈信息,调整分组结果的方案。参见图5,示出了本公开人员分组方法实施例2的流程示意图。可以包括以下步骤:
S401,获取所述待分配人员针对所述分组结果的反馈信息,以及每条反馈信息的向量化表示。
按照图1所示方法得到待分配人员的分组结果后,还可以获取待分配人员针对分组结果的反馈信息,进而基于反馈信息优化分组结果,进一步提高待分配人员对分组结果的满意度。
作为一种示例,可以通过问卷调查、定期回访等方式,获得待分配人员的反馈信息,本公开方案对此可不做具体限定。
S402,基于反馈信息的向量化表示进行聚类处理,得到M4个第四类别,每个第四类别对应一种满意度等级,M4≥1。
本公开方案可以在获得反馈信息的向量化表示后,基于此进行聚类处理,得到M4个第四类别,可以人为标注每个第四类别对应的满意度等级,例如,满意度等级可以是满意、一般、不满意,本公开方案对满意度等级的数量可不做具体限定。举例来说,可以通过k-means算法、K近邻算法等进行聚类处理,本公开方案对此可不做具体限定。
作为一种示例,可以先基于通用语料库得到反馈信息包括的每个单词的向量化表示;再将每个单词的向量化表示的均值,确定为反馈信息的初始向量化表示,进而基于反馈信息的初始向量化表示进行聚类处理,得到M4个第四类别。
此外,考虑到通用语料库与反馈信息形成的语料库之间具有一定的差异,为了提高反馈信息向量化表示的准确性,本公开方案还提供一种新的获取反馈信息的向量化表示的方法,具体可参见下文图6、图9处所做介绍,此处暂不详述。
S403,判断所述M4个第四类别中是否包括待调整类别,所述待调整类别对应的满意度等级用于表示属于所述待调整类别的待调整人员不满意所述分组结果,所述待调整人员属于所述待分配人员。
基于反馈信息,得到M4个第四类别以及每个第四类别对应的满意度等级后,可以判断其中是否包括待调整类别。如果不存在待调整类别,说明全部待分配人员均对图1所示方法得到的分组结果满意;否则说明部分待分配人员对图1所示方法得到的分组结果不满意,即存在待调整人员。
举例来说,如果聚类得到2个第四类别,对应的满意度等级分别为:满意、不满意,可以将表示不满意的第四类别确定为待调整类别。举例来说,如果聚类得到4个第四类别,对应的满意度等级分别为:满意、一般、不满意、极不满意,可以根据需求将表示不满意和/或极不满意的第四类别确定为待调整类别。本公开方案对待调整类别对应的满意度等级可不做限定,具体可由实际应用需求确定。
S404,如果所述M4个第四类别中包括所述待调整类别,则获取所述待调整人员的分组更新信息。
S405,利用所述分组更新信息,调整所述待调整人员的分组结果。
经S403判定存在待调整类别时,可以获取属于该类别的待调整人员的分组更新信息,进而根据分组更新信息调整各待调整人员的分组结果,以提高待调整人员对分组结果的满意度。作为一种示例,待调整人员的分组更新信息可以由外部人员输入,本公开方案对此可不做具体限定。
参见图6,示出了本公开获取反馈信息的向量化表示实施例1的流程示意图。可以包括以下步骤:
S501,获取每条反馈信息的初始向量化表示,并基于反馈信息的初始向量化表示进行聚类处理,得到M5个第五类别,M5>1。
S502,从所述M5个第五类别中选取第一样本反馈信息,并标注每个第一样本反馈信息的满意度等级。
按照上文所做介绍,基于通用语料库得到反馈信息的初始向量化表示后,可以先利用反馈信息的初始向量化表示进行一次聚类处理,得到M5个第五类别,考虑到反馈信息的初始向量化表示的准确性相对较低,由此得到的M5个第五类别的准确性也相对较低。针对于此,本公开方案可以训练一个包括文本表示层的满意度分类模型,通过文本表示层对反馈信息进行向量化处理,可以提高向量化表示的准确性,进而提高聚类准确性。
具体地,训练满意度分类模型的样本数据可以包括:
(1)第一样本反馈信息。具体地,可以从M5个第五类别中选取出第一样本反馈信息。
(2)第一样本反馈信息的满意度等级。具体地,满意度等级可以体现为满意、一般、不满意、极不满意中的至少一种,可以人为设置第一样本反馈信息的满意度等级。
作为一种示例,可以随机从M5个第五类别中选取第一样本反馈信息;或者,可以从位于第五类别的边界处、容易混叠的反馈信息中,选取第一样本反馈信息。具体地,可以分别计算各反馈信息与最近的第五类别的类中心的距离dM51、各反馈信息与次近的第五类别的类中心的距离dM52;通常,反馈信息对应的距离差(dM52-dM51)越大,越不容易出现类间混叠,故可根据(dM52-dM51)对反馈信息进行排序,选取一定数量的距离差最小的反馈信息作为第一样本反馈信息。
本公开方案对选取第一样本反馈信息的方式、第一样本反馈信息的数量可不做具体限定,为了保证训练用样本的数据均衡性,可以使不同满意度等级的第一样本反馈信息的数量相当,以使训练得到的满意度分类模型具有较好的区分性。
作为一种示例,M5个第五类别可以通过自动聚类,或者设置超参的方式进行聚类处理,本公开方案对此可不做具体限定。
S503,利用所述第一样本反馈信息以及该第一样本反馈信息的满意度等级,训练得到满意度分类模型,所述满意度分类模型包括用于进行向量化处理的文本表示层。
作为一种示例,可以利用图7所示短语结构文法树训练满意度分类模型,模型的输入为第一样本反馈信息,模型的输出为第一样本反馈信息的满意度等级。第一样本反馈信息输入后,经文本表示层可以自动生成文本表示的结构文法树,图7所示为二分短语结构文法树,故每个中间节点的输入都分为左右两个。短语结构文法树的具体实现过程,可参见滨州中文树库(Chinese Treebank:https://catalog.ldc.upenn.edu/LDC2016T13)中的相关解释,本公开方案对此可不做详述。通常,文法树中的中间节点个数主要受第一样本反馈信息拆分出的单词数量、第一样本反馈信息的内容等因素的影响。
在实际应用过程中,图7中的中间节点可以具体体现为图8所示节点图,对应的公式变换可参见下文介绍,其中,大写字母表示矩阵,小写字母表示向量:
表示输入门(i)的计算方式,用于对当前节点的输入信息进行变换,其中,
表示输出门(o)的计算方式,用于控制当前节点向父节点的信息传输;
用于对输入的两个子节点以及当前输入的信息进行变换并合并到uj中;
fk=tanh(Wfxj+Ufhk+bf),表示遗忘门(f)的计算方式,用于对子节点信息的过滤或者变换;
cj=ij*uj+∑k∈C(j)fk*ck,表示记忆单元(c)的计算方式,用于通过遗忘门、输入门控制对应的信息输入,选择合适的信息保留并传入后继节点中去;
hj=tanh(cj)*oj,表示当前节点隐层(h)的计算方式。
举例来说,文本表示层的拓扑结构可以体现为Tree-LSTM、Bi-LSTM、CNN、Recursive Autoencoder等,本公开方案对此可不做具体限定。可以理解地,当满意度分类模型输出的第一样本反馈信息的满意度等级,与人为设置的满意度等级相符时,可以认为模型训练完成。
S504,将所述反馈信息作为输入,经所述文本表示层输出新的向量化表示,作为所述反馈信息的向量化表示。
相对于通用语料库,利用待分配人员的反馈信息训练得到的满意度分类模型,进行向量化处理的准确性更高,故可以将文本表示层输出的新的向量化表示,作为反馈信息的向量化表示。对应地,S402可以基于反馈信息的新的向量化表示进行聚类处理,得到M4个第四类别。
参见图9,示出了本公开获取反馈信息的向量化表示实施例2的流程示意图。可以包括以下步骤:
S601,获取每条反馈信息的初始向量化表示,并基于反馈信息的初始向量化表示进行聚类处理,得到M5个第五类别,M5>1。
S602,从所述M5个第五类别中选取第一样本反馈信息,并标注每个第一样本反馈信息的满意度等级。
S603,利用所述第一样本反馈信息以及该第一样本反馈信息的满意度等级,训练得到满意度分类模型,所述满意度分类模型包括用于进行向量化处理的文本表示层。
S604,将所述反馈信息作为输入,经所述文本表示层输出新的向量化表示。
步骤S601~S604的实现过程,可参照上文S501~S504处所做介绍,此处不再赘述。
S605,基于反馈信息的新的向量化表示进行聚类处理,得到M6个第六类别,M6>1。
S606,选取距离差(d4-d3)最小的N2个第二样本反馈信息,并标注每个第二样本反馈信息的满意度等级,d3为第二样本反馈信息与最近的第六类别的类中心的距离,d4为第二样本反馈信息与次近的第六类别的类中心的距离。
为了进一步提高反馈信息向量化表示的准确性,本公开方案还提供一种优化满意度分类模型的方案。具体地,优化满意度分类模型的样本数据可以包括:
(1)第二样本反馈信息。
具体地,可以先基于反馈信息的新的向量化表示进行聚类处理,得到M6个第六类别;然后从位于第六类别的边界处、容易混叠的反馈信息中,选取出第二样本反馈信息。
作为一种示例,选取第二样本反馈信息的方式可以体现为:分别计算各反馈信息与最近的第六类别的类中心的距离d3、各反馈信息与次近的第六类别的类中心的距离d4;通常,反馈信息对应的距离差(d4-d3)越大,越不容易出现类间混叠,故可根据(d4-d3)对反馈信息进行排序,选取最小的前N2个反馈信息作为第二样本反馈信息。在实际应用过程中,可以优先从除第一样本反馈信息之外的反馈信息中选取第二样本反馈信息,本公开方案对此可不做具体限定。
需要说明的是,M6个第六类别可以通过自动聚类,或者设置超参的方式进行聚类处理,本公开方案对此可不做具体限定。
(2)第二样本反馈信息的满意度等级。具体地,满意度等级可以体现为满意、一般、不满意、极不满意中的至少一种,可以人为设置第二样本反馈信息的满意度等级。
作为一种示例,聚类得到的M6个第六类别可能无法覆盖所有的满意度等级,对应于此,本公开方案还可以提供一种新的聚类方法,以期得到更多的类别,尽量覆盖所有的满意度等级。
具体地,可以先确定出M7个可用类中心,M7个可用类中心与M6个第六类别的类中心之间的距离不小于预设距离;然后将M7个可用类中心和M6个第六类别的类中心,统称为新的类中心,基于新的类中心,重新对待分配人员的反馈信息进行聚类处理,确定出每条反馈信息所属的新的类别,每个新的类别对应一个新的类中心。
作为一种示例,可以按照以下方式确定M7个可用类中心:
方式一,直接选择M7个反馈信息作为可用类中心,确保所选反馈信息与M6个第六类别的类中心之间的距离不小于预设距离即可。
方式二,先选择M7个反馈信息作为初始可用类中心,然后在每个初始可用类中心附近选取一定数量的可用反馈信息,计算初始可用类中心、可用反馈信息的均值,得到M7个可用类中心。本公开方案对可用反馈信息的数量可不做限定,具体可结合实际应用需求确定。
可以理解地,预设距离越大,可用类中心与第六类别的类中心之间的距离越远,发现新的满意度等级的可能性越大,本公开方案对预设距离的具体取值可不做限定,预设距离通常大于第六类别的类中心到边界的距离。
作为一种示例,M6个第六类别的类中心,可以是第六类别包括的所有反馈信息,计算出的类中心;或者,也可以是第六类别包括的部分反馈信息,计算出的类中心,本公开方案对此可不做限定,具体可结合实际应用需求确定。
综上,得到(M6+M7)个新的类中心后,可以重新对反馈信息进行一次聚类处理。具体地,可以根据反馈信息与新的类中心之间的距离,确定反馈信息所归属的新的类别,通常,反馈信息归属于其距离最近的新的类中心对应的新的类别。
对应于此,可以从位于新的类别的边界处、容易混叠的反馈信息中,选取第二样本反馈信息。具体地,可以先计算反馈信息与最近的新的类中心的距离d5、反馈信息与次近的新的类中心的距离d6,然后根据距离差(d6-d5)选取出N2个第二样本反馈信息。
S607,基于所述第一样本反馈信息的满意度等级、所述第二样本反馈信息的满意度等级、以及除所述第一样本反馈信息和所述第二样本反馈信息之外的剩余反馈信息的满意度等级,计算更新类中心,所述剩余反馈信息的满意度等级由所述剩余反馈信息所属的类别确定。
本公开方案可以将待分配人员的反馈信息划分为三部分:第一样本反馈信息、第二样本反馈信息、剩余反馈信息。其中,第一样本反馈信息的满意度等级、第二样本反馈信息的满意度等级可以是人为设置的,剩余反馈信息的满意度等级可以是根据剩余反馈信息所属的类别确定的。
举例来说,如果从位于第六类别的边界处、容易混叠的反馈信息中,选取第二样本反馈信息,则可根据剩余反馈信息所属的第六类别,确定剩余反馈信息的满意度等级;如果从位于新的类别的边界处、容易混叠的反馈信息中,选取第二样本反馈信息,则可根据剩余反馈信息所属的新的类别,确定剩余反馈信息的满意度等级。
作为一种示例,可以按照以下公式计算更新类中心:
其中,μk为第K个更新类中心;rnk、wnk为N×K维的0/1矩阵,用于表示第n个反馈信息的满意度等级,当第n个反馈信息是第一样本反馈信息或者第二样本反馈信息时,若其满意度等级被标注为第K类,则wnk=1,否则wnk=0;当第n个反馈信息是剩余反馈信息时,若其满意度等级被标注为第K类,则rnk=1,否则rnk=0;N为反馈信息的总数目,K为更新类的总数目;α为剩余反馈信息的权重,0<α<1;f(Sn)为图7所示网络中S层的输出。
S608,基于所述更新类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的更新类别,每个更新类别对应一个更新类中心。
得到更新类中心后,可以重新对反馈信息进行一次聚类处理。具体地,可以根据反馈信息与更新类中心之间的距离,确定反馈信息所归属的更新类别,通常,反馈信息归属于其距离最近的更新类中心对应的更新类别。可以理解地,重新对反馈信息进行聚类处理,相当于更新第n个反馈信息的满意度等级rnk、wnk。
S609,利用所述反馈信息以及所述反馈信息所属的更新类别,更新所述满意度分类模型,直至更新后的满意度分类模型满足预定条件为止,所述更新后的满意度分类模型包括更新后的文本表示层。
基于更新类别,得到反馈信息以及反馈信息的满意度等级后,可以使用反向传播训练更新图7中的文本表示网络,即f(sn),n=1,2,L,N,直至收敛。其中,损失函数可以体现为:
损失函数Jsemi包括以下三项:第一项表示剩余反馈信息的cost;第二项表示第一样本反馈信息和第二样本反馈信息的cost;第三项的作用在于当反馈信息与两个更新类中心的距离相近时,促使其靠近所属的更新类中心,远离其他更新类中心;α为剩余反馈信息的权重,0<α<1;l为表示距离相近程度的超参量。
S610,将所述反馈信息作为输入,经所述更新后的文本表示层输出更新向量化表示,作为所述反馈信息的向量化表示。
利用第二样本反馈信息优化更新后的满意度分类模型,可以进一步提高向量化表示的准确性,故可以将更新后的文本表示层输出的更新向量化表示,作为反馈信息的向量化表示。对应地,S402可以基于反馈信息的更新向量化表示进行聚类处理,得到M4个第四类别。
参见图10,示出了本公开人员分组装置的构成示意图。所述装置可以包括:
关注信息拆分模块701,用于获取待分配人员的关注信息,将所述关注信息拆分为至少一个短语;
短语向量化表示获取模块702,用于获取每个短语的向量化表示;
短语聚类处理模块703,用于基于短语的向量化表示进行聚类处理,得到M1个第一类别,每个第一类别表示一种维度信息,M1≥1;
分组结果得到模块704,用于设置每个维度信息对应的权重,利用所述维度信息以及该维度信息对应的权重,得到所述待分配人员的分组结果。
可选地,所述短语向量化表示获取模块包括:
第一向量化表示获取模块,用于获取每个短语的初始向量化表示;
第一聚类处理模块,用于基于短语的初始向量化表示进行聚类处理,得到M2个第二类别,M2>1;
第一样本短语选取模块,用于将从所述M2个第二类别中选取出的第一样本短语,两两组合为第一样本短语对,并获取每个第一样本短语对的标注信息,所述标注信息为相似或者不相似;
短语分类模型训练模块,用于利用所述第一样本短语对以及该第一样本短语对的标注信息,训练得到短语分类模型,所述短语分类模型包括用于进行向量化处理的短语表示层;
第二向量化表示输出模块,用于将所述关注信息拆分出的短语作为输入,经所述短语表示层输出新的向量化表示,作为所述短语的向量化表示。
可选地,所述短语向量化表示获取模块还包括:
第二聚类处理模块,用于在获得所述短语的新的向量化表示后,基于短语的新的向量化表示进行聚类处理,得到M3个第三类别,M3>1;
第二样本短语选取模块,用于选取距离差(d2-d1)最小的N1个第二样本短语,d1为所述第二样本短语与最近的第三类别的类中心的距离,d2为所述第二样本短语与次近的第三类别的类中心的距离;将所述第二样本短语与最近的第三类别的类中心,和/或所述第二样本短语与次近的第三类别的类中心,两两组合为第二样本短语对,并获取每个第二样本短语对的标注信息;
短语分类模型更新模块,用于利用所述第二样本短语对以及该第二样本短语对的标注信息,更新所述短语分类模型,直至更新后的短语分类模型满足预设条件为止,所述更新后的短语分类模型包括更新后的短语表示层;
第三向量化表示输出模块,用于将所述关注信息拆分出的短语作为输入,经所述更新后的短语表示层输出更新向量化表示,作为所述短语的向量化表示。
可选地,所述装置还包括:
反馈信息获取模块,用于获取所述待分配人员针对所述分组结果的反馈信息;
反馈信息向量化表示获取模块,用于获取每条反馈信息的向量化表示;
反馈信息聚类处理模块,用于基于反馈信息的向量化表示进行聚类处理,得到M4个第四类别,每个第四类别对应一种满意度等级,M4≥1;
待调整类别判断模块,用于判断所述M4个第四类别中是否包括待调整类别,所述待调整类别对应的满意度等级用于表示属于所述待调整类别的待调整人员不满意所述分组结果,所述待调整人员属于所述待分配人员;
分组更新信息获取模块,用于在所述M4个第四类别中包括所述待调整类别时,获取所述待调整人员的分组更新信息;
分组结果调整模块,用于利用所述分组更新信息,调整所述待调整人员的分组结果。
可选地,所述反馈信息向量化表示获取模块包括:
第四向量化表示获取模块,用于获取每条反馈信息的初始向量化表示;
第三聚类处理模块,用于基于反馈信息的初始向量化表示进行聚类处理,得到M5个第五类别,M5>1;
第一样本反馈信息选取模块,用于从所述M5个第五类别中选取第一样本反馈信息,并标注每个第一样本反馈信息的满意度等级;
满意度分类模型训练模块,用于利用所述第一样本反馈信息以及该第一样本反馈信息的满意度等级,训练得到满意度分类模型,所述满意度分类模型包括用于进行向量化处理的文本表示层;
第五向量化表示输出模块,用于将所述反馈信息作为输入,经所述文本表示层输出新的向量化表示,作为所述反馈信息的向量化表示。
可选地,所述反馈信息向量化表示获取模块还包括:
第四聚类处理模块,用于在获得所述反馈信息的新的向量化表示后,基于反馈信息的新的向量化表示进行聚类处理,得到M6个第六类别,M6>1;
第二样本反馈信息选取模块,用于选取距离差(d4-d3)最小的N2个第二样本反馈信息,并标注每个第二样本反馈信息的满意度等级,d3为第二样本反馈信息与最近的第六类别的类中心的距离,d4为第二样本反馈信息与次近的第六类别的类中心的距离;
更新类中心计算模块,用于基于所述第一样本反馈信息的满意度等级、所述第二样本反馈信息的满意度等级、以及除所述第一样本反馈信息和所述第二样本反馈信息之外的剩余反馈信息的满意度等级,计算更新类中心,所述剩余反馈信息的满意度等级由所述剩余反馈信息所属的类别确定;
第五聚类处理模块,用于基于所述更新类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的更新类别,每个更新类别对应一个更新类中心;
满意度分类模型更新模块,用于利用所述反馈信息以及所述反馈信息所属的更新类别,更新所述满意度分类模型,直至更新后的满意度分类模型满足预定条件为止,所述更新后的满意度分类模型包括更新后的文本表示层;
第六向量化表示输出模块,用于将所述反馈信息作为输入,经所述更新后的文本表示层输出更新向量化表示,作为所述反馈信息的向量化表示。
可选地,所述反馈信息向量化表示获取模块还包括:
可用类中心确定模块,用于在所述得到M6个第六类别后,确定出M7个可用类中心,所述M7个可用类中心与所述M6个第六类别的类中心之间的距离不小于预设距离;
第六聚类处理模块,用于基于新的类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的新的类别,每个新的类别对应一个新的类中心,所述新的类中心包括所述M7个可用类中心和所述M6个第六类别的类中心;
则,所述第二样本反馈信息选取模块,用于选取距离差(d6-d5)最小的N2个第二样本反馈信息,d5为第二样本反馈信息与最近的新的类中心的距离,d6为第二样本反馈信息与次近的新的类中心的距离。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
参见图11,示出了本公开用于人员分组的电子设备800的结构示意图。电子设备800至少可以包括处理器801和存储介质802,作为一种示例,处理器801和存储介质802可以通过总线或其它方式连接,图11所示以通过总线连接为例。处理器801的数量可以为一个或者多个,图11所示以一个处理器为例。存储介质802所代表的存储设备资源,用于存储可由处理器801执行的指令,例如应用程序。此外,处理器801可以被配置为加载存储介质中的指令,以执行上述人员分组方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (16)
1.一种人员分组方法,其特征在于,所述方法包括:
获取待分配人员的关注信息,将所述关注信息拆分为至少一个短语,获取每个短语的向量化表示;
基于短语的向量化表示进行聚类处理,得到M1个第一类别,每个第一类别表示一种维度信息,M1≥1;
设置每个维度信息对应的权重,利用所述维度信息以及该维度信息对应的权重,得到所述待分配人员的分组结果。
2.根据权利要求1所述的方法,其特征在于,所述获取每个短语的向量化表示,包括:
获取每个短语的初始向量化表示,并基于短语的初始向量化表示进行聚类处理,得到M2个第二类别,M2>1;
将从所述M2个第二类别中选取出的第一样本短语,两两组合为第一样本短语对,并获取每个第一样本短语对的标注信息,所述标注信息为相似或者不相似;
利用所述第一样本短语对以及该第一样本短语对的标注信息,训练得到短语分类模型,所述短语分类模型包括用于进行向量化处理的短语表示层;
将所述关注信息拆分出的短语作为输入,经所述短语表示层输出新的向量化表示,作为所述短语的向量化表示。
3.根据权利要求2所述的方法,其特征在于,在获得所述短语的新的向量化表示后,所述获取每个短语的向量化表示还包括:
基于短语的新的向量化表示进行聚类处理,得到M3个第三类别,M3>1;
选取距离差(d2-d1)最小的N1个第二样本短语,d1为所述第二样本短语与最近的第三类别的类中心的距离,d2为所述第二样本短语与次近的第三类别的类中心的距离;
将所述第二样本短语与最近的第三类别的类中心,和/或所述第二样本短语与次近的第三类别的类中心,两两组合为第二样本短语对,并获取每个第二样本短语对的标注信息;
利用所述第二样本短语对以及该第二样本短语对的标注信息,更新所述短语分类模型,直至更新后的短语分类模型满足预设条件为止,所述更新后的短语分类模型包括更新后的短语表示层;
将所述关注信息拆分出的短语作为输入,经所述更新后的短语表示层输出更新向量化表示,作为所述短语的向量化表示。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
获取所述待分配人员针对所述分组结果的反馈信息,以及每条反馈信息的向量化表示;
基于反馈信息的向量化表示进行聚类处理,得到M4个第四类别,每个第四类别对应一种满意度等级,M4≥1;
判断所述M4个第四类别中是否包括待调整类别,所述待调整类别对应的满意度等级用于表示属于所述待调整类别的待调整人员不满意所述分组结果,所述待调整人员属于所述待分配人员;
如果所述M4个第四类别中包括所述待调整类别,则获取所述待调整人员的分组更新信息;
利用所述分组更新信息,调整所述待调整人员的分组结果。
5.根据权利要求4所述的方法,其特征在于,所述获取每条反馈信息的向量化表示,包括:
获取每条反馈信息的初始向量化表示,并基于反馈信息的初始向量化表示进行聚类处理,得到M5个第五类别,M5>1;
从所述M5个第五类别中选取第一样本反馈信息,并标注每个第一样本反馈信息的满意度等级;
利用所述第一样本反馈信息以及该第一样本反馈信息的满意度等级,训练得到满意度分类模型,所述满意度分类模型包括用于进行向量化处理的文本表示层;
将所述反馈信息作为输入,经所述文本表示层输出新的向量化表示,作为所述反馈信息的向量化表示。
6.根据权利要求5所述的方法,其特征在于,在获得所述反馈信息的新的向量化表示后,所述获取每条反馈信息的向量化表示还包括:
基于反馈信息的新的向量化表示进行聚类处理,得到M6个第六类别,M6>1;
选取距离差(d4-d3)最小的N2个第二样本反馈信息,并标注每个第二样本反馈信息的满意度等级,d3为第二样本反馈信息与最近的第六类别的类中心的距离,d4为第二样本反馈信息与次近的第六类别的类中心的距离;
基于所述第一样本反馈信息的满意度等级、所述第二样本反馈信息的满意度等级、以及除所述第一样本反馈信息和所述第二样本反馈信息之外的剩余反馈信息的满意度等级,计算更新类中心,所述剩余反馈信息的满意度等级由所述剩余反馈信息所属的类别确定;
基于所述更新类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的更新类别,每个更新类别对应一个更新类中心;
利用所述反馈信息以及所述反馈信息所属的更新类别,更新所述满意度分类模型,直至更新后的满意度分类模型满足预定条件为止,所述更新后的满意度分类模型包括更新后的文本表示层;
将所述反馈信息作为输入,经所述更新后的文本表示层输出更新向量化表示,作为所述反馈信息的向量化表示。
7.根据权利要求6所述的方法,其特征在于,所述得到M6个第六类别后,所述获取每条反馈信息的向量化表示还包括:
确定出M7个可用类中心,所述M7个可用类中心与所述M6个第六类别的类中心之间的距离不小于预设距离;
基于新的类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的新的类别,每个新的类别对应一个新的类中心,所述新的类中心包括所述M7个可用类中心和所述M6个第六类别的类中心;
则,按照以下方式选取所述第二样本反馈信息:选取距离差(d6-d5)最小的N2个第二样本反馈信息,d5为第二样本反馈信息与最近的新的类中心的距离,d6为第二样本反馈信息与次近的新的类中心的距离。
8.一种人员分组装置,其特征在于,所述装置包括:
关注信息拆分模块,用于获取待分配人员的关注信息,将所述关注信息拆分为至少一个短语;
短语向量化表示获取模块,用于获取每个短语的向量化表示;
短语聚类处理模块,用于基于短语的向量化表示进行聚类处理,得到M1个第一类别,每个第一类别表示一种维度信息,M1≥1;
分组结果得到模块,用于设置每个维度信息对应的权重,利用所述维度信息以及该维度信息对应的权重,得到所述待分配人员的分组结果。
9.根据权利要求8所述的装置,其特征在于,所述短语向量化表示获取模块包括:
第一向量化表示获取模块,用于获取每个短语的初始向量化表示;
第一聚类处理模块,用于基于短语的初始向量化表示进行聚类处理,得到M2个第二类别,M2>1;
第一样本短语选取模块,用于将从所述M2个第二类别中选取出的第一样本短语,两两组合为第一样本短语对,并获取每个第一样本短语对的标注信息,所述标注信息为相似或者不相似;
短语分类模型训练模块,用于利用所述第一样本短语对以及该第一样本短语对的标注信息,训练得到短语分类模型,所述短语分类模型包括用于进行向量化处理的短语表示层;
第二向量化表示输出模块,用于将所述关注信息拆分出的短语作为输入,经所述短语表示层输出新的向量化表示,作为所述短语的向量化表示。
10.根据权利要求9所述的装置,其特征在于,所述短语向量化表示获取模块还包括:
第二聚类处理模块,用于在获得所述短语的新的向量化表示后,基于短语的新的向量化表示进行聚类处理,得到M3个第三类别,M3>1;
第二样本短语选取模块,用于选取距离差(d2-d1)最小的N1个第二样本短语,d1为所述第二样本短语与最近的第三类别的类中心的距离,d2为所述第二样本短语与次近的第三类别的类中心的距离;将所述第二样本短语与最近的第三类别的类中心,和/或所述第二样本短语与次近的第三类别的类中心,两两组合为第二样本短语对,并获取每个第二样本短语对的标注信息;
短语分类模型更新模块,用于利用所述第二样本短语对以及该第二样本短语对的标注信息,更新所述短语分类模型,直至更新后的短语分类模型满足预设条件为止,所述更新后的短语分类模型包括更新后的短语表示层;
第三向量化表示输出模块,用于将所述关注信息拆分出的短语作为输入,经所述更新后的短语表示层输出更新向量化表示,作为所述短语的向量化表示。
11.根据权利要求8至10任一项所述的装置,其特征在于,所述装置还包括:
反馈信息获取模块,用于获取所述待分配人员针对所述分组结果的反馈信息;
反馈信息向量化表示获取模块,用于获取每条反馈信息的向量化表示;
反馈信息聚类处理模块,用于基于反馈信息的向量化表示进行聚类处理,得到M4个第四类别,每个第四类别对应一种满意度等级,M4≥1;
待调整类别判断模块,用于判断所述M4个第四类别中是否包括待调整类别,所述待调整类别对应的满意度等级用于表示属于所述待调整类别的待调整人员不满意所述分组结果,所述待调整人员属于所述待分配人员;
分组更新信息获取模块,用于在所述M4个第四类别中包括所述待调整类别时,获取所述待调整人员的分组更新信息;
分组结果调整模块,用于利用所述分组更新信息,调整所述待调整人员的分组结果。
12.根据权利要求11所述的装置,其特征在于,所述反馈信息向量化表示获取模块包括:
第四向量化表示获取模块,用于获取每条反馈信息的初始向量化表示;
第三聚类处理模块,用于基于反馈信息的初始向量化表示进行聚类处理,得到M5个第五类别,M5>1;
第一样本反馈信息选取模块,用于从所述M5个第五类别中选取第一样本反馈信息,并标注每个第一样本反馈信息的满意度等级;
满意度分类模型训练模块,用于利用所述第一样本反馈信息以及该第一样本反馈信息的满意度等级,训练得到满意度分类模型,所述满意度分类模型包括用于进行向量化处理的文本表示层;
第五向量化表示输出模块,用于将所述反馈信息作为输入,经所述文本表示层输出新的向量化表示,作为所述反馈信息的向量化表示。
13.根据权利要求12所述的装置,其特征在于,所述反馈信息向量化表示获取模块还包括:
第四聚类处理模块,用于在获得所述反馈信息的新的向量化表示后,基于反馈信息的新的向量化表示进行聚类处理,得到M6个第六类别,M6>1;
第二样本反馈信息选取模块,用于选取距离差(d4-d3)最小的N2个第二样本反馈信息,并标注每个第二样本反馈信息的满意度等级,d3为第二样本反馈信息与最近的第六类别的类中心的距离,d4为第二样本反馈信息与次近的第六类别的类中心的距离;
更新类中心计算模块,用于基于所述第一样本反馈信息的满意度等级、所述第二样本反馈信息的满意度等级、以及除所述第一样本反馈信息和所述第二样本反馈信息之外的剩余反馈信息的满意度等级,计算更新类中心,所述剩余反馈信息的满意度等级由所述剩余反馈信息所属的类别确定;
第五聚类处理模块,用于基于所述更新类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的更新类别,每个更新类别对应一个更新类中心;
满意度分类模型更新模块,用于利用所述反馈信息以及所述反馈信息所属的更新类别,更新所述满意度分类模型,直至更新后的满意度分类模型满足预定条件为止,所述更新后的满意度分类模型包括更新后的文本表示层;
第六向量化表示输出模块,用于将所述反馈信息作为输入,经所述更新后的文本表示层输出更新向量化表示,作为所述反馈信息的向量化表示。
14.根据权利要求13所述的装置,其特征在于,所述反馈信息向量化表示获取模块还包括:
可用类中心确定模块,用于在所述得到M6个第六类别后,确定出M7个可用类中心,所述M7个可用类中心与所述M6个第六类别的类中心之间的距离不小于预设距离;
第六聚类处理模块,用于基于新的类中心,重新对所述反馈信息进行聚类处理,确定出每条反馈信息所属的新的类别,每个新的类别对应一个新的类中心,所述新的类中心包括所述M7个可用类中心和所述M6个第六类别的类中心;
则,所述第二样本反馈信息选取模块,用于选取距离差(d6-d5)最小的N2个第二样本反馈信息,d5为第二样本反馈信息与最近的新的类中心的距离,d6为第二样本反馈信息与次近的新的类中心的距离。
15.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1至7任一项所述方法的步骤。
16.一种电子设备,其特征在于,所述电子设备包括;
权利要求15所述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810273041.6A CN108763246B (zh) | 2018-03-29 | 2018-03-29 | 人员分组方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810273041.6A CN108763246B (zh) | 2018-03-29 | 2018-03-29 | 人员分组方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763246A true CN108763246A (zh) | 2018-11-06 |
CN108763246B CN108763246B (zh) | 2022-04-22 |
Family
ID=63980772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810273041.6A Active CN108763246B (zh) | 2018-03-29 | 2018-03-29 | 人员分组方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763246B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609295A (zh) * | 2021-08-11 | 2021-11-05 | 平安科技(深圳)有限公司 | 文本分类方法、装置及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193414A1 (en) * | 2000-01-27 | 2004-09-30 | Manning & Napier Information Services, Llc | Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN106897384A (zh) * | 2017-01-23 | 2017-06-27 | 科大讯飞股份有限公司 | 一种要点题自动评价方法及装置 |
CN107169001A (zh) * | 2017-03-31 | 2017-09-15 | 华东师范大学 | 一种基于众包反馈和主动学习的文本分类模型优化方法 |
-
2018
- 2018-03-29 CN CN201810273041.6A patent/CN108763246B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193414A1 (en) * | 2000-01-27 | 2004-09-30 | Manning & Napier Information Services, Llc | Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN106897384A (zh) * | 2017-01-23 | 2017-06-27 | 科大讯飞股份有限公司 | 一种要点题自动评价方法及装置 |
CN107169001A (zh) * | 2017-03-31 | 2017-09-15 | 华东师范大学 | 一种基于众包反馈和主动学习的文本分类模型优化方法 |
Non-Patent Citations (3)
Title |
---|
方雯: "《工作分析与职位评价》", 30 November 2017, 西安电子科技大学出版社 * |
王巧巧,韦澍芃: "基于贪心算法的学生宿舍分配***设计与实现", 《计算机光盘软件与应用》 * |
赵学锋等: "基于客户评论和语料库的在线酒店信誉维度挖掘", 《图书情报工作》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609295A (zh) * | 2021-08-11 | 2021-11-05 | 平安科技(深圳)有限公司 | 文本分类方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108763246B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdullah et al. | Integration of fuzzy AHP and interval type-2 fuzzy DEMATEL: An application to human resource management | |
Eguia et al. | Cell design and multi-period machine loading in cellular reconfigurable manufacturing systems with alternative routing | |
CN110457442A (zh) | 面向智能电网客服问答的知识图谱构建方法 | |
Litvinchev et al. | Large-scale public R&D portfolio selection by maximizing a biobjective impact measure | |
Dodangeh et al. | Linguistic extension for group multicriteria project manager selection | |
Duran et al. | Robust airline scheduling with controllable cruise times and chance constraints | |
CN107451230A (zh) | 一种问答方法以及问答*** | |
CN116757652B (zh) | 一种基于大语言模型的在线招聘推荐***及方法 | |
Izadikhah | Using the Hamming distance to extend TOPSIS in a fuzzy environment | |
Haklı et al. | Genetic algorithm supported by expert system to solve land redistribution problem | |
Arram et al. | Bird mating optimizer for combinatorial optimization problems | |
Simić et al. | A hybrid analytic hierarchy process for clustering and ranking best location for logistics distribution center | |
Ni et al. | [Retracted] Quality Assessment of Vocational Education Teaching Reform Based on Deep Learning | |
Marivate et al. | An intelligent multi-agent recommender system for human capacity building | |
CN108763246A (zh) | 人员分组方法及装置、存储介质、电子设备 | |
Thepphakorn et al. | A new multiple objective cuckoo search for university course timetabling problem | |
Saharan et al. | Graph coloring based optimized algorithm for resource utilization in examination scheduling | |
Thepphakorn et al. | Modifying regeneration mutation and hybridising clonal selection for evolutionary algorithms based timetabling tool | |
CN106203634A (zh) | 一种基于因果图启发式的并行概率规划方法 | |
Jing | Research on the Evaluation Method of University Bi‐Entrepreneurship Curriculum Based on IoT Integrated with AHP Algorithm | |
Aouichaty et al. | Automated decision classification model for tax appeals commission in Morocco using latent dirichlet allocation | |
Yang et al. | Bayesian modelling for human error probability analysis in CREAM | |
Rashidi et al. | A deep-belief network approach for course scheduling | |
KR20210152979A (ko) | 인공 지능 학습 기반의 학습 컨텐츠 추천 시스템 및 그것의 동작 방법 | |
KR20210152927A (ko) | 인공 지능 학습 기반의 학습 컨텐츠 추천 시스템 및 그것의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |