CN117171428B - 一种提升搜索和推荐结果准确性的方法 - Google Patents

一种提升搜索和推荐结果准确性的方法 Download PDF

Info

Publication number
CN117171428B
CN117171428B CN202310981457.4A CN202310981457A CN117171428B CN 117171428 B CN117171428 B CN 117171428B CN 202310981457 A CN202310981457 A CN 202310981457A CN 117171428 B CN117171428 B CN 117171428B
Authority
CN
China
Prior art keywords
data
keywords
training
job
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310981457.4A
Other languages
English (en)
Other versions
CN117171428A (zh
Inventor
时迎超
王杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wangpin Information Technology Co ltd
Original Assignee
Beijing Wangpin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wangpin Information Technology Co ltd filed Critical Beijing Wangpin Information Technology Co ltd
Priority to CN202310981457.4A priority Critical patent/CN117171428B/zh
Publication of CN117171428A publication Critical patent/CN117171428A/zh
Application granted granted Critical
Publication of CN117171428B publication Critical patent/CN117171428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提升搜索和推荐结果准确性的方法,属于数据处理技术领域。包括以下步骤:S10,通过双链数据提升知识图谱的数据质量,使用聚类方法清洗提升知识图谱的数据准确率;S20,使用预训练模型进行训练,并结合职类树知识提前融入预训练模型中;S30,使用多任务训练方式,降低预训练模型困惑度;S40,推荐出优选职类,包括最可能职类和相似职类。为了提升JD和CV的检索和匹配性能,本发明从数据质量提升、打标模型优化、向量模型优化等方面对***进行升级和改造。

Description

一种提升搜索和推荐结果准确性的方法
技术领域
本发明属于数据处理技术领域,具体地说,涉及一种提升搜索和推荐结果准确性的方法,更具体的说,涉及一种基于知识图谱的提升搜索和推荐结果准确性的方法。
背景技术
大数据的技术和应用价值已被广泛认可,而其未来核心技术之一知识图谱(Knowledge Graph)也随着互联网技术巨头公司的应用得到迅速发展。亚马逊运用大数据为客户推荐商品信息,形成了人与商品的全面关系;微软开发了“人立方”,形成了人与人的立体化关系,真正实现人和人的六度空间搜索;百度开发了“百度大脑”,在国内重新定义了搜索引擎,为用户提供全面扩展的搜索结果;谷歌更是早就开始了用大数据思维“接管世界”,最早开发了互联网搜索引擎,开启了互联网时代,并基于此开发了Google Brain,引领了知识图谱的概念及技术普及。
知识图谱是一种图结构的知识库,属于知识工程的范畴。不同于普通知识库,知识图谱融合所有学科,将不同来源、不同类型、不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度、更深度的知识体系并不断扩充,其本质上是将领域知识数据体系化、关系化,并以图的方式将知识可视化。简单来说,可以将知识图谱理解成基于信息***建立的知识体系,通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域***地显示出来,揭示知识领域的动态发展规律。
职类是招聘行业中最重要的信息之一,在端上职类信息出现在用户的使用或者办公流程中,在策略上职类信息也是重要的排序或召回策略。而不同的招聘平台职类树庞大且内容不同,准确理解并记忆职类树对用户而言需要特别大的代价。经过统计大约只有80%+的用户能理解并记忆招聘的目标职类,并从庞大的职类树中正确选择。做好职类分类任务对于用户使用效率的提升,基础数据质量的提升以及对业务上特征的贡献都具有很大的意义。
例如现有技术,申请号:CN202310528124.6,公开了一种基于知识图谱的网络热点信息推荐方法、***及设备,该发明获取已发生热点事件及决策信息,进行关键词提取和知识抽取后,构建网络热点知识图谱;获取突发热点事件,并对所述突发热点事件进行关键词提取和知识抽取;根据所述突发热点事件和所述网络热点知识图谱中的关键词、实体属性和关系,进行关键词相似度、实体属性相似度和关系相似度评估;根据评估得到的所述关键词相似度、所述实体属性相似度和所述关系相似度,进行热点事件及决策信息推荐。但现有的类似技术存在以下问题:无法控制数据质量,数据质量高低不平,无法控制数据分布,常常存在数据模型与实际数据偏移情况;当职类数量越来越多时(目前常规职位已达1380余个),目标数量的增多使模型迭代效率慢;从训练目标角度看,由于部分职类相似,使得模型难以准确拟合;从训练数据角度看,多数的职位可被分为多个职类,具有多标签的性质。因此,需要更加优秀的数据推荐模型来解决上述问题。
发明内容
要解决的问题
针对上述现有技术存在的问题,本发明提供一种提升搜索和推荐结果准确性的方法,为了提升JD和CV的检索和匹配性能,本发明从数据质量提升、打标模型优化、向量模型优化等方面对***进行升级和改造。
技术方案
为解决上述问题,本发明采用如下的技术方案。
一种提升搜索和推荐结果准确性的方法,包括以下步骤:
S10:通过双链数据提升知识图谱的数据质量,使用聚类方法清洗提升知识图谱的数据准确率;
S20:使用预训练模型进行训练,并结合职类树知识提前融入预训练模型中;
S30:使用多任务训练方式,降低预训练模型困惑度;
S40:推荐出优选职类,包括最可能职类和相似职类。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S10中所述的双链数据利用基础数据中关键词的出现频率进行分组;
步骤S10中所述的双链数据的分组的权重公式如下:
Wpf(i)=pfi*idfi/ifi
式中,Wpf(i)代表第i组关键词的权重值,pfi代表上述第i组关键词的出现频率,idfi代表上述所述的结构化的双链数据的组数与上述所述的非结构化的双链数据的组数之间的比值,ifi代表逆频率。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S10中ifi的计算方法如下:
式中,N代表基础数据的总数,dfi代表基础数据中第i组关键词的出现次数。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S20中所述的聚类技术方法如下:
将结构化的双链数据、半结构化的双链数据进行NLP的特征表示化处理,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S20中所述的预训练模型的方法如下:
将特征表示化处理后结构化的双链数据、半结构化的双链数据发送至NLP服务中心;
最后NLP服务中心将筛选后的符合规则的特征表示化的双链数据利用的BP网络模型进行优化,得到第一实体关系;
其中利用BP网络模型的优化算法如下:
式中,其中Gi代表优化后的第一实体关系程度值,其中N代表所有组的关键词的统计之和,其中Pi n代表所有组的关键词的权重值的分布概率。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S20中融入的方式如下:
优化调度层,以max-min的数学算法建立模型,确定各个单目标函数,得出融入的调度效益。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S30中所述的多任务训练方式如下:
确定各个单目标函数,包括第一目标函数、第二目标函数、第三目标函数及第四目标函数。
上述所述的提升搜索和推荐结果准确性的方法,
第一目标函数为F1(qv1)=(qv11-qv0)/qv12,其中qv0、qv1、qv11及qv12为不同时期计划任务值;
第二目标函数为其中Fi(qvi)为参考流量值,计算方式为采用权重系数变换法并赋予权重;
第三目标函数为Vi,j+1=Vi,j+(Qi,j-qi,j-Qlossi,j),其中Vi,j为第j时间段第i云计算的数据量,其中Vi,j+1为第j+1时间段第i云计算的数据量,其中Qi,j为第j时间段第i云计算的数据进入量,其中qi,j为第j时间段第i云计算的数据泄出量,其中Qlossi,j为第j时间段第i云计算的数据损失量;
第四目标函数为其中Esm为云计算的能值,其中Vm,T为调度时期的有效库容,其中γm,T为调度时期的数据量,其中m,T为云计算m在t时段的编号与总数。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S40中推荐的算法如下:
式中,其中FDQk代表推荐的量化复杂性程度值,其中dkij代表推荐的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表推荐的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表推荐的第k个构件集的行向上的知识图谱数据的复杂度值。
有益效果
相比于现有技术,本发明的有益效果为:
使用双链数据提升数据质量,使用聚类方法清洗数据,增强数据准确率,预训练大模型融入层次特征,提升迭代效率,采用多任务joiner训练方式,降低困惑度。本发明实现以下功能:将对GPU的监控转为对CPU的监控;实现api与模型进程点对点的连接,实现负载均衡;能达到春站的3倍流量要求;可同步扩展与其他服务,进一步提升服务性能问题。
附图说明
图1为本发明一种提升搜索和推荐结果准确性的方法的流程图;
图2为本发明的一种提升搜索和推荐结果准确性的方法的发布职位的界面图;
图3为本发明一种提升搜索和推荐结果准确性的方法的以财务会计职位为例示意的模型计算图;
图4为本发明的一种提升搜索和推荐结果准确性的方法的以财务会计职位为例的简历职位演示图;
图5为本发明的一种提升搜索和推荐结果准确性的方法的JD维度总特征图;
图6为本发明的一种提升搜索和推荐结果准确性的方法的CV维度总特征图;
图7为本发明的一种提升搜索和推荐结果准确性的方法的NLP的关键词识别流程图;
图8为本发明的一种提升搜索和推荐结果准确性的方法的关键词样例;
图9为本发明的一种提升搜索和推荐结果准确性的方法的关键词聚类图;
图10为本发明的一种提升搜索和推荐结果准确性的方法的打分标准图;
图11为一种提升搜索和推荐结果准确性的方法中,根据上述打分标准,进行JD和CV输入,从而达到输出打分的实例;
图12为本发明的一种提升搜索和推荐结果准确性的方法的一个抽样实例图;
图13为本发明一种提升搜索和推荐结果准确性的方法的向量模型图;
图14为本发明一种提升搜索和推荐结果准确性的方法的的向量模型结果图;
图15为本发明一种提升搜索和推荐结果准确性的方法的所采用的***架构图;
图16为本发明一种提升搜索和推荐结果准确性的方法所采用***的部署框架图;
图17为本发明一种提升搜索和推荐结果准确性的方法所采用***的物理架构图;
图18为本发明的一种提升搜索和推荐结果准确性的方法的成果的内容解析图;
图19为本发明的一种提升搜索和推荐结果准确性的方法中简历(CV)效果图一;
图20为本发明的一种提升搜索和推荐结果准确性的方法中简历(CV)效果图二;
图21为本发明的一种提升搜索和推荐结果准确性的方法中职位描述(JD)效果图一;
图22为本发明的一种提升搜索和推荐结果准确性的方法中职位描述(JD)效果图二。
具体实施方式
下面结合具体实施例对本发明进一步进行描述。
实施例1
如图1所示,提升搜索和推荐结果准确性的方法,包括以下步骤:
S10:通过双链数据提升知识图谱的数据质量,使用聚类方法清洗提升知识图谱的数据准确率。
需要说明的是,针对结构化数据、半结构化数据,本发明采用与非结构化数据完全不一样的方式。
这在现有技术中,常采用以下方式:采用NPL中的BiLSTM(双向长短期循环神经网络)和CRF(条件随机场)知识抽取模型进行迭代训练。其中BiLSTM知识模型与CRF模型均存在缺陷。而本申请利用成熟的NLP服务中心,尝试运用NLP技术,在经过分词、词性标注、句法分析、语义分析等过程后从科学文献的语段中抽取知识,然后把用自然语言描述的句子通过知识表示转换成计算机可理解的形式,并存入知识库中。知识抽取***分为两大部分:一部分是自然语言处理,另一部分是知识抽取。自然语言处理主要从语言的角度对相关内容进行分析,包括句子切分、自动分词、词性标注、词义标注、句法分析、句义分析、语段分析及语用分析8大模块,其中前4个模块是基础,句法分析与句义分析是核心,语段分析与语用分析是扩展。在这8个模块的运行过程中,需要关键词库、概率词典、语义词典、句法规则、领域叙词表与领域本体6类资源的支撑。基于NLP的知识抽取***,设计模式采用MVC,面向对象程序设计采用Java进行***实现;面向对象数据库采用ObjectStore,关系数据库采用Oracle;自动分词采用最大向量匹配算法,词性标注采用最大概率算法,语法分析采用LR分析算法,语义分析采用谓词逻辑;***接口采用XML。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S10中所述的双链数据利用基础数据中关键词的出现频率进行分组;
步骤S10中所述的双链数据的分组的权重公式如下:
Wpf(i)=pfi*idfi/ifi
式中,Wpf(i)代表第i组关键词的权重值,pfi代表上述第i组关键词的出现频率,idfi代表上述所述的结构化的双链数据的组数与上述所述的非结构化的双链数据的组数之间的比值,ifi代表逆频率。
进一步的,上述所述的提升搜索和推荐结果准确性的方法,步骤S10中ifi的计算方法如下:
式中,N代表基础数据的总数,dfi代表基础数据中第i组关键词的出现次数。
进一步的,将结构化的双链数据、半结构化的双链数据进行NLP的特征表示化处理,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
本发明的提升搜索和推荐结果准确性的方法,还包括:
S20:使用预训练模型进行训练,并结合职类树知识提前融入预训练模型中。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S20中所述的预训练模型的方法如下:
将特征表示化处理后结构化的双链数据、半结构化的双链数据发送至NLP服务中心;
最后NLP服务中心将筛选后的符合规则的特征表示化的双链数据利用的BP网络模型进行优化,得到第一实体关系;
其中利用BP网络模型的优化算法如下:
式中,其中Gi代表优化后的第一实体关系程度值,其中N代表所有组的关键词的统计之和,其中Pi n代表所有组的关键词的权重值的分布概率。
这也是本申请创造点之一,BP神经网络一般应用在建模方向上,本发明将投影算法中的MSE进行优化,加入两次实体关系程度值的比对。相对于传统的通过NLP中的BiLSTM+CR F知识抽取模型进行迭代训练,有很大的提升,约提高12.4%的处理效果,大概24h即可得到一组数据值。在投影算法优化的过程中,本发明基于非线性扩散滤波原理,采用快速显示扩散方案构建非线性尺度空间,获取数据投影轮廓结构并使得特征提取具有尺度不变性,并根据被测投影与数据投影域、尺度域中邻域圆像素的灰度差提取投影块的轮廓角点。最后,采用FREAK算法计算特征描述向量,依据极线约束准则搜索投影图像的匹配点,通过准确提取、匹配障碍物的轮廓角点。
上述所述的提升搜索和推荐结果准确性的方法,
步骤S20中融入的方式如下:
优化调度层,以max-min的数学算法建立模型,确定各个单目标函数,得出融入的调度效益。
本发明的提升搜索和推荐结果准确性的方法,还包括:
S30:使用多任务训练方式,降低预训练模型困惑度;
上述所述的提升搜索和推荐结果准确性的方法,
步骤S30中所述的多任务训练方式如下:
确定各个单目标函数,包括第一目标函数、第二目标函数、第三目标函数及第四目标函数。
上述所述的提升搜索和推荐结果准确性的方法,
第一目标函数为F1(qv1)=(qv11-qv0)/qv12,其中qv0、qv1、qv11及qv12为不同时期计划任务值;
第二目标函数为其中Fi(qvi)为参考流量值,计算方式为采用权重系数变换法并赋予权重;
第三目标函数为Vi,j+1=Vi,j+(Qi,j-qi,j-Qlossi,j),其中Vi,j为第j时间段第i云计算的数据量,其中Vi,j+1为第j+1时间段第i云计算的数据量,其中Qi,j为第j时间段第i云计算的数据进入量,其中qi,j为第j时间段第i云计算的数据泄出量,其中Qlossi,j为第j时间段第i云计算的数据损失量;
第四目标函数为其中Esm为云计算的能值,其中Vm,T为调度时期的有效库容,其中γm,T为调度时期的数据量,其中m,T为云计算m在t时段的编号与总数。
上述数据库可参考下述方法进行增加优化:
构建大数据生成对抗网络cycleD2GAN,包括两个大数据生成器和四个大数据鉴别器,分别为小样本生成器G、大样本生成器F、小样本鉴别器D1s、小样本鉴别器D2s、大样本鉴别器D1b和大样本鉴别器D2b;
构建大数据生成对抗网络的优化目标函数,并基于优化目标函数分别对两个生成器和四个鉴别器进行迭代训练,以训练获得小样本生成参数模型;
其中小样本生成器G的训练与小样本鉴别器D1s和D2s的训练为一组对抗过程,大样本生成器F的训练与大样本鉴别器D1b和D2b的训练为一组对抗过程。
本发明的提升搜索和推荐结果准确性的方法,还包括:
S40:推荐出优选职类,包括最可能职类和相似职类。
上述所述的提升搜索和推荐结果准确性的方法,步骤S40中推荐的算法如下:
式中,其中FDQk代表推荐的量化复杂性程度值,其中dkij代表推荐的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表推荐的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表推荐的第k个构件集的行向上的知识图谱数据的复杂度值。
具体来说,为了提高用户体验及知识图谱的数据集约管理,增设云平台,云平台包括用户登录单元、身份库、显示单元、处理器、数据抓取单元、偏向数据分析单元、数据收集单元和数据暂存单元;其中,所述用户登录单元用于用户录入身份信息及其对应的秘钥信息,所述身份库内存储有核准用户的标准身份信息及其对应的核准秘钥信息;所述用户登录单元用于将身份信息及其对应的秘钥信息传输到处理器,所述处理器用于结合身份库对身份信息、秘钥信息进行设备核实处理,产生通过信号或者设备错误信号;所述处理器在产生设备错误信号时,驱动显示单元显示“所用设备不受信任,请核实”;所述处理器在产生错初信号时,驱动显示单元显示“身份秘钥错误,请核实”;所述处理器用于在产生通过信号时,利用个人库对身份信息进行数据抓取;所述数据收集单元用于收集用户由若干个访问信息构成的访问信息组,访问信息具体为用户在进行网站访问时的访问内容;所述数据收集单元用于将访问信息组结合对应身份信息将其传输到数据暂存单元进行存储;所述偏向数据分析单元用于对数据暂存单元内存储的访问信息组及其对应的身份信息进行数据分析,得到所有的身份信息对应的次序访问信息;所述数据抓取单元与互联网联通,用于实时获取互联网的信息;所述偏向数据分析单元用于将次序访问信息传输到个人库,所述处理器用于结合个人库内的次序访问信息以及数据抓取单元对身份信息进行信息推荐。上述描述是为了提高个人对于云平台集约处理后的访问。
实施例2
正式应用
如图2所示,其证实了本产品的职务发布的界面图,可以轻松设置职位类别、行业要求及学历经验。
图3为本发明以财务会计职位为例示意的模型计算图;图4为本发明的以财务会计职位为例的简历职位演示图。
如图所示,以财务会计岗位职责为例,其内容如下:
1、负责公司产品的财务报表汇总、会计账册登录、归档,报税工作;
2、能够很好的配合处理财务、商务相关事宜;
3、协调与其他部门的合作;
4、完成临时交办的其他工作;
5、熟练使用用友、金蝶等财务软件。
同时,财务会计岗位的模型困惑职类数量:
一级职类特征
二级职类特征
三级职类特征。
图5为本发明的JD维度总特征图;图6为本发明的CV维度总特征图。
接着,如图5与图6所示,当前用户提交的id/cv信息中,包含职位名称或三级职类与职位描述不相符的情况,此类信息可能是用户恶意刷单产生为降低此类低质id/cv的成功发布率,本次跑通低质职位/简历检查流程,旨在提升平台id/cv的整体质量。
基于现有的JD和CV库,本发明先通过数据统计获取低质JD和CV的阀值,设计低质JD和CV的筛查流程,然后有人工辅助数据脚本的方式将低质数据从样本库中剔除,为后续的机器学习扫清障碍。检查范围包括线上B、C端用户在提交发布节点生成的JD和CV。
相关性X等于职位名称与职位描述的相似度;
x1=可判定JD/CV未命中低质标签的最小值,即当x<x1时,直接判定为正常JD/CV;
x2=可判定JD/CV命中低质标签的最大值,即当x<x2时,直接判定为低质JD/CV。
如图5与图6所示,JD&CV内容理解优先支持[B推向量召回实验],在已确定的离线和实时两版方案中,分别有入库需求如下:
方案一:离线模型
内容理解本期输出内容:需要落表hive,具体可见JD/CV理解输出规范,其中标高优先级的部分,用于B准的d/C整体向量的离线模型训练。
方案二:实时模型
如图7所示,示意了打标过程中,NLP的关键词识别流程图。
图8为本发明的关键词样例;图9为本发明的关键词聚类图;图10为本发明的打分标准图。
现阶段预将np职位描述关键词(以下简写为np关键词)在端、策略上扩大应用,基于当前能力进一步对nlp关键词进行优化预期收益:nlp关键词准确度提升10%,其他结果如下:top3准确率当前77.4%,top10准确率当前66%。
向量模型图如图13及图14所示,其为JDCV理解中使用双塔模型进行向量训练,使用query-title数据训练双塔结构,使用title塔进行计算提供向量。对词模型抽取得到的词,进行向量化表示。封装成批量数据使模型并行计算提升性能。模型结构如下:
1.采用职位或者工作经历的标题与描述信息,平铺送入模型。
2.使用预训练模型BERT对输入进行编码,得到篇章向量。
3.对篇章向量进行softmax多分类并计算损失。
4.最终的输出结果为当前输入对应的职类的概率分布,从中选出概率最
大职类进入后处理流程,对重点职类后处理后作为最终的输出。
图15为本发明的***架构图;图16为本发明的部署框架图。
如图15所示,***架构:***基于现有的微服务体系,从技术平台层、业务服务层和端层面划分为三层。其中移动端按照用户的群体划分为C端、B端、销售端、管理端和运营端等几个独立的App。服务端在现有的体系结构基础上按照新的需求进行新的扩展和优化,满足前端的数据服务、信息加密、隐私保护、权限认证等基础公共服务。基础平台基于现有的数仓和机器学***台层,统一封装了第三方的人脸识别服务接口、芝麻信用接口等通用接口,为本项目服务的同时也可以为其他的项目和产品线体统标准的服务接口。提高***的可扩展性和可维护性。
图17为本发明的物理架构图;如图17,物理架构:***部署在公司统一云环境中,复用前期***的服务资源的同时,为了满足***的测试和灰度发布需求,增加了额外的服务节点。在业务的高峰期需要通过内部运维管理***提供自动缩扩容的功能。
图18为本发明的成果的内容解析图.同时,图18中,核心的非结构字段的内容解析:内容:对核心的非结构化字段做深度理解,抽取关键词并进行权重计算和向量表征,包括三级职类、职位名称、公司名称、技能关键词等;应用:用于下游的搜索、推荐等场景,应用在召回和排序层,头部结果提准,扩大召回量。
内容关联
对解析出的内容做关系处理,补充非核心的非结构化信息解析:
KG能力完善:
内容:结合解析的信息,构建长期可持续的KG信息生产链路,完善KG,如公司别名、技能、学校、专业、职类等。
应用:KG完善
信息校验:
内容:对同维度特征的一致性判断,比如idtitle和id三级职类的一致性,jd学历要求和jd描述中抽取出的学历的一致性,用户cv历史工作经历中的职位名称职类和工作内容的一致性等。
应用:(1)策略或模型中的排序优化,头部结果提准(2)业务端的填写引导和纠错提醒等。
内容挖掘
在前两期工作的基础上,可以结合JD/CV的历史行为数据和其他如聊天内容做进步挖掘,如:
质量评估:
内容:评估d和cv内容的质量,比如从填写内容规范情况、完整度、更新时间及频次、聊天内容等综合维度评估id和cv内容的质量,eg:jd求职风险评估.cv黑产评估、cv&id内容质量评估(如识别低质cv等)等
应用:(1)策略或模型中的低质,高风,险的id&cv的召回限制、排序降权或老流量控制:(2)业务端的id&cv竟争力评估,内容改写引导等
偏好挖掘及预测:
内容:如id招聘中的大厂偏好、竟对偏好、稳定性偏好等;cv的距离偏好、城0市偏好、大厂偏好等
应用:(1)偏好应用在策略或模型中,提升正链(2)求职路径预测。
作为国内最大的专业招聘供需服务平台之一,智联招聘目前已经收集了大量的JD和CV数据,并且已经基于JD和CV的文本内容进行了NLP的语义分析与样本标注,并且通过NLP分析和机器学习,将人工智能技术应用到简历搜索和职位推荐等领域,但是从目前的运营效果来看,仍然存在一下问题导致***的职类预测率和准召率一直低于竞品。
当前***已经就jd进行了NLP的解析,但是其语义分析不够准确,尤其是对于三级职类的理解还有很大的歧义和误差,包括职位名称、公司名称、技能关键词等,导致下游在召回和排序等场景下,准确度下降。
知识图谱对于jd和cv的信息不一致,导致前端搜索和推荐算法的准确度非常低,尤其是在特定行业的专有岗位(三级职类)上,这种现象更加严重。
基于jd和cv的沟通场景,目前的非结构化数据挖掘做的不够,基于聊天频次、聊天内容、黑产、匹配度等关键信息的挖掘和分析不足,导致了数据资产的浪费与闲置。
为了提高数据资产的应用价值,提高NLP分析准确性,并且提升知识图谱的一致性,本发明计划对当前的NLP和KG(knowledge graph,知识图谱)进行升级和改造,以提高检索效率和匹配的准确度。
项目目标
期望通过,KG升级、增量数据样本的标注与学习、NLP算法优化等手段,实现以下项目目标:
a)CV职类预测指标
top1准召率达到90.4%(top1准召率=职类预测top1结果出现在标注职类集合中的总次数/总有效样本数);
top4准确率达到96.8%(top4准确率=职类预测top4结果出现在标注职类集合中的总次数/总有效样本数);
用户选择命中率达到86.4%(用户选择命中率=用户选择的二级职类出现在标注职类集合中的总次数/总有效样本数);
用户选择命中职类预测top1占比达到60.1%(用户选择的三级职类在职类预测top1结果出现的总次数/总有效样本数);
用户选择命中职类预测top4占比达到80.7%(用户选择的三级职类在职类预测top4结果出现的总次数/总有效样本数);
b)JD职类预测指标:
top1准召率达到92.7%(top1准召率=职类预测top1结果出现在标注职类集合中的总次数/总有效样本数);
top4准确率达到98.3%(top4准确率=职类预测top4结果出现在标注职类集合中的总次数/总有效样本数);
用户选择命中率达到89.7%(用户选择命中率=用户选择的三级职类出现在标注职类集合中的总次数/总有效样本数);
用户选择命中职类预测top1占比达到68.0%(用户选择的三级职类在职类预测top1结果出现的总次数/总有效样本数);
用户选择命中职类预测top4占比达到87.6%(用户选择的三级职类在职类预测top4结果出现的总次数/总有效样本数)。
结合图19和图20的示意比较结果可以看出,简历预测效果不错;同时结合图21和图22的示意比较结果可以看出,简历和职位之间的匹配效果不错。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (1)

1.一种提升搜索和推荐结果准确性的方法,其特征在于,包括以下步骤:
S10:通过双链数据提升知识图谱的数据质量,使用聚类方法清洗提升知识图谱的数据准确率;
S20:使用预训练模型进行训练,并结合职类树知识提前融入预训练模型中;
S30:使用多任务训练方式,降低预训练模型困惑度;
S40:推荐出优选职类,包括最可能职类和相似职类;
其中,步骤S10中所述的双链数据利用基础数据中关键词的出现频率进行分组;
步骤S10中所述的双链数据的分组的权重公式如下:
Wpf(i)=pfi*idfi/ifi
式中,Wpf(i)代表第i组关键词的权重值,pfi代表上述第i组关键词的出现频率,idfi代表结构化的双链数据的组数与非结构化的双链数据的组数之间的比值,ifi代表逆频率;
其中,步骤S10中ifi的计算方法如下:
式中,N代表基础数据的总数,dfi代表基础数据中第i组关键词的出现次数;
其中,步骤S10中所述的聚类方法如下:
将结构化的双链数据、半结构化的双链数据进行NLP的特征表示化处理,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi,代表第i组关键词的序列号,其中,1≤i≤n;
式中,步骤S20中所述的预训练模型的方法如下:
将特征表示化处理后结构化的双链数据、半结构化的双链数据发送至NLP服务中心;
最后NLP服务中心将筛选后的符合规则的特征表示化的双链数据利用的BP网络模型进行优化,得到第一实体关系;
其中利用BP网络模型的优化算法如下:
式中,其中Gi代表优化后的第一实体关系程度值,其中N代表所有组的关键词的统计之和,其中Pi n代表所有组的关键词的权重值的分布概率;
其中,步骤S20中融入的方式如下:
优化调度层,以max-min的数学算法建立模型,确定各个单目标函数,得出融入的调度效益;
其中,步骤S30中所述的多任务训练方式如下:
确定各个单目标函数,包括第一目标函数、第二目标函数、第三目标函数及第四目标函数;
其中,第一目标函数为F1(qv1)=(qv11-qv0)/qv12,其中qv0、qv1、qv11及qv12为不同时期计划任务值;
第二目标函数为其中Fi(qvi)为参考流量值,计算方式为采用权重系数变换法并赋予权重,
第三目标函数为Vi,j+1=Vi,j+(Qi,j-qi,j-Qlossi,j),其中Vi,j为第j时间段第i云计算的数据量,其中Vi,j+1为第j+1时间段第i云计算的数据量,其中Qi,j为第j时间段第i云计算的数据进入量,其中qi,j为第j时间段第i云计算的数据泄出量,其中Qlossi,j为第j时间段第i云计算的数据损失量;
第四目标函数为其中Esm为云计算的能值,其中Vm,T为调度时期的有效库容,其中γm,T为调度时期的数据量,其中m为云计算m在t时段的编号,T为云计算m在t时段的总数;
其中,步骤S40中推荐的算法如下:
式中,其中FDQk代表推荐的量化复杂性程度值,其中dkij代表推荐的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表推荐的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表推荐的第k个构件集的行向上的知识图谱数据的复杂度值。
CN202310981457.4A 2023-08-04 2023-08-04 一种提升搜索和推荐结果准确性的方法 Active CN117171428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310981457.4A CN117171428B (zh) 2023-08-04 2023-08-04 一种提升搜索和推荐结果准确性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310981457.4A CN117171428B (zh) 2023-08-04 2023-08-04 一种提升搜索和推荐结果准确性的方法

Publications (2)

Publication Number Publication Date
CN117171428A CN117171428A (zh) 2023-12-05
CN117171428B true CN117171428B (zh) 2024-04-05

Family

ID=88943919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310981457.4A Active CN117171428B (zh) 2023-08-04 2023-08-04 一种提升搜索和推荐结果准确性的方法

Country Status (1)

Country Link
CN (1) CN117171428B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834668A (zh) * 2015-03-13 2015-08-12 浙江奇道网络科技有限公司 基于知识库的职位推荐***
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及***
CN106485054A (zh) * 2016-09-21 2017-03-08 广东工业大学 基于bp神经网络算法的智能诊断用数据分析方法及***
CN107590133A (zh) * 2017-10-24 2018-01-16 武汉理工大学 基于语义的招聘职位与求职简历匹配的方法及***
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN111190968A (zh) * 2019-12-16 2020-05-22 北京航天智造科技发展有限公司 基于知识图谱的数据预处理和内容推荐方法
CN111698207A (zh) * 2020-05-07 2020-09-22 北京华云安信息技术有限公司 网络信息安全的知识图谱的生成方法、设备和存储介质
KR20200141919A (ko) * 2019-06-11 2020-12-21 주식회사 에이아이앤잡 구직자-구인자 매칭의 합격 여부 판단을 위한 기계 학습 방법 및 이를 이용한 추천 장치
CN112463980A (zh) * 2020-11-25 2021-03-09 南京摄星智能科技有限公司 一种基于知识图谱的预案智能推荐方法
CN115456584A (zh) * 2022-09-16 2022-12-09 深圳今日人才信息科技有限公司 基于深度学习模型和专家***的相似jd召回与推荐方法
CN115526590A (zh) * 2022-09-16 2022-12-27 深圳今日人才信息科技有限公司 一种结合专家知识和算法的高效人岗匹配与复推方法
CN116127186A (zh) * 2022-12-09 2023-05-16 之江实验室 一种基于知识图谱人岗个性化匹配推荐方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834668A (zh) * 2015-03-13 2015-08-12 浙江奇道网络科技有限公司 基于知识库的职位推荐***
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及***
CN106485054A (zh) * 2016-09-21 2017-03-08 广东工业大学 基于bp神经网络算法的智能诊断用数据分析方法及***
CN107590133A (zh) * 2017-10-24 2018-01-16 武汉理工大学 基于语义的招聘职位与求职简历匹配的方法及***
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
KR20200141919A (ko) * 2019-06-11 2020-12-21 주식회사 에이아이앤잡 구직자-구인자 매칭의 합격 여부 판단을 위한 기계 학습 방법 및 이를 이용한 추천 장치
CN111190968A (zh) * 2019-12-16 2020-05-22 北京航天智造科技发展有限公司 基于知识图谱的数据预处理和内容推荐方法
CN111698207A (zh) * 2020-05-07 2020-09-22 北京华云安信息技术有限公司 网络信息安全的知识图谱的生成方法、设备和存储介质
CN112463980A (zh) * 2020-11-25 2021-03-09 南京摄星智能科技有限公司 一种基于知识图谱的预案智能推荐方法
CN115456584A (zh) * 2022-09-16 2022-12-09 深圳今日人才信息科技有限公司 基于深度学习模型和专家***的相似jd召回与推荐方法
CN115526590A (zh) * 2022-09-16 2022-12-27 深圳今日人才信息科技有限公司 一种结合专家知识和算法的高效人岗匹配与复推方法
CN116127186A (zh) * 2022-12-09 2023-05-16 之江实验室 一种基于知识图谱人岗个性化匹配推荐方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
作物病害智能诊断与处方推荐技术研究进展;张领先 等;《农业机械学报》;20230616;第54卷(第06期);1-18 *
基于知识图谱的高校服务能力提升探索和研究;孙兆群 等;《华东科技》;20220805(第08期);84-89 *
知识关联视角下金融证券知识图谱构建与相关股票发现;刘政昊 等;《数据分析与知识发现》;20211211;第6卷(第Z1期);184-201 *

Also Published As

Publication number Publication date
CN117171428A (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答***
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及***
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN112989761B (zh) 文本分类方法及装置
CN103838857B (zh) 一种基于语义的自动服务组合***及方法
CN117271767A (zh) 基于多智能体的运维知识库的建立方法
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN110310012A (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114860916A (zh) 知识检索方法及装置
CN113821587A (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN114900346B (zh) 基于知识图谱的网络安全测试方法及***
CN116127090A (zh) 基于融合和半监督信息抽取的航空***知识图谱构建方法
Palash et al. Bangla image caption generation through cnn-transformer based encoder-decoder network
CN116974626B (zh) 分析序列图生成方法、装置、设备和计算机可读存储介质
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN117112794A (zh) 一种基于知识增强的多粒度政务服务事项推荐方法
CN117171428B (zh) 一种提升搜索和推荐结果准确性的方法
CN110134866A (zh) 信息推荐方法及装置
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理***
CN115293479A (zh) 舆情分析工作流***及其方法
Zhao et al. Detecting fake reviews via dynamic multimode network
Ivezić et al. Trends and Challenges of Text-to-Image Generation: Sustainability Perspective
Mehmood et al. Knowledge Graph Embedding in Intent-Based Networking
Xu et al. Research on intelligent campus and visual teaching system based on Internet of things
Zhang et al. A study of ensemble feature selection and adversarial training for malicious user detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant