CN112380421A - 简历的搜索方法、装置、电子设备及计算机存储介质 - Google Patents

简历的搜索方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN112380421A
CN112380421A CN202011254848.9A CN202011254848A CN112380421A CN 112380421 A CN112380421 A CN 112380421A CN 202011254848 A CN202011254848 A CN 202011254848A CN 112380421 A CN112380421 A CN 112380421A
Authority
CN
China
Prior art keywords
resume
search
entities
target
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011254848.9A
Other languages
English (en)
Inventor
李国兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiruiyasi Technology Co ltd
Original Assignee
Beijing Xiruiyasi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiruiyasi Technology Co ltd filed Critical Beijing Xiruiyasi Technology Co ltd
Priority to CN202011254848.9A priority Critical patent/CN112380421A/zh
Publication of CN112380421A publication Critical patent/CN112380421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种简历的搜索方法、装置、电子设备及计算机存储介质,涉及信息搜索领域。该方法包括:获取搜索语句,对搜索语句进行分词处理,获得分词结果;根据分词结果确定搜索意图、搜索语句中的实体以及实体间的关系;根据搜索意图、搜索语句中的实体以及实体间的关系确定简历。本申请实施例通过对用户输入的搜索语句进行分析,确定出搜索意图、实体以及实体间的关系,可以更直接准确地识别出用户的意图,并且利用知识图谱匹配可以得到更加完整全面的数据,辅助用户做出更好的决策。

Description

简历的搜索方法、装置、电子设备及计算机存储介质
技术领域
本申请涉及信息搜索技术领域,具体而言,本申请涉及一种简历的搜索方法、装置、电子设备及计算机存储介质。
背景技术
现在互联网时代,人们都通过互联网寻找工作,而企业也在互联网上寻找所需要的人才,一般通过从人才数据库中寻找,但随着企业人才数据库数据积累得越来越多,企业在筛选出合适的是面临很大的挑战。
现在的人力资源搜索的方法主要是关键词匹配搜索,对人才数据库中所有候选人按照不同的字段,构建索引,当用户进行搜索时,选择对应的索引,输入对应的关键词进行搜索。
这样的搜索方式需要定时维护词典,维护成本很高,耗费资源多,而且搜索的结果比较单一,往往无法满足企业的需求。
发明内容
本申请实施例提供一种克服上述问题或者至少部分地解决上述问题的简历的搜索方法、装置、电子设备及计算机存储介质。
第一方面,提供了一种简历的搜索方法,该方法包括:
获取搜索语句,对搜索语句进行分词处理,获得分词结果;
根据分词结果确定搜索意图、搜索语句中的实体以及实体间的关系;
根据搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果,其中人才库用于存储简历,知识图谱用于存储简历中的实体以及实体间的关系。
在一个可能的实现方式中,根据分词结果确定搜索意图、实体以及实体间的关系,包括:
将分词结果输入预先训练的意图识别神经网络模型,获得意图识别神经网络模型输出的搜索意图;
将分词结果输入预先训练的实体识别神经网络模型,获得实体识别神经网络模型输出搜索语句中的实体;
将实体输入预设的语义关系模型,获得预设的语义关系模型输出的实体间的关系。
在另一个可能的实现方式中,根据搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果,包括:
在预设的人才库中搜索包含搜索语句中的实体的简历,并作为第一目标简历;
确定第一目标简历中的第一目标实体,第一目标实体与实体满足实体间的关系;
根据搜索意图在预设的知识图谱中搜索与第一目标实体的语义相同的实体作为第二目标实体;
在人才库中搜索包含第二目标实体的简历,作为第二目标简历,将第二目标简历作为搜索结果。
在又一个可能的实现方式中,在人才库中搜索包含第二目标实体的简历作为第二目标简历,将第二目标简历作为搜索结果,之后还包括对搜索结果进行排序的步骤,包括:
第二目标简历的得分是根据第二目标简历上一次更新与当前时刻的时差,以及搜索语句与第二目标简历之间的相似度确定的;
将第二目标简历按照得分从大到小的顺序进行排序,返回排序后的搜索结果;
得分与第二目标简历上一次更新与当前时刻的时差负相关,与搜索语句与第二目标简历之间的相似度正相关。
在又一个可能的实现方式中,在人才库中搜索包含第二目标实体的简历,作为第二目标简历,将第二目标简历作为搜索结果,之后还包括对搜索结果进行拓展的步骤,包括:
在知识图谱中搜索第二目标简历中包含的实体的属性信息;
将属性信息添加到第二目标简历中,获得拓展后的搜索结果;实体的属性信息是指实体的特征。
第二方面,提供了一种简历的搜索的装置,该装置包括:
获取模块,用于获取搜索语句,对搜索语句进行分词处理,获得分词结果;
分析模块,用于根据分词结果确定搜索意图、搜索语句中的实体以及实体间的关系;
搜索模块,用于根据搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果其中人才库用于存储简历,知识图谱用于存储简历中的实体以及实体间的关系。
进一步地,分析模块包括:
意图分析模块,用于将分词结果输入预先训练的意图识别神经网络模型,获得意图识别神经网络模型输出的搜索意图;
实体分析模块,用于将分词结果输入预先训练的实体识别神经网络模型,获得实体识别神经网络模型输出的搜索语句中的实体;
关系分析模块,用于将实体输入预设的语义关系模型,获得预设的语义关系模型输出的实体间的关系。
进一步地,搜索模块包括:
第一简历搜索模块,在预设的人才库中搜索包含搜索语句中的实体的简历,并作为第一目标简历;
第一实体搜索模块,确定第一目标简历中的第一目标实体,第一目标实体与实体满足实体间的关系;
第二实体搜索模块,用于根据搜索意图在预设的知识图谱中搜索与第一目标实体的语义相同的实体作为第二目标实体;
第二简历搜索模块,用于在人才库中搜索包含第二目标实体的简历作为第二目标简历,将第二目标简历作为搜索结果。
进一步地,第二简历搜索模块包括:
排序模块,用于第二目标简历的得分是根据第二目标简历上一次更新与当前时刻的时差,以及搜索语句与第二目标简历之间的相似度确定的;
将第二目标简历按照得分从大到小的顺序进行排序,返回排序后的搜索结果;
得分与第二目标简历上一次更新与当前时刻的时差负相关,与搜索语句与第二目标简历之间的相似度正相关。
进一步地,第二简历搜索模块还包括:
拓展模块,用于在知识图谱中搜索第二目标简历中包含的实体的属性信息;
将属性信息添加到第二目标简历中,返回拓展后的搜索结果;实体的属性信息是指实体的特征。
第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面所提供的方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本申请实施例提供的简历的搜索方法、装置、电子设备及存储介质,通过对用户输入的搜索语句进行分析,确定出搜索意图、实体以及实体间的关系,可以更直接准确地识别出用户的意图,并且利用知识图谱匹配可以得到更加完整全面的数据,辅助用户做出更好的决策。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种简历搜索的***运行的网络架构图;
图2为本申请实施例提供的一种简历的搜索方法流程图;
图3为本申请实施例提供的一种意图识别神经网络模型示意图;
图4为本申请实施例提供的一种实体识别神经网络模型的示意图;
图5为本申请实施例提供的一种获得搜索结果的流程图;
图6位本申请实施例提供的一种简历搜索的过程示意图;
图7为本申请实施例提供的一种简历的搜索装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请提供的简历的搜索方法,旨在解决现有技术的如上技术问题。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
首先,本申请可应用在各种简历的搜索场景中,例如企业的HR(人力资源)在搜寻符合企业要求的求职者时的场景,简历是求职者给招聘单位发的一份简要介绍,包含有各种基本信息,例如姓名、性别、年龄、名族、籍贯、政治面貌、学历、联系方式等,以及自我评价、工作经历、学习经历、荣耀与成就、求职愿望、对这份工作的理解等等信息。而简历一般存储在人才库中,在需要搜索简历时,可以去人才库中搜索相应的简历。
应理解,本申请提供的简历的搜索方法可以应用于任何具有简历搜索的计算机设备或***中,具体的,简历搜索的***可以运行于如图1所示的网络架构图中,图1为本申请实施例提供的一种简历搜索的***运行的网络架构图,其中,服务器11通过接收终端12上传的搜索语句,进行相应的处理和搜索,将得到的简历返回发送给终端12。
为了更清楚地说明本申请的技术方案,后续将以本申请在简历的搜索场景进行说明,现有的简历的搜索方法一般是在人才库中直接进行搜索,现有的人才库中会建立好索引,如倒排索引,在人才库中进行关键词匹配,根据相应的索引搜索到相应的简历,这样的搜索方式比较单一,搜索得到的简历比较单一,而且数量较少,人才库的维护维护成本很高,耗费的资源多,不能够完全满足企业的需求,并且在搜索简历时用户输入的搜索语句有时候也不能完全匹配对应上索引,并不能完全理解用户想要搜寻的简历,即对用户的意图不能明确确定,也不能辅助用户进行决策。
本申请实施例中提供了一种简历的搜索方法,如图2所示,图2为本申请实施例提供的一种简历的搜索方法流程图,该方法包括:
S101、获取搜索语句,对搜索语句进行分词处理,获得分词结果。
搜索语句是由用户输入的,可以是在电脑、手机等终端上输入的,搜索语句可以是文字和数字,例如“张三的毕业学校”;“手机号为12345678”。分词处理是指对搜索语句进行简单的切分,得到的就是分词结果,例如对“张三的毕业学校”进行分词处理,得到的就是“张三”和“毕业学校”。
本申请实施例在获取到搜索语句后,对搜索语句进行分词处理,得到的分词结果,应当理解的是,用户输入的搜索语句可能并不是标准的,符合搜索要求的,需要对用户输入的搜索语句进行一定的处理,然后才能进行后续的搜索步骤。
S102、根据分词结果确定搜索意图、搜索语句中的实体以及实体间的关系。
搜索意图是指在用户的思维中,用户输入的搜索语句所想要表达出来的用户所想要搜索的内容,可以利用预先训练的意图识别神经网络模型获得,例如用户输入的搜索语句是“张三的校友”,搜索意图就是和张三在同一学校毕业的人。实体是指客观存在的事物,例如“张三”就是一个实体。实体间的关系是指实体与实体之间的联系,例如“张三”和“北京大学”这两个实体之间的关系可能是毕业。
本申请实施例在获得了分词结果后,可以根据搜索结果确定搜索意图、搜索语句中的实体以及实体间的关系,这一步骤可以通过预先训练的神经网络模型获得,例如搜索意图可以利用预先训练的意图识别神经网络模型获得;搜索语句中的实体可以利用预先训练的实体识别神经网络模型获得;实体间的关系可以利用预设的语义关系模型获得。
S103、根据搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果,其中人才库用于存储简历,知识图谱用于存储简历中的实体以及实体间的关系。
本申请实施例在获得了搜索意图、搜索语句中的实体以及实体间的关系后,可以在预先已经建立好的人才库进行搜索,并结合知识图谱来确定用户想到得到的简历,具体的搜索方法在本申请后面的实施例中进行叙述。
本申请实施例提供的简历的搜索方法、装置、电子设备及存储介质,通过对用户输入的搜索语句进行分析,确定出搜索意图、实体以及实体间的关系,可以更直接准确地识别出用户的意图,并且利用知识图谱匹配可以得到更加完整全面的数据,辅助用户做出更好的决策。
本申请实施例中还提供了一种可能的实现方式,根据分词结果确定搜索意图、实体以及实体间的关系,包括:
S1021、将分词结果输入预先训练的意图识别神经网络模型,获得意图识别神经网络模型输出的搜索意图。
本申请实施例通过机器学习的方式来获得搜索意图,具体地,将分词结果输入预先训练好的意图识别神经网络模型,可以获得意图识别神经网络模型输出的用户的搜索意图,其中,在意图识别神经网络模型输出层使用了SoftMax(柔性最大值)激活函数,SoftMax激活函数可以将多个神经网络的输出,映射到(0,1)区间内成为概率,选择其中最大概率的结果作为搜索意图,公式如下所示:
Figure BDA0002772789620000081
其中,f(Zi)是第i个样本搜索意图Zi的概率,
Figure BDA0002772789620000082
是第i个样本搜索意图Zi的指数,e是数学常数,是自然对数的底数,也称为欧拉数,n是样本搜索意图的总个数。
应当理解的是,在执行步骤S1021之前,还可以预先训练得到意图识别神经网络模型,具体可通过以下方法得到:首先,收集一定数量的样本搜索语句,进行分词处理获得每个样本搜索语句的分词结果,然后确定每个样本搜索语句的分词结果所代表的搜索意图,搜索意图可以包括姓名、出生年月、手机号、学校、公司、职位、技能等,可以是根据姓名搜索简历,或是根据手机号搜索简历等。随机,基于样本搜索语句的分词结果以及样本搜索语句的分词结果所代表的搜索意图,进行训练,从而得到意图识别神经网络模型。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
图3为本申请实施例提供的一种意图识别神经网络模型示意图,其中,w0、w1、w2、w3、w4是分词结果中的一个个词,本申请实施例的意图识别神经网络模型可以采用CNN+MLP神经网络模型,包括CNN(Convolutional Neural Networks,卷积神经网络)卷积神经网络和MLP(Multilayer Perceptron,多层感知器)全连接神经网络,本申请实施例对于意图识别神经网络模型的模型结构不作具体的限定。
意图识别神经网络模型的训练方法包括:
S201、初始化CNN层和MLP层;
S202、将一定数量的样本搜索语句的分词结果作为训练样本,将样本搜索语句的分词结果所代表的搜索意图作为样本标签,将训练样本和样本标签输入至CNN层,获得CNN层输出的训练样本的特征向量;
S203、将训练样本的特征向量输入MLP层,获得MLP层输出的训练样本的搜索意图预测结果;
S204、计算预测结果与训练样本对应的样本标签间的偏差,逆向反馈调整调整CNN层和MLP层的参数,直至偏差达到收敛条件,获得训练完成的意图识别神经网络模型。
S1022、将分词结果输入预先训练的实体识别神经网络模型,获得实体识别神经网络模型输出的搜索语句中的实体。
本申请实施例通过机器学习的方式来获得实体,具体地,将分词结果输入预先训练好的实体识别神经网络模型,可以获得实体识别神经网络模型输出的实体。
应当理解的是,在执行步骤S1022之前,还可以预先训练得到实体识别神经网络模型,具体可,通过以下方法获得:首先收集一定数量的样本搜索语句,进行分词处理获得每个样本搜索语句的分词结果,然后确定每个样本搜索语句的分词结果中包含的实体,例如分词结果为“张三”、“北京大学”,可以得到姓名实体张三,学校实体北京大学。随机,基于样本搜索语句的分词结果以及样本搜索语句的分词结果中包含的实体进行训练,从而得到实体识别神经网络模型。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
图4为本申请实施例提供的一种实体识别神经网络模型的示意图,其中,w0、w1、w2、w3、w4是分词结果中的一个个词,本申请实施例的实体识别神经网络模型可以采用BiLSTM+CRF神经网络模型,包括BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆)神经网络和CRF(conditional random field,条件随机场)神经网络,本申请实施例对于实体识别神经网络模型的模型结构不作具体的限定。
实体识别神经网络模型的训练方法包括:
S301、初始化BiLSTM层和CRF层;
S302、将一定数量的样本搜索语句的分词结果作为训练样本,将样本搜索语句的分词结果中包含的实体作为样本标签,将训练样本和样本标签输入BiLSTM层,获得BiLSTM层输出的训练样本的分类概率;
S303、将训练样本的分类概率输入CRF层,获得CRF层输出的训练样本的实体预测结果;
S304、计算预测结果与训练样本对应的样本标签的偏差,逆向反馈调整BiLSTM层和CRF层的参数,直至偏差达到收敛条件,获得训练完成的实体识别神经网络模型。
S1023、将实体输入预设的语义关系模型,获得预设的语义关系模型输出的实体间的关系。
将实体输入预设的语义关系模型中,可以获得预设的语义关系模型输出的实体间的关系,采用的是开源的LTP(Language Technology Platform,语言技术平台)模型,LTP模型中定义了各种语义关系,将实体输入LTP模型后,可以利用定义的语义关系确定实体与实体之间的关系,例如姓名实体张三与学校实体,可以得到实体间的关系为毕业,具体的,表1为语义角色关系定义表,如表1所示:
关系类型 说明 实例
ARG0 主体 [张三ARG0]毕业于北京大学
ARG1 受事者 张三毕业于[北京大学ARG1]
FEAT 修饰 张三[毕业于FEAT]北京大学
表1:语义角色关系定义表
本申请实施例利用了预先训练好的意图识别神经网络模型、实体识别神经网络模型以及预设的语义关系模型,可以准确的识别出搜索语句所表达出的用户的搜索意图、所包含的实体以及实体间的关系,可以根据用户的需求进行更加精确的搜索。
本申请实施例中还提供了一种可能的实现方式,如图5所示,图5为本申请实施例提供的一种获得搜索结果的流程示意图,根据搜索意图、实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果,包括:
S1031、在预设的人才库中搜索包含实体的简历,并作为第一目标简历。
人才库是预先已经建立好的,人才库中存储的是简历,根据上述步骤得到的实体,可以在人才库中搜索得到包含有该实体的简历,将此时搜索得到的简历作为第一目标简历,例如:若用户输入的搜索语句是“张三的校友”,经过上述步骤可以得到实体张三,在人才库中搜索,获得第一目标简历即姓名为张三的简历。
S1032、确定第一目标简历中的第一目标实体,第一目标实体与实体满足实体间的关系。
在确定了第一目标简历后,可以根据上述步骤获得的实体间的关系来确定与该实体具有该实体间的关系的实体作为第一目标实体,例如用户输入的搜索语句为“张三的校友”,经过上述可以得到实体间的关系为毕业,可以确定第一目标实体为“北京大学”。
S1033、根据搜索意图在预设的知识图谱中搜索与第一目标实体的语义相同的实体作为第二目标实体。
在得到了第一实体后,可以根据用户的搜索意图在预设的知识图谱中搜索,获得与第一目标实体实际含义相同的实体作为第二目标实体,应当理解的是,知识图谱是预先已经建立好的,知识图谱存储有各种实体、实体间的关系以及实体的属性的,实体的属性是指实体的各种特征,而在简历中所写的内容可能并不是实体所代表的全部属性,可以根据知识图谱中所存储的实体的属性来确定第二目标实体,例如学校实体“北京大学”的别称有“圆明园职业技术学院”、“北大”。
S1034、在人才库中搜索包含第二目标实体的简历作为第二目标简历,将第二目标简历作为搜索结果。
在得到第二目标实体后,可以在预设的人才库中继续搜索,得到所有包含有第二目标实体的简历作为第二目标简历,第二目标简历就是用户想要搜索得到的简历,例如搜索所有包含有“北京大学”、“北大”、“圆明园职业技术学院”的简历作为第二目标简历。
本申请实施例根据用户输入的搜索语句所表达的搜索意图、实体以及实体间的关系,利用知识图谱进行了更加广泛而准确的搜索,满足了用户搜索的全部需求。
本申请实施例中还提供了一种可能的实现方式,如图6所示,图6为本申请实施例提供的一种简历搜索的过程示意图:
其中,F代表的是服务器,R代表的是人才库,服务器F在人才库R中搜索包含有搜索语句中的实体的简历,获得人才库R中的包含有搜索语句中的实体的简历,并作为第一目标简历;然后服务器F将第一目标简历中满足于搜索语句具有实体间关系的实体作为第一目标实体。
T代表得是知识图谱,服务器F根据用户的搜索意图在知识图谱T中进行搜索,获得知识图谱T中与第一目标实体语义相同的实体作为第二目标实体。
Z代表的是终端,服务器F在人才库R中进行搜索,获得人才库R中包含有第二目标实体的简历作为搜素结果,返回给终端Z。
本申请实施例通过将知识图谱与人才库有机结合起来进行搜索,解决了由于人才库中存储了大量简历而难以进行准确搜索的问题,使搜索结果广泛而准确。
本申请实施例中还提供了一种可能的实现方式,在人才库中搜索包含第二目标实体的简历,作为第二目标简历,将第二目标简历作为搜索结果,之后还包括对搜索结果进行排序的步骤,包括:
第二目标简历的得分是根据第二目标简历上一次更新与当前时刻的时差,以及搜索语句与第二目标简历之间的相似度确定的;
将第二目标简历按照得分从大到小的顺序进行排序,返回排序后的搜索结果;
得分与第二目标简历上一次更新与当前时刻的时差负相关,与搜索语句与第二目标简历之间的相似度正相关。
人才库中存储了大量的简历,并且根据时间的推移,求职者的经历,求职者会不断的更新简历的内容,那么上一次更新距离现在搜索的时间之差就可以作为一个评判标准来让用户选择所需要的简历,而用户的搜索语句与简历内容的相似度也可以是与用户的需求密切相关的一个条件,并且上一次更新距离现在搜索的时间之差越小,用户的搜索语句与简历内容的相似度越大,得分越高,如下所示的算法公式可以计算出简历在上述两个条件下的得分情况:
公式(1):
score=bm25+0.5*e-0.05*t
公式(2):
Figure BDA0002772789620000121
公式(1)为得分score的计算公式,其中,bm25为搜索语句与简历之间的相似度,t为简历上一次更新的时间与现在搜索的时间之差,e为数学中的自然常数,也称为欧拉数。
公式(2)为搜索语句与简历之间的相似度bm25的计算公式,其中,ri是包含有分词i的相关简历数量,R是总的包含有分词i的相关简历数量,ni是总的简历数量,N是总的简历数量,K、k1、k2是常数,fi是分词i在简历中出现的频率,qfi是分词i在用户的搜索语句中出现的频率。
本申请实施例通过简历上一次更新的时间与现在搜索的时间之差,以及搜索语句与简历之间的相似度这两个判断条件,将简历按照从大到小的顺序进行排序,可以让用户对搜索到的简历有一个非常直观的视角,可以更好的满足用户的需求。
本申请实施例中还提供了一种可能的实现方式,在人才库中搜索包含第二目标实体的简历,作为第二目标简历,将第二目标简历作为搜索结果,之后还包括对搜索结果进行拓展的步骤,包括:
在知识图谱中搜索第二目标简历中包含的实体的属性信息;
将属性信息添加到第二目标简历中;实体的属性信息是指实体的特征。
用户在搜索得到了简历之后,还可能需要根据简历中某个或某些实体的属性信息来判断拥有该简历的求职者是否符合用户的需求,或者可以进行对比,来让用户选择求职者,而知识图谱中存储了实体的属性信息,也就是实体的特征,可以将知识图谱中的实体的属性信息添加到简历中,让用户进行选择。
例如用户想要搜索的简历中有人毕业于北京大学,有人毕业于清华大学,此时可以将知识图谱中存储的实体北京大学的属性信息,实体清华大学的属性信息添加到简历中进行对比,如北京大学的强项专业方向,教学资源等,清华大学的强项专业方向,教学资源等。
本申请实施例通过将知识图谱中的实体的属性信息添加到简历中,可以让用户对于不同求职者的简历中不同实体的属性信息进行充分的了解,让用户根据需求进行更好的决策,来选择更适合用户企业的求职者。
本申请实施例提供了一种简历的搜索装置,如图7所示,图7位本申请实施例提供的一种简历的搜索装置示意图,该装置可以包括:获取模块101、分析模块102以及搜索模块103,其中,
获取模块101,用于获取搜索语句,对搜索语句进行分词处理,获得分词结果;
分析模块102,用于根据分词结果确定搜索意图、搜索语句中的实体以及实体间的关系;
搜索模块103,用于根据搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果,其中人才库用于存储简历,知识图谱用于存储简历中的实体以及实体间的关系。
本申请实施例提供的简历的搜索装置,具体执行上述方法实施例流程,具体请详见上述简历的搜索方法实施例的内容,在此不再赘述。本申请实施例提供的简历的搜索装置,通过对用户输入的搜索语句进行分析,确定出搜索意图、实体以及实体间的关系,可以更直接准确地识别出用户的意图,并且利用知识图谱匹配可以得到更加完整全面的数据,辅助用户做出更好的决策。
进一步地,分析模块102包括:
意图分析模块,用于将分词结果输入预先训练的意图识别神经网络模型,获得意图识别神经网络模型输出的搜索意图;
实体分析模块,用于将分词结果输入预先训练的实体识别神经网络模型,获得实体识别神经网络模型输出的搜索语句中的实体;
关系分析模块,用于将实体输入预设的语义关系模型,获得预设的语义关系模型输出的实体间的关系。
进一步地,搜索模块103包括:
第一简历搜索模块,在预设的人才库中搜索包含搜索语句中的实体的简历,并作为第一目标简历;
第一实体搜索模块,确定第一目标简历中的第一目标实体,第一目标实体与实体满足实体间的关系;
第二实体搜索模块,用于根据搜索意图在预设的知识图谱中搜索与第一目标实体的语义相同的实体作为第二目标实体;
第二简历搜索模块,用于在人才库中搜索包含第二目标实体的简历作为第二目标简历,将第二目标简历作为搜索结果。
进一步地,第二简历搜索模块包括:
排序模块,用于第二目标简历的得分是根据第二目标简历上一次更新与当前时刻的时差,以及搜索语句与第二目标简历之间的相似度确定的;
将第二目标简历按照得分从大到小的顺序进行排序,返回排序后的搜索结果;
得分与第二目标简历上一次更新与当前时刻的时差负相关,与搜索语句与第二目标简历之间的相似度正相关。
进一步地,第二简历搜索模块还包括:
拓展模块,用于在知识图谱中搜索第二目标简历中包含的实体的属性信息;
将属性信息添加到第二目标简历中,返回拓展后的搜索结果;实体的属性信息是指实体的特征。
本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:对用户输入的搜索语句进行分析,确定出搜索意图、实体以及实体间的关系,可以更直接准确地识别出用户的意图,并且利用知识图谱匹配可以得到更加完整全面的数据,辅助用户做出更好的决策。
在一个可选实施例中提供了一种电子设备,如图8所示,图8所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,通过对用户输入的搜索语句进行分析,确定出搜索意图、实体以及实体间的关系,可以更直接准确地识别出用户的意图,并且利用知识图谱匹配可以得到更加完整全面的数据,辅助用户做出更好的决策。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种简历的搜索方法,其特征在于,包括:
获取搜索语句,对所述搜索语句进行分词处理,获得分词结果;
根据所述分词结果确定搜索意图、搜索语句中的实体以及实体间的关系;
根据所述搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果,其中所述人才库用于存储简历,所述知识图谱用于存储简历中的实体以及实体间的关系。
2.根据权利要求1所述的简历的搜索方法,其特征在于,所述根据所述分词结果确定搜索意图、搜索语句中的实体以及实体间的关系,包括:
将所述分词结果输入预先训练的意图识别神经网络模型,获得所述意图识别神经网络模型输出的搜索意图;
将所述分词结果输入预先训练的实体识别神经网络模型,获得所述实体识别神经网络模型输出的搜索语句中的实体;
将所述实体输入预设的语义关系模型,获得所述预设的语义关系模型输出的实体间的关系。
3.根据权利要求1所述的简历的搜索方法,其特征在于,所述根据所述搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果,包括:
在预设的人才库中搜索包含所述搜索语句中的实体的简历,并作为第一目标简历;
确定所述第一目标简历中的第一目标实体,所述第一目标实体与所述实体满足所述实体间的关系;
根据所述搜索意图在预设的知识图谱中搜索与所述第一目标实体的语义相同的实体作为第二目标实体;
在所述人才库中搜索包含所述第二目标实体的简历,作为第二目标简历,将所述第二目标简历作为搜索结果。
4.根据权利要求3所述的简历的搜索方法,其特征在于,所述在所述人才库中搜索包含所述第二目标实体的简历,作为第二目标简历,将所述第二目标简历作为搜索结果,之后还包括对搜索结果进行排序的步骤,包括:
所述第二目标简历的得分是根据所述第二目标简历上一次更新与当前时刻的时差,以及所述搜索语句与所述第二目标简历之间的相似度确定的;
将所述第二目标简历按照得分从大到小的顺序进行排序,返回排序后的搜索结果;
所述得分与所述第二目标简历上一次更新与当前时刻的时差负相关,与所述搜索语句与所述第二目标简历之间的相似度正相关。
5.根据权利要求3所述的简历的搜索方法,其特征在于,所述在所述人才库中搜索包含所述第二目标实体的简历,作为第二目标简历,将所述第二目标简历作为搜索结果,之后还包括对搜索结果进行拓展的步骤,包括:
在所述知识图谱中搜索所述第二目标简历中包含的实体的属性信息;
将所述属性信息添加到所述第二目标简历中,获得拓展后的搜索结果;所述实体的属性信息是指实体的特征。
6.一种简历的搜索装置,其特征在于,包括:
获取模块,用于获取搜索语句,对所述搜索语句进行分词处理,获得分词结果;
分析模块,用于根据所述分词结果确定搜索意图、搜索语句中的实体以及实体间的关系;
搜索模块,用于根据所述搜索意图、搜索语句中的实体以及实体间的关系从人才库和预先构建的知识图谱中获得搜索结果。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述简历的搜索方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5中任意一项所述简历的搜索方法的步骤。
CN202011254848.9A 2020-11-11 2020-11-11 简历的搜索方法、装置、电子设备及计算机存储介质 Pending CN112380421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011254848.9A CN112380421A (zh) 2020-11-11 2020-11-11 简历的搜索方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011254848.9A CN112380421A (zh) 2020-11-11 2020-11-11 简历的搜索方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112380421A true CN112380421A (zh) 2021-02-19

Family

ID=74582624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011254848.9A Pending CN112380421A (zh) 2020-11-11 2020-11-11 简历的搜索方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112380421A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434687A (zh) * 2021-07-22 2021-09-24 高向咨询(深圳)有限公司 自动简历查找方法、自动招聘***、计算机存储介质
CN113742455A (zh) * 2021-09-09 2021-12-03 平安科技(深圳)有限公司 基于人工智能的简历搜索方法、装置、设备及存储介质
CN113761206A (zh) * 2021-09-10 2021-12-07 平安科技(深圳)有限公司 基于意图识别的信息智能查询方法、装置、设备及介质
CN114490722A (zh) * 2022-02-25 2022-05-13 北京嘉诚瑞杰信息技术有限公司 一种基于空间实体融合的智能搜索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017024884A1 (zh) * 2015-08-07 2017-02-16 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
US20190065507A1 (en) * 2017-08-22 2019-02-28 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for information processing
CN110516260A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 实体推荐方法、装置、存储介质及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017024884A1 (zh) * 2015-08-07 2017-02-16 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
US20190065507A1 (en) * 2017-08-22 2019-02-28 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for information processing
CN110516260A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 实体推荐方法、装置、存储介质及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434687A (zh) * 2021-07-22 2021-09-24 高向咨询(深圳)有限公司 自动简历查找方法、自动招聘***、计算机存储介质
CN113742455A (zh) * 2021-09-09 2021-12-03 平安科技(深圳)有限公司 基于人工智能的简历搜索方法、装置、设备及存储介质
CN113742455B (zh) * 2021-09-09 2023-11-10 平安科技(深圳)有限公司 基于人工智能的简历搜索方法、装置、设备及存储介质
CN113761206A (zh) * 2021-09-10 2021-12-07 平安科技(深圳)有限公司 基于意图识别的信息智能查询方法、装置、设备及介质
CN114490722A (zh) * 2022-02-25 2022-05-13 北京嘉诚瑞杰信息技术有限公司 一种基于空间实体融合的智能搜索方法

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2020177282A1 (zh) 一种机器对话方法、装置、计算机设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112380421A (zh) 简历的搜索方法、装置、电子设备及计算机存储介质
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN107609185B (zh) 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN110795527B (zh) 候选实体排序方法、训练方法及相关装置
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
US20170103337A1 (en) System and method to discover meaningful paths from linked open data
CN111291187B (zh) 一种情感分析方法、装置、电子设备及存储介质
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN114036322A (zh) 用于搜索***的训练方法、电子设备和存储介质
CN112463944A (zh) 一种基于多模型融合的检索式智能问答方法及装置
CN109977292A (zh) 搜索方法、装置、计算设备和计算机可读存储介质
CN112508177A (zh) 一种网络结构搜索方法、装置、电子设备及存储介质
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN113987161A (zh) 一种文本排序方法及装置
CN112800226A (zh) 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination