CN112613310A - 一种人名匹配方法、装置、电子设备及存储介质 - Google Patents
一种人名匹配方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112613310A CN112613310A CN202110003686.XA CN202110003686A CN112613310A CN 112613310 A CN112613310 A CN 112613310A CN 202110003686 A CN202110003686 A CN 202110003686A CN 112613310 A CN112613310 A CN 112613310A
- Authority
- CN
- China
- Prior art keywords
- target
- name
- feature vector
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000976 ink Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种人名匹配方法、装置、电子设备及存储介质,涉及人名匹配技术领域。首先对待检测文章进行分词与词频分析,以获取待检测文章的目标人名及与目标人名对应的目标关键词,然后将目标人名与目标关键词输入向量空间模型,以获取目标人名对应的目标特征向量,再确定目标特征向量与预存储的特征向量的相似度,最后当相似度大于阈值时,确定目标特征向量与预存储的特征向量匹配。本申请提供的人名匹配方法、装置、电子设备及存储介质具有匹配的人名误差更小的效果。
Description
技术领域
本申请涉及人名匹配技术领域,具体而言,涉及一种人名匹配方法、装置、电子设备及存储介质。
背景技术
目前,为了筛选出包含人名的文章,一般需要进行文章进行人名筛选。
然而,现有技术中在进行人名筛选时,仅能简单的识别文章中的人名,而无法确定该文章介绍的人名是否与需要筛选的人名匹配,例如,当需要查找演员“张三”时,现有技术中可能筛选出画家“张三”,人名匹配存在误差。
综上,现有技术中在进行人名筛选时,存在匹配误差较大的问题。
发明内容
本申请的目的在于提供一种人名匹配方法、装置、电子设备及存储介质,以解决现有技术中在进行人名筛选时,存在匹配误差较大的问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请提供了一种人名匹配方法,所述方法包括:
对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;
将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;
确定所述目标特征向量与预存储的特征向量的相似度;
当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。
第二方面,本申请还提供了一种人名匹配装置,所述装置包括:
信息获取单元,用于对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;
特征向量获取单元,用于将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;
相似度确定单元,用于确定所述目标特征向量与预存储的特征向量的相似度;
匹配确定单元,用于当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。
第三方面,本申请提供了一种电子设备,包括:存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现上述的人名匹配方法。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的人名匹配方法。
相对于现有技术,本申请具有以下有益效果:
本申请提供了一种人名匹配方法、装置、电子设备及存储介质,首先对待检测文章进行分词与词频分析,以获取待检测文章的目标人名及与目标人名对应的目标关键词,然后将目标人名与目标关键词输入向量空间模型,以获取目标人名对应的目标特征向量,再确定目标特征向量与预存储的特征向量的相似度,最后当相似度大于阈值时,确定目标特征向量与预存储的特征向量匹配。由于本申请在进行人名匹配时,会基于人名与关键词进行匹配,且关键词基于整个待检测文章确认出,因此从该待检测文章中匹配的人名误差更小。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的电子设备的模块示意图。
图2为本申请实施例提供的人名匹配方法的一种示例性流程图。
图3为本申请实施例提供的人名匹配方法的另一种示例性流程图。
图4为本本申请实施例提供的人名匹配装置的模块示意图。
图中:100-电子设备;101-处理器;102-存储器;103-通信接口;200-人名匹配装置;210-信息获取单元;220-特征向量获取单元;230-相似度确定单元;240-匹配确定单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
正如背景技术中所述,目前,具有社会影响力的人名,往往在内容风控方面需要特别的关注,例如一些影星或歌星等在主流内容分发平台,各大新闻网站,各政府自媒体平台的相关新闻。
因此,在查找相关文章时,需要进行人名匹配,然而,在进行人名匹配时,可能存在人名相同的情况。现有的人名识别算法由于仅找出文本中的人名,因此误差可能较大。例如,当需要筛选歌手“张三”的相关文章时,现有技术可能会同时匹配出演员“张三”、画家“张三”、教师“张三”等,其存在较大误差。
有鉴于此,为了解决上述问题,本申请提供了一种人名匹配方法,通过利用人名与关键词确定目标特征向量的方式,使得最终匹配的人名更加精确。
需要说明的是,本申请提供的人名匹配方法可以应用于电子设备100中,图1示出本申请实施例提供的电子设备100的一种示意性结构框图,电子设备100包括存储器102、处理器101和通信接口103,该存储器102、处理器101和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
存储器102可用于存储软件程序及模块,如本申请实施例提供的人名匹配装置对应的程序指令或模块,处理器101通过执行存储在存储器102内的软件程序及模块,从而执行各种功能应用以及数据处理,进而执行本申请实施例提供的人名匹配方法的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器101可以是一种集成电路芯片,具有信号处理能力。该处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,电子设备100还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
下面以电子设备100作为示意性执行主体,对本申请实施例提供的人名匹配方法进行示例性说明。
作为一种实现方式,请参阅图2,该人名匹配方法包括:
S102,对待检测文章进行分词与词频分析,以获取待检测文章的目标人名及与目标人名对应的目标关键词。
S104,将目标人名与目标关键词输入向量空间模型,以获取目标人名对应的目标特征向量。
S106,确定目标特征向量与预存储的特征向量的相似度。
S108,当相似度大于阈值时,确定目标特征向量与预存储的特征向量匹配。
作为一种实现方式,当需要进行人名匹配时,可以按照队列的方式依次对每篇文章进行匹配。例如,对于某个网站发布的所有文章进行人名匹配,则将该网站发布的所有文章按队列的方式依次进行人名匹配。
其中,在对任一篇文章进行人名匹配时,均需要对该文章进行分词与词频分析。分词即将整句话切分成单一的词汇,词频分析即分析某特定词出现的频率。需要说明的是,本申请并不对分词工具与词频分析工具进行限定,例如,在进行分词时,可以采用庖丁分词工具,当采用词频分析时,可采用TF-IDF词频分析工具。
在进行分词后,不仅能够获取该文章中提及的人名,还可通用词频分析的方式确定出该人名对应的关键词。
作为一种实现方式,在通过词频分析工具确定人名对应的关键词时,可以采用上下文的方式确定筛选关键词,例如,在人名出现的当前段路、上一段落以及下一段落中确定目标关键词。需要说明的是,由于对于同一篇待检测文章而言,某一人名可能出现多次,因此,通过利用上下文的方式确定出目标关键词,实际上可以从文章的多处确定出目标关键词,进而实现了从全文范围内确定出目标关键词,确定的目标关键词更加准确。
同时,可以理解地,通过该种实现方式,当文章对该人名的介绍越消息,则能够提取出的关键词则更多,其准确度也将更高。
例如,对于歌星“张三”而言,从文章中可能提取与其有关的所有关键词,并将提取的所有关键词作为的加权关键词,例如“男、四川人、舞台、演唱”等一系列关键词。
并且,还需要说明的是,对于同一篇文章中,可能出现多个人名,例如,某篇文章中同时报道了张三、李四以及王五的信息。作为一种实现方式,可同时从该文章中确定所有的人名,并且利用词频分析方式确定出每个人名对应的关键词,例如,张三对应的关键词为“男、四川人、舞台、演唱…”,李四对应的关键词为“书法、拍卖、山水、墨宝…”,王五对应的关键词为“学生、大学、物理学…”。
在确定了待检测文章中所有人名及其对应的关键词后,可将所有的人名与对应的关键词输入向量空间模型中,进而得到每个人名对应的目标特征向量。其中,向量空间模型也称词组向量模型,是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。
可以理解地,当文章中出现多个人名时,则可从该文章中确定出多个目标特征向量,例如文章出现3个人名,则可从该文章中确定出3个目标特征向量。
在确定出所有人名的目标特征向量后,需要通过确定相似性的方式获取内容中出现的人名是否为目标人名。可选的,本申请通过确定目标特征向量与预存储的特征向量的相似度的方式进行判定。即当相似度大于阈值时,则确定目标特征向量与预存储的特征向量匹配,文章中出现的人名等于被检测的人名;而当相似度小于阈值时,则确定目标特征向量与预存储的特征向量不匹配,文章中出现的人名并非被检测的人名。
作为一种实现方式,当文章中出现多个人名时,则可以利用预存储的特征向量遍历文章中的特征向量的方式,确定出文章中出现的人名是否为需要查找的人名。
在一种可能的实现方式中,本申请可以利用余弦相似度或K最近邻分类算法确定目标特征向量与预存储的特征向量的相似度。其中,余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。K近邻算法是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
本申请以余弦相似度为例进行说明,当采用余弦相似度确定二者的相似度时,余弦相似度满足公式:
其中,Ai表示目标特征向量的各分量,Bi表示预存储的特征向量的各分量。
换言之,在确定待检测文章中人名对应的目标特征向量后,可以将目标特征向量与预存储的特征向量带入上述公式,进而确定出来两个向量之间的相似度。
需要说明的是,余弦相似度结果表示词频特征向量之间相似程度,其为一个0到1之间的数值,数值越靠近1相似度越高,说明待检测内容中出现的该人名越符合需要,作为一种实现方式,当余弦相似度大于或等于0.5并且小于或等于1时,则认为该文章中人名与需要搜索的人名匹配,而当余弦相似度小于0.5时,则表示二者并不匹配,进而能够确定出待检测文章是否为需要的文章。
此外,作为一种可选的实现方式,请参阅图3,在S102之前,该方法还包括:
S101-1,获取预设定的人名介绍信息。
S101-2,对人名介绍信息进行分词与词频分析,以获取人名介绍信息中的人名及与人名对应的关键词。
S101-3,将人名与关键词输入向量空间模型,以获取预存储的特征向量。
即在本申请中,需要首先确定预存储的特征向量,作为一种实现方式,该特征向量可以由一段人物生平介绍等资料确定。例如,以百度百科中某个人名的相关信息作为预设定的人名介绍信息。使得服务器能够依据该人名介绍信息进行分词与词频分析,进而获取人名介绍信息中的人名及与人名对应的关键词,然后再输入向量空间模型中,得到该人名对应的特征向量。
例如,张三的介绍信息为:张三,男,四川人,著名影星,代表作《xxx》,则在分词后通过词频分析可能得到的关键词为“男、四川、影星、《xxx》”。将该关键词与姓名张三输入向量空间模型中,即可确定出影星张三对应的特征向量。
当在进行待检测文章的分析时,若某篇文章涉及的人名也为张三,但其对应的关键词为“女,东北人,画家”,可以理解地,二者虽然人名相同,但是对应的关键词完全不同,进而使得二者对应的特征向量之间的余弦相似度为0,由此可判断出该文章涉及的人名并非为需要搜索的人名。
或者,若某篇文章涉及的人名也为张三,但其对应的关键词为“男,四川人,xx大学教授”,则可以理解地,二者虽然人名相同,部分关键词也相同,但二者对应的特征向量之间的余弦相似度可能仅为0.2,小于0.5,则也判定二者并不匹配。
需要说明的是,由于关键词越多,其匹配的正确度越高,因此在提供人名相关的介绍信息时,可以提供最详细的信息,使得后续余弦相似度的确定更加正确。
通过上述实现方式,能够使匹配到的人名更加准确。
基于上述实现方式,请参阅图4,本申请还提供了一种人名匹配装置200,该人名匹配装置200包括:
信息获取单元210,用于对待检测文章进行分词与词频分析,以获取待检测文章的目标人名及与目标人名对应的目标关键词。
可以理解地,通过信息获取单元210可以执行S102。
特征向量获取单元220,用于将目标人名与目标关键词输入向量空间模型,以获取目标人名对应的目标特征向量。
可以理解地,通过特征向量获取单元220可以执行S104。
相似度确定单元230,用于确定目标特征向量与预存储的特征向量的相似度。
可以理解地,通过相似度确定单元230可以执行S106。
匹配确定单元240,用于当相似度大于阈值时,确定目标特征向量与预存储的特征向量匹配。
可以理解地,通过匹配确定单元240可以执行S108。
此外,信息获取单元210还用于获取预设定的人名介绍信息。
可以理解地,通过信息获取单元210可以执行S101-1。
信息获取单元210还用于对人名介绍信息进行分词与词频分析,以获取人名介绍信息中的人名及与人名对应的关键词。
可以理解地,通过信息获取单元210可以执行S101-2。
特征向量获取单元220还用于将人名与关键词输入向量空间模型,以获取预存储的特征向量。
可以理解地,特征向量获取单元220可以执行S101-3。
可选地,相似度确定单元230用于利用余弦相似度或K最近邻分类算法确定目标特征向量与预存储的特征向量的相似度。
当采用余弦相似度时,余弦相似度满足公式:
其中,Ai表示目标特征向量的各分量,Bi表示预存储的特征向量的各分量。
综上所述,本申请提供了一种人名匹配方法、装置、电子设备及存储介质,首先对待检测文章进行分词与词频分析,以获取待检测文章的目标人名及与目标人名对应的目标关键词,然后将目标人名与目标关键词输入向量空间模型,以获取目标人名对应的目标特征向量,再确定目标特征向量与预存储的特征向量的相似度,最后当相似度大于阈值时,确定目标特征向量与预存储的特征向量匹配。由于本申请在进行人名匹配时,会基于人名与关键词进行匹配,且关键词基于整个待检测文章确认出,因此从该待检测文章中匹配的人名误差更小。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和或流程图中的每个方框、以及框图和或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种人名匹配方法,其特征在于,所述方法包括:
对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;
将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;
确定所述目标特征向量与预存储的特征向量的相似度;
当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。
2.如权利要求1所述的人名匹配方法,其特征在于,在所述确定所述目标特征向量与预存储的特征向量的相似度的步骤之前,所述方法还包括:
获取预设定的人名介绍信息;
对所述人名介绍信息进行分词与词频分析,以获取所述人名介绍信息中的人名及与所述人名对应的关键词;
将所述人名与所述关键词输入向量空间模型,以获取所述预存储的特征向量。
3.如权利要求1所述的人名匹配方法,其特征在于,所述确定所述目标特征向量与预存储的特征向量的相似度的步骤包括:
利用余弦相似度或K最近邻分类算法确定所述目标特征向量与预存储的特征向量的相似度。
5.一种人名匹配装置,其特征在于,所述装置包括:
信息获取单元,用于对待检测文章进行分词与词频分析,以获取所述待检测文章的目标人名及与所述目标人名对应的目标关键词;
特征向量获取单元,用于将所述目标人名与所述目标关键词输入向量空间模型,以获取所述目标人名对应的目标特征向量;
相似度确定单元,用于确定所述目标特征向量与预存储的特征向量的相似度;
匹配确定单元,用于当所述相似度大于阈值时,确定所述目标特征向量与所述预存储的特征向量匹配。
6.如权利要求5所述的人名匹配装置,其特征在于,信息获取单元还用于获取预设定的人名介绍信息;
信息获取单元还用于对所述人名介绍信息进行分词与词频分析,以获取所述人名介绍信息中的人名及与所述人名对应的关键词;
特征向量获取单元还用于将所述人名与所述关键词输入向量空间模型,以获取所述预存储的特征向量。
7.如权利要求5所述的人名匹配装置,其特征在于,所述相似度确定单元用于利用余弦相似度或K最近邻分类算法确定所述目标特征向量与预存储的特征向量的相似度。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110003686.XA CN112613310A (zh) | 2021-01-04 | 2021-01-04 | 一种人名匹配方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110003686.XA CN112613310A (zh) | 2021-01-04 | 2021-01-04 | 一种人名匹配方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112613310A true CN112613310A (zh) | 2021-04-06 |
Family
ID=75253988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110003686.XA Pending CN112613310A (zh) | 2021-01-04 | 2021-01-04 | 一种人名匹配方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613310A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139523A (zh) * | 2021-11-25 | 2022-03-04 | 北京中交兴路信息科技有限公司 | 名称比对的方法、装置、电子设备及介质 |
WO2023078414A1 (zh) * | 2021-11-04 | 2023-05-11 | 智慧芽信息科技(苏州)有限公司 | 相关文章搜索方法、装置、电子设备和存储介质 |
WO2024114312A1 (zh) * | 2022-11-28 | 2024-06-06 | ***股份有限公司 | 对象匹配方法、装置、设备、***、介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
CN107707745A (zh) * | 2017-09-25 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
WO2020132933A1 (zh) * | 2018-12-25 | 2020-07-02 | 深圳市优必选科技有限公司 | 短文本过滤方法、装置、介质及计算机设备 |
CN111428497A (zh) * | 2020-03-31 | 2020-07-17 | 卓尔智联(武汉)研究院有限公司 | 一种自动抽取出资信息的方法、装置及设备 |
CN111581949A (zh) * | 2020-05-12 | 2020-08-25 | 上海市研发公共服务平台管理中心 | 学者人名的消歧方法、装置、存储介质及终端 |
CN111582967A (zh) * | 2019-11-29 | 2020-08-25 | 北京三快在线科技有限公司 | 内容搜索方法、装置、设备及存储介质 |
CN111898380A (zh) * | 2020-08-17 | 2020-11-06 | 上海熙满网络科技有限公司 | 文本匹配方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-04 CN CN202110003686.XA patent/CN112613310A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
CN107707745A (zh) * | 2017-09-25 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
WO2020132933A1 (zh) * | 2018-12-25 | 2020-07-02 | 深圳市优必选科技有限公司 | 短文本过滤方法、装置、介质及计算机设备 |
CN111582967A (zh) * | 2019-11-29 | 2020-08-25 | 北京三快在线科技有限公司 | 内容搜索方法、装置、设备及存储介质 |
CN111428497A (zh) * | 2020-03-31 | 2020-07-17 | 卓尔智联(武汉)研究院有限公司 | 一种自动抽取出资信息的方法、装置及设备 |
CN111581949A (zh) * | 2020-05-12 | 2020-08-25 | 上海市研发公共服务平台管理中心 | 学者人名的消歧方法、装置、存储介质及终端 |
CN111898380A (zh) * | 2020-08-17 | 2020-11-06 | 上海熙满网络科技有限公司 | 文本匹配方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023078414A1 (zh) * | 2021-11-04 | 2023-05-11 | 智慧芽信息科技(苏州)有限公司 | 相关文章搜索方法、装置、电子设备和存储介质 |
CN114139523A (zh) * | 2021-11-25 | 2022-03-04 | 北京中交兴路信息科技有限公司 | 名称比对的方法、装置、电子设备及介质 |
WO2024114312A1 (zh) * | 2022-11-28 | 2024-06-06 | ***股份有限公司 | 对象匹配方法、装置、设备、***、介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613310A (zh) | 一种人名匹配方法、装置、电子设备及存储介质 | |
CN111046221B (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
US10163063B2 (en) | Automatically mining patterns for rule based data standardization systems | |
CN109460551B (zh) | 签名信息提取方法及装置 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN108090068B (zh) | 医院数据库中的表的分类方法及装置 | |
CN108376129B (zh) | 一种纠错方法及装置 | |
CN108874996B (zh) | 网站分类方法及装置 | |
CN110928992B (zh) | 文本搜索方法、装置、服务器及存储介质 | |
CN110688452B (zh) | 一种文本语义相似度评估方法、***、介质和设备 | |
CN109977233B (zh) | 一种成语知识图谱构建方法及装置 | |
US20200272674A1 (en) | Method and apparatus for recommending entity, electronic device and computer readable medium | |
CN111708909B (zh) | 视频标签的添加方法及装置、电子设备、计算机可读存储介质 | |
CN110209659A (zh) | 一种简历过滤方法、***和计算机可读存储介质 | |
CN108804550B (zh) | 一种查询词拓展方法、装置以及电子设备 | |
CN112818206A (zh) | 一种数据分类方法、装置、终端及存储介质 | |
CN110427496B (zh) | 用于文本处理的知识图谱扩充方法及装置 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN114139547B (zh) | 知识融合方法、装置、设备、***及介质 | |
US10528899B2 (en) | Cladistics data analyzer for business data | |
CN114884686A (zh) | 一种php威胁识别方法及装置 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
WO2015159702A1 (ja) | 部分情報抽出システム | |
CN115357605B (zh) | 一种客户信息检索方法、装置、电子设备及存储介质 | |
CN111241240B (zh) | 行业关键词提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230907 Address after: 9/F, Block C, No. 28 Tianfu Avenue North Section, China (Sichuan) Free Trade Pilot Zone, High tech Zone, Chengdu, Sichuan, 610095 Applicant after: CHENGDU KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd. Address before: 12 / F, building 2, 219 Tianfu 3rd Street, China (Sichuan) pilot Free Trade Zone, hi tech Zone, Chengdu, Sichuan 610000 Applicant before: Chengdu yanchuang Qixin Information Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |