CN117077679A - 命名实体识别方法和装置 - Google Patents
命名实体识别方法和装置 Download PDFInfo
- Publication number
- CN117077679A CN117077679A CN202311332338.2A CN202311332338A CN117077679A CN 117077679 A CN117077679 A CN 117077679A CN 202311332338 A CN202311332338 A CN 202311332338A CN 117077679 A CN117077679 A CN 117077679A
- Authority
- CN
- China
- Prior art keywords
- initial
- entity
- identified
- data
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 235000019580 granularity Nutrition 0.000 description 51
- 238000010586 diagram Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种命名实体识别方法和装置。所述方法包括:获取专业知识数据库;其中,专业知识数据库包括至少两个粒度实体;确定与粒度实体对应的价值评分,基于价值评分从粒度实体中确定目标实体,并根据目标实体以及对应于目标实体的预设指令模板,得到提示指令模板;基于提示指令模板和获取到的待识别数据,生成第一待识别文本信息,对第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。采用本方法能够实现高效且准确地针对专业领域的专业型命名实体识别。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种命名实体识别方法和装置。
背景技术
命名实体识别(Name Entity Recognition,简称NER)是自然语言处理领域中一项关键任务,其主要目标是从文本中识别和分类出具有特定意义的命名实体,是信息抽取、问答***和知识图谱构建等实际应用的技术支柱。因此不论学术界还是工业界,对高效准确的NER技术都有着迫切的需求。
目前一些学者已经开始尝试利用大语言模型(Large Language Models,简称LLMs)来辅助命名实体识别任务,但这些模型主要针对通用型命名实体,例如人名、地名、组织机构名等,而非特定领域(如天文领域)的非通用型专业知识,这也导致了现有的命名实体识别技术无法满足专业人员在特定领域内对专业知识的需求。
目前,针对如何高效且准确地对专业领域内的专业型命名实体进行识别,尚未提出有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种命名实体识别方法和装置。
第一方面,本申请提供了一种命名实体识别方法。该方法包括:
获取专业知识数据库;其中,专业知识数据库包括至少两个粒度实体;
确定与粒度实体对应的价值评分,基于价值评分从粒度实体中确定目标实体,并根据目标实体以及对应于目标实体的预设指令模板,得到提示指令模板;
基于提示指令模板和获取到的待识别数据,生成第一待识别文本信息,对第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。
在其中一个实施例中,专业知识数据库中包括至少一种数据类型,每种数据类型对应至少两个粒度实体;针对粒度实体获取到与粒度实体一一对应的价值评分,包括:
获取训练完备的评分模型;其中,评分模型是根据专业知识数据库中与数据类型对应的初始示例,以及与初始示例对应的初始评分训练得到的,评分模型与数据类型为一一对应关系;
基于评分模型对数据类型中的粒度实体进行评估,得到于粒度实体一一对应的价值评分。
在其中一个实施例中,获取初始评分,包括:
计算步骤:基于初始示例以及预设指令模板得到初始指令模板,并基于预设的检测文本得到与初始示例一一对应的初始准确率;
基于初始示例中的当前初始示例确定至少一组当前数据组合,并从初始准确率中确定对应于当前数据组合的当前准确率;
评分步骤:根据所有当前准确率的平均值得到针对于当前初始示例的当前初始评分;
基于初始示例中的下一个初始示例确定至少一组下一个数据组合,重复计算步骤以及评分步骤直至遍历所有初始示例,得到与初始示例一一对应的初始评分。
在其中一个实施例中,得到至少一个提示指令模板之后,方法还包括:
获取预设的检测文本;
基于提示指令模板对检测文本进行识别,得到对应于提示指令模板的初始识别结果;
基于初始识别结果与提示指令模板进行匹配计算,得到对应于提示指令模板的模板准确率结果;
在检测到模板准确率结果中的待删除准确率小于预设的准确率阈值的情况下,对待删除准确率对应的待删除指令模板进行删除处理,并基于提示指令模板中的剩余指令模板得到目标提示指令模板;
基于目标提示指令模板和获取到的待识别数据,生成第二待识别文本信息。
在其中一个实施例中,得到命名实体识别结果之后,方法还包括:
基于命名实体识别结果确定对应于待识别数据的实体类别信息,根据实体类别信息确定正则表达式;
基于正则表达式对待识别数据进行检索,得到模糊实体识别结果,基于模糊实体识别结果以及命名实体识别结果得到最终实体识别结果。
在其中一个实施例中,得到模糊实体识别结果之后,方法还包括:
获取潜在验证模板,基于潜在验证模板对模糊实体识别结果进行评判,得到评判识别结果,并基于评判识别结果对模糊实体识别结果进行修正,得到目标模糊识别结果;
基于目标模糊识别结果以及命名实体识别结果得到最终实体识别结果。
在其中一个实施例中,获取待识别数据,包括:
获取初始待识别数据;
将初始待识别数据进行切分处理,得到初始待识别文本块,并基于初始待识别文本块之间的空间距离得到针对于初始待识别文本块之间的文本块相似度;
基于文本块相似度对初始待识别文本块中的相似文本块进行拼接处理,得到待识别数据。
在其中一个实施例中,得到命名实体识别结果之后,方法还包括:
基于命名实体识别结果构建针对待识别数据的知识图谱,并将知识图谱发送至预设的显示设备中进行显示处理。
在其中一个实施例中,将知识图谱发送至预设的显示设备中进行显示处理之后,方法还包括:
基于知识图谱获取针对专业知识数据库的数据库修改指令;
基于数据库修改指令对专业知识数据库进行更新处理,得到针对专业领域的目标专业知识数据库。
第二方面,本申请还提供了一种面向专业领域的实体识别装置。所述装置包括:
获取模块,用于获取专业知识数据库;其中,专业知识数据库包括至少两个粒度实体;
计算模块,用于确定与粒度实体对应的价值评分,基于价值评分从粒度实体中确定目标实体,并根据目标实体以及对应于目标实体的预设指令模板,得到提示指令模板;
生成模块,用于基于提示指令模板和获取到的待识别数据,生成第一待识别文本信息,对第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。
上述命名实体识别方法和装置,一方面,通过上述基于专业知识数据库中获取到的目标实体,以及预设指令模板得到的提示指令模板,可以从待识别文本中提取到更为准确地针对于专业知识领域的命名实体识别结果;另一方面,基于价值评分获取到专业知识数据库中的目标实体构成的提示指令模板,可以对上述预设指令模板更好的起到示例的作用,使得对待识别数据的识别更加准确高效。
附图说明
图1为一个实施例中命名实体识别方法的应用环境图;
图2为一个实施例中命名实体识别方法的流程示意图;
图3为一个实施例中以天文领域为例的知识图谱示意图;
图4为另一个实施例中基于数据库修改指令的优化示意图;
图5为一个优选实施例中命名实体识别方法的流程图;
图6为一个实施例中命名实体识别装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的命名实体识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上,也可以放在云上或其他网络服务器上。首先获取包括有粒度实体的专业知识数据库,其次确定与粒度实体对应的价值评分,基于该价值评分从粒度实体中确定目标实体,并根据目标实体以及预设指令模板得到提示指令模板;最后,根据提示指令模板和待识别数据生成第一待识别文本信息,并基于对第一待识别文本信息进行命名实体识别处理得到命名实体识别结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种命名实体识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取专业知识数据库;其中,专业知识数据库包括至少两个粒度实体。
其中,上述专业知识数据库中包含的指示,是借助专家知识对少量的天文领域的文献数据进行分析和标注,具体来说,是借助专家知识对上述粒度实体进行人工标注,构建多粒度的实体标注数据集,并定义实体之间的结构化关系,形成针对于专业领域而非通用领域的专业知识数据库。粒度实体中的粒度反映了数据库中实体的多种粒度,如针对天文领域的专业知识数据库,上述粒度实体可以包括较为粗糙的粒度,如天体名称、望远镜名称等,进一步地,上述粒度实体也可以包括较为详细的粒度,如太阳、月球等。
步骤S204,确定与粒度实体对应的价值评分,基于价值评分从粒度实体中确定目标实体,并根据目标实体以及对应于目标实体的预设指令模板,得到提示指令模板。
其中,上述价值评分与粒度实体为一一对应关系,可以理解的是,该价值评分可以是人工对粒度实体进行的评分,也可以是基于训练完备的神经网络对粒度实体进行评分,该价值评分结果指示了该粒度实体与上述预设指令模板的匹配程度,在确定与所有粒度实体对应的价值评分后,选择价值评分高的粒度实体,与预设指令模板结合得到提示指令模板,其中,该提示指令模板用于针对待识别数据获取对应的命名实体识别结果。
步骤S206,基于提示指令模板和获取到的待识别数据,生成第一待识别文本信息,对第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。
其中,待识别数据可以为一段针对于上述专业知识领域的文本或文献等,将待识别数据嵌套至提示指令模板中,得到上述第一代识别文本信息,可以理解是的,根据不同的提示指令模板可以针对该待识别数据提取不同的命名实体信息。优选的,可以使用训练完备的大语言模型基于该第一待识别文本信息进行命名实体识别处理,该命名实体识别处理与提示指令模板中的目标实体的粒度以及类型均对应。
通过步骤S202至步骤S206,与现有技术不同的是,现有技术中通常对获取到的命名实体识别结果的格式进行改进,以得到更为标准专业的格式内容,而本申请则是针对提示指令模板中的目标实体进行优化,以实现对待识别文本信息更精确的识别。进一步地,通过专业知识数据库中构建的多个粒度实体,本申请在实际应用时可以由相关技术人员基于对目标实体进行筛选以及对目标实体粒度进行筛选,在保证了命名实体识别结果准确的基础上,实现了多粒度的命名实体识别结果。
在一个实施例中,专业知识数据库中包括至少一种数据类型,每种数据类型对应至少两个粒度实体;针对粒度实体获取到与粒度实体一一对应的价值评分,包括:
获取训练完备的评分模型;其中,评分模型是根据专业知识数据库中与数据类型对应的初始示例,以及与初始示例对应的初始评分训练得到的,评分模型与数据类型为一一对应关系;
基于评分模型对数据类型中的粒度实体进行评估,得到于粒度实体一一对应的价值评分。
具体地,上述专业知识数据库中包括多种数据类型,每种数据类型对应有大批量的粒度实体,以天文领域为例,上述数据类型可以包括天体名称、赤经、赤纬等。对应于一个类型下的预设指令模板,获取多个上述初始示例,并获取对应于该初始示例的初始评分,其中,该初始评分的获取可以根据人工设置,也可以基于预设的检测文本得到对应于该初始示例的初始评分。而后基于上述初始示例以及初始评分对评分模型进行训练,得到训练完备的评分模型,根据该训练完备的评分模型对对应的数据类型中其余的粒度实体进行评估,得到对应于其余粒度实体的价值评分。通过上述方法可以灵活且快速的获取数据库中与指令模板对应数据类型中的所有粒度实体的价值评分,并且具有较高的准确率,只需人工进行少量的标注,而无需进行大量标注,节省了人力成本以及计算资源。
在其中一个实施例中,获取初始评分,包括:
计算步骤:基于初始示例以及预设指令模板得到初始指令模板,并基于预设的检测文本得到与初始示例一一对应的初始准确率;
基于初始示例中的当前初始示例确定至少一组当前数据组合,并从初始准确率中确定对应于当前数据组合的当前准确率;
评分步骤:根据所有当前准确率的平均值得到针对于当前初始示例的当前初始评分;
基于初始示例中的下一个初始示例确定至少一组下一个数据组合,重复计算步骤以及评分步骤直至遍历所有初始示例,得到与初始示例一一对应的初始评分。
具体地,可以根据将单个初始示例加入数据组合的数据价值边际增益期望作为上述初始评分,其中具体地,首先确定与初始示例对应的初始准确率,该初始准确率的获取可以根据人工设置的方式获取,也可以基于将初始指令模板与检测文本进行嵌套,根据对检测文本的识别结果得到上述初始示例的初始准确率。在获取上述初始准确率后进行数据组合,例如,在确定好当前初始示例以及对应的当前初始准确率后,将其余的另一个初始示例加入,根据另一个初始示例的准确率以及当前初始示例对应的当前初始准确率进行准确率计算,得到对应于这两个示例的准确率,同理,将与当前初始示例相关的组合都排列计算一遍,得出的当前准确率的平均值就是当前初始示例对应的当前初始评分。以此类推便可计算出所有初始示例对应的初始评分。通过上述方法可以更为准确地获取到各个初始示例对应的初始评分,通过多组数据的排列组合计算平均值,使得初始评分可以更好的反映出初始示例与对应的初始指令模板的匹配程度。
在其中一个实施例中,得到至少一个提示指令模板之后,方法还包括:
获取预设的检测文本;其中,所述检测文本中包括有预设的标注信息;
基于提示指令模板对检测文本进行识别,得到对应于提示指令模板的初始识别结果;
基于初始识别结果与标注信息进行匹配计算,得到对应于提示指令模板的模板准确率结果;
在检测到模板准确率结果中的待删除准确率小于预设的准确率阈值的情况下,对待删除准确率对应的待删除指令模板进行删除处理,并基于提示指令模板中的剩余指令模板得到目标提示指令模板;
基于目标提示指令模板和获取到的待识别数据,生成第二待识别文本信息。
具体地,在获取到多个提示指令模板后,根据预设的预先标注完成的检测文本,对上述提示指令模板进行测试,针对该检测文本得到对应的初始识别结果,基于初始识别结果与检测文本中标注的信息进行匹配,得到模板准确率结果,其中进一步的,上述标注信息一般由人工标注,用于指示该检测文本中的实体应对应的提示指令模板。若准确率结果小于预设的准确率阈值,则判定为未达成模板,并将该模板进行删除,若大于或等于准确率阈值,则进行保留,其中,上述准确率阈值可由用户自行进行设合资,一般将上述准确率阈值设定为0.8。通过上述方法,可以完成对多个提示指令模板的筛选,综合预设指令模板以及与预设指令模板对应的目标示例进行测试,以得到更为准确、高效的提示指令模板。
在其中一个实施例中,得到命名实体识别结果之后,方法还包括:
基于命名实体识别结果确定对应于待识别数据的实体类别信息,根据实体类别信息确定正则表达式;
基于正则表达式对待识别数据进行检索,得到模糊实体识别结果,基于模糊实体识别结果以及命名实体识别结果得到最终实体识别结果。
具体地,根据命名实体识别结果确定出该待识别数据中包含的实体类别信息,以天文领域为例,该实体类别信息包括但不限于天体名称、天体对应的赤经、天提对应的赤纬等类别。在确定了该待识别数据中包含的实体类别后,对应确定正则表达式,下表为不同实体类别对应的正则表达式示例:
以天文领域为例,因天文领域内命名实体大多显示特殊的格式,如大写英文字母加数字加特殊字符,或数字加特殊字符加数字等。所以基于正则表达式对待识别数据全文进行模糊检索,已完成对命名实体识别结果的补充,挖掘出相同文本模式下潜在的命名实体,从而偶只能怪和命名实体识别结果以及模糊实体识别结果,得到最终实体识别结果。通过上述方法,对命名实体识别结果进行了补充,使得识别结果更加全面,进一步地,基于命名实体识别结果确定正则表达式,也避免了计算成本的浪费,加快了检索效率。
在其中一个实施例中,得到模糊实体识别结果之后,方法还包括:
获取潜在验证模板,基于潜在验证模板对模糊实体识别结果进行评判,得到评判识别结果,并基于评判识别结果对模糊实体识别结果进行修正,得到目标模糊识别结果;
基于目标模糊识别结果以及命名实体识别结果得到最终实体识别结果。
具体地,上述潜在验证模板,用于帮助机器学习对提取的结果进行评判与改进,以天文领域为例,下表为一个实施例中,驱动大语言模型的潜在验证模板示例:
基于上文中根据正则表达式挖掘出的模糊实体作为提问对象,和待检测数据一同嵌入对应的上述潜在验证模板中,利用机器学习对潜在验证模板进行评判,要求反馈正确的命名实体或将错误的命名实体更改为正确的命名实体,作为上述目标模糊识别结果。通过上述方法,考虑到模糊检索中虽然检索范围较广,但正确率相比于上述基于提示指令模板获取的实体识别结果略有不足,因此对基于模糊检索获取到的模糊实体进行补充验证,从而实现在扩大了检索范围的同时,保证了较高的准确率。
在其中一个实施例中,获取待识别数据,包括:
获取初始待识别数据;
将初始待识别数据进行切分处理,得到初始待识别文本块,并基于初始待识别文本块之间的空间距离得到针对于初始待识别文本块之间的文本块相似度;
基于文本块相似度对初始待识别文本块中的相似文本块进行拼接处理,得到待识别数据。
具体地,上述初始待识别数据通常为长篇的文献资料等,考虑到在实际应用时模板存在字数限制,因此将初始待识别数据进行切分处理,得到多个初始待识别文本块,以供上述命名实体识别任务的使用。而后针对用户提出的关于命名实体识别的具体需求,在多个初始待识别文本块中进行预搜索,抽取空间距离较近的多个相关性较高的文本块,对该文本块的内容进行总结,或对多个文本块进行拼接,从而得到待识别数据。通过上述方法可以实现在实际应用中的操作更为简便灵活,并且基于相关性较高的多个文本块一同进行识别,也进一步提升了命名实体识别的效率。
在其中一个实施例中,得到命名实体识别结果之后,方法还包括:
基于命名实体识别结果构建针对待识别数据的知识图谱,并将知识图谱发送至预设的显示设备中进行显示处理。
具体地,图3为一个实施例中以天文领域为例的知识图谱示意图,知识图谱的具体内容可由相关技术人员进行设定,如图3所示,可以包括论文题目、天体名称、关键词等数据。根据上述步骤识别到的命名实体识别结果,搭建知识图谱,并展示给用户的显示设备,进一步地,在实际应用时,为了使用户具有更好的观看体验,可以在待识别数据为专业领域的文献时,根据文献管理网站所提供的mata信息,抽取文献对应的题目、作者以及作者机构作为知识图谱中的通用学术性知识实体,并与上述专业领域的命名实体识别结果结合,完善上述知识图谱。通过上述方法提升了命名实体识别结果的可观赏性,与用户的实际应用紧密贴合,可以适应更广泛的应用场景。
在其中一个实施例中,将知识图谱发送至预设的显示设备中进行显示处理之后,方法还包括:
基于知识图谱获取针对专业知识数据库的数据库修改指令;
基于数据库修改指令对专业知识数据库进行更新处理,得到针对专业领域的目标专业知识数据库。
具体地,图4为一个实施例中基于数据库修改指令的优化示意图,其中,用户根据自己的实体识别需求向命名实体识别平台提出需求,该用户发送的需求包括但不限于上文中的待识别数据以及提示指令模板,命名实体识别平台则根据用户输入的内容实现上文中阐述的方法基于上述待识别数据和提示指令模板得到第一待识别文本信息,并对第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。用户根据上述显示设备获取到对应的知识图谱后,基于该知识图谱作为识别的结果反馈,根据知识图谱对专业知识数据库进行进一步修改,实现对知识库的进一步完善,即实现图4中的知识优化。通过上述方法,可以根据用户的更改结果得到针对不同的用户的个性化专业知识数据库,进一步提升了实体识别的效率和准确率。
本实施例还提供了一种命名实体识别方法的具体实施例,如图5所示,图5是一个优选实施例中命名实体识别方法的流程示意图。
步骤S501,构建专业知识数据库。该专业知识数据库的构建,借助了专业领域内的专家知识对少量的专业领域内的文献数据进行了分析和标注,具体来说,借助专家指示对数据库中的粒度实体进行少量的人工标注,以及专业平台梳理出的只是结构,从而实现了构建多粒度的实体标注结果,并定义粒度实体之间的结构化关系,形成专业领域内的专家知识数据库。
步骤S502,获取预设指令模板。优选的,该预设指令模板可以为根据人工构建的提示指令模板,或是基于少量人工构建的提示指令模板,将该提示指令模板集合输入大语言模型,根据大语言模型的文本生成能力,生成新的提示指令,从而对提示指令模板集合进行优化和补充,其中具体的,针对大语言模型的指令可以为:请根据任务目标,按照所提供的样例,生成多个关于该任务的模板,下表为一个实施例中驱动大语言模型的预设指令模板结构示意表:
步骤S503,基于大语言模型获取命名实体识别结果。在获取到多个预设指令模板后,借助价值评估技术,选取多个数据作为上述目标示例,从而与预设指令模板一起构建提示指令模板。其中具体的,针对单个预设指令模板,基于上述数据库,在数据库中对应的数据类型下随机挑选与预设指令模板相关的N个初始示例,并将此N个初始示例的价值评分初始化为0,而后针对上述N个初始示例,枚举所有可能的数据组合,将某个数据组合作为提示指令的示例,通过下游命名实体识别任务的准确率来度量数据价值,将单个数据加入数据组合的数据价值边际增益期望作为其初始评分。例如,假设上述N个初始示例为A、B、C,且每一个数都有其本身的初始准确率V,然后进行数据组合,如第一次选择A这个示例,他的价值是V1,而后加入B数据,此时{A,B}组合下A的准确率就是V12-V2,同理,{A,B,C}下的A的准确率便为V123-V23,以此类推,将所有与A相关的组合都列一遍并计算,所有组合对应的平均值即为上述针对当前示例的当前初始评分。所有目标示例以此类推,从而得到上述初始评分。根据上述初始示例以及初始示例对应的初始评分,训练回归模型用于预测数据库中对应数据类型中的其余数据的评分,选取评分最高的多个数据,即为上述目标示例。基于上述目标示例以及预设提示模板,得到上述多个提示指令模板。针对现有的专业领域的文献,构建统一的LangChain文本对象,将待识别数据进行切片后,存入向量数据库中,以供命名实体识别任务的使用。而后针对用户提出的关于命名实体识别的具体要求,从上述多个提示指令模板中抽取相关的模板,并抽取多个相关性较高的文本块,总结其内容,嵌入至上述提示指令模板中,形成可对大语言模型进行提问的待识别文本信息,将上述待识别文本信息喂入大语言模型中,得到以json格式反馈的命名实体列表,即上述命名实体识别结果。
在此基础上,根据命名实体识别结果的实体类别信息获取对应的正则表达式,根据正则表达式对待识别数据全文进行模糊搜索,挖掘相同文本模式下潜在的命名实体,而后将模糊实体作为提问对象,和待识别数据一同嵌入对应的上述潜在验证模板,利用大语言模型对潜在验证模板进行评判,要求反馈正确的或更改为正确的命名实体作为命名实体识别结果。而后进一步地,对上述反馈的命名实体识别结果进行精确搜索,针对不同类别下的命名实体,将分别利用darmatch进行正向/反向最大匹配分词和多模式字符串精确匹配,以验证上述命名实体识别结果是否在待识别数据中出现过,若正确出现则予以保留,若没有则进行删除,以形成上述最终实体识别结果。下表为使用darmatch进行精确搜索的代码:
步骤S504,构建知识图谱,而后将收集专业文献时,文献管理网站所提供的meta信息,抽取文献对应的作者、题目、作者机构作为通用知识实体,并将该通用知识实体与上文中识别出的最终实体识别结果共同构建知识图谱,搭建示例图模型,发送至用户对应的预设的显示设备上进行显示。
步骤S505,基于用户反馈优化专业知识数据库。根据用户对该知识图谱的满意度以及意见作为反馈,返回到数据库中专业知识的定义和结构,对其进行优化,进一步地,本领域技术人员可以理解的是,对于数据库的优化不限于只有基于上述知识图谱进行优化,也可由本领域技术人员在需要的时候进行优化。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的命名实体识别方法的命名实体识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个命名实体识别装置实施例中的具体限定可以参见上文中对于命名实体识别方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种命名实体识别装置,包括:获取模块、计算模块和计算模块,其中:
获取模块,用于获取专业知识数据库;其中,专业知识数据库包括至少两个粒度实体;
计算模块,用于确定与粒度实体对应的价值评分,基于价值评分从粒度实体中确定目标实体,并根据目标实体以及对应于目标实体的预设指令模板,得到提示指令模板;
生成模块,用于基于提示指令模板和获取到的待识别数据,生成第一待识别文本信息,对第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。
具体地,获取模块获取到专业知识数据库,该专业知识数据库中包括大批量粒度实体,而后获取模块将专业知识数据库发送至计算模块,计算模块对粒度实体获取到对应的价值评分,并根据价值评分获取价值评分高的粒度实体作为目标实体,并综合目标实体以及预设指令模板得到提示指令模板。而后计算模块将多个提示指令模板发送之生成模块,生成模块将待识别数据嵌套至提示指令模板中,生成第一待识别文本信息,并根据机器学习对第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。
通过上述装置,基于准确的目标示例,批量化生成准确的命名实体识别结果,实现人工参与少甚至不参与;进一步地,本申请垂直于专业领域而非通用领域,针对专业知识数据库中多粒度实体示例,并以专家规则为导向,自动化的学习和识别现有领域文献中重要相关的命名实体,从而实现了快速且高效的获取大量的命名实体识别结果。
上述命名实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、专业知识数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的专业知识数据库可包括关系型专业知识数据库和非关系型专业知识数据库中至少一种。非关系型专业知识数据库可包括基于区块链的分布式专业知识数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种命名实体识别方法,其特征在于,所述方法包括:
获取专业知识数据库;其中,所述专业知识数据库包括至少两个粒度实体;
确定与所述粒度实体对应的价值评分,基于所述价值评分从所述粒度实体中确定目标实体,并根据所述目标实体以及对应于所述目标实体的预设指令模板,得到提示指令模板;
基于所述提示指令模板和获取到的待识别数据,生成第一待识别文本信息,对所述第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。
2.根据权利要求1所述的方法,其特征在于,所述专业知识数据库中包括至少一种数据类型,每种所述数据类型对应至少两个所述粒度实体;所述确定与所述粒度实体对应的价值评分,包括:
获取训练完备的评分模型;其中,所述评分模型是根据所述专业知识数据库中与所述数据类型对应的初始示例,以及与所述初始示例对应的初始评分训练得到的,所述评分模型与所述数据类型为一一对应关系;
基于所述评分模型对所述数据类型中的所述粒度实体进行评估,得到于所述粒度实体一一对应的所述价值评分。
3.根据权利要求2所述的方法,其特征在于,获取所述初始评分,包括:
计算步骤:基于所述初始示例以及所述预设指令模板得到初始指令模板,并基于预设的检测文本得到与所述初始示例一一对应的初始准确率;
基于所述初始示例中的当前初始示例确定至少一组当前数据组合,并从所述初始准确率中确定对应于所述当前数据组合的当前准确率;
评分步骤:根据所有所述当前准确率的平均值得到针对于所述当前初始示例的当前初始评分;
基于所述初始示例中的下一个初始示例确定至少一组下一个数据组合,重复所述计算步骤以及所述评分步骤直至遍历所有所述初始示例,得到与所述初始示例一一对应的所述初始评分。
4.根据权利要求1所述的方法,其特征在于,所述得到至少一个提示指令模板之后,所述方法还包括:
获取预设的检测文本;其中,所述检测文本中包括有预设的标注信息;
基于所述提示指令模板对所述检测文本进行识别,得到对应于所述提示指令模板的初始识别结果;
基于所述初始识别结果与所述标注信息进行匹配计算,得到对应于所述提示指令模板的模板准确率结果;
在检测到所述模板准确率结果中的待删除准确率小于预设的准确率阈值的情况下,对所述待删除准确率对应的待删除指令模板进行删除处理,并基于所述提示指令模板中的剩余指令模板得到目标提示指令模板;
基于所述目标提示指令模板和获取到的待识别数据,生成第二待识别文本信息。
5.根据权利要求1所述的方法,其特征在于,所述得到命名实体识别结果之后,所述方法还包括:
基于所述命名实体识别结果确定对应于所述待识别数据的实体类别信息,根据所述实体类别信息确定正则表达式;
基于所述正则表达式对所述待识别数据进行检索,得到模糊实体识别结果,基于所述模糊实体识别结果以及所述命名实体识别结果得到最终实体识别结果。
6.根据权利要求5所述的方法,其特征在于,所述得到模糊实体识别结果之后,所述方法还包括:
获取潜在验证模板,基于所述潜在验证模板对所述模糊实体识别结果进行评判,得到评判识别结果,并基于所述评判识别结果对所述模糊实体识别结果进行修正,得到目标模糊识别结果;
基于所述目标模糊识别结果以及所述命名实体识别结果得到所述最终实体识别结果。
7.根据权利要求1所述的方法,其特征在于,所述获取待识别数据,包括:
获取初始待识别数据;
将所述初始待识别数据进行切分处理,得到初始待识别文本块,并基于所述初始待识别文本块之间的空间距离得到针对于所述初始待识别文本块之间的文本块相似度;
基于所述文本块相似度对所述初始待识别文本块中的相似文本块进行拼接处理,得到所述待识别数据。
8.根据权利要求1所述的方法,其特征在于,所述得到命名实体识别结果之后,所述方法还包括:
基于所述命名实体识别结果构建针对所述待识别数据的知识图谱,并将所述知识图谱发送至预设的显示设备中进行显示处理。
9.根据权利要求8所述的方法,其特征在于,所述将所述知识图谱发送至预设的显示设备中进行显示处理之后,所述方法还包括:
基于所述知识图谱获取针对所述专业知识数据库的数据库修改指令;
基于所述数据库修改指令对所述专业知识数据库进行更新处理,得到针对专业领域的目标专业知识数据库。
10.一种面向专业领域的实体识别装置,其特征在于,所述装置包括:
获取模块,用于获取专业知识数据库;其中,所述专业知识数据库包括至少两个粒度实体;
计算模块,用于确定与所述粒度实体对应的价值评分,基于所述价值评分从所述粒度实体中确定目标实体,并根据所述目标实体以及对应于所述目标实体的预设指令模板,得到提示指令模板;
生成模块,用于基于所述提示指令模板和获取到的待识别数据,生成第一待识别文本信息,对所述第一待识别文本信息进行命名实体识别处理,得到命名实体识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311332338.2A CN117077679B (zh) | 2023-10-16 | 2023-10-16 | 命名实体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311332338.2A CN117077679B (zh) | 2023-10-16 | 2023-10-16 | 命名实体识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077679A true CN117077679A (zh) | 2023-11-17 |
CN117077679B CN117077679B (zh) | 2024-03-12 |
Family
ID=88708380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311332338.2A Active CN117077679B (zh) | 2023-10-16 | 2023-10-16 | 命名实体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077679B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725192A (zh) * | 2024-02-18 | 2024-03-19 | 张家港快工品科技有限公司 | 基于langchain的专有工业品信息交互调用方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704633A (zh) * | 2019-09-04 | 2020-01-17 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN113449113A (zh) * | 2020-03-27 | 2021-09-28 | 京东数字科技控股有限公司 | 一种知识图谱构建方法、装置、电子设备及存储介质 |
WO2022048210A1 (zh) * | 2020-09-03 | 2022-03-10 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、电子设备及可读存储介质 |
CN114186013A (zh) * | 2021-12-15 | 2022-03-15 | 广州华多网络科技有限公司 | 实体识别模型热更新方法及其装置、设备、介质、产品 |
CN115409111A (zh) * | 2022-08-31 | 2022-11-29 | 中国工商银行股份有限公司 | 命名实体识别模型的训练方法和命名实体识别方法 |
WO2022252378A1 (zh) * | 2021-05-31 | 2022-12-08 | 平安科技(深圳)有限公司 | 医疗命名实体识别模型的生成方法、装置和计算机设备 |
CN116484867A (zh) * | 2023-04-19 | 2023-07-25 | 平安科技(深圳)有限公司 | 命名实体识别方法及装置、存储介质、计算机设备 |
-
2023
- 2023-10-16 CN CN202311332338.2A patent/CN117077679B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704633A (zh) * | 2019-09-04 | 2020-01-17 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN113449113A (zh) * | 2020-03-27 | 2021-09-28 | 京东数字科技控股有限公司 | 一种知识图谱构建方法、装置、电子设备及存储介质 |
WO2022048210A1 (zh) * | 2020-09-03 | 2022-03-10 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、电子设备及可读存储介质 |
WO2022252378A1 (zh) * | 2021-05-31 | 2022-12-08 | 平安科技(深圳)有限公司 | 医疗命名实体识别模型的生成方法、装置和计算机设备 |
CN114186013A (zh) * | 2021-12-15 | 2022-03-15 | 广州华多网络科技有限公司 | 实体识别模型热更新方法及其装置、设备、介质、产品 |
CN115409111A (zh) * | 2022-08-31 | 2022-11-29 | 中国工商银行股份有限公司 | 命名实体识别模型的训练方法和命名实体识别方法 |
CN116484867A (zh) * | 2023-04-19 | 2023-07-25 | 平安科技(深圳)有限公司 | 命名实体识别方法及装置、存储介质、计算机设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725192A (zh) * | 2024-02-18 | 2024-03-19 | 张家港快工品科技有限公司 | 基于langchain的专有工业品信息交互调用方法 |
CN117725192B (zh) * | 2024-02-18 | 2024-05-14 | 张家港快工品科技有限公司 | 基于langchain的专有工业品信息交互调用方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117077679B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答***实现方法 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN111368048A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN117077679B (zh) | 命名实体识别方法和装置 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN111241310A (zh) | 一种深度跨模态哈希检索方法、设备及介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN114254116A (zh) | 文献资料文本分类方法、分类模型构建方法和分类装置 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN117725895A (zh) | 文档生成方法、装置、设备及介质 | |
CN111143515B (zh) | 文本匹配方法及装置 | |
CN111950265A (zh) | 一种领域词库构建方法和装置 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN112100355A (zh) | 一种智能交互方法、装置及设备 | |
CN114842982B (zh) | 一种面向医疗信息***的知识表达方法、装置及*** | |
CN113486649B (zh) | 文本评论的生成方法以及电子设备 | |
CN114116971A (zh) | 用于生成相似文本的模型训练方法、装置及计算机设备 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |