CN114997171A - 实体识别方法、装置、设备及存储介质 - Google Patents

实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114997171A
CN114997171A CN202210688184.XA CN202210688184A CN114997171A CN 114997171 A CN114997171 A CN 114997171A CN 202210688184 A CN202210688184 A CN 202210688184A CN 114997171 A CN114997171 A CN 114997171A
Authority
CN
China
Prior art keywords
entity
recognition
preset
text
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210688184.XA
Other languages
English (en)
Inventor
周琪妤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210688184.XA priority Critical patent/CN114997171A/zh
Publication of CN114997171A publication Critical patent/CN114997171A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供一种实体识别方法、装置、设备及存储介质,该方法包括:获取待识别文本,确定所述待识别文本中的候选实体;基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配;根据匹配结果,确定对所述待识别文本中实体的识别结果。通过该实体识别方法实现跨领域的实体识别。

Description

实体识别方法、装置、设备及存储介质
技术领域
本申请涉及语义解析的技术领域,尤其涉及一种实体识别方法、装置、设备及存储介质。
技术背景
实体识别(Named Entity Recognition,NER)作为信息抽取中的一类典型任务,在问答***、智能对话、搜索推荐和机器翻译等多项自然语言处理任务中都承担着重要的角色。除时间、地点、数字、人名、组织机构等多类通用性较强的常规实体类型以外,在特定领域还存在大量专业性较强的特殊实体类型,比如“cell(细胞)”,在生物学领域中指生物体基本的结构和功能单位,而在计算机科学领域中可以指神经网络模型的一个基本单元。而现有的实体识别方法还难以实现跨领域的实体识别,故如何实现跨领域的实体识别成为目前亟待解决的技术问题。
发明内容
本申请的主要目的在于提供一种实体识别方法、装置、设备及存储介质,旨在实现跨领域的实体识别。
第一方面,本申请提供一种实体识别方法,所述实体识别方法包括以下步骤:
获取待识别文本,确定所述待识别文本中的候选实体;
基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配;
根据匹配结果,确定对所述待识别文本中实体的识别结果。
第二方面,本申请还提供一种实体识别装置,所述实体识别装置包括:
获取模块,用于获取待识别的文本;
确定模块,所述确定模块包括第一模块、第二模块和第三模块,其中,所述第一模块用于确定所述待识别的文本中的候选实体,所述第二模块用于基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配,所述第三模块用于根据匹配结果,确定对所述待识别文本中实体的识别结果。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的实体识别方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的实体识别方法的步骤。
本申请提供一种实体识别方法、装置、设备和计算机可读存储介质,本申请首先通过获取待识别文本,确定所述待识别文本中的候选实体,然后基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配,最后根据匹配结果,确定对所述待识别文本中实体的识别结果,可实现跨领域的实体识别。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的实体识别方法的流程示意图;
图2为本申请实施例提供的根据匹配结果,确定对待识别文本中实体的识别结果的示例;
图3为本申请实施例提供的根据匹配结果,确定对待识别文本中实体的识别结果的示例;
图4为本申请实施例提供的实体识别装置的示意性框图;
图5为本申请实施例提供的另一实体识别装置的示意性框图;
图6为本申请实施例提供的再一实体识别装置的示意性框图;
图7为本申请实施例提供的再一实体识别装置的示意性框图;
图8为本申请实施例提供的再一实体识别装置的示意性框图;
图9为本申请实施例提供的再一实体识别装置的示意性框图;
图10为本申请实施例提供的再一实体识别装置的示意性框图;
图11为本申请实施例提供的计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例提供一种实体识别方法、装置、计算机设备及计算机可读存储介质。其中,该实体识别方法可应用于电子设备,所述电子设备包括但不限于服务器、智能手机、平板电脑、台式计算机、车载电脑、智能电视机和可穿戴设备等等。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述实施例及实施例中的特征可以相互结合。
请参阅图1,图1为本申请实施例提供的实体识别方法的流程示意图。
如图1所示,该实体识别方法包括步骤S100至步骤S300。
步骤S100、获取待识别文本,确定所述待识别文本中的候选实体。
其中,待识别文本是需要进行实体识别的语料,确定待识别文本中的候选实体的方法是通过获取待识别文本中连续的字符串作为候选实体来实现的,候选实体包括字、词和句。
可以理解地,本申请对待识别文本的具体形式不加以限制,待识别文本可以为文字文本,文本由一个或多个字符组成。例如,对于文本“苹果在北京举办新品发布会”,文本还可以是基于语音识别技术获得的语音文本,如终端可以通过麦克风采集用户的语音数据,基于语音识别技术对采集的语音数据进行自然语言处理后得到文字文本。
步骤S200、基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配。
可以理解的,候选实体包括实体和非实体,在确定了待识别文本中的候选实体之后,需要基于预设的实体识别规则,确定候选实体与预设的实体类别集合中各预设实体类别是否匹配。
在一些实施方式中,步骤S200包括步骤S210至步骤S220,以该实施方式将序列标注任务转化为对预训练语言模型推理能力的直接应用,有效降低了对数据标注的要求,提高了本申请实体识别方法的灵活性。在该实施方式下,可对待识别文本的部分或全部实体进行标注,也可以不进行标注。
步骤S210、获取预训练语言模型。
步骤S220、基于所述预训练语言模型和预设的识别模板,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配。
其中,预训练语言模型是经过训练得到的,在一些实施方式中,预训练语言模型可基于预设的识别模板进行训练。具体的实施方式在下文中有介绍,这里不再赘述。
在一些实施方式中所述识别模板包括第一识别模板和第二识别模板,步骤S220包括步骤S221至步骤S222,以该实施方式提高实体识别的准确性。
步骤S221、基于所述第一识别模板和所述预训练语言模型计算第一概率值,所述第一概率值为所述候选实体为预设实体类别的概率,所述预设实体类别包括至少一个。
在一些实施方式中,步骤S221包括步骤S2211至步骤S2213,以该实施方式进一步提高实体识别的准确性。
步骤S2211、将所述候选实体代入所述第一识别模板,获得第一识别语句。
步骤S2212、基于所述预训练语言模型分析所述第一识别语句,得到第三概率值,所述第三概率值为所述候选实体为所述预设实体类别的各个同义词的概率。
步骤S2213、取所述第三概率值的平均值作为所述第一概率值。
需要说明的是,第一识别语句是一个部分被掩码的语句,第一识别语句被掩码的部分是被代入第一识别模板的候选实体可能的实体类型,基于预训练语言模型推理计算被掩码部分被预测为各实体类别标签的同义词中各个词的概率值,即第三概率值,取第三概率值的平均值作为第一概率值。
示例性地,第一识别模板为“[span]是一个[mask][mask]实体”,其中,[span]是候选实体的替换位,[mask][mask]是被掩码的部分,代表候选实体的类别,候选实体为待识别文本“苹果在北京举办新闻发布会”中的“苹果”,将候选实体“苹果”代入第一识别模板得第一识别语句“苹果是一个[mask][mask]实体”,基于预训练语言模型推理得到多个第三概率值:[mask][mask]为公司的概率值是0.9、[mask][mask]为企业的概率值为0.9、[mask][mask]为事业单位的概率值为0.7、[mask][mask]为机构的概率值为0.7、[mask][mask]为地点的概率值为0.1,[mask][mask]为地址的概率值为0.09、[mask][mask]为地方的概率值为0.11、。可以理解地,无论是企业、机构还是事业单位都可被视为公司的性质,则[mask][mask]为公司的概率为(0.9+0.9+0.7+0.7)/4=0.8,即“苹果是一个公司实体”的第一概率值为0.8;无论是地点、地址还是地方都可被视为地点的性质,则[mask][mask]为地点的概率为(0.1+0.09+0.11)/3=0.1,即“苹果是一个地点实体”的第一概率值为0.1。
步骤S222、基于所述第二识别模板和所述预训练语言模型计算第二概率值,所述第二概率值为所述候选实体不是实体的概率。
在一些实施方式中,步骤S222包括步骤S2221至步骤S2222,以该实施方式进一步提高实体识别的准确性。
步骤S2221、将所述候选实体代入所述第二识别模板,获得第二识别语句。
步骤S2222、基于预训练语言模型分析所述第二识别语句,得到所述第二概率值。
具体地,步骤S2222还包括步骤S2222a至步骤S2222c,以进一步提高实体识别的准确性。
步骤S2222a、获取所述第二识别语句被掩码的字符串,所述字符串包括第一字符串和第二字符串。
步骤S2222b、基于所述预训练语言模型分别分析所述第一字符串和所述第二字符串,得到第四概率值和第五概率值,其中,所述第四概率值为所述第一字符串代表“不”字的概率,所述第五概率值为所述第二字符串代表“是”字的概率。
步骤S222c、取所述第四概率值和所述第五概率值的乘积作为第二概率值。
示例性地,第二识别模板为“[span][mask1][mask2]实体”其中,[span]是候选实体的替换位,[mask1]代表第一字符串,[mask2]代表第二字符串,候选实体为待识别文本“苹果在北京举办新闻发布会”中的“举办”,将候选实体“举办”代入第二识别模板得第二识别语句“举办[mask1][mask2]实体”,基于预训练语言模型推理得到[mask1]为“不”字的概率值为0.95,即第四概率值为0.95,[mask2]为“是”字的概率值为0.95,即第五概率值为0.95,则“举办不是实体”的概率值为0.95×0.95=0.9025,即第二概率值为0.9025。
步骤S300、根据匹配结果,确定对所述待识别文本中实体的识别结果。
在一些实施方式中,步骤S300包括步骤S310至步骤S320,以获得准确的实体识别结果。
步骤S310、比较一个或多个所述第一概率值和所述第二概率值的大小。
步骤S320、若所述第二概率值为最大值,则所述候选实体不是实体;若所述第二概率值不是最大值,则所述候选实体为所述第一概率值为最大值时所对应的实体类别。
示例性地,如图2所示,待识别文本“苹果在北京举办新闻发布会”中的候选实体“苹果”是一个公司实体的概率值P=0.9是最大概率值,即最大的第一概率值所对应的候选实体类别为公司,则候选实体“苹果”是一个公司实体;如图3所述,“苹果在北京举办新闻发布会”中的候选实体“举办”不是实体的概率值P=0.9为最大概率值,即第二概率值最大,则候选实体“举办”不是实体。
在一些实施方式中,在所述基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配之前,还包括步骤S10和步骤S20。以该实施方式提高实体识别的精确性。
步骤S10、确定所述待识别文本中的各实体类别标签。
其中,各实体类别标签是待识别文本中可能包含的各实体类别,各实体类别标签基于待识别文本的应用场景确定。例如,“苹果在北京举办新品发布会”,这一待识别文本可能包含的实体类别有公司、地点和产品等;再比如,“我今天头有点疼,是怎么回事?”,这一待识别文本可能包含的实体类别有人物、时间、身体部位和症状等。
步骤S20、构建所述各实体类别标签对应的实体类别集合。
其中,各实体类别集合是指各实体类别标签的同义词组成的集合。在确定了待识别文本中的各实体类别之后可以利用开源网络爬虫技术从百科介绍、同义词表和专家文章等开源数据库中获取各实体类别的同义词构建实体类别集合。
示例性地,“苹果在北京举办新闻发布会”,这一待识别文本可能包含的实体类别有公司、地点和产品等,利用开源网络爬虫技术得到“公司”的同义词包括企业、机构和事业单位;“地点”的同义词包括地方、地区和地址;“产品”的同义词包括商品和物品,则“苹果在北京举办新闻发布会”这一待识别文本的实体类别集合为{公司(企业、机构、事业单位)、地点(地方、地区、地址)、产品(商品、物品)}。
在一些实施方式中,所述实体识别方法还包括对所述预训练语言模型进行训练,以该实施方式提高预训练语言模型推理的准确性,所述对所述预训练语言模型进行训练包括步骤S30至步骤S40。
步骤S30、获取训练文本;
可以理解地,本申请对训练文本的应用场景不加以限制,训练文本可以同时包含适用于各类应用场景的语句,例如“‘苹果在北京举办新闻发布会’、‘我今天头晕目眩’、‘哈根达斯雪糕多少钱一只’、‘扇贝单词是一款很好的学习软件’、‘我的保温杯可以保温8小时’”等一些不同使用场景的语句都可以作为训练文本。本申请对训练文本的具体形式也不加以限制,训练文本可以为文字文本,文本由一个或多个字符组成。例如,对于文本“苹果在北京举办新品发布会”,训练文本还可以是基于语音识别技术获得的语音文本,如终端可以通过麦克风采集用户的语音数据,基于语音识别技术对采集的语音数据进行自然语言处理后得到文字文本。
步骤S40、基于所述训练文本和所述识别模板对所述预训练语言模型进行训练,得到新的预训练语言模型。
可以理解地,训练文本包括上述待识别文本,对于预训练语言模型进行训练可以在上述步骤S200之前也可以在上述步骤S300之后。
在一些实施方式中,预训练语言模型包括实体样本和非实体样本,识别模板包括第一识别模板和第二识别模板,第一识别模板用来训练实体样本,第二识别模板用来训练非实体样本。
示例性地,第一识别模板为“[span]是一个[mask][mask]实体”,其中,[span]为训练样本中实体的替换位,[mask][mask]是被掩码的部分,代表训练样本中实体的类别,在进行实体样本训练时,***会判断出[mask][mask]具体指代的实体类型并作为预测目标。将训练样本“苹果在北京举办新品发布会”代入第一识别模板可得“苹果在北京举办新品发布会,苹果是一个[mask][mask]实体(预测目标:公司);北京是一个[mask][mask]实体(预测目标:地点)”等一些这样的实体样本。第二识别模板为“[span][mask1][mask2]实体”,其中,[span]为训练样本中非实体的替换位,[mask1][mask2]是被掩码的部分,[mask1]代表“不”字,[mask2]代表“是”字,在进行非实体样本训练时,***会判断出[mask1][mask2]指代“不是”并将“不是”作为预测目标。将训练样本“苹果在北京举办新品发布会”代入第一识别模板可得“苹果在北京举办新品发布会,发布[mask][mask]实体(预测目标:不是)”等一些这样的非实体样本。
请参阅图4,图4为本申请实施例提供的实体识别装置300的示意性框图,如图4所示,实体识别装置300包括获取模块301和确定确定模块302,其中,确定模块302包括第一确定模块、第二确定模块和第三确定模块。
获取模块301用于获取待识别的文本。
第一确定模块用于确定所述待识别文本中的候选实体。
第二识别模块用于基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配。
第三识别模块用于根据匹配结果,确定对所述待识别文本中实体的识别结果。
请参阅图5,在一些实施方式中,实体识别装置300还包括构建模块303,确定模块302还包括第四确定模块。
第四确定模块用于确定所述待识别文本中的各实体类别标签;
构建模块303用于构建所述各实体类别标签对应的实体类别集合。
请参阅图6,在一些实施方式中,确定模块302还包括第五确定模块,第五确定模块用于基于预训练语言模型和预设的识别模板,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配。在该实施方式中,获取模块还用于获取所述预训练语言模型。
在一些实施方式中,识别模板包括第一识别模板和第二识别模板,如图7所示,实体识别装置300还包括计算模块304,计算模块304用于基于所述第一识别模板和所述预训练语言模型计算第一概率值和基于所述第二识别模板和所述预训练语言模型计算第二概率值,其中,所述第一概率值为所述候选实体为预设实体类别的概率,所述预设实体类别包括至少一个,所述第二概率值为所述候选实体不是实体的概率。
请参阅图8,在一些实施方式中,实体识别装置300还包括代入模块305和分析模块306。
代入模块305用于将所述候选实体代入所述第一识别模板,获得第一识别语句。
分析模块306用于基于所述预训练语言模型分析所述第一识别语句,得到第三概率值,所述第三概率值为所述候选实体为所述预设实体类别的各个同义词的概率。
在该实施方式中,计算模块304还用于计算所述第三概率值的平均值,所述第三概率值的平均值为所述第一概率值。
在一些实施实施方式中,代入模块305还用于将所述候选实体代入所述第二识别模板,获得第二识别语句;分析模块306还用于基于所述预训练语言模型分析所述第二识别语句,得到所述第二概率值。
请参阅图9,在一些实施方式中,实体识别装置还包括比较模块307,比较模块307用于比较一个或多个所述第一概率值和所述第二概率值的大小。
请参阅图10,在一些实施方式中,实体识别装置300还包括训练模块308,训练模块308用于基于训练文本和所述识别模板对所述预训练语言模型进行训练,得到新的预训练语言模型,在该实施方式中获取模块301还用于获取所述训练文本。
需要说明的是,所属技术领域的技术人员可以清楚了解到,为了描述的方便和简洁,上述描述的装置和各个模块及单元的具体工作过程,可以参考前述实体识别方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备40上运行。
请参阅图11,图11为本申请实施例提供的计算机设备40的结构示意性框图,计算机设备40包括处理器41和存储器42,处理器41和存储器42通过***总线43连接,其中,存储器42可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储计算机程序。该计算机程序包括程序指令,该程序指令被处理器41执行时,可使得处理器41执行上述任一种实体识别方法。
处理器41用于提供计算和控制能力,支撑整个电子设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器41执行时,可使得处理器41执行上述任一种实体识别方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所涉及的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器41可以是中央处理单元(Central Processing Unit,CPU),该处理器41还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,处理器41用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待识别文本,确定所述待识别文本中的候选实体;
基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配;
根据匹配结果,确定对所述待识别文本中实体的识别结果。
在一些实施方式中,处理器41在实现所述基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配之前,还用于实现:
确定所述待识别文本中的各实体类别标签;
构建所述各实体类别标签对应的实体类别集合。
在一些实施方式中,处理器41在实现所述基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配时,用于实现:
获取预训练语言模型;
基于所述预训练语言模型和预设的识别模板,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配。
在一些实施方式中,所述识别模板包括第一识别模板和第二识别模板,处理器41在实现所述基于所述预训练语言模型和所述预设的识别模板,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配时,用于实现:
基于所述第一识别模板和所述预训练语言模型计算第一概率值,所述第一概率值为所述候选实体为预设实体类别的概率,所述预设实体类别包括至少一个;
基于所述第二识别模板和所述预训练语言模型计算第二概率值,所述第二概率值为所述候选实体不是实体的概率。
在一些实施方式中,处理器41在实现所述基于所述第一识别模板和所述预训练语言模型计算第一概率值时,用于实现:
将所述候选实体代入所述第一识别模板,获得第一识别语句;
基于所述预训练语言模型分析所述第一识别语句,得到第三概率值,所述第三概率值为所述候选实体为所述预设实体类别的各个同义词的概率;
取所述第三概率值的平均值作为所述第一概率值。
在一些实施方式中,处理器41在实现所述基于所述第二识别模板和所述预训练语言模型计算第二概率值时,用于实现:
将所述候选实体代入所述第二识别模板,获得第二识别语句;
基于预训练语言模型分析所述第二识别语句,得到所述第二概率值。
在一些实施方式中,处理器41在实现所述根据匹配结果,确定对所述待识别文本中实体的识别结果时,用于实现:
比较一个或多个所述第一概率值和所述第二概率值的大小;
若所述第二概率值为最大值,则所述候选实体不是实体。
在一些实施方式中,处理器41还用于实现对所述预训练语言模型进行训练,处理器41在实现所述对所述预训练语言模型进行训练时,用于实现:
获取训练文本;
基于所述训练文本和所述识别模板对所述预训练语言模型进行训练,得到新的预训练语言模型。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时使所述一个或多个处理器实现如本申请实施例提供的实体识别方法。
其中,所述计算机可读存储介质可以是前述实施例所述的电子设备的内部存储单元,例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备,例如所述电子设备配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种实体识别方法,其特征在于,所述方法包括:
获取待识别文本,确定所述待识别文本中的候选实体;
基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配;
根据匹配结果,确定对所述待识别文本中实体的识别结果。
2.根据权利要求1所述的实体识别方法,其特征在于,在所述基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配之前,还包括:
确定所述待识别文本中的各实体类别标签;
构建所述各实体类别标签对应的实体类别集合。
3.根据权利要求1所述的实体识别方法,其特征在于,所述基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配,包括:
获取预训练语言模型;
基于所述预训练语言模型和预设的识别模板,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配。
4.根据权利要求3所述的实体识别方法,其特征在于,所述识别模板包括第一识别模板和第二识别模板,所述基于所述预训练语言模型和所述预设的识别模板,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配,包括:
基于所述第一识别模板和所述预训练语言模型计算第一概率值,所述第一概率值为所述候选实体为预设实体类别的概率,所述预设实体类别包括至少一个;
基于所述第二识别模板和所述预训练语言模型计算第二概率值,所述第二概率值为所述候选实体不是实体的概率。
5.根据权利要求4所述的实体识别方法,其特征在于,所述基于所述第一识别模板和所述预训练语言模型计算第一概率值,包括:
将所述候选实体代入所述第一识别模板,获得第一识别语句;
基于所述预训练语言模型分析所述第一识别语句,得到第三概率值,所述第三概率值为所述候选实体为所述预设实体类别的各个同义词的概率;
取所述第三概率值的平均值作为所述第一概率值。
6.根据权利要求4所述的实体识别方法,其特征在于,所述基于所述第二识别模板和所述预训练语言模型计算第二概率值,包括:
将所述候选实体代入所述第二识别模板,获得第二识别语句;
基于预训练语言模型分析所述第二识别语句,得到所述第二概率值。
7.根据权利要求1所述的实体识别方法,其特征在于,所述根据匹配结果,确定对所述待识别文本中实体的识别结果,包括:
比较一个或多个所述第一概率值和所述第二概率值的大小;
若所述第二概率值为最大值,则所述候选实体不是实体。
8.根据权利要求1至7任一项所述的实体识别方法,其特征在于,所述实体识别方法还包括对所述预训练语言模型进行训练,所述对所述预训练语言模型进行训练包括:
获取训练文本;
基于所述训练文本和所述识别模板对所述预训练语言模型进行训练,得到新的预训练语言模型。
9.一种命名实体识别装置,其特征在于,所述命名实体识别装置包括:
获取模块,用于获取待识别的文本;
确定模块,所述确定模块包括第一确定模块、第二确定模块和第三确定模块,其中,所述第一模块用于确定所述待识别的文本中的候选实体,所述第二模块用于基于预设的实体识别规则,确定所述候选实体与预设的实体类别集合中各预设实体类别是否匹配,所述第三模块用于根据匹配结果,确定对所述待识别文本中实体的识别结果。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的实体识别方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的实体识别方法的步骤。
CN202210688184.XA 2022-06-17 2022-06-17 实体识别方法、装置、设备及存储介质 Withdrawn CN114997171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210688184.XA CN114997171A (zh) 2022-06-17 2022-06-17 实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210688184.XA CN114997171A (zh) 2022-06-17 2022-06-17 实体识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114997171A true CN114997171A (zh) 2022-09-02

Family

ID=83034287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210688184.XA Withdrawn CN114997171A (zh) 2022-06-17 2022-06-17 实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114997171A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750991A (zh) * 2019-09-18 2020-02-04 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质
WO2021146831A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 实体识别的方法和装置、建立词典的方法、设备、介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750991A (zh) * 2019-09-18 2020-02-04 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
WO2021146831A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 实体识别的方法和装置、建立词典的方法、设备、介质
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
US9170993B2 (en) Identifying tasks and commitments using natural language processing and machine learning
Bucur Using opinion mining techniques in tourism
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN106919551B (zh) 一种情感词极性的分析方法、装置及设备
CN112199588A (zh) 舆情文本筛选方法及装置
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
Dorle et al. Political sentiment analysis through social media
CN109033427B (zh) 股票的筛选方法及装置、计算机设备及可读存储介质
CN107545505B (zh) 保险理财产品信息的识别方法及***
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
US11625536B2 (en) System and method for identification and profiling adverse events
US10503480B2 (en) Correlation based instruments discovery
EP3425531A1 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN116796758A (zh) 对话交互方法、对话交互装置、设备及存储介质
EP4198808A1 (en) Extraction of tasks from documents using weakly supervision
CN114997171A (zh) 实体识别方法、装置、设备及存储介质
CN113011153B (zh) 文本相关性检测方法、装置、设备及存储介质
CN114417881B (zh) 敏感词检测方法、装置、电子设备及存储介质
US11847417B2 (en) Data-driven social media analytics application synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220902

WW01 Invention patent application withdrawn after publication