CN111881681A - 实体样本获取方法、装置及电子设备 - Google Patents
实体样本获取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111881681A CN111881681A CN202010550976.1A CN202010550976A CN111881681A CN 111881681 A CN111881681 A CN 111881681A CN 202010550976 A CN202010550976 A CN 202010550976A CN 111881681 A CN111881681 A CN 111881681A
- Authority
- CN
- China
- Prior art keywords
- entity
- result
- correction candidate
- target
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012937 correction Methods 0.000 claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000002372 labelling Methods 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 235000021168 barbecue Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本公开的实施例提供了一种实体样本获取方法、装置及电子设备。所述方法包括:将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;从实体数据词典中获取所述待识别语句对应的实体分类结果;基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。本公开的实施例可以减少人力投入,节省了人力资源。
Description
技术领域
本公开的实施例涉及互联网技术领域,尤其涉及一种实体样本获取方法、装置及电子设备。
背景技术
命名实体识别(NER,Named Entity Recognition)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名称、专有名词等。
在搜索领域,实体识别是识别查询语句中的实体,包括实体词以及实体类型。这些实体类型一部分与公司业务强相关,比如品类,一部分为通用类型体系,比如地址等。
实体识别可抽象为序列标注问题,训练模型需要进行数据标注。然而实体标注比较耗时耗力,大批量标注样本难获取,如何自动化地生成较高质量的标注样本是亟需解决的难题。
目前常用的实体样本获取方法主要是基于领域专业人员采用人工构造的规则、模板生成实体标注数据。而人工构造的方式对人员的专业性要求较高,且需要投入较大人力,
发明内容
本公开的实施例提供一种实体样本获取方法、装置及电子设备,用以自动生成实体标注样本,节省了人力的投入。
根据本公开的实施例的第一方面,提供了一种实体样本获取方法,包括:
将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
从实体数据词典中获取所述待识别语句对应的实体分类结果;
基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
可选地,在所述将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果之前,还包括:
获取第一数量的实体标注样本;
采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
可选地,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的单个切分实体词的预测结果时,将所述实体分类结果作为所述校正候选结果。
可选地,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果;
其中,n为大于等于2的正整数。
可选地,所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本,包括:
根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比;
获取所述概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为所述目标实体样本。
可选地,在所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本之后,还包括:
获取第二数量的实体标注样本;
根据所述第二数量的实体标注样本和所述目标实体样本对初始实体识别模型进行训练,得到训练后的目标实体识别模型。
可选地,在所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本之后,还包括:
根据所述目标实体样本对所述预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
根据本公开的实施例的第二方面,提供了一种实体样本获取装置,包括:
实体预测结果获取模块,用于将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
实体分类结果获取模块,用于从实体数据词典中获取所述待识别语句对应的实体分类结果;
校正候选结果确定模块,用于基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
目标实体样本确定模块,用于根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
可选地,还包括:
第一样本获取模块,用于获取第一数量的实体标注样本;
预训练模型获取模块,用于采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
可选地,所述校正候选结果确定模块包括:
第一候选结果获取单元,用于在所述实体预测结果为所述预训练实体识别模型切分的单个切分实体词的预测结果时,将所述实体分类结果作为所述校正候选结果。
可选地,所述校正候选结果确定模块包括:
第二候选结果获取单元,用于在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果;
其中,n为大于等于2的正整数。
可选地,所述目标实体样本确定模块包括:
概率比确定单元,用于根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比;
目标实体样本获取单元,用于获取所述概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为所述目标实体样本。
可选地,还包括:
第二样本获取模块,用于获取第二数量的实体标注样本;
第一实体模型获取模块,用于根据所述第二数量的实体标注样本和所述目标实体样本对初始实体识别模型进行训练,得到训练后的目标实体识别模型。
可选地,还包括:
第二实体模型获取模块,用于根据所述目标实体样本对所述预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
本公开的实施例提供的实体样本获取方案,通过将待识别语句输入至预训练实体识别模型,得到待识别语句对应的实体预测结果,从实体数据词典中获取待识别语句对应的实体分类结果,基于实体预测结果和实体分类结果,确定待识别语句对应的校正候选结果,根据校正候选结果和实体预测结果之间的概率比,确定校正候选结果中的目标校正候选结果,并将目标校正候选结果确定为目标实体样本。本申请实施例结合校正候选结果和预测候选结果之间的概率比,确定出目标实体样本,无需人工定制模板和规则,减少了人力的投入。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种实体样本获取方法的步骤流程图;
图2为本公开实施例提供的另一种实体样本获取方法的步骤流程图;
图2a为本公开实施例提供的一种弱监督模型训练的示意图;
图2b为本公开实施例提供的一种实体预测结果校正的示意图;
图3为本公开实施例提供的一种实体样本获取装置的结构示意图;
图4为本公开实施例提供的另一种实体样本获取装置的结构示意图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
参照图1,示出了本公开实施例提供的一种实体样本获取方法的步骤流程图,如图1所示,该实体样本获取方法具体可以包括如下步骤:
步骤101:将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果。
本公开实施例可以应用于获取训练实体识别模型所需的实体标注样本的场景中。
待识别语句是指获取的用于进行实体识别的语句。
在某些示例中,待识别语句可以为从互联网中获取的语句,例如,用户可以通过在互联网中进行搜索,以获取查询语句,并将该查询语句作为待识别语句。
在某些示例中,待识别语句可以为用户自定义设置的查询语句,例如,用户可以根据具体地场景,如销售等,输入相应的查询语句,以作为待识别语句。
当然,不仅限于此,在具体实现中,待识别语句还可以为采用其它方式获取的语句,具体地,可以根据业务需求而定,本实施例对此不加以限制。
预训练实体识别模型是指采用一部分实体标注样本训练得到的实体识别模型。
在本公开实施例中,可以先获取一部分实体标注样本,并采用这一部分对初始实体识别模型进行训练,以得到预训练实体识别模型。
实体预测结果是指由预训练模型对待识别语句进行处理,所得到的待识别语句的实体预测结果,例如,在待识别语句中包含有至少一个实体词时,采用预训练实体识别模型对待识别语句进行处理,可以得到每个实体词所对应的实体预测结果,如在实体词为烧烤时,所得到的预测结果为:菜品、商户等。
在获取待识别语句之后,可以将待识别语句输入至预训练识别模型,以得到待识别语句对应的实体预测结果。
在获取待识别语句对应的实体预测结果之后,执行步骤102。
步骤102:从实体数据词典中获取所述待识别语句对应的实体分类结果。
实体数据词典是指预先按照数据格式存储的实体词和实体类别对应的结果,实体识别模块目前沉淀下百万量级的高质量实体数据作为词典,数据格式为实体文本、实体类型、属性信息。
在获取待识别语句之后,可以采用待识别语句在实体数据词典中进行匹配搜索,以获取待识别语句对应的实体分类结果,例如,在待识别语句为“兄弟烧烤个性diy”时,从实体数据词典中匹配搜索的该语句的实体分类结果为“商户”。
可以理解地,上述示例仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在从实体数据词典中获取待识别语句对应的实体分类结果之后,执行步骤103。
步骤103:基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果。
校正候选结果结合实体预测结果和实体分类结果,得到的待识别语句对应的校正候选项。
在本实施例中,在待识别语句中仅包含一个实体词时,从实体数据词典中获取的实体分类结果为一个,预训练实体识别模型输出的实体预测结果为一个结果,此时,可以将实体分类结果作为校正候选结果,以校正候选结果对实体预测结果进行替换。
在待识别语句中包含两个或以上的实体词时,从实体数据词典中获取的实体分类结果为一个或多个,预训练实体识别模型输出的实体预测结果为一个或多个,此时,可以结合实体预测结果和实体分类结果共同确定校正候选结果,具体地,将在下述实施例中进行详细描述,本实施例对此不加以限制。
在基于实体预测结果和实体分类结果确定出待识别语句对应的校正候选结果之后,执行步骤104。
步骤104:根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
概率比是指校正候选结果和实体预测结果之间的概率比。
在基于实体预测结果和实体分类结果确定出待识别语句对应的校正候选结果之后,可以计算校正候选结果与实体预测结果之间的概率比,进而可以根据概率比从校正候选结果中选取出目标校正候选结果,并将目标校正候选结果作为目标实体样本。具体地,可以从概率比中获取最大概率比,并将最大概率比对应的校正候选结果作为目标校正候选结果。
本实施例通过结合校正候选结果和预测候选结果之间的概率比,确定出目标实体样本,无需人工定制模板和规则。
本公开实施例提供的实体样本获取方法,通过将待识别语句输入至预训练实体识别模型,得到待识别语句对应的实体预测结果,从实体数据词典中获取待识别语句对应的实体分类结果,基于实体预测结果和实体分类结果,确定待识别语句对应的校正候选结果,根据校正候选结果和实体预测结果之间的概率比,确定校正候选结果中的目标校正候选结果,并将目标校正候选结果确定为目标实体样本。本申请实施例结合校正候选结果和预测候选结果之间的概率比,确定出目标实体样本,无需人工定制模板和规则,减少了人力的投入。
参照图2,示出了本公开实施例提供的另一种实体样本获取方法的步骤流程图,如图2所示,该实体样本获取方法具体可以包括如下步骤:
步骤201:获取第一数量的实体标注样本。
本公开实施例可以应用于获取训练实体识别模型所需的实体标注样本的场景中。
第一数量是指由业务人员设定的获取对初始实体识别模型进行训练的样本,在本实施例中,第一数量可以为100、200等,具体地,可以根据业务需求而定,本实施例对此不加以限制。
实体标注样本是指采用人工定制模板规则等标注的实体样本,或者采用实体数据+动态规划切分的方法生成的实体样本,具体地,可以根据业务需求获取实体标注样本,本实施例对于实体标注样本的获取方式不加以限制。
在获取第一数量的实体标注样本之后,执行步骤202。
步骤202:采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
初始实体识别模型是指还未进行训练的实体识别模型。
在获取第一数量的实体标准样本之后,可以采用第一数量的实体标注样本对初始实体识别模型进行训练,从而得到预训练实体识别模型。
在得到预训练实体识别模型之后,执行步骤203。
步骤203:将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果。
待识别语句是指获取的用于进行实体识别的语句。
在某些示例中,待识别语句可以为从互联网中获取的语句,例如,用户可以通过在互联网中进行搜索,以获取查询语句,并将该查询语句作为待识别语句。
在某些示例中,待识别语句可以为用户自定义设置的查询语句,例如,用户可以根据具体地场景,如销售等,输入相应的查询语句,以作为待识别语句。
当然,不仅限于此,在具体实现中,待识别语句还可以为采用其它方式获取的语句,具体地,可以根据业务需求而定,本实施例对此不加以限制。
实体预测结果是指由预训练模型对待识别语句进行处理,所得到的待识别语句的实体预测结果,例如,在待识别语句中包含有至少一个实体词时,采用预训练实体识别模型对待识别语句进行处理,可以得到每个实体词所对应的实体预测结果,如在实体词为烧烤时,所得到的预测结果为:菜品、商户等。
在获取待识别语句之后,可以将待识别语句输入至预训练识别模型,以得到待识别语句对应的实体预测结果。
在获取待识别语句对应的实体预测结果之后,执行步骤204。
步骤204:从实体数据词典中获取所述待识别语句对应的实体分类结果。
实体数据词典是指预先按照数据格式存储的实体词和实体类别对应的结果,实体识别模块目前沉淀下百万量级的高质量实体数据作为词典,数据格式为实体文本、实体类型、属性信息。
在获取待识别语句之后,可以采用待识别语句在实体数据词典中进行匹配搜索,以获取待识别语句对应的实体分类结果,例如,在待识别语句为“兄弟烧烤个性diy”时,从实体数据词典中匹配搜索的该语句的实体分类结果为“商户”。
可以理解地,上述示例仅是为了更好地理解本实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在从实体数据词典中获取待识别语句对应的实体分类结果之后,执行步骤205。
步骤205:在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果。
校正候选结果结合实体预测结果和实体分类结果,得到的待识别语句对应的校正候选项。
在本实施例中,在待识别语句中仅包含一个实体词时,从实体数据词典中获取的实体分类结果为一个,预训练实体识别模型输出的实体预测结果为一个结果,此时,可以将实体分类结果作为校正候选结果,以校正候选结果对实体预测结果进行替换。
在待识别语句中包含两个或以上的实体词时,从实体数据词典中获取的实体分类结果为一个或多个,预训练实体识别模型输出的实体预测结果为一个或多个,此时,可以结合实体预测结果和实体分类结果共同确定校正候选结果。具体地,在实体预测结果为预训练实体识别模型切分的n个切分实体词的预测结果时,可以根据实体分类结果和n(n为大于等于2的正整数)个切分实体词中n-1个切分实体词对应的实体预测结果,生成待识别语句对应的校正候选结果,例如,如图2b所示,在待识别语句为“兄弟烧烤个性diy”时,预训练实体识别模型输出的预测结果有三个,分别用10、14和12表示,从实体数据词典获取的实体分类结果为一个,用15表示,然后结合预测结果和实体分类结果得到的校正候选分别为:15、15、14、14、12、12、12、12、12,10、10、15、15、12、12、12、12、12,和10、10、14、14、15、15、15、15、15。
可以理解地,上述示例仅是为了更好地理解本公开实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在根据实体分类结果和n个切分实体词中n-1个切分实体词对应的实体预测结果,生成待识别语句对应的校正候选结果之后,执行步骤206。
步骤206:根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比。
概率比是指校正候选结果和实体预测结果之间的概率比值。
在生成待识别语句对应的校正候选结果之后,可以根据预训练实体识别模型切分的切分实体词的概率、切分实体词的个数和校正候选结果的个数,计算校正候选结果和实体预测结果之间的概率比,具体地,可以参照下述公式(1)进行计算。
上述公式(1)中,dist(A,B)为实体预测结果A与实体分类结果B对应的概率比,pi为第i个切分实体词的模型输出概率,NA为切分实体词的个数,NB为校正候选结果的个数。
在根据预训练实体识别模型切分的切分实体词的概率、切分实体词的个数和校正候选结果的个数,确定校正候选结果和实体预测结果之间的概率比之后,执行步骤207。
步骤207:获取所述概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为所述目标实体样本。
在获取校正候选结果和实体预测结果之间的概率比之后,可以获取概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为目标实体样本。
在获取目标实体样本之后,执行步骤208,或者执行步骤210。
步骤208:获取第二数量的实体标注样本。
第二数量是指由业务人员设定的获取对预训练实体识别模型进行训练的样本,在本实施例中,第二数量可以为100、200等,具体地,可以根据业务需求而定,本实施例对此不加以限制。
实体标注样本是指采用人工定制模板规则等标注的实体样本,或者采用实体数据+动态规划切分的方法生成的实体样本,具体地,可以根据业务需求获取实体标注样本,本实施例对于实体标注样本的获取方式不加以限制。
在获取第二数量的实体标注样本之后,执行步骤209。
步骤209:根据所述第二数量的实体标注样本和所述目标实体样本对初始实体识别模型进行训练,得到训练后的目标实体识别模型。
在获取第二数量的实体标注样本之后,可以结合实体标注样本和目标实体样本对初始实体识别模型进行训练,从而可以得到目标实体识别模型,如图2a所示,raw为实体标注样本,WS为目标实体样本,在获取实raw和WS之后,可以采用raw和WS对初始实体识别模型进行训练,从而得到目标实体识别模型ModelB。
步骤210:根据所述目标实体样本对所述预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
在本实施例中,还可以直接采用目标实体样本对预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
本公开实施例提供的实体样本获取方法,通过将待识别语句输入至预训练实体识别模型,得到待识别语句对应的实体预测结果,从实体数据词典中获取待识别语句对应的实体分类结果,基于实体预测结果和实体分类结果,确定待识别语句对应的校正候选结果,根据校正候选结果和实体预测结果之间的概率比,确定校正候选结果中的目标校正候选结果,并将目标校正候选结果确定为目标实体样本。本申请实施例结合校正候选结果和预测候选结果之间的概率比,确定出目标实体样本,无需人工定制模板和规则,减少了人力的投入。
参照图3,示出了本公开实施例提供的一种实体样本获取装置的结构示意图,如图3所示,该实体样本获取装置具体可以包括如下模块:
实体预测结果获取模块310,用于将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
实体分类结果获取模块320,用于从实体数据词典中获取所述待识别语句对应的实体分类结果;
校正候选结果确定模块330,用于基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
目标实体样本确定模块340,用于根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
本公开实施例提供的实体样本获取装置,通过将待识别语句输入至预训练实体识别模型,得到待识别语句对应的实体预测结果,从实体数据词典中获取待识别语句对应的实体分类结果,基于实体预测结果和实体分类结果,确定待识别语句对应的校正候选结果,根据校正候选结果和实体预测结果之间的概率比,确定校正候选结果中的目标校正候选结果,并将目标校正候选结果确定为目标实体样本。本申请实施例结合校正候选结果和预测候选结果之间的概率比,确定出目标实体样本,无需人工定制模板和规则,减少了人力的投入。
参照图4,示出了本公开实施例提供的另一种实体样本获取装置的结构示意图,如图4所示,该实体样本获取装置具体可以包括如下模块:
第一样本获取模块410,用于获取第一数量的实体标注样本;
预训练模型获取模块420,用于采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型;
实体预测结果获取模块430,用于将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
实体分类结果获取模块440,用于从实体数据词典中获取所述待识别语句对应的实体分类结果;
校正候选结果确定模块450,用于基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
目标实体样本确定模块460,用于根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本;
第二样本获取模块470,用于获取第二数量的实体标注样本;
第一实体模型获取模块480,用于根据所述第二数量的实体标注样本和所述目标实体样本对初始实体识别模型进行训练,得到训练后的目标实体识别模型;
第二实体模型获取模块490,用于根据所述目标实体样本对所述预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
可选地,所述校正候选结果确定模块450包括:
第一候选结果获取单元,用于在所述实体预测结果为所述预训练实体识别模型切分的单个切分实体词的预测结果时,将所述实体分类结果作为所述校正候选结果。
可选地,所述校正候选结果确定模块450包括:
第二候选结果获取单元451,用于在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果;
其中,n为大于等于2的正整数。
可选地,所述目标实体样本确定模块460包括:
概率比确定单元461,用于根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比;
目标实体样本获取单元462,用于获取所述概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为所述目标实体样本。
本公开实施例提供的实体样本获取装置,通过将待识别语句输入至预训练实体识别模型,得到待识别语句对应的实体预测结果,从实体数据词典中获取待识别语句对应的实体分类结果,基于实体预测结果和实体分类结果,确定待识别语句对应的校正候选结果,根据校正候选结果和实体预测结果之间的概率比,确定校正候选结果中的目标校正候选结果,并将目标校正候选结果确定为目标实体样本。本申请实施例结合校正候选结果和预测候选结果之间的概率比,确定出目标实体样本,无需人工定制模板和规则,减少了人力的投入。
本公开的实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施例的实体样本获取方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的实体样本获取方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种实体样本获取方法,其特征在于,包括:
将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
从实体数据词典中获取所述待识别语句对应的实体分类结果;
基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
2.根据权利要求1所述的方法,其特征在于,在所述将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果之前,还包括:
获取第一数量的实体标注样本;
采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的单个切分实体词的预测结果时,将所述实体分类结果作为所述校正候选结果。
4.根据权利要求1所述的方法,其特征在于,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果;
其中,n为大于等于2的正整数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本,包括:
根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比;
获取所述概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为所述目标实体样本。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本之后,还包括:
获取第二数量的实体标注样本;
根据所述第二数量的实体标注样本和所述目标实体样本对初始实体识别模型进行训练,得到训练后的目标实体识别模型。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本之后,还包括:
根据所述目标实体样本对所述预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
8.一种实体样本获取装置,其特征在于,包括:
实体预测结果获取模块,用于将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
实体分类结果获取模块,用于从实体数据词典中获取所述待识别语句对应的实体分类结果;
校正候选结果确定模块,用于基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
目标实体样本确定模块,用于根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
9.根据权利要求8所述的装置,其特征在于,还包括:
第一样本获取模块,用于获取第一数量的实体标注样本;
预训练模型获取模块,用于采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
10.根据权利要求8所述的装置,其特征在于,所述校正候选结果确定模块包括:
第一候选结果获取单元,用于在所述实体预测结果为所述预训练实体识别模型切分的单个切分实体词的预测结果时,将所述实体分类结果作为所述校正候选结果。
11.根据权利要求8所述的装置,其特征在于,所述校正候选结果确定模块包括:
第二候选结果获取单元,用于在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果;
其中,n为大于等于2的正整数。
12.根据权利要求8所述的装置,其特征在于,所述目标实体样本确定模块包括:
概率比确定单元,用于根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比;
目标实体样本获取单元,用于获取所述概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为所述目标实体样本。
13.根据权利要求8所述的装置,其特征在于,还包括:
第二样本获取模块,用于获取第二数量的实体标注样本;
第一实体模型获取模块,用于根据所述第二数量的实体标注样本和所述目标实体样本对初始实体识别模型进行训练,得到训练后的目标实体识别模型。
14.根据权利要求8所述的装置,其特征在于,还包括:
第二实体模型获取模块,用于根据所述目标实体样本对所述预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
15.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7中任一项所述的实体样本获取方法。
16.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1至7中任一项所述的实体样本获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550976.1A CN111881681B (zh) | 2020-06-16 | 2020-06-16 | 实体样本获取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550976.1A CN111881681B (zh) | 2020-06-16 | 2020-06-16 | 实体样本获取方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881681A true CN111881681A (zh) | 2020-11-03 |
CN111881681B CN111881681B (zh) | 2024-04-09 |
Family
ID=73156828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010550976.1A Active CN111881681B (zh) | 2020-06-16 | 2020-06-16 | 实体样本获取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881681B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673245A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、电子设备及可读存储介质 |
CN114611513A (zh) * | 2022-01-19 | 2022-06-10 | 达闼机器人股份有限公司 | 样本生成方法、模型训练方法、实体识别方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180101783A1 (en) * | 2016-10-07 | 2018-04-12 | The Johns Hopkins University | Method and Apparatus for Analysis and Classification of High Dimensional Data Sets |
CN108959262A (zh) * | 2018-07-09 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110502613A (zh) * | 2019-08-12 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、智能检索方法、装置和存储介质 |
-
2020
- 2020-06-16 CN CN202010550976.1A patent/CN111881681B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180101783A1 (en) * | 2016-10-07 | 2018-04-12 | The Johns Hopkins University | Method and Apparatus for Analysis and Classification of High Dimensional Data Sets |
CN108959262A (zh) * | 2018-07-09 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110502613A (zh) * | 2019-08-12 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、智能检索方法、装置和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673245A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、电子设备及可读存储介质 |
CN114611513A (zh) * | 2022-01-19 | 2022-06-10 | 达闼机器人股份有限公司 | 样本生成方法、模型训练方法、实体识别方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111881681B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287479B (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN109117777B (zh) | 生成信息的方法和装置 | |
US20190026605A1 (en) | Neural network model training method and apparatus, living body detecting method and apparatus, device and storage medium | |
CN111581976A (zh) | 医学术语的标准化方法、装置、计算机设备及存储介质 | |
CN109034069B (zh) | 用于生成信息的方法和装置 | |
CN111191445B (zh) | 广告文本分类方法及装置 | |
CN107909088B (zh) | 获取训练样本的方法、装置、设备和计算机存储介质 | |
US10489637B2 (en) | Method and device for obtaining similar face images and face image information | |
CN110263122B (zh) | 一种关键词获取方法、装置及计算机可读存储介质 | |
CN108549710B (zh) | 智能问答方法、装置、存储介质及设备 | |
CN107436916B (zh) | 智能提示答案的方法及装置 | |
EP3832475A1 (en) | Sentence processing method and system and electronic device | |
CN111651674B (zh) | 双向搜索方法、装置及电子设备 | |
CN111881681A (zh) | 实体样本获取方法、装置及电子设备 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN111755090A (zh) | 病历查找方法、病历查找装置、存储介质与电子设备 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及*** | |
CN111738791A (zh) | 一种文本处理方法、装置、设备和存储介质 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
CN112446214A (zh) | 广告关键词的生成方法、装置、设备及存储介质 | |
CN111385659B (zh) | 一种视频推荐方法、装置、设备及存储介质 | |
CN112883218A (zh) | 一种图文联合表征的搜索方法、***、服务器和存储介质 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
CN110705308A (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |