CN111859965A - 一种实体识别模型训练方法、实体识别方法及装置 - Google Patents
一种实体识别模型训练方法、实体识别方法及装置 Download PDFInfo
- Publication number
- CN111859965A CN111859965A CN202010531293.1A CN202010531293A CN111859965A CN 111859965 A CN111859965 A CN 111859965A CN 202010531293 A CN202010531293 A CN 202010531293A CN 111859965 A CN111859965 A CN 111859965A
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- training
- model
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 283
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 164
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 abstract description 9
- 230000001502 supplementing effect Effects 0.000 abstract description 9
- 241000272525 Anas platyrhynchos Species 0.000 description 15
- 238000013145 classification model Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000002372 labelling Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 241000272522 Anas Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种实体识别模型训练方法、实体识别方法及装置,该方法包括:获取训练数据,训练数据包括实体训练数据和实体训练数据对应的属性标签;将实体训练数据输入预先训练好的特征向量提取模型中,得到训练特征向量,训练特征向量用于表征属性标签的相关特征;将训练数据和训练特征向量输入第一预设模型中,对第一预设模型进行训练,直至从训练后的第一预设模型输出属性标签时,将训练后的第一预设模型确定为实体识别模型。可见,训练特征向量可以起到对实体训练数据的特征进行补充的作用,从而可以增加实体训练数据的特征的维度,使得训练所得的实体识别模型的识别准确度更高,有利于提高个性化命名的实体的识别准确率。
Description
技术领域
本申请涉及信息识别技术领域,特别是涉及一种实体识别模型训练方法、实体识别方法及装置。
背景技术
随着互联网的普及和移动互联网的崛起,网上购物及外卖业务的到来,用户可以直接通过终端上的在线平台搜索自己想要的服务。搜索***通过深层次理解用户搜索意图和需求、提供相关供给的方式来服务用户。
实体识别作为搜索***的基础功能模块之一,在搜索业务中发挥着极其重要的作用,其目的是从文本或文本集中识别表示人名、地名、机构名等词语,可以用于信息提取、信息检索、机器翻译等自然语言处理技术。
但是,发明人在研究中发现相关技术中至少存在如下技术问题:相关技术中实体识别准确率相对较低。
发明内容
为了解决相关技术中实体识别准确率相对较低的技术问题,本申请实施例提供了一种实体识别模型训练方法、实体识别方法及装置。
第一方面,本申请实施例提供了一种实体识别模型训练方法,所述方法包括:
获取训练数据,所述训练数据包括实体训练数据和所述实体训练数据对应的属性标签;
将所述实体训练数据输入预先训练好的特征向量提取模型中,得到训练特征向量,所述训练特征向量用于表征所述属性标签的相关特征;
将所述训练数据和所述训练特征向量输入第一预设模型中,对所述第一预设模型进行训练,直至从训练后的第一预设模型输出所述属性标签时,将所述训练后的第一预设模型确定为实体识别模型。
可选的,训练所述特征向量提取模型的过程,包括:
获取目标实体词典,所述目标实体词典包括目标实体数据和所述目标实体数据对应的目标属性标签;
将所述目标实体数据和所述目标属性标签输入第二预设模型,对所述第二预设模型进行训练,直至从训练后的第二预设模型输出目标特征向量时,将所述训练后的第二预设模型确定为所述特征向量提取模型;
其中,所述目标特征向量用于表征所述目标属性标签的相关特征。
可选的,所述训练数据还包括所述实体训练数据对应的边界标签,所述方法还包括:
获取所述实体训练数据和所述边界标签;
将所述实体训练数据和所述边界标签输入第三预设模型中,对所述第三预设模型进行训练,直至从训练后的第三预设模型输出所述边界标签时,将所述训练后的第三预设模型确定为实体切分模型。
第二方面,本申请实施例提供了一种实体识别方法,所述方法包括:
获取待识别数据,所述待识别数据包括待识别实体数据;
将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量,所述特征向量用于表征所述待识别实体数据对应的属性标签的相关特征;
将所述待识别实体数据和所述待识别实体数据对应的特征向量输入第一方面所述的实体识别模型,得到所述待识别实体数据对应的属性标签。
可选的,在所述将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量之前,所述方法还包括:
将所述待识别数据输入预先训练好的实体切分模型,得到所述待识别数据所包括的待识别实体数据。
第三方面,本申请实施例提供了一种实体识别模型训练装置,所述装置包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括实体训练数据和所述实体训练数据对应的属性标签;
训练特征向量获取模块,用于将所述实体训练数据输入预先训练好的特征向量提取模型中,得到训练特征向量,所述训练特征向量用于表征所述属性标签的相关特征;
实体识别模型训练模块,用于将所述训练数据和所述训练特征向量输入第一预设模型中,对所述第一预设模型进行训练,直至从训练后的第一预设模型输出所述属性标签时,将所述训练后的第一预设模型确定为实体识别模型。
可选的,还包括特征向量提取模型训练模块;
所述特征向量提取模型训练模块,具体用于:
获取目标实体词典,所述目标实体词典包括目标实体数据和所述目标实体数据对应的目标属性标签;
将所述目标实体数据和所述目标属性标签输入第二预设模型,对所述第二预设模型进行训练,直至从训练后的第二预设模型输出目标特征向量时,将所述训练后的第二预设模型确定为所述特征向量提取模型;
其中,所述目标特征向量用于表征所述目标属性标签的相关特征。
可选的,所述装置还包括:
数据获取模块,用于获取所述实体训练数据和所述边界标签;
实体切分模型训练模块,用于将所述实体训练数据和所述边界标签输入第三预设模型中,对所述第三预设模型进行训练,直至从训练后的第三预设模型输出所述边界标签时,将所述训练后的第三预设模型确定为实体切分模型。
第四方面,本申请实施例提供了一种实体识别装置,所述装置包括:
待识别数据获取模块,用于获取待识别数据,所述待识别数据包括待识别实体数据;
特征向量提取模块,用于将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量,所述特征向量用于表征所述待识别实体数据对应的属性标签的相关特征;
属性标签获取模块,用于将所述待识别实体数据和所述待识别实体数据对应的特征向量输入第三方面所述的实体识别模型,得到所述待识别实体数据对应的属性标签。
可选的,所述装置还包括:
待识别实体数据获取模块,用于在所述特征向量提取模块将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量之前,将所述待识别数据输入预先训练好的实体切分模型,得到所述待识别数据所包括的待识别实体数据。
第五方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的实体识别模型训练方法,或者,第二方面所述的实体识别方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的实体识别模型训练方法,或者,第二方面所述的实体识别方法。
本申请实施例提供的技术方案,通过提取实体训练数据的训练特征向量,并将该训练特征向量和训练数据一起输入第一预设模型中,对第一预设模型进行训练。该训练特征向量可以起到对实体训练数据的特征进行补充的作用,从而可以增加实体训练数据的特征的维度,使得训练所得的实体识别模型的识别准确度更高,有利于提高个性化命名的实体的识别准确率。
附图说明
图1是本申请实施例提供的一种实体识别模型训练方法的步骤流程图;
图2是本申请实施例提供的训练特征向量提取模型的过程的步骤流程图;
图3是本申请实施例提供的另一种实体识别模型训练方法的步骤流程图;
图4是本申请实施例提供的一种实体识别方法的步骤流程图;
图5是本申请实施例提供的一种实体识别方法的示意图;
图6是本申请实施例提供的一种实体识别模型训练装置的结构框图;
图7是本申请实施例提供的一种实体识别装置的结构框图;
图8是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
搜索***通过深层次理解用户意图和需求、提供相关供给的方式来服务客户。实体识别作为搜索***的基础功能模块之一,在搜索业务中发挥着极其重要的作用。实体识别的输出结果,一方面影响意图识别,另一方面通过召回语法影响结果供给。
搜索***的实体识别模块又通过两个子模块发挥作用:第一个子模块是基于高质量的实体词库,通过词典匹配的方式覆盖高频流量;第二个子模块是基于高泛化的实体识别模型,通过实体识别模型泛化预测的方法来覆盖低频流量。
而实体词库的挖掘,很大一部分也是依赖于实体识别模型的输出结果。实体识别模型的优化,会推动实体识别模块承载能力的提升,使得搜索***对搜索用户的理解更精准、更深入,从而极大地提升用户搜索体验,增强用户对平台的信任和黏性。
在近几年里,BERT模型(Bidirectional Encoder Representations fromTransformers)在自然语言处理NLP领域掀起了一场浪潮,在包括实体识别以内的多项NLP任务上刷新了成绩。BERT-NER模型是将BERT模型嵌入实体识别任务中的具体实践,该方法针对通用NLP问题,使用大规模语料进行预训练,获取语义相关性,然后再根据具体的NER任务进行微调。
BERT-NER模型通过大规模语料获得预训练模型,再通过少量NER标注数据进行微调。发明人在研究中发现:BERT-NER模型对传统意义上的实体,如人名、地名等命名规律的实体,BERT-NER模型比较容易识别其特征,因此,对这些命名规律的实体的识别准确率相对较高。
但是,在美团垂直领域等应用场景,存在很多个性化命名的实体,如商家、团单等统计规律不太明显的实体词汇,BERT-NER模型不容易识别其特征,这使得BERT-NER模型对这部分词汇的识别能力不足,即对这些个性化命名的实体的识别准确率相对较低。
并且,发明人在研究中还发现:BERT-NER模型仅利用标注数据进行模型训练,并没有利用通过离线挖掘和业务积累的实体词典的信息量。由于标注成本较高,NER标注数据量一般比较小,规模往往在10万左右。而实体词典的规模往往更大,例如,可以达到240万左右。美团点评在业务发展中所积累的实体词典中的高质量实体词汇,对实体识别任务可以是很好的数据补充,因此,通过融合实体词典的实体识别方法,可以优化BERT-NER模型,进而有利于提高对个性化命名的实体的识别准确率。
为此,本申请实施例提高了一种实体识别模型训练方法、实体识别方法及装置。
第一方面,首先对本申请实施例提供的一种实体识别模型训练方法进行详细阐述。
如图1所示,本申请实施例所提供的一种实体识别模型训练方法,可以包括如下步骤:
S110,获取训练数据。
其中,训练数据包括实体训练数据和实体训练数据对应的属性标签。
具体的,在训练实体识别模型时,需要获取带属性标签的训练数据,该训练数据可以是NER标注数据,NER标注数据可以包括实体训练数据和实体训练数据对应的属性标签,其中,实体训练数据对应的属性标签可用于描述实体训练数据的属性。
举例而言,训练数据所包括的实体训练数据和实体训练数据对应的属性标签可以是如下:
1、实体训练数据为新辣道,实体训练数据对应的数据标签为10,用于表示商圈。
2、实体训练数据为鱼火锅,实体训练数据对应的属性标签为12,用于表示品类。
3、实体训练数据为陶陶居,实体训练数据对应的属性标签为10,用于表示商圈。
4、实体训练数据为酒家,实体训练数据对应的属性标签为12,用于表示品类。
5、实体训练数据为蛋糕,实体训练数据对应的属性标签为14,可以用于表示商品。
6、实体训练数据为8寸,实体训练数据对应的属性标签为13,可以用于表示属性。
7、实体训练数据为宜兴,实体训练数据对应的属性标签为11,用于表示城市。
S120,将实体训练数据输入预先训练好的特征向量提取模型中,得到训练特征向量。
其中,训练特征向量用于表征属性标签的相关特征。
具体的,为了提高实体识别模型的识别准确率,在获取训练数据之后,不直接利用训练数据训练实体识别模型,而是将实体训练数据输入预先训练好的特征向量提取模型中,得到实体训练数据对应的训练特征向量,该训练特征向量可以用于表征实体训练数据对应的属性标签的相关特征。
其中,特征向量提取模型是利用实体词典训练得到的,该实体词典可以是离线挖掘和业务积累的大规模实体词典。
具体的,将实体词典作为训练数据,并利用这些训练数据训练得到短文本分类模型,该短文本分类模型即为特征向量提取模型。其中,实体词典包括大量实体数据以及每一实体数据对应的属性标签。每一个实体数据均可以为一个短文本,该短文本分类模型可以是IDCNN-CLS分类模型,还可以是其他分类模型如BERT模型,这都是合理的。
并且,该短文本分类模型并不会直接输出每个短文本的属性标签,这是由于如果短文本分类模型单独对每个短文本进行属性标签的预估,会忽略多个短文本的上下文联系,对某些属于多义词的短文本而言,无法准确预测其在具体语境中的实际含义。因此,这个短文本分类模型只是将实体词典承载进来,获取每个短文本的属性标签的相关特征,即从短文本分类模型中输出的是短文本对应的特征向量,而不是短文本的属性标签,其中,特征向量用于表征短文本的属性标签的相关特征。
为了方案描述清楚,将在下面实施例中对特征向量提取模型的过程进行详细阐述。
S130,将训练数据和训练特征向量输入第一预设模型中,对第一预设模型进行训练,直至从训练后的第一预设模型输出属性标签时,将训练后的第一预设模型确定为实体识别模型。
具体的,在将实体训练数据输入到预先训练好的特征向量提取模型中,得到训练特征向量后,可以对实体识别模型进行训练。在训练实体识别模型时,可以将训练数据和训练特征向量输入第一预设模型中。第一预设模型获取到训练数据后,会提取实体训练数据的特征向量,并将所提取的实体训练数据的特征向量与所输入的训练特征向量作为实体训练数据最终的特征向量,并且,不断调整第一预设模型的模型参数,在从训练后的第一预设模型输出实体训练数据对应的属性标签时,说明第一预设模型的实体识别结果较为准确,因此,可以将训练后的第一预设模型确定为实体识别模型。
上述第一预设模型可以为IDCNN分类模型,还可以是BERT分类模型或者其他分类模型,这都是合理的。
本申请实施例提供的技术方案,通过提取实体训练数据的训练特征向量,并将该训练特征向量和训练数据一起输入第一预设模型中,对第一预设模型进行训练。该训练特征向量可以起到对实体训练数据的特征进行补充的作用,从而可以增加实体训练数据的特征的维度,使得训练所得的实体识别模型的识别准确度更高,有利于提高个性化命名的实体的识别准确率。
为了方案描述清楚,下面将对特征向量提取模型的训练过程进行详细阐述。
如图2所示,训练特征向量提取模型的过程,可以包括如下步骤,分别为S210和S220:
S210,获取目标实体词典。
其中,目标实体词典包括目标实体数据和目标实体数据对应的目标属性标签。
具体的,目标实体词典可以是离线挖掘和业务积累的实体词典,该目标实体词典包括大量的目标实体数据,以及每个目标实体数据对应的目标属性标签。例如,目标实体数据可以是美团点评在业务发展中积累的一批高质量的实体词汇。举例而言,目标实体数据可以为海底捞,海底捞对应的目标属性标签可以为商家。目标实体数据还可以为火锅,火锅对应的目标属性标签可以为品类。目标实体数据还可以为五道口,五道口对应的目标属性标签可以为商圈。
S220,将目标实体数据和目标属性标签输入第二预设模型,对第二预设模型进行训练,直至从训练后的第二预设模型输出目标特征向量时,将训练后的第二预设模型确定为特征向量提取模型。
其中,目标特征向量用于表征目标属性标签的相关特征。
具体的,在得到目标实体词典之后,可以将目标实体词典中包括的目标实体数据和目标实体数据对应的目标属性标签作为训练数据,对第二预设模型进行训练,该第二预设模型可以是IDCNN-CLS分类模型,还可以是其他分类模型如BERT模型,这都是合理的。
需要说明的是,第二预设模型的目标输出不是目标属性标签,这是由于如果第二预设模型单独对每个目标实体数据进行属性标签的预估,会忽略多个目标实体数据的上下文联系,对某些属于多义词的目标实体数据而言,无法准确预测其在具体语境中的实际含义。因此,第二预设模型只是将目标实体词典承载进来,获取每个目标实体数据的属性标签的相关特征,即第二预设模型的目标输出是目标实体数据对应的目标特征向量,而不是目标实体数据的目标属性标签,其中,目标特征向量用于表征目标属性标签的相关特征。
需要说明的是,训练特征向量提取模型所采用的训练数据,可以不是目标实体词典,还可以是其他外部数据,比如可以是用于表示词汇之间的相关关系的数据。这都是合理的。
可见,通过本实施例提供的技术方案,利用离线挖掘和业务积累的实体词典所包括的实体数据和实体数据对应的属性标签,训练特征向量提取模型。可以在实体识别模型训练之前,提取训练实体数据的训练特征向量,该训练特征向量可以起到对实体训练数据的特征进行补充的作用,从而可以增加实体训练数据的特征的维度,使得训练所得的实体识别模型的识别准确度更高,有利于提高个性化命名的实体的识别准确率。
在图1或图2实施例的基础上,训练数据还可以包括实体训练数据对应的边界标签,如图3所示,该实体识别模型训练方法还可以包括如下步骤:
S310,获取训练数据所包括的实体训练数据和实体训练数据对应的边界标签。
由上述描述可知,训练数据包括实体训练数据,实体训练数据对应的属性标签,以及实体训练数据对应的边界标签。在该步骤中,可以执行对实体训练数据去属性标签的操作,即将训练数据中的实体训练数据和实体训练数据对应的边界提取出来。假如训练数据为NER标注数据,那么,得到训练数据所包括的实体训练数据的过程为:将NER标注数据执行去属性标签的操作。
其中,实体训练数据对应的边界标签可以用B、I和E来表示。其中,B表示开始,I表示中间,E表示结束。
举例而言,训练数据所包括的实体训练数据和实体训练数据对应的边界标签可以是如下:
1、实体训练数据为新辣道,“新”对应的边界标签为B,“辣”对应的边界标签为I,“道”对应的边界标签为E。
2、实体训练数据为鱼火锅,“鱼”对应的边界标签为B,“火”对应的边界标签为I,“锅”对应的边界标签为E。
3、实体训练数据为陶陶居,“陶”对应的边界标签为B,“陶”对应的边界标签为I,“居”对应的边界标签为E。
4、实体训练数据为酒家,“酒”对应的边界标签为B,“家”对应的边界标签为E。
5、实体训练数据为蛋糕,“蛋”对应的边界标签为B,“糕”对应的边界标签为E。
6、实体训练数据为8寸,“8”对应的边界标签为B,“寸”对应的边界标签为E。
7、实体训练数据为宜兴,“宜”对应的边界标签为B,“兴”对应的边界标签为E。
S320,将实体训练数据和实体训练数据对应的边界标签输入第三预设模型中,对第三预设模型进行训练,直至从训练后的第三预设模型输出边界标签时,将训练后的第三预设模型确定为实体切分模型。
具体的,在得到实体训练数据和实体训练数据对应的边界标签之后,利用实体训练数据和实体训练数据对应的边界标签对第三预设模型进行训练,不断调整第三预设模型的模型参数,并且,当从训练后的第三预设模型输出边界标签时,说明实体数据切分结果的准确率较高,因此,可以将训练后的第三预设模型确定为实体切分模型。
举例而言,在输入到第三预设模型中的实体训练数据为新辣道时,当从训练后的第三预设模型输出的结果为:“新”的边界标签为B、“辣”的边界标签为I,“道”的边界标签为E时,实体数据切分结果准确。
在实际应用中,第三预设模型可以优先选择为BERT-NER模型。因为标注成本的原因,NER标注数据量一般比较小,其他序列标注模型的泛化能力通常来说是不如BERT模型的,而BERT-NER模型专注于实体数据切分,在少量训练数据的基础上也可以获得很可观的效果,也就是说,BERT-NER模型的实体切分结果的准确率较高。
可见,通过本申请实施例提供的技术方案,可以训练出实体切分准确率较高的实体切分模型,以在利用实体识别模型进行实体识别时,可以提高实体识别模型的实体识别准确率。
第二方面,将对本申请实施例提供的一种实体识别方法进行详细阐述。
需要说明的是,本申请实施例所提供的实体识别方法的执行主体可以为实体识别装置,该实体识别装置可以运行于电子设备中,该电子设备可以为服务器,本申请实施例对此不做具体限定。
如图4所示,该实体识别方法,可以包括如下步骤:
S410,获取待识别数据。
其中,待识别数据包括待识别实体数据。
具体的,在实际应用中,作为执行主体的电子设备接收到用户通过终端发送的用户搜索请求后,可以解析用户搜索请求,得到用户搜索请求携带的待识别数据,该待识别数据包括待识别实体数据。并且,该待识别数据可以包括一个或者多个待识别数据。
在一种实施方式中,为了准确地得到待识别数据所包括的待识别实体数据,在将待识别实体数据输入预先训练好的特征向量提取模型中,得到待识别实体数据对应的特征向量之前,该实体识别方法还可以包括如下步骤:
将待识别数据输入预先训练好的实体切分模型,得到待识别数据所包括的待识别实体数据。
在该实施方式中,在获取到待识别数据之后,可以将待识别数据输入到如图3所示实施例所述的实体切分模型,进而可以从实体切分模型中输出待识别数据所包括的待识别实体数据,从而可以准确地得到待识别数据所包括的待识别实体数据。
举例而言,待识别数据为金百万烤鸭望京,将该待识别数据输入实体切分模型后,从实体切分模型输出的结果为:“金”的边界标签为B,“百”的边界标签为I,“万”的边界标签为E;“烤”的边界标签为B,“鸭”的边界标签为E;“望”的边界标签为B,“金”的边界标签为E。从而可得待识别实体数据为:金百万、烤鸭和望京,即待识别数据所包括的待识别实体数据包括三个,分别为金百万、烤鸭和望京。
S420,将待识别实体数据输入预先训练好的特征向量提取模型中,得到待识别实体数据对应的特征向量。
其中,待识别实体数据对应的特征向量用于表征待识别实体数据对应的属性标签的相关特征。
具体的,在得到待识别实体数据之后,可以将待识别实体数据输入如图2所示实施例所述的特征向量提取模型中,从特征向量提取模型可以输出各个待识别实体数据对应的特征向量。
举例而言,待识别实体数据有三个,分别为金百万、烤鸭和望京,将待识别实体数据输入特征向量提取模型后,可以得到三个特征向量,分别为金百万对应的特征向量,烤鸭对应的特征向量,望京对应的特征向量。
S430,将待识别实体数据和待识别实体数据对应的特征向量输入第一方面所述的实体识别模型,得到待识别实体数据对应的属性标签。
在得到待识别实体数据对应的特征向量之后,可以将待识别实体数据和待识别实体数据对应的特征向量输入第一方面所述的实体识别模型中,实体识别模型基于上下文语义消歧后对各个待识别实体数据的属性标签进行预测,即可以得到各个待识别实体数据对应的属性标签。
举例而言,待识别实体数据有三个,分别为金百万、烤鸭和望京,金百万对应的属性标签为商家,烤鸭对应的属性标签为品类,望京对应的属性标签为商圈。
本申请实施例提供的技术方案,通过提取待识别数据所包括的待识别实体数据对应的特征向量,并将该特征向量和待识别实体数据一起输入实体识别模型,得到待识别实体数据对应的属性标签。该特征向量可以起到对待识别实体数据的特征进行补充的作用,从而可以增加待识别实体数据的特征的维度,使得所得到的待识别实体数据对应的属性标签的准确度更高,即有利于提高个性化命名的实体的识别准确率。
为了方案描述清楚,下面将结合具体的实例对本申请实施例所提供的实体识别方法进行阐述,如图5所示。
1、作为执行主体的电子设备接收到用户请求QUERY,该QUERY携带的待识别数据为金百万烤鸭望京。
2、将金百万烤鸭望京输入step1所示的实体切分模型BERT-Seg,得到各个待识别实体数据,分别为金百万、烤鸭和望京。其中,BERT-Seg是基于NER标注数据去属性标签后的实体训练数据训练和实体训练数据对应的边界标签训练得到的,上面实施例已经对BERT-Seg的训练过程进行了详细阐述,在此不再赘述。
3、将待识别实体数据金百万、烤鸭和望京分别输入特征向量提取模型IDCNN-CLS,分别得到金百万对应的特征向量、烤鸭对应的特征向量和望京对应的特征向量,这三个特征向量在图5中是用out_hiden_dim表示的。其中,IDCNN-CLS是基于离线挖掘和业务积累的实体词典训练得到的,上面实施例已经对IDCNN-CLS的训练过程进行了详细阐述,在此不再赘述。
4、将out_hiden_dim和待识别实体数据金百万、烤鸭和望京输入到实体识别模型即实体分类模型IDCNN中,IDCNN分别提取金百万对应的特征向量、烤鸭对应的特征向量和望京对应的特征向量,这三个特征向量在图5中是用chunk_dim表示的。IDCNN基于chunk_dim和out_hiden_dim得到金百万对应的属性标签为商家,烤鸭对应的属性标签为品类,望京对应的属性标签为商圈。其中,IDCNN是基于NER标注数据训练得到的,上面实施例已经对IDCNN的训练过程进行了详细阐述,在此不再赘述。
可见,out_hiden_dim起到了对chunk_dim进行扩充的作用,使得识别实体的识别准确率较高,有利于提高个性化命名的实体的识别准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本申请所必须的。
第三方面,本申请实施例提供了一种实体识别模型训练装置,如图6所示,所述装置包括:
训练数据获取模块610,用于获取训练数据,所述训练数据包括实体训练数据和所述实体训练数据对应的属性标签;
训练特征向量获取模块620,用于将所述实体训练数据输入预先训练好的特征向量提取模型中,得到训练特征向量,所述训练特征向量用于表征所述属性标签的相关特征;
实体识别模型训练模块630,用于将所述训练数据和所述训练特征向量输入第一预设模型中,对所述第一预设模型进行训练,直至从训练后的第一预设模型输出所述属性标签时,将所述训练后的第一预设模型确定为实体识别模型。
本申请实施例提供的技术方案,通过提取实体训练数据的训练特征向量,并将该训练特征向量和训练数据一起输入第一预设模型中,对第一预设模型进行训练。该训练特征向量可以起到对实体训练数据的特征进行补充的作用,从而可以增加实体训练数据的特征的维度,使得训练所得的实体识别模型的识别准确度更高,有利于提高个性化命名的实体的识别准确率。
可选的,还包括特征向量提取模型训练模块;
所述特征向量提取模型训练模块,具体用于:
获取目标实体词典,所述目标实体词典包括目标实体数据和所述目标实体数据对应的目标属性标签;
将所述目标实体数据和所述目标属性标签输入第二预设模型,对所述第二预设模型进行训练,直至从训练后的第二预设模型输出目标特征向量时,将所述训练后的第二预设模型确定为所述特征向量提取模型;
其中,所述目标特征向量用于表征所述目标属性标签的相关特征。
可选的,所述训练数据还包括所述实体训练数据对应的边界标签,所述装置还包括:
数据获取模块,用于获取所述实体训练数据和所述边界标签;
实体切分模型训练模块,用于将所述实体训练数据和所述边界标签输入第三预设模型中,对所述第三预设模型进行训练,直至从训练后的第三预设模型输出所述边界标签时,将所述训练后的第三预设模型确定为实体切分模型。
第四方面,本申请实施例提供了一种实体识别装置,如图7所示,所述装置包括:
待识别数据获取模块710,用于获取待识别数据,所述待识别数据包括待识别实体数据;
特征向量提取模块720,用于将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量,所述特征向量用于表征所述待识别实体数据对应的属性标签的相关特征;
属性标签获取模块730,用于将所述待识别实体数据和所述待识别实体数据对应的特征向量输入第三方面所述的实体识别模型,得到所述待识别实体数据对应的属性标签。
本申请实施例提供的技术方案,通过提取待识别数据所包括的待识别实体数据对应的特征向量,并将该特征向量和待识别实体数据一起输入实体识别模型,得到待识别实体数据对应的属性标签。该特征向量可以起到对待识别实体数据的特征进行补充的作用,从而可以增加待识别实体数据的特征的维度,使得所得到的待识别实体数据对应的属性标签的准确度更高,即有利于提高个性化命名的实体的识别准确率。
可选的,所述装置还包括:
待识别实体数据获取模块,用于在所述特征向量提取模块将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量之前,将所述待识别数据输入预先训练好的实体切分模型,得到所述待识别数据所包括的待识别实体数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
第五方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的实体识别模型训练方法,或者,第二方面所述的实体识别方法。
本申请实施例提供的技术方案,通过提取实体训练数据的训练特征向量,并将该训练特征向量和训练数据一起输入第一预设模型中,对第一预设模型进行训练。该训练特征向量可以起到对实体训练数据的特征进行补充的作用,从而可以增加实体训练数据的特征的维度,使得训练所得的实体识别模型的识别准确度更高,有利于提高个性化命名的实体的识别准确率。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的实体识别模型训练方法,或者,第二方面所述的实体识别方法。
本申请实施例提供的技术方案,通过提取实体训练数据的训练特征向量,并将该训练特征向量和训练数据一起输入第一预设模型中,对第一预设模型进行训练。该训练特征向量可以起到对实体训练数据的特征进行补充的作用,从而可以增加实体训练数据的特征的维度,使得训练所得的实体识别模型的识别准确度更高,有利于提高个性化命名的实体的识别准确率。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种实体识别模型训练方法、实体识别方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种实体识别模型训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括实体训练数据和所述实体训练数据对应的属性标签;
将所述实体训练数据输入预先训练好的特征向量提取模型中,得到训练特征向量,所述训练特征向量用于表征所述属性标签的相关特征;
将所述训练数据和所述训练特征向量输入第一预设模型中,对所述第一预设模型进行训练,直至从训练后的第一预设模型输出所述属性标签时,将所述训练后的第一预设模型确定为实体识别模型。
2.根据权利要求1所述的方法,其特征在于,训练所述特征向量提取模型的过程,包括:
获取目标实体词典,所述目标实体词典包括目标实体数据和所述目标实体数据对应的目标属性标签;
将所述目标实体数据和所述目标属性标签输入第二预设模型,对所述第二预设模型进行训练,直至从训练后的第二预设模型输出目标特征向量时,将所述训练后的第二预设模型确定为所述特征向量提取模型;
其中,所述目标特征向量用于表征所述目标属性标签的相关特征。
3.根据权利要求1或2所述的方法,其特征在于,所述训练数据还包括所述实体训练数据对应的边界标签,所述方法还包括:
获取所述实体训练数据和所述边界标签;
将所述实体训练数据和所述边界标签输入第三预设模型中,对所述第三预设模型进行训练,直至从训练后的第三预设模型输出所述边界标签时,将所述训练后的第三预设模型确定为实体切分模型。
4.一种实体识别方法,其特征在于,所述方法包括:
获取待识别数据,所述待识别数据包括待识别实体数据;
将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量,所述特征向量用于表征所述待识别实体数据对应的属性标签的相关特征;
将所述待识别实体数据和所述待识别实体数据对应的特征向量输入权利要求1至3任一项所述的实体识别模型,得到所述待识别实体数据对应的属性标签。
5.根据权利要求4所述的方法,其特征在于,在所述将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量之前,所述方法还包括:
将所述待识别数据输入预先训练好的实体切分模型,得到所述待识别数据所包括的待识别实体数据。
6.一种实体识别模型训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括实体训练数据和所述实体训练数据对应的属性标签;
训练特征向量获取模块,用于将所述实体训练数据输入预先训练好的特征向量提取模型中,得到训练特征向量,所述训练特征向量用于表征所述属性标签的相关特征;
实体识别模型训练模块,用于将所述训练数据和所述训练特征向量输入第一预设模型中,对所述第一预设模型进行训练,直至从训练后的第一预设模型输出所述属性标签时,将所述训练后的第一预设模型确定为实体识别模型。
7.根据权利要求6所述的装置,其特征在于,还包括特征向量提取模型训练模块;
所述特征向量提取模型训练模块,具体用于:
获取目标实体词典,所述目标实体词典包括目标实体数据和所述目标实体数据对应的目标属性标签;
将所述目标实体数据和所述目标属性标签输入第二预设模型,对所述第二预设模型进行训练,直至从训练后的第二预设模型输出目标特征向量时,将所述训练后的第二预设模型确定为所述特征向量提取模型;
其中,所述目标特征向量用于表征所述目标属性标签的相关特征。
8.根据权利要求6或7所述的装置,其特征在于,所述训练数据还包括所述实体训练数据对应的边界标签,所述装置还包括:
数据获取模块,用于获取所述实体训练数据和所述边界标签;
实体切分模型训练模块,用于将所述实体训练数据和所述边界标签输入第三预设模型中,对所述第三预设模型进行训练,直至从训练后的第三预设模型输出所述边界标签时,将所述训练后的第三预设模型确定为实体切分模型。
9.一种实体识别装置,其特征在于,所述装置包括:
待识别数据获取模块,用于获取待识别数据,所述待识别数据包括待识别实体数据;
特征向量提取模块,用于将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量,所述特征向量用于表征所述待识别实体数据对应的属性标签的相关特征;
属性标签获取模块,用于将所述待识别实体数据和所述待识别实体数据对应的特征向量输入权利要求1至3任一项所述的实体识别模型,得到所述待识别实体数据对应的属性标签。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
待识别实体数据获取模块,用于在所述特征向量提取模块将所述待识别实体数据输入预先训练好的特征向量提取模型中,得到所述待识别实体数据对应的特征向量之前,将所述待识别数据输入预先训练好的实体切分模型,得到所述待识别数据所包括的待识别实体数据。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述的实体识别模型训练方法,或者,4至5任一项所述的实体识别方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的实体识别模型训练方法,或者,4至5任一项所述的实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010531293.1A CN111859965A (zh) | 2020-06-11 | 2020-06-11 | 一种实体识别模型训练方法、实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010531293.1A CN111859965A (zh) | 2020-06-11 | 2020-06-11 | 一种实体识别模型训练方法、实体识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111859965A true CN111859965A (zh) | 2020-10-30 |
Family
ID=72986130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010531293.1A Withdrawn CN111859965A (zh) | 2020-06-11 | 2020-06-11 | 一种实体识别模型训练方法、实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859965A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN108491421A (zh) * | 2018-02-07 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种生成问答的方法、装置、设备和计算存储介质 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN110276066A (zh) * | 2018-03-16 | 2019-09-24 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN110705294A (zh) * | 2019-09-11 | 2020-01-17 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN111160032A (zh) * | 2019-12-17 | 2020-05-15 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-11 CN CN202010531293.1A patent/CN111859965A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN108491421A (zh) * | 2018-02-07 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种生成问答的方法、装置、设备和计算存储介质 |
CN110276066A (zh) * | 2018-03-16 | 2019-09-24 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN110705294A (zh) * | 2019-09-11 | 2020-01-17 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN111160032A (zh) * | 2019-12-17 | 2020-05-15 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN107705066B (zh) | 一种商品入库时信息录入方法及电子设备 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN106571140B (zh) | 一种基于语音语义的电器智能控制方法及*** | |
CN106599226B (zh) | 一种内容推荐方法及内容推荐*** | |
CN110168535B (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN107832287A (zh) | 一种标签识别方法及装置、存储介质、终端 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN107247751B (zh) | 基于lda主题模型的内容推荐方法 | |
CN104462064A (zh) | 一种移动终端信息通讯提示输入内容的方法和*** | |
KR20210106372A (ko) | 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及*** | |
CN113051380B (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111260428A (zh) | 一种商品推荐方法和装置 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
CN110807323A (zh) | 情绪向量的生成方法及装置 | |
CN117273003A (zh) | 文本数据处理方法、模型训练方法以及命名实体识别方法 | |
CN112364622A (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN110413882B (zh) | 信息推送方法、装置及设备 | |
CN110110143B (zh) | 一种视频分类方法及装置 | |
CN114974224A (zh) | 语音意图识别模型的训练方法、语音意图识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201030 |