CN109460434B - 数据提取模型建立方法及装置 - Google Patents

数据提取模型建立方法及装置 Download PDF

Info

Publication number
CN109460434B
CN109460434B CN201811251141.5A CN201811251141A CN109460434B CN 109460434 B CN109460434 B CN 109460434B CN 201811251141 A CN201811251141 A CN 201811251141A CN 109460434 B CN109460434 B CN 109460434B
Authority
CN
China
Prior art keywords
training
entity
sentence
sentences
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811251141.5A
Other languages
English (en)
Other versions
CN109460434A (zh
Inventor
岳永鹏
邹晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Knownsec Information Technology Co Ltd
Original Assignee
Beijing Knownsec Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Knownsec Information Technology Co Ltd filed Critical Beijing Knownsec Information Technology Co Ltd
Priority to CN201811251141.5A priority Critical patent/CN109460434B/zh
Publication of CN109460434A publication Critical patent/CN109460434A/zh
Application granted granted Critical
Publication of CN109460434B publication Critical patent/CN109460434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种数据提取模型建立方法及装置,方法包括:建立包括CRF和CNN的数据提取模型,其中,CRF用于识别实体,CNN用于确定实体对中的两个实体的关系;获取包括多条训练语句的训练样本集,并对该训练样本集中的训练语句进行预处理;通过预处理后的训练样本集对数据提取模型中的CRF和CNN进行并行训练。通过上述设计,可以同时实现实体的识别和实体对的关系提取。

Description

数据提取模型建立方法及装置
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种数据提取模型建立方法及装置。
背景技术
传统的命名实体识别以及关系提取模型通常采用先训练实体提取模型,再在该模型的基础上构建关系提取模型的方式实现,这种方式忽略了实体提取模型和关系提取模型之间的相关性,容易导致错误的传播。
发明内容
有鉴于此,本申请的目的在于提供一种数据提取模型建立方法及装置,以至少部分地改善上述问题。
第一方面,本申请实施例提供一种数据提取模型建立方法,所述方法包括:
建立数据提取模型,其中,所述数据提取模型包括用于识别实体的条件随机场CRF以及用于确定实体对中的两个实体的关系类别的CNN;
获取包括多条训练语句的训练样本集,并对所述训练样本集中的训练语句进行预处理;
通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN进行并行训练。
可选地,对所述训练样本集中的训练语句进行预处理,包括:
针对所述训练样本集中包括多个关系类别的训练语句,确定该训练语句包括的关系类别的数量,根据该数量复制该训练语句得到多份训练语句,以使所述多份训练语句与所述多个关系类别一一对应;
分析所述多条训练语句,针对所述多条训练语句中的每一关系类别,统计具有该关系类别的训练语句的数量,并根据统计结果对所述训练样本集中的训练语句进行调整,以均衡所述训练样本集中的训练语句的关系类别;
针对所述训练样本集中包括实体的训练语句,若该实体包括多个单词,则为该多个单词中的第一个单词添加第一标签,为该多个单词中的最后一个单词添加第二标签,为该第一个单词和该最后一个单词之间的单词添加第三标签;若该实体包括一个单词,则为该单词添加第四标签;
针对所述训练样本集中具有实体对的训练语句,将该实体对的关系标签处理为三元组,该三元组包括该实体对中的两个实体各自的位置信息以及相互之间的关系类别;
针对所述训练样本集中的每条训练语句,通过类别字典将该训练语句处理为整型标识形式的目标训练语句;
针对每一目标训练语句,对该目标训练语句进行扩充得到单词数量为第一数量的第一语句,以及字符数量为第二数量的第二语句。
可选地,通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN并行训练,包括:
从预处理对得到的多条目标训练语句中抽取预设数量条目标训练语句,针对抽取的每一目标训练语句,从预设词向量库中检索该目标训练语句对应的第一语句的词向量信息以将该第一语句转换成词向量;通过BiLSM网络对该目标训练语句对应的第二语句进行训练以将该第二语句转换成字符向量;将转换得到的词向量和字符向量拼接成混合特征向量;
通过BiLSM模型对所述混合特征向量进行编码,输出相应的编码信息;
将所述编码信息输入所述CRF,以识别该训练语句中的实体,并为识别出的实体添加实体标签,得到该训练语句的实体标注序列。
可选地,通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN并行训练,还包括:
针对该目标训练语句中的每一实体对,根据该实体对的三元组从所述编码信息中获取该实体对中的两个实体各自的特征向量作为第一特征向量,从该目标训练语句的混合特征向量中获取位于该实体对中的两个实体之间的语句特征向量作为第二特征向量;
从所述实体标注序列中获取该实体对中的两个实体的实体标签,对获取的实体标签进行随机向量化表示,得到第三特征向量;
对所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接,得到目标拼接向量;
将所述目标拼接向量输入所述CNN,得到该实体对中的两个实体的关系类别。
可选地,通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN并行训练,还包括:
当所述CRF的损失函数和所述CNN的损失函数的和收敛,或当训练的迭代次数达到预设的最大值时,停止训练。
第二方面,本申请实施例还提供一种数据提取模型建立装置,所述装置包括:
模型建立模块,用于建立数据提取模型,其中,所述数据提取模型包括用于识别实体的CRF以及用于确定实体对中的两个实体的关系类别的CNN;
预处理模块,用于获取包括多条训练语句的训练样本集,并对所述训练样本集中的训练语句进行预处理;
训练模块,用于通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN进行并行训练。
可选地,所述预处理模块包括:
关系处理子模块,用于针对所述训练样本集中包括多个关系类别的训练语句,确定该训练语句包括的关系类别的数量,根据该数量复制该训练语句得到多份训练语句,以使所述多份训练语句与所述多个关系类别一一对应;
均衡子模块,用于分析所述多条训练语句,针对所述多条训练语句中的每一关系类别,统计具有该关系类别的训练语句的数量,并根据统计结果对所述训练样本集中的训练语句进行调整,以均衡所述训练样本集中的训练语句的关系类别;
第一标签处理子模块,用于针对所述训练样本集中包括实体的训练语句,若该实体包括多个单词,则为该多个单词中的第一个单词添加第一标签,为该多个单词中的最后一个单词添加第二标签,为该第一个单词和该最后一个单词之间的单词添加第三标签;若该实体包括一个单词,则为该单词添加第四标签;
第二标签处理子模块,用于针对所述训练样本集中具有实体对的训练语句,将该实体对的关系标签处理为三元组,该三元组包括该实体对中的两个实体各自的位置信息以及相互之间的关系类别;
第一转换子模块,用于针对所述训练样本集中的每条训练语句,通过类别字典将该训练语句处理为整型标识形式的目标训练语句;
第二转换子模块,用于针对每一目标训练语句,对该目标训练语句进行扩充得到单词数量为第一数量的第一语句,以及字符数量为第二数量的第二语句。
可选地,所述训练模块包括:
第一拼接子模块,用于从预处理得到的多条目标训练语句中抽取预设数量条目标训练语句,针对抽取的每一目标训练语句,从预设词向量库中检索该目标训练语句对应的第一语句的词向量信息以将该第一语句转换成词向量;通过BiLSM网络对该目标训练语句对应的第二语句进行训练以将该第二语句转换成字符向量;将转换得到的词向量和字符向量拼接成混合特征向量;
编码子模块,用于将所述编码信息输入所述CRF,以识别该训练语句中的实体,并为识别出的实体添加实体标签,得到该训练语句的实体标注序列。
可选地,所述训练模块还包括:
特征获取子模块,用于针对该目标训练语句中的每一实体对,根据该实体对的三元组从所述编码信息中获取该实体对中的两个实体各自的特征向量作为第一特征向量,从该目标训练语句的混合特征向量中获取位于该实体对中的两个实体之间的语句特征向量作为第二特征向量;从所述实体标注序列中获取该实体对中的两个实体的实体标签,对获取的实体标签进行随机向量化表示,得到第三特征向量;
第二拼接子模块,用于对所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接,得到目标拼接向量;
关系提取子模块,用于将所述目标拼接向量输入所述CNN,得到该实体对中的两个实体的关系类别。
可选地,所述训练模块还包括:
停止子模块,用于当所述CRF的损失函数和所述CNN的损失函数的和收敛,或当训练的迭代次数达到预设的最大值时,停止训练。
相对于现有技术而言,本申请实施例具有以下有益效果:
本申请实施例提供的一种数据提取模型建立方法及装置,方法包括:建立包括CRF和CNN的数据提取模型,其中,CRF用于识别实体,CNN用于确定实体对中的两个实体的关系;获取包括多条训练语句的训练样本集,并对该训练样本集中的训练语句进行预处理;通过预处理后的训练样本集对数据提取模型中的CRF和CNN进行并行训练。通过上述设计,可以同时实现实体的识别和实体对的关系提取。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据处理设备的方框示意图;
图2为本申请实施例提供的一种数据提取模型建立方法的流程示意图;
图3为图2所示步骤S23的子步骤示意图;
图4为本申请实施例提供的一种数据提取模型建立装置的流程示意图;
图5为图4所示预处理模块的子模块示意图;
图6为图4所示训练模块的子模块示意图。
图标:100-数据处理设备;110-数据提取模型建立装置;111-模型建立模块;112-预处理模块;1121-关系处理子模块;1122-均衡子模块;1123-第一标签处理子模块;1124-第二标签处理子模块;1125-第一转换子模块;1126-第二转换子模块;113-训练模块;1131-第一拼接子模块;1132-编码子模块;1133-识别子模块;1134-特征获取子模块;1135-第二拼接子模块;1136-关系提取子模块;1137-停止子模块;120-处理器;130-机器可读存储介质。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了便于理解,下面对本申请实施例涉及的技术术语进行解释:
实体(Entity),是指文本中具有特定意义的名词,例如人名、地名、机构名、专有名词等。相应地,命名实体识别(NamedEntityRecognition,NER)是指识别文本中具有特定意义的实体。实体关系抽取(EntityRelationExtraction),是指识别文本中的实体与实体之间存在的特定关系。
如图1所示,是本申请实施例提供的一种数据处理设备100的方框示意图,所述数据处理设备100包括数据提取模型建立装置110、处理器120及机器可读存储介质130。
所述处理器120及机器可读存储介质130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据提取模型建立装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质130中或固化在所述数据处理设备100的操作***(operating system,OS)中的软件功能模块。所述处理器120用于执行所述机器可读存储介质130中的可执行模块,例如所述数据提取模型建立装置110中包括的软件功能模块及计算机程序等。
其中,所述机器可读存储介质130可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
应当理解,上文描述的仅为数据处理设备100的结构示例,数据处理设备100还可以包括比图1所示更多、更少或是完全不同的配置,例如,还可以包括通信单元。此外,图1示出的各组件可以以软件、硬件或其组合实现,本申请实施例对此不做限制。
请参照图2,图2为应用于图1所示的数据处理设备100的一种数据提取模型建立方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S21,建立数据提取模型,其中,所述数据提取模型包括用于识别实体的CRF(ConditionalRandomField,条件随机场)以及用于确定实体对中的两个实体的关系类别的CNN(Convolutional Neural Network,CNN)。
其中,所述数据提取模型是由所述CRF和所述CNN组成的混合模型,所述数据提取模型可以存储在数据处理设备100的机器可读存储介质130中。
步骤S22,获取包括多条训练语句的训练样本集,并对所述训练样本集中的训练语句进行预处理。
在本实施例中,所述训练样本集中的训练语句为带有实体标签和实体间关系标签的训练语句。在实施过程中,可以通过如下过程对所述训练样本集中的训练语句进行预处理,下面将进行详细描述。
第一、针对所述训练样本集中包括多个关系类别的训练语句,确定该训练语句包括的关系类别的数量,根据该数量复制该训练语句得到多份训练语句,以使所述多份训练语句与所述多个关系类别一一对应。
换言之,在本申请实施例中,将每条训练语句都分解为只包括一个关系类别的形式。例如,当某一训练语句中存在两个关系类别时,可以将该训练语句复制一次,得到两份该训练语句,一份训练语句对应一个关系类别。
第二、分析所述多条训练语句,针对所述多条训练语句中的每一关系类别,统计具有该关系类别的训练语句的数量,并根据统计结果对所述训练样本集中的训练语句进行调整,以均衡所述训练样本集中的训练语句的关系类别。
其中,对所述训练样本集中的训练语句所进行的调整可以是指平衡降采样,如此,可以使得训练样本集中的数据分布较为均衡。
第三、针对所述训练样本集中包括实体的训练语句,若该实体包括多个单词,则为该多个单词中的第一个单词添加第一标签,为该多个单词中的最后一个单词添加第二标签,为该第一个单词和该最后一个单词之间的单词添加第三标签;若该实体包括一个单词,则为该单词添加第四标签。
如果为非实体的单词,则可以将该单词标注为不同于上述的第一标签、第二标签、第三标签和第四标签的特定标签。
其中,针对所述训练样本集中的训练语句,若该训练语句包括实体,则可以采用序列标注BIOES的形式对该训练语句的实体标签。在此情况下,“B”可以充当所述第一标签,“E”可以充当所述第二标签,“I”可以充当所述第三标签,“S”可以充当所述第四标签,“O”可以充当所述特定标签。
第四、针对所述训练样本集中具有实体对的训练语句,将该实体对的关系标签处理为三元组,该三元组包括该实体对中的两个实体各自的位置信息以及相互之间的关系类别。
其中,两个实体各自的位置信息,是指两个实体各自在所在的训练语句中的位置信息。可选地,该三元组可以表示成如下形式:
[[e1_loc1,e1_loc2],[e2_loc1,e2_loc2],r],
其中,ei_locj表示的是第i个实体在训练语句中的位置,其中j=1表示实体的单词开始的位置,j=2表示实体的单词结束的位置,r表示关系类别。
第五、针对所述训练样本集中的每条训练语句,通过类别字典将该训练语句处理为整型标识形式的目标训练语句。
具体地,可以获取类别字典,并分别统计训练语句中单词(word)的数量,字符(char)的数量,实体类别(ner)的数量以及关系类别(r)的数量,并将统计结果转换为字典进行保存。其中,字典的key值为相应的单词,value值为相应的整型数字。
在此值得说明的是,当value=0时,对于word字典和char字典而言,标识未检索到相应的单词或字符;对于ner字典而言,表示该单词为非实体(即,标签为“O”);对于r字典而言,表示实体对间不存在关系。通过上述过程,可以将训练样本集中的文本信息全部转换为整型标识信息。
第六、针对每一目标训练语句,对该目标训练语句进行扩充得到单词数量为第一数量的第一语句,以及字符数量为第二数量的第二语句。
在本实施例中,可以对通过第五步转换得到的数据进行维度扩充,从而使每个目标训练语句的长度一致,以便于后续处理。在实施时,可以针对单词进行填充,以将多个目标训练语句扩充为单词数量一致的目标训练语句,例如均扩充为包括第一数量个单词的目标训练语句。其中,所述第一数量可以通过如下方式选取:确定多个目标训练语句中单词数量最多的目标训练语句所包括的单词的数量,可以将该数量或大于该数量的任意数量作为所述第一数量。
此外,还可以针对字符进行填充,以将多个目标训练语句扩充为字符数量一致的目标训练语句,例如均扩充为包括第二数量个字符的目标训练语句。其中,所述第二数量可以通过如下方式选取:确定多个目标训练语句中字符数量最多的目标训练语句所包括的字符的数量,可以将该数量或大于该数量的任意数量作为所述第二数量。
可选地,在本实施例中,可以采用value=0的字典来作为填充的单词或字符。
步骤S23,通过处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN进行并行训练。
通过对所述CRF和所述CNN并行训练,可以实现对CRF和CNN的全局优化,减少串联训练所造成的前后误差的累积效应,从而可以同时实现实体的识别和实体间关系的提取。
可选地,在本申请实施例中,步骤S23可以包括如图3所示的子步骤。
步骤S31,从预处理得到的多条目标训练语句中抽取预设数量条目标训练语句,针对抽取的每一目标训练语句,从预设词向量库中检索该目标训练语句对应的第一语句的词向量信息以将该第一语句转换成词向量;通过BiLSM(BidirectionalLongShort-TermMemory,双向长短期记忆神经网络)对该目标训练语句对应的第二语句转换成字符向量;将转换得到的词向量和字符向量拼接成混合特征向量。
其中,所述预设数量可以根据实际需求确定,通常设置为一特定变量(例如,batch_size)的值。所述预设词向量库可以是Glove词向量库,也可以是其他常用的词向量库,例如word2Vec,本实施例对此不做限制。
针对抽取的某一目标训练语句,该目标训练语句具有单词(word)标识形式和字符(char)标识形式两种表现形式的语句,在实施时,可以将该word标识形式的语句转换成词向量形式,将该char标识形式的语句转换成字符向量形式,再将得到的词向量和字符向量进行拼接得到混合特征向量,以基于该混合特征向量做后续处理。
在本实施例中,采用字符向量和词向量来共同描述训练语句的原始特征,相较于相关技术中仅采用词向量描述训练语句的原始特征,可以降低词向量库和分词工具的影响,以及降低当测试语句中含有较多训练时未登录的词或当测试语句的词语与训练语句中的分词结果不一致时对数据提取模型的精度所造成的影响。
步骤S32,通过BiLSM模型对所述混合特征向量进行编码,输出相应的编码信息。
在本实施例中,采用BiLSM模型构建一编码层,将步骤S31中得到的混合特征向量输入该编码层,从而得到相应的编码信息。其中,该编码信息是隐层信息。
步骤S33,将所述编码信息输入所述CRF,以识别该训练语句中实体,并为识别出的实体添加实体标签,得到该训练语句的实体标注序列。
在本实施例中,所述CRF具有一损失函数,例如为loss_entity。
可选地,请再次参照图3,所述步骤S23还可以包括如下步骤。
步骤S34,针对该目标训练语句中的每一实体对,根据该实体对的三元组从所述编码信息中获取该实体对中的两个实体各自的特征向量作为第一特征向量,从该目标训练语句的混合特征向量中获取位于该实体对中的两个实体之间的语句特征向量作为第二特征向量。
例如,假设该目标训练语句中某一实体对的三元组为[[e1_loc1,e1_loc2],[e2_loc1,e2_loc2],r],则,根据[e1_loc1,e1_loc2]和[e2_loc1,e2_loc2]可以确定该实体对中的两个实体(假设为实体1和实体2)在该目标训练语句中的位置,从而从该目标训练语句对应的编码信息中获取到实体1的特征向量和实体2的特征向量,得到两个第一特征向量。
在确定实体1和实体2的位置之后,可以确定实体1和实体2之间的子句,从而可以从该目标训练语句的混合特征向量中获取该子句的特征向量,得到上文描述的第二特征向量。
步骤S35,从所述实体标注序列中获取该实体对中的两个实体的实体标签,对获取的实体标签进行随机向量化表示,得到第三特征向量。
在本实施例中,所述CRF输出的实体标注序列中包括识别出的各个实体的实体标签。仍以该实体对包括实体1和实体2为例,对应地,可以从实体标注序列中获得实体1的实体标签1和实体2的实体标签2,并将实体标签1和实体标签2均随机向量化,得到两个随机向量(即,第三特征向量)。
步骤S36,对所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接,得到目标拼接向量。
在实施时,针对一目标训练语句,可以得到两个第一特征向量、一个第二特征向量以及两个第三特征向量,将它们全部拼接在一起即可得到所述目标拼接向量。
步骤S37,将所述目标拼接向量输入所述CNN,得到该实体对中的两个实体的关系类别。
在实施时,将步骤S36中得到的目标拼接向量作为所述CNN的输入,可以得到该实体对中的实体1和实体2的关系类别。其中,所述CNN具有一损失函数,例如表示为loss_relation。
在本实施例中,采用损失函数loss_entity和损失函数loss_relation的和作为整个数据提取模型的损失函数(假设为loss),则loss=loss_entity+loss-relation。可以采用自适应矩估计梯度下降算法(如,Adam)算法来根据loss调整数据提取模型的参数,以对数据提取模型进行优化。
可选地,步骤S23还可以包括以下步骤:
当所述CRF的损失函数和所述CNN的损失函数的和收敛,或当训练的迭代次数达到预设的最大值时,停止训练。
其中,所述CRF的损失函数和所述CNN的损失函数的和即为上文描述的loss函数。在实施过程中,当对抽取的预设数量个目标训练语句训练完成后,如果训练的迭代次数没有达到该最大值,或是loss没有收敛,则可以重新执行上文描述的步骤S31-步骤S37。
在训练完成后,可以将没有标签的测试语句先通过word字典和char字典转换为整型标识形式的目标测试语句。再对目标测试语句进行维度扩充,以得到word数量为第一数量的第一测试语句和char数量为第二数量的第二测试语句。通过词向量库将第一测试语句转换成词向量,通过BiLSM将第二测试语句转换成字符向量,拼接得到一混合测试向量。
将混合测试向量输入训练好的数据提取模型,该数据提取模型的CRF输出预测的实体标注序列,该数据提取模型每次从该实体标注序列中抽取出一实体对(包含两个实体),并进行实体关系提取特征的拼接,再将得到的拼接特征输入该数据提取模型的CNN,从而得到该实体对中的两个实体的关系类别。如此类推,直至预测出该实体标注序列中的所有实体对间的关系类别为止,再输出实体关系结果。
如图4所示,是本申请实施例提供的一种应用于图1示出的数据处理设备100的数据提取模型建立装置110的功能模块框图。所述数据提取模型建立装置110包括模型建立模块111、预处理模块112以及训练模块113。
所述模型建立模块111用于建立数据提取模型,其中,所述数据提取模型包括用于识别实体的条件随机场CRF以及用于确定实体对中的两个实体的关系类别的CNN。
在本实施例中,所述模型建立模块111可以用于执行图2所示的步骤S21,关于所述模型建立模块111的描述具体可以参考对步骤S21的详细描述。
所述预处理模块112用于获取包括多条训练语句的训练样本集,并对所述训练样本集中的训练语句进行预处理。
在本实施例中,所述预处理模块112可以用于执行图2所示的步骤S22,关于所述预处理模块112的描述具体可以参考对步骤S22的详细描述。
所述训练模块113用于通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN进行并行训练。
在本实施例中,所述训练模块113可以用于执行图2所示的步骤S23,关于所述训练模块113的描述具体可以参考对步骤S23的详细描述。
可选地,如图5所示,所述预处理模块112可以包括关系处理子模块1121、均衡子模块1122、第一标签处理子模块1123、第二标签处理子模块1124、第一转换子模块1125以及第二转换子模块1126。
其中,所述关系处理子模块1121用于针对所述训练样本集中包括多个关系类别的训练语句,确定该训练语句包括的关系类别的数量,根据该数量复制该训练语句得到多份训练语句,以使所述多份训练语句与所述多个关系类别一一对应。
所述均衡子模块1122用于分析所述多条训练语句,针对所述多条训练语句中的每一关系类别,统计具有该关系类别的训练语句的数量,并根据统计结果调整所述训练样本集中的训练语句,以均衡所述训练样本集中的训练语句的关系类别。
所述第一标签处理子模块1123用于针对所述训练样本集中包括实体的训练语句,若该实体包括多个单词,则为该多个单词中的第一个单词添加第一标签,为该多个单词中的最后一个单词添加第二标签,为该第一个单词和该最后一个单词之间的单词添加第三标签。
所述第二标签处理子模块1124用于针对所述训练样本集中具有实体对的训练语句,将该实体对的关系标签处理为三元组,该三元组包括该实体对中的两个实体各自的位置信息以及相互之间的关系类别。
所述第一转换子模块1125用于针对所述训练样本集中的每条训练语句,通过类别字典将该训练语句处理为整形标识形式的目标训练语句。
所述第二转换子模块1126用于针对每一目标训练语句,对该目标训练语句进行扩充得到单词数量为第一数量的第一语句,以及字符数量为第二数量的第二语句。
可选地,请参照图6,所述训练模块113可以包括第一拼接子模块1131、编码子模块1132以及识别子模块1133。
其中,所述第一拼接子模块1131用于针对每一目标训练语句,从预设词向量库中检索该目标训练语句对应的第一语句的词向量信息以将该第一语句转换成词向量;通过BiLSM网络对该目标训练语句对应的第二语句进行训练以将该第二语句转换成字符向量;将转换得到的词向量和字符向量拼接成混合特征向量。
所述编码子模块1132用于通过BiLSM模型对所述混合特征向量进行编码,输出相应的编码信息。
所述识别子模块1133用于将所述编码信息输入所述CRF,以识别该训练语句中实体,并为识别出的实体添加实体标签,得到该训练语句的实体标注序列。
可选地,请再次参照图6,所述训练模块113还可以包括特征获取子模块1134、第二拼接子模块1135和关系提取子模块1136。
其中,所述特征获取子模块1134用于针对该目标训练语句中的每一实体对,根据该实体对的三元组从所述编码信息中获取该实体对中的两个实体各自的特征向量作为第一特征向量,从该目标训练语句的混合特征向量中获取位于该实体对中的两个实体之间的语句特征向量作为第二特征向量;从所述实体标注序列中获取该实体对中的两个实体的实体标签,对获取的实体标签进行随机向量化表示,得到第三特征向量。
所述第二拼接子模块1135用于对所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接,得到目标拼接向量。
所述关系提取子模块1136将所述目标拼接向量输入所述CNN,得到该实体对中的两个实体的关系类别。
可选地,所述训练模块113还可以包括停止子模块1137。
其中,所述停止子模块1137用于当所述CRF损失函数和所述CNN损失函数的和收敛,或当训练的迭代次数达到预设的最大值时,停止训练。
综上所述,本申请实施例提供的一种数据提取模型建立方法及装置,方法包括:建立包括CRF和CNN的数据提取模型,其中,CRF用于识别实体,CNN用于确定实体对中的两个实体的关系;获取包括多条训练语句的训练样本集,并对该训练样本集中的训练语句进行预处理;通过预处理后的训练样本集对数据提取模型中的CRF和CNN进行并行训练。通过上述设计,可以同时实现实体的识别和实体对的关系提取。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (4)

1.一种数据提取模型建立方法,其特征在于,所述方法包括:
建立数据提取模型,其中,所述数据提取模型包括用于识别实体的条件随机场CRF以及用于确定实体对中的两个实体的关系类别的卷积神经网络CNN;
获取包括多条训练语句的训练样本集,并对所述训练样本集中的训练语句进行预处理;
通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN进行并行训练;
其中,对所述训练样本集中的训练语句进行预处理,包括:
针对所述训练样本集中包括多个关系类别的训练语句,确定该训练语句包括的关系类别的数量,根据该数量复制该训练语句得到多份训练语句,以使所述多份训练语句与所述多个关系类别一一对应;
分析所述多条训练语句,针对所述多条训练语句中的每一关系类别,统计具有该关系类别的训练语句的数量,并根据统计结果对所述训练样本集中的训练语句进行调整,以均衡所述训练样本集中的训练语句的关系类别;
针对所述训练样本集中包括实体的训练语句,若该实体包括多个单词,则为该多个单词中的第一个单词添加第一标签,为该多个单词中的最后一个单词添加第二标签,为该第一个单词和该最后一个单词之间的单词添加第三标签;若该实体包括一个单词,则为该单词添加第四标签;
针对所述训练样本集中具有实体对的训练语句,将该实体对的关系标签处理为三元组,该三元组包括该实体对中的两个实体各自的位置信息以及相互之间的关系类别;
针对所述训练样本集中的每条训练语句,通过类别字典将该训练语句处理为整型标识形式的目标训练语句;
针对每一目标训练语句,对该目标训练语句进行扩充得到单词数量为第一数量的第一语句,以及字符数量为第二数量的第二语句;
其中,通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN并行训练,包括:
从预处理得到的多条目标训练语句中抽取预设数量条目标训练语句,针对抽取的每一目标训练语句,从预设词向量库中检索该目标训练语句对应的第一语句的词向量信息以将该第一语句转换成词向量;通过BiLSM网络对该目标训练语句对应的第二语句进行训练以将该第二语句转换成字符向量;将转换得到的词向量和字符向量拼接成混合特征向量;
通过BiLSM模型对所述混合特征向量进行编码,输出相应的编码信息;
将所述编码信息输入所述CRF,以识别该训练语句中的实体,并为识别出的实体添加实体标签,得到该训练语句的实体标注序列;
通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN并行训练,还包括:
针对该目标训练语句中的每一实体对,根据该实体对的三元组从所述编码信息中获取该实体对中的两个实体各自的特征向量作为第一特征向量,从该目标训练语句的混合特征向量中获取位于该实体对中的两个实体之间的语句特征向量作为第二特征向量;
从所述实体标注序列中获取该实体对中的两个实体的实体标签,对获取的实体标签进行随机向量化表示,得到第三特征向量;
对所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接,得到目标拼接向量;
将所述目标拼接向量输入所述CNN,得到该实体对中的两个实体的关系类别。
2.根据权利要求1所述的方法,其特征在于,通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN并行训练,还包括:
当所述CRF的损失函数和所述CNN的损失函数的和收敛,或当训练的迭代次数达到预设的最大值时,停止训练。
3.一种数据提取模型建立装置,其特征在于,所述装置包括:
模型建立模块,用于建立数据提取模型,其中,所述数据提取模型包括用于识别实体的条件随机场CRF以及用于确定实体对中的两个实体的关系类别的CNN;
预处理模块,用于获取包括多条训练语句的训练样本集,并对所述训练样本集中的训练语句进行预处理;
训练模块,用于通过预处理后的所述训练样本集对所述数据提取模型中的所述CRF和所述CNN进行并行训练;
其中,所述预处理模块包括:
关系处理子模块,用于针对所述训练样本集中包括多个关系类别的训练语句,确定该训练语句包括的关系类别的数量,根据该数量复制该训练语句得到多份训练语句,以使所述多份训练语句与所述多个关系类别一一对应;
均衡子模块,用于分析所述多条训练语句,针对所述多条训练语句中的每一关系类别,统计具有该关系类别的训练语句的数量,并根据统计结果对所述训练样本集中的训练语句进行调整,以均衡所述训练样本集中的训练语句的关系类别;
第一标签处理子模块,用于针对所述训练样本集中包括实体的训练语句,若该实体包括多个单词,则为该多个单词中的第一个单词添加第一标签,为该多个单词中的最后一个单词添加第二标签,为该第一个单词和该最后一个单词之间的单词添加第三标签;若该实体包括一个单词,则为该单词添加第四标签;
第二标签处理子模块,用于针对所述训练样本集中具有实体对的训练语句,将该实体对的关系标签处理为三元组,该三元组包括该实体对中的两个实体各自的位置信息以及相互之间的关系类别;
第一转换子模块,用于针对所述训练样本集中的每条训练语句,通过类别字典将该训练语句处理为整型标识形式的目标训练语句;
第二转换子模块,用于针对每一目标训练语句,对该目标训练语句进行扩充得到单词数量为第一数量的第一语句,以及字符数量为第二数量的第二语句;
所述训练模块包括:
第一拼接子模块,用于从预处理得到的多条目标训练语句中抽取预设数量条目标训练语句,针对抽取的每一目标训练语句,从预设词向量库中检索该目标训练语句对应的第一语句的词向量信息以将该第一语句转换成词向量;通过BiLSM网络对该目标训练语句对应的第二语句进行训练以将该第二语句转换成字符向量;将转换得到的词向量和字符向量拼接成混合特征向量;
编码子模块,用于通过BiLSM模型对所述混合特征向量进行编码,输出相应的编码信息;
识别子模块,用于将所述编码信息输入所述CRF,以识别该训练语句中的实体,并为识别出的实体添加实体标签,得到该训练语句的实体标注序列;
所述训练模块还包括:
特征获取子模块,用于针对该目标训练语句中的每一实体对,根据该实体对的三元组从所述编码信息中获取该实体对中的两个实体各自的特征向量作为第一特征向量,从该目标训练语句的混合特征向量中获取位于该实体对中的两个实体之间的语句特征向量作为第二特征向量;从所述实体标注序列中获取该实体对中的两个实体的实体标签,对获取的实体标签进行随机向量化表示,得到第三特征向量;
第二拼接子模块,用于对所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接,得到目标拼接向量;
关系提取子模块,用于将所述目标拼接向量输入所述CNN,得到该实体对中的两个实体的关系类别。
4.根据权利要求3所述的装置,其特征在于,所述训练模块还包括:
停止子模块,用于当所述CRF的损失函数和所述CNN的损失函数的和收敛,或当训练的迭代次数达到预设的最大值时,停止训练。
CN201811251141.5A 2018-10-25 2018-10-25 数据提取模型建立方法及装置 Active CN109460434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811251141.5A CN109460434B (zh) 2018-10-25 2018-10-25 数据提取模型建立方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811251141.5A CN109460434B (zh) 2018-10-25 2018-10-25 数据提取模型建立方法及装置

Publications (2)

Publication Number Publication Date
CN109460434A CN109460434A (zh) 2019-03-12
CN109460434B true CN109460434B (zh) 2020-11-03

Family

ID=65608455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811251141.5A Active CN109460434B (zh) 2018-10-25 2018-10-25 数据提取模型建立方法及装置

Country Status (1)

Country Link
CN (1) CN109460434B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162792A (zh) * 2019-05-24 2019-08-23 国家电网有限公司 电网数据管理方法及装置
CN111027325B (zh) * 2019-12-09 2023-11-28 北京知道创宇信息技术股份有限公司 一种模型生成方法、实体识别方法、装置及电子设备
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质
CN111737383B (zh) * 2020-05-21 2021-11-23 百度在线网络技术(北京)有限公司 提取地理位置点空间关系的方法、训练提取模型的方法及装置
CN113342974B (zh) * 2021-06-10 2022-02-08 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9239828B2 (en) * 2013-12-05 2016-01-19 Microsoft Technology Licensing, Llc Recurrent conditional random fields
CN106203485A (zh) * 2016-07-01 2016-12-07 北京邮电大学 一种支持向量机的并行训练方法及装置
CN106383816B (zh) * 2016-09-26 2018-11-30 大连民族大学 基于深度学习的中文少数民族地区地名的识别方法
CN106557462A (zh) * 2016-11-02 2017-04-05 数库(上海)科技有限公司 命名实体识别方法和***
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN108304468B (zh) * 2017-12-27 2021-12-07 ***股份有限公司 一种文本分类方法以及文本分类装置
CN108536679B (zh) * 2018-04-13 2022-05-20 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme;Suncong Zheng 等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170107;第1227–1236页 *

Also Published As

Publication number Publication date
CN109460434A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN109460434B (zh) 数据提取模型建立方法及装置
CN111309915A (zh) 联合学习的自然语言训练方法、***、设备及存储介质
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN107291775B (zh) 错误样本的修复语料生成方法和装置
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN111611346A (zh) 一种基于动态语义编码和双注意力的文本匹配方法及装置
CN107451106A (zh) 文本纠正方法及装置、电子设备
CN116416480B (zh) 一种基于多模板提示学习的视觉分类方法和装置
CN111814482A (zh) 文本关键数据的提取方法、***和计算机设备
CN111695053A (zh) 序列标注方法、数据处理设备、可读存储介质
CN115329766B (zh) 一种基于动态词信息融合的命名实体识别方法
CN111126056B (zh) 一种识别触发词的方法及装置
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN113553847A (zh) 用于对地址文本进行解析的方法、装置、***和存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN115099233A (zh) 一种语义解析模型的构建方法、装置、电子设备及存储介质
CN112487813B (zh) 命名实体识别方法及***、电子设备及存储介质
CN112732862A (zh) 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN115129843A (zh) 一种对话文本摘要抽取方法和装置
CN112131363A (zh) 自动问答方法、装置、设备及存储介质
CN111626059A (zh) 一种信息处理方法及装置
CN116821691B (zh) 基于任务融合的训练情感识别模型的方法和装置
CN111476022B (zh) 实体特征的字符嵌入及混合lstm实体识别方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing

Applicant after: Beijing Zhichuangyu Information Technology Co., Ltd.

Address before: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing

Applicant before: Beijing Knows Chuangyu Information Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant