CN108920465A - 一种基于句法语义的农业领域关系抽取方法 - Google Patents
一种基于句法语义的农业领域关系抽取方法 Download PDFInfo
- Publication number
- CN108920465A CN108920465A CN201810766657.7A CN201810766657A CN108920465A CN 108920465 A CN108920465 A CN 108920465A CN 201810766657 A CN201810766657 A CN 201810766657A CN 108920465 A CN108920465 A CN 108920465A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- feature
- speech
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于句法语义的农业领域关系抽取方法,首先从农业专业网站爬取农业知识相关的文本。将收集得到的文本进行整理,去除掉无关文本,得到就是与农业领域相关的文本。结合事先确定的关系种类,对农业领域文本进行人工标注,构建农业领域的语料库。根据确定好的特征种类对文本进行特征抽取,构建特征向量。最后使用SVM对分类器进行建模,得到面向农业领域的关系分类模型。本发明有较好的抽取效果。
Description
技术领域
本发明涉及自然语言处理领域,特别是一种基于句法语义的农业领域关系抽取方法。
背景技术
“大数据”和“互联网+”正在高速发展,农业信息数据呈几何式增长,中国农业网站的数量异常庞大,发展的速度是非常迅猛的。如此大量的数字化农业知识让人们应接不暇,依靠搜索引擎得到的结果大多以非结构化的形式存在,用户还需要进一步理解和筛选。在这种背景下,自然语言处理领域的信息抽取作为一种帮助人们精简信息的技术正在被广泛应用。信息抽取的目的是从非结构化文本抽取结构化或者半结构化信息,并存储在在数据库中方便用户查询,以期进一步分析和利用。关系抽取作为信息抽取领域的重要研究课题,其主要的目的是抽取句子中已标记的实体对之间的语义关系,即在实体识别的基础上确定物结构文本中实体对间的关系类别,并形成结构化的数据以便于存储和取用,例如,“<e1>鳄梨</e1>原产于<e2>中美洲</e2>,为人所知已有好几个世纪了。”,面向农业领域的关系抽取***能自动识别实体“鳄梨”和“中美洲”的关系是原产地关系。关系抽取的技术突破了传统的必须经过人工阅读、理解的方式来获得语义关系的限制,取而代之的是语义关系的自动查找。从用户的需求层面看,关系抽取是以小粒度的文本句子中挖掘出用户所需要的语义关系信息,给用户提供更精细的服务。
关系提取在许多自然语言处理任务中起着重要的作用,如知识图谱,问答***等。到目前为止,之前的许多关系抽取方法直接作用于原始的词序列或者独热码,所以它经常受到缺乏语义信息的限制,这使得在进行分类时容易出现错误的判断。
发明内容
有鉴于此,本发明的目的是提出一种基于句法语义的农业领域关系抽取方法,对农业领域的文本有较好的抽取效果。
本发明采用以下方案实现:一种基于句法语义的农业领域关系抽取方法,具体包括以下步骤:
步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;
步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;
步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;
步骤S4:采用支持向量机SVM算法进行模型的训练;
步骤S5:利用训练后的模型进行关系抽取测试。
进一步地,步骤S1具体包括以下步骤:
步骤S11:对农业文本的关系定义为7类:别名、原产地、成分、子类、荣誉称号、价值和其他;
步骤S12:爬取农业类专业网站的词条,并对爬取到的词条做交集处理,根据词条爬取互动百科上相应的农业数据;
步骤S13:对原始文本进行统一编码处理并分句,对其中的标点符号统一处理为中文格式,最后对文本进行分词处理;
步骤S14:对分词处理后的文本标注出实体,对句子中出现的所有实体进行两两组合,构造得到实体对;
步骤S15:对步骤S14得到的实体对,判断其在文本中体现出来的关系并进行关系的标注,构造出三元组(Entity1,Entity2,Relation);
步骤S16:重复步骤S13至步骤S15,得到所有句子及句子中所有的三元组,即构造完农业领域的语料库。
进一步地,步骤S2中,各个特征的抽取方法为:
实体内容特征抽取:选取一个已经训练好的词向量,通过查找词嵌入将每个输入的词映射到稠密向量中;一个由n个词组成的实体表示为Entity={W1,W2,....,Wn};对于n大于1的实体,表示该实体不止由一个词组成;
词性特征抽取:一个由n个词组成的实体表示为Entity={W1,W2,....,Wn},一个实体为单个或多个词组成,选择最后一个词词性代表这个实体的词性;具体操作如下:调用jieba对句子做词性标注;对实体Entity进行分词,分词结果记为{W1,W2,....,Wn};选取实体分析后的最后一个词Wn,在词性标注的结果中查找Wn的词性作为词性特征;
上文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity左边的词wpre,查找词wpre对应的词嵌入作为上文内容;
上文词性特征抽取:查找所述词性特征抽取中词性标注的结果中上文的词性;
下文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity右边的词wpost,查找词wpost对应的词嵌入作为下文内容;
下文词性特征:查找所述词性特征抽取中词性标注的结果中下文的词性;
命名实体特征抽取:对句子使用命名实体进行标注,查找实体对应的命名实体类型,由于实体是由多个词组成{W1,W2,....,Wn},取最后一个词Wn的实体类型代表整个实体的类型;
父节点内容特征:对句子进行依存句法分析,在分析结果中查找实体{W1,W2,....,Wn}中Wn对应的父节点wsup,查找词wsup对应的词嵌入作为父节点内容。
进一步地,步骤S3具体包括以下步骤:
步骤S31:构造一个Python上的list用来存储步骤S2抽取出来的特征;
步骤S32:按顺序存储实体内容特征对应的60维词向量,词性特征用一维来表示,上文词内容特征同样为对应的60维向量,上文词性特征一维,下文词内容特征同样为60维的词嵌入,下文词性特征一维,命名实体特征一维,父节点内容特征60维词嵌入;以上为一个实体的全部特征向量;
步骤S33:对三元组(Entity1,Entity2,Relation)中的Entity1、Entity2都进行步骤S32,并构成(Entity1Vec,Entity2Vec,Relation)形式的Vec_list;
步骤S34:将步骤S33得到的Vec_list使用Python中的标准模块pickle实现数据的序列化,并将序列化后的对象obj以二进制的形式写入文件Vec。
进一步地,步骤S4具体包括以下步骤:
步骤S41:读取步骤S34中存储的文件Vec,利用pickle.load()函数加载文件内容,将序列化的对象obj从文件中读取出来;
步骤S42:利用Python的标准包numpy对向量进行矩阵操作;
步骤S43:对语料库进行随机划分,令训练集和测试集的比例为8:2;
步骤S44:选择linear作为核函数,将惩罚因子设置为0.05;
步骤S45:对模型进行训练和测试;
步骤S46:保存训练后的模型。
与现有技术相比,本发明有以下有益效果:采用本发明方法训练出来的分类器,在测试集上的F1值达到了百分之99,对农业领域上的文本能够准确地进行关系抽取。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的语料库构建流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于句法语义的农业领域关系抽取方法,具体包括以下步骤:
步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;
步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;
步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;
步骤S4:采用支持向量机SVM算法进行模型的训练;
步骤S5:利用训练后的模型进行关系抽取测试。
在本实施例中,如图2所示,步骤S1具体包括以下步骤:
步骤S11:对农业文本的关系定义为7类:别名、原产地、成分、子类、荣誉称号、价值和其他;
步骤S12:爬取农业类专业网站(例如中国农业信息等专业网站)的词条,并对爬取到的词条做交集处理,根据词条爬取互动百科上相应的农业数据;
步骤S13:搜集得到的文本都是无结构的自然语言形式的自由文本,其中不乏长句,并列句等。对原始文本进行统一编码处理并分句,对其中的标点符号统一处理为中文格式,最后对文本进行分词处理;
步骤S14:对分词处理后的文本标注出实体,对句子中出现的所有实体进行两两组合,构造得到实体对;
步骤S15:对步骤S14得到的实体对,判断其在文本中体现出来的关系并进行关系的标注,构造出三元组(Entity1,Entity2,Relation);
步骤S16:重复步骤S13至步骤S15,得到所有句子及句子中所有的三元组,即构造完农业领域的语料库。
语料库是本实施例中最为基础和重要部分,语料的质量对识别效果具有很大的影响。本实施例从一些正规的网站中获取与农业信息有关的信息,经过分析和整理之后进行标注。
步骤S2中,本实施例采用基于特征向量的机器学习方法来进行关系抽取。机器学习算法采用特征向量作为处理对象,所以需要将实验语料处理成特征向量的形式,然后才能用于各种机器学习算法。具体到关系抽取上来说,如何获取有效表达实体关系实例的特征是关键。本实施例采用的特征包括语义、词性、句法分析结果等,将语言信息和文本的结构信息充分结合起来。
具体的,步骤S2中,各个特征的抽取方法为:
实体内容特征抽取:选取一个已经训练好的词向量,通过查找词嵌入将每个输入的词映射到稠密向量中;一个由n个词组成的实体表示为Entity={W1,W2,....,Wn};对于n大于1的实体,表示该实体不止由一个词组成;
词性特征抽取:一个由n个词组成的实体表示为Entity={W1,W2,....,Wn},一个实体为单个或多个词组成,选择最后一个词词性代表这个实体的词性;具体操作如下:调用jieba对句子做词性标注;对实体Entity进行分词,分词结果记为{W1,W2,....,Wn};选取实体分析后的最后一个词Wn,在词性标注的结果中查找Wn的词性作为词性特征;
上文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity左边的词wpre,查找词wpre对应的词嵌入作为上文内容;
上文词性特征抽取:查找所述词性特征抽取中词性标注的结果中上文的词性;
下文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity右边的词wpost,查找词wpost对应的词嵌入作为下文内容;
下文词性特征:查找所述词性特征抽取中词性标注的结果中下文的词性;
命名实体特征抽取:对句子使用命名实体进行标注,查找实体对应的命名实体类型,由于实体是由多个词组成{W1,W2,....,Wn},取最后一个词Wn的实体类型代表整个实体的类型;
父节点内容特征:调用stanfordcore nlp工具中dependency_parse对句子进行依存句法分析,在分析结果中查找实体{W1,W2,....,Wn}中Wn对应的父节点wsup,查找词wsup对应的词嵌入作为父节点内容。
本实施例采用基于特征向量的机器学习方法来进行关系抽取。机器学习算法采用特征向量作为处理对象,所以需要将实验语料处理成特征向量的形式,然后才能用于各种机器学习算法。于是这部分工作就是将上述步骤中抽取得到的特征将其数字化,构造特征向量。
具体的,步骤S3具体包括以下步骤:
步骤S31:构造一个Python上的list用来存储步骤S2抽取出来的特征;
步骤S32:按顺序存储实体内容特征对应的60维词向量,词性特征用一维来表示,上文词内容特征同样为对应的60维向量,上文词性特征一维,下文词内容特征同样为60维的词嵌入,下文词性特征一维,命名实体特征一维,父节点内容特征60维词嵌入;以上为一个实体的全部特征向量;
步骤S33:对三元组(Entity1,Entity2,Relation)中的Entity1、Entity2都进行步骤S32,并构成(Entity1Vec,Entity2Vec,Relation)形式的Vec_list;
步骤S34:将步骤S33得到的Vec_list使用Python中的标准模块pickle实现数据的序列化,并将序列化后的对象obj以二进制的形式写入文件Vec。
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:读取步骤S34中存储的文件Vec,利用pickle.load()函数加载文件内容,将序列化的对象obj从文件中读取出来;
步骤S42:利用Python的标准包numpy对向量进行矩阵操作;令vec=np.array(1);
步骤S43:对语料库进行随机划分,令训练集和测试集的比例为8:2:train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.2);
步骤S44:选择linear作为核函数,将惩罚因子设置为0.05;
步骤S45:对模型进行训练和测试;
步骤S46:保存训练后的模型,joblib.dump(clf,"train_model.m")。
本实施例通过在对农业文本的收集、筛选和人工标注的基础上提出了在农业领域的关系数据集,下表给出了本实施例模型的测试全部结果,由下表可以看出,本实施例训练出来的模型,在测试集上的F1值达到了百分之99,对农业领域的文本有较好的关系抽取效果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种基于句法语义的农业领域关系抽取方法,其特征在于:包括以下步骤:
步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;
步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;
步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;
步骤S4:采用支持向量机SVM算法进行模型的训练;
步骤S5:利用训练后的模型进行关系抽取测试。
2.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S1具体包括以下步骤:
步骤S11:对农业文本的关系定义为7类:别名、原产地、成分、子类、荣誉称号、价值和其他;
步骤S12:爬取农业类专业网站的词条,并对爬取到的词条做交集处理,根据词条爬取互动百科上相应的农业数据;
步骤S13:对原始文本进行统一编码处理并分句,对其中的标点符号统一处理为中文格式,最后对文本进行分词处理;
步骤S14:对分词处理后的文本标注出实体,对句子中出现的所有实体进行两两组合,构造得到实体对;
步骤S15:对步骤S14得到的实体对,判断其在文本中体现出来的关系并进行关系的标注,构造出三元组(Entity1,Entity2,Relation);
步骤S16:重复步骤S13至步骤S15,得到所有句子及句子中所有的三元组,即构造完农业领域的语料库。
3.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S2中,各个特征的抽取方法为:
实体内容特征抽取:选取一个已经训练好的词向量,通过查找词嵌入将每个输入的词映射到稠密向量中;一个由n个词组成的实体表示为Entity={W1,W2,....,Wn};对于n大于1的实体,表示该实体不止由一个词组成;
词性特征抽取:一个由n个词组成的实体表示为Entity={W1,W2,....,Wn},一个实体为单个或多个词组成,选择最后一个词词性代表这个实体的词性;具体操作如下:调用jieba对句子做词性标注;对实体Entity进行分词,分词结果记为{W1,W2,....,Wn};选取实体分析后的最后一个词Wn,在词性标注的结果中查找Wn的词性作为词性特征;
上文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity左边的词wpre,查找词wpre对应的词嵌入作为上文内容;
上文词性特征抽取:查找所述词性特征抽取中词性标注的结果中上文的词性;
下文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity右边的词wpost,查找词wpost对应的词嵌入作为下文内容;
下文词性特征:查找所述词性特征抽取中词性标注的结果中下文的词性;
命名实体特征抽取:对句子使用命名实体进行标注,查找实体对应的命名实体类型,由于实体是由多个词组成{W1,W2,....,Wn},取最后一个词Wn的实体类型代表整个实体的类型;
父节点内容特征:对句子进行依存句法分析,在分析结果中查找实体{W1,W2,....,Wn}中Wn对应的父节点wsup,查找词wsup对应的词嵌入作为父节点内容。
4.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S3具体包括以下步骤:
步骤S31:构造一个Python上的list用来存储步骤S2抽取出来的特征;
步骤S32:按顺序存储实体内容特征对应的60维词向量,词性特征用一维来表示,上文词内容特征同样为对应的60维向量,上文词性特征一维,下文词内容特征同样为60维的词嵌入,下文词性特征一维,命名实体特征一维,父节点内容特征60维词嵌入;以上为一个实体的全部特征向量;
步骤S33:对三元组(Entity1,Entity2,Relation)中的Entity1、Entity2都进行步骤S32,并构成(Entity1Vec,Entity2Vec,Relation)形式的Vec_list;
步骤S34:将步骤S33得到的Vec_list使用Python中的标准模块pickle实现数据的序列化,并将序列化后的对象obj以二进制的形式写入文件Vec。
5.根据权利要求4所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S4具体包括以下步骤:
步骤S41:读取步骤S34中存储的文件Vec,利用pickle.load()函数加载文件内容,将序列化的对象obj从文件中读取出来;
步骤S42:利用Python的标准包numpy对向量进行矩阵操作;
步骤S43:对语料库进行随机划分,令训练集和测试集的比例为8:2;
步骤S44:选择linear作为核函数,将惩罚因子设置为0.05;
步骤S45:对模型进行训练和测试;
步骤S46:保存训练后的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766657.7A CN108920465A (zh) | 2018-07-13 | 2018-07-13 | 一种基于句法语义的农业领域关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766657.7A CN108920465A (zh) | 2018-07-13 | 2018-07-13 | 一种基于句法语义的农业领域关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108920465A true CN108920465A (zh) | 2018-11-30 |
Family
ID=64412884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810766657.7A Pending CN108920465A (zh) | 2018-07-13 | 2018-07-13 | 一种基于句法语义的农业领域关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920465A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710928A (zh) * | 2018-12-17 | 2019-05-03 | 新华三大数据技术有限公司 | 非结构化文本的实体关系抽取方法及装置 |
CN110223737A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 一种中药化学成分命名实体识别方法与装置 |
CN110321419A (zh) * | 2019-06-28 | 2019-10-11 | 神思电子技术股份有限公司 | 一种融合深度表示与交互模型的问答匹配方法 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111563117A (zh) * | 2020-07-14 | 2020-08-21 | 北京每日优鲜电子商务有限公司 | 结构化信息显示方法、装置、电子设备和计算机可读介质 |
CN111680127A (zh) * | 2020-06-11 | 2020-09-18 | 暨南大学 | 一种面向年报的公司名称和关系抽取方法 |
CN113220827A (zh) * | 2021-04-23 | 2021-08-06 | 哈尔滨工业大学 | 一种农业语料库的构建方法及装置 |
CN113378513A (zh) * | 2021-06-11 | 2021-09-10 | 电子科技大学 | 一种面向领域关系抽取的标注语料生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
US9858261B2 (en) * | 2014-06-23 | 2018-01-02 | International Business Machines Corporation | Relation extraction using manifold models |
-
2018
- 2018-07-13 CN CN201810766657.7A patent/CN108920465A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858261B2 (en) * | 2014-06-23 | 2018-01-02 | International Business Machines Corporation | Relation extraction using manifold models |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
Non-Patent Citations (2)
Title |
---|
毛小丽: "基于特征向量的实体间语义关系抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄鑫: "基于特征向量的中文实体间语义关系抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710928A (zh) * | 2018-12-17 | 2019-05-03 | 新华三大数据技术有限公司 | 非结构化文本的实体关系抽取方法及装置 |
CN109710928B (zh) * | 2018-12-17 | 2022-08-19 | 新华三大数据技术有限公司 | 非结构化文本的实体关系抽取方法及装置 |
CN110223737A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 一种中药化学成分命名实体识别方法与装置 |
CN110321419A (zh) * | 2019-06-28 | 2019-10-11 | 神思电子技术股份有限公司 | 一种融合深度表示与交互模型的问答匹配方法 |
CN110321419B (zh) * | 2019-06-28 | 2021-06-15 | 神思电子技术股份有限公司 | 一种融合深度表示与交互模型的问答匹配方法 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN111680127A (zh) * | 2020-06-11 | 2020-09-18 | 暨南大学 | 一种面向年报的公司名称和关系抽取方法 |
CN111563117A (zh) * | 2020-07-14 | 2020-08-21 | 北京每日优鲜电子商务有限公司 | 结构化信息显示方法、装置、电子设备和计算机可读介质 |
CN113220827A (zh) * | 2021-04-23 | 2021-08-06 | 哈尔滨工业大学 | 一种农业语料库的构建方法及装置 |
CN113378513A (zh) * | 2021-06-11 | 2021-09-10 | 电子科技大学 | 一种面向领域关系抽取的标注语料生成方法 |
CN113378513B (zh) * | 2021-06-11 | 2022-12-23 | 电子科技大学 | 一种面向领域关系抽取的标注语料生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920465A (zh) | 一种基于句法语义的农业领域关系抽取方法 | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及*** | |
CN109635171B (zh) | 一种新闻节目智能标签的融合推理***和方法 | |
Kuznetsova et al. | Treetalk: Composition and compression of trees for image descriptions | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
Lerman et al. | Using the structure of web sites for automatic segmentation of tables | |
CN111694965B (zh) | 一种基于多模态知识图谱的图像场景检索***及方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN111353030A (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN104809176A (zh) | 藏语实体关系抽取方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索*** | |
CN104021198B (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
TW202001620A (zh) | 自動化網站資料蒐集方法 | |
CN112417100A (zh) | 辽代历史文化领域知识图谱及其智能问答***的构建方法 | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及*** | |
CN104899340B (zh) | 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
Agirre et al. | Matching Cultural Heritage items to Wikipedia. | |
CN106777080B (zh) | 短摘要生成方法、数据库建立方法及人机对话方法 | |
CN113268606A (zh) | 知识图谱构建的方法和装置 | |
CN113673943A (zh) | 一种基于履历大数据的人员任免辅助决策方法及*** | |
CN112015908A (zh) | 知识图谱的构建方法及***、查询方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181130 |