CN108763192B - 用于文本处理的实体关系抽取方法及装置 - Google Patents

用于文本处理的实体关系抽取方法及装置 Download PDF

Info

Publication number
CN108763192B
CN108763192B CN201810348221.6A CN201810348221A CN108763192B CN 108763192 B CN108763192 B CN 108763192B CN 201810348221 A CN201810348221 A CN 201810348221A CN 108763192 B CN108763192 B CN 108763192B
Authority
CN
China
Prior art keywords
similarity
context
entity
text
preset threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810348221.6A
Other languages
English (en)
Other versions
CN108763192A (zh
Inventor
朱***
高翔
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN201810348221.6A priority Critical patent/CN108763192B/zh
Publication of CN108763192A publication Critical patent/CN108763192A/zh
Application granted granted Critical
Publication of CN108763192B publication Critical patent/CN108763192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种用于文本处理的实体关系抽取方法及装置。该方法包括:输入待处理文本;识别所述待处理文本中的实体,其中,所述待处理文本包括多个实体;根据预设样例对所述实体筛选得到输入实例的上下文特征;通过所述上下文特征计算所述输入实例与种子样例库中的各个种子样例之间的上下文相似度;判断所述上下文相似度是否大于第一预设阈值;如果所述相似度大于所述第一预设阈值,则统计所述相似度大于所述预设阈值的种子样例的个数;判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值;如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值,则将所述输入实例作为所述文本处理得到的实体关系实例。本申请解决了规则方法的高准确低召回的技术问题。

Description

用于文本处理的实体关系抽取方法及装置
技术领域
本申请涉及文本处理技术领域,具体而言,涉及一种用于文本处理的实体关系抽取方法及装置。
背景技术
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据也呈现出***式增长。互联网上的文本数据中包含了丰富的信息,对于构建知识库以及知识图谱有非常重要的作用;但是人工进行相关知识提取工作量极其巨大,如果能利用计算机自动提取出有用的信息,那将具有非常重要的意义。然而互联网上的文本数据几乎都是以自然语言形式存在的无结构数据,计算机无法直接进行处理。
为了解决这个问题,信息抽取技术应运而生,信息抽取技术从无结构化的文本数据中抽取出结构化数据,包括实体、实体间关系、事件等。关系抽取是信息抽取领域中一项关键技术,通常通过命名实体识别技术识别出文本中的实体,再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括:基于规则的方法,无监督方法,有监督方法和半监督方法。基于规则的方法存在明显的不足,该方法需要人工编写大量的规则,工作量非常大,不易维护,不能很好的扩展到其他领域。无监督方法将文本进行聚类时,往往效果不是很好,存在召回率和准备率都不高的问题,而且需要很多的人工干预。
基于传统的机器学习算法进行关系分类时,需要人工标注大量训练语料,工作量极大,而且无法解决领域移植性及处理新关系的问题。而半监督方法主要是利用少量的标注实例作为初始种子集合,然后通过不断的迭代,从非结构化数据中抽取相似实例扩展种子集合,针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于文本处理的实体关系抽取方法及装置,以解决规则方法的高准确低召回问题。
为了实现上述目的,根据本申请的一个方面,提供了一种用于文本处理的实体关系抽取方法。
根据本申请的用于文本处理的实体关系抽取方法包括:输入待处理文本;识别所述待处理文本中的实体,其中,所述待处理文本包括多个实体;根据预设样例对所述实体筛选得到输入实例的上下文特征;通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度;判断所述上下文相似度是否大于预设阈值;如果所述相似度大于所述第一预设阈值,则统计所述相似度大于所述预设阈值的种子样例的个数;判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值;如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值,则将所述输入实例作为所述文本处理得到的实体关系实例。
进一步的,所述实体抽取方法开始之前包括:训练词向量模型,具体包括:使用gensim工具训练背景语料得到所述词向量模型。
进一步的,识别所述待处理文本中的实体包括:采用命名实体识别方法获取所述待处理文本中的实体。进一步的,根据预设样例对所述实体筛选得到输入实例的上下文特征包括:对所述待处理文本进行分词;对分词结果进行词性标注;过滤词性标注结果得到待选词;利用上下文窗口获取所述待选词中的目标词;根据所述目标词构成输入实例的上下文特征。
进一步的,通过所述上下文特征计算所述输入实例与种子样例之间的上下文相似度包括:将所述上下文特征代入预设公式得出所述上下文相似度;所述预设公式为:
Figure BDA0001632452870000031
其中,similarity表示所述上下文相似度。
为了实现上述目的,根据本申请的另一方面,提供了一种用于文本处理的实体关系抽取装置。
根据本申请的用于文本处理的实体关系抽取装置包括:输入模块,输入待处理文本;识别模块,识别所述待处理文本中的实体,其中,所述待处理文本包括多个实体,构建输入实例(实体,实体2,输入文本);筛选模块,根据预设样例对所述实体筛选得到输入实例的上下文特征;计算模块,通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度;第一判断模块,判断所述上下文相似度是否大于第一预设阈值;统计模块,如果所述相似度大于所述预设阈值,则统计所述相似度大于所述第一预设阈值的种子样例个数;第二判断模块,用于判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值;结束模块,如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值,则将所述输入实例作为所述文本处理得到的实体关系实例。
进一步的,所述实体关系抽取装置还包括:训练模块,用于训练词向量模型,具体包括:使用gensim工具训练背景语料得到所述词向量模型。
进一步的,所述识别模块包括:实体获取模块,采用命名实体识别方法获取所述待处理文本中的实体。
进一步的,所述筛选模块包括:分词模块,用于对所述待处理文本进行分词;标注模块,对分词结果进行词性标注;过滤模块,过滤词性标注结果得到待选词;目标词获取模块,用于利用上下文窗口获取所述待选词中的目标词;上下文特征生成模块,用于获取所述目标词构成输入实例的上下文特征。
进一步的,所述计算模块包括:代入模块,用于将所述上下文特征代入预设公式得出所述上下文相似度。
在本申请实施例中,采用词向量模型与上下文相似度结合的方式,通过计算输入实例与种子样例之间的相似度,与预设阈值进行比较,得到符合预期目标的样例,达到了实体关系抽取的目的,从而实现了提升关系抽取的召回率的技术效果,进而解决了规则方法的高准确低召回的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的用于文本处理的实体关系抽取方法示意图;
图2是根据本申请实施例的生成上下文特征示意图;
图3是根据本申请实施例的用于文本处理的实体关系抽取装置示意图;
图4是根据本申请实施例的筛选模块示意图;以及
图5是根据本申请实施例的方法操作流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本申请涉及一种用于文本处理的实体关系抽取方法,该方法包括如下的步骤S101至步骤S106:
步骤S101,输入待处理文本;
待处理文本可以是包含了:需要从无结构化的文本数据中抽取出的结构化数据,待处理文本中包括但不限于,实体、实体间关系、事件等。
步骤S102,识别所述待处理文本中的实体,其中,所述待处理文本包括多个实体;
识别待处理文本中的实体的方式是采用命名实体识别方法获取所述待处理文本中的实体。
步骤S103,根据预设样例对所述实体筛选得到输入实例的上下文特征;
作为本实施例的优选,如图2所示,其中步骤S103,根据预设样例对所述实体筛选得到输入实例的上下文特征包括以下步骤S201至步骤S205:
步骤S201,对所述待处理文本进行分词;
步骤S202,对分词结果进行词性标注;
优选的,将分词结果标注为:名词、动词、副词等。
步骤S203,过滤词性标注结果得到待选词;
优选的,只保留所述待选词中的动词和名词。
步骤S204,利用上下文窗口获取所述待选词中的目标词;
优选的,根据上下文窗口(a,b,c,d)得到上下文[left1,right1,left2,right2],其中left1、right1、left2、right2分别为实体1左边a个词、右边b个词、实体2左边c个词、右边d个词。若实际词数小于窗口大小,则取全部词。
步骤S205,根据所述目标词构成输入实例上下文特征。
步骤S104,通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度;
优选的,将所述上下文特征代入预设公式得出所述上下文相似度;所述预设公式为:
Figure BDA0001632452870000061
其中,similarity表示所述上下文相似度。
步骤S105,判断所述上下文相似度是否大于第一预设阈值;
步骤S106,如果所述相似度大于所述第一预设阈值,则统计所述相似度大于所述预设阈值的种子样例的个数;
步骤S107,判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值;
步骤S108,如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值,则将所述输入实例作为所述文本处理得到的实体关系实例。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的装置,如图3所示,该装置包括:输入模块10,输入待处理文本;识别模块20,识别所述待处理文本中的实体,其中,所述待处理文本包括多个实体;筛选模块30,根据预设样例对所述实体筛选得到输入实例的上下文特征;计算模块40,通过所述上下文特征计算所述输入实例与各个种子实例之间的上下文相似度;第一判断模块50,判断所述上下文相似度是否大于第一预设阈值;统计模块60,如果所述相似度大于所述预设阈值,则统计所述相似度大于所述第一预设阈值的种子样例个数;第二判断模块70,用于判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值;结束模块80,如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值,则将所述输入实例例作为所述文本处理得到的实体关系实例。
如图4所示,筛选模块30包括:分词模块301,用于对所述待处理文本进行分词;标注模块302,对分词结果进行词性标注;过滤模块303,过滤词性标注结果得到待选词;目标词获取模块304,用于利用上下文窗口获取所述待选词中的目标词;上下文特征生成模块305,用于获取所述目标词构成输入实例的上下文特征。
如图5所示,本发明的方法操作流程图具体如下:
种子样例生成,根据领域知识编写一些规则模板,识别指定实体关系。规则模板尽量严格,确保高准确率。另外,规则模板应尽可能多的覆盖关系的表达方式。在规则识别出候选种子样例后,通过人工过滤,将错误的样例去除,这样得到最终的种子样例。
训练词向量模型,词向量方法是Hinton在1986年提出的,将单词用一个低维实数向量表示,例如[0.179,-0.157,-0.117,0.909,-0.532,...]这种形式,也就是词向量。而且,在词向量空间中,向量夹角小的两个点,它们所代表的单词在语义上相似或者相关。较好的训练算法得到的词向量,能够较好地反应出词语之间语义上的相似度。
词X和词Y的相似性similarityX,Y用余弦距离来计算:
Figure BDA0001632452870000071
本实施例使用gensim工具训练词向量。使用的语料是全领域新闻语料。向量维度为128维。
样例上下文特征生成,样例是一个三元组(实体1,实体2,文本内容)。对于给定的样例,我们对文本内容进行分词、词性标注、命名实体识别,得到如下形式的结果[w0/tag0,w1/tag1,…,wi-1/tagi-1,实体1,wi+1/tagi+1,…,wj-1/tagj-1,实体2,wj+1/tagj+1,…,wk/tagk]。按词性过滤,只保留动词、名词。根据上下文窗口(a,b,c,d)得到上下文[left1,right1,left2,right2],其中left1、right1、left2、right2分别为实体1左边a个词、右边b个词、实体2左边c个词、右边d个词。若实际词数小于窗口大小,则取全部词。最后根据训练好的词向量模型,得到上下文特征的向量表示[[vj-a,…,vj-1],[vj+1,…,vj+b],[vk-c,…,vk-1],[vk+1,…,vk+d]]。
样例相似度计算,对候选样例生成上下文特征,并依次计算与各个种子样例的相似度。对于输入的候选样例特征[[wj-a,…,wj-1],[wj+1,…,wj+b],[wk-c,…,wk-1],[wk+1,…,wk+d]]和种子样例特征[[vj-a,…,vj-1],[vj+1,…,vj+b],[vk-c,…,vk-1],[vk+1,…,vk+d]],权重向量[[f1,…,fa],[fa+1,…,fa+b],[fa+b+1,…,fa+b+c],[fa+b+c+1,…,fa+b+c+d]],相似度计算公式如下
Figure BDA0001632452870000081
这里两个特征向量窗口的实际长度不一定相同,计算分子时取公共位置,计算分母时取种子样例特征向量窗口的实际大小。
需要指出的是,这里的相似度并不满足对称性,是候选样例相对于种子样例的相似度。
种子样例扩展,对于输入的语料集,遍历其中的每篇文档,对文档按大标点(句号,问号等)进行分句。
对每个大句,首先进行命名实体识别,若包含两个指定类型的实体,则构造候选样例(实体1,实体2,文本内容)。否则进行下一句处理。
构造候选样例的上下文特征,计算候选样例与种子样例库中各个样例的相似度,并统计相似度大于给定阈值的样例个数。若得到的样例个数大于给定阈值(如当前种子样例数的10%),则将候选样例加到样例库中,否则进行下一句处理。
从以上的描述中,可以看出,本申请实现了如下技术效果:通过具有相同实体关系的实体对具有相似的上下文,基于样例上下文相似度扩展样例库,能够有效提升关系抽取的召回率。通过训练词向量模型,使用大规模通用语料进行训练。基于词向量进行上下文相似度计算,能显著提升泛化能力。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种用于文本处理的实体关系抽取方法,其特征在于,包括:
输入待处理文本;
识别所述待处理文本中的实体,其中,所述待处理文本包括多个实体;
根据预设样例对所述实体筛选得到输入实例的上下文特征;
通过所述上下文特征计算所述输入实例与种子样例库中的各个种子样例之间的上下文相似度;
判断所述上下文相似度是否大于第一预设阈值;
如果所述相似度大于所述第一预设阈值,则统计所述相似度大于所述预设阈值的种子样例的个数;
判断所述相似度大于所述预设阈值的种子样例的个数是否大于第二预设阈值;
如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值,则将所述输入实例作为所述文本处理得到的实体关系实例。
2.根据权利要求1所述的实体关系抽取方法,其特征在于,在实体关系抽取方法开始之前包括:
训练词向量模型,具体包括:使用gensim工具训练背景语料得到所述词向量模型。
3.根据权利要求1所述的实体关系抽取方法,其特征在于,识别所述待处理文本中的实体包括:
采用命名实体识别方法获取所述待处理文本中的实体。
4.根据权利要求1所述的实体关系抽取方法,其特征在于,根据预设实例对所述实体筛选得到输入实例的上下文特征包括:
对所述待处理文本进行分词;
对分词结果进行词性标注;
过滤词性标注结果得到待选词;
利用上下文窗口获取所述待选词中的目标词;
根据所述目标词构成输入实例上下文特征。
5.根据权利要求1所述的实体关系抽取方法,其特征在于,通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度包括:
将所述上下文特征代入预设公式得出所述上下文相似度;
所述预设公式为:
Figure FDA0003457232810000021
其中,similarity表示所述上下文相似度。
6.一种用于文本处理的实体关系抽取装置,其特征在于,包括:
输入模块,输入待处理文本;
识别模块,识别所述待处理文本中的实体,其中,所述待处理文本包括多个实体;
筛选模块,根据预设样例对所述实体筛选得到输入实例的上下文特征;
计算模块,通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度;
第一判断模块,判断所述上下文相似度是否大于第一预设阈值;
统计模块,如果所述相似度大于所述预设阈值,则统计所述相似度大于所述第一预设阈值的种子样例个数;
第二判断模块,用于判断所述相似度大于所述预设阈值的种子样例的个数是否大于第二预设阈值;
结束模块,如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值,则将所述输入实例作为所述文本处理得到的实体关系实例。
7.根据权利要求6所述的实体关系抽取装置,其特征在于,所述实体关系抽取装置还包括:训练模块,用于训练词向量模型,具体包括:使用gensim工具训练背景语料得到所述词向量模型。
8.根据权利要求6所述的实体关系抽取装置,其特征在于,所述识别模块包括:
实体获取模块,采用命名实体识别方法获取所述待处理文本中的实体。
9.根据权利要求6所述的实体关系抽取装置,其特征在于,所述筛选模块包括:
分词模块,用于对所述待处理文本进行分词;
标注模块,对分词结果进行词性标注;
过滤模块,过滤词性标注结果得到待选词;
目标词获取模块,用于利用上下文窗口获取所述待选词中的目标词;
上下文特征生成模块,用于获取所述目标词构成输入实例的上下文特征。
10.根据权利要求6所述的实体关系抽取装置,其特征在于,所述计算模块包括:
代入模块,用于将所述上下文特征代入预设公式得出所述上下文相似度。
CN201810348221.6A 2018-04-18 2018-04-18 用于文本处理的实体关系抽取方法及装置 Active CN108763192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810348221.6A CN108763192B (zh) 2018-04-18 2018-04-18 用于文本处理的实体关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810348221.6A CN108763192B (zh) 2018-04-18 2018-04-18 用于文本处理的实体关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN108763192A CN108763192A (zh) 2018-11-06
CN108763192B true CN108763192B (zh) 2022-04-19

Family

ID=64011106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810348221.6A Active CN108763192B (zh) 2018-04-18 2018-04-18 用于文本处理的实体关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN108763192B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522399B (zh) * 2018-11-20 2022-08-12 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN110909116B (zh) * 2019-11-28 2022-12-23 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及***
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN111488467B (zh) * 2020-04-30 2022-04-05 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
US10394886B2 (en) * 2015-12-04 2019-08-27 Sony Corporation Electronic device, computer-implemented method and computer program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704483B2 (en) * 2015-07-28 2017-07-11 Google Inc. Collaborative language model biasing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10394886B2 (en) * 2015-12-04 2019-08-27 Sony Corporation Electronic device, computer-implemented method and computer program
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A distributed meta-learning system for Chinese entity relation extraction";Lishuang Li 等;《Neurocomputing》;20150615;第149卷(第6期);第1135-1142页 *
"关系抽取技术研究综述";黄勋 等;《现代图书情报技术》;20131125(第11期);第30-39页 *

Also Published As

Publication number Publication date
CN108763192A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN110795932B (zh) 基于地质本体的地质报告文本信息提取方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及***
CN110188359B (zh) 一种文本实体抽取方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断***及方法
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及***
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及***
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Hussain et al. A technique for perceiving abusive bangla comments
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN115713085A (zh) 文献主题内容分析方法及装置
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 515, building Y1, No. 112, liangxiu Road, Pudong New Area, Shanghai 201203

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

CP03 Change of name, title or address