CN110543634B - 语料数据集的处理方法、装置、电子设备及存储介质 - Google Patents

语料数据集的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110543634B
CN110543634B CN201910822709.2A CN201910822709A CN110543634B CN 110543634 B CN110543634 B CN 110543634B CN 201910822709 A CN201910822709 A CN 201910822709A CN 110543634 B CN110543634 B CN 110543634B
Authority
CN
China
Prior art keywords
node
association
probability
mention
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910822709.2A
Other languages
English (en)
Other versions
CN110543634A (zh
Inventor
张熙
刘亭村
李小勇
王春露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910822709.2A priority Critical patent/CN110543634B/zh
Publication of CN110543634A publication Critical patent/CN110543634A/zh
Application granted granted Critical
Publication of CN110543634B publication Critical patent/CN110543634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种语料数据集的处理方法、装置、电子设备及存储介质,可以实现获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;判断语料数据集中的各条提及之间是否具有关联关系;针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;从语料数据集中,删除边缘概率小于预设概率值的关联提及。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。

Description

语料数据集的处理方法、装置、电子设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种语料数据集的处理方法、装置、电子设备及存储介质。
背景技术
关系提取是抽取一个句子中包含的实体之间的关系,从而在海量的文本中抽取出有用的信息。实体对应真实世界的实体,一般表现为一个词或一个短语,比如曹操、仙人掌等等。关系则刻画两个或多个实体的关系,比如张三是诗集的作者,那么张三与诗集的关系即是“创作”关系。关系提取可以识别文本中词语间的因果关系、从医学出版物中提取基因与疾病的关系用于疾病风险标记、从商品评论文本中抽取用户对商品的评价信息、从社交网络中用户的留言和分享数据中提取用户关注的信息等,目前已经应用在生物信息学、社交网络、智能问答、信息检索等众多场景。
关系提取首先需要从给定的带有标注数据的语料数据集里训练出一个模型,就是训练一个关系分类器,当模型训练好了之后,给它一个包含两个实体的句子,根据语料数据集训练出的关系分类器来判定该句子应当分到哪一类中去,从而完成句子中两实体的关系分类。但是,语料数据集中的标注数据包括人为标注的标签,因为不是所有标注者都可以正确理解语料数据集中的两个实体间的关系,所以人为标注的错误信息比较多,语料数据集里的错误标注信息形成噪声,影响训练模型的准确度,因此,我们需要提出改进方法,降低语料数据集中因为错误标注信息带来的噪声问题。
发明内容
本发明实施例的目的在于提供一种语料数据集的处理方法、装置、电子设备及存储介质,以实现降低语料数据集中的噪声问题。具体技术方案如下:
获取原始的语料数据集,所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;
判断所述语料数据集中的各条提及之间是否具有关联关系;
针对具有关联关系的关联提及,根据所述关联提及的标签数据,计算所述关联提及的边缘概率;
从所述语料数据集中,删除边缘概率小于预设概率值的关联提及。
可选的,所述根据所述关联提及的标签数据,计算所述关联提及的边缘概率,包括:
根据所述语料数据集中具有关联关系的各关联提及,构建图模型,所述图模型包括结点和边,所述结点表示关联提及,所述边表示两个结点所示关联提及之间具有关联关系;
根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率。
可选的,所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据;所述根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率,包括:
若为第一轮迭代,则根据所述各标注者标注的各关联提及的标签数据,利用第一预设概率计算公式,计算所述各结点所示关联提及的标签类型为正类的概率,其中,所述第一预设概率计算公式为:
Figure BDA0002188059190000021
γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure BDA0002188059190000022
为第k个标注者标注的第i个结点所示关联提及的标签数据,Ci为对第i个结点所示关联提及进行标注的标注者的总数目;
根据所述各结点所示关联提及的标签类型为正类的概率,确定所述各结点所示关联提及的边缘概率。
可选的,所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据;所述根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率,还包括:
若不是第一轮迭代,则根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则,为所述各条边分别选择对应的兼容性矩阵;
根据所述各结点所示关联提及当前的边缘概率及所述各标注者标注的各关联提及的标签数据,利用预设标注质量计算公式,计算各标注者对应的标签类型为正类的第一标注质量和标签类型为负类的第二标注质量,其中,所述预设标注质量计算公式为:
Figure BDA0002188059190000031
Figure BDA0002188059190000032
αk为第k个标注者对应的标签类型为正类的第一标注质量,βk为第k个标注者对应的标签类型为负类的第二标注质量,Nk为第k个标注者标记的关联提及的数量,γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure BDA0002188059190000033
为第k个标注者标注的第i个结点所示关联提及的标签数据;
基于所述各标注者对应的第一标注质量及第二标注质量,利用第二预设概率计算公式,计算所述各结点所示关联提及的标签类型为正类的概率,其中,所述第二预设概率计算公式为:
Figure BDA0002188059190000034
其中,
pi=P(yi=1|xi,ω)=σ(ωTxi+b)
pi为利用预设估计算法、第i个结点所示关联提及的标签类型为正类的概率,yi为第i个结点所示关联提及的标签数据,xi为第i个结点所示关联提及,ω为所述预设估计算法的估计参数,b为计算偏置;
根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息,计算所述各结点对应的信念值;
计算本轮迭代计算得到的所述各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值;
判断各差值之和是否小于预设阈值,以及迭代次数是否达到预设次数;
若所述各差值之和小于所述预设阈值,或者,所述迭代次数达到所述预设次数,则根据所述各结点所示关联提及的标签类型为正类的概率,确定所述各结点所示关联提及的边缘概率。
可选的,所述根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息,计算所述各结点对应的信念值,包括:
根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息,利用预设更新公式,更新所述各条边的信念传播信息,其中,所述预设更新公式为:
Figure BDA0002188059190000041
mij为第i个结点到第j个结点所连接的边对应的信念传播信息,yi为第i个结点所示关联提及的标签数据,yj为第j个结点所示关联提及的标签数据,Φi为第i个结点所示关联提及的边缘概率,
Figure BDA0002188059190000042
为第i个结点到第j个结点所连接的边s对应的兼容性矩阵,N(i)为第i个结点的所有相邻结点,k为N(i)中除去j结点外的所有相邻结点,mki为第i个结点的第k个相邻结点到第i个结点所连接的边对应的信念传播信息,Z1为归一化常数;
根据更新后的所述各条边的信念传播信息、所述各结点所示关联提及当前的边缘概率,利用预设信念值计算公式,计算所述各结点对应的信念值,其中,所述预设信念值计算公式为:
Figure BDA0002188059190000051
bi为第i个结点对应的信念值,Z2为归一化常数。
可选的,在所述判断各差值之和是否小于预设阈值,以及迭代次数是否达到预设次数之后,所述方法还包括:
若所述各差值之和不小于所述预设阈值,并且所述迭代次数未达到所述预设次数,则利用随机梯度下降优化方法,调整所述估计参数,并执行下一轮迭代。
本发明实施例还提供一种语料数据集的处理装置,所述装置包括:
获取模块,用于获取原始的语料数据集,所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;
判断模块,用于判断所述语料数据集中的各条提及之间是否具有关联关系;
计算模块,用于针对具有关联关系的关联提及,根据所述关联提及的标签数据,计算所述关联提及的边缘概率;
删除模块,用于从所述语料数据集中,删除边缘概率小于预设概率值的关联提及。
可选的,所述计算模块,具体用于:
根据所述语料数据集中具有关联关系的各关联提及,构建图模型,所述图模型包括结点和边,所述结点表示关联提及,所述边表示两个结点所示关联提及之间具有关联关系;
根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率。
本发明实施例还提供一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本发明实施例提供了一种语料数据集的处理方法、装置、电子设备及存储介质,获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据,判断语料数据集中的各条提及之间是否具有关联关系,针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率,从语料数据集中,删除边缘概率小于预设概率值的关联提及。
本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的,通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系,删除边缘概率小于预设概率值的关联提及,也就删除了语料数据集中相应的不准确的标注信息。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语料数据集的处理方法流程图。
图2为本发明实施例提供的一种语料数据集的处理方法示意图。
图3为本发明实施例提供的一种语料数据集的处理装置结构示意图。
图4为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种语料数据集的处理方法、装置、电子设备及存储介质,以下分别进行详细说明。
图1为本发明提供的一种语料数据集的处理方法流程图。该方法由终端设备执行,终端设备中安装有执行软件或硬件。如图1所示,本发明实施例提供的技术方案具体包括:
S101:获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;
S102:判断语料数据集中的各条提及之间是否具有关联关系;
S103:针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;
S104:从语料数据集中,删除边缘概率小于预设概率值的关联提及。
本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的,通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系,删除边缘概率小于预设概率值的关联提及,也就删除了语料数据集中相应的不准确的标注信息。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。
对于本发明实施例中,获取文本信息,组成语料库,也可以利用现有的语料库,从语料库中生成相关的语料数据集,为后续本发明实施例的实现提供语言文本材料基础。语料数据集包含丰富的原始语句实例,原始语句中包含有多个词对,一个词对包含两个实体,包含两个实体的一条原始语句为这两个实体的一条提及,并且在语料数据集中已经标注有提及中两实体间的关系,还标注有针对各条提及标注的标签数据。标签数据可以基于众包方法得到,众包方法是将需要标注的数据集通过网络平台或者其他平台交由标注人员进行标注,很多非职业的标注者以较低的报酬在一些平台上帮助科研工作者或者公司来标注数据,这种标注质量的要求并不是很严格,标注周期短。在众包的标注平台上,一般每个提及都会得到多个标注者的标注,因此每一个提及都会得到大量的标签数据。当然,标签数据也可以由职业人员进行标注或者***自动生成。
在获取语料数据集后判断针对各条提及标注的标签数据是正类或者负类的,正类表示一条提及中标注的两实体间的关系是成立的,负类表示一条提及中标注的两实体间的关系是不成立的,在本发明实施过程中将正类和负类用两个不同的量进行定量化表示,比如将正类表示为1,负类表示为0。
可选的,当一条提及中的多个实体与另一条提及中的多个实体中有相同的某个实体时,这两条提及之间具有关联关系,比如,提及“李白是唐朝的诗人”和提及“唐玄宗是唐朝的皇帝”因为实体“唐朝”而产生关联。比如,从淘宝、微博等平台获取原始评论,从中获取原始的语料数据集,以一条提及中包含两个实体为例,并且将提及中的实体分为形容词和名词,那么可以根据以下几种关系判断提及间具有关联:两个提及来自于同一个原始评论,且共享原始评论语句中同一位置的名词;两个提及来自于同一个原始评论,且共享原始评论语句中同一位置的形容词;两个提及来自于不同原始评论,且共享原始评论语句中的名词;两个提及来自于不同原始评论,且共享原始评论语句中的形容词;两个提及来自于不同原始评论,且共享原始评论语句中的形容词和名词;两个提及来自于同一个原始评论,共享原始评论语句中的形容词和名词,且至少有一个名词或形容词在评论句中的位置不同。当然,本发明并不限定实体只能分为形容词和名词。没有关联的提及不进行处理,在原始语料集和处理后的语料集中是一样的。
可选的,根据关联提及的标签数据,计算关联提及的边缘概率,包括:
根据语料数据集中具有关联关系的各关联提及,构建图模型,图模型包括结点和边,结点表示关联提及,边表示两个结点所示关联提及之间具有关联关系;
根据各结点所示关联提及的标签数据,经过多轮迭代,计算各结点所示关联提及的边缘概率。
图模型是由点和线组成的图形,属于结构模型,可用于描述大量事物和事物之间的关系。构成图模型的图形的每条边可以被赋以权,组成加权图,权可取一定数值,用以表示距离、流量、费用等。本发明实施例中,将结点表示为xi,用以代表关联提及,对应的关联提及中标注有Ci个标签数据,表示为yi 1,...,yi Ci,两个关联提及具有关联关系时,代表两个关联提及的结点xi和结点xj之间构成边,表示为s;结点和边构成图模型,此时图模型的边被赋以权表示两个结点所示关联提及之间具有关联关系。
根据各结点所示关联提及的标签数据,计算各结点所示关联提及的边缘概率时,由于存在多个标签数据,而且在计算过程开始只有提及和提及中标注的标签数据作为计算数据,如何计算最终的边缘概率,这就在计算过程中引入了众包最大似然估计的问题,需要利用预设估计算法求解众包最大似然估计问题。最大似然估计是推导一个函数然后求解这个函数的问题,这个函数已知输入值x,需要求解输出值f(x),但是不知道函数中的其他参数,那么问题在于如何知道函数中其他未知参数的值从而得到输出值f(x),本发明实施例中,输入值x可以理解为提及和提及中标注的标签数据,输出值f(x)可以理解为边缘概率。本发明实施例中求解众包最大似然估计问题是通过期望最大化算法结合图模型完成的。期望最大化算法是一种迭代算法,主要用于从不完整的数据中求解最大似然估计。迭代过程主要包括:给定某个初始参数,估计未知参数的值;从未知参数当前值出发,重新估计某个初始参数值,迭代这一过程,直至满足某个收敛条件。
如图2所示,结点xi和结点xj之间构成边s,根据兼容性选择规则为边s划分兼容性矩阵,兼容性矩阵包括
Figure BDA0002188059190000091
Figure BDA0002188059190000092
其中,
Figure BDA0002188059190000093
代表边所连接的两个结点所示关联提及是同质的,两个结点所示关联提及的标签类型相互促进;
Figure BDA0002188059190000094
代表边所连接的两个结点所示关联提及是异质的,两个结点所示关联提及的标签类型相互抑制;本发明实施例中除上述两个兼容性矩阵外还包括传递任何信息的全1兼容性矩阵。兼容性选择规则在后文中进行详细描述,这里不再赘述。
图中方框表示图模型,图模型中包括结点和结点之间的边,结点xi带有对应关联提及中标注的Ci个标签数据,边带有兼容性矩阵信息。以结点xi对应的关联提及和对应关联提及中Ci个标签数据为输入值,计算某个初始参数。根据计算得到的某个初始参数,通过图模型的计算,估计未知参数α、β和ω的值,根据得到的未知参数α、β和ω的值,重新估计某个初始参数,迭代这一过程,直至满足某个收敛条件,得到结点xi对应的边缘概率bi(yi)为输出值,相应的,输入其余各结点对应的标签数据,可以得到其余各结点对应的边缘概率。
本发明实施例,通过图的结构将概率模型可视化,能够了解复杂分布中的变量之间的关系,把概率上的复杂计算过程理解为在图上进行信息传递的过程。
可选的,关联提及的标签数据包括各标注者标注的关联提及的标签数据;根据各结点所示关联提及的标签数据,经过多轮迭代,计算各结点所示关联提及的边缘概率,包括:
若为第一轮迭代,则根据各标注者标注的各关联提及的标签数据,利用第一预设概率计算公式,计算各结点所示关联提及的标签类型为正类的概率,其中,第一预设概率计算公式为:
Figure BDA0002188059190000101
γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure BDA0002188059190000102
为第k个标注者标注的第i个结点所示关联提及的标签数据,Ci为对第i个结点所示关联提及进行标注的标注者的总数目;
根据各结点所示关联提及的标签类型为正类的概率,确定各结点所示关联提及的边缘概率。
当得到Ci个标注者标注的第i个结点所示关联提及的标签数据,首先通过多数投票算法得到第i个结点的边缘概率,作为计算的初始值,比如,得到第i个结点所示关联提及的标签数据有10个,其中有9个正类标签,即9个1,一个负类标签,即一个0,那么通过多数投票算法得到第i个结点的边缘概率为0.9,但是这种方法得到的边缘概率是不准确的,用多数投票算法得到的边缘概率进行计算得到的结果是不准确的,所以本发明实施例中通过第一轮迭代计算第i个结点所示关联提及的标签类型为正类的概率,为后续迭代计算过程提供数据基础。
可选的,各结点所示关联提及的边缘概率表示为Φ=(1-γ,γ)。
边缘概率表示只考虑当前结点的概率,本发明实施例中,各结点所示关联提及的边缘概率表示各结点所示关联提及当前的分类概率,如果结点所示关联提及的边缘概率小于预设概率值,则结点所示关联提及中标注的两实体间的关系是不成立的,将结点边缘概率小于预设概率值的关联提及进行删除,剔除语料数据集中不准确的标注信息。
可选的,关联提及的标签数据包括各标注者标注的关联提及的标签数据;根据各结点所示关联提及的标签数据,经过多轮迭代,计算各结点所示关联提及的边缘概率,还包括:
若不是第一轮迭代,则根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则,为各条边分别选择对应的兼容性矩阵;
根据各结点所示关联提及当前的边缘概率及各标注者标注的各关联提及的标签数据,利用预设标注质量计算公式,计算各标注者对应的标签类型为正类的第一标注质量和标签类型为负类的第二标注质量,其中,预设标注质量计算公式为:
Figure BDA0002188059190000111
Figure BDA0002188059190000112
αk为第k个标注者对应的标签类型为正类的第一标注质量,βk为第k个标注者对应的标签类型为负类的第二标注质量,Nk为第k个标注者标记的关联提及的数量,γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure BDA0002188059190000113
为第k个标注者标注的第i个结点所示关联提及的标签数据;
基于各标注者对应的第一标注质量及第二标注质量,利用第二预设概率计算公式,计算各结点所示关联提及的标签类型为正类的概率,其中,第二预设概率计算公式为:
Figure BDA0002188059190000121
其中,
pi=P(yi=1|xi,ω)=σ(ωTxi+b)
pi为利用预设估计算法下、第i个结点所示关联提及的标签类型为正类的概率,yi为第i个结点所示关联提及的标签数据,xi为第i个结点所示关联提及,ω为所述预设估计算法的估计参数,b为计算偏置;
根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息,计算各结点对应的信念值;
计算本轮迭代计算得到的各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值;
判断各差值之和是否小于预设阈值,以及迭代次数是否达到预设次数;
若各差值之和小于预设阈值,或者,迭代次数达到预设次数,则根据各结点所示关联提及的标签类型为正类的概率,确定各结点所示关联提及的边缘概率。
可选的,本发明实施例中预设标注质量计算公式和第二预设概率计算公式是通过最大似然估计算法和期望最大化算法推导得到的,将第一轮迭代得到的第i个结点所示关联提及的标签类型为正类的概率作为计算初始值,估计未知参数α、β、ω和b的值,进行计算得到各结点对应的信念值,由此,计算过程中,pi表示的利用预设估计算法下、第i个结点所示关联提及的标签类型为正类的概率和yi表示的第i个结点所示关联提及的标签数据,都是预测的值而不是最后的稳定值,b作为计算偏置值可以存在也可以不存在,存在可以使计算得到的值更加准确。其中,未知参数α、β和ω的估计方法是不同的,参数α、β是利用预设标注质量计算公式得到的,而估计参数ω是利用随机梯度下降优化方法得到的。
如果信念值的各差值之和小于预设阈值,说明计算得到稳定的输出值,此时计算各结点所示关联提及的边缘概率,本发明实施例中还设置了迭代次数,当迭代次数达到预设次数时,对各结点所示关联提及的边缘概率进行计算,避免计算无限循环的问题。
可选的,将兼容性矩阵表示为:
Figure BDA0002188059190000131
Figure BDA0002188059190000132
可选的,
Figure BDA0002188059190000133
代表边所连接的两个结点所示关联提及是同质的,两个结点所示关联提及的标签类型相互促进;
Figure BDA0002188059190000134
代表边所连接的两个结点所示关联提及是异质的,两个结点所示关联提及的标签类型相互抑制;ρ是可调参数,根据需要进行设置;本发明实施例中除上述两个兼容性矩阵外还包括传递任何信息的全1兼容性矩阵。
预设的兼容性矩阵选择规则为:
当一条边连接的两个结点中,一个结点所示关联提及的标签类型为正类会增加另一个结点所示关联提及的标签类型为正类的可能性,则为该边选择兼容性矩阵
Figure BDA0002188059190000135
当一条边连接的两个结点中,一个结点所示关联提及的标签类型为正类会增加另一个结点所示关联提及的标签类型为负类的可能性,则为该边选择兼容性矩阵
Figure BDA0002188059190000136
可选的,具体如何进行选择兼容性矩阵是实际计算过程中根据提及中实体与实体间的距离、实体与实体间是否有其他连词、实体构成的词对是否与语料数据集有关等关系进行的。比如,针对上述两个提及来自于同一个原始评论且共享原始评论语句中同一位置的名词而产生关联的两个提及,如果两个关联提及中的形容词在名词的同侧,当两个提及中实体与实体间的距离都较大时,表示这两个关联提及是同质的,为连接这两个关联提及的边选择同质兼容性矩阵
Figure BDA0002188059190000137
当一个关联提及中实体与实体间的距离较大,另一个关联提及中实体与实体间的距离较小,表示这两个关联提及是异质的,为连接这两个关联提及的边选择异质兼容性矩阵
Figure BDA0002188059190000141
当两个关联提及中实体与实体间的距离都较小时,如果两个形容词间有连词,为连接这两个关联提及的边选择同质兼容性矩阵,如果两个形容词间没有连词,为连接这两个关联提及的边选择异质兼容性矩阵,除此之外的情况,选择全1兼容性矩阵;距离大小的判断根据实际情况进行不同设定。
根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则,为各条边分别选择对应的兼容性矩阵,得到各条边两个结点所示关联提及的标签类型之间关系的定量化表示。
可选的,每一轮迭代中各结点所示关联提及当前的边缘概率为上一轮迭代计算得到的边缘概率,比如第二轮迭代时各结点所示关联提及当前的边缘概率为第一轮迭代计算得到的边缘概率。
可选的,判断各差值之和是否小于预设阈值,以及迭代次数是否达到预设次数时,可以二者选其一进行判断。当各差值之和小于预设阈值,而迭代次数没有达到预设次数时,可以根据各结点所示关联提及的标签类型为正类的概率,确定各结点所示关联提及的边缘概率。当迭代次数达到预设次数,而各差值之和没有小于预设阈值时,也可以根据各结点所示关联提及的标签类型为正类的概率,确定各结点所示关联提及的边缘概率。
可选的,根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息,计算各结点对应的信念值,包括:
根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息,利用预设更新公式,更新各条边的信念传播信息,其中,预设更新公式为:
Figure BDA0002188059190000142
mij为第i个结点到第j个结点所连接的边对应的信念传播信息,yi为第i个结点所示关联提及的标签数据,yj为第j个结点所示关联提及的标签数据,Φi为第i个结点所示关联提及的边缘概率,
Figure BDA0002188059190000151
为第i个结点到第j个结点所连接的边s对应的兼容性矩阵,N(i)为第i个结点的所有相邻结点,k为N(i)中除去j结点外的所有相邻结点,mki为第i个结点的第k个相邻结点到第i个结点所连接的边对应的信念传播信息,Z1为归一化常数;
根据更新后的各条边的信念传播信息、各结点所示关联提及当前的边缘概率,利用预设信念值计算公式,计算各结点对应的信念值,其中,预设信念值计算公式为:
Figure BDA0002188059190000152
bi为第i个结点对应的信念值,Z2为归一化常数。
可选的,各条边的信念传播信息表示结点与结点之间相互传递关联提及是同质还是异质的信息,表示一个结点所示关联提及对另一个结点所示关联提及的影响,结点对应的信念值表示所有其他结点对本结点产生影响之后的概率估计值。在计算过程中,根据算法需要,首先对各条边的信念传播信息赋初值,然后多次迭代更新信念传播信息和信念值直到计算收敛,归一化常数可使信念值的和为1,即可以使信念值的差值波动处于一个0到1的范围。本发明实施例中,第一轮迭代时各条边当前的信念传播信息的初始值设为1,从第二轮迭代开始,各条边当前的信念传播信息为更新得到的值。当然,初始值并不一定必须设定为1,可以根据需要另行设定。
信息在信念传播过程中,每一个结点都会收到其所有相邻结点的信息,结果是使每个结点都可以获得其他结点传递的信息,利用信念传播计算边缘概率可以节省计算时间。
可选的,在判断各差值之和是否小于预设阈值,以及迭代次数达到预设次数之后,本发明实施例提供的方法还包括:
若各差值之和不小于预设阈值,并且迭代次数未达到预设次数,则利用随机梯度下降优化方法,调整估计参数,并执行下一轮迭代。
当各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值之和不小于预设阈值,说明此时模型还没有收敛,并且迭代次数未达到预设次数时,计算还没有达到停止条件,因此需要执行下一轮迭代。
本发明实施例还提供一种语料数据集的处理装置,如图3所示,该装置包括获取模块310、判断模块320、计算模块330、删除模块340,其中:
获取模块310,用于获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;
判断模块320,用于判断语料数据集中的各条提及之间是否具有关联关系;
计算模块330,用于针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;
删除模块340,用于从语料数据集中,删除边缘概率小于预设概率值的关联提及。
可选的,计算模块330,具体可以用于:
根据语料数据集中具有关联关系的各关联提及,构建图模型,图模型包括结点和边,结点表示关联提及,边表示两个结点所示关联提及之间具有关联关系;
根据各结点所示关联提及的标签数据,经过多轮迭代,计算各结点所示关联提及的边缘概率。
可选的,关联提及的标签数据包括各标注者标注的关联提及的标签数据;在用于根据各结点所示关联提及的标签数据,经过多轮迭代,计算各结点所示关联提及的边缘概率时,计算模块330具体可以用于:
若为第一轮迭代,则根据各标注者标注的各关联提及的标签数据,利用第一预设概率计算公式,计算各结点所示关联提及的标签类型为正类的概率,其中,第一预设概率计算公式为:
Figure BDA0002188059190000161
γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure BDA0002188059190000171
为第k个标注者标注的第i个结点所示关联提及的标签数据,Ci为对第i个结点所示关联提及进行标注的标注者的总数目;
根据各结点所示关联提及的标签类型为正类的概率,确定各结点所示关联提及的边缘概率。
可选的,关联提及的标签数据包括各标注者标注的关联提及的标签数据;在用于根据各结点所示关联提及的标签数据,经过多轮迭代,计算各结点所示关联提及的边缘概率时,计算模块330还可以用于:
若不是第一轮迭代,则根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则,为各条边分别选择对应的兼容性矩阵;
根据各结点所示关联提及当前的边缘概率及各标注者标注的各关联提及的标签数据,利用预设标注质量计算公式,计算各标注者对应的标签类型为正类的第一标注质量和标签类型为负类的第二标注质量,其中,预设标注质量计算公式为:
Figure BDA0002188059190000172
Figure BDA0002188059190000173
αk为第k个标注者对应的标签类型为正类的第一标注质量,βk为第k个标注者对应的标签类型为负类的第二标注质量,Nk为第k个标注者标记的关联提及的数量,γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure BDA0002188059190000174
为第k个标注者标注的第i个结点所示关联提及的标签数据;
基于各标注者对应的第一标注质量及第二标注质量,利用第二预设概率计算公式,计算各结点所示关联提及的标签类型为正类的概率,其中,第二预设概率计算公式为:
Figure BDA0002188059190000181
其中,
pi=P(yi=1|xi,ω)=σ(ωTxi+b)
pi为利用预设估计算法下、第i个结点所示关联提及的标签类型为正类的概率,yi为第i个结点所示关联提及的标签数据,xi为第i个结点所示关联提及,ω为所述预设估计算法的估计参数,b为计算偏置;
根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息,计算各结点对应的信念值;
计算本轮迭代计算得到的各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值;
判断各差值之和是否小于预设阈值,以及迭代次数是否达到预设次数;
若各差值之和小于所述预设阈值,或者,迭代次数达到预设次数,则根据各结点所示关联提及的标签类型为正类的概率,确定各结点所示关联提及的边缘概率。
可选的,在用于根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息,计算各结点对应的信念值时,计算模块330还可以用于:
根据各条边对应的兼容性矩阵、各结点所示关联提及当前的边缘概率及各条边当前的信念传播信息,利用预设更新公式,更新各条边的信念传播信息,其中,预设更新公式为:
Figure BDA0002188059190000182
mij为第i个结点到第j个结点所连接的边对应的信念传播信息,yi为第i个结点所示关联提及的标签数据,yj为第j个结点所示关联提及的标签数据,Φi为第i个结点所示关联提及的边缘概率,
Figure BDA0002188059190000191
为第i个结点到第j个结点所连接的边s对应的兼容性矩阵,N(i)为第i个结点的所有相邻结点,k为N(i)中除去j结点外的所有相邻结点,mki为第i个结点的第k个相邻结点到第i个结点所连接的边对应的信念传播信息,Z1为归一化常数;
根据更新后的各条边的信念传播信息、各结点所示关联提及当前的边缘概率,利用预设信念值计算公式,计算各结点对应的信念值,其中,预设信念值计算公式为:
Figure BDA0002188059190000192
bi为第i个结点对应的信念值,Z2为归一化常数。
可选的,本发明实施例提供的装置还可以包括调整模块,用于若各差值之和不小于预设阈值,并且迭代次数未达到预设次数,则利用随机梯度下降优化方法,调整估计参数,并执行下一轮迭代。
本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的,通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系,删除边缘概率小于预设概率值的关联提及,也就删除了语料数据集中相应的不准确的标注信息。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信;
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,至少实现如下步骤:
获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;
判断语料数据集中的各条提及之间是否具有关联关系;
针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;
从语料数据集中,删除边缘概率小于预设概率值的关联提及。
上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
上述存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本实施例中,处理器401通过读取存储器403中存储的机器可执行指令,被机器可执行指令促使能够实现:电子设备通过获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;判断语料数据集中的各条提及之间是否具有关联关系;针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;从语料数据集中,删除边缘概率小于预设概率值的关联提及。本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的,通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系,删除边缘概率小于预设概率值的关联提及,也就删除了语料数据集中相应的不准确的标注信息。应用本发明可以剔除语料数据集中人为标注带来的错误信息,降低语料数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。
本发明实施例还提供了一种计算机可读存储介质,其中,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时至少实现如下步骤:
获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;
判断语料数据集中的各条提及之间是否具有关联关系;
针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;
从语料数据集中,删除边缘概率小于预设概率值的关联提及。
本实施例中,机器可读存储介质在运行时执行本发明实施例所提供的方法的计算机程序,因此能够实现:通过获取原始的语料数据集,语料数据集中包括多条提及以及预先针对各条提及标注的标签数据;判断语料数据集中的各条提及之间是否具有关联关系;针对具有关联关系的关联提及,根据关联提及的标签数据,计算关联提及的边缘概率;从语料数据集中,删除边缘概率小于预设概率值的关联提及。本发明中关联提及的边缘概率小于预设概率值时表示该提及中标注的两实体间的关系是不成立的,通过判断语料数据集中关联提及的边缘概率值与预设概率值的大小关系,删除边缘概率小于预设概率值的关联提及,也就删除了语料数据集中相应的不准确的标注信息。这样,应用本发明可以剔除数据集中人为标注带来的错误信息,降低数据集中的噪声问题,进而提高模型训练的准确度,提高关系提取的准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种语料数据集的处理方法,其特征在于,所述方法包括:
获取原始的语料数据集,所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据,所述语料数据集包含原始语句,所述原始语句包含多个词对,一个词对包含两个实体,包含两个实体的一条原始语句为所述两个实体的一条提及;
判断所述语料数据集中的各条提及之间是否具有关联关系;
针对具有关联关系的关联提及,根据所述关联提及的标签数据,计算所述关联提及的边缘概率;
从所述语料数据集中,删除边缘概率小于预设概率值的关联提及。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关联提及的标签数据,计算所述关联提及的边缘概率,包括:
根据所述语料数据集中具有关联关系的各关联提及,构建图模型,所述图模型包括结点和边,所述结点表示关联提及,所述边表示两个结点所示关联提及之间具有关联关系;
根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率。
3.根据权利要求2所述的方法,其特征在于,所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据;所述根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率,包括:
若为第一轮迭代,则根据所述各标注者标注的各关联提及的标签数据,利用第一预设概率计算公式,计算所述各结点所示关联提及的标签类型为正类的概率,其中,所述第一预设概率计算公式为:
Figure FDA0002790372100000011
γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure FDA0002790372100000012
为第k个标注者标注的第i个结点所示关联提及的标签数据,Ci为对第i个结点所示关联提及进行标注的标注者的总数目;
根据所述各结点所示关联提及的标签类型为正类的概率,确定所述各结点所示关联提及的边缘概率。
4.根据权利要求3所述的方法,其特征在于,所述关联提及的标签数据包括各标注者标注的所述关联提及的标签数据;所述根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率,包括:
若不是第一轮迭代,则根据各结点所示关联提及的标签数据及预设的兼容性矩阵选择规则,为各条边分别选择对应的兼容性矩阵;
根据所述各结点所示关联提及当前的边缘概率及所述各标注者标注的各关联提及的标签数据,利用预设标注质量计算公式,计算各标注者对应的标签类型为正类的第一标注质量和标签类型为负类的第二标注质量,其中,所述预设标注质量计算公式为:
Figure FDA0002790372100000021
Figure FDA0002790372100000022
αk为第k个标注者对应的标签类型为正类的第一标注质量,βk为第k个标注者对应的标签类型为负类的第二标注质量,Nk为第k个标注者标记的关联提及的数量,γi为第i个结点所示关联提及的标签类型为正类的概率,
Figure FDA0002790372100000023
为第k个标注者标注的第i个结点所示关联提及的标签数据;
基于所述各标注者对应的第一标注质量及第二标注质量,利用第二预设概率计算公式,计算所述各结点所示关联提及的标签类型为正类的概率,其中,所述第二预设概率计算公式为:
Figure FDA0002790372100000031
其中,
pi=P(yi=1|xi,ω)=σ(ωTxi+b)
pi为利用预设估计算法下、第i个结点所示关联提及的标签类型为正类的概率,yi为第i个结点所示关联提及的标签数据,xi为第i个结点所示关联提及,ω为所述预设估计算法的估计参数,b为计算偏置,ωT为所述预设估计算法的估计参数的转置,σ(ωTxi+b)为ωTxi+b映射到(0,1)区间的数值;
根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息,计算所述各结点对应的信念值;
计算本轮迭代计算得到的所述各结点对应的信念值分别与上一轮迭代计算得到的相同结点对应的信念值的差值;
判断各差值之和是否小于预设阈值,以及迭代次数是否达到预设次数;
若所述各差值之和小于所述预设阈值,或者,所述迭代次数达到所述预设次数,则根据所述各结点所示关联提及的标签类型为正类的概率,确定所述各结点所示关联提及的边缘概率。
5.根据权利要求4所述的方法,其特征在于,所述根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息,计算所述各结点对应的信念值,包括:
根据所述各条边对应的兼容性矩阵、所述各结点所示关联提及当前的边缘概率及所述各条边当前的信念传播信息,利用预设更新公式,更新所述各条边的信念传播信息,其中,所述预设更新公式为:
Figure FDA0002790372100000041
mij为第i个结点到第j个结点所连接的边对应的信念传播信息,yi为第i个结点所示关联提及的标签数据,yj为第j个结点所示关联提及的标签数据,Φi为第i个结点所示关联提及的边缘概率,
Figure FDA0002790372100000042
为第i个结点到第j个结点所连接的边s对应的兼容性矩阵,N(i)为第i个结点的所有相邻结点,k为N(i)中除去j结点外的所有相邻结点,mki为第i个结点的第k个相邻结点到第i个结点所连接的边对应的信念传播信息,Z1为归一化常数;
根据更新后的所述各条边的信念传播信息、所述各结点所示关联提及当前的边缘概率,利用预设信念值计算公式,计算所述各结点对应的信念值,其中,所述预设信念值计算公式为:
Figure FDA0002790372100000043
bi为第i个结点对应的信念值,Z2为归一化常数。
6.根据权利要求4所述的方法,其特征在于,在所述判断各差值之和是否小于预设阈值,以及迭代次数是否达到预设次数之后,所述方法还包括:
若所述各差值之和不小于所述预设阈值,并且所述迭代次数未达到所述预设次数,则利用随机梯度下降优化方法,调整所述估计参数,并执行下一轮迭代。
7.一种语料数据集的处理装置,其特征在于,所述装置包括:
获取模块,用于获取原始的语料数据集,所述语料数据集中包括多条提及以及预先针对各条提及标注的标签数据,所述语料数据集包含原始语句,所述原始语句包含多个词对,一个词对包含两个实体,包含两个实体的一条原始语句为所述两个实体的一条提及;
判断模块,用于判断所述语料数据集中的各条提及之间是否具有关联关系;
计算模块,用于针对具有关联关系的关联提及,根据所述关联提及的标签数据,计算所述关联提及的边缘概率;
删除模块,用于从所述语料数据集中,删除边缘概率小于预设概率值的关联提及。
8.根据权利要求7所述的装置,其特征在于,所述计算模块,具体用于:
根据所述语料数据集中具有关联关系的各关联提及,构建图模型,所述图模型包括结点和边,所述结点表示关联提及,所述边表示两个结点所示关联提及之间具有关联关系;
根据各结点所示关联提及的标签数据,经过多轮迭代,计算所述各结点所示关联提及的边缘概率。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法。
CN201910822709.2A 2019-09-02 2019-09-02 语料数据集的处理方法、装置、电子设备及存储介质 Active CN110543634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910822709.2A CN110543634B (zh) 2019-09-02 2019-09-02 语料数据集的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910822709.2A CN110543634B (zh) 2019-09-02 2019-09-02 语料数据集的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110543634A CN110543634A (zh) 2019-12-06
CN110543634B true CN110543634B (zh) 2021-03-02

Family

ID=68711056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910822709.2A Active CN110543634B (zh) 2019-09-02 2019-09-02 语料数据集的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110543634B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779237B (zh) * 2020-06-09 2023-12-26 奇安信科技集团股份有限公司 构建社交行为序列图的方法、***、移动终端及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298714A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于异常处理的海量文本自动标注方法
WO2015181511A1 (en) * 2014-05-30 2015-12-03 Qatar Foundation Data cleaning methods and systems
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
WO2017135756A1 (en) * 2016-02-05 2017-08-10 Seegene, Inc. Method for reducing noise level of data set for a target analyte
CN109635108A (zh) * 2018-11-22 2019-04-16 华东师范大学 一种基于人机交互的远程监督实体关系抽取方法
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109992629A (zh) * 2019-02-28 2019-07-09 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823824B (zh) * 2013-11-12 2017-04-05 哈尔滨工业大学深圳研究生院 一种借助互联网自动构建文本分类语料库的方法及***
US9971763B2 (en) * 2014-04-08 2018-05-15 Microsoft Technology Licensing, Llc Named entity recognition
US9858261B2 (en) * 2014-06-23 2018-01-02 International Business Machines Corporation Relation extraction using manifold models
CN109117470B (zh) * 2017-06-22 2022-11-04 北京国双科技有限公司 一种评价文本信息的评价关系提取方法及装置
CN107577785B (zh) * 2017-09-15 2020-02-07 南京大学 一种适用于法律识别的层次多标签分类方法
CN109522928A (zh) * 2018-10-15 2019-03-26 北京邮电大学 文本的主题情感分析方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015181511A1 (en) * 2014-05-30 2015-12-03 Qatar Foundation Data cleaning methods and systems
CN104298714A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于异常处理的海量文本自动标注方法
WO2017135756A1 (en) * 2016-02-05 2017-08-10 Seegene, Inc. Method for reducing noise level of data set for a target analyte
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN109635108A (zh) * 2018-11-22 2019-04-16 华东师范大学 一种基于人机交互的远程监督实体关系抽取方法
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109992629A (zh) * 2019-02-28 2019-07-09 中国科学院计算技术研究所 一种融合实体类型约束的神经网络关系抽取方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Supervised Learning from Multiple Experts:Whom to trust when everyone lies a bit;Vikas C.Raykar等;《Proceedings of the 26 th International Conference on Machine Learning,Montreal, Canada,2009》;20091231;第889-896页 *
深度学习实体关系抽取研究综述;鄂海红等;《软件学报》;20190328;第30卷(第6期);第1793-1818页 *

Also Published As

Publication number Publication date
CN110543634A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
US11514260B2 (en) Information recommendation method, computer device, and storage medium
US11238310B2 (en) Training data acquisition method and device, server and storage medium
CN105022754B (zh) 基于社交网络的对象分类方法及装置
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN110188357B (zh) 对象的行业识别方法及装置
WO2018068648A1 (zh) 一种信息匹配方法及相关装置
US20220269939A1 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
US20210081612A1 (en) Relationship estimation model learning device, method, and program
CN113220908A (zh) 知识图谱的匹配方法和装置
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN110046344B (zh) 添加分隔符的方法及终端设备
CN110543634B (zh) 语料数据集的处理方法、装置、电子设备及存储介质
CN108763221B (zh) 一种属性名表征方法及装置
CN112560545A (zh) 一种识别表格方向的方法、装置及电子设备
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN113505154A (zh) 一种基于大数据的数字阅读统计分析方法及***
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及***
US20230351153A1 (en) Knowledge graph reasoning model, system, and reasoning method based on bayesian few-shot learning
CN107315807B (zh) 人才推荐方法和装置
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN114911936A (zh) 一种模型训练、评论识别方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant