CN110413996B - 构造零指代消解语料的方法及装置 - Google Patents

构造零指代消解语料的方法及装置 Download PDF

Info

Publication number
CN110413996B
CN110413996B CN201910635597.XA CN201910635597A CN110413996B CN 110413996 B CN110413996 B CN 110413996B CN 201910635597 A CN201910635597 A CN 201910635597A CN 110413996 B CN110413996 B CN 110413996B
Authority
CN
China
Prior art keywords
sentence
target
word
processed
zero
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910635597.XA
Other languages
English (en)
Other versions
CN110413996A (zh
Inventor
梁忠平
温祖杰
蒋亮
张家兴
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910635597.XA priority Critical patent/CN110413996B/zh
Publication of CN110413996A publication Critical patent/CN110413996A/zh
Application granted granted Critical
Publication of CN110413996B publication Critical patent/CN110413996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种构造零指代消解语料的方法及装置,方法包括:首先获取待处理句子对应的词序列,并标注该词序列包含的各个词的词性。然后确定出该词序列包含的各个词中,词性为名词的各个词分别在词序列中的出现频次。当该词序列中存在词性为名词、出现频次不小于2的一个或多个候选词时,即可选择一个候选词作为目标词,以及从该目标词在待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个目标位置的目标词删除,得到一个包含零指代项的标定句子。之后,即可将标定句子、目标词以及各个目标位置组合,得到用于对待分析句子进行零指代消解的零指代消解语料。

Description

构造零指代消解语料的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及构造零指代消解语料的方法及装置。
背景技术
零指代项是指句子中被省略的指代词,被省略的指代词本应在句子中承担相应的语法成分,且用户通常能够根据句子本身推断出被省略的指代词。比如,示例性句子为“王老师为了辅导小明学习,将小明带到了办公室”,其对应的语法完整的句子应当为“王老师为了辅导小明学习,[他]将小明带回了办公室”,被省略的指代词[他]即为一个零指代项,该零指代项指代的对象为“王老师”。
零指代消解是一项被广泛应用的自然语言处理任务,其主要目的在于发现句子中包含的零指代项,并确定出该零指代项指代的对象。为了实现对句子进行零指代消解,通常需要预先构造大规模的零指代消解语料。
目前,主要通过人工标注的方式构造零指代消解语料,无法快速获得大规模的零指代消解语料。有鉴于此,希望有改进的方案,能够有利于快速获得大规模的零指代消解语料。
发明内容
本说明书一个或多个实施例提供了一种构造零指代消解语料的方法及装置,有利于快速获得大规模的零指代消解语料。
第一方面,提供了一种构造零指代消解语料的方法,所述方法包括:
获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;
确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;
检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;
在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;
将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。
在一种可能的实施方式中,
所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。
在一种可能的实施方式中,
所述方法还包括:
在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;
在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。
在一种可能的实施方式中,
在所述获取待处理句子对应的词序列之前,还包括:
从网页中采集文本数据;
对所述文本数据进行数据清洗及预处理,得到待处理文本;
对所述待处理文本进行分句处理,得到至少一个所述待处理句子。
在一种可能的实施方式中,
所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。
在一种可能的实施方式中,
从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。
在一种可能的实施方式中,
所述从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:
根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;
根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。
在一种可能的实施方式中,
根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率,包括:
从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;
针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;
确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;
根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。
第二方面,提供了一种构造零指代消解语料的装置,所述装置包括:
分词处理模块,配置为获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;
词频统计模块,配置为确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;
第一检测模块,配置为检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;
句子处理模块,配置为在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;
语料构造模块,配置为将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。
在一种可能的实施方式中,
所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。
在一种可能的实施方式中,
所述装置还包括:
第二检测模块,配置为在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;
负样本确定模块,配置为在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。
在一种可能的实施方式中,
所述装置还包括:
数据采集模块,配置为从网页中采集文本数据;
预处理模块,配置为对所述文本数据进行数据清洗及预处理,得到待处理文本;
分句处理模块,配置为对所述待处理文本进行分句处理,得到至少一个所述待处理句子。
在一种可能的实施方式中,
所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。
在一种可能的实施方式中,
所述句子处理模块,具体配置为从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。
在一种可能的实施方式中,
所述句子处理模块,包括:
条件概率确定单元,配置为根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;
句子处理单元,配置为根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。
在一种可能的实施方式中,
所述条件概率确定单元,具体配置为:从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面中任一项所述的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中任一项所述的方法。
通过本说明书实施例提供的方法及装置,可首先获取待处理句子对应的词序列,并标注该词序列包含的各个词的词性。然后确定出该词序列包含的各个词中,词性为名词的各个词分别在词序列中的出现频次。当该词序列中存在词性为名词、出现频次不小于2的一个或多个候选词时,即可选择一个候选词作为目标词,以及从该目标词在待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个目标位置的目标词删除,得到包含零指代项的标定句子。之后,即可将标定句子、目标词以及各个目标位置组合,得到用于对待分析句子进行零指代消解的零指代消解语料。可见,构造零指代消解语料的过程中,无需消耗过多的时间对句子进行语义分析及标注,有利于快速获得大规模的零指代消解语料。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本说明书一个或多个实施例适用的一种应用场景的示意图;
图2示出本说明书实施例提供的一种构造零指代消解语料的方法的流程图;
图3示出了针对一个示例性句子进行处理以构造零指代消解语料的过程示意图;
图4示出本说明书实施例提供的另一种构造零指代消解语料的方法的流程图;
图5示出本说明书实施例提供的一种构造零指代消解语料的装置的结构示意图。
具体实施方式
下面结合附图,对本说明书所提供的各个非限制性实施例进行详细描述。
图1示出了本说明书一个或多个实施例适用的一种应用场景的示意图。
对于智能问答、机器翻译等用于针对用户向其提供的句子进行响应,从而实现指定业务的业务***,业务***需要准确理解向其提供的句子期望表达的语义,才能较好的实现指定业务。在实际应用过程中,可能因用户的语言习惯或者其它原因,导致向业务***提供的句子中往往会包含零指代项;此时,需要根据预先训练的语言模型或预先构建的语法规则库,对包含零指代项的句子进行零指代消解,以便业务***准确理解句子期望表达的语义。一般的,语言模型是利用大规模的零指代消解语料训练得到的,语法规则库是对大规模的零指代消解语料进行统计分析,根据统计分析的结果构建的。可见,如需实现对句子进行零指代消解,首先需要获得大规模的零指代消解语料。
常规的,可通过人工阅读大量的文本,对文本中的句子进行语义分析,从而发现文本中包含零指代项的句子以及零指代项指代的对象。之后,针对包含零指代项的句子,可人工标注该零指代项在句子中的出现位置,以及标注该零指代项指代的对象。如此,即可得到由包含零指代项的句子、零指代项在该句子中的出现位置、零指代项指代的对象组成的零指代消解语料。
然而,通过上述方式得到零指代消解语料时,由于文本中包含零指代项的句子所占比例相对较小,未包含零指代项的句子所占比例相对较大,需要浪费较多的时间对未包含零指代项的句子进行语义分析;而且,通过人工对包含零指代项的句子进行标注也需要占用较长的时间。因此,上述方式中,每构造一条零指代消解语料均需要消耗较长的时间,无法快速获得大规模的零指代消解语料。
针对以上问题,本说明书实施例考虑到一种情况,即对于任意一个句子,如果存在词性为名词的一个目标词在该句子中多次出现,那么针对该目标词在该句子中的多个出现位置,删除一个或多个于目标位置出现的目标词之后,得到的标定句子即可能为包含零指代项的句子;而且,各个目标位置即可能为标定句子中包含的零指代项的出现位置,且该零指代项指代的对象为该目标词。在此种情况下,仅需要将相应的标定句子、目标词以及各个目标位置组合,即可快速得到一条零指代消解语料,无需消耗过多的时间对该句子进行语义分析、也无需消耗过多的时间对该句子进行标注,有利于快速获得大规模的零指代消解语料。
鉴于上述情况,本说明书实施例的基本构思是,提供了一种构造零指代消解语料的方法及装置。下面结合附图具体描述以上基本构思的实施方式。
图2示出了一种构造零指代消解语料的方法的流程示意图。
可以理解,实施如图2所示构造零指代消解语料的方法的执行主体,可以是如图1所示应用场景中的计算设备,该计算设备包括但不限于服务器或一般计算机。如图2所示,构造零指代消解语料的方法至少可以包括如下步骤21~步骤29:步骤21,获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;步骤23,确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;步骤25,检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;步骤27,在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;步骤29,将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。
首先,在步骤21,获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性。
具体地,可通过调用语言技术平台(Language Technology Platform,LTP)、自然语言处理与信息检索共享平台(Natural Language Processing&Information Retrieval,NLPIR)或其他分词工具,实现对待处理句子进行分词处理,得到待处理句子对应的词序列,并标注词序列包含的各个词的词性。
下面请参考图3,图3示出了针对一个示例性句子进行处理以构造零指代消解语料的过程示意图。如图3所示,示例性句子“小明吃了一个苹果,苹果很甜”作为待处理句子,首先可以对示例性句子进行分词处理,可得到对应的词序列为[小明、吃、了、一个、苹果、苹果、很、甜];然后对该词序列中包含的各个词进行词性标注,标注结果可以为[小明/nr、吃/v、了/ul、一个/mq、苹果/n、苹果/n、很/dc、甜/a]。
然后,在步骤23,确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次。
请参考图3,根据标注结果不难统计,示例性句子对应的词序列中,名词“苹果”的出现频次为2。可以理解,在实际业务场景中,待处理句子对应的词序列中可能包含多个不同的、词性为名词的词。
接着,在步骤25,检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2。
这里,如果一个词性为名词的词在待处理句子中/词序列中多次出现,则该词可作为候选词。
进一步的,在步骤27,在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子。
具体地,可随机选择一个候选词作为目标词。
需要说明的是,在实际应用场景中,可以通过多种方式实现表示目标词在待处理句子中的出现位置。具体而言,在一种可能的实施方式中,通过目标词在词序列中对应的多个顺序编号,来表示目标词在待处理句子中的多个出现位置;即对于每次出现在待处理句子中的目标词,可将该次出现的目标词对应在词序列中的顺序编号,作为该次出现的目标词在待处理句子中的出现位置。再次参考图3,示例性的待处理句子中,对于目标词“苹果”,待处理句子中首次出现的“苹果”对应在词序列中的顺序编号为5,可利用顺序编号5来表示待处理句子中首次出现的“苹果”的出现位置;相似的,待处理句子中第二次出现的“苹果”对应在词序列中的顺序编号为6,那么,可利用顺序编号6来表示第二次出现在待处理句子中的“苹果”的出现位置。
在另一种可能的实施方式中,对于每次出现在待处理句子中的目标词,可将该次出现的目标词的首个字符对应在待处理句子中的字符序号,作为该次出现的目标词在待处理句子中的出现位置。再次参考图3,示例性的待处理句子中,对于目标词“苹果”,待处理句子中首次出现的“苹果”的首个字符“苹”对应在待处理句子中的字符序号为7,可利用字符序号7来表示待处理句子中首次出现的“苹果”的出现位置。
显然,还可能通过其他方式实现表示目标词在待处理句子中的出现位置。
需要说明的是,从目标词在待处理句子中的多个出现位置中选择目标位置时,所选择目标位置的总量应当小于目标词在待处理句子中的多个出现位置的总量,即确保后续过程中对各个目标位置的目标词进行删除之后,得到的标定句子中能够至少保留该目标词的某一次出现,使得标定句子能够成为包含零指代项、且零指代项指代的对象为目标词的句子。
在一个较为具体的示例中,所述从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。通过对目标词在待处理句子中的多个出现位置进行随机选择的方式,有利于相对快速的构造出零指代消解语料。
但是,如果针对目标词在待处理句子中的多个出现位置进行随机选择,在待处理句子中删除各个目标位置的目标词之后,得到的标定句子却可能存在不符合用户的语言习惯的情况。比如,示例性的待处理句子“小明吃了一个苹果,苹果很甜”,如果删除该待处理句子中首次出现的目标词“苹果”,得到的标定句子为“小明吃了一个,苹果很甜”;此时,该标定句子显然不符合用户的语言习惯,也即用户几乎不可能提供与标定句子“小明吃了一个,苹果很甜”语法相似的句子,无论根据包含该标定句子的零指代消解语料构造语法规则库或者训练语言模型,都难以较好的完成对其它句子进行零指代消解。
因此,为了获得较为符合用户的语言习惯的标定句子,在另一个较为具体的示例中,所述从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。
该示例中,对于目标词在待处理句子中的每个出现位置,该出现位置对应的条件概率越大,则说明多数用户在表达该句子期望表达的语义时,具有较大的概率会省略该出现位置出现的目标词,也即对条件概率较大的出现位置出现的目标词进行删除之后,得到的标定句子具有更大的概率符合用户的语言习惯。
该示例中,数据集中包含的多个样本句子均应当是较为符合用户的语言习惯的句子;具体地,样本句子可以是人工对句子进行语义分析之后,已经标注零指代项(即标注出零指代项在句子中的位置)及其指代的对象的句子。
在一个更为具体的示例中,所述根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率,包括:从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。
仍然以图3中所示的待处理句子为例,从数据集中确定出多个包含目标词“苹果”的目标句子之后,对于每个目标句子,可获取到指代目标词“苹果”的零指代项在该目标句子中的第一位置,以及获取目标词“苹果”在目标句子中的第二位置。假定多个目标句子中,指代目标词“苹果”的零指代项在其所属目标句子中的第一位置,位于其指代的目标词“苹果”在其所属目标句子中的第二位置之前的第一频次为a,指代目标词“苹果”的零指代项在其所属目标句子中的第一位置,位于其指代的目标词“苹果”在其所属目标句子中的第二位置之后的第二频次为b。那么,对于待处理句子“小明吃了一个苹果,苹果很甜”中的目标词苹果,可计算出“苹果”在待处理句子中的第一个出现位置被零指代项指代的条件概率为a/(a+b),计算出“苹果”在待处理句子中的第二个出现位置被零指代项指代的条件概率为b/(a+b)。
根据一个具体实施例,假定条件概率b/(a+b)大于条件概率a/(a+b),即,待处理句子中“苹果”在第二个出现位置具有更高的被零指代项指代的条件概率,那么就删除第二个出现位置的“苹果”,得到标定句子“小明吃了一个苹果,很甜”。
相应的,在步骤29,将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。
请再次参考图3,可将标定句子“小明吃了一个苹果,很甜”与目标位置“5”以及目标词“苹果”组合,得到一条零指代消解语料。
需要说明的是,对于构建辅助实现对句子进行零指代消解的语法规则库而言,可使用大规模的由标定句子、目标词以及目标位置组合得到的零指代消解语料。对于训练用于预测句子包含的零指代项及其指代的对象的语言模型而言,除需要使用大量由标定句子、目标词以及目标位置组合得到的零指代消解语料作为正样本之外,还需要使用一部分未包含零指代项的句子作为负样本。
相应的,为了获得用于训练语言模型的、作为负样本的零指代消解语料,在一种可能的实施方式中,所述方法还包括:在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。
该实施方式中,日常使用的句子中,包含零指代项的句子相对较少,未包含零指代项的句子相对较多;因此,可在获得大规模的、作为正样本的零指代消解语料之后,针对待处理句子包含的各个词中不存在候选词的情况,进一步查询已经得到的各个标定句子中,是否存在标定句子与该待处理句子相同。如果存在一个标定句子与该待处理句子相同,则说明该待处理句子本身可能为包含零指代项的句子,不应作为用于训练语言模型的负样本;反之,则说明该待处理句子可能为未包含零指代项的句子,可以将该待处理句子确定为用于训练语言模型的、作为负样本的零指代消解语料。
综合以上描述可见,通过本申请实施例提供的方法获得零指代消解语料的过程中,无需消耗过多的时间对句子进行语义分析、也无需消耗过多的时间对句子进行标注;相应的,如果能够获得大规模的待处理句子,则能够快速获得大规模的零指代消解语料。因此,在如图2所示实施例的基础上,如图4所示,在一种可能的实施方式中,在所述步骤21之前,所述方法还可以包括如下步骤31~步骤33:步骤31,从网页中采集文本数据;步骤33,对所述文本数据进行数据清洗及预处理,得到待处理文本;步骤35,对所述待处理文本进行分句处理,得到至少一个所述待处理句子。
在步骤31,从网页中采集文本数据。网页中承载的数据通常为公开数据,这些公开数据也易于采集,仅需要对这些公开数据进行简单的处理,即可得到大规模的、能够用于构造零指代消解语料的待处理句子。
具体的,用户还可根据其实际需求选择文本数据的数据源,比如,可将微博、百度百科、发布及管理论文的知识库、管理专利申请文件的知识库等作为数据源,这些数据源下的文本数据在其对应的网页中所占据的比例相对较大,且这些文本数据中实际承载的句子也较为符合用户的语言习惯。一般的,可通过网络爬虫从这些数据源所对应的网页中快速采集文本数据。
接着,在步骤33,对所述文本数据进行数据清洗及预处理,得到待处理文本。从网页中采集的文本数据中,可能还包括其它不利于构造零指代消解语料的字符,通过对文本数据进行数据清洗,可去除文本数据中不利于构造零指代消解语料的字符,比如去除文本数据中包含的HTML(Hyper Text Markup Language,超文本标记语言)标签。而且,通过对完成数据清洗的文本数据进行预处理,可得到满足用户需求的待处理文本;比如,调整进行数据清洗后的文本数据中各个句子、篇章的排版,以便后续从完成预处理的待处理文本中抽取完整的句子。
之后,在步骤35,对所述待处理文本进行分句处理,得到至少一个所述待处理句子。
具体的,可通过待处理文本中表征某个句子已经完整表述的标点符号“。”、“?”、“!”等,对待处理文本进行分句处理,实现从待处理文本中提取出多个完整的句子。不难理解,针对步骤35得到的多个待处理句子,可通过如图2所示的各个步骤快速完成对各个待处理句子进行处理,从而快速获得大规模的零指代消解语料。
基于与方法实施例相同的构思,本说明书实施例还提供了一种构造零指代消解语料的装置,该装置可以由任何具有计算、处理能力的软件、硬件或其组合来实现。一般的,该装置可部署在如图1所示应用场景的计算设备中。
图5示出了一种构造零指代消解语料的装置的结构示意图。
如图5所示,构造零指代消解语料的装置至少可以包括:
分词处理模块51,配置为获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;
词频统计模块53,配置为确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;
第一检测模块55,配置为检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;
句子处理模块57,配置为在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;
语料构造模块59,配置为将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。
在一种可能的实施方式中,所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。
在一种可能的实施方式中,所述装置还包括:
第二检测模块,配置为在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;
负样本确定模块,配置为在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。
在一种可能的实施方式中,所述装置还包括:
数据采集模块,配置为从网页中采集文本数据;
预处理模块,配置为对所述文本数据进行数据清洗及预处理,得到待处理文本;
分句处理模块,配置为对所述待处理文本进行分句处理,得到至少一个所述待处理句子。
在一种可能的实施方式中,所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。
在一种可能的实施方式中,所述句子处理模块57,具体配置为从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。
在一种可能的实施方式中,所述句子处理模块57,包括:
条件概率确定单元,配置为根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;
句子处理单元,配置为根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。
在一种可能的实施方式中,所述条件概率确定单元,具体配置为:从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现说明中任意一个实施例描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能所对应的计算机程序存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令/代码进行传输,以便这些功能所对应的计算机程序被计算机执行时,通过计算机实现本发明任意一个实施例中所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同、相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种构造零指代消解语料的方法,所述方法包括:
获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;
确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;
检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;
在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;
将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。
2.根据权利要求1所述的方法,其中,
所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。
3.根据权利要求2所述的方法,其中,
所述方法还包括:
在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;
在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。
4.根据权利要求1所述的方法,其中,
在所述获取待处理句子对应的词序列之前,还包括:
从网页中采集文本数据;
对所述文本数据进行数据清洗及预处理,得到待处理文本;
对所述待处理文本进行分句处理,得到至少一个所述待处理句子。
5.根据权利要求1所述的方法,其中,
所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。
6.根据权利要求1至5中任一所述的方法,其中,
从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。
7.根据权利要求1至5中任一所述的方法,其中,
所述从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:
根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;
根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。
8.根据权利要求7所述的方法,其中,
所述根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率,包括:
从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;
针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;
确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;
根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。
9.一种构造零指代消解语料的装置,所述装置包括:
分词处理模块,配置为获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;
词频统计模块,配置为确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;
第一检测模块,配置为检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;
句子处理模块,配置为在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;
语料构造模块,配置为将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。
10.根据权利要求9所述的装置,其中,
所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。
11.根据权利要求10所述的装置,其中,
所述装置还包括:
第二检测模块,配置为在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;
负样本确定模块,配置为在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。
12.根据权利要求9所述的装置,其中,
所述装置还包括:
数据采集模块,配置为从网页中采集文本数据;
预处理模块,配置为对所述文本数据进行数据清洗及预处理,得到待处理文本;
分句处理模块,配置为对所述待处理文本进行分句处理,得到至少一个所述待处理句子。
13.根据权利要求9所述的装置,其中,
所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。
14.根据权利要求9至13中任一所述的装置,其中,
所述句子处理模块,具体配置为从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。
15.根据权利要求9至13中任一所述的装置,其中,
所述句子处理模块,包括:
条件概率确定单元,配置为根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;
句子处理单元,配置为根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。
16.根据权利要求15所述的装置,其中,
所述条件概率确定单元,具体配置为:从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN201910635597.XA 2019-07-15 2019-07-15 构造零指代消解语料的方法及装置 Active CN110413996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910635597.XA CN110413996B (zh) 2019-07-15 2019-07-15 构造零指代消解语料的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910635597.XA CN110413996B (zh) 2019-07-15 2019-07-15 构造零指代消解语料的方法及装置

Publications (2)

Publication Number Publication Date
CN110413996A CN110413996A (zh) 2019-11-05
CN110413996B true CN110413996B (zh) 2023-01-31

Family

ID=68361511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910635597.XA Active CN110413996B (zh) 2019-07-15 2019-07-15 构造零指代消解语料的方法及装置

Country Status (1)

Country Link
CN (1) CN110413996B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428490B (zh) * 2020-01-17 2021-05-18 北京理工大学 一种利用语言模型的指代消解弱监督学习方法
CN113011162B (zh) * 2021-03-18 2023-07-28 北京奇艺世纪科技有限公司 一种指代消解方法、装置、电子设备及介质
CN114091467A (zh) * 2021-10-27 2022-02-25 北京奇艺世纪科技有限公司 指代消解模型的训练方法及装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208782A (ja) * 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN105373527A (zh) * 2014-08-27 2016-03-02 中兴通讯股份有限公司 一种省略恢复方法及问答***
CN106815215A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 生成标注库的方法和装置
CN109165386A (zh) * 2017-08-30 2019-01-08 哈尔滨工业大学 一种中文零代词消解方法及***
CN109471919A (zh) * 2018-11-15 2019-03-15 北京搜狗科技发展有限公司 零代词消解方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208782A (ja) * 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN105373527A (zh) * 2014-08-27 2016-03-02 中兴通讯股份有限公司 一种省略恢复方法及问答***
CN106815215A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 生成标注库的方法和装置
CN109165386A (zh) * 2017-08-30 2019-01-08 哈尔滨工业大学 一种中文零代词消解方法及***
CN109471919A (zh) * 2018-11-15 2019-03-15 北京搜狗科技发展有限公司 零代词消解方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZAC.PB: An Annotated Corpus for Zero Anaphora Resolution in Portuguese;Simone Pereira etc;《Student Research Workshop》;20091231;53–59 *
中文篇章零元素语料库构建;孔芳 等;《北京大学学报(自然科学版)》;20190131;15-21 *

Also Published As

Publication number Publication date
CN110413996A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US10496928B2 (en) Non-factoid question-answering system and method
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
CN110413996B (zh) 构造零指代消解语料的方法及装置
JP5544602B2 (ja) 単語意味関係抽出装置及び単語意味関係抽出方法
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
US9772991B2 (en) Text extraction
CN111984851A (zh) 医学资料搜索方法、装置、电子装置及存储介质
CN114036300A (zh) 一种语言模型的训练方法、装置、电子设备及存储介质
JP2022042497A (ja) コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成
CN111563212A (zh) 一种内链添加方法及装置
CN115438162A (zh) 基于知识图谱的疾病问答方法、***、设备及存储介质
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
Patel et al. Approaches of anonymisation of an SMS corpus
Daðason Post-correction of Icelandic OCR text
CN110598217B (zh) 一种点读内容的识别方法、装置、家教机及存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
JP2022042496A (ja) 新しい械学習プロジェクトにおける使用のために適応可能なコーパスの中の既存機械学習プロジェクトのパイプライン内の機能ブロックの自動ラベル付け
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
Liebeskind et al. An algorithmic scheme for statistical thesaurus construction in a morphologically rich language
CN112329478A (zh) 一种构建因果关系确定模型的方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant