CN107766332A - 一种语言模板构建方法及装置 - Google Patents

一种语言模板构建方法及装置 Download PDF

Info

Publication number
CN107766332A
CN107766332A CN201711206648.4A CN201711206648A CN107766332A CN 107766332 A CN107766332 A CN 107766332A CN 201711206648 A CN201711206648 A CN 201711206648A CN 107766332 A CN107766332 A CN 107766332A
Authority
CN
China
Prior art keywords
grammer
summit
subgraph
language template
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711206648.4A
Other languages
English (en)
Inventor
汉斯·乌思克尔特
亚历山德拉·加布里斯萨克
徐飞玉
李宏
塞巴斯蒂安·克劳泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shen Zhi Limitless Artificial Intelligence Technology Co Ltd
Original Assignee
Beijing Shen Zhi Limitless Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shen Zhi Limitless Artificial Intelligence Technology Co Ltd filed Critical Beijing Shen Zhi Limitless Artificial Intelligence Technology Co Ltd
Priority to CN201711206648.4A priority Critical patent/CN107766332A/zh
Publication of CN107766332A publication Critical patent/CN107766332A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种语言模板构建方法和装置,实现提高目标关系抽取准确率的目的。该方法包括:获取训练文本,并基于训练文本构建语法依存图,语法依存图包括训练文本中各顶点和各个顶点之间的语法关系,各顶点包括训练文本中的词和/或词组;从语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点;从语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合,第一语法子图为包含有第一顶点和第二顶点及其之间的语法关系的最小语法子图;根据第一语法子图集合中的第一语法子图,学习生成第一语言模板集合,第一语言模板集合中包括至少一个第一语言模板。

Description

一种语言模板构建方法及装置
技术领域
本申请涉及大数据领域,尤其涉及一种语言模板构建方法及装置。
背景技术
随着大数据的不断发展,如何采用自然语言处理和数据挖掘相关技术从海量信息中帮助用户获取有价值的信息,是当代计算机研究技术迫切的需求,因此关系抽取(Relation Extraction)技术应运而生。关系抽取(Relation Extraction)是的主要目的是从自然语言文本中抽取特定的关系,如亲属关系、收购关系等,以及具有这种关系的实体,例如人、物体、公司等。
关系抽取方法大致包括如下步骤:首先对目标关系(target relation)进行定义,即目标关系中由哪些关系论元(relation argument)构成。然后利用训练语料进行学习,得到表达目标关系的多个语言模板(pattern),语言模板用于总结关系论元之间的语法规律。最后,利用语言模板来在待处理文本中抽取出具有目标关系的文本。由此可见,语言模板的好坏直接影响到目标关系抽取的准确性和召回率。
目前常见的构建语言模板的方法基于语法依存图(dependency graph forsentence),语法依存图反映一句话中基于语法构造的各个词或词组之间的语法关系,例如主语、谓语、宾语等等。当构建出语法依存图之后,根据语法依存图学习得到语言模板。然而,仅基于语法依存图得到的语言模板无法体现出语义信息,所以抽取出来的目标关系的准确率较低。
发明内容
为了解决现有技术中存在的技术问题,本申请实施例提供了一种语言模板构建方法及装置,实现提高目标关系抽取准确率的目的。
本申请实施例提供了一种语言模板构建方法,所述方法包括:
获取训练文本,并基于所述训练文本构建语法依存图,所述语法依存图包括所述训练文本中各顶点和各个顶点之间的语法关系,所述各顶点包括所述训练文本中的词和/或词组;
从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点;
从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合,所述第一语法子图为包含有所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图;
根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合,所述第一语言模板集合中包括至少一个第一语言模板。
可选的,所述根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合包括:
根据第一预设规则对所述第一语法子图集合中的至少一个第一语法子图进行筛选和/或优化,得到由至少一个第二语法子图形成的第二语法子图集合;
根据所述第二语法子图集合中的第二语法子图,学习生成第一语言模板集合;和/或,
所述方法还包括:
按照第二预设规则对所述第一语言模板集合中的第一语言模板进行筛选,得到第二语言模板集合,所述第二语言模板集合中包括至少一个所述第一语言模板。
可选的,所述第一预设规则至少包括以下其中一种:
在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目大于或等于第一预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目小于或等于第二预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目大于或等于第三预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目小于或等于第四预设数目;
在所述第二语法子图中,包含的第二顶点的数目大于或等于第五预设数目;
在所述第二语法子图中,包含的第二顶点的数目小于或等于第六预设数目;
在所述第二语法子图中,包含的有含义的第二顶点的数目大于或等于第七预设数目;
在所述第二语法子图中,包含的有含义的第二顶点的数目小于或等于第八预设数目;
在所述第二语法子图中,包含的所述第二顶点与所述第一顶点之间的路径长度均大于或等于第一预设路径长度;
在所述第二语法子图中,包含的所述第二顶点与第一顶点之间的路径长度均小于或等于第二预设路径长度;
在所述第二语法子图中,包含的每个第二顶点的语义相关度大于或等于预设相关度。
可选的,所述第二预设规则至少包括以下任意一种:
所述第一语言模板中的顶点的词性至少包括第一预设词性;
所述第一语言模板中的顶点的词性不包括第二预设词性;
所述第一语言模板中顶点的数量大于或等于第九预设数目;
所述第一语言模板中第一顶点之间的最大路径长度小于或等于第三预设路径长度;
所述第一语言模板中顶点之间的最大路径长度小于或等于第四预设路径长度。
可选的,所述方法还包括:
根据所述第一语言模板集合或所述第二语言模板集合进行关系抽取,得到关系抽取结果;
依据所述关系抽取结果,对所述第一预设规则的参数和/或所述第二预设规则中的参数进行调整。
可选的,从所述语法依存图中抽取出至少一个第一语法子图包括:
根据所述第一顶点及其之间的语法关系得到包含所述第一顶点的最小语法子图;
根据所述包含所述第一顶点的最小语法子图、所述第二顶点及其之间的语法关系,得到所述至少一个第一语法子图。
本申请实施例还提供了一种语言模板构建装置,所述装置包括:
获取单元,用于获取训练文本,并基于所述训练文本构建语法依存图,所述语法依存图包括所述训练文本中各顶点和各个顶点之间的语法关系,所述各顶点包括所述训练文本中的词和/或词组;
确定单元,用于从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点;
子图抽取单元,用于从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合,所述第一语法子图为包含有所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图;
学习单元,用于根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合,所述第一语言模板集合中包括至少一个第一语言模板。
可选的,所述学习单元,具体用于:
根据第一预设规则对所述第一语法子图集合中的至少一个第一语法子图进行筛选和/或优化,得到由至少一个第二语法子图形成的第二语法子图集合;根据所述第二语法子图集合中的第二语法子图,学习生成第一语言模板集合;
和/或,
所述装置还包括:
筛选单元,用于按照第二预设规则对所述第一语言模板集合中的第一语言模板进行筛选,得到第二语言模板集合,所述第二语言模板集合中包括至少一个所述第一语言模板。
可选的,所述装置还包括:
关系抽取单元,用于根据所述第一语言模板集合或所述第二语言模板集合进行关系抽取,得到关系抽取结果;
参数调整单元,用于依据所述关系抽取结果,对所述第一预设规则的参数和/或所述第二预设规则中的参数进行调整。
本申请通过使在语义上体现目标关系的第二顶点参与第一语言模板的生成,使得第一语言模板能够真正的体现目标关系,从而能够准确的将目标关系抽取出来,提高准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种语言模板构建方法的流程图;
图2为本申请实施例提供的语法依存图的示意图;
图3为本申请实施例提供的包含第一顶点的最小语法子图的示意图;
图4(a)为本申请实施例提供的第一语法子图(a)的示意图;
图4(b)为本申请实施例提供的第一语法子图(b)的示意图;
图4(c)为本申请实施例提供的第一语法子图(c)的示意图;
图5为本申请实施例提供的语言模板的示意图;
图6为本申请实施例提供的另一种语言模板构建方法的流程图;
图7为本申请实施例提供的一种语言模板构建装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种语言模板构建方法的流程图。
本实施例提供的语言模板构建方法包括如下步骤:
S101:获取训练文本,并基于所述训练文本构建语法依存图。
在本实施例中,所述训练文本服务于构建目标关系的语言模板。所谓目标关系是指实体之间的特定关系,例如婚姻关系、债务关系、亲属关系、收购关系等等。作为对目标关系抽取的基础,首先需要对目标关系进行定义,即目标关系由哪些要素构成,这些要素可以被称为关系论元(relation argument)。举例而言,若目标关系为婚姻关系,则关系论元可以包括:配偶、结婚地点、婚姻起始时间、婚姻结束时间等。若目标关系为获奖关系,则关系论元可以包括:获奖者、获奖内容、获奖原因、奖项领域、获奖地点、获奖时间、奖金等。
为了能够从待处理文本中抽取出已定义的目标关系,首先需要基于训练文本构建能够反映目标关系的语言模板,即语言模板用于总结关系论元之间的语法规律。训练文本是反映目标关系的语料,例如一句话、一段话、一篇文章等。
利用训练文本来构建目标关系的语言模板,首先需要基于训练文本分别构建语法依存图。训练文本的个数可以是一个,也可是多个。如果是多个,那么每个训练文本都具有自己的语法依存图。为了描述简便,下面的示例中将以一个语法依存图为例进行介绍。
语法依存图包括对应训练文本中各顶点和各顶点之间的语法关系。顶点是指训练文本中的最小语法元素,包括训练文本中具有独立含义的词和/或词组,其中词和词组的区别在于,词具有单个独立含义,而词组具有多个独立的含义。相同意思的一句话翻译成不同的语言,其语法依存图可能会不同。为了描述简便,下文都用英文进行举例示意。当然,可以理解的是,英文并不是本申请所适用的唯一一种语言,本申请还可以适用于其他语言,例如中文、日语、韩语等等。
以英文为例,假设训练文本为“Brad Pitt celebrated a wonderful weddingwith Jennifer Aniston at Church.”分析该训练文本的语法可以得到,该训练文本可以包括如下顶点:“Brad Pitt”、“celebrated”、“a”、“wonderful”、“wedding”、“with”、“Jennifer Aniston”、“at”和“Church”。其中,各个顶点之间的语法关系为:顶点“BradPitt”为动词“celebrated”的名词主语(nsubj),顶点“wedding”是动词“celebrated”的动词宾语(dobj),顶点“with”是动词“celebrated”的介词(prep),顶点“Jennifer Aniston”是介词“with”的介词宾语(pobj),冠词“a”是顶点“wedding”的限定词(det),形容词“wonderful”是顶点“wedding”的另一个限定词(det),顶点“at”是动词“celebrated”的介词(prep),顶点“Church”是顶点“at”的介词宾语(pobj)。根据上述顶点和语法关系,可以构建例如图2的语法依存图。
在语法依存图中,顶点之间的语法关系可以表现为由一个根顶点和若干子顶点构成的一个图形结构。例如在图2中,根顶点为“celebrated”,与根顶点直接连接的子顶点有四个,它们分别为“Brad Pitt”、“wedding”、“with”和“at”,与“wedding”连接的子顶点为“a”和“wonderful”,与子顶点“with”连接的子顶点为“Jennifer Aniston”,与子顶点“at”连接的子顶点为“Church”。
在实际应用中,这种图形结构可以例如采用链表结构来实现。链表结构由一系列节点构成,每个节点包括两个部分,一个部分是存储数据的数据域,另外一个部分是存储下一个节点地址的指针域。以根顶点“celebrated”和子顶点“with”为例,根顶点“celebrated”对应一个节点,该节点的数据域存储有“celebrated”,指针域中存储有子顶点“with”对应的子节点的地址,子节点的数字域中存储有“with”,子节点的指针域存储有下一个子节点(子顶点“Jennifer Aniston”对应的子节点)的地址。当然,表达图形结构并不局限于采用链表结构,本领域技术人员还可以采用其他方式来表达。
S102:从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点。
在本实施例中,从语法依存图中确定两类顶点,一类顶点为与关系论元匹配的第一顶点,也就是关系论元的关系实例;另外一类顶点为与目标关系在语义上匹配的第二顶点。
举例而言,假设目标关系为婚姻关系,关系论元包括:配偶、婚姻起始时间和婚姻结束时间。在图2示出的语法依存图中,关系论元配偶具有关系实例“Brad Pitt”和“Jennifer Aniston”,且没有与关系论元婚姻起始时间和婚姻结束时间对应的关系实例,因此,所述第一顶点包括“Brad Pitt”和“Jennifer Aniston”。
确定与目标关系在语义上匹配的第二顶点,其中一种可能的实现方式可以是:首先构建能够表现目标关系的语义词集合,该语义词集合中可以包括词和/或词组。例如,能够表现婚姻关系的语义词集合可以包括如下语义词:wedding celebrating、marriage、exchange rings、church、wedding photo等等。在得到语义词集合之后,找到语法依存图中与语义词集合中的语义词相同或在语义上相近的顶点,形成第二顶点。比如,图2中与表现婚姻的语义词集合相匹配的第二顶点包括“celebrated”“wedding”和“church”。
可以理解的是,第一顶点和第二顶点之间可以有交叉,即一个顶点可以既是第一顶点又是第二顶点;第一顶点和第二顶点之间也可以没有交叉,例如图2对应的例子。
S103:从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合。
在本实施例中,在得到与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点之后,从语法依存图中可以抽取出一个或多个第一语法子图,形成第一语法子图集合。其中,第一语法子图为包含有该语法依存图中所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图。
作为其中一种可能实现的方式,从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合包括:首先根据所述第一顶点及其之间的语法关系得到包含所述第一顶点的最小语法子图,然后根据所述包含所述第一顶点的最小语法子图、所述第二顶点及其之间的语法关系,得到所述至少一个第一语法子图。
以图2为例,第一顶点包括“Brad Pitt”和“Jennifer Aniston”,由于根顶点为“celebrated”,顶点“Brad Pitt”与顶点“celebrated”直接连接,而顶点“JenniferAniston”与顶点“celebrated”通过顶点“with”连接,所以,参见图3,包含第一顶点的最小语法子图包括的顶点有“Brad Pitt”、“celebrated”、“with”和“Jennifer Aniston”。
在得到图3包含第一顶点的最小语法子图后,根据图3和第二顶点“celebrated”“wedding”和“church”得到至少一个第一语法子图。由于顶点“celebrated”已经存在于所述包含第一顶点的最小语法子图中,所以可以根据图3和第二顶点“wedding”和“church”得到第一语法子图集合。
若第一语法子图集合中有多个第一语法子图,那么不同的第一语法子图,相同的地方在于包括全部的第一顶点,不同的地方在于,包括的第二顶点不同。
例如,基于图2和图3,可以生成如下三个第一语法子图中的一个或多个:
1、根据图3和第二顶点“wedding”得到第一语法子图(a)。由于顶点“wedding”与根顶点“celebrated”直接连接,所以,如图4(a)所示,第一语法子图(a)包括的顶点有:“BradPitt”、“celebrated”、“wedding”、“with”和“Jennifer Aniston”。
2、根据图3和第二顶点“church”得到第一语法子图(b)。由于顶点“church”通过顶点“at”与根顶点“celebrated”连接,所以,如图4(b)所示,第一语法子图(b)包括的顶点有:“Brad Pitt”、“celebrated”、“with”“Jennifer Aniston”、“at”和“church”。
3、根据图3和第二顶点“wedding”与“church”得到第一语法子图(c)。由于顶点“wedding”与根顶点“celebrated”直接连接,顶点“church”通过顶点“at”与根顶点“celebrated”连接,所以,如图4(c)所示,第一语法子图(c)包括的顶点有:“Brad Pitt”、“celebrated”、“wedding”、“with”“Jennifer Aniston”、“at”和“church”。
S104:根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合。
当得到第一语法子图集合之后,根据第一语法子图集合中的至少一个第一语法子图,学习生成第一语言模板集合,所述第一语言模板集合中包括至少一个第一语言模板。其中,一个第一语法子图可以学习生成一个或多个第一语言模板。至于如何根据语法子图学习生成语言模板是本领域技术人员的常规技术手段,此处不再赘述。
如前文所述,语言模板用于总结关系论元之间的语法规律,因此在语言模板中定义了关系论元的属性和关系论元之间的语法关系。在图2中,关系论元为配偶“Brad Pitt”和“Jennifer Aniston”,根据第一语法子图4(c)例如可以得到图5所示的语言模板。在该语言模板中,包括输入模块和输出模块,输入模块包括根顶点(head表示顶点)“celebrate”(词性为动词),以及该根顶点的子顶点“wedding”(词性为名词)、子顶点“person”(该顶点为命名实体“Brad Pitt”的属性,即人物)、子顶点“with”(词性是介词)以及子顶点“at”(词性是介词)。其中子顶点“wedding”为根顶点的动词宾语,子顶点“person”为根顶点的名词主语,子顶点“with”为根顶点的介词,子顶点“at”为根顶点的介词。此外,子顶点“with”还具有一个下级子顶点“person”(该顶点为命名实体“Jennifer Aniston”的属性,即人物),下级子顶点“person”为子顶点“with”的介词宾语。子顶点“at”还具有一个下级子顶点“church”,下级子顶点“church”为子顶点“at”的介词宾语。
该语言模板的输出为名词主语“person”和下级子顶点“person”。也就是说,通过该语言模板,可以抽取出在教堂中庆祝婚礼的人物A和人物B。
本实施例的有益效果为:
现有技术中构建语言模板的方法仅基于语法依存图,也就是说,当获取到第一顶点之后,就直接根据第一顶点构建语言模板。如图3所示,包含第一顶点的最小语法子图包括的顶点有“Brad Pitt”、“celebrated”、“with”和“Jennifer Aniston”,也就是说,从包含第一顶点的最小语法子图中仅仅可以知道人物“Brad Pitt”和人物“Jennifer Aniston”之间在庆祝(“celebrated”),庆祝什么不知道,体现不出来想要的目标关系,即婚姻关系,所以仅根据包含第一顶点的最小语法子图得到的语言模板无法准确的将婚姻关系抽取出来,准确率低下,究其根本原因,在于仅基于语法依存图学习得到的语言模板无法体现出表示目标关系的语义信息。
而在本实施例中,第一语言模板集合中的每个第一语言模板,都是根据包含有各自语法依存图中第一顶点和第二顶点及其之间的语法关系的最小语法子图学习生成的,其中,第一顶点为与关系论元匹配的顶点,第二顶点为与目标关系在语义上匹配的顶点。也就是说,本实施例通过使在语义上体现目标关系的第二顶点参与第一语言模板的生成,使得第一语言模板能够真正的体现目标关系,从而能够准确的将目标关系抽取出来,提高准确率。
例如在图4(a)中,第一语法子图(a)包括的顶点有:“Brad Pitt”、“celebrated”、“wedding”、“with”和“Jennifer Aniston”,该第一语法子图(a)不仅知道人物(关系论元)“Brad Pitt”和人物(关系论元)“Jennifer Aniston”在庆祝,而且还知道在庆祝婚礼,而庆祝婚礼就是对目标关系的体现,所以根据该第一语法子图(a)生成的第一语言模板就能够更加准确的将婚礼关系抽取出来。
同理,在图4(b)中,第一语法子图(b)包括的顶点有:“Brad Pitt”、“celebrated”、“with”、“Jennifer Aniston”、“at”和“church”,在该第一语法子图(b)中,不仅知道人物“Brad Pitt”和人物“Jennifer Aniston”在庆祝,而且还知道在教堂(“church”)庆祝,而在教堂庆祝在一定程度上能够体现庆祝的内容是婚礼,由于庆祝婚礼是对目标关系的体现,所以相比于现有技术,根据该第一语法子图(b)生成的第一语言模板也能够更加准确的将婚礼关系抽取出来。
而在图4(c)中,第一语法子图(c)即囊括了第二顶点“wedding”,又囊括了第二顶点“church”,所以不仅知道人物“Brad Pitt”和人物“Jennifer Aniston”在庆祝婚礼,而且还知道在教堂(“church”)庆祝,双重信息更加能够反映“Brad Pitt”和“JenniferAniston”具有婚姻关系,所以进行关系抽取会更加准确。
理论上来讲,第一语法子图中包括的第二顶点的数量越多,在进行关系抽取时准确率就会越高,但是,相应的,召回率就越低。为了达到在准确率和召回率上的平衡,本申请实施例还提供的另外一种语言模板构建方法。参见图6,本实施例提供的语言模板构建方法包括如下步骤:
S201:获取训练文本,并基于所述训练文本构建各自的语法依存图。
所述语法依存图包括所述训练文本中各顶点和各个顶点之间的语法关系,所述各顶点包括所述训练文本中的词和/或词组。
S202:从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点。
S203:从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合。
所述第一语法子图为包含有该语法依存图中所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图。
S201至S203与步骤S101至S103相同,详细的解释请参见上文,此处不再赘述。
S204:根据第一预设规则对所述第一语法子图集合中的至少一个第一语法子图进行筛选和/或优化,得到由至少一个第二语法子图形成的第二语法子图集合。
在本实施例中,对第一语法子图集合中至少一个第一语法子图进行筛选和/或优化。筛选的含义是保留或删除第一语法子图,通过对第一语法子图进行筛选,得到召回率较高的第一语法子图集合。优化的含义是通过减少第一语法子图中第二顶点的数量,实现得到召回率较高的第一语法子图集合的目的。不论是哪种方式,具体的,都是根据对第一语法子图中第二顶点的筛选,形成符合第一预设规则的第二语法子图集合。
其中,所述第一预设规则包括但不限于以下任意一种或多种:
在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目大于或等于第一预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目小于或等于第二预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目大于或等于第三预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目小于或等于第四预设数目;
在所述第二语法子图中,包含的第二顶点的数目大于或等于第五预设数目;
在所述第二语法子图中,包含的第二顶点的数目小于或等于第六预设数目;
在所述第二语法子图中,包含的有含义的第二顶点的数目大于或等于第七预设数目;
在所述第二语法子图中,包含的有含义的第二顶点的数目小于或等于第八预设数目;
在所述第二语法子图中,包含的每个第二顶点与每个第一顶点之间的路径长度均大于或等于第一预设路径长度;
在所述第二语法子图中,包含的每个第二顶点与每个第一顶点之间的路径长度均小于或等于第二预设路径长度。
在所述第二语法子图中,包含的每个第二顶点的语义相关度大于或等于预设相关度。
上述第一预设规则中的每个规则可以单一使用,也可以组合使用,本申请不做具体限定。下面一个第一语法子图,且组合使用上述介绍的第一预设规则为例介绍,介绍如何对第一语法子图进行筛选和优化。
S2041:判断第一语法子图中,包含的第二顶点的语义相关度是否大于或等于预设相关度,若是,则保留该第二顶点;若否,则删除该第二顶点。
语义相关度是指第二顶点在语义上表达目标关系的程度。比如说,假设目标关系为婚姻关系,那么“wedding”的语义相关度比“church”的语义相关度高。通过语义相关度来实现对第一语法子图中第二顶点的筛选,从而进一步实现对语言模板的筛选。
S2042:判断第一语法子图中,包含第一顶点的最小语法子图之内的剩余第二顶点的数目是否大于或等于第一预设数目,若否,则执行S2043;若是,则执行S2044。
例如,在图3中,包含第一顶点的最小语法子图包括的顶点有“Brad Pitt”、“celebrated”、“with”和“Jennifer Aniston”,其中“celebrated”为第二顶点,那么包含第一顶点的最小语法子图之内的第二顶点即为“celebrated”。
另外,“剩余第二顶点”指的是经过S2041之后得到的第二顶点。
S2043:删除该第一语法子图,结束流程。
此处,结束流程是指对该第一语法子图的筛选和优化流程结束,在实际应用中,可以令下一个第一语法子图执行S2041至S2045,直到最后一个第一语法子图。
S2044:判断在第一语法子图中,包含第一顶点的最小语法子图之外的剩余第二顶点的数目是否小于或等于第二预设数目,若否,则执行S2044;若是,则保留该第一语法子图。
例如,在图4(c)中,包含第一顶点的最小语法子图包括的顶点有“Brad Pitt”、“celebrated”、“with”和“Jennifer Aniston”,而第二顶点包括“celebrated”、“wedding”和“church”,所以,包含第一顶点的最小语法子图之外的第二顶点为“wedding”和“church”。
S2045:将包含第一顶点的最小语法子图之外的、与第一顶点之间的路径长度大于或等于第一预设路径长度的剩余第二顶点删除。
两个顶点之间的路径长度表示两个顶点之间的连接关系。例如,在图2中,顶点“Brad Pitt”和顶点“celebrated”是直接连接的,所以它们之间的路径长度为1;而顶点“celebrated”和顶点“Jennifer Aniston”是通过顶点“with”连接的,所以顶点“celebrated”和顶点“Jennifer Aniston”之间的路径长度为2,以此类推。
经过S2041至S2045的筛选和优化流程,一个第一语法子图的结果可能是被删除、其中部分第二顶点被删除、全部第二顶点被保留等结果,无论哪种结果,其最终形成的第二语法子图集合能够比第一语法子图集合具有更好的关系抽取效果。
另外,需要说明的是,在第一预设规则中,“有含义”是指具有独立的意义,这类顶点一般不包括语气助词等无独立意义的词。
S205:根据所述第二语法子图集合中的第二语法子图,学习生成第一语言模板集合。
S206:按照第二预设规则对所述第一语言模板集合中的第一语言模板进行筛选,得到第二语言模板集合。
在本实施例中,不仅可以通过S204和S205来实现对语言模板的筛选和优化,还可以通过S206来实现。S204和S205提供的优化方案以及S206提供的筛选优化方案可以选其一执行,也可以同时执行。
S206是在第一语言模板集合形成之后,按照第二预设规则从第一语言模板中进行筛选,得到关系抽取效果更好的第二语言模板集合。
具体的,第二预设规则包括但不限于以下任意一种或多种:
所述第一语言模板中的顶点的词性至少包括第一预设词性;
所述第一语言模板中的顶点的词性不包括第二预设词性;
所述第一语言模板中顶点的数量大于或等于第九预设数目;
所述第一语言模板中第一顶点之间的最大路径长度小于或等于第三预设路径长度;
所述第一语言模板中顶点之间的最大路径长度小于或等于第四预设路径长度。
如果第一语言模板不符合第二预设规则,则删除该第一语言模板;若符合,则保留。最终将保留的第一语言模板形成第二语言模板集合。
在本实施例中,由于通过第一预设规则对第一语法子图进行筛选和/或优化,以及通过第二预设规则对第一语言模板进行筛选,都是通过对第二顶点在数量上筛选进行的,单一的使用或组合不同的第一预设规则和/或第二预设规则,可以实现在准确率和召回率之间的平衡,满足对准确率和召回率的不同需求。
此外,可选的,为了进一步提高目标关系的抽取效果,还可以根据所述第一语言模板集合或所述第二语言模板集合进行关系抽取,得到关系抽取结果,然后,依据所述关系抽取结果,对第一预设规则的参数和/或所述第二预设规则中的参数进行调整。
上述每条预设规则都对应有各自的参数,例如,在第一预设规则“在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目大于或等于第一预设数目”中,参数为第一预设数目;在第一预设规则“在所述第二语法子图中,包含的每个第二顶点的语义相关度大于或等于预设相关度”中,参数为预设相关度;在第二预设规则“所述第一语言模板中的顶点的词性至少包括第一预设词性”中,参数为第一预设词性。
通过利用若干组参数进行试验,可以拟合得到关系抽取结果和参数之间的函数关系,从而根据该函数关系确定出最佳的参数。
基于以上实施例提供的一种语言模板构建方法,本申请实施例还提供了一种语言模板构建装置,下面结合附图来详细说明其工作原理。
参见图7,该图为本申请实施例提供的一种语言模板构建装置的结构框图。
本实施例提供的语言模板构建装置包括:
获取单元101,用于获取训练文本,并基于所述训练文本构建语法依存图,所述语法依存图包括所述训练文本中各顶点和各个顶点之间的语法关系,所述各顶点包括所述训练文本中的词和/或词组;
确定单元102,用于从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点;
子图抽取单元103,用于从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合,所述第一语法子图为包含有所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图;
学习单元104,用于根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合,所述第一语言模板集合中包括至少一个第一语言模板。
本实施例通过使在语义上体现目标关系的第二顶点参与第一语言模板的生成,使得第一语言模板能够真正的体现目标关系,从而能够准确的将目标关系抽取出来,提高准确率。
可选的,所述学习单元104,具体用于:
根据第一预设规则对所述第一语法子图集合中的至少一个第一语法子图进行筛选和/或优化,得到由至少一个第二语法子图形成的第二语法子图集合;根据所述第二语法子图集合中的第二语法子图,学习生成第一语言模板集合;
和/或,
所述装置还包括:
筛选单元,用于按照第二预设规则对所述第一语言模板集合中的第一语言模板进行筛选,得到第二语言模板集合,所述第二语言模板集合中包括至少一个所述第一语言模板。
可选的,所述装置还包括:
关系抽取单元,用于根据所述第一语言模板集合或所述第二语言模板集合进行关系抽取,得到关系抽取结果;
参数调整单元,用于依据所述关系抽取结果,对所述第一预设规则的参数和/或所述第二预设规则中的参数进行调整。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种语言模板构建方法,其特征在于,所述方法包括:
获取训练文本,并基于所述训练文本构建语法依存图,所述语法依存图包括所述训练文本中各顶点和各个顶点之间的语法关系,所述各顶点包括所述训练文本中的词和/或词组;
从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点;
从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合,所述第一语法子图为包含有所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图;
根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合,所述第一语言模板集合中包括至少一个第一语言模板。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合包括:
根据第一预设规则对所述第一语法子图集合中的至少一个第一语法子图进行筛选和/或优化,得到由至少一个第二语法子图形成的第二语法子图集合;
根据所述第二语法子图集合中的第二语法子图,学习生成第一语言模板集合;和/或,
所述方法还包括:
按照第二预设规则对所述第一语言模板集合中的第一语言模板进行筛选,得到第二语言模板集合,所述第二语言模板集合中包括至少一个所述第一语言模板。
3.根据权利要求2所述的方法,其特征在于,所述第一预设规则至少包括以下其中一种:
在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目大于或等于第一预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之内的第二顶点的数目小于或等于第二预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目大于或等于第三预设数目;
在所述第二语法子图中,包含所述第一顶点的最小语法子图之外的第二顶点的数目小于或等于第四预设数目;
在所述第二语法子图中,包含的第二顶点的数目大于或等于第五预设数目;
在所述第二语法子图中,包含的第二顶点的数目小于或等于第六预设数目;
在所述第二语法子图中,包含的有含义的第二顶点的数目大于或等于第七预设数目;
在所述第二语法子图中,包含的有含义的第二顶点的数目小于或等于第八预设数目;
在所述第二语法子图中,包含的所述第二顶点与所述第一顶点之间的路径长度均大于或等于第一预设路径长度;
在所述第二语法子图中,包含的所述第二顶点与第一顶点之间的路径长度均小于或等于第二预设路径长度;
在所述第二语法子图中,包含的每个第二顶点的语义相关度大于或等于预设相关度。
4.根据权利要求2所述的方法,其特征在于,所述第二预设规则至少包括以下任意一种:
所述第一语言模板中的顶点的词性至少包括第一预设词性;
所述第一语言模板中的顶点的词性不包括第二预设词性;
所述第一语言模板中顶点的数量大于或等于第九预设数目;
所述第一语言模板中第一顶点之间的最大路径长度小于或等于第三预设路径长度;
所述第一语言模板中顶点之间的最大路径长度小于或等于第四预设路径长度。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述第一语言模板集合或所述第二语言模板集合进行关系抽取,得到关系抽取结果;
依据所述关系抽取结果,对所述第一预设规则的参数和/或所述第二预设规则中的参数进行调整。
6.根据权利要求1所述的方法,其特征在于,从所述语法依存图中抽取出至少一个第一语法子图包括:
根据所述第一顶点及其之间的语法关系得到包含所述第一顶点的最小语法子图;
根据所述包含所述第一顶点的最小语法子图、所述第二顶点及其之间的语法关系,得到所述至少一个第一语法子图。
7.一种语言模板构建装置,其特征在于,所述装置包括:
获取单元,用于获取训练文本,并基于所述训练文本构建语法依存图,所述语法依存图包括所述训练文本中各顶点和各个顶点之间的语法关系,所述各顶点包括所述训练文本中的词和/或词组;
确定单元,用于从所述语法依存图的各顶点中确定与关系论元匹配的第一顶点以及确定与目标关系在语义上匹配的第二顶点;
子图抽取单元,用于从所述语法依存图中抽取出至少一个第一语法子图,形成第一语法子图集合,所述第一语法子图为包含有所述第一顶点和所述第二顶点及其之间的语法关系的最小语法子图;
学习单元,用于根据所述第一语法子图集合中的第一语法子图,学习生成第一语言模板集合,所述第一语言模板集合中包括至少一个第一语言模板。
8.根据权利要求7所述的装置,其特征在于,所述学习单元,具体用于:
根据第一预设规则对所述第一语法子图集合中的至少一个第一语法子图进行筛选和/或优化,得到由至少一个第二语法子图形成的第二语法子图集合;根据所述第二语法子图集合中的第二语法子图,学习生成第一语言模板集合;
和/或,
所述装置还包括:
筛选单元,用于按照第二预设规则对所述第一语言模板集合中的第一语言模板进行筛选,得到第二语言模板集合,所述第二语言模板集合中包括至少一个所述第一语言模板。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
关系抽取单元,用于根据所述第一语言模板集合或所述第二语言模板集合进行关系抽取,得到关系抽取结果;
参数调整单元,用于依据所述关系抽取结果,对所述第一预设规则的参数和/或所述第二预设规则中的参数进行调整。
CN201711206648.4A 2017-11-27 2017-11-27 一种语言模板构建方法及装置 Withdrawn CN107766332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711206648.4A CN107766332A (zh) 2017-11-27 2017-11-27 一种语言模板构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711206648.4A CN107766332A (zh) 2017-11-27 2017-11-27 一种语言模板构建方法及装置

Publications (1)

Publication Number Publication Date
CN107766332A true CN107766332A (zh) 2018-03-06

Family

ID=61276185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711206648.4A Withdrawn CN107766332A (zh) 2017-11-27 2017-11-27 一种语言模板构建方法及装置

Country Status (1)

Country Link
CN (1) CN107766332A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507733A (zh) * 2020-11-06 2021-03-16 昆明理工大学 基于依存图网络的汉越神经机器翻译方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及***
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及***
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEBASTIAN KRAUSE: "Sar-graphs: A language resource connecting linguistic knowledge with semantic relations from knowledge graphs", 《WEB SEMANTICS: SCIENCE, SERVICES AND AGENTS ON THE WORLD WIDE WEB》 *
李宏 等: "简单本体在实用信息抽取中的使用及针对实用本体的高级信息抽取", 《当代语言学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507733A (zh) * 2020-11-06 2021-03-16 昆明理工大学 基于依存图网络的汉越神经机器翻译方法

Similar Documents

Publication Publication Date Title
US11113304B2 (en) Techniques for creating computer generated notes
EP2956931B1 (en) Facilitating development of a spoken natural language interface
CN104252533B (zh) 搜索方法和搜索装置
US9633005B2 (en) Exhaustive automatic processing of textual information
US20160132590A1 (en) Answering Questions Via a Persona-Based Natural Language Processing (NLP) System
CN105447080B (zh) 一种社区问答搜索中的查询补全方法
EP2643770A2 (en) Text segmentation with multiple granularity levels
US10713429B2 (en) Joining web data with spreadsheet data using examples
JP2015511746A (ja) 会話式情報検索システムおよび方法
CN102622453A (zh) 基于本体的食品安全事件语义检索***
JP7297458B2 (ja) 対話コンテンツ作成支援方法
Brown et al. Mechanized margin to digitized center: black feminism's contributions to combatting erasure within the digital humanities
RU2646380C1 (ru) Использование верифицированных пользователем данных для обучения моделей уверенности
WO2020229889A1 (en) Natural language text generation using semantic objects
Martinez-Rico et al. Can deep learning techniques improve classification performance of vandalism detection in Wikipedia?
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
Szmrecsanyi Diachronic probabilistic grammar
RU2640718C1 (ru) Верификация атрибутов информационных объектов
CN107766332A (zh) 一种语言模板构建方法及装置
WO2023103914A1 (zh) 文本情感分析方法、装置及计算机可读存储介质
Kunilovskaya et al. Translationese and register variation in English-to-Russian professional translation
KR102626714B1 (ko) 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치
JPWO2007010836A1 (ja) コミュニティ特有表現検出装置及び方法
JP3855058B2 (ja) 言い換えを利用した文章作成支援処理装置および方法
Revanth et al. Nl2sql: Natural language to sql query translator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180306