CN111414747B

CN111414747B - 一种基于弱监督学习的时间知识模糊测度方法及***

Info

Publication number: CN111414747B
Application number: CN202010118531.6A
Authority: CN
Inventors: 彭德光; 孙健
Original assignee: Chongqing Zhaoguang Technology Co ltd
Current assignee: Chongqing Zhaoguang Technology Co ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-08-18
Anticipated expiration: 2040-02-26
Also published as: CN111414747A

Abstract

本发明提供一种基于弱监督学习的时间知识模糊测度方法及***，包括有：基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；按照包含时间知识的样本对神经网络进行深度学习训练；通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算情节事件中句子中的时间知识的模糊度。本发明建立了一种弱监督的方法，可以从大型文本语料库中识别并提取出叙事段落中的时间知识，依托本方法实现叙事段落中时间知识的计算并实现先后排序，通过此类时间知识可以改善时空关系分类，提升在叙述***互式服务任务方面的性能。

Description

一种基于弱监督学习的时间知识模糊测度方法及***

技术领域

本发明涉及自然语言技术领域，特别是涉及一种基于弱监督学习的时间知识模糊测度方法及***。

背景技术

叙事文本具有双重时间性，可以从这些叙述段落中提取出丰富的时间知识，其中，双重时间性指出叙事故事通常按照时间顺序描述一系列事件，而目前的自然语言不能获取叙事故事中句子之间的丰富的时间“事前/事后”事件知识，因此，我们提出了一种基于弱监督学习的时间知识模糊测度方法及***，来获取叙事故事中句子之间丰富的时间“事前/事后”事件知识。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于弱监督学习的时间知识模糊测度方法及***，用于解决现有技术中存在的技术问题。

为实现上述目的及其他相关目的，本发明提供一种基于弱监督学习的时间知识模糊测度方法，包括有：

基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；

按照所述包含时间知识的样本对神经网络进行深度学习训练；

通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度。

可选地，自定义叙事识别规则为R_n，情节事件中的句子为S_m，其中n，m为正整数；

在某一自定义叙事识别规则中，根据句法和统计规则获取某一句子S_i中的时间知识与另一句子S_j中的时间知识之间的比较关系R；

若R(S_i，S_j)＝1，则所述某一句子S_i发生的物理时间早于所述另一句子S_j发生的物理时间，即T(S_i)>T(S_j)；

若R(S_i，S_j)＝0，则所述某一句子S_i发生的物理时间与所述另一句子S_j发生的物理时间相同，即T(S_i)>T(S_j)；

若R(S_i，S_j)＝-1，则所述某一句子S_i发生的物理时间晚于所述另一句子S_j发生的物理时间，即T(S_i)＜T(S_j)；

将R(S_i，S_j)构成的样本代入深度神经网络中进行学习训练，获取训练后的R(S_i，S_j)；

根据训练后的R(S_i，S_j)计算模糊度，有：其中，k为正整数，i＜m，j＜m。

可选地，所述弱监督包括：

获取种子叙事文本，通过预先训练的统计分类器从种子叙事文本中获取新的叙事；

将所述新的叙事补充至种子叙事文本中，引导统计分类器学习过程的迭代，直至没有新的叙事出现。

可选地，所述统计分类器的预先训练包括：

确定种子叙事文本中的叙事段落以及非叙事段落；

将所述叙事段落作为正例、非叙事段落作为反例，通过所述正例和反例对统计分类器进行训练。

可选地，若所述自定义叙事识别规则为文本规则；

从所述种子叙事文本中获取POS标签、解析树、命名实体、共指链；所述种子叙事文本包括新闻、小说、博客；

根据所述POS标签、解析树、命名实体、公指链将所述统计分类器从第一置信度分值训练至第二置信度分值。

可选地，若所述自定义叙事识别规则为语法规则，则所述语法规则至少包括语法结构、标题句式、文本句式、句子字符；

所述语法结构包括有由连词、副词短语、介词短语的基本结构衍生形成的语法结构。

可选地，若所述自定义叙事识别规则为角色规则，将事件链提及的数量除以叙事段落中的句子数量，计算出此事件链的标准化长度。

可选地，获取事件中排名前n个事件链长度，基于深度学习后的叙事识别规则和事件链长度对候选事件进行排名，获取特定时间出现的概率。

本发明还提供一种基于弱监督学习的时间知识模糊测度***，包括：

样本模块，用于基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；

学习训练模块，用于按照所述包含时间知识的样本对神经网络进行深度学习训练；

计算模块，用于通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度。

如上所述，本发明提供一种基于弱监督学习的时间知识模糊测度方法及***，具有以下有益效果：基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；按照所述包含时间知识的样本对神经网络进行深度学习训练；通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度。本发明建立了一种弱监督的方法，该方法可以从大型文本语料库中识别并提取出叙事段落中的时间知识，依托本方法实现叙事段落中时间知识的计算并实现先后排序，通过此类时间知识可以改善时空关系分类，提升在叙述***互式服务任务方面的性能。

附图说明

图1为基于弱监督学习的时间知识模糊测度方法流程示意图；

图2为基于弱监督学习的时间知识模糊测度***硬件结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1和图2。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

请参阅图1，本实施例提供一种基于弱监督学习的时间知识模糊测度方法，包括以下步骤：

S100，基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；

S200，按照所述包含时间知识的样本对神经网络进行深度学习训练；

S300，通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度。

本发明建立了一种弱监督的方法，该方法可以从大型文本语料库中识别并提取出叙事段落中的时间知识，依托本方法实现叙事段落中时间知识的计算并实现先后排序，通过此类时间知识可以改善时空关系分类，提升在叙述***互式服务任务方面的性能。

具体地，自定义叙事识别规则为R_n，情节事件中的句子为S_m，其中n，m为正整数；

在一示例性实施例中，所述弱监督包括：获取种子叙事文本，通过预先训练的统计分类器从种子叙事文本中获取新的叙事；将所述新的叙事补充至种子叙事文本中，引导统计分类器学习过程的迭代，直至没有新的叙事出现。具体地，弱监督方法被设计成在每两个阶段中捕获叙述的关键元素：

在第一阶段，我们识别出满足严格规则和叙述关键原则的第一批叙述段落；即识别出满足文本规则、语法规则、角色规则的第一批叙述段落。

在第二阶段，我们训练一个统计分类器，使用最初识别的种子叙事文本和一组软特征来捕捉相同的关键原则和叙事的其他文本手段。然后，再次使用分类器从原始文本中识别新的叙事。新发现的故事将被用来补充种子故事，引导学习过程迭代，直到没有足够的新故事被发现。

在一示例性实施例中，所述统计分类器的预先训练包括：确定种子叙事文本中的叙事段落以及非叙事段落；将所述叙事段落作为正例、非叙事段落作为反例，通过所述正例和反例对统计分类器进行训练。具体地，使用第一阶段中确定的种子叙事段落作为正例，我们训练统计分类器以继续识别可能不满足特定规则的更多叙事段落。我们还需准备反例。反例是那些不太可能是叙事的段落，不会表现出情节或主角的特征，但在其他方面类似于种子叙事。我们选择最大熵作为分类器。

在一示例性实施例中，若所述自定义叙事识别规则为文本规则，从所述种子叙事文本中获取POS标签、解析树、命名实体、共指链；所述种子叙事文本包括新闻、小说、博客；根据所述POS标签、解析树、命名实体、公指链将所述统计分类器从第一置信度分值训练至第二置信度分值。具体地，弱监督方法基于所有叙事共享的原则，可以应用于不同的文本源以识别叙事。我们考虑了三种类型的文本：新闻文章、小说、博客；将Stanford Core NLP工具应用于这三个文本语料库，以获取POS标签，解析树，命名实体，共指链等。为了克服自主学习中的语义漂移，将统计分类器产生的初始选择置信度得分设置为0.5，并在每次迭代后将其提高0.05。

在一示例性实施例中，若所述自定义叙事识别规则为语法规则，则所述语法规则至少包括语法结构、标题句式、文本句式、句子字符。所述语法结构包括有由连词、副词短语、介词短语的基本结构衍生形成的语法结构。具体地，用于标识情节事件的语法规则，以先前的叙事学研究为指导；使用上下文无关的语法生成规则来识别以实态语法结构描述事件的句子。具体来说，使用三组语法规则来指定句子的整体语法结构，如下：(1)一个句子有基本的主动语态结构“S！”或一个更复杂的句子结构，它是由连词(CC)、副词短语(ADVP)或介词短语(PP)的基本结构衍生而来；(2)副词的标题必须是过去式；(3)句子的主语是用来表示一个字符的。

在一示例性实施例中，若所述自定义叙事识别规则为角色规则，将事件链提及的数量除以叙事段落中的句子数量，计算出此事件链的标准化长度。具体地，我们指定了一个规则，要求一个记叙文段落必须有一个主角。然后，通过将事件链提及的数量除以段落中的句子数量，计算出此事件链的标准化长度。本申请实施例中，我们要求最长的实体链的规范化长度为0.4，这意味着叙述中40％或更多的句子提及一个字符。更具体地，获取事件中排名前n个事件链长度，基于深度学习后的叙事识别规则和事件链长度对候选事件进行排名，获取特定时间出现的概率。具体地，我们应用基于点对互信息(PMI)的统计指标来衡量事件时间关系的强度，以便识别不特定于任何特定故事的常识。通过学习事件对和更长的事件链，使事件在时间上的“前后”关系中完全有序。具体地，通过利用叙事的双重时间特征，我们仅考虑事件对和具有n个事件的较长事件链，这些事件已作为从叙事段落中提取的至少一个事件序列中的一个片段发生；再基于两个因素对候选事件对进行排名，这两个事件之间的关联程度，以及在特定的时间顺序中出现的频率。采用时间知识模糊测度方法计算相关事件时间的先后关系。

本方法基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；按照所述包含时间知识的样本对神经网络进行深度学习训练；通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度。本发明建立了一种弱监督的方法，可以从大型文本语料库中识别并提取出叙事段落中的时间知识，依托本方法实现叙事段落中时间知识的计算并实现先后排序，通过此类时间知识可以改善时空关系分类，提升在叙述***互式服务任务方面的性能。

如图2所示，本发明还提供一种基于弱监督学习的时间知识模糊测度***，包括：

样本模块M10，用于基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；

学习训练模块M20，用于按照所述包含时间知识的样本对神经网络进行深度学习训练；

计算模块M30，用于通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度。

本***包括样本模块，用于基于弱监督学习自定义叙事识别规则，生成包含时间知识的样本；学习训练模块，用于按照所述包含时间知识的样本对神经网络进行深度学习训练；计算模块，用于通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度。本发明建立了一种弱监督的方法，可以从大型文本语料库中识别并提取出叙事段落中的时间知识，依托本方法实现叙事段落中时间知识的计算并实现先后排序，通过此类时间知识可以改善时空关系分类，提升在叙述***互式服务任务方面的性能。

综上所述，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于弱监督学习的时间知识模糊测度方法，其特征在于，包括以下步骤：

通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度；包括：自定义叙事识别规则为R_n，情节事件中的句子为S_m，其中n，m为正整数；

若R(S_i，S_j)＝-1，则所述某一句子S_i发生的物理时间晚于所述另一句子S_j发生的物理时间，即T(S_i)<T(S_j)；

根据训练后的R(S_i，S_j)计算模糊度，有：其中，k为正整数，i<m，j<m。

2.根据权利要求1所述的基于弱监督学习的时间知识模糊测度方法，其特征在于，所述弱监督包括：

3.根据权利要求2所述的基于弱监督学习的时间知识模糊测度方法，其特征在于：所述统计分类器的预先训练包括：

确定种子叙事文本中的叙事段落以及非叙事段落；

4.根据权利要求2或3所述的基于弱监督学习的时间知识模糊测度方法，其特征在于：若所述自定义叙事识别规则为文本规则；

5.根据权利要求1所述的基于弱监督学习的时间知识模糊测度方法，其特征在于：若所述自定义叙事识别规则为语法规则，则所述语法规则至少包括语法结构、标题句式、文本句式、句子字符；

6.根据权利要求1所述的基于弱监督学习的时间知识模糊测度方法，其特征在于：若所述自定义叙事识别规则为角色规则，将事件链提及的数量除以叙事段落中的句子数量，计算出此事件链的标准化长度。

7.根据权利要求6所述的基于弱监督学习的时间知识模糊测度方法，其特征在于：获取事件中排名前n个事件链长度，基于深度学习后的叙事识别规则和事件链长度对候选事件进行排名，获取特定时间出现的概率。

8.一种基于弱监督学习的时间知识模糊测度***，其特征在于，包括：

计算模块，用于通过深度学习训练后的神经网络获取情节事件中句子中的时间知识，计算所述情节事件中句子中的时间知识的模糊度；包括：自定义叙事识别规则为R_n，情节事件中的句子为S_m，其中n，m为正整数；