CN112966477B

CN112966477B - 一种基于序列标注的把字句和被字句陈述化方法及***

Info

Publication number: CN112966477B
Application number: CN202110253306.8A
Authority: CN
Inventors: 王功明; 张娴; 周庆勇
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2023-08-29
Anticipated expiration: 2041-03-05
Also published as: CN112966477A

Abstract

本发明公开一种基于序列标注的把字句和被字句陈述化方法，涉及自然语言处理技术领域，其实现过程包括：采用BIES方法，对把字句和被字句中的每个单字进行序列标注；以把字句或被字句作为输入，以序列标注结果作为输出，训练基于端到端的序列标注模型；使用训练得到的序列标注模型对把字句或被字句进行序列标注；根据序列标注模型的标注结果提取把字句或被字句的构成要素；按照句式“施事者+动作+其它+受事者”，将把字句或被字句的构成要素组成为陈述句。本发明还公开一种基于序列标注的把字句和被字句陈述化***，其与前述方案相结合，可以解决自然语言处理领域方法处理把字句和被字句时存在的效率低、准确性差等问题。

Description

一种基于序列标注的把字句和被字句陈述化方法及***

技术领域

本发明涉及自然语言处理技术领域，具体的说是一种基于序列标注的把字句和被字句陈述化方法及***。

背景技术

把字句是汉语中的主动式动词谓语句，用来强调行为结果或行为方式。这种句式又称为“处置式”，因为动词所表示的动作对宾语进行了“处置”，使其属性(例如位置或状态)发生改变。这种句式的基本结构是：施事者+把+受事者+动作+其他，例如：奔流不息的洪水把人们回家的路淹没了。

被字句是指在核心动词前面，用介词“被(给、叫、让)”引出施事或单用“被”表示被动的主谓句。这种句式的基本结构是：受事者+被+施事者+动作+其他，例如：人们回家的路被奔流不息的洪水淹没了。

在现代汉语中，把字句和被字句是常用的特殊句式，是语言学的研究重点，也是自然语言处理的语料来源。但是，自然语言处理领域的方法没有考虑把字句和被字句的结构特点，这就使得训练出来的模型主要适用于陈述句，处理把字句和被字句时存在效率低、精度差等问题。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种基于序列标注的把字句和被字句陈述化方法及***，来提高把字句和被字句的处理效果。

首先，本发明公开一种基于序列标注的把字句和被字句陈述化方法，来解决上述技术问题，所采用的技术方案如下：

一种基于序列标注的把字句和被字句陈述化方法，包括如下步骤：

S1、采用BIES方法，对把字句和被字句中的每个单字进行序列标注；

S2、标注完成后，以把字句或被字句作为输入，以序列标注结果作为输出，训练基于端到端的序列标注模型；

S3、使用训练得到的序列标注模型对把字句或被字句进行序列标注；

S4、根据序列标注模型的标注结果提取把字句或被字句的构成要素；

S5、按照句式“施事者+动作+其它+受事者”，将把字句或被字句的构成要素组成为陈述句。

可选的，把字句或被字句的构成要素采用下述符号表示：

施事者：Sub；

受事者：Obj；

把字句标记介词“把”：Vba；

被字句标记介词“被/给/叫/让”：Vbei；

动作：Verb；

其它：Oth；

每个构成要素由一个或多个单字组成，借助BIES方法对每个单字进行序列标注，其中，B表示构成要素开始，I表示构成要素中间，E表示构成要素结束，S表示由单字形成的构成要素；

将上述4种标记添加到构成要素符号的前面，即形成单字的标签。

可选的，基于端到端的序列标注模型包括：

序列单字层，用于将把字句和被字句中的单字，按照单字出现的先后顺序，转换为单字构成的序列；

字嵌入层，用于根据静态字嵌入模型，生成序列单字对应的静态向量；

动态编码层，用于根据句子上下文关系，对序列单字进行重新编码，进而生成对应的动态向量；

网络分类层，用于根据序列单字的动态向量进行分类，生成不同标签类型的发射概率；

约束优化层，用于根据句子上下文约束，以及序列单字标签路径概率最大化的目标，生成序列单字的最优标签。

进一步可选的，执行步骤S2，训练序列标注模型的具体流程为：

S21、生成序列单字的字嵌入；

S22、生成序列单字的标签类型向量，此时，使用ChrTag_k表示第k类序列单字标签，k∈[1,T]，采用One-Hot编码表示序列单字标签类型，即用长度为T的向量ChrTagVec_k表示关系ChrTag_k，在ChrTagVec_k中，除了第k位是1外，其它位均为0；

S23、设置序列标注模型的超参数；

S24、初始化序列标注模型的参数；

S25、将所有字嵌入按序送入序列标注模型字嵌入层的输入端；

S26、将所有标签类型向量按序送入序列标注模型约束优化层的输出端；

S27、根据收敛条件训练序列标注模型；

S28、返回序列标注模型的参数。

进一步可选的，字嵌入层生成序列单字对应的静态向量，这一过程中，

使用ChrTag_k表示第k类序列单字标签，k∈[1,T]；

动态编码层采用One-Hot编码表示序列单字标签类型，即用长度为T的向量ChrTagVec_k表示关系ChrTag_k，在ChrTagVec_k中，除了第k位是1外，其它位均为0。

优选的，所涉及动态编码层采用双向LSTM层，所涉及双向LSTM层包括前向LSTM层、后向LSTM层、拼接层；

所涉及网络分类层采用全连接层；

所涉及约束优化层采用CRF层。

更进一步的，执行步骤S3，使用序列标注模型对把字句或被字句进行序列标注，具体操作包括：

S31、将句子送入序列标注模型的序列单字层；

S32、序列单字层将句子的单字按序转换为单字构成的序列，并传入字嵌入层；

S33、字嵌入层根据静态字嵌入模型，生成序列单字对应的静态向量；

S34、序列单字对应的静态向量按照正向顺序送入动态编码层的前向LSTM层，获取序列单字的前向LSTM编码，同时，序列单字对应的静态向量按照反向顺序送入动态编码层的后向LSTM层，获取序列单字的后向LSTM编码，随后，动态编码层的拼接层将序列单字的前向LSTM编码和后向LSTM编码拼接在一起，获取序列单字的双向LSTM编码；

S35、动态编码层的拼接层将序列单字的双向LSTM编码送入全连接层，获取序列单字相对于不同标签类型的发射概率；

S35、通过CRF层的上下文约束，获取序列单字的最终标签。

其次，本发明公开一种基于序列标注的把字句和被字句陈述化***，来解决上述技术问题，所采用的技术方案如下：

一种基于序列标注的把字句和被字句陈述化***，其实现包括：BIES标注模块、训练模块、序列标注模型、提取模块、转换模块；

BIES标注模块采用BIES方法对把字句和被字句中的每个单字进行序列标注；

训练模块以把字句或被字句作为输入、以序列标注结果作为输出，训练基于端到端的序列标注模型；

序列标注模型对输入的把字句或被字句进行序列标注；

提取模块根据序列标注模型的标注结果提取把字句或被字句的构成要素；

转换模块按照句式“施事者+动作+其它+受事者”，将把字句或被字句的构成要素组成为陈述句。

可选的，基于端到端的序列标注模型包括：

进一步可选的，所涉及训练模块训练序列标注模型的具体流程为：

生成序列单字的字嵌入；

生成序列单字的标签类型向量，此时，使用ChrTag_k表示第k类序列单字标签，k∈[1,T]，采用One-Hot编码表示序列单字标签类型，即用长度为T的向量ChrTagVec_k表示关系ChrTag_k，在ChrTagVec_k中，除了第k位是1外，其它位均为0

设置序列标注模型的超参数；

初始化序列标注模型的参数；

将所有字嵌入按序送入序列标注模型字嵌入层的输入端；

将所有标签类型向量按序送入序列标注模型约束优化层的输出端；

根据收敛条件训练序列标注模型；

返回序列标注模型的参数。

本发明的一种基于序列标注的把字句和被字句陈述化方法及***，与现有技术相比具有的有益效果是：

本发明采用BIES方法，对把字句和被字句中的每个单字进行序列标注，并以把字句或被字句作为输入、以序列标注结果作为输出，训练基于端到端的序列标注模型，随后以训练得到的序列标注模型对把字句或被字句进行序列标注，并根据标注结果提取把字句或被字句的构成要素，最后按照句式“施事者+动作+其它+受事者”，将把字句或被字句的构成要素高效、精确的组成为陈述句，可以解决自然语言处理领域方法处理把字句和被字句时存在的效率低、准确性差等问题，提高处理效果。

附图说明

附图1是本发明实施例一的方法流程图；

附图2是本发明中序列标注模型的层次结构图；

附图3是本发明中训练序列标注模型的流程图；

附图4是本发明中序列标注模型的结构图；

附图5是本发明实施例二的结构连接示意图。

附图中各标号信息表示：

1、BIES标注模块，2、训练模块，3、序列标注模型，

4、提取模块，5、转换模块。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

实施例一：

结合附图1-4，本实施例提出一种基于序列标注的把字句和被字句陈述化方法，包括如下步骤：

S1、采用BIES方法，对把字句和被字句中的每个单字进行序列标注。

把字句或被字句的构成要素采用下述符号表示：

施事者：Sub；

受事者：Obj；

把字句标记介词“把”：Vba；

被字句标记介词“被/给/叫/让”：Vbei；

动作：Verb；

其它：Oth；

S2、标注完成后，以把字句或被字句作为输入，以序列标注结果作为输出，训练基于端到端的序列标注模型3。

本实施例中，结合附图2-4，基于端到端的序列标注模型3包括：

动态编码层，具体采用双向LSTM层，双向LSTM层包括前向LSTM层、后向LSTM层、拼接层，用于根据句子上下文关系，对序列单字进行重新编码，进而生成对应的动态向量；

网络分类层，具体采用全连接层，用于根据序列单字的动态向量进行分类，生成不同标签类型的发射概率；

约束优化层，具体采用CRF层，用于根据句子上下文约束，以及序列单字标签路径概率最大化的目标，生成序列单字的最优标签。

执行步骤S2，训练序列标注模型的具体流程为：

S21、生成序列单字的字嵌入；

S23、设置序列标注模型的超参数；

S24、初始化序列标注模型的参数；

S27、根据收敛条件训练序列标注模型；

S28、返回序列标注模型的参数。

S3、结合附图4，使用训练得到的序列标注模型3对把字句或被字句进行序列标注，具体操作包括：

S31、将句子送入序列标注模型的序列单字层；

S35、最后，通过CRF层的上下文约束，获取序列单字的最终标签。

S4、根据序列标注模型3的标注结果提取把字句或被字句的构成要素。

基于本实施例陈述的方法，

(A)把字句“奔流不息的洪水把人们回家的路淹没了。”的序列标注结果如下：

“奔”B-Sub；“流”I-Sub；“不”I-Sub；“息”I-Sub；

“的”I-Sub；“洪”I-Sub；“水”E-Sub；“把”S-Vba；

“人”B-Obj；“们”I-Obj；“回”I-Obj；“家”I-Obj；

“的”I-Obj；“路”E-Obj；“淹”B-Verb；“没”E-Verb；

“了”S-Oth；“。”S-Oth。

(B)被字句“人们回家的路被奔流不息的洪水淹没了。”的序列标注结果如下：

“人”B-Obj；“们”I-Obj；“回”I-Obj；“家”I-Obj；

“的”I-Obj；“路”E-Obj；“被”S-Vbei；“奔”B-Sub；

“流”I-Sub；“不”I-Sub；“息”I-Sub；“的”I-Sub；

“洪”I-Sub；“水”E-Sub；“淹”B-Verb；“没”E-Verb；

“了”S-Oth；“。”S-Oth；

无论是(A)还是(B)，按照句式“施事者+动作+其它+受事者”，可以知道，施事者＝“奔流不息的洪水”、动作＝“淹没”、其它＝“了”、受事者＝“人们回家的路”，最终组成的陈述句＝“奔流不息的洪水淹没了人们回家的路”。

实施例二：

实施例一，结合附图2-5，本实施例提出一种基于序列标注的把字句和被字句陈述化***，其实现包括：BIES标注模块1、训练模块2、序列标注模型3、提取模块4、转换模块5。

BIES标注模块1采用BIES方法对把字句和被字句中的每个单字进行序列标注。

把字句或被字句的构成要素采用下述符号表示：

施事者：Sub；

受事者：Obj；

把字句标记介词“把”：Vba；

被字句标记介词“被/给/叫/让”：Vbei；

动作：Verb；

其它：Oth；

每个构成要素由一个或多个单字组成，BIES标注模块1对每个单字进行序列标注时，B表示构成要素开始，I表示构成要素中间，E表示构成要素结束，S表示由单字形成的构成要素；

训练模块2以把字句或被字句作为输入、以序列标注结果作为输出，训练基于端到端的序列标注模型3。

序列标注模型3对输入的把字句或被字句进行序列标注。

提取模块4根据序列标注模型3的标注结果提取把字句或被字句的构成要素。

转换模块5按照句式“施事者+动作+其它+受事者”，将把字句或被字句的构成要素组成为陈述句。

本实施例中，基于端到端的序列标注模型3包括：

本实施例中，训练模块2训练序列标注模型3的具体流程为：

生成序列单字的字嵌入；

设置序列标注模型3的超参数；

初始化序列标注模型3的参数；

将所有字嵌入按序送入序列标注模型3字嵌入层的输入端；

将所有标签类型向量按序送入序列标注模型3约束优化层的输出端；

根据收敛条件训练序列标注模型3；

返回序列标注模型3的参数。

综上可知，采用本发明的一种基于序列标注的把字句和被字句陈述化方法及***，可以将把字句或被字句的构成要素高效、精确的组成为陈述句，解决自然语言处理领域方法处理把字句和被字句时存在的效率低、准确性差等问题。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所做出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于序列标注的把字句和被字句陈述化方法，其特征在于,包括如下步骤：

S1、把字句或被字句的构成要素采用下述符号表示：

施事者：Sub，受事者：Obj，把字句标记介词“把”：Vba，被字句标记介词“被/给/叫/让”：Vbei，动作：Verb，其它：Oth，

每个构成要素由一个或多个单字组成，借助BIES方法对把字句和被字句中的每个单字进行序列标注，其中，B表示构成要素开始，I表示构成要素中间，E表示构成要素结束，S表示由单字形成的构成要素，将上述4种标记添加到构成要素符号的前面，即形成单字的标签；

S2、标注完成后，以把字句或被字句作为输入，以序列标注结果作为输出，训练基于端到端的序列标注模型，其中，基于端到端的序列标注模型包括：

序列单字层，用于将把字句和被字句中的单字，按照单字出现的先后顺序，转换为单字构成的序列，

字嵌入层，用于根据静态字嵌入模型，生成序列单字对应的静态向量，

动态编码层，用于根据句子上下文关系，对序列单字进行重新编码，进而生成对应的动态向量，其中，动态编码层采用双向LSTM层，双向LSTM层包括前向LSTM层、后向LSTM层、拼接层；

网络分类层，用于根据序列单字的动态向量进行分类，生成不同标签类型的发射概率，

约束优化层，用于根据句子上下文约束，以及序列单字标签路径概率最大化的目标，生成序列单字的最优标签；

S3、使用训练得到的序列标注模型对把字句或被字句进行序列标注，具体操作包括：

S31、将句子送入序列标注模型的序列单字层，

S32、序列单字层将句子的单字按序转换为单字构成的序列，并传入字嵌入层，

S33、字嵌入层根据静态字嵌入模型，生成序列单字对应的静态向量，

S34、序列单字对应的静态向量按照正向顺序送入动态编码层的前向LSTM层，获取序列单字的前向LSTM编码，同时，序列单字对应的静态向量按照反向顺序送入动态编码层的后向LSTM层，获取序列单字的后向LSTM编码，随后，动态编码层的拼接层将序列单字的前向LSTM编码和后向LSTM编码拼接在一起，获取序列单字的双向LSTM编码，

S35、动态编码层的拼接层将序列单字的双向LSTM编码送入全连接层，获取序列单字相对于不同标签类型的发射概率，

S36、最后，通过CRF层的上下文约束，获取序列单字的最终标签；

2.根据权利要求1所述的一种基于序列标注的把字句和被字句陈述化方法，其特征在于，执行步骤S2，训练序列标注模型的具体流程为：

S21、生成序列单字的字嵌入；

S22、生成序列单字的标签类型向量；

S23、设置序列标注模型的超参数；

S24、初始化序列标注模型的参数；

S27、根据收敛条件训练序列标注模型；

S28、返回序列标注模型的参数。

3.根据权利要求2所述的一种基于序列标注的把字句和被字句陈述化方法，其特征在于，执行步骤S22，生成序列单字的标签类型向量，这一过程中，

使用ChrTag_k表示第k类序列单字标签，k∈[1,T]，采用One-Hot编码表示序列单字标签类型，即用长度为T的向量ChrTagVec_k表示关系ChrTag_k，在ChrTagVec_k中，除了第k位是1外，其它位均为0。

4.根据权利要求1所述的一种基于序列标注的把字句和被字句陈述化方法，其特征在于，所述网络分类层采用全连接层；

所述约束优化层采用CRF层。

5.一种基于序列标注的把字句和被字句陈述化***，其特征在于，其实现包括：BIES标注模块、训练模块、序列标注模型、提取模块、转换模块；

BIES标注模块首先将把字句或被字句的构成要素采用下述符号表示：

每个构成要素由一个或多个单字组成，随后借助BIES方法对把字句和被字句中的每个单字进行序列标注，其中，B表示构成要素开始，I表示构成要素中间，E表示构成要素结束，S表示由单字形成的构成要素，将上述4种标记添加到构成要素符号的前面，即形成单字的标签；

训练模块以把字句或被字句作为输入、以序列标注结果作为输出，训练基于端到端的序列标注模型，基于端到端的序列标注模型包括：

动态编码层，用于根据句子上下文关系，对序列单字进行重新编码，进而生成对应的动态向量，其中，动态编码层采用双向LSTM层，双向LSTM层包括前向LSTM层、后向LSTM层、拼接层，

基于端到端的序列标注模型对输入的把字句或被字句进行序列标注，具体过程包括：

将句子送入序列标注模型的序列单字层，

序列单字层将句子的单字按序转换为单字构成的序列，并传入字嵌入层，

字嵌入层根据静态字嵌入模型，生成序列单字对应的静态向量，

序列单字对应的静态向量按照正向顺序送入动态编码层的前向LSTM层，获取序列单字的前向LSTM编码，同时，序列单字对应的静态向量按照反向顺序送入动态编码层的后向LSTM层，获取序列单字的后向LSTM编码，随后，动态编码层的拼接层将序列单字的前向LSTM编码和后向LSTM编码拼接在一起，获取序列单字的双向LSTM编码，

动态编码层的拼接层将序列单字的双向LSTM编码送入全连接层，获取序列单字相对于不同标签类型的发射概率，

最后，通过CRF层的上下文约束，获取序列单字的最终标签；

6.根据权利要求5所述的一种基于序列标注的把字句和被字句陈述化***，其特征在于，所述训练模块训练序列标注模型的具体流程为：

生成序列单字的字嵌入；

生成序列单字的标签类型向量，此时，使用ChrTag_k表示第k类序列单字标签，k∈[1,T]，采用One-Hot编码表示序列单字标签类型，即用长度为T的向量ChrTagVec_k表示关系ChrTag_k，在ChrTagVec_k中，除了第k位是1外，其它位均为0；

设置序列标注模型的超参数；

初始化序列标注模型的参数；

将所有字嵌入按序送入序列标注模型字嵌入层的输入端；

根据收敛条件训练序列标注模型；

返回序列标注模型的参数。