CN112966477B - 一种基于序列标注的把字句和被字句陈述化方法及*** - Google Patents

一种基于序列标注的把字句和被字句陈述化方法及*** Download PDF

Info

Publication number
CN112966477B
CN112966477B CN202110253306.8A CN202110253306A CN112966477B CN 112966477 B CN112966477 B CN 112966477B CN 202110253306 A CN202110253306 A CN 202110253306A CN 112966477 B CN112966477 B CN 112966477B
Authority
CN
China
Prior art keywords
sequence
words
layer
word
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110253306.8A
Other languages
English (en)
Other versions
CN112966477A (zh
Inventor
王功明
张娴
周庆勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110253306.8A priority Critical patent/CN112966477B/zh
Publication of CN112966477A publication Critical patent/CN112966477A/zh
Application granted granted Critical
Publication of CN112966477B publication Critical patent/CN112966477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于序列标注的把字句和被字句陈述化方法,涉及自然语言处理技术领域,其实现过程包括:采用BIES方法,对把字句和被字句中的每个单字进行序列标注;以把字句或被字句作为输入,以序列标注结果作为输出,训练基于端到端的序列标注模型;使用训练得到的序列标注模型对把字句或被字句进行序列标注;根据序列标注模型的标注结果提取把字句或被字句的构成要素;按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。本发明还公开一种基于序列标注的把字句和被字句陈述化***,其与前述方案相结合,可以解决自然语言处理领域方法处理把字句和被字句时存在的效率低、准确性差等问题。

Description

一种基于序列标注的把字句和被字句陈述化方法及***
技术领域
本发明涉及自然语言处理技术领域,具体的说是一种基于序列标注的把字句和被字句陈述化方法及***。
背景技术
把字句是汉语中的主动式动词谓语句,用来强调行为结果或行为方式。这种句式又称为“处置式”,因为动词所表示的动作对宾语进行了“处置”,使其属性(例如位置或状态)发生改变。这种句式的基本结构是:施事者+把+受事者+动作+其他,例如:奔流不息的洪水把人们回家的路淹没了。
被字句是指在核心动词前面,用介词“被(给、叫、让)”引出施事或单用“被”表示被动的主谓句。这种句式的基本结构是:受事者+被+施事者+动作+其他,例如:人们回家的路被奔流不息的洪水淹没了。
在现代汉语中,把字句和被字句是常用的特殊句式,是语言学的研究重点,也是自然语言处理的语料来源。但是,自然语言处理领域的方法没有考虑把字句和被字句的结构特点,这就使得训练出来的模型主要适用于陈述句,处理把字句和被字句时存在效率低、精度差等问题。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种基于序列标注的把字句和被字句陈述化方法及***,来提高把字句和被字句的处理效果。
首先,本发明公开一种基于序列标注的把字句和被字句陈述化方法,来解决上述技术问题,所采用的技术方案如下:
一种基于序列标注的把字句和被字句陈述化方法,包括如下步骤:
S1、采用BIES方法,对把字句和被字句中的每个单字进行序列标注;
S2、标注完成后,以把字句或被字句作为输入,以序列标注结果作为输出,训练基于端到端的序列标注模型;
S3、使用训练得到的序列标注模型对把字句或被字句进行序列标注;
S4、根据序列标注模型的标注结果提取把字句或被字句的构成要素;
S5、按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。
可选的,把字句或被字句的构成要素采用下述符号表示:
施事者:Sub;
受事者:Obj;
把字句标记介词“把”:Vba;
被字句标记介词“被/给/叫/让”:Vbei;
动作:Verb;
其它:Oth;
每个构成要素由一个或多个单字组成,借助BIES方法对每个单字进行序列标注,其中,B表示构成要素开始,I表示构成要素中间,E表示构成要素结束,S表示由单字形成的构成要素;
将上述4种标记添加到构成要素符号的前面,即形成单字的标签。
可选的,基于端到端的序列标注模型包括:
序列单字层,用于将把字句和被字句中的单字,按照单字出现的先后顺序,转换为单字构成的序列;
字嵌入层,用于根据静态字嵌入模型,生成序列单字对应的静态向量;
动态编码层,用于根据句子上下文关系,对序列单字进行重新编码,进而生成对应的动态向量;
网络分类层,用于根据序列单字的动态向量进行分类,生成不同标签类型的发射概率;
约束优化层,用于根据句子上下文约束,以及序列单字标签路径概率最大化的目标,生成序列单字的最优标签。
进一步可选的,执行步骤S2,训练序列标注模型的具体流程为:
S21、生成序列单字的字嵌入;
S22、生成序列单字的标签类型向量,此时,使用ChrTagk表示第k类序列单字标签,k∈[1,T],采用One-Hot编码表示序列单字标签类型,即用长度为T的向量ChrTagVeck表示关系ChrTagk,在ChrTagVeck中,除了第k位是1外,其它位均为0;
S23、设置序列标注模型的超参数;
S24、初始化序列标注模型的参数;
S25、将所有字嵌入按序送入序列标注模型字嵌入层的输入端;
S26、将所有标签类型向量按序送入序列标注模型约束优化层的输出端;
S27、根据收敛条件训练序列标注模型;
S28、返回序列标注模型的参数。
进一步可选的,字嵌入层生成序列单字对应的静态向量,这一过程中,
使用ChrTagk表示第k类序列单字标签,k∈[1,T];
动态编码层采用One-Hot编码表示序列单字标签类型,即用长度为T的向量ChrTagVeck表示关系ChrTagk,在ChrTagVeck中,除了第k位是1外,其它位均为0。
优选的,所涉及动态编码层采用双向LSTM层,所涉及双向LSTM层包括前向LSTM层、后向LSTM层、拼接层;
所涉及网络分类层采用全连接层;
所涉及约束优化层采用CRF层。
更进一步的,执行步骤S3,使用序列标注模型对把字句或被字句进行序列标注,具体操作包括:
S31、将句子送入序列标注模型的序列单字层;
S32、序列单字层将句子的单字按序转换为单字构成的序列,并传入字嵌入层;
S33、字嵌入层根据静态字嵌入模型,生成序列单字对应的静态向量;
S34、序列单字对应的静态向量按照正向顺序送入动态编码层的前向LSTM层,获取序列单字的前向LSTM编码,同时,序列单字对应的静态向量按照反向顺序送入动态编码层的后向LSTM层,获取序列单字的后向LSTM编码,随后,动态编码层的拼接层将序列单字的前向LSTM编码和后向LSTM编码拼接在一起,获取序列单字的双向LSTM编码;
S35、动态编码层的拼接层将序列单字的双向LSTM编码送入全连接层,获取序列单字相对于不同标签类型的发射概率;
S35、通过CRF层的上下文约束,获取序列单字的最终标签。
其次,本发明公开一种基于序列标注的把字句和被字句陈述化***,来解决上述技术问题,所采用的技术方案如下:
一种基于序列标注的把字句和被字句陈述化***,其实现包括:BIES标注模块、训练模块、序列标注模型、提取模块、转换模块;
BIES标注模块采用BIES方法对把字句和被字句中的每个单字进行序列标注;
训练模块以把字句或被字句作为输入、以序列标注结果作为输出,训练基于端到端的序列标注模型;
序列标注模型对输入的把字句或被字句进行序列标注;
提取模块根据序列标注模型的标注结果提取把字句或被字句的构成要素;
转换模块按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。
可选的,基于端到端的序列标注模型包括:
序列单字层,用于将把字句和被字句中的单字,按照单字出现的先后顺序,转换为单字构成的序列;
字嵌入层,用于根据静态字嵌入模型,生成序列单字对应的静态向量;
动态编码层,用于根据句子上下文关系,对序列单字进行重新编码,进而生成对应的动态向量;
网络分类层,用于根据序列单字的动态向量进行分类,生成不同标签类型的发射概率;
约束优化层,用于根据句子上下文约束,以及序列单字标签路径概率最大化的目标,生成序列单字的最优标签。
进一步可选的,所涉及训练模块训练序列标注模型的具体流程为:
生成序列单字的字嵌入;
生成序列单字的标签类型向量,此时,使用ChrTagk表示第k类序列单字标签,k∈[1,T],采用One-Hot编码表示序列单字标签类型,即用长度为T的向量ChrTagVeck表示关系ChrTagk,在ChrTagVeck中,除了第k位是1外,其它位均为0
设置序列标注模型的超参数;
初始化序列标注模型的参数;
将所有字嵌入按序送入序列标注模型字嵌入层的输入端;
将所有标签类型向量按序送入序列标注模型约束优化层的输出端;
根据收敛条件训练序列标注模型;
返回序列标注模型的参数。
本发明的一种基于序列标注的把字句和被字句陈述化方法及***,与现有技术相比具有的有益效果是:
本发明采用BIES方法,对把字句和被字句中的每个单字进行序列标注,并以把字句或被字句作为输入、以序列标注结果作为输出,训练基于端到端的序列标注模型,随后以训练得到的序列标注模型对把字句或被字句进行序列标注,并根据标注结果提取把字句或被字句的构成要素,最后按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素高效、精确的组成为陈述句,可以解决自然语言处理领域方法处理把字句和被字句时存在的效率低、准确性差等问题,提高处理效果。
附图说明
附图1是本发明实施例一的方法流程图;
附图2是本发明中序列标注模型的层次结构图;
附图3是本发明中训练序列标注模型的流程图;
附图4是本发明中序列标注模型的结构图;
附图5是本发明实施例二的结构连接示意图。
附图中各标号信息表示:
1、BIES标注模块,2、训练模块,3、序列标注模型,
4、提取模块,5、转换模块。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1-4,本实施例提出一种基于序列标注的把字句和被字句陈述化方法,包括如下步骤:
S1、采用BIES方法,对把字句和被字句中的每个单字进行序列标注。
把字句或被字句的构成要素采用下述符号表示:
施事者:Sub;
受事者:Obj;
把字句标记介词“把”:Vba;
被字句标记介词“被/给/叫/让”:Vbei;
动作:Verb;
其它:Oth;
每个构成要素由一个或多个单字组成,借助BIES方法对每个单字进行序列标注,其中,B表示构成要素开始,I表示构成要素中间,E表示构成要素结束,S表示由单字形成的构成要素;
将上述4种标记添加到构成要素符号的前面,即形成单字的标签。
S2、标注完成后,以把字句或被字句作为输入,以序列标注结果作为输出,训练基于端到端的序列标注模型3。
本实施例中,结合附图2-4,基于端到端的序列标注模型3包括:
序列单字层,用于将把字句和被字句中的单字,按照单字出现的先后顺序,转换为单字构成的序列;
字嵌入层,用于根据静态字嵌入模型,生成序列单字对应的静态向量;
动态编码层,具体采用双向LSTM层,双向LSTM层包括前向LSTM层、后向LSTM层、拼接层,用于根据句子上下文关系,对序列单字进行重新编码,进而生成对应的动态向量;
网络分类层,具体采用全连接层,用于根据序列单字的动态向量进行分类,生成不同标签类型的发射概率;
约束优化层,具体采用CRF层,用于根据句子上下文约束,以及序列单字标签路径概率最大化的目标,生成序列单字的最优标签。
执行步骤S2,训练序列标注模型的具体流程为:
S21、生成序列单字的字嵌入;
S22、生成序列单字的标签类型向量,此时,使用ChrTagk表示第k类序列单字标签,k∈[1,T],采用One-Hot编码表示序列单字标签类型,即用长度为T的向量ChrTagVeck表示关系ChrTagk,在ChrTagVeck中,除了第k位是1外,其它位均为0;
S23、设置序列标注模型的超参数;
S24、初始化序列标注模型的参数;
S25、将所有字嵌入按序送入序列标注模型字嵌入层的输入端;
S26、将所有标签类型向量按序送入序列标注模型约束优化层的输出端;
S27、根据收敛条件训练序列标注模型;
S28、返回序列标注模型的参数。
S3、结合附图4,使用训练得到的序列标注模型3对把字句或被字句进行序列标注,具体操作包括:
S31、将句子送入序列标注模型的序列单字层;
S32、序列单字层将句子的单字按序转换为单字构成的序列,并传入字嵌入层;
S33、字嵌入层根据静态字嵌入模型,生成序列单字对应的静态向量;
S34、序列单字对应的静态向量按照正向顺序送入动态编码层的前向LSTM层,获取序列单字的前向LSTM编码,同时,序列单字对应的静态向量按照反向顺序送入动态编码层的后向LSTM层,获取序列单字的后向LSTM编码,随后,动态编码层的拼接层将序列单字的前向LSTM编码和后向LSTM编码拼接在一起,获取序列单字的双向LSTM编码;
S35、动态编码层的拼接层将序列单字的双向LSTM编码送入全连接层,获取序列单字相对于不同标签类型的发射概率;
S35、最后,通过CRF层的上下文约束,获取序列单字的最终标签。
S4、根据序列标注模型3的标注结果提取把字句或被字句的构成要素。
S5、按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。
基于本实施例陈述的方法,
(A)把字句“奔流不息的洪水把人们回家的路淹没了。”的序列标注结果如下:
“奔”B-Sub;“流”I-Sub;“不”I-Sub;“息”I-Sub;
“的”I-Sub;“洪”I-Sub;“水”E-Sub;“把”S-Vba;
“人”B-Obj;“们”I-Obj;“回”I-Obj;“家”I-Obj;
“的”I-Obj;“路”E-Obj;“淹”B-Verb;“没”E-Verb;
“了”S-Oth;“。”S-Oth。
(B)被字句“人们回家的路被奔流不息的洪水淹没了。”的序列标注结果如下:
“人”B-Obj;“们”I-Obj;“回”I-Obj;“家”I-Obj;
“的”I-Obj;“路”E-Obj;“被”S-Vbei;“奔”B-Sub;
“流”I-Sub;“不”I-Sub;“息”I-Sub;“的”I-Sub;
“洪”I-Sub;“水”E-Sub;“淹”B-Verb;“没”E-Verb;
“了”S-Oth;“。”S-Oth;
无论是(A)还是(B),按照句式“施事者+动作+其它+受事者”,可以知道,施事者=“奔流不息的洪水”、动作=“淹没”、其它=“了”、受事者=“人们回家的路”,最终组成的陈述句=“奔流不息的洪水淹没了人们回家的路”。
实施例二:
实施例一,结合附图2-5,本实施例提出一种基于序列标注的把字句和被字句陈述化***,其实现包括:BIES标注模块1、训练模块2、序列标注模型3、提取模块4、转换模块5。
BIES标注模块1采用BIES方法对把字句和被字句中的每个单字进行序列标注。
把字句或被字句的构成要素采用下述符号表示:
施事者:Sub;
受事者:Obj;
把字句标记介词“把”:Vba;
被字句标记介词“被/给/叫/让”:Vbei;
动作:Verb;
其它:Oth;
每个构成要素由一个或多个单字组成,BIES标注模块1对每个单字进行序列标注时,B表示构成要素开始,I表示构成要素中间,E表示构成要素结束,S表示由单字形成的构成要素;
将上述4种标记添加到构成要素符号的前面,即形成单字的标签。
训练模块2以把字句或被字句作为输入、以序列标注结果作为输出,训练基于端到端的序列标注模型3。
序列标注模型3对输入的把字句或被字句进行序列标注。
提取模块4根据序列标注模型3的标注结果提取把字句或被字句的构成要素。
转换模块5按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。
本实施例中,基于端到端的序列标注模型3包括:
序列单字层,用于将把字句和被字句中的单字,按照单字出现的先后顺序,转换为单字构成的序列;
字嵌入层,用于根据静态字嵌入模型,生成序列单字对应的静态向量;
动态编码层,用于根据句子上下文关系,对序列单字进行重新编码,进而生成对应的动态向量;
网络分类层,用于根据序列单字的动态向量进行分类,生成不同标签类型的发射概率;
约束优化层,用于根据句子上下文约束,以及序列单字标签路径概率最大化的目标,生成序列单字的最优标签。
本实施例中,训练模块2训练序列标注模型3的具体流程为:
生成序列单字的字嵌入;
生成序列单字的标签类型向量,此时,使用ChrTagk表示第k类序列单字标签,k∈[1,T],采用One-Hot编码表示序列单字标签类型,即用长度为T的向量ChrTagVeck表示关系ChrTagk,在ChrTagVeck中,除了第k位是1外,其它位均为0
设置序列标注模型3的超参数;
初始化序列标注模型3的参数;
将所有字嵌入按序送入序列标注模型3字嵌入层的输入端;
将所有标签类型向量按序送入序列标注模型3约束优化层的输出端;
根据收敛条件训练序列标注模型3;
返回序列标注模型3的参数。
综上可知,采用本发明的一种基于序列标注的把字句和被字句陈述化方法及***,可以将把字句或被字句的构成要素高效、精确的组成为陈述句,解决自然语言处理领域方法处理把字句和被字句时存在的效率低、准确性差等问题。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所做出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (6)

1.一种基于序列标注的把字句和被字句陈述化方法,其特征在于,包括如下步骤:
S1、把字句或被字句的构成要素采用下述符号表示:
施事者:Sub,受事者:Obj,把字句标记介词“把”:Vba,被字句标记介词“被/给/叫/让”:Vbei,动作:Verb,其它:Oth,
每个构成要素由一个或多个单字组成,借助BIES方法对把字句和被字句中的每个单字进行序列标注,其中,B表示构成要素开始,I表示构成要素中间,E表示构成要素结束,S表示由单字形成的构成要素,将上述4种标记添加到构成要素符号的前面,即形成单字的标签;
S2、标注完成后,以把字句或被字句作为输入,以序列标注结果作为输出,训练基于端到端的序列标注模型,其中,基于端到端的序列标注模型包括:
序列单字层,用于将把字句和被字句中的单字,按照单字出现的先后顺序,转换为单字构成的序列,
字嵌入层,用于根据静态字嵌入模型,生成序列单字对应的静态向量,
动态编码层,用于根据句子上下文关系,对序列单字进行重新编码,进而生成对应的动态向量,其中,动态编码层采用双向LSTM层,双向LSTM层包括前向LSTM层、后向LSTM层、拼接层;
网络分类层,用于根据序列单字的动态向量进行分类,生成不同标签类型的发射概率,
约束优化层,用于根据句子上下文约束,以及序列单字标签路径概率最大化的目标,生成序列单字的最优标签;
S3、使用训练得到的序列标注模型对把字句或被字句进行序列标注,具体操作包括:
S31、将句子送入序列标注模型的序列单字层,
S32、序列单字层将句子的单字按序转换为单字构成的序列,并传入字嵌入层,
S33、字嵌入层根据静态字嵌入模型,生成序列单字对应的静态向量,
S34、序列单字对应的静态向量按照正向顺序送入动态编码层的前向LSTM层,获取序列单字的前向LSTM编码,同时,序列单字对应的静态向量按照反向顺序送入动态编码层的后向LSTM层,获取序列单字的后向LSTM编码,随后,动态编码层的拼接层将序列单字的前向LSTM编码和后向LSTM编码拼接在一起,获取序列单字的双向LSTM编码,
S35、动态编码层的拼接层将序列单字的双向LSTM编码送入全连接层,获取序列单字相对于不同标签类型的发射概率,
S36、最后,通过CRF层的上下文约束,获取序列单字的最终标签;
S4、根据序列标注模型的标注结果提取把字句或被字句的构成要素;
S5、按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。
2.根据权利要求1所述的一种基于序列标注的把字句和被字句陈述化方法,其特征在于,执行步骤S2,训练序列标注模型的具体流程为:
S21、生成序列单字的字嵌入;
S22、生成序列单字的标签类型向量;
S23、设置序列标注模型的超参数;
S24、初始化序列标注模型的参数;
S25、将所有字嵌入按序送入序列标注模型字嵌入层的输入端;
S26、将所有标签类型向量按序送入序列标注模型约束优化层的输出端;
S27、根据收敛条件训练序列标注模型;
S28、返回序列标注模型的参数。
3.根据权利要求2所述的一种基于序列标注的把字句和被字句陈述化方法,其特征在于,执行步骤S22,生成序列单字的标签类型向量,这一过程中,
使用ChrTagk表示第k类序列单字标签,k∈[1,T],采用One-Hot编码表示序列单字标签类型,即用长度为T的向量ChrTagVeck表示关系ChrTagk,在ChrTagVeck中,除了第k位是1外,其它位均为0。
4.根据权利要求1所述的一种基于序列标注的把字句和被字句陈述化方法,其特征在于,所述网络分类层采用全连接层;
所述约束优化层采用CRF层。
5.一种基于序列标注的把字句和被字句陈述化***,其特征在于,其实现包括:BIES标注模块、训练模块、序列标注模型、提取模块、转换模块;
BIES标注模块首先将把字句或被字句的构成要素采用下述符号表示:
施事者:Sub,受事者:Obj,把字句标记介词“把”:Vba,被字句标记介词“被/给/叫/让”:Vbei,动作:Verb,其它:Oth,
每个构成要素由一个或多个单字组成,随后借助BIES方法对把字句和被字句中的每个单字进行序列标注,其中,B表示构成要素开始,I表示构成要素中间,E表示构成要素结束,S表示由单字形成的构成要素,将上述4种标记添加到构成要素符号的前面,即形成单字的标签;
训练模块以把字句或被字句作为输入、以序列标注结果作为输出,训练基于端到端的序列标注模型,基于端到端的序列标注模型包括:
序列单字层,用于将把字句和被字句中的单字,按照单字出现的先后顺序,转换为单字构成的序列,
字嵌入层,用于根据静态字嵌入模型,生成序列单字对应的静态向量,
动态编码层,用于根据句子上下文关系,对序列单字进行重新编码,进而生成对应的动态向量,其中,动态编码层采用双向LSTM层,双向LSTM层包括前向LSTM层、后向LSTM层、拼接层,
网络分类层,用于根据序列单字的动态向量进行分类,生成不同标签类型的发射概率,
约束优化层,用于根据句子上下文约束,以及序列单字标签路径概率最大化的目标,生成序列单字的最优标签;
基于端到端的序列标注模型对输入的把字句或被字句进行序列标注,具体过程包括:
将句子送入序列标注模型的序列单字层,
序列单字层将句子的单字按序转换为单字构成的序列,并传入字嵌入层,
字嵌入层根据静态字嵌入模型,生成序列单字对应的静态向量,
序列单字对应的静态向量按照正向顺序送入动态编码层的前向LSTM层,获取序列单字的前向LSTM编码,同时,序列单字对应的静态向量按照反向顺序送入动态编码层的后向LSTM层,获取序列单字的后向LSTM编码,随后,动态编码层的拼接层将序列单字的前向LSTM编码和后向LSTM编码拼接在一起,获取序列单字的双向LSTM编码,
动态编码层的拼接层将序列单字的双向LSTM编码送入全连接层,获取序列单字相对于不同标签类型的发射概率,
最后,通过CRF层的上下文约束,获取序列单字的最终标签;
提取模块根据序列标注模型的标注结果提取把字句或被字句的构成要素;
转换模块按照句式“施事者+动作+其它+受事者”,将把字句或被字句的构成要素组成为陈述句。
6.根据权利要求5所述的一种基于序列标注的把字句和被字句陈述化***,其特征在于,所述训练模块训练序列标注模型的具体流程为:
生成序列单字的字嵌入;
生成序列单字的标签类型向量,此时,使用ChrTagk表示第k类序列单字标签,k∈[1,T],采用One-Hot编码表示序列单字标签类型,即用长度为T的向量ChrTagVeck表示关系ChrTagk,在ChrTagVeck中,除了第k位是1外,其它位均为0;
设置序列标注模型的超参数;
初始化序列标注模型的参数;
将所有字嵌入按序送入序列标注模型字嵌入层的输入端;
将所有标签类型向量按序送入序列标注模型约束优化层的输出端;
根据收敛条件训练序列标注模型;
返回序列标注模型的参数。
CN202110253306.8A 2021-03-05 2021-03-05 一种基于序列标注的把字句和被字句陈述化方法及*** Active CN112966477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110253306.8A CN112966477B (zh) 2021-03-05 2021-03-05 一种基于序列标注的把字句和被字句陈述化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110253306.8A CN112966477B (zh) 2021-03-05 2021-03-05 一种基于序列标注的把字句和被字句陈述化方法及***

Publications (2)

Publication Number Publication Date
CN112966477A CN112966477A (zh) 2021-06-15
CN112966477B true CN112966477B (zh) 2023-08-29

Family

ID=76276917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110253306.8A Active CN112966477B (zh) 2021-03-05 2021-03-05 一种基于序列标注的把字句和被字句陈述化方法及***

Country Status (1)

Country Link
CN (1) CN112966477B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
CN103150381A (zh) * 2013-03-14 2013-06-12 北京理工大学 一种高精度汉语谓词识别方法
CN112084752A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
CN103150381A (zh) * 2013-03-14 2013-06-12 北京理工大学 一种高精度汉语谓词识别方法
CN112084752A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
""字句的自动释义与句式变换研究;王璐璐;《计算机工程与应用》;20140224;正文第2-5节,图1-9 *

Also Published As

Publication number Publication date
CN112966477A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN107632981B (zh) 一种引入源语组块信息编码的神经机器翻译方法
CN109408812A (zh) 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN110276052B (zh) 一种古汉语自动分词及词性标注一体化方法及装置
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN109933773A (zh) 一种多重语义语句解析***及方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN109145946B (zh) 一种智能图像识别和描述方法
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN114330352A (zh) 一种命名实体识别方法和***
CN112966477B (zh) 一种基于序列标注的把字句和被字句陈述化方法及***
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和***
CN114997143B (zh) 文本生成模型训练方法和***、文本生成方法及存储介质
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN115826988A (zh) 一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
CN115309886A (zh) 基于多模态信息输入的人工智能文本创作方法
CN110955768B (zh) 一种基于句法分析的问答***答案生成方法
CN114861627A (zh) 一种基于深度学习的选择题干扰项自动化生成方法及模型
Wang et al. Accurate Braille-Chinese translation towards efficient Chinese input method for blind people
CN113743095A (zh) 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN112380836A (zh) 一种智能侨情问句生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant