CN110110086A - 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 - Google Patents

一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110110086A
CN110110086A CN201910393760.6A CN201910393760A CN110110086A CN 110110086 A CN110110086 A CN 110110086A CN 201910393760 A CN201910393760 A CN 201910393760A CN 110110086 A CN110110086 A CN 110110086A
Authority
CN
China
Prior art keywords
word
model
chinese
expression
verifying collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910393760.6A
Other languages
English (en)
Inventor
郑新萍
王志超
赫中翮
周忠诚
段炼
张圣栋
黄九鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co Ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co Ltd filed Critical Hunan Xinghan Shuzhi Technology Co Ltd
Priority to CN201910393760.6A priority Critical patent/CN110110086A/zh
Publication of CN110110086A publication Critical patent/CN110110086A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质,该方法包括:对预先获取的训练集的中文语料进行处理,得到训练集的词的最终表示;对预先获取的验证集的中文语料进行处理,得到验证集的词的最终表示;采用双向GRU及CRF构建序列标注模型,并对序列标注模型设置初始参数,对序列标注模型的参数进行优化;通过验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型,并通过该模型对预先获取的测试集中的中文语料进行中文语义角色标注。本发明提供的中文语义角色标注方法,可简化中文语义角色标注的操作,提高语义角色标注效率。

Description

一种中文语义角色标注方法、装置、计算机装置及计算机可读 存储介质
技术领域
本发明属于互联网技术领域,尤其涉及一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质。
背景技术
随着人工智能大数据技术的发展,在自然语言处理的研究方面也取得了很多突破性的进展。词法、句法和语义分析技术的进步使得自然语言处理技术在机器翻译、信息检索等领域得到了广泛的应用。语义分析技术中的语义角色标注技术,作为分析句子语义主干的主流方法之一,着重从语义角度刻画句子的结构信息,其在摘要自动生成、知识挖掘、情感分析、统计机器翻译、搜索相关性计算等多个领域具有重要的应用价值。现有的中文语义角色工作多依赖于复杂的特征工程,在特征工程的基础上结合了神经网络模型,用深度学习代替机器学习,但是,目前并没有完全依赖神经网络模型的自学习能力,仍旧需要对输入数据进行人工特征提取,从而导致特征工程需要耗费大量的人力物力资源,另外,由于目前技术过分依赖人工标注信息,导致模型的泛化能力弱,当改变应用领域时,往往需要重新标注信息。综上所述,现有的中文语义角色标注过程中存在操作复杂、效率低的问题。
发明内容
本发明实施例提供一种中文语义角色标注方法,旨在解决现有的中文语义角色标注过程中存在操作复杂、效率低的问题。
本发明是这样实现的,一种中文语义角色标注方法,包括:
对预先获取的训练集的中文语料进行处理,得到所述训练集的词的最终表示;
对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示;
基于TensorFlow架构,采用双向GRU及CRF构建序列标注模型,并对所述序列标注模型的超参数设置初始值,将所述训练集的词的最终表示输入所述序列标注模型进行训练,对所述序列标注模型的参数进行优化;
通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注。
可选的,所述对预先获取的训练集中的中文语料进行处理,得到所述训练集的词的最终表示,包括以下过程:
对所述训练集中的语句进行分词处理,分别得到语句中词语的第一词向量表示,及语句中字的第一字向量表示;
将所述第一词向量表示作为所述训练集的词的外部信息表示,将所述第一字向量表示输入卷积神经网络模型得到所述训练集的词的内部信息表示,并对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接,构成所述训练集的词的最终表示。
可选的,所述对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示,包括以下过程:
对所述验证集中的语句进行分词处理,得到第二词向量表示,并获取所述验证集中的语句的第二字向量表示;
将所述第二词向量表示作为所述验证集的词的外部信息表示,将所述第二字向量表示输入卷积神经网络模型得到所述验证集的词的内部信息表示,并对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接,构成所述验证集的词的最终表示。
可选的,所述通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,包括以下过程:
将所述验证集的词的最终表示输入所述优化参数后的序列标注模型,得到所述验证集的词的预测标签;
通过对所述验证集的预测标签与验证集的实际标签进行比较,确定所述优化参数后的序列标注模型的性能;其中,所述性能包括准确率、召回率及F1值,其中,F1值=准确率*召回率*2/(正确率+召回率)。
可选的,所述通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注,包括以下过程:
对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,将所述测试集的词的最终表示输入所述目标序列标注模型,得到所述测试集的词的预测标签。
本发明还提供中文语义角色标注装置,包括:
第一获取模块,用于对预先获取的训练集的中文语料进行处理,得到所述训练集的词的最终表示;
第二获取模块,用于对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示;
训练模块,用于基于TensorFlow架构,采用双向GRU及CRF构建序列标注模型,并对所述序列标注模型的超参数设置初始值,将所述训练集的词的最终表示输入所述序列标注模型进行训练,对所述序列标注模型的参数进行优化;
处理模块,用于通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注。
可选的,所述第一获取模块包括:
第一获取子模块,用于对所述训练集中的语句进行分词处理,分别得到语句中词语的第一词向量表示,及语句中字的第一字向量表示;
第一连接子模块,用于将所述第一词向量表示作为所述训练集的词的外部信息表示,将所述第一字向量表示输入卷积神经网络模型得到所述训练集的词的内部信息表示,并对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接,构成所述训练集的词的最终表示。
可选的,所述第二获取模块包括:
第二获取子模块,用于对所述验证集中的语句进行分词处理,得到第二词向量表示,并获取所述验证集中的语句的第二字向量表示;
第二连接子模块,用于将所述第二词向量表示作为所述验证集的词的外部信息表示,将所述第二字向量表示输入卷积神经网络模型得到所述验证集的词的内部信息表示,并对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接,构成所述验证集的词的最终表示。
可选的,所述处理模块还包括:
第三获取子模块,用于将所述验证集的词的最终表示输入所述优化参数后的序列标注模型,得到所述验证集的词的预测标签;
比较子模块,用于通过对所述验证集的预测标签与验证集的实际标签进行比较,确定所述优化参数后的序列标注模型的性能;其中,所述性能包括准确率、召回率及F1值,其中,F1值=准确率*召回率*2/(正确率+召回率)。
可选的,所述处理模块包括,还用于对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,将所述测试集的词的最终表示输入所述目标序列标注模型,得到所述测试集的词的预测标签。
本发明还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如上述所述中文语义角色标注方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述中文语义角色标注方法的步骤。
本发明提供的中文语义角色标注方法,基于训练集的词的最终表示对构建的序列标注模型进行参数优化,基于验证集的词的最终表示对参数优化后的序列标注模型进行性能判断,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过目标序列标注模型可对待测试的数据进行中文语义角色标注,由于无需人工标注过程,通过自动构建目标序列标注模型,利用目标标注模型对待测试的数据进行中文语义角色标注,简化中文语义角色标注的操作,提高语义角色标注效率。
附图说明
图1是本发明实施例提供的中文语义角色标注方法的实现流程图;
图2本发明实施例提供的对预先获取的训练集中的中文语料进行处理,得到所述训练集的词的最终表示的实现流程图;
图3是本发明实施提供的对预先获取的验证集中的中文语料进行处理,得到所述验证集的词的最终表示的实现流程图;
图4本发明实施例提供的通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型的实现流程图;
图5是本发明实施提供的中文语义角色标注装置的结构示意图;
图6是本发明实施例提供的第一获取模块的结构示意图;
图7是本发明实施例提供的第二获取模块的结构示意图;
图8是本发明实施例提供的处理模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的中文语义角色标注方法的实现流程图,所述中文语义角色标注方法包括以下过程:
步骤S101,对预先获取的训练集的中文语料进行处理,得到所述训练集的词的最终表示。
在本实施例中,预先获取的训练集可以是CPB1.0,CPB1.0是目前中文语义角色标注研究中的通用标准语料库。它是在宾州中文树库基础上手工标注对应的语义角色信息,共包含760篇文章、10364个句子、4854个谓词以及92959个语义角色,可以将其中648篇文章作为训练集。
由于CPB1.0的规模太小,无法很好的表示字、词的语义,在本实施例中,还可以通过以下过程获得训练集:
1)从中文***语料下载;2)提取维基语料,因为***的数据都是以xml的格式存储的,所以需要将数据的具体内容进行提取;3.)繁简转换,中文语料中包含了一部分繁体字,因此需要借助一些工具来将其转化为简体字;4)中文分词,使用已有的分词工具来对每一句话进行分词处理;5)去除无用字符,这里的无用字符主要包括一些非utf8字符以及一些停用词;6)词向量训练,直接利用gensim的word2vec工具进行词向量训练,设置好具体的参数,如向量的维度等,最后获取到包含词向量对应文件。类似的,对源数据进行字向量的处理过程和词向量的处理过程的差别不大,主要区别在于分词部分,将单个字看作一个词来进行分词处理。可以理解的是,由于中文句子和英文不同,词与词之间没有间隔,因此需要借助分词工具来进行处理。
请参阅图2,该步骤S101可以包括以下过程:
步骤S1011、对所述训练集中的语句进行分词处理,分别得到语句中词语的第一词向量表示,及语句中字的第一字向量表示;
步骤S1012、将所述第一词向量表示作为所述训练集的词的外部信息表示,将所述第一字向量表示输入卷积神经网络模型得到所述训练集的词的内部信息表示,并对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接,构成所述训练集的词的最终表示。
在本实施例中,词的内部信息,指的是词的内部字的语义信息,例如智能这个词,可以通过“智”的语义信息和“能”的语义信息来共同推导智能这个词的语义信息。词的外部信息指的是词的外部上下文信息,举例来说,还是智能这个词,通过这个词的上下文,比如人工智能中的人工,智能时代中的时代等来共同推导出智能这个词的语义表示。需要说明的是,由于所述训练集的词的外部信息表示实质是向量,所述训练集的词的内部信息表示是向量,所述对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接属于两个向量的融合处理。
所述训练集的词的最终表示为所述训练集的词的内部信息的向量表示和外部信息的向量表示的组合,有效融合了词的外部信息及内部信息,有利于对所述训练集的词进行全面语义理解。
步骤S102、对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示。
在本实施例中,预先获取的训练集可以选择所述CPB1.0中的760篇文章中的前40篇文章。也可以是CPB1.0中的其他选定文章,在此不做限制。
请参阅图3,该步骤S102包括以下过程:
步骤S1021、对所述验证集中的语句进行分词处理,得到第二词向量表示,并获取所述验证集中的语句的第二字向量表示;
步骤S1022、将所述第二词向量表示作为所述验证集的词的外部信息表示,将所述第二字向量表示输入卷积神经网络模型得到所述验证集的词的内部信息表示,并对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接,构成所述验证集的词的最终表示。
需要说明的是,由于所述验证集的词的外部信息表示实质是向量,所述验证集的词的内部信息表示是向量,所述对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接属于两个向量的融合处理。
这样,所述验证集的词的最终表示为所述验证集的词的内部信息的向量表示和外部信息的向量表示的组合,有效融合了词的外部信息及内部信息,有利于对所述验证集的词进行全面语义理解。
步骤S103、基于TensorFlow架构,采用双向GRU及CRF构建序列标注模型,并对所述序列标注模型的超参数设置初始值,将所述训练集的词的最终表示输入所述序列标注模型进行训练,对所述序列标注模型的参数进行优化。
在本实施例中,Tensorflow架构是谷歌发布的一个应用于深度学习的开源框架,在图形分类、音频处理、推荐***和自然语言处理等场景下都有丰富的应用,它具备高度的灵活性,真正的可移植性,多语言支持,丰富的算法库,完善的文档等特点。
在本实施例中,门控循环单元GRU(Gated Recurrent Unit)是循环神经网络的一个变种,主要用于处理序列数据,并且解决了传统的循环神经网络中的长期依赖问题。双向GRU就是由两个GRU网络上下叠加在一起组成的,卷积神经网络模型的输出由这两个循环神经网络的状态共同决定。需要说明的是,采用双向GRU的原因在于,考虑到一个论元的角色不仅依赖于其之前的信息,还依赖于其后面的信息。
条件随机场(Conditional Random Field,CRF),是从句子级别来考虑标注结果,它的优点在于可以利用之前已经标注好的论元标签,利用维特比解码的方法来得到最优序列。
在本实施例中,序列标注模型是针对于处理序列数据而言的。序列数据一个较大的特点就是其中的每一个元素都是独立的,比如在一句话中,你要预测下一个词,通常需要用到上一个词。同样,中文语义角色标注就是识别出一句话中和谓语有关的成分,可以将和谓语有关的成分成称为论元,然后再对这些论元进行分类,将其标注为正确的角色。所以中文语义角色标注实质上就是在处理序列数据,可以把进行处理的模型称为序列标注模型。
需要说明的是,超参数包括序列标注模型的隐藏单元的个数,模型的层数,学习率,迭代次数等。
在本实施例中,所述将所述训练集的词的最终表示输入所述序列标注模型进行训练,对所述序列标注模型的参数进行优化,可以包括以下过程:
1)可以预先定义超参数的初始值,然后将训练集的词的最终表示输入至序列标注模型进行训练;
2)根据训练结果,来对超参数进行调整。
举例来说,可以根据训练时长来调整隐藏层单元的个数以及模型的层数。可以理解的是,训练标注模型训练结束的时间减去开始训练的时间为训练时长。如果序列标注模型需要很长的时间训练,要考虑是否需要减少序列标注模型层数或是减少隐藏层单元的个数。在本实施例中,可以把迭代理解为模型的训练,每一次迭代可以理解为对模型重新进行一次训练,模型训练的目的就是为了学习到合适的参数。学习率是一个重要的超参数,它控制着基于损失梯度调整神经网络权值的速度,大多数优化算法(如SGD、RMSprop、Adam)对它都有涉及。学习率越小,沿着损失梯度下降的速度越慢。不同的模型所用的学习率不同,一般我们会设置成0.1-0.001之间。可以在序列标注模型的训练开始时使用大的学习率,使得序列标注模型可以快速到达最优值,之后可以动态减小学习率,以防止序列标注模型在最优值附近发生振荡。
在本实施例中,将所述训练集的词的最终表示输入所述序列标注模型进行训练,判断是否结束训练可以依据以下规则进行:
每迭代200次,就使用当前的序列标注模型对验证集的词进行中文语义标注预测,得到预测标签。通过比较预测标签和验证集的实际标签,计算当前序列标注模型的各项性能,包括准确率、召回率、F1值。
当迭代次数达到预先设置的值或者当序列标注模型的F1值一直在下降,且连续下降次数超过事先设置的值时,可以停止训练。
步骤S104、通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注。
请参阅图4,该步骤S104中所述通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,可以包括以下过程:
步骤S1041、将所述验证集的词的最终表示输入所述优化参数后的序列标注模型,得到所述验证集的词的预测标签;
步骤S1042、通过对所述验证集的预测标签与验证集的实际标签进行比较,确定所述优化参数后的序列标注模型的性能;将性能满足预设条件的序列标注模型作为目标序列标注模型。
在本实施例中,所述性能包括准确率、召回率及F1值,其中,F1值=准确率*召回率*2/(正确率+召回率)。
需要说明的是,在中文语义标注中,原始标签包括施事、受事、时间、地点、原因、目的等等,对于不是角色的那些词,用“O”表示。
在本实施例中,将预处理好的句子输入模型中,就会获得相应的预测标签;预测标签就是由所述目标序列标注模型来从所有的原始标签中选择一个最合适的标签来对当前的词进行标注。
所述验证集的实际标签是指人工对词进行中文语义标注的标签,实际标签是指词对应的语义角色,包括施事、受事、时间、地点、原因、目的等等。如果实际标签和预测标签基本一致,说明模型的效果很好,这就意味着,依靠目标序列标注模型能达到和人工一样的效果。如果实际标签和预测标签基本不一致,说明目标序列标注模型的效果不好,那么需要寻找原因,来进一步优化目标序列标注模型。
下面对准确率、召回率及F1值进行详细说明。用TP表示将正类预测为正类,用于FN表示将正类预测为负类,用FP表示将负类预测位正类,用TN表示将负类预测位负类。
准确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),若正确率用P表示,则P=TP/(TP+FP)。
召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),若用R表示召回率,则R=TP/(TP+FN)。
F1值=准确率*召回率*2/(正确率+召回率),其中,F1值即为正确率和召回率的调和平均值。
进一步说明的是,该步骤S104中性能满足预设条件包括:所述验证集输入所述优化参数后的序列标注模型后,F1值最高的序列标注模型。
该步骤S104中所述通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注,可以包括以下过程:
对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,将所述测试集的词的最终表示输入所述目标序列标注模型,得到所述测试集的词的预测标签。
在本实施例中,所述测试集可以选择CPB1.0的760篇文章中的72篇文章。测试集中的每一句话都是带有标签的,这些标签都是事先人工标注的,预测标签是指把测试集中的句子输入到目标序列标注模型中,通过目标序列标注模型来对这些语句进行中文语义角色标注,把句子中和谓语相关的部分标上对应的角色,表明它在这句话中的成分,比如施事、受事、时间、地点等。
在本实施例中,所述对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,可以包括以下过程:
对所述测试集中的语句进行分词处理,得到第三词向量表示,并获取所述测试集中的语句的第三字向量表示;
将所述第三词向量表示作为所述测试集的词的外部信息表示,将所述第三字向量表示输入卷积神经网络模型得到所述测试集的词的内部信息表示,并对所述测试集的词的外部信息表示及所述测试集的词的内部信息表示进行连接,构成所述测试集的词的最终表示。
需要说明的是,由于所述测试集的词的外部信息表示实质是向量,所述测试集的词的内部信息表示是向量,所述对所述测试集的词的外部信息表示及所述测试集的词的内部信息表示进行连接属于两个向量的融合处理。
这样,所述测试集的词的最终表示为所述测试集的词的内部信息的向量表示和外部信息的向量表示的组合,有效融合了词的外部信息及内部信息,有利于对所述测试集的词进行全面语义理解。
在本实施例中,所述目标序列标注模型可以用于对测试集中的语料进行中文语义角色标注,即对词的中文语义角色进行预测,得到预测标签。举例来说,例如,将“委员会明天将要通过此议案”输入所述目标序列标注模型后,“[委员会Agent][明天Tmp]将要[通过V][此议案P a s s i v e]。”其中“通过”是谓语动词,分别对“委员会”“此议案”和“明天”进行标注,对应分别是施事、受事和动作发生的时间。
在本实施例中,所述对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,将所述测试集的词的最终表示输入所述目标序列标注模型,得到所述测试集的词的预测标签,之后,所述中文语义角色标注方法还可以包括以下过程:
将所述测试集的词的预测标签与测试集的词的实际标签进行比较,得到测评结果;
根据所述测评结果对所述目标序列标注模型进行调整。
如果测试集的词的实际标签和所述测试集的词的预测标签基本一致,说明测评结果很好,这就意味着,依靠所述目标序列标注模型能达到和人工一样的效果。如果所述测试集的词的实际标签和所述测试集的词的预测标签基本不一致,说明所述目标序列标注模型的效果不好,那么需要寻找原因,来进一步优化模型。
在本实施例中,所述测试集的词的实际标签和所述测试集的词的预测标签基本不一致的情况下,可以对所述目标序列标注模型的超参数进行调整,提高所述目标序列标注模型的中文语义角色标注的正确率。
需要说明的是,如果发现目标序列标注模型在测试集上的效果不如训练集上的效果,要考虑可能是目标序列标注模型发生了过拟合,要考虑是否要减少迭代次数。在本实施例中,可以把迭代理解为序列标注模型的训练,每一次迭代可以理解为对模型重新进行一次训练,模型的训练的目的就是为了学习到合适的参数。可以在最先的几个迭代中选择大的学习率,在之后的迭代过程中,慢慢的减小学习率。
这样,基于测试集输入目标序列标注模型后的预测标签,对目标序列标注模型进行调整,可以提高目标序列标注模型进行中文语义角色标注的准确度,提高标注效果。
本发明提供的中文语义角色标注方法,基于训练集的词的最终表示对构建的序列标注模型进行参数优化,基于验证集的词的最终表示对参数优化后的序列标注模型进行性能判断,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过目标序列标注模型可对待测试的数据进行中文语义角色标注,由于无需人工标注过程,通过自动构建目标序列标注模型,利用目标标注模型对待测试的数据进行中文语义角色标注,简化中文语义角色标注的操作,提高语义角色标注效率。
图5示出了本发明实施例提供的中文语义角色标注装置500的结构示意图,为了便于说明,仅示出了于本发明实施相关的部分。该中文语义角色标注装置500,包括:
第一获取模块501,用于对预先获取的训练集的中文语料进行处理,得到所述训练集的词的最终表示。
在本实施例中,预先获取的训练集可以是CPB1.0,CPB1.0是目前中文语义角色标注研究中的通用标准语料库。它是在宾州中文树库基础上手工标注对应的语义角色信息,共包含760篇文章、10364个句子、4854个谓词以及92959个语义角色,可以将其中648篇文章作为训练集。
由于CPB1.0的规模太小,无法很好的表示字、词的语义,在本实施例中,还可以通过以下过程获得训练集:
1)从中文***语料下载;2)提取维基语料,因为***的数据都是以xml的格式存储的,所以需要将数据的具体内容进行提取;3.)繁简转换,中文语料中包含了一部分繁体字,因此需要借助一些工具来将其转化为简体字;4)中文分词,使用已有的分词工具来对每一句话进行分词处理;5)去除无用字符,这里的无用字符主要包括一些非utf8字符以及一些停用词;6)词向量训练,直接利用gensim的word2vec工具进行词向量训练,设置好具体的参数,如向量的维度等,最后获取到包含词向量对应文件。类似的,对源数据进行字向量的处理过程和词向量的处理过程的差别不大,主要区别在于分词部分,将单个字看作一个词来进行分词处理。可以理解的是,由于中文句子和英文不同,词与词之间没有间隔,因此需要借助分词工具来进行处理。
请参阅图6,所述第一获取模块可以包括:
第一获取子模块5011,用于对所述训练集中的语句进行分词处理,分别得到语句中词语的第一词向量表示,及语句中字的第一字向量表示;
第一连接子模块5012,用于将所述第一词向量表示作为所述训练集的词的外部信息表示,将所述第一字向量表示输入卷积神经网络模型得到所述训练集的词的内部信息表示,并对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接,构成所述训练集的词的最终表示。
在本实施例中,词的内部信息,指的是词的内部字的语义信息,例如智能这个词,可以通过“智”的语义信息和“能”的语义信息来共同推导智能这个词的语义信息。词的外部信息指的是词的外部上下文信息,举例来说,还是智能这个词,通过这个词的上下文,比如人工智能中的人工,智能时代中的时代等来共同推导出智能这个词的语义表示。需要说明的是,由于所述训练集的词的外部信息表示实质是向量,所述训练集的词的内部信息表示是向量,所述对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接属于两个向量的融合处理。
所述训练集的词的最终表示为所述训练集的词的内部信息的向量表示和外部信息的向量表示的组合,有效融合了词的外部信息及内部信息,有利于对所述训练集的词进行全面语义理解。
第二获取模块502,用于对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示。
在本实施例中,预先获取的训练集可以选择所述CPB1.0中的760篇文章中的前40篇文章。也可以是CPB1.0中的其他选定文章,在此不做限制。
请参阅图7,第二获取模块503包括:
第二获取子模块5021,用于对所述验证集中的语句进行分词处理,得到第二词向量表示,并获取所述验证集中的语句的第二字向量表示;
第二连接子模块5022,用于将所述第二词向量表示作为所述验证集的词的外部信息表示,将所述第二字向量表示输入卷积神经网络模型得到所述验证集的词的内部信息表示,并对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接,构成所述验证集的词的最终表示。
需要说明的是,由于所述验证集的词的外部信息表示实质是向量,所述验证集的词的内部信息表示是向量,所述对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接属于两个向量的融合处理。
这样,所述验证集的词的最终表示为所述验证集的词的内部信息的向量表示和外部信息的向量表示的组合,有效融合了词的外部信息及内部信息,有利于对所述验证集的词进行全面语义理解。
训练模块503,用于基于TensorFlow架构,采用双向GRU及CRF构建序列标注模型,并对所述序列标注模型的超参数设置初始值,将所述训练集的词的最终表示输入所述序列标注模型进行训练,对所述序列标注模型的参数进行优化。
在本实施例中,Tensorflow架构是谷歌发布的一个应用于深度学习的开源框架,在图形分类、音频处理、推荐***和自然语言处理等场景下都有丰富的应用,它具备高度的灵活性,真正的可移植性,多语言支持,丰富的算法库,完善的文档等特点。
在本实施例中,门控循环单元GRU(Gated Recurrent Unit)是循环神经网络的一个变种,主要用于处理序列数据,并且解决了传统的循环神经网络中的长期依赖问题。双向GRU就是由两个GRU网络上下叠加在一起组成的,卷积神经网络模型的输出由这两个循环神经网络的状态共同决定。需要说明的是,采用双向GRU的原因在于,考虑到一个论元的角色不仅依赖于其之前的信息,还依赖于其后面的信息。
条件随机场(Conditional Random Field,CRF),是从句子级别来考虑标注结果,它的优点在于可以利用之前已经标注好的论元标签,利用维特比解码的方法来得到最优序列。
在本实施例中,序列标注模型是针对于处理序列数据而言的。序列数据一个较大的特点就是其中的每一个元素都是独立的,比如在一句话中,你要预测下一个词,通常需要用到上一个词。同样,中文语义角色标注就是识别出一句话中和谓语有关的成分,可以将和谓语有关的成分成称为论元,然后再对这些论元进行分类,将其标注为正确的角色。所以中文语义角色标注实质上就是在处理序列数据,可以把进行处理的模型称为序列标注模型。
需要说明的是,超参数包括序列标注模型的隐藏单元的个数,模型的层数,学习率,迭代次数等。
在本实施例中,训练模块503,还用于预先定义超参数的初始值,然后将训练集的词的最终表示输入至序列标注模型进行训练;根据训练结果,来对超参数进行调整。
举例来说,可以根据训练时长来调整隐藏层单元的个数以及模型的层数。可以理解的是,训练标注模型训练结束的时间减去开始训练的时间为训练时长。如果序列标注模型需要很长的时间训练,要考虑是否需要减少序列标注模型层数或是减少隐藏层单元的个数。在本实施例中,可以把迭代理解为模型的训练,每一次迭代可以理解为对模型重新进行一次训练,模型训练的目的就是为了学习到合适的参数。学习率是一个重要的超参数,它控制着基于损失梯度调整神经网络权值的速度,大多数优化算法(如SGD、RMSprop、Adam)对它都有涉及。学习率越小,沿着损失梯度下降的速度越慢。不同的模型所用的学习率不同,一般我们会设置成0.1-0.001之间。可以在序列标注模型的训练开始时使用大的学习率,使得序列标注模型可以快速到达最优值,之后可以动态减小学习率,以防止序列标注模型在最优值附近发生振荡。
在本实施例中,将所述训练集的词的最终表示输入所述序列标注模型进行训练,判断是否结束训练可以依据以下规则进行:
每迭代200次,就使用当前的序列标注模型对验证集的词进行中文语义标注预测,得到预测标签。通过比较预测标签和验证集的实际标签,计算当前序列标注模型的各项性能,包括准确率、召回率、F1值。
当迭代次数达到预先设置的值或者当序列标注模型的F1值一直在下降,且连续下降次数超过事先设置的值时,可以停止训练。
处理模块504,用于通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注。
请参阅图8,处理模块504包括:
第三获取子模块5041,用于将所述验证集的词的最终表示输入所述优化参数后的序列标注模型,得到所述验证集的词的预测标签;
比较子模块5042,用于通过对所述验证集的预测标签与验证集的实际标签进行比较,确定所述优化参数后的序列标注模型的性能;将性能满足预设条件的序列标注模型作为目标序列标注模型。
在本实施例中,所述性能包括准确率、召回率及F1值,其中,F1值=准确率*召回率*2/(正确率+召回率)。
需要说明的是,在中文语义标注中,原始标签包括施事、受事、时间、地点、原因、目的等等,对于不是角色的那些词,用“O”表示。
在本实施例中,将预处理好的句子输入模型中,就会获得相应的预测标签预测标签就是由所述目标序列标注模型来从所有的原始标签中选择一个最合适的标签来对当前的词进行标注。
所述验证集的实际标签是指人工对词进行中文语义标注的标签,实际标签是指词对应的语义角色,包括施事、受事、时间、地点、原因、目的等等。如果实际标签和预测标签基本一致,说明模型的效果很好,这就意味着,依靠目标序列标注模型能达到和人工一样的效果。如果实际标签和预测标签基本不一致,说明目标序列标注模型的效果不好,那么需要寻找原因,来进一步优化目标序列标注模型。
下面对准确率、召回率及F1值进行详细说明。用TP表示将正类预测为正类,用于FN表示将正类预测为负类,用FP表示将负类预测位正类,用TN表示将负类预测位负类。
准确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),若正确率用P表示,则P=TP/(TP+FP)。
召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),若用R表示召回率,则R=TP/(TP+FN)。
F1值=准确率*召回率*2/(正确率+召回率),其中,F1值即为正确率和召回率的调和平均值。
进一步说明的是,该步骤S104中性能满足预设条件包括:所述验证集输入所述优化参数后的序列标注模型后,F1值最高的序列标注模型。
补充说明的是,在本实施例中,所述处理模块504,还用于对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,将所述测试集的词的最终表示输入所述目标序列标注模型,得到所述测试集的词的预测标签。
在本实施例中,所述测试集可以选择CPB1.0的760篇文章中的72篇文章。测试集中的每一句话都是带有标签的,这些标签都是事先人工标注的,预测标签是指把测试集中的句子输入到目标序列标注模型中,通过目标序列标注模型来对这些语句进行中文语义角色标注,把句子中和谓语相关的部分标上对应的角色,表明它在这句话中的成分,比如施事、受事、时间、地点等。
在本实施例中,所述处理模块504,还用于对所述测试集中的语句进行分词处理,得到第三词向量表示,并获取所述测试集中的语句的第三字向量表示;将所述第三词向量表示作为所述测试集的词的外部信息表示,将所述第三字向量表示输入卷积神经网络模型得到所述测试集的词的内部信息表示,并对所述测试集的词的外部信息表示及所述测试集的词的内部信息表示进行连接,构成所述测试集的词的最终表示。
需要说明的是,由于所述测试集的词的外部信息表示实质是向量,所述测试集的词的内部信息表示是向量,所述对所述测试集的词的外部信息表示及所述测试集的词的内部信息表示进行连接属于两个向量的融合处理。
这样,所述测试集的词的最终表示为所述测试集的词的内部信息的向量表示和外部信息的向量表示的组合,有效融合了词的外部信息及内部信息,有利于对所述测试集的词进行全面语义理解。
在本实施例中,所述目标序列标注模型可以用于对测试集中的语料进行中文语义角色标注,即对词的中文语义角色进行预测,得到预测标签。举例来说,例如,将“委员会明天将要通过此议案”输入所述目标序列标注模型后,“[委员会Agent][明天Tmp]将要[通过V][此议案P a s s i v e]。”其中“通过”是谓语动词,分别对“委员会”“此议案”和“明天”进行标注,对应分别是施事、受事和动作发生的时间。
在本实施例中,所述处理模块504,还用于将所述测试集的词的预测标签与测试集的词的实际标签进行比较,得到测评结果;根据所述测评结果对所述目标序列标注模型进行调整。
如果测试集的词的实际标签和所述测试集的词的预测标签基本一致,说明测评结果很好,这就意味着,依靠所述目标序列标注模型能达到和人工一样的效果。如果所述测试集的词的实际标签和所述测试集的词的预测标签基本不一致,说明所述目标序列标注模型的效果不好,那么需要寻找原因,来进一步优化模型。
在本实施例中,所述测试集的词的实际标签和所述测试集的词的预测标签基本不一致的情况下,可以对所述目标序列标注模型的超参数进行调整,提高所述目标序列标注模型的中文语义角色标注的正确率。
需要说明的是,如果发现目标序列标注模型在测试集上的效果不如训练集上的效果,要考虑可能是目标序列标注模型发生了过拟合,要考虑是否要减少迭代次数。在本实施例中,可以把迭代理解为序列标注模型的训练,每一次迭代可以理解为对模型重新进行一次训练,模型的训练的目的就是为了学习到合适的参数。可以在最先的几个迭代中选择大的学习率,在之后的迭代过程中,慢慢的减小学习率。
这样,基于测试集输入目标序列标注模型后的预测标签,对目标序列标注模型进行调整,可以提高目标序列标注模型进行中文语义角色标注的准确度,提高标注效果。
本发明提供的中文语义角色标注装置,基于训练集的词的最终表示对构建的序列标注模型进行参数优化,基于验证集的词的最终表示对参数优化后的序列标注模型进行性能判断,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过目标序列标注模型可对待测试的数据进行中文语义角色标注,由于无需人工标注过程,通过自动构建目标序列标注模型,利用目标标注模型对待测试的数据进行中文语义角色标注,简化中文语义角色标注的操作,提高语义角色标注效率。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的中文语义角色标注方法的步骤。
本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个中文语义角色标注方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种中文语义角色标注方法,其特征在于,所述中文语义角色标注方法包括:
对预先获取的训练集的中文语料进行处理,得到所述训练集的词的最终表示;
对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示;
基于TensorFlow架构,采用双向GRU及CRF构建序列标注模型,并对所述序列标注模型的超参数设置初始值,将所述训练集的词的最终表示输入所述序列标注模型进行训练,对所述序列标注模型的参数进行优化;
通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注。
2.根据权利要求1所述的中文语义角色标注方法,其特征在于,所述对预先获取的训练集中的中文语料进行处理,得到所述训练集的词的最终表示,包括以下过程:
对所述训练集中的语句进行分词处理,分别得到语句中词语的第一词向量表示,及语句中字的第一字向量表示;
将所述第一词向量表示作为所述训练集的词的外部信息表示,将所述第一字向量表示输入卷积神经网络模型得到所述训练集的词的内部信息表示,并对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接,构成所述训练集的词的最终表示。
3.根据权利要求1所述的中文语义角色标注方法,其特征在于,所述对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示,包括以下过程:
对所述验证集中的语句进行分词处理,得到第二词向量表示,并获取所述验证集中的语句的第二字向量表示;
将所述第二词向量表示作为所述验证集的词的外部信息表示,将所述第二字向量表示输入卷积神经网络模型得到所述验证集的词的内部信息表示,并对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接,构成所述验证集的词的最终表示。
4.根据权利要求1所述的中文语义角色标注方法,其特征在于,所述通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,包括以下过程:
将所述验证集的词的最终表示输入所述优化参数后的序列标注模型中,得到所述验证集的词的预测标签;
通过对所述验证集的预测标签与验证集的实际标签进行比较,确定所述优化参数后的序列标注模型的性能;其中,所述性能包括准确率、召回率及F1值,其中,F1值=准确率*召回率*2/(正确率+召回率)。
5.根据权利要求1至4中任一项所述的中文语义角色标注方法,其特征在于,通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注,包括以下过程:
对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,将所述测试集的词的最终表示输入所述目标序列标注模型,得到所述测试集的词的预测标签。
6.一种中文语义角色标注装置,其特征在于,所述中文语义角色标注装置包括:
第一获取模块,用于对预先获取的训练集的中文语料进行处理,得到所述训练集的词的最终表示;
第二获取模块,用于对预先获取的验证集的中文语料进行处理,得到所述验证集的词的最终表示;
训练模块,用于基于TensorFlow架构,采用双向GRU及CRF构建序列标注模型,并对所述序列标注模型的超参数设置初始值,将所述训练集的词的最终表示输入所述序列标注模型进行训练,对所述序列标注模型的参数进行优化;
处理模块,用于通过所述验证集的词的最终表示对优化参数后的序列标注模型进行性能评估,将性能满足预设条件的序列标注模型作为目标序列标注模型,通过所述目标序列标注模型对预先获取的测试集中的中文语料进行中文语义角色标注。
7.根据权利要求6所述的中文语义角色标注装置,其特征在于,所述第一获取模块包括:
第一获取子模块,用于对所述训练集中的语句进行分词处理,分别得到语句中词语的第一词向量表示,及语句中字的第一字向量表示;
第一连接子模块,用于将所述第一词向量表示作为所述训练集的词的外部信息表示,将所述第一字向量表示输入卷积神经网络模型得到所述训练集的词的内部信息表示,并对所述训练集的词的外部信息表示及所述训练集的词的内部信息表示进行连接,构成所述训练集的词的最终表示。
8.根据权利要求6所述的中文语义角色标注装置,其特征在于,所述第二获取模块包括:
第二获取子模块,用于对所述验证集中的语句进行分词处理,得到第二词向量表示,并获取所述验证集中的语句的第二字向量表示;
第二连接子模块,用于将所述第二词向量表示作为所述验证集的词的外部信息表示,将所述第二字向量表示输入卷积神经网络模型得到所述验证集的词的内部信息表示,并对所述验证集的词的外部信息表示及所述验证集的词的内部信息表示进行连接,构成所述验证集的词的最终表示。
9.根据权利要求6所述的中文语义角色标注装置,其特征在于,所述处理模块还包括:
第三获取子模块,用于将所述验证集的词的最终表示输入所述优化参数后的序列标注模型,得到所述验证集的词的预测标签;
比较子模块,用于通过对所述验证集的预测标签与验证集的实际标签进行比较,确定所述优化参数后的序列标注模型的性能;其中,所述性能包括准确率、召回率及F1值,其中,F1值=准确率*召回率*2/(正确率+召回率)。
10.根据权利要求6至9任一项所述的中文语义角色标注装置,其特征在于,所述处理模块,还用于对所述测试集的中文语料进行处理,得到所述测试集的词的最终表示,将所述测试集的词的最终表示输入所述目标序列标注模型,得到所述测试集的词的预测标签。
11.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如权利要求1至5中任意一项所述中文语义角色标注方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述中文语义角色标注方法的步骤。
CN201910393760.6A 2019-05-13 2019-05-13 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 Pending CN110110086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910393760.6A CN110110086A (zh) 2019-05-13 2019-05-13 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910393760.6A CN110110086A (zh) 2019-05-13 2019-05-13 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110110086A true CN110110086A (zh) 2019-08-09

Family

ID=67489674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910393760.6A Pending CN110110086A (zh) 2019-05-13 2019-05-13 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110110086A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489110A (zh) * 2019-08-20 2019-11-22 腾讯科技(深圳)有限公司 一种基于深度学习的代码生成方法及装置
CN110705225A (zh) * 2019-08-15 2020-01-17 平安信托有限责任公司 一种合同标注方法及装置
CN110717317A (zh) * 2019-09-12 2020-01-21 中国科学院自动化研究所 在线人工中文文本标注***
CN111046656A (zh) * 2019-11-15 2020-04-21 北京三快在线科技有限公司 文本处理方法、装置、电子设备及可读存储介质
CN111475650A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 一种俄语语义角色标注方法、***、装置以及存储介质
CN111597807A (zh) * 2020-04-30 2020-08-28 腾讯科技(深圳)有限公司 分词数据集生成方法、装置、设备及其存储介质
CN111639500A (zh) * 2020-04-23 2020-09-08 平安国际智慧城市科技股份有限公司 语义角色标注方法、装置、计算机设备及存储介质
CN111723583A (zh) * 2020-06-23 2020-09-29 中国平安人寿保险股份有限公司 基于意图角色的语句处理方法、装置、设备及存储介质
CN111859984A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 意图挖掘方法、装置、设备及存储介质
CN111859858A (zh) * 2020-07-22 2020-10-30 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN112417111A (zh) * 2020-11-04 2021-02-26 厦门快商通科技股份有限公司 文本分类方法、问答***及对话机器人
CN112767022A (zh) * 2021-01-13 2021-05-07 平安普惠企业管理有限公司 移动应用功能演化趋势预测方法、装置及计算机设备
CN113377884A (zh) * 2021-07-08 2021-09-10 中央财经大学 基于多智能体增强学习的事件语料库提纯方法
CN113806477A (zh) * 2021-08-26 2021-12-17 广东广信通信服务有限公司 一种文本自动标注方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225281A1 (en) * 2017-02-06 2018-08-09 Thomson Reuters Global Resources Unlimited Company Systems and Methods for Automatic Semantic Token Tagging
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN109726400A (zh) * 2018-12-29 2019-05-07 新华网股份有限公司 实体词识别结果评价方法、装置、设备及实体词提取***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225281A1 (en) * 2017-02-06 2018-08-09 Thomson Reuters Global Resources Unlimited Company Systems and Methods for Automatic Semantic Token Tagging
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN109726400A (zh) * 2018-12-29 2019-05-07 新华网股份有限公司 实体词识别结果评价方法、装置、设备及实体词提取***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张建同: "《实用多元统计分析》", 31 August 2016 *
蚊子爱牛牛: ""Tensorflow基础:使用验证数据集判断模型效果"", 《HTTPS://BLOG.CSDN.NET/XJY104165/ARTICLE/DETAILS/78205618》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705225A (zh) * 2019-08-15 2020-01-17 平安信托有限责任公司 一种合同标注方法及装置
CN110489110B (zh) * 2019-08-20 2023-10-03 腾讯科技(深圳)有限公司 一种基于深度学习的代码生成方法及装置
CN110489110A (zh) * 2019-08-20 2019-11-22 腾讯科技(深圳)有限公司 一种基于深度学习的代码生成方法及装置
CN110717317B (zh) * 2019-09-12 2021-06-08 中国科学院自动化研究所 在线人工中文文本标注***
CN110717317A (zh) * 2019-09-12 2020-01-21 中国科学院自动化研究所 在线人工中文文本标注***
CN111046656A (zh) * 2019-11-15 2020-04-21 北京三快在线科技有限公司 文本处理方法、装置、电子设备及可读存储介质
CN111046656B (zh) * 2019-11-15 2023-07-14 北京三快在线科技有限公司 文本处理方法、装置、电子设备及可读存储介质
CN111475650A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 一种俄语语义角色标注方法、***、装置以及存储介质
CN111475650B (zh) * 2020-04-02 2023-04-07 中国人民解放军国防科技大学 一种俄语语义角色标注方法、***、装置以及存储介质
CN111639500A (zh) * 2020-04-23 2020-09-08 平安国际智慧城市科技股份有限公司 语义角色标注方法、装置、计算机设备及存储介质
WO2021212681A1 (zh) * 2020-04-23 2021-10-28 平安国际智慧城市科技股份有限公司 语义角色标注方法、装置、计算机设备及存储介质
CN111597807A (zh) * 2020-04-30 2020-08-28 腾讯科技(深圳)有限公司 分词数据集生成方法、装置、设备及其存储介质
CN111597807B (zh) * 2020-04-30 2022-09-13 腾讯科技(深圳)有限公司 分词数据集生成方法、装置、设备及其存储介质
CN111723583B (zh) * 2020-06-23 2023-02-10 中国平安人寿保险股份有限公司 基于意图角色的语句处理方法、装置、设备及存储介质
CN111723583A (zh) * 2020-06-23 2020-09-29 中国平安人寿保险股份有限公司 基于意图角色的语句处理方法、装置、设备及存储介质
CN111859858B (zh) * 2020-07-22 2024-03-01 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN111859858A (zh) * 2020-07-22 2020-10-30 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN111859984A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 意图挖掘方法、装置、设备及存储介质
CN111859984B (zh) * 2020-07-23 2023-02-14 中国平安人寿保险股份有限公司 意图挖掘方法、装置、设备及存储介质
CN112417111A (zh) * 2020-11-04 2021-02-26 厦门快商通科技股份有限公司 文本分类方法、问答***及对话机器人
CN112767022B (zh) * 2021-01-13 2024-02-27 湖南天添汇见企业管理咨询服务有限责任公司 移动应用功能演化趋势预测方法、装置及计算机设备
CN112767022A (zh) * 2021-01-13 2021-05-07 平安普惠企业管理有限公司 移动应用功能演化趋势预测方法、装置及计算机设备
CN113377884A (zh) * 2021-07-08 2021-09-10 中央财经大学 基于多智能体增强学习的事件语料库提纯方法
CN113806477A (zh) * 2021-08-26 2021-12-17 广东广信通信服务有限公司 一种文本自动标注方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
CN110110086A (zh) 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN104331449B (zh) 查询语句与网页相似度的确定方法、装置、终端及服务器
CN110298033A (zh) 关键词语料标注训练提取工具
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN108197116B (zh) 一种中文文本分词的方法、装置、分词设备及存储介质
CN110866093A (zh) 机器问答方法及装置
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
CN109062904B (zh) 逻辑谓词提取方法和装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答***实现方法
CN111241232B (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN106649250A (zh) 一种情感新词的识别方法及装置
CN110287482A (zh) 半自动化分词语料标注训练装置
Zhang et al. A context-enriched neural network method for recognizing lexical entailment
WO2021112984A1 (en) Feature and context based search result generation
Madala et al. Automated identification of component state transition model elements from requirements
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择***
CN106250367B (zh) 基于改进的Nivre算法构建越南语依存树库的方法
CN116049376B (zh) 一种信创知识检索回复的方法、装置和***
CN117474010A (zh) 面向电网语言模型的输变电设备缺陷语料库构建方法
CN116974554A (zh) 代码数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zheng Xinping

Inventor after: Wang Zhichao

Inventor after: Hezhongyi

Inventor after: Zhou Zhongcheng

Inventor after: Duan Lian

Inventor before: Zheng Xinping

Inventor before: Wang Zhichao

Inventor before: Hezhongyi

Inventor before: Zhou Zhongcheng

Inventor before: Duan Lian

Inventor before: Zhang Shengdong

Inventor before: Huang Jiuming

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190809