CN110377738A - 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 - Google Patents

融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 Download PDF

Info

Publication number
CN110377738A
CN110377738A CN201910635489.2A CN201910635489A CN110377738A CN 110377738 A CN110377738 A CN 110377738A CN 201910635489 A CN201910635489 A CN 201910635489A CN 110377738 A CN110377738 A CN 110377738A
Authority
CN
China
Prior art keywords
vietnamese
event
information
neural networks
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910635489.2A
Other languages
English (en)
Inventor
余正涛
刘畅
高盛祥
张亚飞
王吉地
王振晗
郭军军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910635489.2A priority Critical patent/CN110377738A/zh
Publication of CN110377738A publication Critical patent/CN110377738A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,属于自然语言处理技术领域。本发明首先收集汉越双语新闻文本,根据事件的特征,设置事件类型、用于事件检测的标注体系,形成训练数据。然后融合依存句法信息的卷积神经网络,针对句子级别越南语新闻事件进行检测。首先在编码过程中融合了词义、位置信息、词性信息和命名实体信息。其次利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,融合两部分特征作为事件编码,进而实现新闻事件检测。本发明在新闻事件检测中的取得了很好效果。

Description

融合依存句法信息和卷积神经网络的越南语新闻事件检测 方法
技术领域
本发明涉及融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是自然语言处理的重要信息提取任务,旨识别文本中指定类型的事件。目前,事件检测研究大都在汉语、英语环境下展开,由于越南语属于资源稀缺型语种,针对越南语的事件检测暂无人涉及。因此,利用人工智能技术,机器自动检测越南语新闻文本中的新闻事件成为任务的难点和关键技术之一。
目前事件检测任务主要基于以下两类方法。(1)机器学习方法。张炫等人提出了以DPEMM模型为核心的事件抽取框架。裴东辉等人提出基于支持向量机模型的子事件类别自动识别。高永兵等人针对微博的特征进行TF-IDF的改进得出事件提取结果。(2)深度学习方法。Nguyen等人在已有研究的基础上提出一种基于递归神经网络的联合方法进行英文事件抽取。Chen等人提出动态多池卷积神经网络(DMCNN)解决了句中多个事件的识别以及共享参数匹配的问题。Nguyen等人使用卷积神经网络对句中的词进行卷积,以获得句中隐含的语义信息;上述针对的是其它语言的检测方法,因此本发明提出了一种融合依存句法信息和卷积神经网络的越南语新闻事件检测方法。
发明内容
本发明提供了融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,以用于解决越南语新闻事件检测分类问题,实现了汉越双语新闻事件类型检测。
本发明的技术方案是:融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,首先收集汉越双语新闻文本,根据事件的特征,设置事件类型、用于事件检测的标注体系,形成训练数据。然后融合依存句法信息的卷积神经网络,针对句子级别越南语新闻事件进行检测。首先在编码过程中融合了词义、位置信息、词性信息和命名实体信息。其次利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,融合两部分特征作为事件编码,进而实现新闻事件检测;
所述检测方法的具体步骤如下:
Step1、语料收集:收集用于越南语事件检测新闻文本,使用Scrapy作为爬取工具,模仿用户操作,为越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取如新闻标题、新闻时间、新闻正文。再对新闻文本进行去重与筛选;
Step2、构建语料库:通过越南语事件检测的标注体系,根据越南语的语言特点以及事件检测的需求对越南文新闻文本进行标记,将标记好的越南语新闻语料分为训练语料、测试语料和验证集;
作为本发明的优选方案,所述步骤Step2中,新闻事件文本由触发词和参数组成,触发词能清楚的表达一类事件发生,触发事件的主要词通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;标注体系采用了XML的可扩展标记语言组织文本,分别对触发词、参数、事件类别进行标记,将收集到的越南语新闻文本进行标记,建立越南语新闻事件检测数据集。触发词表如表1所示。
表1为触发词表
Step3、文本向量化:训练越南语词向量,融合句中词序列的词向量、位置向量、词性向量和实体类型向量作为模型输入;
作为本发明的优选方案,所述步骤Step3中,采用skip-gram语言模型的方法训练越南语词向量,分别构建位置嵌入表、词性嵌入表、实体类型嵌入表将位置信息、词性信息、实体类型信息嵌入到向量中。
Step4、构建融合依存句法信息的卷积神经网络(Dependency ParsingConvolutional Neural Networks,DPCNN)模型:在步骤Step3的基础上,采用卷积神经网络和融合依存句法信息的卷积神经网络,获取新闻事件句编码,训练事件检测分类模型,实现汉越双语新闻事件类型检测;
作为本发明的优选方案,所述步骤Step4中,采用传统的多核卷积编码句中连续词之间的语义信息,同时采用融合依存句法信息的卷积编码句中非连续词之间的语义信息,融合两部分的语义信息作为当前句子的语义信息。
本发明提出的模型由三个部分组成:(1)句编码层,(2)卷积层,(3)池化层。当输入S1事件句时,本文方法模型如图2所示:S1:Nam,cóTrung(译文:越南百万难民,只有中国出面救济);
(1)编码层
首先,编码层将句子中词级信息转换成实值向量,作为神经网络的输入。设X={x1,x2,x3,...,xn}是一个长度为n的句子,其中xi是句子中的第i个词。在自然语言处理任务中,词的语义信息与其在句中的位置有关,词性和实体类型信息对触发词的识别和语义的理解有提升的作用。本文融合词向量、位置向量、词性向量和实体类型向量作为模型输入。
词向量是一个实值向量,本方法也可以采用word2vec模型训练方法训练越南语词向量。本方法将位置编码作为编码的一部分,引入当前词的语义结构信息。位置向量是指当前词与触发词的相对位置。例如,在S1中,“(出面)”和“ (难民)”之间的相对位置为6。由于词性和实体类型有助于获取当前词语意信息,对越南语进行词性标注,并定义词性嵌入表,将28种词性标签嵌入到词性向量中。对越南语进行命名实体识别,定义实体类型嵌入表,识别出句子中的人名、地名、组织机构名、时间等命名实体,实体标签嵌入到实体向量中。表共有十种实体类型,分为三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。
(2)卷积层
卷积层捕获整个句子的组合语义信息,并将这些有价值的语义压缩到特征映射中。卷积运算中的滤波器w可以提取卷积窗内词之间的特征。当卷积核大小为m时,窗口内的m个词{xi,xi+1,xi+2,...,xi+m-1}采用xi:i+m-1表示,得到的卷积特征用ci表示,公式如下:
ci=f(wxi:i+m-1+b) (1)
其中b(b∈R)是偏置项,f是非线性激活函数,w为特征权重,滤波器应用于句子中每个可能的窗口{x1:m,x2:m+1,...,xn+m-1:n}。由于句中的特征并非单一,因此在卷积过程中使用多个滤波器来获取不同特征,当使用k个滤波器W={w1,w2,...,wk}时,卷积运算用如下公式表示:
cji=f(wjxi:i+m-1+bj) (2)
其中,j∈[1,k],wj为特征权重,bj表示为偏置。
构建越南语依存句法树,如附图3所示,通过分析可知,“(救济)”和“(难民)”之间的句法关系“SBV(主谓关系)”有助于判断“ra(出面)”并非出席活动事件的触发词。
卷积运算可以捕获窗口内连续词之间的语义信息,并不能捕获窗口外非连续词的特征,本文将窗口外的信息通过依存句法分析引入。依存信息由D={N,E}表示,其中N={x1,x2,x3,...,xp}(p≤n)表示句中存在依存关系的所有词节点,有依存关系的两词节点由xs,t表示;E是两词节点之间边,每个边(xs,xt)代表着从词节点xs指向词节点xt,并且有依存信息标签L(xs,xt)。例如,在图2中,节点“(救济)”和“(难民)”之间的有向边依存信息标签为 Kipf等人提出的方法表示,由于信息流不只是按照标签指示的方向,因此这里添加了自循环(xs,xs)和反向边(xt,xs)。自循环具有L(xs,xs)的标签,反向边的标签为L^(xt,xs)。特定的依存信息标签具有固定的参数,依存特征的计算如下:
(3)
其中j的范围是1到k,f为非线性激活函数,WL(xi,N)有三种形式分别是原始边,反向边,自循环边,bL(xi,N)为偏置项。最后,将卷积特征和融合依存句法信息的卷积特征拼接,作为当前句特征,公式如下:
Eji=Wicji+(1-Wi)hi (4)
E∈R,k(n-m+1)为卷积得到的结果矩阵,k为滤波器的个数,n为句子长度,m滤波器窗口大小,(1-Wi)hi表示融合依存句法信息特征,Wicji表示卷积特征。
(3)池化层
池化层可以提取卷积特征中的最具代表性的特征。本文选取最大池化的方法,公式如下:
E*=Each-max(E1,E2,E3,...,Ek) (5)
针对k个滤波器,提取每个滤波器中最有价值的局部特征,其他特征值全部抛弃,k个局部特征聚合成一个向量E*作为事件编码。最后,将事件编码送入全连接层,使用soft-max激活函数对E*进行分类,得到事件的分类概率,根据概率分布对事件的类型进行预测,其公式为:
其中Si表示分类概率,C表示类别个数,i表示类别索引。i的范围是1到6(包含非事件类型在内)。
Step5、事件类型检测:对需要识别汉越双语新闻事件句进行编码,然后将提取新闻事件句的特征向量作为分类模型的输入向量,通过分类模型得到最终的分类结果。
本发明的有益效果是:本发明融合依存句法信息的卷积神经网络能对句子级别新闻事件进行检测。在编码过程中融合了词义、位置信息、词性信息和命名实体信息。其次利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,融合两部分特征作为事件编码,从而实现事件检测。实验结果表明,该方法在新闻事件检测分类中的取得了很好效果。
附图说明
图1为本发明中的流程图;
图2为本发明中提出的DPCNN方法建模流程示意图;
图3为本发明中S1的依存句法分析结果图。
具体实施方式
实施例1:如图1-3所示,融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,所述检测方法的具体步骤如下:
Step1、语料收集:使用Scrapy作为爬取工具,爬取以下新闻网站:越南新闻社http://www.vnagency.com.vn,越南国家英文报http://vietnamnews.vnagency.com.vn,越南电讯网http://www.vnn.vn,越南经济时报http://www.vneconomy.com.vn;收集用于越南语事件检测新闻文本,对新闻文本进行去重与筛选;
作为本发明的优选方案,所述步骤Step1中,使用Scrapy作为爬取工具,模仿用户操作,为越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取如新闻标题、新闻时间、新闻正文。
Step2、构建语料库:通过越南语事件检测的标注体系,根据越南语的语言特点以及事件检测的需求对越南文新闻文本进行标记,将标记好的越南语新闻语料按照8:1:1的比例分配训练语料、测试语料和验证集;其中经预处理后共标注了领导人出行活动领域的越南语新闻文本1233篇,共9576条事件句;
作为本发明的优选方案,所述步骤Step2中,新闻事件文本由触发词和参数组成,触发词能清楚的表达一类事件发生,触发事件的主要词通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;标注体系采用了XML的可扩展标记语言组织文本,分别对触发词、参数、事件类别进行标记,将收集到的越南语新闻文本进行标记,建立越南语新闻事件检测数据集。
Step3、文本向量化:训练越南语词向量,融合句中词序列的词向量、位置向量、词性向量和实体类型向量作为模型输入;
作为本发明的优选方案,所述步骤Step3中,采用skip-gram语言模型的方法训练越南语词向量,分别构建位置嵌入表、词性嵌入表、实体类型嵌入表将位置信息、词性信息、实体类型信息嵌入到向量中。
Step4、构建事件类别检测模型:在步骤Step3的基础上,采用卷积神经网络和融合依存句法信息的卷积神经网络,获取新闻事件句编码,训练事件检测分类模型,实现汉越双语新闻事件类型检测;
作为本发明的优选方案,所述步骤Step4中,采用传统的多核卷积编码句中连续词之间的语义信息,同时采用融合依存句法信息的卷积编码句中非连续词之间的语义信息,融合两部分的语义信息作为当前句子的语义信息。
Step5、事件类型检测:对需要识别汉越双语新闻事件句进行编码,然后将提取新闻事件句的特征向量作为分类模型的输入向量,通过分类模型得到最终的分类结果。
为了验证本发明的效果,设置了对比实验,采用准确率(P),召回率(R),和F值(F)作为评价指标。
其中,A为正确识别事件类型的数量,B为错误识别事件类型的数量,C为未被识别到的正确识别事件类型的数量。
(1)为探究模型层数对实验结果的影响,分别采用1层、2层和3层卷积的本发明模型进行实验,找到最优层数,实验结果如表2所示:
表2模型层数对实验结果的影响
模型层数 P(%) R(%) F(%)
1 74.04 62.63 70.08
2 76.78 64.25 71.45
3 75.53 59.01 68.23
通过分析可知,当卷积层的数量为2时达到了最佳效果,召回率、准确率和F值分别为75.78%、64.25%、70.45%。当卷积层数为3时,模型的性能有所下降。因此,在后续实验中,模型均采用两层卷积。
(2)编码特征探究
针对词嵌入层融入的编码特征进行探究,在去掉某一项编码向量之后,剩余2类编码向量和词向量融合作为模型的输入,探究不同编码特征对本发明模型性能的影响,实验结果如表3所示:
表3编码特征对实验结果的影响
通过分析可知去掉某一项编码向量之后,模型的准确率、召回率、F值与本文模型相比均有所下降,由此证明了同时使用三种编码向量可以提高事件检测性能。
(3)不同模型探究
为证明本文模型在越南语事件检测任务上的效果,本文模型与不添加依存句法信息的传统卷积神经网络和融合依存句法信息的图卷积神经网络做对比,实验结果如表4所示:
表4不同模型性能对比
不同模型 P(%) R(%) F(%)
CNN 73.23 66.14 69.23
GCN 75.00 63.92 70.24
DPCNN 76.78 64.25 71.45
通过对比分析可知DPCNN(融合依存句法分析的卷积神经网络)和GCN的模型效果优于CNN,因此引入依存句法信息可以捕获到CNN未捕获到的信息。对比GCN和DPCNN,可以看到,DPCNN的F值有0.19%的提升,说明大部分的信息可以被GCN所捕获,但是同时使用连续的卷积神经和融合依存句法信息的卷积神经网络可以捕获到句中更多的隐含信息。
通过以上实验和实例数据分析,该方法提出了一种用于越南语新闻事件检测的新型神经网络模型,该模型融合词向量,位置向量,词性向量和命名实体向量来捕捉词级别的语义信息,同时使用传统的卷积神经网络和融合依存句法信息的卷积神经网络获取语义信息。通过对模型设置不同的参数,并将最佳模型与基本方法做比较,证明了该方法在越南语新闻事件检测任务上达到了较好的效果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:
所述检测方法的具体步骤如下:
Step1、语料收集:收集用于越南语事件检测新闻文本,对新闻文本进行去重与筛选;
Step2、构建语料库:通过越南语事件检测的标注体系,根据越南语的语言特点以及事件检测的需求对越南文新闻文本进行标记,将标记好的越南语新闻语料分为训练语料、测试语料和验证集;
Step3、文本向量化:训练越南语词向量,融合句中词序列的词向量、位置向量、词性向量和实体类型向量作为模型输入;
Step4、构建事件类别检测模型:在步骤Step3的基础上,采用卷积神经网络和融合依存句法信息的卷积神经网络,获取新闻事件句编码,训练事件检测分类模型,实现汉越双语新闻事件类型检测;
Step5、事件类型检测:对需要识别汉越双语新闻事件句进行编码,然后将提取新闻事件句的特征向量作为分类模型的输入向量,通过分类模型得到最终的分类结果。
2.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step1中,使用Scrapy作为爬取工具,模仿用户操作,为越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取如新闻标题、新闻时间、新闻正文。
3.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step2中,新闻事件文本由触发词和参数组成,触发词能清楚的表达一类事件发生,触发事件的主要词通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;标注体系采用了XML的可扩展标记语言组织文本,分别对触发词、参数、事件类别进行标记,将收集到的越南语新闻文本进行标记,建立越南语新闻事件检测数据集。
4.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step3中,采用skip-gram语言模型的方法训练越南语词向量,分别构建位置嵌入表、词性嵌入表、实体类型嵌入表将位置信息、词性信息、实体类型信息嵌入到向量中。
5.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step4中,采用传统的多核卷积编码句中连续词之间的语义信息,同时采用融合依存句法信息的卷积编码句中非连续词之间的语义信息,融合两部分的语义信息作为当前句子的语义信息。
CN201910635489.2A 2019-07-15 2019-07-15 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 Pending CN110377738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910635489.2A CN110377738A (zh) 2019-07-15 2019-07-15 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910635489.2A CN110377738A (zh) 2019-07-15 2019-07-15 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法

Publications (1)

Publication Number Publication Date
CN110377738A true CN110377738A (zh) 2019-10-25

Family

ID=68253129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910635489.2A Pending CN110377738A (zh) 2019-07-15 2019-07-15 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法

Country Status (1)

Country Link
CN (1) CN110377738A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826313A (zh) * 2019-10-31 2020-02-21 北京声智科技有限公司 一种信息提取方法、电子设备及计算机可读存储介质
CN111159336A (zh) * 2019-12-20 2020-05-15 银江股份有限公司 一种半监督司法实体及事件联合提取方法
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建***及方法
CN111597811A (zh) * 2020-05-09 2020-08-28 北京合众鼎成科技有限公司 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及***
CN111966865A (zh) * 2020-07-21 2020-11-20 西北大学 利用基于查表子网络的空域图卷积层进行特征提取的方法
CN112085104A (zh) * 2020-09-10 2020-12-15 杭州中奥科技有限公司 一种事件特征提取方法、装置、存储介质及电子设备
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112307364A (zh) * 2020-11-25 2021-02-02 哈尔滨工业大学 一种面向人物表征的新闻文本发生地抽取方法
CN112580330A (zh) * 2020-10-16 2021-03-30 昆明理工大学 基于中文触发词指导的越南语新闻事件检测方法
CN112668319A (zh) * 2020-12-18 2021-04-16 昆明理工大学 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN113239142A (zh) * 2021-04-26 2021-08-10 昆明理工大学 融合句法信息的无触发词事件检测方法
CN113627170A (zh) * 2021-07-01 2021-11-09 昆明理工大学 多特征融合的越南语关键词生成方法
CN113626577A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于阅读理解的汉越跨语言新闻事件要素抽取方法
CN114004236A (zh) * 2021-09-18 2022-02-01 昆明理工大学 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114444484A (zh) * 2022-01-13 2022-05-06 重庆邮电大学 一种基于双层图的文档级事件抽取方法及***
CN116011461A (zh) * 2023-03-02 2023-04-25 文灵科技(北京)有限公司 一种基于事件分类模型的概念抽象***及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及***
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及***
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAO LIU 等: "Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation", 《ARXIV:1809.09078V2》 *
侯加英: "汉越双语新闻话题发现研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
潘清清: "越南语新闻事件元素抽取方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826313A (zh) * 2019-10-31 2020-02-21 北京声智科技有限公司 一种信息提取方法、电子设备及计算机可读存储介质
CN111159336B (zh) * 2019-12-20 2023-09-12 银江技术股份有限公司 一种半监督司法实体及事件联合提取方法
CN111159336A (zh) * 2019-12-20 2020-05-15 银江股份有限公司 一种半监督司法实体及事件联合提取方法
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建***及方法
CN111581396B (zh) * 2020-05-06 2023-03-31 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建***及方法
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
CN111597811A (zh) * 2020-05-09 2020-08-28 北京合众鼎成科技有限公司 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN111597811B (zh) * 2020-05-09 2021-11-12 北京合众鼎成科技有限公司 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及***
CN111897908B (zh) * 2020-05-12 2023-05-02 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及***
CN111966865B (zh) * 2020-07-21 2023-09-22 西北大学 利用基于查表子网络的空域图卷积层进行特征提取的方法
CN111966865A (zh) * 2020-07-21 2020-11-20 西北大学 利用基于查表子网络的空域图卷积层进行特征提取的方法
CN112085104B (zh) * 2020-09-10 2024-04-12 杭州中奥科技有限公司 一种事件特征提取方法、装置、存储介质及电子设备
CN112085104A (zh) * 2020-09-10 2020-12-15 杭州中奥科技有限公司 一种事件特征提取方法、装置、存储介质及电子设备
CN112163416B (zh) * 2020-10-09 2021-11-02 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112580330A (zh) * 2020-10-16 2021-03-30 昆明理工大学 基于中文触发词指导的越南语新闻事件检测方法
CN112580330B (zh) * 2020-10-16 2023-09-12 昆明理工大学 基于中文触发词指导的越南语新闻事件检测方法
CN112307364A (zh) * 2020-11-25 2021-02-02 哈尔滨工业大学 一种面向人物表征的新闻文本发生地抽取方法
CN112668319A (zh) * 2020-12-18 2021-04-16 昆明理工大学 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN113239142A (zh) * 2021-04-26 2021-08-10 昆明理工大学 融合句法信息的无触发词事件检测方法
CN113626577A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于阅读理解的汉越跨语言新闻事件要素抽取方法
CN113627170A (zh) * 2021-07-01 2021-11-09 昆明理工大学 多特征融合的越南语关键词生成方法
CN113627170B (zh) * 2021-07-01 2024-05-28 昆明理工大学 多特征融合的越南语关键词生成方法
CN114004236A (zh) * 2021-09-18 2022-02-01 昆明理工大学 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114004236B (zh) * 2021-09-18 2024-04-30 昆明理工大学 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114444484A (zh) * 2022-01-13 2022-05-06 重庆邮电大学 一种基于双层图的文档级事件抽取方法及***
CN116011461A (zh) * 2023-03-02 2023-04-25 文灵科技(北京)有限公司 一种基于事件分类模型的概念抽象***及方法
CN116011461B (zh) * 2023-03-02 2023-07-21 文灵科技(北京)有限公司 一种基于事件分类模型的概念抽象***及方法

Similar Documents

Publication Publication Date Title
CN110377738A (zh) 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法
CN108519890B (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110609983B (zh) 一种政策文件结构化分解方法
CN104573028A (zh) 实现智能问答的方法和***
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN109033166B (zh) 一种人物属性抽取训练数据集构建方法
CN110413768A (zh) 一种文章题目自动生成方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN110119443A (zh) 一种面向推荐服务的情感分析方法
CN111984782A (zh) 藏文文本摘要生成方法和***
CN112287197A (zh) 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112966097A (zh) 一种基于nlp的上市公司财务快讯自动生成方法及***
CN117474507A (zh) 一种基于大数据应用技术的智能招聘匹配方法及***
CN110929518B (zh) 一种使用重叠拆分规则的文本序列标注算法
Nayan et al. Named entity recognition for indian languages
CN110502759A (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
Buchholz Distinguishing complements from adjuncts using memory-based learning
CN111274354B (zh) 一种裁判文书结构化方法及装置
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN116662643A (zh) 法条推荐方法、法条推荐***、电子设备、存储介质
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025

RJ01 Rejection of invention patent application after publication