CN106844348A - 一种汉语句子功能成分分析方法 - Google Patents

一种汉语句子功能成分分析方法 Download PDF

Info

Publication number
CN106844348A
CN106844348A CN201710077125.8A CN201710077125A CN106844348A CN 106844348 A CN106844348 A CN 106844348A CN 201710077125 A CN201710077125 A CN 201710077125A CN 106844348 A CN106844348 A CN 106844348A
Authority
CN
China
Prior art keywords
functional component
sentence
chinese
component analysis
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710077125.8A
Other languages
English (en)
Other versions
CN106844348B (zh
Inventor
赵铁军
曹海龙
王亚楠
徐冰
朱聪慧
杨沐昀
郑德权
马春鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Industrial Technology Research Institute Asset Management Co ltd
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201710077125.8A priority Critical patent/CN106844348B/zh
Publication of CN106844348A publication Critical patent/CN106844348A/zh
Application granted granted Critical
Publication of CN106844348B publication Critical patent/CN106844348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种汉语句子功能成分分析方法,本发明涉及汉语句子功能成分分析方法。本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题。过程为:一、对训练语料进行处理,对CTB5.0进行转化,转化成带有功能成分标签的形式,进行修正得到修正后的语料;转化成基于字粒度的形式,作为A;二、将A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;三、对纯汉语文本数据进行处理,得到带有功能成分标签的句子,转化成基于字粒度的形式,作为B,将A与B相结合作为最终的训练数据;四、采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。本发明用于句子功能成分分析领域。

Description

一种汉语句子功能成分分析方法
技术领域
本发明涉及汉语句子功能成分分析方法,涉及机器翻译技术领域。
背景技术
句法分析是自然语言处理的一个关键问题,目前达到的效果不尽如人意,处在一个瓶颈的状态下。在现在的研究中句法分析仍然是一个热点话题,原因在于句法分析处于整个自然语言处理任务中的过渡位置,很多其他自然语言处理任务都可以使用该结果,有很多研究都利用到了这部分分析内容,而且不管是上层结构还是下层结构都是可以应用该结果的,主要的句法分析方法可以分为两类,一类是浅层句法分析,也就是语块分析,不再以词为单元处理,而是以语块为基本单元进行处理,在这类分析中分为直接产生一个新型层序结果的分析方法,也有将不同语块再次进行分析的方法,以语块为单元进行句法分析,而忽略语块内结构的信息,产生出的结果仍然是一棵部分句法分析树;另一类是完全句法分析,在这里的处理单元则是句子中的每个词,产生的是一棵完全句法树,而这种句法分析任务也可以被划分为短语结构的句法树分析和依存结构句法树分析,在短语结构句法分析中,将基本句子单元词通过其在短语中的形式和关系,逐渐分层次建立的一棵完整的具有短语层次结构的句法树,类似的,在有依存句法分析中,根据依存语法的定义,通过模型建立出的是将词语之间依存关系建立出来的一棵具有依存关系的完整句法树。
但是,这些研究中都没有将句子中具有的功能信息考虑到其中,短语结构句法分析考虑的是短语层次的信息,而依存句法分析中考虑的是词语之间的依存关系,这些都没有体现词或词集合在句子中呈现出的作用(比如主谓宾等),清华大学的周强等人第一次提出了相类似的概念,他们把功能成分提取任务转化为一种语块分析任务,与之前短语语块不同的是标签为句子的功能成分,并且在CIPS-2009的任务中发布了相关任务,然而在之后的几年里,相关的研究基本处于停滞阶段,只有在2011年有一篇和该任务相关的文章发表在中文信息学报中。
句子功能成分在许多实际问题中都有很重要的意义,例如在机器翻译的词对齐任务中,利用句子功能成分信息,我们可以加快词对齐速度和准确率,即让相同成分的词进行相对应,这样的方法既简便,又符合语言学上的规则;类似地,在依存句法分析中,我们可以利用句子功能成分信息作为限定条件在柱搜索的过程中将不合法的路径直接删掉,从而提高搜索的速度,同样地,这样的规则也具有简便易行的优点;在语义分析上的研究。更为重要的是在整个自然语言处理任务中,它可以作为句法分析和语义分析的一个过渡任务,从粒度上看,它高于句法分析而低于语义分析,该任务获得较好的效果会对这两个任务都会有提高作用,从之前的介绍可以看出这种研究有很重要的应用前景,值得对这一方向进行关注。
但是现有的相关研究还是处于十分初级的阶段,并没有很多的工作可以借鉴,主要的分析方法还是周强等人的功能语块分析,然而这些方法还有很多缺陷。首先,汉语功能树库的数据量并不是十分多,同时有人工利用规则转换成的成分树库存在一定的准确性问题,而且之后并没有数据的更新;其次,不论是周强等人还是陈亿的研究都仅仅针对汉语句子标注出其功能语块,产生一个单层线性结构的结果而并非是一个层次结构,目的是为了服务于句法分析树的构建;另外,从具体研究任务上来说,目前还没有专门对汉语句子的功能成分有相关研究的开展。因此,我们提出汉语功能成分分析基线模型以及基于移进归约动作转移的分析方法。从上述的工作贡献和工作意义上看,我们的工作是有很好的背景意义的。
发明内容
本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题,而提出一种汉语句子功能成分分析方法。
一种汉语句子功能成分分析方法具体过程为:
步骤一、对训练语料进行处理,其中训练语料采用CTB5.0,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;
CTB5.0为汉语宾州树库;
步骤二、将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将训练数据A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;
步骤三、根据汉语句子功能成分分析模型C对纯汉语文本数据进行处理,得到带有功能成分标签的句子,对带有功能成分标签的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;
步骤四、将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。
本发明的有益效果为:
本发明采用一种汉语句子功能成分分析方法,将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,训练语料一部分采用CTB5.0(汉语宾州树库),另外一部分采用纯汉语文本数据进行一系列处理后的结果,使用句法功能成分分析器对训练语料进行训练,得到功能成分分析模型,采用汉语句子功能成分分析模型对待测试汉语句子(500个句子)进行测试,得到较高的精确率、召回率、F值。
如表1所示本发明在对500句汉语句子进行测试时整个句法功能成分树的精确率为97.38%,召回率为97.79%,F值为90.90%。
附图说明
图1为整个句法功能成分分析的方法框架图;
图2为以树状图展示了对一个汉语句子进行功能成分分析的结果图,其中,[SBJ]为主语,[PRE]为谓语,[OBJ]为宾语,[ADV]为状语,[ADJ]为修饰语,[HEAD]为中心语,IP为句子,NP为名词性短语,VP为动词性短语,ADVP为副词短语,PP为介词短语,CP为补充短语,ADJP为修饰短语,QP为数量短语,PN为代词,AD为副词,VV为动作性动词,VA为形容词性动词,JJ为形容词,NN为名词,AS为助动词,P为介词,CD为数量词,OD为带有顺序的数量词,DEC为的,CC为连词,PU为标点符号。
具体实施方式
具体实施方式一:本实施方式的一种汉语句子功能成分分析方法具体过程为:
步骤一、对训练语料进行处理,其中训练语料采用CTB5.0(汉语宾州树库),CTB5.0语料本身是句法分析的结果通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;
步骤二、将基于转移的句法分析方法()应用到功能成分分析中,将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将训练数据A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;如图1;
步骤三、根据汉语句子功能成分分析模型C对纯汉语文本数据(不包括字母、英文)(人民网获取的关于新闻、社论的10000句)进行处理,得到带有功能成分标签的句子,对普遍存在的错误进行修正,对带有功能成分标签的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;
步骤四、将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子(500个句子)进行测试,得到测试结果。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中对训练语料进行处理,其中训练语料采用CTB5.0(汉语宾州树库),CTB5.0语料本身是句法分析的结果,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;具体过程为:
对训练语料进行处理,其中训练语料采用CTB5.0(汉语宾州树库),CTB5.0语料本身是句法分析的结果,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,功能成分标签包括句子的主语、谓语、宾语、状语、定语、补语、中心语功能成分,以及句子的从属结构;对带有功能成分标签形式的句子中功能成分标签标错或漏标的进行修正,得到修正后的语料;
将修正后的语料内部汉字之间添加方向信息,生成汉字粒度的句法树,即为句法树中每个结点增加方向信息,作为训练数据A。
方向有三种:左(l)、右(r)、并列(c),分别表示两个子结点中表示核心语义的结点为左子结点、右子结点、以及两个子结点的地位相同的情形。比如,单词:科学,左子结点是科,右结点是学,他们是并列关系,这里的标注的是单纯内补,这种关系,不是句子;
即使用单词内部汉字之间的结构信息指导句法分析以及生成汉字粒度的句法树,我们对单词内部汉字之间的关系进行标注,为每个结点增加了“方向”信息。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二中句法功能成分分析器的分析过程为;
数据A里面的每一个句子一次进入队列,将整个功能成分分析过程考虑成一系列状态转移的过程,每个状态由一个栈和一个队列组成,栈中保存着已经生成的句法功能成分树片段(一个句法功能成分树中的一部分),队列中保存着尚未处理的汉字;
初始状态下,栈为空,队列中元素的个数与句子中汉字的个数相同;
每个状态转移的动作根据平均感知器在预先定义好的动作集合中选择,
定义好的动作集合为移进-***、移进-附着、归约-一元、归约-二元、归约-单词、归约-子单词、停顿、终结,平均感知器通过计算当前状态下每个动作的得分,采用柱搜索策略进行选择;
平均感知器通过计算当前状态下每个动作的得分为特征向量与平均感知器的权值向量的点积,特征向量为根据定义好的特征模板对待检测汉语句子进行特征向量提取得到的,通用的结构特征模板如下:
与汉字相关的结构特征模板如下:
句法功能成分分析器执行移进-***动作时使用的字符串特征如下
句法功能成分分析器执行移进-附着动作时使用的字符串特征如下
z-1.z0 z-1.z0.t-1 z0.y-1 start(ω-1).z0.t-1
句法功能成分分析器执行归约-单词动作时使用的字符串特征如下
终止状态下,队列为空,栈中只有唯一的IP,IP为句法功能成分树的根节点,在训练终止后得到汉语句子功能成分分析模型C,解码终止后得到一棵完整的句法功能成分树,如图2。
整个汉语句子功能成分分析过程主要包括训练语料库的处理、训练程序的编写、训练模型的参数选择。训练语料库的处理即纠正语料库中本身存在的分析标注错误以及将语料库转化成基于字粒度信息的形式。训练程序的关键部分是特征提取以及平均感知器实现。训练模型的参数选择主要包括迭代轮数。
平均感知器即在某一状态下对动作的决策分类,采用的是平均感知器原理,平均感知器策略在一定程度上可以避免过拟合的发生。设迭代总轮数为T,每轮迭代的索引为t,其中0<t<T+1,语料库中的句子总数为N,句子的索引为n,其中0<n<N+1。设第t轮迭代时,处理了第n句之后,模型的权值为wt,n,则传统的平均感知器算法训练得到的模型的权值为wT,N
此权值可以使得模型在训练集上取得较高的预测精度,但是容易造成过拟合现象,使得模型在测试集上的预测精度不高。平均感知器策略为了防止过拟合,并不使用wT,N作为最终权值,而是使用作为模型的权值。平均感知器算法如下所示
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤三中根据汉语句子功能成分分析模型C对数据(纯汉语文本)(人民网获取的关于新闻、社论的10000句)进行功能成分分析,得到带有功能成分标签的句子,对普遍存在的错误进行修正,对带有功能成分标签的句子进行修正,得到修正后的语料;将修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;具体过程为:
根据汉语句子功能成分分析模型C对数据(纯汉语文本)(人民网获取的关于新闻、社论的10000句)进行功能成分分析,得到带有功能成分标签的句子,对普遍存在的错误进行修正,功能成分标签包括句子的主语、谓语、宾语、状语、定语、补语、中心语功能成分,以及句子的从属结构;对功能成分标签中功能成分标错或漏标的进行修正,得到修正后的语料;
将修正后的语料内部汉字之间添加方向信息,生成汉字粒度的句法树,即为句法树中每个结点增加方向信息,作为训练数据B;
方向有三种:左(l)、右(r)、并列(c),分别表示两个子结点中表示核心语义的结点为左子结点、右子结点、以及两个子结点的地位相同的情形。
即使用单词内部汉字之间的结构信息指导句法分析以及生成汉字粒度的句法树,我们对单词内部汉字之间的关系进行标注,为每个结点增加了“方向”信息。
将训练数据A与训练数据B相加作为最终的训练数据。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述步骤四中将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子(500个句子)进行测试,得到测试结果;具体过程为:
将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将最终的训练数据输入句法功能成分分析器进行训练的具体为:
每个状态由一个栈和一个队列组成,栈中保存着已经生成的句法功能成分树片段(一个句法功能成分树中的一部分),队列中保存着尚未处理的汉字;
初始状态下,栈为空,队列中元素的个数与句子中汉字的个数相同;
每个状态转移的动作根据平均感知器在预先定义好的动作集合中选择,定义好的动作集合为移进-***、移进-附着、归约一元、归约-二元、归约-单词、归约-子单词、停顿、终结,平均感知器通过计算当前状态下每个动作的得分,采用柱搜索策略进行选择;
终止状态下,队列为空,栈中只有唯一的IP,IP为句法功能成分树的根节点,在训练终止后得到汉语句子功能成分分析模型D,解码终止后得到一棵完整的句法功能成分树。
其它步骤及参数与具体实施方式一至四之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例一种汉语句子功能成分分析方法具体是按照以下步骤制备的:
(1)训练语料
CTB(宾州树库)13000余句以及人民网获取的关于新闻、社论的10000句;将其处理成字粒度的形式。
(2)训练过程
使用CTB语料训练出初始模型1;使用初始模型1对10000条新句进行parse,得到句法功能成分结果,也作为训练语料;结合两部分训练语料,再次训练模型2。
(3)测试集
随机抽取不同于训练语料的500个句子,经过训练好的模型parse后,进行人工校对,保证测试集的准确性。
在校正后的500句测试集上的实验结果如下表所示:
F=2P*Q/(P+Q)。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种汉语句子功能成分分析方法,其特征在于:一种汉语句子功能成分分析方法具体过程为:
步骤一、对训练语料进行处理,其中训练语料采用CTB5.0,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;
CTB5.0为汉语宾州树库;
步骤二、将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将训练数据A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;
步骤三、根据汉语句子功能成分分析模型C对纯汉语文本数据进行处理,得到带有功能成分标签的句子,对带有功能成分标签的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;
步骤四、将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。
2.根据权利要求1所述一种汉语句子功能成分分析方法,其特征在于:所述步骤一中对训练语料进行处理,其中训练语料采用CTB5.0,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;具体过程为:
对训练语料进行处理,其中训练语料采用CTB5.0,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,功能成分标签包括句子的主语、谓语、宾语、状语、定语、补语、中心语功能成分;对带有功能成分标签形式的句子中功能成分标签标错或漏标的进行修正,得到修正后的语料;
将修正后的语料内部汉字之间添加方向信息,生成汉字粒度的句法树,作为训练数据A。
3.根据权利要求2所述一种汉语句子功能成分分析方法,其特征在于:所述步骤二中句法功能成分分析器的分析过程为;
每个状态由一个栈和一个队列组成,栈中保存着已经生成的句法功能成分树片段,队列中保存着尚未处理的汉字;
初始状态下,栈为空,队列中元素的个数与句子中汉字的个数相同;
每个状态转移的动作根据平均感知器在预先定义好的动作集合中选择,
定义好的动作集合为移进-***、移进-附着、归约-一元、归约-二元、归约-单词、归约-子单词、停顿、终结,平均感知器通过计算当前状态下每个动作的得分,采用柱搜索策略进行选择;
平均感知器通过计算当前状态下每个动作的得分为特征向量与平均感知器的权值向量的点积,特征向量为根据定义好的特征模板对待检测汉语句子进行特征向量提取得到的;
终止状态下,队列为空,栈中只有唯一的IP,IP为句法功能成分树的根节点,在训练终止后得到汉语句子功能成分分析模型C,解码终止后得到一棵完整的句法功能成分树。
4.根据权利要求3所述一种汉语句子功能成分分析方法,其特征在于:所述步骤三中根据汉语句子功能成分分析模型C对纯汉语文本数据进行功能成分分析,得到带有功能成分标签的句子,对带有功能成分标签的句子进行修正,得到修正后的语料;将修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;具体过程为:
根据汉语句子功能成分分析模型C对数据纯汉语文本进行功能成分分析,得到带有功能成分标签的句子,功能成分标签包括句子的主语、谓语、宾语、状语、定语、补语、中心语功能成分;对功能成分标签中功能成分标错或漏标的进行修正,得到修正后的语料;将修正后的语料内部汉字之间添加方向信息,生成汉字粒度的句法树,作为训练数据B;将训练数据A与训练数据B相加作为最终的训练数据。
5.根据权利要求4所述一种汉语句子功能成分分析方法,其特征在于:所述步骤四中将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果;具体过程为:
将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将最终的训练数据输入句法功能成分分析器进行训练的具体为:
每个状态由一个栈和一个队列组成,栈中保存着已经生成的句法功能成分树片段,队列中保存着尚未处理的汉字;
初始状态下,栈为空,队列中元素的个数与句子中汉字的个数相同;
每个状态转移的动作根据平均感知器在预先定义好的动作集合中选择,定义好的动作集合为移进-***、移进-附着、归约一元、归约-二元、归约-单词、归约-子单词、停顿、终结,平均感知器通过计算当前状态下每个动作的得分,采用柱搜索策略进行选择;
终止状态下,队列为空,栈中只有唯一的IP,IP为句法功能成分树的根节点,在训练终止后得到汉语句子功能成分分析模型D,解码终止后得到一棵完整的句法功能成分树。
CN201710077125.8A 2017-02-13 2017-02-13 一种汉语句子功能成分分析方法 Active CN106844348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710077125.8A CN106844348B (zh) 2017-02-13 2017-02-13 一种汉语句子功能成分分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710077125.8A CN106844348B (zh) 2017-02-13 2017-02-13 一种汉语句子功能成分分析方法

Publications (2)

Publication Number Publication Date
CN106844348A true CN106844348A (zh) 2017-06-13
CN106844348B CN106844348B (zh) 2020-01-17

Family

ID=59127414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710077125.8A Active CN106844348B (zh) 2017-02-13 2017-02-13 一种汉语句子功能成分分析方法

Country Status (1)

Country Link
CN (1) CN106844348B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现***
CN109460552A (zh) * 2018-10-29 2019-03-12 朱丽莉 基于规则和语料库的汉语语病自动检测方法及设备
WO2019095899A1 (zh) * 2017-11-17 2019-05-23 中兴通讯股份有限公司 素材标注方法以及装置、终端和计算机可读存储介质
CN110428817A (zh) * 2019-08-06 2019-11-08 上海上班族电子商务有限公司 一种基于人工智能的垃圾分类语音识别***
CN110472040A (zh) * 2019-06-26 2019-11-19 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备
CN112528641A (zh) * 2020-12-10 2021-03-19 北京百度网讯科技有限公司 建立信息抽取模型的方法、装置、电子设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
CN101021842A (zh) * 2007-03-09 2007-08-22 清华大学 汉语基本块描述规则的自动学习和扩展进化处理方法
US20140229159A1 (en) * 2013-02-11 2014-08-14 Appsense Limited Document summarization using noun and sentence ranking
JP2015018146A (ja) * 2013-07-12 2015-01-29 株式会社Nttドコモ 機能管理システム及び機能管理方法
JP2016110452A (ja) * 2014-12-08 2016-06-20 Kddi株式会社 心理状態を抽出すべき単語の辞書を更新するプログラム、装置及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
CN101021842A (zh) * 2007-03-09 2007-08-22 清华大学 汉语基本块描述规则的自动学习和扩展进化处理方法
US20140229159A1 (en) * 2013-02-11 2014-08-14 Appsense Limited Document summarization using noun and sentence ranking
JP2015018146A (ja) * 2013-07-12 2015-01-29 株式会社Nttドコモ 機能管理システム及び機能管理方法
JP2016110452A (ja) * 2014-12-08 2016-06-20 Kddi株式会社 心理状態を抽出すべき単語の辞書を更新するプログラム、装置及び方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019095899A1 (zh) * 2017-11-17 2019-05-23 中兴通讯股份有限公司 素材标注方法以及装置、终端和计算机可读存储介质
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现***
CN109460552A (zh) * 2018-10-29 2019-03-12 朱丽莉 基于规则和语料库的汉语语病自动检测方法及设备
CN109344244B (zh) * 2018-10-29 2019-11-08 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现***
CN110472040A (zh) * 2019-06-26 2019-11-19 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN110428817A (zh) * 2019-08-06 2019-11-08 上海上班族电子商务有限公司 一种基于人工智能的垃圾分类语音识别***
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备
CN112528641A (zh) * 2020-12-10 2021-03-19 北京百度网讯科技有限公司 建立信息抽取模型的方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN106844348B (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN106844348A (zh) 一种汉语句子功能成分分析方法
Gardent et al. Creating training corpora for nlg micro-planning
Wilson et al. Recognizing contextual polarity in phrase-level sentiment analysis
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN107291795A (zh) 一种结合动态词嵌入和词性标注的文本分类方法
CN106294322A (zh) 一种基于lstm的汉语零指代消解方法
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
CN106776581A (zh) 基于深度学习的主观性文本情感分析方法
Hoang et al. Incorporating side information into recurrent neural network language models
CN106126620A (zh) 基于机器学习的中文自动文摘方法
Le et al. Text classification: Naïve bayes classifier with sentiment Lexicon
CN103365838A (zh) 基于多元特征的英语作文语法错误自动纠正方法
Singhal et al. Borrow a little from your rich cousin: Using embeddings and polarities of english words for multilingual sentiment classification
CN106446147A (zh) 一种基于结构化特征的情感分析方法
Jiang et al. Hierarchical macro discourse parsing based on topic segmentation
Chen et al. Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network
Hämäläinen et al. A template based approach for training nmt for low-resource uralic languages-a pilot with finnish
CN114781376A (zh) 一种基于深度学习的新闻文本摘要生成方法
Antony et al. A survey of advanced methods for efficient text summarization
Li et al. Community question answering entity linking via leveraging auxiliary data
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
Takala Word Embeddings for Morphologically Rich Languages.
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
Chakkarwar et al. A Review on BERT and Its Implementation in Various NLP Tasks
Wu A computational neural network model for college English grammar correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210114

Address after: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee after: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE

Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230412

Address after: 150027 Room 412, Unit 1, No. 14955, Zhongyuan Avenue, Building 9, Innovation and Entrepreneurship Plaza, Science and Technology Innovation City, Harbin Hi tech Industrial Development Zone, Heilongjiang Province

Patentee after: Heilongjiang Industrial Technology Research Institute Asset Management Co.,Ltd.

Address before: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee before: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE