CN104731768B - 一种面向中文新闻文本的事件地点抽取方法 - Google Patents

一种面向中文新闻文本的事件地点抽取方法 Download PDF

Info

Publication number
CN104731768B
CN104731768B CN201510097822.0A CN201510097822A CN104731768B CN 104731768 B CN104731768 B CN 104731768B CN 201510097822 A CN201510097822 A CN 201510097822A CN 104731768 B CN104731768 B CN 104731768B
Authority
CN
China
Prior art keywords
newsletter archive
incident
feature
location
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510097822.0A
Other languages
English (en)
Other versions
CN104731768A (zh
Inventor
何绯娟
孙霞
缪相林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University City College
Original Assignee
Xian Jiaotong University City College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University City College filed Critical Xian Jiaotong University City College
Priority to CN201510097822.0A priority Critical patent/CN104731768B/zh
Publication of CN104731768A publication Critical patent/CN104731768A/zh
Application granted granted Critical
Publication of CN104731768B publication Critical patent/CN104731768B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向中文新闻文本的事件地点抽取方法,先利用ICTCLAS中文分词工具对中文新闻文本T进行分词,选择词性为机构名、处所名词、地名的词汇组成候选事件地点集合;再对于候选事件地点集合中的每个词汇,构建包含上下文特征、位置特征、拓扑特征的三维特征向量;最后利用所构建的三维特征向量,采用Random Forest分类器将候选事件地点集合中的每个词汇按照事件地点与非事件地点进行二值分类,从而实现事件地点的抽取。本发明能综合运用新闻文本中的多类特征,抽取上下文特征、位置特征、拓扑特征三个特征构成特征向量,利用Random Forest分类器从分词获取机构名、处所名词、地名中识别出事件地点;能够在地名识别的基础上,进一步识别出新闻事件发生的地点。

Description

一种面向中文新闻文本的事件地点抽取方法
技术领域
本发明涉及计算机科学与技术中的文本挖掘、自然语言处理、舆情分析领域,特别涉及一种面向中文新闻文本的事件地点抽取方法。
背景技术
新闻文本中,存在机构名、处所名词、地名等词汇或短语,但是它们并不一定是事件发生的地点。例如,在新闻文本中“2012年6月19日,在墨西哥洛斯卡沃斯召开的G20峰会期间,阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”中,存在地名“墨西哥”、“洛斯卡沃斯”、“马尔维纳斯群岛”三个地名,但是“马尔维纳斯群岛”并不是事件发生的地点。如何从机构名、处所名词、地名中识别出事件地点是事件抽取中的一个难题。
关于面向中文新闻文本的事件地点抽取的专利。专利名称《一种地名识别方法和装置》公开号CN103186524A;该发明公开了一种地名识别方法和装置,用以进行地名识别。该发明方法包括:对待识别的字符串进行分词得到候选词;获取各候选词在地址名称库中的所属类别;对各候选词进行遍历,若当前候选词的所属类别为第一类别,则将当前候选词作为地名添加到候选地名集合;若当前候选词的所属类别为第二类别,则对当前候选词以及在所述地址名称库中与当前候选词临近的候选词进行组合得到合成词,并将所述合成词作为地名添加到候选地名集合。但是该专利只能识别文本中的地名,还不能识别出事件地点。
发明内容
为了克服上述现有技术的缺陷,本发明的目的在于提供一种面向中文新闻文本的事件地点抽取方法,该方法从新闻文本中抽取上下文特征、位置特征、拓扑特征三个特征构成特征向量,利用Random Forest分类器从分词获取机构名、处所名词、地名中识别出事件地点;能够在地名识别的基础上,进一步识别出新闻事件发生的地点。
为达到以上目的,本发明的技术方案为:
一种面向中文新闻文本的事件地点抽取方法,包括如下步骤:
步骤一:候选事件地点抽取
(1)首先,利用ICTCLAS中文分词工具对中文新闻文本T进行分词,生成一个由二元组构成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的词汇的个数,n>0,wi表示ICTCLAS切分出的词汇,pi表示wi的词性;
(2)从ST中依次选择所有满足pi=″ni″pi=″nl″、pi=″ns″三种情况之一的二元组,pi=″ni″pi=″nl″、pi=″ns″分别表示对应的wi为机构名、处所名词、地名;所有被选中的二元组中的wi构成一个集合WT={w′1,w′2,...,w′j,...,w′m},WT将作为候选事件地点的集合,m表示WT中词汇的个数,m>0;
步骤二:特征向量构建
对于集合WT中的每个w′j,选择三个特征,包括:w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征;三个特征的计算如下:
特征一:w′j在新闻文本T中的上下文特征cj
w′j在新闻文本T中的上下文特征用w′j所匹配的正则表达式的权重表示,记为cj
(1)若w′j在新闻文本T中能够匹配下表中的某个正则表达式,假设为第k个,则cj=ak;ak表示“若词汇匹配第k个正则表达式,则该词汇是事件地点的比率”,ak的计算公式为:ak=|Lk|/|Sk|,其中,Sk表示标注数据中能成功匹配第k个正则表达式的所有词汇的集合,Lk表示属于Sk且在标注数据中是事件地点的词汇构成的集合,标注数据是指人工标注了事件地点的新闻文本集;
(2)若w′j在新闻文本T中能够匹配下表中的多个正则表达式,设为第k1,k2,...,kl(l>1)个正则表达式,则
(3)若w′j在新闻文本T中不能匹配下表中的正则表达式,则cj=0。
特征二:w′j在新闻文本T中的位置特征pj
pj=loc(w′j,T),其中,loc(w′j,T)表示词汇w′j在新闻文本T中首次出现的位置,即从文本T起始处到词汇w′j第一次出现位置之间的字数。
特征三:w′j在新闻文本T中的拓扑特征tj
初始化空集合E;对于任意二元组(w′j,w′j)∈WT×WT且,执行以下两个步骤:
STEP1:将字符串“http://www.baike.com/wiki/”与w′j组成URL,下载该URL对应的页面;若下载不到,则不处理二元组(w′j,w′i);
STEP2:利用正则表达式
/<a[^>]*?href=[″’]?([^’″>]*)[’″]?[^>]*?>(.*?)</a>/ig匹配页面文件,获取所有锚文本;若锚文本中包含w′i,则把E∪{(w′j,w′i)}的结果赋给E;
对于任意二元组(w′j,w′i)∈WT×WT且,执行上述两个步骤后,生成以WT为结点集合,E为有向边集合的有向图G;
对任意w′j∈WT,计算其聚集系数C(w′j),聚集系数用于衡量不同结点之间连接的紧密程度;
上式中,GΔ(w′j)表示G中包含w′j的闭三点组的数量,GΔ(w′j)为表示G中包含w′j的开三点组的数量;闭三点组指图中任意两两相连的三个结点,开三点组指图中被两条边连接起来的三个结点;
令w′j在新闻文本T中的拓扑特征tj为C(w′j),即tj=C(w′j);
利用w′j在新闻文本T中的上下文特征、位置特征、拓扑特征,构建w′j的三维特征向量(cj,pj,tj)。
步骤三:事件地点识别
选择100-200个特征向量,人工为每个特征向量标注一个类标签(事件地点与非事件地点),形成一个训练数据集;采用Random Forest分类器训练一个分类器,利用该分类器将集合WT中的每个w′j按照事件地点与非事件地点进行二值分类,从而实现事件地点的抽取。
本发明能依据新闻文本中词汇的上下文特征、位置特征、拓扑特征,建立分类器,实现事件地点的自动抽取。
附图说明
附图1是面向中文新闻文本的事件地点抽取过程。
附图2是用于计算拓扑特征tj的一个有向图实例。
具体实施方式
下面结合附图对本发明做详细叙述。
参照附图,该方法的具体实施方案可分为候选事件地点抽取、特征向量构建、事件地点识别三个步骤。具体描述如下:
步骤一:候选事件地点抽取
a)首先,利用ICTCLAS中文分词工具对中文新闻文本T进行分词,生成一个由二元组构成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的词汇的个数,n>0,wi表示ICTCLAS切分出的词汇,pi表示wi的词性;
b)从ST中依次选择所有满足pi=″ni″、pi=″nl″、pi=″ns″三种情况之一的二元组,pi=″ni″、pi=″nl″、pi=″ns″分别表示对应的wi为机构名、处所名词、地名;所有被选中的二元组中的wi构成一个集合WT={w′1,w′2,...,w′j,...,w′m},WT将作为候选事件地点的集合。
以新闻文本“2012年6月19日,在墨西哥洛斯卡沃斯召开的G20峰会期间,阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例,经过上述步骤,可生成集合{墨西哥,洛斯卡沃斯,阿根廷,英国,马尔维纳斯群岛}。
步骤二:特征向量构建
对于集合WT中的每个w′j,选择三个特征,包括:w′j在新闻文本T中的上下文(Context)特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征;三个特征的计算如下:
特征一:w′j在新闻文本T中的上下文(Context)特征cj
w′j在新闻文本T中的上下文特征用w′j所匹配的正则表达式的权重表示,记为cj
a)若w′j在新闻文本T中能够匹配下表中的某个正则表达式,假设为第k个,则cj=ak;ak表示“若词汇匹配第k个正则表达式,则该词汇是事件地点的比率”,ak的计算公式为:ak=|Lk|/|Sk|,其中,Sk表示标注数据中能成功匹配第k个正则表达式的所有词汇的集合,Lk表示属于Sk且在标注数据中是事件地点的词汇构成的集合,标注数据是指人工标注了事件地点的新闻文本集;
b)若w′j在新闻文本T中能够匹配下表中的多个正则表达式,设为第k1,k2,...,kl(l>1)个正则表达式,则
c)若w′j在新闻文本T中不能匹配下表中的正则表达式,则cj=0。
以新闻文本“2012年6月19日,在墨西哥洛斯卡沃斯召开的G20峰会期间,阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例,集合{墨西哥,洛斯卡沃斯,阿根廷,英国,马尔维纳斯群岛}中“墨西哥”可匹配第一个正则表达式“^\在\w+$”,则对应的cj为0.64。
特征二:w′j在新闻文本T中的位置特征pj
对人工标注事件地点的新闻文本统计分析表明,当机构名、处所名词、地名出现的位置越靠前,越有可能是时间地点。为此,引入位置特征,并定义为:pj=loc(w′j,T),其中,loc(w′j,T)表示词汇w′j在新闻文本T中首次出现的位置,即从文本T起始处到词汇w′j第一次出现位置之间的字数。
仍以新闻文本“2012年6月19日,在墨西哥洛斯卡沃斯召开的G20峰会期间,阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例,“墨西哥”在该文本首次的位置为12,故对应的pj为12。
特征三:w′j在新闻文本T中的拓扑特征tj
对人工标注事件地点的新闻文本统计分析表明,如果事件发生的地点有多个,则这些事件地点存在较强的相关性。为此,用地点对在“互动百科”对应页面中是否互相出现来描述是否存在相关性。
初始化空集合E;对于任意二元组(w′j,w′i)∈WT×WT且,执行以下两个步骤:
STEP1:将字符串“http://www.baike.com/wiki/”与w′j组成URL,下载该URL对应的页面;若下载不到,则不处理二元组(w′j,w′i);
STEP2:利用正则表达式
/<a[^>]*?href=[″’]?([^’″>]*)[’″]?[^>]*?>(.*?)</a>/ig匹配页面文件,获取所有锚文本;若锚文本中包含w′i,则把E∪{(w′j,w′i)}的结果赋给E。
对于任意二元组(w′j,w′i)∈WT×WT且,执行上述两个步骤后,生成以WT为结点集合,E为有向边集合的有向图G;
以新闻文本“2012年6月19日,在墨西哥洛斯卡沃斯召开的G20峰会期间,阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例,可生成图2所示的有向图。
对任意w′j∈WT,计算其聚集系数C(w′j),聚集系数用于衡量不同结点之间连接的紧密程度;这里,用于衡量多个获选时间地点之间的相关程度;
上式中,GΔ(w′j)表示G中包含w′j的闭三点组的数量,GΔ(w′j)为表示G中包含w′j的开三点组的数量。闭三点组指图中任意两两相连的三个结点,开三点组指图中被两条边连接起来的三个结点;
令w′j在新闻文本T中的拓扑特征tj为C(w′j),即tj=C(w′j)。
根据图2,“墨西哥”的拓扑特征
利用w′j在新闻文本T中的上下文特征、位置特征、拓扑特征,构建w′j的三维特征向量(cj,pi,tj)。
以新闻文本“2012年6月19日,在墨西哥洛斯卡沃斯召开的G20峰会期间,阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为此,“墨西哥”在此文本中的特征向量为(0.64,12,0.6)
步骤三:事件地点识别
选择100-200特征向量,人工为每个特征向量标注一个类标签(事件地点与非事件地点),形成一个训练数据集。
根据w′j在新闻文本T中的上下文特征、位置特征、拓扑特征,采用Random Forest分类器训练出一个分类模型,能够对WT中的词汇按照事件地点与非事件地点进行二值分类,从而实现事件地点的抽取。

Claims (1)

1.一种面向中文新闻文本的事件地点抽取方法,其特征在于,包括如下步骤:
步骤一:候选事件地点抽取
(1)首先,利用ICTCLAS中文分词工具对中文新闻文本T进行分词,生成一个由二元组构成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的词汇的个数,n>0,ωi表示ICTCLAS切分出的词汇,pi表示wi的词性;
(2)从ST中依次选择所有满足pi="ni"、pi="nl"、pi="ns"三种情况之一的二元组,pi="ni"、pi="nl"、pi="ns"分别表示对应的wi为机构名、处所名词、地名;所有被选中的二元组中的wi构成一个集合WT={w′1,w′2,...,w′j,...,w′m},WT将作为候选事件地点的集合,m表示WT中词汇的个数,m>0;
步骤二:特征向量构建
对于集合WT中的每个w′j,选择三个特征,包括:w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征;
步骤三:事件地点识别
选择100-200个特征向量,人工为每个特征向量标注一个类标签(事件地点与非事件地点),形成一个训练数据集;采用Random Forest分类器训练一个分类器,利用该分类器将集合WT中的每个w′j按照事件地点与非事件地点进行二值分类,从而实现事件地点的抽取;
所述的步骤二中所述的w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征,三个特征的计算如下:
特征一:w′j在新闻文本T中的上下文特征cj
w′j在新闻文本T中的上下文特征用w′j所匹配的正则表达式的权重表示,记为cj
(1)若w′j在新闻文本T中能够匹配下表中的某个正则表达式,假设为第k个,则cj=ak;ak表示“若词汇匹配第k个正则表达式,则该词汇是事件地点的比率”,ak的计算公式为:ak=|Lk|/|Sk|,其中,Sk表示标注数据中能成功匹配第k个正则表达式的所有词汇的集合,Lk表示属于Sk且在标注数据中是事件地点的词汇构成的集合,标注数据是指人工标注了事件地点的新闻文本集;
(2)若w′j在新闻文本T中能够匹配下表中的多个正则表达式,设为第k1,k2,...,kl(l>1)个正则表达式,则
(3)若w′j在新闻文本T中不能匹配下表中的正则表达式,则cj=0;
特征二:w′j在新闻文本T中的位置特征pj
pj=loc(w′j,T),其中,loc(w′j,T)表示词汇w′j在新闻文本T中首次出现的位置,即从文本T起始处到词汇w′j第一次出现位置之间的字数;
特征三:w′j在新闻文本T中的拓扑特征tj
初始化空集合E;对于任意二元组(w′j,w′i)∈WT×WT且,执行以下两个步骤:
STEP1:将字符串“http://www.baike.com/wiki/”与w′j组成URL,下载该URL对应的页面;若下载不到,则不处理二元组(w′j,w′i);
STEP2:利用正则表达式
/<a[^>]*?href=["']?([^'">]*)['"]?[^>]*?>(.*?)</a>/ig匹配页面文件,获取所有锚文本;若锚文本中包含w′i,则把E∪{(w′j,w′i)}的结果赋给E;
对于任意二元组(w′j,w′i)∈WT×WT且,执行上述两个步骤后,生成以WT为结点集合,E为有向边集合的有向图G;
对任意w′j∈WT,计算其聚集系数C(w′j),聚集系数用于衡量不同结点之间连接的紧密程度;
上式中,GΔ(w′j)表示G中包含w′j的闭三点组的数量,G(w′j)为表示G中包含w′j的开三点组的数量;闭三点组指图中任意两两相连的三个结点,开三点组指图中被两条边连接起来的三个结点;
令w′j在新闻文本T中的拓扑特征tj为C(w′j),即tj=C(w′j);
利用w′j在新闻文本T中的上下文特征、位置特征、拓扑特征, 构建w′j的三维特征向量(cj,pj,tj)。
CN201510097822.0A 2015-03-05 2015-03-05 一种面向中文新闻文本的事件地点抽取方法 Expired - Fee Related CN104731768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510097822.0A CN104731768B (zh) 2015-03-05 2015-03-05 一种面向中文新闻文本的事件地点抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510097822.0A CN104731768B (zh) 2015-03-05 2015-03-05 一种面向中文新闻文本的事件地点抽取方法

Publications (2)

Publication Number Publication Date
CN104731768A CN104731768A (zh) 2015-06-24
CN104731768B true CN104731768B (zh) 2017-10-20

Family

ID=53455666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510097822.0A Expired - Fee Related CN104731768B (zh) 2015-03-05 2015-03-05 一种面向中文新闻文本的事件地点抽取方法

Country Status (1)

Country Link
CN (1) CN104731768B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528421B (zh) * 2015-12-07 2018-09-04 中国人民大学 一种针对海量数据中查询词的搜索维度挖掘方法
CN107016556B (zh) * 2016-01-27 2021-02-05 创新先进技术有限公司 数据处理方法及装置
CN110298039B (zh) * 2019-06-20 2023-05-30 北京百度网讯科技有限公司 事件地的识别方法、***、设备及计算机可读存储介质
CN111090994A (zh) * 2019-11-12 2020-05-01 北京信息科技大学 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN113127713A (zh) * 2019-12-30 2021-07-16 北大方正集团有限公司 新闻所属地的识别方法、识别装置、设备及存储介质
CN113111166A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警警情发生地类型确定方法和装置
CN113111169A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型的接处警文本地址信息提取方法和装置
CN113111170A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本轨迹地信息提取方法和装置
CN111581954B (zh) * 2020-05-15 2023-06-09 中国人民解放军国防科技大学 一种基于语法依存信息的文本事件抽取方法及装置
CN111914535B (zh) * 2020-07-31 2023-03-24 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN112307364B (zh) * 2020-11-25 2021-10-29 哈尔滨工业大学 一种面向人物表征的新闻文本发生地抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699568A (zh) * 2013-11-16 2014-04-02 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法
CN103902649A (zh) * 2014-02-17 2014-07-02 复旦大学 一种基于在线百科链接实体的知识抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086072A1 (en) * 2011-10-03 2013-04-04 Xerox Corporation Method and system for extracting and classifying geolocation information utilizing electronic social media

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699568A (zh) * 2013-11-16 2014-04-02 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法
CN103902649A (zh) * 2014-02-17 2014-07-02 复旦大学 一种基于在线百科链接实体的知识抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《随机森林特征选择》;王全才;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120715;I138-1504 *
事件报道中地点实体的提取研究;高燕;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S1期);I141-139 *
基于SimRank 的百度百科词条语义相似度计算;尹坤 等;《山东大学学报(工学版)》;20140317;第44卷(第3期);第0节,图1 *
基于事件框架的突发事件信息抽取;冯礼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080715;第2.2.1、2.3.2、2.3.4节,图2、7 *

Also Published As

Publication number Publication date
CN104731768A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104731768B (zh) 一种面向中文新闻文本的事件地点抽取方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104809176B (zh) 藏语实体关系抽取方法
CN104462066B (zh) 语义角色标注方法及装置
CN106547739A (zh) 一种文本语义相似度分析方法
JP2022534377A (ja) テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体
CN108121700A (zh) 一种关键词提取方法、装置及电子设备
CN103870000B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN112232058A (zh) 基于深度学习三层语义抽取框架的假新闻识别方法及***
CN103761239A (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN104361037B (zh) 微博分类方法及装置
CN110175221A (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN109710769A (zh) 一种基于胶囊网络的水军评论检测***及方法
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类***
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN108021682A (zh) 开放式信息抽取背景下一种基于***的实体语义化方法
Nikhila et al. Text imbalance handling and classification for cross-platform cyber-crime detection using deep learning
CN107679199A (zh) 一种基于深度局部特征的对外汉语教材可读性分析方法
Mahmud et al. Deep learning based sentiment analysis from Bangla text using glove word embedding along with convolutional neural network
CN110008312A (zh) 一种文档写作助手实现方法、***及电子设备
Sagcan et al. Toponym recognition in social media for estimating the location of events

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171020

Termination date: 20180305

CF01 Termination of patent right due to non-payment of annual fee