CN104133848B - 藏语实体知识信息抽取方法 - Google Patents
藏语实体知识信息抽取方法 Download PDFInfo
- Publication number
- CN104133848B CN104133848B CN201410310710.4A CN201410310710A CN104133848B CN 104133848 B CN104133848 B CN 104133848B CN 201410310710 A CN201410310710 A CN 201410310710A CN 104133848 B CN104133848 B CN 104133848B
- Authority
- CN
- China
- Prior art keywords
- entity
- language
- chinese
- ***
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种藏语实体知识信息抽取方法,所述方法包括:从藏汉文本语料信息中,抽取藏汉可比语料信息;从所述藏汉可比语料信息中,抽取出实体等价对;从所述实体等价对中,抽取出藏汉跨语言实体关系;从所述的藏汉跨语言实体关系中,抽取出藏语“实体‑属性‑值”三元组;将所述三元组存储到藏语实体知识语义资源库。本发明在一定程度上解决了藏语训练语料匮乏的问题,将促进不同语言之间的知识共享,为藏汉跨语言知识问答、信息检索、机器翻译等领域研究提供支撑。
Description
技术领域
本发明涉及一种藏语实体知识信息抽取方法,尤其涉及一种基于自然标注的藏汉跨语言实体知识信息抽取方法。
背景技术
Web内容的***式增长,使得对Web的社会网络研究已经不再局限于对Web结构的分析,而是转向以Web内容为研究对象的分析,其中知识图谱成为大数据时代自然语言处理领域的一个研究热点。知识图谱以结点代表实体或者概念,边代表实体或者概念之间的各种语义关系,其中实体知识信息的抽取是主要研究内容之一。
实体知识信息抽取,要解决的重点问题是实体及其属性关系的抽取。基于机器学习的实体间语义关系抽取要求具有一定规模的训练语料,而语料库的人工标注需要花费大量的时间和人力。因此,利用已有的自然标注数据,自动挖掘海量、真实的文本信息,通过资源丰富的源语言帮助欠资源的目标语言,获取目标语言的相关知识,是解决目标语言信息处理问题的一个方案。
在网络来源信息中,约有21%的中文文章含有“实体—属性—值”的三元组关系信息盒,而目前的藏语文章中缺少信息盒。在信息盒缺失以及藏语标注语料非常少的情况下,无法获取大规模的训练语料以实现藏语实体知识信息的抽取。此外,尽管藏语的显示输出技术、编码技术、输入技术、文字处理技术、网页制作技术等相对来说已比较成熟,然而与汉语、英语等语言的信息处理研究相比仍差距较大,主要表现在词法、句法分析及其相关应用方面。例如,藏语尚缺乏实用的命名实体识别***,在句子和篇章级的信息处 理研究方面还处于起步阶段。因此,无法直接将英、汉实体属性及关系抽取中相对成熟的方法应用于藏语。在这种情况下,藏语实体知识信息的获取更多依靠人工的方式,无法实现大规模数据的处理及知识获取。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种藏语实体知识信息抽取方法,可以利用现有的藏汉文本语料资源,以及相对丰富的汉语结构化、半结构化资源,挖掘藏语的实体知识信息,实现大规模数据的处理及知识信息的获取。
为实现上述目的,本发明提供了一种藏语实体知识信息抽取方法,所述方法包括:从藏汉文本语料信息中,抽取藏汉可比语料信息;从所述藏汉可比语料信息中,抽取出实体等价对;从所述实体等价对中,抽取出藏汉跨语言实体关系;从所述的藏汉跨语言实体关系中,抽取出藏语“实体-属性-值”三元组;将所述三元组存储到藏语实体知识语义资源库。
本发明基于自然标注下藏汉语言文本的特点,利用相对丰富的汉语资源,研究与解决跨语言环境下的藏汉可比语料获取、藏汉实体映射、半监督学习的实体关系及属性值抽取等关键技术,实现藏语实体知识信息的挖掘。该发明在一定程度上解决了藏语训练语料匮乏的问题,将促进不同语言之间的知识共享,为藏语知识图谱构建打下基础,为藏汉跨语言知识问答、信息检索、机器翻译等领域研究提供支撑。
附图说明
图1为本发明提供的藏语实体知识信息抽取方法流程图;
图2为本发明藏语实体知识信息抽取方法双语网页可比语料信息的相似特征示意图;
图3为本发明藏语实体知识信息抽取方法利用跨语言关联获取可比语料 信息示意图;
图4为本发明藏语实体知识信息抽取方法藏语实体关系模板构建示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1是本实施例提供的藏语实体知识信息抽取方法流程图,如图1所示,本发明的藏语实体知识信息抽取方法包括:
步骤S101,抽取藏汉可比语料信息。
根据不同网络环境中藏汉文本语料存在形式的差异,采取不同的方法。
具体地,对于网络环境中大量存在的仅仅是网页级别的平行,或者是跨网平行的没有直接跨语言的内部链接的藏汉文本语料,构建基于双语网页的多特征藏汉可比预料获取模型。由于这些文本语料的标题、作者、媒体和发布时间等相关信息已经被标注,同一网络事件具有实时性、一致性等特点,使得双语网页的文本语料具有较多的相似特征。如图2所示。通过对文本语料进行分词,结合数字、网页结构、事件发生时间、网页内容量、标题、关键词等特征,计算相似度,建立藏汉可比语料获取模型。
对于存在直接跨语言内部链接的藏汉文本语料,直接通过跨语言链接功能实现关联,获取藏汉可比语料,如图3所示。
步骤S102,抽取藏汉实体等价对。
根据不同网络环境中藏汉可比语料存在形式的差异,采取不同的方法。
网络中存在着大量自然标注的藏汉实体对,构成了一一对应的藏汉实体等价对,如表1所示。采用基于自然标注的藏汉实体等价对构建方法。具体地,通过搜索引擎在网络中挖掘所有具有一一对应特性的自然标注资源,构建藏汉实体等价对。
表1自然标注的藏汉实体等价对实例
对于未进行自然标注的藏汉文本语料,采用基于平行句对最大字连续交集模型构建藏汉实体等价对。具体地,对藏汉可比语料进行分词,结合可比语料句子长度、词匹配、边界用词等特征,使用判别学***行句对。
其中,词匹配特征是指基于藏汉双语词典对应词的数量和百分比。句子长度特征是指句子对的长度比和长度差。实体边界用词特征是指藏语实体经常和某些特定的词一起出现,例如人名的特征词,职务、职业、头衔和亲属称谓语等,这类词常与姓名共同出现,因此对辨识姓名有指示作用。例如, (老师)、(教授)。此外,从《西藏日报》2007年1月的语料库和青海藏文网一部分语料(共计528,169个音节)中抽取了1,403个人名,其中,藏族人名有995个,译名有408个,得出如表2的统计数据。
表2藏语人名边界用词统计左边用词频度(SNR指人名出现在句首)
右边用词频度
获取平行句对后,利用基于平行句对最大字连续交集模型获取藏汉实体等价对。用{S0,S1,…,Sn}表示汉语句子,用{D0,D1,…,Dn}表示平行的藏语句子,则平行句对集合为{S0,D0;S1,D1;…;Sn,Dn}。对汉语进行命名实体识别{entity0,entity1,…,entitym},并对每个命名实体entityi建立倒排索引表:
在倒排索引表中每个汉语命名实体对应一组包含实体entityi的藏语平行句对集合,设Di,m,Dj,n∈entityk,Di,m={wi1,wi2,…,wim},Dj,n={wj1,wj2,…,wjn},w表示字。计算两个藏语句对的最大字连续交集Di,m∩Dj,n=P={e}={w1,w2,…,wk},得到{e}={w1,w2,…,wk}为汉语命名实体entityk所对应的藏语等价对。
例如:
S1=比尔抽烟多吗?
S2=比尔对他自己的工作感到很骄傲。
识别汉语句子S1,S2中的命名实体,并建立实体“比尔”的倒排索引表,比尔={S1,D1;S2,D2}。在目标语言藏语中求最大字连续交集结果为得到比尔与就是实体等价对。
步骤S103,抽取藏汉跨语言实体关系。
步骤S1031,构建基于藏语浅层语义结构分析的实体关系模板。
借助网络信息中已有信息盒的“实体-属性-值”三元组关系,将汉语实体属性进行回标,获得含有实体和属性的中文句子。利用藏汉平行句对中实体的对应关系,将汉语句子的标注传递给藏语,产生藏语实体关系抽取训练语料。
利用藏语格标记的语法语义作用以及动词信息进行藏语特征选取,从训练语料中抽取关系模板,如图4所示。
具体地,选取特征包括藏语后置谓语和相关格信息,藏语格标记的类型与语法语义作用如表3所示。
表3藏语格标记的类型与语法语义作用
例如,实体对e1和e2,(Cpre,e1,Cmid,e2,Cpost)词汇特征包括:
Cpre:实体1前面相邻2个词;
Cmid:实体1和实体2中间的词,选取格助词前后2个词以及指示词;
Cpost:实体2后面的动词和格助词以及前后名词。
实体的分类信息:
人名、地名、机构名、宗教专名、河流、山峰、…
词性特征:
实体e1和e2,以及Cpre、Cmid、Cpost上下文窗口的所有词词性。
依据藏语语法特点选取特征之后,构建实体关系模板。从训练语料获取的模板是有限的,因此,采用基于熵的特征选择方法来确定关键词,通过层次聚类实现模板的过滤与泛化。
例如:以(家乡)为关键词进行模板扩充:
(卓嘎的家乡在青海。)
(青海是卓嘎的家乡。)
按照关键词的排序,将包含同一关键词的模板归为一类。针对每个关键词的类,对内部样本再进行层次聚类,合并相似的模板,过滤频率较低的不可信模板。
步骤S1032,采用半监督学习方法抽取藏汉跨语言实体关系。
在已有训练语料的基础上,结合大量未标记语料,以半监督学习方法,实现实体关系的抽取。
具体地,用所选特征对关系实体xi=(e1,e2)进行表示和度量,赋予一个关系类型标注R→(Cpre,e1,Cmid,e2,Cpost)。设为所有实体对候选关系实例集合,其中n是所有实体对候选关系实例的数目。设是所有关系类别标号的集合,其中rj代表某一关系类别,R是所有关系类型的数目,建立有标签的数据样本YL和无标签的数据样本YU。
根据X和YL预测出未标签数据的关系类别标注YU。构造包含标签数据和未标签数据所有顶点在内的图G=(V,E)。节点集合V代表数据集中各个有标 签样本和未标签样本,任意两个节点xi和xj相连的边E为向量空间模型特征的相似度。依据点之间的相似性进行标记的传递直到收敛,推导出未标签节点的标注信息,实现实体关系的抽取。
步骤S104,抽取藏语“实体-属性-值”三元组。
本发明研究关注的实体主要属性包括:
人名:
人名—国籍 人名—民族 人名—出生日期
人名—出生地 人名—性别 人名—职务(职业、职称)
人名—所属机构
地名:
地名—类型 地名—所属地区
机构名:
机构名—类型 机构名—所属地区
通过以上实体属性关系的抽取,得到藏语“实体-属性-值”三元组。
步骤S105,将抽取出的藏语“实体-属性-值”三元组存储到语义资源库。
将以上抽取出的藏语“实体-属性-值”三元组存储到藏语实体知识的语义资源库,如表4所示。
表4藏语实体知识语义资源库
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种藏语实体知识信息抽取方法,其特征在于,所述方法包括:
从藏汉文本语料信息中,抽取藏汉可比语料信息;
从所述藏汉可比语料信息中,抽取出实体等价对;
从所述实体等价对中,抽取出藏汉跨语言实体关系;
从所述的藏汉跨语言实体关系中,抽取出藏语“实体-属性-值”三元组;
将所述三元组存储到藏语实体知识语义资源库;
所述抽取出实体等价对具体为,从自然标注的网页信息中抽取出实体等价对,或者利用平行句对最大字连续交集模型抽取出实体等价对;
建立所述平行句对最大字连续交集模型,具体为对所述藏汉可比语料信息进行藏汉双语分词处理,获取藏汉平行句对;
对所述藏汉平行句对建立汉语命名实体倒排索引表;
在所述倒排索引表中每个所述的汉语命名实体对应的藏汉平行句对集合中,计算两个藏语句对的最大字连续交集,所述的最大字连续交集即为所述汉语命名实体对应的藏语等价对。
2.根据权利要求1所述的方法,抽取藏汉可比语料信息的方法,其特征在于,所述抽取藏汉可比语料信息具体为,利用藏汉双语网页对应的网页信息构建多特征藏汉可比语料获取模型,或者对网络信息进行跨语言链接关联处理,从而获取到所述藏汉可比语料信息。
3.根据权利要求2所述的方法,其特征在于,所述多特征藏汉可比语料获取模型具体为,通过对所述的藏汉文本语料进行分词处理,获取藏汉可比语料相似特征,构建多特征藏汉可比语料获取模型。
4.根据权利要求1所述的方法,其特征在于,所述抽取出藏汉跨语言实体关系具体为,通过分析藏语浅层语义结构构建实体关系模板,利用半监督学习法抽取实体关系。
5.根据权利要求4所述的方法,其特征在于,所述构建实体关系模板具体为,利用藏语格标记的句法语义作用和动词信息分析藏语句子浅层结构,构建藏语实体和属性值的关系模板。
6.根据权利要求5所述的方法,其特征在于,在所述构建实体关系模板之后,还包括:通过层次聚类过滤和泛化所述关系模板。
7.根据权利要求4所述的方法,其特征在于,所述利用半监督学习法抽取实体关系具体为:
以包含两个及以上所述命名实体的句子作为样本,采用向量空间模型计算特征的相似度;
利用所述相似度信息,构建实体对近邻图,在所述近邻图上进行标记的传递,直到收敛,推导出未标记实体对的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410310710.4A CN104133848B (zh) | 2014-07-01 | 2014-07-01 | 藏语实体知识信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410310710.4A CN104133848B (zh) | 2014-07-01 | 2014-07-01 | 藏语实体知识信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104133848A CN104133848A (zh) | 2014-11-05 |
CN104133848B true CN104133848B (zh) | 2017-09-19 |
Family
ID=51806526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410310710.4A Active CN104133848B (zh) | 2014-07-01 | 2014-07-01 | 藏语实体知识信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104133848B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9678946B2 (en) * | 2014-11-10 | 2017-06-13 | Oracle International Corporation | Automatic generation of N-grams and concept relations from linguistic input data |
CN105677632A (zh) * | 2014-11-19 | 2016-06-15 | 富士通株式会社 | 提取用于抽取实体的模板的方法和设备 |
CN104462512B (zh) * | 2014-12-19 | 2018-03-30 | 北京奇虎科技有限公司 | 基于知识图谱的汉语信息搜索方法和装置 |
CN104809176B (zh) * | 2015-04-13 | 2018-08-07 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和*** |
CN105260483A (zh) * | 2015-11-16 | 2016-01-20 | 金陵科技学院 | 一种面向微博文本的跨语言话题检测装置及方法 |
CN106294321B (zh) * | 2016-08-04 | 2019-05-31 | 北京儒博科技有限公司 | 一种特定领域的对话挖掘方法及装置 |
CN106933804B (zh) * | 2017-03-10 | 2020-03-31 | 上海数眼科技发展有限公司 | 一种基于深度学习的结构化信息抽取方法 |
CN106934032B (zh) * | 2017-03-14 | 2019-10-18 | 北京软通智城科技有限公司 | 一种城市知识图谱构建方法及装置 |
CN107169079B (zh) * | 2017-05-10 | 2019-09-20 | 浙江大学 | 一种基于Deepdive的领域文本知识抽取方法 |
CN107247739B (zh) * | 2017-05-10 | 2019-11-01 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
CN107608955B (zh) * | 2017-08-31 | 2021-02-09 | 张国喜 | 一种汉藏命名实体互译方法及装置 |
CN108268447B (zh) * | 2018-01-22 | 2020-12-01 | 河海大学 | 一种藏文命名实体的标注方法 |
CN108763353B (zh) * | 2018-05-14 | 2022-03-15 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN109582799B (zh) | 2018-06-29 | 2020-09-22 | 北京百度网讯科技有限公司 | 知识样本数据集的确定方法、装置及电子设备 |
CN109062894A (zh) * | 2018-07-19 | 2018-12-21 | 南京源成语义软件科技有限公司 | 中文自然语言实体语义关系的自动辨识算法 |
CN109597894B (zh) * | 2018-09-30 | 2023-10-03 | 创新先进技术有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109446530A (zh) * | 2018-11-03 | 2019-03-08 | 上海犀语科技有限公司 | 一种基于lstm模型由文本中抽取信息的方法及装置 |
CN109815340A (zh) * | 2019-01-17 | 2019-05-28 | 云南师范大学 | 一种民族文化信息资源知识图谱的构建方法 |
CN110413793A (zh) * | 2019-06-11 | 2019-11-05 | 福建奇点时空数字科技有限公司 | 一种基于翻译模型的知识图谱实体特征挖掘方法 |
CN110489624B (zh) * | 2019-07-12 | 2022-07-19 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110532544B (zh) * | 2019-07-18 | 2023-03-24 | 中央民族大学 | 低资源文字旅游领域知识库构建方法和*** |
CN110837564B (zh) * | 2019-09-25 | 2023-10-27 | 中央民族大学 | 多语言刑事判决书知识图谱的构建方法 |
CN110990579B (zh) * | 2019-10-30 | 2022-12-02 | 清华大学 | 跨语言的医学知识图谱构建方法、装置与电子设备 |
CN111241839B (zh) * | 2020-01-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
CN112463960B (zh) * | 2020-10-30 | 2021-07-27 | 完美世界控股集团有限公司 | 一种实体关系的确定方法、装置、计算设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7526425B2 (en) * | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
CN101271449B (zh) * | 2007-03-19 | 2010-09-22 | 株式会社东芝 | 裁减词表和为汉字串注音的方法及装置 |
CN101751385B (zh) * | 2008-12-19 | 2013-02-06 | 华建机器翻译有限公司 | 一种采用层次管道过滤器体系结构的多语言信息抽取方法 |
CN101763344A (zh) * | 2008-12-25 | 2010-06-30 | 株式会社东芝 | 训练基于短语的翻译模型的方法、机器翻译方法及其装置 |
CN102831246B (zh) * | 2012-09-17 | 2014-09-24 | 中央民族大学 | 藏文网页分类方法和装置 |
CN102930031B (zh) * | 2012-11-08 | 2015-10-07 | 哈尔滨工业大学 | 由网页中提取双语平行正文的方法和*** |
CN103034693B (zh) * | 2012-12-03 | 2016-03-02 | 哈尔滨工业大学 | 开放式实体及其类型识别方法 |
CN103218444B (zh) * | 2013-04-22 | 2016-12-28 | 中央民族大学 | 基于语义的藏文网页文本分类方法 |
CN103268339B (zh) * | 2013-05-17 | 2016-06-01 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及*** |
CN103473280B (zh) * | 2013-08-28 | 2017-02-08 | 中国科学院合肥物质科学研究院 | 一种网络可比语料的挖掘方法 |
CN103853710B (zh) * | 2013-11-21 | 2016-06-08 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN103678714B (zh) * | 2013-12-31 | 2017-05-10 | 北京百度网讯科技有限公司 | 实体知识库的构建方法和装置 |
-
2014
- 2014-07-01 CN CN201410310710.4A patent/CN104133848B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN104133848A (zh) | 2014-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104133848B (zh) | 藏语实体知识信息抽取方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN104809176B (zh) | 藏语实体关系抽取方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN104484374B (zh) | 一种创建网络百科词条的方法及装置 | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN106055675B (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN106570191A (zh) | 基于***的中英文跨语言实体匹配方法 | |
CN102708164B (zh) | 电影期望值的计算方法及*** | |
CN106372208A (zh) | 一种基于语句相似度的话题观点聚类方法 | |
CN106055560A (zh) | 一种基于统计机器学习方法的分词字典数据采集方法 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN106021354A (zh) | 一种东巴经典古籍数字化释读库的建立方法 | |
CN103823868B (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
Zhu et al. | Chinese microblog sentiment analysis based on semi-supervised learning | |
CN109145089A (zh) | 一种基于自然语言处理的层次化专题属性抽取方法 | |
Del Bimbo et al. | Data augmentation on graphs for table type classification | |
Drymonas et al. | Opinion mapping travelblogs | |
Lan | Corpus | |
Jain et al. | Shrinking digital gap through automatic generation of WordNet for Indian languages | |
Amien et al. | Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages | |
CN110362803A (zh) | 一种基于领域特征词法组合的文本模板生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |