CN104199972B - 一种基于深度学习的命名实体关系抽取与构建方法 - Google Patents

一种基于深度学习的命名实体关系抽取与构建方法 Download PDF

Info

Publication number
CN104199972B
CN104199972B CN201410488047.7A CN201410488047A CN104199972B CN 104199972 B CN104199972 B CN 104199972B CN 201410488047 A CN201410488047 A CN 201410488047A CN 104199972 B CN104199972 B CN 104199972B
Authority
CN
China
Prior art keywords
word
entity
news data
relationship
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410488047.7A
Other languages
English (en)
Other versions
CN104199972A (zh
Inventor
袁伟
邓攀
闫碧莹
赵鑫
李玉成
余雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhong kjia speed (Beijing) Information Technology Co., Ltd.
Original Assignee
Zhong Kjia Speed (beijing) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhong Kjia Speed (beijing) Information Technology Co Ltd filed Critical Zhong Kjia Speed (beijing) Information Technology Co Ltd
Priority to CN201410488047.7A priority Critical patent/CN104199972B/zh
Publication of CN104199972A publication Critical patent/CN104199972A/zh
Application granted granted Critical
Publication of CN104199972B publication Critical patent/CN104199972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于深度学习的命名实体关系抽取与构建方法,用于互联网信息技术领域。本方法针对某一特定领域,在垂直网站上抓取领域内的新闻数据,对获取的新闻数据进行预处理;新闻数据分词,抽取关键词,生成行业词库,利用行业词库对新闻数据重新分词;抽取种子词库;无监督构建实体关系网络,从新闻数据中抽取包含两个以上实体的句子,抽取句子中的动词以及对应的文档,对抽取的文档建立基于深度学习的词聚类模型,根据动词描述的词之间的关系,构建实体关系网络;定义实体关系类别,对实体关系网络中的每个实体对,进行关系分类。本发明不需投入大规模人力对样本数据进行标记,语料库的依赖性低,抽取实体关系的性能高。

Description

一种基于深度学习的命名实体关系抽取与构建方法
技术领域
本发明涉及互联网信息技术领域,具体而言,涉及一种命名实体关系抽取的方法。
背景技术
在信息研究领域,信息抽取技术是一项必不可少的关键技术。面对如此海量的信息空间,如何更快更准确地抽取出用户感兴趣的内容是一个迫切需要解决的问题,也是信息挖掘技术的一个重要研究方向。信息抽取不同于信息检索等信息处理技术,它需要对文本进行命名实体的识别,并抽取出实体之间的关系,而中文文本中词语的灵活多变、构词复杂且没有明显的标志,使得对中文命名实体的识别及关系的抽取就显得更加困难。
目前,信息抽取的主要方法有两种,一种是基于知识库算法,这种方法需要建立一些规则,虽然这种方法的准确率较高,但是这种规则的确定是比较困难的,对编写者有较高的要求,且移植性不高;另一种是基于统计的机器学习算法,这种算法采用不同的模型,并利用人工标注的训练集进行学习,对于新的数据集则釆用模型算出其相关的概率,并以此来得到最终的结果。这种方法代价较小,性能较高,便于移植,所以是当前研究的热点。
机器学习相关的实体关系抽取技术主要采取有监督实体关系抽取方法和弱监督实体关系抽取方法。有监督实体关系抽取方法的流程一般为:对训练文本预处理,进行关系词对及关系的人工标记,抽取特征向量化,用分类算法进行训练生成模型,用模型进行关系的类别标记。弱监督实体关系抽取方法与有监督实体关系抽取方法的主要不同之处在于对标注语料的依赖程度。弱监督实体关系抽取方法用少量的标注语料集,利用bootstrapping(自学习)框架,结合各种分类算法进行实体关系抽取。
弱监督实体关系抽取方法因为采用小规模标注语料库,所以性能较差。而有监督实体关系抽取方法依赖大规模标注语料库,而这部分工作需要根据任务情况,人工进行标注。需要耗费巨大的人力物力,在此基础上采用各种算法训练模型,对生成的模型的性能无法准确估计,存在较大风险。
发明内容
本发明为了解决现有实体关系抽取技术中存在的特定领域标引数据集的获取、模式的获取以及共指消解问题,提供了一种基于深度学习的命名实体关系抽取与构建方法。
本发明提供的基于深度学习的命名实体关系抽取与构建方法,针对某一特定领域,包括如下步骤:
步骤1:构建爬虫程序,在垂直网站上抓取领域内的新闻数据;
步骤2:对获取的新闻数据进行预处理,去除垃圾信息,包括重复信息、不正常显示信息、编码乱码信息等;
步骤3:对新闻数据进行分词,抽取关键词,将所抽取的关键词加入词库,生成行业词库;
步骤4:利用行业词库对新闻数据再次进行中文分词,获取对应的词集合;
步骤5:抽取种子词库,种子为设定的实体对;
步骤6:无监督构建实体关系网络,具体是:从新闻数据抽取包含两个以上实体的句子,抽取句子中的动词以及对应的文档;对抽取的文档建立基于深度学习的实体词聚类模型,获取实体词在其他词上的概率分布;根据动词描述的词之间的关系,构建实体关系网络;
步骤7:定义实体关系类别,具体是:从新闻数据抽取包含两个实体的句子中的动词,对动词进行聚类,将相同的动词归为同一类;
步骤8:对实体关系进行分类,具体是:对实体关系网络中的每个实体对,基于步骤7的聚类结果进行关系分类。
相对于现有技术,本发明的命名实体关系抽取与构建方法,其优点和积极效果在于:
1.采用无监督实体关系抽取,不需要投入大规模人力对样本数据进行标记;
2.对于语料库的依赖性低,采用普通的领域内新闻资料作为文本即可,提高了抽取实体关系的性能;
3.本发明按领域进行命名实体抽取,减少不同领域间杂乱信息干扰,抽取结果准确率高。
附图说明
图1是根据本发明实施例的特定领域命名实体抽取与构建方法的总体流程图;
图2是根据本发明实施例的特定领域行业关键词抽取方法的总体流程图;
图3是根据本发明实施例的特定领域命名实体抽取的流程图;
图4是根据本发明实施例的特定领域关系模板抽取的流程图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明的实施例中,结合汽车这一特定领域来说明本发明的基于深度学习的命名实体关系抽取与构建方法。包括:对汽车新闻的文本集合进行分词;基于自学习bootstrap的方法从分词得到的切分单元中抽取实体对(汽车品牌、汽车型号),从中选出少量实例作为初始种子集合;基于bootstrap的方法从实体中抽取关系模板;并通过深度学习技术,构建实体间关系,对关系模板进行聚类/分类得到关系分类。
如图1所示,根据本发明实施例的特定领域,本发明基于深度学习的命名实体抽取与构建方法,包括具体步骤如下:
步骤1:构建爬虫程序,抓取垂直网站的新闻数据,本发明实施主要采用包括汽车之家、太平洋汽车的数据。具体步骤1分为如下步骤101~102。
步骤101:构建分布式爬虫程序,对垂直网站数据进行页面抓取。
步骤102:根据抓取到的html页面生成页面的dom树结构,根据标签提取爬到页面中包含的正文信息。
步骤2:对获取的新闻数据进行预处理。具体步骤2分为步骤201~202。
步骤201:根据新闻长度进行清洗,利用正则表达式和制定的规则集去除垃圾新闻信息。
步骤202:利用布隆过滤器(Bloom filter)对新闻数据进行过滤,去除重复新闻信息。首先对新闻数据利用N个hash函数映射到位数组中,然后对后面的评论计算N个hash值,判断该新闻数据是否已经存在。如果后面的评论计算出的hash值存在于位数组中,则说明该评论数据已经存在,并将其过滤掉。
步骤3:抽取关键词,形成新的行业词库。本发明利用N-gram模型抽取关键词,将所抽取的关键词加入已有基础词库,生成新的行业词库。
与英语等拉丁语言不同,汉语文本没有空格等明显的分隔符,因此在进行汉语文本处理时第一步工作就是要对文本进行词语切分。由于信息抽取的需要,还要对进行词语切分以后的文本进行标注。本发明采用ICTCLAS进行中文分词,并通过关键词挖掘技术挖掘汽车行业词库,提高分词精度。本发明中的关键词不仅包括区分度还包括信息量,更偏重信息量。
本发明实施例中定义凝固度PMI如下:
PMI(a,b)=p(ab)/p(a)p(b)
PMI值即为词a和词b组成关键词ab的凝固度,以此来抽取关键词,其中p(a)表示词a出现的频率,p(b)表示词b出现的频率,p(ab)表示ab出现的频率。PMI有个典型的缺点:倾向抽取频率较低的词,因此本发明具体在实施时选择词频大于一定阈值的词作为候选词,去除频率较低的词。采用本文定义的凝固度来抽取关键词相对于其他现有方法,经过实验证明能够去除较多噪音。PMI值也称为点互信息(Pointwise Mutual Information)值。
具体步骤3分为步骤301~步骤305,如图2所示。
步骤301:调用中文分词程序,对新闻数据进行初步分词。
步骤302:利用1-gram,计算词的PMI值,选取PIM值大于阈值A的词作为关键词。
步骤303:利用2-gram,计算词的PMI值,选取PMI值大于阈值B的词作为关键词。
步骤304:利用3-gram,计算词的PMI值,选取PMI值大于阈值C的词作为关键词。
步骤305:将步骤302~步骤304得到的关键词和原有的词库合并,作为再次分词的词库。
阈值A、B和C可根据实验确定。
步骤4:利用步骤3得到的行业词库对新闻数据再次进行中文分词处理,获取对应的词集合。本步骤对所有评论数据进行中文分词,去除停用词,获取分词结果。
步骤4包括步骤401~步骤402。
步骤401:首先进行分词,调用中文分词程序分词;然后,根据停用词表去除停用词,对其中包含的英文词进行形态变换,转换到统一的表达形式。
在对文本进行分词与标注以后,文本被表示成一串被标注好的词语集合。在这些词语中有很多是停用词语。它们对信息抽取没有意义。本发明中通过一个停用词表将这些停用词语剔除。这样做一方面可以减少***的计算量,另一方面可以提高后面信息抽取中的准确率。在去除停用词时,简单根据词频和文档频率进行计算排序,去除词频最高的词。
步骤402:统计词的文档频率df和词频tf,计算得到词的逆向文件频率idf,使用计算公式log(tf*(idf+1)+1)计算词的权值,并根据权值阈值D进行对比进行词集筛选,将权值大于阈值D的词保留,从而提取得到能够体现新闻特征的词集合,同时经过阈值对比之后也适当地降低了新闻数据对应的词集合的维度。
步骤5:人工制作汽车品牌和汽车车型种子词库,bootstrap挖掘汽车品牌和车型词库。
在对文本集合进行了词语切分与标注,过滤停用词语之后,为了提高信息抽取的准确率,将抽取的范围限定在一个合适的范围。必须找出在同一句子中出现两个命名实体对的句子。找出所设置上下文窗口内的命名实体对。下面将命名实体简称实体,命名实体对简称实体对。本发明中的实体对为<汽车品牌,汽车车型>。本发明实施例中,汽车品牌是一个实体,汽车车型是一个实体,下面说到的实体就是指这两者。
为了实现实体之间关系的自动抽取,必须实现提供一定的关系种子集合。可以通过人工的方法,给出少量关系种子集合。由于人工仅仅提供了少量的关系种子集合,对于信息抽取来说,这是不够的。通过自动训练的方法bootstrap实现关系种子的扩展。
由于实体对之间的关系可以通过它们之间的上下文来判断。具有相同或相似上下文的两组实体对具有相同或相似的关系。可以通过计算实体对和关系种子之间上下文向量的相似度作为它们之间的相似度。
本步骤包括步骤501和步骤502,如图3所示。
步骤501:人工选取汽车品牌和对应汽车车型。提供一定数量的种子和种子抽取模板,每个种子为一个实体对。具体数量可根据需要设置。种子抽取模板例如:如(某汽车品牌)发布(某汽车车型)。
步骤502:通过bootstrap方法挖掘实体对。通过bootstrap方法自动挖掘实体间关系,可不断得到种子抽取模板,根据种子抽取模板重新迭代抽取种子。
本发明实施例中抽取汽车品牌和车型的伪代码如下:
步骤6:无监督构建实体关系网络,包括步骤601~步骤604。首先识别每个句子中的实体。对于每一个句子,使用对句子进行标注的结果。然后对识别出来的实体构建实体对,再进行关系分类。
步骤601:抽取所有包含两个及两个以上实体的句子,抽取其中的动词以及对应的文档。
步骤602:对步骤601中抽取的动词进行归一化和去噪处理,将动词对应到离散值0和1,同时去除其中重复或者无意义的动词。
步骤603:对步骤601中抽取的文档建立基于深度学习(Deep Learning)的实体词聚类模型,得到实体词在其他词上的概率分布。
步骤604:根据词之间的关系,例如主谓、动宾等关系,构建实体关系网络,该网络包含所有抽取出的动词描述的实体之间的关系。构建实体关系网络的步骤如图4所示。
本发明实施例中构建实体关系网络的伪代码如下所示:
本发明实施例利用深度学习构建word2vec模型,利用word2vec模型获取词的分布,根据词的分布来计算词之间的相似性,从而可实现词的聚类。
步骤7:定义实体关系类别。抽取文章中的动词,如“收购”,“合作”,“发布”,获得关系类别。步骤7包括步骤701~702。
步骤701:对步骤2中预处理后的新闻数据抽取所有包含两个实体的句子中的动词。
步骤702:再次对动词进行聚类,得到关系的类别,将相同的动词归为同一类。
本发明实施例中对实体关系分类的伪代码如下所示:
Extract articles that contain more than 1entity\\抽取多于一个实体的文档;
Get all Verb between two entities\\获取所有两个实体间的动词;
Using LDA cluster Verbs\\利用LDA主题聚类模型对上面获取的动词进行聚类;
Get relation type as cluster result\\将动词的类型作为聚类结果。
步骤8:对实体关系进行分类。对实体关系网络中的每个实体对基于步骤7的聚类结果进行关系分类。实体关系网络中一个实体对关系对应一个特征,通过抽取特征,基于步骤7聚类形成的规则进行关系分类。
经过步骤6得到的实体关系网络,可得到包含的实体集合,本发明实施例为汽车品牌集合N和汽车车型集合O,对任意n∈N,o∈O,构建实体对(n,o)。由于仅仅考虑汽车品牌与汽车车型的关系,因此在实体对构建时,始终把汽车品牌放在第一位,汽车车型放在第二位。而它们在句子中出现的顺序则被作为特征在模型学习和分类时被考虑到。例如,在句子“丰田推出新款rav4”中,若识别出汽车品牌“丰田”,汽车车型“rav4”,则N={丰田},O={rav4},然后得到实体对{(丰田,rav4)}。

Claims (1)

1.一种基于深度学习的命名实体关系抽取与构建方法,针对某一特定领域,其特征在于,包括如下步骤:
步骤1:构建爬虫程序,在垂直网站上抓取领域内的新闻数据;
步骤2:对获取的新闻数据进行预处理,去除垃圾信息,包括重复信息、不正常显示信息和编码乱码信息;将预处理后的新闻数据用于下面步骤;
步骤201:根据新闻长度进行清洗,利用正则表达式和制定的规则集去除垃圾新闻信息;
步骤202:利用布隆过滤器Bloom filter对新闻数据进行过滤,去除重复新闻信息;首先对新闻数据利用N个hash函数映射到位数组中,然后对后面的评论计算N个hash值,判断该新闻数据是否已经存在;如果后面的评论计算出的hash值存在于位数组中,则说明该评论数据已经存在,并将其过滤掉;
步骤3:对新闻数据进行分词,抽取关键词,将抽取的关键词加入词库,生成行业词库;
抽取关键词时,采用N-gram模型分词,N=1,2,3,计算词的点互信息PMI值,与设定的阈值比较,将大于阈值的词作为关键词;
词a和词b的PMI值PMI(a,b)=p(ab)/p(a)p(b),其中,p(a)表示词a出现的频率,p(b)表示词b出现的频率,p(ab)表示ab出现的频率;
步骤4:利用行业词库对新闻数据进行中文分词,获取对应的词集合;
步骤401:首先进行分词,调用中文分词程序分词;然后,根据停用词表去除停用词,对其中包含的英文词进行形态变换,转换到统一的表达形式;
步骤402:统计词的文档频率df和词频tf,计算得到词的逆向文件频率idf,使用计算公式log(tf*(idf+1)+1)计算词的权值,并根据权值与阈值D对比进行词集筛选,提取权值大于阈值D的词,得到相应的词集合,同时经过阈值对比,降低了新闻数据对应的词集合的维度;
步骤5:抽取种子词库,种子为设定的实体对;首先人工制作一定数量的种子,然后利用bootstrap方法从新闻数据中挖掘实体对;
步骤6:无监督构建实体关系网络,具体是:从新闻数据中抽取包含两个以上实体的句子,抽取句子中的动词以及对应的文档;对抽取的文档建立基于深度学习的实体词聚类模型,获取实体词在其他词上的概率分布;根据动词描述的词之间的关系,构建实体关系网络;
步骤7:定义实体关系类别,具体是:从新闻数据抽取包含两个实体的句子中的动词,对动词进行聚类,将相同的动词归为同一类;
步骤8:对实体关系网络中的每个实体对,基于步骤7的聚类结果进行关系分类。
CN201410488047.7A 2013-09-22 2014-09-22 一种基于深度学习的命名实体关系抽取与构建方法 Active CN104199972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410488047.7A CN104199972B (zh) 2013-09-22 2014-09-22 一种基于深度学习的命名实体关系抽取与构建方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310431913.4 2013-09-22
CN2013104319134 2013-09-22
CN201310431913 2013-09-22
CN201410488047.7A CN104199972B (zh) 2013-09-22 2014-09-22 一种基于深度学习的命名实体关系抽取与构建方法

Publications (2)

Publication Number Publication Date
CN104199972A CN104199972A (zh) 2014-12-10
CN104199972B true CN104199972B (zh) 2018-08-03

Family

ID=52085265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410488047.7A Active CN104199972B (zh) 2013-09-22 2014-09-22 一种基于深度学习的命名实体关系抽取与构建方法

Country Status (1)

Country Link
CN (1) CN104199972B (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933164B (zh) * 2015-06-26 2018-10-09 华南理工大学 互联网海量数据中命名实体间关系提取方法及其***
CN105260457B (zh) * 2015-10-14 2018-07-13 南京大学 一种面向共指消解的多语义网实体对比表自动生成方法
CN105389470A (zh) * 2015-11-18 2016-03-09 福建工程学院 一种中医针灸领域实体关系自动抽取的实现方法
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置
CN105894088B (zh) * 2016-03-25 2018-06-29 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取***及方法
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
US11288573B2 (en) * 2016-05-05 2022-03-29 Baidu Usa Llc Method and system for training and neural network models for large number of discrete features for information rertieval
CN106021223B (zh) * 2016-05-09 2020-06-23 Tcl科技集团股份有限公司 一种句子相似度的计算方法及***
CN106372122B (zh) * 2016-08-23 2018-04-10 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及***
CN108205524B (zh) * 2016-12-20 2022-01-07 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108268431B (zh) * 2016-12-30 2019-12-03 北京国双科技有限公司 段落向量化的方法和装置
CN106897545B (zh) * 2017-01-05 2019-04-30 浙江大学 一种基于深度置信网络的肿瘤预后预测***
CN108334520A (zh) * 2017-01-19 2018-07-27 北京京东尚科信息技术有限公司 社交网络数据处理方法、装置、存储介质及电子设备
US10922606B2 (en) 2017-06-13 2021-02-16 International Business Machines Corporation Multi-directional reduction in large scale deep-learning
CN107402915A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 多层语义的网络词库的生成方法及装置
CN108037837A (zh) * 2017-11-07 2018-05-15 朗坤智慧科技股份有限公司 一种搜索词的智能提示方法
CN107798136B (zh) 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108038106B (zh) * 2017-12-22 2021-07-02 北京工业大学 一种基于上下文语义的细粒度领域术语自学习方法
CN108446355B (zh) * 2018-03-12 2022-05-20 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN108363701B (zh) * 2018-04-13 2022-06-28 达而观信息科技(上海)有限公司 命名实体识别方法及***
CN108549640A (zh) * 2018-04-24 2018-09-18 易联众信息技术股份有限公司 一种基于统计学的企业名称相似度计算方法
CN108920448B (zh) * 2018-05-17 2021-09-14 南京大学 一种基于长短期记忆网络的比较关系抽取的方法
CN108737423B (zh) * 2018-05-24 2020-07-14 国家计算机网络与信息安全管理中心 基于网页关键内容相似性分析的钓鱼网站发现方法及***
CN110633409B (zh) * 2018-06-20 2023-06-09 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109190110B (zh) * 2018-08-02 2023-08-22 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、***及电子设备
US11080300B2 (en) 2018-08-21 2021-08-03 International Business Machines Corporation Using relation suggestions to build a relational database
CN109408642B (zh) * 2018-08-30 2021-07-16 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN109359299A (zh) * 2018-09-28 2019-02-19 中国电子科技集团公司信息科学研究院 一种基于商品数据的物联网设备能力本体自构建方法
CN109388806B (zh) * 2018-10-26 2023-06-27 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109543046A (zh) * 2018-11-16 2019-03-29 重庆邮电大学 一种基于深度学习的机器人数据互操作领域本体构建方法
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN109959109A (zh) * 2019-03-18 2019-07-02 四川长虹电器股份有限公司 基于异常语音识别的空气调节控制***及其控制方法
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110298043B (zh) * 2019-07-03 2023-04-07 吉林大学 一种车辆命名实体识别方法及***
CN110458397A (zh) * 2019-07-05 2019-11-15 苏州热工研究院有限公司 一种核电材料服役性能信息提取方法
CN110413725A (zh) * 2019-07-23 2019-11-05 福建奇点时空数字科技有限公司 一种基于深度学习技术的行业数据信息抽取方法
CN110737845A (zh) * 2019-10-15 2020-01-31 精硕科技(北京)股份有限公司 一种实现信息分析的方法、计算机存储介质及***
CN111178076B (zh) * 2019-12-19 2023-08-08 成都欧珀通信科技有限公司 命名实体识别与链接方法、装置、设备及可读存储介质
CN111126067B (zh) * 2019-12-23 2022-02-18 北大方正集团有限公司 实体关系抽取方法及装置
CN111274361A (zh) * 2020-01-21 2020-06-12 北京明略软件***有限公司 一种行业新词发现方法、装置、存储介质及电子设备
CN111881256B (zh) * 2020-07-17 2022-11-08 中国人民解放军战略支援部队信息工程大学 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN111859887A (zh) * 2020-07-21 2020-10-30 北京北斗天巡科技有限公司 一种基于深度学习的科技新闻自动写作***
CN112035621A (zh) * 2020-09-03 2020-12-04 江苏经贸职业技术学院 一种基于统计学的企业名名称相似度检测方法
CN112487190B (zh) * 2020-12-13 2022-04-19 天津大学 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及***
CN113157866B (zh) * 2021-04-27 2024-05-14 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113609844B (zh) * 2021-07-30 2024-03-08 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN117114739B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种企业供应链信息挖掘方法、挖掘***及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
CN102054029A (zh) * 2010-12-17 2011-05-11 哈尔滨工业大学 一种基于社会网络和人名上下文的人物信息消歧处理方法

Also Published As

Publication number Publication date
CN104199972A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN105701084A (zh) 一种基于互信息的文本分类的特征提取方法
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN102054029A (zh) 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN105389354A (zh) 面向社交媒体文本的无监督的事件抽取和分类方法
CN106126502A (zh) 一种基于支持向量机的情感分类***及方法
CN109657058A (zh) 一种公告信息的抽取方法
CN106682123A (zh) 一种获取热点事件的方法及装置
CN110188359B (zh) 一种文本实体抽取方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
Bolaj et al. Text classification for Marathi documents using supervised learning methods
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN106599072B (zh) 一种文本聚类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180523

Address after: 100190 Room 502, 5 Building 4 South four street, Haidian District, Beijing, Zhongguancun.

Applicant after: Zhong kjia speed (Beijing) Information Technology Co., Ltd.

Address before: 100190 South four street, Zhongguancun, Haidian District, Beijing, 4

Applicant before: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE CO., LTD.

GR01 Patent grant