CN108595708A - 一种基于知识图谱的异常信息文本分类方法 - Google Patents

一种基于知识图谱的异常信息文本分类方法 Download PDF

Info

Publication number
CN108595708A
CN108595708A CN201810443976.4A CN201810443976A CN108595708A CN 108595708 A CN108595708 A CN 108595708A CN 201810443976 A CN201810443976 A CN 201810443976A CN 108595708 A CN108595708 A CN 108595708A
Authority
CN
China
Prior art keywords
vector
entity
text
knowledge
illustrative plates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810443976.4A
Other languages
English (en)
Inventor
张日崇
马宏远
王飞
杜翠兰
王玥
赵晓航
怀进鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN201810443976.4A priority Critical patent/CN108595708A/zh
Publication of CN108595708A publication Critical patent/CN108595708A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于知识图谱的异常信息文本分类方法,首先构建领域知识图谱,构建出基于所述领域知识图谱的实体识别和实体链接,然后构建文本特征表示向量vtext和实体特征表示向量vent,最后将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge,对所述新的文本表示向量进行分类训练,得到最终的分类结果。

Description

一种基于知识图谱的异常信息文本分类方法
技术领域
本发明涉及一种分类方法,尤其涉及一种基于知识图谱的异常信息文本分 类方法。
背景技术
随着互联网的发展和网络信息的不断增长,网络技术的迅速发展使人们对 网络日益依赖,伴随着网络上不断增加的信息共享与业务宣传,网络内容的安 全问题已凸显出来。因此急需一种高准确度与强扩展性的异常信息识别方法为 社会与个人提供网络安全的保障。
现有技术中,异常信息检测主要有两类方法:一类是采用关键词过滤或是 以人工方式对异常信息进行建模的方式,人工制定过滤关键词列表匹配文本信 息;另一类是基于统计和机器学***衡。采用关键词过滤的方法对异常信息 进行识别的方式依赖人工制定过滤关键词列表,机械且扩展性差,并且网络上 的新词层出不穷,单凭人工制定关键词列表无法将异常信息完全覆盖,并且也 无法理解从语义分析的角度筛选有害信息。目前基于内容的信息过滤模型也依 赖大量人工制定的规则来完成建模,网络有害内容形式多样,人工制定的规则 无法样样穷举至尽。另外数据挖掘技术与机器学习的神经网络模型也在异常信 息的识别方面得以应用,但忽略文本中涉及的领域先验知识,大多数方法仅从 文本的表面特征入手,通过文本中词语的词频或语义向量对文本进行语义建模, 只能简单利用如共现关系等浅层特征,难以捕捉文本中蕴含的更深层的语义信 息,如文本所提及事物的共性关系、包含关系以及文本未提及的常识性质的先 验知识等。
目前,知识图谱已经成为实现大数据分析中的语义链接,实现互联网多源 异构数据到客观世界的具体事物描述的转换中的重要工具。知识图谱的建立对 数据的统一描述、有效融合、关联发现和知识推理奠定了有效的研究方法,知 识图谱用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制知识及 其间相互联系。随着WordNet、DBPedia等大规模知识库的出现与发展,大量知 识可以开放获取,从知识库中获取的知识特征也被越来越多的运用到自然语言 处理的任务中。随着基于神经网络的自然语言模型通过词嵌入(wordembedding) 方法将文本特征进行向量化表示的成功,在知识特征的表示方法上取得了同样 的显著效果,如TransE到TranR等一系列知识库实体与关系的embedding方法 研究。但现有技术的几类知识表示学习方法大多用于关系推理、链接预测等知 识库领域内部问题,且大多单独对知识信息进行建模,没有应用于异常信息文 本识别中。
发明内容
本发明提出一种基于知识图谱的异常信息文本分类方法,首先构建领域知 识图谱,构建出基于所述领域知识图谱的实体识别和实体链接模型,然后构建 文本特征表示向量vtext和实体特征表示向量vent,最后将文本特征表示向量与实 体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge,对所述 新的文本表示向量进行分类训练,得到最终的分类结果。
本发明基于知识图谱的实体识别与链接和基于文本与知识图谱联合特征的 短文本分类,从而实现基于文本与知识图谱的短文本异常信息检测。本发明引 入外部知识库辅助进行文本的深层语义挖掘与特征表示。通过知识库内部丰富 的实体关系、类别、属性等扩展信息支撑文本中的深层语义关系的提取,通过 基于知识图谱的实体消歧与链接方法解决词语的歧义问题,通过知识库中完备 的简称与别名的映射关系来处理文本中的指代词,最后将链接实体的知识库信 息作为辅助特征补充到模型的训练过程中,从而提高实现异常文本分类的可靠 性。
附图说明
图1为本发明一实施例的领域实体关系体系图;
图2为本发明一实施例的属性融合与消岐流程图;
图3为本发明的实体识别模型架构;
图4为本发明的基于文本与知识图谱联合特征分类流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实 施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示针对政治类与涉税类领域的异常信息文本检测实施例,需要构 建领域知识图谱,建立领域实体库。构建过程通过抽取新闻门户网站、微博、 微信公众号和论坛中政治、经济相关数据,并结合目前互联网中主要的几类中 文百科网站(百度百科、互动百科、中文***)中的半结构化数据作补充。 网络数据具有多源性,来源于新闻门户网站、微博、微信公众号和论坛等多个 通道,不同平台上会有不同的陈述方式和数据内容结构,所以需要将多源的数 据进行处理并实现融合。首先采用基于规则的爬取工具从网络页面中提取结构 化的数据,并设计简单规则对原始数据进行清理(过滤特殊字符,简繁转换等) 与归一化(统一时间,日期等表述形式),再将从中文百科网站中获取的与爬取 到的与政治、经济类新闻,微博相关的词条作为实体,利用百科网站数据中原 有的词条标签使用简单K-means聚类算法为每个实体的划定类别,构成分类体 系。百科中关于词条的不同方面描述用来构成实体的各项属性,百科中关于词 条描述中的超链接可以用来建立各个实体之间的关联关系,将孤立的实体连接 成图谱。基于此时从多源异质数据中已经得到初步成型的知识图谱,为后续工 作提供基础。
由于不同来源数据的表达形式与数据质量不一,需要进行知识融合。知识 融合包含实体对齐与属性的融合消岐两个主要工作,实体对齐使用实体名、实 体类别以及实体描述三个维度特征通过语义相似度算法判断找出应对齐的实体 列表,将同一实体所有待融合的实体项属性信息整理成集合,使用如图2所示 的属性融合与消岐流程,最终得到完整的实体数据存入数据库。这样知识库的 构建过程基本完成,储存介质使用neo4j图数据库,对构建完成的知识库的查 询通过调用neo4j提供的API访问接口的方式进行。
抽取出文本关联到的知识图谱信息需要通过实体识别方法对文本中涉及到 的实体词或词组进行标注,并在知识库中链接到其对应的具体实体上。实体识 别的主要任务是将自然语言文本中提到的人名、地名、组织机构名等命名实体 识别出来,并视需要进行实体名的简单分类。目前几乎所有的处理方式都是将 这个问题看作类似分词的序列标注问题,使用“BIO”标记法对句子中的每个 词进行标记,“B”代表某个实体名的开始,“I”代表某个实体名的中间或结束, “O”代表实体名以外的词语,再使用机器学习模型在标注的数据集上进行训 练,如条件随机场(CRF)或循环神经网络模型。本发明使用如图3所示的BILSTM+CRF的结合模型,先对文本使用长短期记忆神经网络(LSTM)进行 编码,文本中每个单词的词向量作为LSTM的输入,然后输出为每个单词是某
实体链接的主要工作是根据命名实体词找到在知识库中对应的实体,其间 会涉及到同名实体的消歧,如判断“张三是一个伟大的领袖”中的“张三”应 链接到领导人张三实体上还是人物传记张三实体上。本发明通过统计学习的方 式在标准的数据集下建立概率模型,完成消岐,识别出概率最高的实体,返回 实体id。在缺乏完整标注的数据集的情况下,先通过知识库检索列举出所有的 候选实体,然后利用实体知名度、实体类别与原始文本的关联度或实体信息与 原始文本的相似度等指标进行基于规则的排序与筛选。
传统文本表示方法即通过one-hot向量或TF-IDF值序列进行向量化表示, 首先对数据集所有文本分词后得到的词语进行统计,过滤低频词停用词后得到 词表,设词表大小为n,则文本的表示向量vd∈Rn第i维上的数字表征了词表 中第i个词语在文本中的出现情况,1为出现0为未出现,或使用该词语的 TF-IDF值代替以取得更好效果。但这种表示方法会带来维度过高,数据稀疏, 以及对语义相似性的编码能力较弱等显著问题。
为解决上述问题,本发明使用词嵌入方法,将单个词语进行向量化表示, 将词语之间的相似性转化成向量之间余弦距离的度量。本发明使用最近一年的 新闻数据和中文***数据,利用word2vec进行词向量训练。
文本被视为依次出现的词语序列(w1,w2,w3......),设词语wi的word2vec 向量表示为vwi,向量长度为k,将文本所有词语的词向量拼接起来得到文本特 征表示向量vtext∈Rs×k
知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以 及它们之间的关联关系。知识图谱通过“实体-关系-实体”三元组,将现实世 界中的实体与概念映射到一个语义网络中,能够有效解决开放互联网大数据信 息价值密度低的问题,特别适用于实体相关、语义相关的信息检索任务。但实 体关系很难应用到文本分类算法中,本发明将知识库中的语义信息表示为稠密 低维实值向量,面向知识图谱中的实体和关系进行表示学习。
本发明使用TransE模型对实体和关系向量表示,将每个三元组实例(head,relation,tail)中的关系relation看做从实体head到实体tail的向量相加,通过 不断调整head、relation和tail的向量,使(h+r)与t相等,即h+r=t。
经过TransE算法对知识图谱中的实体和关系进行表示学习后,每一个实体 和关系都可以用一个k维向量表示vei。于是可以得出知识特征的向量表示:基 于知识图谱的实体识别与链接的方法,文本(w1,w2,w3......)能够文本链接到 的实体为(e1,e2,……,et),将所有实体的实体向量拼接起来得到实体特征向量表示 vent∈Rt×k
将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的文本 表示形式:
用新的文本表示向量vmerge代替原来基于纯文本特征的表示向量vtext, 参与到目的模型的训练中,以完成对目标文本的特征扩充,增加对深层语义信 息的支持,提高模型质量与完备性。
如图4所示为本发明的分类模型对vmerge进行分类训练。使用CNN深度 学习模型进行分类训练,vmerge将向量拼接成文本的表示矩阵,输入到CNN 层,最后将结果输入到全连接网络分类器进行模型训练,得到最终分类结果, 保证了模型对文本深层语义信息的捕捉,提高分类质量与可靠性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限 制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中 部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本 质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于知识图谱的异常信息文本分类方法,其特征在于,首先构建领域知识图谱,构建出基于所述领域知识图谱的实体识别和实体链接,然后构建文本特征表示向量vtext和实体特征表示向量vent,最后将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge,对所述新的文本表示向量进行分类训练,得到最终的分类结果。
2.如权利要求1所述的方法,其特征在于,所述构建领域知识图谱通过抽取不同平台上的多源数据进行处理并进行融合,确立实体类别与实体间关联,然后进行知识融合;所述知识融合包括实体对齐与属性的融合消岐两个步骤,所述实体对齐步骤中使用实体名、实体类别以及实体描述三个维度特征通过语义相似度算法判断找出应对齐的实体列表,将同一实体所有待融合的实体项属性信息整理成集合。
3.如权利要求1所述的方法,其特征在于,所述构建基于所述基于图谱的实体识别通过使用BILSTM+CRF的结合模型,先对文本使用LSTM算法进行编码,文本中每个单词的词向量作为LSTM的输入,然后输出为每个单词是某个标记的概率,并作为CRF的输入,随机化转移概率矩阵,根据推断算法求出概率最高的标记序列;构建基于所述基于图谱的实体链接通过统计学习的方式在标准的数据集下建立概率模型,完成消岐,识别出概率最高的实体,返回实体id。
4.如权利要求1所述的方法,其特征在于,所述构建文本特征表示向量使用词嵌入方法,将单个词语进行向量化表示,将词语之间的相似性转化成向量之间余弦距离的度量,通过神经网络对文本特征进行学习,同时降低词向量维数;设词语wi的word2vec向量表示为vwi,向量长度为k,将文本所有词语的词向量拼接起来得到文本特征表示向量所述s为词语的数量,所述vtext∈Rs×k
5.如权利要求4所述的方法,其特征在于,构建所述实体特征表示向量的方法为,经过TransE算法对知识图谱中的实体和关系进行表示学习,每一个实体和关系用一个k维向量表示vei,文本(w1,w2,w3......)能够文本链接到的实体为(e1,e2,……,et),将所有实体的实体向量拼接起来得到所述实体特征表示向量所述t为实体的数量,vent∈Rt×k
6.如权利要求5所述的方法,其特征在于,将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge的方式为然后使用CNN深度学习模型进行分类训练,将vmerge向量拼接成文本的表示矩阵,输入到CNN层,最后将结果输入到全连接网络分类器进行模型训练得到最终分类结果。
CN201810443976.4A 2018-05-10 2018-05-10 一种基于知识图谱的异常信息文本分类方法 Pending CN108595708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810443976.4A CN108595708A (zh) 2018-05-10 2018-05-10 一种基于知识图谱的异常信息文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810443976.4A CN108595708A (zh) 2018-05-10 2018-05-10 一种基于知识图谱的异常信息文本分类方法

Publications (1)

Publication Number Publication Date
CN108595708A true CN108595708A (zh) 2018-09-28

Family

ID=63637073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810443976.4A Pending CN108595708A (zh) 2018-05-10 2018-05-10 一种基于知识图谱的异常信息文本分类方法

Country Status (1)

Country Link
CN (1) CN108595708A (zh)

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置
CN109582802A (zh) * 2018-11-30 2019-04-05 国信优易数据有限公司 一种实体嵌入方法、装置、介质及设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、***、终端及介质
CN109684394A (zh) * 2018-12-13 2019-04-26 北京百度网讯科技有限公司 文本生成方法、装置、设备和存储介质
CN109726253A (zh) * 2018-12-21 2019-05-07 义橙网络科技(上海)有限公司 人才图谱及人才画像的构建方法、装置、设备及介质
CN109977419A (zh) * 2019-04-09 2019-07-05 福建奇点时空数字科技有限公司 一种知识图谱构建***
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和***
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110188147A (zh) * 2019-05-22 2019-08-30 厦门无常师教育科技有限公司 基于知识图谱的文献实体关系发现方法及***
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110263178A (zh) * 2019-06-03 2019-09-20 南京航空航天大学 一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110275928A (zh) * 2019-06-24 2019-09-24 复旦大学 迭代式实体关系抽取方法
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110399261A (zh) * 2019-06-13 2019-11-01 中国科学院信息工程研究所 一种基于共现图的***告警聚类分析方法
CN110490251A (zh) * 2019-03-08 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的预测分类模型获取方法及装置、存储介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质
CN110750647A (zh) * 2019-10-17 2020-02-04 北京华宇信息技术有限公司 一种多源异构情报数据的elp模型的构建方法
CN110825882A (zh) * 2019-10-09 2020-02-21 西安交通大学 一种基于知识图谱的信息***管理方法
CN110910243A (zh) * 2019-09-26 2020-03-24 山东佳联电子商务有限公司 一种基于可重构大数据知识图谱技术的产权交易方法
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN110955764A (zh) * 2019-11-19 2020-04-03 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN110990533A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 确定查询文本所对应标准文本的方法及装置
CN111028952A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN111144574A (zh) * 2018-11-06 2020-05-12 北京嘀嘀无限科技发展有限公司 使用指导者模型训练学习者模型的人工智能***和方法
CN111191031A (zh) * 2019-12-24 2020-05-22 上海大学 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN111191047A (zh) * 2019-12-31 2020-05-22 武汉理工大学 一种面向人机协作拆卸任务的知识图谱构建方法
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111414393A (zh) * 2020-03-26 2020-07-14 湖南科创信息技术股份有限公司 一种基于医学知识图谱的语义相似病例检索方法及设备
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111737489A (zh) * 2020-06-17 2020-10-02 广联达科技股份有限公司 一种建筑信息的检索方法、装置、设备及可读存储介质
CN111985242A (zh) * 2019-05-22 2020-11-24 中国信息安全测评中心 一种文本的标注方法及装置
CN112182249A (zh) * 2020-10-23 2021-01-05 四川大学 针对航空安全报告的自动分类方法和装置
CN112417448A (zh) * 2020-11-15 2021-02-26 复旦大学 一种基于api关系图谱的恶意软件检测模型抗老化增强方法
CN112559737A (zh) * 2020-11-20 2021-03-26 和美(深圳)信息技术股份有限公司 知识图谱的节点分类方法及***
CN112597298A (zh) * 2020-10-14 2021-04-02 上海勃池信息技术有限公司 融合知识图谱的深度学习文本分类方法
CN112632994A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 基于文本信息确定基本属性特征的方法、装置及设备
CN112801706A (zh) * 2021-02-04 2021-05-14 北京云上曲率科技有限公司 一种游戏用户行为数据挖掘方法及***
CN112906361A (zh) * 2021-02-09 2021-06-04 上海明略人工智能(集团)有限公司 文本数据的标注方法和装置、电子设备和存储介质
CN113094715A (zh) * 2021-04-20 2021-07-09 国家计算机网络与信息安全管理中心 一种基于知识图谱的网络安全动态预警***
CN113254615A (zh) * 2021-05-31 2021-08-13 ***通信集团陕西有限公司 文本处理方法、装置、设备及介质
CN113449104A (zh) * 2021-06-22 2021-09-28 上海明略人工智能(集团)有限公司 标签增强模型构建方法、***、电子设备及存储介质
CN113590802A (zh) * 2021-09-27 2021-11-02 北京明略软件***有限公司 一种会话内容异常检测方法、装置、电子设备及存储介质
CN113641766A (zh) * 2021-07-15 2021-11-12 北京三快在线科技有限公司 一种关系识别方法、装置、存储介质及电子设备
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法
WO2021259002A1 (zh) * 2020-06-23 2021-12-30 平安科技(深圳)有限公司 基于决策树的异常数据源输出方法、装置和计算机设备
CN113963357A (zh) * 2021-12-16 2022-01-21 北京大学 基于知识图谱的敏感文本检测方法及***
CN114064901A (zh) * 2021-11-26 2022-02-18 重庆邮电大学 一种基于知识图谱词义消歧的书评文本分类方法
CN114548103A (zh) * 2020-11-25 2022-05-27 马上消费金融股份有限公司 一种命名实体识别模型的训练方法和命名实体的识别方法
CN117040926A (zh) * 2023-10-08 2023-11-10 北京网藤科技有限公司 应用知识图谱的工控网络安全特征分析方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107992480A (zh) * 2017-12-25 2018-05-04 东软集团股份有限公司 一种实现实体消歧的方法、装置及存储介质、程序产品

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107992480A (zh) * 2017-12-25 2018-05-04 东软集团股份有限公司 一种实现实体消歧的方法、装置及存储介质、程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIN WANG等: "《Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence》", 《COMBINING KNOWLEDGE WITH DEEP CONVOLUTIONAL NEURAL NETWORKS FOR SHORT TEXT CLASSIFICATION》 *
徐增林等: "知识图谱技术综述", 《电子科技大学学报》 *

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144574A (zh) * 2018-11-06 2020-05-12 北京嘀嘀无限科技发展有限公司 使用指导者模型训练学习者模型的人工智能***和方法
CN111144574B (zh) * 2018-11-06 2023-03-24 北京嘀嘀无限科技发展有限公司 使用指导者模型训练学习者模型的人工智能***和方法
US10872300B2 (en) 2018-11-06 2020-12-22 Beijing Didi Infinity Technology And Development Co., Ltd. Artificial intelligent systems and methods for using a structurally simpler learner model to mimic behaviors of a structurally more complicated reference model
WO2020093356A1 (en) * 2018-11-06 2020-05-14 Beijing Didi Infinity Technology And Development Co., Ltd. Artificial intelligent systems and methods for using structurally simpler learner model to mimic behaviors of structurally more complicated reference model
CN109582802A (zh) * 2018-11-30 2019-04-05 国信优易数据有限公司 一种实体嵌入方法、装置、介质及设备
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置
CN109582802B (zh) * 2018-11-30 2020-11-03 国信优易数据股份有限公司 一种实体嵌入方法、装置、介质及设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615B (zh) * 2018-12-04 2022-04-22 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109657238B (zh) * 2018-12-10 2023-10-13 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、***、终端及介质
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、***、终端及介质
CN109684394A (zh) * 2018-12-13 2019-04-26 北京百度网讯科技有限公司 文本生成方法、装置、设备和存储介质
CN109726253A (zh) * 2018-12-21 2019-05-07 义橙网络科技(上海)有限公司 人才图谱及人才画像的构建方法、装置、设备及介质
CN110490251A (zh) * 2019-03-08 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的预测分类模型获取方法及装置、存储介质
CN110490251B (zh) * 2019-03-08 2022-07-01 腾讯科技(深圳)有限公司 基于人工智能的预测分类模型获取方法及装置、存储介质
CN109977419A (zh) * 2019-04-09 2019-07-05 福建奇点时空数字科技有限公司 一种知识图谱构建***
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和***
CN110069779B (zh) * 2019-04-18 2023-01-10 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110263324B (zh) * 2019-05-16 2021-02-12 华为技术有限公司 文本处理方法、模型训练方法和装置
CN111985242A (zh) * 2019-05-22 2020-11-24 中国信息安全测评中心 一种文本的标注方法及装置
CN110188147A (zh) * 2019-05-22 2019-08-30 厦门无常师教育科技有限公司 基于知识图谱的文献实体关系发现方法及***
CN110263178B (zh) * 2019-06-03 2023-05-12 南京航空航天大学 一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
CN110263178A (zh) * 2019-06-03 2019-09-20 南京航空航天大学 一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
CN110399261A (zh) * 2019-06-13 2019-11-01 中国科学院信息工程研究所 一种基于共现图的***告警聚类分析方法
CN110275928B (zh) * 2019-06-24 2022-11-22 复旦大学 迭代式实体关系抽取方法
CN110275928A (zh) * 2019-06-24 2019-09-24 复旦大学 迭代式实体关系抽取方法
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110633366B (zh) * 2019-07-31 2022-12-16 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110910243A (zh) * 2019-09-26 2020-03-24 山东佳联电子商务有限公司 一种基于可重构大数据知识图谱技术的产权交易方法
CN110825882B (zh) * 2019-10-09 2022-03-01 西安交通大学 一种基于知识图谱的信息***管理方法
CN110825882A (zh) * 2019-10-09 2020-02-21 西安交通大学 一种基于知识图谱的信息***管理方法
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN110955780B (zh) * 2019-10-12 2022-10-14 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN110750647A (zh) * 2019-10-17 2020-02-04 北京华宇信息技术有限公司 一种多源异构情报数据的elp模型的构建方法
CN110750647B (zh) * 2019-10-17 2020-07-31 北京华宇信息技术有限公司 一种多源异构情报数据的elp模型的构建方法
CN110955764B (zh) * 2019-11-19 2021-04-06 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN110955764A (zh) * 2019-11-19 2020-04-03 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111028952A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN111028952B (zh) * 2019-11-27 2023-08-04 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN110990533A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 确定查询文本所对应标准文本的方法及装置
CN110990533B (zh) * 2019-11-29 2023-08-25 支付宝(杭州)信息技术有限公司 确定查询文本所对应标准文本的方法及装置
CN111191031A (zh) * 2019-12-24 2020-05-22 上海大学 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN111191047A (zh) * 2019-12-31 2020-05-22 武汉理工大学 一种面向人机协作拆卸任务的知识图谱构建方法
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111414393A (zh) * 2020-03-26 2020-07-14 湖南科创信息技术股份有限公司 一种基于医学知识图谱的语义相似病例检索方法及设备
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111563166B (zh) * 2020-05-28 2024-02-13 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111737489A (zh) * 2020-06-17 2020-10-02 广联达科技股份有限公司 一种建筑信息的检索方法、装置、设备及可读存储介质
WO2021259002A1 (zh) * 2020-06-23 2021-12-30 平安科技(深圳)有限公司 基于决策树的异常数据源输出方法、装置和计算机设备
CN112597298A (zh) * 2020-10-14 2021-04-02 上海勃池信息技术有限公司 融合知识图谱的深度学习文本分类方法
CN112182249A (zh) * 2020-10-23 2021-01-05 四川大学 针对航空安全报告的自动分类方法和装置
CN112417448A (zh) * 2020-11-15 2021-02-26 复旦大学 一种基于api关系图谱的恶意软件检测模型抗老化增强方法
CN112417448B (zh) * 2020-11-15 2022-03-18 复旦大学 一种基于api关系图谱的恶意软件检测模型抗老化增强方法
CN112559737A (zh) * 2020-11-20 2021-03-26 和美(深圳)信息技术股份有限公司 知识图谱的节点分类方法及***
CN114548103A (zh) * 2020-11-25 2022-05-27 马上消费金融股份有限公司 一种命名实体识别模型的训练方法和命名实体的识别方法
CN114548103B (zh) * 2020-11-25 2024-03-29 马上消费金融股份有限公司 一种命名实体识别模型的训练方法和命名实体的识别方法
CN112632994A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 基于文本信息确定基本属性特征的方法、装置及设备
CN112632994B (zh) * 2020-12-03 2023-09-01 大箴(杭州)科技有限公司 基于文本信息确定基本属性特征的方法、装置及设备
CN112801706B (zh) * 2021-02-04 2024-02-02 北京云上曲率科技有限公司 一种游戏用户行为数据挖掘方法及***
CN112801706A (zh) * 2021-02-04 2021-05-14 北京云上曲率科技有限公司 一种游戏用户行为数据挖掘方法及***
CN112906361A (zh) * 2021-02-09 2021-06-04 上海明略人工智能(集团)有限公司 文本数据的标注方法和装置、电子设备和存储介质
CN113094715A (zh) * 2021-04-20 2021-07-09 国家计算机网络与信息安全管理中心 一种基于知识图谱的网络安全动态预警***
CN113254615A (zh) * 2021-05-31 2021-08-13 ***通信集团陕西有限公司 文本处理方法、装置、设备及介质
CN113449104A (zh) * 2021-06-22 2021-09-28 上海明略人工智能(集团)有限公司 标签增强模型构建方法、***、电子设备及存储介质
CN113641766A (zh) * 2021-07-15 2021-11-12 北京三快在线科技有限公司 一种关系识别方法、装置、存储介质及电子设备
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法
CN113722509B (zh) * 2021-09-07 2022-03-01 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法
CN113590802A (zh) * 2021-09-27 2021-11-02 北京明略软件***有限公司 一种会话内容异常检测方法、装置、电子设备及存储介质
CN114064901A (zh) * 2021-11-26 2022-02-18 重庆邮电大学 一种基于知识图谱词义消歧的书评文本分类方法
CN114064901B (zh) * 2021-11-26 2022-08-26 重庆邮电大学 一种基于知识图谱词义消歧的书评文本分类方法
CN113963357A (zh) * 2021-12-16 2022-01-21 北京大学 基于知识图谱的敏感文本检测方法及***
CN113963357B (zh) * 2021-12-16 2022-03-11 北京大学 基于知识图谱的敏感文本检测方法及***
CN117040926A (zh) * 2023-10-08 2023-11-10 北京网藤科技有限公司 应用知识图谱的工控网络安全特征分析方法和***
CN117040926B (zh) * 2023-10-08 2024-01-26 北京网藤科技有限公司 应用知识图谱的工控网络安全特征分析方法和***

Similar Documents

Publication Publication Date Title
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN112069811B (zh) 多任务交互增强的电子文本事件抽取方法
CN110532328B (zh) 一种文本概念图构造方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN114444516B (zh) 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN110457585B (zh) 负面文本的推送方法、装置、***及计算机设备
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及***
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
Kumar et al. Hybrid fusion based approach for multimodal emotion recognition with insufficient labeled data
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113761128A (zh) 领域同义词典与模式匹配相结合的事件关键信息抽取方法
Cai et al. Multi‐level deep correlative networks for multi‐modal sentiment analysis
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
Liu IntelliExtract: An End-to-End Framework for Chinese Resume Information Extraction from Document Images
CN113283535B (zh) 一种融合多模态特征的虚假消息检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928