CN110516073A - 一种文本分类方法、装置、设备和介质 - Google Patents

一种文本分类方法、装置、设备和介质 Download PDF

Info

Publication number
CN110516073A
CN110516073A CN201910816831.9A CN201910816831A CN110516073A CN 110516073 A CN110516073 A CN 110516073A CN 201910816831 A CN201910816831 A CN 201910816831A CN 110516073 A CN110516073 A CN 110516073A
Authority
CN
China
Prior art keywords
entity
vector
sequence
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910816831.9A
Other languages
English (en)
Inventor
汪琦
冯知凡
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910816831.9A priority Critical patent/CN110516073A/zh
Publication of CN110516073A publication Critical patent/CN110516073A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法、装置、设备和介质,涉及自然语言处理技术领域。具体实现方案为:获取待分类文本;将待分类文本的词序列输入词向量编码模型以确定词序列的词向量序列;将待分类文本的实体序列输入实体向量模型以确定实体序列对应的实体向量序列;实体向量模型基于实体向量编码模型来确定实体向量,实体向量编码模型基于实体知识图谱数据库的文本训练而成;根据词向量序列和实体向量序列对待分类文本进行分类识别。本申请实施例避免了特征工程和训练样本的构建,降低了文本分类模型的构建难度;通过词向量序列和实体向量序列综合进行文本分类,提升了文本分类模型的语义敏感度,进而提升了待分类文本的分类结果的准确度。

Description

一种文本分类方法、装置、设备和介质
技术领域
本申请实施例涉及计算机数据处理技术,尤其涉及自然语言处理技术领域,具体涉及一种文本分类方法、装置、设备和介质。
背景技术
文本分类是机器学习领域最基础且应用场景最为广泛的任务,文本分类的目标是自动将文本形式的文档分类为一个或多个预定义类别。
基于词向量转换进行文本分类的技术是目前经常采用的技术,但是,现有方案,有的极度依赖特征工程和训练样本的构建过程,需要花费较大人力成本,还有的则对语义不够敏感,难以满足复杂场景下的文本分类应用需求。
发明内容
本申请实施例提供一种文本分类方法、装置、设备和介质,以降低文本分类模型的构建难度,且提升文本分类模型的语义敏感度。
第一方面,本申请实施例提供了一种文本分类方法,包括:
获取待分类文本;
将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列;
将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量编码模型来确定实体向量,所述实体向量编码模型是基于实体知识图谱数据库的文本作为样本训练而成的;
根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
上述申请中的一个实施例具有如下优点或有益效果:降低了文本分类模型的构建难度,同时提升了文本分类模型的语义敏感度。本申请实施例通过获取待分类文本,并将待分类模型文本的词序列输入词向量编码模型,以确定词序列的词向量序列;将待分类文本的实体序列输入至基于实体图谱数据库的文本训练而获得的实体向量模型,以确定实体序列对应的实体向量序列;根据词向量序列和实体向量序列,对待分类文本进行分类识别。上述技术方案通过词向量编码模型和实体向量模型的使用,分别确定与待分类文本对应的词向量序列和实体向量序列,避免了特征工程和训练样本的构建构成,降低了文本分类模型的构建难度;通过在词向量序列和实体向量序列两种不同维度下,综合进行待分类文本的分类识别,提升了文本分类模型的语义敏感度,进而提升了待分类文本的分类结果的准确度。
可选的,在根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别之前,还包括:
将所述词向量序列输入词向量注意机制模型,以确定各词向量的注意权重;
将所述实体向量序列输入实体向量注意机制模型,以确定各实体向量的注意权重;
相应的,根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别包括:
根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别。
上述申请中的一个实施例通过引入词向量注意力机制模型和实体向量注意力机制模型,对词向量序列和实体向量序列分配注意权重,并根据所分配的注意权重进行文本的分类识别,从而对待分类文本在词向量和实体向量维度下的分类结果有效均衡,对文本中的重要信息进行凸显,最大化不同向量序列的模型贡献度,进一步提高了文本分类模型的语义敏感度,提升了文本分类结果的准确度。
可选的,根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别包括:
将所述词向量分别乘以对应的注意权重,将所述实体向量分别乘以对应的注意权重;
将乘以注意权重的词向量序列和实体向量序列进行首尾拼接,形成完整向量序列;
将所述完整向量序列输入分类器,将输出结果作为所述待分类文本的分类结果。
上述申请中的一个实施例通过注意权重分别对词向量序列和实体向量序列进行加权,有效均衡词向量序列和实体向量序列的贡献度,并通过将加权后的词向量序列和实体向量序列通过拼接实现特征融合,基于特征融合后的完整向量序列进行文本分类,完善了文本分类识别的分类机制,提高了文本分类模型的语义敏感度和文本分类结果的准确度。
可选的,所述实体向量编码模型的训练过程包括:
基于实体知识图谱数据库中的实体描述文本作为实体的训练样本;
采用所述实体的训练样本,对实体向量编码模型进行训练。
上述申请中的一个实施例通过知识图谱数据库中的实体描述文本对实体向量模型进行训练,使得模型训练过程中引入与实体具备关联关系的描述文本,增加了训练样本的广度,进而提升了实体向量编码模型对不同实体进行编码时的合理性和有效性,为小样本情况下的实体向量编码模型的成功训练提供了可能。
可选的,采用所述实体的训练样本,对实体向量编码模型进行训练包括:
根据每个所述实体的语境训练样本,对每个实体的一级向量模型进行训练,以确定每个所述实体的一级向量;
从所述实体知识图谱数据库中确定实体关系组,或,根据原始文本中的实体共现情况确定实体关系组;其中,所述实体关系组至少包括两个实体以及实体之间的关系;
根据所述实体的一级向量以及所述实体关系组,分别确定每个实体的实体关系训练样本,输入每个所述实体对应的二级模型中进行训练,以更新每个所述实体的一级向量,得到最终的实体向量;
其中,所述实体向量模型包括训练后得到的各实体与实体向量的映射关系。
上述申请中的一个实施例通过实体知识图谱数据库中的实体关系组或实体共现情况所确定的实体关系组,对实体向量编码模型进行二次训练,使得在模型训练过程中引入不同来源的实体,增加了训练样本的广度,进而提升了实体向量编码模型对不同实体进行编码时的合理性和有效性。
可选的,所述一级模型包括NN模型和相似度函数,所述二级模型为skip-gram模型。
上述申请中的一个实施例将实体向量编码模型具体化为NN模型和skip-gram模型,通过合适的模型选取,避免了模型过拟合现象的发生,从而为实体序列向量编码模型的有效训练提供保障。
可选的,基于实体知识图谱数据库中的实体描述文本作为实体的训练样本包括:
获取原始语句;
基于实体知识图谱,识别所述原始语句中的至少一个实体;
获取进行实体正例标注的原始语句,作为正例训练样本,其中,正例训练样本中的实体与所述实体知识图谱中的实体匹配;
根据正例实体确定反例训练样本,其中,反例训练样本中的实体与所述实体知识图谱中的实体不匹配;
获取正例实体在实体知识图谱数据库中的实体描述文本,添加为正例训练样本,作为所述语境训练样本。
上述申请中的一个实施例通过实体知识图谱进行原始语句的实体确定,并基于所确定的实体及实体描述文本生成正例训练样本,增加了训练样本中的特征维度,并基于正例实体确定和实体知识图谱确定反例训练样本,完善了训练样本的生成机制,为实体向量编码模型的有效训练提供保障。
可选的,根据正例训练样本确定反例训练样本包括:
根据正例实体,从实体知识图谱中确定内容相同或不同的不同实体点,作为反例实体;
获取反例实体在实体知识图谱数据库中的实体描述文本,作为反例训练样本,也作为所述语境训练样本。
上述申请中的一个实施例通过正例实体进行反例实体的确定,并根据反例实体的实体描述文本生成反例训练样本,完善了反例训练样本的生成机制,为实体向量编码模型的有效训练提供保障。
可选的,所述词向量编码模型为word2vec模型或Glove模型,采用文本样本进行无监督训练而成。
上述申请中的一个实施例通过word2vec模型或Glove模型,完善了词向量编码模型的训练机制,通过合适的模型选取,避免了选取的模型过复杂导致的过拟合现象的发生,从而为词向量编码模型的有效训练提供保障。
可选的,获取待分类文本包括下述至少一项:
从社交媒体应用软件中,获取用户评论文本,从所述用户评论文本中提取关键语句,作为待分类文本;
从搜索引擎应用软件中,获取用户搜索语句,作为所述待分类文本;
从咨询信息推送应用软件中,获取咨询信息条目的题目或关键语句,作为所述待分类文本;
获取广告信息关键语句,作为所述待分类文本。
上述申请中的一个实施例通过从不同应用软件进行待分类文本的获取,将本申请中所涉及的文本分类方法适配不同的应用场景,体现了文本分类方法的普适性。
第二方面,本申请实施例还提供了一种文本分类装置,包括:
待分类文本获取模块,用于获取待分类文本;
词向量序列确定模块,用于将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列;
实体向量序列确定模块,用于将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量编码模型来确定实体向量,所述实体向量编码模型是基于实体知识图谱数据库的文本作为样本训练而成的;
分类识别模块,用于根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例所提供的一种文本分类方法。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例所提供的一种文本分类方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例一中的一种文本分类方法的流程图;
图2是本申请实施例二中的一种文本分类方法的流程图;
图3是本申请实施例三中的一种文本分类方法的流程图;
图4A是本申请实施例四中的一种文本分类方法的流程图;
图4B是本申请实施例四中的一种实体向量编码模型架构示意图;
图4C是本申请实施例四中的一种文本分类模型的整体架构示意图;
图4D是本申请实施例四中的一种文本分类结果的示意图;
图5是本申请实施例五中的一种文本分类装置的结构图;
图6是用来实现本申请实施例的文本分类方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
图1是本申请实施例一中的一种文本分类方法的流程图,本申请实施例适用于对待分类文本进行分类识别,以确定待分类文本的所属类别的情况,该方法由文本分类装置执行,该装置通过软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图1所示的一种文本分类方法,包括:
S101、获取待分类文本。
其中,待分类文本可以预先存储在电子设备本地、与电子设备相关联的其他存储设备或云端中,并在需要时进行待分类文本的获取;或者从产生待分类文本的应用软件中进行待分类文本的实时获取或定时获取。
示例性地,获取待分类文本包括但不限于下述方式中的至少一种:从社交媒体应用软件中,获取用户评论文本,从所述用户评论文本中提取关键语句,作为待分类文本;从搜索引擎应用软件中,获取用户搜索语句,作为所述待分类文本;从咨询信息推送应用软件中,获取咨询信息条目的题目或关键语句,作为所述待分类文本;以及获取广告信息关键语句,作为所述待分类文本。
可以理解的是,通过从不同的应用软件中进行待分类文本的获取,可以使本申请所涉及的文本分类方法适配不同的应用场景,体现了文本分类方法的普适性。
可选的,从用户评论文本中提取关键语句,可以是对用户评论文本进行分词处理,并统计各分词结果的出现频率;根据各分词结果的出现频率,提取关键语句。例如将分词结果的出现频率超过设定频率阈值时所对应的语句作为关键语句,和/或将分词结果的出现频率最高的设定数量的各分词结果对应的语句作为关键语句。其中,设定频率阈值或设定数量由技术人员根据需要或经验值进行设定。
S102、将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列。
示例性地,可以对待分类文本进行分词处理,将各分词结果组合得到词序列;将词序列输入至预先训练好的词向量编码模型中,根据词向量编码模型的输出结果确定词向量序列。
其中,词序列中的各个词语通过词向量编码模型映射成相应的词向量,并将各词向量组合得到词向量序列。并且,相同或含义相近的词语对应的词向量之间的向量距离较小,不同或含义相反的词语对应的词向量之间的向量距离较大。
可选的,词向量编码模型可以采用word2vec模型或Glove模型,采用文本样本进行无监督训练而成。其中,word2vec模型可以是连续词袋模型(Continuous Bag-of-wordsmodel,CBOW)或者Skip-gram模型等。
可以理解的是,通过词向量编码模型的合理选取,避免了选取的模型过复杂导致的过拟合现象的发生,从而为词向量编码模型的有效训练提供了保障。
S103、将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量编码模型来确定实体向量,所述实体向量编码模型是基于实体知识图谱数据库的文本作为样本训练而成的。
示例性地,可以对待分类文本进行分词处理,并根据预设的实体知识图谱数据库中所包含的各实体词语,对各分词结果进行筛选,得到至少一个实体词;将各实体词组合形成实体序列,并将实体序列输入至预先得到的实体向量模型中,而实体向量模型是基于预先训练好的实体向量编码模型来确定的。根据实体向量模型的输出结果确定实体向量序列,实体向量模型可以是实体向量编码模型本身,但可以是基于实体向量编码模型确定的结果,例如包括各个实体与实体向量的映射关系表,映射关系是通过训练得到的实体向量编码模型而确定的。
其中,实体序列中的各个实体词通过实体向量模型映射成相应的实体向量,并将各实体向量组合得到实体向量序列。实体向量之间的距离同样反映了实体词之间的相似程度。由于实体向量模型是基于实体词本身,以及实体知识图谱数据库中,与实体关联的丰富描述文本训练而形成的,所以所需标注的样本数量少,训练样本的语义关联性强且丰富,对语义近似程度的识别敏感度高。
可选的,实体向量编码模型可以采用神经网络(Neural Networks,NN)模型和skip-gram模型所形成的组合模型。
可以理解的是,通过对实体向量编码模型的合理选取,和对选取的不同模型的组合使用,为实体向量编码模型的有效训练提供了保障,从而间接提高了实体向量编码模型的模型精度。
S104、根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
可选的,根据词向量序列和实体向量序列,对待分类文本进行分类识别,可以是:直接将词向量序列和实体向量序列拼接,以实现特征融合,并将融合后得到的向量序列输入至分类器中,得到待分类文本的分类结果。即,在分类器中同时考虑了该文本的词向量序列和实体向量序列。
本申请实施例通过获取待分类文本,并将待分类模型文本的词序列输入词向量编码模型,以确定词序列的词向量序列;将待分类文本的实体序列输入至基于实体图谱数据库的文本训练而成的实体向量编码模型,以确定实体序列对应的实体向量序列;根据词向量序列和实体向量序列,对待分类文本进行分类识别。上述技术方案通过词向量编码模型和实体向量模型的使用,分别确定与待分类文本对应的词向量序列和实体向量序列,避免了特征工程和训练样本的构建构成,降低了文本分类模型的构建难度;通过在词向量序列和实体向量序列两种不同维度下,综合进行待分类文本的分类识别,提升了文本分类模型的语义敏感度,进而提升了待分类文本的分类结果的准确度。
实施例二
图2是本申请实施例二中的一种文本分类方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行了优化改进。
进一步地,在“根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别”之前,追加“将所述词向量序列输入词向量注意机制模型,以确定各词向量的注意权重;将所述实体向量序列输入实体向量注意机制模型,以确定各实体向量的注意权重”;相应的,将操作“根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别”细化为“根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别”,以实现对词向量和实体向量维度下的分类结果的有效均衡,最大化不同向量序列的模型贡献度。
如图2所示的一种文本分类方法,包括:
S201、获取待分类文本。
S202、将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列。
S203、将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量编码模型来确定实体向量,所述实体向量编码模型是基于实体知识图谱数据库的文本作为样本训练而成的。
S204、将所述词向量序列输入词向量注意机制模型,以确定各词向量的注意权重。
S205、将所述实体向量序列输入实体向量注意机制模型,以确定各实体向量的注意权重。
S206、根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别。
注意机制模型,也称注意力机制(Attention机制)模型,应用到自然语言数据处理中的原理是,结合上下文识别词向量序列中各词向量对得到结果的贡献程度,即作为注意权重。
在本申请实施例的一种可选实施方式中,根据词向量序列、实体向量序列以及各自的注意权重,对待分类文本进行分类识别,可以是:将所述词向量分别乘以对应的注意权重,将所述实体向量分别乘以对应的注意权重;将乘以注意权重的词向量序列和实体向量序列进行首尾拼接,形成完整向量序列;将所述完整向量序列输入分类器,将输出结果作为所述待分类文本的分类结果。
可以理解的是,上述可选方案分别通过相应的注意权重对词向量序列和实体向量序列进行注意力加权,实现了特征级融合,使得在使用分类器进行分类时,通过不同维度下词向量序列和实体向量序列的向量间的协同作用,两者相互补充,互为校正,同时对文本中的重要信息进行凸显,从而增强了文本分类结果的全面性和可靠性。
上述申请中的一个实施例通过引入词向量注意力机制模型和实体向量注意力机制模型,对词向量序列和实体向量序列分配注意权重,并根据所分配的注意权重进行文本的分类识别,从而对待分类文本在词向量和实体向量维度下的分类结果有效均衡,对文本中的重要信息进行凸显,最大化不同向量序列的模型贡献度,进一步提高了文本分类模型的语义敏感度,提升了文本分类结果的准确度。
实施例三
图3是本申请实施例三中的一种文本分类方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行了优化改进。
将“对实体向量编码模型进行模型训练”的操作进行详细说明,并将实体向量编码模型的训练过程,细化为“基于实体知识图谱数据库中的实体描述文本作为实体的训练样本;采用所述实体的训练样本,对实体向量编码模型进行训练”,以完善实体向量编码模型的模型训练机制。
如图3所示的一种文本分类方法,包括:
S301、基于实体知识图谱数据库中的实体描述文本作为实体的训练样本。
其中,训练样本可包括正例训练样本和反例训练样本。首先获取某原始语句,并识别确定其中的实体词内容。对于该实体词内容,其对应在实体知识图谱中的正确实体点,所关联的各种描述语料,就作为正例训练样本。实体知识图谱中除了正确实体点之外的各实体点的描述预料,都可以作为反例训练样本。
通过实体点的描述文本这一实体附属内容的加入,使得在模型训练的过程中引入新的特征信息,避免了模型欠拟合现象的发生。
示例性地,基于实体知识图谱数据库中的实体描述文本作为实体的训练样本,可以是:获取原始语句,基于实体知识图谱识别原始语句中的至少一个实体;获取进行实体正例标注的原始语句,作为正例训练样本。其中,正例训练样本中的实体与所述实体知识图谱中的实体匹配;获取正例实体在实体知识图谱数据库中的实体描述文本,添加为正例训练样本。
其中,原始语句可以是网页数据或搜索日志数据等,原始语句可以预先存储在电子设备本地,与电子设备关联的其他存储设备或云端中,并在需要的时候进行获取;当然还可以在设备产生网页数据或搜索日志数据等原始语句时,进行原始语句的实时抓取。
可以理解的是,由于描述文本的引入,使得正例训练样本所包含的特征信息更加全面,从而在使用该正例训练样本进行模型训练时,能够丰富描述语料的获取,且这些描述语料无需人工标注能迅速成为训练样本。由于描述语料可多方位的对该实体词进行描述,所以使得实体语义识别更加敏感。
示例性地,反例训练样本可以根据正例实体确定生成。其中,反例训练样本中的实体与实体知识图谱中的正确实体不匹配,也即反例训练样本中的反例实体为实体知识图谱中与原始语句中的实体相同,但描述文本不同的实体;和/或反例训练样本中的反例实体为实体知识图谱中除原始语句中的正确实体以外的其他实体。例如,原始语句为:刘德华演唱的歌曲是忘情水。那么“刘德华”在实体知识图谱中为刘德华(歌星)实体点,作为正例标注,此标注过程可以人工完成;如果实体知识图谱中还存在刘德华(教授)、周杰伦(歌星)等实体点,那么这些实体点就是反例,在确定了正例实体点后,其他实体点都是反例。
具体的,根据正例训练样本确定反例训练样本,可以是根据正例实体,从实体知识图谱中确定内容相同或不同的不同实体点,作为反例实体;获取反例实体在实体知识图谱数据库中的实体描述文本,作为反例训练样本。可以按照反例训练样本的需求,随机采样或设定规则采样。上述的正例训练样本和反例训练样本分别可作为实体的语境训练样本。
例如,原始语句为“羽毛球运动员张三的教练为李四”,那么,在实体知识图谱中标注出正例实体点“张三”,虽然张三可能重名,但是每个实体点在图谱中的标识是唯一的。实体点“张三”可以对应记录很多描述文本,如张三的简历、新闻等。相应的,反例实体为其他也叫“张三”,但并不是这个张三的实体点,或者也可以是其他任意实体点。
S302、采用所述实体的训练样本,对实体向量编码模型进行训练。
其中,实体向量编码模型用于将输入模型中的各实体词映射为向量形式,得到对应的实体向量。
在本申请实施例的一个可选实施方式中,对实体向量编码模型进行训练可以是将上述各可选实施方式得到的正例训练样本和反例训练样本对实体向量编码模型进行训练,从而优化实体向量编码模型中的各模型参数。实体向量编码模型中的隐层权重参数,就作为实体的向量。可以对每个实体分别训练一个对应的实体向量编码模型,由此分别确定各个实体与实体向量的映射关系,预存为实体向量模型。
在本申请实施例的另一可选实施方式中,为了进一步优化模型的输出结果,还可以基于语境训练样本和实体关系训练样本对实体向量编码模型进行两级的训练。即,采用所述实体的训练样本,对实体向量编码模型进行训练的操作具体包括:
根据每个所述实体的语境训练样本,对每个实体的一级向量模型进行训练,以确定每个所述实体的一级向量;
从所述实体知识图谱数据库中确定实体关系组,和/或,根据原始文本中的实体共现情况确定实体关系组;其中,所述实体关系组至少包括两个实体以及实体之间的关系;
根据所述实体的一级向量以及所述实体关系组,分别确定每个实体的实体关系训练样本,输入每个所述实体对应的二级模型中进行训练,以更新每个所述实体的一级向量,得到最终的实体向量;
其中,所述实体向量模型包括训练后得到的各实体与实体向量的映射关系。
下面对上述各步骤的操作进行分别说明。
对于一级模型的训练过程,具体是:
所述一级模型包括NN(神经网络)模型和相似度函数,相似度函数可以是sigmod函数。对于NN+sigmod模型,针对每个实体各自训练一个对应的模型,具体是将该实体的作为语境训练样本的正例训练样本和反例训练样本输入NN+sigmod模型,完成监督训练。训练好的NN+sigmod模型中的隐层权重参数,就是该实体的一级向量。
对于实体关系组的获取,具体如下:
举例说明,针对原始语句“羽毛球运动员张三的教练为李四”,可以在实体知识图谱中查找与实体“张三”具备边关系所对应的三元组信息确定为实体关系组,例如“张三”为三元组关系“实体1-关系-实体2”中的其中一个实体,或者“张三”为三元组关系“实体-属性-属性值”中的实体或属性值。或者可选的,“李四”和“张三”在原始语句中共同出现,且“李四”同样为实体知识图谱中的某一实体,则将包含有实体“张三”、实体“李四”以及“张三”与“李四”对应边关系的三元组信息,例如“张三-师徒-李四”以及“李四-师徒-张三”等,作为实体关系组。
对于二级模型的训练过程,具体是:
所述二级模型可以为skip-gram模型。上述获得的实体关系组反映了实体之间的上下文关系,以“刘德华、梁朝伟、主演、无间道”这样的实体关系组为例进行说明,其中包括了三个实体,分别是刘德华、梁朝伟、无间道。将三个实体中的两两实体进行组合,形成实体关系训练样本,如“刘德华、无间道”,“刘德华、梁朝伟”和“梁朝伟、无间道”等两元组的样本。针对任一一个实体的所有样本,如刘德华的所有样本,将两元组中的一个实体的一级向量,作为skip-gram模型的输入,另一个实体的一级向量作为skip-gram模型的输出,以便通过与“刘德华”具备边关系的其他实体来更新“刘德华”这个实体的一级向量,形成二级向量,作为最终“刘德华”的实体向量。
通过上述的两级训练,正例训练样本和反例训练样本通常是包括实体词的、对应各种语境的语句,所以NN模型用于对训练样本中的各实体进行语境描述,以将各实体初步映射为实体向量。skip-gram模型用于根据实体关系组中明确的实体-边-实体的对应关系进行进一步训练。实际上希望使得实体向量不仅能够反映语境,还能反映与其他紧密关联实体之间的关系。例如,当相同语境中出现的实体向量会距离较小,具备紧密边关系的实体向量之间距离也会较小。
S303、获取待分类文本。
S304、将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列。
S305、将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列。
S306、根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
上述申请中的一个实施例通过知识图谱数据库中的实体描述文本对实体向量编码模型进行训练,使得模型训练过程中引入与实体具备关联关系的描述文本,增加了训练样本的广度,进而提升了实体向量编码模型对不同实体进行编码时的合理性和有效性,为小样本情况下的实体向量编码模型的成功训练提供了可能。
实施例四
图4A是本申请实施例四中的一种文本分类方法的流程图,本申请实施例在上述各实施例的技术方案的基础上提供了一种优选实施方式。以下将结合图4B所示的实体向量模型架构示意图,以及图4C所示的文本分类模型的整体架构示意图进行详细说明。
如图4A所示的一种文本分类方法,包括:
S410、训练样本准备阶段;
S420、模型训练阶段;
S430、模型使用阶段。
其中,训练样本准备阶段,包括:
S411、获取原始语句。
S412、根据实体知识图谱中的实体词,识别原始语句中的至少一个实体词。
S413、将正例标注的原始语句,以及正例实体对应的实体描述文本作为正例训练样本。
S414、将实体知识图谱中反例实体对应的实体描述文本作为反例训练样本。
S415、从实体知识图谱中确定实体关系组;和/或原始语句中的实体共现情况,确定实体关系组。
若原始语句为“在澳网公开赛决赛上,李娜获得女单冠军”。其中,正例实体为“网球运动员李娜”。在实体知识图谱中,还包括“歌手李娜”,作为反例实体。在实体知识图谱中,还包括与“网球运动员李娜”对应的三元组信息“李娜-师徒-姜山”,“李娜-师徒-姜山”作为实体关系组。类似还可获取其他实体关系组。
其中,模型训练阶段,包括:
S421、将正例训练样本和反例训练样本作为输入样本,对实体向量模型中的NN模型进行训练。
S422、将NN模型各正例训练样本和反例训练样本的模型输出结果,即实体向量,与实体关系组转换作为输入样本,对实体向量模型中的skip-gram模型进行训练。
其中,模型使用阶段,包括:
S431、获取待分类文本。
S432、对待分类文本进行分词,将分词结果组合得到词序列[w1,w2,…,wn]。
S433、根据实体知识图谱识别待分类文本中的实体词,将各实体词组合得到实体序列[e1,e2,…,en]。
S434、将词序列输入至训练好的词向量编码模型中,得到词向量序列[h1,h2,…,hn]。
S435、将实体序列输入至训练好的实体向量模型中,得到实体向量序列[k1,k2,…,kn]。
S436、将词向量序列输入训练好的词向量注意力机制模型Uw中,确定词向量注意权重[a1,a2,…,an]。
S437、将实体向量序列输入训练好的实体向量注意力机制模型KGw中,确定实体向量注意权重[b1,b2,…,bn]。
S438、将词向量注意权重分别对词向量序列中的各词向量加权求和,得到待分类词向量序列S1。
S439、将实体向量注意权重分别对实体向量序列中的各实体向量加权求和,得到待分类实体向量序列S2。
S4310、将待分类词向量序列S1和待分类实体向量序列S2进行拼接融合,得到完整向量序列。
S4311、将完整向量序列输入至分类器softmax中,得到待分类文本的文本类别。
其中,分类器可以是二分类模型分类器,还可以是多个二分类模型组合得到的多分类模型分类器。
以“在澳网公开赛决赛上,李娜获得女单冠军”为待分类文本为例,其文本分类结果参见图4D。
对该待分类文本中的“李娜”,确定为网球运动员李娜的概率为0.95,确定为击剑运动员李娜的概率为0.6,确定为歌手李娜的概率为0.09。可以理解的是,由于击剑运动员与网球运动员均属运动员范畴,因此击剑运动员李娜的概率较歌手李娜的概率要高。
另外,若网球运动员李娜在实体知识图谱中与著名教练姜山具备师徒关系,则在进行实体向量编码时,网球运动员李娜与著名教练姜山对应的实体向量之间的向量距离较小,而歌手李娜与著名教练姜山对应的实体向量之间的向量距离较大。
上述文本分类方法可以应用到社交媒体中进行舆情监控,对受众的情绪状况加以分类;还可以应用到搜索引擎应用软件中,对用户搜索内容进行分类,满足用户的搜索需求;还可以应用到咨询信息推送应用软件中,对咨询信息条目的题目或关键语句进行分类,以及广告信息类应用软件中,对广告信息关监语句进行分类,以便进行信息的精准投放和推送。
实施例五
图5是本申请实施例五中的一种文本分类装置的结构图,本申请实施例适用于对待分类文本进行分类识别,以确定待分类文本的所属类别的情况,该装置通过软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图5所示的一种文本分类装置500,包括:待分类文本获取模块501、词向量序列确定模块502、实体向量序列确定模块503和分类识别模块504。
待分类文本获取模块501,用于获取待分类文本;
词向量序列确定模块502,用于将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列;
实体向量序列确定模块503,用于将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量模型来确定实体向量,所述实体向量模型是基于实体知识图谱数据库的文本作为样本训练而成的;
分类识别模块504,用于根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
本申请实施例通过待分类文本获取模块获取待分类文本,并通过词向量序列确定模块将待分类模型文本的词序列输入词向量编码模型,以确定词序列的词向量序列;通过实体向量序列确定模块将待分类文本的实体序列输入至基于实体图谱数据库的文本训练而成的实体向量模型,以确定实体序列对应的实体向量序列;通过分类识别模块根据词向量序列和实体向量序列,对待分类文本进行分类识别。上述技术方案通过词向量编码模型和实体向量模型的使用,分别确定与待分类文本对应的词向量序列和实体向量序列,避免了特征工程和训练样本的构建构成,降低了文本分类模型的构建难度;通过在词向量序列和实体向量序列两种不同维度下,综合进行待分类文本的分类识别,提升了文本分类模型的语义敏感度,进而提升了待分类文本的分类结果的准确度。
进一步地,该装置还包括,注意力分配模块,具体包括:
词向量注意权重确定单元,用于在根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别之前,将所述词向量序列输入词向量注意机制模型,以确定各词向量的注意权重;
实体向量注意权重确定单元,用于将所述实体向量序列输入实体向量注意机制模型,以确定各实体向量的注意权重;
相应的,分类识别模块504,包括:
分类识别单元,用于根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别。
进一步地,分类识别单元,具体用于:
将所述词向量分别乘以对应的注意权重,将所述实体向量分别乘以对应的注意权重;
将乘以注意权重的词向量序列和实体向量序列进行首尾拼接,形成完整向量序列;
将所述完整向量序列输入分类器,将输出结果作为所述待分类文本的分类结果。
进一步地,该装置还包括,实体向量模型训练模块,具体包括:
训练样本构建单元,用于基于实体知识图谱数据库中的实体描述文本作为实体的训练样本;
实体向量模型训练单元,用于采用所述实体的训练样本,对实体向量模型进行训练。
进一步地,实体向量模型训练单元具体包括:
一级向量确定单元,用于根据每个所述实体的语境训练样本,对每个实体的一级向量模型进行训练,以确定每个所述实体的一级向量;
实体关系组确定单元,用于从所述实体知识图谱数据库中确定实体关系组,和/或,根据原始文本中的实体共现情况确定实体关系组;其中,所述实体关系组至少包括两个实体以及实体之间的关系;
二次训练更新单元,用于根据所述实体的一级向量以及所述实体关系组,分别确定每个实体的实体关系训练样本,输入每个所述实体对应的二级模型中进行训练,以更新每个所述实体的一级向量,得到最终的实体向量;
其中,所述实体向量模型包括训练后得到的各实体与实体向量的映射关系。
进一步地,所述一级模型包括NN模型和相似度函数,所述二级模型为skip-gram模型。
进一步地,训练样本构建单元,具体包括:
原始语句获取子单元,用于获取原始语句;
实体识别子单元,用于基于实体知识图谱,识别所述原始语句中的至少一个实体;
正例样本确定子单元,用于获取进行实体正例标注的原始语句,作为正例训练样本,其中,正例训练样本中的实体与所述实体知识图谱中的实体匹配;
反例样本确定子单元,用于根据正例实体确定反例训练样本,其中,反例训练样本中的实体与所述实体知识图谱中的实体不匹配;
正例样本添加子单元,用于获取正例实体在实体知识图谱数据库中的实体描述文本,添加为正例训练样本,作为所述语境训练样本。
进一步地,反例样本确定子单元,具体用于:
根据正例实体,从实体知识图谱中确定内容相同或不同的不同实体点,作为反例实体;
获取反例实体在实体知识图谱数据库中的实体描述文本,作为反例训练样本,作为所述语境训练样本。
进一步地,所述词向量编码模型为word2vec模型或Glove模型,采用文本样本进行无监督训练而成。
进一步地,待分类文本获取模块501,具体用于:
获取待分类文本包括下述至少一项:
从社交媒体应用软件中,获取用户评论文本,从所述用户评论文本中提取关键语句,作为待分类文本;
从搜索引擎应用软件中,获取用户搜索语句,作为所述待分类文本;
从咨询信息推送应用软件中,获取咨询信息条目的题目或关键语句,作为所述待分类文本;
获取广告信息关键语句,作为所述待分类文本。
上述文本分类装置可执行本申请任意实施例所提供的文本分类方法,具备执行文本分类方法相应的功能模块和有益效果。
实施例六
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的执行文本分类方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本分类方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本分类方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本分类方法对应的程序指令/模块(例如,附图5所示的包括待分类文本获取模块501、词向量序列确定模块502、实体向量序列确定模块503和分类识别模块504的文本分类装置500)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本分类方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据执行文本分类方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至执行文本分类方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行文本分类方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与执行文本分类方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过获取待分类文本,并将待分类模型文本的词序列输入词向量编码模型,以确定词序列的词向量序列;将待分类文本的实体序列输入至基于实体图谱数据库的文本训练而成的实体向量模型,以确定实体序列对应的实体向量序列;根据词向量序列和实体向量序列,对待分类文本进行分类识别。上述技术方案通过词向量编码模型和实体向量模型的使用,分别确定与待分类文本对应的词向量序列和实体向量序列,避免了特征工程和训练样本的构建构成,降低了文本分类模型的构建难度;通过在词向量序列和实体向量序列两种不同维度下,综合进行待分类文本的分类识别,提升了文本分类模型的语义敏感度,进而提升了待分类文本的分类结果的准确度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (13)

1.一种文本分类方法,其特征在于,包括:
获取待分类文本;
将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列;
将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量编码模型来确定实体向量,所述实体向量编码模型是基于实体知识图谱数据库的文本作为样本训练而成的;
根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
2.根据权利要求1所述的方法,其特征在于,在根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别之前,还包括:
将所述词向量序列输入词向量注意机制模型,以确定各词向量的注意权重;
将所述实体向量序列输入实体向量注意机制模型,以确定各实体向量的注意权重;
相应的,根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别包括:
根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别。
3.根据权利要求2所述的方法,其特征在于,根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别包括:
将所述词向量分别乘以对应的注意权重,将所述实体向量分别乘以对应的注意权重;
将乘以注意权重的词向量序列和实体向量序列进行首尾拼接,形成完整向量序列;
将所述完整向量序列输入分类器,将输出结果作为所述待分类文本的分类结果。
4.根据权利要求1所述的方法,其特征在于,所述实体向量编码模型的训练过程包括:
基于实体知识图谱数据库中的实体描述文本作为实体的训练样本;
采用所述实体的训练样本,对实体向量编码模型进行训练。
5.根据权利要求4所述的方法,其特征在于,采用所述实体的训练样本,对实体向量编码模型进行训练包括:
根据每个所述实体的语境训练样本,对每个实体的一级模型进行训练,以确定每个所述实体的一级向量;
从所述实体知识图谱数据库中确定实体关系组,和/或,根据原始文本中的实体共现情况确定实体关系组;其中,所述实体关系组至少包括两个实体以及实体之间的关系;
根据所述实体的一级向量以及所述实体关系组,分别确定每个实体的实体关系训练样本,输入每个所述实体对应的二级模型中进行训练,以更新每个所述实体的一级向量,得到最终的实体向量;
其中,所述实体向量模型包括训练后得到的各实体与实体向量的映射关系。
6.根据权利要求5所述的方法,其特征在于,所述一级模型包括NN模型和相似度函数,所述二级模型为skip-gram模型。
7.根据权利要求4-6任一所述的方法,其特征在于,基于实体知识图谱数据库中的实体描述文本作为实体的训练样本包括:
获取原始语句;
基于实体知识图谱,识别所述原始语句中的至少一个实体;
获取进行实体正例标注的原始语句,作为正例训练样本,其中,正例训练样本中的实体与所述实体知识图谱中的实体匹配;
根据正例实体确定反例训练样本,其中,反例训练样本中的实体与所述实体知识图谱中的实体不匹配;
获取正例实体在实体知识图谱数据库中的实体描述文本,添加为正例训练样本,作为所述语境训练样本。
8.根据权利要求7所述的方法,其特征在于,根据正例训练样本确定反例训练样本包括:
根据正例实体,从实体知识图谱中确定内容相同或不同的不同实体点,作为反例实体;
获取反例实体在实体知识图谱数据库中的实体描述文本,作为反例训练样本,也作为所述语境训练样本。
9.根据权利要求1所述的方法,其特征在于:
所述词向量编码模型为word2vec模型或Glove模型,采用文本样本进行无监督训练而成。
10.根据权利要求1所述的方法,其特征在于,获取待分类文本包括下述至少一项:
从社交媒体应用软件中,获取用户评论文本,从所述用户评论文本中提取关键语句,作为待分类文本;
从搜索引擎应用软件中,获取用户搜索语句,作为所述待分类文本;
从咨询信息推送应用软件中,获取咨询信息条目的题目或关键语句,作为所述待分类文本;
获取广告信息关键语句,作为所述待分类文本。
11.一种文本分类装置,其特征在于,包括:
待分类文本获取模块,用于获取待分类文本;
词向量序列确定模块,用于将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列;
实体向量序列确定模块,用于将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量编码模型来确定实体向量,所述实体向量编码模型是基于实体知识图谱数据库的文本作为样本训练而成的;
分类识别模块,用于根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
12.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的一种文本分类方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的一种文本分类方法。
CN201910816831.9A 2019-08-30 2019-08-30 一种文本分类方法、装置、设备和介质 Pending CN110516073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910816831.9A CN110516073A (zh) 2019-08-30 2019-08-30 一种文本分类方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910816831.9A CN110516073A (zh) 2019-08-30 2019-08-30 一种文本分类方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN110516073A true CN110516073A (zh) 2019-11-29

Family

ID=68629603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910816831.9A Pending CN110516073A (zh) 2019-08-30 2019-08-30 一种文本分类方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN110516073A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128391A (zh) * 2019-12-24 2020-05-08 北京推想科技有限公司 一种信息处理设备、方法和存储介质
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111459959A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于更新事件集合的方法和装置
CN111506702A (zh) * 2020-03-25 2020-08-07 北京万里红科技股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
CN111797194A (zh) * 2020-05-20 2020-10-20 北京三快在线科技有限公司 文本风险检测方法、装置、电子设备及存储介质
CN111966836A (zh) * 2020-08-29 2020-11-20 深圳呗佬智能有限公司 知识图谱向量表示方法、装置、计算机设备及存储介质
CN112016601A (zh) * 2020-08-17 2020-12-01 华东师范大学 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN112182249A (zh) * 2020-10-23 2021-01-05 四川大学 针对航空安全报告的自动分类方法和装置
CN112182230A (zh) * 2020-11-27 2021-01-05 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置
CN112307752A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112328653A (zh) * 2020-10-30 2021-02-05 北京百度网讯科技有限公司 数据识别方法、装置、电子设备及存储介质
CN112632971A (zh) * 2020-12-18 2021-04-09 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与***
CN112800214A (zh) * 2021-01-29 2021-05-14 西安交通大学 基于主题共现网络和外部知识的主题识别方法、***及设备
CN113011187A (zh) * 2021-03-12 2021-06-22 平安科技(深圳)有限公司 命名实体处理方法、***及设备
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和***
CN113643241A (zh) * 2021-07-15 2021-11-12 北京迈格威科技有限公司 交互关系检测方法、交互关系检测模型训练方法及装置
CN113762998A (zh) * 2020-07-31 2021-12-07 北京沃东天骏信息技术有限公司 类别分析方法、装置、设备及存储介质
CN113963357A (zh) * 2021-12-16 2022-01-21 北京大学 基于知识图谱的敏感文本检测方法及***
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN116975297A (zh) * 2023-09-22 2023-10-31 北京利久医药科技有限公司 一种用于评估临床试验风险的方法
CN117493568A (zh) * 2023-11-09 2024-02-02 中安启成科技有限公司 一种端到端软件功能点提取与识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3144825A1 (en) * 2015-09-16 2017-03-22 Valossa Labs Oy Enhanced digital media indexing and retrieval
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108959482A (zh) * 2018-06-21 2018-12-07 北京慧闻科技发展有限公司 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
US20190138653A1 (en) * 2017-11-03 2019-05-09 Salesforce.Com, Inc. Calculating relationship strength using an activity-based distributed graph
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3144825A1 (en) * 2015-09-16 2017-03-22 Valossa Labs Oy Enhanced digital media indexing and retrieval
US20190138653A1 (en) * 2017-11-03 2019-05-09 Salesforce.Com, Inc. Calculating relationship strength using an activity-based distributed graph
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108959482A (zh) * 2018-06-21 2018-12-07 北京慧闻科技发展有限公司 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及***

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128391B (zh) * 2019-12-24 2021-01-12 推想医疗科技股份有限公司 一种信息处理设备、方法和存储介质
CN111128391A (zh) * 2019-12-24 2020-05-08 北京推想科技有限公司 一种信息处理设备、方法和存储介质
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111241234B (zh) * 2019-12-27 2023-07-18 北京百度网讯科技有限公司 文本分类方法及装置
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111145914B (zh) * 2019-12-30 2023-08-04 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
US11775761B2 (en) 2020-01-15 2023-10-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining entity focus in text
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111506702A (zh) * 2020-03-25 2020-08-07 北京万里红科技股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN111459959A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于更新事件集合的方法和装置
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
CN111797194A (zh) * 2020-05-20 2020-10-20 北京三快在线科技有限公司 文本风险检测方法、装置、电子设备及存储介质
CN111797194B (zh) * 2020-05-20 2024-04-02 北京三快在线科技有限公司 文本风险检测方法、装置、电子设备及存储介质
CN113762998A (zh) * 2020-07-31 2021-12-07 北京沃东天骏信息技术有限公司 类别分析方法、装置、设备及存储介质
CN112016601A (zh) * 2020-08-17 2020-12-01 华东师范大学 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN112016601B (zh) * 2020-08-17 2022-08-05 华东师范大学 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN111966836A (zh) * 2020-08-29 2020-11-20 深圳呗佬智能有限公司 知识图谱向量表示方法、装置、计算机设备及存储介质
CN112182249A (zh) * 2020-10-23 2021-01-05 四川大学 针对航空安全报告的自动分类方法和装置
CN112328653B (zh) * 2020-10-30 2023-07-28 北京百度网讯科技有限公司 数据识别方法、装置、电子设备及存储介质
CN112328653A (zh) * 2020-10-30 2021-02-05 北京百度网讯科技有限公司 数据识别方法、装置、电子设备及存储介质
CN112307752A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112182230A (zh) * 2020-11-27 2021-01-05 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置
CN112182230B (zh) * 2020-11-27 2021-03-16 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置
CN112632971A (zh) * 2020-12-18 2021-04-09 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与***
CN112632971B (zh) * 2020-12-18 2023-08-25 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与***
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和***
CN112800214B (zh) * 2021-01-29 2023-04-18 西安交通大学 基于主题共现网络和外部知识的主题识别方法、***及设备
CN112800214A (zh) * 2021-01-29 2021-05-14 西安交通大学 基于主题共现网络和外部知识的主题识别方法、***及设备
CN113011187A (zh) * 2021-03-12 2021-06-22 平安科技(深圳)有限公司 命名实体处理方法、***及设备
CN113643241A (zh) * 2021-07-15 2021-11-12 北京迈格威科技有限公司 交互关系检测方法、交互关系检测模型训练方法及装置
CN113963357A (zh) * 2021-12-16 2022-01-21 北京大学 基于知识图谱的敏感文本检测方法及***
CN113963357B (zh) * 2021-12-16 2022-03-11 北京大学 基于知识图谱的敏感文本检测方法及***
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114579740B (zh) * 2022-01-20 2023-12-05 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114266255B (zh) * 2022-03-01 2022-05-17 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN116975297A (zh) * 2023-09-22 2023-10-31 北京利久医药科技有限公司 一种用于评估临床试验风险的方法
CN116975297B (zh) * 2023-09-22 2023-12-01 北京利久医药科技有限公司 一种用于评估临床试验风险的方法
CN117493568A (zh) * 2023-11-09 2024-02-02 中安启成科技有限公司 一种端到端软件功能点提取与识别方法
CN117493568B (zh) * 2023-11-09 2024-04-19 中安启成科技有限公司 一种端到端软件功能点提取与识别方法

Similar Documents

Publication Publication Date Title
CN110516073A (zh) 一种文本分类方法、装置、设备和介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
Yu et al. Entity-sensitive attention and fusion network for entity-level multimodal sentiment classification
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
US9489625B2 (en) Rapid development of virtual personal assistant applications
CN108984530A (zh) 一种网络敏感内容的检测方法及检测***
US20140337814A1 (en) Rapid development of virtual personal assistant applications
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
WO2018153215A1 (zh) 一种自动生成语义相近句子样本的方法
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
WO2021129123A1 (zh) 语料数据处理方法、装置、服务器和存储介质
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
JP2021131858A (ja) エンティティワードの認識方法と装置
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
CN109710760A (zh) 短文本的聚类方法、装置、介质及电子设备
CN110517767A (zh) 辅助诊断方法、装置、电子设备及存储介质
CN111046667A (zh) 一种语句识别方法、语句识别装置及智能设备
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
Chen et al. A review and roadmap of deep learning causal discovery in different variable paradigms
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
Arafat et al. Analyzing public emotion and predicting stock market using social media
Chang et al. Multi-information preprocessing event extraction with BiLSTM-CRF attention for academic knowledge graph construction
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN114417974B (zh) 模型训练方法、信息处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication