CN112784052A - 文本分类方法、装置、设备及计算机可读存储介质 - Google Patents

文本分类方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112784052A
CN112784052A CN202110276830.7A CN202110276830A CN112784052A CN 112784052 A CN112784052 A CN 112784052A CN 202110276830 A CN202110276830 A CN 202110276830A CN 112784052 A CN112784052 A CN 112784052A
Authority
CN
China
Prior art keywords
corpus
text
abstract
target
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110276830.7A
Other languages
English (en)
Inventor
葛宏莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110276830.7A priority Critical patent/CN112784052A/zh
Publication of CN112784052A publication Critical patent/CN112784052A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本分类方法、装置、设备及计算机可读存储介质,方法包括:首先,获取目标文本的目标语料集,目标文本包括题目、摘要以及关键词,目标语料集包括摘要语料以及题目、关键词语料,之后,将目标语料集导入训练好的文本表示模型,得到目标文本的第一特征向量,第一特征向量用于反映目标文本的题目、摘要以及关键词,然后,将第一特征向量导入第一分类器,得到目标文本的分类结果,分类结果包括第一分类类别和置信度,若置信度大于或者等于第一阈值,则确定第一分类类别为目标文本的类别。本申请实施例有利于实现提高文本分类的精确度以及效率。

Description

文本分类方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及数据分类技术领域,具体涉及一种文本分类方法、装置、设备及计算机可读存储介质。
背景技术
随着数据分类技术领域的发展,为了方便用户快速获取需要的数据,往往涉及到对数据的分类,目前,随着科研人数的不断增长,学术文献也急剧增长,作为数据中不可忽略的部分,文本分类尤为重要。
现有技术中,文本分类主要的方法包括借助外部知识库,以此来挖掘语内部词项之间的关系,或者借助外部文件来扩展短文本的特征,这样可以发现大部分词项之间的语义关系,但是不在知识库里面的词项就无法进行特征扩展,因而文本分类的精确度低,且借助外部文件进行扩展,需要消耗大量的时间,导致文本分类的效率低。
发明内容
本申请实施例提供了一种文本分类方法、装置、设备及计算机可读存储介质,以期能够实现通过将获取的目标文本的摘要语料以及题目、关键词语料导入预先设置的文本表示模型,得到目标文本的第一特征向量,再将第一特征向量导入第一分类器,得到目标文本的分类结果,进而提升文本分类的精确度以及效率。
第一方面,本申请实施例提供一种文本分类方法,包括:
获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;
将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;
将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度;
若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别。
在一个可能的示例中,所述获取目标文本的目标语料集,包括:对所述目标文本的摘要进行分句处理,得到多个句子;获取所述多个句子中每两个句子之间的欧式距离;根据所述每两个句子之间的欧式距离,得到所述摘要语料。
在一个可能的示例中,所述根据所述每两个句子之间的欧式距离,得到所述摘要语料,包括:判断当前处理的两个句子之间的欧式距离是否大于预设阈值;若所述当前处理的两个句子之间的欧式距离小于或者等于预设阈值,则确定所述当前处理的两个句子为所述摘要语料中的语料;若所述当前处理的两个句子之间的欧式距离大于预设阈值,则确定所述当前处理的两个句子不为所述摘要语料中的语料。
在一个可能的示例中,所述文本表示模型为执行以下操作得到的:获取原始语料集;对所述原始语料集进行预处理;根据预处理之后的所述原始语料集得到第一语料集;基于所述第一语料集进行Word2Vec词向量训练得到第一结果;获取长文本语料集;根据预处理之后的所述长文本语料集得到第二语料集;根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料;根据所述第二语料集得到题目、关键词语料;根据所述摘要语料和所述题目、关键词语料,得到第三语料集;去掉所述第三语料集中的高频词,得到纯净语料集;将所述纯净语料集进行LDA训练,得到主题-词分布矩阵;根据所述第一结果和主题-词分布矩阵得到所述文本表示模型。
在一个可能的示例中,将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果之后,所述方法还包括:若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果;根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别。
第二方面,本申请实施例提供一种文本分类装置,所述装置包括:
获取单元,用于获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;
第一特征向量获取单元,用于将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;
分类结果获取单元,用于将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度;
文本类别确定单元,用于若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别。
在一个可能的示例中,在所述获取目标文本的目标语料集方面,所述获取单元具体用于:对所述目标文本的摘要进行分句处理,得到多个句子;获取所述多个句子中每两个句子之间的欧式距离;根据所述每两个句子之间的欧式距离,得到所述摘要语料。
在一个可能的示例中,在所述根据所述每两个句子之间的欧式距离,得到所述摘要语料方面,所述获取单元具体用于:判断当前处理的两个句子之间的欧式距离是否大于预设阈值;若所述当前处理的两个句子之间的欧式距离小于或者等于预设阈值,则确定所述当前处理的两个句子为所述摘要语料中的语料;若所述当前处理的两个句子之间的欧式距离大于预设阈值,则确定所述当前处理的两个句子不为所述摘要语料中的语料。
在一个可能的示例中,所述文本表示模型为执行以下操作得到的:获取原始语料集;对所述原始语料集进行预处理;根据预处理之后的所述原始语料集得到第一语料集;基于所述第一语料集进行Word2Vec词向量训练得到第一结果;获取长文本语料集;根据预处理之后的所述长文本语料集得到第二语料集;根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料;根据所述第二语料集得到题目、关键词语料;根据所述摘要语料和所述题目、关键词语料,得到第三语料集;去掉所述第三语料集中的高频词,得到纯净语料集;将所述纯净语料集进行LDA训练,得到主题-词分布矩阵;根据所述第一结果和主题-词分布矩阵得到所述文本表示模型。
在一个可能的示例中,所述文本类别确定单元404,还用于:将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果之后,若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果;根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子请求交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,首先,获取目标文本的目标语料集,目标文本包括题目、摘要以及关键词,目标语料集包括摘要语料以及题目、关键词语料,之后,将目标语料集导入训练好的文本表示模型,得到目标文本的第一特征向量,第一特征向量用于反映目标文本的题目、摘要以及关键词,然后,将第一特征向量导入第一分类器,得到目标文本的分类结果,分类结果包括第一分类类别和置信度,若置信度大于或者等于第一阈值,则确定第一分类类别为目标文本的类别。可见,本申请实施例通过将获取的目标文本的摘要语料以及题目、关键词语料导入预先设置的文本表示模型,得到目标文本的第一特征向量,再将第一特征向量导入第一分类器,得到目标文本的分类结果,进而提升文本分类的精确度以及效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本分类方法的流程示意图;
图2是本申请实施例提供的另一种文本分类方法的流程示意图;
图3是本申请实施例提供的一种电子设备的结构示意图;
图4是本申请实施例提供的一种文本分类装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
目前,文本分类主要的方法包括借助外部知识库,以此来挖掘语内部词项之间的关系,或者借助外部文件来扩展短文本的特征,这样可以发现大部分词项之间的语义关系,但是不在知识库里面的词项就无法进行特征扩展,因而文本分类的精确度低,且借助外部文件进行扩展,需要消耗大量的时间,导致文本分类的效率低。
针对上述问题,本申请提出一种文本分类方法,下面结合附图对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供的一种文本分类方法的流程示意图,如1图所示,本文本分类方法包括步骤S101~S104:
S101,获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料。
其中,可以基于不同的分类习惯预先设置文本的类别。可选的,文本的类别可以预先设置为新闻、论文、小说,等等,此种分类方式下,所述目标文本可以包括新闻文本、论文文本、小说文本,等等;可选的,文本的类别可以预先设置为声纹识别、指纹识别、人脸识别,等等,此种分类方式下,所述目标文本可以包括声纹识别文本、指纹识别文本、人脸识别文本,等等。可以理解的是,对文本类别的设置不作具体限定,也即对所述目标文本的类别不作具体限定,具体实现中,用户可根据需求对文本的类别进行预先设置。
可选的,所述获取目标文本的目标语料集,包括:对所述目标文本的摘要进行分句处理,得到多个句子;获取所述多个句子中每两个句子之间的欧式距离;根据所述每两个句子之间的欧式距离,得到所述摘要语料。
对所述目标文本的摘要进行分句处理,得到多个句子的实现方式可以是以标点符号作为语义分割标准,对所述目标文本的摘要进行分句处理,例如,摘要中,除第一个标点符号之前的词句为一个语料之外,两个标点符号之间的词句为一个语料。
进一步的,所述根据所述每两个句子之间的欧式距离,得到所述摘要语料,包括:判断当前处理的两个句子之间的欧式距离是否大于预设阈值;若所述当前处理的两个句子之间的欧式距离小于或者等于预设阈值,则确定所述当前处理的两个句子为所述摘要语料中的语料;若所述当前处理的两个句子之间的欧式距离大于预设阈值,则确定所述当前处理的两个句子不为所述摘要语料中的语料。
其中,用户可以根据需要设置所述预设阈值,对所述预设阈值不作具体限定。
可选的,所述获取目标文本的目标语料集,包括:确定题目为一个语料,确定多个关键词中每个关键词为一个语料。
本申请涉及的方法应用于电子设备。
S102,将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词。
可选的,所述文本表示模型为执行以下操作得到的:获取原始语料集;对所述原始语料集进行预处理;根据预处理之后的所述原始语料集得到第一语料集;基于所述第一语料集进行Word2Vec词向量训练得到第一结果;获取长文本语料集;根据预处理之后的所述长文本语料集得到第二语料集;根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料;根据所述第二语料集得到题目、关键词语料;根据所述摘要语料和所述题目、关键词语料,得到第三语料集;去掉所述第三语料集中的高频词,得到纯净语料集;将所述纯净语料集进行LDA训练,得到主题-词分布矩阵;根据所述第一结果和主题-词分布矩阵得到所述文本表示模型。
其中,所述原始语料集是指短文本语料集,所述原始文本和所述长文本的区别可以是以字数进行区分,具体的确定方法可以是,判断文本的字数是否多于预设字数;若是,则确实该文本为原始文本;若否,则确实该文本为长文本。其中,预设字数可以是一千字、一万字、两千字,等等,不作具体限定。
其中,所述获取原始语料集的实现方式可以是:确定训练样本集中的多个原始样本;将所述多个原始样本中的每个原始样本进行分词处理,得到所述原始语料集。同理,获取长文本语料集的实现方式可以是:确定训练样本集中的多个长文本样本;将所述多个长文本样本中的每个长文本样本进行分词处理,得到所述长文本语料集。
其中,预处理是指对文本语料集(包括原始语料集和长文本语料集)进行分词处理和去除停用词。
所述根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料的实现方式可以是:对所述第二语料集中的与摘要对应的多个语料中每两个语料之间的欧式距离;根据所述每两个语料之间的欧式距离,得到所述摘要语料。进一步的,所述根据所述每两个语料之间的欧式距离,得到所述摘要语料,包括:判断当前处理的两个语料之间的欧式距离是否大于预设阈值;若所述当前处理的两个语料之间的欧式距离大于预设阈值,则确定所述当前处理的两个语料为所述摘要语料中的语料;若所述当前处理的两个语料之间的欧式距离大于预设阈值,则确定所述当前处理的两个语料不为所述摘要语料中的语料。
所述根据所述第二语料集得到题目、关键词语料的实现方式可以是:确定题目为一个语料,确定多个关键词中每个关键词为一个语料。
所述第三语料集中的高频词可以是所述第三语料集中出现频率前百分之二十的词。
S103,将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度。
所述第一分类器包括但不限于svm分类器。
S104,若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别。
所述第一阈值可以是0.8,所述第一阈值还可以是0.7,所述第一阈值也可以是0.9,对所述第一阈值不作具体限定。具体实现中,用户可以根据需要设置所述第一阈值。
可以看出,本申请实施例中,首先,获取目标文本的目标语料集,目标文本包括题目、摘要以及关键词,目标语料集包括摘要语料以及题目、关键词语料,之后,将目标语料集导入训练好的文本表示模型,得到目标文本的第一特征向量,第一特征向量用于反映目标文本的题目、摘要以及关键词,然后,将第一特征向量导入第一分类器,得到目标文本的分类结果,分类结果包括第一分类类别和置信度,若置信度大于或者等于第一阈值,则确定第一分类类别为目标文本的类别。可见,本申请实施例通过将获取的目标文本的摘要语料以及题目、关键词语料导入预先设置的文本表示模型,得到目标文本的第一特征向量,再将第一特征向量导入第一分类器,得到目标文本的分类结果,进而提升文本分类的精确度以及效率。
在一个可能的示例中,将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果之后,所述方法还包括:若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果;根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别。
所述第二模型包括但不限于训练好的KNN模型,所述第三模型包括但不限于训练好的NB模型。
其中,所述根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别的实现方式可以是:若所述第一分类结果、所述第二分类结果和第三分类结果中任意两个分类结果互不相同,则确定所述第一分类结果为所述目标文本的类别;若所述第一分类结果、所述第二分类结果和第三分类结果中存在至少两个分类结果相同,则确定频率最高的分类结果所述目标文本的类别。
举例来说,若文本A的第一分类结果为人脸识别、所述第二分类结果为指纹识别和第三分类结果为静脉识别,则确定人脸识别为所述目标文本的类别;再举例来说,若文本A的第一分类结果和所述第二分类结果为静脉识别,第三分类结果为虹膜识别,则确定静脉识别为所述目标文本的类别;再举例来说,若文本A的第二分类结果和所述第三分类结果为声纹识别,第一分类结果为虹膜识别,则确定声纹识别为所述目标文本的类别;又举例来说,若文本A的第一分类结果、第二分类结果和所述第三分类结果均为声纹识别,则确定声纹识别为所述目标文本的类别。
可见,本示例中,能够在获取的目标文本的置信度小于第一阈值的情况下,将第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果,之后,将第一分类结果、第二分类结果和第三分类结果导入投票机制,得到投票结果,最终,根据投票结果确定目标文本的类别。
与图1所示出的实施例一致的,请参阅图2,图2是本申请实施例提供的另一种文本分类方法的流程示意图,如2图所示,本文本分类方法包括步骤S201~S206:
S201,获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;
S202,将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;
S203,将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度;
S204,若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别;
S205,若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果;
S206,根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别。
可以看出,本申请实施例中,首先,获取目标文本的目标语料集,目标文本包括题目、摘要以及关键词,目标语料集包括摘要语料以及题目、关键词语料,之后,将目标语料集导入训练好的文本表示模型,得到目标文本的第一特征向量,第一特征向量用于反映目标文本的题目、摘要以及关键词,然后,将第一特征向量导入第一分类器,得到目标文本的分类结果,分类结果包括第一分类类别和置信度,若置信度大于或者等于第一阈值,则确定第一分类类别为目标文本的类别。可见,本申请实施例通过将获取的目标文本的摘要语料以及题目、关键词语料导入预先设置的文本表示模型,得到目标文本的第一特征向量,再将第一特征向量导入第一分类器,得到目标文本的分类结果,进而提升文本分类的精确度以及效率。
此外,本申请实施例能够在获取的目标文本的置信度小于第一阈值的情况下,将第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果,之后,将第一分类结果、第二分类结果和第三分类结果导入投票机制,得到投票结果,最终,根据投票结果确定目标文本的类别。
与上述图1、图2所示的实施例一致的,请参阅图3,图3是本申请实施例提供的一种电子设备300的结构示意图,如图所示,所述电子设备300包括处理器310、存储器320、通信接口330以及一个或多个程序321,其中,所述一个或多个程序321被存储在上述存储器320中,并且被配置由上述处理器310执行,所述一个或多个程序321包括用于执行以下步骤的指令;
获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;
将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;
将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度;
若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别。
可以看出,本申请实施例中,首先,获取目标文本的目标语料集,目标文本包括题目、摘要以及关键词,目标语料集包括摘要语料以及题目、关键词语料,之后,将目标语料集导入训练好的文本表示模型,得到目标文本的第一特征向量,第一特征向量用于反映目标文本的题目、摘要以及关键词,然后,将第一特征向量导入第一分类器,得到目标文本的分类结果,分类结果包括第一分类类别和置信度,若置信度大于或者等于第一阈值,则确定第一分类类别为目标文本的类别。可见,本申请实施例通过将获取的目标文本的摘要语料以及题目、关键词语料导入预先设置的文本表示模型,得到目标文本的第一特征向量,再将第一特征向量导入第一分类器,得到目标文本的分类结果,进而提升文本分类的精确度以及效率。
在一个可能的示例中,在所述获取目标文本的目标语料集方面,所述一个或多个程序321中的指令具体用于:对所述目标文本的摘要进行分句处理,得到多个句子;获取所述多个句子中每两个句子之间的欧式距离;根据所述每两个句子之间的欧式距离,得到所述摘要语料。
在一个可能的示例中,在所述根据所述每两个句子之间的欧式距离,得到所述摘要语料方面,所述一个或多个程序321中的指令具体用于:判断当前处理的两个句子之间的欧式距离是否大于预设阈值;若所述当前处理的两个句子之间的欧式距离小于或者等于预设阈值,则确定所述当前处理的两个句子为所述摘要语料中的语料;若所述当前处理的两个句子之间的欧式距离大于预设阈值,则确定所述当前处理的两个句子不为所述摘要语料中的语料。
在一个可能的示例中,所述文本表示模型为执行以下操作得到的:获取原始语料集;对所述原始语料集进行预处理;根据预处理之后的所述原始语料集得到第一语料集;基于所述第一语料集进行Word2Vec词向量训练得到第一结果;获取长文本语料集;根据预处理之后的所述长文本语料集得到第二语料集;根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料;根据所述第二语料集得到题目、关键词语料;根据所述摘要语料和所述题目、关键词语料,得到第三语料集;去掉所述第三语料集中的高频词,得到纯净语料集;将所述纯净语料集进行LDA训练,得到主题-词分布矩阵;根据所述第一结果和主题-词分布矩阵得到所述文本表示模型。
在一个可能的示例中,所述一个或多个程序321还包括用于执行以下步骤的指令:将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果之后,若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果;根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件单元。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述图1、图2所示的实施例一致的,请参阅图4,图4是本申请实施例中所涉及的一种文本分类装置400的功能单元组成框图,所述文本分类装置包括:
获取单元401,用于获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;
第一特征向量获取单元402,用于将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;
分类结果获取单元403,用于将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度;
文本类别确定单元404,用于若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别。
其中,所述文本分类装置400还可以包括存储单元405,用于存储程序代码和请求。所述存储单元405可以是存储器。
可以看出,本申请实施例中,首先,获取目标文本的目标语料集,目标文本包括题目、摘要以及关键词,目标语料集包括摘要语料以及题目、关键词语料,之后,将目标语料集导入训练好的文本表示模型,得到目标文本的第一特征向量,第一特征向量用于反映目标文本的题目、摘要以及关键词,然后,将第一特征向量导入第一分类器,得到目标文本的分类结果,分类结果包括第一分类类别和置信度,若置信度大于或者等于第一阈值,则确定第一分类类别为目标文本的类别。可见,本申请实施例通过将获取的目标文本的摘要语料以及题目、关键词语料导入预先设置的文本表示模型,得到目标文本的第一特征向量,再将第一特征向量导入第一分类器,得到目标文本的分类结果,进而提升文本分类的精确度以及效率。
在一个可能的示例中,在所述获取目标文本的目标语料集方面,所述获取单元401具体用于:对所述目标文本的摘要进行分句处理,得到多个句子;获取所述多个句子中每两个句子之间的欧式距离;根据所述每两个句子之间的欧式距离,得到所述摘要语料。
在一个可能的示例中,在所述根据所述每两个句子之间的欧式距离,得到所述摘要语料方面,所述获取单元401具体用于:判断当前处理的两个句子之间的欧式距离是否大于预设阈值;若所述当前处理的两个句子之间的欧式距离小于或者等于预设阈值,则确定所述当前处理的两个句子为所述摘要语料中的语料;若所述当前处理的两个句子之间的欧式距离大于预设阈值,则确定所述当前处理的两个句子不为所述摘要语料中的语料。
在一个可能的示例中,所述文本表示模型为执行以下操作得到的:获取原始语料集;对所述原始语料集进行预处理;根据预处理之后的所述原始语料集得到第一语料集;基于所述第一语料集进行Word2Vec词向量训练得到第一结果;获取长文本语料集;根据预处理之后的所述长文本语料集得到第二语料集;根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料;根据所述第二语料集得到题目、关键词语料;根据所述摘要语料和所述题目、关键词语料,得到第三语料集;去掉所述第三语料集中的高频词,得到纯净语料集;将所述纯净语料集进行LDA训练,得到主题-词分布矩阵;根据所述第一结果和主题-词分布矩阵得到所述文本表示模型。
在一个可能的示例中,所述文本类别确定单元404,还用于:将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果之后,若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果;根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别。
可以理解的是,由于文本分类方法实施例与文本分类装置实施例为相同技术构思的不同呈现形式,因此,本申请中文本分类方法实施例部分的内容应同步适配于文本分类装置实施例部分,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子请求交换的计算机程序,该计算机程序被计算机执行时实现上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;
将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;
将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度;
若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本的目标语料集,包括:
对所述目标文本的摘要进行分句处理,得到多个句子;
获取所述多个句子中每两个句子之间的欧式距离;
根据所述每两个句子之间的欧式距离,得到所述摘要语料。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每两个句子之间的欧式距离,得到所述摘要语料,包括:
判断当前处理的两个句子之间的欧式距离是否大于预设阈值;
若所述当前处理的两个句子之间的欧式距离小于或者等于预设阈值,则确定所述当前处理的两个句子为所述摘要语料中的语料;
若所述当前处理的两个句子之间的欧式距离大于预设阈值,则确定所述当前处理的两个句子不为所述摘要语料中的语料。
4.根据权利要求1所述的方法,其特征在于,所述文本表示模型为执行以下操作得到的:
获取原始语料集;
对所述原始语料集进行预处理;
根据预处理之后的所述原始语料集得到第一语料集;
基于所述第一语料集进行Word2Vec词向量训练得到第一结果;
获取长文本语料集;
根据预处理之后的所述长文本语料集得到第二语料集;
根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料;
根据所述第二语料集得到题目、关键词语料;
根据所述摘要语料和所述题目、关键词语料,得到第三语料集;
去掉所述第三语料集中的高频词,得到纯净语料集;
将所述纯净语料集进行LDA训练,得到主题-词分布矩阵;
根据所述第一结果和主题-词分布矩阵得到所述文本表示模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果之后,所述方法还包括:
若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果;
根据所述第一分类结果、所述第二分类结果和第三分类结果得到所述目标文本的类别。
6.一种文本分类装置,其特征在于,所述装置包括:
获取单元,用于获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;
第一特征向量获取单元,用于将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;
分类结果获取单元,用于将所述第一特征向量导入第一分类器,得到所述目标文本的分类结果,所述分类结果包括第一分类类别和置信度;
文本类别确定单元,用于若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别。
7.根据权利要求6所述的装置,其特征在于,在所述获取目标文本的目标语料集方面,所述获取单元具体用于:
对所述目标文本的摘要进行分句处理,得到多个句子;
获取所述多个句子中每两个句子之间的欧式距离;
根据所述每两个句子之间的欧式距离,得到所述摘要语料。
8.根据权利要求7所述的装置,其特征在于,在所述根据所述每两个句子之间的欧式距离,得到所述摘要语料方面,所述获取单元具体用于:
判断当前处理的两个句子之间的欧式距离是否大于预设阈值;
若所述当前处理的两个句子之间的欧式距离小于或者等于预设阈值,则确定所述当前处理的两个句子为所述摘要语料中的语料;
若所述当前处理的两个句子之间的欧式距离大于预设阈值,则确定所述当前处理的两个句子不为所述摘要语料中的语料。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-5任一方法中的步骤的指令。
10.一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子请求交换的计算机程序,其中,上述计算机程序使得计算机执行如权利要求1-5任一方法中所描述的部分或全部步骤。
CN202110276830.7A 2021-03-15 2021-03-15 文本分类方法、装置、设备及计算机可读存储介质 Pending CN112784052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110276830.7A CN112784052A (zh) 2021-03-15 2021-03-15 文本分类方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110276830.7A CN112784052A (zh) 2021-03-15 2021-03-15 文本分类方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112784052A true CN112784052A (zh) 2021-05-11

Family

ID=75762640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110276830.7A Pending CN112784052A (zh) 2021-03-15 2021-03-15 文本分类方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112784052A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220374116A1 (en) * 2021-05-24 2022-11-24 Clarifai, Inc. Systems and methods for improved annotation workflows

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337266A1 (en) * 2016-05-19 2017-11-23 Conduent Business Services, Llc Method and system for data processing for text classification of a target domain
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN109783794A (zh) * 2017-11-14 2019-05-21 北大方正集团有限公司 文本分类方法及装置
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN110019782A (zh) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337266A1 (en) * 2016-05-19 2017-11-23 Conduent Business Services, Llc Method and system for data processing for text classification of a target domain
CN110019782A (zh) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN109783794A (zh) * 2017-11-14 2019-05-21 北大方正集团有限公司 文本分类方法及装置
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220374116A1 (en) * 2021-05-24 2022-11-24 Clarifai, Inc. Systems and methods for improved annotation workflows

Similar Documents

Publication Publication Date Title
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106156204B (zh) 文本标签的提取方法和装置
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US9483460B2 (en) Automated formation of specialized dictionaries
JP3682529B2 (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
WO2009026850A1 (en) Domain dictionary creation
WO2023029356A1 (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN109255022B (zh) 一种用于网络文章的摘要自动提取方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN111507114B (zh) 基于反向翻译的口语文本增强方法及***
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN115017870A (zh) 一种闭环的话术扩写方法、装置、计算机设备及存储介质
CN114722837A (zh) 一种多轮对话意图识别方法、装置及计算机可读存储介质
CN111199151A (zh) 数据处理方法、及数据处理装置
CN112541109B (zh) 答案摘要抽取方法及装置、电子设备、可读介质、产品
CN112784052A (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN113743090A (zh) 一种关键词提取方法及装置
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN111444712A (zh) 一种关键词提取方法、终端、计算机可读存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination