发明内容
基于此,有必要针对上述技术问题,提供一种能够对短文本进行主题分类的文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,提高了短文本分类的准确度。
一种文本分类方法,所述方法包括:
获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到;
计算所述待分类文本对应的待分类文本特征向量;
获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的;
计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量;
获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。
在其中一个实施例中,获取目标主题特征词汇表之前,还包括:
获取目标领域叙词表,确定领域本体的应用目的;
基于所述领域本体的应用目的,将所述目标领域叙词表中的叙词转换成领域本体中的概念,得到目标概念;
基于所述目标领域叙词表中叙词间的层次关系,确定所述目标概念间的等级关系,得到目标等级关系;
基于所述目标领域叙词表中叙词的限义词和注释,为所述目标概念添加属性,得到目标属性;
基于所述目标领域叙词表中叙词之间的词间关系,为所述目标概念添加词间关系,得到目标词间关系;
基于所述目标概念、目标等级关系、目标属性和目标词间关系构成目标概念模型;
基于所述目标概念模型创建所述目标概念对应的实例,得到目标实例;
基于所述目标概念模型和目标实例构成目标领域本体。
在其中一个实施例中,获取目标主题特征词汇表之前,还包括:
获取领域本体的应用范围,基于所述应用范围得到领域本体对应的术语清单,基于所述术语清单建立领域本体的概念结构,得到领域本体的目标概念结构;
基于所述目标概念结构定义领域本体的概念属性和设定类约束,得到领域本体的目标概念属性和目标类约束,基于所述目标概念结构、目标概念属性和目标类约束组成领域本体的目标概念模型;
基于所述目标概念模型创建领域本体中各个类对应的实例,得到领域本体的目标实例,基于所述目标概念模型和目标实例构成目标领域本体。
在其中一个实施例中,基于所述目标概念模型和目标实例构成目标领域本体之后,还包括:
获取历史文本的数据量;
当所述数据量大于第一阈值时,将所述历史文本的三分之二文本作为训练集,历史文本的三分之一文本作为测试集,得到训练集和测试集;
当所述数据量小于或等于第一阈值,且大于第二阈值时,先将所述历史文本划分为预设数量个大小相同的样本集,将各个样本集依次作为测试集,将除测试集以外的各个样本集的集合作为训练集,得到训练集和测试集;
当所述数据量小于第二阈值时,重复随机地从所述历史文本中抽取与历史文本大小一致的样本集作为训练集,所述历史文本中未出现在训练集中的数据作为测试集,得到训练集和测试集,所述第一阈值大于所述第二阈值;
所述测试集用于测试待分类文本对应的目标主题的准确度。
在其中一个实施例中,得到训练集和测试集之后,还包括:
将所述训练集进行分词和去停用词的预处理操作,得到目标历史文本;
计算所述目标历史文本中各个词的权值,基于所述权值对目标历史文本进行文本表示;
依次从所述目标历史文本对应的候选主题中选取一个主题,计算选取主题中各个词对应的总权值和权值平均值,基于总权值按从大到小的顺序对各个词进行排序,依次选取预设数量个排序后的词作为所述选取主题的特征词,并将各个所述特征词对应的权值平均值作为特征词对应的权值,基于各个特征词和各个特征词对应的权值得到所述选取主题的主题特征向量,直到所述目标历史文本的每一个候选主题都得到对应的主题特征向量,将各个所述主题特征向量作为第一主题特征向量;
对各个第一主题特征向量进行特征过滤处理,得到各个候选主题对应的第二主题特征向量,基于第二主题特征向量得到所述主题特征词汇表,所述主题特征词汇表中存储了目标历史文本中各个候选主题和候选主题对应的特征词集合,所述特征词集合包括特征词和特征词对应的权值。
在其中一个实施例中,基于第二主题特征向量得到所述主题特征词汇表之后,还包括:
获取阈值,解析所述目标领域本体,分析得到目标领域本体中具有负面信息的实例词;
依次从所述主题特征词汇表的候选主题中选取一个主题,计算选取主题对应的特征词集合中各个特征词与各个所述实例词两两之间的相似度,基于各个所述相似度选取得到各个实例词对应的最大相似度;
基于各个实例词对应的最大相似度与阈值的对比结果,将各个实例词中最大相似度大于阈值的实例词作为特征相关词,并将各个所述特征相关词加入到所述选取主题对应的特征词集合中,得到更新的特征词集合,各个所述特征相关词的权值等于对应的实例词所对应的特征词的权值,基于所述更新的特征词集合得到选取主题对应的第一目标主题特征向量;
当所述主题特征词汇表中的每一个候选主题都被选取过时,得到各个候选主题对应的第一目标主题特征向量,将各个所述第一目标主题特征向量进行特征过滤处理,得到各个候选主题对应的目标主题特征向量,基于各个目标主题特征向量得到目标主题特征词汇表。
在其中一个实施例中,获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题之后,还包括:
获取目标对象对应的主题依据;
基于所述目标对象对应的主题依据,获取目标初始历史文本,所述目标初始历史文本对应的目标主题与所述主题依据一致,将所述目标初始历史文本送到目标对象对应的终端。
一种文本分类装置,所述装置包括:
数据获取模块,用于获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于提供扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到;
待分类文本特征向量生成模块,用于计算所述待分类文本对应的待分类文本特征向量;
主题特征向量获取模块,用于获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的;
目标主题特征向量确定模块,用于计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量;
目标主题确定模块,用于获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。
一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到;
计算所述待分类文本对应的待分类文本特征向量;
获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的;
计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量;
获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。
一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到;
计算所述待分类文本对应的待分类文本特征向量;
获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的;
计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量;
获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。
一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到;
计算所述待分类文本对应的待分类文本特征向量;
获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的;
计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量;
获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。
上述文本分类方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到,计算所述待分类文本对应的待分类文本特征向量,获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的,计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量,获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。通过构建目标领域本体,基于目标领域本体和训练集得到目标主题特征词汇表,计算得到待分类文本对应的待分类文本主题特征向量,基于待分类文本主题特征向量和目标主题特征词汇表中各个候选主题对应的主题特征向量,计算得到待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取待分类文本对应的目标主题向量,基于目标主题向量得到待分类文本对应的目标主题,扩充了文本语义特征,从而提高了短文本分类的准确度。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文本分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102用于获取并展示目标初始历史文本,所述目标初始历史文本对应的目标主题与目标对象对应的主题依据一致。服务器104用于获取待分类文本和目标主题特征词汇表,计算待分类文本对应的待分类文本特征向量,基于所述待分类文本特征向量和目标主题特征词汇表各个候选主题对应的主题特征向量得到目标主题特征向量,将目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S200,获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到。
其中,待分类文本指满足预设条件的短文本。目标主题特征词汇表指包含有主题以及各个主题对应的特征词与各个特征词对应的权值的词汇表。特征词集合指能够表达相同主题的词汇的集合,其中每个词汇都有其对应的权值。目标领域本体指能够用于描述目标领域中的概念和概念之间的关系,提供目标领域中概念的词表以及概念间的关系,或在目标领域里占主导地位的理论,其中所述目标领域本体考虑中英文情况。主题特征词汇表指还没有应用目标领域本体对各个主题的特征词进行扩展的词汇表。特征词指能够表达某一类主题的词。训练集指从历史文本中分配得到的部分历史文本。历史文本指收集存储在数据库中的满足预设条件的短文本。
具体地,在获取目标主题特征之前还需要构建目标领域本体,目标领域本体的构建可以采用两种方法:从无到有的构建目标领域本体以及基于原有叙词表构建目标领域本体。此外,还需要通过训练集获取主题特征词汇表,然后通过目标领域本体提供实例词,用所述实例词与主题特征词汇表中各个候选主题对应的特征词进行相似度的计算,基于相似度分类实例词对应的主题并将实例词作为特征相关词加入到对应的主题中,从而扩展了主题特征词汇表,得到目标主题特征词汇表。
步骤S202,计算所述待分类文本对应的待分类文本特征向量。
其中,待分类文本特征向量指将待分类文本表示成数学向量的形式,所述待分类文本特征向量有待分类文本对应的权值。
具体地,要计算待分类文本特征向量与各个候选主题对应的主题特征向量之间的相似度,需要计算待分类文本的权值以及采用向量空间模型对待分类文本进行文本表示。
步骤S202,获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的。
其中,候选主题指目标主题特征词汇表中包含有的主题。主题特征向量指将各个主题表示成数学向量的形式,所述主题特征向量包含有对应的各个特征词和特征词对应的权值。
具体地,计算待分类文本特征向量与各个候选主题对应的主题特征向量之间的相似度之前,需要先获取计算所需要的数据,所述主题特征向量主要为后续进程做数据准备。
步骤S204,计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量。
其中,相似度指用来综合评定待分类文本与各个主题之间意义相近程度的一种度量。目标主题特征向量指与待分类文本意义最相近的主题所对应的主题特征向量。
具体地,计算所述待分类文本特征向量与各个主题特征向量之间的相似度,选取各个所述相似度中最大相似度对应的主题特征向量作为所述待分类文本对应的目标主题特征向量。其中相似度计算的方法采用HowNet提供的词语相似度方法,所述HowNet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,具体计算公式如公式(1)所示,其中Ci表示主题i的特征向量,Tj表示投诉文档j的特征向量,wik是主题特征向量里的特征词权值,vjk是待分类文本特征向量里的权值。
步骤S206,获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。
其中,目标主题指与所述待分类文本意义最相近的主题,目标主题可以用于获取待分类文本中的各种语义信息,也可以基于目标主题将对应的历史文本发送到终端。
上述文本分类方法中,通过获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到,计算所述待分类文本对应的待分类文本特征向量,获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的,计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量,获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。通过构建目标领域本体,基于目标领域本体和训练集得到目标主题特征词汇表,计算得到待分类文本对应的待分类文本主题特征向量,基于待分类文本主题特征向量和目标主题特征词汇表中各个候选主题对应的主题特征向量,计算得到待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取待分类文本对应的目标主题向量,基于目标主题向量得到待分类文本对应的目标主题,扩充了文本语义特征,从而提高了短文本分类的准确度。
在一个实施例中,如图3所示,步骤S200之前,还包括:
步骤S300,获取目标领域叙词表,确定领域本体的应用目的。
其中,所述叙词表指一种控制词汇的工具,其用于收集可以表示某特定学科领域的词汇,词汇以特定的结构排列,以显示出词汇之间的关系。领域本体指能够用于描述特定领域中的概念和概念之间的关系,提供某个专业学科领域中概念的词表以及概念间的关系,或在对应领域里占主导地位的理论。应用目的指领域本体应用的范围与场景,需要达到的目标。
步骤S302,基于所述领域本体的应用目的,将所述目标领域叙词表中的叙词转换成领域本体中的概念,得到目标概念。
其中,目标概念指词的概念是与目标领域相关的概念。
具体地,原有的目标领域的叙词表中可能会存在不符合目标领域相关概念的叙词,为了确保构建出来的领域本体所包含的概念都符合目标领域本体的应用范围,需要将目标领域叙词表中的叙词转换成领域本体中的概念。
步骤S304,基于所述目标领域叙词表中叙词间的层次关系,确定所述目标概念间的等级关系,得到目标等级关系。
其中,层次关系指叙词概念的广泛程度,类似包含与不包含关系。等级关系指目标概念之间根据概念的广泛程度划分的关系。目标等级关系指目标领域对应的目标概念所存在的等级关系。
具体地,确定并改进叙词表中与目标领域相关的重要概念,并找到概念之间的关系也是构建目标领域本体重要的步骤之一,所述目标概念与目标概念之间的等级关系是理清概念结构的依据。
步骤S306,基于所述目标领域叙词表中叙词的限义词和注释,为所述目标概念添加属性,得到目标属性。
其中,限义词指能够起到特指、类指以及表示确定数量和非确定数量等限定作用的词。注释指关于词语解释或扩充的一些信息。目标属性指能够描述目标领域本体目标概念之间内在结构的属性。
具体地,描述目标领域,仅仅描述目标领域的概念是不够的,还需要描述概念的内在结构,而目标属性即用来描述目标领域概念的内在结构的,因此为目标概念添加概念属性的。
步骤S308,基于所述目标领域叙词表中叙词之间的词间关系,为所述目标概念添加词间关系,得到目标词间关系。
其中,词间关系指叙词之间存在的关系。目标词间关系指根据目标领域分析得到的叙词表中相关叙词之间的关系。
具体地,为了更好的描述目标领域,还需要分析词语之间的关系,找到词(或者是词语所对应的类)之间的约束关系,以更好的构建目标领域本体。
步骤S310,基于所述目标概念、目标等级关系、目标属性和目标词间关系构成目标概念模型。
其中,目标概念模型指还没有添加实例的初始领域本体。
步骤S312,基于所述目标概念模型创建所述目标概念对应的实例,得到目标实例。
其中,目标实例指基于目标领域应用场景下,为各个叙词创建的能够最精确表达的话语。
步骤S314,基于所述目标概念模型和目标实例构成目标领域本体。
具体地,基于叙词表构建领域本体的流程图如图4所示。
在本实施例中,通过目标领域原有的叙词表构建目标领域,很大程度上减轻了构建目标领域本体的工作量,不再需要重新去收集目标领域的重要术语。此外叙词表对理清重要术语之间的关系有较大帮助,从而提高了目标领域本体的有用性。
在一个实施例中,如图5所示,步骤S200之前,还包括:
步骤S500,获取领域本体的应用范围,基于所述应用范围得到领域本体对应的术语清单,基于所述术语清单建立领域本体的概念结构,得到领域本体的目标概念结构。
其中,应用范围指所要构建的目标领域本体所能够使用的领域范围。术语清单指与目标领域本体有关系的词语所列出的清单。概念结构指通过自顶向下的方法,根据术语概念的广泛程度给各个术语进行类别的细分,从而构建得到的关系结构。目标概念结构指通过自顶向下的方法,根据目标领域中各个术语的概念的广泛程度给目标领域中的各个术语进行类别细分,从而构建得到的关系结构。
具体地,在构建目标领域本体之前,需要先确定目标领域本体的应用范围,然后根据目标领域本体的应用范围收集与目标领域本体相关的重要术语,本申请构建的是关于信贷方面的信贷本体,因此收集的术语主要是侧重于信贷投诉文本相关的术语,这些术语主要从与信贷相关的文献和专利、国家和机构的标准文件、咨询金融专家、相关网站和投诉等渠道收集。然后根据收集到的重要术语,列出对应的术语清单,分析术语清单以理清术语之间的关系,去除具有与目标领域无关概念的术语,对术语之间确定好的概念关系进行形式编码,然后采用自顶向下的方法,从最泛化的概念开始,对各个术语再进行类别的细分,从而构建得到目标概念结构。
步骤S502,基于所述目标概念结构定义领域本体的概念属性和设定类约束,得到领域本体的目标概念属性和目标类约束,基于所述目标概念结构、目标概念属性和目标类约束组成领域本体的目标概念模型。
其中,所述概念属性指能够描述领域本体概念之间的内在结构的属性,其中属性分为数据属性和对象属性,数据属性指数据对应的特性,对象属性指当前对象可以区别于其他对象的特征。类约束指对类进行属性的约束。目标概念属性指能够描述目标领域本体概念之间的内在结构的属性。目标类约束指对目标领域本体中的各个类进行属性的约束。目标概念模型指还没有添加实例的初始领域本体。
具体地,目标领域本体的属性可以描述概念之间的内在结构,因为要创建目标领域,需要先对目标概念定义对应的属性,而在父概念中定义了通用的属性后,子概念既可以继承父概念的所有属性,也可以定义父概念特有的的属性,也就是定义父概念的私有属性,通过定义的属性对类设定约束条件,也就是对某些类设定必须具备某些属性作为这些类的约束条件,并且对应的子类也将继承对应父类的约束条件,从而得到目标领域本体对应的目标概念属性和目标类约束,基于得到的目标概念、目标类约束和目标概念结构就构成了初步的目标领域本体,也就是目标概念结构。
步骤S504,基于所述目标概念模型创建领域本体中各个类对应的实例,得到领域本体的目标实例,基于所述目标概念模型和目标实例构成目标领域本体。
其中,实例指根据具体的应用场景,为每个类创建的一种表达话语,这些话语能够表达出最精确的概念。目标实例指基于目标领域应用场景下,为目标领域中各个类创建的能够最精确表达的话语。
具体地,类与实例之间的关联可能具有的方式也是领域本体构成的元素之一,因为还需要根据具体的应用创建各个类对应的实例,以获得能够最精准表达的实例,从而根据实例和目标概念模型构建目标领域本体。
在本实施例中,通过自主收集目标领域的重要术语,能够较好的确保收集到的术语与目标领域应用范围的相关性。目标领域本体构建过程所用到的东西都是从无到有,使得创建得到的目标领域本体具有一定的新颖性。
在一个实施例中,如图6所示,步骤S314或S504之后,还包括:
步骤S600,获取历史文本的数据量。
步骤S602,当所述数据量大于第一阈值时,将所述历史文本的三分之二文本作为训练集,历史文本的三分之一文本作为测试集,得到训练集和测试集。
其中,第一阈值指判定历史文本为大型数据的界限。
步骤S604,当所述数据量小于或等于第一阈值,且大于第二阈值时,先将所述历史文本划分为预设数量个大小相同的样本集,将各个样本集依次作为测试集,将除测试集以外的各个样本集的集合作为训练集,得到训练集和测试集。
其中,第二阈值指判定历史文本为为小型数据的界限,当在第一阈值与第二阈值之间时,将历史文本数据划分为中型数据。预设数量指人为规定的数目。
步骤S606,当所述数据量小于第二阈值时,重复随机地从所述历史文本中抽取与历史文本大小一致的样本集作为训练集,所述历史文本中未出现在训练集中的数据作为测试集,得到训练集和测试集,所述第一阈值大于所述第二阈值。
其中,样本集指包含从历史文本中重复随机抽取的样本的集合。
步骤S608,所述测试集用于测试待分类文本对应的目标主题的准确度。
在本实施例中,通过根据历史文本数据量大小的情况来规定训练集和测试集划分的方法,可以避免因为历史文本过多或过少而对分类结果造成较大的影响,有利于提高文本分类的准确率。
在一个实施例中,如图7所示,步骤S602或S604或S606之后,还包括:
步骤S700,将所述训练集进行分词和去停用词的预处理操作,得到目标历史文本。
其中,分词指将句子中词语扫描出来,对长词进行再切分的相关操作。停用词指在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉的某些字或词。去停用词指在对历史文本进行分词操作之后,去除其中包含有的停用词的操作。目标历史文本指对训练集进行分词和去停用词操作之后得到的文本。
具体地,采用中科院研发的分词工具ICTCLAS进行分词操作,分词之后,根据网络上公认的中文停词表,去除分词之后的训练集中出现频率很高但实际意义不大的词,其中所述词主要有副词、虚词和语气词。
步骤S702,计算所述目标历史文本中各个词的权值,基于所述权值对目标历史文本进行文本表示。
其中,权值指每个词在某个主题中每篇文档的TF-IDF值。文本表示指将文本中的各个词表示成数学向量的形式的操作。
具体地,使用TF-IDF方法进行计算,TF-IDF计算公式如公式(2)所示,其中wij表示第i篇文本第j个词的权值,tfij表示第i1篇文本第j个词在第i篇文本中出现的次数,dfij表示选取主题对应的所有文本中出现第i篇文本第j个词的文本数,N表示选取主题对应的目标历史文本中的文本总数。通过TF-IDF方法计算每个词的权值之后,采用向量空间模型表示目标历史文本,将目标历史文本中的每个词表示成数学向量的形式。此外,考虑到文本标题中的词比文本正文中的词更能凸显文本主题,在计算权重时,文本正文中的词按词在正文中出现的次数正常计数,而标题中的词按出现次数的λ(λ是人为设定的参数)倍进行计算,其中λ值的确定可以先适当的加大标题中词语的权值,然后分析当前λ值下在一部分数据集中的分类效果,根据分类效果再调节λ的值。
步骤S704,依次从所述目标历史文本对应的候选主题中选取一个主题,计算选取主题中各个词对应的总权值和权值平均值,基于总权值按从大到小的顺序对各个词进行排序,依次选取预设数量个排序后的词作为所述选取主题的特征词,并将各个所述特征词对应的权值平均值作为特征词对应的权值,基于各个特征词和各个特征词对应的权值得到所述选取主题的主题特征向量,直到所述目标历史文本的每一个候选主题都得到对应的主题特征向量,将各个所述主题特征向量作为第一主题特征向量。
其中,总权值指选取主题对应的目标历史文本中,每个词在每篇文档的权值的总和。权值平均值指选取主题对应的目标历史文本中,每个词在每篇文档的权值的平均值。第一主题特征向量指每个主题特征向量中,存在着许多与主题无关的特征项,并且还没对存在的特征项进行过滤处理的主题特征向量。
具体地,构造主题特征向量需要计算每个词对应的权值,基于各个词的权值筛选出各个主题对应的特征词,其中根据各个词的总权值来决定哪些词作为特征词,并且将特征词在每篇文档的权值的平均值作为特征词对应的权值。基于特征词和特征词的权值构造主题特征向量,但是所述主题特征向量还存在许多与主题无关的特征项,所以还不能作为所述主题特征词汇表中各个候选主题对应的主题特征向量,还需要对第一主题特征向量进行特征过滤处理。
步骤S706,对各个第一主题特征向量进行特征过滤处理,得到各个候选主题对应的第二主题特征向量,基于第二主题特征向量得到所述主题特征词汇表,所述主题特征词汇表中存储了目标历史文本中各个候选主题和候选主题对应的特征词集合,所述特征词集合包括特征词和特征词对应的权值。
其中,第二主题特征向量指对第一主题特征向量进行特征过滤之后得到的主题特征向量。
具体地,为了避免第一主题特征向量中存在的许多无关特征项对分类结果的影响,需要对第一主题特征向量进行特征过滤处理。对于构造得到的第一主题特征向量,将在当前选取主题的第一主题特征向量中出现也在其它任意三个候选主题对应的第一主题特征向量中出现的特征词舍弃,每个第一主题特征向量的特征项与其它任意一个第一主题特征向量中的特征项是独立不重叠的,从而保证了第二主题特征向量之间特征项的相互独立,也达到了特征降维的目的。特征项包括特征词和特征词对应的权值。
在本实施例中,先对训练集进行分词和去停用词的预处理操作得到目标历史文本,然后计算目标历史文本中的每个词的权值并进行文本表示,基于各个词的权值筛选出特征词,最后基于特征词和特征词的权值构造主题特征向量,得到主题特征词汇表,为后续目标主题特征词汇表的构建奠定了很重要的数据基础,有利于短文本分类准确率的提升。
在一个实施例中,如图8所示,步骤S706之后,还包括:
步骤S800,获取阈值,解析所述目标领域本体,分析得到目标领域本体中具有负面信息的实例词。
其中,阈值指判定词语之间相似时对应相似度的最低值。实例词指目标领域本体的实例中的词。
具体地,主题特征词汇表的扩展需要借助目标领域本体提供特征相关词,由于本方法针对的是投诉的短文本,所以选取的是具有负面信息的实例词。
步骤S802,依次从所述主题特征词汇表的候选主题中选取一个主题,计算选取主题对应的特征词集合中各个特征词与各个所述实例词两两之间的相似度,基于各个所述相似度选取得到各个实例词对应的最大相似度。
具体地,每个实例词都要与每个特征词进行相似度的计算,其中相似度计算的方法采用HowNet提供的词语相似度方法,所述相似度的对比结果用于出与特征词相似的实例词作为特征相关词。
步骤S804,基于各个实例词对应的最大相似度与阈值的对比结果,将各个实例词中最大相似度大于阈值的实例词作为特征相关词,并将各个所述特征相关词加入到所述选取主题对应的特征词集合中,得到更新的特征词集合,各个所述特征相关词的权值等于对应的实例词所对应的特征词的权值,基于所述更新的特征词集合得到选取主题对应的第一目标主题特征向量。
其中,特征相关词指与选取主题中某个特征词最相似的实例词。第一目标主题特征向量指根据各个主题更新对应的特征词和特征词的权值之后计算得到的主题特征向量。
具体地,根据阈值的界定,选取出与原有各个主题中的特征词相似的实例词以扩展各个主题对应的特征词集合,通过扩展主题特征词汇表,使得对短文本的分类更加准确高效。
步骤S806,当所述主题特征词汇表中的每一个候选主题都被选取过时,得到各个候选主题对应的第一目标主题特征向量,将各个所述第一目标主题特征向量进行特征过滤处理,得到各个候选主题对应的目标主题特征向量,基于各个目标主题特征向量得到目标主题特征词汇表。
其中,目标主题特征向量指对第一目标主题特征向量进行特征过滤之后得到的主题特征向量,该目标主题特征向量用于计算与待分类文本特征向量的相似度。
具体地,同样也是为了避免第一目标主题特征向量中存在的许多无关特征项对分类结果产生影响,从而需要对第一目标主题特征向量进行特征过滤处理。也是将在第一目标主题特征向量中出现也在其它任意三个第一目标主题特征向量中出现的特征词舍弃,从而保证目标主题特征向量之间特征项的相互独立,以提高文本分类的准确率。
在本实施例中,通过目标领域本体提供扩展主题特征词汇表的实例词,然后基于HowNet提供的词语相似度方法筛选出实例词中满足预设条件的实例词作为特征相关词,并将特征相关词加入到对应的主题特征向量中,从而得到目标主题特征词汇表,这使得相似度的计算更为准确,从而提高了短文本分类的准确度。
在一个实施例中,如图9所示,步骤S206之后,还包括:
步骤S900,获取目标对象对应的主题依据;
其中,主题依据指目标对象需要的文本对应的主题。
步骤S902,基于所述目标对象对应的主题依据,获取目标初始历史文本,所述目标初始历史文本对应的目标主题与所述主题依据一致,将所述目标初始历史文本送到目标对象对应的终端。
其中,目标初始历史文本指存储于数据库中未对文本进行任何处理的文本。
具体地,数据库中存储有对历史文本进行主题分类的数据信息,基于所述主题依据可以由服务器查找与主题依据一致的目标主题,然后将目标主题对应的历史文本发送到终端。
在本实施例中,通过主题依据获取与主题依据一致的目标主题所对应的历史文本,可以让目标对象更快速便捷的获取其想要了解的信息,从而提高了目标对象的体验感。
在一个实施例中,除了应用本申请方法中提到的HowNet通用本体外,还可以采用WordNet、Euro WordNet、CoreNet通用本体,这些通用本体中的语义关系被用作一个桥梁,提供与人脑中的知识相同的功能,将类和未标记文档链接起来,从而实现自动文本分类。
在一个实施例中,通过与领域本体的应用领域相关的文献和专利、国家和机构的标准文件、咨询金融专家、相关网站的留言和投诉等渠道收集构建领域本体所需要的重要术语,根据这些重要术语列出术语清单,分析并理清术语之间的关系,构建领域本体的概念结构,此外定义领域本体的概念属性并设定类约束,基于概念结构、概念属性和类约束创建各个类对应的实例,最终构建得到目标领域本体,即信贷领域本体。然后将商家收集的投诉文本作为历史文本,对历史文本进行分词和去停用词的预处理,得到目标历史文本,根据历史文本训练构建得到与信贷方面相关的主题特征词汇表,基于主题特征词汇表和信贷领域本体得到目标领域词汇表,其中信贷领域本体为扩展主题特征词汇表提供了特征相关词,当得到新文本并需要知道所述新文本属于哪些主题时,便可以求新文本的特征向量,将所述特征向量作为待分类文本特征向量,然后求取待分类文本特征向量与目标主题特征词汇表中各个候选主题对应的主题特征向量之间的相似度,选取所述相似度中最大相似度对应的主题特征向量所对应的主题作为新文本对应的目标主题,从而更快的从新文本中获取重要信息。从所述投诉文本中区分出重要信息并知道这些重要信息对应的主题,有利于从投诉文本中发现问题,从而方便商家根据这些问题做出相应的解决方案,还可以从这些大量投诉文本中发现信贷产品潜在的一些漏洞,这些漏洞也可以对金融信贷起到预警作用。除此之外,还可以根据顾客想要了解的主题去搜索与主题相关的投诉文本,从而从投诉文本以及商家对投诉文本的回复中获取自己想要知道的信息,减少了用户查找海量信息的时间,从而提高了用户的体验感。本申请所述的方法采用领域本体扩充了文本的语义特征,解决了短文本固有的特征不足的缺点,从而提高了短文本的分类性能,使得短文本分类的准确率得到较大提升。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本分类方法的文本分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本分类装置实施例中的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种文本分类装置,包括:数据获取模块1000、待分类文本特征向量生成模块1002、主题特征向量获取模块1004、目标主题特征向量确定模块1006和目标主题确定模块1008,其中:
数据获取模块1000,用于获取待分类文本,获取目标主题特征词汇表,所述目标主题特征词汇表中存储了各个候选主题和候选主题对应的特征词集合,一个特征词集合中包括同一个候选主题对应的各个特征词,所述目标主题特征词汇表基于目标领域本体和主题特征词汇表得到,所述目标领域本体用于提供扩展主题特征词汇表的特征词,所述主题特征词汇表基于训练集得到,所述训练集从历史文本中划分得到。
待分类文本特征向量生成模块1002,用于计算所述待分类文本对应的待分类文本特征向量。
主题特征向量获取模块1004,用于获取所述各个候选主题对应的主题特征向量,所述主题特征向量是基于所述候选主题对应的特征词集合计算得到的。
目标主题特征向量确定模块1006,用于计算所述待分类文本特征向量与各个主题特征向量之间的相似度,基于相似度获取所述待分类文本对应的目标主题特征向量。
目标主题确定模块1008,用于获取所述目标主题特征向量对应的候选主题作为所述待分类文本对应的目标主题。
在一个实施例中,文本分类装置还包括第一目标领域本体生成模块1010,第一目标领域本体生成模块1010用于获取目标领域叙词表,确定领域本体的应用目的;基于所述领域本体的应用目的,将所述目标领域叙词表中的叙词转换成领域本体中的概念,得到目标概念;基于所述目标领域叙词表中叙词间的层次关系,确定所述目标概念间的等级关系,得到目标等级关系;基于所述目标领域叙词表中叙词的限义词和注释,为所述目标概念添加属性,得到目标属性;基于所述目标领域叙词表中叙词之间的词间关系,为所述目标概念添加词间关系,得到目标词间关系;基于所述目标概念、目标等级关系、目标属性和目标词间关系构成目标概念模型;基于所述目标概念模型创建所述目标概念对应的实例,得到目标实例;基于所述目标概念模型和目标实例构成目标领域本体。
在一个实施例中,文本分类装置还包括第二目标领域本体生成模块1012,第二目标领域本体生成模块1012用于获取领域本体的应用范围,基于所述应用范围得到领域本体对应的术语清单,基于所述术语清单建立领域本体的概念结构,得到领域本体的目标概念结构;基于所述目标概念结构定义领域本体的概念属性和设定类约束,得到领域本体的目标概念属性和目标类约束,基于所述目标概念结构、目标概念属性和目标类约束组成领域本体的目标概念模型;基于所述目标概念模型创建领域本体中各个类对应的实例,得到领域本体的目标实例,基于所述目标概念模型和目标实例构成目标领域本体。
在一个实施例中,文本分类装置还包括训练集和测试集确定模块1014,训练集和测试集确定模块1014用于获取历史文本的数据量;当所述数据量大于第一阈值时,将所述历史文本的三分之二文本作为训练集,历史文本的三分之一文本作为测试集,得到训练集和测试集;当所述数据量小于或等于第一阈值,且大于第二阈值时,先将所述历史文本划分为预设数量个大小相同的样本集,将各个样本集依次作为测试集,将除测试集以外的各个样本集的集合作为训练集,得到训练集和测试集;当所述数据量小于第二阈值时,重复随机地从所述历史文本中抽取与历史文本大小一致的样本集作为训练集,所述历史文本中未出现在训练集中的数据作为测试集,得到训练集和测试集,所述第一阈值大于所述第二阈值;所述测试集用于测试待分类文本对应的目标主题的准确度。
在一个实施例中,文本分类装置还包括主题特征词汇表生成模块1016,主题特征词汇表生成模块1016用于将所述训练集进行分词和去停用词的预处理操作,得到目标历史文本;计算所述目标历史文本中各个词的权值,基于所述权值对目标历史文本进行文本表示;依次从所述目标历史文本对应的候选主题中选取一个主题,计算选取主题中各个词对应的总权值和权值平均值,基于总权值按从大到小的顺序对各个词进行排序,依次选取预设数量个排序后的词作为所述选取主题的特征词,并将各个所述特征词对应的权值平均值作为特征词对应的权值,基于各个特征词和各个特征词对应的权值得到所述选取主题的主题特征向量,直到所述目标历史文本的每一个候选主题都得到对应的主题特征向量,将各个所述主题特征向量作为第一主题特征向量;对各个第一主题特征向量进行特征过滤处理,得到各个候选主题对应的第二主题特征向量,基于第二主题特征向量得到所述主题特征词汇表,所述主题特征词汇表中存储了目标历史文本中各个候选主题和候选主题对应的特征词集合,所述特征词集合包括特征词和特征词对应的权值。
在一个实施例中,文本分类装置还包括目标主题特征词汇表确定模块1018,目标主题特征词汇表确定模块1018用于获取阈值,解析所述目标领域本体,分析得到目标领域本体中具有负面信息的实例词;依次从所述主题特征词汇表的候选主题中选取一个主题,计算选取主题对应的特征词集合中各个特征词与各个所述实例词两两之间的相似度,基于各个所述相似度选取得到各个实例词对应的最大相似度;基于各个实例词对应的最大相似度与阈值的对比结果,将各个实例词中最大相似度大于阈值的实例词作为特征相关词,并将各个所述特征相关词加入到所述选取主题对应的特征词集合中,得到更新的特征词集合,各个所述特征相关词的权值等于对应的实例词所对应的特征词的权值,基于所述更新的特征词集合得到选取主题对应的第一目标主题特征向量;当所述主题特征词汇表中的每一个候选主题都被选取过时,得到各个候选主题对应的第一目标主题特征向量,将各个所述第一目标主题特征向量进行特征过滤处理,得到各个候选主题对应的目标主题特征向量,基于各个目标主题特征向量得到目标主题特征词汇表。
在一个实施例中,文本分类装置还包括历史文本推送模块1020,历史文本推送模块1020用于获取目标对象对应的主题依据;基于所述目标对象对应的主题依据,获取目标初始历史文本,所述目标初始历史文本对应的目标主题与所述主题依据一致,将所述目标初始历史文本送到目标对象对应的终端。
上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史文本数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11和图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。