CN107766371B

CN107766371B - 一种文本信息分类方法及其装置

Info

Publication number: CN107766371B
Application number: CN201610693358.6A
Authority: CN
Inventors: 周晶
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2023-11-17
Anticipated expiration: 2036-08-19
Also published as: CN107766371A; WO2018032937A1

Abstract

本发明实施例提供一种文本信息分类方法及其装置，通过预先设置文本类别的样本关键词信息集，并建立该样本关键词信息集与文本类别信息的对应关系，为后续对待分类文本信息进行分类时提供了匹配基础；在对待分类文本信息进行分类处理时，根据预设规则对待分类文本信息提取关键词信息，根据样本关键词信息集与文本类别的对应关系匹配待分类文本信息对应的文本类别信息；通过本发明的信息分类方式只需要进行***自动的匹配即可，极大地提高了分类处理的效率，缩短了分析的周期，降低了人工分配的误差，提高了匹配的准确度。

Description

一种文本信息分类方法及其装置

技术领域

本发明涉及文本信息的分类技术领域，尤其涉及一种文本信息分类方法及其装置。

背景技术

随着信息分类技术的发展，各企业中的信息处理部门，每天都会接收或者积累海量的信息，在一些情况下，需要从该信息中提取某一类别的信息，但是由于这些信息与类别之间并没有建立直接的对应关系，因此，无法直接用搜索引擎检索进行提取。现有的对信息归类的的方法通常是采用人工的方式进行逐条分析，这样会花费不少的人力人工。而同时随着交互信息数量的不断增加，或者每天相关工作的不断累积增加，这时，若再需要在相同的时间内将这些信息高质量地处理完，则需要提高工作人员的处理速度或者投入更多的人力资源，但是当前采用人力的方式是很难做到效率和质量的同等的要求，因为这种通过人为智慧来分类，并不能保证每个工作人员对信息的类别都有相同的认知，使得在分类时对于信息的查全率也会有一定程度的差异，导致分类的准确率较低。

发明内容

本发明实施例提供的文本信息分类方法及其装置，以解决现有技术中主要通过人工的方式对文本信息进行分类处理，造成的分析周期长，工作效率低下，且查全率不高的技术问题。

为解决上述技术问题，本发明实施例提供一种文本信息分类方法，包括：

获取待分类文本信息；

根据预设规则从所述待分类文本信息中提取关键词信息集，所述关键词信息集包括至少一个关键词信息；

根据所述关键词信息集，以及预设的样本关键词信息集与文本类别信息的对应关系，匹配所述关键词信息集对应的文本类别信息；

根据匹配出的文本类别信息对所述待分类文本信息进行分类。

本发明实施例还提供一种文本信息分类装置，包括：获取模块、提取模块、匹配模块和分类模块；

所述获取模块用于获取待分类文本信息；

所述提取模块用于根据预设规则从所述待分类文本信息中提取关键词信息集，所述关键词信息集包括至少一个关键词信息；

所述匹配模块用于根据所述关键词信息集，以及预设的样本关键词信息集与文本类别信息的对应关系，匹配所述关键词信息集对应的文本类别信息；

所述分类模块用于根据匹配出的文本类别信息对所述待分类文本信息进行分类。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述的文本信息分类方法。

本发明的有益效果是：

根据本发明实施例提供的文本信息分类方法、装置以及计算机存储介质，通过预先设置文本类别的样本关键词信息集，并建立该文本类别的样本关键词信息集与文本类别信息的对应关系，为后续对待分类文本信息进行分类时提供了匹配基础，以及为实现自动匹配分类提供了可能；进一步的，在进行待分类文本信息分类时，根据预设规则对待分类文本信息进行关键词信息集的提取，将从待分类文本信息中提取的最能体现文本类别的信息与预先设置的样本关键词信息集进行匹配识别，得到对应的文本类别信息，从而实现了***对待分类文本信息的自动识别匹配，该种匹配方式只需要进行***自动的匹配即可，极大地提高了分类处理的效率，缩短了分析的周期。通过与固定对应关系的样本关键词信息集进行匹配的方式进行分类，降低了人工分配的误差，提高了匹配的准确度。

附图说明

图1为本发明第一实施例提供的文本信息分类方法的流程图；

图2为本发明第二实施例提供的用户通过客户端使用文本信息分类方法进行分类的处理流程图；

图3为本发明第二实施例提供的扩展各文本类别的关键词信息集的流程图；

图4为本发明第二实施例提供的分类模型的学习处理流程图；

图5为本发明第二实施例提供的通过浏览器和服务端交互实现文本信息分类的示意图；

图6为本发明第三实施例提供的对单条文本信息进行分类的处理流程图；

图7为本发明第三实施例提供的对批量文本信息进行分类的处理流程图；

图8为本发明第四实施例提供的文本信息分类装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。

第一实施例：

为了现有技术中，对于信息的分类通常是采用人工操作的方式进行分类，导致工作效率低和准确度不高的问题，本发明实施例公开了一种文本信息分类方法及***，根据预设规则对获取到的待分类文本信息进行关键词信息集的提取，根据提取的关键词信息集，以及预设的样本关键词信息集与文本分类信息的对应关系，匹配该待分类文本信息的关键词信息集对应的文本类别信息，最后根据文本类别信息对待分类文本信息进行分类，从而实现了对文本信息的自动分类操作，极大地提高工作效率，分类的准确度等等。

请参见图1，图1为本实施例提供的文本信息分类方法的处理流程图。

本实施例提供的文本信息分类方法的处理步骤，具体如下：

S101，获取待分类文本信息。

优选的，获取到的待分类文本信息包括至少一个文本信息，该至少一个文本信息可以是同一文本类别的，也可以是不同文本类别的；

在本实施例中，获取到的待分类文本信息还可以是由其他类型的信息转换得到的文本信息，例如是语音、视频信息等等，当获取到的信息是语音时，在进行信息分类过程中获取的是该语音对应的文本信息，具体是通过语音文本识别插件将该语音转换为文本信息；同理，对于其他类型的非文本信息，也需要通过转换插件进行信息的转换得到对应的文本信息。

S102，根据预设规则从所述待分类文本信息中提取关键词信息集，所述关键词信息集包括至少一个关键词信息。

在本实施例中，在获取到待分类文本信息后，根据预设的规则对待分类文本信息进行处理，具体是根据分词处理技术对该待分类文本信息进行词语的分割，分割后将该待分类文本信息分割为至少一个关键词信息，采集分割得到的关键词信息组成该待分类文本信息的关键词信息集。

优选的，在根据分词技术对文本信息进行分割时，先去除该待分类文本信息中的标点符号，然后按照该待分类文本信息原来顺序进行关键词的分割。

在本实施例中，在分割完成后，得到至少一个关键词，但是该关键词并不是全部都能为文本信息分类做出实质的贡献，有些关键词上所有类别中都会存在的，如例称呼词，数字词语，量词，时间词等，这些词语几乎适用于所有的信息交互中，因此，在分割完成后，还需要对关键词进行提取帅选，选择最能体现该文本信息的类别的关键词，组成一个关键词信息集。

下面举具体的例子来说明通过分词技术对文本信息进行关键词的提取，例如对文本信息“晚上欣欣酒店2号包厢18:00点，王总也来”进行分词，分词之前先去除无用符号，例如标点符号、异常符号等，去除标点后变成“晚上欣欣酒店2号包厢18:00点王总也来”；然后进行分词，分词之后变成：“晚上/欣欣酒店/2/号/包厢/18:00/点/王总/也/来”；在该文本信息中，能体现该文本信息的类别的关键词信息是“酒店”、“包厢”，将“酒店”、“包厢”从文本信息中提取出来组成一个关键词信息集。

S103，根据所述关键词信息集，以及预设的样本关键词信息集与文本类别信息的对应关系，匹配所述关键词信息集对应的文本类别信息。

在对待分类文本信息进行关键词信息集的提取后，根据得到的关键词信息集对文本信息进行分类。优选的，获取预先设置好的各文本类别的样本关键词信息集，然后将从待分类文本信息中提取到的关键词信息集分别与各文本类别的样本关键词信息集进行匹配，根据预设的样本关键词信息集与文本类别之间的对应关系得到文本类别信息，具体是查询待分类文本信息中的关键词信息在文本类别的样本关键词信息集中是否存在，若存在，则对对应的文本类别的样本关键词信息集进行标注，最后根据标注识别出对应的文本类别信息。

在本实施例中，对于预设的关键词信息与文本类别之间的对应关系具体是通过以下方式得到：对预先获取到的多个样本文本信息进行分类，并提取分类后各文本类别中各个样本文本信息的关键词信息，组成所述样本关键词信息集；将从同一个文本类别的样本文本信息中提取出的样本关键词信息集与该文本类别信息之间建立对应关系。

具体的，先获取***上已经存在的样本文本信息，该样本文本信息可以是***中的历史文本信息，也可以是***从互联网上下载得到的已经分类好的类别文本信息模板。

当样本文本信息是***中的历史文本信息时，工作人员先根据样本文本信息的内容对这些样本文本信息进行类别的标注，标注完成后，根据标注对样本文本信息进行类别的归类统计，将所有样本文本信息按照类别区分开存储；进一步地，按照类别对各类别的样本文本信息进行分词处理，提取类别的关键词信息集，最后建立从样本文本信息中提取得到的关键词信息集与对应的文本类别信息的对应关系。

在本实施例中，步骤S103包括：将所述关键词信息集中的各个关键词信息，与预设的各个文本类别信息对应的样本关键词信息集进行匹配，得到与各个样本关键词信息集一一对应的原第一字符串或得到由各个原第一字符串按照预设顺序排列组成的原第二字符串；所述原第一字符串包括字符0和/或字符1，且每个字符0和1所在的位置顺序与各文本类别的各关键词信息在对应的样本关键词信息集中的位置顺序是一一对应的，所述字符0表示所述待分类文本信息的关键词信息不存在于所述样本关键词信息集中，所述字符1表示所述待分类文本信息的关键词信息存在于所述样本关键词信息集中；根据得到的原字符串识别所述关键词信息集对应的文本类别信息。

具体的是根据关键词信息查询预设的各样本关键词信息集中是否存在该待分类文本信息的关键词信息，若存在，则在当前被查询的预设样本关键词信息集中对应的关键词标注为“存在”，其他的标注为“不存在”，最后在查询完成后，会输出一个由字符0或1组成的原字符串，并且输出的字符串中的字符0或1的顺序以及位置是按照样本关键词信息集中各关键词信息原本的排序顺序输出，例如“银行交易”类别的样本关键词信息集的关键词排序顺序为【转入收入银行支出消费取款账号】，待分类文本信息的关键词信息集为“账号”“消费”“银行”，在匹配时输出的字符串中的0和1的位置应当是按照【转入收入银行支出消费取款账号】的顺序输出，得到的字符串为【0 0 1 0 1 0 1】。

进一步地，在根据标注识别出对应的文本类别信息具体是根据输出的字符串分析，根据分析结果获取对应的文本类别信息，优选的，这里对字符串进行分析具体根据获取各文本类别的关键词信集中标注“存在”的多少来分类，其标注越多的就越有可能。

进一步地，在本实施例中，所述原字符串包括原第一字符串或原第二字符串，该原第一字符串可以理解为是与一个文本类别对应的样本关键词信息集进行匹配输出的字符串，原第二字符串为有多个文本类别匹配输出的字符串。当得到与各个样本关键词信息集一一对应的原第一字符串，则原字符串则是原第一字符串，并在分类处理时，根据原第一字符串进行分类分析。

当得到由各个原第一字符串按照预设顺序排列组成的原第二字符串，则原字符串则是原第二字符串，并在分类处理时，根据原第二字符串进行分类分析。

例如预设计有“银行交易”，“饭局”，“工程项目”这三个文本类别，各自的关键词信息集如下表1所示：

表1样本关键词信息集与文本类别信息的对应关系

针对上面的举例“晚上/欣欣酒店/2/号/包厢/18:00/点/王总/也/来”。这句已经进行了文本信息的分词技术之后，采用上述提到的样本关键词信息集进行关键词的匹配，例如上面的三类文本类别“银行交易”，“饭局”，“工程项目”组成的大样本关键词信息集【转入收入银行支出消费取款账号***转出往来……用餐小聚有空包厢碰头酒店饭店包房晚宴酒行厅来吃饭聚聚……工程款项打款打账到账还款贷款借款万……】

对上述的文本信息——“晚上/欣欣酒店/2/号/包厢/18:00/点/王总/也/来”进行分析，提取出其中的关键词信息“酒店”“包厢”“来”是存在于预设的样本关键词信息集中的内容。

匹配完成后输出的字符串为：

【0 0 0 0 0 0 0 0 0……0 0 0 1 0 1 0 0 0 0 0 1……0 0 0 0 0 0 0 00……】

通过对上述字符串进行分析，得到该文本信息分配到的文本类别为“饭局”。

为了进一步提高对待分类文本信息匹配的文本类别信息的准确率，本实施例在完成关键词信息集的匹配之后，还包括：

根据预先学习得到的分类模型对得到的所述原字符串进行纠正，得到最终的字符串，并通过所述最终的字符串替换所述原字符串。

具体是首先将关键词信息集与预设的样本关键词信息集进行匹配，匹配得到待分类文本信息的关键词信息集的字符串；根据预先学习得到的分类模型对所述字符串进行模型训练学习；根据模型训练学习的结果获取对应的文本类别信息。

在本实施例中，该分类模型具体是通过以下方式获取：获取各文本类别的样本文本信息的样本关键词信息集；将各关键词信息集分别与对应的各文本类别的样本关键词信息集进行匹配，输出对应的字符串；根据预设的训练学习算法对所述字符串进行学习，学习得到分类模型；将分类模型与文本分类信息之间建立对应关系。优选的，该训练学习算法采用随机森林分类学习算法，得到的分类模型为随机森林分类模型。

S104，根据匹配出的文本类别信息对所述待分类文本信息进行分类。

在本实施例中，为了解决在匹配查询关键词信息集时会出现由于各文本类别的样本关键词信息集的关键词不全面，使得查全率不高，导致出现分类误差的问题，本实施例在创建各文本类别的样本关键词信息集时，还包括：通过使用领域词汇的方式来扩展关键词信息集，使得各文本类别中的样本关键词信息集能更加全面地囊括对应类别的关键词。

在本实施例中，对于上述的各步骤还可以通过移动终端上的处理器来实现，具体是通过在存储器中写入实现上述各步骤功能的层序代码，由处理器来读取执行即可。

本发明实施例提供的文本信息分类方法，通过根据样本文本信息创建文本类别的样本关键词信息集，以及建立样本关键词信息集与文本类别的对应关系，在对待分类文本信息进行分类处理时，根据预设规则对待分类文本信息提取关键词信息，根据预设的样本关键词信息集与文本类别的对应关系匹配该待分类文本信息对应的文本类别信息；通过关键词来实现文本类别信息的匹配，简化了分类信息的操作步骤，进一步解决了通过人工的方式对文本信息进行分类处理，造成的分析周期长，工作效率低下的问题。

进一步地，本发明实施例还通过分类模型的方式对文本信息进行分类，采用训练学习的方法自动进行文本信息的识别分类，这种自动分类的方式，大大地提高分类处理的工作效率，同时也提高了分类的准确度。

第二实施例：

请参考图2，图2为本实施例提供的用户通过客户端使用文本信息分类方法进行分类的处理流程图。

本实施例是结合了客户端以及具体的应用场景得到的文本信息分类方法，其处理步骤如下：

S201，获取客户端上的样本文本信息，并进行标注分类，建立样本关键词信息集与文本类别信息之间的对应关系。

在该步骤中，是为了创建文本类别关键词信息集而采集文本信息，并将采集到的文本信息作为创建关键词信息集的样本文本信息，该文本信息可以是客户端之前接收过的历史文本信息，也可以是之前分类处理过的某些应用或者终端上的短息、聊天文本信息等等，例如微信、QQ等的聊天信息。

在本实施例中，假设获取到的样本文本信息如下：

a.“工程款项100万已打”。

b.“您尾号44XX***02月21日13:56消费19,089.59元【建设银行】”。

c.“上元佳节，又点心香，心亦团圆，人亦团圆”。

d.“***提醒您：今夜阴有中雨并渐止，明天阴转多云”。

e.“晚上欣欣酒店2号包厢18:00点，王总也来”。

根据上述获取到的样本文本信息进行标注，该标注是为了区分类别，实现该标注的方式可以是手动的标注，也可以是自动的标注。

在该标注的过程中，实质是为了将行业专家的知识固化下来，实现类别与关键词的对应关系固定，这样在后面进行文本信息分类时，可以更加准确。本实施例对上述的样本文本信息分为三大类别“银行交易”，“工程项目”，“饭局”，具体标注分类如下表2所示。

表2样本文本信息与类别标注的对应关系

对于上表2的标注还可以通过预先设置好各类别与数字的对应关系，然后在标注时通过数字的方式在表中标注。

在本实施例中，对于样本文本信息的选取，在选取时，只能根据用业务人员所需要的类别范围进行获取，从创建样本关键词信息集的原则上来说，当然是越多越好，样本文本信息越多，最后组成的样本关键词信息集的关键词就越齐全，但是在实际操作中涉及到工作量的问题，在获取样本文本信息时只会获取一小部分的样本，这样创建得到的各类别的样本关键词信息集并不能完全代表一类别的特征。

因此，为了能获取到更加完整的类别样本关键词信息集，在根据样本文本信息得到各类别的样本关键词信息集后，还进行关键词的扩展。

S202，根据步骤S201分类后的样本关键词信息集进行扩展。

在该步骤中，具体是对类分后的各类别中的样本文本信息作进一步的细分，优选的，对各类别中的样本文本信息进行关键词提取，根据提取到的关键词获取外界带有该关键词的文本信息。对于该步骤的扩展关键词信息集的处理步骤如图3所示：

S301，按照类别，提取各类别的样本信息中的关键词。

例如：从银行交易类别中的样本文本信息“您尾号44XX***02月21日13:56消费19,089.59元【建设银行】”中提取“消费”、“银行”等词语作为关键词。

从饭局类别中的样本文本信息“晚上欣欣酒店2号包厢18:00点，王总也来”中提取“酒店”、“包厢”“来”等词语作为关键词。

S302，根据各样本文本信息提取的关键词收集带有该类别的样本信息中的关键词的外界文本信息。

在本实例中，设置有“银行交易”，“饭局”，“工程项目”这三个话题，实际应用中，每个类别的文本信息的表达方式是多种多样的，对于每个类别，必须要挖掘出一个大类，例如“银行交易”的短信，不同银行的短信格式不相同，这时，应当根据从样本信息中提取到的关键词“消费”、“银行”查询互联网上的带有“消费”、“银行”关键词的各大银行的短信。

S303，提取步骤S302得到的文本信息中的其他关键词加入到对应的类别的关键词信息集中。将各类别扩展得到的关键词进行汇总后，得到的样本关键词信息集如下表3所示。

表3扩展后的各类别的样本关键词信息集

S203，获取待分类文本信息，并对待分类文本信息进行分词，提取关键词信息。具体是去除文本信息中的标点符号后，按照文本信息的内容的阳历啊顺序进行关键词分割，分割得到至少一个关键词信息。

S204，将各关键词信息集与对应的文本类别的关键词信息集进行匹配，输出对应的字符串。

在该步骤中，通过根据分词后的文本信息的关键词进行匹配查询，并输出该文本信息的匹配结果，具体步骤如下：

步骤A，文本信息分词后，对于出现的关键词采用1表示，没有出现的关键词采用0表示。

例如：“晚上/欣欣酒店/2/号/包厢/18:00/点/王总/也/来”。这句已经进行了文本信息的分词技术之后，采用上述提到的关键词信息集进行关键词的匹配，例如上面的三类话题分类“银行交易”“饭局”“工程项目”关键词信息集是500个，那该文本信息的关键词信息匹配的输出结果就是500维的向量表达方式。

【转入收入银行支出消费取款账号***转出往来……用餐小聚有空包厢碰头酒店饭店包房晚宴酒行厅来吃饭聚聚……工程款项打款打账到账还款贷款借款……】

对上述的文本信息——“晚上/欣欣酒店/2/号/包厢/18:00/点/王总/也/来”进行分析，能识别出里面的关键词“酒店”“包厢”“来”是存在“饭局”类别的关键词信息集中的内容。

500维的字符串为：【0 0 0 0 0 0 0 0 0……0 0 0 1 0 1 0 0 0 0 0 1……0 00 0……】

步骤B，形成该条文本信息的关键词字符串，内容就是上面说的500维字符串：

【0 0 0 0 0 0 0 0 0……0 0 0 1 0 1 0 0 0 0 0 1……0 0 0 0……】

维度是多少，根据实际的文本类别关键词信息集进行表达。

S205，根据输出的字符串分析得到该待分类文本信息对应的文本类别信息，并进行分类处理。

在本实施例中，对于步骤S205在对文本信息进行分类处理，具体包括：根据预先学习得到的分类模型进行分类处理，该分类模型是通过对样本文本信息进行学习得到，该处理步骤如下：

步骤一，获取根据各关键词信息集与对应的文本类别的关键词信息集进行匹配输出的字符串。

步骤二，根据预先学习得到的分类模型对所述字符串进行训练学习。

步骤三，根据训练学习的结果获取对应的文本类别信息。

在本实施例中，该分类模型具体是通过一下方式学习得到，其处理步骤如图4所示。

S401，获取各文本类别的样本文本信息的关键词信息集。

S402，将各关键词信息集与对应的文本类别的关键词信息集进行匹配，输出对应的字符串。

S403，将各样本文本信息的字符串作为模型的学习输入，学习得到对应的类别的分类模型。

S404，将所述分类模型与文本分类信息之间建立对应关系。

在本实施例中，优选的是采用随机森林模型学习，在模型训练阶段接收输入的文本信息的字符串及文本类别信息作为输入样本，使用随机梯度的方法训练模型，待训练误差达到一定阈值，模型收敛后，输出并保存随机森林模型参数。

随机森林是一种较为常见、效果较好的机器学习模型，它使用若干个较为简单的决策树同时训练，并将各个决策树的分类结果按照少数服从多数的原则进行投票，投票结果作为模型的最终输出。

在本实施例中，除了将该文本信息分类方法应用于客户端，实现客户端的信息分类之外，还可以应用于基于浏览器方式的界面访问***，如图5所示：

S501，用户通过浏览器访问用户界面。

S502，用户界面和WEB服务器进行消息交互，下发相应的命令，包含创文本类别的关键词信息集和扩展关键词信息集，并通过界面将分析处理的结果进行可视化展示。

S503，WEB服务器实际通过REST服务进行指令的下达，包括算法训练，单文本分析，批量文本分析等。

S504，REST服务中和机器学习算法处理进行算法训练，采用随机森林算法模型进行训练。

S505，根据话题的分类进行机器学习算法模型训练成多个分类器，方便后面对文本信息分类处理的使用。

S506，REST服务对要分析的文本采用不同的分类器进行分析服务。

S507，文本分析最终通过上面的协作操作和内部算法学习，进行信息分类。

第三实施例：

请参件图6，图6为本实施例提供的对单条文本信息进行分类的处理流程图，其处理步骤如下：

S601，单条文本信息输入，例如输入单条文本“明天晚上金陵饭店总统包间吃饭。”

S602，对输入的文本信息进行分词，去除标点符号之后，对该文本进行分词：“明天/晚上/金陵/饭店/总统/包间/吃饭/”。

S603，每条文本拆分成多个词语，上述一条文本就是拆分成了多个词语：“明天”“晚上”“金陵”“饭店”“总统”“包间”“吃饭”。

S604，对文本信息进行关键词的抽取，用***中的类别关键词信息集进行向量化分析，存在的关键词信息集用1表示，不存在的关键词信息集用0表示。

采用上面的类别关键词信息集，发现“饭店”“包间”“吃饭”这样存在的关键词信息集。关键词字符串例如：

【0 0 0 0 0 0 0 0 0……0 0 0 0 0 0 10 1 0 0 0 1 0……0 0 0 0……】

S605，形成关键词的字符串，后续可作为分类分析。

字符串为：

【0 0 0 0 0 0 0 0 0……0 0 0 0 0 0 10 1 0 0 0 1 0……0 0 0 0……】

S606，对单条文本进行分类分析。

例如输入单条文本“明天晚上金陵饭店总统间吃饭。”这样的信息就可以分析成和案件有关的信息，文本类别是“饭局”。

如图7所示，为本实施例提供的对批量文本信息进行分类的处理流程图，批量文本分析是单条文本的过程的循环。批量文本分析需要有批量文本上载过程，其处理步骤如下：

S701，将批量文本信息上载到分析***。

这里简单举例：

1、“您尾号65XX卡2日16:13营业网点支出(取款)130,000元，余额3,125.97元，可用余额53,125.97元。【工商银行】”。

2、“100万款项到账了”

3、“明晚别玩了吃饭，地点：杏林酒家，1号包间”。…………

S702，对每一条文本信息进行分词。

S703，形成关键词向量表，后续可作为分类分析。

S704，对每一条文本信息进行分类分析。

针对上面举例的批量文本，就能进行上面三个类别“银行交易”“饭局”“工程项目”的分类如下表4所示。

表4分类后的文本信息对应关系表

***就自动机器学习的基础下，对新出现的文本信息进行了自动化分类。

通过本实施例提供的方案的实施，解决了实际应用中大多人工操作的方式，而是以自动化方式，建立类别关键词信息集的方法，采用机器学习训练的办法实现***的文本信息分类分析，极大地提高了工作效率。

第四实施例：

请参见图8，图8为本实施例提供的文本信息分类***的结构示意图。本实施例提供的文本信息分类装置8包括：获取模块81、提取模块82、匹配模块83和分类模块84，其中：

获取模块81用于获取待分类文本信息，优选的，获取到的待分类文本信息包括至少一个文本信息，该至少一个文本信息可以是同一文本类别的，也可以是不同文本类别的；另外，该文本信息还可以是由其他类型的信息转换得到的文本信息，例如是语音、视频信息等等，当获取到的信息是语音时，在进行信息分类过程中获取的是该语音对应的文本信息，具体是通过语音文本识别插件将该语音转换为文本信息。

提取模块82用于根据预设规则从待分类文本信息中提取关键词信息集，关键词信息集包括至少一个关键词信息。

匹配模块83用于根据关键词信息集，以及预设的样本关键词信息集与文本类别信息的对应关系，匹配关键词信息集对应的文本类别信息。

分类模块84用于根据匹配出的文本类别信息对待分类文本信息进行分类。

在本实施例中，提取模块82在对待分类文本信息提取关键词信息集具体是根据分词处理技术对该待分类文本信息进行词语的分割，分割后将该待分类文本信息分割为至少一个关键词信息，采集分割得到的关键词信息组成该待分类文本信息的关键词信息集。优选的，先去除该待分类文本信息中的标点符号，然后按照该待分类文本信息原本顺序进行关键词的分割。

在本实施例中，对于上述的各模块可以集成与移动终端上的处理器中，通过软件将处理器划分出具有上述功能的模块。

在本实施例中，所述装置还包括对应关系建立模块，用于对预先获取到的多个样本文本信息进行分类，并提取分类后各文本类别的样本文本信息的关键词信息，组成样本关键词信息集；以及将从同一个文本类别的样本文本信息中提取出的样本关键词信息集与该文本类别信息之间建立对应关系。

在本实施例中，在匹配待分类文本信息的关键词信息对应的文本类别信息时，匹配模块83具体根据关键词信息查询预设的各样本关键词信息集是否存在该待分类文本信息的关键词信息，若存在，则在当前被查询的预设样本关键词信息集中对应的关键词标注为“存在”，其他的标注为“不存在”，最后在查询完成后，会输出一个字符串，在根据标注识别出对应的文本类别信息具体是根据输出的字符串进行分析，根据分析结果获取对应的文本类别信息，优选的，这里对字符串进行分析具体根据获取各文本类别的关键词信集中标注“存在”的多少来分类，其标注越多的就越有可能。

在本实施例中，匹配模块83具体是用于将所述关键词信息集中的各个关键词信息，与预设的各个文本类别信息对应的样本关键词信息集进行匹配，得到与各个样本关键词信息集一一对应的原第一字符串或得到由各个原第一字符串按照预设顺序排列组成的原第二字符串；所述原第一字符串包括字符0和/或字符1，且每个字符0和1所在的位置顺序与各文本类别的各关键词信息在对应的样本关键词信息集中的位置顺序是一一对应的，所述字符0表示所述待分类文本信息的关键词信息不存在于所述样本关键词信息集中，所述字符1表示所述待分类文本信息的关键词信息存在于所述样本关键词信息集中；根据得到的原字符串识别所述关键词信息集对应的文本类别信息。

在本实施例中，所述***还包括纠正模块；

匹配模块83用于将关键词信息与预设的样本关键词信息集进行匹配，匹配得到待分类文本信息的关键词信息集的原字符串，该原字符串包括原第一字符串或原第二字符串；

纠正模块用于根据预先学习得到的分类模型对得到的所述原字符串进行纠正，得到最终的字符串，并通过所述最终的字符串替换所述原字符串；

匹配模块83根据最终的字符串获取对应的文本类别信息。

在本实施例中，纠正模块还用于通过预先的模型训练学习获取分类模型，具体是，纠正模块获取各文本类别的样本文本信息的关键词信息集；将各关键词信息集与对应的文本类别的样本关键词信息集进行匹配，输出对应的字符串；根据预设的训练学习算法对字符串进行模型训练学习学习，学习得到分类模型；将分类模型与文本分类信息之间建立对应关系。

在本实施例中，纠正模块根据输出的各类别的字符串生成不同的分类模型，例如，本实施例设置有三个类别“银行交易”，“饭局”，“工程项目”，那么纠正模块在进行模型学习时分别就形成三个随机森林分类模型。这样，这个分类模型就可用作新的文本信息、案件信息的分析。由***自动识别出和案件有关的信息、和这几类分类模型有关的信息。

在文本信息分类分析模式下，可根据各类别的分类模型进行单文本分析。对单文本的分析时，用户可输入一个单条文本信息，对该单条文本信息进行分析。

在本实施例中，也可进行批量文本分析，对批量文本进行分析时，上传要分析的批量文本文件，对这些文本进行分类分析，类别相关性分析。

采用多种分类模型进行多种分类的分析，例如分类别的分析，例如是否是银行交易等等，可适应多种应用场景。

对批量分析好的数据进行保存，并可下载分析报告。用户可方便地获取分析过的批量文本的分类情况。

在本实施例中，对于上述的文本信息分类***的各模块所实现各功能均可以通过程序代码的方式来实现，具体是通过终端上的处理器从存储器中读取预先存储的用于实现文本信息分类的代码，对代码编译执行即可实现信息的获取和分类。

综上所述，本发明实施例了提供的文本信息分类方法及其装置，通过预先设置文本类别的样本关键词信息集，并建立该文本类别的样本关键词信息集与文本类别信息的对应关系，为后续对待分类文本信息进行分类时提供了匹配基础，以及为实现自动匹配分类提供了可能；在对待分类文本信息进行分类处理时，根据预设规则对待分类文本信息提取关键词信息，根据预设的样本关键词信息集与文本类别的对应关系匹配待分类文本信息对应的文本类别信息，通过关键词来实现文本类别信息的匹配，简化了分类信息的操作步骤，同时也极大地提高分类处理的工作效率，同时也提高了分类的准确度。

显然，本领域的技术人员应该明白，上述本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种文本信息分类方法，包括：

获取待分类文本信息；

根据匹配出的文本类别信息对所述待分类文本信息进行分类；

所述根据预设规则从所述待分类文本信息中提取关键词信息集，包括：

根据分词处理技术对该待分类文本信息进行词语的分割；

在确定分割完成后，获得多个关键词信息；

对所述多个关键词信息进行提取筛选，选择最能体现所述待分类文本信息的类别的关键词，组成所述关键词信息集；

所述根据所述关键词信息集，以及预设的样本关键词信息集与文本类别信息的对应关系，匹配所述关键词信息集对应的文本类别信息包括：

将所述关键词信息集中的各个关键词信息，与预设的各个文本类别信息对应的样本关键词信息集进行匹配，得到与各个样本关键词信息集一一对应的原第一字符串；所述原第一字符串包括字符0和/或字符1，且每个字符0和1所在的位置顺序与各文本类别的各关键词信息在对应的样本关键词信息集中的位置顺序是一一对应的，所述字符0表示所述待分类文本信息的关键词信息不存在于所述样本关键词信息集中，所述字符1表示所述待分类文本信息的关键词信息存在于所述样本关键词信息集中；

根据得到的原字符串识别所述关键词信息集对应的文本类别信息。

2.根据权利要求1所述的文本信息分类方法，其特征在于，所述根据预设规则从所述待分类文本信息中提取关键词信息集包括：去除所述待分类文本信息中的标点符号后，按照所述待分类文本信息的内容的原本顺序进行关键词分割，分割得到至少一个关键词信息。

3.根据权利要求1所述的文本信息分类方法，其特征在于，还包括通过以下方式获取所述样本关键词信息集与文本类别信息的对应关系：

对预先获取到的多个样本文本信息进行分类，并提取分类后各文本类别中各个样本文本信息的关键词信息，组成所述样本关键词信息集；

将从同一个文本类别的样本文本信息中提取出的样本关键词信息集与该文本类别信息之间建立对应关系。

4.根据权利要求1至3任一项所述的文本信息分类方法，其特征在于，所述根据所述关键词信息集，以及预设的样本关键词信息集与文本类别信息的对应关系，匹配所述关键词信息集对应的文本类别信息包括：

将所述关键词信息集中的各个关键词信息，与预设的各个文本类别信息对应的样本关键词信息集进行匹配，得到由各个原第一字符串按照预设顺序排列组成的原第二字符串；

5.根据权利要求4所述的文本信息分类方法，其特征在于，在所述得到所述原第一字符串或原第二字符串之后，所述根据得到的原字符串识别所述关键词信息集对应的文本类别信息之前，还包括：

6.一种文本信息分类装置，包括：获取模块、提取模块、匹配模块和分类模块；

所述获取模块用于获取待分类文本信息；

所述分类模块用于根据匹配出的文本类别信息对所述待分类文本信息进行分类；

所述提取模块，具体用于：

根据分词处理技术对该待分类文本信息进行词语的分割；

在确定分割完成后，获得多个关键词信息；

所述匹配模块用于将所述关键词信息集中的各个关键词信息，与预设的各个文本类别信息对应的样本关键词信息集进行匹配，得到与各个样本关键词信息集一一对应的原第一字符串；所述原第一字符串包括字符0和/或字符1，且每个字符0和1所在的位置顺序与各文本类别的各关键词信息在对应的样本关键词信息集中的位置顺序是一一对应的，所述字符0表示所述待分类文本信息的关键词信息不存在于所述样本关键词信息集中，所述字符1表示所述待分类文本信息的关键词信息存在于所述样本关键词信息集中；根据得到的原字符串识别所述关键词信息集对应的文本类别信息。

7.根据权利要求6所述的文本信息分类装置，其特征在于，所述提取模块用于去除所述待分类文本信息中的标点符号后，按照所述待分类文本信息的内容的原本顺序进行关键词分割，分割得到至少一个关键词信息。

8.根据权利要求6所述的文本信息分类装置，其特征在于，还包括：对应关系建立模块，用于对预先获取到的多个样本文本信息进行分类，并提取分类后各文本类别的样本文本信息的关键词信息，组成所述样本关键词信息集；以及将从同一个文本类别的样本文本信息中提取出的样本关键词信息集与该文本类别信息之间建立对应关系。

9.根据权利要求6至8任一项所述的文本信息分类装置，其特征在于，所述匹配模块用于将所述关键词信息集中的各个关键词信息，与预设的各个文本类别信息对应的样本关键词信息集进行匹配，得到由各个原第一字符串按照预设顺序排列组成的原第二字符串；根据得到的原字符串识别所述关键词信息集对应的文本类别信息。

10.根据权利要求9所述的文本信息分类装置，其特征在于，还包括：纠正模块，用于根据预先学习得到的分类模型对得到的所述原字符串进行纠正，得到最终的字符串，并通过所述最终的字符串替换所述原字符串。