CN107609160A - 一种文本分类方法和装置 - Google Patents

一种文本分类方法和装置 Download PDF

Info

Publication number
CN107609160A
CN107609160A CN201710883898.5A CN201710883898A CN107609160A CN 107609160 A CN107609160 A CN 107609160A CN 201710883898 A CN201710883898 A CN 201710883898A CN 107609160 A CN107609160 A CN 107609160A
Authority
CN
China
Prior art keywords
publicity
text message
vocabulary
publicity text
classifying mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710883898.5A
Other languages
English (en)
Other versions
CN107609160B (zh
Inventor
宋时雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710883898.5A priority Critical patent/CN107609160B/zh
Publication of CN107609160A publication Critical patent/CN107609160A/zh
Application granted granted Critical
Publication of CN107609160B publication Critical patent/CN107609160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供了一种文本分类方法和装置,所述文本分类方法包括:获取用于训练的宣传文本信息和非宣传文本信息;将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。

Description

一种文本分类方法和装置
技术领域
本发明的实施例涉及通信技术领域,尤其涉及一种文本分类方法和装置。
背景技术
通过海量的用户原创内容(User Generated Content,UGC)进行语料分析是舆情分析项目中的主要分析依据。但是,由于在网络社区或论坛中,大量营销账号和官方人员发表包含宣传文本信息的语料内容非常频繁,这往往会淹没用户的真实声音。包含宣传文本信息的语料内容对于识别用户对产品的观点起到了较强的干扰作用,不仅浪费***资源,还将影响舆情分析结论的准确性。
在现有技术中,一般会基于人工构建规则模板识别并过滤宣传文本信息,但是该方法往往需要通过人工构建宣传文本信息词典,其所构建得到的词典主要依赖于人工的主观认知和判断,并且会耗费大量的人力资源,对宣传文本信息的覆盖局限性较大,难以准确将宣传文本信息从语料内容中区分开来。
因此,需要一种能够准确有效地对文本信息进行分类的方法和装置。
发明内容
根据本发明的一个方面,提供了一种文本分类方法,包括:获取用于训练的宣传文本信息和非宣传文本信息;将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
根据本发明的另一个方面,提供了一种文本分类装置,包括:获取单元,配置为获取用于训练的宣传文本信息和非宣传文本信息;处理单元,配置为将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;训练单元,配置为基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
根据本发明的再一方面,提供了一种文本分类装置,包括:处理器;存储器;和存储在所述存储器中的计算机程序指令,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:获取用于训练的宣传文本信息和非宣传文本信息;将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
在根据本发明提供的文本分类方法和装置中,可以针对预先获取的宣传文本信息和非宣传文本信息进行处理,并根据处理结果训练逻辑回归模型作为用于区分宣传文本信息和非宣传文本信息的分类模型,并利用所得到的逻辑回归模型对目标信息进行分类。本发明提供的文本分类方法和装置能够准确区分宣传文本信息和非宣传文本信息,并且能够有效提高舆情分析的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示意性图示了根据本发明实施例的文本分类方法的流程图;
图2示意性图示了根据本发明实施例的文本分类装置的结构框图;
图3示意性图示了根据本发明实施例的文本分类装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
根据本发明实施例,提出如下的文本分类方法。图1示出根据本发明实施例的文本分类方法100的流程图,所述方法可以由计算机执行。
具体地,如图1所示,在步骤S101中,获取用于训练的宣传文本信息和非宣传文本信息。
在本发明实施例中,首先可以根据预先获取的语料信息构建训练模型,随后再根据所训练的模型作为分类模型以对目标信息进行分类。在本步骤中,为保证用于构建训练模型的语料信息的典型性和准确性,用于训练的宣传文本信息和非宣传文本信息可以均取自主流媒体,并经预先筛选和归类以确定两类文本信息的集合:宣传文本信息和非宣传文本信息,以及这两类文本信息所包含的语料内容。
在步骤S102中,将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征。
具体地,首先可以将所述宣传文本信息和所述非宣传文本信息利用第一归类方式进行处理,其中可以包括:将所述宣传文本信息和所述非宣传文本信息分别进行分词,对经分词后的每个词汇计算其对应所述宣传文本信息的卡方统计量,并将计算得到的卡方统计量符合预设条件的词汇归类为宣传词汇。
在本发明一个示例中,对文本信息的分词处理可以将一条文本信息分拆为多个词汇的组合,例如,针对某一条内容为“我希望中国队夺冠”的文本信息,分词后得到的词汇可以分别是“我”、“希望”、“中国队”和“夺冠”。因此,可以分别将每一条宣传文本信息和非宣传文本信息根据上述方式进行分词,以获得分词后包含所有词汇的总词汇表、以及分别属于宣传文本信息和非宣传文本信息的词汇表。随后,可以针对所述总词汇表中的每个词汇,计算对应宣传文本信息这一类别的卡方统计量,并针对卡方统计量的计算结果对总词汇表中的词汇进行分类。
具体地,根据宣传文本信息和非宣传文本信息这两类集合计算第一词汇对应宣传文本信息的卡方统计量的具体公式可以为:
其中,chi为卡方统计量,A为出现所述第一词汇,且为宣传文本信息的数量;B为出现所述第一词汇,且为非宣传文本信息的数量;C为未出现所述第一词汇,且为宣传文本信息的数量;D为未出现所述第一词汇,且为非宣传文本信息的数量。
例如,对于“报道”这个词,出现这个词,且为宣传文本信息的数量A为900;出现这个词,且为非宣传文本信息的数量B为200;未出现这个词,且为宣传文本信息的数量C为500;未出现这个词,且为非宣传文本信息的数量D为700,那么,对于“报道”这个词对应宣传文本信息的卡方统计量为:
因此,对“报道”这个词对应宣传文本信息的卡方统计量所得到的数值为:212803。
在本发明实施例中,可以将卡方统计量的计算结果符合预设条件的词汇归类为宣传词汇。例如,可以将所计算的卡方统计量大于一定阈值的词汇归类为宣传词汇。其中,当“报道”这个词的卡方统计量的值大于预设阈值时,可以被归类为宣传词汇。再例如,还可以将总词汇表中每个词汇计算得到的卡方统计量根据大小进行排序,并选取在前预设数量的词汇作为宣传词汇。具体地,可以将“报道”、“小编”、“网站”等卡方统计量排序在前100位的词汇作为宣传词汇。
上述为将宣传文本信息和所述非宣传文本信息利用第一归类方式进行处理的具体示例。在利用第一归类方式处理宣传文本信息和非宣传文本信息之后,可以将宣传文本信息中按照第一归类方式归类的所述宣传词汇的比例作为所述宣传文本信息的第一特征,其中,宣传词汇的比例可以为宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或宣传文本信息中包含所述宣传词汇占总词汇数量的比例。另外,在利用第一归类方式处理宣传文本信息和非宣传文本信息之后,还可以将非宣传文本信息中按照第一归类方式归类的所述宣传词汇的比例作为所述非宣传文本信息的第一特征。其中,宣传词汇的比例可以为非宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或非宣传文本信息中包含所述宣传词汇占总词汇数量的比例。
此外,还可以将所述宣传文本信息和所述非宣传文本信息利用第二归类方式进行处理,包括:将所述宣传文本信息和所述非宣传文本信息分别进行分词,并将所述宣传文本信息中符合预设规则的词汇归类为宣传词汇。其中,对所述宣传文本信息和所述非宣传文本信息进行分词的方式如前所述,在此不再重复。在对宣传文本信息和非宣传文本信息进行分词之后,同样可以获得包含所有词汇的总词汇表,并对总词汇表中的所有词汇按照预设规则进行分类,以获取属于宣传类别的宣传词汇和非宣传类别的非宣传词汇。例如,可以根据预先获取的包含宣传关键词的词典来对总词汇表中的所有词汇进行分类。再例如,还可以根据在某些特定数据来源(如特定宣传网站等)抓取的数据或词汇列表对总词汇表进行分类。还例如,可以根据人工提取对总词汇表进行分类,或在前述机选粗略分类的前提下利用人工对词汇分类结果进行精细筛选,以提高分类的精确程度。
在利用第二归类方式处理宣传文本信息和非宣传文本信息之后,可以将宣传文本信息中按照第二归类方式归类的所述宣传词汇的比例作为所述宣传文本信息的第二特征,其中,宣传词汇的比例可以为宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或宣传文本信息中包含所述宣传词汇占总词汇数量的比例。另外,还可以将非宣传文本信息中按照第二归类方式归类的所述宣传词汇的比例作为所述非宣传文本信息的第二特征。其中,宣传词汇的比例可以为非宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或非宣传文本信息中包含所述宣传词汇占总词汇数量的比例。
在步骤S103中,基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
在如上述步骤S102获取宣传文本信息和/或非宣传文本信息的第一特征和第二特征之后,可以利用所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型。具体地,针对所有获取的用于训练的文本信息(宣传文本信息和非宣传文本信息),均可以构建包含文本信息类别(宣传/非宣传)、文本信息的第一特征、文本信息的第二特征等参数的向量,并根据所有文本信息对应的向量来训练逻辑回归模型,以作为分类模型对目标信息进行分类。
例如,所述逻辑回归模型可以用如下公式来表示:
z=w1×t1+w2×t2,
其中g(z)为逻辑回归函数,w1和w2为训练参数,t1为第一特征,t2为第二特征。在上述逻辑回归函数中,可以调整训练参数使得例如g(z)>0时满足宣传文本信息;g(z)≤0时满足非宣传文本信息。
在一个示例中,当根据训练数据训练得到逻辑回归模型之后,所述方法还可以包括:接收待分类的目标信息;根据所述分类模型对所述目标信息进行分类。具体地,可以在接收到待分类的目标信息之后,将所述目标信息进行分词;并将所述目标信息中按照第一归类方式归类的所述宣传词汇的比例作为所述目标信息的第一特征,按照第二归类方式归类的所述宣传词汇的比例作为所述目标信息的第二特征;以及根据所述目标信息的所述第一特征和第二特征,利用所述逻辑回归模型判断所述目标信息的类别。其中,所述目标信息宣传词汇的比例可以为:所述目标信息中包含所述宣传词汇的句子占总句子数量的比例;或所述目标信息中包含所述宣传词汇占总词汇数量的比例。随后,可以将目标信息分词后按照不同归类方式得到的第一特征和第二特征分别带入上述逻辑回归模型,以求得此时g(z)的取值,并将g(z)>0的结果归类为宣传文本信息;g(z)≤0的结果归类为非宣传文本信息。
下面以一个具体的示例性实施方式来说明根据本发明上述实施例的文本分类方法的具体执行步骤。在本示例性实施方式的文本分类方法中,首先可以从主流媒体分别接收约300篇宣传文本信息和300篇非宣传文本信息,以构建训练集。例如,宣传文本信息的一个示例可以为:“国行将以MotoZPlay打头阵,支持MotoMods\n摩托罗拉在6月份发布了全新旗舰级手机Moto Z和Moto Z极,但正式开卖却要到九月份,近日有准备开***行版本的消息,其中有一款Moto Z系列手机已于前段时间完成入网认证。从公布的照片和尺寸来看,这部Moto Z手机看似是Moto Z极,因为机身厚度为6.99mm、165g重量和3500mAh电池,但该机搭载的处理器只是2GHz主频,推测是骁龙625(骁龙820是2.15GHz),内存为3GB,这机可能是Moto Z Play。有趣的是国行Moto Z Play的Moto logo是放在顶部听筒下面,而海外版则是在home键上面。虽然配置上有缩减,但Moto Z Play也是支持Moto Mods模块,有传国行MotoZ运行的是VIBE UI,不再是原生Android风格的界面。Moto ZPlay售价或在2000多”。而非宣传文本信息的一个示例(采自用户评论)可以为:“moto z是很漂亮,好机器浪费了,很漂亮”。
在获取用于训练的所有宣传文本信息和非宣传文本信息之后,可以分别对每条文本信息进行分词,并获取包含分词后所有词汇的总词汇表。
随后,针对总词汇表,可以针对每个词汇计算其针对宣传文本信息的卡方统计量,计算方法同上。在获取卡方统计量计算结果后,可以将其从大到小进行排序,并选取前100个词汇作为宣传词汇,例如可以为“报道”、“网站”、“采编”、“采访”等。在获知总词汇表中的宣传词汇之后,可以对每条文本信息按照标点符号(如逗号、句号和/或省略号等)进行句子切分,并获取其第一特征——即此文本信息中包含按此分类方式获得的宣传词汇的句子数占总句子数的比值。
另外,针对总词汇表,还可以根据预先获取的宣传关键词词典来对所有词汇进行分类,并确定其中的宣传词汇,此时例如可以为“采访”、“新闻”、“报道”等。随后,也可以对每条文本信息按照标点符号(如逗号、句号和/或省略号等)进行句子切分,并获取其第二特征——即此文本信息中包含按此分类方式获得的宣传词汇的句子数占总句子数的比值。
在获取所有文本信息的类别、第一特征、第二特征之后,即可根据前述公式训练逻辑回归模型,以使得g(z)>0时满足其为宣传文本信息;g(z)≤0时满足其为非宣传文本信息。并根据这一逻辑回归模型来对之后输入的目标信息进行分类,以确定目标信息的类别是宣传文本信息还是非宣传文本信息。
在根据本发明实施例提供的文本分类方法中,可以针对预先获取的宣传文本信息和非宣传文本信息进行处理,并根据处理结果训练逻辑回归模型作为用于区分宣传文本信息和非宣传文本信息的分类模型,并利用所得到的逻辑回归模型对目标信息进行分类。本发明实施例提供的文本分类方法能够准确区分宣传文本信息和非宣传文本信息,并且能够有效提高舆情分析的准确性。
下面,参照图2来描述根据本发明实施例的文本分类装置200的框图。该装置可以执行上述文本分类方法。由于该装置的操作与上文所述的文本分类方法的各个步骤基本相同,因此在这里只对其进行简要的描述,而省略对相同内容的重复描述。
如图2所示,文本分类装置200包括获取单元210、处理单元220和训练单元230。需要认识到,图2仅示出与本发明的实施例相关的部件,而省略了其他部件,但这只是示意性的,根据需要,文本分类装置200可以包括其他部件。
如图2所示,获取单元210获取用于训练的宣传文本信息和非宣传文本信息。
在本发明实施例中,文本分类装置200首先可以根据预先获取的语料信息构建训练模型,随后再根据所训练的模型作为分类模型以对目标信息进行分类。其中,为保证用于构建训练模型的语料信息的典型性和准确性,获取单元210获取的用于训练的宣传文本信息和非宣传文本信息可以均取自主流媒体,并经预先筛选和归类以确定两类文本信息的集合:宣传文本信息和非宣传文本信息,以及这两类文本信息所包含的语料内容。
处理单元220将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征。
具体地,处理单元220首先可以将所述宣传文本信息和所述非宣传文本信息利用第一归类方式进行处理,其中可以包括:将所述宣传文本信息和所述非宣传文本信息分别进行分词,对经分词后的每个词汇计算其对应所述宣传文本信息的卡方统计量,并将计算得到的卡方统计量符合预设条件的词汇归类为宣传词汇。
在本发明一个示例中,处理单元220对文本信息的分词处理可以将一条文本信息分拆为多个词汇的组合,例如,针对某一条内容为“我希望中国队夺冠”的文本信息,分词后得到的词汇可以分别是“我”、“希望”、“中国队”和“夺冠”。因此,可以分别将每一条宣传文本信息和非宣传文本信息根据上述方式进行分词,以获得分词后包含所有词汇的总词汇表、以及分别属于宣传文本信息和非宣传文本信息的词汇表。随后,可以针对所述总词汇表中的每个词汇,计算对应宣传文本信息这一类别的卡方统计量,并针对卡方统计量的计算结果对总词汇表中的词汇进行分类。
具体地,处理单元220根据宣传文本信息和非宣传文本信息这两类集合计算第一词汇对应宣传文本信息的卡方统计量的具体公式可以为:
其中,chi为卡方统计量,A为出现所述第一词汇,且为宣传文本信息的数量;B为出现所述第一词汇,且为非宣传文本信息的数量;C为未出现所述第一词汇,且为宣传文本信息的数量;D为未出现所述第一词汇,且为非宣传文本信息的数量。
例如,对于“报道”这个词,出现这个词,且为宣传文本信息的数量A为900;出现这个词,且为非宣传文本信息的数量B为200;未出现这个词,且为宣传文本信息的数量C为500;未出现这个词,且为非宣传文本信息的数量D为700,那么,对于“报道”这个词对应宣传文本信息的卡方统计量为:
因此,对“报道”这个词对应宣传文本信息的卡方统计量所得到的数值为:212803。
在本发明实施例中,处理单元220可以将卡方统计量的计算结果符合预设条件的词汇归类为宣传词汇。例如,可以将所计算的卡方统计量大于一定阈值的词汇归类为宣传词汇。其中,当“报道”这个词的卡方统计量的值大于预设阈值时,可以被归类为宣传词汇。再例如,处理单元220还可以将总词汇表中每个词汇计算得到的卡方统计量根据大小进行排序,并选取在前预设数量的词汇作为宣传词汇。具体地,处理单元220可以将“报道”、“小编”、“网站”等卡方统计量排序在前100位的词汇作为宣传词汇。
上述为处理单元220将宣传文本信息和所述非宣传文本信息利用第一归类方式进行处理的具体示例。在利用第一归类方式处理宣传文本信息和非宣传文本信息之后,处理单元220可以将宣传文本信息中按照第一归类方式归类的所述宣传词汇的比例作为所述宣传文本信息的第一特征,其中,宣传词汇的比例可以为宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或宣传文本信息中包含所述宣传词汇占总词汇数量的比例。另外,在利用第一归类方式处理宣传文本信息和非宣传文本信息之后,还可以将非宣传文本信息中按照第一归类方式归类的所述宣传词汇的比例作为所述非宣传文本信息的第一特征。其中,宣传词汇的比例可以为非宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或非宣传文本信息中包含所述宣传词汇占总词汇数量的比例。
此外,处理单元220还可以将所述宣传文本信息和所述非宣传文本信息利用第二归类方式进行处理,包括:将所述宣传文本信息和所述非宣传文本信息分别进行分词,并将所述宣传文本信息中符合预设规则的词汇归类为宣传词汇。其中,处理单元220对所述宣传文本信息和所述非宣传文本信息进行分词的方式如前所述,在此不再重复。在对宣传文本信息和非宣传文本信息进行分词之后,处理单元220同样可以获得包含所有词汇的总词汇表,并对总词汇表中的所有词汇按照预设规则进行分类,以获取属于宣传类别的宣传词汇和非宣传类别的非宣传词汇。例如,处理单元220可以根据预先获取的包含宣传关键词的词典来对总词汇表中的所有词汇进行分类。再例如,还可以根据在某些特定数据来源(如特定宣传网站等)抓取的数据或词汇列表对总词汇表进行分类。还例如,可以根据人工提取对总词汇表进行分类,或在前述机选粗略分类的前提下利用人工对词汇分类结果进行精细筛选,以提高分类的精确程度。
在处理单元220利用第二归类方式处理宣传文本信息和非宣传文本信息之后,可以将宣传文本信息中按照第二归类方式归类的所述宣传词汇的比例作为所述宣传文本信息的第二特征,其中,宣传词汇的比例可以为宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或宣传文本信息中包含所述宣传词汇占总词汇数量的比例。另外,还可以将非宣传文本信息中按照第二归类方式归类的所述宣传词汇的比例作为所述非宣传文本信息的第二特征。其中,宣传词汇的比例可以为非宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例,或非宣传文本信息中包含所述宣传词汇占总词汇数量的比例。
训练单元230基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
在处理单元220获取宣传文本信息和/或非宣传文本信息的第一特征和第二特征之后,训练单元230可以利用所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型。具体地,训练单元230针对所有获取的用于训练的文本信息(宣传文本信息和非宣传文本信息),均可以构建包含文本信息类别(宣传/非宣传)、文本信息的第一特征、文本信息的第二特征等参数的向量,并根据所有文本信息对应的向量来训练逻辑回归模型,以作为分类模型对目标信息进行分类。
例如,所述逻辑回归模型可以用如下公式来表示:
z=w1×t1+w2×t2,
其中g(z)为逻辑回归函数,w1和w2为训练参数,t1为第一特征,t2为第二特征。在上述逻辑回归函数中,可以调整训练参数使得例如g(z)>0时满足宣传文本信息;g(z)≤0时满足非宣传文本信息。
在一个示例中,当训练单元230根据训练数据训练得到逻辑回归模型之后,所述接收单元210还可以接收待分类的目标信息,以及所述装置200还可以包括分类单元(未示出),配置为根据所述分类模型对所述目标信息进行分类。具体地,可以在接收到待分类的目标信息之后,将所述目标信息进行分词;并将所述目标信息中按照第一归类方式归类的所述宣传词汇的比例作为所述目标信息的第一特征,按照第二归类方式归类的所述宣传词汇的比例作为所述目标信息的第二特征;以及根据所述目标信息的所述第一特征和第二特征,利用所述逻辑回归模型判断所述目标信息的类别。其中,所述目标信息宣传词汇的比例可以为:所述目标信息中包含所述宣传词汇的句子占总句子数量的比例;或所述目标信息中包含所述宣传词汇占总词汇数量的比例。随后,可以将目标信息分词后按照不同归类方式得到的第一特征和第二特征分别带入上述逻辑回归模型,以求得此时g(z)的取值,并将g(z)>0的结果归类为宣传文本信息;g(z)≤0的结果归类为非宣传文本信息。
在根据本发明实施例提供的文本分类装置中,可以针对预先获取的宣传文本信息和非宣传文本信息进行处理,并根据处理结果训练逻辑回归模型作为用于区分宣传文本信息和非宣传文本信息的分类模型,并利用所得到的逻辑回归模型对目标信息进行分类。本发明实施例提供的文本分类装置能够准确区分宣传文本信息和非宣传文本信息,并且能够有效提高舆情分析的准确性。
下面,参照图3来描述根据本发明实施例的文本分类装置300的框图。该文本分类装置300可以执行上述文本分类方法。由于该文本分类装置300的操作与上文参照图1所述的文本分类方法的各个步骤基本相同,因此在这里只对其进行简要的描述,而省略对相同内容的重复描述。
图3中的文本分类装置300可以包括处理器310和存储器320。所述文本分类装置300还可以包括诸如输入单元、输出单元(未示出)等其他各项组件,这些组件通过总线***和/或其它形式的连接机构(未示出)互连。应当注意,图3所示的文本分类装置300的组件和结构只是示例性的,而非限制性的,根据需要,文本分类装置300也可以具有其他组件和结构。
所述处理器310是控制中心,利用各种接口和线路连接整个装置的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320中的数据,执行文本分类装置300的各种功能和处理数据,从而对文本分类装置300进行整体监控。较佳地,处理器310可包括一个或多个处理核心;优选的,处理器310可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器310中。
存储器320所包括的计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令。
其中,在存储在所述存储器320的计算机程序指令被所述处理器310运行时,所述处理器可以执行以下步骤:
获取用于训练的宣传文本信息和非宣传文本信息;
将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;
基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
未示出的输入单元可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。较佳的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器310,并能接收处理器310发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
输出单元可以向外部(例如用户)输出各种信息,例如图像信息、应用控制信息等。例如,输出单元可以为显示单元,可用于显示由用户输入的信息或提供给用户的信息以及文本分类装置300的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板,较佳地,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器310以确定触摸事件的类型,随后处理器310根据触摸事件的类型在显示面板上提供相应的视觉输出。触敏表面与显示面板可以作为两个独立的部件来实现输入和输入功能,在某些实施例中,也可以将触敏表面与显示面板集成而实现输入和输出功能。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书中说明的各方式/实施方式的处理步骤、次序、流程图等只要没有矛盾就可以将顺序替换。例如,在本说明书说明的方法以示例的顺序来提示各种步骤的要素,不限于提示的特定的顺序。
在本说明书中说明的各方式/实施方式可以单独使用,也可以组合使用,还可以伴随着执行而进行切换。另外,指定的信息的通知(例如判定“为真”的通知)不限于明显地进行,也可以暗地(例如,不进行该指定信息的通知)地进行。
软件与称作软件、固件、中间件、微代码、硬件描述语言或称作其它名称无关,能够广泛地解释成指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例行程序、子例行程序、对象、可执行文件、执行线程、步骤、功能等意思。
另外,软件、指令等可以经由传送介质来收发信。例如,软件在使用同轴线缆、光纤、双绞线及数字用户线路(DSL)等有线技术及/或红外线、无线及微波等无线技术从网页、服务器、或者其它远程数据源发送的情况下,这些有线技术及/或无线技术包含在传送介质的定义中。
在此公开的方法包括用于实现描述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说,除非指定了动作的具体顺序,否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。
其他例子和实现方式在本公开和所附权利要求的范围和精神内。例如,由于软件的本质,以上描述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置,包括被分发以便功能的部分在不同的物理位置处实现。而且,如在此使用的,包括在权利要求中使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的信息处理方法的具体实现,可以参考产品实施例中的对应描述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文本分类方法,包括:
获取用于训练的宣传文本信息和非宣传文本信息;
将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;
基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
2.如权利要求1所述的方法,其中,所述方法还包括:
接收待分类的目标信息;
根据所述分类模型对所述目标信息进行分类。
3.如权利要求2所述的方法,其中,所述将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理包括:
将所述宣传文本信息和所述非宣传文本信息利用第一归类方式进行处理,包括:将所述宣传文本信息和所述非宣传文本信息分别进行分词,并对经分词后的每个词汇计算其对应所述宣传文本信息的卡方统计量,将计算得到的卡方统计量符合预设条件的词汇归类为宣传词汇;
将所述宣传文本信息和所述非宣传文本信息利用第二归类方式进行处理,包括:将所述宣传文本信息和所述非宣传文本信息分别进行分词,并将所述宣传文本信息中符合预设规则的词汇归类为宣传词汇。
4.如权利要求3所述的方法,其中,所述获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征包括:
将宣传文本信息中按照第一归类方式归类的所述宣传词汇的比例作为所述宣传文本信息的第一特征,按照第二归类方式归类的所述宣传词汇的比例作为所述宣传文本信息的第二特征;或
将非宣传文本信息中按照第一归类方式归类的所述宣传词汇的比例作为所述非宣传文本信息的第一特征,按照第二归类方式归类的所述宣传词汇的比例作为所述非宣传文本信息的第二特征。
5.如权利要求4所述的方法,其中,所述宣传词汇的比例为:
宣传文本信息或非宣传文本信息中包含所述宣传词汇的句子占总句子数量的比例;或
宣传文本信息或非宣传文本信息中包含所述宣传词汇占总词汇数量的比例。
6.如权利要求3所述的方法,其中,所述根据所述分类模型对所述目标信息进行分类包括:
将所述目标信息进行分词;
将所述目标信息中按照第一归类方式归类的所述宣传词汇的比例作为所述目标信息的第一特征,按照第二归类方式归类的所述宣传词汇的比例作为所述目标信息的第二特征;
根据所述目标信息的所述第一特征和第二特征,利用所述逻辑回归模型判断所述目标信息的类别。
7.如权利要求6所述的方法,其中,所述宣传词汇的比例为:
所述目标信息中包含所述宣传词汇的句子占总句子数量的比例;或
所述目标信息中包含所述宣传词汇占总词汇数量的比例。
8.一种文本分类装置,包括:
获取单元,配置为获取用于训练的宣传文本信息和非宣传文本信息;
处理单元,配置为将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;
训练单元,配置为基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
9.如权利要求8所述的装置,其中,
所述获取单元接收待分类的目标信息;以及
所述装置还包括:分类单元,配置为根据所述训练单元训练的分类模型对所述获取单元接收的目标信息进行分类。
10.一种文本分类装置,包括:
处理器;
存储器;和
存储在所述存储器中的计算机程序指令,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获取用于训练的宣传文本信息和非宣传文本信息;
将所述宣传文本信息和所述非宣传文本信息分别利用第一归类方式和第二归类方式进行处理,以分别获取对应于所述第一归类方式的第一特征和对应于所述第二归类方式的第二特征;
基于所述宣传文本信息和所述非宣传文本信息的类别、所述第一特征和所述第二特征训练逻辑回归模型,作为用于分类的分类模型,以对目标信息进行分类。
CN201710883898.5A 2017-09-26 2017-09-26 一种文本分类方法和装置 Active CN107609160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710883898.5A CN107609160B (zh) 2017-09-26 2017-09-26 一种文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710883898.5A CN107609160B (zh) 2017-09-26 2017-09-26 一种文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN107609160A true CN107609160A (zh) 2018-01-19
CN107609160B CN107609160B (zh) 2020-02-21

Family

ID=61058573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710883898.5A Active CN107609160B (zh) 2017-09-26 2017-09-26 一种文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN107609160B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256685A1 (en) * 2004-01-28 2005-11-17 Microsoft Corporation Exponential priors for maximum entropy models
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106897428A (zh) * 2017-02-27 2017-06-27 腾讯科技(深圳)有限公司 文本分类特征提取方法、文本分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256685A1 (en) * 2004-01-28 2005-11-17 Microsoft Corporation Exponential priors for maximum entropy models
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106897428A (zh) * 2017-02-27 2017-06-27 腾讯科技(深圳)有限公司 文本分类特征提取方法、文本分类方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107609160B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN105874449B (zh) 用于提取和生成用于显示内容的图像的***和方法
CN108304379A (zh) 一种文章识别方法、装置及存储介质
CN106897428A (zh) 文本分类特征提取方法、文本分类方法及装置
CN108628741A (zh) 网页页面测试方法、装置、电子设备和介质
EP3851977A1 (en) Method, apparatus, electronic device, and storage medium for extracting spo triples
CN101645065B (zh) 确定需要加载的辅助词库的方法、装置及输入法***
WO2016197577A1 (zh) 评论信息的标注方法、装置和计算机设备
CN107679144A (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN109101469A (zh) 从数字化文档提取可搜索的信息
CN108228720B (zh) 识别目标文字内容和原图相关性的方法、***、装置、终端、及存储介质
CN108241741A (zh) 一种文本分类方法、服务器及计算机可读存储介质
CN110457475A (zh) 一种用于文本分类体系构建和标注语料扩充的方法和***
CN107678644A (zh) 一种图像处理方法及移动终端
CN104346408B (zh) 一种对网络用户进行标注的方法与设备
CN102789449B (zh) 对评论文本进行评价的方法和装置
CN106095845A (zh) 文本分类方法和装置
CN106484256A (zh) 截图拼接方法及装置
CN107679213A (zh) 一种习题搜索方法、***及终端设备
CN106354520A (zh) 一种界面背景切换方法及移动终端
CN107784034A (zh) 页面类别识别方法及装置、用于页面类别识别的装置
CN111737473A (zh) 文本分类方法、装置及设备
CN106126662A (zh) 一种电子书显示方法和移动终端
CN109446324B (zh) 样本数据的处理方法、装置、存储介质及电子设备
CN107491482A (zh) 一种提示方法及移动终端
CN107609160A (zh) 一种文本分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant