CN112668322A - 确定短文本类别的方法及装置 - Google Patents
确定短文本类别的方法及装置 Download PDFInfo
- Publication number
- CN112668322A CN112668322A CN201910931929.9A CN201910931929A CN112668322A CN 112668322 A CN112668322 A CN 112668322A CN 201910931929 A CN201910931929 A CN 201910931929A CN 112668322 A CN112668322 A CN 112668322A
- Authority
- CN
- China
- Prior art keywords
- text
- short text
- determining
- historical
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 14
- 239000013598 vector Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了确定短文本类别的方法及装置,可以获得待处理的短文本,对所述待处理的短文本进行分词处理,获得多个词语,根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;根据所述相似度确定所述待处理的短文本的文本类别。本发明可以通过待处理的短文本与历史短文本的相似度来确定文本类别。由于仅筛选出历史时间段内的部分历史短文本,因此本发明确定相似度时使用的历史短文本数量较少,减少了计算量。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及确定短文本类别的方法及装置。
背景技术
随着移动终端智能化的发展,纷繁多样的短文本(如微博发布的短文本)充斥着互联网的各个角落。
短文本虽然信息少,但是及时性强,往往能从中挖掘出大量的有用信息。而确定短文本的文本类别就是对短文本进行信息挖掘的一个重要过程。
但是,现在还没有一种可以有效确定短文本的文本类别的技术。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的确定短文本类别的方法及装置,技术方案如下:
一种确定短文本类别的方法,包括:
获得待处理的短文本;
对所述待处理的短文本进行分词处理,获得多个词语;
根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
根据所述相似度确定所述待处理的短文本的文本类别。
可选的,在所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度之前,所述方法还包括:
获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
确定与所述待处理的短文本的发布时刻匹配的历史时间段;
从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;
所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度,包括:
根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
可选的,所述根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度,包括:
采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;
根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
确定最高的所述相似度对应的所述历史短文本;
根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本;
根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,还包括:
在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
可选的,所述根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别,包括:
在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新的文本类别。
一种确定短文本类别的装置,包括:文本获得单元、分词单元、相似度确定单元和类别确定单元,
所述文本获得单元,用于获得待处理的短文本;
所述分词单元,用于对所述待处理的短文本进行分词处理,获得多个词语;
所述相似度确定单元,用于根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
所述类别确定单元,用于根据所述相似度确定所述待处理的短文本的文本类别。
可选的,所述装置还包括:第一词语集获得单元、时间段确定单元和第二词语集获得单元,
所述第一词语集获得单元,用于在所述相似度确定单元确定所述待处理的短文本与所述历史短文本的相似度之前,获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
所述时间段确定单元,用于确定与所述待处理的短文本的发布时刻匹配的历史时间段;
所述第二词语集获得单元,用于从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;
所述相似度确定单元,具体用于:
根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
可选的,所述相似度确定单元,包括:第一相似度确定子单元和第二相似度确定子单元,
所述第一相似度确定子单元,用于采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;
所述第二相似度确定子单元,用于根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
可选的,所述类别确定单元,包括:第一历史短文本计算子单元和类别确定子单元,
所述第一历史短文本计算子单元,用于确定最高的所述相似度对应的所述历史短文本;
所述类别确定子单元,用于根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
可选的,所述类别确定单元,包括:第二历史短文本计算子单元和类别确定子单元,
所述第二历史短文本计算子单元,用于在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本;
所述类别确定子单元,用于根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
可选的,所述类别确定单元,还包括:新类别子单元,用于在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
可选的,所述类别确定子单元用于:
在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新的文本类别。
一种设备,包括:至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述的任一种确定短文本类别的方法。
一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上述的任一种确定短文本类别的方法。
借由上述技术方案,本发明提供的确定短文本类别的方法及装置,可以获得待处理的短文本,对所述待处理的短文本进行分词处理,获得多个词语;根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;根据所述相似度确定所述待处理的短文本的文本类别。本发明可以通过待处理的短文本与历史短文本的相似度来确定文本类别。由于仅筛选出历史时间段内的部分历史短文本,因此本发明确定相似度时使用的历史短文本数量较少,减少了计算量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种确定短文本类别的方法的流程图;
图2示出了本发明实施例提供的另一种确定短文本类别的方法的流程图;
图3示出了本发明实施例提供的另一种确定短文本类别的方法的流程图;
图4示出了本发明实施例提供的另一种确定短文本类别的方法的流程图;
图5示出了本发明实施例提供的一种确定短文本类别的装置的结构示意图;
图6示出了本发明实施例提供的一种设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种确定短文本类别的方法,可以包括:
S100、获得待处理的短文本。
在本发明一可选的具体实施例中,待处理的短文本的发布时刻可以距离当前时刻较近,例如:待处理的短文本的发布时刻与当前时刻的时间间隔不大于预设时间间隔。这样,本发明就可以及时获得发布不久的短文本并对其进行处理。
具体的,本发明可以通过多种不同的方式获得待处理的短文本。例如:通过爬虫从网络中爬取发布的短文本。再如:从短文本发布应用程序的服务器中获取短文本。
在本发明一可选的具体实施例中,本发明获得的短文本可以为使用中文、英文等不同语言发表的文本内容,短文本中可以包含至少一种语言的文字,还可以包含数字、标点符号、表情符号等。本发明在获得待处理的短文本后,可以首先对短文本进行预处理。该预处理可以包括:去重、去除标点符号、去除表情符号等处理中的至少一种。
S200、对所述待处理的短文本进行分词处理,获得多个词语。
其中,本发明可以通过多种不同的分词方式对短文本进行分词,如:盘古分词、Yaha分词、Jieba分词、清华THULAC等。
具体的,在进行分词后,本发明还可以从获得的多个词语中去除停顿词等无实际含义的词语。
由于分词后获得的词语数量可能较多,为了降低后续处理的计算量,在本发明一可选的具体实施例中,本发明还可以从分词后得到的多个词语中筛选出部分词语。例如:筛选出高频词语,或者根据TF-IDF算法(term frequency–inverse document frequency,词频-逆文本频率)从获得的多个词语中筛选出权重最高的N个词语。其中,N可以为10。当然,在另一实施例中,当步骤S200对待处理的短文本进行分词处理后获得的词语数量较少或去除无实际含义的词语后剩余词语数量较少时,可以将待处理的短文本丢弃,无需确定该待处理的短文本的文本类别。
S300、根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度。
在本发明一可选的具体实施例中,本发明可以确定各词语的词向量,从而获得每一个短文本的至少部分词语构成的词向量矩阵。通过对比两个短文本的词向量矩阵,本发明就可以获得这两个短文本的相似度。本发明可以使用余弦夹角算法对词向量或词向量矩阵进行计算来获得短文本之间的相似度。当然,本发明也可以使用其他方法来确定短文本的相似度。
S400、根据所述相似度确定所述待处理的短文本的文本类别。
可以理解的是,相似度较高的两个短文本的文本类别一般是相同的,因此本发明可以根据相似度确定待处理的短文本的文本类别。
本发明中的文本类别可以不具有实际的类别含义,而仅采用类别标识,如类别1、类别A等。图1所示方法可以应用于聚类过程,可以理解的是,聚类过程可以将对象归类。当然,在其他实施例中,本发明还可以使用关键词查找、语义识别技术、自然语言处理等多种方式对各类别的短文本的实际类别含义进行识别,例如:当短文本中出现“打卡”、“风景”、“海滩”、“大海”等关键词时,可以确定短文本的类别含义为旅游类别短文本。
在另一实施例中,还可以在确定待处理的短文本的文本类别后,对待处理的短文本的发布时刻进行记录。
本发明实施例提供的一种确定短文本类别的方法,可以获得待处理的短文本,对所述待处理的短文本进行分词处理,获得多个词语,根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;根据所述相似度确定所述待处理的短文本的文本类别。本发明可以通过待处理的短文本与历史短文本的相似度来确定文本类别。由于仅筛选出历史时间段内的部分历史短文本,因此本发明确定相似度时使用的历史短文本数量较少,减少了计算量。
如图2所示,本发明实施例提供的另一种确定短文本类别的方法,可以包括:
S100、获得待处理的短文本。
S200、对所述待处理的短文本进行分词处理,获得多个词语。
S210、获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
其中,一个词语的热度可以为该词语被使用的次数,也可以为使用该词语的人数。本发明可以通过统计获得词语的热度排名,当然也可以从第三方设备中获得热度排名。
可选的,第一词语集可以为多个词语中热度排名靠前的N个词语。可以理解的是,热度排名靠前的词语的代表性和重要性更强,因此可以使用这些词语确定文本类别。通过使用词语集,本实施例可以有效减少确定文本类别的过程中使用的词语数量,进一步减少了计算量。
S220、确定与所述待处理的短文本的发布时刻匹配的历史时间段;
本实施例中的历史时间段与待处理的短文本的发布时刻匹配。在一具体实施方式中,历史时间段为待处理的短文本的发布时刻之后的一段时间。例如:历史时间段为待处理的短文本的发布时刻之后的72小时。
随着短文本的发布时刻的变更,与其匹配的历史时间段也将改变,进而确定改变后的历史时间段内发布的历史短文本。通过步骤S220,本实施例实现了跟随待处理的短文本筛选匹配的历史短文本的效果。由于在待处理的短文本的发布时刻近期发布的历史短文本与待处理的短文本的相关性较高,因此通过步骤S220本发明既可以减少进行后续计算的短文本数量,同时又保证了所选择的历史短文本的有效性和相关性,从而保证了相似度计算的效果。
S230、从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集。
可选的,第二词语集可以为历史短文本中的全部或部分词语。
具体的,对历史短文本,本实施可以按照与步骤S200相同的方式对历史短文本处理,从而获得多个词语。当然,本实施例也可以从获得的多个词语中根据词频或TF-IDF算法筛选出部分词语作为第二词语集。
上述历史短文本可以包括已确定文本类别的短文本和/或未确定文本类别的短文本。在实际应用中,本发明其他实施例在确定一个短文本的文本类别后,可以对短文本的文本类别记性记录。进一步,可以建立分类数据库,将短文本、短文本的至少部分词语、短文本的文本类别、短文本的发布时刻进行对应存储。当需要执行步骤S230时,可以从该分类数据库中提取所需的各种信息。
S310、根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
由于第一词语集是从待处理的文本中选取的词语的集合,第二词语集是从一个历史短文本中选取的词语的集合,因此通过这两个集合可以确定待处理的短文本与该历史短文本的相似度。
在本发明一可选的具体实施例中,本发明可以确定各词语的词向量,从而获得每一个词语集的词向量矩阵。通过对比两个词语集的词向量矩阵,本发明就可以获得这两个词语集的词语相似度,进而确定待处理的短文本与该历史短文本的相似度。本发明可以使用余弦夹角算法对词向量或词向量矩阵进行计算来获得词语集之间的相似度。当然,本发明也可以使用其他方法来确定词语集的相似度。
其中,步骤S310为图1所示步骤S300的一种具体实施方式。
可选的,步骤S310可以进一步具体包括:
采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;
根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
其中,预设算法可以为余弦夹角算法。本实施例可以将词语相似度确定待处理的短文本与历史短文本的相似度,例如:根据待处理的短文本得到的第一词语集和根据一个历史短文本得到的第二词语集的词语相似度为0.95,则可以将0.95确定为待处理的短文本和这个历史短文本的相似度。
S400、根据所述相似度确定所述待处理的短文本的文本类别。
其中,步骤S100、步骤S200和步骤S400在图1所示实施例中已具体说明,在此实施例中不再赘述。
如图3所示,本发明实施例提供的另一种确定短文本类别的方法,可以包括:
S100、获得待处理的短文本。
S200、对所述待处理的短文本进行分词处理,获得多个词语。
S300、根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度。
其中,步骤S100、步骤S200和步骤S300在图1所示实施例中已具体说明,在此实施例中不再赘述。
S410、确定最高的所述相似度对应的所述历史短文本。
S420、根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
其中,步骤S410和步骤S420为图1所示步骤S400的一种具体实施方式。
可以理解的是,文本越相似,则其文本类别相同的可能性越大,因此本实施例根据相似度最高的历史短文本的文本类别确定待处理的短文本的文本类别,可以有效保证确定的文本类别的正确性。
如图4所示,本发明实施例提供的另一种确定短文本类别的方法,可以包括:
S100、获得待处理的短文本。
S200、对所述待处理的短文本进行分词处理,获得多个词语。
S300、根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度。
其中,步骤S100、步骤S200和步骤S300在图1所示实施例中已具体说明,在此实施例中不再赘述。
S411、在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本。
在一具体实施例中,预设相似度可以为0.7。
其中,当最高的所述相似度低于预设相似度时,则说明历史时间段内没有历史短文本与待处理的短文本的相似度较高,此时,可以将待处理的短文本的文本类别确定为一个新的文本类别。
当然,在其他实施例中,当最高的所述相似度不低于预设相似度时,还可以重新确定历史时间段(例如扩大历史时间段的长度或将之前确定的历史时间段之前的一个时间段确定为新的历史时间段),从而获得更多的历史短文本并再次进行步骤S300和步骤S400的处理。
S420、根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
其中,步骤S411和步骤S420为图1所示步骤S400的另一种具体实施方式。
在图4所示实施例基础上,本发明实施例提供的另一种确定短文本类别的方法,图1所示步骤S400还可以包括:
在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
可以理解的是,当没有历史短文本与待处理的短文本相似度比较高时,说明待处理的短文本可能是一个新的文本类别的短文本,因此可以将所述待处理的短文本的文本类别确定为一个新的文本类别。
在本发明另一实施例中,图3及图4所示实施例中的步骤S420可以具体包括:
在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新的文本类别。
当两个短文本相似度较高时,则二者的文本类别也应相同。如相似度最高的历史短文本为未确定文本类别的短文本,则说明该历史短文本与待处理的短文本都是新的文本类别的短文本,可以将二者的文本类别确定为相同的一个新的文本类别。
与上述方法实施例相对应,本发明还提供了一种确定短文本类别的装置。
如图5所示,本发明实施例提供的一种确定短文本类别的装置,可以包括:文本获得单元100、分词单元200、相似度确定单元300和类别确定单元400,
所述文本获得单元100,用于获得待处理的短文本;
所述分词单元200,用于对所述待处理的短文本进行分词处理,获得多个词语;
所述相似度确定单元300,用于根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
所述类别确定单元400,用于根据所述相似度确定所述待处理的短文本的文本类别。
在其他实施例中,图5所示装置还可以包括:第一词语集获得单元、时间段确定单元和第二词语集获得单元,
所述第一词语集获得单元,用于在所述相似度确定单元确定所述待处理的短文本与所述历史短文本的相似度之前,获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
所述时间段确定单元,用于确定与所述待处理的短文本的发布时刻匹配的历史时间段;
所述第二词语集获得单元,用于从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;
所述相似度确定单元300,可以具体用于:
根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
在其他实施例中,相似度确定单元300,可以包括:第一相似度确定子单元和第二相似度确定子单元,
所述第一相似度确定子单元,用于采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;
所述第二相似度确定子单元,用于根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
在其他实施例中,类别确定单元400,可以包括:第一历史短文本计算子单元和类别确定子单元,
所述第一历史短文本计算子单元,用于确定最高的所述相似度对应的所述历史短文本;
所述类别确定子单元,用于根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
在其他实施例中,类别确定单元400,可以包括:第二历史短文本计算子单元和类别确定子单元,
所述第二历史短文本计算子单元,用于在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本;
所述类别确定子单元,用于根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
进一步,所述类别确定单元400,还可以包括:新类别子单元,用于在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
可选的,上述类别确定子单元可以具体用于:
在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新的文本类别。
本发明实施例提供的一种确定短文本类别的装置,可以获得待处理的短文本,对所述待处理的短文本进行分词处理,获得多个词语,根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;根据所述相似度确定所述待处理的短文本的文本类别。本发明可以通过待处理的短文本与历史短文本的相似度来确定文本类别。由于仅筛选出历史时间段内的部分历史短文本,因此本发明确定相似度时使用的历史短文本数量较少,减少了计算量。
所述确定短文本类别的装置包括处理器和存储器,上述文本获得单元100、分词单元200、相似度确定单元300和类别确定单元400等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定短文本类别。
本发明实施例提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现所述确定短文本类别的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述确定短文本类别的方法。
如图6所示,本发明实施例提供了一种设备70,设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703;其中,处理器701、存储器702通过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行上述的确定短文本类别的方法。本文中的设备70可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获得待处理的短文本;
对所述待处理的短文本进行分词处理,获得多个词语;
根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
根据所述相似度确定所述待处理的短文本的文本类别。
可选的,在所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度之前,所述方法还包括:
获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
确定与所述待处理的短文本的发布时刻匹配的历史时间段;
从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;
所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度,包括:
根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
可选的,所述根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度,包括:
采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;
根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
确定最高的所述相似度对应的所述历史短文本;
根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本;
根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,还包括:
在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
可选的,所述根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别,包括:
在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新的文本类别。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种确定短文本类别的方法,其特征在于,包括:
获得待处理的短文本;
对所述待处理的短文本进行分词处理,获得多个词语;
根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
根据所述相似度确定所述待处理的短文本的文本类别。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度之前,所述方法还包括:
获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
确定与所述待处理的短文本的发布时刻匹配的历史时间段;
从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;
所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度,包括:
根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度,包括:
采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;
根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
确定最高的所述相似度对应的所述历史短文本;
根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
5.根据权利要求1所述的方法,其特征在于,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本;
根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似度确定所述待处理的短文本的文本类别,还包括:
在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
7.根据权利要求4至6中任一项所述的方法,其特征在于,所述根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别,包括:
在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新的文本类别。
8.一种确定短文本类别的装置,其特征在于,包括:文本获得单元、分词单元、相似度确定单元和类别确定单元,
所述文本获得单元,用于获得待处理的短文本;
所述分词单元,用于对所述待处理的短文本进行分词处理,获得多个词语;
所述相似度确定单元,用于根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
所述类别确定单元,用于根据所述相似度确定所述待处理的短文本的文本类别。
9.一种设备,其特征在于,包括:至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至7任一项所述的确定短文本类别的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的确定短文本类别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910931929.9A CN112668322A (zh) | 2019-09-29 | 2019-09-29 | 确定短文本类别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910931929.9A CN112668322A (zh) | 2019-09-29 | 2019-09-29 | 确定短文本类别的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112668322A true CN112668322A (zh) | 2021-04-16 |
Family
ID=75399652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910931929.9A Pending CN112668322A (zh) | 2019-09-29 | 2019-09-29 | 确定短文本类别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668322A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158525A1 (en) * | 2010-12-20 | 2012-06-21 | Yahoo! Inc. | Automatic classification of display ads using ad images and landing pages |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN108763477A (zh) * | 2018-05-29 | 2018-11-06 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及*** |
CN109241274A (zh) * | 2017-07-04 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 文本聚类方法及装置 |
US20190197129A1 (en) * | 2017-12-26 | 2019-06-27 | Baidu Online Network Technology (Beijing) Co., Ltd . | Text analyzing method and device, server and computer-readable storage medium |
-
2019
- 2019-09-29 CN CN201910931929.9A patent/CN112668322A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158525A1 (en) * | 2010-12-20 | 2012-06-21 | Yahoo! Inc. | Automatic classification of display ads using ad images and landing pages |
CN109241274A (zh) * | 2017-07-04 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 文本聚类方法及装置 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
US20190197129A1 (en) * | 2017-12-26 | 2019-06-27 | Baidu Online Network Technology (Beijing) Co., Ltd . | Text analyzing method and device, server and computer-readable storage medium |
CN108763477A (zh) * | 2018-05-29 | 2018-11-06 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及*** |
Non-Patent Citations (1)
Title |
---|
杜亚璞: "一种基于改进ML-KNN的微博文本分类方法", 信息与电脑(理论版), vol. 2018, no. 7, 30 April 2018 (2018-04-30), pages 42 - 44 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9460117B2 (en) | Image searching | |
CN110321537B (zh) | 一种文案生成方法和装置 | |
US9436768B2 (en) | System and method for pushing and distributing promotion content | |
CN109344406B (zh) | 词性标注方法、装置和电子设备 | |
CN110019669B (zh) | 一种文本检索方法及装置 | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
CN110991161B (zh) | 相似文本确定方法、神经网络模型获得方法及相关装置 | |
CN111143551A (zh) | 文本预处理方法、分类方法、装置及设备 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN110969018A (zh) | 案情描述要素提取方法、机器学习模型获得方法及装置 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN107368489A (zh) | 一种资讯数据处理方法及装置 | |
CN111353045A (zh) | 构建文本分类体系的方法 | |
CN109597982B (zh) | 摘要文本识别方法及装置 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN111538930A (zh) | 一种首页显示方法及相关设备 | |
CN114969253A (zh) | 市场主体与政策的匹配方法、装置、计算设备及介质 | |
CN112668322A (zh) | 确定短文本类别的方法及装置 | |
CN110968691B (zh) | 司法热点确定方法及装置 | |
CN112528021A (zh) | 一种模型训练方法、模型训练装置及智能设备 | |
CN114662487A (zh) | 一种文本分段方法、装置、电子设备及可读存储介质 | |
CN110019771B (zh) | 文本处理的方法及装置 | |
CN112396078A (zh) | 一种服务分类方法、装置、设备及计算机可读存储介质 | |
CN111291177B (zh) | 一种信息处理方法、装置和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |