CN111190996A - 话题挖掘方法及装置 - Google Patents

话题挖掘方法及装置 Download PDF

Info

Publication number
CN111190996A
CN111190996A CN202010280395.0A CN202010280395A CN111190996A CN 111190996 A CN111190996 A CN 111190996A CN 202010280395 A CN202010280395 A CN 202010280395A CN 111190996 A CN111190996 A CN 111190996A
Authority
CN
China
Prior art keywords
text
hot word
unit
word
hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010280395.0A
Other languages
English (en)
Inventor
刘凡
黄修添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010280395.0A priority Critical patent/CN111190996A/zh
Publication of CN111190996A publication Critical patent/CN111190996A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例公开了一种话题挖掘方法及装置,用以实现话题挖掘的高效性、准确性及通用性。所述方法包括:提取待处理文本中的热词集,所述待处理文本中包括多个单位文本,所述热词集包括多个热词。针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集。基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词。从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本。从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。

Description

话题挖掘方法及装置
技术领域
本说明书涉及自然语言处理技术领域,尤其涉及一种话题挖掘方法及装置。
背景技术
针对线上业务,每天会产生大量的用户反馈数据,用户会针对线上产品的使用反馈他们遇到的各种问题,而当前业务方需要花费大量的时间才能从海量数据中挖掘出用户反馈的问题。针对用户群体反馈的问题,业务方希望能以话题的方式呈现出来,这样可以帮助业务尽快锁定线上问题。
在传统的话题生成方法中,通常会采用聚类算法将文本分类成若干簇,然后再对每簇中的数据做话题生成,在话题的生成方法中一般采用监督学习法(如seq2seq算法),由于监督学习法需要对数据进行标注,因此对人工有依赖,且无法通用于所有业务。
发明内容
一方面,本说明书一个或多个实施例提供一种话题挖掘方法,包括:提取待处理文本中的热词集,所述待处理文本中包括多个单位文本,所述热词集包括多个热词。针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集。基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词。从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本。从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
另一方面,本说明书一个或多个实施例提供一种话题挖掘装置,包括:提取模块,提取待处理文本中的热词集,所述待处理文本中包括多个单位文本,所述热词集包括多个热词。聚合模块,针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集。第一确定模块,基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词。第一筛选模块,从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本。第二筛选模块,从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
再一方面,本说明书一个或多个实施例提供一种话题挖掘设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:提取待处理文本中的热词集,所述待处理文本中包括多个单位文本,所述热词集包括多个热词。针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集。基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词。从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本。从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
再一方面,本说明书一个或多个实施例提供一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:提取待处理文本中的热词集,所述待处理文本中包括多个单位文本,所述热词集包括多个热词。针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集。基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词。从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本。从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本说明书一实施例的一种话题挖掘方法的示意性流程图;
图2是根据本说明书另一实施例的一种话题挖掘方法的示意性流程图;
图3是根据本说明书一实施例的一种话题挖掘装置的示意性框图;
图4是根据本说明书一实施例的一种话题挖掘设备的示意性框图。
具体实施方式
本说明书一个或多个实施例的目的是提供一种话题挖掘方法及装置,用以实现话题挖掘的高效性、准确性及通用性。
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个实施例保护的范围。
图1是根据本说明书一实施例的一种话题挖掘方法的示意性流程图,如图1所示,该方法包括:
S102,提取待处理文本中的热词集,待处理文本中包括多个单位文本,热词集包括多个热词。
热词即热门词汇,其作为一种词汇现象,反映了一个国家、一个地区在一个时期人们普遍关注的问题和事物。热词的表达形式主要有语言、文字以及图片。话题由若干词汇组织而成,在自然语言处理领域中反映一个时期的热点话题。单位文本可以是一个句子,也可以是由多个句子组合而成的一篇文章。
S104,针对热词集中的第一热词,从待处理文本中聚合包括第一热词的第一单位文本,得到第一单位文本集。
其中,第一热词可以是热词集中包含的任一热词。第一单位文本可以是一个或多个。
S106,基于第一单位文本集,确定热词集中与第一热词之间符合预设相关条件的第二热词。
其中,预设相关条件可包括以下至少一项:共现次数大于预设次数、共现频率大于预设频率、共现次数位于前N个、共现频率位于前M个、词相关度位于前K个。词相关度基于共现信息确定。N、M、K均为正整数。
若第一热词与第二热词以一定频率共现于同一句子或文章中,则第一热词与第二热词属于共现词。
词与词之间的共现信息反映了词与词之间的词相关度。例如,第一热词与第二热词在一篇文章中的共现次数越多,表明第一热词与第二热词之间的词相关度越高;反之,第一热词与第二热词在一篇文章中的共现次数越少,表明第一热词与第二热词之间的词相关度越低。
S108,从第一单位文本集中筛选出包括第二热词的第二单位文本。
S110,从第二单位文本中选择符合预设文本条件的单位文本,作为第一热词对应的话题。
在一个实施例中,预设文本条件可以是文本字数最少。基于此,当包含多个第二单位文本时,可从中筛选出文本字数最少的单位文本作为第一热词对应的话题。当仅有一个第二单位文本时,则可直接确定该第二单位文本为第一热词对应的话题。
采用本说明书一个或多个实施例提供的技术方案,通过提取待处理文本中的热词集,并针对热词集中的第一热词,从待处理文本中聚合包括第一热词的第一单位文本,得到第一单位文本集;基于第一单位文本集确定热词集中与第一热词之间符合预设相关条件的第二热词;进而从第一单位文本集中筛选出包括第二热词的第二单位文本,从第二单位文本中选择符合预设文本条件的单位文本作为第一热词对应的话题。可见,该技术方案不依赖于初始参数,且无需人工进行数据标注,因此实现了话题挖掘的全自动化,进而提升了话题挖掘的效率及准确度;此外,由于热词本身即可体现出对应领域内的业务类型,因此该技术方案适用于各类业务场景,具有很强的业务通用性,解耦了数据对具体业务场景的强依赖性。
在一个实施例中,提取待处理文本中的热词集之前,可先对待处理文本进行预处理,得到预处理后的待处理文本;然后再提取预处理后的待处理文本中的热词集。
其中,预处理可至少包括以下处理:
(1)对待处理文本进行分词处理。
可利用现有的分词技术对待处理文本进行分词处理,分词处理后可得到多个词、字、符号等。
(2)合并待处理文本中的同义词。
(3)删除待处理文本中的预设符号。
预设符号可包括单字、数字、标点符号等。
本实施例中,通过对待处理文本进行预处理,进而再对预处理后的待处理文本提取热词,能够预先排除掉文本中必然不属于热词的词或符号(如单字、标点符号、数字等),提升了热词的提取效率。
在一个实施例中,提取待处理文本中的热词集时,首先提取待处理文本中的多个热词,然后集合多个热词得到热词集。本实施例对热词提取方法不作限定,如tf-idf(termfrequency–inverse document frequency)算法等。
在一个实施例中,提取待处理文本中的多个热词后,可基于预设维度筛选出多个热词中的部分热词构成热词集。例如,预设维度为热词的热度,则可从提取出的所有热词中筛选出热度排名前10的热词,并以筛选出的热度排名前10的热词构成热词集。
在一个实施例中,基于第一单位文本集确定热词集中与第一热词之间符合预设相关条件的第二热词时,可先基于第一单位文本集及热词集确定第一热词的词共现矩阵,进而根据词共现矩阵确定符合预设相关条件的第二热词。
其中,预设相关条件包括以下至少一项:共现次数大于预设次数、共现频率大于预设频率、共现次数位于前N个、共现频率位于前M个、词相关度位于前K个。词相关度基于共现信息确定。N、M、K均为正整数。词共现矩阵中的元素包括第一热词与其他热词在第一单位文本中的共现信息;共现信息包括共现次数和/或共现频率。
根据词共现矩阵确定符合预设相关条件的第二热词时,可直接根据共现信息(如共现次数和/或共现频率)确定第二热词,还可根据共现信息确定出第一热词与其他热词之间的词相关度,进而筛选出词相关度最高的前K个热词作为第二热词。
共现次数和/或共现频率与词相关度之间正相关。即,共现次数和/或共现频率的值越大,对应的词相关度越高;反之,共现次数和/或共现频率的值越小,对应的词相关度越低。
第一热词的词共现矩阵可通过以下方法确定:首先,基于第一单位文本集,确定热词集中与第一热词属于共现词的第三热词;其次,统计第一热词与第三热词的共现信息;最后,基于第一热词与第三热词的共现信息构建第一热词的词共现矩阵。
举例而言,共现信息为共现次数,词共现矩阵中的元素包括第一热词与其他热词在第一单位文本中的共现次数。词共现矩阵为1列(n-1)行的矩阵,n为热词集中的热词数目。假设热词集中共包括5个热词:热词a、热词b、热词c、热词d及热词e,则词共现矩阵为一个1列4行的矩阵。
若将热词a作为第一热词,则第一热词的词共现矩阵中所包含的4个元素分别表示第一热词与热词b、热词c、热词d及热词e在第一单位文本中的共现次数。
本实施例中,通过构建第一热词的词共现矩阵,进而基于词共现矩阵的元素所表示的共现信息,确定与第一热词之间符合预设相关条件的第二热词,从而能够直观、准确、快速地确定出第二热词,例如基于词共现矩阵的元素所表示的共现次数,确定出共现次数最高的第二热词。
在一个实施例中,确定第一热词对应的话题之后,可从热词集中删除第二热词,得到更新后的热词集;然后确定更新后的热词集中的热词对应的话题。
或者,在确定上一个第一热词对应的话题之后,继续确定下一个第一热词对应的话题时,首先确定下一个第一热词是否属于与上一个第一热词之间符合预设相关条件的第二热词。若否,则继续确定该下一个热词对应的话题;若是,则删除(或过滤掉)该下一个热词,并选择再下一个热词进行判断。
在一个实施例中,确定热词集中所有热词对应的话题之后,若待处理文本中还包括不属于热词集中各热词对应的话题(即未被挖掘为话题)的剩余文本,则可对剩余文本进行如下迭代处理:判断待处理文本中的剩余文本是否符合预设递归条件,若符合,则按照上述实施例中的话题挖掘方法继续确定剩余文本中的话题。若不符合,则停止迭代。其中,预设递归条件包括:剩余文本中包括话题。
本实施例中,通过对待处理文本中的剩余文本进行迭代处理,以挖掘出剩余文本中的话题,能够使待处理文本中的所有话题被挖掘出来,从而确保待处理文本中的话题能够被充分挖掘。
图2是根据本说明书另一实施例的一种话题挖掘方法的示意性流程图,如图2所示,该方法包括:
S201,对待处理文本进行以下预处理:分词处理、合并待处理文本中的同义词及删除待处理文本中的预设符号。
该步骤可利用现有的分词技术对待处理文本进行分词处理,分词处理后可得到多个词、字、符号等。预设符号可包括单字、数字、标点符号等。
待处理文本中包括多个单位文本。单位文本可以是一个句子,也可以是由多个句子组合而成的一篇文章。
S202,提取待处理文本中的多个热词,并筛选出热度排名前L的多个热词构成热词集。
本实施例对热词提取方法不作限定,如采用tf-idf(term frequency–inversedocument frequency)算法提取热词。L为正整数,其值可根据提取出的热词数目或需要挖掘出的话题数目来确定。
S203,针对热词集中的第一热词,从待处理文本中聚合包括第一热词的第一单位文本,得到第一单位文本集。
S204,基于第一单位文本集及热词集,确定第一热词的词共现矩阵。
其中,词共现矩阵中的元素包括第一热词与其他热词在第一单位文本中的共现信息。共现信息包括共现次数和/或共现频率。
共现信息反映了词与词之间的关联度。例如,第一热词与第二热词在一篇文章中的共现次数越多,表明第一热词与第二热词之间的关联度越高;反之,第一热词与第二热词在一篇文章中的共现次数越少,表明第一热词与第二热词之间的关联度越低。
S205,根据第一热词的词共现矩阵,确定第一热词与其他热词之间的词相关度。
其中,词共现矩阵中的共现信息(如共现次数和/或共现频率)与词相关度之间正相关。即,共现次数和/或共现频率的值越大,对应的词相关度越高;反之,共现次数和/或共现频率的值越小,对应的词相关度越低。
S206,根据第一热词与其他热词之间的词相关度,确定词相关度最高的前K个第二热词,并从第一单位文本集中筛选出包括前K个第二热词的第二单位文本。
S207,从第二单位文本中选择文本字数最少的单位文本,作为第一热词对应的话题。
S208,从热词集中删除第二热词,生成更新后的热词集。
执行S208后,继续返回S203,即选择热词集(即更新后的热词集)中的下一个第一热词,确定下一个第一热词对应的话题,直至热词集中的所有热词对应的话题均被挖掘出来。
S209,判断待处理文本中是否还包括不属于热词集中各热词对应的话题的剩余文本;若是,则返回S202迭代执行相应步骤,迭代时的待处理文本实质上为排除掉已被挖掘为话题的剩余文本;若否,则执行S210。
S210,确定待处理文本中的所有话题已被挖掘出来。此时停止迭代。
可见,本实施例中,通过提取待处理文本中的热词集,并针对热词集中的第一热词,从待处理文本中聚合包括第一热词的第一单位文本,得到第一单位文本集;基于第一单位文本集确定热词集中与第一热词之间的词相关度较高的第二热词;进而从第一单位文本集中筛选出包括第二热词的第二单位文本,从第二单位文本中选择文本字数最少的单位文本作为第一热词对应的话题。可见,该技术方案不依赖于初始参数,且无需人工进行数据标注,因此实现了话题挖掘的全自动化,进而提升了话题挖掘的效率及准确度;此外,由于热词本身即可体现出对应领域内的业务类型,因此该技术方案适用于各类业务场景,具有很强的业务通用性,解耦了数据对具体业务场景的强依赖性。
本说明书提供的话题挖掘方法可应用于任一业务领域。且通过实验数据表明,该话题挖掘方法的性能优于传统的话题生成方法,数千条数据仅需要大约10秒即可完成话题挖掘。下表1为某一业务领域中话题挖掘的几项示例。
表1
热词 共现词 话题 用户反馈
农场 {农场,能量} 农场XX能量不符实际 建议农场系列使用相对独立的好友栏,比如在操作上可以这样……
农场 {农场,能量} 农场XX能量不符实际 农场设计不合理,为什么不设立浇水上线呢
农场 {农场,能量} 农场XX能量不符实际 能不能让我们偷能量偷的有点仪式感,例如收取别人能量的时候设计音乐
农场 {农场,能量} 农场XX能量不符实际 建议农场的地图改回原来的地球吧
农场 {农场,能量} 农场XX能量不符实际 建议每日给好友浇水不要有次数上限
建议 {建议,能量} 强烈建议农场每天有xxxx 建议增加一些特殊活动或文化日
建议 {建议,能量} 强烈建议农场每天有xxxx 建议农场上的挂件增加缩放比例功能,这样能多挂一点
综上,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
以上为本说明书一个或多个实施例提供的话题挖掘方法,基于同样的思路,本说明书一个或多个实施例还提供一种话题挖掘装置。
图3是根据本说明书一实施例的一种话题挖掘装置的示意性框图,如图3所示,该装置包括:
提取模块310,提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
聚合模块320,针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
第一确定模块330,基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
筛选模块340,从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
选择模块350,从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
在一个实施例中,所述第一确定模块330包括:
第一确定单元,基于所述第一单位文本集及所述热词集,确定所述第一热词的词共现矩阵;所述词共现矩阵中的元素包括所述第一热词与其他所述热词在所述第一单位文本中的共现信息;
第二确定单元,根据所述词共现矩阵,确定符合所述预设相关条件的所述第二热词;所述预设相关条件包括以下至少一项:共现次数大于预设次数、共现频率大于预设频率、共现次数位于前N个、共现频率位于前M个、词相关度位于前K个;所述词相关度基于所述共现信息确定。
在一个实施例中,所述第一确定单元还用于:
基于所述第一单位文本集,确定所述热词集中与所述第一热词属于共现词的第三热词;
统计所述第一热词与所述第三热词的共现信息;所述共现信息包括所述共现次数和/或所述共现频率;
基于所述共现信息构建所述第一热词的词共现矩阵。
在一个实施例中,所述选择模块350包括:
选择单元,从所述第二单位文本中选择文本字数最少的单位文本,作为所述第一热词对应的话题。
在一个实施例中,所述装置还包括:
删除模块,在所述从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题之后,从所述热词集中删除所述第二热词,得到更新后的热词集;
第二确定模块,确定所述更新后的热词集中的所述热词对应的话题。
在一个实施例中,所述装置还包括:
第三确定模块,确定所述待处理文本中不属于所述热词集中各热词对应的话题的剩余文本;
判断模块,判断所述剩余文本是否符合预设递归条件;所述预设递归条件包括:所述剩余文本中包括话题;
第四确定模块,若是,则确定所述剩余文本中的话题。
在一个实施例中,提取模块310包括:
预处理单元,对所述待处理文本进行预处理,得到预处理后的所述待处理文本;所述预处理包括以下至少一项:对所述待处理文本进行分词处理、合并所述待处理文本中的同义词、删除所述待处理文本中的预设符号;
提取单元,提取所述预处理后的所述待处理文本中的热词集。
采用本说明书一个或多个实施例提供的装置,通过提取待处理文本中的热词集,并针对热词集中的第一热词,从待处理文本中聚合包括第一热词的第一单位文本,得到第一单位文本集;基于第一单位文本集确定热词集中与第一热词之间符合预设相关条件的第二热词;进而从第一单位文本集中筛选出包括第二热词的第二单位文本,从第二单位文本中选择符合预设文本条件的单位文本作为第一热词对应的话题。可见,该装置不依赖于初始参数,且无需人工进行数据标注,因此实现了话题挖掘的全自动化,进而提升了话题挖掘的效率及准确度;此外,由于热词本身即可体现出对应领域内的业务类型,因此该装置适用于各类业务场景,具有很强的业务通用性,解耦了数据对具体业务场景的强依赖性。
本领域的技术人员应可理解,上述话题挖掘装置能够用来实现前文所述的话题挖掘方法,其中的细节描述应与前文方法部分描述类似,为避免繁琐,此处不另赘述。
基于同样的思路,本说明书一个或多个实施例还提供一种话题挖掘设备,如图4所示。话题挖掘设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器401和存储器402,存储器402中可以存储有一个或一个以上存储应用程序或数据。其中,存储器402可以是短暂存储或持久存储。存储在存储器402的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对话题挖掘设备中的一系列计算机可执行指令。更进一步地,处理器401可以设置为与存储器402通信,在话题挖掘设备上执行存储器402中的一系列计算机可执行指令。话题挖掘设备还可以包括一个或一个以上电源403,一个或一个以上有线或无线网络接口404,一个或一个以上输入输出接口405,一个或一个以上键盘406。
具体在本实施例中,话题挖掘设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对话题挖掘设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
基于所述第一单位文本集及所述热词集,确定所述第一热词的词共现矩阵;所述词共现矩阵中的元素包括所述第一热词与其他所述热词在所述第一单位文本中的共现信息;
根据所述词共现矩阵,确定符合所述预设相关条件的所述第二热词;所述预设相关条件包括以下至少一项:共现次数大于预设次数、共现频率大于预设频率、共现次数位于前N个、共现频率位于前M个、词相关度位于前K个;所述词相关度基于所述共现信息确定。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
基于所述第一单位文本集,确定所述热词集中与所述第一热词属于共现词的第三热词;
统计所述第一热词与所述第三热词的共现信息;所述共现信息包括所述共现次数和/或所述共现频率;
基于所述共现信息构建所述第一热词的词共现矩阵。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
从所述第二单位文本中选择文本字数最少的单位文本,作为所述第一热词对应的话题。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
所述从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题之后,从所述热词集中删除所述第二热词,得到更新后的热词集;
确定所述更新后的热词集中的所述热词对应的话题。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
确定所述待处理文本中不属于所述热词集中各热词对应的话题的剩余文本;
判断所述剩余文本是否符合预设递归条件;所述预设递归条件包括:所述剩余文本中包括话题;
若是,则确定所述剩余文本中的话题。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
对所述待处理文本进行预处理,得到预处理后的所述待处理文本;所述预处理包括以下至少一项:对所述待处理文本进行分词处理、合并所述待处理文本中的同义词、删除所述待处理文本中的预设符号;
提取所述预处理后的所述待处理文本中的热词集。
本说明书一个或多个实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行上述话题挖掘方法,并具体用于执行:
提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、***、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims (13)

1.一种话题挖掘方法,包括:
提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
2.根据权利要求1所述的方法,所述基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词,包括:
基于所述第一单位文本集及所述热词集,确定所述第一热词的词共现矩阵;所述词共现矩阵中的元素包括所述第一热词与其他所述热词在所述第一单位文本中的共现信息;
根据所述词共现矩阵,确定符合所述预设相关条件的所述第二热词;所述预设相关条件包括以下至少一项:共现次数大于预设次数、共现频率大于预设频率、共现次数位于前N个、共现频率位于前M个、词相关度位于前K个;所述词相关度基于所述共现信息确定。
3.根据权利要求2所述的方法,所述基于所述第一单位文本集及所述热词集,确定所述第一热词的词共现矩阵,包括:
基于所述第一单位文本集,确定所述热词集中与所述第一热词属于共现词的第三热词;
统计所述第一热词与所述第三热词的共现信息;所述共现信息包括所述共现次数和/或所述共现频率;
基于所述共现信息构建所述第一热词的词共现矩阵。
4.根据权利要求1所述的方法,所述从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题,包括:
从所述第二单位文本中选择文本字数最少的单位文本,作为所述第一热词对应的话题。
5.根据权利要求1所述的方法,所述从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题之后,还包括:
从所述热词集中删除所述第二热词,得到更新后的热词集;
确定所述更新后的热词集中的所述热词对应的话题。
6.根据权利要求1所述的方法,还包括:
确定所述待处理文本中不属于所述热词集中各热词对应的话题的剩余文本;
判断所述剩余文本是否符合预设递归条件;所述预设递归条件包括:所述剩余文本中包括话题;
若是,则确定所述剩余文本中的话题。
7.根据权利要求1所述的方法,所述提取待处理文本中的热词集,包括:
对所述待处理文本进行预处理,得到预处理后的所述待处理文本;所述预处理包括以下至少一项:对所述待处理文本进行分词处理、合并所述待处理文本中的同义词、删除所述待处理文本中的预设符号;
提取所述预处理后的所述待处理文本中的热词集。
8.一种话题挖掘装置,包括:
提取模块,提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
聚合模块,针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
第一确定模块,基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
筛选模块,从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
选择模块,从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
9.根据权利要求8所述的装置,所述第一确定模块包括:
第一确定单元,基于所述第一单位文本集及所述热词集,确定所述第一热词的词共现矩阵;所述词共现矩阵中的元素包括所述第一热词与其他所述热词在所述第一单位文本中的共现信息;
第二确定单元,根据所述词共现矩阵,确定符合所述预设相关条件的所述第二热词;所述预设相关条件包括以下至少一项:共现次数大于预设次数、共现频率大于预设频率、共现次数位于前N个、共现频率位于前M个、词相关度位于前K个;所述词相关度基于所述共现信息确定。
10.根据权利要求9所述的装置,所述第一确定单元还用于:
基于所述第一单位文本集,确定所述热词集中与所述第一热词属于共现词的第三热词;
统计所述第一热词与所述第三热词的共现信息;所述共现信息包括所述共现次数和/或所述共现频率;
基于所述共现信息构建所述第一热词的词共现矩阵。
11.根据权利要求8所述的装置,所述选择模块包括:
选择单元,从所述第二单位文本中选择文本字数最少的单位文本,作为所述第一热词对应的话题。
12.一种话题挖掘设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
13.一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
CN202010280395.0A 2020-04-10 2020-04-10 话题挖掘方法及装置 Pending CN111190996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010280395.0A CN111190996A (zh) 2020-04-10 2020-04-10 话题挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010280395.0A CN111190996A (zh) 2020-04-10 2020-04-10 话题挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN111190996A true CN111190996A (zh) 2020-05-22

Family

ID=70708676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010280395.0A Pending CN111190996A (zh) 2020-04-10 2020-04-10 话题挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN111190996A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
CN104008106A (zh) * 2013-02-25 2014-08-27 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
US20200050654A1 (en) * 2018-02-20 2020-02-13 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
CN104008106A (zh) * 2013-02-25 2014-08-27 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
US20140280242A1 (en) * 2013-02-25 2014-09-18 Tencent Technology (Shenzhen) Company Limited Method and apparatus for acquiring hot topics
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
US20200050654A1 (en) * 2018-02-20 2020-02-13 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QIMING DIAO等: "Finding bursty topics from microblogs", 《PROCEEDINGS OF THE 50TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
夏丹等: "《中国图书情报知识图谱研究》", 30 August 2018, 吉林大学出版社 *
汤鲲等: "基于GRU + LDA的群聊主题挖掘", 《计算机与现代化》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114938477A (zh) * 2022-06-23 2022-08-23 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备
CN114938477B (zh) * 2022-06-23 2024-05-03 阿里巴巴(中国)有限公司 视频话题确定方法、装置及设备

Similar Documents

Publication Publication Date Title
US12001439B2 (en) Information service for facts extracted from differing sources on a wide area network
US20180260484A1 (en) Method, Apparatus, and Device for Generating Hot News
Costello et al. On the pattern of discovery of introduced species
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN104239373B (zh) 为文档添加标签的方法及装置
Tian et al. The blue stragglers formed via mass transfer in old open clusters
CN105069102A (zh) 信息推送方法和装置
US20140379719A1 (en) System and method for tagging and searching documents
US20100217764A1 (en) Generating A Dictionary And Determining A Co-Occurrence Context For An Automated Ontology
CN111708805A (zh) 数据查询方法、装置、电子设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN106649308B (zh) 一种分词词库更新方法及***
Song et al. Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media
Negara et al. Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword
CN114328983A (zh) 文档碎化方法、数据检索方法、装置及电子设备
CN111190996A (zh) 话题挖掘方法及装置
US9607031B2 (en) Social data filtering system, method and non-transitory computer readable storage medium of the same
CN104794237A (zh) 网页信息处理方法及装置
CN105447013A (zh) 一种新闻推荐***
US8554696B2 (en) Efficient computation of ontology affinity matrices
Endalie et al. Hybrid feature selection for Amharic news document classification
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
Granados et al. Is the contextual information relevant in text clustering by compression?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200522

RJ01 Rejection of invention patent application after publication