CN109635102B - 基于用户交互的主题模型提升方法 - Google Patents

基于用户交互的主题模型提升方法 Download PDF

Info

Publication number
CN109635102B
CN109635102B CN201811375621.2A CN201811375621A CN109635102B CN 109635102 B CN109635102 B CN 109635102B CN 201811375621 A CN201811375621 A CN 201811375621A CN 109635102 B CN109635102 B CN 109635102B
Authority
CN
China
Prior art keywords
word
topic
model
document
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811375621.2A
Other languages
English (en)
Other versions
CN109635102A (zh
Inventor
汤颖
苏建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811375621.2A priority Critical patent/CN109635102B/zh
Publication of CN109635102A publication Critical patent/CN109635102A/zh
Application granted granted Critical
Publication of CN109635102B publication Critical patent/CN109635102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于用户交互的主题模型提升方法,包括:步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,在该可视化界面交互进行去停词操作;步骤2:主题模型建模和分析结果的可视化;利用预处理好的语料库作为输入,通过LDA主题模型训练得到主题‑文档分布和主题‑词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示信息;步骤3:基于用户交互的模型提升阶段;对主题模型分析结果可视化视图进行分析和探索,分析当前主题模型的不足;然后将先验知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算;最后重复该步骤进行迭代优化。

Description

基于用户交互的主题模型提升方法
技术领域
本发明涉及一种通过可视化交互对主题模型进行提升的方法。
背景技术
文本挖掘技术能够自动分析大量的文本数据,主题建模就是一种 重要的文本挖掘技术。主题建模算法往往是一类无监督的机器学习算 法,它根据发现的主题分布对文档集合进行分类。人们使用这些算法 来快速了解文档集合的内容,而不需要耗费大量时间来分类和仔细阅 读。但是主题模型通常是黑盒子模型,即用户无法理解如何得到模型 分析结果,也很难对模型结果进行优化调整。
主题模型的输出结果是主题与文档的分布信息以及词与主题的分 布信息。用户必须仔细阅读这些分布信息,从而了解和探索结果。
数据可视化可以为用户提供直观的方式来交互式地探索和分析数 据,使他们能够有效地识别数据中蕴含的模式和信息。
传统的主题模型基于用户设置的参数一次性生成主题分析结果。 对于不太理想的主题模型分析结果,用户无法进一步根据自己的理解 优化模型结果。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于用户交互的主 题模型提升方法。
为了解决以上问题,本发明要提供一种基于用户交互的主题模型 提升方法(如图1所示)。本方法首先对数据进行预处理,将预处理 好的数据作为输入进行主题模型的训练;然后通过统计的方法提取主 题模型的信息并设计数据可视化视图来展示这些信息;最后设计用户 交互操作提取用户知识来提升主题模型分析结果。
在本发明方法中,首先对数据进行预处理,将预处理好的数据作 为输入进行主题模型的训练。然后通过统计的方法提取主题模型的信 息,并设计数据可视化视图来展示这些信息;最后根据用户在可视化 视图中的交互提取用户的背景知识,并将用户背景知识带入模型中再 次训练提升主题模型。
基于用户交互的主题模型提升方法,包括如下步骤:
步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处 理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文 档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使 用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交 互进行去停词操作;
1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分 词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵 D;
1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档 频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所 示;
Figure BDA0001870687020000021
Figure BDA0001870687020000022
TFIDFi,j=TFi,j×IDFi (3)
其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中 出现的次数,∑k nk,j表示文档dj中所有词语的出现次数之和;IDFi表 示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包 含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频; 将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中
Figure BDA0001870687020000023
根据TF-IDF值获得文档集中每个词的重要性,组成词 的重要性列表L;
1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要 性列表L可视化出来;每个气泡代表一个单词,其大小表征单词的重 要性,即越大越重要;用户通过点击气泡来获得详细信息以及设置对 应词为停词,当某个词被设置为停词时,该视图中对应的气泡也将被 删除并更新停词表StopList;用户通过调节滑块调节最大气泡的半径 以及界面中展示词的范围;
步骤2:主题模型建模和分析结果的可视化;利用预处理好的语 料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题- 词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视 图来展示信息;
2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定 一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及 每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示;
Figure BDA0001870687020000031
θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档, α表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个 主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数, zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;
通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词 的主题分布β;
2.2利用词云和饼图对主题模型结果进行可视化;根据模型输出 的结果查询出各个主题下概率最高的前P篇文档,并使用PageRank 算法计算出排名前Q的关键词,作为关键词词云的输入;同时对各 个主题下概率最高的前P篇文档的标签进行统计计算,获得各个主题 的标签分布,并使用饼图可视化出来;提取出各个主题下概率最高的 前Q篇文档的标题,作为标题词云的输入;
步骤3:基于用户交互的模型提升阶段;首先用户对主题模型分 析结果可视化视图进行分析和探索,通过文档标签和主题关键词了解 当前主题模型的语义分析结果,并进一步分析当前主题模型的不足; 然后根据用户在可视化视图中的交互来获取更新先验知识,并将先验 知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算, 获得当前主题模型的概述和前后主题模型的变化信息,并使用可视化 方式展示给用户;最后重复该步骤进行迭代优化;
3.1基于气泡云图的用户主题词交互:利用气泡云图的可视化技 术将主题模型输出的主题-词分布可视化出来,使用tab组件来切换不 同主题下词的分布,一个气泡表示一个单词,其大小与词在当前主题 下的概率线性相关,所有气泡的最大半径是可以调节的;
基于气泡云图的用户主题词交互包括:通过tab组件来选取进行 操作的主题;通过单击气泡,选择“删除”按钮删除用户认为不属于 该主题的单词;选择“设为停词”按钮将对应单词设置为停词;
3.2基于用户交互的语料库和主题词更新:首先根据用户设置为停 词的词,更新语料库信息,即删除设置为停词的单词,得到新的语料 库。然后根据各个主题中删除的单词,更新各个主题的主题词信息; 最后将新的语料库作为LDA模型的输入,各个主题的主题词信息作 为模型的先验知识,再次训练模型;
3.3更新前后的主题分析结果对比:对再次训练得到的模型结果进 行步骤2.2的计算,提取当前主题模型的概述。对前后两次的主题模 型的概述进行对比;
比较前后两次模型中各个主题下概率最高的前R篇文档的标题, 根据文档的主题概率,能够得到一个变化率
Figure BDA0001870687020000041
其中doc_topic表示文档的主题概率,t 表示模式的迭代时期;注意,如果文档是新出现的,即不是原来的前 R篇文档,则Δdoc=1;
比较前后两次模型中各个主题下概率最高的前P篇文档的前Q个 关键词,根据PageRank算法得到的PR值,计算出变化率
Figure BDA0001870687020000042
其中keyword_weight是通过 PageRank计算得到的PR值,t表示模式的迭代时期;注意,如果关 键词是新出现的,即不是原来的前Q个关键词,则Δkeyword=1;
比较各个主题的标签信息,
Figure BDA0001870687020000043
其中 label_sum是标签的数量,t表示模式的迭代时期;注意,如果标签是 新出现的,则Δlabel=1;
使用正负轴条形图可视化出前后两次主题模型的变化信息,使用 三种颜色分别表示标题、关键词以及标签。正负轴条形图中,x轴表 示一个标题、关键词或标签,y轴表示变化率;
3.4基于用户交互的迭代优化:根据上述获得的信息,使用词云 和饼图可视化出当前主题模型的概述信息,使用气泡云图可视化出当 前主题模型的主题-词分布,以及正负轴条形图构建出用户可视化交 互界面;
根据用户可视化交互界面,重复进行步骤3中交互、提取知识、 模型重新训练和可视化的流程,进行迭代优化。
提升方法流程步骤至此结束。
本发明主要解决一下三个问题:①通过可视化来帮助词典(特征 词,描述符)的选择/构建。因为传统词典的构建需要花费较大的成 本,即专业人员和大量时间精力;②解决主题的难解释性,使用可视 化方式;③简化主题模型的提升方法,通过可视化的用户交互。
本发明有以下优点:(1)操作简单,要求低。用户仅需要在可视 化界面进行简单的选择操作,后台会自动解析用户意图并反馈;(2) 表达力强。可视化界面总结了主题模型中的分布关系,无需用户仔细 阅读模型中的分布;(3)效率高。通过用户交互将用户的背景知识代 入主题模型的计算,使得本方法相较于传统主题模型能够更快速、更 有效的得到符合用户期望的主题模型;(4)更加合理,个性化;基于 用户的背景知识对主题模型进行提升,能够获得具有用户偏好的主题 模型。
附图说明
图1是本发明方法的总流程图。
图2是本发明方法的气泡词云图。
图3是本发明方法的主题模型的解释界面。
图4是本发明方法的主题词气泡云视图。
图5是本发明方法的主题模型的差异视图。
图6是正负轴条形图构建出的用户可视化交互界面。
具体实施方式
参照图1技术方案总流程图,本发明共有五个阶段,分别是:数 据预处理阶段、主题建模和可视化阶段以及基于用户交互的模型提升 阶段。数据预处理阶段是对数据集进行清洗,剔出一些停词和标点, 构建用于LDA主题模型训练的语料库和用于可视化分析单词的列表。 并使用气泡云图可视化单词的列表,帮助用户构建词典,从而更新语 料库;主题建模和可视化阶段,使用前一阶段更新的语料库通过训练 LDA主题模型,得到文档与主题之间的概率以及词与主题之间的概 率。然后通过统计计算获得当前模型的主题的总结结果,并使用可视 化方式展示;基于用户交互的模型提升阶段,将主题分析界面中用户 的交互反馈到主题中,即调节模型参数,并再次训练模型。通过统计 计算的方式获得前后主题模型的主题总结信息,并计算变化得到主题 变化信息。将主题总结信息和主题变化信息都可视化展示给用户。重 复该步骤,直到用户认为结果可以接受。
本发明的输入为文档集,输出为主题模型,包含:主题-词分布 和主题-文档分布。
基于用户交互的主题模型提升方法,具体步骤如下:
步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处 理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文 档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使 用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交 互进行去停词操作;
1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分 词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵 D;
1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档 频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所 示;
Figure BDA0001870687020000051
Figure BDA0001870687020000061
TFIDFi,j=TFi,j×IDFi (3)
其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中 出现的次数,∑k nk,j表示文档dj中所有词语的出现次数之和;IDFi表 示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包 含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频; 将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中
Figure BDA0001870687020000062
根据TF-IDF值获得文档集中每个词的重要性,组成词 的重要性列表L;
1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要 性列表L可视化出来,如图2。在图2中,每个气泡代表一个单词, 其大小表征单词的重要性,即越大越重要;用户通过点击气泡来获得 详细信息以及设置对应词为停词,当某个词被设置为停词时,该视图 中对应的气泡也将被删除并更新停词表StopList;用户通过调节滑块 调节最大气泡的半径以及界面中展示词的范围;
步骤2:主题模型建模和分析结果的可视化;利用预处理好的语 料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题- 词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视 图来展示信息;
2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定 一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及 每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示;
Figure BDA0001870687020000063
θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档, α表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个 主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数, zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;
通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词 的主题分布β;
2.2利用词云和饼图对主题模型结果进行可视化(如图3);在图 3中,左侧上方的词云展示的是对应主题下概率最高的前20篇文档 的标题,左侧下方的词云展示的是对应主题下排名前20的关键词, 而右侧饼图展示的是对应主题下概率最高的前500篇文档的标签分 布;
根据模型输出的结果查询出各个主题下概率最高的前500篇文 档,并使用PageRank算法计算出排名前20的关键词,作为关键词词 云的输入;同时对各个主题下概率最高的前500篇文档的标签进行统 计计算,获得各个主题的标签分布,并使用饼图可视化出来;提取出 各个主题下概率最高的前20篇文档的标题,作为标题词云的输入;
步骤3:基于用户交互的模型提升阶段;首先用户对主题模型分 析结果可视化视图(图3或图6)进行分析和探索,通过文档标签和 主题关键词了解当前主题模型的语义分析结果,并进一步分析当前主 题模型的不足;然后根据用户在可视化视图中的交互来获取更新先验 知识,并将先验知识带入模型中再次训练;对前后两次模型输出的结 果进行统计计算,获得当前主题模型的概述和前后主题模型的变化信 息,并使用可视化方式展示给用户;最后重复该步骤进行迭代优化;
3.1基于气泡云图的用户主题词交互:图4利用气泡云图的可视 化技术将主题模型输出的主题-词分布可视化出来,使用tab组件来切 换不同主题下词的分布,一个气泡表示一个单词,其大小与词在当前 主题下的概率线性相关,所有气泡的最大半径是可以调节的;
图4中的交互包括:通过tab组件来选取进行操作的主题;通过 单击气泡,选择“删除”按钮删除用户认为不属于该主题的单词;选 择“设为停词”按钮将对应单词设置为停词;
3.2基于用户交互的语料库和主题词更新:首先根据用户设置为停 词的词,更新语料库信息,即删除设置为停词的单词,得到新的语料 库。然后根据各个主题中删除的单词,更新各个主题的主题词信息; 最后将新的语料库作为LDA模型的输入,各个主题的主题词信息作 为模型的先验知识,再次训练模型;
3.3更新前后的主题分析结果对比:对再次训练得到的模型结果进 行步骤2.2的计算,提取当前主题模型的概述。对前后两次的主题模 型的概述进行对比;
比较前后两次模型中各个主题下概率最高的前20篇文档的标题, 根据文档的主题概率,能够得到一个变化率
Figure BDA0001870687020000071
其中doc_topic表示文档的主题概率,t 表示模式的迭代时期;注意,如果文档是新出现的,即不是原来前 20的文档,则Δdoc=1;
比较前后两次模型中各个主题下概率最高的前500篇文档的前20 个关键词,根据PageRank算法得到的PR值,计算出变化率
Figure BDA0001870687020000072
其中keyword_weight是通过PageRank计算得到的PR值,t表示模式的迭代时期;注意,如果关 键词是新出现的,即不是原来前20的关键词,则Δkeyword=1;
比较各个主题的标签信息,
Figure BDA0001870687020000081
其中 label_sum是标签的数量,t表示模式的迭代时期;注意,如果标签是 新出现的,则Δlabel=1;
使用正负轴条形图可视化出前后两次主题模型的变化信息,使用 三种颜色分别表示标题、关键词以及标签。正负轴条形图中,x轴表 示一个标题、关键词或标签,y轴表示变化率。如图5;
3.4基于用户交互的迭代优化:根据上述获得的信息,使用词云 和饼图可视化出当前主题模型的概述信息;使用气泡云图可视化出当 前主题模型的主题-词分布;以及正负轴条形图构建出如图6的视图;
根据图6的用户可视化交互界面,重复进行步骤3中交互、提取 知识、模型重新训练和可视化的流程,进行迭代优化。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举, 本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本 发明的保护范围也及于本领域技术人员根据本发明构思所能够想到 的等同技术手段。

Claims (1)

1.基于用户交互的主题模型提升方法,包括如下步骤:
步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交互进行去停词操作;
1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵D;
1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所示;
Figure FDA0002953370900000011
Figure FDA0002953370900000012
TFIDFi,j=TFi,j×IDFi (3)
其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中出现的次数,∑knk,j表示文档dj中所有词语的出现次数之和;IDFi表示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频;将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中
Figure FDA0002953370900000013
根据TF-IDF值获得文档集中每个词的重要性,组成词的重要性列表L;
1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要性列表L可视化出来;每个气泡代表一个单词,其大小表征单词的重要性,即越大越重要;用户通过点击气泡来获得详细信息以及设置对应词为停词,当某个词被设置为停词时,对应的气泡也将被删除并更新停词表StopList;用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围;
步骤2:主题模型建模和分析结果的可视化;利用预处理好的语料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题-词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示信息;
2.1 LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及每个词的主题概率分布;LDA主题模型的联合概率如公式(4)所示;
Figure FDA0002953370900000021
θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档,α表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数,zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;
通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词的主题分布β;
2.2利用词云和饼图对主题模型结果进行可视化;根据模型输出的结果查询出各个主题下概率最高的前P篇文档,并使用PageRank算法计算出排名前Q的关键词,作为关键词词云的输入;同时对各个主题下概率最高的前P篇文档的标签进行统计计算,获得各个主题的标签分布,并使用饼图可视化出来;提取出各个主题下概率最高的前Q篇文档的标题,作为标题词云的输入;
步骤3:基于用户交互的模型提升阶段;首先用户对主题模型分析结果可视化视图进行分析和探索,通过文档标签和主题关键词了解当前主题模型的语义分析结果,并进一步分析当前主题模型的不足;然后根据用户在可视化视图中的交互来获取更新先验知识,并将先验知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算,获得当前主题模型的概述和前后主题模型的变化信息,并使用可视化方式展示给用户;最后重复该步骤进行迭代优化;
3.1基于气泡云图的用户主题词交互:利用气泡云图的可视化技术将主题模型输出的主题-词分布可视化出来,使用tab组件来切换不同主题下词的分布,一个气泡表示一个单词,其大小与词在当前主题下的概率线性相关,所有气泡的最大半径是可以调节的;
基于气泡云图的用户主题词交互包括:通过tab组件来选取进行操作的主题;通过单击气泡,选择“删除”按钮删除用户认为不属于该主题的单词;选择“设为停词”按钮将对应单词设置为停词;
3.2基于用户交互的语料库和主题词更新:首先根据用户设置为停词的词,更新语料库信息,即删除设置为停词的单词,得到新的语料库;然后根据各个主题中删除的单词,更新各个主题的主题词信息;最后将新的语料库作为LDA模型的输入,各个主题的主题词信息作为模型的先验知识,再次训练模型;
3.3更新前后的主题分析结果对比:对再次训练得到的模型结果进行步骤2.2的计算,提取当前主题模型的概述;对前后两次的主题模型的概述进行对比;
比较前后两次模型中各个主题下概率最高的前R篇文档的标题,根据文档的主题概率,能够得到一个变化率
Figure FDA0002953370900000031
其中doc_topic表示文档的主题概率,t表示模式的迭代时期;注意,如果文档是新出现的,即不是原来的前R篇文档,则Δdoc=1;
比较前后两次模型中各个主题下概率最高的前P篇文档的前Q个关键词,根据PageRank算法得到的PR值,计算出变化率
Figure FDA0002953370900000032
其中keyword_weight是通过PageRank计算得到的PR值,t表示模式的迭代时期;注意,如果关键词是新出现的,即不是原来的前Q个关键词,则Δkeyword=1;
比较各个主题的标签信息,
Figure FDA0002953370900000033
其中label_sum是标签的数量,t表示模式的迭代时期;注意,如果标签是新出现的,则Δlabel=1;
使用正负轴条形图可视化出前后两次主题模型的变化信息,使用三种颜色分别表示标题、关键词以及标签;正负轴条形图中,x轴表示一个标题、关键词或标签,y轴表示变化率;
3.4基于用户交互的迭代优化:根据上述获得的信息,使用词云和饼图可视化出当前主题模型的概述信息,使用气泡云图可视化出当前主题模型的主题-词分布,以及正负轴条形图构建出用户可视化交互界面;
根据用户可视化交互界面,重复进行步骤3中交互、提取知识、模型重新训练和可视化的流程,进行迭代优化。
CN201811375621.2A 2018-11-19 2018-11-19 基于用户交互的主题模型提升方法 Active CN109635102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811375621.2A CN109635102B (zh) 2018-11-19 2018-11-19 基于用户交互的主题模型提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811375621.2A CN109635102B (zh) 2018-11-19 2018-11-19 基于用户交互的主题模型提升方法

Publications (2)

Publication Number Publication Date
CN109635102A CN109635102A (zh) 2019-04-16
CN109635102B true CN109635102B (zh) 2021-05-11

Family

ID=66068330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811375621.2A Active CN109635102B (zh) 2018-11-19 2018-11-19 基于用户交互的主题模型提升方法

Country Status (1)

Country Link
CN (1) CN109635102B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853720A (zh) * 2019-10-10 2020-02-28 重庆金融资产交易所有限责任公司 一种业务数据处理方法、装置、设备及存储介质
CN111626043A (zh) * 2019-12-05 2020-09-04 天津大学 对词云字号相对大小与词云语义理解关系的分析方法
CN111104792B (zh) * 2019-12-13 2023-05-23 浙江工业大学 基于主题模型的交通轨迹数据语义分析与可视化方法
CN111985210B (zh) * 2020-08-26 2023-08-15 北京机电工程总体设计部 一种基于词云技术的可编辑文献主题可视化的构建方法
CN113378512B (zh) * 2021-07-05 2023-05-26 中国科学技术信息研究所 一种基于自动标引的无级动态演化主题云图的生成方法
CN116595178A (zh) * 2023-05-22 2023-08-15 四川农业大学 一种基于tf-idf和lda主题模型的语料集分类方法
CN117332777B (zh) * 2023-09-21 2024-07-02 广东省交通开发有限公司 一种充电桩故障的统计分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN108763362A (zh) * 2018-05-17 2018-11-06 浙江工业大学 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003864B2 (en) * 2016-05-11 2021-05-11 Stratifyd, Inc. Artificial intelligence optimized unstructured data analytics systems and methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN108763362A (zh) * 2018-05-17 2018-11-06 浙江工业大学 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LDA主题模型的TFIDF算法改进及应用;高扬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第3期);全文 *
基于LDA主题模型的专利内容分析方法;王博等;《科研管理》;20150331;第36卷(第3期);全文 *

Also Published As

Publication number Publication date
CN109635102A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635102B (zh) 基于用户交互的主题模型提升方法
US10255272B2 (en) Adjustment of document relationship graphs
US9990417B2 (en) Boolean-query composer
US10255354B2 (en) Detecting and combining synonymous topics
US20160299955A1 (en) Text mining system and tool
El-Assady et al. Semantic concept spaces: Guided topic model refinement using word-embedding projections
Kumar et al. Study of automatic text summarization approaches in different languages
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN103761264B (zh) 基于商品评论文档集的概念层次创建方法
CN111598702A (zh) 一种基于知识图谱的风险投资语义搜索的方法
CN109214454B (zh) 一种面向微博的情感社区分类方法
WO2022262266A1 (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112989827B (zh) 一种基于多源异构特征的文本数据集质量评估方法
CN106326210B (zh) 一种文本话题和情感的联合检测方法及装置
CN109947934A (zh) 针对短文本的数据挖掘方法及***
CN106874419A (zh) 一种多粒度实时热点聚合方法
KR20200053334A (ko) 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템
CN110569351A (zh) 一种约束性用户偏好的网络媒体新闻分类方法
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN116521858B (zh) 基于动态聚类和可视化的上下文语义序列比较方法
Shen et al. Emotional tendency dictionary construction for college teaching evaluation
WO2023159766A1 (zh) 餐饮数据分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant