CN109635102B - 基于用户交互的主题模型提升方法 - Google Patents
基于用户交互的主题模型提升方法 Download PDFInfo
- Publication number
- CN109635102B CN109635102B CN201811375621.2A CN201811375621A CN109635102B CN 109635102 B CN109635102 B CN 109635102B CN 201811375621 A CN201811375621 A CN 201811375621A CN 109635102 B CN109635102 B CN 109635102B
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- model
- document
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000009826 distribution Methods 0.000 claims abstract description 53
- 230000000007 visual effect Effects 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000013079 data visualisation Methods 0.000 claims abstract description 7
- 238000007619 statistical method Methods 0.000 claims abstract description 6
- 238000012800 visualization Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于用户交互的主题模型提升方法,包括:步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,在该可视化界面交互进行去停词操作;步骤2:主题模型建模和分析结果的可视化;利用预处理好的语料库作为输入,通过LDA主题模型训练得到主题‑文档分布和主题‑词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示信息;步骤3:基于用户交互的模型提升阶段;对主题模型分析结果可视化视图进行分析和探索,分析当前主题模型的不足;然后将先验知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算;最后重复该步骤进行迭代优化。
Description
技术领域
本发明涉及一种通过可视化交互对主题模型进行提升的方法。
背景技术
文本挖掘技术能够自动分析大量的文本数据,主题建模就是一种 重要的文本挖掘技术。主题建模算法往往是一类无监督的机器学习算 法,它根据发现的主题分布对文档集合进行分类。人们使用这些算法 来快速了解文档集合的内容,而不需要耗费大量时间来分类和仔细阅 读。但是主题模型通常是黑盒子模型,即用户无法理解如何得到模型 分析结果,也很难对模型结果进行优化调整。
主题模型的输出结果是主题与文档的分布信息以及词与主题的分 布信息。用户必须仔细阅读这些分布信息,从而了解和探索结果。
数据可视化可以为用户提供直观的方式来交互式地探索和分析数 据,使他们能够有效地识别数据中蕴含的模式和信息。
传统的主题模型基于用户设置的参数一次性生成主题分析结果。 对于不太理想的主题模型分析结果,用户无法进一步根据自己的理解 优化模型结果。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于用户交互的主 题模型提升方法。
为了解决以上问题,本发明要提供一种基于用户交互的主题模型 提升方法(如图1所示)。本方法首先对数据进行预处理,将预处理 好的数据作为输入进行主题模型的训练;然后通过统计的方法提取主 题模型的信息并设计数据可视化视图来展示这些信息;最后设计用户 交互操作提取用户知识来提升主题模型分析结果。
在本发明方法中,首先对数据进行预处理,将预处理好的数据作 为输入进行主题模型的训练。然后通过统计的方法提取主题模型的信 息,并设计数据可视化视图来展示这些信息;最后根据用户在可视化 视图中的交互提取用户的背景知识,并将用户背景知识带入模型中再 次训练提升主题模型。
基于用户交互的主题模型提升方法,包括如下步骤:
步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处 理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文 档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使 用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交 互进行去停词操作;
1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分 词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵 D;
1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档 频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所 示;
TFIDFi,j=TFi,j×IDFi (3)
其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中 出现的次数,∑k nk,j表示文档dj中所有词语的出现次数之和;IDFi表 示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包 含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频; 将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中根据TF-IDF值获得文档集中每个词的重要性,组成词 的重要性列表L;
1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要 性列表L可视化出来;每个气泡代表一个单词,其大小表征单词的重 要性,即越大越重要;用户通过点击气泡来获得详细信息以及设置对 应词为停词,当某个词被设置为停词时,该视图中对应的气泡也将被 删除并更新停词表StopList;用户通过调节滑块调节最大气泡的半径 以及界面中展示词的范围;
步骤2:主题模型建模和分析结果的可视化;利用预处理好的语 料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题- 词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视 图来展示信息;
2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定 一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及 每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示;
θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档, α表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个 主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数, zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;
通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词 的主题分布β;
2.2利用词云和饼图对主题模型结果进行可视化;根据模型输出 的结果查询出各个主题下概率最高的前P篇文档,并使用PageRank 算法计算出排名前Q的关键词,作为关键词词云的输入;同时对各 个主题下概率最高的前P篇文档的标签进行统计计算,获得各个主题 的标签分布,并使用饼图可视化出来;提取出各个主题下概率最高的 前Q篇文档的标题,作为标题词云的输入;
步骤3:基于用户交互的模型提升阶段;首先用户对主题模型分 析结果可视化视图进行分析和探索,通过文档标签和主题关键词了解 当前主题模型的语义分析结果,并进一步分析当前主题模型的不足; 然后根据用户在可视化视图中的交互来获取更新先验知识,并将先验 知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算, 获得当前主题模型的概述和前后主题模型的变化信息,并使用可视化 方式展示给用户;最后重复该步骤进行迭代优化;
3.1基于气泡云图的用户主题词交互:利用气泡云图的可视化技 术将主题模型输出的主题-词分布可视化出来,使用tab组件来切换不 同主题下词的分布,一个气泡表示一个单词,其大小与词在当前主题 下的概率线性相关,所有气泡的最大半径是可以调节的;
基于气泡云图的用户主题词交互包括:通过tab组件来选取进行 操作的主题;通过单击气泡,选择“删除”按钮删除用户认为不属于 该主题的单词;选择“设为停词”按钮将对应单词设置为停词;
3.2基于用户交互的语料库和主题词更新:首先根据用户设置为停 词的词,更新语料库信息,即删除设置为停词的单词,得到新的语料 库。然后根据各个主题中删除的单词,更新各个主题的主题词信息; 最后将新的语料库作为LDA模型的输入,各个主题的主题词信息作 为模型的先验知识,再次训练模型;
3.3更新前后的主题分析结果对比:对再次训练得到的模型结果进 行步骤2.2的计算,提取当前主题模型的概述。对前后两次的主题模 型的概述进行对比;
比较前后两次模型中各个主题下概率最高的前R篇文档的标题, 根据文档的主题概率,能够得到一个变化率 其中doc_topic表示文档的主题概率,t 表示模式的迭代时期;注意,如果文档是新出现的,即不是原来的前 R篇文档,则Δdoc=1;
比较前后两次模型中各个主题下概率最高的前P篇文档的前Q个 关键词,根据PageRank算法得到的PR值,计算出变化率其中keyword_weight是通过 PageRank计算得到的PR值,t表示模式的迭代时期;注意,如果关 键词是新出现的,即不是原来的前Q个关键词,则Δkeyword=1;
使用正负轴条形图可视化出前后两次主题模型的变化信息,使用 三种颜色分别表示标题、关键词以及标签。正负轴条形图中,x轴表 示一个标题、关键词或标签,y轴表示变化率;
3.4基于用户交互的迭代优化:根据上述获得的信息,使用词云 和饼图可视化出当前主题模型的概述信息,使用气泡云图可视化出当 前主题模型的主题-词分布,以及正负轴条形图构建出用户可视化交 互界面;
根据用户可视化交互界面,重复进行步骤3中交互、提取知识、 模型重新训练和可视化的流程,进行迭代优化。
提升方法流程步骤至此结束。
本发明主要解决一下三个问题:①通过可视化来帮助词典(特征 词,描述符)的选择/构建。因为传统词典的构建需要花费较大的成 本,即专业人员和大量时间精力;②解决主题的难解释性,使用可视 化方式;③简化主题模型的提升方法,通过可视化的用户交互。
本发明有以下优点:(1)操作简单,要求低。用户仅需要在可视 化界面进行简单的选择操作,后台会自动解析用户意图并反馈;(2) 表达力强。可视化界面总结了主题模型中的分布关系,无需用户仔细 阅读模型中的分布;(3)效率高。通过用户交互将用户的背景知识代 入主题模型的计算,使得本方法相较于传统主题模型能够更快速、更 有效的得到符合用户期望的主题模型;(4)更加合理,个性化;基于 用户的背景知识对主题模型进行提升,能够获得具有用户偏好的主题 模型。
附图说明
图1是本发明方法的总流程图。
图2是本发明方法的气泡词云图。
图3是本发明方法的主题模型的解释界面。
图4是本发明方法的主题词气泡云视图。
图5是本发明方法的主题模型的差异视图。
图6是正负轴条形图构建出的用户可视化交互界面。
具体实施方式
参照图1技术方案总流程图,本发明共有五个阶段,分别是:数 据预处理阶段、主题建模和可视化阶段以及基于用户交互的模型提升 阶段。数据预处理阶段是对数据集进行清洗,剔出一些停词和标点, 构建用于LDA主题模型训练的语料库和用于可视化分析单词的列表。 并使用气泡云图可视化单词的列表,帮助用户构建词典,从而更新语 料库;主题建模和可视化阶段,使用前一阶段更新的语料库通过训练 LDA主题模型,得到文档与主题之间的概率以及词与主题之间的概 率。然后通过统计计算获得当前模型的主题的总结结果,并使用可视 化方式展示;基于用户交互的模型提升阶段,将主题分析界面中用户 的交互反馈到主题中,即调节模型参数,并再次训练模型。通过统计 计算的方式获得前后主题模型的主题总结信息,并计算变化得到主题 变化信息。将主题总结信息和主题变化信息都可视化展示给用户。重 复该步骤,直到用户认为结果可以接受。
本发明的输入为文档集,输出为主题模型,包含:主题-词分布 和主题-文档分布。
基于用户交互的主题模型提升方法,具体步骤如下:
步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处 理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文 档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使 用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交 互进行去停词操作;
1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分 词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵 D;
1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档 频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所 示;
TFIDFi,j=TFi,j×IDFi (3)
其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中 出现的次数,∑k nk,j表示文档dj中所有词语的出现次数之和;IDFi表 示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包 含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频; 将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中根据TF-IDF值获得文档集中每个词的重要性,组成词 的重要性列表L;
1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要 性列表L可视化出来,如图2。在图2中,每个气泡代表一个单词, 其大小表征单词的重要性,即越大越重要;用户通过点击气泡来获得 详细信息以及设置对应词为停词,当某个词被设置为停词时,该视图 中对应的气泡也将被删除并更新停词表StopList;用户通过调节滑块 调节最大气泡的半径以及界面中展示词的范围;
步骤2:主题模型建模和分析结果的可视化;利用预处理好的语 料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题- 词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视 图来展示信息;
2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定 一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及 每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示;
θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档, α表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个 主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数, zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;
通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词 的主题分布β;
2.2利用词云和饼图对主题模型结果进行可视化(如图3);在图 3中,左侧上方的词云展示的是对应主题下概率最高的前20篇文档 的标题,左侧下方的词云展示的是对应主题下排名前20的关键词, 而右侧饼图展示的是对应主题下概率最高的前500篇文档的标签分 布;
根据模型输出的结果查询出各个主题下概率最高的前500篇文 档,并使用PageRank算法计算出排名前20的关键词,作为关键词词 云的输入;同时对各个主题下概率最高的前500篇文档的标签进行统 计计算,获得各个主题的标签分布,并使用饼图可视化出来;提取出 各个主题下概率最高的前20篇文档的标题,作为标题词云的输入;
步骤3:基于用户交互的模型提升阶段;首先用户对主题模型分 析结果可视化视图(图3或图6)进行分析和探索,通过文档标签和 主题关键词了解当前主题模型的语义分析结果,并进一步分析当前主 题模型的不足;然后根据用户在可视化视图中的交互来获取更新先验 知识,并将先验知识带入模型中再次训练;对前后两次模型输出的结 果进行统计计算,获得当前主题模型的概述和前后主题模型的变化信 息,并使用可视化方式展示给用户;最后重复该步骤进行迭代优化;
3.1基于气泡云图的用户主题词交互:图4利用气泡云图的可视 化技术将主题模型输出的主题-词分布可视化出来,使用tab组件来切 换不同主题下词的分布,一个气泡表示一个单词,其大小与词在当前 主题下的概率线性相关,所有气泡的最大半径是可以调节的;
图4中的交互包括:通过tab组件来选取进行操作的主题;通过 单击气泡,选择“删除”按钮删除用户认为不属于该主题的单词;选 择“设为停词”按钮将对应单词设置为停词;
3.2基于用户交互的语料库和主题词更新:首先根据用户设置为停 词的词,更新语料库信息,即删除设置为停词的单词,得到新的语料 库。然后根据各个主题中删除的单词,更新各个主题的主题词信息; 最后将新的语料库作为LDA模型的输入,各个主题的主题词信息作 为模型的先验知识,再次训练模型;
3.3更新前后的主题分析结果对比:对再次训练得到的模型结果进 行步骤2.2的计算,提取当前主题模型的概述。对前后两次的主题模 型的概述进行对比;
比较前后两次模型中各个主题下概率最高的前20篇文档的标题, 根据文档的主题概率,能够得到一个变化率 其中doc_topic表示文档的主题概率,t 表示模式的迭代时期;注意,如果文档是新出现的,即不是原来前 20的文档,则Δdoc=1;
比较前后两次模型中各个主题下概率最高的前500篇文档的前20 个关键词,根据PageRank算法得到的PR值,计算出变化率
使用正负轴条形图可视化出前后两次主题模型的变化信息,使用 三种颜色分别表示标题、关键词以及标签。正负轴条形图中,x轴表 示一个标题、关键词或标签,y轴表示变化率。如图5;
3.4基于用户交互的迭代优化:根据上述获得的信息,使用词云 和饼图可视化出当前主题模型的概述信息;使用气泡云图可视化出当 前主题模型的主题-词分布;以及正负轴条形图构建出如图6的视图;
根据图6的用户可视化交互界面,重复进行步骤3中交互、提取 知识、模型重新训练和可视化的流程,进行迭代优化。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举, 本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本 发明的保护范围也及于本领域技术人员根据本发明构思所能够想到 的等同技术手段。
Claims (1)
1.基于用户交互的主题模型提升方法,包括如下步骤:
步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交互进行去停词操作;
1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵D;
1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所示;
TFIDFi,j=TFi,j×IDFi (3)
其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中出现的次数,∑knk,j表示文档dj中所有词语的出现次数之和;IDFi表示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频;将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中根据TF-IDF值获得文档集中每个词的重要性,组成词的重要性列表L;
1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要性列表L可视化出来;每个气泡代表一个单词,其大小表征单词的重要性,即越大越重要;用户通过点击气泡来获得详细信息以及设置对应词为停词,当某个词被设置为停词时,对应的气泡也将被删除并更新停词表StopList;用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围;
步骤2:主题模型建模和分析结果的可视化;利用预处理好的语料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题-词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示信息;
2.1 LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及每个词的主题概率分布;LDA主题模型的联合概率如公式(4)所示;
θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档,α表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数,zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;
通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词的主题分布β;
2.2利用词云和饼图对主题模型结果进行可视化;根据模型输出的结果查询出各个主题下概率最高的前P篇文档,并使用PageRank算法计算出排名前Q的关键词,作为关键词词云的输入;同时对各个主题下概率最高的前P篇文档的标签进行统计计算,获得各个主题的标签分布,并使用饼图可视化出来;提取出各个主题下概率最高的前Q篇文档的标题,作为标题词云的输入;
步骤3:基于用户交互的模型提升阶段;首先用户对主题模型分析结果可视化视图进行分析和探索,通过文档标签和主题关键词了解当前主题模型的语义分析结果,并进一步分析当前主题模型的不足;然后根据用户在可视化视图中的交互来获取更新先验知识,并将先验知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算,获得当前主题模型的概述和前后主题模型的变化信息,并使用可视化方式展示给用户;最后重复该步骤进行迭代优化;
3.1基于气泡云图的用户主题词交互:利用气泡云图的可视化技术将主题模型输出的主题-词分布可视化出来,使用tab组件来切换不同主题下词的分布,一个气泡表示一个单词,其大小与词在当前主题下的概率线性相关,所有气泡的最大半径是可以调节的;
基于气泡云图的用户主题词交互包括:通过tab组件来选取进行操作的主题;通过单击气泡,选择“删除”按钮删除用户认为不属于该主题的单词;选择“设为停词”按钮将对应单词设置为停词;
3.2基于用户交互的语料库和主题词更新:首先根据用户设置为停词的词,更新语料库信息,即删除设置为停词的单词,得到新的语料库;然后根据各个主题中删除的单词,更新各个主题的主题词信息;最后将新的语料库作为LDA模型的输入,各个主题的主题词信息作为模型的先验知识,再次训练模型;
3.3更新前后的主题分析结果对比:对再次训练得到的模型结果进行步骤2.2的计算,提取当前主题模型的概述;对前后两次的主题模型的概述进行对比;
比较前后两次模型中各个主题下概率最高的前R篇文档的标题,根据文档的主题概率,能够得到一个变化率其中doc_topic表示文档的主题概率,t表示模式的迭代时期;注意,如果文档是新出现的,即不是原来的前R篇文档,则Δdoc=1;
比较前后两次模型中各个主题下概率最高的前P篇文档的前Q个关键词,根据PageRank算法得到的PR值,计算出变化率其中keyword_weight是通过PageRank计算得到的PR值,t表示模式的迭代时期;注意,如果关键词是新出现的,即不是原来的前Q个关键词,则Δkeyword=1;
使用正负轴条形图可视化出前后两次主题模型的变化信息,使用三种颜色分别表示标题、关键词以及标签;正负轴条形图中,x轴表示一个标题、关键词或标签,y轴表示变化率;
3.4基于用户交互的迭代优化:根据上述获得的信息,使用词云和饼图可视化出当前主题模型的概述信息,使用气泡云图可视化出当前主题模型的主题-词分布,以及正负轴条形图构建出用户可视化交互界面;
根据用户可视化交互界面,重复进行步骤3中交互、提取知识、模型重新训练和可视化的流程,进行迭代优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375621.2A CN109635102B (zh) | 2018-11-19 | 2018-11-19 | 基于用户交互的主题模型提升方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375621.2A CN109635102B (zh) | 2018-11-19 | 2018-11-19 | 基于用户交互的主题模型提升方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635102A CN109635102A (zh) | 2019-04-16 |
CN109635102B true CN109635102B (zh) | 2021-05-11 |
Family
ID=66068330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811375621.2A Active CN109635102B (zh) | 2018-11-19 | 2018-11-19 | 基于用户交互的主题模型提升方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635102B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853720A (zh) * | 2019-10-10 | 2020-02-28 | 重庆金融资产交易所有限责任公司 | 一种业务数据处理方法、装置、设备及存储介质 |
CN111626043A (zh) * | 2019-12-05 | 2020-09-04 | 天津大学 | 对词云字号相对大小与词云语义理解关系的分析方法 |
CN111104792B (zh) * | 2019-12-13 | 2023-05-23 | 浙江工业大学 | 基于主题模型的交通轨迹数据语义分析与可视化方法 |
CN111985210B (zh) * | 2020-08-26 | 2023-08-15 | 北京机电工程总体设计部 | 一种基于词云技术的可编辑文献主题可视化的构建方法 |
CN113378512B (zh) * | 2021-07-05 | 2023-05-26 | 中国科学技术信息研究所 | 一种基于自动标引的无级动态演化主题云图的生成方法 |
CN116595178A (zh) * | 2023-05-22 | 2023-08-15 | 四川农业大学 | 一种基于tf-idf和lda主题模型的语料集分类方法 |
CN117332777B (zh) * | 2023-09-21 | 2024-07-02 | 广东省交通开发有限公司 | 一种充电桩故障的统计分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN106055538A (zh) * | 2016-05-26 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
CN108763362A (zh) * | 2018-05-17 | 2018-11-06 | 浙江工业大学 | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003864B2 (en) * | 2016-05-11 | 2021-05-11 | Stratifyd, Inc. | Artificial intelligence optimized unstructured data analytics systems and methods |
-
2018
- 2018-11-19 CN CN201811375621.2A patent/CN109635102B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN106055538A (zh) * | 2016-05-26 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
CN108763362A (zh) * | 2018-05-17 | 2018-11-06 | 浙江工业大学 | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 |
Non-Patent Citations (2)
Title |
---|
基于LDA主题模型的TFIDF算法改进及应用;高扬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第3期);全文 * |
基于LDA主题模型的专利内容分析方法;王博等;《科研管理》;20150331;第36卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109635102A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635102B (zh) | 基于用户交互的主题模型提升方法 | |
US10255272B2 (en) | Adjustment of document relationship graphs | |
US9990417B2 (en) | Boolean-query composer | |
US10255354B2 (en) | Detecting and combining synonymous topics | |
US20160299955A1 (en) | Text mining system and tool | |
El-Assady et al. | Semantic concept spaces: Guided topic model refinement using word-embedding projections | |
Kumar et al. | Study of automatic text summarization approaches in different languages | |
CN108121829A (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
CN103761264B (zh) | 基于商品评论文档集的概念层次创建方法 | |
CN111598702A (zh) | 一种基于知识图谱的风险投资语义搜索的方法 | |
CN109214454B (zh) | 一种面向微博的情感社区分类方法 | |
WO2022262266A1 (zh) | 文本摘要生成方法、装置、计算机设备及存储介质 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN112989827B (zh) | 一种基于多源异构特征的文本数据集质量评估方法 | |
CN106326210B (zh) | 一种文本话题和情感的联合检测方法及装置 | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及*** | |
CN106874419A (zh) | 一种多粒度实时热点聚合方法 | |
KR20200053334A (ko) | 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템 | |
CN110569351A (zh) | 一种约束性用户偏好的网络媒体新闻分类方法 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN116521858B (zh) | 基于动态聚类和可视化的上下文语义序列比较方法 | |
Shen et al. | Emotional tendency dictionary construction for college teaching evaluation | |
WO2023159766A1 (zh) | 餐饮数据分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |