CN109635102B

CN109635102B - 基于用户交互的主题模型提升方法

Info

Publication number: CN109635102B
Application number: CN201811375621.2A
Authority: CN
Inventors: 汤颖; 苏建明
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2021-05-11
Anticipated expiration: 2038-11-19
Also published as: CN109635102A

Abstract

基于用户交互的主题模型提升方法，包括：步骤1：文档数据预处理；对语料库中每一篇文档进行数据预处理，获得语料库中每个词的重要性列表L；使用气泡云图对词的重要性列表L进行可视化，在该可视化界面交互进行去停词操作；步骤2：主题模型建模和分析结果的可视化；利用预处理好的语料库作为输入，通过LDA主题模型训练得到主题‑文档分布和主题‑词分布；通过统计的方法提取主题模型的信息，并设计数据可视化视图来展示信息；步骤3：基于用户交互的模型提升阶段；对主题模型分析结果可视化视图进行分析和探索，分析当前主题模型的不足；然后将先验知识带入模型中再次训练；对前后两次模型输出的结果进行统计计算；最后重复该步骤进行迭代优化。

Description

基于用户交互的主题模型提升方法

技术领域

本发明涉及一种通过可视化交互对主题模型进行提升的方法。

背景技术

文本挖掘技术能够自动分析大量的文本数据，主题建模就是一种重要的文本挖掘技术。主题建模算法往往是一类无监督的机器学习算法，它根据发现的主题分布对文档集合进行分类。人们使用这些算法来快速了解文档集合的内容，而不需要耗费大量时间来分类和仔细阅读。但是主题模型通常是黑盒子模型，即用户无法理解如何得到模型分析结果，也很难对模型结果进行优化调整。

主题模型的输出结果是主题与文档的分布信息以及词与主题的分布信息。用户必须仔细阅读这些分布信息，从而了解和探索结果。

数据可视化可以为用户提供直观的方式来交互式地探索和分析数据，使他们能够有效地识别数据中蕴含的模式和信息。

传统的主题模型基于用户设置的参数一次性生成主题分析结果。对于不太理想的主题模型分析结果，用户无法进一步根据自己的理解优化模型结果。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于用户交互的主题模型提升方法。

为了解决以上问题，本发明要提供一种基于用户交互的主题模型提升方法(如图1所示)。本方法首先对数据进行预处理，将预处理好的数据作为输入进行主题模型的训练；然后通过统计的方法提取主题模型的信息并设计数据可视化视图来展示这些信息；最后设计用户交互操作提取用户知识来提升主题模型分析结果。

在本发明方法中，首先对数据进行预处理，将预处理好的数据作为输入进行主题模型的训练。然后通过统计的方法提取主题模型的信息，并设计数据可视化视图来展示这些信息；最后根据用户在可视化视图中的交互提取用户的背景知识，并将用户背景知识带入模型中再次训练提升主题模型。

基于用户交互的主题模型提升方法，包括如下步骤：

步骤1：文档数据预处理；对语料库中每一篇文档进行数据预处理，包括分词、去停词、去标点；构建文档-词矩阵D；对得到的文档-词矩阵进行统计计算，获得语料库中每个词的重要性列表L；使用气泡云图对词的重要性列表L进行可视化，用户在该可视化界面交互进行去停词操作；

1.1对原始数据集进行数据预处理，对语料库中每篇文档进行分词，在根据停词表和符号表进行去停词和去标点，得到文档-词矩阵 D；

1.2计算文档中每个词在语料库中的TF-IDF值；词频TF、逆文档频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所示；

TFIDF_i，j＝TF_i，j×IDF_i (3)

其中TF_i，j表示词语t_i在文档d_j中的词频，n_i，j表示词语t_i在文档d_j中出现的次数，∑_k n_k，j表示文档d_j中所有词语的出现次数之和；IDF_i表示词t_i的逆文档频，|D|表示语料库中文档的总数，|{j：t_i∈d_j}|表示包含词语t_i的文档数目；TFIDF_i，j表示文档d_j中词语t_i的词频逆文档频；将TFIDF_i＝TF_i×IDF_i作为一个词在语料库中的重要性指标，其中

根据TF-IDF值获得文档集中每个词的重要性，组成词的重要性列表L；

1.3利用气泡云图作为可视化方式，将计算得到的每个词的重要性列表L可视化出来；每个气泡代表一个单词，其大小表征单词的重要性，即越大越重要；用户通过点击气泡来获得详细信息以及设置对应词为停词，当某个词被设置为停词时，该视图中对应的气泡也将被删除并更新停词表StopList；用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围；

步骤2：主题模型建模和分析结果的可视化；利用预处理好的语料库作为输入，通过LDA主题模型训练得到主题-文档分布和主题- 词分布；通过统计的方法提取主题模型的信息，并设计数据可视化视图来展示信息；

2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络，给定一个语料库，该模型分析该语料库中每篇文档的主题概率分布，以及每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示；

θ表示一篇文档的主题分布，z表示一个主题，w表示一篇文档， α表示每篇文档下主题的多项分布的Dirichlet先验参数，β表示每个主题下词的多项分布的Dirichlet先验参数，N表示语料库中的文档数， z_n表示一篇文档中第n个词的主题，w_n表示一篇文档的第n个单词；

通过LDA模型训练，得到每一篇文档的主题分布θ以及每个词的主题分布β；

2.2利用词云和饼图对主题模型结果进行可视化；根据模型输出的结果查询出各个主题下概率最高的前P篇文档，并使用PageRank 算法计算出排名前Q的关键词，作为关键词词云的输入；同时对各个主题下概率最高的前P篇文档的标签进行统计计算，获得各个主题的标签分布，并使用饼图可视化出来；提取出各个主题下概率最高的前Q篇文档的标题，作为标题词云的输入；

步骤3：基于用户交互的模型提升阶段；首先用户对主题模型分析结果可视化视图进行分析和探索，通过文档标签和主题关键词了解当前主题模型的语义分析结果，并进一步分析当前主题模型的不足；然后根据用户在可视化视图中的交互来获取更新先验知识，并将先验知识带入模型中再次训练；对前后两次模型输出的结果进行统计计算，获得当前主题模型的概述和前后主题模型的变化信息，并使用可视化方式展示给用户；最后重复该步骤进行迭代优化；

3.1基于气泡云图的用户主题词交互：利用气泡云图的可视化技术将主题模型输出的主题-词分布可视化出来，使用tab组件来切换不同主题下词的分布，一个气泡表示一个单词，其大小与词在当前主题下的概率线性相关，所有气泡的最大半径是可以调节的；

基于气泡云图的用户主题词交互包括：通过tab组件来选取进行操作的主题；通过单击气泡，选择“删除”按钮删除用户认为不属于该主题的单词；选择“设为停词”按钮将对应单词设置为停词；

3.2基于用户交互的语料库和主题词更新：首先根据用户设置为停词的词，更新语料库信息，即删除设置为停词的单词，得到新的语料库。然后根据各个主题中删除的单词，更新各个主题的主题词信息；最后将新的语料库作为LDA模型的输入，各个主题的主题词信息作为模型的先验知识，再次训练模型；

3.3更新前后的主题分析结果对比：对再次训练得到的模型结果进行步骤2.2的计算，提取当前主题模型的概述。对前后两次的主题模型的概述进行对比；

比较前后两次模型中各个主题下概率最高的前R篇文档的标题，根据文档的主题概率，能够得到一个变化率

其中doc_topic表示文档的主题概率，t 表示模式的迭代时期；注意，如果文档是新出现的，即不是原来的前 R篇文档，则Δ_doc＝1；

比较前后两次模型中各个主题下概率最高的前P篇文档的前Q个关键词，根据PageRank算法得到的PR值，计算出变化率

其中keyword_weight是通过 PageRank计算得到的PR值，t表示模式的迭代时期；注意，如果关键词是新出现的，即不是原来的前Q个关键词，则Δ_keyword＝1；

比较各个主题的标签信息，

其中 label_sum是标签的数量，t表示模式的迭代时期；注意，如果标签是新出现的，则Δ_label＝1；

使用正负轴条形图可视化出前后两次主题模型的变化信息，使用三种颜色分别表示标题、关键词以及标签。正负轴条形图中，x轴表示一个标题、关键词或标签，y轴表示变化率；

3.4基于用户交互的迭代优化：根据上述获得的信息，使用词云和饼图可视化出当前主题模型的概述信息，使用气泡云图可视化出当前主题模型的主题-词分布，以及正负轴条形图构建出用户可视化交互界面；

根据用户可视化交互界面，重复进行步骤3中交互、提取知识、模型重新训练和可视化的流程，进行迭代优化。

提升方法流程步骤至此结束。

本发明主要解决一下三个问题：①通过可视化来帮助词典(特征词，描述符)的选择/构建。因为传统词典的构建需要花费较大的成本，即专业人员和大量时间精力；②解决主题的难解释性，使用可视化方式；③简化主题模型的提升方法，通过可视化的用户交互。

本发明有以下优点：(1)操作简单，要求低。用户仅需要在可视化界面进行简单的选择操作，后台会自动解析用户意图并反馈；(2) 表达力强。可视化界面总结了主题模型中的分布关系，无需用户仔细阅读模型中的分布；(3)效率高。通过用户交互将用户的背景知识代入主题模型的计算，使得本方法相较于传统主题模型能够更快速、更有效的得到符合用户期望的主题模型；(4)更加合理，个性化；基于用户的背景知识对主题模型进行提升，能够获得具有用户偏好的主题模型。

附图说明

图1是本发明方法的总流程图。

图2是本发明方法的气泡词云图。

图3是本发明方法的主题模型的解释界面。

图4是本发明方法的主题词气泡云视图。

图5是本发明方法的主题模型的差异视图。

图6是正负轴条形图构建出的用户可视化交互界面。

具体实施方式

参照图1技术方案总流程图，本发明共有五个阶段，分别是：数据预处理阶段、主题建模和可视化阶段以及基于用户交互的模型提升阶段。数据预处理阶段是对数据集进行清洗，剔出一些停词和标点，构建用于LDA主题模型训练的语料库和用于可视化分析单词的列表。并使用气泡云图可视化单词的列表，帮助用户构建词典，从而更新语料库；主题建模和可视化阶段，使用前一阶段更新的语料库通过训练 LDA主题模型，得到文档与主题之间的概率以及词与主题之间的概率。然后通过统计计算获得当前模型的主题的总结结果，并使用可视化方式展示；基于用户交互的模型提升阶段，将主题分析界面中用户的交互反馈到主题中，即调节模型参数，并再次训练模型。通过统计计算的方式获得前后主题模型的主题总结信息，并计算变化得到主题变化信息。将主题总结信息和主题变化信息都可视化展示给用户。重复该步骤，直到用户认为结果可以接受。

本发明的输入为文档集，输出为主题模型，包含：主题-词分布和主题-文档分布。

基于用户交互的主题模型提升方法，具体步骤如下：

TFIDF_i，j＝TF_i，j×IDF_i (3)

1.3利用气泡云图作为可视化方式，将计算得到的每个词的重要性列表L可视化出来，如图2。在图2中，每个气泡代表一个单词，其大小表征单词的重要性，即越大越重要；用户通过点击气泡来获得详细信息以及设置对应词为停词，当某个词被设置为停词时，该视图中对应的气泡也将被删除并更新停词表StopList；用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围；

2.2利用词云和饼图对主题模型结果进行可视化(如图3)；在图 3中，左侧上方的词云展示的是对应主题下概率最高的前20篇文档的标题，左侧下方的词云展示的是对应主题下排名前20的关键词，而右侧饼图展示的是对应主题下概率最高的前500篇文档的标签分布；

根据模型输出的结果查询出各个主题下概率最高的前500篇文档，并使用PageRank算法计算出排名前20的关键词，作为关键词词云的输入；同时对各个主题下概率最高的前500篇文档的标签进行统计计算，获得各个主题的标签分布，并使用饼图可视化出来；提取出各个主题下概率最高的前20篇文档的标题，作为标题词云的输入；

步骤3：基于用户交互的模型提升阶段；首先用户对主题模型分析结果可视化视图(图3或图6)进行分析和探索，通过文档标签和主题关键词了解当前主题模型的语义分析结果，并进一步分析当前主题模型的不足；然后根据用户在可视化视图中的交互来获取更新先验知识，并将先验知识带入模型中再次训练；对前后两次模型输出的结果进行统计计算，获得当前主题模型的概述和前后主题模型的变化信息，并使用可视化方式展示给用户；最后重复该步骤进行迭代优化；

3.1基于气泡云图的用户主题词交互：图4利用气泡云图的可视化技术将主题模型输出的主题-词分布可视化出来，使用tab组件来切换不同主题下词的分布，一个气泡表示一个单词，其大小与词在当前主题下的概率线性相关，所有气泡的最大半径是可以调节的；

图4中的交互包括：通过tab组件来选取进行操作的主题；通过单击气泡，选择“删除”按钮删除用户认为不属于该主题的单词；选择“设为停词”按钮将对应单词设置为停词；

比较前后两次模型中各个主题下概率最高的前20篇文档的标题，根据文档的主题概率，能够得到一个变化率

其中doc_topic表示文档的主题概率，t 表示模式的迭代时期；注意，如果文档是新出现的，即不是原来前 20的文档，则Δ_doc＝1；

比较前后两次模型中各个主题下概率最高的前500篇文档的前20 个关键词，根据PageRank算法得到的PR值，计算出变化率

其中keyword_weight是通过PageRank计算得到的PR值，t表示模式的迭代时期；注意，如果关键词是新出现的，即不是原来前20的关键词，则Δ_keyword＝1；

比较各个主题的标签信息，

使用正负轴条形图可视化出前后两次主题模型的变化信息，使用三种颜色分别表示标题、关键词以及标签。正负轴条形图中，x轴表示一个标题、关键词或标签，y轴表示变化率。如图5；

3.4基于用户交互的迭代优化：根据上述获得的信息，使用词云和饼图可视化出当前主题模型的概述信息；使用气泡云图可视化出当前主题模型的主题-词分布；以及正负轴条形图构建出如图6的视图；

根据图6的用户可视化交互界面，重复进行步骤3中交互、提取知识、模型重新训练和可视化的流程，进行迭代优化。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于用户交互的主题模型提升方法，包括如下步骤：

1.1对原始数据集进行数据预处理，对语料库中每篇文档进行分词，在根据停词表和符号表进行去停词和去标点，得到文档-词矩阵D；

TFIDF_i，j＝TF_i，j×IDF_i (3)

其中TF_i，j表示词语t_i在文档d_j中的词频，n_i，j表示词语t_i在文档d_j中出现的次数，∑_kn_k，j表示文档d_j中所有词语的出现次数之和；IDF_i表示词t_i的逆文档频，|D|表示语料库中文档的总数，|{j：t_i∈d_j}|表示包含词语t_i的文档数目；TFIDF_i，j表示文档d_j中词语t_i的词频逆文档频；将TFIDF_i＝TF_i×IDF_i作为一个词在语料库中的重要性指标，其中

1.3利用气泡云图作为可视化方式，将计算得到的每个词的重要性列表L可视化出来；每个气泡代表一个单词，其大小表征单词的重要性，即越大越重要；用户通过点击气泡来获得详细信息以及设置对应词为停词，当某个词被设置为停词时，对应的气泡也将被删除并更新停词表StopList；用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围；

步骤2：主题模型建模和分析结果的可视化；利用预处理好的语料库作为输入，通过LDA主题模型训练得到主题-文档分布和主题-词分布；通过统计的方法提取主题模型的信息，并设计数据可视化视图来展示信息；

2.1 LDA主题模型是一个文档-主题-单词的三层贝叶斯网络，给定一个语料库，该模型分析该语料库中每篇文档的主题概率分布，以及每个词的主题概率分布；LDA主题模型的联合概率如公式(4)所示；

θ表示一篇文档的主题分布，z表示一个主题，w表示一篇文档，α表示每篇文档下主题的多项分布的Dirichlet先验参数，β表示每个主题下词的多项分布的Dirichlet先验参数，N表示语料库中的文档数，z_n表示一篇文档中第n个词的主题，w_n表示一篇文档的第n个单词；

2.2利用词云和饼图对主题模型结果进行可视化；根据模型输出的结果查询出各个主题下概率最高的前P篇文档，并使用PageRank算法计算出排名前Q的关键词，作为关键词词云的输入；同时对各个主题下概率最高的前P篇文档的标签进行统计计算，获得各个主题的标签分布，并使用饼图可视化出来；提取出各个主题下概率最高的前Q篇文档的标题，作为标题词云的输入；

3.2基于用户交互的语料库和主题词更新：首先根据用户设置为停词的词，更新语料库信息，即删除设置为停词的单词，得到新的语料库；然后根据各个主题中删除的单词，更新各个主题的主题词信息；最后将新的语料库作为LDA模型的输入，各个主题的主题词信息作为模型的先验知识，再次训练模型；

3.3更新前后的主题分析结果对比：对再次训练得到的模型结果进行步骤2.2的计算，提取当前主题模型的概述；对前后两次的主题模型的概述进行对比；

其中doc_topic表示文档的主题概率，t表示模式的迭代时期；注意，如果文档是新出现的，即不是原来的前R篇文档，则Δ_doc＝1；

其中keyword_weight是通过PageRank计算得到的PR值，t表示模式的迭代时期；注意，如果关键词是新出现的，即不是原来的前Q个关键词，则Δ_keyword＝1；

比较各个主题的标签信息，

其中label_sum是标签的数量，t表示模式的迭代时期；注意，如果标签是新出现的，则Δ_label＝1；

使用正负轴条形图可视化出前后两次主题模型的变化信息，使用三种颜色分别表示标题、关键词以及标签；正负轴条形图中，x轴表示一个标题、关键词或标签，y轴表示变化率；