CN110968676A

CN110968676A - 基于lda模型与lstm网络的文本数据语义时空模式探索方法

Info

Publication number: CN110968676A
Application number: CN201911234313.2A
Authority: CN
Inventors: 贺一桐; 张康; 李�杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-07

Abstract

本发明公开一种基于LDA模型与LSTM网络的文本数据语义时空模式探索方法，包括以下步骤：(1)集成主题模型；包括主题生成、主题质量评估和主题降维投影；使用LDA主题模型对文本数据提取语义，通过迭代不同参数生成主题模型，对主题模型进行质量评估后选择优质主题进行集成，以解决参数对模型质量的影响；(2)构建主题时空体；将文本数据中的时间、空间和文本主题数据转换成立方体数据结构；(3)可视交互与预测；具体包括主题投影视图、时空投影视图和模式对比视图；用于对主题时空体提供可视化交互探索，使用可视化的方式方便用户对数据结果进行探索；并使用LSTM方法预测未来时间段的数值变化。

Description

基于LDA模型与LSTM网络的文本数据语义时空模式探索方法

技术领域

本专利主要涉及自然语言处理和数据可视化领域，具体涉及对海量文本数据的结构化表示及主题模型优化的方法。

背景技术

全世界文本数据的数量在最近几年已经实现指数级增长，这迫切需要人们从文本数据中挖掘新知识、新观点。从社交媒体分析到风险管理和网络犯罪保护，处理文本数据已经变得前所未有的重要。由于文本数据中通常会带有时间和空间信息，所以在对文本数据处理的同时经常会加入时空属性。

在处理文本数据在空间和时间分布的工作中，有许多工作将重点放在找到文本数据中的关键词。常见的方法是分析文本数据检测在特定时间和地点发生的相关联的事件，从具有相同地点和相同或重叠时间的文本组中识别事件^[2]。Markus等人^[3]通过推特数据中的峰值检测热门的事件，并使用推文中的关键字对其进行有语义的标记。Zhou等人^[4]使用机器学习中检测突发词技术来识别事件。然而这些方法只是在关键词的层面对文本内容进行展示，并未涉及文本语义分析。随着主题模型的广泛应用，近年来在对文本数据可视化时会应用主题模型。Chen等人^[5]总结了对社交媒体数据的可视化分析流程。Xu等人^[6]提出了一个主题竞争模型，以表示公众对多个主题的关注。

上述的工作主要使用社交媒体的文本数据，然而这些工作都存在一些缺点和不足：首先，上述工作是预先将主题模型参数设定好，使用训练好的主题模型对本发明数据提取语义，由于主题模型对参数很敏感，这样做无法保证主题模型的质量，从而影响模型提取语义的能力。其次，上述工作主要使用静态数据，对数据的处理速度和查询速度没有要求，当面对海量文本数据中往往不能做到及时响应。最后，上述工作在对数据进行展示时只提供了查询功能，无法将使用者的决策加入到结果中。

发明内容

本发明的目的是为了解决现有技术中的以下问题。1.使用LDA主题模型取代传统根据字段对分本分类的方法，从而减少本发明语义的丢失。2.常见的主题模型对参数设置非常敏感^[8]，轻微的参数变化会可能产生完全不同的结果，在没有先验知识的条件下，很难合理地设置主题模型参数。使用迭代的方法生成多个模型并集成在一起，减少参数对文本处理质量的影响。3.主题时空模式包含大量的交互探索任务^[9]，例如用户不仅可能感兴趣主题的时间趋势或空间变化，也可能对比分析在某个时空坐标下具体的主题内容，需要构建一致的任务组织方式以更好地支持不同的分析应用场景。因此，本发明提出了一个可视分析框架以交互探索海量文本数据的语义时空模式。首先，框架采用了一个基于模型集成的主题抽取方法，对文本数据进行语义提取。其次，框架集成了一个基于DataCube^[7]的数据和任务组织结构，实现对各类交互探索任务的快速响应。最后，设计支持对该数据结果进行快速查询及交互的可视化界面。

本发明的目的是通过以下技术方案实现的：

基于LDA模型与LSTM网络的文本数据语义时空模式探索方法，包括以下步骤：

(1)集成主题模型；包括主题生成、主题质量评估和主题降维投影；使用LDA主题模型对文本数据提取语义，通过迭代不同参数生成主题模型，对主题模型进行质量评估后选择优质主题进行集成，以解决参数对模型质量的影响；

(2)构建主题时空体；将文本数据中的时间、空间和文本主题数据转换成立方体数据结构；用于将结果整理保存，支持后续的实时交互操作；具体包括设计立方体数据结构组织和支持用户对数据的查询任务，再将离散化后的时间空间和主题作为数据立方体的三个维度，在单元格内存储通过主题模型从文本数据中提取的语义信息，以满足对文本数据在语义时空层面上的探索；

(3)可视交互与预测；具体包括主题投影视图、时空投影视图和模式对比视图；用于对主题时空体提供可视化交互探索，使用可视化的方式方便用户对数据结果进行探索；并使用 LSTM方法预测未来时间段的数值变化。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.增加分析结果的准确性。现有工作在分析某类文本的时空分布时，分析人员通常会选择该文本关键词作为分类依据，分析其在空间和时间上的分布情况。如果存在一个文本从属于多个案件类型的情况，则很难自动获取其对应的全部类型，会造成语义的丢失。使用LDA 主题模型可以提取文本在多个类型上的分布情况，这样做可以减少对文本分类时造成的误差。

2.使用LSTM模型对主题值时间序列进行预测可以提高预测的速度和准确率。预测是文本数据分析的重要需求，传统方法直接对文本进行预测，会存在训练模型难度大，预测速度慢的问题。将大量文本转换为具体的数值，可以避免文本的高维稀疏性影响预测准确度，并且由于主题值是数值，可以提高预测速度，降低***响应时间，使其满足实时交互的需要。

3.设计了一种包含三个维度分别为时间、空间和主题的语义时空体，该结构一致地支持各类交互探索任务，并通过预先存储不同时空坐标下的语义信息，实现快速响应用户对不同时空语义内容查询的请求。

4.实现了一个基于数据立方体的接警日志数据可视交互***。传统方法用户无法数据模型的内部结构，无法调整模型。我们的方法将模型的内容进行可视化展示，用户可以查看模型的具体信息，并对其进行改进，有效避免传统主题模型难以确定合理参数的问题。同时，使用可视化方式可以帮助用户从时间、空间和文本类型多个角度对文本数据进行探索。

附图说明

图1为提出方法的总体结构图。

图2为LDA主题模型集成图。该图中：(1)表示语料库，(2)表示主题模型集成，(3)表示可视化主题投影，①表示更换参数多次迭代得到主题模型集成，②表示降维投影主题，③表示用户通过主题投影交互选择主题。

图3为主题时空体构建图。该图中：(1)表示警务数据，(2)表示主题模型集成，(3)表示数据立方体，(4)表示可视化界面。①表示提取出题分布值，②表示空间聚类，③表示时间聚类，④表示可视化查询结果，⑤表示交互查询。

图4为可视化界面图。该图中：(1)表示LDA主题分布视图，(2)表示时空投影视图，(3) 表示模式对比视图，(a)表示空间分布子视图，(b)表示查询条件，(c)表示地区主题值排序图， (d)表示主题值小时分布图，(e)表示主题值星期分布图，(f)表示主题值天分布图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出了一个可视分析框架以交互探索海量文本数据的语义时空模式。首先，框架采用了一个基于模型集成的主题抽取方法，通过将不同参数的主题模型抽取的结果投影在平面上，用户可以直观地了解不同主题的差异，并从中选择感兴趣的主题，从而解决无法准确设定主题参数的问题。其次，框架集成了一个基于DataCube的数据和任务组织结构，通过预先存储主题在不同时间和空间坐标下的两类指标，以及将不同的分析任务对应为数据体内的各类投影和切片操作，实现对各类交互探索任务的快速响应。具体而言，如图1所示，主要包含以下步骤：

步骤一：主题模型集成(图2)。具体操作包括主题生成、主题质量评估和主题降维投影。通过迭代不同参数生成多个主题模型，对其进行质量评估后选择优质主题进行集成，将集成的所有主题降维投影在二维平面，使用词云展示主题中的内容，供用户理解和发现主题中的内容和不同主题间的区别。

本实施例使用LDA主题模型对接警日志提取主题，这是一种概率主题建模方法，通常用于处理大量文本。本发明将接警日志内的接警内容字段作为LDA模型的原始语料库，每条记录的接警内容作为一个文档(图2，(1))。由于接警内容中包含大量干扰信息，会导致生成的主题模型质量较低，所以本发明在训练模型前需要将经过分词和去停用词处理后的文本再进行加工，主要包括去掉无用字符、同义词替换和统计词频。

原始语料库在经过上述方法处理后可以作为训练模型用的语料库。为了摆脱主题模型质量对参数的依赖，本发明使用迭代的方法，通过改变影响较大的参数生成多个主题模型，对主题模型数量在合理的区间内迭代，生成多个主题模型，之后将生成的主题模型集成在一起，用户可以查看并选择其中的主题用于提取接警文本中的语义信息。

步骤二：主题时空体构建(图3)。将接警数据中的时间、空间和文本数据转换成立方体数据结构。具体包括设计立方体数据结构组织和支持上述的查询任务，再将离散化后的时间空间和主题作为数据立方体的三个维度，在单元格内存储通过主题模型从文本数据中提取的语义信息，从而满足对接警日志在语义时空层面上的探索。

在接警数据中，时间和空间属性是连续的，由于构建数据立方体需要离散的时间和空间信息，所以要对连续的数据进行离散处理。在时间角度，本发明按照自然时间单位划分，根据警务数据数量选择合理的最小时间精度，经过测试选择时间精度为小时最合适。在查询时，大于小时的查询范围将拆分成小时进行查询。

在空间角度，因为地区具有二维的属性-精度和纬度，并且地区之间会互相影响，所以在存储时应该保留位置信息，要用数据立方体中的两个维度表示空间属性。考虑将空间划分成不同的子空间，并将数据按照子空间聚合。然而如何确定子空间大小，如果子空间过大就会导致分辨率太低，如果子空间过小就会消耗大量空间存储。考虑到接警日志记录在空间上分布不均匀的特性，决定使用四叉树方法存储。

接下来需要对接警数据中的文本数据进行语义提取，使用主题模型计算某个点P(p,s,t)上的主题分布值(PS)和关键词权重(kw)，将这两个指标存储到语义时空体对应点的单元格内。

主题分布值PS(p,s,t)计算。收集所有在空间s和时间t上的记录，得到文档子集D(s,t)，然后通过主题模型导出该子集中每个记录在主题p上的主题值，所有记录的主题值加即为该点P(p,s,t)的主题分布值。如公式(1)所示，其中d为文档子集D中的记录，v_dp为该记录在主题p上的主题值，该值可以在主题模型中文档-主题中获得。

关键词权重kw(p,s,t)计算。用得到的PS值乘以词语在主题模型中该主题的权重值v_pk作为该关键词在点P中的权重，v_pk值可以在主题模型中主题-主题词中获得。如公式(2)所示，如果某个主题在该点上具有较高的分布值，并且某个主题词在该主题具有较高的权重，则该关键词在点中的kw值较高。

kw(p,s,t)＝PS(p,s,t)*v_pk (2)

用户通过可视化界面交互选择主题和输入查询范围，根据用户的查询条件在主题时空体中查找对应刻度上与存储的结果，将结果输出以可视化方式展示(图3，步骤⑤)。使用该方法可以快速的完成用户的查询任务并返回包含语义信息的结果，实现对接警数据在语义时空分布上的实时交互探索。

步骤三：可视交互与预测(图4)。对文本数据立方体提供可视化交互探索。主题投影视图是用于交互选取用户感兴趣的主题，用户可以通过此视图从中选取部分主题进行后续操作。时空投影视图包含数据投影和热门地区排名两个子视图，数据投影可以根据用户选择的时间、空间、主题查询条件将查询结果投影展示在地图上，查看地区分布情况。模式对比视图用于保存用户查询结果，并通过三个不同时间精度的折线图详细展示数据结果，便于用户对比发现不同查询条件下案件的发生模式。本发明还提供一种语义层面的预测方法，将地区历史的主题值数据转化成时间序列，使用LSTM^[1]方法预测未来一段时间数值变化。

LDA主题选择视图。

用户在主题投影视图先查看并选择自己感兴趣的主题，主题投影视图是将主题模型集成中的主题进行降维投影，根据各个主题中词语的相似程度计算主题间距离，在计算距离时加入防碰撞检测^[10]，避免在投影时出现重合的现象。生成的每个主题则对应某个类型的案件，根据主题的选择就可以对案件进行分类。本发明通过修改参数共得到了56个主题，用户可以在这56个主题中任意选择其中感兴趣主题并将对应的主题值显示在其他视图，用于将案件分类并计算对应类型的主题值。用户可以点击其中主题进行交互选择，选择的主题及其包含的主题词将显示在下方的主题备选列表。

主题备选列表(图4(1)下)显示用户选择的任意个数主题的词云，如图4(1)所示，主题备选列表中是用户从主题中选择的主题，用户在投影视图中选中某个主题，该主题的内容会以词云的方式显示，主题内容是由主题模型中的主题-主题词权重得到，词云中字体大小代表该词语在主题中的权重值，权重值大小反应该词语在主题中的重要性，用户可以选择取消其中不满意的主题，并选择其中某一个主题进行接下来的时空分布探索。

历史统计视图。

根据用户在主题备选列表中选中的主题，将对应主题值的时空分布情况投影在时空投影视图(图4(2))，该视图是用于探索报警数据主题分布值在时空上的分布情况，用户可以自定义选择查询时间查看。用户可以通过调整下方的时间轴选择投影的时间范围(图4(b))，选择起始终止时间则只统计选定时间范围内指定时间段的主题数据。该***将每个地区内在指定时间范围内的报警数据所对应用户选择的主题值加和，得到该时空查询的主题值，查询结果的数值按照大小排名显示在地区主题值排序图(图4(c))。

用户如果有对多地区间对比需求，可以将指定的时空查询条件生成模板保存到统计对比视图中(图4(3))。不同类型案件分布会受到时间影响呈现不同的时空分布情况，该视图通过三个不同时间精度的折线图分别展示时间分布的情况，分别是每天不同时刻分布图，每周不同星期分布图，每月不同日期分布图，三个折线图帮助用户从各种角度探索指定主题类型案件的时间分布情况。图4(3)显示了使用本***保存的两个不同时空范围产生的模板视图，视图左侧显示该模板对应的时空查询条件，视图右侧为三个不同时间刻度的三个折线统计图，(d) 折线图横坐标为小时，纵坐标为主题值，表示主题值对应每天不同小时的分布情况，(e)折线图横坐标为星期，纵坐标为主题值，表示主题值对应一周内不同星期的分布情况，(f)折线图横坐标为日期，纵坐标为主题值，表示主题值在全部时间内的分布情况。

文本主题预测。

主题时空体中地区内对应主题值按照时间顺序排列，可以得到主题值随时间变化的序列，即主题值时间序列，之后对提取得到的时间序列进行分析处理，以便进行后续的预测操作。本发明对子地区单独处理，将上述步骤得到的子地区以天为单位的报警记录的在同一主题上分布值按照时间顺序排列，便可以得到该地区每个主题的分布值时间序列。在本发明中，使用LSTM模型对经过处理后的主题时间序列预测用于测试。

本发明使用均方根误差(RMSE)、平均绝对误差(MAE)和误差率作为评价指标。评价使用的数据是时间长度为137天的A市警务报警数据，将A市划分成16*16个子地区，生成6个主题模型共56个主题进行性能评估。本发明挑选其中6个具有代表性主题，计算方法为将该6个主题在全部子地区中的主题值时间序列作为模型的输入，时间序列的前133天作为训练数据，后4天为测试数据。本发明为了对预测结果进行定性分析，对每个时间序列设置错误区间，如果预测值与真实值的误差在错误区间内，即认为预测结果准确。本发明将错误区间的值设置成该时间序列的标准差，计算公式如(4)所示，x_i为i时刻样本值，μ为时间序列的平均值，N为时间序列样本数量。即当预测值与真实值差值的绝对值小于标准差时，认为该预测为准确的，最后对全部地区4天的预测结果进行统计，计算最终预测准确数量C(corret)占全部数量C(Total)的比例作为准确率(Accuracy)。预测结果准确率如下：

表1各主题预测结果

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Gers F A,Schmidhuber J,Cummins F.Learning to forget:Continualprediction with LSTM. 1999.

[2]Wang X,Dou W,Ma Z,Villalobos J,Chen Y,Kraft T,Ribarsky W.I-SI:Scalable Architecture for Analyzing Latent Topical-Level Information FromSocial Media Data.Computer Graphics Forum.Oxford,UK:Blackwell Publishing Ltd,2012,31(3pt4):1275-1284.

[3]Marcus A,Bernstein M S,Badar O,Karger D R,Madden S,Miller RC.Twitinfo:aggregating and visualizing microblogs for eventexploration.Proceedings of the SIGCHI conference on Human factors incomputing systems.ACM,2011:227-236.

[4]Zhou X,Xu C.Tracing the spatial-temporal evolution of events basedon social media data. ISPRS International Journal of Geo-Information,2017,6(3):88.

[5]Chen S,Lin L,Yuan X.Social media visual analytics.ComputerGraphics Forum.2017,36(3): 563-587.

[6]Xu P,Wu Y,Wei E,Peng T Q,Liu S,Zhu J J,Qu H.Visual analysis oftopic competition on social media.IEEE Transactions on Visualization andComputer Graphics,2013,19(12): 2012-2021.

[7]Gray J,Chaudhuri S,Bosworth A,Layman A,Reichart D,Venkatrao M,Pellow F,Pirahesh H. Data cube:A relational aggregation operator generalizinggroup-by,cross-tab,and sub-totals[J]. Data mining and knowledge discovery,1997,1(1):29-53.

[8]Papanikolaou Y,Foulds J R,Rubin T N,Tsoumakas,G.Densedistributions from sparse samples:improved gibbs sampling parameterestimators for LDA.The Journal of Machine Learning Research,2017,18(1):2058-2115.

[9]Ibrahim Y.Temporality,space and technology:time-space discoursesof call centres.New Technology,Work and Employment,2012,27(1):23-35.

[10]Fang Z W,Wan H G,Gao S M.A fast collision detection algorithm inimage space.Journal of Computer-Aided Design&Computer Graphics,2002,14(9):805-809。

Claims

1.基于LDA模型与LSTM网络的文本数据语义时空模式探索方法，其特征在于，包括以下步骤：

(3)可视交互与预测；具体包括主题投影视图、时空投影视图和模式对比视图；用于对主题时空体提供可视化交互探索，使用可视化的方式方便用户对数据结果进行探索；并使用LSTM方法预测未来时间段的数值变化。