CN111831802B

CN111831802B - 一种基于lda主题模型的城市领域知识检测***及方法

Info

Publication number: CN111831802B
Application number: CN202010497669.1A
Authority: CN
Inventors: 盛浩; 李东霖; 杨达; 崔正龙; 王思哲
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-05-26
Anticipated expiration: 2040-06-04
Also published as: CN111831802A

Abstract

本发明涉及一种基于LDA主题模型的城市领域知识检测***及方法，用于生成智慧城市某领域的领域知识报告；***采用C/S架构，运用模块化的***设计，包含认证与管理模块、文件上传模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块。本发明充分利用了城市信息化过程中产生的大规模领域知识数据，可为用户自动地生成城市领域知识报告，进而应用到诸如交通预警、舆情监测等领域，设计良好，运行稳定，无需部署环境即可使用，具有较强的实际应用价值。模块都是可更新、可替换的，可以适用于未来可能需要的维护、改进和扩展。针对不同用户的个性化需要，各个模块均提供可自定义的参数或文件，使得***既满足普通用户一般化的需要，也满足专业用户定制化的需要。

Description

一种基于LDA主题模型的城市领域知识检测***及方法

技术领域

本发明涉及一种基于LDA主题模型的城市领域知识检测***及方法，具体说是一种基于LDA主题模型的城市领域知识检测***及方法，属于大数据与自然语言处理交叉应用领域。

背景技术

随着硬件算力的提高和软件算法的完善，计算机已经能够在较短时间内处理海量的数据。在云计算时代，利用大数据对城市进行监测和管理已经成为可能，城市大数据成为目前炙手可热的话题。在此基础上，“智慧城市”的概念被提出。智慧城市是把新型信息技术充分运用到城市中的各个地理位置，各个领域，各行各业，是城市信息化的一种高级形态。

信息的交换与共享是智慧城市的主要活动。城市中的工商数据、交通信息、居民的社交言论等，均是信息，统称为城市的领域知识。领域知识模型是描述智慧城市信息***的一个核心概念，包含智慧城市中的实体、服务、事件等全部信息。

由于智慧城市的领域知识数据具有总量大、来源广、信息杂的特点，使得对于领域知识的应用出现了困难。如果采用人工方法处理，不仅费时费力，不能保证正确性，而且还不能及时跟进最新数据。因此本发明提出了一种基于LDA主题模型的城市领域知识检测方法，并设计了一个完善的城市领域知识检测平台，运用自然语言处理技术处理领域知识，消除低质量的信息，并提取关键信息生成领域知识报告，为用户提供精确的城市领域知识，进而应用到诸如交通预警、舆情监测等领域。

基于LDA主题模型的城市领域知识检测技术研究的目的在于以城市大数据信息为数据源，利用计算机数据处理技术的高效率、高准确率、低成本，对城市领域知识进行提取，生成城市领域知识报告，使用户获取关键信息，并用于进阶领域。

发明内容

本发明技术解决问题：针对智慧城市建设中数据多而杂的情况，提出了一种基于LDA主题模型的城市领域知识检测***及方法，能快速、准确地处理数据，使用户能获取关键城市领域知识，并针对性地用于交通预警、舆情监测等领域。

本发明为一种基于LDA主题模型的城市领域知识检测***，以城市信息化过程中产生的大规模领域知识为基础，运用自然语言处理技术提取关键信息，生成城市领域知识报告，提出了一个基于LDA主题模型的关键词提取算法，能结合城市领域知识的特点和中文语言的结构提取出包含城市领域知识信息的关键短语；

所述***包括客户端与服务器端；在客户端部署认证与管理模块、文件上传模块和数据传输模块；在服务器端部署认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块，其中：

客户端认证与管理模块：一是获取用户身份信息并与服务器端认证与管理模块交互以验证用户身份的合法性，只有合法的用户才被允许进入操作界面进行后续操作；二是对客户端的文件上传模块和数据传输模块进行管理，控制与服务器端数据传输模块的交互；

客户端文件上传模块：用于用户上传待处理的数据文件至客户端数据传输模块，支持后缀名为“.xls”、“.xlsx”、“.csv”和转化为“.csv”的“.txt”文件；客户端文件上传模块包含一个可视化界面使上传的文件内容可见，用户对每列对应的内容进行声明，最多支持20个变量，满足用户对不同列的过滤需求；客户端文件上传模块还包含一个爬虫子模块，爬取对应网址的城市领域知识信息，作为输入文件的补充或直接作为输入；

客户端数据传输模块：用于封装客户端数据信息并发送给服务器端，以及解析从服务器端数据传输模块接收的信息；所述客户端数据信息包括身份验证模块的用户身份信息、文件上传模块的数据文件、服务器端各模块支持用户自定义的各类参数及字典文件，数据传输是基于TCP/IP的，以保证传输的可靠性。在此之上，对于文件的传输是基于FTP的，以保证传输效率；

服务器端认证与管理模块：一是维护一个用户数据库，对发起连接请求的客户端用户身份进行验证，若验证成功则返回通告信息并为该用户分配一块工作空间；二是对服务器端的数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块进行管理，控制与客户端数据传输模块的交互；

服务器端数据清洗模块：用于对接收到的原始数据进行数据清洗，得到清洗后的数据，以提高数据质量；服务器端数据清洗模块包括三个子模块：重复数据清洗模块、无价值数据清洗模块和特殊符号清洗模块；其中重复数据是指字符相同或语义相近的数据，无价值数据是指与用户所要提取的领域知识无关的数据，特殊符号是指由于编码或解码方式不同而产生的乱码或是与领域知识无关的特殊符号。重复数据清洗模块接收用户设置的清洗参数，按用户要求进行重复数据的清洗；无价值数据清洗模块接收用户输入的模式字符串，按匹配规则对无价值数据进行清洗；特殊符号清洗模块维护一个特殊符号库，包含网络上常用的各种特殊符号，依照特殊符号库对数据进行一个更强的过滤；

服务器端分词与词性标注模块：用于对清洗后的数据进行分词与词性标注，所述数据切分成词并标注其词性；服务器端分词与词性标注模块维护一个中文词典，中文词典包含几乎所有的中文词与中文词词性注释，对于输入至服务器端分词与词性标注模块中的每一条数据，按照双向最大匹配算法对每条数据进行扫描，将每条数据切分成词并标注词性信息；服务器端分词与词性标注模块还接收用户上传的自定义分词词典，替换或补充默认词典进行分词与词性标注，以满足不同领域的分词需要；最后得到分词与词性标注后的数据；

服务器端关键词提取模块：用于对分词与词性标注后的数据进行关键词的提取；通过基于LDA主题模型的关键词提取算法先进行词性过滤，筛选出候选关键词，再通过逆TF-IDF算法对候选关键词初步赋权，之后基于LDA模型对候选关键词赋权，计算加权权值作为每个候选关键词的总权值，最后提取出权重最高的指定数量关键词，并生成关键短语；LDA全称为Latent Dirichlet Allocation，即隐含狄利克雷分布，LDA模型是一种主题模型，通过LDA模型获取每条数据的词分布和主题分布，进而通过计算余弦相似度即获得权重；所述基于LDA主题模型的关键词提取算法实现如下：

(1)词性过滤；对于经过分词与词性标注的语料，首先进行词性过滤，筛选出候选关键词，经过词性过滤后只保留语料中指定词性的词；

(2)基于逆TF-IDF算法的关键词初步赋权；采用一种逆TF-IDF算法，为每个候选关键词赋予初始权值，候选关键词的初始权重值为：

Weight(i,iTF-IDF)＝tf(i)×iidf(i)×length(i)

上式中，tf(i)表示词i在该条语料中的出现频率；iidf(i)是idf(i)的倒数，衡量词i在语料库中的出现频率；length(i)是词i的长度；初始权重值为三者的乘积；

(3)基于LDA主题模型的关键词赋权，LDA模型可以获取每条数据的主题分布和词分布，把步骤(1)中的语料输入训练好的LDA模型中，得到每个词在主题上的概率分布和每条语料在主题上的概率分布，再通过余弦相似度计算词与词之间的相关度和词与语料之间的相关度；基于LDA主题模型的关键词权重定义为：

Weight(i,LDA)＝α×Σsim(i,j)+(1-α)×sim(i,p)

其中，sim(i,j)表示词i与词j之间的相关度，sim(i,p)表示词i与语料p之间的相关度，加权系数α由用户自行设定，默认为0.2；

(4)关键词最终权重计算：最终每个候选关键词的权重定义为基于逆TF-IDF算法的关键词权重值和基于LDA主题模型的关键词权重值的加权和，即：

Weight(i)＝λ×weight(i,iTF-IDF)+(1-λ)×weight(i,LDA)

其中λ为加权系数；计算出最终权重值后，按照权重值的大小为每条语料提取出特定的关键词；

(5)关键词扩展：对提取出的关键词进行扩展，生成关键短语，对于提取到的关键词，计算每条语料中关键词之间的共现频率，即同时出现在同一文本，且距离不超过8个字节的次数，若达到某一阈值β且满足用户指定的词性组合，则扩展成关键短语，其中β由用户自行设定，本发明经过大量反复测试选择为3。

服务器端聚类模块：用于对相似的关键短语进行聚类；聚类时预先训练一个word2vec模型，然后把所有输入的关键短语转换成word2vec词向量，计算词向量之间的相似度，按照用户设置的相似度阈值来聚类语义相似的关键短语；聚类完成后，统计各关键短语的词频并排序，生成城市领域知识报告返回给客户端；所述城市领域知识即城市各领域信息化的数据，包括交通流量数据、电商用户评论数据、社交网络行为数据，以及所有具有一定规模数据量的可搜集的城市领域信息。

服务器端数据传输模块：用于封装服务器端认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块和聚类模块的信息并发送给客户端，以及解析从客户端数据传输模块接收的信息，服务器端数据信息包括认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块返回的处理信息和生成的中间文件、聚类模块生成的最终聚类结果。

服务器端情感分析模块(可选)：对于经过服务器端数据清洗模块清洗后的数据，如果是文本类数据，且对文本情感分类有需求则采用服务器端情感分析模块；所述服务器端情感分析模块用于对文本类数据进行情感分析，将文本类数据分类为积极情感和消极情感两类，方便用户根据自身需要选用不同类型数据进行后续操作；情感分析模块维护一个基于How net(知网，大型语言知识库)构建的情感词典，对于输入情感分析模块的每一条文本数据，按照加权平均算法计算每一条数据的情感强度，按照接收到的用户设置的阈值来对文本数据进行分类；情感分析模块还接收用户上传的自定义情感词典，来替换或补充默认词典进行情感分析。

本发明方法具体步骤如下：

(1)用户打开客户端后先进入认证与管理模块，根据提示在输入框中输入用户名和密码，点击“确定”后信息被传递给客户端数据传输模块，客户端数据传输模块与服务器数据传输模块建立TCP连接，将信息上传至服务器端。服务器端身份验证模块从服务器端数据传输模块提取信息后查找用户数据库，若查找成功，则客户端返回“登录成功”的提示信息，并进入操作界面，服务器端根据用户权限分配一块工作空间；若查找失败，则客户端返回“用户名或密码错误，请重新输入”的提示信息，并重新加载认证与管理模块。

(2)用户需要输入一个包含大量城市领域知识信息的文件，对此操作界面提供了两种选择：一是使用内置的爬虫程序从指定的网页上爬取对应城市领域知识，二是直接从本地上传已经收集好的城市领域知识文件。上传的文件经过数据传输模块到达服务器端的数据清洗模块进行下一步操作。

(3)在数据清洗阶段，***可以按照用户的需要对数据进行清洗，尽可能过滤掉垃圾数据(与本领域无关信息或影响关键信息提取的数据)，保留用户期望的数据，具体包括重复数据清洗、无价值数据清洗和特殊符号清洗。重复数据清洗是对那些完全一致的数据进行清洗，降低冗余。用户可以指定清洗的范围，如清洗所选时间段内完全一致的数据或者按数据来源进行清洗等等。无价值数据是指那些没有意义的数据，如电商用户评论中出现的连续数字或字母等，用户可以指定对应的模式字符串对其进行清洗。特殊符号清洗可以处理掉一些网络特殊字符，可以进一步精简数据。经过数据清洗后的数据，如果是文本类数据，且对文本情感分类有需求，则可以导入情感分析模块进行下一步操作，否则导入分词与词性标注模块。

(4)在情感分析阶段，***根据数据内容将数据分为积极情感和消极情感两类，分类的依据是：如果一个数据表达了积极情感，它的情感倾向是积极的(positive)；如果一个数据表达了消极情感，它的情感倾向是消极的(negative)。这就转化为了文本情感分析领域的二分类问题，***采用的是经典的基于语义的情感词典方法，以中文语言知识库Hownet为基础构建了情感词典，利用加权平均算法计算每个文本数据的情感强度，根据设定的阈值来判断其情感倾向。情感分析后的文本数据被分类为积极情感和消极情感两个子数据块，用户可以决定选择哪块进行进一步处理，也可以全部选择，分类的目的是满足用户不同的需要(比如对于电商平台产品的用户评论数据，一般来说好评体现了产品所具有的优势特点，差评反映了产品存在的不足，用户可以选择了解产品的强项以进一步加强，或是对产品的弱点进行补足)，经过情感分析后的文本数据被导入分词与词性标注模块进行下一步操作。

(5)在分词与词性标注阶段，文本语句被切分成中文的基本表达单元——词，所用的分词算法为基于字符串匹配的分词方法，即按照一定的策略将待分析的中文字符串与一个设定的中文词典进行匹配，若匹配成功则切分出一个词。***采用的匹配方法是双向最大匹配法，即对字符串进行从左到右和从右到左两次扫描，尽可能地提高分词准确率。分词词典不仅储存了词信息，还储存了词性信息，在分词的同时会标注出词性信息，如“名词”“形容词”等等。经过分词与词性标注后的文本数据被导入关键词提取模块进行下一步操作。

(6)在关键词提取阶段，分词语料输入关键词提取模块，通过基于LDA主题模型的关键词提取算法计算出每个候选关键词的权重值来提取出特定的关键词，并生成关键短语。基于LDA主题模型的关键词提取算法的实现如下：

关键词提取模块中的基于LDA主题模型的关键词提取算法，是通过计算候选关键词的权重值并进行比较，筛选出文本中的关键词。它主要包含5个部分，分别为：

(a)词性过滤。经过分词与词性标注的语料被输入关键词提取模块，首先进行词性过滤，筛选出候选关键词。因为不同领域的领域知识的关键词性是不同的，因此用户可根据自身需要选择筛选的词性。如对于电商平台产品质量评估这一应用，有价值的候选词是描述产品部件的名词和描述产品性能及评价的形容词，因此经过词性过滤后只保留语料中的名词与形容词进行下一步操作。

(b)基于逆TF-IDF算法的关键词初步赋权。TF-IDF是一种统计方法，用于评估字词对于一个语料库中的某一文档的重要程度。针对本专利的具体应用，提出了一种逆TF-IDF算法，为每个候选关键词赋予初始权值。候选关键词的初始权重值：

Weight(i,iTF-IDF)＝tf(i)×iidf(i)×length(i)

上式中，tf(i)表示词i在该条语料中的出现频率，iidf(i)是idf(i)的倒数，可以衡量词i在语料库中的出现频率，length(i)是词i的长度，初始权重值为三者的乘积。与传统的TF-IDF算法不同，词i在语料库中出现的频率越高则初始权重值越高。

(c)基于LDA主题模型的关键词赋权。LDA主题模型是一种生成概率模型，它定义语料库中的每条语料均为隐含主题集的随机混合，因此语料库可以转化为隐含主题的集合。把(a)中的语料输入训练好的LDA模型中，得到每个词在主题上的概率分布和每条语料在主题上的概率分布，则可以通过余弦相似度来计算词与词之间的相关度和词与语料之间的相关度，因此把基于LDA主题模型的关键词权重定义为：

Weight(i,LDA)＝α×Σsim(i,j)+(1-α)×sim(i,p)

其中，sim(i,j)表示词i与词j之间的相关度，sim(i,p)表示词i与语料p之间的相关度，加权系数α可由用户自行设定，本发明经过大量反复测试选择为0.2。

(d)关键词最终权重计算。最终每个候选关键词的权重定义为基于逆TF-IDF算法的关键词权重值和基于LDA主题模型的关键词权重值的加权和，即Weight(i)＝λ×weight(i,iTF-IDF)+(1-λ)×weight(i,LDA)

其中加权系数λ可由用户自行设定，本发明经过大量反复测试选择为0.15。计算出最终权重值后，按照权重值的大小为每条语料提取出特定的关键词。

(e)关键词扩展。短语相比于词，能够包含更多的信息，因此对提取出的关键词进行扩展，生成关键短语。不同领域的关键短语语法结构是不同的，对于电商平台上的产品评论而言，包含产品质量评价信息的短语一般是“名词”+“形容词”的语法结构，因此如果用户处理的是电商平台用户评论，对于上一步提取到的关键词，计算每条语料中关键词之间的共现频率(即同时出现在同一文本，且距离不超过8个字节的次数)，若达到某一阈值β且满足“名词”与“形容词”的组合结构，则扩展成关键短语。其中β可由用户自行设定，默认为3。

该关键词提取算法能较好地提取出文本语句中的关键词并生成关键短语，关键短语能最大程度地保存原始文本中的有价值信息，生成的关键短语被导入聚类模块进行下一步操作。

(7)在聚类阶段，所有的关键短语被转换成word2vec词向量，并计算向量之间的相似度，若相似度大于用户设定的阈值，则将其聚类为同一个短语，在将所有关键短语进行聚类后，统计词频并排序，把生成的城市领域知识信息返回给客户端。

本发明与现有技术相比的优点在于：

(1)本发明以城市信息化过程中产生的大规模领域知识为基础，运用自然语言处理技术提取关键信息，生成城市领域知识报告，设计了一个可交互的城市领域知识检测***，与传统方法相比，提供了高效率、高准确的自动化平台，节约了人力物力。

(2)本发明提出了一个基于LDA主题模型的关键词提取算法，能结合城市领域知识的特点和中文语言的结构提取出包含城市领域知识信息的关键短语。

(3)本发明采用了C/S架构，将大量的数据处理工作交予高性能的服务器执行，使用户无需配置工作环境即可完成质量评估，客户端与服务器端之间的传输是基于TCP/IP协议的，保证了可靠性。

(4)本发明在数据处理流程中的每个模块都对用户提供了可自定义的选项，用户可根据自身需要和所处理数据的特点来自行配置一些参数和文件，以满足个性化的需要。

(5)本发明采用模块化的设计思路，使得***维护和功能扩展十分方便，对某模块的维护不影响其他模块的工作，添加新的功能也不影响既有功能的使用。

(6)由于本发明的主要操作均部署在服务器上，因此支持热更新，随着技术迭代可不断提高处理准确度，而不需要用户主动进行操作。

附图说明

图1为本发明基于LDA主题模型的城市领域知识检测平台结构图；

图2为本发明的数据清洗模块结构图；

图3为本发明的情感分析模块结构图；

图4为本发明的分词与词性标注模块结构图；

图5为本发明的关键词提取模块算法流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，为本发明基于LDA主题模型的城市领域知识检测平台结构图。左侧为客户端结构图，由UI层、认证与管理模块、文件上传模块和数据传输模块组成。其中UI层提供可视化，方便用户直接操作。认证与管理模块既负责用户身份的认证工作，又负责管理客户端各模块，实现与数据传输模块的交互。交互信息包括用户身份认证信息、用户提供给工作各模块的自定义参数和文件、服务器端返回的结果信息等。文件上传模块开放一个接口，使用户可以上传指定类型的文件进行处理，其中还附带了一个爬虫子模块，可用作输入的补充。数据传输模块承担与服务器端的交互工作，采用TCP/IP协议保证传输的可靠性。右侧为服务器端结构图，由UI层、认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块组成。其中UI层为服务器管理员提供可视化的操作。认证与管理模块与客户端的认证与管理模块交互，共同完成用户身份的认证工作，同时负责管理服务器端各模块，实现与数据传输模块的交互。数据清洗模块负责对原始数据进行清洗，去除垃圾数据和信息，提高最终结果的准确度和可信度。情感分析模块负责对需要分类的文本数据进行文本情感分析，将其分类为积极情感或消极情感，满足不同的领域知识检测需求。分词与词性标注模块负责将文本语句切分成词并标注其词性，生成关键词提取的语料。关键词提取模块提出了一个基于LDA主题模型的关键词提取算法，负责对语料进行关键词提取，生成领域知识信息。聚类模块负责对领域知识信息进行聚类和优化，生成最终的城市领域知识报告。数据传输模块负责与客户端的交互工作。***采用C/S架构，用户无需配置环境即可使用高性能服务器完成任务，采用TCP/IP保证了传输可靠性。各个模块均提供了自定义选项，用户可根据需要配置各项参数。***采用模块化的设计思路，各个模块可独立运行，同时支持热更新，无需用户手动操作即可实现技术迭代。

如图2所示，为本发明的数据清洗模块结构图。对于输入的数据，数据清洗模块先对其进行重复数据的清洗，在此步骤，数据清洗模块接收用户设置的清洗参数，按用户自定义的清洗强度进行重复数据清洗。之后，数据被导入无价值数据清洗子模块，根据接收到的模式字符串对数据进行进一步清洗。清洗后的数据再被导入特殊符号清洗子模块，在这一步，按照数据清洗模块维护的特殊符号库对数据进行清洗，用户也可导入自行设置的特殊符号库来进行个性化的清洗。经过数据清洗操作的数据被导出作为下一步操作的输入，也可返回给客户端查看结果。

如图3所示，为本发明的情感分析模块结构图。对于输入的文本数据，情感分析模块依据情感词典，按照加权平均算法计算每一条数据的情感强度，再按照接收到的情感阈值，将每一条数据归类为积极情感或消极情感并分类输出，用户也可按照自身需要构建个性化的情感词典并上传到服务器端，即可实现个性化的文本情感分析。经过情感分析操作的数据被导出作为下一步操作的输入，也可返回给客户端查看结果。

如图4所示，为本发明的分词与词性标注模块结构图。对于输入的数据，分词与词性标注模块依据分词词典，按照双向最大匹配法将每一句话切分成词，同时按照分词词典中的词性对其进行标注。用户也可导入自定义的分词词典来补充或替换默认词典，例如添加一些特定领域的专有词，以满足不同领域数据的分词需要。经过分词与词性标注操作的数据被导出作为下一步操作的输入，也可返回给客户端查看结果。

如图5所示，为本发明的关键词提取模块算法流程图。具体步骤为：

(1)对分词语料进行词性过滤；根据用户设置的词性过滤规则，对输入数据进行词性过滤，即遍历每一个分词，检查其词性，若与用户设置的词性一致则保留，否则清除。

(2)读取语料，基于逆TF-IDF算法计算候选关键词的权重值；对于经过词性过滤后的每一条分词语料，根据逆TF-IDF算法计算其中每一个分词的初始权重值，其值为：

Weight(i,iTF-IDF)＝tf(i)×iidf(i)×length(i)

(3)读取语料，基于LDA主题模型计算候选关键词的权重值；LDA模型可以获取每条数据的主题分布和词分布，对于经过词性过滤后的每一条分词语料，基于LDA主题模型计算其中每一个分词的LDA权重值，其值为：

Weight(i,LDA)＝α×Σsim(i,j)+(1-α)×sim(i,p)

其中，sim(i,j)表示词i与词j之间的相关度，sim(i,p)表示词i与语料p之间的相关度，加权系数α可由用户自行设定，默认为0.2。LDA主题模型是一种生成概率模型，它定义语料库中的每条语料均为隐含主题集的随机混合，因此语料库可以转化为隐含主题的集合。把步骤(1)中的语料输入训练好的LDA模型中，得到每个词在主题上的概率分布和每条语料在主题上的概率分布，则可以通过余弦相似度来计算词与词之间的相关度和词与语料之间的相关度。

(4)计算加权权重值，提取关键词；对于经过词性过滤后的每一条分词语料，计算其中每一个分词的最终权重值，最终权重值定义为基于逆TF-IDF算法的关键词权重值和基于LDA主题模型的关键词权重值的加权和，即：

Weight(i)＝λ×weight(i,iTF-IDF)+(1-λ)×weight(i,LDA)

其中weight(i,iTF-IDF)由步骤(2)得到，weight(i,LDA)由步骤(3)得到。其中加权系数λ可由用户自行设定，默认为0.15。计算出最终权重值后，按照权重值的大小排序，为每条语料提取出权重最高的指定数量的关键词。

(5)计算关键词之间的共现频率；短语相比于词，能够包含更多的信息，因此对提取出的关键词进行扩展，生成关键短语。不同领域的关键短语语法结构是不同的，因此用户根据需要指定合适的语法结构，算法计算关键词之间的共现频率(即同时出现在同一文本，且距离不超过8个字节的次数)，若达到某一阈值β且满足指定的语法结构，则扩展成关键短语。其中β可由用户自行设定，根据测试表现默认为3。

此算法的提取方法涵盖了大部分中文领域知识的语法特性，使用该算法对领域知识语句进行关键词提取，能把大多数包含领域知识信息的关键短语提取出来。

总之，本发明面向大数据与自然语言处理交叉应用领域，提供了一种基于LDA主题模型的城市领域知识检测方法，运用模块化的***设计方法，采用C/S架构，设计了认证与管理模块、文件上传模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块。模块都是可更新、可替换的，可以适用于未来可能需要的维护、改进和扩展。针对不同用户的个性化需要，各个模块均提供了可自定义的参数或文件，使得***既满足普通用户一般化的需要，也满足专业用户定制化的需要。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述，仅为本发明部分设计和实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明描述的技术范围内，可轻易想到的修改和替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于LDA主题模型的城市领域知识检测***，其特征在于，包括：客户端与服务器端；在客户端部署认证与管理模块、文件上传模块和数据传输模块；在服务器端部署认证与管理模块、数据清洗模块、情感分析模块、分词与词性标注模块、关键词提取模块、聚类模块和数据传输模块，其中：

客户端文件上传模块：用于用户上传待处理的数据文件至客户端数据传输模块；客户端文件上传模块包含可视化界面使上传的文件内容可见；客户端文件上传模块还包含一个爬虫子模块，爬取对应网址的城市领域知识信息，作为输入文件的补充或直接作为输入；

客户端数据传输模块：用于封装客户端数据信息并发送给服务器端，以及解析从服务器端数据传输模块接收的信息；所述客户端数据信息包括身份验证模块的用户身份信息、文件上传模块的数据文件、服务器端各模块支持用户自定义的各类参数及字典文件，数据传输是基于TCP/IP的，以保证传输的可靠性；对于文件的传输是基于FTP的，以保证传输效率；

服务器端数据清洗模块：用于对接收到的原始数据进行数据清洗，得到清洗后的数据，以提高数据质量；服务器端数据清洗模块包括三个子模块：重复数据清洗模块、无价值数据清洗模块和特殊符号清洗模块；其中重复数据是指字符相同或语义相近的数据，无价值数据是指与用户所要提取的领域知识无关的数据，特殊符号是指由于编码或解码方式不同而产生的乱码或是与领域知识无关的特殊符号；重复数据清洗模块接收用户设置的清洗参数，按用户要求进行重复数据的清洗；无价值数据清洗模块接收用户输入的模式字符串，按匹配规则对无价值数据进行清洗；特殊符号清洗模块维护一个特殊符号库，包含网络上常用的各种特殊符号，依照特殊符号库对数据进行一个更强的过滤；

服务器端关键词提取模块：用于对分词与词性标注后的数据进行关键词的提取；通过基于LDA主题模型的关键词提取算法先进行词性过滤，筛选出候选关键词，再通过逆TF-IDF算法对候选关键词初步赋权，之后基于LDA模型对候选关键词赋权，计算加权权值作为每个候选关键词的总权值，最后提取出权重最高的指定数量关键词，并生成关键短语；LDA模型是一种主题模型，通过LDA模型获取每条数据的词分布和主题分布，进而通过计算余弦相似度即获得权重；

服务器端聚类模块：用于对相似的关键短语进行聚类；聚类时预先训练一个word2vec模型，然后把所有输入的关键短语转换成word2vec词向量，计算词向量之间的相似度，按照用户设置的相似度阈值来聚类语义相似的关键短语；聚类完成后，统计各关键短语的词频并排序，生成城市领域知识报告返回给客户端；所述城市领域知识即城市各领域信息化的数据，包括交通流量数据、电商用户评论数据、社交网络行为数据，以及所有具有一定规模数据量的可搜集的城市领域信息；

2.根据权利要求1所述的一种基于LDA主题模型的城市领域知识检测***，其特征在于，所述***还包括：服务器端情感分析模块；对于经过服务器端数据清洗模块清洗后的数据，如果是文本类数据，且对文本情感分类有需求则采用服务器端情感分析模块；

所述服务器端情感分析模块用于对文本类数据进行情感分析，将文本类数据分类为积极情感和消极情感两类，方便用户根据自身需要选用不同类型数据进行后续操作；情感分析模块维护一个基于语言知识库构建的情感词典，对于输入情感分析模块的每一条文本数据，按照加权平均算法计算每一条数据的情感强度，按照接收到的用户设置的阈值来对文本数据进行分类；情感分析模块还接收用户上传的自定义情感词典，来替换或补充默认词典进行情感分析。

3.根据权利要求1或2所述的一种基于LDA主题模型的城市领域知识检测***，其特征在于：所述服务器端关键词提取模块中的基于LDA主题模型的关键词提取算法实现如下：

Weight(i,iTF-IDF)＝tf(i)×iidf(i)×length(i)

(3)基于LDA主题模型的关键词赋权，LDA模型获取每条数据的主题分布和词分布，把步骤(1)中的语料输入训练好的LDA模型中，得到每个词在主题上的概率分布和每条语料在主题上的概率分布，再通过余弦相似度计算词与词之间的相关度和词与语料之间的相关度；基于LDA主题模型的关键词权重定义为：

Weight(i,LDA)＝α×Σsim(i,j)+(1-α)×sim(i,p)

其中，sim(i,j)表示词i与词j之间的相关度，sim(i,p)表示词i与语料p之间的相关度，加权系数α由用户自行设定；

Weight(i)＝λ×weight(i,iTF-IDF)+(1-λ)×weight(i,LDA)

(5)关键词扩展：对提取出的关键词进行扩展，生成关键短语，对于提取到的关键词，计算每条语料中关键词之间的共现频率，即同时出现在同一文本，且距离不超过8个字节的次数，若达到某一阈值β且满足用户指定的词性组合，则扩展成关键短语，其中β由用户自行设定，根据测试表现默认为3。

4.一种基于LDA主题模型的城市领域知识检测方法，其特征在于，包括以下步骤：

(1)用户打开客户端后先进行认证与管理模块，根据提示在输入框中输入用户名和密码，点击“确定”后信息被传递给客户端数据传输模块，客户端数据传输模块与服务器数据传输模块建立TCP连接，将信息上传至服务器端，服务器端身份验证模块从服务器端数据传输模块提取信息后查找用户数据库，若查找成功，则客户端返回“登录成功”的提示信息，并进入操作界面，服务器端根据用户权限分配一块工作空间；若查找失败，则客户端返回“用户名或密码错误，请重新输入”的提示信息，并重新进行加载认证与管理模块；

(2)用户输入一个包含待检测城市领域知识信息的文件，对此操作界面提供了两种选择：一是使用内置的爬虫程序从指定的网页上爬取对应城市领域知识，二是直接从本地上传已经收集好的城市领域知识，上传的文件经过数据传输模块进入到达服务器端的数据清洗阶段；

(3)在数据清洗阶段，按照用户的需要对数据进行清洗，过滤掉垃圾数据即与本领域无关信息或影响关键信息提取的数据，保留用户期望的数据，具体包括重复数据清洗、无价值数据清洗和特殊符号清洗；重复数据清洗是对完全一致的数据进行清洗，降低冗余；无价值数据是指没有意义的数据，包括电商用户评论中出现的连续数字或字母，用户指定对应的模式字符串对其进行清洗；特殊符号清洗处理掉一些网络特殊字符，进一步精简数据；经过数据清洗后的数据，如果是文本类数据，且对文本情感分类有需求，则导入情感分析阶段进行下一步操作，否则导入分词与词性标注阶段；

(4)在情感分析阶段，***根据数据内容将数据分为积极情感和消极情感两类，分类的依据是：如果一个数据表达积极情感，它的情感倾向是积极positive；如果一个数据表达了消极情感，它的情感倾向是消极negative，这就转化为文本情感分析领域的二分类问题，采用基于语义的情感词典方法，以语言知识库为基础构建了情感词典，利用加权平均算法计算每个文本数据的情感强度，根据设定的阈值来判断其情感倾向；情感分析后的文本数据被分类为积极情感和消极情感两个子数据块，用户决定选择哪块进行进一步处理，也可以全部选择，分类的目的是满足用户不同的需要，经过情感分析后的文本数据被导入分词与词性标注阶段；

(5)在分词与词性标注阶段，文本语句被切分成中文的基本表达单元——词，所用的分词算法为基于字符串匹配的分词方法，即按照一定的策略将待分析的中文字符串与一个设定的中文词典进行匹配，若匹配成功则切分出一个词；采用的匹配方法是双向最大匹配法，即对字符串进行从左到右和从右到左两次扫描，提高分词准确率；经过分词与词性标注后的文本数据被导入关键词提取阶段；

(6)在关键词提取阶段，分词语料输入关键词提取模块，通过基于LDA主题模型的关键词提取算法计算出每个候选关键词的权重值来提取出特定的关键词，并生成关键短语；基于LDA主题模型的关键词提取算法的实现如下：

关键词提取模块中的基于LDA主题模型的关键词提取算法，是通过计算候选关键词的权重值并进行比较，筛选出文本中的关键词，它包含5个部分，分别为：

(a)词性过滤：经过分词与词性标注的语料被输入关键词提取阶段，首先进行词性过滤，筛选出候选关键词；

(b)基于逆TF-IDF算法的关键词初步赋权，为每个候选关键词赋予初始权值，候选关键词的初始权重值：

Weight(i,iTF-IDF)＝tf(i)×iidf(i)×length(i)

上式中，tf(i)表示词i在该条语料中的出现频率，iidf(i)是idf(i)的倒数，衡量词i在语料库中的出现频率，length(i)是词i的长度，初始权重值为三者的乘积；

(c)基于LDA主题模型的关键词赋权，LDA模型可以获取每条数据的主题分布和词分布，把(a)中的语料输入训练好的LDA模型中，得到每个词在主题上的概率分布和每条语料在主题上的概率分布，通过余弦相似度来计算词与词之间的相关度和词与语料之间的相关度；基于LDA主题模型的关键词权重定义为：

Weight(i,LDA)＝α×Σsim(i,j)+(1-α)×sim(i,p)

其中，sim(i,j)表示词i与词j之间的相关度，sim(i,p)表示词i与语料p之间的相关度，加权系数α由用户自行设定，根据测试表现默认为0.2；

(d)关键词最终权重计算，最终每个候选关键词的权重定义为基于逆TF-IDF算法的关键词权重值和基于LDA主题模型的关键词权重值的加权和，即：

Weight(i)＝λ×weight(i,iTF-IDF)+(1-λ)×weight(i,LDA)

(e)关键词扩展，对提取出的关键词进行扩展，生成关键短语，计算每条语料中关键词之间的共现频率即同时出现在同一文本，且距离不超过8个字节的次数，若达到设定的阈值β且满足“名词”与“形容词”的组合结构，则扩展成关键短语；生成的关键短语被导入聚类阶段进行下一步操作；

(7)在聚类阶段，所有的关键短语被转换成word2vec词向量，并计算向量之间的相似度，若相似度大于用户设定的阈值，则将这部分向量聚类为同一个短语，在将所有关键短语进行聚类后，统计词频并排序，把生成的城市领域知识信息返回给客户端。