WO2019085118A1

WO2019085118A1 - 基于主题模型的关联词分析方法、电子装置及存储介质

Info

Publication number: WO2019085118A1
Application number: PCT/CN2017/113720
Authority: WO
Inventors: 赵清源; 吕梓燊; 韦邕; 徐亮; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-11-01
Filing date: 2017-11-30
Publication date: 2019-05-09
Also published as: CN108052520A

Abstract

一种基于主题模型的关联词分析方法，包括如下步骤：A、在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；B、基于所述主题模型训练所述待查询文本以训练出所述待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；C、从所述概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。从而，实现了对特定的专业领域进行信息检索时对关联词比较准确、且全面的计算。

Description

基于主题模型的关联词分析方法、电子装置及存储介质

本申请要求于2017年11月01日提交中国专利局、申请号为201711059225.4、发明名称为“基于主题模型的关联词分析方法、电子装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及信息检索领域，尤其涉及一种基于主题模型的关联词分析方法、电子装置及存储介质。

背景技术

信息检索***中，关联词计算是非常关键的一个步骤。通过关联词计算，我们一方面可以在用户键入内容较少的时候推算用户可能的想法，起到扩宽搜索内容的目的；而另一方面也可以寻找到用户输入内容的近义词，寻找数据库中意思相近的其他词语，进行联想匹配。

不同于日常生活中常见的近义词和同义词的使用，在某些特定领域，例如，医疗健康领域、科技创新领域等，信息检索***中关联词的使用具有一定的专业程度，若将网上开源的近义词同义词的词库库直接使用在这些特定的专业领域，通常会导致检索结果不准确、且检索结果不全面等问题。

发明内容

有鉴于此，本申请提出一种基于主题模型的关联词分析方法、装置及计算机可读介质。本申请所提出的基于主题模型的关联词分析方法、装置及计算机可读介质适用于任何专业领域的信息检索***中，能够快速准确地计算待检索特征词对应的关联词。

首先，为实现上述目的，本申请提出一种基于主题模型的关联词分析方法，该方法包括如下步骤：

A、在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；

B、基于所述主题模型训练所述待查询文本以训练出所述待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；

C、从所述概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。

优选地，从所述概率分布矩阵中获取各个词语对应的主题向量包括：

对所述概率分布矩阵中的每一列对应的参数进行归一化，从而获得以词语为维度的各个词语对应的主题向量。

优选地，所述预设的关联词权重分析规则包括：

分别计算所述待检索词语对应的主题向量与所述概率分布矩阵对应的各个其他词语对应的主题向量之间的欧式距离；

分析计算的各个欧式距离之间的大小关系，找出最小的欧式距离；

将找出的所述最小的欧式距离对应的其他词语作为该待检索词语的关联词。

优选地，所述其他词语指的是，所述概率分布矩阵对应的词语中，除所述待检索词语之外的词语。

优选地，在所述步骤A之前还包括如下步骤：

根据预先确定的技术领域与语料库的映射关系，确定获取的待查询文本所属的技术领域对应的语料库，并将确定的语料库作为该技术领域的主题模型的语料库。

此外，为实现上述目的，本申请还提供一种基于主题模型的电子装置，该装置包括：存储器、处理器，所述存储器上存储有基于主题模型的关联词分析***，所述基于主题模型的关联词分析***被处理器执行时实现如下操作：

S1、在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；

S2、基于所述主题模型训练所述待查询文本以训练出所述待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；

S3、从所述概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。

优选地，所述处理器执行基于主题模型的关联词分析***实现从所述主题特征概率分布矩阵中获取各个词语对应的主题向量的操作包括：

优选地，所述处理器执行基于主题模型的关联词分析***实现所述预设的关联词权重分析规则的操作包括：

优选地，所述处理器执行基于主题模型的关联词分析***实现步骤S1之前，还实现如下操作：

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，该计算机可读介质上存储有基于主题模型的关联词分析程序，基于主题模型的关联词分析程序被处理器执行时实现上述基于主题模型的关联词分析方法的步骤。

相较于现有技术，本申请所提出的基于主题模型的关联词分析方法、电子装置及计算机可读存储介质，首先，在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；然后，基于主题模型训练待查询文本以训练出待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；接着，从概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。这样，不仅可以将网上开源的近义词同义词的词库直接使用在特定的专业领域，而且相对于现有的关联词分析方式这种基于主题模型的关联词分析方法的检索结果比较准确、且检索结果比较全面。

附图说明

图1是本申请的基于主题模型的电子装置的硬件架构的示意图；

图2是本申请的基于主题模型的关联词分析***的程序模块示意图；

图3是图2中的分析模块的硬件架构示意图；

图4为本申请基于主题模型的关联词分析方法的实施流程示意图；

图5为图4中步骤S403的实施流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参阅图1所示，是本申请电子装置的硬件架构的示意图。

本实施例中，电子装置1包括，但不仅限于，可通过***总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的电子装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器11可以是电子装置1的内部存储单元，例如电子装置1的硬盘或内存。在另一些实施例中，存储器11也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器11还可以既包括电子装置1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于电子装置1的操作***和各类应用软件，例如基于主题模型的关联词分析***200的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置1的总体操作，例如执行与电子装置1进行数据交互或者通信相关的控制和处理等。本实施例中，处理器12用于运行存储器11中存储的程序代码或者处理数据，例如运行基于主题模型的关联词分析***200等。

网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在电子装置1与其他电子设备之间建立通信连接。

在本申请的另一些实施例中，电子装置1还包括显示器(图1中未示出)，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面等。

至此，己经详细介绍了本申请各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本申请的各个实施例。

首先，本申请提出一种基于主题模型的关联词分析***200。

参阅图2所示，是本申请基于主题模型的关联词分析***200第一实施例的程序模块图。本实施例中，基于主题模型的关联词分析***200可以被分割成一个或多个模块，其中，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例中为所述处理器12)所执行，以完成本申请。例如，在图2中，基于主题模型的关联词分析***200可以被分割成建模模块201、训练模块202、以及分析模块203。本申请所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述基于主题模型的关联词分析***200在电子装置1中的执行过程。以下将就各程序模块201-203的功能进行详细描述。

建模模块201，用于在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库(例如，该技术领域对应的论文库、博客文章库等)获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型。

在本申请的一个实施例中，可以根据该技术领域的应用场景，对待查询文本进行编辑，以获得优质的待查询文本。

例如，若该技术领域为医疗领域，则以医疗领域的预先确定的数据库中的文本作为待查询文本，首先，根据医疗领域的核心关键词语，删除无实际意义的文本(例如，分析各个待查询文本中含有预先确定的医疗领域的核心关键词语的种类和对应的数量，若一个待查询文本中含有的核心关键词语的种类小于第一阈值(例如，2)，含有的核心关键词语的总数量小于第二阈值(例如，2)，则确定该文本为无意义的文本)，排除干扰。在切词过程中仅保留名词和动词，删除一些形容词、助词等，例如删除“的”、“得”、“地”等排除干扰。

通常，主题模型中，主题表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。形象来说，主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。

进行主题建模之前需要一个语料库，在本实施例中，根据预先确定的技术领域与语料库的映射关系，确定获取的待查询文本所属的技术领域对应的语料库，并将确定的语料库作为该技术领域的主题建模的语料库。

训练模块202，用于基于主题模型训练待查询文本以训练出待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵。

通常，在LDA主题模型中，每一个词语的生成过程都依赖于该词语所属的主题，也即通常一个词语和一个主题之间都有一个条件概率关系，该条件概率关系通常表示为：P(词语|主题)。用矩阵表示这样一个关系，则矩阵的行数等于主题的个数，列数等于所有词语的个数，那么矩阵的每一行便是在某一个主题下生成不同词语的概率分布。也即为基于主题模型训练某个待查询文本时，通常训练出待查询文本包含的主题对应的不同词语之间的概率分布矩阵。

在本实施例中，重点分析概率分布矩阵的每一列，则概率分布矩阵的每一列表示的是某个词语在某一个主题中出现的概率，将每一列对应的参数进行归一化之后，获得以词语为维度的各个词语对应的主题向量。

分析模块203，用于根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。

其中，预设的关联词权重分析规则包括：

分别计算待检索词语对应的主题向量与所述概率分布矩阵对应的各个其他词语(所述其他词语指的是：所述概率分布矩阵对应的词语中，除所述待检索词语之外的词语)对应的主题向量之间的欧式距离；

将找出的欧式距离对应的其他词语作为该待检索词语的关联词。

其中，其他词语指的是，概率分布矩阵对应的词语中，除待检索词语之外的词语。

本实施例利用主题模型LDA(Latent Dirichlet Allocation)对待查询的语料库的训练结果，将每个主题中词语的潜在概率分布抽象为词语到主题的概率分布，并利用该分布计算各个词语对应的主题向量之间的欧式距离，进而根据各个词语对应的主题向量之间的欧式距离推算整个语料库中各个词语之间的关联关系。需要说明的是，本实施例中的特征即为词语。

在一优选的实施例中，如图3所示，是图2中分析模块203的硬件架构的示意图。由图3可知，分析模块203包括：计算单元301、比较单元302、关联词确定单元303。

计算单元301，用于分别计算待检索词语对应的主题向量与概率分布矩阵对应的各个其他词语对应的主题向量之间的欧式距离。

解析单元302，用于分析计算各个欧式距离之间的大小关系，找出最小的欧式距离。

关联词确定单元303，用于将找出的最小的欧式距离对应的其他词语作为该待检索词语的关联词。

实施上述的基于主题模型的关联词分析***，首先，在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；然后，基于主题模型训练待查询文本以训练出待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；接着，从概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。这样，不仅可以将网上开源的近义词同义词的词库直接使用在特定的专业领域，而且相对于现有的关联词分析方式这种基于主题模型的关联词分析方法的检索结果比较准确、且检索结果比较全面。

此外，本申请还提出一种基于主题模型的关联词分析方法。

如图4所示，为本申请基于主题模型的关联词分析方法实施流程示意图。由图4可知，本申请基于主题模型的关联词分析方法包括如下步骤S401至步骤S403。

步骤S401，在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库(例如，该技术领域对应的论文库、博客文章库等)获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型。

例如，若该技术领域为医疗领域，则以医疗领域的预先确定的数据库中的文本作为待查询文本，首先，根据医疗领域的核心关键词语，删除无实际意义的文本(例如，分析各个待查询文本中含有预先确定的医疗领域的核心关键词语的种类和对应的数量，若一个待查询文本中含有的核心关键词语的种类小于第一阈值(例如，2)，含有的核心关键词语的总数量小于第二阈值(例如，2)，则确定该文本为无意义的文本)，排除干扰。在切词过程中仅保留名词和动词，删除一些形容词、助词等，例如删除“的”、“得”、“地”等排除干扰。通常，主题模型中，主题表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。形象来说，主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。

步骤S402，基于主题模型训练待查询文本以训练出待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵。

通常，在LDA主题模型中，每一个词语的生成过程都依赖于该词语所属的主题，也即通常一个词语和一个主题之间都有一个条件概率关系，该条件概率关系通常表示为：P(词语|主题)。用矩阵表示这样一个关系，则矩阵的行数等于主题的个数，列数等于所有词语的个数，那么矩阵的每一行便是在某一个主题下生成不同词语的概率分布。也即为基于主题模型训练某个待查询文本时，通常训练出待查询文本包含的主题鱼哥哥主题对应的不同词语之间的概率分布矩阵。

在本实施例中，重点分析概率分布矩阵的每一列，则概率分布矩阵的每一列表示的是某个词语在某一个主题中出现的概率，进一步，将每一列对应的参数进行归一化之后，获得以词语为维度的各个词语对应的主题向量。

步骤S403，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。

其中，预设的关联词权重分析规则包括：

在一优选的实施例中，如图5所示，是图4中步骤S403的实施流程示意图。由图5可知，步骤S403在一是实施例中具体包括如下步骤S501至步骤S503。

步骤S501，分别计算待检索词语对应的主题向量与概率分布矩阵对应的各个其他词语对应的主题向量之间的欧式距离。

步骤S502，分析计算各个欧式距离之间的大小关系，找出最小的欧式距离。

步骤S503，将找出的最小的欧式距离对应的其他词语作为该待检索词语的关联词。

实施上述的基于主题模型的关联词分析方法，

首先，在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；然后，基于主题模型训练待查询文本以训练出待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；接着，从概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。这样，不仅可以将网上开源的近义词同义词的词库直接使用在特定的专业领域，而且相对于现有的关联词分析方式这种基于主题模型的关联词分析方法的检索结果比较准确、且检索结果比较全面。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于主题模型的关联词分析方法，其特征在于，所述方法包括如下步骤：

A、在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；

B、基于所述主题模型训练所述待查询文本以训练出所述待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；

C、从所述概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。
根据权利要求1所述的主题模型的关联词分析方法，其特征在于，从所述概率分布矩阵中获取各个词语对应的主题向量包括：

对所述概率分布矩阵中的每一列对应的参数进行归一化，从而获得以词语为维度的各个词语对应的主题向量。
根据权利要求1所述的主题模型的关联词分析方法，其特征在于，所述预设的关联词权重分析规则包括：

分别计算所述待检索词语对应的主题向量与所述概率分布矩阵对应的各个其他词语对应的主题向量之间的欧式距离；

分析计算的各个欧式距离之间的大小关系，找出最小的欧式距离；

将找出的所述最小的欧式距离对应的其他词语作为该待检索词语的关联词。
根据权利要求3所述的主题模型的关联词分析方法，其特征在于，所述其他词语指的是，所述概率分布矩阵对应的词语中，除所述待检索词语之外的词语。
根据权利要求1所述的主题模型的关联词分析方法，其特征在于，在所述步骤A之前还包括如下步骤：

根据预先确定的技术领域与语料库的映射关系，确定获取的待查询文本所属的技术领域对应的语料库，并将确定的语料库作为该技术领域的主题模型的语料库。
一种电子装置，其特征在于，所述电子装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的基于主题模型的关联词分析***，所述基于主题模型的关联词分析***被所述处理器执行时实现如下操作：

S1、在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；

S2、基于所述主题模型训练所述待查询文本以训练出所述待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；

S3、从所述概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。
根据权利要求6所述的电子装置，其特征在于，所述处理器执行基于主题模型的关联词分析***实现从所述主题特征概率分布矩阵中获取各个词语对应的主题向量的操作包括：

对所述概率分布矩阵中的每一列对应的参数进行归一化，从而获得以词语为维度的各个词语对应的主题向量。
根据权利要求6所述的电子装置，其特征在于，所述处理器执行基于主题模型的关联词分析***实现所述预设的关联词权重分析规则的操作包括：

分别计算所述待检索词语对应的主题向量与所述概率分布矩阵对应的各个其他词语对应的主题向量之间的欧式距离；

分析计算的各个欧式距离之间的大小关系，找出最小的欧式距离；

将找出的所述最小的欧式距离对应的其他词语作为该待检索词语的关联词。
根据权利要求8所述的电子装置，其特征在于，所述其他词语指的是，所述概率分布矩阵对应的词语中，除所述待检索词语之外的词语。
根据权利要求6所述的电子装置，其特征在于，所述处理器执行基于主题模型的关联词分析***实现步骤S1之前，还实现如下操作：

根据预先确定的技术领域与语料库的映射关系，确定获取的待查询文本所属的技术领域对应的语料库，并将确定的语料库作为该技术领域的主题模型的语料库。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于主题模型的关联词分析***，所述基于主题模型的关联词分析***被处理器执行时实现如下步骤：

A、在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；

B、基于所述主题模型训练所述待查询文本以训练出所述待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；

C、从所述概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。
根据权利要求11所述的计算机可读存储介质，其特征在于，从所述概率分布矩阵中获取各个词语对应的主题向量包括：

对所述概率分布矩阵中的每一列对应的参数进行归一化，从而获得以词语为维度的各个词语对应的主题向量。
根据权利要求11所述的计算机可读存储介质，其特征在于，所述预设的关联词权重分析规则包括：

分别计算所述待检索词语对应的主题向量与所述概率分布矩阵对应的各个其他词语对应的主题向量之间的欧式距离；

分析计算的各个欧式距离之间的大小关系，找出最小的欧式距离；

将找出的所述最小的欧式距离对应的其他词语作为该待检索词语的关联词。
根据权利要求13所述的计算机可读存储介质，其特征在于，所述其他词语指的是，所述概率分布矩阵对应的词语中，除所述待检索词语之外的词语。
根据权利要求11所述的计算机可读存储介质，其特征在于，在所述步骤A之前还包括如下步骤：

根据预先确定的技术领域与语料库的映射关系，确定获取的待查询文本所属的技术领域对应的语料库，并将确定的语料库作为该技术领域的主题模型的语料库。
一种基于主题模型的关联词分析***，其特征在于，包括：

建模模块，用于在需要对一个技术领域进行主题建模时，从该技术领域对应的预先确定的数据库获取该技术领域的待查询文本，对获取的待查询文本进行主题建模，以获取各个待查询文本对应的主题模型；

训练模块，用于基于所述主题模型训练所述待查询文本以训练出所述待查询文本包含的主题、及包含的主题中的词语在各个主题中出现的概率的概率分布矩阵；

分析模块，用于从所述概率分布矩阵中获取各个词语对应的主题向量，根据预设的关联词权重分析规则分析各个词语对应的主题向量之间的关系，以分析出待检索词语对应的关联词。
根据权利要求16所述的基于主题模型的关联词分析***，其特征在于，从所述概率分布矩阵中获取各个词语对应的主题向量包括：

对所述概率分布矩阵中的每一列对应的参数进行归一化，从而获得以词语为维度的各个词语对应的主题向量。
根据权利要求16所述的基于主题模型的关联词分析***，其特征在于，所述预设的关联词权重分析规则包括：

分别计算所述待检索词语对应的主题向量与所述概率分布矩阵对应的各个其他词语对应的主题向量之间的欧式距离；

分析计算的各个欧式距离之间的大小关系，找出最小的欧式距离；

将找出的所述最小的欧式距离对应的其他词语作为该待检索词语的关联词。
根据权利要求18所述的基于主题模型的关联词分析***，其特征在于，所述其他词语指的是，所述概率分布矩阵对应的词语中，除所述待检索词语之外的词语。
根据权利要求16所述的基于主题模型的关联词分析***，其特征在于，还包括：

根据预先确定的技术领域与语料库的映射关系，确定获取的待查询文本所属的技术领域对应的语料库，并将确定的语料库作为该技术领域的主题模型的语料库。