CN103678277A

CN103678277A - 基于文档分段的构建主题-词汇分布的方法及***

Info

Publication number: CN103678277A
Application number: CN201310657341.1A
Authority: CN
Inventors: 王勇; 赵立军
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2013-12-04
Filing date: 2013-12-04
Publication date: 2014-03-26

Abstract

本发明提供了一种基于文档分段的构建主题-词汇分布的方法及***，其中的方法包括，通过预设的本体库将资源文档按照语义相关度分割成资源文档片段，根据LDA算法对资源文档片段构建主题-词汇分布。利用上述根据本发明的基于文档分段的构建主题-词汇分布的方法及***，通过资源文档增加了一个根据预设的本体库进行分割的过程，对于那些包含多个话题的资源文档进行适当的语义划分，划分成若干具有独立语义的资源文档片段，然后对这些独立语义的资源文档片段使用LDA算法构建主题-词汇分布，因此，能构建相对准确的主题-单词分布，提高学习到的主题的质量。

Description

基于文档分段的构建主题-词汇分布的方法及***

技术领域

本发明涉及文本分析技术领域，更为具体地，涉及一种基于文档分段的构建主题-词汇分布的方法及***。

背景技术

在文本分析领域中，LDA（Latent Dirichlet Allocation，隐含狄利克雷分布）算法是一种常见的基于无监督学习的统计方法，在这种方法中，对于给定的文档集合，***通过参数估计能够确定一些隐含的主题（Topic），每个主题是一个词汇表上的概率分布，每篇文档则可以表示为在多个主题上的概率分布，和词袋模型中的单词相比隐含主题的维度要低得多，可以有效地避免词一级的噪音，因此得到了广泛的应用。

但是在现实世界中的文档，由于其交流特性和组织方式并不是围绕着一个话题（话题可以认为对若干领域概念之间的关系的描述）来严格地进行论述的，而是围绕着多个话题，进行多方位的描述，如果将这样的文档作为主题学习算法的输入，就会将那些只是在讨论多个特定领域问题时才会使用的多个词语不适当地关联到一起，从而导致了严重的语义污染问题。

为了解决上述问题，常用的解决方法是通过收集足够多的语料，找到各种情景下被讨论问题的全部语料，那么根据概率计算，那些稀少的话题-话题组合就不会取得主要的地位，从而不会对结果产生严重的影响。

一般情况下，这种解决方法是可行的，但是，在企业内部的知识管理这个领域中，企业内部所能提供的文档集总是局部的，因此语义污染总是存在，所以，上述问题仍需要一种解决方案。

发明内容

鉴于上述问题，本发明的目的是提供一种基于文档分段的构建主题-词汇分布的方法及***，以解决因语义污染造成得到的主题质量差的问题。

本发明提供的基于文档分段的构建主题-词汇分布的方法，包括：

通过预设的本体库将资源文档按照语义相关度分割成资源文档片段；

根据LDA算法对资源文档片段构建主题-词汇分布。

其中，在将资源文档按照语义相关度分割成资源文档片段的过程中，

获取所述资源文档中的句法段落和语义段落；其中，

如果所述资源文档包含一个句法段落，则不分割所述资源文档，直接根据所述LDA算法对所述资源文档构建主题-词汇分布；

如果所述资源文档包含一个语义段落，则不分割所述资源文档，直接根据所述LDA算法对所述资源文档构建主题-词汇分布；

如果资源文档包含多于一个的句法段落和多于一个的语义段落，则获取两个相邻的句法段落之间的语义距离，将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落，将语义距离小于预设的语义距离阈值的两个相邻的句法段落合并成一个语义段落，在句法段落合并成语义段落之后，再将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落，如果多个相邻的语义段落合并后仍存在多个相邻的语义段落，则重新计算多个相邻的语义段落之间的语义距离，再与预设的语义距离阈值比较后进行合并，重复上述多个相邻的语义段落的合并过程，直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止，将每个语义段落作为一个资源文档片段输出。

其中，根据预设的本体库计算两个相邻的句法段落之间的语义距离，所述语义距离的计算公式为：

dis \tan ce (S_{i}, S_{j}) = (\frac{Σ_{s = 1}^{m} a_{s}}{m} + \frac{Σ_{t = 1}^{n} b_{t}}{n}) / 2;

其中，

a_s＝min{dis(S_is，S_j1),dis(S_is，S_j2)，...，dis(S_is，S_jn)}；

b_t＝min{dis(S_i1，S_jt),dis(S_i2，S_jt)，...，dis(S_im，S_jt)}；

a_s为句法段落S_i中的第s个单词S_is和句法段落S_j中的每个单词S_j1，S_j2，...，S_jn之间的距离的最小值；

b_t为句法段落S_j中的第t个单词S_jt和句法段落S_i中的每个单词S_i1，S_i2，…，S_im之间的距离的最小值；

dis(S_is,S_jt)为句法段落S_i中第s个单词S_is与句法段落S_j中第t个单词S_jt在预设本体库的概念空间中的距离。

在构建主题-词汇分布后，通过构建的主题-词汇分布对其它的资源文档进行分割；其中，在根据构建的主题-词汇分布确定其它资源文档中两个相邻的句法段落之间的语义距离的过程中，分别获取两个相邻的句法段落在构建的主题-词汇分布上的主题向量，然后使用余弦距离公式计算上述两个主题向量，获得两个相邻的句法段落之间的语义距离，余弦距离公式为：

dis \tan ce (S_{i}, S_{j}) = \cos (T_{i}, T_{j}) = \frac{t_{i 1} t_{j 1} + t_{i 2} t_{j 2} + . . . + t_{i | T |} t_{j | T |}}{\sqrt{t_{i 1}^{2} + t_{i 1}^{2} + . . . + t_{i | T |}^{2}} \cdot \sqrt{t_{j 1}^{2} + t_{j 1}^{2} + . . . + t_{j | T |}^{2}}}

其中，

T_i＝{t_il，t_i2，...，t_i|T|}，为句法段落S_i在构建的主题-词汇分布上的主题向量；

T_j＝{t_j1，t_j2，...，t_j|T|}，为句法段落S_j在构建的主题-词汇分布上的主题向量。

另外，本发明还提供一种基于文档分段的构建主题-词汇分布的***，包括：资源文档分割单元，用于通过预设的本体库将资源文档按照语义相关度分割成资源文档片段；

主题分布构建单元，用于根据LDA算法对资源文档片段构建主题-词汇分布。

其中，资源文档分割单元包括：

句法段落获取模块，用于获取资源文档中的句法段落；

语义段落获取模块，用于获取资源文档中的语义段落；

资源文档分割识别模块，用于根据资源文档的句法段落和语义段落的数量识别资源文档是否需要分割，如果资源文档包含一个句法段落或一个语义段落，则不需要分割，主题分布构建单元直接对资源文档构建主题-词汇分布；如果资源文档包含多个句法段落和多个语义段落，则需要分割；

资源文档分割模块，用于对包含多于一个句法段落和多于一个语义段落的资源文档进行分割；其中，资源文档分割模块包括：

语义距离获取模块，用于获取两个相邻的句法段落之间的语义距离；

语义段落生成模块，用于将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落或将语义距离小于预设的语义距离阈值的相邻句法段落合并成一个语义段落；

语义段落合并模块，用于将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落，直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止，将每个语义段落作为一个资源文档片段；

资源文档片段生成模块，用于将每个语义段落作为一个资源文档片段输出。

利用上述根据本发明的基于文档分段的构建主题-词汇分布的方法及***，增加了一个根据预设的本体库进行分割的过程，对于那些包含多个话题的资源文档进行适当的语义划分，划分成若干具有独立语义的资源文档片段，然后对这些独立语义的资源文档片段使用LDA算法构建主题-词汇分布，因此，能构建相对准确的主题-词汇分布，提高学习到的主题的质量。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明的基于文档分段的构建主题-词汇分布的方法的流程图；

图2为根据本发明的句法段落和语义段落的模式图；

图3为根据本发明的基于文档分段的构建主题-词汇分布的***的逻辑框图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

为了更好的理解本发明提供的基于文档分段的构建主题-词汇分布的方法及***，先对如下名词做出解释：

句法段落是指根据资源文档的句法结构（句子、段落）来进行的段落划分，例如，在某些应用场景下，一个“表格”其实就构成了一个句法段落，而在某些场景下，一个表格的一行构成一个句法段落；

语义段落是指根据资源文档的语义信息来进行的段落划分，每个语义段落，描述了一个语义上高度相关的文字。

本发明的思路是通过对资源文档集中的词语根据所谈论的语义重新进行划分，使得在语义上有很强相关性的文本聚集在一起，而在语义上不相关的文本将会被分配到不同的资源文档片段中，经过这样的处理后，再使用LDA算法，就会得到更加合理的主题-词语分布。

由于LDA算法是现有技术，因此在本发明的以下描述中不再对此做详细的说明。

具体地，图1示出了根据本发明的基于文档分段的构建主题-词汇分布的方法的流程。

如图1所示，首先，通过预设的本体库将资源文档按照语义相关度分割成资源文档片段（步骤S100）；然后，根据LDA算法对资源文档片段构建主题-词汇分布（步骤S110）。

在步骤S100中，预设的本体库为Wikipedia、知网（HowNet）等由专家定义的本体库，将专家定义的本体库作为引导对资源文档按照语义相关度进行分割。

本发明需要实现语义分割但又不能做过度的分割，为此，对句法段落和语义段落进行了区分，并总结了句法段落和语义段落的关系，共包括三种模式，这使得本发明中提出的文档分割算法不同于一般意义上的文档分割算法。图2示出了根据本发明的句法段落和语义段落的三种模式，在图2中，纹理框表示句法段落，而用空白框表示语义段落。

模式一

在模式一中，资源文档包括一个句法段落，即使该句法段落中包含几个不同的语义段落（模式一中的句法段落包括三个语义段落），本发明中也认为该句法段落中讨论的对象具有非常强的相关性，无需对资源文档进行分割，直接采用LDA算法对资源文档构建主题-词汇分布。

具体的作为示例，一篇文档如下：

“推荐***的新工具:word2vec，简单说就是可以把word表示成向量。可以很容易的用来找近义词，聚类等等。5亿字的语料，在4核机器上1小时跑完。可以跑多线程，适合处理大规模数据。运用了deep learning，还有很多别的亮点，绝对是今年最有价值的nlp工具之一。”

对于这样的一篇只有一句话的文档，其中的“word2vec”、“word”、“近义词、nlp”“聚类、deep learning”“4核、多线程”都彼此没有什么太强的语义关系，但是由于上述文档中只包含一个句法段落，因此这段文字被作为一个整体来作为LDA算法的输入，从而没有丢失这些词汇之间的内在联系。

模式二

资源文档包括一个语义段落，即使该语义段落中包含几个不同的句法段落，本发明中也认为该语义段落中讨论的对象具有非常强的相关性，也无需对资源文档进行分割，直接采用LDA算法对资源文档构建主题-词汇分布。

具体的作为示例，一篇文档如下：

“上个星期，Google为其图片体验进行了大范围的更新。今天Google又为我们带来了一个全新的功能：利用智能识别技术（computer vision和machine learning）为用户提供搜索自己Goolge+图片库里的内容。在Google+内，你可以通过直接输入照片内容的方式进行搜索，比如落日、海滩或者自行车等。如果直接通过Google搜索来进行操作的话则需要在搜索词汇前加上前缀my photos of xyz。

这对Google的图片搜索服务来说是一大进步。正如Google所说，“搜索自己的照片非常有挑战性，因为你想要搜索的内容是视觉上的。”好多人都懒得给自己的照片一个个加上标签，这个新功能会帮你找到一些你很久之前上传的一些照片。

上星期的I/O大会上，Google的Vic Gundotra在介绍Google+Photos的新功能时说，“管理照片常常是件痛苦的事”。他说得不错，但是奇怪的这个新功能没有在I/O大会上发布而是等到了今天。”

在这个示例中，概念“***”，“照片”，“搜索”贯穿其中的3个句法段落，有非常强的相似性，这篇文档最后被聚合成一个语义段落，然后作为LDA算法的输入得到正确的处理。

模式三

资源文档包括多个语义段落和多个句法段落，由于具有多个语义段落和多个句法段落，所以需要根据语义段落的边界对文本进行分割，首先，根据句法标记（例如句子、段落或者其他标记）将文本划分成最小的句法段落，通过分别计算每两个连续句法段落之间的语义距离来判断它们在内容上的相似程度；然后，将语义距离小于预设的语义距离阈值的两个连续的句法段落合并成一个语义段落，将语义距离大于预设的阈值的两个连续的句法段落分别作为单独的语义段落，在句法段落完成语义段落合并之后，将语义距离小于预设的语义距离阈值的多个连续的语义段落合并成一个语义段落。合并结束后，如果仍然有多个相邻的语义段落，重新计算相邻语义段落之间的语义距离，再与预设的语义距离阈值比较后进行合并，重复上述多个相邻的语义段落合并的过程，直到任意两个语义段落之间的距离都大于该阈值为止，然后分别输出这些独立的语义段落作为文本分割的结果；也就是将每个独立的语义段落作为一个资源文档片段，最后，采用LDA算法对每个资源文档片段构建主题-词汇分布。

在初始文档分段过程中，只能使用预设的本体库计算两个相邻的句法段落之间的语义距离，假定资源文档S由n个句法段落构成，记为：S＝{S₁，S₂，…，S_n}，将句法段落S_i与句法段落S_j之间的语义距离定义为：

dis \tan ce (S_{i}, S_{j}) = (\frac{Σ_{s = 1}^{m} a_{s}}{m} + \frac{Σ_{t = 1}^{n} b_{t}}{n}) / 2

其中：

a_s＝min{dis(S_is,S_j1),dis(S_is,S_j2),...,dis(S_is,S_jn)}

b_t＝min{dis(S_i1,S_jt),dis(S_i2,S_jt),...,dis(S_im,S_jt)}

这里假设句法段落S_i由m个单词构成，记为S_i＝{S_i1,S_i2，...，S_im},句法段落S_j由n个单词构成，记为S_j＝{S_j1，S_j2，...，S_jn}；则

a_s表示的是计算句法段落S_i中的第s个单词S_is和句法段落S_j中的每个单词S_j1，S_j2，...，S_jn之间的距离的最小值；

同样的，b_t表示的是句法段落S_j中的第t个单词S_jt和句法段落S_i中的每个单词S_i1，S_i2,...，S_im之间的距离的最小值；

dis(S_is，S_jt)∈[0，1]，表示句法段落S_i中单词S_is与句法段落S_j中单词S_jt在预设概念空间中的距离，具体地，当使用Wikipedia作为预设本体库的时，单词S_is和S_jt在预设概念空间中的距离等于单词S_is对应的维基概念C₁和单词S_jt对应的维基概念C₂之间的维基距离，其定义为：

dis (S_{is}, S_{jt}) = {Dis}_{wikipedia} (C_{1}, C_{2}) = \frac{\max (\log f (C_{1}), \log f (C_{2})) - \log f (C_{1}, C_{2})}{\log N - \min (\log f (C_{1}), \log f (C_{2}))}

其中，f(G₁)表示在Wikipedia中引用概念C₁的页面数，f(C₂)表示在Wikipedia中引用概念C₂的页面数，f(G₁,C₂)表示在Wikipedia中同时引用概念C₁、C₂的页面数，N表示Wikipedia中的总页面数。

显然，distcance(S_i,S_j)∈[O,1]，故句法段落间的语义距离的取值范围也位于区间[0,1]之间，语义距离越小，表明两个句法段落描述的主题越相似。

在完成初始LDA学习后，就可以通过所得的主题-词汇分布共同计算其它资源文档中段落间的语义距离，来实现对其它的资源文档分割，在使用主题-词汇分布确定其它资源文档中两个相邻的句法段落之间的语义距离过程中，分别求得两个相邻的句法段落在LDA主题空间上的主题向量，然后使用余弦距离公式计算两个段落之间的语义距离。

余弦距离公式定义为：

dis \tan ce (S_{i}, S_{j}) = \cos (T_{i}, T_{j}) = \frac{t_{i 1} t_{j 1} + t_{i 2} t_{j 2} + . . . + t_{i | T |} t_{j | T |}}{\sqrt{t_{i 1}^{2} + t_{i 1}^{2} + . . . + t_{i | T |}^{2}} \cdot \sqrt{t_{j 1}^{2} + t_{j 1}^{2} + . . . + t_{j | T |}^{2}}}

其中，句法段落S_i对应的主题向量T_i＝{t_i1，t_i2，…，t_i|T|}，句法段落S_j对应的主题向量T_j＝{t_j1，t_j2，...，t_j|T|}。

计算出两个相邻的句法段落之间的语义距离之后，再与预设的语义距离比较后进行合并，句法段落合并完成后再进行语义段落的合并，重复上述合并的过程，直到文档无法继续合并为止。

具体的，作为示例，文档集如下：

1）8月发生了一些事儿，但呈现的数据却具有逆推性：Google1分钟价值11万美元；Amazon100分钟价值700万美元等等。我们可以很清楚地感受到，每一分钟都在跳动的数据正在被采集、保有（存储）和分析，并带来价值！这就是云计算与大数据存在的本质，也是IT***需要从传统架构转型到云架构的根本原因之一。

2）记得第五届中国云计算大会上，LSI总裁兼CEO Abhi Talwalkar明确表示：“云计算的商业价值在未来几年可以达到200亿美元，而且我们相信云产业价值会达到3万亿美元。”

3）他的判断是可信的。全球中85%服务器、40%台式机和笔记本、50%外部存储都要使用LSI的存储芯片；全球手机50%-70%无线流量都要通过LSI芯片；LSI在SAS、RAID控制器、SSD控制器、ReadChannel、Preamp、Axxia网络处理器和定制ASIC等方面地位稳固，而成功收购SandForce更是使得LSI获得的闪存NO.2的市场发言权。这一切，都决定了LSI将与最敏感的企业如互联网巨头们，在技术节奏上，保持着高度统一。

4）正如LSI CTO办公室高级专家Robert Ober对CSDN记者说：“几乎所有大型数据中心都在直接使用LSI的产品，OEM和ODM都是我们的合作伙伴。通过直接与客户沟通，和通过OEM、ODM伙伴反馈信息，我们一直紧跟客户需求。比如Facebook和LSI的关系非常密切，我们经常会和Facebook做数据中心的工程师一起开发他们需要的解决方案。作为排名在CPU和内存之后的数据中心的最大支出项，我们看到存储在共享趋势下正在发生架构的变化。”

5）这一变化就是大数据将推动“计算”架构迅速向“数据流”架构演进。具体来看，数据中心架构将向数据流、模块化、机架级、池化架构发展，硬件资源最终会实现松耦合，从无共享、由OEM厂商推动的冗余机架***向共享IO、简化集群***的“解聚”机架方向演进，最终实现工作负载的动态调配。

6）这一思路显然与软件定义数据中心一脉相承，但又更为基础。支撑“数据流”架构宏伟蓝图的是LSI全方位的产品和解决方案，如Axxia、DataBolt、TrueStore、Syncro MegaRAID、SandForce、Nytro等。其中，最为引发业内技术圈子关注的是能够代表SSD存储处理器的SandForce和PCIe闪存解决方案的Nytro。

7）LSI通往数据流架构最重要的一条途径：闪存。在美国，闪存已经掀起了互联网和创投市场的狂潮。一方面，Google通过Janus新***，Facebook通过McDipper新技术先人一步地将闪存用于数据中心；另一方面，TMS（TexasMemory System）、ExtremIO、ScaleIO、SandForce等闪存企业已经被IBM、EMC、LSI等收购。有数据显示，目前美国宣称自己做闪存的企业已达137家。而日前一则一家初创公司Pure Storage宣布获得1.5亿美元融资，5轮下来总额已经达到2.45亿美元的消息更是刺激着产业的神经。

8）LSI也在加快在新一代LSI SandForce的研发速度。比如，刚刚在美国加州闪存存储器峰会上介绍的LSI SHIELD技术。SHIELD是低密度奇偶校验(LDPC)代码与数字信号处理(DSP)的一种独特实现，将用于新一代SandForce闪存控制器。该技术融合硬判决、软判决和DSP，可提供面向闪存存储器的最优化综合纠错码(ECC)解决方案。作为一种高级的纠错方法，其最大特点是即使使用出错率较高的廉价闪存存储器也能实现企业级的SSD耐久度和数据完整性。

9）不止如此，还有DuraWrite Virtual Capacity（DVC，一种独特的SandForce闪存控制器功能，可在底层闪存存储器物理容量的基础上扩大典型数据的可用存储容量）和支持东芝第二代先进19nm NAND闪存存储器(A19nm)，使SSD制造商能够制造出成本更低的SSD产品。

10）但针对目前美国很多银行将“PCIe做一个闪存池共享使用”的方法，Robert Ober并不认同：“在实践中，由于其通过的是组网或网络交换方式来完成，所以并不顺利。我们在考虑的是用SAS做一个存储池，然后为多个服务器所共享使用，其更简单且可靠，还便宜。在我看来，闪存共享，中间不需要任何软件或者硬件层的介入，而是闪存和服务器之间直接的连接，这样闪存的价值不会被降低。”

11）在他看来，“分层存储，按照性能的要求，从主存储到一级，一直到三级的存储cache，相信在很长一段时间内比较慢的磁盘仍然是主存储，SSD可能是速度快一些的存储级别，PCIe是更高性能的存储，同时还有DRAM内存存储以及更新一些的内存出现。”

12）这也是目前存储产业的现状。毕竟，SSD的存储成本相对于HDD来说，每GB成本高5-10倍，容量上也有显著的差距，几百GB与几TB的主流产品差距还和明显。2012年全球存储数字很能说明这一点，HDD的出货量为5.85亿，闪存则只出货了3500万。

13）但随着互联网等行业对于软件定义存储和软件定义数据中心（SDDC）的不断深入的探索，存储的技术进入了快速更迭和响应期。这也意味着LSI有了从幕后走到台前的绝佳机会。正如Robert Ober所说：“我们正在和行业领先软件开放商展开更加密切地合作，比如VMware、OpenStack，以满足更多新的市场需求。”

14）这其中，中国市场，对LSI来说充满了发展机遇。

在上述文档中，共讨论了两个不同的话题，一个话题包含了“云计算”、“大数据”、“数据中心”、“流计算架构”这些概念，另外一个话题包含了“LSI”、“Sandforce”、“SSD”这几个概念，这是两个截然不同的领域话题，只是由于“流计算架构”才将这两个话题联系在一起，如果使用LDA算法，由于这两个话题被组织在一个文章中，因此会错误地将这两个话题组织在一个主题之内，下面是对上述文档使用LDA算法得到的结果，文档-主题分布如下：

	Topic1	Topic2	Topic3
				doc	0.285246	0.180328	0.534426

topic1:

robert0.0605468712747097

center0.0605468712747097

big0.0410156212747097

axxia0.0410156212747097

odm0.0410156212747097

architecture0.0410156212747097

nytro0.0410156212747097

dsp0.0410156212747097

***0.021484375

lsi0.021484375

abhi0.021484375

talwalkar0.021484375

memory0.021484375

wireless0.021484375

preamp0.021484375

asic0.021484375

flash0.021484375

cpu0.021484375

databolt0.021484375

truestore0.021484375

topic2:

ssd0.08806817978620529

sas0.05965908616781235

ober0.05965908616781235

stream0.05965908616781235

amazon0.03125

desktop0.03125

mobile0.03125

phone0.03125

chip0.03125

raid0.03125

readchannel0.03125

sandforce0.03125

cto0.03125

csdn0.03125

janus0.03125

mcdipper0.03125

system0.03125

scaleio0.03125

ibm0.03125

capacity0.03125

topic3:

lsi0.1804932802915573

data0.07959641516208649

memory0.06838565319776535

sandforce0.06838565319776535

computing0.03475336357951164

ssd0.03475336357951164

facebook0.03475336357951164

pcie0.03475336357951164

hdd0.03475336357951164

cloud0.023542599752545357

controller0.023542599752545357

network0.023542599752545357

flash0.023542599752545357

oem0.023542599752545357

***0.01233183965086937

ceo0.01233183965086937

server0.01233183965086937

notepad0.01233183965086937

processor0.01233183965086937

ober0.01233183965086937

根据现有技术得到的主题，在各个学到的主题上，都混合了第一个话题和第二个话题上的内容，比如Topic3中即包含了“云计算”、“大数据”的内容，也包含了“sandforce”“ssd”的内容，因此得到的主题的质量是非常低的。

但使用本发明的方法，对文档集的各个句法段落合语义段落分别计算语义距离，并将那些小于一定阈值的句法段落和语义段落进行合并，当这个过程结束后，本发明得到了两个语义段落，第一个语义段落围绕着“云计算”、“大数据”、“软件定义数据中心”，包括句法段落1，2，4，5，6，7，13，第二个语义段落围绕着“LSI”、“Sandforce”、“SSD”，包括句法段落3，8，9，10，11，12，14，文档使用LDA算法得到的结果，文档-主题分布如下：

	Topic1	Topic2	Topic3
				第一个语义段落	0.10303	0.284848	0.612121
第二个语义段落	0.51049	0.482517	0.006993

topic1:

ssd0.11685823649168015

robert0.0593869723379612

hdd0.0593869723379612

controller0.040229883044958115

network0.040229883044958115

shield0.040229883044958115

dsp0.040229883044958115

amazon0.02107279747724533

cto0.02107279747724533

ober0.02107279747724533

axxia0.02107279747724533

flash0.02107279747724533

texas0.02107279747724533

sddc0.02107279747724533

vmware0.02107279747724533

desktop0.02107279747724533

phone0.02107279747724533

wireless0.02107279747724533

chip0.02107279747724533

raid0.02107279747724533

topic2:

lsi0.2622699439525604

memory0.10889571160078049

sandforce0.10889571160078049

facebook0.047546014189720154

pcie0.047546014189720154

sas0.03220858797430992

data0.016871167346835136

csdn0.016871167346835136

axxia0.016871167346835136

janus0.016871167346835136

storage0.016871167346835136

server0.016871167346835136

notepad0.016871167346835136

mobile0.016871167346835136

readchannel0.016871167346835136

preamp0.016871167346835136

processor0.016871167346835136

asic0.016871167346835136

ecc0.016871167346835136

capacity0.016871167346835136

topic3:

data0.10481099039316177

computing0.05326460301876068

center0.05326460301876068

***0.036082472652196884

cloud0.036082472652196884

big0.036082472652196884

ober0.036082472652196884

oem0.036082472652196884

odm0.036082472652196884

architecture0.036082472652196884

stream0.036082472652196884

nytro0.036082472652196884

flash0.036082472652196884

ceo0.018900344148278236

abhi0.018900344148278236

talwalkar0.018900344148278236

cpu0.018900344148278236

dddc0.018900344148278236

databolt0.018900344148278236

truestore0.018900344148278236

由此看出，对文档集进行如上的分割后，所得到的主题的质量有了较大的提高，Topic3主要描述了“云计算“大数据”方面的内容，而Topic1、Topic2主要描述了“ssd”、“Sandforc”方面的内容，这样主题-词汇分布的质量有了很大的提高。

本发明提供的基于文档分段的构建主题-词汇分布的方法，一旦利用资源文档构建出主题-词汇分布之后，就可以根据构建出的主题-词汇分布或者构建出的主题-词汇分布与本体库的结合，对其它的资源文档进行分割。

与上述方法相对应，本发明还提供一种基于文档分段的构建主题-词汇分布的***。图3示出了根据本发明的基于文档分段的构建主题-词汇分布的***的逻辑结构。

如图3所示，本发明提供的基于文档分段的构建主题-词汇分布的***300包括资源文档分割单元310和主题分布构建单元320。

其中，资源文档分割单元310用于通过预设的本体库将资源文档按照语义相关度分割成资源文档片段；主题分布构建单元320，用于根据LDA算法对所述资源文档片段构建主题-词汇分布。

其中，资源文档分割单元包括：句法段落获取模块（图未示出），用于获取资源文档中的句法段落；语义段落获取模块（图未示出），用于获取资源文档中的语义段落；资源文档分割识别模块（图未示出），用于根据资源文档的句法段落和语义段落的数量识别所述资源文档是否需要分割，如果所述资源文档包含一个句法段落或一个语义段落，则不需要分割，主题分布构建单元直接对所述资源文档构建主题-词汇分布；如果所述资源文档包含多个句法段落和多个语义段落，则需要分割；资源文档分割模块（图未示出），用于对包含多个句法段落和多个语义段落的资源文档进行分割。

其中，资源文档分割模块包括：语义距离获取模块（图未示出），用于获取相邻两个句法段落之间的语义距离；语义段落生成模块（图未示出），用于将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落或将获取到的语义距离小于预设的语义距离阈值的两个相邻句法段落合并成一个语义段落；语义段落合并模块（图未示出），用于将语义距离小于预设的语义距离阈值的两个相邻的语义段落合并成一个语义段落，直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止；资源文档片段生成模块（图未示出），用于将每个语义段落作为一个资源文档片段输出。

利用上述根据本发明的基于文档分段的构建主题-词汇分布的方法及***，通过资源文档增加了一个根据预设的本体库进行分割的过程，对于那些包含多个话题的资源文档进行适当的语义划分，划分成若干具有独立语义的资源文档片段，然后对这些独立语义的资源文档片段使用LDA算法构建主题-词汇分布，因此，能构建相对准确的主题-词汇分布，提高学习到的主题的质量。

如上参照附图以示例的方式描述了根据本发明的基于文档分段的构建主题-词汇分布的方法及***。但是，本领域技术人员应当理解，对于上述本发明所提出的基于文档分段的构建主题-词汇分布的方法及***，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于文档分段的构建主题-词汇分布的方法，包括：

根据LDA算法对所述资源文档片段构建主题-词汇分布。

2.如权利要求1所述的基于文档分段的构建主题-词汇分布的方法，在将资源文档按照语义相关度分割成资源文档片段的过程中，

获取所述资源文档中的句法段落和语义段落；其中，

如果所述资源文档包含多于一个的句法段落和多于一个的语义段落，则获取两个相邻的句法段落之间的语义距离，将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落，将语义距离小于预设的语义距离阈值的两个相邻的句法段落合并成一个语义段落，在句法段落合并成语义段落之后，再将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落，如果多个相邻的语义段落合并后仍存在多个相邻的语义段落，则重新计算多个相邻的语义段落之间的语义距离，再与预设的语义距离阈值比较后进行合并，重复上述多个相邻的语义段落的合并过程，直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止，将每个语义段落作为一个资源文档片段。

3.如权利要求2所述的基于文档分段的构建主题-词汇分布的方法，根据预设的本体库计算两个相邻的句法段落之间的语义距离，所述语义距离的计算公式为：

dis \tan ce (S_{i}, S_{j}) = (\frac{Σ_{s = 1}^{m} a_{s}}{m} + \frac{Σ_{t = 1}^{n} b_{t}}{n}) / 2;

其中，

a_s＝min{dis(S_is,S_j1),dis(S_is，S_j2)，...，dis(S_is，S_jn)}；

b_t＝min{dis(S_i1，S_jt),dis(S_i2，S_jt)，...，dis(S_im，S_jt)}；

dis(S_is，S_jt)为句法段落S_i中第s个单词S_is与句法段落S_j中第t个单词S_jt在预设本体库的概念空间中的距离。

4.如权利要求2所述的基于文档分段的构建主题-词汇分布的方法，

在构建主题-词汇分布后，通过构建的主题-词汇分布对其它的资源文档进行分割；其中，

在根据构建的主题-词汇分布确定其它资源文档中两个相邻的句法段落之间的语义距离的过程中，分别获取两个相邻的句法段落在构建的主题-词汇分布上的主题向量，然后使用余弦距离公式计算上述两个主题向量，获得值为两个相邻的句法段落之间的语义距离；所述余弦距离公式为：

dis \tan ce (S_{i}, S_{j}) = \cos (T_{i}, T_{j}) = \frac{t_{i 1} t_{j 1} + t_{i 2} t_{j 2} + . . . + t_{i | T |} t_{j | T |}}{\sqrt{t_{i 1}^{2} + t_{i 1}^{2} + . . . + t_{i | T |}^{2}} \cdot \sqrt{t_{j 1}^{2} + t_{j 1}^{2} + . . . + t_{j | T |}^{2}}}

其中，

T_i＝{t_i1，t_i2，...，t_i|T|}，为句法段落S_i在构建的主题-词汇分布上的主题向量；

T_j＝{t_j1，t_j2，…，t_j|T|}，为句法段落S_j在构建的主题-词汇分布上的主题向量。

5.一种基于文档分段的构建主题-词汇分布的***，包括：

资源文档分割单元，用于通过预设的本体库将资源文档按照语义相关度分割成资源文档片段；

主题分布构建单元，用于根据LDA算法对所述资源文档分割单元分割的所述资源文档片段构建主题-词汇分布。

6.如权利要求5所述的基于文档分段的构建主题-词汇分布的***，其中，资源文档分割单元包括：

句法段落获取模块，用于获取资源文档中的句法段落；

语义段落获取模块，用于获取资源文档中的语义段落；

资源文档分割识别模块，用于根据资源文档的句法段落和语义段落的数量识别所述资源文档是否需要分割，如果所述资源文档包含一个句法段落或一个语义段落，则不需要分割，主题分布构建单元直接对所述资源文档构建主题-词汇分布；如果所述资源文档包含多个句法段落和多个语义段落，则需要分割；

资源文档分割模块，用于对包含多于一个句法段落和多于一个语义段落的资源文档进行分割；其中，所述资源文档分割模块包括：

资源文档片段生成模块，用于将每个语义段落作为一个资源文档片段。