CN102662987B

CN102662987B - 一种基于百度百科的网络文本语义的分类方法

Info

Publication number: CN102662987B
Application number: CN201210066606.6A
Authority: CN
Inventors: 陈叶旺
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2012-03-14
Filing date: 2012-03-14
Publication date: 2015-11-11
Anticipated expiration: 2032-03-14
Also published as: CN102662987A

Abstract

本发明一种基于百度百科的网络文本语义的分类方法，利用百度百科把一段文本从外延词条集合映射到能体现内涵的语义主题空间中，再通过对文本语义主题的统计规律性来计算文本与文本、文本与类别之间的相似度，进而完成文本分类，避开通过穷举词条的统计方式，解决了传统文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的难题。

Description

一种基于百度百科的网络文本语义的分类方法

技术领域

本发明涉及一种基于百度百科的网络文本语义的分类方法。

背景技术

网络已经进入了Web2.0的时代，以用户为主导、由用户提供和分享资源的网络应用迅速发展，每天都会出现海量的新信息，如何获取其中真正所需的内容却是一大难题。为有效地管理,过滤及使用这些资源,基于内容的文档管理逐渐成为信息***领域占主导地位的一类技术,称之为信息检索(informationretrieval,IR)。文本分类是信息检索技术的重要组成部分，指的是在预先给定的类别集合下,根据自然语言文本的内容判定文本的类别。处理这些分类数据往往需要应用文本挖掘技术，涉及文本相似度计算、聚类、分类等方面。许多学者提出了很多方法，并取得了不错的效果。

然而，网络上还存在有大量的以文本片段形式存在的短文本，如论坛的发帖留言、搜索结果的网页片段、微博等。这些短文本的基本特点是组合灵活、表述不规范、内容较短、数据量大、容易创作与发布，因而成为人们发布、获取和交流信息的重要手段。这些文本数据中包含各种观点与立场，话题涉及社会的方方面面。对这些数据进行主题跟踪发现、分类、情感判断将有着广泛的应用和前景，如社会舆情监控、情感分析、商业调查。

同样，也正因为这些短文本组合灵活、表述不规范，造成对短文进行处理也变得困难。比如简写方式‘***’和‘发展改革委员会’,若用传统的数据挖掘相似度算法，计算结果为0，因为二者没有词汇交集，而实际上二者在语义上相同。另外，词汇的语义与其所处环境有关，比如‘苹果4代’与‘4袋苹果’，两个短语中都有的‘苹果’一词，使用传统算法计算结果相似度为0.67，但二者风马牛不相及。

面对这些问题，传统的文本分类与挖掘方法不能令人满意。特别在中文领域，情况更为复杂，不仅要解决文本处理的基本问题，还需先对文本做准确的分词。现有的中文分词工具对长文本的分词取得不错的效果。但在网络文本分词方面还有待改进，例如‘有木有银请我7饭’(有没有人请我吃饭)，通过ICTCLAS分词结果处理的分词结果是‘有木有银请我7饭’,与实际意思相差很大，对进一步所要做的语义挖掘很不利。

另外，以SVM、KNN为代表的分类算法就本质而言，其训练数据方式都是通过穷举法来对一个类别中所出现的词组统计来进行训练和分类。然而，实际上与某个类别相关的词组可以是多义、形式多样的和无穷多的，无法通过有限的训练数据穷举完。以军事类别为例，‘F35、歼9、歼10…’都是与军事有关的词组，显然这样的词组有无穷多，因而造成SVM、KNN这种分类算法需要大量的训练数据，而且无法处理在训练数据中未出现的和新生的词组。然而，虽然这些词组可以层出不穷，但都有一定的知识关系存在，如‘F35、歼9、歼10…’都是‘战斗机’，而‘战斗机’是一个与军事相关的相对稳定的概念，因而如果能找到词组背后稳固的知识关系，就可以通过少而精的训练数据来对网络文本处理提供有效的支持。

因而，要解决以上所述困局，需要一个能涵盖社会各领域的知识库，不仅能提供全面、准确、复杂的知识关系，还要能及时跟进社会热点与网络流行动态。

在中文知识信息领域，百度百科是一部内容开放、自由的网络百科全书，其旨在创造一个涵盖各领域知识的中文信息收集平台，并与百度搜索、百度知道结合，从不同的层次上满足用户对信息的需求。百度百科所含内容的基础单位是词条，一个词条由百科名片、词条正文、参考资料、开放分类、相关词条和扩展阅读六个部分组成，不同的组成部分从不同的角度对一个知识进行阐述。百度百科相比于传统的各种知识库，其主要优点有:(1)广泛性：截止到目前为止，百度百科词条总数已超340万条，基本涵盖社会各领域知识，即使是网络用语，绝大多数也都形成了独立的词条，如‘矮油’、‘笔迷’‘我晕’；(2)开放性：百度百科强调用户的参与和奉献精神，充分调动互联网用户的力量，汇聚上亿用户的头脑智慧，积极进行交流和分享；(3)实时性:只要社会热点事件一出现，比如最近的‘李天一打人’、‘郭美美’，百度百科上的相关词条也随即进行及时、全面、权威和深度分析，还随着事件的进展而不断更新；(4)关联性：在百度百科里容易得到一个词条和其他事物之间千丝万缕的关系；(5)多样性：一个词条可以有多种表达形式，如‘C罗’或‘C罗纳尔多’与‘克里斯蒂亚诺.罗纳尔多’等；(6)质量：为保证质量，引入了权威认证词条的机制，通过专业机构对词条进行专业认证，以保证词条内容的权威性，给用户提供高质量的专业解释化服务。

因而，我们认为百度百科可以为网络文本语义挖掘、分类提供实时、准确和丰富的语义信息支持,并可在很大程度上解决网络文本表述不规范性问题，能在网络文本语义挖掘乃至中文信息等诸多领域发挥巨大作用。

发明内容

本发明的目的在于提供一种基于百度百科的网络文本语义的分类方法，不需要大量地训练数据，不仅对表述不规范的短文本有效，而且在表述规范的长文本上的分类效果也表现不俗。

本发明一种基于百度百科的网络文本语义的分类方法，主要包括如下步骤：

步骤1、建立一个百度百科词库前缀关系；

步骤2、对于一段文本T，利用百度百科词库前缀关系，进行快速词条发现，找出所有可能涉及的词条，形成候选词条集合；

步骤3、把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题，并统计形成候选语义主题的权重向量；

步骤4、对训练数据中的每一个类别，分别计算该类别的主题权重向量，相互之间进行正交化；

步骤5、按向量相似度算法计算文本T与已知类别的相似度和文本T的语义离散度值，并根据语义离散度值选取相似度最高的前N个分类作为文本T的分类集合。

所述的步骤1具体为：

设文本T＝t₁t₂…t_n由n个汉字组成，其中n>1，R_i＝T[1…i]表示文本T的从第1到第i个字符串，该i>1，这样长度为n的文本T有n-1个非空前缀，分别为R₂，R₃，…R_n-1，文本T的前缀数组是由R₂，R_3，…R_n组成的n-1个字符串数组,记为PRE(T)＝{R₂，R₃，…R_n}，令三元组α_R＝<R,B,TS>表示字符串前缀R与百度百科词库中词条的关系，B表示该前缀是否为一个完整词条，TS表示一个词条集合，且对于任意的T∈TS，都有R∈PRE(T)∧(T≠R)；令词库C＝{C₁,C₂…C_n},由n个词条C_n组成，对百度百科词库中所有词条的前缀都生成相应的前缀关系α，这些前缀关系组成的集合为词库前缀关系。

所述的步骤2具体为：

设文本T包括长度为n的字符串,T[i,j]表示文本T的从第i个字符到第j个字符串，记为C_i,j，若C_i,j是一个百科词条，则其为文本T的候选词条；

令候选词条集合为result，文本T的字符串长度为n，从文本T的第一个字符开始循环扫描到最后一个字符，取出连续字符串s，如果字符串s在步骤1的词库前缀关系中未能找到，则进入下一重循环，否则将字符串s作为一个候选词条，加入到候选词条集合result中，取文本T的下一个字符与该连续字符串s合并，继续上述候选词条的判断步骤，直至文本T的最后一个字符。

所述的步骤3具体为：

利用步骤2找出的该段网络文本T所有的候选词条ts,把所有候选词条的开放分类全部作为这段文本T的候选语义主题，对每一个候选语义主题都进行统记，并归一化为主题语义权重：

T_{e_{i}} = \frac{Σ_{j = 1}^{| ts |} δ_{j} (e_{i})}{Σ_{i = 1}^{k} Σ_{j = 1}^{| ts |} δ_{j} (e_{i})}

其中,δ_j(e_i)取值为1或0，取1时表示第j个词条和语义主题e语义相关,反之值取0，|ts|表示文本T的所有候选词条总数，k为语义主题总数。

所述的步骤4具体为：

设A1和A2分别为文本T1与文本T2的统计主题权重向量,二者正交化后分别记为A1'和A2',其中A1'和A2'中的第i个语义主题e的权重分别为：

{T 1}_{e_{i}}^{'} = \{\begin{matrix} \frac{{T 1}_{e_{i}} - {T 2}_{e_{i}}}{Σ ({T 1}_{e_{j}} - {T 2}_{e_{j}})}, & {T 1}_{e_{i}} - {T 2}_{e_{i}} > 0 \\ 0, & else \end{matrix}

{T 2}_{e_{i}}^{'} = \{\begin{matrix} \frac{{T 2}_{e_{i}} - {T 1}_{e_{i}}}{Σ ({T 2}_{e_{j}} - {T 1}_{e_{j}})}, & {T 2}_{e_{i}} - {T 1}_{e_{i}} > 0 \\ 0, & else \end{matrix}

给定一组已知类别的统计主题权重向量{Ac₁,Ac₂,…Ac_n},相互正交的具体步骤为，循环一次，对第i个语义主题权重A_ci分别与剩余的其它语义主题权重做向量相减，循环结束后，再对每一个语义主题权重做归一化处理。

所述的步骤5具体为：

设T为一段网络文本，文本空间中共有k个相互独立类别{c₁,c₂…c_k},p(c_i|T)为文本T属于c_i类别的概率，则记

p (c_{i} | T) = Sim (T, T c_{i}) = \frac{A_{T} \cdot A_{ci}^{'}}{{| | A_{T} | |}_{2} \times {| | A_{ci}^{'} | |}_{2}}

其中，A_T为未知文本T的语义主题权重向量，A'_ci为第i个类别与其它类别作正交化之后的语义主题权重向量；

p(c*|T)是文本T在这k个类别中最大可能分类概率,其中

c^{*} = \underset{c}{\arg \max} (p (T_{c_{i}} | T)),

则其语义离散度值f为：

其中，H是设定的一个用以过滤那些相似度小的类别造成累积效果的阈值；

根据上述语义离散度值f选取相似度最高的前N个分类作为文本T的分类集合：

\arg {\max_{c_{i}}}^{(N)} (p (c_{i}, T))

其中,c_i表示第i个类别，表示取下整数操作，表示取上整数操作。

本发明利用百度百科把一段文本从外延词条集合映射到能体现内涵的语义主题空间中，再通过对文本语义主题的统计规律性来计算文本与文本、文本与类别之间的相似度，进而完成文本分类，避开通过穷举词条的统计方式，解决了传统文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的难题。

附图说明

图1为本发明的工作流程示意图。

以下结合附图和具体实施例对本发明作进一步说明。

具体实施方式

百度百科词条的每一个开放分类都是一个语义主题。一段有意义的中文文本都是通过一定的词组表述出所要表达的特定的语义主题。在百度百科中以百科词条的形式存在，以下都称之为词条。通过观察分析文本、词条和语义主题三者之间的关系，具以下几个基本观点:

观点1、词条是知识关系的外延，中文自然语言中用于表述内容的基本单位是词条，词条具有多义、多样和无法穷举等特性，是知识关系的外延，是文本所要表达的含义的外在表示形式。因而，以统计词条方式进行训练和分类的传统方法往往需要大量训练数据，而且无法处理在训练数据中未出现的和新生的词汇。

观点2、语义主题是知识关系的内涵，语义主题是相对稳定的抽象概念，是知识关系的内涵，是一个词条所要体现的含义。一个语义主题可以与无穷多个词条相关，一个词条也可以与多个语义主题相关，但不是无穷多。对于一个类别而言，该类别可以涉及有限多个语义主题，可以通过有限的数据穷举出来。如‘歼10’的语义主题只有5个，以语义主题‘战斗机’为例，与这个语义主题相关的词条目前来说就有‘歼8、歼9、歼10，F22，F35…’，将来还会有更多，无法穷举完。但是作为一个类别来说，以军事类别为例，与其相关的语义主题却相对稳定得多，主要是‘国家、战争、武器、战斗机、战斗、战争、大炮…’等,可以通过有限的数据一一列出。所以，抽取出词条背后的稳定语义主题含义比统计词条本身来得更重要和有效。

观点3、文本的语义主题具有统计规律性，一段网络文本所有的词条和该文本真正所要表述的语义主题之间有一定的统计规律性,这具有两重含义：(1)对于一段网络文本来说，若它的某个语义主题权重越大,那么在所有词条中与该语义主题相关的词条也就应该越多；反过来说，那些与文本语义主题不相关的词条，从统计量上来说应该出现得较少。(2)含义表达相似的两段网络文本，它们的语义主题也具有相似的统计性。另外，一段网络文本中只要存在某个词条,那么即使它是一个错误的分词结果，如‘南京市长江大桥在大胜关’中的‘市长’不应该是一个分词，与其语义相关的‘政治，官职，历史，职务’仍然可以被认为是该文本的候选语义主题，但这种错误出现的概率从总体上来说会比较少。

基于上述三个观点，本发明将利用百度百科把一段文本从外延词条集合映射到能体现内涵的语义主题空间中，再通过对文本语义主题的统计规律性来计算文本与文本、文本与类别之间的相似度，进而完成文本分类，避开通过穷举词条的统计方式，解决了传统文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的难题。

如图1所示，本发明一种基于百度百科的网络文本语义的分类方法，主要包括如下步骤：

步骤1、建立一个百度百科词库前缀关系：

所述的前缀数组指的是：设文本T＝t₁t₂…t_n由n(n>1)个汉字组成，R_i＝T[1…i]表示文本T的从第1到第i(i>1)个字符串，长度为n的文本T有n-1个非空前缀，分别为R₂，R₃，…R_n，文本T的前缀数组是由R₂，R₃，…R_n组成的n-1个字符串数组,记为PRE(T)＝{R₂，R₃，…R_n}，如词条‘变形金刚’，其前缀数组为‘变形’、‘变形金’、‘变形金刚’，其中‘变形’和‘变形金刚’是完整词条。

所述的前缀关系指的是：令三元组α_R＝<R,B,TS>表示字符串前缀R与百度百科词库中词条的关系，B表示该前缀是否为一个完整词条，TS表示一个词条集合，且对于任意的T∈TS，都有R∈PRE(T)∧(T≠R)。

所述的词库前缀关系指的是：令词库C＝{C₁,C₂…C_n},由n个词条C_n组成，对百度百科词库中所有词条的前缀都生成相应的前缀关系α，这些前缀关系组成的集合称之为词库前缀关系，记为Θ。

性质1令PRE(T)＝{R₂，R₃，…R_n}是长度为n的字符串T的前缀数组,若使得对于都有α.R≠R_i，那么T不是词库C中的词条。

设文本T包括长度为n的字符串,T[i,j]表示T的从第i个字符到第j个字符串，记为C_i,j，若C_i,j是一个百科词条，则称其为文本T的候选词条；

要从文本T中找出所有候选词条，可按性质1，利用词库前缀关系来查找，具体步骤如下：

令候选词条集合为result，文本T的字符串长度为n，从文本T的第一个字符开始循环扫描到最后一个字符，取出连续字符串s，如果字符串s在词库前缀关系中未能找到，则进入下一重循环，否则将字符串s作为一个候选词条，加入到候选词条集合result中，取下一个字符与该连续字符串s合并，继续上述候选词条的判断步骤，直至文本T的最后一个字符。

步骤3、把所有候选词条对应的百科开放分类作为文本T的候选语义主题，并统计形成候选语义主题的权重向量；

定义6语义相关：令e为一个语义主题，w为一个百科词条，T为一段文本，若百科词条w的开放分类中包含语义主题e，则称百科词条w和语义主题e语义相关，反之称百科词条w与语义主题e语义不相关，若文本T中存在一个词条w与语义主题e语义相关，则称文本T和语义主题e也语义相关，反之称文本T与语义主题e语义不相关。

对于一段网络文本T，可以利用步骤2找出该段网络文本T所有的候选词条ts,把所有候选词条的开放分类全部作为这段文本T的候选语义主题，对每一个候选语义主题都进行统记，并归一化为主题语义权重：

T_{e_{i}} = \frac{Σ_{j = 1}^{| ts |} δ_{j} (e_{i})}{Σ_{i = 1}^{k} Σ_{j = 1}^{| ts |} δ_{j} (e_{i})}

对于两段文本而言，各自均可转化为相应的主题权重向量，那么计算二者相互之间的相似度，则可转成求两个语义主题权重向量的相似程度。

定义7主题相似度:设主题空间中共有n个语义主题，T1和T2是两段网络文本，文本T1的语义主题权重向量为A1＝(T1_e1,T1_e2,…T1_en)，文本T2的语义主题权重向量为A2＝(T2_e1,T2_e2,…T2_en)，那么文本T1和文本T2的语义主题相似度为A1与A2的余弦值:

Sim (T 1, T 2) = \frac{A 1 \cdot A 2}{{| | A 1 | |}_{2} \times {| | A 2 | |}_{2}}

其中,||A1||₂||A2||₂分别是A1和A2的范数，A1·A2表示二者点，显然Sim(T1,T2)∈[0,1]；

定义8类文本:令c为某一个文本类别，Tc是由属于文本类别c的所有已知文本组合而成的一个联合文本，则称Tc为c的类文本。

设文本空间中共有k个相互独立的类别，记为{c₁,c₂…c_k}，那么对一段未知分类的文本T而言，文本T属于分类c_i的概率便可记为p(c_i|T)＝Sim(T,Tc_i)，取最大可能性的分类为其最终分类：

c^{*} = \underset{c_{i}}{\arg \max} (p (c_{i} | T)),

对一段未知文本分类，实际上就是寻找与之主题相似度最大的类文本。这些类文本在内容上由自然语言表述，因而常有一些词条会同时出现在多个类文本中，造成类文本相互之间存在一些词条交集，那么就必然存在着或多或少的相同语义主题，只不过是权重不同。如果两个类别相互独立性较高，则二者之间存在的相同语义主题较少。为保证这些已知类别具有相互独立性，需要对各类别的统计语义主题权重向量做正交化处理。

设A1和A2分别为T1与T2的统计主题权重向量,二者正交化后分别记为A1'和A2',其中A1'和A2'中的第i个语义主题的权重分别为：

{T 1}_{e_{i}}^{'} = \{\begin{matrix} \frac{{T 1}_{e_{i}} - {T 2}_{e_{i}}}{Σ ({T 1}_{e_{j}} - {T 2}_{e_{j}})}, & {T 1}_{e_{i}} - {T 2}_{e_{i}} > 0 \\ 0, & else \end{matrix}

{T 2}_{e_{i}}^{'} = \{\begin{matrix} \frac{{T 2}_{e_{i}} - {T 1}_{e_{i}}}{Σ ({T 2}_{e_{j}} - {T 1}_{e_{j}})}, & {T 2}_{e_{i}} - {T 1}_{e_{i}} > 0 \\ 0, & else \end{matrix}

也就是,给定一组已知类别的统计主题权重向量{A_c1,A_c2,…A_cn},相互正交的具体步骤为，循环一次，对第i个语义主题权重A_ci分别与剩余的其它语义主题权重做向量相减，循环结束后，再对每一个语义主题权重做归一化处理。

那么对于一段未知分类的文本T而言，文本T属于类别c_i的概率可改写成为

p (c_{i} | T) = Sim (T, T c_{i}) = \frac{A_{T} \cdot A_{ci}^{'}}{{| | A_{T} | |}_{2} \times {| | A_{ci}^{'} | |}_{2}}

其中，A_T为未知文本T的语义主题权重向量，A'_ci为第i个类别文本与其它类别文本作正交化之后的语义主题权重向量。

虽然通过选取最大可能分类可以找出网络文本T分类的最大可能，但是并不能说明将文本T划分为该类的可信程度。在某些情况下，有可能分类的最大可能与其它分类可能之间相差很接近，如文本T的最大可能分类可能性为87％，次最大分类的可能性为86.5％,再次为85％,这种情况下直接将文本T划入最大可能的分类不是很妥当。在这种情况下，本发明认为文本T的可区分度不强，其原因在于它所表达的语义主题表达不集中。为此本发明提出通过语义离散度来衡量文本分类可信程度和多分类的方法，具体步骤如下：

定义9语义离散度：设T为一段网络文本，文本空间中共有k个相互独立类别{c₁,c₂…c_k},p(c_i|T)为文本T属于c_i类别的概率，p(c*|T)是文本T在这k个类别中最大可能分类概率,则其语义离散度为：

其中，H是设定的一个阈值，用以过滤那些相似度小的类别造成累积效果。

性质2设f为一段网络文本的语义离散度,则其中,k为文本空间中的类别个数。

由性质2可知，语义离散度值说明了网络文本T的语义离散程度，f越大其语义表述越离散，主题越不突出,其所属分类可能就越多；反之f值越低，语义主题越明显，分类的结果可信度也就越高。因而，可以利用语义离散度值f来选择某段文本T最终可能的多个分类。

设f为文本T的语义离散度值，根据语义离散度值f选取相似度最高的前N个分类作为文本T的分类集合：

\arg {\max_{c_{i}}}^{(N)} (p (c_{i}, T))

本发明的重点在于：先找出文本T所有的候选词条ts,统计所有候选语义主题,得到文本T的主题权重向量A_T，将该主题权重向量A_T分别与已知类别的主题权重向量A_c计算相似度，再计算出语义离散度值f，根据语义离散度值f计算取出相似度最大的前N个分类作为文本T的分类结果。

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于百度百科的网络文本语义的分类方法，其特征在于主要包括如下步骤：

步骤1、建立一个百度百科词库前缀关系；

设文本T＝t₁t₂…t_n由n个汉字组成，其中n>1，R_i＝T[1…i]表示文本T的从第1到第i个字符串，该i>1，这样长度为n的文本T有n-1个非空前缀，分别为R₂，R₃，…R_n，文本T的前缀数组是由R₂，R₃，…R_n组成的n-1个字符串数组,记为PRE(T)＝{R₂，R₃，…R_n}，令三元组α_R＝<R,B,TS>为前缀关系，表示字符串前缀R与百度百科词库中词条的关系，B表示该前缀是否为一个完整词条，TS表示一个词条集合；令词库C＝{C₁,C₂…C_n},由n个词条C_n组成，对百度百科词库中每一个词条C_n的所有前缀都生成相应的前缀关系，将所有的前缀关系组成的集合称为词库前缀关系；

令候选词条集合为result，文本T的字符串长度为n，从文本T的第一个字符开始循环扫描到最后一个字符，取出连续字符串s，如果字符串s在步骤1的词库前缀关系中未能找到，则进入下一重循环，否则将字符串s作为一个候选词条，加入到候选词条集合result中，取文本T的下一个字符与该连续字符串s合并，继续上述候选词条的判断步骤，直至文本T的最后一个字符；

T_{e_{i}} = \frac{Σ_{j = 1}^{| t s |} δ_{j} (e_{i})}{Σ_{i = 1}^{k} Σ_{j = 1}^{| t s |} δ_{j} (e_{i})}

其中,δ_j(e_i)取值为1或0，取1时表示第j个词条和语义主题e语义相关,反之值取0，|ts|表示文本T的所有候选词条总数，k为语义主题总数；

步骤4、对训练数据中的每一个类别，分别计算该类别的主题权重向量，对这些主题权重向量相互之间进行正交化；

T {1^{'}}_{e_{i}} = \{\begin{matrix} \frac{T 1_{e_{i}} - T 2_{e_{i}}}{Σ (T 1_{e_{j}} - T 2_{e_{j}})}, & T 1_{e_{i}} - T 2_{e_{i}} > 0 \\ 0, & e l s e \end{matrix}

T {2^{'}}_{e_{i}} = \{\begin{matrix} \frac{T 2_{e_{i}} - T 1_{e_{i}}}{Σ (T 2_{e_{j}} - T 1_{e_{j}})}, & T 2_{e_{i}} - T 1_{e_{i}} > 0 \\ 0, & e l s e \end{matrix}

其中T1e_i、T2e_i分别是A1和A2中的第i个语义主题e的权重；给定一组已知类别的统计主题权重向量相互正交的具体步骤为，循环一次，对第i个语义主题权重A_ci分别与剩余的其它语义主题权重做向量相减，循环结束后，再对每一个语义主题权重做归一化处理；

步骤5、按向量相似度算法计算文本T与已知类别的相似度和文本T的语义离散度值，并根据语义离散度值选取相似度最高的前N个分类作为文本T的分类集合；

设T为一段网络文本，文本空间中共有k个相互独立类别{c₁,c₂…c_k},p(c_i|T)为文本T属于c_i类别的概率，

p (c_{i} | T) = S i m (T, {Tc}_{i}) = \frac{A_{T} \cdot {A^{'}}_{c i}}{{|| A_{T} ||}_{2} \times {|| {A^{'}}_{c i} ||}_{2}},

取最大可能性的分类为其最终分类C^*,其中，A_T为未知文本T的语义主题权重向量，A'_ci为第i个类别与其它类别作正交化之后的语义主题权重向量，为第i个类别C_i的类文本；

p(c*|T)是文本T在这k个类别中最大可能分类概率,则其语义离散度值f为：

f = {(Σ_{i}^{k} {(\frac{φ (c_{i}, T)}{Σ_{j = 1}^{k} φ (c_{j}, T)})}^{2})}^{- \frac{1}{2}}

其中，

φ (c_{i}, T) = \{\begin{matrix} p (c_{i} | T), & p (c_{i} | T) / p (c * | T) > H \\ 0, & e l s e \end{matrix},

H是设定的一个用以过滤那些相似度小的类别造成累积效果的阈值；

根据上述语义离散度值f选取相似度最高的前N个分类作为文本T的分类集合。