CN113705227B

CN113705227B - 中文无分词词嵌入模型的构建方法、***、介质及设备

Info

Publication number: CN113705227B
Application number: CN202010437000.3A
Authority: CN
Inventors: 张一帆; 王茂华; 顾倩荣; 黄永健
Original assignee: Shanghai Advanced Research Institute of CAS
Current assignee: Shanghai Advanced Research Institute of CAS
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2023-04-25
Anticipated expiration: 2040-05-21
Also published as: CN113705227A

Abstract

本发明提供一种中文无分词词嵌入模型的构建方法、***、介质及设备，所述中文无分词词嵌入模型的构建方法包括：统计语料集中的候选片段及所述候选片段对应的词频信息；结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表；根据所述词汇表构建正采样集合和负采样集合，并结合所述正采样集合和负采样集合构建词嵌入模型。本发明针对目前无分词词嵌入模型词汇表中噪音n‑gram过多的问题，以中文语料为研究对象，利用负采样的skip‑gram模型，提供了一种使用无监督关联度量指标改进无分词词嵌入模型的方法。

Description

中文无分词词嵌入模型的构建方法、***、介质及设备

技术领域

本发明属于自然语言处理的技术领域，涉及一种词嵌入模型的设计方法，特别是涉及一种中文无分词词嵌入模型的构建方法、***、介质及设备。

背景技术

词嵌入作为自然语言处理领域的一项基础性任务，在机器翻译、词性标注等下游任务中发挥着重要的作用。由于中文语料中的词语之间并没有明显的分隔符，现有的中文词嵌入通常需要首先进行中文分词，以获取分词后的词汇作为词嵌入的目标。但是目前的中文分词仍存在许多问题，而这些问题会严重影响到中文词嵌入的质量。因而，针对类似中文这样的语言，为了避免分词错误带来的影响，无分词词嵌入模型被提出并被证明优于传统的词嵌入方法。

目前的无分词词嵌入模型主要是通过收集Top-K词频最高的n-gram片段作为模型训练的对象。但是仅仅考虑词频会导致词嵌入的词汇表中出现大量噪音n-gram片段，这些噪音片段会影响最终生成的词嵌入的质量。

因此，如何提供一种无分词词嵌入模型的设计方法，降低大量噪音n-gram片段对最终生成的词嵌入模型质量的影响，提高词嵌入模型的质量，实已成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种中文无分词词嵌入模型的构建方法、***、介质及设备，用于解决现有技术无法降低大量噪音n-gram片段对最终生成的词嵌入模型质量的影响，提高词嵌入模型的质量的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种中文无分词词嵌入模型的构建方法，所述中文无分词词嵌入模型的构建方法包括：统计语料集中的候选片段及所述候选片段对应的词频信息；结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表；根据所述词汇表构建正采样集合和负采样集合，并结合所述正采样集合和负采样集合构建词嵌入模型。

于本发明的一实施例中，所述候选片段为汉语语言模型片段，所述统计语料集中的候选片段及所述候选片段对应的词频信息的步骤包括：在所述语料集中统计出不同固定长度值对应的汉语语言模型片段及其词频信息。

于本发明的一实施例中，所述结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表的步骤包括：结合所述词频信息确定所述候选片段的无监督关联度量指标，所述无监督关联度量指标表征所述候选片段的关联强度；将所述关联强度由大到小依次排列，选取关联强度前K个的候选片段作为词嵌入的词汇表。

于本发明的一实施例中，所述结合所述词频信息确定所述候选片段的无监督关联度量指标的步骤包括：计算所述候选片段的互信息值，确定所述互信息值最小时对应的片段组合；根据所述片段组合确定第一集合与第二集合，并计算所述片段组合与第一集合或第二集合的统计关系数值；将所述词频信息、互信息值与统计关系数值三者的乘积作为无监督关联度量指标。

于本发明的一实施例中，所述根据所述片段组合确定第一集合与第二集合，并计算所述片段组合与第一集合或第二集合的统计关系数值的步骤包括：将所述词频信息与第一集合的词频的比值、与第二集合的词频的比值中的最大值作为分子，选取所述第一集合与第二集合中词频最小的集合，取该集合中元素个数的倒数作为分母；将所述分子与分母构成的分式计算值作为所述片段组合在所述第一集合或第二集合的相对重要程度计算值；根据所述相对重要程度计算值确定所述统计关系数值。

于本发明的一实施例中，对每一种长度的所述候选片段进行关联强度的计算；根据不同长度的候选片段，在每一种长度下，将所述关联强度由大到小依次排列，选取关联强度前K个的候选片段作为词嵌入的词汇表，以根据不同长度选取不同数量的候选片段作为词嵌入的词汇表。

于本发明的一实施例中，所述根据所述词汇表构建正采样集合和负采样集合，并结合所述正采样集合和负采样集合构建词嵌入模型的步骤包括：以skip-gram模型结合负采样为基础，采用参数优化的方法，最大化正采样概率，最小化负采样概率，构建所述词嵌入模型。

本发明另一方面提供一种中文无分词词嵌入模型的构建***，所述中文无分词词嵌入模型的构建***包括：片段统计模块，用于统计语料集中的候选片段及所述候选片段对应的词频信息；关联度量模块，用于结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表；模型生成模块，用于根据所述词汇表构建正采样集合和负采样集合，并结合所述正采样集合和负采样集合构建词嵌入模型。

本发明又一方面提供一种介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的中文无分词词嵌入模型的构建方法。

本发明最后一方面提供一种设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行所述的中文无分词词嵌入模型的构建方法。

如上所述，本发明所述的中文无分词词嵌入模型的构建方法、***、介质及设备，具有以下有益效果：

提出一种新的无监督关联度量指标，用于筛选具有强关联度的n-gram片段。将此种无监督关联度量指标与词嵌入模型相结合，构建了一种新的面向中文语料的无分词中文词嵌入模型。通过本发明获得的词嵌入模型能够在下游任务中表现出更好的性能。

附图说明

图1显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的原理流程图。

图2显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联度量流程图。

图3显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联强度计算流程图。

图4显示为本发明的中文无分词词嵌入模型的构建方法与basic字典对照的效果图。

图5显示为本发明的中文无分词词嵌入模型的构建方法与rich字典对照的效果图。

图6显示为本发明的中文无分词词嵌入模型的构建***于一实施例中的结构原理图。

图7显示为本发明的中文无分词词嵌入模型的构建设备于一实施例中的结构连接示意图。

元件标号说明

6 中文无分词词嵌入模型的构建***

61 片段统计模块

62 关联度量模块

63 模型生成模块

7 设备

71 处理器

72 存储器

73 通信接口

74 ***总线

S11～S13 步骤

S121～S122 步骤

S121A～S121C 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明提供的中文无分词词嵌入模型的构建方法针对目前无分词词嵌入模型词汇表中噪音n-gram过多的问题，以中文语料为研究对象，利用负采样的skip-gram模型，提供了一种使用无监督关联度量指标改进无分词词嵌入模型的方法。

以下将结合图1至图7详细阐述本实施例的一种中文无分词词嵌入模型的构建方法、***、介质及设备的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本实施例的中文无分词词嵌入模型的构建方法、***、介质及设备。

请参阅图1，显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的原理流程图。如图1所示，所述中文无分词词嵌入模型的构建方法具体包括以下几个步骤：

S11，统计语料集中的候选片段及所述候选片段对应的词频信息。

在本实施例中，所述候选片段为汉语语言模型片段，例如，所述候选片段为n-gram片段，在所述语料集中统计出不同固定长度值对应的n-gram片段及其词频信息。

具体地，通过n-gram模型实现一个简单的分词器，得到n-gram片段。该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。一般情况下我们只计算一个单词前后各两个词的概率，即n取2,计算n-2,.n-1,n+1,n+2的概率。如果n＝3，计算效果会更好；n＝4，计算量会变得很大。

具体地，对语料集进行整理，统计出固定长度下的所有可能的n-gram片段及其词频信息。将不同长度的n-gram片段与相应的词频信息进行列表管理，形成表1。例如，表1中长度为1个汉字的“一”，词频数为529285。

表1候选字段表

S12，结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表。

在本实施例中，对每一种长度的所述候选片段进行关联强度的计算。

进一步地，根据不同长度的候选片段，在每一种长度下，将所述关联强度由大到小依次排列，选取关联强度前K个的候选片段作为词嵌入的词汇表，以根据不同长度选取不同数量的候选片段作为词嵌入的词汇表。

请参阅图2，显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联度量流程图。如图2所示，S12包括：

S121，结合所述词频信息确定所述候选片段的无监督关联度量指标，所述无监督关联度量指标表征所述候选片段的关联强度。本发明的PATI(Pointwise Associationwith Times Information，无监督关联度量指标)通过考虑更多的统计量信息，能够发掘更多的强关联n-gram片段。

请参阅图3，显示为本发明的中文无分词词嵌入模型的构建方法于一实施例中的关联强度计算流程图。如图3所示，S121包括：

S121A，计算所述候选片段的互信息值，确定所述互信息值最小时对应的片段组合。

具体地，所述互信息值为MP值，对于每个长度为s的n-gram片段g＝w_iw_i+1...w_i+s(0≤i≤N-s)，g的左、右两部分分别为a＝w_i...w_k-1，b＝w_k...w_i+s(i<k<i+s)，即g＝concat(a,b)。f_a，f_b和f_g分别代表字符串a，b以及n-gram片段g在语料集中的词频。

对于一个n-gram片段g＝concat(a,b)，其对应的MP定义为：

对于固定长度为s的n-gram片段g，总会存在一个特定的左右a，b组合(a_m,b_m)能够最小化MP。随后，AT的计算也将基于这一特定组合(a_m,b_m)。

S121B，根据所述片段组合确定第一集合与第二集合，并计算所述片段组合与第一集合或第二集合的统计关系数值。

在本实施例中，S121B包括：

(1)将所述词频信息与第一集合的词频的比值、与第二集合的词频的比值中的最大值作为分子，选取所述第一集合与第二集合中词频最小的集合，取该集合中元素个数的倒数作为分母。

对于n-gram片段g的特定组合(a_m,b_m)，有一批与其长度相同的n-gram片段(a_m,b_h)和(a_j,b_m)，那么第一集合{a_m,*}和第二集合{*,b_m}有如下定义：

{a_m,*}＝{(a_m,b₁),(a_m,b₂),…,(a_m,b_h)} 公式(2)

{*,b_m}＝{(a₁,b_m),(a₂,b_m),…,(a_j,b_m)} 公式(3)

令

和

分别表示在集合{a_m,*}和{*,b_m}中的所有n-gram片段的词频的总和，则其定义为：

对于n-gram片段g及其特定组合(a_m,b_m)，变量rate代表的是f_g与

比值以及f_g与

比值中的最大值，即rate的定义如下：

对于两个集合{a_m,*}和{*,b_m}及其对应的

和

令sizeof代表集合内n-gram元素的个数，则AC可定义为：

(2)将所述分子与分母构成的分子计算值作为所述片段组合在所述第一集合或第二集合的相对重要程度计算值。

具体地，给定变量rate和变量AC，此时n-gram片段g的times值的定义如下：

(3)根据所述相对重要程度计算值确定所述统计关系数值。

具体地，对于长度为s的n-gram片段g的特定组合(a_m,b_m)，有唯一的变量times，则AT的计算公式为：

AT＝1+|logtimes| 公式(9)

S121C，将所述词频信息、互信息值与统计关系数值三者的乘积作为无监督关联度量指标。

具体地，PATI(Pointwise Association with Times Information，无监督关联度量指标)的公式如下：

PATI＝F×MP×AT 公式(10)

其中，F＝fg为词频信息，MP为互信息值，AT是统计关系数值。

MP是对于互信息PMI的改进版，其在关联强度的计算过程中更多的考虑到了每个n-gram片段g＝concat(a,b)的边际变量，即n-gram的左、右两部分a和b的统计量，从而能够对n-gram的局部信息更为敏感。

AT通过利用每个n-gram片段的特定组合(a_m,b_m)在集合{a_m,*}或{*,b_m}中的统计信息来进一步衡量n-gram的关联强度。变量times通过考虑

和(a_m,b_m)的词频信息以及(a_m,b_m)的前、后邻接数，来评估(a_m,b_m)在集合中的相对重要程度，times值越高，通常说明(a_m,b_m)作为一个整体是合理的。一般来说，大部分关联强度较高的合理n-gram的times值要远大于那些不合理的n-gram片段的times值。

S122，将所述关联强度由大到小依次排列，选取关联强度前K个的候选片段作为词嵌入的词汇表。

具体地，使用提出的无监督关联度量指标来计算每一种片段长度下候选n-gram片段的关联强度。然后选取Top-K关联强度最高的n-gram片段作为词嵌入模型的词汇表。其中，在一大堆数中求其前k大或前k小的问题，简称Top-K问题。

S13，根据所述词汇表构建正采样集合和负采样集合，并结合所述正采样集合和负采样集合构建词嵌入模型。

在本实施例中，以skip-gram模型结合负采样为基础，采用极大似然估计的方法，最大化正采样概率，最小化负采样概率，构建所述词嵌入模型。本发明使用无监督关联度量指标来筛选词嵌入的词汇表，重构词嵌入模型的正采样和负采样，降低了噪音n-gram片段对于模型的影响，从而提升了词嵌入在下游任务中的表现。

需要说明的是，极大似然估计仅为本发明进行参数估计和优化的一种实施方式，其他的可实现参数估计与优化的方法也包含在本发明保护的范围内。

具体地，PFNE基于负采样的skip-gram模型来学习词嵌入，从而降低模型梯度下降时的计算量，加快模型训练。模型的正采样集合N_p就是词汇表和语料相结合生成的“中心词-上下文对”(w_t,w_c)，负采样集合N_n则是通过构建一个足够大的一元语言模型词表，在表中对每个n-gram片段进行索引，根据词汇表中n-gram的词频大小来随机获取负采样样本。PFNE模型的目标函数如下定义：

其中，

和

分别是中心词w_t和其上下文w_c的向量表示，模型使用极大似然估计，根据中心词来预测上下文，最大化正样本的概率，同时最小化负采样的概率，以使目标函数生成的词嵌入模型最优。对该目标函数的优化采用的是基于正、负采样的随机梯度下降方法。

请参阅图4和图5，分别显示为本发明的中文无分词词嵌入模型的构建方法与basic字典对照的效果图和本发明的中文无分词词嵌入模型的构建方法与rich字典对照的效果图。在图4和图5中，PFNE代表利用PATI算法筛选出的n-gram片段与词典相对照的结果；sembei为利用频率(词频)筛选出的n-gram片段与词典相对照的结果；SGNS-PMI为利用PMI(Pointwise Mutual Information，互信息)筛选出的n-gram片段与词典相对照的结果。纵轴为精确率，横轴为召回率。其中，精确率和召回率的表达式如下：

进一步地，曲线越高越长，说明筛选出的合理n-gram片段越多。在图4和图5中可以看出，利用PATI算法的实线PFNE的曲线在三条曲线中最高、最长，由此说明，本发明的中文无分词词嵌入模型的构建方法与现有技术的词嵌入模型(basic字典或rich字典)相比，可以筛选出更多合理的n-gram片段。

本发明所述的中文无分词词嵌入模型的构建方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本实施例提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述中文无分词词嵌入模型的构建方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的计算机可读存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。

以下将结合图示对本实施例所提供的中文无分词词嵌入模型的构建***进行详细描述。需要说明的是，应理解以下***的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如：某一模块可以为单独设立的处理元件，也可以集成在下述***的某一个芯片中实现。此外，某一模块也可以以程序代码的形式存储于下述***的存储器中，由下述***的某一个处理元件调用并执行以下某一模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

以下这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，一个或多个数字信号处理器(Digital Signal Processor，简称DSP)，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。当以下某个模块通过处理元件调用程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(Central ProcessingUnit，简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起，以片上***(System-on-a-chip，简称SOC)的形式实现。

请参阅图6，显示为本发明的中文无分词词嵌入模型的构建***于一实施例中的结构原理图。如图6所示，所述中文无分词词嵌入模型的构建***6包括：片段统计模块61、关联度量模块62和模型生成模块63。

所述片段统计模块61用于统计语料集中的候选片段及所述候选片段对应的词频信息。

在本实施例中，所述候选片段为汉语语言模型片段，所述片段统计模块61具体用于在所述语料集中统计出不同固定长度值对应的汉语语言模型片段及其词频信息。

所述关联度量模块62用于结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表。

在本实施例中，所述关联度量模块62具体用于结合所述词频信息确定所述候选片段的无监督关联度量指标，所述无监督关联度量指标表征所述候选片段的关联强度；将所述关联强度由大到小依次排列，选取关联强度前K个的候选片段作为词嵌入的词汇表。

所述模型生成模块63用于根据所述词汇表构建正采样集合和负采样集合，并结合所述正采样集合和负采样集合构建词嵌入模型。

在本实施例中，所述模型生成模块63具体用于以skip-gram模型结合负采样为基础，采用参数优化的方法，最大化正采样概率，最小化负采样概率，构建所述词嵌入模型。

本发明所述的中文无分词词嵌入模型的构建***可以实现本发明所述的中文无分词词嵌入模型的构建方法，但本发明所述的中文无分词词嵌入模型的构建方法的实现装置包括但不限于本实施例列举的中文无分词词嵌入模型的构建***的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

请参阅图7，显示为本发明的中文无分词词嵌入模型的构建设备于一实施例中的结构连接示意图。如图7所示，本实施例提供一种设备7，所述设备7包括：处理器71、存储器72、通信接口73或/和***总线74；存储器72和通信接口73通过***总线74与处理器71连接并完成相互间的通信，存储器72用于存储计算机程序，通信接口73用于和其他设备进行通信，处理器71用于运行计算机程序，使所述设备7执行所述中文无分词词嵌入模型的构建方法的各个步骤。

上述提到的***总线74可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该***总线可以分为地址总线、数据总线、控制总线等。通信接口73用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器72可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器71可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Alication SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明所述中文无分词词嵌入模型的构建方法、***、介质及设备提出一种新的无监督关联度量指标，用于筛选具有强关联度的n-gram片段。将此种无监督关联度量指标与词嵌入模型相结合，构建了一种新的面向中文语料的无分词中文词嵌入模型。通过本发明获得的词嵌入模型能够在下游任务中表现出更好的性能。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种中文无分词词嵌入模型的构建方法，其特征在于，所述中文无分词词嵌入模型的构建方法包括：

统计语料集中的候选片段及所述候选片段对应的词频信息；

结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表；

根据所述词汇表构建正采样集合和负采样集合，并结合所述正采样集合和负采样集合构建词嵌入模型；

结合所述词频信息确定所述候选片段的关联强度，并根据所述关联强度生成词嵌入的词汇表，包括：结合所述词频信息确定所述候选片段的无监督关联度量指标，所述无监督关联度量指标表征所述候选片段的关联强度；将所述关联强度由大到小依次排列，选取关联强度前K个的候选片段作为词嵌入的词汇表；

其中，结合所述词频信息确定所述候选片段的无监督关联度量指标，包括：

A，计算所述候选片段的互信息值，确定所述互信息值最小时对应的片段组合；所述互信息值为MP值，MP定义为：

f_a，f_b和f_g分别代表字符串a，b以及n-gram片段g在语料集中的词频；

B，根据所述片段组合确定第一集合与第二集合，并计算所述片段组合与第一集合或第二集合的统计关系数值，包括：

(1)将所述词频信息与第一集合的词频的比值、与第二集合的词频的比值中的最大值作为分子，选取所述第一集合与第二集合中词频最小的集合，取该集合中元素个数的倒数作为分母；

对于n-gram片段g的特定组合(a_m,b_m)，设一批与其长度相同的n-gram片段(a_m,b_h)和(a_j,b_m)，则第一集合{a_m,*}和第二集合{*,b_m}分别定义为：{a_m,*}＝{(a_m,b₁),(a_m,b₂),…,(a_m,b_h)}以及{*,b_m}＝{(a₁,b_m),(a₂,b_m),…,(a_j,b_m)}；令