CN108268431B

CN108268431B - 段落向量化的方法和装置

Info

Publication number: CN108268431B
Application number: CN201611260591.1A
Authority: CN
Inventors: 石鹏; 姜珂
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2019-12-03
Anticipated expiration: 2036-12-30
Also published as: WO2018121145A1; CN108268431A

Abstract

本发明公开了一种段落向量化的方法和装置。其中，该方法包括：构建包括多个特征词的特征集合；基于预设知识库对待处理段落中的词进行替代，得到转换后段落；将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化。本发明解决了现有技术中在对段落进行向量化时采用基于词、句子的上下文计算距离，然后再通过聚类等方法计算得到的句子的向量无法反映规范性文本的内容结构特点的技术问题。

Description

段落向量化的方法和装置

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种段落向量化的方法和装置。

背景技术

自然语言的向量化是NLP(Natural Language Processing，自然语言处理)技术一项艰巨的任务，是使用各种自然语言模型的基础，向量化的质量直接影响着最后的准确率。虽然很多公司都在使用各种向量化的技术，而且在开源平台中也有一定的向量化的工具，包括word2vector，sentence2vector等，但是针对不同文书特点及不同的需求，很难使用统一的抽象方法抽象出需求中真正需要的特征点。例如在解析法律文书等规范性文本时，需要对文本中的小段落根据内容进行划分成大段落，因此需要对每个小段落进行向量化，以抽象出分段的信息点，然而现有的一些向量化技术基本上都是基于词、句子的上下文来计算距离，再通过聚类等方法计算句子的向量，由于法律文书等相对广义范围的文本，有着更工整的结构和规范的语言，因此需要对文本中描述的内容结构和关键的描述内容进行向量化分类，使用现有的向量化技术分析出的向量，并不能反映文本的内容结构特点，并且法律文书是严谨类文书，有很多上下文相似但实际意义缺相差甚远的关键词，现有的向量化技术并不能对这些关键词进行区分。

针对上述现有技术中在对段落进行向量化时采用基于词、句子的上下文计算距离，然后再通过聚类等方法计算得到的句子的向量无法反映规范性文本的内容结构特点的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种段落向量化的方法和装置，以至少解决现有技术中在对段落进行向量化时采用基于词、句子的上下文计算距离，然后再通过聚类等方法计算得到的句子的向量无法反映规范性文本的内容结构特点的技术问题。

根据本发明实施例的一个方面，提供了一种段落向量化的方法，包括：构建包括多个特征词的特征集合；基于预设知识库对待处理段落中的词进行替代，得到转换后段落；将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化。

根据本发明实施例的另一方面，还提供了一种段落向量化的装置，包括：构建模块，用于构建包括多个特征词的特征集合；转换模块，用于基于预设知识库对待处理段落中的词进行替代，得到转换后段落；向量化模块，用于将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化。

在本发明实施例中，通过预先构建包括多个特征词的特征集合，然后基于预设知识库对待处理段落中的词进行替代，得到转换后段落，最后将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化，达到了对段落进行向量化的目的，本发明实施例中对待处理段落进行特征选择的时候是选择转换后段落中属于预构建的特征集合中的词，因此特征选择后的特征是最能体现段落结构化特点的特征，从而实现了最终得到的向量能够反映段落的结构化特点的技术效果，进而解决了现有技术中在对段落进行向量化时采用基于词、句子的上下文计算距离，然后再通过聚类等方法计算得到的句子的向量无法反映规范性文本的内容结构特点的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例1的一种段落向量化的方法流程图；

图2是根据本发明实施例1的法律规范文本示意图；

图3是根据本发明实施例2的一种段落向量化的装置结构图；

图4是根据本发明实施例2的一种可选的段落向量化的装置结构图；

图5是根据本发明实施例2的一种可选的段落向量化的装置结构图；以及

图6是根据本发明实施例2的一种可选的段落向量化的装置结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种段落向量化的方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的段落向量化的方法，如图1所示，该方法包括如下步骤：

步骤S102，构建包括多个特征词的特征集合。

具体的，特征词也就是能以某种程度表征文本的词语，本发明主要是针对段落的向量化，因此本发明中特征集合中的特征词主要是能以某种程度表征段落的词语，本发明中对特征集合中包括的特征词的数目不做限定，并且特征集合可以通过直接选定多个词汇作为特征词的方式来构建，也可以通过收集大量的段落标注样本，并对段落标注样本的特征进行归纳的方式来构建。

步骤S104，基于预设知识库对待处理段落中的词进行替代，得到转换后段落。

具体的，当需要对一个段落也就是待处理段落进行向量化时，需要首先对待处理段落中的每个词进行一次抽象的变换，也就是将待处理段落中的全部词或者部分词变换为其他的表示方式，例如转换为词典词或仅用词性来表示或用词的分类来替代等，转换是基于预设知识库进行的，可选的，预设知识库中可以提供大量的转换词汇等，在对待处理段落中的每个词转换后，也就是整个段落进行了转换，可以得到转换后段落。

步骤S106，将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化。

具体的，转换后段落中会包括很多特征，在对转换后段落进行特征提取时，如果采用现有技术，会提取出很多无意义的词或者不能表征段落特点的词，本发明对转换后段落进行特征提取时，只提取转换后段落中属于特征集合中特征词的词，也就是只提取能够表征段落特点的词，作为转换后段落的特征，之后就可以对转换后段落进行向量化。

可选的，确定了转换后段落的特征以后，在对转换后段落进行向量化时，可以采用现有技术中的向量化方式，通过统计特征词的词频来实现转换后段落的向量化，其中，词频统计方法也有很多成熟的方法，比如hash、改造的trie树等方法。

在本发明实施例中，通过预先构建包括多个特征词的特征集合，然后基于预设知识库对待处理段落中的词进行替代，得到转换后段落，最后将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化，达到了对段落进行向量化的目的，本发明实施例中对待处理段落进行特征选择的时候是选择转换后段落中属于预构建的特征集合中的词，因此特征选择后的特征是最能体现段落结构化特点的特征，从而实现了最终得到的向量能够反映段落的结构化特点的技术效果，并且在特征选择的过程中能够聚出人眼无法察觉的规律性特征，复杂度低，进而解决了现有技术中在对段落进行向量化时采用基于词、句子的上下文计算距离，然后再通过聚类等方法计算得到的句子的向量无法反映规范性文本的内容结构特点的技术问题。

在一种可选的实施例中，步骤S102，包括：

步骤S202，基于预设知识库对包括多个段落的段落集合中的词进行替代，得到转换后段落集合。

步骤S204，确定转换后段落集合的特征。

步骤S206，从转换后段落集合的特征中选取预设数量的特征，构成特征集合。

具体的，如果特征集合是通过收集大量的段落标注样本，并对段落标注样本的特征进行归纳的方式来构建，首先需要收集大量的段落标注样本，也就是构建包括多个段落的段落集合，然后对段落集合中每一个段落中的全部词或者部分词基于预设知识库进行替代，可以得到抽象转换后的转换后段落集合，之后需要确定转换后段落集合的特征，由于在特征统计中会有许多无意义的词以及不能表征段落特点的词，并且能够表征段落特点的词可能数量也较多，可以只筛选出较为关键的词，因此需要从统计的大量的特征中选出预设数量的特征，最终构成特征集合。

在一种可选的实施例中，步骤S206中从转换后段落集合的特征中选取预设数量的特征，包括：

步骤S302，计算转换后段落集合的特征中每一个特征的信息熵增益。

步骤S304，按照信息熵增益从大到小的顺序从转换后段落集合的特征中选取预设数量的特征。

具体的，可以采用计算特征的信息熵的增益的方式来选取预设数量的特征，在确定转换后段落集合的特征之后，可以计算每一个特征的信息熵的增益，并选取信息熵的增益较大的预设数量的特征，此处需要说明的是，预设数量的大小可以自定义设置，本发明中对预设数量的具体数值不做具体限定。

具体的，熵(entropy)是信息论中广泛使用的一个度量标准，可以刻画任意样例集的纯度，对于具有c个不同的值的目标属性A，S是属性A的相对样例集合，那么S相对于c个状态的分类熵的公式如下：

其中，上式中，Pi是S属于类别i的比例，需要注意的是底数仍然为2，如果目标属性具有c个可能值，那么熵最大可能为log₂(c)。

在已经有了熵作为衡量训练样例集合纯度的标准的情况下，可以定义属性分类训练数据的效力的度量标准，这个标准就被称为“信息增益(information gain)”，简单来说，一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低，更精确的讲，一个属性A相对样例集合S的信息增益Gain(S，A)被定义为：

其中，V(A)也就是Values(A)是属性A所有可能值的集合，Sv是S中属性A的值为v的子集，上式中第一项就是原集合S的熵，第二项是用A分类S后的熵的期望值，第二项描述的期望熵就是每个子集的熵的加权和，权值为属性Sv的样例占原始样例S的比例|Sv|/|S|，所以Gain(S，A)是由于知道属性A的值而导致的期望熵减少，换句话来讲，Gain(S，A)是由于给定属性A的值而得到的关于目标函数值的信息，当对S的一个任意成员的目标值编码时，Gain(S，A)的值是在知道属性的值后可以节省的二进制位数。

在一种可选的实施例中，步骤S202中基于预设知识库对包括多个段落的段落集合中的词进行替代之前，包括：步骤S402，使用一阶依存语法将段落集合中相同含义的词进行聚类。

具体的，段落中相同的词根据出现的语境不同，可能会有不同的含义，而不同的词可能具有相同的含义，因此在对在基于预设知识库对包括多个段落的段落集合中的词进行替代前，可以使用依存语法把相同含义的词聚拢起来，具体的可以使用一阶依存语法把相同含义的词聚拢起来，通过使用依存语法，本发明可以解决现有向量化技术中针对很多上下文相似但实际意义缺相差甚远的关键词不进行区分导致向量化质量差的技术问题。

在一种可选的实施例中，知识库包括词林的词分类知识库、专业词汇词典知识库和命名实体识别知识库。

具体的，词林的词分类知识库也就是将大量的词根据含义进行分类构成的知识库，可选的，可以给每一类相同含义的词分配分类号，如下表格可能是词林的词分类知识库中部分内容：

具体的，专业词汇词典知识库可以是某一专业领域的词汇以及字典构成的知识库，例如针对法律专业，专业词汇词典知识库可能包括案由、财产保全措施、当事人角色、法律简称、法院、国籍、行政不作为行为、行政管理法内分类、行政行为、行政作为行为、婚姻状况、技术案件_案由、技术案件_关键字、角色、金额明细、民事案由、民族等词汇或字典。

具体的，命名实体识别知识库可以是可以进行命名实体识别的知识库，其中命名实体就是人名、地名、机构名及其他有以名称为标识的实体，基于命名实体识别知识库可以识别出人名(NH)、地名(NS)、组织名(NI)等。

在一种可选的实施例中，在基于上述三个知识库对一个段落进行转换后，转换后段落为：@nh与＝>％Dk17B23@nh＝>#民事案由@nh＝>#案由#民事案由＝>％Dk17B23#案由＝>％Dk17B23#行政作为行为＝>％Dk17B23％Dk17B23＝>@nh，可选的，本发明的实施例中在对段落进行抽象转换的时候可以预设转换的规则，例如，可以规定使用“＝>”来表示修饰关系，例如A和B分别表示两个替换后的词，“A＝>B”就表示A词修饰B次，使用专业词汇词典知识库的词典词替换后使用#号开头，使用命名实体识别知识库进行命名实体识别后使用@开头，使用词林的词分类知识库的分类号替换后使用％，并且可以使用空格来将每个特征进行分离，基于上述预设的转换的规则，则针对一个人名，无论是“张三”、“李四”还是“王五”，都可以使用上述转换后的段落中“@nh”来表示，因此转换后的段落复杂性较低，并且在进行特征统计时，减少了特征的数量，因此能够节约统计成本，提高统计效率，并且转换后的段落的特征更加明显，更能够显示段落的内容结构特点。

在一种可选的实施例中，假如对10000个段落进行特征标记归纳，统计出150000个不同的特征，由于150000个不同的特征中有很多个性的词，也就是无意义的词或者不能表征或者不能很好表征段落结构化特点的词，因此需要从该15000个特征中选择预设数量的特征，其中，预设数量可以设置为3000，可以使用信息熵的增益来选最大的3000个特征，其中针对转换后段落集合中的部分特征的信息熵的增益的计算结果可以如下表所示：

在一种可选的实施例中，本发明适用于对规范性文本的大量小段落根据内容进行划分形成大段落，如图2所示，图2为一个法律规范文本，其中自然段“4：原告：唐**”、“5：委托代理人：盛*、李**”和“6：被告：王*”实际上都可以划归为诉讼参与人段落，通过使用本发明段落向量化的方法，可以将上述3个自然段进行向量化，根据向量化的结果得到上述3个自然段的信息点，从而将上述3个自然段划归为一个大段落。

实施例2

根据本发明实施例，提供了一种段落向量化的装置的产品实施例，图3是根据本发明实施例的段落向量化的装置，如图3所示，该装置包括构建模块101、转换模块103和向量化模块105。

其中，构建模块101，用于构建包括多个特征词的特征集合；转换模块103，用于基于预设知识库对待处理段落中的词进行替代，得到转换后段落；向量化模块105，用于将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化。

在本发明实施例中，通过构建模块101预先构建包括多个特征词的特征集合，然后由转换模块103基于预设知识库对待处理段落中的词进行替代，得到转换后段落，最后由向量化模块105将转换后段落中属于特征集合的词作为转换后段落的特征，对转换后段落进行向量化，达到了对段落进行向量化的目的，本发明实施例中对待处理段落进行特征选择的时候是选择转换后段落中属于预构建的特征集合中的词，因此特征选择后的特征是最能体现段落结构化特点的特征，从而实现了最终得到的向量能够反映段落的结构化特点的技术效果，并且在特征选择的过程中能够聚出人眼无法察觉的规律性特征，复杂度低，进而解决了现有技术中在对段落进行向量化时采用基于词、句子的上下文计算距离，然后再通过聚类等方法计算得到的句子的向量无法反映规范性文本的内容结构特点的技术问题。

此处需要说明的是，上述构建模块101、转换模块103和向量化模块105对应于实施例1中的步骤S102至步骤S106，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

在一种可选的实施例中，如图4所示，构建模块101包括：替代模块201、确定模块203和选取模块205。其中，替代模块201，用于基于预设知识库对包括多个段落的段落集合中的词进行替代，得到转换后段落集合；确定模块203，用于确定转换后段落集合的特征；选取模块205，用于从转换后段落集合的特征中选取预设数量的特征，构成特征集合。

此处需要说明的是，上述替代模块201、确定模块203和选取模块205对应于实施例1中的步骤S202至步骤S206，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

在一种可选的实施例中，如图5所示，选取模块205，包括计算模块301和选取子模块303，其中，计算模块301，用于计算转换后段落集合的特征中每一个特征的信息熵增益；选取子模块303，用于按照信息熵增益从大到小的顺序从转换后段落集合的特征中选取预设数量的特征。

此处需要说明的是，上述计算模块301和选取子模块303对应于实施例1中的步骤S302至步骤S304，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

在一种可选的实施例中，如图6所示，构建模块101还包括聚类模块401，用于在替代模块201基于预设知识库对包括多个段落的段落集合中的词进行替代前，使用一阶依存语法将段落集合中相同含义的词进行聚类。

此处需要说明的是，上述聚类模块401对应于实施例1中的步骤S402，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种段落向量化的方法，其特征在于，包括：

构建包括多个特征词的特征集合；

基于预设知识库对待处理段落中的词进行替代，得到转换后段落；

将所述转换后段落中属于所述特征集合的词作为所述转换后段落的特征，对所述转换后段落进行向量化；

其中，基于预设知识库对待处理段落中的词进行替代，得到转换后段落包括：

基于所述预设知识库对所述待处理段落中的全部词或部分词的表示方式进行变换，得到所述转换后段落；

构建包括多个特征词的特征集合包括：基于所述预设知识库对包括多个段落的段落集合中的词进行替代，得到转换后段落集合；确定所述转换后段落集合的特征；从所述转换后段落集合的特征中选取预设数量的特征，构成所述特征集合。

2.根据权利要求1所述的方法，其特征在于，从所述转换后段落集合的特征中选取预设数量的特征，包括：

计算所述转换后段落集合的特征中每一个特征的信息熵增益；

按照信息熵增益从大到小的顺序从所述转换后段落集合的特征中选取预设数量的特征。

3.根据权利要求1所述的方法，其特征在于，基于所述预设知识库对包括多个段落的段落集合中的词进行替代之前，包括：

使用一阶依存语法将所述段落集合中相同含义的词进行聚类。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述知识库包括词林的词分类知识库、专业词汇词典知识库和命名实体识别知识库。

5.一种段落向量化的装置，其特征在于，包括：

构建模块，用于构建包括多个特征词的特征集合；

转换模块，用于基于预设知识库对待处理段落中的词进行替代，得到转换后段落；

向量化模块，用于将所述转换后段落中属于所述特征集合的词作为所述转换后段落的特征，对所述转换后段落进行向量化；

其中，所述转换模块用于通过以下步骤来基于预设知识库对待处理段落中的词进行替代，得到转换后段落：基于所述预设知识库对所述待处理段落中的全部词或部分词的表示方式进行变换，得到所述转换后段落；

所述构建模块包括：替代模块，用于基于所述预设知识库对包括多个段落的段落集合中的词进行替代，得到转换后段落集合；确定模块，用于确定所述转换后段落集合的特征；选取模块，用于从所述转换后段落集合的特征中选取预设数量的特征，构成所述特征集合。

6.根据权利要求5所述的装置，其特征在于，所述选取模块，包括：

计算模块，用于计算所述转换后段落集合的特征中每一个特征的信息熵增益；

选取子模块，用于按照信息熵增益从大到小的顺序从所述转换后段落集合的特征中选取预设数量的特征。

7.根据权利要求5所述的装置，其特征在于，所述构建模块还包括：

聚类模块，用于在所述替代模块基于所述预设知识库对包括多个段落的所述段落集合中的词进行替代前，使用一阶依存语法将所述段落集合中相同含义的词进行聚类。

8.根据权利要求5-7任一项所述的装置，其特征在于，所述知识库包括词林的词分类知识库、专业词汇词典知识库和命名实体识别知识库。