CN109325126A

CN109325126A - 语言文本的对象化处理方法、装置及计算机存储介质

Info

Publication number: CN109325126A
Application number: CN201811284973.7A
Authority: CN
Inventors: 程静; 张博; 胡罡; 王金龙; 李艳
Original assignee: China Electronics Technology Group Corp CETC
Current assignee: China Electronics Technology Group Corp CETC
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-02-12
Anticipated expiration: 2038-10-31
Also published as: CN109325126B

Abstract

本发明公开了一种语言文本的对象化处理方法、装置及计算机存储介质，其中所述方法包括：将待处理的语言文本划分为训练集和测试集；对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器；利用分类器对测试集的语言文本进行处理，实现测试集语言文本的对象化。本发明通过根据训练集建立对象特征集，在依据对象特征集训练分类器，建立短语与特征的关联关系，最后利用训练的分类器实现文本的对象化，方便快捷，提高了对文本资料对象化的处理效率。

Description

语言文本的对象化处理方法、装置及计算机存储介质

技术领域

本发明涉及语言处理技术领域，尤其涉及一种语言文本的对象化处理方法、装置及计算机存储介质。

背景技术

由于工作性质和工作要求的限定，在日常工作中会形成大量电子文件资料。当前的处理方式需要人工词性标注、人工命名实体识别、人工情感分析、人工词义分析及人工信息抽取，在现有技术中，由于文本数量大，格式多，因此限制了检索效率，导致内容检索查询效率低，同时无法对文件资料进行数据建模及分析挖掘处理。另外，由于人员有限的逻辑分析能力，限制了信息的数据挖掘线索。除此之外，由于人力资源的限制，从大量文件资料中分析的结果的准确性和前瞻性无法保证，因此使得分析结果和实际的偏差较大，并且效率较低。

发明内容

本发明实施例提供一种语言文本的对象化处理方法、装置及存储介质，用以解决现有技术中存在的在对文本资料进行对象化处理时，速率低下的问题。

第一方面，本发明实施例提供一种语言文本的对象化处理方法，所述方法包括：

将待处理的语言文本划分为训练集和测试集；

对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器；

利用分类器对测试集的语言文本进行处理，实现测试集语言文本的对象化。

可选的，所述将待处理的语言文本划分为训练集和测试集，具体包括：采用分层采样的方法将待处理的语言文本划分为训练集和测试集。

可选的，所述对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器，具体包括：

对训练集的语言文本进行预处理，获得第一语言文本；

对所述第一语言文本进行特征提取获得若干训练特征，并计算各训练特征的特征向量权值；

利用所述特征向量权值建立句子与对象的关联，获得分类器。

可选的，所述对训练集的语言文本进行预处理，获得第一语言文本，具体包括：

对训练集的语言文本进行分词处理，以解析语言文本中的句子、短语及短语的语法功能；

依据所述句子、短语及短语的语法功能建立语言文本中句子的短语及其语法功能列表；

删除所述语法功能列表中句子的停用词、低频词和标记信息获得第一语言文本。

可选的，利用相似性度量方法计算第一语言文本中短语与各所述训练特征的关键字的相似性；

挑选具有相似性的关键字，确定与所述关键字对应的训练特征为特征对象，建立所述特征对象与短语的关联关系，依据特征对象与短语的关联关系确定特征对象的特征向量权值；

通过对所述特征对象的特征向量权值进行加权计算，确定句子与特征对象的相似性；

选择具有最大相似性的特征对象作为最终对象，并建立最终对象与句子的关联，获得分类器。

可选的，在利用分类器对测试集的语言文本进行处理之前，还包括：

对测试集的语言文本进行分词处理，以解析语言文本中的句子、短语及短语的语法功能；

依据所述句子、短语及短语的语法功能建立语言文本中各句子的短语及其语法功能列表；

删除所述语法功能列表中句子的停用词、低频词和标记信息获得第二语言文本。

可选的，所述利用分类器对测试集的语言文本进行处理，实现测试集语言文本的对象化，具体包括：

利用所述训练特征从所述第二语言文本中提取测试特征，并确定测试特征的特征向量权值；

依据所述测试特征的特征向量权值，并利用所述分类器直接建立第二文本中短语和测试特征的关系以及测试特征和句子的关系，生成对象，实现语言文本的对象化。

第二方面，本发明提供一种语言文本的对象化处理装置，包括：

划分模块，用于将待处理的语言文本划分为训练集和测试集；

训练模块，用于对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器；

建立模块，用于利用分类器对测试集的语言文本进行特征提取获得测试特征，并建立测试集的语言文本中的短语与所述测试特征的关联关系，以实现语言文本的对象化。

第三方面，本发明实施例提供一种计算机存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述语言文本的对象化处理方法的步骤。

本法明实施例，通过根据训练集建立对象特征集，再依据对象特征集训练分类器，建立短语与特征的关联关系，最后利用训练的分类器实现对测试集中语言文本的对象化，方便快捷，提高了对文本资料对象化的处理效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明第一实施例语言文本的对象化处理方法的方法流程图；

图2为本发明第二实施例语言文本的对象化处理方法的方法流程图；

图3为本发明第二实施例语言文本的对象化处理方法的方法流程图；

图4为本发明第三实施例语言文本的对象化处理方法的方法流程图；

图5为本发明第四实施例语言文本的对象化处理装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明第一实施例提供一种语言文本的对象化处理方法，如图1所示，包括以下具体步骤：

步骤S11，将待处理的语言文本划分为训练集和测试集；本步骤中，在对语言文本进行划分时，具体可以采用分层采样的方法将待处理的语言文本划分为训练集和测试集。

步骤S12，对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器；本步骤中在进行特征提取之前，还包括对训练集的语言文本进行预处理，获得第一语言文本，然后再对第一语言文本进行特征提取获得训练特征。

步骤S13，利用分类器对测试集的语言文本进行处理，实现测试集语言文本的对象化。

本发明实施例通过对训练集中的语言文本进训练，获得分类器，再利用获得的分类器对测试集中的语言文本进行对象化处理，大大提高的语言文本对象化处理的处理效率，同时也提高对象化处理的准确率。

本发明第二实施例提供一种语言文本的对象化处理方法，本实施例着重阐述分类器的获得过程，具体如图2和图3所示，获得分类器具体包括如下步骤：

步骤S20，将待处理的语言文本划分为训练集和测试集；

步骤S21，对训练集的语言文本进行分词处理，以解析语言文本中的句子、短语及短语的语法功能；其中，分词处理具体可以为使用自然语言处理工具如StanfordParser来解析文本内容，解析句子、短语及其语法功能，具体的自然语言处理工具Stanford Parser定义有多种语法功能，包括主语、谓语、宾语等，以为文本内容中的每个句子建立短语及其语法功能列表。在自然语言处理中，具体包括分词(tokenization)、提取词干(stemming)和词性标注(Part-of-Speech tagging)等手段。

步骤S22，依据所述句子、短语及短语的语法功能建立语言文本中各句子的短语及其语法功能列表；

步骤S23，删除所述语法功能列表中句子的停用词、低频词和标记信息获得第一语言文本。其中，停用词具体为“的”、“了”、“也”等，低频词为出现频率较低的词语。

步骤S24，对所述第一语言文本进行特征提取获得若干训练特征，并计算各训练特征的特征向量权值；

步骤S25，利用相似性度量方法计算第一语言文本中短语与各所述训练特征的关键字的相似性；

步骤S26，挑选具有相似性的关键字，确定与所述关键字对应的训练特征为特征对象，建立所述特征对象与短语的关联关系，依据特征对象与短语的关联关系确定特征对象的特征向量权值；

步骤S27，通过对所述特征对象的特征向量权值进行加权计算，确定句子与特征对象的相似性；

步骤S28，选择具有最大相似性的特征对象作为最终对象，并建立对象与句子的关联，获得分类器。

步骤S29，利用分类器对测试集的语言文本进行处理，实现测试集语言文本的对象化。本步骤中主要是基于机器学习来实现分类。在大数据环境下，机器学习广泛应用于分类和聚类中。机器学习根据是否拥有标记信息，可分为“监督学习”、“无监督学习”。在步骤中实现文本内容对象化中主要使用监督学习中的分类方法来实现的。

本发明实施例通过利用词法分析、特征向量权值的计算以及相似性的计算方法，使得获得分类器对语言文本对象化处理根据准确可靠。

本发明第三实施例提供一种语言文本的对象化处理方法，如图4所示，获得分类器具体包括如下步骤：

步骤S31，将待处理的语言文本划分为训练集和测试集；本步骤中，在对语言文本进行划分时，具体可以采用分层采样的方法将待处理的语言文本划分为训练集和测试集。

步骤S32，对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器；本步骤中在进行特征提取之前，还包括对训练集的语言文本进行预处理，获得第一语言文本，然后再对第一语言文本进行特征提取获得训练特征。

步骤S33，对测试集的语言文本进行分词处理，以解析语言文本中的句子、短语及短语的语法功能；

步骤S34，依据所述句子、短语及短语的语法功能建立语言文本中各句子的短语及其语法功能列表；

步骤S35，删除所述语法功能列表中句子的停用词、低频词和标记信息获得第二语言文本；

步骤S36，利用所述训练特征从所述第二语言文本中提取测试特征，并确定测试特征的特征向量权值；

步骤S37，依据所述测试特征的特征向量权值，并利用所述分类器直接建立第二文本中短语和测试特征的关系以及测试特征和句子的关系，生成对象，实现语言文本的对象化。

本发明第四实施例提供一种语言文本的对象化处理装置，如图5所示，包括：

划分模块1，用于将待处理的语言文本划分为训练集和测试集；

训练模块2，用于对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器；

建立模块3，用于利用分类器对测试集的语言文本进行特征提取获得测试特征，并建立测试集的语言文本中的短语与所述测试特征的关联关系，以实现语言文本的对象化。

本发明第五实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如方法步骤：

步骤一，将待处理的语言文本划分为训练集和测试集；本步骤中，在对语言文本进行划分时，具体可以采用采用分层采样的方法将待处理的语言文本划分为训练集和测试集。

步骤二，对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器；

步骤三，利用分类器对测试集的语言文本进行处理，实现测试集语言文本的对象化。

本发明通过对文本资料进行自然语言分析，将文本资料进行数据对象化处理，形成结构化数据，既保证了数据的一致性，也提升了数据的使用价值。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种语言文本的对象化处理方法，其特征在于，所述方法包括：

将待处理的语言文本划分为训练集和测试集；

2.如权利要求1所述的语言文本的对象化处理方法，其特征在于，所述将待处理的语言文本划分为训练集和测试集，具体包括：

采用分层采样的方法将待处理的语言文本划分为训练集和测试集。

3.如权利要求1所述的语言文本的对象化处理方法，其特征在于，所述对训练集的语言文本进行特征提取获得训练特征，并利用获得的训练特征训练分类器，具体包括：

对训练集的语言文本进行预处理，获得第一语言文本；

4.如权利要求3所述的语言文本的对象化处理方法，其特征在于，所述对训练集的语言文本进行预处理，获得第一语言文本，具体包括：

5.如权利要求3所述的语言文本的对象化处理方法，其特征在于，所述利用特征向量权值建立句子与对象的关联，获得分类器，具体包括：

利用相似性度量方法计算第一语言文本中短语与各所述训练特征的关键字的相似性；

6.如权利要求1所述的语言文本的对象化处理方法，其特征在于，在利用分类器对测试集的语言文本进行处理之前，还包括：

删除各句子中的除停用词、低频词和标记信息获得第二语言文本。

7.如权利要求6所述的语言文本的对象化处理方法，其特征在于，所述利用分类器对测试集的语言文本进行处理，实现测试集语言文本的对象化，具体包括：

8.一种语言文本的对象化处理装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述语言文本的对象化处理方法的步骤。