CN106502979A

CN106502979A - 一种自然语言信息的数据处理方法和装置

Info

Publication number: CN106502979A
Application number: CN201610835478.5A
Authority: CN
Inventors: 袁丽; 甘信军
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2016-09-20
Filing date: 2016-09-20
Publication date: 2017-03-15

Abstract

本发明实施例提供了一种自然语言信息的数据处理方法和装置，包括：获取第一语料库及第二语料库；依据所述第二语料库，生成自然语言信息；确定所述自然语言信息中的第二特征词；从第一语料库中提取第一特征词；采用所述第一特征词替换满足预置规则的第二特征词。通过判断替换后的自然语言信息的合理性，提供更多合理有效的第一特征词，本发明实施例替换了第二特征词，使自然语言信息达到词语搭配合理的、语句通顺的效果，更准确合理地消除自然语言生成过程中出现的过拟合现象；同时还可以生成质量较高的自然语言信息，能够保证生成的自然语言信息的搭配合理性与语句通顺性，提高自然语言信息的语句创造性。

Description

一种自然语言信息的数据处理方法和装置

技术领域

本发明涉及信息处理的技术领域，特别是涉及一种自然语言信息的数据处理方法和一种自然语言信息的数据处理装置。

背景技术

现有技术中，深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像信息，文本信息和自然语言信息。

随着深度学习在自然语言信息处理中的应用，基于规则的自然语言信息处理在逐步被淘汰，基于深度学习的自然语言信息处理不再需要繁琐的规则配置，不断添加与维护规则，以及剖析句法、解析语义，计算机能够像人一样进行自主创作和回答问题，而不是回答预设的答案。但在自然语言信息生成的过程中，计算机的创作能力取决于训练的语料，当语料不够大时，易导致生成内容的过拟合。同时，生成内容仅仅是基于训练语料的，生成的内容空洞单一，缺乏创造性。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种自然语言信息的数据处理方法和相应的一种自然语言信息的数据处理装置。

为了解决上述问题，本发明实施例公开了一种自然语言信息的数据处理方法，包括：

获取第一语料库及第二语料库；其中，所述第一语料库大于第二语料库；

依据所述第二语料库，生成自然语言信息；

确定所述自然语言信息中的第二特征词；

从第一语料库中提取第一特征词；

采用所述第一特征词替换满足预置规则的第二特征词。

优选地，所述第二语料库包括第二词典，所述第二词典包括实词词典，所述实词词典包括实词，所述确定所述自然语言信息中的第二特征词的步骤包括：

将所述实词词典与所述自然语言信息进行匹配；

确定所述实词词典与所述自然语言信息中相同的实词为第二特征词。

优选地，所述从第一语料库中提取第一特征词的步骤包括：

依据所述第二特征词获取所述第一语料库中与第二特征词的特征相似度排序在前N个的第一特征词；其中，N>1。

优选地，所述从第一语料库中提取第一特征词的步骤还包括：

从所述第一语料库提取出第一词典；其中所述第一词典包括第一特征词；

计算所述第一特征词与所述第二特征词的特征相似度；

按照特征相似度从大至小的顺序依次排序所述第一特征词；

选取出所述第一词典中与第二特征词的特征相似度排序在前N个的第一特征词。

优选地，所述遍历所述自然语言信息中的第二特征词，并采用所述第一特征词替换满足预置规则的第二特征词的步骤包括：

确定当前处理的第二特征词；

采用所述前N个的第一特征词逐一替换所述当前处理第二特征词；

获取与替换后的第一特征词相邻的第二特征词；

依据所述替换后的第一特征词对应的词向量及所述相邻的第二特征词对应的词向量，计算特征概率值；

判断所述特征概率值是否大于固定值；

当所述特征概率值大于固定值时，则采用所述第一特征词替换所述当前处理第二特征词。

优选地，所述方法还包括：

在当前处理的第二特征词被所述第一特征词替换后，输出自然语言信息。

优选地，所述第二语料库包括第二语料信息，所述确定当前处理的第二特征词的步骤包括：

判断所述自然语言信息与第二语料信息是否一致；

当所述自然语言信息与第二语料信息一致时，确定所述自然语言信息中的实词为当前处理的第二特征词。

本发明实施例还公开了一种自然语言信息的数据处理装置，所述装置包括：

第一语料库及第二语料库获取模块，用于获取第一语料库及第二语料库；其中，所述第一语料库大于第二语料库；

自然语言信息生成模块，用于依据所述第二语料库，生成自然语言信息；

第二特征词确定模块，用于确定所述自然语言信息中的第二特征词；

第一特征词提取模块，用于从第一语料库中提取第一特征词；

第二特征词替换模块，用于采用所述第一特征词替换满足预置规则的第二特征词。

优选地，所述第二语料库包括第二词典，所述第二词典包括实词词典，所述实词词典包括实词，所述第二特征词确定模块包括：

实词词典匹配子模块，用于将所述实词词典与所述自然语言信息进行匹配；

第二特征词确定子模块，用于确定所述实词词典与所述自然语言信息中相同的实词为第二特征词。

优选地，所述第一特征词提取模块包括：

第一特征词获取子模块，用于依据所述第二特征词获取所述第一语料库中与第二特征词的特征相似度排序在前N个的第一特征词；其中，N>1。

优选地，所述第一特征词提取模块还包括：

第一词典提取子模块，用于从所述第一语料库提取出第一词典；其中所述第一词典包括第一特征词；

特征相似度计算子模块，用于计算所述第一特征词与所述第二特征词的特征相似度；

第一特征词排序子模块，用于按照特征相似度从大至小的顺序依次排序所述第一特征词；

第一特征词选取子模块，用于选取出所述第一词典中与第二特征词的特征相似度排序在前N个的第一特征词。

优选地，所述第二特征词替换模块包括：

第二特征词确定子模块，用于确定当前处理的第二特征词；

第二特征词替换子模块，用于采用所述前N个的第一特征词逐一替换所述当前处理第二特征词；

相邻第二特征词获取子模块，用于获取与替换后的第一特征词相邻的第二特征词；

特征概率值计算子模块，用于依据所述替换后的第一特征词对应的词向量及所述相邻的第二特征词对应的词向量，计算特征概率值；

特征概率值判断子模块，用于判断所述特征概率值是否大于固定值；

特征词替换子模块，用于当所述特征概率值大于固定值时，则采用所述第一特征词替换所述当前处理第二特征词。

优选地，所述装置还包括：

自然语言信息输出模块，用于在当前处理的第二特征词被替换后，输出自然语言信息。

优选地，所述第二语料库包括第二语料信息，所述第二特征词确定子模块包括：

第二语料信息判断单元，用于判断所述自然语言信息与第二语料信息是否一致；

第二特征词确定单元，用于当所述自然语言信息与第二语料信息一致时，确定所述自然语言信息中的实词为当前处理的第二特征词。

本发明实施例包括以下优点：

本发明实施例中，获取第一语料库及第二语料库，生成自然语言信息；采用特定风格的语料库进行生成特定风格的自然语言信息；进一步确定所述自然语言信息中的第二特征词，从第一语料库中提取第一特征词，并采用所述第一特征词替换满足预置规则的第二特征词，解决了自然语言生成过程中的产生的过拟合现象。

进一步地，本发明实施例从容量较大的第一词典选取出与第二特征词的特征相似度排序在前的N个第一特征词，并依据替换后是第一特征词的词向量及相邻的第二特征词的词向量，进一步地判断替换后的自然语言信息的合理性，提供更多合理有效的第一特征词，更好替换了第二特征词，使自然语言信息达到词语搭配合理的、语句通顺的效果，采用语言训练模型，生成自然语言信息，具有准确快速的效果，更准确合理地消除自然语言生成过程中出现的过拟合现象。生成质量较高的自然语言信息，能够保证生成的自然语言信息的搭配合理性与语句通顺性，提高自然语言信息的语句创造性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种自然语言信息的数据处理方法实施例一的步骤流程图；

图2是本发明实施例的一种自然语言信息的数据处理方法实施例二的步骤流程图；

图3是本发明实施例的一种自然语言信息的数据处理装置实施例三的结构框图。

具体实施方式

为使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，首先利用一个特定风格的语料，生成自然语言信息，但是因为生成自然语言信息存在过拟合现象，会使自然语言信息中的内容与特定风格的语料中内容一致或者部分一致；影响生成的自然语言信息的质量，故用另一个语料中的内容替换该自然语言信息中与该特定风格的语料一致或部分一致的内容，消除过拟合现象，提高生成的自然语言信息的质量。

参照图1，示出了本发明实施例的一种自然语言信息的数据处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，获取第一语料库及第二语料库；其中，所述第一语料库大于第二语料库；

本发明实施例中，首先获取第一原始文本信息，在第一原始文本信息中提取出第一语料，第一语料可以为使用网络爬虫抓取的网络上大量的大范围的各个领域的文章、诗句及歌词中的除标点符号外的句子内容信息，采用第一语料组成第一语料库，将第一语料中的内容信息的每个词用词向量表示，而第二语料库可以用特定风格的文本作为第二原始文本信息，例如，汪峰的歌词，李白的诗词，或某个名人的演讲内容，依据第二原始文本信息，获取第二语料；采用第二语料组成第二语料库。

步骤102，依据所述第二语料库，生成自然语言信息；

具体应用中，从第二语料库中提取出第二词典，第二词典包括虚词词典与实词词典，简而言之，第二语料库由第二语料信息组成，将第二语料信息提取出第二词典，即将第二语料信息的虚词与实词分别提取，归纳到第二词典中的虚词词典与实词词典；例如，第二语料信息为“我在这里哭泣”与“即使你把我遗忘”，分别提取介词、连词、助词、叹词、量词等虚词，如上述的语料信息中的“在”“这里”、“即使”、“把””，与提取动词、名词等实词，如上述语料信息中的“哭泣”、“遗忘”、“你”、“我”，将提取的虚词放到虚词词典，将提取的实词放到实词词典，最后根据二者形成第二词典，需要说明的是，虚词词典与实词词典是人为定义的，虚词词典可以是包括介词、连词、助词、叹词、量词中的一种或多种，而实词词典可以是动词、名词中的一种或多种，还包括的情况是两者之间是有交叉，比如实词词典可以包括量词、副词、形容词，上述的情况是本发明实施例中，实词词典与虚词词典中的组合情况的牧举，本发明实施例对此不作任何的限制。第二词典经过语言模型训练，生成自然语言信息。该语言模型训练可以包括N-Gram模型，也可以是其它的模型，例如马尔可夫链算法模型，本发明实施例中不作任何的限制，其中，N-Gram模型是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔画，或代表字母或笔画的数字，转换成汉字串(即句子)时，可以计算出最大概率的句子，从而实现从拼音(或笔画串、数字串)到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔画串、数字串)的重码问题。该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现的概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。常用的是二元的Bi-Gram模型和三元的Tri-Gram模型。

步骤103，确定所述自然语言信息中的第二特征词；

实际而言，所述自然语言信息与第二词典中的实词词典进行匹配，将所述自然语言信息中的实词确定为第二特征词。

步骤104，从第一语料库中提取第一特征词；

本发明实施例中，第一语料库由第一语料组成，第一语料可以为使用网络爬虫抓取的网络上大量的大范围的各个领域的文章、诗句及歌词中的除标点符号外的句子内容信息，从第一语料中提取第一特征词，依据第二特征词获取第一语料库中与第二特征词的特征相似度排序在前N个的第一特征词；其中，N>1。特征相似度可以为余弦相似度，或者欧氏距离算法，本发明实施例对此不作任何限制。

步骤105，采用所述第一特征词替换满足预置规则的第二特征词。

具体而言，针对自然语言信息中与第二语料信息的内容一致或部分一致的信息，对自然语言信息中的第二特征词，都用前N个第一特征词进行逐一替换，然后计算第一特征词与第二特征词组成自然语言信息是否合理通顺，若合理通顺的话，将第一特征词确定替换上述的第二特征词。判断一个第二特征词是否被替换，当第二特征词被替换后，输出所述自然语言信息。可以理解为，当替换操作完成后，便可以输出自然语言信息，因为替换了一个第二特征词，此时自然语言信息的过拟合现象就消除了，需要说明的是，上述的举例仅仅本发明实施例的一种牧举，还可以将所有的第二特征词替换，或者部分替换(至少两个第二特征词被替换)，本发明实施例具体不作限制。

本发明实施例中，获取第一语料库及第二语料库，生成自然语言信息；采用特定风格的语料库进行生成特定风格的自然语言信息；进一步确定所述自然语言信息中的第二特征词，从第一语料库中提取第一特征词，遍历所述自然语言信息中的第二特征词，并采用所述第一特征词替换满足预置规则的第二特征词，输出所述自然语言信息，解决了自然语言生成过程中的产生的过拟合现象，能够保证生成的自然语言信息的合理性与通顺性，生成质量较高的自然语言信息，提高自然语言信息的创新性。

参照图2，示出了本发明实施例的一种自然语言信息的数据处理方法实施例二的步骤流程图，方法实施例二可以看作方法实施例一的具体扩展，方法实施例二与方法实施例一的区别在于将遍历所有的第二特征词执行替换操作，将所有的满足预置规则的第二特征词进行替换，具体可以包括如下步骤：

步骤201，获取第一语料库及第二语料库；其中，所述第一语料库大于第二语料库；

本发明实施例中，第一语料库的生成方式如下，所述获取第一语料库及第二语料库的步骤包括：

步骤S11，获取第一原始文本信息；

步骤S12，依据第一原始文本信息，获取第一语料；

步骤S13，采用所述第一语料组成第一语料库。

具体应用中，第一语料可以为使用网络爬虫抓取的网络上大量的大范围的各个领域的文章、诗句及歌词中的除标点符号外的句子内容信息，采用第一语料组成第一语料库，将第一语料中的内容信息的每个词用词向量表示，转化为词向量表示的具体可以为遍历整个语料，使用随机梯度下降(SGD，Stochastic Gradient Descent)不断调整词向量中的参数，即不断调整词向量，最大化目标函数，可训练得到第一语料库的词向量表示模型，词向量表示模型包括所有词的词向量。

本发明实施例的一种优选实施例中，第二语料库的生成方式如下，所述获取第一语料库及第二语料库的步骤还包括；

步骤S21，获取第二原始文本信息；

步骤S22，依据第二原始文本信息，获取第二语料；

步骤S23，采用所述第二语料组成第二语料库。

实施应用中，第二原始文本信息可以是特定风格的文本作为第二原始文本信息，需要说明的是，第二语料库的内容信息可以比第一语料库的内容信息的容量小，因为其是特定风格的文本。

步骤202，依据所述第二语料库，生成自然语言信息；

本发明实施例中，采用所述第二语料库经过一定的步骤生成自然语言信息，所述依据第二语料库，生成自然语言信息的步骤包括：

步骤S31，从所述第二语料库提取出第二词典；

步骤S32，所述第二词典经过语言模型训练，生成自然语言信息。

其中，语言模型训练可以包括N-Gram模型，N-Gram模型时大词汇连续语音识别中常用的一种语言模型，对中文而言，称之为汉语语言模型。汉语语言模型，利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔画，或代表字母或笔画的数字，转换成汉字串(即句子)时，可以计算出最大概率的句子，从而实现从拼音(或笔画串、数字串)到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔画串、数字串)的重码问题。本发明实施例中的语言训练模型还可以是马尔可夫链算法模型，本发明实施例中对此不作任何的限制。

步骤203，确定所述自然语言信息中的第二特征词；

其中，从第二语料库提取出第二词典，第二词典包括实词词典，实词词典包括多个实词，确定自然语言信息中的第二特征词的步骤包括：

步骤S41，将所述实词词典与所述自然语言信息进行匹配；

步骤S42，确定所述实词词典与所述自然语言信息中相同的实词为第二特征词。

具体应用中，可以将实词词典与自然语言信息中第一个实词进行匹配操作，判断自然语言信息中的实词与实词词典是否一致，若是，则将该实词确定为第二特征词。

步骤204，从第一语料库中提取第一特征词；

本发明实施例的一种优选实施例中，所述从第一语料库中提取第一特征词的步骤包括：

步骤S51，依据所述第二特征词获取所述第一语料库中与第二特征词的特征相似度排序在前N个的第一特征词；其中，N>1。

本发明实施例的另一种优选实施例中，所述从第一语料库中提取第一特征词的步骤还包括：

步骤S52，从所述第一语料库提取出第一词典；其中所述第一词典包括第一特征词；

步骤S53，计算所述第一特征词与所述第二特征词的特征相似度；

步骤S54，按照特征相似度从大至小的顺序依次排序所述第一特征词；

步骤S55，选取出所述第一词典中与第二特征词特征相似度排序在前N个的第一特征词。

步骤205，遍历所述自然语言信息中的第二特征词，确定当前处理的第二特征词；

本发明实施例的一种优选实施例中，第二语料库包括第二语料信息，自然语言信息包括语言信息句，所述遍历所述自然语言信息中的第二特征词，确定当前处理的第二特征词的步骤包括：

步骤S61，判断所述语言信息句与第二语料信息是否一致；

步骤S62，当所述语言信息句与第二语料信息一致时，遍历所述语言信息句中的第二特征词，确定当前处理的第二特征词。

其中，确定当前处理的第二特征词是当语言信息句与第二语料信息存在一致或部分一致的情况下(可以认为存在过拟合现象)，针对一致或部分一致的第二特征词添加标记，确定为当前处理的第二特征词，标记可以为多个，遍历语言信息句中的第二特征词，确定为多个当前处理的第二特征词。

步骤206，采用所述前N个的第一特征词逐一替换所述当前处理第二特征词；

具体而言，采用余弦相似度前N个的第一特征词逐一替换当前处理第二特征词，例如，N为10时，使用与该第二特征词的余弦相似度前10个的第一特征词，逐一替换该第二特征词，替换操作循环至少一次，直到替换成功或替换操作循环10次，进入下一个的当前处理的第二特征词的替换操作。

步骤207，获取与替换后的第一特征词相邻的第二特征词；

其中，将第二特征词替换成第一特征词后，获取替换后第一特征词相邻的第二特征词，相邻的第二特征词包括前后相邻的两个第二特征词，或者多个前后相邻的第二特征词。

步骤208，依据所述替换后的第一特征词对应的词向量及所述相邻的第二特征词对应的词向量，计算特征概率值；

实际而言，计算替换后的第一特征词对应的词向量及相邻的第二特征词对应的词向量的特征概率值。

步骤209，判断所述特征概率值是否大于固定值；

具体而言，判断替换后的第一特征词对应的词向量及相邻的第二特征词对应的词向量的特征概率值是否大于固定值，其中，固定值可以为人为设置的任何数值，例如，固定值为0，判断特征概率值是否大于0。

本发明实施例中，当特征概率值是否大于固定值时，可以认为替换后的第一特征词与原始的自然语言信息是组成的新的自然语言信息是词语搭配合理的、语句通顺的；当特征概率值是否大于固定值时，可以认为替换后的第一特征词与原始的自然语言信息是组成的新的自然语言信息是词语搭配不合理的、语句不通顺的；返回采用前N个的第一特征词逐一替换当前处理第二特征词的步骤，即第一特征词一直没有替换成功时，则替换操作为执行N次，直至第二特征词替换操作执行完成。

本发明实施例的一种优选实施例中，所述方法还包括：记录采用前N个的第一特征词逐一替换当前处理第二特征词的步骤的执行次数；判断执行次数是否达到预设阈值；当执行次数达预设阈值时，则返回遍历自然语言信息中的第二特征词，确定当前处理的第二特征词的步骤。

此时，当所述替换操作循环N次后，仍然没有替换成功，则返回所述遍历所述自然语言信息中的第二特征词，确定当前处理的第二特征词的步骤。

步骤210，当所述特征概率值大于固定值时，则采用所述第一特征词替换所述当前处理第二特征词；

本发明实施例中的一种优选实施例中，所述方法还包括：在当前处理的第二特征词被所述第一特征词替换后，输出自然语言信息。

具体而言，判断当前处理的第二特征词是否被替换，在当前处理的第二特征词被替换后，输出所述自然语言信息。

本发明实施例中的另一种优选实施例中，当第一特征词成功替换当前处理第二特征词时，进行下一个第二特征词的替换操作。具体包括以下步骤：

步骤211，判断是否遍历完所述自然语言信息中所有的第二特征词；

步骤212，当遍历完所有的第二特征词时，输出所述自然语言信息。

本发明实施例中，采用所述前N个的第一特征词逐一替换所述当前处理第二特征词，使自然语言信息达到词语搭配合理的、语句通顺的效果，采用语言训练模型，生成自然语言信息，具有准确快速的效果，采用所述第一特征词替换第二特征词，当遍历完所有的第二特征词时，输出所述自然语言信息，解决了自然语言生成过程中的产生的过拟合现象，生成质量较高的自然语言信息，能够保证生成的自然语言信息的搭配合理性与语句通顺性，提高自然语言信息的语句创造性。

进一步地，本发明实施例从容量较大的第一词典选取出与第二特征词的特征相似度排序在前的N个第一特征词，并依据替换后是第一特征词的词向量及相邻的第二特征词的词向量，进一步地判断替换后的自然语言信息的合理性，提供更多合理有效的第一特征词，更好替换了第二特征词，更准确合理地消除自然语言生成过程中出现的过拟合现象。

为使本领域的技术人员更好的理解本发明实施例，以下通过一种具体的事例进行说明。

语料库中的语料训练语言模型的过程中易导致过拟合，过拟合的体现在自然语言生成过程中，生成的自然语言信息完全和语料库完全一样。另一方面，基于递归神经网络(Recurrent Neural Network,RNN)语言模型的自然语言信息生成的语句中的词语都是构成语料库的词语，而语料库中词语的个数和种类是有限的，这样机器基于构成语料库的小规模词典生成的自然语言不够智能不够具有创新性。

当想要生成指定风格的文章，则收集大量该风格的文本作为训练语料。例如我们要生成汪峰风格的歌词，我们使用所有汪峰所有风格的歌词作为训练语料。自然语言生成过程是利用训练好的语言模型，进行随机采样。RNN语言模型的最后一层是softmax函数，softmax的输出为下一个词的概率，输出的维度是第二词典中的词语个数，即自然语言生成训练语料的词典，这样使得导致生成的语句也是只由第二词典中的词语组成，无法超出词典范围，而无法生成第二词典之外的词语。这样的自然语言生成缺乏创造力。

一、第一语料库的词向量训练

第一语料库的获取是通过网络爬虫抓取网站数据的方式收集各领域尽量多且全的第一原始文本信息。假设用于训练第一语料库为corpus1，corpus1的词典为dict1，将corpus1进行分词预处理，使用skip-gram模型，最大化目标函数，公式如下：

其中，T为输入的序列sequence的长度，c是决定上下文窗口大小的常数，w_t是序列sequence中的第t个词，我们词向量的维数设为100。

Skip-Gram模型定义条件概率p(w_O|w_I)如下：

其中，p(w_O|w_I)表示当输入词为w_I时，输出词为w_O的概率，w_I为输入词，w_O为当输入词为w_I时的输出词，对应输入词w_I的输入词向量，对应输出词w_O的输出词向量，W为第一语料库的词的数量，v_w、v′_w分别为第一词典中的上述公式中要叠加的每个词w的输入与输出词向量，遍历整个语料，使用随机梯度下降(SGD，Stochastic Gradient Descent)不断调整词向量中的参数，即不断调整向量，最大化目标函数，可训练得到大语料的词向量模型。

二、第二语料库的自然语言信息生成及替换

假设用于生成特定风格文本的第二语料库为corpus2，corpus2的词典为dict2，很明显dict2的规模小于dict1。

定义遍历生成文本的滑动窗口window size为4，窗口每次的移动位移step＝1。

以生成文本的每句话的句首开始遍历，当滑动窗口中的所有词及词序与第二语料库中的语料信息完全相同，第二语料库的生成的语句需要数据处理。而并不是这句话中的所有词语，都需要被替换。例如“我”，“你”等代词，以及例如“在”，“从”等介词等是不需要被替换的，这样先构建出不需要被替换的介词、代词、连词、助词、量词等的虚词词典exceptiondict。

数据处理方法如下：

(1)对滑动窗口内的语句词语根据exceptiondict进行筛选，选出待替换的词语(第二特征词)，若待替换的词语(第二特征词)数量大于1，则依次考量，直到有一次成功替代则跳出，移动滑动窗口进行下一轮替换数据处理。

(2)第二特征词c_i，第一特征词c_j，筛选出第一语料库中与要替换的第二特征词相似度最高的前10个第一特征词。相似度可以包括余弦相似度,余弦相似度计算公式如下：

(3)要使得被替换后的自然语言信息句仍然语法合理通顺，根据N-gram语言模型，本发明取n＝2的情况，即Bi-gram语言模型评判句子的合理性。从这候选的10个第一特征词中挑选出相似度最高且满足p(c_i+1|c_j)p(c_j|c_i-1)＞0即替换后的第一特征词与上下文的词语(第二特征词)都是合理搭配的c_j作为c_i的替换词。

当被替换的第二特征词是句首第一个词时，c_i-1为换行符对应的词向量。当被替换的第二特征词是句末最后一个词时，c_i+1为换行符对应的词向量。

(4)若10个待选词中没有符合要求的第一特征词，则不替换，继续移动滑动窗口。

需要说明的是，步骤(3)中所用到的Bi-gram词典是根据corpus1构建的，遍历全部的语料文本，统计所有前后搭配词语，并统计词语搭配的词频，构造出Bi-gram词典如表1所示：

词语搭配	词频
		我@不会	266
你@为什么	151
		不会@出现	292
为什么@不能	87
		……	……

表1

举例而言，使用所有汪峰歌词(第二语料库)进行语言模型训练，并采样生成汪峰风格的歌词(自然语言信息)。由于歌词优先，导致训练数据的过拟合，生成的自然语言信息中有与第二语料库中的语料信息完全相同的语句，这样的生成与创作缺乏创造性，使用本发明实施例进行自然语言信息的数据处理的结果如表2所示：

表2

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明实施例的一种自然语言信息的数据处理装置实施例三的结构框图，具体可以包括如下模块：

第一语料库及第二语料库获取模块301，用于获取第一语料库及第二语料库；其中，所述第一语料库大于第二语料库；

自然语言信息生成模块302，用于依据所述第二语料库，生成自然语言信息；

第二特征词确定模块303，用于确定所述自然语言信息中的第二特征词；

第一特征词提取模块304，用于从第一语料库中提取第一特征词；

第二特征词替换模块305，用于采用所述第一特征词替换满足预置规则的第二特征词。

优选地，所述第一特征词提取模块包括：

优选地，所述第一特征词提取模块还包括：

优选地，其特征在于，所述第二特征词替换模块包括：

第二特征词确定子模块，用于确定当前处理的第二特征词；

本发明实施例的一种优选实施例中，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种方法和一种装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自然语言信息的数据处理方法，其特征在于，包括：

依据所述第二语料库，生成自然语言信息；

确定所述自然语言信息中的第二特征词；

从第一语料库中提取第一特征词；

采用所述第一特征词替换满足预置规则的第二特征词。

2.根据权利要求1所述的方法，其特征在于，所述第二语料库包括第二词典，所述第二词典包括实词词典，所述实词词典包括实词，所述确定所述自然语言信息中的第二特征词的步骤包括：

将所述实词词典与所述自然语言信息进行匹配；

3.根据权利要求1所述的方法，其特征在于，所述从第一语料库中提取第一特征词的步骤包括：

4.根据权利要求1或3所述的方法，其特征在于，所述从第一语料库中提取第一特征词的步骤还包括：

计算所述第一特征词与所述第二特征词的特征相似度；

按照特征相似度从大至小的顺序依次排序所述第一特征词；

5.根据权利要求1或3或4所述的方法，其特征在于，所述遍历所述自然语言信息中的第二特征词，并采用所述第一特征词替换满足预置规则的第二特征词的步骤包括：

确定当前处理的第二特征词；

获取与替换后的第一特征词相邻的第二特征词；

判断所述特征概率值是否大于固定值；

6.根据权利要求1或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述第二语料库包括第二语料信息，所述确定当前处理的第二特征词的步骤包括：

判断所述自然语言信息与第二语料信息是否一致；

8.一种自然语言信息的数据处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第二语料库包括第二词典，所述第二词典包括实词词典，所述实词词典包括实词，所述第二特征词确定模块包括：

10.根据权利要求8所述的装置，其特征在于，所述第一特征词提取模块包括：

11.根据权利要求8或10所述的装置，其特征在于，所述第一特征词提取模块还包括：

12.根据权利要求8或10或11所述的装置，其特征在于，所述第二特征词替换模块包括：

第二特征词确定子模块，用于确定当前处理的第二特征词；

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求12所述的装置，其特征在于，所述第二语料库包括第二语料信息，所述第二特征词确定子模块包括：