CN109597984A

CN109597984A - 一种印象标签抽取方法和装置

Info

Publication number: CN109597984A
Application number: CN201710938391.5A
Authority: CN
Inventors: 马庆丽
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2019-04-09
Anticipated expiration: 2037-09-30
Also published as: CN109597984B

Abstract

本申请公开了一种印象标签抽取方法和装置。该方法根据属性在文档中的位置信息，将组合得到的第一二元组以及第二二元组，组合成印象标签。所以，该方法不需要训练数据即可实现从文档中抽取其存在的印象标签。而且该方法是通过字符串匹配从文档中抽取预设产品属性、评价印象语以及预设产品类型，因此，该方法能够满足一定的召回率，而且，因在文档中，相关的产品类型、产品属性和产品属性评价印象语是相互关联的，因此，利用产品属性在文档中的位置信息为桥梁，将第一二元组以及第二二元组组合成印象标签。能够使得抽取出的印象标签满足一定的准确率。本申请还公开了一种存储介质以及处理器。

Description

一种印象标签抽取方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种印象标签抽取方法和装置。

背景技术

印象标签是用于关于某个产品的某一种属性的印象观点。一般而言，印象标签为由三个元素组成的三元组，具体可以为<目标产品类型(target)，产品属性(aspect)，评价印象语(opinion)>，印象标签的抽取是在文本分析中，从大量的用户评价数据中抽取出某个产品的某一属性的印象观点。例如：从文本“福特翼虎外形时尚狂野”中需要抽取的三元组为<福特翼虎，外形，时尚狂野>；从文本“大众Polo空间狭窄”中需要抽取的三元组是<大众Polo，空间，狭窄>。

现有的印象标签的抽取方法主要包括基于规则的抽取方法和基于算法的抽取方法。其中，现有的基于规则抽取的方法主要利用词典匹配句子中出现的词，若文本中的一个短句中同时出现三个元素：目标产品类型、产品属性、评价印象语，则将这三个元素作为一条印象标签抽取出来，然而，在一个短句中同时出现的目标产品、属性、评价印象语，有可能彼此之间不存在任何从属或修饰关系，因而，现有的基于规则抽取印象标签的方法虽然召回率很高，但是其准确率低。而现有的基于算法的抽取方法主要利用训练数据训练抽取模型如CRF或者LSTM模型，这种方法在训练抽取模型时需要大量的训练数据，且该方法的召回率较低。

发明内容

有鉴于此，本申请提供了一种印象标签抽取方法和装置，以实现不需要训练数据从大量用户评价数据中抽取出其存在的印象标签，且使得抽取出的印象标签满足一定的准确率和召回率。

为了解决上述技术问题，本申请实施例采用了如下技术方案：

一种印象标签抽取方法，包括：

获取待抽取印象标签的文档；

从所述文档中抽取预设产品属性及其相对应的评价印象语，并记录所述预设产品属性在所述文档中的位置信息，以及将所述预设产品属性以及其相对应的评价印象语配对组合成第一二元组；

从所述文档中抽取预设产品类型和预设产品属性，并记录所述预设产品类型在文档中的位置信息和所述预设产品属性在文档中的位置信息；

根据所述预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性配对组合成第二二元组；

将在文档中具有相同属性位置信息的第一二元组以及第二二元组配对组合成印象标签，所述印象标签包括产品类型、产品属性以及评价印象语。

可选地，所述从所述文档中抽取预设产品属性以及其相对应的评价印象语，并记录所述预设产品属性在所述文档中的位置信息，以及将所述预设产品属性以及其相对应的评价印象语配对组合成第一二元组，具体包括：

对文档中的分句逐句抽取每一分句中包含的预设产品属性；

若当前分句中包含预设产品属性，则记录该预设产品属性在文档中的位置信息，并提取当前分句中包含的评价印象语；

针对每一分句中的每一预设产品属性，依次循环执行以下步骤：

根据预设产品属性与评价印象语的总长度、预设产品属性与评价印象语之间的相对位置关系以及预设产品属性与评价印象语之间的句法依存关系中的至少一个，查找每一预设产品属性相对应的评价印象语；将预设产品属性及其相对应的评价印象语配对组合成第一二元组。

可选地，所述根据预设产品属性与评价印象语的总长度、预设产品属性与评价印象语之间的相对位置关系以及预设产品属性与评价印象语之间的句法依存关系中的至少一个，查找每一预设产品属性相对应的评价印象语；将预设产品属性及其相对应的评价印象语配对组合成第一二元组，具体包括：

若当前预设产品属性与评价印象语之间在当前分句中不存在标点符号时，判断当前预设产品属性与评价印象语的总长度是否大于预设长度和/或当前预设产品属性与评价印象语的位置距离是否小于第一预设距离；

若总长度大于预设长度且位置距离小于第一预设距离，将当前预设产品属性和评价印象语配对组合成第一二元组；

若总长度不大于预设长度和/或位置距离不小于第一预设距离，判断当前预设产品属性与评价印象语的位置距离是否小于第二预设距离；若位置距离小于第二预设距离，判断当前预设产品属性与评价印象语之间是否存在句法依存关系；

若存在句法依存关系，将当前预设产品属性以及评价印象语配对组合成第一二元组；

若不存在句法依存关系，判断当前分句中是否存在与当前预设产品属性具有并列关系的产品属性；

若存在，判断具有并列关系的产品属性对应的评价印象语是否相同；

若相同，将与当前预设产品属性具有并列关系的产品属性与评价印象语组合成第一二元组；

判断当前分句中是否存在与抽取到的评价印象语具有并列关系的评价印象语；

若存在，判断该具有并列关系的评价印象语修饰的产品属性是否相同；

若相同，将具有并列关系的评价印象语分别与当前预设产品属性组成第一二元组。

可选地，所述若当前预设产品属性与评价印象语之间在当前分句中不存在标点符号时，判断当前预设产品属性与评价印象语的总长度是否大于预设长度和/或当前预设产品属性与评价印象语的位置距离是否小于第一预设距离之前，还包括：

确定评价印象语不是***分词结果。

可选地，所述根据所述预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性配对组合成第二二元组，具体包括：

确定抽取到的预设产品类型的数量；

当预设产品类型的数量为1时，则将抽取到的所有预设产品属性均分别与所述预设产品类型配对组合成第二二元组；

当预设产品类型的数量大于或者等于2时，针对每一分句，分别执行以下操作：

确定当前分句中包含的预设产品类型的数量；

若当前分句中只有一个预设产品类型，将该当前分句中的所有预设产品属性分别与该预设产品类型配对组合成第二二元组；

若当前分句中含有多个预设产品类型，判断该多个预设产品类型之间是否存在并列关系以及判断该多个预设产品类型中的一个预设产品类型是否与某一预设产品属性有依存关系，若两个判断结果均为是，将存在并列关系的预设产品类型均与该某一预设产品属性配对组合成第二二元组；

若当前分句中不含有预设产品类型，则针对当前分句中的每个预设产品属性，分别向位于当前分句之前的文档内容中查找预设产品类型；

将查找到的与当前预设产品属性之间的距离小于预设距离的预设产品类型与当前预设产品属性配对组合成第二二元组；或者，将查找到的与当前预设产品属性之间的分句个数小于预设阈值的预设产品类型与当前预设产品属性配对组合成第二二元组。

可选地，所述从所述文档中抽取预设产品属性以及其相对应的评价印象语之前，还包括：

加载含有预设产品属性信息的产品属性词典。

可选地，所述从所述文档中抽取预设产品类型和预设产品属性之前，还包括：

加载含有预设产品类型的产品类型词包以及含有预设产品属性的产品属性词包。

一种印象标签抽取装置，包括：

获取单元，用于获取待抽取印象标签的文档；

第一抽取单元，用于从所述文档中抽取预设产品属性及其相对应的评价印象语，并记录所述预设产品属性在所述文档中的位置信息；

第一配对组合单元，用于将所述预设产品属性以及其相对应的评价印象语配对组合成第一二元组；

第二抽取单元，用于从所述文档中抽取预设产品类型和预设产品属性，并记录所述预设产品类型在文档中的位置信息和所述预设产品属性在文档中的位置信息；

第二配对组合单元，用于根据所述预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性配对组合成第二二元组；

第三配对组合单元，用于将在文档中具有相同属性位置信息的第一二元组以及第二二元组配对组合成印象标签，所述印象标签包括产品类型、产品属性以及评价印象语。

一种存储介质，所述存储介质上存储有程序，所述程序被处理器执行时实现上述任一技术方案中的方法步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序被处理器执行时实现上述任一技术方案中的方法步骤。

相较于现有技术，本申请具有以下有益效果：

基于以上技术方案，本申请实施例提供的印象标签抽取方法，先分别抽取预设产品属性以及其相对应的评价印象语、预设产品类型以及预设产品属性，然后将预设产品属性以及其对应的评价印象语配对组合成第一二元组，并且根据预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性配对组合成第二二元组；最后将在文档中具有相同属性位置信息的第一二元组以及第二二元组配对组合成印象标签。

因而，本申请实施例提供的印象标签抽取方法可以根据属性在文档中的位置信息，将配对组合得到的第一二元组以及第二二元组再配对组合成印象标签。所以，该方法不需要训练数据即可实现从大量用户评价数据中抽取其存在的印象标签。而且该方法是通过字符串匹配从文档中抽取预设产品属性、评价印象语以及预设产品类型，因此，该方法能够满足一定的召回率，而且，因在文档中，相关的产品类型、产品属性和产品属性评价印象语是相互关联的，因此，利用产品属性在文档中的位置信息为桥梁，将第一二元组以及第二二元组配对组合成印象标签。能够使得抽取出的印象标签满足一定的准确率。

附图说明

为了清楚地理解本申请的具体实施方式，下面将描述本申请具体实施方式时用到的附图做一简要说明。

图1是本申请实施例提供的印象标签抽取方法流程示意图；

图2是本申请实施例提供的S12的具体实施方式流程示意图；

图3是本申请实施例提供的S14的具体实施方式流程示意图；

图4是本申请实施例提供的印象标签抽取装置结构示意图。

具体实施方式

下面结合附图对本申请的具体实施方式进行详细描述。

图1是本申请实施例提供的印象标签抽取方法流程示意图。如图1所示，该方法包括：

S11：获取待抽取印象标签的文档。

需要说明，在本申请实施例中，待抽取印象标签的文档可以为通过网络爬虫从网络上爬取到的文档(document)。

S12：从文档中抽取预设产品属性以及其相对应的评价印象语，并记录所述预设产品属性在所述文档中的位置信息，以及将所述预设产品属性以及其相对应的评价印象语配对组合成第一二元组。

该步骤的具体实施方式将在下面详细介绍。

S13：从文档中抽取预设产品类型和预设产品属性，并记录预设产品类型在文档中的位置信息和所述预设产品属性在文档中的位置信息。

该步骤的具体实施方式将在下面详细介绍。

需要说明，在本申请实施例中，不限定S12和S13的执行顺序。可以先执行S12，再执行S13，也可以先执行S13，再执行S12，此外，S12和S13也可以同时执行。作为示例，本申请实施例以先执行S12再执行S13为例说明。

S14：根据所述预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性配对组合成第二二元组。

该步骤的具体实施方式将在下面详细介绍。

S15：将在文档中具有相同属性位置信息的第一二元组以及第二二元组配对组合成印象标签，所述印象标签包括产品类型、产品属性以及评价印象语。

需要说明，一般情况下，在同一篇文档中，相互关联的产品类型、产品属性以及评价印象语记载的文档中的位置较近，因此，若第一二元组以及第二二元组中的产品属性在文档中的位置相同，则第一二元组以及第二二元组对应的产品类型和产品属性相同的可能性较大，因此，可以将该第一二元组以及第二二元组配对组合在一起，生成印象标签。

作为示例，假设在某一个第一二元组中，产品属性在文档中的位置为15，在某一个第二二元组中，产品属性在文档中的位置也为15，则可以将该第一二元组以及该第二二元组配对组合在一起，生成印象标签。

以上为本申请实施例提供的印象标签抽取方法的具体实施方式。在该具体实施方式中，先分别抽取预设产品属性以及其相对应的评价印象语、预设产品类型以及预设产品属性，然后将预设产品属性以及其对应的评价印象语组合成第一二元组，并且根据预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性组合成第二二元组；最后将在文档中具有相同属性位置信息的第一二元组以及第二二元组，组合成印象标签。

因而，本申请实施例提供的印象标签抽取方法可以根据属性在文档中的位置信息，将组合得到的第一二元组以及第二二元组，组合成印象标签。所以，该方法不需要训练数据即可实现从大量用户评价数据中抽取其存在的印象标签。而且该方法是通过字符串匹配从文档中抽取预设产品属性、评价印象语以及预设产品类型，因此，该方法能够满足一定的召回率，而且，因在文档中，相关的产品类型、产品属性和产品属性评价印象语是相互关联的，因此，利用产品属性在文档中的位置信息为桥梁，将第一二元组以及第二二元组配对组合成印象标签。能够使得抽取出的印象标签满足一定的准确率。

下面详细描述S12的具体实施方式。需要说明，在本申请实施例中，从文档中抽取预设产品属性以及其相对应的评价印象语是按照文档中的分句逐句从文档中抽取的，并且是按照字符串匹配方式进行抽取的。

作为示例，该S12的具体实现方式可以具体如下：

首先，按照字符串匹配方式对文档中的分句逐句抽取每一分句中包含的预设产品属性；

若当前分句中包含预设产品属性，则记录该预设产品属性在文档中的位置信息，并提取当前分句中包含的评价印象语；其中，预设产品属性可以预先设定。作为示例，该预设产品属性可以预先设置在一个产品属性词典里，如此，在抽取预设产品类型之前，先加载该词典中的内容，从而获取到预设产品属性。

针对每一分句中的每一预设产品属性，依次循环执行以下步骤，直至文档中的所有分句均执行完以下步骤：

根据预设产品属性与评价印象语的总长度、预设产品属性与评价印象语之间的相对位置关系以及预设产品属性与评价印象语之间的句法依存关系中的至少一个，查找每一预设产品属性相对应的评价印象语；

将预设产品属性及其相对应的评价印象语组成合成第一二元组。

在本申请实施例中，第一二元组内的元素包括预设产品属性以及与其对应的评价印象语。并且，在同一第一二元组内，预设产品属性以及评价印象语之间是配对关系。

在上述S12的具体实现方式中，预设产品属性以及与其对应的评价印象语之间的关系可以通过两者的总长度、两者在文档中的相对位置关系以及两者在文档中的句法依存关系中的至少一个关系来确定。因此，可以根据预设产品属性与评价印象语的总长度、预设产品属性与评价印象语之间的相对位置关系以及预设产品属性与评价印象语之间的句法依存关系中的至少一个，可以比较准确地查找到每一预设产品属性相对应的评价印象语。

下面结合一示例，对S12的具体实现方式做更具体的描述。请参见图2。图2是本申请实施例提供的S12的具体实施方式流程示意图。该具体实施方式包括：

S121：加载设置有产品属性以及评价印象语信息格式的词典以及该词典中包括的词包，从而获取到预设产品属性。

需要说明，在本申请实施例中，可以预先设置有一词典，例如Collocation.txt，并且设置词典中的每一信息的格式为产品属性(aspect)-评价印象语(opinion)-情感(sentiment)。作为示例，该信息的格式可以为：车辆外观-漂亮-正面。此外，在词典中还设置有具体的产品属性，例如车辆外观。如此，可以按照词典中设置好的产品属性在从文档中提取产品属性和评价印象语。为了方便描述，将在词典中预先设置好的产品属性称为预设产品属性。在词典中，预设产品属性可以为一个，也可以为多个。

在本示例中，可以通过加载预先设置的词典中词包内容来获取预先设置的预设产品属性。需要说明，在本申请实施例中，一个产品属性可以对应一系列评价印象语。

如上所述，本申请实施例从文档中抽取预设产品属性以及其相对应的评价印象语是按照文档中的分句逐句从文档中抽取的，因此，针对文档中的每一分句分别执行以下步骤S122至S1214：

S122：按照字符串匹配方式提取文档中当前分句中包括的预设产品属性。

在本申请实施例中，按照文档中的分句逐句从文档中按照字符串匹配方式逐句抽取每一分句中的预设产品属性，因此，本步骤具体可以为：按照字符串匹配方式提取当前分句中包括的预设产品类型，若当前分句中不包括预设产品属性，则不再对该当前分句做处理，则返回提取下一分句中包括的预设产品属性。若当前分句中包括预设产品属性时，执行S123至S1214。而且有可能在一个分句中包括多个预设产品属性，则对该分句中的每一预设产品属性分别执行S123至S1214。

S123：若在当前分句中提取到预设产品属性后，通过字符串匹配抽取当前分句中包括的评价印象语。

一般情况下，存在预设产品属性的分句中均会包含一些评价印象语，因此，若在当前分句中提取到预设产品属性后，通过字符串匹配抽取当前分句中包括的评价印象语。另外，分句中包括的评价印象语有可能为多个，因此，针对抽取到的每一评价印象语分别执行以下步骤S124至S1214：

S124：判断评价印象语是否为***分词结果，如果否，执行步骤S125，如果是，则丢弃该评价印象语。

为了保证抽取到的评价印象语为文档中真正描述预设产品属性的评价印象语，即为了提高抽取到的评价印象语的准确性，本申请实施例可以判断抽取到的评价印象语是否为***分词结果，在确定抽取到的评价印象语不是***分词结果后，再执行后续步骤。如果是***分词结果，则丢弃该抽取到的评价印象语。

下面举例说明什么是***分词。例如在分句“操控感觉比以前的迈腾转向精准，没有虚位，方向盘沉稳，坐姿高舒服，别的都满意，就是不满意油耗”，其中，“方向盘”为产品属性，按照字符串匹配从该分句中提取到的“方向盘”这个产品属性的印象评价语有“沉稳”、“虚”，其中“虚”***了分词结果“虚位”，需要丢弃。

S125：若当前预设产品属性与当前评价印象语之间在当前分句中不存在标点符号，判断当前预设产品属性与当前评价印象语的总长度是否大于预设长度和/或当前预设产品属性与当前评价印象语的位置距离是否小于第一预设距离；若总长度大于预设长度且位置距离小于第一预设距离，执行S126，若总长度不大于预设长度和/或位置距离不小于第一预设距离，执行S127。

因产品属性及其相对应的评价印象语在文档中的位置一般相距较近，因此，可以利用两者的位置关系来确定两者是否相对应，以组成第一二元组。

在本申请实施例中，预设长度和第一预设距离可以根据经验设定，并且若存在大量准确标注语料，则预设长度和第一预设距离可以根据统计进行调整。

作为示例，本步骤可以具体为：

若当前预设产品属性与当前评价印象语之间在当前分句中不存在标点符号，判断当前预设产品属性和当前评价印象语的总长度大于等于6、以及判断当前预设产品属性和当前评价印象语的位置距离小于5，则执行S126。

S126：将当前预设产品属性和当前评价印象语配对组合成第一二元组。

S127：判断当前预设产品属性与当前评价印象语的位置距离是否小于第二预设距离；若位置距离小于第二预设距离，执行S128。

在本申请实施例中，第二预设距离可以根据经验设定，并且若存在大量准确标注语料，则第二预设距离可以根据统计进行调整。

作为示例，本步骤可以具体为：若当前预设产品属性与当前评价印象语之间在当前分句中不存在标点符号时，判断当前预设产品属性和当前评价印象语的位置距离是否小于15，如果是，执行S128。

S128：判断当前预设产品属性与当前评价印象语之间是否存在直接或间接依存关系，若存在直接或间接依存关系，执行S126，若不存在直接或间接依存关系，执行S129。

在本申请实施例中，直接依存关系是指预设产品属性和评价印象语两者直接依赖，该直接依存关系没有特别限定。

直接依存关系可以为主谓关系(英文全称为subject-verb，简写为SBV关系或者定中关系(英文全称为attribute，简写为ATT)。例如：

“噪声大”中的“噪声”与“大”为SBV关系；“外观漂亮”中的“外观”与“漂亮”为ATT关系。

间接依存关系是指预设产品属性和评价印象语之间通过第三个词建立依存关系，这三个词之间的依存关系不能出现并列关系(英文全称为coordinate，英文简写为COO)。举例说明：“大山和大海”中的“大山”、“大海”就是并列关系。

例如：“感觉动力肯定是够用”，中的预设产品属性“动力”和评价印象语“够用”之间通过第三个词“是”连接，因此，“动力”与“够用”是间接依存关系。

S129：判断当前分句中是否存在与当前预设产品属性具有并列关系的产品属性，若存在，执行S1210。

作为示例，在分句“不错的油耗、动力”中，“油耗”和“动力”是并列关系，它们的评价印象语均为“不错”。

S1210：判断具有并列关系的产品属性对应的评价印象语是否相同，若相同，执行S1211。

在S129的示例中，油耗”和“动力”是并列关系，且它们的评价印象语相同，均为“不错”。因此可以执行S 1211。

S1211：将与所述预设产品属性具有并列关系的产品属性与评价印象语组成组合成第一二元组。

在上述S129的示例中，组成两对第一二元组，其分别为：“油耗，不错”和“动力，不错”。

S1212：判断当前分句中是否存在与抽取到的评价印象语具有并列关系的评价印象语，若存在，执行S1213。

作为示例，在分句“外观非常霸气、非常漂亮”中，“霸气”和“漂亮”是并列关系，对应的SBV修饰词均为“外观”，因此，可以执行S1213。

S1213：判断该具有并列关系的评价印象语修饰的产品属性是否相同，若相同，执行S1214。

在S1212的示例中，具有并列关系的评价印象语“霸气”和“漂亮”修饰的产品属性均为“外观”，因此，具有并列关系的评价印象语修饰的产品属性相同，执行S1214。

S1214：将具有并列关系的评价印象语分别与设产品属性配对组合成第一二元组。

在S1212的示例中，组成两对第一二元组，其分别为：“外观，霸气”和“外观，漂亮”。

以上为本申请实施例提供的S12的一个具体实现方式。

需要说明，因在本申请实施例中，从文档中抽取预设产品属性以及其对应的评价印象语是按照文档中的分句逐句提取的，因此，针对文档中的每一分句均需要执行S122至S1214，直至文档中的所有分句均执行完。针对每一分句中的每一预设产品属性，均需要执行S123至S1214，针对每一分句中的每一评价印象语均需要执行S124至S1214。

在上述S12的具体实现方式中，预设产品属性与评价印象语之间的相互对应关系通过两者的总长度、两者在文档中的相对位置关系以及两者在文档中的句法依存关系中的至少一个关系来确定。这种确定两者对应关系的方式符合现有的文档撰写规范，因而能够较为准确地查找到预设产品属性与其对应的评价印象语，从而能够较为准确地得到第一二元组。

下面详细描述S13的具体实施方式。

需要说明，在本申请实施例中，抽取预设产品类型和预设产品属性是先从全文中查找进行的。

在本申请实施例中，预设产品类型为预先设置的产品类型，例如，“奥迪”、“宝来”等等，该预设产品类型可以设置在一个词包里，例如Target.txt，TargetBrand.txt。

预设产品属性也为预先设置的产品属性，例如，“车辆外观”、“方向盘”等等。该预设产品属性也可以设置在一个词包里，例如，Aspect.txt。

作为示例，步骤S13可以具体如下：

首先，加载预设产品类型词包以及预设产品属性词包；

然后，根据设置在预设产品类型词包内的预设产品类型从文档的全文中查找预设产品类型，并记录预设产品类型在文档中的位置；根据设置在预设产品属性词包内的预设产品属性从文档的全文中查找预设产品属性，并记录预设产品属性在文档中的位置。

若文档全文中没有预设产品类型，则向预设产品属性词包中返回全文中所有的预设产品属性，若文档全文中没有预设产品属性，则向预设产品类型词包中返回全文中所有的预设产品类型。

下面详细描述S14的具体实施方式。

请参阅图3。S14的具体实施方式可以包括以下步骤：

S141：确定抽取到的预设产品类型的数量n，当预设产品类型的数量n为1时，执行S142；当预设产品类型的数量n大于或者等于2时，针对每一分句，分别执行以下步骤S143至S148。

统计步骤S13从文档中抽取到的预设产品类型，从而确定抽取到的预设产品类型的数量n。

当预设产品类型的数量n为1时，执行S142；当预设产品类型的数量n大于或者等于2时，针对每一分句，分别执行以下步骤S143至S148。

S142：将抽取到的所有预设产品属性均分别与所述预设产品类型配对组合成第二二元组。

在本申请实施例中，第二二元组内的元素包括预设产品类型以及与其对应的预设产品属性。并且，在同一第二二元组内，预设产品类型以及预设产品属性是配对关系。

S143：确定当前分句中包含的预设产品类型的数量m。

统计从当前分句中抽取到的预设产品类型，得到当前分句中包含的预设产品类型的数量。

S144：若当前分句中只有一个预设产品类型即m＝1，则该当前分句中的所有预设产品属性分别与该预设产品类型配对组合成第二二元组。

S145：若当前分句中含有多个预设产品类型即m≥2，则判断该多个预设产品类型之间是否存在并列关系以及判断该多个预设产品类型中的某一预设产品类型是否与某一预设产品属性有依存关系，若两个判断结果均为是，执行S146。

S146：存在并列关系的预设产品类型均与该某一预设产品属性配对组合成第二二元组。

S147：若当前分句中不含有预设产品类型即m＝0，则针对该当前分句中的每个预设产品属性，分别向该当前分句之前的文档内容中查找预设产品类型。

S148：将查找到的与预设产品属性之间的距离小于预设距离的预设产品类型与当前预设产品属性配对组合成第二二元组；或者，将查找到的与预设产品属性之间的分句个数小于预设阈值的预设产品类型与当前预设产品属性配对，组合成第二二元组。

以上为S14的具体实现方式，通过该具体实现方式，能够得到较为准确的第二二元组，同时能够达到一定的召回率，从而能够保证后续生成的印象标签的准确率和召回率。

以上为本申请实施例提供的印象标签抽取方法的具体实施方式。基于该具体实施方式，本申请实施例还提供了一种印象标签抽取装置的具体实施方式。具体参见以下实施例。

图4是本申请实施例提供的印象标签抽取装置结构示意图。如图4所示，该印象标签抽取装置包括：

获取单元41，用于获取待抽取印象标签的文档；

第一抽取单元42，用于从所述文档中抽取预设产品属性及其相对应的评价印象语，并记录所述预设产品属性在所述文档中的位置信息；

第一配对组合单元43，用于将所述预设产品属性以及其相对应的评价印象语配对组合成第一二元组；

第二抽取单元44，用于从所述文档中抽取预设产品类型和预设产品属性，并记录所述预设产品类型在文档中的位置信息和所述预设产品属性在文档中的位置信息；

第二配对组合单元45，用于根据所述预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性配对组合成第二二元组；

第三配对组合单元46，用于将在文档中具有相同属性位置信息的第一二元组以及第二二元组配对组合成印象标签，所述印象标签包括产品类型、产品属性以及评价印象语。

以上为本申请实施例提供的印象标签抽取装置的具体实施方式，该印象标签抽取装置具有与印象标签抽取方法相同的技术效果，为了简要起见，在此不再赘述，详细信息请参见印象标签抽取方法的有益效果的相关描述。

作为本申请的一可选实施例，所述印象标签抽取装置包括处理器和存储器，上述获取单元41、第一抽取单元42、第一配对组合单元43、第二抽取单元44、第二配对组合单元45以及第三配对组合单元46等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现不需要训练数据从大量用户评价数据中抽取出其存在的印象标签，且使得抽取出的印象标签满足一定的准确率和召回率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述印象标签抽取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述印象标签抽取方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取待抽取印象标签的文档；

对文档中的分句逐句抽取每一分句中包含的预设产品属性；

确定评价印象语不是***分词结果。

确定抽取到的预设产品类型的数量；

确定当前分句中包含的预设产品类型的数量；

加载含有预设产品属性信息的产品属性词典。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取待抽取印象标签的文档；

对文档中的分句逐句抽取每一分句中包含的预设产品属性；

确定评价印象语不是***分词结果。

确定抽取到的预设产品类型的数量；

确定当前分句中包含的预设产品类型的数量；

加载含有预设产品属性信息的产品属性词典。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种印象标签抽取方法，其特征在于，包括：

获取待抽取印象标签的文档；

2.根据权利要求1所述的方法，其特征在于，所述从所述文档中抽取预设产品属性以及其相对应的评价印象语，并记录所述预设产品属性在所述文档中的位置信息，以及将所述预设产品属性以及其相对应的评价印象语配对组合成第一二元组，具体包括：

对文档中的分句逐句抽取每一分句中包含的预设产品属性；

3.根据权利要求2所述的方法，其特征在于，所述根据预设产品属性与评价印象语的总长度、预设产品属性与评价印象语之间的相对位置关系以及预设产品属性与评价印象语之间的句法依存关系中的至少一个，查找每一预设产品属性相对应的评价印象语；将预设产品属性及其相对应的评价印象语配对组合成第一二元组，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述若当前预设产品属性与评价印象语之间在当前分句中不存在标点符号时，判断当前预设产品属性与评价印象语的总长度是否大于预设长度和/或当前预设产品属性与评价印象语的位置距离是否小于第一预设距离之前，还包括：

确定评价印象语不是***分词结果。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述预设产品类型的数量或者预设产品类型与预设产品属性的位置关系将预设产品类型和预设产品属性配对组合成第二二元组，具体包括：

确定抽取到的预设产品类型的数量；

确定当前分句中包含的预设产品类型的数量；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述从所述文档中抽取预设产品属性以及其相对应的评价印象语之前，还包括：

加载含有预设产品属性信息的产品属性词典。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述从所述文档中抽取预设产品类型和预设产品属性之前，还包括：

8.一种印象标签抽取装置，其特征在于，包括：

获取单元，用于获取待抽取印象标签的文档；

9.一种存储介质，其特征在于，所述存储介质上存储有程序，所述程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。