CN112016298A

CN112016298A - 产品特征信息的提取方法、电子设备及存储介质

Info

Publication number: CN112016298A
Application number: CN202010888412.9A
Authority: CN
Inventors: 王俊霞; 周英能; 张振
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-01

Abstract

本发明实施例涉及文本分析领域，公开了一种产品特征信息的提取方法、电子设备及存储介质。本发明中在文本中提取候选特征信息；确定候选特征信息与不同产品领域的语料的相关参数；其中，相关参数表征候选特征信息与产品领域的领域相关性；根据相关参数判断候选特征信息是否为产品特征信息，若判断为是则对产品特征信息进行提取。针对不同产品领域均可以进行特征信息的提取，设计的提取方法具有可移植性，节约成本，提高特征信息提取方案的利用率。

Description

产品特征信息的提取方法、电子设备及存储介质

技术领域

本发明实施例涉及文本分析领域，特别涉及一种产品特征信息的提取方法、电子设备及存储介质。

背景技术

随着电子商务的快速发展，互联网上产生了带有情感色彩的海量评论信息。随着应用的深入，对评论信息进行细粒度情感分析的需求越来越多。细粒度情感分析研究中，产品特征的抽取是极其关键的一步。对产品特征抽取的方法主要可以分为基于无监督学习的方法及基于有监督学习的方法。基于无监督学习的方法主要包括基于词频与词共现的方法、基于句法分析的方法、基于主题模型的方法。在有监督学习方法中，可以利用层级隐马尔可夫模型，通过统计上下文特征，同时结合运用知识库、启发式规则确定产品特征。

发明人发现相关技术中至少存在如下问题：在不同领域语料中产品特征信息的分布是不同的，因此，相关技术中针对单一领域的语料进行情感信息的抽取，从而确定产品特征信息的方法不具备通用性，需要技术人员针对不同领域分别设计相应的产品特征提取的方案，人工成本较大。

发明内容

本发明实施例的目的在于提供一种产品特征信息的提取方法、电子设备及存储介质，针对不同产品领域均可以进行特征信息的提取，设计的提取方法具有可移植性，节约成本，提高特征信息提取方案的利用率。

为解决上述技术问题，本发明的实施例提供了一种产品特征信息的提取方法，包括：在文本中提取候选特征信息；确定候选特征信息与不同产品领域的语料的相关参数；其中，相关参数表征候选特征信息与产品领域的领域相关性；根据相关参数判断候选特征信息是否为产品特征信息，若判断为是则对产品特征信息进行提取。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述产品特征信息的提取方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述产品特征信息的提取方法。

本发明实施例相对于现有技术而言，在文本中提取候选特征信息之后，确定该候选特征信息与不同产品领域的相关参数，相关参数表征候选特征信息与不同产品领域的领域相关性，相关程度越紧密，则说明该候选特征信息在产品领域内使用的较多，该候选特征信息为该产品领域的特征信息的概率越大。因此根据确定的相关参数可以有针对性的进行产品特征信息的提取，由于在计算过程中可以获取候选特征信息与各个产品领域的相关参数，因此该特征信息的提取方法可以方便的应用到不同领域中，具有较好的可移植性，提高了资源的利用率，并节约了设计不同的方案所需的人力成本。

另外，确定候选特征信息与不同产品领域的语料的相关参数，包括：根据候选特征信息在不同产品领域的语料中所占的权重，计算得到候选特征信息对应的偏差值；其中，偏差值表征候选特征信息在语料中的分布情况；根据偏差值确定候选特征信息与各个产品领域的相关参数。根据偏差值可以确定候选特征信息在语料中的分布情况，语料中存在的候选特征信息越多且分布越分散说明候选特征信息与语料的领域相关性越紧密。

另外，在计算得到候选特征信息对应的偏差值之后，还包括：计算候选特征信息在第一产品语料和第二产品语料出现的概率的差异参数；其中，第一产品语料为与目标产品相关领域的语料，第二产品语料为与目标产品非相关领域的语料；根据偏差值确定候选特征信息与各个产品领域的相关参数，包括：结合偏差值和差异参数确定候选特征信息与各个产品领域的相关参数。将候选特征在领域相关性语料中的分布和在两个领域的差异性结合起来，得到相关参数，使计算的相关参数更加客观。

另外，在根据相关参数判断候选特征信息是否为产品特征信息之后，还包括：若判断为否则通过似然比检验方法检验候选特征信息是否属于产品特征信息；若候选特征信息属于产品特征信息，则提取产品特征信息。利用似然比检验方法对过滤掉的候选特征信息进行再次判定，避免有效的产品特征信息被滤除，提高产品特征信息提取的准确性。

另外，在文本中提取候选特征信息，包括：对文本进行分词处理，得到若干个文字组；将各个文字组作为候选特征信息提取。

另外，在得到若干个文字组之后，还包括：若该若干个文字组中相邻两个文字组的词性均为名词，且相邻两个文字组共同出现的概率大于预设阈值，则将相邻两个文字组进行合并；将各个文字组作为候选特征信息提取，包括：将合并后的文字组作为候选特征信息提取，从而提高了候选特征信息的完整性。

另外，在得到若干个文字组之后，还包括：分析若干个文字组包含的句法结构；将各个文字组作为候选特征信息提取，包括：根据句法结构对若干个文字组进行筛选；将筛选后的文字组作为候选特征信息提取。将满足特定句法结构规则的文字组作为候选特征信息提取，提高候选特征信息提取的准确性，避免遗漏。

另外，根据句法结构对若干个文字组进行筛选，包括：将符合预设句法结构规则的文字组保留；其中，预设句法结构规则包括：主谓结构且词性为名词，主谓结构且词性为动词，以及动宾结构且词性为名词。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施例中的产品特征信息的提取方法的流程图；

图2是根据本发明第二实施例中的产品特征信息的提取方法的流程图；

图3是根据本发明第三实施例中的产品特征信息的提取方法的流程图；

图4是根据本发明第四实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施例涉及一种产品特征信息的提取方法，包括：在文本中提取候选特征信息；确定候选特征信息与不同产品领域的语料的相关参数；其中，相关参数表征候选特征信息与产品领域的领域相关性；根据相关参数判断候选特征信息是否为产品特征信息，若判断为是则对产品特征信息进行提取。针对不同产品领域均可以进行特征信息的提取，设计的提取方法具有可移植性，节约成本，提高特征信息提取方案的利用率。下面对本实施例的产品特征信息的提取方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施例中涉及的产品特征信息的提取方法如图1所示，包括：

步骤101，在文本中提取候选特征信息。

具体地说，在对文本的候选特征信息进行提取时，首先需要对文本进行分词处理，将一段长句划分为短句或者划分为多个词语的组合。例如，获取的文本为“手机的做工很差，不喜欢。”将该文本进行分词处理，分为“手机”，“的”，“做工”，“很”，“差”，“不”，“喜欢”，这七个文字组，每个文字组可以表示一种含义，例如，“差”和“喜欢”可以表示用户的情感色彩，“手机”可以表示产品领域等等，在分词处理后的若干个文字组中即可提取到所需的候选特征信息，例如可以将名词或动词词性的文字组作为候选特征信息提取，如“手机”，“做工”等均可以作为候选特征信息提取。

步骤102，确定候选特征信息与不同产品领域的语料的相关参数。

具体地说，在提取候选特征信息之后，根据其与不同产品领域的语料的相关参数对提取的候选特征信息进行筛选，将领域相关性较低的候选特征信息筛除，保留领域相关性较高的候选特征信息。候选特征信息与产品领域语料的领域相关性通过相关参数表示，更容易直观的观察到候选特征信息与不同领域的领域相关性的比对结果，从而更易于获取到领域相关性较高的候选特征信息。

候选特征的领域相关参数的计算可以根据候选特征信息在语料中的权重值来确定，权重值越大，则领域的相关参数较大；也可以根据候选特征信息在语料中的偏差值来确定，偏差值用于表征候选特征信息在语料中的分布情况，偏差值越大说明候选特征信息在该语料中存在的数量较多且分布较为分散，也就可以确定该候选特征信息的领域相关参数较大；或者根据候选特征信息在语料中出现的概率，概率越大则候选特征信息的领域相关参数越大。

下面以根据偏差值确定相关参数为例，对领域相关参数的计算进行具体说明：

利用词频-逆文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)方法计算候选特征信息在语料中的权重，对于每个候选特征信息C_i，在语料中的每一条评论D_j中都有一个词频TF_ij，在整个语料中有一个频率DF_i。则候选特征信息C_i在评论D_j中的权重ω_ij计算如

公式为：

其中，i表示候选特征信息的编号，假设提取M个候选特征信息，则1≤i≤M；j表示评论的编号，假设在语料中共N条评论，则1≤j≤N。

计算候选特征信息的权重的标准差

其中，

表示候选特征信息C_i在整个语料中的平均权重

候选特征信息C_i在领域相关性语料中的偏差值

所计算的偏差值代表候选特征信息在语料中的分布情况，偏差值越大表示候选特征信息在语料中分布的越分散，也就是说候选特征信息在语料中的多数评论中均有出现，候选特征信息在语料中出现的越频繁，说明该候选特征信息与该语料的领域相关程度越高，相关参数也就越大。

除此之外，还可以综合考虑候选特征信息在语料中的分布情况以及候选特征信息在领域相关性语料和领域无关性语料中出现的频率的差异性来计算相关参数，具体如下：

在基于上述公式计算出候选特征信息的领域相关性语料偏差值之后，对候选特征信息在第一产品语料和第二产品语料中出现的概率的差异参数进行计算，其中，第一产品语料为与目标产品相关领域的语料，第二产品语料为与目标产品非相关领域的语料。例如，在目标产品选定为手机产品时，第一产品语料可以选择为电子领域的语料，第二产品语料可以选择为美妆领域的语料，等等。候选特征信息在第一产品语料的概率计算如下：候选特征信息C_i在第一产品语料中出现的次数占所有候选特征信息出现的总次数的比例即为该候选特征信息C_i在第一产品语料出现的概率，同理可以计算得到候选特征信息在第二产品语料中出现的概率。若候选特征信息C_i在第一产品语料中出现的概率为P_D(C_i)，在第二产品语料中出现的概率为P_I(C_i)，那么候选特征信息C_i在第一产品语料和第二产品语料出现的概率的差异参数

候选特征信息C_i在两种语料中的差异参数d_i越大时，说明候选特征信息在领域相关性语料中出现较多，在领域无关性语料中出现较小。在计算得到偏差值disp和差异参数d_i之后，候选特征信息C_i的领域相关参数rel_i＝disp_i×d_i，从而实现将候选特征在领域相关性语料中的分布和在两个领域的差异性结合起来，得到相关参数，使计算的相关参数更加客观。

步骤103，根据相关参数判断候选特征信息是否为产品特征信息，若判断结果为是，则进入步骤104；若判断步骤为否，则进入步骤105。

步骤104，对产品特征信息进行提取。

步骤105，不作为产品特征信息。

具体地说，在计算得到候选特征信息的领域相关参数之后，将大于或等于第一预设阈值的候选特征信息作为产品特征信息提取，小于第一预设阈值的候选特征信息则不作为产品特征信息。

本发明的第二实施例涉及一种产品特征信息的提取方法。在本发明第二实施例中利用似然比检验方法对判断为不是产品特征信息的候选特征信息进行再次判定，避免目标产品的有效的特征信息被滤除，提高特征信息提取的准确性。

本实施例中涉及的产品特征信息的提取方法如图2所示，包括：

步骤201，在文本中提取候选特征信息。

步骤202，确定候选特征信息与不同产品领域的语料的相关参数。

步骤203，根据相关参数判断候选特征信息是否为产品特征信息，若判断结果为是，则进入步骤204；若判断步骤为否，则进入步骤205。

步骤204，对产品特征信息进行提取。

步骤201至204与第一实施例中步骤101至104一一对应，以免重复描述在此不再赘述。

步骤205，通过似然比检验方法判断候选特征信息是否属于产品特征信息，若判断结果为是，则进入步骤204，若判断结果为否，则进入步骤206。

步骤206，不作为产品特征信息。

具体地说，为避免有效的产品特征信息被筛除，可以通过似然比检验方法对相关参数小于第一预设阈值的候选特征信息进行检验，再次判断该候选特征信息是否属于产品特征信息。利用似然比检验方法进行检验的计算方式如下：

计算候选特征信息的似然比lr，计算公式如下：

其中，

l＝(n₁+n₃)logr+(n₂+n₄)log(1-r)-n₁ logr₁-n₂ log(1-r₁)-n₃ logr₂-n₄log(1-r₂)，n₁代表候选特征信息C_i在第一产品语料出现的频率，n₂代表候选特征信息C_i在第二产品语料出现的频率，n₃代表非候选特征信息C_i的其他候选特征信息在第一产品语料出现的频率，n₄代表非候选特征信息C_i的其他候选特征信息在第二产品语料中出现的频率。n₁，n₂，n₃，n₄所代表的含义可以根据下述图表清晰看出。

最终计算得到的似然比值越大，说明候选特征信息与第一产品语料的相关联程度越大，将计算的似然比值大于或等于第二预设阈值的候选特征信息作为产品特征信息保留，从而提高了产品特征筛选的准确率。

在本实施例中，由于似然比技术可以将不同领域中差异较小的候选特征信息检验出来，因此利用似然比值的大小进行判断，将经过领域相关性算法计算而滤除掉的候选特征信息再次进行检验计算，将计算的似然比值大于第二预设阈值的候选特征信息加入到产品特征信息中，提高了产品特征筛选的准确率。

本发明的第三实施例涉及一种产品特征信息的提取方法。在本发明第三实施例中具体说明了从文本中提取候选特征信息的方式，从而使文字组所表示的信息更加完整，使提取的候选特征信息更加准确。

本实施例中涉及的产品特征信息的提取方法如图3所示，包括：

步骤301，对文本进行分词处理，得到若干个文字组。

步骤302，若干个文字组中相邻两个文字组的词性均为名词，且相邻两个文字组共同出现的概率大于预设阈值，则将相邻两个文字组进行合并。

具体地说，在对文本进行分词处理的时候，得到的若干个文字组可能存在分词不准确的情况，例如，“手机壳”这个词可能会被分为“手”和“机壳”两个文字组，从而使本应完整的产品特征被分为了两个不相关的部分，从而导致产品特征信息被遗漏。

为保证分词处理后的文字组词义的完整性，可以根据分词后两个相邻文字组的点互信息值判断这两个相邻的文字组共同出现的概率的大小，并根据计算的概率的大小来决定是否需要将这两个相邻的文字组合并为一个新的文字组。点互信息PMI的计算公式如下：

其中，P(word)表示相邻的两个名词文字组中前面一个文字组出现的概率，P(nword)表示相邻的两个名词文字组中后面一个文字组出现的概率，P(word,nword)表示相邻的两个名词文字组共同出现的概率。当计算得到的点互信息PMI值达到第二预设阈值时，将相邻的两个名词文字组合并。

步骤303，根据句法结构对若干个文字组进行筛选。

具体地说，在分词处理得到若干个文字组之后，分析若干个文字组包含的句法结构，并根据句法结构对若干个文字组进行筛选，将不满足句法结构规则的文字组筛除，将满足句法结构规则的文字组提取作为候选特征信息。预设的句法结构规则可以包括：主谓结构且词性为名词，主谓结构且词性为动词，以及动宾结构且词性为名词。举例来说，若文本为“手机做工很差，不喜欢”，分词处理后得到若干个文字组分别为“手机”，“做工”，“很”，“差”，“不”，“喜欢”。其中，文字组“做工”为名词词性且符合主谓结构，符合预设的句法结构规则主谓结构且词性为名词，将文字组“做工”作为候选产品特征信息提取。再比如文本“我很喜欢这个款式”，分词处理后得到若干个文字组“我”，“很”，“喜欢”，“这个”，“款式”。其中，文字组“款式”符合动宾结构且词性为名词，可以作为候选特征信息提取。在提取候选特征信息时不仅针对名词词性的文字组进行提取，还可以针对动词词性的文字组进行提取，使提取的候选特征信息更加全面，提高候选特征信息提取的准确性。

步骤304，将筛选后的文字组作为候选特征信息。

步骤305，确定候选特征信息与不同产品领域的语料的相关参数。

步骤306，根据相关参数判断候选特征信息是否为产品特征信息，若判断结果为是，则进入步骤307；若判断步骤为否，则进入步骤308。

步骤307，对产品特征信息进行提取。

步骤308，通过似然比检验方法判断候选特征信息是否属于产品特征信息，若判断结果为是，则进入步骤307，若判断结果为否，则进入步骤309。

步骤309，不作为产品特征信息。

步骤305至309与第二实施例中步骤202至206一一对应，为避免重复表述，在此不再赘述。

在本实施例中，基于句法规则抽取候选特征信息，将符合规则的名词和动词作为候选特征，提取的候选特征信息更加全面，提高了候选特征信息提取的准确率，避免遗漏。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施方式涉及一种电子设备，如图4所示，包括至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述的任一方法实施例中的产品特征信息的提取方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时、***接口、电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

本发明第五实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种产品特征信息的提取方法，其特征在于，包括：

在文本中提取候选特征信息；

确定所述候选特征信息与不同产品领域的语料的相关参数；其中，所述相关参数表征所述候选特征信息与产品领域的领域相关性；

根据所述相关参数判断所述候选特征信息是否为产品特征信息，若判断为是则对所述产品特征信息进行提取。

2.根据权利要求1所述的产品特征信息的提取方法，其特征在于，所述确定所述候选特征信息与不同产品领域的语料的相关参数，包括：

根据所述候选特征信息在不同产品领域的语料中所占的权重，计算得到所述候选特征信息对应的偏差值；其中，所述偏差值表征所述候选特征信息在语料中的分布情况；

根据所述偏差值确定所述候选特征信息与各个产品领域的相关参数。

3.根据权利要求2所述的产品特征信息的提取方法，其特征在于，在所述计算得到所述候选特征信息对应的偏差值之后，还包括：

计算所述候选特征信息在第一产品语料和第二产品语料出现的概率的差异参数；其中，所述第一产品语料为与目标产品相关领域的语料，所述第二产品语料为与所述目标产品非相关领域的语料；

所述根据所述偏差值确定所述候选特征信息与各个产品领域的相关参数，包括：

结合所述偏差值和所述差异参数确定所述候选特征信息与各个产品领域的相关参数。

4.根据权利要求1至3中任一项所述的产品特征信息的提取方法，其特征在于，在所述根据所述相关参数判断所述候选特征信息是否为产品特征信息之后，还包括：

若判断为否，则通过似然比检验方法检验所述候选特征信息是否属于产品特征信息；

若所述候选特征信息属于所述产品特征信息，则提取所述产品特征信息。

5.根据权利要求1所述的产品特征信息的提取方法，其特征在于，所述在文本中提取候选特征信息，包括：

对所述文本进行分词处理，得到若干个文字组；

将所述各个文字组作为候选特征信息提取。

6.根据权利要求5所述的产品特征信息的提取方法，其特征在于，在所述得到若干个文字组之后，还包括：

若所述若干个文字组中相邻两个文字组的词性均为名词，且所述相邻两个文字组共同出现的概率大于预设阈值，则将所述相邻两个文字组进行合并；

所述将所述各个文字组作为候选特征信息提取，包括：

将所述合并后的文字组作为候选特征信息提取。

7.根据权利要求5所述的产品特征信息的提取方法，其特征在于，在所述得到若干个文字组之后，还包括：

分析所述若干个文字组包含的句法结构；

所述将所述各个文字组作为候选特征信息提取，包括：

根据所述句法结构对所述若干个文字组进行筛选；

将所述筛选后的文字组作为候选特征信息提取。

8.根据权利要求7所述的产品特征信息的提取方法，其特征在于，所述根据所述句法结构对所述若干个文字组进行筛选，包括：

将符合预设句法结构规则的文字组保留；其中，所述预设句法结构规则包括：主谓结构且词性为名词，主谓结构且词性为动词，以及动宾结构且词性为名词。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的产品特征信息的提取方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的产品特征信息的提取方法。