CN105468780A

CN105468780A - 一种微博文本中产品名实体的规范化方法及装置

Info

Publication number: CN105468780A
Application number: CN201510958361.1A
Authority: CN
Inventors: 黄河燕; 杨献祥
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-04-06
Anticipated expiration: 2035-12-18
Also published as: CN105468780B

Abstract

本发明涉及一种微博文本中产品名实体的规范化方法及其装置，属于互联网数据处理与分析技术领域。本发明方法利用词向量方法进行词的表示，并采用向量的相似度度量词的语义相似度，将待规范化的实体和与其最相似的K个词进行知识库的匹配，对其所属的品牌名进行权重的计算；同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。对比现有技术，本发明有效的解决了微博文本中因文本短、上下文信息不足等造成的产品名实体歧义问题，提高了微博文本中产品名实体规范化的性能。

Description

一种微博文本中产品名实体的规范化方法及装置

技术领域

本发明涉及一种产品名实体的规范化方法及装置，特别涉及一种微博文本中的产品名实体进行自动规范化的方法及装置，属于互联网数据处理与分析技术领域。

背景技术

Web2.0时代，随着微博等社交网络平台的兴起，每个互联网用户不再仅仅是信息的浏览者，同时也成为信息的发布者，互联网已经从一个信息发布平台转变为互动交流的平台。微博作为一种短小精悍、发布便捷、易于阅读、方便分享、传播迅速的社交媒体，能使广大网民迅速捕捉到新鲜事件，其传播速度远远快于传统媒体。凭借其独有的特点，迅速吸引了大量用户，截至2013年12月，我国微博用户规模为2.81亿，每天发布的微博数量超过1亿条。伴随微博用户的增长，网民在微博讨论的话题也日趋多样化，涉及政治、经济、军事、文化、教育、娱乐、购物等社会生活的方方面面。越来越多的用户开始在微博上谈论各种各样的事情，分享娱乐新闻，推荐自己购买的商品，评论各类商品和服务的优缺点。由于微博有着大量的用户群体和极快的传播速度，目前不仅政府开始关注微博的话题传播，各类商业企业也开始关注并分析微博，希望从中掌握公司产品的市场口碑，了解广大网民对公司产品的意见和建议，时刻监测本公司产品的负面评论以及时的进行危机公关，保护公司的声誉。微博也成为各行各业的公司从公开途径获取本行业竞争情报的重要方式，各类公司都在密切关注竞争对手的产品的市场表现、新产品的发布以期及时作出合适的决策。由于微博文本在表达上省略了大量的信息，目前微博中存在大量的产品名实体没有明确说明其所属的品牌，不同品牌可能包含具有相同型号名称的产品，表达上存在歧义现象，因此为微博中的产品名实体进行规范化，确定其所属的品牌是一项重要的技术。

产品名实体规范化是要对产品名实体识别的结果进行进一步的处理，为产品名实体确定其所属的品牌，消除因用语省略造成的实体表达歧义。微博作为一种典型的用户生成文本存在文本短、表达不规范、上下文信息缺乏、噪声多、省略信息多等特点，微博中的产品名实体常常省略品牌名称，甚至系列名称，仅仅保留型号名称，也有时直接使用别名称呼一个产品。通过对人工标注的2012年2月至2013年4月的2086条新浪微博手机领域数据进行统计分析发现大约有52.3％的产品名实体包含品牌名，13.1％的产品名实体仅包含系列名和型号名，大约32.1％的产品实体仅包含型号名，还有少量的产品实体以别名的形式出现。仅通过型号名通常无法唯一地确定一个产品。因此需要为识别出的产品实体进行规范化，使其能唯一地表示一个产品。目前在传统媒体文本中通常采用基于知识库的方法进行实体规范化，但是基于知识库的方法计算实体相似度时直接采用字符串编辑距离误差较大，也有人提出基于实体关系推理的方法进行实体规范化，但是在微博中实体密度相对较低，微博文本不规范进行关系抽取也非常困难。目前还没有针对微博文本进行产品实体规范化的方法。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提出一种适用于微博文本的产品名实体规范化方法，可以准确高效的对微博中的产品名实体进行规范化。

本发明的思想是利用词向量方法进行词的表示，并采用向量的相似度度量词的语义相似度，将待规范化的实体和与其最相似的K个词进行知识库的匹配，对其所属的品牌名进行权重的计算；同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。

为了实现上述目的，本发明所采用的技术方案如下：

首先进行相关定义，具体如下：

定义1：B＝{b₁,b₂,...,b_N}表示所有品牌的集合。

定义2：S＝{s₁,s₂,...s_M}表示所有系列的集合。

定义3：P＝{p₁,p₂,...,p_K}表示所有产品的集合。

定义4：对于给定的向量和向量定义和的相似度计算公式如下：

定义5：自然语言处理中将词表中的每个词表示成一个向量，向量的每一维都是一个实数值，用来表示词的这种向量我们称为词向量。

一种微博文本中产品名实体的规范化方法，包括以下步骤：

步骤1，基于产品相关数据构建产品名实体知识库；

步骤2，采用领域相关的微博数据训练词向量模型；

步骤3，利用已构建的产品名实体知识库和训练好的词向量模型进行实体的规范化。

作为优选，步骤1所述产品名实体知识库的构建通过以下过程实现：

步骤1-1：从领域相关网站抓取产品相关数据；

步骤1-2：对抓取到的数据进行解析得到初步的产品实体列表；

步骤1-3：对初步的产品实体列表进行人工修正，明确产品实体所属品牌、系列以及型号，构建包括产品实体及其所属品牌、系列以及型号在内的产品实体列表并存储；

步骤1-4：搜集微博中的各个品牌所对应的官方微博、管理人员、发言人等用户的微博ID，构建微博用户ID和品牌之间的映射关系表并存储。

作为优选，步骤2所述词向量模型通过以下过程进行训练：

步骤2-1：从目标领域的热门论坛和行业网站抓取一定量的数据，从中挖掘热门关键词，并进行人工修正，得到一个目标领域的热门关键词列表；

步骤2-2：根据关键词列表结合目标领域知识编制领域微博过滤规则；

步骤2-3：采用过滤规则从大量的微博数据中过滤得到一定量的目标领域微博数据；

步骤2-4：采用语言模型在目标领域的微博数据上训练得到目标领域的词向量模型。

作为优选，步骤3所述进行实体的规范化通过以下过程完成：

步骤3-1：基于产品名实体知识库通过字符串匹配方式判断待规范的产品名实体M是否包含品牌信息，如果是转到步骤3-8，否则执行步骤3-2；

步骤3-2：基于产品名实体知识库通过字符串匹配方式判断M中是否包含系列信息，如果是转到步骤3-6，否则执行步骤3-3；

步骤3-3：判断M所在的微博是否有且仅有一个品牌名，如果是则转到3-7，否则执行3-4；

步骤3-4：计算M所在的微博的每个品牌的权重，形成<品牌名,权重>列表，执行步骤3-5；

步骤3-5：从<品牌名,权重>列表中选择权重值最大的品牌作为M的品牌名，执行步骤3-8；

步骤3-6：从产品名实体知识库中搜索M所包含的系列名所对应的品牌，执行步骤3-8；

步骤3-7：将M所在的微博中仅含的品牌名作为M的品牌名，执行步骤3-8；

步骤3-8：输出品牌名和M。

作为优选，步骤3-4所述<品牌名,权重>列表通过以下过程得到：

步骤3-4-1：计算M所对应的词向量与词向量模型中的所有词向量的相似度，取相似度最高的K个词作为M的扩展词；

步骤3-4-2：对于K个扩展词中的每个词k_i分别查找产品名实体知识库，如果k_i在产品名实体知识库中的型号对应的品牌唯一，则将k_i对应的品牌名b_i的权重根据公式w_i＝w_i+sim(e,k_i)增加；

步骤3-4-3：对于M所在的微博中的所有被“”的用户,通过微博用户ID与品牌映射表进行查找其对应的品牌，如果有，则其对应的品牌的权重根据公式wu_i＝wu_i+1增加；

步骤3-4-4：对于M所在的微博中存在的其他产品实体，分别查找产品名实体知识库，确定其所相关的品牌名，并将其所对应的品牌权重we_i＝we_i+1；

步骤3-4-5：根据公式weight_i＝αw_i+βwu_i+(1-α-β)we_i计算每个品牌的总权重得到<品牌名,权重>列表。

一种微博文本中产品名实体的规范化装置，基于产品名实体知识库和词向量模型，包括规范化模块、品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块；规范化模块分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连，产品名实体知识库分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连，品牌权重列表模块与词向量模型相连；

所述产品名实体知识库通过上述产品名实体知识库的构建方法构建，包括产品实体列表和映射关系表；

所述词向量模型通过上述训练词向量模型的训练方法得到；

所述规范化模块接受待规范的产品名实体M及其所在的文本T，并将M输入品牌信息查找模块获取其品牌，在得到品牌的情况下输出该品牌及M；在没有得到品牌的情况下将M输入系列信息查找模块获取其品牌，在得到品牌的情况下输出该品牌及M；在没有得到品牌的情况下将T输入文本查找模块获取唯一品牌，在得到品牌的情况下输出该品牌及M；在没有得到品牌的情况下将M和T输入品牌权重列表模块获取品牌权重列表，并从列表中提取最大权重值所对应的品牌，然后输出该品牌及M；

所述品牌信息查找模块根据输入字符串M通过字符串匹配方式查看其是否包含产品名实体知识库中的品牌信息，如包含则输出该品牌字符串；

所述系列信息查找模块根据输入字符串M通过字符串匹配方式查看其是否包含产品名实体知识库中的系列信息，如包含则输出该系列对应的品牌字符串；

所述文本查找模块根据输入文本T通过字符串匹配方式查看其是否仅包含一个产品名实体知识库中的品牌信息，如是则输出该品牌字符串；

所述品牌权重列表模块根据输入字符串M及其所在的文本T采用上述获取<品牌名,权重>列表的方法获取<品牌名,权重>列表并输出。

有益效果

本发明专门针对微博文本短、上下文信息缺乏等特点，充分利用了全局上下文信息和用户交互关系进行实体的规范化，解决了微博文本中因文本短、上下文信息不足等造成的产品名实体歧义问题，显著提高了产品名实体规范化的效果，该方法也适用于人人网、Facebook、QQ空间等媒体平台上的短文本的处理。

附图说明

图1为本发明实施例步骤3的处理流程图。

具体实施方式

为了使本发明的目的、技术方案、效果等更加清晰明了，以下内容将通过具体实施例对本发明进行详细的说明。此处的具体实施例仅用于解释本发明，并不用于限定本发明。

以下内容以中文微博中的手机领域产品名实体的规范化为例进行说明。

根据本发明方案，针对微博文本中的手机领域产品名实体进行规范化的具体实施方案如下：

步骤1:构建产品名实体知识库；

由于本发明的目的是对产品名实体进行规范，得到产品名实体对应的品牌，因此需要先通过以下步骤构建产品名实体知识库：

步骤1-1：从领域相关网站抓取产品相关数据；

本实施例从中关村在线网站上抓取手机领域的产品信息。

对步骤1-1获得的产品信息通过编写正则表达式解析获得初步的产品实体列表。

步骤1-3：对初步的产品实体列表进行人工修正，明确产品实体所属品牌、系列以及型号，存放在数据库中，存储形式示例如表1所示。

表1：产品实体列表

产品实体	品牌名	系列名	型号名
				诺基亚Lumia 920	诺基亚	Lumia	920

步骤1-4：搜集微博中的各个品牌所对应的官方微博、管理人员、发言人等用户的微博ID，构建微博用户ID和品牌之间的映射关系表，即微博用户ID与品牌映射表。

本实施例从微博中人工整理得到一个手机领域的热门微博用户ID和品牌的对应关系表，存放在数据库中。

通过以上步骤我们就得到了产品名实体知识库，其中包括产品实体列表和微博用户ID与品牌映射表两个列表。

步骤2：采用领域相关的微博数据训练词向量模型；

后续步骤3中将采用本步骤中训练得到的词向量模型进行词的语义相似度计算，本实施例通过以下步骤得到词向量模型：

基于上述过程，本实施例从新浪微博中抓取了7千万条微博文本，通过判断微博中是否含有步骤1所得到的产品名实体知识库中的品牌名、系列名、型号名等规则，抽取得到了90万条手机领域相关的新浪微博数据，时间范围为2013年1月至2013年6月；采用ICTCLAS2014进行了分词，并采用word2vec进行词向量的训练，得到了一个包含27万词的词向量模型，每个词表示为100维的向量。

为使词向量模型始终能够反映当前所有产品实体，需定期收集最新微博数据，与之前的微博数据合并后重新进行词向量的训练。

步骤3：利用已构建的知识库和训练好的词向量模型进行产品名实体的规范化。

本发明的最终目的，是要对从微博文本中识别出来的不规范的实体名进行规范化，即确定其品牌，为了提高准确率，本实施例充分利用了微博文本上下文信息和用户交互关系，具体通过以下过程实现：

步骤3-1：基于产品名实体知识库通过字符串匹配方式判断已识别出的产品名实体是否包含品牌信息，如果是转到步骤3-8，否则执行步骤3-2；

步骤3-2：基于产品名实体知识库通过字符串匹配方式判断当前产品名实体是否包含系列信息，如果是转到步骤3-6，否则执行步骤3-3；

步骤3-3：判断当前产品名实体所在微博是否有且仅有一个品牌名，如果是则转到3-7，否则执行3-4；

步骤3-4：计算当前产品名实体所在微博的每个品牌的权重，形成<品牌名,权重>列表，执行步骤3-5；

所述<品牌名,权重>列表通过以下过程得到：

步骤3-4-1：计算当前产品名实体e所对应的词向量与步骤2-4中得到的词向量模型中的所有词的向量相似度，取相似度最高的K个词作为实体e的扩展词；

步骤3-4-2：对于K个扩展词中的每个词k_i分别查找产品名实体知识库，如果k_i在知识库的产品实体列表的型号名列中出现且仅出现一次，即在目标领域中仅有一个型号名为k_i的产品，此时k_i在知识库中有唯一的品牌名b_i，实体e的品牌名为b_i的可能性w_i增加，此处以e与k_i的相似度sim(e,k_i)来度量，即w_i＝w_i+sim(e,k_i)；

步骤3-4-3：对于当前微博中的所有被“”的用户,通过微博用户ID与品牌映射表查找其对应的品牌，如果有，则其对应的品牌的权重wu_i＝wu_i+1；

步骤3-4-4：对于当前微博中存在的其他产品实体，分别查找产品名实体知识库，确定其所相关的品牌名，并通过公式we_i＝we_i+1增加其所对应的品牌权重；

步骤3-4-5：计算每个品牌的总权重weight_i＝αw_i+βwu_i+(1-α-β)we_i，得到<品牌名,权重>列表；

步骤3-5：从<品牌名,权重>列表中选择权重值最大的品牌作为当前实体的品牌名，执行步骤3-8；

步骤3-6：从产品名实体知识库中搜索当前产品名实体所包含的系列名所对应的品牌，执行步骤3-8；

步骤3-7：将当前微博中仅含的品牌名作为当前实体的品牌名，执行步骤3-8；

步骤3-8：输出品牌名和当前实体，结束。

以上步骤说明了如何根据给定产品名实体识别出其品牌的过程，本领域技术人员可以了解，当给定了一个微博文本以及相应的产品名、品牌、系列的标记情况下，不难从中采用字符串匹配方式依次找到产品名并采用上述过程得到其品牌，并用带品牌标记的产品名替换原文中的产品名，因此，此处不再赘述。

例如，输入一条已经识别出产品名实体的微博“昨天去爬山只顾着用<pro>note2<pro>拍照了，还没到家就木有电了，<bra>三星</bra>电池是硬伤的啊，还不如<bra>华为</bra>，什么时候出超长待机的啊三星手机”，其中“note2”是待规范化的产品名实体，“三星”和“华为”表示品牌。对于这样一个样例，根据图1所示的处理流程“note2”中不包含品牌信息，也不包含系列信息，其所在的微博中包含两个品牌名，因此需要计算其属于各个品牌的权重。首先基于步骤2得到的词向量模型对“note2”采用词向量进行扩展，计算其与词向量模型中27万词的相似度，并取相似度最大的前50个词，结果如下表所示：

将扩展得到的50个扩展词分别查询知识库，并按照步骤3-4-2中的公式计算得到各品牌的权重w_i如下表所示：

根据步骤3-4-3中的公式计算得到wu_i如下表所示：

三星：1

根据步骤3-4-4中的公式计算得到we_i如下表所示：

根据步骤3-4-5中的公式计算总权重weight_i，取α＝0.5,β＝0.3结果如下表所示：

根据步骤3-4-6，从上表中选择权重最大的品牌作为“note2”的品牌，因此“note2”所属品牌为“三星”。

根据上述一种微博文本中产品名实体的规范化方法实现了一个微博文本中产品名实体的规范化装置，该装置基于产品名实体知识库和词向量模型，包括规范化模块、品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块；规范化模块分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连，产品名实体知识库分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连，品牌权重列表模块与词向量模型相连；

所述词向量模型通过上述训练词向量模型的训练方法得到；

为了验证本发明的有效性，发明人通过人工标注了2000条新浪微博数据进行了规范化实验，其中包含待规范化实体3418个，实验采用准确率、召回率、F值作为评价指标，实验的准确率、召回率、F1值分别达到了91.67％、85.28％、88.36％。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种微博文本中产品名实体的规范化方法，其特征在于：包括以下步骤：

步骤1，基于产品相关数据构建产品名实体知识库；

步骤2，采用领域相关的微博数据训练词向量模型；

2.根据权利要求1所述的一种微博文本中产品名实体的规范化方法，其特征在于：步骤1所述产品名实体知识库通过以下步骤构建：

步骤1-1：从领域相关网站抓取产品相关数据；

3.根据权利要求1所述的一种微博文本中产品名实体的规范化方法，其特征在于：步骤2所述词向量模型通过以下步骤训练：

4.根据权利要求3所述的一种微博文本中产品名实体的规范化方法，其特征在于：为使词向量模型始终能够反映产品实体的最新变化，需定期收集最新微博数据，与之前的微博数据合并后重新进行词向量的训练。

5.根据权利要求1所述的一种微博文本中产品名实体的规范化方法，其特征在于：步骤3所述进行产品名实体的规范化通过以下步骤实现：

步骤3-8：输出品牌名和M。

6.根据权利要求5所述的一种微博文本中产品名实体的规范化方法，其特征在于：步骤3-4所述<品牌名,权重>列表通过以下过程得到：

7.一种微博文本中产品名实体的规范化装置，其特征在于：包括规范化模块、品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块；规范化模块分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连，产品名实体知识库分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连，品牌权重列表模块与词向量模型相连；

所述产品名实体知识库通过权利要求2所述构建产品名实体知识库的过程构建，包括产品实体列表和映射关系表；

所述词向量模型通过通过权利要求3所述训练词向量模型的过程进行训练得到；

所述品牌权重列表模块根据输入字符串M及其所在的文本T采用权利要求6所述获取<品牌名,权重>列表的过程获取<品牌名,权重>列表并输出。