CN108920448B

CN108920448B - 一种基于长短期记忆网络的比较关系抽取的方法

Info

Publication number: CN108920448B
Application number: CN201810472088.5A
Authority: CN
Inventors: 张雷; 夏丽; 潘元元; 李博; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2021-09-14
Anticipated expiration: 2038-05-17
Also published as: CN108920448A

Abstract

一种基于长短期记忆网络的比较句关系抽取的方法，包括语料库构建阶段、比较句句型极性分析构建阶段、特征‑情感本体库构建阶段和比较要素抽取阶段、比较关系获取阶段，其中，语料库构建阶段，爬取互联网电商平台的评论数据，并对数据进行预处理，最终形成语料库；比较句句型极性分析构建阶段，总结语料库中的比较句句型，并对各句型的极性关系展开；特征‑情感本体库构建阶段，总结语料库中的特征词、情感词，并映射到本体库；比较要素抽取阶段，利用词向量构建句子的向量矩阵表示作为网络的输入，比较关系获取阶段，综合比较句句型、特征‑情感本体库以及比较要素，最终获得比较关系。

Description

一种基于长短期记忆网络的比较关系抽取的方法

技术领域

本发明涉及自然语言处理与深度学习技术，具体涉及一种基于长短期记忆网络的比较关系抽取的方法。

背景技术

随着互联网的普及和深入发展，淘宝、京东等电商网站逐渐进入了人们的日常生活。网络使人们更乐于在这些平台上发表和交流意见，同类产品的论坛、微博等社交平台上涌现了大量的产品评论。这些评论中蕴含着许多有价值的信息，然而面对这些海量的评论信息，人力无法快速地获取所需信息，迫切需要自动化的方法来帮助人们应对信息过载带来的挑战。

面向电商平台的比较句关系抽取研究正是在这种背景下产生。比较句关系抽取的主要任务是识别出“比较主体，比较客体，比较属性，比较结果”四个要素，形成有价值且直观的信息传达给企业和消费者。这样既可以帮助生产商家认识到自己产品以及竞争产品的的优劣，用户的需求等信息，从而制定更好的生产策略用于改进下一代产品，提升自身竞争力；又可以让普通消费者能够迅速了解到其他用户的产品使用体验，以便做出合理的购买决定。

目前，主流的比较关系抽取的方法大多是基于条件随机场算法，通常需要大量人工选取合适的特征进行抽取。该方法的缺点在于，一是需要人工总结大量的特征工程，耗时耗力；二是只用到了句子的浅层语义特征，无法利用深层语义特征；三是结果杂乱无章，比较分散，无法形成直观结果。

发明内容

本发明目的是，提出一种基于长短期记忆网络的比较关系抽取的方法，克服现有基于条件随机场算法的不足，借助于词向量和长短期记忆网络，可以学习到句子的分布式向量表示，该向量包含了文本的深层语义特征，可作为比较要素抽取模型的输入。

为解决上述问题，本发明提供的技术方案是，一种基于长短期记忆网络的比较句关系抽取的方法，首先构建语料库，接着构建比较句句型极性分析和特征-情感本体库，然后基于长短期记忆网络来构建句子的分布式表示进行比较要素抽取，最后获取比较关系。

具体步骤如下：一种基于长短期记忆网络的比较句关系抽取的方法，包括语料库构建阶段，爬取互联网电商平台的评论数据，并对数据进行预处理，最终形成语料库；比较句句型极性分析构建阶段，总结语料库中的比较句句型，并对各句型的极性关系展开；特征-情感本体库构建阶段，总结语料库中的特征词、情感词，并映射到本体库；比较要素抽取阶段，利用词向量构建句子的向量矩阵表示作为网络的输入，搭建长短期记忆网络并在loss层加入CRF层得到比较要素抽取模型，对比较句中的比较主体、比较客体、比较属性进行抽取；比较关系获取阶段，综合比较句句型、特征-情感本体库以及比较要素，最终获得比较关系。

进一步的，所述的爬取互联网电商平台的评论数据，并对数据进行预处理，最终形成语料库包括如下步骤：

S11、利用爬虫技术爬取京东网站上手机版块下的评论数据，涉及品牌有3种以上；

S12、对数据进行预处理，包括如下过程：去除非观点句、按标点符号对句子分句、筛选出比较句、对比较句比较关系进行标注。

所述的比较句句型极性分析构建阶段，总结语料库中的比较句句型，并对各

句型的极性关系展开包括如下步骤：

S21、将语料库中的比较句进行句式分类：等比、差比、极比，总结各类的比较搭配；

S22、将S21中的比较搭配利用哈工大同义词词林进行拓展

S23、将S22中得到的比较搭配模式库按照句式分类进行极性展开

所述的特征-情感本体库构建阶段包括如下步骤：

S31、对于每个比较句，利用LTP平台进行句法依存关系，得到XML视图X；

S32、对于句子中的每个词语，寻找是否存在父节点与其为SBV关系的词语，若存在则提取父节点对应的词语存入情感词列表，同时提取当前词语存入特征词列表；

S33、对S32中特征词列表中的词语，借助哈工大同义词词林进行拓展，形成最终的特征词列表featlist；

S34、结合S32中情感词列表和知网情感分析用词语集中的评价类词语集，将情感词分成“一般情感词”及“特殊情感词”，形成情感词列表sentilist。其中一般情感词是指评价词本身表达的极性就是描述特征的极性；特殊情感词是指评价词在评价不同的特征属性时会表达出不同的极性；

S35、结合中关村网站及京东商城对手机的参数描述进行分析，构建手机领域的本体库，形成特征-情感本体库；

S36、将S33和S34中的特征及情感词对应归类到S35总结的手机本体库，形成特征-情感本体库。

所述的比较要素抽取阶段，利用词向量构建句子的向量矩阵表示作为网络的输入包括如下步骤：

S41、利用word2vec训练语料文件得到每个词的词向量x_i；

S42、则一个长度为n的句子可以表示为：

表示连接操作符，从而构成由词向量构成的句子向量矩阵n*k，k为词向量的维度。

所述的搭建长短期记忆网络并在loss层加入CRF层得到比较要素抽取模型，

对比较句中的比较主体、比较客体、比较属性进行抽取包括如下步骤：

S51、将得到的句子向量矩阵作为输入送入长短期记忆网络中；

S52、根据传统RNN的公式计算当前时刻的候选记忆单元值

其中，W_xc、W_hc分别是LSTM单元当前时刻输入数据x_t和上一时刻LSTM单元输出数据h_t-1的权值参数，b_c为偏置参数，h为激活函数；RNN为循环神经网络；

S53、计算输入门的值i_t，

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

其中，W_xi为LSTM单元当前时刻输入数据x_t的权值参数，W_hi为上一时刻LSTM单元输出数据h_t-1的权值参数，W_ci为上一时刻候选记忆单元值c_t-1的权值参数，b_i为偏置参数，σ为激活函数

S54、计算遗忘门的值f_t，

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

其中，W_xf为LSTM单元当前时刻输入数据x_t的权值参数，W_hf为上一时刻LSTM单元输出数据h_t-1的权值参数，W_cf为上一时刻候选记忆单元值c_t-1的权值参数，b_f为偏置参数，σ为激活函数，

S55、计算当前时刻记忆单元值c_t，

其中，⊙表示逐点乘积；

S56、计算输出门o_t，

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

其中，W_xo为LSTM单元当前时刻输入数据x_t的权值参数，W_ho为上一时刻LSTM单元输出数据h_t-1的权值参数，W_co为上一时刻候选记忆单元值c_t-1的权值参数，b_o为偏置参数，σ为激活函数，

S57、LSTM单元的输出为

h_t＝o_t⊙CRF(c_t)。

所述的比较关系获取阶段，综合比较句句型、特征-情感本体库以及比较要

素，最终获得比较关系包括如下步骤：

S61、对于语料库中的每个比较句，匹配S21-S23中的句型的极性关系；

S62、如果是等比句，则根据等比句的极性关系结合S41-42和S51-S57的比较要素确定比较关系；

S63、如果是差比句，则根据差比句的极性关系结合S41-42和S51-S57的比较要素、S31-S36的特征-情感本体库确定比较关系；

S64、如果是极比句，则根据极比句的极性关系结合S41-42和S51-S57的比较要素、S31-S36中的特征-情感本体库确定比较关系。

涉及品牌有3种以上，例如分别是小米、华为、荣耀、iPhone；

有益效果：借助于词向量和长短期记忆网络，学习到句子的分布式向量表示，该向量包含了文本的深层语义特征，可作为比较要素抽取模型的输入。克服现有技术的缺点，无需要人工总结大量的特征工程，能利用深层语义特征并形成直观结果。通过本发明方法不仅避免了人工总结特征的不足，还利用了句子的深层语义特征，更高效地对语料进行比较关系抽取。

附图说明

图1为基于长短期记忆网络的比较句关系抽取的方法的流程图；

图2为语料库构建流程图；

图3为比较句句型极性分析构建流程图；

图4为特征-情感本体库构建流程图；

图5为基于长短期记忆网络的比较要素抽取模型；

图6为比较关系获取的流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

图1为实施例中基于长短期记忆网络的比较句关系抽取的方法的流程图，如图所示，该方法主要包括五个阶段，分别是：语料库构建阶段；比较句句型极性分析构建阶段；特征-情感本体库构建阶段；基于长短期记忆网络构建比较要素抽取阶段；比较关系获取阶段。

结合图2所示，实施例中构建语料库的实施步骤如下：

步骤0为构建语料库的起始状态；

步骤1利用爬虫技术爬取京东网站上手机版块下的评论数据，涉及品牌有4种，分别是小米、华为、荣耀、iPhone。实施例中选取京东网站主要考虑该网站数据较易爬取，当然也可以选取其它电商网站。数据除选取手机版块外，当然也可以选取其它商品的数据；

步骤2将爬取数据进行筛选，去掉非观点句。非观点句是指未表达作者观点的句子；

步骤3按标点符号分句，选取的标点符号有4种：。！？，；

步骤4对步骤3中分好的句子进行筛选，得到比较句；

步骤5对步骤4中的比较句进行比较关系标注。比较关系是指比较主体、比较客体、比较属性、比较结果。比较主体和比较客体都属于比较的对象，比较属性是指比较双方的某些特征，比较结果是指比较主体和比较客体在比较属性上的比较观点倾向。如“华为Mate10的价格比小米6高”，比较主体为“华为Mate10”，比较属性为“价格”，对应观点倾向为负向情感；比较主体为“小米6”，比较属性为“价格”，对应观点倾向为正向情感；

步骤6是构建语料库的结束状态。

结合图3所示，比较句句型极性分析构建的实施步骤如下：

步骤0为构建比较句句型极性分析模型的起始状态；

步骤1为将语料库中的比较句进行句式分类：等比、差比、极比，总结各类的比较搭配。其中等比是指两个或者多个事物在某个属性上相同或者相似，评价者并没有表示出明显的偏好信息；差比是指两个或多个事物在某个属性上有差异，可以明显地看出不同事物的优劣；极比是指多个比较对象之间的极值，说明某个事物最好或者最差。比较搭配是指三种句式对应的搭配模板，例如搭配“像...一样”对应等比句式；

步骤2将步骤1中的比较搭配利用哈工大同义词词林进行拓展；

步骤3将步骤2中得到的比较搭配库按照句式分类进行极性展开。例如等比搭配“像...一样”对应极性“比较主体与比较客体极性相同，均为0”(此处用“0”表示中性情感倾向)

步骤4为构建比较句句型极性分析模型的结束状态；

结合图4所示，特征-情感本体库构建的实施步骤如下：

步骤0为特征-情感本体库构建的起始状态；

步骤1为对于每个比较句，利用LTP平台进行句法依存关系，得到XML视图X；

步骤2为对于XML视图中句子的每个词语，寻找是否存在父节点与其为SBV关系的词语，若存在则提取父节点对应的词语存入情感词列表，同时提取当前词语存入特征词列表。其中SBV关系是句法依存关系的一种，表示“主谓关系”。如“我送她一束花”中“我”和“送”属于SBV关系；

步骤3对步骤2中特征词列表中的词语，借助哈工大同义词词林进行拓展，形成最终的特征词列表；

步骤4结合步骤2中情感词列表和知网情感分析用词语集中的评价类词语集，将情感词分成“一般情感词”及“特殊情感词”，形成情感词列表。其中一般情感词是指评价词本身表达的极性就是描述特征的极性；特殊情感词是指评价词在评价不同的特征属性时会表达出不同的极性。例如“性价比高”中的“高”表示正向情感，“价格高”中的“高”表示负向情感；

步骤5结合中关村网站及京东商城对手机的参数描述进行分析，构建手机领域的本体库。其中本体是指一种模型，描述由一套对象类型、属性以及关系类型所构成的整体；

步骤6将步骤3和步骤4中的特征及情感词对应归类到步骤5总结的手机本体库，形成特征-情感本体库；

步骤7为特征-情感本体库构建的结束状态。

结合图5所示，构建基于长短期记忆网络的比较要素抽取模型主要包括训练出句子向量矩阵、参数更新操作以及softmax全连接输出类别概率、CRF预测最终类别，这也对应整个长短期记忆网络的结构，主要分为四层：输出层、隐藏层、输出层、CRF层，输入层由句子向量矩阵构成，隐藏层单元由输入门、遗忘门、输出门进行参数更新，输出层是输出类别的概率分布，CRF层是计算全局概率输出最终类别。

具体实施步骤如下：

步骤1为起始步骤；

步骤2是利用python中gensim的word2vec训练语料库文件，采用Skip-gram模型得到输入句子中每个词的词向量x_i，其中word2vec是一个词向量训练的工具，它具有准确高效的特点；

步骤3是一个长度为n的句子可以表示为：

表示连接操作符，从而构成由词向量构成的句子向量矩阵n*k，k为词向量的维度；

步骤4将步骤3得到的句子向量矩阵作为输入送入长短期记忆网络中；

步骤5根据传统RNN的公式计算当前时刻的候选记忆单元值

步骤6计算输入门的值i_t，

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

其中，W_xi为LSTM单元当前时刻输入数据x_t的权值参数，W_hi为上一时刻LSTM单元输出数据h_t-1的权值参数，W_ci为上一时刻候选记忆单元值c_t-1的权值参数，b_i为偏置参数，σ为激活函数；

步骤7计算遗忘门的值f_t，

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

其中，W_xf为LSTM单元当前时刻输入数据x_t的权值参数，W_hf为上一时刻LSTM单元输出数据h_t-1的权值参数，W_cf为上一时刻候选记忆单元值c_t-1的权值参数，b_i为偏置参数，σ为激活函数；

步骤8计算当前时刻记忆单元值c_t，

其中，⊙表示逐点乘积；

步骤9计算输出门o_t，

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

其中，其中，W_xo为LSTM单元当前时刻输入数据x_t的权值参数，W_ho为上一时刻LSTM单元输出数据h_t-1的权值参数，W_co为上一时刻候选记忆单元值c_t-1的权值参数，b_o为偏置参数，σ为激活函数；

步骤10LSTM单元的输出为

h_t＝o_t⊙CRF(c_t)；

步骤11为构建基于长短期记忆网络的比较要素抽取模型的结束状态。

结合图6所示，比较关系获取的实施步骤如下：

步骤0为特征-情感本体库构建的起始状态；

步骤1为对于语料库中的每个比较句，匹配图3中的句型的极性关系；

步骤2如果是等比句，则根据等比句的极性关系结合图4以及图5确定比较关系；

步骤3如果是差比句，则根据差比句的极性关系结合图4以及图5确定比较关系；

步骤4如果是极比句，则根据极比句的极性关系结合图4以及图5确定比较关系；

步骤5为比较关系获取的结束状态；

综上所述，本发明就是通过一种基于长短期记忆网络的比较句关系抽取的方法，首先构建语料库，接着构建比较句句型极性分析和特征-情感本体库，然后基于长短期记忆网络来构建句子的分布式表示进行比较要素抽取，最后获取比较关系。这样做不但避免过多依赖人工总结特征，还能利用到句子的深层语义特征，并且最终呈现结果直观易懂，具有良好的实用性。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于长短期记忆网络的比较句关系抽取的方法，其特征在于，包括语料库构建阶段、比较句句型极性分析构建阶段、特征-情感本体库构建阶段和比较要素抽取阶段、比较关系获取阶段，其中，

语料库构建阶段，爬取互联网电商平台的评论数据，并对数据进行预处理，最终形成语料库；

比较句句型极性分析构建阶段，总结语料库中的比较句句型，并对各句型的极性关系展开；

特征-情感本体库构建阶段，总结语料库中的特征词、情感词，并映射到本体库；

比较要素抽取阶段，利用词向量构建句子的向量矩阵表示作为网络的输入，搭建长短期记忆网络并在loss层加入CRF层得到比较要素抽取模型，对比较句中的比较主体、比较客体、比较属性进行抽取；

比较关系获取阶段，综合比较句句型、特征-情感本体库以及比较要素，最终获得比较关系；

所述的爬取互联网电商平台的评论数据，并对数据进行预处理，最终形成语料库包括如下步骤：

S12、对数据进行预处理，包括如下过程：去除非观点句、按标点符号对句子分句、筛选出比较句、对比较句比较关系进行标注；

所述的比较句句型极性分析构建阶段，总结语料库中的比较句句型，并对各句型的极性关系展开包括如下步骤：

S22、将S21中的比较搭配利用哈工大同义词词林进行拓展；

S23、将S22中得到的比较搭配模式库按照句式分类进行极性展开；

所述的特征-情感本体库构建阶段包括如下步骤：

S32、对于句子中的每个词语，寻找是否存在父节点与其为SBV关系的词语，若存在则提取父节点对应的词语存入情感词列表，同时提取当前词语存入特征词列表；其中SBV关系是句法依存关系的一种，表示“主谓关系”；

S34、结合S32中情感词列表和知网情感分析用词语集中的评价类词语集，将情感词分成“一般情感词”及“特殊情感词”，形成情感词列表sentilist；其中一般情感词是指评价词本身表达的极性就是描述特征的极性；特殊情感词是指评价词在评价不同的特征属性时会表达出不同的极性；

S36、将S33和S34中的特征及情感词对应归类到S35总结的手机本体库，形成特征-情感本体库；

S41、利用word2vec训练语料文件得到每个词的词向量x_i；

S42、一个长度为n的句子表示为：

S52、根据传统RNN的公式计算当前时刻的候选记忆单元值

其中，W_xc、W_hc分别是LSTM单元当前时刻输入数据x_t和上一时刻LSTM单元输出数据h_t-1的权值参数，b_c为偏置参数，tanh为激活函数；RNN为循环神经网络；

S53、计算输入门的值i_t，

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

S54、计算遗忘门的值f_t，

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

S55、计算当前时刻记忆单元值c_t，

其中，⊙表示逐点乘积；

S56、计算输出门o_t，

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

S57、LSTM单元的输出为：

h_t＝o_t⊙CRF(c_t)。

2.根据权利要求1所述的基于长短期记忆网络的比较句关系抽取的方法，其特征在于，所述的比较关系获取阶段，综合比较句句型、特征-情感本体库以及比较要素，最终获得比较关系包括如下步骤：