CN111259136B

CN111259136B - 一种基于用户偏好自动生成主题评价摘要的方法

Info

Publication number: CN111259136B
Application number: CN202010022473.7A
Authority: CN
Inventors: 何为; 刘楠; 马文鹏; 李银
Original assignee: Xinyang Normal University
Current assignee: Xinyang Normal University
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2024-03-22
Anticipated expiration: 2040-01-09
Also published as: CN111259136A

Abstract

本发明公开一种基于用户偏好自动生成主题评价摘要的方法，通过采集顾客以往的评价信息，对顾客提供所感兴趣领域的评价样本文档进行分析，利用样本文档中词对的共现关系所隐含的语义联系，通过计算词对共现率建立共现词对的特征数据库；并利用该特征数据库，通过对目标文本进行特征词链的聚类和相似度的计算，提供顾客感兴趣的查询式自动摘要。该方法应用并不限于餐饮评价领域，也可用于网上购物消费、旅游等其他活动的推荐和公共及专业领域的信息检索。

Description

一种基于用户偏好自动生成主题评价摘要的方法

技术领域

本发明涉及计算机研究领域中自然语言处理方向的自动摘要处理技术，具体地指一种基于用户偏好自动生成主题评价摘要的方法。

背景技术

随着互联网和信息技术的不断发展，自动摘要方面的研究进入了前所未有的繁荣期。按其面向的用户不同，自动摘要可以划分为通用自动摘要(Generic Summarization)和查询式自动摘要(Query-biased Summarization)两类。查询式自动摘要(是根据需要或者用户的兴趣提供相应的有侧重点的文摘，也称为用户聚焦文摘(User-focusedSummarization)、主题聚焦文摘(Topic-focused Summarization)或查询聚焦文摘(Query-focused Summarization)。相对于着重对全文主体内容整体概括的通用摘要，查询式自动摘要更多的反映了用户的个性化需求。一篇文档的通用摘要应由固定的静态的单句构成，而查询式自动摘要则是动态生成的，它并非平均抽取全文各部分，而是根据用户的兴趣有侧重的返回用户感兴趣的文摘，因此也被称为动态摘要。查询式自动摘要多用于问答***、搜索引擎、网络爬虫、数据挖掘等信息领域。

国外最早从20世纪80年代开始研究查询式自动摘要，查询式自动摘要是自动摘要的重要组成部分，由于查询式自动摘要和通用自动摘要在结果规模上的相似限制，多采用抽取相似语义句子的方法来构成相关主题的摘要。文章Dempster-shafer theory for aquery-biased combination ofevidence on the web(作者为V.Plachouras和I.Ounis,发表于2005年Information Retrieval，第8卷第2期)研究了运用自动摘要技术来提高网页中查询精度的方法。文章Atask-oriented study on the influencing effects of query-biased summarisation in web searching(作者为R.White,J.Jose和I.Ruthven，发表于2003年Information Processing&Management，第39卷第5期)提出可根据查询词在网页各句出现频率和文本样式生成查询式自动摘要；文章关键词密度分布法在偏重摘要中的应用研究(作者为闫英杰，林鸿飞，杨志豪，赵晶，发表于2007年计算机工程，第33卷第6期)采用关键词密度算法来生成查询式自动摘要等。

查询式自动摘要的关键步骤在于如何获取所查询的偏重主题，获取偏重的通常策略是对用户的查询进行概念语义方面的扩展。一些学者利用用户查询关键词在文章中的词频、位置来获取偏重，但这种方法只能机械的获取结果，无法满足语义上的要求。单纯依靠简单的查询词，难于准确界定用户查询的真正兴趣所在。比较理想的方式是采用通用的语义资源对用户的查询词进行扩展，就目前而言，还没有一个可适用的通用语义资源，一些学者利用现有的语义库来获取偏重，如英文的WordNet，中文的知网HowNet、同义词词林等当做语义资源库。如文章A Sentence Selection Method of Query-Based Chinese Multi-Document Summarization(作者为X.Song,J.Huang,J.Zhou和H.Zhang，发表于2009出版的论文集：proceedings ofPACIIA2009)利用知网来计算特征词之间的相似度，并用于指导查询式自动摘要的摘要句选择。这样易受到语义库规模和更新速度的限制，难以应对互联网海量新增词汇的挑战。

随着移动互联网的广泛应用，选择就餐场所时先在网络上查看别人对餐厅的评价信息，并在餐后发表自己对此次就餐的评价，已成为年轻人一种流行的生活方式。现有的餐饮评价网站如大众点评网、美团网等已采集了大量的就餐人员评价信息，这些评价信息，已成为他人选择就餐场所的评价依据。但他人在选择餐厅时，需要对众多点评信息逐一查看阅读，才能了解是否满足自己需求。有些网站要求用户提交评价时进行打分，将汇总的分值作为推荐指标，但由于广大用户个性需求、消费习惯、口味皆不相同。这一单纯的打分数值无法为用户选择适合自己的餐厅提供依据。

发明内容

本发明的目的在于克服上述现有技术的不足而提供一种基于用户偏好自动生成主题评价摘要的方法，用于用户依据评价选择餐厅、酒店、旅游等的实际应用场景。

实现本发明目的采用的技术方案是：

一种基于用户偏好自动生成主题评价摘要的方法，包括如下步骤：

步骤101，采集用户以往基于特定场景在网上发表的评价文本作为样本文档；

步骤102，对样本文档进行预处理；

步骤103，从预处理后的样本文档中计算词对共现率；

步骤104，将所述词对共现率存入特征数据库；

步骤105，当缺少用户以往的评价文本时，或用户有其他偏好需求时，由用户手工输入多个特征关键词，将关键词作为两两关联的共现词对，存入特征数据库；

步骤106，采集符合用户挑选范围内上述特定场景内所对应的其他用户的评价文本，分别汇总生成目标文档；

步骤107，对所述目标文档进行预处理；

步骤108，提取所述目标文档的特征词集，从所述特征数据库中查找所述特征词集中各词汇的距离，生成特征词链；

步骤109，从所述目标文档中划分出单句；

步骤110，计算所述目标文档中各单句所含特征词与所述特征词链的相似度，根据单句和各特征词链的相似度关系，依次选取各特征词链相似度最高的单句生成摘要。

优选的，所述步骤103，1篇样本文档d中的词对共现率的具体计算方法是：

所述样本文档d中任意两个词汇w_i和w_j的词对共现率P_d(w_i,w_j)通过下式计算：

式中，T为所述样本文档d中的窗口单元集合；W为所述样本文档d中的词汇集合W＝{w₁,w₂,…,w_n}，w_i和w_j为词汇集合W中的任意两个词汇，i、j、n均为正整数；S_d(w_i)表示所述样本文档d中包含w_i的窗口单元数；S_d(w_j)表示所述样本文档d中包含w_j的窗口单元数；S_d(w_i,w_j)表示所述样本文档d中同时包含w_i和w_j的窗口单元数；N_t(w_i,w_j)表示在某窗口单元t中w_i和w_j共现的次数，t∈T，其中当w_i和w_j在同一段落中出现的次数不同时，取以w_i和w_j的最小出现的次数为共现次数。

优选的，所述步骤103中，k篇样本文档{d₁,d₂,…,d_k}中的词对总共现率的具体计算方法是：

式中，k为大于1的正整数；P^k-1(w_i,w_j)为前k-1篇样本文档{d₁,d₂,…,d_k-1}中的词汇w_i和w_j的词对总共现率；S^k-1(w_i,w_j)为前k-1篇样本文档{d₁,d₂,…,d_k-1}中词对w_i和w_j共现的总窗口单元数，为第k篇样本文档d_k中的词汇w_i和w_j的词对共现率；/>表示第k篇样本文档d_k中同时包含w_i和w_j的窗口单元数；D为样本文档空间{d₁,d₂,…,d_k}。

优选的，所述特征数据库由特征词和共现词对组成。

优选的，所述从所述特征数据库中查找所述特征词集中各词汇的距离，生成特征词链，包括：对于待生成摘要的目标文档d，从所述特征数据库和目标文档d中查找所述特征词集中各词汇的距离，生成特征词链，具体为：

特征数据库中存储的是特征词集V＝{v₁,v₂,…,v_m}和共现词对集E＝{e(v_i,v_j)}，E中任意共现词对e(v_i,v_j)均为Word Co-occurrence结构，包含两个词汇的编号、共现率以及共现次数；

目标文档d中包含特征词集W＝{w₁,w₂,…,w_n}；对于W中的任意词对(w_i,w_j)，若w_i∈V、w_j∈V，且该词对包含在E中即有e(w_i,w_j)，则这两词汇的关联度l_ij为e(w_i,w_j)中的对应共现率；若w_i或w_j不包含在V中或者该词对不包含在E中，两词汇的关联度为：l_ij＝P_d(w_i,w_j)；如此，生成目标文档d的特征词集W中所有词对的关联度集合L＝{l₁₁,l₁₂,…,l_1n,l₂₁,…l_2n,…,l_(n-1)n}；

根据词对之间关联程度，通过聚类方法，构建多个特征词链，从而显现出目标文档d的多个相关主题；根据聚类时产生特征词链的顺序，将各个特征词链汇总形成特征词链集合C。

优选的，所述单句中所含特征词与所述特征词链的相似度通过以下具体步骤计算：

目标文档d中存在包括单句集合S和特征词集W＝{w₁,w₂,…,w_n}；根据单句集合S中的单句s_q是否包含W中的特征词，可得s_q与W中各特征词的关系其中：

目标文档d中存在包括特征词链集合C和特征词集W＝{w₁,w₂,…,w_n}；根据词链集合C中的词链c_p是否包含特征词集W中的特征词，可得c_p与W中各特征词的关系其中：

单句s_q和词链c_p的相似度通过下式计算如下：

本发明的有益效果为：

采用本发明所述的方法克服了传统通过扩展用户提供查询词来获取查询式自动摘要时难以刻画用户所感兴趣的主题的缺陷。通过提取主题文本中的词对，能够发现主题文本的特征词之间的隐含联系，并能够从目标文本中抽取用户真正感兴趣的内容生成查询式自动摘要。本发明通过对评价文本的总体聚类，可以避免个别用户主观意见的偏差，使结论更趋于客观公正。

本发明之所以有上述发明效果，是因为本发明利用样本文档中词对的共现关系所隐含的语义联系，词对的共现频率和位置蕴含着词对与主题的隐性联系，在窗口单元中某词对出现次数越多，说明该词对在主题中有着更紧密的联系。通过对单一文本和多个文本中词对共现率的计算，使所生成的共现词对主题特征库具有可扩展和可更新的特点，而且随着主题文本数量的增长，更能明显体现用户所感兴趣的内容。

本发明根据用户以往评价展现的兴趣偏好，对餐馆现有的其他用户评价文本信息进行分析，自动生成该餐馆的评价摘要的方法。该方法关键是采用共现词对的方式挖掘用户评价中的关联关系，并作为挑选摘要句的依据。该方法应用并不限于餐饮评价领域，也同样适用于网上购物消费、旅游、住宿等其他活动的推荐。

附图说明

图1为本发明实施例1的方法流程图。

图2为本发明实施例2的方法流程图。

具体实施方式

下面结合附图和具体实施流程对本发明作进一步的详细说明。

词的共现分析是自然语言处理技术在信息检索中的成功应用之一，它的核心思想是词与词之间的共现频率在某种程度上反映了词之间的语义关联。共现词的研究基于以下假设：在一个大规模的文本语料中，如果两个词频繁地一起出现在同一个窗口单元中(例如：一篇文档、一个自然段、一句话)，则认为这两个词是语义关联的，而且两个词共同出现的频率越频繁，则两个词的语义越接近。

当共现率超过某个阈值的特征词对至少与一个主题相关。由于文档可能由一个或多个主题组成，可以用窗口单元来划分主题。按照人们组织语言习惯，文章大多都有着主题明确，结构紧凑的特点，文章的主题常由一个或几个自然段所组成，因此我们将按照自然段来划分窗口单元。

在文章一定距离内出现的两个词形成共现词对，词对的共现频率和位置蕴含着词对与主题的隐性联系，在窗口单元中某词对出现次数越多，说明该词对在主题中有着更紧密的联系，可能是语义相关的两个词，或者是固定搭配等。而两个词分别在不同的窗口单元出现，由于可能分属不同主题，因此不一定对主题有更高的贡献。

本发明利用样本文档中词对的共现关系所隐含的语义联系，通过计算词对共现率建立共现词对的主题特征库，实现面向用户感兴趣领域的可扩展和更新的语义资源库；利用该主题特征库，通过特征词链的聚类和相似度的计算，设计一种查询式自动摘要的抽取方法；该方法限定以段落为窗口单元，对于传统章节结构的文章有较好的摘要效果。

实施例1：

如图1所示，本实施例提供一种基于用户偏好自动生成主题评价摘要的方法，包括如下步骤：

步骤S1，采集用户以往基于特定场景在网上发表的评价文本作为样本文档，作为挖掘用户偏好的依据；所述特定场景包括餐厅、住宿、旅游、网上购物等；

步骤S2，通过对样本文档进行预处理，包括并不限于分词、去除停止词等方法；

步骤S3，从预处理后的样本文档中计算词对共现率；

步骤S4，将所述词对共现率存入特征数据库；

步骤S5，当缺少用户以往的评价文本，或用户有其他偏好需求时，可由用户手工输入多个特征关键词，将关键词作为两两关联的共现词对，存入特征数据库；

步骤S6，采集符合用户挑选范围内(如较近的地理位置，合适的价格范围等)特定场景内所对应的其他顾客评价文本，汇总生成目标文档；例如，各个餐厅或酒店等其他顾客的评价文本，以各餐厅或各酒店等为单位分别汇总生成目标文档；

步骤S7，对所述目标文档进行预处理，包括并不限于分词、去除停止词等方法；

步骤S8，提取所述目标文档的特征词集，从所述特征数据库中查找所述特征词集中各词汇的距离，生成特征词链；

步骤S9，从所述目标文档中划分出单句；

步骤S10，计算所述目标文档中各单句所含特征词与所述特征词链的相似度，根据摘要规模限制，依次选取各特征词链相似度最高的单句生成摘要。

在一个实施例中，所述步骤S3中，1篇样本文档d中的词对共现率的具体计算方法是：

在一个实施例中，所述步骤S3中，k篇样本文档{d₁,d₂,…,d_k}中的词对总共现率的具体计算方法是：

例如，首先计算出第1篇样本文档d₁中词汇w_i和w_j的词对共现率和同时包含w_i和w_j的窗口单元数，记为P¹(w_i,w_j)和S¹(w_i,w_j)；再计算出第2篇文档中词汇w_i和w_j的词对共现率和同时包含w_i和w_j的窗口单元数/>则两篇文档中词汇w_i和w_j的词对总共现率和共现的总窗口单元数分别为：

依此类推，直至计算出k篇样本文档中词汇w_i和w_j的词对总共现率。

在一个实施例中，所述特征数据库的构建采用以下结构：

特征数据库结构由特征词和共现词对组成，设计特征词类型和共现词对类型。

其中Focus Word为特征词的数据结构：

其中Focus Word为特征词的数据结构，由数字编号WordID和文本WordName组成。Word Co-occurrence为共现词对的数据结构，由第一个词的数字编号IDone，第二个词的数字编号IDtwo，共现率value，共现次数CoNum组成。为减少存储空间，存储时可以设定阈值α，只有某词对的共现率高于阈值α时才将相应参数存入特征数据库。

具体操作如下：假设某样本文档空间包含多篇样本文档。每次选取一篇样本文档，通过1篇样本文档d中的词对共现率的计算方法计算任意词对的共现率。当找到词对共现率高于阈值α的词对时，在Focus Word中存入词对中两个词汇的名称并添加唯一编号，在WordCo-occurrence中存入两个词汇的编号、共现率和共现次数。当某词汇已存在Focus Word中时，不重复添加，直接使用对应编号。当Word Co-occurrence中已存在某词对时，通过k篇样本文档{d1,d2,…,dk}中的词对总共现率的具体计算方法更新该词对共现率，并更新共现次数。如此反复操作，直至遍历整个样本文档空间。

在一个实施例中，步骤S8，提取所述目标文档的特征词集，从所述特征数据库中查找所述特征词集中各词汇的距离，生成特征词链，具体包括：

对于待生成摘要的目标文档d，从所述特征数据库和目标文档d中查找所述特征词集中各词汇的距离，生成特征词链，包括：

特征数据库中存储的是特征词集V＝{v₁,v₂,…,v_m}和共现词对集E＝{e(v_i,v_j)}；E中任意共现词对e(v_i,v_j)均为Word Co-occurrence结构，包含两个词汇的编号、共现率以及共现次数。目标文档d中包含特征词集W＝{w₁,w₂,…,w_n}。

对于W中的任意词对(w_i,w_j)，若w_i∈V、w_j∈V，且该词对包含在E中即有e(w_i,w_j)，则这两词汇的关联度l_ij为e(w_i,w_j)中的对应共现率；若w_i或w_j不包含在V中或者该词对不包含在E中，两词汇的关联度为：l_ij＝P_d(w_i,w_j)。如此，生成目标文档d的特征词集W中所有词对的关联度集合L＝{l₁₁,l₁₂,…,l_1n,l₂₁,…l_2n,…,l_(n-1)n}。

关联度较高的词对之间存在较紧密的潜在语义。根据词对之间关联程度，通过聚类方法，可构建多个特征词链，从而显现出目标文档的多个相关主题。根据聚类时产生特征词链的顺序，将各个特征词链汇总形成特征词链集合C。具体方法如下：

输入：聚类的阈值γ

要聚类的词对关联度L

要聚类的词集W

输出：特征词链集合C

步骤：

(1)从特征词集W中选择一个未归类词语w_i。

(2)从L中找到w_i与C中已有各词链的已有各词汇的关联度。如果与词链c_j的某个词汇的关联度大于阈值γ，则加入词链c_j；如果wi与C中所有已有词链的所有已有词汇的关联度都小于γ，则w_i成为新词链的第一个词。

(3)重复步骤(1)和(2)直到所有词汇均加入到C中。

(4)算法结束，返回特征词链集合C。

在一个实施例中，所述单句中所含特征词与所述特征词链的相似度通过以下具体步骤计算：

目标文档d中存在包括单句集合S和特征词集W＝{w₁,w₂,…,w_n}。根据单句集合S中的单句s_q是否包含W中的特征词，可得s_q与W中各特征词的关系其中：

目标文档d中存在包括特征词链集合C和特征词集W＝{w₁,w₂,…,w_n}。根据词链集合C中的词链c_p是否包含特征词集W中的特征词，可得c_p与W中各特征词的关系其中：

单句s_q和词链c_p的相似度通过下式计算如下：

在一个实施例中，主题评价摘要挑选文摘句通过以下步骤计算：

目标文档d中单句和词链的相似度用集合用U＝{u₁₁,u₁₂,…,u_fg}表示，其中u_ij＝Sim(s_i,c_j)，f为目标文档d中单句总数，g为特征词链总数。

允许进入摘要的句子数量通过下式确定：

N＝f×R

其中，N表示限定的文摘句数量，R表示文摘的压缩率，0<R<1，R的值由用户根据需要自行设定。如果需要抽取的文摘句个数N小于特征词链总数g，则从S中选择与词链集合C中前N个词链相似度最高的一个单句作为摘要句。如果需要抽取的文摘句个数N大于特征词链总数g，则从S中依次抽取与C中每个词链相似度最高的单句作为摘要句，再从单句最高相似度的词链中继续抽取，直到满足摘要句数量。

抽取方法如下：

输入：特征词链集合C

单句集合S

相似度集合U

待抽取的文摘句个数N

相似度阈值δ

输出：摘要句集合Y

步骤：

(1)j＝1,r＝0

(2)Do

(3)选择特征词链集合C的词链c_j；

(4)从U中选取u_ij，使得u_ij＝max(u_1j,u_2j,…,u_fj),且u_ij>δ,

(5)如果有u_ij满足选取条件，将s_i加入摘要句集合Y，否则记录空选次数r＝r+1；

(6)如果有j<聚类C中数量g，则j＝j+1，r＝0否则j＝1；

(7)UntilY个数n等于N，或r＝g即所有集合都不满足。

(8)算法结束，返回摘要句集合Y。

最后按照Y中的摘要句在目标文档d的原始顺序进行排序，形成满足用户偏好的主题评价摘要。

本发明除了餐饮类评价外，也可用于其他领域，比如酒店、旅游、网上购物等，基于评价文本生成查询式自动摘要。本实施例中，计算单句与特征词链之间的相似度值的方法不仅包括余弦相似度方法，还包括Jaccard公式、Dice公式、Overlap公式等其他相似度计算方法。

实施例2：

如图2所示，本实施例提供一种基于用户偏好自动生成主题评价摘要的方法，包括如下步骤：

步骤101，采集顾客以往就餐后在网上发表的评价文本作为样本文档，作为挖掘顾客餐饮偏好的依据；

步骤102，通过对样本文档进行预处理，包括并不限于分词、去除停止词等方法；

步骤103，从预处理后的样本文档中计算词对共现率；

步骤104，将所述词对共现率存入特征数据库；

步骤105，当缺少顾客以往就餐评价文本，或顾客有其他偏好需求时，可由顾客手工输入多个特征关键词，将关键词作为两两关联的共现词对，存入特征数据库；

步骤106，采集符合顾客挑选范围内(如较近的地理位置，合适的价格范围等)各餐厅所对应的其他顾客评价文本，以各餐厅为单位分别汇总生成目标文档；

步骤107，对所述目标文档进行预处理，包括并不限于分词、去除停止词等方法；

步骤109，从所述目标文档中划分出单句；

步骤110，计算所述目标文档中各单句所含特征词与所述特征词链的相似度，根据摘要规模限制，依次选取各特征词链相似度最高的单句生成摘要。

实施例2与实施例1的不同之处在于：实施例2的特定场景为餐饮场合，采集顾客以往就餐后在网上发表的评价文本作为样本文档，作为挖掘顾客餐饮偏好的依据，进而根据用户以往评价展现的兴趣偏好，对餐馆现有的其他用户评价文本信息进行分析，自动生成该餐馆的评价摘要的方法。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于用户偏好自动生成主题评价摘要的方法，其特征在于：包括如下步骤：

步骤102，对样本文档进行预处理；

步骤103，从预处理后的样本文档中计算词对共现率；

步骤104，将所述词对共现率存入特征数据库；

步骤107，对所述目标文档进行预处理；

所述从所述特征数据库中查找所述特征词集中各词汇的距离，生成特征词链，包括：对于待生成摘要的目标文档d，从所述特征数据库和目标文档d中查找所述特征词集中各词汇的距离，生成特征词链，具体为：

根据词对之间关联程度，通过聚类方法，构建多个特征词链，从而显现出目标文档d的多个相关主题；根据聚类时产生特征词链的顺序，将各个特征词链汇总形成特征词链集合C；

步骤109，从所述目标文档中划分出单句；

2.根据权利要求1所述一种基于用户偏好自动生成主题评价摘要的方法，其特征在于：所述步骤103，1篇样本文档d中的词对共现率的具体计算方法是：

3.根据权利要求2所述一种基于用户偏好自动生成主题评价摘要的方法，其特征在于：所述步骤103中，k篇样本文档{d₁,d₂,…,d_k}中的词对总共现率的具体计算方法是：

4.根据权利要求1、2或3所述一种基于用户偏好自动生成主题评价摘要的方法，其特征在于：所述特征数据库由特征词和共现词对组成。

5.对于权利要求4所述的一种基于用户偏好自动生成主题评价摘要的方法，其特征在于：所述单句中所含特征词与所述特征词链的相似度通过以下具体步骤计算：

目标文档d中存在包括特征词链集合C和特征词集W＝{w₁,w₂,…,w_n}；根据词链集合C中的词链c_p是否包含特征词集W中的特征词，可得c_p与W中各特征词的关系B_cp＝{b′_p1,b′_p2,…,b′_pn}，其中：

单句s_q和词链c_p的相似度通过下式计算如下：