CN106095762A

CN106095762A - 一种基于本体模型库的新闻推荐方法及装置

Info

Publication number: CN106095762A
Application number: CN201610081578.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: China Science And Technology (beijing) Co Ltd
Current assignee: China Science And Technology (beijing) Co Ltd
Priority date: 2016-02-05
Filing date: 2016-02-05
Publication date: 2016-11-09
Also published as: CN106570144B; CN106570144A

Abstract

本发明提供了一种基于本体库和知识图谱的新闻推荐方法及装置。所述方法包括以下步骤：(1)预处理，包括断句、分词、词性标注等；(2)新闻本体识别，对输入新闻文本中的新闻本体信息进行识别；(3)关键信息挖掘，结合识别出来的新闻本体信息对输入新闻篇章中的关键信息(关键词、关键本体等)进行挖掘；(4)属性获取，基于前面步骤获取的信息，查询知识图谱获取知识点属性信息，并根据知识图谱关系进行拓展，进一步挖掘属性信息；(5)维度生成，基于前面步骤获得的信息(本体、关键词、属性等)生成推荐维度；(6)推荐知识召回，基于推荐维度，在新闻文档库以及知识库中进行推荐知识的获取。

Description

一种基于本体模型库的新闻推荐方法及装置

技术领域

本发明涉及自然语言处理、智能推荐技术领域，尤其涉及一种基于新闻本体知识库以及知识图谱的智能新闻推荐方法及其装置。

背景技术

在互联网时代，特别是刚刚兴起的移动互联网、大数据时代，新闻推荐是新闻阅读服务中一个关键功能，对提升用户体验，增加用户粘性具有极大作用。

现有技术中新闻推荐技术一般有两种。

一种是基于内容的推荐技术，主要基于词袋的向量空间模型实现文档相似度衡量。另外一种是基于用户行为的协同过滤技术，主要是基于用户历史行为数据，进行***感兴趣新闻的预测。

现有技术的问题在于：

一、基于内容推荐的技术，只基于关键词信息，无法发现深层语义的相似度。对语言中的一词多义、一义多词现象无法进行很好的建模；

二、基于内容推荐技术，所推荐的所有文档是基于一个统一相似度衡量方法获取的（如，一般取Top 10）。推荐文档和原文以及推荐文档之间都存在极大的相似性，甚至都是不同来源的互相转载，对用户不能带来有效信息增益；

三、基于用户行为的协同过滤技术，也存在上述两项问题。另外，还存在冷启动的问题。因为这种技术方案需要基于用户的历史行为进行训练建模。对于没有用户行为数据的场景，难以有效开展。

现有技术（包含上述两种）难以解决推荐深度以及广度的问题。推荐深度指对输入新闻文档，无法获取其背景知识以及关联因果信息。推荐广度是指对于输入文档，无法对横向相关的新闻或者知识进行推荐（比如，巴黎暴恐扩展到中国的类似事件）。而推荐深度以及推荐广度，对于专业的新闻从业者（如编辑、记者等）尤为重要。他们在日常工作中需要人工耗费大量时间精力对深度、广度的关联信息知识进行搜集挖掘，也造成了这类工作对从业者经验积累以及知识广博程度的高要求，使得新闻从业成本较高。

发明内容

本发明要解决的技术问题是如何对输入一篇或多篇新闻文档，自动推荐出维度丰富的，同时具备一定深度和广度的相关的文档或者知识。

所述方法包括以下步骤：（1）预处理，包括断句、分词、词性标注等；（2）新闻本体识别，对输入新闻文本中的新闻本体信息进行识别；（3）关键信息挖掘，结合识别出来的新闻本体信息对输入新闻篇章中的关键信息（关键词、关键本体等）进行挖掘；（4）属性获取，基于前面步骤获取的信息，查询知识图谱获取知识点属性信息，并根据知识图谱关系进行拓展发现，进一步挖掘属性信息；（5）维度生成，基于前面步骤获得的信息（本体、关键词、属性等）生成推荐维度；（6）推荐知识召回，基于推荐维度，在新闻文档库以及知识库中进行推荐知识的获取。

所述装置包括以下几个单元：（1）预处理单元，实现输入文本的断句、分词、词性标注等；（2）新闻本体识别单元，实现输入新闻文本中的新闻本体信息识别过程；（3）关键信息挖掘单元，实现新闻篇章中的关键信息（关键词、关键本体等）的自动挖掘；（4）属性获取单元，实现知识图谱查询以及基于知识图谱关系的知识拓展，获取相关属性信息；（5）维度生成单元，实现推荐维度的生成，主要是基于前继单元的输出信息（本体、关键词、属性等）进行优化组合，以生成推荐维度；（6）推荐知识召回单元，实现基于前继单元输出的推荐维度，在新闻文档库以及知识库中进行推荐知识的获取。

本发明实施例提供的基于新闻本体库以及知识图谱的智能新闻推荐方法及装置，通过新闻本体识别以及基于知识图谱的属性挖掘，可以脱离输入文本字词限制，获得在广度和深度上非常丰富的关联信息；通过这些关联信息，再基于维度生成算法，在文档集以及知识图谱中进行相关文档以及知识点的召回，可以获得具有更大广度和深度的信息。使大众用户能享受到内容广泛、关联深入且有知识含量的信息服务，特别地，对新闻专业从业人士来讲，可以极大地提高其工作效率，提升其业务产出水平。

附图说明

图1是一种基于本体模型库的新闻推荐方法流程图；

图2是新闻本体库示意图；

图3是新闻本体发现流程图；

图4是一种新闻知识图谱示意图；

图5是一种基于本体模型库的新闻推荐装置框架图；

图6是一种新闻知识图谱属性拓展示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1 是本发明提出的智能新闻推荐方法的示意图。

如图1所示的智能新闻推荐方法100的输入是新闻文档111，可以是一篇也可以是多篇。这里所说的“新闻文档”泛指各种媒体刊发的新闻文本，具体格式可以是网页形式，也可以是纯文本形式或者其他任何半结构的格式（如xml格式）。

步骤S120，对新闻文档111进行预处理，包括断句处理、分词、词性标注。断句处理是把文本111以句号断开，分成多个句子进行后续处理。分词、词性标注把中文文本进行词语切分处理，并给每个词语标注上其对应的词性，词性包括名词、动词等。

步骤S121，对预处理后的文本111，进行本体识别，这里的“本体”指的是文本中涉及到的新闻领域内的概念。比如“新闻主题”、“新闻地域”、“新闻事件”等。而且这些本体具有层次性。

图2是新闻本体库示意图。

如图2所示，新闻本体知识库的第一层子节点包含“新闻主题”、“新闻地域”、“新闻事件”、“新闻人物”、“其他” 等。其中每个子节点又是一颗子树。篇幅所限，图2只是局部示意图。举例来说，“新闻事件”又可以分为“延缓性事件”、“突发性事件”、“其他事件”等等。其中，“突发事件”又可以进一步分层细分。比如在本例中可以细分到“新闻事件->突发事件->突发公共安全事件->社会安全事件->恐怖袭击->枪击事件”。

每个本体节点都对应一组属性定义，用于描述这一本体对应的新闻概念在新闻报道时所关注的要点。在图2中，用一组椭圆形表示节点对应的属性。比如，“恐怖袭击”这个本体点的属性在本实施例中为(“袭击者”，“受袭者”，“时间”，“地点”)。在其他具体实施中，可以根据实施例的应用需求进行定制。

本体子节点默认继承本体父节点的属性，也可以根据具体实施需求进行增加、删除、修改。

图3 是新闻本体识别流程图。

如图3所示的新闻本体识别方法300，能经过预处理S120的分词与词性标注结果进行本体识别。

步骤S311，对每个词汇进行同义扩展，利用同义词表发现同义词。比如“京城”是“北京”的同义，“遗失”是“丢失”的同义。

步骤S312，进行最底层本体发现。利用词汇的上下文发现用一种表达方式或一句话表示的复杂概念。比如“*个小时之内、两天”是时间概念，“等了两天了”是“未及时”概念。这个发现过程基于底层本体知识库支持，用正则表达式来进行模式匹配。常用模式由人工总结，也可以辅以机器自动发现技术，但此项技术不是本发明重点，不做展开。

步骤S313，进行本体上溯，将上层本体进行召回。如，对于上述步骤发现的最底层本体“自然灾害”，可以召回“自然灾害->突发公共事件->突发事件->新闻事件”这个本体树路径。

另外，每个本体节点，都相应有属性的定义。比如对于“自然灾难”这一本体点，对应属性有“发生日期”，“发生地点”，“成因”，“灾情规模”，“善后救援”，“上级指示”，“后期影响”等。

步骤S122，对本体识别后的文本进行关键信息挖掘。所述的关键信息包含关键词、关键本体。关键词来自输入文本中出现的词汇，关键本体来自S121步骤获得的本体信息。关键词挖掘（有的文献称之为关键词抽取，英文为keyword extraction）的经典方法如TF*IDF

：t表示当前考虑被打分的词汇，d表示当前考虑的文档，n表示在整体文档集中包含t的文档数，N表示整体文档集的文档数。在本发明中的具体实施例中，对此算法进行了优化，考虑了本体的信息。

本实施例的计算方法为：

其中，和为权重参数，用来调整原始词汇TFIDF信息和本体TFIDF信息之间的重要性，优选地，均为0.5。O(t)是t所有对应的本体。表示t和o之间相差的层级数。采用阶乘倒数作为加权的形式来确保随着本体的抽象程度升高其影响度下降。

假设本实施例的输入新闻文本中包含一个词汇t 为“巴黎恐怖袭击”，而它在本体识别阶段识别得到本体信息为“新闻事件->突发事件->突发公共安全事件->社会安全事 件->恐怖袭击->枪击事件”，那么“枪击事件”这个本体对t的权重增量为(1/(1+1)!)TFIDF (“枪击事件”)，而“恐怖袭击”这个本体对t的权重增量为(1/(1+2)!)TFIDF(“恐怖袭击”)。

本实施例所提的优化方法可以通过综合本体的信息，来解决多词同义导致的统计量分散的问题，也可以从一定程度上考虑相同或者相近语义词汇的互相增益，以挖掘出更加合理的关键信息。

关键本体的挖掘与关键词的挖掘类似，只不过，关键本体的挖掘只考虑其上层本体对其的影响，而不需要考虑具体词汇的影响。

本步骤也可以使用TextRank等其他关键词挖掘方法，并且可以类似地进行结合本体知识的优化。

步骤S123，根据前面步骤获得的信息，基于新闻知识图谱进行属性的获取。所述前面步骤获得的信息包含输入文本中包含的词汇、识别出来的本体以及挖掘出来的关键信息。优选地，利用挖掘出来的关键信息（关键词以及关键本体）在新闻本体知识图谱中进行查询，找到对应的知识卡片，获取其中的属性信息。

图4是新闻知识图谱示意图。

所述的新闻知识图谱采用通用的RDF三元组（实体1，关系，实体2）进行描述，但其是根据新闻领域的专业特性进行描述的。三元组中的实体可以是名实体（如人名、地名、机构名等），也可以是新闻事件。

知识表示按照图2所示的新闻本体库定义的模式（层次以及属性列表）进行。假设输入文本在前面步骤可以获得“巴黎”，“枪击事件”，“ISIS”，“法国”等相关信息，把这些信息作为查询，可以在知识图谱中找到对应的实体。

每个实体对应有属性值。然后根据这些属性值以及结合实体与实体之间的关系，继续在知识图谱中进行进一步查询，可以召回更多实体，进而获得更多的属性信息。这一过程简称为属性拓展过程。图6演示了一个属性拓展的过程。

步骤S124，根据前面步骤获取的信息，进行推荐维度的生成。所述推荐维度指文档的类别或者标签。比如“中国+恐怖袭击事件”这一维度代表在中国范围内发生的恐怖袭击事件的相关信息。

而其中的“中国”，“恐怖袭击事件”就是在前面步骤获得的信息。推荐维度的生成主要是一个信息项组合优选的过程。

优选地，本步骤的输入信息包含从输入文本中获取的关键词、关键本体、属性等信息项。输出的维度即是这些信息项的组合。优选地，维度生成遵循以下指导原则：

1）名实体性的信息项，如人物名，可以单独作为一个维度；

2）组合项越多，分数越高。比如“中国 + 恐怖袭击”优于 “恐怖袭击”；

3）异质信息项组合，分数越高。比如 “新三板 + 体育产业” 优于 “新三板 + 增发”；

4）结合前面步骤中对于关键信息的评分。

本实施例维度生成过程就是一个在所有信息项进行组合的过程，为了防止组合过多，采用栈搜索策略进行剪枝。只保留得分最高的k个维度。优选地，k设定为5。

步骤S125，根据S124生成的若干推荐维度，分别在整体新闻文档中进行检索，召回相关文档，形成各个维度对应的推荐信息。优选地，还可以根据生成维度中的单维度信息在新闻知识图谱中进行知识点的检索召回。

图5是智能新闻推荐装置示意图。

智能新闻推荐装置500包括4个处理单元以及一个建模单元。

建模单元510，负责整个装置所需要的新闻本体库、新闻知识图谱的管理，用户可以由此单元对新闻本体库、新闻知识图谱进行增加、删除、修改等操作。

预处理单元521，负责提供分词、词性标注等预处理功能。对非结构化文本111进行预处理，包括断句处理、分词、词性标注。断句处理是把文本111以句号断开，分成多个句子进行后续处理。分词、词性标注把中文文本进行词语切分处理，并给每个词语标注上其对应的词性，词性包括名词、动词等。

本体识别单元522，负责根据单元521输出的预处理结果，进行新闻本体的识别。首先对每个词汇进行同义扩展，利用同义词表发现同义词。然后，基于正则表达式匹配模式，发现最底层本体。最后通过本体树的上溯操作，获得本体路径。

关键信息挖掘单元523，负责挖掘输入文本111中的关键信息。如关键词以及关键本体。关键词挖掘（有的文献称之为关键词抽取，英文为keyword extraction）的经典方法如TFIDF：

t表示当前考虑被打分的词汇，d表示当前考虑的文档，n表示在整体文档集中包含t的文档数，N表示整体文档集的文档数。在本发明中的具体实施例中，对此算法进行了优化，考虑了本体的信息。

本发明所提计算方法为：

属性获取单元524，负责基于知识图谱进行属性的获取。前面步骤获得的信息包含输入文本中包含的词汇、识别出来的本体以及挖掘出来的关键信息。

新闻本体知识图谱中对这些信息进行查询，找到对应的知识卡片，获取其中的属性信息。每个实体对应有属性值。然后根据这些属性值以及结合实体与实体之间的关系，继续在知识图谱中进行进一步查询，可以召回更多实体，进而获得更多的属性信息。

维度生成单元525，负责根据前面步骤获取的信息，进行推荐维度的生成。推荐维度的生成主要是一个信息项组合优选的过程。

1）名实体性的信息项，如人物名，可以单独作为一个维度；

4）结合前面步骤中对于关键信息的评分。

推荐知识召回单元526，负责根据单元525生成的若干推荐维度，分别在整体新闻文档中进行检索，召回相关文档，形成各个维度对应的推荐信息。优选地，还可以根据生成维度中的单维度信息在新闻知识图谱中进行知识点的检索召回。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于本体库和知识图谱的新闻推荐方法，其特征在于，包括以下步骤：

对输入新闻文本进行新闻本体识别；

对输入新闻文本进行关键信息挖掘；

基于新闻知识图谱进行属性获取；

基于从输入新闻文本中挖掘出的关键信息以及属性信息进行推荐维度生成；

根据推荐维度进行推荐信息的召回以及输出。

2.如权利要求1所述的新闻本体识别，其特征在于，包含以下步骤：

对每个词汇进行同义扩展，利用同义词表发现同义词；

根据正则匹配模式对新闻本体库进行检索，发现最底层本体；

根据本体树的层次结构，对每个最底层本体进行上溯，获得本体匹配路径。

3.如权利要求2所述的新闻本体库，其特征在于：

面向新闻专业领域的层次划分，比如划分为“新闻事件”、“新闻人物”、“新闻主题”等大类以及每个大类又分为若干小类；每个本体节点代表一个新闻报道中经常涉及的类别；每个本体节点都对应一个属性列表，对应这个新闻类别中的一些基本要素点。

4.如权利要求1所述的关键信息挖掘，其特征在于：

评价方法结合了词汇信息和本体信息：

关键词挖掘经典方法如TFIDF：

t表示当前考虑被打分的词汇，d表示当前考虑的文档，n表示在整体文档集中包含t的文档数，N表示整体文档集的文档数，在本发明中的具体实施例中，对此算法进行了优化，考虑了本体的信息；本发明所提计算词汇权重公式为：

其中，α和β为权重参数，用来调整原始词汇TFIDF信息和本体TFIDF信息之间的重要性，优选地，均为0.5；O(t)是t所有对应的本体；lo表示t和o之间相差的层级数；采用阶乘倒数作为加权的形式来确保随着本体的抽象程度升高其影响度下降。

5.如权利要求1所述的新闻知识图谱，其特征在于：

采用通用的RDF三元组（实体1，关系，实体2）进行描述，但其是根据新闻领域的专业特性进行描述的；

三元组中的实体可以是名实体（如人名、地名、机构名等），也可以是新闻事件；

知识表示按照权利要求3所述的新闻本体库定义的模式（层次以及属性列表）进行。

6.如权利要求1所述的属性获取，其特征在于：

利用挖掘出来的关键信息在新闻本体知识图谱中进行查询，找到对应的知识卡片，获取其中的属性信息；

具有属性拓展过程；每个实体对应有属性值，然后根据这些属性值以及结合实体与实体之间的关系，继续在知识图谱中进行进一步查询，可以召回更多实体，进而获得更多的属性信息。

7.如权利要求1所述的推荐维度生成，其特征在于：

其是一个基于权利要求4所获得的关键信息项进行的组合优选的过程；

其遵循以下指导原则：

1）名实体性的信息项，如人物名，可以单独作为一个维度；

2）组合项越多，分数越高；比如“中国 + 恐怖袭击”优于 “恐怖袭击”；

3）异质信息项组合，分数越高；比如 “新三板 + 体育产业” 优于 “新三板 + 增发”；

4）结合前面步骤中对于关键信息的评分。

8.一种基于本体库和知识图谱的新闻推荐装置，其特征在于，包括：

建模单元，负责整个装置所需要的新闻本体库、新闻知识图谱的管理，用户可以由此单元对新闻本体库、新闻知识图谱进行增加、删除、修改等操作；

预处理单元，负责提供分词、词性标注等预处理功能；

本体识别单元，负责进行新闻本体的识别；

关键信息挖掘单元，负责挖掘输入文本中的关键信息；

属性获取单元，负责基于知识图谱进行属性的获取；

维度生成单元，负责根据前面单元获取的信息，进行推荐维度的生成；

推荐知识召回单元，负责根据前面单元生成的推荐维度，分别在整体新闻文档中进行检索，召回相关文档，形成各个维度对应的推荐信息，根据生成维度中的单维度信息在新闻知识图谱中进行知识点的检索召回。