CN108470026A

CN108470026A - 新闻标题的句子主干内容提取方法及装置

Info

Publication number: CN108470026A
Application number: CN201810247767.2A
Authority: CN
Inventors: 邬小鹏; 余晓龙; 张华泉; 王浩; 张向征
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-08-31

Abstract

本发明提供了一种新闻标题的句子主干内容提取方法及装置。该方法包括：获取新闻的原始标题，并对新闻的原始标题进行词法句法分析，得到分析结果；基于所述分析结果，生成新闻的原始标题的句法树；通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容。本发明实施例利用词法句法分析对新闻标题进行压缩式摘要，使新闻标题中的主干内容被提取的同时尽可能保留了原新闻标题中的重点信息，能够得到更准确、更严谨的新闻标题。

Description

新闻标题的句子主干内容提取方法及装置

技术领域

本发明涉及互联网应用技术领域，特别是一种新闻标题的句子主干内容提取方法及装置。

背景技术

在当今信息量巨大的互联网中，网络用户在使用搜索引擎进行新闻搜索时，一般基于新闻标题的内容与描述筛选其需要的内容，进而产生点击行为，因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力，很大程度上决定了用户对该搜索引擎的使用体验。

目前的搜索引擎产品中，尤其是新闻类搜索，大多直接使用新闻的原始标题作为搜索展现结果的标题，然而新闻原始标题为了博人眼球、增加点击量，往往会充斥大量冗余信息，甚至过多强调某个侧面以偏概全，导致标题不严谨、不准确，还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中，会直接导致用户无法快速获取新闻关键信息，影响用户的体验，降低用户对于推送内容的信息获取欲望，以及降低对推送产品的粘性。

因此，针对新闻的原始标题，去除冗余信息，以得到更准确、更严谨的新闻标题成为亟待解决的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的新闻标题的句子主干内容提取方法及装置。

依据本发明的一方面，提供了一种新闻标题的句子主干内容提取方法，包括：

获取新闻的原始标题，并对新闻的原始标题进行词法句法分析，得到分析结果；

基于所述分析结果，生成新闻的原始标题的句法树；

通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容。

可选地，所述对新闻的原始标题进行词法句法分析，得到分析结果，包括：

对新闻的原始标题进行分词处理，得到多个分词；

对所述多个分词中的各分词分别进行词性标注和实体类别标注；

基于各分词的词性标注和实体类别标注，对新闻的原始标题进行依存句法分析，识别各分词的依存节点下标和依存类型。

可选地，所述对新闻的原始标题进行分词处理的方法包括下列至少之一：

基于字符串匹配的分词方法；

基于语义理解的分词方法；

基于统计的分词方法。

可选地，对所述多个分词中的各分词进行实体类别标注，包括：

采用序列标注模型，对所述多个分词中的各分词的实体词进行识别，标注实体类别。

可选地，所述实体类别包括下列任意之一：

人名、地名、机构名、品牌名、软件名。

可选地，所述基于各分词的词性标注和实体类别标注，对新闻的原始标题进行依存句法分析，识别各分词的依存节点下标和依存类型，包括：

通过各分词的词性标注和实体类别标注，对新闻的原始标题的语法成分进行识别；

分析识别出的各语法成分之间的依存关系，得到各分词的依存节点下标和依存类型。

可选地，基于所述分析结果，生成新闻的原始标题的句法树，包括：

根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型，生成新闻的原始标题的句法树。

可选地，通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容，包括：

选取依存类型中核心关系对应的head主节点为主干谓语；

若主节点分词后词性为名词词性，则对所有特定类比的浅层依存的名词进行归并更新谓语；

若主节点分词后词性为动词词性，则设定主节点为谓语动词；

对于否定词定语进行识别并归并入谓语。

可选地，所述方法还包括：

识别主谓关系节点，对于主语周边节点进行归并，对并列关系节点依照主语规则保持名词词性部分，其余进行节点剪枝，并设置主语节点。

可选地，所述方法还包括：

根据宾语类型，若为名词对宾语进行识别，并列关系节点全部去除，并设置宾语节点。

可选地，在通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容之后，所述方法还包括：

将提取的句子主干内容作为新闻候选标题；

利用新闻标题的摘要质量评估策略，对所述新闻候选标题的质量进行评估，进而根据评估结果确定新闻摘要标题。

可选地，利用新闻标题的摘要质量评估策略，对所述新闻候选标题的质量进行评估，包括：

采用神经机器翻译模型对新闻的原始标题进行压缩式处理，得到新闻衡量标题；

对所述新闻衡量标题和所述新闻候选标题，使用语言模型进行句子在该语言模型下的质量得分计算；

将计算得到的质量得分结果，作为对所述新闻候选标题的质量进行评估的评估结果。

可选地，所述根据评估结果确定新闻摘要标题，包括：

在所述新闻衡量标题和所述新闻候选标题中，根据计算得到的质量得分结果，确定质量得分最高的标题作为待选标题；

若该候选标题对应的质量得分大于质量分数阈值，则判断该待选标题是否满足预设审核条件，若是，则将该待选标题确定为新闻摘要标题。

可选地，所述该待选标题是否满足预设审核条件包括下列至少之一：

该待选标题是否是主谓结构语法；

该待选标题是否是主谓结构语法，且谓语动词含动词成分；

该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值；

该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。

可选地，在根据评估结果确定新闻摘要标题之后，所述方法还包括：

将所述新闻摘要标题提供给实时热点产品模块，从而由实时热点产品模块将所述新闻摘要标题作为实时热点进行展示。

依据本发明的另一方面，还提供了一种新闻标题的句子主干内容提取装置，包括：

分析模块，适于获取新闻的原始标题，并对新闻的原始标题进行词法句法分析，得到分析结果；

生成模块，适于基于所述分析结果，生成新闻的原始标题的句法树；

提取模块，适于通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容。

可选地，所述分析模块还适于：

对新闻的原始标题进行分词处理，得到多个分词；

基于字符串匹配的分词方法；

基于语义理解的分词方法；

基于统计的分词方法。

可选地，所述分析模块还适于：

可选地，所述实体类别包括下列任意之一：

人名、地名、机构名、品牌名、软件名。

可选地，所述分析模块还适于：

可选地，所述生成模块还适于：

可选地，所述提取模块还适于：

选取依存类型中核心关系对应的head主节点为主干谓语；

对于否定词定语进行识别并归并入谓语。

可选地，所述提取模块还适于：

可选地，所述装置还包括：

标题质量评估模块，适于在所述提取模块通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容之后，将提取的句子主干内容作为新闻候选标题；

可选地，所述标题质量评估模块还适于：

该待选标题是否是主谓结构语法；

该待选标题是否是主谓结构语法，且谓语动词含动词成分；

可选地，所述装置还包括：

提供模块，适于在所述标题质量评估模块根据评估结果确定新闻摘要标题之后，将所述新闻摘要标题提供给实时热点产品模块，从而由实时热点产品模块将所述新闻摘要标题作为实时热点进行展示。

依据本发明的又一方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据上述的新闻标题的句子主干内容提取方法。

依据本发明的再一方面，还提供了一种计算设备，包括：处理器；以及存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据上述的新闻标题的句子主干内容提取方法。

本发明实施例提供了一种新闻标题的句子主干内容提取方法，获取新闻的原始标题，并对新闻的原始标题进行词法句法分析，得到分析结果；随后，基于分析结果，生成新闻的原始标题的句法树；进而通过对句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容。可以看到，本发明实施例利用词法句法分析对新闻标题进行压缩式摘要，使新闻标题中的主干内容被提取的同时尽可能保留了原新闻标题中的重点信息，能够得到更准确、更严谨的新闻标题。

进一步地，本发明实施例引入摘要质量评估策略，对新闻候选标题的质量进行评估，对于摘要质量较好的结果进行自动审核，以降低人工运营审核的成本，并大幅降低了人工审核造成的摘要推送延迟。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意了根据本发明一实施例的新闻标题的句子主干内容提取方法流程图；

图2示意了根据本发明一实施例的对新闻的原始标题进行词法句法分析的方法流程图；

图3示意了根据本发明另一实施例的提取新闻的原始标题中的句子主干内容的方法流程图；

图4示意了根据本发明一实施例的对新闻候选标题的质量进行评估的方法流程图；

图5示意了根据本发明一实施例的根据评估结果确定新闻摘要标题的方法流程图；

图6A示意了根据本发明一实施例的在搜索结果页上展示新闻摘要标题；

图6B示意了根据本发明一实施例的在搜索页面上展示新闻摘要标题；

图7示意了根据本发明一实施例的新闻标题的摘要方法流程图；

图8示意了根据本发明一实施例的新闻标题的句子主干内容提取装置的结构图；以及

图9示意了根据本发明另一实施例的新闻标题的句子主干内容提取装置的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在相关技术中，句子压缩使用到的主要方法有：句子中词语删除、句子中词语替换、重排或***。其中句子中词语删除方法由于其复杂程度较低而成为主流方法，采用的技术主要包括噪声信道模型、结构化辨别模型、树到树的转换、整数线性规划等。就总体效果而言，目前主流方法技术对句子中删除的词语量有限，压缩效果并不明显，如下例：

原句：But they are still continuing to search the area try and see ifthere were,in fact,any further shooting incidents.

压缩后的句子：They are continuing to search the area to see if therewere any further incidents.

在上述提及的相关技术中，基于句子中词语删除、句子中词语替换、重排或***的方式，一方面很难捕获全部标题中的内容与信息，另一方面，基于此技术方案改写后的标题普遍偏长。因而，无论从准确率以及改写后的标题长度都难以满足用户对于产品的需求与体验。另外，由于相关技术方案的效果与现状，需要对摘要后的结果进行人工审核，审核通过后进行推送上线以满足用户产品的高准确需求。因此，该技术方案依然摆脱不了较大的人工运营成本开销，以及人工流程造成的摘要结果的覆盖面低以及时效性差。

为了解决上述技术问题，本发明实施例提供了一种新闻标题的句子主干内容提取方法。如图1所示，该方法可以包括以下步骤S102至步骤S106。

步骤S102，获取新闻的原始标题，并对新闻的原始标题进行词法句法分析，得到分析结果。

步骤S104，基于分析结果，生成新闻的原始标题的句法树。

步骤S106，通过对句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容。

上文步骤S102中获取新闻的原始标题，本发明实施例提供了一种可选的方案，在该方案中，可以获取网络爬虫抓取的关于新闻资源的抓取日志，进而从抓取日志中提取新闻的原始标题。

这里的网络爬虫(Web Crawlers)是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫在下载互联网资源时，例如从一家门户网站的首页出发，先下载门户网站首页的这个网页，然后通过分析这个网页，可以找到页面里的所有超链接，也就等于知道了这家门户网站首页所直接链接的全部网页，诸如邮件、财经、新闻等。接下来访问、下载并分析这家门户网站的邮件等网页，又能找到其他相连的网页。让计算机不停地做下去，就能下载整个的互联网。当然，也要记载哪个网页下载过了，以免重复。在网络爬虫中，使用一个称为“哈希表”(Hash Table)的列表而不是一个记事本记录网页是否下载过的信息。

在上面的从抓取日志中提取新闻的原始标题的方案中，还可以具体是对于抓取日志中关于新闻资源的各条记录，提取该条记录的指定字段的字段值作为新闻的原始标题。举例来说，网络爬虫的抓取日志中关于新闻资源的记录格式为url_id+\t+url_title+\t+crawl_time，则提取url_title的字段值作为新闻的原始标题。需要说明的是，此处列举仅是示意性的，并不对本发明实施例进行限制。

进一步地，上文步骤S102中对新闻的原始标题进行词法句法分析，得到分析结果，本发明实施例提供了一种可选的方案，图2示意了根据本发明一实施例的对新闻的原始标题进行词法句法分析的方法流程图。如图2所示，该方法可以包括以下步骤S202至步骤S206。

步骤S202，对新闻的原始标题进行分词处理，得到多个分词。

步骤S204，对多个分词中的各分词分别进行词性标注和实体类别标注。

步骤S206，基于各分词的词性标注和实体类别标注，对新闻的原始标题进行依存句法分析，识别各分词的依存节点下标和依存类型。

在步骤S202中，对新闻的原始标题进行分词处理的方法可以包括基于字符串匹配的分词方法，基于语义理解的分词方法或者基于统计的分词方法等等，本发明实施例对此不做限制。

基于字符串匹配的分词方法，又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配。常用的几种机械分词方法如下：

1)正向最大匹配法(由左到右的方向)；

2)逆向最大匹配法(由右到左的方向)；

3)最少切分(使每一句中切出的词数最小)；

4)双向最大匹配法(进行由左到右、由右到左两次扫描)。

在实际分词过程中，还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词***，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可以将原字符串分为较小的串再来进行机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

基于语义理解的分词方法，是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子***、句法语义子***、总控部分。在总控部分的协调下，分词子***可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程，这种分词方法需要使用大量的语言知识和信息。

基于统计的分词方法，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词***都要使用一部基本的分词词典(常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。汉语中各个字单独作词语的能力是不同的，此外有的字常常作为前缀出现，有的字却常常作为后缀，结合两个字相临时是否成词的信息，这样就得到了许多与分词有关的知识，这种方法就是充分利用汉语组词的规律来分词。

上文步骤S204中对多个分词中的各分词进行词性标注，具体标注的词性类别可以是名词、动词、形容词、副词、连词、叹词或数量词等等，本发明实施例对此不做限制。

步骤S204中在对多个分词中的各分词进行实体类别标注，本发明实施例提供了一种可选的方案，即，可以采用序列标注模型，对多个分词中的各分词的实体词进行识别，标注实体类别。这里的实体类别可以是人名、地名、机构名、品牌名或软件名等等，本发明实施例不限于此。

在实际应用中，序列标注模型可以是HMM(Hidden Markov Model，隐马尔可夫模型)，MEMM(Maximum Entropy Markov Model，最大熵隐马尔科夫模型)以及CRF(Conditional Random Field Algorithm，条件随机场模型)等等。与一般分类问题不同的是，序列标注模型输出的是一个标签序列。通常而言，标签之间是相互联系的，构成标签之间的结构信息。利用这些结构信息，序列标注模型在序列标注问题上往往可以达到比传统分类方法更高的性能。

上文步骤S206中提及的依存类型可以如表1举例所示，需要说明的是，表1中示意的依存类型以及例子仅是示意性的，并不对本发明实施例进行限制。

表1

依存类型	Tag(标签)	Description(描述信息)	例子
				主谓关系	SBV	subject-verb	我送她一束花(我<--送)
动宾关系	VOB	直接宾语，verb-object	我送她一束花(送-->花)
				间宾关系	IOB	间接宾语，indirect-object	我送她一束花(送-->她)
前置宾语	FOB	前置宾语，fronting-object	他什么书都读(书<--读)
				定中关系	ATT	attribute	红苹果(红<--苹果)
状中结构	ADV	adverbial	非常美丽(非常<--美丽)
				动补结构	CMP	complement	做完了作业(做-->完)
并列关系	COO	coordinate	大山和大海(大山-->大海)
				介宾关系	POB	preposition-object	在贸易区内(在-->内)
独立结构	IS	independent structure	两个单句在结构上彼此独立
				核心关系	HED	head	指整个句子的核心
兼语	DBL	double	他请我吃饭(请-->我)

上文步骤S206中基于各分词的词性标注和实体类别标注，对新闻的原始标题进行依存句法分析，识别各分词的依存节点下标和依存类型，本发明实施例提供了一种可选的方案，在该可选方案中，可以通过各分词的词性标注和实体类别标注，对新闻的原始标题的语法成分进行识别，进而分析识别出的各语法成分之间的依存关系，得到各分词的依存节点下标和依存类型。

基于上面的依存句法分析，上文步骤S104在基于分析结果，生成新闻的原始标题的句法树时，具体可以是根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型，生成新闻的原始标题的句法树。

图3示意了根据本发明另一实施例的提取新闻的原始标题中的句子主干内容的方法流程图。如图3所示，该方法可以包括以下步骤S302至步骤S306。

步骤S302，选取依存类型中核心关系对应的head主节点为主干谓语。

步骤S304，若主节点分词后词性为名词词性，则对所有特定类比的浅层依存的名词进行归并更新谓语；若主节点分词后词性为动词词性，则设定主节点为谓语动词。

步骤S306，对于否定词定语进行识别并归并入谓语。

在本发明的可选实施例中，还可以识别主谓关系节点，对于主语周边节点进行归并，对并列关系节点依照主语规则保持名词词性部分，其余进行节点剪枝，并设置主语节点。此外，还可以根据宾语类型，若为名词对宾语进行识别，并列关系节点全部去除，并设置宾语节点。

本发明实施例利用词法句法分析对新闻标题进行压缩式摘要，使新闻标题中的主干内容被提取的同时尽可能保留了原新闻标题中的重点信息，能够得到更准确、更严谨的新闻标题。

在本发明的可选实施例中，在上文步骤S106通过对句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容之后，还可以将提取的句子主干内容作为新闻候选标题，利用新闻标题的摘要质量评估策略，对新闻候选标题的质量进行评估，进而根据评估结果确定新闻摘要标题。

在利用新闻标题的摘要质量评估策略，对新闻候选标题的质量进行评估时，本发明实施例提供了一种可选的方案，图4示意了根据本发明一实施例的对新闻候选标题的质量进行评估的方法流程图。如图4所示，该方法可以包括以下步骤S402至步骤S406。

步骤S402，采用神经机器翻译模型对新闻的原始标题进行压缩式处理，得到新闻衡量标题。

在该步骤中，可以预先对神经机器翻译模型进行训练，例如可以使用历史上线审核后的数据对以及人工标注的数据集合使用Seq2Seq结合Attention机制训练神经机器翻译模型。

步骤S404，对新闻衡量标题和新闻候选标题，使用语言模型进行句子在该语言模型下的质量得分计算。

步骤S406，将计算得到的质量得分结果，作为对新闻候选标题的质量进行评估的评估结果。

在根据步骤S402至步骤S406将计算得到的质量得分结果，作为对新闻候选标题的质量进行评估的评估结果之后，可以进一步根据评估结果确定新闻摘要标题。

图5示意了根据本发明一实施例的根据评估结果确定新闻摘要标题的方法流程图。如图5所示，该方法可以包括以下步骤S502至步骤S504。

步骤S502，在新闻衡量标题和新闻候选标题中，根据计算得到的质量得分结果，确定质量得分最高的标题作为待选标题。

步骤S504，若该候选标题对应的质量得分大于质量分数阈值，则判断该待选标题是否满足预设审核条件，若是，则将该待选标题确定为新闻摘要标题。

这里，该待选标题是否满足预设审核条件可以包括下列至少之一：

该待选标题是否是主谓结构语法；

该待选标题是否是主谓结构语法，且谓语动词含动词成分；

在实际应用中，可以仅仅是满足预设审核条件之一，则将该待选标题确定为新闻摘要标题；也可以是满足预设审核条件中任意两个或两个以上的组合，则将该待选标题确定为新闻摘要标题；还可以是满足全部预设审核条件，则将该待选标题确定为新闻摘要标题。例如，可以首先判断该待选标题是否是主谓结构语法，若是，则继续判断谓语动词是否含动词成分。若谓语动词含动词成分，则继续判断该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值。若该待选标题与新闻的原始标题的编辑距离小于编辑距离阈值，则继续判断该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。若该待选标题与新闻的原始标题的语义距离小于语义距离阈值，则将该待选标题确定为新闻摘要标题。

在本发明的可选实施例中，在根据评估结果确定新闻摘要标题之后，还可以将新闻摘要标题提供给实时热点产品模块，从而由实时热点产品模块将新闻摘要标题作为实时热点进行展示。在实际应用中，实时热点产品模块可以将新闻摘要标题作为实时热点展示在搜索结果页中，可以提升用户的搜索体验，提高搜索引擎生成的搜索结果项的点击率。如图6A所示，在搜索词“乡村振兴”对应的搜索结果页上，以实时热点形式展示新闻摘要标题。如图6B所示，在搜索页面上以实时热点形式展示新闻摘要标题。

以上介绍了图1所示实施例的各个环节的多种实现方式，下面将通过具体实施例来详细介绍本发明的新闻标题的句子主干内容提取方法的实现过程。

图7示意了根据本发明一实施例的新闻标题的摘要方法流程图。如图7所示，该方法可以包括以下步骤S702至步骤S708。

步骤S702，对互联网上的新闻资源进行抓取，提取出新闻对应的原始标题。

步骤S704，对新闻原始标题使用分词技术、词法分析技术、句法分析技术、实体识别技术，对新闻原始标题中的句子主干内容进行抽取。

步骤S706，使用神经机器翻译模型生成相应改写候选结果。

步骤S708，使用语言模型以及语义特征评估改写质量，并对其中高质量改写结果进行自动审核。

本发明实施例利用句法分析对新闻原始标题进行压缩式摘要，使新闻原始标题中的主干内容被提取的同时尽可能保留了原新闻中的重点信息，与此同时引入改写摘要质量分模型，对改写摘要效果进行评估，对于摘要质量较好的结果进行自动审核，以降低人工运营审核的成本，并大幅降低了人工审核造成的摘要推送延迟。

下面将通过具体例子，即新闻的原始标题为“湖北安陆突降大雪压垮菜市场已救出13人”来详细介绍各部分的具体实施过程。

(1)模型预训练与已有模型获取

使用历史上线审核后的数据对以及人工标注的数据集合使用Seq2Seq结合Attention机制训练神经机器翻译模型，模型训练工具为360现有神经机器翻译工具包。

训练数据为平行语料格式如下：

Ori：银行客户经理违规放贷160万其中138万未能收回

Sum：银行客户经理违规放贷

获取360已有语言模型作为改写质量分评估。

(2)标题获取以及对标题进行词法分析过程

从网络爬虫中的抓取日志中获取新闻原始标题。

格式如下：url_id+\t+url_title+\t+crawl_time。

词法分析作为自然语言处理技术中的基本步骤，其产出的词性标注、依存关系以及实体标签类型，是后续句子主干提取、压缩式摘要等技术所依赖的基础特征。调用现有360分词模块后产出：

例：湖北安陆突降大雪压垮菜市场已救出13人

分词后：湖北/ns安陆/ns突/d降/v大雪/n压垮/v菜市场/n已/d救出/v13人/mq

其中/前为粗粒度分词后的结果，/后分词后的词性标注。

基于分词后的结果，对其中的专名与实体词采用基于序列标注的识别。

待标注的原始数据格式如表2第一列所示，使用序列标注模型产出的标注结果如表2第二、三列所示。在表2中，B表示开始的字节，E表示最后的字节，LOC表示地点。需要说明的是，此处列举仅是示意性的，并不对本发明实施例进行限制。

表2

湖	B	LOC
			北	E	LOC
安	B	LOC
			陆	E	LOC
突	0
			降	0
大	0
			雪	0
压	0
			垮	0
菜	0
			市	0
场	0
			已	0
救	0
			出	0
13	0
			人	0

对上述表2中的结果与分词后结果进行归并。

分词与实体识别后：

湖北/ns/LOC安陆/ns/LOC突/d/降/v/大雪/n/压垮/v/菜市场/n/已/d/救出/v/13人/mq/

其中/分割后第一列为粗粒度分词后的结果，第二列分词后的词性标注，第三列实体类别标注。

基于分词与识别后的结果，调用360基础句法分析模块完成句法分析。最终词法分析结果为：

湖北/ns/LOC/2/ATT

安陆/ns/LOC/4/SBV

突/d//4/ADV

降/v//0/HEAD

大雪/n//4/VOB

压垮/v//4/COO

菜市场/n//6/VOB

已/d//9/ADV

救出/v//6/COO

13人/mq//9/VOB

其中/分割后第一列为粗粒度分词后的结果，第二列分词后的词性标注，第三列实体类别标注，第四列为依存句法分析中的依存节点下标，第五列为依存类型。

(3)句子主干内容的提取

根据上文(2)产出的词法分析特征，生成句法树，通过对句法树的筛选与剪枝生成句子主干。具体规则与算法如下：

选取依存句法head节点为主干谓语；

若主节点分词后词性为名词词性：

对所有特定类比的浅层依存的名词进行归并更新谓语；

若主节点分词后词性为动词词性：

设定主节点为谓语动词；

对于否定词定语进行识别并归并入谓语；

识别其主谓逻辑关系节点：

对于主语周边节点进行归并，对并列关系节点依照主语规则保持名词词性部分其余进行节点剪枝，并设置主语节点；

根据宾语此行，若为名词对宾语进行识别，并列关系节点全部去除，并设置宾语节点。

原句：湖北安陆突降大雪压垮菜市场已救出13人

句子主干：湖北安陆降大雪压垮菜市场

(4)使用神经机器翻译模型进行改写泛化

对于每一个新闻原始标题，在分词后使用预训练好的神经机器翻译模型进行压缩式摘要，生成候选，并将句子主干同时加入候选集合。神经机器翻译对于句子文章可以进行端到端的压缩摘要。

输入样例：湖北安陆突降大雪压垮菜市场已救出13人

产出候选集合：

原句子主干：湖北安陆降大雪压垮菜市场

神经机器翻译结果：湖北大雪压垮菜市场

(5)基于语言模型的标题改写审核

对每个标题产出的候选使用语言模型进行句子在该模型下的得分计算，命名quality_score。

(6)基于规则对高质量标题进行筛选进行自动上线

初始化下列参数：

quality_threshold,

jaccard_semantic_gap_threshold,

ed_semantic_gap_threshold；

对于每一个原始标题下的改选候选：

final_candidate＝将所有候选按质量分进行排序后质量分最高的结果。

对于final_candidate,if其质量分大于quality_threshold：

if其满足主谓结构语法，且谓语动词汉动词成分：

且与原标题的编辑距离与jaccard语义距离均小于对应semantic_gap_threshold：

则该final_candidate为对应标题的自动审核压缩摘要结果。

本发明实施例大幅降低了传统标题改写中需要的大量人力投入，并解决了由于运营人员主观标准不一致造成的改写效果不一致的问题。在得到新闻摘要标题后，还可以提供给360搜索实时热点产品，该产品可以展现在搜索首页、搜索结果页右侧、浏览器首页或者360导航等。产品使用该方法对原新闻标题改写并自动上线后，相比原人工编辑的方法产品点击率有明显提升。

需要说明的是，实际应用中，上述所有可选实施方式可以采用结合的方式任意组合，形成本发明的可选实施例，在此不再一一赘述。

基于上文各个实施例提供的新闻标题的句子主干内容提取方法，基于同一发明构思，本发明实施例还提供了一种新闻标题的句子主干内容提取装置。

图8示意了根据本发明一实施例的新闻标题的句子主干内容提取装置的结构图。如图8所示，该装置可以包括分析模块810、生成模块820以及提取模块830。

现介绍本发明实施例的新闻标题的句子主干内容提取装置的各组成或器件的功能以及各部分间的连接关系：

分析模块810，适于获取新闻的原始标题，并对新闻的原始标题进行词法句法分析，得到分析结果；

生成模块820，与分析模块810相耦合，适于基于所述分析结果，生成新闻的原始标题的句法树；

提取模块830，与生成模块820相耦合，适于通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容。

在本发明的可选实施例中，所述分析模块810还适于：

对新闻的原始标题进行分词处理，得到多个分词；

在本发明的可选实施例中，所述对新闻的原始标题进行分词处理的方法包括下列至少之一：

基于字符串匹配的分词方法；

基于语义理解的分词方法；

基于统计的分词方法。

在本发明的可选实施例中，所述分析模块810还适于：

在本发明的可选实施例中，所述实体类别包括下列任意之一：

人名、地名、机构名、品牌名、软件名。

在本发明的可选实施例中，所述分析模块810还适于：

在本发明的可选实施例中，所述生成模块820还适于：

在本发明的可选实施例中，所述提取模块830还适于：

选取依存类型中核心关系对应的head主节点为主干谓语；

对于否定词定语进行识别并归并入谓语。

在本发明的可选实施例中，所述提取模块830还适于：

在本发明的可选实施例中，如图9所示，上文图8展示的装置还可以包括：

标题质量评估模块910，适于在所述提取模块830通过对所述句法树的筛选与剪枝，提取新闻的原始标题的句子主干内容之后，将提取的句子主干内容作为新闻候选标题；

在本发明的可选实施例中，所述标题质量评估模块910还适于：

在本发明的可选实施例中，所述该待选标题是否满足预设审核条件包括下列至少之一：

该待选标题是否是主谓结构语法；

该待选标题是否是主谓结构语法，且谓语动词含动词成分；

提供模块920，适于在所述标题质量评估模块910根据评估结果确定新闻摘要标题之后，将所述新闻摘要标题提供给实时热点产品模块，从而由实时热点产品模块将所述新闻摘要标题作为实时热点进行展示。

基于同一发明构思，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据上述的新闻标题的句子主干内容提取方法。

基于同一发明构思，本发明实施例还提供了一种计算设备，包括：处理器；以及存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据上述的新闻标题的句子主干内容提取方法。

根据上述任意一个可选实施例或多个可选实施例的组合，本发明实施例能够达到如下有益效果：

所属领域的技术人员可以清楚地了解到，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种新闻标题的句子主干内容提取方法，包括：

基于所述分析结果，生成新闻的原始标题的句法树；

2.根据权利要求1所述的方法，其中，所述对新闻的原始标题进行词法句法分析，得到分析结果，包括：

对新闻的原始标题进行分词处理，得到多个分词；

3.根据权利要求1或2所述的方法，其中，所述对新闻的原始标题进行分词处理的方法包括下列至少之一：

基于字符串匹配的分词方法；

基于语义理解的分词方法；

基于统计的分词方法。

4.根据权利要求1-3中任一项所述的方法，其中，对所述多个分词中的各分词进行实体类别标注，包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述实体类别包括下列任意之一：

人名、地名、机构名、品牌名、软件名。

6.根据权利要求1-5中任一项所述的方法，其中，所述基于各分词的词性标注和实体类别标注，对新闻的原始标题进行依存句法分析，识别各分词的依存节点下标和依存类型，包括：

7.根据权利要求1-6中任一项所述的方法，其中，基于所述分析结果，生成新闻的原始标题的句法树，包括：

8.一种新闻标题的句子主干内容提取装置，包括：

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-7中任一项所述的新闻标题的句子主干内容提取方法。

10.一种计算设备，包括：

处理器；以及

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行根据权利要求1-7中任一项所述的新闻标题的句子主干内容提取方法。