CN110427482A

CN110427482A - 一种目标内容的抽取方法及相关设备

Info

Publication number: CN110427482A
Application number: CN201910716302.1A
Authority: CN
Inventors: 童国烽; 譚翊章
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-08
Anticipated expiration: 2039-07-31
Also published as: CN110427482B

Abstract

本发明实施例公开了一种目标内容的抽取方法及相关设备，包括：首先获取训练文本；接着确定训练文本的训练信息；其次根据训练信息，确定多个段落中每个段落的精彩片段；再根据训练信息和精彩片段对第一待训练模型进行训练得到摘要粗提模型；然后根据摘要粗提模型，确定第二待训练模型的训练数据以训练摘要精排模型；最后，根据摘要粗提模型和摘要精排模型确定待处理文本的目标内容。采用本发明实施例，可以实现针对书籍或长文本的精彩内容的自动抽取。

Description

一种目标内容的抽取方法及相关设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种目标内容的抽取方法及相关设备。

背景技术

随着互联网技术的迅速发展，人们每天接收到海量的信息。为了迅速的从海量信息中获取所需信息，摘要/精彩内容抽取方法成为热点研究技术。目前，已经投入使用的摘要/精彩内容抽取方法包括：(1)工业界最常用的无监督的TextRank算法，该算法本质上是一种基于图的排序算法。(2)经典的有监督抽取式摘要算法，如SummaRuNNer模型，该模型的主要思想是将抽取式摘要任务形式化为对句子做序列化标注。然而，一方面，以TextRank算法为代表的无监督算法只能考虑到句子间浅层的语义信息，产生的摘要无法避免句子间信息冗余的问题，且不能充分利用一些的外部特征(如读者行为特征)。另一方面，以SummaRuNNer模型为代表的有监督摘要模型没有充分利用到预训练的信息，且无法保证生成的摘要是相互关联的片段。第三方面，上述两类方法不仅无法直接利用文本的类型信息，而且无法直接迁移到书籍等长文本的精彩内容抽取任务上。

发明内容

本发明提供一种目标内容的抽取方法及相关设备，可以实现针对书籍或长文本的精彩内容的自动抽取。

第一方面，本发明实施例提供了一种目标内容的抽取方法，包括：

获取第一训练文本，所述第一训练文本为文本长度超过预设阈值的长文本；

确定所述第一训练文本的训练信息，所述训练信息包括所述第一训练文本中的多个段落、所述第一训练文本的类型信息以及所述第一训练文本的读者的行为特征；

根据所述行为特征，确定所述多个段落中每个段落的精彩片段；

将所述类型信息、所述多个段落和所述精彩片段输入第一待训练模型进行训练，得到摘要粗提模型；

根据所述摘要粗提模型，确定待处理文本的目标内容。

其中，所述根据所述摘要粗提模型，确定待处理文本的目标内容包括：

根据所述摘要粗提模型，确定第二待训练模型的训练数据；

将所述训练数据输入第二待训练模型进行训练，得到摘要精排模型；

根据所述摘要粗提模型和所述摘要精排模型，确定所述目标内容。

其中，所述根据所述摘要粗提模型和所述摘要精排模型，确定所述目标内容包括：

将所述待处理文本输入所述摘要粗提模型，得到多个候选精彩片段；

根据所述摘要精排模型，确定所述多个候选精彩片段中每个候选精彩片段的精彩程度排名；

根据所述精彩程度排名，确定所述多个候选精彩片段中的目标精彩片段，所述目标内容包括所述目标精彩片段。

其中，所述行为特征包括读者评论数或读者划线数；

所述根据所述摘要粗提模型，确定第二待训练模型的训练数据包括：

获取第二训练文本，所述第二训练文本为文本长度超过所述预设阈值的长文本；

根据所述摘要粗提模型，确定所述第二训练文本中的多个精彩片段

将所述多个精彩片段进行两两组合得到所述训练数据；

所述将所述训练数据输入第二待训练模型进行训练，得到摘要精排模型包括：

根据所述训练数据所包含的两个精彩片段的读者划线数或读者评论数，确定所述训练数据的分类标签；

将所述训练数据和所述分类标签输入所述第二待训练模型进行训练，得到所述摘要精排模型。

其中，所述待处理文本包括多个章节；

所述根据所述摘要精排模型，确定所述多个候选精彩片段中每个候选精彩片段的精彩程度排名包括：

确定所述多个章节中每个章节对应的读者划线数或读者评论数；

根据所述每个章节对应的读者划线数或读者评论数，确定排序阈值，所述排序阈值包括置信度阈值和分档阈值；

根据所述排序阈值和所述摘要精排模型，确定所述精彩程度排名。

其中，所述根据所述排序阈值和所述摘要精排模型，确定所述精彩程度排名包括：

根据所述置信度阈值、以及所述每个候选精彩片段的读者评论数或读者划线数，对所述多个候选精彩片段进行分类，得到可信精彩片段和不可信精彩片段；

按照所述分档阈值确定所述可信精彩片段的热门档次，并根据所述热门档次和所述摘要精排模型确定所述可信精彩片段的精彩程度排名；以及

确定所述不可信精彩片段在每个热门档次对应的至少一个可信精彩片段中的精彩程度预测排名，并根据所述精彩程度预测排名确定所述不可信精彩片段的精彩程度排名。

其中，所述根据所述精彩程度预测排名确定所述不可信精彩片段的精彩程度排名包括：

确定多个热门档次对应的精彩程度预测排名的平均排名；

根据所述平均排名，确定所述不可信片段的精彩程度排名。

其中，所述根据所述热门档次和所述摘要精排模型确定所述可信精彩片段的精彩程度排名包括：

确定所述热门档次高的可信精彩片段的精彩程度排名高于所述热门档次低的可信精彩片段；以及

根据所述摘要精排模型，确定所述热门档次相同的可信精彩片段之间的精彩程度排名。

其中，所述根据所述摘要粗提模型，确定待处理文本的目标内容之后，还包括：

显示推荐信息，所述推荐信息包括所述目标内容、用于向用户推荐所述待处理文本。

第二方面，本发明实施例提供了一种目标内容的抽取装置，包括：

样本采集模块，用于获取第一训练样本，所述第一训练文本为文本长度超过预设阈值的长文本；

信息确定模块，用于确定所述第一训练文本的训练信息，所述训练信息包括所述第一训练文本中的多个段落、所述第一训练文本的类型信息以及所述第一训练文本的读者的行为特征；

所述信息确定模块，还用于根据所述行为特征，确定所述多个段落中每个段落的精彩片段；

模型训练模块，用于将所述类型信息和所述精彩片段输入第一待训练模型进行训练，得到摘要粗提模型；

文本摘要模块，用于根据所述摘要粗提模型，确定待处理文本的目标内容。

其中，所述模型训练模块还用于：

根据所述摘要粗提模型，确定第二待训练模型的训练数据；

所述文本摘要模块还用于：

其中，所述文本摘要模块还用于：

其中，所述行为特征包括读者评论数或读者划线数；

所述样本采集模块还用于：

所述信息确定模块还用于：

将所述多个精彩片段进行两两组合得到所述训练数据；

所述模型训练模块还用于：

其中，所述待处理文本包括多个章节；

所述文本摘要模块还用于：

其中，所述文本摘要模块还用于：

确定多个热门档次对应的精彩程度预测排名的平均排名；

根据所述平均排名，确定所述不可信片段的精彩程度排名。

其中，所述文本摘要模块还用于：

其中，所述装置还包括显示模块，用于：

第三方面，本发明实施例提供了一种目标内容的抽取设备，包括：处理器、存储器和通信总线，其中，通信总线用于实现处理器和存储器之间连接通信，处理器执行存储器中存储的程序用于实现上述第一方面提供的一种目标内容的抽取方法中的步骤。

在一个可能的设计中，本发明提供的实体识别设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或硬件。

本发明实施例的又一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载并执行上述各方面所述的方法。

本发明实施例的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

实施本发明实施例，首先获取训练文本；接着确定训练文本的训练信息；其次根据训练信息，确定多个段落中每个段落的精彩片段；再根据训练信息和精彩片段对第一待训练模型进行训练得到摘要粗提模型；然后根据摘要粗提模型，确定第二待训练模型的训练数据以训练摘要精排模型；最后，根据摘要粗提模型和摘要精排模型确定待处理文本的目标内容。可以实现针对书籍或长文本的精彩内容的自动抽取。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种目标内容的抽取方法的流程示意图；

图2是本发明实施例提供的一种摘要粗提模型的结构示意图；

图3是本发明实施例提供的另一种目标内容的抽取方法的流程示意图；

图4是本发明实施例提供的一种精彩程度排名的流程示意图；

图5是本发明实施例提供的一种两阶段的目标内容抽取方法的流程示意图；

图6是本发明实施例提供的一种目标内容的抽取装置结构示意图；

图7是本发明实施例提供的一种目标内容的抽取设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种目标内容的抽取方法的流程示意图，该方法包括但不限于如下步骤：

S101，获取训练文本，该训练文本为文本长度超过预设阈值的长文本。

具体实现中，训练文本可以是文本长度超过预设阈值的长文本，预设阈值可以是指训练文本的总字数(如1万字)、总章节/段落数。其中，可以但不限于获取多本完整的书籍，并将每本完整的书籍作为一个训练文本。

S102，确定训练文本的训练信息，该训练信息包括训练文本中的多个段落、训练文本的类型信息以及训练文本的读者的行为特征。

具体实现中，第一方面，训练信息可以包括训练文本中的多个段落，其中，可以首先按照章节对训练文本(即一本完整的书)进行切分，再将每个章节划分为多个段落，其中，若某个段落的字数超过阈值(如504)，则需要再将该段落再次切分为两个或两个以上字数不超过该阈值的段落。例如，书籍XXX中包括3个章节，其中，第1个章节中包括3个字数少于504的段落、第2个章节中包括4个字数少于504的段落、以及第3个章节中包括2个字数少于504的段落和1个字数为896的段落，因此接着需要将字数为896的段落划分为分别包含504和392个字的两个段落，从而得到该训练文本中的3+4+2+2＝11个段落。

第二方面，由于不同类型或领域的书籍/文本风格迥异，因此训练信息还可以包括训练文本的类型信息。其中，类型信息可以是书籍出版时归类的书籍类型，如文学艺术、悬疑小说等。

第三方面，训练信息还可以包括训练文本的读者的行为特征。其中，对于书中的精彩内容，读者通常喜欢通过划线或者评论的方式进行记录，因此行为特征可以是在一段时间内、或从书籍出版以来读者针对该书籍中各个段落/章节的划线数或评论数。

S103，根据行为特征，确定多个段落中每个段落的精彩片段。

具体实现中，可以但不限于将每个段落中读者划线数或读者评论数大于一定阈值的片段作为该段落的精彩片段。其中，所述阈值可以根据书籍的上架时间、点读/销售数量等因素来综合分析并确定。其中，若出现某个段落的读者划线数或读者评论数均为0的情况，则一种可能的应对方法为：将该段落的精彩片段设置为no answer。

S104，将类型信息、多个段落和精彩片段输入待训练模型进行训练，得到摘要粗提模型。

具体实现中，可首先将类型信息(记为A)进行序列化，得到A＝{a₁,a₂,...,a_n}，然后，针对每个段落，先将该段落(记为Q)进行序列化，得到Q＝{q₁,q₂,...,q_n}，再利用待训练模型中用于区分不同种类的序列的特殊符号将A和Q进行拼接，得到一组模型训练数据(记为I)，其中，待训练模型可以是基于BERT(Bidirectio-nal Encoder Representation fromTransformers)的模型，BERT模型中用于区分Q和A的特殊符号分别为CLS和SEP，从而得到

I＝{[CLS]；A[SEP]；Q[SEP]} (1)

当然，待训练模型还可以是SummaRuNNer模型，但是在训练时需要对该模型做一些调整。例如，需要加入重采样或降采样的方法以缓解类别不平衡的问题。

例如：如图2所示为训练得到的摘要粗提模型，该模型利用完全的自我注意力机制的特征映射、包括嵌入表示层、BERT层、抽取层。其中，嵌入表示层又可以分为字/词嵌入表示(token embedding)层、段落嵌入表示(segment embedding)层和位置嵌入表示(position embedding)层，用于从多个维度对输入文本进行向量化表示。如图所示，输入信息的第i个位置的输入经过BERT层之后得到一个隐藏层的向量T_i，其中，第i个位置为输入的第i个字所在的位置，比如，在图2中，“学”所在的位置即为第3个位置、“独”所在的位置即为第7个位置。接着再经过一个抽取层来计算每个位置对应的起始(start)概率和终止(end)概率，其中，start概率表示该位置为精彩片段的起始点的概率、end概率表示该位置为精彩片段的结束点的概率。利用模型训练过程中的学习到的start矩阵S和end矩阵E来进行特征变换，即可得到每个位置的start概率(记为P₁)和end概率(记为P₂)，其中，第i个位置的P₁和P₂可以分别按照(2)式和(3)式进行计算。

在实际应用中，摘要粗提模型输出的最终结果为start概率和end概率最大的一个连续且合法的区间对应的文本片段。例如，如图2所示，摘要粗提模型将输出“孤独是一颗…”所在段落的精彩片段“孤独是一颗值得理解的心灵寻求理解而不可得，它是悲剧性的。”

需要说明的是，在模型训练时，可以刻意加入一些不包含精彩片段的训练数据，以训练摘要粗提模型判断段落中是否包含精彩片段的能力。

通过读者划线过或评论过的片段(精彩片段)，摘要粗提模型可以充分学***衡问题，进而提高抽取出精彩片段的质量。

S105，根据摘要粗提模型，确定待处理文本的目标内容。

具体实现中，待处理文本可以为书籍，也可以为其他任意长度的文档/文本。首先，可以将待处理文本按照段落进行分割，从而得到多个段落，其中，若某个段落的总字数超过阈值，同样需要将其进行二次分割。然后将得到的每个段落分别输入摘要粗提模型，以便确定得到每个段落是否包含精彩片段、并输出对应的精彩片段。若某个段落不包含精彩片段，则输出no answers，否则，输出对应的精彩片段。在得到每个段落对应的精彩片段之后，可以但不限于将这多个精彩片段拼接为待处理文本的目标内容，该目标内容为待处理文本中的精彩内容，如表达中心思想的内容、用词精妙或辞藻华丽的内容等等。

可选的，在确定待处理文本的目标内容之后，可以显示推荐信息，该推荐信息包括待处理文本(如书籍)的目标内容、用于向用户推荐该书籍。例如，在速度场景中，通过向用户展示一本书的精彩内容，可以帮助有长文焦虑或者喜欢“轻阅读”的读者快速地“跳读”全书/章节。

在本发明实施例中，首先获取训练文本，该训练文本为文本长度超过预设阈值的长文本；接着确定训练文本的训练信息，该训练信息包括训练文本中的多个段落、训练文本的类型信息以及训练文本的读者的行为特征；其次根据行为特征，确定多个段落中每个段落的精彩片段；然后将类型信息、多个段落和精彩片段输入第一待训练模型进行训练，得到摘要粗提模型；根据摘要粗提模型，确定待处理文本的目标内容。可以实现针对书籍或长文本的精彩内容的自动抽取、以及通过将书籍的类型信息纳入考虑可以提高精彩片段/内容抽取的准确性。

请参见图3，图3是本发明实施例提供的另一种目标内容的抽取方法的流程示意图，该方法包括但不限于如下步骤：

S301，获取训练文本，该训练文本为文本长度超过预设阈值的长文本。本步骤与上一实施例中的S101相同，本步骤不再赘述。

S302，确定训练文本的训练信息，该训练信息包括训练文本中的多个段落、训练文本的类型信息以及训练文本的读者的行为特征。本步骤与上一实施例中的S102相同，本步骤不再赘述。

S303，根据行为特征，多个段落中每个段落的精彩片段。本步骤与上一实施例中的S103相同，本步骤不再赘述。

S304，将类型信息、多个段落和精彩片段输入第一待训练模型，得到摘要粗提模型。本步骤与上一实施例中的S104相同，本步骤不再赘述。

S305，根据摘要粗提模型，确定第二待训练模型的训练数据。

具体实现中，可以首先获取训练文本，其中，本步骤获取的训练文本通常与步骤S301所获取的训练文本不相同，并且本步骤获取的训练文本也可以是一本完整的书籍等文本长度超过预设阈值的长文本。接着将获取到的训练文本划分为长度不超过阈值(如504个字)的多个段落，并将多个段落依次输入摘要粗提模型，以便得到每个段落的精彩片段。其中，第二待训练模型可以但不限于为基于pairwise的BERT模型，因此可以将利用摘要粗提模型确定的多个精彩片段进行两两组合作为第二待训练模型的训练数据。其中，两两组合是指将属于同一个段落的精彩片段进行两两组合，每个组合作为一组训练数据。当然也可以不区分段落，直接将多个片段进行任意的两两组合。例如，将精彩片段A和B进行组合得到A+B，则A+B即为一组训练数据。

S306，将训练数据输入第二待训练模型进行训练，得到摘要精排模型。

具体实现中，首先确定每个组训练数据所包含的两个精彩片段的读者评论数或读者划线数。

接着，根据读者评论数或读者划线数确定该组训练数据的分类标签(label)，在本发明实施例中将训练数据为三类，对应的label分别为1、0和-1。以训练数据A+B为例，如(4)-(6)式所示：1)若精彩片段A的读者评论数或读者划线数大于精彩片段B，则说明A比B更精彩，因此将A+B的分类标签确定为1；2)若精彩片段A的读者评论数或读者划线数等于精彩片段B，则说明A和B的精彩程度相同，因此将A+B的分类标签确定为0；3)若精彩片段A的读者评论数或读者划线数小于精彩片段B，则说明B比A更精彩，因此将A+B的分类标签确定为-1。

label＝1，则表示Rank(A)>Rank(B) (4)

label＝0，则表示Rank(A)＝Rank(B) (5)

label＝-1，则表示Rank(A)<Rank(B) (6)

然后，将每组训练数据以及对应的分类标签输入第二待训练模型进行训练，得到摘要精排模型。

S307，根据摘要粗提模型和摘要精排模型，确定待处理文本的目标内容。

具体实现中，可以首先将待处理文本输入摘要粗提模型，得到多个候选精彩片段；接着根据摘要精排模型，确定每个候选精彩片段的精彩程度排名。其中，可以将多个候选精彩片段两两组合并输入摘要精排模型，以便先得到每两个候选精彩片段的精彩程度的高低再据此确定多个候选精彩片段之间的精彩程度排名。然后，根据精彩程度排名，确定多个候选精彩片段中的目标精彩片段，其中，可以将排在前N位的候选精彩片段作为目标精彩片段，最后将目标精彩片段组合起来作为待处理文本的目标内容。

由于摘要精排模型的训练数据的构造依据的是读者评论数或读者划线数，在实际使用该模型时必须舍弃读者行为特征，以保证模型输出结果的可靠性。因此在本发明实施例中，采用了热门档次分档的方式来利用该行为特征，以弥补此缺陷、提高精彩程度排名准确性。如图4所示，候选精彩片段的精彩程度排名的确定主要包括以下几个步骤：

(1)确定待处理文本中的多个章节中每个章节对应的读者划线数或读者评论数，并根据每个章节对应的读者划线数或读者评论数，确定排序阈值，该排序阈值可以包括置信度阈值和分档阈值。其中，可以统计读者划线数或读者评论数在各个章节的分布特征。例如，确定各个章节的读者划线数或读者评论数的平均值、最高值和最低值等等，然后将平均值作为置信度阈值，以及根据最高值和最低值来确定分档阈值，比如，最高值为1000、最低值为100，则可以将第一档热门档次的分档阈值确定为800，第二档热门档次的分档阈值确定为500、以及将第三档热门档次的分档阈值确定为100。通过启发式的方式来确定置信度阈值和分档阈值，可以对不同上架时间、不同销售热度的书籍进行区别对待，可以提高精彩程度排名的准确性。

(2)根据排序阈值和摘要精排模型，确定精彩程度排名。其中，可以根据置信度阈值、以及每个候选精彩片段的读者评论数或读者划线数，对多个候选精彩片段进行分类，得到可信精彩片段和不可信精彩片段，其中，一种可能的实现方式为：将读者评论数或读者划线数大于置信度阈值的候选精彩片段作为可信精彩片段、以及将读者评论数或读者划线数不大于置信度阈值的候选精彩片段作为不可信精彩片段。基于此，一方面，针对可信精彩片段，可以先按照分档阈值确定每个可信精彩片段的热门档次，其中，当可信精彩片段的读者评论数或读者划线数高于某一档热门档次的分档阈值时，则确定可信精彩片段属于该热门档次。热门档次可以划分为多档，如level 1、level 2、…、level n，具体分档数量可以根据使用的应用场景和用户需求来确定。再根据热门档次和摘要精排模型确定可信精彩片段的精彩程度排名，其中，热门档次高的可信精彩片段的精彩程度排名高于热门档次低的可信精彩片段，而属于同一热门档次的多个可信精彩片段之间的精彩程度排名则需要根据摘要精排模型来确定，其中，可以将该多个可信精彩片段依次两两输入摘要精排模型，以实现先确定每两个可信精彩片段之间精彩程度的高低再据此确定同一档次包含的多个可信精彩片段之间的精彩程度排名。

例如：可信精彩片段包括A、B、C、D、E。其中，第一档热门档次包括A、B和C，第二档热门档次包括D和E，则将A+B、A+C和B+C依次输入摘要精排模型，得到A的精彩程度高于B和C、以及B的精彩程度低于C，则A、B和C的精彩程度排名依次为1、3和2。同理得到D和E的精彩程度排名为2、1。从而得到A、B、C、D、E从高到低的整体排名为A、C、B、E、D。

另一方面，针对不可信精彩片段，可以首先确定不可信精彩片段在每个热门档次对应的至少一个可信精彩片段中的精彩程度预测排名，例如，第一档热门档次的可信精彩片段包括A、B和C，则针对某个不可信精彩片段G，将其假设为第一档的热门档次的片段参与A、B、C的档次内部排名。根据摘要精排模型得到A、B、C和D的排名从高到低依次为B、A、G、C，即G在第一档热门档次中的精彩程度预测排名为3。然后根据精彩程度预测排名确定不可信精彩片段的精彩程度排名，其中，可以先确定多个热门档次对应的精彩程度预测排名的平均排名，再根据平均排名，确定不可信精彩片段的精彩程度排名。

例如：第一档热门档次的可信精彩片段包括A、B和C，第二档热门档次的可信精彩片段包括D和E。不可信精彩片段G在第一档的热门档次和第二档的热门档次中的精彩程度预测排名为3和2，因此精彩程度预测排名的平均排名为2.5。又因为可信精彩片段A、B、C、D、E从高到低的整体排名为A、C、B、E、D，所以A、B、C、D、E和G的从高到低的整体排名为A、C、G、B、E、D。

需要说明的是，如图4所示，若不存在可信赖的已分档候选精彩片段，即不存在可信精彩片段，则直接使用摘要精排模型来确定不可信精彩片段之间的精彩程度排名。

综上所述，如图5所示，本发明实施例提供的精彩内容的提取方法包括两个步骤：摘要粗提和摘要精排。其中，摘要粗提利用了有监督的摘要模型对段落进行精彩片段的召回，摘要精排利用了半监督的排序模型来对全局调优摘要粗提的摘要结果，从而得到最终的精彩内容。本发明实施例中的方法可以应用于多种实际场景，给用户带来良好的使用体验。例如，第一，在速度场景中，利用全书摘要，可以帮助有长文焦虑的读者跳读全书/章节。第二，在推荐场景中，可以利用本发明提取的精彩内容作为一本书的简短推荐语，以吸引用户点击阅读或购买书籍。第三，在长尾内容挖掘场景：新书上架或者冷门小众书推广，可以借助抽取的精彩内容来展示向用户展示该书籍，从而解决这些书的冷启动问题。第四，在个性化场景中，由于一本书中的内容五花八门，本发明提取的精彩内容还可以与用户画像结合，以实现个性化推送服务等。

在本发明实施例中，首先获取训练文本，并确定训练文本的训练信息，该训练信息包括训练文本中的多个段落、训练文本的类型信息以及训练文本的读者的行为特征；接着可以根据行为特征，多个段落中每个段落的精彩片段。其次将类型信息、多个段落和精彩片段输入第一待训练模型，得到摘要粗提模型；然后根据摘要粗提模型，确定第二待训练模型的训练数据、以及将训练数据输入第二待训练模型进行训练，得到摘要精排模型；最后根据摘要粗提模型和摘要精排模型，确定待处理文本的目标内容。其中，无论是有监督的摘要粗提模型还是半监督的摘要精排模型的所有监督数据都是基于热门书中用户行为特征构造，可以在无须任何额外的人工标注数据前提下，实现对书籍等长文本的精彩内容的自动抽取。并且在摘要粗排模型中创新性地提出用机器阅读理解式的方法来对段落中的精彩片段进行预测，可以保障精彩片段/内容抽取的准确性。

上述详细阐述了本发明实施例的方法，下面提供了本发明实施例的相关设备。

请参见图6，图6是本发明实施例提供的一种目标内容的抽取装置的结构示意图，该装置可以包括：

样本采集模块601，用于获取第一训练文本，该第一训练文本为文本长度超过预设阈值的长文本

具体实现中，第一训练文本可以是文本长度超过预设阈值的长文本，预设阈值可以是指训练文本的总字数(如1万字)、总章节/段落数。其中，可以但不限于获取多本完整的书籍，并将每本完整的书籍作为一个训练文本。

信息确定模块602，用于确定训练文本的训练信息，该训练信息包括训练文本中的多个段落、训练文本的类型信息以及训练文本的读者的行为特征。

具体实现中，第一方面，训练信息可以包括训练文本中的多个段落，其中，可以首先按照章节对训练文本(即一本完整的书)进行切分，再将每个章节划分为多个段落，其中，若某个段落的字数超过阈值(如504)，则需要再将该段落切分为两个或两个以上字数不超过该阈值的段落。

信息确定模块602，还用于根据行为特征，确定多个段落中每个段落的精彩片段。

模型训练模块603，用于将类型信息、多个段落和精彩片段输入待训练模型进行训练，得到摘要粗提模型。

具体实现中，可首先将类型信息(记为A)进行序列化，得到A＝{a₁,a₂,...,a_n}，然后，针对每个段落，先将该段落(记为Q)进行序列化，得到Q＝{q₁,q₂,...,q_n}，再利用待训练模型中用于区分不同种类的序列的特殊符号将A和Q进行拼接，得到一组模型训练数据(记为I)，其中，待训练模型可以是基于BERT的模型，BERT模型中用于区分Q和A的特殊符号分别为CLS和SEP，从而得到

I＝{[CLS]；A[SEP]；Q[SEP]} (7)

在实际应用中，摘要粗提模型输出的最终结果为start概率和end概率最大的一个连续且合法的区间对应的文本片段。

文本摘要模块604，用于根据摘要粗提模型，确定待处理文本的目标内容。

具体实现中，待处理文本可以为书籍，也可以为其他任意长度的文档/文本。首先，可以将待处理文本按照段落进行分割，从而得到多个段落，其中，若某个段落的总字数超过预设阈值，同样需要将其进行二次分割。然后将得到的每个段落分别输入摘要粗提模型，以便确定得到每个段落是否包含精彩片段、并输出对应的精彩片段，其中，若某个段落不包含精彩内容，则输出no answers，否则，输出对应的精彩片段。在得到每个段落对应的精彩片段之后，可以但不限于将这多个精彩片段拼接为待处理文本的目标内容。

可选的，本发明实施例中的装置还可以包括显示模块，用于在确定待处理文本的目标内容之后，可以显示推荐信息，该推荐信息包括待处理文本(如书籍)的精彩内容、用于向用户推荐该书籍。

可选的，样本采集模块601还用于获取第二训练文本，其中，第二训练文本通常与第一训练文本不相同，并且第二训练文本也可以是一本完整的书籍等文本长度超过预设阈值的长文本。

可选的，模型训练模块603，还用于根据摘要粗提模型，确定第二待训练模型的训练数据。其中，可以先将获取到的训练文本划分为长度不超过阈值(如504个字)的多个段落，并将多个段落依次输入摘要粗提模型，以便得到每个段落的精彩片段。其中，第二待训练模型可以但不限于为基于pairwise的BERT模型，因此可以将利用摘要粗提模型确定的多个精彩片段进行两两组合作为第二待训练模型的训练数据。其中，两两组合是指将属于同一个段落的精彩片段进行两两组合，每个组合作为一组训练数据。当然也可以不区分段落，直接将多个片段进行任意的两两组合。

可选的，模型训练模块603，还用于将训练数据输入第二待训练模型进行训练，得到摘要精排模型。其中，可以首先确定每个组训练数据所包含的两个精彩片段的读者评论数或读者划线数。接着，根据读者评论数或读者划线数确定该组训练数据的分类标签(label)，在本发明实施例中将训练数据为三类，对应的label分别为1、0和-1。以训练数据A+B为例，如(4)-(6)式所示：1)若精彩片段A的读者评论数或读者划线数大于精彩片段B，则说明A比B更精彩，因此将A+B的分类标签确定为1；2)若精彩片段A的读者评论数或读者划线数等于精彩片段B，则说明A和B的精彩程度相同，因此将A+B的分类标签确定为0；3)若精彩片段A的读者评论数或读者划线数小于精彩片段B，则说明B比A更精彩，因此将A+B的分类标签确定为-1。然后，将每组训练数据以及对应的分类标签输入第二待训练模型进行训练，得到摘要精排模型。

文本摘要模块604，还用于根据摘要粗提模型和摘要精排模型，确定待处理文本的目标内容。

(2)根据排序阈值和摘要精排模型，确定精彩程度排名。其中，可以根据置信度阈值、以及每个候选精彩片段的读者评论数或读者划线数，对多个候选精彩片段进行分类，得到可信精彩片段和不可信精彩片段其中一种可能的实现方式为：将读者评论数或读者划线数大于置信度阈值的候选精彩片段作为可信精彩片段、以及将读者评论数或读者划线数不大于置信度阈值的候选精彩片段作为不可信精彩片段。基于此，一方面，针对可信精彩片段，可以先按照分档阈值确定每个可信精彩片段的热门档次，其中，当可信精彩片段的读者评论数或读者划线数高于某一档热门档次的分档阈值时，则确定可信精彩片段属于该热门档次。热门档次划分为多档，如level 1、level 2、…、level n，具体分档数量可以根据使用的应用场景和用户需求来确定。再根据热门档次和摘要精排模型确定可信精彩片段的精彩程度排名，其中，热门档次高的可信精彩片段的精彩程度排名高于热门档次低的可信精彩片段，而属于同一热门档次的多个可信精彩片段之间的精彩程度排名则需要根据摘要精排模型来确定，其中，可以将该多个可信精彩片段依次两两输入摘要精排模型，以实现先确定每两个可信精彩片段之间精彩程度的高低再据此确定所述多个可信精彩片段之间的精彩程度的排名。

例如：可信精彩片段包括A、B、C、D、E。其中，第一档热门档次包括A、B和C，第二档热门档次包括D和E，的则将A+B、A+C和B+C依次输入摘要精排模型，得到A的精彩程度高于B和C、以及B的精彩程度低于C，则A、B和C的精彩程度排名依次为1、3和2。同理得到D和E的精彩程度排名为2、1。从而得到A、B、C、D、E从高到低的整体排名为A、C、B、E、D。

另一方面，针对不可信精彩片段，可以首先确定不可信精彩片段在每个热门档次对应的至少一个可信精彩片段中的精彩程度预测排名，例如，第一档热门档次的可信精彩片段包括A、B和C，则针对某个不可信精彩片段G，将其假设为第一档的热门档次参与A、B、C的档次内部排名。根据摘要精排模型得到A、B、C和D的排名从高到低依次为B、A、G、C，即G在第一档热门档次中的精彩程度预测排名为3。然后根据精彩程度预测排名确定不可信精彩片段的精彩程度排名，其中，可以先确定多个热门档次对应的精彩程度预测排名的平均排名，再根据平均排名，确定不可信精彩片段的精彩程度排名。

请参见图7，图7是本发明实施例提供的一种目标内容的抽取设备的结构示意图。如图所示，该设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704。

其中，处理器701可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。通信总线704可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信总线704用于实现这些组件之间的连接通信。其中，本发明实施例中设备的通信接口702用于与其他节点设备进行信令或数据的通信。存储器703可以包括易失性存储器，例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory，NVRAM)、相变化随机存取内存(PhaseChange RAM，PRAM)、磁阻式随机存取内存(Magetoresistive RAM，MRAM)等，还可以包括非易失性存储器，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、闪存器件，例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件，例如固态硬盘(SolidState Disk，SSD)等。存储器703可选的还可以是至少一个位于远离前述处理器701的存储装置。存储器703中存储一组程序代码，且处理器701执行存储器703中的程序：

根据所述摘要粗提模型，确定待处理文本的目标内容。

可选的，处理器701还用于执行如下操作步骤：

根据所述摘要粗提模型，确定第二待训练模型的训练数据；

可选的，处理器701还用于执行如下操作步骤：

可选的，所述行为特征包括读者评论数或读者划线数；

处理器701还用于执行如下操作步骤：

将所述多个精彩片段进行两两组合得到所述训练数据；

可选的，所述待处理文本包括多个章节；

处理器701还用于执行如下操作步骤：

可选的，处理器701还用于执行如下操作步骤：

确定多个热门档次对应的精彩程度预测排名的平均排名；

根据所述平均排名，确定所述不可信片段的精彩程度排名。

可选的，处理器701还用于执行如下操作步骤：

进一步的，处理器还可以与存储器和通信接口相配合，执行上述发明实施例中目标内容的抽取装置的操作。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标内容的抽取方法，其特征在于，所述方法包括：

根据所述摘要粗提模型，确定待处理文本的目标内容。

2.如权利要求1所述的方法，其特征在于，所述根据所述摘要粗提模型，确定待处理文本的目标内容包括：

根据所述摘要粗提模型，确定第二待训练模型的训练数据；

3.如权利要求2所述的方法，其特征在于，所述根据所述摘要粗提模型和所述摘要精排模型，确定所述目标内容包括：

4.如权利要求2所述的方法，其特征在于，所述行为特征包括读者评论数或读者划线数；

根据所述摘要粗提模型，确定所述第二训练文本中的多个精彩片段；

将所述多个精彩片段进行两两组合得到所述训练数据；

5.如权利要求3所述的方法，其特征在于，所述待处理文本包括多个章节；

6.如权利要求5所述的方法，其特征在于，所述根据所述排序阈值和所述摘要精排模型，确定所述精彩程度排名包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述精彩程度预测排名，确定所述不可信精彩片段的精彩程度排名包括：

确定多个热门档次对应的精彩程度预测排名的平均排名；

根据所述平均排名，确定所述不可信片段的精彩程度排名。

8.如权利要求6所述的方法，其特征在于，所述根据所述热门档次和所述摘要精排模型确定所述可信精彩片段的精彩程度排名包括：

9.如权利要求1-8任一项所述的方法，其特征在于，所述根据所述摘要粗提模型，确定待处理文本的目标内容之后，还包括：

10.一种目标内容的抽取装置，其特征在于，所述装置包括：