CN114677165A

CN114677165A - 上下文在线广告投放方法、装置、服务器和存储介质

Info

Publication number: CN114677165A
Application number: CN202210234310.4A
Authority: CN
Inventors: 张志强; 顾军
Original assignee: Beijing Froda Education Technology Co ltd
Current assignee: Beijing Froda Education Technology Co ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-28

Abstract

本公开关于一种上下文在线广告投放方法、装置、服务器和存储介质，涉及计算机技术领域。该方法包括：获取待处理文本；响应于用户对待处理文本进行上下文操作，获取目标文本单元和目标文本，获取词语文档对应表和候选语句库；根据目标文本单元、词语文档对应表、目标文本和候选语句库，获取第一目标广告信息和第二目标广告信息，向用户提供目标文本和/或目标文本单元，第一目标广告信息和/或第二目标广告信息。由此，使用户建立语言结构的全局观并能够训练语感，达到快速掌握语言的目的，与此同时向用户提供与学习文本相关的广告信息，在实现广告场景的植入的同时提高广告的点击率。

Description

上下文在线广告投放方法、装置、服务器和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种上下文在线广告投放方法、装置、服务器和存储介质。

背景技术

相关技术中，用户通过一些应用程序进行语言学习，但是，语言学习的应用程序仅能够提供语句的翻译或读音，用户仅能通过语言学习的应用程序学习语句的含义或发音；并且语言学习的应用仅用于语言学习，功能单一。

发明内容

本公开提供一种上下文在线广告投放方法、装置、服务器和存储介质，以至少解决相关技术中语言学习的应用程序功能单一的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种上下文在线广告投放方法，包括：获取待处理文本；其中，所述待处理文本包括多个文本单元，所述文本单元为词语或短语；响应于用户对所述待处理文本进行上下文操作，获取目标文本单元和目标文本；获取词语文档对应表和候选语句库；其中，所述词语文档对应表包括多个候选词和与所述候选词关联的广告信息，所述候选语句库包括多个候选语句和与所述候选语句关联的广告信息；根据所述目标文本单元和所述词语文档对应表，获取第一目标广告信息；根据所述目标文本和所述候选语句库，获取第二目标广告信息；以及向所述用户提供所述目标文本和/或所述目标文本单元，以及所述第一目标广告信息和/或所述第二目标广告信息。

根据本公开实施例的第二方面，提供一种上下文在线广告投放装置，包括：文本获取单元，用于获取待处理文本；其中，所述待处理文本包括多个文本单元，所述文本单元为词语或短语；目标获取单元，用于响应于用户对所述待处理文本进行上下文操作，获取目标文本单元和目标文本；数据获取单元，用于获取词语文档对应表和候选语句库；其中，所述词语文档对应表包括多个候选词和与所述候选词关联的广告信息，所述候选语句库包括多个候选语句和与所述候选语句关联的广告信息；第一信息获取单元，用于根据所述目标文本单元和所述词语文档对应表，获取第一目标广告信息；第二信息获取单元，用于根据所述目标文本和所述候选语句库，获取第二目标广告信息；以及信息提供单元，用于向所述用户提供所述目标文本和/或所述目标文本单元，以及所述第一目标广告信息和/或所述第二目标广告信息。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面所述的上下文在线广告投放方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面所述的上下文在线广告投放方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上面第一方面所述的上下文在线广告投放方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过实施本公开实施例，获取待处理文本；响应于用户对待处理文本进行上下文操作，获取目标文本单元和目标文本，获取词语文档对应表和候选语句库；根据目标文本单元、词语文档对应表、目标文本和候选语句库，获取第一目标广告信息和第二目标广告信息，向用户提供目标文本和/或目标文本单元，第一目标广告信息和/或第二目标广告信息。由此，上下文操作实现了文本从繁入简、由简入繁的双向操作，方便用户建立全局观训练语感，并且向用户提供与学习文本相关的广告信息，能够提高广告的点击率，还方便用户通过广告学习文本相关的知识，达到快速掌握语言的目的。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种上下文在线广告投放方法的流程图；

图2是根据一示例性实施例示出的一种上下文在线广告投放方法中上下文操作匹配广告的流程示意图；

图3是根据一示例性实施例示出的一种上下文在线广告投放方法中S3的流程图；

图4是根据一示例性实施例示出的一种上下文在线广告投放方法中S2的流程图；

图5是根据一示例性实施例示出的一种语法分析树的结构图；

图6是根据一示例性实施例示出的另一种上下文在线广告投放方法中S2的流程图；

图7是根据一示例性实施例示出的又一种上下文在线广告投放方法中S2的流程图；

图8是根据一示例性实施例示出的一种上下文在线广告投放方法中S4的流程图；

图9是根据一示例性实施例示出的另一种上下文在线广告投放方法中S4的流程图；

图10是根据一示例性实施例示出的一种上下文在线广告投放装置的结构图；

图11是根据一示例性实施例示出的一种上下文在线广告投放装置中一种目标获取单元的结构图；

图12是根据一示例性实施例示出的一种上下文在线广告投放装置中另一种目标获取单元的结构图；

图13是根据一示例性实施例示出的一种上下文在线广告投放装置中又一种目标获取单元的结构图；

图14是根据一示例性实施例示出的一种上下文在线广告投放装置中一种第一信息获取单元的结构图；

图15是根据一示例性实施例示出的一种文本上下文处理装置中一种第二信息获取单元的结构图；

图16是根据一示例性实施例示出的一种服务器的计算机***的结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非文中另有要求，否则，在整个说明书和权利要求书中，术语“包括”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一些实施例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

需要说明的是，本公开实施例的上下文在线广告投放方法可以由本公开实施例的上下文在线广告投放装置执行，该上下文在线广告投放装置可以由软件和/或硬件的方式实现，该上下文在线广告投放装置可配置在电子设备中，其中，电子设备可以安装并运行上下文在线广告投放程序。电子设备可以包括但不限于智能手机、平板电脑等具有各种操作***的硬件设备。

图1是根据一示例性实施例示出的一种上下文在线广告投放方法的流程图。

如图1所示，本公开实施例提供的上下文在线广告投放方法，包括但不限于如下步骤：

S1：获取待处理文本；其中，待处理文本包括多个文本单元，文本单元为词语或短语。

可以理解的是，本公开实施例中，待处理文本可以为用户进行语言学习的文本，可以为用户提供的，或者还可以为本公开实施例中上下文在线广告投放装置提供的，待处理文本用于用于语言学习。

其中，在待处理文本为用户提供的情况下，用户可以选择一篇文章，或者选择一段文字，粘贴至本公开实施例中上下文在线广告投放装置的对应位置处，从而上下文在线广告投放装置获取待处理文本，(在用户输入一篇文章的情况下，可以预先对文章进行分句预处理，获取待处理文本)，进一步的采用本公开实施例中的上下文在线广告投放装置对用户提供的文本进行处理。

在待处理文本为上下文在线广告投放装置提供的情况下，本公开实施例中，在上下文在线广告投放装置中预先存储有用于用户进行学习的文本资料，用户选择相应的文本，从而上下文在线广告投放装置，获取用户选择的文本，获取待处理文本，并进一步的可以对文本进行处理。

本公开实施例中，待处理文本可以为一篇文章、或者可以为一段文字，可以理解的是，待处理文本中包括多个词语或短语，可以包括多个词语、或者包括多个短语、或者同时包括至少一个词语和至少一个短语。

本公开实施例中，为方便后续对待处理文本进行处理，对待处理文本包括的词语数量存在约束，示例性的，待处理文本包括的词语数量限制在10至35个词语之间，在后续对待处理文本进行处理时，能够减少计算耗时。

需要说明的是，待处理文本包括的词语数量还可以限制在其他范围，可以根据服务器等硬件环境进行设置，待处理文本包括的词语数量可随硬件性能提升而增高，此处仅作为示意，不作为对本公开实施例的具体限制。

需要说明的是，本公开实施例中，待处理文本可以为英语文本，或者还可以为汉语文本、法语文本、德语文本、意大利语文本、日本语文本、韩语文本等，本公开实施例对此不作具体限制。

S2：响应于用户对待处理文本进行上下文操作，获取目标文本单元和目标文本。

需要说明的是，本公开实施例中，上下文在线广告投放装置能够实现基于用户对待处理文本进行上下文操作，获取目标文本单元和目标文本。

本公开实施例中，上下文在线广告投放装置能够基于用户的上下文操作，对待处理文本进行处理，获取至少一个目标文本单元和至少一个目标文本。

本公开实施例中，用户对待处理文本的上下文操作，可以包括上文操作和下文操作，如图2所示，上文操作能够对待处理文本的文本内容进行扩充，在待处理文本中新增或替换至少一个文本单元；下文操作能够对待处理文本的文本内容进行删减，删除待处理文本中的至少一个文本单元。

在此情况下，在用户对待处理文本进行上文操作的情况下，新增或替换的文本单元为目标文本单元，待处理文本经过新增和替换文本单元后生成的新的文本为目标文本；在用户对待处理文本进行下行操作的情况下，删除待处理文本的文本单元为目标文本单元，待处理文本经过删除文本单元后生成的新的文本为目标文本。

本公开实施例中，用户可以进行多次上下文操作，例如：进行多次连续上文操作；或者进行多次连续下文操作；或者进行多次上文操作和下文操作，用户上文操作和下文操作的顺序没有要求，可以先进行至少一次上文操作之后再进行至少一次下文操作，或者也可以先进行至少一次下文操作之后再进行至少一次上文操作。其中，在每次用户进行上文操作或下文操作之后，均可以生成每次上文操作或下文操作对应的目标文本单元和目标文本。

可以理解的是，本公开实施例中，上下文在线广告投放装置设置有用户可以下文操作和上文操作的按键，对应的，用户对待处理文本的下文操作可以为用户点击下文操作的按键，用户对待处理文本的上文操作可以为用户点击上文操作的按键；或者上下文在线广告投放装置设置有用户可以下文操作和下文操作的控制指令，对应的，用户下文操作可以为用户触发下文操作对应的控制指令，用户上文操作可以为用户触发上文操作对应的控制指令。

需要说明的是，本公开实施例中，待处理文本包括多个文本单元，文本单元可以为词语或短语。其中，在文本单元为词语时，本公开实施例中，根据词语对应的词性，以及待处理文本不同词语之间的语法关系，确定待处理文本中的目标文本单元。

示例性的，以待处理文本为英语文本为例，在文本单元为词语，对应的词性为形容词的情况下，对该词语与待处理文本中其他词语的语法关系进行判断，假设与其相邻的后一个词语的语法关系为：父子关系如NP->JJ+NN，表示名词短语由形容词(JJ)和名词(NN)构成，则可以确定该词性为形容词的词语为目标文本单元，可以在用户对待处理文本的下文操作下删除待处理文本中的目标文本单元，生成目标文本。

由此，本公开实施例中，通过采用待处理文本不同词语或短语之间的语法关系进行约束，不破坏原有的语法关系，使得在对待处理文本进行下文操作时，生成目标文本的结果符合语法规范。

S3：获取词语文档对应表和候选语句库；其中，词语文档对应表包括多个候选词和与候选词关联的广告信息，候选语句库包括多个候选语句和与候选语句关联的广告信息。

其中，广告信息可以包括广告对应的文本、标题、作者、摘要文本、链接中的至少一种。

其中，文本为广告的文字内容；标题为广告的名称；作者为广告的发布者；摘要文本为根据广告的文字内容生成的摘要，或者为广告文字内容的一部分；链接为广告的快捷***，通过点击链接能够跳转快捷访问该广告的具体内容。

如图3所示，在一些实施例中，本公开实施例上述S3可以包括如下步骤：

S31：获取广告语料数据；其中，广告语料数据包括文字广告、图片广告和视频广告中的至少一种。

本公开实施例中，广告语料数据可以通过爬虫工具从网络中抓取，或者通过广告主自主发布获取。

可以理解的是，从网络中抓取或者获取广告主发布的广告可以有多种类型的广告，例如：文字广告、图片广告、视频广告、音频广告等。

本公开实施例中，获取的广告语料数据包括文字广告、图片广告和视频广告中的一种或多种。

S32：获取文字广告、图片广告和视频广告的广告文本和链接。

其中，获取文字广告、图片广告和视频广告的链接，本公开实施例中，在从网络中抓取或者获取广告主发布的文字广告、图片广告和视频广告的同时，可以同时获取对应的链接，用户可以通过链接快速访问文字广告、图片广告和视频广告。

其中，获取文字广告的广告文本，可以理解的是，文字广告中包括一些文字内容，获取文字广告中的文字内容，以获取文字广告的广告文本。

其中，获取图片广告的广告文本，可以理解的是，图片广告中包括图像，根据图片广告中的图像，获取图片广告的广告文本。本公开实施例中，通过对图片广告中的图像信息进行识别，生成一段描述性文字，可以获取图片广告中的广告文本。

其中，获取视频广告的广告文本，可以理解的是，视频广告中包括图像和/或音频，根据视频广告中的图像和/或音频，获取视频广告的广告文本。

本公开实施例中，通过对视频广告中的音频进行语音识别，获取相应的文本信息，可以获取视频广告中的广告文本；通过对视频广告中的图像进行识别，生成一段描述性文字，可以获取视频广告中的广告文本。

当然，本公开实施例中，还可以直接根据视频广告获取视频广告的广告文本，不限于上述实施例中通过音频识别和/或图像识别的方法获取，还可以直接将视频广告输入至视频描述模型中，直接生成广告文本，例如：基于模板的Video Captioning；在基于序列到序列(Sequence to Sequence)模型的基础上增加注意力机制，注意力机制对某些表达(representation)/特征(feature)加权进行重要性的区分，具体可参见相关技术中的方法，此处不再赘述。

可以理解的是，视频广告中包括多帧图像，如果对视频广告中的多帧图像均进行识别，其计算量是巨大的。本公开实施例中，获取视频广告中的图像，可以获取视频广告中特定帧的图像。基于此，对获取的特定帧的图像进行识别，以降低计算量。

在一个示例中，间隔预设帧数获取视频广告中的特定帧的图像，预设帧数可以为20帧、10帧等。基于此方法，获取视频广告中的一部分帧的图像，用于后续的识别，能够降低计算量，提高数据处理的效率提升***性能。

在另一个示例中，基于图像光流的方法识别视频广告中的至少一个特定帧图像，图像光流的方法可以为无金字塔的lucas-kanade光流方法，或者金字塔的lucas-kanade光流方法。

其方法可以为：对视频广告的帧图像进行特征点提取，进行特征点的光流跟踪计算，得到特征点在帧图像之间的光流视差变化及前后特征点跟踪匹配情况，在当前帧图像相比于前一帧图像的特征点变化较小，并且已存在多帧连续的图像特征点变化均较小的情况下，选择当前帧图像为特定帧图像。基于此方法，获取视频广告中的一部分帧的图像，用于后续的识别，能够降低计算量，提高数据处理的效率提升***性能。

在一些实施例中，获取图片广告和视频广告的广告文本，包括：获取图片广告和视频广告中的图像；将图像输入至图像描述模型，生成广告文本。

本公开实施例中，获取图片广告和视频广告中的图像，将图像输入至分类模型或图像描述模型，能够生成广告文本。

其中，图像描述模型可以为img2txt模型。img2txt模型可以根据图像自动生成一段描述性文字，其过程可以为：首先检测出图像中的物体(包括物体的类别和位置)，同时输出物体之间的相互关系，最后用合理的语言表达出来。

在一些实施例中，将图像输入至图像描述模型，生成广告文本，包括：将图像输入至编码器，通过目标检测模型，获取目标物体的类别和位置，生成特征向量；将特征向量输入至解码器，生成广告文本。

本公开实施例中，将图像输入至编码器，通过检测模型识别图像中的目标物体，得到相应的向量，进一步输入至解码器，将向量映射为对应的文字，由于图像特征的向量表达和文字输出部分的结果长度往往不同，因此需要将原始序列映射为一个不同长度的序列，基于此，本公开实施例中使用编码器-译码器Encoder-Decoder模型，Encoder-Decoder模型可以解决长度不一致的映射问题。

其中，Encoder使用检测模型为CNN模型，从图像中提取出相应的视觉特征，然后使用Decoder将该视觉特征解码成输出序列，Decoder部分输入是word embedding，输出是单词表中所有单词的概率，进而生成相应的自然语言的描述，生成广告文本。

本公开实施例中，CNN模型的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。采用sigmoid函数作为激活函数，使得特征映射具有位移不变性。由于神经元共享权值，因而减少了网络参数的个数。典型的CNN框架如LeNet-5、AlexNet、VGG-16、ResNeXt-50等。

S33：将广告文本输入至摘要生成模型，生成摘要文本。

可以理解的是，获取到文字广告、图片广告和视频广告的广告文本之后，其包括的文本内容较多，如果将获取的广告文本直接提供给用户，一是用户可能无法从大量的文本内容中获取其内容的重点，导致用户浏览广告文本的兴趣较低；二是大量的文本内容提供给用户，由于其内容较多，将会导致能提供给用户的广告文本的个数减少，不方便用户选择。

基于此，本公开实施例中可以仅向用户提供广告文本的部分内容，示例性的，向用户提供广告文本的标题、第一段文字、摘要文本等。

其中，向用户提供广告文本的摘要文本，本公开实施例中，将广告文本输入至摘要生成模型，以通过摘要生成模型获取广告文本的摘要文本。根据广告文本生成摘要文本的目的是对输入的广告文本进行总结，生成其准确和简洁的摘要文本。生成摘要文本的方式有两种，一种是抽出式摘要，另一种是抽象摘要。其中，抽象摘要不是简单地从输入的文本中复制粘贴文字的片段，而是会产生新的单词或总结重要信息，从而使输出的摘要文本保持流畅和完整。

示例性的，摘要生成模型例如可以为：transformer模型。transformer模型是完全基于自注意力机制的一个深度学习模型，适用于并行化计算，主要包括两部分：Encoder和Decoder，Encoders为编码器，Decoders为解码器。当输入广告文本后，广告文本的数据会先经过Encoders进行编码，然后将编码后的数据再传入Decoders模块进行解码，解码后得到翻译后的文本，生成摘要文本。

S34：根据广告文本、摘要文本和链接，生成词语文档对应表和候选语句库。

本公开实施例中，在获取到广告文本、摘要文本和链接之后，根据广告文本、摘要文本和链接生成词语文档对应表和候选语句库。其中，词语文档对应表包括多个候选词和与候选词关联的摘要文本和链接，候选语句库包括多个候选语句和与候选语句关联的摘要文本和链接。

在一些实施例中，根据广告文本、摘要文本和链接，生成词语文档对应表，包括：将广告文本分别进行分词、去重、去除停用词，获取候选词；建立候选词与摘要文本和链接的倒排索引，生成词语文档对应表。

可以理解的是，广告文本中包括许多文本内容，包括多条语句，将语句进行分词处理，生成词语集合，进一步进行去重、去停用词，将词语集合中的重复的词语以及已停用的词语进行去除，对词语集合进行筛选，生成多个候选词。

当然，上述对广告文本的处理获取候选词的方法，还可以包括上述方法以外的其他方法，为使获取的候选词更加合理，还可以对广告文本进行进一步处理，本公开实施例对此不作具体限制。

本公开实施例中，在获取到广告文本的候选词之后，建立候选词与摘要文本和链接的倒排索引，生成词语文档对应表。

其中，广告文本是根据文字广告或图片广告或视频广告获取的，本公开实施例中，为区分不同的广告文本，对广告文本进行编号，其编号与对应的文字广告、图片广告和视频广告一一对应。本公开实施例中，将文字广告、图片广告和视频广告的编号统一为文档编号。在根据广告文本获取候选词，对候选词进行编号，统一为词语编号。

本公开实施例中，建立候选词与摘要文本和链接的倒排索引，倒排列表记载了出现过某个候选词的所有文档的文档列表及词语在该文档中出现的位置信息，每条记录称为一个倒排项(Posting)。根据倒排列表，即可获知哪些文档包含某个词语。

示例性的，在文字广告、图片广告和视频广告的总个数为10个，首先，获取文字广告、图片广告和视频广告的广告文本，包括10个广告文本，分别对每一个广告文本进行编号，获取文档编号；之后，获取每一个广告文本中的候选词，为了***后续处理方便，需要对每个不同的候选词赋予唯一的词语编号，同时记录下哪些文档包含这个词语，在如此处理结束后，得到倒排索引。

本公开实施例中，在获取候选词和广告文本的待排索引的基础上，对应广告文本增加链接，生成词语文档对应表。

在一些实施例中，根据广告文本、摘要文本和链接，生成候选语句库，包括：将广告文本进行分句，获取候选语句；建立候选语句与摘要文本和链接的对应关系，生成候选语句库。

可以理解的是，广告文本中包括许多文本内容，包括多条语句，对广告文本进行预处理，生成多条候选语句。

其中，对广告文本进行预处理，包括：将广告文本中的标记符号进行删除，之后进行切分处理，去掉过长或过短的语句，选取词汇数量在某一区间内的语句作为候选语句。

示例性的，选取词汇数量在10至35个之间语句作为候选语句。

本公开实施例中，在获取到广告文本的候选语句之后，建立候选语句与摘要文本和链接的对应关系，生成候选语句库。

其中，广告文本是根据文字广告或图片广告或视频广告获取的，本公开实施例中，为区分不同的广告文本，对广告文本进行编号，其编号与对应的文字广告、图片广告和视频广告一一对应。本公开实施例中，将文字广告、图片广告和视频广告的编号统一为文档编号。在根据广告文本获取候选语句，对候选语句进行编号，统一为语句编号。

本公开实施例中，建立候选语句与摘要文本和链接的对应关系，根据对应关系可以获取包括某个候选语句的所有文档的文档列表及候选语句在该文档中出现的位置信息。

示例性的，在文字广告、图片广告和视频广告的总个数为10个，首先，获取文字广告、图片广告和视频广告的广告文本，包括10个广告文本，分别对每一个广告文本进行编号，获取文档编号；之后，获取每一个广告文本中的候选语句，为了***后续处理方便，需要对每个不同的候选语句赋予唯一的词语编号，同时记录下哪些文档包含这个候选语句，在如此处理结束后，得到候选语句和广告文本的文档编号的对应关系。

本公开实施例中，在获取候选语句和广告文本的文档编号的对应关系的基础上，对应广告文本增加链接，生成候选语句库。

S4：根据目标文本单元和词语文档对应表，获取第一目标广告信息，根据目标文本和候选语句库，获取第二目标广告信息。

本公开实施例中，在用户对待处理文本进行上下文操作之后，获取目标文本单元和目标文本的基础上，根据目标文本单元和词语文档对应表，获取第一目标广告信息，根据目标文本和候选语句库，获取第二目标广告信息。

可以理解的是，词语文档对应表中包括多个候选词，以及与候选词对应的广告信息，广告信息可以包括广告对应的文本、标题、作者、摘要文本、链接中的至少一种。本公开实施例中，用户对待处理文本进行上下文操作，可以获取一个或多个目标文本单元，进一步根据目标文本单元和词语文档对应表，获取第一目标广告信息。

还可以理解的是，候选语句库中包括多个候选语句，以及与候选语句对应的广告信息，广告信息可以包括广告对应的文本、标题、作者、摘要文本、链接中的至少一种。本公开实施例中，用户对待处理文本进行上下文操作，可以获取目标文本，进一步根据目标文本和候选语句库，获取第二目标广告信息。

S5：向用户提供目标文本和/或目标文本单元，以及第一目标广告信息和/或第二目标广告信息。

本公开实施例中，在获取到目标文本和第一目标广告信息的情况下，向用户提供目标文本和第一目标广告信息，或者在获取到目标文本和第二目标广告信息的情况下，向用户提供目标文本和第二目标广告信息，或者在获取到目标文本、第一目标广告信息和第二目标广告信息的情况下，向用户提供目标文本、第一目标广告信息和第二目标广告信息。

本公开实施例中，可以通过在上下文在线广告投放装置的显示部件上展示目标文本和/或目标文本单元，以及第一目标广告信息和/或第二目标广告信息，向用户提供目标文本和/或目标文本单元，以及第一目标广告信息和/或第二目标广告信息。

可以理解的是，本公开实施例中，可以向用户提供目标文本单元和/或目标文本，并可以附有目标文本和/或目标文本单元的相应解释。

示例性的，以待处理文本为英语文本为例，提供目标文本单元的相应解释，例如：待处理文本为“blue sky”，目标文本单元的为名词“sky”前的形容词“blue”，解释可以为，该目标文本单元“blue”的词性为形容词，用于对名词“sky”进行修饰。

并进一步的，可以提供目标文本单元“blue”的相似词语，例如“cerulean”，从而，用户可以学习更多的词汇，同义词或相近词的词汇关联学习，提升用户的学习体验。

可以理解的是，本公开实施例中，可以进一步的，提供目标文本和目标文本单元的翻译和语音，用户可以同步学习翻译文本，以及发音。

在一些实施例中，本公开实施例提供的上下文在线广告投放方法，还包括：将目标文本输入至语法分析模型，在存在匹配的语法结构的情况下，向用户提供目标文本；在不存在匹配的语法结构的情况下，提示上下文操作错误并退出。

本公开实施例中，在用户对待处理文本进行上下文操作生成目标文本的情况下，需要输入至语法分析模型，以判断生成的目标文本是否可以进行语义解析，是否存在匹配的语法结构，在存在匹配的语法结构的情况下，向用户提供目标文本，在不存在匹配的语法结构的情况下，提示上下文操作错误并退出。由此，能够确保得到的目标文本符合语法结构的规范，能够表达完整的意思，以避免得到的目标文本不符合语言规范，误导用户学习。

由此，用户可以对待处理文本进行上下文操作，上下文操作实现了文本从繁入简、由简入繁的双向操作，方便用户建立语言结构的全局观训练语感，加深对文本结构的认识和理解，降低语言学习的难度，进一步的，在进行学习的过程中，能够向用户提供与学习文本相关的广告信息，一方面，用户浏览广告的机率较高，能够提高广告的点击率，另一方面，用户可以通过广告加深对学习的文本内容的理解，丰富相关的知识，方便进行语言学习。

如图4所示，在一些实施例中，本公开实施例上述S2可以包括如下步骤：

S21：响应于用户对待处理文本的下文操作，将待处理文本输入至语法分析模型，获取与待处理文本匹配的目标语法结构。

可以理解的是，本公开实施例中，在将待处理文本输入至语法分析模型，获取与待处理文本匹配的目标语法结构之前，还包括获取语法分析模型。

在一些实施例中，获取语法分析模型包括：获取语料文本；将语料文本输入至基于成分分析的语法成分分析模型，生成语法分析树；自底向上解析语法分析树，生成表格结构，得到语法分析树库；其中，语法分析树库中包括多个语料文本单元；表格结构包括父子节点的关系和兄弟节点的关系；对语料文本单元赋予权重，生成语法分析模型。

本公开实施例中，语料文本可以为通过公开的文章进行获取，通过对文章进行预处理，获取语料文本。其中，对文章进行预处理，包括：将文章中的标记符号进行删除，之后进行切分处理，去掉过长或过短的语句，选取词汇数量在某一区间内的语句作为语料文本。

示例性的，选取词汇数量在10至35个之间的语句作为语料文本。

当然，本公开实施例中获取语料文本不限于上述示例的情况，可以根据需要进行设置，本公开实施例对此不作具体限制。

本公开实施例中，以语料文本为英语文本为例，将语料文本输入至基于成分分析的语法成分分析模型，例如，在语料文本为“the medical imaging technology currentlyhas made significant progress in many important domains”的情况下，生成语法分析树如图5所示，叶子节点为语句中的单词；其它非叶子节点是单词的词性以及由单词构成的短语成分，语法分析树的特点是靠近根部的成分为句子的核心成分，靠近叶子节点的成分为非核心成分。

本公开实施例中，在获取语料文本对应的语法分析树之后，得到语法分析树库。其中，语法分析树库中包括多个语料文本生成的语法分析树，包括多个语料文本单元，语料文本单元为语法分析树的不同节点。在对语料文本单元赋予权重之后，生成语法分析模型。

在一种可能的实现方式中，本公开实施例中对语料文本单元赋予权重，为了对语料文本单元进行排序，由语法分析树生成对应的表格，便于对语料文本单元赋予权重。

表1

本公开实施例中，以英语文本为例，在英语语法解析中使用的标记采用了宾州树库的语言标记集。TreeBank是一种标注了句法和语义句子结构的大型语料库，这些句法结构通常是树的形式，所以称之为TreeBank(树库)。

语法分析树表示方式采用()圆括号嵌套的方式，因为它占用资源少，而且树状结构在没有软件工具的情况下相对容易阅读。当给定一个句子时，便可以按照从左到右的顺序来解析语法。例如，句子the dog run就可以表示为(S(NP(DT the)(NN dog))(VP run))。其标记说明如上表1所示。需要说明的是，上述示例仅为部分示例，并未列举全部示例，具体可参见宾州树库的语言标记集。

表2

示例性的，语料文本为“image classification and object detectionapplications are becoming more robust and more accurate.”生成语法分析树，从底至上解析语法分析树，根据树形结构，转化生成表格结构，生成对应的表格结构如上表2所示。

可以理解的是，本公开实施例中，语料文本为多个，对多个语料文本进行上述处理之后，生成对应的表格结构，对语料文本单元赋予权重，生成语法分析模型。

本公开实施例中，语法分析模型中，符号及表达式说明：

1)NP->DT+JJ+NN：表示NP生成(解析)为DT和JJ和NN。

2)JJ∈(NP->DT+JJ+NN,NP->JJ+NN)：表示JJ匹配NP->DT+JJ+NN和NP->JJ+NN。

3)JJ∈(NP->DT+JJ+NN，NP->JJ+NN)&(ORDER(1)))：表示JJ匹配NP->DT+JJ+NN，NP->JJ+NN，同时权重等级为1。

4)JJ∈((NP->DT+JJ+NN,NP->JJ+NN)&(ORDER(1)))/JJ：表示JJ匹配NP->DT+JJ+NN，NP->JJ+NN，同时权重等级为1的语句占所有JJ记录的百分比。

根据上述符号及表达式约定，统计如下匹配结构的占比：

JJ∈((NP->DT+JJ+NN,NP->JJ+NN)&(ORDER(1)))/JJ；

RB∈((ADVP->RB)&(ORDER(2)))/RB；

PP∈((VP->VBN+NP+PP)&(ORDER(3)))/PP；…。

依上述结构，对生成对应的表格的数据库进行统计分析，生成语法分析模型：

Model＝{JJ∈(NP->DT+JJ+NN，NP->JJ+NN)&(ORDER(1)))/JJ，...，}。

由此，本公开实施例在获取语法分析模型的基础上，将待处理文本输入至语法分析模型，能够获取与待处理文本匹配的目标语法结构。

S22：根据目标语法结构，获取待处理文本中的多个文本单元对应的权重等级。

S23：在权重等级包括至少两个等级的情况下，确定多个文本单元中的第一目标文本单元。

本公开实施例中，在将待处理文本输入至语法分析模型，获取与待处理文本匹配的目标语法结构之后，能够获取待处理文本对应的多个文本单元以及文本单元对应的权重等级。从而能够根据确定的文本单元的权重等级，确定多个文本单元中的第一目标文本单元。

可以理解的是，在获取到待处理文本的权重等级仅存在一个等级的情况下，用户下文操作，由于仅有一个等级，说明该待处理文本已经为最基本结构的文本，无法在进行下文操作，此时用户虽然进行下文操作，也无法获取目标文本单元。

当获取到待处理文本的权重等级有多个的情况下，用户每次对待处理文本的下文操作，可以确定最低等级的文本单元为第一目标文本单元。

S24：将待处理文本中的第一目标文本单元进行删除，生成目标精简文本。

S25：获取为目标文本单元的第一目标文本单元，获取为目标文本的目标精简文本。

本公开实施例中，在确定第一目标文本单元的情况下，将待处理文本中的第一目标文本单元进行删除，生成目标精简文本。

需要说明的是，在待处理文本的权重等级为多个的情况下，示例性的，权重等级为3个等级的情况下，用户可以进行多次下文操作，在第一次下文操作时，确定第一目标文本单元为第三等级的文本单元，在第二次下文操作时，确定第一目标文本单元为第二等级的文本单元，此时，若用户继续下文操作，将无法获取第一目标文本单元。

基于此，在用户每次下文操作时，将第一目标文本单元从待处理文本中删除，生成目标精简文本，以此类推，在无法获取第一目标文本单元的情况下，此时待处理文本中的文本单元构成最基本结构的目标精简文本。

可以理解的是，本公开实施例以待处理文本为英语文本为例，最基本结构的目标精简文本为英语的五种基本句式。

示例性的，五种基本句式如下：

S+V主谓结构；在此句式中，V是不及物动词，又叫自动词(vi)。

S+V+F主系表结构；在此句式中，V是系动词，常见的系动词有：look，seem，appear，sound，feel，taste，smell，grow，get，fall ill/asleep，stand/sit still，become，turn等。

S+V+O主谓宾结构；在此句式中，V是及物动词(vt.)，因此有宾语。

S+V+O1+O2主谓双宾结构；在此句式中，V是带有双宾语的及物动词。常见的须带双宾语的动词有give，ask，bring，offer，send，pay，lend，show，tell，buy，get；rob，warn等。

S+V+O+C主谓宾补结构。

其中，S＝主语；V＝谓语；P＝表语；O＝宾语；O1＝间接宾语；O2＝直接宾语；C＝宾语补足语。

当然，除英语文本外的其他文本，可以采用类似的概念，本公开实施例对此不作具体限制。

在一些实施例中，在权重等级仅有一个等级的情况下，确定不存在第一目标文本单元，提示待处理文本为最基本结构文本并退出。

可以理解的是，在将待处理文本输入至语法分析模型，获取与待处理文本匹配的目标语法结构，根据目标语法结构确定待处理文本包括的多个文本单元对应的权重等级，在仅存在一个权重等级的情况下，此时，确定不存在第一目标文本单元，在此情况下，提示待处理文本为最基本结构文本并退出。

以待处理文本为英语文本为例，在待处理文本为英语的五种基本句式的情况下，确定待处理文本中不存在第一目标文本单元，此时，提示待处理文本为最基本结构文本并退出。

如图6所示，在一些实施例中，本公开实施例上述S2可以包括如下步骤：

S201：获取限制词汇表；其中，限制词汇表中包括多个限制词。

S202：响应于用户对待处理文本的第一上文操作，将待处理文本输入至文本生成模型，根据限制词汇表，获取至少一个编辑操作，生成目标生成文本。

S203：确定目标生成文本与待处理文本中不同的文本单元为第二目标文本单元。

响应于用户对待处理文本的上文操作，将待处理文本输入至文本生成模型，生成第二目标文本单元和目标生成文本。

S204：获取为目标文本单元的第二目标文本单元，获取为目标文本的目标生成文本。

其中，文本生成模型可以为lasertagger模型，将待处理文本输入至lasertagger模型，通过生成一系列编辑操作替代待处理文本中的文本单元生成更符合应用场景的文本。使用的4种编辑操作是：保留(把一个文本单元复制到输出)、删除(删除一个文本单元)、增加(增加一个文本单元)和交换(交换两个文本单元的顺序)。

其中，添加的文本单元均来自一个限制词汇表，通过限制词汇表，能够最小化词汇表规模，以及最大化训练样本数量，仅包含需要添加到待处理文本的必要文本单元；其中文本单元可以为词语或短语。

限制词汇表中的文本单元数量可以减少相应输出的决策量，并防止模型随意添加文本单元。由于输入和输出文本高度重合，只需要修改部分文本单元。可以并行准确的预测编辑操作，显着的提升端到端生成文本的速度。

本公开实施例中，可以基于特定领域、或者特定方向等，构建限制词汇表，从而在用户对待处理文本进行第一上文操作时，能够有目的针对性的获取第二目标文本单元，获取目标生成文本。并且，在基于第二目标文本单元获取第一目标广告信息和基于目标生成文本获取第二目标广告信息时，获取的广告信息可以与特定领域、或者特定方向关联，向用户提供相应的广告信息，能够更好的应用于广告推广。

在一些实施例中，获取目标生成文本中包括的文本单元的第一数目；在第一数目大于第一预设阈值的情况下，响应于用户对待处理文本的第一上文操作，提示生成文本达上限并退出。

可以理解的是，本公开实施例中，用户可以进行多次第一上文操作，随着多次生成目标生成文本，获取的目标生成文本中包括的文本单元数目也会增加，包括的文本单元数量越多，***进行数据处理所需要的时间必然会增加，计算效率必然会下降。

基于此，本公开实施例中对目标生成文本包括的文本单元数据进行统计，获取目标生成文本中包括的文本单元的第一数目，在第一数目大于第一预设阈值的情况下，如果存在用户第一上文操作，提示生成文本达上限并退出。

其中，第一预设阈值可以为100、或者80、或者50等，可以根据***使用的服务器算力，以及网络带宽进行设置，本公开实施例对此不作具体限制。

如图7所示，在一些实施例中，本公开实施例上述S2可以包括如下步骤：

S2001：响应于用户对待处理文本的第二上文操作，将待处理文本按照预设条件划分为至少一个文本单元序列。

本公开实施例中，可以在待处理文本的基础上，响应于用户对待处理文本的第二上文操作，在待处理文本中增加文本单元，以丰富待处理文本，方便用户学习，提升用户的使用体验。

其中，预设条件可以为依次将相邻的预设个数的文本单元划分为一个文本单元序列。文本单元可以为词语或短语。

示例性的，预设个数可以为两个，或者可以为四个，或者还可以为六个等，本公开实施例对此不作具体限制。

在一种可能的实现方式中，以待处理文本为英语文本为例，例如，待处理文本为：“size are important for a model”。

从句首开始滑窗，每2或4个作为文本单元序列进行预测，此处示例使用4个单词。(此参数可根据***训练模型设置)。

划窗示意：第一次滑窗产生的第一个文本单元序列为“size are importantfor”，第二次滑窗产生的第二个文本单元序列为“are important for a”，第三次滑窗产生的第三个文本单元序列为“important for a model”。

S2002：将文本单元序列输入至训练好的词向量模型，预测得到第三目标文本单元。

本公开实施例中，训练好的词向量模型可以为训练好的DistributedRepresentation编码模型。依次将文本单元序列输入至训练好的词向量模型，预测得到对应的第三目标文本单元，示例性的，如下表3所示：

previous2	previous1	next1	next2	out
					前序第二个	前序第一个	后续第一个	后续第二个	输出
Sample	size	are	important	无
					size	are	important	for	very
are	important	for	a	无
					import	for	a	model	无
for	a	model		learning

表3

第三目标文本单元为上表3中out/输出一列的文本单元。

S2003：遍历待处理文本，确定第三目标文本单元对应的在待处理文本中的第一预留位置。

本公开实施例中，对待处理文本进行遍历，获取第三目标文本单元对应的在待处理文本中的第一预留位置。

S2004：将第三目标文本单元添加至待处理文本的第一预留位置，生成目标新增文本。

S2005：获取为目标文本单元的第三目标文本单元，获取为目标文本的目标新增文本。

本公开实施例中，响应于用户第一次第二上文操作，生成目标新增文本：“Samplesize are very important for a learning model”。其中，“very”和“learning”为第三目标文本单元。

在第一次第二上文操作的基础上，响应于用户第二次第二上文操作，继续使用上述流程，获取文本单元序列，依次将文本单元序列输入至训练好的词向量模型，预测得到第三目标文本单元，示例性的，如下表4所示：

previous2	previous1	next1	next2	out
					前序第二个	前序第一个	后续第一个	后续第二个	输出
Sample	size	are	very	无
					…	…	…	…	无
for	a	learning	a	machine
					a	learning	model		无

表4

响应于用户第二次第二上文操作，生成目标新增文本：“sample size are veryimportant for a machine learning model”，“machine”为第三目标文本单元，在前次的基础上生成。

需要说明的是，上述示例仅作为示意，本公开实施例中，用户还可以多次第二上文操作，本公开实施例对此不作具体限制。

基于此，本公开实施例中，在不改变原有的语法语义的基础上，响应于用户对待处理文本的第二上文操作，在待处理文本的基础上新增文本，能够丰富使用者的词汇量。

在一些实施例中，获取目标新增文本中包括的文本单元的第二数目；在第二数目大于第二预设阈值的情况下，响应于用户的第二上文操作，提示新增文本达上限并退出。

可以理解的是，本公开实施例中，用户可以进行多次第二上文操作，随着多次第二上文操作，获取的目标新增文本中包括的文本单元数目也会增加，包括的文本单元数量越多，***进行数据处理所需要的时间必然会增加，计算效率必然会下降。

基于此，本公开实施例中对目标新增文本包括的文本单元数据进行统计，获取目标新增文本中包括的文本单元的第二数目，在第二数目大于第二预设阈值的情况下，如果存在用户的第二上文操作，提示新增文本达上限并退出。

其中，第二预设阈值可以为100、或者80、或者50等，可以根据***使用的服务器算力，以及网络带宽进行设置，本公开实施例对此不作具体限制。

在一些实施例中，第二预设阈值等于第一预设阈值。

如图8所示，在一些实施例中，本公开实施例上述S4可以包括如下步骤：

S41：将目标文本单元输入至训练好的词向量模型，生成目标词向量。

本公开实施例中，训练好的词向量模型可以为训练好的DistributedRepresentation编码模型，将目标文本单元输入至训练好的词向量模型，能够生成目标词向量。

S42：计算目标词向量与词语文档对应表中的候选词生成的候选词向量之间的相似度。

本公开实施例中，将候选词输入至训练好的词向量模型，能够生成候选词向量。

其中，候选词有多个，能够得到多个候选词向量，依次计算目标文本单元的目标词向量与每个候选词向量之间的相似度。

S43：根据相似度，确定与目标词向量相似度最大的候选词关联的广告信息为第一目标广告信息。

本公开实施例中，在获取到目标文本单元的目标词向量与每个候选词向量之间的相似度的情况下，能够根据相似度，确定一个相似度最大的候选词向量，并根据词语文档对应表，能够确定相似度最大的候选词向量关联的广告信息，进而，确定相似度最大的候选词向量关联的广告信息为第一目标广告信息。

在一些实施例中，在获取多个目标文本单元的情况下，根据目标文本单元和词语文档对照表，获取第一目标广告信息，包括：遍历多个目标文本单元，获取词语属性为名词或形容词的目标文本单元，与词语文档对照表中的候选词进行匹配，获取第一目标广告信息。

可以理解的是，一般情况下，广告的内容多关于事物，针对某一事物进行的相关介绍，可以想到的是，广告中包括最多的内容是词语属性为名词或者形容词的词语，通过对获取的多个目标文本单元进行词语属性为名词或形容词的筛选，能够优先获取有针对性的广告信息，避免获取的第一目标广告信息杂乱，能够提高广告的点击率。

在一些实施例中，本公开实施例中提供的上下文在线广告投放方法，还包括：获取训练好的词向量模型，其中，包括：获取训练数据集；将训练数据集输入至词向量模型，对词向量模型进行训练，生成训练好的词向量模型。

本公开实施例中，以英语文本为例，获取训练数据集，语料库可以为公开版本的文本格式的英语小说，对英语小说中的语句进行分词处理，在分词的基础上通过滑动的窗口(窗口长度可进行设置，示例性的，设置为目标词语，以及前后相邻的两个词语，总计四个相邻词语)生成训练数据集。

需要说明的是，窗口长度可进行设置，窗口长度还可以为3，获取目标词语，以及前后相邻的一个词语，总计两个相邻词语，生成训练数据集。或者，窗口长度还可以为7等，可以根据需要进行设置。

在一种可能的实现方式中，获取训练数据集，将训练数据集输入至词向量模型，对词向量模型进行训练的方法如下：

例句：the technology currently has made significant progress in manyimportant domains。通过一个滑动窗口遍历整个语句，例如设置滑动窗口的长度为5，则每个单词的前两个和后两个词作为输入，输出是目标词语。

例句生成的训练数据集，如下表5所示：

previous2	previous1	next1	next2	out
					前序第二个	前序第一个	后续第一个	后续第二个	输出
/	/	technology	currently	the
					/	the	currently	has	technology
the	technology	has	made	currently
					technology	currently	made	significant	has
currently	has	significant	progress	made
					has	made	progress	in	significant
made	significant	in	many	progress
					significant	progress	many	important	in
progress	in	important	domains	many
					in	many	domains	/	important
many	important	/	/	domains

表5

本公开实施例中，词向量模型可以为Distributed Representation编码模型，在获取到训练数据集后，将训练数据集依次输入至词向量模型Distributed Representation编码模型，对词向量模型进行训练，生成训练好的词向量模型。

如图9所示，在一些实施例中，本公开实施例上述S4还可以包括如下步骤：

S401：将目标文本输入至语句向量模型，生成目标文本向量。

其中，语句向量模型可以为doc2vec模型、Bag of Words模型、TF-IDF模型、BERT模型等。Bag of Words(BOW)：基于对文本中字出现的次数来构建文本向量，向量大小即为词表大小。可以采用的工具是gensim中的doc2bow。TF-IDF：在BOW的基础上，考虑到每个字的重要程度，向量大小依然等于词表大小。可以采用的工具是gensim中的TfidfModel。本公开实施例中，将目标文本输入至语句向量模型，能够获取目标文本对应的目标文本向量。

S402：计算目标文本向量与候选语句库中的候选语句生成的候选语句向量之间的相似度。

本公开实施例中，将候选语句输入至语句向量模型，能够获取候选语句对应的候选语句向量。其中，候选语句有多个，能够得到多个候选语句向量，依次计算目标文本单元的目标文本向量与每个候选语句向量之间的相似度。

S403：根据相似度，确定与目标文本向量相似度最大的候选语句关联的广告信息为第二目标广告信息。

本公开实施例中，在获取到目标文本的目标文本向量与每个候选语句向量之间的相似度的情况下，能够根据相似度，确定一个相似度最大的候选语句向量，并根据候选语句库，能够确定相似度最大的候选语句向量关联的广告信息，进而，确定相似度最大的候选语句向量关联的广告信息为第二目标广告信息。

在一些实施例中，在存在多个第一目标广告信息和/或多个第二目标广告信息的情况下，向用户提供第一目标广告信息和/或第二目标广告信息，包括：对多个第一目标广告信息和/或多个第二目标广告信息按照预设规则进行排序；选择向用户提供排序靠前的预设个数的第一目标广告信息和/或第二目标广告信息。

本公开实施例中，在通过上下文在线广告投放装置的显示部件展示目标文本和/或目标文本单元，以及第一目标广告信息和/或第二目标广告信息，向用户提供目标文本和/或目标文本单元，以及第一目标广告信息和/或第二目标广告信息的情况下，可以想到的是，上下文在线广告投放装置的显示部件所能展示的内容有限。

基于此，在获取到多个第一目标广告信息和/或多个第二目标广告信息的情况下，可以对多个第一目标广告信息和/或多个第二目标广告信息按照预设规则进行排序；选择向用户提供排序靠前的预设个数的第一目标广告信息和/或第二目标广告信息。

其中，预设规则可以为广告点击量、广告浏览量、随机排序、广告信息类别排序等。预设个数可以依据上下文在线广告投放装置的显示部件所能展示的内容大小确定，本公开实施例对此不作具体限制。

本公开实施例中，选择向用户提供排序靠前的预设个数的第一目标广告信息和.或第二目标广告信息，采用召回的方法，例如：协同过滤、FM(Factorization Machine)、FFM(Field-aware Factorization Machines)、图模型、双塔模型、DNN模型、Deep Retrieval算法等。

可以理解的是，排序越靠前的内容，与待处理文本的关联度越高，属于用户感兴趣的内容。本公开实施例中，还可以使用深度学***。

通过排序把召回的结果进行排序，把top k(k一般都是个位数)结果作为广告推荐***最终的输出。排序阶段常用的算法：LR(逻辑回归)，FM(Factorization Machine)，deepFM等。用户在使用上下文操作的过程中，通过推荐***的召回和排序，用户可浏览返回的广告信息、摘要文本、链接等。

图10是根据一示例性实施例示出的一种上下文在线广告投放装置的结构图。

如图10所示，上下文在线广告投放装置1，包括：文本获取单元11、目标获取单元12、数据获取单元13、第一信息获取单元14、第二信息获取单元15和信息提供单元16。

文本获取单元11，用于获取待处理文本；其中，待处理文本包括多个文本单元，文本单元为词语或短语。

目标获取单元12，用于响应于用户对待处理文本进行上下文操作，获取目标文本单元和目标文本。

数据获取单元13，用于获取词语文档对应表和候选语句库；其中，词语文档对应表包括多个候选词和与候选词关联的广告信息，候选语句库包括多个候选语句和与候选语句关联的广告信息。

第一信息获取单元14，用于根据目标文本单元和词语文档对应表，获取第一目标广告信息。

第二信息获取单元15，用于根据目标文本和候选语句库，获取第二目标广告信息。

以及信息提供单元16，用于向用户提供目标文本和/或目标文本单元，以及第一目标广告信息和/或第二目标广告信息。

如图11所示，在一些实施例中，目标获取单元12，包括：语法结构获取模块121、权重等级获取模块122、第一目标文本单元确定模块123、目标精简文本生成模块124和第一数据获取模块125。

语法结构获取模块121，用于响应于用户对待处理文本的下文操作，将待处理文本输入至语法分析模型，获取与待处理文本匹配的目标语法结构。

权重等级获取模块122，用于根据目标语法结构，获取待处理文本中的多个文本单元对应的权重等级。

第一目标文本单元确定模块123，用于在权重等级包括至少两个等级的情况下，确定多个文本单元中的第一目标文本单元。

目标精简文本生成模块124，用于将待处理文本中的第一目标文本单元进行删除，生成目标精简文本。

第一数据获取模块125，用于获取为目标文本单元的第一目标文本单元，获取为目标文本的目标精简文本。

如图12所示，在一些实施例中，目标获取单元12，包括：限制词汇表获取模块126、第二目标数据生成模块127和第一数据获取模块128。

限制词汇表获取模块126，用于获取限制词汇表；其中，限制词汇表包括多个限制词。

第二目标数据生成模块127，用于响应于用户对待处理文本的第一上文操作，将待处理文本输入至文本生成模型，根据限制词汇表，获取至少一个编辑操作，生成目标生成文本；获取目标生成文本与待处理文本不同的至少一个第二目标文本单元。

第二数据获取模块128，用于获取为目标文本单元的第二目标文本单元，获取为目标文本的目标生成文本。

如图13所示，在一些实施例中，目标获取单元12，包括：文本单元序列获取模块1201、第三目标文本单元生成模块1202、位置获取模块1203、目标新增文本生成模块1204和第三数据获取模块1205。

文本单元序列获取模块1201，用于响应于用户对待处理文本的第二上文操作，将待处理文本按照预设条件划分为至少一个文本单元序列。

第三目标文本单元生成模块1202，用于将文本单元序列输入至训练好的词向量模型，预测得到第三目标文本单元。

位置获取模块1203，用于遍历待处理文本，确定第三目标文本单元对应的在待处理文本中的第一预留位置。

目标新增文本生成模块1204，用于将第三目标文本单元添加至待处理文本的第一预留位置，生成目标新增文本。

第三数据获取模块1205，用于获取为目标文本单元的第三目标文本单元，获取为目标文本的目标新增文本。

在一些实施例中，数据获取单元13，具体用于获取广告语料数据；其中，广告语料数据包括文字广告、图片广告和视频广告中的至少一种；获取文字广告、图片广告和视频广告的广告文本和链接；将广告文本输入至摘要生成模型，生成摘要文本；根据广告文本、摘要文本和链接，生成词语文档对应表和候选语句库。

在一些实施例中，数据获取单元13，还用于获取图片广告和视频广告中的图像；将图像输入至图像描述模型，生成广告文本。

在一些实施例中，数据获取单元13，还用于将图像输入至编码器，通过分类模型或目标检测模型，获取目标物体的类别和位置，生成特征向量；将特征向量输入至解码器，生成广告文本。

在一些实施例中，数据获取单元13，还用于将广告文本分别进行分词、去重、去除停用词，获取候选词；建立候选词与摘要文本和链接的倒排索引，生成词语文档对应表。

在一些实施例中，数据获取单元13，还用于将广告文本进行分句，获取候选语句；建立候选语句与摘要文本和链接的对应关系，生成候选语句库。

如图14所示，在一些实施例中，第一信息获取单元14，包括：目标词向量生成模块141、第一相似度计算模块142和第一目标广告信息确定模块143。

目标词向量生成模块141，用于将目标文本单元输入至训练好的词向量模型，生成目标词向量。

第一相似度计算模块142，用于计算目标词向量与词语文档对应表中的候选词生成的候选词向量之间的相似度。

第一目标广告信息确定模块143，用于根据相似度，确定与目标词向量相似度最大的候选词关联的广告信息为第一目标广告信息。

如图15所示，在一些实施例中，第二信息获取单元15，包括：目标文本向量生成模块151、第二相似度计算模块152和第二目标广告信息确定模块153。

目标文本向量生成模块151，用于将目标文本输入至语句向量模型，生成目标文本向量。

第二相似度计算模块152，用于计算目标文本向量与候选语句库中的候选语句生成的候选语句向量之间的相似度。

第二目标广告信息确定模块153，用于根据相似度，确定与目标文本向量相似度最大的候选语句关联的广告信息为第二目标广告信息。

在一些实施例中，在获取多个目标文本单元的情况下，第一信息获取单元14，具体用于遍历多个目标文本单元，获取词语属性为名词或形容词的目标文本单元，与词语文档对照表中的候选词进行匹配，获取第一目标广告信息。

在一些实施例中，在存在多个第一目标广告信息和/或多个第二目标广告信息的情况下，信息提供单元16，具体用于对多个第一目标广告信息和/或多个第二目标广告信息按照预设规则进行排序；选择向用户提供排序靠前的预设个数的第一目标广告信息和/或第二目标广告信息。

在一些实施例中，信息提供单元16，还用于将目标文本输入至语法分析模型，在存在匹配的语法结构的情况下，向用户提供目标文本；在不存在匹配的语法结构的情况下，提示上下文操作错误并退出。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例提供的上下文在线广告投放装置所能取得的有益效果与上述示例中提供的上下文在线广告投放方法所取得的有益效果相同，此处不再赘述。

图16是根据一示例性实施例示出的一种用于上下文在线广告投放方法的服务器的计算机***600的结构图。

图16示出的服务器仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

计算机***600包括中央处理单元(CPU，Central Processing Unit)601，其可以根据存储在只读存储器(ROM，Read Only Memory)602中的程序或者从存储部分606加载到随机访问存储器(RAM，Random Access Memory)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有***600操作所需的各种程序和数据。CPU 601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O，Input/Output)接口605也连接至总线604。

以下部件连接至I/O接口605：包括硬盘等的存储部分606；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分607。通信部分607经由诸如因特网的网络执行通信处理。驱动器608也根据需要连接至I/O接口605。可拆卸介质609，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器608上，以便于从其上读出的计算机程序根据需要被安装入存储部分606。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分607从网络上被下载和安装，和/或从可拆卸介质609被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本公开的方法中限定的上述功能。

需要说明的是，本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、获取单元、建立单元和匹配单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，接收单元还可以被描述为“接收统计请求的单元”。

为了实现上述实施例，本公开还提出一种存储介质。

其中，该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前所述的上下文在线广告投放方法。例如，所述存储介质可以是ROM(Read Only MemoryImage，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory，紧凑型光盘只读存储器)、磁带、软盘和光数据存储设备等。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序由电子设备的处理器执行时，使得电子设备能够执行如前所述的上下文在线广告投放方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种上下文在线广告投放方法，其特征在于，包括：

获取待处理文本；其中，所述待处理文本包括多个文本单元，所述文本单元为词语或短语；

响应于用户对所述待处理文本进行上下文操作，获取目标文本单元和目标文本；

获取词语文档对应表和候选语句库；其中，所述词语文档对应表包括多个候选词和与所述候选词关联的广告信息，所述候选语句库包括多个候选语句和与所述候选语句关联的广告信息；

根据所述目标文本单元和所述词语文档对应表，获取第一目标广告信息；

根据所述目标文本和所述候选语句库，获取第二目标广告信息；以及

向所述用户提供所述目标文本和/或所述目标文本单元，以及所述第一目标广告信息和/或所述第二目标广告信息。

2.根据权利要求1所述的方法，其特征在于，所述响应于用户输入待处理文本，对所述待处理文本进行上下文操作，获取目标文本单元和目标文本，包括：

响应于所述用户对所述待处理文本的下文操作，将所述待处理文本输入至语法分析模型，获取与所述待处理文本匹配的目标语法结构；

根据所述目标语法结构，获取所述待处理文本中的多个文本单元对应的权重等级；

在所述权重等级包括至少两个等级的情况下，确定多个所述文本单元中的第一目标文本单元；

将所述待处理文本中的所述第一目标文本单元进行删除，生成目标精简文本；

获取为所述目标文本单元的所述第一目标文本单元，获取为所述目标文本的所述目标精简文本。

3.根据权利要求1或2所述的方法，其特征在于，所述响应于用户输入待处理文本，对所述待处理文本进行上下文操作，获取目标文本单元和目标文本，包括：

获取限制词汇表；其中，所述限制词汇表包括多个限制词；

响应于所述用户对所述待处理文本的第一上文操作，将所述待处理文本输入至文本生成模型，根据所述限制词汇表，获取至少一个编辑操作，生成目标生成文本；

确定所述目标生成文本与所述待处理文本不同的文本单元为第二目标文本单元；

获取为所述目标文本单元的所述第二目标文本单元，获取为所述目标文本的所述目标生成文本。

4.根据权利要求1或2所述的方法，其特征在于，所述响应于用户输入待处理文本，对所述待处理文本进行上下文操作，获取目标文本单元和目标文本，包括：

响应于所述用户对所述待处理文本的第二上文操作，将所述待处理文本按照预设条件划分为至少一个文本单元序列；

将所述文本单元序列输入至训练好的词向量模型，预测得到第三目标文本单元；

遍历所述待处理文本，确定所述第三目标文本单元对应的在所述待处理文本中的第一预留位置；

将所述第三目标文本单元添加至所述待处理文本的所述第一预留位置，生成目标新增文本；

获取为所述目标文本单元的所述第三目标文本单元，获取为所述目标文本的所述目标新增文本。

5.根据权利要求1所述的方法，其特征在于，所述获取词语文档对应表和候选语句库，包括：

获取广告语料数据；其中，所述广告语料数据包括文字广告、图片广告和视频广告中的至少一种；

获取所述文字广告、所述图片广告和所述视频广告的广告文本和链接；

将所述广告文本输入至摘要生成模型，生成摘要文本；

根据所述广告文本、所述摘要文本和所述链接，生成所述词语文档对应表和所述候选语句库。

6.根据权利要求5所述的方法，其特征在于，所述获取所述图片广告和所述视频广告的广告文本，包括：

获取所述图片广告和所述视频广告中的图像；

将所述图像输入至图像描述模型，生成所述广告文本。

7.根据权利要求6所述的方法，其特征在于，所述将所述图像输入至图像描述模型，生成所述广告文本，包括：

将所述图像输入至编码器，通过分类模型或目标检测模型，获取目标物体的类别和位置，生成特征向量；

将所述特征向量输入至解码器，生成所述广告文本。

8.根据权利要求5至7中任一项所述的方法，其特征在于，所述根据所述广告文本、所述摘要文本和所述链接，生成所述词语文档对应表，包括：

将所述广告文本分别进行分词、去重、去除停用词，获取所述候选词；

建立所述候选词与所述摘要文本和所述链接的倒排索引，生成所述词语文档对应表。

9.根据权利要求5至7中任一项所述的方法，其特征在于，所述根据所述广告文本、所述摘要文本和所述链接，生成所述候选语句库，包括：

将所述广告文本进行分句，获取所述候选语句；

建立所述候选语句与所述摘要文本和所述链接的对应关系，生成所述候选语句库。

10.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本单元和所述词语文档对应表，获取第一目标广告信息，包括：

将所述目标文本单元输入至训练好的词向量模型，生成目标词向量；

计算所述目标词向量与所述词语文档对应表中的所述候选词生成的候选词向量之间的相似度；

根据所述相似度，确定与所述目标词向量相似度最大的所述候选词关联的广告信息为所述第一目标广告信息。

11.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本和所述候选语句库，获取第二目标广告信息，包括：

将所述目标文本输入至语句向量模型，生成目标文本向量；

计算所述目标文本向量与所述候选语句库中的所述候选语句生成的候选语句向量之间的相似度；

根据所述相似度，确定与所述目标文本向量相似度最大的所述候选语句关联的广告信息为所述第二目标广告信息。

12.根据权利要求1所述的方法，其特征在于，在获取多个所述目标文本单元的情况下，所述根据所述目标文本单元和所述词语文档对照表，获取第一目标广告信息，包括：

遍历多个所述目标文本单元，获取词语属性为名词或形容词的所述目标文本单元，与所述词语文档对照表中的所述候选词进行匹配，获取所述第一目标广告信息。

13.根据权利要求1所述的方法，其特征在于，在存在多个所述第一目标广告信息和/或多个所述第二目标广告信息的情况下，所述向所述用户提供所述第一目标广告信息和/或所述第二目标广告信息，包括：

对多个所述第一目标广告信息和/或多个所述第二目标广告信息按照预设规则进行排序；

选择向所述用户提供排序靠前的预设个数的所述第一目标广告信息和/或所述第二目标广告信息。

14.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

将所述目标文本输入至语法分析模型，在存在匹配的语法结构的情况下，向所述用户提供所述目标文本；

在不存在匹配的语法结构的情况下，提示上下文操作错误并退出。

15.一种上下文在线广告投放装置，其特征在于，包括：

文本获取单元，用于获取待处理文本；其中，所述待处理文本包括多个文本单元，所述文本单元为词语或短语；

目标获取单元，用于响应于用户对所述待处理文本进行上下文操作，获取目标文本单元和目标文本；

数据获取单元，用于获取词语文档对应表和候选语句库；其中，所述词语文档对应表包括多个候选词和与所述候选词关联的广告信息，所述候选语句库包括多个候选语句和与所述候选语句关联的广告信息；

第一信息获取单元，用于根据所述目标文本单元和所述词语文档对应表，获取第一目标广告信息；

第二信息获取单元，用于根据所述目标文本和所述候选语句库，获取第二目标广告信息；以及

信息提供单元，用于向所述用户提供所述目标文本和/或所述目标文本单元，以及所述第一目标广告信息和/或所述第二目标广告信息。

16.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至14中任一项所述的方法。

17.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至14中任一项所述的方法。

18.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至14中任一项所述的方法。