CN113302603A

CN113302603A - 用于搜索和排序个性化视频的***和方法

Info

Publication number: CN113302603A
Application number: CN202080009442.6A
Authority: CN
Inventors: 亚历山大·马什拉博夫; 尤金·克罗哈列夫; 索菲娅·萨维诺娃; 伊万·巴巴宁; 伊万·别洛诺戈夫
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2019-01-18
Filing date: 2020-01-18
Publication date: 2021-08-24
Also published as: US11645331B2; US20230259556A1; US20200233903A1; EP3912057A1; KR20210118429A; US20220004575A1; US11157557B2; WO2020150694A1

Abstract

一种用于搜索和排序个性化视频的示例方法，该示例方法从经由用户与另外的用户之间的通信聊天来接收用户请求开始。用户请求包括短语或表情符号。该方法基于用户请求执行个性化视频的池的搜索，以确定相关个性化视频的子集。个性化视频与文本消息相关联。该方法还包括确定相关个性化视频的第一排序。然后，该方法继续基于第一排序来从相关个性化视频的子集中选择预定数目的个性化视频。然后，该方法确定所选择的个性化视频的第二排序，并基于第二排序在通信聊天内按顺序呈现所选择的个性化视频。对第一子池的个性化视频和第二子池的个性化视频进行单独地排序。

Description

用于搜索和排序个性化视频的***和方法

技术领域

本公开总体涉及数字图像处理。更具体地，本公开涉及用于搜索和排序个性化视频的***和方法。

背景技术

共享诸如贴纸和表情符号的媒体已在消息传递应用中成为标准选项(在本文中也被称为信使(messenger))。目前，一些信使向用户提供用于生成图像和短视频并经由通信聊天将该图像和短视频发送给其他用户的选项。某些现有的信使允许用户在传输之前修改短视频。然而，由现有信使提供的短视频的修改限于可视化效果、滤镜和文本。当前信使的用户不能执行复杂的编辑(例如，将一个面部替换成另一个面部)。这样的视频编辑无法由当前信使提供，并且需要复杂的第三方视频编辑软件。

发明内容

此部分的目的是以简化的形式介绍选择的理念，该理念的具体内容如下文中的具体实施方式部分所述。本发明内容并非用于确定要求保护的主题的关键特征或主要特征，也并非用于帮助确定要求保护的主题的范围。

根据本公开的一个实施例，公开了一种用于搜索和排序个性化视频的方法。该方法可包括由计算装置经由该计算装置的用户与另外的计算装置的另外的用户之间的通信聊天来接收用户请求。用户请求可包括短语。该方法可继续由计算装置基于用户请求来执行个性化视频的池的搜索以确定相关个性化视频的子集。个性化视频可与文本消息相关联。可通过确定短语中的至少一个词是与池的至少一个个性化视频相关联的文本消息中的至少一个词的同义词并且将至少一个个性化视频添加到相关个性化视频的子集来执行搜索。在一个示例实施例中，每个个性化视频可与一个或多个活动类别相关联。在本实施例中，搜索可包括基于短语从一个或多个活动类别中选择类别，并且确定池的至少一个个性化视频与该类别相关联。该至少一个个性化视频可添加到相关个性化视频子集中。

在另一个示例实施例中，搜索可包括计算短语和来自于池的与文本消息相关联的个性化视频之间的相似距离；确定相似距离是否未超过预定阈值；以及基于相似距离未超过预定阈值的确定，将个性化视频添加到相关个性化视频子集中。在另一个示例实施例中，池的搜索可包括基于用户的年龄从池中选择个性化视频。

该方法还可包括通过计算装置确定相关个性化视频的第一排序。第一排序的确定可包括计算一个或多个特征。该特征可包括概率项(该概率项对短语和与至少一个相关个性化视频相关联的文本消息的函数进行加权)、短语的项与文本消息的项之间的杰卡德(Jaccard)相似系数以及相关个性化视频的共享率。

然后，该方法可继续通过计算装置基于第一排序来从相关个性化视频子集中选择预定数目的个性化视频。该方法还可包括由计算装置确定所选择的个性化视频的第二排序。对第二排序的确定可包括确定第一特征向量和第二特征向量。第一特征向量可包括对应于与个性化视频相关联的文本消息的第一全局向量、个性化视频的流行度度量、与个性化视频相关联的活动类别以及指示用户先前使用的个性化视频的信息。第一全局向量可基于分布式词呈现的模型来确定。第二特征向量可包括对应于短语的第二全局向量、用户喜欢的活动类别、关于用户的个人数据的信息(该信息至少包括用户的年龄和用户的性别)、以及通信聊天的对话上下文。第二全局向量可基于分布式词呈现的模型来确定。对第二排序的确定可包括将第一特征向量和第二特征向量提供给神经网络。神经网络可被配置为输出个性化视频的排序得分。

然后，该方法可继续通过计算装置在通信聊天内呈现所选择的个性化视频。所选择的个性化视频可基于第二排序按顺序来呈现。

个性化视频的池可包括具有预呈现的文本消息的个性化视频的第一子池和具有用户定制的文本消息的个性化视频的第二子池。所选择的个性化视频可包括来自第二子池的至少一个个性化视频。可对第一子池的个性化视频和第二子池的个性化视频进行单独地排序。在一个示例实施例中，在计算第一排序之前，可基于黑名单从第二子池中滤除个性化视频。

根据另一个实施例，提供了一种用于搜索和排序个性化视频的***。该***可包括至少一个处理器和存储处理器可执行代码的存储器，其中，至少一个处理器可被配置为在执行处理器可执行代码时实现上述用于搜索和排序个性化视频的方法的操作。

根据本公开的又一方面，提供一种非暂时性处理器可读介质，该非暂时性处理器可读介质存储处理器可读指令。处理器可读指令在被处理器执行时，使处理器实现上述用于搜索和排序个性化视频的方法。

示例的另外目的，优点和新颖特征将部分地在以下描述中阐述，并且部分地在检查以下描述和附图后对于本领域技术人员将变得显而易见，或者可以通过实施例的生产或操作来学习。概念的目的和优点可借助于在所附权利要求中特别指出的方法，手段和组合来实现和获得。

附图说明

在附图中以示例而非限制的方式示出实施例，在该附图中，类似的附图标记表示相似的元件。

图1是示出示例环境的框图，其中，可以实现用于搜索和排序个性化视频的***和方法。

图2是示出用于实现用于搜索和排序个性化视频的方法的计算装置的示例实施例的框图。

图3是示出根据本公开的一些示例实施例的用于提供个性化视频的***的框图。

图4是示出根据本公开的一些示例实施例的用于搜索和排序个性化视频的***的框图。

图5是示出根据本公开的一些示例实施例的初步搜索和选择模块的框图。

图6是示出根据本公开的一些示例实施例的快速排序模块的框图。

图7是示出根据本公开的一些示例实施例的重新排序模块的框图。

图8是示出根据本公开的一些示例实施例的个性化视频的分类的示意图。

图9是示出根据本公开的一些示例实施例的用于选择和排序个性化视频的过程的流程图。

图10示出根据本公开的示例实施例的通信聊天的示例屏幕。

图11是示出根据示例实施例的用于搜索和排序个性化视频的方法的流程图。

图12示出可用于实现用于搜索和排序个性化视频的方法的示例计算机***。

具体实施方式

以下对实施例的具体实施方式包括参照形成具体实施方式的一部分附图。此部分中描述的办法不是权利要求的现有技术，并且也不通过包括在此部分中而被承认为现有技术。附图示出根据示例性实施例的说明。足够详细地描述了这些在本文中也被称为“示例”的示例性实施例，以使本领域技术人员能够实践本主题。在不脱离所要求保护的范围的情况下，可组合实施例，可利用其它实施例，或者可进行结构的，逻辑的和操作的改变。因此，以下具体实施方式不应被认为是限制性的，并且范围由所附权利要求及其等同物限定。

出于本专利文件的目的，除非另外说明或在其使用的上下文中另外明确地意指，否者术语“或”和“和”应指“和/或”。除非另外说明或在“一个或多个”的使用明显不适当的情况下，否则术语“一个”应指“一个或多个”。术语“包括(comprise)”、“包括(comprising)”、“包含(include)”和“包含(including)”是可互换的并且不旨在限制。例如，术语“包含”应解释为指“包括但不限于”。

本公开涉及用于搜索和排序个性化视频的方法和***。本公开提供的实施例解决了现有技术的至少一些问题。本公开可设计成在诸如智能电话、平板电脑或电话的移动装置上实时实现，但实施例可扩展到网络服务或基于云的资源。可通过在计算机***上运行的软件和/或通过利用微处理器的组合或其它专门设计的专用集成电路(ASIC)、可编程逻辑装置或其任何组合的硬件来实现在本文中描述的方法。具体地，在本文中描述的方法可通过驻留在非暂时性存储介质(例如磁盘驱动器或计算机可读介质)上的一系列计算机可执行指令来实现。

本公开的一些实施例可允许在诸如智能手机的用户计算装置上实时生成个性化视频。可基于预先生成的视频模板来生成个性化视频。视频模板可包括帧图像的序列以及用于文本动画的预设文本参数。视频模板还可包括定义面部区域在帧图像中的位置的面部区域参数的序列、以及定义面部界标在帧图像中的位置的面部界标参数的序列。每个面部界标参数可对应于面部表情。可基于动画视频或实景真人视频生成帧图像。

可基于表征演员面部的另一实景真人视频(如下面更详细描述，也被称为面部同步(facesync))、动画视频、音频文件、文本或手动来生成面部界标参数。视频模板可包括动画对象图像序列。视频模板还可包括声道。如本文中使用的，面部同步演员是其面部界标参数正被使用的人，演员是其身体正被用在视频模板中并且其皮肤可被重新着色的另一个人，并且用户是拍摄他的面部的图像以生成个性化视频的人。因此，在一些实施例中，个性化视频可包括被修改为具有面部同步演员的面部表情的用户面部，并且包括取自视频模板并重新着色以匹配用户面部颜色的演员的身体。

预生成的视频模板可远程存储在基于云的计算资源中，并且可由计算装置(诸如智能电话)的用户下载。计算装置的用户可通过计算装置捕获面部的图像或从相机卷、从准备好的图像集合、或经由网络链接来选择面部的图像。在一些实施例中，图像可包括动物而不是人的面部，者可以是以画画的形式。基于面部的图像和预生成的视频模板中的一个，计算装置还可以生成个性化视频。用户可经由通信聊天将个性化视频发送给另一计算装置的另一用户、在社交媒体上共享、下载到计算装置的本地存储装置、或上传到云存储装置或视频共享服务。

计算装置还可将文本添加到所生成的个性化视频中。计算装置可基于预设的文本参数生成配置文件。计算装置可从用户接收要添加到个性化视频的输入文本。计算装置可根据配置文件中的文本参数在每个帧上呈现输入文本。结果，输入文本可在个性化视频中作为动画出现。用户可经由通信聊天向另一计算装置的另一用户发送具有预设文本的个性化视频或具有定制文本的个性化视频。

在一些实施例中，具有定制的文本消息的个性化视频的生成可集成在信使中。用户可使用关键词、短语或表情符号来搜索个性化视频。信使可包括用于搜索和排序个性化视频的***。用于搜索和排序个性化视频的***可允许搜索个性化视频的池以确定最相关个性化视频。池可包括具有预设文本的个性化视频和具有定制文本的个性化视频。对相关个性化视频的搜索可基于关键词或短语，用户与另一计算装置的另一用户的通信聊天的上下文、用户偏好、个性化视频的流行度度量等。

根据本公开的一个实施例，用于搜索和排序个性化视频的示例方法可包括经由计算装置的用户与另外的计算装置的另外的用户之间的通信聊天来接收用户请求。用户请求可包括短语。该方法可继续基于用户请求执行个性化视频的池的搜索以确定相关个性化视频的子集。个性化视频可与文本消息相关联。该方法可包括确定相关个性化视频的第一排序，以及基于该第一排序来从相关个性化视频的子集中选择预定数目的个性化视频。然后，该方法可继续确定所选择的个性化视频的第二排序，并且基于该第二排序在通信聊天内按顺序呈现所选择的个性化视频。

现在参照附图，描述示例性实施例。附图是理想化的示例性实施例的示意图。因此，不应将在本文中论述的示例性实施例理解为限于在本文中呈现的特定说明；准确地说，如对本领域技术人员将是明显的，这些示例性实施例可包括偏离并且不同于在本文中呈现的说明。

图1是示出示例环境100，其中，可以实现一种用于搜索和排序个性化视频的方法。环境100可包括计算装置105、用户102、计算装置110、用户104、网络120和信使服务***130。计算装置105和计算装置110可指诸如电话、智能电话或平板电脑等移动装置。在其它实施例中，然而，计算装置110可指个人电脑、膝上型电脑、上网本、机顶盒、电视装置、多媒体装置、个人数字助理、游戏机、娱乐***、信息娱乐***、车载计算机或任何其它计算装置。

计算装置105和计算装置110可以经由网络120通信地连接到信使服务***130。信使服务***130可实现为基于云的计算资源。信使服务***130可包括在远程位置处可用并可通过网络(例如，互连网)访问的计算资源(硬件和软件)。基于云的计算资源可由多个用户共享，并且可基于需求动态地重新分配。基于云的计算资源可包括一个或多个服务器群/集群，该服务器群/集群包括可与网络交换机和/或路由器共处一地的计算机服务器的集合。

网络120可包括任何有线网络、无线网络或光学网络(例如包括互连网、内联网、局域网(LAN)、个域网(PAN)、广域网(WAN)、虚拟专用网(VPN)、蜂窝电话网络(例如，全球移动通信***(GSM))等)。

在本公开的一些实施例中，计算装置105可配置为启动计算装置110的用户102与用户104之间的通信聊天。用户102和用户104可在通信聊天期间交换文本消息和视频。视频可包括个性化视频。可基于存储在计算装置105或计算装置110中的预生成的视频模板来生成个性化视频。在一些实施例中，可将预生成的视频模板存储在信使服务***130中并按需下载到计算装置105或计算装置110。

信使服务***130可包括用于预处理视频的***140。***140可基于动画视频或实景真人视频生成视频模板。信使服务***130可包括用于存储视频模板的视频模板数据库145。视频模板可下载到计算装置105或计算装置110。视频模板数据库还可存储模板的下载的统计信息，以确定视频模板的流行度度量。可根据用户的年龄、用户的性别、地理区域等将流行度度量划分为多个类别。

信使服务***130还可配置为存储用户简档135。用户简档135可包括用户102的面部的图像、用户104的面部的图像以及其他人的面部的图像。可按需并基于许可将面部的图像下载到计算装置105或计算装置110。另外，可使用计算装置105生成用户102的面部的图像并将该图像存储在计算装置105的本地存储器中。可基于存储在计算装置105中的其他图像来生成面部的图像。计算装置105还可使用面部的图像基于预生成的视频模板来生成个性化视频。类似地，计算装置110可用于生成用户104的面部的图像。用户104的面部的图像可用于在计算装置110上生成个性化视频。在其他实施例中，用户102的面部的图像和用户104的面部的图像可相互用于在计算装置105或计算装置110上生成个性化视频。

在一些实施例中，预生成的视频模板可包括预设默认文本消息。预生成的视频模板还可包括预设文本参数，该预设文本参数用于在基于预生成的视频模板生成的个性化视频中动画化预设默认文本消息。计算机装置可被配置为播放表征基于预设文本参数而动画化的预设文本消息的个性化视频。在个性化视频的播放期间，计算装置105可提供改变预设默认文本消息的选项和用于显示个性化视频中的文本消息的参数。计算装置105可在播放个性化视频的同时动态地改变个性化视频中的预设默认文本消息。用户105还可经由通信聊天将具有改变后的文本消息的个性化视频发送到计算装置110的用户104。

在示例性实施例中，如果在通信聊天中，用户104使用与用户102的语言不同的语言，则可自动翻译文本消息中的文本。因此，在通信聊天中，用户104可看到具有以用户104使用的语言显示的文本消息的个性化视频。

在一些实施例中，用户102可搜索要在通信聊天中发送的个性化视频。用户102可键入关键词或短语。计算装置105可执行对具有定制文本的相关个性化视频的搜索，并且呈现相关个性化视频的列表以供用户102选择。搜索可基于关键词或短语、通信聊天中的通信上下文、用户的年龄、用户的性别、地理区域、个性化视频的流行度度量等。

图2是示出用于实现用于搜索和排序个性化视频的方法的计算装置105(或计算装置110)的一个示例实施例的框图。在图2所示的示例中，计算装置110包括硬件组件和软件组件两者。具体而言，计算装置110包括用于获取数字图像的相机205或任何其他图像捕获装置或扫描仪。计算装置110还可包括用于存储软件组件和处理器可读(机器可读)指令或代码的处理器模块210和存储器存储装置215，该指令或代码在被处理器模块210执行时，使计算装置105执行如本文所述的用于搜索和排序个性化视频的方法的至少一些步骤。计算装置105可包括图形显示***230和通信模块240。在其它实施例中，计算装置105可包括附加的或不同的组件。此外，计算装置105可包括执行与图2中描绘的功能类似或等效的功能的较少组件。

计算装置110还可包括用于启动与另一计算装置(例如计算装置110)的通信聊天的信使220、用于生成个性化视频的***250、以及用于搜索和排序个性化视频的***260。下面参考图3更详细地描述***250。下面参考图4更详细地描述***260。信使220、***250和***260可实现为存储在存储器存储装置215中的软件组件和处理器可读(机器可读)指令或代码，该指令或代码在被处理器模块210执行时，使计算装置105执行如本文所述的用于提供通信聊天、生成个性化视频、以及搜索和排序个性化视频的方法的至少一些步骤。

在一些实施例中，用于生成个性化视频的***250和用于搜索和排序个性化视频的***260可集成在信使220中。可经由图形显示***230提供信使220的用户界面、用于生成个性化视频的***250、以及用于搜索和排序个性化视频的***260。可经由通信模块240和网络120启动通信聊天。通信模块240可包括GSM模块、WiFi模块、蓝牙^TM模块等。

图3是根据本公开的一些示例实施例的用于生成个性化视频的***250的框图。***250可包括用户接口305、面部图像捕获模块310、模板数据库320、个性化视频生成模块330、以及个性化视频(例如，卷)的池325。

视频模板数据库320可存储用于生成个性化视频的视频模板。视频模板320可包括从信使服务***130(图1所示)的视频模板数据库145下载的视频模板。该视频模板可包括先前记录的表征一个或多个演员的视频。视频可包括2D视频或3D场景。视频模板可预处理以分割每个帧中的演员面部(也被称为目标面部)和背景，并且识别一组参数，该组参数可用于进一步***源面部而不是演员面部(目标面部)。该组参数可包括面部纹理、面部表情参数、面部颜色、面部身份参数、面部的位置和角度等。该组参数还可包括可在演员面部上执行的操纵和操作的列表(诸如，以照片真实的方式执行的演员面部的替换)。

面部图像捕获模块310可接收人的图像并生成人的面部图像。该人的面部图像可作为源面部替代视频模板数据库320中存储的视频中的目标面部。该人的图像可通过计算装置105的相机205捕获。该人的图像可包括存储在计算装置105的存储器存储装置215中的图像。

个性化视频生成模块330可基于源面部的图像，从存储在数据库320中的一个或多个预生成的视频模板生成个性化视频。模块330可用源面部替换预生成的视频中的演员面部，同时保持演员面部的面部表情。模块330可用源面部的面部纹理、面部颜色和面部身份来替换演员的面部纹理、面部颜色和面部身份。模块330还可在个性化视频中的源面部的眼部区域上添加眼镜的图像。类似地，模块330可将头盔(例如，便帽、礼帽、头盔等)的图像添加到个性化视频中的源面部的头部上。眼镜和头盔的图像可预先存储在用户的计算装置105中，或者可以生成眼镜和头盔的图像。可使用DNN来生成眼镜和头饰的图像。模块330还可将阴影或颜色应用于个性化视频中的源面部。

个性化视频的池325可包括基于来自视频模板数据库320的视频模板而生成的视频。池325可包括具有预设文本的个性化视频和具有定制文本的个性化视频。个性化视频在本文也被称为卷。

图4是示出根据本公开的一些示例实施例的用于搜索和排序个性化视频的***260的框图。在框405处，可经由计算装置的用户与另外的计算装置的另外的用户之间的通信聊天来接收用户请求。用户请求可包括短语。初步搜索和选择模块410可基于用户请求来执行个性化视频的池的搜索，以确定相关个性化视频的子集415。个性化视频可与文本消息相关联。在一个示例实施例中，可基于存储在视频模板数据库145(图1所示)或视频模板数据库320(图3所示)中的模板来执行搜索。视频模板可以是个性化的并且可以呈现给用户。因此，初步搜索和选择模块410可提供相关个性化视频的无序池。

在执行初步搜索之后，快速排序模块420可确定相关个性化视频的第一排序。在确定第一排序之后，可基于第一排序从相关个性化视频(卷)的子集中选择预定数目的个性化视频415。所选择的预定数目的个性化视频作为所选择的个性化视频(卷)的池425显示。重新排序模块430可确定所选择的预定数目的个性化视频的第二排序。在确定第二排序之后，可在通信聊天中呈现所选择的个性化视频(卷)的有序池435。所选择的个性化视频可按基于第二排序确定的顺序来呈现在池中。

图5是示出根据本公开的一些示例实施例的初步搜索和选择模块410的框图。初步搜索和选择模块410可被配置为执行词匹配505。语言中的许多词可具有不同的形式(例如“令人惊奇的(amazing)”和“惊奇的(amazed)”)，但是它们的含义在搜索请求方面是类似的。初步搜索和选择模块410可具有搜索引擎，该搜索引擎被配置为将曲折词减少到它们的基础或根形式。为此，可使用暗示使用用于将每个词转换为基本形式的查找表的词干提取技术。这种办法允许对算法行为的最佳控制并且容易地处理极端情况。为了更好的搜索性能，可使用同义词来扩展搜索请求(即，用户请求)。可提供具有同义短语集合(所有短语在每个集合中具有相似含义)的表。如果搜索请求中存在该短语中的一个，则可通过利用来自相同集合的任何其他短语替换该短语来扩展搜索请求。

为了使用户体验顺畅，迅速地找到适当的个性化视频可能是非常重要的。可使用被称为倒排索引的数据结构。倒排索引数据结构能够在描述中高效地找到在描述中具有特定词的个性化视频。而且，前缀匹配可应用于用户请求中的最后词。

可将在该步骤期间找到的所有个性化视频添加到如图4所示的相关个性化视频的子集415所示的排序池中。

另一个重要的问题是避免定制的个性化视频中的有毒内容。为此，可使用与黑名单词的模糊匹配。针对来自搜索请求的每个词，可用来自预定黑名单的每个词来计算加权编辑距离(Levenshtein distance)。可使用动态规划算法来计算加权编辑距离：

dp[i][j]＝min(dp[i][j-1]+cost(b_j)，dp[i-1][j]+cost(a_i)，dp[i-1][j-1]+sim(a_i，b_j))

if a[i]＝＝b[j]：dp[i][j]＝min(dp[i][j]，dp[i-1][j-1])

其中cost(a_i)是一个字符的***成本，sim(a_i，b_j)是字符之间的相似距离。

因此，例如，因为相似距离sim(“1”，“i”)较小，所以加权编辑距离针对词“更大(bigger)”和“更大(b1gger)”可以较低。如果该距离小于特定的预定阈值，则该词可认为是有毒的，并且可不显示具有该词的定制的个性化视频。

初步搜索和选择模块410可被配置为执行活动类别匹配510。可将所有个性化视频分组为多个活动类别。活动类别例如可由用户活动(诸如快乐、心烦、生气、爱、问候、庆祝、食物、惊讶、问题、中立等)来定义，。活动类别匹配510旨在基于神经网络分类器来预测用户请求的活动类别，并将来自该类别的个性化视频添加到相关个性化视频的池中。

神经网络分类器可由以下组件组成：一元语言模型和多层递归神经网络。一元语言模型可用于数据的预处理。一元语言模型使以下边际似然性最大化：

其中，L是似然性，P是子词序列的概率，并且S是分割候选的集合。然后将数据送入多层递归神经网络，以实例归一化和带泄露整流函数(ReLU)作为激活函数。自注意力机制可用作神经网络的最后一层。为了训练神经网络，可手动创建具有指定类别的10,000个用户请求的数据集。为了更好的收敛，可使用具有分类交叉熵损失的监督方式的前瞻优化器(Lookahead optimizer)来训练该模型。

在一个示例实施例中，为了改善定制的个性化视频排序，可识别描述用户活动(快乐、心烦、生气、爱、问候、庆祝、食物、惊讶、问题和中立)的十个类别。搜索引擎可将每个搜索请求引用到这些活动中的一个。为了识别活动，可使用自然语言理解技术。针对每个活动类型，可收集关于定制的个性化视频的共享率的信息。可通过针对具有某种活动的用户请求优化具有高分享率的定制的个性化视频来提高排序。

初步搜索和选择模块410可被配置为执行句子嵌入匹配515。在任何语言中，存在具有类似含义的许多词。该步骤的目的是即使没有找到确切的词匹配，也提供相关的结果。句子嵌入作为针对来自用户请求的所有词的全局向量(GloVe)嵌入的平均值计算。而且，针对个性化视频的每个描述，可以以类似的方式预先计算嵌入。

针对任何用户请求，句子嵌入匹配515可搜索具有最接近嵌入的个性化视频。这可使用局部敏感哈希(Locality-Sensitive Hashing)在高维空间中完成。可将余弦相似度大于0.7的所有个性化视频添加到如图4所示的相关个性化视频的子集415中。

在一个示例实施例中，用户可使用表情符号或表情符号与其他符号/词的组合作为搜索个性化视频的搜索请求。GloVe模型可在类似于人们在通信聊天中使用的文本语料库上训练，因此该模型可包括多个表情符号。经训练的模型可为该语料库中的每个令牌提供向量表示。针对每个表情符号，可使用嵌入向量和余弦距离来找到具有最接近嵌入的词。由此，可用描述表情符号的词来替换表情符号。

在另一个示例实施例中，聊天会话的上下文可显著提高搜索质量。例如，如果用户正在聊足球，则与足球相关的个性化视频可在搜索结果中提升得更靠前。

基于神经网络的办法可用于从聊天会话中提取内容信息。该算法可基于具有多头自注意力(multi-head self-attention)的转换器结构。强大的预训练的模型允许从用户的对话中提取有意义的嵌入向量。基于嵌入，可使用转移学习技术来获得关于下游任务的足够结果。在将文本馈送到转换器之前，可能需要提供用于区分不同位置处的词的位置嵌入。为此，可使用具有不同频率的正弦和余弦函数。下面的公式描述了如何生成位置嵌入：

PosEmb(pos，2i)＝sin(pos/10000^2i/d)

PosEmb(pos，2i+1)＝cos(pos/10000^2i/d)

其中，pos是令牌号，d是位置嵌入尺寸，并且i是嵌入中的坐标。

图6是示出根据本公开的一些示例实施例的快速排序模块420的框图。快速排序模块420可被配置为执行个性化视频特征提取605。为实现快速排序，可提取以下特征：概率加权和BM11、BM15和BM25、用于用户查询和个性化视频的描述的GloVe嵌入的点积、个性化视频的全局共享率、个性化视频活动的特定共享率、用户查询与个性化视频的描述的通用项的杰卡德系数等。以下公式可用于确定杰卡德系数：

快速排序模块420可被配置为执行基于树的梯度提升的排序610(即，梯度提升树可用于快速排序)。在该步骤之后，选择预定数目的最好的个性化视频用于重新排序步骤。快速排序允许以高效率获得更好质量的结果。

图7是示出根据本公开的一些示例实施例的重新排序模块430的框图。重新排序模块430被可配置为执行视频特征提取705。具体而言，可为所选择的个性化视频提取以下特征：GloVe嵌入、流行度度量、活动类别、关于用户之前是否已经看到该个性化视频的信息等。这些特征可堆叠到与个性化视频相关联的嵌入向量EmbC中。

重新排序模块430可被配置为执行用户数据特征提取710。可从用户数据中提取以下特征：查询嵌入、用户的喜爱类别以及基本用户信息(诸如性别、年龄等)。另外，会话上下文也可用作特征。这些特征可堆叠到与用户相关联的嵌入向量EmbU中。

重新排序模块430可被配置为执行排序得分计算715。EmbC和EmbU可馈送到完全连接的神经网络中，该神经网络在最后一层中具有预测排序得分的感知器。此外，重新排序模块430可执行视频顺序720，以基于排序得分来排序个性化视频。具体而言，具有较高得分的个性化视频可在搜索结果中出现得更靠前。

为了训练两个排序模型，可使用至少10,000个用户请求的数据集(与活动类别预测相同)。在这种情况下，针对每个用户请求，可分配五个相关个性化视频。可针对每对用户请求和相关个性化视频来优化模型以增加排序得分。而且，针对每个用户请求，可选择五个随机的和五个无关的个性化视频。此外，可针对每对用户请求和这些个性化视频中的一个来训练模型以降低排序得分。

图8是示出根据本公开的一些示例实施例的个性化视频的分类的示意图800。需要对两种不同类型的个性化视频：具有预呈现的文本的个性化视频和定制的个性化视频(具有由用户给出的文本)来进行排序。为了得到最终的顺序，可在每种类型内部单独地对个性化视频进行排序，并且可根据下面描述的逻辑来合并结果。

个性化视频可在类别部分中分成六个类别，并且用户可选择类别并查看与用户意图相对应的最佳卷。用于个性化视频的六个类别可包括：特色、问候、爱、快乐、心烦和庆祝。在每个类别中，可向用户显示个性化视频。用户可分为四个年龄组：18岁以下、18至30岁、30岁以上和不适用(N/A)，以及三个性别组：男性、女性和不适用(N/A)。总体上可有十二组用户。而且，可使用两种不同类型的内容，即先前存在于应用中且已经为其计算了性能度量的个性化视频、和新的个性化视频。具体而言，如果仅根据个性化视频的相关性对搜索结果进行排序，则用户可在每个会话中获得相同的搜索结果。为了使用户参与度更高，可通过添加用户之前未看到的新的个性化视频来改变搜索结果。添加新的个性化视频可能不影响搜索结果的相关性。

参照图8，列表A为该卷所属的每个年龄组、性别组和类别指定具有确定的性能度量的最佳的个性化视频。列表B针对没有关于性能度量的信息和性能假设的每个类别为不同的用户组指定新的个性化视频。列表B可具有朋友个性化视频和定制的个性化视频。列表C为每个年龄组和性别组指定具有确定的性能度量的个性化视频。定制的个性化视频允许用户向个性化视频添加他们想要的任何文本。当用户输入任何文本时，文本可放置在这些个性化视频上，并且个性化视频可出现在快速搜索部分中。文本可具有预设的动画和风格，并且个性化视频的旁白可以通用。一些个性化视频可具有定制的版本和预呈现的版本。定制的个性化视频可具有默认文本，从而个性化视频可显示在类别部分中。搜索元数据信息可包括搜索描述和描述与个性化视频相关的使用情况的标签。此数据可存在于所有个性化视频中。

在一个示例实施例中，可通过算法为每个类别从列表A和列表B中选择个性化视频。针对每个组和每个类别，可将以下算法应用于预定数目的卷及其顺序：

根据特定组的累积共享率从列表A中选择位置1、2、7…24上的个性化视频。

位置3、4、5、6上的个性化视频取自列表B并且针对所有组相同。该步骤可帮助引入新的个性化视频并获得统计。

如果来自列表B的一些个性化视频是朋友个性化视频并且在当前通信聊天中禁用该特征，则可根据将来自列表B的个性化视频根据其顺序替换为来自列表A的个性化视频。

有时列表B针对某些类别可具有较小的尺寸，但是类似的逻辑可应用于列表B。

另外，最近类别可针对特定用户个性化并且可包括最近共享的个性化视频。最近类别中的个性化视频的数目可能不超过预定数目。如果最近共享的个性化视频的数目小于8，则可在类别中的其余位置填充来自特色类别的个性化视频。如果这些个性化视频中的一些是定制的，则可使用具有默认文本的个性化视频的版本。

通常，可使用排序来为流行的用户请求提供快速且容易的方式来获得最佳的个性化视频。为此，可跟踪个性化视频的用户度量，并且可仅保持高性能的个性化视频。可评估新的个性化视频的用户度量。此外，可基于个性化视频统计来提供针对不同用户组的个性化列表。另外，可利用基于机器学习的用户意图预测。

图9是示出根据本公开的一些示例实施例的用于选择和排序个性化视频的过程900的流程图。为L个卷提供搜索结果940的个性化视频的选择和排序可包括以下步骤。第一步，最佳的N个预呈现的卷910可包括来自列表C的相关(如果有的话)预呈现的个性化视频(卷)。可仅在这些卷上的预呈现的文本与用户请求相关的情况下添加来自列表C的预呈现的卷905。第二步，最佳的M个定制卷930可包括从来自列表B的定制卷915、来自列表A的定制卷920和来自列表C的定制卷925中选择的相关的定制卷905，根据这些卷与搜索查询的相关性来对其进行排序。滤除由于技术限制而不允许的定制卷(检查用户文本是否可适合个性化视频)。预呈现的卷的(L-N-M)个剩余搜索结果935可包括与来自列表C的预呈现的卷905较不相关的卷。

如果搜索查询包括来自定制的个性化视频的预定黑名单中的至少一个短语，则针对该搜索查询可不呈现定制的个性化视频。黑名单可仅包括厌恶的语音/含糊的声音，并且在一些实施例中可允许更多的标准脏话。

针对一些搜索查询，可为搜索报告选择同一个性化视频的定制和预呈现的版本两者。为了避免显示两个类似的个性化视频，在最终的搜索结果中可仅选择这些个性化视频之一。如果搜索查询与预呈现的个性化视频文本精确匹配(或前缀)，则可显示个性化视频的预呈现的版本。否则，可呈现个性化视频的定制版本。

图10示出根据本公开的一个示例实施例的通信聊天的示例屏幕1000。可向用户呈现快速搜索图标1015，以使用户能够选择视频1010中的一个。点击快速搜索图标1015可打开搜索标签1020上的贴纸选择器。根据为搜索查询1005确定的活动类别，个性化视频1010上的用户面部可具有情绪重演和其周围的一些视觉元素。

图11是示出根据一个示例实施例的用于搜索和排序个性化视频的方法的流程图。方法1100可由计算装置105执行。方法1100可从在步骤1105处经由用户与另外的用户之间的通信聊天接收用户请求开始。用户请求可包括短语。该方法1100可继续在步骤1110处基于用户请求，来执行个性化视频的池的搜索。可执行个性化视频的池的搜索以确定相关个性化视频的子集。个性化视频可与文本消息相关联。该方法1100还可包括在步骤1115处确定相关个性化视频的第一排序。方法1100可继续在步骤1120处从相关个性化视频的子集中选择预定数目的个性化视频。可基于第一排序来选择预定数目的个性化视频。该方法1100还可包括在步骤1125处确定所选择的个性化视频的第二排序。在步骤1130，所选择的个性化视频可基于第二排序在通信聊天内按顺序来呈现。

图12示出可用于实现在本文中描述的方法的示例计算***1200。计算***1200可在类似计算装置105和110、信使服务***130、信使220、用于生成个性化视频的***250和用于搜索和排序个性化视频的***260的环境中实现。

如图12所示，计算***1200的硬件组件可包括一个或多个处理器1210和存储器1220。存储器1220部分地存储用于由处理器1210执行的指令和数据。存储器1220可在***1200运行时存储可执行代码。***1200还可包括可选的大容量存储装置1230、可选的便携式存储介质驱动器1240、一个或多个可选的输出装置1250、一个或多个可选的输入装置1260、可选的网络接口1270以及一个或多个可选的***装置1280。计算***1200还可包括一个或多个软件组件1295(例如，可实现如本文中描述的用于提供个性化视频的方法的软件组件)。

图12所示的组件描绘为经由单个总线1290连接。组件可通过一个或多个数据传送设备或数据网络连接。处理器1210和存储器1220可经由本地微处理器总线连接，并且大容量存储装置1230、***装置1280、便携式存储装置1240和网络接口1270可经由一个或多个输入/输出(I/O)总线连接。

可用磁盘驱动器、固态磁盘驱动器或光盘驱动器来实现的大容量存储装置1230是用于存储供处理器1210使用的数据和指令的非易失性存储装置。大容量存储装置1230可存储用于实现在本文中描述的实施例的***软件(例如，软件组件1295)。

便携式存储媒体驱动器1240结合便携式非易失性存储介质(诸如压缩盘(CD)或数字视频盘(DVD))操作以将数据和代码输入到计算***1200和从计算***1200输出数据和代码。用于实现在本文中描述的实施例的***软件(例如，软件组件1295)可存储在这样的便携式介质上并经由便携式存储介质驱动器1240输入到计算***1200。

可选输入装置1260提供用户界面的一部分。输入装置1260可包括用于输入字母数字和其他信息的字母数字键盘(例如键盘)或定点装置(例如鼠标、跟踪球、指示笔或光标方向键)。输入装置1260还可包括相机或扫描仪。另外，图12所示的***1200包括可选的输出装置1250。合适的输出装置包括扬声器、打印机、网络接口和监视器。

网络接口1270可用于经由一个或多个通信网络与外部装置、外部计算装置、服务器和联网***通信，该通信网络诸如一个或多个有线网络、无线网络或光学网络，包括例如互联网、内联网、局域网(LAN)、广域网(WAN)、蜂窝电话网络、蓝牙无线电和基于IEEE802.11的射频网络等。网络接口1270可以是网络接口卡(诸如以太网卡、光收发器、射频收发器)或能够发送和接收信息的任何其他类型的装置。可选***装置1280可包括任何类型的计算机支持装置，以向计算机***添加附加功能。

包含在计算***1200中的组件旨在表示一大类计算机组件。因此，计算***1200可以是服务器、个人电脑、手持式计算装置、电话、移动计算装置、工作站、小型计算机、大型计算机、网络节点或任何其它计算装置。计算***1200还可包括不同的总线配置、联网平台、多处理器平台等。可使用各种操作***(OS)，包括UNIX、Linux、Windows、MacintoshOS、PalmOS、IOS、安卓和其他合适的操作***。

上述功能中的一些可由存储在存储介质(例如，计算机可读介质或处理器可读介质)上的指令组成。指令可由处理器检索并执行。存储介质的一些示例是存储装置、磁带、磁盘等。指令在由处理器执行时是可操作的，以指导处理器根据本发明进行操作。本领域技术人员熟悉指令，处理器和存储介质。

值得注意的是，适用于执行在本文中描述的处理的任何硬件平台都适用于本发明。在本文中使用的术语“计算机可读存储介质”和“计算机可读存储介质”是指参与向处理器提供指令以供执行的任何介质。这样的介质可采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘(诸如固定盘)。易失性介质包括动态存储器(诸如***随机存取存储器(RAM))。

传输介质包括同轴电缆、铜线和光纤等，该传输介质包括包含总线的一个实施例的导线。传输介质还可采用声波或光波的形式(诸如在射频(RF)和红外(IR)数据通信期间生成的那些声波或光波)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD只读存储器(ROM)盘、DVD、任何其它光学介质、具有标记或孔的图案的任何其它物理介质、RAM、可编程序只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、带电可擦可编程只读存储器(EEPROM)、任何其它存储芯片或盒式磁带、载波或计算机可从其读取的任何其它介质。

各种形式的计算机可读介质可涉及将一个或多个指令的一个或多个序列携带到处理器以供执行。总线将数据携带到***RAM，处理器从该***RAM检索并执行指令。由***处理器接收的指令可以可选地在由处理器执行之前或之后存储在固定磁盘上。

因此，已经描述了用于对个性化视频进行搜索和排序的方法和***。尽管已经参照特定示例实施例描述了实施例，但是很明显，在不脱离本申请的更广泛的精神和范围的情况下，可对这些示例实施例进行各种修改和改变。因此，说明书和附图应被认为是说明性的而不是限制性的。

Claims

1.一种用于搜索和排序个性化视频的方法，所述方法包括：

由计算装置经由所述计算装置的用户与另外计算装置的另外用户之间的通信聊天来接收用户请求，所述用户请求包括短语；

由所述计算装置基于所述用户请求，来执行个性化视频的池的搜索，以确定相关个性化视频的子集，其中，所述个性化视频与文本消息相关联；

由所述计算装置确定所述相关个性化视频的第一排序；

由所述计算装置基于所述第一排序，从所述相关个性化视频的所述子集中选择预定数目的个性化视频；

由所述计算装置确定所选择的个性化视频的第二排序；并且

由所述计算装置在所述通信聊天内呈现所选择的个性化视频，其中，所选择的个性化视频按基于所述第二排序的顺序呈现。

2.根据权利要求1所述的方法，其中，执行所述搜索包括：

确定所述短语是与所述池中的至少一个所述个性化视频相关联的所述文本消息的同义词；并且

将至少一个所述个性化视频添加到所述相关个性化视频的所述子集。

3.根据权利要求1所述的方法，其中：

每个所述个性化视频与一个或多个活动类别相关联；并且

所述搜索包括：

基于所述短语从一个或多个所述活动类别中确定一类别；

确定所述池中的至少一个所述个性化视频与所述类别相关联；并且

4.根据权利要求1所述的方法，其中，所述搜索包括：

计算所述短语与所述文本消息之间的相似距离，所述文本消息与来自所述池的所述个性化视频相关联；

确定所述相似距离不超过预定阈值；并且

基于该确定，将所述个性化视频添加到所述相关个性化视频的所述子集中。

5.根据权利要求1所述的方法，其中，确定所述第一排序包括：计算一个或多个特征，所述一个或多个特征包括：

对所述短语和所述文本消息的函数进行加权的概率项，所述文本消息与至少一个所述相关个性化视频相关联；

短语的项与文本消息的项之间的杰卡德相似系数；以及

所述相关个性化视频的共享率。

6.根据权利要求1所述的方法，其中，确定所述第二排序包括：

确定第一特征向量，所述第一特征向量包括：

第一全局向量，与所述文本消息相对应，所述文本消息与所述个性化视频相关联，所述第一全局向量基于分布式词呈现的模型来确定；

所述个性化视频的流行度度量；

与所述个性化视频相关联的活动类别；以及

指示由所述用户先前使用的所述个性化视频的信息；

确定第二特征向量，所述第二特征向量包括：

第二全局向量，与所述短语相对应，所述第二全局向量基于所述分布式词呈现的模型来确定；

所述用户的喜爱活动类别；

关于所述用户的个人数据的信息，所述信息至少包括所述用户的年龄和所述用户的性别；以及

所述通信聊天中的对话上下文；并且

将所述第一特征向量和所述第二特征向量提供给神经网络，其中，所述神经网络被配置成输出所述个性化视频的排序。

7.根据权利要求1所述的方法，其中，所述池的所述搜索包括：基于所述用户的年龄，从所述池中选择所述个性化视频。

8.根据权利要求1所述的方法，其中：

所述个性化视频的所述池包括：具有预呈现的文本消息的所述个性化视频的第一子池、和具有由所述用户定制的文本消息的所述个性化视频的第二子池，并且

其中，所选择的个性化视频包括来自所述第二子池的至少一个所述个性化视频。

9.根据权利要求8所述的方法，其中，对所述第一子池中的所述个性化视频和所述第二子池中的所述个性化视频单独地进行排序。

10.根据权利要求8所述的方法，还包括在计算所述第一排序之前，基于黑名单从所述第二子池滤除所述个性化视频。

11.一种用于搜索和排序个性化视频的***，所述***包括至少一个处理器和存储处理器可执行代码的存储器，其中，所述至少一个处理器被配置成在执行所述处理器可执行代码时实现以下操作：

由所述计算装置确定所述相关个性化视频的第一排序；

由所述计算装置基于所述第一排序，从所述相关个性化视频的所述子集中选择预定数目的所述个性化视频；

由所述计算装置确定所选择的个性化视频的第二排序；并且

12.根据权利要求11所述的***，其中，所述搜索包括：

13.根据权利要求11所述的***，其中：

每个所述个性化视频与一个或多个活动类别相关联；并且

所述搜索包括：

基于所述短语从一个或多个活动类别中确定一类别；

14.根据权利要求11所述的***，其中，执行所述搜索包括：

确定所述相似距离不超过预定阈值；并且

15.根据权利要求11所述的***，其中，所述确定所述第一排序包括计算一个或多个特征，所述一个或多个特征包括：

短语的项与文本消息的项之间的杰卡德相似系数；以及

所述相关个性化视频的共享率。

16.根据权利要求11所述的***，其中，确定所述第二排序包括：

确定第一特征向量，所述第一特征向量包括：

所述个性化视频的流行度度量；

与所述个性化视频相关联的活动类别；以及

指示由所述用户先前使用的所述个性化视频的信息；

确定第二特征向量，所述第二特征向量包括：

所述用户的喜爱活动类别；

所述通信聊天中的对话上下文；并且

将所述第一特征向量和所述第二特征向量提供给神经网络，其中，所述神经网络被配置为输出所述个性化视频的排序。

17.根据权利要求11所述的***，其中，所述池的所述搜索包括：基于所述用户的年龄，从所述池中选择所述个性化视频。

18.根据权利要求11所述的***，其中：

所述个性化视频的所述池包括：具有预呈现的文本消息的所述个性化视频的第一子池、和具有由所述用户定制的文本消息的所述个性化视频的第二子池；并且

19.根据权利要求18所述的***，其中，对所述第一子池中的所述个性化视频和所述第二子池中的所述个性化视频单独地进行排序。

20.一种非暂时性处理器可读介质，其上存储有指令，所述指令在被一个或多个处理器执行时，使所述一个或多个处理器实现用于搜索和排序个性化视频的方法，所述方法包括：

由所述计算装置确定所述相关个性化视频的第一排序；

由所述计算装置基于所述第一排序，来从所述相关个性化视频的所述子集中选择预定数目的所述个性化视频；

由所述计算装置确定所选择的个性化视频的第二排序；并且