CN114401417A

CN114401417A - 直播流对象跟踪方法及其装置、设备、介质

Info

Publication number: CN114401417A
Application number: CN202210106703.7A
Authority: CN
Inventors: 曾家乐
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-04-26
Anticipated expiration: 2042-01-28
Also published as: CN114401417B

Abstract

本申请涉及网络直播技术领域，公开一种直播流对象跟踪方法及其装置、设备、介质，包括：向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据；对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。本申请提升图形用户界面中直播内容的可读性，从而改善用户体验。

Description

直播流对象跟踪方法及其装置、设备、介质

技术领域

本申请涉及网络直播技术领域，尤其涉及一种直播流对象跟踪方法及其相应的装置、计算机设备以及计算机可读存储介质。

背景技术

网络视频直播可以快速有效地传递信息，具有现场性、实时性、直观性和娱乐性等特点。网络视频直播的一种应用形式是用于为游戏项目或者体育项目之间的竞技类或娱乐类节目进行解说，为此，从技术上支持解说型的网络直播成本本领域的新热点。时下，热门直播项目普遍为多人竞技类项目，当主播进行解说时，时常会提及被解说项目中的选手或是选手的使用道具、技能等等对象，当主播提及这些对象时，观众仍需花费些许精力去反应和定位各个点评选手以便跟上主播的解说进度。由于定位主播解说的对象需要花费时间，容易影响观众的观感体验。

为了使观众用户可以迅速跟踪主播解说的内容，改善用户体验，本申请尝试探索更多适于满足实际需求的技术方案。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种直播流对象跟踪方法及其相应的装置、计算机设备、计算机可读存储介质。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种直播流对象跟踪方法，包括如下步骤：

向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，所述视频流包含第三方程序的显示界面相对应的图像流；

对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；

从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；

将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。

进一步的实施例中，向直播间推送直播流，包括如下步骤：

从显存中获取第三方程序的显示界面相对应的图像流；

接收与主播客户端设备连接的摄像设备摄取的视频数据；

接收与主播客户端设备连接的音频输入设备输入的音频数据；

将所述图像流、视频数据合成视频流，再将其和音频数据合成所述直播流，将其推送至直播间播放。

进一步的实施例中，对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象，包括如下步骤：

提取所述音频数据的深层声学特征，构建相对应的声学特征向量；

根据所述声学特征向量调用第一神经网络模型获得对应的音素序列，解码该音素序列获得所述口述文本；

根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象。

扩展的实施例中，根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象之前，包括如下步骤：

获取用于竞技项目描述相对应的词条，所述竞技项目包括游戏项目或体育竞赛项目；

筛选出参与所述竞技项目的目标对象的角色名称、角色技能名称相对应的对象文本信息；

将所述对象文本信息关联相应的目标对象存储于所述信息列表中。

进一步的实施例中，从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息，包括如下步骤：

提取所述视频流中各个视频帧的深层图片特征，构建相对应的图片特征向量；

根据所述图片特征向量调用第二神经网络模型识别出在该视频流的视频帧中的所述目标对象，获得所述目标对象在该视频流的视频帧中的实时位置；

调用第三神经网络模型分割出所述目标对象对应的图片特征向量，对其进行边缘补偿计算，获得该目标对象的边缘轮廓信息，所述边缘轮廓信息包括所述目标对象对应的边缘轮廓及其对应的实时位置。

进一步的实施例中，将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓，包括如下步骤：

将目标对象对应的所述边缘轮廓信息关联获得其时对应所述视频流中的视频帧的时间戳构成定位跟踪信息，将其上传至服务器推送至所述直播间，以由服务器下发该定位跟踪信息至连接该直播间的终端设备；

检测终端设备显示跟踪对象开关启动状态，若检测该状态为开启，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓。

较佳的实施例中，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓，包括如下步骤：

根据所述定位跟踪信息中的边缘轮廓信息中的实时位置在所述视频流的视频帧中定位出该边缘轮廓信息中的边缘轮廓，提取出该视频帧中所述边缘轮廓的周边颜色；

根据所述边缘轮廓的周边颜色中占比最高的颜色值，确认其对应的色域，获取区别于该色域的颜色值设为所述目标对象的边缘轮廓颜色；

采用所述目标对象的边缘轮廓颜色对所述视频帧边缘轮廓进行渲染，以在所述视频流的播放界面中显示出所述目标对象的边缘轮廓。

适应本申请的目的之一而提供的一种直播流对象跟踪装置，包括：直播流推送模块、语音翻译模块、图像识别模块、轮廓显示模块，其中，直播流推送模块，用于向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，所述视频流包含第三方程序的显示界面相对应的图像流；语音翻译模块，用于对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；图像识别模块，用于从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；轮廓显示模块，用于将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。

进一步的实施例中，所述直播流推送模块，包括：图像流获取子模块，用于从显存中获取第三方程序的显示界面相对应的图像流；视频数据接收子模块，用于接收与主播客户端设备连接的摄像设备摄取的视频数据；音频数据接收子模块，用于接收与主播客户端设备连接的音频输入设备输入的音频数据；视频流合成子模块，用于将所述图像流、视频数据合成视频流，再将其和音频数据合成所述直播流，将其推送至直播间播放。

进一步的实施例中，所述语音翻译模块，包括：特征提取子模块，用于提取所述音频数据的深层声学特征，构建相对应的声学特征向量；解码子模块，用于根据所述声学特征向量调用第一神经网络模型获得对应的音素序列，解码该音素序列获得所述口述文本；目标对象确认子模块，用于根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象。

扩展的实施例中，所述目标对象确认子模块之前，包括如下步骤：词条获取单元，用于获取用于竞技项目描述相对应的词条，所述竞技项目包括游戏项目或体育竞赛项目；文本信息筛选单元，用于筛选出参与所述竞技项目的目标对象的角色名称、角色技能名称相对应的对象文本信息；存储单元，用于将所述对象文本信息关联相应的目标对象存储于所述信息列表中。

进一步的实施例中，所述图像识别模块1300，包括：特征提取子模块,用于提取所述视频流中各个视频帧的深层图片特征，构建相对应的图片特征向量；目标对象识别子模块，用于根据所述图片特征向量调用第二神经网络模型识别出在该视频流的视频帧中的所述目标对象，获得所述目标对象在该视频流的视频帧中的实时位置；边缘轮廓信息子模块，用于调用第三神经网络模型分割出所述目标对象对应的图片特征向量，对其进行边缘补偿计算，获得该目标对象的边缘轮廓信息，所述边缘轮廓信息包括所述目标对象对应的边缘轮廓及其对应的实时位置。

进一步的实施例中，所述轮廓显示模块，包括：定位跟踪信息子模块，用于将目标对象对应的所述边缘轮廓信息关联获得其时对应所述视频流中的视频帧的时间戳构成定位跟踪信息，将其上传至服务器推送至所述直播间，以由服务器下发该定位跟踪信息至连接该直播间的终端设备；边缘轮廓渲染子模块，用于检测终端设备显示跟踪对象开关启动状态，若检测该状态为开启，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓。

较佳的实施例中，所述边缘轮廓渲染子模块，包括：颜色获取单元，用于根据所述定位跟踪信息中的边缘轮廓信息中的实时位置在所述视频流的视频帧中定位出该边缘轮廓信息中的边缘轮廓，提取出该视频帧中所述边缘轮廓的周边颜色；颜色确认单元，用于根据所述边缘轮廓的周边颜色中占比最高的颜色值，确认其对应的色域，获取区别于该色域的颜色值设为所述目标对象的边缘轮廓颜色；颜色渲染单元，用于采用所述目标对象的边缘轮廓颜色对所述视频帧边缘轮廓进行渲染，以在所述视频流的播放界面中显示出所述目标对象的边缘轮廓。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的直播流对象跟踪方法的步骤。

适应本申请的目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的直播流对象跟踪方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

相对于现有技术，本申请的优势如下：

本申请通过服务器向直播间推送由直播用户产生的图形流、音频流合成的直播流，连接该直播间的用户接收该直播流后，对其中的音频数据进行语音识别获得相应的口述文本，从而确定其指向的目标对象，进一步，从所述图像流中识别出该目标对象，获得其在该视频流的视频帧中的边缘轮廓信息和该视频帧对应的时间戳构成定位跟踪信息，并将其上传至服务器，再由服务器推送至直播间，使得连接该直播间的用户的终端设备接收该定位跟踪信息，根据该定位跟踪信息渲染所述目标对象的轮廓以在视频的播放界面中突出显示，全程无需人工参与即可精准快捷根据主播用户口述语音，标注出其所述的目标对象的轮廓，用户能够清楚快速地根据标注轮廓辨识出目标对象，提升图形用户界面中直播内容的可读性，从而改善用户体验。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图；

图2为本申请的直播流对象跟踪方法的典型实施例的流程示意图；

图3(a)、图3(b)为本申请实施例中终端设备图形用户界面的示意图，分别示意用户许可弹窗的界面、跟踪框选显示直播流对象效果的界面；

图4为本申请实施例中的直播流合成推送的流程示意图；

图5为本申请实施例中的语音识别的流程示意图；

图6为本申请实施例中的信息列表构建的流程示意图；

图7为本申请实施例中的获取目标对象的边缘轮廓信息的流程示意图；

图8为本申请实施例中的显示目标对象的边缘轮廓于图形用户界面的流程示意图；

图9为本申请实施例中的确认目标对象的边缘轮廓颜色的流程示意图；

图10为本申请的直播流对象跟踪方法的原理框图；

图11为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

请参阅图1，本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称服务器80部署在云端，作为一个业务服务器，其可以负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等，以此构成逻辑上相关联的服务机群，来为相关的终端设备例如图中所示的智能手机81和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网，与云端的服务器80建立数据通信链路，以便运行所述服务器所提供的服务相关的终端应用程序。

对于服务器而言，所述的应用程序通常会被构建为服务进程，开放相应的程序接口，供各种终端设备上运行的应用程序进行远程调用，本申请中适于运行于服务器的相关技术方案，便可以此种方式实现于服务器中。

所述的应用程序，是指运行于服务器或终端设备上的应用程序，这一应用程序采用编程的方式实现了本申请的相关技术方案，其程序代码可被以计算机可执行指令的形式保存于计算机能识别的非易失性存储介质中，并被中央处理器调入内存中运行，通过该应用程序在计算机的运行而构造出本申请的相关装置。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

请参阅图2，本申请的直播流对象跟踪方法，在其典型实施例中，包括如下步骤：

步骤S1100、向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，所述视频流包含第三方程序的显示界面相对应的图像流；

所述直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，该音频数据是指用户在其作为客户端的终端设备安装的网络直播平台开发的应用程序，获得该用户的终端设备的麦克风装置即主播客户端设备的音频输入装置相应的权限后，接收该用户输入该麦克风装置对应的音频数据；所述视频流包含第三方程序的显示界面相对应的图像流，该图像流是指第三方平台开发维护应用程序，当用户在其作为客户端且装载该应用程序的终端设备登录运行时，由该第三方平台服务器提供相应的服务，从而调用该终端设备相应的CPU组件进行渲染，使得最终在该终端设备的图像用户界面展示的图像流，所述应用程序包含多人竞技类游戏、体育频道播放器。

一种实施例中，所述音频流还包含所述图像流中的音频数据，该音频数据是指在所述图像流中相应的第三方程序运行时的音频数据；所述视频流还包含与主播客户端设备视频输入设备或与主播客户端设备连接的视频输入设备输入的视频数据，该视频数据是指网络直播平台开发维护直播应用程序，当直播用户在其作为客户端且装载该应用程序的终端设备登录运行时，以该应用程序向该直播用户获取调用该终端设备的摄像功能以及摄像数据的权限，从而获得外接该终端设备或该终端设备内置的摄像装置实时拍摄主播用户的摄像数据。

将所述视频流和音频流相应的进行编码压缩合成所述直播流，进一步，为响应网络直播平台的客户端加载直播用户开启的直播间时触发的直播请求，服务器实时将所述直播流推送至该直播间的各个客户端，使得客户端接收该直播流并进行相应的解码操作获得视频流和音频流数据，调用播放器在直播间进行音视频播放，如将所述图像流视频加载播放至直播间图形用户界面的图3(b)300b区域内，将所述视频数据加载至播放至直播间图形用户界面的图3(b)302b区域内。

步骤S1200、对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；

所述语音识别为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，一般出于应用需要，会由计算机进一步将该可读的输入转换成人类能读懂的文字输出。

适用于所述语音识别的方法包含但不限于接下来举例的两种如模板匹配的方法和利用人工神经网络的方法，所述模板匹配的方法主要分为四个步骤：特征提取、模板训练、模板分类、判决，常用的技术手段有三种动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术；所述利用人工神经网络的方法可为基于人工神经网络和混合算法，如ANN/HMM法、FSVQ/HMM法、GMM/HMM法、DNN/HMM等，所述FSVQ为有限状态矢量量化算法。

一种实施例中，首先，对所述音频数据进行预处理，使得后续更有效地提取特征，将其首尾段的静音切除，以排除对后续步骤的干扰，此处推荐参考的实现方式为VAD(语音端点检测)，然后，进行声音分帧，将声音切成小段，每一小段称为一帧，使得各帧之间有交叠，此处提供参考的实现方式为移动窗函数，其次，进行把每一帧声音对应的波形变成一个包含声音信息的多维特征向量，此处推荐参考的实现方式为有线性预测倒谱系数(LPCC)和MEL倒谱系数(MFCC)算法，进一步，对该多维特征向量进行相应的解码操作，分为三个步骤，每个步骤分别调用声学模型、字典、语言模型，第一步，将该多维特征向量输入至预训练至收敛的声学模型(AM)获得其输出的音素信息，此处推荐参考的声学模型为GMM+HMM模型和DNN+HMM模型，第二步，根据预设的字典，将所述音素信息与将字典中的子或者词进行匹配，对于中文而言，即拼音和汉字匹配，对于英文而言，即音标和单词匹配，获得子或者词所构成的字符集，最后一步，经该字符集输入至预训练至收敛的语言模型(LM)，计算出所述字符集中各个字符之间的上下文相互关联的概率，进而输出概率最高字符构成所述口述文本，完成对所述音频数据语音识别操作，此处推荐参考的声学模型为Bert模型，上述实现方式、声学模型、字典、语言模型，可由本领域技术人员按需灵活变通选取实施。

综上所述，获得所述口述文本后，将所述口述文本与预设的信息列表中的目标对象文本相匹配，进而以所匹配的目标对象文本与目标对象的唯一标识码映射关系确认目标对象，所述信息列表中存储各个目标对象唯一标识码及其对应的目标对象文本信息，示范例举例，所述口述文本为“梅西进球了”，那么将该口述文本与预设的信息列表中的目标对象文本进行匹配，命中该信息列表中的目标对象文本为“梅西”，进而便以“梅西”对应的唯一标识码，确认“梅西”为目标对象，在本申请后续的实施例将进一步揭示所述信息列表具体实现，此处暂且按下不表。

步骤S1300、从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；

根据所述目标对象的唯一标识码调用预训练至收敛的对象检测神经网络模型，针对图像流的每一帧图片进行目标对象检测，使得所述每张图片一旦出现目标对象皆可被识别出，进而对于该图像流而言即可实现目标对象的跟踪识别。

一种实施例中，通过预训练至收敛的对象检测神经网络模型中的卷积层，将所述图像流的每一帧图片相应的结构化为某一类别的信息即该图片中各个物体对象的类别，然后，利用Softmax分类器对该类别信息进行分类，用预先定义的类别(String)和实例ID来标识图片中的各个对象以实现对象之间的分类，通过该对象检测神经网络模型中的多层输出层，多尺度检测所述各个对象，从中识别出所述目标对象，并确认目标对象对应在所述图片中的位置，该位置一般用矩形检测框的坐标表示，调用预训练至收敛的实例分割神经网络模型，对所述目标对象进行进一步分割，获得所述目标对象对应的边缘轮廓及其在所述图片中的位置信息，至此，对所述图像流各个视频帧进行所述识别，获得该视频流的各个视频帧中所述目标对象对应的边缘轮廓信息，所述边缘轮廓信息包含目标对象边缘轮廓数据以及该边缘轮廓对应在各个视频帧图像中的位置数据。上述对象检测神经网络模型可采用Faster-RCNN对象检测模型、YOLO对象检测模型、SSD对象检测网络模型、R-FCN对象检测模型、EfficientDet对象检测网络等，实例分割模型可采用Mask-RCNN实例分割模型、YOLACT实例分割模型、DeepMask实例分割模型、boxinst实例分割模型等，此处具体模型选取，本领域技术人员可按实际业务所需灵活变通。

步骤S1400、将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。

服务器将所述边缘轮廓信息作为当前直播间的主播用户口述的目标对象对应的定位跟踪信息，推送至所述直播间的各个观众使用的客户端的终端设备，一种实施例中，接收该定位跟踪信息的终端设备开启前置摄像头，调用预设的人脸识别接口相应的功能识别该终端设备屏幕前是否存在人脸，所述预设的人脸识别接口，本领域技术人员一般的可直接调用主播客户端设备***开发商提供的开发接口，亦可按实际业务所需自行开发或调用第三方接口，识别结果为该屏幕前人脸存在，根据所述定位跟踪信息中目标对象的边缘轮廓数据，随机选取一种颜色作为该边缘轮廓颜色，进一步，以所述定位跟踪信息中的边缘轮廓的位置数据，为所述视频流的各个视频帧中的所述目标对象进行轮廓颜色渲染，从而在播放界面中播放所述视频流，跟踪突出显示其中的所述目标对象的轮廓，若所述目标对象为多个，将突出显示每个目标对象的轮廓，如图3(b)中图像流展示区300b中所示。

另外，当检测到所述主播用户的终端设备中的所述主播客户端设备的音频输入装置，输入新的音频数据，停止对当前目标对象的突出显示，转而根据该新的音频数据，执行步骤S1100-S1400在直播间图像用户界面中的图像流展示区200，突出显示相应的目标对象的轮廓。

再者，由步骤S1100执行完成后开始计时，检测所述主播用户的终端设备中的所述主播客户端设备的音频输入装置无新输入的音频数据，持续执行步骤S1100-S1400以维持当前目标对象的突出显示，直至到达预设时间段后，停止当前目标对象的突出显示，与此同时，在当前主播用户的客户端的直播间图像用户界面中弹出相应的提示弹窗，提示主播用户当前目标对象的突出显示状态已超时，该提示弹窗显示3s后自动关闭，或由主播用户点击当前直播间图形用户界面中该提示弹窗以外区域亦可直接关闭，所述预设时间段可由本领域技术人员以实际运营效果灵活变通设置。

通过本典型实施例的揭示，可以看出，本申请通过服务器向直播间推送由直播用户产生的图形流、音频流合成的直播流，连接该直播间的用户接收该直播流后，对其中的音频数据进行语音识别获得相应的口述文本，从而确定其指向的目标对象，进一步，从所述图像流中识别出该目标对象，获得其在该视频流的视频帧中的边缘轮廓信息和该视频帧对应的时间戳构成定位跟踪信息，并将其上传至服务器，再由服务器推送至直播间，使得连接该直播间的用户的终端设备接收该定位跟踪信息，根据该定位跟踪信息渲染所述目标对象的轮廓以在视频的播放界面中突出显示，全程无需人工参与即可精准快捷根据主播用户口述语音，标注出其所述的目标对象的轮廓，用户能够清楚快速地根据标注轮廓辨识出目标对象，提升图形用户界面中直播内容的可读性，从而改善用户体验。

请参阅图4，进一步的实施例中，所述步骤S1100、向直播间推送直播流，包括如下步骤：

步骤S1110、从显存中获取第三方程序的显示界面相对应的图像流；

所述直播用户的客户端调用预设的方法函数，实时从直播用户的终端设备的显存模块中获取运行的第三方程序时，在该终端设备的显示界面展示相对应的图像流，该预设的方法函数可为封装的计算机指令、设备开发商提供的接口函数等等，可由本领域技术人员灵活变通设置。

步骤S1120、接收与主播客户端设备连接的摄像设备摄取的视频数据；

所述摄像设备可为主播客户端设备内置摄像模块组，或与主播客户端设备蓝牙连接、电性连接的手机、平板、摄像头、录像机、电脑等设备之一。

所述直播用户的客户端调用与主播客户端设备连接的摄像设备，该摄像设备可通过相关的传输协议如蓝牙协议、HTTP协议、usb协议等，将摄取的视频数据传输至所述主播客户端设备，使得所述客户端获得该视频数据。

步骤S1130、接收与主播客户端设备连接的音频输入设备输入的音频数据；

所述音频输入设备可为主播客户端设备内置声卡模块组，或与主播客户端设备蓝牙连接、电性连接的麦克风、耳机等设备之一。

所述直播用户的客户端调用与主播客户端设备连接的音频设备，该音频设备可通过相关的传输协议如蓝牙协议、HTTP协议、usb协议等，将输入的音频数据传输至所述主播客户端设备，使得所述客户端获得该音频数据。

步骤S1140、将所述图像流、视频数据合成视频流，再将其和音频数据合成所述直播流，将其推送至直播间播放。

一种实施例中，所述直播用户的客户端将所述图像流、视频数据、音频数据上传至其对应的网络直播平台的服务器，该服务器将所述图像流、视频数据、音频数据分别进行相对应的编码，使得便于后续存储或数据传输，将所述编码后的图像流、视频数据设定在直播间播放界面对应的播放区域播放的标识，然后，合成视频流，进一步，将该视频流和编码后的音频数据合成所述直播流。

另一种实施例中，所述直播用户的客户端将所述图像流、视频数据、音频数据在本地相应的进行编码，将编码后的图像流和视频数据设定在直播间播放界面对应的播放区域播放的标识，然后，合成视频流，进一步，将该视频流和编码后的音频数据合成所述直播流，将该直播流上传至服务器。

至此，服务器将所述直播流分发至直播间的观众用户的客户端，在其接收后进行相应的解码，再交由播放器在直播间的播放界面上进行播放

本实施例中，通过编码主播用户侧推送的音视频数据并合成一路数据，节省数据传输所需的带宽，大大提升数据传输效率，更适用于高频数据传输的业务场景。

请参阅图5，进一步的实施例中，所述步骤S1200、对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象，包括如下步骤：

步骤S1210、提取所述音频数据的深层声学特征，构建相对应的声学特征向量；

对所述音频数据进行预处理，通过消除噪音、信道失真等方式相对增强声音，然后，将其中的声音进行分帧，以帧长大于帧移长度的方式将声音切分成片段，使得帧与帧之间有一定的交叠，至此，将语音信号从时域转化到频域，然后，采用线性预测编码或梅尔频率倒谱系数对所述各帧的声音进行深层声学特征提取，构建所述各帧的声音波形相对应的声学特征向量。

步骤S1220、根据所述声学特征向量调用第一神经网络模型获得对应的音素序列，解码该音素序列获得所述口述文本；

所述第一神经网络模型为声学模型，可选用LSTM+CTC模型、上下文相关的深度神经网络-隐马尔科夫模型(CD-DNN-HMM)、混合高斯模型-隐马尔科夫模型(GMM-HMM)等。

一种实施例中，调用LSTM+CTC模型以所述声学特征向量作为输入，根据预设的音素集合输出相应的可变长特征序列即音素序列，所述音素集合为对于英语而言，可设为一套39个音素组成的集合其中主要包含26个英文字符、空格符，对于汉语而言，可设为以汉语拼音的声母和韵母组成的集合，此处相应的音素，可由本领域技术人员按实际业务所需灵活变通设置，根据所述音素序列调用预训练至收敛的语言模型获得若干个假设词序列，所述语言模型可采用N-Gram语言模型和基于RNN的语言模型，进一步，调用解码器计算出所述音素序列和若干个假设词序列对应的声学模型分数和语言模型分数，推荐采用Viterbi算法搜索最优路径，将总体输出分数最高的词序列作为所述口述文本，所述解码器可由本领域技术人员灵活变通选取。

步骤S1230、根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象。

将所述口述文本与预设的信息列表中的目标对象文本相匹配，进而以所匹配的目标对象文本与目标对象的唯一标识码映射关系确认目标对象，所述信息列表中存储各个目标对象唯一标识码及其对应的目标对象文本信息。

本实施例中，将主播用户口述语音转换成相应的文字文本，再从中筛选出目标对象的文本信息确定目标对象，与之相比，依靠主播在口述前或口述过程中输入目标对象的文本信息确定目标对象，可见得前者以智能化方式提取语音中的关键信息，大大提升效率和用户体验。

请参阅图6，扩展的实施例中，所述步骤S1230、根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象之前，包括如下步骤：

步骤S1231、获取用于竞技项目描述相对应的词条，所述竞技项目包括游戏项目或体育竞赛项目；

一种实施例中，对于游戏项目而言，通过开发和维护游戏项目的第三方网络平台提供的接口，发送get请求，获得该游戏项目中各类描述对应的词条，如角色中/英文词条、角色技能中/英文词条、地图中/英文词条、装备中/英文词条等等；对于体育竞赛项目，通过竞赛举办方官网提供的文档资料，或采用搜索引擎检索百度词条、***词条等，获得该体育赛事项目中各类描述对应的词条，如选手个人基本信息词条、参赛队伍词条、参赛队伍成员编号词条等等

步骤S1232、筛选出参与所述竞技项目的目标对象的角色名称、角色技能名称相对应的对象文本信息；

对于为游戏项目而言，对步骤S1231采集的所述词条进行除重、分类，然后，从中筛选出目标对象的角色名称和角色技能名称对应的词条，进而获得相对应的所述对象文本信息；对于体育竞赛项目而言，对步骤S1231采集的所述词条进行除重、分类，然后，从中筛选出目标对象的参赛选手名称和参赛队伍选手编号对应的词条，进而获得相对应的所述对象文本信息，前述目标对象可由本领域技术人员按实际业务所需灵活变通设定，并且按照相应的竞技项目，筛选出该设定的目标对象按实际业务所需的对象属性相对应的对象文本信息。

步骤S1233、将所述对象文本信息关联相应的目标对象存储于所述信息列表中。

创建数据结构为数组的数据集作为所述信息列表，为所述目标对象创建唯一标识码，将其关联相应的对象文本信息存储与所述信息列表中，使得通过遍历该信息列表对直播用户的所述口述文本进行匹配，便可获得对应的所述唯一标识码，从而确认目标对象。

本实施例中，编辑创建信息列表，通过匹配信息列表便可精准快速确认主播用户的所述口述文本中的目标对象，相比于对主播用户的所述口述文本进行一系列的口语、语气词等文本字符过滤操作，进而获得剩下的目标对象文本确认目标对象，前者技术实现简单高效。

请参阅图7，进一步的实施例中，所述步骤S1300、从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息，包括如下步骤：

步骤S1310、提取所述视频流中各个视频帧的深层图片特征，构建相对应的图片特征向量；

一种实施例中，通过预训练至收敛的ResNet101残差神经网络模型对所述视频流中的各个视频帧的图片进行语义特征提取，从而获得多个尺度的语义特征，进一步，去除所述ResNet101中的连接层而调用预训练至收敛的FPN特征金字塔网络模型，在该多尺度的语义特征基础上引入由高层特征下采样而获得深层图片特征，以此构建相对应的图片特征向量。

步骤S1320、根据所述图片特征向量调用第二神经网络模型识别出在该视频流的视频帧中的所述目标对象，获得所述目标对象在该视频流的视频帧中的实时位置；

所述第二神经网络模型为对象检测模型，如Faster-RCNN、YOLOv4模型等等，可由本领域技术人员灵活变通选取。

一种实施例中，根据所述图片特征向量调用预训练至收敛的Faster-RCNN对象检测模型，将在所述视频流的各个视频帧的图片区分为前景和后景即是物体对象或不是物体对象，经由softmax层判断从而获得该前景中的各个物体对象，进一步，识别出目标对象，以及获得其对应在所述视频流的各个视频帧的图片中的实时位置。

步骤S1330、调用第三神经网络模型分割出所述目标对象对应的图片特征向量，对其进行边缘补偿计算，获得该目标对象的边缘轮廓信息，所述边缘轮廓信息包括所述目标对象对应的边缘轮廓及其对应的实时位置。

所述第三神经网络模型为实例分割模型，如DeepMask、Mask-RCNN模型等等，可由本领域技术人员灵活变通选取。

一种实施例中，根据所述目标对象的实时位置调用预训练至收敛的Mask-RCNN对象分割模型，对所述目标对象进行实例分割构建相应的图片特征向量，并对其进行边缘补偿计算，为该边缘补偿的像素块随机一种颜色进行设置，由此，使得目标对象的边缘轮廓像素足够大，得以清楚将其显示在所述视频流的视频帧的图片中，最终，输出目标对象在述视频流的各个视频帧的图片中的边缘轮廓数据和该边缘轮廓的实时位置，从而构建所述边缘轮廓信息。

本实施例中，识别出所述图像流中的目标对象，分割出其对应的边缘轮廓，最终，设置该边缘轮廓得以将目标对象的边缘轮廓在图像流的各个视频帧的图片上显示，可见的，相比于一般的在目标对象周边建立方框包围方式，前者对目标对象的贴合度更高，大大提升框选效果，使得通过框选效果，清晰辨识出目标对象。

请参阅图8，进一步的实施例中，所述步骤S1400、将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓，包括如下步骤：

步骤S1410、将目标对象对应的所述边缘轮廓信息关联获得其时对应所述视频流中的视频帧的时间戳构成定位跟踪信息，将其上传至服务器推送至所述直播间，以由服务器下发该定位跟踪信息至连接该直播间的终端设备；

所述直播间的观众或主播在其相应的终端设备连接直播间时，下载所述预训练至收敛的目标检测和实例分割模型、信息列表，借此，当接收到服务器推送的直播流时，即可执行步骤S1100-S1300获得目标对象对应的所述边缘轮廓信息，及在获得其时对应所述视频流的视频帧的图片对应的时间戳，将该时间戳和边缘轮廓信息构成定位跟踪信息上传至服务器，再由服务器将该定位跟踪信息推送至直播间的观众或主播的终端设备，由此，无论是刚连接到直播间的观众的终端设备，或是直播间中正在执行步骤S1100-S1300的终端设备，可直接使用该定位跟踪信息无需自行生成。

步骤S1420、检测终端设备显示跟踪对象开关启动状态，若检测该状态为开启，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓。

检测所述终端设备中显示跟踪对象开关启动状态，若该检测状态为关闭，接收该定位跟踪信息，并将其保存至缓存中，以便后续开关开启时得以快速调用，与此同时，底部弹窗提示显示跟踪对象开关设置如图3(a)300a，其中用户可通过相应的提示了解该设置详情、显示跟踪对象开关开启示范效果，可通过图3(a)301a对显示跟踪对象开关按需进行设置；若该检测状态为开启，根据该定位跟踪信息在所述视频流中相应的视频帧，定位目标对象的边缘轮廓的实时位置，从而随机选取一种颜色作为该边缘轮廓颜色进行渲染，使得在所述视频流的播放界面突出显示该边缘轮廓如图3(b)301b。

本实施例中，一方面，通过连接直播间的终端设备生成定位跟踪信息，将其上传至服务器，再由服务器下发至连接直播间的各个终端设备，使得每连接直播间即可获得定位跟踪信息能够渲染目标对象轮廓在播放界面展示，减少加载时间，用户能够更快看到效果；一方面，通过设立显示跟踪对象开关，满足不同用户所需，以人性化设置提升用户体验。

请参阅图9，较佳的实施例中，所述步骤S1420、根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓，包括如下步骤：

步骤S1421、根据所述定位跟踪信息中的边缘轮廓信息中的实时位置在所述视频流的视频帧中定位出该边缘轮廓信息中的边缘轮廓，提取出该视频帧中所述边缘轮廓的周边颜色；

根据所述定位跟踪信息中的时间戳，定位所述视频流的视频帧，进一步，根据所述定位跟踪信息中的边缘轮廓实时位置，采集该视频帧中的该边缘轮廓周边颜色，将其转变为相应的RGB颜色值或十六进制颜色码，并统计其中各个颜色相对于总体颜色占比比例。

步骤S1422、根据所述边缘轮廓的周边颜色中占比最高的颜色值，确认其对应的色域，获取区别于该色域的颜色值设为所述目标对象的边缘轮廓颜色；

根据所述各个颜色对应的所述总体颜色占比比例，筛选出其中占比最高者对应的颜色值，以不同色域对应的颜色值范围确定该颜色值对应的色域，从而选取与该色域不同的色域，以挑选其中任意一颜色值对应的颜色作为所述目标对象的边缘轮廓颜色。

步骤S1423、采用所述目标对象的边缘轮廓颜色对所述视频帧边缘轮廓进行渲染，以在所述视频流的播放界面中显示出所述目标对象的边缘轮廓。

根据所述边缘轮廓颜色为所述目标对象的轮廓进行渲染，使得该轮廓展示在所述视频流的播放界面中显示所述目标对象的轮廓。

本实施例，规避选取与所述目标对象的边缘轮廓，在所述视频帧的图像附近的颜色值对应的色域不同的色域，使得轮廓颜色与背景色发生反差，提升轮廓展示效果。

请参阅图10，本申请提供的一种直播流对象跟踪装置，适应本申请的直播流对象跟踪方法进行功能化部署，包括：直播流推送模块1100、语音翻译模块1200、图像识别模块1300、轮廓显示模块1400，其中，直播流推送模块1100，用于向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，所述视频流包含第三方程序的显示界面相对应的图像流；语音翻译模块1200，用于对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；图像识别模块1300，用于从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；轮廓显示模块1400，用于将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。

进一步的实施例中，所述直播流推送模块1100，包括：图像流获取子模块，用于从显存中获取第三方程序的显示界面相对应的图像流；视频数据接收子模块，用于接收与主播客户端设备连接的摄像设备摄取的视频数据；音频数据接收子模块，用于接收与主播客户端设备连接的音频输入设备输入的音频数据；视频流合成子模块，用于将所述图像流、视频数据合成视频流，再将其和音频数据合成所述直播流，将其推送至直播间播放。

进一步的实施例中，所述语音翻译模块1200，包括：特征提取子模块，用于提取所述音频数据的深层声学特征，构建相对应的声学特征向量；解码子模块，用于根据所述声学特征向量调用第一神经网络模型获得对应的音素序列，解码该音素序列获得所述口述文本；目标对象确认子模块，用于根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象。

进一步的实施例中，所述轮廓显示模块1400，包括：定位跟踪信息子模块，用于将目标对象对应的所述边缘轮廓信息关联获得其时对应所述视频流中的视频帧的时间戳构成定位跟踪信息，将其上传至服务器推送至所述直播间，以由服务器下发该定位跟踪信息至连接该直播间的终端设备；边缘轮廓渲染子模块，用于检测终端设备显示跟踪对象开关启动状态，若检测该状态为开启，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓。

为解决上述技术问题，本申请实施例还提供计算机设备。如图11所示，计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种直播流对象跟踪方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的直播流对象跟踪方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图10中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的直播礼物资源更新中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的直播流对象跟踪方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请通过智能化的语音识别、目标检测、实例分割、轮廓标注方式，根据将所述直播用户的口述语音实时标注出直播间播放的视频流中，该口述语音对应的目标对象的轮廓，大大提升用户界面中的直播内容的可读性，从而改善用户体验。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种直播流对象跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的直播流对象跟踪方法，其特征在于，向直播间推送直播流，包括如下步骤：

从显存中获取第三方程序的显示界面相对应的图像流；

接收与主播客户端设备连接的摄像设备摄取的视频数据；

3.根据权利要求1所述的直播流对象跟踪方法，其特征在于，对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象，包括如下步骤：

4.根据权利要求3所述的直播流对象跟踪方法，其特征在于，根据预设的信息列表中的对象文本信息匹配所述口述文本，获得与该口述文本相匹配对象文本信息，以其确认所述目标对象之前，包括如下步骤：

5.根据权利要求1所述的直播流对象跟踪方法，其特征在于，从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息，包括如下步骤：

6.根据权利要求1所述的直播流对象跟踪方法，其特征在于，将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓，包括如下步骤：

7.根据权利要求6所述的直播流对象跟踪方法，其特征在于，根据该定位跟踪信息为所述目标对象渲染边缘轮廓颜色，使得在所述视频流的播放界面中突出显示该目标对象的轮廓，包括如下步骤：

8.一种直播流对象跟踪装置，其特征在于，包括：

直播流推送模块，用于向直播间推送直播流，该直播流包含视频流和音频流，所述音频流包含音频输入设备输入的音频数据，所述视频流包含第三方程序的显示界面相对应的图像流；

语音翻译模块，用于对所述音频数据进行语音识别，获得相对应的口述文本，确定该口述文本所指向的目标对象；

图像识别模块，用于从所述图像流中识别出所述目标对象，获取该目标对象在该视频流的视频帧中的边缘轮廓信息；

轮廓显示模块，用于将所述边缘轮廓信息作为定位跟踪信息，推送至所述直播间，使接收该定位跟踪信息的终端设备在所述视频流的播放界面中突出显示所述目标对象的轮廓。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。