CN117812375A - 面向直播场景的视频渲染方法、装置和电子设备 - Google Patents

面向直播场景的视频渲染方法、装置和电子设备 Download PDF

Info

Publication number
CN117812375A
CN117812375A CN202311708249.3A CN202311708249A CN117812375A CN 117812375 A CN117812375 A CN 117812375A CN 202311708249 A CN202311708249 A CN 202311708249A CN 117812375 A CN117812375 A CN 117812375A
Authority
CN
China
Prior art keywords
text information
virtual character
live
video stream
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311708249.3A
Other languages
English (en)
Inventor
汪晨飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202311708249.3A priority Critical patent/CN117812375A/zh
Publication of CN117812375A publication Critical patent/CN117812375A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开提供了一种面向直播场景的视频渲染方法、装置和电子设备,涉及人工智能技术领域,尤其涉及直播领域和大模型领域。具体实现方案为:对主播进行直播录制,得到第一视频流;对所述第一视频流中的直播语音进行语音识别,得到第一文本信息;基于在所述直播录制的过程中的观众响应信息,以及所述第一文本信息,确定直播话题热度;在所述直播话题热度满足第一设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息;基于所述回复文本信息,对虚拟人物进行渲染,得到第二视频流;基于所述第一视频流和所述第二视频流,生成所述主播与所述虚拟人物互聊的第三视频流。采用本公开,可以提高直播话题的热度。

Description

面向直播场景的视频渲染方法、装置和电子设备
技术领域
本公开涉及人工智能技术领域,尤其涉及直播领域和大模型领域。本公开具体涉及一种面向直播场景的视频渲染方法、装置、电子设备和存储介质。
背景技术
在直播场景下,例如主播针对某个商品进行卖货或者主播与其他主播或观众进行对麦互聊的等场景,有时候容易出现主播话题较单一,难以与观众或者其他主播互聊的现象。如此长时间下来,会影响直播效果,以及影响主播以及其他观众的体验感。
发明内容
本公开提供了一种面向直播场景的视频渲染方法、装置、电子设备和存储介质。
根据本公开的一方面,提供了一种面向直播场景的视频渲染方法,包括:
对主播进行直播录制,得到第一视频流;
对所述第一视频流中的直播语音进行语音识别,得到第一文本信息;
基于在所述直播录制的过程中的观众响应信息,以及所述第一文本信息,确定直播话题热度;
在所述直播话题热度满足第一设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息;
基于所述回复文本信息,对虚拟人物进行渲染,得到第二视频流;
基于所述第一视频流和所述第二视频流,生成所述主播与所述虚拟人物互聊的第三视频流。
根据本公开的另一方面,提供了一种直播装置,包括:
视频录制模块,用于对主播进行直播录制,得到第一视频流;
语音识别模块,用于对所述第一视频流中的直播语音进行语音识别,得到第一文本信息;
热度确定模块,用于基于在所述直播录制的过程中的观众响应信息,以及所述第一文本信息,确定直播话题热度;
回复文本确定模块,用于在所述直播话题热度满足第一设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息;
虚拟人物渲染模块,用于基于所述回复文本信息,对虚拟人物进行渲染,得到第二视频流;
视频生成模块,用于基于所述第一视频流和所述第二视频流,生成所述主播与所述虚拟人物互聊的第三视频流。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一面向直播场景的视频渲染方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一面向直播场景的视频渲染方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一面向直播场景的视频渲染方法。
根据本公开的技术,在直播间中为主播设置虚拟人物,对主播的直播语音进行语音识别,得到第一文本信息,然后基于观众响应信息以及第一文本信息,可以确定直播话题热度,通过直播话题热度来确定主播无话可聊时,利用第一文本信息确定对应的回复文本信息,并利用回复文本信息对虚拟人物进行渲染,得到第二视频流,将针对主播进行直播录制得到第一视频率与第二视频流进行混流,从而生成主播与虚拟人物互聊的第三视频流,实现虚拟人物与主播进行话题互动的直播场景。如此,在主播无话可聊时,虚拟人物可以找话题与主播对聊,活跃直播间的氛围,提高直播话题的热度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开一实施例的面向直播场景的视频渲染方法的流程图;
图2是本公开一实施例的主播与虚拟人物互聊的场景图;
图3是本公开一实施例的主播与虚拟人物互聊的场景图;
图4是本公开一实施例的直播伴聊方法的示意图;
图5是本公开一实施例的直播对麦方法的示意图;
图6是本公开一实施例的直播装置的结构框图;
图7是本公开另一实施例的直播装置的结构框图;
图8是本公开一实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是本公开一实施例的面向直播场景的视频渲染方法的流程图。该方法可以应用于电子设备。该电子设备例如是终端、服务器或其他处理设备,其中,终端可以为台式计算机、移动设备、PDA(Personal Digital Assistant,个人数字助理)、手持设备、计算设备、车载设备、可穿戴设备等用户设备(User Equipment,UE)。在一些实现方式中,该电子设备可以通过处理器调用存储器中存储的计算机可读指令的方式,来实现本公开实施例的面向直播场景的视频渲染方法。
如图1所示,该面向直播场景的视频渲染方法,可以包括:
S110,对主播进行直播录制,得到第一视频流;
S120,对第一视频流中的直播语音进行语音识别,得到第一文本信息;
S130,基于在直播录制的过程中的观众响应信息,以及第一文本信息,确定直播话题热度;
S140,在直播话题热度满足第一设定条件的情况下,基于第一文本信息,确定对应的回复文本信息;
S150,基于回复文本信息,对虚拟人物进行渲染,得到第二视频流;
S160,基于第一视频流和第二视频流,生成主播与虚拟人物互聊的第三视频流。
可以理解地,本公开实施例的面向直播场景的视频渲染方法可以由本地的推流设备执行,也可以由本地的推流设备对直播进行录制上传给云端,云端执行上述的步骤S120至S160,云端将第三视频流返回给推流设备,推流设备将第三视频流推流给各个客户端进行播放。例如,通过CDN分发视频流。
可以理解地,对主播进行直播录制包括采用麦克风接收主播的语音信息,以及采用摄像头拍摄以主播为中心的直播间得到的摄像画面,从而得到第一视频流。第一视频流包括视频和语音的多媒体数据。
可以理解地,直播语音为来自主播的语音信息。
可以理解地,采用语音识别技术(Automatic Speech Recognition,ASR)对直播语音进行识别,得到第一文本信息。
可以理解地,观众响应信息可以包括评论区中的观众评论信息、与主播进行对麦的其他主播或者观众的回复信息(对其他主播或者观众的回复语音进行识别得到回复信息)。
可以理解地,虚拟人物可以是具备特定风格的虚拟人物。例如,主播在风格选择界面中选择第一风格的虚拟人物,利用第一风格的虚拟人物的模型数据,开始渲染,得到第一网络的虚拟人物的初始视频流,其中,初始视频流包括初始画面和初始语音。
可以理解地,基于回复文本信息,初始视频流中的虚拟人物进行渲染,得到第二视频流。例如,利用回复文本信息,确定对应的口型数据和肢体动作数据,利用口型数据和肢体动作数据,对初始视频流中的虚拟人物的口型以及肢体动作进行调整,以使虚拟人物的口型与口型数据中的口型相匹配,以及肢体动作与肢体动作数据中的肢体动作相匹配。
可以理解地,对第一视频流和第二视频流进行混流,得到第三视频流。例如,混流包括将第二视频流中的视频帧***到第一视频流中,以作为第一视频流中的一个视频帧,或者第二视频流中的视频帧与第一视频流中的视频帧合并成同一帧等。又如,混流也可以包括删除第一视频流中的部分帧,以及删除第二视频流中的部分帧。
图2和图3是本公开一实施例的主播与虚拟人物互聊的场景图。如图2所示,虚拟人物作为助理的角色与主播同一个直播间中互聊,虚拟人物与主播在同一个画面中且不存在聊天框。如图3所示,虚拟人物作为观众或者其他直播间中的主播与本直播间中的主播以不同的聊天框在直播画面中存在。当然,在图3中也可以同时存在真实的观众或其他主播以聊天框的形式与虚拟人物的聊天框一起存在直播画面中。
根据上述实施方式,在直播间中为主播设置虚拟人物,对主播的直播语音进行语音识别,得到第一文本信息,然后基于观众响应信息以及第一文本信息,可以确定直播话题热度,通过直播话题热度来确定主播无话可聊时,利用第一文本信息确定对应的回复文本信息,并利用回复文本信息对虚拟人物进行渲染,得到第二视频流,将针对主播进行直播录制得到第一视频率与第二视频流进行混流,从而生成主播与虚拟人物互聊的第三视频流,实现虚拟人物与主播进行话题互动的直播场景。如此,在主播无话可聊时,虚拟人物可以找话题与主播对聊,活跃直播间的氛围,提高直播话题的热度。
在一种实施方式中,基于在直播录制的过程中的观众互动信息,以及第一文本信息,确定直播话题热度,包括:从第一文本信息中提取至少一个第一文本段;针对各个第一文本段,分别在观众响应信息中查找能与第一文本段组成键值对的第二文本段,并统计键值对的组对数量;基于键值对的组对数量,确定直播话题热度。
可以理解地,第一文本段可以是作为键信息的文本段。例如,一个问题句子或者陈述句等。
可以理解地,第二文本段可以是作为值信息的文本段,例如,一个回答句子或者一个反问句子等。
可以理解地,观众响应信息中可以包括与第一文本段组成键值对的第二文本段,也可以不包括与第一文本段组成键值对的第二文本段。
示例性地,观众响应信息中各个文本段包括有时间戳,第一文本信息中的各个文本段也具有时间戳。针对第一文本段,在观众响应信息中查找与第一文本段组成键值对,并且时间戳与第一文本段的时间戳相匹配的第二文本段。其中,相匹配的两个时间戳可以为同一个时间范围内的两个时间戳。
示例性地,预设有键值对数据库,利用第一文本段在键值对数据库查找目标键值对,目标键值对包括第一文本段和第三文本段,从目标键值对中提取第三文本段,然后在观众响应信息中查找与第三文本段相同或相似的第二文本段。最后,将第一文本段和第二文本段组成新的键值对。
可以理解地,新组建的键值对的组对数量越多,直播话题热度越高。例如,可以采用线性函数,对键值对的组对数量进行计算,得到直播话题热度。
根据上述实施方式,利用来自直播语音的第一文本信息中的文本段与观众响应信息中的文本段组成的键值对的数量,可以准确地确定直播话题热度。
在一种实施方式中,在直播话题热度满足第一设定条件的情况下,基于第一文本信息,确定对应的回复文本信息,包括:在直播话题热度满足第一设定条件的情况下,从第一文本信息中提取关键词,得到多个关键词;对多个关键词进行话题分类,得到至少一个话题集;基于话题集的集合数量,确定直播话题重复度;在直播话题重复度满足第二设定条件的情况下,基于第一文本信息,确定对应的回复文本信息。
示例性地,在直播话题热度不满足第一设定条件的情况下,或者在直播话题热度满足第一设定条件并且直播话题重复度不满足第二设定条件的情况下,说明主播有话题可聊,与观众之间的互动热度较高,不必生成回复文本信息以对虚拟人物进行渲染。
可以理解地,第一设定条件为直播话题热度小于设定的热度阈值。
示例性地,可以采用话题分类模型对多个关键词进行分类,得到各个关键词的话题类型,然后利用各个关键词的话题类型对这多个关键词进行分组,得到至少一个话题集。其中,话题分类模型是预先根据话题数据样本进行训练得到的模型。
可以理解地,话题集的集合数量越多,说明来自直播语音的第一文本信息中的话题越多,也就是主播的直播话题重复度越高。例如,可以采用线性函数,对话题集的集合数量进行计算,得到直播话题重复度。
可以理解地,可以采用文本生成模型对第一文本信息进行处理,得到对应的回复文本信息。其中,文本生成模型可以为自然语言处理模型,例如,大模型。其中,文本生成模型是预先根据文本数据样本进行训练得到的模型。
可以理解地,第二设定条件为直播话题重复度小于设定的重复度阈值。
根据上述实施方式,在直播话题热度过低时,统计第一文本信息中的话题数量,如果话题数量也过低,则说明主播无话可聊,需要生成对应的回复文本信息,以使虚拟人物与主播互聊。
在一种实施方式中,虚拟人物包括N个虚拟人物,N为大于1的正整数,基于第一文本信息,确定对应的回复文本信息,包括:基于N个虚拟人物中第1个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型,其中,M为大于1的正整数;将第一文本信息输入第1个虚拟人物对应的目标文本生成模型,得到第1个虚拟人物的回复文本信息;对N个虚拟人物中第i个虚拟人物执行以下操作:基于第i个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型,其中,i为大于1的正整数;将第一文本信息以及从第1个虚拟人物至第i-1个虚拟人物的回复文本信息,输入第i个虚拟人物对应的目标文本生成模型,得到第i个虚拟人物的回复文本信息。
可以理解地,N的数值可以与M的数值相同,也可以不相同。
可以理解地,N个虚拟人物中各个虚拟人物的风格不相同,也可以存在部分虚拟人物的风格是相同的。
示例性地,虚拟人物的风格可以是新闻主持人、娱乐主持人、记者、观众等角色风格。虚拟人物的风格还可以是男性、女性、儿童、小学生、中学生等风格。
示例性地,虚拟人物的风格可以由主播在虚拟人物设置界面中设置虚拟人物的数量,以及各个虚拟人物的风格。又或者,根据直播间的直播内容,对应地设置虚拟人物的数量以及各个虚拟人物的风格。
可以理解地,不同风格的任意两个虚拟人物对应于不同的目标文本生成模型。同一风格的任意两个虚拟人物对应于同一个目标文本生成模型。
可以理解地,上述M个文本生成模型中各个文本生成模型对应的风格是不相同的。各个文本生成模型采用各自对应的风格的文本数据样本进行模型训练而得到的模型。
示例性地,从i的初始值为2开始,针对N个虚拟人物中第i个虚拟人物,逐个执行以下操作:基于第i个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型,其中,i为大于1的正整数;将第一文本信息以及从第1个虚拟人物至第i-1个虚拟人物的回复文本信息,输入第i个虚拟人物对应的目标文本生成模型,得到第i个虚拟人物的回复文本信息。
其中,当i的初始值为2时,将第一文本信息以及第1个虚拟人物的回复文本信息,输入第2个虚拟人物对应的目标文本生成模型,得到第2个虚拟人物的回复文本信息。
在实际应用中,如果存在多个虚拟人物同时与主播互聊,则需要考虑各个虚拟人物与主播之间的聊天内容是否能承上启下的,相互承接的。
因此,在本示例中,依据主播说的第一文本信息以及已生成的所有虚拟人物的回复文本信息,来生成下一个虚拟人物的回复文本信息,使得各个虚拟人物与主播之间的聊天内容能够承上启下,相互承接。
在一些实施例中,也可以仅依据上一个虚拟人物的回复文本信息,生成下一个虚拟人物的回复文本信息。或者可以依据第一文本信息以及上一个虚拟人物的回复文本信息,生成下一个虚拟人物的回复文本信息。
示例性地,基于第一文本信息,确定对应的回复文本信息,包括:基于N个虚拟人物中第1个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型;将第一文本信息输入第1个虚拟人物对应的目标文本生成模型,得到第1个虚拟人物的回复文本信息;从i的初始值为2开始,对N个虚拟人物中第i个虚拟人物执行以下操作:基于第i个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型;将第i-1个虚拟人物的回复文本信息,输入第i个虚拟人物对应的目标文本生成模型,得到第i个虚拟人物的回复文本信息。
示例性地,基于第一文本信息,确定对应的回复文本信息,包括:基于N个虚拟人物中第1个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型;将第一文本信息输入第1个虚拟人物对应的目标文本生成模型,得到第1个虚拟人物的回复文本信息;从i的初始值为2开始,对N个虚拟人物中第i个虚拟人物执行以下操作:基于第i个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型;将第一文本信息以及第i-1个虚拟人物的回复文本信息,输入第i个虚拟人物对应的目标文本生成模型,得到第i个虚拟人物的回复文本信息。
根据上述实施方式,依据主播说的第一文本信息和/或已生成的一个或多个虚拟人物的回复文本信息,来生成下一个虚拟人物的回复文本信息,使得各个虚拟人物与主播之间的聊天内容能够承上启下,相互承接。
在一种实施方式中,基于回复文本信息,对虚拟人物进行渲染,得到第二视频流,包括:基于各个虚拟人物的回复文本信息,分别对各个虚拟人物进行渲染,得到各个虚拟人物的第二视频流。
可以理解地,每个虚拟人物可以是具备对应风格的虚拟人物。例如,主播在风格选择界面中选择第一风格的虚拟人物,利用第一风格的虚拟人物的模型数据,开始渲染,得到第一网络的虚拟人物的初始视频流,其中,初始视频流包括初始画面和初始语音。
可以理解地,基于各个虚拟人物的回复文本信息,分别对各个虚拟人物的初始视频流中的虚拟人物进行渲染,得到各个虚拟人物的第二视频流。例如,利用回复文本信息,确定对应的口型数据和肢体动作数据,利用口型数据和肢体动作数据,对初始视频流中的虚拟人物的口型以及肢体动作进行调整,以使虚拟人物的口型与口型数据中的口型相匹配,以及肢体动作与肢体动作数据中的肢体动作相匹配。
根据上述实施方式,在多个虚拟人物存在的情况下,利用各个虚拟人物的回复文本信息,分别对各个虚拟人物进行渲染,得到各个虚拟人物的第二视频流,方便后续进行混流。
在一种实施方式中,基于第一视频流和第二视频流,生成主播与虚拟人物互聊的第三视频流,包括:基于各个虚拟人物的回复文本信息的生成顺序,对第一视频流和各个虚拟人物的第二视频流进行混流,得到主播与各个虚拟人物互聊的第三视频流。
可以理解地,上述N个虚拟人物中各个虚拟人物的回复文本信息的生成顺序与N个虚拟人物中各个虚拟人物排列顺序相同,以上述i排列为准。
示例性地,对第一视频流与N个虚拟人物中第1个虚拟人物的第二视频流混流,得到第1个混流结果;从i的初始值为2开始,针对上述N个虚拟人物中的第i个虚拟人物,将第i-1个混流结果与第i个虚拟人物的第二视频流进行混流,得到第i个混流结果。最后,将第N个混流结果作为主播与各个虚拟人物互聊的第三视频流。
其中,各个混流结果为视频流。
可以理解地,混流是将一个视频流中的一个或多个视频帧***到另一个视频流中的两个视频帧之间。又或者,将一个视频流中的一个或多个视频帧与另一个视频流中的一个或多个视频帧进行拼接处理。
在实际应用中,如果存在多个虚拟人物同时与主播互聊,则需要考虑各个虚拟人物与主播互聊的顺序,以避免同一时间有多个虚拟人物在说话。
因此,采用上述实施方式,可以避免同一时间有多个虚拟人物与主播互聊,避免出现语音过于混杂的情况出现。
在一种实施方式中,基于第一文本信息,确定对应的回复文本信息,包括:基于虚拟人物的风格,对第一文本信息进行处理,得到第二文本信息;基于文本生成模型,对第二文本信息进行处理,得到虚拟人物的回复文本信息。
在实际应用中,可以仅设置一个虚拟人物与主播互聊,该虚拟人物的风格可以由主播进行设置,也可以根据直播内容进行自动化设置。也可以设置多个不同风格的虚拟人物与主播互聊。同时,也可以仅设置一个文本生成模型,也可以设置多个文本生成模型。这些文本生成模型可以是大语言模型。
可以理解地,第二文本信息是风格化后的第一文本信息。
在本示例中,在将第一文本信息输入文本生成模型之前,对第一文本信息进行风格化后再输入文本生成模型,如此,仅利用一个文本生成模型,即可生成不同风格的回复文本信息。
图4是本公开一实施例的直播伴聊方法的示意图。
如图4所示,在正常情况下,在直播推流时,画面来自其使用的推流设备(电脑/手机)的摄像头,声音来自其使用的推流设备的麦克风。将直播推流的主播声音数据,送至语音识别模块(本地部署or云服务实现),将主播说的话转化为文字。然后,通过propmt(文本)风格化模块将文字转化为一个合理的文本信息。其中,具体风格取决于主播需要,可由主播进行配置。将风格化后的文本信息输入给云端的大模型(生成式AI)服务,获得大模型提供的响应文本。本地将响应文本转化为语音,和本地的渲染画面,例如一个卡通人物张嘴闭嘴的画面,合并为一个生成式AI响应画面。将主播本身的采集画面和生成式AI响应画面混流为一个直播流,并将直播流推送至直播服务器,以供观看者消费。
图5是本公开一实施例的直播对麦方法的示意图。
主播预先基于自己主播内容的需要,提前选取对应风格的数字人。在选定之后,云端会创建对应的数字人渲染实例和大模型推理实例,同时做一些风格化的初始化设定工作,同时开始渲染数字人画面和对应音频。主播在实时主播时,推流设备会从云端拉取云端渲染出的数字人画面。当主播需要进行交互时,会对推流设备说话,其声音信号被复制一份上传到云端进行语音转文字,得到相应的文本。同时,将文本输入到不同的大模型推理实例中去,不同的大模型产生不同风格的回复文本后,会被输入到数字人渲染实例渲染出对应的说话画面和声音,渲染出的画面实时被推流设备拉取。推流设备将真人主播的画面声音和云端的数字人画面上声音混流成一个视频音频流,推送到直播服务,经过CDN分发后可供观众观看。
图6是本公开一实施例的直播装置的结构框图。
如图6所示,一种直播装置,可以包括:
视频录制模块610,用于对主播进行直播录制,得到第一视频流;
语音识别模块620,用于对所述第一视频流中的直播语音进行语音识别,得到第一文本信息;
热度确定模块630,用于基于在所述直播录制的过程中的观众响应信息,以及所述第一文本信息,确定直播话题热度;
回复文本确定模块640,用于在所述直播话题热度满足第一设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息;
虚拟人物渲染模块650,用于基于所述回复文本信息,对虚拟人物进行渲染,得到第二视频流;
视频生成模块660,用于基于所述第一视频流和所述第二视频流,生成所述主播与所述虚拟人物互聊的第三视频流。
图7是本公开另一实施例的直播装置的结构框图。图7中的视频录制模块710、语音识别模块720、热度确定模块730、回复文本确定模块740、虚拟人物渲染模块750、视频生成模块760与图6中的视频录制模块610、语音识别模块620、热度确定模块630、回复文本确定模块640、虚拟人物渲染模块650、视频生成模块660结构和功能相同,在此不详述。
在一种实施方式中,所述热度确定模块730,包括:
文本段提取模块731,用于从所述第一文本信息中提取至少一个第一文本段;
键值对统计模块732,用于针对各个所述第一文本段,分别在所述观众响应信息中查找能与所述第一文本段组成键值对的第二文本段,并统计所述键值对的组对数量;
热度确定单元733,用于基于所述键值对的组对数量,确定所述直播话题热度。
在一种实施方式中,所述回复文本确定模块740,包括:
关键词提取单元741,用于在所述直播话题热度满足第一设定条件的情况下,从所述第一文本信息中提取关键词,得到多个关键词;
话题分类单元742,用于对所述多个关键词进行话题分类,得到至少一个话题集;
重复度确定单元743,用于基于所述话题集的集合数量,确定直播话题重复度;
回复文本确定单元744,用于在所述直播话题重复度满足第二设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息。
在一种实施方式中,所述虚拟人物包括N个虚拟人物,N为大于1的正整数,所述回复文本确定单元,具体用于:
基于所述N个虚拟人物中第1个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型,其中,M为大于1的正整数;
将所述第一文本信息输入所述第1个虚拟人物对应的目标文本生成模型,得到所述第1个虚拟人物的回复文本信息;
对所述N个虚拟人物中第i个虚拟人物执行以下操作:
基于所述第i个虚拟人物的风格,在所述M个文本生成模型中确定对应的目标文本生成模型,其中,i为大于1的正整数;
将所述第一文本信息以及从所述第1个虚拟人物至第i-1个虚拟人物的回复文本信息,输入所述第i个虚拟人物对应的目标文本生成模型,得到所述第i个虚拟人物的回复文本信息。
在一种实施方式中,所述虚拟人物渲染模块,具体用于:
基于各个所述虚拟人物的回复文本信息,分别对各个所述虚拟人物进行渲染,得到各个所述虚拟人物的第二视频流。
在一种实施方式中,所述视频生成模块,具体用于:
基于各个所述虚拟人物的回复文本信息的生成顺序,对所述第一视频流和各个所述虚拟人物的第二视频流进行混流,得到所述主播与各个所述虚拟人物互聊的第三视频流。
在一种实施方式中,所述回复文本确定单元,具体用于:
基于所述虚拟人物的风格,对所述第一文本信息进行处理,得到第二文本信息;
基于文本生成模型,对所述第二文本信息进行处理,得到所述虚拟人物的回复文本信息。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如一种面向直播场景的视频渲染方法。例如,在一些实施例中,一种面向直播场景的视频渲染方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的一种面向直播场景的视频渲染方法中的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种面向直播场景的视频渲染方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种面向直播场景的视频渲染方法,包括:
对主播进行直播录制,得到第一视频流;
对所述第一视频流中的直播语音进行语音识别,得到第一文本信息;
基于在所述直播录制的过程中的观众响应信息,以及所述第一文本信息,确定直播话题热度;
在所述直播话题热度满足第一设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息;
基于所述回复文本信息,对虚拟人物进行渲染,得到第二视频流;
基于所述第一视频流和所述第二视频流,生成所述主播与所述虚拟人物互聊的第三视频流。
2.根据权利要求1所述的方法,其中,所述基于在所述直播录制的过程中的观众互动信息,以及所述第一文本信息,确定直播话题热度,包括:
从所述第一文本信息中提取至少一个第一文本段;
针对各个所述第一文本段,分别在所述观众响应信息中查找能与所述第一文本段组成键值对的第二文本段,并统计所述键值对的组对数量;
基于所述键值对的组对数量,确定所述直播话题热度。
3.根据权利要求1或2所述的方法,其中,所述在所述直播话题热度满足第一设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息,包括:
在所述直播话题热度满足第一设定条件的情况下,从所述第一文本信息中提取关键词,得到多个关键词;
对所述多个关键词进行话题分类,得到至少一个话题集;
基于所述话题集的集合数量,确定直播话题重复度;
在所述直播话题重复度满足第二设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息。
4.根据权利要求1-3中任一项所述的方法,其中,所述虚拟人物包括N个虚拟人物,N为大于1的正整数,所述基于所述第一文本信息,确定对应的回复文本信息,包括:
基于所述N个虚拟人物中第1个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型,其中,M为大于1的正整数;
将所述第一文本信息输入所述第1个虚拟人物对应的目标文本生成模型,得到所述第1个虚拟人物的回复文本信息;
对所述N个虚拟人物中第i个虚拟人物执行以下操作:
基于所述第i个虚拟人物的风格,在所述M个文本生成模型中确定对应的目标文本生成模型,其中,i为大于1的正整数;
将所述第一文本信息以及从所述第1个虚拟人物至第i-1个虚拟人物的回复文本信息,输入所述第i个虚拟人物对应的目标文本生成模型,得到所述第i个虚拟人物的回复文本信息。
5.根据权利要求4所述的方法,其中,所述基于所述回复文本信息,对所述虚拟人物进行渲染,得到第二视频流,包括:
基于各个所述虚拟人物的回复文本信息,分别对各个所述虚拟人物进行渲染,得到各个所述虚拟人物的第二视频流。
6.根据权利要求5所述的方法,其中,所述基于所述第一视频流和所述第二视频流,生成所述主播与所述虚拟人物互聊的第三视频流,包括:
基于各个所述虚拟人物的回复文本信息的生成顺序,对所述第一视频流和各个所述虚拟人物的第二视频流进行混流,得到所述主播与各个所述虚拟人物互聊的第三视频流。
7.根据权利要求1-3中任一项所述的方法,其中,所述基于所述第一文本信息,确定对应的回复文本信息,包括:
基于所述虚拟人物的风格,对所述第一文本信息进行处理,得到第二文本信息;
基于文本生成模型,对所述第二文本信息进行处理,得到所述虚拟人物的回复文本信息。
8.一种直播装置,包括:
视频录制模块,用于对主播进行直播录制,得到第一视频流;
语音识别模块,用于对所述第一视频流中的直播语音进行语音识别,得到第一文本信息;
热度确定模块,用于基于在所述直播录制的过程中的观众响应信息,以及所述第一文本信息,确定直播话题热度;
回复文本确定模块,用于在所述直播话题热度满足第一设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息;
虚拟人物渲染模块,用于基于所述回复文本信息,对虚拟人物进行渲染,得到第二视频流;
视频生成模块,用于基于所述第一视频流和所述第二视频流,生成所述主播与所述虚拟人物互聊的第三视频流。
9.根据权利要求8所述的装置,其中,所述热度确定模块,包括:
文本段提取模块,用于从所述第一文本信息中提取至少一个第一文本段;
键值对统计模块,用于针对各个所述第一文本段,分别在所述观众响应信息中查找能与所述第一文本段组成键值对的第二文本段,并统计所述键值对的组对数量;
热度确定单元,用于基于所述键值对的组对数量,确定所述直播话题热度。
10.根据权利要求8或9所述的装置,其中,所述回复文本确定模块,包括:
关键词提取单元,用于在所述直播话题热度满足第一设定条件的情况下,从所述第一文本信息中提取关键词,得到多个关键词;
话题分类单元,用于对所述多个关键词进行话题分类,得到至少一个话题集;
重复度确定单元,用于基于所述话题集的集合数量,确定直播话题重复度;
回复文本确定单元,用于在所述直播话题重复度满足第二设定条件的情况下,基于所述第一文本信息,确定对应的回复文本信息。
11.根据权利要求10所述的装置,其中,所述虚拟人物包括N个虚拟人物,N为大于1的正整数,所述回复文本确定单元,具体用于:
基于所述N个虚拟人物中第1个虚拟人物的风格,在M个文本生成模型中确定对应的目标文本生成模型,其中,M为大于1的正整数;
将所述第一文本信息输入所述第1个虚拟人物对应的目标文本生成模型,得到所述第1个虚拟人物的回复文本信息;
对所述N个虚拟人物中第i个虚拟人物执行以下操作:
基于所述第i个虚拟人物的风格,在所述M个文本生成模型中确定对应的目标文本生成模型,其中,i为大于1的正整数;
将所述第一文本信息以及从所述第1个虚拟人物至第i-1个虚拟人物的回复文本信息,输入所述第i个虚拟人物对应的目标文本生成模型,得到所述第i个虚拟人物的回复文本信息。
12.根据权利要求11所述的装置,其中,所述虚拟人物渲染模块,具体用于:
基于各个所述虚拟人物的回复文本信息,分别对各个所述虚拟人物进行渲染,得到各个所述虚拟人物的第二视频流。
13.根据权利要求12所述的装置,其中,所述视频生成模块,具体用于:
基于各个所述虚拟人物的回复文本信息的生成顺序,对所述第一视频流和各个所述虚拟人物的第二视频流进行混流,得到所述主播与各个所述虚拟人物互聊的第三视频流。
14.根据权利要求10所述的装置,其中,所述回复文本确定单元,具体用于:
基于所述虚拟人物的风格,对所述第一文本信息进行处理,得到第二文本信息;
基于文本生成模型,对所述第二文本信息进行处理,得到所述虚拟人物的回复文本信息。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
CN202311708249.3A 2023-12-12 2023-12-12 面向直播场景的视频渲染方法、装置和电子设备 Pending CN117812375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311708249.3A CN117812375A (zh) 2023-12-12 2023-12-12 面向直播场景的视频渲染方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311708249.3A CN117812375A (zh) 2023-12-12 2023-12-12 面向直播场景的视频渲染方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117812375A true CN117812375A (zh) 2024-04-02

Family

ID=90421018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311708249.3A Pending CN117812375A (zh) 2023-12-12 2023-12-12 面向直播场景的视频渲染方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117812375A (zh)

Similar Documents

Publication Publication Date Title
CN112616063B (zh) 一种直播互动方法、装置、设备及介质
US11417341B2 (en) Method and system for processing comment information
US20210201886A1 (en) Method and device for dialogue with virtual object, client end, and storage medium
JP6289662B2 (ja) 情報送信方法及び送信装置
US9087131B1 (en) Auto-summarization for a multiuser communication session
CN112653902B (zh) 说话人识别方法、装置及电子设备
US11972778B2 (en) Sound-picture matching method of video, related apparatus, and storage medium
US11451858B2 (en) Method and system of processing information flow and method of displaying comment information
CN114095744B (zh) 视频直播方法、装置、电子设备及可读存储介质
CN113711618B (zh) 创作包括引用视频内容的键入的超链接的评论
CN112738557A (zh) 视频处理方法及装置
US12028558B2 (en) Method for processing live broadcast information, electronic device and storage medium
CN113748425A (zh) 针对视频数据中表达的内容的自动完成
CN110880324A (zh) 语音数据的处理方法、装置、存储介质及电子设备
US20230027035A1 (en) Automated narrative production system and script production method with real-time interactive characters
JP2003323628A (ja) 発言者特定映像装置およびそのプログラムならびに発言者特定映像表示方法
CN114283349A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN117579855A (zh) 虚拟直播方法及装置
CN115942039B (zh) 视频生成方法、装置、电子设备和存储介质
WO2023029862A1 (zh) 弹幕显示方法、装置、设备及存储介质
CN117812375A (zh) 面向直播场景的视频渲染方法、装置和电子设备
CN114422844B (zh) 弹幕素材生成方法、推荐方法、装置、设备、介质及产品
CN113282770A (zh) 一种多媒体推荐***及方法
CN114449301B (zh) 物品发送方法、装置、电子设备和计算机可读存储介质
CN112672202B (zh) 弹幕处理方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination