CN113780217A

CN113780217A - 直播辅助提示方法、装置、计算机设备及存储介质

Info

Publication number: CN113780217A
Application number: CN202111089410.4A
Authority: CN
Inventors: 童鑫
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-10

Abstract

本发明涉及情绪识别领域，公开了一种直播辅助提示方法、装置、计算机设备及存储介质，其方法包括：获取直播间的交互数据和主播的音像数据；根据交互数据和音像数据进行多维度评价，获得多维度评价结果；将多维度评价结果发送至提示终端，以使主播通过提示终端获取多维度评价结果。本发明可以帮助主播了解自我的直播状态，实时调整自身直播状态，提升直播效果。

Description

直播辅助提示方法、装置、计算机设备及存储介质

技术领域

本发明涉及情绪识别领域，尤其涉及一种直播辅助提示方法、装置、计算机设备及存储介质。

背景技术

近年来，随着网络直播技术的飞速发展,直播行业也日益蓬勃。直播可以定义为主播在直播空间随着事件(展示商品、表演节目、体育赛事、游戏、专业知识讲解、商务会议等)的发生同步制作与实时发布信息的活动。直播具备双向、互动、实时、灵活等特征。互联网企业对直播的重视程度呈现增加的趋势。

目前，直播平台的作用更多在于为主播及观众提供一个基础互动空间，而直播的内容及效果主要依赖主播及其团队的把控。一般情况下，一些职业化的主播需要经过专业训练后方可上镜直播。一些主播对直播技巧的掌握不够娴熟，或者因为自身状态不佳，导致直播间无人问津或直播效果不佳。因而，需要寻找一种直播辅助提醒方法，以帮助主播了解自我的直播状态，实时调整自身直播状态，提升直播效果。

发明内容

基于此，有必要针对上述技术问题，提供一种直播辅助提示方法、装置、计算机设备及存储介质，以帮助主播了解自我的直播状态，实时调整自身直播状态，提升直播效果。

一种直播辅助提示方法，包括：

获取直播间的交互数据和主播的音像数据；

根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，所述多维度评价结果包括表情维度评价结果、姿态维度评价结果、语音流畅度评价结果、语音语调评价结果和互动维度评价结果；其中，对所述音像数据进行多维度评价，生成所述表情维度评价结果、所述姿态维度评价结果、所述语音流畅度评价结果和所述语音语调评价结果，对所述交互数据和所述音像数据进行评价，生成所述互动维度评价结果；

将所述多维度评价结果发送至提示终端，以使所述主播通过所述提示终端获取所述多维度评价结果。

一种直播辅助提示装置，包括：

获取数据模块，用于获取直播间的交互数据和主播的音像数据；

多维度评价模块，用于根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，所述多维度评价结果包括表情维度评价结果、姿态维度评价结果、语音流畅度评价结果、语音语调评价结果和互动维度评价结果；其中，对所述音像数据进行多维度评价，生成所述表情维度评价结果、所述姿态维度评价结果、所述语音流畅度评价结果和所述语音语调评价结果，对所述交互数据和所述音像数据进行评价，生成所述互动维度评价结果；

提示模块，用于将所述多维度评价结果发送至提示终端，以使所述主播通过所述提示终端获取所述多维度评价结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述直播辅助提示方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述直播辅助提示方法。

上述直播辅助提示方法、装置、计算机设备及存储介质，通过获取直播间的交互数据和主播的音像数据，以实时采集直播间的数据。根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，所述多维度评价结果包括表情维度评价结果、姿态维度评价结果、语音流畅度评价结果、语音语调评价结果和互动维度评价结果；其中，对所述音像数据进行多维度评价，生成所述表情维度评价结果、所述姿态维度评价结果、所述语音流畅度评价结果和所述语音语调评价结果，对所述交互数据和所述音像数据进行评价，生成所述互动维度评价结果，以多维度评价主播的直播表现。将所述多维度评价结果发送至提示终端，以使所述主播通过所述提示终端获取所述多维度评价结果，以帮助主播在直播过程中有意识地改进自我状态，提升直播效果。本发明可以帮助主播了解自我的直播状态，实时调整自身直播状态，提升直播效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中直播辅助提示方法的一应用环境示意图；

图2是本发明一实施例中直播辅助提示方法的一流程示意图；

图3是本发明一实施例中直播辅助提示装置的一结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。本实施例可以通过专用人工智能芯片采集直播数据。

本实施例提供的直播辅助提示方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，如图2所示，提供一种直播辅助提示方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤S10-S30。

S10、获取直播间的交互数据和主播的音像数据。

可理解地，直播间可以是用于电商销售、个人表演等的直播间。交互数据可以是直播间的访客的评论数据。在一些情况下，交互数据也包括了直播间的销售数据、打赏数据。主播可以是电商主播、游戏主播、表演主播(如唱歌、舞蹈等)等。在一些示例中，主播可以是有上镜的主播，即主播的形象展示在直播间画面中。主播的音像数据包括但不限于主播的音频数据和图像数据。

S20、根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，所述多维度评价结果包括表情维度评价结果、姿态维度评价结果、语音流畅度评价结果、语音语调评价结果和互动维度评价结果；其中，对所述音像数据进行多维度评价，生成所述表情维度评价结果、所述姿态维度评价结果、所述语音流畅度评价结果和所述语音语调评价结果，对所述交互数据和所述音像数据进行评价，生成所述互动维度评价结果。

可理解地，多维度评价结果用于从多个不同的维度评价主播的直播状态。可以根据实际需要设置用于评价主播直播状态的维度，如可以是表情维度、姿态维度、语音流畅度维度、语音语调维度和互动维度。

对交互数据和音像数据进行多维度评价，可以获得多维度评价结果。多维度评价结果包括了各个维度的评价结果。

S30、将所述多维度评价结果发送至提示终端，以使所述主播通过所述提示终端获取所述多维度评价结果。

可理解地，提示终端指的是为主播提供提示数据的终端。提示终端可以是在主播可观察范围内的显示屏，也可以是主播佩戴的随身耳机，或者其他可以产生提示作用的终端。

在一示例中，提示数据可以指多维度评价结果。多维度评价结果可通过提示终端传送给主播，使主播获取到该多维度评价结果。在此处，提示终端提供的多维度评价数据，可以为提供实时的表现反馈，协助主播快速地掌握到直播间中自我的直播状态，以帮助主播在直播过程中有意识地改进自我状态，提升直播效果。

步骤S10-S30中，获取直播间的交互数据和主播的音像数据，以实时采集直播间的数据。根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，所述多维度评价结果包括表情维度评价结果、姿态维度评价结果、语音流畅度评价结果、语音语调评价结果和互动维度评价结果；其中，对所述音像数据进行多维度评价，生成所述表情维度评价结果、所述姿态维度评价结果、所述语音流畅度评价结果和所述语音语调评价结果，对所述交互数据和所述音像数据进行评价，生成所述互动维度评价结果，以多维度评价主播的直播表现。将所述多维度评价结果发送至提示终端，以使所述主播通过所述提示终端获取所述多维度评价结果，以帮助主播在直播过程中有意识地改进自我状态，提升直播效果。本实施例可以帮助主播了解自我的直播状态，实时调整自身直播状态，提升直播效果。

可理解地，所述音像数据包括面部图像；

步骤S20，即所述根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，包括：

S201、按照预设时间间隔获取所述面部图像；

S202、通过预设表情识别模型处理所述面部图像，生成瞬时表情状态；

S203、获取第一时间段内的多个所述瞬时表情状态；

S204、通过预设表情评价方法处理多个所述瞬时表情状态，生成所述第一时间段的所述表情维度评价结果。

可理解地，预设时间间隔可以根据实际需要进行设置，如可以是3秒、10秒、20秒、30秒、60秒等。面部图像指的是包含主播面部的图像，一般指的是正脸的图像。一些情况下，直播间设置有若干的摄像头，可以从多个角度拍摄主播，可以从多个角度的拍摄图像选取包含主播正脸的图像作为面部图像。

预设表情识别模型指的是训练完毕的表情识别模型，该模型可以解析面部图像中人脸的面部特征，生成瞬时表情状态。在此处，瞬时表情状态包括但不限于兴奋、喜欢、惊讶、痛苦、恐惧、羞辱、厌恶、愤怒。

第一时间段可以根据实际需要进行设置，如可以是10分钟。第一时间段内瞬时表情状态的个数为第一时间段与预设时间间隔的比值。如预设时间间隔为1分钟，第一时间段为10分钟，则可以获取10个瞬时表情状态。

预设表情评价方法可以根据实际需要进行设置。预设表情评价方法对多个瞬时表情状态进行评价，生成表情维度评价结果。表情维度评价结果可以表示为表情等级。在一些示例中，表情维度评价结果可以分为五个等级，分别为5-激昂、4-平淡、3-尴尬、2-犯困、1-傲慢。

本实施例中，通过对主播的面部图像进行表情识别，可以获得用于反映主播情绪的表情维度评价结果，使主播及时了解自身的情绪。

可理解地，所述音像数据包括人物肢体图像；

S211、按时序获取所述主播在预设时间区间的一组所述人物肢体图像，形成人物肢体图像序列；

S212、通过预设姿态识别模型处理所述人物肢体图像序列，生成所述主播的姿态动作；

S213、获取第二时间段内的多个所述姿态动作；

S214、通过预设姿态评价方法处理多个所述姿态动作，生成所述第二时间段的所述姿态维度评价结果。

可理解地，预设时间区间可以根据实际需要进行设置。在一示例中，预设时间区间可以设置为30秒、1分钟、2分钟等。人物肢体图像指的是包括主播至少上半身(可以是全身)的图像。人物肢体图像序列指的是按时序排列的多张人体肢体图像。这些人体肢体图像可以是按一定的时间间隔采集的图像，如每隔1秒钟采集一帧人体肢体图像。

预设姿态识别模型指的是训练完毕的姿态识别模型，该模型可以解析主播的姿态特征，生成姿态动作。在此处，姿态动作包括但不限于坐姿、站姿、手部动作、脚部动作。

第二时间段可以根据实际需要进行设置，如可以是10分钟。第二时间段内姿态动作的个数为第二时间段与预设时间区间的比值。如预设时间区间为30秒钟，第二时间段为10分钟，则可以获取20个姿态动作。

预设姿态评价方法可以根据实际需要进行设置。预设姿态评价方法对多个姿态动作进行评价，生成姿态维度评价结果。姿态维度评价结果可以表示为姿态等级。在一些示例中，姿态维度评价结果可以分为五个等级，分别为5-手舞足蹈、4-正襟危坐、3-含胸驼背、2-东歪西倒、1-北京瘫。

本实施例中，通过对主播的人物肢体图像进行姿态识别，可以获得用于反映主播姿态的姿态维度评价结果，使主播及时了解自身的姿态。

可理解地，所述音像数据包括音频数据；

S221、获取所述主播在第三时间段内的音频数据；

S222、通过预设流畅度评价模型处理所述音频数据，生成所述主播在第三时间段内的语音流畅度评价结果。

可理解地，第三时间段可以根据实际需要进行设置，如可以是10分钟。音频数据指的是通过录音装置采集的主播的语音数据。预设流畅度评价模型指的是训练完毕的流畅度评价模型，该模型可以解析主播语音的流畅度特征，生成语音流畅度评价结果。在一些示例中，语音流畅度评价结果包括由流畅至卡顿的五个等级。

本实施例中，通过对主播的音频数据进行处理，可以获得主播的语音流畅度评价结果，使主播及时了解自身语音表达的流畅度。

可理解地，所述音像数据包括音频数据；

S231、获取所述主播在第四时间段内的音频数据；

S232、通过预设语音语调评价模型处理所述音频数据，生成所述主播在第四时间段内的语音语调评价结果。

可理解地，第四时间段可以根据实际需要进行设置，如可以是10分钟。音频数据指的是通过录音装置采集的主播的语音数据。预设语音语调模型指的是训练完毕的语音语调评价模型，该模型可以解析主播语音的语音语调特征，生成语音语调评价结果。在一些示例中，语音语调评价结果包括由抑扬顿挫到毫无起伏的五个等级。

本实施例中，通过对主播的音频数据进行处理，可以获得主播的语音语调评价结果，使主播及时了解自身语音的语调变化。

可理解地，所述交互数据包括评论数据，所述音像数据包括主播音频数据；

S241、获取在预设互动时间内的主播音频数据和评论数据；

S242、通过预设语音识别模型处理所述主播音频数据，生成主播文本数据；

S243、通过预设评价模型处理所述主播文本数据和所述评论数据，生成互动匹配度；

S244、根据所述互动匹配度更新所述互动维度评价结果。

可理解地，预设互动时间可以根据实际需要进行设置，如可以是2分钟。主播音频数据指的是主播的音频数据。评论数据可以是访客在直播间的留言。预设语音识别模型为训练好的语音转文本的模型。通过预设语音识别模型可以将主播音频数据处理为主播文本数据。

预设评价模型是一种基于语义分析算法构建的分析模型，可以分析主播文本数据和评论数据之间的交互频次和交互锲合度，生成交互匹配度。在一些示例中，交互匹配度包括两种结果，一种为匹配，如评论数据不为空、评论数据趋向于褒义评价等；另一种为不匹配，如评论数据为空、评论数据趋向于贬义评价等。

互动维度评价结果可以是一个评分值或评价等级。当交互匹配度为匹配，评分值增加(若为最高分值，则不再增加)，或者评价等级提高(若为最高等级，则不再提高)；当交互匹配度为不匹配，评分值减少(若为最低分值，则不再减少)，或者评价等级降低(若为最低等级，则不再降低)。

本实施例中，通过对交互数据和主播的音频数据进行处理，可以获得主播的互动维度评价结果，使主播及时了解直播间访客的热度(交互频次)、支持度(交互匹配度)。

可选的，步骤S20之后，即所述根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果之后，还包括：

S31、获取与所述多维度评价结果匹配的提示信息，所述提示信息包括改进措施和/或评价语句；

S32、将所述提示信息发送至提示终端，以使所述主播通过所述提示终端获取所述提示信息。

可理解地，可以预先构建存储有多条提示信息的数据库。同时，数据库存储有提示信息与多维度评价结果之间的匹配规则。因而，在确定多维度评价结果之后，可以从数据库中获取到相应的提示信息。在此处，提示信息包括改进措施和/或评价语句。在一示例中，改进措施包括但不限于：请放松一点；请提高音量；请调整坐姿。评价语句包括但不限于：做得很好；还有待提高，请继续努力。

将提示信息发送至提示终端，主播可以通过提示终端获取提示信息。提示信息可以定期更新，如每十分钟更新一次。在此处，提示终端提供的提示信息，可以为主播提供有效的表现反馈，协助主播快速地掌握到直播间中自我的直播状态，帮助主播在直播过程中有意识地改进自我状态，提升直播效果。

本实施例中，通过自动匹配提示信息，可以形成对主播更为直接的提醒，帮助主播在直播过程中有意识地改进自我状态，提升直播效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种直播辅助提示装置，该直播辅助提示装置与上述实施例中直播辅助提示方法一一对应。如图3所示，该直播辅助提示装置包括获取数据模块10、多维度评价模块20和提示模块30。各功能模块详细说明如下：

获取数据模块10，用于获取直播间的交互数据和主播的音像数据；

多维度评价模块20，用于根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，所述多维度评价结果包括表情维度评价结果、姿态维度评价结果、语音流畅度评价结果、语音语调评价结果和互动维度评价结果；其中，对所述音像数据进行多维度评价，生成所述表情维度评价结果、所述姿态维度评价结果、所述语音流畅度评价结果和所述语音语调评价结果，对所述交互数据和所述音像数据进行评价，生成所述互动维度评价结果；

提示模块30，用于将所述多维度评价结果发送至提示终端，以使所述主播通过所述提示终端获取所述多维度评价结果。

可选的，所述音像数据包括面部图像；

多维度评价模块20包括：

获取面部图像单元，用于按照预设时间间隔获取所述面部图像；

表情识别单元，用于通过预设表情识别模型处理所述面部图像，生成瞬时表情状态；

获取多个表情单元，用于获取第一时间段内的多个所述瞬时表情状态；

表情评价单元，用于通过预设表情评价方法处理多个所述瞬时表情状态，生成所述第一时间段的所述表情维度评价结果。

可选的，所述音像数据包括人物肢体图像；

多维度评价模块20包括：

获取肢体图像序列单元，用于按时序获取所述主播在预设时间区间的一组所述人物肢体图像，形成人物肢体图像序列；

姿态识别单元，用于通过预设姿态识别模型处理所述人物肢体图像序列，生成所述主播的姿态动作；

获取多个姿态单元，用于获取第二时间段内的多个所述姿态动作；

姿态评价单元，用于通过预设姿态评价方法处理多个所述姿态动作，生成所述第二时间段的所述姿态维度评价结果。

可选的，所述音像数据包括音频数据；

多维度评价模块20包括：

第一获取音频数据单元，用于获取所述主播在第三时间段内的音频数据；

流畅度评价单元，用于通过预设流畅度评价模型处理所述音频数据，生成所述主播在第三时间段内的语音流畅度评价结果。

可选的，所述音像数据包括音频数据；

多维度评价模块20包括：

第二获取音频数据单元，用于获取所述主播在第四时间段内的音频数据；

语音语调评价单元，用于通过预设语音语调评价模型处理所述音频数据，生成所述主播在第四时间段内的语音语调评价结果。

可选的，所述交互数据包括评论数据，所述音像数据包括主播音频数据；

多维度评价模块20包括：

获取交互数据单元，用于获取在预设互动时间内的主播音频数据和评论数据；

音频识别单元，用于通过预设语音识别模型处理所述主播音频数据，生成主播文本数据；

互动匹配单元，用于通过预设评价模型处理所述主播文本数据和所述评论数据，生成互动匹配度；

互动评价单元，用于根据所述互动匹配度更新所述互动维度评价结果。

可选的，直播辅助提示装置还包括：

匹配提示信息模块，用于获取与所述多维度评价结果匹配的提示信息，所述提示信息包括改进措施和/或评价语句；

展示提示信息模块，用于将所述提示信息发送至提示终端，以使所述主播通过所述提示终端获取所述提示信息。

关于直播辅助提示装置的具体限定可以参见上文中对于直播辅助提示方法的限定，在此不再赘述。上述直播辅助提示装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作***、计算机可读指令和数据库。该内存储器为可读存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储直播辅助提示方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种直播辅助提示方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

获取直播间的交互数据和主播的音像数据；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

获取直播间的交互数据和主播的音像数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种直播辅助提示方法，其特征在于，包括：

获取直播间的交互数据和主播的音像数据；

2.如权利要求1所述的直播辅助提示方法，其特征在于，所述音像数据包括面部图像

所述根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果，包括：

按照预设时间间隔获取所述面部图像；

通过预设表情识别模型处理所述面部图像，生成瞬时表情状态；

获取第一时间段内的多个所述瞬时表情状态；

通过预设表情评价方法处理多个所述瞬时表情状态，生成所述第一时间段的所述表情维度评价结果。

3.如权利要求1所述的直播辅助提示方法，其特征在于，所述音像数据包括人物肢体图像；

按时序获取所述主播在预设时间区间的一组所述人物肢体图像，形成人物肢体图像序列；

通过预设姿态识别模型处理所述人物肢体图像序列，生成所述主播的姿态动作；

获取第二时间段内的多个所述姿态动作；

通过预设姿态评价方法处理多个所述姿态动作，生成所述第二时间段的所述姿态维度评价结果。

4.如权利要求1所述的直播辅助提示方法，其特征在于，所述音像数据包括音频数据；

获取所述主播在第三时间段内的音频数据；

通过预设流畅度评价模型处理所述音频数据，生成所述主播在第三时间段内的语音流畅度评价结果。

5.如权利要求1所述的直播辅助提示方法，其特征在于，所述音像数据包括音频数据；

获取所述主播在第四时间段内的音频数据；

通过预设语音语调评价模型处理所述音频数据，生成所述主播在第四时间段内的语音语调评价结果。

6.如权利要求1所述的直播辅助提示方法，其特征在于，所述交互数据包括评论数据，所述音像数据包括主播音频数据；

获取在预设互动时间内的主播音频数据和评论数据；

通过预设语音识别模型处理所述主播音频数据，生成主播文本数据；

通过预设评价模型处理所述主播文本数据和所述评论数据，生成互动匹配度；

根据所述互动匹配度更新所述互动维度评价结果。

7.如权利要求1所述的直播辅助提示方法，其特征在于，所述根据所述交互数据和所述音像数据进行多维度评价，获得多维度评价结果之后，还包括：

获取与所述多维度评价结果匹配的提示信息，所述提示信息包括改进措施和/或评价语句；

将所述提示信息发送至提示终端，以使所述主播通过所述提示终端获取所述提示信息。

8.一种直播辅助提示装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述直播辅助提示方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述直播辅助提示方法。