CN112601120A

CN112601120A - 字幕显示方法及装置

Info

Publication number: CN112601120A
Application number: CN202011478260.1A
Authority: CN
Inventors: 姜悦悦; 宋杰; 高强; 王朋; 薛瑞东
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-02
Anticipated expiration: 2040-12-15
Also published as: CN112601120B

Abstract

公开了一种字幕显示方法及装置，所述字幕显示方法包括：获取视频中说话人的头部高度、头部宽度、头部中心点位置，然后通过视频中的说话人的头部中间点位置、头部高度和头部宽度确定说话人对应的字幕的显示位置，将字幕显示在确定的显示位置上。通过本申请，克服了字幕固定显示在屏幕下方的问题，有助于提高视频的画面感和明确字幕对应的说话人，提高用户观看视频的体验度。

Description

字幕显示方法及装置

技术领域

本公开涉及字幕技术领域，更具体地讲，涉及字幕显示方法及装置。

背景技术

字幕技术从无声电影发展而来，现在已经普遍应用于电影、电视剧、音乐剧、游戏等各种媒体类型中，并且国内的影视观众对字幕的偏好在不断上升。字幕可以帮助观众更好的理解对话，或者，帮助听障人士观看节目，在观看外文电影时，为了能听到原声对白和演员的声音，也会选择字幕翻译。目前的字幕在制作时根据台词提前完成，是非实时的字幕。

目前，谷歌的Live Caption可以将终端上播放的音视频实时转化为字幕，适用于播客、视频网站、语音信息、本地视频等场景；三星的S20手机也已支持该技术，在设置中打开live caption功能，即可在观看视频时同时显示实时字幕。

但是，目前的字幕一般是固定显示在屏幕下方的，这样会造成如下问题：

1)看视频时，用户长时间集中注意力在屏幕下方的字幕上，不利于观众观看节目情节，影响画面感。

2)字幕统一显示在屏幕下方，在视频音量较小或环境噪声大时，在多人同时说话的时候，用户无法正确辨别字幕对应的说话人，影响观影效果。

因此，针对相关技术中字幕固定显示在屏幕下方，影响视频的画面感和混淆字幕对应的说话人的问题，尚未有解决方案。

发明内容

本公开的一个方面在于提供一种字幕显示方法及装置，克服了字幕固定显示在屏幕下方的问题，有助于提高视频的画面感和明确字幕对应的说话人，提高用户观看视频的体验度。

在一个总的方面，提供一种字幕显示方法，字幕显示方法包括：获取视频中说话人的头部区域的信息，其中，头部区域的信息包括头部高度、头部宽度、头部中心点位置；根据头部中心点位置、头部高度和头部宽度，确定说话人对应的字幕的显示位置；将字幕显示在显示位置上。

可选地，根据头部中心点位置、头部高度和头部宽度，确定说话人对应的字幕的显示位置包括：根据头部中心点位置、头部高度和头部宽度，确定字幕的与头部区域相关的至少一个显示位置；根据字幕的显示条件从至少一个显示位置中确定说话人对应的字幕的显示位置。

可选地，上述至少一个显示位置包括位于头部区域上方的位置为第一显示位置、位于头部区域下方为第二显示位置、位于头部区域左方为第三显示位置、位于头部区域右方为第四显示位置中的至少一个。

可选地，根据字幕的显示条件从至少一个显示位置中确定说话人对应的字幕的显示位置包括：检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置不存在其他字幕或其他说话人头部的情况下，将第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置存在其他字幕或其他说话人头部的情况下，缩短第一显示位置的宽度直至第一显示位置不存在其他字幕或其他说话人头部，将缩短后的第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度小于字幕预设的显示高度的情况下，依次检测第二显示位置、第三显示位置、第四显示位置的高度以及是否其他存在字幕或其他说话人头部情况，直至确定说话人对应的字幕的显示位置。

可选地，将字幕显示在显示位置上包括：将字幕按视频的视频信息确定的特效显示在显示位置上。

可选地，视频信息包括说话人的头部姿势，将字幕按视频的视频信息确定的特效显示在显示位置上包括：检测说话人的头部姿势，其中，头部姿势包括头部上下翻转，头部左右翻转和头部平面旋转；根据头部上下翻转的角度、头部左右翻转的角度或头部平面旋转的角度，确定字幕的显示角度；将字幕按显示角度显示在显示位置上。

可选地，视频信息包括说话人的头部深度，将字幕按视频的视频信息确定的特效显示在显示位置上包括：获取说话人的头部深度；根据头部深度确定字幕的字体大小；将字幕按字体大小显示在显示位置上。

可选地，视频信息包括当前界面的界面颜色，将字幕视频的视频信息确定的特效显示在显示位置上包括：获取当前界面的界面颜色；根据界面颜色确定字幕的字体颜色；将字幕按字体颜色显示在显示位置上。

可选地，获取视频中说话人的头部中心点位置和头部区域信息包括：识别视频中的人脸信息；识别视频对应的音频中声纹并根据声纹在数据库中查询对应的第一人脸信息，其中，数据库存储有声纹与人脸信息的对应关系；根据第一人脸信息在人脸信息中匹配，获取视频中第一人脸的头部区域信息。

在另一总的方面，提供一种字幕显示装置，所述字幕显示装置包括：获取模块，用于获取视频中说话人的头部区域的信息，其中，头部区域的信息包括头部高度、头部宽度、头部中心点位置；确定模块，用于根据头部中心点位置、头部高度和头部宽度，确定说话人对应的字幕的显示位置；显示模块，用于将字幕显示在显示位置上。

可选地，所述确定模块，还用于根据头部中心点位置、头部高度和头部宽度，确定字幕的与头部区域相关的至少一个显示位置；根据字幕的显示条件从至少一个显示位置中确定说话人对应的字幕的显示位置。

可选地，所述确定模块，还用于检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置不存在其他字幕或其他说话人头部的情况下，将第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置存在其他字幕或其他说话人头部的情况下，缩短第一显示位置的宽度直至第一显示位置不存在其他字幕或其他说话人头部，将缩短后的第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度小于字幕预设的显示高度的情况下，依次检测第二显示位置、第三显示位置、第四显示位置的高度以及是否其他存在字幕或其他说话人头部情况，直至确定说话人对应的字幕的显示位置。

可选地，所述显示模块，还用于将字幕按视频的视频信息确定的特效显示在显示位置上。

可选地，视频信息包括说话人的头部姿势，所述显示模块，还用于检测说话人的头部姿势，其中，头部姿势包括头部上下翻转，头部左右翻转和头部平面旋转；根据头部上下翻转的角度、头部左右翻转的角度或头部平面旋转的角度，确定字幕的显示角度；将字幕按显示角度显示在显示位置上。

可选地，视频信息包括说话人的头部深度，所述显示模块，还用于获取说话人的头部深度；根据头部深度确定字幕的字体大小；将字幕按字体大小显示在显示位置上。

可选地，视频信息包括当前界面的界面颜色，所述显示模块，还用于获取当前界面的界面颜色；根据界面颜色确定字幕的字体颜色；将字幕按字体颜色显示在显示位置上。

可选地，获取模块，还用于识别视频中的人脸信息；识别视频对应的音频中声纹并根据声纹在数据库中查询对应的第一人脸信息，其中，数据库存储有声纹与人脸信息的对应关系；根据第一人脸信息在人脸信息中匹配，获取视频中第一人脸的头部区域信息。

在另一总的方面，提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时，实现如上所述的字幕显示方法。

在另一总的方面，提供一种电子终端，所述电子终端包括：处理器；和存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的字幕显示方法。

在根据本公开的示例性实施例的字幕显示方法及装置中，获取视频中说话人的头部高度、头部宽度、头部中心点位置，然后通过视频中的说话人的头部中间点位置、头部高度和头部宽度确定说话人对应的字幕的显示位置，将字幕显示在确定的显示位置上。通过本申请，可以根据视频中说话人的头部相关信息动态显示字幕，将字幕显示在说话人周围，实现了空间定位字幕显示位置，使得字幕的显示位置不再固定显示屏幕下方，从而克服了字幕固定显示在屏幕下方的问题，有助于提高视频的画面感和明确字幕对应的说话人，提高用户观看视频的体验度。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本公开的示例性实施例的字幕显示方法的示例的流程图；

图2是示出根据本公开的示例性实施例的字幕显示位置示意图；

图3是示出根据本公开的示例性实施例的字幕显示装置的配置的框图；

图4是示出根据本公开的示例性实施例的字幕显示方法的一个示例的组成单元示意图；

图5是示出根据本公开的示例性实施例的3D视频处理单元的示意图；

图6是示出根据本公开的示例性实施例的声音处理单元的示意图；

图7是示出根据本公开的示例性实施例的信息存储单元的示意图；

图8是示出根据本公开的示例性实施例的3D字幕显示单元的示意图；

图9是示出根据本公开的示例性实施例的字幕显示方法的一个示例的***流程示意图；

图10是示出根据本公开的示例性实施例的说话人检测流程示意图；

图11是示出根据本公开的示例性实施例的多人语音分离流程示意图；

图12是示出根据本公开的示例性实施例的3D说话人定位流程示意图；

图13是示出根据本公开的示例性实施例的字幕特效示意图；

图14是示出根据本公开的示例性实施例的字幕动态定位流程示意图；

图15是示出根据本公开的示例性实施例的3D动态实时字幕在3D电影中的示意图一；

图16是示出根据本公开的示例性实施例的3D动态实时字幕在3D电影中的示意图二；

图17是示出根据本公开的示例性实施例的2D动态实时字幕在直播节目中示意图；

图18是示出根据本公开的示例性实施例的3D动态实时字幕在直播节目中示意图。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或***的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出实现在此描述的方法、设备和/或***的许多可行方式中的一些可行方式，所述许多可行方式在理解本申请的公开之后将是清楚的。

如在此使用的，术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。

尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在说明书中，当元件(诸如，层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时，该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件，或者可存在介于其间的一个或多个其他元件。相反，当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时，可不存在介于其间的其他元件。

在此使用的术语仅用于描述各种示例，并不将用于限制公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另有定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义，否则术语(诸如，在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且不应被理想化或过于形式化地解释。

此外，在示例的描述中，当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时，将省略这样的详细描述。

在下文中，将参照附图详细描述实施例。然而，实施例可以以各种形式实现，并且不限于在此描述的示例。

图1是示出根据本公开的示例性实施例的字幕显示方法的示例的流程图。

参照图1所示的字幕显示方法，在步骤S101中，获取视频中说话人的头部区域的信息，其中，头部区域的信息包括头部高度、头部宽度、头部中心点位置。具体地，在视频中，对说话人进行三维空间定位，其中，对说话人三维空间定位可以是对说话人头部进行三维空间定位，获取说话人头部中心点位置，也即三维空间坐标(x,y,z)：

·x：表示说话人在屏幕的左右位置，

·y：表示说话人在屏幕的上下位置，

·z：表示说话人在屏幕的前后位置。

可选地，上述获取视频中说话人的头部中心点位置和头部区域信息包括：识别视频中的人脸信息；识别视频对应的音频中声纹并根据声纹在数据库中查询对应的第一人脸信息，其中，数据库存储有声纹与人脸信息的对应关系；根据第一人脸信息在人脸信息中匹配，获取视频中第一人脸的头部区域信息。通过本实施例，可以根据视频对应的音频中的声纹与人脸的匹配关系，确定视频中说话人的位置。

参照图1所示的字幕显示方法，在步骤S102中，根据头部中心点位置、头部高度和头部宽度，确定说话人对应的字幕的显示位置。具体地，在屏幕范围内，以说话人的头部中心点位置为原点，根据说话人头部大小按比例设置字幕显示区域，如，以头部中心点位置为原点，头部高度的2倍大小，头部宽度2倍的大小组成四方形区域作为字幕显示区域，具体参见图2，在确定字幕显示区域后，按头部上面区域、头部下面区域、头部左面区域、头部右面区域依次检测各部分的宽度是否合适以及各部分是否有其他字幕或者其他说话人头部，根据检测结果从上面四个区域确定合适的字幕显示位置。

可选地，根据头部中心点位置、头部高度和头部宽度，确定说话人对应的字幕的显示位置包括：根据头部中心点位置、头部高度和头部宽度，确定字幕的与头部区域相关的至少一个显示位置；根据字幕的显示条件从至少一个显示位置中确定说话人对应的字幕的显示位置。上述至少一个显示位置包括但不限于：位于头部区域上方的位置为第一显示位置、位于头部区域下方为第二显示位置、位于头部区域左方为第三显示位置、位于头部区域右方为第四显示位置中的至少一个。通过本实施例，使得字幕显示位置从头部周围区域选取，实现字幕显示在说话人的周围，不再固定显示在屏幕下方。

可选地，根据字幕的显示条件从至少一个显示位置中确定说话人对应的字幕的显示位置包括：检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置不存在其他字幕或其他说话人头部的情况下，将第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置存在其他字幕或其他说话人头部的情况下，缩短第一显示位置的宽度直至第一显示位置不存在其他字幕或其他说话人头部，将缩短后的第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度小于字幕预设的显示高度的情况下，依次检测第二显示位置、第三显示位置、第四显示位置的高度以及是否其他存在字幕或其他说话人头部情况，直至确定说话人对应的字幕的显示位置。通过本实施例，依次检测头部区域上-下-左-右区域，确定字幕的显示位置，避免了确定的显示位置宽度不够的问题，也避免了与其他字幕或人头重叠的问题。

参照图1所示的字幕显示方法，在步骤S103中，步骤S103，将字幕显示在显示位置上。具体地，三维字幕处理的字体特效包括但不限于：三维旋转，深度、大小、颜色等设置，将字幕按最终确定的特效显示在对应位置上，具体特效内容可以包括如下：

·Pitch：字体随说话人头部上下翻转角度旋转，往上为正，往下为负，

·Yaw：字体随说话人头部左右翻转角度旋转，往右为正，往左为负，

·Roll：字体随说话人头部平面旋转角度旋转，向右旋转为正，向左旋转为负，

·Depth：字***置的深度信息，由说话人的z轴坐标确定，

·Size：字体大小随说话人的深度信息变化，远则小，近则大，

·Color：字体颜色设置为视频画面颜色的反色。

可选地，视频信息包括说话人的头部姿势，将字幕按视频的视频信息确定的特效显示在显示位置上包括：检测说话人的头部姿势，其中，头部姿势包括头部上下翻转，头部左右翻转和头部平面旋转；根据头部上下翻转的角度、头部左右翻转的角度或头部平面旋转的角度，确定字幕的显示角度；将字幕按显示角度显示在显示位置上。通过本实施例，使得可以根据头部的移动控制字幕显示字体的大小。

可选地，视频信息包括说话人的头部深度，将字幕按视频的视频信息确定的特效显示在显示位置上包括：获取说话人的头部深度；根据头部深度确定字幕的字体大小；将字幕按字体大小显示在显示位置上。通过本实施例，使得可以根据头部深度控制字幕显示字体的大小。

可选地，视频信息包括当前界面的界面颜色，将字幕视频的视频信息确定的特效显示在显示位置上包括：获取当前界面的界面颜色；根据界面颜色确定字幕的字体颜色；将字幕按字体颜色显示在显示位置上。通过本实施例，使得可以根据界面颜色控制字幕显示字体的颜色。

如上所述，针对现有字幕一直显示在屏幕下方，影响观看的画面感和沉浸感问题，本公开的示例性实施例的字幕显示方法中，提出三维字幕技术，可以自动检测说话人，并根据说话人的头部位置动态调整字幕位置以及根据说话人的头部尺寸设置字幕的显示宽度，使字幕显示在说话人周围并避免相互遮盖字幕或者人脸信息。此外，本公开的示例性实施例的字幕显示方法，字幕可以根据说话人的头部姿势进行三维旋转，以及根据头部深度和界面颜色调整字体的大小和颜色。

图3是示出根据本公开的示例性实施例的字幕显示装置的配置的框图。如图3所示的字幕显示装置可实现在各种电子终端中。各种电子终端包括，但不限于，移动电话、智能装置、平板装置、电视、可穿戴装置(诸如，智能手表)等。

参照图3，根据本公开的示例性实施例的字幕显示装置300包括获取模块310、确定模块320和显示模块330。这里，字幕显示装置300可以实现在电子终端中的中央处理器(CPU)、图形处理器(GPU)或应用处理器(AP)中，但不限于此。

获取模块310用于获取视频中说话人的头部区域的信息，其中，头部区域的信息包括头部高度、头部宽度、头部中心点位置。具体地，在视频中，对说话人进行三维空间定位，其中，对说话人三维空间定位可以是对说话人头部进行三维空间定位，获取说话人头部中心点位置，也即三维空间坐标(x,y,z)：

·x：表示说话人在屏幕的左右位置，

·y：表示说话人在屏幕的上下位置，

·z：表示说话人在屏幕的前后位置。

可选地，上述获取单元310，还用于识别视频中的人脸信息；识别视频对应的音频中声纹并根据声纹在数据库中查询对应的第一人脸信息，其中，数据库存储有声纹与人脸信息的对应关系；根据第一人脸信息在人脸信息中匹配，获取视频中第一人脸的头部区域信息。通过本实施例，可以根据视频对应的音频中的声纹与人脸的匹配关系，确定视频中说话人的位置。

确定模块320，用于根据头部中心点位置、头部高度和头部宽度，确定说话人对应的字幕的显示位置。具体地，在屏幕范围内，以说话人的头部中心点位置为原点，根据说话人头部大小按比例设置字幕显示区域，如，以头部中心点位置为原点，头部高度的2倍大小，头部宽度2倍的大小组成四方形区域作为字幕显示区域，具体参见图2，如图2所示，在确定字幕显示区域后，按头部上面区域、头部下面区域、头部左面区域、头部右面区域依次检测各部分的宽度是否合适以及各部分是否有其他字幕或者其他说话人头部，根据检测结果从上面四个区域确定合适的字幕显示位置。

可选地，上述确定模块320，还用于根据头部中心点位置、头部高度和头部宽度，确定字幕的与头部区域相关的至少一个显示位置；根据字幕的显示条件从至少一个显示位置中确定说话人对应的字幕的显示位置。上述至少一个显示位置包括但不限于：位于头部区域上方的位置为第一显示位置、位于头部区域下方为第二显示位置、位于头部区域左方为第三显示位置、位于头部区域右方为第四显示位置中的至少一个。通过本实施例，使得字幕显示位置从头部周围区域选取，实现字幕显示在说话人的周围，不再固定显示在屏幕下方。

可选地，上述确定模块320，还用于检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置不存在其他字幕或其他说话人头部的情况下，将第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度大于等于字幕预设的显示高度且第一显示位置存在其他字幕或其他说话人头部的情况下，缩短第一显示位置的宽度直至第一显示位置不存在其他字幕或其他说话人头部，将缩短后的第一显示位置确定为说话人对应的字幕的显示位置；检测第一显示位置的高度小于字幕预设的显示高度的情况下，依次检测第二显示位置、第三显示位置、第四显示位置的高度以及是否其他存在字幕或其他说话人头部情况，直至确定说话人对应的字幕的显示位置。通过本实施例，依次检测头部区域上-下-左-右区域，确定字幕的显示位置，避免了确定的显示位置宽度不够的问题，也避免了与其他字幕或人头重叠的问题。

显示模块330，还用于将字幕显示在显示位置上。具体地，三维字幕处理的字体特效包括但不限于：三维旋转，深度、大小、颜色等设置，将字幕按最终确定的特效显示在对应位置上，具体特效内容可以包括如下：

·Depth：字***置的深度信息，由说话人的z轴坐标确定，

·Color：字体颜色设置为视频画面颜色的反色。

可选地，上述显示模块330，还用于将字幕按视频的视频信息确定的特效显示在显示位置上。

可选地，上述显示模块330，还用于检测说话人的头部姿势，其中，头部姿势包括头部上下翻转，头部左右翻转和头部平面旋转；根据头部上下翻转的角度、头部左右翻转的角度或头部平面旋转的角度，确定字幕的显示角度；将字幕按显示角度显示在显示位置上。通过本实施例，使得可以根据头部的移动控制字幕显示字体的大小。

可选地，上述显示模块330，还用于获取说话人的头部深度；根据头部深度确定字幕的字体大小；将字幕按字体大小显示在显示位置上。通过本实施例，使得可以根据头部深度控制字幕显示字体的大小。

可选地，上述显示模块330，还用于获取当前界面的界面颜色；根据界面颜色确定字幕的字体颜色；将字幕按字体颜色显示在显示位置上。通过本实施例，使得可以根据界面颜色控制字幕显示字体的颜色。

如上所述，针对现有字幕一直显示在屏幕下方，影响观看的画面感和沉浸感问题，本公开的示例性实施例的字幕显示装置中，提出三维字幕技术，可以自动检测说话人，并根据说话人的头部位置动态调整字幕位置以及根据说话人的头部尺寸设置字幕的显示宽度，使字幕显示在说话人周围并避免相互遮盖字幕或者人脸信息。此外，本公开的示例性实施例的字幕显示装置，字幕可以根据说话人的头部姿势进行三维旋转，以及根据头部深度和界面颜色调整字体的大小和颜色。

下面以具体实施例详细说明上述字幕显示方法及装置。

本公开提出了一种三维空间3D实时字幕技术，组成单元如图4所示，包含3D视频处理单元，声音处理单元，信息存储单元，3D字幕显示单元。各功能单元详细设计如下：

一、3D视频处理单元

本单元主要用于检测3D视频中的说话人，对多个说话人进行语音分离，并实现说话人的动态实时定位。如图5所示，主要包括以下模块：

1)说话人检测模块

说话人检测模块主要是利用人脸检测、人脸识别和图像分类等技术实现说话人的实时检测

2)说话人动态定位模块

说话人动态定位模块主要是对说话人进行三维空间定位(x,y,z),获取说话人的横向、纵向、深度的位置信息，并对说话人的头部姿势进行估计，抬头/低头，左转头/右转头，左偏头/右偏头。

二、声音处理单元

本单元主要用于对视频中声音进行处理，对多个说话人进行语音分离，并将语音实时转换为文字信息。如图6所示，主要包括以下模块：

1)多人语音分离模块

多人语音分离模块是针对视频中多人同时说话的场景，将语音进行分离，分别得到每个人的语音信息。

2)实时语音识别模块

语音识别模块是对语音转换为文字信息，以用于字幕的显示。

三、信息存储单元

本单元主要用于存储人脸-声音字典，将不同的说话人及其声音信息进行存储，以便于快速的进行说话人和声音信息的匹配，并将语音转换为文字信息，如图7所示。

四、3D字幕显示单元

本单元主要用于3D字幕的显示，根据视频处理单元和声音处理单元获取说话人的位置和字幕信息，使字幕实时的显示在说话人周围。如图8所示，主要包括以下模块：

1)3D字幕处理模块

3D字幕处理模块主要是对字幕的字体进行3D特效处理，字体可以根据说话人的头部姿势上下、左右、前后进行三维旋转，字体大小可以根据说话人离屏幕的远近进行变化，字体颜色可以根据屏幕的颜色进行反色，使字幕的显示更清晰生动。

2)字幕定位模块

字幕定位模块主要是对字幕的显示位置和显示宽度进行动态调整。字幕的显示位置根据说话人的头部位置来决定，实时的显示在说话人周围，从头部的上边->下边->左边->右边依次进行扫描。字幕的显示设置最小宽度和最小行高，初始值根据说话人的头部尺寸按比例设置，如果有其他字幕或者人脸，缩短显示宽度以避免遮盖重要信息，如果宽度或者高度小于阈值，重新定位并检测，直至找到显示位置，使字幕在设定宽度内居中显示，超长的字幕以滚动形式显示。

本公开提出的一种三维空间3D实时字幕技术，***技术流程如图9所示，本公开的4个***技术流程如下：

一、说话人检测

该技术功能是实现对视频中的说话人进行实时检测，主要采用人脸检测、人脸识别、图像分类等技术。如图10所示：

(1)人脸检测

采用人脸识别技术检测视频帧中出现的人脸。

(2)比较人脸

将(1)中检测出的人脸与人脸数据库中人脸进行比较，如果是新的人脸就***到人脸数据集，并为其分配变量名，否则输出其变量名。

(3)判断是否说话

从音频中提取声音的MFCCs特征，结合人脸信息，判断此人是否说话，并且输出结果。

二、多人语音分离

该技术功能是实现多人说话语音分离和语音转换技术。如图11所示：

(1)语音分离

输入语音信息，根据其波形特征、深度网络特征和注意力混合特征，将一个包含多个不同说话者的语音信息分解为不同说话者单独的语音信息。

(2)提取声纹

对(2)中提取的语音进行声纹的提取，并且与声音数据库进行比对，得到说话者的身份信息以及人脸信息。

(3)语音识别

将(1)中提取的语音转化为文字，并根据(2)中得到的说话者的人脸和身份信息，定位说话者在视频帧中的位置，并且输出字幕内容。

三、3D说话人定位

该技术功能是实现说话人的3D空间定位和头部姿势估计，如图12所示：

(1)说话人3D空间定位

在3D视频中，说话人3D空间定位主要是对说话人头部进行3D定位，获取说话人头部中心点3D坐标(x,y,z)：

·x：表示说话人在屏幕的左右位置

·y：表示说话人在屏幕的上下位置

·z：表示说话人在屏幕的前后位置

(2)说话人头部姿势估计

在3D视频中，说话人的头部姿势估计是获取说话人的头部的三种角度(pitch，yaw,roll)，其分别表示为：

·pitch：头部上下翻转角度，抬头为正，低头为负

·yaw：头部左右翻转角度，右转为正，左转为负

·roll：头部平面旋转角度，向右旋转为正，向左旋转为负

四、3D字幕显示

该技术功能是3D字幕的字体特效处理和定位显示。

(1)3D字幕处理

如图13所示，3D字幕处理的字体特效包括三维旋转，深度、大小、颜色等设置，具体内容如下：

·Pitch：字体随说话人头部上下翻转角度旋转，往上为正，往下为负

·Yaw：字体随说话人头部左右翻转角度旋转，往右为正，往左为负

·Roll：字体随说话人头部平面旋转角度旋转，向右旋转为正，向左旋转为负

·Depth：字***置的深度信息，由说话人的z轴坐标确定

·Size：字体大小随说话人的深度信息变化，远则小，近则大

·Color：字体颜色设置为视频画面颜色的反色

(2)3D字幕动态定位

如图2所示，3D字幕动态定位技术主要是通过字幕显示位置和显示宽度的动态调整，实现字幕显示在说话人周围，并避免相互遮盖字幕或者人脸信息。

如图14所示，3D字幕的动态定位技术主要包括以下内容：

·根据说话者人数确定字幕个数

·字幕显示在说话人头部周围，随头部中心点位置动态移动

·字幕的可用区域根据说话人头部尺寸按比例设置，设定最大宽度和最小宽度阈值

·字幕的位置按照可用区域内头部往上->头部往下->头部往左->头部往右的顺序依次检测

·检测字幕显示位置，是否有其他字幕或者人脸，如果有则缩短字幕显示宽度。

·如果字幕在当前位置的显示宽度<最小宽度或者字幕行高>可用区域高度，在可用区域内(头部往上->头部往下->头部往左->头部往右)重新检测字幕显示位置。

·确定显示位置后，字幕在一行内居中显示，超长内容以滚动形式显示。

需要说明的是，上述实施例可以但不限应用于3D电影或者直播节目中，部署于手机、电视、平台、影院等电子设备上，提升用户的观感。

1)3D电影

在3D电影中，通过实时定位说话人并动态显示3D字幕，提高观众的画面感和沉浸感。字幕根据说话人头部姿势进行3D旋转，并根据说话人的头部位置动态调整字幕位置，根据说话人的头部尺寸设置字幕的显示宽度，避免遮盖其他字幕或者人脸等重要信息。如图15-16所示。

2)直播节目

在直播节目中，利用本专利的动态实时字幕技术，可以在多人场景中进行语音分离，获取每一位说话者的语音，将其转换为字幕并动态显示在说话人周围，帮助观众快速确定说话人，不影响节目的观看。本公开不限于3D直播节目，在2D直播节目中，可以采用2D字幕，结合说话人检测和动态定位技术，实现2D字幕的动态实时显示。如图17-18所示。

综上，本公开提供了基于说话人脸分类的实时说话人检测、基于人脸-语音字典的多人语音分离、说话人位置检测的3D坐标(x,y,z)和说话人头部姿势估计(pitch,yaw,roll)。本公开提出了一种3D动态实时字幕技术，该字幕的字体可以根据说话人信息动态调整，包括：尺寸、颜色等；该字幕的字体还可以根据说话人的头部姿势进行三维旋转等；该3D字幕的显示位置根据说话人的位置动态移动，显示在说话人头部周围；该3D字幕的动态定位技术可以避免遮挡视频的重要信息，如其他字幕或者人脸等。此外，针对现有的直播视频中多人同时说话时无法分辨语音的问题，提出说话人识别和语音分离技术，实时的将语音转换为文字，以字幕形式显示在对应的说话人位置。

应该理解，根据本公开的示例性实施例的共享屏幕处理装置中的各个单元/模块可被实现为硬件组件和/或软件组件。本领域技术人员根据限定的各个单元/模块所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元/模块。

根据本公开的示例性实施例的共享屏幕处理方法可被编写为计算机程序、代码段、指令或它们的任何组合，并被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。所述非暂时性计算机可读存储介质是可存储由计算机***读出的数据的任意数据存储装置。计算机可读存储介质的示例包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。

根据本公开的示例性实施例的电子终端包括：处理器(未示出)和存储器(未示出)，其中，存储器存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述的示例性实施例的共享屏幕处理方法。

虽然已表示和描述了本公开的一些示例性实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下，可以对这些实施例进行修改。

Claims

1.一种字幕显示方法，其特征在于，所述字幕显示方法包括：

获取视频中说话人的头部区域的信息，其中，所述头部区域的信息包括头部高度、头部宽度、头部中心点位置；

根据所述头部中心点位置、所述头部高度和所述头部宽度，确定所述说话人对应的字幕的显示位置；

将所述字幕显示在所述显示位置上。

2.如权利要求1所述的字幕显示方法，其特征在于，所述根据所述头部中心点位置、所述头部高度和所述头部宽度，确定所述说话人对应的字幕的显示位置包括：

根据所述头部中心点位置、所述头部高度和所述头部宽度，确定所述字幕的与所述头部区域相关的至少一个显示位置；

根据所述字幕的显示条件从所述至少一个显示位置中确定所述说话人对应的字幕的显示位置。

3.如权利要求2所述的字幕显示方法，其特征在于，所述至少一个显示位置包括位于所述头部区域上方的位置为第一显示位置、位于所述头部区域下方为第二显示位置、位于所述头部区域左方为第三显示位置、位于所述头部区域右方为第四显示位置中的至少一个。

4.如权利要求3所述的字幕显示方法，其特征在于，根据所述字幕的显示条件从所述至少一个显示位置中确定所述说话人对应的字幕的显示位置包括：

检测所述第一显示位置的高度大于等于所述字幕预设的显示高度且所述第一显示位置不存在其他字幕或其他说话人头部的情况下，将所述第一显示位置确定为所述说话人对应的字幕的显示位置；

检测所述第一显示位置的高度大于等于所述字幕预设的显示高度且所述第一显示位置存在其他字幕或其他说话人头部的情况下，缩短所述第一显示位置的宽度直至第一显示位置不存在其他字幕或其他说话人头部，将缩短后的第一显示位置确定为所述说话人对应的字幕的显示位置；

检测所述第一显示位置的高度小于所述字幕预设的显示高度的情况下，依次检测所述第二显示位置、第三显示位置、第四显示位置的高度以及是否其他存在字幕或其他说话人头部情况，直至确定所述说话人对应的字幕的显示位置。

5.如权利要求1所述的字幕显示方法，其特征在于，所述将所述字幕显示在所述显示位置上包括：

将所述字幕按所述视频的视频信息确定的特效显示在所述显示位置上。

6.如权利要求5所述的字幕显示方法，其特征在于，所述视频信息包括所述说话人的头部姿势，所述将所述字幕按所述视频的视频信息确定的特效显示在所述显示位置上包括：

检测所述说话人的头部姿势，其中，所述头部姿势包括头部上下翻转，头部左右翻转和头部平面旋转；

根据所述头部上下翻转的角度、头部左右翻转的角度或头部平面旋转的角度，确定所述字幕的显示角度；

将所述字幕按所述显示角度显示在所述显示位置上。

7.如权利要求5所述的字幕显示方法，其特征在于，所述视频信息包括所述说话人的头部深度，所述将所述字幕按所述视频的视频信息确定的特效显示在所述显示位置上包括：

获取所述说话人的头部深度；

根据所述头部深度确定所述字幕的字体大小；

将所述字幕按所述字体大小显示在所述显示位置上。

8.如权利要求5所述的字幕显示方法，其特征在于，所述视频信息包括当前界面的界面颜色，所述将所述字幕所述视频的视频信息确定的特效显示在所述显示位置上包括：

获取所述当前界面的界面颜色；

根据所述界面颜色确定所述字幕的字体颜色；

将所述字幕按所述字体颜色显示在所述显示位置上。

9.如权利要求1所述的字幕显示方法，其特征在于，所述获取视频中说话人的头部中心点位置和头部区域信息包括：

识别所述视频中的人脸信息；

识别所述视频对应的音频中声纹并根据所述声纹在数据库中查询对应的第一人脸信息，其中，所述数据库存储有声纹与人脸信息的对应关系；

根据所述第一人脸信息在所述人脸信息中匹配，获取所述视频中第一人脸的头部区域信息。

10.一种字幕显示装置，其特征在于，所述字幕显示装置包括：

获取模块，用于获取视频中说话人的头部区域的信息，其中，所述头部区域的信息包括头部高度、头部宽度、头部中心点位置；

确定模块，用于根据所述头部中心点位置、所述头部高度和所述头部宽度，确定所述说话人对应的字幕的显示位置；

显示模块，用于将所述字幕显示在所述显示位置上。

11.如权利要求10所述的字幕显示装置，其特征在于，所述确定模块，还用于根据所述头部中心点位置、所述头部高度和所述头部宽度，确定所述字幕的与所述头部区域相关的至少一个显示位置；根据所述字幕的显示条件从所述至少一个显示位置中确定所述说话人对应的字幕的显示位置。

12.如权利要求11所述的字幕显示装置，其特征在于，所述至少一个显示位置包括位于所述头部区域上方的位置为第一显示位置、位于所述头部区域下方为第二显示位置、位于所述头部区域左方为第三显示位置、位于所述头部区域右方为第四显示位置中的至少一个。

13.如权利要求12所述的字幕显示装置，其特征在于，所述确定模块，还用于检测所述第一显示位置的高度大于等于所述字幕预设的显示高度且所述第一显示位置不存在其他字幕或其他说话人头部的情况下，将所述第一显示位置确定为所述说话人对应的字幕的显示位置；检测所述第一显示位置的高度大于等于所述字幕预设的显示高度且所述第一显示位置存在其他字幕或其他说话人头部的情况下，缩短所述第一显示位置的宽度直至第一显示位置不存在其他字幕或其他说话人头部，将缩短后的第一显示位置确定为所述说话人对应的字幕的显示位置；检测所述第一显示位置的高度小于所述字幕预设的显示高度的情况下，依次检测所述第二显示位置、第三显示位置、第四显示位置的高度以及是否其他存在字幕或其他说话人头部情况，直至确定所述说话人对应的字幕的显示位置。

14.如权利要求10所述的字幕显示装置，其特征在于，所述显示模块，还用于将所述字幕按所述视频的视频信息确定的特效显示在所述显示位置上。

15.如权利要求14所述的字幕显示装置，其特征在于，所述视频信息包括所述说话人的头部姿势，所述显示模块，还用于检测所述说话人的头部姿势，其中，所述头部姿势包括头部上下翻转，头部左右翻转和头部平面旋转；根据所述头部上下翻转的角度、头部左右翻转的角度或头部平面旋转的角度，确定所述字幕的显示角度；将所述字幕按所述显示角度显示在所述显示位置上。

16.如权利要求14所述的字幕显示装置，其特征在于，所述视频信息包括所述说话人的头部深度，所述显示模块，还用于获取所述说话人的头部深度；根据所述头部深度确定所述字幕的字体大小；将所述字幕按所述字体大小显示在所述显示位置上。

17.如权利要求14所述的字幕显示装置，其特征在于，所述视频信息包括当前界面的界面颜色，所述显示模块，还用于获取所述当前界面的界面颜色；根据所述界面颜色确定所述字幕的字体颜色；将所述字幕按所述字体颜色显示在所述显示位置上。

18.如权利要求1所述的字幕显示装置，其特征在于，所述获取模块，还用于识别所述视频中的人脸信息；识别所述视频对应的音频中声纹并根据所述声纹在数据库中查询对应的第一人脸信息，其中，所述数据库存储有声纹与人脸信息的对应关系；根据所述第一人脸信息在所述人脸信息中匹配，获取所述视频中第一人脸的头部区域信息。

19.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至9中的任一权利要求所述的字幕显示方法。

20.一种包括至少一个计算装置和至少一个存储指令的存储装置的***，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至9中的任一权利要求所述的字幕显示方法。