CN116561294A - 手语视频的生成方法、装置、计算机设备及存储介质 - Google Patents

手语视频的生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116561294A
CN116561294A CN202210114157.1A CN202210114157A CN116561294A CN 116561294 A CN116561294 A CN 116561294A CN 202210114157 A CN202210114157 A CN 202210114157A CN 116561294 A CN116561294 A CN 116561294A
Authority
CN
China
Prior art keywords
text
sign language
listener
video
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210114157.1A
Other languages
English (en)
Inventor
王矩
郎勇
孟凡博
申彤彤
何蔷
余健
王宁
黎健祥
彭云
张旭
姜伟
张培
曹赫
王砚峰
覃艳霞
刘金锁
刘恺
张晶晶
段文君
毕晶荣
朱立人
赵亮
王奕翔
方美亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210114157.1A priority Critical patent/CN116561294A/zh
Priority to PCT/CN2022/130862 priority patent/WO2023142590A1/zh
Priority to US18/208,765 priority patent/US20230326369A1/en
Publication of CN116561294A publication Critical patent/CN116561294A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • H04N21/42653Internal components of the client ; Characteristics thereof for processing graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Educational Administration (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Architecture (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种手语视频的生成方法、装置、计算机设备及存储介质,属于人工智能领域。该方案包括:获取听人文本,听人文本为符合健听人士语法结构的文本;对听人文本进行摘要提取,得到摘要文本,摘要文本的文本长度短于听人文本的文本长度;将摘要文本转换为手语文本,手语文本为符合听障人士语法结构的文本;基于手语文本生成手语视频,手语视频与听人文本对应的音频保持同步。采用本申请实施例提供的方案能够提高手语视频的可懂度,且实现成本低,能够适用大量应用场景。

Description

手语视频的生成方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及人工智能领域,特别涉及一种手语视频的生成方法、装置、计算机设备及存储介质。
背景技术
观看视频时,在没有字幕的情况下,听障人士常常无法正常进行观看,因此需要将视频对应的音频内容翻译成相应的手语视频,并与视频同步播放。
相关技术中,需要提前获取音频内容对应的文本,手语老师人工将文本翻译为手语,进而生成手语视频,然后添加到视频中播放。
但是由于手语老师的数量有限,实现的人力成本较高,因此无法大规模应用到各种应用场景中。
发明内容
本申请实施例提供了一种手语视频的生成方法、装置、计算机设备及存储介质,能够提高手语视频的可懂度,且实现成本低,能够适用大量应用场景,所述技术方案如下:
一方面,本申请实施例提供了一种手语视频的生成方法,该方法包括:
获取听人文本,所述听人文本为符合健听人士语法结构的文本;
对所述听人文本进行摘要提取,得到摘要文本,所述摘要文本的文本长度短于所述听人文本的文本长度;
将所述摘要文本转换为手语文本,所述手语文本为符合听障人士语法结构的文本;
基于所述手语文本生成所述手语视频,所述手语视频与所述听人文本对应的音频保持同步。
另一方面,本申请实施例提供了一种手语视频的生成装置,该装置包括:
获取模块,用于获取听人文本,所述听人文本为符合健听人士语法结构的文本;
提取模块,用于对所述听人文本进行摘要提取,得到摘要文本,所述摘要文本的文本长度短于所述听人文本的文本长度;
转换模块,用于将所述摘要文本转换为手语文本,所述手语文本为符合听障人士语法结构的文本;
生成模块,用于基于所述手语文本生成所述手语视频,所述手语视频与所述听人文本对应的音频保持同步。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的手语视频的生成方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的手语视频的生成方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的手语视频的生成方法。
本申请提供的技术方案可以包括以下有益效果:
在本申请实施例中,对听人文本进行文本摘要提取,得到摘要文本,进而缩短听人文本的文本长度,使得最后生成的手语视频与听人文本对应的音频保持同步。另外将摘要文本转换成符合听障人士语法结构的手语文本,基于手语文本生成手语视频,提高了手语视频对听障人士的可懂度,且基于手语文本自动生成手语视频,无需人工打手语,实现成本低,且能够适用于大量应用场景,例如视频直播场景、离线视频播放场景等。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1示出了本申请一个示例性实施例提供的实施环境的示意图;
图2示出了本申请一个示例性实施例提供的手语视频的生成方法的流程图;
图3示出了本申请一个示例性实施例提供的手语视频与其对应音频不同步的原理示意图;
图4示出了本申请另一个示例性实施例提供的手语视频的生成方法的流程图;
图5示出了本申请一个示例性实施例提供的语音识别过程的流程图;
图6示出了本申请一个示例性实施例提供的编码器-解码器的框架结构图;
图7示出了本申请一个示例性实施例提供的翻译模型训练过程的流程图;
图8示出了本申请一个示例性实施例提供的虚拟对象建立的流程图;
图9示出了本申请一个示例性实施例提供的摘要文本生成方法的流程图;
图10示出了本申请一个示例性实施例提供的动态路径规划算法的原理图;
图11示出了本申请一个示例性实施例提供的摘要文本生成方法的过程示意图;
图12示出了本申请一个示例性实施例提供的手语视频的生成方法的流程图;
图13示出了本申请一个示例性实施例提供的手语视频的生成装置的结构方框图;
图14示出了本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的传感器及制备方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面对本申请实施例中涉及的名称进行介绍:
手语:听障人士使用的语言,由手势、肢体动作以及面部表情等信息组成。按照语序的不同,手语可以分为自然手语和手势手语两种,其中自然手语为听障人士使用的语言,而手势手语为健听人士使用的语言。可以通过语序的不同来区分自然手语和手势手语,例如“猫/老鼠/捉”为自然手语,“猫/捉/老鼠”为手势手语,其中,“/”用于分隔每个词组。
听人文本:符合健听人士语法结构的文本,也就是符合汉语普通话语言习惯、语法结构的文本。
手语文本:符合听障人士阅读习惯、语法结构的文本。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在本申请实施例中,将人工智能应用到手语解说领域,能够基于听人文本自动生成手语视频,并解决手语视频与对应的音频不同步的问题。
日常生活中,听障人士在观看新闻联播、球赛转播等视频节目时,由于没有对应的字幕,因此无法正常进行观看。或者在收听音频类的节目时,例如广播,由于没有音频对应的字幕,听障人士也无法正常收听。相关技术中,通常提前获取音频内容,并根据音频内容预先录制手语视频,进而与视频或者音频进行合成之后播放,从而使得听障人士可以通过手语视频了解对应的音频内容。
但是,由于手语是由手势组成的语言,表达内容相同时,手语视频的时长大于音频时长,从而导致生成的手语视频的时间轴与音频时间轴不对齐,特别对于视频而言,容易导致手语视频与对应的音频不同步的问题,影响听障人士对音频内容的理解。对于视频而言,由于音频内容和视频内容是一致的,因此也可能造成手语表达的内容和视频画面存在差异。在本申请实施例中,通过获取视频对应的听人文本及时间戳,对听人文本进行摘要提取,得到摘要文本,从而缩短听人文本的文本长度,使得基于摘要文本生成的手语视频的时间轴与听人文本对应音频的音频时间轴对齐,进而解决手语视频与对应音频不同步的问题。
本申请实施例提供的手语视频的生成方法可以应用到多种场景,为听障人士的生活提供便利。
在一种可能的应用场景下,本申请实施例提供的手语视频的生成方法可以应用于实时手语场景。可选地,实时手语场景可以是赛事直播、新闻直播、会议直播等,采用本申请实施例提供的方法可以为直播内容配上手语视频。以新闻直播场景为例,将新闻直播对应的音频转换成听人文本,对听人文本进行压缩处理得到摘要文本,基于摘要文本生成手语视频,从而与新闻直播视频进行合成实时推送给用户。
在另一种可能的应用场景下,本申请实施例提供的手语视频的生成方法可以应用于离线手语场景,离线手语场景下存在离线文本。可选地,离线手语场景可以是文字资料的阅读场景,可以直接将文本内容转换成手语视频进行播放。
请参考图1,其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境可以包括终端110和服务器120。
终端110安装和运行可以观看手语视频的客户端,该客户端可以是应用程序或者网页客户端。以该客户端是应用程序为例,该应用程序可以是视频播放程序、音频播放程序等,本申请实施例对此不作限定。
关于终端110的设备类型,终端110可以包括但不限于智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio LayerIII,MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts GroupAudio Layer IV,MP4)播放器、膝上型便携计算机、台式计算机、智能语音交互设备、智能家电、车载终端等,本申请实施例对此不作限定。
终端110通过无线网络或有线网络与服务器120相连。
服务器120包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器120用于为客户端提供后台服务。可选地,手语视频的生成方法可以由服务器120执行,也可以由终端110执行,也可以有服务器120以及终端110协同执行,本申请实施例对此不作限定。为了方便描述,下述实施例中以计算机设备为手语视频生成的执行主体为例进行说明。
在本申请实施例中,服务器120生成手语视频的模式包括离线模式和实时模式。
在一种可能的实施方式中,服务器120生成手语视频的模式为离线模式时,服务器120将生成的手语视频存储至云端,当用户需要观看该手语视频时,通过在终端110的应用程序或者网页客户端输入该手语视频的存储路径,终端110 从服务器下载该手语视频。
在另一种可能的实施方式中,服务器120生成手语视频的模式为实时模式时,服务器120实时向终端110推送手语视频,终端110实时下载该手语视频,用户可以通过终端110上运行应用程序或者网页客户端进行观看。
下面对本申请实施例中的手语视频的生成方法进行介绍。请参考图2,其示出了本申请一个示例性实施例提供的手语视频的生成方法的流程图,该方法包括:
步骤210,获取听人文本,听人文本为符合健听人士语法结构的文本。
关于听人文本的类型,可选地,听人文本可以是离线文本,也可以是实时文本。
示例性的,当听人文本是离线文本时,其可以是视频或者音频离线下载等场景下获取的文本。
示例性的,当听人文本是实时文本时,其可以是视频直播、同声传译等场景下获取的文本。
关于听人文本的来源,可选地,听人文本可以是编辑好内容的文本;也可以是从字幕文件中提取的文本,也可以是从音频文件或者视频文件中提取的文本等,本申请实施例对此不作限定。
可选地,在本申请实施例中,听人文本的语言种类不限于汉语,也可以是其他语言,本申请实施例对此不作限定。
步骤220,对听人文本进行摘要提取,得到摘要文本,摘要文本的文本长度短于听人文本的文本长度。
如图3所示,表达相同的内容时,手语视频(由听人文本进行手语翻译得到)时长大于听人文本对应音频的音频时长,因此导致听人文本对应音频的音频时间轴与最后生成的手语视频的时间轴不对齐,从而导致手语视频与其对应的音频不同步的问题。其中,A1、A2、A3、A4用于表示听人文本对应的时间戳,V1、V2、V3、V4用于表示手语视频轴的时间区间。因此,在一种可能的实施方式中,计算机设备可以通过缩短听人文本的文本长度,使得最终生成的手语视频与其对应的音频保持同步。
示例性的,计算机设备通过提取听人文本中对听人文本的全文语义有影响的语句,进而得到摘要文本。
示例性的,计算机设备通过对听人文本的语句进行文本压缩处理,得到摘要文本。
另外,对于听人文本为离线文本和听人文本为实时文本时,对听人文本进行摘要提取的方式不同。当听人文本为离线文本时,计算机设备可以获取到听人文本的全部内容,因此可以采用上述任意一种方法或者两种方法的结合得到摘要文本。而当听人文本为实时文本时,由于计算机设备对听人文本采取实时推送的方式进行传输,无法获取听人文本的全部内容,只能通过采用对听人文本的语句进行文本压缩处理的方法得到摘要文本。
在另一种可能的实施方式中,计算机设备可以通过调整手语视频中手语手势的速度使得手语视频与其对应的音频保持同步。示例性的,当手语视频的时长大于音频时长时,计算机设备可以使得执行手语手势的虚拟对象在手语语句之间保持自然晃动,等待手语视频的时间轴和音频时间轴对齐,当手语视频的时长小于音频时长时,计算机设备可以使得执行手语手势的虚拟对象在手语语句之间加快手势动作,使得手语视频的时间轴和音频时间轴对齐,从而使得手语视频与其对应的音频同步。
步骤230,将摘要文本转换为手语文本,手语文本为符合听障人士语法结构的文本。
在本申请实施例中,由于摘要文本是基于听人文本生成的,因此摘要文本也是符合健听人士语法结构的文本。但是由于听障人士的语法结构和健听人士的语法结构不同,因此为了提高手语视频对听障人士的可懂度,计算机设备将摘要文本转换成符合听障人士语法结构的手语文本。
在一种可能的实施方式中,计算机设备基于手语翻译技术自动将摘要文本转换为手语文本。
示例性的,计算机设备基于自然语言处理(NaturalLanguageProcessing,NLP) 技术将摘要文本转换为手语文本。
步骤240,基于手语文本生成手语视频,手语视频与听人文本对应的音频保持同步。
基于听人文本的类型不同,计算机设备基于手语文本生成手语视频的模式也不同。
在一种可能的实施方式中,当听人文本的类型为离线文本时,计算机设备基于手语文本生成手语视频的模式为离线视频模式。离线视频模式下,计算机设备将多个手语文本语句分别生成多个手语视频片段,并将多个手语视频片段合成进而得到一个完整的手语视频,同时将该手语视频存储至云端服务器,供用户下载使用。
在另一种可能的实施方式中,当听人文本的类型为实时文本时,计算机设备基于手语文本生成手语视频的模式为实时推流模式。实时推流模式下,服务器将手语文本语句生成手语视频片段,以视频流的形式逐句推送至客户端,用户可以通过客户端实时加载并播放。
综上所述,在本申请实施例中,对听人文本进行文本摘要提取,得到摘要文本,进而缩短听人文本的文本长度,使得最后生成的手语视频与听人文本对应的音频保持同步。另外将摘要文本转换成符合听障人士语法结构的手语文本,基于手语文本生成手语视频,提高了手语视频对听障人士的可懂度,且基于手语文本自动生成手语视频,无需人工打手语,实现成本低,且能够适用于大量应用场景,例如视频直播场景、离线视频场景等。
在本申请实施例中,在一种可能的实施方式中,计算机设备可以采用通过对听人文本进行语义分析,提取影响听人文本全文语义的语句的方法得到摘要文本;在另一种可能的实施方式中,计算机设备也可以采用对听人文本进行分句,对分句后的语句进行文本压缩处理的方法得到摘要文本。下面对上述方法进行介绍。请参考图4,其示出了本申请另一个示例性实施例提供的手语视频的生成方法的流程图,该方法包括:
步骤410,获取听人文本。
在本申请实施例中,计算机设备获取听人文本的方式有多种,下面对这些方法进行介绍。
在一种可能的实施方式中,在离线场景下,例如阅读场景,计算机设备可以直接获取输入的听人文本,其中听人文本也就是对应的阅读文本。
可选地,该听人文本可以是word文件、pdf文件等,本申请实施例对此不作限定。
在另一种可能的实施方式中,在视频观看场景或者音频收听场景下,由于视频和音频没有对应的字幕,计算机设备可以获取字幕文件,从字幕文件中提取听人文本。
其中,字幕文件是指包含时间戳的文本内容。
在另一种可能的实施方式中,在音频实时传输场景下,例如同声传译场景,会议直播场景等,计算机设备获取音频文件,进一步,对音频文件进行语音识别,得到语音识别结果,进一步,基于语音识别结果生成听人文本。
由于听障人士无法听到声音,因此无法从音频文件中获取信息,计算机设备通过语音识别技术将提取声音转换为文字,进而生成听人文本。
在一种可能的实施方式中,语音识别的过程包括:输入——编码(特征提取)——解码——输出。如图5所示,其示出了本申请一个示例性实施例提供的语音识别的过程。首先计算机设备对输入的音频文件进行特征提取,即将音频信号从时域转换到频域,为声音模型提供合适的特征向量。可选地,提取的特征可以是LPCC(LinearPredictiveCepstralCoding,线性预测倒谱系数)、MFCC (MelFrequencyCepstralCoefficients,梅尔频率倒谱系数)等,本申请实施例对此不作限定。进一步,将提取到的特征向量输入声学模型,声学模型通过训练数据1训练得到。声学模型用于根据声学特征计算每一个特征向量在声学特征上概率。可选地,声学模型可以是词模型、字发音模型、半音节模型、音素模型等,本申请实施例对此不作限定。进一步,基于语言模型计算该特征向量可能对应的词组序列的概率。其中语言模型通过训练数据2训练得到。通过声学模型和语言模型完成对特征向量的解码,得到文字识别结果,进而得到音频文件对应的听人文本。
在另一种可能的实施方式中,在视频实时传输场景下,例如体育赛事直播、视听节目直播等,计算机设备获取视频文件,进一步,对视频文件的视频帧进行OCR(OpticalCharacterRecognition,光学字符识别)识别,得到文字识别结果,进而获取听人文本。
其中,OCR是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。
在一种可能的实施方式中,计算机设备通过OCR对视频文件的视频帧识别得到文字识别结果的过程为:计算机设备提取视频文件的视频帧,每帧视频帧可以看作是一张静态的图片。进一步,计算机设备对视频帧进行图像预处理,对图像的成像问题进行纠正,包括几何变换,即透视、扭曲、旋转等,畸变矫正,去除模糊,图像增强和光线校正等。进一步,计算机设备对经过图像预处理之后的视频帧进行文本检测,检测文本所在位置和范围及布局。进一步,计算机设备对检测到的文本进行文本识别,将视频帧中的文本信息转化为纯文本信息,进而得到文字识别结果。该文字识别结果即为听人文本。
步骤420,对听人文本进行语义分析;基于语义分析结果从听人文本中提取关键语句,关键语句为听人文本中影响全文语义的语句;将关键语句确定为摘要文本。
在一种可能的实施方式中,计算机设备对听人文本采用句子级的语义分析方法,可选地,句子级的语义分析方法可以是浅层语义分析和深层语义分析,本申请实施例对此不作限定。
在一种可能的实施方式中,计算机设备基于语义分析结果从听人文本中提取关键语句,过滤非关键语句,将关键语句确定为摘要文本。其中非关键语句是对全文语义没有影响的语句。
可选地,计算机设备可以基于TF-IDF(Text Frequency-Inverse DocumentFrequency,词频逆文档频率)算法对听人文本进行语义分析,得到关键语句,进而生成摘要文本。首先,计算机设备先统计听人文本中出现次数最多的词组。进一步,对出现的词组分配权重。权重的大小和词组的常见程度成反比,也就是说平时较为少见但是在听人文本中多次出现的词组给予较高权重,平时比较常见的词组给予较低的权重。进一步,基于各个词组的权重值计算TF-IDF值。 TF-IDF值越大说明该词组对听人文本的重要性程度越高。因此选取TF-IDF值最大的几个词组为关键词,该词组所在的文本语句即为关键语句。
示例性的,听人文本的内容为“2022年冬季运动会将在XX地举行。本届冬季运动会的吉祥物为XXX。本届冬季运动会的口号为‘XXXXX’。我感到很骄傲”。计算机设备基于TF-IDF算法对该听人文本进行语义分析,得到关键词为“冬季运动会”。因此关键词“冬季运动会”所在的语句为关键语句,即“2022 年冬季运动会将在XX地举行。本届冬季运动会的吉祥物为XXX。本届冬季运动会的口号为‘XXXXX’”。而“我感到很骄傲”为非关键句。过滤对听人文本的全文语义并没有影响的非关键句,因此将关键句“2022年冬季运动会将在XX 地举行。本届冬季运动会的吉祥物为XXX。本届冬季运动会的口号为‘XXXXX’”确定为摘要文本。
步骤430,对听人文本进行文本压缩处理;将压缩后的听人文本确定为摘要文本。
在一种可能的实施方式中,计算机设备按照压缩比对听人文本进行文本压缩处理,将压缩后的听人文本确定为摘要文本。
可选地,听人文本的类型不同,其压缩比也不同。当听人文本类型为离线文本时,听人文本中每个语句的压缩比可能相同也可能不同。当听人文本类型为实时文本时,为了降低延时,对听人文本的语句按照固定的压缩比进行压缩处理,得到摘要文本。
可选地,压缩比的取值与应用场景有关。例如,在访谈场景或者日常交流场景中,由于用语较为口语化,可能一句话中包含的有效信息比较少,因此压缩比的取值较大。而在新闻联播场景下,由于用语简练,一句话中包含的有效信息较多,因此压缩比的取值较小。例如,在访谈场景下,计算机设备按照0.8 的压缩比对听人文本进行文本压缩处理,而在新闻联播场景下,计算机设备按照0.3的压缩比对听人文本进行文本压缩处理。
另外,在本申请实施例中,对听人文本进行文本压缩处理后得到的摘要文本的全文语义应该与听人文本的全文语义保持一致。
步骤440,将摘要文本输入翻译模型,得到翻译模型输出的手语文本,翻译模型基于样本文本对训练得到,样本文本对由样本手语文本和样本听人文本构成。
示例性的,翻译模型可以是基于encoder-decoder(编码器-解码器)基本框架构建的模型。可选地,翻译模型可以是RNN(RecurrentNeuralNetwork,循环神经网络)模型、CNN(ConvolutionalNeuralNetwork,卷积神经网络)模型、 LSTM(LongShort-TimeMemory,长短期记忆)模型等,本申请实施例对此不作限定。
其中,encoder-decoder的基本框架结构如图6所示,该框架结构分为encoder 和decoder两个结构部分。在本申请实施例中,先通过编码器对摘要文本进行编码,得到中间语义向量,然后通过解码器对中间语义向量进行解码进而得到手语文本。
示例性的,通过encoder对摘要文本进行编码,得到中间语义向量的过程为:首先输入摘要文本的词向量(InputEmbedding)。进一步,将词向量和位置编码(PositionalEncoding)相加作为多头注意力机制(Multi-HeadAttention)层的输入,得到多头注意力机制层的输出结果,同时将词向量和位置编码输入第一个 Add&Norm(连接&标准化)层,进行残差连接以及对激活值进行归一化处理。进一步,将第一个Add&Norm层输出的结果和多头注意力机制层的输出结果输入前馈(FeedForward)层,得到前馈层对应的输出结果,同时将第一个Add&Norm 层输出的结果和多头注意力机制层的输出结果再次输入第二个Add&Norm层,进而得到中间语义向量。
进一步通过decoder对中间语义向量进行解码,进而得到摘要文本对应的翻译结果的过程为:首先,将encoder的输出结果,即中间语义向量作为decoder 的输入(OutputEmbedding)。进一步,将中间语义向量和位置编码进行相加作为第一个多头注意力机制层的输入,同时对该多头注意力机制层进行掩盖(Masked) 处理,进而得到输出结果。同时将中间语义向量和位置编码输入第一个 Add&Norm层,进行残差连接以及对激活值进行归一化处理。进一步,将第一个Add&Norm层输出的结果和经过掩盖处理的第一个多头注意力机制层的输出结果输入第二个多头注意力机制层,同时将encoder输出的结果也输入第二个多头注意力机制层,得到第二个多头注意力机制层的输出结果。进一步,将第一个Add&Norm层输出的结果以及经过掩盖处理的第一个多头注意力机制层的结果输入第二个Add&Norm层,得到第二个Add&Norm层的输出结果。进一步,将第二个多头注意力机制层的输出结果和第二个Add&Norm层的输出结果输入前馈层,得到前馈层的输出结果,同时将第二个多头注意力机制层的输出结果和第二个Add&Norm层的输出结果输入第三个Add&Norm层,得到第三个 Add&Norm层的输出结果。进一步,将前馈层的输出结果和第三个Add&Norm 层的输出结果进行线性映射(Linear)和归一化处理(Softmax),最终decoder 的输出结果。
在本申请实施例中,翻译模型基于样本文本对训练得到,其训练的流程如图7所示,主要步骤包括数据处理,模型训练以及推理。数据处理用于对样本文本对进行标注或者数据扩充。
在一种可能的实施方式中,样本文本对可以由现有的样本听人文本和样本手语文本构成。如表一所示。
表一
其中,样本手语文本中,“/”用于分隔每个词组,“///”用于表示大标点,类如句号,感叹号,问号等,表示句子结束。
在另一种可能的实施方式中,可以通过对样本手语文本采用反向翻译(BackTranslation,BT)的方法得到样本听人文本,进而得到样本文本对。
示例性的,样本手语文本如表二所示。
表二
样本手语文本
我/想/做/程序员/勤劳/做/做/做//一个月/前/多///
可能/愿意/做/程序员/人/多/需要/努力/学习///
其中,样本手语文本中“//”用于表示小标点,例如逗号、顿号、分号等。
首先利用现有的样本听人文本以及样本手语文本训练手语-汉语翻译模型,得到训练后的手语-汉语翻译模型。其次,将表二中的样本手语文本输入训练后的手语-汉语翻译模型,得到对应的样本听人文本,进而得到样本文本对,如表三所示。
表三
由前述两种方式得到的样本文本对如表四所示。
表四
进一步,计算机设备基于表四所示的样本文本对训练翻译模型,得到训练后的翻译模型。另外,需要说明的是,表四中以示例的方式对样本文本对的内容进行说明,训练翻译模型的样本文本对还包括其他样本听人文本以及对应的样本手语文本,本申请实施例对此不再赘述。
进一步,对训练好的翻译模型进行推理验证,即将样本听人文本输入训练好的翻译模型,得到翻译结果,如表五所示。
表五
其中,翻译结果中空格表示分隔每个词组,世界1表示世界唯一。
步骤450,获取手语文本中各个手语词汇对应的手语手势信息。
在本申请实施例中,计算机设备基于翻译模型得到摘要文本对应的手语文本之后,进一步将手语文本解析成单个的手语词汇,例如吃饭、上学、点赞等。计算机设备中提前建立有各个手语词汇对应的手语手势信息。计算机设备基于手语词汇与手语手势信息的映射关系,将手语文本中的各个手语词汇匹配到对应的手语手势信息。例如,手语词汇“点赞”匹配的手语手势信息为:拇指翘起向上,其余四指紧握。
步骤460,基于手语手势信息控制虚拟对象按序执行手语手势。
其中,虚拟对象是通过2D或者3D建模提前创建好的数字人形象,每个数字人形象包括脸部特征、发型特征、身体特征等。可选地,数字人即可以是经过真人授权后的仿真人形象,也可以是卡通形象等,本申请实施例对此不作限定。
示例性的,结合图8对本申请实施例中,虚拟对象建立的过程进行简要说明。
首先输入图片I(InputimageI),使用一个预先训练的形状重构器(Shapereconstructor)预测出3DMM(3D Morphable Model,3D变形模型)参数(3DMMcoefficients)以及姿态参数p(Posecoefficientsp),进而得到3DMM网格(3DMMmesh)。然后,使用形状转换模型(shapetransfer)将3DMMmesh的拓扑变换到游戏上,即得到游戏网格(Gamemesh)。同时对图片I进行图片解码 (Imageencoder),进一步得到潜在特征(Latentfeatures),基于光照预测器 (Lightingpredictor)得到光照参数l(Lightingcoefficientsl)。
进一步,根据Gamemesh对输入的图片I进行UV展开(UVunwrapping) 到UV空间,得到该图片的粗粒度纹理C(CorsetextureC)。进一步,对该粗粒度纹理C进行纹理编码(Textureencoder),并提取潜在特征,将图片潜在特征和纹理潜在特征进行融合(concatenate)。进一步,进行纹理解码(Textureencoder),从而得到精细纹理F(RefinedtextureF)。将Gamemesh对应的参数、 Posecoefficientsp、Lightingcoefficientsl以及RefinedtextureF等不同参数输入可微网络渲染(DifferentiableRenderer)得到渲染后的2D图片R(RenderfaceR)。在训练过程中,为了使得输出的2D图片R和输入的图片I相似,引入了图片判别器(Imagediscriminator)和纹理判别器(Texturediscriminator)。将输入图片I和每次经过训练得到的2D图片R通过图片判别器判别真(real)或者假(fake) 将基础纹理G(GroundtruthtextureG)和每次进行训练得到的精细纹理F通过纹理判别器判别真或者假。
步骤470,基于虚拟对象执行手语手势时的画面生成手语视频。
计算机设备将虚拟对象执行手语手势渲染成一个个画面帧,并按照帧率将一个个静止的画面帧拼接成连贯的动态视频,进而形成视频片段。该视频片段对应手语文本中的一个子句。为了进一步提高视频片段的色彩度,计算机设备将各个视频片段转码为YUV格式。其中,YUV是指亮度参量和色度参量分开表示的像素格式,Y表示明亮度(Luminance),也就是灰度值,U和V表示色度(Chrominance),用于描述影像色彩及饱和度。
进一步,计算机设备对视频片段进行拼接,进而生成手语视频。
在一种可能的实施方式中,当听人文本为离线文本时,手语视频生成模式为离线视频模式,计算机设备将视频片段拼接成手语视频后,将手语视频存储于云端服务器,当用户需要观看该手语视频时,需要在浏览器或者下载软件中输入手语视频的存储路径即可得到的完整视频。
在另一种可能的实施方式中,当听人文本为实时文本时,手语视频生成模式为实时模式,为了避免延迟,计算机设备将视频片段排序并逐帧推送给用户客户端。
在本申请实施例中,通过多种方式对听人文本进行文本摘要处理,目的是提高最终生成的手语视频与对应音频的同步性,另外将摘要文本转换成符合听障人士语法结构的手语文本,基于手语文本再生成手语视频,提高了手语视频对听障人士的可懂度,且自动生成手语视频,实现成本低,能够适用大量应用场景。
在本申请实施例中,当听人文本为离线文本时,计算机设备既可以采用对听人文本进行语义分析提取关键语句的方法得到摘要文本,也可以采用对听人文本进行文本压缩的方法得到摘要文本,也可以结合前述两种方法得到摘要文本。
前文已经介绍了计算机设备采用对听人文本进行语义分析提取关键语句的方法得到摘要文本,下面对计算机设备采用对听人文本进行文本压缩的方法得到摘要文本进行介绍。请参考图9,其示出了本申请另一个示例性实施例提供的摘要文本生成方法的流程图,该方法包括:
步骤901,对听人文本进行分句,得到文本语句。
由于在本申请实施例中,听人文本为离线文本,因此计算机设备可以获取听人文本的全部内容。在一种可能的实施方式中,计算机设备基于标点符号对听人文本进行分句,得到文本语句。其中,该标点符号可以是句号、感叹号、问号等表示句子结束的标点符号。
示例性的,听人文本为“2022年冬季运动会将在XX地举行。本届冬季运动会的吉祥物为XXX。本届冬季运动会的口号为‘XXXXX’。我很期待冬季运动会的到来”。计算机设备对上述听人文本进行分句,得到3个文本语句,第一个文本语句S1为“2022年冬季运动会将在XX地举行”。第二个文本语句S2 为“本届冬季运动会的吉祥物为XXX”。第三个文本语句为S3为“本届冬季运动会的口号为‘XXXXX’”。第四个文本语句S4为“我很期待冬季运动会的到来”。
步骤902,确定各个文本语句对应的候选压缩比。
在一种可能的实施方式中,计算机设备中预设有多个候选压缩比,计算机设备可以从预设的候选压缩比中选择各个文本语句对应的候选压缩比。
可选地,各个文本语句对应的候选压缩比可能相同,也可能不同,本申请实施例对此不作限定。
可选地,一个文本语句对应多个候选压缩比。
示例性的,如图表六所示,计算机设备为前述4个文本语句各自确定了三个候选压缩比。
表六
文本语句 候选压缩比1 候选压缩比2 候选压缩比3
S1 Y11 Y12 Y13
S2 Y21 Y22 Y23
S3 Y31 Y32 Y33
S4 Y41 Y42 Y43
其中,Ymn用于第m个文本语句对应的候选压缩比n,例如Y11用于表征第1文本语句S1对应的候选压缩比1。另外,为了减少计算机设备的运算量,各个文本语句选取的候选压缩比相同,例如,计算机设备均采用候选压缩比1 对文本语句S1、S2、S3、S4进行文本压缩处理。需要说明的,计算机设备也可以采用不同的候选压缩比对文本语句S1、S2、S3、S4进行文本压缩处理,本申请实施例对此不作限定。
步骤903,基于候选压缩比对文本语句进行文本压缩处理,得到候选压缩语句。
示例性,计算机设备基于表六中确定的候选压缩比1、候选压缩比2、候选压缩比3分别对文本语句S1、S1、S2、S3、S4进行文本压缩处理,得到各个文本语句对应的候选压缩语句,如表七所示。
表七
/>
其中,Cmn用于表征第m个文本语句经过候选压缩比n进行文本压缩处理得到的候选压缩语句,例如C11用于表征第1个文本语句S1经过候选压缩比1 进行文本压缩处理得到的候选压缩语句。
步骤904,过滤与文本语句之间的语义相似度小于相似度阈值的候选压缩语句。
在本申请实施例中,为了保证最后生成的手语视频内容与原本的听人文本的内容的一致性,避免对听障人士的理解造成干扰,因此在本申请实施例中,计算机设备需要对候选压缩比进行语义分析,并与对应的文本语句的语义进行对比,确定候选压缩语句以及对应的文本语句的语义相似度,过滤与文本语句语义不相符的候选压缩比。
在一种可能的实施方式中,当语义相似度大于等于相似度阈值时,表明候选压缩语句与对应的文本语句高概率相似,计算机设备保留该候选压缩语句。
在另一种可能的实施方式中,当语义相似度小于相似度阈值时,表明候选压缩语句与对应的文本压缩语句高概率不相似,计算机设备过滤该候选压缩语句。
可选地,相似度阈值为90%、95%、98%等,本申请实施例对此不作限定。
示例性的,计算机设备基于相似度阈值过滤表六中的候选压缩语句,得到过滤后的候选压缩语句,如表八所示。
表八
其中,删除的候选压缩语句表示计算机设备过滤的候选压缩语句。
步骤905,确定过滤后候选压缩语句对应候选手语视频片段的候选片段时长。
为了保证最后生成的手语视频的时间轴与听人文本对应音频的音频时间轴对齐,计算机设备首先确定过滤后的压缩语句对应的候选手语视频片段时长。示例性的,如表九所示,计算机设备确定过滤后的候选压缩语句对应的候选手语视频片段时长。
表九
其中,Tmn用于表示过滤后的候选压缩语句Cmn对应的候选手语片段时长,T1、T2、T3、T4分别表示文本语句S1、S2、S3、S4对应音频的音频片段时长。
步骤906,基于文本语句对应的时间戳,确定文本语句对应音频的音频片段时长。
在本申请实施例中,听人文本包含时间戳。在一种可能的实施方式中,计算机设备在获取听人文本的同时获取听人文本对应的时间戳,以便后续基于时间戳进行手语视频与对应音频的同步对齐。其中,时间戳用于指示听人文本对应的音频在音频时间轴上的时间区间。
示例性的,听人文本的内容为“你好,春天”,其音频对应的音频时间轴 00:00:00-00:00:70的内容为“你好”,00:00:70-00:01:35的内容为“春天”。其中,“00:00:00-00:00:70”、“00:00:70-00:01:35”即为听人文本对应的时间戳。
在本申请实施例中,由于计算机设备获取听人文本的方式不同,其获取时间戳的方式也不同。
示例性的,计算机设备直接获取听人文本时,需要将听人文本转换为对应的音频从而获取其对应的时间戳。示例性的,计算机设备也可以直接从字幕文件中提取听人文本对应的时间戳。示例性的,当计算机设备从音频文件中获取时间戳时,需要先对音频文件进行语音识别,基于语音识别的结果和音频时间轴获取时间戳。示例性的,当计算机设备从视频文件中获取时间戳时,需要先对视频文件进行OCR识别,基于文字识别结果以及视频时间轴获取时间戳。
因此由此可知,在本申请实施例中,计算机设备可以基于听人文本的时间戳,得到各个文本语句对应音频的音频片段。
示例性的,如表九中,文本语句S1对应音频的音频片段时长为T1,文本语句S2对应音频的音频片段时长为T2,文本语句S3对应音频的音频片段时长为 T3,文本语句S4对应音频的音频片段时长为T4。
步骤907,基于候选手语片段时长以及音频片段时长,通过动态路径规划算法从候选压缩语句中确定出目标压缩语句,其中,目标压缩语句所构成文本对应的手语视频的视频时间轴,与听人文本对应音频的音频时间轴相对齐。
在一种可能的实施方式中,计算机设备基于动态路径规划算法各个文本语句对应的候选压缩语句中确定出目标压缩语句。其中,动态路径规划算法中的路径节点为候选压缩语句。
示例性的,结合表八以及图10,对动态路径规划算法的过程进行说明。其中,动态路径规划算法中每一列路径节点1001都代表一个文本语句的不同候选压缩语句。例如,第一列路径节点1001用于表示文本语句S1的不同候选压缩语句。计算机设备基于动态路径规划算法得到的不同的候选压缩语句组合得到的候选文本以及对应的手语视频的视频时长,如表十所示,其中候选文本对应的手语视频的视频时长由各个候选压缩语句对应的候选手语视频片段时长得到。
表十
进一步的,计算机设备基于候选文本对应的手语视频的时长得到候选文本对应的手语视频的时间轴,并匹配听人文本即文本语句S1、S2、S3以及S4组合对应音频的音频时间轴,若二者对齐,则确定目标候选文本,基于目标候选文本确定目标压缩语句,进而计算机设备基于动态路径规划算法确定出目标压缩语句。图10中,计算机设备基于动态路径规划算法确定的目标压缩语句为C12、 C23、C31以及C41。
步骤908,将由目标压缩语句构成文本确定为摘要文本。
示例性的,计算机设备将目标压缩语句构成的文本即C12+C23+C31+C41 确定为摘要文本。
在本申请实施例中,计算机设备基于相似度阈值以及动态路径规划算法从候选压缩语句中确定目标压缩语句,进而得到摘要文本,使得听人文本的文本长度缩短,能够避免最终生成的手语视频与其对应音频不同步的问题,提高了手语视频与音频的同步性。
另外,在一种可能的实施方式中,当听人文本为离线文本时,计算机设备可以采用对听人文本进行语句分析提取关键句的方法以及对听人文本按照压缩比进行文本压缩的方法二者相结合得到摘要文本。示例性的,如图11所示。首先,计算机设备基于语音识别方法获取视频文件的听人文本以及对应的时间戳。其次,计算机设备对听人文本进行文本摘要处理。计算机设备对听人文本进行语义分析,基于语义分析的结果从听人文本中提取关键句,得到表1101中的抽取式结果,关键句为文本语句S1至S2以及文本语句S5至Sn。同时,计算机设备对听人文本进行分句处理,得到文本语句S1至Sn。进一步,计算机设备基于候选压缩比对文本语句进行文本压缩处理,得到候选压缩语句,得到表1101 中的压缩式结果1至压缩式结果m。其中,Cnm用于表示候选压缩语句。
进一步,计算机设备基于动态路径规划算法1102从表1101中确定出目标压缩语句Cn1,…,C42,C31,C2m,C11,其中目标压缩语句所构成文本对应的手语视频的视频时间轴,与听人文本对应音频的音频时间轴相对齐。基于目标压缩语句生成摘要文本。进一步,将摘要文本进行手语翻译得到手语文本,基于手语文本生成手语视频。由于对听人文件进行文本摘要处理,因此最后生成的手语视频的时间轴1104与视频对应音频的音频时间轴1103相对齐。
在本申请实施例中,当听人文本为实时文本时,计算机设备逐句获取听人文本,而无法获取到听人文本的全部内容,因此无法采用通过对听人文本进行语义分析提取关键句的方法得到摘要文本。为了降低延时,计算机设备按照固定压缩比对听人文本进行文本压缩处理,进而得到摘要文本。下面对该方法进行介绍:
1.基于听人文本对应的应用场景,确定目标压缩比。
其中,目标压缩比与听人文本对应的应用场景有关,不同的应用场景确定的目标压缩比不同。
示例性的,当听人文本对应的应用场景为访谈场景时,由于访谈场景下,听人文本的用语较为口语化,有效信息较少,因此目标压缩比确定为高压缩比,例如0.8。
示例性的,当听人文本对应的应用场景为新闻联播场景或者新闻发布会等场景时,听人文本的用语较为简练,有效信息较多,因此目标压缩比确定为低压缩比,例如0.4。
2.基于目标压缩比对听人文本进行文本压缩处理,得到摘要文本。
计算机设备按照已经确定好的目标压缩比对听人文本进行逐句压缩处理,进而得到摘要文本。
在本申请实施例中,当听人文本为实时文本时,计算机设备基于目标压缩比对听人文本进行文本压缩处理,缩短听人文本的文本长度,提高了最终生成的手语视频与其对应音频的同步性,另外不同的应用场景确定不同的目标压缩比,提高最终生成的手语视频的准确性。
请参考图12,其示出了本申请一个示例性实施例提供的手语视频的生成方法的流程图。在本申请实施中,手语视频生成方法包括获取听人文本、文本摘要处理、手语翻译处理以及手语视频生成。
第一步,获取听人文本。其中节目视频源包括音频文件、视频文件、已经准备好的听人文本以及字幕文件等。以音频文件和视频文件为例,对于音频文件,计算机设备进行音频提取,得到播报音频,进一步,计算机设备通过语音识别技术对播报音频进行处理,进而得到听人文本以及对应的时间戳;对于视频文件,计算机设备基于OCR技术提取视频对应的听人文本以及对应的时间戳。
第二步,文本摘要处理。计算机设备对听人文本进行文本摘要处理,得到摘要文本。其中处理方法包括基于对听人文本进行语义分析提取关键句以及对听人文本进行分句后进行文本压缩处理。另外听人文本的类型不同,计算机设备对听人文本进行文本摘要处理的方法不同。当听人文本的类型为离线文本时,计算机设备既可以采用基于对听人文本进行语义分析提取关键句的方法对听人文本进行文本摘要处理,也可以采用对听人文本进行分句后进行文本压缩处理的方法对听人文本进行文本摘要处理,还可以是前述两种方法的结合。而当听人文本的类型为实时文本时,计算机设备只能采用对听人文本进行分句后进行文本压缩处理的方法对听人文本进行文本摘要处理。
第三步,手语翻译处理。计算机设备将基于文本摘要处理生成的摘要文本经过手语翻译生成手语文本。
第四步,手语视频的生成。不同的模式下,手语视频的生成方式不同。在离线模式下,计算机设备需要对手语文本进行分句,以文本语句为单位合成句子视频;进一步,对句子视频进行3D渲染;进一步,进行视频编码;最后将所有句子的视频编码文件进行文件合成,进而生成最终的手语视频。进一步,计算机设备将该手语视频存储至云端服务器中,当用户需要观看该手语视频时,可以从计算机设备中下载。
而在实时模式下,计算机设备不对听人文本语句进行分句,但是需要多路直播并发,从而降低延时。计算机设备基于手语文本合成句子视频;进一步,对句子视频进行3D渲染;进一步,进行视频编码,进而生成视频流。计算机设备将视频流进行推送,进而生成手语视频。
请参考图13,其示出了本申请一个示例性实施例提供的手语视频的生成装置的结构方框图。该装置可以包括:
获取模块1301,用于获取听人文本,所述听人文本为符合健听人士语法结构的文本;
提取模块1302,用于对所述听人文本进行摘要提取,得到摘要文本,所述摘要文本的文本长度短于所述听人文本的文本长度;
转换模块1303,用于将所述摘要文本转换为手语文本,所述手语文本为符合听障人士语法结构的文本;
生成模块1304,用于基于所述手语文本生成所述手语视频,所述手语视频与所述听人文本对应的音频保持同步。
可选地,所述提取模块1302,用于:
对所述听人文本进行语义分析;基于语义分析结果从所述听人文本中提取关键语句,所述关键语句为所述听人文本中影响全文语义的语句;将所述关键语句确定为所述摘要文本;
对所述听人文本进行文本压缩处理;将压缩后的所述听人文本确定为所述摘要文本。
可选地,所述提取模块1302,用于:
在所述听人文本为离线文本的情况,对所述听人文本进行语义分析;
所述对所述听人文本进行文本压缩处理,包括:
在所述听人文本为离线文本,或所述听人文本为实时文本的情况下,对所述听人文本进行文本压缩处理。
可选地,所述提取模块1302,用于:
在所述听人文本为离线文本的情况下,对所述听人文本进行分句,得到文本语句;
确定各个所述文本语句对应的候选压缩比;
基于所述候选压缩比对所述文本语句进行文本压缩处理,得到候选压缩语句;
所述提取模块1302,用于:
基于动态路径规划算法从各个所述文本语句对应的所述候选压缩语句中确定出目标压缩语句,其中,所述动态路径规划算法中的路径节点为所述候选压缩语句;
将由所述目标压缩语句构成文本确定为所述摘要文本。
可选地,所述听人文本包含对应的时间戳,所述时间戳用于指示所述听人文本对应的音频在音频时间轴上的时间区间;
所述提取模块1302,用于:
确定所述候选压缩语句对应候选手语视频片段的候选片段时长;
基于所述文本语句对应的时间戳,确定所述文本语句对应音频的音频片段时长;
基于所述候选片段时长以及所述音频片段时长,通过所述动态路径规划算法从所述候选压缩语句中确定出所述目标压缩语句,其中,所述目标压缩语句所构成文本对应的手语视频的视频时间轴,与所述听人文本对应音频的音频时间轴相对齐。
可选地,所述装置还包括:
过滤模块,用于过滤与所述文本语句之间的语义相似度小于相似度阈值的所述候选压缩语句;
所述提取模块1302,用于:
确定过滤后所述候选压缩语句对应候选手语视频片段的候选片段时长。
可选地,所述提取模块1302,用于:
在所述听人文本为实时文本的情况下,基于目标压缩比对所述听人文本进行文本压缩处理。
可选地,所述装置还包括:
确定模块,用于基于所述听人文本对应的应用场景,确定所述目标压缩比,其中,不同应用场景对应不同压缩比。
可选地,所述转换模块1303,用于:
将所述摘要文本输入翻译模型,得到所述翻译模型输出的所述手语文本,所述翻译模型基于样本文本对训练得到,所述样本文本对由样本手语文本和样本听人文本构成。
可选地,所述生成模块1304,用于:
获取所述手语文本中各个手语词汇对应的手语手势信息;
基于所述手语手势信息控制虚拟对象按序执行手语手势;
基于所述虚拟对象执行所述手语手势时的画面生成所述手语视频。
可选地,所述获取模块1301,用于:
获取输入的所述听人文本;
获取字幕文件;从所述字幕文件中提取所述听人文本;
获取音频文件;对所述音频文件进行语音识别,得到语音识别结果;基于所述语音识别结果生成所述听人文本;
获取视频文件;对所述视频文件的视频帧进行OCR识别,得到文字识别结果;基于所述文字识别结果生成所述听人文本。
综上所述,在本申请实施例中,对听人文本进行文本摘要提取,得到摘要文本,进而缩短听人文本的文本长度,使得最后生成的手语视频与听人文本对应的音频保持同步。另外将摘要文本转换成符合听障人士语法结构的手语文本,基于手语文本生成手语视频,提高了手语视频对听障人士的可懂度,且基于手语文本自动生成手语视频,无需人工打手语,实现成本低,且能够适用于大量应用场景,例如视频直播场景、离线视频场景等。
需要说明的是:上述实施例提供的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1400包括中央处理单元(Central Processing Unit,CPU)1401、包括随机存取存储器(Random Access Memory,RAM)1402和只读存储器(Read-Only Memory,ROM)1403的***存储器1404,以及连接***存储器1404和中央处理单元1401的***总线1405。所述计算机设备1400 还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(Input/Output,I/O***)1406,和用于存储操作***1413、应用程序1414 和其他程序模块1415的大容量存储设备1407。
所述基本输入/输出***1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器 1408和输入设备1409都通过连接到***总线1405的输入输出控制器1410 连接到中央处理单元1401。所述基本输入/输出***1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1407通过连接到***总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机设备可读介质为计算机设备1400提供非易失性存储。也就是说,所述大容量存储设备1407可以包括诸如硬盘或者只读光盘 (Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、 ROM、可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory, EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的***存储器1404和大容量存储设备1407可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1400可以通过连接在所述***总线1405上的网络接口单元1412连接到网络1411,或者说,也可以使用网络接口单元1415来连接到其他类型的网络或远程计算机设备***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1401通过执行该一个或一个以上程序来实现上述手语视频的生成方法的全部或者部分步骤。
本申请实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述方面所述的手语视频的生成方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的手语视频的生成方法。
本领域技术人员在考虑说明书及实践这里公开的实施例后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种手语视频的生成方法,其特征在于,所述方法包括:
获取听人文本,所述听人文本为符合健听人士语法结构的文本;
对所述听人文本进行摘要提取,得到摘要文本,所述摘要文本的文本长度短于所述听人文本的文本长度;
将所述摘要文本转换为手语文本,所述手语文本为符合听障人士语法结构的文本;
基于所述手语文本生成所述手语视频,所述手语视频与所述听人文本对应的音频保持同步。
2.根据权利要求1所述的方法,其特征在于,所述对所述听人文本进行摘要提取,得到摘要文本,包括如下至少一种方式:
对所述听人文本进行语义分析;基于语义分析结果从所述听人文本中提取关键语句,所述关键语句为所述听人文本中影响全文语义的语句;将所述关键语句确定为所述摘要文本;
对所述听人文本进行文本压缩处理;将压缩后的所述听人文本确定为所述摘要文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述听人文本进行语义分析,包括:
在所述听人文本为离线文本的情况,对所述听人文本进行语义分析;
所述对所述听人文本进行文本压缩处理,包括:
在所述听人文本为离线文本,或所述听人文本为实时文本的情况下,对所述听人文本进行文本压缩处理。
4.根据权利要求3所述的方法,其特征在于,所述在所述听人文本为离线文本的情况下,对所述听人文本进行文本压缩处理,包括:
在所述听人文本为离线文本的情况下,对所述听人文本进行分句,得到文本语句;
确定各个所述文本语句对应的候选压缩比;
基于所述候选压缩比对所述文本语句进行文本压缩处理,得到候选压缩语句;
所述将压缩后的所述听人文本确定为所述摘要文本,包括:
基于动态路径规划算法从各个所述文本语句对应的所述候选压缩语句中确定出目标压缩语句,其中,所述动态路径规划算法中的路径节点为所述候选压缩语句;
将由所述目标压缩语句构成文本确定为所述摘要文本。
5.根据权利要求4所述的方法,其特征在于,所述听人文本包含对应的时间戳,所述时间戳用于指示所述听人文本对应的音频在音频时间轴上的时间区间;
所述基于动态路径规划算法从各个所述文本语句对应的所述候选压缩语句中确定出目标压缩语句,包括:
确定所述候选压缩语句对应候选手语视频片段的候选片段时长;
基于所述文本语句对应的时间戳,确定所述文本语句对应音频的音频片段时长;
基于所述候选片段时长以及所述音频片段时长,通过所述动态路径规划算法从所述候选压缩语句中确定出所述目标压缩语句,其中,所述目标压缩语句所构成文本对应的手语视频的视频时间轴,与所述听人文本对应音频的音频时间轴相对齐。
6.根据权利要求5所述的方法,其特征在于,所述确定所述候选压缩语句对应候选手语视频片段的候选片段时长之前,还包括:
过滤与所述文本语句之间的语义相似度小于相似度阈值的所述候选压缩语句;
所述确定所述候选压缩语句对应候选手语视频片段的候选片段时长,包括:
确定过滤后所述候选压缩语句对应候选手语视频片段的候选片段时长。
7.根据权利要求3所述的方法,其特征在于,所述在所述听人文本为实时文本的情况下,对所述听人文本进行文本压缩处理,包括:
在所述听人文本为实时文本的情况下,基于目标压缩比对所述听人文本进行文本压缩处理。
8.根据权利要求7所述的方法,其特征在于,所述基于目标压缩比对所述听人文本进行文本压缩处理之前,还包括:
基于所述听人文本对应的应用场景,确定所述目标压缩比,其中,不同应用场景对应不同压缩比。
9.根据权利要求1至8任一所述的方法,其特征在于,所述将所述摘要文本转换为手语文本,包括:
将所述摘要文本输入翻译模型,得到所述翻译模型输出的所述手语文本,所述翻译模型基于样本文本对训练得到,所述样本文本对由样本手语文本和样本听人文本构成。
10.根据权利要求1至8任一所述的方法,其特征在于,所述基于所述手语文本生成所述手语视频,包括:
获取所述手语文本中各个手语词汇对应的手语手势信息;
基于所述手语手势信息控制虚拟对象按序执行手语手势;
基于所述虚拟对象执行所述手语手势时的画面生成所述手语视频。
11.根据权利要求1至8任一所述的方法,其特征在于,所述获取听人文本,包括如下至少一种方式:
获取输入的所述听人文本;
获取字幕文件;从所述字幕文件中提取所述听人文本;
获取音频文件;对所述音频文件进行语音识别,得到语音识别结果;基于所述语音识别结果生成所述听人文本;
获取视频文件;对所述视频文件的视频帧进行OCR识别,得到文字识别结果;基于所述文字识别结果生成所述听人文本。
12.一种手语视频的生成装置,其特征在于,所述装置包括:
获取模块,用于获取听人文本,所述听人文本为符合健听人士语法结构的文本;
提取模块,用于对所述听人文本进行摘要提取,得到摘要文本,所述摘要文本的文本长度短于所述听人文本的文本长度;
转换模块,用于将所述摘要文本转换为手语文本,所述手语文本为符合听障人士语法结构的文本;
生成模块,用于基于所述手语文本生成所述手语视频,所述手语视频与所述听人文本对应的音频保持同步。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的手语视频的生成方法。
14.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的手语视频的生成方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得计算机设备执行如权利要求1至11任一所述的手语视频的生成方法。
CN202210114157.1A 2022-01-30 2022-01-30 手语视频的生成方法、装置、计算机设备及存储介质 Pending CN116561294A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210114157.1A CN116561294A (zh) 2022-01-30 2022-01-30 手语视频的生成方法、装置、计算机设备及存储介质
PCT/CN2022/130862 WO2023142590A1 (zh) 2022-01-30 2022-11-09 手语视频的生成方法、装置、计算机设备及存储介质
US18/208,765 US20230326369A1 (en) 2022-01-30 2023-06-12 Method and apparatus for generating sign language video, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210114157.1A CN116561294A (zh) 2022-01-30 2022-01-30 手语视频的生成方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116561294A true CN116561294A (zh) 2023-08-08

Family

ID=87470430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210114157.1A Pending CN116561294A (zh) 2022-01-30 2022-01-30 手语视频的生成方法、装置、计算机设备及存储介质

Country Status (3)

Country Link
US (1) US20230326369A1 (zh)
CN (1) CN116561294A (zh)
WO (1) WO2023142590A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719421B (zh) * 2023-08-10 2023-12-19 果不其然无障碍科技(苏州)有限公司 一种手语气象播报方法、***、装置和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566075B1 (en) * 2007-05-31 2013-10-22 PPR Direct Apparatuses, methods and systems for a text-to-sign language translation platform
CN101877189A (zh) * 2010-05-31 2010-11-03 张红光 从汉语文本到手语机译方法
CN110457673B (zh) * 2019-06-25 2023-12-19 北京奇艺世纪科技有限公司 一种自然语言转换为手语的方法及装置
CN111147894A (zh) * 2019-12-09 2020-05-12 苏宁智能终端有限公司 一种手语视频的生成方法、装置及***
CN112685556A (zh) * 2020-12-29 2021-04-20 西安掌上盛唐网络信息有限公司 一种新闻文本自动摘要及语音播报***

Also Published As

Publication number Publication date
US20230326369A1 (en) 2023-10-12
WO2023142590A1 (zh) 2023-08-03

Similar Documents

Publication Publication Date Title
CN112562721B (zh) 一种视频翻译方法、***、装置及存储介质
CN111741326B (zh) 视频合成方法、装置、设备及存储介质
CN111541910B (zh) 一种基于深度学习的视频弹幕评论自动生成方法及***
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN114401438B (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112738557A (zh) 视频处理方法及装置
CN114143479B (zh) 视频摘要的生成方法、装置、设备以及存储介质
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
CN110781346A (zh) 基于虚拟形象的新闻生产方法、***、装置和存储介质
CN114286154A (zh) 多媒体文件的字幕处理方法、装置、电子设备及存储介质
CN108847246A (zh) 一种动画制作方法、装置、终端及可读介质
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN117292022A (zh) 基于虚拟对象的视频生成方法、装置及电子设备
CN117152308A (zh) 一种虚拟人动作表情优化方法与***
KR102541008B1 (ko) 화면해설 컨텐츠를 제작하는 방법 및 장치
CN114363531B (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
CN115529500A (zh) 动态影像的生成方法和装置
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质
CN115731917A (zh) 语音数据处理方法、模型训练方法、装置及存储介质
CN116074574A (zh) 一种视频处理方法、装置、设备及存储介质
US20240112390A1 (en) Video-Generation System WITH STRUCTURED DATA-BASED VIDEO GENERATION FEATURE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40091472

Country of ref document: HK