CN104853257A - 字幕显示方法和装置 - Google Patents

字幕显示方法和装置 Download PDF

Info

Publication number
CN104853257A
CN104853257A CN201510219189.8A CN201510219189A CN104853257A CN 104853257 A CN104853257 A CN 104853257A CN 201510219189 A CN201510219189 A CN 201510219189A CN 104853257 A CN104853257 A CN 104853257A
Authority
CN
China
Prior art keywords
information
speech frame
text
group
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510219189.8A
Other languages
English (en)
Inventor
朱柏涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510219189.8A priority Critical patent/CN104853257A/zh
Publication of CN104853257A publication Critical patent/CN104853257A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种字幕显示方法和装置,以解决现有的字幕显示方法无法满足用户的需求,用户体验较差的问题。其中,方法包括:接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息;分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组;解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息;分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;在播放所述视频信息和所述音频信息时,同步显示标记后的字幕信息。本发明能够满足用户的需求,提高用户体验。

Description

字幕显示方法和装置
技术领域
本发明涉及多媒体技术领域,特别是涉及一种字幕显示方法和装置。
背景技术
视频作为一种重要的媒介手段在当今的生活中已经起到了越来越重要的作用,字幕作为辅助视频表达的重要的手段,为了使观众能够更好的理解视频中人物所说的内容,通常会在播放视频时显示对应的字幕。一般观众通过观看字幕、倾听视频中讲话者的语气轻重以及观察讲话者的面部表情很容易理解讲话者的情感、想要表达的意思,从而确定重要的故事情节,但是对于听力障碍的观众,并不能够听见讲话者的声音,因此只能依靠观看字幕来理解剧情。
因此,听力障碍的用户仅依靠观看字幕来理解剧情,对视频剧情的真正理解困难较大,容易丢失重要的语义信息。因此,现有的字幕显示方法无法满足用户的需求,用户体验较差。
发明内容
本发明提供了一种字幕显示方法和装置,以解决现有的字幕显示方法无法满足用户的需求,用户体验较差的问题。
为了解决上述问题,本发明公开了一种字幕显示方法,包括:
接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息;
分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组;
解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息;
分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;
在播放所述视频信息和所述音频信息时,同步显示标记后的字幕信息。
优选地,在所述接收播放数据流的步骤之后,还包括:
对所述音频信息进行分帧处理,得到所述音频信息中的多个分析帧;
确定能够反映语音和噪声差别的特征参数;
针对各分析帧,分别依据当前分析帧对应的所述特征参数,对当前分析帧进行端点判决,确定当前分析帧是否为语音帧。
优选地,所述分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组的步骤包括:
分别将所述字幕信息中的各文字组的文字颜色标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的颜色。
优选地,所述分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组的步骤包括:
分别在所述字幕信息中的各文字组的预设位置标记能够描述与所述文字组相匹配的语音帧对应的情感信息的描述信息。
优选地,所述分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组的步骤包括:
获取所述音频信息中的各语音帧的时间戳和所述字幕信息中的文字的时间戳;
针对各语音帧,分别将与当前语音帧的时间戳相同的时间戳对应的文字组成的文字组确定为与当前语音帧相匹配的文字组。
优选地,所述解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息的步骤包括:
计算所述音频信息中的各语音帧的短时能量;
针对各语音帧,分别确定当前语音帧的短时能量对应的情感信息,将所述情感信息确定为当前语音帧对应的情感信息。
根据本发明的另一方面,还公开了一种字幕显示装置,包括:
接收模块,用于接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息;
匹配模块,用于分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组;
解析模块,用于解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息;
标记模块,用于分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;
显示模块,用于在播放所述视频信息和所述音频信息时,同步显示标记后的字幕信息。
优选地,所述装置还包括:
分帧模块,用于对所述音频信息进行分帧处理,得到所述音频信息中的多个分析帧;
确定模块,用于确定能够反映语音和噪声差别的特征参数;
判决模块,用于针对各分析帧,分别依据当前分析帧对应的所述特征参数,对当前分析帧进行端点判决,确定当前分析帧是否为语音帧。
优选地,所述标记模块包括:
颜色标记子模块,用于分别将所述字幕信息中的各文字组的文字颜色标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的颜色。
优选地,所述标记模块包括:
信息标记子模块,用于分别在所述字幕信息中的各文字组的预设位置标记能够描述与所述文字组相匹配的语音帧对应的情感信息的描述信息。
优选地,所述匹配模块包括:
时间获取子模块,用于获取所述音频信息中的各语音帧的时间戳和所述字幕信息中的文字的时间戳;
时间匹配子模块,用于针对各语音帧,分别将与当前语音帧的时间戳相同的时间戳对应的文字组成的文字组确定为与当前语音帧相匹配的文字组。
优选地,所述解析模块包括:
能量计算子模块,用于计算所述音频信息中的各语音帧的短时能量;
能量确定子模块,用于针对各语音帧,分别确定当前语音帧的短时能量对应的情感信息,将所述情感信息确定为当前语音帧对应的情感信息。
与现有技术相比,本发明包括以下优点:
本发明中在接收播放数据流后,首先,分别将数据流包括的音频信息中的各语音帧与数据流包括的字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组,并解析音频信息得到音频信息中的各语音帧对应的情感信息;然后分别将字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;最后,在播放视频信息时,同步显示标记后的字幕信息。通过上述方式,由于标记后的字幕信息能够描述与文字相匹配的语音对应的情感信息,因此用户在观看视频时,能够根据对文字的标记获知讲话者在讲这些文字时的情感信息,有助于用户(特别是听力障碍的用户)对视频剧情的理解,因此能够满足用户的需求(如理解剧情的需求),用户体验较高。
附图说明
图1是本发明实施例一的一种字幕显示方法的步骤流程图;
图2是本发明实施例二的一种字幕显示方法的步骤流程图;
图3是一种语音信号的波形示意图;
图4是本发明实施例二的一种字幕显示的示意图;
图5是本发明实施例三的一种字幕显示装置的结构框图;
图6是本发明实施例四的一种字幕显示装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了本发明实施例一的一种字幕显示方法的步骤流程图。
本实施例的字幕显示方法可以包括以下步骤:
步骤101,接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息。
本实施例的字幕显示方法可以应用于终端的视频网站播放视频时的字幕显示过程中,也可以应用于智能电视播放视频时的字幕显示过程中,等等。其中,终端可以为台式电脑、笔记本电脑、平板电脑、智能手机等,视频网站可以为安装于终端中的视频网站客户端,也可以为在终端上通过浏览器访问的视频网站。本实施例对上述各内容并不加以限制。
在播放视频时,首先接收播放数据流,该播放数据流为编码的数据流,接收到之后对该播放数据流进行解码得到相应的信息,其中包括视频信息、音频信息和字幕信息,得到这些信息进行相应的处理之后即可同步播放上述视频信息、音频信息和字幕信息。对于播放数据流的编码、解码、信息的处理等视频播放中的过程,本领域技术人员根据实际经验进行相关处理即可,本实施例在此不再详细论述。
步骤102,分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组。
音频信息中包括多个语音帧,字幕信息中包括多个文字。在确定出音频信息中的语音帧后,分别将音频信息中的各语音帧与字幕信息中的文字进行匹配,以确定与各语音帧相匹配的文字组,其中一个文字组中包括一个或多个文字,因此也即针对各语音帧,分别确定出当前语音帧与字幕信息中的哪个或哪几个文字相匹配。
步骤103,解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息。
为了满足用户的各种需求,进一步对音频信息进行解析,以针对各语音帧得到其对应的情感信息,该情感信息能够表明讲话者在讲出该语音帧时对应的情感。
需要说明的是,步骤102和步骤103并不限定于上述执行顺序,本实施例中,可以先执行步骤102再执行步骤103,也可以先执行步骤103再执行步骤102,还可以同时执行步骤102和步骤103,本实施例对步骤102和步骤103的具体执行顺序并不加以限制。
步骤104,分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组。
由于在播放视频时将同步播放对应的字幕,通过观看字幕能够得知视频中的讲话者所讲的文字。本实施例中,并非按照字幕的原始形式显示字幕,如仅是单纯地显示字幕中的文字,其中各文字的样式(字体、字号、颜色等)相同,而是在显示字幕之前,分别将字幕信息中的各文字组标记为、能够描述与该文字组相匹配的语音帧对应的情感信息的文字组,因此根据标记后的文字组即可得知在视频中的讲话者讲出该文字组时对应的情感。
步骤105,在播放视频信息和音频信息时,同步显示标记后的字幕信息。
为了使观众能够更好的理解视频中人物所说的内容,将在播放视频(视频信息和音频信息)时同步显示对应的字幕。由于标记后的字幕信息能够描述其中的各文字组对应语音的情感信息,因此在播放视频信息和音频信息时同步显示标记后的字幕信息,用户能够通过标记后的字幕信息获知视频中的讲话者在讲出该字幕信息对应的语音时的情感。对于在播放视频时同步显示字幕的具体过程,本领域技术人员根据实际经验进行相关处理即可,本实施例在此不再详细论述。
本实施例对上述各个步骤进行了简要描述,对于上述各个步骤的具体过程,将在下面的实施例二中进行详细描述。
本实施例中,通过上述方式,由于标记后的字幕信息能够描述与文字相匹配的语音对应的情感信息,因此用户在观看视频时,能够根据对文字的标记获知讲话者在讲这些文字时的情感信息,有助于用户(特别是听力障碍的用户)对视频剧情的理解,因此能够满足用户的需求(如理解剧情的需求),用户体验较高。
实施例二
参照图2,示出了本发明实施例二的一种字幕显示方法的步骤流程图。
本实施例中,以下各步骤由播放视频的对象执行,例如,如果是视频网站播放视频的过程,则由视频网站执行以下各步骤;如果是智能电视播放视频的过程,则由智能电视执行以下各步骤,等等。
本实施例的字幕显示方法可以包括以下步骤:
步骤201,在接收到启动情感字幕显示模式的指令后,进入情感字幕显示模式。
本实施例中,可以预先设置情感字幕显示模式,对应于该情感字幕显示模式设置启动和关闭选项,例如可以设置启动和关闭按钮等,从而可以灵活设置是否允许在播放视频时采用本实施例的方式显示字幕。
当选择启动情感字幕显示模式时,可以接收到启动情感字幕显示模式的指令,在接收到该指令后进入情感字幕显示模式,进入该模式后即可允许在播放视频时采用本实施例的方式显示字幕,即同步显示标记后的字幕信息。当选择关闭情感字幕显示模式时,***可以接收到关闭情感字幕显示模式的指令,在接收到该指令后即可退出情感字幕显示模式,退出该模式后即不再允许在播放视频时采用本实施例的方式显示字幕,即同步显示原始样式的字幕信息。因此,以下步骤为在进入情感字幕显示模式后执行的步骤。
步骤202,接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息。
接收编码的播放数据流,并对该编码的播放数据流进行解码,从而得到播放数据流中包括的视频信息、音频信息和字幕信息。对于该步骤的具体过程,本领域技术人员根据实际经验进行相关处理即可,本实施例对此不再详细论述。
步骤203,确定所述音频信息中包括的语音帧。
在一段音频中,讲话者可能并不是连续讲出语音,中间可能会有停顿即未讲出语音,在讲出语音时对应的帧为语音帧,未讲出语音时对应的帧为非语音帧,而讲出语音时才会匹配字幕中的文字,因此首先要确定音频信息中包括的语音帧和非语音帧,后续再对其中的语音帧进行以下步骤中的相关处理。因此,该步骤203的目的主要为将音频信息进行切分和标注,确定其中包括的语音帧,进一步将语音与字幕对应起来,通过对语音的切分,以字或词组为单位,与相应的字幕对应起来。
优选地,本实施例中,可以采用端点检测的方式确定音频信息中包括的语音帧。因此,该步骤203可以包括以下子步骤:
子步骤a1,对所述音频信息进行分帧处理,得到所述音频信息中的多个分析帧;
子步骤a2,确定能够反映语音和噪声差别的特征参数;
子步骤a3,针对各分析帧,分别依据当前分析帧对应的所述特征参数,对当前分析帧进行端点判决,确定当前分析帧是否为语音帧。
语音端点检测本质上是根据语音和噪声对于相同参数所表现出的不同特征来区分两者的。如上所述,语音端点检测的过程为:预处理;参数提取;端点判决;判断当前帧是否为信号的最后一帧,若是,则返回参数提取的过程;若否,则后处理。其中,预处理包括分帧处理和预滤波处理等,分帧是指将语音信号分段(称为语音帧,各帧通常是有交叠的),预滤波是指采用高通滤波器滤除低频噪声;参数提取是指选取可以反映语音和噪声差别的特征参数,各个分析帧对应的特征参数可以相同也可以不同;端点判决是指采用一种判决准则来区分语音帧与非语音帧,如门限判决或模式分类等;后处理是指对上述判决结果进行平滑滤波等处理,得到最终的语音端点判决结果。
具体的,在语音端点检测的流程中,参数提取和端点判决是两个关键步骤。
参数提取是指选取能够反映语音和噪声差别的特征参数,是以语音和噪声的特性为基础。语音信号是一种典型的非平稳信号。但是,语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度要缓慢得多,因此语音信号常常可假定为短时平稳的。语音可粗略分为清音和浊音两大类。浊音在时域上呈现出明显的周期性,在频域上出现共振峰,而且能量大部分集中在较低频段内。但清音段相对于很大一类噪声没有明显的时域和频域特征,类似于白噪声。在语音端点检测算法研究中,可利用浊音的周期性特征,而清音则难以与宽带噪声区分。
噪声来源于实际的应用环境,因而其特性变化无穷。混入语音中的噪声可以是加性的,也可以是非加性的。考虑到加性噪声更普遍且易于分析问题,并且对于非加性噪声,有些可以通过一定变换转换为加性噪声,因此几乎所有研究语音端点检测技术的学者都是针对加性噪声展开研究的。端点判决可以通过门限判决的方式实现的,即设定一定的判决门限,当所提参数大于(或者小于或等于)该门限时认为是语音,而小于或等于(或者大于)该门限时认为是噪声。本领域技术人员根据实际经验采用任意一种适用的判决方式即可,例如,采用双门限判决方式或基于模糊逻辑和模式分类的判决方式等,本实施例对此并不加以限制。
步骤204,分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组。
在确定出音频信息中包括的语音帧后,针对其中的每个语音帧,分别将当前语音帧与字幕信息中的文字进行匹配,确定与当前语音帧相匹配的文字组,即当前语音帧对应于字幕信息中的哪个或哪些文字。
优选地,本实施例中可以基于时间戳将语音帧与文字进行匹配。为了实现视频、音频、字幕的同步,将分别给对应的视频、音频和字幕打上时间戳:首先选择一个参考时钟(要求参考时钟上的时间是线性递增的);生成数据流时依据参考时钟上的时间给每个数据块都打上时间戳(一般包括开始时间和结束时间);在播放时,读取数据块上的时间戳,同时参考当前参考时钟上的时间来安排播放(如果数据块的开始时间大于当前参考时钟上的时间,则不急于播放该数据块,直到参考时钟达到数据块的开始时间;如果数据块的开始时间小于当前参考时钟上的时间,则“尽快”播放这块数据或者索性将这块数据“丢弃”,以使播放进度追上参考时钟)。因此,上述语音帧与文字均具有各自对应的时间戳,语音帧的时间戳是指该语音帧的播放时间,文字的时间戳是指该文字的播放时间。
因此,该步骤204可以包括以下子步骤:
子步骤b1,获取所述音频信息中的各语音帧的时间戳和所述字幕信息中的文字的时间戳;
子步骤b2,针对各语音帧,分别将与当前语音帧的时间戳相同的时间戳对应的文字组成的文字组确定为与当前语音帧相匹配的文字组。
例如,某个语音帧的时间戳为10s(开始时间)~12s(结束时间),则获取对应的时间戳在10s~12s之间的文字,如文字A对应的时间戳为10s~11s,文字B对应的时间戳为11s~12s,则文字A和文字B组成的文字组AB即为与该语音帧相匹配的文字组。
经过上述过程,即可将字幕中的文字与音频信息中的语音帧相对应,例如,在某个时间字幕显示“我们”,则在该时间也将同时播放语音“我们”。
步骤205,解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息。
为了满足用户的需求,本实施例中改变原有的单纯显示字幕的方式,将在显示字幕的同时,体现该字幕中的文字对应的情感信息,从而使用户能够更加准确地理解视频的情节,提升用户体验。音频信息中的各语音帧各自对应有情感信息,因此,进一步解析音频信息,得到音频信息中的各语音帧对应的情感信息。
优选地,本实施例中,可以基于语音帧的短时能量确定语音帧对应的情感信息。因此,该步骤205可以包括以下子步骤:
子步骤c1,计算所述音频信息中的各语音帧的短时能量;
语音信号典型的时域特征包括短时能量、短时平均过零率、短时自相关系数、短时平均幅度差等。不同情感的语音其能量变化有着明显的不同,因此,对短时能量进行分析,可以描述语音的情感变化情况。短时能量和语音的振幅有直接的关系,振幅大则短时能量大,振幅小则短时能量小,这与生活中当人们高兴或生气时说话音量高,而悲伤或厌倦时说话音量低相符,对于高强度情感语音如高兴、生气等,语音信号往往具有较大的振幅,而对于低强度情感语音如悲伤、厌倦等,语音信号的振幅较小。如图3所示,为一种语音信号的波形示意图,从图3可以得知,振幅较大的采样点对应的语音的短时能量较高,振幅较小的采样点对应的语音的短时能量较低。
对于短时能量的标示,假设语音时域信号为X(m),利用窗函数对其进行分帧后得到第n帧语音信号(即第n个语音帧)表示为Xn(m),则可以得到:
Xn(m)=w(m)X(n+m)0≤m≤N-1,n=0,1T,2T,…
其中N为帧长,T为帧移动步长,w(m)为窗函数,对于具体的窗函数,本领域技术人员根据实际经验选取任意适用的窗函数即可,本实施例对此并不加以限制。
则得到第n帧语音信号的短时能量En
E n = Σ m = 0 N - 1 X n 2 ( m )
子步骤c2,针对各语音帧,分别确定当前语音帧的短时能量对应的情感信息,将所述情感信息确定为当前语音帧对应的情感信息。
本实施例中,可以预先设置短时能量与情感信息的对应关系,其中,情感信息可以包括平静、厌倦、伤心、高兴、愤怒,等等,可以设置每种情感信息对应的短时能量的范围,高强度情感如愤怒、高兴等对应的短时能量要明显高于低强度情感如厌倦、伤心等对应的短时能量,中性情感如平静等对应的短时能量处于中间位置,而高强度情感中愤怒对应的短时能量也高于高兴对应的短时能量,伤心对应的短时能量稍高于厌倦对应的短时能量。对于某种情感信息来讲,位于该情感信息对应的短时能量范围内的短时能量即对应该情感信息,因此,当某个语音帧的短时能量位于某种情感信息对应的短时能量的范围内时,则可以确定该语音帧对应于该种情感信息。
对于上述每种情感信息对应的短时能量的范围,本领域技术人员根据实际经验进行任意适用的设置即可,本实施例对具体的数值并不加以限制。
步骤206,分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组。
在确定出与音频信息中的各语音帧相匹配的文字组,且得到各语音帧对应的情感信息之后,即可对字幕信息中的各文字组进行标记,分别将字幕信息中的各文字组标记为、能够描述与该文字组相匹配的语音帧对应的情感信息的文字组,也即针对字幕信息中的各文字组,首先分别获取与当前文字组相匹配的语音帧对应的情感信息,然后将当前文字组标记为能够描述该情感信息的文字组。
在一种优选实施例中,该步骤206可以采用以下方式:分别将所述字幕信息中的各文字组的文字颜色标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的颜色。
该种方式中,通过文字的颜色区分文字对应的情感,可以预先设置能够描述情感信息的颜色,不同情感信息采用不同的颜色表示,例如,用红色描述愤怒,黄色描述高兴,绿色描述平静,深蓝色描述伤心,浅蓝色描述厌倦,等。上述颜色只是用于举例说明,对于描述情感信息的具体颜色,本领域技术人员可以根据实际情况进行任意适用的设置,本实施例对此并不加以限制。对于文字的颜色的标记,可以通过调整文字对应的RGB颜色值实现,RGB色彩模式是工业界的一种颜色标准,是通过对红(Red)、绿(Green)、蓝(Blue)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,对于具体的调整方式,本实施例不再详细论述。
在另一种优选实施例中,该步骤206可以采用以下方式:分别在所述字幕信息中的各文字组的预设位置标记能够描述与所述文字组相匹配的语音帧对应的情感信息的描述信息。
该种方式中,通过描述信息区分文字对应的情感,可以预先设置能够描述情感信息的描述信息,不同情感信息采用不同的描述信息表示,其中描述信息可以为表情图片、文字、信号波形图等。对于上述的预设位置,本领域技术人员根据实际经验进行相关设置即可,例如可以设置在文字组的上方或下方等,本实施例对具体的位置并不加以限制。
需要说明的是,上述两种方式可以择一使用,也可以全部使用,当然,还可以通过其他方式进行标记,本实施例对此并不加以限制。
步骤207,在播放视频信息和音频信息时,同步显示标记后的字幕信息。
经过上述步骤,字幕信息即为被标记过的字幕信息,在播放视频信息和音频信息时,将同步显示标记后的字幕信息。对于同步显示的具体过程,本领域技术人员根据实际经验进行相关设置即可,例如基于时间戳实现同步,本实施例在此不再详细论述。
下面,以对字幕的文字颜色进行标记为例进行说明。参照图4,示出了本发明实施例二的一种字幕显示的示意图。由图4可知,其中视频信息为图中显示的图像,字幕信息为“姑姑你不要死啊”,音频信息为“姑姑你不要死啊”对应的语音;经过步骤203确定出音频信息中包括的语音帧分别为:“姑姑”对应的语音帧、“你”对应的语音帧、“不要”对应的语音帧和“死啊”对应的语音帧;经过步骤204确定出与各语音帧相匹配的文字组分别为:“姑姑”、“你”、“不要”和“死啊”;经过步骤205解析得到“姑姑”对应的语音帧所对应的情感信息为伤心,“你”对应的语音帧所对应的情感信息为平静,“不要”对应的语音帧所对应的情感信息为伤心,“死啊”对应的语音帧所对应的情感信息为平静;因此经过步骤206可以将字幕信息中的“姑姑”标记为深蓝色,“你”标记为绿色,“不要”标记为深蓝色,“死啊”标记为绿色。需要说明的是,图4中并未示出字幕中文字的实际颜色,而是利用文字下面的用于标记颜色的文字说明,在实际使用中,字幕的颜色将直接显示为其实际的颜色,而用于标记颜色的文字在图4中只是用于解释说明,实际并不显示在视频中。图4只是用于举例说明,其并不作为对本实施例方法的限制。
采用本实施例所提出的方法,能够帮助听力障碍者在观看视频时及时获取到讲话者的感情色彩,能够更好的理解剧情。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
实施例三
参照图5,示出了本发明实施例三的一种字幕显示装置的结构框图。
本实施例的字幕显示装置可以包括以下模块:
接收模块501,用于接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息;
匹配模块502,用于分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组;
解析模块503,用于解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息;
标记模块504,用于分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;
显示模块505,用于在播放所述视频信息和所述音频信息时,同步显示标记后的字幕信息。
本实施例中在接收播放数据流后,首先,分别将数据流包括的音频信息中的各语音帧与数据流包括的字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组,并解析音频信息得到音频信息中的各语音帧对应的情感信息;然后分别将字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;最后,在播放视频信息时,同步显示标记后的字幕信息。通过上述方式,由于标记后的字幕信息能够描述与文字相匹配的语音对应的情感信息,因此用户在观看视频时,能够根据对文字的标记获知讲话者在讲这些文字时的情感信息,有助于用户(特别是听力障碍的用户)对视频剧情的理解,因此能够满足用户的需求(如理解剧情的需求),用户体验较高。
实施例四
参照图6,示出了本发明实施例四的一种字幕显示装置的结构框图。
本实施例的字幕显示装置可以包括以下模块:
接收模块601,用于接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息;
分帧模块602,用于对所述音频信息进行分帧处理,得到所述音频信息中的多个分析帧;
确定模块603,用于确定能够反映语音和噪声差别的特征参数;
判决模块604,用于针对各分析帧,分别依据当前分析帧对应的所述特征参数,对当前分析帧进行端点判决,确定当前分析帧是否为语音帧。
匹配模块605,用于分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组;
解析模块606,用于解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息;
标记模块607,用于分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;
显示模块608,用于在播放所述视频信息和所述音频信息时,同步显示标记后的字幕信息。
其中,所述匹配模块包括以下子模块:
时间获取子模块,用于获取所述音频信息中的各语音帧的时间戳和所述字幕信息中的文字的时间戳;
时间匹配子模块,用于针对各语音帧,分别将与当前语音帧的时间戳相同的时间戳对应的文字组成的文字组确定为与当前语音帧相匹配的文字组。
所述解析模块包括以下子模块:
能量计算子模块,用于计算所述音频信息中的各语音帧的短时能量;
能量确定子模块,用于针对各语音帧,分别确定当前语音帧的短时能量对应的情感信息,将所述情感信息确定为当前语音帧对应的情感信息。
所述标记模块包括以下子模块中的至少一个:
颜色标记子模块,用于分别将所述字幕信息中的各文字组的文字颜色标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的颜色;
信息标记子模块,用于分别在所述字幕信息中的各文字组的预设位置标记能够描述与所述文字组相匹配的语音帧对应的情感信息的描述信息。
采用本实施例所提出的装置,能够帮助听力障碍者在观看视频时及时获取到讲话者的感情色彩,能够更好的理解剧情。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种字幕显示方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种字幕显示方法,其特征在于,包括:
接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息;
分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组;
解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息;
分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;
在播放所述视频信息和所述音频信息时,同步显示标记后的字幕信息。
2.根据权利要求1所述的方法,其特征在于,在所述接收播放数据流的步骤之后,还包括:
对所述音频信息进行分帧处理,得到所述音频信息中的多个分析帧;
确定能够反映语音和噪声差别的特征参数;
针对各分析帧,分别依据当前分析帧对应的所述特征参数,对当前分析帧进行端点判决,确定当前分析帧是否为语音帧。
3.根据权利要求1所述的方法,其特征在于,所述分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组的步骤包括:
分别将所述字幕信息中的各文字组的文字颜色标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的颜色。
4.根据权利要求1所述的方法,其特征在于,所述分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组的步骤包括:
分别在所述字幕信息中的各文字组的预设位置标记能够描述与所述文字组相匹配的语音帧对应的情感信息的描述信息。
5.根据权利要求1所述的方法,其特征在于,所述分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组的步骤包括:
获取所述音频信息中的各语音帧的时间戳和所述字幕信息中的文字的时间戳;
针对各语音帧,分别将与当前语音帧的时间戳相同的时间戳对应的文字组成的文字组确定为与当前语音帧相匹配的文字组。
6.根据权利要求1所述的方法,其特征在于,所述解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息的步骤包括:
计算所述音频信息中的各语音帧的短时能量;
针对各语音帧,分别确定当前语音帧的短时能量对应的情感信息,将所述情感信息确定为当前语音帧对应的情感信息。
7.一种字幕显示装置,其特征在于,包括:
接收模块,用于接收播放数据流,所述播放数据流包括视频信息、音频信息和字幕信息;
匹配模块,用于分别将所述音频信息中的各语音帧与所述字幕信息中的文字进行匹配,确定与各语音帧相匹配的文字组;
解析模块,用于解析所述音频信息,得到所述音频信息中的各语音帧对应的情感信息;
标记模块,用于分别将所述字幕信息中的各文字组标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的文字组;
显示模块,用于在播放所述视频信息和所述音频信息时,同步显示标记后的字幕信息。
8.根据权利要求7所述的装置,其特征在于,还包括:
分帧模块,用于对所述音频信息进行分帧处理,得到所述音频信息中的多个分析帧;
确定模块,用于确定能够反映语音和噪声差别的特征参数;
判决模块,用于针对各分析帧,分别依据当前分析帧对应的所述特征参数,对当前分析帧进行端点判决,确定当前分析帧是否为语音帧。
9.根据权利要求7所述的装置,其特征在于,所述标记模块包括:
颜色标记子模块,用于分别将所述字幕信息中的各文字组的文字颜色标记为、能够描述与所述文字组相匹配的语音帧对应的情感信息的颜色。
10.根据权利要求7所述的装置,其特征在于,所述标记模块包括:
信息标记子模块,用于分别在所述字幕信息中的各文字组的预设位置标记能够描述与所述文字组相匹配的语音帧对应的情感信息的描述信息。
11.根据权利要求7所述的装置,其特征在于,所述匹配模块包括:
时间获取子模块,用于获取所述音频信息中的各语音帧的时间戳和所述字幕信息中的文字的时间戳;
时间匹配子模块,用于针对各语音帧,分别将与当前语音帧的时间戳相同的时间戳对应的文字组成的文字组确定为与当前语音帧相匹配的文字组。
12.根据权利要求7所述的装置,其特征在于,所述解析模块包括:
能量计算子模块,用于计算所述音频信息中的各语音帧的短时能量;
能量确定子模块,用于针对各语音帧,分别确定当前语音帧的短时能量对应的情感信息,将所述情感信息确定为当前语音帧对应的情感信息。
CN201510219189.8A 2015-04-30 2015-04-30 字幕显示方法和装置 Pending CN104853257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510219189.8A CN104853257A (zh) 2015-04-30 2015-04-30 字幕显示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510219189.8A CN104853257A (zh) 2015-04-30 2015-04-30 字幕显示方法和装置

Publications (1)

Publication Number Publication Date
CN104853257A true CN104853257A (zh) 2015-08-19

Family

ID=53852550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510219189.8A Pending CN104853257A (zh) 2015-04-30 2015-04-30 字幕显示方法和装置

Country Status (1)

Country Link
CN (1) CN104853257A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107181986A (zh) * 2016-03-11 2017-09-19 百度在线网络技术(北京)有限公司 视频与字幕的匹配方法和装置
CN108055592A (zh) * 2017-11-21 2018-05-18 广州视源电子科技股份有限公司 字幕显示方法、装置、移动终端及存储介质
CN109376145A (zh) * 2018-11-19 2019-02-22 深圳Tcl新技术有限公司 影视对白数据库的建立方法、建立装置及存储介质
CN109462768A (zh) * 2018-10-25 2019-03-12 维沃移动通信有限公司 一种字幕显示方法及终端设备
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
JP2021170803A (ja) * 2018-06-04 2021-10-28 エヌシーソフト・コーポレイションNcsoft Corporation 字幕生成方法および字幕生成装置
CN114095782A (zh) * 2021-11-12 2022-02-25 广州博冠信息科技有限公司 一种视频处理方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030368A (zh) * 2006-03-03 2007-09-05 国际商业机器公司 在保持情感的同时跨通道进行通信的方法和***
CN101262611A (zh) * 2005-05-01 2008-09-10 腾讯科技(深圳)有限公司 一种流媒体播放器
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及***
US20130041905A1 (en) * 2011-08-08 2013-02-14 Google Inc. Sentimental Information Associated with an Object Within a Media
CN103139375A (zh) * 2011-12-02 2013-06-05 Lg电子株式会社 移动终端及其控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101262611A (zh) * 2005-05-01 2008-09-10 腾讯科技(深圳)有限公司 一种流媒体播放器
CN101030368A (zh) * 2006-03-03 2007-09-05 国际商业机器公司 在保持情感的同时跨通道进行通信的方法和***
US20130041905A1 (en) * 2011-08-08 2013-02-14 Google Inc. Sentimental Information Associated with an Object Within a Media
CN103139375A (zh) * 2011-12-02 2013-06-05 Lg电子株式会社 移动终端及其控制方法
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107181986A (zh) * 2016-03-11 2017-09-19 百度在线网络技术(北京)有限公司 视频与字幕的匹配方法和装置
CN108055592A (zh) * 2017-11-21 2018-05-18 广州视源电子科技股份有限公司 字幕显示方法、装置、移动终端及存储介质
JP2021170803A (ja) * 2018-06-04 2021-10-28 エヌシーソフト・コーポレイションNcsoft Corporation 字幕生成方法および字幕生成装置
JP7269286B2 (ja) 2018-06-04 2023-05-08 エヌシーソフト・コーポレイション 字幕生成方法および字幕生成装置
CN109462768A (zh) * 2018-10-25 2019-03-12 维沃移动通信有限公司 一种字幕显示方法及终端设备
CN109376145A (zh) * 2018-11-19 2019-02-22 深圳Tcl新技术有限公司 影视对白数据库的建立方法、建立装置及存储介质
CN109376145B (zh) * 2018-11-19 2022-05-06 深圳Tcl新技术有限公司 影视对白数据库的建立方法、建立装置及存储介质
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
CN114095782A (zh) * 2021-11-12 2022-02-25 广州博冠信息科技有限公司 一种视频处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN104853257A (zh) 字幕显示方法和装置
CN110709924B (zh) 视听语音分离
CN105244026B (zh) 一种语音处理方法及装置
US10013977B2 (en) Smart home control method based on emotion recognition and the system thereof
CN108847214B (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
KR20180025121A (ko) 메시지 입력 방법 및 장치
CN110808034A (zh) 语音转换方法、装置、存储介质及电子设备
CN107403011B (zh) 虚拟现实环境语言学习实现方法和自动录音控制方法
CN104123115A (zh) 一种音频信息处理方法及电子设备
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN110880198A (zh) 动画生成方法和装置
KR101904455B1 (ko) 학습자 적응형 외국어 학습 방법 및 이를 실행하는 장치
Mian Qaisar Isolated speech recognition and its transformation in visual signs
CN104851423B (zh) 一种声音信息处理方法及装置
CN107767862B (zh) 语音数据处理方法、***及存储介质
CN111144138A (zh) 一种同声传译方法及装置、存储介质
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN111863009B (zh) 上下文信息预测模型的训练方法及***
CN109213466B (zh) 庭审信息的显示方法及装置
Kadiri et al. Naturalistic audio-visual emotion database
CN112837672A (zh) 对话归属的确定方法、装置、电子设备及存储介质
CN108429932A (zh) 视频处理方法和装置
CN117015780A (zh) 训练和使用深度学习模型进行转录主题分割

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150819

RJ01 Rejection of invention patent application after publication