CN107750009A - 一种使用Android设备同步朗读视频文件外挂字幕的方法 - Google Patents

一种使用Android设备同步朗读视频文件外挂字幕的方法 Download PDF

Info

Publication number
CN107750009A
CN107750009A CN201711019961.7A CN201711019961A CN107750009A CN 107750009 A CN107750009 A CN 107750009A CN 201711019961 A CN201711019961 A CN 201711019961A CN 107750009 A CN107750009 A CN 107750009A
Authority
CN
China
Prior art keywords
video
identity
foreign language
captions
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711019961.7A
Other languages
English (en)
Inventor
李鸿利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Liandi Information Accessibility Co Ltd
Original Assignee
Shenzhen Liandi Information Accessibility Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Liandi Information Accessibility Co Ltd filed Critical Shenzhen Liandi Information Accessibility Co Ltd
Priority to CN201711019961.7A priority Critical patent/CN107750009A/zh
Publication of CN107750009A publication Critical patent/CN107750009A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种使用Android设备同步朗读视频文件外挂字幕的方法,所述方法包括:步骤一、识别视频文件的身份标识;步骤二、识别该身份标识中的外文信息,并将该外文信息反馈给用户;步骤三、根据用户的选择,从服务器上调取与所述视频的身份标识唯一对应的视频字幕;步骤四、将所述唯一对应的视频字幕下载到本地;步骤五、调取文字转语音引擎,并根据设置阅读下载到本地的字幕。通过上述技术方案可以让视力障碍人可以和普通人一样的在Android设备上观看非母语的视频资源或者了解视频中的场景,从而解决视力障碍人无法看懂外语视频或者是错失视频中的关键场景的问题。

Description

一种使用Android设备同步朗读视频文件外挂字幕的方法
技术领域
本专利属于无障碍技术领域,具体而言涉及一种使用Android设备同步朗读视频文件外挂字幕的方法、
背景技术
无障碍技术是一种专门为身体功能有障碍的人士提供的辅助技术。例如,对于视觉有障碍的人士,提供一种通过听觉呈现视觉内容的技术,例如通过朗读网页来呈现网页上的内容。无障碍技术的应用为身体功能有障碍的人士提供了巨大的便利。但是随着信息化的发展,人们在日常生活中接触的媒体形态越来越多样,对于无障碍技术的挑战也越来越大。
例如,在视频播放中,当播放的视频使用的语言并不是母语时,需要视频观看者具有该视频语言理解的能力。这样才能理解视频中的内容。对于没有外语能力的人而言,现有技术中通常通过字幕的方式来呈现视频中的语言,字幕的出现能够帮助不具备外语能力或者外语能力较差的人理解视频中的外语,起到了很大的作用。但是对于具有视觉障碍的人士而言,字幕的出现就造成了极大的困扰,因为字幕的阅读是依靠视觉来完成的,而对于视觉有障碍的人士而言,不能够实现对于字幕的理解。
虽然在某些情况下,视觉障碍人士可以选择经过翻译的其它声音文件来获取相应的信息,但是对于当今时代,视频的大量传播而言,大量的视频都没有翻译的内容,只能通过字幕的方式来提供翻译,因此对视觉障碍人士的带来越来越多的困扰。
发明内容
本专利正是基于现有技术中的上述需求而提出的。本专利的提出是视觉功能障碍的人士,处于其知识背景和知识现状而提出的,因此本专利中本领域技术人员的标准应当考虑到视觉障碍人士的知识范畴,从而客观看待。
本专利要解决的技术问题是提供一种使Android设备同步朗读视频文件外挂字幕的方法,以方便视觉障碍人士获取视频中的外语信息。
为了解决该技术问题,本专利提供的技术方案包括:
一种使用Android设备同步朗读视频文件外挂字幕的方法,所述方法包括如下步骤:步骤一、识别视频文件的身份标识;在本步骤中,首先通过检测视频文件中的身份标识字段来识别视频的身份,所述视频的身份与该视频唯一对应。步骤二、识别该身份标识中的外文信息,并将该外文信息反馈给用户;在本步骤中,首先通过读取在所述视频中设置的外文信息的字段,所述字段包括专用标识外文信息的字段或者是视频的所述身份标识字段中的具体数字;识别出外文信息后,将所述外文信息反馈给用户,所述反馈包括语音反馈,或者是通过弹出对话框并通过读屏软件读取对话框的方式来反馈给用户相应的外文信息;步骤三、根据用户的选择,从服务器上调取与所述视频的身份标识唯一对应的视频字幕在本步骤中,根据外文信息反馈给用户后,所述用户选择了调取字幕时,与远程服务器进行匹配,调取与所述视频的身份标识唯一对应的视频字幕;所述匹配采用所述视频的身份标识完成,所述字幕包括将外文翻译成中文的字幕信息,和/或对于视频场景进行说明的信息;步骤四、将所述唯一对应的视频字幕下载到本地在本步骤中,将匹配完成后的视频字幕下载到本地,这种下载可以是一次下载完成,也可以是在视频播放的过程中进行下载;步骤五、调取文字转语音引擎,并根据设置阅读下载到本地的字幕。在本步骤中,通过调取文字转语音引擎来实现对于字幕的阅读,所述设置包括设置文字转语音引擎的阅读方式,包括但不限于,语音的时间轴、语速、音量。
通过上述技术方案可以让视力障碍人可以和普通人一样的在Android设备上观看非母语的视频资源或者了解视频中的场景,从而解决视力障碍人无法看懂外语视频或者是错失视频中的关键场景的问题。
具体实施方式
下面,对本专利的具体实施方式进行详细说明,需要指出的是该具体实施方式仅仅是对本专利优选技术方案的举例,并不能够理解为对本专利保护范围的限制。
本具体实施方式提供了一种使Android设备同步朗读视频文件外挂字幕的方法,所述方法包括如下步骤:
步骤一、识别视频文件的身份标识
在本步骤中,首先通过检测视频文件中的身份标识字段来识别视频的身份,所述视频的身份与该视频唯一对应。
在本步骤中,可以通过在视频文件的内容中设置视频身份标识的字段来标识视频文件的身份,例如,某视频文件头上设置″youku 100001″字段,来标识该视频文件。如果其它网站引用了该视频的链接,在播放时同样会通过读取视频文件的该字段来获取该视频文件的身份,或者是通过拷贝的方式离线播放该视频文件时,也可以得到该视频文件的身份,从而识别该文件。视频文件内容的读取可以通过播放器来完成,也可以通过其它能够读取该视频文件信息的软件来完成。
步骤二、识别该身份标识中的外文信息,并将该外文信息反馈给用户
在本步骤中,可以在所述视频中设置外文信息的字段,或者是直接在身份标识字段中设置外文信息的数字码来实现对于该视频是中文还是外文的识别。例如,在步骤一所举的例子中,可以通过设置字段″youku 100001″中数字的第一位的数值来标识该文件是中文还是外文,例如当第一位不是0时,可以认为该视频是外文视频,当第一位是0时,可以认为该视频是中文视频。此外还可以设置该第一位的具体数字,例如1代表英语,2代表法语,3代表西班牙语等等。
当识别出外文信息后,通过语音提示的方式反馈给用户,例如调用读音软件,读取″当前视频为外文视频,是否需要读取中文字幕?″。在将外文信息反馈给用户时,还可以通过设置对话框的方式来实现,例如设置弹出对话框,在弹出对话框后,通过读屏软件读取对话框的信息,这样也能够给视觉障碍人士来进行提示。同时对于没有视觉障碍的人士,也可以通过操作对话框的方式来实现字幕的调取和选择。
通常用户可以选择″是″或者″否″根据用户选择″是″,或者″否″来提供相应的读取字幕操作。
需要说明的是,该步骤二并不是本具体实施方式中必须的,在本具体实施方式中还可以直接进入步骤三,而无需检测外文信息,因为当视频的读取者在接触到外文时,可以自行判定是外文信息,从而给相关智能设备发送需要调取字幕的指令,从而实现对于外文视频的判断。但是通过设置步骤二的优点在于提示相关的视觉障碍人士具有外文视频字幕读取的功能,并引导他们进行相关的操作。
步骤三、根据用户的选择调取与所述视频的标识相应的视频字幕
在本步骤中,当用户选择了加载字幕之后,根据用户的上述选择,与远程的服务器通讯,从远程服务其上调取相应的视频字幕,所述视频字幕的调取可以根据相应的视频标识来完成,视频标识所标识的视频是唯一的,因此,根据视频标识就可以匹配到与该视频标识唯一对应的字幕。在本步骤中,需要远程服务器中存储相应的字幕,或者是能够提供获取这些字幕的途径。
在实际的环境中,可能出现这种情况,例如,视频的内容是相近似的,但是视频的拍摄角度或者是时间的截取上并不相同,这时,需要根据视频标识来选择加载相应的字幕,而不是根据视频的名称或者类似的信息来加载字幕,这样才能够保证字幕的准确性,从而便于视觉障碍的人士来获取相对准确的信息。所述字幕除了文字的翻译之外,还可以包括场景的说明,这需要根据具体的视频内容来单独制作,这样不仅能够解决外语造成的语言困扰,还能够通过文字或者其它方式来呈现视频中内容的状态,甚至对于观看者母语进行演讲的视频也可以添加相应的场景说明字幕从而提高视觉障碍人士对于视频信息获取的能力。
步骤四、将所述视频字幕下载到本地
在本步骤中,将匹配完成后的视频字幕下载到本地,这种下载可以是一次下载完成,也可以是在视频播放的过程中进行下载,比如随着视频的播放预先下载一段内容。这取决于视频的长短和字幕的大小;对于较小的字幕文件,或者是播放极短的视频时,采用一次性下载完成无疑是更为方便的。但是如果字幕文件包括了过多的信息,或者播放视频的时间足够长,也无需完全下载完成所有的字幕文件,而是根据视频播放来选择性地下载相应的字幕。所述字幕需要下载到本地,可以是易失性存储器也可以是非易失性存储器。因为在随后的步骤中需要对于所述字幕进行媒体的转换,因此在只有在本地存储有相应的数据,尽管这些数据可能不是全部的数据,才能够完成相应的媒体转换处理。
步骤五、调取文字转语音引擎,并根据设置阅读下载到本地的字幕。
在本步骤中,通过调取文字转语音引擎来实现对于字幕的阅读。所述文字转语音引擎可以采用现有技术中的插件或软件来实现,这在现有技术中已经有广泛的记载因此本专利并不详细展开。在本步骤中通过调取文字转语音引擎来阅读已经下载到本地的字幕,即完成了字幕的媒体转换,从而将外文信息或者是视频中的场景描述转化为文字然后再转换为语音,这样就给有视觉障碍的人员提供了了解视频内容的方便。此外,为了方便信息的传递,还可以设置文字转语音引擎的阅读方式,包括语音的时间轴,语速,音量等,这样可以提供更加丰富的视频浏览方式。
本发明可以让视力障碍人可以和普通人一样的在Android设备上观看非母语的视频资源,如美剧、国外的纪录片、TED演讲等;同时还能够通过字幕的加载让视觉障碍人士获取某些视频中的场景信息。通过在播放器播放视频文件的同时,再调用TTS(文字转语音)引擎将用户导入的外挂字幕文件按照时间轴与视频文件一起通过声音输出给用户,从而解决视力障碍人无法看懂外语视频或者是错失视频中的关键场景的问题。

Claims (1)

1.一种使用Android设备同步朗读视频文件外挂字幕的方法,其特征在于,所述方法包括如下步骤:
步骤一、识别视频文件的身份标识
在本步骤中,首先通过检测视频文件中的身份标识字段来识别视频的身份,所述视频的身份与该视频唯一对应。
步骤二、识别该身份标识中的外文信息,并将该外文信息反馈给用户
在本步骤中,首先通过读取在所述视频中设置的外文信息的字段,所述字段包括专用标识外文信息的字段或者是视频的所述身份标识字段中的具体数字;识别出外文信息后,将所述外文信息反馈给用户,所述反馈包括语音反馈,或者是通过弹出对话框并通过读屏软件读取对话框的方式来反馈给用户相应的外文信息;
步骤三、根据用户的选择,从服务器上调取与所述视频的身份标识唯一对应的视频字幕
在本步骤中,根据外文信息反馈给用户后,所述用户选择了调取字幕时,与远程服务器进行匹配,调取与所述视频的身份标识唯一对应的视频字幕;所述匹配采用所述视频的身份标识完成,所述字幕包括将外文翻译成中文的字幕信息,和/或对于视频场景进行说明的信息;
步骤四、将所述唯一对应的视频字幕下载到本地
在本步骤中,将匹配完成后的视频字幕下载到本地,这种下载可以是一次下载完成,也可以是在视频播放的过程中进行下载;
步骤五、调取文字转语音引擎,并根据设置阅读下载到本地的字幕。
在本步骤中,通过调取文字转语音引擎来实现对于字幕的阅读,所述设置包括设置文字转语音引擎的阅读方式,包括但不限于,语音的时间轴、语速、音量。
CN201711019961.7A 2017-10-27 2017-10-27 一种使用Android设备同步朗读视频文件外挂字幕的方法 Pending CN107750009A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711019961.7A CN107750009A (zh) 2017-10-27 2017-10-27 一种使用Android设备同步朗读视频文件外挂字幕的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711019961.7A CN107750009A (zh) 2017-10-27 2017-10-27 一种使用Android设备同步朗读视频文件外挂字幕的方法

Publications (1)

Publication Number Publication Date
CN107750009A true CN107750009A (zh) 2018-03-02

Family

ID=61252773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711019961.7A Pending CN107750009A (zh) 2017-10-27 2017-10-27 一种使用Android设备同步朗读视频文件外挂字幕的方法

Country Status (1)

Country Link
CN (1) CN107750009A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766558A (zh) * 2018-12-29 2019-05-17 河北三川科技有限公司 一种基于身份信息播放翻译广告字幕的方法
CN110767233A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种语音转换***及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179093A (zh) * 2011-12-22 2013-06-26 腾讯科技(深圳)有限公司 视频字幕的匹配***和方法
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103854648A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 汉语外语有声影像资料双向可逆语音转换并加注字幕方法
CN103902529A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 外语自动实时标注中外文字幕音像录播方法
CN103902531A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
CN105681890A (zh) * 2016-01-26 2016-06-15 广东欧珀移动通信有限公司 一种视频播放终端的字幕显示方法及装置
CN106792097A (zh) * 2016-12-27 2017-05-31 深圳Tcl数字技术有限公司 音频信号字幕匹配方法及装置
CN106874034A (zh) * 2017-01-09 2017-06-20 深圳市联谛信息无障碍有限责任公司 一种在Android平台无障碍阅读自定义对话框的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179093A (zh) * 2011-12-22 2013-06-26 腾讯科技(深圳)有限公司 视频字幕的匹配***和方法
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103854648A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 汉语外语有声影像资料双向可逆语音转换并加注字幕方法
CN103902529A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 外语自动实时标注中外文字幕音像录播方法
CN103902531A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
CN105681890A (zh) * 2016-01-26 2016-06-15 广东欧珀移动通信有限公司 一种视频播放终端的字幕显示方法及装置
CN106792097A (zh) * 2016-12-27 2017-05-31 深圳Tcl数字技术有限公司 音频信号字幕匹配方法及装置
CN106874034A (zh) * 2017-01-09 2017-06-20 深圳市联谛信息无障碍有限责任公司 一种在Android平台无障碍阅读自定义对话框的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766558A (zh) * 2018-12-29 2019-05-17 河北三川科技有限公司 一种基于身份信息播放翻译广告字幕的方法
CN110767233A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种语音转换***及方法

Similar Documents

Publication Publication Date Title
US9799375B2 (en) Method and device for adjusting playback progress of video file
CN101630448B (zh) 语言学习客户端及***
US20130196292A1 (en) Method and system for multimedia-based language-learning, and computer program therefor
Chang A Tentative Analysis of English Film Translation Characteristics and Principles.
CN108292314B (zh) 信息处理装置、信息处理方法和程序
CN106021496A (zh) 视频搜索方法及视频搜索装置
CN105488094A (zh) 通过媒体内容的语音搜索元数据
CN105898517A (zh) 字幕显示控制方法及装置
CN103348338A (zh) 文件格式、服务器、数字漫画的观看器设备、数字漫画产生设备
CN106488300A (zh) 一种视频内容查看方法及装置
CN101465068A (zh) 用于确定电子设备中增补内容的方法
Secară Surtitling and captioning for theatre and opera
Leung Always in translation: Trans cinema across languages
CN107750009A (zh) 一种使用Android设备同步朗读视频文件外挂字幕的方法
WO2015019774A1 (ja) データ生成装置、データ生成方法、翻訳処理装置、プログラム、およびデータ
CA3211867A1 (en) Systems and methods for improved video captions
Duarte et al. Multimedia accessibility
KR100944958B1 (ko) 특정 구간의 멀티미디어 데이터 및 캡션 데이터를 제공하는장치 및 서버
US20210158723A1 (en) Method and System for Teaching Language via Multimedia Content
CN101674420A (zh) 撷取图像文字的翻译***及其方法
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
Massidda et al. Subtitling and fansubbing standards: A hybrid proposal
CN117014694A (zh) 视频字幕显示方法、装置、电子设备和存储介质
Schneider Development and validation of a concept for layered audio descriptions
Mosconi et al. Accessibility and usability in the context of human-computer interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180302